JP2014170185A - 発話コマンド認識システム - Google Patents

発話コマンド認識システム Download PDF

Info

Publication number
JP2014170185A
JP2014170185A JP2013043104A JP2013043104A JP2014170185A JP 2014170185 A JP2014170185 A JP 2014170185A JP 2013043104 A JP2013043104 A JP 2013043104A JP 2013043104 A JP2013043104 A JP 2013043104A JP 2014170185 A JP2014170185 A JP 2014170185A
Authority
JP
Japan
Prior art keywords
command
voice
unit
utterance
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013043104A
Other languages
English (en)
Other versions
JP6236805B2 (ja
Inventor
Atsunori Sakai
敦典 坂井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013043104A priority Critical patent/JP6236805B2/ja
Publication of JP2014170185A publication Critical patent/JP2014170185A/ja
Application granted granted Critical
Publication of JP6236805B2 publication Critical patent/JP6236805B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声認識結果が端末操作可能な発話コマンド以外のものになってしまう危険性を少なくする。
【解決手段】コマンド重み記憶部171には、認識対象となる発話コマンドの表記が記録されている。音声認識部172は、クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、上記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する。コマンド認識部173は、コマンド重み記憶部171に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、音声認識部172で選択された候補単語を連結した候補単語列に存在する発話コマンドを、上記音声に含まれている発話コマンドと認識する。
【選択図】図17

Description

本発明は、発話コマンドを認識する発話コマンド認識システム、音声認識サーバ、発話コマンド認識方法、及び、プログラムに関する。
近年、スマートフォンなどのモバイル端末で利用されている「Siri」や「しゃべってコンシェル」等のような、発話コマンドによる端末操作を可能にする音声アシスタントアプリケーションが普及し始めている。これらの音声アシスタントアプリケーションでは、音声認識サーバにおいて、各ユーザのモバイル端末から送られてくる音声データに対する音声認識を実行している。
音声認識サーバにおいて、不特定多数のユーザから送られてくる音声データに対する音声認識を実行する技術としては、次のような技術が知られている(例えば、特許文献1参照)。
特許文献1に記載されている技術では、複数の音声認識装置を備えた音声認識サーバを用いて、端末装置から送られてくる音声データに対する音声認識を実行している。各音声認識装置は、特性が異なる音響モデル、言語モデル、音声認識アルゴリズムを有している。例えば、或る音声認識装置には、若い男性用の音響モデルを配置し、別の音声認識装置には、若い女性用の音響モデルを配置するというように、各音声認識装置に特性の異なる音響モデルを配置する。
音声認識サーバは、端末装置から発話コマンドに対応する音声データが送られてくると、上記複数の音声認識装置を並列動作させる。そして、或る音声認識装置が認識結果を出力すると、その信頼度が閾値以上であるか否かを判定する。信頼度が閾値以上である場合には、上記或る音声認識装置から出力された認識結果を最終的な認識結果とし、全ての音声認識装置における音声認識タスクを停止させる。これに対して、信頼度が閾値未満である場合には、他の音声認識装置から認識結果が出力されるのを待ち、上述した処理と同様の処理を行う。
特表2011−527030号公報
上述した特許文献1に記載されている技術は、特性が異なる音響モデル、言語モデル、及び、音声認識アルゴリズムを有する複数の音声認識装置を並列に動作させ、最初に出力された信頼度が閾値以上の認識結果を最終的な認識結果としているので、1台の音声認識装置を用いて音声認識を行う場合にして、高い認識精度を得ることができる。しかし、特許文献1に記載されている技術は、最初に出力された信頼度が閾値以上の認識結果を最終的な認識結果としているだけであり、端末操作可能な発話コマンドとしてどのようなコマンドが存在するのかを全く考慮していないため、音声認識結果が端末操作可能な発話コマンド以外のものになってしまう危険性がある。
[発明の目的]
そこで、本発明に目的は、音声認識結果が端末操作可能な発話コマンド以外のものになってしまう危険性があるという課題を解決した発話コマンド認識システムを提供することにある。
本発明に係る発話コマンド認識システムは、
クライアント端末と音声認識サーバとを備え、
前記音声認識サーバは、
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、
前記クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部と、
前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部とを備える。
本発明に係る音声認識サーバは、
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、
クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部と、
前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部とを備える。
本発明に係る発話コマンド認識方法は、
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、音声認識部と、コマンド認識部とを備えたコンピュータが実行する発話コマンド認識方法であって、
前記音声認識武が、前記クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択し、
コマンド認識武が、前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識する。
本発明に係るプログラムは、
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部を備えたコンピュータを、
クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部、
前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部として機能させる。
本発明によれば、音声認識結果が端末操作可能な発話コマンド以外のものになってしまう危険性を少なくすることができる、という効果を得ることができる。
本発明の第1の実施の形態に係る発話コマンド認識システムの構成例を示すブロック図である。 クライアント端末2−1の構成例を示す図である。 コマンド動作対応表記憶部25の内容例を示す図である。 音声認識サーバ1の構成例を示すブロック図である。 コマンド表記憶部110の内容例を示す図である。 コマンド重み記憶部112の内容例を示す図である。 個人データ記憶部114の内容例を示す図である。 単語辞書一時記憶部113の内容例を示す図である。 追加部107の処理例を示すフローチャートである。 個人データ記録部116の処理例を示すフローチャートである。 単語辞書作成部102の処理例を示すフローチャートである。 音声認識部103の処理例を示すフローチャートである。 音声認識結果の一例を示す図である。 コマンド認識部104の処理例を示すフローチャートである。 重み変更部105の動作を説明するための図である。 重み変更部105の処理例を示すフローチャートである。 本発明の第2の実施の形態に係る発話コマンド認識システムの構成例を示すブロック図である。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
[本発明の第1の実施の形態]
図1を参照すると、本発明の第1の実施の形態に係る発話コマンド認識システムは、音声認識サーバ1と、スマートフォン等のモバイル端末やパーソナルコンピュータ等により実現されるクライアント端末2−1〜2−nと、アプリケーション一覧情報記憶部31を有するクラウドサーバ3とを備え、それらはネットワークNWを介して相互に接続されている。なお、クラウドサーバ3のアプリケーション一覧情報記憶部31には、クライアント端末2−1〜2−nのユーザのユーザ名に関連付けて、そのクライアント端末にインストールされているアプリケーションのアプリケーション名が記録されている。
クライアント端末2−1〜2−nは、ユーザが発話した発話コマンドを含む音声データを音声認識サーバ1へ送信する機能や、音声認識サーバ1から送られてきた発話コマンドに対する認識結果に基づいて、自端末2−1〜2−nにインストールされているアプリケーションの機能を呼び出す機能などを有する。
図2はクライアント端末2−1の構成例を示すブロック図であり、音声入力部21と、送受信部22と、機能呼出し部23と、追加部24と、コマンド動作対応表記憶部25と、複数のアプリケーション27−1〜27−mが記録(インストール)されている記憶装置26とを備えている。なお、他のクライアント端末もクライアント端末2−1と同様の構成を有している。
音声入力部21は、ユーザが発話した発話コマンドを含む音声の音声データと、クライアント端末2−1のユーザのユーザ名とを含む認識要求を、送受信部22を介して音声認識サーバ1へ送信する機能を有する。ここで、音声データは、音声信号であっても良いし、音声の特徴量であっても良い。また、ユーザの発話内容は、「連絡先を起動」のように、発話コマンドだけが含まれる場合と、「xxxさんの住所は」のように発話コマンド「さんの住所は」と非発話コマンド部「xxx」とが含まれる場合がある。
送受信部22は、ネットワークNWを介してデータを送受信する機能を有する。
コマンド動作対応表記憶部25には、発話コマンドの表記と、その発話コマンドが関連するアプリケーションの名前(アプリ名)と、その発話コマンドが発話された際の動作内容とが関連付けて記録されている。図3にコマンド動作対応表記憶部25の内容例を示す。同図における例えば第2行目は、発話コマンド「〜さんの住所は」は、連絡先アプリケーション(連絡先アプリ)に関連するものであり、動作内容が「連絡先アプリの住所表示機能を呼出し、〜の値を引き渡す」であることを示している。
機能呼出し部23は、音声認識サーバ1から送られてきた発話コマンドに対する認識結果に関連付けて記録されている動作内容をコマンド動作対応表記憶部25から検索する機能や、検索した動作内容に従った動作を行う機能を有する。なお、動作内容に従った動作を行う際に必要であれば、音声認識部1から送られてきた非発話コマンド部の認識結果を利用する。例えば、音声認識サーバ1から発話コマンド及び非発話コマンド部の認識結果として「さんの住所は」「xxx」が送られてきた場合は、機能呼出し部23は、連絡先アプリの住所表示機能を呼出し、「xxx」を引き渡す。
追加部24は、音声認識サーバ1から発話コマンドの表記、その発話コマンドが関連するアプリケーション名、及び、その発話コマンドが発話された際の動作内容を含む追加指示が送られてきたとき、追加指示に含まれている各情報をコマンド動作対応表記憶部25に記録する機能を有する。
なお、クライアント端末2−1をコンピュータによって実現する場合は、例えば、次のようにする。コンピュータを、音声入力部21、送受信部22、機能呼出し部23、及び、追加部24として機能させるプログラムが記録したディスク、半導体メモリ、その他の記録媒体を用意し、コンピュータに上記プログラムを読み取らせる。コンピュータは、読み取ったプログラムに従って自身の動作を制御することにより、自コンピュータ上に音声入力部21、送受信部22、機能呼出し部23、及び、追加部24を実現する。
音声認識サーバ1は、クライアント端末2−1〜2−nから送られてきた発話コマンドを含む音声データに対して音声認識を行い、認識結果をクライアント端末2−1〜2−nに返す機能や、クライアント端末2−1〜2−nの機能呼出し部23により機能を呼び出すことができるアプリケーション(新アプリケーション)を追加する機能を有する。
図4を参照すると、音声認識サーバ1は、送受信部101と、単語辞書作成部102と、音声認識部103と、コマンド認識部104と、重み変更部105と、個人データ記録部106と、追加部107と、言語モデル108と、音響モデル109と、コマンド表記憶部110と、共通単語辞書記憶部111と、コマンド重み記憶部112と、単語辞書一時記憶部113と、個人データ記憶部114と、キーボードやLCDから構成される入出力部115を備えている。
コマンド表記憶部110には、クライアント端末2−1〜2−nの機能呼出し部23から機能を呼び出すことができるアプリケーションのアプリケーション名に関連付けて、そのアプリケーションの機能を呼び出すために使用する発話コマンドの表記と、そのアプリケーションを利用する際に必要になる共通単語辞書の名前とが記録されている。更に、コマンド表記憶部110には、発話コマンドの表記に関連付けて、その発話コマンドの表記と音声認識結果との比較方法と、その発話コマンドが発話されたときの動作内容とが記録されている。図5にコマンド表記憶部110の内容例を示す。なお、発話コマンドの表記と音声認識結果との比較方法については、後で詳しく説明する。
共通辞書記憶部111には、複数のアプリケーションで共通に利用可能な共通単語辞書(アドレス帳単語辞書、メール内容辞書など)が記録される。共通単語辞書には、単語の表記と読みとが関連付けて記録される。
コマンド重み記憶部112には、アプリケーション名に関連付けて、そのアプリケーションの機能を呼び出すために使用する発話コマンドの表記と、読みと、重み(アプリケーション側重み)とが記録されている。図6にコマンド重み記憶部112の内容例を示す。この発話コマンド毎に設定されている重みは、発話コマンドを構成する各単語(助詞を除く)の出現確率に対する重みである。重みを大きくするほど、その発話コマンドを構成する単語の出現確率が高くなり、この発話コマンドを構成する単語に対する認識結果の信頼度が高くなる。従って、或るアプリケーションにおいて、特定の発話コマンドを認識されやすくするためには、その発話コマンドの重みを大きな値にすれば良い。なお、ここでは、重みを、発話コマンドを構成する単語の出現確率に対する重みとしたが、単語の出現頻度に対する重みとしても良い。この場合、重みを大きくする程、発話コマンドを構成する単語の出現頻度が高くなり、発話コマンドを構成する各単語の信頼度が高くなる。
個人データ記憶部114には、クライアント端末2−1、2−2、…のユーザのユーザ名U1、U2、…に関連付けて、そのユーザのクライアント端末にインストールされているアプリケーションのアプリケーション名が記録されている。更に、アプリケーション名に関連付けて、そのアプリケーションの機能を呼び出すために使用する発話コマンドの表記と、重み(個人側重み)とが記録されている。ここで、発話コマンド毎に設定されている重みは、発話コマンドを構成する各単語(助詞を除く)の出現確率に対する重みである。重みを大きくするほど、その発話コマンドを構成する単語の出現確率が高くなり、その発話コマンドを構成する単語の信頼度が高くなる。従って、ユーザの声質や話し方により認識されにくい発話コマンド等がある場合には、上記ユーザのユーザ名に関連付けて記録されている重みの内、認識されにくい発話コマンドに対する重みの値を大きな値にすれば良い。
単語辞書一時記憶部113には、音声認識部103で音声認識を行う際に使用される単語辞書が記録される。より具体的には、音声データの送信元のクライアント端末にインストールされているアプリケーションで必要になる共通単語辞書が記録されると共に、インストールされているアプリケーションのアプリケーション名に関連付けてコマンド重み記憶部112に記録されている発話コマンドの表記および重みと、上記クライアント端末のユーザのユーザ名に関連付けて個人データ記憶部114に記録されている発話コマンドの表記及び重みとに基づいて作成された単語辞書が記録される。単語辞書の作成方法については、後で詳しく説明する。なお、コマンド重み記憶部112および個人データ記憶部114の内容がそれぞれ図6及び図7に示すものであり、音声データの送信元のユーザのユーザ名がU1であるときに作成される単語辞書を図8に示す。
追加部107は、クライアント端末2−1〜2−nの機能呼出し部23から機能を呼び出すことができる新たなアプリケーション(新アプリケーション)を追加する場合、新アプリケーションを追加するために必要になる情報を各記憶部110,112に記録するものであり、次のような機能を有する。
・管理者が入出力部115から入力する追加指示に従って、コマンド表記憶部110に、新アプリケーションのアプリケーション名と、新アプリケーションの機能を呼び出すために使用する発話コマンドの表記と、その発話コマンドの表記と音声認識結果との比較方法と、その発話コマンドが発話されたときの動作内容とを記録する機能。
・コマンド表記憶部110に新たに記録したアプリケーションのアプリケーション名と、そのアプリケーションの機能を呼び出すために使用する発話コマンドの表記および読みとをコマンド重み記憶部112に記録すると共に、管理者の指示に従って新たに記録した各発話コマンドの重みをコマンド重み記憶部112に記録する機能。
個人データ記録部106は、次のような機能を有する。
・クラウドサーバ3のアプリケーション一覧情報記憶部31から定期的に、各ユーザのクライアント端末2−1〜2−nにインストールされているアプリケーションの一覧を取得する機能。なお、クラウドサーバ3からアプリケーションの一覧を取得する代わりに、各ユーザのクライアント端末2−1〜2−nからアプリケーションの一覧を取得するようにしてもよい。
・クラウドサーバ3から取得したアプリケーションの一覧と、個人データ記憶部114の内容とに基づいて、ユーザ毎に、前回のアプリケーションの一覧取得時以降にインストールされたアプリケーションがあるか否かを判定する機能。
・前回のアプリケーションの一覧取得時以降にインストールされたアプリケーションがあると判定したユーザについては、コマンド表記憶部110から上記アプリケーションの機能を呼び出すために使用する発話コマンドの表記を取得し、ユーザ名に関連付けて上記アプリケーションのアプリケーション名と、コマンド表記憶部110から取得した上記アプリケーションを利用するために必要になる発話コマンドの表記と、各発話コマンドの重みとを個人データ記憶部114に記録する機能。なお、重みは、予め定められているデフォルト値を設定する。
・前回のアプリケーションの一覧取得時以降にインストールしたアプリケーションがあると判定したユーザについては、そのユーザのクライアント端末に対して、上記アプリケーションのアプリケーション名と、コマンド表記憶部110から取得した上記アプリケーションの機能を呼び出すために使用する発話コマンドの表記および動作内容とを含む追加指示を送信する機能。
重み変更部105は、ユーザ毎に、そのユーザのクライアント端末のインストールされている各アプリケーションの利用回数を管理し、管理している各アプリケーションの利用回数に応じて、個人データ記憶部114に記録されている発話コマンドの重みを変更する機能を有する。
送受信部101は、ネットワークNWを介してデータを送受信する機能を有する。
単語辞書作成手段102は、次の機能を有する。
・送受信部101を介して音声認識要求を受信したとき、その送信元ユーザのクライアント端末にインストールされているアプリケーションに関する情報を、コマンド重み記憶部112および個人データ記憶部114から入力する機能。より具体的には、個人データ記憶部114から、ユーザ名「U1」に関連付けて記録されているアプリケーション名、発話コマンドの表記、及び重み(個人側重み)を入力し、コマンド重み記憶部112から送信元ユーザのクライアント端末にインストールされているアプリケーションのアプリケーション名に関連付けて記録されている発話コマンドの表記、読み、及び重み(アプリ側重み)を入力する。
・入力した発話コマンド毎に、アプリ側重みと個人側重みとを乗算し、合成重みを算出する機能。
・入力した各発話コマンドを形態素解析により単語に分割し、各単語の表記、読み、及び重み(合成重み)が設定された単語辞書を作成し、単語辞書一時記憶部113に記録する機能。なお、各単語の重みは、その単語が含まれていた発話コマンドの合成重みとする。また、複数の発話コマンドに同一の単語(例えば、図6、図7における「起動」など)が含まれている場合は、その単語が含まれている発話コマンドの合成重みの合計値を、その単語の重みとする。
・コマンド表記憶部110を参照し、ユーザがインストールしているアプリケーションが共通単語辞書を必要としているか否かを判定し、必要である場合は、該当する共通単語辞書を共通単語辞書記憶部111から入力し、単語辞書一時記録部113に記録する機能。
・音声認識に必要な全ての単語辞書を単語辞書一時記憶部113に記録した後、音声認識部103に対して音声認識開始を指示する機能。
音声認識部103は、単語辞書一時記憶部113に記録されている単語辞書、言語モデル108、及び、音響モデル109を利用して、送受信部101を介して受信した音声認識要求中の音声データに対して音声認識を行い、音声データに含まれている単語毎に、その単語に対する候補単語と、この候補単語に対する信頼度(単語の重みを考慮した信頼度)とを求め、求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する機能を有する。本実施の形態では、各単語毎に、第1候補単語〜第3候補単語を選択する。
ここで、単語の重みを考慮した信頼度としては、例えば次式(1)に示す事後確率P(W|X)を利用することができる。
P(W|X)=P(X|W)・P(W)・WF/P(X) ・・・(1)
なお、式(1)においてP(W)は単語Wの出現確率、P(X)は音声データXの出現確率、WFは単語辞書一時記憶部113に記録されている単語辞書に設定されている単語Wに対する重みである。
コマンド認識部104は、次のような機能を有する。
・音声認識要求の送信元ユーザのユーザ名に関連付けて個人データ記憶部114に表記が記録されている発話コマンドの中に、コマンド表記憶部110に記録されている比較方法で比較したときに、音声認識部103で選択された候補単語を連結した候補単語列と一致する発話コマンドが存在するか否かを調べ、存在する場合は、その発話コマンドの表記を音声データに含まれている発話コマンドの最終的な認識結果とする機能。
・発話コマンドの最終的な認識結果と、非発話コマンド部の認識結果とを音声認識要求の送信元のクライアント端末へ送信する機能。
なお、音声認識サーバ1は、コンピュータにより実現可能であり、その場合は、例えば、次のようにする。コンピュータを、送受信部101、単語辞書作成部102、音声認識部103、コマンド認識部104、重み変更部105、個人データ記録部106、及び、追加部107として機能させるためのプログラムを記録したディスク、半導体メモリ、その他の記録媒体を用意し、コンピュータに上記プログラムを読み取らせる。コンピュータは、読み取ったプログラムに従って自身の動作を制御することにより、自コンピュータ上に、上記各部101〜107を実現する。
[第1の実施の形態の動作]
次に、本実施の形態の動作について詳細に説明する。
先ず、クライアント端末2−1〜2−nの機能呼出し部23により機能を呼び出すことができるアプリケーション(新アプリケーション)を追加する場合の動作を説明する。
管理者は、新アプリケーションを追加する場合、新アプリケーションのアプリケーション名と、新アプリケーションの機能を呼び出すために使用する発話コマンドの表記と、その発話コマンドの表記と音声認識結果との比較方法と、その発話コマンドが発話されたときの動作内容とを含んだ追加指示を入出力部115から入力する。
これにより、追加部107は、図9のフローチャートに示すように、コマンド表記憶部110に、追加指示に含まれている新アプリケーションのアプリケーション名と、新アプリケーションの機能を呼び出すために使用する発話コマンドの表記と、その発話コマンドの表記と音声認識結果との比較方法と、その発話コマンドが発話されたときの動作内容とを記録する(ステップS91)。その後、追加部107は、新アプリケーションのアプリケーション名と、そのアプリケーションの機能を呼び出すために使用する発話コマンドの表記および読みとをコマンド重み記憶部112に記録すると共に、管理者の指示に従って新たに記録した各発話コマンドの重みを記録する(ステップS92)。
また、個人データ記録部106は、新アプリケーションを自身のクライアント端末2−k(1≦k≦n)にインストールしたユーザが、新アプリケーションを利用できるようにするため、定期的に図10のフローチャートに示す処理を行っている。
個人データ記録部106は、先ず、クラウドサーバ3のアプリケーション一覧情報記憶部31から、各ユーザのクライアント端末2−1〜2−nにインストールされているアプリケーションの一覧を取得する(ステップS101)。
次に、個人データ記録部106は、クラウドサーバ3から取得したアプリケーションの一覧と、個人データ記憶部114の内容とに基づいて、ユーザ毎に、前回のアプリケーションの一覧取得時以降にインストールされたアプリケーションがあるか否かを判定する。そして、そのようなアプリケーションがあるユーザについては、コマンド表記憶部110から上記アプリケーションの機能を呼び出すために使用する発話コマンドの表記を取得し、ユーザ名に関連付けて上記アプリケーションのアプリケーション名と、コマンド表記憶部110から取得した発話コマンドの表記と、各発話コマンドの重みとを個人データ記憶部114に記録する。なお、重みは、予め定められているデフォルト値を設定する(ステップS102)。
更に、前回のアプリケーションの一覧取得時以降にインストールしたアプリケーションがあるユーザについては、そのユーザのクライアント端末に対して、上記アプリケーションのアプリケーション名と、コマンド表記憶部110から取得した上記アプリケーションの機能を呼び出すために使用する発話コマンドの表記および動作内容とを含む追加指示を送信する(ステップS103)。これにより、クライアント端末内の追加部24は、追加指示に含まれているアプリケーション名と、発話コマンドの表記および動作内容とをコマンド動作対応表記憶部25に記録する。
次に、クライアント端末2−1のユーザがアプリケーションの機能を呼び出すために、音声入力部21に発話コマンドを含む音声を入力した場合の動作を説明する。なお、クライアント端末2−1のユーザのユーザ名は「U1」であるとする。
クライアント端末2−1の音声入力部21は、ユーザが発話した発話コマンドを含む音声の音声データと、クライアント端末2−1のユーザのユーザ名「U1」とを含む認識要求を、送受信部22を介して音声認識サーバ1へ送信する。なお、以下の説明では、ユーザの発話内容は「明日駅前の広場に集合とメモして」であるとする。この発話内容に含まれる発話コマンドは「メモして」である。
音声認識サーバ1内の単語辞書作成部102は、送受信部101を介して音声認識要求を受信すると、図11のフローチャートに示すように、送信元ユーザのクライアント端末2−1にインストールされているアプリケーションに関する情報を、コマンド重み記憶部112および個人データ記憶部114から入力する(ステップS111)。例えば、コマンド重み記憶部112および個人データ記憶部114の内容がそれぞれ図6および図7に示すものである場合は、個人データ記憶部114から、ユーザ名「U1」に関連付けて記録されているアプリケーション名「連絡先アプリ」「メモアプリ」「リマインダーアプリ」、発話コマンドの表記、及び重み(個人側重み)を入力し、コマンド重み記憶部112からアプリケーション名「連絡先アプリ」「メモアプリ」「リマインダーアプリ」に関連付けて記録されている発話コマンドの表記、読み、及び重み(アプリ側重み)を入力する。
次に、単語辞書作成部102は、ステップS111で入力した発話コマンド毎に、アプリ側重みと個人側重みとを乗算し、合成重みを算出する(ステップS112)。例えば、図6および図7の例では、発話コマンド「連絡先を起動」は、アプリ側重みが「2」で、個人側重みが「1」であるので、合成重みは「2×1=2」となる。また、発話コマンド「さんの住所は」は、アプリ側重みが「1」、個人側重みが「2.5」であるので、合成重みは「1×2.5=2.5」となる。
その後、単語辞書作成部102は、入力した各発話コマンドを形態素解析により単語に分割し、各単語の表記、読み、及び重み(合成重み)が設定された単語辞書を作成し、単語辞書一時記憶部113に記録する(ステップS113、S114)。なお、各単語の重みは、その単語が含まれていた発話コマンドの合成重みとする。また、複数の発話コマンドに同一の単語(例えば、図6、図7における「起動」など)が含まれている場合は、その単語が含まれている発話コマンドの合成重みの合計値を、その単語の重みとする。この例の場合、単語辞書一時記憶部113に記録される単語辞書は、図8に示すものとなる。
次に、単語辞書作成部102は、コマンド表記記憶部110を参照し、ユーザがインストールしているアプリケーションが共通単語辞書を必要としているか否かを判定し、必要である場合は、該当する共通単語辞書を共通単語辞書記憶部111から入力し、単語辞書一時記録部113に記録する(ステップS115)。この例の場合、ユーザ名「U1」のユーザのクライアント端末2−1にインストールされているアプリケーションは「連絡アプリ」「メモアプリ」「リマインダーアプリ」であるので、「アドレス帳単語辞書」「メモ内容辞書」「リマインド内容辞書」が必要であると判定され、それらが単語辞書一時記憶部113に記録される。
そして、音声認識に必要な全ての単語辞書を単語辞書一時記憶部113に記録すると、単語辞書作成部102は、音声認識部103に対して音声認識開始を指示する(ステップS116)。
これにより、音声認識部103は、単語辞書一時記憶部113に記録されている単語辞書、言語モデル108、及び、音響モデル109を利用して、送受信部101を介して受信した音声認識要求中の音声データに対して音声認識を行い、音声データに含まれている単語毎に、その単語に対する候補単語と、候補単語の信頼度(単語の重みを考慮した信頼度)とを求める(ステップS121、S122)。その後、音声認識部103は、求めた候補単語の中から信頼度が高い順に複数の候補単語を選択し、選択した候補単語と信頼度との組を認識結果として出力する(ステップS123)。なお、本実施の形態では、各単語毎に、第1候補単語〜第3候補単語を選択する。また、以下の説明では、認識結果として図13に示す認識結果が出力されたとする。
コマンド認識部104は、音声認識部103から図13に示す認識結果が出力されると、先ず、図14のフローチャートに示すように、送信元ユーザのユーザ名U1に関連付けて個人データ記憶部114に表記が記録されている発話コマンドの表記の中に、コマンド表記憶部110に記録されている比較方法(全文一致または後方一致)で比較したときに、音声認識部103で選択された第1候補単語を連結した候補単語列と一致する発話コマンドが存在するか否かを調べる(ステップS141)。
そして、そのような発話コマンドが存在する場合(ステップS141がYes)は、その発話コマンドの表記を認識結果として、要求元のクライアント端末2−1へ送信する。また、非発話コマンド部が存在する場合は、その部分の認識結果として、非発話コマンド部を構成する各単語の第1候補単語を連結した候補単語列の表記もクライアント端末2−1へ送る(ステップS144)。これに対して、そのような発話コマンドが存在しない場合(ステップS141がNo)は、ステップS142に移行する。この例の場合、第1候補単語を連結した候補単語列は「明日駅前の広場に集合とメモ指定」であり、一致する発話コマンドは存在しないので、ステップS142に移行することになる。
ステップS142では、送信元ユーザのユーザ名U1に関連付けて個人データ記憶部114に表記が記録されている発話コマンドの表記の中に、コマンド表記憶部110に記録されている比較方法で比較したときに、音声認識部103で選択された信頼度が一定値(例えば、0.5)以上の候補単語を連結した候補単語列と一致する発話コマンドが存在するか否かを調べる。そして、そのような発話コマンドが存在しない場合(ステップS142がNo)は、クライアント端末2−1に対して発話コマンドが認識されなかった旨を通知する(ステップS145)。これに対して、そのような発話コマンドが存在する場合(ステップS142がYes)は、ステップS143に移行する。この例の場合、単語「と」「メモ」に対する第1候補単語と、単語「して」に対する対する第2候補単語「して」とを連結した候補単語列は、発話コマンド「とメモして」と一致するので、ステップS143に移行する。
ステップS143では、比較一致となった発話コマンドは、1個だけか否かを判定する。そして、1個だけの場合(ステップS143がYes)は、一致した発話コマンドの表記を発話コマンドの認識結果としてクライアント端末2−1へ送信する。また、非発話コマンド部が存在する場合は、その部分の認識結果もクライアント端末2−1へ送信する。(ステップS146)これに対して、一致する発話コマンドが複数存在する場合(ステップS143がNo)は、ステップS147に移行する。この例の場合、一致する発話コマンドは1個だけであるので、コマンド認識部104は、発話コマンドの認識結果として「とメモして」をクライアント端末2−1へ送信すると共に、非発話コマンド部の認識結果として「明日駅前の広場に集合」をクライアント端末2−1へ送信する。
ステップS147では、発話コマンドを構成する単語の信頼度の平均値が最も高い発話コマンドの表記を、発話コマンドの認識結果として、クライアント端末2−1へ送信する。また、非発話コマンドが存在する場合は、その部分の認識結果もクライアント端末2−1へ送信する(ステップS147)。
クライアント端末2−1の機能呼出し部23は、音声認識サーバ1から発話コマンドと認識されなかった旨の通知を受けると、通知内容を表示部(図示せず)に表示し、ユーザに発話コマンドを再入力することを促す。また、機能呼出し部23は、音声認識サーバ1から、発話コマンドの認識結果「とメモして」と、非発話コマンド部の認識結果「明日駅前の広場に集合」とが送られてくると、発話コマンドの認識結果「メモして」に関連付けてコマンド動作対応表記憶部25に記録されている動作内容の動作を実行する。コマンド動作対応表記憶部25の内容が図3に示すものであるとすると、機能呼出し部23は、メモアプリを呼出し、非発話コマンド部の認識結果「明日駅前の広場に集合」を渡すことになる。
次に、重み変更部105の動作について説明する。重み変更部105は、図15に示すように、ユーザ名に関連付けて、そのユーザがインストールしているアプリケーションの名前と、使用回数とを管理している。この管理は、例えば、送受信部101が受信した音声認識要求に含まれているユーザ名に関連付けて記録されている使用回数の内の、コマンド認識部104で認識された発話コマンドを利用するアプリケーションの使用回数をインクリメントすることにより行う。また、重み変更部105は、定期的に図16のフローチャートに示す処理を行う。
重み変更部105は、アプリケーションの使用回数を管理しているユーザのユーザ名の内の先頭のユーザ名に注目する(ステップS161)。今、例えば、ユーザ名「U1」に注目したとする。次に、注目したユーザ名「U1」のユーザがインストールしている連絡先アプリ、メモアプリ、リマインダーアプリの使用回数の合計値を求める(ステップS162)。図15の例の場合、合計値は、114+36+10=160となる。
その後、次式(2)に示す演算を行うことにより、各アプリケーションの各発話コマンドに対する重みを算出する(ステップS163)。
重み=(アプリケーションの使用回数)÷(アプリケーションの使用回数の合計値)
×10+(デフォルト値) ・・・ (2)
例えば、デフォルト値を「1」とすると、連絡先アプリケーションの各発話コマンドの重みは、次式(3)に示すように「8.125」となる。
重み=114÷(114+36+10)×10+1
=114÷160×10+1
=8.125 ・・・ (3)
その後、重み変更部105は、個人データ記憶部114にユーザ名「U1」に関連付けて記録されている各アプリケーションの各発話コマンドの重みをステップS164で求めた重みに変更する(ステップS165)。重み変更部105は、以上の処理を未注目のユーザ名がなくなるまで繰り返し行い、未注目のユーザ名がなくなると(ステップS166がYes)、その処理を終了する。
なお、重みの変更方法はこれに限られるものではなく、例えば、次のようにしても良い。クライアント端末2−kのユーザは、認識精度が悪いと感じた発話コマンドの表記とユーザ名「Uk」とを含む重み変更要求を音声認識サーバ1へ送信する。音声認識サーバ1内の重み変更部105は、重み変更指示を受信すると、ユーザ名「Uk」に関連付けて個人データ記憶部114に記録されている上記発話コマンドの重みを所定量インクリメントする。また、上述した説明では、音声認識結果を音声認識要求の要求元へ返すようにしたが、要求元ユーザによって予め指定されている家電製品などに送り、その動作を制御するようにすることもできる。
[第1の実施の形態の効果]
本実施の形態によれば、音声認識結果が端末操作可能な発話コマンド以外のものになってしまう危険性を少なくすることができる、という効果を得ることができる。その理由は、コマンド重み記憶部112に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、音声認識部103で選択された候補単語を連結した候補単語列に存在する発話コマンドを、上記音声に含まれている発話コマンドと認識するコマンド認識部104を備えているからである。
また、本実施の形態によれば、ユーザ毎に、特定の発話コマンドを認識されやすくすることができるという効果を得ることができる。その理由は、音声認識部104が候補単語の信頼度を求める際、個人データ記憶部114に記録されている、音声データの送信元のユーザのクライアント端末にインストールされているアプリケーションで使用する発話コマンドの重みを考慮するようにしているからである。
更に、本実施の形態によれば、アプリケーション毎に、特定の発話コマンドを認識されやすくすることができるという効果を得ることができる。その理由は、音声認識部103が候補単語の信頼度を求める際、コマンド重み記憶部112に記録されている発話コマンドの重みの内、音声データの送信元のクライアント端末にインストールされているアプリケーションの機能を呼び出すために使用する発話コマンドの重みも考慮するようにしているからである。
また、本実施の形態によれば、クライアント端末において発話コマンドを用いて機能を呼び出すことができるアプリケーションを追加することができるという効果を得ることができる。その理由は、音声認識サーバ1が、クライアント端末の機能呼び出し部23により機能を呼び出すことができる新アプリケーションを追加する場合、上記新アプリケーションの機能を呼び出すために使用するコマンドの表記と重みとをコマンド重み記憶部112に記録する追加部と、上記クライアント端末に上記新アプリケーションがインストールされている場合、上記個人データ記憶部114に、上記クライアント端末のユーザに関する情報として、上記新アプリケーションの機能を呼び出すために使用するコマンドの表記と重みとを記録する個人データ記録部と備えているからである。
[本発明の第2の実施の形態]
次に、本発明の第2の実施の形態に係る発話コマンド認識システムについて説明する。
図17を参照すると、本発明の第2の実施の形態に係る発話コマンド認識システムは、音声認識サーバ170と、クライアント端末180とを備えている。
音声認識サーバ170は、コマンド重み記憶部171と、音声認識部172と、コマンド認識部173とを備えている。
コマンド重み記憶部171には、認識対象となる発話コマンドの表記が記録されている。
音声認識部172は、クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、上記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する。
コマンド認識部173は、コマンド重み記憶部171に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、音声認識部172で選択された候補単語を連結した候補単語列に存在する発話コマンドを、上記音声に含まれている発話コマンドと認識する。
[第2の実施の形態の効果]
本発明によれば、音声認識結果が端末操作可能な発話コマンド以外のものになってしまう危険性を少なくすることができる、という効果を得ることができる。その理由は、コマンド重み記憶部171に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、音声認識部172で選択された候補単語を連結した候補単語列に存在する発話コマンドを、上記音声に含まれている発話コマンドと認識するコマンド認識部173を備えているからである。
本発明は、スマートフォンなどのモバイル機器、パーソナルコンピュータ、音声認識対応のネットワーク家電など、音声によって操作可能な機器からの音声を認識する場合に適用することができる。
1・・・音声認識サーバ
101・・・送受信部
102・・・単語辞書作成部
103・・・音声認識部
104・・・コマンド認識部
105・・・重み記憶部
106・・・個人データ記録部
107・・・追加部
108・・・言語モデル
109・・・音響モデル
110・・・コマンド表記憶部
111・・・共通単語辞書記憶部
112・・・コマンド重み記憶部
113・・・単語辞書一時記憶部
114・・・個人データ記憶部
115・・・入出力部
2−1〜2−n・・・クライアント端末
21・・・音声入力部
22・・・送受信部
23・・・機能呼出し部
24・・・追加部
25・・・コマンド動作対応表記憶部
26・・・記憶装置
27−1〜27−m・・・アプリケーション
3・・・クラウドサーバ
31・・・アプリケーション一覧情報記憶部
170・・・音声認識サーバ
171・・・コマンド重み記憶部
172・・・音声認識部
173・・・コマンド認識部
180・・・クライアント端末

Claims (8)

  1. クライアント端末と音声認識サーバとを備え、
    前記音声認識サーバは、
    認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、
    前記クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部と、
    前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部とを備えることを特徴とする発話コマンド認識システム。
  2. 請求項1記載の発話コマンド認識システムにおいて、
    前記音声認識サーバは、ユーザ毎に、そのユーザのクライアント端末にインストールされているアプリケーションの機能を呼び出すために使用する発話コマンドの表記と重みとが関連付けて記録された個人データ記憶部を備え、且つ、
    前記音声認識部は、候補単語の信頼度を求める際、前記個人データ記憶部に記録されている、前記音声データの送信元のユーザのクライアント端末にインストールされているアプリケーションで使用する発話コマンドの重みを考慮することを特徴とする発話コマンド認識システム。
  3. 請求項2記載の発話コマンド認識システムにおいて、
    前記コマンド重み記憶部には、アプリケーション毎に、そのアプリケーションの機能を呼び出すために使用する発話コマンドの表記と重みとが記録され、
    前記音声認識部は、候補単語の信頼度を求める際、前記コマンド重み記憶部に記録されている発話コマンドの重みの内、前記音声データの送信元のクライアント端末にインストールされているアプリケーションの機能を呼び出すために使用する発話コマンドの重みも考慮することを特徴とする発話コマンド認識システム。
  4. 請求項2または3記載の発話コマンド認識システムにおいて、
    前記音声認識サーバは、ユーザ毎に、そのユーザのクライアント端末のインストールされている各アプリケーションの使用回数を管理し、該管理している各アプリケーションの使用回数に応じて、前記個人データ記憶部に記録されている発話コマンドの重みを変更する重み変更部を備えることを特徴とする発話コマンド認識システム。
  5. 請求項3または4記載の発話コマンド認識システムにおいて、
    前記コマンド認識部は、認識結果を前記音声データの送信元のクライアント端末へ送信し、
    前記クライアント端末は、前記コマンド認識部から送られてきた認識結果に基づいて、自クライアント端末にインストールされているアプリケーションの機能を呼び出す機能呼出し部を備え、
    前記音声認識サーバは、
    前記機能呼び出し部により機能を呼び出すことができる新アプリケーションを追加する場合、前記新アプリケーションの機能を呼び出すために使用するコマンドの表記と重みとを前記コマンド重み記憶部に記録する追加部と、
    前記クライアント端末に前記新アプリケーションがインストールされている場合、前記個人データ記憶部に、前記クライアント端末のユーザに関する情報として、前記新アプリケーションの機能を呼び出すために使用するコマンドの表記と重みとを記録する個人データ記録部と備えたことを特徴とする発話コマンド認識システム。
  6. 認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、
    クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部と、
    前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部とを備えることを特徴とする音声認識サーバ。
  7. 認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、音声認識部と、コマンド認識部とを備えたコンピュータが実行する発話コマンド認識方法であって、
    前記音声認識武が、前記クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択し、
    コマンド認識武が、前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識することを特徴とする発話コマンド認識方法。
  8. 認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部を備えたコンピュータを、
    クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部、
    前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部として機能させるためのプログラム。
JP2013043104A 2013-03-05 2013-03-05 発話コマンド認識システム Active JP6236805B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013043104A JP6236805B2 (ja) 2013-03-05 2013-03-05 発話コマンド認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013043104A JP6236805B2 (ja) 2013-03-05 2013-03-05 発話コマンド認識システム

Publications (2)

Publication Number Publication Date
JP2014170185A true JP2014170185A (ja) 2014-09-18
JP6236805B2 JP6236805B2 (ja) 2017-11-29

Family

ID=51692597

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013043104A Active JP6236805B2 (ja) 2013-03-05 2013-03-05 発話コマンド認識システム

Country Status (1)

Country Link
JP (1) JP6236805B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017175283A (ja) * 2016-03-22 2017-09-28 コニカミノルタ株式会社 会議システム、テレビ会議装置およびプログラム
JP2018055022A (ja) * 2016-09-30 2018-04-05 株式会社リコー 音声認識システム、情報処理装置、プログラム
JP2018511831A (ja) * 2015-04-22 2018-04-26 グーグル エルエルシー 開発者音声アクションシステム
US10134390B2 (en) 2015-09-23 2018-11-20 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof
JP2020089641A (ja) * 2018-12-07 2020-06-11 株式会社日立製作所 音声認識入力装置、音声認識入力プログラム及び医用画像撮像システム
JP2020518861A (ja) * 2017-06-29 2020-06-25 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 音声認識方法、装置、デバイス、及び記憶媒体
JP2020160387A (ja) * 2019-03-28 2020-10-01 Necパーソナルコンピュータ株式会社 電子機器、制御方法およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058184A (ja) * 2001-08-09 2003-02-28 Casio Comput Co Ltd 機器制御システム、音声認識装置及び方法、並びにプログラム
JP2004021677A (ja) * 2002-06-18 2004-01-22 Omron Corp 情報提供システム、情報提供方法、情報提供プログラム及び情報提供プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2008003474A (ja) * 2006-06-26 2008-01-10 Funai Electric Co Ltd 電子機器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058184A (ja) * 2001-08-09 2003-02-28 Casio Comput Co Ltd 機器制御システム、音声認識装置及び方法、並びにプログラム
JP2004021677A (ja) * 2002-06-18 2004-01-22 Omron Corp 情報提供システム、情報提供方法、情報提供プログラム及び情報提供プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2008003474A (ja) * 2006-06-26 2008-01-10 Funai Electric Co Ltd 電子機器

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018511831A (ja) * 2015-04-22 2018-04-26 グーグル エルエルシー 開発者音声アクションシステム
US10839799B2 (en) 2015-04-22 2020-11-17 Google Llc Developer voice actions system
US11657816B2 (en) 2015-04-22 2023-05-23 Google Llc Developer voice actions system
US10134390B2 (en) 2015-09-23 2018-11-20 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof
JP2017175283A (ja) * 2016-03-22 2017-09-28 コニカミノルタ株式会社 会議システム、テレビ会議装置およびプログラム
JP2018055022A (ja) * 2016-09-30 2018-04-05 株式会社リコー 音声認識システム、情報処理装置、プログラム
JP2020518861A (ja) * 2017-06-29 2020-06-25 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 音声認識方法、装置、デバイス、及び記憶媒体
JP2020089641A (ja) * 2018-12-07 2020-06-11 株式会社日立製作所 音声認識入力装置、音声認識入力プログラム及び医用画像撮像システム
JP7141938B2 (ja) 2018-12-07 2022-09-26 富士フイルムヘルスケア株式会社 音声認識入力装置、音声認識入力プログラム及び医用画像撮像システム
JP2020160387A (ja) * 2019-03-28 2020-10-01 Necパーソナルコンピュータ株式会社 電子機器、制御方法およびプログラム

Also Published As

Publication number Publication date
JP6236805B2 (ja) 2017-11-29

Similar Documents

Publication Publication Date Title
JP6236805B2 (ja) 発話コマンド認識システム
JP7083270B2 (ja) 複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤ
JP6588637B2 (ja) 個別化されたエンティティ発音の学習
JP6272901B2 (ja) 発話対象の識別
JP5703256B2 (ja) 単語レベルの変換候補生成に基づく音声認識システム及び方法
US9047868B1 (en) Language model data collection
US9542956B1 (en) Systems and methods for responding to human spoken audio
US20190196779A1 (en) Intelligent personal assistant interface system
JP2016532146A5 (ja)
CN110110319A (zh) 语音输入的字词级纠正
WO2015089103A1 (en) Method and system for processing voice messages
TW201239652A (en) Location-based conversational understanding
WO2018022085A1 (en) Identification of preferred communication devices
US10395658B2 (en) Pre-processing partial inputs for accelerating automatic dialog response
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
US8868419B2 (en) Generalizing text content summary from speech content
CN116075887A (zh) 使用来自分离的音频输入的语音内容的数据分析和扩张的语音识别
JP2018185561A (ja) 対話支援システム、対話支援方法、及び対話支援プログラム
CN111462727A (zh) 用于生成语音的方法、装置、电子设备和计算机可读介质
CN110289015B (zh) 一种音频处理方法、装置、服务器、存储介质及系统
US10997963B1 (en) Voice based interaction based on context-based directives
US11347379B1 (en) Captions for audio content
CN116057625A (zh) 使用交错音频输入的数据分析和扩张的语音识别
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
KR102660922B1 (ko) 복수의 지능형 개인 비서 서비스를 위한 관리 계층

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171016

R150 Certificate of patent or registration of utility model

Ref document number: 6236805

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150