JP2014191029A - 音声認識システムおよび音声認識システムの制御方法 - Google Patents

音声認識システムおよび音声認識システムの制御方法 Download PDF

Info

Publication number
JP2014191029A
JP2014191029A JP2013063875A JP2013063875A JP2014191029A JP 2014191029 A JP2014191029 A JP 2014191029A JP 2013063875 A JP2013063875 A JP 2013063875A JP 2013063875 A JP2013063875 A JP 2013063875A JP 2014191029 A JP2014191029 A JP 2014191029A
Authority
JP
Japan
Prior art keywords
voice
response
unit
user
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013063875A
Other languages
English (en)
Inventor
Masaki Shibuya
正樹 渋谷
Tomohiro Iwamoto
智裕 岩本
Hiroshi Takano
啓 高野
Kazunori Samejima
一規 鮫島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Soft Inc
Original Assignee
Fuji Soft Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Soft Inc filed Critical Fuji Soft Inc
Priority to JP2013063875A priority Critical patent/JP2014191029A/ja
Publication of JP2014191029A publication Critical patent/JP2014191029A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Manipulator (AREA)

Abstract

【課題】ユーザからの音声指示であるかを判定し、その判定結果に適した応答レベルを選択すること。
【解決手段】
音声認識システム1は、音声認識部11の認識結果を含む所定の情報に基づいて、ユーザからの音声指示であるかを判定するための所定のパラメータを抽出するパラメータ抽出部12と、所定のパラメータに基づいて、音声認識部で認識された音声がユーザからの音声指示であるか判定する判定部13と、その判定結果に応じて、予め用意されている複数の応答レベルの中から一つの応答レベルを選択する応答レベル選択部14と、音声認識結果と変更条件とを照合することにより、選択された応答レベルを修正する応答レベル変更部15と、修正された応答レベルと音声認識部で認識されたユーザの音声指示とに従って所定の応答を行う応答部16を備える。
【選択図】図1

Description

本発明は、音声認識システムおよび音声認識システムの制御方法に関する。
ユーザによる特別な操作無しで自動的に応答するコミュニケーションロボットは、音声認識の開始を定義できるパーソナルコンピュータ上で動作する音声認識システム等と異なり、自システム(ロボットに搭載された音声認識システム)への語りかけであるか否かを判別するのが難しい。
ユーザはスイッチ等を操作してからロボットに話しかけるのではなく、何のきっかけもなく突然にロボットに話しかけるため、コミュニケーションロボットにおいては音声認識を誤ったり、ユーザの期待する応答とは全く異なる応答を行ったりする可能性がある。そこで、ユーザによるロボットの話しかけであるかを判断するようにした技術が提案されている(特許文献1、2)。
特開2011−227237号公報 特開2007−155985号公報
特許文献1記載の従来技術では、音声認識の信頼度を判定し、音声認識の信頼度が低い場合は首を傾げる等の回答不可能行動を取り、誤った行動をしないようにしている。特許文献2記載の従来技術では、周囲に人物を検知した場合に、音声認識結果を有効なものとして取り扱う。しかし、それらの従来技術では、自システムへの話しかけであるか否かを単純に判別しているだけで、ユーザとのコミュニケーションの質に応じて応答内容を修正するものではなく、ユーザはロボットとのコミュニケーションに違和感を覚える。
本発明は、上記の問題に鑑みてなされたもので、その目的は、ユーザによる自システムへの話しかけであるかをより適切に判定して、ユーザの違和感の少ないコミュニケーションを行うことができるようにした音声認識システムおよび音声認識システムの制御方法を提供することにある。
本発明の一つの観点に係るシステムは、音声を認識して応答する音声認識システムであって、音声入力部から入力される音声を認識する音声認識部と、音声認識部の認識結果を含む所定の情報に基づいて、ユーザからの音声指示であるかを判定するための所定のパラメータを抽出するパラメータ抽出部と、パラメータ抽出部により抽出される所定のパラメータに基づいて、音声認識部で認識された音声がユーザからの音声指示であるか判定する判定部と、判定部で判定された判定結果に応じて、予め用意されている複数の応答レベルの中から一つの応答レベルを選択する応答レベル選択部と、音声認識部による認識結果と予め設定されている変更条件とを照合することにより、応答レベル選択部で選択された応答レベルを修正する応答レベル修正部と、応答レベル修正部で修正された応答レベルと音声認識部で認識されたユーザの音声指示とに従って所定の応答を行う応答部と、を備えている。
応答レベル修正部は、音声認識部の認識結果と変更条件とからユーザとの会話状況を複数段階のいずれか一つに分類し、分類された段階に応じて応答レベルを変更することもできる。
所定の情報には、撮像部で撮影した画像情報および/または音声の方向を示す音源方位情報が含まれており、所定のパラメータには、音声認識部で認識された最新の入力文に関する解析結果から得られる第1パラメータと、音声認識部で認識された認識結果履歴から得られる第2パラメータと、画像情報および/または音源方位情報から得られる第3パラメータとが含まれている。
音声認識システムの構成を示すブロック図。 ユーザの発話の信頼度を評価するための複数のパラメータを抽出する方法を示す説明図。 キーワードと動詞との関連づけ(a)、および、キーワード間の関連性(b)を示す説明図。 音声を認識して応答するまでの全体処理を示すフローチャート。 図4に続く処理のフローチャート。 図4に続く他の処理のフローチャート。 ユーザとの会話状況がいずれの段階にあるかを示す注意脳レベルを判定する処理を示すフローチャート。 注意脳のレベルと変更条件の関係、および、注意脳のレベルによる応答レベルの修正を示す説明図。 ユーザとの会話の例と注意脳レベルが変化する様子を示す説明図。 第2実施例に係り、ユーザが所定のキーワードを発した場合は、直ちに指示された行動を実行する処理を示すフローチャート。 第3実施例に係り、発話信頼度の他の判定方法を示すテーブル。
本実施形態では、以下に詳述する通り、システムへの音声入力であることを明示するためのトリガまたはスイッチを備えない非トリガ型の音声認識システムにおいて、入力された音声が自システムに向けたユーザからの音声なのかを精度良く判定する音声認識システムを説明する。さらに、本実施形態の音声認識システムは、ユーザとのコミュニケーションの質(密度)に応じて応答レベルを修正する。
図1は、本実施例の音声認識システム1の全体構成を示すブロック図である。音声認識システム1は、コンピュータシステムとして構成される。音声認識システム1は、例えばロボット形状または筒型や直方体等の種々の形状を有するオブジェクト2に搭載することができる。さらに、音声認識システム1は、例えば、ディスプレイ装置、掃除機、冷蔵庫、洗濯機等の家電製品3に搭載することもできる。本実施例では、音声認識システム1を人型ロボット2に搭載する場合を例に挙げて説明する。
なお、音声認識システム1の全部をロボット2内に設けてもよいし、音声認識システム1の一部をロボット2の外部に設けてもよい。さらには、音声認識システム1のほぼ全体を外部サーバに設け、ユーザとの情報を交換するマンマシンインターフェース(音声入力部21、音声出力部28、表示部29)をロボット2に設ける構成でもよい。但し、音声認識システム1の全体をロボット2に設けることで、ユーザとの会話にタイムラグが生じるのを防止し、より自然なコミュニケーションを実現することができる。
音声認識システム1は、例えば、音声認識部11、発話信頼度パラメータ抽出部12、発話信頼度判定部13、応答レベル選択部14、応答レベル変更部15、応答部16、注意脳判定部17を備える。さらに、音声認識システム1は、音声入力部21、カメラ22、音響モデルデータベース23、文法データベース24、辞書データベース25、キーワード−動詞データベース26、認識結果履歴データベース27、音声出力部28、表示部29、動作機構30を備える。
音声入力部21は、例えば一つまたは複数のマイクロフォン装置とA/D(Analog/Digital)変換回路等を含んで構成される。本実施例では、音源の方位を検出することのできる音源方位マイクも音声入力部21に含まれているものとする。カメラ22は「撮像部」の例であり、ロボット2の周囲に存在するユーザ等を撮影する。なお、カメラ22はロボット22に取り付けられている必要は必ずしもない。ロボット2から離れた場所にカメラ22を設け、カメラ22で撮影した画像情報を無線通信等を介して音声認識システム1に送信する構成でもよい。
音声認識部11は、音声入力部21から入力される音声を、音響モデルデータベース23と文法データベース24および辞書データベース25を用いて解析し、単語に変換する機能である。
音響モデルデータベース23は、テキスト(読み)とテキストを発音したときの波形とを対応づけて記憶したデータベースであり、どのような波形の音がどのような単語として認識されるかを定義している。文法データベース24は、単語の並べ方(文法)などを記憶したデータベースである。辞書データベース25には、所定のキーワードを含む種々の単語がその読みと共に登録されている。音声認識部11による音声認識結果の履歴は、認識結果履歴データベース27に記憶される。
発話信頼度パラメータ抽出部12は、「パラメータ抽出部」の例であり、「所定のパラメータ」としての発話信頼度パラメータを抽出し、発話信頼度判定部13に送る。発話信頼度パラメータ抽出部12は、音声認識部11の最新の認識結果と、カメラ22の撮影した画像情報と、音源方位情報と、キーワード−動詞データベース26と、認識結果履歴データベース27を用いて、後述する3種類のパラメータを取得する。
発話信頼度判定部13は、発話信頼度パラメータ抽出部12で抽出された所定のパラメータに基づいて、音声認識部11による認識結果がユーザからの音声指示であるかを判定する。より詳しくは、発話信頼度判定部13は、ユーザからの音声指示である可能性を判定する。音声指示とは、基本的に、所定のキーワードと所定の動詞との組合せとして構成される。しかし、これに限らず、所定のキーワードのみでも音声指示であると判定することができる。
応答レベル選択部14は、予め用意されている複数の応答レベルの中から発話信頼度判定部13の判定結果に応じた応答レベルを一つ選択する。
応答レベル変更部15は、応答レベル選択部14で選択された応答レベルを、注意脳判定部17で設定された注意脳レベルに応じて変更する。
ここで注意脳レベルとは、ユーザとの会話状況の解析から得られる、ユーザとのコミュニケーションの質(または密度)のレベルを意味する。または、注意脳レベルは、例えば、ユーザへの応答レベルを会話状況に基づいて変化させるための所定の指標値であると定義してもよい。
応答レベル変更部15と共に「応答レベル修正部」を構成する注意脳判定部17は、後述のように、音声認識部11による音声認識結果と認識結果履歴データベース27とに基づいて、所定の変更条件のいずれを満たすか判断する。注意脳判定部17は、その判断結果に従って注意脳レベルを変更する。
応答部16は、応答レベル変更部15で変更された応答レベルに従って、ユーザの音声指示に対応する応答を実行する。応答部16は、例えば、音声出力部28、表示部29、動作機構30のいずれか一つまたは複数を用いて、ユーザに応答することができる。
音声出力部28は、例えば合成音声出力装置とスピーカ等から構成されており、ユーザに音声で返事をする。表示部29は、例えばロボット2に設けられるランプ、ディスプレイから構成され、メッセージを表示したり、ランプを点灯させたりする。動作機構30は、例えば、ロボットの首、手足等を動かすための機構である。なお、音声出力、表示出力、動作以外に、プリンタ等への出力を行ってもよい。
図2を用いて、発話信頼度パラメータ抽出部12が抽出する所定パラメータについて説明する。発話信頼度パラメータ抽出部12は、以下に述べるように、第1パラメータ、第2パラメータおよび第3パラメータの全部または一部を抽出する。
図2(1)に示す第1パラメータは、音声入力部21から音声認識部11に入力された最新の入力文を解析することで得られる。第1パラメータは、さらに複数の(例えば3つの)サブパラメータ(1A)〜(1C)を含む。
第1サブパラメータ(1A)は、最新入力文に占める所定キーワード(および所定動詞)の率である。音声認識部11は、音声入力部21に入力された音声(ユーザの音声指示、周囲の会話、周囲の雑音等)を辞書データベース25に当てはめて認識する。その認識された単語群の中に所定キーワード(および所定動詞)が含まれている割合から、発話信頼度の高低を判断できる。
所定キーワードとは、一般的なキーワードのうち、音声認識システム1が提供可能なサービス(詳しくは音声認識システム1が搭載されているシステム(ここではロボット2)で提供可能なサービス)を示すキーワードである。さらに、所定キーワードには、ユーザがサービスの利用に際して発する可能性のあるキーワード、例えば、「はい」、「いいえ」等の返事に相当するキーワードも含む。
所定のキーワードは、サービスを利用する際の音声指示となるキーワードとして、音声認識システム1に予め登録されている。具体的には、音声認識システム1が搭載されるコミュニケーションロボット2がユーザに提供可能なサービスに関するキーワードが、所定のキーワードとして音声認識システム1に登録されている。
例えば、ロボット2がダンスを踊ったり、ニュースや物語を読んだり、クイズを出題したり、天気を予測したり、占ったりするサービスを提供可能である場合、それらサービスを特定するためのキーワード(「ダンス」、「ニュース」、「物語」、「クイズ」、「天気」、「占い」)が所定のキーワードとして登録される。
先に図3を参照する。図3(a)は、所定のキーワードと所定の動詞との対応付けを管理するテーブルT10の例である。このテーブルT10は、例えば図1に示すキーワード−動詞データベース26の例である。
所定のキーワードには、それぞれのキーワードに関連する所定の動詞が予め対応付けられている。例えばキーワード「ダンス」の場合、そのキーワードと共に使用される頻度の高い所定の動詞としては「やって」、「みせて」、「おどって」等が考えられる。キーワード「ニュース」の場合は、所定の動詞として「よんで」、「きかせて」、「おしえて」等が考えられる。
図2に戻る。第1サブパラメータ(1A)として抽出される、最新入力文を構成する単語に占める所定キーワードの比率から、発話信頼度を判定することができる。
例えば、所定キーワードと所定動詞の両方が最新入力文に含まれている場合、発話信頼度は高いと判定できる。例えば、所定キーワードだけが最新入力文に含まれており、所定動詞は存在しない場合、発話信頼度は中程度であると判定できる。例えば、所定キーワードが含まれていない場合、または、所定キーワード以外の無意味な単語(非キーワード)の占める割合が所定の基準値より大きい場合、発話信頼度は低いと判定できる。
第1パラメータの第2サブパラメータ(1B)を説明する。第2サブパラメータ(1B)では、最新入力文全体の音の強さの平均値と単語ごとの音の強さとの関連性に基づいて、所定キーワードが含まれているかを判定する。
図2(1)に示す「ううう」は、例えば空調機、冷蔵庫、洗濯機等の発する機械音(サーボ音)であり、無意味な非キーワードである。音声認識部11は、入力された音声データをできる限り何らかの単語に変換しようとするため、単なる機械音であっても例えば「ううう」のように何らかの単語に認識する。
しかし、機械音はユーザの発した言葉ではなく、単なる環境雑音であるため、音のレベルは弱い。これに対し、ユーザの発する言葉は比較的音のレベルが強い。特に、ユーザがロボット2の応答を期待して所定のキーワードを発する場合は、その音のレベルは相対的に強くなると考えられる。
そこで、第2サブパラメータ(1B)では、入力文全体の単語の音の強さの平均値と単語毎の音の強さとを比較して、強く発せられた所定キーワードだけを所定キーワードであると判定する。図示の例では、「ダンス」の音のレベルは3000であり、「やって」の音のレベルは1000であり、いずれも、他の単語の音の強さ(450〜600)よりも明らかに強い。これに対し、所定キーワードとして認識された単語であっても、その音のレベルが入力文全体の音の強さの平均値に比べて弱い場合は無視する。音のレベルが弱いキーワードは、周囲の雑音等が組み合わさって偶然に誤認識されたものであると考えられるためである。
第1パラメータの第3サブパラメータ(1C)を説明する。第3パラメータ(1C)では、最新入力文を構成する各単語の音の長さ(フレーム長)に基づいて、ユーザの発した言葉であるか否かを判定する。換言すれば、第3サブパラメータ(1C)は、音の長さに基づいて、雑音等の認識結果を取り除く。1フレームの長さは、音声入力部21のサンプリング周波数から求められる。
ユーザが或る所定キーワードを発声する場合、肉声の特性上、所定の時間を要する。これに対し、周囲の雑音等が偶然組み合わさり、所定キーワードであると誤認識された場合は、人の発声可能な時間よりも短い時間しか有さない場合が多い。そこで、第3サブパラメータ(1C)では、最新入力文の認識結果の中から不自然な長さの単語を除去し、自然な長さを有する単語をユーザの発した単語であると判定する。
図2(2)は、第2パラメータを示す。第2パラメータは、現在から所定期間(例えば数秒〜十数秒程度)の認識結果を分析して得られる。所定期間内の認識結果を均等に考慮してもよいし、過去の認識結果となるほど重みを下げて判断してもよい。例えば、所定期間を7秒間とすると、7秒前から5秒前までに認識した単語は0.4、4秒前から2秒前までに認識した単語は0.7、1秒前および最後に認識した単語は1.0を乗じて、判定してもよい。
第2パラメータは、以下に述べるように、複数の(例えば4つの)サブパラメータ(2A)〜(2D)を含む。
第2パラメータの第1サブパラメータ(2A)では、「ううう」等の機械音が連続した後で所定のキーワードが検出された場合、ユーザから話しかけられたと判断する。つまり、機械音しか聞こえなかった環境下で、所定のキーワードが発せられた場合は、ユーザからの言葉であると判定する。
第2パラメータの第2サブパラメータ(2B)では、無関係な単語が連続して認識された場合に、それはユーザの音声指示ではなく、ロボット2の周囲で行われている会話であると判定する。周囲の会話としては、例えば、人間同士の会話、人間と他の機械(音声指示で制御可能な他の機械)との会話、テレビまたはラジオ等からの音声を挙げることができる。
図3(b)は、キーワード間の関連を模式的に示す。所定のキーワードの周辺には、その所定のキーワードと意味的に関連する関連キーワードが一つまたは複数存在する。例えば、所定のキーワード「クイズ」の場合、その周辺には「問題」、「答え」等の関連キーワードが存在する。さらに、所定のキーワード「クイズ」と関連性の少ない他のキーワードも存在する。関連性の少ない他のキーワードには、他の所定のキーワード、他の所定のキーワードに関連するキーワード等が含まれる。このように、キーワード同士(単語同士)の関連性を予め分析しておくことで、無関係な単語が連続して入力されたか否かを判定することができる。
図2に戻る。第2パラメータの第3サブパラメータ(2C)では、同一の所定キーワードの出現頻度が大きい場合、発話信頼度が高いと判定する。例えば、「ダンス」、「ダンス」、「ダンス」のように、同一の所定キーワードが高頻度で出現する場合は、ユーザが話している可能性が高い。特に、幼児、老人等の発話が不明瞭なユーザの場合、動詞を伴わずに所定のキーワードだけを連呼する可能性がある。
第2パラメータの第4サブパラメータ(2D)では、所定の無音期間が経過した後で、所定キーワードが検出された場合に、ユーザからロボット2への音声指示であると判定する。つまり、第4サブパラメータ(2D)は、第1サブパラメータ(2A)の変形例であり、比較的静かな環境下で所定キーワードが検出された場合は、ユーザからの音声指示であると判定する。
第3パラメータを説明する。図2(3)に示す第3パラメータは、カメラ22の撮影した画像情報、および、音声入力部21に含まれる音源方位マイクで特定される音源方位情報から抽出される。第3パラメータは、複数の(例えば3つの)サブパラメータを含むことができる。
第1サブパラメータ(3A)は、顔の有無である。カメラ22が人間の顔を撮影した場合、そのときの認識結果はユーザからの音声指示である可能性が高い。第2サブパラメータ(3B)は、顔の向きである。ユーザの正面の顔がカメラ22で撮影された場合、ユーザがロボット2に向けて話しかけている可能性が高い。第3サブパラメータ(3C)は、音源方位である。音声がロボット2の正面方向から発せられている場合、ユーザからの音声指示である可能性が高い。
図4は、音声認識システム1の全体処理を示すフローチャートである。音声認識システム1(以下、システム1)は、音声入力部21を介して何らかの音声(ここでは、機械音などの単なる音も含めて音声と呼ぶ)を検出すると(S1)、その入力された音声を解析し、図2(1)に示す第1パラメータを全て抽出する(S2)。
最初に、システム1は、解析結果(認識結果)の中に所定キーワード(図中KW)が含まれているか判定する(S3)。所定キーワードが一つも含まれていない場合(S3:NO)、本処理は正常に終了する。音声入力部21が再び音声を検出すると、本処理が開始される。
音声認識部11の認識結果の中に所定キーワードが含まれている場合(S3:YES)、システム1は、認識結果履歴データベース27に記憶された履歴を参照して、過去の所定期間に検出された所定キーワードを解析する(S4)。つまり、ステップS4において、システム1は、図2(2)に示す第2パラメータを抽出する。
続いてシステム1は、カメラ22からの画像情報に基づいて、顔の画像を検出する(S5)。ステップS5において、システム1は、音源方位を特定してもよい。つまり、システム1は、第3パラメータの全部または一部をステップS5で抽出する。
以下に説明するステップS6〜S16、図5のステップS61〜S64および図6のステップS71〜S83では、ステップS2、S4、S5で抽出したパラメータの少なくとも一部のパラメータに基づいて、発話信頼度を判定し、その判定結果に応じた応答レベルを選択する。
システム1は、カメラ22で顔が検出されたか判定する(S6)。システム1は、顔が検出されなかった場合(S6:NO)、図5で後述するステップS61に移る。
システム1は、顔が検出された場合(S6:YES)、正面の顔であるか判定する(S7)。システム1は、正面の顔ではないと判定した場合(S7:NO)、図6で後述するステップS71に移る。
システム1は、正面の顔を検出した場合(S7:YES)、ステップS2で解析した音声の中に動詞が含まれているか判定する(S8)。システム1は、動詞が含まれていると判定した場合(S8:YES)、入力された音声に占めるキーワード率が予め設定された基準値よりも大きいか判定する(S9)。
システム1は、キーワード率が基準値よりも大きいと判定した場合(S9:YES)、図2(2)で述べた第2パラメータの第2サブパラメータ(2B)に基づいて、周辺で会話中であるか判定する(S10)。
システム1は、周辺で会話していないと判定した場合(S10:NO)、応答レベルとして「実行」を選択する。応答レベル「実行」とは、ユーザの音声指示に従って所定の応答を行うための応答レベルである。ユーザの正面の顔が検出され、入力文に動詞を含み、入力文に占めるキーワード率も大きく、かつ、周辺で会話が行われていない場合、ステップS1で検出した音声はユーザの音声指示である可能性が高い。そこで、ユーザの指示に従って応答すべく、応答レベルとして「実行」を選択する。
例えば、ユーザ指示が「クイズ」である場合、システム1の搭載されたロボット2は、ユーザにクイズを出題する。例えば、ユーザ指示が「ダンス」の場合、システム1の搭載されたロボット2はダンスを踊る。
但し、後述のように、応答レベルは注意脳レベルにより修正されるため、ステップS11で「実行」が決定されたとしても、直ちに実行されるわけではない。応答レベルの修正が完了した後で、選択された応答レベルまたは修正後の応答レベルが確定し、その応答レベルに応じた応答が出力される。応答レベルの修正はコンピュータ処理により短時間で終了するため、ユーザに違和感を与えない。応答レベルの修正処理が完了した後で実際に応答が行われる点は、他の応答レベルについても同様である。
ところでシステム1は、キーワード率が基準値よりも大きくないと判定した場合(S9:NO)、または、キーワード率が基準値よりも大きいが(S9:YES)、周辺で会話中であると判定した場合(S10:YES)、応答レベルとして「聞き返し」を選択する(S12)。応答レベル「聞き返し」とは、ユーザの音声指示を聞き返す所定メッセージを音声出力するための応答レベルである。
ユーザの正面の顔が検出され、入力文に動詞も含まれているが、入力文に占めるキーワード率が低いか、または周辺で会話していると判定した場合、ユーザの音声指示であることを確認するために、応答レベルとして「聞き返し」を選択する。
システム1は、ステップS2で解析した音声中に動詞が含まれていないと判定した場合(S8:NO)、所定キーワードの音のレベルが入力文全体の音の強さの平均値よりも強いか判定する(S13)。システム1は、所定キーワードの音のレベルが強いと判定した場合(S13:YES)、音源の方位(ユーザの声が聞こえた方向)はロボット2の正面であるか判定する(S14)。
システム1は、音源方位がロボット2の正面であると判定した場合(S14:YES)、応答レベルとして「実行」を選択する。これに対し、システム1は、所定キーワードの音の強さが入力文全体の音の強さの平均値よりも強くない場合(S13:NO)、または、音源の方位がロボット2の正面ではない場合(S14:NO)、応答レベルとして「聞き返し」を選択する。
入力文に動詞は含まれていないが、所定キーワードの音が強く、かつ、音源の方位がロボットの正面である場合、ユーザの音声指示である可能性が高い。そこで、応答レベルとして「実行」を選択する(S15)。これに対し、入力文に動詞は含まれておらず、キーワードの音も弱いか、または、音源の方向が正面ではない場合、ユーザからの音声指示であることを確認するために、応答レベルとして「聞き返し」を選択する(S16)。
図5を参照する。システム1は、ユーザの顔が検出できない場合(S6:NO)、ステップS2で解析された入力文に動詞が含まれているか判定する(S61)。システム1は、入力文が動詞を含むと判定すると(S61:YES)、入力文に占めるキーワード率が大きいか判定する(S62)。システム1は、入力文に占めるキーワード率が大きいと判定した場合(S62:YES)、周辺で会話中であるか判定する(S63)。
システム1は、周辺で会話中ではないと判定すると(S63:NO)、応答レベルとして「んん?」を選択する。応答レベル「んん?」とは、ユーザからの音声指示らしきものを受領したことだけをユーザに知らせるための応答レベルである。換言すれば、応答レベル「んん?」とは、ユーザからの音声指示らしきものに対して誤った行動を行わないように、「聞き返し」と「無視」の間に設定された応答レベルである。
これに対し、図5において、システム1は、入力文に動詞が含まれていないと判定した場合(S61:NO)、または、入力文に占めるキーワード率が低い場合(S62:NO)、または、周辺で会話中の場合(S63:YES)のいずれかの場合であると判定すると、応答レベルとして「無視」を選択する(S65)。「無視」とは、何も応答しないための応答レベルである。
入力文に動詞が含まれていない、キーワード率が低い、周辺で会話中のいずれかの場合は、ステップS1で検出した音声がノイズやテレビの音声等である可能性が高い。そこで、この場合は一切応答しない。
図6を参照する。システム1は、図4においてユーザの正面の顔以外の顔(例えば、横顔、後ろ姿など)を検出すると(S7:NO)、図6の処理に移り、入力文に動詞が含まれているか判定する(S71)。
システム1は、入力文に動詞が含まれていると判定すると(S71:YES)、入力文に占めるキーワード率が大きいか判定する(S72)。システム1は、入力文に占めるキーワード率が大きいと判定すると(S72:YES)、周辺で会話中であるか判定する(S73)。システム1は、周辺で会話中ではないと判定すると(S73:NO)、応答レベルとして「聞き返し」を選択する(S74)。
図4のステップS8:YES→S9:YES→S10:NOの流れの場合は、応答レベルとして「実行」が選択される。これに対し、図6のS71:YES→S72:YES→S73:NOの流れでは、応答レベルとして「聞き返し」が選択される。
この理由は、図6の処理は、そもそもユーザの正面の顔を検出できず、正面の顔以外の顔しか検出できていないためである。正面以外の顔の場合、ユーザの音声指示以外の音声を解析している可能性があり、判定の基礎となる情報の信頼性が低いため、応答レベルを1段階下げている。
システム1は、入力文に動詞が含まれているが(S71:YES)、入力文に占めるキーワード率が小さい場合(S72:NO)、または、周辺で会話が行われていると判定した場合(S73:YES)のいずれかであると判定すると、応答レベルとして「んん?」を選択する。
システム1は、入力文に動詞が含まれていない場合(S71:NO)、同一の所定キーワードが二回続けて入力されたか判定する(S76)。つまり、システム1は、図2に示す第2パラメータの第3サブパラメータ(2C)に基づいて応答レベルを選択する。
システム1は、同一の所定キーワードが二連続で入力された場合(S76:YES)、キーワード率が大きいか判定し(S77)、キーワード率が大きいと判定した場合(S77:YES)、周辺で会話中であるか判定する(S78)。システム1は、周辺で会話が行われていないと判定すると(S78:NO)、応答レベルとして「聞き返し」を選択する(S79)。
これに対し、システム1は、同一の所定キーワードが二回続けて入力されたが(S76:YES)、入力文に占めるキーワード率が低い場合(S77:NO)、または、周辺で会話中の場合(S78:YES)のいずれかであると判定すると、応答レベルとして「んん?」を選択する(S80)。
システム1は、同一の所定キーワードが二回続けて入力されたのではなく、三回続けて入力されたか判定する(S81)。システム1は、同一の所定キーワードが3回も連続して入力された場合(S81:YES)、他のパラメータを参酌せずに、応答レベルとして「聞き返し」を選択する(S82)。
同一の所定キーワードが続けて3回も入力された場合は、ユーザの音声指示ある可能性が高い。しかし、図6の処理においてシステム1は、ユーザの正面の顔を検出していないため、応答レベルを「実行」よりも1つ下げて「聞き返し」を選択する。
システム1は、二回連続した所定キーワードとは異なる所定キーワードが三回目に入力された場合(S81:NO)、応答レベルとして「無視」を選択する(S83)。キーワードの連なりに脈絡がなく、ユーザの音声指示である可能性が低いためである。
図7を用いて注意脳のレベルを設定する処理を説明する。注意脳とは、ユーザとのコミュニケーションの質(または密度)に応じて、ユーザへの応答レベルを変化させるための特殊な指標である。注意脳レベルとしては、例えば、「高」、「標準」、「低」の3段階がある。注意脳レベルが高いほど応答レベルが高くなるように、注意脳レベルが低いほど応答レベルが低くなるように、修正される。
システム1は、注意脳レベルの変更について事前に設定されている変更条件を満たすか否か判定するための情報を取得する(S101)。そのような判定のための情報としては、例えば、認識結果の履歴、顔の検出の有無、ユーザからの返事の有無、ユーザの返事の内容等がある。
システム1は、注意脳を高レベルに変更するための高レベル条件を満たすか判定し(S102)、高レベル条件を満たすと判定した場合(S102:YES)、注意脳レベルを高レベルに設定して(S103)、本処理を終了する。システム1は、現在の注意脳レベルが「標準」または「低」のいずれにある場合でも、「高」に設定する。現在の注意脳レベルから1段階高くなるように設定するのではない。
システム1は、高レベル条件を満たさないと判定すると(S102:NO)、注意脳を低レベルに設定するための低レベル条件を満たすか判定する(S104)。システム1は、低レベル条件を満たすと判定した場合(S104:YES)、注意脳レベルを「低」に設定して(S105)、本処理を終了する。システム1は、現在の注意脳レベルが「高」または「標準」のいずれにある場合でも、「低」に設定する。現在の注意脳レベルから1段階低くなるように設定するのではない。
システム1は、低レベル条件を満たさないと判定すると(S104:NO)、注意脳を標準レベルに戻すための標準レベル条件を満たすか判定する(S106)。システム1は、標準レベル条件を満たすと判定した場合(S106:YES)、注意脳レベルを「標準」に戻す。システム1は、標準レベル条件も満たさないと判定した場合(S106:NO)、本処理を終了する。
図8は、注意脳のレベルを変更するための条件を規定する変更条件管理テーブルT20の例と、注意脳のレベルに応じて応答レベルを修正するための応答レベル修正テーブルT30の例を示す。
変更条件管理テーブルT20は、注意脳レベルと、その注意脳レベルに変更するための条件とを対応付けて管理する。注意脳レベルを「高」にするための高レベル条件としては、例えば以下の4つがある。
(H1)静かなときに(音声が入力されていないときに)、コマンド(例えば、所定キーワードと所定動詞の組合せ)が入力されること、
(H2)自分の名前(例えばロボットの名前)が呼ばれたこと、
(H3)ユーザとの会話が成立していること、
(H4)ユーザの顔を検出したこと、
である。条件H1において、動詞を含まない所定のキーワードだけであっても、コマンドとして認識してもよい。条件H2において、ロボットの名前は初期設定される固定値を用いてもよいし、ユーザが設定した名前であってもよい。また、名前以外の言葉を、注意脳のレベルを高くするための特別なキーワードとして事前に登録する構成でもよい。
条件H3において、ユーザとの会話が成立しているとは、システム1からの応答に対してユーザから所定時間内に何らかの返事があり、かつ、その返事が会話を打ち切る言葉として事前に登録された所定キーワード(例えば「いいえ」、「終わり」などの否定語)ではない場合を意味する。
注意脳レベルを「標準」に戻すための標準レベル条件としては、例えば、(S1)システム1が応答してから所定時間内にユーザの返事がなく、いわゆるタイムアウトが発生したこと、を挙げることができる。
注意脳レベルを「低」に変更するための低レベル条件としては、例えば、(L1)システム1がユーザの音声を聞き返した場合に、ユーザから「いいえ」、「べつに」、「かんけいない」等の所定の否定的なキーワードが返されたことを、挙げることができる。
応答レベル修正テーブルT30は、注意脳レベルと、応答レベルに対する処理内容(修正内容)とを対応付けて管理する。注意脳レベルが「高」の場合、システム1は、応答レベルを1段階上げる。応答レベルは、高い方から順番に「実行」、「聞き返し」、「んん?」、「無視」の4段階であることは既に述べた通りである。
注意脳レベルが「高」の場合、応答レベルはそれぞれ1段階ずつ高くなる。「実行」は「実行」のままであるが、「聞き返し」は「実行」に、「んん?」は「聞き返し」に、「無視」は「んん?」にそれぞれ変化する。
注意脳レベルが「標準」の場合、応答レベルはそのまま維持される。即ち、「実行」は「実行」、「聞き返し」は「聞き返し」、「んん?」は「んん?」、「無視」は「無視」のままである。
注意脳レベルが「低」の場合、応答レベルは1段階低下する。「実行」は「聞き返し」に、「聞き返し」は「んん?」に、「んん?」は「無視」に変化する。「無視」は「無視」のままである。
図9を参照してロボット2とユーザとのコミュニケーションの例を説明する。初期状態では、注意脳レベルは「標準」である。ここで、ユーザからの音声指示「ダンスやって」が入力されたとする。ユーザはロボット2の側面から話しかけており、カメラ22にユーザの正面の顔は写っていないものとする。
図9(1)に示すように、ユーザが横顔を見せた状態で「ダンスやって」と発した場合、システム1は、例えば図6のステップS75において、「んん?」と応答する。注意脳レベルは「標準」なので、ステップS75で選択された応答レベルは修正されない。しかし、静かな状態のときに「ダンスやって」とユーザから話しかけられたため、高レベル条件(H1)が成立し、注意脳レベルは「標準」から「高」に変更される。
続いて、ユーザが再び「ダンスやって」と話しかけた場合、所定のタイムスロット内に占めるキーワード率が大きくなり、例えばステップS74で応答レベルとして「聞き返し」が選択されたとする。
注意脳レベルが「標準」のままであれば、図9(2)に示すように、システム1は「ダンスですか?」と応答してユーザに指示内容を聞き返す。しかし、図9(1)でユーザに応答した時点で注意脳レベルは「高」に変更されているため、応答レベルは1段階上の「実行」に修正される。従って、図9(2A)に示すように、システム1はユーザの指示通りに、動作機構30を駆動させるなどしてロボット2にダンスを踊らせる。このように、最初の応答時の状況により注意脳レベルを高くするため、「聞き返し」という無駄な応答を省略して、ユーザの希望通りの応答を返すことができる。
もしも図9(1)での応答「んん?」に対して「いいえ」等の否定語を返した場合、システム1は、注意脳レベルを「低」に変化する。従って、システム1の標準の応答が「んん?」である場合、それは「無視」に変更される。
図9(1)での応答「んん?」から所定時間t1内にユーザが返事をしない場合、会話のタイムアウトが発生し、注意脳レベルは「標準」に変化する。
このように構成される本実施例によれば、ユーザからの特別な操作、トリガが無くても、ユーザからの話しかけであることを適切に判断して、違和感のできるだけ少ない自然な会話を行うことができる。
本実施例では、最新の入力文の認識結果だけでなく、過去の認識結果、画像情報なども総合的に考慮してユーザからの音声入力を細かく場面に分けて判断する。従って,本実施例では、ユーザの音声であるか否か、ユーザがロボット2に(システム1に)対して話しかけた言葉であるか否かを適切に判断することができる。
本実施例では、一般的な音声認識により抽出されるキーワードだけで、ユーザからの発話であるか否か等を判断するのではなく、ユーザから発せられる可能性の高い所定キーワードに着目して判断する。従って、発話信頼度の判定精度を高めることができる。
本実施例では、所定キーワードが占める率と、所定動詞の有無とに着目して発話信頼度を判定するため、比較的簡単な処理でありながら判定精度を高くすることができる。
本実施例では、最新の入力文の認識結果だけでなく認識結果履歴も使用して、ユーザとシステム1との会話状況を推定し、発話信頼度を判定する。従って、図2(2)の第2パラメータに示すように比較的簡単に低コストに会話状況を推定でき、会話状況を推定した上で発話信頼度を判定するため、精度を高めることができる。
本実施例では、発話信頼度の段階に応じて応答レベルを選択する。本実施例では、発話信頼度が高いと判定した場合、つまりユーザの音声指示を正確に認識した可能性が高いと判定した場合は、「実行」または「無視」という自信ある応答を行う。応答レベルとして「実行」を選択できるのは、ユーザからの音声指示であると判定できたためである。応答レベルとして「無視」を選択できるのは、ユーザからの指示ではないと判断できたためである。ユーザからの音声指示であるか否か真偽が不明の場合は、誤った応答を行わずに、聞き返したり、「んん?」と答えたりして、曖昧な応答、無難な応答を返す。
本実施例では、システム1とユーザとのコミュニケーションの解析結果から得られる指標(注意脳)に基づいて、応答レベルを修正する。従って、発話信頼度に基づいて選択された応答レベルを、さらにコミュニケーションの解析結果に応じて修正することができるため、より適切な応答をユーザに返すことができる。
図10を用いて第2実施例を説明する。本実施例を含む以下の各実施例は、第1実施例の変形例に相当する。従って、以下、第1実施例との相違を中心に説明する。
図10は、優先的に応答する処理のフローチャートである。本処理は、システム1が所定の応答をユーザに返した場合に実行される。所定の応答とは、例えば「んん?」のような、最初のユーザ指示を受領したことだけを伝えるような応答である。これに限らず、「聞き返し」を所定の応答としてもよい。
システム1は、所定の応答としての「んん?」を応答したか判定し(S111)、所定の応答を返したと判定した場合は(S111:YES)、自分の名前がユーザに呼ばれたか否か判定する(S112)。
自分の名前とは、本実施例では例えばロボット2の名前であるが、システム1の名称として捉えてもよい。「自分の名前」は、ユーザの指示を優先的に実行させるための優先キーワードである。
システム1は、「自分の名前」が音声入力部21に入力されて音声認識部11で認識されると(S112:YES)、S111を開始する前に認識された所定キーワード(指示、コマンド)に従って応答する(S113)。
システム1は、図5のステップS64、図6のステップS75、ステップS80のいずれかで「んん?」とユーザに応答した後で、ユーザが自分の名を呼んだ場合には、ステップS2で抽出された所定キーワードに従って応答する。
このように構成される本実施例も第1実施例と同様の効果を奏する。さらに本実施例では、所定の応答をユーザに返した後で、ユーザが予め設定されている優先キーワードを発した場合、ユーザの指示に応じた応答を直ちに実行する。従って、ユーザは速やかにロボット2を自分の希望通り応答させることができ、使い勝手が向上する。本実施例は、第1実施例または後述の第3実施例のいずれにも適用できる。
図11を参照して第3実施例を説明する。本実施例では、図4〜図6で述べた処理とは異なる方法で、発話信頼度を判定し、発話信頼度に適した応答レベルを選択する。本実施例では、前回のシステム1の応答を考慮して、今回の応答レベルを決定する。
図11に示す応答レベルテーブルT40は、例えば、顔情報の有無、解析された入力文、前回の応答または履歴、入力文の解析結果および履歴、応答レベルを場合分けして対応付けている。
図11中の「xxx」は所定キーワードを意味する。「やって」は所定動詞の一例である。「話中」とはロボット2の(システム1の)周辺で会話中であることを意味する。「話無」とは、ロボット2の周辺で会話が行われていないことを意味する。「xxx1個」とは、同一の所定キーワードが1個入力されたことを意味する。「xxx2個」とは、同一の所定キーワードが2個入力されたことを意味する。
図11中の「前回応答or履歴」とは、前回の応答内容(んん?、聞き返し)、または前回までの応答履歴から得られる内容(同一キーワードの連続数)を示す。
このように構成される本実施例も第1実施例と同様の効果を奏する。さらに本実施例では、前回の応答(または履歴)を考慮して今回の応答レベルを選択するため、より自然なコミュニケーションを実現することができる。
なお、本発明は、上述した実施の形態に限定されない。当業者であれば、本発明の範囲内で、種々の追加や変更等を行うことができる。例えば応答レベルは4段階に限らず、3段階でもよいし、5段階以上でもよい。また、注意脳レベルも3段階以上に細かく設定してもよい。また、実施形態で述べた音声認識システムの中から、注意脳レベルに基づいて応答レベルを修正する構成(図7の処理)を取り除いたシステムも本発明の範囲に含むことができる。
1:音声認識システム、2:ロボット、3:家電製品、11:音声認識部、12:発話信頼度パラメータ抽出部、13:発話信頼度判定部、14:応答選択部、15:応答修正部、16:応答部、17:注意脳判定部、21:音声入力部、22:カメラ、27:認識結果履歴データベース、28:音声出力部、29:表示部、30:動作機構
なお、本発明は、上述した実施の形態に限定されない。当業者であれば、本発明の範囲内で、種々の追加や変更等を行うことができる。例えば応答レベルは4段階に限らず、3段階でもよいし、5段階以上でもよい。また、注意脳レベルも3段階以上に細かく設定してもよい

Claims (9)

  1. 音声を認識して応答する音声認識システムであって、
    音声入力部から入力される音声を認識する音声認識部と、
    前記音声認識部の認識結果を含む所定の情報に基づいて、ユーザからの音声指示であるかを判定するための所定のパラメータを抽出するパラメータ抽出部と、
    前記パラメータ抽出部により抽出される前記所定のパラメータに基づいて、前記音声認識部で認識された音声がユーザからの音声指示であるか判定する判定部と、
    前記判定部で判定された判定結果に応じて、予め用意されている複数の応答レベルの中から一つの応答レベルを選択する応答レベル選択部と、
    前記音声認識部による認識結果と予め設定されている変更条件とを照合することにより、前記応答レベル選択部で選択された応答レベルを修正する応答レベル修正部と、
    前記応答レベル修正部で修正された応答レベルと前記音声認識部で認識されたユーザの音声指示とに従って所定の応答を行う応答部と、
    を備える音声認識システム。
  2. 前記応答レベル修正部は、前記音声認識部の認識結果と前記変更条件とからユーザとの会話状況を複数段階のいずれか一つに分類し、分類された段階に応じて前記応答レベルを変更する、
    請求項1に記載の音声認識システム。
  3. 前記所定の情報には、撮像部で撮影した画像情報および/または音声の方向を示す音源方位情報が含まれており、
    前記所定のパラメータには、前記音声認識部で認識された最新の入力文に関する解析結果から得られる第1パラメータと、前記音声認識部で認識された認識結果履歴から得られる第2パラメータと、前記画像情報および/または前記音源方位情報から得られる第3パラメータとが含まれている、
    請求項1または2のいずれかに記載の音声認識システム。
  4. 前記第1パラメータには、所定のキーワードが前記最新の入力文に含まれる割合を示すキーワード率、前記最新の入力文を構成する各単語の音の強さ、前記最新の入力文を構成する各単語の音の長さ、のいずれか少なくとも一つが含まれる、
    請求項3に記載の音声認識システム。
  5. 前記第2パラメータには、周囲でユーザからの音声指示と無関係な会話が行われているかを示す可能性が含まれており、
    前記第3パラメータには、ユーザの顔が検出されたか否か、検出された顔の向き、のいずれかが少なくとも一つ含まれる、
    請求項4に記載の音声認識システム。
  6. 前記複数の応答レベルには、応答しない無視レベル、音声を認識したことを示す受領レベル、音声の再入力を促す聞き返しレベル、音声指示に応じて所定動作を実行する実行レベルが含まれている、
    請求項1〜5のいずれかに記載の音声認識システム。
  7. 音声を認識して応答する音声認識システムの制御方法であって、
    音声入力部から入力される音声を認識する音声認識ステップと、
    前記音声認識ステップの認識結果を含む所定の情報に基づいて、ユーザからの音声指示であるかを判定するための所定のパラメータを抽出するパラメータ抽出ステップと、
    前記パラメータ抽出ステップにより抽出される前記所定のパラメータに基づいて、前記音声認識ステップで認識された音声がユーザからの音声指示であるか判定する判定ステップと、
    前記判定ステップで判定された判定結果に応じて、予め用意されている複数の応答レベルの中から一つの応答レベルを選択する応答選択ステップと、
    を実行する音声認識システムの制御方法。
  8. さらに、前記音声認識ステップによる認識結果と予め設定されている変更条件とを照合することにより、前記応答選択ステップで選択された応答レベルを修正する応答レベル修正ステップと、
    前記応答レベル修正ステップで修正された応答レベルと前記音声認識ステップで認識されたユーザの音声指示とに従って所定の応答を行う応答ステップと、
    を実行する、請求項7に記載の音声認識システムの制御方法。
  9. コンピュータを、音声を認識して応答する音声認識システムとして機能させるためのコンピュータプログラムであって、
    前記コンピュータに接続した音声入力部から入力される音声を認識する音声認識部と、 前記音声認識部の認識結果を含む所定の情報に基づいて、ユーザからの音声指示であるかを判定するための所定のパラメータを抽出するパラメータ抽出部と、
    前記パラメータ抽出部により抽出される前記所定のパラメータに基づいて、前記音声認識部で認識された音声がユーザからの音声指示であるか判定する判定部と、
    前記判定部で判定された判定結果に応じて、予め用意されている複数の応答レベルの中から一つの応答レベルを選択する応答レベル選択部と、
    前記音声認識部による認識結果と予め設定されている変更条件とを照合することにより、前記応答レベル選択部で選択された応答レベルを修正する応答レベル修正部と、
    前記応答レベル修正部で修正された応答レベルと前記音声認識部で認識されたユーザの音声指示とに従って所定の応答を行う応答部と、
    を前記コンピュータ上に実現するためのコンピュータプログラム。
JP2013063875A 2013-03-26 2013-03-26 音声認識システムおよび音声認識システムの制御方法 Pending JP2014191029A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013063875A JP2014191029A (ja) 2013-03-26 2013-03-26 音声認識システムおよび音声認識システムの制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013063875A JP2014191029A (ja) 2013-03-26 2013-03-26 音声認識システムおよび音声認識システムの制御方法

Publications (1)

Publication Number Publication Date
JP2014191029A true JP2014191029A (ja) 2014-10-06

Family

ID=51837362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013063875A Pending JP2014191029A (ja) 2013-03-26 2013-03-26 音声認識システムおよび音声認識システムの制御方法

Country Status (1)

Country Link
JP (1) JP2014191029A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017098940A1 (ja) * 2015-12-07 2017-06-15 ヤマハ株式会社 音声対話装置および音声対話方法
JP2017106989A (ja) * 2015-12-07 2017-06-15 ヤマハ株式会社 音声対話装置およびプログラム
JP2017107151A (ja) * 2015-12-07 2017-06-15 ヤマハ株式会社 音声対話装置およびプログラム
JP2018040897A (ja) * 2016-09-06 2018-03-15 国立大学法人京都大学 音声対話装置および音声対話装置を用いた自動対話方法
JP2018087847A (ja) * 2016-11-28 2018-06-07 日本電信電話株式会社 対話制御装置、その方法及びプログラム
CN108369808A (zh) * 2015-11-10 2018-08-03 三星电子株式会社 电子设备和用于控制该电子设备的方法
JP2019018336A (ja) * 2017-07-18 2019-02-07 パナソニックIpマネジメント株式会社 装置、方法、プログラム、及びロボット
WO2019156162A1 (ja) * 2018-02-08 2019-08-15 日本電信電話株式会社 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム
JP2020020846A (ja) * 2018-07-30 2020-02-06 国立大学法人大阪大学 対話システムおよびプログラム
WO2020129421A1 (ja) * 2018-12-19 2020-06-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10854219B2 (en) 2015-12-07 2020-12-01 Yamaha Corporation Voice interaction apparatus and voice interaction method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004030623A (ja) * 1993-02-04 2004-01-29 Matsushita Electric Ind Co Ltd 作業状況管理装置
JP2008145989A (ja) * 2006-12-13 2008-06-26 Fujitsu Ten Ltd 音声識別装置および音声識別方法
JP2009157905A (ja) * 2007-12-07 2009-07-16 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2011227237A (ja) * 2010-04-19 2011-11-10 Honda Motor Co Ltd コミュニケーションロボット

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004030623A (ja) * 1993-02-04 2004-01-29 Matsushita Electric Ind Co Ltd 作業状況管理装置
JP2008145989A (ja) * 2006-12-13 2008-06-26 Fujitsu Ten Ltd 音声識別装置および音声識別方法
JP2009157905A (ja) * 2007-12-07 2009-07-16 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2011227237A (ja) * 2010-04-19 2011-11-10 Honda Motor Co Ltd コミュニケーションロボット

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108369808A (zh) * 2015-11-10 2018-08-03 三星电子株式会社 电子设备和用于控制该电子设备的方法
US10854219B2 (en) 2015-12-07 2020-12-01 Yamaha Corporation Voice interaction apparatus and voice interaction method
JP2017106989A (ja) * 2015-12-07 2017-06-15 ヤマハ株式会社 音声対話装置およびプログラム
JP2017107151A (ja) * 2015-12-07 2017-06-15 ヤマハ株式会社 音声対話装置およびプログラム
WO2017098940A1 (ja) * 2015-12-07 2017-06-15 ヤマハ株式会社 音声対話装置および音声対話方法
JP2018040897A (ja) * 2016-09-06 2018-03-15 国立大学法人京都大学 音声対話装置および音声対話装置を用いた自動対話方法
JP2018087847A (ja) * 2016-11-28 2018-06-07 日本電信電話株式会社 対話制御装置、その方法及びプログラム
JP2019018336A (ja) * 2017-07-18 2019-02-07 パナソニックIpマネジメント株式会社 装置、方法、プログラム、及びロボット
JP7075168B2 (ja) 2017-07-18 2022-05-25 パナソニックホールディングス株式会社 装置、方法、プログラム、及びロボット
JP2019139000A (ja) * 2018-02-08 2019-08-22 日本電信電話株式会社 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム
WO2019156162A1 (ja) * 2018-02-08 2019-08-15 日本電信電話株式会社 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム
US11587553B2 (en) * 2018-02-08 2023-02-21 Nippon Telegraph And Telephone Corporation Appropriate utterance estimate model learning apparatus, appropriate utterance judgement apparatus, appropriate utterance estimate model learning method, appropriate utterance judgement method, and program
JP2020020846A (ja) * 2018-07-30 2020-02-06 国立大学法人大阪大学 対話システムおよびプログラム
JP2023001299A (ja) * 2018-07-30 2023-01-04 国立大学法人大阪大学 対話システムおよびプログラム
JP7432960B2 (ja) 2018-07-30 2024-02-19 国立大学法人大阪大学 対話システムおよびプログラム
WO2020129421A1 (ja) * 2018-12-19 2020-06-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2020129421A1 (ja) * 2018-12-19 2021-11-11 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
JP7428141B2 (ja) 2018-12-19 2024-02-06 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
US12014736B2 (en) 2018-12-19 2024-06-18 Sony Group Corporation Information processing apparatus and information processing method

Similar Documents

Publication Publication Date Title
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
EP3711306B1 (en) Interactive system for hearing devices
CN111540349B (zh) 一种语音的打断方法和装置
JP6053847B2 (ja) 行動制御システム、システム及びプログラム
US9280539B2 (en) System and method for translating speech, and non-transitory computer readable medium thereof
US9293134B1 (en) Source-specific speech interactions
JP5996603B2 (ja) サーバ、発話制御方法、発話装置、発話システムおよびプログラム
US9570076B2 (en) Method and system for voice recognition employing multiple voice-recognition techniques
CN105793923A (zh) 本地和远程语音处理
KR102056330B1 (ko) 통역장치 및 그 방법
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
JP2011022600A (ja) 音声認識システムの動作方法
JP2017003611A (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
JP2014137430A (ja) 電子機器及び掃除機
JP5431282B2 (ja) 音声対話装置、方法、プログラム
US20220051660A1 (en) Hearing Device User Communicating With a Wireless Communication Device
JP2018049132A (ja) 音声対話システムおよび音声対話方法
JP2009003040A (ja) 音声対話装置、音声対話方法及びロボット装置
CN118366458A (zh) 一种全双工对话系统及方法、电子设备和存储介质
JP2010078763A (ja) 音声処理装置、音声処理プログラム、およびインターホンシステム
KR20210042520A (ko) 전자 장치 및 이의 제어 방법
JP2021113835A (ja) 音声処理装置および音声処理方法
CN110660393B (zh) 语音交互方法、装置、设备及存储介质
JP2006251061A (ja) 音声対話装置および音声対話方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20141125