JP2013257418A - 情報処理装置、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
JP2013257418A
JP2013257418A JP2012132941A JP2012132941A JP2013257418A JP 2013257418 A JP2013257418 A JP 2013257418A JP 2012132941 A JP2012132941 A JP 2012132941A JP 2012132941 A JP2012132941 A JP 2012132941A JP 2013257418 A JP2013257418 A JP 2013257418A
Authority
JP
Japan
Prior art keywords
speech recognition
information
user
recognition result
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012132941A
Other languages
English (en)
Inventor
Tsutomu Sawada
務 澤田
Katsuki Minamino
活樹 南野
Yukinori Maeda
幸徳 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012132941A priority Critical patent/JP2013257418A/ja
Publication of JP2013257418A publication Critical patent/JP2013257418A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】ユーザ位置およびユーザ識別情報に基づいて処理態様を変更して高精度の音声認識処理を行う構成を実現する。
【解決手段】実空間における画像情報および音声情報を入力する複数の情報入力部と、情報入力部からの入力情報の解析により、実空間に存在するユーザ位置および識別ユーザの推定情報と、登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出部と、イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、小語彙辞書対応音声認識結果と、大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する。
【選択図】図4

Description

本開示は、情報処理装置、および情報処理方法、並びにプログラムに関する。さらに詳細には、外界からの入力情報、例えば画像、音声などの情報を入力し、入力情報に基づく外界環境の解析、具体的には言葉を発している人物の位置や誰であるか、さらに発話内容等の解析を実行する情報処理装置、および情報処理方法、並びにプログラムに関する。
人とPCやロボットなどの情報処理装置との相互間の処理、例えばコミュニケーションやインタラクティブ処理を行うシステムはマン−マシン インタラクション システムと呼ばれる。このマン−マシン インタラクション システムにおいて、PCやロボット等の情報処理装置は、人のアクション例えば人の動作や言葉を認識するために画像情報や音声情報を入力して入力情報に基づく解析を行う。
人が情報を伝達する場合、言葉のみならずしぐさ、視線、表情など様々なチャネルを情報伝達チャネルとして利用する。このようなすべてのチャネルの解析をマシンにおいて行うことができれば、人とマシンとのコミュニケーションも人と人とのコミュニケーションと同レベルに到達することができる。このような複数のチャネル(モダリティ、モーダルとも呼ばれる)からの入力情報の解析を行うインタフェースは、マルチモーダルインタフェースと呼ばれ、近年、開発、研究が盛んに行われている。
例えばカメラによって撮影された画像情報、マイクによって取得された音声情報を入力して解析を行う場合、より詳細な解析を行うためには、様々なポイントに設置した複数のカメラおよび複数のマイクから多くの情報を入力することが有効である。
具体的なシステムとしては、例えば以下のようなシステムが想定される。情報処理装置(テレビ)が、カメラおよびマイクを介して、テレビの前のユーザ(父、母、姉、弟)の画像および音声を入力し、それぞれのユーザの位置やどのユーザが発した言葉であるか等を解析し、テレビが解析情報に応じた処理、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対する的確な応答を行うなどのシステムが実現可能となる。
従来の一般的なマン−マシン インタラクション システムの多くは、複数チャネル(モーダル)からの情報を決定論的に統合して、複数のユーザが、それぞれどこにいて、それらは誰で、誰がシグナルを発したのかを決定するという処理を行っていた。このようなシステムを開示した従来技術として、例えば特許文献1(特開2005−271137号公報)、特許文献2(特開2002−264051号公報)がある。
しかし、従来のシステムにおいて行われるマイクやカメラから入力される不確実かつ非同期なデータを利用した決定論的な統合処理方法ではロバスト性にかけ、精度の低いデータしか得られないという問題がある。実際のシステムにおいて、実環境で取得可能なセンサ情報、すなわちカメラからの入力画像やマイクから入力される音声情報には様々な余分な情報、例えばノイズや不要な情報が含まれる不確実なデータであり、画像解析や音声解析処理を行う場合には、このようなセンサ情報から有効な情報を効率的に統合する処理が重要となる。
なお、本出願人は、画像、音声情報などの様々な入力情報に含まれる不確実な情報に対する確率的な処理を行って、精度の高い情報を取得する情報処理装置について、特許文献3(特開2009−31951号公報)において開示した。
この特許文献3に記載の構成を用いれば、画像、音声情報などの入力情報の解析により、例えば音声を発する各ユーザの位置や、各ユーザが誰であるか、何を発話したかなどの識別処理を高精度に実行することが可能となる。
なお、この特許文献3に記載のシステムは、例えば、ユーザがテレビに向かって、口頭でチャンネルを変える指示を出す場合や、ボリュームを上げる指示を出す場合などに、テレビ側の情報処理部が誰のどのような指示を入力したかを解析するために利用可能となる。
しかし、この特許文献3に記載の構成は、カメラの入力画像やマイクによって取得される音声情報などについて一律の処理を実行している。
このような一律の処理を行うと、ユーザの発話解析、すなわち何を発話したかの音声認識を実行する場合に認識誤りの発生可能性が高くなる場合がある。
例えば、マイクから離れた位置からのユーザ発話の音声認識を行う場合に、多数の登録語を含む大語彙の認識辞書を用いると誤認識が発生しやすいという問題がある。
具体的には、例えばユーザが「動画ファイルからソニーを検索」と発話しても「動画ファイルからソニンを検索」と認識されたり、「都市の世界遺産を見せて」と発話しても「年の瀬解散を見せて」と誤認識されたりする場合がある。
これは、大語彙の認識辞書には多数の単語が登録されており、類似する発音の単語から、実際の発話に対応する単語を正確に選択することが困難になるためである。
逆に、登録語数の少ない小語彙の認識辞書を利用した音声認識を行うと、ユーザの発話に対応する単語が認識辞書に登録されていない場合が発生し、この場合も正確な音声認識を行うことができなくなるという問題が発生する。
特開2005−271137号公報 特開2002−264051号公報 特開2009−031951号公報
本開示は、例えば上記問題点に鑑みてなされたものであり、画像、音声情報などの様々な入力情報に含まれる不確実な情報に対する確率的な処理を行ってより精度の高いと推定される情報に統合して精度の高い解析を行う情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。
さらに、本開示は、ユーザの位置等に応じてユーザ発話に対する音声認識処理の態様を変更することで、より精度の高い音声認識を実現する情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。
本開示の第1の側面は、
実空間における画像情報および音声情報を入力する複数の情報入力部と、
前記情報入力部からの入力情報の解析により、前記実空間に存在するユーザ位置および識別ユーザの推定情報と、
登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、
登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出部と、
前記イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する情報統合処理部と、
を有することを特徴とする情報処理装置にある。
さらに、本開示の情報処理装置の一実施態様において、前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値未満の近い(Near Field)位置にある場合、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、前記ユーザ装置間距離が既定閾値以上の遠い(Far Field)位置にある場合、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する。
さらに、本開示の情報処理装置の一実施態様において、前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置が不明である場合、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する。
さらに、本開示の情報処理装置の一実施態様において、前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値未満の近い(Near Field)位置にある場合、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、さらに、前記大語彙辞書対応音声認識結果をユーザ識別子と対応付けてユーザ発話管理データとして登録する。
さらに、本開示の情報処理装置の一実施態様において、前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値以上の遠い(Far Field)位置にある場合、またはユーザ位置が不明である場合、前記ユーザ発話管理データを参照し、識別されたユーザのユーザ識別子と前記大語彙辞書対応音声認識結果との対応データが前記ユーザ発話管理データに登録されているか否かを判定し、登録されている場合は、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、登録されていない場合は、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する。
さらに、本開示の情報処理装置の一実施態様において、前記情報統合処理部は、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかから選択した最終音声認識結果に応じた処理の実行可能性に応じて、音声認識結果の受理または棄却メッセージの出力を実行する。
さらに、本開示の第2の側面は、
情報処理装置において実行する情報処理方法であり、
複数の情報入力部が、実空間における画像情報および音声情報を入力する情報入力ステップと、
イベント検出部が、
前記情報入力部からの入力情報の解析により、前記実空間に存在するユーザ位置および識別ユーザの推定情報と、
登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、
登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出ステップと、
情報統合処理部が、
前記イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する情報統合処理ステップと、
を実行することを特徴とする情報処理方法にある。
さらに、本開示の第3の側面は、
情報処理装置において情報処理を実行させるプログラムであり、
複数の情報入力部に、実空間における画像情報および音声情報を入力させる情報入力ステップと、
イベント検出部に、
前記情報入力部からの入力情報の解析により、前記実空間に存在するユーザ位置および識別ユーザの推定情報と、
登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、
登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成させるイベント検出ステップと、
情報統合処理部に、
前記イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行させ、取得したユーザ位置およびユーザ識別情報を適用して、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成させる情報統合処理ステップと、
を実行させることを特徴とするプログラムにある。
なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本開示の一実施例の構成によれば、ユーザ位置およびユーザ識別情報に基づいて処理態様を変更して高精度の音声認識処理を行う構成が実現される。
具体的には、実空間における画像情報および音声情報を入力する複数の情報入力部と、情報入力部からの入力情報の解析により、実空間に存在するユーザ位置および識別ユーザの推定情報と、登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出部と、イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、小語彙辞書対応音声認識結果と、大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する。
本構成により、例えば発話ユーザの位置が装置に近い場合は、大語彙音声認識辞書を適用し、遠い場合は小語彙音声認識辞書を適用することで、認識誤りを抑えた精度の高い音声認識処理が実現される。
本開示に係る情報処理装置の実行する処理の概要について説明する図である。 本開示の一実施例の情報処理装置の構成および処理について説明する図である。 音声イベント検出部122および画像イベント検出部112が生成し音声・画像統合処理部131に入力する情報の例について説明する図である。 本開示の一実施例の情報処理装置の構成および処理について説明する図である。 小語彙音声認識辞書と大語彙音声認識辞書の構成例について説明する図である。 小語彙音声認識辞書と大語彙音声認識辞書を適用した音声認識処理例について説明する図である。 ユーザ位置と、小語彙音声認識辞書と大語彙音声認識辞書の選択適用例について説明する図である。 ユーザ発話管理データの登録データ例について説明する図である。 音声・画像統合処理部131における処理シーケンスについて説明するフローチャートを示す図である。 本開示に係る情報処理装置の実行する具体的な処理例について説明する図である。 本開示に係る情報処理装置の実行する具体的な処理例について説明する図である。 本開示に係る情報処理装置の実行する具体的な処理例について説明する図である。 本開示に係る情報処理装置の実行する具体的な処理例について説明する図である。
以下、図面を参照しながら本開示の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行う。
1.本開示の情報処理装置の実行する処理の概要について
2.本開示の情報処理装置の構成と処理について
3.ユーザ位置判定処理とユーザ識別処理について
4.発話内容の解析処理としての音声認識処理について
5.本開示の構成のまとめ
[1.本開示の情報処理装置の実行する処理の概要について]
まず、図1を参照して本開示に係る情報処理装置の実行する処理の概要について説明する。
本開示の情報処理装置は、本出願人が先に出願した前述の特許文献3(特開2009−031951号公報)を基本構成としている。すなわち、ユーザの位置判定やユーザ識別処理の基本的な処理の流れは、特開2009−031951号公報と同様の処理である。
本開示の情報処理装置は、例えば上記特許文献において開示されたユーザの位置判定やユーザ識別処理において得られたユーザ位置やユーザ識別情報等に応じて、ユーザが何を発話したかを解析する音声認識処理の処理態様を適宜変更して実行する。
まず、図1を参照して、本開示の情報処理装置100の実行する処理の概要について説明する。
本開示の情報処理装置100は、環境情報を入力するセンサ、ここでは一例としてカメラ21と、複数のマイク31〜32から画像情報、音声情報を入力し、これらの入力情報に基づいて環境の解析を行う。具体的には、複数のユーザ1,11〜4,14の位置の解析、およびその位置にいるユーザの識別を行う。
さらに、ユーザ発話の解析処理を行う。
図に示す例において、例えばユーザ1,11〜ユーザ4,14が家族である父、母、姉、弟であるとき、情報処理装置100は、カメラ21と、複数のマイク31〜32から入力する画像情報、音声情報の解析を行い、4人のユーザ1〜4の存在する位置、各位置にいるユーザが父、母、姉、弟のいずれであるかを識別する。識別処理結果は様々な処理に利用される。例えば、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対してテレビから応答を行うなどの処理に利用される。
なお、本開示に係る情報処理装置100の1つの主要な処理は、複数の情報入力部(カメラ21,マイク31〜32)からの入力情報に基づいて、ユーザの位置識別およびユーザの特定処理としてのユーザ識別処理を行うことである。この識別結果の利用処理については特に限定するものではない。カメラ21と、複数のマイク31〜32から入力する画像情報、音声情報には様々な不確実な情報が含まれる。本開示の情報処理装置100では、これらの入力情報に含まれる不確実な情報に対する確率的な処理を行って、精度の高いと推定される情報に統合する処理を行う。この推定処理によりロバスト性を向上させ、精度の高い解析を行う。
さらに、本開示に係る情報処理装置100のもう1つの主要な処理は、ユーザの発話を正しく解析する音声認識処理を行うことである。
例えば、上記処理によって識別されたユーザあるいはユーザ位置に応じて、使用する辞書の変更など、音声認識処理の態様を変更して精度の高い音声認識処理を実行する。
[2.本開示の情報処理装置の構成と処理について]
図2に情報処理装置100の構成例を示す。情報処理装置100は、入力デバイスとして画像入力部(カメラ)111、複数の音声入力部(マイク)121a〜bを有する。画像入力部(カメラ)111から画像情報を入力し、音声入力部(マイク)121から音声情報を入力し、これらの入力情報に基づいて解析を行う。複数の音声入力部(マイク)121a〜bの各々は、図1に示すように様々な位置に配置されている。
複数のマイク121a〜bから入力された音声情報は、音声イベント検出部122を介して音声・画像統合処理部131に入力される。音声イベント検出部122は、複数の異なるポジションに配置された複数の音声入力部(マイク)121a〜bから入力する音声情報を解析し統合する。具体的には、音声入力部(マイク)121a〜bから入力する音声情報に基づいて、例えば以下の情報を含む音声イベント情報を生成して、音声・画像統合処理部131に入力する。
(1)音声区間情報
(2)音源方向情報
(3)話者識別情報
(4a)第1の音声認識辞書(小語彙音声認識辞書)を適用した第1の音声認識結果
(4b)第2の音声認識辞書(大語彙音声認識辞書)を適用した第2の音声認識結果
これらの情報を含む音声イベント情報を生成して、音声・画像統合処理部131に入力する。
なお、情報処理装置100の実行する具体的な処理は、例えば図1に示すように複数のユーザが存在する環境で、ユーザ1〜4がどの位置にいて、会話を行ったユーザがどのユーザであるかを識別し、その発話内容を解析すること、すなわち、ユーザ位置およびユーザ識別と発話内容を把握する処理である。
音声イベント検出部122は、複数の音声入力部(マイク)121a〜bから入力する音声情報を解析し、音声の発生源の位置情報を確率分布データとして生成する。具体的には、音源方向に関する期待値と分散データN(m,σ)を生成する。また、予め登録されたユーザの声の特徴情報との比較処理に基づいてユーザ識別情報を生成する。この識別情報も確率的な推定値として生成する。音声イベント検出部122には、予め検証すべき複数のユーザの声についての特徴情報が登録されており、入力音声と登録音声との比較処理を実行して、どのユーザの声である確率が高いかを判定する処理を行い、全登録ユーザに対する事後確率、あるいはスコアを算出する。
なお、これらの処理は、前述の特許文献3(特開2009−031951号公報)に記載の処理と同様の処理である。
本開示の構成では、さらに、音声イベント検出部122は、上記の(4a),(4b)の音声認識結果を生成する。すなわち、
(4a)第1の音声認識辞書(小語彙音声認識辞書)を適用した第1の音声認識結果
(4b)第2の音声認識辞書(大語彙音声認識辞書)を適用した第2の音声認識結果
これらの音声認識結果である。
この音声認識結果の生成処理の詳細については後段で説明する。
このように、音声イベント検出部122は、複数の異なる位置に配置された複数の音声入力部(マイク)121a〜bから入力する音声情報を解析し、音声の発生源の位置情報を確率分布データと、確率的な推定値からなるユーザ識別情報、さらに異なる辞書を用いた複数の音声認識結果によって構成される[統合音声イベント情報]を生成して音声・画像統合処理部131に入力する。
一方、画像入力部(カメラ)111から入力された画像情報は、画像イベント検出部112を介して音声・画像統合処理部131に入力される。画像イベント検出部112は、画像入力部(カメラ)111から入力する画像情報を解析し、画像に含まれる人物の顔を抽出し、顔の位置情報を確率分布データとして生成する。具体的には、顔の位置や方向に関する期待値と分散データN(m,σ)を生成する。また、予め登録されたユーザの顔の特徴情報との比較処理に基づいてユーザ識別情報を生成する。この識別情報も確率的な推定値として生成する。画像イベント検出部112には、予め検証すべき複数のユーザの顔についての特徴情報が登録されており、入力画像から抽出した顔領域の画像の特徴情報と登録された顔画像の特徴情報との比較処理を実行して、どのユーザの顔である確率が高いかを判定する処理を行い、全登録ユーザに対する事後確率、あるいはスコアを算出する。
なお、音声イベント検出部122や画像イベント検出部112において実行する音声識別や、顔検出、顔識別処理は従来から知られる技術を適用可能である。例えば顔検出、顔識別処理としては以下の文献に開示された技術の適用が可能である。
佐部 浩太郎,日台 健一,"ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習",第10回画像センシングシンポジウム講演論文集,pp.547−552,2004
特開2004−302644(P2004−302644A)[発明の名称:顔識別装置、顔識別方法、記録媒体、及びロボット装置]
音声・画像統合処理部131は、音声イベント検出部122や画像イベント検出部112からの入力情報に基づいて、少なくとも以下の2種類の処理を実行する。
(A)ユーザ位置判定処理とユーザ識別処理
(B)発話内容の解析処理としての音声認識処理
(A)ユーザ位置判定処理とユーザ識別処理は、前述の特許文献3(特開2009−031951号公報)に記載の処理と同様の処理である。この処理は、複数のユーザが、それぞれどこにいて、それらは誰で、誰が音声等のシグナルを発したのかを確率的に推定する処理である。
本開示の構成では、音声・画像統合処理部131は、さらに、上記の、
(B)発話内容の解析処理
を実行する。
すなわち、音声イベント検出部122から入力する上記の(4a),(4b)の音声認識結果、すなわち、
(4a)第1の音声認識辞書(小語彙音声認識辞書)を適用した第1の音声認識結果
(4b)第2の音声認識辞書(大語彙音声認識辞書)を適用した第2の音声認識結果
これらの情報を利用して、(B)発話内容の解析処理を実行して、最終的な音声認識結果を生成する。
具体的には、ユーザの位置を区分し、各区分位置に応じて上記のいずれかの音声認識結果を選択して最終的な音声認識結果とする処理などを行う。
この処理の詳細については後述する。
このように、音声・画像統合処理部131は、音声イベント検出部122や画像イベント検出部112からの入力情報に基づいて、
(A)ユーザ位置判定処理とユーザ識別処理
(B)発話内容の解析処理としての音声認識処理
これらの処理を行い、処理結果を処理決定部132に出力する。
これらの処理結果を受領した処理決定部132は、識別処理結果を利用した処理を実行する、例えば、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対してテレビから応答を行うなどの処理を行う。
上述したように、音声イベント検出部122は、音声の発生源の位置情報を確率分布データ、具体的には、音源方向に関する期待値と分散データN(m,σ)を生成する。また、予め登録されたユーザの声の特徴情報との比較処理に基づいてユーザ識別情報を生成して音声・画像統合処理部131に入力する。
また、複数の異なる辞書を用いた音声認識結果を生成して音声・画像統合処理部131に入力する。
また、画像イベント検出部112は、画像に含まれる人物の顔を抽出し、顔の位置情報を確率分布データとして生成する。具体的には、顔の位置や方向に関する期待値と分散データN(m,σ)を生成する。また、予め登録されたユーザの顔の特徴情報との比較処理に基づいてユーザ識別情報を生成して音声・画像統合処理部131に入力する。
以下、音声・画像統合処理部131の実行する以下の処理について順次説明する。
(A)ユーザ位置判定処理とユーザ識別処理
(B)発話内容の解析処理としての音声認識処理
[3.ユーザ位置判定処理とユーザ識別処理について]
まず、音声・画像統合処理部131の実行するユーザ位置判定処理とユーザ識別処理について説明する。
なお、この処理は、前述したように、前述の特許文献3(特開2009−031951号公報)に記載の処理と同様の処理であるので、その概略について説明する。詳細処理については、特開2009−031951号公報を参照されたい。
図3を参照して、音声イベント検出部122および画像イベント検出部112が生成し音声・画像統合処理部131に入力する情報の例について説明する。図3(A)は図1を参照して説明したと同様のカメラやマイクが備えられた実環境の例を示し、複数のユーザ1〜k,201〜20kが存在する。この環境で、あるユーザが話しをしたとすると、マイクで音声が入力される。また、カメラは連続的に画像を撮影している。
音声イベント検出部122および画像イベント検出部112が生成し音声・画像統合処理部131に入力する情報には、基本的に同様の情報が含まれる。これらは、図3(B)に示す2つの情報によって構成される。すなわち、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらの2つの情報である。
これらの2つの情報は、イベントの発生毎に生成される。音声イベント検出部122は、音声入力部(マイク)121a〜bから音声情報が入力された場合に、その音声情報に基づいて上記の(a)ユーザ位置情報、(b)ユーザ識別情報を生成して音声・画像統合処理部131に入力する。画像イベント検出部112は、例えば予め定めた一定のフレーム間隔で、画像入力部(カメラ)111から入力された画像情報に基づいて(a)ユーザ位置情報、(b)ユーザ識別情報を生成して音声・画像統合処理部131に入力する。なお、本例では、画像入力部(カメラ)111は1台のカメラを設定した例を示しており、1つのカメラに複数のユーザの画像が撮影される設定であり、この場合、1つの画像に含まれる複数の顔の各々について(a)ユーザ位置情報、(b)ユーザ識別情報を生成して音声・画像統合処理部131に入力する。
音声イベント検出部122が音声入力部(マイク)121a〜bから入力する音声情報に基づいて、
(a)ユーザ位置情報
(b)ユーザ識別情報(話者識別情報)
これらの情報を生成する処理について説明する。
音声イベント検出部122による(a)ユーザ位置情報の生成処理
音声イベント検出部122は、音声入力部(マイク)121a〜bから入力された音声情報に基づいて解析された声を発したユーザ、すなわち[話者]の位置の推定情報を生成する。すなわち、話者が存在すると推定される位置を、期待値(平均)[m]と分散情報[σ]からなるガウス分布(正規分布)データN(m,σe)として生成する。
音声イベント検出部122による(b)ユーザ識別情報(話者識別情報)の生成処理
音声イベント検出部122は、音声入力部(マイク)121a〜bから入力された音声情報に基づいて話者が誰であるかを、入力音声と予め登録されたユーザ1〜kの声の特徴情報との比較処理により推定する。具体的には話者が各ユーザ1〜kである確率を算出する。この算出値を(b)ユーザ識別情報(話者識別情報)とする。例えば入力音声の特徴と最も近い登録された音声特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア(例えば0)を配分する処理によって各ユーザである確率を設定したデータを生成して、これを(b)ユーザ識別情報(話者識別情報)とする。
画像イベント検出部112が画像入力部(カメラ)111から入力する画像情報に基づいて、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報)
これらの情報を生成する処理について説明する。
画像イベント検出部112による(a)ユーザ位置情報の生成処理
画像イベント検出部112は、画像入力部(カメラ)111から入力された画像情報に含まれる顔の各々について顔の位置の推定情報を生成する。すなわち、画像から検出された顔が存在すると推定される位置を、期待値(平均)[m]と分散情報[σ]からなるガウス分布(正規分布)データN(m,σ)として生成する。
画像イベント検出部112による(b)ユーザ識別情報(顔識別情報)の生成処理
画像イベント検出部112は、画像入力部(カメラ)111から入力された画像情報に基づいて、画像情報に含まれる顔を検出し、各顔が誰であるかを、入力画像情報と予め登録されたユーザ1〜kの顔の特徴情報との比較処理により推定する。具体的には抽出された各顔が各ユーザ1〜kである確率を算出する。この算出値を(b)ユーザ識別情報(顔識別情報)とする。例えば入力画像に含まれる顔の特徴と最も近い登録された顔の特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア(例えば0)を配分する処理によって各ユーザである確率を設定したデータを生成して、これを(b)ユーザ識別情報(顔識別情報)とする。
なお、カメラの撮影画像から複数の顔が検出された場合には、各検出顔に応じて、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報)
これらの情報を生成して、音声・画像統合処理部131に入力する。
また、本例では、画像入力部111として1台のカメラを利用した例を説明するが、複数のカメラの撮影画像を利用してもよく、その場合は、画像イベント検出部112は、各カメラの撮影画像の各々に含まれる各顔について、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報)
これらの情報を生成して、音声・画像統合処理部131に入力する。
次に、音声・画像統合処理部131の実行する処理について説明する。音声・画像統合処理部131は、上述したように、音声イベント検出部122および画像イベント検出部112から、図3(B)に示す2つの情報、すなわち、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらの情報を逐次入力する。なお、これらの各情報の入力タイミングは様々な設定が可能であるが、例えば、音声イベント検出部122は新たな音声が入力された場合に上記(a),(b)の各情報を音声イベント情報として生成して入力し、画像イベント検出部112は、一定のフレーム周期単位で、上記(a),(b)の各情報を音声イベント情報として生成して入力するといった設定が可能である。
音声・画像統合処理部131は、その仮説を入力情報に基づいて更新することで、より確からしい仮説のみを残す処理を行う。この処理手法として、例えば、パーティクル・フィルタ(Particle Filter)を適用した処理を実行する。
この処理は、前述の特許文献3(特開2009−031951号公報)に記載の処理であるので詳細については省略する。
パーティクル・フィルタ(Particle Filter)を適用した処理は、様々な仮説、本例では、ユーザの位置と誰であるかの仮説に対応するパーティクルを多数設定し、音声イベント検出部122および画像イベント検出部112から、図3(B)に示す2つの情報、すなわち、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらの入力情報に基づいて、より確からしいパーティクルのウェイトを高めていくという処理を行う。
本開示に従った処理は、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらの入力情報に基づいて、複数のユーザの位置と複数のユーザがそれぞれ誰であるかを判別する処理を行うことになる。従って、本開示におけるパーティクル・フィルタ(Particle Filter)を適用した処理では、音声・画像統合処理部131が、ユーザの位置と誰であるかの仮説に対応するパーティクルを多数設定して、音声イベント検出部122および画像イベント検出部112から、図3(B)に示す2つの情報に基づいて、パーティクル更新を行うことになる。
音声・画像統合処理部131、これらの更新処理を実行して、
(a)複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての[ターゲット情報]、
(b)例えば話をしたユーザなどのイベント発生源を示す[シグナル情報]、
これらを生成して処理決定部132に出力する。
[4.発話内容の解析処理としての音声認識処理について]
次に、本開示の情報処理装置の実行する発話内容の解析処理、すなわち音声認識処理の詳細について説明する。
前述したように、音声イベント検出部122は、上記の(4a),(4b)の音声認識結果を生成する。すなわち、
(4a)第1の音声認識辞書(小語彙音声認識辞書)を適用した第1の音声認識結果
(4b)第2の音声認識辞書(大語彙音声認識辞書)を適用した第2の音声認識結果
これらの音声認識結果である。
音声・画像統合処理部131は、音声イベント検出部122から上記の(4a),(4b)の音声認識結果を入力して発話内容の解析処理を実行して、最終的な音声認識結果を生成する。
この処理に際しては、画像イベント検出部121、音声イベント検出部122からの入力情報に基づく解析結果、例えばユーザ位置情報やユーザ識別情報を利用する。
画像イベント検出部121から入力する画像イベント情報には、前述したように、例えば、「顔検出位置情報、顔識別情報」が含まれる。音声・画像統合処理部131は、これらの画像イベントを時系列処理して、「いつ、どこに、だれが」存在するのかを推定する。
また、音声イベント検出部122から入力する音声イベント情報には、「音声区間、音源方向、話者識別、音声認識、使用認識辞書」、これらの情報が含まれる。
音声・画像統合処理部131は、画像イベントによって推定された「いつ、どこに、だれが」の情報から、音声イベント「音声区間、音源方向、話者識別」の情報を用いて時間的/位置的/識別的に近いユーザを発話者として推定する。
音声・画像統合処理部131は、発話を行ったユーザの位置を、ユーザ発話に対応した処理を実行する装置(例えば図1に示すテレビ)の相対位置に応じて以下の3つの位置に区分する。
(1)近い位置(Near Field)であるか、
(2)遠い位置(Far Field)であるか、
(3)位置不明(Out Of Field)であるか、
音声・画像統合処理部131は、発話を行ったユーザの位置が上記(1)〜(3)のいずれにあるかに応じて、処理シーケンスを決定し、決定した処理シーケンスに従った音声認識処理やユーザ発話管理データの生成、更新処理を実行する。なお、音声・画像統合処理部131は、ユーザの位置とユーザ発話に対する処理を実行する装置(例えば図1に示すテレビ)との距離が予め設定した閾値未満である場合は、ユーザ位置を、近い位置(Near Field)と判定し、閾値以上の距離である場合は、遠い位置(Far Field)と判定する。ユーザが移動する場合は閾値にヒステリシスを持たせて安定化させてもよい。
このように、音声・画像統合処理部131は、発話を行ったユーザの位置を区分し、各区分位置に応じて上記のいずれかの音声認識結果を選択して最終的な音声認識結果とする処理などを行う。
図4は、図2を参照して説明した情報処理装置100の構成に以下の構成を明示的に示した情報処理装置100の構成図である。
(A)音声イベント検出部122が実行する音声認識に適用する辞書としての小語彙音声認識辞書201と大語彙音声認識辞書202、
(B)音声・画像統合処理部131の処理結果として生成するユーザ発話管理データ203、
情報処理装置100の音声イベント検出部122は、小語彙音声認識辞書201と大語彙音声認識辞書202を記憶部から取得して、これらを利用してユーザ発話の解析処理としての音声認識処理を実行する。
また、情報処理装置100の音声・画像統合処理部131は、音声イベント検出部122から入力する音声認識結果、さらに、解析結果として得られるユーザ位置情報やユーザ識別情報に応じて、最終的なユーザ発話の解析結果を生成し、その結果に応じてユーザ発話管理データ203の生成、更新を実行する。
図4に示すように、音声イベント検出部122が実行する音声認識に適用する辞書には、
(1)小語彙音声認識辞書201、
(2)大語彙音声認識辞書202、
これら、2種類の辞書がある。
小語彙音声認識辞書201は、このシステム(例えば図1に示すテレビ)に対してユーザが要求する処理に対応する基本的な発話内容に対応する語彙が登録された辞書である。
具体的には、「電源」、「オン」、「ボリューム」、「アップ」などの基本語彙からなる辞書であり、1000単語程度(以下)のオーダーの単語からなる辞書である。
大語彙音声認識辞書202は、このシステム(例えば図1に示すテレビ)に対してユーザが要求する処理に対応するより広範囲な発話内容に対応する語彙が登録された辞書である。
具体的には、上記の基本語彙の他、「歌番組」や「録画番組」、「リスト」などの広範囲な語彙からなる辞書であり、10000単語程度(以上)のオーダーの単語からなる辞書である。
小語彙音声認識辞書201と、大語彙音声認識辞書202の登録データの例を図5に示す。
小語彙音声認識辞書201には、図5に示すように、例えば、以下の単語が登録される。
「電源」、
「ボリューム」、
「チャンネル」、
「オン」、
このように、小語彙音声認識辞書201には、ユーザ発話に対する処理を実行する装置(テレビ)に対してユーザが発すると推定される基本的な語が登録されている。
なお、この図5に示す登録語の例は、本実施例におけるシステムがテレビである場合の例であり、登録される語はシステムに応じて変更される。
小語彙音声認識辞書201には、このように、例えば1000単語程度(以下)のオーダーの基本的な単語からなる辞書である。
一方、大語彙音声認識辞書202には、図5に示すように、上記の小語彙音声認識辞書201に登録された単語の他、例えば、以下の単語が登録される。
「画像」、
「世界」、
「一覧」、
「おすすめ」、
「リスト」、
このように、大語彙音声認識辞書202には、ユーザ発話に対する処理を実行する装置(テレビ)に対してユーザが発すると推定される、より広範囲の様々な語が登録されている。
なお、この図5に示す登録語の例は、本実施例におけるシステムがテレビである場合の例であり、登録される語はシステムに応じて変更される。
大語彙音声認識辞書202には、このように、例えば10000単語程度(以上)のオーダーの単語からなる辞書である。
音声イベント検出部122は、マイクから取得する音声情報に応じて、これら2つの辞書、すなわち小語彙音声認識辞書201、大語彙音声認識辞書202、これらを個別に利用した音声認識処理を並列に実行する。
例えば、ユーザ発話の構文解析を実行して、単語を取り出して取得単語に最も近い登録単語を辞書から選択して、ユーザ発話の内容を推定する。
小語彙音声認識辞書201を適用した音声認識処理によって解析可能な発話内容の例と、大語彙音声認識辞書202を適用した音声認識処理によって解析可能な発話内容の例を図6に示す。
小語彙音声認識辞書201を適用した音声認識処理によって解析可能な発話内容の例としては、図6(a)に示すように、例えば、以下の発話がある。
「電源オン」、
「電源オフ」、
「ボリュームアップ」、
音声イベント検出部122は、マイクから取得する音声情報に対する小語彙音声認識辞書201を適用した音声認識処理によって、例えばこれらの発話内容を取得することができる。
一方、大語彙音声認識辞書202を適用した音声認識処理によって解析可能な発話内容の例としては、図6(a)に示す小語彙音声認識辞書201を適用した音声認識処理によって解析可能な発話内容の他、図6(b)に示すように、例えば、以下の発話がある。
「画像ファイルから人物を検索して」、
「歌番組を見せて」、
音声イベント検出部122は、マイクから取得する音声情報に対する大語彙音声認識辞書202を適用した音声認識処理によって、例えばこれらの発話内容を取得することができる。
音声イベント検出部122は、マイクから取得する音声情報に応じて、これら2つの辞書、すなわち小語彙音声認識辞書201、大語彙音声認識辞書202、これらを個別に利用した音声認識処理を並列に実行し、それぞれの辞書を適用した2つの音声認識結果を適用辞書の識別子に対応付けて音声・画像統合処理部131に出力する。
音声・画像統合処理部131は、
(a)第1の音声認識辞書(小語彙音声認識辞書)を適用した第1の音声認識結果、
(b)第2の音声認識辞書(大語彙音声認識辞書)を適用した第2の音声認識結果、
これら2つの音声認識結果を音声イベント検出部122から受領する。
音声・画像統合処理部131は、前述した項目[2.ユーザ位置判定処理とユーザ識別処理について]において説明したように、画像イベント検出部121、音声イベント検出部122からの入力情報に基づいて、各ユーザの位置判定とユーザ識別処理を実行し、各ユーザがどこにいてそれが誰であるかの識別結果を取得している。
音声・画像統合処理部131は、これらのユーザ位置やユーザ識別結果を用いて、最終的な果音声認識処理結果を生成し、さらに、図4に示すユーザ発話管理データ203の生成、更新を実行する。
具体的には、例えば、音声認識対象となる発話を行ったユーザのユーザ位置に応じて、音声イベント検出部122から入力する以下の2つの音声認識結果、すなわち、
(a)小語彙音声認識辞書201を適用した第1の音声認識結果、
(b)大語彙音声認識辞書202を適用した第2の音声認識結果、
これらの2つの音声認識結果のいずれかを最終的な音声認識結果として選択する処理を実行する。
例えば、音声認識対象となる発話を行ったユーザのユーザ位置が、ユーザ発話に対する処理を実行する装置(本実施例では図1に示すテレビ)あるいはマイクからに近い位置(NearField)にある場合は、音声イベント検出部122から入力する、
(b)大語彙音声認識辞書202を適用した第2の音声認識結果、
を最終的な音声認識結果として選択する処理を実行する。
あるいは、
(a)小語彙音声認識辞書201を適用した第1の音声認識結果、
(b)大語彙音声認識辞書202を適用した第2の音声認識結果、
これら2つの音声認識結果を比較し、異なる認識結果が得られている場合は、各音声認識結果に設定された信頼度情報に応じて信頼度の高い認識結果を選択する処理を行う構成としてもよい。
なお、信頼度情報は、音声イベント検出部122において音声認識を実行した際に認識結果の属性データとして付与され、音声認識結果に併せて音声・画像統合処理部131に提供される。
一方、音声認識対象となる発話を行ったユーザのユーザ位置が、ユーザ発話に対する処理を実行する装置(図1に示すテレビ)あるいはマイクからに遠い位置(Far Field)、もしくはユーザ位置が認識できない場合(Out of Field)は、音声イベント検出部122から入力する、
(a)小語彙音声認識辞書201を適用した第1の音声認識結果、
を最終的な音声認識結果として選択する処理を実行する。
このように、音声・画像統合処理部131は、音声認識対象となる発話を行ったユーザのユーザ位置に応じて、音声イベント検出部122から入力する以下の2つの音声認識結果、すなわち、
(a)小語彙音声認識辞書201を適用した第1の音声認識結果、
(b)大語彙音声認識辞書202を適用した第2の音声認識結果、
基本的には、これらの2つの音声認識結果のいずれかを最終的な音声認識結果として選択する処理を実行する。
図7は、上述したユーザ位置と音声認識に適用する辞書との対応関係を示した図である。
ユーザ(A)は、ユーザ発話に応じた処理を実行する装置(TV)、またはマイクからの距離が遠い(Far Field)であり、小語彙音声認識辞書201を適用した音声認識結果が採用される。
ユーザ(B)は、ユーザ発話に応じた処理を実行する装置(TV)、またはマイクからの距離が近い(Near Field)であり、大語彙音声認識辞書202を適用した音声認識結果が採用される。
ユーザ(C)は、ユーザ発話に応じた処理を実行する装置(TV)、またはマイクからの距離が不明であり、小語彙音声認識辞書を適用した音声認識結果が採用される。
ただし、ユーザ位置が遠い位置(Far Field)にある場合であっても、図4に示すユーザ発話管理データ203に登録データがある場合は、この限りではない。すなわち、ユーザ位置が遠い位置(Far Field)にある場合であっても、大語彙音声認識辞書202を適用した音声認識結果を採用する場合がある。
すなわち、ユーザ位置が遠い位置(Far Field)にあっても、図4に示すユーザ発話管理データ203に登録データがある場合には、大語彙音声認識辞書202を適用した第2の音声認識結果を最終音声認識結果とする場合がある。
以下、この処理について説明する。
音声・画像統合処理部131は、音声認識対象となる発話を行ったユーザのユーザ位置が、システム(本実施例では図1に示すテレビ)あるいはマイクからに近い位置(NearField)にあり、大語彙音声認識辞書202を適用した音声認識結果を最終的な音声認識結果とする処理を実行した場合、そのユーザのユーザ識別子と、認識した語との対応データを図4に示すユーザ発話管理データ203に登録する。
音声・画像統合処理部131が生成、更新を行うユーザ発話管理データ203の登録データの一例を図8に示す。
ユーザ発話管理データ203は、各ユーザのユーザ識別子と、そのユーザが近い位置(Near Field)にある時の大語彙音声認識辞書202を適用した音声認識結果との対応データを登録している。
例えば、ユーザAは、ユーザAが近い位置(Near Field)にある時に、
「画像ファイルから人物を検索して」
「歌番組を見せて」
これらの発話が、大語彙音声認識辞書202を適用した音声認識結果として得られており、この認識結果が登録されている。
音声・画像統合処理部131は、この管理データを参照して再私有的な音声認識結果の判断を実行することになる。
音声・画像統合処理部131は、
音声認識対象としての発話を行ったユーザがユーザ発話管理データ203に登録されたユーザであり、
発話ユーザが、システム(TV)、またはマイクからの距離が遠い(Far Field)位置にある、
これらの2条件が満たされた場合、以下の処理を実行する。
音声・画像統合処理部131は、上記の2条件が満たされた場合、ユーザ発話管理データ203の登録データと、音声イベント検出部202から入力する大語彙音声認識辞書202を適用した音声認識結果とを比較する。
この比較の結果、音声イベント検出部202から入力する大語彙音声認識辞書202を適用した音声認識結果と一致する登録データ(発話内容)が検出された場合、その一致したし発話内容、すなわち、大語彙音声認識辞書202を適用した音声認識結果を最終的な音声認識結果として設定する。
音声イベント検出部202から入力する大語彙音声認識辞書202を適用した音声認識結果と一致する登録データ(発話内容)が検出されなかった場合は、前述の基本処理として説明した遠い(Far Field)位置にあるユーザに対応する処理、すなわち、小語彙音声認識辞書201を適用した音声認識結果を最終的な音声認識結果として設定する。
このように、音声・画像統合処理部131は、ユーザ識別結果が得られており、その識別されたユーザの発話として、大語彙音声認識辞書202を適用した音声認識結果がユーザ発話管理データ203に登録されている場合には、そのユーザ位置が遠い場合でも、その大語彙音声認識辞書202を適用した音声認識結果を最終認識結果として採用する処理を行う。
図9に、音声・画像統合処理部131の実行する発話内容の最終判定処理と、判定結果に基づく音声認識結果の受理、棄却判定シーケンスを説明するフローチャートを示す。
なお、音声・画像統合処理部131の実行する発話内容の最終判定処理とは、音声イベント検出部202から入力する小語彙音声認識辞書201を適用した音声認識結果、あるいは大語彙音声認識辞書202を適用した音声認識結果のいずれをユーザ発話内容として選択するかの処理である。
なお、この図9に示すフローは、音声・画像統合処理部131において、画像イベント検出部112から画像イベント情報を入力し、音声イベント検出部122から音声イベント情報を入力し、これらの入力情報に基づいて、発話を行ったユーザの位置の判定、およびユーザ識別処理が実行された後の処理シーケンスを説明するフローである。
ユーザ位置判定とユーザ識別処理は、前述の特許文献3(特開2009−031951号公報)に記載の処理に従って行われる。
図9に示すフローの各ステップの処理について説明する。
まず、ステップS101において、発話内容の解析対象となるユーザ位置が、下記のいずれであるかを判別する。
(1)ユーザ発話に対応した処理を実行する装置から近い(Near Field)、
(2)ユーザ発話に対応した処理を実行する装置から遠い(Far Field)、
(3)ユーザ位置が不明
なお、これらのユーザ位置が近い、遠いの判定は、予め設定した閾値に従って判定する。また、音声入力部であるマイクは、ユーザ発話に対応した処理を実行する装置の近傍に設置されているものとする。
まず、ユーザ位置が近い(Near Field)と判定した場合の処理について説明する。
ユーザ位置が近い(Near Field)と判定した場合は、ステップS106に進む。
ステップS106では、音声イベント検出部202から入力した大語彙音声認識辞書202を適用した音声認識結果を選択する。
さらに、ステップS107において、このステップS106で選択した大語彙音声認識辞書202を適用した音声認識結果が、ユーザ発話管理データ、すなわち、先に図8を参照して説明したユーザ発話管理データ203に登録されているか否かを判定する。
大語彙音声認識辞書202を適用した音声認識結果がユーザ発話管理データ203に登録されていない場合は、ステップS108に進み、ステップS106において選択した大語彙音声認識辞書202を適用した音声認識結果を新規エントリとして、ユーザ発話管理データ203に登録する処理を実行した後、ステップS109に進む。
なお、新規登録エントリの構成データは、図8に示すユーザ発話管理データ203に示すように、ユーザ識別子と、ユーザ発話内容との対応データである。
一方、ステップS107において、大語彙音声認識辞書202を適用した音声認識結果がユーザ発話管理データ203に登録されていることを確認した場合は、ステップS108の登録処理を省略し、ステップS109に進む。
ステップS109では、ステップS106において選択した大語彙音声認識辞書202を適用した音声認識結果を、受理可能か否かを判定する。この判定処理は、ユーザ発話に応じた処理を実行する装置に予め設定された判定アルゴリズムに従って実行する。
例えば、システム(例えば図1に示すテレビ)が実行可能な処理であるか否かに応じた判定処理として、受理または棄却いずれかの判定を行う。
なお、大語彙音声認識辞書202を適用した音声認識結果は、より多くの単語に基づく音声認識が実行されるため、より精度の高い音声認識が実行されることになる。従って、その音声認識結果に対応する発話内容に対応する処理は処理可能な要求である可能性が高く、「受理」される可能性が高くなる。
しかし、小語彙音声認識辞書201を適用した音声認識結果は、少ない単語に基づく音声認識が実行されるため、精度の低い誤った音声認識が実行される場合がある。
例えば、ユーザ発話が「画像ファイルから人物を検索して」という内容である場合、小語彙音声認識辞書201を適用した音声認識処理では、この内容が正確に把握できず、音声認識結果として、「認識不能」、あるいは誤った認識結果を音声・画像統合処理部131に出力することになる。
このような場合は、発話内容に対応する処理は処理不可能と判定され、「棄却」される。
ステップS109の判定処理において、音声認識結果を受理可能と判定した場合は、ステップS110に進み、音声認識結果を受理する。この場合、例えば図1に示すテレビの画面に受理したことを通知するメッセージ表示、あるいは音声で通知する処理などを行ってもよい。
一方、ステップS109の判定処理において、音声認識結果を受理不可能と判定した場合は、ステップS111に進み、音声認識結果を棄却する。この場合、例えば図1に示すテレビの画面に棄却したことを通知するメッセージ表示、あるいは音声で通知する処理などを行ってもよい。
次に、ステップS101の判定処理において、発話内容の解析対象となるユーザ位置が、ユーザ発話に対応した処理を実行する装置から遠い(Far Field)、またはユーザ位置が不明と判定した場合の処理について説明する。
ユーザ位置が遠い(Far Field)、または不明であると判定した場合は、ステップS102に進む。
ステップS102では、先に図8を参照して説明したユーザ発話管理データ203を参照して、識別されたユーザの発話が登録されているか否かを判定する。この時点ですでにユーザ識別は完了しており、発話を行ったユーザがだれであるかの識別がなされているものとする。
識別されたユーザの発話内容が、図8を参照して説明したユーザ発話管理データ203に登録されている場合はステップS103に進む。
一方、識別されたユーザの発話内容が、図8を参照して説明したユーザ発話管理データ203に登録されていない場合はステップS104に進む。
識別されたユーザの発話内容が、図8を参照して説明したユーザ発話管理データ203に登録されている場合はステップS103に進み、ステップS103において、さらに、ユーザ発話管理データ203に登録されている発話内容と、音声イベント検出部122から入力した大語彙音声認識辞書202を適用した音声認識結果とが一致するか否かを判定する。
一致する場合は、ステップS105に進み、大語彙音声認識辞書202を適用した音声認識結果を最終的な音声認識結果として選択する。
一方、ステップS102において、識別されたユーザの発話内容が、図8を参照して説明したユーザ発話管理データ203に登録されていないと判定した場合はステップS104に進む。
また、ステップS103において、ユーザ発話管理データ203に登録されている発話内容と、音声イベント検出部122から入力した大語彙音声認識辞書202を適用した音声認識結果とが一致しないと判定した場合もステップS104に進む。
ステップS104では、小語彙音声認識辞書201を適用した音声認識結果を最終的な音声認識結果として選択する。
ステップS104における小語彙音声認識辞書201を適用した音声認識結果を最終的な音声認識結果として選択する処理、または、
ステップS105における大語彙音声認識辞書202を適用した音声認識結果を最終的な音声認識結果として選択する処理、
これらの処理が終了すると、ステップS109に進む。
ステップS109以下の処理は、既に説明した通りである。
すなわち、各辞書を適用して得られた音声認識結果が受理可能か否かの判定を実行し、受理または棄却処理を実行する。
図10〜図13は、ユーザ位置と辞書の選択適用処理、さらに音声認識結果の受理または棄却処理の対応関係を説明した図である。
ユーザの発話が、以下の発話であるとする。
「画像ファイルから人物を検索して」
この発話は、ユーザ発話管理データ203に登録されていないものとする。
まず、図10に示すように、ユーザ(A)が、ユーザ発話に応じた処理を実行する装置およびマイクから距離が遠い(Far Field)位置において、
「画像ファイルから人物を検索して」
上記発話を行ったものとする。
この場合、図9に示すフローチャートのステップS101→ステップS102→ステップS104と進む。
ステップS104において、小語彙音声認識辞書201を適用した音声認識結果が選択されるが、この音声認識結果は、「認識不能」または「誤認識」のいずれかの認識結果となる。
この「認識不能」または「誤認識」のいずれかの認識結果に応じて、ステップS109の音声認識結果の受理可能性の判定が行われる。
この結果として、音声認識結果に対応する処理を実行する装置は、処理不可能と判定し、ステップS111に進み、音声認識結果の棄却を行い、図10に示すように、ユーザに対して棄却メッセージを通知する。
次に、図11に示すように、ユーザ(A)がユーザ発話に応じた処理を実行する装置およびマイクから距離が遠い(Far Field)位置から近い(Near Field)に移動して、同じ発話、すなわち、
「画像ファイルから人物を検索して」
上記発話を行ったものとする。
この場合、図9に示すフローチャートのステップS101→ステップS106と進む。
ステップS106において、大語彙音声認識辞書202を適用した音声認識結果が選択される。
大語彙音声認識辞書202を適用した音声認識結果は、ユーザ(A)の発話、すなわち、
「画像ファイルから人物を検索して」
上記発話を正確に認識した結果となる。
さらに、ステップS106から、ステップS107→ステップS108と進む。
ステップS108において、大語彙音声認識辞書202を適用した音声認識結果をユーザ発話管理データ203に登録する処理が行われる。
すなわち、以下のユーザ識別子と発話内容の対応データが登録される。
ユーザ(A):「画像ファイルから人物を検索して」
その後、ステップS109において、音声認識結果の受理可能性の判定が行われる。
この判定では、大語彙音声認識辞書202を適用した音声認識結果、すなわち、
「画像ファイルから人物を検索して」
このユーザ発話を正確に反映した音声認識結果に基づく処理となり、この結果として、音声認識結果に対応する処理を実行する装置は、処理可能と判定し、ステップS110に進み、音声認識結果の受理を行い、図11に示すように、ユーザに対して受理メッセージを通知する。
次に、図12に示すように、ユーザ(A)がユーザ発話に応じた処理を実行する装置およびマイクから距離が近い(Near Field)位置から、再度、遠い(Far Field)位置に移動して、同じ発話、すなわち、
「画像ファイルから人物を検索して」
上記発話を行ったものとする。
この位置関係は、図10に示す設定と同様である。ただし、図12に示す設定では、先に図11をも参照して説明した処理により、ユーザ発話管理データ203に以下のエントリが登録されている。
ユーザA:「画像ファイルから人物を検索して」
上記のユーザ識別子と発話内容との対応データが、ユーザ発話管理データ203に登録されている。
この場合、図9に示すフローチャートのステップS101→ステップS102→ステップS103と進む。
ステップS103において、ユーザ発話管理データ203に登録されている発話内容と、音声イベント検出部122から入力した大語彙音声認識辞書202を適用した音声認識結果とが一致するか否かを判定する。
この場合は一致することになり、ステップS105に進み、大語彙音声認識辞書202を適用した音声認識結果を最終的な音声認識結果として選択する。
その後、ステップS109において、音声認識結果の受理可能性の判定が行われる。
この判定では、大語彙音声認識辞書202を適用した音声認識結果、すなわち、
「画像ファイルから人物を検索して」
このユーザ発話を正確に反映した音声認識結果に基づく処理となり、この結果として、音声認識結果に対応する処理を実行する装置は、処理可能と判定し、ステップS110に進み、音声認識結果の受理を行い、図12に示すように、ユーザに対して受理メッセージを通知する。
このように、ユーザ位置がユーザ発話に応じた処理を実行する装置およびマイクから距離が遠い(Far Field)位置にある場合であっても、ユーザ発話管理データ203に登録されている発話内容と、音声イベント検出部122から入力した大語彙音声認識辞書202を適用した音声認識結果とが一致する場合は、大語彙音声認識辞書202を適用した音声認識結果を適用した処理が実行される。
図13は、ユーザ(A)と異なるユーザ(B)が、ユーザ発話に応じた処理を実行する装置およびマイクから距離が遠い(Far Field)位置において、
「画像ファイルから人物を検索して」
上記発話を行った場合の処理例を示している。
ユーザ発話管理データ203には、以下のユーザ識別子と発話内容の対応データが登録されている。
ユーザ(A):「画像ファイルから人物を検索して」
このデータが、ユーザ発話管理データ203に登録されている。
しかし、ユーザ(B)についての登録データ、すなわち、
ユーザ(B):「画像ファイルから人物を検索して」
このデータは、ユーザ発話管理データ203に登録されていない。
この場合の処理は、先に図10を参照して説明した処理と同様となる。
すなわち、図9に示すフローチャートのステップS101→ステップS102→ステップS104と進む。
ステップS104において、小語彙音声認識辞書201を適用した音声認識結果が選択されるが、この音声認識結果は、「認識不能」または「誤認識」のいずれかの認識結果となる。
この「認識不能」または「誤認識」のいずれかの認識結果に応じて、ステップS109の音声認識結果の受理可能性の判定が行われる。
この結果として、音声認識結果に対応する処理を実行する装置は、処理不可能と判定し、ステップS111に進み、音声認識結果の棄却を行い、図13に示すように、ユーザに対して棄却メッセージを通知する。
このように、本開示の処理に従えば、ユーザの位置情報や、ユーザ識別情報に応じた最適な音声認識処理および発話確認が可能となり、ユーザ要求に対する正確な応答処理が可能となる。
[5.本開示の構成のまとめ]
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、本明細書において開示した技術は、以下のような構成をとることができる。
(1) 実空間における画像情報および音声情報を入力する複数の情報入力部と、
前記情報入力部からの入力情報の解析により、前記実空間に存在するユーザ位置および識別ユーザの推定情報と、
登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、
登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出部と、
前記イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する情報統合処理部と、
を有することを特徴とする情報処理装置。
(2)前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値未満の近い(Near Field)位置にある場合、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、前記ユーザ装置間距離が既定閾値以上の遠い(Far Field)位置にある場合、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する前記(1)に記載の情報処理装置。
(3)前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置が不明である場合、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する前記(1)または(2)に記載の情報処理装置。
(4)前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値未満の近い(Near Field)位置にある場合、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、さらに、前記大語彙辞書対応音声認識結果をユーザ識別子と対応付けてユーザ発話管理データとして登録する前記(1)〜(3)いずれかに記載の情報処理装置。
(5)前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値以上の遠い(Far Field)位置にある場合、またはユーザ位置が不明である場合、前記ユーザ発話管理データを参照し、識別されたユーザのユーザ識別子と前記大語彙辞書対応音声認識結果との対応データが前記ユーザ発話管理データに登録されているか否かを判定し、登録されている場合は、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、登録されていない場合は、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する前記(4)に記載の情報処理装置。
(6)前記情報統合処理部は、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかから選択した最終音声認識結果に応じた処理の実行可能性に応じて、音声認識結果の受理または棄却メッセージの出力を実行する前記(1)〜(5)いずれかに記載の情報処理装置。
さらに、上記した装置において実行する処理の方法や、処理を実行させるプログラムおよびプログラムを記録した記録媒体も本開示の構成に含まれる。
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本開示の一実施例の構成によれば、ユーザ位置およびユーザ識別情報に基づいて処理態様を変更して高精度の音声認識処理を行う構成が実現される。
具体的には、実空間における画像情報および音声情報を入力する複数の情報入力部と、情報入力部からの入力情報の解析により、実空間に存在するユーザ位置および識別ユーザの推定情報と、登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出部と、イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、小語彙辞書対応音声認識結果と、大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する。
本構成により、例えば発話ユーザの位置が装置に近い場合は、大語彙音声認識辞書を適用し、遠い場合は小語彙音声認識辞書を適用することで、認識誤りを抑えた精度の高い音声認識処理が実現される。
11〜14 ユーザ
21 カメラ
31〜32 マイク
100 情報処理装置
111 画像入力部
112 画像イベント検出部
121 音声入力部
122 音声イベント検出部
131 音声・画像統合処理部
132 処理決定部
201 小語彙音声認識辞書
202 大語彙音声認識辞書
203 ユーザ発話管理データ

Claims (8)

  1. 実空間における画像情報および音声情報を入力する複数の情報入力部と、
    前記情報入力部からの入力情報の解析により、前記実空間に存在するユーザ位置および識別ユーザの推定情報と、
    登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、
    登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出部と、
    前記イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する情報統合処理部と、
    を有することを特徴とする情報処理装置。
  2. 前記情報統合処理部は、
    音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値未満の近い(Near Field)位置にある場合、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、
    前記ユーザ装置間距離が既定閾値以上の遠い(Far Field)位置にある場合、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する請求項1に記載の情報処理装置。
  3. 前記情報統合処理部は、
    音声認識処理対象となる発話ユーザのユーザ位置が不明である場合、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する請求項1に記載の情報処理装置。
  4. 前記情報統合処理部は、
    音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値未満の近い(Near Field)位置にある場合、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、
    さらに、前記大語彙辞書対応音声認識結果をユーザ識別子と対応付けてユーザ発話管理データとして登録する請求項1に記載の情報処理装置。
  5. 前記情報統合処理部は、
    音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値以上の遠い(Far Field)位置にある場合、またはユーザ位置が不明である場合、
    前記ユーザ発話管理データを参照し、識別されたユーザのユーザ識別子と前記大語彙辞書対応音声認識結果との対応データが前記ユーザ発話管理データに登録されているか否かを判定し、登録されている場合は、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、
    登録されていない場合は、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する請求項4に記載の情報処理装置。
  6. 前記情報統合処理部は、
    前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかから選択した最終音声認識結果に応じた処理の実行可能性に応じて、音声認識結果の受理または棄却メッセージの出力を実行する請求項1に記載の情報処理装置。
  7. 情報処理装置において実行する情報処理方法であり、
    複数の情報入力部が、実空間における画像情報および音声情報を入力する情報入力ステップと、
    イベント検出部が、
    前記情報入力部からの入力情報の解析により、前記実空間に存在するユーザ位置および識別ユーザの推定情報と、
    登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、
    登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出ステップと、
    情報統合処理部が、
    前記イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する情報統合処理ステップと、
    を実行することを特徴とする情報処理方法。
  8. 情報処理装置において情報処理を実行させるプログラムであり、
    複数の情報入力部に、実空間における画像情報および音声情報を入力させる情報入力ステップと、
    イベント検出部に、
    前記情報入力部からの入力情報の解析により、前記実空間に存在するユーザ位置および識別ユーザの推定情報と、
    登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、
    登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成させるイベント検出ステップと、
    情報統合処理部に、
    前記イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行させ、取得したユーザ位置およびユーザ識別情報を適用して、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成させる情報統合処理ステップと、
    を実行させることを特徴とするプログラム。
JP2012132941A 2012-06-12 2012-06-12 情報処理装置、および情報処理方法、並びにプログラム Pending JP2013257418A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012132941A JP2013257418A (ja) 2012-06-12 2012-06-12 情報処理装置、および情報処理方法、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012132941A JP2013257418A (ja) 2012-06-12 2012-06-12 情報処理装置、および情報処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2013257418A true JP2013257418A (ja) 2013-12-26

Family

ID=49953904

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012132941A Pending JP2013257418A (ja) 2012-06-12 2012-06-12 情報処理装置、および情報処理方法、並びにプログラム

Country Status (1)

Country Link
JP (1) JP2013257418A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018163313A (ja) * 2017-03-27 2018-10-18 カシオ計算機株式会社 音声認識装置、音声認識方法、プログラム及びロボット
JP2022036953A (ja) * 2017-12-08 2022-03-08 グーグル エルエルシー デジタル音声アシスタントコンピューティングデバイスの間の信号処理の調整
CN114995657A (zh) * 2022-07-18 2022-09-02 湖南大学 一种智能机器人的多模态融合自然交互方法、系统及介质
US11705127B2 (en) 2017-12-08 2023-07-18 Google Llc Signal processing coordination among digital voice assistant computing devices
US11823704B2 (en) 2017-12-08 2023-11-21 Google Llc Signal processing coordination among digital voice assistant computing devices

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018163313A (ja) * 2017-03-27 2018-10-18 カシオ計算機株式会社 音声認識装置、音声認識方法、プログラム及びロボット
US10540972B2 (en) 2017-03-27 2020-01-21 Casio Computer Co., Ltd. Speech recognition device, speech recognition method, non-transitory recording medium, and robot
JP2022036953A (ja) * 2017-12-08 2022-03-08 グーグル エルエルシー デジタル音声アシスタントコンピューティングデバイスの間の信号処理の調整
US11705127B2 (en) 2017-12-08 2023-07-18 Google Llc Signal processing coordination among digital voice assistant computing devices
JP7328304B2 (ja) 2017-12-08 2023-08-16 グーグル エルエルシー デジタル音声アシスタントコンピューティングデバイスの間の信号処理の調整
US11823704B2 (en) 2017-12-08 2023-11-21 Google Llc Signal processing coordination among digital voice assistant computing devices
CN114995657A (zh) * 2022-07-18 2022-09-02 湖南大学 一种智能机器人的多模态融合自然交互方法、系统及介质

Similar Documents

Publication Publication Date Title
US11875820B1 (en) Context driven device arbitration
US10621991B2 (en) Joint neural network for speaker recognition
JP4462339B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US20110224978A1 (en) Information processing device, information processing method and program
US11854550B2 (en) Determining input for speech processing engine
KR101702829B1 (ko) 인공 신경망 기반 서브-음성 유닛 구별을 이용한 화자 검증 및 식별
US9899025B2 (en) Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
JP4730404B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
EP2023270A2 (en) Information processing apparatus, information processing method, and computer program
JP2014153663A (ja) 音声認識装置、および音声認識方法、並びにプログラム
US11687526B1 (en) Identifying user content
JP2012038131A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP2010165305A (ja) 情報処理装置、および情報処理方法、並びにプログラム
Minotto et al. Multimodal multi-channel on-line speaker diarization using sensor fusion through SVM
JP2013104938A (ja) 情報処理装置、および情報処理方法、並びにプログラム
US9947323B2 (en) Synthetic oversampling to enhance speaker identification or verification
JP2013257418A (ja) 情報処理装置、および情報処理方法、並びにプログラム
KR20190129731A (ko) 음성대화 시스템, 음성대화 방법 및 프로그램
Mangalam et al. Learning spontaneity to improve emotion recognition in speech
JP2009042910A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2011191542A (ja) 音声分類装置、音声分類方法、及び音声分類用プログラム
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
JP2016213631A (ja) 理解状態推定装置及びプログラム