JP2012047924A

JP2012047924A - 情報処理装置、および情報処理方法、並びにプログラム

Info

Publication number: JP2012047924A
Application number: JP2010189123A
Authority: JP
Inventors: Katsuki Minamino; 活樹南野; Atsuo Hiroe; 厚夫廣江; Yukinori Maeda; 幸徳前田; Satoshi Asakawa; 智朝川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-08-26
Filing date: 2010-08-26
Publication date: 2012-03-08
Also published as: US20120053942A1; CN102385860A; US8566094B2

Abstract

【課題】ユーザ発話に基づいてユーザの意図を判定する装置および方法を実現する。
【解決手段】予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出する事前スコア調整部、ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出するマルチマッチング部、意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定する意図判定部を有し、意図モデル単位のスコア比較によりユーザの発話に対応するユーザの意図を判定する。
【選択図】図３

Description

本発明は、情報処理装置、および情報処理方法、並びにプログラムに関する。特に、音声認識処理や発話の意図を推定する音声理解処理を行う情報処理装置、および情報処理方法、並びにプログラムに関する。

近年、音声認識を適用した様々な製品やサービスが多く利用されている。音声認識とは、マイク等の音声入力部を介して入力する音声信号を解析し、入力音声信号に対応した単語の系列を自動的に決定する技術である。この音声認識技術と様々なアプリケーションを組み合わせることで、音声認識結果に基づくデータ処理を行う様々な製品やサービスが実現される。

音声認識処理の基本構成について図１を参照して説明する。ユーザによって入力された音声１１は、マイク１２によって取り込まれ、ＡＤ変換部１３によってアナログ信号をサンプリングしてデジタルデータを生成する。デジタルデータは特徴抽出部１４に入力され、適当な時間間隔で周波数分析などが行われ、スペクトルやその他の音声の音響的特徴を表すパラメータに変換される。

この特徴抽出部１４の処理により、音声の特徴量の時系列が得られることになる。この特徴量系列はマッチング部１５へ送られる。マッチング部１５では、音響モデルデータ１６、辞書データ１７、文法データ１８の各情報をもとに、入力されたパラメータとのマッチングを行ない、音声認識結果１９を出力する。

また、特徴抽出部１４では特徴量系列の抽出と合わせて、音声区間を決定する。音声区間とは、発話の開始時刻から終了時刻までの区間に対応する。音声区間を検出する方法としては、例えば、音声信号のパワーなどに基づいた発話の区間だけを抽出する方法などが利用される。マッチング部１５は、音声区間に対応する特徴量系列に対するマッチング処理を行うことで、ユーザの発話ごとに音声認識結果１９を出力することになる。

音響モデルデータ１６は、対象となる言語、例えば日本語や英語などの各言語において用いられる個々の音素や音節などの音響的な特徴を保持するモデルで、隠れマルコフモデル（ＨＭＭ）などが用いられる。

辞書データ１７は認識対象となる個々の単語の発音に関する情報を保持したデータであり、これにより、単語と上述の音響モデルが関連付けられる。その結果、辞書中に含まれる各単語に対応する音響的な標準パターンが得られることになる。

文法データ１８は、辞書に記述されている個々の単語がどのように連鎖しうるかを記述したデータで、正規文法や文脈自由文法に基づく記述や、統計的な単語連鎖確率を含む文法（Ｎ−ｇｒａｍ）などが用いられる。

マッチング部１５では、これらの音響モデルデータ１６、辞書データ１７、文法データ１８を用いて、入力された特徴量系列と最も適合する単語系列の決定がなされる。たとえば音響モデルデータ１６として隠れマルコフモデル（ＨＭＭ）が用いられる場合には、各特徴量の出現確率を特徴量系列にしたがって累積した値が音響的な評価値（以下、音響スコアと呼ぶ）として用いられる。このような音響スコアは、上述の標準パターンを用いることで、単語ごとに求まることになる。

また、文法データ１８としてたとえばバイグラムが用いられる場合には、直前の単語との連鎖確率に基づく各単語の言語的な確からしさが数値化され、その値が言語的評価値（以下、言語スコアと呼ぶ）として与えられることになる。そして、音響スコアと言語スコアを総合して評価することで、入力音声信号に最も適合する単語系列が決定されることになる。

例として、ユーザが、「今日はいい天気ですね。」と発声した場合を考える。この場合、たとえば、「今日」「は」「いい」「天気」「ですね」のような単語の系列が認識結果として得られることになる。この際、各単語に対して音響スコア、および言語スコアが与えられることになる。なお、本発明では、上記のような辞書データ１７と文法データ１８を合わせたものを言語モデルと呼ぶものとする。

このような音声認識の技術を製品やサービスに応用する場合、以下の二通りの方法が広く用いられる。
（ａ）認識された単語系列に対して、対応する動作を直接関連付ける方法、
（ｂ）認識された単語系列から発話に含まれるユーザの意図を抽出し、その意図に対して、対応する動作を関連付ける方法、
これらの二通りの方法が広く用いられている。

たとえば、ロボットに対して、「立って」と発話した場合、認識された単語系列「立って」に対応してロボットが立ち上がる動作を行うようになされているのが前者（ａ）の方法、すなわち、対応する動作を直接関連付ける方法である。

一方、「立って」「起きて」「立ち上がって」のような発話に対して、それぞれの発話に含まれる意図（例えば、意図としての「立ってください」）を推定し、その意図に対して、対応する動作を行うようになされているのが後者（ｂ）の方法である。すなわち、発話に含まれるユーザの意図を抽出し、その意図に対して、対応する動作を関連付ける方法である。

一般に、同じような意図を持つ発話の種類は数多く存在するため、認識される単語系列に対して対応する動作を直接割り当てる前者（ａ）の方法に比べると、発話の意図を推定し、その意図に対して対応する動作を割り当てる後者（ｂ）の方法の方が、動作の割り当ては簡単に行なうことが可能である。このような、入力音声信号から、発話の意図を推定する装置のことを、音声理解装置と呼ぶものとする。

なお、発話に含まれるユーザの意図を推定する方法を開示した従来技術として、例えば特許文献１（特開２００６−５３２０３「音声処理装置および方法、記録媒体、並びにプログラム」）がある。

この特許文献１に開示された方法では、入力音声信号に基づく意図（文献では、意思と記述されているが、以下では、混乱のない限り、同じ意味で意図と記述するものとする）を推定する手法を開示している。この特許文献１においては、１つの意図（例えば、意図としての「立ってください」）を示す意図情報に対応する文法規則および単語辞書に基づいて構成された単語系列と入力された音声信号との音響的な類似度を示す音響スコア算出手段と、言語的な類似度を示す言語スコア算出手段を備え、意図情報ごとに計算される音響スコアと言語スコアを基に、複数の意図情報から入力音声信号に対応する意図を示す意図情報を選択することで、意図の推定を行っている。

しかし、一般に、意図情報の総数が多くなればなるほど、入力音声に対する意図の推定精度は低下し、計算量は増加する。
例えば、具体例として音声認識に基づく処理を実行する情報処理装置が録画再生機能を持つテレビであるような場合、ユーザはテレビに対して「チャンネルを変えてください」、「音量を上げてください」、「録画してください」、「再生してください」、「早送り再生してください」、「スロー再生してください」、「一時停止してください」等、数多くの異なる要求（意図）をテレビに対して行うことができる。

このように、様々な異なる要求がなされる可能性のある装置では、上述の音声信号との音響的な類似度を示す音響スコア算出手段と、言語的な類似度を示す言語スコア算出手段を適用して予め設定されている多数の意図情報から入力音声信号に対応する意図を示す意図情報を選択する処理を行う場合、その処理に要する計算量が増加し意図推定精度も低下する。

特開２００６−５３２０３号公報

本発明は、例えば、上記問題点に鑑みてなされたものであり、音声認識に基づく意図推定を効率的に、かつ高精度に実行することを可能とした情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。

本発明の第１の側面は、
予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出する事前スコア調整部と、
ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出するマルチマッチング部と、
前記意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定する意図判定部と、
を有する情報処理装置にある。

さらに、本発明の情報処理装置の一実施態様において、前記観測情報は複数の異なる観測情報を含み、前記複数の異なる観測情報に対応するコンテキスト情報の各々に対するコンテキスト対応事前スコアを登録した事前スコア記憶部を有し、前記事前スコア調整部は、前記コンテキスト情報に基づいて、前記事前スコア記憶部に登録されたコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する。

さらに、本発明の情報処理装置の一実施態様において、前記観測情報としてのコンテキスト情報は、
（ａ）入出力部から入力されるユーザ選択処理カテゴリ情報、
（ｂ）画像処理部から入力される音声入力者識別情報、
（ｃ）マイク判定部から入力される音声入力マイク識別情報、
上記（ａ）〜（ｃ）の情報の少なくともいずれかを含み、
前記事前スコア調整部は、前記コンテキスト情報に基づいて、前記事前スコア記憶部に登録されたコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する。

さらに、本発明の情報処理装置の一実施態様において、前記ユーザ選択処理カテゴリ情報は、情報処理装置が表示部に表示した情報処理装置の実行する処理カテゴリ情報に対するユーザの選択情報であり、前記事前スコア調整部は、ユーザの選択した処理カテゴリに対応するコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する。

さらに、本発明の情報処理装置の一実施態様において、前記音声入力者識別情報は、情報処理装置のカメラ撮影画像に基づいて前記画像処理部が実行する顔識別処理によって識別された結果である音声入力者識別情報であり、前記事前スコア調整部は、識別された音声入力者に対応するコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する。

さらに、本発明の情報処理装置の一実施態様において、前記音声入力マイク識別情報は、情報処理装置のマイク判定部が、音声の入力されたマイクを判別した情報であり、前記事前スコア調整部は、音声入力のなされたマイクに対応するコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する。

さらに、本発明の情報処理装置の一実施態様において、前記意図判定部は、音響スコア、言語スコア、事前スコアの各々に対応して予め設定した重みを適用して前記意図モデル単位の総合スコアの算出を行う。

さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、さらに、前記意図判定部の判定結果を入力し、入力した判定結果に基づく学習処理により、前記事前スコア記憶部に登録されたコンテキスト対応事前スコアを更新する事前スコア学習部を有する。

さらに、本発明の第２の側面は、
情報処理装置において実行する情報処理方法であり、
事前スコア調整部が、予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出する事前スコア調整ステップと、
マルチマッチング部が、ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出するマルチマッチングステップ、
意図判定部が、前記意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定する意図判定ステップと、
を有する情報処理方法にある。

さらに、本発明の第３の側面は、
情報処理装置において情報処理を実行させるプログラムであり、
事前スコア調整部に、予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出させる事前スコア調整ステップと、
マルチマッチング部に、ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出させるマルチマッチングステップ、
意図判定部に、前記意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定させる意図判定ステップと、
を実行させるプログラムにある。

なお、本発明のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

本発明の一実施例の構成によれば、ユーザ発話に基づいてユーザの意図を判定する装置および方法が実現される。予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出する事前スコア調整部、ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出するマルチマッチング部、意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定する意図判定部を有し、意図モデル単位のスコア比較によりユーザの発話に対応するユーザの意図を判定する。本発明により、入力音声信号から発話の意図を推定する装置において、様々な観測情報をコンテキストとして利用して事前スコアを調整することが可能となり、その結果、意図の推定精度を高めることが可能となる。

音声認識処理の基本構成について説明する図である。本発明の情報処理装置の実行する処理の概要について説明する図である。本発明の情報処理装置の詳細な構成例を示すブロック図である。表示部２１３に提示される情報処理装置２００の実行する処理のカテゴリ（種類）情報の例を示す図である。本発明の情報処理装置の実行する処理の処理カテゴリに対応する意図情報の例について説明する図である。本発明の情報処理装置のコントローラを利用した処理カテゴリの選択例について説明する図である。本発明の情報処理装置の事前スコア記憶部２２３に登録されるデータ例を示す図である。本発明の情報処理装置の事前スコア記憶部２２３に登録されるデータ例を示す図である。本発明の情報処理装置の事前スコア記憶部２２３に登録されるデータ例を示す図である。本発明の情報処理装置の事前スコア記憶部２２３に登録されるデータ例を示す図である。本発明の情報処理装置の事前スコア記憶部２２３に登録されるデータ例を示す図である。本発明の情報処理装置のハードウェア構成例について説明する図である。

以下、図面を参照しながら本発明の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行う。
１．本発明の情報処理装置の実行する処理の概要について
２．本発明の情報処理装置の構成および具体的な処理について
３．情報処理装置のハードウェア構成例について

［１．本発明の情報処理装置の実行する処理の概要について］
まず、図２を参照して本発明の情報処理装置の実行する処理の概要について説明する。図２には、本発明に係る情報処理装置の例として録画再生機能を有するテレビを示している。情報処理装置１００は、例えば、放送コンテンツの表示処理の他、内蔵する録画再生機器、例えばハードディスク、ＤＶＤやＢｌｕ−ｒａｙディスク等に記録されたコンテンツの再生処理や、録画再生機器に対する番組の録画処理などを実行する。

情報処理装置１００の前には、複数のユーザがいる。図に示す例では、ユーザａ，５１、ユーザｂ，５２、ユーザｃ，５３がいる。これらのユーザは、情報処理装置１００に対して、様々な要求を行う。例えばチャンネルの切り替え、ボリュームの調整、録画処理の開始、あるいは記録コンテンツの一覧リストの表示、リストからのコンテンツの選択再生要求、再生の停止、早送りなどの要求である。

ユーザは、これらの要求を音声、すなわち発話によって行う。情報処理装置１００は、カメラ１０１、マイクとスピーカを備えた音声入出力部１０２を有する。ユーザａ〜ｃ，５１〜５３の発する言葉は、マイクとスピーカを備えた音声入出力部１０２を介して情報処理装置１００内に入力される。また、ユーザａ〜ｃ，５１〜５３の画像は、カメラ１０１を介して情報処理装置１００内に入力される。

情報処理装置１０１は、これらの入力情報を解析して、装置が実行すべきアクションを決定し、実行する。ユーザの要求が理解できた場合は、その要求に応じた処理を実行する。例えばチャンネルの切り替えやコンテンツの選択再生処理などである。

［２．本発明の情報処理装置の構成および具体的な処理について］
次に、図３以下を参照して本発明の情報処理装置の構成および具体的な処理について説明する。図３に示す情報処理装置２００は、例えば図２に示す情報処理装置１００に対応する。なお、本発明の情報処理装置はテレビに限らず、ＰＣや、録画再生機、その他、様々な家電製品として実現可能である。すなわち、ユーザ要求に応じて様々な処理を行う情報処理装置である。

先に、図１を参照して音声認識処理の基本構成に関して説明を述べた。図３に示す情報処理装置２００において、音声入力２０１、ＡＤ変換部２０５、特徴抽出部２０６、および音響モデル２０８は、先に図１を参照して説明したと同様の構成であり、以下ではこれらの構成については簡略化して説明する。

本実施例の情報処理装置２００は、近距離マイク２０２と遠距離マイク２０３の二つのマイクを備え、ユーザがどちらのマイクを利用しているかを判定するマイク判定部２０４を備える。近距離マイク２０２とは、ユーザとマイクの距離が短い状態で利用することを想定したマイクである。例えば、ユーザが手に持って話すマイクや、ユーザが手に持って利用するリモコンなどにつけられたマイクに相当する。一方、遠距離マイク２０３とは、ユーザとマイクの距離が遠い状態で利用することを想定したマイクである。例えば、天井、壁、テレビなどに備え付けられたマイクで、ユーザがマイクから少し離れた場所から発声することを想定したマイクに相当する。

マイク判定部２０４は、近距離マイク２０２と遠距離マイク２０３のどちらをユーザが利用して音声（発話）の入力を行っているかを判定するためのものである。例えば、近距離マイクにボタンを備え付け、このボタンを押しながら音声を入力した場合には近距離マイクからの音声入力と判定し、ボタンを押さずにユーザが発声した音声入力に対しては、遠距離マイクに対する音声入力と判定することで、ユーザがどちらのマイクから音声を入力したかを判定することが可能となる。

この場合、ボタンを押しているかどうかに基づいて、マイク判定部２０４は判定を行うことになる。ＡＤ変換部２０５には、マイク判定部２０４によってユーザが音声入力を行ったと判定されたマイクから入力される音声信号だけが送られるものとする。また、マイク判定部２０４の判定結果は１つのコンテキスト情報としてコンテキスト判断部２１６に送信される。コンテキスト判断部２１６の詳細については後述する。

ＡＤ変換部２０５は、マイクから入力される音声信号に対応するアナログ信号をサンプリングしてデジタルデータを生成する。デジタルデータは特徴抽出部２０６に入力され、適当な時間間隔で周波数分析などが行われ、スペクトルやその他の音声の音響的特徴を表すパラメータに変換される。この特徴抽出部２０６の処理により、音声の特徴量の時系列データである特徴量系列が得られることになる。

特徴抽出部２０６で抽出された特徴量系列は、マルチマッチング部２０７へ送られる。マルチマッチング部２０７は、特徴抽出部２０６から送られてきた特徴量系列と、意図モデルＡ（２０９−Ａ）から意図モデルＮ（２０９−Ｎ）に基づき、それぞれの意図モデルに対してスコア値を計算する。スコアの計算方法については、後述する。

意図モデルＡ（２０９−Ａ）から意図モデルＮ（２０９−Ｎ）は、ユーザの発話に基づいて推定される意図の各々に対応するモデルとして設定される。これらの意図は情報処理装置に対してユーザが要求するであろう要求項目に対応して登録される。具体的には後述するが、本発明の装置では、例えば、図５に示す
意図情報Ａ＝［再生する］
意図情報Ｂ＝［早送りする］
：
意図情報Ｎ＝［演奏者を設定する］
これらＡ〜Ｎ：１５個の意図情報に対応する意図モデルＡ〜Ｎ（２０９−Ａ〜Ｎ）が設定される。

意図モデルＡ（２０９−Ａ）から意図モデルＮ（２０９−Ｎ）は、それぞれ、
（１）意図情報Ａ（２０９−Ａ１）から意図情報Ｎ（２０９−Ｎ１）、
（２）事前スコアＡ（２０９−Ａ２）から事前スコアＮ（２０９−Ｎ２）、
（３）辞書Ａ（２０９−Ａ３）から辞書Ｎ（２０９−Ｎ３）、
（４）文法Ａ（２０９−Ａ４）から文法Ｎ（２０９−Ｎ４）、
これらのデータに基づいて構成される。

例えば、意図モデルＡ（２０９−Ａ）は、
意図情報Ａ（２０９−Ａ１）、
事前スコアＡ（２０９−Ａ２）、
辞書Ａ（２０９−Ａ３）、および、
文法Ａ（２０９−Ａ４）、
これらのデータを備える。

意図情報とは、各意図モデルがどのような意図に対応するかを示す情報である。例えば、図５に示す
意図情報Ａ＝［再生する］
意図情報Ｂ＝［早送りする］
：
意図情報Ｎ＝［演奏者を設定する］
これらの意図情報が各意図モデルＡ〜Ｎ（２０９−Ａ〜Ｎ）の意図情報Ａ〜Ｎ（２０９−Ａ１〜Ｎ１）として登録される。

事前スコアとは、各意図モデルに対して事前に与えられるスコア値である。このスコア値の算出処理については後段で説明する。
辞書とは、意図情報に応じて定義される語彙から構成される辞書であり、機能としては図１の辞書１７と同等の機能を持つ。すなわち、辞書は認識対象となる個々の単語の発音に関する情報を保持したデータであり、これにより、単語と上述の音響モデルが関連付けられる。その結果、辞書中に含まれる各単語に対応する音響的な標準パターンが得られることになる。

文法とは、辞書の保持する単語の連鎖確率を与えられるバイグラム文法やトライグラム文法によって構成される。特に、文法は、意図情報を示す単語系列に対して高いスコア値を与える文法として構成される。機能としては図１の文法１８と同等の機能を持つ。すなわち、文法は、辞書に記述されている個々の単語がどのように連鎖しうるかを記述したデータで、正規文法や文脈自由文法に基づく記述や、統計的な単語連鎖確率を含む文法（Ｎ−ｇｒａｍ）などが用いられる。

マルチマッチング部２０７は、
音響スコア算出部２０７ａ、
言語スコア算出部２０７ｂ、
事前スコア算出部２０７ｃ
これ等の複数の算出部を備える。

マルチマッチング部２０７では、図１を参照して説明したと同様の音響モデル２０８と複数の意図モデルＡ（２０９−Ａ）〜意図モデルＮ（２０９−Ｎ）を用いて、意図モデルごとに入力音声に最も適合する単語系列を決定し、それぞれの単語系列に対する音響スコアと言語スコアの計算が行われる。

音響モデル２０８は、先に図１を参照して説明したと同様、対象となる言語、例えば日本語や英語などの各言語において用いられる個々の音素や音節などの音響的な特徴を保持するモデルで、隠れマルコフモデル（ＨＭＭ）などが用いられる。

上述したように、それぞれの意図モデルＡ（２０９−Ａ）〜意図モデルＮ（２０９−Ｎ）は、各意図モデルＡ〜Ｎ各々に対応する、
辞書Ａ（２０９−Ａ３）〜辞書Ｎ（２０９−Ｎ３）と、
文法Ａ（２０９−Ａ４）〜文法Ｎ（２０９−Ｎ４）
を備える。

本発明の情報処理装置では、音響モデル２０８と、意図モデルＡ（２０９−Ａ）〜意図モデルＮ（２０９−Ｎ）を構成する一つの意図モデルをそれぞれ組み合わせて用いることで、音響モデルと一組の辞書と文法が構成されるため、入力音声信号に最も適合する単語系列を、図１のマッチング部１５の処理と同様に決定することが可能となる。

例えば、マルチマッチング部２０７の音響スコア算出部２０７ａは、マルチマッチング部２０７が構成した単語モデル系列に含まれる単語モデルから、特徴量の系列が観測される確率（出現確率）に基づいて、単語系列を構成する単語ごとに音響スコアを算出する。また、マルチマッチング部２０７の言語スコア算出部２０７ｂは、マルチマッチング部２０７が構成した単語系列に含まれる単語の連鎖（連接）する確率に基づいて、単語系列を構成する単語ごとに言語スコアを算出する。

ただし、図１のマッチング部１５では、一組の辞書と文法を用いてマッチング処理を行なうのに対して、図３に示すマルチマッチング部２０７では、複数の辞書と文法の組み合わせを用いてマッチング処理を行なう点が異なり、結果として、それぞれの辞書と文法の組み合わせ、すなわち意図モデルＡ〜Ｎごとに、入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアの算出がなされることになる。

さらに、それぞれの意図モデルＡ〜Ｎは、事前スコアＡ（２０９−Ａ２）〜事前スコアＮ（２０９−Ｎ２）を備える。事前スコアとは、例えば、それぞれの意図の生起確率に基づいて事前に決定されるスコア値である。
マルチマッチング部２０７の事前スコア算出部２０７ｃは、意図モデルＡ〜Ｎの事前スコアＡ（２０９−Ａ２）〜事前スコアＮ（２０９−Ｎ２）に基づき、意図情報に対する事前スコアを算出する。すべての意図が等確率で生起する場合は、同じスコア値が事前スコアとして算出される。

結果として、図３に示すマルチマッチング部２０７は、以下のデータを算出する。
（Ａ）意図モデルＡの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア
（Ｂ）意図モデルＢの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア
：
（Ｎ）意図モデルＮの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア
図３に示すのマルチマッチング部２０７では、これらのＮ組の入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア、これらのデータを算出する。

音響スコア算出部２０７ａが算出した音響スコア、言語スコア算出部２０７ｂが算出した言語スコア、および事前スコア算出部２０７ｃが算出した事前スコアを総合することで、意図モデルごとに構成した単語系列に対する総合スコアを算出することができる。この総合スコアは、ユーザの発話に対応する意図を推定するためのスコア値として利用される。

マルチマッチング部２０７の処理結果として得られる意図ごとの音響スコア、言語スコア、および事前スコアは、各意図モデルが保持する意図情報と合わせて、意図判定部２１０に送られる。意図判定部２１０では、各意図モデルに対して音響スコア、言語スコア、事前スコアを総合することで算出される総合スコアを比較することで、最もスコア値の良い（高い）意図モデルが決定される。そして、その結果に基づき、最もスコア値の良い意図モデルに対応する意図情報が、入力音声信号に対応する意図情報として選択されることになる。この意図情報が音声理解結果２１１として出力される。

表示部２１３は、ユーザに対して情報処理装置２００の実行する処理のカテゴリ（種類）情報２１２を出力して提示する。例えば、図４は、表示部２１３に提示される情報処理装置２００の実行する処理のカテゴリ情報の例を示している。図４に示す例は、再生３０１、録音３０２、検索３０３、設定３０４の４つの処理カテゴリ情報を表示した例である。

処理カテゴリ情報は、情報処理装置の実行する処理の処理区分であり、ユーザの要求に基づいて情報処理装置２００が実行する処理の区分に相当する。例えば音声認識に基づく処理を実行する装置が、図２に示すテレビのような場合には、図４に示す再生３０１、録音３０２、検索３０３、設定３０４、これらの設定以外に、チャンネルの変更、ボリュームの調整等、その他の処理カテゴリなどの設定も可能である。

以下では、説明を理解しやすくするため、情報処理装置２００の実行する処理を、音楽データの再生、録音、検索、情報設定の４カテゴリとして説明する。この場合、図４に示すように、再生３０１、録音３０２、検索３０３、設定３０４の４つの処理カテゴリ情報がユーザに提示される。ユーザは、これらの処理カテゴリ情報のいずれかに対応する処理要求を実行する。

ユーザは、マイク、すなわち、図３に示す近距離マイク２０２、または遠距離マイク２０３のいずれかを介して、再生３０１、録音３０２、検索３０３、設定３０４の４つの処理カテゴリのいずれかのカテゴリに対応する具体的な処理要求を行う。
例えば再生３０１という処理カテゴリに対応する指示として、「再生する」、「早送りする」、「巻き戻しする」等の言葉を発話して情報処理装置２００に、これらの指示に応じた処理を実行させる。

図５に示すように、再生、録音、検索、設定の４つの処理カテゴリに対応する意図情報が予め情報処理装置内のメモリに登録されている。
例えば、再生という処理カテゴリにおいては、「再生する」、「早送りする」、「巻き戻しする」、「次の曲に変更する」、「前の曲に変更する」という５つの意図情報が定義される。

同様に、録音という処理カテゴリにおいて４つの意図情報：「録音を開始する」、「録音を停止する」、「録音をやり直す」、「データを保存する」
検索という処理カテゴリにおいて３つの意図情報：「名称で検索する」、「ジャンルで検索する」、「演奏者で検索する」
設定という処理カテゴリにおいて３つの意図情報：「名称を設定する」、「ジャンルを設定する」、「演奏者を設定する」
このように各処理カテゴリに対して１つ以上の意図情報が予め設定され、情報処理装置内のメモリに記録されている。

図５に示す意図情報の総数は１５であり、この場合、図３に示すＮ個の意図モデル２０９Ａ〜Ｎは、１５個の意図モデルが設定され、図３に示すＮ個の意図モデル２０９Ａ〜Ｎに設定される意図情報Ａ〜Ｎとして、
意図情報Ａ＝［再生する］
意図情報Ｂ＝［早送りする］
：
意図情報Ｎ＝［演奏者を設定する］
これらの１５個の意図情報Ａ〜Ｎが設定されることになる。
図３に示すＮ個の意図モデル２０９Ａ〜Ｎは、各意図情報に応じた事前スコアＡ〜Ｎをマルチマッチング部２０７に出力する。

ユーザは、図４に示されるような処理カテゴリ情報の表示を見ながら、例えば、図６に示す４つの方向と決定の５つのボタンで構成されるコントローラを利用して、図４に示す処理カテゴリ情報（再生３０１、録音３０２、検索３０３、設定３０４）から一つを決定することができるものとする。

図３に示すコントローラ入力２１４は、ユーザによって選択された処理カテゴリの選択情報に対応し、ユーザによる選択処理の選択結果が入出力部２１５を介してコンテキスト判断部２１６に入力される。入出力部２１５は、表示部２１３に対して、ユーザに提示する処理カテゴリ情報を出力するとともに、入出力部２１５から入力されるユーザの選択した処理カテゴリ情報をコンテキスト判断部２１６に出力する。

コンテキスト判断部２１６は、ユーザの意図推定のためのコンテキスト情報を入力する。
コンテキスト情報とは、ユーザの意図推定に適用する観測情報であり、具体的には以下の情報が含まれる。
（Ａ）入出力部２１５から入力される［ユーザ選択処理カテゴリ情報］
（Ｂ）画像処理部２２１から入力される［音声入力者識別情報］
（Ｃ）マイク判定部２０４から入力される［音声入力マイク識別情報］
なお、以下の説明では、これら３つのコンテキスト情報を全て利用した処理例として説明するが、これら３つのコンテキスト情報を全て利用することは必須ではなく、例えばこれらの１つまたは２つを利用する構成としてもよい。

コンテキスト判断部２１６は、上述の入出力部２１５から入力されるユーザの選択情報である［ユーザ選択処理カテゴリ情報］の他、画像処理部２２１から［音声入力者識別情報］、マイク判定部２０４から［音声入力マイク識別情報］、これらの各情報をユーザの意図推定のためのコンテキスト情報として入力する。

画像処理部２２１からコンテキスト判断部２１６に入力される画像処理結果としてのコンテキスト情報である［音声入力者識別情報］について説明する。
まず、ＣＣＤカメラなどの撮像装置をカメラ２１８とし、ユーザの撮像画像が画像信号である画像入力２１７として入力される。この画像信号は、ＡＤ変換部２１９においてデジタル信号に変換され、特徴抽出部２２０に送られる。特徴抽出部２２０では、送られてくる画像データに対して、顔検出と、検出された顔画像に対する特徴量抽出が行われる。ここで、顔検出とは、画像データから顔の領域（顔の位置と大きさ）を抽出する処理に対応し、抽出された顔の領域に対応する部分を顔画像と呼ぶものとする。

顔画像に対しては、目、鼻、口のような顔の特徴を表すパーツの検出と、顔がどの方向を向いているかの検出を行い、顔の各パーツが基準位置にくるように、アフィン変換などの処理が行われる。その後、ガボア・フィルターと呼ばれる方位選択性を持ち周波数成分の異なる複数のフィルターを用いて、顔画像に対する特徴量がベクトルとして抽出される。この特徴量は、画像処理部２２１に送られる。

画像処理部２２１では、送られてきた特徴量に基づく顔識別の処理が行われる。ここで、顔識別とは、顔検出によって抽出された顔画像に対して、既に顔画像が登録されている人物の中から、どの人物と同一かを識別する処理に対応する。顔識別には、例えば、サポート・ベクター・マシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）と呼ばれる識別手法や、Ａｄａｂｏｏｓｔと呼ばれる識別手法が適用される。

サポート・ベクター・マシンは、カーネル関数を用いた非線形写像を利用し、特定の同一人物の顔画像から抽出される特徴量ベクトルと、その人物以外の顔画像から抽出される特徴量ベクトルを、写像後の特徴空間内において分離するような超平面をもとめることを特徴とする識別手法である。

Ａｄａｂｏｏｓｔは、弱い識別器を多数組み合わせることで、強い識別器を構成する手法である。どちらの識別器においても、あらかじめ登録された特定の同一人物の顔画像から抽出される特徴量ベクトルと、その人物以外の登録された顔画像から抽出される特徴量ベクトルを利用して、事前に識別器を構成する方法が利用される。

このような顔識別のための識別器を利用することで、画像処理部２２１では、カメラ２１８から入力される画像信号に含まれる顔画像に対して、対応する人物の判定が行われる。そして、その判定結果が［音声入力者識別情報］としてコンテキスト判断部２１６に送られる。

コンテキスト判断部２１６には、さらに、マイク判定部２０４から［音声入力マイク識別情報］がコンテキスト情報として入力される。
マイク判定部２０４は、近距離マイク２０２から音声信号が入力されたのか、遠距離マイク２０３から音声信号が入力されたのかを示す［音声入力マイク識別情報］をコンテキスト情報としてコンテキスト判断部２１６に出力する。

コンテキスト判断部２１５は、このように、
（Ａ）入出力部２１５から入力される［ユーザ選択処理カテゴリ情報］
（Ｂ）画像処理部２２１から入力される［音声入力者識別情報］
（Ｃ）マイク判定部２０４から入力される［音声入力マイク識別情報］
これ等のコンテキスト情報が入力される。

コンテキスト判断部２１６は、これらの情報に基づいて、図３に示す各意図モデルＡ〜Ｎ（２０９−Ａ〜Ｎ）に設定する事前スコアＡ〜事前スコアＮ（２０９−Ａ２〜２０９−Ｎ２）の算出、調整を行うため、入力したコンテキスト情報を事前スコア調整部２２２に出力する。

事前スコア記憶部２２３は、コンテキスト判断部２１６から入力するコンテキスト情報に基づいて、事前スコアＡ〜事前スコアＮ（２０９−Ａ２〜２０９−Ｎ２）を算出し、この算出値を意図モデルＡ〜Ｎ（２０９−Ａ〜Ｎ）に提供する。事前スコア記憶部２２３は、予め規定されたアルゴリズムに従って、コンテキスト判断部２１６から入力するコンテキスト情報に基づいて、事前スコアＡ〜事前スコアＮ（２０９−Ａ２〜Ｎ２）を算出する。

事前スコア記憶部２２３には、例えば、図５、図７、図８に示されるような、コンテキスト情報と、そのコンテキスト情報に対応する意図情報の組み合わせデータが記憶されている。

図５は、前述の通り、入出力部２１５を介してコンテキスト処理部２１６に送られる４つに分類された［ユーザ選択処理カテゴリ情報］（＝コンテキスト情報）、すなわち、［再生］、［録音］、［検索］、［設定］の４つのコンテキスト情報と、それぞれに対応する意図情報を示している。

図７は、マイク判定部２０４から送られる［音声入力マイク識別情報］（＝コンテキスト情報）と、［音声入力マイク識別情報］それぞれに対応する意図情報を示している。すなわち、［遠距離マイク］と、［近距離マイク］の２つのコンテキスト情報と、それぞれに対応する意図情報を示している。

図８は、画像処理部２２１から送られる［音声入力マイク識別情報］（＝コンテキスト情報）と、［音声入力マイク識別情報］各々に応じた意図情報を示している。すなわち、［人物Ａ］と、［人物Ｂ］の２つのコンテキスト情報と、それぞれに対応する意図情報を示している。
なお、本例では、［人物Ａ］と［人物Ｂ］の２人の人物の設定としているが、これらは予め情報処理装置に登録された人物情報の数に応じて任意の数に設定できる。

なお、図５、図７、図８では、各コンテキスト情報と、そのコンテキストに対応する意図情報の組み合わせのみを示したが、事前スコアとしては、それぞれのコンテキスト情報に対応する意図情報に対しては高い値（例えば、１．０）が設定され、コンテキスト情報に対応しない意図情報に対しては低い値（例えば、０．０）が設定されるものとする。

具体的には、例えば、図５の例では、コンテキスト［再生］に対応する意図情報として［再生する］〜［前の曲に変更する］の５つの意図情報が登録されている。この場合、コンテキスト［再生］に対する事前スコア（コンテキスト対応事前スコア）は、意図情報：［再生する］〜［前の曲に変更する］、これら５つの意図情報に対しては高み設定され、その他の意図情報［録音を開始する］〜［演奏者を設定する］に対する事前スコアは低く設定される。

図９〜図１１に事前スコア記憶部２２３に記憶される事前スコアの設定例を示す。
なお、これらは、それぞれ個別のコンテキストに対応して設定される［コンテキスト対応事前スコア］である。すなわち、
図９は、（Ａ）入出力部２１５から入力されるコンテキスト情報である［ユーザ選択処理カテゴリ情報］に対する［コンテキスト対応事前スコア］の設定例である。
図１０は、（Ｂ）画像処理部２２１から入力されるコンテキスト情報である［音声入力者識別情報］に対する［コンテキスト対応事前スコア］の設定例である。
図１１は、（Ｃ）マイク判定部２０４から入力されるコンテキスト情報である［音声入力マイク識別情報］に対する［コンテキスト対応事前スコア］の設定例である。

図９は、（Ａ）入出力部２１５から入力されるコンテキスト情報である［ユーザ選択処理カテゴリ情報］に対する［コンテキスト対応事前スコア］の設定例である。
例えば、ユーザが処理カテゴリとして「再生」を選択したとのコンテキスト情報が、入出力部２１５、コンテキスト判断部２１６を介して事前スコア調整部２２２に入力された場合、図９に示すエントリ［再生］の縦一列のエントリに設定された、
「再生する」＝０．９〜「演奏者を設定する」＝０．０１、
これら１５個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。

図９に示すコンテキスト対応事前スコアの値から理解されるように、ユーザが処理カテゴリとして「再生」を選択した場合に選択される事前スコアの値は、再生処理に対応する意図（再生する〜前の曲に変更する）に対しては高い値である。その他の再生処理に対応しない意図（録音を開始する〜演奏者を設定する）に対しては低い値が設定されている。
なお、各処理カテゴリに対応する意図については、先に図５を参照して説明したデータが事前スコア記憶部２２３に記憶されている。

例えば、ユーザが処理カテゴリとして、「録音」を選択した場合、図９に示すエントリ［録音］の縦一列のエントリに設定された、
「再生する」＝０．２〜「演奏者を設定する」＝０．０２これら１５個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。

ユーザが処理カテゴリとして、「検索」を選択した場合、図９に示すエントリ［検索］の縦一列のエントリに設定された、
「再生する」＝０．２〜「演奏者を設定する」＝０．３これら１５個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。
ユーザが処理カテゴリとして、「設定」を選択した場合、図９に示すエントリ［設定］の縦一列のエントリに設定された、
「再生する」＝０．１〜「演奏者を設定する」＝０．８これら１５個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。

なお、これら図９に示す［コンテキスト対応事前スコア］の設定は、予め固定した値を設定し、その固定値を継続して利用することも可能であるが、初期値を設定した後、情報処理装置が、ユーザによるその後の実際の処理を学習して学習データに基づいてデータを更新してもよい。
例えば、ユーザが処理カテゴリとして「再生」を選択した後、実行する処理として「巻き戻しする」という処理要求が多い場合は、意図＝「巻き戻しする」の「再生」対応の事前スコアを次第に高くするといった更新を行う。
この処理は、図３に示す事前スコア学習部２２４の処理として行われる。

図１０は、（Ｂ）画像処理部２２１から入力されるコンテキスト情報である［音声入力者識別情報］に対する［コンテキスト対応事前スコア］の設定例である。
音声入力者として「人物Ａ」、「人物Ｂ」が予め登録されており、これらの人物に対応する事前スコアが設定されている。

例えば、図３に示す画像処理部２２１において、音声入力者が「人物Ａ」であると識別され、この「人物Ａ」であるとのコンテキスト情報が画像処理部２２１、コンテキスト判断部２１６を介して事前スコア調整部２２２に入力された場合、図１０に示すエントリ［人物Ａ］の縦一列のエントリに設定された、
「再生する」＝０．９〜「演奏者を設定する」＝０．１これら１５個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。

図１０に示すエントリ［人物Ａ］の縦一列のエントリに設定されたコンテキスト対応事前スコアの値は、「人物Ａ」が、再生処理はよく実行するが、録音処理はあまり実行しないという情報に基づいて予め登録したデータである。

一方、音声入力者が「人物Ｂ」であると識別された場合、図１０に示すエントリ［人物Ｂ］の縦一列のエントリに設定された、
「再生する」＝０．３〜「演奏者を設定する」＝０．９これら１５個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。
これは、「人物Ｂ」が、再生処理はあまり実行しないが、録音処理はよく実行するという情報に基づいて予め登録したデータである。

なお、この事前スコアの値は、予め自由に設定してもよいし、適当な初期値を設定し、その後、情報処理装置において、各人物の実際の処理に基づく学習処理を実行して、よく行う処理に対してはスコアを高くし、あまり行わない処理についてはスコアを低くするといったスコア更新を行ってもよい。
この処理は、図３に示す事前スコア学習部２２４の処理として行われる。

図１１は、（Ｃ）マイク判定部２０４から入力されるコンテキスト情報である［音声入力マイク識別情報］に対する［コンテキスト対応事前スコア］の設定例である。

例えば、図３に示すマイク判定部２０４において、音声入力マイクが「遠距離マイク」であると識別され、この「遠距離マイク」であるとのコンテキスト情報がマイク判定部２０４、コンテキスト判断部２１６を介して事前スコア調整部２２２に入力された場合、図１１に示すエントリ［遠距離マイク］の縦一列のエントリに設定された、
「再生する」＝０．９〜「演奏者を設定する」＝０．１これら１５個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。

図１１に示すエントリ［遠距離マイク］の縦一列のエントリに設定されたコンテキスト対応事前スコアの値は、「遠距離マイク」を介した指示においては、再生処理はよく実行するが、検索処理はあまり実行しないという情報に基づいて予め登録したデータである。

一方、音声入力マイクが「近距離マイク」であると識別された場合、図１１に示すエントリ［近距離マイク］の縦一列のエントリに設定された、
「再生する」＝０．１〜「演奏者を設定する」＝０．９これら１５個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。
これは、「近距離マイク」を介した指示において、再生処理はあまり実行しないが、検索処理はよく実行するという情報に基づいて予め登録したデータである。

なお、この事前スコアの値は、予め自由に設定してもよいし、適当な初期値を設定し、その後、情報処理装置において、実際の各マイクの適用処理を解析する学習処理を実行して、各マイク単位でよく行う処理に対してはスコアを高くし、あまり行わない処理についてはスコアを低くするといったスコア更新を行ってもよい。
この処理は、図３に示す事前スコア学習部２２４の処理として行われる。

このように、事前スコア調整部２２２は、コンテキスト判断部２１６から送られるコンテキスト情報に基づいて、事前スコア記憶部２２３の登録情報（図９〜図１１）を参照して、意図モデルＡ〜Ｎ，２０９−Ａ〜Ｎの事前スコアＡ〜事前スコアＮ（２０９−Ａ２〜２０９−Ｎ２）に設定する事前スコア値の調整処理を行う。

コンテキスト判断部２１６から事前スコア調整部２２２に送られるコンテキスト情報は、以下の３種類の情報がある。
（Ａ）入出力部２１５から入力される［ユーザ選択処理カテゴリ情報］
（Ｂ）画像処理部２２１から入力される［音声入力者識別情報］
（Ｃ）マイク判定部２０４から入力される［音声入力マイク識別情報］
事前スコア調整部２２２は、これら３つのコンテキスト情報の各々に基づいて、図９〜図１１に示す各コンテキストに対応した事前スコアである［コンテキスト対応事前スコア］を全て考慮した結果としての［総合事前スコア］を算出して、図３に示す意図モデルＡ〜Ｎ（２０９−Ａ〜Ｎ）の事前スコアＡ〜Ｎ（２０９−Ａ２〜Ｎ２）として設定する。

例えば、マイク判定部２０４の処理結果に基づき、「近距離マイク」というコンテキスト情報が送られてきた場合には、図１１に示されるコンテキスト対応事前スコアの「近距離マイク」エントリに設定されたコンテキスト対応事前スコアの値を適用して、［総合事前スコア］を算出して、図３に示す意図モデルＡ〜Ｎ（２０９−Ａ〜Ｎ）の事前スコアＡ〜Ｎ（２０９−Ａ２〜Ｎ２）として設定する。

また、「遠距離マイク」というコンテキスト情報が送られてきた場合には、図１１に示されるコンテキスト対応事前スコアの「遠距離マイク」エントリに設定されたコンテキスト対応事前スコアの値を適用して、［総合事前スコア］を算出して、図３に示す意図モデルＡ〜Ｎ（２０９−Ａ〜Ｎ）の事前スコアＡ〜Ｎ（２０９−Ａ２〜Ｎ２）として設定する。

近距離マイクと遠距離マイクをコンテキスト情報とすることは、ユーザとマイクの距離に応じて、ユーザが指示できることに制限をかける場合などに有効となる。例えば、限定されてはいるが日常的に利用する指示については、遠距離マイクのみで対応し、より自由度の高い指示については、近距離マイクで対応するケースなどが想定される。一般に、ユーザとマイクの距離が大きくなるに従い、音声からの意図推定の性能は低下するため、遠距離マイクに対しては、ユーザの指示できることを制限することは、意図推定の性能を向上する上で重要な役割を持つ。

同様に、入出力部２１５の処理結果に基づき、「再生」というコンテキスト情報が送られてきた場合には、図９に示されるコンテキスト対応事前スコアの「再生」エントリに設定されたコンテキスト対応事前スコアの値を適用して、［総合事前スコア］を算出して、図３に示す意図モデルＡ〜Ｎ（２０９−Ａ〜Ｎ）の事前スコアＡ〜Ｎ（２０９−Ａ２〜Ｎ２）として設定する。

一般に、対象となる意図情報の総数が多くなれば、音声からの意図推定の性能は低下するため、ユーザの指定に応じてユーザの指示できることを制限することは、意図推定の性能を向上する上で重要な役割を持つ。

また、画像処理部２２１の処理結果に基づき、「人物Ａ」というコンテキスト情報が送られてきた場合には、図１０に示されるコンテキスト対応事前スコアの「人物Ａ」エントリに設定されたコンテキスト対応事前スコアの値を適用して、［総合事前スコア］を算出して、図３に示す意図モデルＡ〜Ｎ（２０９−Ａ〜Ｎ）の事前スコアＡ〜Ｎ（２０９−Ａ２〜Ｎ２）として設定する。
これは、システムを利用する人物によって、頻繁に利用する機能と、あまり使わない機能が分かれるという特性を利用して、個人ごとに利用頻度の高い意図情報に対して事前スコアを高くする役割を持つ。

ところで、コンテキスト情報に対応する意図情報の組み合わせを事前に決定できる場合には、コンテキスト情報に対応しない意図情報に対する事前スコアを小さくすることが可能であり、特に、その事前スコアを０．０に設定する場合は、その意図情報に対応する意図モデルに対しては、音響スコアや言語スコアを計算する必要がなくなるため、計算量の削減効果を得ることも可能である。

事前スコア調整部２２２は、このように、コンテキスト判断部２１６から入力する以下の３種類のコンテキスト情報、すなわち、
（Ａ）入出力部２１５から入力される［ユーザ選択処理カテゴリ情報］
（Ｂ）画像処理部２２１から入力される［音声入力者識別情報］
（Ｃ）マイク判定部２０４から入力される［音声入力マイク識別情報］
これら３つのコンテキスト情報の各々に基づいて、図９〜図１１に示す各コンテキストに対応した事前スコアである［コンテキスト対応事前スコア］を選択して、選択した［コンテキスト対応事前スコア］を適用して［総合事前スコア］を算出して、算出した［総合事前スコア］を図３に示す意図モデルＡ〜Ｎ（２０９−Ａ〜Ｎ）の事前スコアＡ〜Ｎ（２０９−Ａ２〜Ｎ２）として設定する。
この処理の具体例について、以下説明する。

ます、音声理解に基づく意図推定処理の基本的な処理例について説明する。
以下に示す式（１）は音声理解において意図を推定するために利用される意図の生起確率：Ｐ（Ｓ｜Ｘ）の算出式を示す。

・・・・・式（１）

上記式（１）において、
Ｘは入力音声信号、
Ｓは意図、
Ｐ（Ｘ｜Ｓ）は、意図（Ｓ）を有している場合に、入力信号（Ｘ）が得られる確率、
を示す。
上記式（１）によって算出される意図の生起確率：Ｐ（Ｓ｜Ｘ）は、入力音声信号［Ｘ］が検出された場合、その意図が［Ｓ］である確率を示す。
音声理解は、式（１）に基づき、この生起確率を最大化する意図Ｓを決定するものとして定式化される。

例えば、図５や、図９〜図１１に示す１５個の意図「再生する」〜「演奏者を設定する」が登録されている場合、これら１５個の意図情報を、それぞれ、
Ｓ１＝「再生する」
Ｓ２＝「早送りする」
：
Ｓ１５＝「演奏者を設定する」
このような設定とする。

これらの意図情報：Ｓ１〜Ｓ１５に対して、生起確率：Ｐ（Ｓ１｜Ｘ）〜Ｐ（Ｓ１５｜Ｘ）を算出し、算出した１５個の生起確率中、その値が最大となる意図（Ｓ１〜Ｓ１５）を選択する。この選択された意図をユーザの意図であると判定するものである。この処理が意図推定の基本的な処理である。

図３に示される本発明に従った情報処理装置においては、図３に示すマルチマッチング部２０７と意図判定部２１０が、音声認識に基づく意図推定の基本式である式（１）を、以下に示す式（２）のように修正して利用する。

・・・・・式（２）

上記式（２）において、
ｗ_ｓｉ（ｉ＝１，・・・Ｎ）は、意図Ｓに対して定義された単語を示す。
つまり、意図Ｓに対して定義された単語から構成される単語系列ｗ_ｓ1，ｗ_ｓ２，・・・，ｗ_ｓｎに基づいて音響スコアが算出される。
これが確率Ｐ（Ｘ｜ｗ_ｓ1，ｗ_ｓ２，・・・，ｗ_ｓｎ）に相当する。
また、特定の意図Ｓに対して算出される言語スコアは確率Ｐ（ｗ_ｓ1，ｗ_ｓ２，・・・，ｗ_ｓｎ｜Ｓ）に相当する。
さらに、特定の意図Ｓに対して与えられる生起確率（事前確率）Ｐ（Ｓ）が、各意図モデルＡ〜Ｎ（２０９−Ａ〜Ｎ）内に設定される事前スコア（２０９Ａ２〜Ｎ２）に対応する。
ａ，ｂ，ｃは、それぞれ音声理解において意図モデルごとに算出される音響スコア、言語スコア、および事前スコアの重みを示す。これらは予め設定した値を用いる。

先に説明したように、図３に示すマルチマッチング部２０７は、以下のデータを算出する。
（Ａ）意図モデルＡの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア
（Ｂ）意図モデルＢの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア
：
（Ｎ）意図モデルＮの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア
図３に示すのマルチマッチング部２０７では、これらのＮ組の入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア、これらのデータを算出する。

各意図モデルに対応する単語系列が、式（２）に示す単語系列ｗ_ｓｉ（ｉ＝１，・・・Ｎ）、すなわち、ｗ_ｓ1，ｗ_ｓ２，・・・，ｗ_ｓｎに対応する。
音響スコアは、式（２）に示す確率Ｐ（Ｘ｜ｗ_ｓ1，ｗ_ｓ２，・・・，ｗ_ｓｎ）に相当する。
言語スコアは、式（２）に示す確率Ｐ（ｗ_ｓ1，ｗ_ｓ２，・・・，ｗ_ｓｎ｜Ｓ）に相当する。

なお、生起確率（事前確率）Ｐ（Ｓ）として利用される事前スコア（２０９Ａ２〜Ｎ２）は、先に説明したように、
（Ａ）入出力部２１５から入力される［ユーザ選択処理カテゴリ情報］
（Ｂ）画像処理部２２１から入力される［音声入力者識別情報］
（Ｃ）マイク判定部２０４から入力される［音声入力マイク識別情報］
これら３つのコンテキスト情報の各々に基づいて、図９〜図１１に示す各コンテキストから抽出された［コンテキスト対応事前スコア］を適用して算出される［総合事前スコア］である。

マルチマッチング部２０７の処理結果として得られる意図ごとの音響スコア、言語スコア、および事前スコアは、各意図モデルが保持する意図情報と合わせて、意図判定部２１０に送られる。

意図判定部２１０は、各意図モデルに対して音響スコア、言語スコア、事前スコアを総合することで算出される総合スコアを比較することで、最もスコア値の良い（高い）意図モデルを決定する。
この決定処理は、具体的には、上記式（２）の各意図の生起確率：Ｐ（Ｓ｜Ｘ）の比較処理として行われる。最も高い生起確率：Ｐ（Ｓ｜Ｘ）が算出される意図、すなわち意図Ａ〜Ｎのいずれかが、ユーザの発話に対応する意図理解結果２１１として決定される。

本発明の情報処理装置２００は、上記式（２）に用いられる生起確率（事前確率）Ｐ（Ｓ）、すなわち事前スコアＰ（Ｓ）を、常に固定値とするのではなく、コンテキストに応じて適切に調整する。この調整処理によって、意図推定の性能を高めることを可能としている。なお、事前スコアＰ（Ｓ）＝０．０の意図情報に対しては、
音響スコア：Ｐ（Ｘ｜ｗ_ｓ1，ｗ_ｓ２，・・・，ｗ_ｓｎ）
言語スコア：Ｐ（ｗ_ｓ1，ｗ_ｓ２，・・・，ｗ_ｓｎ｜Ｓ）
これらの計算を省略することが可能となる。

本発明の情報処理装置において適用する事前スコアＰ（Ｓ）の計算方法について説明する。

式（２）に含まれるＰ（Ｓ）は、特定の意図Ｓに対して与えられる生起確率（事前確率）Ｐ（Ｓ）であり、事前スコアの値に対応する。
本発明の情報処理装置では、この事前スコア：Ｐ（Ｓ）は、以下に示す３つのコンテキスト情報を全て考慮した結果としての総合事前スコアＰ（Ｓ）とする。すなわち、
（Ａ）入出力部２１５から入力される［ユーザ選択処理カテゴリ情報］
（Ｂ）画像処理部２２１から入力される［音声入力者識別情報］
（Ｃ）マイク判定部２０４から入力される［音声入力マイク識別情報］
これら３つのコンテキスト情報の各々に基づいて算出される各コンテキストに対応した事前スコアである［コンテキスト対応事前スコア］を全て考慮した結果としての［総合事前スコア］を算出して利用する。
この総合事前スコア：Ｐ（Ｓ）の算出式を以下の式（３）に示す。

・・・・・式（３）

上記式（３）において、
Ｋはコンテキスト判断部２１６から送られるコンテキスト情報の数を示している。
図２に示す例では、コンテキスト判断部２１６には、以下の３つのコンテキスト情報が入力される。
（Ａ）入出力部２１５から入力される［ユーザ選択処理カテゴリ情報］
（Ｂ）画像処理部２２１から入力される［音声入力者識別情報］
（Ｃ）マイク判定部２０４から入力される［音声入力マイク識別情報］
これら３つのコンテキスト情報が入力される。
従って、Ｋ＝３となる。

また、Ｃ_ｋはそれぞれのコンテキスト情報を示す。
Ｃ_１はマイク判定部２０６から送られるコンテキスト情報、
Ｃ_２は入出力部２１５から送られるコンテキスト情報、
Ｃ_３は画像処理部２２１から送られるコンテキスト情報、
これらを示すものとする。

右端のＰ（Ｓ｜Ｃ_ｋ）は、あるコンテキスト情報：Ｃ_ｋが検出された場合の意図：Ｓの発生確率を示し、これが図９〜図１１を参照して説明した表の値、すなわち、事前スコア記憶部２２３に記憶された［コンテキスト対応事前スコア］に対応する。
なお、Ｐ（Ｃ_ｋ）は、Ｐ（Ｓ｜Ｃ_ｋ）の重みを示す。この重みは予め設定した値を用いる。

例えば、意図Ｓが「再生する」を表し、マイク判定部２０６から送られるコンテキスト情報Ｃ_１が「遠距離マイク」を表す場合、図１１に示すように、事前スコア：Ｐ（Ｓ｜Ｃ_１）＝０．９となる。
例えば、意図Ｓが「早送りする」を表し、コンテキスト情報Ｃ_１が「近距離マイク」を表す場合、図１１に示すように、事前スコア：Ｐ（Ｓ｜Ｃ_１）＝０．１となる。

式（３）に基づく具体的な［総合事前スコア］の計算例について説明する。例えば、Ｐ（Ｃ_１）＝０．５，Ｐ（Ｃ_２）＝０．６，Ｐ（Ｃ_３）＝０．４のように、各［コンテキスト対応事前スコア］に対応する重みが設定されたとする。
ここで、
マイク判定部２０６から送られる［音声入力マイク識別情報］、すなわちコンテキスト情報Ｃ_１は「近距離マイク」、
入出力部２１５から送られる［ユーザ選択処理カテゴリ情報］、すなわちコンテキスト情報Ｃ_２は「再生」、
画像処理部２２１から送られる［音声入力者識別情報］、すなわち、コンテキスト情報Ｃ_３は「人物Ｂ」であったとする。

このとき、意図Ｓ「再生する」に対しては、図９、図１０、図１１に示す［コンテキスト対応事前スコア］の設定値によりＰ（Ｓ｜Ｃ_１）＝０．１，Ｐ（Ｓ｜Ｃ_２）＝０．９，Ｐ（Ｓ｜Ｃ_３）＝０．３という値が、事前スコア記憶部２２３から得られることになる。

次に、上記式（３）を用いて、各［コンテキスト対応事前スコア］と重みとの乗算を行い、その結果を加算して、全てのコンテキスト情報を勘案した最終的な［総合事前スコア］Ｐ（Ｓ）を算出する。
つまり、
総合事前スコア：Ｐ（Ｓ）＝０．５×０．１＋０．６×０．９＋０．４×０．３
＝０．７１
上記式に従って、全てのコンテキスト情報を勘案した最終的な［総合事前スコア］Ｐ（Ｓ）を算出する。

例えば図３に示す意図モデルＡ（２０９−Ａ）の意図情報Ａ＝「再生する」である場合、意図モデルＡ（２０９−Ａ）の事前スコアＡ（２０９−Ａ２）には、上記の計算結果として得られる総合事前スコア、すなわち、
総合事前スコア：Ｐ（Ｓ）＝０．５×０．１＋０．６×０．９＋０．４×０．３
＝０．７１
この０．７１が事前スコア調整部２２２において算出され、この算出値が設定される。

事前スコア調整部２２２は、全ての意図情報（「再生する」〜「演奏者を設定する」）に対して、
（Ａ）入出力部２１５から入力される［ユーザ選択処理カテゴリ情報］
（Ｂ）画像処理部２２１から入力される［音声入力者識別情報］
（Ｃ）マイク判定部２０４から入力される［音声入力マイク識別情報］
これら３つのコンテキスト情報に基づいて、図９、図１０、図１１に示す［コンテキスト対応事前スコア］の設定値を選択し、総合事前スコア：Ｐ（Ｓ）を算出する。
事前スコア調整部２２２は、算出値である総合事前スコアを、各意図モデルＡ〜Ｎ（２０９−Ａ〜Ｎ）の事前スコアＡ〜Ｎ（２０９−Ａ２〜Ｎ２）として設定する。

このように、各意図モデルＡ〜Ｎ（２０９−Ａ〜Ｎ）の事前スコアＡ〜Ｎ（２０９−Ａ２〜Ｎ２）には、図９〜図１１に示す［コンテキスト対応事前スコア］を用いて算出される［総合事前スコア］が設定される。

上述したように、図３に示される本発明に従った情報処理装置においては、図３に示すマルチマッチング部２０７が、
（Ａ）意図モデルＡの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア
（Ｂ）意図モデルＢの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア
：
（Ｎ）意図モデルＮの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア
図３に示すのマルチマッチング部２０７では、これらのＮ組の入力音声に最も適合する単語系列と、音響スコアと言語スコア、これらのデータを算出する。

なお、各意図モデルに対応する単語系列が、式（２）に示す単語系列ｗ_ｓｉ（ｉ＝１，・・・Ｎ）、すなわち、ｗ_ｓ1，ｗ_ｓ２，・・・，ｗ_ｓｎに対応する。
音響スコアは、式（２）に示す確率Ｐ（Ｘ｜ｗ_ｓ1，ｗ_ｓ２，・・・，ｗ_ｓｎ）に相当する。
言語スコアは、式（２）に示す確率Ｐ（ｗ_ｓ1，ｗ_ｓ２，・・・，ｗ_ｓｎ｜Ｓ）に相当する。

なお、式（３）に示される重み：Ｐ（Ｃ_ｋ）と、［コンテキスト対応事前スコア］：Ｐ（Ｓ｜Ｃ_ｋ）は、事前スコア記憶部２２３に記憶されるものとし、その値は、事前に設定が行われる。この事前に設定される値は、所定の固定値が使われても良いし、次に説明する事前スコア学習部２２４によって動的に設定が行われてもよい。

次に、事前スコア学習部２２４の処理について説明する。図３に示されるように、意図判定部２１０において判定された意図情報Ｓは音声理解結果２１１として出力されるだけでなく、事前スコア学習部２２４にフィードバックされる。また、コンテキスト判断部２１６から送られてくるコンテキスト情報Ｃ_ｋはすべて、事前スコア調整部２２２から事前スコア学習部２２４へと送られる。

事前スコア学習部２２４では、事前スコア調整部２２３から送られるコンテキスト情報Ｃ_ｋと、意図判定部２１０から送られる音声理解結果としての意図情報Ｓに基づき、Ｐ（Ｓ｜Ｃ_ｋ）を計算し、これを事前スコア記憶部２２２に送信する。この値は、事前スコア記憶部２２２に記憶される（図９〜図１１に示される値）。

Ｐ（Ｓ｜Ｃ_ｋ）は、コンテキスト情報Ｃ_ｋのもとで意図情報Ｓが観測される条件付き確率値Ｐ（Ｓ｜Ｃ_ｋ）として求めることができる。また、意図判定部２１０から出力される意図情報には、判定誤りが含まれるケースが想定される。ここで、その出力結果に対して、ユーザが修正を行った場合に、その修正情報を事前スコア学習部２２４に送信することで、より正しい値としての条件付き確率値Ｐ（Ｓ｜Ｃ_ｋ）を求めることも可能である。

［３．情報処理装置のハードウェア構成例について］
最後に、図１２を参照して、上述した処理を実行する情報処理装置のハードウェア構成例について説明する。ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）７０１は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）７０２、または記憶部７０８に記憶されているプログラムに従って各種の処理を実行する。

ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）７０３には、ＣＰＵ７０１が実行するプログラムやデータなどが適宜記憶される。これらのＣＰＵ７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４により相互に接続されている。

ＣＰＵ７０１はバス７０４を介して入出力インタフェース７０５に接続され、入出力インタフェース７０５には、カメラ、マイク、コントローラ、リモコン、キーボード、マウスなどによって構成される入力部７０６、ディスプレイ、スピーカなどよりなる出力部７０７が接続されている。ＣＰＵ７０１は、例えば入力部７０６から入力される情報に対して各種の処理を実行する。

入出力インタフェース７０５に接続されている記憶部７０８は、例えばハードディスクからなり、ＣＰＵ７０１が実行するプログラムや各種のデータを記憶する。
さらに、音声認識処理や理解処理に必用となる各種の音声情報や辞書データ、さらには、ユーザ認識処理に必用となるユーザ画像データ等が記録されている。通信部７０９は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。

入出力インタフェース７０５に接続されているドライブ７１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア７１１を駆動し、記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部７０８に転送され記憶される。

以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

以上、説明したように、本発明の一実施例の構成によれば、ユーザ発話に基づいてユーザの意図を判定する装置および方法が実現される。予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出する事前スコア調整部、ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出するマルチマッチング部、意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定する意図判定部を有し、意図モデル単位のスコア比較によりユーザの発話に対応するユーザの意図を判定する。本発明により、入力音声信号から発話の意図を推定する装置において、様々な観測情報をコンテキストとして利用して事前スコアを調整することが可能となり、その結果、意図の推定精度を高めることが可能となる。

１１音声入力
１２マイク
１３ＡＤ変換部
１４特徴抽出部
１５マッチング部
１６音響モデルデータ
１７辞書データ
１８文法データ
１９音声認識結果
５１〜５３ユーザ
１００情報処理装置
１０１カメラ
１０２音声入出力部
２０１音声入力
２０２近距離マイク
２０３遠距離マイク
２０４マイク判定部
２０５ＡＤ変換部
２０６特徴抽出部
２０７マルチマッチング部
２０７ａ音響スコア算出部
２０７ｂ言語スコア算出部
２０７ｃ事前スコア算出部
２０８音響モデル
２０９−Ａ〜Ｎ意図モデル
２０９−Ａ１〜Ｎ１意図情報
２０９−Ａ２〜Ｎ２事前スコア
２０９−Ａ３〜Ｎ３辞書
２０９−Ａ４〜Ｎ４文法
２１０意図判定部
２１１音声理解結果
２１２処理カテゴリ出力
２１３表示部
２１４コントローラ入力
２１５入出力部
２１６コンテキスト判断部
２１７画像入力
２１８カメラ
２１９ＡＤ変換部
２２０特徴抽出部
２２１画像処理部
２２２事前スコア調整部
２２３事前スコア記憶部
２２４事前スコア学習部
７０１ＣＰＵ
７０２ＲＯＭ
７０３ＲＡＭ
７０４バス
７０５入出力インタフェース
７０６入力部
７０７出力部
７０８記憶部
７０９通信部
７１０ドライブ
７１１リムーバブルメディア

Claims

予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出する事前スコア調整部と、
ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出するマルチマッチング部と、
前記意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定する意図判定部と、
を有する情報処理装置。
前記観測情報は複数の異なる観測情報を含み、
前記複数の異なる観測情報に対応するコンテキスト情報の各々に対するコンテキスト対応事前スコアを登録した事前スコア記憶部を有し、
前記事前スコア調整部は、前記コンテキスト情報に基づいて、前記事前スコア記憶部に登録されたコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する請求項１に記載の情報処理装置。
前記観測情報としてのコンテキスト情報は、
（ａ）入出力部から入力されるユーザ選択処理カテゴリ情報、
（ｂ）画像処理部から入力される音声入力者識別情報、
（ｃ）マイク判定部から入力される音声入力マイク識別情報、
上記（ａ）〜（ｃ）の情報の少なくともいずれかを含み、
前記事前スコア調整部は、前記コンテキスト情報に基づいて、前記事前スコア記憶部に登録されたコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する請求項２に記載の情報処理装置。
前記ユーザ選択処理カテゴリ情報は、情報処理装置が表示部に表示した情報処理装置の実行する処理カテゴリ情報に対するユーザの選択情報であり、
前記事前スコア調整部は、
ユーザの選択した処理カテゴリに対応するコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する請求項３に記載の情報処理装置。
前記音声入力者識別情報は、情報処理装置のカメラ撮影画像に基づいて前記画像処理部が実行する顔識別処理によって識別された結果である音声入力者識別情報であり、
前記事前スコア調整部は、
識別された音声入力者に対応するコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する請求項３に記載の情報処理装置。
前記音声入力マイク識別情報は、情報処理装置のマイク判定部が、音声の入力されたマイクを判別した情報であり、
前記事前スコア調整部は、
音声入力のなされたマイクに対応するコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する請求項３に記載の情報処理装置。
前記意図判定部は、音響スコア、言語スコア、事前スコアの各々に対応して予め設定した重みを適用して前記意図モデル単位の総合スコアの算出を行う請求項１〜６いずれかに記載の情報処理装置。
前記情報処理装置は、さらに、
前記意図判定部の判定結果を入力し、入力した判定結果に基づく学習処理により、前記事前スコア記憶部に登録されたコンテキスト対応事前スコアを更新する事前スコア学習部を有する請求項１〜７いずれかに記載の情報処理装置。
情報処理装置において実行する情報処理方法であり、
事前スコア調整部が、予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出する事前スコア調整ステップと、
マルチマッチング部が、ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出するマルチマッチングステップ、
意図判定部が、前記意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定する意図判定ステップと、
を有する情報処理方法。
情報処理装置において情報処理を実行させるプログラムであり、
事前スコア調整部に、予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出させる事前スコア調整ステップと、
マルチマッチング部に、ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出させるマルチマッチングステップ、
意図判定部に、前記意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定させる意図判定ステップと、
を実行させるプログラム。