JP2012047924A - 情報処理装置、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
JP2012047924A
JP2012047924A JP2010189123A JP2010189123A JP2012047924A JP 2012047924 A JP2012047924 A JP 2012047924A JP 2010189123 A JP2010189123 A JP 2010189123A JP 2010189123 A JP2010189123 A JP 2010189123A JP 2012047924 A JP2012047924 A JP 2012047924A
Authority
JP
Japan
Prior art keywords
score
intention
information
unit
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2010189123A
Other languages
English (en)
Other versions
JP2012047924A5 (ja
Inventor
Katsuki Minamino
活樹 南野
Atsuo Hiroe
厚夫 廣江
Yukinori Maeda
幸徳 前田
Satoshi Asakawa
智 朝川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010189123A priority Critical patent/JP2012047924A/ja
Priority to US13/206,631 priority patent/US8566094B2/en
Priority to CN2011102428227A priority patent/CN102385860A/zh
Publication of JP2012047924A publication Critical patent/JP2012047924A/ja
Publication of JP2012047924A5 publication Critical patent/JP2012047924A5/ja
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

【課題】ユーザ発話に基づいてユーザの意図を判定する装置および方法を実現する。
【解決手段】予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出する事前スコア調整部、ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出するマルチマッチング部、意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定する意図判定部を有し、意図モデル単位のスコア比較によりユーザの発話に対応するユーザの意図を判定する。
【選択図】図3

Description

本発明は、情報処理装置、および情報処理方法、並びにプログラムに関する。特に、音声認識処理や発話の意図を推定する音声理解処理を行う情報処理装置、および情報処理方法、並びにプログラムに関する。
近年、音声認識を適用した様々な製品やサービスが多く利用されている。音声認識とは、マイク等の音声入力部を介して入力する音声信号を解析し、入力音声信号に対応した単語の系列を自動的に決定する技術である。この音声認識技術と様々なアプリケーションを組み合わせることで、音声認識結果に基づくデータ処理を行う様々な製品やサービスが実現される。
音声認識処理の基本構成について図1を参照して説明する。ユーザによって入力された音声11は、マイク12によって取り込まれ、AD変換部13によってアナログ信号をサンプリングしてデジタルデータを生成する。デジタルデータは特徴抽出部14に入力され、適当な時間間隔で周波数分析などが行われ、スペクトルやその他の音声の音響的特徴を表すパラメータに変換される。
この特徴抽出部14の処理により、音声の特徴量の時系列が得られることになる。この特徴量系列はマッチング部15へ送られる。マッチング部15では、音響モデルデータ16、辞書データ17、文法データ18の各情報をもとに、入力されたパラメータとのマッチングを行ない、音声認識結果19を出力する。
また、特徴抽出部14では特徴量系列の抽出と合わせて、音声区間を決定する。音声区間とは、発話の開始時刻から終了時刻までの区間に対応する。音声区間を検出する方法としては、例えば、音声信号のパワーなどに基づいた発話の区間だけを抽出する方法などが利用される。マッチング部15は、音声区間に対応する特徴量系列に対するマッチング処理を行うことで、ユーザの発話ごとに音声認識結果19を出力することになる。
音響モデルデータ16は、対象となる言語、例えば日本語や英語などの各言語において用いられる個々の音素や音節などの音響的な特徴を保持するモデルで、隠れマルコフモデル(HMM)などが用いられる。
辞書データ17は認識対象となる個々の単語の発音に関する情報を保持したデータであり、これにより、単語と上述の音響モデルが関連付けられる。その結果、辞書中に含まれる各単語に対応する音響的な標準パターンが得られることになる。
文法データ18は、辞書に記述されている個々の単語がどのように連鎖しうるかを記述したデータで、正規文法や文脈自由文法に基づく記述や、統計的な単語連鎖確率を含む文法(N−gram)などが用いられる。
マッチング部15では、これらの音響モデルデータ16、辞書データ17、文法データ18を用いて、入力された特徴量系列と最も適合する単語系列の決定がなされる。たとえば音響モデルデータ16として隠れマルコフモデル(HMM)が用いられる場合には、各特徴量の出現確率を特徴量系列にしたがって累積した値が音響的な評価値(以下、音響スコアと呼ぶ)として用いられる。このような音響スコアは、上述の標準パターンを用いることで、単語ごとに求まることになる。
また、文法データ18としてたとえばバイグラムが用いられる場合には、直前の単語との連鎖確率に基づく各単語の言語的な確からしさが数値化され、その値が言語的評価値(以下、言語スコアと呼ぶ)として与えられることになる。そして、音響スコアと言語スコアを総合して評価することで、入力音声信号に最も適合する単語系列が決定されることになる。
例として、ユーザが、「今日はいい天気ですね。」と発声した場合を考える。この場合、たとえば、「今日」「は」「いい」「天気」「ですね」のような単語の系列が認識結果として得られることになる。この際、各単語に対して音響スコア、および言語スコアが与えられることになる。なお、本発明では、上記のような辞書データ17と文法データ18を合わせたものを言語モデルと呼ぶものとする。
このような音声認識の技術を製品やサービスに応用する場合、以下の二通りの方法が広く用いられる。
(a)認識された単語系列に対して、対応する動作を直接関連付ける方法、
(b)認識された単語系列から発話に含まれるユーザの意図を抽出し、その意図に対して、対応する動作を関連付ける方法、
これらの二通りの方法が広く用いられている。
たとえば、ロボットに対して、「立って」と発話した場合、認識された単語系列「立って」に対応してロボットが立ち上がる動作を行うようになされているのが前者(a)の方法、すなわち、対応する動作を直接関連付ける方法である。
一方、「立って」「起きて」「立ち上がって」のような発話に対して、それぞれの発話に含まれる意図(例えば、意図としての「立ってください」)を推定し、その意図に対して、対応する動作を行うようになされているのが後者(b)の方法である。すなわち、発話に含まれるユーザの意図を抽出し、その意図に対して、対応する動作を関連付ける方法である。
一般に、同じような意図を持つ発話の種類は数多く存在するため、認識される単語系列に対して対応する動作を直接割り当てる前者(a)の方法に比べると、発話の意図を推定し、その意図に対して対応する動作を割り当てる後者(b)の方法の方が、動作の割り当ては簡単に行なうことが可能である。このような、入力音声信号から、発話の意図を推定する装置のことを、音声理解装置と呼ぶものとする。
なお、発話に含まれるユーザの意図を推定する方法を開示した従来技術として、例えば特許文献1(特開2006−53203「音声処理装置および方法、記録媒体、並びにプログラム」)がある。
この特許文献1に開示された方法では、入力音声信号に基づく意図(文献では、意思と記述されているが、以下では、混乱のない限り、同じ意味で意図と記述するものとする)を推定する手法を開示している。この特許文献1においては、1つの意図(例えば、意図としての「立ってください」)を示す意図情報に対応する文法規則および単語辞書に基づいて構成された単語系列と入力された音声信号との音響的な類似度を示す音響スコア算出手段と、言語的な類似度を示す言語スコア算出手段を備え、意図情報ごとに計算される音響スコアと言語スコアを基に、複数の意図情報から入力音声信号に対応する意図を示す意図情報を選択することで、意図の推定を行っている。
しかし、一般に、意図情報の総数が多くなればなるほど、入力音声に対する意図の推定精度は低下し、計算量は増加する。
例えば、具体例として音声認識に基づく処理を実行する情報処理装置が録画再生機能を持つテレビであるような場合、ユーザはテレビに対して「チャンネルを変えてください」、「音量を上げてください」、「録画してください」、「再生してください」、「早送り再生してください」、「スロー再生してください」、「一時停止してください」等、数多くの異なる要求(意図)をテレビに対して行うことができる。
このように、様々な異なる要求がなされる可能性のある装置では、上述の音声信号との音響的な類似度を示す音響スコア算出手段と、言語的な類似度を示す言語スコア算出手段を適用して予め設定されている多数の意図情報から入力音声信号に対応する意図を示す意図情報を選択する処理を行う場合、その処理に要する計算量が増加し意図推定精度も低下する。
特開2006−53203号公報
本発明は、例えば、上記問題点に鑑みてなされたものであり、音声認識に基づく意図推定を効率的に、かつ高精度に実行することを可能とした情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。
本発明の第1の側面は、
予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出する事前スコア調整部と、
ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出するマルチマッチング部と、
前記意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定する意図判定部と、
を有する情報処理装置にある。
さらに、本発明の情報処理装置の一実施態様において、前記観測情報は複数の異なる観測情報を含み、前記複数の異なる観測情報に対応するコンテキスト情報の各々に対するコンテキスト対応事前スコアを登録した事前スコア記憶部を有し、前記事前スコア調整部は、前記コンテキスト情報に基づいて、前記事前スコア記憶部に登録されたコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する。
さらに、本発明の情報処理装置の一実施態様において、前記観測情報としてのコンテキスト情報は、
(a)入出力部から入力されるユーザ選択処理カテゴリ情報、
(b)画像処理部から入力される音声入力者識別情報、
(c)マイク判定部から入力される音声入力マイク識別情報、
上記(a)〜(c)の情報の少なくともいずれかを含み、
前記事前スコア調整部は、前記コンテキスト情報に基づいて、前記事前スコア記憶部に登録されたコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する。
さらに、本発明の情報処理装置の一実施態様において、前記ユーザ選択処理カテゴリ情報は、情報処理装置が表示部に表示した情報処理装置の実行する処理カテゴリ情報に対するユーザの選択情報であり、前記事前スコア調整部は、ユーザの選択した処理カテゴリに対応するコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する。
さらに、本発明の情報処理装置の一実施態様において、前記音声入力者識別情報は、情報処理装置のカメラ撮影画像に基づいて前記画像処理部が実行する顔識別処理によって識別された結果である音声入力者識別情報であり、前記事前スコア調整部は、識別された音声入力者に対応するコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する。
さらに、本発明の情報処理装置の一実施態様において、前記音声入力マイク識別情報は、情報処理装置のマイク判定部が、音声の入力されたマイクを判別した情報であり、前記事前スコア調整部は、音声入力のなされたマイクに対応するコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する。
さらに、本発明の情報処理装置の一実施態様において、前記意図判定部は、音響スコア、言語スコア、事前スコアの各々に対応して予め設定した重みを適用して前記意図モデル単位の総合スコアの算出を行う。
さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、さらに、前記意図判定部の判定結果を入力し、入力した判定結果に基づく学習処理により、前記事前スコア記憶部に登録されたコンテキスト対応事前スコアを更新する事前スコア学習部を有する。
さらに、本発明の第2の側面は、
情報処理装置において実行する情報処理方法であり、
事前スコア調整部が、予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出する事前スコア調整ステップと、
マルチマッチング部が、ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出するマルチマッチングステップ、
意図判定部が、前記意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定する意図判定ステップと、
を有する情報処理方法にある。
さらに、本発明の第3の側面は、
情報処理装置において情報処理を実行させるプログラムであり、
事前スコア調整部に、予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出させる事前スコア調整ステップと、
マルチマッチング部に、ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出させるマルチマッチングステップ、
意図判定部に、前記意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定させる意図判定ステップと、
を実行させるプログラムにある。
なお、本発明のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の一実施例の構成によれば、ユーザ発話に基づいてユーザの意図を判定する装置および方法が実現される。予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出する事前スコア調整部、ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出するマルチマッチング部、意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定する意図判定部を有し、意図モデル単位のスコア比較によりユーザの発話に対応するユーザの意図を判定する。本発明により、入力音声信号から発話の意図を推定する装置において、様々な観測情報をコンテキストとして利用して事前スコアを調整することが可能となり、その結果、意図の推定精度を高めることが可能となる。
音声認識処理の基本構成について説明する図である。 本発明の情報処理装置の実行する処理の概要について説明する図である。 本発明の情報処理装置の詳細な構成例を示すブロック図である。 表示部213に提示される情報処理装置200の実行する処理のカテゴリ(種類)情報の例を示す図である。 本発明の情報処理装置の実行する処理の処理カテゴリに対応する意図情報の例について説明する図である。 本発明の情報処理装置のコントローラを利用した処理カテゴリの選択例について説明する図である。 本発明の情報処理装置の事前スコア記憶部223に登録されるデータ例を示す図である。 本発明の情報処理装置の事前スコア記憶部223に登録されるデータ例を示す図である。 本発明の情報処理装置の事前スコア記憶部223に登録されるデータ例を示す図である。 本発明の情報処理装置の事前スコア記憶部223に登録されるデータ例を示す図である。 本発明の情報処理装置の事前スコア記憶部223に登録されるデータ例を示す図である。 本発明の情報処理装置のハードウェア構成例について説明する図である。
以下、図面を参照しながら本発明の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行う。
1.本発明の情報処理装置の実行する処理の概要について
2.本発明の情報処理装置の構成および具体的な処理について
3.情報処理装置のハードウェア構成例について
[1.本発明の情報処理装置の実行する処理の概要について]
まず、図2を参照して本発明の情報処理装置の実行する処理の概要について説明する。図2には、本発明に係る情報処理装置の例として録画再生機能を有するテレビを示している。情報処理装置100は、例えば、放送コンテンツの表示処理の他、内蔵する録画再生機器、例えばハードディスク、DVDやBlu−rayディスク等に記録されたコンテンツの再生処理や、録画再生機器に対する番組の録画処理などを実行する。
情報処理装置100の前には、複数のユーザがいる。図に示す例では、ユーザa,51、ユーザb,52、ユーザc,53がいる。これらのユーザは、情報処理装置100に対して、様々な要求を行う。例えばチャンネルの切り替え、ボリュームの調整、録画処理の開始、あるいは記録コンテンツの一覧リストの表示、リストからのコンテンツの選択再生要求、再生の停止、早送りなどの要求である。
ユーザは、これらの要求を音声、すなわち発話によって行う。情報処理装置100は、カメラ101、マイクとスピーカを備えた音声入出力部102を有する。ユーザa〜c,51〜53の発する言葉は、マイクとスピーカを備えた音声入出力部102を介して情報処理装置100内に入力される。また、ユーザa〜c,51〜53の画像は、カメラ101を介して情報処理装置100内に入力される。
情報処理装置101は、これらの入力情報を解析して、装置が実行すべきアクションを決定し、実行する。ユーザの要求が理解できた場合は、その要求に応じた処理を実行する。例えばチャンネルの切り替えやコンテンツの選択再生処理などである。
[2.本発明の情報処理装置の構成および具体的な処理について]
次に、図3以下を参照して本発明の情報処理装置の構成および具体的な処理について説明する。図3に示す情報処理装置200は、例えば図2に示す情報処理装置100に対応する。なお、本発明の情報処理装置はテレビに限らず、PCや、録画再生機、その他、様々な家電製品として実現可能である。すなわち、ユーザ要求に応じて様々な処理を行う情報処理装置である。
先に、図1を参照して音声認識処理の基本構成に関して説明を述べた。図3に示す情報処理装置200において、音声入力201、AD変換部205、特徴抽出部206、および音響モデル208は、先に図1を参照して説明したと同様の構成であり、以下ではこれらの構成については簡略化して説明する。
本実施例の情報処理装置200は、近距離マイク202と遠距離マイク203の二つのマイクを備え、ユーザがどちらのマイクを利用しているかを判定するマイク判定部204を備える。近距離マイク202とは、ユーザとマイクの距離が短い状態で利用することを想定したマイクである。例えば、ユーザが手に持って話すマイクや、ユーザが手に持って利用するリモコンなどにつけられたマイクに相当する。一方、遠距離マイク203とは、ユーザとマイクの距離が遠い状態で利用することを想定したマイクである。例えば、天井、壁、テレビなどに備え付けられたマイクで、ユーザがマイクから少し離れた場所から発声することを想定したマイクに相当する。
マイク判定部204は、近距離マイク202と遠距離マイク203のどちらをユーザが利用して音声(発話)の入力を行っているかを判定するためのものである。例えば、近距離マイクにボタンを備え付け、このボタンを押しながら音声を入力した場合には近距離マイクからの音声入力と判定し、ボタンを押さずにユーザが発声した音声入力に対しては、遠距離マイクに対する音声入力と判定することで、ユーザがどちらのマイクから音声を入力したかを判定することが可能となる。
この場合、ボタンを押しているかどうかに基づいて、マイク判定部204は判定を行うことになる。AD変換部205には、マイク判定部204によってユーザが音声入力を行ったと判定されたマイクから入力される音声信号だけが送られるものとする。また、マイク判定部204の判定結果は1つのコンテキスト情報としてコンテキスト判断部216に送信される。コンテキスト判断部216の詳細については後述する。
AD変換部205は、マイクから入力される音声信号に対応するアナログ信号をサンプリングしてデジタルデータを生成する。デジタルデータは特徴抽出部206に入力され、適当な時間間隔で周波数分析などが行われ、スペクトルやその他の音声の音響的特徴を表すパラメータに変換される。この特徴抽出部206の処理により、音声の特徴量の時系列データである特徴量系列が得られることになる。
特徴抽出部206で抽出された特徴量系列は、マルチマッチング部207へ送られる。マルチマッチング部207は、特徴抽出部206から送られてきた特徴量系列と、意図モデルA(209−A)から意図モデルN(209−N)に基づき、それぞれの意図モデルに対してスコア値を計算する。スコアの計算方法については、後述する。
意図モデルA(209−A)から意図モデルN(209−N)は、ユーザの発話に基づいて推定される意図の各々に対応するモデルとして設定される。これらの意図は情報処理装置に対してユーザが要求するであろう要求項目に対応して登録される。具体的には後述するが、本発明の装置では、例えば、図5に示す
意図情報A=[再生する]
意図情報B=[早送りする]

意図情報N=[演奏者を設定する]
これらA〜N:15個の意図情報に対応する意図モデルA〜N(209−A〜N)が設定される。
意図モデルA(209−A)から意図モデルN(209−N)は、それぞれ、
(1)意図情報A(209−A1)から意図情報N(209−N1)、
(2)事前スコアA(209−A2)から事前スコアN(209−N2)、
(3)辞書A(209−A3)から辞書N(209−N3)、
(4)文法A(209−A4)から文法N(209−N4)、
これらのデータに基づいて構成される。
例えば、意図モデルA(209−A)は、
意図情報A(209−A1)、
事前スコアA(209−A2)、
辞書A(209−A3)、および、
文法A(209−A4)、
これらのデータを備える。
意図情報とは、各意図モデルがどのような意図に対応するかを示す情報である。例えば、図5に示す
意図情報A=[再生する]
意図情報B=[早送りする]

意図情報N=[演奏者を設定する]
これらの意図情報が各意図モデルA〜N(209−A〜N)の意図情報A〜N(209−A1〜N1)として登録される。
事前スコアとは、各意図モデルに対して事前に与えられるスコア値である。このスコア値の算出処理については後段で説明する。
辞書とは、意図情報に応じて定義される語彙から構成される辞書であり、機能としては図1の辞書17と同等の機能を持つ。すなわち、辞書は認識対象となる個々の単語の発音に関する情報を保持したデータであり、これにより、単語と上述の音響モデルが関連付けられる。その結果、辞書中に含まれる各単語に対応する音響的な標準パターンが得られることになる。
文法とは、辞書の保持する単語の連鎖確率を与えられるバイグラム文法やトライグラム文法によって構成される。特に、文法は、意図情報を示す単語系列に対して高いスコア値を与える文法として構成される。機能としては図1の文法18と同等の機能を持つ。すなわち、文法は、辞書に記述されている個々の単語がどのように連鎖しうるかを記述したデータで、正規文法や文脈自由文法に基づく記述や、統計的な単語連鎖確率を含む文法(N−gram)などが用いられる。
マルチマッチング部207は、
音響スコア算出部207a、
言語スコア算出部207b、
事前スコア算出部207c
これ等の複数の算出部を備える。
マルチマッチング部207では、図1を参照して説明したと同様の音響モデル208と複数の意図モデルA(209−A)〜意図モデルN(209−N)を用いて、意図モデルごとに入力音声に最も適合する単語系列を決定し、それぞれの単語系列に対する音響スコアと言語スコアの計算が行われる。
音響モデル208は、先に図1を参照して説明したと同様、対象となる言語、例えば日本語や英語などの各言語において用いられる個々の音素や音節などの音響的な特徴を保持するモデルで、隠れマルコフモデル(HMM)などが用いられる。
上述したように、それぞれの意図モデルA(209−A)〜意図モデルN(209−N)は、各意図モデルA〜N各々に対応する、
辞書A(209−A3)〜辞書N(209−N3)と、
文法A(209−A4)〜文法N(209−N4)
を備える。
本発明の情報処理装置では、音響モデル208と、意図モデルA(209−A)〜意図モデルN(209−N)を構成する一つの意図モデルをそれぞれ組み合わせて用いることで、音響モデルと一組の辞書と文法が構成されるため、入力音声信号に最も適合する単語系列を、図1のマッチング部15の処理と同様に決定することが可能となる。
例えば、マルチマッチング部207の音響スコア算出部207aは、マルチマッチング部207が構成した単語モデル系列に含まれる単語モデルから、特徴量の系列が観測される確率(出現確率)に基づいて、単語系列を構成する単語ごとに音響スコアを算出する。また、マルチマッチング部207の言語スコア算出部207bは、マルチマッチング部207が構成した単語系列に含まれる単語の連鎖(連接)する確率に基づいて、単語系列を構成する単語ごとに言語スコアを算出する。
ただし、図1のマッチング部15では、一組の辞書と文法を用いてマッチング処理を行なうのに対して、図3に示すマルチマッチング部207では、複数の辞書と文法の組み合わせを用いてマッチング処理を行なう点が異なり、結果として、それぞれの辞書と文法の組み合わせ、すなわち意図モデルA〜Nごとに、入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアの算出がなされることになる。
さらに、それぞれの意図モデルA〜Nは、事前スコアA(209−A2)〜事前スコアN(209−N2)を備える。事前スコアとは、例えば、それぞれの意図の生起確率に基づいて事前に決定されるスコア値である。
マルチマッチング部207の事前スコア算出部207cは、意図モデルA〜Nの事前スコアA(209−A2)〜事前スコアN(209−N2)に基づき、意図情報に対する事前スコアを算出する。すべての意図が等確率で生起する場合は、同じスコア値が事前スコアとして算出される。
結果として、図3に示すマルチマッチング部207は、以下のデータを算出する。
(A)意図モデルAの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア
(B)意図モデルBの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア

(N)意図モデルNの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア
図3に示すのマルチマッチング部207では、これらのN組の入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア、これらのデータを算出する。
音響スコア算出部207aが算出した音響スコア、言語スコア算出部207bが算出した言語スコア、および事前スコア算出部207cが算出した事前スコアを総合することで、意図モデルごとに構成した単語系列に対する総合スコアを算出することができる。この総合スコアは、ユーザの発話に対応する意図を推定するためのスコア値として利用される。
マルチマッチング部207の処理結果として得られる意図ごとの音響スコア、言語スコア、および事前スコアは、各意図モデルが保持する意図情報と合わせて、意図判定部210に送られる。意図判定部210では、各意図モデルに対して音響スコア、言語スコア、事前スコアを総合することで算出される総合スコアを比較することで、最もスコア値の良い(高い)意図モデルが決定される。そして、その結果に基づき、最もスコア値の良い意図モデルに対応する意図情報が、入力音声信号に対応する意図情報として選択されることになる。この意図情報が音声理解結果211として出力される。
表示部213は、ユーザに対して情報処理装置200の実行する処理のカテゴリ(種類)情報212を出力して提示する。例えば、図4は、表示部213に提示される情報処理装置200の実行する処理のカテゴリ情報の例を示している。図4に示す例は、再生301、録音302、検索303、設定304の4つの処理カテゴリ情報を表示した例である。
処理カテゴリ情報は、情報処理装置の実行する処理の処理区分であり、ユーザの要求に基づいて情報処理装置200が実行する処理の区分に相当する。例えば音声認識に基づく処理を実行する装置が、図2に示すテレビのような場合には、図4に示す再生301、録音302、検索303、設定304、これらの設定以外に、チャンネルの変更、ボリュームの調整等、その他の処理カテゴリなどの設定も可能である。
以下では、説明を理解しやすくするため、情報処理装置200の実行する処理を、音楽データの再生、録音、検索、情報設定の4カテゴリとして説明する。この場合、図4に示すように、再生301、録音302、検索303、設定304の4つの処理カテゴリ情報がユーザに提示される。ユーザは、これらの処理カテゴリ情報のいずれかに対応する処理要求を実行する。
ユーザは、マイク、すなわち、図3に示す近距離マイク202、または遠距離マイク203のいずれかを介して、再生301、録音302、検索303、設定304の4つの処理カテゴリのいずれかのカテゴリに対応する具体的な処理要求を行う。
例えば再生301という処理カテゴリに対応する指示として、「再生する」、「早送りする」、「巻き戻しする」等の言葉を発話して情報処理装置200に、これらの指示に応じた処理を実行させる。
図5に示すように、再生、録音、検索、設定の4つの処理カテゴリに対応する意図情報が予め情報処理装置内のメモリに登録されている。
例えば、再生という処理カテゴリにおいては、「再生する」、「早送りする」、「巻き戻しする」、「次の曲に変更する」、「前の曲に変更する」という5つの意図情報が定義される。
同様に、録音という処理カテゴリにおいて4つの意図情報:「録音を開始する」、「録音を停止する」、「録音をやり直す」、「データを保存する」
検索という処理カテゴリにおいて3つの意図情報:「名称で検索する」、「ジャンルで検索する」、「演奏者で検索する」
設定という処理カテゴリにおいて3つの意図情報:「名称を設定する」、「ジャンルを設定する」、「演奏者を設定する」
このように各処理カテゴリに対して1つ以上の意図情報が予め設定され、情報処理装置内のメモリに記録されている。
図5に示す意図情報の総数は15であり、この場合、図3に示すN個の意図モデル209A〜Nは、15個の意図モデルが設定され、図3に示すN個の意図モデル209A〜Nに設定される意図情報A〜Nとして、
意図情報A=[再生する]
意図情報B=[早送りする]

意図情報N=[演奏者を設定する]
これらの15個の意図情報A〜Nが設定されることになる。
図3に示すN個の意図モデル209A〜Nは、各意図情報に応じた事前スコアA〜Nをマルチマッチング部207に出力する。
ユーザは、図4に示されるような処理カテゴリ情報の表示を見ながら、例えば、図6に示す4つの方向と決定の5つのボタンで構成されるコントローラを利用して、図4に示す処理カテゴリ情報(再生301、録音302、検索303、設定304)から一つを決定することができるものとする。
図3に示すコントローラ入力214は、ユーザによって選択された処理カテゴリの選択情報に対応し、ユーザによる選択処理の選択結果が入出力部215を介してコンテキスト判断部216に入力される。入出力部215は、表示部213に対して、ユーザに提示する処理カテゴリ情報を出力するとともに、入出力部215から入力されるユーザの選択した処理カテゴリ情報をコンテキスト判断部216に出力する。
コンテキスト判断部216は、ユーザの意図推定のためのコンテキスト情報を入力する。
コンテキスト情報とは、ユーザの意図推定に適用する観測情報であり、具体的には以下の情報が含まれる。
(A)入出力部215から入力される[ユーザ選択処理カテゴリ情報]
(B)画像処理部221から入力される[音声入力者識別情報]
(C)マイク判定部204から入力される[音声入力マイク識別情報]
なお、以下の説明では、これら3つのコンテキスト情報を全て利用した処理例として説明するが、これら3つのコンテキスト情報を全て利用することは必須ではなく、例えばこれらの1つまたは2つを利用する構成としてもよい。
コンテキスト判断部216は、上述の入出力部215から入力されるユーザの選択情報である[ユーザ選択処理カテゴリ情報]の他、画像処理部221から[音声入力者識別情報]、マイク判定部204から[音声入力マイク識別情報]、これらの各情報をユーザの意図推定のためのコンテキスト情報として入力する。
画像処理部221からコンテキスト判断部216に入力される画像処理結果としてのコンテキスト情報である[音声入力者識別情報]について説明する。
まず、CCDカメラなどの撮像装置をカメラ218とし、ユーザの撮像画像が画像信号である画像入力217として入力される。この画像信号は、AD変換部219においてデジタル信号に変換され、特徴抽出部220に送られる。特徴抽出部220では、送られてくる画像データに対して、顔検出と、検出された顔画像に対する特徴量抽出が行われる。ここで、顔検出とは、画像データから顔の領域(顔の位置と大きさ)を抽出する処理に対応し、抽出された顔の領域に対応する部分を顔画像と呼ぶものとする。
顔画像に対しては、目、鼻、口のような顔の特徴を表すパーツの検出と、顔がどの方向を向いているかの検出を行い、顔の各パーツが基準位置にくるように、アフィン変換などの処理が行われる。その後、ガボア・フィルターと呼ばれる方位選択性を持ち周波数成分の異なる複数のフィルターを用いて、顔画像に対する特徴量がベクトルとして抽出される。この特徴量は、画像処理部221に送られる。
画像処理部221では、送られてきた特徴量に基づく顔識別の処理が行われる。ここで、顔識別とは、顔検出によって抽出された顔画像に対して、既に顔画像が登録されている人物の中から、どの人物と同一かを識別する処理に対応する。顔識別には、例えば、サポート・ベクター・マシン(Support Vector Machine)と呼ばれる識別手法や、Adaboostと呼ばれる識別手法が適用される。
サポート・ベクター・マシンは、カーネル関数を用いた非線形写像を利用し、特定の同一人物の顔画像から抽出される特徴量ベクトルと、その人物以外の顔画像から抽出される特徴量ベクトルを、写像後の特徴空間内において分離するような超平面をもとめることを特徴とする識別手法である。
Adaboostは、弱い識別器を多数組み合わせることで、強い識別器を構成する手法である。どちらの識別器においても、あらかじめ登録された特定の同一人物の顔画像から抽出される特徴量ベクトルと、その人物以外の登録された顔画像から抽出される特徴量ベクトルを利用して、事前に識別器を構成する方法が利用される。
このような顔識別のための識別器を利用することで、画像処理部221では、カメラ218から入力される画像信号に含まれる顔画像に対して、対応する人物の判定が行われる。そして、その判定結果が[音声入力者識別情報]としてコンテキスト判断部216に送られる。
コンテキスト判断部216には、さらに、マイク判定部204から[音声入力マイク識別情報]がコンテキスト情報として入力される。
マイク判定部204は、近距離マイク202から音声信号が入力されたのか、遠距離マイク203から音声信号が入力されたのかを示す[音声入力マイク識別情報]をコンテキスト情報としてコンテキスト判断部216に出力する。
コンテキスト判断部215は、このように、
(A)入出力部215から入力される[ユーザ選択処理カテゴリ情報]
(B)画像処理部221から入力される[音声入力者識別情報]
(C)マイク判定部204から入力される[音声入力マイク識別情報]
これ等のコンテキスト情報が入力される。
コンテキスト判断部216は、これらの情報に基づいて、図3に示す各意図モデルA〜N(209−A〜N)に設定する事前スコアA〜事前スコアN(209−A2〜209−N2)の算出、調整を行うため、入力したコンテキスト情報を事前スコア調整部222に出力する。
事前スコア記憶部223は、コンテキスト判断部216から入力するコンテキスト情報に基づいて、事前スコアA〜事前スコアN(209−A2〜209−N2)を算出し、この算出値を意図モデルA〜N(209−A〜N)に提供する。事前スコア記憶部223は、予め規定されたアルゴリズムに従って、コンテキスト判断部216から入力するコンテキスト情報に基づいて、事前スコアA〜事前スコアN(209−A2〜N2)を算出する。
事前スコア記憶部223には、例えば、図5、図7、図8に示されるような、コンテキスト情報と、そのコンテキスト情報に対応する意図情報の組み合わせデータが記憶されている。
図5は、前述の通り、入出力部215を介してコンテキスト処理部216に送られる4つに分類された[ユーザ選択処理カテゴリ情報](=コンテキスト情報)、すなわち、[再生]、[録音]、[検索]、[設定]の4つのコンテキスト情報と、それぞれに対応する意図情報を示している。
図7は、マイク判定部204から送られる[音声入力マイク識別情報](=コンテキスト情報)と、[音声入力マイク識別情報]それぞれに対応する意図情報を示している。すなわち、[遠距離マイク]と、[近距離マイク]の2つのコンテキスト情報と、それぞれに対応する意図情報を示している。
図8は、画像処理部221から送られる[音声入力マイク識別情報](=コンテキスト情報)と、[音声入力マイク識別情報]各々に応じた意図情報を示している。すなわち、[人物A]と、[人物B]の2つのコンテキスト情報と、それぞれに対応する意図情報を示している。
なお、本例では、[人物A]と[人物B]の2人の人物の設定としているが、これらは予め情報処理装置に登録された人物情報の数に応じて任意の数に設定できる。
なお、図5、図7、図8では、各コンテキスト情報と、そのコンテキストに対応する意図情報の組み合わせのみを示したが、事前スコアとしては、それぞれのコンテキスト情報に対応する意図情報に対しては高い値(例えば、1.0)が設定され、コンテキスト情報に対応しない意図情報に対しては低い値(例えば、0.0)が設定されるものとする。
具体的には、例えば、図5の例では、コンテキスト[再生]に対応する意図情報として[再生する]〜[前の曲に変更する]の5つの意図情報が登録されている。この場合、コンテキスト[再生]に対する事前スコア(コンテキスト対応事前スコア)は、意図情報:[再生する]〜[前の曲に変更する]、これら5つの意図情報に対しては高み設定され、その他の意図情報[録音を開始する]〜[演奏者を設定する]に対する事前スコアは低く設定される。
図9〜図11に事前スコア記憶部223に記憶される事前スコアの設定例を示す。
なお、これらは、それぞれ個別のコンテキストに対応して設定される[コンテキスト対応事前スコア]である。すなわち、
図9は、(A)入出力部215から入力されるコンテキスト情報である[ユーザ選択処理カテゴリ情報]に対する[コンテキスト対応事前スコア]の設定例である。
図10は、(B)画像処理部221から入力されるコンテキスト情報である[音声入力者識別情報]に対する[コンテキスト対応事前スコア]の設定例である。
図11は、(C)マイク判定部204から入力されるコンテキスト情報である[音声入力マイク識別情報]に対する[コンテキスト対応事前スコア]の設定例である。
図9は、(A)入出力部215から入力されるコンテキスト情報である[ユーザ選択処理カテゴリ情報]に対する[コンテキスト対応事前スコア]の設定例である。
例えば、ユーザが処理カテゴリとして「再生」を選択したとのコンテキスト情報が、入出力部215、コンテキスト判断部216を介して事前スコア調整部222に入力された場合、図9に示すエントリ[再生]の縦一列のエントリに設定された、
「再生する」=0.9〜「演奏者を設定する」=0.01、
これら15個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。
図9に示すコンテキスト対応事前スコアの値から理解されるように、ユーザが処理カテゴリとして「再生」を選択した場合に選択される事前スコアの値は、再生処理に対応する意図(再生する〜前の曲に変更する)に対しては高い値である。その他の再生処理に対応しない意図(録音を開始する〜演奏者を設定する)に対しては低い値が設定されている。
なお、各処理カテゴリに対応する意図については、先に図5を参照して説明したデータが事前スコア記憶部223に記憶されている。
例えば、ユーザが処理カテゴリとして、「録音」を選択した場合、図9に示すエントリ[録音]の縦一列のエントリに設定された、
「再生する」=0.2〜「演奏者を設定する」=0.02これら15個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。
ユーザが処理カテゴリとして、「検索」を選択した場合、図9に示すエントリ[検索]の縦一列のエントリに設定された、
「再生する」=0.2〜「演奏者を設定する」=0.3これら15個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。
ユーザが処理カテゴリとして、「設定」を選択した場合、図9に示すエントリ[設定]の縦一列のエントリに設定された、
「再生する」=0.1〜「演奏者を設定する」=0.8これら15個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。
なお、これら図9に示す[コンテキスト対応事前スコア]の設定は、予め固定した値を設定し、その固定値を継続して利用することも可能であるが、初期値を設定した後、情報処理装置が、ユーザによるその後の実際の処理を学習して学習データに基づいてデータを更新してもよい。
例えば、ユーザが処理カテゴリとして「再生」を選択した後、実行する処理として「巻き戻しする」という処理要求が多い場合は、意図=「巻き戻しする」の「再生」対応の事前スコアを次第に高くするといった更新を行う。
この処理は、図3に示す事前スコア学習部224の処理として行われる。
図10は、(B)画像処理部221から入力されるコンテキスト情報である[音声入力者識別情報]に対する[コンテキスト対応事前スコア]の設定例である。
音声入力者として「人物A」、「人物B」が予め登録されており、これらの人物に対応する事前スコアが設定されている。
例えば、図3に示す画像処理部221において、音声入力者が「人物A」であると識別され、この「人物A」であるとのコンテキスト情報が画像処理部221、コンテキスト判断部216を介して事前スコア調整部222に入力された場合、図10に示すエントリ[人物A]の縦一列のエントリに設定された、
「再生する」=0.9〜「演奏者を設定する」=0.1これら15個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。
図10に示すエントリ[人物A]の縦一列のエントリに設定されたコンテキスト対応事前スコアの値は、「人物A」が、再生処理はよく実行するが、録音処理はあまり実行しないという情報に基づいて予め登録したデータである。
一方、音声入力者が「人物B」であると識別された場合、図10に示すエントリ[人物B]の縦一列のエントリに設定された、
「再生する」=0.3〜「演奏者を設定する」=0.9これら15個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。
これは、「人物B」が、再生処理はあまり実行しないが、録音処理はよく実行するという情報に基づいて予め登録したデータである。
なお、この事前スコアの値は、予め自由に設定してもよいし、適当な初期値を設定し、その後、情報処理装置において、各人物の実際の処理に基づく学習処理を実行して、よく行う処理に対してはスコアを高くし、あまり行わない処理についてはスコアを低くするといったスコア更新を行ってもよい。
この処理は、図3に示す事前スコア学習部224の処理として行われる。
図11は、(C)マイク判定部204から入力されるコンテキスト情報である[音声入力マイク識別情報]に対する[コンテキスト対応事前スコア]の設定例である。
例えば、図3に示すマイク判定部204において、音声入力マイクが「遠距離マイク」であると識別され、この「遠距離マイク」であるとのコンテキスト情報がマイク判定部204、コンテキスト判断部216を介して事前スコア調整部222に入力された場合、図11に示すエントリ[遠距離マイク]の縦一列のエントリに設定された、
「再生する」=0.9〜「演奏者を設定する」=0.1これら15個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。
図11に示すエントリ[遠距離マイク]の縦一列のエントリに設定されたコンテキスト対応事前スコアの値は、「遠距離マイク」を介した指示においては、再生処理はよく実行するが、検索処理はあまり実行しないという情報に基づいて予め登録したデータである。
一方、音声入力マイクが「近距離マイク」であると識別された場合、図11に示すエントリ[近距離マイク]の縦一列のエントリに設定された、
「再生する」=0.1〜「演奏者を設定する」=0.9これら15個のコンテキスト対応事前スコアが、各意図に対応するコンテキスト対応事前スコアとして選択され、その後の処理に利用される。
これは、「近距離マイク」を介した指示において、再生処理はあまり実行しないが、検索処理はよく実行するという情報に基づいて予め登録したデータである。
なお、この事前スコアの値は、予め自由に設定してもよいし、適当な初期値を設定し、その後、情報処理装置において、実際の各マイクの適用処理を解析する学習処理を実行して、各マイク単位でよく行う処理に対してはスコアを高くし、あまり行わない処理についてはスコアを低くするといったスコア更新を行ってもよい。
この処理は、図3に示す事前スコア学習部224の処理として行われる。
このように、事前スコア調整部222は、コンテキスト判断部216から送られるコンテキスト情報に基づいて、事前スコア記憶部223の登録情報(図9〜図11)を参照して、意図モデルA〜N,209−A〜Nの事前スコアA〜事前スコアN(209−A2〜209−N2)に設定する事前スコア値の調整処理を行う。
コンテキスト判断部216から事前スコア調整部222に送られるコンテキスト情報は、以下の3種類の情報がある。
(A)入出力部215から入力される[ユーザ選択処理カテゴリ情報]
(B)画像処理部221から入力される[音声入力者識別情報]
(C)マイク判定部204から入力される[音声入力マイク識別情報]
事前スコア調整部222は、これら3つのコンテキスト情報の各々に基づいて、図9〜図11に示す各コンテキストに対応した事前スコアである[コンテキスト対応事前スコア]を全て考慮した結果としての[総合事前スコア]を算出して、図3に示す意図モデルA〜N(209−A〜N)の事前スコアA〜N(209−A2〜N2)として設定する。
例えば、マイク判定部204の処理結果に基づき、「近距離マイク」というコンテキスト情報が送られてきた場合には、図11に示されるコンテキスト対応事前スコアの「近距離マイク」エントリに設定されたコンテキスト対応事前スコアの値を適用して、[総合事前スコア]を算出して、図3に示す意図モデルA〜N(209−A〜N)の事前スコアA〜N(209−A2〜N2)として設定する。
また、「遠距離マイク」というコンテキスト情報が送られてきた場合には、図11に示されるコンテキスト対応事前スコアの「遠距離マイク」エントリに設定されたコンテキスト対応事前スコアの値を適用して、[総合事前スコア]を算出して、図3に示す意図モデルA〜N(209−A〜N)の事前スコアA〜N(209−A2〜N2)として設定する。
近距離マイクと遠距離マイクをコンテキスト情報とすることは、ユーザとマイクの距離に応じて、ユーザが指示できることに制限をかける場合などに有効となる。例えば、限定されてはいるが日常的に利用する指示については、遠距離マイクのみで対応し、より自由度の高い指示については、近距離マイクで対応するケースなどが想定される。一般に、ユーザとマイクの距離が大きくなるに従い、音声からの意図推定の性能は低下するため、遠距離マイクに対しては、ユーザの指示できることを制限することは、意図推定の性能を向上する上で重要な役割を持つ。
同様に、入出力部215の処理結果に基づき、「再生」というコンテキスト情報が送られてきた場合には、図9に示されるコンテキスト対応事前スコアの「再生」エントリに設定されたコンテキスト対応事前スコアの値を適用して、[総合事前スコア]を算出して、図3に示す意図モデルA〜N(209−A〜N)の事前スコアA〜N(209−A2〜N2)として設定する。
一般に、対象となる意図情報の総数が多くなれば、音声からの意図推定の性能は低下するため、ユーザの指定に応じてユーザの指示できることを制限することは、意図推定の性能を向上する上で重要な役割を持つ。
また、画像処理部221の処理結果に基づき、「人物A」というコンテキスト情報が送られてきた場合には、図10に示されるコンテキスト対応事前スコアの「人物A」エントリに設定されたコンテキスト対応事前スコアの値を適用して、[総合事前スコア]を算出して、図3に示す意図モデルA〜N(209−A〜N)の事前スコアA〜N(209−A2〜N2)として設定する。
これは、システムを利用する人物によって、頻繁に利用する機能と、あまり使わない機能が分かれるという特性を利用して、個人ごとに利用頻度の高い意図情報に対して事前スコアを高くする役割を持つ。
ところで、コンテキスト情報に対応する意図情報の組み合わせを事前に決定できる場合には、コンテキスト情報に対応しない意図情報に対する事前スコアを小さくすることが可能であり、特に、その事前スコアを0.0に設定する場合は、その意図情報に対応する意図モデルに対しては、音響スコアや言語スコアを計算する必要がなくなるため、計算量の削減効果を得ることも可能である。
事前スコア調整部222は、このように、コンテキスト判断部216から入力する以下の3種類のコンテキスト情報、すなわち、
(A)入出力部215から入力される[ユーザ選択処理カテゴリ情報]
(B)画像処理部221から入力される[音声入力者識別情報]
(C)マイク判定部204から入力される[音声入力マイク識別情報]
これら3つのコンテキスト情報の各々に基づいて、図9〜図11に示す各コンテキストに対応した事前スコアである[コンテキスト対応事前スコア]を選択して、選択した[コンテキスト対応事前スコア]を適用して[総合事前スコア]を算出して、算出した[総合事前スコア]を図3に示す意図モデルA〜N(209−A〜N)の事前スコアA〜N(209−A2〜N2)として設定する。
この処理の具体例について、以下説明する。
ます、音声理解に基づく意図推定処理の基本的な処理例について説明する。
以下に示す式(1)は音声理解において意図を推定するために利用される意図の生起確率:P(S|X)の算出式を示す。
・・・・・式(1)
上記式(1)において、
Xは入力音声信号、
Sは意図、
P(X|S)は、意図(S)を有している場合に、入力信号(X)が得られる確率、
を示す。
上記式(1)によって算出される意図の生起確率:P(S|X)は、入力音声信号[X]が検出された場合、その意図が[S]である確率を示す。
音声理解は、式(1)に基づき、この生起確率を最大化する意図Sを決定するものとして定式化される。
例えば、図5や、図9〜図11に示す15個の意図「再生する」〜「演奏者を設定する」が登録されている場合、これら15個の意図情報を、それぞれ、
S1=「再生する」
S2=「早送りする」

S15=「演奏者を設定する」
このような設定とする。
これらの意図情報:S1〜S15に対して、生起確率:P(S1|X)〜P(S15|X)を算出し、算出した15個の生起確率中、その値が最大となる意図(S1〜S15)を選択する。この選択された意図をユーザの意図であると判定するものである。この処理が意図推定の基本的な処理である。
図3に示される本発明に従った情報処理装置においては、図3に示すマルチマッチング部207と意図判定部210が、音声認識に基づく意図推定の基本式である式(1)を、以下に示す式(2)のように修正して利用する。
・・・・・式(2)
上記式(2)において、
si(i=1,・・・N)は、意図Sに対して定義された単語を示す。
つまり、意図Sに対して定義された単語から構成される単語系列ws1,ws2,・・・,wsnに基づいて音響スコアが算出される。
これが確率P(X|ws1,ws2,・・・,wsn)に相当する。
また、特定の意図Sに対して算出される言語スコアは確率P(ws1,ws2,・・・,wsn|S)に相当する。
さらに、特定の意図Sに対して与えられる生起確率(事前確率)P(S)が、各意図モデルA〜N(209−A〜N)内に設定される事前スコア(209A2〜N2)に対応する。
a,b,cは、それぞれ音声理解において意図モデルごとに算出される音響スコア、言語スコア、および事前スコアの重みを示す。これらは予め設定した値を用いる。
先に説明したように、図3に示すマルチマッチング部207は、以下のデータを算出する。
(A)意図モデルAの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア
(B)意図モデルBの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア

(N)意図モデルNの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア
図3に示すのマルチマッチング部207では、これらのN組の入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア、これらのデータを算出する。
各意図モデルに対応する単語系列が、式(2)に示す単語系列wsi(i=1,・・・N)、すなわち、ws1,ws2,・・・,wsnに対応する。
音響スコアは、式(2)に示す確率P(X|ws1,ws2,・・・,wsn)に相当する。
言語スコアは、式(2)に示す確率P(ws1,ws2,・・・,wsn|S)に相当する。
なお、生起確率(事前確率)P(S)として利用される事前スコア(209A2〜N2)は、先に説明したように、
(A)入出力部215から入力される[ユーザ選択処理カテゴリ情報]
(B)画像処理部221から入力される[音声入力者識別情報]
(C)マイク判定部204から入力される[音声入力マイク識別情報]
これら3つのコンテキスト情報の各々に基づいて、図9〜図11に示す各コンテキストから抽出された[コンテキスト対応事前スコア]を適用して算出される[総合事前スコア]である。
マルチマッチング部207の処理結果として得られる意図ごとの音響スコア、言語スコア、および事前スコアは、各意図モデルが保持する意図情報と合わせて、意図判定部210に送られる。
意図判定部210は、各意図モデルに対して音響スコア、言語スコア、事前スコアを総合することで算出される総合スコアを比較することで、最もスコア値の良い(高い)意図モデルを決定する。
この決定処理は、具体的には、上記式(2)の各意図の生起確率:P(S|X)の比較処理として行われる。最も高い生起確率:P(S|X)が算出される意図、すなわち意図A〜Nのいずれかが、ユーザの発話に対応する意図理解結果211として決定される。
本発明の情報処理装置200は、上記式(2)に用いられる生起確率(事前確率)P(S)、すなわち事前スコアP(S)を、常に固定値とするのではなく、コンテキストに応じて適切に調整する。この調整処理によって、意図推定の性能を高めることを可能としている。なお、事前スコアP(S)=0.0の意図情報に対しては、
音響スコア:P(X|ws1,ws2,・・・,wsn
言語スコア:P(ws1,ws2,・・・,wsn|S)
これらの計算を省略することが可能となる。
本発明の情報処理装置において適用する事前スコアP(S)の計算方法について説明する。
式(2)に含まれるP(S)は、特定の意図Sに対して与えられる生起確率(事前確率)P(S)であり、事前スコアの値に対応する。
本発明の情報処理装置では、この事前スコア:P(S)は、以下に示す3つのコンテキスト情報を全て考慮した結果としての総合事前スコアP(S)とする。すなわち、
(A)入出力部215から入力される[ユーザ選択処理カテゴリ情報]
(B)画像処理部221から入力される[音声入力者識別情報]
(C)マイク判定部204から入力される[音声入力マイク識別情報]
これら3つのコンテキスト情報の各々に基づいて算出される各コンテキストに対応した事前スコアである[コンテキスト対応事前スコア]を全て考慮した結果としての[総合事前スコア]を算出して利用する。
この総合事前スコア:P(S)の算出式を以下の式(3)に示す。
・・・・・式(3)
上記式(3)において、
Kはコンテキスト判断部216から送られるコンテキスト情報の数を示している。
図2に示す例では、コンテキスト判断部216には、以下の3つのコンテキスト情報が入力される。
(A)入出力部215から入力される[ユーザ選択処理カテゴリ情報]
(B)画像処理部221から入力される[音声入力者識別情報]
(C)マイク判定部204から入力される[音声入力マイク識別情報]
これら3つのコンテキスト情報が入力される。
従って、K=3となる。
また、Cはそれぞれのコンテキスト情報を示す。
はマイク判定部206から送られるコンテキスト情報、
は入出力部215から送られるコンテキスト情報、
は画像処理部221から送られるコンテキスト情報、
これらを示すものとする。
右端のP(S|C)は、あるコンテキスト情報:Cが検出された場合の意図:Sの発生確率を示し、これが図9〜図11を参照して説明した表の値、すなわち、事前スコア記憶部223に記憶された[コンテキスト対応事前スコア]に対応する。
なお、P(C)は、P(S|C)の重みを示す。この重みは予め設定した値を用いる。
例えば、意図Sが「再生する」を表し、マイク判定部206から送られるコンテキスト情報Cが「遠距離マイク」を表す場合、図11に示すように、事前スコア:P(S|C)=0.9となる。
例えば、意図Sが「早送りする」を表し、コンテキスト情報Cが「近距離マイク」を表す場合、図11に示すように、事前スコア:P(S|C)=0.1となる。
式(3)に基づく具体的な[総合事前スコア]の計算例について説明する。例えば、P(C)=0.5,P(C)=0.6,P(C)=0.4のように、各[コンテキスト対応事前スコア]に対応する重みが設定されたとする。
ここで、
マイク判定部206から送られる[音声入力マイク識別情報]、すなわちコンテキスト情報Cは「近距離マイク」、
入出力部215から送られる[ユーザ選択処理カテゴリ情報]、すなわちコンテキスト情報Cは「再生」、
画像処理部221から送られる[音声入力者識別情報]、すなわち、コンテキスト情報Cは「人物B」であったとする。
このとき、意図S「再生する」に対しては、図9、図10、図11に示す[コンテキスト対応事前スコア]の設定値によりP(S|C)=0.1,P(S|C)=0.9,P(S|C)=0.3という値が、事前スコア記憶部223から得られることになる。
次に、上記式(3)を用いて、各[コンテキスト対応事前スコア]と重みとの乗算を行い、その結果を加算して、全てのコンテキスト情報を勘案した最終的な[総合事前スコア]P(S)を算出する。
つまり、
総合事前スコア:P(S)=0.5×0.1+0.6×0.9+0.4×0.3
=0.71
上記式に従って、全てのコンテキスト情報を勘案した最終的な[総合事前スコア]P(S)を算出する。
例えば図3に示す意図モデルA(209−A)の意図情報A=「再生する」である場合、意図モデルA(209−A)の事前スコアA(209−A2)には、上記の計算結果として得られる総合事前スコア、すなわち、
総合事前スコア:P(S)=0.5×0.1+0.6×0.9+0.4×0.3
=0.71
この0.71が事前スコア調整部222において算出され、この算出値が設定される。
事前スコア調整部222は、全ての意図情報(「再生する」〜「演奏者を設定する」)に対して、
(A)入出力部215から入力される[ユーザ選択処理カテゴリ情報]
(B)画像処理部221から入力される[音声入力者識別情報]
(C)マイク判定部204から入力される[音声入力マイク識別情報]
これら3つのコンテキスト情報に基づいて、図9、図10、図11に示す[コンテキスト対応事前スコア]の設定値を選択し、総合事前スコア:P(S)を算出する。
事前スコア調整部222は、算出値である総合事前スコアを、各意図モデルA〜N(209−A〜N)の事前スコアA〜N(209−A2〜N2)として設定する。
このように、各意図モデルA〜N(209−A〜N)の事前スコアA〜N(209−A2〜N2)には、図9〜図11に示す[コンテキスト対応事前スコア]を用いて算出される[総合事前スコア]が設定される。
上述したように、図3に示される本発明に従った情報処理装置においては、図3に示すマルチマッチング部207が、
(A)意図モデルAの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア
(B)意図モデルBの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア

(N)意図モデルNの設定情報を利用して算出した入力音声に最も適合する単語系列と、音響スコアと言語スコアと事前スコア
図3に示すのマルチマッチング部207では、これらのN組の入力音声に最も適合する単語系列と、音響スコアと言語スコア、これらのデータを算出する。
なお、各意図モデルに対応する単語系列が、式(2)に示す単語系列wsi(i=1,・・・N)、すなわち、ws1,ws2,・・・,wsnに対応する。
音響スコアは、式(2)に示す確率P(X|ws1,ws2,・・・,wsn)に相当する。
言語スコアは、式(2)に示す確率P(ws1,ws2,・・・,wsn|S)に相当する。
なお、生起確率(事前確率)P(S)として利用される事前スコア(209A2〜N2)は、先に説明したように、
(A)入出力部215から入力される[ユーザ選択処理カテゴリ情報]
(B)画像処理部221から入力される[音声入力者識別情報]
(C)マイク判定部204から入力される[音声入力マイク識別情報]
これら3つのコンテキスト情報の各々に基づいて、図9〜図11に示す各コンテキストから抽出された[コンテキスト対応事前スコア]を適用して算出される[総合事前スコア]である。
マルチマッチング部207の処理結果として得られる意図ごとの音響スコア、言語スコア、および事前スコアは、各意図モデルが保持する意図情報と合わせて、意図判定部210に送られる。
意図判定部210は、各意図モデルに対して音響スコア、言語スコア、事前スコアを総合することで算出される総合スコアを比較することで、最もスコア値の良い(高い)意図モデルを決定する。
この決定処理は、具体的には、上記式(2)の各意図の生起確率:P(S|X)の比較処理として行われる。最も高い生起確率:P(S|X)が算出される意図、すなわち意図A〜Nのいずれかが、ユーザの発話に対応する意図理解結果211として決定される。
なお、式(3)に示される重み:P(C)と、[コンテキスト対応事前スコア]:P(S|C)は、事前スコア記憶部223に記憶されるものとし、その値は、事前に設定が行われる。この事前に設定される値は、所定の固定値が使われても良いし、次に説明する事前スコア学習部224によって動的に設定が行われてもよい。
次に、事前スコア学習部224の処理について説明する。図3に示されるように、意図判定部210において判定された意図情報Sは音声理解結果211として出力されるだけでなく、事前スコア学習部224にフィードバックされる。また、コンテキスト判断部216から送られてくるコンテキスト情報Cはすべて、事前スコア調整部222から事前スコア学習部224へと送られる。
事前スコア学習部224では、事前スコア調整部223から送られるコンテキスト情報Cと、意図判定部210から送られる音声理解結果としての意図情報Sに基づき、P(S|C)を計算し、これを事前スコア記憶部222に送信する。この値は、事前スコア記憶部222に記憶される(図9〜図11に示される値)。
P(S|C)は、コンテキスト情報Cのもとで意図情報Sが観測される条件付き確率値P(S|C)として求めることができる。また、意図判定部210から出力される意図情報には、判定誤りが含まれるケースが想定される。ここで、その出力結果に対して、ユーザが修正を行った場合に、その修正情報を事前スコア学習部224に送信することで、より正しい値としての条件付き確率値P(S|C)を求めることも可能である。
[3.情報処理装置のハードウェア構成例について]
最後に、図12を参照して、上述した処理を実行する情報処理装置のハードウェア構成例について説明する。CPU(Central Processing Unit)701は、ROM(Read Only Memory)702、または記憶部708に記憶されているプログラムに従って各種の処理を実行する。
RAM(Random Access Memory)703には、CPU701が実行するプログラムやデータなどが適宜記憶される。これらのCPU701、ROM702、およびRAM703は、バス704により相互に接続されている。
CPU701はバス704を介して入出力インタフェース705に接続され、入出力インタフェース705には、カメラ、マイク、コントローラ、リモコン、キーボード、マウスなどによって構成される入力部706、ディスプレイ、スピーカなどよりなる出力部707が接続されている。CPU701は、例えば入力部706から入力される情報に対して各種の処理を実行する。
入出力インタフェース705に接続されている記憶部708は、例えばハードディスクからなり、CPU701が実行するプログラムや各種のデータを記憶する。
さらに、音声認識処理や理解処理に必用となる各種の音声情報や辞書データ、さらには、ユーザ認識処理に必用となるユーザ画像データ等が記録されている。通信部709は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
入出力インタフェース705に接続されているドライブ710は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711を駆動し、記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部708に転送され記憶される。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の一実施例の構成によれば、ユーザ発話に基づいてユーザの意図を判定する装置および方法が実現される。予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出する事前スコア調整部、ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出するマルチマッチング部、意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定する意図判定部を有し、意図モデル単位のスコア比較によりユーザの発話に対応するユーザの意図を判定する。本発明により、入力音声信号から発話の意図を推定する装置において、様々な観測情報をコンテキストとして利用して事前スコアを調整することが可能となり、その結果、意図の推定精度を高めることが可能となる。
11 音声入力
12 マイク
13 AD変換部
14 特徴抽出部
15 マッチング部
16 音響モデルデータ
17 辞書データ
18 文法データ
19 音声認識結果
51〜53 ユーザ
100 情報処理装置
101 カメラ
102 音声入出力部
201 音声入力
202 近距離マイク
203 遠距離マイク
204 マイク判定部
205 AD変換部
206 特徴抽出部
207 マルチマッチング部
207a 音響スコア算出部
207b 言語スコア算出部
207c 事前スコア算出部
208 音響モデル
209−A〜N 意図モデル
209−A1〜N1 意図情報
209−A2〜N2 事前スコア
209−A3〜N3 辞書
209−A4〜N4 文法
210 意図判定部
211 音声理解結果
212 処理カテゴリ出力
213 表示部
214 コントローラ入力
215 入出力部
216 コンテキスト判断部
217 画像入力
218 カメラ
219 AD変換部
220 特徴抽出部
221 画像処理部
222 事前スコア調整部
223 事前スコア記憶部
224 事前スコア学習部
701 CPU
702 ROM
703 RAM
704 バス
705 入出力インタフェース
706 入力部
707 出力部
708 記憶部
709 通信部
710 ドライブ
711 リムーバブルメディア

Claims (10)

  1. 予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出する事前スコア調整部と、
    ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出するマルチマッチング部と、
    前記意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定する意図判定部と、
    を有する情報処理装置。
  2. 前記観測情報は複数の異なる観測情報を含み、
    前記複数の異なる観測情報に対応するコンテキスト情報の各々に対するコンテキスト対応事前スコアを登録した事前スコア記憶部を有し、
    前記事前スコア調整部は、前記コンテキスト情報に基づいて、前記事前スコア記憶部に登録されたコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する請求項1に記載の情報処理装置。
  3. 前記観測情報としてのコンテキスト情報は、
    (a)入出力部から入力されるユーザ選択処理カテゴリ情報、
    (b)画像処理部から入力される音声入力者識別情報、
    (c)マイク判定部から入力される音声入力マイク識別情報、
    上記(a)〜(c)の情報の少なくともいずれかを含み、
    前記事前スコア調整部は、前記コンテキスト情報に基づいて、前記事前スコア記憶部に登録されたコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する請求項2に記載の情報処理装置。
  4. 前記ユーザ選択処理カテゴリ情報は、情報処理装置が表示部に表示した情報処理装置の実行する処理カテゴリ情報に対するユーザの選択情報であり、
    前記事前スコア調整部は、
    ユーザの選択した処理カテゴリに対応するコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する請求項3に記載の情報処理装置。
  5. 前記音声入力者識別情報は、情報処理装置のカメラ撮影画像に基づいて前記画像処理部が実行する顔識別処理によって識別された結果である音声入力者識別情報であり、
    前記事前スコア調整部は、
    識別された音声入力者に対応するコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する請求項3に記載の情報処理装置。
  6. 前記音声入力マイク識別情報は、情報処理装置のマイク判定部が、音声の入力されたマイクを判別した情報であり、
    前記事前スコア調整部は、
    音声入力のなされたマイクに対応するコンテキスト対応事前スコアを選択して、選択したコンテキスト対応事前スコアを適用して、前記意図モデル単位の事前スコアを算出する請求項3に記載の情報処理装置。
  7. 前記意図判定部は、音響スコア、言語スコア、事前スコアの各々に対応して予め設定した重みを適用して前記意図モデル単位の総合スコアの算出を行う請求項1〜6いずれかに記載の情報処理装置。
  8. 前記情報処理装置は、さらに、
    前記意図判定部の判定結果を入力し、入力した判定結果に基づく学習処理により、前記事前スコア記憶部に登録されたコンテキスト対応事前スコアを更新する事前スコア学習部を有する請求項1〜7いずれかに記載の情報処理装置。
  9. 情報処理装置において実行する情報処理方法であり、
    事前スコア調整部が、予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出する事前スコア調整ステップと、
    マルチマッチング部が、ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出するマルチマッチングステップ、
    意図判定部が、前記意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定する意図判定ステップと、
    を有する情報処理方法。
  10. 情報処理装置において情報処理を実行させるプログラムであり、
    事前スコア調整部に、予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出させる事前スコア調整ステップと、
    マルチマッチング部に、ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出させるマルチマッチングステップ、
    意図判定部に、前記意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定させる意図判定ステップと、
    を実行させるプログラム。
JP2010189123A 2010-08-26 2010-08-26 情報処理装置、および情報処理方法、並びにプログラム Ceased JP2012047924A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010189123A JP2012047924A (ja) 2010-08-26 2010-08-26 情報処理装置、および情報処理方法、並びにプログラム
US13/206,631 US8566094B2 (en) 2010-08-26 2011-08-10 Information processing apparatus, information processing method, and program
CN2011102428227A CN102385860A (zh) 2010-08-26 2011-08-19 信息处理设备、信息处理方法及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010189123A JP2012047924A (ja) 2010-08-26 2010-08-26 情報処理装置、および情報処理方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2012047924A true JP2012047924A (ja) 2012-03-08
JP2012047924A5 JP2012047924A5 (ja) 2013-08-15

Family

ID=45698351

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010189123A Ceased JP2012047924A (ja) 2010-08-26 2010-08-26 情報処理装置、および情報処理方法、並びにプログラム

Country Status (3)

Country Link
US (1) US8566094B2 (ja)
JP (1) JP2012047924A (ja)
CN (1) CN102385860A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103474069A (zh) * 2013-09-12 2013-12-25 中国科学院计算技术研究所 用于融合多个语音识别系统的识别结果的方法及系统
JP2014048523A (ja) * 2012-08-31 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> 行動生成モデル作成装置及び行動推定装置
EP3037982A2 (en) 2014-12-25 2016-06-29 Clarion Co., Ltd. Intention estimation equipment and intention estimation system
JP2017032738A (ja) * 2015-07-31 2017-02-09 日本電信電話株式会社 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
WO2018134916A1 (ja) * 2017-01-18 2018-07-26 三菱電機株式会社 音声認識装置
CN110162775A (zh) * 2019-03-11 2019-08-23 腾讯科技(深圳)有限公司 确定意图识别准确度的方法、装置及计算机设备
US10460034B2 (en) 2015-01-28 2019-10-29 Mitsubishi Electric Corporation Intention inference system and intention inference method
WO2020039726A1 (ja) * 2018-08-20 2020-02-27 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2020129695A1 (ja) * 2018-12-21 2020-06-25 ソニー株式会社 情報処理装置、制御方法、情報処理端末、情報処理方法
JP2021015180A (ja) * 2019-07-11 2021-02-12 東芝映像ソリューション株式会社 電子機器、プログラムおよび音声認識方法
WO2022124637A1 (ko) * 2020-12-10 2022-06-16 삼성전자(주) 전자장치 및 그의 제어방법

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9953638B2 (en) * 2012-06-28 2018-04-24 Nuance Communications, Inc. Meta-data inputs to front end processing for automatic speech recognition
US8577671B1 (en) 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
CN104756100B (zh) * 2012-11-30 2017-07-28 三菱电机株式会社 意图估计装置以及意图估计方法
US10354677B2 (en) * 2013-02-28 2019-07-16 Nuance Communications, Inc. System and method for identification of intent segment(s) in caller-agent conversations
EP2994908B1 (en) * 2013-05-07 2019-08-28 Veveo, Inc. Incremental speech input interface with real time feedback
WO2014197592A2 (en) * 2013-06-04 2014-12-11 Ims Solutions Inc. Enhanced human machine interface through hybrid word recognition and dynamic speech synthesis tuning
DE112014006542B4 (de) * 2014-03-31 2024-02-08 Mitsubishi Electric Corporation Einrichtung und Verfahren zum Verständnis von einer Benutzerintention
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
EP3282447B1 (en) * 2015-03-31 2020-08-26 Sony Corporation PROGRESSIVE UTTERANCE ANALYSIS FOR SUCCESSIVELY DISPLAYING EARLY SUGGESTIONS BASED ON PARTIAL SEMANTIC PARSES FOR VOICE CONTROL. &#xA;REAL TIME PROGRESSIVE SEMANTIC UTTERANCE ANALYSIS FOR VISUALIZATION AND ACTIONS CONTROL.
US10249297B2 (en) * 2015-07-13 2019-04-02 Microsoft Technology Licensing, Llc Propagating conversational alternatives using delayed hypothesis binding
US11868354B2 (en) * 2015-09-23 2024-01-09 Motorola Solutions, Inc. Apparatus, system, and method for responding to a user-initiated query with a context-based response
US10032451B1 (en) * 2016-12-20 2018-07-24 Amazon Technologies, Inc. User recognition for speech processing systems
CN107404577B (zh) * 2017-07-20 2019-05-17 维沃移动通信有限公司 一种图像处理方法、移动终端及计算机可读存储介质
US10547939B1 (en) * 2018-09-14 2020-01-28 Lenovo (Singapore) Pte. Ltd. Pickup range control
CN115051903B (zh) * 2019-02-14 2023-08-04 华为技术有限公司 一种意图处理方法、装置及系统
CN111737670B (zh) * 2019-03-25 2023-08-18 广州汽车集团股份有限公司 多模态数据协同人机交互的方法、系统及车载多媒体装置
US20230127907A1 (en) * 2021-10-22 2023-04-27 International Business Machines Corporation Intention identification in dialogue system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002116791A (ja) * 2000-10-11 2002-04-19 Nissan Motor Co Ltd 音声入力装置
JP2006053203A (ja) * 2004-08-10 2006-02-23 Sony Corp 音声処理装置および方法、記録媒体、並びにプログラム
JP2006071791A (ja) * 2004-08-31 2006-03-16 Fuji Heavy Ind Ltd 車両の音声認識装置
JP2006154190A (ja) * 2004-11-29 2006-06-15 Toshiba Corp 音声移動制御装置および音声移動制御方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002507010A (ja) * 1998-03-09 2002-03-05 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 同時に起こるマルチモード口述のための装置及び方法
WO2001067228A1 (en) * 2000-03-09 2001-09-13 Koninklijke Philips Electronics N.V. Method of interacting with a consumer electronics system
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US6611206B2 (en) * 2001-03-15 2003-08-26 Koninklijke Philips Electronics N.V. Automatic system for monitoring independent person requiring occasional assistance
US7283992B2 (en) * 2001-11-30 2007-10-16 Microsoft Corporation Media agent to suggest contextually related media content
US6990639B2 (en) * 2002-02-07 2006-01-24 Microsoft Corporation System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
JP4478939B2 (ja) * 2004-09-30 2010-06-09 株式会社国際電気通信基礎技術研究所 音声処理装置およびそのためのコンピュータプログラム
JP4188989B2 (ja) * 2006-09-15 2008-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
EP1908640B1 (en) * 2006-10-02 2009-03-04 Harman Becker Automotive Systems GmbH Voice control of vehicular elements from outside a vehicular cabin
US7818166B2 (en) * 2007-01-31 2010-10-19 Motorola, Inc. Method and apparatus for intention based communications for mobile communication devices
US8219406B2 (en) * 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
JP4412504B2 (ja) * 2007-04-17 2010-02-10 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識用プログラム
US8423362B2 (en) * 2007-12-21 2013-04-16 General Motors Llc In-vehicle circumstantial speech recognition
US8417526B2 (en) * 2009-03-13 2013-04-09 Adacel, Inc. Speech recognition learning system and method
US8359020B2 (en) * 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002116791A (ja) * 2000-10-11 2002-04-19 Nissan Motor Co Ltd 音声入力装置
JP2006053203A (ja) * 2004-08-10 2006-02-23 Sony Corp 音声処理装置および方法、記録媒体、並びにプログラム
JP2006071791A (ja) * 2004-08-31 2006-03-16 Fuji Heavy Ind Ltd 車両の音声認識装置
JP2006154190A (ja) * 2004-11-29 2006-06-15 Toshiba Corp 音声移動制御装置および音声移動制御方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014048523A (ja) * 2012-08-31 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> 行動生成モデル作成装置及び行動推定装置
CN103474069A (zh) * 2013-09-12 2013-12-25 中国科学院计算技术研究所 用于融合多个语音识别系统的识别结果的方法及系统
CN103474069B (zh) * 2013-09-12 2016-03-30 中国科学院计算技术研究所 用于融合多个语音识别系统的识别结果的方法及系统
EP3037982A2 (en) 2014-12-25 2016-06-29 Clarion Co., Ltd. Intention estimation equipment and intention estimation system
JP2016122336A (ja) * 2014-12-25 2016-07-07 クラリオン株式会社 意図推定装置、および意図推定システム
US9569427B2 (en) 2014-12-25 2017-02-14 Clarion Co., Ltd. Intention estimation equipment and intention estimation system
US10460034B2 (en) 2015-01-28 2019-10-29 Mitsubishi Electric Corporation Intention inference system and intention inference method
JP2017032738A (ja) * 2015-07-31 2017-02-09 日本電信電話株式会社 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
JPWO2018134916A1 (ja) * 2017-01-18 2019-04-11 三菱電機株式会社 音声認識装置
WO2018134916A1 (ja) * 2017-01-18 2018-07-26 三菱電機株式会社 音声認識装置
WO2020039726A1 (ja) * 2018-08-20 2020-02-27 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2020129695A1 (ja) * 2018-12-21 2020-06-25 ソニー株式会社 情報処理装置、制御方法、情報処理端末、情報処理方法
CN110162775A (zh) * 2019-03-11 2019-08-23 腾讯科技(深圳)有限公司 确定意图识别准确度的方法、装置及计算机设备
JP2021015180A (ja) * 2019-07-11 2021-02-12 東芝映像ソリューション株式会社 電子機器、プログラムおよび音声認識方法
JP7216621B2 (ja) 2019-07-11 2023-02-01 Tvs Regza株式会社 電子機器、プログラムおよび音声認識方法
WO2022124637A1 (ko) * 2020-12-10 2022-06-16 삼성전자(주) 전자장치 및 그의 제어방법

Also Published As

Publication number Publication date
US20120053942A1 (en) 2012-03-01
CN102385860A (zh) 2012-03-21
US8566094B2 (en) 2013-10-22

Similar Documents

Publication Publication Date Title
JP2012047924A (ja) 情報処理装置、および情報処理方法、並びにプログラム
US11875820B1 (en) Context driven device arbitration
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US11580991B2 (en) Speaker based anaphora resolution
US10643609B1 (en) Selecting speech inputs
EP3114679B1 (en) Predicting pronunciation in speech recognition
US11138977B1 (en) Determining device groups
US10276164B2 (en) Multi-speaker speech recognition correction system
US10448115B1 (en) Speech recognition for localized content
US11854550B2 (en) Determining input for speech processing engine
US20180308487A1 (en) Dialogue System Incorporating Unique Speech to Text Conversion Method for Meaningful Dialogue Response
US11687526B1 (en) Identifying user content
JP6654611B2 (ja) 成長型対話装置
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
US10504512B1 (en) Natural language speech processing application selection
US9460714B2 (en) Speech processing apparatus and method
JP2004198831A (ja) 音声認識装置および方法、プログラム、並びに記録媒体
Lecouteux et al. Distant speech recognition for home automation: Preliminary experimental results in a smart home
JP5257680B2 (ja) 音声認識装置
JP7347511B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP7511374B2 (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
JP4864783B2 (ja) パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法
JP2002182685A (ja) 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
JP5476760B2 (ja) コマンド認識装置
US20230386491A1 (en) Artificial intelligence device

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130628

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130628

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141222

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150120

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20150526