JP2005003926A - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2005003926A
JP2005003926A JP2003167109A JP2003167109A JP2005003926A JP 2005003926 A JP2005003926 A JP 2005003926A JP 2003167109 A JP2003167109 A JP 2003167109A JP 2003167109 A JP2003167109 A JP 2003167109A JP 2005003926 A JP2005003926 A JP 2005003926A
Authority
JP
Japan
Prior art keywords
utterance
function
unit
action
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003167109A
Other languages
English (en)
Inventor
Naoto Iwahashi
直人 岩橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2003167109A priority Critical patent/JP2005003926A/ja
Priority to US10/860,747 priority patent/US20050021334A1/en
Publication of JP2005003926A publication Critical patent/JP2005003926A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

【課題】人や状況の変化に応じて適応的に発話を生成する。
【解決手段】行動決定部15は、音声信号、画像に含まれるオブジェクトに関する情報、並びに重み付け係数生成部12より供給された重み付け係数を、決定関数に適用して行動を決定する。生成発話決定部18は、音声信号、および画像に含まれるオブジェクトに関する情報を、決定関数と全体確信度関数に適用して発話を決定し、決定した発話に対応する発話信号を生成し、発話出力部19に出力する。発話出力部19は、生成発話決定部18より供給された発話信号を、対話者が認識できるように、対応する音声を出力したり、あるいは対応する文字列を表示したりする。本発明は、意図する動作を対話者に指示する発話を生成させるためにロボットに組み込まれる言行決定装置に適用することができる。
【選択図】 図3

Description

【0001】
【発明の属する技術分野】
本発明は、情報処理装置および方法、並びにプログラムに関し、特に、人と対話するシステムに対して、人とより正確に意志を疎通させることができるようにした、情報処理装置および方法、並びにプログラムに関する。
【0002】
【従来の技術】
従来、人と対話するシステムを例えばロボットに搭載することが行われている。当該システムは、人の発話を認識する機能と、人に対する発話を生成する機能が必要となる。
【0003】
発話を生成する従来の方法としては、例えば、スロット法、言い換え法、文の変形法、格構造に基づく生成法等を挙げることができる。
【0004】
スロット法は、予め設定されている構文(例えば「Aは、BにCをあげます」)の単語(いまの場合、A,B,C)に、人の発話から抽出した単語を当てはめることにより発話を生成する方法である。言い換え法は、人の発話(例えば「彼は熱心に勉強している」)に含まれる単語を認識し、認識結果を言い換えることにより発話(例えば「彼は、一生懸命学習している」)を生成する方法である。
【0005】
文の変形法は、人の発話(例えば「彼は人形を机の上に載せる」)を認識し、単語の順序を変化させることにより発話(例えば「彼が机の上に載せるのは人形だ」)を生成する方法である。格構造に基づく生成法は、例えば人の発話(例えば「お正月に私は親戚の子供達にお年玉をたくさんあげた」)の各構造を認識し、予め許容されている語順に従い単語に適切な助詞を付加して発話(例えば「親戚の子供達はお正月に私からたくさんのお年玉をもらった」)を生成する方法である。
【0006】
なお、上述した発話を生成する従来の方法については、例えば、非特許文献1に記載されている。
【0007】
【非特許文献1】
長尾真著「自然言語処理」岩波書店、1996年4月26日発行、9章
【0008】
【発明が解決しようとする課題】
人との円滑なコミュニケーションを実現するためには、人や状況(当該システムの発話に対する人の理解の状況等)の変化に応じて適応的に適切な発話を生成することが望ましいが、発話を生成するための上述したような従来の方法では、発話方策が予めシステム設計者によって与えられており固定されていたので、人や状況の変化に応じて適応的に発話を生成することができないという課題があった。
【0009】
本発明はこのような状況に鑑みてなされたものであり、人や状況の変化に応じて適応的に発話を生成できるようにすることを目的とする。
【0010】
【課題を解決するための手段】
本発明の情報処理装置は、発話を対話者が正しく理解する確率を表す全体確信度関数を学習によって推測する推測手段と、全体確信度関数に基づき、対話者が正しく理解する確率を予測して、発話を生成する生成手段とを含むことを特徴とする。
【0011】
前記生成手段は、発話と発話から解釈可能な意味とを入力として発話と意味の対応の妥当性を表す決定関数にも基づき、発話を生成するようにすることができる。
【0012】
前記全体確信度関数は、生成される候補となる発話と意図する意味を入力とする決定関数の出力と、生成される候補となる発話と意図する意味以外の意味を入力とする決定関数の出力の最大値との差を入力とするようにすることができる。
【0013】
本発明の情報処理方法は、発話を対話者が正しく理解する確率を表す全体確信度関数を学習によって推測する推測ステップと、全体確信度関数に基づき、対話者が正しく理解する確率を予測して、発話を生成する生成ステップとを含むことを特徴とする。
【0014】
本発明のプログラムは、発話を対話者が正しく理解する確率を表す全体確信度関数を学習によって推測する推測ステップと、全体確信度関数に基づき、対話者が正しく理解する確率を予測して、発話を生成する生成ステップとを含む処理をコンピュータに実行させることを特徴とする。
【0015】
本発明の情報処理装置および方法、並びにプログラムにおいては、発話を対話者が正しく理解する確率を表す全体確信度関数に基づいて発話が生成される。
【0016】
【発明の実施の形態】
以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
【0017】
さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加されたりする発明の存在を否定するものではない。
【0018】
すなわち、本発明の情報処理装置(例えば、図3の言行決定装置1)は、発話を対話者が正しく理解する確率を表す全体確信度関数を学習によって推測する推測手段(例えば、図4の統合部38)と、全体確信度関数に基づき、対話者が正しく理解する確率を予測して、発話を生成する生成手段(例えば、発話信号生成部42)とを含むことを特徴とする。
【0019】
なお、本発明の情報処理方法の請求項に記載の構成要件と、プログラムの請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係は、上述した本発明の情報処理装置のものと同様であるので、その記載は省略する。
【0020】
本発明を適用した言行決定装置の概要について説明する。当該言行決定装置は、対話の相手となる人(以下、対話者と記述する)と、例えば、図1に示すように卓上に用意されている人形や箱等のオブジェクトを用いたコミュニケーションを行い(例えば、対話者が「カーミット(商標) 箱 載せる」と発話し、左端の人形を右端の箱の上に載せる動作を行い)、発話と動作にそれぞれ対応する音声信号と画像信号を入力として言語を漸増的に学習し、学習結果を用いて対話者の発言に対応して所定の動作を実行したり、対話者に対して動作を指示する発話を生成したりするものである。
【0021】
言行決定装置は、初期状態ではオブジェクトやその動かし方についての概念と、概念に対応する単語および文法等からなる言語信念を有していない。この言語信念は、図2に示すフローチャートに示すように段階的に生成される。すなわち、ステップS1として、対話者の発話および動作に基づいて受動的に学習される。次に、ステップS2として、発話および動作を用いた対話者とのインタラクションにより能動的に学習される。
【0022】
ここで、インタラクションとは、言行決定装置と対話者が相互に、一方が他方に対して動作を指示する発話を行い、この発話を他方が理解して指示された動作を行い、この他方の動作を一方が評価することを指す。
【0023】
次に、図3は、本発明を適用した言行決定装置の構成例を示している。この例において、この言行決定装置1は、この例においては、ロボットに組み込まれている。
【0024】
タッチセンサ11は、ロボットアーム17の所定の位置に取り付けられており、対話者がロボットアーム57を手で叩いたとき、叩かれたことを検知し、叩かれたことを表す検知信号を重み付け係数生成部12に出力する。重み付け係数生成部12は、タッチセンサ51の出力に基づいて、所定の重み付け係数を生成し、行動決定部15に出力する。
【0025】
音声入力部13は、例えば、マイクロホンなどにより構成され、対話者の発話内容を取得し、取得した音声信号を行動決定部15および生成発話決定部18に出力する。画像入力部14は、例えば、ビデオカメラにより構成され、ロボットの周囲の環境を撮像し、得られた画像信号を行動決定部15および生成発話決定部18に出力する。
【0026】
行動決定部15は、音声入力部13より入力された音声信号、画像入力部14より入力された画像に含まれるオブジェクトに関する情報、並びに重み付け係数生成部12より供給された重み付け係数を、決定関数に適用して行動を決定する。また、行動決定部15は、決定された行動に対応する制御信号を生成し、ロボットアーム駆動部16に出力する。ロボットアーム駆動部16は、行動決定部15より供給された制御信号に基づいて、ロボットアーム17を駆動する。
【0027】
生成発話決定部18は、音声入力部13より入力された音声信号、および画像入力部14より入力された画像に含まれるオブジェクトに関する情報を、決定関数と全体確信度関数に適用して発話を決定する。また、生成発話決定部18は、決定された発話に対応する発話信号を生成し、発話出力部19に出力する。
【0028】
発話出力部19は、生成発話決定部18より供給された発話信号を、対話者が認識できるように、対応する音声を出力したり、あるいは対応する文字列を表示したりする。
【0029】
次に、図4は、生成発話決定部18の構成例を示している。音声推測部31は、音声入力部13からの音声信号に基づいて、対話者の発話内容に基づく推測処理を実行し、推測結果に基づく信号を統合部38に出力する。
【0030】
オブジェクト推測部32は、画像入力部14より入力された画像信号に含まれるオブジェクトに基づいて推測処理を行い、得られた信号を統合部38に出力する。
【0031】
動作推測部33は、画像入力部14より入力された画像信号から動作を検出し、動作に基づく推測処理を行い、得られた推測結果の信号を統合部83に出力する。
【0032】
動作オブジェクト推測部34は、画像入力部14より入力された信号から動作を検出するとともに、オブジェクトを検出し、動作とオブジェクトの関係に基づいて、推測処理を行い、得られた推測結果の信号を統合部83に出力する。
【0033】
バッファメモリ35は、画像入力部14より入力された画像信号を蓄積する。コンテキスト生成部36は、バッファメモリ35に蓄積された過去分を含む画像データに基づいて、時間的な前後の関係を含む行動コンテキストを生成し、行動コンテキスト推測部37に出力する。
【0034】
行動コンテキスト推測部37は、コンテキスト生成部36より供給された行動コンテキストに基づいて推測処理を実行し、得られた推測結果に対応する信号を統合部83に出力する。
【0035】
統合部38は、音声推測部31乃至行動コンテキスト推測部37より供給された推測結果に所定の重み付け係数を乗算し、決定関数および全体確信度関数(いずれも詳細は後述する)に適用して、指示動作決定部39から供給される信号に対応する動作を対話者に対して指示するための発話を生成する。また、統合部38は、生成した発話に対応する信号を発話信号生成部42に出力する。
【0036】
指示動作決定部39は、対話者に指示する行動を決定し、決定した行動に対応する信号を統合部38および動作比較部40に出力する。
【0037】
動作比較部40は、画像入力部14より入力された信号から対話者の動作を検出し、指示動作決定部39からの信号に対応する動作と一致しているか否かを判断する。すなわち、指示動作決定部39によって決定された動作を、対話者が正確に理解して動作しているか否かを判断する。また、動作比較部40は、その判断結果を全体確信度関数更新部41に出力する。
【0038】
全体確信度関数更新部41は、動作比較部40から供給される判断結果に基づき、統合部38で生成された全体確信度関数を更新する。
【0039】
発話信号生成部42は、統合部38より供給された信号に基づいて発話信号を生成し、発話出力部19に出力する。
【0040】
次に、その動作の概略について説明する。
【0041】
指示動作決定部39は、対話者に指示する行動を決定し、決定した行動に対応する信号を統合部38および動作比較部40に出力する。動作比較部40は、画像入力部14より入力された信号から対話者の動作を検出し、指示動作決定部39からの信号に対応する動作と一致しているか否かを判断する。すなわち、指示動作決定部39によって決定された動作を、対話者が正確に理解して動作しているか否かを判断する。また、動作比較部40は、その判断結果を全体確信度関数更新部41に出力する。
【0042】
全体確信度関数更新部41は、動作比較部40から供給される判断結果に基づき、統合部38で生成された全体確信度関数を更新する。
【0043】
発話信号生成部42は、統合部38より供給された信号に基づいて発話信号を生成し、発話出力部19に出力する。
【0044】
発話出力部19は、発話信号生成部42より供給された発話信号に対応する発話信号に対応する音声を出力する。
【0045】
この発話に対応して対話者は、発話内容を理解し、対応する動作を実行する。画像入力部14は、ユーザの動作を撮影し、得られた画像を、オブジェクト推測部32、動作推測部33、動作オブジェクト推測部34、バッファメモリ35、および動作比較部40に出力する。
【0046】
動作比較部40は、画像入力部14より入力された信号から対話者の動作を検出し、指示動作決定部39からの信号に対応する動作と一致しているか否かを判断する。すなわち、指示動作決定部39によって決定された動作を、対話者が正確に理解して動作しているか否かを判断する。また、動作比較部40は、その判断結果を全体確信度関数更新部41に出力する。
【0047】
全体確信度関数更新部41は、動作比較部40から供給される判断結果に基づき、統合部38で生成されている全体確信度関数を更新する。
【0048】
統合部38は、音声推測部31乃至行動コンテキスト推測部37より供給された推測結果に基づく決定関数と、更新された全体確信度関数とに基づき、次に対話者に対して指示するための発話を生成し、生成した発話に対応する信号を発話信号生成部42に出力する。
【0049】
発話信号生成部42は、統合部38より供給された信号に基づいて発話信号を生成し、発話出力部19に出力する。
【0050】
以上のように、生成発話決定部18において、ロボットの発話に対する対話者の理解度に応じて適切に発話が生成されるような学習が行われる。
【0051】
さらに、このロボットに組み込まれている言行決定装置1の詳細について説明する。
【0052】
アルゴリズム概要
ロボットの言語獲得に関しては、音韻と語彙、関係の概念、文法、および語用のそれぞれの相互信念が4つのアルゴリズムにより別々に学習される。
【0053】
音韻と語彙、関係の概念、および文法の相互信念の学習では、対話者がロボットに対してオブジェクトを提示したり動かして見せたりすることによる共同知覚経験を基盤にして、対応付けられた音声情報と画像情報の統合確率度密度を推定することを基本原理とする。
【0054】
語用論的相互信念の学習では、ロボットと対話者が相互に、相手の発話に従って行動する共同行為を基盤として、対話者の発話をロボットが正しく理解する確率が最大となるようにすること、およびロボットが生成した発話を対話者が正しく理解できる確率が最大となるようにすることを基本原理とする。
【0055】
なお、アルゴリズムは、対話者が協力的に振る舞うことを前提としている。また、アルゴリズムの基本原理の追求を目的としているため、各相互信念はかなり単純なものである。全てのアルゴリズムを通して学習基準の一貫性がなるべく保たれるように考慮されているが、4つのアルゴリズムは個別に評価されており、全体としての統合は行われない。
【0056】
相互信念の学習
語彙Lと文法Gを学習すれば、ロボットは、結合確率密度関数p(s,a,O;L,G)の最大化を基準にしてある程度、発話を理解できるようになるが、より現状に依存した発話の理解と生成を可能とするために、対話者とのコミュニケーションを通して語用論的相互信念をオンラインで漸増的に学習する。
【0057】
ここで、相互信念を用いた発話の生成と理解とは、例えば、以下のようなものである。例えば、図1に示されたように、対話者が直前の動作として人形を左側に置いた後、ロボットに対して当該人形を箱の上に載せる指示を出す場合、「人形 箱 載せて」と発話しても良いが、仮に、「ロボットは直前に移動されたオブジェクトが次の動作対象になりやすいという信念を持っている」と対話者が想定していれば、動作の対象を省略して「箱 載せて」と断片的に発話する可能性がある。さらに、「ロボットは、箱にはオブジェクトが載せられやすいという信念を持っている」と対話者が想定していれば、単に「載せて」と発話する可能性がある。
【0058】
このような断片的な発話をロボットが理解するためには、ロボットが想定したような信念を持っていて、それらを対話者と共有しているものだと想定していなければならない。ロボットが発話を生成する場合も同様である。
【0059】
相互信念の表現
アルゴリズムにおいて相互信念は、発話と動作の対応の適切さを表す決定関数Ψと、決定関数Ψに対するロボットの確信度を表す全体確信度関数fによって表される。
【0060】
決定関数Ψは、重み付けられた信念の集合によって表されるものである。重みは、各信念が対話者とロボットに共有されていることに対するロボットの確信度を示す。
【0061】
全体確信度関数fは、ロボットの発話を対話者が正しく理解する確率の推定値を出力するものである。
【0062】
決定関数Ψ
アルゴリズムは、様々な信念を扱うことが可能であるが、音声、オブジェクト、動きの各々に関する信念(これらは語彙と文法によって表される)、および2つの非言語的信念を例として扱う。
【0063】
語彙
語彙の学習は、対話者が卓上にオブジェクトを置いたり指差したりしながら、そのオブジェクトを表す単語を発話するものとし、ロボットはこのときの音声とオブジェクトを関連づけることにより行われる。これを繰り返すことで得られる音声の特徴量sと、オブジェクト画像の特徴量oの対の集合データを学習データとする。
【0064】
語彙Lは、各語彙項目に対応した音声の確率密度関数(以下、pdfとも記述する)と、オブジェクト画像のpdfの対の集合p(s|c),p(o|c),(i=1,…,M)で表される。ここで、Mは、語彙項目の数であり、c,c,…,cは、語彙項目を表すインデックスである。
【0065】
語彙項目数M、および語彙を構成する全てのpdf(s|c),p(o|c)(i=1,…,M)を表すパラメータを学習することが目的となる。この問題の特徴は、2つの連続特徴量空間におけるクラスメンバーシップ関数の対の集合を、対の数が未知という条件で教師なし学習で求めることである。
【0066】
学習は以下のように行われる。各語彙項目に対して単語の音韻列が決められていても音声は発話毎に変動するが、通常、各発話におけるその変動は、その発話が示しているオブジェクトの特徴と反映しないので、次式(1)に示すようにおくことができる。
p(s,o|c)=p(s|c)p(o|c) …(1)
【0067】
よって、全体での音声とオブジェクト画像の結合pdfは、次式(2)に示すように表すことができる。
【数1】
Figure 2005003926
Figure 2005003926
【0068】
そこで、上記問題を、式(2)のp(s,o)に対して最適なモデルを選択して確率分布パラメータの値を推定する統計的学習問題と見なすことにする。
【0069】
なお、「語彙は正確な情報伝達が行われ、かつ、できるだけ少ない語彙項目数で構成されることが望ましい」との考えに基づき、語彙項目数Mを音声とオブジェクト画像の相互情報量を基準にして選択すれば、オブジェクトの色、形、大きさ、名称を意味する十数語程度を学習する実験で良好な結果が得られている。
【0070】
音韻のpdfを表す隠れマルコフモデル(HMM)の結合により単語音声のpdfを表すことにより、音韻pdfの集合も同時に学習することができ、また、動かされたオブジェクトの軌道を画像特徴量として使用することができる。
【0071】
関係概念の学習
言語の意味構造は、モノと他の2つ以上のモノの関係に分けることができる。上述した語彙の説明において、モノの概念は語彙項目が与えられたときのオブジェクト画像の条件付きpdfによって表された。ここで説明する関係概念には、最も際だつモノ(以下、トラジェクタと記述する)と、トラジェクタの基準点として働くモノ(以下、ランドマークと記述する)が関与する。
【0072】
例えば、図1に示されたように人形が移動された場合、移動された人形がトラジェクタであるが、中心の人形をランドマークと見なせば、「飛び越える」という動作として解釈され、右端の箱をランドマークと見なせば、「載る」という動作として解釈される。このような情景の集合を学習データとして用い、オブジェクトの動かし方に関する概念を、トラジェクタとランドマークの位置関係の変化のプロセスとして学習する。
【0073】
動きの概念は、語彙項目c、トラジェクタオブジェクトtの位置ot,p、およびランドマークオブジェクトlの位置ol,pが与えられたときの動きの軌道uの条件付きpdf p(u|ot,p,ol,p,c)によって表される。
【0074】
アルゴリズムは、情景の中でどれがランドマークとなるオブジェクトであるかという非観測情報を推定しながら、動きの概念の条件付きpdfを表す隠れマルコフモデルを学習する。同時に、動きの軌道を適切に記述する座標系の選択も行われる。例えば、「載る」の軌道は、ランドマークを原点、垂直と水平方向を軸とする座標系が選択され、「離れる」の軌道は、ランドマークを原点、トラジェクタとランドマークを結ぶ線を2軸のうちの一方とする座標系が選択される。
【0075】
文法
発話中の単語が表す外音の間の関係を表すためのための単語の並びの規則である文法の学習と運用においてh、上述した関係の概念が重要な役割を果たす。ロボットに文法を学習させる場合、対話者がオブジェクトを動かしながら、その動作を表す発話を行い、これを繰り返すことにより得られる、動作前の情景情報O、音声s、および動作a=(t,u)の組(s,a,O)の集合が学習データとして用いられる。
【0076】
ここで、情景情報Oは、情景の中の全てのオブジェクトの位置と画像特徴量の集合で表される。tは、各情景の中の各オブジェクトに対して一意の与えられるインデックスのうち、トラジェクタオブジェクタと示すものである。uは、トラジェクタの軌道である。
【0077】
情景Oと動作aは発話の意味構造zを推測するために用いられる。意味構造zは、トラジェクタとランドマークと軌道を構成要素とし、各要素に対する発話中の単語の対応付けによって表される。例えば、図1の例を説明する発話は「大きいカーミット(商標) 茶色 箱 載せて」となり、意味構造は以下のようになる。
トラジェクタ:大きい カーミット
ランドマーク:茶色 箱
軌道 :載せて
【0078】
文法Gは、発話におけるこれらの構成要素の出現順序の生起確率分布によって表され、音声sと動作aと情景Oの結合pdf p(s,a,O;L,G)の尤度が最大となるように学習される。対数結合pdf logp(s,a,O;L,G)は、語彙Lと文法Gのパラメータを用いて次式(3)のように表される。
【数2】
Figure 2005003926
Figure 2005003926
【0079】
ここで、W,W,Wは、意味構造zの中の軌道、トラジェクタ、ランドマークにそれぞれ対応する単語(列)であり、αは正規化項である。
【0080】
行動コンテキスト効果B(i,q;H)
行動コンテキスト効果B(i,q;H)は、行動コンテキストqの下で、オブジェクトiが発話による指示対象になるという信念を表す。qは各オブジェクトが直前の動作において、トラジェクタまたはランドマークとして関与したか否か、対話者によって指差される等によって注意が向けられているか否か等についての情報によって表される。この信念は、2つのパラメータH={h,h}によって表され、qに応じて対応する一方のパラメータの値、あるいは0を出力する。
【0081】
動きオブジェクト関係B2(ot,f,ol,f,W;R)
動きオブジェクト関係B2(ot,f,ol,f,W;R)は、オブジェクトの特徴量ot,f,ol,fが、それぞれ動きの概念Wにおけるトラジェクタとランドマークの特徴量として典型的なものであるという信念を表す。条件付き結合pdf p(ot,f,ol,f|W;R)によって表される。この共起pdfはガウス分布で表現され、Rはそのパラメータ集合を示す。
【0082】
決定関数Ψ
決定関数Ψは、次式(4)に示すように、上述した信念モデルの出力の重み付け和として表される。
【数3】
Figure 2005003926
Figure 2005003926
【0083】
ここで、Γ={γ,γ,γ,γ}は、各信念モデルの出力に対する重み付けパラメータの集合である。対話者の発話sに対応するロボットの行動aは、決定関数Ψの値が最大となるように決定される。
【0084】
全体確信度関数f
まず、情景Oと行動コンテキストqの下で、動作aを表す発話sの生成を決定する際の決定関数Ψの値のマージンdを次式(5)のように定義する。
【数4】
Figure 2005003926
Figure 2005003926
【0085】
なお、式(5)において、aはロボットが意図した動作であり、Aはロボットの発話を理解した対話者の動作である。
【0086】
全体確信度関数fは、次式(6)に示されるように、マージンdを入力とし、発話が正しく理解される確率を出力するものである。
【数5】
Figure 2005003926
Figure 2005003926
【0087】
ここで、λ,λは、全体確信度関数fを表すパラメータである。式(6)から明らかなように、マージンdが大きい場合、ロボットの発話がユーザに正しく理解される確率が高くなることがわかる。仮に、マージンdが小さくてもロボットの発話が高い確率でユーザに正しく理解されるならば、ロボットの想定する相互信念が、対話者の相互信念と良く一致していることを意味している。
【0088】
行動コンテキストqの下での情景Oにおいて、ユーザに動作aを指示する場合、ロボットは、次式(7)に示すように、全体確信度関数fの出力と、期待する正理解率ξ(例えば、0.75程度)との差ができるだけ小さくなるように、発話s ̄を生成する。
【数6】
Figure 2005003926
Figure 2005003926
【0089】
ロボットは、ロボットの発話が対話者によって正しく理解される確率が低い場合、より多くの単語を用いることにより、正しく理解される確率を高めることができる。反対に、正しく理解される確率が十分に高いと予想した場合、より単語数の少ない断片的な発話を行うことができる。
【0090】
全体確信度関数fの学習アルゴリズム
全体確信度関数fは、図5のフローチャートに示す処理が繰り返されることにより、オンラインで漸増的に学習される。
【0091】
ステップS11において、ロボットは、対話者に行わせようと意図する動作に対して、全体確信度関数fの出力と、期待する正理解率ξとの差ができるだけ小さくなるように発話s ̄を生成する。この発話に対応して対話者は、指示された動作を実行する。ステップS12において、ロボットは、入力される画像信号から、対話者の動作を解析し、ステップS13において、ロボットは、対話者の動作が、指示した意図どおりの動作であったか否かを判定する。ステップS14において、ロボットは、発話生成の際に生じたマージンdに基づき、全体確信度関数fを表すパラメータλ,λを更新する。この後、処理はステップS11に戻り、それ以降の処理が繰り返される。
【0092】
なお、ステップS11の処理において、ロボットは、単語の多い発話を生成することによって正しく理解される確率を高めることができる。また、所定の程度の確率で理解されればよいのであれば、最低限の単語数で発話を生成するようにすればよい。ここで、重要なことは、単語数を節約できるということではなく、断片的な発話が生成され、対話者に理解されることで相互信念の形成が促進されるということである。
【0093】
また、ステップS14の処理において、発話生成の際に生じたマージンdに対して、その発話が対話者に正しく理解されたか否かの情報が対応付けられて、学習データとされる。i番目のエピソード(ステップS11乃至S14の処理)が終了した時のパラメータλ,λは次式(8)に示すように更新される。
【数7】
Figure 2005003926
Figure 2005003926
【0094】
ここで、
【数8】
Figure 2005003926
であり、eは、対話者の発話理解が正しければ1とされ、誤りであるならば0とされる変数である。δは、学習速度を決定するための値である。
【0095】
全体確信度関数fの検証
全体確信度関数fの実験について説明する。
全体確信度関数fの初期形状は、対話者によって発話が理解されるように大きなマージンdを必要とするような状態、すなわち、相互信念の全体的な確信度が低い状態を表すものに設定した。発話生成に使われる、期待する正理解率ξは固定値0.75とした。ただし、期待する正理解率ξを固定しても、実際に得られる全体確信度関数fの出力は、期待する正理解率ξの近傍でばらついたものとなり、かつ、発話が正しくされることもされないこともあるので、fがf−1(ξ)の近傍の比較的広い範囲で良好に推定することができた。fの変化と、動作に関わる全てのオブジェクトを記述するために使用された単語数の変化の様子は図6および図7に示すとおりである。なお、図6は、学習過程における全体確信度関数fの変化を示しており、図7は、各発話でオブジェクトを記述するために用いられた単語数を示している。
【0096】
また、図6においては、全体確信度関数fの形状の変化がわかりやすいように、f−1(0.9),f−1(0.75),f−1(0.5)の3種類をプロットした。図6は、学習開始から、すぐに全体確信度関数fの出力は急速に0に近づいてゆき、使用される単語数が減少した。その後、15エピソード付近で単語数が減少し過ぎて正しく理解されないことが多くなってきたので、全体確信度関数fの傾きが小さくなってきており、一旦は相互信念に対する確信を弱めていることを示している。
【0097】
効果
語用論的信念の形成のアルゴリズムにおける行為の誤りと修復の意味について考察する。ロボットの発話理解過程における学習では、1回目では誤った動作を行って、かつ、2回目で正しい動作が行えたエピソードでは、相互信念のパラメータが比較的大きく更新される。また、ロボットの発話生成による学習では、期待する正理解率ξを0.75に固定した実験結果を示したが、期待する正理解率ξを0.95に固定した他の実験では、ほとんど全ての発話が正しく理解されたことから全体確信度関数fの推定を適切に行うことができなかった。
【0098】
発話理解と発話生成の両方のアルゴリズムにおいて、発話が時々間違えて理解されることが相互信念の形成を促進していることがわかる。相互信念を形成するためには、発話が意味を正しく伝達するだけでは不十分であり、そこに誤解されるリスクが付与されていなければならないのである。そのようなリスクを対話者とロボットで共有することが、発話が相互信念の情報を同時に送受信するという機能を支えているということができる。
【0099】
上述した一連の処理は、ハードウエアにより実行させることもできるが、ソフトウエアにより実行させることもできる。この場合、例えば、情報処理装置は、図8に示されるようなパーソナルコンピュータにより構成される。
【0100】
図8において、CPU(Central Processing Unit)101は、ROM(Read Only Memory)102に記憶されているプログラム、または記憶部108からRAM(Random Access Memory)103にロードされたプログラムに従って各種の処理を実行する。RAM103にはまた、CPU101が各種の処理を実行する上において必要なデータなども適宜記憶される。
【0101】
CPU101、ROM102、およびRAM103は、バス104を介して相互に接続されている。このバス104にはまた、入出力インタフェース105も接続されている。
【0102】
入出力インタフェース105には、キーボード、マウスなどよりなる入力部106、CRT(Cathode Ray Tube)、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部107、ハードディスクなどより構成される記憶部108、モデム、ターミナルアダプタなどより構成される通信部109が接続されている。通信部109は、インターネットを含むネットワークを介しての通信処理を行う。
【0103】
入出力インタフェース105にはまた、必要に応じてドライブ110が接続され、磁気ディスク111、光ディスク112、光磁気ディスク113、或いは半導体メモリ114などが適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部128にインストールされる。
【0104】
一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
【0105】
この記録媒体は、図8に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク111(フロッピディスクを含む)、光ディスク112(CD−ROM(Compact Disk−Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク113(MD(Mini−Disk)を含む)、もしくは半導体メモリ114などよりなるパッケージメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM102や、記憶部108に含まれるハードディスクなどで構成される。
【0106】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0107】
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
【0108】
【発明の効果】
以上のように、本発明によれば、人間と対話が可能な装置を実現することが可能となる。
【0109】
また、本発明によれば、人や状況の変化に応じて適応的に発話を生成することが可能となる。
【図面の簡単な説明】
【図1】ロボットと対話者のコミュニケーションを説明するための図です。
【図2】ロボットによる言語獲得処理の概要を説明するフローチャートである。
【図3】本発明を適用した言行決定装置の構成例を説明するフローチャートである。
【図4】図3の生成発話決定部の構成例を示すブロック図である。
【図5】全体確信度関数が学習される処理を説明するフローチャートである。
【図6】全体確信度関数の学習過程を説明する図である。
【図7】全体確信度関数の学習過程を説明する図である。
【図8】本発明を適用したパーソナルコンピュータの構成例を示すブロック図である。
【符号の説明】
1 言行決定装置, 13 音声入力部, 14 画像入力部, 18 生成発話決定部, 31 音声推測部, 32 オブジェクト推測部, 33 動作推測部, 34 動作オブジェクト推測部, 36 コンテキスト生成部, 37 行動コンテキスト推測部, 38 統合部, 39 指示動作決定部, 40 動作比較部, 41 全体確信度関数更新部, 42 発話信号生成部

Claims (5)

  1. 意図する意味を対話者に理解させるための発話を生成する情報処理装置において、
    前記発話を前記対話者が正しく理解する確率を表す全体確信度関数を学習によって推測する推測手段と、
    前記全体確信度関数に基づき、前記対話者が正しく理解する確率を予測して、前記発話を生成する生成手段と
    を含むことを特徴とする情報処理装置。
  2. 前記生成手段は、前記発話と前記発話から解釈可能な意味とを入力として前記発話と前記意味の対応の妥当性を表す決定関数にも基づき、前記発話を生成する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記全体確信度関数は、生成される候補となる前記発話と前記意図する意味を入力とする前記決定関数の出力と、生成される候補となる前記発話と前記意図する意味以外の意味を入力とする前記決定関数の出力の最大値との差を入力とする
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 意図する意味を対話者に理解させるための発話を生成する情報処理方法において、
    前記発話を前記対話者が正しく理解する確率を表す全体確信度関数を学習によって推測する推測ステップと、
    前記全体確信度関数に基づき、前記対話者が正しく理解する確率を予測して、前記発話を生成する生成ステップと
    を含むことを特徴とする情報処理方法。
  5. 意図する意味を対話者に理解させるための発話を生成するためのプログラムであって、
    前記発話を前記対話者が正しく理解する確率を表す全体確信度関数を学習によって推測する推測ステップと、
    前記全体確信度関数に基づき、前記対話者が正しく理解する確率を予測して、前記発話を生成する生成ステップと
    を含む処理をコンピュータに実行させることを特徴とするプログラム。
JP2003167109A 2003-06-11 2003-06-11 情報処理装置および方法、並びにプログラム Pending JP2005003926A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003167109A JP2005003926A (ja) 2003-06-11 2003-06-11 情報処理装置および方法、並びにプログラム
US10/860,747 US20050021334A1 (en) 2003-06-11 2004-06-03 Information-processing apparatus, information-processing method and information-processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003167109A JP2005003926A (ja) 2003-06-11 2003-06-11 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2005003926A true JP2005003926A (ja) 2005-01-06

Family

ID=34074228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003167109A Pending JP2005003926A (ja) 2003-06-11 2003-06-11 情報処理装置および方法、並びにプログラム

Country Status (2)

Country Link
US (1) US20050021334A1 (ja)
JP (1) JP2005003926A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018001403A (ja) * 2016-07-07 2018-01-11 深▲せん▼狗尾草智能科技有限公司Shenzhen Gowild Robotics Co.,Ltd. 音声と仮想動作を同期させる方法、システムとロボット本体
JP2018001404A (ja) * 2016-07-07 2018-01-11 深▲せん▼狗尾草智能科技有限公司Shenzhen Gowild Robotics Co.,Ltd. 音声と仮想動作を同期させる方法、システムとロボット本体
KR20190060637A (ko) * 2017-11-24 2019-06-03 한국전자통신연구원 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치 및 방법
US10777198B2 (en) 2017-11-24 2020-09-15 Electronics And Telecommunications Research Institute Apparatus for determining speech properties and motion properties of interactive robot and method thereof

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US7634409B2 (en) 2005-08-31 2009-12-15 Voicebox Technologies, Inc. Dynamic speech sharpening
AU2007297597B2 (en) * 2006-09-21 2013-02-21 Kyorin Pharmaceuticals Co., Ltd. Serine hydrolase inhibitors
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8589161B2 (en) * 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
WO2011059997A1 (en) 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003996A (zh) 2014-09-16 2017-08-01 声钰科技 语音商务
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
CN109478241B (zh) * 2016-05-13 2022-04-12 努门塔公司 执行推理的计算机实现的方法、存储介质及计算设备
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
JP2018054850A (ja) * 2016-09-28 2018-04-05 株式会社東芝 情報処理システム、情報処理装置、情報処理方法、及びプログラム
US11018885B2 (en) * 2018-04-19 2021-05-25 Sri International Summarization system
US10915570B2 (en) 2019-03-26 2021-02-09 Sri International Personalized meeting summaries

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043193B1 (en) * 2000-05-09 2006-05-09 Knowlagent, Inc. Versatile resource computer-based training system
WO2003032274A1 (en) * 2001-10-05 2003-04-17 Vision Works Llc A method and apparatus for periodically questioning a user using a computer system or other device to facilitate memorization and learning of information

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018001403A (ja) * 2016-07-07 2018-01-11 深▲せん▼狗尾草智能科技有限公司Shenzhen Gowild Robotics Co.,Ltd. 音声と仮想動作を同期させる方法、システムとロボット本体
JP2018001404A (ja) * 2016-07-07 2018-01-11 深▲せん▼狗尾草智能科技有限公司Shenzhen Gowild Robotics Co.,Ltd. 音声と仮想動作を同期させる方法、システムとロボット本体
KR20190060637A (ko) * 2017-11-24 2019-06-03 한국전자통신연구원 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치 및 방법
KR102147835B1 (ko) * 2017-11-24 2020-08-25 한국전자통신연구원 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치 및 방법
US10777198B2 (en) 2017-11-24 2020-09-15 Electronics And Telecommunications Research Institute Apparatus for determining speech properties and motion properties of interactive robot and method thereof

Also Published As

Publication number Publication date
US20050021334A1 (en) 2005-01-27

Similar Documents

Publication Publication Date Title
JP2005003926A (ja) 情報処理装置および方法、並びにプログラム
US10902845B2 (en) System and methods for adapting neural network acoustic models
US11538463B2 (en) Customizable speech recognition system
US8275615B2 (en) Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
JP5617083B2 (ja) コマンド認識装置、コマンド認識方法、及びコマンド認識ロボット
US8019602B2 (en) Automatic speech recognition learning using user corrections
US20190087734A1 (en) Information processing apparatus and information processing method
KR20180087942A (ko) 음성 인식 방법 및 장치
CN109903750B (zh) 一种语音识别方法及装置
CN114097026A (zh) 语音识别的上下文偏置
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
JP2006113570A (ja) 音声分類および音声認識のための隠れ条件付確率場モデル
US11961515B2 (en) Contrastive Siamese network for semi-supervised speech recognition
Granell et al. Multimodal crowdsourcing for transcribing handwritten documents
JP2001188779A (ja) 情報処理装置および方法、並びに記録媒体
Lecouteux et al. Distant speech recognition for home automation: Preliminary experimental results in a smart home
Ivanko Audio-visual Russian speech recognition
Tanaka et al. Pronunciation adaptive self speaking agent using wavegrad
Holzapfel et al. A robot learns to know people—first contacts of a robot
Yadava et al. An end-to-end continuous Kannada ASR system under uncontrolled environment
Sazhok et al. Automatic speech recognition for Ukrainian broadcast media transcribing
Vacher et al. On distant speech recognition for home automation
Bohouta Improving wake-up-word and general speech recognition systems
CN117275458B (zh) 智能客服的语音生成方法、装置、设备及存储介质
US20230206910A1 (en) Method and system for recognizing a user utterance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071218