JP4244423B2

JP4244423B2 - 適正単語列推定装置

Info

Publication number: JP4244423B2
Application number: JP02034999A
Authority: JP
Inventors: 美樹男笹木; 克志浅見
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 1999-01-28
Filing date: 1999-01-28
Publication date: 2009-03-25
Anticipated expiration: 2019-01-28
Also published as: JP2000221991A

Description

【０００１】
【発明の属する技術分野】
本発明は、例えば人間から発せられた音声を入力し、辞書データと比較して一致度合の高い複数の単語列候補を出力する認識装置から出力された複数の単語列候補に対して適正な単語列を推定するために用いられる適正単語列推定装置に関するものである。
【０００２】
【従来の技術】
従来より、例えば人間から発せられた音声を入力し、辞書データと比較して一致度合の高い複数の単語列候補を出力する認識装置が知られており、例えばその認識装置を用いて使用者の発話内容を認識し、認識結果に応じて機器を動作させる制御システムなどに適用されている。例えば、使用者が音声コマンドとして予め定められた言葉を発話すると、その言葉に対応した情報検索動作などを行う自動車用ナビゲーション装置などが実用化されている。
【０００３】
【発明が解決しようとする課題】
ところで、現状の音声認識には連続単語認識とワードスポッティングという２つの手法がある。前者の認識手法によれば、例えば「おかざき、○○○○○（店名）、らーめん」といった単語毎の認識が可能であるが、実際には誤認識を避けて通ることはできない。そのため、現行のナビゲーション装置などでは、認識結果として複数の候補を持ち、最初にその内の１つをトークバックしてユーザに確認を求めることがなされている。ユーザは自分が発話した内容と違っていれば、認識結果が違っている旨を装置に伝える。すると、装置側は別の認識結果を提示して再度ユーザの確認を求める。認識結果の候補を多数準備して次々に提示していけば、最終的にはユーザが意図した内容の認識結果となることは可能であるが、候補の中には、全く意味をなさない内容のものも含まれる可能性があり、上述した最終的に適切な候補に至るまでに長時間を要してしまうことも考えられる。
【０００４】
また、後者のワードスポッティング手法は、例えば「えーと、おかざきの○○○○○（店名）でらーめんくいたいなあ」という日常語的な音声入力から「おかざき、○○○○○（店名）、らーめん、くいたい」というキーワードを抽出できるという点で近年急速に注目されている音声認識技術である。しかしながら、当該手法の場合には、ラティスと呼ばれるその出力（時区間情報と確率情報を持った単語集合）から生成される単語列候補の数は非常に多く、意味を持つ小数の単語列に絞られることは稀である。また、当該手法における現在の認識語彙数は１００語程度であるが、将来的には１０００語以上に増大することが見込まれ、その結果として発生するラティスから生成される単語列は膨大な数に上ると考えられる。したがって、上述した連続単語列認識手法の場合で述べたのと同様（むしろ、より顕著な）の問題が存在する。
【０００５】
そして、こうした問題は、音声認識だけでなく、例えば筆記具で書いた文字をスキャナで読み取ったりするような文字認識や、撮影した画像から、その場面を示す単語列を認識するような場合でも、やはり同様に発生する。つまり、認識対象の動作内容が反映された情報を入力し、辞書データと比較して一致度合の高い複数の単語列候補を出力するような認識装置を考えた場合には、認識結果としての単語列候補中に不適切なものが含まれているため、同様の問題を招来するのである。
【０００６】
本発明は、こうした問題に鑑みなされたものであり、このような認識装置から出力された複数の単語列候補に対して、適正な単語列を推定することにより、一種のフィルタ処理を行う適正単語列推定装置を提供することを目的とする。
【０００７】
【課題を解決するための手段、及び発明の効果】
上記目的を達成するためになされた請求項１に記載の本発明の適正単語列推定装置は、認識装置から出力された複数の単語列候補に対して適正な単語列を推定する装置である。認識装置は、認識対象の動作内容が反映された情報を入力し、辞書データと比較して一致度合の高い複数の単語列候補を出力する。つまり、誤認識の可能性があるため、複数の単語列候補を出力することで、その中には適切なものが含まれるようにするのである。従来は、上述したように、認識装置による認識結果をユーザに報知して、ユーザに確認を求めることがなされていた。しかし、認識結果の単語列候補の中には、全く意味をなさない内容のものも含まれる可能性があり、ユーザの確認を経る場合であっても、最終的に適切なものに確定されるまでに長時間要してしまうことも考えられる。
【０００８】
そこで、本発明の適正単語列推定装置は、認識装置から出力された複数の単語列候補に対して、適正な単語列を推定するという一種のフィルタ処理を行うことで、例えば全く意味をなさない内容の候補については予め候補から脱落させて適切な候補のみに絞るのである。そして、その適正な単語列の推定のために、自然言語として統計的に適正か否かという観点から所定の検証を行う。
【０００９】
自然言語として統計的に適正であるものに絞れば、全く意味をなさない内容の候補については予め候補から脱落させることができる。したがって、例えば上述したように認識装置による認識結果をユーザに報知して確認を求める場合であっても、候補自体が絞られているため、最終的に適切なものに確定されるまでの時間を大幅に短縮することができる。
【００１０】
【００１１】
【００１２】
上記目的を達成するための本件発明を具体化したものとして請求項１に示す装置が挙げられる。つまり、単語数と属性を限定した単語列に対して考えられる全ての単語の順列に基づいて構成された参照単語列について、自然言語として統計的に適正である度合いに応じてスコアを付けた構文評価表を作成しておく。そして認識装置から出力される複数の単語列候補を構文評価表と照合して上位のスコアを獲得した所定数の単語列候補に絞ることによって、上述した「所定の検証」を行うようにするのである。このようにすれば、「統計的に適正」な度合いが数値化されるため、所定の検証が容易に行える。
【００１３】
以上説明したように、基本的には、認識装置による認識結果である複数の単語列候補のみに基づいて所定の検証を行うことが可能であるが、請求項２に示すように、さらに、以下の１）〜３）の少なくともいずれか１つを加味して所定の検証を行うようにしてもよい。つまり、１）認識対象の置かれている環境や状況、２）認識対象が人間である場合にはその者の要求や状態、３）対話システムに用いられている場合にはその対話における文脈情報、である。
【００１４】
１）に示すように、認識対象の置かれている環境や状況を加味すれば、その環境や状況においては物理的にあり得ない内容の単語列候補などを間引くことができる。例えば上述したカーナビゲーション装置に適用した場合であれば、装置を搭載した車両が高速道路を走行している場合に、「次の交差点を左折」という内容の指示がされることはあり得ないため、高速道路上を走行しているという環境（状況）に基づく検証によって、より適切な候補に絞ることができる。
【００１５】
また、２）に示すように、認識対象が人間である場合にはその者の要求や状態を加味すれば、その要求内容や状態においては常識的に考えられない内容の単語列候補などを間引くことができる。逆に、認識対象者の要求内容や状態にあった単語列候補を適切に推定することができる。例えば認識対象者のスケジュール情報が設定されている場合には、そのスケジュールから認識対象者の要求が推定できるので、その要求に合わないものは間引き、要求にあったものに絞ることができる。
【００１６】
また、３）に示すように、認識対象が人間であり、且つ対話システムに用いられている場合には、その対話における文脈情報を加味すれば、それまでの対話内容における文脈から考えて常識的に考えられない内容の単語列候補などを間引くことができる。例えば上述したカーナビゲーション装置に適用した場合であれば、例えば目的地を設定する際、まず「食事に行きたい」という要求がユーザからあった後、具体的な店名などを認識する際には、食事のできる場所ではない（到底考えられない）名称が指示されることはあり得ないため、「食事に行きたい」という要求内容に基づく検証によって、より適切な候補に絞ることができる。
【００１７】
ところで、認識装置に関しては、認識対象の動作内容が反映された情報を入力し、辞書データと比較して一致度合の高い複数の単語列候補を出力するものであるという説明をしたが、具体的には、例えば次に示すようなものが考えられる。まず、請求項３に示すように、認識対象者によって入力された音声を辞書データと比較し、一致度合の高い複数の単語列候補を出力する音声認識装置であることが考えられる。上述したナビゲーション装置における目的地などの指示を音声入力するシステムなどに実用化されており、適用対象としては一般的に考えられる。つまり、音声認識に際しては入力音声の音響的な特徴に基づくのであるが、人間が発する音声の音響的な特徴は個人差が大きく、また日常的には正確な発音をしない場合も多いので誤認識が発生し易い。したがって、そのような誤認識が含まれる可能性の高い音声認識装置による認識結果に対して、これまで説明したような適正な単語列を推定することは、非常に有効性が高いと考えられる。
【００１８】
また、例えば請求項４に示すように、認識対象者によって入力された手書き文字列を辞書データと比較し、一致度合の高い複数の単語列候補を出力する文字認識装置であってもよい。手書き文字に関しても、上述の音響的特徴と同様に個人差が大きく、また日常的には正確な書体にて文字を書かない場合も多いので、やはり誤認識が発生し易い。したがって、誤認識が含まれる可能性の高い文字認識装置による認識結果に対して適正な単語列を推定することは、非常に有効性が高い。なお、文字認識の形態については、種々考えられ、例えば筆記具で書いた文字をスキャナで読み取る場合の認識はもちろん、ＰＤＡ（携帯情報端末）などによく見られるように、入力ペンにて画面上をなぞるような文字入力方法の場合の認識であってもよい。
【００１９】
さらには、このような音声認識や文字認識のように、認識装置に入力される時点で直接的に単語列の内容となっているものに限らず、請求項５に示すような画像認識装置であってもよい。即ち、認識対象を捉えた画像を場面として認識した上で、場面を自然言語化するための辞書データと認識場面を比較し、一致度合いの高い複数の単語列候補を出力するような画像認識装置である。
【００２０】
その一具体例として、請求項６に示すような適用が考えられる、つまり、認識対象を人間とし、その認識対象者が手話をしている画像から手話パターンを認識し、その手話パターンが表す自然言語的な意味を示す単語列候補を出力するのである。この場合であれば、手話パターンと単語との対応パターンが確立されているので、そのパターンマッチングにより自然言語的な意味を示す単語列候補を出力することは容易に実現できる。但し、この場合の手話パターンについても、微妙な指使いによって表す単語が異なるため、手話をする者の個人差などによって、やはり誤認識は発生する。
【００２１】
したがって、やはりこの場合も、誤認識が含まれる可能性の高い手話パターンの認識装置による認識結果に対して適正な単語列を推定することは有効性が高いと言える。
なお、この画像認識装置における認識対象としては人間には限定されない。例えば道路上を撮像するようにしておき、その道路を走行する車両などを含めて、その場面を自然言語化するような場合であっても適用可能である。
【００２２】
これらいくつか例示したように、認識装置としては、認識対象の動作内容が反映された情報を入力し、辞書データと比較して一致度合の高い複数の単語列候補を出力するものであれば、誤認識の可能性があるため、本発明の適正単語列推定装置において単語列を推定する対象である単語列候補を出力する装置として適用対象となる。
【００２３】
なお、以上の説明からも判るように、本適正単語列推定装置は、認識装置からの出力に対してフィルタ処理を施すものである。そして、本適正単語列推定装置によって推定された（つまり絞られた）後の単語列候補の利用に関しては、例えば、そのままデータとして蓄積してもよいし、音声や表示などの態様で出力してもよいし、さらには何らかの制御に用いても良い。例えば、これまでに何度が例に出したカーナビゲーション装置であれば、ユーザが音声入力した指示内容をトークバックしたり、その指示内容に応じて所定の機器を動作させる、といったことである。
【００２４】
また、上述した適正単語列推定装置における適正単語列の推定処理をコンピュータシステムにて実現する機能は、例えば、コンピュータシステム側で起動するプログラムとして備えることができる。このようなプログラムの場合、例えば、フロッピーディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータシステムにロードして起動することにより用いることができる。この他、ＲＯＭやバックアップＲＡＭをコンピュータ読み取り可能な記録媒体として前記プログラムを記録しておき、このＲＯＭあるいはバックアップＲＡＭをコンピュータシステムに組み込んで用いても良い。
【００２５】
【発明の実施の形態】
以下、本発明の実施形態について、図面を用いて説明する。まず図１は、実施形態の適正単語列推定装置３を含む音声対話システムの概略構成を表すブロック図である。本システムにおいて適正単語列推定装置３は、入力音声に対して音声認識を行う音声認識装置１からの出力に対し、所定の処理を施して後段の対話制御装置５へ出力するものである。
【００２６】
音声認識装置１は、音声認識部１１と単語列生成部１２とを備えている。ある発話に相当する音声入力は音声認識部１１で処理され、認識語彙辞書に登録されている単語の集まりとして出力される。この時点では候補となる単語が同一時刻に複数個示される可能性がある。その後、単語列生成部１２では、音声認識部１１から出力された単語に基づいて、時区間的に重なりのない単語列を複数個生成し、適正単語列推定装置３へ出力する。
【００２７】
適正単語列推定装置３については後で詳述するが、簡単に言えば、音声認識装置１から（具体的には単語列生成部１２から）出力された複数の単語列候補に対して、自然言語として統計的に適正か否かという観点から所定の検証を行い、例えば１〜３個程度の適正な単語列を選択するという動作を行う。対話制御装置５は、テキストベースでの対話制御を行う対話制御部５１と、音声合成部５２と、機器制御部５３を備えており、適正単語列推定装置３から入力した単語列に基づいて、例えばその単語列を音声合成部５２を介して音声出力したり、あるいはその単語列に基づく内容となるように機器制御部５３に指示を出したりする。
【００２８】
これが音声対話システムの全体構成であるが、本発明の特徴でもある適正単語列推定装置３の詳しい構成について説明する。
図２に示すように、適正単語列推定装置３内においては、音声認識装置１内の単語列生成部１２から出力された単語列群を単語列候補記憶部３１に格納する。制御装置３２は、単語列候補記憶部３１から単語列及び関連情報を入力し、認識語彙を格納した単語辞書３３と予め作成しておいた構文評価表３４、さらにはユーザ要求・状態設定３５、環境・状況設定３６、文脈情報３７を基にして適正な単語列を３個程度選定する。制御装置３２において選定された単語列は対話制御装置５内の対話制御部５１へ出力される。
【００２９】
続いて、適正単語列推定装置３内の制御装置３２について、さらに図３を参照して説明する。図３は制御装置３２のブロック図であり、ここでは各ブロックＭ１〜Ｍ１０における処理内容の説明を中心に進める。
上述したように制御装置３２へは、単語列候補記憶部３１から単語列と関連情報が入力される。この関連情報とは、単語列に付随する識別情報（コマンド、地名、店名などの分類又は記憶領域の番地など）や尤度などである。この関連情報中の識別情報に基づき、単語辞書３３の選択（Ｍ１）を行う。
【００３０】
そして、その選択された単語辞書３３にて該当する単語を検索し、単語属性の獲得（Ｍ２）を行う。このＭ２での単語属性の獲得においては、アプリケーションに必要な付属情報（シナリオ分類（例えば駅名、レストラン、公園、デパートといった分類）、該当する場所、季節、時刻など）と単語属性（要求キーワード（食べたい、買いたい、など）、店名、場所、料理名など）を獲得する。
【００３１】
そしてこれら単語属性・付属情報に基づいて、シナリオ名の決定（Ｍ３）及び構文タイプの決定（Ｍ４）を行う。Ｍ４にて決定された構文タイプは、構文評価表３４の検索に用いられる。一方、Ｍ３にて決定されたシナリオは、構文評価表の選択と重み付け（Ｍ５）に用いられる。
【００３２】
このＭ５での構文評価表の選択と重み付けは、Ｍ３にて決定されたシナリオ名と、外部入力であるユーザ要求、状態設定３５、環境・状況設定３６及び文脈情報３７に基づいて行われる。この選択と重み付けに関しては、構文評価表３４の作成手法などとも併せて後述する。
【００３３】
この検索の結果、該当するシナリオと構文タイプに対応するスコアが獲得される。これらの一連のスコア獲得動作を各単語列について行い、一連の評価スコアの値と分布を計算した上で、ある一定以上のスコアであり且つ他の単語列のスコアとの有意差がある単語列を抽出する（Ｍ７）。
【００３４】
一方で入力された単語列に付随する各単語毎の尤度情報を基に単語列全体の尤度を計算する（Ｍ８）。
そして、Ｍ９での最終評価は、Ｍ７にて評価値分布に基づき抽出された単語列に対し、全体尤度がある閾値以上であるか否かという観点からの評価を行う。本例ではこの最終評価（Ｍ９）にて３個以内の出力すべき単語列を選択する。このようにして評価スコアと全体尤度を判定した結果として選ばれた出力単語列が格納バッファに格納され（Ｍ１０）、アプリケーション段階である対話制御装置５の対話制御部５１へ出力される。
【００３５】
なお、Ｍ７での評価スコアの分布計算による単語列の抽出に関しては、分布から明らかに評価値の高いものがあれば、それらを抽出すればよい。これは、構文評価が上手くいったことを示す。したがって、最終評価（Ｍ９）で確認的に全体尤度を参酌すればよい。ここで「確認的に参酌」としたのは次の理由からである。つまり、評価値は低いのに、全体尤度を参酌すると逆転してそちらの方が適正であると判断されてしまうのはよくない。したがって、構文評価が上手くいった場合には、その結果としての評価値を用いた判断を優先するため、予め評価値の分布から有意差のある単語列を抽出しておくことで、不適切なものを（つまり評価値が低い者）をここでカットすることができる。逆に、評価値がほとんど同じ様な分布になれば、構文評価が上手くいってないので、その場合は全体尤度にて判断せざるを得ない。
【００３６】
このような機能を持つ制御装置３２における動作内容を図４を参照して説明する。
まず、最初のステップ１０においては、ユーザ要求、状態設定３５及び環境・状況設定３６を指示する。このユーザ要求、状態設定３５及び環境・状況設定３６に関しては、本願出願人による特願平１０−１８４８４０号において詳細に説明した要求推定装置などを用いて設定することが考えられる。なお、この要求推定装置についてはここでは詳しくは説明しない。
【００３７】
次に、単語列候補記憶部３１から単語列と関連情報を入力し（Ｓ２０）、関連情報中の識別情報に基づいて単語辞書３３を選択する（Ｓ３０）。そして、単語列を構成する各単語の属性（料理名など）を決定し（Ｓ４０）、この複数の単語属性を基に対応シナリオをＬ個選出する（Ｓ５０）。このＳ３０〜Ｓ５０の処理を全ての単語を探索するまで行い（Ｓ６０）、すべての単語についての探索がなされた場合には（Ｓ６０：Ｙｅｓ）、各単語の属性の並び（例えば場所、店名、料理名、要求キーワードなど）を基に構文タイプを決定する（Ｓ７０）。
【００３８】
続いて、シナリオ名やユーザ要求、状態、環境、状況及び文脈情報などを基に構文評価表３４を選択し（Ｓ８０）、該当する構文タイプに対応する評価スコアを獲得する（Ｓ９０）。但し、ここで選択する構文評価表は１つとは限らない。以上のＳ３０〜Ｓ９０の処理を、候補となる単語列の全てについて行い（Ｓ１００）、単語列の評価スコアの分布を分析し、その分布を基にして偏差の高い単語列を選択する（Ｓ１１０）。
【００３９】
最後に、全体尤度を考慮して最終評価を行い（Ｓ１２０）、ある閾値以上の上位Ｋ個（本例では３個以内）を選択して出力する（Ｓ１３０）。
制御装置３２の構成とその動作についての基本的な内容を説明したが、制御装置３２内の構文評価表の選択と重み付け（Ｍ５）に関して、さらに説明する。
【００４０】
まず、選択対象の構文評価表３４に関して説明する。構文評価表３４は、予め各単語属性の並びを全ての順列について考え、実際の発話例をあてはめて主観的に評価することによって作成する。ここでは、レストランを検索するための発話を想定した具体例を図６〜図１０を参照して説明する。
【００４１】
レストラン検索であるため、例えば｛場所、店名、料理名、要求キーワード｝という４種類の単語属性を用いた４個以内の属性の並びを考える。４属性を全て用いた場合には、図６，７に示すように２４通りの並びが考えられる。また、４属性の内の３属性を用いた場合には、図８，９に示すように２４通りの並びが考えられる。さらに、４属性の内の２属性を用いた場合には、図１０（ａ）に示すように１２通り、４属性の内の１属性を用いた場合には、図１０（ｂ）に示すように４通りの並びが考えられる。したがって、合成６４通りの順列が考えられ、この各々を構文タイプと呼ぶ。
【００４２】
そして、この各構文タイプに対してシナリオ（ナビ、食事、デパート、公園、ゴルフ、など）毎に評価スコアを主観的評価に基づいて設定する。このようにして作成されたものが、図５に例示するような構文評価表３４となる。なお、図６〜図１０に示した具体例では、１０，７，４，１という４段階での評価スコアを設定した。また、評価スコア自体をユーザ自らが設定するようにしてもよいが、デフォルト値は製品に固定値として組み込んでおくこととする。但しその場合でも、使用地域や言語、あるいはユーザの個性などに応じて変更設定できるようにしておくことが好ましい。
【００４３】
続いて、構文評価表の選択と重み付けの際に参照するユーザ要求、状態設定３５、環境・状況設定３６及び文脈情報３７に関して説明する。
（１）ユーザ要求、状態を用いた動作
このユーザ要求、状態の設定は、上述した特願平１０−１８４８４０号において詳細に説明した要求推定装置などを用いて行うことが考えられる。
【００４４】
ユーザの現在の要求（例えば食事したい、ショッピングしたい、公園に行きたい、など）と状態（例えば空腹、疲労、元気、など）、及び所定の時刻に予測される要求・状態、さらにはスケジュール情報などを基にして構文評価表３４を選択する。上述したように構文評価表３４は複数個選択することができ、その場合は各選択に対して重み付けを行う。その様子を図５に示した。なお、最終的な評価スコアの出力は、荷重値×評価スコアで与えられることとなる。
【００４５】
（２）ユーザ環境・状況を用いた動作
このユーザ環境、状況も、上述の特願平１０−１８４８４０号にて説明した要求推定装置などを用いて行うことが考えられる。
ユーザの現在の環境や状況（例えば国、地域、現在地、季節、時間、天候、場所、渋滞状況、など）を基にして構文評価表３４を選択する。構文評価表３４を複数個選択できる点や各選択に対して重み付けを行う点、及び荷重値×評価スコアで最終的な評価スコアの出力が与えられる点については、上記（１）のユーザ要求、状態を用いた動作の場合と同様である。
【００４６】
（３）文脈情報を用いた動作
それまでの対話や文脈情報（例えば対話制御装置５（図１参照）のアプリケーションの種類や話題のシナリオなど）に基づき、制御装置３２内で選択した（つまり入力した単語列候補から推定した）シナリオが適正であるかどうかをシナリオ間の関連性や連続性という観点で判定する。必要に応じて数値表現してもよい。例えば対話制御装置５からユーザへ「和食と中華料理のどちらを選びますか」という問いかけがなされた場合、ユーザはその問いかけに対する答えとして、例えば「中華料理」というように発話することが期待される。したがって、この場合には料理を全く関係がない内容の発話がされた場合には、シナリオ間の関連性や連続性がなく、シナリオは適正でないという判断となる。
【００４７】
なお、図５にも例示したが、ユーザ情報として、名前、年齢、国籍、住所、家族構成、趣味などのパーソナルデータも設定しておき、構文評価表の選択と重み付けに用いても良い。
以上、本実施形態の音声対話システムの内容を説明したが、より理解を容易にするため、具体的な対話例を取り上げて動作内容について説明する。図１１にはその概要を示した。
【００４８】
ここでは、ユーザが「おかざきの○○○○○（店名）でらーめんくいたい」と発話した場合を想定する。そして、図１の音声認識装置１においては音声認識部１１と単語列生成部１２によって、以下１）〜７）に示す単語列が生成されたとする。
【００４９】
１）おかざき ○○○○○ らーめんくいたい
２）おかざき ○○○○○ れーめんくいたい
３）おかざき ○○○○○ そーめんくいたい
４）おかやまおむらいすらーめんくいたい
５）かくだいしゅくしょうらーめんくいたい
６）おかざき ○○○○○ らーめんいんたーちぇんじ
７）いせざきちょうどらいぶしたい
これらの例の内で、１）〜３）はシナリオが食事・レストランであることが限定できるため、意味的にも構文的にも非常に高い評価スコアを得る。つまり「統計的に適正」である。これに対して、４）は構文タイプを考えた場合、料理名が２つ続くことがあまりないと判定されれば評価スコアは低くなる。
【００５０】
さらに、外部入力の情報として現在地が愛知県内であることが判れば、地名としての「おかやま」はこれから食事に行くにしては遠すぎるため、尤度は低くなる（環境による評価）。その結果、除去される。
また、５）はナビゲーションに関するコマンドである「かくだい」と食事要求「くいたい」が混在しているので、構文上あり得ない組み合わせであるとして除去される。６）も５）と同様に、ナビゲーションに関するコマンドである「かくだい」及び「しゅくしょう」と食事要求「くいたい」が混在しているので除去される。
【００５１】
一方、７）は、構文としては適正であるが、「いせざきちょう」という地名が愛知県内（あるいはその近隣）になければ尤度は低くなる。また、予め目的地が設定されているのであれば、構文評価表３４やシナリオの選択において「ドライブ」の荷重値は下げられる。
【００５２】
以上の点を考え、さらに３個までの単語列を出力するという観点からすれば、１）〜３）の単語列が最終評価（図３のＭ９参照）からの出力となる。したがって、例えば１）の内容をトークバックすれば、ユーザの意図する内容となっているのでユーザが確認動作をし、確定することとなる。この場合、例えば２）→３）→１）の順番でトークバックするとしても、ユーザが２回否定すれば、３回目には意図した内容がトークバックされる。これが上述した１）〜７）までの単語列候補のままであれば、最悪７回目にしか意図した内容がトークバックされないので、使い勝手が低減する。この点でユーザの利便向上に寄与することとなる。
【００５３】
つまり、本実施形態のシステムに用いた適正単語列推定装置３は、音声認識装置１から出力された複数の単語列候補に対し、自然言語として統計的に適正か否かという観点から所定の検証を行うことで適正な単語列を推定するという一種のフィルタ処理を行っている。これにより、例えば全く意味をなさない内容の候補については予め候補から脱落させて適切な候補のみに絞ることができる。
【００５４】
なお、例えば「食事場所としての「○○○○○」における代表的な料理は「らーめん」や「ぎょうざ」などの中華料理である」という知識があれば、１）の優先度が高くなり、最初に発話されることとなる。また、さらに「現在の季節（冬）を考えると、夏向けのメニューである「れーめん」は扱っていないと考えるので常識的である」という知識や、「食事場所としての「○○○○○」では「そーめん」は扱っていない」という知識があれば、２）及び３）をも排除して１）だけを残すことも可能である。これらの知識は、意味ネットワークとして単語辞書３３の付属情報に盛り込むか、後段の対話制御装置５を介したデータベース検索を実行することによって得られる。これらの知識がないとしても、「岡崎の○○○○○に行きますか？」というトークバックによって、ユーザの意図確認はできる。
【００５５】
以上、本発明の一実施形態について説明したが、本発明は、上記実施形態に限定されるものではなく、種々の形態を採り得ることは言うまでもない。
例えば、上記実施形態のシステムにおいては、適正単語列推定装置３が、音声認識装置１から出力される単語列候補に対して適正な単語列の推定を行うものとして実現したが、音声認識装置１以外の認識装置であっても同様に実現できる。例えば、認識対象者によって入力された手書き文字列を辞書データと比較し、一致度合の高い複数の単語列候補を出力する文字認識装置であってもよい。手書き文字に関してもやはり誤認識が発生し易いため、適正な単語列を推定することは有効性が高い。
【００５６】
また、音声認識や文字認識のように、認識装置に入力される時点で直接的に単語列の内容となっているものに限らず、画像認識装置であってもよい。即ち、認識対象を捉えた画像を場面として認識した上で、場面を自然言語化するような認識装置であれば実現できる。具体的には、例えば認識対象者が手話をしている画像から手話パターンを認識し、その手話パターンが表す自然言語的な意味を示す単語列候補を出力するようなものである。手話パターンについても、微妙な指使いによって表す単語が異なるため、手話をする者の個人差などによって、やはり誤認識は発生する。したがって、やはりこの場合も、誤認識が含まれる可能性の高い手話パターンの認識装置による認識結果に対して適正な単語列を推定することは有効性が高い。
【図面の簡単な説明】
【図１】実施形態の適正単語列推定装置を含む音声対話システムの概略構成を表すブロック図である。
【図２】実施形態の適正単語列推定装置の構成を表すブロック図である。
【図３】実施形態の適正単語列推定装置内の制御装置の機能ブロック図である。
【図４】実施形態の適正単語列推定装置内の制御装置における動作内容を表すフローチャートである。
【図５】構文評価表の概略及びその選択と重み付けの概要を表す説明図である。
【図６】レストラン検索における構文形態（４語の場合）の具体例を示す説明図である。
【図７】レストラン検索における構文形態（４語の場合）の具体例を示す説明図である。
【図８】レストラン検索における構文形態（３語の場合）の具体例を示す説明図である。
【図９】レストラン検索における構文形態（３語の場合）の具体例を示す説明図である。
【図１０】（ａ）はレストラン検索における構文形態（２語の場合）の具体例を示す説明図、（ｂ）はレストラン検索における構文形態（１語の場合）の具体例を示す説明図である。
【図１１】実施形態の音声対話システムにおける具体的な対話例での適正単語列推定装置の動作内容を示す説明図である。
【符号の説明】
１…音声認識装置３…適正単語列推定装置
５…対話制御装置１１…音声認識部
１２…単語列生成部３１…単語列候補記憶部
３２…制御装置３３…単語辞書
３４…構文評価表３５…ユーザ要求・状態設定
３６…環境・状況設定３７…文脈情報
５１…対話制御部５２…音声合成部
５３…機器制御部

Claims

認識対象の動作内容が反映された情報を入力し、辞書データと比較して一致度合の高い複数の単語列候補を出力する認識装置から出力された複数の単語列候補に対して適正な単語列を推定する適正単語列推定装置であって、
単語数と属性を限定した単語列に対して考えられる全ての単語の順列に基づいて構成された参照単語列について、自然言語として統計的に適正である度合いに応じてスコアが付けられた構文評価表に基づき、前記認識装置から出力される複数の単語列候補を前記構文評価表と照合して上位のスコアを獲得した所定数の単語列候補に絞ること、を特徴とする適正単語列推定装置。
請求項１記載の適正単語列推定装置において、
以下の１）〜３）の少なくともいずれか１つを加味すること、を特徴とする適正単語列推定装置。
１）前記認識対象の置かれている環境や状況
２）前記認識対象が人間である場合にはその者の要求や状態
３）対話システムに用いられている場合にはその対話における文脈情報
請求項１又は２記載の適正単語列推定装置において、
前記認識対象は人間であり、前記認識装置は、その認識対象者によって入力された音声を辞書データと比較し、一致度合の高い複数の単語列候補を出力する音声認識装置であること、を特徴とする適切単語列推定装置。
請求項１又は２記載の適正単語列推定装置において、
前記認識対象は人間であり、前記認識装置は、その認識対象者によって入力された手書き文字列を辞書データと比較し、一致度合の高い複数の単語列候補を出力する文字認識装置であること、を特徴とする適切単語列推定装置。
請求項１又は２記載の適正単語列推定装置において、
前記認識装置は、前記認識対象を捉えた画像を場面として認識した上で、場面を自然言語化するための辞書データと前記認識場面を比較し、一致度合いの高い複数の単語列候補を出力する画像認識装置であること、を特徴とする適切単語列推定装置。
請求項５記載の適正単語列推定装置において、
前記認識対象は人間であり、前記画像認識装置は、その認識対象者が手話をしている画像から手話パターンを認識し、その手話パターンが表す自然言語的な意味を示す単語列候補を出力するものであること、を特徴とする適切単語列推定装置。