JP4244423B2 - 適正単語列推定装置 - Google Patents
適正単語列推定装置 Download PDFInfo
- Publication number
- JP4244423B2 JP4244423B2 JP02034999A JP2034999A JP4244423B2 JP 4244423 B2 JP4244423 B2 JP 4244423B2 JP 02034999 A JP02034999 A JP 02034999A JP 2034999 A JP2034999 A JP 2034999A JP 4244423 B2 JP4244423 B2 JP 4244423B2
- Authority
- JP
- Japan
- Prior art keywords
- word string
- recognition
- appropriate
- estimation device
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、例えば人間から発せられた音声を入力し、辞書データと比較して一致度合の高い複数の単語列候補を出力する認識装置から出力された複数の単語列候補に対して適正な単語列を推定するために用いられる適正単語列推定装置に関するものである。
【0002】
【従来の技術】
従来より、例えば人間から発せられた音声を入力し、辞書データと比較して一致度合の高い複数の単語列候補を出力する認識装置が知られており、例えばその認識装置を用いて使用者の発話内容を認識し、認識結果に応じて機器を動作させる制御システムなどに適用されている。例えば、使用者が音声コマンドとして予め定められた言葉を発話すると、その言葉に対応した情報検索動作などを行う自動車用ナビゲーション装置などが実用化されている。
【0003】
【発明が解決しようとする課題】
ところで、現状の音声認識には連続単語認識とワードスポッティングという2つの手法がある。前者の認識手法によれば、例えば「おかざき、○○○○○(店名)、らーめん」といった単語毎の認識が可能であるが、実際には誤認識を避けて通ることはできない。そのため、現行のナビゲーション装置などでは、認識結果として複数の候補を持ち、最初にその内の1つをトークバックしてユーザに確認を求めることがなされている。ユーザは自分が発話した内容と違っていれば、認識結果が違っている旨を装置に伝える。すると、装置側は別の認識結果を提示して再度ユーザの確認を求める。認識結果の候補を多数準備して次々に提示していけば、最終的にはユーザが意図した内容の認識結果となることは可能であるが、候補の中には、全く意味をなさない内容のものも含まれる可能性があり、上述した最終的に適切な候補に至るまでに長時間を要してしまうことも考えられる。
【0004】
また、後者のワードスポッティング手法は、例えば「えーと、おかざきの○○○○○(店名)でらーめんくいたいなあ」という日常語的な音声入力から「おかざき、○○○○○(店名)、らーめん、くいたい」というキーワードを抽出できるという点で近年急速に注目されている音声認識技術である。しかしながら、当該手法の場合には、ラティスと呼ばれるその出力(時区間情報と確率情報を持った単語集合)から生成される単語列候補の数は非常に多く、意味を持つ小数の単語列に絞られることは稀である。また、当該手法における現在の認識語彙数は100語程度であるが、将来的には1000語以上に増大することが見込まれ、その結果として発生するラティスから生成される単語列は膨大な数に上ると考えられる。したがって、上述した連続単語列認識手法の場合で述べたのと同様(むしろ、より顕著な)の問題が存在する。
【0005】
そして、こうした問題は、音声認識だけでなく、例えば筆記具で書いた文字をスキャナで読み取ったりするような文字認識や、撮影した画像から、その場面を示す単語列を認識するような場合でも、やはり同様に発生する。つまり、認識対象の動作内容が反映された情報を入力し、辞書データと比較して一致度合の高い複数の単語列候補を出力するような認識装置を考えた場合には、認識結果としての単語列候補中に不適切なものが含まれているため、同様の問題を招来するのである。
【0006】
本発明は、こうした問題に鑑みなされたものであり、このような認識装置から出力された複数の単語列候補に対して、適正な単語列を推定することにより、一種のフィルタ処理を行う適正単語列推定装置を提供することを目的とする。
【0007】
【課題を解決するための手段、及び発明の効果】
上記目的を達成するためになされた請求項1に記載の本発明の適正単語列推定装置は、認識装置から出力された複数の単語列候補に対して適正な単語列を推定する装置である。認識装置は、認識対象の動作内容が反映された情報を入力し、辞書データと比較して一致度合の高い複数の単語列候補を出力する。つまり、誤認識の可能性があるため、複数の単語列候補を出力することで、その中には適切なものが含まれるようにするのである。従来は、上述したように、認識装置による認識結果をユーザに報知して、ユーザに確認を求めることがなされていた。しかし、認識結果の単語列候補の中には、全く意味をなさない内容のものも含まれる可能性があり、ユーザの確認を経る場合であっても、最終的に適切なものに確定されるまでに長時間要してしまうことも考えられる。
【0008】
そこで、本発明の適正単語列推定装置は、認識装置から出力された複数の単語列候補に対して、適正な単語列を推定するという一種のフィルタ処理を行うことで、例えば全く意味をなさない内容の候補については予め候補から脱落させて適切な候補のみに絞るのである。そして、その適正な単語列の推定のために、自然言語として統計的に適正か否かという観点から所定の検証を行う。
【0009】
自然言語として統計的に適正であるものに絞れば、全く意味をなさない内容の候補については予め候補から脱落させることができる。したがって、例えば上述したように認識装置による認識結果をユーザに報知して確認を求める場合であっても、候補自体が絞られているため、最終的に適切なものに確定されるまでの時間を大幅に短縮することができる。
【0010】
【0011】
【0012】
上記目的を達成するための本件発明を具体化したものとして請求項1に示す装置が挙げられる。つまり、単語数と属性を限定した単語列に対して考えられる全ての単語の順列に基づいて構成された参照単語列について、自然言語として統計的に適正である度合いに応じてスコアを付けた構文評価表を作成しておく。そして認識装置から出力される複数の単語列候補を構文評価表と照合して上位のスコアを獲得した所定数の単語列候補に絞ることによって、上述した「所定の検証」を行うようにするのである。このようにすれば、「統計的に適正」な度合いが数値化されるため、所定の検証が容易に行える。
【0013】
以上説明したように、基本的には、認識装置による認識結果である複数の単語列候補のみに基づいて所定の検証を行うことが可能であるが、請求項2に示すように、さらに、以下の1)〜3)の少なくともいずれか1つを加味して所定の検証を行うようにしてもよい。つまり、1)認識対象の置かれている環境や状況、2)認識対象が人間である場合にはその者の要求や状態、3)対話システムに用いられている場合にはその対話における文脈情報、である。
【0014】
1)に示すように、認識対象の置かれている環境や状況を加味すれば、その環境や状況においては物理的にあり得ない内容の単語列候補などを間引くことができる。例えば上述したカーナビゲーション装置に適用した場合であれば、装置を搭載した車両が高速道路を走行している場合に、「次の交差点を左折」という内容の指示がされることはあり得ないため、高速道路上を走行しているという環境(状況)に基づく検証によって、より適切な候補に絞ることができる。
【0015】
また、2)に示すように、認識対象が人間である場合にはその者の要求や状態を加味すれば、その要求内容や状態においては常識的に考えられない内容の単語列候補などを間引くことができる。逆に、認識対象者の要求内容や状態にあった単語列候補を適切に推定することができる。例えば認識対象者のスケジュール情報が設定されている場合には、そのスケジュールから認識対象者の要求が推定できるので、その要求に合わないものは間引き、要求にあったものに絞ることができる。
【0016】
また、3)に示すように、認識対象が人間であり、且つ対話システムに用いられている場合には、その対話における文脈情報を加味すれば、それまでの対話内容における文脈から考えて常識的に考えられない内容の単語列候補などを間引くことができる。例えば上述したカーナビゲーション装置に適用した場合であれば、例えば目的地を設定する際、まず「食事に行きたい」という要求がユーザからあった後、具体的な店名などを認識する際には、食事のできる場所ではない(到底考えられない)名称が指示されることはあり得ないため、「食事に行きたい」という要求内容に基づく検証によって、より適切な候補に絞ることができる。
【0017】
ところで、認識装置に関しては、認識対象の動作内容が反映された情報を入力し、辞書データと比較して一致度合の高い複数の単語列候補を出力するものであるという説明をしたが、具体的には、例えば次に示すようなものが考えられる。まず、請求項3に示すように、認識対象者によって入力された音声を辞書データと比較し、一致度合の高い複数の単語列候補を出力する音声認識装置であることが考えられる。上述したナビゲーション装置における目的地などの指示を音声入力するシステムなどに実用化されており、適用対象としては一般的に考えられる。つまり、音声認識に際しては入力音声の音響的な特徴に基づくのであるが、人間が発する音声の音響的な特徴は個人差が大きく、また日常的には正確な発音をしない場合も多いので誤認識が発生し易い。したがって、そのような誤認識が含まれる可能性の高い音声認識装置による認識結果に対して、これまで説明したような適正な単語列を推定することは、非常に有効性が高いと考えられる。
【0018】
また、例えば請求項4に示すように、認識対象者によって入力された手書き文字列を辞書データと比較し、一致度合の高い複数の単語列候補を出力する文字認識装置であってもよい。手書き文字に関しても、上述の音響的特徴と同様に個人差が大きく、また日常的には正確な書体にて文字を書かない場合も多いので、やはり誤認識が発生し易い。したがって、誤認識が含まれる可能性の高い文字認識装置による認識結果に対して適正な単語列を推定することは、非常に有効性が高い。なお、文字認識の形態については、種々考えられ、例えば筆記具で書いた文字をスキャナで読み取る場合の認識はもちろん、PDA(携帯情報端末)などによく見られるように、入力ペンにて画面上をなぞるような文字入力方法の場合の認識であってもよい。
【0019】
さらには、このような音声認識や文字認識のように、認識装置に入力される時点で直接的に単語列の内容となっているものに限らず、請求項5に示すような画像認識装置であってもよい。即ち、認識対象を捉えた画像を場面として認識した上で、場面を自然言語化するための辞書データと認識場面を比較し、一致度合いの高い複数の単語列候補を出力するような画像認識装置である。
【0020】
その一具体例として、請求項6に示すような適用が考えられる、つまり、認識対象を人間とし、その認識対象者が手話をしている画像から手話パターンを認識し、その手話パターンが表す自然言語的な意味を示す単語列候補を出力するのである。この場合であれば、手話パターンと単語との対応パターンが確立されているので、そのパターンマッチングにより自然言語的な意味を示す単語列候補を出力することは容易に実現できる。但し、この場合の手話パターンについても、微妙な指使いによって表す単語が異なるため、手話をする者の個人差などによって、やはり誤認識は発生する。
【0021】
したがって、やはりこの場合も、誤認識が含まれる可能性の高い手話パターンの認識装置による認識結果に対して適正な単語列を推定することは有効性が高いと言える。
なお、この画像認識装置における認識対象としては人間には限定されない。例えば道路上を撮像するようにしておき、その道路を走行する車両などを含めて、その場面を自然言語化するような場合であっても適用可能である。
【0022】
これらいくつか例示したように、認識装置としては、認識対象の動作内容が反映された情報を入力し、辞書データと比較して一致度合の高い複数の単語列候補を出力するものであれば、誤認識の可能性があるため、本発明の適正単語列推定装置において単語列を推定する対象である単語列候補を出力する装置として適用対象となる。
【0023】
なお、以上の説明からも判るように、本適正単語列推定装置は、認識装置からの出力に対してフィルタ処理を施すものである。そして、本適正単語列推定装置によって推定された(つまり絞られた)後の単語列候補の利用に関しては、例えば、そのままデータとして蓄積してもよいし、音声や表示などの態様で出力してもよいし、さらには何らかの制御に用いても良い。例えば、これまでに何度が例に出したカーナビゲーション装置であれば、ユーザが音声入力した指示内容をトークバックしたり、その指示内容に応じて所定の機器を動作させる、といったことである。
【0024】
また、上述した適正単語列推定装置における適正単語列の推定処理をコンピュータシステムにて実現する機能は、例えば、コンピュータシステム側で起動するプログラムとして備えることができる。このようなプログラムの場合、例えば、フロッピーディスク、光磁気ディスク、CD−ROM、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータシステムにロードして起動することにより用いることができる。この他、ROMやバックアップRAMをコンピュータ読み取り可能な記録媒体として前記プログラムを記録しておき、このROMあるいはバックアップRAMをコンピュータシステムに組み込んで用いても良い。
【0025】
【発明の実施の形態】
以下、本発明の実施形態について、図面を用いて説明する。まず図1は、実施形態の適正単語列推定装置3を含む音声対話システムの概略構成を表すブロック図である。本システムにおいて適正単語列推定装置3は、入力音声に対して音声認識を行う音声認識装置1からの出力に対し、所定の処理を施して後段の対話制御装置5へ出力するものである。
【0026】
音声認識装置1は、音声認識部11と単語列生成部12とを備えている。ある発話に相当する音声入力は音声認識部11で処理され、認識語彙辞書に登録されている単語の集まりとして出力される。この時点では候補となる単語が同一時刻に複数個示される可能性がある。その後、単語列生成部12では、音声認識部11から出力された単語に基づいて、時区間的に重なりのない単語列を複数個生成し、適正単語列推定装置3へ出力する。
【0027】
適正単語列推定装置3については後で詳述するが、簡単に言えば、音声認識装置1から(具体的には単語列生成部12から)出力された複数の単語列候補に対して、自然言語として統計的に適正か否かという観点から所定の検証を行い、例えば1〜3個程度の適正な単語列を選択するという動作を行う。対話制御装置5は、テキストベースでの対話制御を行う対話制御部51と、音声合成部52と、機器制御部53を備えており、適正単語列推定装置3から入力した単語列に基づいて、例えばその単語列を音声合成部52を介して音声出力したり、あるいはその単語列に基づく内容となるように機器制御部53に指示を出したりする。
【0028】
これが音声対話システムの全体構成であるが、本発明の特徴でもある適正単語列推定装置3の詳しい構成について説明する。
図2に示すように、適正単語列推定装置3内においては、音声認識装置1内の単語列生成部12から出力された単語列群を単語列候補記憶部31に格納する。制御装置32は、単語列候補記憶部31から単語列及び関連情報を入力し、認識語彙を格納した単語辞書33と予め作成しておいた構文評価表34、さらにはユーザ要求・状態設定35、環境・状況設定36、文脈情報37を基にして適正な単語列を3個程度選定する。制御装置32において選定された単語列は対話制御装置5内の対話制御部51へ出力される。
【0029】
続いて、適正単語列推定装置3内の制御装置32について、さらに図3を参照して説明する。図3は制御装置32のブロック図であり、ここでは各ブロックM1〜M10における処理内容の説明を中心に進める。
上述したように制御装置32へは、単語列候補記憶部31から単語列と関連情報が入力される。この関連情報とは、単語列に付随する識別情報(コマンド、地名、店名などの分類又は記憶領域の番地など)や尤度などである。この関連情報中の識別情報に基づき、単語辞書33の選択(M1)を行う。
【0030】
そして、その選択された単語辞書33にて該当する単語を検索し、単語属性の獲得(M2)を行う。このM2での単語属性の獲得においては、アプリケーションに必要な付属情報(シナリオ分類(例えば駅名、レストラン、公園、デパートといった分類)、該当する場所、季節、時刻など)と単語属性(要求キーワード(食べたい、買いたい、など)、店名、場所、料理名など)を獲得する。
【0031】
そしてこれら単語属性・付属情報に基づいて、シナリオ名の決定(M3)及び構文タイプの決定(M4)を行う。M4にて決定された構文タイプは、構文評価表34の検索に用いられる。一方、M3にて決定されたシナリオは、構文評価表の選択と重み付け(M5)に用いられる。
【0032】
このM5での構文評価表の選択と重み付けは、M3にて決定されたシナリオ名と、外部入力であるユーザ要求、状態設定35、環境・状況設定36及び文脈情報37に基づいて行われる。この選択と重み付けに関しては、構文評価表34の作成手法などとも併せて後述する。
【0033】
この検索の結果、該当するシナリオと構文タイプに対応するスコアが獲得される。これらの一連のスコア獲得動作を各単語列について行い、一連の評価スコアの値と分布を計算した上で、ある一定以上のスコアであり且つ他の単語列のスコアとの有意差がある単語列を抽出する(M7)。
【0034】
一方で入力された単語列に付随する各単語毎の尤度情報を基に単語列全体の尤度を計算する(M8)。
そして、M9での最終評価は、M7にて評価値分布に基づき抽出された単語列に対し、全体尤度がある閾値以上であるか否かという観点からの評価を行う。本例ではこの最終評価(M9)にて3個以内の出力すべき単語列を選択する。このようにして評価スコアと全体尤度を判定した結果として選ばれた出力単語列が格納バッファに格納され(M10)、アプリケーション段階である対話制御装置5の対話制御部51へ出力される。
【0035】
なお、M7での評価スコアの分布計算による単語列の抽出に関しては、分布から明らかに評価値の高いものがあれば、それらを抽出すればよい。これは、構文評価が上手くいったことを示す。したがって、最終評価(M9)で確認的に全体尤度を参酌すればよい。ここで「確認的に参酌」としたのは次の理由からである。つまり、評価値は低いのに、全体尤度を参酌すると逆転してそちらの方が適正であると判断されてしまうのはよくない。したがって、構文評価が上手くいった場合には、その結果としての評価値を用いた判断を優先するため、予め評価値の分布から有意差のある単語列を抽出しておくことで、不適切なものを(つまり評価値が低い者)をここでカットすることができる。逆に、評価値がほとんど同じ様な分布になれば、構文評価が上手くいってないので、その場合は全体尤度にて判断せざるを得ない。
【0036】
このような機能を持つ制御装置32における動作内容を図4を参照して説明する。
まず、最初のステップ10においては、ユーザ要求、状態設定35及び環境・状況設定36を指示する。このユーザ要求、状態設定35及び環境・状況設定36に関しては、本願出願人による特願平10−184840号において詳細に説明した要求推定装置などを用いて設定することが考えられる。なお、この要求推定装置についてはここでは詳しくは説明しない。
【0037】
次に、単語列候補記憶部31から単語列と関連情報を入力し(S20)、関連情報中の識別情報に基づいて単語辞書33を選択する(S30)。そして、単語列を構成する各単語の属性(料理名など)を決定し(S40)、この複数の単語属性を基に対応シナリオをL個選出する(S50)。このS30〜S50の処理を全ての単語を探索するまで行い(S60)、すべての単語についての探索がなされた場合には(S60:Yes)、各単語の属性の並び(例えば場所、店名、料理名、要求キーワードなど)を基に構文タイプを決定する(S70)。
【0038】
続いて、シナリオ名やユーザ要求、状態、環境、状況及び文脈情報などを基に構文評価表34を選択し(S80)、該当する構文タイプに対応する評価スコアを獲得する(S90)。但し、ここで選択する構文評価表は1つとは限らない。以上のS30〜S90の処理を、候補となる単語列の全てについて行い(S100)、単語列の評価スコアの分布を分析し、その分布を基にして偏差の高い単語列を選択する(S110)。
【0039】
最後に、全体尤度を考慮して最終評価を行い(S120)、ある閾値以上の上位K個(本例では3個以内)を選択して出力する(S130)。
制御装置32の構成とその動作についての基本的な内容を説明したが、制御装置32内の構文評価表の選択と重み付け(M5)に関して、さらに説明する。
【0040】
まず、選択対象の構文評価表34に関して説明する。構文評価表34は、予め各単語属性の並びを全ての順列について考え、実際の発話例をあてはめて主観的に評価することによって作成する。ここでは、レストランを検索するための発話を想定した具体例を図6〜図10を参照して説明する。
【0041】
レストラン検索であるため、例えば{場所、店名、料理名、要求キーワード}という4種類の単語属性を用いた4個以内の属性の並びを考える。4属性を全て用いた場合には、図6,7に示すように24通りの並びが考えられる。また、4属性の内の3属性を用いた場合には、図8,9に示すように24通りの並びが考えられる。さらに、4属性の内の2属性を用いた場合には、図10(a)に示すように12通り、4属性の内の1属性を用いた場合には、図10(b)に示すように4通りの並びが考えられる。したがって、合成64通りの順列が考えられ、この各々を構文タイプと呼ぶ。
【0042】
そして、この各構文タイプに対してシナリオ(ナビ、食事、デパート、公園、ゴルフ、など)毎に評価スコアを主観的評価に基づいて設定する。このようにして作成されたものが、図5に例示するような構文評価表34となる。なお、図6〜図10に示した具体例では、10,7,4,1という4段階での評価スコアを設定した。また、評価スコア自体をユーザ自らが設定するようにしてもよいが、デフォルト値は製品に固定値として組み込んでおくこととする。但しその場合でも、使用地域や言語、あるいはユーザの個性などに応じて変更設定できるようにしておくことが好ましい。
【0043】
続いて、構文評価表の選択と重み付けの際に参照するユーザ要求、状態設定35、環境・状況設定36及び文脈情報37に関して説明する。
(1)ユーザ要求、状態を用いた動作
このユーザ要求、状態の設定は、上述した特願平10−184840号において詳細に説明した要求推定装置などを用いて行うことが考えられる。
【0044】
ユーザの現在の要求(例えば食事したい、ショッピングしたい、公園に行きたい、など)と状態(例えば空腹、疲労、元気、など)、及び所定の時刻に予測される要求・状態、さらにはスケジュール情報などを基にして構文評価表34を選択する。上述したように構文評価表34は複数個選択することができ、その場合は各選択に対して重み付けを行う。その様子を図5に示した。なお、最終的な評価スコアの出力は、荷重値×評価スコアで与えられることとなる。
【0045】
(2)ユーザ環境・状況を用いた動作
このユーザ環境、状況も、上述の特願平10−184840号にて説明した要求推定装置などを用いて行うことが考えられる。
ユーザの現在の環境や状況(例えば国、地域、現在地、季節、時間、天候、場所、渋滞状況、など)を基にして構文評価表34を選択する。構文評価表34を複数個選択できる点や各選択に対して重み付けを行う点、及び荷重値×評価スコアで最終的な評価スコアの出力が与えられる点については、上記(1)のユーザ要求、状態を用いた動作の場合と同様である。
【0046】
(3)文脈情報を用いた動作
それまでの対話や文脈情報(例えば対話制御装置5(図1参照)のアプリケーションの種類や話題のシナリオなど)に基づき、制御装置32内で選択した(つまり入力した単語列候補から推定した)シナリオが適正であるかどうかをシナリオ間の関連性や連続性という観点で判定する。必要に応じて数値表現してもよい。例えば対話制御装置5からユーザへ「和食と中華料理のどちらを選びますか」という問いかけがなされた場合、ユーザはその問いかけに対する答えとして、例えば「中華料理」というように発話することが期待される。したがって、この場合には料理を全く関係がない内容の発話がされた場合には、シナリオ間の関連性や連続性がなく、シナリオは適正でないという判断となる。
【0047】
なお、図5にも例示したが、ユーザ情報として、名前、年齢、国籍、住所、家族構成、趣味などのパーソナルデータも設定しておき、構文評価表の選択と重み付けに用いても良い。
以上、本実施形態の音声対話システムの内容を説明したが、より理解を容易にするため、具体的な対話例を取り上げて動作内容について説明する。図11にはその概要を示した。
【0048】
ここでは、ユーザが「おかざきの○○○○○(店名)でらーめんくいたい」と発話した場合を想定する。そして、図1の音声認識装置1においては音声認識部11と単語列生成部12によって、以下1)〜7)に示す単語列が生成されたとする。
【0049】
1)おかざき ○○○○○ らーめん くいたい
2)おかざき ○○○○○ れーめん くいたい
3)おかざき ○○○○○ そーめん くいたい
4)おかやま おむらいす らーめん くいたい
5)かくだい しゅくしょう らーめん くいたい
6)おかざき ○○○○○ らーめん いんたーちぇんじ
7)いせざきちょう どらいぶしたい
これらの例の内で、1)〜3)はシナリオが食事・レストランであることが限定できるため、意味的にも構文的にも非常に高い評価スコアを得る。つまり「統計的に適正」である。これに対して、4)は構文タイプを考えた場合、料理名が2つ続くことがあまりないと判定されれば評価スコアは低くなる。
【0050】
さらに、外部入力の情報として現在地が愛知県内であることが判れば、地名としての「おかやま」はこれから食事に行くにしては遠すぎるため、尤度は低くなる(環境による評価)。その結果、除去される。
また、5)はナビゲーションに関するコマンドである「かくだい」と食事要求「くいたい」が混在しているので、構文上あり得ない組み合わせであるとして除去される。6)も5)と同様に、ナビゲーションに関するコマンドである「かくだい」及び「しゅくしょう」と食事要求「くいたい」が混在しているので除去される。
【0051】
一方、7)は、構文としては適正であるが、「いせざきちょう」という地名が愛知県内(あるいはその近隣)になければ尤度は低くなる。また、予め目的地が設定されているのであれば、構文評価表34やシナリオの選択において「ドライブ」の荷重値は下げられる。
【0052】
以上の点を考え、さらに3個までの単語列を出力するという観点からすれば、1)〜3)の単語列が最終評価(図3のM9参照)からの出力となる。したがって、例えば1)の内容をトークバックすれば、ユーザの意図する内容となっているのでユーザが確認動作をし、確定することとなる。この場合、例えば2)→3)→1)の順番でトークバックするとしても、ユーザが2回否定すれば、3回目には意図した内容がトークバックされる。これが上述した1)〜7)までの単語列候補のままであれば、最悪7回目にしか意図した内容がトークバックされないので、使い勝手が低減する。この点でユーザの利便向上に寄与することとなる。
【0053】
つまり、本実施形態のシステムに用いた適正単語列推定装置3は、音声認識装置1から出力された複数の単語列候補に対し、自然言語として統計的に適正か否かという観点から所定の検証を行うことで適正な単語列を推定するという一種のフィルタ処理を行っている。これにより、例えば全く意味をなさない内容の候補については予め候補から脱落させて適切な候補のみに絞ることができる。
【0054】
なお、例えば「食事場所としての「○○○○○」における代表的な料理は「らーめん」や「ぎょうざ」などの中華料理である」という知識があれば、1)の優先度が高くなり、最初に発話されることとなる。また、さらに「現在の季節(冬)を考えると、夏向けのメニューである「れーめん」は扱っていないと考えるので常識的である」という知識や、「食事場所としての「○○○○○」では「そーめん」は扱っていない」という知識があれば、2)及び3)をも排除して1)だけを残すことも可能である。これらの知識は、意味ネットワークとして単語辞書33の付属情報に盛り込むか、後段の対話制御装置5を介したデータベース検索を実行することによって得られる。これらの知識がないとしても、「岡崎の○○○○○に行きますか?」というトークバックによって、ユーザの意図確認はできる。
【0055】
以上、本発明の一実施形態について説明したが、本発明は、上記実施形態に限定されるものではなく、種々の形態を採り得ることは言うまでもない。
例えば、上記実施形態のシステムにおいては、適正単語列推定装置3が、音声認識装置1から出力される単語列候補に対して適正な単語列の推定を行うものとして実現したが、音声認識装置1以外の認識装置であっても同様に実現できる。例えば、認識対象者によって入力された手書き文字列を辞書データと比較し、一致度合の高い複数の単語列候補を出力する文字認識装置であってもよい。手書き文字に関してもやはり誤認識が発生し易いため、適正な単語列を推定することは有効性が高い。
【0056】
また、音声認識や文字認識のように、認識装置に入力される時点で直接的に単語列の内容となっているものに限らず、画像認識装置であってもよい。即ち、認識対象を捉えた画像を場面として認識した上で、場面を自然言語化するような認識装置であれば実現できる。具体的には、例えば認識対象者が手話をしている画像から手話パターンを認識し、その手話パターンが表す自然言語的な意味を示す単語列候補を出力するようなものである。手話パターンについても、微妙な指使いによって表す単語が異なるため、手話をする者の個人差などによって、やはり誤認識は発生する。したがって、やはりこの場合も、誤認識が含まれる可能性の高い手話パターンの認識装置による認識結果に対して適正な単語列を推定することは有効性が高い。
【図面の簡単な説明】
【図1】 実施形態の適正単語列推定装置を含む音声対話システムの概略構成を表すブロック図である。
【図2】 実施形態の適正単語列推定装置の構成を表すブロック図である。
【図3】 実施形態の適正単語列推定装置内の制御装置の機能ブロック図である。
【図4】 実施形態の適正単語列推定装置内の制御装置における動作内容を表すフローチャートである。
【図5】 構文評価表の概略及びその選択と重み付けの概要を表す説明図である。
【図6】 レストラン検索における構文形態(4語の場合)の具体例を示す説明図である。
【図7】 レストラン検索における構文形態(4語の場合)の具体例を示す説明図である。
【図8】 レストラン検索における構文形態(3語の場合)の具体例を示す説明図である。
【図9】 レストラン検索における構文形態(3語の場合)の具体例を示す説明図である。
【図10】 (a)はレストラン検索における構文形態(2語の場合)の具体例を示す説明図、(b)はレストラン検索における構文形態(1語の場合)の具体例を示す説明図である。
【図11】 実施形態の音声対話システムにおける具体的な対話例での適正単語列推定装置の動作内容を示す説明図である。
【符号の説明】
1…音声認識装置 3…適正単語列推定装置
5…対話制御装置 11…音声認識部
12…単語列生成部 31…単語列候補記憶部
32…制御装置 33…単語辞書
34…構文評価表 35…ユーザ要求・状態設定
36…環境・状況設定 37…文脈情報
51…対話制御部 52…音声合成部
53…機器制御部
Claims (6)
- 認識対象の動作内容が反映された情報を入力し、辞書データと比較して一致度合の高い複数の単語列候補を出力する認識装置から出力された複数の単語列候補に対して適正な単語列を推定する適正単語列推定装置であって、
単語数と属性を限定した単語列に対して考えられる全ての単語の順列に基づいて構成された参照単語列について、自然言語として統計的に適正である度合いに応じてスコアが付けられた構文評価表に基づき、前記認識装置から出力される複数の単語列候補を前記構文評価表と照合して上位のスコアを獲得した所定数の単語列候補に絞ること、を特徴とする適正単語列推定装置。 - 請求項1記載の適正単語列推定装置において、
以下の1)〜3)の少なくともいずれか1つを加味すること、を特徴とする適正単語列推定装置。
1)前記認識対象の置かれている環境や状況
2)前記認識対象が人間である場合にはその者の要求や状態
3)対話システムに用いられている場合にはその対話における文脈情報 - 請求項1又は2記載の適正単語列推定装置において、
前記認識対象は人間であり、前記認識装置は、その認識対象者によって入力された音声を辞書データと比較し、一致度合の高い複数の単語列候補を出力する音声認識装置であること、を特徴とする適切単語列推定装置。 - 請求項1又は2記載の適正単語列推定装置において、
前記認識対象は人間であり、前記認識装置は、その認識対象者によって入力された手書き文字列を辞書データと比較し、一致度合の高い複数の単語列候補を出力する文字認識装置であること、を特徴とする適切単語列推定装置。 - 請求項1又は2記載の適正単語列推定装置において、
前記認識装置は、前記認識対象を捉えた画像を場面として認識した上で、場面を自然言語化するための辞書データと前記認識場面を比較し、一致度合いの高い複数の単語列候補を出力する画像認識装置であること、を特徴とする適切単語列推定装置。 - 請求項5記載の適正単語列推定装置において、
前記認識対象は人間であり、前記画像認識装置は、その認識対象者が手話をしている画像から手話パターンを認識し、その手話パターンが表す自然言語的な意味を示す単語列候補を出力するものであること、を特徴とする適切単語列推定装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02034999A JP4244423B2 (ja) | 1999-01-28 | 1999-01-28 | 適正単語列推定装置 |
US09/490,442 US6556970B1 (en) | 1999-01-28 | 2000-01-24 | Apparatus for determining appropriate series of words carrying information to be recognized |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02034999A JP4244423B2 (ja) | 1999-01-28 | 1999-01-28 | 適正単語列推定装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000221991A JP2000221991A (ja) | 2000-08-11 |
JP4244423B2 true JP4244423B2 (ja) | 2009-03-25 |
Family
ID=12024659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP02034999A Expired - Fee Related JP4244423B2 (ja) | 1999-01-28 | 1999-01-28 | 適正単語列推定装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4244423B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6754626B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context |
JP4000828B2 (ja) * | 2001-11-06 | 2007-10-31 | 株式会社デンソー | 情報システム、電子機器、プログラム |
US7289956B2 (en) * | 2003-05-27 | 2007-10-30 | Microsoft Corporation | System and method for user modeling to enhance named entity recognition |
JP4385169B1 (ja) * | 2008-11-25 | 2009-12-16 | 健治 吉田 | 手書き入出力システム、手書き入力シート、情報入力システム、情報入力補助シート |
JP5274191B2 (ja) * | 2008-10-06 | 2013-08-28 | 三菱電機株式会社 | 音声認識装置 |
JP6097776B2 (ja) * | 2015-02-25 | 2017-03-15 | 日本電信電話株式会社 | 単語選択装置、方法、及びプログラム |
JP7042167B2 (ja) | 2018-06-13 | 2022-03-25 | 本田技研工業株式会社 | 車両制御装置、車両制御方法、およびプログラム |
JP2021135412A (ja) * | 2020-02-27 | 2021-09-13 | ソニーグループ株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
-
1999
- 1999-01-28 JP JP02034999A patent/JP4244423B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000221991A (ja) | 2000-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493850B (zh) | 成长型对话装置 | |
US7515770B2 (en) | Information processing method and apparatus | |
JP6813591B2 (ja) | モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム | |
CN105931644B (zh) | 一种语音识别方法及移动终端 | |
US8560325B2 (en) | Hierarchical methods and apparatus for extracting user intent from spoken utterances | |
US7580835B2 (en) | Question-answering method, system, and program for answering question input by speech | |
US7925506B2 (en) | Speech recognition accuracy via concept to keyword mapping | |
EP1617409B1 (en) | Multimodal method to provide input to a computing device | |
US7792671B2 (en) | Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments | |
WO2020216064A1 (zh) | 语音情感识别方法、语义识别方法、问答方法、计算机设备及计算机可读存储介质 | |
CN110675871B (zh) | 一种语音识别方法及装置 | |
KR101988165B1 (ko) | 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템 | |
JP4244423B2 (ja) | 適正単語列推定装置 | |
JP2000293191A (ja) | 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法 | |
JP2006106748A (ja) | 音声認識の精度を改善するためのシステムおよび方法 | |
KR102072238B1 (ko) | 신뢰도 기반 질의응답 시스템 및 방법 | |
JP2000259645A (ja) | 音声処理装置及び音声データ検索装置 | |
JP3840221B2 (ja) | 音声認識装置及び方法 | |
JPH1097285A (ja) | 音声認識装置 | |
US6622122B1 (en) | Document retrieving apparatus and document retrieving method | |
JP2966002B2 (ja) | 音声認識装置 | |
JPH1173419A (ja) | 電子文書の検索方法及び装置 | |
CN112767923B (zh) | 一种语音识别方法及装置 | |
KR100545550B1 (ko) | 문장 이해 장치 및 방법 | |
JP2000305590A (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050414 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071016 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081216 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081229 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140116 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |