JP2000221991A

JP2000221991A - 適正単語列推定装置

Info

Publication number: JP2000221991A
Application number: JP11020349A
Authority: JP
Inventors: Mikio Sasaki; 美樹男笹木; Katsushi Asami; 克志浅見
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 1999-01-28
Filing date: 1999-01-28
Publication date: 2000-08-11
Anticipated expiration: 2019-01-28
Also published as: JP4244423B2

Abstract

(57)【要約】【課題】認識装置から出力された複数の単語列候補に対
して、適正な単語列を推定することにより、一種のフィ
ルタ処理を行う。【解決手段】ユーザの発話内容を音声認識した結果、複
数の単語列候補が生成され、制御装置３２はこの単語列
候補に対して一種のフィルタ処理を行う。例えば文法
的、口語表現的、使用頻度などの観点、あるいはユーザ
に関する環境・状況・要求などに整合するかといった観
点から、予め作成された構文評価表３４の選択と重み付
けを行い（Ｍ５）、評価値の分布に基づいて構文の適正
度合いを評価する（Ｍ９）。これによって、統計的に適
正（意味的に適正といってもよい）な単語列を推定（抽
出）することができる。なお、単語列に伴って生成され
る単語毎の尤度から単語列の全体尤度を計算し（Ｍ
８）、最終評価（Ｍ９）に用いてもよい。また対話シス
テムであれば対話における文脈情報も利用すればよい。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば人間から発
せられた音声を入力し、辞書データと比較して一致度合
の高い複数の単語列候補を出力する認識装置から出力さ
れた複数の単語列候補に対して適正な単語列を推定する
ために用いれれる適正単語列推定装置に関するものであ
る。

【０００２】

【従来の技術】従来より、例えば人間から発せられた音
声を入力し、辞書データと比較して一致度合の高い複数
の単語列候補を出力する認識装置が知られており、例え
ばその認識装置を用いて使用者の発話内容を認識し、認
識結果に応じて機器を動作させる制御システムなどに適
用されている。例えば、使用者が音声コマンドとして予
め定められた言葉を発話すると、その言葉に対応した情
報検索動作などを行う自動車用ナビゲーション装置など
が実用化されている。

【０００３】

【発明が解決しようとする課題】ところで、現状の音声
認識には連続単語認識とワードスポッティングという２
つの手法がある。前者の認識手法によれば、例えば「お
かざき、○○○○○（店名）、らーめん」といった単語
毎の認識が可能であるが、実際には誤認識を避けて通る
ことはできない。そのため、現行のナビゲーション装置
などでは、認識結果として複数の候補を持ち、最初にそ
の内の１つをトークバックしてユーザに確認を求めるこ
とがなされている。ユーザは自分が発話した内容と違っ
ていれば、認識結果が違っている旨を装置に伝える。す
ると、装置側は別の認識結果を提示して再度ユーザの確
認を求める。認識結果の候補を多数準備して次々に提示
していけば、最終的にはユーザが意図した内容の認識結
果となることは可能であるが、候補の中には、全く意味
をなさない内容のものも含まれる可能性があり、上述し
た最終的に適切な候補に至るまでに長時間要してしまう
ことも考えられる。

【０００４】また、後者のワードスポッティング手法
は、例えば「えーと、おかざきの○○○○○（店名）で
らーめんくいたいなあ」という日常語的な音声入力から
「おかざき、○○○○○（店名）、らーめん、くいた
い」というキーワードを抽出できるという点で近年急速
に注目されている音声認識技術である。しかしながら、
当該手法の場合には、ラティスと呼ばれるその出力（時
区間情報と確率情報を持った単語集合）から生成される
単語列候補の数は非常に多く、意味を持つ小数の単語列
に絞られることは稀である。また、当該手法における現
在の認識語彙数は１００語程度であるが、将来的には１
０００語以上に増大することが見込まれ、その結果とし
て発生するラティスから生成される単語列は膨大な数に
上ると考えられる。したがって、上述した連続単語列認
識手法の場合で述べたのと同様（むしろ、より顕著な）
の問題が存在する。

【０００５】そして、こうした問題は、音声認識だけで
なく、例えば筆記具で書いた文字をスキャナで読み取っ
たりするような文字認識や、撮影した画像から、その場
面を示す単語列を認識するような場合でも、やはり同様
に発生する。つまり、認識対象の動作内容が反映された
情報を入力し、辞書データと比較して一致度合の高い複
数の単語列候補を出力するような認識装置を考えた場合
には、認識結果としての単語列候補中に不適切なものが
含まれているため、同様の問題を招来するのである。

【０００６】本発明は、こうした問題に鑑みなされたも
のであり、このような認識装置から出力された複数の単
語列候補に対して、適正な単語列を推定することによ
り、一種のフィルタ処理を行う適正単語列推定装置を提
供することを目的とする。

【０００７】

【課題を解決するための手段、及び発明の効果】上記目
的を達成するためになされた請求項１に記載の本発明の
適正単語列推定装置は、認識装置から出力された複数の
単語列候補に対して適正な単語列を推定する装置であ
る。認識装置は、認識対象の動作内容が反映された情報
を入力し、辞書データと比較して一致度合の高い複数の
単語列候補を出力する。つまり、誤認識の可能性がある
ため、複数の単語列候補を出力することで、その中には
適切なものが含まれるようにするのである。従来は、上
述したように、認識装置による認識結果をユーザに報知
して、ユーザに確認を求めることがなされていた。しか
し、認識結果の単語列候補の中には、全く意味をなさな
い内容のものも含まれる可能性があり、ユーザの確認を
経る場合であっても、最終的に適切なものに確定される
までに長時間要してしまうことも考えられる。

【０００８】そこで、本発明の適正単語列推定装置は、
認識装置から出力された複数の単語列候補に対して、適
正な単語列を推定するという一種のフィルタ処理を行う
ことで、例えば全く意味をなさない内容の候補について
は予め候補から脱落させて適切な候補のみに絞るのであ
る。そして、その適正な単語列を推定のために、自然言
語として統計的に適正か否かという観点から所定の検証
を行う。

【０００９】自然言語として統計的に適正であるものに
絞れば、全く意味をなさない内容の候補については予め
候補から脱落させることができる。したがって、例えば
上述したように認識装置による認識結果をユーザに報知
して確認を求める場合であっても、候補自体が絞られて
いるため、最終的に適切なものに確定されるまでの時間
を大幅に短縮することができる。

【００１０】本発明の特徴の１つとして、「自然言語と
して統計的に適正か否かという観点から所定の検証」を
行う点が挙げられるが、この点に関しては、例えば請求
項２に示すように、文法、意味、常識を加味して統計的
に適正か否かという観点から所定の検証を行うようにし
てもよい。

【００１１】なお、「統計的に適正」の内容としては、
ここで加味する文法、意味、常識という観点からも判断
がされる場合もあるため、厳密な意味で、「統計的に適
正」の内容として「文法、意味、常識という観点から適
正」という内容が含まれないとは言えない。つまり、抽
象的な技術思想の創作を表現するという意味で「統計的
に適正」という表現をした。但し、抽象的な技術思想の
創作の内容を理解する上では、具体的な内容を考慮する
ことも有効である。つまりこの場合は、文法的に適正か
という非常に基本的な言語学的な判断も有効であり、ま
た意味的あるいは常識的に適正かという応用的な言語学
的な判断もまた別の観点で有効である。したがって、こ
れら言語学的な種々の観点を考慮した上での「適正さ」
を表現するものとして「統計的に適正」と表した。

【００１２】また、より具体化の度合いを増したものと
しては請求項３に示す装置が挙げられる。つまり、単語
数と属性を限定した単語列に対して考えられる全ての単
語の順列に基づいて構成された参照単語列について、自
然言語として統計的に適正である度合いに応じてスコア
を付けた構文評価表を作成しておく。そして認識装置か
ら出力される複数の単語列候補を構文評価表と照合して
上位のスコアを獲得した所定数の単語列候補に絞ること
によって、上述した「所定の検証」を行うようにするの
である。このようにすれば、「統計的に適正」な度合い
が数値化されるため、所定の検証が容易に行える。

【００１３】以上説明したように、基本的には、認識装
置による認識結果である複数の単語列候補のみに基づい
て所定の検証を行うことが可能であるが、請求項４に示
すように、さらに、以下の〜の少なくともいずれか
１つを加味して所定の検証を行うようにしてもよい。つ
まり、認識対象の置かれている環境や状況、認識対
象が人間である場合にはその者の要求や状態、対話シ
ステムに用いられている場合にはその対話における文脈
情報、である。

【００１４】に示すように、認識対象の置かれている
環境や状況を加味すれば、その環境や状況においては物
理的にあり得ない内容の単語列候補などを間引くことが
できる。例えば上述したカーナビゲーション装置に適用
した場合であれば、装置を搭載した車両が高速道路を走
行している場合に、「次の交差点を左折」という内容の
指示がされることはあり得ないため、高速道路上を走行
しているという環境（状況）に基づく検証によって、よ
り適切な候補に絞ることができる。

【００１５】また、に示すように、認識対象が人間で
ある場合にはその者の要求や状態を加味すれば、その要
求内容や状態においては常識的に考えられない内容の単
語列候補などを間引くことができる。逆に、認識対象者
の要求内容や状態にあった単語列候補を適切に推定する
ことができる。例えば認識対象者のスケジュール情報が
設定されている場合には、そのスケジュールから認識対
象者の要求が推定できるので、その要求に合わないもの
は間引き、要求にあったものをに絞ることができる。

【００１６】また、に示すように、認識対象が人間で
あり、且つ対話システムに用いられている場合には、そ
の対話における文脈情報を加味すれば、それまでの対話
内容における文脈から考えて常識的に考えられない内容
の単語列候補などを間引くことができる。例えば上述し
たカーナビゲーション装置に適用した場合であれば、例
えば目的地を設定する際、まず「食事に行きたい」とい
う要求がユーザからあった後、具体的な店名などを認識
する際には、食事のできる場所ではない（到底考えられ
ない）名称が指示されることはあり得ないため、「食事
に行きたい」という要求内容に基づく検証によって、よ
り適切な候補に絞ることができる。

【００１７】ところで、認識装置に関しては、認識対象
の動作内容が反映された情報を入力し、辞書データと比
較して一致度合の高い複数の単語列候補を出力するもの
であるという説明をしたが、具体的には、例えば次に示
すようなものが考えられる。まず、請求項５に示すよう
に、認識対象者によって入力された音声を辞書データと
比較し、一致度合の高い複数の単語列候補を出力する音
声認識装置であることが考えられる。上述したナビゲー
ション装置における目的地などの指示を音声入力するシ
ステムなどに実用化されており、適用対象としては一般
的に考えられる。つまり、音声認識に際しては入力音声
の音響的な特徴に基づくのであるが、人間が発する音声
の音響的な特徴は個人差が大きく、また日常的には正確
な発音をしない場合も多いので誤認識が発生し易い。し
たがって、そのような誤認識が含まれる可能性の高い音
声認識装置による認識結果に対して、これまで説明した
ような適正な単語列を推定することは、非常に有効性が
高いと考えられる。

【００１８】また、例えば請求項６に示すように、認識
対象者によって入力された手書き文字列を辞書データと
比較し、一致度合の高い複数の単語列候補を出力する文
字認識装置であってもよい。手書き文字に関しても、上
述の音響的特徴と同様に個人差が大きく、また日常的に
は正確な書体にて文字を書かない場合も多いので、やは
り誤認識が発生し易い。したがって、誤認識が含まれる
可能性の高い文字認識装置による認識結果に対して適正
な単語列を推定することは、非常に有効性が高い。な
お、文字認識の形態については、種々考えられ、例えば
筆記具で書いた文字をスキャナで読み取る場合の認識は
もちろん、ＰＤＡ（携帯情報端末）などによく見られる
ように、入力ペンにて画面上をなぞるような文字入力方
法の場合の認識であってもよい。

【００１９】さらには、このような音声認識や文字認識
のように、認識装置に入力される時点で直接的に単語列
の内容となっているものに限らず、請求項７に示すよう
な画像認識装置であってもよい。即ち、認識対象を捉え
た画像を場面として認識した上で、場面を自然言語化す
るための辞書データと認識場面を比較し、一致度合いの
高い複数の単語列候補を出力するような画像認識装置で
ある。

【００２０】その一具体例として、請求項８に示すよう
な適用が考えられる、つまり、認識対象を人間とし、そ
の認識対象者が手話をしている画像から手話パターンを
認識し、その手話パターンが表す自然言語的な意味を示
す単語列候補を出力するのである。この場合であれば、
手話パターンと単語との対応パターンが確立されている
ので、そのパターンマッチングにより自然言語的な意味
を示す単語列候補を出力することは容易に実現できる。
但し、この場合の手話パターンについても、微妙な指使
いによって表す単語が異なるため、手話をする者の個人
差などによって、やはり誤認識は発生する。

【００２１】したがって、やはりこの場合も、誤認識が
含まれる可能性の高い手話パターンの認識装置による認
識結果に対して適正な単語列を推定することは有効性が
高いと言える。なお、この画像認識装置における認識対
象としては人間には限定されない。例えば道路上を撮像
するようにしておき、その道路を走行する車両などを含
めて、その場面を自然言語化するような場合であっても
適用可能である。

【００２２】これらいくつか例示したように、認識装置
としては、認識対象の動作内容が反映された情報を入力
し、辞書データと比較して一致度合の高い複数の単語列
候補を出力するものであれば、誤認識の可能性があるた
め、本発明の適正単語列推定装置において単語列を推定
する対象である単語列候補を出力する装置として適用対
象となる。

【００２３】なお、以上の説明からも判るように、本適
正単語列推定装置は、認識装置からの出力に対してフィ
ルタ処理を施すものである。そして、本適正単語列推定
装置によって推定された（つまり絞られた）後の単語列
候補の利用に関しては、例えば、そのままデータとして
蓄積してもよいし、音声や表示などの態様で出力しても
よいし、さらには何らかの制御に用いても良い。例え
ば、これまでに何度が例に出したカーナビゲーション装
置であれば、ユーザが音声入力した指示内容をトークバ
ックしたり、その指示内容に応じて所定の機器を動作さ
せる、といったことである。

【００２４】また、上述した適正単語列推定装置におけ
る適正単語列の推定処理をコンピュータシステムにて実
現する機能は、例えば、コンピュータシステム側で起動
するプログラムとして備えることができる。このような
プログラムの場合、例えば、フロッピーディスク、光磁
気ディスク、ＣＤ−ＲＯＭ、ハードディスク等のコンピ
ュータ読み取り可能な記録媒体に記録し、必要に応じて
コンピュータシステムにロードして起動することにより
用いることができる。この他、ＲＯＭやバックアップＲ
ＡＭをコンピュータ読み取り可能な記録媒体として前記
プログラムを記録しておき、このＲＯＭあるいはバック
アップＲＡＭをコンピュータシステムに組み込んで用い
ても良い。

【００２５】

【発明の実施の形態】以下、本発明の実施形態につい
て、図面を用いて説明する。まず図１は、実施形態の適
正単語列推定装置３を含む音声対話システムの概略構成
を表すブロック図である。本システムにおいて適正単語
列推定装置３は、入力音声に対して音声認識を行う音声
認識装置１からの出力に対し、所定の処理を施して後段
の対話制御装置５へ出力するものである。

【００２６】音声認識装置１は、音声認識部１１と単語
列生成部１２とを備えている。ある発話に相当する音声
入力は音声認識部１１で処理され、認識語彙辞書に登録
されている単語の集まりとして出力される。この時点で
は候補となる単語が同一時刻に複数個示される可能性が
ある。その後、単語列生成部１２では、音声認識部１１
から出力された単語に基づいて、時区間的に重なりのな
い単語列を複数個生成し、適正単語列推定装置３へ出力
する。

【００２７】適正単語列推定装置３については後で詳述
するが、簡単に言えば、音声認識装置１から（具体的に
は単語列生成部１２から）出力された複数の単語列候補
に対して、自然言語として統計的に適正か否かという観
点から所定の検証を行い、例えば１〜３個程度の適正な
単語列を選択するという動作を行う。対話制御装置５
は、テキストベースでの対話制御を行う対話制御部５１
と、音声合成部５２と、機器制御部５３を備えており、
適正単語列推定装置３から入力した単語列に基づいて、
例えばその単語列を音声合成部５２を介して音声出力し
たり、あるいはその単語列に基づく内容となるように機
器制御部５３に指示を出したりする。

【００２８】これが音声対話システムの全体構成である
が、本発明の特徴でもある適正単語列推定装置３の詳し
い構成について説明する。図２に示すように、適正単語
列推定装置３内においては、音声認識装置１内の単語列
生成部１２から出力された単語列群を単語列候補記憶部
３１に格納する。制御装置３２は、単語列候補記憶部３
１から単語列及び関連情報を入力し、認識語彙を格納し
た単語辞書３３と予め作成しておいた構文評価表３４、
さらにはユーザ要求・状態設定３５、環境・状況設定３
６、文脈情報３７を基にして適正な単語列を３個程度選
定する。制御装置３２において選定された単語列は対話
制御装置５内の対話制御部５１へ出力される。

【００２９】続いて、適正単語列推定装置３内の制御装
置３２について、さらに図３を参照して説明する。図３
は制御装置３２のブロック図であり、ここでは各ブロッ
クＭ１〜Ｍ１０における処理内容の説明を中心に進め
る。上述したように制御装置３２へは、単語列候補記憶
部３１から単語列と関連情報が入力される。この関連情
報とは、単語列に付随する識別情報（コマンド、地名、
店名などの分類又は記憶領域の番地など）や尤度などで
ある。この関連情報中の識別情報に基づき、単語辞書３
３の選択（Ｍ１）を行う。

【００３０】そして、その選択された単語辞書３３にて
該当する単語を検索し、単語属性の獲得（Ｍ２）を行
う。このＭ２での単語属性の獲得においては、アプリケ
ーションに必要な付属情報（シナリオ分類（例えば駅
名、レストラン、公園、デパートといった分類）、該当
する場所、季節、時刻など）と単語属性（要求キーワー
ド（食べたい、買いたい、など）、店名、場所、料理名
など）を獲得する。

【００３１】そしてこれら単語属性・付属情報に基づい
て、シナリオ名の決定（Ｍ３）及び構文タイプの決定
（Ｍ４）を行う。Ｍ４にて決定された構文タイプは、構
文評価表３４の検索に用いられる。一方、Ｍ３にて決定
されたシナリオは、構文評価表の選択と重み付け（Ｍ
５）に用いられる。

【００３２】このＭ５での構文評価表の選択と重み付け
は、Ｍ３にて決定されたシナリオ名と、外部入力である
ユーザ要求、状態設定３５、環境・状況設定３６及び文
脈情報３７に基づいて行われる。この選択と重み付けに
関しては、構文評価表３４の作成手法などとも併せて後
述する。

【００３３】この検索の結果、該当するシナリオと構文
タイプに対応するスコアが獲得される。これらの一連の
スコア獲得動作を各単語列について行い、一連の評価ス
コアの値と分布を計算した上で、ある一定以上のスコア
であり且つ他の単語列のスコアとの有意差がある単語列
を抽出する（Ｍ７）。

【００３４】一方で入力された単語列に付随する各単語
毎の尤度情報を基に単語列全体の尤度を計算する（Ｍ
８）。そして、Ｍ９での最終評価は、Ｍ７にて評価値分
布に基づき抽出された単語列に対し、全体尤度がある閾
値以上であるか否かという観点からの評価を行う。本例
ではこの最終評価（Ｍ９）にて３個以内の出力すべき単
語列を選択する。このようにして評価スコアと全体尤度
を判定した結果として選ばれた出力単語列が格納バッフ
ァに格納され（Ｍ１０）、アプリケーション段階である
対話制御装置５の対話制御部５１へ出力される。

【００３５】なお、Ｍ７での評価スコアの分布計算によ
る単語列の抽出に関しては、分布から明らかに評価値の
高いものがあれば、それらを抽出すればよい。これは、
構文評価が上手くいったことを示す。したがって、最終
評価（Ｍ９）で確認的に全体尤度を参酌すればよい。こ
こで「確認的に参酌」としたのは次の理由からである。
つまり、評価値は低いのに、全体尤度を参酌すると逆転
してそちらの方が適正であると判断されてしまうのはよ
くない。したがって、構文評価が上手くいった場合に
は、その結果としての評価値を用いた判断を優先するた
め、予め評価値の分布から有意差のある単語列を抽出し
ておくことで、不適切なものを（つまり評価値が低い
者）をここでカットすることができる。逆に、評価値が
ほとんど同じ様な分布になれば、構文評価が上手くいっ
てないので、その場合は全体尤度にて判断せざるを得な
い。

【００３６】このような機能を持つ制御装置３２におけ
る動作内容を図４を参照して説明する。まず、最初のス
テップ１０においては、ユーザ要求、状態設定３５及び
環境・状況設定３６を指示する。このユーザ要求、状態
設定３５及び環境・状況設定３６に関しては、本願出願
人による特願平１０−１８４８４０号において詳細に説
明した要求推定装置などを用いて設定することが考えら
れる。なお、この要求推定装置についてはここでは詳し
くは説明しない。

【００３７】次に、単語列候補記憶部３１から単語列と
関連情報を入力し（Ｓ２０）、関連情報中の識別情報に
基づいて単語辞書３３を選択する（Ｓ３０）。そして、
単語列を構成する各単語の属性（料理名など）を決定し
（Ｓ４０）、この複数の単語属性を基に対応シナリオを
Ｌ個選出する（Ｓ５０）。このＳ３０〜Ｓ５０の処理を
全ての単語を探索するまで行い（Ｓ６０）、すべての単
語についての探索がなされた場合には（Ｓ６０：Ｙｅ
ｓ）、各単語の属性の並び（例えば場所、店名、料理
名、要求キーワードなど）を基に構文タイプを決定する
（Ｓ７０）。

【００３８】続いて、シナリオ名やユーザ要求、状態、
環境、状況及び文脈情報などを基に構文評価表３４を選
択し（Ｓ８０）、該当する構文タイプに対応する評価ス
コアを獲得する（Ｓ９０）。但し、ここで選択する構文
評価表は１つとは限らない。以上のＳ３０〜Ｓ９０の処
理を、候補となる単語列の全てについて行い（Ｓ１０
０）、単語列の評価スコアの分布を分析し、その分布を
基にして偏差の高い単語列を選択する（Ｓ１１０）。

【００３９】最後に、全体尤度を考慮して最終評価を行
い（Ｓ１２０）、ある閾値以上の上位Ｋ個（本例では３
個以内）を選択して出力する（Ｓ１３０）。制御装置３
２の構成とその動作についての基本的な内容を説明した
が、制御装置３２内の構文評価表の選択と重み付け（Ｍ
５）に関して、さらに説明する。

【００４０】まず、選択対象の構文評価表３４に関して
説明する。構文評価表３４は、予め各単語属性の並びを
全ての順列について考え、実際の発話例をあてはめて主
観的に評価することによって作成する。ここでは、レス
トランを検索するための発話を想定した具体例を図６〜
図１０を参照して説明する。

【００４１】レストラン検索であるため、例えば｛場
所、店名、料理名、要求キーワード｝という４種類の単
語属性を用いた４個以内の属性の並びを考える。４属性
を全て用いた場合には、図６，７に示すように２４通り
の並びが考えられる。また、４属性の内の３属性を用い
た場合には、図８，９に示すように２４通りの並びが考
えられる。さらに、４属性の内の２属性を用いた場合に
は、図１０（ａ）に示すように１２通り、４属性の内の
１属性を用いた場合には、図１０（ｂ）に示すように４
通りの並びが考えられる。したがって、合成６４通りの
順列が考えられ、この各々を構文タイプと呼ぶ。

【００４２】そして、この各構文タイプに対してシナリ
オ（ナビ、食事、デパート、公園、ゴルフ、など）毎に
評価スコアを主観的評価に基づいて設定する。このよう
にして作成されたものが、図５に例示するような構文評
価表３４となる。なお、図６〜図１０に示した具体例で
は、１０，７，４，１という４段階での評価スコアを設
定した。また、評価スコア自体をユーザ自らが設定する
ようにしてもよいが、デフォルト値は製品に固定値とし
て組み込んでおくこととする。但しその場合でも、使用
地域や言語、あるいはユーザの個性などに応じて変更設
定できるようにしておくことが好ましい。

【００４３】続いて、構文評価表の選択と重み付けの際
に参照するユーザ要求、状態設定３５、環境・状況設定
３６及び文脈情報３７に関して説明する。（１）ユーザ要求、状態を用いた動作このユーザ要求、
状態の設定は、上述した特願平１０−１８４８４０号に
おいて詳細に説明した要求推定装置などを用いて行うことが
考えられる。

【００４４】ユーザの現在の要求（例えば食事したい、
ショッピングしたい、公園に行きたい、など）と状態
（例えば空腹、疲労、元気、など）、及び所定の時刻に
予測される要求・状態、さらにはスケジュール情報など
を基にして構文評価表３４を選択する。上述したように
構文評価表３４は複数個選択することができ、その場合
は各選択に対して重み付けを行う。その様子を図５に示
した。なお、最終的な評価スコアの出力は、荷重値×評
価スコアで与えられることとなる。

【００４５】（２）ユーザ環境・状況を用いた動作このユーザ環境、状況も、上述の特願平１０−１８４８
４０号にて説明した要求推定装置などを用いて行うこと
が考えられる。ユーザの現在の環境や状況（例えば国、
地域、現在地、季節、時間、天候、場所、渋滞状況、な
ど）を基にして構文評価表３４を選択する。構文評価表
３４を複数個選択できる点や各選択に対して重み付けを
行う点、及び荷重値×評価スコアで最終的な評価スコア
の出力が与えられる点については、上記（１）のユーザ
要求、状態を用いた動作の場合と同様である。

【００４６】（３）文脈情報を用いた動作それまでの対話や文脈情報（例えば対話制御装置５（図
１参照）のアプリケーションの種類や話題のシナリオな
ど）に基づき、制御装置３２内で選択した（つまり入力
した単語列候補から推定した）シナリオが適正であるか
どうかをシナリオ間の関連性や連続性という観点で判定
する。必要に応じて数値表現してもよい。例えば対話制
御装置５からユーザへ「和食と中華料理のどちらを選び
ますか」という問いかけがなされた場合、ユーザはその
問いかけに対する答えとして、例えば「中華料理」とい
うように発話することが期待される。したがって、この
場合には料理を全く関係がない内容の発話がされた場合
には、シナリオ間の関連性や連続性がなく、シナリオは
適正でないという判断となる。

【００４７】なお、図５にも例示したが、ユーザ情報と
して、名前、年齢、国籍、住所、家族構成、趣味などの
パーソナルデータも設定しておき、構文評価表の選択と
重み付けに用いても良い。以上、本実施形態の音声対話
システムの内容を説明したが、より理解を容易にするた
め、具体的な対話例を取り上げて動作内容について説明
する。図１１にはその概要を示した。

【００４８】ここでは、ユーザが「おかざきの○○○○
○（店名）でらーめんくいたい」と発話した場合を想定
する。そして、図１の音声認識装置１においては音声認
識部１１と単語列生成部１２によって、以下〜に示
す単語列が生成されたとする。

【００４９】おかざき ○○○○○ らーめんくいたいおかざき ○○○○○ れーめんくいたいおかざき ○○○○○ そーめんくいたいおかやまおむらいすらーめんくいたいかくだいしゅくしょうらーめんくいたいおかざき ○○○○○ らーめんいんたーちぇん
じいせざきちょうどらいぶしたいこれらの例の内で、〜はシナリオが食事・レストラ
ンであることが限定できるため、意味的にも構文的にも
非常に高い評価スコアを得る。つまり「統計的に適正」
である。これに対して、は構文タイプを考えた場合、
料理名が２つ続くことがあまりないと判定されれば評価
スコアは低くなる。

【００５０】さらに、外部入力の情報として現在地が愛
知県内であることが判れば、地名としての「おかやま」
はこれから食事に行くにしては遠すぎるため、尤度は低
くなる（環境による評価）。その結果、除去される。ま
た、はナビゲーションに関するコマンドである「かく
だい」と食事要求「くいたい」が混在しているので、構
文上あり得ない組み合わせであるとして除去される。
もと同様に、ナビゲーションに関するコマンドである
「かくだい」及び「しゅくしょう」と食事要求「くいた
い」が混在しているので除去される。

【００５１】一方、は、構文としては適正であるが、
「いせざきちょう」という地名が愛知県内（あるいはそ
の近隣）になければ尤度は低くなる。また、予め目的地
が設定されているのであれば、構文評価表３４やシナリ
オの選択において「ドライブ」の荷重値は下げられる。

【００５２】以上の点を考え、さらに３個までの単語列
を出力するという観点からすれば、〜の単語列が最
終評価（図３のＭ９参照）からの出力となる。したがっ
て、例えばの内容をトークバックすれば、ユーザの意
図する内容となっているのでユーザが確認動作をし、確
定することとなる。この場合、例えば→→の順番
でトークバックするとしても、ユーザが２回否定すれ
ば、３回目には意図した内容がトークバックされる。こ
れが上述した〜までの単語列候補のままであれば、
最悪７回目にしか意図した内容がトークバックされない
ので、使い勝手が低減する。この点でユーザの利便向上
に寄与することとなる。

【００５３】つまり、本実施形態のシステムに用いた適
正単語列推定装置３は、音声認識装置１から出力された
複数の単語列候補に対し、自然言語として統計的に適正
か否かという観点から所定の検証を行うことで適正な単
語列を推定するという一種のフィルタ処理を行ってい
る。これにより、例えば全く意味をなさない内容の候補
については予め候補から脱落させて適切な候補のみに絞
ることができる。

【００５４】なお、例えば「食事場所としての「○○○
○○」における代表的な料理は「らーめん」や「ぎょう
ざ」などの中華料理である」という知識があれば、の
優先度が高くなり、最初に発話されることとなる。ま
た、さらに「現在の季節（冬）を考えると、夏向けのメ
ニューである「れーめん」は扱っていないと考えるので
常識的である」という知識や、「食事場所としての「○
○○○○」では「そーめん」は扱っていない」という知
識があれば、及びをも排除してだけを残すことも
可能である。これらの知識は、意味ネットワークとして
単語辞書３３の付属情報に盛り込むか、後段の対話制御
装置５を介したデータベース検索を実行することによっ
て得られる。これらの知識がないとしても、「岡崎の○
○○○○に行きますか？」というトークバックによっ
て、ユーザの意図確認はできる。

【００５５】以上、本発明の一実施形態について説明し
たが、本発明は、上記実施形態に限定されるものではな
く、種々の形態を採り得ることは言うまでもない。例え
ば、上記実施形態のシステムにおいては、適正単語列推
定装置３が、音声認識装置１から出力される単語列候補
に対して適正な単語列の推定を行うものとして実現した
が、音声認識装置１以外の認識装置であっても同様に実
現できる。例えば、認識対象者によって入力された手書
き文字列を辞書データと比較し、一致度合の高い複数の
単語列候補を出力する文字認識装置であってもよい。手
書き文字に関してもやはり誤認識が発生し易いため、適
正な単語列を推定することは有効性が高い。

【００５６】また、音声認識や文字認識のように、認識
装置に入力される時点で直接的に単語列の内容となって
いるものに限らず、画像認識装置であってもよい。即
ち、認識対象を捉えた画像を場面として認識した上で、
場面を自然言語化するような認識装置であれば実現でき
る。具体的には、例えば認識対象者が手話をしている画
像から手話パターンを認識し、その手話パターンが表す
自然言語的な意味を示す単語列候補を出力するようなも
のである。手話パターンについても、微妙な指使いによ
って表す単語が異なるため、手話をする者の個人差など
によって、やはり誤認識は発生する。したがって、やは
りこの場合も、誤認識が含まれる可能性の高い手話パタ
ーンの認識装置による認識結果に対して適正な単語列を
推定することは有効性が高い。

【図面の簡単な説明】

【図１】実施形態の適正単語列推定装置を含む音声対
話システムの概略構成を表すブロック図である。

【図２】実施形態の適正単語列推定装置の構成を表す
ブロック図である。

【図３】実施形態の適正単語列推定装置内の制御装置
の機能ブロック図である。

【図４】実施形態の適正単語列推定装置内の制御装置
における動作内容を表すフローチャートである。

【図５】構文評価表の概略及びその選択と重み付けの
概要を表す説明図である。

【図６】レストラン検索における構文形態（４語の場
合）の具体例を示す説明図である。

【図７】レストラン検索における構文形態（４語の場
合）の具体例を示す説明図である。

【図８】レストラン検索における構文形態（３語の場
合）の具体例を示す説明図である。

【図９】レストラン検索における構文形態（３語の場
合）の具体例を示す説明図である。

【図１０】（ａ）はレストラン検索における構文形態
（２語の場合）の具体例を示す説明図、（ｂ）はレスト
ラン検索における構文形態（１語の場合）の具体例を示
す説明図である。

【図１１】実施形態の音声対話システムにおける具体
的な対話例での適正単語列推定装置の動作内容を示す説
明図である。

【符号の説明】

１…音声認識装置３…適正単語列推定装置５…対話制御装置１１…音声認識部１２…単語列生成部３１…単語列候補記憶部３２…制御装置３３…単語辞書３４…構文評価表３５…ユーザ要求・状態
設定３６…環境・状況設定３７…文脈情報５１…対話制御部５２…音声合成部５３…機器制御部

Claims

【特許請求の範囲】

【請求項１】認識対象の動作内容が反映された情報を入
力し、辞書データと比較して一致度合の高い複数の単語
列候補を出力する認識装置から出力された複数の単語列
候補に対して適正な単語列を推定する適正単語列推定装
置であって、自然言語として統計的に適正か否かという観点から所定
の検証を行い、適正な単語列を推定すること、を特徴と
する適正単語列推定装置。
【請求項２】請求項１記載の適正単語列推定装置におい
て、文法、意味、常識を加味して統計的に適正か否かという
観点から前記所定の検証を行うこと、を特徴とする適正
単語列推定装置。
【請求項３】請求項１又は２記載の適正単語列推定装置
において、単語数と属性を限定した単語列に対して考えられる全て
の単語の順列に基づいて構成された参照単語列につい
て、自然言語として統計的に適正である度合いに応じて
スコアが付けられた構文評価表に基づき、前記認識装置
から出力される複数の単語列候補を前記構文評価表と照
合して上位のスコアを獲得した所定数の単語列候補に絞
ることによって、前記所定の検証を行うこと、を特徴と
する適正単語列推定装置。
【請求項４】請求項１〜３のいずれか記載の適正単語列
推定装置において、さらに、以下の〜の少なくともいずれか１つを加味
して前記所定の検証を行うこと、を特徴とする適正単語
列推定装置。前記認識対象の置かれている環境や状況前記認識対象が人間である場合にはその者の要求や状
態対話システムに用いられている場合にはその対話にお
ける文脈情報
【請求項５】請求項１〜４のいずれか記載の適正単語列
推定装置において、前記認識対象は人間であり、前記認識装置は、その認識
対象者によって入力された音声を辞書データと比較し、
一致度合の高い複数の単語列候補を出力する音声認識装
置であること、を特徴とする適切単語列推定装置。
【請求項６】請求項１〜４のいずれか記載の適正単語列
推定装置において、前記認識対象は人間であり、前記認識装置は、その認識
対象者によって入力された手書き文字列を辞書データと
比較し、一致度合の高い複数の単語列候補を出力する文
字認識装置であること、を特徴とする適切単語列推定装
置。
【請求項７】請求項１〜４のいずれか記載の適正単語列
推定装置において、前記認識装置は、前記認識対象を捉えた画像を場面とし
て認識した上で、場面を自然言語化するための辞書デー
タと前記認識場面を比較し、一致度合いの高い複数の単
語列候補を出力する画像認識装置であること、を特徴と
する適切単語列推定装置。
【請求項８】請求項７記載の適正単語列推定装置におい
て、前記認識対象は人間であり、前記画像認識装置は、その
認識対象者が手話をしている画像から手話パターンを認
識し、その手話パターンが表す自然言語的な意味を示す
単語列候補を出力するものであること、を特徴とする適
切単語列推定装置。