JP2000221991A - 適正単語列推定装置 - Google Patents

適正単語列推定装置

Info

Publication number
JP2000221991A
JP2000221991A JP11020349A JP2034999A JP2000221991A JP 2000221991 A JP2000221991 A JP 2000221991A JP 11020349 A JP11020349 A JP 11020349A JP 2034999 A JP2034999 A JP 2034999A JP 2000221991 A JP2000221991 A JP 2000221991A
Authority
JP
Japan
Prior art keywords
word string
recognition
appropriate
proper
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11020349A
Other languages
English (en)
Other versions
JP4244423B2 (ja
Inventor
Mikio Sasaki
美樹男 笹木
Katsushi Asami
克志 浅見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP02034999A priority Critical patent/JP4244423B2/ja
Priority to US09/490,442 priority patent/US6556970B1/en
Publication of JP2000221991A publication Critical patent/JP2000221991A/ja
Application granted granted Critical
Publication of JP4244423B2 publication Critical patent/JP4244423B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】認識装置から出力された複数の単語列候補に対
して、適正な単語列を推定することにより、一種のフィ
ルタ処理を行う。 【解決手段】ユーザの発話内容を音声認識した結果、複
数の単語列候補が生成され、制御装置32はこの単語列
候補に対して一種のフィルタ処理を行う。例えば文法
的、口語表現的、使用頻度などの観点、あるいはユーザ
に関する環境・状況・要求などに整合するかといった観
点から、予め作成された構文評価表34の選択と重み付
けを行い(M5)、評価値の分布に基づいて構文の適正
度合いを評価する(M9)。これによって、統計的に適
正(意味的に適正といってもよい)な単語列を推定(抽
出)することができる。なお、単語列に伴って生成され
る単語毎の尤度から単語列の全体尤度を計算し(M
8)、最終評価(M9)に用いてもよい。また対話シス
テムであれば対話における文脈情報も利用すればよい。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば人間から発
せられた音声を入力し、辞書データと比較して一致度合
の高い複数の単語列候補を出力する認識装置から出力さ
れた複数の単語列候補に対して適正な単語列を推定する
ために用いれれる適正単語列推定装置に関するものであ
る。
【0002】
【従来の技術】従来より、例えば人間から発せられた音
声を入力し、辞書データと比較して一致度合の高い複数
の単語列候補を出力する認識装置が知られており、例え
ばその認識装置を用いて使用者の発話内容を認識し、認
識結果に応じて機器を動作させる制御システムなどに適
用されている。例えば、使用者が音声コマンドとして予
め定められた言葉を発話すると、その言葉に対応した情
報検索動作などを行う自動車用ナビゲーション装置など
が実用化されている。
【0003】
【発明が解決しようとする課題】ところで、現状の音声
認識には連続単語認識とワードスポッティングという2
つの手法がある。前者の認識手法によれば、例えば「お
かざき、○○○○○(店名)、らーめん」といった単語
毎の認識が可能であるが、実際には誤認識を避けて通る
ことはできない。そのため、現行のナビゲーション装置
などでは、認識結果として複数の候補を持ち、最初にそ
の内の1つをトークバックしてユーザに確認を求めるこ
とがなされている。ユーザは自分が発話した内容と違っ
ていれば、認識結果が違っている旨を装置に伝える。す
ると、装置側は別の認識結果を提示して再度ユーザの確
認を求める。認識結果の候補を多数準備して次々に提示
していけば、最終的にはユーザが意図した内容の認識結
果となることは可能であるが、候補の中には、全く意味
をなさない内容のものも含まれる可能性があり、上述し
た最終的に適切な候補に至るまでに長時間要してしまう
ことも考えられる。
【0004】また、後者のワードスポッティング手法
は、例えば「えーと、おかざきの○○○○○(店名)で
らーめんくいたいなあ」という日常語的な音声入力から
「おかざき、○○○○○(店名)、らーめん、くいた
い」というキーワードを抽出できるという点で近年急速
に注目されている音声認識技術である。しかしながら、
当該手法の場合には、ラティスと呼ばれるその出力(時
区間情報と確率情報を持った単語集合)から生成される
単語列候補の数は非常に多く、意味を持つ小数の単語列
に絞られることは稀である。また、当該手法における現
在の認識語彙数は100語程度であるが、将来的には1
000語以上に増大することが見込まれ、その結果とし
て発生するラティスから生成される単語列は膨大な数に
上ると考えられる。したがって、上述した連続単語列認
識手法の場合で述べたのと同様(むしろ、より顕著な)
の問題が存在する。
【0005】そして、こうした問題は、音声認識だけで
なく、例えば筆記具で書いた文字をスキャナで読み取っ
たりするような文字認識や、撮影した画像から、その場
面を示す単語列を認識するような場合でも、やはり同様
に発生する。つまり、認識対象の動作内容が反映された
情報を入力し、辞書データと比較して一致度合の高い複
数の単語列候補を出力するような認識装置を考えた場合
には、認識結果としての単語列候補中に不適切なものが
含まれているため、同様の問題を招来するのである。
【0006】本発明は、こうした問題に鑑みなされたも
のであり、このような認識装置から出力された複数の単
語列候補に対して、適正な単語列を推定することによ
り、一種のフィルタ処理を行う適正単語列推定装置を提
供することを目的とする。
【0007】
【課題を解決するための手段、及び発明の効果】上記目
的を達成するためになされた請求項1に記載の本発明の
適正単語列推定装置は、認識装置から出力された複数の
単語列候補に対して適正な単語列を推定する装置であ
る。認識装置は、認識対象の動作内容が反映された情報
を入力し、辞書データと比較して一致度合の高い複数の
単語列候補を出力する。つまり、誤認識の可能性がある
ため、複数の単語列候補を出力することで、その中には
適切なものが含まれるようにするのである。従来は、上
述したように、認識装置による認識結果をユーザに報知
して、ユーザに確認を求めることがなされていた。しか
し、認識結果の単語列候補の中には、全く意味をなさな
い内容のものも含まれる可能性があり、ユーザの確認を
経る場合であっても、最終的に適切なものに確定される
までに長時間要してしまうことも考えられる。
【0008】そこで、本発明の適正単語列推定装置は、
認識装置から出力された複数の単語列候補に対して、適
正な単語列を推定するという一種のフィルタ処理を行う
ことで、例えば全く意味をなさない内容の候補について
は予め候補から脱落させて適切な候補のみに絞るのであ
る。そして、その適正な単語列を推定のために、自然言
語として統計的に適正か否かという観点から所定の検証
を行う。
【0009】自然言語として統計的に適正であるものに
絞れば、全く意味をなさない内容の候補については予め
候補から脱落させることができる。したがって、例えば
上述したように認識装置による認識結果をユーザに報知
して確認を求める場合であっても、候補自体が絞られて
いるため、最終的に適切なものに確定されるまでの時間
を大幅に短縮することができる。
【0010】本発明の特徴の1つとして、「自然言語と
して統計的に適正か否かという観点から所定の検証」を
行う点が挙げられるが、この点に関しては、例えば請求
項2に示すように、文法、意味、常識を加味して統計的
に適正か否かという観点から所定の検証を行うようにし
てもよい。
【0011】なお、「統計的に適正」の内容としては、
ここで加味する文法、意味、常識という観点からも判断
がされる場合もあるため、厳密な意味で、「統計的に適
正」の内容として「文法、意味、常識という観点から適
正」という内容が含まれないとは言えない。つまり、抽
象的な技術思想の創作を表現するという意味で「統計的
に適正」という表現をした。但し、抽象的な技術思想の
創作の内容を理解する上では、具体的な内容を考慮する
ことも有効である。つまりこの場合は、文法的に適正か
という非常に基本的な言語学的な判断も有効であり、ま
た意味的あるいは常識的に適正かという応用的な言語学
的な判断もまた別の観点で有効である。したがって、こ
れら言語学的な種々の観点を考慮した上での「適正さ」
を表現するものとして「統計的に適正」と表した。
【0012】また、より具体化の度合いを増したものと
しては請求項3に示す装置が挙げられる。つまり、単語
数と属性を限定した単語列に対して考えられる全ての単
語の順列に基づいて構成された参照単語列について、自
然言語として統計的に適正である度合いに応じてスコア
を付けた構文評価表を作成しておく。そして認識装置か
ら出力される複数の単語列候補を構文評価表と照合して
上位のスコアを獲得した所定数の単語列候補に絞ること
によって、上述した「所定の検証」を行うようにするの
である。このようにすれば、「統計的に適正」な度合い
が数値化されるため、所定の検証が容易に行える。
【0013】以上説明したように、基本的には、認識装
置による認識結果である複数の単語列候補のみに基づい
て所定の検証を行うことが可能であるが、請求項4に示
すように、さらに、以下の〜の少なくともいずれか
1つを加味して所定の検証を行うようにしてもよい。つ
まり、認識対象の置かれている環境や状況、認識対
象が人間である場合にはその者の要求や状態、対話シ
ステムに用いられている場合にはその対話における文脈
情報、である。
【0014】に示すように、認識対象の置かれている
環境や状況を加味すれば、その環境や状況においては物
理的にあり得ない内容の単語列候補などを間引くことが
できる。例えば上述したカーナビゲーション装置に適用
した場合であれば、装置を搭載した車両が高速道路を走
行している場合に、「次の交差点を左折」という内容の
指示がされることはあり得ないため、高速道路上を走行
しているという環境(状況)に基づく検証によって、よ
り適切な候補に絞ることができる。
【0015】また、に示すように、認識対象が人間で
ある場合にはその者の要求や状態を加味すれば、その要
求内容や状態においては常識的に考えられない内容の単
語列候補などを間引くことができる。逆に、認識対象者
の要求内容や状態にあった単語列候補を適切に推定する
ことができる。例えば認識対象者のスケジュール情報が
設定されている場合には、そのスケジュールから認識対
象者の要求が推定できるので、その要求に合わないもの
は間引き、要求にあったものをに絞ることができる。
【0016】また、に示すように、認識対象が人間で
あり、且つ対話システムに用いられている場合には、そ
の対話における文脈情報を加味すれば、それまでの対話
内容における文脈から考えて常識的に考えられない内容
の単語列候補などを間引くことができる。例えば上述し
たカーナビゲーション装置に適用した場合であれば、例
えば目的地を設定する際、まず「食事に行きたい」とい
う要求がユーザからあった後、具体的な店名などを認識
する際には、食事のできる場所ではない(到底考えられ
ない)名称が指示されることはあり得ないため、「食事
に行きたい」という要求内容に基づく検証によって、よ
り適切な候補に絞ることができる。
【0017】ところで、認識装置に関しては、認識対象
の動作内容が反映された情報を入力し、辞書データと比
較して一致度合の高い複数の単語列候補を出力するもの
であるという説明をしたが、具体的には、例えば次に示
すようなものが考えられる。まず、請求項5に示すよう
に、認識対象者によって入力された音声を辞書データと
比較し、一致度合の高い複数の単語列候補を出力する音
声認識装置であることが考えられる。上述したナビゲー
ション装置における目的地などの指示を音声入力するシ
ステムなどに実用化されており、適用対象としては一般
的に考えられる。つまり、音声認識に際しては入力音声
の音響的な特徴に基づくのであるが、人間が発する音声
の音響的な特徴は個人差が大きく、また日常的には正確
な発音をしない場合も多いので誤認識が発生し易い。し
たがって、そのような誤認識が含まれる可能性の高い音
声認識装置による認識結果に対して、これまで説明した
ような適正な単語列を推定することは、非常に有効性が
高いと考えられる。
【0018】また、例えば請求項6に示すように、認識
対象者によって入力された手書き文字列を辞書データと
比較し、一致度合の高い複数の単語列候補を出力する文
字認識装置であってもよい。手書き文字に関しても、上
述の音響的特徴と同様に個人差が大きく、また日常的に
は正確な書体にて文字を書かない場合も多いので、やは
り誤認識が発生し易い。したがって、誤認識が含まれる
可能性の高い文字認識装置による認識結果に対して適正
な単語列を推定することは、非常に有効性が高い。な
お、文字認識の形態については、種々考えられ、例えば
筆記具で書いた文字をスキャナで読み取る場合の認識は
もちろん、PDA(携帯情報端末)などによく見られる
ように、入力ペンにて画面上をなぞるような文字入力方
法の場合の認識であってもよい。
【0019】さらには、このような音声認識や文字認識
のように、認識装置に入力される時点で直接的に単語列
の内容となっているものに限らず、請求項7に示すよう
な画像認識装置であってもよい。即ち、認識対象を捉え
た画像を場面として認識した上で、場面を自然言語化す
るための辞書データと認識場面を比較し、一致度合いの
高い複数の単語列候補を出力するような画像認識装置で
ある。
【0020】その一具体例として、請求項8に示すよう
な適用が考えられる、つまり、認識対象を人間とし、そ
の認識対象者が手話をしている画像から手話パターンを
認識し、その手話パターンが表す自然言語的な意味を示
す単語列候補を出力するのである。この場合であれば、
手話パターンと単語との対応パターンが確立されている
ので、そのパターンマッチングにより自然言語的な意味
を示す単語列候補を出力することは容易に実現できる。
但し、この場合の手話パターンについても、微妙な指使
いによって表す単語が異なるため、手話をする者の個人
差などによって、やはり誤認識は発生する。
【0021】したがって、やはりこの場合も、誤認識が
含まれる可能性の高い手話パターンの認識装置による認
識結果に対して適正な単語列を推定することは有効性が
高いと言える。なお、この画像認識装置における認識対
象としては人間には限定されない。例えば道路上を撮像
するようにしておき、その道路を走行する車両などを含
めて、その場面を自然言語化するような場合であっても
適用可能である。
【0022】これらいくつか例示したように、認識装置
としては、認識対象の動作内容が反映された情報を入力
し、辞書データと比較して一致度合の高い複数の単語列
候補を出力するものであれば、誤認識の可能性があるた
め、本発明の適正単語列推定装置において単語列を推定
する対象である単語列候補を出力する装置として適用対
象となる。
【0023】なお、以上の説明からも判るように、本適
正単語列推定装置は、認識装置からの出力に対してフィ
ルタ処理を施すものである。そして、本適正単語列推定
装置によって推定された(つまり絞られた)後の単語列
候補の利用に関しては、例えば、そのままデータとして
蓄積してもよいし、音声や表示などの態様で出力しても
よいし、さらには何らかの制御に用いても良い。例え
ば、これまでに何度が例に出したカーナビゲーション装
置であれば、ユーザが音声入力した指示内容をトークバ
ックしたり、その指示内容に応じて所定の機器を動作さ
せる、といったことである。
【0024】また、上述した適正単語列推定装置におけ
る適正単語列の推定処理をコンピュータシステムにて実
現する機能は、例えば、コンピュータシステム側で起動
するプログラムとして備えることができる。このような
プログラムの場合、例えば、フロッピーディスク、光磁
気ディスク、CD−ROM、ハードディスク等のコンピ
ュータ読み取り可能な記録媒体に記録し、必要に応じて
コンピュータシステムにロードして起動することにより
用いることができる。この他、ROMやバックアップR
AMをコンピュータ読み取り可能な記録媒体として前記
プログラムを記録しておき、このROMあるいはバック
アップRAMをコンピュータシステムに組み込んで用い
ても良い。
【0025】
【発明の実施の形態】以下、本発明の実施形態につい
て、図面を用いて説明する。まず図1は、実施形態の適
正単語列推定装置3を含む音声対話システムの概略構成
を表すブロック図である。本システムにおいて適正単語
列推定装置3は、入力音声に対して音声認識を行う音声
認識装置1からの出力に対し、所定の処理を施して後段
の対話制御装置5へ出力するものである。
【0026】音声認識装置1は、音声認識部11と単語
列生成部12とを備えている。ある発話に相当する音声
入力は音声認識部11で処理され、認識語彙辞書に登録
されている単語の集まりとして出力される。この時点で
は候補となる単語が同一時刻に複数個示される可能性が
ある。その後、単語列生成部12では、音声認識部11
から出力された単語に基づいて、時区間的に重なりのな
い単語列を複数個生成し、適正単語列推定装置3へ出力
する。
【0027】適正単語列推定装置3については後で詳述
するが、簡単に言えば、音声認識装置1から(具体的に
は単語列生成部12から)出力された複数の単語列候補
に対して、自然言語として統計的に適正か否かという観
点から所定の検証を行い、例えば1〜3個程度の適正な
単語列を選択するという動作を行う。対話制御装置5
は、テキストベースでの対話制御を行う対話制御部51
と、音声合成部52と、機器制御部53を備えており、
適正単語列推定装置3から入力した単語列に基づいて、
例えばその単語列を音声合成部52を介して音声出力し
たり、あるいはその単語列に基づく内容となるように機
器制御部53に指示を出したりする。
【0028】これが音声対話システムの全体構成である
が、本発明の特徴でもある適正単語列推定装置3の詳し
い構成について説明する。図2に示すように、適正単語
列推定装置3内においては、音声認識装置1内の単語列
生成部12から出力された単語列群を単語列候補記憶部
31に格納する。制御装置32は、単語列候補記憶部3
1から単語列及び関連情報を入力し、認識語彙を格納し
た単語辞書33と予め作成しておいた構文評価表34、
さらにはユーザ要求・状態設定35、環境・状況設定3
6、文脈情報37を基にして適正な単語列を3個程度選
定する。制御装置32において選定された単語列は対話
制御装置5内の対話制御部51へ出力される。
【0029】続いて、適正単語列推定装置3内の制御装
置32について、さらに図3を参照して説明する。図3
は制御装置32のブロック図であり、ここでは各ブロッ
クM1〜M10における処理内容の説明を中心に進め
る。上述したように制御装置32へは、単語列候補記憶
部31から単語列と関連情報が入力される。この関連情
報とは、単語列に付随する識別情報(コマンド、地名、
店名などの分類又は記憶領域の番地など)や尤度などで
ある。この関連情報中の識別情報に基づき、単語辞書3
3の選択(M1)を行う。
【0030】そして、その選択された単語辞書33にて
該当する単語を検索し、単語属性の獲得(M2)を行
う。このM2での単語属性の獲得においては、アプリケ
ーションに必要な付属情報(シナリオ分類(例えば駅
名、レストラン、公園、デパートといった分類)、該当
する場所、季節、時刻など)と単語属性(要求キーワー
ド(食べたい、買いたい、など)、店名、場所、料理名
など)を獲得する。
【0031】そしてこれら単語属性・付属情報に基づい
て、シナリオ名の決定(M3)及び構文タイプの決定
(M4)を行う。M4にて決定された構文タイプは、構
文評価表34の検索に用いられる。一方、M3にて決定
されたシナリオは、構文評価表の選択と重み付け(M
5)に用いられる。
【0032】このM5での構文評価表の選択と重み付け
は、M3にて決定されたシナリオ名と、外部入力である
ユーザ要求、状態設定35、環境・状況設定36及び文
脈情報37に基づいて行われる。この選択と重み付けに
関しては、構文評価表34の作成手法などとも併せて後
述する。
【0033】この検索の結果、該当するシナリオと構文
タイプに対応するスコアが獲得される。これらの一連の
スコア獲得動作を各単語列について行い、一連の評価ス
コアの値と分布を計算した上で、ある一定以上のスコア
であり且つ他の単語列のスコアとの有意差がある単語列
を抽出する(M7)。
【0034】一方で入力された単語列に付随する各単語
毎の尤度情報を基に単語列全体の尤度を計算する(M
8)。そして、M9での最終評価は、M7にて評価値分
布に基づき抽出された単語列に対し、全体尤度がある閾
値以上であるか否かという観点からの評価を行う。本例
ではこの最終評価(M9)にて3個以内の出力すべき単
語列を選択する。このようにして評価スコアと全体尤度
を判定した結果として選ばれた出力単語列が格納バッフ
ァに格納され(M10)、アプリケーション段階である
対話制御装置5の対話制御部51へ出力される。
【0035】なお、M7での評価スコアの分布計算によ
る単語列の抽出に関しては、分布から明らかに評価値の
高いものがあれば、それらを抽出すればよい。これは、
構文評価が上手くいったことを示す。したがって、最終
評価(M9)で確認的に全体尤度を参酌すればよい。こ
こで「確認的に参酌」としたのは次の理由からである。
つまり、評価値は低いのに、全体尤度を参酌すると逆転
してそちらの方が適正であると判断されてしまうのはよ
くない。したがって、構文評価が上手くいった場合に
は、その結果としての評価値を用いた判断を優先するた
め、予め評価値の分布から有意差のある単語列を抽出し
ておくことで、不適切なものを(つまり評価値が低い
者)をここでカットすることができる。逆に、評価値が
ほとんど同じ様な分布になれば、構文評価が上手くいっ
てないので、その場合は全体尤度にて判断せざるを得な
い。
【0036】このような機能を持つ制御装置32におけ
る動作内容を図4を参照して説明する。まず、最初のス
テップ10においては、ユーザ要求、状態設定35及び
環境・状況設定36を指示する。このユーザ要求、状態
設定35及び環境・状況設定36に関しては、本願出願
人による特願平10−184840号において詳細に説
明した要求推定装置などを用いて設定することが考えら
れる。なお、この要求推定装置についてはここでは詳し
くは説明しない。
【0037】次に、単語列候補記憶部31から単語列と
関連情報を入力し(S20)、関連情報中の識別情報に
基づいて単語辞書33を選択する(S30)。そして、
単語列を構成する各単語の属性(料理名など)を決定し
(S40)、この複数の単語属性を基に対応シナリオを
L個選出する(S50)。このS30〜S50の処理を
全ての単語を探索するまで行い(S60)、すべての単
語についての探索がなされた場合には(S60:Ye
s)、各単語の属性の並び(例えば場所、店名、料理
名、要求キーワードなど)を基に構文タイプを決定する
(S70)。
【0038】続いて、シナリオ名やユーザ要求、状態、
環境、状況及び文脈情報などを基に構文評価表34を選
択し(S80)、該当する構文タイプに対応する評価ス
コアを獲得する(S90)。但し、ここで選択する構文
評価表は1つとは限らない。以上のS30〜S90の処
理を、候補となる単語列の全てについて行い(S10
0)、単語列の評価スコアの分布を分析し、その分布を
基にして偏差の高い単語列を選択する(S110)。
【0039】最後に、全体尤度を考慮して最終評価を行
い(S120)、ある閾値以上の上位K個(本例では3
個以内)を選択して出力する(S130)。制御装置3
2の構成とその動作についての基本的な内容を説明した
が、制御装置32内の構文評価表の選択と重み付け(M
5)に関して、さらに説明する。
【0040】まず、選択対象の構文評価表34に関して
説明する。構文評価表34は、予め各単語属性の並びを
全ての順列について考え、実際の発話例をあてはめて主
観的に評価することによって作成する。ここでは、レス
トランを検索するための発話を想定した具体例を図6〜
図10を参照して説明する。
【0041】レストラン検索であるため、例えば{場
所、店名、料理名、要求キーワード}という4種類の単
語属性を用いた4個以内の属性の並びを考える。4属性
を全て用いた場合には、図6,7に示すように24通り
の並びが考えられる。また、4属性の内の3属性を用い
た場合には、図8,9に示すように24通りの並びが考
えられる。さらに、4属性の内の2属性を用いた場合に
は、図10(a)に示すように12通り、4属性の内の
1属性を用いた場合には、図10(b)に示すように4
通りの並びが考えられる。したがって、合成64通りの
順列が考えられ、この各々を構文タイプと呼ぶ。
【0042】そして、この各構文タイプに対してシナリ
オ(ナビ、食事、デパート、公園、ゴルフ、など)毎に
評価スコアを主観的評価に基づいて設定する。このよう
にして作成されたものが、図5に例示するような構文評
価表34となる。なお、図6〜図10に示した具体例で
は、10,7,4,1という4段階での評価スコアを設
定した。また、評価スコア自体をユーザ自らが設定する
ようにしてもよいが、デフォルト値は製品に固定値とし
て組み込んでおくこととする。但しその場合でも、使用
地域や言語、あるいはユーザの個性などに応じて変更設
定できるようにしておくことが好ましい。
【0043】続いて、構文評価表の選択と重み付けの際
に参照するユーザ要求、状態設定35、環境・状況設定
36及び文脈情報37に関して説明する。 (1)ユーザ要求、状態を用いた動作このユーザ要求、
状態の設定は、上述した特願平10−184840号に
おい て詳細に説明した要求推定装置などを用いて行うことが
考えられる。
【0044】ユーザの現在の要求(例えば食事したい、
ショッピングしたい、公園に行きたい、など)と状態
(例えば空腹、疲労、元気、など)、及び所定の時刻に
予測される要求・状態、さらにはスケジュール情報など
を基にして構文評価表34を選択する。上述したように
構文評価表34は複数個選択することができ、その場合
は各選択に対して重み付けを行う。その様子を図5に示
した。なお、最終的な評価スコアの出力は、荷重値×評
価スコアで与えられることとなる。
【0045】(2)ユーザ環境・状況を用いた動作 このユーザ環境、状況も、上述の特願平10−1848
40号にて説明した要求推定装置などを用いて行うこと
が考えられる。ユーザの現在の環境や状況(例えば国、
地域、現在地、季節、時間、天候、場所、渋滞状況、な
ど)を基にして構文評価表34を選択する。構文評価表
34を複数個選択できる点や各選択に対して重み付けを
行う点、及び荷重値×評価スコアで最終的な評価スコア
の出力が与えられる点については、上記(1)のユーザ
要求、状態を用いた動作の場合と同様である。
【0046】(3)文脈情報を用いた動作 それまでの対話や文脈情報(例えば対話制御装置5(図
1参照)のアプリケーションの種類や話題のシナリオな
ど)に基づき、制御装置32内で選択した(つまり入力
した単語列候補から推定した)シナリオが適正であるか
どうかをシナリオ間の関連性や連続性という観点で判定
する。必要に応じて数値表現してもよい。例えば対話制
御装置5からユーザへ「和食と中華料理のどちらを選び
ますか」という問いかけがなされた場合、ユーザはその
問いかけに対する答えとして、例えば「中華料理」とい
うように発話することが期待される。したがって、この
場合には料理を全く関係がない内容の発話がされた場合
には、シナリオ間の関連性や連続性がなく、シナリオは
適正でないという判断となる。
【0047】なお、図5にも例示したが、ユーザ情報と
して、名前、年齢、国籍、住所、家族構成、趣味などの
パーソナルデータも設定しておき、構文評価表の選択と
重み付けに用いても良い。以上、本実施形態の音声対話
システムの内容を説明したが、より理解を容易にするた
め、具体的な対話例を取り上げて動作内容について説明
する。図11にはその概要を示した。
【0048】ここでは、ユーザが「おかざきの○○○○
○(店名)でらーめんくいたい」と発話した場合を想定
する。そして、図1の音声認識装置1においては音声認
識部11と単語列生成部12によって、以下〜に示
す単語列が生成されたとする。
【0049】 おかざき ○○○○○ らーめん くいたい おかざき ○○○○○ れーめん くいたい おかざき ○○○○○ そーめん くいたい おかやま おむらいす らーめん くいたい かくだい しゅくしょう らーめん くいたい おかざき ○○○○○ らーめん いんたーちぇん
じ いせざきちょう どらいぶしたい これらの例の内で、〜はシナリオが食事・レストラ
ンであることが限定できるため、意味的にも構文的にも
非常に高い評価スコアを得る。つまり「統計的に適正」
である。これに対して、は構文タイプを考えた場合、
料理名が2つ続くことがあまりないと判定されれば評価
スコアは低くなる。
【0050】さらに、外部入力の情報として現在地が愛
知県内であることが判れば、地名としての「おかやま」
はこれから食事に行くにしては遠すぎるため、尤度は低
くなる(環境による評価)。その結果、除去される。ま
た、はナビゲーションに関するコマンドである「かく
だい」と食事要求「くいたい」が混在しているので、構
文上あり得ない組み合わせであるとして除去される。
もと同様に、ナビゲーションに関するコマンドである
「かくだい」及び「しゅくしょう」と食事要求「くいた
い」が混在しているので除去される。
【0051】一方、は、構文としては適正であるが、
「いせざきちょう」という地名が愛知県内(あるいはそ
の近隣)になければ尤度は低くなる。また、予め目的地
が設定されているのであれば、構文評価表34やシナリ
オの選択において「ドライブ」の荷重値は下げられる。
【0052】以上の点を考え、さらに3個までの単語列
を出力するという観点からすれば、〜の単語列が最
終評価(図3のM9参照)からの出力となる。したがっ
て、例えばの内容をトークバックすれば、ユーザの意
図する内容となっているのでユーザが確認動作をし、確
定することとなる。この場合、例えば→→の順番
でトークバックするとしても、ユーザが2回否定すれ
ば、3回目には意図した内容がトークバックされる。こ
れが上述した〜までの単語列候補のままであれば、
最悪7回目にしか意図した内容がトークバックされない
ので、使い勝手が低減する。この点でユーザの利便向上
に寄与することとなる。
【0053】つまり、本実施形態のシステムに用いた適
正単語列推定装置3は、音声認識装置1から出力された
複数の単語列候補に対し、自然言語として統計的に適正
か否かという観点から所定の検証を行うことで適正な単
語列を推定するという一種のフィルタ処理を行ってい
る。これにより、例えば全く意味をなさない内容の候補
については予め候補から脱落させて適切な候補のみに絞
ることができる。
【0054】なお、例えば「食事場所としての「○○○
○○」における代表的な料理は「らーめん」や「ぎょう
ざ」などの中華料理である」という知識があれば、の
優先度が高くなり、最初に発話されることとなる。ま
た、さらに「現在の季節(冬)を考えると、夏向けのメ
ニューである「れーめん」は扱っていないと考えるので
常識的である」という知識や、「食事場所としての「○
○○○○」では「そーめん」は扱っていない」という知
識があれば、及びをも排除してだけを残すことも
可能である。これらの知識は、意味ネットワークとして
単語辞書33の付属情報に盛り込むか、後段の対話制御
装置5を介したデータベース検索を実行することによっ
て得られる。これらの知識がないとしても、「岡崎の○
○○○○に行きますか?」というトークバックによっ
て、ユーザの意図確認はできる。
【0055】以上、本発明の一実施形態について説明し
たが、本発明は、上記実施形態に限定されるものではな
く、種々の形態を採り得ることは言うまでもない。例え
ば、上記実施形態のシステムにおいては、適正単語列推
定装置3が、音声認識装置1から出力される単語列候補
に対して適正な単語列の推定を行うものとして実現した
が、音声認識装置1以外の認識装置であっても同様に実
現できる。例えば、認識対象者によって入力された手書
き文字列を辞書データと比較し、一致度合の高い複数の
単語列候補を出力する文字認識装置であってもよい。手
書き文字に関してもやはり誤認識が発生し易いため、適
正な単語列を推定することは有効性が高い。
【0056】また、音声認識や文字認識のように、認識
装置に入力される時点で直接的に単語列の内容となって
いるものに限らず、画像認識装置であってもよい。即
ち、認識対象を捉えた画像を場面として認識した上で、
場面を自然言語化するような認識装置であれば実現でき
る。具体的には、例えば認識対象者が手話をしている画
像から手話パターンを認識し、その手話パターンが表す
自然言語的な意味を示す単語列候補を出力するようなも
のである。手話パターンについても、微妙な指使いによ
って表す単語が異なるため、手話をする者の個人差など
によって、やはり誤認識は発生する。したがって、やは
りこの場合も、誤認識が含まれる可能性の高い手話パタ
ーンの認識装置による認識結果に対して適正な単語列を
推定することは有効性が高い。
【図面の簡単な説明】
【図1】 実施形態の適正単語列推定装置を含む音声対
話システムの概略構成を表すブロック図である。
【図2】 実施形態の適正単語列推定装置の構成を表す
ブロック図である。
【図3】 実施形態の適正単語列推定装置内の制御装置
の機能ブロック図である。
【図4】 実施形態の適正単語列推定装置内の制御装置
における動作内容を表すフローチャートである。
【図5】 構文評価表の概略及びその選択と重み付けの
概要を表す説明図である。
【図6】 レストラン検索における構文形態(4語の場
合)の具体例を示す説明図である。
【図7】 レストラン検索における構文形態(4語の場
合)の具体例を示す説明図である。
【図8】 レストラン検索における構文形態(3語の場
合)の具体例を示す説明図である。
【図9】 レストラン検索における構文形態(3語の場
合)の具体例を示す説明図である。
【図10】 (a)はレストラン検索における構文形態
(2語の場合)の具体例を示す説明図、(b)はレスト
ラン検索における構文形態(1語の場合)の具体例を示
す説明図である。
【図11】 実施形態の音声対話システムにおける具体
的な対話例での適正単語列推定装置の動作内容を示す説
明図である。
【符号の説明】
1…音声認識装置 3…適正単語列推定装置 5…対話制御装置 11…音声認識部 12…単語列生成部 31…単語列候補記憶部 32…制御装置 33…単語辞書 34…構文評価表 35…ユーザ要求・状態
設定 36…環境・状況設定 37…文脈情報 51…対話制御部 52…音声合成部 53…機器制御部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】認識対象の動作内容が反映された情報を入
    力し、辞書データと比較して一致度合の高い複数の単語
    列候補を出力する認識装置から出力された複数の単語列
    候補に対して適正な単語列を推定する適正単語列推定装
    置であって、 自然言語として統計的に適正か否かという観点から所定
    の検証を行い、適正な単語列を推定すること、を特徴と
    する適正単語列推定装置。
  2. 【請求項2】請求項1記載の適正単語列推定装置におい
    て、 文法、意味、常識を加味して統計的に適正か否かという
    観点から前記所定の検証を行うこと、を特徴とする適正
    単語列推定装置。
  3. 【請求項3】請求項1又は2記載の適正単語列推定装置
    において、 単語数と属性を限定した単語列に対して考えられる全て
    の単語の順列に基づいて構成された参照単語列につい
    て、自然言語として統計的に適正である度合いに応じて
    スコアが付けられた構文評価表に基づき、前記認識装置
    から出力される複数の単語列候補を前記構文評価表と照
    合して上位のスコアを獲得した所定数の単語列候補に絞
    ることによって、前記所定の検証を行うこと、を特徴と
    する適正単語列推定装置。
  4. 【請求項4】請求項1〜3のいずれか記載の適正単語列
    推定装置において、 さらに、以下の〜の少なくともいずれか1つを加味
    して前記所定の検証を行うこと、を特徴とする適正単語
    列推定装置。 前記認識対象の置かれている環境や状況 前記認識対象が人間である場合にはその者の要求や状
    態 対話システムに用いられている場合にはその対話にお
    ける文脈情報
  5. 【請求項5】請求項1〜4のいずれか記載の適正単語列
    推定装置において、 前記認識対象は人間であり、前記認識装置は、その認識
    対象者によって入力された音声を辞書データと比較し、
    一致度合の高い複数の単語列候補を出力する音声認識装
    置であること、を特徴とする適切単語列推定装置。
  6. 【請求項6】請求項1〜4のいずれか記載の適正単語列
    推定装置において、 前記認識対象は人間であり、前記認識装置は、その認識
    対象者によって入力された手書き文字列を辞書データと
    比較し、一致度合の高い複数の単語列候補を出力する文
    字認識装置であること、を特徴とする適切単語列推定装
    置。
  7. 【請求項7】請求項1〜4のいずれか記載の適正単語列
    推定装置において、 前記認識装置は、前記認識対象を捉えた画像を場面とし
    て認識した上で、場面を自然言語化するための辞書デー
    タと前記認識場面を比較し、一致度合いの高い複数の単
    語列候補を出力する画像認識装置であること、を特徴と
    する適切単語列推定装置。
  8. 【請求項8】請求項7記載の適正単語列推定装置におい
    て、 前記認識対象は人間であり、前記画像認識装置は、その
    認識対象者が手話をしている画像から手話パターンを認
    識し、その手話パターンが表す自然言語的な意味を示す
    単語列候補を出力するものであること、を特徴とする適
    切単語列推定装置。
JP02034999A 1999-01-28 1999-01-28 適正単語列推定装置 Expired - Fee Related JP4244423B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP02034999A JP4244423B2 (ja) 1999-01-28 1999-01-28 適正単語列推定装置
US09/490,442 US6556970B1 (en) 1999-01-28 2000-01-24 Apparatus for determining appropriate series of words carrying information to be recognized

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP02034999A JP4244423B2 (ja) 1999-01-28 1999-01-28 適正単語列推定装置

Publications (2)

Publication Number Publication Date
JP2000221991A true JP2000221991A (ja) 2000-08-11
JP4244423B2 JP4244423B2 (ja) 2009-03-25

Family

ID=12024659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02034999A Expired - Fee Related JP4244423B2 (ja) 1999-01-28 1999-01-28 適正単語列推定装置

Country Status (1)

Country Link
JP (1) JP4244423B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003140690A (ja) * 2001-11-06 2003-05-16 Denso Corp 情報システム、電子機器、プログラム
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
JP2004355003A (ja) * 2003-05-27 2004-12-16 Microsoft Corp 名前付きエンティティ認識を機能強化するユーザモデル化のシステムおよび方法。
JP2010091675A (ja) * 2008-10-06 2010-04-22 Mitsubishi Electric Corp 音声認識装置
CN105094386A (zh) * 2008-11-25 2015-11-25 吉田健治 手写输入输出系统、手写输入薄板、信息输入系统、信息输入辅助薄板
JP2016157019A (ja) * 2015-02-25 2016-09-01 日本電信電話株式会社 単語選択装置、方法、及びプログラム
US10759449B2 (en) 2018-06-13 2020-09-01 Honda Motor Co., Ltd. Recognition processing device, vehicle control device, recognition control method, and storage medium
WO2021171820A1 (ja) * 2020-02-27 2021-09-02 ソニーグループ株式会社 情報処理装置、および情報処理方法、並びにプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
JP2003140690A (ja) * 2001-11-06 2003-05-16 Denso Corp 情報システム、電子機器、プログラム
JP2004355003A (ja) * 2003-05-27 2004-12-16 Microsoft Corp 名前付きエンティティ認識を機能強化するユーザモデル化のシステムおよび方法。
JP2010091675A (ja) * 2008-10-06 2010-04-22 Mitsubishi Electric Corp 音声認識装置
CN105094386A (zh) * 2008-11-25 2015-11-25 吉田健治 手写输入输出系统、手写输入薄板、信息输入系统、信息输入辅助薄板
US9594439B2 (en) 2008-11-25 2017-03-14 Kenji Yoshida Handwriting input/output system, handwriting input sheet, information input system, and information input assistance sheet
KR20170061694A (ko) * 2008-11-25 2017-06-05 가부시키가이샤 아이피 솔루션즈 수기 입출력 시스템, 수기 입력 시트, 정보 입력 시스템, 정보 입력 보조 시트
KR101895450B1 (ko) 2008-11-25 2018-09-06 가부시키가이샤 아이피 솔루션즈 수기 입출력 시스템, 수기 입력 시트, 정보 입력 시스템, 정보 입력 보조 시트
JP2016157019A (ja) * 2015-02-25 2016-09-01 日本電信電話株式会社 単語選択装置、方法、及びプログラム
US10759449B2 (en) 2018-06-13 2020-09-01 Honda Motor Co., Ltd. Recognition processing device, vehicle control device, recognition control method, and storage medium
WO2021171820A1 (ja) * 2020-02-27 2021-09-02 ソニーグループ株式会社 情報処理装置、および情報処理方法、並びにプログラム

Also Published As

Publication number Publication date
JP4244423B2 (ja) 2009-03-25

Similar Documents

Publication Publication Date Title
CN109493850B (zh) 成长型对话装置
US8560325B2 (en) Hierarchical methods and apparatus for extracting user intent from spoken utterances
US6751595B2 (en) Multi-stage large vocabulary speech recognition system and method
JP2001005488A (ja) 音声対話システム
WO2020216064A1 (zh) 语音情感识别方法、语义识别方法、问答方法、计算机设备及计算机可读存储介质
KR100792208B1 (ko) 음성 대화 시스템에서 답변 문장 생성 방법 및 장치
EP1617409B1 (en) Multimodal method to provide input to a computing device
KR101322486B1 (ko) 범용 대화서비스 장치 및 그 방법
WO2021147041A1 (zh) 语义分析方法、装置、设备及存储介质
WO2021179701A1 (zh) 多语种语音识别方法、装置及电子设备
JPH096389A (ja) 音声認識対話処理方法および音声認識対話装置
KR102041621B1 (ko) 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법
KR102372069B1 (ko) 언어학습을 위한 양국어 자유 대화 시스템 및 방법
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN112562640A (zh) 多语言语音识别方法、装置、系统及计算机可读存储介质
JP2000200273A (ja) 発話意図認識装置
JP2000221991A (ja) 適正単語列推定装置
CN112927695A (zh) 语音识别方法、装置、设备及存储介质
JP3444108B2 (ja) 音声認識装置
López-Cózar et al. Combining language models in the input interface of a spoken dialogue system
JP2001100787A (ja) 音声対話システム
US11551666B1 (en) Natural language processing
JP3621922B2 (ja) 文認識装置、文認識方法、プログラム、および媒体
TWI832792B (zh) 基於上下文情境與使用歷程的意圖評選系統及其方法
JP3082889B2 (ja) モノローグ・データに対する話題構造認識方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050414

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081229

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140116

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees