JPH075891A - 音声対話方法および装置 - Google Patents

音声対話方法および装置

Info

Publication number
JPH075891A
JPH075891A JP5144940A JP14494093A JPH075891A JP H075891 A JPH075891 A JP H075891A JP 5144940 A JP5144940 A JP 5144940A JP 14494093 A JP14494093 A JP 14494093A JP H075891 A JPH075891 A JP H075891A
Authority
JP
Japan
Prior art keywords
unknown word
voice
vocabulary
information
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5144940A
Other languages
English (en)
Other versions
JP3397372B2 (ja
Inventor
Masaaki Yamada
雅章 山田
Yasuhiro Komori
康弘 小森
Yasunori Ohora
恭則 大洞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP14494093A priority Critical patent/JP3397372B2/ja
Priority to EP94304344A priority patent/EP0629997B1/en
Priority to DE69421324T priority patent/DE69421324T2/de
Publication of JPH075891A publication Critical patent/JPH075891A/ja
Priority to US08/785,840 priority patent/US5797116A/en
Application granted granted Critical
Publication of JP3397372B2 publication Critical patent/JP3397372B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 本発明は、音声対話方法及び装置に関わり、
対話状態に応じて認識語彙や文法を動的に変更した時、
認識語彙にあてはまらず認識不能な音声をユーザに再度
発声させる手間を省くことを目的とする。 【構成】 上記目的のために、認識不能な音声を未知語
として扱い、その未知語が認識語彙となるような答を誘
導する問いをして、この誘導された答により未知語が認
識語彙となったところで未知語部分の再評価をする。こ
れにより、ユーザは再度同じ答を発声する必要がなくな
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声を用いて計算機と
の対話を行なう装置及び方法に関するものである.
【0002】
【従来の技術】
1.従来、音声対話における音声認識では、受理できる
語彙や構文を限定することにより処理の効率化を図って
いる。また、ユーザが次に何を発声するかを対話の流れ
から予測することにより、語彙や構文の限定を効果的に
行なう技術がある。 2.また、受理できない語彙や構文をモデル化して併用
することにより、受理できない語彙や構文をユーザが発
声した場合に、これを検出する技術がある。
【0003】
【発明が解決しようとする課題】しかし、従来例1で
は、いかに効果的にユーザの次発話を予測したとして
も、受理できない語彙や構文をユーザが発声する可能性
が残る。ここで、従来例2によって、受理できない語彙
や構文のモデルを用いたとしても、ユーザが受理できな
い語彙や構文を発声した時には、「ユーザが受理できな
い語彙や構文を発声した」ということを検出することが
できるのみで、ユーザが何を発声したのかを認識するこ
とができない。従って、ユーザは、認識語彙や構文が変
わった後で、過去に1度発声した内容をもう1度発声す
る必要がある。これは、ユーザにとって無駄な手間であ
り、使用感を損なうという問題がある。
【0004】
【課題を解決するための手段】本発明は、上記従来の欠
点を解決すべく、対話状況に応じて音声認識語彙を動的
に変更し、前記音声認識語彙により認識ができなかった
未知語を検出し、前記検出された未知語を含む音声を入
力した後に得た情報によって変更された音声認識語彙に
より、該未知語部分を再評価することを特徴とする音声
対話方法および装置を提供する。
【0005】本発明は、上記従来の欠点を解決すべく、
好ましくは前記未知語部分の再評価を、直前の音声情報
以前の入力音声情報に対しても行なう。
【0006】本発明は、上記従来の欠点を解決すべく、
好ましくは前記未知語を含む音声情報から、該未知語の
属するカテゴリ情報を抽出する。
【0007】本発明は、上記従来の欠点を解決すべく、
好ましくは前記抽出した未知語の属するカテゴリ情報に
より対話状況を判断する。
【0008】本発明は、上記従来の欠点を解決すべく、
好ましくは前記対話状況により未知語を解消する為の応
答文を決定する。
【0009】
【実施例】
(実施例1)以下、図面を参照しながら本発明の一実施
例を説明する。
【0010】図1は、本発明の一実施例の処理フローを
示すフローチャートである。図2は本発明の一実施例に
おけるハードウェア構成である。図2中、H1はCRT
ディスプレイ等の表示装置や音声合成装置といった出力
装置である。H2は、マイクロフォン等の音声入力装置
である。H3は、音声入力装置H2から入力される音声
を計算機処理できるように変形するI/O装置である。
H4は数値演算・制御等の処理を行なう中央処理装置で
あり、記憶装置H5に記憶された制御プログラムに従っ
て各処理の制御を行う。H5はディスク装置等の外部メ
モリ装置やRAM・ROM等の内部メモリといった記憶
装置である。後述するフローチャートに示す処理の制御
プログラムはこの記憶装置H5に記憶されている。各装
置はバスを通じて接続されている。
【0011】以上のハードウェア構成を踏まえ、図1の
フローチャートを参照しながら本発明の一実施例を説明
する。
【0012】処理が開始されると、まず、認識語彙・構
文決定ステップS1でユーザが最初に発声する語彙や構
文を予測する。音声入力ステップS2でユーザは音声入
力装置H2を用いて音声を入力する。
【0013】次に、音声認識ステップS3では、前記認
識語彙・構文ステップS1で決定した語彙や構文を用い
て音声入力ステップS2で入力された音声に対する音声
認識を行なう。
【0014】未知語検出ステップS4では、前記音声入
力ステップS2で入力された音声に未知語が含まれてい
るかどうかを検出し、さらに、未知語が含まれていた場
合には音声中の未知語部分の位置を検出する。
【0015】対話処理ステップS5では、前記音声認識
ステップS3、未知語検出ステップS4の結果から、ユ
ーザの発話意図を抽出し、データベース検索などのユー
ザの意図した処理を行なう。
【0016】未知語解消方針決定ステップS10では、
未知語検出ステップS4で未知語が検出されている場合
に、対話処理ステップS5の結果を利用して、未知語を
解消するための処理の方針の決定や計画を行なうステッ
プである。
【0017】認識語彙・構文変更ステップS6では、対
話処理ステップS5の結果を用いて認識する語彙や構文
を変更する。
【0018】次に、未知語部分再評価必要性判定ステッ
プS7で、前記未知語検出ステップS4で検出された未
知語部分を再評価するかを決定する。再評価の必要性を
判定するために、未知語検出ステップS4で未知語か検
出されているか、認識語彙・構文変更ステップで認識語
彙や構文が変更されているか、などの情報を用いる。未
知語部分再評価必要性判定ステップS7の結果、未知語
部分の再評価の必要性がない場合には応答ステップS8
へ、未知語部分の再評価の必要性がある場合には未知語
部分再評価ステップS9へ処理を移す。
【0019】応答ステップS8では、対話処理ステップ
S5や未知語解消方針決定ステップS10の結果を用い
てユーザへの応答内容を算出し、画面表示・音声合成な
どを用いてユーザに応答内容を提示する。応答ステップ
S8の終了後、音声入力ステップS2へ処理が戻る。
【0020】前記未知語部分再評価必要性判定ステップ
S7で未知語部分の再評価が必要だと判定された場合に
は、未知語部分再評価ステップS9へ処理が移る。未知
語部分再評価ステップS9では、前記認識語彙・構文変
更ステップS6で変更された認識語彙や構文を用いて、
前記未知語検出ステップS4で検出された未知語部分の
再評価(すなわち未知語部分の音声認識のやり直し)を
行なう。未知語部分再評価ステップS9の終了後、再び
未知語検出ステップS4へ移る。
【0021】前記のように、未知語検出ステップS4で
は認識結果に未知語が含まれるかを検出するため、未知
語部分再評価ステップS9の結果に未知語がまだ残って
いるかを検出する。また、前記対話処理ステップS5で
は、音声認識の結果を用いて適切な処理を行なうため、
未知語部分再評価ステップS9によって未知語が解消さ
れていた時には、解消の結果得られた、それまで未知語
であった部分の新たな情報を用いて処理を行なう。
【0022】以上の処理手順を、図15に示す対話例を
用いて説明する。
【0023】図15に示す対話例は、ユーザー(us
r)が最初に「箱根町にある温泉を知りたい。」と、最
初は受理できない市町村名を含む発声をした為、「箱根
町」が地名の未知語として認識されてしまう例である。
システム(sys)は、これに対して地名を確定し得る
ような応答をし、ユーザが望む解答を出しているるこの
図15の対話を処理する為の各段階におけるデータの状
態を簡略に表にすると図11のようになる。図11の1
行目が“usr1”を入力したから“sys1”を発声
するまでのものであり、2行目は“usr2”を入力し
た結果であり、3行目は“sys2”を発声する際の状
態である。
【0024】これらのデータは、各種ごとに記憶装置H
5のRAM上に格納・更新される。
【0025】図15の対話の詳細な処理を、図1のフロ
ーチャートに従って説明する。
【0026】まず、認識語彙・構文決定ステップS1で
は、ユーザが最初に発声するであろう語彙や構文を予測
して認識語彙・構文を決定する。例えば、最初の認識語
彙・構文は図3のようになる。図3の構文の図の意味
は、“start”から“end”までのパスをたどる
文を受理するということである。また、語彙の図の意味
は、構文中の“$hello”等になりうる語彙を示し
ている。つまり、「おはよう」、「東京都にある美術館
の行き方を知りたい」、「電話番号です」等が受理でき
る文である。また、図3の語彙の図の“$place”
などに含まれている「(未知語)」は、未知語検出ステ
ップS4で未知語を検出するために設けた、未知語を表
す記号である。つまり、「ここには未知語が入り得る」
ということを示している。
【0027】次に、音声入力ステップS2ではユーザが
音声を入力する。ここでは、例として、「箱根町にある
温泉を知りたい」(usr1)とユーザが入力したとす
る。
【0028】音声認識ステップS3では、音声入力ステ
ップS2で入力された音声が、認識語彙・構文決定ステ
ップS1で決定された構文上で、どのパス(語彙を含
む)を通るのが最も音響的に近いのかを計算する。そし
て、計算した結果、最も近いパスを認識結果とする。前
記の例では、ユーザの発声は「箱根町にある温泉を知り
たい」なので、図4の実線で示されるパスが認識結果と
して得られる。「(未知語)にある温泉を知りたい。」
は、図11のように、usr1の認識結果として記憶さ
れる。
【0029】未知語検出ステップS4では、音声認識ス
テップS3の結果にもとづき、音声入力ステップS2で
入力された音声に未知語が含まれているかどうかを検出
する。前記の通り、音声認識ステップS3の結果得ら
れ、記憶された認識結果には、「(未知語)」が含まれ
ているので、音声入力ステップS2で入力された音声に
未知語が含まれていると判断できる。また、図5に示さ
れるような、音声認識ステップS3の結果得られた語彙
の境界から、未知語の位置(図5中グレーの部分)が検
出される。
【0030】対話処理ステップS5では、まず、音声認
識ステップS3、未知語検出ステップS4の結果から、
ユーザの発話意図を抽出する。音声認識ステップS3の
結果は、「(未知語)にある温泉を知りたい」であり、
「温泉を知りたい」ということから発話意図として、
「ユーザの検索対象が温泉であること」が、「(未知
語)にある」の「にある」は場所を示す付属語であるこ
とから、「ユーザが場所を指示しているが未知語になっ
ていること」が得られる。この得られた情報は、図11
に示すように“usr1”の“得られる情報”として記
憶される。このように、未知語のカテゴリが判っている
場合には、その未知語のカテゴリを利用してユーザの発
話意図を、より細かく抽出する。この未知語のカテゴリ
の利用のフローは、例えば、図13のようになる。この
フロー中、「場所=(未知語)」というのは、「ユーザ
の検索の対象となる場所を(未知語)として扱う」、つ
まり、「ユーザが場所を指定していること、および、指
定された場所が未知であることを利用して後の処理を行
なう」ことを示す。次に、この発話意図から、データベ
ース検索などのユーザの意図した処理を行なう。前記の
発話意図から算出される内容は、「何もしない」ことで
ある。これは、データベースで温泉を検索するためには
何らかの条件を付けるべきであり、条件を付けるように
ユーザに促すためである。
【0031】未知語解消方針決定ステップS10では、
未知語検出ステップS4で未知語が検出されているの
で、この未知語を解消する方針を決定する。記憶装置H
5に記憶されている対話処理ステップS5の結果によ
り、この未知語が地名であることが判っていることか
ら、地名の未知語を解消するための方針を決定する。例
えば、地名の場合、未知語として検出されたということ
は、ユーザが発声した地名が、都道府県名(本例では都
道府県は常に認識語彙に入っている)以外であると予測
できるため、ユーザが都道府県名を指定すれば未知語を
解消できると考えられる。従って、方針として「ユーザ
に都道府県名を問い返す」という動作を採用する。方針
を決定するために、例えば図14の表のような参照用の
データを記憶装置H5に記憶しておき、未知語解消方式
決定ステップにおいて未知語カテゴリと付加条件から方
針を決定すべく参照する。
【0032】次に、認識語彙・構文変更ステップS6に
移るが、前記対話処理ステップS5においてデータベー
ス検索が行なわれていないため、認識語彙・構文を変更
しない。
【0033】未知語部分再評価必要性判定ステップS7
では、未知語部分を再評価するかを決定する。前記のよ
うに未知語検出ステップS4の結果、音声入力ステップ
S2で入力された音声中に未知語が存在する。しかし、
直前の認識語彙・構文変更ステップで認識語彙や構文が
変更されていないため、未知語部分を再評価する必要が
無いと判断される。そこで、次のステップは応答ステッ
プS8となる。
【0034】応答ステップS8では、対話処理ステップ
S5や未知語解消方針決定ステップS10の結果から適
切な応答を生成する。対話処理ステップS5の結果は、
「データベース検索のために条件をつける必要がある」
という内容である。また、未知語解消方針決定ステップ
S10の結果得られた方針は「ユーザに都道府県名を問
い返す」ことである。そこで、例えば、「都道府県名を
指定して下さい」(sys1)という応答文を返すこと
にする。この応答文を提示した後、音声入力ステップS
2へ戻る。
【0035】再び、音声入力ステップS2である。2度
目のユーザ入力の例を「神奈川県です」(usr2)と
する。
【0036】この入力に対する音声認識ステップS3の
結果は図6のようになり、図11のように、“usr
2”の認識結果として記憶する。
【0037】次に、未知語検出ステップS4に移る。前
記のように、記憶されている音声認識ステップS3の結
果には「(未知語)」が含まれていないため、未知語は
検出されない。
【0038】次に、対話処理ステップS5では、まず、
前記音声認識ステップS3の結果と、前回までの対話処
理ステップS5の結果から発話意図を抽出する。前記の
ように、音声認識ステップS3の結果は、「神奈川県で
す」であったことから、「ユーザの指定している場所が
神奈川県である」ことが得られ、図11に示すように得
られる情報に追加記憶する。また、前回の対話処理ステ
ップS5の結果、「ユーザの検索対象が温泉である」こ
とが得られている。そこで、「場所が神奈川県である温
泉」をデータベース検索する。データベース検索の結果
の例を図7に示す。この例では、神奈川県にある温泉の
場所と名前が検索されている。
【0039】未知語解消方針決定ステップS10では、
未知語検出ステップS4で未知語が検出されていないた
め、何もしない。
【0040】認識語彙・構文変更ステップS6では、対
話処理ステップS5の結果、つまり、この場合は図7に
もとづいて認識語彙や構文を変更する。例えば、図7に
は温泉のある市町村名、温泉名が入っている。これらの
語彙は、以後、音声認識に用いられる可能性が高い。一
方、温泉名については、図7にはあらわに示されていな
いが、件数が多いため、音声認識語彙数を抑える方針に
そぐわない。そこで、認識語彙・構文変更ステップS6
の動作例として、「温泉のある市町村名を認識語彙に加
える」という動作をとる。また、構文については、市町
村名はそのまま“$place”として用いることがで
きるので、変更しない。以上の結果、新たな認識語彙・
構文は図8の様になる。
【0041】次に、未知語部分再評価必要性判定ステッ
プS7に移る。まず、1回目の音声入力ステップS2で
入力された音声(「箱根町にある温泉を知りたい」)中
には未知語が存在するため、再評価の対象がある。ま
た、直前の認識語彙・構文変更ステップS6で認識語彙
が変更されているため、この新たな認識語彙・構文を用
いて未知語部分を再評価することにより、未知語を解消
することができると考えられる。そこで、次のステップ
は未知語部分再評価ステップS9となる。
【0042】未知語部分再評価ステップS9では、新た
な認識語彙・構文を用いて、それまでに発声された未知
語を再評価によって解消する。1回目の未知語検出ステ
ップS4で、未知語の位置が得られている(図5)。ま
た、図5のグレーの部分は地名であることが分かってい
る。そこで、未知語の位置の音声情報を記憶装置H5か
ら呼び出して認識語彙・構文変更ステップS6で新たに
加わった地名を表す語彙とマッチングを行って、音響的
に図5のグレーの部分に最も近いものを選び、これを未
知語の再評価の結果とする。本例では、「箱根町」が未
知語部分再評価ステップS9の結果として得られる。ま
た、ここで得られた「箱根町」は、未知語を表すモデル
「(未知語)」よりも、音響的に図5のグレーの部分に
近いことが分かる。
【0043】未知語検出ステップS4では、未知語部分
再評価ステップS9で得られた新たな音声認識結果「箱
根町にある温泉を知りたい」中に未知語を表すモデルが
ないことから、「未知語は検出されていない」という結
果となる。
【0044】次に、対話処理ステップS5では、未知語
部分再評価ステップS9で得られた新たな音声認識結果
「箱根町にある温泉を知りたい」から「ユーザの目的と
している地名は箱根町である」という発話意図を得る。
また、前回までの対話処理ステップS5の結果、「ユー
ザの検索対象が温泉である」ことが得られていることか
ら、「場所が箱根町である温泉」をデータベース検索す
る。データベース検索の結果の例を図9に示す。この例
では、箱根町にある温泉の場所と名前が検索されてい
る。
【0045】次の未知語解消方針決定ステップS10で
は、未知語検出ステップS4で未知語が検出されていな
いため、何もしない。
【0046】次に、対話処理ステップS5の結果(図
9)にもとづいて認識語彙や構文を変更する。図7の場
合と異なり、温泉名の件数が少ないため、温泉名が認識
語彙に加えられる。また、温泉名(固有名詞)が加わっ
たことに合わせて構文が変更される。以上の結果、新た
な認識語彙・構文は図10の様になる。
【0047】次に、未知語部分再評価必要性判定ステッ
プS7では、過去に入力された音声に未知語が残ってい
ないため、次のステップを応答ステップS8とする。
【0048】対話処理ステップS5の結果、ユーザの意
図した「場所が箱根町の温泉を知りたい」という内容を
満たす情報(図9)が得られたため、応答ステップS8
では、この情報を提示する。例えば、「芦ノ湯温泉、底
倉温泉など、合計で13件あります。」(sys2)と
いった応答をユーザに提示する。
【0049】この後、再び音声入力ステップS2に処理
が移る。
【0050】(実施例2)実施例1では未知語を表すモ
デルとして「(未知語)」という形式を用いたが、特に
固有名詞などの場合、未知語はその語尾の部分にその語
のカテゴリを示す文字列を持つことが多い。そこで、未
知語を表すモデルとして「(未知語)+(カテゴリを示
す語)」というモデルを用いることもできる。例えば、
語彙として、図6に示すような「(未知語)+(カテゴ
リを示す語)」というモデルを有しておくことにより、
未知語とともにその未知語のカテゴリを知ることができ
る。つまり、未知の温泉名を「(未知語)温泉」と表す
ことにより、未知語のカテゴリが温泉であることが判
る。
【0051】これにより、未知語のカテゴリが判り、ユ
ーザが再びカテゴリについて発声する必要がなくなる。
次に、図12に示される処理を説明する。これは、 usr1:
【0052】
【外1】 美術館の行き方を知りたい。
【0053】sys1:場所を指定して下さい。
【0054】usr2:神奈川県です。
【0055】sys2:彫刻の森美術館の行き方は彫刻
ノ森駅徒歩2分です。という対話になる場合の処理であ
り、「(未知語)+美術館」という語彙を有した時の処
理である。
【0056】「(未知語)+(カテゴリを示す語)」の
例として、ほかに、「(未知語)カントリークラブ」、
「(未知語)県」、「(未知語)ホテル」などがあげら
れる。
【0057】(実施例3)実施例1の未知語部分再評価
ステップS9では、未知語の部分(図5のグレーの部
分)のみを再評価していたが、認識語彙・構文変更ステ
ップS6で得られた新たな認識語彙・文法を用いて、未
知語を含む発声全体を再評価しても良い。これは、未知
語の混入による語彙境界の誤りを補正することができ
る。
【0058】
【発明の効果】以上説明したように、本発明によれば、
ユーザの次発話を予測して対話を行なった場合に、ユー
ザが受理できない語彙や構文を発声した時であっても、
処理を進めて過去の発生を再評価し、ユーザの、「認識
語彙や構文が変わった後に過去に1度発声した内容をも
う1度発声しなくてはならない」という手間を解消し、
ユーザの使用感を向上させることができる。
【0059】また、「(未知語モデル)+カテゴリを示
す語」という表現を用いることにより、「〜美術館」と
いうような固有名詞からより多くの情報を取り出すこと
ができる。
【0060】また、対話状態により未知語を解消するた
めの応答文を決定することにより、未知語を効果的に解
消することができる。という効果がある。
【図面の簡単な説明】
【図1】本発明の処理フローを示したフローチャート。
【図2】本発明のハードウェア構成を示したブロック
図。
【図3】認識語彙・構文決定ステップS1で生成される
認識語彙・構文の1例を示した図。
【図4】音声認識ステップS3の結果得られたパスの1
例を示す図。
【図5】実施例1における発声と認識結果の対応を示し
た図。
【図6】音声認識ステップS3の結果得られたパスの1
例を示す図。
【図7】対話処理ステップS5でデータベース検索の結
果得られた情報の1例を示す図。
【図8】認識語彙・構文変更ステップS6の結果変更さ
れた認識語彙・構文の1例を示した図。
【図9】対話処理ステップS5でデータベース検索の結
果得られた情報の1例を示す図。
【図10】認識語彙・構文変更ステップS6の結果変更
された認識語彙・構文の1例を示した図。
【図11】実施例1の処理の概略を示した図。
【図12】実施例2の処理の概略を示した図。
【図13】対話処理ステップS5での、未知語の属する
カテゴリを用いた対話処理のフローの1例を示す図。
【図14】未知語解消方針決定ステップS10で方針を
決定するために用いる表の1例を示す図。
【図15】実施例1の説明に用いる対話例を示す図。
【図16】未知語のカテゴリを知る為の語彙例を示す
図。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 対話状況に応じて音声認識語彙を動的に
    変更し、 前記音声認識語彙により認識ができなかった未知語を検
    出し、 前記検出された未知語を含む音声を入力した後に得た情
    報によって変更された音声認識語彙により、該未知語部
    分を再評価することを特徴とする音声対話方法。
  2. 【請求項2】 前記未知語部分の再評価を、直前の音声
    情報以前の入力音声情報に対しても行なうことを特徴と
    する請求項1に記載の音声対話方法。
  3. 【請求項3】 前記未知語を含む音声情報から、該未知
    語の属するカテゴリ情報を抽出することを特徴とする請
    求項1に記載の音声対話方法。
  4. 【請求項4】 前記抽出した未知語の属するカテゴリ情
    報により対話状況を判断することを特徴とする請求項1
    に記載の音声対話方法。
  5. 【請求項5】 前記対話状況により未知語を解消する為
    の応答文を決定することを特徴とする請求項1に記載の
    音声対話方法。
  6. 【請求項6】 対話状況に応じて音声認識語彙を動的に
    変更する変更手段と、 前記音声認識語彙により認識できなかった未知語を検出
    する未知語検出手段と、 前記検出された未知語を含む音声を入力した後に得た情
    報によって変更された音声認識語彙により、該未知語部
    分を再評価する再評価手段とを有することを特徴とする
    音声対話装置。
  7. 【請求項7】 前記再評価手段は、直前の音声情報以前
    の入力音声情報に対しても行なうことを特徴とする請求
    項6に記載の音声対話装置。
  8. 【請求項8】 前記未知語を含む音声情報から、該未知
    語の属するカテゴリ情報を抽出するカテゴリ抽出手段を
    有することを特徴とする請求項6に記載の音声対話装
    置。
  9. 【請求項9】 前記抽出した未知語の属するカテゴリ情
    報により対話状況を判断する判断手段を有することを特
    徴とする請求項6に記載の音声対話装置。
  10. 【請求項10】 前記対話状況により未知語を解消する
    為の応答文を決定する応答文決定手段を有することを特
    徴とする請求項6に記載の音声対話装置。
JP14494093A 1993-06-16 1993-06-16 音声認識方法及び装置 Expired - Fee Related JP3397372B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP14494093A JP3397372B2 (ja) 1993-06-16 1993-06-16 音声認識方法及び装置
EP94304344A EP0629997B1 (en) 1993-06-16 1994-06-15 Voice communication method and apparatus
DE69421324T DE69421324T2 (de) 1993-06-16 1994-06-15 Verfahren und Vorrichtung zur Sprachkommunikation
US08/785,840 US5797116A (en) 1993-06-16 1997-01-21 Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14494093A JP3397372B2 (ja) 1993-06-16 1993-06-16 音声認識方法及び装置

Publications (2)

Publication Number Publication Date
JPH075891A true JPH075891A (ja) 1995-01-10
JP3397372B2 JP3397372B2 (ja) 2003-04-14

Family

ID=15373730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14494093A Expired - Fee Related JP3397372B2 (ja) 1993-06-16 1993-06-16 音声認識方法及び装置

Country Status (4)

Country Link
US (1) US5797116A (ja)
EP (1) EP0629997B1 (ja)
JP (1) JP3397372B2 (ja)
DE (1) DE69421324T2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07261793A (ja) * 1994-03-22 1995-10-13 Mitsubishi Electric Corp 対話処理装置
JPH11153999A (ja) * 1997-11-19 1999-06-08 Fujitsu Ltd 音声認識装置及びそれを用いた情報処理装置
JP2001255889A (ja) * 2000-03-14 2001-09-21 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2002006878A (ja) * 2000-06-07 2002-01-11 Sony Internatl Europ Gmbh 音声フレーズ認識方法及び音声認識装置
JP2004109323A (ja) * 2002-09-17 2004-04-08 Denso Corp 音声対話装置及びプログラム
JP2005202165A (ja) * 2004-01-15 2005-07-28 Advanced Media Inc 音声認識システム
JP2009151314A (ja) * 2008-12-25 2009-07-09 Sony Corp 情報処理装置及び情報処理方法
US7640164B2 (en) 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
JP2015069102A (ja) * 2013-09-30 2015-04-13 Necパーソナルコンピュータ株式会社 情報処理装置、制御方法、及びプログラム
WO2016067418A1 (ja) * 2014-10-30 2016-05-06 三菱電機株式会社 対話制御装置および対話制御方法
WO2018135303A1 (ja) * 2017-01-18 2018-07-26 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
JPH10187195A (ja) * 1996-12-26 1998-07-14 Canon Inc 音声合成方法および装置
JPH10254486A (ja) 1997-03-13 1998-09-25 Canon Inc 音声認識装置および方法
JP3962445B2 (ja) 1997-03-13 2007-08-22 キヤノン株式会社 音声処理方法及び装置
US6208959B1 (en) 1997-12-15 2001-03-27 Telefonaktibolaget Lm Ericsson (Publ) Mapping of digital data symbols onto one or more formant frequencies for transmission over a coded voice channel
US6061646A (en) * 1997-12-18 2000-05-09 International Business Machines Corp. Kiosk for multiple spoken languages
JP3884856B2 (ja) 1998-03-09 2007-02-21 キヤノン株式会社 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ
JP3902860B2 (ja) * 1998-03-09 2007-04-11 キヤノン株式会社 音声合成制御装置及びその制御方法、コンピュータ可読メモリ
JP2000047696A (ja) 1998-07-29 2000-02-18 Canon Inc 情報処理方法及び装置、その記憶媒体
US6185535B1 (en) 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
EP1058236B1 (en) * 1999-05-31 2007-03-07 Nippon Telegraph and Telephone Corporation Speech recognition based database query system
WO2000073975A1 (fr) * 1999-05-31 2000-12-07 Cai Co., Ltd. Systeme de reecriture
JP3969908B2 (ja) 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
US6456975B1 (en) * 2000-01-13 2002-09-24 Microsoft Corporation Automated centralized updating of speech recognition systems
GB0004578D0 (en) * 2000-02-25 2000-04-19 Xrefer Com Limited Automated data cross-referencing method
US6473734B1 (en) * 2000-03-27 2002-10-29 Motorola, Inc. Methodology for the use of verbal proxies for dynamic vocabulary additions in speech interfaces
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
JP3728172B2 (ja) 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
JP3728177B2 (ja) 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
JP2002123283A (ja) * 2000-10-12 2002-04-26 Nissan Motor Co Ltd 音声認識操作装置
EP1330817B1 (de) * 2000-11-03 2005-07-20 VoiceCom solutions GmbH Robuste spracherkennung mit datenbankorganisation
DE10119677A1 (de) * 2001-04-20 2002-10-24 Philips Corp Intellectual Pty Verfahren zum Ermitteln von Datenbankeinträgen
US6751595B2 (en) * 2001-05-09 2004-06-15 Bellsouth Intellectual Property Corporation Multi-stage large vocabulary speech recognition system and method
JP2003036088A (ja) * 2001-07-23 2003-02-07 Canon Inc 音声変換の辞書管理装置
US6963832B2 (en) * 2001-10-09 2005-11-08 Hewlett-Packard Development Company, L.P. Meaning token dictionary for automatic speech recognition
US6915246B2 (en) * 2001-12-17 2005-07-05 International Business Machines Corporation Employing speech recognition and capturing customer speech to improve customer service
US7058565B2 (en) * 2001-12-17 2006-06-06 International Business Machines Corporation Employing speech recognition and key words to improve customer service
DE10235548B4 (de) * 2002-03-25 2012-06-28 Agere Systems Guardian Corp. Verfahren und Vorrichtung für die Prädiktion einer Textnachrichteneingabe
KR100446627B1 (ko) * 2002-03-29 2004-09-04 삼성전자주식회사 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
JP2004012698A (ja) * 2002-06-05 2004-01-15 Canon Inc 情報処理装置及び情報処理方法
JP4280505B2 (ja) 2003-01-20 2009-06-17 キヤノン株式会社 情報処理装置及び情報処理方法
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
JP4541781B2 (ja) * 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
WO2006037219A1 (en) * 2004-10-05 2006-04-13 Inago Corporation System and methods for improving accuracy of speech recognition
US7925506B2 (en) * 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
TWI269268B (en) * 2005-01-24 2006-12-21 Delta Electronics Inc Speech recognizing method and system
US8229745B2 (en) * 2005-10-21 2012-07-24 Nuance Communications, Inc. Creating a mixed-initiative grammar from directed dialog grammars
US8756058B2 (en) * 2006-02-23 2014-06-17 Nec Corporation Speech recognition system, speech recognition result output method, and speech recognition result output program
US7831431B2 (en) 2006-10-31 2010-11-09 Honda Motor Co., Ltd. Voice recognition updates via remote broadcast signal
WO2008072413A1 (ja) * 2006-12-15 2008-06-19 Mitsubishi Electric Corporation 音声認識装置
US20080273672A1 (en) * 2007-05-03 2008-11-06 Microsoft Corporation Automated attendant grammar tuning
US20110131040A1 (en) * 2009-12-01 2011-06-02 Honda Motor Co., Ltd Multi-mode speech recognition

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4618984A (en) * 1983-06-08 1986-10-21 International Business Machines Corporation Adaptive automatic discrete utterance recognition
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
IT1229782B (it) * 1989-05-22 1991-09-11 Face Standard Ind Metodo ed apparato per riconoscere parole verbali sconosciute mediante estrazione dei parametri e confronto con parole di riferimento
US5136654A (en) * 1989-10-19 1992-08-04 Kurzweil Applied Intelligence, Inc. Vocabulary partitioned speech recognition apparatus
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
US5097509A (en) * 1990-03-28 1992-03-17 Northern Telecom Limited Rejection method for speech recognition
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US5390279A (en) * 1992-12-31 1995-02-14 Apple Computer, Inc. Partitioning speech rules by context for speech recognition
US5640490A (en) * 1994-11-14 1997-06-17 Fonix Corporation User independent, real-time speech recognition system and method

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07261793A (ja) * 1994-03-22 1995-10-13 Mitsubishi Electric Corp 対話処理装置
JPH11153999A (ja) * 1997-11-19 1999-06-08 Fujitsu Ltd 音声認識装置及びそれを用いた情報処理装置
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
JP2001255889A (ja) * 2000-03-14 2001-09-21 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2002006878A (ja) * 2000-06-07 2002-01-11 Sony Internatl Europ Gmbh 音声フレーズ認識方法及び音声認識装置
US7640164B2 (en) 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog
JP2004109323A (ja) * 2002-09-17 2004-04-08 Denso Corp 音声対話装置及びプログラム
JP2005202165A (ja) * 2004-01-15 2005-07-28 Advanced Media Inc 音声認識システム
JP2009151314A (ja) * 2008-12-25 2009-07-09 Sony Corp 情報処理装置及び情報処理方法
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
JP2015069102A (ja) * 2013-09-30 2015-04-13 Necパーソナルコンピュータ株式会社 情報処理装置、制御方法、及びプログラム
WO2016067418A1 (ja) * 2014-10-30 2016-05-06 三菱電機株式会社 対話制御装置および対話制御方法
WO2018135303A1 (ja) * 2017-01-18 2018-07-26 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JPWO2018135303A1 (ja) * 2017-01-18 2019-11-07 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
US11308951B2 (en) 2017-01-18 2022-04-19 Sony Corporation Information processing apparatus, information processing method, and program

Also Published As

Publication number Publication date
EP0629997B1 (en) 1999-10-27
DE69421324D1 (de) 1999-12-02
EP0629997A1 (en) 1994-12-21
JP3397372B2 (ja) 2003-04-14
DE69421324T2 (de) 2000-07-06
US5797116A (en) 1998-08-18

Similar Documents

Publication Publication Date Title
JP3397372B2 (ja) 音声認識方法及び装置
US6185530B1 (en) Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US6952665B1 (en) Translating apparatus and method, and recording medium used therewith
US6269335B1 (en) Apparatus and methods for identifying homophones among words in a speech recognition system
EP1422692A2 (en) Automatic insertion of non-verbalized punctuation in speech recognition
US5875426A (en) Recognizing speech having word liaisons by adding a phoneme to reference word models
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP3426176B2 (ja) 音声認識装置、方法、コンピュータ・システム及び記憶媒体
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
WO2006097975A1 (ja) 音声認識プログラム
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
US6345249B1 (en) Automatic analysis of a speech dictated document
US20040006469A1 (en) Apparatus and method for updating lexicon
JP4661239B2 (ja) 音声対話装置及び音声対話方法
JP6580281B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
JP4220151B2 (ja) 音声対話装置
US6772116B2 (en) Method of decoding telegraphic speech
JPS61285570A (ja) 音声入力装置
JP2000244609A (ja) 話者状況適応型音声対話装置及び発券装置
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
JP7479249B2 (ja) 未知語検出方法及び未知語検出装置
JP2006184371A (ja) 音声認識装置および音声認識方法
JP2002082691A (ja) 発声内に含まれる会社名の自動認識方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080214

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090214

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100214

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100214

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110214

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120214

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130214

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees