JPH08146989A

JPH08146989A - 情報処理装置及びその制御方法

Info

Publication number: JPH08146989A
Application number: JP6283258A
Authority: JP
Inventors: Katsuhiko Kawasaki; 勝彦川崎; Yasuhiro Komori; 康弘小森; Yasunori Ohora; 恭則大洞
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1994-11-17
Filing date: 1994-11-17
Publication date: 1996-06-07
Anticipated expiration: 2019-03-31
Also published as: JP3513232B2

Abstract

(57)【要約】【目的】音声入力による対話をスムースに、しかも自
然に行うことを可能にする。【構成】マイク１から入力された音声をＡ／Ｄ変換部
２を介してデジタル信号にした後、音声認識部３で認識
する。この認識した結果に基づく応答文を作成し、それ
を音声合成部６で音声信号にすると共に、それを表示部
８に表示する。このとき、生成した応答文中の語彙を追
加辞書５に追加し、次の音声入力時の音声認識に対処す
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は情報処理装置及びその制
御方法、詳しくは音声入力された問い合わせに対して応
答する情報処理装置及びその制御方法に関する。

【０００２】

【従来の技術】最近、音声対話装置が用いられるように
なってきた。

【０００３】図３を用いて、従来の音声対話装置の動作
内応を説明する。

【０００４】まず、マイクに向かってユーザが図３
（１）のように発生したとする。マイクに入力された音
声は、Ａ／Ｄ変換処理を行い、アナログ信号からディジ
タル信号に変換され、そのディジタル信号は所定の辞書
を用いて認識され、日本語文に変換される。次に、この
日本語文の解釈処理を行い、例えばそれに対応する図３
（２）のような応答文が作成される。この応答文は、単
語に分割され、読みとアクセントが付加され、音韻パラ
メータと韻律パラメータとのディジタル信号に変換され
る。こうして得られた信号をＤ／Ａ変換処理を行い、ア
ナログ信号に変換し、スピーカ等から音声として出力す
る。

【０００５】以上のような音声入力と音声出力との繰り
返しによ、ユーザとシステムとの対話が行なわれてい
た。

【０００６】

【発明が解決しようとする課題】一般に、音声対話で
は、話し手が説明しているとき、聞き手は、その説明に
関する単語を用いて問い返すことが多い。しかし、上述
した従来の音声対話方式では、システムが音声合成出力
した単語を含む文をユーザが発生しても、システムがそ
の単語を音声認識できず、対話が不自然になるという問
題点があった。

【０００７】

【課題を解決するための手段】及び

【作用】本発明はかかる問題点に鑑みなされたものであ
り、音声入力による対話をスムースに、しかも自然に行
うことを可能にする情報処理装置及びその制御方法を提
供しようとするものである。

【０００８】この課題を解決するため、例えば本発明の
情報処理装置は以下の構成を備える。すなわち、音声入
力手段と、音声認識手段と、前記音声入力手段に対して
応答する出力手段を備えた情報処理装置において、前記
音声入力手段から入力された音声を認識し、音声入力に
対応得る文を生成する文生成手段と、該文生成手段で生
成された文に対応する出力文を構成し、前記出力手段を
制御して外部に出力する出力制御手段と、該出力制御手
段で出力した文中の新たに発生した語彙を所定の辞書に
追加する追加手段とを備え、前記音声入力手段で入力さ
れた音声を認識するとき、前記追加手段で追加された辞
書を認識処理の参照辞書として使用する。

【０００９】また、本発明の好適な実施態様に従えば、
前記出力手段は、音声出力手段及び対話文を表示する表
示手段の両方を含むことが望ましい。これによって、入
力文と応答文の両方が表示されるので、音声出力された
内容を確実に確認することが可能になる。

【００１０】また、前記出力手段で、ユーザからの音声
入力に対する応答文を出力中に、前記音声入力手段から
ユーザからの音声入力を検出したとき、当該出力手段を
中断し、出力中であった応答文の中断位置から、区切り
位置を検索し、当該検索位置から出力を継続する手段を
備えることが望ましい。これによって、応答文を出力中
に所定の発声、例えば「うん」を発生することで、必要
な箇所から情報を即座に得ることが可能になる。

【００１１】また、前記音声入力手段で入力された音声
に基づく文が、従前の会話内容と関連しない場合、前記
追加手段による前記所定の辞書をリフレッシュする手段
を備えることが望ましい。これによって、対話の首題が
切り替わったと判断し、辞書の肥大化を防ぐと共に、新
たな首題にのみ対応する応答が可能になる。

【００１２】

【実施例】以下、添付図面に従って本発明に係る実姉例
を詳細に説明する。

【００１３】図２は、本発明の一実施例の音声対話装置
の構成を示すブロック図である。この装置は、マイク１
と、Ａ／Ｄ変換部２と、音声認識部３と、音声認識用の
文法／単語辞書４と、追加辞書５と、音声合成部６と、
音声合成用の文法／単語辞書７と、表示部８と、対話管
理部９と、Ｄ／Ａ変換部１０と、スピーカ１１とから、
その主要部が構成されている。また、ＣＰＵ１３は本装
置全体の制御を司り、内部の主メモリに記憶されている
プログラムに従って動作し、処理部として機能する。

【００１４】図１を参照して実施例の装置の動作内容を
説明する。尚、同処理内容に係るプログラムはＣＰＵ１
３の主メモリに格納されている。

【００１５】さて、本実施例の音声対話方式における処
理は、合成文を生成するステップＳ１１、音声合成の出
力を開始または継続するステップＳ１２、音声入力が存
在するかどうかを判定するステップＳ１３、音声合成出
力が終了したかどうかを判定するステップＳ１４、ユー
ザの次入力を受け付けるステップＳ１５、ユーザの音声
入力を認識するステップＳ１６、ユーザの次入力内容が
話題を変えるものかどうかを判定するステップＳ１７、
追加辞書をクリアするステップＳ１８、音声合成出力を
一時中断するステップＳ１９、ユーザの音声入力を認識
するステップＳ２０、認識結果が合成文中の単語を文む
かどうか判定するステップＳ２１、認識結果が「ええ」
「うん」などの相槌かどうかを判定するステップＳ２
２、合成文の出力開始位置を探すステップＳ２３、合成
文中の文節の頭などの合成開始位置として切りの良い位
置を探すステップＳ２４と、良好案内システムなどのア
プリケーションにおいて、対話管理を行なうステップＳ
２５とを備える。

【００１６】次に、このように構成された本実施例の音
声対話方式の動作について、図１および図４を参照しな
がら説明する。

【００１７】いま、ユーザ（ＵＳＥＲ）が図４の手順
（１）のように「神戸市立須磨海浜水族園の説明は。」
と発声したとする。

【００１８】但し、この時点では、「神戸」、「東
京」、「須磨」、「都」、「県」、「の」、「にあ
る」、「のいる」、「水族館」、「水族園」、「説
明」、「は」（わ）、「を知りたい」、「ええ」、「う
ん」、「ありがとう」などは認識語としてあらかじめ登
録されている認識可能語彙であり、「平方ｍ」、「ラッ
コ」などは認識不可能であるとする。

【００１９】すると、ステップＳ２５によって、この質
問に対する合成文が、図４の手順（２）のように、「神
戸市立須磨…ラッコ館など７館が点在。」と生成され
る。

【００２０】この合成文は、ステップＳ１１に送られ、
文法／単語辞書７を用いて、単語に分割され、品詞や読
みなどの単語情報が付与される。ここでは、「神戸」
（品詞＝「名詞」、読み＝「こーべ」）「水族園」（品
詞＝「名詞」、読み＝「すいぞくえん」）、…、「平方
ｍ」（品詞＝「接尾辞」、読み＝「へーほーめーと
る」）、「ラッコ」（品詞＝「名詞」、読み＝「らっ
こ」）のようになる。

【００２１】ここで、新しく出てきた、自立語や名詞や
接尾辞などが追加辞書５に追加される。ここでは、「平
方ｍ」、「敷地」、「ラッコ」が追加辞書５に追加さ
れ、新たに認識可能となる。

【００２２】次に、ステップＳ１２によって、音声合成
出力が開始される。ステップＳ１４まで進んで、音声合
成出力が終了したと判定されると、ステップＳ１５によ
って、ユーザの次の入力が受け付けられる。ここでは、
図４の手順（３）のように、ユーザ化「東京都にあるラ
ッコのいる水族館を知りたい。」と発生したとする。こ
の発生中にある「東京」、「都」、「にある」、「ラッ
コ」、「のいる」、「水族館」、「を知りたい」、など
の単語はすべて認識可能なので、この発生は、ステップ
Ｓ１６によって、文法／単語辞書４と追加辞書５を用い
て認識される。次に、ステップＳ１７によって、この発
生が話題を変更するものかどうか判定される。現時点の
話題は「水族館」なので、この発生は話題を変更するも
のではない。従って、ステップＳ２５に移り、この発生
の内容が解釈され、それに対応する応答文が、図４の手
順（４）のように「サンシャイン国際水族館です。」と
生成される。ここで、生成された応答文は、ステップＳ
１１に送られる。さらに、ステップＳ１５まで進んで、
ユーザの次の入力が受け付けられる。ここで、ユーザが
図４の手順（５）のように「ありがとう。」と発生する
と、ステップＳ１６で音声認識され、ステップＳ１７を
経て、ステップＳ２５で対話の終了であると判定され、
対話が終了する。

【００２３】以上の対話状況は図４のように、表示部５
の画面上に表示される。

【００２４】以上説明したように、本装置によれば、ユ
ーザの問い合わせに対する応答文を出力するとき、その
応答文中に含まれる各自立語等（単語等）を辞書に追加
する。この結果、応答文を聞いたユーザは、その応答文
中に含まれる単語を用いて新たに問い合わせをすること
が可能になる。

【００２５】

【他の実施例】次に、本発明の第２の実施例について、
図１と図５を参照して説明する。

【００２６】いま、ユーザが図５の手順（１）のように
「神戸市立須磨海浜水族園の説明は。」と発声したとす
る。この時点では、「何」（なん、なに）、「では」、
「神戸」、「東京」、「須磨」、「都」、「県」、
「の」、「にある」、「のいる」、「のいる」、「につ
いて」、「水族館」、「水族園」、「ゴルフ場」、「説
明」、「は」（わ）、「を知りたい」、「教えて」、
「ええ」、「うん」、「ありがとう」などは認識可能語
彙であり、「平方ｍ」、「ラッコ」などは認識不可能で
あるとする。

【００２７】上記実施例では、ステップＳ２５によっ
て、この質問に対する合成文が、図４の手順（２）のよ
うに、「神戸市立須磨…ラッコ館など７館が点在。」と
生成される。この合成文は、ステップＳ１１の合成文生
成部に送られ、文法／単語辞書７を用いて、単語に分割
され、品詞や読みなどの単語情報が付与される。

【００２８】ここでは、「神戸」（品詞＝「名詞」、読
み＝「こーべ」）「水族園」（品詞＝「名詞」、読み＝
「すいぞくえん」）、…、「平方ｍ」（品詞＝「接尾
辞」、読み＝「へーほーめーとる」）、「ラッコ」（品
詞＝「名詞」、読み＝「らっこ」）のようになる。

【００２９】ここで、新しく出てきた、自立語や名詞や
接尾辞などが追加辞書５に追加される。ここでは、「平
方ｍ」、「敷地」、「ラッコ」が追加辞書５に追加さ
れ、新たに認識可能となる。次に、ステップＳ１２によ
って、音声合成出力が開始される。今、システムが図５
（２）のように、「神戸市立須磨海浜水族館の説明
は、」と出力した時点で、ユーザが「うん」もしくは
「はい」と発生したとする。すると、ステップＳ１３に
よって音声入力が存在すると判定され、ステップＳ１９
によって、音声合成出力が一時中断され、ステップＳ２
０によって、ユーザの音声入力が認識される。次に、ス
テップＳ２１によって、認識結果「うん」が合成文中の
単語かどうか判定される。

【００３０】ここでは、「うん」は合成文中の単語では
ないので、ステップＳ２２に移り、認識結果が「え
え」、「うん」などの相槌かどうか判定し、ステップＳ
２４に移る。認識結果が相槌でなければ、ステップＳ１
７に移る。

【００３１】ステップＳ２４においては、合成文中の文
頭や文節の先頭などの区切りの良い位置を捜し、ステッ
プＳ１２に移って、図５の手順（４）のように「２４０
０平方ｍの敷地に水族館本館、…」と、音声出力が継続
される。ここで、ユーザが「何平方ｍ］（なんへいほう
めーとる）と聞き返すと、ステップＳ１３によって、音
声合成出力が一時中断され、ステップＳ２０によって、
ユーザの音声入力が「何」＋「平方ｍ」と認識される。
ステップＳ２１によって、この認識結果が合成文中の単
語を含むかどうかが判定される。ここでは、「平方ｍ」
が合成文中の単語であるので、ステップＳ２３に移り、
合成文中の位置を探し、図５の手順（６）のように文節
などの区切りの良い位置から、ステップＳ１２によって
「２４００平方ｍの敷地に…が点在。」と、音声出力が
継続される。

【００３２】さらに、ステップＳ１３，ステップＳ１４
経て、ステップＳ１５に移り、ユーザの次の発声を受け
付ける。いま、図５の手順（７）のように「では、ゴル
フ場について教えて。」と、ユーザが発生したとする。
すると、ステップＳ１７によって、この発生は「水族
館」から「ゴルフ場」に話題を変えるものであると判定
され、ステップＳ１８によって「平方ｍ」、「水族
園」、「ラッコ」が追加辞書５から削除される。

【００３３】以上の対話状況は図５のように、表示部５
の画面上に表示される。

【００３４】以上説明したように本実施例によれば、随
時音声入力を受け付ける音声認識手段と、音声入力に対
する応答を音声で出力する音声合成手段と、入力／出力
を管理する対話管理手段と、対話状況を表示する表示手
段と、対話管理手段で生成する応答文を音声合成手段で
単語に分割し、品詞や読みやアクセントやその他の単語
情報を、追加辞書等の認識辞書に追加して音声認識手段
に送り、その単語を新たに認識語彙に加える手段と、生
成する応答文の音声合成による応答を、ユーザの音声入
力の認識結果に応じてコントロールする手段と、ユーザ
からの音声入力期間中は、音声応答出力を一時中断する
手段と、応答文の出力をコントロールする手段として、
ユーザの音声入力によって音声応答出力が一時中断され
た時間から見ていき、前方または後方に、ユーザが音声
入力した単語を含む場合、その文節または文の文頭など
の区切りの良いところから音声出力を再開する手段と、
ユーザの発した内容が、過去の対話内容と同一であると
きは追加辞書は変更せず、同一でなく内容に変更があっ
たときは、追加辞書を更新する手段とを有することによ
り、システムが音声合成出力した単語を含む文をユーザ
が発生すると、システムがその単語を音声認識できて、
ユーザとシステムとの対話が自然になる。

【００３５】尚、本発明は、複数の機器から構成される
システムに適用しても、１つの機器から成る装置に適用
しても良い。また、本発明は、システム或は装置にプロ
グラムを供給することによって達成される場合にも適用
できることは言うまでもない。

【００３６】

【発明の効果】以上説明したように本発明によれば、音
声入力による対話をスムースに、しかも自然に行うこと
が可能になる。する情報処理装置及びその制御方法を提
供しようとするものである。

【００３７】

【図面の簡単な説明】

【図１】本発明の実施例の音声対話方式の処理を示す流
れ図である。

【図２】本実施例の音声対話方式が適用される音声対話
装置の構成の一例を示すブロック図である。

【図３】従来の音声対話方式の第１の実施例の動作例を
示す図である。

【図４】本発明の第２の実施例の動作例を示す図であ
る。

【図５】本発明の第２の実施例の動作例を示す図であ
る。

【符号の説明】

１マイク２Ａ／Ｄ変換部３音声認識部４、７文法・単語辞書５追加辞書６音声合成部８表示部９対話管理部１０Ｄ／Ａ変換部１１スピーカ１３ＣＰＵ

Claims

【特許請求の範囲】

【請求項１】音声入力手段と、音声認識手段と、前記
音声入力手段に対して応答する出力手段を備えた情報処
理装置において、前記音声入力手段から入力された音声を認識し、音声入
力に対応得る文を生成する文生成手段と、該文生成手段で生成された文に対応する出力文を構成
し、前記出力手段を制御して外部に出力する出力制御手
段と、該出力制御手段で出力した文中の新たに発生した語彙を
所定の辞書に追加する追加手段とを備え、前記音声入力手段で入力された音声を認識するとき、前
記追加手段で追加された辞書を認識処理の参照辞書とし
て使用することを特徴とする情報処理装置。
【請求項２】前記出力手段は、音声出力手段及び対話
文を表示する表示手段の両方を含むことを特徴とする請
求項第１項に記載の情報処理装置。
【請求項３】前記出力手段で、ユーザからの音声入力
に対する応答文を出力中に、前記音声入力手段からユー
ザからの音声入力を検出したとき、当該出力手段を中断
し、出力中であった応答文の中断位置から、区切り位置
を検索し、当該検索位置から出力を継続する手段を備え
ることを特徴とする請求項第１項に記載の情報処理装
置。
【請求項４】前記音声入力手段で入力された音声に基
づく文が、従前の会話内容と関連しない場合、前記追加
手段による前記所定の辞書をリフレッシュする手段を備
えることを特徴とする請求項第１項に記載の情報処理装
置。
【請求項５】音声入力手段と、音声認識手段と、前記
音声入力手段に対して応答する出力手段を備えた情報処
理装置の制御方法において、前記音声入力手段から入力された音声を認識し、音声入
力に対応得る文を生成する文生成工程と、該文生成工程で生成された文に対応する出力文を構成
し、前記出力手段を制御して外部に出力する出力制御工
程と、該出力制御工程で出力した文中の新たに発生した語彙を
所定の辞書に追加する追加工程とを備え、前記音声入力手段で入力された音声を認識するとき、前
記追加工程で追加された辞書を認識処理の参照辞書とし
て使用することを特徴とする情報処理装置の制御方法。
【請求項６】前記出力手段は、音声出力手段及び対話
文を表示する表示手段の両方を含むことを特徴とする請
求項第５項に記載の情報処理装置の制御方法。
【請求項７】前記出力手段で、ユーザからの音声入力
に対する応答文を出力中に、前記音声入力手段からユー
ザからの音声入力を検出したとき、当該出力手段を中断
し、出力中であった応答文の中断位置から、区切り位置
を検索し、当該検索位置から出力を継続する工程を備え
ることを特徴とする請求項第５項に記載の情報処理装置
の制御方法。
【請求項８】前記音声入力手段で入力された音声に基
づく文が、従前の会話内容と関連しない場合、前記追加
工程による前記所定の辞書をリフレッシュする工程を備
えることを特徴とする請求項第５項に記載の情報処理装
置の制御方法。