JPH10326176A

JPH10326176A - 音声対話制御方法

Info

Publication number: JPH10326176A
Application number: JP15043797A
Authority: JP
Inventors: Minoru Nagasaki; 実長崎; Kenichiro Fukushima; 健一郎福島; Nobuhiro Asatani; 伸宏浅谷; Nobuhiro Kimura; 信宏木村
Original assignee: OKI HOKURIKU SYST KAIHATSU KK
Current assignee: OKI HOKURIKU SYST KAIHATSU KK
Priority date: 1997-05-23
Filing date: 1997-05-23
Publication date: 1998-12-08

Abstract

(57)【要約】【解決手段】装置の発した言葉が聞き取れない場合、
学習者１は「もう一度言って下さい。」といった聞き返
し文を入力する。これが音声認識され、まず聞き返し文
かどうかの判定が行われる。次に、聞き返し文の種類が
判定され、例えば大きい声が必要なら、声を大きくして
再出力する。【効果】ボタン操作等による聞き返しと比べて、自然
言語により聞き返し処理を可能にするため、円滑な会話
を妨げない。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識機能を持
つコンピュータを使用した語学訓練装置等において、聞
き取れなかった会話文を聞き返すための音声対話制御方
法に関する。

【０００２】

【従来の技術】コンピュータに音声認識機能を付与し、
対話者と所定の対話を行い、語学訓練をする装置があ
る。この装置は、対話者の声をマイクから受け入れて、
その内容を認識する。次に、必要な会話文を選択してス
ピーカ等を用いて発話し、会話を進める。語学訓練装置
に限らず、人の要求を受け入れて各種の操作を実行する
ための装置には、この種の会話型装置が組み込まれる可
能性が高い。こうした装置において、対話者が発話した
言葉を認識できない場合には、例えばブザーを鳴らした
り、ディスプレイに何らかの表示をして、再度の発話を
促す。また、これとは逆に、装置の側からの発話を対話
者が聞き取れない場合もある。こうした場合には対話者
が装置の所定のキーを押したりして再度その言葉を発話
するよう要求する。

【０００３】

【発明が解決しようとする課題】ところで、上記のよう
な従来の技術には次のような解決すべき課題があった。
上記のように、例えば装置が発話した言葉を対話者が理
解できないようなとき、これを聞き返すための操作は、
装置によって様々な形態となる。語学訓練装置の場合に
は、パーソナルコンピュータが主体となる。従って、対
話者はキーボードやマウスを用いて所定の手順を踏み、
聞き返し処理を行うことになる。しかしながら、こうし
た操作方法を習得しなければ円滑な会話は進まない。ま
た、会話訓練中にこの種の操作をすると、自然な会話が
中断されるという問題もある。さらに、語学訓練装置に
限らず、コンピュータが人と対話するようなシステムで
は、より自然な形で会話が進められることが好ましい。

【０００４】

【課題を解決するための手段】

〈構成１〉対話者が発話したとき、その発話の内容を音
声認識して、通常の会話文か聞き返し文かを判定すると
ともに、聞き返し文の場合には、音声認識して得られた
認識文を解析して、対話者の聞き返し文の種類を判定
し、この聞き返し文の種類に応じて、直前に出力した音
声データの処理方法を選択することを特徴とする音声対
話制御方法。

【０００５】〈構成２〉構成１において、聞き返し文の
種類が、出力音量の変更を要求するものである場合に
は、音声データの出力音量を要求に応じて変更すること
を特徴とする音声対話制御方法。

【０００６】〈構成３〉構成１において、聞き返し文の
種類が、出力速度の変更を要求するものである場合に
は、音声データの出力速度を要求に応じて変更すること
を特徴とする音声対話制御方法。

【０００７】〈構成４〉構成１において、聞き返し文の
種類に応じて、直前に出力した音声データとともに表示
する表示画像の処理方法を選択することを特徴とする音
声対話制御方法。

【０００８】〈構成５〉対話者が発話したとき、その発
話の内容を音声認識して、通常の会話文か聞き返し文か
を判定するとともに、聞き返し文の場合には、音声認識
して得られた認識文を解析して、対話者の聞き返し文の
種類を判定し、この聞き返し文の種類に応じて、直前に
出力した音声データの処理方法を選択するよう制御する
プログラムを記録した記録媒体。

【０００９】〈構成６〉対話者が発話して、音声認識が
できないとき、予め用意した該当する聞き返し文を選択
して、音声による応答出力を行うことを特徴とする音声
対話制御方法。

【００１０】〈構成７〉対話者が発話して、音声認識が
できないとき、予め用意した該当する聞き返し文を選択
して、音声による応答出力を行うよう制御するプログラ
ムを記録した記録媒体。

【００１１】

【発明の実施の形態】以下、本発明の実施の形態を具体
例を用いて説明する。〈具体例〉図１は、本発明による音声対話制御方法の説
明図である。この説明をする前に、まずこの発明を利用
して動作する語学訓練装置の構成を説明する。図２に、
語学訓練装置のブロック図を図示した。この装置は、学
習者１の語学訓練のために、装置本体２に、ディスプレ
イ３、スピーカ４、マイク５等を備えている。装置本体
２はパーソナルコンピュータ等から構成される。その内
部の機能ブロックをこの図の右側に示した。即ち、装置
本体２には、音声入力部１１、音声出力部１２、音声認
識部１３、画像処理部１４、プログラムメモリ１５、プ
ロセッサ１６及び記憶部１７等が設けられている。

【００１２】音声入力部１１はマイク５を制御し、学習
者１の音声を取り込む機能を持つ。音声出力部１２は装
置の生成した音声をスピーカ４を駆動して出力する機能
を持つ。音声認識部１３は音声入力部１１により取り入
れた学習者１の音声を認識して、認識文を生成する機能
を持つ。画像処理部１４はディスプレイ３を制御する機
能を持つ。

【００１３】プロセッサ１６は装置全体の動作を制御す
る。この語学訓練装置の制御プログラムはプログラムメ
モリ１５に格納される。記憶部１７はハードディスク等
の記憶装置で、会話文データファイル１８や表示画面デ
ータファイル１９を格納している。

【００１４】上記の会話文データファイル１８には学習
者１が発話するべき文や装置本体２から発話させるべき
文が格納されており、その会話文データを用いて対話型
の語学訓練が実行される。表示画面データファイル１９
には、学習者１に対し発話のための案内等を表示する画
面データが格納されている。ディスプレイ３には、学習
者１の会話訓練の相手となる画面上の人物（パートナ
ー）が表示される。こうして学習者１とパートナーとの
対話が実施される。

【００１５】図１に戻って、本発明の音声対話制御方法
を説明する。図２を用いて説明したようなスピーカ４に
よって、何らかの会話文が出力されたとする（ステップ
Ｓ１）。これを学習者１が聞き逃したり、聞き取れなか
った場合に、ここで、例えば「もう一度言って下さ
い。」といった聞き返し文を発話する（ステップＳ
２）。これはマイク５を通じて装置に入力する。図２を
用いて説明した音声認識部１３では、この聞き返し文を
音声認識する（ステップＳ３）。

【００１６】そして、ステップＳ４で、聞き返し文かど
うかの判定を行う。もし、聞き返し文であれば、今度は
聞き返し文の種類を判定する（ステップＳ５）。聞き返
し文の種類としては、この図のステップＳ６に示すよう
に、例えば単に聞き取れなかった場合と、声が小さすぎ
て聞き取れなかった場合と、速すぎて聞き取れなかった
場合とがある。

【００１７】単に聞き取れなかっただけであれば、同一
の音声出力を繰り返す。声が小さすぎれば大きい声で出
力する。声が速すぎれば遅い速度で出力する。このよう
な出力方法の選択のために、聞き返し文の種類の判定が
される。そして、その種類に応じた出力方法が決定する
と、音声出力部１２においてスピーカ４を駆動し、同一
の会話文を出力する（ステップＳ７）。同時に適切な画
像も表示する。本発明の概略はこの通りであるが、次
に、そのデータ構成等を具体的に説明する。

【００１８】図３には、会話文レコードの説明図を示
す。上記のような聞き返し処理を行う場合、対話者の会
話文は音声認識され、その内容が予めメモリ等に記憶し
た会話文と比較される。これによって、どういった種類
の聞き返し文かが判断される。その判断結果に応じて、
対応する音声出力が選択される。この図は対話者の会話
文やその対応する音声出力を、会話文レコードとしてど
のように保持するかを説明している。

【００１９】会話データは、例えば会話訓練のために設
定される場面毎に用意される。会話データＤ１，Ｄ２，
Ｄ３，…Ｄｎは、設定場面ごとに分類されたデータであ
る。そして、例えば会話データＤ１には、その場面で出
力される会話文レコードＲ１〜Ｒｍが書き込まれる。こ
の１つの会話文レコードの構造を図の下側に示した。即
ち、この会話文レコードは、会話文テキストデータ２
１、フラグ２２、画像ファイル名２３及び音声ファイル
名２４から構成される。

【００２０】会話文テキストデータ２１は、会話文の内
容をテキストデータとして表現したものである。これ
は、音声認識して得られた認識文との比較に用いられ
る。この比較の結果により、装置は、対話者の発話内容
を認識する。フラグ２２は、音声出力部が音声出力処理
をする際に参照される制御用のパラメータである。フラ
グ２２の内容は、この会話文が通常の会話文の場合
“０”、その他の聞き返し文の場合は、図に示すように
“１”，“２”，“３”，“４”，“５”となる。即
ち、「もう一度」という聞き返し文の場合にはフラグが
“１”、「もっと大きく」という聞き返し文の場合には
フラグが“２”、「もっと小さく」という聞き返し文の
場合にはフラグが“３”、「もっとゆっくり」という聞
き返し文の場合にはフラグが“４”、「もっと速く」と
いう聞き返し文の場合にはフラグが“５”となる。

【００２１】画像ファイル名２３は、その会話文と同時
に表示すべき画像ファイルを指定するためのデータであ
る。音声ファイル名２４は、その会話文を発話する場合
の合成音声データを格納したファイルを指定している。

【００２２】音声認識が行われると認識文が得られる。
この認識文と会話文テキストデータ２１とが比較され
る。そして、一致するテキストデータが存在する場合、
その会話文の内容が認識される。一方、音声出力の場合
には、通常の会話文の場合には、画像ファイル名２３と
音声ファイル名２４が参照され、対応する画像が表示さ
れる。さらに対応する合成音声が出力に使用される。一
方、聞き返し文の場合には、そのフラグ２２の内容に応
じて、音声出力部で合成音声データが変換処理される。
なお、対話者から入力する会話文が英語の場合には、図
の＊１〜＊５に示したような内容にすればよい。

【００２３】図４に、本発明による具体的な動作フロー
チャートを示す。この図を用いて、対話者の聞き返しに
対応する装置の具体的な動作を説明する。まず、ステッ
プＳ１において、音声入力があったかどうかが判断され
る。音声入力があると、ステップＳ２において、その音
声が認識されテキストデータに変換される。次に、ステ
ップＳ３において、そのデータが通常の会話文か聞き返
し文かの判断がされる。通常の会話文の場合には応答用
データが読み込まれ、その応答用データの出力が行われ
る（ステップＳ４，ステップＳ５）。

【００２４】一方、聞き返し文と判断されると、既に説
明したフラグがセットされた後、ステップＳ３からステ
ップＳ７方向に向かう。もう一度繰り返し出力するよう
な内容のの場合には、ステップＳ３からステップＳ７に
進み、直前のデータを読み込んで、そのデータを出力す
る（ステップＳ８）。一方、もっと大きくあるいはもっ
と小さく出力する場合には、ステップＳ６において、音
量の設定変更を行う。そして、ステップＳ７に進んで直
前のデータを読み込み出力する。一方、もっとゆっくり
あるいはもっと速くという聞き返し文の場合にはステッ
プＳ９に進み、予め遅く速度の設定してあるデータや速
く設定してあるデータを読み込む。そして、ステップＳ
１０において、そのデータを出力する。このようにし
て、聞き返しの内容に応じた出力が可能になる。その
後、ステップＳ１１に進み、次の会話データがある場合
にはステップＳ１に戻って同様の動作が繰り返される。

【００２５】次に、装置から対話者に対し聞き返しを行
う場合の動作を説明する。これまでとは逆に、対話者の
音声を装置が認識できない場合がある。この場合にも円
滑な対話を妨げないために、音声による応答がされるこ
とが好ましい。これは、次のような手順で実現する。

【００２６】図５は、装置からの聞き返し動作フローチ
ャートである。まず、ステップＳ１において、音声入力
があるかどうかの判断がされる。音声入力がなければ別
処理に進む。音声入力があればその音声を認識し、テキ
ストデータに変換する（ステップＳ２）。ここで、この
音声からテキストへの変換処理ができたかどうかを判断
する（ステップＳ３）。

【００２７】認識処理そのものができなかった場合、あ
るいはテキストに変換しても該当する会話文がなく、そ
のテキストを認識できない場合の両方がある。いずれの
場合においても、認識ができれば応答処理に進む。認識
ができなければステップＳ４に進んで、聞き返し動作デ
ータの読込みが行われる。

【００２８】記憶部１７には、例えば「もう一度お願い
します。」といったメッセージ１７Ａが格納されてい
る。このデータ形式は既に図３を用いて説明したものと
同様でよい。こうしたデータが読み込まれ、次のステッ
プＳ５において、音声出力がされる。こうして装置は、
対話者の音声が聞き取れない場合に、音声によってその
旨を対話者に伝える。従って、対話者はこれに対応して
再度直前に発話した会話文を入力する。なお、ここでは
同一の会話文を再度入力するような要求のみを例にし
た。しかしながら、これまでの対話者側からの聞き返し
文と同様に、声が小さくて認識できない場合等につい
て、別の聞き返し文を用意し発話するようにしてもよ
い。なお、上記のような語学訓練装置は、パーソナルコ
ンピュータのプログラムの制御により実現する。従っ
て、そのプログラムをフロッピーディスクやＣＤ−ＲＯ
Ｍその他の記録媒体に記録してから、コンピュータのハ
ードディスクにインストールしあるいはネットワークを
経由してダウンロードすれば、本発明を実施することが
できる。

【００２９】

【発明の効果】以上説明した本発明の音声対話制御方法
によれば、語学訓練装置等において、対話者が装置の発
する会話文を認識できない場合に、特別の操作を意識す
ることなく、通常の聞き返し文を入力することによっ
て、聞き返し処理が可能となる。従って、自然な会話を
妨げず、円滑な語学訓練ができる。また、語学訓練装置
に限らず、対話型の各種の装置において、自然な聞き返
しによる処理ができるため、操作性の向上が図られる。
また、装置の側が聞き返しを行う場合においても、音声
出力により聞き返しを行うことから、対話者の再入力を
自然な状態で行うことが可能になる。

【図面の簡単な説明】

【図１】本発明による音声対話制御方法の説明図であ
る。

【図２】語学訓練装置のブロック図である。

【図３】会話文レコードの説明図である。

【図４】本発明による具体的な動作フローチャートであ
る。

【図５】装置からの聞き返し動作フローチャートであ
る。

【符号の説明】１対話者４スピーカ５マイク１２音声出力部

───────────────────────────────────────────────────── フロントページの続き (72)発明者木村信宏石川県金沢市幸町３番35号株式会社沖北陸システム開発内

Claims

【特許請求の範囲】

【請求項１】対話者が発話したとき、その発話の内容を音声認識して、通常の会話文か聞き返し文かを判定するとともに、聞き返し文の場合には、音声認識して得られた認識文を解析して、対話者の聞き返し文の種類を判定し、この聞き返し文の種類に応じて、直前に出力した音声デ
ータの処理方法を選択することを特徴とする音声対話制
御方法。
【請求項２】請求項１において、聞き返し文の種類が、出力音量の変更を要求するもので
ある場合には、音声データの出力音量を要求に応じて変
更することを特徴とする音声対話制御方法。
【請求項３】請求項１において、聞き返し文の種類が、出力速度の変更を要求するもので
ある場合には、音声データの出力速度を要求に応じて変
更することを特徴とする音声対話制御方法。
【請求項４】請求項１において、聞き返し文の種類に応じて、直前に出力した音声データ
とともに表示する表示画像の処理方法を選択することを
特徴とする音声対話制御方法。
【請求項５】対話者が発話したとき、その発話の内容を音声認識して、通常の会話文か聞き返し文かを判定するとともに、聞き返し文の場合には、音声認識して得られた認識文を解析して、対話者の聞き返し文の種類を判定し、この聞き返し文の種類に応じて、直前に出力した音声デ
ータの処理方法を選択するよう制御するプログラムを記
録した記録媒体。
【請求項６】対話者が発話して、音声認識ができないとき、予め用意した該当する聞き返し文を選択して、音声による応答出力を行うことを特徴とする音声対話制
御方法。
【請求項７】対話者が発話して、音声認識ができないとき、予め用意した該当する聞き返し文を選択して、音声による応答出力を行うよう制御するプログラムを記
録した記録媒体。