JP4042435B2

JP4042435B2 - 音声自動質問応答装置

Info

Publication number: JP4042435B2
Application number: JP2002062604A
Authority: JP
Inventors: 佐知子小野寺; 亮落谷; 功難波
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-03-07
Filing date: 2002-03-07
Publication date: 2008-02-06
Anticipated expiration: 2022-03-07
Also published as: JP2003263190A

Description

【０００１】
【発明の属する技術分野】
本発明は、コールセンタなどにおいて、ユーザの質問に対して自動応答する装置であり、特にユーザの質問の解析に関する。
【０００２】
【従来の技術】
これまでの音声による自動応答装置では、ユーザの質問を受付ける場合には、あらかじめ自動応答装置側で用意しておいた対話スクリプトにそって、自動応答装置から問われる項目をユーザが答える形式でユーザの質問事項を取得し、その結果に基づいて回答する対話制御方法で行っていた。例えば、スロットフィリング形式の対話制御方法の場合、自動応答装置があらかじめ用意した項目について、順に自動応答装置がユーザに各項目を埋めるための質問を行い、ユーザがそれらの項目に答えることによって自動応答装置は質問内容を解析していた。
【０００３】
【発明が解決しようとする課題】
この対話制御方法では、自動応答装置があらかじめ用意した項目に添った対話形式ではない質問を受付けることは不可能であるため、質問内容におのずと制限がかかる。
一方、特願平１３−９５０６１「自動応答対話システム」では、ユーザの自由フォーマットで記載された文字情報の質問を解析し、質問事項を抽出して回答検索を行い、ユーザに応答を返す自動応答システムが示されている。しかし、本システムを音声自動質問応答装置に利用し、自由に発話された自由発話型式の質問を音声認識すると、現在の音声認識技術では、多くの誤認識を含み、自由発話によって誤った句読点が挿入されたり、必要な句読点が挿入されなかったりするなど、文章の句切り位置に誤りが生じ、自由発話型式の質問を文字情報の解析のように音声認識を行うことは困難であった。
【０００４】
【課題を解決するための手段】
上記問題を解決するため、従来の文字情報を入力とする自動応答システムに対して、音声認識による誤認識などを解決する質問内容解析部を設けることにより、自由発話型式の質問の入力が可能な音声自動質問応答装置とする。質問内容解析部は、音声認識結果に対して、特願平１３−８３５１８「質問回答方法及び質問回答プログラム」に示されているメールなどのテキストの質問文に用いる談話構造解析を行う。談話構造解析は、文末表現などに着目したルールをあらかじめ用意しておき、そのルールを適用して解析を行う。
例えば、下記の文末表現を次のような談話要素として定義するルールを作成する。
「〜ですか。」「〜教えて下さい。」・・・ → Question
「〜たいのですが。」「〜たいです。」 → Wish
「〜なりました。」「〜できなくなりました。」 → Statement
「〜しているのですが、」「〜すると、」 → Action
学習データにこのルールを適用してQuestion、Wishなどの談話要素を決定するものである。
【０００５】
この談話解析の結果、自由発話型式の質問は談話要素毎に解析される。しかし、音声認識結果に直接、談話構造解析を行うと、例えば、文末表現の誤認識から、ルールを正しく適用することができない場合がある。そこで、図１のように音声認識結果の誤認識の傾向をあらかじめ分析することにより、誤認識をルール化し、誤認識を正しく訂正することができる。
【０００６】
さらに、音声認識結果は、発話の間によって句読点が誤って挿入される場合や、必要なところに挿入されないなど、文章の句切り位置が誤る場合があり、文として不自然な形になっている場合が多い。また、話し言葉であるために、そもそも書き言葉で定義されるような文とならない場合も多い。例えば、発話中に挿入される話者独自の“間”によって，不適当な位置に句読点が挿入される。（音声認識部は，“間”とその前後の語句から句読点を推定する）という音声認識部特有の問題により、音声認識結果の談話解析が困難であった。
【０００７】
話し言葉（書き言葉に比べて、文境界の判定が難しい）に対して文境界を推定する手法が“GLR*: A Robust Grammar-Focused Parser for Spontaneously Spoken Languages”(Alon Lavie １９９６年、CMU-cs-96-126、 School of Computer Science、Carnegie Mellon University)と”発話単位の分割または接合による言語処理単位への変換手法“（竹沢寿幸，森元逞１９９９年１月自然言語処理、VOL.6 No.2）に示されている。これは，学習データとするテキストを形態素解析して形態素に分離し，句点前後の形態素の出現頻度を数え上げておき，入力テキスト（判定したいテキスト）の句点の出現確からしさがある閾値を超えた場合に，その箇所を句点位置と推定する方法である．出現頻度は以下の式で求める．

ここで、C(WiWj)は学習データバイグラムのWiWjの出現回数。C(Wi・Wj)は・が句点位置を示し、この場合では、学習データバイグラムのWiとWjの間に句点位置がある出現回数を示す。
【０００８】
ここで示す式では、前後２形態素に着目しているが、この数は変化させ、下記のように前ｎ単語、後ｍ単語として計算する。

ここで、C(Wi…Wj●)の●は境界位置を示しており、C(W1…Wn●)は学習データセットのＮグラムWi…Wjの右に境界が現れる総数で、C(Wi…Wj)はＮグラムWi…Wjが現れる総数である。
【０００９】
また、着目形態素の表層表現、品詞、活用形、活用型などの要素を組み合わせてみることができる。
【００１０】
このようにして、多くの誤認識を含み、文章の句切り位置に誤りがある自由発話型式の質問の音声認識結果を質問内容解析部によって補正、解析することにより、文字情報を入力とする自動応答システムを自由発話型式の質問ための音声自動質問応答装置に利用することが可能となり、従来の対話制御方法による音声自動応答装置が処理できなかった自由発話型式の質問の音声自動応答処理が可能となる。
【００１１】
また，従来の対話形式の質問を処理するには、直前の装置の発話に対して，ユーザの発話内容をより認識しなければならないため、自由発話型式の質問内容を解析するよりも、より厳密な処理が必要となる。よって、入力された質問を、自由発話型式の質問であれば、自由発話型式音声自動質問応答処理を行い、対話型式の質問であれば、対話型式音声自動質問応答処理を行うことにより、常に適切な音声自動質問応答処理が行うことが可能である。
【００１２】
対話型音声認識部の音声認識結果と質問用音声認識部の音声認識結果を評価、判定する認識結果判定部を用いて、認識結果判定部が、音声入力の判定が特定の対話型式であると判定した場合には、対話型の質問解析を行い、音声入力の判定が自由発話形式であると判定した場合には、自由発話型の質問解析を行う。
【００１３】
他の方法としては、音声入力の音声認識方法を選択する音声認識選択部を備え、音声認識選択部が音声自動質問応答装置の前回の応答に応じて、対話型音声認識部か質問用音声認識部のいずれかを選択して、音声認識処理を行ってもよい。
【００１４】
また、対話型音声認識部の音声認識結果と質問用音声認識部の音声認識結果を評価、判定する認識結果判定部を備え、認識結果判定部が、音声自動質問応答装置の前回の応答に応じて、対話型音声認識部か質問用音声認識部の認識結果のいずれかを選択し、選択した認識結果を評価することによって、対話型の質問解析か、自由発話型の質問解析の選択を行ってもよい。
【００１５】
話者認証やユーザの名前のＩＤを入力してもらうことによってユーザを確定し，あらかじめ記録してあるユーザ情報を、解析した質問内容に付加することにより質問解析の精度を向上させることができる。例えば，コンピュータに関する質問の場合、ユーザ情報にユーザの所有するコンピュータの機種、型名などが記載されていれば、質問発話にユーザの所有するコンピュータの機種、型名が陽に現れなくても、それらの情報を質問内容に付加する。
【００１６】
音声自動質問応答装置による音声入力の解析結果を表示し、これを参照したオペレータによって、音声入力の解析結果の編集操作してもよい。
【００１７】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施の形態を詳細に説明する。
【００１８】
文章の句切り位置を補正するために、図２のように、文区切り前後の言語情報（品詞、表現、活用形など）を基に、複数の学習データ２０２の文区切り位置の出現頻度を計算し、出現頻度データベースＡ２０１を作成する。
【００１９】
出現頻度データベースＡ２０１の作成フローチャートを図３に示す。質疑に関する複数の学習データ２０２をそれぞれ形態素毎に分離する（ステップ３０１）。形態素毎に分離した学習データ２０２を基に句点前後の形態素の出現頻度を計算し、出現頻度データベースＡ２０１を作成する（ステップ３０２）。
【００２０】
出現頻度データベースＡ２０１を利用した質問内容解析部のフローチャートを図４に示す。誤認識修正データベース１１を用いて、音声認識結果から誤認識を修正する（ステップ４０１）。ステップ４０１で修正した音声認識結果に対して形態素解析を行い、句読点を除去し、この結果をＡとする（ステップ４０２）。Ａテキストの最初の形態素を着目位置とする（ステップ４０３）。Ａテキストの着目位置がＡテキストの終端かどうか判定する（ステップ４０４）。着目位置が終端でなかった場合、出現頻度データベースＡ２０１を用いてＡテキストの現在の着目位置の形態素の句点境界位置の確からしさを求める（ステップ４０５）。ステップ４０５で求めた句点境界位置の確からしさを予め設定した閾値と比較する（ステップ４０６）。句点境界位置の確からしさが閾値より大きければ、この句点境界位置を句点推定位置とする（ステップ４０７）。Ａテキストの着目位置を次の着目位置へずらす（ステップ４０８）。音声認識結果に対してステップ４０７で定めた句点推定位置に句点を挿入する（ステップ４０９）。ステップ４０２で除去した音声認識結果の句読点で、句点推定位置でない位置には読点を挿入する（ステップ４１０）。この結果、音声認識結果の音声認識による誤りが修正され、出現頻度データベースＡ２０１を利用することで、音声認識結果の句切り位置の誤りを修正できたため、テキストの質問文の談話構造を解析する手法と同様の手法を用いて談話解析を行うことができ、質問内容を解析することができるようになる。（ステップ４１１）。
【００２１】
文章の句切り位置の補正の方法としては、図５に示すように、まず複数の学習データ２０２に対してあらかじめ談話解析を行い、学習データ２０２の談話解析結果５０２を得る方法もある。談話解析結果５０２の談話構造の区切り前後の言語情報（品詞、表現、活用形など）を基に、この談話解析結果５０２の談話構造の区切り位置の出現頻度を計算し、出現頻度データベースＢ５０１を作成する。
【００２２】
出現頻度データベースＢ５０１の作成フローチャートを図６に示す。質疑に関する複数の学習データ２０２を談話解析し、それぞれの談話解析結果５０２を得る（ステップ６０１）。それぞれ形態素毎に分離する（ステップ６０２）。形態素毎に分離した談話解析結果５０２を基に句点前後の形態素の出現頻度を計算し、出現頻度データベースＢ５０１を作成する（ステップ６０３）。
【００２３】
出現頻度データベースＢ５０１を利用した質問内容解析部のフローチャートを図７に示す。誤認識修正データベース１１を用いて、音声認識結果から誤認識を修正する（ステップ７０１）。ステップ７０１で修正した音声認識結果に対して形態素解析を行い、句読点を除去し、この結果をＡとする（ステップ７０２）。Ａテキストの最初の形態素を着目位置とする（ステップ７０３）。Ａテキストの着目位置がＡテキストの終端かどうか判定する（ステップ７０４）。着目位置が終端でなかった場合、出現頻度データベースＢ５０１を用いてＡテキストの現在の着目位置の談話構造区切り位置の確からしさを求める（ステップ７０５）。ステップ７０５で求めた談話構造区切り位置の確からしさを予め設定した閾値と比較する（ステップ７０６）。談話構造区切り位置の確からしさが閾値より大きければ、この句点境界位置を句点推定位置とする（ステップ７０７）。Ａテキストの着目位置を次の着目位置へずらす（ステップ７０８）。音声認識結果に対してステップ７０７で定めた談話構造区切り位置に句点を挿入する（ステップ７０９）。ステップ７０２で除去した音声認識結果の句読点で、句点推定位置でない位置には読点を挿入する（ステップ７１０）。この結果、音声認識結果の音声認識による誤りが修正され、出現頻度データベースＢ５０１を利用することで、音声認識結果の句切り位置の誤りを修正できたため、テキストの質問文の談話構造を解析する手法と同様の手法を用いて談話解析を行うことができ、質問内容を解析することができるようになる。（ステップ７１１）。
【００２４】
更に他の方法として、図８に示すように、まず複数の学習データ２０２に対してあらかじめ談話解析を行い、学習データ２０２の談話解析結果５０２を得る。談話構造の区切り前後の言語情報（品詞、表現、活用形など）を基に、この談話解析結果５０２の談話要素毎の談話構造の文区切り位置の出現頻度を計算し、出現頻度データベースＣ８０１を作成する。
【００２５】
この出現頻度データベースＣ８０１の作成フローチャートを図９に示す。質疑に関する複数の学習データ２０２を談話解析し、それぞれの談話解析結果５０２を得る（ステップ９０１）。それぞれ形態素毎に分離する（ステップ９０２）。形態素毎に分離した談話解析結果５０２を基に談話要素毎の談話構造の文区切り位置の出現頻度を計算し、出現頻度データベースＣ８０１を作成する（ステップ９０３）。
【００２６】
出現頻度データベースＣ８０１を利用した質問内容解析部のフローチャートを図１０に示す。誤認識修正データベース１１を用いて、音声認識結果から誤認識を修正し、句読点を除去し、この結果をＡとする（ステップ１００１）。Ａテキストの最初の形態素を着目位置とする（ステップ１００２）。Ａテキストの着目位置がＡテキストの終端かどうか判定する（ステップ１００３）。着目位置が終端でなかった場合、出現頻度データベースＣ８０１を用いてＡテキストの現在の着目位置の句点境界位置の確からしさを求める（ステップ１００４）。ステップ１００４で求めた句点境界位置の確からしさを予め設定した閾値と比較する（ステップ１００５）。句点境界位置の確からしさが閾値より大きければ、この句点境界位置を談話構造区切り位置と推定する（ステップ１００６）。さらに出現頻度データベースＣ８０１を用いてこの談話構造区切り位置の、各談話要素の談話構造の文区切り位置の確からしさを求め、予め設定した閾値と比較する（ステップ１００７）。この結果、この談話構造区切り位置の談話要素が推定できる（ステップ１００８）。Ａテキストの着目位置を次の着目位置へずらす（ステップ１００９）。音声認識結果に対してステップ１００６で定めた談話構造区切り位置に句点を挿入する（ステップ１０１０）。ステップ７０２で除去した音声認識結果の句読点で、句点推定位置でない位置には読点を挿入する（ステップ１０１１）。ステップ１００８で推定した談話構造区切り位置毎の談話要素として決定する。この結果、音声認識結果の談話構造解析結果が得られる（ステップ１０１２）。
【００２７】
上記のような方法で得られた談話構造解析結果を入力として、あらかじめ用意された回答事例事例データベースに対して検索を行い、質問に対する検索結果を得る。
＜実施形態１＞本発明に係る実施形態１は、質問内容解析部を設けることにより自由発話型式の質問の入力が可能な音声自動質問応答装置の実施形態である。
【００２８】
図１１に、実施形態１の音声自動質問応答装置の構成図を示す。
【００２９】
音声受信部１１０１によって、ユーザの音声を受信する。音声入力部１１０２によって、音声をWav形式などの音声データに変換される。質問用音声認識部１１０３は、大語彙音声認識エンジンなどによって、前記音声データをテキスト形式の音声認識結果へ変換する。質問内容解析部１１０４は、誤認識修正データベース１１を利用して音声認識結果を修正し、出現頻度データベースＡ２０１か出現頻度データベースＢ５０１か出現頻度データベースＣ８０１を使用し、不要な句読点を削除し、適切な句読点を挿入し、談話解析を行う。回答事例検索部１１０５は、談話解析が行われた音声認識結果のユーザの質問内容に対して、適切な回答事例を回答事例データベース１１０６から検索する。回答事例と適切な応答を作成する。結果出力部１１０７は、質問内容と検索された回答事例から、応答を作成する。応答生成部１１０８は、作成された回答を音声データに変換する。応答発信部１１０９は、音声データに変換された応答をユーザに聞き取れるように再生する。
【００３０】
音声受信部１１０１−音声入力部１１０２間もしくは応答生成部１１０８−応答発信部１１０９間は、電話回線などの音声回線で構成してもよい。また、音声入力部１１０２−質問用音声認識部１１０３間もしくは、結果出力部１１０７−応答生成部１１０８間は、ＶｏＩＰ（Voice over Internet Protocol）などの技術によって音声データを転送してもよい。
【００３１】
応答生成部１１０８で音声データを作成し、応答発信部１１０９によって発話することによって、ユーザに応答しているが、画面表示や印字、ファクシミリ送信などによってユーザに応答してもよい。
＜実施形態２＞本発明に係る実施形態２は、実施形態１を基に、個々のユーザに関するユーザ情報を音声認識結果に付加する実施形態である。図１２に、実施形態２の音声自動質問応答装置の構成図を示す。
【００３２】
ユーザ情報管理部１２０１は、話者認証により、音声入力したユーザを特定し、ユーザ情報データベース１２０２から、個々のユーザの情報を読み出し、音声認識結果に付加する。例えば、コンピュータに関する質問の場合、ユーザ情報にユーザの所有するコンピュータの機種、型名などが記載されていれば、質問発話にユーザの所有するコンピュータの機種、型名が陽に現れなくても、それらの情報を質問内容に付加する。
【００３３】
ユーザ情報管理部１２０１は、あらかじめ入力されたユーザの名前、ＩＤもしくは発信番号通知された電話番号などを基に、話者認証を用いずに、音声入力したユーザを特定してもよい。
【００３４】
＜実施形態３＞本発明に係る実施形態３は、実施形態２を基に、対話型音声認識部の音声認識結果と質問用音声認識部の音声認識結果を評価、判定する認識結果判定部を備える実施形態である。図１３に、実施形態３の音声自動質問応答装置の構成図を示す。
【００３５】
図１４に、実施形態３のフローチャートを示す。音声入力部１１０２において、入力される音声を音声データとして取り込む（ステップ１４０１）。対話用音声認識部１３０１と質問用音声認識部１１０３でそれぞれ音声認識を行う。対話用音声認識部１３０１は、音声自動質問応答装置との対話を進めるために、グラマーに基づく音声認識、ワードスポッティング、対話のための大語彙音声認識エンジンと言語処理部をあわせたものなどによって、システムの理解できる形でユーザの発話を認識する。対話用音声認識部１３０１と質問用音声認識部１１０３は、音声認識時の認識結果の確信性を示す確信度をそれぞれ算出する（ステップ１４０２）。認識結果判定部１３０２において、それぞれの確信度に応じて処理を分岐する（ステップ１４０３）。確信度によって、対話型式の質問であれば、対話制御部１３０３で対話制御を行い、対話応答生成部１３０４でユーザに対する応答を作成する（ステップ１４０４〜１４０５）。確信度によって、音声入力された質問が自由発話型式の質問であれば、質問内容解析部１１０４は、誤認識修正データベース１１を利用して音声認識結果を修正し、出現頻度データベースＡ２０１か出現頻度データベースＢ５０１か出現頻度データベースＣ８０１を使用し、不要な句読点を削除し、適切な句読点を挿入し、談話解析を行う。次に回答事例検索部１１０５は、談話解析された質問内容に対して適切な回答を検索する（ステップ１４０６〜１４０８）。
【００３６】
応答生成部１１０８で、それぞれの制御で作成された応答を音声データに変換すし、応答発信部１１０９は、音声データに変換された応答をユーザに聞き取れるように再生する（ステップ１４０９）。応答内容を対話制御部へ通知する（ステップ１４１０）。
【００３７】
＜実施形態４＞本発明に係る実施形態４は、実施形態２を基に、前回作成した応答に応じて、対話型音声認識処理か質問用音声認識処理のいずれかを選択して、音声認識処理を行う実施形態である。図１５に、実施形態４の音声自動質問応答装置の構成図を示す。
【００３８】
図１６に、実施形態４のフローチャートを示す。音声入力部１１０２において、入力される音声を音声データとして取り込む（ステップ１６０１）。音声認識選択部１５０１は、前回、ユーザに対して応答した内容が、次にユーザが対話用の発話すると予想できるなら、対話型音声認識処理を選択し、そうでない場合には、質問用音声認識処理を選択する。例えば、前回の音声自動質問応答装置の応答が、「行き先はどこですか？」という問いかけならば、ユーザは次に行き先についての対話形式の音声入力を行うことが予想できるため、音声認識選択部１５０１は、対話型音声認識処理を選択する。また、前回の音声自動質問応答装置の応答が、「これで全ての処理を終了します」という問いかけにつながらない応答であるならば、ユーザが次に入力する音声入力は、対話形式による音声入力ではないと予想できるため、音声認識選択部１５０１は、質問用音声認識処理を選択する（ステップ１６０２）。音声認識選択部１５０１が対話型式処理を選択した場合、対話用音声認識部１３０１で音声認識を行い、対話制御部１３０３で対話制御を行い、対話応答生成部１３０４でユーザに対する応答を作成する（ステップ１６０３〜１６０５）。音声認識選択部１５０１が自由発話型式処理を選択した場合、質問用音声認識部１１０３で音声認識を行い、質問内容解析部１１０４は、誤認識修正データベース１１を利用して音声認識結果を修正し、出現頻度データベースＡ２０１か出現頻度データベースＢ５０１か出現頻度データベースＣ８０１を使用し、不要な句読点を削除し、適切な句読点を挿入し、談話解析を行う。次に回答事例検索部１１０５は、談話解析された質問内容に対して適切な回答を検索する（ステップ１６０６〜１６０９）。応答生成部１１０８で、それぞれの制御で作成された応答を音声データに変換する（ステップ１６１０）。応答発信部１１０９は、音声データに変換された応答をユーザに聞き取れるように再生する（ステップ１６１１）。対話制御部１３０３でこの応答内容を推定し、音声認識部選択情報を音声認識選択部１５０１へ通知し、ステップ１６０２の判定に用いられる（ステップ１６１２）。
【００３９】
＜実施形態５＞本発明に係る実施形態５は、実施形態３と実施形態４を基に、音声認識処理を行う実施形態である。図１７に、実施形態５の音声自動質問応答装置の構成図を示す。
【００４０】
図１８に、実施形態５のフローチャートを示す。音声入力部１１０２において、入力される音声を音声データとして取り込む（ステップ１８０１）。対話用音声認識部１３０１と質問用音声認識部１１０３でそれぞれ音声認識を行う。対話用音声認識部１３０１は、音声自動質問応答装置との対話を進めるために、グラマーに基づく音声認識、ワードスポッティング、対話のための大語彙音声認識エンジンと言語処理部をあわせたものなどによって、システムの理解できる形でユーザの発話を認識する。対話用音声認識部１３０１と質問用音声認識部１１０３は、音声認識時の認識結果の確信性を示す確信度をそれぞれ算出する（ステップ１８０２）。音声認識選択部１５０１は、直前の音声自動質問応答装置の応答の内容から、次に続くユーザの音声入力が対話型式となるか、質問型式となるかをあらかじめ推定し、選択する（ステップ１８０３）。ステップ１８０３において対話式型式を選択した場合、対話用音声認識部１３０１で得られた確信度が、予め設定した閾値より大きい時には、対話型式処理を行うことを選択し、そうでない時には、自由発話型式処理を行うことを認識結果判定部１３０２は選択する（ステップ１８０４）。対話型式処理を行うことを選択した場合には、対話制御部１３０３で対話制御を行い、対話応答生成部１３０４でユーザに対する応答を作成する（ステップ１８０５〜１８０６）。ステップ１８０３において自由発話型式を選択した場合、質問用音声認識部１１０３で得られた確信度が、予め設定した閾値より大きい時には、自由発話型式処理を行うことを選択し、そうでない時には、対話型式処理を行うことを選択する（ステップ１８０７）。自由発話型式処理を行うことを選択した場合には、質問内容解析部１１０４は、誤認識修正データベース１１を利用して音声認識結果を修正し、出現頻度データベースＡ２０１か出現頻度データベースＢ５０１か出現頻度データベースＣ８０１を使用し、不要な句読点を削除し、適切な句読点を挿入し、談話解析を行う。回答事例検索部１１０５は、談話解析された質問内容に対して適切な回答を検索する（ステップ１８０８〜１８１０）。応答生成部１１０８で、それぞれの制御で作成された応答を音声データに変換する（ステップ１８１１）。応答発信部１１０９は、音声データに変換された応答をユーザに聞き取れるように再生する（ステップ１８１２）。対話制御部１３０３でこの応答内容から次のユーザの入力を推定し、音声認識部選択情報を音声認識選択部１５０１へ通知する（ステップ１８１３）。対話制御部１３０３において、次回のユーザ発話による入力が、対話型式であると推定できる場合、ステップ１８０４で用いられる対話用音声認識の閾値を質問用音声認識の閾値よりも高めに設定し（ステップ１８１５）、自然発話型式であると推定できる場合、ステップ１８０７で用いられる質問用音声認識の閾値を対話用音声認識の閾値よりも高めに設定する（ステップ１８１６）。
【００４１】
本実施形態の情報キオスク端末における具体的な処理について示す。
【００４２】
情報キオスク端末にはマイクを設置しておく。
【００４３】
問い合わせスタートボタン（タッチパネルなど）をユーザに押下してもらうことにより、問い合わせを開始する。
【００４４】
ここでは、東京から新宿への行き方案内をシステムとの対話で行い、それに続いて新宿の見所を自由に発話する場面を想定して説明する。
【００４５】
まず、対話処理部の対話スクリプトに応じて
「道案内を致します。出発地と行き先を教えてください」と応答を生成し、応答送信部１１０９で発話する。
【００４６】
対話制御部１３０３では、対話スクリプトから次に続くユーザの想定発話は、情報キオスク端末との対話に応じるものであることが予想されるので、対話発話であることを認識結果判定部１３０２へ伝える。
ユーザが
「東京から新宿まで」と発話すると、この音声入力を対話用認識部１３０１と質問用音声認識部１１０３の両方で音声認識を行う。この音声入力における対話用音声認識部１３０１の認識結果の信頼度が８０％、質問要音声認識部１１０３の認識結果の信頼度が３０％とする。信頼度の有効性を判断する閾値を７５％と設定しておくと、認識結果判定部１３０２は、対話用音声認識部１３０１の認識結果の信頼度が閾値より高いため、対話に関わる発話と判断し、その結果を対話制御部１３０３へ通知して、対話処理を続行する。対話制御部１３０３では、ユーザ発話に対する応答
「中央快速で新宿まで直通でいけます」を生成する。
続いて、対話制御部１３０３では、対話スクリプトから、次に続くユーザの想定発話は、中央快速の時刻に関する問い合わせだと予想されるので、対話発話であることを認識結果判定部１３０２へ伝える。
ユーザが
「新宿の、できれば南口の近くの、イタめしの店を知りたいんですけど、どこかいいところありませんか」
と発話すると、入力音声を対話用音声認識部１３０１と質問用音声認識部１１０３の両方で処理する。対話用音声認識部１３０１の認識結果の信頼度が３０％、質問用音声認識部１１０３の認識結果の信頼度が７５％とする。信頼度の有効性を判断する閾値７５％より、対話用音声認識部１３０１の認識結果の信頼度が低く、質問用音声認識部１１０３の認識結果の信頼度が７５％以上であるため、認識結果判定部１３０２は、質問発話であったと判断し、この入力結果を質問内容解析部１１０４で解析し、回答事例検索部１１０５は得られた質問内容を入力として事例検索を行う。事例検索結果は、音声で読み上げるよりも場所などの案内も行う方がよいため、ディスプレイに結果を表示する。
【００４７】
このとき、対話制御部１３０３へは、対話処理ではなく、質問応答処理が行われたことを通知し、質問応答結果の表示処理が終了するとそのことを対話制御部１３０３へ通知する。その通知に応じて、対話制御部１３０３は、対話処理を続行する。
【００４８】
＜実施形態６＞本発明に係る実施形態５は、実施形態２を基に、音声受付け、回答表示をオペレータが行う実施形態である。図１９に、実施形態６の音声自動質問応答装置の構成図を示す。解析結果表示部１９０１は、質問内容解析部１１０４の解析結果をオペレータに対して表示する。解析結果編集部１９０２は、オペレータの操作に応じて、解析結果の誤りを修正する。
【００４９】
音声自動質問応答装置は、それぞれハードウェアとしては、図示は省略するが例えば１または複数のＣＰＵと、主記憶装置と、ハードディスク等の外部記憶装置と、通信装置と、それらを接続するバス等からなるコンピュータによって実現される。このコンピュータを音声自動質問応答装置として機能させるためのソフトウェアプログラムは、コンピュータに読み取り可能な可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができる。
（付記１）音声入力を解析し、音声入力に対する応答を出力する音声自動質問応答装置において、
音声入力の音声認識結果に対して、文章の句切り位置の誤りを修正し、談話構造解析を行う質問内容解析部を備え、
発話された質問を認識することを特徴とする音声自動質問応答装置。
（付記２）音声入力を解析し、音声入力に対する応答を出力する音声自動質問応答装置において、
音声認識が誤りやすい事例から誤認識修正ルールをあらかじめ作成かつ記憶し、前記誤認識修正ルールにしたがって、前記音声認識結果の誤りの補正を行う質問内容解析部を備えることを特徴とする音声自動質問応答装置。
（付記３）音声入力を解析し、音声入力に対する応答を出力する音声自動質問応答装置において、
音声認識が誤りやすい事例から誤認識修正ルールをあらかじめ作成かつ記憶し、前記誤認識修正ルールにしたがって、前記音声認識結果の誤りの補正を行う質問内容解析部と、
音声入力の音声認識結果に対して、文章の句切り位置の誤りを修正し、談話構造解析を行う質問内容解析部を備え、
発話された質問を認識することを特徴とする音声自動質問応答装置。
（付記４）付記１及至３のいずれか記載の音声自動質問応答装置において、
様々な音声入力の学習データを解析し、文章の句切り位置の誤りをあらかじめ記憶した出現頻度データベースを用いて、前記音声認識結果の文章の句切り位置の補正を行う質問内容解析部を備えることを特徴とする音声自動質問応答装置。
（付記５）付記１及至３のいずれか記載の音声自動質問応答装置において、
様々な音声入力の学習データの談話解析を行い、談話構造の各区切りの出現頻度をあらかじめ記憶した出現頻度データベースを用いて、前記音声認識結果の文章の句切り位置の補正を行う質問内容解析部を備えることを特徴とする音声自動質問応答装置。
（付記６）付記１及至３のいずれか記載の音声自動質問応答装置において、
様々な音声入力の学習データの談話解析を行い、談話要素毎の談話構造の各区切りの出現頻度をあらかじめ記憶した出現頻度データベースを用いて、前記音声認識結果の談話解析を行う質問内容解析部を備えることを特徴とする音声自動質問応答装置。
（付記７）音声入力を解析し、音声入力に対する応答を出力する音声自動質問応答装置において、
特定の対話型式の音声入力の音声認識を行う対話型音声認識部と、
自由発話型式の音声入力の音声認識を行う質問用音声認識部と、
前記対話型音声認識部の音声認識結果と前記質問用音声認識部の音声認識結果を評価、判定する認識結果判定部を備え、
前記認識結果判定部が、音声入力が特定の対話型式であると判定した場合には、対話型の質問解析を行い、音声入力が自由発話形式であると判定した場合には、自由発話型の質問解析を行うことを特徴とする音声自動質問応答装置。
（付記８）音声入力を解析し、音声入力に対する応答を出力する音声自動質問応答装置において、
音声入力の音声認識方法を選択する音声認識選択部と、
特定の対話型式の音声入力の音声認識を行う対話型音声認識部と、
自由発話型式の音声入力の音声認識を行う質問用音声認識部とを備え、
前記音声認識選択部が前記音声自動質問応答装置の前回の応答に応じて、前記対話型音声認識部か前記質問用音声認識部のいずれかを選択して、音声認識処理を行うことを特徴とする音声自動質問応答装置。
（付記９）音声入力を解析し、音声入力に対する応答を出力する音声自動質問応答装置において、
特定の対話型式の音声入力の音声認識を行う対話型音声認識部と、
自由発話型式の音声入力の音声認識を行う質問用音声認識部と、
前記対話型音声認識部の音声認識結果と前記質問用音声認識部の音声認識結果を評価、判定する認識結果判定部を備え、
前記認識結果判定部が、前記音声自動質問応答装置の前回の応答に応じて、前記対話型音声認識部の認識結果と前記質問用音声認識部の認識結果のいずれかを選択し、選択した認識結果を評価することを特徴とする音声自動質問応答装置。
（付記１０）付記１及至９のいずれか記載の音声自動質問応答装置において、
ユーザについての情報を格納するユーザ情報記憶装置と、
前記ユーザ情報記憶装置から、音声入力を行ったユーザに関する情報を読み込むユーザ情報管理部とを備え、音声認識結果に前記ユーザに関する情報を付加することを特徴とする音声自動質問応答装置。
（付記１１）付記１及至１０のいずれか記載の音声自動質問応答装置において、音声入力の解析結果を表示する解析結果表示部と、
音声入力の解析結果のオペレータによる編集操作を受け付ける解析結果編集部とを備えることを特徴とする音声自動質問応答装置。
（付記１２）音声入力を解析し、音声入力に対する応答を出力する音声自動質問応答方法において、
音声入力の音声認識結果に対して、文章の句切り位置の誤りを修正し、談話構造解析を行う質問内容解析ステップを備え、
発話された質問を認識することを特徴とする音声自動質問応答方法。
（付記１３）音声入力を解析し、音声入力に対する応答を出力する音声自動質問応答方法において、
音声認識が誤りやすい事例から誤認識修正ルールをあらかじめ作成かつ記憶し、前記誤認識修正ルールにしたがって、前記音声認識結果の誤りの補正を行う質問内容解析ステップを備えることを特徴とする音声自動質問応答方法。
（付記１４）音声入力を解析し、音声入力に対する応答を出力する音声自動質問応答方法において、
音声認識が誤りやすい事例から誤認識修正ルールをあらかじめ作成かつ記憶し、前記誤認識修正ルールにしたがって、前記音声認識結果の誤りの補正を行う質問内容解析ステップと、
音声入力の音声認識結果に対して、文章の句切り位置の誤りを修正し、談話構造解析を行う質問内容解析ステップを備え、
発話された質問を認識することを特徴とする音声自動質問応答方法。
（付記１５）付記１２及至１４のいずれか記載の音声自動質問応答方法において、
様々な音声入力の学習データを解析し、文章の句切り位置の誤りをあらかじめ記憶した出現頻度データベースを用いて、前記音声認識結果の文章の句切り位置の補正を行う質問内容解析ステップを備えることを特徴とする音声自動質問応答方法。
（付記１６）付記１２及至１４のいずれか記載の音声自動質問応答方法において、
様々な音声入力の学習データの談話解析を行い、談話構造の各区切りの出現頻度をあらかじめ記憶した出現頻度データベースを用いて、前記音声認識結果の文章の句切り位置の補正を行う質問内容解析ステップを備えることを特徴とする音声自動質問応答方法。
（付記１７）付記１２及至１４のいずれか記載の音声自動質問応答方法において、
様々な音声入力の学習データの談話解析を行い、談話要素毎の談話構造の各区切りの出現頻度をあらかじめ記憶した出現頻度データベースを用いて、前記音声認識結果の談話解析を行う質問内容解析ステップを備えることを特徴とする音声自動質問応答方法。
（付記１８）音声入力を解析し、音声入力に対する応答を出力する音声自動質問応答方法において、
特定の対話型式の音声入力の音声認識を行う対話型音声認識ステップと、
自由発話型式の音声入力の音声認識を行う質問用音声認識ステップと、
前記対話型音声認識ステップの音声認識結果と前記質問用音声認識ステップの音声認識結果を評価、判定する認識結果判定ステップを備え、
前記認識結果判定ステップが、音声入力が特定の対話型式であると判定した場合には、対話型の質問解析を行い、音声入力が自由発話形式であると判定した場合には、自由発話型の質問解析を行うことを特徴とする音声自動質問応答方法。
（付記１９）音声入力を解析し、音声入力に対する応答を出力する音声自動質問応答方法において、
音声入力の音声認識方法を選択する音声認識選択ステップと、
特定の対話型式の音声入力の音声認識を行う対話型音声認識ステップと、
自由発話型式の音声入力の音声認識を行う質問用音声認識ステップとを備え、
前記音声認識選択ステップが前回の応答に応じて、前記対話型音声認識ステップか前記質問用音声認識ステップのいずれかを選択して、音声認識処理を行うことを特徴とする音声自動質問応答方法。
（付記２０）音声入力を解析し、音声入力に対する応答を出力する音声自動質問応答方法において、
特定の対話型式の音声入力の音声認識を行う対話型音声認識ステップと、
自由発話型式の音声入力の音声認識を行う質問用音声認識ステップと、
前記対話型音声認識ステップの音声認識結果と前記質問用音声認識ステップの音声認識結果を評価、判定する認識結果判定ステップを備え、
前記認識結果判定ステップが、前回の応答に応じて、前記対話型音声認識ステップの認識結果と前記質問用音声認識ステップの認識結果のいずれかを選択し、選択した認識結果を評価することを特徴とする音声自動質問応答方法。
（付記２１）付記１２及至２０のいずれか記載の音声自動質問応答方法において、
ユーザについての情報をユーザ情報記憶装置に格納するユーザ情報記憶ステップと、
前記ユーザ情報記憶装置から、音声入力を行ったユーザに関する情報を読み込むユーザ情報管理ステップとを備え、音声認識結果に前記ユーザに関する情報を付加することを特徴とする音声自動質問応答ステップ。
（付記２２）付記１２及至２１のいずれか記載の音声自動質問応答方法において、
音声入力の解析結果を表示する解析結果表示ステップと、
音声入力の解析結果のオペレータによる編集操作を受け付ける解析結果編集ステップとを備えることを特徴とする音声自動質問応答方法。
（付記２３）コンピュータに
音声認識結果に対して、文章の句切り位置の誤りを修正し、談話構造解析を行う質問内容解析手順を実行させるためのプログラム。
（付記２４）コンピュータに
音声認識が誤りやすい事例から誤認識修正ルールをあらかじめ作成かつ記憶し、前記誤認識修正ルールにしたがって、前記音声認識結果の誤りの補正を行う質問内容解析手順を実行させるためのプログラム。
（付記２５）コンピュータに
音声認識が誤りやすい事例から誤認識修正ルールをあらかじめ作成かつ記憶し、前記誤認識修正ルールにしたがって、前記音声認識結果の誤りの補正を行う質問内容解析手順、
音声入力の音声認識結果に対して、文章の句切り位置の誤りを修正し、談話構造解析を行う質問内容解析手順とを実行させるためのプログラム。
（付記２６）付記２３及至２５のいずれか記載のプログラムにおいて、
様々な音声入力の学習データを解析し、文章の句切り位置の誤りをあらかじめ記憶した出現頻度データベースを用いて、前記音声認識結果の文章の句切り位置の補正を行う質問内容解析手順を実行させるためのプログラム。
（付記２７）付記２３及至２５のいずれか記載のプログラムにおいて、
様々な音声入力の学習データの談話解析を行い、談話構造の各区切りの出現頻度をあらかじめ記憶した出現頻度データベースを用いて、前記音声認識結果の文章の句切り位置の補正を行う質問内容解析手順を実行させるためのプログラム。
（付記２８）付記２３及至２５のいずれか記載のプログラムにおいて、
様々な音声入力の学習データの談話解析を行い、談話要素毎の談話構造の各区切りの出現頻度をあらかじめ記憶した出現頻度データベースを用いて、前記音声認識結果の談話解析を行う質問内容解析手順を実行させるためのプログラム。
（付記２９）コンピュータに
特定の対話型式の音声入力の音声認識を行う対話型音声認識手順、
自由発話型式の音声入力の音声認識を行う質問用音声認識手順、
前記認識結果判定手順が、音声入力が特定の対話型式であると判定した場合には、対話型の質問解析を行い、音声入力が自由発話形式であると判定した場合には、自由発話型の質問解析を行うことを判定する認識結果判定手順とを実行させるためのプログラム。
（付記３０）コンピュータに
特定の対話型式の音声入力の音声認識を行う対話型音声認識手順、
自由発話型式の音声入力の音声認識を行う質問用音声認識手順、
前回の応答に応じて、前記対話型音声認識手順か前記質問用音声認識手順のいずれかを選択する音声認識選択手順とを実行させるためのプログラム。
（付記３１）コンピュータに
特定の対話型式の音声入力の音声認識を行う対話型音声認識手順、
自由発話型式の音声入力の音声認識を行う質問用音声認識手順、
前回の応答に応じて、前記対話型音声認識ステップの認識結果と前記質問用音声認識ステップの認識結果のいずれかを選択し、選択した認識結果を評価する認識結果判定ステップとを実行させるためのプログラム。
（付記３２）付記２３及至３１のいずれか記載のプログラムにおいて、
ユーザについての情報をユーザ情報記憶装置に格納するユーザ情報記憶手順、
前記ユーザ情報記憶装置から、音声入力を行ったユーザに関する情報を読み込むユーザ情報管理手順、
音声認識結果に前記ユーザに関する情報を付加手順とを実行させるためのプログラム。
（付記３３）付記２３及至３２のいずれか記載のプログラムにおいて、
音声入力の解析結果を表示する解析結果表示手順、
音声入力の解析結果のオペレータによる編集操作を受け付ける解析結果編集手順とを実行させるためのプログラム。
【００５０】
【発明の効果】
以上説明したように本発明によれば、自動応答システムに対して、音声認識による誤認識などを解決する質問内容解析部を設けることにより、自由発話型式の質問の入力が可能な音声自動質問応答装置とすることができる。また、自由発話型式の質問であれば、自由発話型式音声自動質問応答処理を行い、対話型式の質問であれば、対話型式音声自動質問応答処理を行うことにより、常に適切な音声自動質問応答処理が行うことが可能にする。
【図面の簡単な説明】
【図１】本発明に係る音声認識結果の訂正の概念図である。
【図２】本発明に係る出現頻度データベースＡの構成図である。
【図３】本発明に係る出現頻度データベースＡの作成フローチャートである。
【図４】本発明に係る出現頻度データベースＡを使用した質問内容解析部のフローチャートである。
【図５】本発明に係る出現頻度データベースＢの構成図である。
【図６】本発明に係る出現頻度データベースＢの作成フローチャートである。
【図７】本発明に係る出現頻度データベースＢを使用した質問内容解析部のフローチャートである。
【図８】本発明に係る出現頻度データベースＣの構成図である。
【図９】本発明に係る出現頻度データベースＣの作成フローチャートである。
【図１０】本発明に係る出現頻度データベースＣを使用した質問内容解析部のフローチャートである。
【図１１】本発明に係る実施形態１の音声自動質問応答装置の構成図である。
【図１２】本発明に係る実施形態２の音声自動質問応答装置の構成図である。
【図１３】本発明に係る実施形態３の音声自動質問応答装置の構成図である。
【図１４】本発明に係る実施形態３の音声自動質問応答装置のフローチャートである。
【図１５】本発明に係る実施形態４の音声自動質問応答装置の構成図である。
【図１６】本発明に係る実施形態４の音声自動質問応答装置のフローチャートである。
【図１７】本発明に係る実施形態５の音声自動質問応答装置の構成図である。
【図１８】本発明に係る実施形態５の音声自動質問応答装置のフローチャートである。
【図１９】本発明に係る実施形態６の音声自動質問応答装置の構成図である。
【符号の説明】
１１誤認識修正データベース
２０１出現頻度データベースＡ
２０２学習データ
３０１学習データの形態素解析ステップ
３０２句境界位置の出現頻度計算ステップ
４０１音声認識結果の修正ステップ
４０２音声認識結果の形態素解析ステップ
４０３初期形態素設定ステップ
４０４終端判定ステップ
４０５句点境界位置計算ステップ
４０６句点境界位置判定ステップ
４０７句点境界位置推定ステップ
４０８着目位置移動ステップ
４０９句点挿入ステップ
４１０読点挿入ステップ
４１１談話解析ステップ
５０１出現頻度データベースＢ
５０２談話解析結果
６０１学習データの談話解析ステップ
６０２学習データの形態素解析ステップ
６０３談話構造区切り位置の出現頻度計算ステップ
７０１音声認識結果の修正ステップ
７０２音声認識結果の形態素解析ステップ
７０３初期形態素設定ステップ
７０４終端判定ステップ
７０５談話構造区切り位置計算ステップ
７０６談話構造区切り位置判定ステップ
７０７談話構造区切り位置推定ステップ
７０８着目位置移動ステップ
７０９句点挿入ステップ
７１０読点挿入ステップ
７１１談話解析ステップ
８０１出現頻度データベースＣ
９０１学習データの談話解析ステップ
９０２学習データの形態素解析ステップ
９０３談話構造区切り位置の出現頻度計算ステップ
１００１音声認識結果の修正ステップ
１００２音声認識結果の形態素解析ステップ
１００３初期形態素設定ステップ
１００４句点境界位置計算ステップ
１００４終端判定ステップ
１００５句点境界位置計算ステップ
１００６句点境界位置判定ステップ
１００７談話構造区切り位置判定ステップ
１００８談話構造区切り位置推定ステップ
１００９着目位置移動ステップ
１０１０句点挿入ステップ
１０１１読点挿入ステップ
１０１２談話解析ステップ
１１０１音声受信部
１１０２音声入力部
１１０３質問用音声認識部
１１０４質問内容解析部
１１０５回答事例検索部
１１０６回答事例データベース
１１０７結果出力部
１１０８応答作成部
１１０９応答発信部
１２０１ユーザ情報管理部
１２０２ユーザ情報データベース
１３０１対話用音声認識部
１３０２認識結果判定部
１３０３対話制御部
１３０４対話応答生成部
１４０１音声入力ステップ
１４０２音声認識ステップ
１４０３認識結果判定ステップ
１４０４対話制御ステップ
１４０５発話内容生成ステップ
１４０６質問内容解析ステップ
１４０７回答事例検索ステップ
１４０８回答結果検索ステップ
１４０９応答出力ステップ
１４１０応答出力内容通知ステップ
１５０１音声認識選択部
１６０１音声入力ステップ
１６０２音声認識選択ステップ
１６０３対話型式音声認識ステップ
１６０４対話制御ステップ
１６０５発話内容生成ステップ
１６０６自然発話型式音声認識ステップ
１６０７質問内容解析ステップ
１６０８回答事例検索ステップ
１６０９回答結果検索ステップ
１６１０応答出力ステップ
１６１１応答出力内容通知ステップ
１６１２音声認識選択ステップ
１８０１音声入力ステップ
１８０２音声認識ステップ
１６０２音声認識選択ステップ
１８０４対話形式判定ステップ
１８０５対話制御ステップ
１８０６発話内容生成ステップ
１８０７自然発話形式判定ステップ
１８０８質問内容解析ステップ
１８０９回答事例検索ステップ
１８１０回答結果検索ステップ
１８１１応答出力ステップ
１８１２応答出力内容通知ステップ
１８１３ユーザ発話推定ステップ
１８１４対話用発話判定ステップ
１８１５対話用閾値設定ステップ
１８１６質問用閾値設定ステップ
１９０１解析結果表示部
１９０２解析結果編集部

Claims

音声入力を認識した結果である音声認識結果を解析し、該音声入力に対する応答を出力する音声自動質問応答装置において、
音声入力の学習データの談話解析により、文末表現に基づいて Question 、 Wish 、 Statement 、 Action のいずれかの類型に定義した談話要素毎の談話構造の区切りの出現頻度を前記談話構造の区切りの出現位置毎にあらかじめ記憶した出現頻度データベースを参照し、前記音声認識結果の談話構造の区切りの出現位置を求め、いずれの位置に談話構造の区切りが現れるかによって前記音声認識結果の談話解析を行う質問内容解析部
を備えることを特徴とする音声自動質問応答装置。
前記質問内容解析部は、音声認識が誤りやすい事例から誤認識修正ルールをあらかじめ作成かつ記憶した誤認識修正データベースを参照し、前記音声認識結果の誤りの補正を行った後に文章の句切り位置の補正または談話解析を行うこと
を特徴とする請求項１に記載の音声自動質問応答装置。
特定の対話型式の音声入力の音声認識を行う対話型音声認識部と、自由発話型式の音声入力の音声認識を行う質問用音声認識部と、
前記対話型音声認識部の音声認識結果と前記質問用音声認識部の音声認識結果を評価、判定する認識結果判定部とをさらに備え、
前記認識結果判定部が前記音声入力が自由発話形式であると判定した場合に、前記質問内容解析部が前記音声認識結果の文章の句切り位置の補正または談話解析を行うこと
を特徴とする請求項１乃至２のいずれかに記載の音声自動質問応答装置。
前回の出力した応答の内容に応じて、前記対話型音声認識部か前記質問用音声認識部のいずれかに音声入力の音声認識を行わせることを選択する音声認識選択部をさらに備えることを特徴とする請求項３に記載の音声自動質問応答装置。