JP2013200423A

JP2013200423A - 音声対話支援装置、方法、およびプログラム

Info

Publication number: JP2013200423A
Application number: JP2012068328A
Authority: JP
Inventors: Yumi Ichimura; 由美市村; Kazuo Sumita; 一男住田; Masaru Sakai; 優酒井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-03-23
Filing date: 2012-03-23
Publication date: 2013-10-03
Also published as: US20130253924A1

Abstract

【課題】効率よく聞き直しの音声を再生できる。
【解決手段】音声対話支援装置１００において、分割部１０２は、語および音響を含む音声データを、語の特性および音響の特性のうちの１以上の特性に応じて分割して複数の分割音声データを得る。分析部１０３は、分割音声データごとに語の特性および音響の特性に関する分析結果を得る。表現検出部１０５は、利用者による発話および利用者による動作の少なくともどちらか一方により利用者の指示および利用者の状態のどちらか一方を示す１以上の手がかり表現を、分割音声データごとに検出する。推定部１０８は、手がかり表現が検出された場合、分析結果に基づいて、手がかり表現が検出される前に発話された音声に対応する１以上の分割音声データから、分割音声データを１以上の再生データとして推定する。出力部１１０は、再生データを出力する。
【選択図】図１

Description

本発明の実施形態は、音声対話支援装置、方法、およびプログラムに関する。

通常、音声は発話されてもすぐに消滅するため、人は音声情報を人の記憶容量の範囲内でしか覚えられない。そのため、記憶すべき情報量が多かったり、集中力の低下により記憶容量が少なくなっていたりすると、しばしば聞き逃しが発生する。そこで、対話における音声（対話音声）を録音し、聞き逃しなどによって聞き直したい情報がある場合に、その対話を効率的に再生する機器がある。

特開平１１−２５１１２号公報特開２０１１−９０４８３号公報

例えば、キーワードを含む発話を録音順に再生する技術では、すべての対話音声を再生する場合に比べて対話内容を効率的に把握できるが、予めキーワードを設定する必要がある。すなわち、販売スタッフと顧客との対話のように、目的や場面が限定されている場合には有効であるが、一般の対話では話題が広範であり話題を予想できないため、キーワードの設定が難しい。また、音声の再生範囲を制御することにより音声を再生する技術があるが、対話の内容を考慮することができない。

本開示は、上述の課題を解決するためになされたものであり、対話の内容にかかわらず、効率よく聞き直したい箇所の音声を再生することができる音声対話支援装置、方法、およびプログラムを提供することを目的とする。

本実施形態に係る音声対話支援装置は、分割部、分析部、表現検出部、推定部および出力部を含む。分割部は、語および音響を含む音声データを、語の特性および音響の特性のうちの１以上の特性に応じて分割して複数の分割音声データを得る。分析部は、分割音声データごとに語の特性および音響の特性に関する分析結果を得る。表現検出部は、利用者による発話および利用者による動作の少なくともどちらか一方により利用者の指示および利用者の状態のどちらか一方を示す１以上の手がかり表現を、分割音声データごとに検出する。推定部は、手がかり表現が検出された場合、分析結果に基づいて、手がかり表現が検出される前に発話された音声に対応する１以上の分割音声データから、分割音声データを１以上の再生データとして推定する。出力部は、再生データを出力する。

第１の実施形態に係る音声対話支援装置を示すブロック図。分割処理部の動作を示すフローチャート。分割処理部の動作の別例を示すフローチャート。手がかりリストのテーブルの一例を示す図。再生指示部の動作を示すフローチャート。再生終了指示部の動作を示すフローチャート。再生箇所推定部の動作を示すフローチャート。再生箇所推定部の動作を示すフローチャート。再生速度設定部の動作を示すフローチャート。再生速度設定部の動作の別例を示すフローチャート。音声取得部に入力される音声対話の一例を示す図。音声データ分析部で分析された音声データの一例を示す図。音声データ分析部で分析された音声データの一例を示す図。第２の実施形態に係る音声対話支援装置を示すブロック図。部分データ抽出部の動作を示すフローチャート。音声対話支援装置をプログラムとして実現する場合のコンピュータの一例を示すブロック図。

以下、図面を参照しながら本実施形態に係る音声対話支援装置、方法、およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作を行うものとして、重複する説明を適宜省略する。
本実施形態に係る音声対話支援装置の利用例について図１を参照して説明する。
本実施形態に係る音声対話支援装置１００は、音声取得部１０１、分割処理部１０２、音声データ分析部１０３、データ蓄積部１０４、手がかり表現検出部１０５、再生指示部１０６、再生終了指示部１０７、再生箇所推定部１０８、再生速度設定部１０９、音声出力部１１０、話者認識部１１１、発話速度測定部１１２、発話間隔測定部１１３、雑音検出部１１４、音声認識部１１５および重要表現抽出部１１６を含む。

音声取得部１０１は、例えばマイクであり、外部の音源から発生した音声を、語と音響とを含む音声データとして取得する。外部の音源とは、例えば人、スピーカーである。本実施形態に係る音響は、音声に加え、外部の環境音も含む。
分割処理部１０２は、音声取得部１０１から音声データを受け取り、語の特性および音響の特性の少なくとも１つの特性に応じて音声データを分割して複数の分割音声データを得る。分割処理部１０２の分割処理については、図２および図３を参照して後述する。
音声データ分析部１０３は、分割処理部１０２から分割音声データを受け取る。音声データ分析部１０３は、後述する話者認識部１１１、発話速度測定部１１２、発話間隔測定部１１３、雑音検出部１１４、音声認識部１１５および重要表現抽出部１１６のそれぞれを制御して、分割音声データに含まれる語の特性および音響の特性のうちの１以上の特性に関して分析した分析結果を得る。
データ蓄積部１０４は、音声データ分析部１０３から分割音声データと分析結果とを受け取り、分割音声データと分析結果とを対応づけて分析データとして蓄積する。

手がかり表現検出部１０５は、音声取得部１０１から音声データを受け取り、手がかりリストを参照して、音声データの中で手がかり表現と一致する語または一致する動作があるかどうかを検出する。手がかり表現は、利用者による発話および利用者による動作の少なくともどちらか一方により利用者の指示および利用者の状態のどちらか一方を示し、本実施形態では手がかり語と手がかり動作とを含む。手がかり語は、所定の処理へ移行するためのキーとなる語を示し、手がかり動作は、所定の処理へ移行するためのキーとなる動作を示す。なお、手がかり表現検出部１０５は、後述のデータ蓄積部１０４から音声データのテキストデータを受け取って、テキストデータと手がかり表現とのマッチングを行ってもよい。手がかりリストについては、図４を参照して後述する。
再生指示部１０６は、手がかり表現検出部１０５から手がかり表現の処理結果を受け取り、音声データの再生を指示する再生指示信号を生成する。再生指示部１０６の動作については、図５を参照して後述する。
再生終了指示部１０７は、手がかり表現検出部１０５から手がかり表現の処理結果を受け取り、音声データの再生終了を指示する再生終了指示信号を生成する。再生終了指示部１０７の動作については、図６を参照して後述する。
再生箇所推定部１０８は、再生指示部１０６から再生指示信号を、再生終了指示部１０７から再生終了指示信号を、データ蓄積部１０４から分析データをそれぞれ受け取る。再生箇所推定部１０８は、分析データに基づいて手がかり表現が検出される前に発話された音声に対応する分割音声データから、再生すべき分割音声データを再生データとして順次抽出する。再生箇所推定部１０８の動作については、図７Ａおよび図７Ｂを参照して後述する。
再生速度設定部１０９は、再生箇所推定部１０８から再生データを受け取り、再生データの再生速度を設定する。再生速度設定部１０９の動作については、図８および図９を参照して後述する。
音声出力部１１０は、再生速度設定部１０９から再生速度が設定された再生データを受け取り、設定された速度で再生データを再生して、音声を出力する。なお、再生速度設定部１０９において速度が設定されない場合は、通常の対話における対話速度で再生データの音声を出力すればよい。

話者認識部１１１は、音声データ分析部１０３から分割音声データを受け取り、分割音声データに含まれる語及び音響から、分割音声データの音声が音声対話支援装置１００の利用者の音声であるかどうかを認識する。
発話速度測定部１１２は、音声データ分析部１０３から分割音声データを受け取り、分割音声データに含まれる語および音響から、分割音声データの発話速度を測定する。
発話間隔測定部１１３は、音声データ分析部１０３から分割音声データを受け取り、分割音声データに含まれる音響に基づいて発話間の間隔を示す発話間隔を測定する。
雑音検出部１１４は、音声データ分析部１０３から分割音声データを受け取り、分割音声データに含まれる音響から音声以外の環境音（以下、ここでは雑音）を検出する。
音声認識部１１５は、音声データ分析部１０３から分割音声データを受け取り、分割音声データに含まれる語をテキストデータとして変換する。
重要表現抽出部１１６は、音声認識部１１５からテキストデータを受け取り、テキストデータから重要表現を抽出する。重要表現は、対話中にキーワードとなりえる語であり、例えば、地名、人名、数量表現などの固有表現や、専門用語である。

次に、分割処理部１０２における分割処理について、図２のフローチャートを参照して説明する。
ステップＳ２０１では、音声データに対して音声認識を行い、音声データをテキストデータに変換する。音声認識は、一般的な音声認識処理を行えばよいので、ここでの説明は省略する。
ステップＳ２０２では、音声データを形態素解析し、文節の切れ目でテキストデータを分割する。形態素解析も、一般的な形態素解析を用いればよいので、ここでの説明は省略する。以上で分割処理を終了する。

次に、分割処理部１０２における分割処理の別例について、図３のフローチャートを参照して説明する。
ステップＳ３０１では、音声データに含まれる音響に基づいて話者認識を行い、話者の変わり目で分割する。話者認識処理は、一般的な話者認識処理を行えばよいので、ここでの説明は省略する。なお、第１の実施形態に係る話者認識部１１１が音声取得部１０１から音声データを取得して認識処理を行い、話者認識部１１１が分割処理部１０２に認識結果を送ってもよい。
ステップＳ３０２では、無音区間を検出し、無音区間を切れ目として音声データを分割する。無音区間の検出は、例えば、閾値以上の期間、音声データに含まれる音響の音量が一定値以下であれば、無音区間として検出すればよい。以上で処理を終了する。このようにすることで、音声データを話者と発話との区切りで分割することができる。

次に、手がかり表現検出部１０５で参照される手がかりリストの一例について、図４を参照して説明する。
手がかりリスト４００は、手がかり表現４０１、話者および動作者４０２、発話間隔４０３、音量４０４、状態４０５および結果４０６がそれぞれ対応づけられる。なお、図４中、「Ｎ／Ａ」は該当する情報が存在しないことを示す。
話者および動作者４０２は、手がかり表現を行った者（すなわち、手がかり語を発話した者、または手がかり動作を行った者）が、第１の実施形態に係る音声対話支援装置１００の利用者であるかどうかを示す。手がかり発話間隔４０３は、直前の対話から手がかり表現が発話または動作されるまでの間隔の長さを示す。音量４０４は、発話された手がかり語の音量の大きさを示す。状態４０５は、データ蓄積部１０４に蓄積（録音）された音声データが再生されているかどうかを示す。結果４０６は、音声対話支援装置１００の利用者がどのような状態であるか、または音声対話支援装置１００のその後の処理を示す。具体的には、音声を聞き逃したことを示す「聞き逃し」、利用者自身の発言を忘れたことを示す「内容忘れ」、音声データの再生を終了することを示す「再生終了」、および、再生を続けることを示す「再生続行」が挙げられる。

手がかりリスト４００には、例えば、手がかり語として、手がかり表現４０１「えっ」、話者および動作者４０２「利用者」、手がかり発話間隔４０３「Ｎ／Ａ」、音量４０４「大」、状態４０５「非再生中」、結果４０６「聞き逃し」がそれぞれ対応づけられる。また、手がかり動作の場合は、手がかり表現４０１「イヤホンを１回たたく」、話者および動作者４０２「利用者」、手がかり発話間隔４０３「Ｎ／Ａ」、音量４０４「Ｎ／Ａ」、状態４０５「再生中」、結果４０６「再生終了」がそれぞれ対応づけられる。
例えば、「えっ」という語が発話され、発話した話者が利用者であり、発話音量が大きく、音声データが再生されていない場合を想定する。この場合、手がかり表現検出部１０５は、手がかりリスト４００を参照することで、利用者が対話相手の発言を聞き逃したことを示す「聞き逃し」が発生したことを検出できる。
また、「えーと」という語が発話され、発話した話者が利用者であり、発話音量が大きく、音声データが再生されていない場合を想定する。この場合、手がかり発話間隔が短ければ、手がかり表現検出部１０５は「聞き逃し」が発生したことを検出する。逆に、手がかり発話間隔が長ければ、手がかり表現検出部１０５は、自分自身の発言内容を忘れたことを示す「内容忘れ」であることを検出する。

手がかり表現の具体的な検出処理としては、手がかり語を検出する際には、分割音声データのテキストデータをデータ蓄積部１０４から受け取り、手がかりリストの手がかり表現４０１に一致した語があるかどうかのマッチングにより判定すればよい。なお、テキストによるマッチングではなく、手がかりリストとして手がかり表現の音声または動作の周波数情報を有する場合は、音声の周波数情報を用いてマッチングを行ってもよい。また、手がかり動作を検出する際には、例えば手がかり表現４０１「イヤホンを１回たたく」という動作を検出する場合は、振動検出部（図示せず）により、特定の振動パターンを検出すればよい。同様に、手がかり表現４０１「指でＯＫサインを出す」という動作を検出する場合は、撮像部（図示せず）などにより画像解析を行い、特定のパターンに一致するかどうかのマッチングを行えばよい。

次に、再生指示部１０６の動作について、図５のフローチャートを参照して説明する。
ステップＳ５０１では、手がかり表現検出部１０５の検出結果を受け取る。
ステップＳ５０２では、手がかり表現検出部１０５の検出結果が「聞き逃し」であるかどうかを判定する。検出結果が聞き逃しである場合はステップＳ５０３に進み、聞き逃しでない場合はステップＳ５０４に進む。
ステップＳ５０３では、利用者以外の音声データの再生を指示する再生指示信号を生成し、処理を終了する。
ステップＳ５０４では、手がかり表現検出部１０５の検出結果が「内容忘れ」であるかどうかを判定する。検出結果が内容忘れである場合はステップＳ５０５に進み、検出結果が内容忘れでない場合は処理を終了する。
ステップＳ５０５では、利用者の音声データの再生を指示する再生指示信号を生成し、処理を終了する。

次に、再生終了指示部１０７の動作について、図６のフローチャートを参照して説明する。なお、以下では手がかり表現として、手がかり語が発話される場合を想定する。

ステップＳ６０１では、手がかり表現検出部１０５の検出結果を受け取る。
ステップＳ６０２では、手がかり表現検出部１０５の検出結果が「再生終了」であるかどうかを判定する。検出結果が再生終了である場合はステップＳ６０３に進み、検出結果が再生終了でない場合は処理を終了する。
ステップＳ６０３では、音声データの再生の終了を指示する再生終了指示信号を生成し、処理を終了する。

次に、再生箇所推定部１０８の動作について、図７Ａのフローチャートを参照して説明する。
ステップＳ７０１では、再生指示部１０６および再生終了指示部１０７から判定結果を受け取る。
ステップＳ７０２では、再生指示部１０６の判定結果が「聞き逃し」であるかどうか、すなわち再生指示部１０６から利用者以外の発話（分割音声データ）を再生するための再生指示信号を受け取ったかどうかを判定する。聞き逃しである場合はステップＳ７０３に進み、聞き逃しでない場合は「Ａ」に進む。処理Ａについては、図７Ｂを参照して後述する。
ステップＳ７０３では、データ蓄積部１０４にアクセスして、聞き逃しが発生した時点、すなわち、図４中の結果４０６が「聞き逃し」である手がかり語と一致する分割音声データの１つ前の発話の番号を変数ｉに設定し、ｉ番目のデータを読み出す。ｉはゼロ以上の整数である。

ステップＳ７０４では、δがゼロより大きいかどうかを判定する。δは、分割音声データをどこまで遡って再生するかを制御するゼロ以上の値を有するパラメータであり、予め設定される。例えば、δ＝１０とすれば、発話を１０個まで遡ることになる。δがゼロより大きい場合はステップＳ７０５に進み、δがゼロである場合はステップＳ７１３に進む。
ステップＳ７０５では、音声データのｉ番目の発話をした話者が利用者以外であるかどうかを判定する。利用者以外である場合はステップＳ７０６に進み、利用者である場合はステップＳ７１２に進む。
ステップＳ７０６では、音声データのｉ番目の発話に含まれる雑音の大きさが閾値より大きいかどうかを判定する。雑音の大きさが閾値より大きい場合はステップＳ７１０に進み、雑音の大きさが閾値以下である場合はステップＳ７０７に進む。
ステップＳ７０７では、音声データのｉ番目の発話の速度が閾値より速いかどうかを判定する。発話の速度が閾値より速い場合はステップＳ７１０に進み、発話の速度が閾値以下である場合はステップＳ７０８に進む。

ステップＳ７０８では、音声データのｉ番目の発話が音声認識に失敗したかどうかを判定する。音声認識に失敗した場合はステップＳ７１０に進み、音声認識に失敗していない、つまり音声認識に成功した場合はステップＳ７０９に進む。

ステップＳ７０９では、音声データのｉ番目の発話が重要表現を含むかどうかを判定する。重要表現を含む場合はステップＳ７１０に進み、重要表現を含まない場合はステップＳ７１２に進む。
ステップＳ７１０では、音声データのｉ番目の発話を再生データであると推定する。
ステップＳ７１１では、再生終了指示部１０７の判定結果が「再生終了」であるかどうかを判定する。判定結果が再生終了である場合は処理を終了し、判定結果が再生終了でない場合はステップＳ７１２に進む。

ステップＳ７１２では、変数ｉとパラメータδとをそれぞれ１つずつデクリメントし、ステップＳ７０４に戻り同様の処理を繰り返す。
ステップＳ７１３では、少なくとも１回は音声データが再生されたかどうかを判定する。音声データが再生された場合は処理を終了し、１回も音声データが再生されていない場合はステップＳ７１４に進む。
ステップＳ７１４では、聞き逃しが発生した時点の１つ前の発話を再生データであると推定し、処理を終了する。

次に、再生箇所推定部１０８における、判定結果が聞き逃しでない場合の動作について、図７Ｂのフローチャートを参照して説明する。図７Ｂは、図７Ａに示す処理Ａに続く再生箇所推定部１０８の動作である。
ステップＳ７１５では、再生指示部１０６の判定結果が「内容忘れ」であるかどうかを判定する。内容忘れである場合はステップＳ７１６に進み、内容忘れでない場合は処理を終了する。
ステップＳ７１６では、データ蓄積部１０４にアクセスして、内容忘れが発生した時点、すなわち、図４中の結果４０６が「内容忘れ」である手がかり語と一致する分割音声データの１つ前の発話の番号を変数ｉに設定し、ｉ番目のデータを読み出す。
ステップＳ７１７では、δがゼロより大きいかどうかを判定する。δがゼロより大きい場合はステップＳ７１８に進み、δがゼロ以下である場合はステップＳ７２４に進む。

ステップＳ７１８では、音声データのｉ番目の発話をした話者が利用者であるかどうかを判定する。利用者である場合はステップＳ７１９に進み、利用者以外の場合はステップＳ７２３に進む。
ステップＳ７１９では、音声データのｉ番目の発話間隔が閾値よりも長いかどうかを判定する。発話間隔が閾値よりも長い場合はステップＳ７２１に進み、発話間隔が閾値以下である場合はステップＳ７２０に進む。
ステップＳ７２０では、音声データのｉ番目の発話が重要表現を含むかどうかを判定する。重要表現を含む場合はステップＳ７２１に進み、重要表現を含まない場合はステップＳ７２３に進む。

ステップＳ７２１では、音声データのｉ番目の発話を再生データであると推定する。
ステップＳ７２２では、再生終了指示部１０７の判定結果が「再生終了」であるかどうかを判定する。判定結果が再生終了である場合は処理を終了し、判定結果が再生終了でない場合はステップＳ７２３に進む。
ステップＳ７２３では、変数ｉとパラメータδとをそれぞれ１つずつデクリメントし、ステップＳ７１７に戻り同様の処理を繰り返す。
ステップＳ７２４では、少なくとも１回は音声データが再生されたかどうかを判定する。音声データが再生された場合は処理を終了し、１回も音声データが再生されていない場合はステップＳ７２５に進む。
ステップＳ７２５では、内容忘れが発生した時点の１つ前の発話が再生データであると推定し、処理を終了する。

次に、再生速度設定部１０９の動作について、図８のフローチャートを参照して説明する。
ステップＳ８０１では、再生指示部１０６の判定結果を受け取る。
ステップＳ８０２では、判定結果が「聞き逃し」であるかどうかを判定する。聞き逃しである場合はステップＳ８０３に進み、聞き逃しでない場合はステップＳ８０４に進む。
ステップＳ８０３では、聞き逃しの場合は利用者が対話の内容を把握できていないと考えられるので、再生データの再生速度が遅くなるように設定する。具体的には、分割音声データの発話速度の平均値を算出し、再生データの再生速度の値が平均値よりも小さくなるように設定すればよい。または、一般的な発話速度の値を予め設定し、再生データの再生速度の値が一般的な発話速度の値よりも小さくなるように設定すればよい。
ステップＳ８０４では、判定結果が「内容忘れ」であるかどうかを判定する。内容忘れである場合はステップＳ８０５に進み、内容忘れでない場合は、処理を終了する。
ステップＳ８０５では、内容忘れの場合は内容に関する何らかのキーワードを思い出しさえすれば全体の内容を思い出すことができると考えられ、さらに利用者に素早く内容を思い出させることが好ましいので、再生データの再生速度が速くなるよう設定する。具体的には、発話速度の平均値よりも再生速度の値が大きくなるように設定すればよい。以上で再生速度設定部１０９の動作を終了する。

次に、再生速度設定部１０９の動作の別例について、図９のフローチャートを参照して説明する。
ステップＳ９０１では、再生指示部１０６および再生終了指示部１０７から処理結果を受け取る。
ステップＳ９０２では、処理結果が「聞き逃し」であるかどうかを判定する。聞き逃しである場合はステップＳ９０３に進み、聞き逃しでない場合はステップＳ９１０に進む。
ステップＳ９０３では、データ蓄積部１０４にアクセスして、聞き逃しが発生した時点の１つ前の発話の番号を変数ｉに設定し、ｉ番目のデータを読み出す。
ステップＳ９０４では、δがゼロより大きいかどうかを判定する。δがゼロより大きい場合はステップＳ９０５に進み、δがゼロである場合はステップＳ９１１に進む。
ステップＳ９０５では、音声データのｉ番目の発話をした話者が利用者以外であるかどうかを判定する。利用者以外である場合はステップＳ９０６に進み、利用者である場合はステップＳ９１３に進む。

ステップＳ９０６では、音声データのｉ番目の発話に含まれる雑音の大きさが閾値より大きいかどうかを判定する。雑音の大きさが閾値より大きい場合はステップＳ９１０に進み、雑音の大きさが閾値以下である場合はステップＳ９０７に進む。
ステップＳ９０７では、音声データのｉ番目の発話の速度が閾値より速いかどうかを判定する。発話の速度が閾値より速い場合はステップＳ９１１に進み、発話の速度が閾値以下である場合はステップＳ９０８に進む。
ステップＳ９０８では、音声データのｉ番目の発話が音声認識に失敗したかどうかを判定する。音声認識に失敗した場合はステップＳ９１０に進み、音声認識に失敗していない、つまり音声認識に成功した場合はステップＳ９０９に進む。
ステップＳ９０８では、音声データのｉ番目の発話が重要表現を含むかどうかを判定する。重要表現を含む場合はステップＳ９１１に進み、重要表現を含まない場合はステップＳ９１３に進む。
ステップＳ９１０では、音声データの再生速度を通常の対話速度に設定する。通常の対話速度とは、例えば、利用者の対話速度の履歴から、対話速度の平均値を計算すればよい。

ステップＳ９１１では、音声データの再生速度をステップＳ９１０で設定した速度よりも遅くする。
ステップＳ９１２では、再生終了指示部１０７の処理結果が「再生終了」であるかどうかを判定する。処理結果が再生終了である場合は処理を終了し、処理結果が再生終了でない場合はステップＳ９１３に進む。
ステップＳ９１３では、変数ｉとパラメータδとをそれぞれ１つずつデクリメントし、ステップＳ９０４に戻り同様の処理を繰り返す。

ステップＳ９１４では、少なくとも１回は音声データが再生されたかどうかを判定する。音声データが再生された場合は処理を終了し、１回も音声データが再生されていない場合はステップＳ９１５に進む。
ステップＳ９１５では、音声データの再生速度を通常の対話速度に設定し、処理を終了する。
ステップＳ９１６では、再生指示部１０６の処理結果が「内容忘れ」であるかどうかを判定する。内容忘れである場合は、ステップＳ９１７に進み、内容忘れでない場合は、処理を終了する。
ステップＳ９１７では、内容忘れの場合は利用者に素早く内容を思い出させるため、音声データの再生速度を通常の対話速度よりも速く設定する。以上で再生速度設定部１０９の動作を終了する。このように再生速度設定部１０９の処理により、再生データの雑音が大きいときや音声認識に失敗しているときは、通常の対話速度で再生し、再生データの発話の速度が大きい場合、再生データに重要表現が含まれる場合は、再生速度を遅くすることで利用者が内容を把握しやすくなる。

以下、具体例を用いて第１の実施形態に係る音声対話支援装置１００の動作を説明する。
音声取得部１０１に入力される音声対話の一例を図１０に示す。図１０（ａ）および図１０（ｂ）は、太郎、花子および桃子の一連の対話を示す。桃子が本実施形態に係る音声対話支援装置の利用者である。

次に、データ蓄積部１０４に蓄積される、音声データ分析部１０３で分析された分析データの一例を図１１Ａおよび図１１Ｂに示す。
図１１Ａは、図１０（ａ）の音声データが分析された分析データのテーブルを示し、図１１Ｂは、図１０（ｂ）の音声データが分析された分析データのテーブルを示す。
データ蓄積部１０４には、番号１１０１、分割音声データ１１０２、話者１１０３、速度１１０４、音量１１０５、雑音１１０６、発話間隔１１０７、音声認識１１０８および重要表現１１０９の項目がそれぞれ対応づけられて格納される。番号１１０１と分割音声データ１１０２とは、分割処理部１０２の処理結果であり、番号１１０１は音声対話における発話順に付与される。ここでは、話者の区切りと無音区間とを切れ目として、発話の区切りごとに分割される。
話者１１０３は、話者認識部１１１の処理結果であり、ここでは「利用者」および「利用者以外」の２種類で記述しているが、「太郎」、「花子」、「桃子」といったように話者を特定して記述してもよい。
速度１１０４は、発話速度測定部１１２の処理結果であり、ここでは「速」、「中」および「遅」の３種類で記述しているが、測定で得られた速度値を記述してもよい。

音量１１０５および雑音１１０６は、雑音検出部１１４の処理結果であり、音量１１０５は発話の音の大きさ、雑音１１０６は発話に重畳する雑音の大きさを示す。ここでは「大」、「中」および「小」の３種類で記述しているが、速度１１０４と同様に、音量１１０５および雑音１１０６に関しても、音量値を記述してもよい。
発話間隔１１０７は、発話間隔測定部１１３の処理結果であり、ここでは「長」、「中」および「短」の３種類で記述しているが、測定された時間を記述してもよい。
音声認識１１０８は、音声認識部１１５の処理結果であり、ここでは「成功」および「失敗」の２種類で記述しているが、より細かい分類を記載してもよく、音声認識処理の途中で出力される尤度情報でもよい。
重要表現１１０９は、重要表現抽出部１１６の処理結果であり、重要表現として該当する語がなければ「Ｎ／Ａ」と記述される。
具体的には、例えば、番号１１０１「１」、分割音声データ１１０２「ねえねえ」、話者１１０３「利用者以外」、速度１１０４「中」、音量１１０５「中」、雑音１１０６「小」、発話間隔１１０７「短」、音声認識１１０８「成功」および重要表現１１０９「Ｎ／Ａ」がそれぞれ対応づけられる。

図１１Ａおよび図１１Ｂを参照して、音声対話支援装置１００の具体的な動作を説明する。
手がかり表現検出部１０５は、図１１Ａに示す番号１１０１「９」の分割音声データ１１０２「えっ」が発話された時点で、手がかりリストを参照し、「えっ」という語が聞き逃しを示唆する手がかり語であると検出する。再生指示部１０６は、「聞き逃し」の検出結果を受け取って、利用者以外の分割音声データの再生指示信号を生成する。その後、再生箇所推定部１０８が、図７Ａのフローチャートに示す動作を行い、再生すべき分割音声データ（再生データ）を推定する。図１１Ａの例では、番号１１０１「９」の分割音声データ１１０２「えっ」から順に、番号１１０１を遡っていき、番号１１０１「８」の分割音声データ１１０２「桃子さんは」が重要表現を含むので、分割音声データ１１０２「桃子さんは」を再生データと推定する。
さらに、再生速度設定部１０９は、図９のフローチャートに示す動作を行い、「桃子さんは」が重要表現を含むことから再生速度を遅く設定し、音声出力部１１０で再生データを再生する。なお、利用者から再生終了を指示する発話（図４の「オーケー」または「了解」）がされていないので、音声データの再生を続行する。

続いて、番号１１０１「５」の分割音声データ１１０２「先月リニューアルオープンしたんだって」は、雑音１１０６が閾値よりも大きいので再生データと推定する。再生速度設定部１０９では、雑音１１０６が閾値よりも大きいので、音声データ「先月リニューアルオープンしたんだって」の再生速度を通常の対話速度に設定し、音声出力部１１０で再生データを再生する。利用者から再生終了を指示する発話がされていないので、音声データの再生を続行する。
番号１１０１「２」の分割音声データ１１０２「ＤＤランドって知ってる」は、音声認識１１０８に失敗しているので再生データと推定する。再生速度設定部１０９では、音声データ「ＤＤランドって知ってる」の再生速度を通常の対話速度に設定し、音声出力部１１０で再生データを再生する。ここで、これ以上遡っても再生データとなりえる分割音声データがないので、再生を終了する。
上述の処理により、利用者である桃子は、一般的に知られていない固有名詞を含んでいるために音声認識に失敗したフレーズ「ＤＤランドって知ってる」か、雑音が大きくて聞きづらかった「先月リニューアルオープンしたんだって」のいずれかを聞き逃した可能性が高い。よって、これらの音声データを再生することにより効率的に対話を支援することができる。

別の例として、図１１Ａの音声データの続きである図１１Ｂに示す音声データに対する音声対話支援装置の動作を説明する。
番号１１０１「２０」の分割音声データ１１０２「もう一回」がなされた時点で、手がかり表現検出部１０５が手がかりリストを参照し、「もう一回」という語が聞き逃しを示唆する手がかり語であると検出する。再生指示部１０６は、聞き逃しの検出結果を受け取って、利用者以外の分割音声データの再生指示を生成する。その後、再生箇所推定部１０８は、番号１１０１「１９」の分割音声データ１１０２「午前１０時に川崎駅で待ち合わせましょう」が重要表現（「午前１０時」および「川崎駅」）を含むので、「午前１０時に川崎駅で待ち合わせましょう」を再生データと推定する。さらに、再生速度設定部１０９は、重要表現を含む分割音声データ１１０２「午前１０時に川崎駅で待ち合わせましょう」の再生速度を遅く設定して、再生データを再生する。
番号１１０１「２１」の分割音声データ１１０２「了解」がなされた時点で、手がかり表現検出部１０５は分割音声データが「再生終了」を指示する手がかり語であると検出し、再生終了指示部１０７が再生終了指示信号を生成することで、再生データの再生が終了する。
桃子は、待ち合わせ時間と場所とを再度確認したかったので、「もう一回」と発話した可能性が高く、重要表現を含む再生データを再生することで効率的な対話を支援することができる。

以上に示した第１の実施形態によれば、手がかり表現に基づいて、音声データを再生させ、音声データの分析結果に基づいて再生すべき音声データを再生データと推定することにより効率的な対話を支援することができる。さらに、再生データの再生速度を、音声データの分析結果に基づいて変更することで、利用者の聞き直したい状態に応じて音声データの再生速度を変更でき、音声データを効率よく再生することができる。

（第２の実施形態）
第１の実施形態では、分割処理部１０２において分割された１つの分割音声データ全体を再生する例を示しているが、第２の実施形態では、１つの分割音声データの一部を抽出して再生する点が異なる。
第２の実施形態に係る音声対話支援装置について、図１２を参照して説明する。
第２の実施形態に係る音声対話支援装置１２００は、音声取得部１０１、分割処理部１０２、音声データ分析部１０３、データ蓄積部１０４、手がかり表現検出部１０５、再生指示部１０６、再生終了指示部１０７、再生箇所推定部１０８、再生速度設定部１０９、音声出力部１１０、話者認識部１１１、発話速度測定部１１２、発話間隔測定部１１３、雑音検出部１１４、音声認識部１１５、重要表現抽出部１１６および部分データ抽出部１２０１を含む。
部分データ抽出部１２０１以外の構成については、第１の実施形態と同様の動作を行うので、ここでの説明は省略する。
部分データ抽出部１２０１は、再生箇所推定部１０８から再生データを受け取り、再生データから部分データを抽出する。

次に、部分データ抽出部１２０１の動作について、図１３のフローチャートを参照して説明する。
ステップＳ１３０１では、再生箇所推定部１０８から再生データを受け取る。
ステップＳ１３０２では、再生データが音声認識に失敗したかどうかを判定する。音声認識に失敗した場合はステップＳ１３０３に進み、音声認識に失敗していない、つまり音声認識に成功した場合は、ステップＳ１３０４に進む。
ステップＳ１３０３では、再生データの雑音が閾値よりも大きいかどうかを判定する。雑音が閾値よりも大きい場合はステップＳ１３０４に進み、雑音が閾値よりも小さい場合はステップＳ１３０５に進む。
ステップＳ１３０４では、再生箇所全体の音声データを再生対象として、処理を終了する。
ステップＳ１３０５では、再生データが重要表現を含むかどうかを判定する。重要表現を含む場合はステップＳ１３０６に進み、重要表現を含まない場合はステップＳ１３０７に進む。

ステップＳ１３０６では、再生データのうちの重要表現部分を部分データとして再生対象とする。
ステップＳ１３０７では、再生データが名詞を含むかどうかを判定する。名詞を含む場合はステップＳ１３０８に進み、名詞を含まない場合はステップＳ１３０９に進む。
ステップＳ１３０８では、再生データのうちの名詞部分を部分データとして再生対象とする。
ステップＳ１３０９では、再生データが用言を含むかどうかを判定する。用言は、例えば、動詞、形容詞、形容動詞である。用言を含む場合はステップＳ１３１０に進み、用言を含まない場合は処理を終了する。
ステップＳ１３１０では、再生データのうちの用言部分を基本形に変形し、部分データとして再生対象とする。
ステップＳ１３１１では、用言部分が否定助動詞を含むかどうかを判定する。否定助動詞を含む場合はステップＳ１３１２に進み、否定助動詞を含まない場合は処理を終了する。
ステップＳ１３１２では、用言に否定助動詞を付加する。以上で部分データ抽出部１２０１の処理を終了する。なお、ここでは用言に意味を付加する上で重要な助動詞として否定助動詞を取り上げたが、他の重要な助動詞、例えば、受身助動詞、使役助動詞、希望助動詞などについても、用言部分に含まれるかどうかを判定し、含まれる場合には用言に付加するようにしてもよい。

具体的には、例えば図１１Ｂに示す番号「１９」の発話データ「午前１０時に川崎駅で待ち合わせましょう」を再生データとして再生する場合、上述の図１３に示すステップを行うことにより、「午前１０時」、「川崎駅」および「待ち合わせる」の３つの再生データが抽出される。これにより、重要な部分のみを効率よく再生することができる。

以上に示した第２の実施形態によれば、再生箇所のうち必要な部分のみ抽出して音声データを再生することで、利用者に対し、対話の流れを妨げずにより効率的な情報を提供することができる。

また、本実施形態に係る音声対話支援装置の構成を、端末とサーバとに分けてもよい。例えば、端末は、音声取得部１０１および音声出力部１１０を含めばよい。サーバは、分割処理部１０２、音声データ分析部１０３、データ蓄積部１０４、手がかり表現検出部１０５、再生指示部１０６、再生終了指示部１０７、再生箇所推定部１０８、再生速度設定部１０９、話者認識部１１１、発話速度測定部１１２、発話間隔測定部１１３、雑音検出部１１４、音声認識部１１５、重要表現抽出部１１６を含めばよく、第２の実施形態に係る音声対話支援装置１２００であれば、上述のサーバの構成に加えて部分データ抽出部１２０１を含めばよい。
このようにすることで、計算量が多い演算処理をサーバ側で行うことができるので、端末側の処理量を減らすことができる。よって、端末の構成を簡潔にすることができる。

なお、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。
第１の実施形態および第２の実施形態に係る音声対話支援装置をプログラムとして実現する場合のコンピュータの一例について図１４を参照して説明する。
コンピュータ１４００は、中央演算処理装置（以下、ＣＰＵともいう）１４０１、メモリ１４０２、磁気ディスクドライブ１４０３、入力受付部１４０４、入出力部１４０５、入力装置１４０６および外部装置１４０７を含む。
磁気ディスクドライブ１４０３は、コンピュータを音声対話支援装置の各構成として機能させるためのプログラムおよび付随するデータを格納する。
メモリ１４０２は、実行中のプログラムおよび実行中のプログラムが扱うデータを一時記憶する。
ＣＰＵ１４０１は、メモリ１４０２に記憶されたプログラムを読み出して実行する。
入力受付部１４０４は、後述の入力装置１４０６から音響信号の入力を受け付ける。
入出力部１４０５は、再生対象の音声データを後述の外部装置１４０７に出力する。
入力装置１４０６は、例えばマイクロフォンであり、音声や周囲雑音を集音する。
外部装置１４０７は、例えばイヤホンであり、入力装置１４０６から受け取った音声データを外部に出力する。

汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した音声対話支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、またはこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の音声対話支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合または読み込む場合はネットワークを通じて取得または読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワークなどのＭＷ（ミドルウェア）などが本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネットなどにより伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコンなどの１つからなる装置、複数の装置がネットワーク接続されたシステムなどの何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコンなども含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００，１２００・・・音声対話支援装置、１０１・・・音声取得部、１０２・・・分割処理部、１０３・・・音声データ分析部、１０４・・・データ蓄積部、１０５・・・手がかり表現検出部、１０６・・・再生指示部、１０７・・・再生終了指示部、１０８・・・再生箇所推定部、１０９・・・再生速度設定部、１１０・・・音声出力部、１１１・・・話者認識部、１１２・・・発話速度測定部、１１３・・・発話間隔測定部、１１４・・・雑音検出部、１１５・・・音声認識部、１１６・・・重要表現抽出部、４００・・・手がかりリスト、４０１・・・手がかり表現、４０２・・・話者および動作者、４０３・・・手がかり発話間隔、４０４・・・音量、４０５・・・状態、４０６・・・結果、１１０１・・・番号、１１０２・・・分割音声データ、１１０３・・・話者、１１０４・・・速度、１１０５・・・音量、１１０６・・・雑音、１１０７・・・発話間隔、１１０８・・・音声認識、１１０９・・・重要表現、１２０１・・・部分データ抽出部、１４００・・・コンピュータ、１４０１・・・磁気ディスクドライブ、１４０２・・・メモリ、１４０４・・・入力受付部、１４０５・・・入出力部、１４０６・・・入力装置、１４０７・・・外部装置。

Claims

語および音響を含む音声データを、該語の特性および該音響の特性のうちの１以上の特性に応じて分割して複数の分割音声データを得る分割部と、
前記分割音声データごとに前記語の特性および前記音響の特性のうちの１以上の特性に関する分析結果を得る分析部と、
利用者による発話および該利用者による動作の少なくともどちらか一方により該利用者の指示および該利用者の状態のどちらか一方を示す１以上の手がかり表現を、前記分割音声データごとに検出する手がかり表現検出部と、
前記手がかり表現が検出された場合、前記分析結果に基づいて、該手がかり表現が検出される前に発話された音声に対応する１以上の前記分割音声データから、分割音声データを１以上の再生データとして推定する推定部と、
前記再生データを出力する出力部と、を具備することを特徴とする音声対話支援装置。
前記表現検出部において検出された前記手がかり表現が前記再生データの再生を終了することを示す場合、再生を終了することを示す終了指示信号を生成する終了指示部をさらに具備することを特徴とする請求項１に記載の音声対話支援装置。
前記音声データが利用者の発話であるかどうかを判定する話者認識部をさらに具備し、
前記推定部は、前記手がかり表現が利用者以外の発言を聞き逃したことを示す場合は、利用者以外の発話を示す第１音声データの中から再生データを推定することを特徴とする請求項１または請求項２に記載の音声対話支援装置。
前記音声データをテキストデータに変換する音声認識部と、
前記テキストデータから、対話中のキーワードとなりえる重要表現を抽出する重要表現抽出部と、
前記音声データに含まれる音声以外の雑音を検出する雑音検出部と、
前記音声データの発話速度を測定する速度測定部と、をさらに具備し、
前記分析部は、前記音声認識部、前記重要表現抽出部、前記雑音検出部および前記速度測定部の処理結果に基づいて前記分析結果を得、
前記推定部は、前記手がかり表現が利用者以外の発言を聞き逃したことを示す場合は、前記第１音声データの中から、音声認識に失敗したかどうか、前記重要表現を含むかどうか、前記雑音が第１閾値以上であるかどうか、および前記発話速度が第２閾値以上であるかどうかの少なくとも１つを満たす第２音声データ、および該手がかり表現の１つ前に発話された第３音声データの少なくともどちらか１つを再生データとして得ることを特徴とする請求項１から請求項３のいずれか１項に記載の音声対話支援装置。
前記音声データが利用者の発話であるかどうかを判定する話者認識部をさらに具備し、
前記推定部は、前記手がかり表現が利用者自身の発言に関する内容忘れであることを示す場合は、該利用者の発話を示す第４音声データの中から再生データを推定することを特徴とする請求項１から請求項４のいずれか１項に記載の音声対話支援装置。
前記音声データをテキストデータに変換する音声認識部と、
前記テキストデータから、対話中のキーワードとなりえる重要表現を抽出する重要表現抽出部と、
前記音声データにおける発話間の間隔を測定する間隔測定部と、をさらに具備し、
前記分析部は、前記音声認識部、前記重要表現抽出部および前記間隔測定部の処理結果に基づいて前記分析結果を得、
前記推定部は、前記手がかり表現が利用者自身の発言に関する内容忘れであることを示す場合は、利用者の発話を示す第４音声データの中から、前記重要表現を含むか、前記間隔が第３閾値以上であるか、の少なくとも１つを満たす第５音声データ、および該手がかり表現の１つ前に発話された第６音声データの少なくともどちらか１つを再生データとして得ることを特徴とする請求項１から請求項３のいずれか１項に記載の音声対話支援装置。
前記再生データに前記重要表現、名詞および用言の少なくとも１つが含まれる場合、再生箇所から該重要表現、該名詞および該用言のうち該当する語、用言が含まれる場合、用言に付随する意味的に重要な助動詞を部分データとして抽出する部分データ抽出部をさらに具備し、
前記出力部は、前記部分データが抽出された場合は、部分データのみを出力することを特徴とする請求項４または請求項６に記載の音声対話支援装置。
前記分析結果に基づいて、前記再生データの再生速度を設定する速度設定部をさらに具備することを特徴とする請求項１から請求項６のいずれか１項に記載の音声対話支援装置。
語および音響を含む音声データを、該語の特性および該音響の特性のうちの１以上の特性に応じて分割して複数の分割音声データを得、
前記分割音声データごとに前記語の特性および前記音響の特性のうちの１以上の特性に関する分析結果を得、
利用者による発話および該利用者による動作の少なくともどちらか一方により該利用者の指示および該利用者の状態のどちらか一方を示す１以上の手がかり表現を、前記分割音声データごとに検出し、
前記手がかり表現が検出された場合、前記分析結果に基づいて、該手がかり表現が検出される前に発話された音声に対応する１以上の前記分割音声データから、分割音声データを１以上の再生データとして推定し、
前記再生データを出力することを具備することを特徴とする音声対話支援方法。
コンピュータを、
語および音響を含む音声データを、該語の特性および該音響の特性のうちの１以上の特性に応じて分割して複数の分割音声データを得る分割手段と、
前記分割音声データごとに前記語の特性および前記音響の特性のうちの１以上の特性に関する分析結果を得る分析手段と、
利用者による発話および該利用者による動作の少なくともどちらか一方により該利用者の指示および該利用者の状態のどちらか一方を示す１以上の手がかり表現を、前記分割音声データごとに検出する手がかり表現検出手段と、
前記手がかり表現が検出された場合、前記分析結果に基づいて、該手がかり表現が検出される前に発話された音声に対応する１以上の前記分割音声データから、分割音声データを１以上の再生データとして推定する推定手段と、
前記再生データを出力する出力手段として機能させるための音声対話支援プログラム。