JP7007616B2

JP7007616B2 - 学習データ生成装置、学習データ生成方法およびプログラム

Info

Publication number: JP7007616B2
Application number: JP2020537094A
Authority: JP
Inventors: 喜昭野田; 節夫山田; 隆明長谷川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-08-15
Filing date: 2019-08-14
Publication date: 2022-01-24
Anticipated expiration: 2039-08-14
Also published as: WO2020036193A1; JPWO2020036193A1; US11922927B2; US20210312908A1

Description

本発明は、話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置、学習データ生成方法およびプログラムに関する。

話者の発話内容を解析して、解析結果に応じた応答を話者に対して行う対話システムが検討されている。このような対話システムによれば、例えば、顧客がコンタクトセンタに電話し、不明点などの質問を話すことで質問に対する回答を自動的に顧客に提示することができる。上述したようなシステムにおいては、話者の話し終わりの発話を検出することで、話者の話し終わりまでの発話内容に応じた適切な応答を話者に提示することができる。

複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する方法として、対話における発話に対して、話し終わりの発話であるか否かの情報を付与した学習データを作成する方法が一般に考えられる。この方法では、対話における発話に対して、話し終わりの発話であるか否かの情報を付与した学習データを用いた機械学習（非特許文献１）により、対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルが生成される。

R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. LIBLINEAR: A library for large linear classification Journal of Machine Learning Research 9(2008), 1871-1874.

上述したような話し終わり判定モデルの学習のためには、発話に対して、話し終わりの発話であるか否かを示す教師データを付与した学習データを多数用意する必要がある。従来、このような教師データの付与は人手により行われるのが一般的であり、コストの増加を招いていた。

上記のような問題点に鑑みてなされた本発明の目的は、コストの増加を抑制しつつ、話し終わり判定モデルの学習のための学習データを生成することができる学習データ生成装置、学習データ生成方法およびプログラムを提供することにある。

上記課題を解決するため、本発明に係る学習データ生成装置は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置であって、前記対話における発話の発話情報に基づき、前記話し終わり判定モデルを用いて、前記発話が前記話者の話し終わりの発話であるか否かを判定する第１の判定と、所定のルールに基づき、前記発話が話し終わりの発話であるか否かを判定する第２の判定とを行う話し終わり判定部と、前記第１の判定により前記発話が話し終わりの発話ではないと判定され、かつ、前記第２の判定により前記発話が話し終わりの発話であると判定されると、前記発話の発話情報に対して、該発話が話し終わりの発話であることを示す教師データを付与した学習データを生成する教師データ生成部と、を備える。

また、上記課題を解決するため、本発明に係る学習データ生成装置は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置であって、前記対話における発話が前記話者の話し終わりの発話であるか否かを判定する話し終わり判定部と、前記話し終わり判定部により話し終わりの発話であると判定された第１の発話の後、該第１の発話の話者以外による第２の発話中に発せられる前記第１の発話の話者による発話である割り込み発話の有無を検出する割り込み発話検出部と、前記第２の発話が開始されてから所定時間内に、前記割り込み発話検出部により割り込み発話が検出されると、前記第１の発話の発話情報に対して、該第１の発話が話し終わりの発話ではないことを示す教師データを付与した学習データを生成する教師データ生成部と、を備える。

また、上記課題を解決するため、本発明に係る学習データ生成方法は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置における学習データ生成方法であって、前記対話における発話の発話情報に基づき、前記話し終わり判定モデルを用いて、前記発話が前記話者の話し終わりの発話であるか否かを判定する第１の判定と、所定のルールに基づき、前記発話が話し終わりの発話であるか否かを判定する第２の判定とを行うステップと、前記第１の判定により前記発話が話し終わりの発話ではないと判定され、かつ、前記第２の判定により前記発話が話し終わりの発話であると判定されると、前記発話の発話情報に対して、該発話が話し終わりの発話であることを示す教師データを付与した学習データを生成するステップと、を含む。

また、上記課題を解決するため、本発明に係る学習データ生成方法は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置における学習データ生成方法であって、前記対話における発話が前記話者の話し終わりの発話であるか否かを判定するステップと、話し終わりの発話であると判定された第１の発話の後、該第１の発話の話者以外による第２の発話中に発せられる前記第１の発話の話者による発話である割り込み発話の有無を検出するステップと、前記第２の発話が開始されてから所定時間内に、前記割り込み発話が検出されると、前記第１の発話の発話情報に対して、該第１の発話が話し終わりの発話ではないことを示す教師データを付与した学習データを生成するステップと、を含む。

また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上記の学習データ生成装置として機能させる。

本発明に係る学習データ生成装置、学習データ生成方法およびプログラムによれば、コストの増加を抑制しつつ、話し終わり判定モデルの学習のための学習データを生成することができる。

本発明の一実施形態に係る学習データ生成装置を含む音声自動応答システムの構成例を示す図である。図１に示す話し終わり学習データ記憶部が記憶する話し終わり学習データの構成例を示す図である。図１に示す学習データ生成装置による、タイムアウトの有無による学習データの生成について説明するための図である。図１に示す学習データ生成装置による、割り込み発話の有無による学習データの生成について説明するための図である。図１に示す学習データ生成装置による、割り込み発話の有無による学習データの生成について説明するための図である。

以下、本発明を実施するための形態について、図面を参照しながら説明する。各図中、同一符号は、同一または同等の構成要素を示している。

図１は、本発明の一実施形態に係る学習データ生成装置１０を含む音声自動応答システム１の構成例を示す図である。音声自動応答システム１は、コンタクトセンタなどにおいて、顧客の発話内容を解析して、解析結果に応じた応答を音声（システム発話音声）により行うシステムである。音声自動応答システム１においては、顧客の発話内容に応じた適切な応答を行うためには、話者（顧客）の発話が、話者が伝えたい内容を話し終えた話し終わりの発話であるか否かを判定することが重要である。このような判定は、話者の発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルを用いて行われることがある。本実施形態に係る学習データ生成装置１０は、上述した話し終わり判定モデルの学習のための学習データを生成するものである。

図１に示す音声自動応答システム１は、音声認識部２と、対話システム３と、音声再生部４と、話し終わり判定部１１と、割り込み発話検出部１２と、教師データ生成部１３と、話し終わり学習データ記憶部１４と、学習部１５とを備える。話し終わり判定部１１、割り込み発話検出部１２、教師データ生成部１３、話し終わり学習データ記憶部１４および学習部１５は、学習データ生成装置１０を構成する。

音声認識部２は、顧客の発話音声が入力される。音声認識部２は、入力された顧客の発話音声を、音声認識によりテキスト情報などの発話情報に変換し、話し終わり判定部１１に出力する。また、音声認識部２は、顧客による発話が開始された発話開始時刻およびその発話が終了した発話終了時刻を話し終わり判定部１１に出力する。また、音声認識部２は、顧客の発話を検出すると、顧客の発話を検出したことを示す発話検出信号と、その発話が開始された発話開始時刻とを割り込み発話検出部１２に出力する。また、音声認識部２は、その発話が継続した発話継続時間を割り込み発話検出部１２に出力してもよい。

話し終わり判定部１１は、音声認識部２から出力された発話情報に示される発話が、話者（顧客）の話し終わりの発話であるか否かを判定する。話し終わり判定部１１は、発話情報に示される発話が話し終わりの発話ではないと判定すると、その発話情報を蓄積する。そして、話し終わり判定部１１は、音声認識部２から出力された発話情報に示される発話が話し終わりの発話であると判定すると、その発話情報およびそれまでに蓄積していた発話情報を発話順に対話システム３に出力する。なお、話し終わり判定部１１による話し終わりの発話の判定の詳細については後述する。

対話システム３は、話し終わり判定部１１から出力された発話情報に基づき、顧客の発話内容に応じた応答テキスト、および、システム発話音声の声質、システム発話音声の話速などのシステム発話音声の音声合成のためのパラメータなどのシステム発話情報を生成し、音声再生部４に出力する。話し終わり判定部１１からは、話し終わりの発話であると判定された発話までの発話の発話情報がまとめて出力されるので、対話システム３は、これらの発話情報に基づき、顧客の話の途中で区切られた中途半端な情報だけで応対するのではなく、顧客が話し終えた発話内容全てに基づき応対することができる。

音声再生部４は、対話システム３から出力されたシステム発話情報に基づき、システム発話音声を合成し、顧客に聞こえるように再生する。また、音声再生部４は、システム発話音声を出力する場合、システム発話音声の出力を開始したシステム発話開始時刻を割り込み発話検出部１２に出力する。また、音声再生部４は、システム発話音声の出力を継続している間、システム発話音声を出力中であることを示すシステム発話継続信号を割り込み発話検出部１２に出力する。

音声認識部２は、音声の始端を検出してから音声の終端を検出するまでの音声区間に対する音声認識の結果を、１つの単位として出力する。ここで、音声として話されていないと判定された時点からそのまま、一定時間（例えば、０．５秒から３秒程度）が経過すると（一定時間だけ無音区間が継続すると）、音声として話されていないと判定された時点が音声の終端として検出されるのが一般的である。したがって、音声認識部２は、人が話をしている際に、所定の無音区間を検出すると、それまでの発話の音声認識の結果を出力する。そのため、上述した音声自動応答システム１においては、話者（顧客）が話の途中でも間をおいたタイミングで、それまでの発話の音声認識の結果が出力され、その音声認識の結果の単位で顧客への応答が行われる。そのため、例えば、顧客が途切れ途切れに発話するような場合には、顧客に対して適切な応答を行うことができない。また、途切れ途切れの発話に対応するために、音声の終端を検出するための無音区間を長く設定することが考えられる。しかしながら、音声の終端を検出するための無音区間を長く（例えば、３秒）設定すると、顧客は、発話に対する応答が得られるまでに、その無音区間分だけ待たされることになり、音声自動応答システム１のレスポンスが悪くなる。そこで、顧客の話し終わりの発話を適切に検出することが、顧客の発話内容に対して適切な応答を行うためには重要である。本実施形態においては、音声認識部２と対話システム３との間に設けられた話し終わり判定部１１により顧客の話し終わりの発話を検出することで、顧客の話しの途中で、音声自動応答システム１から応答が行われたり、顧客が伝えたい内容を話し終わる前の発話に基づき、誤った応答が行われたりすることを防ぐことができる。

話し終わり判定部１１は、モデル判定部１１ａと、ルール判定部１１ｂとを備える。

モデル判定部１１ａは、話し終わり判定モデル１６を用いて、音声認識部２から出力された発話情報に示される発話が、話者の話し終わりの発話であるか否かの判定（第１の判定）を行う。話し終わり判定モデル１６は、例えば、発話情報に示される発話の内容に基づき、その発話が話し終わりの発話であるか否かの判定を行う。また、話し終わり判定モデル１６は、発話情報に示される発話の末尾のパターン（語尾のパターン）に基づき、その発話が話し終わりの発話であるか否かの判定を行ってもよい。

ルール判定部１１ｂは、所定のルールに基づき、発話情報に示される発話が、話者の話し終わりの発話であるか否かの判定（第２の判定）を行う。ルール判定部１１ｂは、例えば、発話情報に示される顧客の発話の後、所定時間以上、顧客による発話が無い場合（タイムアウト）、その発話は話し終わりの発話であると判定するというルールに基づき、発話情報に示される発話が、話者の話し終わりの発話であるか否かの判定（第２の判定）を行う。

話者（顧客）の発話後、所定時間以上、次の発話が無い場合、話者（顧客）は話し終わり、他の話者（音声自動応答システム１）からの反応を待っていると考えられる。したがって、ルール判定部１１ｂは、顧客の発話後、所定時間以上、次の発話が無い場合、その発話は話し終わりの発話であると判定する。

モデル判定部１１ａにより、発話情報に示される発話が、話者の話し終わりの発話であると判定された場合、話し終わり判定部１１は、発話情報に示される発話が、話者の話し終わりの発話であると判定し、その発話情報およびそれまでに蓄積した発話情報を発話順に対話システム３に出力する。

一方、モデル判定部１１ａにより、発話情報に示される発話が、話者の話し終わりの発話ではないと判定された場合、話し終わり判定部１１は、ルール判定部１１ｂによる判定を行わせる。モデル判定部１１ａにより、発話情報に示される発話が、話者の話し終わりの発話ではないと判定された場合、すなわち、まだ顧客の話が継続していると判定された場合、実際には、顧客が話し終わっているにも関わらず、音声自動応答システム１側では、顧客による続きの発話を待ち続けるという事態が生じる。この場合、顧客が話し終わっているにも関わらず、音声自動応答システム１から応答が行われないということになる。そこで、話し終わり判定部１１は、モデル判定部１１ａにより、発話情報に示される発話が、話者の話し終わりの発話ではないと判定された場合、ルール判定部１１ｂによる判定を行わせることで、上記のような事態が生じることを防ぐことができる。

タイムアウトを判定するための時間としては、例えば、５秒といった長い時間が設定される。また、音声認識部２において、発話の終端を検出するための無音区間としては、例えば、０．５秒といった短い時間が設定される。発話の終端を検出するための無音区間を短く設定することで、短いサイクルで音声認識の結果が得られるようになり、その結果、顧客の話し終わりに対して、迅速な応答が可能となる。

話し終わり判定モデル１６は、話し終わり学習データ記憶部１４が記憶する話し終わり学習データの学習により生成することができる。話し終わり学習データは、様々な発話に対して、話し終わりの発話である（正例）か、話し終わりの発話ではない（負例）かを示す教師データを付与したデータである。

図２は、話し終わり学習データ記憶部１４が記憶する話し終わり学習データの構成例を示す図である。

図２に示すように、話し終わり学習データは、発話情報に対して、その発話情報に示される発話が、話し終わりの発話であるか、話し終わりの発話ではないかを示す教師データを付与したデータである。なお、発話情報としては、音声認識により得られた発話のテキストの他に、音声認識結果の候補のうち、第１位の候補から第Ｎ位の候補までの情報、発話に含まれる単語系列の情報、発話に含まれる単語の品詞の情報、音声認識結果の候補の尤もらしさを示すスコアの情報などを用いてもよい。また、発話情報としては、発話の音声情報を用いてもよい。

話し終わり判定モデル１６の学習のためには、図２に示すような話し終わり学習データを大量に用意する必要がある。ここで、従来、上述したように、教師データは人手により付与されていたため、コストの増加を招いていた。

図１を再び参照すると、ルール判定部１１ｂは、モデル判定部１１ａにより、発話情報に示される発話が、話し終わりの発話ではないと判定された場合に、タイムアウトが発生すると、その発話が話し終わりの発話であると判定する。そしてルール判定部１１ｂは、モデル判定部１１ａにより話し終わりの発話ではないと判定された発話は、話し終わりの発話であることを示す情報を教師データ生成部１３に出力する。

割り込み発話検出部１２は、話し終わり判定部１１により話し終わりの発話であると判定された発話（第１の発話）の後、その発話の話者（顧客）以外による発話（第２の発話）中に発せられる顧客（第１の発話の話者）による発話である割り込み発話の有無を検出する。図１に示す音声自動応答システム１では、第２の発話は、音声自動応答システム１による発話（システム発話）である。なお、割り込み発話検出部１２は、音声認識部２から出力された発話検出信号および発話開始時刻、音声再生部４から出力されたシステム発話継続信号およびシステム発話開始時刻などに基づき、割り込み発話の有無を検出することができる。

発話情報に示される発話が、話し終わり判定部１１により話し終わりに発話であると判定されたにも関わらず、その発話に対する音声自動応答システム１による発話の開始後、所定時間内に顧客による割り込み発話が検出された場合、顧客は話し終わっていなかったと推定することができる。したがって、割り込み発話検出部１２は、話し終わりの発話であると判定された発話（第１の発話）に応じた音声自動応答システム１による発話（第２の発話）の開始後、所定時間内に、割り込み発話を検出すると、話し終わり判定部１１により話し終わりの発話であると判定された発話（第１の発話）は、話し終わりの発話ではないことを示す情報を教師データ生成部１３に出力する。

なお、割り込み発話検出部１２は、顧客の発話の継続時間が所定の閾値時間以下である場合、および、顧客の発話の文字数が所定の閾値文字数以下である場合には、その発話については割り込み発話として検出しない。こうすることで、割り込み発話検出部１２は、物音、咳などを割り込み発話から除外することができる。割り込み発話検出部１２は、顧客の発話の継続時間が所定の閾値時間以下であるか否かは、音声認識部２から出力される発話継続時間に基づき判定することができる。また、割り込み発話検出部１２は、顧客の発話の文字数が所定の閾値文字数以下であるか否かは発話情報に基づき判定することができる。

教師データ生成部１３は、ルール判定部１１ｂの出力に基づき、発話情報に対して、その発話情報に示される発話が話し終わりの発話であるか否かを示す教師データを付与した話し終わり学習データを生成する。具体的には、教師データ生成部１３は、ルール判定部１１ｂから出力された、モデル判定部１１ａにより話し終わりの発話ではないと判定された発話は、話し終わりの発話であることを示す情報に基づき、その発話の発話情報に対して、その発話が話し終わりの発話であることを示す教師データを付与した話し終わり学習データを生成する。

すなわち、教師データ生成部１３は、モデル判定部１１ａによる判定（第１の判定）により、発話情報に示される発話が話し終わりの発話ではないと判定され、かつ、ルール判定部１１ｂによる判定（第２の判定）により、その発話が話し終わりの発話であると判定されると、その発話の発話情報に対して、その発話が話し終わりの発話であることを示す教師データを付与した話し終わり学習データを生成する。

また、教師データ生成部１３は、割り込み発話検出部１２の出力に基づき、発話情報に対して、その発話情報に示される発話が話し終わりの発話であるか否かを示す教師データを付与した話し終わり学習データを生成する。具体的には、教師データ生成部１３は、割り込み発話検出部１２から出力された、話し終わり判定部１１により話し終わりの発話であると判定された発話（第１の発話）は、話し終わりの発話ではないことを示す情報に基づき、その発話の発話情報に対して、その発話が話し終わりの発話ではないことを示す教師データを付与した話し終わり学習データを生成する。

すなわち、教師データ生成部１３は、話し終わり判定部１１により話し終わりの発話であると判定された発話（第１の発話）の後、音声自動応答システム１による発話（第２の発話）が開始されてから所定時間内に、割り込み発話検出部１２により割り込み発話が検出されると、話し終わりの発話であると判定された発話（第１の発話）の発話情報に対して、その発話が話し終わりの発話ではないことを示す教師データを付与した話し終わり学習データを生成する。

教師データ生成部１３は、モデル判定部１１ａおよび割り込み発話検出部１２の出力に基づき、自動的に話し終わり学習データを生成する。そのため、人手によらず、コストの増加を抑制しつつ、話し終わり学習データを生成することができる。教師データ生成部１３は、生成した話し終わり学習データを話し終わり学習データ記憶部１４に記憶させる。

学習部１５は、教師データ生成部１３により生成され、学習データ記憶部１４に記憶された学習データの学習により、話し終わり判定モデル１６を更新する。また、学習部１５は、話し終わり判定モデル１６が生成されていない初期状態などでは、教師データ生成部１３により生成された学習データの学習により、話し終わり判定モデル１６を生成してもよい。話し終わり判定モデル１６が生成されていない初期状態では、モデル判定部１１ａは判定を行うことができないので、教師データ生成部１３は、例えば、ルール判定部１１ｂによる判定（タイムアウトの有無による判定）の結果から、学習データを生成する。

以下では、学習データ生成装置１０による学習データの生成について説明する。

まず、タイムアウトの有無による学習データの生成について、図３を参照して説明するためのである。

図３においては、モデル判定部１１ａにより、発話Ａが話し終わりの発話でないと判定されたとする。発話Ａの終了後、所定時間以上、話者（顧客）による発話が検出されなかった場合（タイムアウトが発生した場合）、ルール判定部１１ｂは、発話Ａが話し終わりの発話であると判定し、発話Ａは話し終わりの発話であることを示す情報を教師データ生成部１３に出力する。教師データ生成部１３は、ルール判定部１１ｂの出力に基づき、発話Ａの発話情報に対して、発話Ａは話し終わりの発話である（正例）ことを示す教師データを付与した学習データを生成する。

次に、割り込み発話の有無による学習データの生成について、図４Ａ，４Ｂを参照して説明する。

図４Ａにおいては、話し終わり判定部１１により、発話Ｂが話し終わりの発話であると判定されたとする。発話Ｂが話し終わりの発話であると判定されると、音声自動応答システム１により、前回の話し終わりの発話後、発話Ｂまでの発話の発話内容に応じたシステム発話が行われる。ここで、割り込み発話検出部１２は、システム発話の開始後、所定時間内に、顧客による発話Ｃ（割り込み発話）を検出した場合（システム発話と発話Ｃとの衝突が検出された場合）、発話Ｂは話し終わりの発話ではないことを示す情報を教師データ生成部１３に出力する。教師データ生成部１３は、割り込み発話検出部１２の出力に基づき、発話Ｂの発話情報に対して、発話Ｂは話し終わりの発話ではない（負例）ことを示す教師データを付与した学習データを生成する。

次に、図４Ｂにおいては、話し終わり判定部１１により、発話Ｄが話し終わりの発話であると判定されたとする。発話Ｄが話し終わりの発話であると判定されると、音声自動応答システム１により、前回の話し終わりの発話後、発話Ｄまでの発話の発話内容に応じたシステム発話が行われる。ここで、システム発話の開始後、所定時間以上経過後に、顧客による発話Ｅ（割り込み発話）が検出された（システム発話と発話Ｅとの衝突が検出された）とする。この場合、顧客の発話Ｅは、システム発話の内容を聞いた上での発話であると考えられる。この場合、教師データ生成部１３は、発話Ｄは話し終わりの発話であるという話し終わり判定部１１の判定は正しいと判定し、発話Ｄは話し終わりの発話のままとする。

なお、教師データ生成部１３は、発話Ｄの発話情報に対して、発話Ｄが話し終わりの発話である（正例）ことを示す教師データを付与した学習データを生成してもよい。すなわち、教師データ生成部１３は、システム発話（第２の発話）が開始されてから所定時間の経過後に、発話Ｄ（第１の発話）の話者（顧客）による発話（発話Ｅ）が検出されると、発話Ｄの発話情報に対して、発話Ｄが話し終わりの発話であることを示す教師データを付与した学習データを生成してもよい。

また、本実施形態においては、顧客と音声自動応答システム１との対話を例として説明したが、これに限られるものではなく、学習データ生成装置１０は、人同士の対話からも同様の方法（タイムアウトの有無および割り込み発話の有無）により、学習データを生成することができる。

人同士の発話の場合、ルール判定部１１ｂは、発話の後に、話者が交代している場合、その発話は話し終わりの発話であると判定するというルールに基づき、発話情報に示される発話が、話し終わりに発話であるか否かの判定を行ってもよい。

一般に、コンタクトセンタにおける顧客と応対担当者との対話などにおいては、例えば、顧客が問い合わせたい内容を話し終えた後、応対担当者がその問い合わせに対する回答を行い、応対担当者が回答を話し終えた後、顧客が更に問い合わせを行うといった対話構造が多い。すなわち、話者交代が起こると、その直前の発話は話者交代が起こる前の話者の話し終わりの発話であることが多いという傾向がある。したがって、発話の直後に話者交代が起こった場合、その発話は、話し終わりの発話である可能性が高いと判定することができる。ルール判定部１１ｂは、このような傾向を利用して、発話情報に示される発話が、話し終わりの発話であるか否かを判定してもよい。

このように本実施形態においては、対話における発話の発話情報に基づき、話し終わり判定モデル１６を用いて、発話が話者の話し終わりの発話であるか否かを判定する第１の判定と、所定のルールに基づき、発話が話者の話し終わりの発話であるか否かを判定する第２の判定とを行う話し終わり判定部１１と、第１の判定により発話が話し終わりの発話ではないと判定され、かつ、第２の判定により発話が話し終わりの発話であると判定されると、その発話の発話情報に対して、その発話が話し終わりの発話であることを示す教師データを付与した学習データを生成する教師データ生成部１３と、を備える。

このように、話し終わり判定モデル１６により話し終わりの発話ではないと判定された発話が、所定のルールに基づき話し終わりの発話であると判定された場合、その発話の発話情報に対して、その発話が話し終わりの発話であることを示す教師データを付与した学習データが生成される。したがって、自動的に教師データが付与された学習データが生成されるので、コストの増加を抑制しつつ、話し終わり判定モデル１６の学習のための学習データを生成することができる。

また、本実施形態においては、対話における発話が話者の話し終わりの発話であるか否かを判定する話し終わり判定部１１と、話し終わり判定部１１により話し終わりの発話であると判定された第１の発話の後、第１の発話の話者以外による第２の発話中に発せられる第１の発話の話者による発話である割り込み発話の有無を検出する割り込み発話検出部１２と、第２の発話が開始されてから所定時間内に、割り込み発話検出部１２により割り込み発話が検出されると、第１の発話の発話情報に対して、その第１の発話が話し終わりの発話ではないことを示す教師データを付与した学習データを生成する教師データ生成部１３と、を備える。

このように、話し終わり判定部１１により話し終わりの発話であると判定された第１の発話の後、第２の発話が開始されてから所定時間内に割り込み発話が検出された場合、第１の発話の発話情報に対して、その第１の発話が話し終わりの発話ではないことを示す教師データを付与した学習データが生成される。したがって、自動的に教師データが付与された学習データが生成されるので、コストの増加を抑制しつつ、話し終わり判定モデル１６の学習のための学習データを生成することができる。

以上、学習データ生成装置１０について説明したが、学習データ生成装置１０として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、学習データ生成装置１０の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのＣＰＵによってこのプログラムを読み出して実行させることで実現することができる。

また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭなどの記録媒体であってもよい。

上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１音声自動応答システム
２音声認識部
３対話システム
４音声再生部
１０学習データ生成装置
１１話し終わり判定部
１１ａモデル判定部
１１ｂルール判定部
１２割り込み発話検出部
１３教師データ生成部
１４話し終わり学習データ記憶部
１５学習部
１６話し終わり判定モデル

Claims

複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置であって、
前記対話における発話の発話情報に基づき、前記話し終わり判定モデルを用いて、前記発話が前記話者の話し終わりの発話であるか否かを判定する第１の判定と、所定のルールに基づき、前記発話が話し終わりの発話であるか否かを判定する第２の判定とを行う話し終わり判定部と、
前記第１の判定により前記発話が話し終わりの発話ではないと判定され、かつ、前記第２の判定により前記発話が話し終わりの発話であると判定されると、前記発話の発話情報に対して、該発話が話し終わりの発話であることを示す教師データを付与した学習データを生成する教師データ生成部と、を備えることを特徴とする学習データ生成装置。
請求項１に記載の学習データ生成装置において、
前記話し終わり判定部は、前記発話の後、所定時間以上、前記発話の話者による発話が無い場合、前記発話は話し終わりの発話であると判定するというルールに基づき、前記第２の判定を行うことを特徴とする学習データ生成装置。
請求項１に記載の学習データ生成装置において、
前記学習データ生成装置は、前記発話の後に話者が交代している場合、前記発話は話し終わりの発話であると判定するというルールに基づき、前記第２の判定を行うことを特徴とする話し終わり学習データ生成装置。
複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置であって、
前記対話における発話が前記話者の話し終わりの発話であるか否かを判定する話し終わり判定部と、
前記話し終わり判定部により話し終わりの発話であると判定された第１の発話の後、該第１の発話の話者以外による第２の発話中に発せられる前記第１の発話の話者による発話である割り込み発話の有無を検出する割り込み発話検出部と、
前記第２の発話が開始されてから所定時間内に、前記割り込み発話検出部により割り込み発話が検出されると、前記第１の発話の発話情報に対して、該第１の発話が話し終わりの発話ではないことを示す教師データを付与した学習データを生成する教師データ生成部と、を備えることを特徴とする学習データ生成装置。
請求項４に記載の学習データ生成装置において、
前記教師データ生成部は、前記第２の発話が開始されてから所定時間の経過後に、前記第１の発話の話者による発話が検出されると、前記第１の発話の発話情報に対して、該第１の発話が話し終わりの発話であることを示す教師データを付与した学習データを生成することを特徴とする学習データ生成装置。
請求項４または５に記載の学習データ生成装置において、
前記第２の発話は、前記第１の発話の話者の発話内容に応じた発話を行う対話システムによる発話であることを特徴とする学習データ生成装置。
請求項１から６のいずれか一項に記載の学習データ生成装置において、
前記教師データ生成部により生成された学習データの学習により前記話し終わり判定モデルを更新する学習部をさらに備えることを特徴とする学習データ生成装置。
複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置における学習データ生成方法であって、
前記対話における発話の発話情報に基づき、前記話し終わり判定モデルを用いて、前記発話が前記話者の話し終わりの発話であるか否かを判定する第１の判定と、所定のルールに基づき、前記発話が話し終わりの発話であるか否かを判定する第２の判定とを行うステップと、
前記第１の判定により前記発話が話し終わりの発話ではないと判定され、かつ、前記第２の判定により前記発話が話し終わりの発話であると判定されると、前記発話の発話情報に対して、該発話が話し終わりの発話であることを示す教師データを付与した学習データを生成するステップと、を含むことを特徴とする学習データ生成方法。
複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置における学習データ生成方法であって、
前記対話における発話が前記話者の話し終わりの発話であるか否かを判定するステップと、
話し終わりの発話であると判定された第１の発話の後、該第１の発話の話者以外による第２の発話中に発せられる前記第１の発話の話者による発話である割り込み発話の有無を検出するステップと、
前記第２の発話が開始されてから所定時間内に、前記割り込み発話が検出されると、前記第１の発話の発話情報に対して、該第１の発話が話し終わりの発話ではないことを示す教師データを付与した学習データを生成するステップと、を含むことを特徴とする学習データ生成方法
コンピュータを請求項１から７のいずれか一項に記載の学習データ生成装置として機能させるためのプログラム。