JP7007616B2 - 学習データ生成装置、学習データ生成方法およびプログラム - Google Patents

学習データ生成装置、学習データ生成方法およびプログラム Download PDF

Info

Publication number
JP7007616B2
JP7007616B2 JP2020537094A JP2020537094A JP7007616B2 JP 7007616 B2 JP7007616 B2 JP 7007616B2 JP 2020537094 A JP2020537094 A JP 2020537094A JP 2020537094 A JP2020537094 A JP 2020537094A JP 7007616 B2 JP7007616 B2 JP 7007616B2
Authority
JP
Japan
Prior art keywords
utterance
speech
learning data
speaker
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020537094A
Other languages
English (en)
Other versions
JPWO2020036193A1 (ja
Inventor
喜昭 野田
節夫 山田
隆明 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2020036193A1 publication Critical patent/JPWO2020036193A1/ja
Application granted granted Critical
Publication of JP7007616B2 publication Critical patent/JP7007616B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置、学習データ生成方法およびプログラムに関する。
話者の発話内容を解析して、解析結果に応じた応答を話者に対して行う対話システムが検討されている。このような対話システムによれば、例えば、顧客がコンタクトセンタに電話し、不明点などの質問を話すことで質問に対する回答を自動的に顧客に提示することができる。上述したようなシステムにおいては、話者の話し終わりの発話を検出することで、話者の話し終わりまでの発話内容に応じた適切な応答を話者に提示することができる。
複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する方法として、対話における発話に対して、話し終わりの発話であるか否かの情報を付与した学習データを作成する方法が一般に考えられる。この方法では、対話における発話に対して、話し終わりの発話であるか否かの情報を付与した学習データを用いた機械学習(非特許文献1)により、対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルが生成される。
R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. LIBLINEAR: A library for large linear classification Journal of Machine Learning Research 9(2008), 1871-1874.
上述したような話し終わり判定モデルの学習のためには、発話に対して、話し終わりの発話であるか否かを示す教師データを付与した学習データを多数用意する必要がある。従来、このような教師データの付与は人手により行われるのが一般的であり、コストの増加を招いていた。
上記のような問題点に鑑みてなされた本発明の目的は、コストの増加を抑制しつつ、話し終わり判定モデルの学習のための学習データを生成することができる学習データ生成装置、学習データ生成方法およびプログラムを提供することにある。
上記課題を解決するため、本発明に係る学習データ生成装置は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置であって、前記対話における発話の発話情報に基づき、前記話し終わり判定モデルを用いて、前記発話が前記話者の話し終わりの発話であるか否かを判定する第1の判定と、所定のルールに基づき、前記発話が話し終わりの発話であるか否かを判定する第2の判定とを行う話し終わり判定部と、前記第1の判定により前記発話が話し終わりの発話ではないと判定され、かつ、前記第2の判定により前記発話が話し終わりの発話であると判定されると、前記発話の発話情報に対して、該発話が話し終わりの発話であることを示す教師データを付与した学習データを生成する教師データ生成部と、を備える。
また、上記課題を解決するため、本発明に係る学習データ生成装置は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置であって、前記対話における発話が前記話者の話し終わりの発話であるか否かを判定する話し終わり判定部と、前記話し終わり判定部により話し終わりの発話であると判定された第1の発話の後、該第1の発話の話者以外による第2の発話中に発せられる前記第1の発話の話者による発話である割り込み発話の有無を検出する割り込み発話検出部と、前記第2の発話が開始されてから所定時間内に、前記割り込み発話検出部により割り込み発話が検出されると、前記第1の発話の発話情報に対して、該第1の発話が話し終わりの発話ではないことを示す教師データを付与した学習データを生成する教師データ生成部と、を備える。
また、上記課題を解決するため、本発明に係る学習データ生成方法は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置における学習データ生成方法であって、前記対話における発話の発話情報に基づき、前記話し終わり判定モデルを用いて、前記発話が前記話者の話し終わりの発話であるか否かを判定する第1の判定と、所定のルールに基づき、前記発話が話し終わりの発話であるか否かを判定する第2の判定とを行うステップと、前記第1の判定により前記発話が話し終わりの発話ではないと判定され、かつ、前記第2の判定により前記発話が話し終わりの発話であると判定されると、前記発話の発話情報に対して、該発話が話し終わりの発話であることを示す教師データを付与した学習データを生成するステップと、を含む。
また、上記課題を解決するため、本発明に係る学習データ生成方法は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置における学習データ生成方法であって、前記対話における発話が前記話者の話し終わりの発話であるか否かを判定するステップと、話し終わりの発話であると判定された第1の発話の後、該第1の発話の話者以外による第2の発話中に発せられる前記第1の発話の話者による発話である割り込み発話の有無を検出するステップと、前記第2の発話が開始されてから所定時間内に、前記割り込み発話が検出されると、前記第1の発話の発話情報に対して、該第1の発話が話し終わりの発話ではないことを示す教師データを付与した学習データを生成するステップと、を含む。
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上記の学習データ生成装置として機能させる。
本発明に係る学習データ生成装置、学習データ生成方法およびプログラムによれば、コストの増加を抑制しつつ、話し終わり判定モデルの学習のための学習データを生成することができる。
本発明の一実施形態に係る学習データ生成装置を含む音声自動応答システムの構成例を示す図である。 図1に示す話し終わり学習データ記憶部が記憶する話し終わり学習データの構成例を示す図である。 図1に示す学習データ生成装置による、タイムアウトの有無による学習データの生成について説明するための図である。 図1に示す学習データ生成装置による、割り込み発話の有無による学習データの生成について説明するための図である。 図1に示す学習データ生成装置による、割り込み発話の有無による学習データの生成について説明するための図である。
以下、本発明を実施するための形態について、図面を参照しながら説明する。各図中、同一符号は、同一または同等の構成要素を示している。
図1は、本発明の一実施形態に係る学習データ生成装置10を含む音声自動応答システム1の構成例を示す図である。音声自動応答システム1は、コンタクトセンタなどにおいて、顧客の発話内容を解析して、解析結果に応じた応答を音声(システム発話音声)により行うシステムである。音声自動応答システム1においては、顧客の発話内容に応じた適切な応答を行うためには、話者(顧客)の発話が、話者が伝えたい内容を話し終えた話し終わりの発話であるか否かを判定することが重要である。このような判定は、話者の発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルを用いて行われることがある。本実施形態に係る学習データ生成装置10は、上述した話し終わり判定モデルの学習のための学習データを生成するものである。
図1に示す音声自動応答システム1は、音声認識部2と、対話システム3と、音声再生部4と、話し終わり判定部11と、割り込み発話検出部12と、教師データ生成部13と、話し終わり学習データ記憶部14と、学習部15とを備える。話し終わり判定部11、割り込み発話検出部12、教師データ生成部13、話し終わり学習データ記憶部14および学習部15は、学習データ生成装置10を構成する。
音声認識部2は、顧客の発話音声が入力される。音声認識部2は、入力された顧客の発話音声を、音声認識によりテキスト情報などの発話情報に変換し、話し終わり判定部11に出力する。また、音声認識部2は、顧客による発話が開始された発話開始時刻およびその発話が終了した発話終了時刻を話し終わり判定部11に出力する。また、音声認識部2は、顧客の発話を検出すると、顧客の発話を検出したことを示す発話検出信号と、その発話が開始された発話開始時刻とを割り込み発話検出部12に出力する。また、音声認識部2は、その発話が継続した発話継続時間を割り込み発話検出部12に出力してもよい。
話し終わり判定部11は、音声認識部2から出力された発話情報に示される発話が、話者(顧客)の話し終わりの発話であるか否かを判定する。話し終わり判定部11は、発話情報に示される発話が話し終わりの発話ではないと判定すると、その発話情報を蓄積する。そして、話し終わり判定部11は、音声認識部2から出力された発話情報に示される発話が話し終わりの発話であると判定すると、その発話情報およびそれまでに蓄積していた発話情報を発話順に対話システム3に出力する。なお、話し終わり判定部11による話し終わりの発話の判定の詳細については後述する。
対話システム3は、話し終わり判定部11から出力された発話情報に基づき、顧客の発話内容に応じた応答テキスト、および、システム発話音声の声質、システム発話音声の話速などのシステム発話音声の音声合成のためのパラメータなどのシステム発話情報を生成し、音声再生部4に出力する。話し終わり判定部11からは、話し終わりの発話であると判定された発話までの発話の発話情報がまとめて出力されるので、対話システム3は、これらの発話情報に基づき、顧客の話の途中で区切られた中途半端な情報だけで応対するのではなく、顧客が話し終えた発話内容全てに基づき応対することができる。
音声再生部4は、対話システム3から出力されたシステム発話情報に基づき、システム発話音声を合成し、顧客に聞こえるように再生する。また、音声再生部4は、システム発話音声を出力する場合、システム発話音声の出力を開始したシステム発話開始時刻を割り込み発話検出部12に出力する。また、音声再生部4は、システム発話音声の出力を継続している間、システム発話音声を出力中であることを示すシステム発話継続信号を割り込み発話検出部12に出力する。
音声認識部2は、音声の始端を検出してから音声の終端を検出するまでの音声区間に対する音声認識の結果を、1つの単位として出力する。ここで、音声として話されていないと判定された時点からそのまま、一定時間(例えば、0.5秒から3秒程度)が経過すると(一定時間だけ無音区間が継続すると)、音声として話されていないと判定された時点が音声の終端として検出されるのが一般的である。したがって、音声認識部2は、人が話をしている際に、所定の無音区間を検出すると、それまでの発話の音声認識の結果を出力する。そのため、上述した音声自動応答システム1においては、話者(顧客)が話の途中でも間をおいたタイミングで、それまでの発話の音声認識の結果が出力され、その音声認識の結果の単位で顧客への応答が行われる。そのため、例えば、顧客が途切れ途切れに発話するような場合には、顧客に対して適切な応答を行うことができない。また、途切れ途切れの発話に対応するために、音声の終端を検出するための無音区間を長く設定することが考えられる。しかしながら、音声の終端を検出するための無音区間を長く(例えば、3秒)設定すると、顧客は、発話に対する応答が得られるまでに、その無音区間分だけ待たされることになり、音声自動応答システム1のレスポンスが悪くなる。そこで、顧客の話し終わりの発話を適切に検出することが、顧客の発話内容に対して適切な応答を行うためには重要である。本実施形態においては、音声認識部2と対話システム3との間に設けられた話し終わり判定部11により顧客の話し終わりの発話を検出することで、顧客の話しの途中で、音声自動応答システム1から応答が行われたり、顧客が伝えたい内容を話し終わる前の発話に基づき、誤った応答が行われたりすることを防ぐことができる。
話し終わり判定部11は、モデル判定部11aと、ルール判定部11bとを備える。
モデル判定部11aは、話し終わり判定モデル16を用いて、音声認識部2から出力された発話情報に示される発話が、話者の話し終わりの発話であるか否かの判定(第1の判定)を行う。話し終わり判定モデル16は、例えば、発話情報に示される発話の内容に基づき、その発話が話し終わりの発話であるか否かの判定を行う。また、話し終わり判定モデル16は、発話情報に示される発話の末尾のパターン(語尾のパターン)に基づき、その発話が話し終わりの発話であるか否かの判定を行ってもよい。
ルール判定部11bは、所定のルールに基づき、発話情報に示される発話が、話者の話し終わりの発話であるか否かの判定(第2の判定)を行う。ルール判定部11bは、例えば、発話情報に示される顧客の発話の後、所定時間以上、顧客による発話が無い場合(タイムアウト)、その発話は話し終わりの発話であると判定するというルールに基づき、発話情報に示される発話が、話者の話し終わりの発話であるか否かの判定(第2の判定)を行う。
話者(顧客)の発話後、所定時間以上、次の発話が無い場合、話者(顧客)は話し終わり、他の話者(音声自動応答システム1)からの反応を待っていると考えられる。したがって、ルール判定部11bは、顧客の発話後、所定時間以上、次の発話が無い場合、その発話は話し終わりの発話であると判定する。
モデル判定部11aにより、発話情報に示される発話が、話者の話し終わりの発話であると判定された場合、話し終わり判定部11は、発話情報に示される発話が、話者の話し終わりの発話であると判定し、その発話情報およびそれまでに蓄積した発話情報を発話順に対話システム3に出力する。
一方、モデル判定部11aにより、発話情報に示される発話が、話者の話し終わりの発話ではないと判定された場合、話し終わり判定部11は、ルール判定部11bによる判定を行わせる。モデル判定部11aにより、発話情報に示される発話が、話者の話し終わりの発話ではないと判定された場合、すなわち、まだ顧客の話が継続していると判定された場合、実際には、顧客が話し終わっているにも関わらず、音声自動応答システム1側では、顧客による続きの発話を待ち続けるという事態が生じる。この場合、顧客が話し終わっているにも関わらず、音声自動応答システム1から応答が行われないということになる。そこで、話し終わり判定部11は、モデル判定部11aにより、発話情報に示される発話が、話者の話し終わりの発話ではないと判定された場合、ルール判定部11bによる判定を行わせることで、上記のような事態が生じることを防ぐことができる。
タイムアウトを判定するための時間としては、例えば、5秒といった長い時間が設定される。また、音声認識部2において、発話の終端を検出するための無音区間としては、例えば、0.5秒といった短い時間が設定される。発話の終端を検出するための無音区間を短く設定することで、短いサイクルで音声認識の結果が得られるようになり、その結果、顧客の話し終わりに対して、迅速な応答が可能となる。
話し終わり判定モデル16は、話し終わり学習データ記憶部14が記憶する話し終わり学習データの学習により生成することができる。話し終わり学習データは、様々な発話に対して、話し終わりの発話である(正例)か、話し終わりの発話ではない(負例)かを示す教師データを付与したデータである。
図2は、話し終わり学習データ記憶部14が記憶する話し終わり学習データの構成例を示す図である。
図2に示すように、話し終わり学習データは、発話情報に対して、その発話情報に示される発話が、話し終わりの発話であるか、話し終わりの発話ではないかを示す教師データを付与したデータである。なお、発話情報としては、音声認識により得られた発話のテキストの他に、音声認識結果の候補のうち、第1位の候補から第N位の候補までの情報、発話に含まれる単語系列の情報、発話に含まれる単語の品詞の情報、音声認識結果の候補の尤もらしさを示すスコアの情報などを用いてもよい。また、発話情報としては、発話の音声情報を用いてもよい。
話し終わり判定モデル16の学習のためには、図2に示すような話し終わり学習データを大量に用意する必要がある。ここで、従来、上述したように、教師データは人手により付与されていたため、コストの増加を招いていた。
図1を再び参照すると、ルール判定部11bは、モデル判定部11aにより、発話情報に示される発話が、話し終わりの発話ではないと判定された場合に、タイムアウトが発生すると、その発話が話し終わりの発話であると判定する。そしてルール判定部11bは、モデル判定部11aにより話し終わりの発話ではないと判定された発話は、話し終わりの発話であることを示す情報を教師データ生成部13に出力する。
割り込み発話検出部12は、話し終わり判定部11により話し終わりの発話であると判定された発話(第1の発話)の後、その発話の話者(顧客)以外による発話(第2の発話)中に発せられる顧客(第1の発話の話者)による発話である割り込み発話の有無を検出する。図1に示す音声自動応答システム1では、第2の発話は、音声自動応答システム1による発話(システム発話)である。なお、割り込み発話検出部12は、音声認識部2から出力された発話検出信号および発話開始時刻、音声再生部4から出力されたシステム発話継続信号およびシステム発話開始時刻などに基づき、割り込み発話の有無を検出することができる。
発話情報に示される発話が、話し終わり判定部11により話し終わりに発話であると判定されたにも関わらず、その発話に対する音声自動応答システム1による発話の開始後、所定時間内に顧客による割り込み発話が検出された場合、顧客は話し終わっていなかったと推定することができる。したがって、割り込み発話検出部12は、話し終わりの発話であると判定された発話(第1の発話)に応じた音声自動応答システム1による発話(第2の発話)の開始後、所定時間内に、割り込み発話を検出すると、話し終わり判定部11により話し終わりの発話であると判定された発話(第1の発話)は、話し終わりの発話ではないことを示す情報を教師データ生成部13に出力する。
なお、割り込み発話検出部12は、顧客の発話の継続時間が所定の閾値時間以下である場合、および、顧客の発話の文字数が所定の閾値文字数以下である場合には、その発話については割り込み発話として検出しない。こうすることで、割り込み発話検出部12は、物音、咳などを割り込み発話から除外することができる。割り込み発話検出部12は、顧客の発話の継続時間が所定の閾値時間以下であるか否かは、音声認識部2から出力される発話継続時間に基づき判定することができる。また、割り込み発話検出部12は、顧客の発話の文字数が所定の閾値文字数以下であるか否かは発話情報に基づき判定することができる。
教師データ生成部13は、ルール判定部11bの出力に基づき、発話情報に対して、その発話情報に示される発話が話し終わりの発話であるか否かを示す教師データを付与した話し終わり学習データを生成する。具体的には、教師データ生成部13は、ルール判定部11bから出力された、モデル判定部11aにより話し終わりの発話ではないと判定された発話は、話し終わりの発話であることを示す情報に基づき、その発話の発話情報に対して、その発話が話し終わりの発話であることを示す教師データを付与した話し終わり学習データを生成する。
すなわち、教師データ生成部13は、モデル判定部11aによる判定(第1の判定)により、発話情報に示される発話が話し終わりの発話ではないと判定され、かつ、ルール判定部11bによる判定(第2の判定)により、その発話が話し終わりの発話であると判定されると、その発話の発話情報に対して、その発話が話し終わりの発話であることを示す教師データを付与した話し終わり学習データを生成する。
また、教師データ生成部13は、割り込み発話検出部12の出力に基づき、発話情報に対して、その発話情報に示される発話が話し終わりの発話であるか否かを示す教師データを付与した話し終わり学習データを生成する。具体的には、教師データ生成部13は、割り込み発話検出部12から出力された、話し終わり判定部11により話し終わりの発話であると判定された発話(第1の発話)は、話し終わりの発話ではないことを示す情報に基づき、その発話の発話情報に対して、その発話が話し終わりの発話ではないことを示す教師データを付与した話し終わり学習データを生成する。
すなわち、教師データ生成部13は、話し終わり判定部11により話し終わりの発話であると判定された発話(第1の発話)の後、音声自動応答システム1による発話(第2の発話)が開始されてから所定時間内に、割り込み発話検出部12により割り込み発話が検出されると、話し終わりの発話であると判定された発話(第1の発話)の発話情報に対して、その発話が話し終わりの発話ではないことを示す教師データを付与した話し終わり学習データを生成する。
教師データ生成部13は、モデル判定部11aおよび割り込み発話検出部12の出力に基づき、自動的に話し終わり学習データを生成する。そのため、人手によらず、コストの増加を抑制しつつ、話し終わり学習データを生成することができる。教師データ生成部13は、生成した話し終わり学習データを話し終わり学習データ記憶部14に記憶させる。
学習部15は、教師データ生成部13により生成され、学習データ記憶部14に記憶された学習データの学習により、話し終わり判定モデル16を更新する。また、学習部15は、話し終わり判定モデル16が生成されていない初期状態などでは、教師データ生成部13により生成された学習データの学習により、話し終わり判定モデル16を生成してもよい。話し終わり判定モデル16が生成されていない初期状態では、モデル判定部11aは判定を行うことができないので、教師データ生成部13は、例えば、ルール判定部11bによる判定(タイムアウトの有無による判定)の結果から、学習データを生成する。
以下では、学習データ生成装置10による学習データの生成について説明する。
まず、タイムアウトの有無による学習データの生成について、図3を参照して説明するためのである。
図3においては、モデル判定部11aにより、発話Aが話し終わりの発話でないと判定されたとする。発話Aの終了後、所定時間以上、話者(顧客)による発話が検出されなかった場合(タイムアウトが発生した場合)、ルール判定部11bは、発話Aが話し終わりの発話であると判定し、発話Aは話し終わりの発話であることを示す情報を教師データ生成部13に出力する。教師データ生成部13は、ルール判定部11bの出力に基づき、発話Aの発話情報に対して、発話Aは話し終わりの発話である(正例)ことを示す教師データを付与した学習データを生成する。
次に、割り込み発話の有無による学習データの生成について、図4A,4Bを参照して説明する。
図4Aにおいては、話し終わり判定部11により、発話Bが話し終わりの発話であると判定されたとする。発話Bが話し終わりの発話であると判定されると、音声自動応答システム1により、前回の話し終わりの発話後、発話Bまでの発話の発話内容に応じたシステム発話が行われる。ここで、割り込み発話検出部12は、システム発話の開始後、所定時間内に、顧客による発話C(割り込み発話)を検出した場合(システム発話と発話Cとの衝突が検出された場合)、発話Bは話し終わりの発話ではないことを示す情報を教師データ生成部13に出力する。教師データ生成部13は、割り込み発話検出部12の出力に基づき、発話Bの発話情報に対して、発話Bは話し終わりの発話ではない(負例)ことを示す教師データを付与した学習データを生成する。
次に、図4Bにおいては、話し終わり判定部11により、発話Dが話し終わりの発話であると判定されたとする。発話Dが話し終わりの発話であると判定されると、音声自動応答システム1により、前回の話し終わりの発話後、発話Dまでの発話の発話内容に応じたシステム発話が行われる。ここで、システム発話の開始後、所定時間以上経過後に、顧客による発話E(割り込み発話)が検出された(システム発話と発話Eとの衝突が検出された)とする。この場合、顧客の発話Eは、システム発話の内容を聞いた上での発話であると考えられる。この場合、教師データ生成部13は、発話Dは話し終わりの発話であるという話し終わり判定部11の判定は正しいと判定し、発話Dは話し終わりの発話のままとする。
なお、教師データ生成部13は、発話Dの発話情報に対して、発話Dが話し終わりの発話である(正例)ことを示す教師データを付与した学習データを生成してもよい。すなわち、教師データ生成部13は、システム発話(第2の発話)が開始されてから所定時間の経過後に、発話D(第1の発話)の話者(顧客)による発話(発話E)が検出されると、発話Dの発話情報に対して、発話Dが話し終わりの発話であることを示す教師データを付与した学習データを生成してもよい。
また、本実施形態においては、顧客と音声自動応答システム1との対話を例として説明したが、これに限られるものではなく、学習データ生成装置10は、人同士の対話からも同様の方法(タイムアウトの有無および割り込み発話の有無)により、学習データを生成することができる。
人同士の発話の場合、ルール判定部11bは、発話の後に、話者が交代している場合、その発話は話し終わりの発話であると判定するというルールに基づき、発話情報に示される発話が、話し終わりに発話であるか否かの判定を行ってもよい。
一般に、コンタクトセンタにおける顧客と応対担当者との対話などにおいては、例えば、顧客が問い合わせたい内容を話し終えた後、応対担当者がその問い合わせに対する回答を行い、応対担当者が回答を話し終えた後、顧客が更に問い合わせを行うといった対話構造が多い。すなわち、話者交代が起こると、その直前の発話は話者交代が起こる前の話者の話し終わりの発話であることが多いという傾向がある。したがって、発話の直後に話者交代が起こった場合、その発話は、話し終わりの発話である可能性が高いと判定することができる。ルール判定部11bは、このような傾向を利用して、発話情報に示される発話が、話し終わりの発話であるか否かを判定してもよい。
このように本実施形態においては、対話における発話の発話情報に基づき、話し終わり判定モデル16を用いて、発話が話者の話し終わりの発話であるか否かを判定する第1の判定と、所定のルールに基づき、発話が話者の話し終わりの発話であるか否かを判定する第2の判定とを行う話し終わり判定部11と、第1の判定により発話が話し終わりの発話ではないと判定され、かつ、第2の判定により発話が話し終わりの発話であると判定されると、その発話の発話情報に対して、その発話が話し終わりの発話であることを示す教師データを付与した学習データを生成する教師データ生成部13と、を備える。
このように、話し終わり判定モデル16により話し終わりの発話ではないと判定された発話が、所定のルールに基づき話し終わりの発話であると判定された場合、その発話の発話情報に対して、その発話が話し終わりの発話であることを示す教師データを付与した学習データが生成される。したがって、自動的に教師データが付与された学習データが生成されるので、コストの増加を抑制しつつ、話し終わり判定モデル16の学習のための学習データを生成することができる。
また、本実施形態においては、対話における発話が話者の話し終わりの発話であるか否かを判定する話し終わり判定部11と、話し終わり判定部11により話し終わりの発話であると判定された第1の発話の後、第1の発話の話者以外による第2の発話中に発せられる第1の発話の話者による発話である割り込み発話の有無を検出する割り込み発話検出部12と、第2の発話が開始されてから所定時間内に、割り込み発話検出部12により割り込み発話が検出されると、第1の発話の発話情報に対して、その第1の発話が話し終わりの発話ではないことを示す教師データを付与した学習データを生成する教師データ生成部13と、を備える。
このように、話し終わり判定部11により話し終わりの発話であると判定された第1の発話の後、第2の発話が開始されてから所定時間内に割り込み発話が検出された場合、第1の発話の発話情報に対して、その第1の発話が話し終わりの発話ではないことを示す教師データを付与した学習データが生成される。したがって、自動的に教師データが付与された学習データが生成されるので、コストの増加を抑制しつつ、話し終わり判定モデル16の学習のための学習データを生成することができる。
以上、学習データ生成装置10について説明したが、学習データ生成装置10として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、学習データ生成装置10の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。
また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMおよびDVD-ROMなどの記録媒体であってもよい。
上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
1 音声自動応答システム
2 音声認識部
3 対話システム
4 音声再生部
10 学習データ生成装置
11 話し終わり判定部
11a モデル判定部
11b ルール判定部
12 割り込み発話検出部
13 教師データ生成部
14 話し終わり学習データ記憶部
15 学習部
16 話し終わり判定モデル

Claims (10)

  1. 複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置であって、
    前記対話における発話の発話情報に基づき、前記話し終わり判定モデルを用いて、前記発話が前記話者の話し終わりの発話であるか否かを判定する第1の判定と、所定のルールに基づき、前記発話が話し終わりの発話であるか否かを判定する第2の判定とを行う話し終わり判定部と、
    前記第1の判定により前記発話が話し終わりの発話ではないと判定され、かつ、前記第2の判定により前記発話が話し終わりの発話であると判定されると、前記発話の発話情報に対して、該発話が話し終わりの発話であることを示す教師データを付与した学習データを生成する教師データ生成部と、を備えることを特徴とする学習データ生成装置。
  2. 請求項1に記載の学習データ生成装置において、
    前記話し終わり判定部は、前記発話の後、所定時間以上、前記発話の話者による発話が無い場合、前記発話は話し終わりの発話であると判定するというルールに基づき、前記第2の判定を行うことを特徴とする学習データ生成装置。
  3. 請求項1に記載の学習データ生成装置において、
    前記学習データ生成装置は、前記発話の後に話者が交代している場合、前記発話は話し終わりの発話であると判定するというルールに基づき、前記第2の判定を行うことを特徴とする話し終わり学習データ生成装置。
  4. 複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置であって、
    前記対話における発話が前記話者の話し終わりの発話であるか否かを判定する話し終わり判定部と、
    前記話し終わり判定部により話し終わりの発話であると判定された第1の発話の後、該第1の発話の話者以外による第2の発話中に発せられる前記第1の発話の話者による発話である割り込み発話の有無を検出する割り込み発話検出部と、
    前記第2の発話が開始されてから所定時間内に、前記割り込み発話検出部により割り込み発話が検出されると、前記第1の発話の発話情報に対して、該第1の発話が話し終わりの発話ではないことを示す教師データを付与した学習データを生成する教師データ生成部と、を備えることを特徴とする学習データ生成装置。
  5. 請求項4に記載の学習データ生成装置において、
    前記教師データ生成部は、前記第2の発話が開始されてから所定時間の経過後に、前記第1の発話の話者による発話が検出されると、前記第1の発話の発話情報に対して、該第1の発話が話し終わりの発話であることを示す教師データを付与した学習データを生成することを特徴とする学習データ生成装置。
  6. 請求項4または5に記載の学習データ生成装置において、
    前記第2の発話は、前記第1の発話の話者の発話内容に応じた発話を行う対話システムによる発話であることを特徴とする学習データ生成装置。
  7. 請求項1から6のいずれか一項に記載の学習データ生成装置において、
    前記教師データ生成部により生成された学習データの学習により前記話し終わり判定モデルを更新する学習部をさらに備えることを特徴とする学習データ生成装置。
  8. 複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置における学習データ生成方法であって、
    前記対話における発話の発話情報に基づき、前記話し終わり判定モデルを用いて、前記発話が前記話者の話し終わりの発話であるか否かを判定する第1の判定と、所定のルールに基づき、前記発話が話し終わりの発話であるか否かを判定する第2の判定とを行うステップと、
    前記第1の判定により前記発話が話し終わりの発話ではないと判定され、かつ、前記第2の判定により前記発話が話し終わりの発話であると判定されると、前記発話の発話情報に対して、該発話が話し終わりの発話であることを示す教師データを付与した学習データを生成するステップと、を含むことを特徴とする学習データ生成方法。
  9. 複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定モデルを学習するための学習データを生成する学習データ生成装置における学習データ生成方法であって、
    前記対話における発話が前記話者の話し終わりの発話であるか否かを判定するステップと、
    話し終わりの発話であると判定された第1の発話の後、該第1の発話の話者以外による第2の発話中に発せられる前記第1の発話の話者による発話である割り込み発話の有無を検出するステップと、
    前記第2の発話が開始されてから所定時間内に、前記割り込み発話が検出されると、前記第1の発話の発話情報に対して、該第1の発話が話し終わりの発話ではないことを示す教師データを付与した学習データを生成するステップと、を含むことを特徴とする学習データ生成方法
  10. コンピュータを請求項1から7のいずれか一項に記載の学習データ生成装置として機能させるためのプログラム。
JP2020537094A 2018-08-15 2019-08-14 学習データ生成装置、学習データ生成方法およびプログラム Active JP7007616B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018152897 2018-08-15
JP2018152897 2018-08-15
PCT/JP2019/031936 WO2020036193A1 (ja) 2018-08-15 2019-08-14 学習データ生成装置、学習データ生成方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2020036193A1 JPWO2020036193A1 (ja) 2021-06-10
JP7007616B2 true JP7007616B2 (ja) 2022-01-24

Family

ID=69525355

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020537094A Active JP7007616B2 (ja) 2018-08-15 2019-08-14 学習データ生成装置、学習データ生成方法およびプログラム

Country Status (3)

Country Link
US (1) US11922927B2 (ja)
JP (1) JP7007616B2 (ja)
WO (1) WO2020036193A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018128575A (ja) 2017-02-08 2018-08-16 日本電信電話株式会社 話し終わり判定装置、話し終わり判定方法およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006069358A2 (en) * 2004-12-22 2006-06-29 Enterprise Integration Group Turn-taking model
JP2011053569A (ja) * 2009-09-03 2011-03-17 Nippon Hoso Kyokai <Nhk> 音響処理装置およびプログラム
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US9811519B2 (en) * 2015-09-24 2017-11-07 Conduent Business Services, Llc Generative discriminative approach for transactional dialog state tracking via collective matrix factorization
JP6589514B2 (ja) * 2015-09-28 2019-10-16 株式会社デンソー 対話装置及び対話制御方法
US10269341B2 (en) * 2015-10-19 2019-04-23 Google Llc Speech endpointing
CN107526720A (zh) * 2016-06-17 2017-12-29 松下知识产权经营株式会社 意思生成方法、意思生成装置以及程序
US11100384B2 (en) * 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US10657962B2 (en) * 2018-05-02 2020-05-19 International Business Machines Corporation Modeling multiparty conversation dynamics: speaker, response, addressee selection using a novel deep learning approach
US11520561B1 (en) * 2018-11-28 2022-12-06 Amazon Technologies, Inc. Neural network accelerator with compact instruct set

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018128575A (ja) 2017-02-08 2018-08-16 日本電信電話株式会社 話し終わり判定装置、話し終わり判定方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
森一将 他,"ニュース音声におけるVQ歪み尺度を用いた話者交替検出と話者クラスタリングの評価",日本音響学会研究発表会議講演論文集-秋I-,2000年09月20日,pp.9-10

Also Published As

Publication number Publication date
WO2020036193A1 (ja) 2020-02-20
JPWO2020036193A1 (ja) 2021-06-10
US11922927B2 (en) 2024-03-05
US20210312908A1 (en) 2021-10-07

Similar Documents

Publication Publication Date Title
JP6740504B1 (ja) 発話分類器
JP5124573B2 (ja) 音声認識機能を使用した応答マシンの検出
JP6066471B2 (ja) 対話システム及び対話システム向け発話の判別方法
JP2023041843A (ja) 音声区間検出装置、音声区間検出方法及びプログラム
CN106796785B (zh) 用于产生声音检测模型的声音样本验证
US11183187B2 (en) Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
JPWO2010013371A1 (ja) 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
JP2014240940A (ja) 書き起こし支援装置、方法、及びプログラム
WO2018078885A1 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
KR20200025226A (ko) 전자 장치 및 그 제어 방법
CN114385800A (zh) 语音对话方法和装置
JP2007288242A (ja) オペレータ評価方法、装置、オペレータ評価プログラム、記録媒体
JP2019197182A (ja) 音声対話システム、音声対話方法及びプログラム
JP2007072331A (ja) 音声対話方法および音声対話システム
JP7007616B2 (ja) 学習データ生成装置、学習データ生成方法およびプログラム
JP2008003517A (ja) 音声対話装置、音声対話方法、およびプログラム
JP6736225B2 (ja) 対話装置、対話装置の制御方法およびプログラム
JP2020140169A (ja) 話者決定装置、話者決定方法、および話者決定装置の制御プログラム
JP4922377B2 (ja) 音声認識装置とその方法と、プログラム
JP2019132997A (ja) 音声処理装置、方法およびプログラム
JP7177348B2 (ja) 音声認識装置、音声認識方法およびプログラム
US20030167169A1 (en) Method of nonvisual enrollment for speech recognition
JP6615803B2 (ja) 用件判定装置、用件判定方法およびプログラム
JP2005283646A (ja) 音声認識率推定装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211220

R150 Certificate of patent or registration of utility model

Ref document number: 7007616

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150