JP6515897B2 - 音声対話システムおよび発話意図理解方法 - Google Patents

音声対話システムおよび発話意図理解方法 Download PDF

Info

Publication number
JP6515897B2
JP6515897B2 JP2016189406A JP2016189406A JP6515897B2 JP 6515897 B2 JP6515897 B2 JP 6515897B2 JP 2016189406 A JP2016189406 A JP 2016189406A JP 2016189406 A JP2016189406 A JP 2016189406A JP 6515897 B2 JP6515897 B2 JP 6515897B2
Authority
JP
Japan
Prior art keywords
utterance
speech
sentence
user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016189406A
Other languages
English (en)
Other versions
JP2018054791A (ja
Inventor
池野 篤司
篤司 池野
雄祐 神宮司
雄祐 神宮司
西島 敏文
敏文 西島
史憲 片岡
史憲 片岡
刀根川 浩巳
浩巳 刀根川
倫秀 梅山
倫秀 梅山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2016189406A priority Critical patent/JP6515897B2/ja
Priority to US15/704,691 priority patent/US10319379B2/en
Priority to CN201710894125.7A priority patent/CN107871503B/zh
Publication of JP2018054791A publication Critical patent/JP2018054791A/ja
Priority to US16/390,261 priority patent/US11087757B2/en
Application granted granted Critical
Publication of JP6515897B2 publication Critical patent/JP6515897B2/ja
Priority to US17/366,270 priority patent/US11900932B2/en
Priority to US18/539,604 priority patent/US20240112678A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声対話システムに関し、バージイン発話に対応した音声対話システムに関する。
音声対話システムでは、システム発話とユーザ発話が重なったときに、ユーザが現在のシステム発話に対する応答をしているのかそうではないのかを判定することが望まれる。
特許文献1は、システム発話とユーザ発話が重複した場合に、対象とするユーザ発話の長さ、対象とするユーザ発話と直前の発話の時間関係、システムの状態などに基づいて、対象とするユーザ発話が対話システムに向けられたものであるか否かを判断することを開示する。この手法によれば、対話システムが応答する必要のあるユーザ発話と、独り言などのように応答の必要がないユーザ発話とを区別することができる。
特開2014−77969号公報
しかしながら、特許文献1の手法では、システム発話と重複するユーザ発話が音声対話システムに向けられたものであると判断できたとしても、そのユーザ発話が現在出力中のシステム発話に応答するものであるか否かは判断できない。
ユーザ発話は、現在出力中のシステム発話に応答するもの、一つ前のシステム発話に応答するもの、およびユーザが自発的に音声対話システムに話しかけるものなどに分類できる。システム発話とユーザ発話が重なった場合において、ユーザが現在のシステム発話に応答する意図があるのかないのかを判断できることが望ましい。
本発明は、音声対話システムにおいて、システム発話とユーザ発話が重なったときにユーザの発話意図を的確に判断することを目的とする。
本発明の第一の態様は、
ユーザ発話を取得する音声入力手段と、
前記音声入力手段によって取得された音声の発話意図を理解する意図理解手段と、
システム発話文のテキストを作成する対話文作成手段と、
前記システム発話文を音声データとして出力する音声出力手段と、
を備え、
前記対話文作成手段は、システム発話文のテキストを作成する際に、システム発話文中のいずれかの位置にタグを埋め込んで作成し、
前記意図理解手段は、ユーザ発話がされたタイミングが前記タグに対応する位置のシステム発話文が前記音声出力手段から出力される前か後かに応じて、ユーザの発話意図を理解する、
音声対話システムである。
このように、システム発話文の中にタグを埋め込むことで、ユーザ発話の開始タイミン
グが当該タグに対応する位置の文章(単語)の発話の前か後かによって、ユーザ発話が現在出力中のシステム発話に応答するものであるかそうでないかを判定可能となる。
本発明において、前記意図理解手段は、ユーザ発話がされたタイミングが前記タグに対応する位置のシステム発話文が前記音声出力手段から出力される後であれば、ユーザ発話は前記システム発話文に応答するものであると理解し、ユーザ発話が入力されたタイミングが前記タグに対応する位置のシステム発話文が前記音声出力手段から出力される前であれば、ユーザ発話は前記システム発話文に応答するものではないと理解することができる。
また、本発明において、前記対話文作成手段は、前記システム発話文をつなぎ言葉部分と内容部分を組み合わせたものとして生成し、前記タグを前記つなぎ言葉部分と前記内容部分のあいだに埋め込むことができる。ただし、タグの位置はつなぎ言葉部分と内容部分のあいだでなくてもよく、例えば、内容部分のうちその位置までの内容を聞けばユーザがシステム発話の意図を理解できると想定される位置であってもよい。
また、本発明において、前記意図理解手段は、前記システム発話文が前記音声出力手段から出力されてから、前記タグよりも前のテキストが全て前記音声出力手段から出力されるまでの時間である第1時間を算出し、前記システム発話文が前記音声出力手段から出力されてから、前記ユーザ発話の入力が開始されるまでの時間である第2時間を取得し、前記第1時間と前記第2時間の比較により、前記ユーザ発話がされたタイミングが前記タグに対応する位置のシステム発話文が前記音声出力手段から出力される前であるか後であるかを判断することができる。
また、本発明において、前記音声出力手段は、前記システム発話文のテキストにおける前記タグは音声として出力しないことが望ましい。
なお、本発明は、上記手段の少なくとも一部を備える音声対話システムとして捉えることもできる。本発明は、また、上記処理の少なくとも一部を実行する音声対話方法として捉えることができる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本発明によれば、音声対話システムにおいて、応答までの間が不自然に長くなることを防止可能となる。
図1は、実施形態に係る音声対話システムの構成を示す図である。 図2は、変形例に係る音声対話システムの構成を示す図である。 図3は、実施形態に係る音声対話システムにユーザ発話の意図理解を説明する図である。 図4は、実施形態に係る音声対話システムにおける対話文作成および出力処理の流れの例を示す図である。 図5は、実施形態に係る音声対話システムにおけるユーザ発話の意図理解処理の流れを説明する図である。
以下に図面を参照して、この発明の好適な実施の形態を例示的に詳しく説明する。以下
で説明される実施形態は音声対話ロボットを音声対話端末として用いたシステムであるが、音声対話端末はロボットである必要はなく任意の情報処理装置や音声対話インタフェースなどを用いることができる。
<システム構成>
図1は、本実施形態に係る音声対話システム(音声対話ロボット)の構成を示す図である。本実施形態に係る音声対話ロボット100は、マイク(音声入力部)101、スピーカー(音声出力部)107、およびマイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータである。マイクロプロセッサがプログラムを実行することにより、音声対話ロボット100は、音声認識部102、意図理解部103、対話管理部104、対話文作成部105、音声合成部106として機能する。図示はしていないが、音声対話ロボット100は、画像取得装置(カメラ)や可動関節部や移動手段などを備えていてもよい。
音声認識部102は、マイク101から入力されたユーザ発話の音声データに対して、雑音除去、音源分離、特徴量抽出などの処理を行い、ユーザ発話の内容をテキスト化する。音声認識部102は、マイク101にユーザ発話がされたタイミング(時刻)も取得する。
なお、音声認識部102は、システム発話の最中に発せられたユーザ発話を理解できるように構成される。システム発話中のユーザ発話はバージイン発話(割り込み発話)と呼ばれる。音声認識部102は、バージイン発話に対応しており、マイク101に入力される音声データから自己発話を抑圧することでユーザ発話を取り出して認識できる。
意図理解部103は、音声認識部102の認識結果(発話内容のテキストや発話特徴量など)に基づいて、ユーザの発話意図を理解する。意図理解部103は、発話内容の理解のためのコーパスあるいは辞書を記憶しており、これを参照することでユーザの発話を理解する。
意図理解部103は、ユーザによるバージイン発話が現在のシステム発話に応答するものであるのかそうではないのかということも判断する。なお、バージイン発話が現在のシステム発話に応答するものではないというのは、バージイン発話が現在のシステム発話よりも前のシステム発話に応答するものである場合と、ユーザが自発的にロボットに話しかける場合の両方を含む。バージイン発話が現在のシステム発話に応答するものかどうかを判断する処理の詳細については後述する。意図理解部103によるユーザ発話の発話意図理解の結果は、対話管理部104および対話文作成部105に送られる。
対話管理部104には、過去にシステムとユーザのあいだで行われた対話の履歴が記憶される。対話管理部104には、対話の内容だけでなく、その対話がどのような状況(例えば、日時や場所)で行われたのかも管理する。対話管理部104によって、ユーザとのあいだでどのような会話を行ったかを把握でき、過去の対話を参考した応答の生成が可能となる。
対話文作成部105は、意図理解部103からユーザ発話の意図理解の結果を受け、ユーザ発話に応答する発話(システム発話)の対話文テキストを作成する。本明細書において、システム発話の対話文テキストのことを、システム発話文あるいはシステム対話文とも称する。対話文作成部105は、対話管理部104に格納されている過去の対話の内容(現在の対話内容も含む)や、ユーザ情報などを参照してシステム対話文を作成する。対話文作成部105は、対話シナリオデータベースを保有しており、データベースに格納されている対話シナリオに沿って応答文を作成してもよい。対話文作成部105が作成した
対話文は、対話管理部104に送られ記憶される。
システム応答の対話文テキストを作成する際に、ユーザのバージイン発話が現在の発話に応答するものか否かを判断するためのタイミングを知らせるための「タグ」を埋め込んで作成する。対話文作成部105は、応答文をつなぎ言葉部分と本文(内容部分)の足し合わせとして作成する。この際、つなぎ言葉と本文のあいだにタグを挿入する。たとえば、「ねぇねぇ」というつなぎ言葉と、「あなたの名前は?」という本文をつなぎ合わせてテキストを作成する場合には、「ねぇねぇ、<1>あなたの名前は?」というテキストを生成する。ここでは「<1>」がタグに相当する。また、「そーいえばさぁ」と「明日の天気知ってる?」をつなぎ合わせる場合には「そーいえばさあ、<2>明日の天気知ってる?」となる。ここでタグ内の数字はタグを特定するものであるが、1つの文章(応答)の中に1つのタグしか含めないのであれば、必ずしも数字のような可変記号を用いる必要はない。
音声合成部106は、発話内容のテキストを受け取り、音声合成を行って応答音声データを生成する。音声合成部106によって生成された応答音声データは、スピーカー107から再生される。この際、テキストに含まれるタグは音声としては出力しない。
音声合成部106は、また、発話内容のテキストに含まれるタグの直前までの音声の出力が完了する時刻、あるいはテキストの先頭からタグの直前までの音声の出力に要する時間を算出する。この時刻あるいは時間は、発話内容のテキストと発話速度から算出することができる。算出された時間あるいは時刻は意図理解部103に送られる。
なお、音声対話ロボット100は、1つの装置として構成される必要はない。例えば図2に示すように、マイク101、スピーカー107、カメラ、可動関節部などを含むロボット装置109(フロントエンド装置)と、各種の処理を実行するスマートフォン110(あるいはその他のコンピュータ)の2つの装置から構成することができる。この場合、ロボット装置とコンピュータは、Bluetooth(登録商標)などの無線通信により接続され、ロボット装置が取得したデータはコンピュータに送られ、コンピュータによる処理結果に基づいて応答文などの再生がロボット装置から行われる。
また、音声認識処理や対話文作成処理を音声対話ロボット100で行う必要は無く、図2に示すように、音声認識サーバ200や対話サーバ300においてこれらの処理を行ってもよい。またこれらの処理は1つのサーバによって行われてもよい。このように外部サーバを用いて処理を行う場合、スマートフォン110(あるいはロボット装置109)がサーバとのあいだの連携を制御する。
<処理>
図3は、本実施形態においてシステム発話とユーザ発話が重なったときのユーザ発話の意図を判断する処理を模式的に説明する図である。ここでは、システムが「○○君の趣味は何?」という発話301を行った後にユーザが応答を返さなかったので、続けて「ねぇねぇ、じゃあ、出身地はどこ?」という発話302を行う例を取り扱う。ユーザは、発話302の開始タイミングから少し遅れたタイミングで、「ドライブだよ」という発話303を行う。発話302と発話303が重複しており、ユーザ発話303が発話301に応答するものなのか、発話302に応答するものなのかを判断する必要がある。
ここで、発話302のテキストは対話文作成部105によってタグが埋め込まれて作成されており、「ねぇねぇ、じゃあ、<1>出身地はどこ?」というテキストとして作成されている。そして、音声合成部106において、発話302の開始からタグ<1>の直前までの出力に要する時間Aが算出される。なお、上述のようにタグは音声として出力され
ないが、以下では説明を簡略するために、タグの直前までの出力が完了するタイミングのことをタグの出力タイミングと称するなど、あたかもタグが音声として出力されるように記載することがある。
システムは、発話302の開始と発話303の開始のあいだの時間Bも取得できる。ここで、ユーザの発話303の開始がタグ出力タイミングよりも前であれば(時間A≧時間B)、ユーザの発話303はシステムの前の発話301に応答するものであると判断できる。タグは、応答文の本文よりも前に挿入されるので、本文の出力よりも前に応答は、現在の発話302に対する応答ではなく、その前の発話301に対するものであると捉えるのが妥当であるためである。
また、ユーザの発話303の開始がタグ出力タイミングよりも後であれば(時間A<時間B)、ユーザの発話303はシステムの現在の発話302に応答するものであると判断できる。システムが応答文の本文の出力を開始した後は、現在の発話302にユーザが応答していると捉えるのが妥当であるためである。
以下、図3に示す処理を実現するための詳細は、図4および図5のフローチャートを参照して説明する。
図4は、音声対話ロボット100における対話文の作成および出力の処理の流れを示すフローチャートである。ステップS11において、対話文作成部105が、状況に応じた対話シナリオ(会話テンプレート)を決定する。ここでいう状況は、例えば、ユーザ発話の認識結果、それまでの対話の内容、現在の時刻や位置など種々の要因によって決定される。対話文作成部105は、対話シナリオ(会話テンプレート)を複数格納した対話シナリオデータベースを有しており、対話シナリオには、システム発話の内容と、想定するユーザの応答に応じた更なるシステム発話の内容が記述される。対話シナリオにおけるシステム発話の一部の内容は、ユーザの応答やその他の状況に応じて決定するように指定される。対話文作成部105は、現在の状況に即した対話シナリオを選択する。
ステップS12において、対話文作成部105は、選択された対話シナリオに基づいて発話文のテキストを決定する。発話文テキストの決定方法は特に問われないが、ここでは、発話文のテキストが最終的に、つなぎ言葉と本文の組み合わせとして決定される。つなぎ言葉の例は、「うん」「そんなんだぁ」「そういえばさぁ」といったような簡易的な返事や相づちや会話の切り出し、あるいはユーザの発話内容の一部の繰り返しである。対話文作成部105は、つなぎ言葉と本文のあいだにタグを挿入して発話文のテキストを作成する。例えば、「ねぇねぇ、<1>あなたの名前は?」や「そーいえばさあ、<2>明日の天気知ってる?」といったテキストが生成される。
なお、つなぎ言葉とタグと本文の組み合わせが対話シナリオ(会話テンプレート)に格納されていてもよいし、対話シナリオには本文のみが格納されていて適当なつなぎ言葉が選択されてタグと共に本文に付け足されてもよい。
ステップS13において、対話文作成部105が決定した発話テキストを出力した際に発話開始からタグの直前部分までの発話に要する時間が算出され記憶される。音声合成処理における発話速度の設定と、発話テキストの内容から、発話開始からタグ直前までの時間を求めることができる。
ステップS14において、音声合成部106が発話文テキストを音声データに変換して、スピーカー107から出力する。ステップS15において、発話の開始タイミングが記憶される。
図5は、ユーザのバージイン発話(すなわちシステム発話と重なるユーザ発話)が、現在のシステム発話に応答することを意図したものであるか否かを判断する意図理解処理のフローチャートである。なお、音声対話ロボット100におけるユーザ発話の意図理解処理は、現在のシステム発話に応答するものであるか否かの判断以外も含まれるが、ここではこの点に注目して説明する。
ステップS21において、マイク101からユーザの発話を取得する。この際、ユーザ発話の開始タイミングが記憶される。
ステップS22において、意図理解部103は、現在出力中のシステム発話の発話開始タイミングから当該システム発話内のタグの出力タイミングまでのあいだの時間(図3における時間A)と、当該システム発話の発話開始タイミングからユーザ発話の発話開始タイミングまでのあいだの時間(図3における時間B)を比較する。
ユーザ発話がシステム発話内のタグの出力開始タイミング前、すなわち時間A≧時間Bであれば(S23−YES)、ステップS24において意図理解部103は、ユーザ発話が現在のシステム発話の1つ前のシステム発話に応答するものであると判断する。
一方、ユーザ発話がシステム発話内のタグの出力開始タイミングより後、すなわち時間A<時間Bであれば(S23−NO)、ステップS25において意図理解部103は、ユーザ発話が現在のシステム発話に応答するものであると判断する。
<効果>
本実施形態によれば、ユーザ発話とシステム発話が重なった場合に、このユーザ発話が現在のシステム発話に対する応答であるのか否かを、簡易な処理によって判断することができる。したがって、システムとユーザのあいだの対話をより適切に実現することが可能となる。
<変形例>
上記の実施形態では、ユーザ発話が現在のシステム発話に応答するものか否かを判断するために、ユーザ発話のタイミングとタグの出力タイミングとの比較結果のみを考慮しているが、その他の要素を考慮して最終的な判断を下しても構わない。例えば、1つ前および現在のシステム発話の内容と、ユーザのバージイン発話の内容の関連性を考慮に入れて判断することが考えられる。図3の例のように、システムが「趣味は何?」という質問と「出身地はどこ?」という質問を続けてしているときに、ユーザが「ドライブだよ」と発話した場合には、ユーザ発話のタイミングに関わらずに、内容の関連性から前のシステム発話(「趣味は何?」)に対する応答であると判断できる。このようにユーザ発話のタイミングと発話内容の関連性の両方を考慮して、最終的な判断をすることも好ましい。
また、ここではシステムが2つの質問を続けて発話する例を挙げて説明したが、システムが発話を切り出す場合にも同様の処理が適用可能である。この場合は、ユーザ発話がシステム発話に応答するものであるか、自発的な会話の切り出しであるかが判断される。すなわち、ユーザのバージイン発話がシステム発話に応答するものではない場合には、ユーザが会話の切り出しを意図したものと理解される。
また、対話文の作成において対話シナリオ(会話テンプレート)を用いているが、対話文の作成方法は特に限定されない。対話シナリオを用いずに対話文を決定するようにしても構わない。また、対話文テキストにおけるタグの挿入位置は、つなぎ言葉と本文のあいだに限られず、本発明の効果が得られる位置に挿入されればよい。また、1つの応答文の
中に複数のタグが挿入されてもよく、その場合、ユーザ発話の開始がタグによって規定される3つ以上の区間のうちのどの部分に該当するかによってユーザの発話意図を決定することもできる。
上記の説明において「タグ」という用語を用い、応答文テキストにおいて「<1>」などのような表現を採用しているが、本発明における「タグ」とは、応答文における位置を指定するものが該当し、応答文テキストにおいて具体的にどのように表現されるかは限定されない。応答文における位置を特定するために、あらかじめ定められた任意の文字列、あるいはあらかじめ定められた規則に基づく任意の文字列を採用することができ、これらはいずれも本発明における「タグ」に相当する。
<その他>
上記の実施形態および変形例の構成は、本発明の技術的思想を逸脱しない範囲内で、適宜組み合わせて利用することができる。また、本発明は、その技術的思想を逸脱しない範囲で適宜変更を加えて実現しても構わない。
100:音声対話ロボット
101:マイク
102:音声認識部
103:意図理解部
104:対話管理部
105:対話文作成部
106:音声合成部
107:スピーカー

Claims (6)

  1. ユーザ発話を取得する音声入力手段と、
    前記音声入力手段によって取得された音声の発話意図を理解する意図理解手段と、
    システム発話文のテキストを作成する対話文作成手段と、
    前記システム発話文を音声データとして出力する音声出力手段と、
    を備え、
    前記対話文作成手段は、システム発話文のテキストを作成する際に、システム発話文中のいずれかの位置にタグを挿入して作成し、
    前記意図理解手段は、ユーザ発話がされたタイミングが前記タグに対応する位置のシステム発話文が前記音声出力手段から出力された後であれば、ユーザ発話は前記システム発話文に応答するものであると理解し、
    ユーザ発話が入力されたタイミングが前記タグに対応する位置のシステム発話文が前記音声出力手段から出力される前であれば、ユーザ発話は前記システム発話文に応答するものではないと理解する、
    音声対話システム。
  2. 前記対話文作成手段は、前記システム発話文をつなぎ言葉部分と内容部分を組み合わせたものとして生成し、前記タグを前記つなぎ言葉部分と前記内容部分のあいだに挿入する、
    請求項1に記載の音声対話システム。
  3. 前記意図理解手段は、
    前記システム発話文が前記音声出力手段から出力されてから、前記タグよりも前のテキストが全て前記音声出力手段から出力されるまでの時間である第1時間を算出し、
    前記システム発話文が前記音声出力手段から出力されてから、前記ユーザ発話の入力が開始されるまでの時間である第2時間を取得し、
    前記第1時間と前記第2時間の比較により、前記ユーザ発話がされたタイミングが前記タグに対応する位置のシステム発話文が前記音声出力手段から出力される前であるか後であるかを判断する、
    請求項1または2に記載の音声対話システム。
  4. 前記音声出力手段は、前記システム発話文のテキストにおける前記タグは音声として出力しない、
    請求項1からのいずれか1項に記載の音声対話システム。
  5. ユーザ発話を取得する音声入力ステップと、
    前記音声入力ステップにおいて取得された音声の発話意図を理解する意図理解ステップと、
    システム発話文のテキストを作成する対話文作成ステップと、
    前記システム発話文を音声データとして出力する音声出力ステップと、
    を含み、
    前記対話文作成ステップでは、システム発話文のテキストを作成する際に、システム発話文中のいずれかの位置にタグを挿入して作成し、
    前記意図理解ステップでは、ユーザ発話がされたタイミングが前記タグに対応する位置のシステム発話文が前記音声出力手段から出力された後であれば、ユーザ発話は前記システム発話文に応答するものであると理解し、
    ユーザ発話が入力されたタイミングが前記タグに対応する位置のシステム発話文が前記音声出力手段から出力される前であれば、ユーザ発話は前記システム発話文に応答するものではないと理解する、
    発話意図理解方法。
  6. 請求項5に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
JP2016189406A 2016-09-28 2016-09-28 音声対話システムおよび発話意図理解方法 Active JP6515897B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2016189406A JP6515897B2 (ja) 2016-09-28 2016-09-28 音声対話システムおよび発話意図理解方法
US15/704,691 US10319379B2 (en) 2016-09-28 2017-09-14 Methods and systems for voice dialogue with tags in a position of text for determining an intention of a user utterance
CN201710894125.7A CN107871503B (zh) 2016-09-28 2017-09-28 语音对话系统以及发声意图理解方法
US16/390,261 US11087757B2 (en) 2016-09-28 2019-04-22 Determining a system utterance with connective and content portions from a user utterance
US17/366,270 US11900932B2 (en) 2016-09-28 2021-07-02 Determining a system utterance with connective and content portions from a user utterance
US18/539,604 US20240112678A1 (en) 2016-09-28 2023-12-14 Voice dialogue system and method of understanding utterance intention

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016189406A JP6515897B2 (ja) 2016-09-28 2016-09-28 音声対話システムおよび発話意図理解方法

Publications (2)

Publication Number Publication Date
JP2018054791A JP2018054791A (ja) 2018-04-05
JP6515897B2 true JP6515897B2 (ja) 2019-05-22

Family

ID=61685640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016189406A Active JP6515897B2 (ja) 2016-09-28 2016-09-28 音声対話システムおよび発話意図理解方法

Country Status (3)

Country Link
US (4) US10319379B2 (ja)
JP (1) JP6515897B2 (ja)
CN (1) CN107871503B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017141502A1 (ja) * 2016-02-18 2017-08-24 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP6515897B2 (ja) * 2016-09-28 2019-05-22 トヨタ自動車株式会社 音声対話システムおよび発話意図理解方法
JP2018054790A (ja) * 2016-09-28 2018-04-05 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
US20210065708A1 (en) * 2018-02-08 2021-03-04 Sony Corporation Information processing apparatus, information processing system, information processing method, and program
JP6775545B2 (ja) * 2018-05-09 2020-10-28 日本電信電話株式会社 対話データ生成装置、対話データ生成方法、およびプログラム
JP6969491B2 (ja) * 2018-05-11 2021-11-24 トヨタ自動車株式会社 音声対話システム、音声対話方法及びプログラム
JP7169096B2 (ja) * 2018-06-18 2022-11-10 株式会社デンソーアイティーラボラトリ 対話システム、対話方法、およびプログラム
CN109285545A (zh) * 2018-10-31 2019-01-29 北京小米移动软件有限公司 信息处理方法及装置
JP2020086943A (ja) * 2018-11-26 2020-06-04 シャープ株式会社 情報処理装置、情報処理方法、および、プログラム
CN111475206B (zh) * 2019-01-04 2023-04-11 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
CN115146653B (zh) * 2022-07-21 2023-05-02 平安科技(深圳)有限公司 对话剧本构建方法、装置、设备及存储介质

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6598018B1 (en) * 1999-12-15 2003-07-22 Matsushita Electric Industrial Co., Ltd. Method for natural dialog interface to car devices
US6941266B1 (en) * 2000-11-15 2005-09-06 At&T Corp. Method and system for predicting problematic dialog situations in a task classification system
US20020087312A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented conversation buffering method and system
GB0113583D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech system barge-in control
US7069213B2 (en) * 2001-11-09 2006-06-27 Netbytel, Inc. Influencing a voice recognition matching operation with user barge-in time
US8374879B2 (en) * 2002-02-04 2013-02-12 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
JP2003241797A (ja) * 2002-02-22 2003-08-29 Fujitsu Ltd 音声対話システム
US7246062B2 (en) * 2002-04-08 2007-07-17 Sbc Technology Resources, Inc. Method and system for voice recognition menu navigation with error prevention and recovery
US7197460B1 (en) * 2002-04-23 2007-03-27 At&T Corp. System for handling frequently asked questions in a natural language dialog service
JP4304959B2 (ja) * 2002-10-31 2009-07-29 セイコーエプソン株式会社 音声対話制御方法、音声対話制御装置および音声対話制御プログラム
US20050015256A1 (en) * 2003-05-29 2005-01-20 Kargman James B. Method and apparatus for ordering food items, and in particular, pizza
US8826137B2 (en) * 2003-08-14 2014-09-02 Freedom Scientific, Inc. Screen reader having concurrent communication of non-textual information
US7853451B1 (en) * 2003-12-18 2010-12-14 At&T Intellectual Property Ii, L.P. System and method of exploiting human-human data for spoken language understanding systems
US7624016B2 (en) * 2004-07-23 2009-11-24 Microsoft Corporation Method and apparatus for robustly locating user barge-ins in voice-activated command systems
US7742911B2 (en) * 2004-10-12 2010-06-22 At&T Intellectual Property Ii, L.P. Apparatus and method for spoken language understanding by using semantic role labeling
WO2006069358A2 (en) * 2004-12-22 2006-06-29 Enterprise Integration Group Turn-taking model
JP4680691B2 (ja) * 2005-06-15 2011-05-11 富士通株式会社 対話システム
US7321856B1 (en) * 2005-08-03 2008-01-22 Microsoft Corporation Handling of speech recognition in a declarative markup language
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US8600753B1 (en) * 2005-12-30 2013-12-03 At&T Intellectual Property Ii, L.P. Method and apparatus for combining text to speech and recorded prompts
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
EP2259252B1 (en) * 2009-06-02 2012-08-01 Nuance Communications, Inc. Speech recognition method for selecting a combination of list elements via a speech input
US8311838B2 (en) * 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
WO2012150658A1 (ja) * 2011-05-02 2012-11-08 旭化成株式会社 音声認識装置および音声認識方法
JP6066471B2 (ja) 2012-10-12 2017-01-25 本田技研工業株式会社 対話システム及び対話システム向け発話の判別方法
US8977555B2 (en) 2012-12-20 2015-03-10 Amazon Technologies, Inc. Identification of utterance subjects
US20140278404A1 (en) * 2013-03-15 2014-09-18 Parlant Technology, Inc. Audio merge tags
JP6391925B2 (ja) * 2013-09-20 2018-09-19 株式会社東芝 音声対話装置、方法およびプログラム
US8862467B1 (en) * 2013-12-11 2014-10-14 Google Inc. Contextual speech recognition
JP6539940B2 (ja) * 2013-12-19 2019-07-10 株式会社デンソー 音声認識装置及び音声認識プログラム
JP2015184563A (ja) * 2014-03-25 2015-10-22 シャープ株式会社 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラム
KR101770187B1 (ko) * 2014-03-27 2017-09-06 한국전자통신연구원 음성 대화를 통한 네비게이션 제어 장치 및 방법
US10289433B2 (en) * 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9390706B2 (en) * 2014-06-19 2016-07-12 Mattersight Corporation Personality-based intelligent personal assistant system and methods
US9792901B1 (en) * 2014-12-11 2017-10-17 Amazon Technologies, Inc. Multiple-source speech dialog input
US10311862B2 (en) * 2015-12-23 2019-06-04 Rovi Guides, Inc. Systems and methods for conversations with devices about media using interruptions and changes of subjects
JP2018054790A (ja) * 2016-09-28 2018-04-05 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
JP6515897B2 (ja) * 2016-09-28 2019-05-22 トヨタ自動車株式会社 音声対話システムおよび発話意図理解方法

Also Published As

Publication number Publication date
US11087757B2 (en) 2021-08-10
JP2018054791A (ja) 2018-04-05
CN107871503A (zh) 2018-04-03
US10319379B2 (en) 2019-06-11
US20190244620A1 (en) 2019-08-08
US20210335362A1 (en) 2021-10-28
US11900932B2 (en) 2024-02-13
CN107871503B (zh) 2023-02-17
US20180090144A1 (en) 2018-03-29
US20240112678A1 (en) 2024-04-04

Similar Documents

Publication Publication Date Title
JP6515897B2 (ja) 音声対話システムおよび発話意図理解方法
KR102413692B1 (ko) 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US20170103757A1 (en) Speech interaction apparatus and method
US9159314B2 (en) Distributed speech unit inventory for TTS systems
EP2963644A1 (en) Audio command intent determination system and method
JP6024675B2 (ja) 音声認識端末装置、音声認識システム、音声認識方法
JP2018054790A (ja) 音声対話システムおよび音声対話方法
JPWO2016120904A1 (ja) 意図推定装置及び意図推定方法
CN110675855A (zh) 一种语音识别方法、电子设备及计算机可读存储介质
US20160314116A1 (en) Interpretation apparatus and method
JP2009300573A (ja) 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
JP6614080B2 (ja) 音声対話システムおよび音声対話方法
EP4235649A3 (en) Language model biasing
JP2010157081A (ja) 応答生成装置及びプログラム
JP6275354B1 (ja) 意図推定装置及び意図推定方法
JP2018049132A (ja) 音声対話システムおよび音声対話方法
JP2020507165A (ja) データ可視化のための情報処理方法及び装置
WO2020036195A1 (ja) 話し終わり判定装置、話し終わり判定方法およびプログラム
JP2010078877A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP6468258B2 (ja) 音声対話装置および音声対話方法
JP5818753B2 (ja) 音声対話システム及び音声対話方法
KR20180066513A (ko) 자동 통역 방법 및 장치, 및 기계 번역 방법
JPWO2020036190A1 (ja) 要点抽出装置、要点抽出方法、及びプログラム
JP6538399B2 (ja) 音声処理装置、音声処理方法およびプログラム
KR102300303B1 (ko) 발음 변이를 적용시킨 음성 인식 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190401

R151 Written notification of patent or utility model registration

Ref document number: 6515897

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151