JP2020042074A - 音声対話装置、音声対話方法および音声対話プログラム - Google Patents
音声対話装置、音声対話方法および音声対話プログラム Download PDFInfo
- Publication number
- JP2020042074A JP2020042074A JP2018167279A JP2018167279A JP2020042074A JP 2020042074 A JP2020042074 A JP 2020042074A JP 2018167279 A JP2018167279 A JP 2018167279A JP 2018167279 A JP2018167279 A JP 2018167279A JP 2020042074 A JP2020042074 A JP 2020042074A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- content
- utterance
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000002452 interceptive effect Effects 0.000 title abstract description 65
- 230000003993 interaction Effects 0.000 claims abstract description 79
- 230000008859 change Effects 0.000 claims abstract description 66
- 230000009471 action Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 239000012141 concentrate Substances 0.000 description 5
- 238000013459 approach Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 206010027940 Mood altered Diseases 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】話者との間でその場の状況に合わせた対話を行うことができる音声対話装置、音声対話方法および音声対話プログラムを提供すること。【解決手段】音声対話装置1は、複数の話者から音声のデータを取得して音声を発した話者を特定し、話者が第一話者である場合、第一話者の音声のデータから発話内容を認識し、第一話者の発話内容に応じて発話文章のデータを生成して音声出力する処理を繰り返すことによって第一話者との対話を実行し、第一話者との対話の実行中に、従たる対話相手として設定された第二話者の音声を取得した場合に、第二話者の音声のデータから発話内容を認識し、第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定し、第二話者の発話内容が文脈を変化させるものであると判定した場合、第二話者の発話内容に基づいて、文脈を変化させる発話文章のデータを生成して音声出力する、制御部10を備える。【選択図】図1
Description
本発明は、音声対話装置、音声対話方法および音声対話プログラムに関する。
従来、車両等に搭載され、車両の乗員と音声による対話を行う音声対話装置が提案されている。例えば特許文献1では、話者の嗜好を反映したエージェント像をモニタに表示し、このエージェント像を介して話者との対話を行う技術が開示されている。
特許文献1で開示された技術では、画像認識や音声認識によって話者の視線、顔の向き、声等を検出し、これらの検出結果に基づいてエージェント像の対話制御を行っている。しかしながら、このような画像認識や音声認識では、話者がいる場の状況を正確に把握することは困難である。従って、特許文献1で開示された技術では、その場の状況に合わせた対話を行うことができないという問題があった。
本発明は、上記に鑑みてなされたものであって、話者との間でその場の状況に合わせた対話を行うことができる音声対話装置、音声対話方法および音声対話プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る音声対話装置は、複数の話者から音声のデータを取得して前記音声を発した話者を特定し、前記話者が主たる対話相手として設定された第一話者である場合、前記第一話者の音声のデータから発話内容を認識し、前記第一話者の発話内容に応じて発話文章のデータを生成して音声出力する処理を繰り返すことによって前記第一話者との対話を実行し、前記第一話者との対話の実行中に、前記複数の話者のうち、従たる対話相手として設定された第二話者の音声を取得した場合に、前記第二話者の音声のデータから発話内容を認識し、前記第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定し、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の発話内容に基づいて、前記文脈を変化させる発話文章のデータを生成して音声出力する、制御部を備える。
これにより、音声対話装置は、第一話者との間で実行中の対話の文脈を変化させるような働きかけが第二話者からなされた場合、当該第二話者の発話内容に基づいて、実行中の対話の文脈を変化させる。
また、本発明に係る音声対話装置において、前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記第一話者に対して所定の働きかけを行うものである場合、前記働きかけの内容に応じた発話文章のデータを生成して音声出力してもよい。
これにより、音声対話装置は、第一話者に対して所定の働きかけが第二話者からなされた場合、当該働きかけの内容に応じた発話文章のデータを生成し、第一話者に対して音声出力する。
また、本発明に係る音声対話装置において、前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記第一話者との対話の主題の変更指示である場合、前記主題を変更してもよい。
これにより、音声対話装置は、第一話者との間で実行中の対話の主題を変更させるような働きかけが第二話者からなされた場合、実行中の対話の主題を変更する。
また、本発明に係る音声対話装置において、前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記音声出力の音量の変更指示である場合、前記音声出力の音量を変更してもよい。
これにより、音声対話装置は、第一話者との間で実行中の対話における音声出力の音量を変更させるような働きかけが第二話者からなされた場合、実行中の対話における音声出力の音量を変更する。
また、本発明に係る音声対話装置において、前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記音声出力のタイミングの変更指示である場合、前記音声出力のタイミングを変更してもよい。
これにより、音声対話装置は、第一話者との間で実行中の対話における音声出力のタイミングを変更させるような働きかけが第二話者からなされた場合、実行中の対話における音声出力のタイミングを変更する。
また、本発明に係る音声対話装置において、前記制御部は、前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の音声のデータから前記第二話者の口調を認識し、前記口調に合わせて、生成した発話文章のデータを音声出力してもよい。
これにより、音声対話装置は、第二話者の口調に合わせて発話文章のデータを音声出力する際の口調を変更することにより、第二話者が発した発話内容の意図を第一話者に対してより伝えやすくなる。
上述した課題を解決し、目的を達成するために、本発明に係る音声対話方法は、制御部が、複数の話者から音声のデータを取得して前記音声を発した話者を特定し、前記制御部が、前記話者が主たる対話相手として設定された第一話者である場合、前記第一話者の音声のデータから発話内容を認識し、前記第一話者の発話内容に応じて発話文章のデータを生成して音声出力する処理を繰り返すことによって前記第一話者との対話を実行し、前記制御部が、前記第一話者との対話の実行中に、前記複数の話者のうち、従たる対話相手として設定された第二話者の音声を取得した場合に、前記第二話者の音声のデータから発話内容を認識し、前記第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定し、前記制御部が、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の発話内容に基づいて、前記文脈を変化させる発話文章のデータを生成して音声出力する。
これにより、音声対話方法は、第一話者との間で実行中の対話の文脈を変化させるような働きかけが第二話者からなされた場合、当該第二話者の発話内容に基づいて、実行中の対話の文脈を変化させる。
上述した課題を解決し、目的を達成するために、本発明に係る音声対話プログラムは、コンピュータを、複数の話者から音声のデータを取得して前記音声を発した話者を特定する手段、前記話者が主たる対話相手として設定された第一話者である場合、前記第一話者の音声のデータから発話内容を認識し、前記第一話者の発話内容に応じて発話文章のデータを生成して音声出力する処理を繰り返すことによって前記第一話者との対話を実行する手段、前記第一話者との対話の実行中に、前記複数の話者のうち、従たる対話相手として設定された第二話者の音声を取得した場合に、前記第二話者の音声のデータから発話内容を認識し、前記第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定する手段、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の発話内容に基づいて、前記文脈を変化させる発話文章のデータを生成して音声出力する手段、として機能させる。
これにより、音声対話プログラムは、第一話者との間で実行中の対話の文脈を変化させるような働きかけが第二話者からなされた場合、当該第二話者の発話内容に基づいて、実行中の対話の文脈を変化させる。
本発明に係る音声対話装置、音声対話方法および音声対話プログラムによれば、第一話者との対話の実行中に第二話者からの働きかけを受け付けることにより、第二話者の意向に沿って、実行中の対話の文脈を変化させることができるため、話者との間でその場の状況に合わせた対話を行うことができる。
本発明の実施形態に係る音声対話装置、音声対話方法および音声対話プログラムについて、図面を参照しながら説明する。なお、本発明は以下の実施形態に限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。
本実施形態に係る音声対話装置は、例えば車両に搭載され、車両に搭乗している複数の話者(ユーザ)と対話を行う装置である。音声対話装置の一態様としては、例えば車両に内蔵される態様が挙げられる。この場合、音声対話装置は、車両内に設けられたマイク、スピーカ、モニタ等を通じて、複数の話者と対話を行う。また、音声対話装置の別の態様としては、車両とは別体の小型のロボット等によって構成される態様が挙げられる。この場合、音声対話装置は、ロボットに設けられたマイク、スピーカ、モニタ等を通じて、複数の話者と対話を行う。
本実施形態では、音声対話装置の機能として複数の話者と対話を行う擬人化された主体のことを「エージェント」と定義する。例えば音声対話装置が車両に内蔵されている場合は、モニタ上等に擬人化されたエージェントの像(画像データ)を表示する。このエージェントの像は、人間、動物、ロボット、アニメのキャラクター等、話者の嗜好に合わせて選択可能とする。また、音声対話装置が小型のロボットによって構成される場合は、このロボット自体がエージェントとして機能する。
また、本実施形態では、車両に家族が搭乗しているシーンを想定しており、音声対話装置と対話を交わす話者として、運転席に座っている「ドライバー(例えば父親)」、助手席に座っている子供以外の「同乗者(例えば母親)」、後部座席に座っている「子供」、の三者を想定している。
また、音声対話装置は、上記三者のうち、主に子供と対話を行うことを想定している。すなわち、音声対話装置は、ドライバーの代わりに子供と対話を行うことにより、運転中のドライバーの負担を減らし、運転に集中できる環境を提供する。そのため、音声対話装置が実行する対話コンテンツ(例えば「しりとり、クイズ、歌、面白い話、怖い話」等)は、主に子供を対象としている。また、本実施形態では、複数の話者のうち、音声対話装置の主たる対話相手(子供)のことを「第一話者(第一ユーザ)」と定義し、音声対話装置の従たる対話相手(ドライバー、同乗者)のことを「第二話者(第二ユーザ)」と定義する。
[音声対話装置]
音声対話装置1は、図1に示すように、制御部10と、記憶部20と、マイク30と、スピーカ40と、を備えている。また、音声対話装置1は、CAN(Controller Area Network)等の車載ネットワークにより、無線通信装置(例えばDCM:Data Communication Module)2およびナビゲーション装置3と相互に通信可能に接続されている。
音声対話装置1は、図1に示すように、制御部10と、記憶部20と、マイク30と、スピーカ40と、を備えている。また、音声対話装置1は、CAN(Controller Area Network)等の車載ネットワークにより、無線通信装置(例えばDCM:Data Communication Module)2およびナビゲーション装置3と相互に通信可能に接続されている。
無線通信装置2は、外部のサーバ4と通信を行うための通信手段である。無線通信装置2とサーバ4とは、例えば無線ネットワークにより接続されている。ナビゲーション装置3は、モニタ等の表示部と、GPS衛星からの信号を受信するGPS受信部を備えている。ナビゲーション装置3は、GPS受信部で取得した現在位置の情報に基づいて、車両の周辺の地図情報や目的地までの経路情報を表示部に表示することにより、ナビゲーションを行う。サーバ4は、無線通信装置2を通じて、必要に応じて車両との間で情報のやり取りを行うことにより、種々の情報処理を行う。
制御部(プロセッサ)10は、具体的にはCPU(Central Processing Unit)等の演算処理装置によって構成されており、マイク30から入力された音声のデータを処理するとともに、生成した発話文章のデータをスピーカ40に対して出力する。制御部10は、コンピュータプログラムを実行することにより、話者特定部11、対話コンテンツ制御部12および介入制御部13として機能する。
話者特定部11は、車両内における複数の話者の音声のデータをマイク30から取得し、例えば声紋認証を利用して、音声を発した話者を特定する。話者特定部11は、具体的には、車両内における複数の話者の名前を尋ねる発話文章のデータ(以下、単に「発話文章」という)や、ドライバーおよび同乗者が誰であるのかを尋ねる発話文章を生成し、スピーカ40によって、生成した発話文章を音声出力する(例えば後記する図3の(1−1)、(1−12)参照)。
次に、話者特定部11は、複数の話者からの回答を示す音声のデータをマイク30から取得し、その発話内容を認識する。そして、話者特定部11は、話者の音声、名前、属性を対応付けた情報(以下、「話者データ」という)を、後記する話者記憶部21に格納する。なお、話者特定部11は、話者特定の際に、例えば各話者の嗜好や年齢等を尋ね、各話者の話者データに追加してもよい。
ここで、前記した「話者の属性」とは、各話者が第一話者(子供)と第二話者(ドライバー、同乗者)のどちらに属するのかを示す情報である。各話者が第一話者と第二話者のどちらに属するのかについては、例えば前記したように、車両内における複数の話者に対して、ドライバーおよび同乗者(すなわち第二話者)が誰であるのかを尋ね、その回答を得ることにより、把握することができる。
話者特定部11による話者特定は、対話コンテンツ制御部12によって対話コンテンツが開始される前に行われる(後記する図2参照)。また、話者特定部11による話者特定の際にエージェントが発する発話文章の少なくとも一部(例えば後記する図3の(1−3)における「○○君ね、○○君は何が好きかな?」)は、後記する発話文章記憶部23に予め記憶されている。話者特定部11は、話者特定の際に必要な発話文章の一部を発話文章記憶部23から読み出し、例えば対話相手の名前(例えば同図の「ハルヤ」)等を組み合わせて発話文章を生成する(例えば同図の(1−3))。そして、話者特定部11は、スピーカ40によって、生成した発話文章を音声出力する。
対話コンテンツ制御部12は、主たる対話相手として設定された第一話者(子供)との間で対話を実行する。対話コンテンツ制御部12は、具体的には、話者特定部11によって特定した話者が第一話者である場合、マイク30によって取得した第一話者の音声のデータから、その発話内容を認識する。そして、対話コンテンツ制御部12は、第一話者の発話内容に応じて発話文章のデータを生成し、スピーカ40によって、生成した発話文章を音声出力する処理を繰り返すことによって第一話者との対話を実行する。
ここで、本実施形態では、ある主題(テーマ)に関する発話文章の集合、すなわち第一話者に対して能動的に発する発話文章(例えば後記する図4の(2−1))と、第一話者の応答に対応する発話文章の候補(例えば同図の(2−4))のことを、「対話コンテンツ」と定義する。
対話コンテンツは、例えば「しりとり、クイズ、歌、面白い話、怖い話」等、複数の主題が設定されており、各々の主題を有する複数の対話コンテンツが、後記する対話コンテンツ記憶部22に予め記憶されている。対話コンテンツ制御部12は、対話コンテンツを対話コンテンツ記憶部22から読み出し、必要な発話文章を選択したり、あるいは対話相手の名前を組み合わせて発話文章を生成する。そして、対話コンテンツ制御部12は、選択または生成した発話文章を音声出力する。
介入制御部13は、第一話者との対話の文脈を変化させるような働きかけが第二話者からなされた場合、第二話者の発話内容に基づいて、実行中の対話の文脈を変化させる。介入制御部13は、具体的には、第一話者との対話の実行中に、複数の話者のうち、従たる対話相手として設定された第二話者の音声を、マイク30によって取得する。次に、介入制御部13は、第二話者の音声のデータから発話内容を認識し、第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定する。そして、介入制御部13は、第二話者の発話内容が文脈を変化させるものであると判定した場合、第二話者の発話内容に基づいて、文脈を変化させる発話文章のデータを生成し、スピーカ40によって、生成した発話文章を音声出力する。
ここで、本実施形態では、前記したように、第二話者による、第一話者との対話の文脈を変化させるような働きかけのことを、「介入」と定義する。また、第二話者による介入とは、言い換えると、その場(車両内)の状況を把握している第二話者からの情報提供のことを意味している。第一話者との対話の実行中に第二話者による介入が行われる場合としては、対話コンテンツを別の対話コンテンツに変更したい場合、(2)対話コンテンツの音量を変更したい場合、(3)対話コンテンツの発話タイミングを変更したい場合、(4)第一話者に対して所定の働きかけを行いたい場合、が挙げられる。以下、各々の場合において介入制御部13が行う制御(以下、「介入制御」という)の概要について説明する。
(1)対話コンテンツを別の対話コンテンツに変更したい場合
この場合、介入制御部13は、第一の介入制御を行う。介入制御部13は、第一話者との対話の実行中に取得した第二話者の発話内容が実行中の対話の文脈を変化させるものである場合において、第二話者の発話内容が、対話コンテンツの変更指示である場合(例えば後記する図7の(4−1))、対話コンテンツを別の対話コンテンツに変更する。なお、「対話コンテンツを変更する」とは、具体的には第一話者との対話の主題を変更することを示している。
この場合、介入制御部13は、第一の介入制御を行う。介入制御部13は、第一話者との対話の実行中に取得した第二話者の発話内容が実行中の対話の文脈を変化させるものである場合において、第二話者の発話内容が、対話コンテンツの変更指示である場合(例えば後記する図7の(4−1))、対話コンテンツを別の対話コンテンツに変更する。なお、「対話コンテンツを変更する」とは、具体的には第一話者との対話の主題を変更することを示している。
第一の介入制御の際にエージェントが発する発話文章の少なくとも一部は、後記する発話文章記憶部23に予め記憶されている。例えば介入制御部13は、第一の介入制御の際に必要な発話文章の一部(例えば後記する図7の(4−2)における「じゃあ、○○ちゃんお好きな○○にしましょうか?」)を発話文章記憶部23から読み出し、例えば対話相手の名前(例えば同図の「リア」)や対話相手の発話内容(例えば同図の「危険生物クイズ」)等を組み合わせて発話文章を生成する(例えば同図の(4−2))。そして、介入制御部13は、スピーカ40によって、生成した発話文章を音声出力する。
(2)対話コンテンツの音量を変更したい場合
この場合、介入制御部13は、第二の介入制御を行う。介入制御部13は、第一話者との対話の実行中に取得した第二話者の発話内容が実行中の対話の文脈を変化させるものである場合において、第二話者の発話内容が、対話コンテンツの音量の変更指示である場合(例えば後記する図9の(5−1))、対話コンテンツの音量を変更する。なお、「対話コンテンツの音量を変更する」とは、具体的にはスピーカ40による音声出力の音量を変更すること、すなわちスピーカ40の音量を変更することを示している。
この場合、介入制御部13は、第二の介入制御を行う。介入制御部13は、第一話者との対話の実行中に取得した第二話者の発話内容が実行中の対話の文脈を変化させるものである場合において、第二話者の発話内容が、対話コンテンツの音量の変更指示である場合(例えば後記する図9の(5−1))、対話コンテンツの音量を変更する。なお、「対話コンテンツの音量を変更する」とは、具体的にはスピーカ40による音声出力の音量を変更すること、すなわちスピーカ40の音量を変更することを示している。
第二の介入制御の際にエージェントが発する発話文章の少なくとも一部は、後記する発話文章記憶部23に予め記憶されている。介入制御部13は、第二の介入制御の際に必要な発話文章の一部(例えば後記する図9の(5−2)における「了解です。○○さん、このぐらいの音量でいいですか?」)を発話文章記憶部23から読み出し、例えば対話相手の名前(例えば同図の「パパ」)等を組み合わせて発話文章を生成する(例えば同図の(5−2))。そして、介入制御部13は、スピーカ40によって、生成した発話文章を音声出力する。
(3)対話コンテンツの発話タイミングを変更したい場合
この場合、介入制御部13は、第三の介入制御を行う。介入制御部13は、第一話者との対話の実行中に取得した第二話者の発話内容が実行中の対話の文脈を変化させるものである場合において、第二話者の発話内容が、対話コンテンツの発話タイミングの変更指示である場合(例えば後記する図11の(6−1))、対話コンテンツの音量を変更する。なお、「対話コンテンツの発話タイミングを変更する」とは、具体的にはスピーカ40による音声出力のタイミングを変更することを示している。
この場合、介入制御部13は、第三の介入制御を行う。介入制御部13は、第一話者との対話の実行中に取得した第二話者の発話内容が実行中の対話の文脈を変化させるものである場合において、第二話者の発話内容が、対話コンテンツの発話タイミングの変更指示である場合(例えば後記する図11の(6−1))、対話コンテンツの音量を変更する。なお、「対話コンテンツの発話タイミングを変更する」とは、具体的にはスピーカ40による音声出力のタイミングを変更することを示している。
第三の介入制御の際にエージェントが発する発話文章の少なくとも一部は、後記する発話文章記憶部23に予め記憶されている。介入制御部13は、第三の介入制御の際に必要な発話文章の一部(例えば後記する図11の(6−2)における「了解です。○○さん、○○ではお話しないようにしますね。」)を発話文章記憶部23から読み出し、例えば対話相手の名前(例えば同図の「パパ」)や対話相手の発話内容(例えば同図の「交差点」)等を組み合わせて発話文章を生成する(例えば同図の(6−2))。そして、介入制御部13は、スピーカ40によって、生成した発話文章を音声出力する。
(4)第一話者に対して所定の働きかけを行いたい場合
ここで、「第一話者に対して所定の働きかけをしたい場合」とは、例えば第一話者である子供同士が喧嘩を始めたため喧嘩の調停が必要である場合や、機嫌の悪い子供(ぐずっている子供)をあやしたい場合、等が挙げられる。
ここで、「第一話者に対して所定の働きかけをしたい場合」とは、例えば第一話者である子供同士が喧嘩を始めたため喧嘩の調停が必要である場合や、機嫌の悪い子供(ぐずっている子供)をあやしたい場合、等が挙げられる。
この場合、介入制御部13は、第四の介入制御を行う。介入制御部13は、第一話者との対話の実行中に取得した第二話者の発話内容が実行中の対話の文脈を変化させるものである場合において、第二話者の発話内容が、第一話者に対して所定の働きかけを行うものである場合(例えば後記する図13の(7−1))、働きかけの内容に応じた発話文章のデータを生成して音声出力する。
第四の介入制御の際にエージェントが発する発話文章の少なくとも一部は、後記する発話文章記憶部23に予め記憶されている。例えば介入制御部13は、第四の介入制御の際に必要な発話文章の一部(例えば後記する図13の(7−2)における「○○ちゃん、どうして泣いちゃったの?」)を発話文章記憶部23から読み出し、例えば対話相手の名前(例えば同図の「リア」)等を組み合わせて発話文章を生成する(例えば同図の(7−2))。そして、介入制御部13は、スピーカ40によって、生成した発話文章を音声出力する。
記憶部20は、例えばHDD(Hard Disk Drive)、ROM(Read Only Memory)、RAM(Random access memory)等によって構成されており、話者記憶部21と、対話コンテンツ記憶部22と、発話文章記憶部23と、を有している。
話者記憶部21は、話者特定部11によって生成された話者データを記憶する。また、対話コンテンツ記憶部22は、対話コンテンツ制御部12で利用される複数の対話コンテンツを予め記憶する。対話コンテンツ記憶部22は、例えば第一話者である子供が興味を抱くような複数の主題(例えば「しりとり、クイズ、歌、面白い話、怖い話」等)を有する対話コンテンツを記憶している。また、発話文章記憶部23は、話者特定部11、対話コンテンツ制御部12および介入制御部13が生成する発話文章の一部を予め記憶する。
マイク30は、複数の話者(第一話者:子供、第二話者:ドライバー、同乗者)が発した音声を集音し、その音声のデータを生成する。そして、マイク30は、生成した音声のデータを制御部10の各部に出力する。スピーカ40には、制御部10の各部で生成された発話文章のデータが入力される。そして、スピーカ40は、入力された発話文章のデータを、複数の話者(第一話者:子供、第二話者:ドライバー、同乗者)に対して音声出力する。
マイク30およびスピーカ40は、音声対話装置1が車両に内蔵される場合は車両内に、音声対話装置1が小型のロボットによって構成される場合は当該ロボットに設けられる。
[音声対話制御方法]
以下、音声対話装置1による音声対話制御方法について、図2〜図5を参照しながら説明する。
以下、音声対話装置1による音声対話制御方法について、図2〜図5を参照しながら説明する。
音声対話装置1のエージェントが起動すると(スタート)、話者特定部11は、対話により、車両内の複数の話者(第一話者および第二話者)を特定して登録する(ステップS1)。
ステップS1では、例えば図3の(1−1)〜(1−9)に示すように、第一話者である二人の子供A,Bと対話を交わすことにより、それぞれの名前(ハルヤ、リア)を特定し、話者データとして話者記憶部21に格納する。また、本ステップでは、同図の(1−12)〜(1−14)に示すように、第二話者であるドライバー(パパ)と対話を交わすことにより、ドライバーを特定し、話者データとして話者記憶部21に格納する。
なお、ステップS1では、図3の(1−3)〜(1−5)および(1−7)〜(1−9)に示すように、子供A,Bの名前に加えて各自の嗜好を聞き出し、話者データに含めて話者記憶部21に格納してもよい。ここで聞き出した嗜好は、後記するように、対話コンテンツ制御部12が対話コンテンツを選択する際に参酌される(後記する図5参照)。
続いて、対話コンテンツ制御部12は、子供A,Bに対して、対話コンテンツを開始する(ステップS2)。本ステップにおいて、対話コンテンツ制御部12は、対話コンテンツ記憶部22から、例えば図4に示す「しりとり」や図5に示す「クイズ」等の対話コンテンツを読み出して対話を実行する。なお、図5は、対話コンテンツ制御部12が、対話コンテンツ記憶部22に格納された対話コンテンツの中から、話者特定の際に聞き出した話者(子供B:リア)の嗜好に合致した対話コンテンツ(危険生物クイズ)を選択した例を示している。
続いて、介入制御部13は、第一話者との対話の実行中に、当該対話の文脈を変化させるような働きかけが第二話者からなされたか否かを判定する(ステップS3)。ステップS3において、働きかけがあったと判定した場合(ステップS3でYes)、介入制御部13は、第二話者の音声データから働きかけの内容を把握し(ステップS4)、働きかけの内容に応じた制御を実施する(ステップS5)。なお、ステップS3において、働きかけがないと判定した場合(ステップS3でNo)、介入制御部13は、ステップS6に進む。
ステップS5に続いて、対話コンテンツ制御部12は、第二話者の音声のデータに基づいて、当該第二話者による対話コンテンツの終了指示があるか否かを判定する(ステップS6)。ステップS6において、第二話者による対話コンテンツの終了指示があると判定した場合(ステップS6でYes)、対話コンテンツ制御部12は、対話コンテンツを終了する(ステップS7)。これにより、音声対話制御が終了する。なお、ステップS6において、第二話者による対話コンテンツの終了指示がないと判定した場合(ステップS6でNo)、対話コンテンツ制御部12は、ステップS3に戻る。
ここで、図2のステップS5における介入制御の具体例について、図6〜図15を参照しながら説明する。以下では、ステップS5において介入制御部13が行う第一〜第四の介入制御の具体例をそれぞれ説明する。
(1)第一の介入制御
例えば音声対話装置1が、後部座席に座っている子供に対して対話コンテンツ(例えば「しりとり」)の対話を実行している際に、同じ主題の対話コンテンツばかりであると子供が飽きてしまうことがある。しかしながら、音声対話装置1は、このような場の状況を把握することができない。そこで、第一の介入制御では、場の状況を把握しているドライバー(または同乗者)からの介入を受け付けて対話コンテンツを変更することにより、対話コンテンツに対する子供の飽きを回避する。
例えば音声対話装置1が、後部座席に座っている子供に対して対話コンテンツ(例えば「しりとり」)の対話を実行している際に、同じ主題の対話コンテンツばかりであると子供が飽きてしまうことがある。しかしながら、音声対話装置1は、このような場の状況を把握することができない。そこで、第一の介入制御では、場の状況を把握しているドライバー(または同乗者)からの介入を受け付けて対話コンテンツを変更することにより、対話コンテンツに対する子供の飽きを回避する。
この場合、図6に示すように、介入制御部13は、前記したステップS4における働きかけの内容の把握結果に基づいて、第二話者による対話コンテンツの変更指示があるか否かを判定する(ステップS51)。ステップS51において、第二話者による対話コンテンツの変更指示があると判定した場合(ステップS51でYes)、介入制御部13は、第一話者の発話内容に基づいて、当該第一話者が対話コンテンツの変更を承諾したか否かを判定する(ステップS52)。なお、ステップS51において、第二話者による対話コンテンツの変更指示がないと判定した場合(ステップS51でNo)、介入制御部13は、ステップS51に戻る。
ステップS52において、第一話者が対話コンテンツの変更を承諾したと判定した場合(ステップS52でYes)、介入制御部13は、変更指示に従って、対話コンテンツを別の対話コンテンツに変更する(ステップS53)。これにより、第一の介入制御が終了する。なお、ステップS52において、第一話者が対話コンテンツの変更を承諾していないと判定した場合(ステップS52でNo)、介入制御部13は、第一の介入制御を終了する。
第一の介入制御では、例えば図7に示すような対話が行われる。まず、ドライバー(パパ)がエージェントに対して、子供(リア)が好きな対話コンテンツ(危険生物クイズ)への変更を指示する(同図の(4−1))。これを受けて、エージェントは、二人の子供(リア、ハルヤ)に対して、対話コンテンツの変更の承諾を求め(同図の(4−2))、二人の子供(リア、ハルヤ)が承諾した場合(同図の(4−3)、(4−4))、対話コンテンツを変更する。なお、同図では、二人の子供が対話コンテンツの変更を承諾している例を示しているが、変更を承諾しなかった場合、エージェントはさらに別の対話コンテンツへの変更を提案してもよい。
(2)第二の介入制御
例えば音声対話装置1が第一話者との対話を実行している際に、対話コンテンツの音量(スピーカ40の音量)が大きすぎると、ドライバーが運転に集中できなくなり、運転が不安定となる可能性がある。しかしながら、音声対話装置1は、このような場の状況を把握することができない。そこで、第二の介入制御では、場の状況を把握しているドライバー(または同乗者)からの介入を受け付けて対話コンテンツの音量を変更することにより、ドライバーの運転が不安定となることを抑制する。
例えば音声対話装置1が第一話者との対話を実行している際に、対話コンテンツの音量(スピーカ40の音量)が大きすぎると、ドライバーが運転に集中できなくなり、運転が不安定となる可能性がある。しかしながら、音声対話装置1は、このような場の状況を把握することができない。そこで、第二の介入制御では、場の状況を把握しているドライバー(または同乗者)からの介入を受け付けて対話コンテンツの音量を変更することにより、ドライバーの運転が不安定となることを抑制する。
この場合、図8に示すように、介入制御部13は、前記したステップS4における働きかけの内容の把握結果に基づいて、第二話者による対話コンテンツの音量の変更指示があるか否かを判定する(ステップS54)。ステップS54において、第二話者による対話コンテンツの音量の変更指示があると判定した場合(ステップS54でYes)、介入制御部13は、変更指示に従って、スピーカ40の音量を変更する(ステップS55)。なお、ステップS54において、第二話者による対話コンテンツの音量の変更指示がないと判定した場合(ステップS54でNo)、介入制御部13は、ステップS54に戻る。
続いて、介入制御部13は、第二話者が対話コンテンツの音量の変更を承諾したか否かを判定する(ステップS56)。ステップS56において、第二話者が対話コンテンツの音量の変更を承諾したと判定した場合(ステップS56でYes)、介入制御部13は、第二の介入制御を終了する。なお、ステップS56において、第二話者が対話コンテンツの音量の変更を承諾していないと判定した場合(ステップS56でNo)、介入制御部13は、ステップS55に戻る。
第二の介入制御では、例えば図9に示すような対話が行われる。まず、ドライバー(パパ)がエージェントに対して、対話コンテンツの音量を下げることを指示する(同図の(5−1))。これを受けて、エージェントは、対話コンテンツの音量を所定量下げ、ドライバーに対して承諾を求める(同図の(5−2))。
(3)第三の介入制御
例えば、交差点や高速道路の出入口等、慎重な運転が必要となる場面において、音声対話装置1が第一話者との対話を実行している際の音声が聞こえると、ドライバーが運転に集中できなくなり、運転が不安定となる可能性がある。しかしながら、音声対話装置1は、このような場の状況を把握することができない。そこで、第三の介入制御では、場の状況を把握しているドライバー(または同乗者)からの介入を受け付けて対話コンテンツの発話タイミングを変更することにより、ドライバーの運転が不安定となることを抑制する。
例えば、交差点や高速道路の出入口等、慎重な運転が必要となる場面において、音声対話装置1が第一話者との対話を実行している際の音声が聞こえると、ドライバーが運転に集中できなくなり、運転が不安定となる可能性がある。しかしながら、音声対話装置1は、このような場の状況を把握することができない。そこで、第三の介入制御では、場の状況を把握しているドライバー(または同乗者)からの介入を受け付けて対話コンテンツの発話タイミングを変更することにより、ドライバーの運転が不安定となることを抑制する。
この場合、図10に示すように、介入制御部13は、前記したステップS4における働きかけの内容の把握結果に基づいて、第二話者による発話タイミングの変更指示があるか否かを判定する(ステップS57)。ステップS57において、第二話者による発話タイミングの変更指示があると判定した場合(ステップS57でYes)、介入制御部13は、対話コンテンツの発話タイミングを変更し(ステップS58)、第三の介入制御を終了する。なお、ステップS57において、第二話者による発話タイミングの変更指示がないと判定した場合(ステップS57でNo)、介入制御部13は、ステップS57に戻る。
第三の介入制御では、例えば図11に示すような対話が行われる。まず、ドライバー(パパ)がエージェントに対して、交差点周辺では発話をしないように指示する(同図の(6−1))。これを受けて、エージェントは、交差点周辺では発話をしないように発話タイミングを変更する(同図の(6−2))。なお、交差点の位置は、ナビゲーション装置3によって特定可能である。
(4)第四の介入制御
例えば、運転中に子供同士が喧嘩を始めたりすると、ドライバーが運転に集中できなくなり、運転が不安定となる可能性がある。しかしながら、音声対話装置1は、このような場の状況を把握することができない。そこで、第四の介入制御では、場の状況を把握しているドライバー(または同乗者)からの介入を受け付け、子供同士の喧嘩の調停を行うことにより、ドライバーの運転が不安定となることを抑制する。
例えば、運転中に子供同士が喧嘩を始めたりすると、ドライバーが運転に集中できなくなり、運転が不安定となる可能性がある。しかしながら、音声対話装置1は、このような場の状況を把握することができない。そこで、第四の介入制御では、場の状況を把握しているドライバー(または同乗者)からの介入を受け付け、子供同士の喧嘩の調停を行うことにより、ドライバーの運転が不安定となることを抑制する。
この場合、図12に示すように、介入制御部13は、前記したステップS4における働きかけの内容の把握結果に基づいて、第二話者の働きかけの内容に応じた発話文章を生成する(ステップS59)。そして、介入制御部13は、対象となる第一話者に対して、当該発話文章の発話(音声出力)を行う(ステップS60)。
第四の介入制御では、例えば図13に示すような対話が行われる。まず、ドライバー(パパ)がエージェントに対して、子供同士の喧嘩の発生を知らせる(同図の(7−1))。これを受けて、エージェントは、対話コンテンツを中断し、二人の子供(リア、ハルヤ)に対して喧嘩の調停を行う(同図の(7−2)〜(7−6))。そして、エージェントは、子供(リア)の嗜好に合致した対話コンテンツ(危険生物クイズ)への変更を提案する(同図の(7−2)〜(7−7))。
また、第四の介入制御では、例えば図14に示すような対話を行ってもよい。まず、ドライバー(パパ)がエージェントに対して、子供同士の喧嘩の発生を知らせる(同図の(8−1))。これを受けて、エージェントは、対話コンテンツを中断し、二人の子供(リア、ハルヤ)に対して、通常よりも大きな声で発話を行い、喧嘩の調停を行う(同図の(8−2)〜(8−4))。そして、エージェントは、別の対話コンテンツ(しりとり)への変更を提案する(同図の(8−4)、(8−5))。
また、第四の介入制御では、例えば図15に示すような対話を行ってもよい。まず、ドライバー(パパ)がエージェントに対して、子供同士の喧嘩の発生を知らせる(同図の(9−1))。これを受けて、エージェントは、対話コンテンツを中断し、二人の子供(リア、ハルヤ)に対して、通常よりも大きな声で別の対話コンテンツ(怖い話)への変更を提案する(同図の(9−2))。これにより、二人の子供の興味が喧嘩から怖い話へと移り、喧嘩状態が解消する。
ここで、第四の介入制御において、介入制御部13は、第二話者(ドライバー、同乗者)の音声のデータから第二話者の口調を認識し、当該口調に合わせて、生成した発話文章のデータを音声出力してもよい。なお、前記した「口調」とは、例えば音声の音量、抑揚、スピード等が挙げられる。この場合、例えば前記した図13〜図15において、ドライバー(パパ)がエージェントに対して、叱り口調や大声で子供の喧嘩の発生を知らせると、介入制御部13は、エージェントが子供に対して叱り口調または大声で、発話文章の音声出力を行う。
このように、第二話者の口調に合わせて、発話文章を音声出力する際の口調を変更することにより、第二話者が発した発話内容の意図を第一話者に対してより伝えやすくなる。そのため、例えばエージェントが子供の喧嘩を仲裁したり機嫌の悪い子供をあやしたりする際に、ドライバーの意思がより反映されやすくなる。従って、子供に対してより効果的な働きかけを行うことができ、例えば子供の喧嘩を早期に解決したり、あるいは子供の機嫌を早期に回復させることが可能となる。
以上のように、本実施形態に係る音声対話装置1およびこれを用いた音声対話方法によれば、第一話者(子供)との対話の実行中に第二話者(ドライバー、同乗者)からの働きかけを受け付けることにより、第二話者の意向に沿って、実行中の対話の文脈を変化させることができるため、話者との間でその場の状況に合わせた対話を行うことができる。
また、音声対話装置1およびこれを用いた音声対話方法によれば、車両に同乗する子供同士の喧嘩や子供の機嫌の悪化等、センシングによる把握が困難な状況が発生した際に、ドライバー(または同乗者)からの介入を受け付けることにより、子供同士の喧嘩を調停したり、子供をあやしたりすることが可能となる。そのため、ドライバーが運転に集中できなくなることを回避することができ、ドライバーの運転が不安定となることを抑制することができる。
[音声対話プログラム]
本実施形態に係る音声対話プログラムは、コンピュータを、前記した制御部10の各部(各手段)として機能させたものである。音声対話プログラムは、例えばハードディスク、フレキシブルディスク、CD−ROM等の、コンピュータで読み取り可能な記録媒体に格納して配布してもよく、あるいは、ネットワークを介して流通させてもよい。
本実施形態に係る音声対話プログラムは、コンピュータを、前記した制御部10の各部(各手段)として機能させたものである。音声対話プログラムは、例えばハードディスク、フレキシブルディスク、CD−ROM等の、コンピュータで読み取り可能な記録媒体に格納して配布してもよく、あるいは、ネットワークを介して流通させてもよい。
以上、本発明に係る音声対話装置、音声対話方法および音声対話プログラムについて、発明を実施するための形態により具体的に説明したが、本発明の趣旨はこれらの記載に限定されるものではなく、特許請求の範囲の記載に基づいて広く解釈されなければならない。また、これらの記載に基づいて種々変更、改変等したものも本発明の趣旨に含まれることはいうまでもない。
例えば、前記した図1では、音声対話装置1の構成要素が全て車両に搭載されている例について示したが、音声対話装置1の一部がサーバ4に置かれていてもよい。例えば、音声対話装置1におけるマイク30およびスピーカ40以外の構成が全てサーバ4内に配置されており、無線通信装置2を通じてサーバ4と通信を行うことにより、話者特定、対話コンテンツ制御、介入制御等を行ってもよい。
また、前記した図3では、第二話者としてドライバーのみを特定したが、ドライバーとともに同乗者を第二話者として特定してもよい。
また、前記した図7、図9、図11、図13〜図15では、第一〜第四介入制御の主体がドライバーである例について示したが、ドライバーではなく同乗者が第一〜第四介入制御の主体であってもよい。
また、音声対話装置1の話者特定部11は、話者特定の際に話者の年齢を尋ねることにより、子供(第一話者)と大人(第二話者)とを区別してもよい。
また、前記した実施形態では、音声対話装置1が車両に搭載されることを前提として説明を行ったが、例えば音声対話装置1が家庭内に設けられ、家庭内において家族と対話を交わすようなものであってもよい。
1 音声対話装置
2 無線通信装置
3 ナビゲーション装置
4 サーバ
10 制御部
11 話者特定部
12 対話コンテンツ制御部
13 介入制御部
20 記憶部
21 話者記憶部
22 対話コンテンツ記憶部
23 発話文章記憶部
2 無線通信装置
3 ナビゲーション装置
4 サーバ
10 制御部
11 話者特定部
12 対話コンテンツ制御部
13 介入制御部
20 記憶部
21 話者記憶部
22 対話コンテンツ記憶部
23 発話文章記憶部
Claims (8)
- 複数の話者から音声のデータを取得して前記音声を発した話者を特定し、
前記話者が主たる対話相手として設定された第一話者である場合、前記第一話者の音声のデータから発話内容を認識し、前記第一話者の発話内容に応じて発話文章のデータを生成して音声出力する処理を繰り返すことによって前記第一話者との対話を実行し、
前記第一話者との対話の実行中に、前記複数の話者のうち、従たる対話相手として設定された第二話者の音声を取得した場合に、前記第二話者の音声のデータから発話内容を認識し、前記第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定し、
前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の発話内容に基づいて、前記文脈を変化させる発話文章のデータを生成して音声出力する、
制御部を備える音声対話装置。 - 前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記第一話者に対して所定の働きかけを行うものである場合、前記働きかけの内容に応じた発話文章のデータを生成して音声出力する、
請求項1に記載の音声対話装置。 - 前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記第一話者との対話の主題の変更指示である場合、前記主題を変更する、
請求項1または請求項2に記載の音声対話装置。 - 前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記音声出力の音量の変更指示である場合、前記音声出力の音量を変更する、
請求項1から請求項3のいずれか一項に記載の音声対話装置。 - 前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記音声出力のタイミングの変更指示である場合、前記音声出力のタイミングを変更する、
請求項1から請求項4のいずれか一項に記載の音声対話装置。 - 前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の音声のデータから前記第二話者の口調を認識し、前記口調に合わせて、生成した発話文章のデータを音声出力する、
請求項1から請求項5のいずれか一項に記載の音声対話装置。 - 制御部が、複数の話者から音声のデータを取得して前記音声を発した話者を特定し、
前記制御部が、前記話者が主たる対話相手として設定された第一話者である場合、前記第一話者の音声のデータから発話内容を認識し、前記第一話者の発話内容に応じて発話文章のデータを生成して音声出力する処理を繰り返すことによって前記第一話者との対話を実行し、
前記制御部が、前記第一話者との対話の実行中に、前記複数の話者のうち、従たる対話相手として設定された第二話者の音声を取得した場合に、前記第二話者の音声のデータから発話内容を認識し、前記第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定し、
前記制御部が、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の発話内容に基づいて、前記文脈を変化させる発話文章のデータを生成して音声出力する、
音声対話方法。 - コンピュータを、
複数の話者から音声のデータを取得して前記音声を発した話者を特定する手段、
前記話者が主たる対話相手として設定された第一話者である場合、前記第一話者の音声のデータから発話内容を認識し、前記第一話者の発話内容に応じて発話文章のデータを生成して音声出力する処理を繰り返すことによって前記第一話者との対話を実行する手段、
前記第一話者との対話の実行中に、前記複数の話者のうち、従たる対話相手として設定された第二話者の音声を取得した場合に、前記第二話者の音声のデータから発話内容を認識し、前記第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定する手段、
前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の発話内容に基づいて、前記文脈を変化させる発話文章のデータを生成して音声出力する手段、
として機能させるための音声対話プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018167279A JP2020042074A (ja) | 2018-09-06 | 2018-09-06 | 音声対話装置、音声対話方法および音声対話プログラム |
US16/452,674 US20200082820A1 (en) | 2018-09-06 | 2019-06-26 | Voice interaction device, control method of voice interaction device, and non-transitory recording medium storing program |
CN201910590909.XA CN110880319A (zh) | 2018-09-06 | 2019-07-02 | 语音交互装置、语音交互装置的控制方法以及存储程序的非暂时性记录介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018167279A JP2020042074A (ja) | 2018-09-06 | 2018-09-06 | 音声対話装置、音声対話方法および音声対話プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020042074A true JP2020042074A (ja) | 2020-03-19 |
Family
ID=69719737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018167279A Ceased JP2020042074A (ja) | 2018-09-06 | 2018-09-06 | 音声対話装置、音声対話方法および音声対話プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200082820A1 (ja) |
JP (1) | JP2020042074A (ja) |
CN (1) | CN110880319A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7318587B2 (ja) * | 2020-05-18 | 2023-08-01 | トヨタ自動車株式会社 | エージェント制御装置 |
CN112017659A (zh) * | 2020-09-01 | 2020-12-01 | 北京百度网讯科技有限公司 | 多音区语音信号的处理方法、装置、设备以及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006154724A (ja) * | 2004-10-28 | 2006-06-15 | Fujitsu Ltd | 対話システム、対話方法、及びコンピュータプログラム |
JP2018036397A (ja) * | 2016-08-30 | 2018-03-08 | シャープ株式会社 | 応答システムおよび機器 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1604350A4 (en) * | 2002-09-06 | 2007-11-21 | Voice Signal Technologies Inc | METHODS, SYSTEMS AND PROGRAMMING FOR REALIZING VOICE RECOGNITION |
GB0714148D0 (en) * | 2007-07-19 | 2007-08-29 | Lipman Steven | interacting toys |
US9310881B2 (en) * | 2012-09-13 | 2016-04-12 | Intel Corporation | Methods and apparatus for facilitating multi-user computer interaction |
US9407751B2 (en) * | 2012-09-13 | 2016-08-02 | Intel Corporation | Methods and apparatus for improving user experience |
US10096316B2 (en) * | 2013-11-27 | 2018-10-09 | Sri International | Sharing intents to provide virtual assistance in a multi-person dialog |
US9646611B2 (en) * | 2014-11-06 | 2017-05-09 | Microsoft Technology Licensing, Llc | Context-based actions |
US9378467B1 (en) * | 2015-01-14 | 2016-06-28 | Microsoft Technology Licensing, Llc | User interaction pattern extraction for device personalization |
KR20170033722A (ko) * | 2015-09-17 | 2017-03-27 | 삼성전자주식회사 | 사용자의 발화 처리 장치 및 방법과, 음성 대화 관리 장치 |
US10032453B2 (en) * | 2016-05-06 | 2018-07-24 | GM Global Technology Operations LLC | System for providing occupant-specific acoustic functions in a vehicle of transportation |
US9947319B1 (en) * | 2016-09-27 | 2018-04-17 | Google Llc | Forming chatbot output based on user state |
US10074359B2 (en) * | 2016-11-01 | 2018-09-11 | Google Llc | Dynamic text-to-speech provisioning |
CN107239450B (zh) * | 2017-06-02 | 2021-11-23 | 上海对岸信息科技有限公司 | 基于交互上下文处理自然语言方法 |
-
2018
- 2018-09-06 JP JP2018167279A patent/JP2020042074A/ja not_active Ceased
-
2019
- 2019-06-26 US US16/452,674 patent/US20200082820A1/en not_active Abandoned
- 2019-07-02 CN CN201910590909.XA patent/CN110880319A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006154724A (ja) * | 2004-10-28 | 2006-06-15 | Fujitsu Ltd | 対話システム、対話方法、及びコンピュータプログラム |
JP2018036397A (ja) * | 2016-08-30 | 2018-03-08 | シャープ株式会社 | 応答システムおよび機器 |
Also Published As
Publication number | Publication date |
---|---|
US20200082820A1 (en) | 2020-03-12 |
CN110880319A (zh) | 2020-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10481858B2 (en) | Generating personalized audio content based on mood | |
JP6376096B2 (ja) | 対話装置及び対話方法 | |
JP5195405B2 (ja) | 応答生成装置及びプログラム | |
JP3945356B2 (ja) | 音声対話装置及びプログラム | |
US20160379643A1 (en) | Group Status Determining Device and Group Status Determining Method | |
JP6466385B2 (ja) | サービス提供装置、サービス提供方法およびサービス提供プログラム | |
JP7192222B2 (ja) | 発話システム | |
JP6202041B2 (ja) | 車両用音声対話システム | |
US11501768B2 (en) | Dialogue method, dialogue system, dialogue apparatus and program | |
JP6589514B2 (ja) | 対話装置及び対話制御方法 | |
JP2007226642A (ja) | 音声認識機器制御装置 | |
JP7103089B2 (ja) | 音声対話装置、音声対話方法および音声対話プログラム | |
KR20220140599A (ko) | 대화의 사람 참가자를 대신하여 생성된 합성 스피치 오디오 데이터 | |
JP2007232829A (ja) | 音声対話装置とその方法及びプログラム | |
CN109568973B (zh) | 对话装置、对话方法、服务器装置及计算机可读存储介质 | |
JP2020042074A (ja) | 音声対話装置、音声対話方法および音声対話プログラム | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP2018116206A (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
JP2007334251A (ja) | エージェント装置、プログラム、及び音声供給方法 | |
JP2019053785A (ja) | サービス提供装置 | |
CN113160824B (zh) | 信息处理系统 | |
JP2020199974A (ja) | 出力制御装置、出力制御方法および出力制御プログラム | |
JP2022054671A (ja) | 音声対話装置、音声対話システム、および、音声対話方法 | |
JP7336928B2 (ja) | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム | |
WO2020189340A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210219 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211012 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20220222 |