JP6658306B2 - 音声対話システムおよび発話タイミング決定方法 - Google Patents

音声対話システムおよび発話タイミング決定方法 Download PDF

Info

Publication number
JP6658306B2
JP6658306B2 JP2016106408A JP2016106408A JP6658306B2 JP 6658306 B2 JP6658306 B2 JP 6658306B2 JP 2016106408 A JP2016106408 A JP 2016106408A JP 2016106408 A JP2016106408 A JP 2016106408A JP 6658306 B2 JP6658306 B2 JP 6658306B2
Authority
JP
Japan
Prior art keywords
user
utterance
timing
inspiration
expiration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016106408A
Other languages
English (en)
Other versions
JP2017211596A (ja
Inventor
曜子 杉▲崎▼
曜子 杉▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2016106408A priority Critical patent/JP6658306B2/ja
Publication of JP2017211596A publication Critical patent/JP2017211596A/ja
Application granted granted Critical
Publication of JP6658306B2 publication Critical patent/JP6658306B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声対話システムに関し、特に、音声対話システムにおいて発話タイミングを決定する技術に関連する。
近年、話者(ユーザ)と音声対話を行うロボットシステムが普及している。音声対話においては、ユーザの発話を妨げずまた過大な間が空かないような適切なタイミングで、音声対話システムから発話を行うことが望まれる。
特許文献1は、ユーザの発話速度の変化に基づいて適切な間(ポーズ時間)を算出して、発話タイミングを決定することを開示する。具体的には、ユーザの発話速度が速いほど、ポーズ時間が短く決定される。
特開2012−128440号公報
しかしながら、特許文献1の構成では、ユーザの発話意図を妨害せずに音声対話システムの発話タイミングを適切に決定できるとは限らない。これは、引用文献1が確率論的アプローチを採用しているからであり、したがって、一定の確率で適切ではないタイミングで発話してしまうことが避けられないためである。
本発明は、音声対話システムにおいて適切な発話タイミングを決定することを目的とする。
本発明の一態様は、ユーザと対話を行う音声対話システムであって、
前記ユーザの口唇を含む画像を取得する画像取得手段と、
前記画像に基づいて、ユーザの呼吸における呼気と吸気を判定する呼吸状態判定手段と、
ユーザの呼吸が呼気から吸気に変わるタイミングに基づいて発話タイミングを決定する発話タイミング決定手段と、
を備えることを特徴とする。
話者が発話をしている最中は息を吐いており、発話が終了すると息を吸うことが一般的である。また、発話中に一時的に口をつぐむが発話を継続する場合には、息を止めたままであり吸わないことが一般的である。したがって、息を吐いている状態から息を吸う状態に変わるタイミングは、話者による発話の終了タイミングとみなせる。本開示において、呼気から吸気に変わるタイミングとは、呼気から無呼吸(息を止めている状態)を経由して吸気に変わるタイミングを含むものとする。
発話タイミング決定手段は、呼吸状態に基づくユーザの発話終了タイミングに基づいて、音声対話システムによる発話のタイミングを決定する。発話タイミング決定手段は、たとえば、ユーザの発話終了タイミングの所定時間後を発話タイミングとして決定できる。
このような構成によれば、ユーザの発話終了を適切に判断でき、したがってユーザの発話意図を妨害しないようにシステムの発話タイミング決定することができる。
本発明において、呼吸状態判定手段は、呼気動作中および吸気動作中における口唇形状の時系列パターンを記憶しており、前記動画像からユーザの口唇の形状の時間変化を取得し、前記時系列パターンとのマッチングにより、ユーザの呼吸における呼気と吸気を判定することができる。時系列パターンは、画像ベースのパターンであってもよいし、特徴量ベースのパターンであってもよい。
本発明において、画像取得手段は、ユーザの顔または身体を含む画像を撮影して、呼吸状態判定手段は、ユーザの顔または身体の状態の変化も考慮して、呼気と吸気のタイミングを判定してもよい。呼気動作中と吸気動作中において、ユーザの表情が変化したり、ユーザの身体の一部(たとえば、肩)の動きが変化したりする。したがって、口唇形状のみに基づいて呼吸状態を判定するよりも精度良く呼吸状態を判定できる。
本発明において、音声対話システムは、1台のコンピュータによって構成されてもよいし、互いに通信可能な複数のコンピュータによって構成されてもよい。たとえば、音声対話システムは、画像取得手段や音声出力手段を含むフロントエンド装置と、音声認識および発話タイミング決定を行う対話サーバと、画像認識により呼吸状態を判定する画像処理サーバとから構成することができる。これは構成の一例であり、その他の構成であっても構わない。
なお、本発明は、上記処理の少なくとも一部を実行する発話タイミング決定方法として捉えることもできる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本発明によれば、音声対話システムにおいて適切な発話タイミングを決定することができる。
実施形態に係る音声対話システムのシステム構成例を示す図。 実施形態における全体的な処理の流れを示すフローチャート。 実施形態における呼吸状態判定処理の流れを示すフローチャート。 実施形態における発話タイミング決定処理の流れを示すフローチャート。 実施形態における動作例を説明する図。
以下、図面を参照しながら本発明の例示的な実施形態を説明する。なお、以下の説明は本発明を例示的に説明するものであり、本発明は以下の実施形態に限定されるものではない。
<システム構成>
図1は、本実施形態にかかる音声対話システム1のシステム構成を示す図である。本実施形態にかかる音声対話システム1は、ユーザとのインタフェース(フロントエンド装置)となる対話ロボット100、ユーザ発話の理解および応答文の作成を行う対話サーバ200、画像処理を行う画像処理サーバ300を含んで構成される。対話ロボット100、対話サーバ200、および画像処理サーバ300は無線通信により互いに通信可能である
対話ロボット100に対して発せられたユーザの発話は対話サーバ200に送信され、対話サーバ200が発話内容を理解し応答文を作成する。また、対話ロボット100はユーザの顔画像を撮影し画像処理サーバ300に送信する。画像処理サーバ300は顔画像からユーザの呼吸状態を判定し判定結果を対話サーバ200に送信する。対話サーバ200は、ユーザの呼吸状態からユーザに対する発話(応答)のタイミングを決定する。
本実施形態では音声対話システム1の各機能を図1に示すように各サーバに分担して配置しているが、全ての機能を1台のコンピュータに搭載してもよいし、図1とは異なる態様で複数のコンピュータに搭載してもよい。
[対話ロボット]
対話ロボット100は、演算プロセッサ、記憶装置、カメラやマイクのような入力装置、スピーカーやディスプレイのような出力装置、通信装置を含むコンピュータを備える。対話ロボット100は、人間や動物を模した外観を持ち、関節部を動かすためのモータや制御装置を備えてもよい。
対話ロボット100は、演算プロセッサが記憶装置に記憶されたプログラムを実行することにより、画像入力部110、音声入力部120、音声合成・出力部130、コマンド送受信部140、通信部150として機能する。これらの機能部のうちの一部または全部は、専用のロジック回路により実現されても構わない。
画像入力部110は、カメラから動画像を取得する。カメラは、一般にユーザが対話ロボット100に対して音声入力を行う際に、ユーザの顔を撮影可能な構成で配置される。したがって、画像入力部110は、音声入力を行っているユーザの顔を含む画像を取得可能である。画像入力部110が取得した画像は、通信部150を介して画像処理サーバ300に送信される。この際、画像データをそのまま画像処理サーバ300に送信してもよいし、対話ロボット100が画像からユーザの顔(または口唇)の領域抽出や特徴量抽出を行い、抽出結果を画像処理サーバ300に送信してもよい。
音声入力部120は、1つまたは複数のマイクまたはマイクアレイから音声を取得する。音声入力部120によって取得された音声は、通信部150を介して対話サーバ200に送信される。この際、音声データをそのまま対話サーバ200に送信してもよいし、対話ロボット100が雑音除去・音源分離・発話特徴量抽出のような前処理を行ってから対話サーバ200に送信してもよい。
音声合成・出力部130は、対話サーバ200から送信される応答文(テキスト)を音声を合成処理により生成し、スピーカーから出力する。音声合成には既存の任意の技術、たとえば波形接続型音声合成やフォルマント合成を利用可能である。
コマンド送受信部140は、通信部150を介して対話サーバ200とのあいだで制御コマンドを送受信する。制御コマンドの一例は、対話サーバ200から送信される発話コマンドである。発話コマンドは、発話内容のテキストと発話タイミングを含む。
通信部150は、無線通信装置を介して対話サーバ200および画像処理サーバ300と無線通信を行う。通信部150は、無線LAN(IEEE802.11規格)、Bluetooth(商標)(IEEE802.15.1規格)のような既存の任意の無線通信方式を利用可能である。
[対話サーバ]
対話サーバ200は、演算プロセッサ、記憶装置、入力装置、出力装置、通信装置を含むコンピュータである。対話サーバ200は、演算プロセッサが記憶装置に記憶されたプログラムを実行することにより、音声認識部210、応答作成部220、情報記憶部230、発話タイミング決定部240、通信部250として機能する。これらの機能部のうちの一部または全部は、専用のロジック回路により実現されても構わない。
音声認識部210は、対話ロボット100から送信される音声データに対して雑音除去・音源分離・発話特徴量抽出の処理を行い、音響モデル・言語モデル・発話辞書を含む音声認識辞書を参照して、発話の内容をテキスト化する。音声認識部210は、既存の音声認識技術を用いて音声認識を行えばよい。音声認識部210は、認識したユーザの発話を応答作成部220に送信する。
応答作成部220は、音声認識部210から送信されるユーザ発話の意図を、情報記憶部230に格納されている語彙意図理解用辞書を参照して解釈し、所定の規則にしたがってユーザ発話に対する応答文のテキストを作成する。応答作成部220によって作成された応答文のテキストは通信部250を介して対話ロボット100に送信される。
情報記憶部230は、音声認識のための音声認識辞書、発話内容(意図)を理解するための語彙意図理解用辞書、応答文を作成するための規則および情報を格納したデータベースを記憶する。
発話タイミング決定部240は、画像処理サーバ300からユーザの呼吸状態の判定結果を取得し、このユーザの呼吸状態から対話ロボット100の発話タイミングを決定する。
詳細は後述するが、呼吸状態の判定結果は、息を吐いている(呼気)、または息を吸っている(吸気)のいずれかを表す。呼吸状態の判定結果は、呼気および吸気に加えて、息を止めている(無呼吸)を含んでもよい。
発話タイミング決定部240は、ユーザの呼吸が呼気から吸気に変わるタイミングをユーザの発話終了のタイミングとして検出し、ユーザの発話終了タイミングに所定の時間を加えたタイミングを対話ロボット100の発話タイミングとして決定する。呼吸が呼気から吸気に変わるタイミングとは、呼気から無呼吸を経由して吸気に変わるタイミングを含んでもよい。所定の時間はあらかじめ定められた時間であってもよいし、ユーザの発話速度や発話内容あるいは発話時のユーザの感情にしたがって動的に決定される時間であってもよい。発話タイミング決定部240によって決定された発話タイミングは、通信部250を介して対話ロボット100に送信される。
通信部250は、通信部150と同様に、無線通信装置を介して対話ロボット100および画像処理サーバ300と無線通信を行う。
[画像処理サーバ]
画像処理サーバ300は、演算プロセッサ、記憶装置、入力装置、出力装置、通信装置を含むコンピュータである。画像処理サーバ300は、演算プロセッサが記憶装置に記憶されたプログラムを実行することにより、呼吸状態判定部310および通信部350として機能する。これらの機能部のうちの一部または全部は、専用のロジック回路により実現されても構わない。
呼吸状態判定部310は、対話ロボット100から受信した動画像からユーザの口唇形
状の時系列変化を取得し、あらかじめパターン記憶部315に記憶している呼気および吸気時の時系列変化パターンと照合することにより、ユーザが息を吐いているのか吸っているのかを判定する。呼吸状態判定部310は、ユーザが息を吐いているのか吸っているのかに加えて、ユーザが息を止めていることを判定結果として含めてもよい。呼吸状態判定部310による判定結果は、通信部350を介して対話サーバ200に送信される。
通信部350は、通信部150、250と同様に、無線通信装置を介して対話ロボット100および対話サーバ200と無線通信を行う。
<処理フロー>
[全体処理]
図2は、音声対話システム1における全体的な処理の流れを示す図である。なお、図2は概要図であり、音声対話システム1における処理は図2とは異なる順序で実行されてもよいし、複数の処理が並行に実行されてもよい。
ステップS101において対話ロボット100がユーザの発話音声をマイク(音声入力部120)から取得し、ステップS102において対話サーバ200がこの音声を対話ロボット100から取得する。また、ステップS103において対話ロボットがユーザの画像をカメラ(画像入力部110)から取得し、ステップS104において画像処理サーバ300がこの画像を対話ロボットから取得する。なお、音声および画像の取得は、随時行われる。
ステップS105において、対話サーバ200の音声認識部210が、ユーザの発話音声から発話内容を認識する。ステップS106において、応答作成部220がユーザの発話に対する応答文のテキストを作成し、対話ロボット100に送信する。ステップS107において、対話ロボットが応答文のテキストを受信する。
ステップS108において、画像処理サーバ300の呼吸状態判定部310は、ユーザの画像からユーザの呼吸状態を判定する。ステップS108の処理の詳細は図3を参照して後ほど説明する。ステップS109において、画像処理サーバ300はユーザの呼吸状態の判定結果を、対話サーバ200に送信する。画像処理サーバ300における呼吸状態の判定および判定結果の対話サーバ200への送信は随時行われる。
ステップS110において、対話サーバ200の発話タイミング決定部240は、ユーザの呼吸状態の判定結果に基づいて、対話ロボット100の発話タイミングを決定する。ステップS110の処理の詳細は図4を参照して後ほど説明する。ステップS111において、発話タイミング決定部240は応答トリガを生成して対話ロボット100に送信する。
ステップS112において対話ロボット100が応答トリガを受信すると、ステップS113において、音声合成・出力部130が応答文のテキストから合成音声を生成して出力する。
[呼吸状態判定処理]
図3を参照して、画像処理サーバ300の呼吸状態判定部310が行う呼吸状態判定処理S108を説明する。
ステップS201において、呼吸状態判定部310は、画像からユーザの口唇形状を抽出する。対話ロボット100から送信される画像が動画像であるので、呼吸状態判定部310は、動画像を構成する各フレームからユーザの口唇形状を抽出する。口唇形状抽出で
は、まず、画像中の顔領域の中から口の位置が検出される。口領域の画像をそのまま口唇形状として利用してもよいし、口領域から取得される特徴量(たとえば、唇の幅や高さ、開口の幅や高さに基づく値)を口唇形状として利用してもよい。
ステップS202において、呼吸状態判定部310は、直近の所定フレームにおける口唇形状の時系列変化を、パターン記憶部315にあらかじめ格納した呼気および吸気の時系列変化パターンと照合する。照合結果が呼気のパターンと一致する場合は、呼吸状態判定部310は、ユーザが現在呼気動作中であると判定する(S204)。一方、照合結果が吸気のパターンと一致する場合は、呼吸状態判定部310は、ユーザが現在吸気動作中であると判定する(S205)。
このようにして、ユーザが現在息を吐いているのか吸っているのかを判定できる。なお、呼吸状態判定処理では、ユーザが息を吐いているのか吸っているのかに加えて、ユーザが息を止めていることを判定結果に含めてもよい。呼吸状態判定部310は、たとえば、ユーザの口唇形状の時系列変化が呼気および吸気の登録パターンのいずれとも一致しない場合や、登録済みの無呼吸時のパターンと一致している場合に、ユーザが息を止めていると判定することができる。
[発話タイミング決定処理]
図4を参照して、対話サーバ200の発話タイミング決定部240が行う発話タイミング決定処理S110を説明する。
ステップS301において、発話タイミング決定部240は、画像処理サーバ300から送信されるユーザの呼吸状態を取得し、記憶部に記憶する。これにより、発話タイミング決定部240はユーザの呼吸状態の履歴を把握可能となる。
ステップS302において、発話タイミング決定部240は、ユーザの呼吸状態が呼気から吸気に変化したか否かを判断する。呼吸状態の判定結果に無呼吸が含まれる場合、無呼吸動作中は直近の動作(呼気または吸気)が継続していると判断してよい。ユーザの呼吸状態が呼気から吸気に変化した場合(S302−YES)はステップS303に進み、そうでない場合(S302−NO)はステップS301に戻る。
ステップS303では、応答作成部220によって応答文がすでに作成されているか否かが判定される。この判定処理の理由は、応答文が作成されていない場合には応答する必要がない(応答できない)ためである。応答文が作成済みの場合(S303−YES)にはステップS304に進み、そうでない場合(S303−NO)にはステップS301に戻る。
ステップS304では、発話タイミング決定部240は、ユーザの呼吸状態が呼気から吸気に変化したタイミングに所定時間を足したタイミングを応答タイミングとして決定する。すなわち、ユーザの呼吸状態が呼気から吸気に変わったタイミングをユーザの発話終了タイミングとみなし、発話終了タイミングに所定時間を足した時間を対話ロボット100の発話タイミングとして決定する。ここで所定時間は、あらかじめ定められた時間であってもよいし、ユーザの発話速度や発話内容あるいは発話時のユーザの感情にしたがって動的に決定される時間であってもよい。
一般に人間が発話を終了する際には呼気から吸気に呼吸動作が変化するので、上記の処理によってユーザが発話の終了を意図していることを精度良く判断できる。したがって、対話ロボット100による発話のタイミングを適切に決定することができる。
<動作例>
図5を参照して、音声対話システム1における動作の例を説明する。図中の上段はユーザの発話の音量レベル(音声の有無)を示し、中段は呼吸状態判定部310による呼吸状態の判定結果を示し、下段は制御のタイミングを示す。
時刻T1においてユーザが発話を開始するので、音声の入力があり、呼吸状態は呼気と判断される。時刻T2においてユーザは、発話を継続する意図はあるが、一時的に口をつぐむ。したがって、時刻T2では音量レベルはゼロになる。ユーザが発話の継続を意図する場合は、息を吸わないことが一般的である。したがって、呼吸状態は無呼吸であると判断される。時刻T3においてユーザが発話を継続するので、再び音声の入力があり呼吸状態が呼気と判断される。
時刻T4においてユーザが発話を終了する。したがって、時刻T4では音声レベルはゼロになる。発話終了後は息を吸うのが一般的であるので、時刻T4の直後の時刻T5に呼吸状態が吸気に変化する。この時点で、対話サーバ200はユーザの発話が終了したことを検知し、時刻T5に所定時間(図ではAとして表す)を足した時刻T6を対話ロボット100による発話タイミングとして決定する。
<実施形態の有利な効果>
本実施形態に係る音声対話システムでは、画像から得られるユーザの呼吸情報を用いて、対話ロボットの発話タイミングを決定している。呼吸状態の変化からユーザの発話終了意図を的確に判断できるので、ユーザの発話を妨害しないように適切に対話ロボットの発話タイミングを決定することができる。
<変形例>
[呼吸状態判定の変形]
上記の説明では、ユーザの呼吸状態を口唇形状の時間変化から判定しているが、その他の情報を用いてユーザの呼吸状態を判定することもできる。たとえば、対話ロボット100のカメラがユーザの身体を含む画像を取得しているときには、口唇以外の部分の時間変化に基づいて呼吸状態を判定することもできる。具体的には、ユーザの肩の上がり下がりや胸部あるいは腹部の膨らみなどに基づいて呼吸状態を判定することができる。また、口唇以外の顔のパーツの形状変化に基づいて呼吸状態を判定してもよい。いずれの場合も口唇形状を利用するときと同様に、呼気動作中と吸気動作中の時系列変化パターンをあらかじめ登録しておき、検出された時系列変化と照合することにより呼吸状態を判定できる。
また、画像から得られる情報以外の情報を考慮してユーザの呼吸状態を判定してもよい。たとえば、赤外線や電波をユーザに照射しその反射波を解析することで、ユーザの胸部または腹部の膨らみを検出し、この情報に基づいて呼吸状態を判定してもよい。
また、脈拍情報を利用して呼吸状態を判定してもよい。対話ロボット100が手乗り型であれば、対話ロボット100の備える接触センサからユーザの脈拍(心拍)情報を取得することができる。また、音声対話システムが車両内で利用される場合、車両のハンドルに接触センサを設け、この接触センサから得られる脈拍情報を音声対話システムで使用することができる。接触センサを用いる以外にも、顔画像における顔色の変化から脈拍を取得することもできる。
[発話タイミング決定の変形]
上記の説明では、ユーザの発話終了の検出を呼吸状態の変化のみに基づいて行っている。しかしながら、その他の情報を用いてユーザの発話終了を検出してもよい。たとえば、ユーザの発話内容から、ユーザの発話が継続するか終了したかを判断してもよい。
また、上記の説明では呼吸状態の変化に基づいて決定される発話タイミングにおいて対話ロボット100からの発話が行われるように説明している。しかしながら、対話ロボット100が発話開始のトリガ通知を受信してから実際に発話を開始するまでのあいだにユーザの発話を検出した場合には、発話を行わないようにすることが望ましい。このようにすれば、ユーザが発話の途中で息継ぎをするときでも、発話の妨害を抑制できる。
また、上記の説明では、対話サーバ200は応答文の内容(テキスト)と応答トリガとを別々に対話ロボット100に送っているが、応答タイミングが決定した時点で応答文の内容と応答トリガ(応答タイミング)とをまとめて対話ロボット100に送信してもよい。
[構成の変形]
上記の説明では、音声対話システムとして対話ロボットを備える構成を例示したが、音声対話システムは必ずしも人間や動物を模したロボットを備える必要はない。本発明は、ユーザとコンピュータのあいだで音声対話を行う任意のシステムに対して適用可能である。本発明が提供可能な音声対話システムの一例として、車両内で運転者からの音声入力を受け付ける音声対話システム、スマートフォンのような携帯端末における音声対話システムが挙げられる。
上記の説明では、音声対話システムを複数のコンピュータで構成する例を示したが、1台のコンピュータのみで音声対話システムを構成してもよいし、任意台数のコンピュータのあいだで適宜に機能を分担して音声対話システムを構成してもよい。
1:音声対話システム
100:対話ロボット
110:画像入力部
120:音声入力部
130:音声合成・出力部
140:コマンド送受信部
150:通信部
200:対話サーバ
210:音声認識部
220:応答作成部
230:情報記憶部
240:発話タイミング決定部
250:通信部
300:画像処理サーバ
310:呼吸状態判定部
350:通信部

Claims (4)

  1. ユーザと対話を行う音声対話システムであって、
    前記ユーザの口唇を含む動画像を取得する画像取得手段と、
    前記動画像に基づいて、ユーザの呼吸における呼気と吸気を判定する呼吸状態判定手段と、
    ユーザの呼吸が呼気から吸気に変わるタイミングに基づいて発話タイミングを決定する発話タイミング決定手段と、
    を備え
    前記呼吸状態判定手段は、呼気動作中および吸気動作中における口唇形状の時系列パターンを記憶しており、前記動画像からユーザの口唇の形状の時間変化を取得し、前記時系列パターンとのマッチングにより、ユーザの呼吸における呼気と吸気を判定する、
    音声対話システム。
  2. 前記発話タイミング決定手段は、ユーザの呼吸が呼気から吸気に変わるタイミングに所定時間を足したタイミングを発話タイミングとして決定する、
    請求項1に記載の音声対話システム。
  3. ユーザと対話を行う音声対話システムにおける発話タイミング決定方法であって、
    前記ユーザの口唇を含む動画像を取得する画像取得ステップと、
    前記動画像に基づいて、ユーザの呼吸における呼気と吸気を判定する呼吸状態判定ステップと、
    ユーザの呼吸が呼気から吸気に変わるタイミングに基づいて発話タイミングを決定する発話タイミング決定ステップと、
    を音声対話システムが実行し
    前記呼吸状態判定ステップにおいて、前記動画像からユーザの口唇の形状の時間変化を取得し、呼気動作中および吸気動作中における口唇形状の時系列パターンとのマッチングにより、ユーザの呼吸における呼気と吸気を判定すること、
    を特徴とする発話タイミング決定方法。
  4. 請求項に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
JP2016106408A 2016-05-27 2016-05-27 音声対話システムおよび発話タイミング決定方法 Active JP6658306B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016106408A JP6658306B2 (ja) 2016-05-27 2016-05-27 音声対話システムおよび発話タイミング決定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016106408A JP6658306B2 (ja) 2016-05-27 2016-05-27 音声対話システムおよび発話タイミング決定方法

Publications (2)

Publication Number Publication Date
JP2017211596A JP2017211596A (ja) 2017-11-30
JP6658306B2 true JP6658306B2 (ja) 2020-03-04

Family

ID=60476242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016106408A Active JP6658306B2 (ja) 2016-05-27 2016-05-27 音声対話システムおよび発話タイミング決定方法

Country Status (1)

Country Link
JP (1) JP6658306B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7351105B2 (ja) * 2018-06-21 2023-09-27 カシオ計算機株式会社 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット
US10997979B2 (en) * 2018-06-21 2021-05-04 Casio Computer Co., Ltd. Voice recognition device and voice recognition method
CN109166575A (zh) * 2018-07-27 2019-01-08 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、智能设备和存储介质
JP7085500B2 (ja) * 2019-02-13 2022-06-16 ヤフー株式会社 音声処理装置、音声処理方法および音声処理プログラム
EP3956883A4 (en) 2019-04-19 2022-12-21 Magic Leap, Inc. VOICE RECOGNITION ENGINE INPUT IDENTIFICATION
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
JPWO2021153214A1 (ja) 2020-01-31 2021-08-05
EP4099318A4 (en) * 2020-01-31 2023-05-10 Sony Group Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US20230064042A1 (en) 2020-01-31 2023-03-02 Sony Group Corporation Information processing apparatus and information processing method
WO2022249362A1 (ja) * 2021-05-26 2022-12-01 株式会社KPMG Ignition Tokyo テキストを合成音声に変換する音声合成

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3844874B2 (ja) * 1998-02-27 2006-11-15 株式会社東芝 マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP2011013731A (ja) * 2009-06-30 2011-01-20 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP6442942B2 (ja) * 2014-09-11 2018-12-26 株式会社デンソー ドライバ状態判定装置
JP6402554B2 (ja) * 2014-09-19 2018-10-10 アイシン精機株式会社 車両用の情報出力制御装置

Also Published As

Publication number Publication date
JP2017211596A (ja) 2017-11-30

Similar Documents

Publication Publication Date Title
JP6658306B2 (ja) 音声対話システムおよび発話タイミング決定方法
JP6465077B2 (ja) 音声対話装置および音声対話方法
JP6520878B2 (ja) 音声取得システムおよび音声取得方法
US20190172448A1 (en) Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US9031293B2 (en) Multi-modal sensor based emotion recognition and emotional interface
US20160379633A1 (en) Speech-Controlled Actions Based on Keywords and Context Thereof
CN111475206B (zh) 用于唤醒可穿戴设备的方法及装置
JP5332798B2 (ja) 通信制御装置、通信制御方法、及び通信制御プログラム
JP2003255991A (ja) 対話制御システム、対話制御方法及びロボット装置
JP3844874B2 (ja) マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP4250340B2 (ja) 仮想ペット装置及びその制御プログラム記録媒体
KR101598955B1 (ko) 언어 치료용 게임 장치 및 게임 방법
JP7205533B2 (ja) 情報処理装置及び情報処理方法、並びにロボット装置
JP2006123136A (ja) コミュニケーションロボット
CN110634505B (zh) 声音期间检测装置、声音期间检测方法、存储介质、声音认识装置以及机器人
US20230386461A1 (en) Voice user interface using non-linguistic input
JP2020057300A (ja) 識別装置、ロボット、識別方法及びプログラム
JP2007155986A (ja) 音声認識装置および音声認識装置を備えたロボット
EP4033775A2 (en) Smart mask and smart mask system
JP7323475B2 (ja) 情報処理装置および行動モード設定方法
JP2007156688A (ja) ユーザ認証装置およびその方法
JP6445473B2 (ja) 会話支援システム、会話支援装置及び会話支援プログラム
JP2018149625A (ja) コミュニケーションロボット、プログラム及びシステム
JP2017121680A (ja) 発話制御システム、発話制御装置及び発話制御プログラム
JP6502865B2 (ja) 会話支援システム、会話支援装置及び会話支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200120

R151 Written notification of patent or utility model registration

Ref document number: 6658306

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151