JP2017211596A

JP2017211596A - 音声対話システムおよび発話タイミング決定方法

Info

Publication number: JP2017211596A
Application number: JP2016106408A
Authority: JP
Inventors: 曜子杉▲崎▼; Yoko Sugizaki
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2017-11-30
Anticipated expiration: 2036-05-27
Also published as: JP6658306B2

Abstract

【課題】音声対話システムにおいて適切な発話タイミングを決定する。【解決手段】ユーザと対話を行う音声対話システムは、前記ユーザの口唇を含む画像を取得する画像取得手段と、前記画像に基づいて、ユーザの呼吸における呼気と吸気を判定する呼吸状態判定手段と、ユーザの呼吸が呼気から吸気に変わるタイミングに基づいて発話タイミングを決定する発話タイミング決定手段と、を備える。呼吸状態判定手段は、呼気動作中および吸気動作中における口唇形状の時系列パターンを記憶しており、当該時系列パターンとのマッチングにより、ユーザの呼吸における呼気と吸気を判定することが好ましい。発話タイミングはユーザの呼吸が呼気から吸気に変わるタイミングに所定時間を足したタイミングとすることが好ましい。【選択図】図２

Description

本発明は、音声対話システムに関し、特に、音声対話システムにおいて発話タイミングを決定する技術に関連する。

近年、話者（ユーザ）と音声対話を行うロボットシステムが普及している。音声対話においては、ユーザの発話を妨げずまた過大な間が空かないような適切なタイミングで、音声対話システムから発話を行うことが望まれる。

特許文献１は、ユーザの発話速度の変化に基づいて適切な間（ポーズ時間）を算出して、発話タイミングを決定することを開示する。具体的には、ユーザの発話速度が速いほど、ポーズ時間が短く決定される。

特開２０１２−１２８４４０号公報

しかしながら、特許文献１の構成では、ユーザの発話意図を妨害せずに音声対話システムの発話タイミングを適切に決定できるとは限らない。これは、引用文献１が確率論的アプローチを採用しているからであり、したがって、一定の確率で適切ではないタイミングで発話してしまうことが避けられないためである。

本発明は、音声対話システムにおいて適切な発話タイミングを決定することを目的とする。

本発明の一態様は、ユーザと対話を行う音声対話システムであって、
前記ユーザの口唇を含む画像を取得する画像取得手段と、
前記画像に基づいて、ユーザの呼吸における呼気と吸気を判定する呼吸状態判定手段と、
ユーザの呼吸が呼気から吸気に変わるタイミングに基づいて発話タイミングを決定する発話タイミング決定手段と、
を備えることを特徴とする。

話者が発話をしている最中は息を吐いており、発話が終了すると息を吸うことが一般的である。また、発話中に一時的に口をつぐむが発話を継続する場合には、息を止めたままであり吸わないことが一般的である。したがって、息を吐いている状態から息を吸う状態に変わるタイミングは、話者による発話の終了タイミングとみなせる。本開示において、呼気から吸気に変わるタイミングとは、呼気から無呼吸（息を止めている状態）を経由して吸気に変わるタイミングを含むものとする。

発話タイミング決定手段は、呼吸状態に基づくユーザの発話終了タイミングに基づいて、音声対話システムによる発話のタイミングを決定する。発話タイミング決定手段は、たとえば、ユーザの発話終了タイミングの所定時間後を発話タイミングとして決定できる。

このような構成によれば、ユーザの発話終了を適切に判断でき、したがってユーザの発話意図を妨害しないようにシステムの発話タイミング決定することができる。

本発明において、呼吸状態判定手段は、呼気動作中および吸気動作中における口唇形状の時系列パターンを記憶しており、前記動画像からユーザの口唇の形状の時間変化を取得し、前記時系列パターンとのマッチングにより、ユーザの呼吸における呼気と吸気を判定することができる。時系列パターンは、画像ベースのパターンであってもよいし、特徴量ベースのパターンであってもよい。

本発明において、画像取得手段は、ユーザの顔または身体を含む画像を撮影して、呼吸状態判定手段は、ユーザの顔または身体の状態の変化も考慮して、呼気と吸気のタイミングを判定してもよい。呼気動作中と吸気動作中において、ユーザの表情が変化したり、ユーザの身体の一部（たとえば、肩）の動きが変化したりする。したがって、口唇形状のみに基づいて呼吸状態を判定するよりも精度良く呼吸状態を判定できる。

本発明において、音声対話システムは、１台のコンピュータによって構成されてもよいし、互いに通信可能な複数のコンピュータによって構成されてもよい。たとえば、音声対話システムは、画像取得手段や音声出力手段を含むフロントエンド装置と、音声認識および発話タイミング決定を行う対話サーバと、画像認識により呼吸状態を判定する画像処理サーバとから構成することができる。これは構成の一例であり、その他の構成であっても構わない。

なお、本発明は、上記処理の少なくとも一部を実行する発話タイミング決定方法として捉えることもできる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

本発明によれば、音声対話システムにおいて適切な発話タイミングを決定することができる。

実施形態に係る音声対話システムのシステム構成例を示す図。実施形態における全体的な処理の流れを示すフローチャート。実施形態における呼吸状態判定処理の流れを示すフローチャート。実施形態における発話タイミング決定処理の流れを示すフローチャート。実施形態における動作例を説明する図。

以下、図面を参照しながら本発明の例示的な実施形態を説明する。なお、以下の説明は本発明を例示的に説明するものであり、本発明は以下の実施形態に限定されるものではない。

＜システム構成＞
図１は、本実施形態にかかる音声対話システム１のシステム構成を示す図である。本実施形態にかかる音声対話システム１は、ユーザとのインタフェース（フロントエンド装置）となる対話ロボット１００、ユーザ発話の理解および応答文の作成を行う対話サーバ２００、画像処理を行う画像処理サーバ３００を含んで構成される。対話ロボット１００、対話サーバ２００、および画像処理サーバ３００は無線通信により互いに通信可能である
。

対話ロボット１００に対して発せられたユーザの発話は対話サーバ２００に送信され、対話サーバ２００が発話内容を理解し応答文を作成する。また、対話ロボット１００はユーザの顔画像を撮影し画像処理サーバ３００に送信する。画像処理サーバ３００は顔画像からユーザの呼吸状態を判定し判定結果を対話サーバ２００に送信する。対話サーバ２００は、ユーザの呼吸状態からユーザに対する発話（応答）のタイミングを決定する。

本実施形態では音声対話システム１の各機能を図１に示すように各サーバに分担して配置しているが、全ての機能を１台のコンピュータに搭載してもよいし、図１とは異なる態様で複数のコンピュータに搭載してもよい。

［対話ロボット］
対話ロボット１００は、演算プロセッサ、記憶装置、カメラやマイクのような入力装置、スピーカーやディスプレイのような出力装置、通信装置を含むコンピュータを備える。対話ロボット１００は、人間や動物を模した外観を持ち、関節部を動かすためのモータや制御装置を備えてもよい。

対話ロボット１００は、演算プロセッサが記憶装置に記憶されたプログラムを実行することにより、画像入力部１１０、音声入力部１２０、音声合成・出力部１３０、コマンド送受信部１４０、通信部１５０として機能する。これらの機能部のうちの一部または全部は、専用のロジック回路により実現されても構わない。

画像入力部１１０は、カメラから動画像を取得する。カメラは、一般にユーザが対話ロボット１００に対して音声入力を行う際に、ユーザの顔を撮影可能な構成で配置される。したがって、画像入力部１１０は、音声入力を行っているユーザの顔を含む画像を取得可能である。画像入力部１１０が取得した画像は、通信部１５０を介して画像処理サーバ３００に送信される。この際、画像データをそのまま画像処理サーバ３００に送信してもよいし、対話ロボット１００が画像からユーザの顔（または口唇）の領域抽出や特徴量抽出を行い、抽出結果を画像処理サーバ３００に送信してもよい。

音声入力部１２０は、１つまたは複数のマイクまたはマイクアレイから音声を取得する。音声入力部１２０によって取得された音声は、通信部１５０を介して対話サーバ２００に送信される。この際、音声データをそのまま対話サーバ２００に送信してもよいし、対話ロボット１００が雑音除去・音源分離・発話特徴量抽出のような前処理を行ってから対話サーバ２００に送信してもよい。

音声合成・出力部１３０は、対話サーバ２００から送信される応答文（テキスト）を音声を合成処理により生成し、スピーカーから出力する。音声合成には既存の任意の技術、たとえば波形接続型音声合成やフォルマント合成を利用可能である。

コマンド送受信部１４０は、通信部１５０を介して対話サーバ２００とのあいだで制御コマンドを送受信する。制御コマンドの一例は、対話サーバ２００から送信される発話コマンドである。発話コマンドは、発話内容のテキストと発話タイミングを含む。

通信部１５０は、無線通信装置を介して対話サーバ２００および画像処理サーバ３００と無線通信を行う。通信部１５０は、無線ＬＡＮ（ＩＥＥＥ８０２．１１規格）、Ｂｌｕｅｔｏｏｔｈ（商標）（ＩＥＥＥ８０２．１５．１規格）のような既存の任意の無線通信方式を利用可能である。

［対話サーバ］
対話サーバ２００は、演算プロセッサ、記憶装置、入力装置、出力装置、通信装置を含むコンピュータである。対話サーバ２００は、演算プロセッサが記憶装置に記憶されたプログラムを実行することにより、音声認識部２１０、応答作成部２２０、情報記憶部２３０、発話タイミング決定部２４０、通信部２５０として機能する。これらの機能部のうちの一部または全部は、専用のロジック回路により実現されても構わない。

音声認識部２１０は、対話ロボット１００から送信される音声データに対して雑音除去・音源分離・発話特徴量抽出の処理を行い、音響モデル・言語モデル・発話辞書を含む音声認識辞書を参照して、発話の内容をテキスト化する。音声認識部２１０は、既存の音声認識技術を用いて音声認識を行えばよい。音声認識部２１０は、認識したユーザの発話を応答作成部２２０に送信する。

応答作成部２２０は、音声認識部２１０から送信されるユーザ発話の意図を、情報記憶部２３０に格納されている語彙意図理解用辞書を参照して解釈し、所定の規則にしたがってユーザ発話に対する応答文のテキストを作成する。応答作成部２２０によって作成された応答文のテキストは通信部２５０を介して対話ロボット１００に送信される。

情報記憶部２３０は、音声認識のための音声認識辞書、発話内容（意図）を理解するための語彙意図理解用辞書、応答文を作成するための規則および情報を格納したデータベースを記憶する。

発話タイミング決定部２４０は、画像処理サーバ３００からユーザの呼吸状態の判定結果を取得し、このユーザの呼吸状態から対話ロボット１００の発話タイミングを決定する。

詳細は後述するが、呼吸状態の判定結果は、息を吐いている（呼気）、または息を吸っている（吸気）のいずれかを表す。呼吸状態の判定結果は、呼気および吸気に加えて、息を止めている（無呼吸）を含んでもよい。

発話タイミング決定部２４０は、ユーザの呼吸が呼気から吸気に変わるタイミングをユーザの発話終了のタイミングとして検出し、ユーザの発話終了タイミングに所定の時間を加えたタイミングを対話ロボット１００の発話タイミングとして決定する。呼吸が呼気から吸気に変わるタイミングとは、呼気から無呼吸を経由して吸気に変わるタイミングを含んでもよい。所定の時間はあらかじめ定められた時間であってもよいし、ユーザの発話速度や発話内容あるいは発話時のユーザの感情にしたがって動的に決定される時間であってもよい。発話タイミング決定部２４０によって決定された発話タイミングは、通信部２５０を介して対話ロボット１００に送信される。

通信部２５０は、通信部１５０と同様に、無線通信装置を介して対話ロボット１００および画像処理サーバ３００と無線通信を行う。

［画像処理サーバ］
画像処理サーバ３００は、演算プロセッサ、記憶装置、入力装置、出力装置、通信装置を含むコンピュータである。画像処理サーバ３００は、演算プロセッサが記憶装置に記憶されたプログラムを実行することにより、呼吸状態判定部３１０および通信部３５０として機能する。これらの機能部のうちの一部または全部は、専用のロジック回路により実現されても構わない。

呼吸状態判定部３１０は、対話ロボット１００から受信した動画像からユーザの口唇形
状の時系列変化を取得し、あらかじめパターン記憶部３１５に記憶している呼気および吸気時の時系列変化パターンと照合することにより、ユーザが息を吐いているのか吸っているのかを判定する。呼吸状態判定部３１０は、ユーザが息を吐いているのか吸っているのかに加えて、ユーザが息を止めていることを判定結果として含めてもよい。呼吸状態判定部３１０による判定結果は、通信部３５０を介して対話サーバ２００に送信される。

通信部３５０は、通信部１５０、２５０と同様に、無線通信装置を介して対話ロボット１００および対話サーバ２００と無線通信を行う。

＜処理フロー＞
［全体処理］
図２は、音声対話システム１における全体的な処理の流れを示す図である。なお、図２は概要図であり、音声対話システム１における処理は図２とは異なる順序で実行されてもよいし、複数の処理が並行に実行されてもよい。

ステップＳ１０１において対話ロボット１００がユーザの発話音声をマイク（音声入力部１２０）から取得し、ステップＳ１０２において対話サーバ２００がこの音声を対話ロボット１００から取得する。また、ステップＳ１０３において対話ロボットがユーザの画像をカメラ（画像入力部１１０）から取得し、ステップＳ１０４において画像処理サーバ３００がこの画像を対話ロボットから取得する。なお、音声および画像の取得は、随時行われる。

ステップＳ１０５において、対話サーバ２００の音声認識部２１０が、ユーザの発話音声から発話内容を認識する。ステップＳ１０６において、応答作成部２２０がユーザの発話に対する応答文のテキストを作成し、対話ロボット１００に送信する。ステップＳ１０７において、対話ロボットが応答文のテキストを受信する。

ステップＳ１０８において、画像処理サーバ３００の呼吸状態判定部３１０は、ユーザの画像からユーザの呼吸状態を判定する。ステップＳ１０８の処理の詳細は図３を参照して後ほど説明する。ステップＳ１０９において、画像処理サーバ３００はユーザの呼吸状態の判定結果を、対話サーバ２００に送信する。画像処理サーバ３００における呼吸状態の判定および判定結果の対話サーバ２００への送信は随時行われる。

ステップＳ１１０において、対話サーバ２００の発話タイミング決定部２４０は、ユーザの呼吸状態の判定結果に基づいて、対話ロボット１００の発話タイミングを決定する。ステップＳ１１０の処理の詳細は図４を参照して後ほど説明する。ステップＳ１１１において、発話タイミング決定部２４０は応答トリガを生成して対話ロボット１００に送信する。

ステップＳ１１２において対話ロボット１００が応答トリガを受信すると、ステップＳ１１３において、音声合成・出力部１３０が応答文のテキストから合成音声を生成して出力する。

［呼吸状態判定処理］
図３を参照して、画像処理サーバ３００の呼吸状態判定部３１０が行う呼吸状態判定処理Ｓ１０８を説明する。

ステップＳ２０１において、呼吸状態判定部３１０は、画像からユーザの口唇形状を抽出する。対話ロボット１００から送信される画像が動画像であるので、呼吸状態判定部３１０は、動画像を構成する各フレームからユーザの口唇形状を抽出する。口唇形状抽出で
は、まず、画像中の顔領域の中から口の位置が検出される。口領域の画像をそのまま口唇形状として利用してもよいし、口領域から取得される特徴量（たとえば、唇の幅や高さ、開口の幅や高さに基づく値）を口唇形状として利用してもよい。

ステップＳ２０２において、呼吸状態判定部３１０は、直近の所定フレームにおける口唇形状の時系列変化を、パターン記憶部３１５にあらかじめ格納した呼気および吸気の時系列変化パターンと照合する。照合結果が呼気のパターンと一致する場合は、呼吸状態判定部３１０は、ユーザが現在呼気動作中であると判定する（Ｓ２０４）。一方、照合結果が吸気のパターンと一致する場合は、呼吸状態判定部３１０は、ユーザが現在吸気動作中であると判定する（Ｓ２０５）。

このようにして、ユーザが現在息を吐いているのか吸っているのかを判定できる。なお、呼吸状態判定処理では、ユーザが息を吐いているのか吸っているのかに加えて、ユーザが息を止めていることを判定結果に含めてもよい。呼吸状態判定部３１０は、たとえば、ユーザの口唇形状の時系列変化が呼気および吸気の登録パターンのいずれとも一致しない場合や、登録済みの無呼吸時のパターンと一致している場合に、ユーザが息を止めていると判定することができる。

［発話タイミング決定処理］
図４を参照して、対話サーバ２００の発話タイミング決定部２４０が行う発話タイミング決定処理Ｓ１１０を説明する。

ステップＳ３０１において、発話タイミング決定部２４０は、画像処理サーバ３００から送信されるユーザの呼吸状態を取得し、記憶部に記憶する。これにより、発話タイミング決定部２４０はユーザの呼吸状態の履歴を把握可能となる。

ステップＳ３０２において、発話タイミング決定部２４０は、ユーザの呼吸状態が呼気から吸気に変化したか否かを判断する。呼吸状態の判定結果に無呼吸が含まれる場合、無呼吸動作中は直近の動作（呼気または吸気）が継続していると判断してよい。ユーザの呼吸状態が呼気から吸気に変化した場合（Ｓ３０２−ＹＥＳ）はステップＳ３０３に進み、そうでない場合（Ｓ３０２−ＮＯ）はステップＳ３０１に戻る。

ステップＳ３０３では、応答作成部２２０によって応答文がすでに作成されているか否かが判定される。この判定処理の理由は、応答文が作成されていない場合には応答する必要がない（応答できない）ためである。応答文が作成済みの場合（Ｓ３０３−ＹＥＳ）にはステップＳ３０４に進み、そうでない場合（Ｓ３０３−ＮＯ）にはステップＳ３０１に戻る。

ステップＳ３０４では、発話タイミング決定部２４０は、ユーザの呼吸状態が呼気から吸気に変化したタイミングに所定時間を足したタイミングを応答タイミングとして決定する。すなわち、ユーザの呼吸状態が呼気から吸気に変わったタイミングをユーザの発話終了タイミングとみなし、発話終了タイミングに所定時間を足した時間を対話ロボット１００の発話タイミングとして決定する。ここで所定時間は、あらかじめ定められた時間であってもよいし、ユーザの発話速度や発話内容あるいは発話時のユーザの感情にしたがって動的に決定される時間であってもよい。

一般に人間が発話を終了する際には呼気から吸気に呼吸動作が変化するので、上記の処理によってユーザが発話の終了を意図していることを精度良く判断できる。したがって、対話ロボット１００による発話のタイミングを適切に決定することができる。

＜動作例＞
図５を参照して、音声対話システム１における動作の例を説明する。図中の上段はユーザの発話の音量レベル（音声の有無）を示し、中段は呼吸状態判定部３１０による呼吸状態の判定結果を示し、下段は制御のタイミングを示す。

時刻Ｔ１においてユーザが発話を開始するので、音声の入力があり、呼吸状態は呼気と判断される。時刻Ｔ２においてユーザは、発話を継続する意図はあるが、一時的に口をつぐむ。したがって、時刻Ｔ２では音量レベルはゼロになる。ユーザが発話の継続を意図する場合は、息を吸わないことが一般的である。したがって、呼吸状態は無呼吸であると判断される。時刻Ｔ３においてユーザが発話を継続するので、再び音声の入力があり呼吸状態が呼気と判断される。

時刻Ｔ４においてユーザが発話を終了する。したがって、時刻Ｔ４では音声レベルはゼロになる。発話終了後は息を吸うのが一般的であるので、時刻Ｔ４の直後の時刻Ｔ５に呼吸状態が吸気に変化する。この時点で、対話サーバ２００はユーザの発話が終了したことを検知し、時刻Ｔ５に所定時間（図ではＡとして表す）を足した時刻Ｔ６を対話ロボット１００による発話タイミングとして決定する。

＜実施形態の有利な効果＞
本実施形態に係る音声対話システムでは、画像から得られるユーザの呼吸情報を用いて、対話ロボットの発話タイミングを決定している。呼吸状態の変化からユーザの発話終了意図を的確に判断できるので、ユーザの発話を妨害しないように適切に対話ロボットの発話タイミングを決定することができる。

＜変形例＞
［呼吸状態判定の変形］
上記の説明では、ユーザの呼吸状態を口唇形状の時間変化から判定しているが、その他の情報を用いてユーザの呼吸状態を判定することもできる。たとえば、対話ロボット１００のカメラがユーザの身体を含む画像を取得しているときには、口唇以外の部分の時間変化に基づいて呼吸状態を判定することもできる。具体的には、ユーザの肩の上がり下がりや胸部あるいは腹部の膨らみなどに基づいて呼吸状態を判定することができる。また、口唇以外の顔のパーツの形状変化に基づいて呼吸状態を判定してもよい。いずれの場合も口唇形状を利用するときと同様に、呼気動作中と吸気動作中の時系列変化パターンをあらかじめ登録しておき、検出された時系列変化と照合することにより呼吸状態を判定できる。

また、画像から得られる情報以外の情報を考慮してユーザの呼吸状態を判定してもよい。たとえば、赤外線や電波をユーザに照射しその反射波を解析することで、ユーザの胸部または腹部の膨らみを検出し、この情報に基づいて呼吸状態を判定してもよい。

また、脈拍情報を利用して呼吸状態を判定してもよい。対話ロボット１００が手乗り型であれば、対話ロボット１００の備える接触センサからユーザの脈拍（心拍）情報を取得することができる。また、音声対話システムが車両内で利用される場合、車両のハンドルに接触センサを設け、この接触センサから得られる脈拍情報を音声対話システムで使用することができる。接触センサを用いる以外にも、顔画像における顔色の変化から脈拍を取得することもできる。

［発話タイミング決定の変形］
上記の説明では、ユーザの発話終了の検出を呼吸状態の変化のみに基づいて行っている。しかしながら、その他の情報を用いてユーザの発話終了を検出してもよい。たとえば、ユーザの発話内容から、ユーザの発話が継続するか終了したかを判断してもよい。

また、上記の説明では呼吸状態の変化に基づいて決定される発話タイミングにおいて対話ロボット１００からの発話が行われるように説明している。しかしながら、対話ロボット１００が発話開始のトリガ通知を受信してから実際に発話を開始するまでのあいだにユーザの発話を検出した場合には、発話を行わないようにすることが望ましい。このようにすれば、ユーザが発話の途中で息継ぎをするときでも、発話の妨害を抑制できる。

また、上記の説明では、対話サーバ２００は応答文の内容（テキスト）と応答トリガとを別々に対話ロボット１００に送っているが、応答タイミングが決定した時点で応答文の内容と応答トリガ（応答タイミング）とをまとめて対話ロボット１００に送信してもよい。

［構成の変形］
上記の説明では、音声対話システムとして対話ロボットを備える構成を例示したが、音声対話システムは必ずしも人間や動物を模したロボットを備える必要はない。本発明は、ユーザとコンピュータのあいだで音声対話を行う任意のシステムに対して適用可能である。本発明が提供可能な音声対話システムの一例として、車両内で運転者からの音声入力を受け付ける音声対話システム、スマートフォンのような携帯端末における音声対話システムが挙げられる。

上記の説明では、音声対話システムを複数のコンピュータで構成する例を示したが、１台のコンピュータのみで音声対話システムを構成してもよいし、任意台数のコンピュータのあいだで適宜に機能を分担して音声対話システムを構成してもよい。

１：音声対話システム
１００：対話ロボット
１１０：画像入力部
１２０：音声入力部
１３０：音声合成・出力部
１４０：コマンド送受信部
１５０：通信部
２００：対話サーバ
２１０：音声認識部
２２０：応答作成部
２３０：情報記憶部
２４０：発話タイミング決定部
２５０：通信部
３００：画像処理サーバ
３１０：呼吸状態判定部
３５０：通信部

Claims

ユーザと対話を行う音声対話システムであって、
前記ユーザの口唇を含む画像を取得する画像取得手段と、
前記画像に基づいて、ユーザの呼吸における呼気と吸気を判定する呼吸状態判定手段と、
ユーザの呼吸が呼気から吸気に変わるタイミングに基づいて発話タイミングを決定する発話タイミング決定手段と、
を備える音声対話システム。
前記画像取得手段は動画像を取得し、
前記呼吸状態判定手段は、呼気動作中および吸気動作中における口唇形状の時系列パターンを記憶しており、前記動画像からユーザの口唇の形状の時間変化を取得し、前記時系列パターンとのマッチングにより、ユーザの呼吸における呼気と吸気を判定する、
請求項１に記載の音声対話システム。
前記発話タイミング決定手段は、ユーザの呼吸が呼気から吸気に変わるタイミングに所定時間を足したタイミングを発話タイミングとして決定する、
請求項１または２に記載の音声対話システム。
ユーザと対話を行う音声対話システムにおける発話タイミング決定方法であって、
前記ユーザの口唇を含む画像を取得する画像取得ステップと、
前記画像に基づいて、ユーザの呼吸における呼気と吸気を判定する呼吸状態判定ステップと、
ユーザの呼吸が呼気から吸気に変わるタイミングに基づいて発話タイミングを決定する発話タイミング決定ステップと、
を音声対話システムが実行することを特徴とする発話タイミング決定方法。
請求項４に記載の方法の各ステップをコンピュータに実行させるためのプログラム。