JP6658306B2 - 音声対話システムおよび発話タイミング決定方法 - Google Patents
音声対話システムおよび発話タイミング決定方法 Download PDFInfo
- Publication number
- JP6658306B2 JP6658306B2 JP2016106408A JP2016106408A JP6658306B2 JP 6658306 B2 JP6658306 B2 JP 6658306B2 JP 2016106408 A JP2016106408 A JP 2016106408A JP 2016106408 A JP2016106408 A JP 2016106408A JP 6658306 B2 JP6658306 B2 JP 6658306B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- utterance
- timing
- inspiration
- expiration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
前記ユーザの口唇を含む画像を取得する画像取得手段と、
前記画像に基づいて、ユーザの呼吸における呼気と吸気を判定する呼吸状態判定手段と、
ユーザの呼吸が呼気から吸気に変わるタイミングに基づいて発話タイミングを決定する発話タイミング決定手段と、
を備えることを特徴とする。
図1は、本実施形態にかかる音声対話システム1のシステム構成を示す図である。本実施形態にかかる音声対話システム1は、ユーザとのインタフェース(フロントエンド装置)となる対話ロボット100、ユーザ発話の理解および応答文の作成を行う対話サーバ200、画像処理を行う画像処理サーバ300を含んで構成される。対話ロボット100、対話サーバ200、および画像処理サーバ300は無線通信により互いに通信可能である
。
対話ロボット100は、演算プロセッサ、記憶装置、カメラやマイクのような入力装置、スピーカーやディスプレイのような出力装置、通信装置を含むコンピュータを備える。対話ロボット100は、人間や動物を模した外観を持ち、関節部を動かすためのモータや制御装置を備えてもよい。
対話サーバ200は、演算プロセッサ、記憶装置、入力装置、出力装置、通信装置を含むコンピュータである。対話サーバ200は、演算プロセッサが記憶装置に記憶されたプログラムを実行することにより、音声認識部210、応答作成部220、情報記憶部230、発話タイミング決定部240、通信部250として機能する。これらの機能部のうちの一部または全部は、専用のロジック回路により実現されても構わない。
画像処理サーバ300は、演算プロセッサ、記憶装置、入力装置、出力装置、通信装置を含むコンピュータである。画像処理サーバ300は、演算プロセッサが記憶装置に記憶されたプログラムを実行することにより、呼吸状態判定部310および通信部350として機能する。これらの機能部のうちの一部または全部は、専用のロジック回路により実現されても構わない。
状の時系列変化を取得し、あらかじめパターン記憶部315に記憶している呼気および吸気時の時系列変化パターンと照合することにより、ユーザが息を吐いているのか吸っているのかを判定する。呼吸状態判定部310は、ユーザが息を吐いているのか吸っているのかに加えて、ユーザが息を止めていることを判定結果として含めてもよい。呼吸状態判定部310による判定結果は、通信部350を介して対話サーバ200に送信される。
[全体処理]
図2は、音声対話システム1における全体的な処理の流れを示す図である。なお、図2は概要図であり、音声対話システム1における処理は図2とは異なる順序で実行されてもよいし、複数の処理が並行に実行されてもよい。
図3を参照して、画像処理サーバ300の呼吸状態判定部310が行う呼吸状態判定処理S108を説明する。
は、まず、画像中の顔領域の中から口の位置が検出される。口領域の画像をそのまま口唇形状として利用してもよいし、口領域から取得される特徴量(たとえば、唇の幅や高さ、開口の幅や高さに基づく値)を口唇形状として利用してもよい。
図4を参照して、対話サーバ200の発話タイミング決定部240が行う発話タイミング決定処理S110を説明する。
図5を参照して、音声対話システム1における動作の例を説明する。図中の上段はユーザの発話の音量レベル(音声の有無)を示し、中段は呼吸状態判定部310による呼吸状態の判定結果を示し、下段は制御のタイミングを示す。
本実施形態に係る音声対話システムでは、画像から得られるユーザの呼吸情報を用いて、対話ロボットの発話タイミングを決定している。呼吸状態の変化からユーザの発話終了意図を的確に判断できるので、ユーザの発話を妨害しないように適切に対話ロボットの発話タイミングを決定することができる。
[呼吸状態判定の変形]
上記の説明では、ユーザの呼吸状態を口唇形状の時間変化から判定しているが、その他の情報を用いてユーザの呼吸状態を判定することもできる。たとえば、対話ロボット100のカメラがユーザの身体を含む画像を取得しているときには、口唇以外の部分の時間変化に基づいて呼吸状態を判定することもできる。具体的には、ユーザの肩の上がり下がりや胸部あるいは腹部の膨らみなどに基づいて呼吸状態を判定することができる。また、口唇以外の顔のパーツの形状変化に基づいて呼吸状態を判定してもよい。いずれの場合も口唇形状を利用するときと同様に、呼気動作中と吸気動作中の時系列変化パターンをあらかじめ登録しておき、検出された時系列変化と照合することにより呼吸状態を判定できる。
上記の説明では、ユーザの発話終了の検出を呼吸状態の変化のみに基づいて行っている。しかしながら、その他の情報を用いてユーザの発話終了を検出してもよい。たとえば、ユーザの発話内容から、ユーザの発話が継続するか終了したかを判断してもよい。
上記の説明では、音声対話システムとして対話ロボットを備える構成を例示したが、音声対話システムは必ずしも人間や動物を模したロボットを備える必要はない。本発明は、ユーザとコンピュータのあいだで音声対話を行う任意のシステムに対して適用可能である。本発明が提供可能な音声対話システムの一例として、車両内で運転者からの音声入力を受け付ける音声対話システム、スマートフォンのような携帯端末における音声対話システムが挙げられる。
100:対話ロボット
110:画像入力部
120:音声入力部
130:音声合成・出力部
140:コマンド送受信部
150:通信部
200:対話サーバ
210:音声認識部
220:応答作成部
230:情報記憶部
240:発話タイミング決定部
250:通信部
300:画像処理サーバ
310:呼吸状態判定部
350:通信部
Claims (4)
- ユーザと対話を行う音声対話システムであって、
前記ユーザの口唇を含む動画像を取得する画像取得手段と、
前記動画像に基づいて、ユーザの呼吸における呼気と吸気を判定する呼吸状態判定手段と、
ユーザの呼吸が呼気から吸気に変わるタイミングに基づいて発話タイミングを決定する発話タイミング決定手段と、
を備え、
前記呼吸状態判定手段は、呼気動作中および吸気動作中における口唇形状の時系列パターンを記憶しており、前記動画像からユーザの口唇の形状の時間変化を取得し、前記時系列パターンとのマッチングにより、ユーザの呼吸における呼気と吸気を判定する、
音声対話システム。 - 前記発話タイミング決定手段は、ユーザの呼吸が呼気から吸気に変わるタイミングに所定時間を足したタイミングを発話タイミングとして決定する、
請求項1に記載の音声対話システム。 - ユーザと対話を行う音声対話システムにおける発話タイミング決定方法であって、
前記ユーザの口唇を含む動画像を取得する画像取得ステップと、
前記動画像に基づいて、ユーザの呼吸における呼気と吸気を判定する呼吸状態判定ステップと、
ユーザの呼吸が呼気から吸気に変わるタイミングに基づいて発話タイミングを決定する発話タイミング決定ステップと、
を音声対話システムが実行し、
前記呼吸状態判定ステップにおいて、前記動画像からユーザの口唇の形状の時間変化を取得し、呼気動作中および吸気動作中における口唇形状の時系列パターンとのマッチングにより、ユーザの呼吸における呼気と吸気を判定すること、
を特徴とする発話タイミング決定方法。 - 請求項3に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016106408A JP6658306B2 (ja) | 2016-05-27 | 2016-05-27 | 音声対話システムおよび発話タイミング決定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016106408A JP6658306B2 (ja) | 2016-05-27 | 2016-05-27 | 音声対話システムおよび発話タイミング決定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017211596A JP2017211596A (ja) | 2017-11-30 |
JP6658306B2 true JP6658306B2 (ja) | 2020-03-04 |
Family
ID=60476242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016106408A Active JP6658306B2 (ja) | 2016-05-27 | 2016-05-27 | 音声対話システムおよび発話タイミング決定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6658306B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7351105B2 (ja) * | 2018-06-21 | 2023-09-27 | カシオ計算機株式会社 | 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット |
US10997979B2 (en) * | 2018-06-21 | 2021-05-04 | Casio Computer Co., Ltd. | Voice recognition device and voice recognition method |
CN109166575A (zh) * | 2018-07-27 | 2019-01-08 | 百度在线网络技术(北京)有限公司 | 智能设备的交互方法、装置、智能设备和存储介质 |
JP7085500B2 (ja) * | 2019-02-13 | 2022-06-16 | ヤフー株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
EP3956883A4 (en) | 2019-04-19 | 2022-12-21 | Magic Leap, Inc. | VOICE RECOGNITION ENGINE INPUT IDENTIFICATION |
US11328740B2 (en) | 2019-08-07 | 2022-05-10 | Magic Leap, Inc. | Voice onset detection |
JPWO2021153214A1 (ja) | 2020-01-31 | 2021-08-05 | ||
EP4099318A4 (en) * | 2020-01-31 | 2023-05-10 | Sony Group Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
US20230064042A1 (en) | 2020-01-31 | 2023-03-02 | Sony Group Corporation | Information processing apparatus and information processing method |
WO2022249362A1 (ja) * | 2021-05-26 | 2022-12-01 | 株式会社KPMG Ignition Tokyo | テキストを合成音声に変換する音声合成 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3844874B2 (ja) * | 1998-02-27 | 2006-11-15 | 株式会社東芝 | マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 |
JP2011013731A (ja) * | 2009-06-30 | 2011-01-20 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP6442942B2 (ja) * | 2014-09-11 | 2018-12-26 | 株式会社デンソー | ドライバ状態判定装置 |
JP6402554B2 (ja) * | 2014-09-19 | 2018-10-10 | アイシン精機株式会社 | 車両用の情報出力制御装置 |
-
2016
- 2016-05-27 JP JP2016106408A patent/JP6658306B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017211596A (ja) | 2017-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6658306B2 (ja) | 音声対話システムおよび発話タイミング決定方法 | |
JP6465077B2 (ja) | 音声対話装置および音声対話方法 | |
JP6520878B2 (ja) | 音声取得システムおよび音声取得方法 | |
US20190172448A1 (en) | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method | |
US9031293B2 (en) | Multi-modal sensor based emotion recognition and emotional interface | |
US20160379633A1 (en) | Speech-Controlled Actions Based on Keywords and Context Thereof | |
CN111475206B (zh) | 用于唤醒可穿戴设备的方法及装置 | |
JP5332798B2 (ja) | 通信制御装置、通信制御方法、及び通信制御プログラム | |
JP2003255991A (ja) | 対話制御システム、対話制御方法及びロボット装置 | |
JP3844874B2 (ja) | マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 | |
JP4250340B2 (ja) | 仮想ペット装置及びその制御プログラム記録媒体 | |
KR101598955B1 (ko) | 언어 치료용 게임 장치 및 게임 방법 | |
JP7205533B2 (ja) | 情報処理装置及び情報処理方法、並びにロボット装置 | |
JP2006123136A (ja) | コミュニケーションロボット | |
CN110634505B (zh) | 声音期间检测装置、声音期间检测方法、存储介质、声音认识装置以及机器人 | |
US20230386461A1 (en) | Voice user interface using non-linguistic input | |
JP2020057300A (ja) | 識別装置、ロボット、識別方法及びプログラム | |
JP2007155986A (ja) | 音声認識装置および音声認識装置を備えたロボット | |
EP4033775A2 (en) | Smart mask and smart mask system | |
JP7323475B2 (ja) | 情報処理装置および行動モード設定方法 | |
JP2007156688A (ja) | ユーザ認証装置およびその方法 | |
JP6445473B2 (ja) | 会話支援システム、会話支援装置及び会話支援プログラム | |
JP2018149625A (ja) | コミュニケーションロボット、プログラム及びシステム | |
JP2017121680A (ja) | 発話制御システム、発話制御装置及び発話制御プログラム | |
JP6502865B2 (ja) | 会話支援システム、会話支援装置及び会話支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181018 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191001 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200120 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6658306 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |