JP2018169494A - 発話意図推定装置および発話意図推定方法 - Google Patents
発話意図推定装置および発話意図推定方法 Download PDFInfo
- Publication number
- JP2018169494A JP2018169494A JP2017066738A JP2017066738A JP2018169494A JP 2018169494 A JP2018169494 A JP 2018169494A JP 2017066738 A JP2017066738 A JP 2017066738A JP 2017066738 A JP2017066738 A JP 2017066738A JP 2018169494 A JP2018169494 A JP 2018169494A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- intention
- feature amount
- intention estimation
- acoustic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Processing (AREA)
Abstract
Description
られる。また、発話の意図の例として、話題切り出し、提案、肯定、否定、質問、回答、集約が挙げられる。
置として捉えることができる。また、本発明は、上記手段が行う処理の少なくとも一部を実行する発話意図推定装置による発話意図推定方法として捉えることもできる。また、本発明は、これらの方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本実施形態は、複数人による会話をモニタして、それぞれの発話の意図を推定する音声処理装置(発話意図推定装置)である。本実施形態に係る音声処理装置は、ユーザと会話を行ったりユーザ間の会話に対して仲介を行ったりする音声処理システムの一部として使われることが想定されるが、ここでは発話意図推定処理に焦点を当てて説明する。
図1は本実施形態に係る音声処理装置100の機能ブロック図である。音声処理装置100は、CPUなどの演算装置、RAMやROMなどの記憶装置、キーボードやマイクなどの入力装置、ディスプレイやスピーカーなどの出力装置、通信インタフェースなどを備えるコンピュータであり、記憶装置に記憶されたプログラムを演算装置が実行することによって、図1に示す各機能を実現する。ただし、上記の機能の一部または全部を専用のハードウェアによって実現しても構わない。また、音声処理装置100は、1台の装置として構成する必要はなく、通信回線を介して結合された複数の装置(コンピュータ)を用いて構成し、それぞれの装置間で機能を分担して実行しても構わない。
に該当するかを決定する識別器である。発話意図の例として、話題切り出し、提案、肯定、否定、質問、回答、集約を含むことができる。特徴量ベース意図推定部107bは、入力された音響特徴量が話題切り出し、提案、肯定、否定、質問、回答、集約に該当するか否かをそれぞれ判別する複数の2クラス識別器として生成されてもよいし、これらを識別する1つの多クラス識別器として生成されてもよい。
ここで図3および図4を参照して、特徴量ベース意図推定部107bの学習(生成)処理について説明する。図3は、特徴量ベース意図推定部107bを生成するための学習装置150の構成を示す。図4は、特徴量ベース意図推定部107bの学習処理の流れを示すフローチャートである。
図5は、本実施形態に係る音声処理装置100が行う、発話意図推定処理の流れを示すフローチャートである。
本実施形態によれば、音声認識処理が正しく行えなかった場合や、発話内容に発話意図を推定できるキーワードが含まれなかった場合であっても、発話の意図を推定できる。したがって、発話テキストのみに基づいて意図推定を行う手法と比較して、より多くの場面で発話意図の推定が行えるようになる。
なる。さらには、会話に対する応答や介入をより適確に行えるようになる。
上記の説明において、特徴量ベース意図推定部107bは、音響特徴量のみに基づいて発話意図を推定している。しかしながら、音響特徴量以外の要素を考慮して発話意図を推定するようにしてもよい。
第1の実施形態では、特徴量ベース意図推定部107b,204として機械学習処理により生成した識別器を利用している。しかしながら、特徴量ベース意図推定部107b,204は、機械学習により生成される必要はなく、設計者によって定められた判別ロジック(算出条件)にしたがって入力データから発話意図を推定するように構成してもかまわない。
第1の実施形態では、発話テキストに基づく発話意図推定ができない場合に、音響特徴量を利用して発話意図推定を行っている。しかしながら、発話テキストが抽出できた場合にも、音響特徴量を考慮して発話意図を推定するようにしてもよい。一例として、発話テキストが抽出できた場合に、テキストベース意図推定部107aによる意図推定結果と、特徴量ベース意図推定部107b(204)の意図推定結果とを考慮した結果を最終的な意図推定結果とすることができる。
第1の実施形態では、特徴量ベース意図推定部107bを1種類のみ用いている。しかしながら、発話意図の推定に用いられる音響特徴量の一つである基本周波数は、話者の性別や年齢によって平均値や平均値からの変化の傾向が異なることが想定される。したがって、話者の性別ごとおよび年齢層ごとに異なる特徴量ベース意図推定部107b(識別器)を生成して用いることが音響特徴量の分析の精度向上に、更には発話意図推定精度の向
上につながる。
本発明の第2の実施形態は、第1の実施形態に係る音声処理装置(発話意図推定装置)を適用した会話介入支援システムである。会話介入支援システムは、車両内の複数の話者による会話に対して、情報提供や意思決定の支援を行うものである。
を撮影するカメラ513も備える。
102:雑音除去部
103:音源(話者)分離部
104:発話区間検出部
105:音声認識部
106:音響特徴量抽出部
107:発話意図推定部
107a:テキストベース意図推定部
107b:特徴量ベース意図推定部
108:コーパス辞書
Claims (11)
- ユーザ発話の音声データを取得する音声取得手段と、
前記音声データから発話の音響的な特徴量である音響特徴量を取得する特徴量取得手段と、
前記音響特徴量から前記ユーザ発話の意図を推定する意図推定手段と、
を備える、発話意図推定装置。 - 前記音声データから前記ユーザ発話のテキストを抽出する音声認識手段をさらに備え、
前記意図推定手段は、発話のテキストを用いても前記ユーザ発話の意図を推定可能に構成されており、前記音声データから前記ユーザ発話のテキストを抽出できた場合には発話のテキストを用いて意図を推定し、前記音声データから前記ユーザ発話のテキストを抽出できなかった場合には音響特徴量を用いて意図を推定する、
請求項1に記載の発話意図推定装置。 - 前記意図推定手段は、発話のテキストを用いた意図の推定が失敗した場合に、音響特徴量を用いて意図を推定する、
請求項2に記載の発話意図推定装置。 - 前記意図推定手段は、意図が既知の発話と当該発話の音響特徴量を元に学習処理によってあらかじめ作成された識別器である、
請求項1から3のいずれか1項に記載の発話意図推定装置。 - 発話者の性別および年齢層を特定する話者識別手段をさらに備え、
前記識別器は、発話者の性別および年齢層に応じて複数種類があらかじめ作成されており、
前記意図推定手段は、前記話者識別手段によって特定された発話者の性別および年齢層に対応する識別器を用いて、前記音響特徴量から前記ユーザ発話の意図を推定する、
請求項4に記載の発話意図推定装置。 - 前記話者識別手段は、前記音響特徴量に基づいて発話者の性別および年齢層を特定する、
請求項5に記載の発話意図推定装置。 - 前記話者識別手段は、発話者の顔画像を用いて発話者の性別および年齢層を特定する、
請求項5または6に記載の発話意図推定装置。 - 前記音響特徴量は、発話の音圧レベル、基本周波数、発話長、発話速度、間隔または重なり、の少なくともいずれかを含む、
請求項1から7のいずれか1項に記載の発話意図推定装置。 - 前記発話の意図は、話題切り出し、提案、肯定、否定、質問、回答、集約、の少なくともいずれかを含む、
請求項1から8のいずれか1項に記載の発話意図推定装置。 - 発話意図推定装置が実行する発話意図推定方法であって、
ユーザ発話の音声データを取得する音声取得ステップと、
前記音声データから発話の音響的な特徴量である音響特徴量を取得する特徴量取得ステップと、
前記音響特徴量から前記ユーザ発話の意図を推定する意図推定ステップと、
を含む、発話意図推定方法。 - 請求項10に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017066738A JP2018169494A (ja) | 2017-03-30 | 2017-03-30 | 発話意図推定装置および発話意図推定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017066738A JP2018169494A (ja) | 2017-03-30 | 2017-03-30 | 発話意図推定装置および発話意図推定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018169494A true JP2018169494A (ja) | 2018-11-01 |
Family
ID=64018759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017066738A Pending JP2018169494A (ja) | 2017-03-30 | 2017-03-30 | 発話意図推定装置および発話意図推定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018169494A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489749A (zh) * | 2019-01-28 | 2020-08-04 | 丰田自动车株式会社 | 交互设备、交互方法和程序 |
JP2020140210A (ja) * | 2019-02-28 | 2020-09-03 | ネイバー コーポレーションNAVER Corporation | 会話システムにおいて意図が不明確なクエリを処理する方法およびシステム |
JP2020142555A (ja) * | 2019-03-04 | 2020-09-10 | 本田技研工業株式会社 | 車両制御システム、車両制御方法、およびプログラム |
JP2021086144A (ja) * | 2019-11-25 | 2021-06-03 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体 |
KR20210087147A (ko) * | 2020-01-02 | 2021-07-12 | 주식회사 티오이십일콤즈 | 사용자 맞춤형 목적지정보 제공 장치 및 방법 |
JP2021117940A (ja) * | 2020-01-29 | 2021-08-10 | トヨタ自動車株式会社 | エージェント装置、エージェントシステム及びプログラム |
JP2021117941A (ja) * | 2020-01-29 | 2021-08-10 | トヨタ自動車株式会社 | エージェント装置、エージェントシステム及びプログラム |
JP2021144263A (ja) * | 2020-03-10 | 2021-09-24 | Kddi株式会社 | 対象人物の特徴的な身振りを推定するプログラム、装置及び方法 |
WO2023128586A1 (ko) * | 2021-12-28 | 2023-07-06 | 경북대학교 산학협력단 | 인공지능에 기초한 대화상황예측과 의도분류 시스템 및 그 방법 |
US11869488B2 (en) | 2019-12-18 | 2024-01-09 | Toyota Jidosha Kabushiki Kaisha | Agent device, agent system, and computer-readable storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004226881A (ja) * | 2003-01-27 | 2004-08-12 | Casio Comput Co Ltd | 会話システム及び会話処理プログラム |
JP2005122128A (ja) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 音声認識システム及びプログラム |
JP2010152866A (ja) * | 2008-12-23 | 2010-07-08 | Korea Electronics Telecommun | 音声及び映像に基づく性別−年齢識別方法及びその装置 |
JP2017032738A (ja) * | 2015-07-31 | 2017-02-09 | 日本電信電話株式会社 | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム |
-
2017
- 2017-03-30 JP JP2017066738A patent/JP2018169494A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004226881A (ja) * | 2003-01-27 | 2004-08-12 | Casio Comput Co Ltd | 会話システム及び会話処理プログラム |
JP2005122128A (ja) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 音声認識システム及びプログラム |
JP2010152866A (ja) * | 2008-12-23 | 2010-07-08 | Korea Electronics Telecommun | 音声及び映像に基づく性別−年齢識別方法及びその装置 |
JP2017032738A (ja) * | 2015-07-31 | 2017-02-09 | 日本電信電話株式会社 | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム |
Non-Patent Citations (1)
Title |
---|
細木 光宏 MITSUHIRO HOSOKI: "韻律を用いた自由発話対話の意図の判定 Extraction of Utterance Intention in Japanese Spontaneous Spee", 第31回 言語・音声理解と対話処理研究会資料 (SIG−SLUD−A003), JPN6020030186, 27 February 2001 (2001-02-27), JP, pages 25 - 1, ISSN: 0004424986 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489749A (zh) * | 2019-01-28 | 2020-08-04 | 丰田自动车株式会社 | 交互设备、交互方法和程序 |
US11403345B2 (en) | 2019-02-28 | 2022-08-02 | Naver Corporation | Method and system for processing unclear intent query in conversation system |
JP2020140210A (ja) * | 2019-02-28 | 2020-09-03 | ネイバー コーポレーションNAVER Corporation | 会話システムにおいて意図が不明確なクエリを処理する方法およびシステム |
JP2020142555A (ja) * | 2019-03-04 | 2020-09-10 | 本田技研工業株式会社 | 車両制御システム、車両制御方法、およびプログラム |
US11541906B2 (en) | 2019-03-04 | 2023-01-03 | Honda Motor Co., Ltd. | Vehicle control device, vehicle control method, and storage medium |
JP7145105B2 (ja) | 2019-03-04 | 2022-09-30 | 本田技研工業株式会社 | 車両制御システム、車両制御方法、およびプログラム |
JP2021086144A (ja) * | 2019-11-25 | 2021-06-03 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体 |
JP7208951B2 (ja) | 2019-11-25 | 2023-01-19 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体 |
US11250854B2 (en) | 2019-11-25 | 2022-02-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for voice interaction, device and computer-readable storage medium |
US11869488B2 (en) | 2019-12-18 | 2024-01-09 | Toyota Jidosha Kabushiki Kaisha | Agent device, agent system, and computer-readable storage medium |
KR20210087147A (ko) * | 2020-01-02 | 2021-07-12 | 주식회사 티오이십일콤즈 | 사용자 맞춤형 목적지정보 제공 장치 및 방법 |
KR102349665B1 (ko) * | 2020-01-02 | 2022-01-12 | 주식회사 티오이십일콤즈 | 사용자 맞춤형 목적지정보 제공 장치 및 방법 |
JP2021117941A (ja) * | 2020-01-29 | 2021-08-10 | トヨタ自動車株式会社 | エージェント装置、エージェントシステム及びプログラム |
JP7272293B2 (ja) | 2020-01-29 | 2023-05-12 | トヨタ自動車株式会社 | エージェント装置、エージェントシステム及びプログラム |
JP7338493B2 (ja) | 2020-01-29 | 2023-09-05 | トヨタ自動車株式会社 | エージェント装置、エージェントシステム及びプログラム |
JP2021117940A (ja) * | 2020-01-29 | 2021-08-10 | トヨタ自動車株式会社 | エージェント装置、エージェントシステム及びプログラム |
JP2021144263A (ja) * | 2020-03-10 | 2021-09-24 | Kddi株式会社 | 対象人物の特徴的な身振りを推定するプログラム、装置及び方法 |
JP7257349B2 (ja) | 2020-03-10 | 2023-04-13 | Kddi株式会社 | 対象人物の特徴的な身振りを推定するプログラム、装置及び方法 |
WO2023128586A1 (ko) * | 2021-12-28 | 2023-07-06 | 경북대학교 산학협력단 | 인공지능에 기초한 대화상황예측과 의도분류 시스템 및 그 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018169494A (ja) | 発話意図推定装置および発話意図推定方法 | |
JP6938784B2 (ja) | オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体 | |
US10923137B2 (en) | Speech enhancement and audio event detection for an environment with non-stationary noise | |
CN104598644B (zh) | 喜好标签挖掘方法和装置 | |
Maghilnan et al. | Sentiment analysis on speaker specific speech data | |
CN110634472B (zh) | 一种语音识别方法、服务器及计算机可读存储介质 | |
US20160019915A1 (en) | Real-time emotion recognition from audio signals | |
CN112233680B (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
JP7485858B2 (ja) | 実世界ノイズを使用した音声個性化および連合訓練 | |
JP5496863B2 (ja) | 感情推定装置、その方法、プログラム及びその記録媒体 | |
US10592997B2 (en) | Decision making support device and decision making support method | |
CN111524527A (zh) | 话者分离方法、装置、电子设备和存储介质 | |
Chouhan et al. | Structural support vector machine for speech recognition classification with CNN approach | |
JP2018169506A (ja) | 会話満足度推定装置、音声処理装置および会話満足度推定方法 | |
KR20240053639A (ko) | 제한된 스펙트럼 클러스터링을 사용한 화자-턴 기반 온라인 화자 구분 | |
JP7526846B2 (ja) | 音声認識 | |
CN112017633B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
JP5083033B2 (ja) | 感情推定装置及びプログラム | |
KR20230116886A (ko) | 페이크 오디오 검출을 위한 자기 지도형 음성 표현 | |
Alghifari et al. | On the use of voice activity detection in speech emotion recognition | |
JP2015175859A (ja) | パターン認識装置、パターン認識方法及びパターン認識プログラム | |
CN113689886B (zh) | 语音数据情感检测方法、装置、电子设备和存储介质 | |
JP2015102914A (ja) | 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム | |
Yasmin et al. | Discrimination of male and female voice using occurrence pattern of spectral flux | |
KR102535244B1 (ko) | 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200807 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200818 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201016 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210119 |