JP2010217502A - 発話意図情報検出装置及びコンピュータプログラム - Google Patents
発話意図情報検出装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2010217502A JP2010217502A JP2009064131A JP2009064131A JP2010217502A JP 2010217502 A JP2010217502 A JP 2010217502A JP 2009064131 A JP2009064131 A JP 2009064131A JP 2009064131 A JP2009064131 A JP 2009064131A JP 2010217502 A JP2010217502 A JP 2010217502A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- information
- speech
- voice
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 69
- 238000004590 computer program Methods 0.000 title claims description 4
- 238000012545 processing Methods 0.000 claims abstract description 77
- 238000000605 extraction Methods 0.000 claims abstract description 41
- 230000001755 vocal effect Effects 0.000 claims description 53
- 230000000737 periodic effect Effects 0.000 claims description 34
- 230000029058 respiratory gaseous exchange Effects 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 7
- 238000000034 method Methods 0.000 abstract description 16
- 230000008569 process Effects 0.000 abstract description 13
- 230000033764 rhythmic process Effects 0.000 abstract 5
- 238000004364 calculation method Methods 0.000 description 49
- 238000005311 autocorrelation function Methods 0.000 description 43
- 238000010586 diagram Methods 0.000 description 29
- 239000011295 pitch Substances 0.000 description 22
- 230000008859 change Effects 0.000 description 16
- 230000002996 emotional effect Effects 0.000 description 16
- 230000008451 emotion Effects 0.000 description 11
- 239000000284 extract Substances 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 208000037656 Respiratory Sounds Diseases 0.000 description 5
- 230000001174 ascending effect Effects 0.000 description 5
- 238000005314 correlation function Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 2
- 239000000945 filler Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Abstract
【解決手段】人間の発話音声信号から、発話内容に依存しないパラ言語情報を検出するためのパラ言語情報検出装置60は、発話音声信号の韻律に関する情報を処理するための韻律による音声処理部70と、発話音声信号の声質に関する情報を処理するための声質による音声処理部72と、韻律に関する情報及び声質に関する情報と非語彙辞書50とから発話音声の中の感動詞についてのパラ言語情報(発話意図)を抽出するためのパラ言語情報抽出部74とを含む。非語彙辞書50には、感動詞について、発話スタイル(韻律情報及び声質情報)と発話意図との関係が記憶されている。
【選択図】図1
Description
図1に、本実施の形態に係るパラ言語情報検出装置60の機能ブロック図を示す。図1を参照して、このパラ言語情報検出装置60は、韻律に基づいて発話音声信号を処理してパラ言語情報(発話意図)の抽出に使用するパラメータを出力するための韻律による音声処理部70と、声質に基づいて発話音声信号を処理してパラ言語情報(発話意図)の抽出に使用するパラメータを出力するための声質による音声処理部72と、韻律による音声処理部70と声質による音声処理部72とから得られたパラメータから、予め学習用データを用いて学習した、パラメータとパラ言語情報(発話意図)との関係を規定した非語彙辞書50を用いて、パラ言語情報を抽出して出力するためのパラ言語情報抽出部74とを含む。
図1を参照して、まず、ユーザが発話をすると、その発話音声が図示しないマイクにより発話音声信号に変換される。マイクによって変換された発話音声信号は、韻律による音声処理部70と声質による音声処理部72とに与えられる。この韻律による音声処理部70での処理によって、発話持続時間についての情報及び音程の変化についての情報が得られる。声質による音声処理部72での処理によって、りきみの度合いに関する情報、発話全体に占めるボーカル・フライの割合に関する情報、非周期性及びダブル周期性の割合に関する情報、及び気息性の割合に関する情報が得られる。韻律による音声処理部70及び声質による音声処理部72での処理の詳細については後述する。
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図21はこのコンピュータシステム330の外観を示し、図22はコンピュータシステム330の内部構成を示す。
50 非語彙辞書
60 パラ言語情報検出装置
70 韻律による音声処理部
72 声質による音声処理部
74 パラ言語情報抽出部
122 ボーカル・フライ割合算出部
126 非周期性/ダブル周期性割合算出部
130 気息性割合算出部
Claims (6)
- 人間の発話音声信号から、発話内容に依存しないパラ言語情報である発話意図を検出するための発話意図情報検出装置であって、
前記発話音声信号の韻律に関する情報を処理するための第1の音声処理手段と、
前記発話音声信号の声質に関する情報を処理するための第2の音声処理手段と、
発話スタイルと発話意図との関係を予め記憶するための記憶手段と、
前記韻律に関する情報及び前記声質に関する情報の少なくともいずれかを用いて発話スタイルを特定するための特定手段と、
特定された発話スタイルに関係がある発話意図を抽出するための抽出手段とを含む、発話意図情報検出装置。 - 前記第2の音声処理手段は、前記発話音声信号の発話区間中にボーカル・フライ区間が占める割合を算出するための手段と、前記発話音声信号の低周波帯域に含まれる最大周波数成分と高周波帯域に含まれる最大周波数成分との差であるスペクトル傾斜を算出するための手段とを含み、
前記特定手段は、ボーカル・フライ区間が占める割合とスペクトル傾斜とに基づくりきみ度合いについての情報を用いて発話スタイルを特定するための手段を含む、請求項1に記載の発話意図情報検出装置。 - 前記第2の音声処理手段は、前記発話音声信号の発話区間中に非周期性/ダブル周期性区間が占める割合を算出するための手段を含み、
前記特定手段は、非周期性/ダブル周期性区間が占める割合についての情報を用いて発話スタイルを特定するための手段を含む、請求項1に記載の発話意図情報検出装置。 - 前記第2の音声処理手段は、前記発話音声信号の発話区間中に気息性区間が占める割合を算出するための手段を含み、
前記特定手段は、気息性区間が占める割合についての情報を用いて発話スタイルを特定するための手段を含む、請求項1に記載の発話意図情報検出装置。 - 前記記憶手段は、感動詞について、発話スタイルと発話意図との関係を予め記憶するための手段を含み、
前記抽出手段は、感動詞についての発話意図を抽出するための手段を含む、請求項1〜請求項4のいずれかに記載の発話意図情報検出装置。 - コンピュータにより実行されると、当該コンピュータを請求項1〜請求項5のいずれかに記載の発話意図情報検出装置として動作させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009064131A JP5382780B2 (ja) | 2009-03-17 | 2009-03-17 | 発話意図情報検出装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009064131A JP5382780B2 (ja) | 2009-03-17 | 2009-03-17 | 発話意図情報検出装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010217502A true JP2010217502A (ja) | 2010-09-30 |
JP5382780B2 JP5382780B2 (ja) | 2014-01-08 |
Family
ID=42976434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009064131A Active JP5382780B2 (ja) | 2009-03-17 | 2009-03-17 | 発話意図情報検出装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5382780B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015169827A (ja) * | 2014-03-07 | 2015-09-28 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
US10438586B2 (en) | 2016-05-31 | 2019-10-08 | Toyota Jidosha Kabushiki Kaisha | Voice dialog device and voice dialog method |
US10546574B2 (en) | 2016-09-01 | 2020-01-28 | Samsung Electronics Co., Ltd. | Voice recognition apparatus and method |
JP2020154332A (ja) * | 2020-06-17 | 2020-09-24 | カシオ計算機株式会社 | 感情推定装置、感情推定方法及びプログラム |
US11211048B2 (en) | 2017-01-17 | 2021-12-28 | Samsung Electronics Co., Ltd. | Method for sensing end of speech, and electronic apparatus implementing same |
US11270691B2 (en) | 2018-05-31 | 2022-03-08 | Toyota Jidosha Kabushiki Kaisha | Voice interaction system, its processing method, and program therefor |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003330478A (ja) * | 2002-05-16 | 2003-11-19 | Japan Science & Technology Corp | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
JP2007079363A (ja) * | 2005-09-16 | 2007-03-29 | Advanced Telecommunication Research Institute International | パラ言語情報検出装置及びコンピュータプログラム |
JP2009003162A (ja) * | 2007-06-21 | 2009-01-08 | Panasonic Corp | 力み音声検出装置 |
-
2009
- 2009-03-17 JP JP2009064131A patent/JP5382780B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003330478A (ja) * | 2002-05-16 | 2003-11-19 | Japan Science & Technology Corp | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
JP2007079363A (ja) * | 2005-09-16 | 2007-03-29 | Advanced Telecommunication Research Institute International | パラ言語情報検出装置及びコンピュータプログラム |
JP2009003162A (ja) * | 2007-06-21 | 2009-01-08 | Panasonic Corp | 力み音声検出装置 |
Non-Patent Citations (10)
Title |
---|
CSNG200600914001; 石井 カルロス 寿憲 Carlos Toshinori ISHI: 'りきみの自動検出のための音響分析 Acoustic analysis for automatic detection of pressed voice' 電子情報通信学会技術研究報告 Vol.106 No.178 IEICE Technical Report , 20060714, p.1-6, 社団法人電子情報通信学会 The Institute of Electro * |
CSNG200700179014; 石井 カルロス寿憲 Carlos Toshinori ISHI: 'Vocal Fry発声区間の自動検出法 A Method for Automatic Detection of Vocal Fry Segments' 電子情報通信学会論文誌 (J89-D) 第12号 THE IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS , 20061201, p.2679-2687, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO * |
CSNJ201010077124; 石井 カルロス寿憲 Carlos T. ISHI: 'EGGを用いた「りきみ」発声の音響分析' 日本音響学会 2007年 春季研究発表会講演論文集CD-ROM [CD-ROM] , 20070313, p.221-222, 社団法人日本音響学会 * |
CSNJ201010089073; 石井 カルロス 寿憲 Carlos T. ISHI: '自然発話に現れる感動詞の発話スタイルと機能の分析' 日本音響学会 2008年 秋季研究発表会講演論文集CD-ROM [CD-ROM] , 20080910, p.269-270, 社団法人日本音響学会 * |
CSNJ201110016038; 石井 カルロス寿憲 Carlos T. ISHII: '喉頭を力んだ発声の音響特徴の分析' 日本音響学会 2006年 春季研究発表会講演論文集CD-ROM [CD-ROM] , 20060316, p.227-228, 社団法人日本音響学会 * |
JPN6012065435; 石井 カルロス 寿憲 Carlos T. ISHI: '自然発話に現れる感動詞の発話スタイルと機能の分析' 日本音響学会 2008年 秋季研究発表会講演論文集CD-ROM [CD-ROM] , 20080910, p.269-270, 社団法人日本音響学会 * |
JPN6012065439; 石井 カルロス寿憲 Carlos T. ISHII: '喉頭を力んだ発声の音響特徴の分析' 日本音響学会 2006年 春季研究発表会講演論文集CD-ROM [CD-ROM] , 20060316, p.227-228, 社団法人日本音響学会 * |
JPN6012065443; 石井 カルロス 寿憲 Carlos Toshinori ISHI: 'りきみの自動検出のための音響分析 Acoustic analysis for automatic detection of pressed voice' 電子情報通信学会技術研究報告 Vol.106 No.178 IEICE Technical Report , 20060714, p.1-6, 社団法人電子情報通信学会 The Institute of Electro * |
JPN6012065446; 石井 カルロス寿憲 Carlos Toshinori ISHI: 'Vocal Fry発声区間の自動検出法 A Method for Automatic Detection of Vocal Fry Segments' 電子情報通信学会論文誌 (J89-D) 第12号 THE IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS , 20061201, p.2679-2687, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO * |
JPN6012065449; 石井 カルロス寿憲 Carlos T. ISHI: 'EGGを用いた「りきみ」発声の音響分析' 日本音響学会 2007年 春季研究発表会講演論文集CD-ROM [CD-ROM] , 20070313, p.221-222, 社団法人日本音響学会 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015169827A (ja) * | 2014-03-07 | 2015-09-28 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
US10438586B2 (en) | 2016-05-31 | 2019-10-08 | Toyota Jidosha Kabushiki Kaisha | Voice dialog device and voice dialog method |
US10546574B2 (en) | 2016-09-01 | 2020-01-28 | Samsung Electronics Co., Ltd. | Voice recognition apparatus and method |
US11211048B2 (en) | 2017-01-17 | 2021-12-28 | Samsung Electronics Co., Ltd. | Method for sensing end of speech, and electronic apparatus implementing same |
US11270691B2 (en) | 2018-05-31 | 2022-03-08 | Toyota Jidosha Kabushiki Kaisha | Voice interaction system, its processing method, and program therefor |
JP2020154332A (ja) * | 2020-06-17 | 2020-09-24 | カシオ計算機株式会社 | 感情推定装置、感情推定方法及びプログラム |
JP7001126B2 (ja) | 2020-06-17 | 2022-01-19 | カシオ計算機株式会社 | 感情推定装置、感情推定方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5382780B2 (ja) | 2014-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hansen et al. | Speech under stress: Analysis, modeling and recognition | |
Drugman et al. | Glottal source processing: From analysis to applications | |
US8788270B2 (en) | Apparatus and method for determining an emotion state of a speaker | |
Yegnanarayana et al. | Epoch-based analysis of speech signals | |
EP1635327A1 (en) | Information transmission device | |
JP5382780B2 (ja) | 発話意図情報検出装置及びコンピュータプログラム | |
KR20080019278A (ko) | 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램 | |
JP2006171750A (ja) | 音声認識のための特徴ベクトル抽出方法 | |
Mertens | Polytonia: a system for the automatic transcription of tonal aspects in speech corpora | |
JP2006267465A (ja) | 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体 | |
US8086449B2 (en) | Vocal fry detecting apparatus | |
JPH10133693A (ja) | 音声認識装置 | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
JP3673507B2 (ja) | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
CN112151066A (zh) | 基于声音特征识别的语言冲突监测方法、介质及设备 | |
JP4677548B2 (ja) | パラ言語情報検出装置及びコンピュータプログラム | |
Revathy et al. | Performance comparison of speaker and emotion recognition | |
Ishi | Perceptually-related F0 parameters for automatic classification of phrase final tones | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP2006154212A (ja) | 音声評価方法および評価装置 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
Ishi et al. | Evaluation of prosodic and voice quality features on automatic extraction of paralinguistic information | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120229 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130926 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5382780 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |