JP5382780B2 - 発話意図情報検出装置及びコンピュータプログラム - Google Patents
発話意図情報検出装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP5382780B2 JP5382780B2 JP2009064131A JP2009064131A JP5382780B2 JP 5382780 B2 JP5382780 B2 JP 5382780B2 JP 2009064131 A JP2009064131 A JP 2009064131A JP 2009064131 A JP2009064131 A JP 2009064131A JP 5382780 B2 JP5382780 B2 JP 5382780B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- information
- speech
- unit
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 68
- 238000004590 computer program Methods 0.000 title claims description 4
- 238000012545 processing Methods 0.000 claims description 75
- 230000001755 vocal effect Effects 0.000 claims description 53
- 238000000605 extraction Methods 0.000 claims description 39
- 230000000737 periodic effect Effects 0.000 claims description 34
- 230000002996 emotional effect Effects 0.000 claims description 17
- 230000029058 respiratory gaseous exchange Effects 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 description 49
- 238000005311 autocorrelation function Methods 0.000 description 43
- 238000010586 diagram Methods 0.000 description 29
- 239000011295 pitch Substances 0.000 description 22
- 230000008859 change Effects 0.000 description 16
- 238000000034 method Methods 0.000 description 14
- 230000008451 emotion Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 239000000284 extract Substances 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 208000037656 Respiratory Sounds Diseases 0.000 description 5
- 230000001174 ascending effect Effects 0.000 description 5
- 238000005314 correlation function Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 2
- 239000000945 filler Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Description
図1に、本実施の形態に係るパラ言語情報検出装置60の機能ブロック図を示す。図1を参照して、このパラ言語情報検出装置60は、韻律に基づいて発話音声信号を処理してパラ言語情報(発話意図)の抽出に使用するパラメータを出力するための韻律による音声処理部70と、声質に基づいて発話音声信号を処理してパラ言語情報(発話意図)の抽出に使用するパラメータを出力するための声質による音声処理部72と、韻律による音声処理部70と声質による音声処理部72とから得られたパラメータから、予め学習用データを用いて学習した、パラメータとパラ言語情報(発話意図)との関係を規定した非語彙辞書50を用いて、パラ言語情報を抽出して出力するためのパラ言語情報抽出部74とを含む。
図1を参照して、まず、ユーザが発話をすると、その発話音声が図示しないマイクにより発話音声信号に変換される。マイクによって変換された発話音声信号は、韻律による音声処理部70と声質による音声処理部72とに与えられる。この韻律による音声処理部70での処理によって、発話持続時間についての情報及び音程の変化についての情報が得られる。声質による音声処理部72での処理によって、りきみの度合いに関する情報、発話全体に占めるボーカル・フライの割合に関する情報、非周期性及びダブル周期性の割合に関する情報、及び気息性の割合に関する情報が得られる。韻律による音声処理部70及び声質による音声処理部72での処理の詳細については後述する。
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図21はこのコンピュータシステム330の外観を示し、図22はコンピュータシステム330の内部構成を示す。
50 非語彙辞書
60 パラ言語情報検出装置
70 韻律による音声処理部
72 声質による音声処理部
74 パラ言語情報抽出部
122 ボーカル・フライ割合算出部
126 非周期性/ダブル周期性割合算出部
130 気息性割合算出部
Claims (5)
- 人間の発話音声信号から、発話内容に依存しないパラ言語情報である発話意図を検出するための発話意図情報検出装置であって、
前記発話音声信号の韻律に関する情報を処理するための第1の音声処理手段と、
前記発話音声信号の声質に関する情報を処理するための第2の音声処理手段と、
感動詞の種類毎に、発話スタイルと発話意図との関係を予め記憶するための記憶手段と、
前記発話音声信号の音声認識の結果を用いて前記記憶手段に記憶されている感動詞の種類を特定し、特定された感動詞について前記韻律に関する情報及び前記声質に関する情報の少なくともいずれかを用いて発話スタイルを特定するための特定手段と、
特定された感動詞の種類及びその発話スタイルに基づいて発話意図を抽出するための抽出手段とを含む、発話意図情報検出装置。 - 前記第2の音声処理手段は、前記発話音声信号の発話区間中にボーカル・フライ区間が占める割合を算出するための手段と、前記発話音声信号の低周波帯域に含まれる最大周波数成分と高周波帯域に含まれる最大周波数成分との差であるスペクトル傾斜を算出するための手段とを含み、
前記特定手段は、ボーカル・フライ区間が占める割合とスペクトル傾斜とに基づくりきみ度合いについての情報を用いて発話スタイルを特定するための手段を含む、請求項1に記載の発話意図情報検出装置。 - 前記第2の音声処理手段は、前記発話音声信号の発話区間中に非周期性/ダブル周期性区間が占める割合を算出するための手段を含み、
前記特定手段は、非周期性/ダブル周期性区間が占める割合についての情報を用いて発話スタイルを特定するための手段を含む、請求項1に記載の発話意図情報検出装置。 - 前記第2の音声処理手段は、前記発話音声信号の発話区間中に気息性区間が占める割合を算出するための手段を含み、
前記特定手段は、気息性区間が占める割合についての情報を用いて発話スタイルを特定するための手段を含む、請求項1に記載の発話意図情報検出装置。 - コンピュータにより実行されると、当該コンピュータを請求項1〜請求項4のいずれかに記載の発話意図情報検出装置として動作させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009064131A JP5382780B2 (ja) | 2009-03-17 | 2009-03-17 | 発話意図情報検出装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009064131A JP5382780B2 (ja) | 2009-03-17 | 2009-03-17 | 発話意図情報検出装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010217502A JP2010217502A (ja) | 2010-09-30 |
JP5382780B2 true JP5382780B2 (ja) | 2014-01-08 |
Family
ID=42976434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009064131A Active JP5382780B2 (ja) | 2009-03-17 | 2009-03-17 | 発話意図情報検出装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5382780B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015169827A (ja) * | 2014-03-07 | 2015-09-28 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
JP6465077B2 (ja) | 2016-05-31 | 2019-02-06 | トヨタ自動車株式会社 | 音声対話装置および音声対話方法 |
KR20180025634A (ko) | 2016-09-01 | 2018-03-09 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
KR20180084394A (ko) | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 발화 완료 감지 방법 및 이를 구현한 전자 장치 |
JP7151181B2 (ja) | 2018-05-31 | 2022-10-12 | トヨタ自動車株式会社 | 音声対話システム、その処理方法及びプログラム |
JP7001126B2 (ja) * | 2020-06-17 | 2022-01-19 | カシオ計算機株式会社 | 感情推定装置、感情推定方法及びプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3673507B2 (ja) * | 2002-05-16 | 2005-07-20 | 独立行政法人科学技術振興機構 | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
JP4677548B2 (ja) * | 2005-09-16 | 2011-04-27 | 株式会社国際電気通信基礎技術研究所 | パラ言語情報検出装置及びコンピュータプログラム |
JP4914295B2 (ja) * | 2007-06-21 | 2012-04-11 | パナソニック株式会社 | 力み音声検出装置 |
-
2009
- 2009-03-17 JP JP2009064131A patent/JP5382780B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010217502A (ja) | 2010-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hansen et al. | Speech under stress: Analysis, modeling and recognition | |
Drugman et al. | Glottal source processing: From analysis to applications | |
JP5382780B2 (ja) | 発話意図情報検出装置及びコンピュータプログラム | |
JP2006171750A (ja) | 音声認識のための特徴ベクトル抽出方法 | |
JPWO2007046267A1 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
JP2006267465A (ja) | 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体 | |
US8086449B2 (en) | Vocal fry detecting apparatus | |
JPH10133693A (ja) | 音声認識装置 | |
Pao et al. | Combining acoustic features for improved emotion recognition in mandarin speech | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
JP3673507B2 (ja) | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム | |
CN112151066A (zh) | 基于声音特征识别的语言冲突监测方法、介质及设备 | |
JP4677548B2 (ja) | パラ言語情報検出装置及びコンピュータプログラム | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
JP2007316330A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
Revathy et al. | Performance comparison of speaker and emotion recognition | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Ishi | Perceptually-related F0 parameters for automatic classification of phrase final tones | |
KR101560833B1 (ko) | 음성 신호를 이용한 감정 인식 장치 및 방법 | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
JP2006154212A (ja) | 音声評価方法および評価装置 | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 | |
Ishi et al. | Evaluation of prosodic and voice quality features on automatic extraction of paralinguistic information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120229 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130926 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5382780 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |