JP2007079363A - パラ言語情報検出装置及びコンピュータプログラム - Google Patents
パラ言語情報検出装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2007079363A JP2007079363A JP2005269699A JP2005269699A JP2007079363A JP 2007079363 A JP2007079363 A JP 2007079363A JP 2005269699 A JP2005269699 A JP 2005269699A JP 2005269699 A JP2005269699 A JP 2005269699A JP 2007079363 A JP2007079363 A JP 2007079363A
- Authority
- JP
- Japan
- Prior art keywords
- information
- speech
- utterance
- ratio
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004590 computer program Methods 0.000 title claims description 4
- 238000012545 processing Methods 0.000 claims abstract description 90
- 238000001514 detection method Methods 0.000 claims description 60
- 238000004364 calculation method Methods 0.000 claims description 45
- 230000001755 vocal effect Effects 0.000 claims description 45
- 230000000737 periodic effect Effects 0.000 claims description 35
- 230000029058 respiratory gaseous exchange Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 abstract description 43
- 230000005236 sound signal Effects 0.000 abstract description 11
- 239000000284 extract Substances 0.000 abstract description 9
- 230000033764 rhythmic process Effects 0.000 abstract 4
- 238000005311 autocorrelation function Methods 0.000 description 44
- 239000011295 pitch Substances 0.000 description 23
- 238000010586 diagram Methods 0.000 description 19
- 238000000034 method Methods 0.000 description 12
- 230000008451 emotion Effects 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 238000005314 correlation function Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
Images
Abstract
【解決手段】 人間の発話音声信号から、発話内容に依存しないパラ言語情報を検出するためのパラ言語情報検出装置であって、発話音声信号の韻律に関する情報を処理するための韻律による音声処理部70と、発話音声信号の声質に関する情報を処理するための声質による音声処理部72と、韻律に関する情報と声質に関する情報とから発話音声に関するパラ言語情報を抽出するためのパラ言語情報抽出部74とを含む。
【選択図】 図3
Description
「自然発話における、知覚に関連した句末の音響的韻律特徴」.カルロス・トシノリ・イシイ、パーハム・モクタリ、ニック・キャンベル、ユーロスピーチ:pp.405−408、2003("Perceptually-related Acoustic-Prosodic Features of Phrase Finals in Spontaneous Speech", Carlos Toshinori Ishi, Parham Mokhtari, Nick Campbell, Eurospeech 2003: 405-408, 2003)
図3に、本実施の形態に係るパラ言語情報検出装置60の機能ブロック図を示す。図3を参照して、このパラ言語情報検出装置60は、韻律に基づいて発話音声信号を処理してパラ言語情報の抽出に使用するパラメータを出力するための韻律による音声処理部70と、声質に基づいて発話音声信号を処理してパラ言語情報の抽出に使用するパラメータを出力するための声質による音声処理部72と、韻律による音声処理部70と声質による音声処理部72とから得られたパラメータから、予め学習用データを用いて学習した、パラメータとパラ言語情報との関係を示す確率分布に従ってパラ言語情報を抽出して出力するためのパラ言語情報抽出部74とを含む。
図3を参照して、まず、ユーザが発話をすると、その発話音声が図示しないマイクにより発話音声信号に変換される。マイクによって変換された発話音声信号は、韻律による音声処理部70と声質による音声処理部72とに与えられる。この韻律による音声処理部70での処理によって句末トーン情報が得られる。声質による音声処理部72での処理によって発話全体に占めるボーカル・フライの割合、非周期性及びダブル周期性の割合、及び気息性の割合に関する情報が得られる。韻律による音声処理部70及び声質による音声処理部72での処理の詳細については後述する。
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図12はこのコンピュータシステム330の外観を示し、図13はコンピュータシステム330の内部構成を示す。
72 声質による音声処理部
74 パラ言語情報抽出部
122 ボーカル・フライ割合算出部
126 非周期性/ダブル周期性割合算出部
130 気息性割合算出部
Claims (7)
- 人間の発話音声信号から、発話内容に依存しないパラ言語情報を検出するためのパラ言語情報検出装置であって、
前記発話音声信号の韻律に関する情報を処理するための第1の音声処理手段と、
前記発話音声信号の声質に関する情報を処理するための第2の音声処理手段と、
前記韻律に関する情報と前記声質に関する情報とから発話音声に関するパラ言語情報を抽出するためのパラ言語情報抽出手段とを含む、パラ言語情報検出装置。 - 前記第2の音声処理手段は、前記発話音声信号の発話区間中にボーカル・フライ区間が占める割合を算出するためのボーカル・フライ割合算出手段を含む、請求項1に記載のパラ言語情報検出装置。
- 前記第2の音声処理手段は、さらに、前記発話音声信号の発話区間中に非周期性/ダブル周期性区間が占める割合を算出するための非周期性/ダブル周期性割合算出手段を含む、請求項2に記載のパラ言語情報検出装置。
- 前記第2の音声処理手段は、前記発話音声信号の発話区間中に非周期性/ダブル周期性区間が占める割合を算出するための非周期性/ダブル周期性割合算出手段を含む、請求項1に記載のパラ言語情報検出装置。
- 前記第2の音声処理手段は、さらに、前記発話音声信号の発話区間中に気息性区間が占める割合を算出するための気息性割合算出手段を含む、請求項2〜請求項4のいずれかに記載のパラ言語情報検出装置。
- 前記第2の音声処理手段は、前記発話音声信号の発話区間中に気息性区間が占める割合を算出するための気息性割合算出手段を含む、請求項1に記載のパラ言語情報検出装置。
- コンピュータにより実行されると、当該コンピュータを請求項1〜請求項6のいずれかに記載のパラ言語情報検出装置として動作させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005269699A JP4677548B2 (ja) | 2005-09-16 | 2005-09-16 | パラ言語情報検出装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005269699A JP4677548B2 (ja) | 2005-09-16 | 2005-09-16 | パラ言語情報検出装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007079363A true JP2007079363A (ja) | 2007-03-29 |
JP4677548B2 JP4677548B2 (ja) | 2011-04-27 |
Family
ID=37939706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005269699A Active JP4677548B2 (ja) | 2005-09-16 | 2005-09-16 | パラ言語情報検出装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4677548B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010217502A (ja) * | 2009-03-17 | 2010-09-30 | Advanced Telecommunication Research Institute International | 発話意図情報検出装置及びコンピュータプログラム |
WO2013123747A1 (zh) * | 2012-02-24 | 2013-08-29 | 中兴通讯股份有限公司 | 一种基于音频实现设备解锁的方法和系统 |
JP2016186515A (ja) * | 2015-03-27 | 2016-10-27 | 日本電信電話株式会社 | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム |
US10679645B2 (en) | 2015-11-18 | 2020-06-09 | Fujitsu Limited | Confused state determination device, confused state determination method, and storage medium |
WO2020250266A1 (ja) * | 2019-06-10 | 2020-12-17 | 日本電信電話株式会社 | 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003508805A (ja) * | 1999-08-31 | 2003-03-04 | アクセンチュア リミテッド ライアビリティ パートナーシップ | 複数の音声信号パラメータの分析を通して音声信号の感情を検出する装置、方法、及び、製造物品 |
JP2003330478A (ja) * | 2002-05-16 | 2003-11-19 | Japan Science & Technology Corp | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
-
2005
- 2005-09-16 JP JP2005269699A patent/JP4677548B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003508805A (ja) * | 1999-08-31 | 2003-03-04 | アクセンチュア リミテッド ライアビリティ パートナーシップ | 複数の音声信号パラメータの分析を通して音声信号の感情を検出する装置、方法、及び、製造物品 |
JP2003330478A (ja) * | 2002-05-16 | 2003-11-19 | Japan Science & Technology Corp | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010217502A (ja) * | 2009-03-17 | 2010-09-30 | Advanced Telecommunication Research Institute International | 発話意図情報検出装置及びコンピュータプログラム |
WO2013123747A1 (zh) * | 2012-02-24 | 2013-08-29 | 中兴通讯股份有限公司 | 一种基于音频实现设备解锁的方法和系统 |
JP2016186515A (ja) * | 2015-03-27 | 2016-10-27 | 日本電信電話株式会社 | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム |
US10679645B2 (en) | 2015-11-18 | 2020-06-09 | Fujitsu Limited | Confused state determination device, confused state determination method, and storage medium |
WO2020250266A1 (ja) * | 2019-06-10 | 2020-12-17 | 日本電信電話株式会社 | 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム |
JPWO2020250266A1 (ja) * | 2019-06-10 | 2020-12-17 | ||
JP7176629B2 (ja) | 2019-06-10 | 2022-11-22 | 日本電信電話株式会社 | 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4677548B2 (ja) | 2011-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hansen et al. | Speech under stress: Analysis, modeling and recognition | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
WO2006132159A1 (ja) | ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム | |
JP2006171750A (ja) | 音声認識のための特徴ベクトル抽出方法 | |
JP3006677B2 (ja) | 音声認識装置 | |
JP2013205842A (ja) | プロミネンスを使用した音声対話システム | |
JP5382780B2 (ja) | 発話意図情報検出装置及びコンピュータプログラム | |
JP4736632B2 (ja) | ボーカル・フライ検出装置及びコンピュータプログラム | |
JP4677548B2 (ja) | パラ言語情報検出装置及びコンピュータプログラム | |
Ibrahim et al. | Robust feature extraction based on spectral and prosodic features for classical Arabic accents recognition | |
JP2003255994A (ja) | 音声認識装置及び音声認識方法 | |
Kaushik et al. | Automatic detection and removal of disfluencies from spontaneous speech | |
CA2483607C (en) | Syllabic nuclei extracting apparatus and program product thereof | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
JP2007316330A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
Revathy et al. | Performance comparison of speaker and emotion recognition | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
Hasija et al. | Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
JP3906327B2 (ja) | 音声入力モード変換システム | |
JP2006154212A (ja) | 音声評価方法および評価装置 | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101012 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101221 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4677548 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140210 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |