JP2007065226A - ボーカル・フライ検出装置及びコンピュータプログラム - Google Patents
ボーカル・フライ検出装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2007065226A JP2007065226A JP2005250454A JP2005250454A JP2007065226A JP 2007065226 A JP2007065226 A JP 2007065226A JP 2005250454 A JP2005250454 A JP 2005250454A JP 2005250454 A JP2005250454 A JP 2005250454A JP 2007065226 A JP2007065226 A JP 2007065226A
- Authority
- JP
- Japan
- Prior art keywords
- periodicity
- frame
- peak
- power
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001755 vocal effect Effects 0.000 title claims abstract description 12
- 238000004590 computer program Methods 0.000 title claims description 4
- 238000001514 detection method Methods 0.000 claims description 90
- 238000009432 framing Methods 0.000 claims description 22
- 230000037433 frameshift Effects 0.000 claims description 7
- 230000000737 periodic effect Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 25
- 238000004364 calculation method Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 24
- 230000004044 response Effects 0.000 description 17
- 238000003780 insertion Methods 0.000 description 11
- 230000037431 insertion Effects 0.000 description 11
- 238000000034 method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000007689 inspection Methods 0.000 description 9
- 238000005311 autocorrelation function Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 230000007423 decrease Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000005284 excitation Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- HOKDBMAJZXIPGC-UHFFFAOYSA-N Mequitazine Chemical compound C12=CC=CC=C2SC2=CC=CC=C2N1CC1C(CC2)CCN2C1 HOKDBMAJZXIPGC-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 208000002173 dizziness Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
【解決手段】VF検出装置122は、発話信号102を第1のフレーム長で第1のフレームシフト量の第1のフレームでフレーム化し、その各々のパワーのピークを検出する超短期ピーク検出処理部162と、発話信号102を、第1のフレーム長より大きな第2のフレーム長で、第1のフレーム長より大きな第2のフレームシフト量の第2のフレームでフレーム化し、その各々における周期性の有無を判定する短期周期性検出部164と、検出されたパワーピークのうちで、周期性がないと判定されたフレーム内のものを選択する周期性検査部166と、選択されたパワーピークの各々について、相互相関が高い隣接するパワーピークを探索してその間の区間をVF区間として検出する類似性検査部168とを含む。
【選択図】 図2
Description
イシイ、C.T.、「きしり声検出のための自己相関に基づくパラメータの分析」、第2回音声韻律学国際会議予稿集、pp.643−646、2004年。(Ishi, C.T., "Analysis of Autocorrelation-based parameters for Creaky Voice Detection," Proc. of The 2nd International Conference on Speech Prosody: 643-646, 2004.)
フレーム長に関する問題を解決するために、本発明の発明者たちは、固定長の分析フレーム中において周期性が見出されない場合に声門パルスに同期した処理を行なうことにした。そのために、制動と低基本周波数というVFの属性に基づいて声門パルスの候補を検出する。これは、長いパルス間の間隔で生ずる制動には、発話信号の振幅包絡、すなわち局部的なパワーの曲線に、上下動が生ずるという現象に基づいている。
図1に、本発明の一実施の形態に係るボーカル・フライ検出装置122を採用した自動対話システム100のブロック図を示す。図1を参照して、この自動対話システム100は、入来する発話信号102に対する音声認識を行ない、音声認識結果130をテキストデータとして出力するための音声認識装置120と、発話信号102のうちのVF期間を検出し、VF区間情報132を出力するためのVF検出装置122とを含む。
以上述べた構成を有する自動対話システム100、特にVF検出装置122は以下のように動作する。図1を参照して、マイクロフォンなどから入力された発話信号102はデジタル化されて音声認識装置120及びVF検出装置122に与えられる。音声認識装置120は、この音声信号に対して音声認識処理を行ない、可能性の高い複数個の音声認識結果のテキスト情報からなる音声認識結果130を応答作成装置124に与える。一方、VF検出装置122は、以下に説明するような動作をして音声信号中でVFセグメントと思われるフレームを特定し、VF区間情報132を応答作成装置124に与える。
上記した実施の形態によるVF検出装置122のVFに関する自動検出を、自動検出されたVFセグメントの持続期間(VFdur)及び人手によりVFとして判定されラベリングされた期間(VFdur_human)を比較することにより評価した。以下、VFdurとVFdur_humanとの比をVF率と呼ぶ。VFとラベリングされたセグメントについては、VF率が2/3より大きい場合のみ正確に検出されたものと判定した。VFとラベリングされなかったセグメントについて自動検出によりVFと判定されたものの数(VFdur_ins)を数えることにより、挿入エラーを検査した。検出結果及び挿入エラー結果を、検出性能又は挿入エラーの重大性によって二つのグループ、「検出」と「検出?」というグループに分けた。「検出?」グループは、VF率が1/3〜2/3の範囲で「VF」として検出されたセグメントと、「VFdur_ins」の値が30ミリ秒を下回るものとを含んでいる。
この実施の形態に係るVF検出装置122及び自動対話システム100は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現できる。図15はこのコンピュータシステム330の外観を示し、図16はコンピュータシステム330の内部構成を示す。
102,174 発話信号
104 音声信号
120 音声認識装置
122 VF検出装置
124 応答作成装置
126 知識ベース
128 音声合成装置
130 音声認識結果
132 VF区間情報
160 バンドパスフィルタ
162 超短期ピーク検出処理部
164 短期周期性検出部
166 周期性検査部
168 類似性検査部
170 ピーク位置情報
172 短期周期性情報
176 VF候補情報
190,250 フレーム化処理部
192 超短期パワー算出部
194,252 メモリ
196 ピーク比較部
254 IFP算出部
258 周期性判定部
260 連続性検査部
310 IPS算出部
312 IPS比較部
314 しきい値記憶部
316 VFセグメント決定部
Claims (4)
- 発話信号中のボーカル・フライ区間を検出するためのボーカル・フライ検出装置であって、
発話信号を、第1のフレーム長でかつ第1のフレームシフト量の第1のフレームでフレーム化するための第1のフレーム化手段と、
前記第1のフレーム化手段の出力する一連の第1のフレームの各々のパワーのピークを検出するためのパワーピーク検出手段と、
前記発話信号を、前記第1のフレーム長よりも大きな第2のフレーム長で、かつ前記第1のフレームシフト量よりも大きな第2のフレームシフト量の第2のフレームでフレーム化するための第2のフレーム化手段と、
前記第2のフレーム化手段の出力する一連の第2のフレームの各々の内部における周期性の有無を判定するための周期性判定手段と、
前記パワーピーク検出手段により検出されたパワーピークのうちで、前記周期性判定手段により周期性がないと判定された前記第2のフレーム内のパワーピークを選択するためのパワーピーク選択手段と、
前記パワーピーク選択手段により選択されたパワーピークの各々について、当該パワーピークを含む所定区間内の他のパワーピークとの間の相互相関が所定のしきい値よりも大きなパワーピークを探索し、前記発話信号中の、当該パワーピークを含む所定の区間をボーカル・フライ区間として検出するための手段とを含む、ボーカル・フライ検出装置。 - 前記周期性判定手段は、前記一連の第2のフレームの各々において、当該フレーム内での最大パワーピークの、当該フレーム内の所定の遅延範囲内での自己相関値の関数としてフレーム内の周期性の尺度を算出し、当該自己相関値のピークが所定のしきい値関数よりも大きいか否かにしたがって、周期性があるか否かを判定するための手段と、
前記判定するための手段により周期性があると判定された前記第2のフレームのうち、前記周期性の尺度が予め定める定数よりも大きなフレームが所定個数連続している部分以外の前記第2のフレームの前記周期性の尺度の値を、周期性がないと判定される値に補正するための周期性補正手段を含む、請求項1に記載のボーカル・フライ検出装置。 - 前記発話信号を前記第1のフレーム化手段及び前記第2のフレーム化手段に与えるに先立って、前記発話信号の所定の周波数帯域の成分以外の成分を除波するためのフィルタリング手段をさらに含む、請求項1又は請求項2に記載のボーカル・フライ検出装置。
- コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項3のいずれかに記載のボーカル・フライ検出装置として動作させる、コンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005250454A JP4736632B2 (ja) | 2005-08-31 | 2005-08-31 | ボーカル・フライ検出装置及びコンピュータプログラム |
US11/990,396 US8086449B2 (en) | 2005-08-31 | 2005-12-20 | Vocal fry detecting apparatus |
PCT/JP2005/023365 WO2007026436A1 (ja) | 2005-08-31 | 2005-12-20 | ボーカル・フライ検出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005250454A JP4736632B2 (ja) | 2005-08-31 | 2005-08-31 | ボーカル・フライ検出装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007065226A true JP2007065226A (ja) | 2007-03-15 |
JP4736632B2 JP4736632B2 (ja) | 2011-07-27 |
Family
ID=37808540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005250454A Active JP4736632B2 (ja) | 2005-08-31 | 2005-08-31 | ボーカル・フライ検出装置及びコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8086449B2 (ja) |
JP (1) | JP4736632B2 (ja) |
WO (1) | WO2007026436A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010098130A1 (ja) * | 2009-02-27 | 2010-09-02 | パナソニック株式会社 | トーン判定装置およびトーン判定方法 |
WO2017175351A1 (ja) * | 2016-04-07 | 2017-10-12 | 株式会社ソニー・インタラクティブエンタテインメント | 情報処理装置 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101578659B (zh) * | 2007-05-14 | 2012-01-18 | 松下电器产业株式会社 | 音质转换装置及音质转换方法 |
JP5395066B2 (ja) * | 2007-06-22 | 2014-01-22 | ヴォイスエイジ・コーポレーション | 音声区間検出および音声信号分類ための方法および装置 |
US8311831B2 (en) * | 2007-10-01 | 2012-11-13 | Panasonic Corporation | Voice emphasizing device and voice emphasizing method |
TWI487297B (zh) * | 2009-06-24 | 2015-06-01 | Mstar Semiconductor Inc | 干擾波偵測裝置與方法 |
WO2015008783A1 (ja) * | 2013-07-18 | 2015-01-22 | 日本電信電話株式会社 | 線形予測分析装置、方法、プログラム及び記録媒体 |
US9484036B2 (en) * | 2013-08-28 | 2016-11-01 | Nuance Communications, Inc. | Method and apparatus for detecting synthesized speech |
KR20220061505A (ko) * | 2020-11-06 | 2022-05-13 | 현대자동차주식회사 | 감정 조절 시스템 및 감정 조절 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3183074B2 (ja) * | 1994-06-14 | 2001-07-03 | 松下電器産業株式会社 | 音声符号化装置 |
DE69614799T2 (de) * | 1995-05-10 | 2002-06-13 | Koninkl Philips Electronics Nv | Übertragungssystem und -verfahren für die sprachkodierung mit verbesserter detektion der grundfrequenz |
US7337108B2 (en) * | 2003-09-10 | 2008-02-26 | Microsoft Corporation | System and method for providing high-quality stretching and compression of a digital audio signal |
US7890323B2 (en) * | 2004-07-28 | 2011-02-15 | The University Of Tokushima | Digital filtering method, digital filtering equipment, digital filtering program, and recording medium and recorded device which are readable on computer |
-
2005
- 2005-08-31 JP JP2005250454A patent/JP4736632B2/ja active Active
- 2005-12-20 US US11/990,396 patent/US8086449B2/en active Active
- 2005-12-20 WO PCT/JP2005/023365 patent/WO2007026436A1/ja active Application Filing
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010098130A1 (ja) * | 2009-02-27 | 2010-09-02 | パナソニック株式会社 | トーン判定装置およびトーン判定方法 |
WO2017175351A1 (ja) * | 2016-04-07 | 2017-10-12 | 株式会社ソニー・インタラクティブエンタテインメント | 情報処理装置 |
JPWO2017175351A1 (ja) * | 2016-04-07 | 2018-08-02 | 株式会社ソニー・インタラクティブエンタテインメント | 情報処理装置 |
US10839800B2 (en) | 2016-04-07 | 2020-11-17 | Sony Interactive Entertainment Inc. | Information processing apparatus |
Also Published As
Publication number | Publication date |
---|---|
US8086449B2 (en) | 2011-12-27 |
JP4736632B2 (ja) | 2011-07-27 |
WO2007026436A1 (ja) | 2007-03-08 |
US20090089051A1 (en) | 2009-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4736632B2 (ja) | ボーカル・フライ検出装置及びコンピュータプログラム | |
Drugman et al. | Joint robust voicing detection and pitch estimation based on residual harmonics | |
US7925502B2 (en) | Pitch model for noise estimation | |
Ibrahim | Preprocessing technique in automatic speech recognition for human computer interaction: an overview | |
Yegnanarayana et al. | Epoch-based analysis of speech signals | |
Kulmer et al. | Phase estimation in single channel speech enhancement using phase decomposition | |
EP1145225A1 (en) | Tone features for speech recognition | |
Manohar et al. | Speech enhancement in nonstationary noise environments using noise properties | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
JP5382780B2 (ja) | 発話意図情報検出装置及びコンピュータプログラム | |
Kaushik et al. | Automatic detection and removal of disfluencies from spontaneous speech | |
CA2483607A1 (en) | Syllabic nuclei extracting apparatus and program product thereof | |
Godoy et al. | Unsupervised Acoustic Analyses of Normal and Lombard Speech, with Spectral Envelope Transformation to Improve Intelligibility. | |
Ishizuka et al. | Study of noise robust voice activity detection based on periodic component to aperiodic component ratio. | |
Pellegrino et al. | Automatic estimation of speaking rate in multilingual spontaneous speech | |
JP4677548B2 (ja) | パラ言語情報検出装置及びコンピュータプログラム | |
WO2015084658A1 (en) | Systems and methods for enhancing an audio signal | |
Zhao et al. | A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
Narendra et al. | Automatic detection of creaky voice using epoch parameters. | |
Ishi et al. | Proposal of acoustic measures for automatic detection of vocal fry. | |
Chazan et al. | Efficient periodicity extraction based on sine-wave representation and its application to pitch determination of speech signals. | |
Sudhakar et al. | Automatic speech segmentation to improve speech synthesis performance | |
Bachhav et al. | A novel filtering based approach for epoch extraction | |
Zahorian et al. | A spectral-temporal method for pitch tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080327 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4736632 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |