JPH0376472B2 - - Google Patents
Info
- Publication number
- JPH0376472B2 JPH0376472B2 JP57024388A JP2438882A JPH0376472B2 JP H0376472 B2 JPH0376472 B2 JP H0376472B2 JP 57024388 A JP57024388 A JP 57024388A JP 2438882 A JP2438882 A JP 2438882A JP H0376472 B2 JPH0376472 B2 JP H0376472B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- normalized
- detected
- speech
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 abstract description 10
- 239000000284 extract Substances 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 15
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 2
- 238000010223 real-time analysis Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
【発明の詳細な説明】
本発明は音声の分析における音声区間の検出と
検出された区間が有声音か無声音かの判定分類を
行う方式に係り、特に入力音声のレベルに依存し
ない上記検出と分類の確実な実行に好適な方式に
関する。
検出された区間が有声音か無声音かの判定分類を
行う方式に係り、特に入力音声のレベルに依存し
ない上記検出と分類の確実な実行に好適な方式に
関する。
音声の合成または認識のための分析において、
もつとも基本的な処理として、音声区間の検出と
検出された区間が有声区間か、無声区間かの判定
(分類)がある。これが正確かつ確実に行われな
いと、合成音声の音質が劣化したり、音声認識の
誤り率が増加したりする。
もつとも基本的な処理として、音声区間の検出と
検出された区間が有声区間か、無声区間かの判定
(分類)がある。これが正確かつ確実に行われな
いと、合成音声の音質が劣化したり、音声認識の
誤り率が増加したりする。
一般に、これらの検出、分類には入力音声の強
度(分析フレーム別の平均エネルギー)が重要な
決定因子となる。しかし入力音声の強度の絶対値
を使うことは、結果が入力条件に依存することと
なり望ましくない。従来のオフラインでの分析
(たとえば合成のための分析)では、ある長時間
区間(たとえば一個の単語の全発声区間)におけ
るフレーム別平均エネルギーの最大値で正規化し
た強度を用いることでこの対策としているが、実
時間音声分析合成や認識ではこうした対策がとれ
ないという欠点があつた。
度(分析フレーム別の平均エネルギー)が重要な
決定因子となる。しかし入力音声の強度の絶対値
を使うことは、結果が入力条件に依存することと
なり望ましくない。従来のオフラインでの分析
(たとえば合成のための分析)では、ある長時間
区間(たとえば一個の単語の全発声区間)におけ
るフレーム別平均エネルギーの最大値で正規化し
た強度を用いることでこの対策としているが、実
時間音声分析合成や認識ではこうした対策がとれ
ないという欠点があつた。
本発明は、上記問題点を解決するためになされ
たもので、実時間分析においても確実に機能し、
かつ入力音声の強度の相対的な変動に依存しない
音声区間の検出と検出された区間での有声、無声
の判定分類方式を提供することを目的とする。
たもので、実時間分析においても確実に機能し、
かつ入力音声の強度の相対的な変動に依存しない
音声区間の検出と検出された区間での有声、無声
の判定分類方式を提供することを目的とする。
この目的を達成するため本発明においては、入
力音声信号の相対レベル変動に依存しない3種の
パラメータを入力音声信号より抽出し、これらパ
ラメータのもつている物理的意味にもとづき、音
声区間の検出とその区間での有声、無声の判定分
類をおこなう点に特徴がある。
力音声信号の相対レベル変動に依存しない3種の
パラメータを入力音声信号より抽出し、これらパ
ラメータのもつている物理的意味にもとづき、音
声区間の検出とその区間での有声、無声の判定分
類をおこなう点に特徴がある。
音声の分析は通常20〜30ミリ秒間のデータを1
ブロツクとし、10〜20ミリ秒間隔で行われる。1
ブロツクのデータから抽出される正規化主要パラ
メータの中で、とくに本発明に関連して重要なパ
ラメータは次の3つである。
ブロツクとし、10〜20ミリ秒間隔で行われる。1
ブロツクのデータから抽出される正規化主要パラ
メータの中で、とくに本発明に関連して重要なパ
ラメータは次の3つである。
(1) k1=γ1/γ0;正規化1次偏自己相関係数
(γ0、γ1は0次および1次の自己相関係数) (2) EN=P 〓i=1 (1−k2 1); 正規化残差パワー(pは分析次数) (3) φ;正規化残差相関のピーク値 これらの諸量はいずれも正規化されており、原
理的には入力音声信号の相対レベル変動には依存
しない。これらのパラメータの値が実際にどのよ
うな値をとるかの1例を、第1図(男声の場合)
と第2図(女声の場合)に示す。
(γ0、γ1は0次および1次の自己相関係数) (2) EN=P 〓i=1 (1−k2 1); 正規化残差パワー(pは分析次数) (3) φ;正規化残差相関のピーク値 これらの諸量はいずれも正規化されており、原
理的には入力音声信号の相対レベル変動には依存
しない。これらのパラメータの値が実際にどのよ
うな値をとるかの1例を、第1図(男声の場合)
と第2図(女声の場合)に示す。
これら多数の分析結果およびその各パラメータ
がもつている物理的な意味から、第3図のような
検出分類アルゴリズムが考えられる。
がもつている物理的な意味から、第3図のような
検出分類アルゴリズムが考えられる。
こゝでVは有声音、Uは無声音、は無音を示
す。
す。
第3図でα1とα2はパラメータENに関し、また
β1とβ2はパラメータk1に関してあらかじめ設定し
ておく判定いき値であり、たとえば、次のような
値とする。
β1とβ2はパラメータk1に関してあらかじめ設定し
ておく判定いき値であり、たとえば、次のような
値とする。
α1=0.2、α2=0.6
β1=0.4、β2=0.2
この処理をフローの形で第4図に示す。
以下、本発明にもとづき本発明を詳細に説明す
る。
る。
第5図は本発明の方式を用いた音声合成装置の
一実施例のブロツク構成図である。
一実施例のブロツク構成図である。
1ブロツク分の音声波形1が、2つの分析回路
2と3に与えられる。2は偏自己相関分析による
偏自己相関係数k1、k2、…、kpおよび正規化残差
パワーp0を求める分析回路であり、その処理内容
については公知である。(中田和男:「音声」(コ
ロナ社)、1977、第3章、3.2.5および3.2.6また
は、安居院、中島:「コンピユータ音声処理」(産
報出版)、1980、第2章参照) その出力4として、k1およびp0が判定回路6に
入力される。
2と3に与えられる。2は偏自己相関分析による
偏自己相関係数k1、k2、…、kpおよび正規化残差
パワーp0を求める分析回路であり、その処理内容
については公知である。(中田和男:「音声」(コ
ロナ社)、1977、第3章、3.2.5および3.2.6また
は、安居院、中島:「コンピユータ音声処理」(産
報出版)、1980、第2章参照) その出力4として、k1およびp0が判定回路6に
入力される。
一方3は音源分析回路であり、正規化残差相関
φを求める。その処理内容についても公知である
(上記2文献参照)。その出力5としてφが判定回
路6に入力される。
φを求める。その処理内容についても公知である
(上記2文献参照)。その出力5としてφが判定回
路6に入力される。
判定回路6においては第3図の論理、すなわち
第4図のフローにしたがつて所定のいき値10、
11、12にもとづき検出分類を行う。これらの処理
は、たとえばマイクロプロセツサを使つて容易に
実現できる。判定回路6の出力はV(有声音)、U
(無声音)または(無音)に応じてそれぞれ端
子7,8,9から得られる。
第4図のフローにしたがつて所定のいき値10、
11、12にもとづき検出分類を行う。これらの処理
は、たとえばマイクロプロセツサを使つて容易に
実現できる。判定回路6の出力はV(有声音)、U
(無声音)または(無音)に応じてそれぞれ端
子7,8,9から得られる。
1ブロツクのデータの処理が終れば次のブロツ
クの処理が開始され、以下これがくりかえされ
る。
クの処理が開始され、以下これがくりかえされ
る。
第6図は本発明の方法に従つて時間軸tにたい
して実時間で入力音声の音声区間(S=U、V又
は)の検出と、検出された各区間(S)におけ
る音声の判定分類(U又はV)をおこなつた実験
の結果であり、第7図は別の音声についての同様
の結果を要因別の変化とそれにもとづく総合分類
結果として示したものであるが、この結果によれ
ば上記検出と判定分類が正しくおこなわれており
本発明の方法が有効なことがわかる。
して実時間で入力音声の音声区間(S=U、V又
は)の検出と、検出された各区間(S)におけ
る音声の判定分類(U又はV)をおこなつた実験
の結果であり、第7図は別の音声についての同様
の結果を要因別の変化とそれにもとづく総合分類
結果として示したものであるが、この結果によれ
ば上記検出と判定分類が正しくおこなわれており
本発明の方法が有効なことがわかる。
以上説明したごとく、本発明によれば、音声区
間の検出、その有声音、無声音での分類が、その
信号の入力レベルの変動に関係なく、かつそのフ
レームだけで正確かつ確実に行われるので、実時
間分析の必要な音声の分析合成伝送系や、音声認
識において音質を改善し、誤りを減少させる効果
がある。
間の検出、その有声音、無声音での分類が、その
信号の入力レベルの変動に関係なく、かつそのフ
レームだけで正確かつ確実に行われるので、実時
間分析の必要な音声の分析合成伝送系や、音声認
識において音質を改善し、誤りを減少させる効果
がある。
第1図と第2図は本発明の基本となる正規化パ
ラメータ(k1、EN、φ)の分析抽出結果の一例
を示す図、第3図は本発明にもとづく検出、分類
の原理を示す図、第4図は第3図の原理に従つて
検出、分類をおこなう処理のフローを示す図、第
5図は本発明の一実施例のブロツク構成図、第
6,7図は本発明による検出と分類の実験結果の
一例を示す図である。 3……音源分析回路。
ラメータ(k1、EN、φ)の分析抽出結果の一例
を示す図、第3図は本発明にもとづく検出、分類
の原理を示す図、第4図は第3図の原理に従つて
検出、分類をおこなう処理のフローを示す図、第
5図は本発明の一実施例のブロツク構成図、第
6,7図は本発明による検出と分類の実験結果の
一例を示す図である。 3……音源分析回路。
Claims (1)
- 1 音声波形を含むことを検出された入力信号を
所定間隔ごとにブロツク化し、全て音声パワーで
正規化することによつて得られるパラメータであ
つて、各ブロツクにおける信号から該信号の相対
レベル変動に依存しない正規化1次偏自己関数係
数、正規化残差パワー及び正規化残差相関係数の
ピーク値からなる3つのパラメータを抽出し、該
パラメータに算術的な閾値判定をおこなうことに
より、上記信号区間が音声区間であるか否かを検
出し、該検出された音声区間における音声の分類
をおこなうことを特徴とする音声区間の検出・分
類方式。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57024388A JPS58143394A (ja) | 1982-02-19 | 1982-02-19 | 音声区間の検出・分類方式 |
US06/462,015 US4720862A (en) | 1982-02-19 | 1983-01-28 | Method and apparatus for speech signal detection and classification of the detected signal into a voiced sound, an unvoiced sound and silence |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57024388A JPS58143394A (ja) | 1982-02-19 | 1982-02-19 | 音声区間の検出・分類方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS58143394A JPS58143394A (ja) | 1983-08-25 |
JPH0376472B2 true JPH0376472B2 (ja) | 1991-12-05 |
Family
ID=12136776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57024388A Granted JPS58143394A (ja) | 1982-02-19 | 1982-02-19 | 音声区間の検出・分類方式 |
Country Status (2)
Country | Link |
---|---|
US (1) | US4720862A (ja) |
JP (1) | JPS58143394A (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4920568A (en) * | 1985-07-16 | 1990-04-24 | Sharp Kabushiki Kaisha | Method of distinguishing voice from noise |
JP2707564B2 (ja) * | 1987-12-14 | 1998-01-28 | 株式会社日立製作所 | 音声符号化方式 |
JP2656069B2 (ja) * | 1988-05-13 | 1997-09-24 | 富士通株式会社 | 音声検出装置 |
EP0381507A3 (en) * | 1989-02-02 | 1991-04-24 | Kabushiki Kaisha Toshiba | Silence/non-silence discrimination apparatus |
JP2573352B2 (ja) * | 1989-04-10 | 1997-01-22 | 富士通株式会社 | 音声検出装置 |
US5146502A (en) * | 1990-02-26 | 1992-09-08 | Davis, Van Nortwick & Company | Speech pattern correction device for deaf and voice-impaired |
JP2758688B2 (ja) * | 1990-03-08 | 1998-05-28 | 日本電気株式会社 | 音声合成器 |
JPH0467200A (ja) * | 1990-07-09 | 1992-03-03 | Matsushita Electric Ind Co Ltd | 有音区間判定方法 |
JPH04223497A (ja) * | 1990-12-25 | 1992-08-13 | Oki Electric Ind Co Ltd | 有音区間の検出方法 |
JP2746033B2 (ja) * | 1992-12-24 | 1998-04-28 | 日本電気株式会社 | 音声復号化装置 |
BE1007355A3 (nl) * | 1993-07-26 | 1995-05-23 | Philips Electronics Nv | Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. |
US6708146B1 (en) | 1997-01-03 | 2004-03-16 | Telecommunications Research Laboratories | Voiceband signal classifier |
US5949864A (en) * | 1997-05-08 | 1999-09-07 | Cox; Neil B. | Fraud prevention apparatus and method for performing policing functions for telephone services |
US6574321B1 (en) | 1997-05-08 | 2003-06-03 | Sentry Telecom Systems Inc. | Apparatus and method for management of policies on the usage of telecommunications services |
US6134524A (en) * | 1997-10-24 | 2000-10-17 | Nortel Networks Corporation | Method and apparatus to detect and delimit foreground speech |
US6424938B1 (en) * | 1998-11-23 | 2002-07-23 | Telefonaktiebolaget L M Ericsson | Complex signal activity detection for improved speech/noise classification of an audio signal |
US6795807B1 (en) * | 1999-08-17 | 2004-09-21 | David R. Baraff | Method and means for creating prosody in speech regeneration for laryngectomees |
US6535843B1 (en) * | 1999-08-18 | 2003-03-18 | At&T Corp. | Automatic detection of non-stationarity in speech signals |
JP2002032096A (ja) | 2000-07-18 | 2002-01-31 | Matsushita Electric Ind Co Ltd | 雑音区間/音声区間判定装置 |
JP4201470B2 (ja) * | 2000-09-12 | 2008-12-24 | パイオニア株式会社 | 音声認識システム |
US7472059B2 (en) * | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
JP4548953B2 (ja) * | 2001-03-02 | 2010-09-22 | 株式会社リコー | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム |
US6847930B2 (en) * | 2002-01-25 | 2005-01-25 | Acoustic Technologies, Inc. | Analog voice activity detector for telephone |
US7295976B2 (en) | 2002-01-25 | 2007-11-13 | Acoustic Technologies, Inc. | Voice activity detector for telephone |
US6754337B2 (en) | 2002-01-25 | 2004-06-22 | Acoustic Technologies, Inc. | Telephone having four VAD circuits |
FI118704B (fi) * | 2003-10-07 | 2008-02-15 | Nokia Corp | Menetelmä ja laite lähdekoodauksen tekemiseksi |
CN101197130B (zh) * | 2006-12-07 | 2011-05-18 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
CN101256772B (zh) * | 2007-03-02 | 2012-02-15 | 华为技术有限公司 | 确定非噪声音频信号归属类别的方法和装置 |
TWI403304B (zh) | 2010-08-27 | 2013-08-01 | Ind Tech Res Inst | 隨身語能偵知方法及其裝置 |
US9454976B2 (en) | 2013-10-14 | 2016-09-27 | Zanavox | Efficient discrimination of voiced and unvoiced sounds |
CN110838296B (zh) * | 2019-11-18 | 2022-04-29 | 锐迪科微电子科技(上海)有限公司 | 录音过程的控制方法、系统、电子设备和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3979557A (en) * | 1974-07-03 | 1976-09-07 | International Telephone And Telegraph Corporation | Speech processor system for pitch period extraction using prediction filters |
US4074069A (en) * | 1975-06-18 | 1978-02-14 | Nippon Telegraph & Telephone Public Corporation | Method and apparatus for judging voiced and unvoiced conditions of speech signal |
JPS6051720B2 (ja) * | 1975-08-22 | 1985-11-15 | 日本電信電話株式会社 | 音声の基本周期抽出装置 |
US4301329A (en) * | 1978-01-09 | 1981-11-17 | Nippon Electric Co., Ltd. | Speech analysis and synthesis apparatus |
CA1123955A (en) * | 1978-03-30 | 1982-05-18 | Tetsu Taguchi | Speech analysis and synthesis apparatus |
CH635695A5 (de) * | 1978-08-31 | 1983-04-15 | Landis & Gyr Ag | Detektor zur feststellung der anwesenheit mindestens eines elektrischen signals mit einer vorbestimmten charakteristik. |
JPS5648688A (en) * | 1979-09-28 | 1981-05-01 | Hitachi Ltd | Sound analyser |
JPS56104399A (en) * | 1980-01-23 | 1981-08-20 | Hitachi Ltd | Voice interval detection system |
-
1982
- 1982-02-19 JP JP57024388A patent/JPS58143394A/ja active Granted
-
1983
- 1983-01-28 US US06/462,015 patent/US4720862A/en not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
IEEE TRANSACTIONS ON ACOUSTICS SPEECH AND SIGNAL PROCESSING=1976 * |
Also Published As
Publication number | Publication date |
---|---|
US4720862A (en) | 1988-01-19 |
JPS58143394A (ja) | 1983-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0376472B2 (ja) | ||
US4780906A (en) | Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal | |
EP0625774B1 (en) | A method and an apparatus for speech detection | |
US8566088B2 (en) | System and method for automatic speech to text conversion | |
JPH0352640B2 (ja) | ||
Sahoo et al. | Silence removal and endpoint detection of speech signal for text independent speaker identification | |
WO1998038632A1 (en) | Method and system for establishing handset-dependent normalizing models for speaker recognition | |
US4817159A (en) | Method and apparatus for speech recognition | |
Weintraub | A computational model for separating two simultaneous talkers | |
US5995924A (en) | Computer-based method and apparatus for classifying statement types based on intonation analysis | |
KR20170073113A (ko) | 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치 | |
Seppänen et al. | Prosody-based classification of emotions in spoken finnish. | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
Rathina et al. | Basic analysis on prosodic features in emotional speech | |
Vishnubhotla et al. | An algorithm for multi-pitch tracking in co-channel speech. | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
Drakshayini et al. | Repetition detection using spectral parameters and multi tapering features | |
JPH04369695A (ja) | 音声判別装置 | |
JPH034918B2 (ja) | ||
Nellore et al. | Excitation Source and Vocal Tract System Based Acoustic Features for Detection of Nasals in Continuous Speech. | |
Fujisaki et al. | Automatic recognition of voiced stop consonants in CV and VCV utterances | |
JPH05249987A (ja) | 音声検出方法および音声検出装置 | |
Malucha et al. | Comparison of methods for determining speech voicing based on tests performed on paired consonants and continuous speech | |
Yusof et al. | Speech recognition application based on malaysian spoken vowels using autoregressive model of the vocal tract | |
KR100396748B1 (ko) | 유음구간추출처리장치및방법 |