JP4282659B2 - 音声信号処理装置の音声区間検出装置及び方法 - Google Patents
音声信号処理装置の音声区間検出装置及び方法 Download PDFInfo
- Publication number
- JP4282659B2 JP4282659B2 JP2005334978A JP2005334978A JP4282659B2 JP 4282659 B2 JP4282659 B2 JP 4282659B2 JP 2005334978 A JP2005334978 A JP 2005334978A JP 2005334978 A JP2005334978 A JP 2005334978A JP 4282659 B2 JP4282659 B2 JP 4282659B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- region
- speech
- signal
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001514 detection method Methods 0.000 title claims description 71
- 230000005236 sound signal Effects 0.000 claims description 26
- 230000003044 adaptive effect Effects 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Time-Division Multiplex Systems (AREA)
Description
(項目1)
入力信号を受信する入力部と、
音声区間検出のための全般的な動作を制御する信号処理部と、
前記信号処理部の制御により、前記入力信号の臨界帯域を、雑音の周波数特性によって所定数の領域に分割する臨界帯域領域分割部と、
前記信号処理部の制御により、前記分割された各領域別に信号閾値を適応的に計算する信号閾値計算部と、
前記信号処理部の制御により、前記分割された各領域別に雑音閾値を適応的に計算する雑音閾値計算部と、
前記入力信号の各領域別ログエネルギーによって、現在のフレームが音声区間であるか雑音区間であるかを判別する区間判別部と、
を含むことを特徴とする音声信号処理装置の音声区間検出装置。
(項目2)
音声区間検出を指示するための制御信号を受信するユーザインターフェース部と、
検出された音声区間を出力する出力部と、
音声区間検出動作のために必要なプログラム及びデータを保存するメモリ部と、
をさらに含むことを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目3)
前記臨界帯域の領域分割数は、前記雑音の周波数特性が自動車騒音の周波数特性である場合、2であることを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目4)
前記臨界帯域の領域分割数は、前記雑音の周波数特性が歩行時の周辺騒音の周波数特性である場合、3又は4であることを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目5)
前記臨界帯域領域分割部が、前記臨界帯域を騒音環境の種類によって異なる数の領域に分割することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目6)
前記信号処理部は、音声区間検出が要求されると、ユーザが臨界帯域の領域分割数の設定を要求するか否かを確認し、ユーザにより選択された騒音環境の種類によって前記臨界帯域の領域分割数を設定することを特徴とする項目5に記載の音声信号処理装置の音声区間検出装置。
(項目7)
前記信号処理部が、初期に入力された所定数のフレームの各領域別ログエネルギーの初期平均値と初期標準偏差の計算動作を制御することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目8)
前記初期に入力された所定数のフレームが、4つ又は5つであることを特徴とする項目7に記載の音声信号処理装置の音声区間検出装置。
(項目9)
前記区間判別部により前記現在のフレームが音声区間と判別されると、前記信号閾値計算部が、前記現在のフレームの各領域別音声ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記信号閾値を更新することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目10)
前記信号閾値が、前記各領域別に下記の数学式を用いて更新されることを特徴とする項目9に記載の音声信号処理装置の音声区間検出装置:
Tsk=μsk+αsk*δsk
式中、μskは前記現在のフレームのk番目の領域の音声ログエネルギーの平均値、δskは前記現在のフレームのk番目の領域の音声ログエネルギーの標準偏差値、αskは前記現在のフレームのk番目の領域のヒステリシス値、Tskは信号閾値、前記kの最大値は前記現在のフレームの領域分割数である。
(項目11)
前記平均値と標準偏差が、下記の数学式を用いて計算されることを特徴とする項目9に記載の音声信号処理装置の音声区間検出装置:
μsk(t)=γ*μsk(t−1)+(1−γ)*Ek
[Ek 2]mean(t)=γ*[Ek 2]mean(t−1)+(1−γ)*Ek 2
δsk(t)=ルート([Ek 2]mean(t)−[μsk(t)]2)
式中、μsk(t−1)は以前のフレームのk番目の領域の音声ログエネルギーの平均値、Ekは前記現在のフレームのk番目の領域の音声ログエネルギー、δsk(t)は前記現在のフレームのk番目の領域の音声ログエネルギーの標準偏差値、γは加重値、前記kの最大値は前記現在のフレームの領域分割数である。
(項目12)
前記区間判別部により前記現在のフレームが雑音区間と判別されると、前記雑音閾値計算部が、前記現在のフレームの各領域別雑音ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記雑音閾値を更新することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目13)
前記雑音閾値が、前記各領域別に下記の数学式を用いて計算されることを特徴とする項目12に記載の音声信号処理装置の音声区間検出装置:
Tnk=μnk+βnk*δnk
式中、μnkは前記現在のフレームのk番目の領域の雑音ログエネルギーの平均値、δnkは前記現在のフレームのk番目の領域の雑音ログエネルギーの標準偏差値、βnkは前記現在のフレームのk番目の領域のヒステリシス値、Tnkは雑音閾値、前記kの最大値は前記現在のフレームの領域分割数である。
(項目14)
前記平均値と標準偏差が、下記の数学式を用いて計算されることを特徴とする項目12に記載の音声信号処理装置の音声区間検出装置:
μnk(t)=γ*μnk(t−1)+(1−γ)*Ek
[Ek 2]mean(t)=γ*[Ek 2]mean(t−1)+(1−γ)*Ek 2
δnk(t)=ルート([Ek 2]mean(t)−[μnk(t)]2)
式中、μnk(t−1)は以前のフレームのk番目の領域の雑音ログエネルギーの平均値、Ekは前記現在のフレームのk番目の領域の雑音ログエネルギー、δnk(t)は前記現在のフレームのk番目の領域の雑音ログエネルギーの標準偏差値、γは加重値、前記kの最大値は前記現在のフレームの領域分割数である。
(項目15)
前記区間判別部が、前記入力信号のフレームの各領域別ログエネルギーを計算し、前記ログエネルギーが前記信号閾値より大きい領域が1つ以上存在すると、前記現在のフレームを音声区間と判別することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目16)
前記区間判別部が、前記入力信号のフレームの各領域別ログエネルギーを計算し、前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が1つ以上存在すると、前記現在のフレームを雑音区間と判別することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目17)
前記区間判別部が、前記入力信号のフレームの各領域別ログエネルギーを計算し、前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が存在しないと、以前のフレームの判別区間を前記現在のフレームに適用することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目18)
前記区間判別部が、下記の条件式により前記現在のフレームの区間の種類を判別することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置:
IF(E1>Ts1 OR E2>Ts2 OR Ek>Tsk)、前記現在のフレームは音声区間
ELSE IF(E1<Tn1 OR E2<Tn2 OR Ek<Tnk)、前記現在のフレームは雑音区間
ELSE、前記現在のフレームは以前のフレームの判別された区間と同一
式中、Eは各領域別ログエネルギー、Tsは各領域別信号閾値、Tnは各領域別雑音閾値、kはフレームの領域分割数である。
(項目19)
音声区間検出を指示するためのユーザ制御命令を受信するユーザインターフェース部と、
前記ユーザ制御命令により、入力信号を受信する入力部と、
前記ユーザ制御命令により、前記入力信号を臨界帯域のフレーム単位でフォーマットし、各フレームの臨界帯域を雑音の周波数特性によって所定数の領域に分割し、前記分割された各領域別に信号閾値及び雑音閾値を適応的に計算し、前記各領域のログエネルギーと前記各領域の信号閾値及び雑音閾値とを比較し、前記比較の結果によって前記各フレームが音声区間であるか雑音区間であるかを判別するプロセッサと、
を含むことを特徴とする音声信号処理装置の音声区間検出装置。
(項目20)
前記プロセッサが、前記ユーザ制御命令が受信されると、前記フレームの領域分割数の設定を要求するか否かを確認し、ユーザにより選択された騒音環境の種類によって前記臨界帯域の領域分割数を設定することを特徴とする項目19に記載の音声信号処理装置の音声区間検出装置。
(項目21)
前記プロセッサが、初期に入力された所定数のフレームの各領域別ログエネルギーの初期平均値と初期標準偏差を計算し、前記初期平均値と初期標準偏差を用いて、初期信号閾値と初期雑音閾値を計算することを特徴とする項目19に記載の音声信号処理装置の音声区間検出装置。
(項目22)
前記プロセッサが、下記の条件式を用いて、現在のフレームが音声区間であるか雑音区間であるかを判別することを特徴とする項目19に記載の音声信号処理装置の音声区間検出装置:
IF(E1>Ts1 OR E2>Ts2 OR Ek>Tsk)、前記現在のフレームは音声区間
ELSE IF(E1<Tn1 OR E2<Tn2 OR Ek<Tnk)、前記現在のフレームは雑音区間、
ELSE、前記現在のフレームは以前のフレームの判別された区間と同一
式中、Eは各領域別ログエネルギー、Tsは各領域別信号閾値、Tnは各領域別雑音閾値、kはフレームの領域分割数である。
(項目23)
前記現在のフレームが音声区間と判別されると、前記プロセッサが、前記現在のフレームの各領域別音声ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記信号閾値を更新することを特徴とする項目22に記載の音声信号処理装置の音声区間検出装置。
(項目24)
前記現在のフレームが雑音区間と判別されると、前記プロセッサが、前記現在のフレームの各領域別雑音ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記雑音閾値を更新することを特徴とする項目22に記載の音声信号処理装置の音声区間検出装置。
(項目25)
入力信号の臨界帯域を雑音の周波数特性によって所定数の領域に分割する過程と、
前記各領域別に異なる値に設定された適応閾値と前記各領域別に計算されたログエネルギーとを比較する過程と、
前記入力信号が音声区間であるか否かを判別する過程と、
を含むことを特徴とする音声信号処理装置の音声区間検出方法。
(項目26)
前記判別の結果によって、前記各領域別に計算されたログエネルギーの平均値と標準偏差を用いて、前記適応閾値を更新する過程をさらに含むことを特徴とする項目25に記載の音声信号処理装置の音声区間検出方法。
(項目27)
前記適応閾値が、適応信号閾値と適応雑音閾値とを含むことを特徴とする項目26に記載の音声信号処理装置の音声区間検出方法。
(項目28)
前記入力信号が音声区間と判別されると、プロセッサが、前記各領域別に計算されたログエネルギーの平均値と標準偏差を用いて、前記適応信号閾値を更新することを特徴とする項目27に記載の音声信号処理装置の音声区間検出方法。
(項目29)
前記入力信号が雑音区間と判別されると、プロセッサが、前記各領域別に計算されたログエネルギーの平均値と標準偏差を用いて、前記適応雑音閾値を更新することを特徴とする項目27に記載の音声信号処理装置の音声区間検出方法。
(項目30)
初期に入力された所定数のフレームの各領域別ログエネルギーの初期平均値と初期標準偏差を計算する過程と、
前記初期平均値と初期標準偏差を用いて、前記各領域別に初期適応閾値を設定する過程と、
をさらに含むことを特徴とする項目25に記載の音声信号処理装置の音声区間検出方法。
(項目31)
入力信号を臨界帯域のフレーム単位でフォーマットする過程と、
現在のフレームを雑音の周波数特性によって所定数の領域に分割する過程と、
前記現在のフレームの各領域別に設定された信号閾値及び雑音閾値と前記現在のフレームの各領域別に計算されたログエネルギーとを比較する過程と、
前記現在のフレームが音声区間であるか否かを判別する過程と、
前記各領域別ログエネルギーを用いて、前記信号閾値及び雑音閾値を選択的に更新する過程と、
を含むことを特徴とする音声信号処理装置の音声区間検出方法。
(項目32)
初期に入力された所定数のフレームの各領域別に計算されたログエネルギーの初期平均値と初期標準偏差を用いて、前記各領域別に初期信号閾値と初期雑音閾値を設定する過程をさらに含むことを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目33)
前記初期に入力された所定数のフレームが、3つ又は4つであることを特徴とする項目32に記載の音声信号処理装置の音声区間検出方法。
(項目34)
前記臨界帯域のフレームの領域分割数が、前記雑音の周波数特性が自動車騒音の周波数特性である場合、2であることを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目35)
前記臨界帯域のフレームの領域分割数が、前記雑音の周波数特性が歩行時の周辺騒音の周波数特性である場合、3又は4であることを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目36)
前記臨界帯域のフレームの領域分割数が、ユーザにより入力された騒音環境の種類によって異なる値に設定されることを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目37)
前記ログエネルギーが前記信号閾値より大きい領域が1つ以上存在すると、区間判別部が、前記現在のフレームを音声区間と判別することを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目38)
前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が1つ以上存在すると、区間判別部が、前記現在のフレームを雑音区間と判別することを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目39)
前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が存在しないと、区間判別部が、前記現在のフレームの区間が以前のフレームの判別区間と同一であると判別することを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目40)
区間判別部が、下記の条件式により前記現在のフレームが音声区間であるか雑音区間であるかを判別することを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法:
IF(E1>Ts1 OR E2>Ts2 OR Ek>Tsk)、前記現在のフレームは音声区間
ELSE IF(E1<Tn1 OR E2<Tn2 OR Ek<Tnk)、前記現在のフレームは雑音区間
ELSE、前記現在のフレームは以前のフレームの判別された区間と同一
式中、Eは各領域別ログエネルギー、Tsは各領域別信号閾値、Tnは各領域別雑音閾値、kはフレームの領域分割数である。
(項目41)
前記現在のフレームが音声区間と判別されると、信号閾値計算部が、前記現在のフレームの各領域別音声ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記信号閾値を更新することを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目42)
前記信号閾値が、前記各領域別に下記の数学式を用いて更新されることを特徴とする項目41に記載の音声信号処理装置の音声区間検出方法:
Tsk=μsk+αsk*δsk
式中、μskは前記現在のフレームのk番目の領域の音声ログエネルギーの平均値、δskは前記現在のフレームのk番目の領域の音声ログエネルギーの標準偏差値、αskは前記現在のフレームのk番目の領域のヒステリシス値、Tskは信号閾値、前記kの最大値は前記現在のフレームの領域分割数である。
(項目43)
前記平均値と標準偏差が、下記の数学式を用いて計算されることを特徴とする項目41に記載の音声信号処理装置の音声区間検出方法:
μsk(t)=γ*μsk(t−1)+(1−γ)*Ek
[Ek 2]mean(t)=γ*[Ek 2]mean(t−1)+(1−γ)*Ek 2
δsk(t)=ルート([Ek 2]mean(t)−[μsk(t)]2)
式中、μsk(t−1)は以前のフレームのk番目の領域の音声ログエネルギーの平均値、Ekは前記現在のフレームのk番目の領域の音声ログエネルギー、δsk(t)は前記現在のフレームのk番目の領域の音声ログエネルギーの標準偏差値、γは加重値、前記kの最大値は前記現在のフレームの領域分割数である。
(項目44)
前記現在のフレームが雑音区間と判別されると、雑音閾値計算部が、前記現在のフレームの各領域別雑音ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記雑音閾値を更新することを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目45)
前記雑音閾値が、前記各領域別に下記の数学式を用いて計算されることを特徴とする項目44に記載の音声信号処理装置の音声区間検出方法:
Tnk=μnk+βnk*δnk
式中、μnkは前記現在のフレームのk番目の領域の雑音ログエネルギーの平均値、δnkは前記現在のフレームのk番目の領域の雑音ログエネルギーの標準偏差値、βnkは前記現在のフレームのk番目の領域のヒステリシス値、Tnkは雑音閾値、前記kの最大値は前記現在のフレームの領域分割数である。
(項目46)
前記平均値と標準偏差が、下記の数学式を用いて計算されることを特徴とする項目45に記載の音声信号処理装置の音声区間検出方法:
μnk(t)=γ*μnk(t−1)+(1−γ)*Ek
[Ek 2]mean(t)=γ*[Ek 2]mean(t−1)+(1−γ)*Ek 2
δnk(t)=ルート([Ek 2]mean(t)−[μnk(t)]2)
式中、μnk(t−1)は以前のフレームのk番目の領域の雑音ログエネルギーの平均値、Ekは前記現在のフレームのk番目の領域の雑音ログエネルギー、δnk(t)は前記現在のフレームのk番目の領域の雑音ログエネルギーの標準偏差値、γは加重値、前記kの最大値は前記現在のフレームの領域分割数である。
Ts1=μn1+αs1*δn1
Ts2=μn2+αs2*δn2
Tsk=μnk+αsk*δnk
式中、μは平均値、δは標準偏差値、αはヒステリシス値、kはフレームの領域分割数である。
Tn1=μn1+βn1*δn1
Tn2=μn2+βn2*δn2
Tnk=μnk+βnk*δnk
式中、μは平均値、δは標準偏差値、βはヒステリシス値、kはフレームの領域分割数である。
IF(E1>Ts1 OR E2>Ts2 OR E3>Ts3),VOICE_ACTIVITY=音声区間
ELSE IF(E1<Tn1 OR E2<Tn2 OR E3<Tn3),VOICE_ACTIVITY=雑音区間
ELSE VOICE_ACTIVITY=VOICE_ACTIVITY before
式中、Eはログエネルギー、Tsは信号閾値、Tnは雑音閾値である。
μs1(t)=γ*μs1(t−1)+(1−γ)*E1
[E1 2]mean(t)=γ*[E1 2]mean(t−1)+(1−γ)*E1 2
δs1(t)=ルート([E1 2]mean(t)−[μs1(t)]2)
μs2(t)=γ*μs2(t−1)+(1−γ)*E2
[E2 2]mean(t)=γ*[E2 2]mean(t−1)+(1−γ)*E2 2
δs2(t)=ルート([E2 2]mean(t)−[μs2(t)]2)
μs3(t)=γ*μs3(t−1)+(1−γ)*E3
[E3 2]mean(t)=γ*[E3 2]mean(t−1)+(1−γ)*E3 2
δs3(t)=ルート([E3 2]mean(t)−[μs3(t)]2)
式中、μは音声ログエネルギーの平均値、δは標準偏差値、tはフレーム時間値、γは実験値であって加重値、E1、E2、E3は該当領域での音声ログエネルギーである。
μn1(t)=γ*μn1(t−1)+(1−γ)*E1
[E1 2]mean(t)=γ*[E1 2]mean(t−1)+(1−γ)*E1 2
δn1(t)=ルート([E1 2]mean(t)−[μnl(t)]2)
δs1(t)=ルート([E1 2]mean(t)−[μs1(t)]2)
μn2(t)=γ*μn2(t−1)+(1−γ)*E2
[E2 2]mean(t)=γ*[E2 2]mean(t−1)+(1−γ)*E2 2
δn2(t)=ルート([E2 2]mean(t)−[μn2(t)]2)
μn3(t)=γ*μn3(t−1)+(1−γ)*E3
[E3 2]mean(t)=γ*[E3 2]mean(t−1)+(1−γ)*E3 2
δn3(t)=ルート([E3 2]mean(t)−[μn3(t)]2)
式中、μは雑音ログエネルギーの平均値、δは標準偏差値、tはフレーム時間値、γは実験値であって加重値、E1、E2、E3は該当領域での雑音ログエネルギーである。
Claims (3)
- 音声信号及び雑音信号からなる入力信号を受信する入力部と、
ユーザの騒音環境種類の設定要求により自動車環境及び歩行環境から構成された騒音環境種類を出力し、ユーザにより選択された騒音環境によって臨界帯域を区分する領域の数が異なるように設定する信号処理部と、
前記信号処理部により設定された領域の数に応じて前記入力信号の臨界帯域を分割する臨界帯域領域分割部と、
前記臨界帯域領域分割部により分割された各領域別に信号閾値を適応的に計算する信号閾値計算部と、
前記臨界帯域領域分割部により分割された各領域別に雑音閾値を適応的に計算する雑音閾値計算部と、
前記分割された各領域別に前記入力信号のフレームのログエネルギーを計算し、前記計算された各領域別のログエネルギーと前記計算された各領域別の信号閾値及び雑音閾値とを比較し、前記入力信号の前記フレームにおける臨界帯域の信号を用いて、前記入力信号の前記フレームが音声区間であるか雑音区間であるかを判別する区間判別部と
を含み、
前記区間判別部は、前記ログエネルギーが信号閾値より大きい領域が1つ以上存在すると前記入力信号の前記フレームを音声区間と判断し、前記ログエネルギーが雑音閾値より小さい領域が1つ以上存在すると前記入力信号の前記フレームを雑音区間と判断することを特徴とする音声信号処理装置の音声区間検出装置。 - 前記領域の数は、騒音環境種類が自動車環境の場合は2つであり、騒音環境種類が歩行環境の場合は3つ又は4つであることを特徴とする請求項1に記載の音声信号処理装置の音声区間検出装置。
- ユーザの騒音環境種類の設定要求により自動車環境及び歩行環境から構成された騒音環境種類を出力する段階と、
前記出力された騒音環境種類からユーザにより選択された騒音環境によって臨界帯域を区分する領域の数が異なるように設定する段階と、
前記設定された領域の数に応じて入力信号の臨界帯域を分割する段階と、
前記分割された各領域別に信号閾値、雑音閾値、及び前記入力信号のフレームのログエネルギーを計算する段階と、
前記計算された各領域別のログエネルギーと前記計算された各領域別の信号閾値及び雑音閾値とを比較し、前記入力信号の前記フレームにおける臨界帯域の信号を用いて、前記入力信号の前記フレームが音声区間であるか雑音区間であるかを判別する段階と
を含み、
前記帯域の数は、騒音環境種類が自動車環境の場合は2つであり、騒音環境種類が歩行環境の場合は3つ又は4つであり、
前記ログエネルギーが信号閾値より大きい領域が1つ以上存在すると前記入力信号の前記フレームを音声区間と判断し、前記ログエネルギーが雑音閾値より小さい領域が1つ以上存在すると前記入力信号の前記フレームを雑音区間と判断することを特徴とする音声信号処理装置の音声区間検出方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040095520A KR100677396B1 (ko) | 2004-11-20 | 2004-11-20 | 음성인식장치의 음성구간 검출방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006146226A JP2006146226A (ja) | 2006-06-08 |
JP4282659B2 true JP4282659B2 (ja) | 2009-06-24 |
Family
ID=35723587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005334978A Expired - Fee Related JP4282659B2 (ja) | 2004-11-20 | 2005-11-18 | 音声信号処理装置の音声区間検出装置及び方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7620544B2 (ja) |
EP (1) | EP1659570B1 (ja) |
JP (1) | JP4282659B2 (ja) |
KR (1) | KR100677396B1 (ja) |
CN (1) | CN1805007B (ja) |
AT (1) | ATE412235T1 (ja) |
DE (1) | DE602005010525D1 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008099163A (ja) * | 2006-10-16 | 2008-04-24 | Audio Technica Corp | ノイズキャンセルヘッドフォンおよびヘッドフォンにおけるノイズキャンセル方法 |
KR100835996B1 (ko) * | 2006-12-05 | 2008-06-09 | 한국전자통신연구원 | 적응형 발성 화면 분석 방법 및 장치 |
US20110035215A1 (en) * | 2007-08-28 | 2011-02-10 | Haim Sompolinsky | Method, device and system for speech recognition |
CN101515454B (zh) * | 2008-02-22 | 2011-05-25 | 杨夙 | 用于语音、音乐、噪音自动分类的信号特征提取方法 |
EP2107553B1 (en) * | 2008-03-31 | 2011-05-18 | Harman Becker Automotive Systems GmbH | Method for determining barge-in |
US8380497B2 (en) | 2008-10-15 | 2013-02-19 | Qualcomm Incorporated | Methods and apparatus for noise estimation |
WO2010113220A1 (ja) * | 2009-04-02 | 2010-10-07 | 三菱電機株式会社 | 雑音抑圧装置 |
KR101251045B1 (ko) * | 2009-07-28 | 2013-04-04 | 한국전자통신연구원 | 오디오 판별 장치 및 그 방법 |
ES2371619B1 (es) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
EP2816560A1 (en) * | 2009-10-19 | 2014-12-24 | Telefonaktiebolaget L M Ericsson (PUBL) | Method and background estimator for voice activity detection |
EP2561508A1 (en) | 2010-04-22 | 2013-02-27 | Qualcomm Incorporated | Voice activity detection |
CN102376303B (zh) * | 2010-08-13 | 2014-03-12 | 国基电子(上海)有限公司 | 录音设备及利用该录音设备进行声音处理与录入的方法 |
US8898058B2 (en) | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
US20130151248A1 (en) * | 2011-12-08 | 2013-06-13 | Forrest Baker, IV | Apparatus, System, and Method For Distinguishing Voice in a Communication Stream |
CN103915097B (zh) * | 2013-01-04 | 2017-03-22 | 中国移动通信集团公司 | 一种语音信号处理方法、装置和系统 |
JP6221257B2 (ja) * | 2013-02-26 | 2017-11-01 | 沖電気工業株式会社 | 信号処理装置、方法及びプログラム |
KR20150105847A (ko) * | 2014-03-10 | 2015-09-18 | 삼성전기주식회사 | 음성구간 검출 방법 및 장치 |
CN107613236B (zh) * | 2017-09-28 | 2021-01-05 | 盐城市聚龙湖商务集聚区发展有限公司 | 一种音像录制方法及终端、存储介质 |
KR20200141860A (ko) * | 2019-06-11 | 2020-12-21 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN110689901B (zh) * | 2019-09-09 | 2022-06-28 | 苏州臻迪智能科技有限公司 | 语音降噪的方法、装置、电子设备及可读存储介质 |
US20210169559A1 (en) * | 2019-12-06 | 2021-06-10 | Board Of Regents, The University Of Texas System | Acoustic monitoring for electrosurgery |
CN113098626B (zh) * | 2020-01-09 | 2023-03-24 | 北京君正集成电路股份有限公司 | 一种近距离声波通信同步的方法 |
CN113098627B (zh) * | 2020-01-09 | 2023-03-24 | 北京君正集成电路股份有限公司 | 一种实现近距离声波通信同步的系统 |
CN111554314A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 噪声检测方法、装置、终端及存储介质 |
CN115240696B (zh) * | 2022-07-26 | 2023-10-03 | 北京集智数字科技有限公司 | 一种语音识别方法及可读存储介质 |
KR102516391B1 (ko) * | 2022-09-02 | 2023-04-03 | 주식회사 액션파워 | 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3626492B2 (ja) * | 1993-07-07 | 2005-03-09 | ポリコム・インコーポレイテッド | 会話の品質向上のための背景雑音の低減 |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
KR20000022285A (ko) * | 1996-07-03 | 2000-04-25 | 내쉬 로저 윌리엄 | 음성 액티비티 검출기 및 검출 방법 |
US5884255A (en) * | 1996-07-16 | 1999-03-16 | Coherent Communications Systems Corp. | Speech detection system employing multiple determinants |
US5866702A (en) * | 1996-08-02 | 1999-02-02 | Cv Therapeutics, Incorporation | Purine inhibitors of cyclin dependent kinase 2 |
US6202046B1 (en) * | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
FR2767334B1 (fr) * | 1997-08-12 | 1999-10-22 | Commissariat Energie Atomique | Kinase activatrice des proteine-kinases cycline dependantes, et ses utilisations |
US6479487B1 (en) * | 1998-02-26 | 2002-11-12 | Aventis Pharmaceuticals Inc. | 6, 9-disubstituted 2-[trans-(4-aminocyclohexyl)amino] purines |
US6480823B1 (en) * | 1998-03-24 | 2002-11-12 | Matsushita Electric Industrial Co., Ltd. | Speech detection for noisy conditions |
US6453289B1 (en) * | 1998-07-24 | 2002-09-17 | Hughes Electronics Corporation | Method of noise reduction for speech codecs |
US6266633B1 (en) * | 1998-12-22 | 2001-07-24 | Itt Manufacturing Enterprises | Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus |
US6327564B1 (en) * | 1999-03-05 | 2001-12-04 | Matsushita Electric Corporation Of America | Speech detection using stochastic confidence measures on the frequency spectrum |
HUP0200938A2 (en) * | 1999-04-02 | 2002-10-28 | Euro Celtique Sa | Purine derivatives having phosphodiesterase iv inhibition activity and medicaments containing them |
US6618701B2 (en) * | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
JP2000310993A (ja) * | 1999-04-28 | 2000-11-07 | Pioneer Electronic Corp | 音声検出装置 |
US6615170B1 (en) * | 2000-03-07 | 2003-09-02 | International Business Machines Corporation | Model-based voice activity detection system and method using a log-likelihood ratio and pitch |
US20020116186A1 (en) * | 2000-09-09 | 2002-08-22 | Adam Strauss | Voice activity detector for integrated telecommunications processing |
US7236929B2 (en) * | 2001-05-09 | 2007-06-26 | Plantronics, Inc. | Echo suppression and speech detection techniques for telephony applications |
US6812232B2 (en) * | 2001-09-11 | 2004-11-02 | Amr Technology, Inc. | Heterocycle substituted purine derivatives as potent antiproliferative agents |
US6667311B2 (en) * | 2001-09-11 | 2003-12-23 | Albany Molecular Research, Inc. | Nitrogen substituted biaryl purine derivatives as potent antiproliferative agents |
US7346175B2 (en) * | 2001-09-12 | 2008-03-18 | Bitwave Private Limited | System and apparatus for speech communication and speech recognition |
US7146314B2 (en) * | 2001-12-20 | 2006-12-05 | Renesas Technology Corporation | Dynamic adjustment of noise separation in data handling, particularly voice activation |
-
2004
- 2004-11-20 KR KR1020040095520A patent/KR100677396B1/ko not_active IP Right Cessation
-
2005
- 2005-11-18 DE DE602005010525T patent/DE602005010525D1/de active Active
- 2005-11-18 EP EP05025231A patent/EP1659570B1/en not_active Not-in-force
- 2005-11-18 JP JP2005334978A patent/JP4282659B2/ja not_active Expired - Fee Related
- 2005-11-18 AT AT05025231T patent/ATE412235T1/de not_active IP Right Cessation
- 2005-11-21 CN CN2005101267970A patent/CN1805007B/zh not_active Expired - Fee Related
- 2005-11-21 US US11/285,270 patent/US7620544B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
ATE412235T1 (de) | 2008-11-15 |
KR20060056186A (ko) | 2006-05-24 |
US7620544B2 (en) | 2009-11-17 |
EP1659570A1 (en) | 2006-05-24 |
EP1659570B1 (en) | 2008-10-22 |
CN1805007A (zh) | 2006-07-19 |
CN1805007B (zh) | 2010-11-03 |
JP2006146226A (ja) | 2006-06-08 |
DE602005010525D1 (de) | 2008-12-04 |
KR100677396B1 (ko) | 2007-02-02 |
US20060111901A1 (en) | 2006-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4282659B2 (ja) | 音声信号処理装置の音声区間検出装置及び方法 | |
JP7150939B2 (ja) | ボリューム平準化器コントローラおよび制御方法 | |
JP6921907B2 (ja) | オーディオ分類および処理のための装置および方法 | |
ES2630398T3 (es) | Dispositivo de control y método de control del ecualizador | |
US8874440B2 (en) | Apparatus and method for detecting speech | |
US6336091B1 (en) | Communication device for screening speech recognizer input | |
US6988068B2 (en) | Compensating for ambient noise levels in text-to-speech applications | |
KR100302370B1 (ko) | 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템 | |
JP6290429B2 (ja) | 音声処理システム | |
KR20040005860A (ko) | 음성 통신에서의 위로 잡음 생성 방법 및 시스템 | |
ES2684604T3 (es) | Procedimiento de detección de la voz | |
JPS62274941A (ja) | 音声符号化方式 | |
CN100504840C (zh) | 用于背景噪声快速动态估计的方法 | |
CN105825869B (zh) | 语音处理装置和语音处理方法 | |
JP6098149B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
JP2009296297A (ja) | 音声信号処理装置および方法 | |
WO2001052600A1 (en) | Method and device for determining the quality of a signal | |
JP2002261553A (ja) | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム | |
JP3555490B2 (ja) | 声質変換システム | |
JP2008040431A (ja) | 音声加工装置 | |
JPH11133997A (ja) | 有音無音判定装置 | |
KR102132326B1 (ko) | 통신 시스템에서 오류 은닉 방법 및 장치 | |
KR102562180B1 (ko) | 웨어러블 음향 변환 장치 | |
JPH10171487A (ja) | 音声区間判別装置 | |
CN116206619A (zh) | 语音处理方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080703 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081024 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090227 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090317 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120327 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130327 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130327 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140327 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |