JP4282659B2 - 音声信号処理装置の音声区間検出装置及び方法 - Google Patents

音声信号処理装置の音声区間検出装置及び方法 Download PDF

Info

Publication number
JP4282659B2
JP4282659B2 JP2005334978A JP2005334978A JP4282659B2 JP 4282659 B2 JP4282659 B2 JP 4282659B2 JP 2005334978 A JP2005334978 A JP 2005334978A JP 2005334978 A JP2005334978 A JP 2005334978A JP 4282659 B2 JP4282659 B2 JP 4282659B2
Authority
JP
Japan
Prior art keywords
noise
region
speech
signal
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005334978A
Other languages
English (en)
Other versions
JP2006146226A (ja
Inventor
ギョン−ホ ウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of JP2006146226A publication Critical patent/JP2006146226A/ja
Application granted granted Critical
Publication of JP4282659B2 publication Critical patent/JP4282659B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Time-Division Multiplex Systems (AREA)

Description

本発明は、音声信号処理に関し、特に、音声区間検出装置及び方法に関する。
音声分析及び合成、音声認識、音声符号化、音声復号化などの音声信号処理に関連した全般的な分野において、音声信号の音声区間を正確に検出することは非常に重要である。
しかしながら、一般的な音声区間検出装置は、装置の構成が複雑であり、計算量が多くて、リアルタイム処理を行うことができない。
また、一般的な音声区間検出方法としては、例えば、エネルギーとゼロ交差率(zero crossing rate)による検出方法、騒音で判別された区間のケプストラム(cepstral)係数と現在区間のケプストラム距離(cepstraldistance)を求めて音声信号の有無を判断する方法、音声信号と雑音信号の一貫性(coherent)を測定して音声信号の有無を判断する方法などがある。
前述したような一般的な音声区間検出方法は、実際の応用面で音声区間の検出性能に優れておらず、音声区間検出のための計算量が多くて、信号対雑音比(Signal to Noise Ratio;SNR)が低い場合に適用することが困難であり、周辺環境から検出される背景騒音又は雑音が急激に変化する場合、音声区間の検出が難しいという問題があった。
従って、通信システム、移動通信システム、音声認識システムなどの音声信号処理が適用される分野において、背景騒音又は雑音が急激に変化する状況でも音声区間の検出性能に優れ、音声区間検出のための計算量が少なくて、リアルタイム処理を行うことができる音声区間検出装置及び方法が求められている。
本発明は、このような従来技術の問題を解決するためになされたもので、騒音環境でも音声区間を正確に検出し、音声区間検出のための計算量が少なくて、リアルタイム処理を行うことができる音声信号処理装置の音声区間検出装置及び方法を提供することを目的とする。
上記の目的を達成するために、本発明による音声信号処理装置の音声区間検出装置は、入力信号を受信する入力部と、音声区間検出のための全般的な動作を制御する信号処理部と、前記信号処理部の制御により、前記入力信号の臨界帯域を、雑音の周波数特性によって所定数の領域に分割する臨界帯域領域分割部と、前記信号処理部の制御により、前記分割された各領域別に信号閾値を適応的に計算する信号閾値計算部と、前記信号処理部の制御により、前記分割された各領域別に雑音閾値を適応的に計算する雑音閾値計算部と、前記入力信号の各領域別ログエネルギーによって、現在のフレームが音声区間であるか雑音区間であるかを判別する区間判別部とを含むことを特徴とする。
また、上記の目的を達成するために、本発明による音声信号処理装置の音声区間検出装置は、音声区間検出を指示するためのユーザ制御命令を受信するユーザインターフェース部と、前記ユーザ制御命令により、入力信号を受信する入力部と、前記ユーザ制御命令により、前記入力信号を臨界帯域のフレーム単位でフォーマットし、各フレームの臨界帯域を雑音の周波数特性によって所定数の領域に分割し、前記分割された各領域別に信号閾値及び雑音閾値を適応的に計算し、前記各領域のログエネルギーと前記各領域の信号閾値及び雑音閾値とを比較し、前記比較の結果によって前記各フレームが音声区間であるか雑音区間であるかを判別するプロセッサとを含むことを特徴とする。
さらに、上記の目的を達成するために、本発明による音声信号処理装置の音声区間検出方法は、入力信号の臨界帯域を雑音の周波数特性によって所定数の領域に分割する過程と、前記各領域別に異なる値に設定された適応閾値と前記各領域別に計算されたログエネルギーとを比較する過程と、前記入力信号が音声区間であるか否かを判別する過程とを含むを特徴とする。
また、前記音声区間検出方法は、前記判別の結果によって、前記各領域別に計算されたログエネルギーの平均値と標準偏差を用いて、前記適応閾値を更新する過程をさらに含む。
また、前記適応閾値は、適応信号閾値と適応雑音閾値とを含む。
さらに、上記の目的を達成するために、本発明による音声信号処理装置の音声区間検出方法は、入力信号を臨界帯域のフレーム単位でフォーマットする過程と、現在のフレームを雑音の周波数特性によって所定数の領域に分割する過程と、前記現在のフレームの各領域別に設定された信号閾値及び雑音閾値と前記現在のフレームの各領域別に計算されたログエネルギーとを比較する過程と、前記現在のフレームが音声区間であるか否かを判別する過程と、前記各領域別ログエネルギーを用いて、前記信号閾値及び雑音閾値を選択的に更新する過程とを含むを特徴とする。
上記目的を達成するために、本発明は、例えば、以下の手段を提供する。
(項目1)
入力信号を受信する入力部と、
音声区間検出のための全般的な動作を制御する信号処理部と、
前記信号処理部の制御により、前記入力信号の臨界帯域を、雑音の周波数特性によって所定数の領域に分割する臨界帯域領域分割部と、
前記信号処理部の制御により、前記分割された各領域別に信号閾値を適応的に計算する信号閾値計算部と、
前記信号処理部の制御により、前記分割された各領域別に雑音閾値を適応的に計算する雑音閾値計算部と、
前記入力信号の各領域別ログエネルギーによって、現在のフレームが音声区間であるか雑音区間であるかを判別する区間判別部と、
を含むことを特徴とする音声信号処理装置の音声区間検出装置。
(項目2)
音声区間検出を指示するための制御信号を受信するユーザインターフェース部と、
検出された音声区間を出力する出力部と、
音声区間検出動作のために必要なプログラム及びデータを保存するメモリ部と、
をさらに含むことを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目3)
前記臨界帯域の領域分割数は、前記雑音の周波数特性が自動車騒音の周波数特性である場合、2であることを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目4)
前記臨界帯域の領域分割数は、前記雑音の周波数特性が歩行時の周辺騒音の周波数特性である場合、3又は4であることを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目5)
前記臨界帯域領域分割部が、前記臨界帯域を騒音環境の種類によって異なる数の領域に分割することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目6)
前記信号処理部は、音声区間検出が要求されると、ユーザが臨界帯域の領域分割数の設定を要求するか否かを確認し、ユーザにより選択された騒音環境の種類によって前記臨界帯域の領域分割数を設定することを特徴とする項目5に記載の音声信号処理装置の音声区間検出装置。
(項目7)
前記信号処理部が、初期に入力された所定数のフレームの各領域別ログエネルギーの初期平均値と初期標準偏差の計算動作を制御することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目8)
前記初期に入力された所定数のフレームが、4つ又は5つであることを特徴とする項目7に記載の音声信号処理装置の音声区間検出装置。
(項目9)
前記区間判別部により前記現在のフレームが音声区間と判別されると、前記信号閾値計算部が、前記現在のフレームの各領域別音声ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記信号閾値を更新することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目10)
前記信号閾値が、前記各領域別に下記の数学式を用いて更新されることを特徴とする項目9に記載の音声信号処理装置の音声区間検出装置:
sk=μsk+αsk*δsk
式中、μskは前記現在のフレームのk番目の領域の音声ログエネルギーの平均値、δskは前記現在のフレームのk番目の領域の音声ログエネルギーの標準偏差値、αskは前記現在のフレームのk番目の領域のヒステリシス値、Tskは信号閾値、前記kの最大値は前記現在のフレームの領域分割数である。
(項目11)
前記平均値と標準偏差が、下記の数学式を用いて計算されることを特徴とする項目9に記載の音声信号処理装置の音声区間検出装置:
μsk(t)=γ*μsk(t−1)+(1−γ)*E
[E mean(t)=γ*[E mean(t−1)+(1−γ)*E
δsk(t)=ルート([E mean(t)−[μsk(t)]
式中、μsk(t−1)は以前のフレームのk番目の領域の音声ログエネルギーの平均値、Eは前記現在のフレームのk番目の領域の音声ログエネルギー、δsk(t)は前記現在のフレームのk番目の領域の音声ログエネルギーの標準偏差値、γは加重値、前記kの最大値は前記現在のフレームの領域分割数である。
(項目12)
前記区間判別部により前記現在のフレームが雑音区間と判別されると、前記雑音閾値計算部が、前記現在のフレームの各領域別雑音ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記雑音閾値を更新することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目13)
前記雑音閾値が、前記各領域別に下記の数学式を用いて計算されることを特徴とする項目12に記載の音声信号処理装置の音声区間検出装置:
nk=μnk+βnk*δnk
式中、μnkは前記現在のフレームのk番目の領域の雑音ログエネルギーの平均値、δnkは前記現在のフレームのk番目の領域の雑音ログエネルギーの標準偏差値、βnkは前記現在のフレームのk番目の領域のヒステリシス値、Tnkは雑音閾値、前記kの最大値は前記現在のフレームの領域分割数である。
(項目14)
前記平均値と標準偏差が、下記の数学式を用いて計算されることを特徴とする項目12に記載の音声信号処理装置の音声区間検出装置:
μnk(t)=γ*μnk(t−1)+(1−γ)*E
[E mean(t)=γ*[E mean(t−1)+(1−γ)*E
δnk(t)=ルート([E mean(t)−[μnk(t)]
式中、μnk(t−1)は以前のフレームのk番目の領域の雑音ログエネルギーの平均値、Eは前記現在のフレームのk番目の領域の雑音ログエネルギー、δnk(t)は前記現在のフレームのk番目の領域の雑音ログエネルギーの標準偏差値、γは加重値、前記kの最大値は前記現在のフレームの領域分割数である。
(項目15)
前記区間判別部が、前記入力信号のフレームの各領域別ログエネルギーを計算し、前記ログエネルギーが前記信号閾値より大きい領域が1つ以上存在すると、前記現在のフレームを音声区間と判別することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目16)
前記区間判別部が、前記入力信号のフレームの各領域別ログエネルギーを計算し、前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が1つ以上存在すると、前記現在のフレームを雑音区間と判別することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目17)
前記区間判別部が、前記入力信号のフレームの各領域別ログエネルギーを計算し、前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が存在しないと、以前のフレームの判別区間を前記現在のフレームに適用することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置。
(項目18)
前記区間判別部が、下記の条件式により前記現在のフレームの区間の種類を判別することを特徴とする項目1に記載の音声信号処理装置の音声区間検出装置:
IF(E>Ts1 OR E>Ts2 OR E>Tsk)、前記現在のフレームは音声区間
ELSE IF(E<Tn1 OR E<Tn2 OR E<Tnk)、前記現在のフレームは雑音区間
ELSE、前記現在のフレームは以前のフレームの判別された区間と同一
式中、Eは各領域別ログエネルギー、Tは各領域別信号閾値、Tは各領域別雑音閾値、kはフレームの領域分割数である。
(項目19)
音声区間検出を指示するためのユーザ制御命令を受信するユーザインターフェース部と、
前記ユーザ制御命令により、入力信号を受信する入力部と、
前記ユーザ制御命令により、前記入力信号を臨界帯域のフレーム単位でフォーマットし、各フレームの臨界帯域を雑音の周波数特性によって所定数の領域に分割し、前記分割された各領域別に信号閾値及び雑音閾値を適応的に計算し、前記各領域のログエネルギーと前記各領域の信号閾値及び雑音閾値とを比較し、前記比較の結果によって前記各フレームが音声区間であるか雑音区間であるかを判別するプロセッサと、
を含むことを特徴とする音声信号処理装置の音声区間検出装置。
(項目20)
前記プロセッサが、前記ユーザ制御命令が受信されると、前記フレームの領域分割数の設定を要求するか否かを確認し、ユーザにより選択された騒音環境の種類によって前記臨界帯域の領域分割数を設定することを特徴とする項目19に記載の音声信号処理装置の音声区間検出装置。
(項目21)
前記プロセッサが、初期に入力された所定数のフレームの各領域別ログエネルギーの初期平均値と初期標準偏差を計算し、前記初期平均値と初期標準偏差を用いて、初期信号閾値と初期雑音閾値を計算することを特徴とする項目19に記載の音声信号処理装置の音声区間検出装置。
(項目22)
前記プロセッサが、下記の条件式を用いて、現在のフレームが音声区間であるか雑音区間であるかを判別することを特徴とする項目19に記載の音声信号処理装置の音声区間検出装置:
IF(E>Ts1 OR E>Ts2 OR E>Tsk)、前記現在のフレームは音声区間
ELSE IF(E<Tn1 OR E<Tn2 OR E<Tnk)、前記現在のフレームは雑音区間、
ELSE、前記現在のフレームは以前のフレームの判別された区間と同一
式中、Eは各領域別ログエネルギー、Tは各領域別信号閾値、Tは各領域別雑音閾値、kはフレームの領域分割数である。
(項目23)
前記現在のフレームが音声区間と判別されると、前記プロセッサが、前記現在のフレームの各領域別音声ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記信号閾値を更新することを特徴とする項目22に記載の音声信号処理装置の音声区間検出装置。
(項目24)
前記現在のフレームが雑音区間と判別されると、前記プロセッサが、前記現在のフレームの各領域別雑音ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記雑音閾値を更新することを特徴とする項目22に記載の音声信号処理装置の音声区間検出装置。
(項目25)
入力信号の臨界帯域を雑音の周波数特性によって所定数の領域に分割する過程と、
前記各領域別に異なる値に設定された適応閾値と前記各領域別に計算されたログエネルギーとを比較する過程と、
前記入力信号が音声区間であるか否かを判別する過程と、
を含むことを特徴とする音声信号処理装置の音声区間検出方法。
(項目26)
前記判別の結果によって、前記各領域別に計算されたログエネルギーの平均値と標準偏差を用いて、前記適応閾値を更新する過程をさらに含むことを特徴とする項目25に記載の音声信号処理装置の音声区間検出方法。
(項目27)
前記適応閾値が、適応信号閾値と適応雑音閾値とを含むことを特徴とする項目26に記載の音声信号処理装置の音声区間検出方法。
(項目28)
前記入力信号が音声区間と判別されると、プロセッサが、前記各領域別に計算されたログエネルギーの平均値と標準偏差を用いて、前記適応信号閾値を更新することを特徴とする項目27に記載の音声信号処理装置の音声区間検出方法。
(項目29)
前記入力信号が雑音区間と判別されると、プロセッサが、前記各領域別に計算されたログエネルギーの平均値と標準偏差を用いて、前記適応雑音閾値を更新することを特徴とする項目27に記載の音声信号処理装置の音声区間検出方法。
(項目30)
初期に入力された所定数のフレームの各領域別ログエネルギーの初期平均値と初期標準偏差を計算する過程と、
前記初期平均値と初期標準偏差を用いて、前記各領域別に初期適応閾値を設定する過程と、
をさらに含むことを特徴とする項目25に記載の音声信号処理装置の音声区間検出方法。
(項目31)
入力信号を臨界帯域のフレーム単位でフォーマットする過程と、
現在のフレームを雑音の周波数特性によって所定数の領域に分割する過程と、
前記現在のフレームの各領域別に設定された信号閾値及び雑音閾値と前記現在のフレームの各領域別に計算されたログエネルギーとを比較する過程と、
前記現在のフレームが音声区間であるか否かを判別する過程と、
前記各領域別ログエネルギーを用いて、前記信号閾値及び雑音閾値を選択的に更新する過程と、
を含むことを特徴とする音声信号処理装置の音声区間検出方法。
(項目32)
初期に入力された所定数のフレームの各領域別に計算されたログエネルギーの初期平均値と初期標準偏差を用いて、前記各領域別に初期信号閾値と初期雑音閾値を設定する過程をさらに含むことを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目33)
前記初期に入力された所定数のフレームが、3つ又は4つであることを特徴とする項目32に記載の音声信号処理装置の音声区間検出方法。
(項目34)
前記臨界帯域のフレームの領域分割数が、前記雑音の周波数特性が自動車騒音の周波数特性である場合、2であることを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目35)
前記臨界帯域のフレームの領域分割数が、前記雑音の周波数特性が歩行時の周辺騒音の周波数特性である場合、3又は4であることを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目36)
前記臨界帯域のフレームの領域分割数が、ユーザにより入力された騒音環境の種類によって異なる値に設定されることを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目37)
前記ログエネルギーが前記信号閾値より大きい領域が1つ以上存在すると、区間判別部が、前記現在のフレームを音声区間と判別することを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目38)
前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が1つ以上存在すると、区間判別部が、前記現在のフレームを雑音区間と判別することを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目39)
前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が存在しないと、区間判別部が、前記現在のフレームの区間が以前のフレームの判別区間と同一であると判別することを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目40)
区間判別部が、下記の条件式により前記現在のフレームが音声区間であるか雑音区間であるかを判別することを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法:
IF(E>Ts1 OR E>Ts2 OR E>Tsk)、前記現在のフレームは音声区間
ELSE IF(E<Tn1 OR E<Tn2 OR E<Tnk)、前記現在のフレームは雑音区間
ELSE、前記現在のフレームは以前のフレームの判別された区間と同一
式中、Eは各領域別ログエネルギー、Tは各領域別信号閾値、Tは各領域別雑音閾値、kはフレームの領域分割数である。
(項目41)
前記現在のフレームが音声区間と判別されると、信号閾値計算部が、前記現在のフレームの各領域別音声ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記信号閾値を更新することを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目42)
前記信号閾値が、前記各領域別に下記の数学式を用いて更新されることを特徴とする項目41に記載の音声信号処理装置の音声区間検出方法:
sk=μsk+αsk*δsk
式中、μskは前記現在のフレームのk番目の領域の音声ログエネルギーの平均値、δskは前記現在のフレームのk番目の領域の音声ログエネルギーの標準偏差値、αskは前記現在のフレームのk番目の領域のヒステリシス値、Tskは信号閾値、前記kの最大値は前記現在のフレームの領域分割数である。
(項目43)
前記平均値と標準偏差が、下記の数学式を用いて計算されることを特徴とする項目41に記載の音声信号処理装置の音声区間検出方法:
μsk(t)=γ*μsk(t−1)+(1−γ)*E
[E mean(t)=γ*[E mean(t−1)+(1−γ)*E
δsk(t)=ルート([E mean(t)−[μsk(t)]
式中、μsk(t−1)は以前のフレームのk番目の領域の音声ログエネルギーの平均値、Eは前記現在のフレームのk番目の領域の音声ログエネルギー、δsk(t)は前記現在のフレームのk番目の領域の音声ログエネルギーの標準偏差値、γは加重値、前記kの最大値は前記現在のフレームの領域分割数である。
(項目44)
前記現在のフレームが雑音区間と判別されると、雑音閾値計算部が、前記現在のフレームの各領域別雑音ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記雑音閾値を更新することを特徴とする項目31に記載の音声信号処理装置の音声区間検出方法。
(項目45)
前記雑音閾値が、前記各領域別に下記の数学式を用いて計算されることを特徴とする項目44に記載の音声信号処理装置の音声区間検出方法:
nk=μnk+βnk*δnk
式中、μnkは前記現在のフレームのk番目の領域の雑音ログエネルギーの平均値、δnkは前記現在のフレームのk番目の領域の雑音ログエネルギーの標準偏差値、βnkは前記現在のフレームのk番目の領域のヒステリシス値、Tnkは雑音閾値、前記kの最大値は前記現在のフレームの領域分割数である。
(項目46)
前記平均値と標準偏差が、下記の数学式を用いて計算されることを特徴とする項目45に記載の音声信号処理装置の音声区間検出方法:
μnk(t)=γ*μnk(t−1)+(1−γ)*E
[E mean(t)=γ*[E mean(t−1)+(1−γ)*E
δnk(t)=ルート([E mean(t)−[μnk(t)]
式中、μnk(t−1)は以前のフレームのk番目の領域の雑音ログエネルギーの平均値、Eは前記現在のフレームのk番目の領域の雑音ログエネルギー、δnk(t)は前記現在のフレームのk番目の領域の雑音ログエネルギーの標準偏差値、γは加重値、前記kの最大値は前記現在のフレームの領域分割数である。
本発明による音声信号処理装置の音声区間検出装置及び方法は、騒音環境で入力される入力信号から少ない演算量でリアルタイムに音声区間を検出できるという効果がある。
また、本発明は、雑音の周波数特性によって臨界帯域を所定数の領域に分割し、前記各領域別に音声区間を検出することにより、騒音環境でも音声区間を正確に検出できるという効果がある。
また、本発明は、騒音環境によって臨界帯域の領域分割数を変化させて雑音の周波数特性を反映することにより、音声区間をさらに正確に検出できるという効果がある。
一般に、可聴周波数は、約20Hz〜20,000Hzの範囲であり、前記範囲を臨界帯域という。前記臨界帯域は、人間の聴覚的特性を考慮した周波数帯域であり、熟練、身体的障害などによって拡大又は縮小される。
本発明は、人間の聴覚的特性に基づいて、様々な種類の雑音の周波数特性によって、臨界帯域を所定数の領域に分割し、前記各領域別に信号閾値及び雑音閾値を適応的に計算し、前記各領域の信号閾値及び雑音閾値と前記各領域のログエネルギーとを比較して、フレーム単位で音声区間であるか雑音区間であるかを判別する。
図1は本発明の一実施形態による音声信号処理装置の音声区間検出装置の構成を示すブロック図である。
図1に示すように、本発明の一実施形態による音声信号処理装置の音声区間検出装置は、入力信号を受信する入力部100と、音声区間検出のための全般的な動作を制御する信号処理部110と、信号処理部110の制御により、前記入力信号の臨界帯域を雑音の周波数特性によって所定数の領域に分割する臨界帯域領域分割部130と、信号処理部110の制御により、前記分割された各領域別に信号閾値を適応的に計算する信号閾値計算部170と、信号処理部110の制御により、前記分割された各領域別に雑音閾値を適応的に計算する雑音閾値計算部160と、前記受信された入力信号の各領域別ログエネルギーによって、現在のフレームが音声区間であるか雑音区間であるかを判別する区間判別部150とを含む。
ここで、前記入力信号は音声信号と雑音信号とを含む。
また、本発明の一実施形態による音声区間検出装置は、音声区間検出を指示するための制御信号を受信するユーザインターフェース部180と、検出された音声区間を出力する出力部140と、音声区間検出動作のために必要なプログラム及びデータを保存するメモリ部120とをさらに含む。
ここで、ユーザインターフェース部180はキーボードなどを含む。
以下、このように構成された本発明の一実施形態による音声信号処理装置の音声区間検出装置の動作について説明する。
ここで、本発明の一実施形態による音声信号処理装置は、音声認識機能を有する移動端末機、音声認識装置など、音声区間検出機能を備える様々な種類のデバイスであり得る。
本発明は、様々な種類の雑音の周波数特性によって臨界帯域を所定数の領域に分割し、前記各領域別に計算されたログエネルギーと前記各領域別に設定された信号閾値及び雑音閾値とを比較し、その比較の結果によって音声区間を検出する。
本発明においては、例えば、自動車環境(乗車時の騒音環境;以下単に自動車環境という)では、雑音が主に低周波帯域に多く分布しているため、臨界帯域を1〜2KHzを境に2つの領域に分割し、歩行環境(歩行時の騒音環境;以下単に歩行環境という)では、臨界帯域を3〜4つの領域に分割する。このように、本発明は、雑音の周波数特性によって、臨界帯域の領域分割数を変化させる。従って、本発明は、雑音の周波数特性によって、音声区間の検出性能をさらに高めることができる。
図2は本発明により雑音の周波数特性によって臨界帯域の領域分割数を決定する方法を示すフローチャートである。
図2に示すように、音声区間検出が要求されると(S11)、音声信号処理装置は、雑音の周波数特性によって領域分割数を設定するために、ユーザが騒音環境の種類の設定を要求するか否かを確認して、ユーザが騒音環境の種類の設定を要求すると(S13)、騒音環境の種類を出力する(S15)。前記騒音環境の種類は、自動車環境、歩行環境などを含む。
例えば、ユーザが自動車内にいるとき、ユーザは自動車環境を選択する。ユーザにより騒音環境が選択されると(S17)、前記音声信号処理装置は、前記選択された騒音環境に該当する領域分割数を設定する(S19)。
このように領域分割数が設定されると、前記音声信号処理装置は、音声区間検出のために、臨界帯域を前記設定された領域分割数で分割する。
図3は本発明による音声信号処理装置の音声区間検出方法を示すフローチャートで、図4は本発明による音声区間検出のためのフレームの構造を示す図である。
動作電源が供給されると、音声信号処理装置は、メモリ部120から運用プログラム、応用プログラム、及びデータをローディングして準備状態となる。
音声区間検出が要求されると(S21)、前記音声信号処理装置の臨界帯域領域分割部130は、図4に示すように、入力信号をフレーム単位でフォーマットする(S23)。各フレームは、臨界帯域の周波数信号を有する。
臨界帯域領域分割部130は、前記各フレームを所定数の領域に分割する(S25)。このとき、前記各フレーム(即ち、臨界帯域)を図2で設定された領域分割数で分割することができる。ここでは、1つのフレームを3つの領域に分割した場合について説明する。
まず、前記音声信号処理装置の信号閾値計算部170及び雑音閾値計算部160は、入力信号の初期に入力された所定数のフレームを音声のない無音区間と判別し、前記無音区間と判別された初期に入力された所定数のフレームの各領域別ログエネルギーの初期平均値と初期標準偏差を計算する(S27)。信号閾値計算部170は、数学式1に示すように、前記計算された初期に入力された所定数のフレームの各領域別ログエネルギーの初期平均値と初期標準偏差を用いて、前記無音区間の後に入力されたフレームの各領域の初期信号閾値を計算し、雑音閾値計算部160は、数学式2に示すように、前記計算された初期に入力された所定数のフレームの各領域別ログエネルギーの初期平均値と初期標準偏差を用いて、前記無音区間の後に入力されたフレームの各領域の初期雑音閾値を計算する(S29)。
(数1)
s1=μn1+αs1*δn1
s2=μn2+αs2*δn2
sk=μnk+αsk*δnk
式中、μは平均値、δは標準偏差値、αはヒステリシス値、kはフレームの領域分割数である。
(数2)
n1=μn1+βn1*δn1
n2=μn2+βn2*δn2
nk=μnk+βnk*δnk
式中、μは平均値、δは標準偏差値、βはヒステリシス値、kはフレームの領域分割数である。
前記ヒステリシス値αとβは、実験により決定されてメモリ部120に保存される。ここでは、前記kは3である。
移動端末機などをパワーオンした後、最小限100ms程度は無音が入力され、その後音声が入力されるのが一般的である。よって、音声信号処理時に使用されるフレームが20msである場合、4〜5つのフレームが無音区間になる。従って、前記初期平均値と初期標準偏差を計算するための初期に入力された所定数のフレームは、例えば4〜5つであり得る。
例えば、無音区間と判別されたフレームが4つである場合、4つのフレーム(第1〜第4フレーム)の後に入力された各フレームを、臨界帯域領域分割部130は3つの領域に分割する。
その後、区間判別部150は、前記各フレームの領域別にログエネルギーを計算する。第5フレーム(5番目に入力されたフレーム)の場合、区間判別部150は、前記第5フレームの第1領域の第1ログエネルギーE1、前記第5フレームの第2領域の第2ログエネルギーE2、前記第5フレームの第3領域の第3ログエネルギーE3を計算する。
図4に臨界帯域のフレームの各領域別に信号閾値Ts1、Ts2、Ts3と雑音閾値Tn1、Tn2、Tn3が示されている。
区間判別部150は、数学式3を用いて、各フレームが音声区間であるか雑音区間であるかを判別する。
(数3)
IF(E>Ts1 OR E>Ts2 OR E>Ts3),VOICE_ACTIVITY=音声区間
ELSE IF(E<Tn1 OR E<Tn2 OR E<Tn3),VOICE_ACTIVITY=雑音区間
ELSE VOICE_ACTIVITY=VOICE_ACTIVITY before
式中、Eはログエネルギー、Tは信号閾値、Tは雑音閾値である。
即ち、区間判別部150は、第5フレームの場合、各領域のログエネルギーEと各領域の信号閾値T及び雑音閾値Tとを比較する。その後、区間判別部150は、前記比較の結果、前記ログエネルギーが前記信号閾値より大きい領域が少なくとも1つ以上存在すると、前記第5フレームを音声区間と判別して音声区間に設定し、それに対して、前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が1つ以上存在すると、前記第5フレームを雑音区間と判別して雑音区間に設定する(S31)。
このようにして、現在のフレーム(第5フレーム)が音声区間であるか雑音区間であるかの判別が完了すると、信号処理部110は、出力部140に現在のフレームを出力する(S33)。
その後、現在のフレームが最後のフレームでないと(S35)、信号処理部110は、信号閾値又は雑音閾値が更新されるように、信号閾値計算部170又は雑音閾値計算部160を制御する。
即ち、現在のフレームが音声区間と判別された場合(S37)、信号処理部110の制御により、信号閾値計算部170は、数学式4のような方法で前記各領域別音声ログエネルギーの平均値及び標準偏差を再び計算し、前記計算された音声ログエネルギーの平均値及び標準偏差を数学式1に適用して、前記各領域別信号閾値を更新する(S39)。このとき、雑音閾値は更新されない。
(数4)
μs1(t)=γ*μs1(t−1)+(1−γ)*E
[E mean(t)=γ*[E mean(t−1)+(1−γ)*E
δs1(t)=ルート([E mean(t)−[μs1(t)]

μs2(t)=γ*μs2(t−1)+(1−γ)*E
[E mean(t)=γ*[E mean(t−1)+(1−γ)*E
δs2(t)=ルート([E mean(t)−[μs2(t)]

μs3(t)=γ*μs3(t−1)+(1−γ)*E
[E mean(t)=γ*[E mean(t−1)+(1−γ)*E
δs3(t)=ルート([E mean(t)−[μs3(t)]
式中、μは音声ログエネルギーの平均値、δは標準偏差値、tはフレーム時間値、γは実験値であって加重値、E1、E2、E3は該当領域での音声ログエネルギーである。
それに対して、現在のフレームが雑音区間と判別された場合(S41)、信号処理部110の制御により、信号閾値計算部170は、数学式5のような方法で前記各領域別雑音ログエネルギーの平均値及び標準偏差を再び計算し、前記計算された雑音ログエネルギーの平均値及び標準偏差を数学式2に適用して、前記各領域別雑音閾値を更新する(S43)。
(数5)
μn1(t)=γ*μn1(t−1)+(1−γ)*E
[E mean(t)=γ*[E mean(t−1)+(1−γ)*E
δn1(t)=ルート([E mean(t)−[μnl(t)]
δs1(t)=ルート([E mean(t)−[μs1(t)]

μn2(t)=γ*μn2(t−1)+(1−γ)*E
[E mean(t)=γ*[E mean(t−1)+(1−γ)*E
δn2(t)=ルート([E mean(t)−[μn2(t)]

μn3(t)=γ*μn3(t−1)+(1−γ)*E
[E mean(t)=γ*[E mean(t−1)+(1−γ)*E
δn3(t)=ルート([E mean(t)−[μn3(t)]
式中、μは雑音ログエネルギーの平均値、δは標準偏差値、tはフレーム時間値、γは実験値であって加重値、E1、E2、E3は該当領域での雑音ログエネルギーである。
数学式4及び数学式5において、γは、例えば0.95の値をとり、メモリ部120に保存される。数学式4及び数学式5において、各領域のログエネルギーの平均値を再帰法で計算することにより、入力信号に適応する該当閾値を計算することができ、さらに、再帰法による平均値の計算は、音声区間検出装置のリアルタイム処理を容易にする。
しかしながら、前記段階S31において、該当フレームの各領域のログエネルギーEと前記各領域の信号閾値T及び雑音閾値Tとの比較の結果、前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が存在しないと、区間判別部150は、以前のフレームの判別区間を前記該当フレームに適用する(S45)。
即ち、以前のフレームが音声区間であると、区間判別部150は、前記該当フレーム(現在のフレーム)を音声区間と判別し、以前のフレームが雑音区間であると、前記該当フレームを雑音区間と判別する(S45)。
このように、前記該当フレーム(現在のフレーム)が音声区間であるか雑音区間であるかが判別されると、信号処理部110は前記段階S35に進む。
このように、本発明は、騒音環境で入力される入力信号から少ない演算量でリアルタイムに音声区間を検出し、音声区間を正確に検出する。
次に、本発明の他の実施形態による音声信号処理装置の音声区間検出装置の構成について説明する。
本発明の他の実施形態による音声信号処理装置の音声区間検出装置は、音声区間検出を指示するためのユーザ制御命令を受信するユーザインターフェース部と、前記ユーザ制御命令により、入力信号を受信する入力部と、前記ユーザ制御命令により、前記入力信号を臨界帯域のフレーム単位でフォーマットし、各フレームの臨界帯域を雑音の周波数特性によって所定数の領域に分割し、前記分割された各領域別に信号閾値及び雑音閾値を適応的に計算し、前記各領域のログエネルギーと前記各領域の信号閾値及び雑音閾値とを比較し、前記比較の結果によって前記各フレームが音声区間であるか雑音区間であるかを判別するプロセッサとを含む。
また、本発明の他の実施形態による音声区間検出装置は、検出された音声区間を出力する出力部と、音声区間検出動作のために必要なプログラム及びデータを保存するメモリ部とをさらに含む。
このように構成された本発明の他の実施形態による音声信号処理装置の音声区間検出装置の動作は、図2及び図3を参照して説明された本発明の一実施形態の動作と同様の方法で行われる。
以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。
本発明の一実施形態による音声信号処理装置の音声区間検出装置の構成を示すブロック図である。 本発明により雑音の周波数特性によって臨界帯域の領域分割数を決定する方法を示すフローチャートである。 本発明による音声信号処理装置の音声区間検出方法を示すフローチャートである。 本発明による音声区間検出のためのフレームの構造を示す図である。

Claims (3)

  1. 音声信号及び雑音信号からなる入力信号を受信する入力部と、
    ユーザの騒音環境種類の設定要求により自動車環境及び歩行環境から構成された騒音環境種類を出力し、ユーザにより選択された騒音環境によって臨界帯域を区分する領域の数が異なるように設定する信号処理部と、
    前記信号処理部により設定された領域の数に応じて前記入力信号の臨界帯域を分割する臨界帯域領域分割部と、
    前記臨界帯域領域分割部により分割された各領域別に信号閾値を適応的に計算する信号閾値計算部と、
    前記臨界帯域領域分割部により分割された各領域別に雑音閾値を適応的に計算する雑音閾値計算部と、
    前記分割された各領域別に前記入力信号のフレームのログエネルギーを計算し、前記計算された各領域別ログエネルギーと前記計算された各領域別信号閾値及び雑音閾値とを比較し、前記入力信号の前記フレームにおける臨界帯域の信号を用いて、前記入力信号の前記フレームが音声区間であるか雑音区間であるかを判別する区間判別部と
    を含み、
    前記区間判別部は、前記ログエネルギーが信号閾値より大きい領域が1つ以上存在すると前記入力信号の前記フレームを音声区間と判断し、前記ログエネルギーが雑音閾値より小さい領域が1つ以上存在すると前記入力信号の前記フレームを雑音区間と判断することを特徴とする音声信号処理装置の音声区間検出装置。
  2. 前記領域の数は、騒音環境種類が自動車環境の場合は2つであり、騒音環境種類が歩行環境の場合は3つ又は4つであることを特徴とする請求項1に記載の音声信号処理装置の音声区間検出装置。
  3. ユーザの騒音環境種類の設定要求により自動車環境及び歩行環境から構成された騒音環境種類を出力する段階と、
    前記出力された騒音環境種類からユーザにより選択された騒音環境によって臨界帯域を区分する領域の数が異なるように設定する段階と、
    前記設定された領域の数に応じて入力信号の臨界帯域を分割する段階と、
    前記分割された各領域別に信号閾値、雑音閾値、及び前記入力信号のフレームのログエネルギーを計算する段階と、
    前記計算された各領域別ログエネルギーと前記計算された各領域別信号閾値及び雑音閾値とを比較し、前記入力信号の前記フレームにおける臨界帯域の信号を用いて、前記入力信号の前記フレームが音声区間であるか雑音区間であるかを判別する段階と
    を含み、
    前記帯域の数は、騒音環境種類が自動車環境の場合は2つであり、騒音環境種類が歩行環境の場合は3つ又は4つであり、
    前記ログエネルギーが信号閾値より大きい領域が1つ以上存在すると前記入力信号の前記フレームを音声区間と判断し、前記ログエネルギーが雑音閾値より小さい領域が1つ以上存在すると前記入力信号の前記フレームを雑音区間と判断することを特徴とする音声信号処理装置の音声区間検出方法。
JP2005334978A 2004-11-20 2005-11-18 音声信号処理装置の音声区間検出装置及び方法 Expired - Fee Related JP4282659B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040095520A KR100677396B1 (ko) 2004-11-20 2004-11-20 음성인식장치의 음성구간 검출방법

Publications (2)

Publication Number Publication Date
JP2006146226A JP2006146226A (ja) 2006-06-08
JP4282659B2 true JP4282659B2 (ja) 2009-06-24

Family

ID=35723587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005334978A Expired - Fee Related JP4282659B2 (ja) 2004-11-20 2005-11-18 音声信号処理装置の音声区間検出装置及び方法

Country Status (7)

Country Link
US (1) US7620544B2 (ja)
EP (1) EP1659570B1 (ja)
JP (1) JP4282659B2 (ja)
KR (1) KR100677396B1 (ja)
CN (1) CN1805007B (ja)
AT (1) ATE412235T1 (ja)
DE (1) DE602005010525D1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008099163A (ja) * 2006-10-16 2008-04-24 Audio Technica Corp ノイズキャンセルヘッドフォンおよびヘッドフォンにおけるノイズキャンセル方法
KR100835996B1 (ko) * 2006-12-05 2008-06-09 한국전자통신연구원 적응형 발성 화면 분석 방법 및 장치
US20110035215A1 (en) * 2007-08-28 2011-02-10 Haim Sompolinsky Method, device and system for speech recognition
CN101515454B (zh) * 2008-02-22 2011-05-25 杨夙 用于语音、音乐、噪音自动分类的信号特征提取方法
EP2107553B1 (en) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Method for determining barge-in
US8380497B2 (en) 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
WO2010113220A1 (ja) * 2009-04-02 2010-10-07 三菱電機株式会社 雑音抑圧装置
KR101251045B1 (ko) * 2009-07-28 2013-04-04 한국전자통신연구원 오디오 판별 장치 및 그 방법
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
EP2816560A1 (en) * 2009-10-19 2014-12-24 Telefonaktiebolaget L M Ericsson (PUBL) Method and background estimator for voice activity detection
EP2561508A1 (en) 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
CN102376303B (zh) * 2010-08-13 2014-03-12 国基电子(上海)有限公司 录音设备及利用该录音设备进行声音处理与录入的方法
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
US20130151248A1 (en) * 2011-12-08 2013-06-13 Forrest Baker, IV Apparatus, System, and Method For Distinguishing Voice in a Communication Stream
CN103915097B (zh) * 2013-01-04 2017-03-22 中国移动通信集团公司 一种语音信号处理方法、装置和系统
JP6221257B2 (ja) * 2013-02-26 2017-11-01 沖電気工業株式会社 信号処理装置、方法及びプログラム
KR20150105847A (ko) * 2014-03-10 2015-09-18 삼성전기주식회사 음성구간 검출 방법 및 장치
CN107613236B (zh) * 2017-09-28 2021-01-05 盐城市聚龙湖商务集聚区发展有限公司 一种音像录制方法及终端、存储介质
KR20200141860A (ko) * 2019-06-11 2020-12-21 삼성전자주식회사 전자 장치 및 그 제어 방법
CN110689901B (zh) * 2019-09-09 2022-06-28 苏州臻迪智能科技有限公司 语音降噪的方法、装置、电子设备及可读存储介质
US20210169559A1 (en) * 2019-12-06 2021-06-10 Board Of Regents, The University Of Texas System Acoustic monitoring for electrosurgery
CN113098626B (zh) * 2020-01-09 2023-03-24 北京君正集成电路股份有限公司 一种近距离声波通信同步的方法
CN113098627B (zh) * 2020-01-09 2023-03-24 北京君正集成电路股份有限公司 一种实现近距离声波通信同步的系统
CN111554314A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 噪声检测方法、装置、终端及存储介质
CN115240696B (zh) * 2022-07-26 2023-10-03 北京集智数字科技有限公司 一种语音识别方法及可读存储介质
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3626492B2 (ja) * 1993-07-07 2005-03-09 ポリコム・インコーポレイテッド 会話の品質向上のための背景雑音の低減
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
KR20000022285A (ko) * 1996-07-03 2000-04-25 내쉬 로저 윌리엄 음성 액티비티 검출기 및 검출 방법
US5884255A (en) * 1996-07-16 1999-03-16 Coherent Communications Systems Corp. Speech detection system employing multiple determinants
US5866702A (en) * 1996-08-02 1999-02-02 Cv Therapeutics, Incorporation Purine inhibitors of cyclin dependent kinase 2
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
FR2767334B1 (fr) * 1997-08-12 1999-10-22 Commissariat Energie Atomique Kinase activatrice des proteine-kinases cycline dependantes, et ses utilisations
US6479487B1 (en) * 1998-02-26 2002-11-12 Aventis Pharmaceuticals Inc. 6, 9-disubstituted 2-[trans-(4-aminocyclohexyl)amino] purines
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
US6327564B1 (en) * 1999-03-05 2001-12-04 Matsushita Electric Corporation Of America Speech detection using stochastic confidence measures on the frequency spectrum
HUP0200938A2 (en) * 1999-04-02 2002-10-28 Euro Celtique Sa Purine derivatives having phosphodiesterase iv inhibition activity and medicaments containing them
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
JP2000310993A (ja) * 1999-04-28 2000-11-07 Pioneer Electronic Corp 音声検出装置
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
US6812232B2 (en) * 2001-09-11 2004-11-02 Amr Technology, Inc. Heterocycle substituted purine derivatives as potent antiproliferative agents
US6667311B2 (en) * 2001-09-11 2003-12-23 Albany Molecular Research, Inc. Nitrogen substituted biaryl purine derivatives as potent antiproliferative agents
US7346175B2 (en) * 2001-09-12 2008-03-18 Bitwave Private Limited System and apparatus for speech communication and speech recognition
US7146314B2 (en) * 2001-12-20 2006-12-05 Renesas Technology Corporation Dynamic adjustment of noise separation in data handling, particularly voice activation

Also Published As

Publication number Publication date
ATE412235T1 (de) 2008-11-15
KR20060056186A (ko) 2006-05-24
US7620544B2 (en) 2009-11-17
EP1659570A1 (en) 2006-05-24
EP1659570B1 (en) 2008-10-22
CN1805007A (zh) 2006-07-19
CN1805007B (zh) 2010-11-03
JP2006146226A (ja) 2006-06-08
DE602005010525D1 (de) 2008-12-04
KR100677396B1 (ko) 2007-02-02
US20060111901A1 (en) 2006-05-25

Similar Documents

Publication Publication Date Title
JP4282659B2 (ja) 音声信号処理装置の音声区間検出装置及び方法
JP7150939B2 (ja) ボリューム平準化器コントローラおよび制御方法
JP6921907B2 (ja) オーディオ分類および処理のための装置および方法
ES2630398T3 (es) Dispositivo de control y método de control del ecualizador
US8874440B2 (en) Apparatus and method for detecting speech
US6336091B1 (en) Communication device for screening speech recognizer input
US6988068B2 (en) Compensating for ambient noise levels in text-to-speech applications
KR100302370B1 (ko) 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
JP6290429B2 (ja) 音声処理システム
KR20040005860A (ko) 음성 통신에서의 위로 잡음 생성 방법 및 시스템
ES2684604T3 (es) Procedimiento de detección de la voz
JPS62274941A (ja) 音声符号化方式
CN100504840C (zh) 用于背景噪声快速动态估计的方法
CN105825869B (zh) 语音处理装置和语音处理方法
JP6098149B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP2009296297A (ja) 音声信号処理装置および方法
WO2001052600A1 (en) Method and device for determining the quality of a signal
JP2002261553A (ja) 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム
JP3555490B2 (ja) 声質変換システム
JP2008040431A (ja) 音声加工装置
JPH11133997A (ja) 有音無音判定装置
KR102132326B1 (ko) 통신 시스템에서 오류 은닉 방법 및 장치
KR102562180B1 (ko) 웨어러블 음향 변환 장치
JPH10171487A (ja) 音声区間判別装置
CN116206619A (zh) 语音处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090227

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090317

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120327

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130327

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130327

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140327

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees