JP4282659B2

JP4282659B2 - 音声信号処理装置の音声区間検出装置及び方法

Info

Publication number: JP4282659B2
Application number: JP2005334978A
Authority: JP
Inventors: ギョン−ホウ
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2004-11-20
Filing date: 2005-11-18
Publication date: 2009-06-24
Anticipated expiration: 2025-11-18
Also published as: ATE412235T1; KR20060056186A; US7620544B2; EP1659570A1; EP1659570B1; CN1805007A; CN1805007B; JP2006146226A; DE602005010525D1; KR100677396B1; US20060111901A1

Description

本発明は、音声信号処理に関し、特に、音声区間検出装置及び方法に関する。

音声分析及び合成、音声認識、音声符号化、音声復号化などの音声信号処理に関連した全般的な分野において、音声信号の音声区間を正確に検出することは非常に重要である。

しかしながら、一般的な音声区間検出装置は、装置の構成が複雑であり、計算量が多くて、リアルタイム処理を行うことができない。

また、一般的な音声区間検出方法としては、例えば、エネルギーとゼロ交差率（zero crossing rate）による検出方法、騒音で判別された区間のケプストラム（cepstral）係数と現在区間のケプストラム距離（cepstraldistance）を求めて音声信号の有無を判断する方法、音声信号と雑音信号の一貫性（coherent）を測定して音声信号の有無を判断する方法などがある。

前述したような一般的な音声区間検出方法は、実際の応用面で音声区間の検出性能に優れておらず、音声区間検出のための計算量が多くて、信号対雑音比（Signal to Noise Ratio；ＳＮＲ）が低い場合に適用することが困難であり、周辺環境から検出される背景騒音又は雑音が急激に変化する場合、音声区間の検出が難しいという問題があった。

従って、通信システム、移動通信システム、音声認識システムなどの音声信号処理が適用される分野において、背景騒音又は雑音が急激に変化する状況でも音声区間の検出性能に優れ、音声区間検出のための計算量が少なくて、リアルタイム処理を行うことができる音声区間検出装置及び方法が求められている。

本発明は、このような従来技術の問題を解決するためになされたもので、騒音環境でも音声区間を正確に検出し、音声区間検出のための計算量が少なくて、リアルタイム処理を行うことができる音声信号処理装置の音声区間検出装置及び方法を提供することを目的とする。

上記の目的を達成するために、本発明による音声信号処理装置の音声区間検出装置は、入力信号を受信する入力部と、音声区間検出のための全般的な動作を制御する信号処理部と、前記信号処理部の制御により、前記入力信号の臨界帯域を、雑音の周波数特性によって所定数の領域に分割する臨界帯域領域分割部と、前記信号処理部の制御により、前記分割された各領域別に信号閾値を適応的に計算する信号閾値計算部と、前記信号処理部の制御により、前記分割された各領域別に雑音閾値を適応的に計算する雑音閾値計算部と、前記入力信号の各領域別ログエネルギーによって、現在のフレームが音声区間であるか雑音区間であるかを判別する区間判別部とを含むことを特徴とする。

また、上記の目的を達成するために、本発明による音声信号処理装置の音声区間検出装置は、音声区間検出を指示するためのユーザ制御命令を受信するユーザインターフェース部と、前記ユーザ制御命令により、入力信号を受信する入力部と、前記ユーザ制御命令により、前記入力信号を臨界帯域のフレーム単位でフォーマットし、各フレームの臨界帯域を雑音の周波数特性によって所定数の領域に分割し、前記分割された各領域別に信号閾値及び雑音閾値を適応的に計算し、前記各領域のログエネルギーと前記各領域の信号閾値及び雑音閾値とを比較し、前記比較の結果によって前記各フレームが音声区間であるか雑音区間であるかを判別するプロセッサとを含むことを特徴とする。

さらに、上記の目的を達成するために、本発明による音声信号処理装置の音声区間検出方法は、入力信号の臨界帯域を雑音の周波数特性によって所定数の領域に分割する過程と、前記各領域別に異なる値に設定された適応閾値と前記各領域別に計算されたログエネルギーとを比較する過程と、前記入力信号が音声区間であるか否かを判別する過程とを含むを特徴とする。

また、前記音声区間検出方法は、前記判別の結果によって、前記各領域別に計算されたログエネルギーの平均値と標準偏差を用いて、前記適応閾値を更新する過程をさらに含む。

また、前記適応閾値は、適応信号閾値と適応雑音閾値とを含む。

さらに、上記の目的を達成するために、本発明による音声信号処理装置の音声区間検出方法は、入力信号を臨界帯域のフレーム単位でフォーマットする過程と、現在のフレームを雑音の周波数特性によって所定数の領域に分割する過程と、前記現在のフレームの各領域別に設定された信号閾値及び雑音閾値と前記現在のフレームの各領域別に計算されたログエネルギーとを比較する過程と、前記現在のフレームが音声区間であるか否かを判別する過程と、前記各領域別ログエネルギーを用いて、前記信号閾値及び雑音閾値を選択的に更新する過程とを含むを特徴とする。

上記目的を達成するために、本発明は、例えば、以下の手段を提供する。
（項目１）
入力信号を受信する入力部と、
音声区間検出のための全般的な動作を制御する信号処理部と、
前記信号処理部の制御により、前記入力信号の臨界帯域を、雑音の周波数特性によって所定数の領域に分割する臨界帯域領域分割部と、
前記信号処理部の制御により、前記分割された各領域別に信号閾値を適応的に計算する信号閾値計算部と、
前記信号処理部の制御により、前記分割された各領域別に雑音閾値を適応的に計算する雑音閾値計算部と、
前記入力信号の各領域別ログエネルギーによって、現在のフレームが音声区間であるか雑音区間であるかを判別する区間判別部と、
を含むことを特徴とする音声信号処理装置の音声区間検出装置。
（項目２）
音声区間検出を指示するための制御信号を受信するユーザインターフェース部と、
検出された音声区間を出力する出力部と、
音声区間検出動作のために必要なプログラム及びデータを保存するメモリ部と、
をさらに含むことを特徴とする項目１に記載の音声信号処理装置の音声区間検出装置。
（項目３）
前記臨界帯域の領域分割数は、前記雑音の周波数特性が自動車騒音の周波数特性である場合、２であることを特徴とする項目１に記載の音声信号処理装置の音声区間検出装置。
（項目４）
前記臨界帯域の領域分割数は、前記雑音の周波数特性が歩行時の周辺騒音の周波数特性である場合、３又は４であることを特徴とする項目１に記載の音声信号処理装置の音声区間検出装置。
（項目５）
前記臨界帯域領域分割部が、前記臨界帯域を騒音環境の種類によって異なる数の領域に分割することを特徴とする項目１に記載の音声信号処理装置の音声区間検出装置。
（項目６）
前記信号処理部は、音声区間検出が要求されると、ユーザが臨界帯域の領域分割数の設定を要求するか否かを確認し、ユーザにより選択された騒音環境の種類によって前記臨界帯域の領域分割数を設定することを特徴とする項目５に記載の音声信号処理装置の音声区間検出装置。
（項目７）
前記信号処理部が、初期に入力された所定数のフレームの各領域別ログエネルギーの初期平均値と初期標準偏差の計算動作を制御することを特徴とする項目１に記載の音声信号処理装置の音声区間検出装置。
（項目８）
前記初期に入力された所定数のフレームが、４つ又は５つであることを特徴とする項目７に記載の音声信号処理装置の音声区間検出装置。
（項目９）
前記区間判別部により前記現在のフレームが音声区間と判別されると、前記信号閾値計算部が、前記現在のフレームの各領域別音声ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記信号閾値を更新することを特徴とする項目１に記載の音声信号処理装置の音声区間検出装置。
（項目１０）
前記信号閾値が、前記各領域別に下記の数学式を用いて更新されることを特徴とする項目９に記載の音声信号処理装置の音声区間検出装置：
Ｔ_ｓｋ＝μ_ｓｋ＋α_ｓｋ＊δ_ｓｋ
式中、μ_ｓｋは前記現在のフレームのｋ番目の領域の音声ログエネルギーの平均値、δ_ｓｋは前記現在のフレームのｋ番目の領域の音声ログエネルギーの標準偏差値、α_ｓｋは前記現在のフレームのｋ番目の領域のヒステリシス値、Ｔ_ｓｋは信号閾値、前記ｋの最大値は前記現在のフレームの領域分割数である。
（項目１１）
前記平均値と標準偏差が、下記の数学式を用いて計算されることを特徴とする項目９に記載の音声信号処理装置の音声区間検出装置：
μ_ｓｋ（ｔ）＝γ＊μ_ｓｋ（ｔ−１）＋（１−γ）＊Ｅ_ｋ
［Ｅ_ｋ ^２］_ｍｅａｎ（ｔ）＝γ＊［Ｅ_ｋ ^２］_ｍｅａｎ（ｔ−１）＋（１−γ）＊Ｅ_ｋ ^２
δ_ｓｋ（ｔ）＝ルート（［Ｅ_ｋ ^２］_ｍｅａｎ（ｔ）−［μ_ｓｋ（ｔ）］^２）
式中、μ_ｓｋ（ｔ−１）は以前のフレームのｋ番目の領域の音声ログエネルギーの平均値、Ｅ_ｋは前記現在のフレームのｋ番目の領域の音声ログエネルギー、δ_ｓｋ（ｔ）は前記現在のフレームのｋ番目の領域の音声ログエネルギーの標準偏差値、γは加重値、前記ｋの最大値は前記現在のフレームの領域分割数である。
（項目１２）
前記区間判別部により前記現在のフレームが雑音区間と判別されると、前記雑音閾値計算部が、前記現在のフレームの各領域別雑音ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記雑音閾値を更新することを特徴とする項目１に記載の音声信号処理装置の音声区間検出装置。
（項目１３）
前記雑音閾値が、前記各領域別に下記の数学式を用いて計算されることを特徴とする項目１２に記載の音声信号処理装置の音声区間検出装置：
Ｔ_ｎｋ＝μ_ｎｋ＋β_ｎｋ＊δ_ｎｋ
式中、μ_ｎｋは前記現在のフレームのｋ番目の領域の雑音ログエネルギーの平均値、δ_ｎｋは前記現在のフレームのｋ番目の領域の雑音ログエネルギーの標準偏差値、β_ｎｋは前記現在のフレームのｋ番目の領域のヒステリシス値、Ｔ_ｎｋは雑音閾値、前記ｋの最大値は前記現在のフレームの領域分割数である。
（項目１４）
前記平均値と標準偏差が、下記の数学式を用いて計算されることを特徴とする項目１２に記載の音声信号処理装置の音声区間検出装置：
μ_ｎｋ（ｔ）＝γ＊μ_ｎｋ（ｔ−１）＋（１−γ）＊Ｅ_ｋ
［Ｅ_ｋ ^２］_ｍｅａｎ（ｔ）＝γ＊［Ｅ_ｋ ^２］_ｍｅａｎ（ｔ−１）＋（１−γ）＊Ｅ_ｋ ^２
δ_ｎｋ（ｔ）＝ルート（［Ｅ_ｋ ^２］_ｍｅａｎ（ｔ）−［μ_ｎｋ（ｔ）］^２）
式中、μ_ｎｋ（ｔ−１）は以前のフレームのｋ番目の領域の雑音ログエネルギーの平均値、Ｅ_ｋは前記現在のフレームのｋ番目の領域の雑音ログエネルギー、δ_ｎｋ（ｔ）は前記現在のフレームのｋ番目の領域の雑音ログエネルギーの標準偏差値、γは加重値、前記ｋの最大値は前記現在のフレームの領域分割数である。
（項目１５）
前記区間判別部が、前記入力信号のフレームの各領域別ログエネルギーを計算し、前記ログエネルギーが前記信号閾値より大きい領域が１つ以上存在すると、前記現在のフレームを音声区間と判別することを特徴とする項目１に記載の音声信号処理装置の音声区間検出装置。
（項目１６）
前記区間判別部が、前記入力信号のフレームの各領域別ログエネルギーを計算し、前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が１つ以上存在すると、前記現在のフレームを雑音区間と判別することを特徴とする項目１に記載の音声信号処理装置の音声区間検出装置。
（項目１７）
前記区間判別部が、前記入力信号のフレームの各領域別ログエネルギーを計算し、前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が存在しないと、以前のフレームの判別区間を前記現在のフレームに適用することを特徴とする項目１に記載の音声信号処理装置の音声区間検出装置。
（項目１８）
前記区間判別部が、下記の条件式により前記現在のフレームの区間の種類を判別することを特徴とする項目１に記載の音声信号処理装置の音声区間検出装置：
ＩＦ（Ｅ_１＞Ｔ_ｓ１ＯＲＥ_２＞Ｔ_ｓ２ＯＲＥ_ｋ＞Ｔ_ｓｋ）、前記現在のフレームは音声区間
ＥＬＳＥＩＦ（Ｅ_１＜Ｔ_ｎ１ＯＲＥ_２＜Ｔ_ｎ２ＯＲＥ_ｋ＜Ｔ_ｎｋ）、前記現在のフレームは雑音区間
ＥＬＳＥ、前記現在のフレームは以前のフレームの判別された区間と同一
式中、Ｅは各領域別ログエネルギー、Ｔ_ｓは各領域別信号閾値、Ｔ_ｎは各領域別雑音閾値、ｋはフレームの領域分割数である。
（項目１９）
音声区間検出を指示するためのユーザ制御命令を受信するユーザインターフェース部と、
前記ユーザ制御命令により、入力信号を受信する入力部と、
前記ユーザ制御命令により、前記入力信号を臨界帯域のフレーム単位でフォーマットし、各フレームの臨界帯域を雑音の周波数特性によって所定数の領域に分割し、前記分割された各領域別に信号閾値及び雑音閾値を適応的に計算し、前記各領域のログエネルギーと前記各領域の信号閾値及び雑音閾値とを比較し、前記比較の結果によって前記各フレームが音声区間であるか雑音区間であるかを判別するプロセッサと、
を含むことを特徴とする音声信号処理装置の音声区間検出装置。
（項目２０）
前記プロセッサが、前記ユーザ制御命令が受信されると、前記フレームの領域分割数の設定を要求するか否かを確認し、ユーザにより選択された騒音環境の種類によって前記臨界帯域の領域分割数を設定することを特徴とする項目１９に記載の音声信号処理装置の音声区間検出装置。
（項目２１）
前記プロセッサが、初期に入力された所定数のフレームの各領域別ログエネルギーの初期平均値と初期標準偏差を計算し、前記初期平均値と初期標準偏差を用いて、初期信号閾値と初期雑音閾値を計算することを特徴とする項目１９に記載の音声信号処理装置の音声区間検出装置。
（項目２２）
前記プロセッサが、下記の条件式を用いて、現在のフレームが音声区間であるか雑音区間であるかを判別することを特徴とする項目１９に記載の音声信号処理装置の音声区間検出装置：
ＩＦ（Ｅ_１＞Ｔ_ｓ１ＯＲＥ_２＞Ｔ_ｓ２ＯＲＥ_ｋ＞Ｔ_ｓｋ）、前記現在のフレームは音声区間
ＥＬＳＥＩＦ（Ｅ_１＜Ｔ_ｎ１ＯＲＥ_２＜Ｔ_ｎ２ＯＲＥ_ｋ＜Ｔ_ｎｋ）、前記現在のフレームは雑音区間、
ＥＬＳＥ、前記現在のフレームは以前のフレームの判別された区間と同一
式中、Ｅは各領域別ログエネルギー、Ｔ_ｓは各領域別信号閾値、Ｔ_ｎは各領域別雑音閾値、ｋはフレームの領域分割数である。
（項目２３）
前記現在のフレームが音声区間と判別されると、前記プロセッサが、前記現在のフレームの各領域別音声ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記信号閾値を更新することを特徴とする項目２２に記載の音声信号処理装置の音声区間検出装置。
（項目２４）
前記現在のフレームが雑音区間と判別されると、前記プロセッサが、前記現在のフレームの各領域別雑音ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記雑音閾値を更新することを特徴とする項目２２に記載の音声信号処理装置の音声区間検出装置。
（項目２５）
入力信号の臨界帯域を雑音の周波数特性によって所定数の領域に分割する過程と、
前記各領域別に異なる値に設定された適応閾値と前記各領域別に計算されたログエネルギーとを比較する過程と、
前記入力信号が音声区間であるか否かを判別する過程と、
を含むことを特徴とする音声信号処理装置の音声区間検出方法。
（項目２６）
前記判別の結果によって、前記各領域別に計算されたログエネルギーの平均値と標準偏差を用いて、前記適応閾値を更新する過程をさらに含むことを特徴とする項目２５に記載の音声信号処理装置の音声区間検出方法。
（項目２７）
前記適応閾値が、適応信号閾値と適応雑音閾値とを含むことを特徴とする項目２６に記載の音声信号処理装置の音声区間検出方法。
（項目２８）
前記入力信号が音声区間と判別されると、プロセッサが、前記各領域別に計算されたログエネルギーの平均値と標準偏差を用いて、前記適応信号閾値を更新することを特徴とする項目２７に記載の音声信号処理装置の音声区間検出方法。
（項目２９）
前記入力信号が雑音区間と判別されると、プロセッサが、前記各領域別に計算されたログエネルギーの平均値と標準偏差を用いて、前記適応雑音閾値を更新することを特徴とする項目２７に記載の音声信号処理装置の音声区間検出方法。
（項目３０）
初期に入力された所定数のフレームの各領域別ログエネルギーの初期平均値と初期標準偏差を計算する過程と、
前記初期平均値と初期標準偏差を用いて、前記各領域別に初期適応閾値を設定する過程と、
をさらに含むことを特徴とする項目２５に記載の音声信号処理装置の音声区間検出方法。
（項目３１）
入力信号を臨界帯域のフレーム単位でフォーマットする過程と、
現在のフレームを雑音の周波数特性によって所定数の領域に分割する過程と、
前記現在のフレームの各領域別に設定された信号閾値及び雑音閾値と前記現在のフレームの各領域別に計算されたログエネルギーとを比較する過程と、
前記現在のフレームが音声区間であるか否かを判別する過程と、
前記各領域別ログエネルギーを用いて、前記信号閾値及び雑音閾値を選択的に更新する過程と、
を含むことを特徴とする音声信号処理装置の音声区間検出方法。
（項目３２）
初期に入力された所定数のフレームの各領域別に計算されたログエネルギーの初期平均値と初期標準偏差を用いて、前記各領域別に初期信号閾値と初期雑音閾値を設定する過程をさらに含むことを特徴とする項目３１に記載の音声信号処理装置の音声区間検出方法。
（項目３３）
前記初期に入力された所定数のフレームが、３つ又は４つであることを特徴とする項目３２に記載の音声信号処理装置の音声区間検出方法。
（項目３４）
前記臨界帯域のフレームの領域分割数が、前記雑音の周波数特性が自動車騒音の周波数特性である場合、２であることを特徴とする項目３１に記載の音声信号処理装置の音声区間検出方法。
（項目３５）
前記臨界帯域のフレームの領域分割数が、前記雑音の周波数特性が歩行時の周辺騒音の周波数特性である場合、３又は４であることを特徴とする項目３１に記載の音声信号処理装置の音声区間検出方法。
（項目３６）
前記臨界帯域のフレームの領域分割数が、ユーザにより入力された騒音環境の種類によって異なる値に設定されることを特徴とする項目３１に記載の音声信号処理装置の音声区間検出方法。
（項目３７）
前記ログエネルギーが前記信号閾値より大きい領域が１つ以上存在すると、区間判別部が、前記現在のフレームを音声区間と判別することを特徴とする項目３１に記載の音声信号処理装置の音声区間検出方法。
（項目３８）
前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が１つ以上存在すると、区間判別部が、前記現在のフレームを雑音区間と判別することを特徴とする項目３１に記載の音声信号処理装置の音声区間検出方法。
（項目３９）
前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が存在しないと、区間判別部が、前記現在のフレームの区間が以前のフレームの判別区間と同一であると判別することを特徴とする項目３１に記載の音声信号処理装置の音声区間検出方法。
（項目４０）
区間判別部が、下記の条件式により前記現在のフレームが音声区間であるか雑音区間であるかを判別することを特徴とする項目３１に記載の音声信号処理装置の音声区間検出方法：
ＩＦ（Ｅ_１＞Ｔ_ｓ１ＯＲＥ_２＞Ｔ_ｓ２ＯＲＥ_ｋ＞Ｔ_ｓｋ）、前記現在のフレームは音声区間
ＥＬＳＥＩＦ（Ｅ_１＜Ｔ_ｎ１ＯＲＥ_２＜Ｔ_ｎ２ＯＲＥ_ｋ＜Ｔ_ｎｋ）、前記現在のフレームは雑音区間
ＥＬＳＥ、前記現在のフレームは以前のフレームの判別された区間と同一
式中、Ｅは各領域別ログエネルギー、Ｔ_ｓは各領域別信号閾値、Ｔ_ｎは各領域別雑音閾値、ｋはフレームの領域分割数である。
（項目４１）
前記現在のフレームが音声区間と判別されると、信号閾値計算部が、前記現在のフレームの各領域別音声ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記信号閾値を更新することを特徴とする項目３１に記載の音声信号処理装置の音声区間検出方法。
（項目４２）
前記信号閾値が、前記各領域別に下記の数学式を用いて更新されることを特徴とする項目４１に記載の音声信号処理装置の音声区間検出方法：
Ｔ_ｓｋ＝μ_ｓｋ＋α_ｓｋ＊δ_ｓｋ
式中、μ_ｓｋは前記現在のフレームのｋ番目の領域の音声ログエネルギーの平均値、δ_ｓｋは前記現在のフレームのｋ番目の領域の音声ログエネルギーの標準偏差値、α_ｓｋは前記現在のフレームのｋ番目の領域のヒステリシス値、Ｔ_ｓｋは信号閾値、前記ｋの最大値は前記現在のフレームの領域分割数である。
（項目４３）
前記平均値と標準偏差が、下記の数学式を用いて計算されることを特徴とする項目４１に記載の音声信号処理装置の音声区間検出方法：
μ_ｓｋ（ｔ）＝γ＊μ_ｓｋ（ｔ−１）＋（１−γ）＊Ｅ_ｋ
［Ｅ_ｋ ^２］_ｍｅａｎ（ｔ）＝γ＊［Ｅ_ｋ ^２］_ｍｅａｎ（ｔ−１）＋（１−γ）＊Ｅ_ｋ ^２
δ_ｓｋ（ｔ）＝ルート（［Ｅ_ｋ ^２］_ｍｅａｎ（ｔ）−［μ_ｓｋ（ｔ）］^２）
式中、μ_ｓｋ（ｔ−１）は以前のフレームのｋ番目の領域の音声ログエネルギーの平均値、Ｅ_ｋは前記現在のフレームのｋ番目の領域の音声ログエネルギー、δ_ｓｋ（ｔ）は前記現在のフレームのｋ番目の領域の音声ログエネルギーの標準偏差値、γは加重値、前記ｋの最大値は前記現在のフレームの領域分割数である。
（項目４４）
前記現在のフレームが雑音区間と判別されると、雑音閾値計算部が、前記現在のフレームの各領域別雑音ログエネルギーの平均値と標準偏差を計算し、前記計算された平均値と標準偏差を用いて、前記雑音閾値を更新することを特徴とする項目３１に記載の音声信号処理装置の音声区間検出方法。
（項目４５）
前記雑音閾値が、前記各領域別に下記の数学式を用いて計算されることを特徴とする項目４４に記載の音声信号処理装置の音声区間検出方法：
Ｔ_ｎｋ＝μ_ｎｋ＋β_ｎｋ＊δ_ｎｋ
式中、μ_ｎｋは前記現在のフレームのｋ番目の領域の雑音ログエネルギーの平均値、δ_ｎｋは前記現在のフレームのｋ番目の領域の雑音ログエネルギーの標準偏差値、β_ｎｋは前記現在のフレームのｋ番目の領域のヒステリシス値、Ｔ_ｎｋは雑音閾値、前記ｋの最大値は前記現在のフレームの領域分割数である。
（項目４６）
前記平均値と標準偏差が、下記の数学式を用いて計算されることを特徴とする項目４５に記載の音声信号処理装置の音声区間検出方法：
μ_ｎｋ（ｔ）＝γ＊μ_ｎｋ（ｔ−１）＋（１−γ）＊Ｅ_ｋ
［Ｅ_ｋ ^２］_ｍｅａｎ（ｔ）＝γ＊［Ｅ_ｋ ^２］_ｍｅａｎ（ｔ−１）＋（１−γ）＊Ｅ_ｋ ^２
δ_ｎｋ（ｔ）＝ルート（［Ｅ_ｋ ^２］_ｍｅａｎ（ｔ）−［μ_ｎｋ（ｔ）］^２）
式中、μ_ｎｋ（ｔ−１）は以前のフレームのｋ番目の領域の雑音ログエネルギーの平均値、Ｅ_ｋは前記現在のフレームのｋ番目の領域の雑音ログエネルギー、δ_ｎｋ（ｔ）は前記現在のフレームのｋ番目の領域の雑音ログエネルギーの標準偏差値、γは加重値、前記ｋの最大値は前記現在のフレームの領域分割数である。

本発明による音声信号処理装置の音声区間検出装置及び方法は、騒音環境で入力される入力信号から少ない演算量でリアルタイムに音声区間を検出できるという効果がある。

また、本発明は、雑音の周波数特性によって臨界帯域を所定数の領域に分割し、前記各領域別に音声区間を検出することにより、騒音環境でも音声区間を正確に検出できるという効果がある。

また、本発明は、騒音環境によって臨界帯域の領域分割数を変化させて雑音の周波数特性を反映することにより、音声区間をさらに正確に検出できるという効果がある。

一般に、可聴周波数は、約２０Ｈｚ〜２０，０００Ｈｚの範囲であり、前記範囲を臨界帯域という。前記臨界帯域は、人間の聴覚的特性を考慮した周波数帯域であり、熟練、身体的障害などによって拡大又は縮小される。

本発明は、人間の聴覚的特性に基づいて、様々な種類の雑音の周波数特性によって、臨界帯域を所定数の領域に分割し、前記各領域別に信号閾値及び雑音閾値を適応的に計算し、前記各領域の信号閾値及び雑音閾値と前記各領域のログエネルギーとを比較して、フレーム単位で音声区間であるか雑音区間であるかを判別する。

図１は本発明の一実施形態による音声信号処理装置の音声区間検出装置の構成を示すブロック図である。

図１に示すように、本発明の一実施形態による音声信号処理装置の音声区間検出装置は、入力信号を受信する入力部１００と、音声区間検出のための全般的な動作を制御する信号処理部１１０と、信号処理部１１０の制御により、前記入力信号の臨界帯域を雑音の周波数特性によって所定数の領域に分割する臨界帯域領域分割部１３０と、信号処理部１１０の制御により、前記分割された各領域別に信号閾値を適応的に計算する信号閾値計算部１７０と、信号処理部１１０の制御により、前記分割された各領域別に雑音閾値を適応的に計算する雑音閾値計算部１６０と、前記受信された入力信号の各領域別ログエネルギーによって、現在のフレームが音声区間であるか雑音区間であるかを判別する区間判別部１５０とを含む。

ここで、前記入力信号は音声信号と雑音信号とを含む。

また、本発明の一実施形態による音声区間検出装置は、音声区間検出を指示するための制御信号を受信するユーザインターフェース部１８０と、検出された音声区間を出力する出力部１４０と、音声区間検出動作のために必要なプログラム及びデータを保存するメモリ部１２０とをさらに含む。

ここで、ユーザインターフェース部１８０はキーボードなどを含む。

以下、このように構成された本発明の一実施形態による音声信号処理装置の音声区間検出装置の動作について説明する。

ここで、本発明の一実施形態による音声信号処理装置は、音声認識機能を有する移動端末機、音声認識装置など、音声区間検出機能を備える様々な種類のデバイスであり得る。

本発明は、様々な種類の雑音の周波数特性によって臨界帯域を所定数の領域に分割し、前記各領域別に計算されたログエネルギーと前記各領域別に設定された信号閾値及び雑音閾値とを比較し、その比較の結果によって音声区間を検出する。

本発明においては、例えば、自動車環境（乗車時の騒音環境；以下単に自動車環境という）では、雑音が主に低周波帯域に多く分布しているため、臨界帯域を１〜２ＫＨｚを境に２つの領域に分割し、歩行環境（歩行時の騒音環境；以下単に歩行環境という）では、臨界帯域を３〜４つの領域に分割する。このように、本発明は、雑音の周波数特性によって、臨界帯域の領域分割数を変化させる。従って、本発明は、雑音の周波数特性によって、音声区間の検出性能をさらに高めることができる。

図２は本発明により雑音の周波数特性によって臨界帯域の領域分割数を決定する方法を示すフローチャートである。

図２に示すように、音声区間検出が要求されると（Ｓ１１）、音声信号処理装置は、雑音の周波数特性によって領域分割数を設定するために、ユーザが騒音環境の種類の設定を要求するか否かを確認して、ユーザが騒音環境の種類の設定を要求すると（Ｓ１３）、騒音環境の種類を出力する（Ｓ１５）。前記騒音環境の種類は、自動車環境、歩行環境などを含む。

例えば、ユーザが自動車内にいるとき、ユーザは自動車環境を選択する。ユーザにより騒音環境が選択されると（Ｓ１７）、前記音声信号処理装置は、前記選択された騒音環境に該当する領域分割数を設定する（Ｓ１９）。

このように領域分割数が設定されると、前記音声信号処理装置は、音声区間検出のために、臨界帯域を前記設定された領域分割数で分割する。

図３は本発明による音声信号処理装置の音声区間検出方法を示すフローチャートで、図４は本発明による音声区間検出のためのフレームの構造を示す図である。

動作電源が供給されると、音声信号処理装置は、メモリ部１２０から運用プログラム、応用プログラム、及びデータをローディングして準備状態となる。

音声区間検出が要求されると（Ｓ２１）、前記音声信号処理装置の臨界帯域領域分割部１３０は、図４に示すように、入力信号をフレーム単位でフォーマットする（Ｓ２３）。各フレームは、臨界帯域の周波数信号を有する。

臨界帯域領域分割部１３０は、前記各フレームを所定数の領域に分割する（Ｓ２５）。このとき、前記各フレーム（即ち、臨界帯域）を図２で設定された領域分割数で分割することができる。ここでは、１つのフレームを３つの領域に分割した場合について説明する。

まず、前記音声信号処理装置の信号閾値計算部１７０及び雑音閾値計算部１６０は、入力信号の初期に入力された所定数のフレームを音声のない無音区間と判別し、前記無音区間と判別された初期に入力された所定数のフレームの各領域別ログエネルギーの初期平均値と初期標準偏差を計算する（Ｓ２７）。信号閾値計算部１７０は、数学式１に示すように、前記計算された初期に入力された所定数のフレームの各領域別ログエネルギーの初期平均値と初期標準偏差を用いて、前記無音区間の後に入力されたフレームの各領域の初期信号閾値を計算し、雑音閾値計算部１６０は、数学式２に示すように、前記計算された初期に入力された所定数のフレームの各領域別ログエネルギーの初期平均値と初期標準偏差を用いて、前記無音区間の後に入力されたフレームの各領域の初期雑音閾値を計算する（Ｓ２９）。

（数１）
Ｔ_ｓ１＝μ_ｎ１＋α_ｓ１＊δ_ｎ１
Ｔ_ｓ２＝μ_ｎ２＋α_ｓ２＊δ_ｎ２
Ｔ_ｓｋ＝μ_ｎｋ＋α_ｓｋ＊δ_ｎｋ
式中、μは平均値、δは標準偏差値、αはヒステリシス値、ｋはフレームの領域分割数である。

（数２）
Ｔ_ｎ１＝μ_ｎ１＋β_ｎ１＊δ_ｎ１
Ｔ_ｎ２＝μ_ｎ２＋β_ｎ２＊δ_ｎ２
Ｔ_ｎｋ＝μ_ｎｋ＋β_ｎｋ＊δ_ｎｋ
式中、μは平均値、δは標準偏差値、βはヒステリシス値、ｋはフレームの領域分割数である。

前記ヒステリシス値αとβは、実験により決定されてメモリ部１２０に保存される。ここでは、前記ｋは３である。

移動端末機などをパワーオンした後、最小限１００ｍｓ程度は無音が入力され、その後音声が入力されるのが一般的である。よって、音声信号処理時に使用されるフレームが２０ｍｓである場合、４〜５つのフレームが無音区間になる。従って、前記初期平均値と初期標準偏差を計算するための初期に入力された所定数のフレームは、例えば４〜５つであり得る。

例えば、無音区間と判別されたフレームが４つである場合、４つのフレーム（第１〜第４フレーム）の後に入力された各フレームを、臨界帯域領域分割部１３０は３つの領域に分割する。

その後、区間判別部１５０は、前記各フレームの領域別にログエネルギーを計算する。第５フレーム（５番目に入力されたフレーム）の場合、区間判別部１５０は、前記第５フレームの第１領域の第１ログエネルギーＥ１、前記第５フレームの第２領域の第２ログエネルギーＥ２、前記第５フレームの第３領域の第３ログエネルギーＥ３を計算する。

図４に臨界帯域のフレームの各領域別に信号閾値Ｔ_ｓ１、Ｔ_ｓ２、Ｔ_ｓ３と雑音閾値Ｔ_ｎ１、Ｔ_ｎ２、Ｔ_ｎ３が示されている。

区間判別部１５０は、数学式３を用いて、各フレームが音声区間であるか雑音区間であるかを判別する。

（数３）
ＩＦ（Ｅ_１＞Ｔ_ｓ１ＯＲＥ_２＞Ｔ_ｓ２ＯＲＥ_３＞Ｔ_ｓ３），ＶＯＩＣＥ＿ＡＣＴＩＶＩＴＹ＝音声区間
ＥＬＳＥＩＦ（Ｅ_１＜Ｔ_ｎ１ＯＲＥ_２＜Ｔ_ｎ２ＯＲＥ_３＜Ｔ_ｎ３），ＶＯＩＣＥ＿ＡＣＴＩＶＩＴＹ＝雑音区間
ＥＬＳＥＶＯＩＣＥ＿ＡＣＴＩＶＩＴＹ＝ＶＯＩＣＥ＿ＡＣＴＩＶＩＴＹｂｅｆｏｒｅ
式中、Ｅはログエネルギー、Ｔ_ｓは信号閾値、Ｔ_ｎは雑音閾値である。

即ち、区間判別部１５０は、第５フレームの場合、各領域のログエネルギーＥと各領域の信号閾値Ｔ_ｓ及び雑音閾値Ｔ_ｎとを比較する。その後、区間判別部１５０は、前記比較の結果、前記ログエネルギーが前記信号閾値より大きい領域が少なくとも１つ以上存在すると、前記第５フレームを音声区間と判別して音声区間に設定し、それに対して、前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が１つ以上存在すると、前記第５フレームを雑音区間と判別して雑音区間に設定する（Ｓ３１）。

このようにして、現在のフレーム（第５フレーム）が音声区間であるか雑音区間であるかの判別が完了すると、信号処理部１１０は、出力部１４０に現在のフレームを出力する（Ｓ３３）。

その後、現在のフレームが最後のフレームでないと（Ｓ３５）、信号処理部１１０は、信号閾値又は雑音閾値が更新されるように、信号閾値計算部１７０又は雑音閾値計算部１６０を制御する。

即ち、現在のフレームが音声区間と判別された場合（Ｓ３７）、信号処理部１１０の制御により、信号閾値計算部１７０は、数学式４のような方法で前記各領域別音声ログエネルギーの平均値及び標準偏差を再び計算し、前記計算された音声ログエネルギーの平均値及び標準偏差を数学式１に適用して、前記各領域別信号閾値を更新する（Ｓ３９）。このとき、雑音閾値は更新されない。

（数４）
μ_ｓ１（ｔ）＝γ＊μ_ｓ１（ｔ−１）＋（１−γ）＊Ｅ_１
［Ｅ_１ ^２］_ｍｅａｎ（ｔ）＝γ＊［Ｅ_１ ^２］_ｍｅａｎ（ｔ−１）＋（１−γ）＊Ｅ_１ ^２
δ_ｓ１（ｔ）＝ルート（［Ｅ_１ ^２］_ｍｅａｎ（ｔ）−［μ_ｓ１（ｔ）］^２）

μ_ｓ２（ｔ）＝γ＊μ_ｓ２（ｔ−１）＋（１−γ）＊Ｅ_２
［Ｅ_２ ^２］_ｍｅａｎ（ｔ）＝γ＊［Ｅ_２ ^２］_ｍｅａｎ（ｔ−１）＋（１−γ）＊Ｅ_２ ^２
δ_ｓ２（ｔ）＝ルート（［Ｅ_２ ^２］_ｍｅａｎ（ｔ）−［μ_ｓ２（ｔ）］^２）

μ_ｓ３（ｔ）＝γ＊μ_ｓ３（ｔ−１）＋（１−γ）＊Ｅ_３
［Ｅ_３ ^２］_ｍｅａｎ（ｔ）＝γ＊［Ｅ_３ ^２］_ｍｅａｎ（ｔ−１）＋（１−γ）＊Ｅ_３ ^２
δ_ｓ３（ｔ）＝ルート（［Ｅ_３ ^２］_ｍｅａｎ（ｔ）−［μ_ｓ３（ｔ）］^２）
式中、μは音声ログエネルギーの平均値、δは標準偏差値、ｔはフレーム時間値、γは実験値であって加重値、Ｅ１、Ｅ２、Ｅ３は該当領域での音声ログエネルギーである。

それに対して、現在のフレームが雑音区間と判別された場合（Ｓ４１）、信号処理部１１０の制御により、信号閾値計算部１７０は、数学式５のような方法で前記各領域別雑音ログエネルギーの平均値及び標準偏差を再び計算し、前記計算された雑音ログエネルギーの平均値及び標準偏差を数学式２に適用して、前記各領域別雑音閾値を更新する（Ｓ４３）。

（数５）
μ_ｎ１（ｔ）＝γ＊μ_ｎ１（ｔ−１）＋（１−γ）＊Ｅ_１
［Ｅ_１ ^２］_ｍｅａｎ（ｔ）＝γ＊［Ｅ_１ ^２］_ｍｅａｎ（ｔ−１）＋（１−γ）＊Ｅ_１ ^２
δ_ｎ１（ｔ）＝ルート（［Ｅ_１ ^２］_ｍｅａｎ（ｔ）−［μ_ｎl（ｔ）］^２）
δ_ｓ１（ｔ）＝ルート（［Ｅ_１ ^２］_ｍｅａｎ（ｔ）−［μ_ｓ１（ｔ）］^２）

μ_ｎ２（ｔ）＝γ＊μ_ｎ２（ｔ−１）＋（１−γ）＊Ｅ_２
［Ｅ_２ ^２］_ｍｅａｎ（ｔ）＝γ＊［Ｅ_２ ^２］_ｍｅａｎ（ｔ−１）＋（１−γ）＊Ｅ_２ ^２
δ_ｎ２（ｔ）＝ルート（［Ｅ_２ ^２］_ｍｅａｎ（ｔ）−［μ_ｎ２（ｔ）］^２）

μ_ｎ３（ｔ）＝γ＊μ_ｎ３（ｔ−１）＋（１−γ）＊Ｅ_３
［Ｅ_３ ^２］_ｍｅａｎ（ｔ）＝γ＊［Ｅ_３ ^２］_ｍｅａｎ（ｔ−１）＋（１−γ）＊Ｅ_３ ^２
δ_ｎ３（ｔ）＝ルート（［Ｅ_３ ^２］_ｍｅａｎ（ｔ）−［μ_ｎ３（ｔ）］^２）
式中、μは雑音ログエネルギーの平均値、δは標準偏差値、ｔはフレーム時間値、γは実験値であって加重値、Ｅ１、Ｅ２、Ｅ３は該当領域での雑音ログエネルギーである。

数学式４及び数学式５において、γは、例えば０．９５の値をとり、メモリ部１２０に保存される。数学式４及び数学式５において、各領域のログエネルギーの平均値を再帰法で計算することにより、入力信号に適応する該当閾値を計算することができ、さらに、再帰法による平均値の計算は、音声区間検出装置のリアルタイム処理を容易にする。

しかしながら、前記段階Ｓ３１において、該当フレームの各領域のログエネルギーＥと前記各領域の信号閾値Ｔ_ｓ及び雑音閾値Ｔ_ｎとの比較の結果、前記ログエネルギーが前記信号閾値より大きい領域が存在せず、前記ログエネルギーが前記雑音閾値より小さい領域が存在しないと、区間判別部１５０は、以前のフレームの判別区間を前記該当フレームに適用する（Ｓ４５）。

即ち、以前のフレームが音声区間であると、区間判別部１５０は、前記該当フレーム（現在のフレーム）を音声区間と判別し、以前のフレームが雑音区間であると、前記該当フレームを雑音区間と判別する（Ｓ４５）。

このように、前記該当フレーム（現在のフレーム）が音声区間であるか雑音区間であるかが判別されると、信号処理部１１０は前記段階Ｓ３５に進む。

このように、本発明は、騒音環境で入力される入力信号から少ない演算量でリアルタイムに音声区間を検出し、音声区間を正確に検出する。

次に、本発明の他の実施形態による音声信号処理装置の音声区間検出装置の構成について説明する。

本発明の他の実施形態による音声信号処理装置の音声区間検出装置は、音声区間検出を指示するためのユーザ制御命令を受信するユーザインターフェース部と、前記ユーザ制御命令により、入力信号を受信する入力部と、前記ユーザ制御命令により、前記入力信号を臨界帯域のフレーム単位でフォーマットし、各フレームの臨界帯域を雑音の周波数特性によって所定数の領域に分割し、前記分割された各領域別に信号閾値及び雑音閾値を適応的に計算し、前記各領域のログエネルギーと前記各領域の信号閾値及び雑音閾値とを比較し、前記比較の結果によって前記各フレームが音声区間であるか雑音区間であるかを判別するプロセッサとを含む。

また、本発明の他の実施形態による音声区間検出装置は、検出された音声区間を出力する出力部と、音声区間検出動作のために必要なプログラム及びデータを保存するメモリ部とをさらに含む。

このように構成された本発明の他の実施形態による音声信号処理装置の音声区間検出装置の動作は、図２及び図３を参照して説明された本発明の一実施形態の動作と同様の方法で行われる。

以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。

本発明の一実施形態による音声信号処理装置の音声区間検出装置の構成を示すブロック図である。本発明により雑音の周波数特性によって臨界帯域の領域分割数を決定する方法を示すフローチャートである。本発明による音声信号処理装置の音声区間検出方法を示すフローチャートである。本発明による音声区間検出のためのフレームの構造を示す図である。

Claims

音声信号及び雑音信号からなる入力信号を受信する入力部と、
ユーザの騒音環境種類の設定要求により自動車環境及び歩行環境から構成された騒音環境種類を出力し、ユーザにより選択された騒音環境によって臨界帯域を区分する領域の数が異なるように設定する信号処理部と、
前記信号処理部により設定された領域の数に応じて前記入力信号の臨界帯域を分割する臨界帯域領域分割部と、
前記臨界帯域領域分割部により分割された各領域別に信号閾値を適応的に計算する信号閾値計算部と、
前記臨界帯域領域分割部により分割された各領域別に雑音閾値を適応的に計算する雑音閾値計算部と、
前記分割された各領域別に前記入力信号のフレームのログエネルギーを計算し、前記計算された各領域別のログエネルギーと前記計算された各領域別の信号閾値及び雑音閾値とを比較し、前記入力信号の前記フレームにおける臨界帯域の信号を用いて、前記入力信号の前記フレームが音声区間であるか雑音区間であるかを判別する区間判別部と
を含み、
前記区間判別部は、前記ログエネルギーが信号閾値より大きい領域が１つ以上存在すると前記入力信号の前記フレームを音声区間と判断し、前記ログエネルギーが雑音閾値より小さい領域が１つ以上存在すると前記入力信号の前記フレームを雑音区間と判断することを特徴とする音声信号処理装置の音声区間検出装置。
前記領域の数は、騒音環境種類が自動車環境の場合は２つであり、騒音環境種類が歩行環境の場合は３つ又は４つであることを特徴とする請求項１に記載の音声信号処理装置の音声区間検出装置。
ユーザの騒音環境種類の設定要求により自動車環境及び歩行環境から構成された騒音環境種類を出力する段階と、
前記出力された騒音環境種類からユーザにより選択された騒音環境によって臨界帯域を区分する領域の数が異なるように設定する段階と、
前記設定された領域の数に応じて入力信号の臨界帯域を分割する段階と、
前記分割された各領域別に信号閾値、雑音閾値、及び前記入力信号のフレームのログエネルギーを計算する段階と、
前記計算された各領域別のログエネルギーと前記計算された各領域別の信号閾値及び雑音閾値とを比較し、前記入力信号の前記フレームにおける臨界帯域の信号を用いて、前記入力信号の前記フレームが音声区間であるか雑音区間であるかを判別する段階と
を含み、
前記帯域の数は、騒音環境種類が自動車環境の場合は２つであり、騒音環境種類が歩行環境の場合は３つ又は４つであり、
前記ログエネルギーが信号閾値より大きい領域が１つ以上存在すると前記入力信号の前記フレームを音声区間と判断し、前記ログエネルギーが雑音閾値より小さい領域が１つ以上存在すると前記入力信号の前記フレームを雑音区間と判断することを特徴とする音声信号処理装置の音声区間検出方法。