JP4497911B2 - 信号検出装置および方法、ならびにプログラム - Google Patents

信号検出装置および方法、ならびにプログラム Download PDF

Info

Publication number
JP4497911B2
JP4497911B2 JP2003418646A JP2003418646A JP4497911B2 JP 4497911 B2 JP4497911 B2 JP 4497911B2 JP 2003418646 A JP2003418646 A JP 2003418646A JP 2003418646 A JP2003418646 A JP 2003418646A JP 4497911 B2 JP4497911 B2 JP 4497911B2
Authority
JP
Japan
Prior art keywords
noise
signal sequence
likelihood
vector
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003418646A
Other languages
English (en)
Other versions
JP2005181458A (ja
JP2005181458A5 (ja
Inventor
フィリップ ガーナー
俊明 深田
康弘 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003418646A priority Critical patent/JP4497911B2/ja
Priority to US11/007,245 priority patent/US7475012B2/en
Publication of JP2005181458A publication Critical patent/JP2005181458A/ja
Publication of JP2005181458A5 publication Critical patent/JP2005181458A5/ja
Application granted granted Critical
Publication of JP4497911B2 publication Critical patent/JP4497911B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Description

本発明は、音響信号等の信号を検出するための装置および方法に関する。
たとえば音声処理の分野では、音声区間を検出する技術が多くの場面で必要とされる。音声区間の検出は一般に、VAD(Voice Activity Detection)と呼ばれるが、speech activity detectionとも呼ばれる。
音声区間検出(VAD)が必要とされる典型的な場面としては、次の2つが挙げられる。
第1は、音声通信システムである。図1に、音声通信システムにおける音声の送受信手続きの一例を示す。基本的には、送信側において入力された音声信号は前処理部11で所定の前処理が行われ、符号化器13で符号化された後、その符号化音声が通信回線15を介して受信側に送られる。そして、受信側では、復号化器16でその符号化音声を復号化して音声を出力することになる。このように音声信号は通信回線15を介して他の場所に送られるのであるが、その通信回線15には何らかの制限がある。例えば、利用料金が高い、伝送容量が小さい、といった事情からくる制限である。このような制限に対処するために、VAD12が用いられる。このVAD12を用いることにより、利用者が発声していない間は通信を行わないように指示することができ、その結果、利用料金を削減したり、あるいは、他の利用者がその間、その通信回線を利用することができるようにすることが可能となる。また、必ずしもそうである必要はないのだが、VAD12および符号化器13の前段に設けられる前処理部11を、図示の如く共通のものとすることができる。また、VAD12を設けることにより、符号化器13自体は、音声中のポーズ区間と長時間の無音区間との区別を行う必要がなくなる。
第2は、音声認識システムである。図2に、VADを含む音声認識システムの処理例を示す。同図において、VAD22は、音声認識(ASR)部24における音声認識処理で背景雑音を音声として認識してしまうことを防止する役割を果たす。すなわち、VAD22の機能は、雑音を単語として変換してしまう誤りを起こさないようにすることである。加えて、VAD22を設けることにより、一般的に多くの計算機資源を利用する音声認識システムにおいて、システム全体の処理能力をよりうまく管理することが可能になる。例えば、音声により携帯機器などの制御を可能にするのである。具体的には、VADは、利用者が発声していない区間と、利用者がコマンドを指示している区間と区別する。この結果、装置は、音声認識を行っていないときは他の機能に専念し、他方、利用者が発声している時は音声認識(ASR)に専念するように制御することが可能になる。ここにおいても、VAD22および音声認識部24の前段に設けられる前処理部21を、図示の如く共通のものとすることができる。更に、本例においては、音声端点検出部23は、VADの信号を利用し、発声の開始〜終了の区間と、単語間のポーズ区間との区別を行う。これは、音声認識部24では、単語内のギャップをなくした単語全体を音声として受け取る必要があるからである。
さて、音声区間を精度よく検出するためには、背景雑音の存在を考慮する必要がある。背景雑音は時々刻々と変動するので、その変動を追跡して、それを音声区間の検出尺度に反映させなければならない。しかし、これを高精度に実現することは容易ではない。従来より、このような観点からさまざまな提案がなされている。以下、簡単に従来例について説明する。
従来の音声区間検出手法の典型例は、エネルギーや零交差数といった時間領域における分析結果を用いるものである。しかし、時間領域処理から得られるパラメータは雑音に弱いという欠点がある。これに対し、特許文献1は、時間領域ではなく周波数領域での分析に基づき音声区間を精度よく検出する手法を開示している。
特許文献2および非特許文献1は、雑音抑圧における音声検出技術に関する。これらの文献には、信号対雑音比(SNR)が音声区間の検出に有用な尺度となることが記載されている。
特許文献3および4は、雑音推定値を連続的に更新する音声区間検出の技術を開示する。雑音推定部は第2の補助的なVADにより制御される。
特許文献5は、スペクトルバンド毎のサブディシジョン(サブ判断)を用いた音声区間検出の技術を開示している。
また、非特許文献2は、尤度比に基づいた音声区間検出の技術を開示している。ここでは、音声と雑音パラメータのみを用いている。
米国特許第5,692,104号明細書 米国特許第5,432,859号明細書 米国特許第5,749,067号明細書 米国特許第6,061,647号明細書 米国特許第5,963,901号明細書 Jin Yang, "Frequency domain noise suppression approaches in mobile telephone systems", Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, volume II, p. 363-366, 1993. Jongseo Sohn and Wonyong Sung, "A Voice Activity Detector employing soft decision based noise spectrum adaptation.", Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, p. 365-368, May 1998.
(問題点1)
上記したような先行技術には、典型的な音声信号と背景雑音の間の信号対雑音比を指定する方法がない。このために、ある種の雑音が誤って音声として通知されることになる。この点、本発明の一つの特徴は、信号対雑音比をあらかじめ設定する手段を提供することにより、MAP法(事後確立最大化法)による定式化をしたことにある。このことにより、ある種の雑音において、音声検出の感度を低くすることが可能となる。
(問題点2)
上記した典型的な先行技術は、音声信号のスペクトル形状に関して何ら仮定をしていない。このために、単に音の大きい雑音も誤って音声として通知されることになる。この点、本発明のもう一つの特徴は、ある種の雑音(周波数形状が平坦であるもの)と音声(周波数形状が平坦ではないもの)との区別を可能にする差分スペクトル尺度を用いている点にある。
(問題点3)
上記の先行技術では、背景雑音が現れる区間のみを用いて雑音追尾の更新が行われる。このような区間においては、低周波の変動のみを精度よく追尾できるように、最小追尾率を用いる必要がある。先行技術では、明示的な最小値が与えられていないため、特に前述のMAP法を用いた場合には、高周波の変動をも追尾してしまう可能性がある。本発明のもう一つの特徴は、最小追尾率を有する雑音追尾方法にある。
このように、本発明の目的は、さまざまな種類の背景雑音に対して頑健な信号検出の技術を提供することである。
上記した課題は本発明の信号検出装置および方法、ならびにプログラムによって解決される。本発明の一側面に係る信号検出装置は、入力したフレームfにおける信号系列の特徴量として前記信号系列のスペクトルパワーベクトルs 2 fを抽出する第1の抽出手段と、前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ fを抽出する第2の抽出手段と、前記スペクトルパワーベクトルs 2 f のk番目の要素をs 2 k 、前記雑音推定ベクトルμ f のk番目の要素をμ k 、ベクトル要素の個数をS、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームfにおける尤度比L f を、次式、
Figure 0004497911
に従い計算する尤度比計算手段と、前記尤度比計算手段により計算された尤度比L fに基づいて前記信号系列の状態を判断する判断手段とを有することを特徴とする。
本発明の別の側面に係る信号検出装置は、入力したフレームfにおける信号系列の特徴量として前記信号系列のスペクトルマグニチュードベクトルs f を抽出する第1の抽出手段と、前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ f を抽出する第2の抽出手段と、前記スペクトルマグニチュードベクトルs f のk番目の要素をs k 、前記雑音推定ベクトルμ f のk番目の要素をμ k 、ベクトル要素の個数をS、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームfにおける尤度比L f を、次式、
Figure 0004497911
に従い計算する尤度比計算手段と、前記尤度比計算手段により計算された尤度比L f に基づいて前記信号系列の状態を判断する判断手段とを有することを特徴とする。
本発明のさらに別の側面に係る信号検出方法は、信号検出装置によって実行される信号検出方法であって、第1の抽出手段が、入力したフレームfにおける信号系列の特徴量として前記信号系列のスペクトルパワーベクトルs 2 f を抽出する第1の抽出ステップと、第2の抽出手段が、前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ f を抽出する第2の抽出ステップと、前記スペクトルパワーベクトルs 2 f のk番目の要素をs 2 k 、前記雑音推定ベクトルμ f のk番目の要素をμ k 、ベクトル要素の個数をS、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、尤度比計算手段が、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームfにおける尤度比L f を、次式、
Figure 0004497911
に従い計算する尤度比計算ステップと、判断手段が、前記尤度比計算ステップで計算された尤度比L f に基づいて前記信号系列の状態を判断する判断ステップとを有することを特徴とする。
本発明のさらに別の側面に係る信号検出方法は、信号検出装置によって実行される信号検出方法であって、第1の抽出手段が、入力したフレームfにおける信号系列の特徴量として前記信号系列のスペクトルマグニチュードベクトルs f を抽出する第1の抽出ステップと、第2の抽出手段が、前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ f を抽出する第2の抽出ステップと、前記スペクトルマグニチュードベクトルs f のk番目の要素をs k 、前記雑音推定ベクトルμ f のk番目の要素をμ k 、ベクトル要素の個数をS、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、尤度比計算手段が、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームfにおける尤度比L f を、次式、
Figure 0004497911
に従い計算する尤度比計算ステップと、判断手段が、前記尤度比計算ステップで計算された尤度比L f に基づいて前記信号系列の状態を判断する判断ステップとを有することを特徴とする。
本発明によれば、さまざまな種類の背景雑音に対して頑健な信号検出を行うことができる。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
まず、本明細書で使用する用語の意味について注釈しておく。「無音」の用語は「非音声」と同じ意味で用いる。よって、この「無音」は、“silence”のみならず“noise(雑音)”を含みうることに留意されたい。
また、以下ではいくつかの数式を示して本発明の信号検出処理を説明するが、一般に信号のベクトル表現についてはスカラ値と区別するためにボールド体で表示するところ、以下の説明ではそのように区別する表示態様とはなっていないことに留意されたい。したがって、信号がベクトルを意味するときは「ベクトル」の文字を表示するが、当業者にとってスカラ値との区別が容易であるときは省略する場合もある。
以下では一実施形態として、図2に示したような音声認識システムにおいて本発明の音声区間検出を適用することを考える。もっとも、本発明はこの他に、例えば図1に示したような音声通信システムにも適用可能であることはいうまでもない。
さて、本発明は、一般的なコンピュータシステムで実現することができるものである。もちろん、専用のハードウェアロジックにより実現することもできるが、ここではコンピュータシステムで実現するものとする。
図3は、実施形態におけるコンピュータシステムの構成を示す図である。図示のように、本コンピュータシステムは、システム全体の制御をつかさどるCPU1、ブートプログラム等を記憶しているROM2、主記憶装置として機能するRAM3をはじめ、以下の構成を備える。
HDD4はハードディスク装置であって、ここにOSのほか、音声認識プログラム、ならびにその音声認識プログラムに呼び出されて動作するVADプログラムが格納されている。もっとも、このコンピュータシステムが別の機器に組み込まれるなどの場合、これらのプログラムはHDDではなくROM2に格納しておくことも可能である。VRAM5は表示しようとするイメージデータを展開するメモリであり、ここにイメージデータ等を展開することでCRT6に表示させることができる。7および8は、入力デバイスとしてのキーボードおよびマウスである。また、9は音声を入力するためのマイクロフォン、10はマイクロフォン9からの信号をディジタル信号に変換するA/Dコンバータである。
図4は、実施形態における信号検出処理を実現する機能ブロック図である。以下では、この図を参照しながらVADの各処理を説明する。
(特徴抽出)
マイクロフォン9より入力された音響信号(音声および背景雑音が含まれうる)は、A/Dコンバータ10によって例えば11.025kHzでサンプリングされ、フレーム処理モジュール32により、256サンプルからなるフレームに分割される。このフレームは例えば110サンプル毎に生成される。これにより、これらのフレームは、隣接するフレームとオーバーラップすることになる。この構成によれば、100フレームでおよそ1秒となる。各フレームは、ハミング窓処理の後、ハートレー変換処理が行われ、同じ周波数に対応するハートレー変換の2つの出力結果は2乗和がとられ、ぺリオドグラム(periodgram)が形成される。ぺリオドグラムは一般に、パワースペクトル密度(PSD:Power Spectral Density)として知られている。256サンプルのフレームでは、PSDは128個の値(bin)からなる。
PSDは、メル化処理モジュール34によって、メル帯域の値(bin)を用いてそのサイズが縮小される(例えば32点)。メル化処理モジュール34は、等間隔に線形変換された周波数特性を聴覚特性尺度(メル尺度)の空間に変換する。メル化された各点の値は、PSDが窓をオーバーラップさせて形成されているため、大きな相関ができる。本実施形態においては、このように生成された32個のメル尺度信号を音声区間検出の特徴量として使用する。音声認識の分野では、メルによる表現は一般的に用いられている。メルスペクトルを対数化処理を行った後、コサイン変換を施すことによりメルケプストラムに変換する、という処理を行うのがその典型的な使われ方である。しかし、この音声区間検出処理では、直接メル化した値を用いる。このように本実施形態では、メル尺度信号を特徴量として用いるが、その他の尺度による特徴量を用いてもよい。
(雑音追跡)
メル尺度信号は、雑音追跡モジュール36および音声区間検出尺度計算モジュール38に入力される。雑音追跡モジュール36は、入力されたメル尺度信号において、緩やかに変動する背景雑音を追跡する。この追跡には、過去に音声区間検出尺度計算モジュール38で計算された音声区間検出尺度の平均が利用される。
音声区間検出尺度については後ほど詳細に説明するが、本発明は音声区間検出尺度として尤度比を用いる。フレームfにおける尤度比Lfは例えば次式で定義される。
Figure 0004497911
上式において、s2 fはフレームfにおいて観測された32次元の特徴{s1 2, s2 2, ..., sS 2}で構成されるベクトルである。分子はフレームf が音声として検出される確からしさを示す尤度、分母はフレームfが雑音として検出される確からしさを示す尤度を表している。なお、本明細書で記述される全ての式において、直接スペクトルマグニチュードのベクトルsf={s1, s2, ..., sS}をスペクトル尺度として用いることも可能ではあるが、ここでは、特に断らない限り、PSDから計算した特徴ベクトルである2乗として表す。
雑音追跡モジュール36による雑音の追跡は、典型的には、次の単一極フィルタ型の式で表される。
Figure 0004497911
だだし、μfは、フレームfにおける32次元の雑音推定ベクトルであり、ρμは雑音更新フィルタ成分の特徴量の極であって最低更新値の意味を持つ。
本実施形態の雑音追跡は、次式で定義される。
Figure 0004497911
なお、スペクトルパワーs2のかわりにスペクトルマグニチュードsを用いる場合には、尤度比は次式で表される。
Figure 0004497911
上記したとおり、Lfはフレームfにおける尤度比である。ここで、Lfを0に近づけると、この雑音追跡は上記した数2の単一極フィルタ型の式となることが分かる。この場合、極は最小追跡率として機能する。一方、Lfの値を大きく(1よりも更に大きく)すると、次式に近づくことが理解されよう。
Figure 0004497911
このように、本実施形態における雑音成分の抽出には、過去のフレームにおける雑音成分の特徴量と、その過去のフレームにおける尤度比とに基づいて雑音を追跡する処理が含まれる。
(音声区間検出尺度の計算)
本発明は音声区間検出尺度として数1に示した尤度比を用いることは先述したとおりである。以下では、尤度比の算出する3つの手法を示す。
(1)最尤法(ML:Maximum Likelihood method)
最尤法(ML:Maximum Likelihood method)は、例えば次式により表される。これは、非特許文献2として掲げた、Jongseo Sohnらによる“A Voice Activity Detector employing soft decision based noise spectrum adaptation.”(Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, p. 365-368, May 1998)にも開示されている。
Figure 0004497911
Figure 0004497911
よって、
Figure 0004497911
ここで、 kは特徴ベクトルのインデックスであり、Sは特徴ベクトルの特徴(ベクトル要素)の個数(本実施形態では32)である。また、μkは、フレームfにおける雑音推定ベクトルμfのk番目の要素を表し、λkはベクトルλf (後述する)のk番目の要素を表し、また、s2 kは、ベクトルs2 fのk番目の要素を表している。なお、この算出手順を図示すると、図5のようになる。
この最尤法を用いた音声区間検出尺度の計算では、ベクトル λfのk番目の要素の値λkを求める必要がある。このλfは、フレームfにおける音声の分散(スペクトルパワーs2のかわりにスペクトルマグニチュードsを用いる場合は、標準偏差)の推定値で、同図中、音声分散推定50により求められる。本実施形態では、次式で表されるスペクトルサブトラクション法によりλfを求める。
Figure 0004497911
ただし、αおよびβは適当な固定値であり、本実施形態ではそれぞれ、例えば、α=1.1、β=0.3である。
(2)最大事後確率法(MAP:Maximum a-posteriori method)
ところで、上記(1)の最尤法を用いた計算方法では、ベクトルλfの計算が必要とされる。この計算には、スペクトルサブトラクション法や、判定結果により導出する推定("decision directed" estimation)のような処理を必要とする。そこで、最尤法を用いるかわりに最大事後確率法(MAP:Maximum a-posteriori method)を用いることもできる。MAPによる方法では、ベクトルλfの計算を避けることができるという利点がある。この計算手順を図示すると、図6のようになる。この場合では、61で示される雑音尤度計算は、上記の最尤法の場合(図5の52で示される雑音尤度計算)と同様であるが、音声尤度計算は上記の最尤法と異なり、次式により計算する。
Figure 0004497911
ただし、ωは、実験的に決まる事前の信号対雑音比(SNR)であり、γ(*, *)は、低域不完全(lower incomplete)ガンマ関数である。この結果、尤度比は次式で表されることになる。
Figure 0004497911
本実施形態では、ω=100とした。なお、スペクトルパワーs2のかわりにスペクトルマグニチュードsを用いる場合には、尤度比は次式で表される。
Figure 0004497911
(3)差分特徴最尤法(Differential feature ML method)
ところで、上記した2つの計算法は、特徴量を直接用いる方法に基づいている。これと異なる方法として、(時間ドメインではなく)特徴量ドメインにおいて、音声区間検出計算を行う前にローパスフィルタを施す方法がある。特徴量がスペクトルの場合には、下記の2つの利点が生まれる。
(a)オフセット(DC)が除去される。つまり、広帯域にわたる雑音成分が除かれることを意味する。これは、手を叩いた音や堅いもの同士が衝突した音などの、短時間の広帯域雑音(インパルス)に対して実質的に有効である。これらの音は、雑音追跡の速度より非常に速い速度である。
(b)また、メル化する処理の導入により生じる、相関を除くことができる。
典型的なローパスフィルタは、次の再帰式により表される。
x’k = xk−xk+1
ここで、スペクトルの場合には、 xk=s2 kである。
本実施形態では例えば、次のように打ち切りを行っている。通常のフィルタでは、ベクトルx’を生成することになる。
x’1 = x1−x2
x’2 = x2−x3
・・・
x’S-1 = xS-1−xS
その結果、ベクトルはS−1の要素からなることになる。本実施形態で用いた打ち切りフィルタでは、一つおきの値を用い、その結果、ベクトルはS/2の要素からなっている。
x’1 = x1−x2
x’2 = x3−x4
・・・
x’S/2 = xS-1−xS
図7は、この計算手順を示す図である。この場合において、72で計算される音声尤度と73で計算される雑音尤度との比(尤度比)は、両スペクトルの要素のどちらが大きいのかに依存する。すなわち、s2 2k-1>s2 2kの場合、音声尤度P(s2 f|speech)および雑音尤度P(s2 f|noise)はそれぞれ次式で表される。
Figure 0004497911
Figure 0004497911
しかし、 s2 2k>s2 2k-1の場合には、音声尤度P(s2 f|speech)および雑音尤度P(s2 f|noise)はそれぞれ次式で表される。
Figure 0004497911
Figure 0004497911
したがって、尤度比は次のように表される。
Figure 0004497911
なお、スペクトルパワーs2のかわりにスペクトルマグニチュードsを用いる場合には、尤度比は次式で表される。
Figure 0004497911
(類似度計算)
上述の全てのLfの計算は、次式のとおり定式化される。
Figure 0004497911
しかし、一般的には、Lfは様々な相関があるので、これらを掛け合わせると非常に大きな値になる。そこで、次式のように、Lkを1/(κS)乗することにより、これを抑える。
Figure 0004497911
これを対数尤度で表現すると、次式のようになる。
Figure 0004497911
この場合では、κS=1のとき、各々の要素の尤度の幾何学的な平均を求めていることに相当する。本実施形態においては、対数の形式を用いており、κSは場合に応じて最適化を行う。ここでは、概ね0.5〜2の間の値をとる。
(信号検出アルゴリズムの詳細)
図8は、本実施形態における信号検出処理を示すフローチャートである。このフローチャートに対応するプログラムはHDD4に記憶されているVADプログラムに含まれ、RAM3にロードされた後、CPU1によって実行されるものである。
この処理はS1を初期ステップとして開始し、ステップS2でフレームインデックス(frame index)を0に設定し、ステップS3で、現在のフレームインデックスに対応するフレームを読み込む。
次に、ステップS4で、フレームインデックスが0(初期フレーム)か否かを判断する。ここで、フレームインデックスが0のときはステップS10に進み、音声区間検出尺度としての尤度比を0に設定し、その後、ステップS11で、その初期フレームの値を雑音推定値に設定してステップS12に進む。
一方、ステップS4で、フレームインデックスが0でないと判断された場合には、ステップS5に進み、上述した方法で音声の分散の推定を行う。次に、ステップS6で、フレームインデックスが所定値(例えば10)未満であるか否かを判断する。ここで、フレームインデックスが10未満の場合にはステップS8に進み、尤度比=0を維持する。他方、フレームインデックスが所定値以上の場合にはステップS7に進み、音声区間検出尺度としての尤度比を計算する。次に、ステップS9で、ステップS7またはS8で決定された尤度比を用いて雑音推定の更新を行う。このような処理により、雑音推定を信頼性のある値と仮定することが可能になる。
次に、ステップS12で、尤度比を所定のしきい値と比較して、2値(音声または雑音を示す値)を生成する。MAPを用いる場合には、しきい値は例えば0であり、他の場合には例えば2.5である。
次に、ステップS13で、ステップS12での尤度比のしきい値との比較結果に基づいて、後述するような音声の端点検出が行われる。
そして、ステップS14でフレームインデックスをインクリメントしてステップS3に戻り、次のフレームについて処理を繰り返す。
以上説明した実施形態によれば、音声区間検出尺度として尤度比を用いることで、さまざまな種類の背景雑音に対して耐性のある音声区間検出を行うことができる。
とりわけ、尤度比の算出に最大事後確率法(MAP)を導入することで、推定されるSNRに対するVADの調整が容易になる。これにより、レベルの低い音声に高レベルの雑音が混入しても音声を精度よく検出することができる。
また、差分特徴最尤法を用いれば、周波数全域にわたりパワーがほぼ等しい雑音(例えば、足音のような振動音や風や息のような聞き分けにくい音を含む。)に対してもロバストな性能が得られる。
(他の実施形態)
上述した実施形態は、音声認識などの音声に関わる内容で説明したが、本発明は例えば、機械などの音や動物の音などの音声以外の音響信号にも適用することが可能である。また、ソナーや動物の音などのように、人には聞くことができないような領域の音響情報にも利用できるものである。さらに、レーダーや無線信号などの電磁波などの信号などにも利用できる。
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
音声通信システムにおける音声の送受信手続きの一例を示す図である。 VADを含む音声認識システムの処理例を示す図である。 実施形態におけるコンピュータシステムの構成を示す図である。 実施形態における信号検出処理を実現する機能ブロック図である。 最尤法を用いた音声区間検出尺度の計算手順を示す図である。 最大事後確率法を用いた音声区間検出尺度の計算手順を示す図である。 差分特徴最尤法を用いた音声区間検出尺度の計算手順を示す図である。 実施形態における信号検出処理を示すフローチャートである。

Claims (5)

  1. 入力したフレームfにおける信号系列の特徴量として前記信号系列のスペクトルパワーベクトルs 2 fを抽出する第1の抽出手段と、
    前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ fを抽出する第2の抽出手段と、
    前記スペクトルパワーベクトルs 2 f のk番目の要素をs 2 k 、前記雑音推定ベクトルμ f のk番目の要素をμ k 、ベクトル要素の個数をS、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームfにおける尤度比L f を、次式、
    Figure 0004497911
    に従い計算する尤度比計算手段と、
    前記尤度比計算手段により計算された尤度比L fに基づいて前記信号系列の状態を判断する判断手段と、
    を有することを特徴とする信号検出装置。
  2. 入力したフレームfにおける信号系列の特徴量として前記信号系列のスペクトルマグニチュードベクトルs f を抽出する第1の抽出手段と、
    前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ f を抽出する第2の抽出手段と、
    前記スペクトルマグニチュードベクトルs f のk番目の要素をs k 、前記雑音推定ベクトルμ f のk番目の要素をμ k 、ベクトル要素の個数をS、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームfにおける尤度比L f を、次式、
    Figure 0004497911
    に従い計算する尤度比計算手段と、
    前記尤度比計算手段により計算された尤度比L f に基づいて前記信号系列の状態を判断する判断手段と、
    を有することを特徴とする信号検出装置。
  3. 信号検出装置によって実行される信号検出方法であって、
    第1の抽出手段が、入力したフレームfにおける信号系列の特徴量として前記信号系列のスペクトルパワーベクトルs 2 f を抽出する第1の抽出ステップと、
    第2の抽出手段が、前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ f を抽出する第2の抽出ステップと、
    前記スペクトルパワーベクトルs 2 f のk番目の要素をs 2 k 、前記雑音推定ベクトルμ f のk番目の要素をμ k 、ベクトル要素の個数をS、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、尤度比計算手段が、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームfにおける尤度比L f を、次式、
    Figure 0004497911
    に従い計算する尤度比計算ステップと、
    判断手段が、前記尤度比計算ステップで計算された尤度比L f に基づいて前記信号系列の状態を判断する判断ステップと、
    を有することを特徴とする信号検出方法。
  4. 信号検出装置によって実行される信号検出方法であって、
    第1の抽出手段が、入力したフレームfにおける信号系列の特徴量として前記信号系列のスペクトルマグニチュードベクトルs f を抽出する第1の抽出ステップと、
    第2の抽出手段が、前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ f を抽出する第2の抽出ステップと、
    前記スペクトルマグニチュードベクトルs f のk番目の要素をs k 、前記雑音推定ベクトルμ f のk番目の要素をμ k 、ベクトル要素の個数をS、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、尤度比計算手段が、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームfにおける尤度比L f を、次式、
    Figure 0004497911
    に従い計算する尤度比計算ステップと、
    判断手段が、前記尤度比計算ステップで計算された尤度比L f に基づいて前記信号系列の状態を判断する判断ステップと、
    を有することを特徴とする信号検出方法。
  5. コンピュータを、請求項1又は2に記載の信号検出装置が有する各手段として機能させるためのプログラム。
JP2003418646A 2003-12-16 2003-12-16 信号検出装置および方法、ならびにプログラム Expired - Fee Related JP4497911B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003418646A JP4497911B2 (ja) 2003-12-16 2003-12-16 信号検出装置および方法、ならびにプログラム
US11/007,245 US7475012B2 (en) 2003-12-16 2004-12-09 Signal detection using maximum a posteriori likelihood and noise spectral difference

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003418646A JP4497911B2 (ja) 2003-12-16 2003-12-16 信号検出装置および方法、ならびにプログラム

Publications (3)

Publication Number Publication Date
JP2005181458A JP2005181458A (ja) 2005-07-07
JP2005181458A5 JP2005181458A5 (ja) 2007-02-01
JP4497911B2 true JP4497911B2 (ja) 2010-07-07

Family

ID=34650709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003418646A Expired - Fee Related JP4497911B2 (ja) 2003-12-16 2003-12-16 信号検出装置および方法、ならびにプログラム

Country Status (2)

Country Link
US (1) US7475012B2 (ja)
JP (1) JP4497911B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4729927B2 (ja) * 2005-01-11 2011-07-20 ソニー株式会社 音声検出装置、自動撮像装置、および音声検出方法
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
GB2426166B (en) * 2005-05-09 2007-10-17 Toshiba Res Europ Ltd Voice activity detection apparatus and method
US8738367B2 (en) * 2009-03-18 2014-05-27 Nec Corporation Speech signal processing device
US8560313B2 (en) * 2010-05-13 2013-10-15 General Motors Llc Transient noise rejection for speech recognition
JP5621783B2 (ja) * 2009-12-10 2014-11-12 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
CN102741918B (zh) * 2010-12-24 2014-11-19 华为技术有限公司 用于话音活动检测的方法和设备
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
BR112015031180B1 (pt) * 2013-06-21 2022-04-05 Fraunhofer- Gesellschaft Zur Förderung Der Angewandten Forschung E.V Aparelho e método para gerar um formato espectral adaptativo de ruído de conforto
WO2015059947A1 (ja) * 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
WO2015059946A1 (ja) * 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
KR102495517B1 (ko) * 2016-01-26 2023-02-03 삼성전자 주식회사 전자 장치, 전자 장치의 음성 인식 방법
CN107346658B (zh) * 2017-07-14 2020-07-28 深圳永顺智信息科技有限公司 混响抑制方法及装置
JP6716513B2 (ja) * 2017-08-29 2020-07-01 日本電信電話株式会社 音声区間検出装置、その方法、及びプログラム
CN107731242B (zh) * 2017-09-26 2020-09-04 桂林电子科技大学 一种广义最大后验的谱幅度估计的增益函数语音增强方法
CN112489692A (zh) * 2020-11-03 2021-03-12 北京捷通华声科技股份有限公司 语音端点检测方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0458297A (ja) * 1990-06-27 1992-02-25 Toshiba Corp 有音検出装置および有音検出方法
JPH05273992A (ja) * 1992-03-25 1993-10-22 Mitsubishi Electric Corp 音声区間検出装置
JP2000330597A (ja) * 1999-05-20 2000-11-30 Matsushita Electric Ind Co Ltd 雑音抑圧装置
JP2002055691A (ja) * 2000-08-08 2002-02-20 Sanyo Electric Co Ltd 音声認識方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5692104A (en) * 1992-12-31 1997-11-25 Apple Computer, Inc. Method and apparatus for detecting end points of speech activity
US5432859A (en) * 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
IN184794B (ja) * 1993-09-14 2000-09-30 British Telecomm
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
WO2002029780A2 (en) * 2000-10-04 2002-04-11 Clarity, Llc Speech detection with source separation
US6993481B2 (en) * 2000-12-04 2006-01-31 Global Ip Sound Ab Detection of speech activity using feature model adaptation
US20020087307A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented progressive noise scanning method and system
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
US6678656B2 (en) * 2002-01-30 2004-01-13 Motorola, Inc. Noise reduced speech recognition parameters

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0458297A (ja) * 1990-06-27 1992-02-25 Toshiba Corp 有音検出装置および有音検出方法
JPH05273992A (ja) * 1992-03-25 1993-10-22 Mitsubishi Electric Corp 音声区間検出装置
JP2000330597A (ja) * 1999-05-20 2000-11-30 Matsushita Electric Ind Co Ltd 雑音抑圧装置
JP2002055691A (ja) * 2000-08-08 2002-02-20 Sanyo Electric Co Ltd 音声認識方法

Also Published As

Publication number Publication date
US7475012B2 (en) 2009-01-06
JP2005181458A (ja) 2005-07-07
US20050131689A1 (en) 2005-06-16

Similar Documents

Publication Publication Date Title
JP4587160B2 (ja) 信号処理装置および方法
JP4497911B2 (ja) 信号検出装置および方法、ならびにプログラム
JP5247855B2 (ja) 複数感知の音声強調のための方法および機器
US7107210B2 (en) Method of noise reduction based on dynamic aspects of speech
US6993481B2 (en) Detection of speech activity using feature model adaptation
US7117148B2 (en) Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
JP4855661B2 (ja) クリーン信号確率変数の推定値を識別する方法
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
US7590526B2 (en) Method for processing speech signal data and finding a filter coefficient
US7460992B2 (en) Method of pattern recognition using noise reduction uncertainty
JP2005527002A (ja) ノイズの低減に関連する不確実性を判定する方法
JP4731855B2 (ja) 調波モデルに基づくフロントエンドを使用する頑強な音声認識のための方法およびコンピュータ可読記録媒体
US9467790B2 (en) Reverberation estimator
US20050149325A1 (en) Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
US7165031B2 (en) Speech processing apparatus and method using confidence scores
US11823669B2 (en) Information processing apparatus and information processing method
JP2007093635A (ja) 既知雑音除去装置
JP3555490B2 (ja) 声質変換システム
JP2006510937A (ja) オーディオ符号化における正弦波選択
JP2009229583A (ja) 信号検出方法及び装置
JP2003271189A (ja) 話者方向検出回路及びその検出方法
JP2018116096A (ja) 音声処理プログラム、音声処理方法、及び音声処理装置
JP2005309138A (ja) コードブック生成装置、話者認識装置、プログラム及びコードブック生成方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100402

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100413

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140423

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees