JP4497911B2

JP4497911B2 - 信号検出装置および方法、ならびにプログラム

Info

Publication number: JP4497911B2
Application number: JP2003418646A
Authority: JP
Inventors: フィリップガーナー; 俊明深田; 康弘小森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-12-16
Filing date: 2003-12-16
Publication date: 2010-07-07
Anticipated expiration: 2023-12-16
Also published as: US7475012B2; JP2005181458A; US20050131689A1

Description

本発明は、音響信号等の信号を検出するための装置および方法に関する。

たとえば音声処理の分野では、音声区間を検出する技術が多くの場面で必要とされる。音声区間の検出は一般に、ＶＡＤ（Voice Activity Detection)と呼ばれるが、speech activity detectionとも呼ばれる。

音声区間検出（ＶＡＤ）が必要とされる典型的な場面としては、次の２つが挙げられる。

第１は、音声通信システムである。図１に、音声通信システムにおける音声の送受信手続きの一例を示す。基本的には、送信側において入力された音声信号は前処理部１１で所定の前処理が行われ、符号化器１３で符号化された後、その符号化音声が通信回線１５を介して受信側に送られる。そして、受信側では、復号化器１６でその符号化音声を復号化して音声を出力することになる。このように音声信号は通信回線１５を介して他の場所に送られるのであるが、その通信回線１５には何らかの制限がある。例えば、利用料金が高い、伝送容量が小さい、といった事情からくる制限である。このような制限に対処するために、ＶＡＤ１２が用いられる。このＶＡＤ１２を用いることにより、利用者が発声していない間は通信を行わないように指示することができ、その結果、利用料金を削減したり、あるいは、他の利用者がその間、その通信回線を利用することができるようにすることが可能となる。また、必ずしもそうである必要はないのだが、ＶＡＤ１２および符号化器１３の前段に設けられる前処理部１１を、図示の如く共通のものとすることができる。また、ＶＡＤ１２を設けることにより、符号化器１３自体は、音声中のポーズ区間と長時間の無音区間との区別を行う必要がなくなる。

第２は、音声認識システムである。図２に、ＶＡＤを含む音声認識システムの処理例を示す。同図において、ＶＡＤ２２は、音声認識（ＡＳＲ）部２４における音声認識処理で背景雑音を音声として認識してしまうことを防止する役割を果たす。すなわち、ＶＡＤ２２の機能は、雑音を単語として変換してしまう誤りを起こさないようにすることである。加えて、ＶＡＤ２２を設けることにより、一般的に多くの計算機資源を利用する音声認識システムにおいて、システム全体の処理能力をよりうまく管理することが可能になる。例えば、音声により携帯機器などの制御を可能にするのである。具体的には、ＶＡＤは、利用者が発声していない区間と、利用者がコマンドを指示している区間と区別する。この結果、装置は、音声認識を行っていないときは他の機能に専念し、他方、利用者が発声している時は音声認識（ＡＳＲ）に専念するように制御することが可能になる。ここにおいても、ＶＡＤ２２および音声認識部２４の前段に設けられる前処理部２１を、図示の如く共通のものとすることができる。更に、本例においては、音声端点検出部２３は、ＶＡＤの信号を利用し、発声の開始〜終了の区間と、単語間のポーズ区間との区別を行う。これは、音声認識部２４では、単語内のギャップをなくした単語全体を音声として受け取る必要があるからである。

さて、音声区間を精度よく検出するためには、背景雑音の存在を考慮する必要がある。背景雑音は時々刻々と変動するので、その変動を追跡して、それを音声区間の検出尺度に反映させなければならない。しかし、これを高精度に実現することは容易ではない。従来より、このような観点からさまざまな提案がなされている。以下、簡単に従来例について説明する。

従来の音声区間検出手法の典型例は、エネルギーや零交差数といった時間領域における分析結果を用いるものである。しかし、時間領域処理から得られるパラメータは雑音に弱いという欠点がある。これに対し、特許文献１は、時間領域ではなく周波数領域での分析に基づき音声区間を精度よく検出する手法を開示している。

特許文献２および非特許文献１は、雑音抑圧における音声検出技術に関する。これらの文献には、信号対雑音比（ＳＮＲ）が音声区間の検出に有用な尺度となることが記載されている。

特許文献３および４は、雑音推定値を連続的に更新する音声区間検出の技術を開示する。雑音推定部は第２の補助的なＶＡＤにより制御される。

特許文献５は、スペクトルバンド毎のサブディシジョン（サブ判断）を用いた音声区間検出の技術を開示している。

また、非特許文献２は、尤度比に基づいた音声区間検出の技術を開示している。ここでは、音声と雑音パラメータのみを用いている。

米国特許第5,692,104号明細書米国特許第5,432,859号明細書米国特許第5,749,067号明細書米国特許第6,061,647号明細書米国特許第5,963,901号明細書 Jin Yang, "Frequency domain noise suppression approaches in mobile telephone systems", Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, volume II, p. 363-366, 1993. Jongseo Sohn and Wonyong Sung, "A Voice Activity Detector employing soft decision based noise spectrum adaptation.", Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, p. 365-368, May 1998.

（問題点１）
上記したような先行技術には、典型的な音声信号と背景雑音の間の信号対雑音比を指定する方法がない。このために、ある種の雑音が誤って音声として通知されることになる。この点、本発明の一つの特徴は、信号対雑音比をあらかじめ設定する手段を提供することにより、ＭＡＰ法（事後確立最大化法）による定式化をしたことにある。このことにより、ある種の雑音において、音声検出の感度を低くすることが可能となる。

（問題点２）
上記した典型的な先行技術は、音声信号のスペクトル形状に関して何ら仮定をしていない。このために、単に音の大きい雑音も誤って音声として通知されることになる。この点、本発明のもう一つの特徴は、ある種の雑音（周波数形状が平坦であるもの）と音声（周波数形状が平坦ではないもの）との区別を可能にする差分スペクトル尺度を用いている点にある。

（問題点３）
上記の先行技術では、背景雑音が現れる区間のみを用いて雑音追尾の更新が行われる。このような区間においては、低周波の変動のみを精度よく追尾できるように、最小追尾率を用いる必要がある。先行技術では、明示的な最小値が与えられていないため、特に前述のＭＡＰ法を用いた場合には、高周波の変動をも追尾してしまう可能性がある。本発明のもう一つの特徴は、最小追尾率を有する雑音追尾方法にある。

このように、本発明の目的は、さまざまな種類の背景雑音に対して頑健な信号検出の技術を提供することである。

上記した課題は本発明の信号検出装置および方法、ならびにプログラムによって解決される。本発明の一側面に係る信号検出装置は、入力したフレームｆにおける信号系列の特徴量として前記信号系列のスペクトルパワーベクトルｓ ² _fを抽出する第１の抽出手段と、前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ _fを抽出する第２の抽出手段と、前記スペクトルパワーベクトルｓ ² _f のｋ番目の要素をｓ ² _k 、前記雑音推定ベクトルμ _f のｋ番目の要素をμ _k 、ベクトル要素の個数をＳ、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームｆにおける尤度比Ｌ _f を、次式、

に従い計算する尤度比計算手段と、前記尤度比計算手段により計算された尤度比Ｌ _fに基づいて前記信号系列の状態を判断する判断手段とを有することを特徴とする。

本発明の別の側面に係る信号検出装置は、入力したフレームｆにおける信号系列の特徴量として前記信号系列のスペクトルマグニチュードベクトルｓ _f を抽出する第１の抽出手段と、前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ _f を抽出する第２の抽出手段と、前記スペクトルマグニチュードベクトルｓ _f のｋ番目の要素をｓ _k 、前記雑音推定ベクトルμ _f のｋ番目の要素をμ _k 、ベクトル要素の個数をＳ、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームｆにおける尤度比Ｌ _f を、次式、

に従い計算する尤度比計算手段と、前記尤度比計算手段により計算された尤度比Ｌ _f に基づいて前記信号系列の状態を判断する判断手段とを有することを特徴とする。

本発明のさらに別の側面に係る信号検出方法は、信号検出装置によって実行される信号検出方法であって、第１の抽出手段が、入力したフレームｆにおける信号系列の特徴量として前記信号系列のスペクトルパワーベクトルｓ ² _f を抽出する第１の抽出ステップと、第２の抽出手段が、前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ _f を抽出する第２の抽出ステップと、前記スペクトルパワーベクトルｓ ² _f のｋ番目の要素をｓ ² _k 、前記雑音推定ベクトルμ _f のｋ番目の要素をμ _k 、ベクトル要素の個数をＳ、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、尤度比計算手段が、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームｆにおける尤度比Ｌ _f を、次式、

に従い計算する尤度比計算ステップと、判断手段が、前記尤度比計算ステップで計算された尤度比Ｌ _f に基づいて前記信号系列の状態を判断する判断ステップとを有することを特徴とする。

本発明のさらに別の側面に係る信号検出方法は、信号検出装置によって実行される信号検出方法であって、第１の抽出手段が、入力したフレームｆにおける信号系列の特徴量として前記信号系列のスペクトルマグニチュードベクトルｓ _f を抽出する第１の抽出ステップと、第２の抽出手段が、前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ _f を抽出する第２の抽出ステップと、前記スペクトルマグニチュードベクトルｓ _f のｋ番目の要素をｓ _k 、前記雑音推定ベクトルμ _f のｋ番目の要素をμ _k 、ベクトル要素の個数をＳ、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、尤度比計算手段が、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームｆにおける尤度比Ｌ _f を、次式、

本発明によれば、さまざまな種類の背景雑音に対して頑健な信号検出を行うことができる。

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。

まず、本明細書で使用する用語の意味について注釈しておく。「無音」の用語は「非音声」と同じ意味で用いる。よって、この「無音」は、“silence”のみならず“noise（雑音）”を含みうることに留意されたい。

また、以下ではいくつかの数式を示して本発明の信号検出処理を説明するが、一般に信号のベクトル表現についてはスカラ値と区別するためにボールド体で表示するところ、以下の説明ではそのように区別する表示態様とはなっていないことに留意されたい。したがって、信号がベクトルを意味するときは「ベクトル」の文字を表示するが、当業者にとってスカラ値との区別が容易であるときは省略する場合もある。

以下では一実施形態として、図２に示したような音声認識システムにおいて本発明の音声区間検出を適用することを考える。もっとも、本発明はこの他に、例えば図１に示したような音声通信システムにも適用可能であることはいうまでもない。

さて、本発明は、一般的なコンピュータシステムで実現することができるものである。もちろん、専用のハードウェアロジックにより実現することもできるが、ここではコンピュータシステムで実現するものとする。

図３は、実施形態におけるコンピュータシステムの構成を示す図である。図示のように、本コンピュータシステムは、システム全体の制御をつかさどるＣＰＵ１、ブートプログラム等を記憶しているＲＯＭ２、主記憶装置として機能するＲＡＭ３をはじめ、以下の構成を備える。

ＨＤＤ４はハードディスク装置であって、ここにＯＳのほか、音声認識プログラム、ならびにその音声認識プログラムに呼び出されて動作するＶＡＤプログラムが格納されている。もっとも、このコンピュータシステムが別の機器に組み込まれるなどの場合、これらのプログラムはＨＤＤではなくＲＯＭ２に格納しておくことも可能である。ＶＲＡＭ５は表示しようとするイメージデータを展開するメモリであり、ここにイメージデータ等を展開することでＣＲＴ６に表示させることができる。７および８は、入力デバイスとしてのキーボードおよびマウスである。また、９は音声を入力するためのマイクロフォン、１０はマイクロフォン９からの信号をディジタル信号に変換するＡ／Ｄコンバータである。

図４は、実施形態における信号検出処理を実現する機能ブロック図である。以下では、この図を参照しながらＶＡＤの各処理を説明する。

（特徴抽出）
マイクロフォン９より入力された音響信号（音声および背景雑音が含まれうる）は、Ａ／Ｄコンバータ１０によって例えば１１．０２５ｋＨｚでサンプリングされ、フレーム処理モジュール３２により、２５６サンプルからなるフレームに分割される。このフレームは例えば１１０サンプル毎に生成される。これにより、これらのフレームは、隣接するフレームとオーバーラップすることになる。この構成によれば、１００フレームでおよそ１秒となる。各フレームは、ハミング窓処理の後、ハートレー変換処理が行われ、同じ周波数に対応するハートレー変換の２つの出力結果は２乗和がとられ、ぺリオドグラム（periodgram）が形成される。ぺリオドグラムは一般に、パワースペクトル密度（ＰＳＤ：Power Spectral Density）として知られている。２５６サンプルのフレームでは、ＰＳＤは１２８個の値（ｂｉｎ）からなる。

ＰＳＤは、メル化処理モジュール３４によって、メル帯域の値（ｂｉｎ）を用いてそのサイズが縮小される（例えば３２点）。メル化処理モジュール３４は、等間隔に線形変換された周波数特性を聴覚特性尺度（メル尺度）の空間に変換する。メル化された各点の値は、ＰＳＤが窓をオーバーラップさせて形成されているため、大きな相関ができる。本実施形態においては、このように生成された３２個のメル尺度信号を音声区間検出の特徴量として使用する。音声認識の分野では、メルによる表現は一般的に用いられている。メルスペクトルを対数化処理を行った後、コサイン変換を施すことによりメルケプストラムに変換する、という処理を行うのがその典型的な使われ方である。しかし、この音声区間検出処理では、直接メル化した値を用いる。このように本実施形態では、メル尺度信号を特徴量として用いるが、その他の尺度による特徴量を用いてもよい。

（雑音追跡）
メル尺度信号は、雑音追跡モジュール３６および音声区間検出尺度計算モジュール３８に入力される。雑音追跡モジュール３６は、入力されたメル尺度信号において、緩やかに変動する背景雑音を追跡する。この追跡には、過去に音声区間検出尺度計算モジュール３８で計算された音声区間検出尺度の平均が利用される。

音声区間検出尺度については後ほど詳細に説明するが、本発明は音声区間検出尺度として尤度比を用いる。フレームｆにおける尤度比Ｌ_fは例えば次式で定義される。

上式において、ｓ² _fはフレームｆにおいて観測された３２次元の特徴｛ｓ₁ ², ｓ₂ ², ..., ｓ_S ²｝で構成されるベクトルである。分子はフレームｆが音声として検出される確からしさを示す尤度、分母はフレームｆが雑音として検出される確からしさを示す尤度を表している。なお、本明細書で記述される全ての式において、直接スペクトルマグニチュードのベクトルｓ_f＝｛ｓ₁, ｓ₂, ..., ｓ_S｝をスペクトル尺度として用いることも可能ではあるが、ここでは、特に断らない限り、ＰＳＤから計算した特徴ベクトルである２乗として表す。

雑音追跡モジュール３６による雑音の追跡は、典型的には、次の単一極フィルタ型の式で表される。

だだし、μ_fは、フレームｆにおける３２次元の雑音推定ベクトルであり、ρ_μは雑音更新フィルタ成分の特徴量の極であって最低更新値の意味を持つ。

本実施形態の雑音追跡は、次式で定義される。

なお、スペクトルパワーｓ²のかわりにスペクトルマグニチュードｓを用いる場合には、尤度比は次式で表される。

上記したとおり、Ｌ_fはフレームｆにおける尤度比である。ここで、Ｌ_fを０に近づけると、この雑音追跡は上記した数２の単一極フィルタ型の式となることが分かる。この場合、極は最小追跡率として機能する。一方、Ｌ_fの値を大きく（１よりも更に大きく）すると、次式に近づくことが理解されよう。

このように、本実施形態における雑音成分の抽出には、過去のフレームにおける雑音成分の特徴量と、その過去のフレームにおける尤度比とに基づいて雑音を追跡する処理が含まれる。

（音声区間検出尺度の計算）
本発明は音声区間検出尺度として数１に示した尤度比を用いることは先述したとおりである。以下では、尤度比の算出する３つの手法を示す。

（１）最尤法（ＭＬ：Maximum Likelihood method）
最尤法（ＭＬ：Maximum Likelihood method）は、例えば次式により表される。これは、非特許文献２として掲げた、Jongseo Sohnらによる“A Voice Activity Detector employing soft decision based noise spectrum adaptation.”（Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, p. 365-368, May 1998）にも開示されている。

よって、

ここで、ｋは特徴ベクトルのインデックスであり、Ｓは特徴ベクトルの特徴（ベクトル要素）の個数（本実施形態では３２）である。また、μ_kは、フレームｆにおける雑音推定ベクトルμ_fのｋ番目の要素を表し、λ_kはベクトルλ_f （後述する）のｋ番目の要素を表し、また、ｓ² _kは、ベクトルｓ² _fのｋ番目の要素を表している。なお、この算出手順を図示すると、図５のようになる。

この最尤法を用いた音声区間検出尺度の計算では、ベクトル λ_fのｋ番目の要素の値λ_kを求める必要がある。このλ_fは、フレームｆにおける音声の分散（スペクトルパワーｓ²のかわりにスペクトルマグニチュードｓを用いる場合は、標準偏差）の推定値で、同図中、音声分散推定５０により求められる。本実施形態では、次式で表されるスペクトルサブトラクション法によりλ_fを求める。

ただし、αおよびβは適当な固定値であり、本実施形態ではそれぞれ、例えば、α＝１．１、β＝０．３である。

（２）最大事後確率法（ＭＡＰ：Maximum a-posteriori method）
ところで、上記（１）の最尤法を用いた計算方法では、ベクトルλ_fの計算が必要とされる。この計算には、スペクトルサブトラクション法や、判定結果により導出する推定（"decision directed" estimation）のような処理を必要とする。そこで、最尤法を用いるかわりに最大事後確率法（ＭＡＰ：Maximum a-posteriori method）を用いることもできる。ＭＡＰによる方法では、ベクトルλ_fの計算を避けることができるという利点がある。この計算手順を図示すると、図６のようになる。この場合では、６１で示される雑音尤度計算は、上記の最尤法の場合（図５の５２で示される雑音尤度計算）と同様であるが、音声尤度計算は上記の最尤法と異なり、次式により計算する。

ただし、ωは、実験的に決まる事前の信号対雑音比（ＳＮＲ）であり、γ(*, *)は、低域不完全（lower incomplete）ガンマ関数である。この結果、尤度比は次式で表されることになる。

本実施形態では、ω＝１００とした。なお、スペクトルパワーｓ²のかわりにスペクトルマグニチュードｓを用いる場合には、尤度比は次式で表される。

（３）差分特徴最尤法（Differential feature ML method）
ところで、上記した２つの計算法は、特徴量を直接用いる方法に基づいている。これと異なる方法として、（時間ドメインではなく）特徴量ドメインにおいて、音声区間検出計算を行う前にローパスフィルタを施す方法がある。特徴量がスペクトルの場合には、下記の２つの利点が生まれる。

（ａ）オフセット（ＤＣ）が除去される。つまり、広帯域にわたる雑音成分が除かれることを意味する。これは、手を叩いた音や堅いもの同士が衝突した音などの、短時間の広帯域雑音（インパルス）に対して実質的に有効である。これらの音は、雑音追跡の速度より非常に速い速度である。
（ｂ）また、メル化する処理の導入により生じる、相関を除くことができる。
典型的なローパスフィルタは、次の再帰式により表される。

ｘ’_k = ｘ_k−ｘ_k+1

ここで、スペクトルの場合には、ｘ_k＝ｓ² _kである。

本実施形態では例えば、次のように打ち切りを行っている。通常のフィルタでは、ベクトルｘ’を生成することになる。

ｘ’₁ = ｘ₁−ｘ₂，
ｘ’₂ = ｘ₂−ｘ₃，
・・・
ｘ’_S-1 = ｘ_S-1−ｘ_S

その結果、ベクトルはＳ−１の要素からなることになる。本実施形態で用いた打ち切りフィルタでは、一つおきの値を用い、その結果、ベクトルはＳ／２の要素からなっている。

ｘ’₁ = ｘ₁−ｘ₂，
ｘ’₂ = ｘ₃−ｘ₄，
・・・
ｘ’_S/2 = ｘ_S-1−ｘ_S

図７は、この計算手順を示す図である。この場合において、７２で計算される音声尤度と７３で計算される雑音尤度との比（尤度比）は、両スペクトルの要素のどちらが大きいのかに依存する。すなわち、ｓ² _2k-1＞ｓ² _2kの場合、音声尤度Ｐ（ｓ² _f｜speech）および雑音尤度Ｐ（ｓ² _f｜noise）はそれぞれ次式で表される。

しかし、ｓ² _2k＞ｓ² _2k-1の場合には、音声尤度Ｐ（ｓ² _f｜speech）および雑音尤度Ｐ（ｓ² _f｜noise）はそれぞれ次式で表される。

したがって、尤度比は次のように表される。

（類似度計算）
上述の全てのＬ_fの計算は、次式のとおり定式化される。

しかし、一般的には、Ｌ_fは様々な相関があるので、これらを掛け合わせると非常に大きな値になる。そこで、次式のように、Ｌ_kを１／（κＳ）乗することにより、これを抑える。

これを対数尤度で表現すると、次式のようになる。

この場合では、κＳ＝１のとき、各々の要素の尤度の幾何学的な平均を求めていることに相当する。本実施形態においては、対数の形式を用いており、κＳは場合に応じて最適化を行う。ここでは、概ね０．５〜２の間の値をとる。

（信号検出アルゴリズムの詳細）
図８は、本実施形態における信号検出処理を示すフローチャートである。このフローチャートに対応するプログラムはＨＤＤ４に記憶されているＶＡＤプログラムに含まれ、ＲＡＭ３にロードされた後、ＣＰＵ１によって実行されるものである。

この処理はＳ１を初期ステップとして開始し、ステップＳ２でフレームインデックス（frame index）を０に設定し、ステップＳ３で、現在のフレームインデックスに対応するフレームを読み込む。

次に、ステップＳ４で、フレームインデックスが０（初期フレーム）か否かを判断する。ここで、フレームインデックスが０のときはステップＳ１０に進み、音声区間検出尺度としての尤度比を０に設定し、その後、ステップＳ１１で、その初期フレームの値を雑音推定値に設定してステップＳ１２に進む。

一方、ステップＳ４で、フレームインデックスが０でないと判断された場合には、ステップＳ５に進み、上述した方法で音声の分散の推定を行う。次に、ステップＳ６で、フレームインデックスが所定値（例えば１０）未満であるか否かを判断する。ここで、フレームインデックスが１０未満の場合にはステップＳ８に進み、尤度比＝０を維持する。他方、フレームインデックスが所定値以上の場合にはステップＳ７に進み、音声区間検出尺度としての尤度比を計算する。次に、ステップＳ９で、ステップＳ７またはＳ８で決定された尤度比を用いて雑音推定の更新を行う。このような処理により、雑音推定を信頼性のある値と仮定することが可能になる。

次に、ステップＳ１２で、尤度比を所定のしきい値と比較して、２値（音声または雑音を示す値）を生成する。ＭＡＰを用いる場合には、しきい値は例えば０であり、他の場合には例えば２．５である。

次に、ステップＳ１３で、ステップＳ１２での尤度比のしきい値との比較結果に基づいて、後述するような音声の端点検出が行われる。

そして、ステップＳ１４でフレームインデックスをインクリメントしてステップＳ３に戻り、次のフレームについて処理を繰り返す。

以上説明した実施形態によれば、音声区間検出尺度として尤度比を用いることで、さまざまな種類の背景雑音に対して耐性のある音声区間検出を行うことができる。

とりわけ、尤度比の算出に最大事後確率法（ＭＡＰ）を導入することで、推定されるＳＮＲに対するＶＡＤの調整が容易になる。これにより、レベルの低い音声に高レベルの雑音が混入しても音声を精度よく検出することができる。

また、差分特徴最尤法を用いれば、周波数全域にわたりパワーがほぼ等しい雑音（例えば、足音のような振動音や風や息のような聞き分けにくい音を含む。）に対してもロバストな性能が得られる。

（他の実施形態）
上述した実施形態は、音声認識などの音声に関わる内容で説明したが、本発明は例えば、機械などの音や動物の音などの音声以外の音響信号にも適用することが可能である。また、ソナーや動物の音などのように、人には聞くことができないような領域の音響情報にも利用できるものである。さらに、レーダーや無線信号などの電磁波などの信号などにも利用できる。

以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。

なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。

従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明のクレームに含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。

音声通信システムにおける音声の送受信手続きの一例を示す図である。ＶＡＤを含む音声認識システムの処理例を示す図である。実施形態におけるコンピュータシステムの構成を示す図である。実施形態における信号検出処理を実現する機能ブロック図である。最尤法を用いた音声区間検出尺度の計算手順を示す図である。最大事後確率法を用いた音声区間検出尺度の計算手順を示す図である。差分特徴最尤法を用いた音声区間検出尺度の計算手順を示す図である。実施形態における信号検出処理を示すフローチャートである。

Claims

入力したフレームｆにおける信号系列の特徴量として前記信号系列のスペクトルパワーベクトルｓ ² _fを抽出する第１の抽出手段と、
前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ _fを抽出する第２の抽出手段と、
前記スペクトルパワーベクトルｓ ² _f のｋ番目の要素をｓ ² _k 、前記雑音推定ベクトルμ _f のｋ番目の要素をμ _k 、ベクトル要素の個数をＳ、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームｆにおける尤度比Ｌ _f を、次式、

に従い計算する尤度比計算手段と、
前記尤度比計算手段により計算された尤度比Ｌ _fに基づいて前記信号系列の状態を判断する判断手段と、
を有することを特徴とする信号検出装置。
入力したフレームｆにおける信号系列の特徴量として前記信号系列のスペクトルマグニチュードベクトルｓ _f を抽出する第１の抽出手段と、
前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ _f を抽出する第２の抽出手段と、
前記スペクトルマグニチュードベクトルｓ _f のｋ番目の要素をｓ _k 、前記雑音推定ベクトルμ _f のｋ番目の要素をμ _k 、ベクトル要素の個数をＳ、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームｆにおける尤度比Ｌ _f を、次式、

に従い計算する尤度比計算手段と、
前記尤度比計算手段により計算された尤度比Ｌ _f に基づいて前記信号系列の状態を判断する判断手段と、
を有することを特徴とする信号検出装置。
信号検出装置によって実行される信号検出方法であって、
第１の抽出手段が、入力したフレームｆにおける信号系列の特徴量として前記信号系列のスペクトルパワーベクトルｓ ² _f を抽出する第１の抽出ステップと、
第２の抽出手段が、前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ _f を抽出する第２の抽出ステップと、
前記スペクトルパワーベクトルｓ ² _f のｋ番目の要素をｓ ² _k 、前記雑音推定ベクトルμ _f のｋ番目の要素をμ _k 、ベクトル要素の個数をＳ、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、尤度比計算手段が、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームｆにおける尤度比Ｌ _f を、次式、

に従い計算する尤度比計算ステップと、
判断手段が、前記尤度比計算ステップで計算された尤度比Ｌ _f に基づいて前記信号系列の状態を判断する判断ステップと、
を有することを特徴とする信号検出方法。
信号検出装置によって実行される信号検出方法であって、
第１の抽出手段が、入力したフレームｆにおける信号系列の特徴量として前記信号系列のスペクトルマグニチュードベクトルｓ _f を抽出する第１の抽出ステップと、
第２の抽出手段が、前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ _f を抽出する第２の抽出ステップと、
前記スペクトルマグニチュードベクトルｓ _f のｋ番目の要素をｓ _k 、前記雑音推定ベクトルμ _f のｋ番目の要素をμ _k 、ベクトル要素の個数をＳ、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、尤度比計算手段が、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームｆにおける尤度比Ｌ _f を、次式、

に従い計算する尤度比計算ステップと、
判断手段が、前記尤度比計算ステップで計算された尤度比Ｌ _f に基づいて前記信号系列の状態を判断する判断ステップと、
を有することを特徴とする信号検出方法。
コンピュータを、請求項１又は２に記載の信号検出装置が有する各手段として機能させるためのプログラム。