JP6096242B2

JP6096242B2 - 音声区間検出器及び方法

Info

Publication number: JP6096242B2
Application number: JP2015100483A
Authority: JP
Inventors: マルチンセールステッド，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2009-10-19
Filing date: 2015-05-15
Publication date: 2017-03-15
Anticipated expiration: 2030-10-18
Also published as: US11361784B2; JP5793500B2; US20180247661A1; US20170345446A1; KR20120091068A; EP2491549A1; US20110264449A1; WO2011049516A1; JP2015207002A; BR112012008671A2; CN104485118A; US9773511B2; EP2491549A4; JP2013508744A; US9990938B2; CN102576528A

Description

本発明は、方法及び音声区間検出器に関し、特に、例えば非定常背景雑音を処理する改善された音声区間検出器に関する。

会話音声に対して使用される音声符号化方式において、符号化の効率を向上するために間欠送信（ＤＴＸ）を使用することは一般的である。これは、１人が話している間に相手が聞いている等、会話音声が音声内に埋め込まれた多くの無音区間を含むためである。そのため、ＤＴＸを用いる場合、音声符号器は平均約５０％の時間のみアクティブであり、残りの時間はコンフォートノイズを使用して符号化することができる。この特徴を有するコーデックのとしては例えばＡＭＲＮＢ（適応マルチレート狭帯域）がある。

高品質、すなわち音質が劣化しないＤＴＸ動作のためには、これは音声区間検出器（ＶＡＤ）により入力信号における音声区間を検出することが重要である。図１に一般的なＶＡＤ１８０の概略ブロック図を示す。ＶＡＤ１８０では、実施内容に依存して５〜３０ｍｓのデータフレームに分割された入力信号１００を入力として受信し、出力１６０としてＶＡＤ判定を生成する。ＶＡＤ判定１６０は、フレームが音声を含むか又は雑音を含むかを示すフレーム毎の判定である。

ＶＡＤ１８０は、サブバンドエネルギ推定値を提供する背景推定部１３０と、特徴であるサブバンドエネルギを提供する特徴抽出部１２０とを含む。ＶＡＤは、フレーム毎に特徴を計算し、音声区間フレームを識別するために、現在のフレームの特徴が、その特徴が背景信号に対してどのように「見える」かを示す推定値と比較される。

一次音声区間検出部１４０により、一次判定「ｖａｄ＿ｐｒｉｍ」１５０が作成される。基本的に、これは現在のフレームの特徴と（前の入力フレームから推定される）背景特徴との単なる比較であり、差分が閾値より大きい場合に一次判定は音声区間（active）とされる。ハングオーバ付加部１７０は、過去の一次判定に基づいて一次ＶＡＤからのＶＡＤ判定を拡張して最終ＶＡＤ判定「ｖａｄ＿ｆｌａｇ」１６０を形成するために使用される。すなわち、前のＶＡＤ判定が更に考慮される。ハングオーバを使用する理由は、主に、音声バーストにおいて音声の中間部や終端部をクリッピングしてしまうリスクを低減／回避するためである。また、ハングオーバは楽曲中の節のクリッピングを回避するためにも使用可能である。動作制御部１１０は、入力信号の特性に従って、一次音声区間検出部に対する閾値及び付加するハングオーバの長さを調整してもよい。

ＶＡＤにおける検出に使用できる多くの異なる特徴が存在する。１つの特徴は、フレームエネルギーのみに注目し、これと閾値とを比較してフレームが音声を含むか否かを判定することである。この方式は、ＳＮＲが良好である状態に対しては十分良好に機能するが、低ＳＮＲの場合は十分に機能しない。低ＳＮＲの場合、音声信号及び雑音信号の特性を比較する他の測定基準を代わりに使用する必要がある。リアルタイム実装の場合、ＶＡＤの機能性に更に求められる条件は演算量であり、これは、例えばＡＭＲＮＢ、ＡＭＲＷＢ（適応マルチレート広帯域）及びＧ．７１８（ＩＴＵ−Ｔ勧告のエンベデッドスケーラブル音声／オーディオコーデック）などの標準仕様コーデックにおけるサブバンドＳＮＲＶＡＤの周波数表現に反映される。

サブバンドＳＮＲベースのＶＡＤは異なるサブバンドのＳＮＲを測定基準に組み合わせ、これが一次判定に対する閾値と比較される。サブバンドベースのＶＡＤにおいては、ＳＮＲはサブバンド毎に判定され、総合ＳＮＲがそれらのＳＮＲに基づいて判定される。総合ＳＮＲは異なるサブバンドにおける全てのＳＮＲの和であってもよい。異なる特性を有する複数の特徴が一次判定に使用される既知の解決策が更に存在する。しかし、双方の例において、入力信号の状態に適応させてハングオーバを付加して最終判定を形成するために使用される一次判定は１つしか存在しない。また、多くのＶＡＤは無音検出に対する入力エネルギー閾値を有する。すなわち、十分に低い入力レベルの場合、一次判定は非音声状態とされる。

サブバンドＳＮＲの原理に基づくＶＡＤに対して、有意閾値と呼ばれるサブバンドＳＮＲの計算への非線形性の導入により、非定常雑音（バブルノイズ、オフィス雑音）を有する状態に対するＶＡＤの性能を向上できることが示されている。

特に低ＳＮＲ状態において、非定常雑音は全てのＶＡＤにとって処理が困難であり、その結果、実際の音声と比較してＶＡＤのアクティビティが高くなり、システムの観点から能力が低下する。非定常雑音のうち、最も困難なのはバブルノイズである。これは、バブルノイズの特性が、ＶＡＤが検出するように設計される音声信号にバブルノイズ比較的類似しているためである。バブルノイズは、通常、前景話者の音声レベルに対するＳＮＲ及び背景話者の数の双方により特徴付けられる。（主観評価において使用される）一般的な定義では、バブルノイズは４０人以上の背景話者を有する必要があり、バブルノイズであるためには、基本的にバブルノイズに含まれるどの話者も追跡できてはならない（バブル話者はいずれも明確にならない）。更に、バブルノイズの話者数が増加すると、それはより定常になる。背景に存在する話者が１人（又は数人）のみである場合、通常は当該話者を干渉話者（interfering talker(s)）と呼ぶ。更なる問題点は、ＶＡＤアルゴリズムで抑制できない、音楽に非常に類似する振動するスペクトル特性をバブルノイズが有する場合があることである。

前述のＶＡＤの解決策であるＡＭＲＮＢ／ＷＢ及びＧ．７１８では、既に適切なＳＮＲ（２０ｄＢ）であるいくつかの例においてバブルノイズに関する種々の程度の問題が存在する。そのため、ＤＴＸの使用によっては想定される能力の改善は、実現できない。また、実際の移動電話システムでは、１５〜２０ｄＢのＳＮＲにおける適切なＤＴＸ動作を必要とするだけでは十分ではない。可能であれば、雑音の種類に依存して最低５ｄＢ、更には０ｄＢにおける適切なＤＴＸ動作が望まれる。低周波数の背景雑音の場合には、ＶＡＤ解析の前に信号をハイパスフィルタリングするだけで、ＶＡＤ機能に対して１０〜１５ｄＢのＳＮＲの改善を達成できる。バブルノイズと音声とは類似するため、入力信号のハイパスフィルタリングによる改善は非常に少ない。

品質の観点から、フェールセーフＶＡＤを使用することが好ましい。これは、ＶＡＤが処理した音声入力が不確かである場合には余裕をみて多めに音声区間と判定することを許容することが好ましいことを意味する。非定常背景雑音を有する状況に数人のユーザのみが存在する限り、これはシステム能力の観点から許容可能な場合がある。しかし、非定常環境に存在するユーザ数が増加した場合にフェールセーフＶＡＤを使用するとシステム能力が大きく損なわれる場合がある。従って、多くの非定常環境が通常のＶＡＤ動作を使用して処理されるように通常のＶＡＤ動作の領域をフェールセーフＶＡＤ動作の領域に対して広げる努力が重要となっている。

有意閾値を使用することによりＶＡＤの性能は向上するが、上述のように、それにより、主に低ＳＮＲの無声音の前端クリッピングである音声クリッピングが生じる場合がある。

既存の解決策の場合、新しい問題領域が識別されると、既に動作している状態に対するＶＡＤの挙動を変化させない既存のＶＡＤの新しい調整を見つけることは困難である場合がある。すなわち、新しい問題に対処するために調整を変更することはできても、既知の状態における挙動を変化させずに調整することはできない場合がある。

本発明の実施形態は、非定常背景又は他の発見された問題領域を処理するために既存のＶＡＤを再調整するための解決策を提供する。

従って、複数のＶＡＤを並行動作させて出力を組み合わせることにより、各ＶＡＤの限界の影響をそれ程受けずに、異なるＶＡＤの長所を利用できる。

過剰に音声区間と判定されてしまうことを低減したい状況で使用される一実施形態において、第１のＶＡＤの一次判定は外部ＶＡＤからの最終判定と論理積により組み合わされる。外部ＶＡＤは第１のＶＡＤより積極的（aggressive）であるのが好ましい。積極的なＶＡＤとは、「通常」のＶＡＤと比較して音声区間と判定する割合が少なくなるように調整／構成されるＶＡＤを意味する。積極的なＶＡＤの主な目的は、通常／元のＶＡＤと比較して過剰に音声区間と判定されることを低減することである。なお、この積極性は、例えば雑音の種類又はＳＮＲに関する何らかの特定の（又は限られた数の）状態のみに適用されてもよい。

別の実施形態は、過剰に音声区間と判定されることなく音声区間を追加したい状況において使用可能である。本実施形態において、第１のＶＡＤの一次判定は外部ＶＡＤからの一次判定との論理和により組み合わされてもよい。

従って、本発明の実施形態の第１の態様によれば、受信した入力信号における音声区間を検出する音声区間検出器（ＶＡＤ）における方法が提供される。この方法において、一次ＶＡＤ判定を示す信号が前記ＶＡＤの一次音声区間検出部から受信され、少なくとも１つの外部ＶＡＤからの音声区間判定を示す少なくとも１つの信号が少なくとも１つの外部ＶＡＤから受信される。前記受信した信号において示された音声区間判定同士が組み合わされて修正一次ＶＡＤ判定が生成され、この修正一次ＶＡＤ判定が前記ＶＡＤのハングオーバ付加部に出力される。

本発明の実施形態の第２の態様によれば、音声区間検出器（ＶＡＤ）が提供される。ＶＡＤは、受信した入力信号における音声区間を検出するように構成されており、一次ＶＡＤ判定を示す前記ＶＡＤの一次音声区間検出部からの信号と、少なくとも１つの外部ＶＡＤからの音声区間判定を示す少なくとも前記１つの外部ＶＡＤからの少なくとも１つの信号とを受信する入力部を有する。ＶＡＤは更に、前記受信した信号において示された前記音声区間判定同士を組み合わせて修正一次ＶＡＤ判定を生成するプロセッサと、前記修正一次ＶＡＤ判定を前記ＶＡＤのハングオーバ付加部に出力する出力部とを有する。

既存のＶＡＤと１つ以上の外部ＶＡＤとを組み合わせることにより、元のＶＡＤの内部状態にあまり影響を及ぼさずに総合的なＶＡＤの性能を向上できる。これは、例えばフレーム分類及びコーデックモード選択などの他のコーデック機能に対する必要条件であってもよい。

本発明の実施形態の更なる利点は、複数のＶＡＤの使用が通常の動作、すなわち入力信号のＳＮＲが良好である場合の動作に影響を及ぼさないことである。通常のＶＡＤの機能が不十分である場合のみ、外部ＶＡＤはＶＡＤの動作範囲を拡張できるようにするべきである。

外部ＶＡＤが問題を生じる雑音に対して適切に動作する場合には、一実施形態の解決策により、外部ＶＡＤは第１のＶＡＤからの一次判定を覆すことができ、すなわち、背景雑音のみに対して誤って音声区間と判定してしまうことを防止する。

更に、更なる外部ＶＡＤを追加することにより、過剰に音声区間と判定してしまう量を低減でき、あるいは以前にクリッピングされた更なる音声（又はオーディオ）を検出できる。現在の入力状態に対する組合せ論理の適応は、外部ＶＡＤによって過剰に音声区間と判定することの増加又は更なる音声クリッピングの導入を防止するために必要とされてもよい。組合せ論理は、通常のＶＡＤが適切に動作していないと識別された入力状態（雑音レベル、ＳＮＲ又は雑音特性〔定常／非定常〕）においてのみ外部ＶＡＤが使用されるように適応されてもよい。

従来技術に係る背景推定を用いる一般的なＶＡＤを示す図。、、、本発明の実施形態に係る複数のＶＡＤの組合せ論理を含む背景推定を用いるＶＡＤを示す図。本発明の実施形態に係る組合せ論理を示す図。本発明の実施形態に係る方法を示すフローチャート。

以下、本発明の好適な実施形態を示す添付の図面を参照して、本発明の実施形態を詳しく説明する。ただし、実施形態は多くの異なる形態で実施可能であって、本明細書に記載される実施形態に限定されるものとして解釈されるべきではない。これらの実施形態は、本開示が完璧で完全なものとなり且つ本発明の範囲を当業者に完全に理解させるように提供するものである。図面において、同一の参照符号は同一の要素を示すものとする。

また、本明細書で以下に説明する手段及び機能がプログラムマイクロプロセッサ又は汎用コンピュータと関連して機能するソフトウェアを使用し且つ／あるいは特定用途向け集積回路（ＡＳＩＣ）を使用して実施可能であることは当業者には理解されよう。また、主に方法及び装置の形態で本実施形態を説明するが、実施形態はコンピュータプログラム、並びにコンピュータプロセッサ及びそれに結合されたメモリを含むシステムで実施可能であり、その場合、メモリは本明細書で開示される機能を実行可能な１つ以上のプログラムを用いて符号化されることが更に理解されるであろう。

図２は、図１と同様に背景推定を用いる第１のＶＡＤ１９９を示す。ＶＡＤが本発明の第１の実施形態に係る組合せ論理１４５を更に備える点が異なる。本実施形態において、第１のＶＡＤの性能は、ハングオーバ付加部１７０の前に設けられる組合せ論理１４５に外部ＶＡＤ１９８からの外部ｖａｄ＿ｆｌａｇ＿ＨＥ１９０を導入することにより向上される。なお、ＳＮＲが良好である状態において、外部ＶＡＤ１９８が使用される方法は一次音声区間検出部１４０及びＶＡＤの通常の挙動には影響を及ぼさない。第１のＶＡＤからの一次判定ｖａｄ＿ｐｒｉｍと外部ＶＡＤ１９８からのｖａｄ＿ｆｌａｇ＿ＨＥ１９０で示す最終判定との間の論理積を介して、組合せ論理１４５においてｖａｄ＿ｐｒｉｍ’１５５で示す新規の一次判定を形成することにより、結果としてＶＡＤが過剰に音声区間と判定してしまうことを回避できる。外部ＶＡＤであるＶＡＤ２を同様に概略的に示す図３に第１の実施形態を更に示す。図３を以下に更に説明する。

上述の実施形態に係る外部ＶＡＤを用いる場合、加法性雑音の種類に対して過剰に音声区間と判定してしまうことを低減できる。これは、外部ＶＡＤが元のＶＡＤからの誤った音声区間信号を防止できるため達成される。過剰に音声区間と判定することとは、ＶＡＤが背景雑音のみを有するフレームを音声区間であると判定することを意味する。通常、この過剰に音声区間と判定してしまうのは、１）音声に類似する非定常の雑音（バブル）、あるいは２）非定常雑音又は他の誤検出された音声に類似する入力信号が存在するため背景雑音の推定が適切に動作していない場合の結果である。

第２の実施形態によれば、組合せ論理は、第１のＶＡＤからの一次判定ｖａｄ＿ｐｒｉｍと外部ＶＡＤからのｖａｄ＿ｐｒｉｍ＿ＨＥで示す一次判定との間の論理和を用いて、ｖａｄ＿ｐｒｉｍ’で示す新規の一次判定を形成する。このように、第１のＶＡＤにより実行された望ましくないクリッピングを補正するために音声区間を追加できる。

外部ＶＡＤ１９８を同様に示す図４に第２の実施形態を示す。組合せ論理１４５は、第１のＶＡＤ１９９の一次ＶＡＤ１４０の一次判定ｖａｄ＿ｐｒｉｍ１５０と外部ＶＡＤ１９８からのｖａｄ＿ｐｒｉｍ＿ｈｅ１９０で示す一次判定との間の論理和を介して、ｖａｄ＿ｐｒｉｍ’１５５で示す一次判定を形成する。そのため、外部ＶＡＤ１９８は第１のＶＡＤ１９９が生じさせたクリッピングを回避するために使用可能である。従って、外部ＶＡＤ１９８は第１のＶＡＤ１９９が生じさせた誤りを補正できる。これは、第１のＶＡＤ１９９で検出されなかった音声区間が外部ＶＡＤ１９８により検出可能であることを意味する。過剰な音声区間の増加を回避するために、外部ＶＡＤの一次判定を使用するのが有利である。

次に、図２に対応し且つ第３の実施形態を示す図５を参照する。第３の実施形態において、組合せ論理１４５は、第１のＶＡＤ１４０からの一次判定ｖａｄ＿ｐｒｉｍ１５０と外部ＶＡＤからの一次判定１９０ａ及び最終判定１９０ｂとの組み合わせにより、ｖａｄ＿ｐｒｉｍ’１５５で示す新規の一次判定を形成する。これを図５に示す。これらの３つの判定は、組合せ論理１４５において論理積及び／又は論理和の何らかの組み合わせを使用することにより組み合わされてもよい。一例として、第１のＶＡＤ及び外部ＶＡＤの一次判定を使用して論理和により組み合わせ、その後、論理積を使用して外部ＶＡＤの最終判定と組み合わせることができる。その場合、以前にクリッピングされた区間を更に検出できる。

第４の実施形態によれば、２つ以上の外部ＶＡＤからのＶＡＤ判定を組合せ論理に使用して、新規のＶａｄ＿ｐｒｉｍ’を形成する。ＶＡＤ判定は、一次及び／又は最終ＶＡＤ判定であってもよい。２つ以上の外部ＶＡＤが使用される場合、これらの外部ＶＡＤは、第１のＶＡＤと組み合わされる前に組合せ可能である。例えば、Ｖａｄ＿ｐｒｉｍ＆（ｅｘｔｅｒｎａｌ＿ｖａｄ＿１＆ｅｘｔｅｒｎａｌ＿ｖａｄ＿２）である。

本明細書において、ＶＡＤの一次判定は、一次音声区間検出部により作成された判定を意味する。この判定をＶａｄ＿ｐｒｉｍ又はｌｏｃａｌＶＡＤと呼ぶ。ＶＡＤの最終判定は、ハングオーバの付加後にＶＡＤにより作成された判定を意味する。本発明の実施形態に係る組合せ論理はＶＡＤにおいて導入され、ＶＡＤのＶａｄ＿ｐｒｉｍ及び外部ＶＡＤからの外部ＶＡＤ判定に基づいてＶａｄ＿ｐｒｉｍ’を生成する。外部ＶＡＤ判定は、１つ以上の外部ＶＡＤの一次判定及び／又は最終判定であってもよい。組合せ論理は、第１のＶＡＤのＶａｄ＿ｐｒｉｍ及び外部ＶＡＤからの１つ以上のＶＡＤ判定に論理積又は論理和を適用することによりＶａｄ＿ｐｒｉｍ’を生成するように構成される。

第１のＶＡＤ及び外部ＶＡＤのブロック図である図３及び図４を参照する。ブロック図は、実施形態に係る元のＶＡＤ（ＶＡＤ１）及び外部ＶＡＤ（ＶＡＤ２）から成る２つのＶＡＤ、並びに元のＶＡＤにおいて改善されたｖａｄ＿ｐｒｉｍを生成する組合せ論理を示す。

図３及び図４に示すように、２つのＶＡＤは特徴抽出部を共有する。外部ＶＡＤは、修正背景更新値及び一次音声区間検出部を使用してもよい。修正背景更新値は、通常の雑音更新のデッドロック回復が減速される背景雑音更新戦略による変更を含み、雑音をより適切に追跡するための雑音推定を可能にする雑音更新の別の可能性を追加する。修正された一次音声区間検出部は、入力のエネルギー変化に基づいて有意閾値及び更新された閾値の適応を追加してもよい。これらの２つの変更は並行して使用されてもよい。

従来技術において、以下に示すように、ＶＡＤ１と示す第１のＶＡＤに対する一次判定を作成するために、可変ＳＮＲ和ｓｎｒ＿ｓｕｍは計算された閾値ｔｈｒ１と比較され、入力信号が音声区間（Ｖａｄ＿ｐｒｉｍ＝１に対応するｌｏｃａｌＶＡＤ＝１）であるか又は雑音（Ｖａｄ＿ｐｒｉｍ＝０に対応するｌｏｃａｌＶＡＤ＝０）であるかが判定される。

ｌｏｃａｌＶＡＤ＝０；
ｉｆ（ｓｎｒ＿ｓｕｍ＞ｔｈｒ１）{
ｌｏｃａｌＶＡＤ＝１；
}

本発明の実施形態に係る組合せ論理を使用する場合、論理積は、第１のＶＡＤからのｌｏｃａｌＶＡＤ及び外部ＶＡＤからのｖａｄ＿ｆｌａｇ＿ｈｅと示す最終判定に適用される。すなわち、組合せ論理を使用する場合、一次音声区間検出部は第１のＶＡＤからのｌｏｃａｌＶＡＤ及び外部ＶＡＤからのｖａｄ＿ｆｌａｇ＿ｈｅの双方がアクティブである場合のみアクティブになることが許可される。すなわち、以下の通りである。

ｌｏｃａｌＶＡＤ＝０；
ｉｆ（ｓｎｒ＿ｓｕｍ＞ｔｈｒ１＆＆ｖａｄ＿ｆｌａｇ＿ｈｅ）{
ｌｏｃａｌＶＡＤ＝１；
}

識別し易くするために、変更部分に下線を引いた。ｖａｄ＿ｆｌａｇ＿ｈｅの値が必要とされるため、ハングオーバの付加を含む外部ＶＡＤのコードは修正ＶＡＤ１判定を生成する前に実行される必要がある。

第５の実施形態においては、組合せ論理は信号に適応するように構成され、すなわち、現在の入力信号の特性に依存して組合せ論理を変更するように構成される。組合せ論理は推定ＳＮＲに依存してもよい。例えば、良好な状態では元のＶＡＤのみが使用されるように組合せ論理が構成される場合、更に積極的な第２のＶＡＤを使用してもよい。雑音状態の場合、積極的なＶＡＤは実施形態１と同様に使用される。このように適応される場合、積極的なＶＡＤは、ＳＮＲが良好である状態では音声クリッピングを生じなくなるが、雑音状態ではクリッピングされた音声フレームは雑音でマスキングされると想定される。

本発明の複数の実施形態の１つの目的は、非定常背景雑音に対して過剰に音声区間と判定してしまうことを低減することである。これは、複数の符号化された信号の音声区間を比較することによる客観的尺度を使用して測定可能である。しかし、この測定基準は、音声区間の減少が音声に影響を及ぼし始める時点、すなわち、音声フレームが背景雑音に置換される時点を示すものではない。なお、背景雑音を有する音声において、全ての音声フレームが可聴であるわけではない。いくつかの例において、実際、音声フレームは可聴劣化を引き起こさずに雑音に置換されてもよい。このため、いくつかの修正区分の主観評価を使用することも重要である。

以下に提示する客観的結果は、異なる雑音環境及び信号対雑音比（ＳＮＲ）に対する複数言語の異なる音声サンプルに対して、種々の状態における音声と背景雑音との合成に基づくものである。

合成は、異なる雑音サンプル及び異なるＳＮＲ状態を用いて作成された。雑音は、非定常背景雑音の代表例である展示会雑音、オフィス雑音及びロビー雑音として分類された。音声及び雑音ファイルは、−２６ｄＢｏｖに設定された音声レベル及び１０〜３０ｄＢの範囲の４つの異なるＳＮＲを用いて合成された。

その後、用意されたサンプルは、従来技術に係る元のＶＡＤを用いるコーデック及び本発明の実施形態に係る複合ＶＡＤ解決策（デュアルＶＡＤと示す）を使用するコーデックの双方を使用して処理された。

客観的結果のために、異なるＶＡＤ解決策を使用する異なるコーデックにより生成された音声区間を比較した。以下の表に結果を示す。なお、表における音声区間の数値はそれぞれ、トータル１２０秒のサンプルに対して測定された。音声クリップのレベル調整に使用されたツールによれば、静かな音声ファイルの音声区間は２１．９％であると推定された。

結果は、図３に示す本発明の一実施形態により、音声区間が減少することを示している。

一実施形態によれば、ＶＡＤの組合せ論理における方法は、図７のフローチャートに示されるように提供される。ＶＡＤは、受信した入力信号における音声区間を検出する。一次ＶＡＤ判定を示す上記ＶＡＤの一次音声区間検出部からの信号及び少なくとも１つの外部ＶＡＤからの音声区間判定を示す少なくとも１つの外部ＶＡＤからの少なくとも１つの信号が受信される（１１０１）。受信信号において示された音声区間判定は、修正一次ＶＡＤ判定を生成するために組み合わされる（１１０２）。修正一次ＶＡＤ判定は、最終ＶＡＤ判定の作成に使用されるために上記ＶＡＤのハングオーバ付加部に出力される（１１０３）。

受信信号における音声区間判定は、一次ＶＡＤからの信号及び少なくとも１つの外部ＶＡＤからの信号の双方が音声を示す場合にのみ上記ＶＡＤの修正一次ＶＡＤ判定が音声を示すように論理積により組み合わされてもよい。

更に、受信信号における音声区間判定は、一次ＶＡＤからの信号及び少なくとも１つの外部ＶＡＤからの信号の少なくとも一方の信号が音声を示す場合に上記ＶＡＤの修正一次ＶＡＤ判定が音声を示すように論理和により組み合わされてもよい。

少なくとも１つの外部ＶＡＤからの少なくとも１つの信号は、最終及び／又は一次ＶＡＤ判定である外部ＶＡＤからの音声区間判定を示してもよい。

別の実施形態によれば、受信した入力信号における音声区間を検出するように構成されたＶＡＤが図６に示すように提供される。ＶＡＤは、一次ＶＡＤ判定を示す上記ＶＡＤの一次音声区間検出部からの信号１５０及び少なくとも１つの外部ＶＡＤからの音声区間判定を示す少なくとも１つの外部ＶＡＤからの少なくとも１つの信号１９０を受信する入力部５０２を備える。ＶＡＤは、修正一次ＶＡＤ判定を生成するために受信信号において示された音声区間判定を組み合わせるプロセッサ５０３と、前記ＶＡＤのハングオーバ付加部に修正一次ＶＡＤ判定１５５を出力する出力部５０５とを更に備える。ＶＡＤは、履歴情報及び実施形態の方法を実行するソフトウェアコード部分を格納するメモリを更に備えてもよい。なお、上述したように、入力部５０２、プロセッサ５０３、メモリ５０４及び出力部５０５はＶＡＤ内の組合せ論理１４５において実現されてもよい。

一実施形態によれば、プロセッサ５０３は、一次ＶＡＤからの信号及び少なくとも１つの外部ＶＡＤからの信号の双方が音声を示す場合にのみ上記ＶＡＤの修正一次ＶＡＤ判定が音声を示すように論理積により受信信号内の音声区間判定を組み合わせるように構成される。

更なる一実施形態によれば、プロセッサ５０３は、一次ＶＡＤからの信号及び少なくとも１つの外部ＶＡＤからの信号の少なくとも一方の信号が音声を示す場合にのみ上記ＶＡＤの修正一次ＶＡＤ判定が音声を示すように論理和により受信信号内の音声区間判定を組み合わせるように構成される。

開示した発明の変形例及び他の実施形態は、前述の説明及び関連する図面において提示された教示の利益を有する当業者により着想されるであろう。従って、本発明の実施形態は開示された特定の実施形態に限定されないこと、並びに、変形例及び他の実施形態は本開示の範囲に含まれることを意図することが理解されるべきである。特定の用語が本明細書において使用されたが、それらは一般的及び説明的な意味で使用したにすぎず、限定するために使用したものではない。

Claims

受信した入力信号の音声区間をそれぞれ検出する、第１ＶＡＤと少なくとも１つの第２ＶＡＤとを含む音声区間検出器ＶＡＤにおける方法であって、
前記第１ＶＡＤが、
一次ＶＡＤ判定を示す前記第１ＶＡＤの一次音声区間検出部からの信号と、前記少なくとも１つの第２ＶＡＤからの音声区間判定を示す前記少なくとも１つの第２ＶＡＤからの少なくとも１つの信号とを受信するステップ（１１０１）と、
前記受信した信号同士を組み合わせて修正一次ＶＡＤ判定を生成するステップ（１１０２）と、
前記修正一次ＶＡＤ判定を、最終ＶＡＤフラグを形成する前記第１ＶＡＤのハングオーバ付加部に出力するステップ（１１０３）と、
を有し、
前記少なくとも１つの第２ＶＡＤからの前記少なくとも１つの信号は、前記少なくとも１つの第２ＶＡＤのハングオーバ付加部からのＶＡＤフラグを含み、
前記受信した信号同士を組み合わせるステップは、前記受信した信号間の論理積を含む論理演算により前記修正一次ＶＡＤ判定を生成する
ことを特徴とする方法。
前記少なくとも１つの第２ＶＡＤからの前記少なくとも１つの信号は、前記少なくとも１つの第２ＶＡＤの一次音声区間検出部からの一次ＶＡＤ判定を示す信号を更に含み、
前記論理演算は、
前記第１ＶＡＤの前記一次ＶＡＤ判定を示す信号と前記少なくとも１つの第２ＶＡＤの前記一次ＶＡＤ判定を示す信号との論理和と、
前記論理和と前記少なくとも１つの第２ＶＡＤの前記ハングオーバ付加部からの前記ＶＡＤフラグとの論理積と、
を含むことを特徴とする請求項１に記載の方法。
前記少なくとも１つの第２ＶＡＤは単一のＶＡＤであることを特徴とする請求項１又は２に記載の方法。
前記少なくとも１つの第２ＶＡＤは複数のＶＡＤであることを特徴とする請求項１又は２に記載の方法。
前記受信した信号同士を組み合わせるステップは、前記入力信号の特性に依存して前記論理演算を行うことを特徴とする請求項１乃至４のいずれか１項に記載の方法。
前記入力信号の特性は、推定された信号対雑音比及び背景特性の少なくとも一方を含むことを特徴とする請求項５に記載の方法。
受信した入力信号の音声区間を検出する音声区間検出器ＶＡＤであって、
第１ＶＡＤと、
少なくとも１つの第２ＶＡＤと、
を含み、
前記第１ＶＡＤは、
第１一次ＶＡＤ判定を形成する第１一次音声区間検出部と、
前記第１一次ＶＡＤ判定を修正して修正一次ＶＡＤ判定（１５５）を生成する処理部と、
前記修正一次ＶＡＤ判定にハングオーバを適用して最終ＶＡＤフラグを形成する第１ハングオーバ付加部と、
を含み、
前記少なくとも１つの第２ＶＡＤのそれぞれは、
第２一次ＶＡＤ判定を形成する第２一次音声区間検出部と、
前記第２一次ＶＡＤ判定にハングオーバを適用してＶＡＤフラグを形成する第２ハングオーバ付加部と、
前記第２ハングオーバ付加部により形成された前記ＶＡＤフラグを前記処理部に出力する出力部と、
を含み、
前記処理部は、前記第１一次ＶＡＤ判定と前記出力部から出力された前記ＶＡＤフラグとを含む受信した信号間の論理積を含む論理演算により前記修正一次ＶＡＤ判定を生成する
ことを特徴とするＶＡＤ。
前記出力部は、更に前記第２一次ＶＡＤ判定を示す信号を前記処理部に出力し、
前記論理演算は、
前記第１一次ＶＡＤ判定と前記第２一次ＶＡＤ判定との論理和と、
前記論理和と前記第２ハングオーバ付加部からの前記ＶＡＤフラグとの論理積と、
を含むことを特徴とする請求項７に記載のＶＡＤ。
前記少なくとも１つの第２ＶＡＤは単一のＶＡＤであることを特徴とする請求項７又は８に記載のＶＡＤ。
前記少なくとも１つの第２ＶＡＤは複数のＶＡＤであることを特徴とする請求項７又は８に記載のＶＡＤ。
前記処理部は、前記入力信号の特性に依存して前記論理演算を行うことを特徴とする請求項７乃至１０のいずれか１項に記載のＶＡＤ。
前記入力信号の特性は、推定された信号対雑音比及び背景特性の少なくとも一方を含むことを特徴とする請求項１１に記載のＶＡＤ。