JP2005503579A

JP2005503579A - 音響センサおよび非音響センサ双方を用いた有声音声および無声音声の検出

Info

Publication number: JP2005503579A
Application number: JP2003501229A
Authority: JP
Inventors: バーネット，グレゴリー・シー
Original assignee: アリフコム
Priority date: 2001-05-30
Filing date: 2002-05-30
Publication date: 2005-02-03
Also published as: EP1415505A1; CN1513278A; CA2448669A1; KR20040030638A; KR100992656B1

Abstract

背景ノイズのレベルが変動する音響信号において有声および無声音声を検出するシステムおよび方法を提供する。システム（図３）は、２つのマイクロフォン（Ｍｉｃ１、Ｍｉｃ２）において音響信号を受け、２つのマイクロフォン（Ｍｉｃ１、Ｍｉｃ２）の各々において受けた音響信号間の差分パラメータを発生する。差分パラメータは、受けた音響信号の部分間における信号利得の相対的な差を表す。差分パラメータが第１閾値を超過する場合、システムは、音響信号の情報を無声音声として特定し、差分パラメータが第２閾値を超過する場合、音響信号の情報を有声音声として特定する。更に、システムの実施形態は、非音響センサ（２０）も含み、生理的情報を受け取り、有声音声の特定に役立てる。

Description

【技術分野】
【０００１】
開示する実施形態は、音声信号の処理に関する。
【背景技術】
【０００２】
有声および無声音声を正しく識別できることは、音声認識、話者検証、ノイズ抑制、およびその他数多くの音声用途には不可欠である。典型的な音響用途では、話者からの音声を取り込み、異なる場所にある受信機に送信する。話者の環境では、１つ以上のノイズ源が存在して、音声信号、または対象の信号を、不要な音響ノイズで汚染する可能性がある。このため、受信者または受信機いずれであっても、ユーザの音声を理解することが困難または不可能となる。
【発明の開示】
【発明が解決しようとする課題】
【０００３】
有声音声および無声音声を分類する典型的な方法は、主に、マイクロフォン・データの音響成分に基づくが、ノイズの問題や、信号成分における対応する不確実性によって阻害される。今日では、特に、セルラ電話やパーソナル・ディジタル・アシスタントのような携帯通信デバイスの普及に伴って、これは問題化している。何故なら、多くの場合、デバイスによって得られるサービスの品質は、デバイスが提供するボイス・サービスの品質に左右されるからである。当技術分野では、音声信号内にあるノイズを抑制する方法が知られているが、これらの方法は、異常に長い計算時間、信号処理を実行するために必要ではあるが扱い難いハードウエア、および対象信号の歪みを含む、性能上の欠点を暴露している。
【課題を解決するための手段】
【０００４】
背景ノイズから有声音声および無声音声を判別するシステムおよび方法を提供する。これらは、非音響センサ有声音発話活動検出（ＮＡＶＳＡＤ：Non-acoustic Sensor Voiced Speech Activity Detection）システムと、パスファインダ発話活動検出（ＰＳＡＤ：Pathfinder Speech Activity Detection)システムとを含む。ここに提供するノイズ除去および低減方法は、背景ノイズからの人間の無声音声および有声音声の分離および分類を可能にしつつ、歪みを与えることなく対象の音響信号を明瞭化することによって、当技術分野において公知の典型的なシステムの欠点に取り組もうとするものである。
【０００５】
尚、この中で提示する表題は、便宜上用いているに過ぎず、特許請求する発明の範囲や意味に必ずしも影響を及ぼすものではない。また、図面においては、同一の参照番号により、同一または実質上同一の要素または行為を識別している。
【発明を実施するための最良の形態】
【０００６】
図１は、一実施形態におけるＮＡＶＳＡＤシステム１００のブロック図である。ＮＡＶＳＡＤシステムは、マイクロフォン群１０およびセンサ群２０を少なくとも１つのプロセッサ３０に結合する。一実施形態のセンサ群２０は、発声活動検出器即ち非音響センサを含む。プロセッサ３０は、検出サブシステム５０と、脱ノイズ・サブシステム４０とを含むサブシステム群を制御する。検出サブシステム５０のことを、ここでは検出アルゴリズムと呼ぶ。脱ノイズ・サブシステム４０の動作は、関連出願に詳細に記載されている。ＮＡＶＳＡＤシステムは、あらゆる背景音響ノイズ環境においても非常に良く動作する。
【０００７】
図２は、一実施形態におけるＰＳＡＤシステム２００のブロック図である。ＰＳＡＤシステムは、マイクロフォン群１０を少なくとも１つのプロセッサ３０に結合する。プロセッサ３０は、検出サブシステム５０と、脱ノイズ・サブシステム４０とを含む。検出サブシステム５０のことを、ここでは検出アルゴリズムと呼ぶ。ＰＳＡＤシステムは、低音響ノイズ環境において非常に敏感であり、高音響ノイズ環境においては比較的鈍感である。ＰＳＡＤは、独立して動作することができ、あるいはＮＡＶＳＡＤのバックアップとして動作し、ＮＡＶＳＡＤが故障した場合に有声音声を検出することができる。
【０００８】
尚、一実施形態のＮＡＶＳＡＤおよびＰＳＡＤシステム双方の検出サブシステム５０および脱ノイズ・サブシステム４０は、プロセッサ３０によって制御されるアルゴリズムであるが、そのように限定される訳ではない。ＮＡＶＳＡＤおよびＰＳＡＤシステムの代替の実施形態では、追加のハードウエア、ファームウエア、ソフトウエア、および／またはハードウエア、ファームウエア、ソフトウエアの組み合わせから成る検出サブシステム５０および／または脱ノイズ・サブシステム４０を含むことができる。更に、検出サブシステム５０および脱ノイズ・サブシステム４０の機能は、ＮＡＶＳＡＤおよびＰＳＡＤシステムの多数の構成部品間で分散させることも可能である。
【０００９】
図３は、一実施形態における脱ノイズ・サブシステム３００のブロック図であり、このサブシステムは、ここではパスファインダ・システムと呼ぶ。パスファインダ・システムについて以下に手短に説明するが、関連出願には詳細に記載されている。２つのマイクロフォンＭｉｃ１およびＭｉｃ２をパスファインダ・システムにおいて用い、Ｍｉｃ１を「信号」マイクロフォンと考える。図１を参照すると、パスファインダ・システム３００は、発声活動検出器（ＶＡＤ：voicing activity detector）３２０が非音響発声センサ２０であり、ノイズ除去サブシステム３４０が検出サブシステム５０および脱ノイズ・サブシステム４０を含む場合、ＮＡＶＳＡＤシステム１００と同等となる。図２を参照すると、パスファインダ・システム３００は、ＰＳＡＤシステム２００からＶＡＤ３２０を取り除き、ノイズ除去サブシステム３４０が検出サブシステム５０および脱ノイズ・サブシステム４０を含む場合と同等である。
【００１０】
ＮＡＶＳＡＤおよびＰＳＡＤシステムは、二レベル商用手法(two-level commercial approach)に対応し、(i)比較的安価なＰＳＡＤシステムが、最低ノイズおよび中程度のノイズ環境において機能する音響手法に対応し、(ii)ＮＡＶＳＡＤシステムは、あらゆる環境においても有声音声の検出を可能にするために非音響センサを追加する。無声音声は、通常、センサを用いて検出しない。何故なら、これは通常人の組織を十分振動させないからである。しかしながら、高ノイズの状況では、無声音声の検出はさほど重要ではない。何故なら、これは通常エネルギが非常に低く、ノイズによって容易にかき消されてしまうからである。したがって、高ノイズ環境では、無声音声が有声音声の脱ノイズに影響を及ぼす可能性は低い。無声音声情報は、ノイズが殆どまたは全くない場合に最も重要であり、したがって無声検出は、低ノイズ環境においては非常に敏感となり、高ノイズ環境では鈍感となるようにしなければならない。これは容易には達成できず、当技術分野で公知の比肩し得る音響無声検出器では、これらの環境的制約の下では動作することはできない。
【００１１】
ＮＡＶＳＡＤおよびＰＳＡＤシステムは、音声検出のためにアレイ・アルゴリズムを含む。これは、２つのマイクロフォン間における周波数成分の差を用いて、２つのマイクロフォンの信号間の関係を計算する。これは、各マイクロフォンの時間／位相差を用いて、「感度の範囲」の外側でノイズを除去しようとする従来のアレイとは対照的である。ここに記載する方法は、信号に対するアレイの特定的な方位を必要としないので、大きな利点が得られる。
【００１２】
更に、特定のノイズ方位に依存する従来のアレイとは異なり、ここに記載するシステムは、あらゆる種類およびあらゆる方位のノイズにも感応する。その結果、ここに提示する、周波数を基準とするアレイは、２つのマイクロフォン自体の相対的な方位のみに依存し、マイクロフォンに対するノイズおよび信号の方位に対する依存性がないので、独特である。その結果、ノイズの種類、マイクロフォン、ノイズ／信号源とマイクロフォンとの間の方位に関してロバストな信号処理システムが得られる。
【００１３】
ここに記載するシステムは、関連出願に記載されているパスファインダ・ノイズ抑制システムおよび／または非音響センサから得た情報を用いて、入力信号の発声状態を判定する。これについては、以下で詳しく説明する。発声状態は、無音(silent)、有声(voiced)、無声(unvoiced)状態を含む。例えば、ＮＡＶＳＡＤシステムは、非音響センサを用いて、発話(speech)に伴う人の組織の振動を検出する。一実施形態の非音響センサは、汎用電磁移動センサ（ＧＥＭＳ：General Electromagnetic Movement Sensor）であるが、これに限定される訳ではない。ＧＥＭＳについては、以下で端的に説明するが、関連出願において詳しく記載されている。しかしながら、代替の実施形態では、発話に伴う人の組織の運動を検出することができ、周囲の音響ノイズに影響されないセンサであれば、いずれでも用いることができる。
【００１４】
ＧＥＭＳは、無線周波数デバイス（２．４ＧＨｚ）であり、動く人の組織の誘電体界面を検出することができる。ＧＥＭＳは、ＲＦ干渉計を含み、ホモダイン・ミキシング(homodyne mixing)を用いて、目標とする運動に伴う小さな位相のずれを検出する。本質的に、このセンサは、センサの周囲にあるあらゆるものから反射する弱い電磁波（１ミリワット未満）を送出する。反射した波は、元の送信波と混合し、その結果を分析して、目標の位置のあらゆる変化を求める。センサ付近で移動するものがあれば、そのいずれもが反射波の位相変化を引き起こすので、これを増幅し、センサからの電圧出力の変化として表示する。同様のセンサが、Gregory C. Burnett (1999)の"The physiological basis of glottal electromagnetic micropower sensors (GEMS) and their use in defining an excitation function for the human vocal tract" （声門電磁微小電力センサ（ＧＥＭＳ）の生理的基礎および人の声道について励起機能を規定する際におけるその使用）(Ph. D. Thesis, University of California, at Davis)に記載されている。
【００１５】
図４は、一実施形態において有声および無声音声を検出する際に用いる検出アルゴリズム５０のフロー図である。図１および図２を参照すると、一実施形態のＮＡＶＳＡＤおよびＰＳＡＤシステムは、検出アルゴリズム５０を、検出サブシステム５０として含む。この検出アルゴリズム５０は、リアル・タイムで動作し、一実施形態では、２０ミリ秒のウィンドウで動作し、一度に１０ミリ秒刻みで進むが、このように限定される訳ではない。発声活動の判定は、最初の１０ミリ秒間記録され、２番目の１０ミリ秒は「ルック・アヘッド」（予見）バッファ(look-ahead buffer)として機能する。一実施形態は２０／１０ウィンドウを用いるが、別の実施形態では、多数のその他のウィンドウ値の組み合わせを用いることができる。
【００１６】
検出アルゴリズム５０を開発する際に、多数の多次元因子について考慮した。最大の考慮点は、パスファインダの脱ノイズ技法の有効性を維持することであった。これは、関連出願に詳しく記載され、この中でも再検討している。パスファインダの性能は、適応フィルタ訓練をノイズではなく音声に対して行う場合、悪化する可能性がある。したがって、このような外乱を最小に抑えるためには、ＶＡＤからかなりの量の音声があっても、全く除外しないことが重要である。
【００１７】
また、有声および無声音声信号間の特徴付けの精度、ならびにこれらの信号の各々のノイズ信号からの区別についても考慮した。この種の特徴付けは、音声認識や話者検証のような用途に用いることができる。
【００１８】
更に、一実施形態の検出アルゴリズムを用いるシステムは、背景音響ノイズの量が変動する環境において機能する。非音響センサが利用可能な場合、有声音声にとってこの外部ノイズは問題にはならない。しかしながら、無声音声（および非音響センサが利用可能でない、または誤動作する場合には、有声音声）の信頼性は、ノイズを無声音声から分離する際に、音響データのみに置かれる。パスファインダ・ノイズ抑制システムの一実施形態における２つのマイクロフォンの使用には、利点が内在し、マイクロフォン間の空間的関係を利用して、無声音声の検出に役立てる。しかしながら、場合によっては、ノイズ・レベルが非常に高く音声が殆ど検出不可能であるため、音響のみの方法ではしくじることもあり得る。これらの状況では、高い性能を確保するためには、非音響センサ（または、以後単にセンサ）が必要となる。
【００１９】
二マイクロフォン・システムでは、音声源は、一方の指定したマイクロフォンにおいて、他方のマイクロフォンに比較すると、比較的大きな音を出さなければならない。この要件は、従来のマイクロフォンを用い、このマイクロフォンを頭部に装着すれば、あらゆるノイズがＨ_１で利得がほぼ１になるので、容易に満たされることが、検査によって示されている。
【００２０】
ＮＡＶＳＡＤシステムに関して、図１および図３を参照すると、ＮＡＶＳＡＤシステムは、２つのパラメータに基づいて有声音声を検出する。これら２つのパラメータは、一実施形態では標準偏差（ＳＤ）によって判定する、対象ウィンドウにおけるセンサのエネルギと、オプションとしての、マイクロフォン１からの音響信号とセンサ・データとの間の相互相関（ＸＣＯＲＲ）を含む。センサのエネルギは、多数の方法のいずれでも判定することができ、ＳＤはエネルギを判定する便利な方法の１つに過ぎない。
【００２１】
センサにとって、ＳＤは信号のエネルギと同様であり、通常発声状態に非常に高精度に対応するが、移動ノイズ（センサのユーザに対する相対的な運動）および／または電磁ノイズの影響を受けやすい。センサ・ノイズを更に組織の運動と差別化するためには、ＸＣＯＲＲを用いることができる。ＸＣＯＲＲは、１５遅延までしか計算されず、これは丁度８０００Ｈｚにおいて２ミリ秒の遅れに対応する。
【００２２】
また、ＸＣＯＲＲは、センサ信号を何らかの方法で歪ませる、即ち、変調する場合にも用いることができる。例えば、センサの場所（顎または首の背後）には、音声の生成を検出できるが、正しくない即ち歪んだ時間基準情報を有する信号しか得られないところがある。即ち、これらは、音響波形と一致する、時間的に厳密に規定された特徴を有していない場合がある。しかしながら、ＸＣＯＲＲの方が音響ノイズからのエラーに影響され易く、高（＜０ｄＢＳＮＲ）環境では、殆ど役に立たない。したがって、これを唯一の発声情報源としてはならない。
【００２３】
センサは、声帯襞の閉鎖に伴う人の組織の運動を検出するので、襞の閉鎖によって生成される音響信号は、閉鎖と高い相関関係を有する。したがって、音響信号と高い相関関係を有するセンサ・データを音声であると言明し、さほどの相関がないセンサ・データをノイズと称する。音速（約３３０ｍ／ｓ）が比較的遅いことによる遅延時間の結果として、音響データはセンサ・データよりも約０．１から０．８ミリ秒（または約１から７サンプル）遅れることが予想される。しかしながら、一実施形態では、音響波形は生成される音に応じて大きく変動し、検出を確保するためにはより大きな相関幅を必要とするので、１５サンプルの相関を用いている。
【００２４】
ＳＤおよびＸＣＯＲＲ信号を関係付けるが、これらは十分異なるので、有声音声の検出精度が高くなる。しかし、簡略化のためには、いずれかのパラメータを用いればよい。ＳＤおよびＸＣＯＲＲの値を経験的閾値と比較し、双方がそれぞれの閾値よりも高い場合、有声音声であると言明する。データの例を以下に示し、説明する。
【００２５】
図５Ａ、図５Ｂおよび図６は、一実施形態において、被験者が２回「ｐｏｐｐａｎ」という句を発語する例について、データ・プロットを示す。図５Ａは、この発語について受信したＧＥＭＳ信号５０２を、ＧＥＭＳ信号５０２とＭｉｃ１信号との間の平均相関５０４、および有声音声検出に用いた閾値Ｔ１と共にプロットする。図５Ｂは、この発語について受信したＧＥＭＳ信号５０２を、ＧＥＭＳ信号の標準偏差５０６、および有声音声検出に用いた閾値Ｔ２と共にプロットする。図６は、音響即ちオーディオ信号６０８から検出した有声音声６０２を、ＧＥＭＳ信号６０４および音響ノイズ６０６と共にプロットする。この例では、大きな背景バブル・ノイズ(babble noise)６０６のために、無声音声は検出されない。閾値の設定は、事実上誤った負数が発生せず、時折誤った正数のみが生ずるように行った。あらゆる音響背景ノイズ条件の下でも、９９％よりも高い有声発話活動検出精度が得られた。
【００２６】
ＮＡＶＳＡＤは、非音響センサ・データであるために、有声音声が生じたときを高い精度で決定することができる。しかしながら、このセンサは、無声音声をノイズから分離するには、殆ど役に立たない。何故なら、無声音声は通常殆どの非音響センサには、検出可能な信号を発生させないからである。検出可能な信号がある場合、ＮＡＶＳＡＤを用いることができるが、無声音声は通常相関付けが弱いので、ＳＤ方法の使用に委ねられる。検出可能な信号がない場合、無声音声が生じたときを判定するには、パスファインダ・ノイズ除去アルゴリズムのシステムおよび方法を用いる。以下に、パスファインダ・アルゴリズムについて簡単に見直しておくが、詳細な説明は関連出願に掲載されている。
【００２７】
図３を参照すると、マイクロフォン１に入力する音響情報をm₁(n)で示し、同様に、マイクロフォン２に入力する情報をm₂(n)で示し、ＧＥＭＳセンサは、有声音声範囲を判定するために使用可能であると仮定する。ｚ（ディジタル周波数）ドメインでは、これらの信号は、M₁(z)およびM₂(z)として表される。したがって、
【００２８】
【数１】

【００２９】
そして、
【００３０】
【数２】

【００３１】
したがって、
【００３２】
【数３】

【００３３】
これは、二マイクロフォン・システムに対する一般的な場合である。常にある程度のノイズが漏れてＭｉｃ１に侵入し、ある程度のノイズが漏れてＭｉｃ２にも侵入する。式１には、４つの未知数があり、関係式は２つだけなので、明示的に解くことはできない。
【００３４】
しかしながら、式１の未知数の一部を解く別の方法がある。信号が発生されていない場合、即ち、発声が行われていないことをＧＥＭＳ信号が示す場合について試験する。この場合、s(n)=S(z)=0となるので、式１は、次のように変形する。
【００３５】
【数４】

【００３６】
ここで、変数Ｍの下付文字ｎは、ノイズのみが受信されていることを示す。これから、次の式が得られる。
【００３７】
【数５】

【００３８】
H₁(z)は、利用可能なシステム同定アルゴリズムのいずれか、およびノイズのみが受信されているときのマイクロフォン出力を用いれば、計算することができる。この計算は、適応的に行うことができるので、ノイズが大きく変化した場合、H₁(z)を素早く再計算することができる。
【００３９】
式１における未知数の１つに解が得られれば、別の未知数、H₂(z)についても、ＧＥＭＳまたは同様のデバイスの振幅を、２つのマイクロフォンの振幅と共に用いることによって、解を求めることができる。ＧＥＭＳが発声を示すが、マイクロフォンの最新（１秒未満）の履歴が低レベルのノイズを示す場合、n(s)=N(Z)〜0であると仮定する。すると、式１は次のように変形する。
【００４０】
【数６】

【００４１】
更に、次の式が得られる。
【００４２】
【数７】

【００４３】
これは、H₁(z)計算の逆であるが、異なる入力を用いていることを注記しておく。
前述のH₁(z)およびH₂(z)を計算した後、これらを用いて、信号からノイズを除去する。式１を次のように書き直す。
【００４４】
【数８】

【００４５】
そして、次のようにS(z)について解く
【００４６】
【数９】

【００４７】
実際には、H₂(z)は大抵の場合非常に小さいので、H₂(z)H₁(z)<<1となり、したがって、
【００４８】
【数１０】

【００４９】
となり、H₂(z)の計算が不要となる。
図２および図３を参照して、ＰＳＡＤシステムについて説明する。音波が伝搬する際、回折および分散のために、これらは伝達するに連れて通常エネルギを失って行く。音波が点源から発し、等方的に放射すると仮定すると、その振幅は１／ｒの関数として減少する。ｒは、発信点からの距離である。この振幅に比例する１／ｒの関数は、最悪の場合であり、小さい範囲に制限する程、減少も少なくなる。しかしながら、対象の構成にとっては、特に、ユーザの頭部のどこかに装着したマイクロフォンへのノイズおよび音声の伝搬には、適当なモデルである。
【００５０】
図７は、ＰＳＡＤシステムの一実施形態において用いるためのマイクロフォン・アレイである。マイクロフォンＭｉｃ１およびＭｉｃ２を直線状に配置して直線状アレイとし、口がこのアレイの中央線上に来るようにすると、Ｍｉｃ１およびＭｉｃ２における信号強度の差（これらのマイクロフォンの周波数応答は同一であると仮定する）は、ｄ_１およびΔｄ双方に比例する。１／ｒ（またはこの場合、１／ｄ）の関係を仮定すると、次の式が得られる。
【００５１】
【数１１】

【００５２】
ここで、ΔＭはＭｉｃ１およびＭｉｃ２間の利得の差であり、したがって、前述のように、式２におけるH₁(z)となる。変数ｄ_１は、Ｍｉｃ１から音声またはノイズ源までの距離である。
【００５３】
図８は、ある実施形態における、数個のΔｄの値についての、ΔＭ対ｄ_１の関係を示すプロット８００である。Δｄが大きくなり、ノイズ源が近づくに連れて、ΔＭが大きくなることは明らかである。変数Δｄは、音声／ノイズ源に対する方位に応じて、アレイの中央線上における最大値から、アレイの中央線に対して垂直な方位における０まで変化する。プロット８００から、Δｄが小さい場合、および距離が約３０センチメートル（ｃｍ）を超える場合では、ΔＭは１に近いことが明らかである。殆どのノイズ源は３０ｃｍよりも離れており、アレイの中央線上にある可能性は低いので、前述のように式２においてH₁(z)を計算すれば、ΔＭ（または等価的に、H₁(z)の利得）は１に近づく。逆に、至近にあるノイズ源（数センチメートル以内）については、どちらのマイクロフォンの方がノイズに近いかに応じて、利得には大きな差が生ずる可能性がある。
【００５４】
「ノイズ」がユーザの発話であり、Ｍｉｃ１の方がＭｉｃ２よりも口に近い場合、利得は増大する。環境ノイズは通常音声よりもユーザの頭部からはるかに遠くから発するので、H₁(z)の利得が１またはいずれかの固定値に近い期間にノイズが発見され、利得が鋭く上昇した後に、音声を検出することができる。音声は、周囲のノイズと比較して十分な音量がある限り、無声でも有声でも可能である。利得は、音声部分の間いくらか高止まりし、次いで音声が止まった後急激に低下する。このH₁(z)の利得の急激な上昇および低下は、殆どあらゆる状況の下でも、音声の検出が可能な程度に十分でなければならない。この例における利得は、フィルタ係数の絶対値の和によって計算する。この和は、利得と等価ではないが、絶対値の和の上昇が利得の上昇に反映する点で、これら２つは関係がある。
【００５５】
この挙動の一例として、図９は、H₁(z)のおよびマイクロフォン１からの音響データ９０４即ちオーディオの絶対値の和として、利得パラメータ９０２のプロット９００を示す。音声信号は、句「ｐｏｐｐａｎ」を２回繰り返した発語である。評価した帯域幅は、２５００Ｈｚから３５００Ｈｚまでの周波数範囲を含んでいたが、実際には１５００Ｈｚから２５００Ｈｚを付加的に使用した。尚、無声音声が最初に発見されたときの利得の急速な増大、次いで発声が終了したときの通常値への急速な戻りに注意されたい。ノイズと音声との間の遷移の結果生ずる利得の大きな変化は、標準的な信号処理技法のいずれでも検出することができる。最後の数回の利得計算の標準偏差を用い、標準偏差の移動平均および標準偏差ノイズ最低値(noise floor)によって閾値を規定した。有声音声の利得における後の変化は、明確化のために、このプロット９００では抑制してある。
【００５６】
図１０は、図９に示した音響データの別のプロット１０００を示す。プロット９００を形成するために用いたデータが、ノイズのないオーディオ・データ１００４およびＧＥＭＳデータ１００６と共に、このプロット１０００にも示され、無声音声を明白にしている。有声信号１００２は、３つの可能な値、ノイズに対する０、無声に対する１、そして有声に対する２を有する。脱ノイズは、Ｖ＝０のときにのみ行われる。無声音声は、各「ｐｏｐ」の終了付近での無声の検出において２回生ずる単独の欠落(dropout)を別にして、非常に簡単に取り込めることは明白である。しかしながら、これら単独のウィンドウ欠落(single window dropout)は頻出するのではないので、脱ノイズ・アルゴリズムに重大な影響を及ぼすことはない。これらは、標準的なスムージング技法を用いれば、容易に除去することができる。
【００５７】
プロット１０００から明白でないのは、ＰＳＡＤシステムがＮＡＶＳＡＤに対して自動バックアップとして機能することである。これは、有声音声は（無声と同じ空間関係をマイクロフォンに対して有するので）、センサまたはＮＡＶＳＡＤシステムが何らかの理由で故障した場合、無声として検出されるからである。有声音声は誤って無声と分類されるが、脱ノイズは未だ行われず、音声信号の品質は保存されている。
【００５８】
しかしながら、ＮＡＶＳＡＤシステムのこの自動バックアップは、低ノイズ（約１０＋ｄＢＳＮＲ）の環境において最も良く機能する。何故なら、高い量の音響ノイズ（１０ｄＢ以下のＳＮＲ）は、ＰＳＡＤを含むいずれの音響のみの無声検出器でも、急激に溢れさせる可能性があるからである。これは、図６および図１０のプロット６００および１００にそれぞれ示す有声信号データ６０２および１００２における差において明らかである。ここでは、同じ発語を行うが、無声音声は検出できないので、プロット６００のデータは無声音声を示さない。これは、脱ノイズを行うときには望ましい挙動である。何故なら、無声音声が検出できない場合、脱ノイズ・プロセスに重大な影響を及ぼすことはないからである。パスファインダ・システムを用いて無声音声を検出することによって、脱ノイズを歪めるのに十分に大きい無声音声があれば、そのいずれの検出も確実に行う。
【００５９】
ハードウエアの検討事項に関して、図７を参照すると、マイクロフォン群の構成は、音声が関与する利得変化、および音声を検出するために必要な閾値に影響を及ぼす可能性がある。一般に、各構成は、適正な閾値を決定するための検査を必要とするが、２つの非常に異なるマイクロフォン構成を用いた検査によって、同じ閾値およびその他のパラメータで正しく動作することが示された。第１マイクロフォン・セットは、信号マイクロフォンを口の近くに有し、ノイズ・マイクロフォンを耳から数センチメートル離れたところに有する。一方、第２構成では、ノイズ・マイクロフォンおよび信号マイクロフォンを、口から数センチメートル以内に背中合わせで配置した。ここに示す結果は、第１マイクロフォン構成を用いて得られたのであるが、他のセットを用いた結果も事実上同一であるので、検出アルゴリズムは、マイクロフォンの配置に関しては、比較的ロバスト性が高い。
【００６０】
ＮＡＶＳＡＤおよびＰＳＡＤシステムを用いて有声音声および無声音声を検出するには、多くの構成が可能である。１つの構成では、ＮＡＶＳＡＤシステム（非音響のみ）を用いて有声音声を検出し、ＰＳＡＤシステムを用いて無声音声を検出する。ＰＳＡＤは、ＮＡＶＳＡＤシステムのバックアップとしても機能して、有声音声を検出する。代替の構成では、ＮＡＶＳＡＤシステム（音響と相関付けられた非音響）を用いて有声音声を検出し、ＰＳＡＤシステムは無声音声を検出する。ＰＳＡＤは、ＮＡＶＳＡＤシステムのバックアップとしても機能し、有声音声を検出する。更に別の代替の構成では、ＰＳＡＤシステムを用いて有声音声および無声音声双方を検出する。
【００６１】
前述のシステムは、背景音響ノイズから有声及び無声音声を分離することを参照しながら説明したが、これよりも複雑な分類ができない理由はない。更に深い音声の特徴付けのためには、システムは、Ｍｉｃ１およびＭｉｃ２からの情報を帯域通過させることにより、Ｍｉｃ１データにおけるどの帯域にノイズの構成割合が多く、どの帯域が音声によってより多くの重み付けがなされているか見ることができる。この知識を用いると、従来の音響方法と同様に、発語のスペクトル特性によって、発語を類別することが可能となる。この方法はノイズの多い環境の方が良く動作する。
【００６２】
一例として、「ｋｉｃｋ」における「ｋ」は、５００Ｈｚから４０００Ｈｚにかなりの周波数成分を有するが、「ｓｈｅ」における「ｓｈ」は、１７００から４０００Ｈｚまでにのみかなりのエネルギを含む。有声音声も同様に分類することができる。例えば、／ｉ／（「ｅｅ」）は、約３００Ｈｚおよび２５００Ｈｚにかなりのエネルギを有し、／ａ／（「ａｈ」）は、約９００Ｈｚおよび１２００Ｈｚにエネルギを有する。この無声音声および有声音声を、ノイズが存在する中で判別する能力は、したがって、非常に有用である。
【００６３】
ここで示したフロー図に図示したステップの各々は、それ自体がここには記載する必要がない一連の動作を含む可能性もある。当業者は、これらのフロー図およびここに提示した詳細な説明に基づいて、ルーチン、アルゴリズム、ソース・コード、マイクロコード、プログラム・ロジック・アレイを作成したり、それ以外でも本発明を実現することができる。ここに記載したルーチンは、以下にあげることの１つ以上、または以下にあげることの組み合わせの１つ以上によって、提供することができる。即ち、共に用いる１つまたは複数のプロセッサの一部をなす不揮発性メモリ（図示せず）に格納すること、あるいは従来のプログラムロジックアレイまたは回路素子を用いて実現すること、あるいはディスクのような着脱可能な媒体に格納すること、あるいはサーバからダウンロードしてクライアント内部に格納すること、あるいはＥＥＰＲＯＭ半導体チップ、特定用途集積回路（ＡＳＩＣ）のようなチップ内にハードワイヤまたは予めプログラムすること、あるいはディジタル信号処理（ＤＳＰ）集積回路によって実現することによって、提供することができる。
【００６４】
この中で特に記載しない限り、この中で記載した情報は周知であり、関連出願において詳細に記載されている。実際、ここに提示した詳細な説明の多くは、関連出願に明示的に開示されている。本発明の形態の追加の題材(material)の殆どまたは全ては、当業者には、このような関連出願において提示された詳細な説明に内在するものとして、あるいは当業者には周知のものとして認識するであろう。当業者は、ここに提示した題材、および関連出願に提示されている詳細な説明に基づいて、本発明の形態を実現することができる。
【００６５】
文脈上特に必要であることが明らかではない限り、説明および特許請求の範囲全体を通じて、「備える」、「備えている」等の単語は、排他的または網羅的な意味ではなく、包括な意味で解釈するものとする。即ち、「含むが、限定される訳ではない」という意味である。単数または複数を用いる単語も、それぞれ、複数または単数も含むものとする。加えて、「この中では」、「以下では」という単語、および同様の意味の単語は、本願において用いられる場合、本願全体を指し、本願の特定の部分を指すのではない。
【００６６】
本発明の例示した実施形態についてのこれまでの説明は、網羅的であること、即ち、本発明を、開示した正確な形態に限定することを意図しているのではない。本発明の具体的な実施形態および例は、ここでは例示の目的で記載したが、本発明の範囲内で種々の同等の変更が可能である。これは当業者であれば認められよう。この中に提示した本発明の教示は、前述の音声信号処理だけでなく、信号処理システムにも適用することができる。更に、前述の多様な実施形態の要素や作用を組み合わせて、更に別の実施形態を提供することもできる。
【００６７】
先の引用や関連出願は全て、その引用によって、本願にも含まれることとする。本発明の形態は、必要であれば、前述の様々な引用のシステム、機能および概念を用い、本発明の更に別の実施形態を提供するように変更することもできる。
【００６８】
これらおよびその他の変更は、前述の説明を参照すれば、本発明に対して行うことができる。一般に、特許請求の範囲では、用いる用語は、明細書に開示されている具体的な実施形態および特許請求の範囲に本発明を限定するように解釈してはならず、特許請求の範囲の下で動作する音声信号システムを全て含み、調達のための方法を提供するように解釈しなければならない。したがって、本発明は、本開示に限定されるのではなく、代わりに本発明の範囲は、特許請求の範囲によって総合的に決定されるものとする。
【００６９】
本発明のある種の形態が、所要の請求項の形態で提示されているが、発明者は、あらゆる数の請求項の形態においても、本発明の様々な形態を考えている。したがって、発明者は、本願を出願した後でも、追加の請求項を追加し、このような追加の請求項の形態を本発明の別の形態のために追求する権利を保存するものとする。
【図面の簡単な説明】
【００７０】
【図１】図１は、一実施形態におけるＮＡＶＳＡＤシステムのブロック図である。
【図２】図２は、一実施形態におけるＰＳＡＤシステムのブロック図である。
【図３】図３は、一実施形態における、脱ノイズシステム、ここではパスファインダ・システムと呼ぶもののブロック図である。
【図４】図４は、一実施形態にしたがって、有声音声および無声音声を検出する際に用いる検出アルゴリズムのフロー図である。
【図５Ａ】図５Ａは、ＧＥＭＳ信号とＭｉｃ１信号との間の平均相関、および有声音声検出用閾値と共に、受信した発語のＧＥＭＳ信号をプロットしたグラフである。
【図５Ｂ】図５Ｂは、ＧＥＭＳ信号の標準偏差、および有声音声検出用閾値と共に、受信した発語のＧＥＭＳ信号をプロットしたグラフである。
【図６】図６は、ＧＥＭＳ信号および音響ノイズと共に、発語から検出した有声音声をプロットしたグラフである。
【図７】図７は、ＰＳＡＤシステムの一実施形態において用いるマイクロフォン・アレイの図である。
【図８】図８は、一実施形態における、数個のΔｄ値について、ΔＭのｄ_１に対する関係を示すプロットである。
【図９】図９は、Ｈ_１（ｚ）の絶対値とマイクロフォン１からの音響データ即ちオーディオとの和として、利得パラメータを示すグラフである。
【図１０】図１０は、図９に示した音響データの別のプロットである。

Claims

背景ノイズのレベルが変動する音響信号において、有声音声および無声音声を検出するシステムであって、
前記音響信号を受ける少なくとも２つのマイクロフォンと、
前記マイクロフォン間に結合された少なくとも１つのプロセッサと、
を備え、該少なくとも１つのプロセッサが、
前記２つのマイクロフォンの各々において受けた前記音響信号間の差分パラメータを発生し、前記差分パラメータが前記受けた音響信号の部分間の信号利得の相対的な差を表し、
前記差分パラメータが第１閾値を超過する場合、前記音響信号の情報を無声音声として特定し、
前記差分パラメータが第２閾値を超過する場合、前記音響信号の情報を有声音声として特定する、
システム。
背景ノイズのレベルが変動する音響信号において、有声音声および無声音声を検出する方法であって、
２つの受信機において前記音響信号を受信するステップと、
前記２つの受信機の各々において受信した前記音響信号間の差分パラメータを発生するステップであって、前記差分パラメータが前記受信した音響信号の部分間の信号利得の相対的な差を表す、ステップと、
前記差分パラメータが第１閾値を超過する場合、前記音響信号の情報を無声音声として特定するステップと、
前記差分パラメータが第２閾値を超過する場合、前記音響信号の情報を有声音声として特定するステップと、
から成る方法。
請求項２記載の方法において、更に、前記差分パラメータの発生に対応して、標準偏差を用いて前記第１および第２閾値を発生するステップを含む、方法。
請求項２記載の方法であって、更に、
前記差分パラメータが前記第１閾値未満である場合、前記音響信号の情報をノイズとして特定するステップと、
前記特定したノイズに対して脱ノイズを実行するステップと、
を含む、方法。
請求項２記載の方法であって、更に、人の発声活動に関与する生理的情報を受信するステップを含み、前記生理的情報が、無線周波数デバイス、電子グロットグラフ(electroglottograph)、超音波デバイス、音響喉マイクロフォン、および空気流検出器を含む群から選択した少なくとも１つの検出器を用いて、人の発声に伴う生理的データを受信することから成る、方法。
背景ノイズのレベルが変動する音響信号において、有声音声および無声音声を検出するシステムであって、
前記音響信号を受ける少なくとも２つのマイクロフォンと、
人の発声活動に伴う生理的情報を受信する少なくとも１つの発声センサと、
前記マイクロフォンおよび前記発声線間に結合された少なくとも１つのプロセッサと、
を備え、前記少なくとも１つのプロセッサが、
前記生理的情報と、前記２つのマイクロフォンの一方で受けた音響信号との間の相互相関データを発生し、
前記一方の受信機において受信した音響信号の一部に対応する相互相関データが相関閾値を超過する場合、前記音響信号の情報を有声音声として特定し、
前記２つの受信機の各々において受信した前記音響信号間の差分パラメータを発生し、該差分パラメータが、前記受信した音響信号の部分間における信号利得の相対的な差を表し、
前記差分パラメータが利得閾値を超過する場合、前記音響信号の情報を無声音声として特定し、
前記差分パラメータが前記利得閾値未満である場合、前記音響信号の情報をノイズとして特定する、
システム。
音響信号からノイズを除去する方法であって、
２つの受信機において前記音響信号を受信し、発声センサにおいて人の発声活動に伴う生理的情報を受信するステップと、
前記生理的情報と前記２つの受信機の一方で受信した音響信号との間の相互相関データを発生するステップと、
前記一方の受信機において受信した前記音響信号の一部に対応する前記相互相関データが相関閾値を超過する場合、前記音響信号の情報を有声音声として特定するステップと、
前記２つの受信機の各々において受信した前記音響信号間の差分パラメータを発生するステップであって、該差分パラメータが、前記受信した音響信号の部分間における信号利得の相対的な差を表す、ステップと、
前記差分パラメータが利得閾値を超過する場合、前記音響信号の情報を無声音声として特定するステップと、
前記差分パラメータが前記利得閾値未満である場合、前記音響信号の情報をノイズとして特定するステップと、
から成る方法。