JP2005503579A - 音響センサおよび非音響センサ双方を用いた有声音声および無声音声の検出 - Google Patents

音響センサおよび非音響センサ双方を用いた有声音声および無声音声の検出 Download PDF

Info

Publication number
JP2005503579A
JP2005503579A JP2003501229A JP2003501229A JP2005503579A JP 2005503579 A JP2005503579 A JP 2005503579A JP 2003501229 A JP2003501229 A JP 2003501229A JP 2003501229 A JP2003501229 A JP 2003501229A JP 2005503579 A JP2005503579 A JP 2005503579A
Authority
JP
Japan
Prior art keywords
acoustic signal
acoustic
speech
information
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003501229A
Other languages
English (en)
Inventor
バーネット,グレゴリー・シー
Original Assignee
アリフコム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/905,361 external-priority patent/US20020039425A1/en
Priority claimed from US09/990,847 external-priority patent/US20020099541A1/en
Application filed by アリフコム filed Critical アリフコム
Priority claimed from PCT/US2002/017251 external-priority patent/WO2002098169A1/en
Publication of JP2005503579A publication Critical patent/JP2005503579A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

背景ノイズのレベルが変動する音響信号において有声および無声音声を検出するシステムおよび方法を提供する。システム(図3)は、2つのマイクロフォン(Mic1、Mic2)において音響信号を受け、2つのマイクロフォン(Mic1、Mic2)の各々において受けた音響信号間の差分パラメータを発生する。差分パラメータは、受けた音響信号の部分間における信号利得の相対的な差を表す。差分パラメータが第1閾値を超過する場合、システムは、音響信号の情報を無声音声として特定し、差分パラメータが第2閾値を超過する場合、音響信号の情報を有声音声として特定する。更に、システムの実施形態は、非音響センサ(20)も含み、生理的情報を受け取り、有声音声の特定に役立てる。

Description

【技術分野】
【0001】
開示する実施形態は、音声信号の処理に関する。
【背景技術】
【0002】
有声および無声音声を正しく識別できることは、音声認識、話者検証、ノイズ抑制、およびその他数多くの音声用途には不可欠である。典型的な音響用途では、話者からの音声を取り込み、異なる場所にある受信機に送信する。話者の環境では、1つ以上のノイズ源が存在して、音声信号、または対象の信号を、不要な音響ノイズで汚染する可能性がある。このため、受信者または受信機いずれであっても、ユーザの音声を理解することが困難または不可能となる。
【発明の開示】
【発明が解決しようとする課題】
【0003】
有声音声および無声音声を分類する典型的な方法は、主に、マイクロフォン・データの音響成分に基づくが、ノイズの問題や、信号成分における対応する不確実性によって阻害される。今日では、特に、セルラ電話やパーソナル・ディジタル・アシスタントのような携帯通信デバイスの普及に伴って、これは問題化している。何故なら、多くの場合、デバイスによって得られるサービスの品質は、デバイスが提供するボイス・サービスの品質に左右されるからである。当技術分野では、音声信号内にあるノイズを抑制する方法が知られているが、これらの方法は、異常に長い計算時間、信号処理を実行するために必要ではあるが扱い難いハードウエア、および対象信号の歪みを含む、性能上の欠点を暴露している。
【課題を解決するための手段】
【0004】
背景ノイズから有声音声および無声音声を判別するシステムおよび方法を提供する。これらは、非音響センサ有声音発話活動検出(NAVSAD:Non-acoustic Sensor Voiced Speech Activity Detection)システムと、パスファインダ発話活動検出(PSAD:Pathfinder Speech Activity Detection)システムとを含む。ここに提供するノイズ除去および低減方法は、背景ノイズからの人間の無声音声および有声音声の分離および分類を可能にしつつ、歪みを与えることなく対象の音響信号を明瞭化することによって、当技術分野において公知の典型的なシステムの欠点に取り組もうとするものである。
【0005】
尚、この中で提示する表題は、便宜上用いているに過ぎず、特許請求する発明の範囲や意味に必ずしも影響を及ぼすものではない。また、図面においては、同一の参照番号により、同一または実質上同一の要素または行為を識別している。
【発明を実施するための最良の形態】
【0006】
図1は、一実施形態におけるNAVSADシステム100のブロック図である。NAVSADシステムは、マイクロフォン群10およびセンサ群20を少なくとも1つのプロセッサ30に結合する。一実施形態のセンサ群20は、発声活動検出器即ち非音響センサを含む。プロセッサ30は、検出サブシステム50と、脱ノイズ・サブシステム40とを含むサブシステム群を制御する。検出サブシステム50のことを、ここでは検出アルゴリズムと呼ぶ。脱ノイズ・サブシステム40の動作は、関連出願に詳細に記載されている。NAVSADシステムは、あらゆる背景音響ノイズ環境においても非常に良く動作する。
【0007】
図2は、一実施形態におけるPSADシステム200のブロック図である。PSADシステムは、マイクロフォン群10を少なくとも1つのプロセッサ30に結合する。プロセッサ30は、検出サブシステム50と、脱ノイズ・サブシステム40とを含む。検出サブシステム50のことを、ここでは検出アルゴリズムと呼ぶ。PSADシステムは、低音響ノイズ環境において非常に敏感であり、高音響ノイズ環境においては比較的鈍感である。PSADは、独立して動作することができ、あるいはNAVSADのバックアップとして動作し、NAVSADが故障した場合に有声音声を検出することができる。
【0008】
尚、一実施形態のNAVSADおよびPSADシステム双方の検出サブシステム50および脱ノイズ・サブシステム40は、プロセッサ30によって制御されるアルゴリズムであるが、そのように限定される訳ではない。NAVSADおよびPSADシステムの代替の実施形態では、追加のハードウエア、ファームウエア、ソフトウエア、および/またはハードウエア、ファームウエア、ソフトウエアの組み合わせから成る検出サブシステム50および/または脱ノイズ・サブシステム40を含むことができる。更に、検出サブシステム50および脱ノイズ・サブシステム40の機能は、NAVSADおよびPSADシステムの多数の構成部品間で分散させることも可能である。
【0009】
図3は、一実施形態における脱ノイズ・サブシステム300のブロック図であり、このサブシステムは、ここではパスファインダ・システムと呼ぶ。パスファインダ・システムについて以下に手短に説明するが、関連出願には詳細に記載されている。2つのマイクロフォンMic1およびMic2をパスファインダ・システムにおいて用い、Mic1を「信号」マイクロフォンと考える。図1を参照すると、パスファインダ・システム300は、発声活動検出器(VAD:voicing activity detector)320が非音響発声センサ20であり、ノイズ除去サブシステム340が検出サブシステム50および脱ノイズ・サブシステム40を含む場合、NAVSADシステム100と同等となる。図2を参照すると、パスファインダ・システム300は、PSADシステム200からVAD320を取り除き、ノイズ除去サブシステム340が検出サブシステム50および脱ノイズ・サブシステム40を含む場合と同等である。
【0010】
NAVSADおよびPSADシステムは、二レベル商用手法(two-level commercial approach)に対応し、(i)比較的安価なPSADシステムが、最低ノイズおよび中程度のノイズ環境において機能する音響手法に対応し、(ii)NAVSADシステムは、あらゆる環境においても有声音声の検出を可能にするために非音響センサを追加する。無声音声は、通常、センサを用いて検出しない。何故なら、これは通常人の組織を十分振動させないからである。しかしながら、高ノイズの状況では、無声音声の検出はさほど重要ではない。何故なら、これは通常エネルギが非常に低く、ノイズによって容易にかき消されてしまうからである。したがって、高ノイズ環境では、無声音声が有声音声の脱ノイズに影響を及ぼす可能性は低い。無声音声情報は、ノイズが殆どまたは全くない場合に最も重要であり、したがって無声検出は、低ノイズ環境においては非常に敏感となり、高ノイズ環境では鈍感となるようにしなければならない。これは容易には達成できず、当技術分野で公知の比肩し得る音響無声検出器では、これらの環境的制約の下では動作することはできない。
【0011】
NAVSADおよびPSADシステムは、音声検出のためにアレイ・アルゴリズムを含む。これは、2つのマイクロフォン間における周波数成分の差を用いて、2つのマイクロフォンの信号間の関係を計算する。これは、各マイクロフォンの時間/位相差を用いて、「感度の範囲」の外側でノイズを除去しようとする従来のアレイとは対照的である。ここに記載する方法は、信号に対するアレイの特定的な方位を必要としないので、大きな利点が得られる。
【0012】
更に、特定のノイズ方位に依存する従来のアレイとは異なり、ここに記載するシステムは、あらゆる種類およびあらゆる方位のノイズにも感応する。その結果、ここに提示する、周波数を基準とするアレイは、2つのマイクロフォン自体の相対的な方位のみに依存し、マイクロフォンに対するノイズおよび信号の方位に対する依存性がないので、独特である。その結果、ノイズの種類、マイクロフォン、ノイズ/信号源とマイクロフォンとの間の方位に関してロバストな信号処理システムが得られる。
【0013】
ここに記載するシステムは、関連出願に記載されているパスファインダ・ノイズ抑制システムおよび/または非音響センサから得た情報を用いて、入力信号の発声状態を判定する。これについては、以下で詳しく説明する。発声状態は、無音(silent)、有声(voiced)、無声(unvoiced)状態を含む。例えば、NAVSADシステムは、非音響センサを用いて、発話(speech)に伴う人の組織の振動を検出する。一実施形態の非音響センサは、汎用電磁移動センサ(GEMS:General Electromagnetic Movement Sensor)であるが、これに限定される訳ではない。GEMSについては、以下で端的に説明するが、関連出願において詳しく記載されている。しかしながら、代替の実施形態では、発話に伴う人の組織の運動を検出することができ、周囲の音響ノイズに影響されないセンサであれば、いずれでも用いることができる。
【0014】
GEMSは、無線周波数デバイス(2.4GHz)であり、動く人の組織の誘電体界面を検出することができる。GEMSは、RF干渉計を含み、ホモダイン・ミキシング(homodyne mixing)を用いて、目標とする運動に伴う小さな位相のずれを検出する。本質的に、このセンサは、センサの周囲にあるあらゆるものから反射する弱い電磁波(1ミリワット未満)を送出する。反射した波は、元の送信波と混合し、その結果を分析して、目標の位置のあらゆる変化を求める。センサ付近で移動するものがあれば、そのいずれもが反射波の位相変化を引き起こすので、これを増幅し、センサからの電圧出力の変化として表示する。同様のセンサが、Gregory C. Burnett (1999)の"The physiological basis of glottal electromagnetic micropower sensors (GEMS) and their use in defining an excitation function for the human vocal tract" (声門電磁微小電力センサ(GEMS)の生理的基礎および人の声道について励起機能を規定する際におけるその使用)(Ph. D. Thesis, University of California, at Davis)に記載されている。
【0015】
図4は、一実施形態において有声および無声音声を検出する際に用いる検出アルゴリズム50のフロー図である。図1および図2を参照すると、一実施形態のNAVSADおよびPSADシステムは、検出アルゴリズム50を、検出サブシステム50として含む。この検出アルゴリズム50は、リアル・タイムで動作し、一実施形態では、20ミリ秒のウィンドウで動作し、一度に10ミリ秒刻みで進むが、このように限定される訳ではない。発声活動の判定は、最初の10ミリ秒間記録され、2番目の10ミリ秒は「ルック・アヘッド」(予見)バッファ(look-ahead buffer)として機能する。一実施形態は20/10ウィンドウを用いるが、別の実施形態では、多数のその他のウィンドウ値の組み合わせを用いることができる。
【0016】
検出アルゴリズム50を開発する際に、多数の多次元因子について考慮した。最大の考慮点は、パスファインダの脱ノイズ技法の有効性を維持することであった。これは、関連出願に詳しく記載され、この中でも再検討している。パスファインダの性能は、適応フィルタ訓練をノイズではなく音声に対して行う場合、悪化する可能性がある。したがって、このような外乱を最小に抑えるためには、VADからかなりの量の音声があっても、全く除外しないことが重要である。
【0017】
また、有声および無声音声信号間の特徴付けの精度、ならびにこれらの信号の各々のノイズ信号からの区別についても考慮した。この種の特徴付けは、音声認識や話者検証のような用途に用いることができる。
【0018】
更に、一実施形態の検出アルゴリズムを用いるシステムは、背景音響ノイズの量が変動する環境において機能する。非音響センサが利用可能な場合、有声音声にとってこの外部ノイズは問題にはならない。しかしながら、無声音声(および非音響センサが利用可能でない、または誤動作する場合には、有声音声)の信頼性は、ノイズを無声音声から分離する際に、音響データのみに置かれる。パスファインダ・ノイズ抑制システムの一実施形態における2つのマイクロフォンの使用には、利点が内在し、マイクロフォン間の空間的関係を利用して、無声音声の検出に役立てる。しかしながら、場合によっては、ノイズ・レベルが非常に高く音声が殆ど検出不可能であるため、音響のみの方法ではしくじることもあり得る。これらの状況では、高い性能を確保するためには、非音響センサ(または、以後単にセンサ)が必要となる。
【0019】
二マイクロフォン・システムでは、音声源は、一方の指定したマイクロフォンにおいて、他方のマイクロフォンに比較すると、比較的大きな音を出さなければならない。この要件は、従来のマイクロフォンを用い、このマイクロフォンを頭部に装着すれば、あらゆるノイズがHで利得がほぼ1になるので、容易に満たされることが、検査によって示されている。
【0020】
NAVSADシステムに関して、図1および図3を参照すると、NAVSADシステムは、2つのパラメータに基づいて有声音声を検出する。これら2つのパラメータは、一実施形態では標準偏差(SD)によって判定する、対象ウィンドウにおけるセンサのエネルギと、オプションとしての、マイクロフォン1からの音響信号とセンサ・データとの間の相互相関(XCORR)を含む。センサのエネルギは、多数の方法のいずれでも判定することができ、SDはエネルギを判定する便利な方法の1つに過ぎない。
【0021】
センサにとって、SDは信号のエネルギと同様であり、通常発声状態に非常に高精度に対応するが、移動ノイズ(センサのユーザに対する相対的な運動)および/または電磁ノイズの影響を受けやすい。センサ・ノイズを更に組織の運動と差別化するためには、XCORRを用いることができる。XCORRは、15遅延までしか計算されず、これは丁度8000Hzにおいて2ミリ秒の遅れに対応する。
【0022】
また、XCORRは、センサ信号を何らかの方法で歪ませる、即ち、変調する場合にも用いることができる。例えば、センサの場所(顎または首の背後)には、音声の生成を検出できるが、正しくない即ち歪んだ時間基準情報を有する信号しか得られないところがある。即ち、これらは、音響波形と一致する、時間的に厳密に規定された特徴を有していない場合がある。しかしながら、XCORRの方が音響ノイズからのエラーに影響され易く、高(<0dB SNR)環境では、殆ど役に立たない。したがって、これを唯一の発声情報源としてはならない。
【0023】
センサは、声帯襞の閉鎖に伴う人の組織の運動を検出するので、襞の閉鎖によって生成される音響信号は、閉鎖と高い相関関係を有する。したがって、音響信号と高い相関関係を有するセンサ・データを音声であると言明し、さほどの相関がないセンサ・データをノイズと称する。音速(約330m/s)が比較的遅いことによる遅延時間の結果として、音響データはセンサ・データよりも約0.1から0.8ミリ秒(または約1から7サンプル)遅れることが予想される。しかしながら、一実施形態では、音響波形は生成される音に応じて大きく変動し、検出を確保するためにはより大きな相関幅を必要とするので、15サンプルの相関を用いている。
【0024】
SDおよびXCORR信号を関係付けるが、これらは十分異なるので、有声音声の検出精度が高くなる。しかし、簡略化のためには、いずれかのパラメータを用いればよい。SDおよびXCORRの値を経験的閾値と比較し、双方がそれぞれの閾値よりも高い場合、有声音声であると言明する。データの例を以下に示し、説明する。
【0025】
図5A、図5Bおよび図6は、一実施形態において、被験者が2回「pop pan」という句を発語する例について、データ・プロットを示す。図5Aは、この発語について受信したGEMS信号502を、GEMS信号502とMic1信号との間の平均相関504、および有声音声検出に用いた閾値T1と共にプロットする。図5Bは、この発語について受信したGEMS信号502を、GEMS信号の標準偏差506、および有声音声検出に用いた閾値T2と共にプロットする。図6は、音響即ちオーディオ信号608から検出した有声音声602を、GEMS信号604および音響ノイズ606と共にプロットする。この例では、大きな背景バブル・ノイズ(babble noise)606のために、無声音声は検出されない。閾値の設定は、事実上誤った負数が発生せず、時折誤った正数のみが生ずるように行った。あらゆる音響背景ノイズ条件の下でも、99%よりも高い有声発話活動検出精度が得られた。
【0026】
NAVSADは、非音響センサ・データであるために、有声音声が生じたときを高い精度で決定することができる。しかしながら、このセンサは、無声音声をノイズから分離するには、殆ど役に立たない。何故なら、無声音声は通常殆どの非音響センサには、検出可能な信号を発生させないからである。検出可能な信号がある場合、NAVSADを用いることができるが、無声音声は通常相関付けが弱いので、SD方法の使用に委ねられる。検出可能な信号がない場合、無声音声が生じたときを判定するには、パスファインダ・ノイズ除去アルゴリズムのシステムおよび方法を用いる。以下に、パスファインダ・アルゴリズムについて簡単に見直しておくが、詳細な説明は関連出願に掲載されている。
【0027】
図3を参照すると、マイクロフォン1に入力する音響情報をm1(n)で示し、同様に、マイクロフォン2に入力する情報をm2(n)で示し、GEMSセンサは、有声音声範囲を判定するために使用可能であると仮定する。z(ディジタル周波数)ドメインでは、これらの信号は、M1(z)およびM2(z)として表される。したがって、
【0028】
【数1】
Figure 2005503579
【0029】
そして、
【0030】
【数2】
Figure 2005503579
【0031】
したがって、
【0032】
【数3】
Figure 2005503579
【0033】
これは、二マイクロフォン・システムに対する一般的な場合である。常にある程度のノイズが漏れてMic1に侵入し、ある程度のノイズが漏れてMic2にも侵入する。式1には、4つの未知数があり、関係式は2つだけなので、明示的に解くことはできない。
【0034】
しかしながら、式1の未知数の一部を解く別の方法がある。信号が発生されていない場合、即ち、発声が行われていないことをGEMS信号が示す場合について試験する。この場合、s(n)=S(z)=0となるので、式1は、次のように変形する。
【0035】
【数4】
Figure 2005503579
【0036】
ここで、変数Mの下付文字nは、ノイズのみが受信されていることを示す。これから、次の式が得られる。
【0037】
【数5】
Figure 2005503579
【0038】
H1(z)は、利用可能なシステム同定アルゴリズムのいずれか、およびノイズのみが受信されているときのマイクロフォン出力を用いれば、計算することができる。この計算は、適応的に行うことができるので、ノイズが大きく変化した場合、H1(z)を素早く再計算することができる。
【0039】
式1における未知数の1つに解が得られれば、別の未知数、H2(z)についても、GEMSまたは同様のデバイスの振幅を、2つのマイクロフォンの振幅と共に用いることによって、解を求めることができる。GEMSが発声を示すが、マイクロフォンの最新(1秒未満)の履歴が低レベルのノイズを示す場合、n(s)=N(Z)〜0であると仮定する。すると、式1は次のように変形する。
【0040】
【数6】
Figure 2005503579
【0041】
更に、次の式が得られる。
【0042】
【数7】
Figure 2005503579
【0043】
これは、H1(z)計算の逆であるが、異なる入力を用いていることを注記しておく。
前述のH1(z)およびH2(z)を計算した後、これらを用いて、信号からノイズを除去する。式1を次のように書き直す。
【0044】
【数8】
Figure 2005503579
【0045】
そして、次のようにS(z)について解く
【0046】
【数9】
Figure 2005503579
【0047】
実際には、H2(z)は大抵の場合非常に小さいので、H2(z)H1(z)<<1となり、したがって、
【0048】
【数10】
Figure 2005503579
【0049】
となり、H2(z)の計算が不要となる。
図2および図3を参照して、PSADシステムについて説明する。音波が伝搬する際、回折および分散のために、これらは伝達するに連れて通常エネルギを失って行く。音波が点源から発し、等方的に放射すると仮定すると、その振幅は1/rの関数として減少する。rは、発信点からの距離である。この振幅に比例する1/rの関数は、最悪の場合であり、小さい範囲に制限する程、減少も少なくなる。しかしながら、対象の構成にとっては、特に、ユーザの頭部のどこかに装着したマイクロフォンへのノイズおよび音声の伝搬には、適当なモデルである。
【0050】
図7は、PSADシステムの一実施形態において用いるためのマイクロフォン・アレイである。マイクロフォンMic1およびMic2を直線状に配置して直線状アレイとし、口がこのアレイの中央線上に来るようにすると、Mic1およびMic2における信号強度の差(これらのマイクロフォンの周波数応答は同一であると仮定する)は、dおよびΔd双方に比例する。1/r(またはこの場合、1/d)の関係を仮定すると、次の式が得られる。
【0051】
【数11】
Figure 2005503579
【0052】
ここで、ΔMはMic1およびMic2間の利得の差であり、したがって、前述のように、式2におけるH1(z)となる。変数dは、Mic1から音声またはノイズ源までの距離である。
【0053】
図8は、ある実施形態における、数個のΔdの値についての、ΔM対dの関係を示すプロット800である。Δdが大きくなり、ノイズ源が近づくに連れて、ΔMが大きくなることは明らかである。変数Δdは、音声/ノイズ源に対する方位に応じて、アレイの中央線上における最大値から、アレイの中央線に対して垂直な方位における0まで変化する。プロット800から、Δdが小さい場合、および距離が約30センチメートル(cm)を超える場合では、ΔMは1に近いことが明らかである。殆どのノイズ源は30cmよりも離れており、アレイの中央線上にある可能性は低いので、前述のように式2においてH1(z)を計算すれば、ΔM(または等価的に、H1(z)の利得)は1に近づく。逆に、至近にあるノイズ源(数センチメートル以内)については、どちらのマイクロフォンの方がノイズに近いかに応じて、利得には大きな差が生ずる可能性がある。
【0054】
「ノイズ」がユーザの発話であり、Mic1の方がMic2よりも口に近い場合、利得は増大する。環境ノイズは通常音声よりもユーザの頭部からはるかに遠くから発するので、H1(z)の利得が1またはいずれかの固定値に近い期間にノイズが発見され、利得が鋭く上昇した後に、音声を検出することができる。音声は、周囲のノイズと比較して十分な音量がある限り、無声でも有声でも可能である。利得は、音声部分の間いくらか高止まりし、次いで音声が止まった後急激に低下する。このH1(z)の利得の急激な上昇および低下は、殆どあらゆる状況の下でも、音声の検出が可能な程度に十分でなければならない。この例における利得は、フィルタ係数の絶対値の和によって計算する。この和は、利得と等価ではないが、絶対値の和の上昇が利得の上昇に反映する点で、これら2つは関係がある。
【0055】
この挙動の一例として、図9は、H1(z)のおよびマイクロフォン1からの音響データ904即ちオーディオの絶対値の和として、利得パラメータ902のプロット900を示す。音声信号は、句「pop pan」を2回繰り返した発語である。評価した帯域幅は、2500Hzから3500Hzまでの周波数範囲を含んでいたが、実際には1500Hzから2500Hzを付加的に使用した。尚、無声音声が最初に発見されたときの利得の急速な増大、次いで発声が終了したときの通常値への急速な戻りに注意されたい。ノイズと音声との間の遷移の結果生ずる利得の大きな変化は、標準的な信号処理技法のいずれでも検出することができる。最後の数回の利得計算の標準偏差を用い、標準偏差の移動平均および標準偏差ノイズ最低値(noise floor)によって閾値を規定した。有声音声の利得における後の変化は、明確化のために、このプロット900では抑制してある。
【0056】
図10は、図9に示した音響データの別のプロット1000を示す。プロット900を形成するために用いたデータが、ノイズのないオーディオ・データ1004およびGEMSデータ1006と共に、このプロット1000にも示され、無声音声を明白にしている。有声信号1002は、3つの可能な値、ノイズに対する0、無声に対する1、そして有声に対する2を有する。脱ノイズは、V=0のときにのみ行われる。無声音声は、各「pop」の終了付近での無声の検出において2回生ずる単独の欠落(dropout)を別にして、非常に簡単に取り込めることは明白である。しかしながら、これら単独のウィンドウ欠落(single window dropout)は頻出するのではないので、脱ノイズ・アルゴリズムに重大な影響を及ぼすことはない。これらは、標準的なスムージング技法を用いれば、容易に除去することができる。
【0057】
プロット1000から明白でないのは、PSADシステムがNAVSADに対して自動バックアップとして機能することである。これは、有声音声は(無声と同じ空間関係をマイクロフォンに対して有するので)、センサまたはNAVSADシステムが何らかの理由で故障した場合、無声として検出されるからである。有声音声は誤って無声と分類されるが、脱ノイズは未だ行われず、音声信号の品質は保存されている。
【0058】
しかしながら、NAVSADシステムのこの自動バックアップは、低ノイズ(約10+dB SNR)の環境において最も良く機能する。何故なら、高い量の音響ノイズ(10dB以下のSNR)は、PSADを含むいずれの音響のみの無声検出器でも、急激に溢れさせる可能性があるからである。これは、図6および図10のプロット600および100にそれぞれ示す有声信号データ602および1002における差において明らかである。ここでは、同じ発語を行うが、無声音声は検出できないので、プロット600のデータは無声音声を示さない。これは、脱ノイズを行うときには望ましい挙動である。何故なら、無声音声が検出できない場合、脱ノイズ・プロセスに重大な影響を及ぼすことはないからである。パスファインダ・システムを用いて無声音声を検出することによって、脱ノイズを歪めるのに十分に大きい無声音声があれば、そのいずれの検出も確実に行う。
【0059】
ハードウエアの検討事項に関して、図7を参照すると、マイクロフォン群の構成は、音声が関与する利得変化、および音声を検出するために必要な閾値に影響を及ぼす可能性がある。一般に、各構成は、適正な閾値を決定するための検査を必要とするが、2つの非常に異なるマイクロフォン構成を用いた検査によって、同じ閾値およびその他のパラメータで正しく動作することが示された。第1マイクロフォン・セットは、信号マイクロフォンを口の近くに有し、ノイズ・マイクロフォンを耳から数センチメートル離れたところに有する。一方、第2構成では、ノイズ・マイクロフォンおよび信号マイクロフォンを、口から数センチメートル以内に背中合わせで配置した。ここに示す結果は、第1マイクロフォン構成を用いて得られたのであるが、他のセットを用いた結果も事実上同一であるので、検出アルゴリズムは、マイクロフォンの配置に関しては、比較的ロバスト性が高い。
【0060】
NAVSADおよびPSADシステムを用いて有声音声および無声音声を検出するには、多くの構成が可能である。1つの構成では、NAVSADシステム(非音響のみ)を用いて有声音声を検出し、PSADシステムを用いて無声音声を検出する。PSADは、NAVSADシステムのバックアップとしても機能して、有声音声を検出する。代替の構成では、NAVSADシステム(音響と相関付けられた非音響)を用いて有声音声を検出し、PSADシステムは無声音声を検出する。PSADは、NAVSADシステムのバックアップとしても機能し、有声音声を検出する。更に別の代替の構成では、PSADシステムを用いて有声音声および無声音声双方を検出する。
【0061】
前述のシステムは、背景音響ノイズから有声及び無声音声を分離することを参照しながら説明したが、これよりも複雑な分類ができない理由はない。更に深い音声の特徴付けのためには、システムは、Mic1およびMic2からの情報を帯域通過させることにより、Mic1データにおけるどの帯域にノイズの構成割合が多く、どの帯域が音声によってより多くの重み付けがなされているか見ることができる。この知識を用いると、従来の音響方法と同様に、発語のスペクトル特性によって、発語を類別することが可能となる。この方法はノイズの多い環境の方が良く動作する。
【0062】
一例として、「kick」における「k」は、500Hzから4000Hzにかなりの周波数成分を有するが、「she」における「sh」は、1700から4000Hzまでにのみかなりのエネルギを含む。有声音声も同様に分類することができる。例えば、/i/(「ee」)は、約300Hzおよび2500Hzにかなりのエネルギを有し、/a/(「ah」)は、約900Hzおよび1200Hzにエネルギを有する。この無声音声および有声音声を、ノイズが存在する中で判別する能力は、したがって、非常に有用である。
【0063】
ここで示したフロー図に図示したステップの各々は、それ自体がここには記載する必要がない一連の動作を含む可能性もある。当業者は、これらのフロー図およびここに提示した詳細な説明に基づいて、ルーチン、アルゴリズム、ソース・コード、マイクロコード、プログラム・ロジック・アレイを作成したり、それ以外でも本発明を実現することができる。ここに記載したルーチンは、以下にあげることの1つ以上、または以下にあげることの組み合わせの1つ以上によって、提供することができる。即ち、共に用いる1つまたは複数のプロセッサの一部をなす不揮発性メモリ(図示せず)に格納すること、あるいは従来のプログラムロジックアレイまたは回路素子を用いて実現すること、あるいはディスクのような着脱可能な媒体に格納すること、あるいはサーバからダウンロードしてクライアント内部に格納すること、あるいはEEPROM半導体チップ、特定用途集積回路(ASIC)のようなチップ内にハードワイヤまたは予めプログラムすること、あるいはディジタル信号処理(DSP)集積回路によって実現することによって、提供することができる。
【0064】
この中で特に記載しない限り、この中で記載した情報は周知であり、関連出願において詳細に記載されている。実際、ここに提示した詳細な説明の多くは、関連出願に明示的に開示されている。本発明の形態の追加の題材(material)の殆どまたは全ては、当業者には、このような関連出願において提示された詳細な説明に内在するものとして、あるいは当業者には周知のものとして認識するであろう。当業者は、ここに提示した題材、および関連出願に提示されている詳細な説明に基づいて、本発明の形態を実現することができる。
【0065】
文脈上特に必要であることが明らかではない限り、説明および特許請求の範囲全体を通じて、「備える」、「備えている」等の単語は、排他的または網羅的な意味ではなく、包括な意味で解釈するものとする。即ち、「含むが、限定される訳ではない」という意味である。単数または複数を用いる単語も、それぞれ、複数または単数も含むものとする。加えて、「この中では」、「以下では」という単語、および同様の意味の単語は、本願において用いられる場合、本願全体を指し、本願の特定の部分を指すのではない。
【0066】
本発明の例示した実施形態についてのこれまでの説明は、網羅的であること、即ち、本発明を、開示した正確な形態に限定することを意図しているのではない。本発明の具体的な実施形態および例は、ここでは例示の目的で記載したが、本発明の範囲内で種々の同等の変更が可能である。これは当業者であれば認められよう。この中に提示した本発明の教示は、前述の音声信号処理だけでなく、信号処理システムにも適用することができる。更に、前述の多様な実施形態の要素や作用を組み合わせて、更に別の実施形態を提供することもできる。
【0067】
先の引用や関連出願は全て、その引用によって、本願にも含まれることとする。本発明の形態は、必要であれば、前述の様々な引用のシステム、機能および概念を用い、本発明の更に別の実施形態を提供するように変更することもできる。
【0068】
これらおよびその他の変更は、前述の説明を参照すれば、本発明に対して行うことができる。一般に、特許請求の範囲では、用いる用語は、明細書に開示されている具体的な実施形態および特許請求の範囲に本発明を限定するように解釈してはならず、特許請求の範囲の下で動作する音声信号システムを全て含み、調達のための方法を提供するように解釈しなければならない。したがって、本発明は、本開示に限定されるのではなく、代わりに本発明の範囲は、特許請求の範囲によって総合的に決定されるものとする。
【0069】
本発明のある種の形態が、所要の請求項の形態で提示されているが、発明者は、あらゆる数の請求項の形態においても、本発明の様々な形態を考えている。したがって、発明者は、本願を出願した後でも、追加の請求項を追加し、このような追加の請求項の形態を本発明の別の形態のために追求する権利を保存するものとする。
【図面の簡単な説明】
【0070】
【図1】図1は、一実施形態におけるNAVSADシステムのブロック図である。
【図2】図2は、一実施形態におけるPSADシステムのブロック図である。
【図3】図3は、一実施形態における、脱ノイズシステム、ここではパスファインダ・システムと呼ぶもののブロック図である。
【図4】図4は、一実施形態にしたがって、有声音声および無声音声を検出する際に用いる検出アルゴリズムのフロー図である。
【図5A】図5Aは、GEMS信号とMic1信号との間の平均相関、および有声音声検出用閾値と共に、受信した発語のGEMS信号をプロットしたグラフである。
【図5B】図5Bは、GEMS信号の標準偏差、および有声音声検出用閾値と共に、受信した発語のGEMS信号をプロットしたグラフである。
【図6】図6は、GEMS信号および音響ノイズと共に、発語から検出した有声音声をプロットしたグラフである。
【図7】図7は、PSADシステムの一実施形態において用いるマイクロフォン・アレイの図である。
【図8】図8は、一実施形態における、数個のΔd値について、ΔMのdに対する関係を示すプロットである。
【図9】図9は、H(z)の絶対値とマイクロフォン1からの音響データ即ちオーディオとの和として、利得パラメータを示すグラフである。
【図10】図10は、図9に示した音響データの別のプロットである。

Claims (7)

  1. 背景ノイズのレベルが変動する音響信号において、有声音声および無声音声を検出するシステムであって、
    前記音響信号を受ける少なくとも2つのマイクロフォンと、
    前記マイクロフォン間に結合された少なくとも1つのプロセッサと、
    を備え、該少なくとも1つのプロセッサが、
    前記2つのマイクロフォンの各々において受けた前記音響信号間の差分パラメータを発生し、前記差分パラメータが前記受けた音響信号の部分間の信号利得の相対的な差を表し、
    前記差分パラメータが第1閾値を超過する場合、前記音響信号の情報を無声音声として特定し、
    前記差分パラメータが第2閾値を超過する場合、前記音響信号の情報を有声音声として特定する、
    システム。
  2. 背景ノイズのレベルが変動する音響信号において、有声音声および無声音声を検出する方法であって、
    2つの受信機において前記音響信号を受信するステップと、
    前記2つの受信機の各々において受信した前記音響信号間の差分パラメータを発生するステップであって、前記差分パラメータが前記受信した音響信号の部分間の信号利得の相対的な差を表す、ステップと、
    前記差分パラメータが第1閾値を超過する場合、前記音響信号の情報を無声音声として特定するステップと、
    前記差分パラメータが第2閾値を超過する場合、前記音響信号の情報を有声音声として特定するステップと、
    から成る方法。
  3. 請求項2記載の方法において、更に、前記差分パラメータの発生に対応して、標準偏差を用いて前記第1および第2閾値を発生するステップを含む、方法。
  4. 請求項2記載の方法であって、更に、
    前記差分パラメータが前記第1閾値未満である場合、前記音響信号の情報をノイズとして特定するステップと、
    前記特定したノイズに対して脱ノイズを実行するステップと、
    を含む、方法。
  5. 請求項2記載の方法であって、更に、人の発声活動に関与する生理的情報を受信するステップを含み、前記生理的情報が、無線周波数デバイス、電子グロットグラフ(electroglottograph)、超音波デバイス、音響喉マイクロフォン、および空気流検出器を含む群から選択した少なくとも1つの検出器を用いて、人の発声に伴う生理的データを受信することから成る、方法。
  6. 背景ノイズのレベルが変動する音響信号において、有声音声および無声音声を検出するシステムであって、
    前記音響信号を受ける少なくとも2つのマイクロフォンと、
    人の発声活動に伴う生理的情報を受信する少なくとも1つの発声センサと、
    前記マイクロフォンおよび前記発声線間に結合された少なくとも1つのプロセッサと、
    を備え、前記少なくとも1つのプロセッサが、
    前記生理的情報と、前記2つのマイクロフォンの一方で受けた音響信号との間の相互相関データを発生し、
    前記一方の受信機において受信した音響信号の一部に対応する相互相関データが相関閾値を超過する場合、前記音響信号の情報を有声音声として特定し、
    前記2つの受信機の各々において受信した前記音響信号間の差分パラメータを発生し、該差分パラメータが、前記受信した音響信号の部分間における信号利得の相対的な差を表し、
    前記差分パラメータが利得閾値を超過する場合、前記音響信号の情報を無声音声として特定し、
    前記差分パラメータが前記利得閾値未満である場合、前記音響信号の情報をノイズとして特定する、
    システム。
  7. 音響信号からノイズを除去する方法であって、
    2つの受信機において前記音響信号を受信し、発声センサにおいて人の発声活動に伴う生理的情報を受信するステップと、
    前記生理的情報と前記2つの受信機の一方で受信した音響信号との間の相互相関データを発生するステップと、
    前記一方の受信機において受信した前記音響信号の一部に対応する前記相互相関データが相関閾値を超過する場合、前記音響信号の情報を有声音声として特定するステップと、
    前記2つの受信機の各々において受信した前記音響信号間の差分パラメータを発生するステップであって、該差分パラメータが、前記受信した音響信号の部分間における信号利得の相対的な差を表す、ステップと、
    前記差分パラメータが利得閾値を超過する場合、前記音響信号の情報を無声音声として特定するステップと、
    前記差分パラメータが前記利得閾値未満である場合、前記音響信号の情報をノイズとして特定するステップと、
    から成る方法。
JP2003501229A 2001-05-30 2002-05-30 音響センサおよび非音響センサ双方を用いた有声音声および無声音声の検出 Pending JP2005503579A (ja)

Applications Claiming Priority (14)

Application Number Priority Date Filing Date Title
US29438301P 2001-05-30 2001-05-30
US09/905,361 US20020039425A1 (en) 2000-07-19 2001-07-12 Method and apparatus for removing noise from electronic signals
US33510001P 2001-10-30 2001-10-30
US33220201P 2001-11-21 2001-11-21
US09/990,847 US20020099541A1 (en) 2000-11-21 2001-11-21 Method and apparatus for voiced speech excitation function determination and non-acoustic assisted feature extraction
US36210302P 2002-03-05 2002-03-05
US36216202P 2002-03-05 2002-03-05
US36216102P 2002-03-05 2002-03-05
US36217002P 2002-03-05 2002-03-05
US36198102P 2002-03-05 2002-03-05
US36820902P 2002-03-27 2002-03-27
US36820802P 2002-03-27 2002-03-27
US36834302P 2002-03-27 2002-03-27
PCT/US2002/017251 WO2002098169A1 (en) 2001-05-30 2002-05-30 Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors

Publications (1)

Publication Number Publication Date
JP2005503579A true JP2005503579A (ja) 2005-02-03

Family

ID=31499757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003501229A Pending JP2005503579A (ja) 2001-05-30 2002-05-30 音響センサおよび非音響センサ双方を用いた有声音声および無声音声の検出

Country Status (5)

Country Link
EP (1) EP1415505A1 (ja)
JP (1) JP2005503579A (ja)
KR (1) KR100992656B1 (ja)
CN (1) CN1513278A (ja)
CA (1) CA2448669A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8275609B2 (en) 2007-06-07 2012-09-25 Huawei Technologies Co., Ltd. Voice activity detection
KR101396873B1 (ko) 2013-04-03 2014-05-19 주식회사 크린컴 두 개의 마이크로폰을 포함하는 통신장치에서의 잡음제거방법 및 장치
KR101451844B1 (ko) * 2013-03-27 2014-10-16 주식회사 시그테크 음성활동감지방법 및 그 방법을 채택한 통신장치

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101527756B (zh) * 2008-03-04 2012-03-07 联想(北京)有限公司 一种电话会议的方法及系统
ES2582232T3 (es) * 2008-06-30 2016-09-09 Dolby Laboratories Licensing Corporation Detector de actividad de voz de múltiples micrófonos
CN107371079B (zh) * 2017-04-17 2019-10-11 恒玄科技(上海)有限公司 一种耳机的双麦克降噪系统及降噪方法
WO2019030898A1 (ja) * 2017-08-10 2019-02-14 三菱電機株式会社 雑音除去装置および雑音除去方法
CN110931027B (zh) * 2018-09-18 2024-09-27 北京三星通信技术研究有限公司 音频处理方法、装置、电子设备及计算机可读存储介质
CN109192209A (zh) * 2018-10-23 2019-01-11 珠海格力电器股份有限公司 一种语音识别方法及装置
CN113724694B (zh) * 2021-11-01 2022-03-08 深圳市北科瑞声科技股份有限公司 语音转换模型训练方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8275609B2 (en) 2007-06-07 2012-09-25 Huawei Technologies Co., Ltd. Voice activity detection
KR101451844B1 (ko) * 2013-03-27 2014-10-16 주식회사 시그테크 음성활동감지방법 및 그 방법을 채택한 통신장치
KR101396873B1 (ko) 2013-04-03 2014-05-19 주식회사 크린컴 두 개의 마이크로폰을 포함하는 통신장치에서의 잡음제거방법 및 장치

Also Published As

Publication number Publication date
EP1415505A1 (en) 2004-05-06
CN1513278A (zh) 2004-07-14
CA2448669A1 (en) 2002-12-05
KR20040030638A (ko) 2004-04-09
KR100992656B1 (ko) 2010-11-05

Similar Documents

Publication Publication Date Title
US7246058B2 (en) Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US20070233479A1 (en) Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US8321213B2 (en) Acoustic voice activity detection (AVAD) for electronic systems
US8326611B2 (en) Acoustic voice activity detection (AVAD) for electronic systems
US8503686B2 (en) Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US10230346B2 (en) Acoustic voice activity detection
US8898058B2 (en) Systems, methods, and apparatus for voice activity detection
US8942383B2 (en) Wind suppression/replacement component for use with electronic systems
US7372770B2 (en) Ultrasonic Doppler sensor for speech-based user interface
US8488803B2 (en) Wind suppression/replacement component for use with electronic systems
US20140126743A1 (en) Acoustic voice activity detection (avad) for electronic systems
US11627413B2 (en) Acoustic voice activity detection (AVAD) for electronic systems
AU2016202314A1 (en) Acoustic Voice Activity Detection (AVAD) for electronic systems
WO2002098169A1 (en) Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
JP2005503579A (ja) 音響センサおよび非音響センサ双方を用いた有声音声および無声音声の検出
US12063487B2 (en) Acoustic voice activity detection (AVAD) for electronic systems
Lathoud et al. A Frequency-Domain Silence Noise Model