JP2013525848A - ボイスアクティビティ検出 - Google Patents

ボイスアクティビティ検出 Download PDF

Info

Publication number
JP2013525848A
JP2013525848A JP2013506344A JP2013506344A JP2013525848A JP 2013525848 A JP2013525848 A JP 2013525848A JP 2013506344 A JP2013506344 A JP 2013506344A JP 2013506344 A JP2013506344 A JP 2013506344A JP 2013525848 A JP2013525848 A JP 2013525848A
Authority
JP
Japan
Prior art keywords
segment
segments
channel
voice activity
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013506344A
Other languages
English (en)
Other versions
JP5575977B2 (ja
Inventor
ビッサー、エリック
リウ、イアン・エルナン
シン、ジョンウォン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2013525848A publication Critical patent/JP2013525848A/ja
Application granted granted Critical
Publication of JP5575977B2 publication Critical patent/JP5575977B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

オーディオ信号の周波数レンジにわたって時間的に一貫しているエネルギーの変化に基づく、その信号のボイスアクティビティ状態の遷移の検出のための実装形態および適用例を開示する。

Description

[米国特許法第119条に基づく優先権の主張]
本特許出願は、2010年4月22日に出願され、本出願の譲受人に譲渡された「SYSTEMS, METHODS, AND APPARATUS FOR SPEECH FEATURE DETECTION」と題する仮出願第61/327,009号、代理人整理番号第100839P1号の優先権を主張する。
[分野]
本開示は、音声信号の処理に関する。
[背景]
以前は静かなオフィスまたは家庭環境で行われていた多くの活動が、今日では車、街路、またはカフェのような音響的に変動する状況で行われている。たとえば、ある人は、ボイス通信チャネルを使用して別の人と通信することを望むことがある。そのチャネルは、たとえば、モバイルワイヤレスハンドセットまたはヘッドセット、ウォーキートーキー、双方向無線、カーキット、または別の通信デバイスによって提供され得る。したがって、ユーザが他の人々に囲まれる環境で、人が集まる傾向のある場所で一般的に遭遇する種類の雑音成分を伴って、モバイルデバイス(たとえば、スマートフォン、ハンドセット、および/またはヘッドセット)を使用して、かなりの量のボイス通信が行われている。そのような雑音は、電話会話の遠端にいるユーザの気を散らしたり、いらいらさせたりする傾向がある。その上、多くの標準的な自動業務取引(たとえば、口座残高または株価の確認)はボイス認識ベースのデータ照会を採用しており、これらのシステムの精度は干渉雑音によって著しく妨げられることがある。
雑音の多い環境で通信が行われる適用例では、所望の音声信号を背景雑音から分離することが望ましいことがある。雑音は、所望の信号と干渉するかあるいは所望の信号を劣化させるすべての信号の組合せと定義され得る。背景雑音は、他の人々の背景会話など、音響環境内で発生される多数の雑音信号、ならびに所望の信号および/または他の信号のいずれかから発生される反射および残響を含み得る。所望の音声信号が背景雑音から分離されない限り、所望の音声信号を確実に効率的に利用することが困難であることがある。1つの特定の例では、雑音の多い環境で音声信号が発生され、その音声信号を環境雑音から分離するために音声処理方法が使用される。
モバイル環境中で遭遇する雑音は、競合する話し手、音楽、バブル、街頭雑音、および/または空港雑音など、多種多様な成分を含み得る。そのような雑音のシグナチャは一般に非定常であり、ユーザ自身の周波数シグナチャに近いので、従来の単一マイクロフォンまたは固定ビームフォーミングタイプ方法を使用して雑音をモデル化することが難しいことがある。単一マイクロフォン雑音低減技法は、一般に、最適なパフォーマンスを達成するためにかなりのパラメータチューニングを必要とする。たとえば、そのような場合、好適な雑音基準が直接的に利用可能ではないことがあり、雑音基準を間接的に導出することが必要であることがある。したがって、雑音の多い環境でのボイス通信のためのモバイルデバイスの使用をサポートするために、複数マイクロフォンベースの高度な信号処理が望ましいことがある。
一般的構成による、オーディオ信号を処理する方法が、オーディオ信号の第1の複数の連続セグメントの各々について、上記セグメント中にボイスアクティビティ(voice activity)が存在すると判断することを含む。本方法は、オーディオ信号中の第1の複数の連続セグメントの直後に発生するオーディオ信号の第2の複数の連続セグメントの各々について、上記セグメント中にボイスアクティビティが存在しないと判断することをも含む。本方法は、第2の複数の連続セグメントのうち発生する第1のセグメントでない、第2の複数の連続セグメントのうちの1つの間に、オーディオ信号のボイスアクティビティ状態の遷移が発生することを検出することと、第1の複数における各セグメントについて、および第2の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの1つを示す対応する値を有するボイスアクティビティ検出信号を生成することとをも含む。本方法では、第1の複数の連続セグメントの各々について、ボイスアクティビティ検出信号の対応する値がアクティビティを示す。本方法では、検出された遷移が発生する上記セグメントの前に発生する第2の複数の連続セグメントの各々について、および第1の複数のうちの少なくとも1つのセグメントについて上記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、ボイスアクティビティ検出信号の対応する値がアクティビティを示し、検出された遷移が発生する上記セグメントの後に発生する第2の複数の連続セグメントの各々について、およびオーディオ信号の音声アクティビティ状態の遷移が発生することを前記検出することに応答して、ボイスアクティビティ検出信号の対応する値がアクティビティなしを示す。また、1つまたは複数のプロセッサによって実行されると、そのような方法を実行することを1つまたは複数のプロセッサに行わせる機械実行可能命令を記憶する有形構造を有するコンピュータ可読媒体を開示する。
別の一般的構成による、オーディオ信号を処理するための装置が、オーディオ信号の第1の複数の連続セグメントの各々について、上記セグメント中にボイスアクティビティが存在すると判断するための手段を含む。本装置は、オーディオ信号中の第1の複数の連続セグメントの直後に発生するオーディオ信号の第2の複数の連続セグメントの各々について、上記セグメント中にボイスアクティビティが存在しないと判断するための手段をも含む。本装置は、第2の複数の連続セグメントのうちの1つの間にオーディオ信号のボイスアクティビティ状態の遷移が発生することを検出するための手段と、第1の複数における各セグメントについて、および第2の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの1つを示す対応する値を有するボイスアクティビティ検出信号を生成するための手段とをも含む。本装置では、第1の複数の連続セグメントの各々について、ボイスアクティビティ検出信号の対応する値がアクティビティを示す。本装置では、検出された遷移が発生する上記セグメントの前に発生する第2の複数の連続セグメントの各々について、および第1の複数のうちの少なくとも1つのセグメントについて上記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、ボイスアクティビティ検出信号の対応する値がアクティビティを示す。本装置では、検出された遷移が発生する上記セグメントの後に発生する第2の複数の連続セグメントの各々について、およびオーディオ信号の音声アクティビティ状態の遷移が発生することを前記検出することに応答して、ボイスアクティビティ検出信号の対応する値がアクティビティなしを示す。
別の構成による、オーディオ信号を処理するための装置が、オーディオ信号の第1の複数の連続セグメントの各々について、上記セグメント中にボイスアクティビティが存在すると判断するように構成された第1のボイスアクティビティ検出器を含む。第1のボイスアクティビティ検出器は、オーディオ信号中の第1の複数の連続セグメントの直後に発生するオーディオ信号の第2の複数の連続セグメントの各々について、上記セグメント中にボイスアクティビティが存在しないと判断するようにも構成される。本装置は、第2の複数の連続セグメントのうちの1つの間にオーディオ信号のボイスアクティビティ状態の遷移が発生することを検出するように構成された第2のボイスアクティビティ検出器と、第1の複数における各セグメントについて、および第2の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの1つを示す対応する値を有するボイスアクティビティ検出信号を生成するように構成された信号発生器とをも含む。本装置では、第1の複数の連続セグメントの各々について、ボイスアクティビティ検出信号の対応する値がアクティビティを示す。本装置では、検出された遷移が発生する上記セグメントの前に発生する第2の複数の連続セグメントの各々について、および第1の複数のうちの少なくとも1つのセグメントについて上記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、ボイスアクティビティ検出信号の対応する値がアクティビティを示す。本装置では、検出された遷移が発生する上記セグメントの後に発生する第2の複数の連続セグメントの各々について、およびオーディオ信号の音声アクティビティ状態の遷移が発生することを前記検出することに応答して、ボイスアクティビティ検出信号の対応する値がアクティビティなしを示す。
時間(水平軸。前後軸は周波数×100Hzを示す)に対する高周波スペクトル電力(垂直軸)の1次導関数のプロットの上面図。 時間(水平軸。前後軸は周波数×100Hzを示す)に対する高周波スペクトル電力(垂直軸)の1次導関数のプロットの側面図。 一般的構成による方法M100のフローチャート。 方法M100の適用例のフローチャート。 一般的構成による装置A100のブロック図。 方法M100の実装形態M110のフローチャート。 装置A100の実装形態A110のブロック図。 方法M100の実装形態M120のフローチャート。 装置A100の実装形態A120のブロック図。 異なる雑音環境における、および異なる音圧レベルの下の、同じ近端ボイス信号のスペクトログラムを示す図。 異なる雑音環境における、および異なる音圧レベルの下の、同じ近端ボイス信号のスペクトログラムを示す図。 図5Aのスペクトログラムに関係するいくつかのプロットを示す図。 図5Bのスペクトログラムに関係するいくつかのプロットを示す図。 非音声インパルスに対する応答を示す図。 方法M100の実装形態M130のフローチャート。 方法M130の実装形態M132のフローチャート。 方法M100の実装形態M140のフローチャート。 方法M140の実装形態M142のフローチャート。 非音声インパルスに対する応答を示す図。 第1のステレオ音声記録のスペクトログラムを示す図。 一般的構成による方法M200のフローチャート。 タスクTM300の実装形態TM302のブロック図。 方法M200の実装形態の動作の一例を示す図。 一般的構成による装置A200のブロック図。 装置A200の実装形態A205のブロック図。 装置A205の実装形態A210のブロック図。 信号発生器SG12の実装形態SG14のブロック図。 信号発生器SG12の実装形態SG16のブロック図。 一般的構成による装置MF200のブロック図。 図12の記録に適用される異なるボイス検出ストラテジの例を示す図。 図12の記録に適用される異なるボイス検出ストラテジの例を示す図。 図12の記録に適用される異なるボイス検出ストラテジの例を示す図。 第2のステレオ音声記録のスペクトログラムを示す図。 図20の記録の分析結果を示す図。 図20の記録の分析結果を示す図。 図20の記録の分析結果を示す図。 非正規化位相および近接度VADテスト統計値についての分散プロットを示す図。 近接度ベースVADテスト統計値の場合の追跡された最小および最大テスト統計値を示す図。 位相ベースVADテスト統計値の場合の追跡された最小および最大テスト統計値を示す図。 正規化位相および近接度VADテスト統計値についての分散プロットを示す図。 α=0.5である、正規化位相および近接度VADテスト統計値についての分散プロットを示す図。 位相VAD統計値の場合はα=0.5であり、近接度VAD統計値の場合はα=0.25である、正規化位相および近接度VADテスト統計値についての分散プロットを示す図。 アレイR100の実装形態R200のブロック図。 アレイR200の実装形態R210のブロック図。 一般的構成によるデバイスD10のブロック図。 デバイスD10の実装形態である通信デバイスD20のブロック図。 ヘッドセットD100の図。 ヘッドセットD100の図。 ヘッドセットD100の図。 ヘッドセットD100の図。 使用中のヘッドセットD100の一例の上面図。 使用中のデバイスD100の様々な標準配向の側面図。 ヘッドセットD200の図。 ヘッドセットD200の図。 ヘッドセットD200の図。 ヘッドセットD200の図。 ハンドセットD300の断面図。 ハンドセットD300の実装形態D310の断面図。 使用中のハンドセットD300の様々な標準配向の側面図。 ハンドセットD340の様々な図。 ハンドセットD360の様々な図。 ハンドセットD320の図。 ハンドセットD320の図。 ハンドセットD330の図。 ハンドセットD330の図。 ポータブルオーディオ感知デバイスの追加の例を示す図。 ポータブルオーディオ感知デバイスの追加の例を示す図。 ポータブルオーディオ感知デバイスの追加の例を示す図。 一般的構成による装置MF100のブロック図。 メディアプレーヤD400の図。 プレーヤD400の実装形態D410の図。 プレーヤD400の実装形態D420の図。 カーキットD500の図。 ライティングデバイスD600の図。 コンピューティングデバイスD700の図。 コンピューティングデバイスD700の図。 コンピューティングデバイスD710の図。 コンピューティングデバイスD710の図。 ポータブルマルチマイクロフォンオーディオ感知デバイスD800の図。 会議デバイスの例の上面図。 会議デバイスの例の上面図。 会議デバイスの例の上面図。 会議デバイスの例の上面図。 高周波オンセットおよびオフセットアクティビティを示すスペクトログラムを示す図。 VADストラテジのいくつかの組合せを記載する図。
音声処理適用例(たとえば、テレフォニーなどのボイス通信適用例)では、音声情報を搬送するオーディオ信号のセグメントの正確な検出を実行することが望ましいことがある。そのようなボイスアクティビティ検出(VAD:voice activity detection)は、たとえば、音声情報を保存する際に重要であり得る。音声情報を搬送するセグメントの誤識別は、復号されたセグメント中のその情報の品質を下げ得るので、(符号器復号器(コーデック)またはボコーダとも呼ばれる)音声コーダは、一般に、雑音として識別されるセグメントを符号化するためよりも、音声として識別されるセグメントを符号化するためにより多くのビットを割り振るように構成される。別の例では、ボイスアクティビティ検出段がこれらのセグメントを音声として識別することができない場合、雑音低減システムは低エネルギー無声音声セグメントをアグレッシブに減衰させ得る。
広帯域(WB:wideband)および超広帯域(SWB:super-wideband)コーデックに対する最近の関心は、高周波音声情報を保存することに重点を置いており、これは、高品質音声ならびに了解度にとって重要であり得る。子音は、一般に、(たとえば、4から8キロヘルツまでの)高周波数レンジにわたって時間的に概して一貫しているエネルギーを有する。子音の高周波エネルギーは、一般に、母音の低周波エネルギーと比較して低いが、環境雑音のレベルは、通常、高周波数においてより低い。
図1Aおよび図1Bに、時間に対する、記録された音声のセグメントのスペクトログラム電力の1次導関数の一例を示す。これらの図では、(広い高周波数レンジにわたる正値の同時発生によって示される)音声オンセットおよび(広い高周波数レンジにわたる負値の同時発生によって示される)音声オフセットが明らかに識別され得る。
音声のオンセットおよびオフセットにおいて複数の周波数にわたってコヒーレントで検出可能なエネルギー変化が発生するという原理に基づいて音声オンセットおよび/またはオフセットの検出を実行することが望ましいことがある。そのようなエネルギー変化は、たとえば、所望の周波数レンジ(たとえば、4から8kHzまでなどの高周波数レンジ)における周波数成分にわたってエネルギーの1次時間導関数(すなわち、時間に対するエネルギーの変化率;time derivative)を計算することによって、検出され得る。これらの導関数の振幅をしきい値と比較することによって、各周波数ビンについてアクティブ化指示を計算し、各時間間隔の間の(たとえば、各10ミリ秒フレームの間の)周波数レンジにわたるアクティブ化指示を組み合わせて(たとえば、平均化して)VAD統計値を取得することができる。そのような場合、音声オンセットは、多数の周波数帯域が、時間的にコヒーレントであるエネルギーの急な増加を示すときに示され得、音声オフセットは、多数の周波数帯域が、時間的にコヒーレントであるエネルギーの急な減少を示すときに示され得る。本明細書ではそのような統計値を「高周波音声連続性」と呼ぶ。図47Aに、オンセットによるコヒーレント高周波アクティビティおよびオフセットによるコヒーレント高周波アクティビティが略記されているスペクトログラムを示す。
その文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリロケーション(またはメモリロケーションのセット)の状態を含む、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)または別様の生成(producing)など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「計算(calculating)」という用語は、本明細書では、複数の値からの計算(computing)、評価、平滑化、および/または選択など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「取得(obtaining)」という用語は、計算(calculating)、導出、(たとえば、外部デバイスからの)受信、および/または(たとえば、記憶要素のアレイからの)検索など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「選択(selecting)」という用語は、2つ以上のセットのうちの少なくとも1つ、およびすべてよりも少数を識別、指示、適用、および/または使用することなど、その通常の意味のいずれをも示すのに使用される。「備える(comprising)」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」(「AはBに基づく」など)という用語は、(i)「から導出される」(たとえば、「BはAのプリカーサーである」)、(ii)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)、および特定の文脈で適当な場合に、(iii)「に等しい」(たとえば、「AはBに等しい」または「AはBと同じである」)という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「に応答して」という用語は、「少なくとも〜に応答して」を含む、その通常の意味のいずれをも示すのに使用される。
マルチマイクロフォンオーディオ感知デバイスのマイクロフォンの「ロケーション」への言及は、文脈によって別段に規定されていない限り、マイクロフォンの音響的に敏感な面の中心のロケーションを示す。「チャネル」という用語は、特定の文脈に応じて、時々、信号経路を示すのに使用され、また他のときには、そのような経路によって搬送される信号を示すのに使用される。別段に規定されていない限り、「一連」という用語は、2つ以上のアイテムのシーケンスを示すのに使用される。「対数」という用語は、10を底とする対数を示すのに使用されるが、他の底へのそのような演算の拡張も本開示の範囲内である。「周波数成分」という用語は、(たとえば、高速フーリエ変換によって生成される)信号の周波数領域表現のサンプル(または「ビン」)、あるいは信号のサブバンド(たとえば、バーク尺度またはメル尺度サブバンド)など、信号の周波数または周波数帯域のセットのうちの1つを示すのに使用される。
別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。「構成」という用語は、その特定の文脈によって示されるように、方法、装置、および/またはシステムに関して使用され得る。「方法」、「プロセス」、「プロシージャ」、および「技法」という用語は、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、一般に、より大きい構成の一部を示すのに使用される。その文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。文書の一部分の参照によるいかなる組込みも、その部分内で言及された用語または変数の定義が、文書中の他の場所に現れ、ならびに組み込まれた部分で参照される図に現れた場合、そのような定義を組み込んでいることをも理解されたい。
近距離場は、受音器(たとえば、マイクロフォン、またはマイクロフォンのアレイ)から1波長未満離れている空間の領域として定義され得る。この定義では、領域の境界までの距離は、周波数に反比例して変化する。たとえば、200、700、および2000ヘルツの周波数では、1波長境界までの距離は、それぞれ約170、49、および17センチメートルである。代わりに、近距離場/遠距離場境界がマイクロフォンまたはアレイから特定の距離(たとえば、マイクロフォンまたはアレイのマイクロフォンまたはアレイの重心から50センチメートル、あるいはマイクロフォンまたはアレイのマイクロフォンまたはアレイの重心から1メートルまたは1.5メートル)にあると見なすことが有用であることがある。
文脈により別段に規定されていない限り、「オフセット」という用語は、本明細書では「オンセット」という用語の反意語として使用される。
図2Aに、タスクT200と、T300と、T400と、T500と、T600とを含む、一般的構成による方法M100のフローチャートを示す。方法M100は、一般に、オーディオ信号の一連のセグメントの各々にわたって反復して、そのセグメント中にボイスアクティビティ状態の遷移が存在するかどうかを示すように構成される。典型的なセグメント長は約5または10ミリ秒から約40または50ミリ秒にわたり、セグメントは、重複しても(たとえば、隣接するセグメントが25%または50%だけ重複する)、重複しなくてもよい。1つの特定の例では、上記信号は、10ミリ秒の長さをそれぞれ有する一連の重複しないセグメントまたは「フレーム」に分割される。また、方法M100によって処理されるセグメントは、異なる演算によって処理されるより大きいセグメントのセグメント(すなわち、「サブフレーム」)であり得、またはその逆も同様である。
タスクT200は、所望の周波数レンジにわたってセグメントnの各周波数成分kについて(「電力」または「強度」とも呼ばれる)エネルギーE(k,n)の値を計算する。図2Bに、オーディオ信号が周波数領域において与えられる方法M100の適用例のフローチャートを示す。この適用例は、(たとえば、オーディオ信号の高速フーリエ変換を計算することによって)周波数領域信号を取得するタスクT100を含む。そのような場合、タスクT200は、対応する周波数成分の大きさに基づいて(たとえば、大きさの2乗として)エネルギーを計算するように構成され得る。
代替実装形態では、方法M100は、(たとえば、フィルタバンクから)オーディオ信号を複数の時間領域サブバンド信号として受信するように構成される。そのような場合、タスクT200は、対応するサブバンドの時間領域サンプル値の2乗和に基づいて(たとえば、その和として、またはサンプルの数によって正規化された和(たとえば、平均2乗値)として)エネルギーを計算するように構成され得る。また、(たとえば、サブバンドkにおける周波数ビンの、平均エネルギーとしてまたは平均大きさの2乗として、各サブバンドについてエネルギーの値を計算することによって)タスクT200の周波数領域実装形態においてサブバンド方式が使用され得る。これらの時間領域の場合および周波数領域の場合のいずれにおいても、サブバンド分割方式は、各サブバンドが実質的に同じ幅(たとえば、約10パーセント以内)を有するように一様であり得る。代替的に、サブバンド分割方式は、超越的方式(たとえば、バーク尺度に基づく方式)、または対数的方式(たとえば、メル尺度に基づく方式)など、不均一であり得る。1つのそのような例では、7つのバーク尺度サブバンドのセットのエッジは、周波数20、300、630、1080、1720、2700、4400、および7700Hzに対応する。サブバンドのそのような構成は、16kHzのサンプリングレートを有する広帯域音声処理システムにおいて使用され得る。そのような分割方式の他の例では、より低いサブバンドは、6サブバンド構成を取得するために除外され、および/または高周波限界は7700Hzから8000Hzに増加される。非一様サブバンド分割方式の別の例は、4帯域擬似バーク方式300〜510Hz、510〜920Hz、920〜1480Hz、および1480〜4000Hzである。サブバンドのそのような構成は、8kHzのサンプリングレートを有する狭帯域音声処理システムにおいて使用され得る。
タスクT200は、エネルギーの値を時間平滑化値として計算することが望ましいことがある。たとえば、タスクT200は、E(k,n)=βEu(k,n)+(1−β)E(k,n−1)などの式に従ってエネルギーを計算するように構成され得、上式で、Eu(k,n)は、上記で説明したように計算されたエネルギーの非平滑化値であり、E(k,n)およびE(k,n−1)は、それぞれ現在の平滑化値および前の平滑化値であり、βは平滑化ファクタである。平滑化ファクタβの値は0(最大平滑化、更新なし)から1(平滑化なし)にわたり得、(オンセット検出の場合、オフセット検出の場合とは異なり得る)平滑化ファクタβについての典型的な値は、0.05、0.1、0.2、0.25、および0.3を含む。
所望の周波数レンジは2000Hzを上回って拡大することが望ましいことがある。代替または追加として、所望の周波数レンジは、オーディオ信号の周波数レンジの上半分の少なくとも一部(たとえば、8kHzでサンプリングされたオーディオ信号の場合は2000から4000Hzまでのレンジの少なくとも一部、または16kHzでサンプリングされたオーディオ信号の場合は4000から8000Hzまでのレンジの少なくとも一部)を含むことが望ましいことがある。一例では、タスクT200は、4から8キロヘルツまでのレンジにわたってエネルギー値を計算するように構成される。別の例では、タスクT200は、500Hzから8kHzまでのレンジにわたってエネルギー値を計算するように構成される。
タスクT300は、セグメントの各周波数成分についてエネルギーの時間導関数を計算する。一例では、タスクT300は、[たとえば、ΔE(k,n)=E(k,n)−E(k,n−1)などの式に従って]各フレームnの各周波数成分kについてエネルギーの時間導関数をエネルギー差ΔE(k,n)として計算するように構成される。
タスクT300は、ΔE(k,n)を時間平滑化値として計算することが望ましいことがある。たとえば、タスクT300は、ΔE(k,n)=α[E(k,n)−E(k,n−1)]+(1−α)[ΔE(k,n−1)]などの式に従ってエネルギーの時間導関数を計算するように構成され得、上式で、αは平滑化ファクタである。そのような時間平滑化は、(たとえば、雑音の多いアーティファクトに重点を置かないことによって)オンセットおよび/またはオフセット検出の信頼性を増加させるのに役立ち得る。平滑化ファクタαの値は0(最大平滑化、更新なし)から1(平滑化なし)にわたり得、平滑化ファクタαについての典型的な値は、0.05、0.1、0.2、0.25、および0.3を含む。オンセット検出の場合、(たとえば、迅速な応答を可能にするために)平滑化をほとんどまたはまったく使用しないことが望ましいことがある。オンセット検出結果に基づいて、オンセットの場合および/またはオフセットの場合、平滑化ファクタαおよび/またはβの値を変化させることが望ましいことがある。
タスクT400は、セグメントの各周波数成分についてアクティビティ指示A(k,n)を生成する。タスクT400は、たとえば、ΔE(k,n)をアクティブ化しきい値と比較することによって、A(k,n)を2進値として計算するように構成され得る。
アクティブ化しきい値は、音声オンセットの検出の場合、正値Tact-onを有することが望ましいことがある。1つのそのような例では、タスクT400は、次式などの式に従ってオンセットアクティブ化パラメータAon(k,n)を計算するように構成される。
Figure 2013525848
アクティブ化しきい値は、音声オフセットの検出の場合、負値Tact-offを有することが望ましいことがある。1つのそのような例では、タスクT400は、次式などの式に従ってオフセットアクティブ化パラメータAoff(k,n)を計算するように構成される。
Figure 2013525848
別のそのような例では、タスクT400は、次式などの式に従ってAoff(k,n)を計算するように構成される。
Figure 2013525848
タスクT500は、セグメントアクティビティ指示S(n)を生成するためにセグメントnについてのアクティビティ指示を組み合わせる。一例では、タスクT500は、S(n)をセグメントについての値A(k,n)の和として計算するように構成される。別の例では、タスクT500は、S(n)をセグメントについての値A(k,n)の正規化和(たとえば、平均)として計算するように構成される。
タスクT600は、組み合わせられたアクティビティ指示S(n)の値を遷移検出しきい値Ttxと比較する。一例では、タスクT600は、S(n)がTtxよりも大きい(代替的に、それ以上である)場合、ボイスアクティビティ状態の遷移の存在を示す。上記の例の場合のように、[たとえば、Aoff(k,n)の]A(k,n)の値が負であり得る場合、タスクT600は、S(n)が遷移検出しきい値Ttxよりも小さい(代替的に、それ以下である)場合、ボイスアクティビティ状態の遷移の存在を示すように構成され得る。
図2Cに、計算器EC10と、微分器DF10と、第1のコンパレータCP10と、コンバイナCO10と、第2のコンパレータCP20とを含む、一般的構成による装置A100のブロック図を示す。装置A100は、一般に、オーディオ信号の一連のセグメントの各々について、そのセグメント中にボイスアクティビティ状態の遷移が存在するかどうかについての指示を生成するように構成される。計算器EC10は、(たとえば、タスクT200に関して本明細書で説明したように)所望の周波数レンジにわたってセグメントの各周波数成分についてエネルギーの値を計算するように構成される。この特定の例では、変換モジュールFFT1が、マルチチャネル信号のチャネルS10−1のセグメントに対して高速フーリエ変換を実行して、周波数領域においてそのセグメントを装置A100(たとえば、計算器EC10)に与える。微分器DF10は、(たとえば、タスクT300に関して本明細書で説明したように)セグメントの各周波数成分についてエネルギーの時間導関数を計算するように構成される。コンパレータCP10は、(たとえば、タスクT400に関して本明細書で説明したように)セグメントの各周波数成分についてアクティビティ指示を生成するように構成される。コンバイナCO10は、(たとえば、タスクT500に関して本明細書で説明したように)セグメントアクティビティ指示を生成するためにセグメントについてのアクティビティ指示を組み合わせるように構成される。コンパレータCP20は、(たとえば、タスクT600に関して本明細書で説明したように)セグメントアクティビティ指示の値を遷移検出しきい値と比較するように構成される。
図41Dに、一般的構成による装置MF100のブロック図を示す。装置MF100は、一般に、オーディオ信号の一連のセグメントの各々を処理して、そのセグメント中にボイスアクティビティ状態の遷移が存在するかどうかを示すように構成される。装置MF100は、(たとえば、タスクT200に関して本明細書で開示するように)所望の周波数レンジにわたってセグメントの各成分についてエネルギーを計算するための手段F200を含む。装置MF100は、(たとえば、タスクT300に関して本明細書で開示するように)各成分についてエネルギーの時間導関数を計算するための手段F300をも含む。装置MF100は、(たとえば、タスクT400に関して本明細書で開示するように)各成分についてアクティビティを示すための手段F400をも含む。装置MF100は、(たとえば、タスクT500に関して本明細書で開示するように)アクティビティ指示を組み合わせるための手段F500をも含む。装置MF100は、音声状態遷移指示TI10を生成するために(たとえば、タスクT600に関して本明細書で開示するように)組み合わせられたアクティビティ指示をしきい値と比較するための手段F600をも含む。
システム(たとえば、ポータブルオーディオ感知デバイス)は、オンセットを検出するように構成された方法M100のインスタンスと、オフセットを検出するように構成された方法M100の別のインスタンスとを実行することが望ましいことがあり、方法M100の各インスタンスは、一般に、異なるそれぞれのしきい値を有する。代替的に、そのようなシステムは、それらのインスタンスを組み合わせる方法M100の実装形態を実行することが望ましいことがある。図3Aに、アクティビティ指示タスクT400の複数のインスタンスT400a、T400bと、組合せタスクT500のT500a、T500bと、状態遷移指示タスクT600のT600a、T600bとを含むような、方法M100の実装形態M110のフローチャートを示す。図3Bに、コンパレータCP10の複数のインスタンスCP10a、CP10bと、コンバイナCO10のCO10a、CO10bと、コンパレータCP20のCP20a、CP20bとを含む、装置A100の対応する実装形態A110のブロック図を示す。
上記で説明したようにオンセット指示とオフセット指示とを組み合わせて単一のメトリックにすることが望ましいことがある。そのような組み合わせられたオンセット/オフセットスコアは、異なる雑音環境および音圧レベルにおいてさえ、時間に対する音声アクティビティ(たとえば、近端音声エネルギーの変化)の正確な追跡をサポートするために、使用され得る。また、組み合わせられたオンセット/オフセットスコア機構の使用により、オンセット/オフセットVADのチューニングがより容易になり得る。
組み合わせられたオンセット/オフセットスコアSon-off(n)は、上記で説明したようにタスクT500のそれぞれのオンセットおよびオフセットインスタンスによって各セグメントについて計算されたセグメントアクティビティ指示S(n)の値を使用して計算され得る。図4Aに、周波数成分アクティブ化指示タスクT400および組合せタスクT500のオンセットおよびオフセットインスタンス、それぞれT400a、T500aおよびT400b、T500bを含むような、方法M100の実装形態M120のフローチャートを示す。方法M120は、タスクT500a(Son(n))およびT500b(Soff(n))によって生成されたS(n)の値に基づいて、組み合わせられたオンセットオフセットスコアSon-off(n)を計算するタスクT550をも含む。たとえば、タスクT550は、Son-off(n)=abs(Son(n)+Soff(n))などの式に従ってSon-off(n)を計算するように構成され得る。この例では、方法M120は、各セグメントnについて対応するバイナリVAD指示を生成するためにSon-off(n)の値をしきい値と比較するタスクT610をも含む。図4Bに、装置A100の対応する実装形態A120のブロック図を示す。
図5A、図5B、図6、および図7に、時間的な近端音声エネルギー変化を追跡するのを助けるために、そのような組み合わせられたオンセット/オフセットアクティビティメトリックがどのように使用され得るかの一例を示す。図5Aおよび図5Bは、異なる雑音環境における、および異なる音圧レベルの下の、同じ近端ボイスを含む信号のスペクトログラムを示している。図6および図7のプロットAは、それぞれ図5Aおよび図5Bの信号を時間領域において(振幅対サンプルでの時間として)示している。図6および図7のプロットBは、オンセット指示信号を取得するためにプロットAの信号に対して方法M100の実装形態を実行することの結果を(値対フレームでの時間として)示している。図6および図7のプロットCは、オフセット指示信号を取得するためにプロットAの信号に対して方法M100の実装形態を実行することの結果を(値対フレームでの時間として)示している。プロットBおよびCでは、対応するフレームアクティビティ指示信号は多価信号として示されており、対応するアクティブ化しきい値は水平線として(プロット6Bおよび7Bでは約+0.1において、ならびにプロット6Cおよび7Cでは約−0.1において)示されており、対応する遷移指示信号は2進値信号として(プロット6Bおよび7Bでは0および約+0.6の値で、ならびにプロット6Cおよび7Cでは0および約−0.6の値で)示されている。図6および図7のプロットDは、組み合わせられたオンセット/オフセット指示信号を取得するためにプロットAの信号に対して方法M120の実装形態を実行することの結果を(値対フレームでの時間として)示している。図6のプロットDと図7のプロットDとの比較により、異なる雑音環境における、および異なる音圧レベルの下の、そのような検出器の一貫したパフォーマンスが証明される。
強く閉じられたドア、落下した皿、または拍手など、非音声音インパルスも、周波数レンジにわたって一貫した電力変化を示す応答を引き起こし得る。図8に、いくつかの非音声インパルスイベントを含む信号に対して(たとえば、方法M100の対応する実装形態、または方法M110のインスタンスを使用して)オンセットおよびオフセット検出を実行することの結果を示す。この図では、プロットAは、上記信号を時間領域において(振幅対サンプルでの時間として)示しており、プロットBは、オンセット指示信号を取得するためにプロットAの信号に対して方法M100の実装形態を実行することの結果を(値対フレームでの時間として)示しており、プロットCは、オフセット指示信号を取得するためにプロットAの信号に対して方法M100の実装形態を実行することの結果を(値対フレームでの時間として)示している。(プロットBおよびCでは、対応するフレームアクティビティ指示信号、アクティブ化しきい値、および遷移指示信号は、図6および図7のプロットBおよびCに関して説明したように示されている。)図8中の左端矢印は、ドアを強く閉じることによって生じた不連続オンセット(すなわち、オフセットが検出されている間に検出されたオンセット)の検出を示している。図8中の中心矢印および右端矢印は、拍手することによって生じたオンセットおよびオフセット検出を示している。そのようなインパルスイベントをボイスアクティビティ状態遷移(たとえば、音声オンセットおよびオフセット)と区別することが望ましいことがある。
非音声インパルスアクティブ化は、音声オンセットまたはオフセットよりも広い周波数レンジにわたって一貫している可能性があり、音声オンセットまたはオフセットは、一般に、約4〜8kHzのレンジにわたってのみ連続する、時間に対するエネルギーの変化を示す。したがって、非音声インパルスイベントにより、組み合わせられたアクティビティ指示(たとえば、S(n))は、音声に起因するものとしてはあまりに高い値を有することになる可能性がある。この性質を活用して非音声インパルスイベントをボイスアクティビティ状態遷移と区別するために、方法M100が実装され得る。
図9Aに、S(n)の値をインパルスしきい値Timpと比較するタスクT650を含むような、方法M100の実装形態M130のフローチャートを示す。図9Bに、S(n)がTimpよりも大きい(代替的に、それ以上である)場合にボイスアクティビティ遷移指示を取り消すためにタスクT600の出力をオーバーライドするタスクT700を含む、方法M130の実装形態M132のフローチャートを示す。(たとえば、上記のオフセットの例の場合のように)[たとえば、Aoff(k,n)の]A(k,n)の値が負であり得るような場合、タスクT700は、S(n)が対応するオーバーライドしきい値よりも小さい(代替的に、それ以下である)場合のみ、ボイスアクティビティ遷移指示を示すように構成され得る。オーバーアクティブ化(over-activation)のそのような検出の追加または代替として、そのようなインパルス除去は、不連続オンセット(たとえば、同じセグメント中のオンセットおよびオフセットの指示)をインパルス雑音として識別するための、方法M110の修正を含み得る。
また、非音声インパルス雑音は、オンセットの速度によって音声と区別され得る。たとえば、周波数成分における音声オンセットまたはオフセットのエネルギーは、非音声インパルスイベントによるエネルギーよりも緩やかに経時的に変化する傾向があり、(たとえば、上記で説明したオーバーアクティブ化の追加または代替として)この性質を活用して非音声インパルスイベントをボイスアクティビティ状態遷移と区別するために、方法M100が実装され得る。
図10Aに、オンセット速度計算タスクT800と、それぞれタスクT400、T500、およびT600のインスタンスT410、T510、およびT620とを含む、方法M100の実装形態M140のフローチャートを示す。タスクT800は、セグメントnの各周波数成分kについてオンセット速度Δ2E(k,n)(すなわち、時間に対するエネルギーの2次導関数)を計算する。たとえば、タスクT800は、Δ2E(k,n)=[ΔE(k,n)−ΔE(k,n−1)]などの式に従ってオンセット速度を計算するように構成され得る。
タスクT400のインスタンスT410は、セグメントnの各周波数成分についてインパルスアクティブ化値Aimp-d2(k,n)を計算するように構成される。タスクT410は、たとえば、Δ2E(k,n)をインパルスアクティブ化しきい値と比較することによって、Aimp-d2(k,n)を2進値として計算するように構成され得る。1つのそのような例では、タスクT410は、次式などの式に従ってインパルスアクティブ化パラメータAimp-d2(k,n)を計算するように構成される。
Figure 2013525848
タスクT500のインスタンスT510は、セグメントインパルスアクティビティ指示Simp-d2(n)を生成するためにセグメントnについてのインパルスアクティビティ指示を組み合わせる。一例では、タスクT510は、Simp-d2(n)をセグメントについての値Aimp-d2(k,n)の和として計算するように構成される。別の例では、タスクT510は、Simp-d2(n)をセグメントについての値Aimp-d2(k,n)の正規化和(たとえば、平均)として計算するように構成される。
タスクT600のインスタンスT620は、セグメントインパルスアクティビティ指示Simp-d2(n)の値をインパルス検出しきい値Timp-d2と比較し、Simp-d2(n)がTimp-d2よりも大きい(代替的に、それ以上である)場合、インパルスイベントの検出を示す。図10Bに、S(n)がTimp-d2よりも大きい(代替的に、それ以上である)ことをタスクT620が示す場合にボイスアクティビティ遷移指示を取り消すためにタスクT600の出力をオーバーライドするように構成されたタスクT700のインスタンスを含む、方法M140の実装形態M142のフローチャートを示す。
図11に、音声オンセット導関数技法(たとえば、方法M140)が、図8中の3つの矢印によって示されるインパルスを正しく検出する例を示す。この図では、プロットAは、信号を時間領域において(振幅対サンプルでの時間として)示しており、プロットBは、オンセット指示信号を取得するためにプロットAの信号に対して方法M100の実装形態を実行することの結果を(値対フレームでの時間として)示しており、プロットCは、インパルスイベントの指示を取得するためにプロットAの信号に対して方法M140の実装形態を実行することの結果を(値対フレームでの時間として)示している。(プロットBおよびCでは、対応するフレームアクティビティ指示信号、アクティブ化しきい値、および遷移指示信号は、図6および図7のプロットBおよびCに関して説明したように示されている。)この例では、インパルス検出しきい値Timp-d2は約0.2の値を有する。
本明細書で説明する方法M100の実装形態によって生成された音声オンセットおよび/またはオフセットの指示(または組み合わせられたオンセット/オフセットスコア)は、VAD段の精度を改善するためにおよび/または時間的なエネルギー変化を迅速に追跡するために使用され得る。たとえば、VAD段は、ボイスアクティビティ検出信号を生成するために、方法M100の実装形態によって生成されたボイスアクティビティ状態の遷移の存在または不在の指示を、(たとえば、ANDまたはOR論理を使用して)1つまたは複数の他のVAD技法によって生成された指示と組み合わせるように構成され得る。
それの結果が方法M100の実装形態の結果と組み合わせられ得る他のVAD技法の例は、フレームエネルギー、信号対雑音比、周期性、音声および/または残差(たとえば、線形予測コーディング残差)の自己相関、ゼロ交差レート、ならびに/あるいは第1の反射係数など、1つまたは複数のファクタに基づいてセグメントをアクティブ(たとえば、音声)または非アクティブ(たとえば、雑音)として分類するように構成された技法を含む。そのような分類は、そのようなファクタの値または大きさをしきい値と比較すること、および/あるいはそのようなファクタの変化の大きさをしきい値と比較することを含み得る。代替または追加として、そのような分類は、ある周波数帯域におけるエネルギーなどのそのようなファクタの値または大きさ、あるいはそのようなファクタの変化の大きさを、別の周波数帯域における同様の値と比較することを含み得る。複数の基準(たとえば、エネルギー、ゼロ交差レートなど)および/または最近のVAD決定のメモリに基づいてボイスアクティビティ検出を実行するために、そのようなVAD技法を実装することが望ましいことがある。それの結果が方法M100の実装形態の結果と組み合わせられ得るボイスアクティビティ検出演算の一例は、たとえば、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, 70, and 73 for Wideband Spread Spectrum Digital Systems」と題する3GPP2文書C.S0014−D、v3.0のセクション4.7(pp.4−48〜4−55)、2010年10月(www−dot−3gpp−dot−orgでオンライン入手可能)に記載されているように、セグメントのハイバンドおよびローバンドエネルギーをそれぞれのしきい値と比較することを含む。他の例は、フレームエネルギーと平均エネルギーの比、および/またはローバンドエネルギーとハイバンドエネルギーの比を比較することを含む。
各チャネルが、マイクロフォンのアレイの対応するマイクロフォンによって生成された信号に基づく、マルチチャネル信号(たとえば、デュアルチャネルまたはステレオ信号)は、一般に、ボイスアクティビティ検出のために使用され得る音源方向および/または近接度に関する情報を含んでいる。そのようなマルチチャネルVAD演算は、たとえば、特定の方向範囲(たとえば、ユーザの口などの所望の音源の方向)から到着する指向性音を含んでいるセグメントを、拡散音または他の方向から到着する指向性音を含んでいるセグメントと区別することによって、到着方向(DOA:direction of arrival)に基づき得る。
DOAベースVAD演算の1つのクラスは、所望の周波数レンジにおけるセグメントの各周波数成分について、マルチチャネル信号の2つのチャネルの各々における周波数成分間の位相差に基づく。そのようなVAD演算は、位相差と周波数との間の関係が500〜2000Hzなどの広い周波数レンジにわたって一貫しているとき(すなわち、位相差と周波数との相関関係が線形であるとき)、ボイス検出を示すように構成され得る。以下でより詳細に説明する、そのような位相ベースVAD演算は、点音源の存在が複数の周波数にわたってインジケータの一貫性によって示されるという点で方法M100と同様である。DOAベースVAD演算の別のクラスは、(たとえば、時間領域においてチャネルを相互相関させることによって判断された)各チャネルにおける信号のインスタンス間の時間遅延に基づく。
マルチチャネルVAD演算の別の例は、マルチチャネル信号のチャネルのレベル間の(利得とも呼ばれる)差に基づく。利得ベースVAD演算は、たとえば、2つのチャネルのエネルギーの比がしきい値を超える(信号が近距離場音源から、およびマイクロフォンアレイの軸方向のうちの所望の1つから到着していることを示す)とき、ボイス検出を示すように構成され得る。そのような検出器は、周波数領域において(たとえば、1つまたは複数の特定の周波数レンジにわたって)または時間領域において信号に作用するように構成され得る。
(たとえば、方法M100あるいは装置A100またはMF100の実装形態によって生成された)オンセット/オフセット検出結果を、マルチチャネル信号のチャネル間の差に基づく1つまたは複数のVAD演算からの結果と組み合わせることが望ましいことがある。たとえば、利得ベースおよび/または位相ベースVADによって検出されないままである音声セグメントを識別するために、本明細書で説明する音声オンセットおよび/またはオフセットの検出が使用され得る。また、VAD決定へのオンセットおよび/またはオフセット統計値の組込みは、シングルおよび/またはマルチチャネル(たとえば、利得ベースまたは位相ベース)VADのための低減されたハングオーバ期間の使用をサポートし得る。
チャネル間利得差に基づくマルチチャネルボイスアクティビティ検出器、およびシングルチャネル(たとえば、エネルギーベース)ボイスアクティビティ検出器は、一般に、広い周波数レンジ(たとえば、0〜4kHz、500〜4000Hz、0〜8kHz、または500〜8000Hzレンジ)からの情報に依拠する。到着方向(DOA)に基づくマルチチャネルボイスアクティビティ検出器は、一般に、低周波数レンジ(たとえば、500〜2000Hzまたは500〜2500Hzレンジ)からの情報に依拠する。有声音声が、通常、これらのレンジにおいて著しいエネルギー含有量を有するとすれば、そのような検出器は、概して、有声音声のセグメントを確実に示すように構成され得る。
しかしながら、無声音声のセグメントは、一般に、特に低周波数レンジにおける母音のエネルギーと比較して、低いエネルギーを有する。また、無声子音と有声子音の無声部分とを含み得るこれらのセグメントは、500〜2000Hzレンジにおいて重要な情報を欠く傾向がある。したがって、ボイスアクティビティ検出器は、これらのセグメントを音声として示すことができないことがあり、これは(たとえば、不適切なコーディングおよび/または過度にアグレッシブな雑音低減による)コーディング非効率および/または音声情報の損失につながり得る。
スペクトログラムクロス周波数連続性によって示される音声オンセットおよび/またはオフセットの検出に基づく音声検出方式(たとえば、方法M100の実装形態)を、チャネル間利得差、および/またはチャネル間位相差のコヒーレンスなど、他の特徴に基づく検出方式と組み合わせることによって、統合されたVAD段を取得することが望ましいことがある。たとえば、主に高周波数において発生する音声オンセットおよび/またはオフセットを追跡するように構成された方法M100の実装形態で利得ベースおよび/または位相ベースVADフレームワークを補完することが望ましいことがある。オンセット/オフセット検出は、利得ベースおよび位相ベースVADと比較して、異なる周波数レンジにおける異なる音声特性に敏感である傾向があるので、そのような組み合わせられた分類器の個々の特徴は互いを補完し得る。たとえば、500〜2000Hz位相敏感VADと4000〜8000Hz高周波音声オンセット/オフセット検出器との組合せにより、(たとえば、単語の子音の多い開始における)低エネルギー音声特徴、ならびに高エネルギー音声特徴の保存が可能になる。オンセットから対応するオフセットへの連続検出指示を与えるように、組み合わせられた検出器を設計することが望ましいことがある。
図12に、遠距離場干渉音声をも含む、近距離場話者のマルチチャネル記録のスペクトログラムを示す。この図では、上部の記録は、ユーザの口に近いマイクロフォンからの記録であり、下部の記録は、ユーザの口からより遠くにあるマイクロフォンからの記録である。上部スペクトログラムでは、音声子音および歯擦音からの高周波エネルギーが明らかに識別可能である。
有声セグメントの終わりに発生する低エネルギー音声成分を効果的に保存するために、利得ベースまたは位相ベースマルチチャネルボイスアクティビティ検出器あるいはエネルギーベースシングルチャネルボイスアクティビティ検出器など、ボイスアクティビティ検出器は慣性機構を含むことが望ましいことがある。そのような機構の一例は、検出器がいくつかの連続フレーム(たとえば、2、3、4、5、10、または20フレーム)のハングオーバ期間にわたって非アクティビティを検出し続けるまで、検出器がそれの出力をアクティブから非アクティブに切り替えるのを抑止するように構成された論理である。たとえば、そのようなハングオーバ論理は、直近の検出後のある期間の間にセグメントを音声として識別し続けることをVADに行わせるように構成され得る。
ハングオーバ期間は、いずれかの検出されない音声セグメントをキャプチャするのに十分が長いことが望ましいことがある。たとえば、利得ベースまたは位相ベースボイスアクティビティ検出器は、関係する周波数レンジにおける低エネルギーまたは情報の欠如により逃された音声セグメントをカバーするために約200ミリ秒(たとえば、約20フレーム)のハングオーバ期間を含むことが望ましいことがある。しかしながら、検出されない音声がハングオーバ期間の前に終了する場合、または低エネルギー音声成分が実際に存在しない場合、ハングオーバ論理は、ハングオーバ期間の間に雑音をパスすることをVADに行わせ得る。
単語の終わりにVADハングオーバ期間の長さを低減するために音声オフセット検出が使用され得る。上記のように、ボイスアクティビティ検出器にハングオーバ論理を与えることが望ましいことがある。そのような場合、(たとえば、ハングオーバ論理をリセットすること、または場合によっては組み合わせられた検出結果を制御することによって)オフセット検出に応答してハングオーバ期間を効果的に終了するような構成で、そのような検出器を音声オフセット検出器と組み合わせることが望ましいことがある。そのような構成は、対応するオフセットが検出され得るまで連続検出結果をサポートするように構成され得る。特定の例では、組み合わせられたVADは、(たとえば、公称200ミリ秒期間を有する)ハングオーバ論理を用いた利得および/または位相VAD、ならびにオフセットの終了が検出されるとすぐに音声を示すのを停止することを組み合わせられた検出器に行わせるように構成されたオフセットVADを含む。そのような方法で、適応ハングオーバが取得され得る。
図13Aに、適応ハングオーバを実装するために使用され得る、一般的構成による方法M200のフローチャートを示す。方法M200は、オーディオ信号の第1の複数の連続セグメントの各々の中にボイスアクティビティが存在すると判断するタスクTM100と、オーディオ信号中の第1の複数の連続セグメントの直後にくる上記信号の第2の複数の連続セグメントの各々の中にボイスアクティビティが存在しないと判断するタスクTM200とを含む。タスクTM100およびTM200は、たとえば、本明細書で説明するシングルまたはマルチチャネルボイスアクティビティ検出器によって実行され得る。方法M200は、第2の複数のセグメントのうちの1つにおいてボイスアクティビティ状態の遷移を検出する、方法M100のインスタンスをも含む。タスクTM100、TM200、およびM100の結果に基づいて、タスクTM300はボイスアクティビティ検出信号を生成する。
図13Bに、サブタスクTM310およびTM320を含む、タスクTM300の実装形態TM302のブロック図を示す。第1の複数のセグメントの各々について、および遷移が検出されたセグメントの前に発生する第2の複数のセグメントの各々について、タスクTM310は、(たとえば、タスクTM100の結果に基づいて)アクティビティを示すためのVAD信号の対応する値を生成する。遷移が検出されたセグメントの後に発生する第2の複数のセグメントの各々について、タスクTM320は、(たとえば、タスクTM200の結果に基づいて)アクティビティなしを示すためのVAD信号の対応する値を生成する。
タスクTM302は、検出された遷移がオフセットの開始または代替的にオフセットの終了であるように構成され得る。図14Aに、(Xとして示される)遷移セグメントについてのVAD信号の値が設計によって0または1であるように選択され得る、方法M200の実装形態の動作の一例を示す。一例では、オフセットの終了が検出されたセグメントについてのVAD信号値は、アクティビティなしを示すための第1のVAD信号値である。別の例では、オフセットの終了が検出されたセグメントの直後のセグメントについてのVAD信号値は、アクティビティなしを示すための第1のVAD信号値である。
図14Bに、適応ハングオーバとともに組み合わせられたVAD段を実装するために使用され得る、一般的構成による装置A200のブロック図を示す。装置A200は、本明細書で説明するタスクTM100およびTM200の実装形態を実行するように構成され得る第1のボイスアクティビティ検出器VAD10(たとえば、本明細書で説明するシングルまたはマルチチャネル検出器)を含む。装置A200は、本明細書で説明する音声オフセット検出を実行するように構成され得る第2のボイスアクティビティ検出器VAD20をも含む。装置A200は、本明細書で説明するタスクTM300の実装形態を実行するように構成され得る信号発生器SG10をも含む。図14Cに、第2のボイスアクティビティ検出器VAD20が装置A100のインスタンス(たとえば、装置A100、A110、またはA120)として実装される、装置A200の実装形態A205のブロック図を示す。
図15Aに、(この例では、周波数領域において)マルチチャネルオーディオ信号を受信することと、チャネル間利得差に基づく対応するVAD信号V10とチャネル間位相差に基づく対応するVAD信号V20とを生成することとを行うように構成された、第1の検出器VAD10の実装形態VAD12を含む、装置A205の実装形態A210のブロック図を示す。1つの特定の例では、利得差VAD信号V10は、0から8kHzまでの周波数レンジにわたる差に基づき、位相差VAD信号V20は、500から2500Hzまでの周波数レンジにおける差に基づく。
装置A210は、マルチチャネル信号の1つのチャネル(たとえば、1次チャネル)を受信することと、対応するオンセット指示TI10aと対応するオフセット指示TI10bとを生成することとを行うように構成された、本明細書で説明する装置A100の実装形態A110をも含む。1つの特定の例では、指示TI10aおよびTI10bは、510Hz〜8kHzの周波数レンジにおける差に基づく。(概して、マルチチャネル検出器のハングオーバ期間を適応させるように構成された音声オンセットおよび/またはオフセット検出器は、マルチチャネル検出器が受信したチャネルとは異なるチャネル上で動作し得ることに明確に留意されたい。)特定の例では、オンセット指示TI10aおよびオフセット指示TI10bは、500から8000Hzまでの周波数レンジにおけるエネルギー差に基づく。装置A210は、VAD信号V10およびV20と遷移指示TI10aおよびTI10bとを受信することと、対応する合成VAD信号V30を生成することとを行うように構成された、信号発生器SG10の実装形態SG12をも含む。
図15Bに、信号発生器SG12の実装形態SG14のブロック図を示す。この実装形態は、合成マルチチャネルVAD信号を取得するために利得差VAD信号V10と位相差VAD信号V20とを合成するためのOR論理OR10と、拡張されたVAD信号を生成するためにオフセット指示TI10bに基づいて合成マルチチャネル信号に適応ハングオーバ期間を課すように構成されたハングオーバ論理HO10と、合成VAD信号V30を生成するために、拡張されたVAD信号をオンセット指示TI10aと合成するためのOR論理OR20とを含む。一例では、ハングオーバ論理HO10は、オフセット指示TI10bがオフセットの終了を示すとき、ハングオーバ期間を終了するように構成される。最大ハングオーバ値の特定の例は、位相ベースVADの場合は0、1つ、10個、および20個のセグメントを含み、利得ベースVADの場合は8つ、10個、12個、および20個のセグメントを含む。オンセット指示TI10aおよび/またはオフセット指示TI10bにハングオーバを適用するために信号発生器SG10も実装され得ることに留意されたい。
図16Aに、代わりにAND論理AN10を使用して利得差VAD信号V10と位相差VAD信号V20とを合成することによって合成マルチチャネルVAD信号が生成される、信号発生器SG12の別の実装形態SG16のブロック図を示す。また、信号発生器SG14またはSG16のさらなる実装形態は、オンセット指示TI10aを拡張するように構成されたハングオーバ論理、オンセット指示TI10aとオフセット指示TI10bとが両方アクティブであるセグメントについてのボイスアクティビティの指示をオーバーライドするための論理、ならびに/あるいはAND論理AN10、OR論理OR10、および/またはOR論理OR20における1つまたは複数の他のVAD信号についての入力を含み得る。
適応ハングオーバ制御の追加または代替として、利得差VAD信号V10および/または位相差VAD信号V20など、別のVAD信号の利得を変化させるために、オンセットおよび/またはオフセット検出が使用され得る。たとえば、オンセットおよび/またはオフセット指示に応答して、VAD統計値が、1よりも大きいファクタによって(しきい値処理の前に)乗算され得る。1つのそのような例では、セグメントについてオンセット検出またはオフセット検出が示される場合、位相ベースVAD統計値(たとえば、コヒーレンシ測度)はファクタph_mult>1によって乗算され、利得ベースVAD統計値(たとえば、チャネルレベル間の差)はファクタpd_mult>1によって乗算される。ph_multについての値の例は、2、3、3.5、3.8、4、および4.5を含む。pd_multについての値の例は、1.2、1.5、1.7、および2.0を含む。代替的に、1つまたは複数のそのような統計値は、セグメントにおけるオンセットおよび/またはオフセット検出の欠如に応答して減衰され得る(たとえば、1よりも少ないファクタによって乗算され得る)。概して、オンセットおよび/またはオフセット検出状態に応答して統計値をバイアスする任意の方法が使用され得る(たとえば、検出に応答して正のバイアス値を、または検出の欠如に応答して負のバイアス値を追加すること、オンセットおよび/またはオフセット検出に従ってテスト統計値についてのしきい値を上げ下げすること、ならびに/あるいは場合によってはテスト統計値と対応するしきい値との間の関係を修正すること)。
(たとえば、以下の式(N1)〜(N4)に関して説明するように)正規化されたVAD統計値に対してそのような乗算を実行すること、および/またはそのようなバイアスが選択されたときにVAD統計値についてのしきい値を調整することが望ましいことがある。また、そのような目的でオンセットおよび/またはオフセット指示を発生するために、合成VAD信号V30に合成するためにオンセットおよび/またはオフセット指示を発生するために使用されるインスタンスとは異なる方法M100のインスタンスが使用され得ることに留意されたい。たとえば、方法M100の利得制御インスタンスは、方法M100のVADインスタンスとは異なるしきい値(たとえば、オンセットの場合は0.01または0.02、オフセットの場合は0.05、0.07、0.09、または1.0)をタスクT600において使用し得る。
本明細書で説明するVADストラテジと(たとえば、信号発生器SG10によって)組み合わせられ得る別のVADストラテジは、フレームエネルギーと平均エネルギーの比ならびに/またはローバンドおよびハイバンドエネルギーに基づき得る、シングルチャネルVAD信号である。そのようなシングルチャネルVAD検出器を高いフォールスアラームレートに向かってバイアスすることが望ましいことがある。本明細書で説明するVADストラテジと組み合わせられ得る別のVADストラテジは、(たとえば、900Hzを下回るまたは500Hzを下回る)低周波数レンジにおけるチャネル間利得差に基づくマルチチャネルVAD信号である。そのような検出器は、フォールスアラームの低いレートで有声セグメントを正確に検出することが予想され得る。図47Bに、合成VAD信号を生成するために使用され得るVADストラテジの組合せのいくつかの例を記載する。この図では、Pは位相ベースVADを示し、Gは利得ベースVADを示し、ONはオンセットVADを示し、OFFはオフセットVADを示し、LFは低周波利得ベースVADを示し、PBはブーストされた位相ベースVADを示し、GBはブーストされた利得ベースVADを示し、SCはシングルチャネルVADを示す。
図16Bに、適応ハングオーバとともに組み合わせられたVAD段を実装するために使用され得る、一般的構成による装置MF200のブロック図を示す。装置MF200は、オーディオ信号の第1の複数の連続セグメントの各々の中にボイスアクティビティが存在すると判断するための手段FM10を含み、手段FM10は、本明細書で説明するタスクTM100の実装形態を実行するように構成され得る。装置MF200は、オーディオ信号中の第1の複数の連続セグメントの直後にくる上記信号の第2の複数の連続セグメントの各々の中にボイスアクティビティが存在しないと判断するための手段FM20を含み、手段FM20は、本明細書で説明するタスクTM200の実装形態を実行するように構成され得る。手段FM10およびFM20は、たとえば、本明細書で説明するシングルまたはマルチチャネルボイスアクティビティ検出器として実装され得る。装置A200は、第2の複数のセグメントのうちの1つにおいてボイスアクティビティ状態の遷移を検出するための(たとえば、本明細書で説明する音声オフセット検出を実行するための)手段FM100のインスタンスをも含む。装置A200は、(たとえば、タスクTM300および/または信号発生器SG10に関して本明細書で説明したように)ボイスアクティビティ検出信号を生成するための手段FM30をも含む。
また、マイクロフォン配置に対するVADシステムの敏感性を減少させるために、異なるVAD技法からの結果を組み合わせることが使用され得る。たとえば、電話が下で(たとえば、ユーザの口から離れて)保持されるとき、位相ベースボイスアクティビティ検出器と利得ベースボイスアクティビティ検出器の両方は機能しないことがある。そのような場合、組み合わせられた検出器は、オンセットおよび/またはオフセット検出により重度に依拠することが望ましいことがある。また、統合されたVADシステムがピッチ追跡と組み合わせられ得る。
利得ベースおよび位相ベースボイスアクティビティ検出器は、SNRが極めて低いときに損害を被ることがあるが、雑音は通常、高周波数において問題ではなく、したがって、オンセット/オフセット検出器は、(たとえば、他の検出器の無効化を補償するために)SNRが低いときに増加され得るハングオーバ間隔(および/または時間平滑化演算)を含むように構成され得る。また、減衰する利得/位相ベースVAD統計値と増加する利得/位相ベースVAD統計値との間のギャップを埋めることによってより正確な音声/雑音セグメンテーションを可能にし、したがって、それらの検出器のためのハングオーバ期間を低減することを可能にするために、音声オンセット/オフセット統計値に基づく検出器が使用され得る。
ハングオーバ論理などの慣性手法は、単独では、「the」などの子音が多い単語を用いた発話の開始を保存するのに有効でない。1つまたは複数の他の検出器が逃した単語開始における音声オンセットを検出するために、音声オンセット統計値が使用され得る。そのような構成は、別の検出器がトリガされ得るまでオンセット遷移指示を延長するために時間平滑化および/またはハングオーバ期間を含み得る。
オンセットおよび/またはオフセット検出がマルチチャネルコンテキストにおいて使用されるたいていの場合は、ユーザの口に最も近く配置されるかまたは他の方法でユーザのボイスを最も直接的に受信するように配置されたマイクロフォン(「接話」または「1次」マイクロフォンとも呼ばれる)に対応するチャネルに対してそのような検出を実行することが十分であり得る。しかしながら、場合によっては、デュアルチャネル実装形態における両方のマイクロフォンに対してなど、2つ以上のマイクロフォンに対してオンセットおよび/またはオフセット検出を実行することが望ましいことがある(たとえば、電話がユーザの口から離れて向くように回転される使用シナリオの場合)。
図17〜図19に、図12の記録に適用される異なるボイス検出ストラテジの例を示す。これらの図の最上部プロットは、時間領域における入力信号と、個々のVAD結果のうちの2つ以上を組み合わせることによって生成されたバイナリ検出結果とを示している。これらの図の他のプロットの各々は、VAD統計値の時間領域波形と、(各プロット中の水平線によって示される)対応する検出器についてのしきい値と、得られたバイナリ検出決定とを示している。
上から下に、図17中のプロットは、(A)他のプロットからの検出結果の全部の組合せを使用したグローバルVADストラテジ、(B)500〜2500Hz周波数帯域にわたる周波数とのマイクロフォン間位相差の相関に基づくVADストラテジ(ハングオーバなし)、(C)0〜8000Hz帯域にわたるマイクロフォン間利得差によって示される近接度検出に基づくVADストラテジ(ハングオーバなし)、(D)500〜8000Hz帯域にわたるスペクトログラムクロス周波数連続性によって示される音声オンセットの検出に基づくVADストラテジ(たとえば、方法M100の実装形態)、および(E)500〜8000Hz帯域にわたるスペクトログラムクロス周波数連続性によって示される音声オフセットの検出に基づくVADストラテジ(たとえば、方法M100の別の実装形態)を示している。図17の下部の矢印は、位相ベースVADによって示されるいくつかのフォールスポジティブの時間的なロケーションを示している。
図18は、図18の最上部プロットに示すバイナリ検出結果が、(この場合、OR論理を使用して)それぞれプロットBおよびCに示す位相ベース検出結果および利得ベース検出結果のみを組み合わせることによって取得されるという点で、図17とは異なる。図18の下部の矢印は、位相ベースVADおよび利得ベースVADのいずれか一方によって検出されない音声オフセットの時間的なロケーションを示している。
図19は、図19の最上部プロットに示すバイナリ検出結果が、(この場合、OR論理を使用して)プロットBに示す利得ベース検出結果と、それぞれプロットDおよびEに示すオンセット検出結果/オフセット検出結果とのみを組み合わせることによって取得されるという点で、ならびに位相ベースVADと利得ベースVADの両方がハングオーバを含むように構成されるという点で、図17とは異なる。この場合、位相ベースVADからの結果は、図16に示す複数のフォールスポジティブのため、廃棄された。音声オンセット/オフセットVAD結果を利得ベースVAD結果と組み合わせることによって、利得ベースVADのためのハングオーバは低減され、位相ベースVADは必要とされなかった。この記録は遠距離場干渉音声をも含むが、遠距離場音声は顕著な高周波情報がない傾向があるので、近距離場音声オンセット/オフセット検出器は遠距離場干渉音声を検出することが適切にできなかった。
高周波情報は音声了解度にとって重要であり得る。空気は、それを通って進む音に対する低域フィルタのように働くので、音源とマイクロフォンとの間の距離が増加するにつれて、マイクロフォンによってピックアップされる高周波情報の量は一般に減少することになる。同様に、所望の話者とマイクロフォンとの間の距離が増加するにつれて、低エネルギー音声は背景雑音に埋もれるようになる傾向がある。しかしながら、方法M100に関して本明細書で説明したように、高周波数レンジにわたってコヒーレントであるエネルギーアクティブ化のインジケータは、記録されたスペクトルにおいてこの高周波特徴が依然として検出可能であり得るので、低周波音声特性を不明瞭にし得る雑音の存在下でも近距離場音声を追跡するために使用され得る。
図20に、街頭雑音に埋もれた近距離場音声のマルチチャネル記録のスペクトログラムを示し、図21〜図23に、図20の記録に適用される異なるボイス検出ストラテジの例を示す。これらの図の最上部プロットは、時間領域における入力信号と、個々のVAD結果のうちの2つ以上を組み合わせることによって生成されたバイナリ検出結果とを示している。これらの図の他のプロットの各々は、VAD統計値の時間領域波形と、(各プロット中の水平線によって示される)対応する検出器についてのしきい値と、得られたバイナリ検出決定とを示している。
図21は、利得ベースおよび位相ベースVADを補完するために音声オンセットおよび/またはオフセット検出がどのように使用され得るかの一例を示している。左側の矢印のグループは、音声オフセットVADによってのみ検出された音声オフセットを示しており、右側の矢印のグループは、音声オンセットVADによってのみ検出された音声オンセット(低いSNRにおける発話「to」および「pure」のオンセット)を示している。
図22は、ハングオーバなしの位相ベースVADと利得ベースVAD(プロットBとプロットC)のみの組合せ(プロットA)が、オンセット統計値/オフセット統計値(プロットDおよびE)を使用して検出され得る低エネルギー音声特徴を頻繁に逃すことを示している。図23のプロットAは、個々の検出器のすべての4つからの結果(すべての検出器上でハングオーバがある、図23のプロットB〜E)を組み合わせることが、正確なオフセット検出をサポートし、同様に単語オンセットを正しく検出しながら、利得ベースおよび位相ベースVAD上でより小さいハングオーバの使用を可能にすることを示している。
雑音低減および/または抑圧のためにボイスアクティビティ検出(VAD)演算の結果を使用することが望ましいことがある。1つのそのような例では、(たとえば、雑音周波数成分および/またはセグメントを減衰させるために)チャネルのうちの1つまたは複数上でVAD信号が利得制御として適用される。別のそのような例では、更新される雑音推定値に基づくマルチチャネル信号の少なくとも1つのチャネル上で(たとえば、VAD演算によって雑音として分類された周波数成分またはセグメントを使用して)雑音低減演算のための雑音推定値を計算する(たとえば、更新する)ためにVAD信号が適用される。そのような雑音低減演算の例は、スペクトル減算演算およびウィーナーフィルタ処理演算を含む。本明細書で開示するVADストラテジとともに使用され得る後処理演算のさらなる例(たとえば、残差雑音抑圧、雑音推定値組合せ)は、米国特許出願第61/406,382号(Shinら。2010年10月25日出願)に記載されている。
典型的な環境における音響雑音には、バブル雑音、空港雑音、街頭雑音、競合する話し手のボイス、および/または干渉源(たとえば、テレビ受像機またはラジオ)からの音があり得る。したがって、そのような雑音は、一般に非定常であり、ユーザ自身のボイスの平均スペクトルに近い平均スペクトルを有することがある。単一マイクロフォン信号から計算される雑音電力基準信号は、通常、近似定常雑音推定値のみである。その上、そのような計算は一般に雑音電力推定遅延を伴うので、かなりの遅延の後にしか、サブバンド利得の対応する調整を実行することができない。環境雑音の確実な同時推定値を取得することが望ましいことがある。
雑音推定値の例は、シングルチャネルVADと、マルチチャネルBSSフィルタによって生成された雑音基準とに基づくシングルチャネル長期推定値を含む。1次マイクロフォンチャネルの成分および/またはセグメントを分類するために近接度検出演算からの(デュアルチャネル)情報を使用することによってシングルチャネル雑音基準が計算され得る。そのような雑音推定値は、長期推定値を必要としないので、他の手法よりもはるかに迅速に利用可能であり得る。また、このシングルチャネル雑音基準は、一般に非定常雑音の除去をサポートすることができない長期推定値ベースの手法とは異なり、非定常雑音をキャプチャすることができる。そのような方法は速く正確な非定常雑音基準を与え得る。雑音基準は(たとえば、第1度平滑器を使用して、場合によっては各周波数成分上で)平滑化され得る。近接度検出の使用により、そのような方法を使用するデバイスは、方向マスキング関数の前方ローブに移る自動車の雑音の音など、近くの過渡現象を除去することが可能になり得る。
本明細書で説明するVAD指示は、雑音基準信号の計算をサポートするために使用され得る。たとえば、フレームが雑音であることをVAD指示が示すとき、そのフレームは、雑音基準信号(たとえば、1次マイクロフォンチャネルの雑音成分のスペクトルプロファイル)を更新するために使用され得る。そのような更新は、たとえば、周波数成分値を時間的に平滑化することによって(たとえば、現在の雑音推定値の対応する成分の値で各成分の前の値を更新することによって)、周波数領域において実行され得る。一例では、ウィーナーフィルタが、1次マイクロフォンチャネルに対して雑音低減演算を実行するために雑音基準信号を使用する。別の例では、スペクトル減算演算が、(たとえば、1次マイクロフォンチャネルから雑音スペクトルを減算することによって)1次マイクロフォンチャネルに対して雑音低減演算を実行するために雑音基準信号を使用する。フレームが雑音でないことをVAD指示が示すとき、そのフレームは、1次マイクロフォンチャネルの信号成分のスペクトルプロファイルを更新するために使用され得、また、そのプロファイルは、雑音低減演算を実行するためにウィーナーフィルタによって使用され得る。得られる演算は、デュアルチャネルVAD演算を利用する擬似シングルチャネル雑音低減アルゴリズムであると見なされ得る。
上記で説明した適応ハングオーバは、音声の間隔の間の連続検出結果を維持しながら音声セグメントと雑音との間のより正確な区別を行うためにボコーダコンテキストにおいて有用であり得る。しかしながら、別のコンテキストでは、そのような行為によりVAD結果が音声の同じ間隔内で状態を変化させる場合でも、(たとえば、ハングオーバをなくすために)VAD結果のより迅速な遷移を可能にすることが望ましいことがある。たとえば、雑音低減コンテキストでは、ボイスアクティビティ検出器が雑音として識別するセグメントに基づいて雑音推定値を計算することと、計算された雑音推定値を使用して、音声信号に対して雑音低減演算(たとえば、ウィーナーフィルタ処理または他のスペクトル減算演算)を実行することとが望ましいことがある。そのような場合、ユーザが話している間にそのようなチューニングによりVAD信号が状態を変化させる場合でも、(たとえば、フレームごとに)より正確なセグメンテーションを取得するように検出器を構成することが望ましいことがある。
方法M100の実装形態は、単独であろうと1つまたは複数の他のVAD技法との組合せであろうと、信号の各セグメントについてバイナリ検出結果(たとえば、ボイスの場合は高いまたは「1」、および他の場合は低いまたは「0」)を生成するように構成され得る。代替的に、方法M100の実装形態は、単独であろうと1つまたは複数の他のVAD技法との組合せであろうと、各セグメントについて2つ以上の検出結果を生成するように構成され得る。たとえば、セグメントの異なる周波数サブバンドにわたるオンセットおよび/またはオフセット連続性に基づいてそのバンドを個々に特徴づける時間周波数VAD技法を取得するために、音声オンセットおよび/またはオフセットの検出が使用され得る。そのような場合、前述のサブバンド分割方式のいずれか(たとえば、一様、バーク尺度、メル尺度)が使用され得、各サブバンドについてタスクT500およびT600のインスタンスが実行され得る。非一様サブバンド分割方式では、タスクT500の各サブバンドインスタンスは、たとえば、タスクT600の各サブバンドインスタンスが同じしきい値(たとえば、オンセットの場合は0.7、オフセットの場合は−0.15)を使用し得るように、対応するサブバンドのためのアクティブ化の数を正規化する(たとえば、平均化する)ことが望ましいことがある。
そのようなサブバンドVAD技法は、たとえば、所与のセグメントが、500〜1000Hz帯域では音声を搬送し、1000〜1200Hz帯域では雑音を搬送し、1200〜2000Hz帯域では音声を搬送することを示し得る。そのような結果は、コーディング効率および/または雑音低減パフォーマンスを増加させるために適用され得る。また、そのようなサブバンドVAD技法は、様々なサブバンドの各々において独立したハングオーバ論理(および場合によっては異なるハングオーバ間隔)を使用することが望ましいことがある。サブバンドVAD技法では、本明細書で説明するハングオーバ期間の適応が、様々なサブバンドの各々において独立して実行され得る。組み合わせられたVAD技法のサブバンド実装形態は、各個の検出器についてのサブバンド結果を組み合わせることを含み得、または代替的に、すべての検出器よりも少数の(場合によってはただ1つの)検出器からのサブバンド結果を、他の検出器からのセグメントレベルの結果と組み合わせることを含み得る。
位相ベースVADの一例では、各周波数成分において方向マスキング関数が適用されて、その周波数における位相差が所望のレンジ内にある方向に対応するかどうかが判断され、テスト中の周波数レンジにわたるそのようなマスキングの結果に従ってコヒーレンシ測度が計算され、しきい値と比較されて、バイナリVAD指示が取得される。そのような手法は、(たとえば、単一の方向マスキング関数がすべての周波数において使用され得るように)各周波数における位相差を、到着方向または到着時間差など、方向の周波数独立インジケータに変換することを含み得る。代替的に、そのような手法は、各周波数において観測される位相差に異なるそれぞれのマスキング関数を適用することを含み得る。
位相ベースVADの別の例では、テスト中の周波数レンジ内の個々の周波数成分の到着方向の分布の形状(たとえば、個々のDOAが互いにどのくらい緊密にグループ化されるか)に基づいてコヒーレンシ測度が計算される。いずれの場合も、現在のピッチ推定値の倍数である周波数のみに基づいて位相VADにおいてコヒーレンシ測度を計算することが望ましいことがある。
検査されるべき各周波数成分について、たとえば、位相ベース検出器は、対応するFFT係数の虚数項とFFT係数の実数項との比の(アークタンジェントとも呼ばれる)逆タンジェントとして位相を推定するように構成され得る。
広帯域周波数レンジにわたって各ペアのチャネル間の方向コヒーレンスを判断するように位相ベースボイスアクティビティ検出器を構成することが望ましいことがある。そのような広帯域レンジは、たとえば、0、50、100、または200Hzの低周波限界から、3、3.5、または4kHzの(あるいは最高7または8kHz以上など、さらにより高い)高周波限界に及び得る。ただし、検出器は、信号の帯域幅全体にわたって位相差を計算することが不要であり得る。たとえば、そのような広帯域レンジにおける多くの帯域では、位相推定が実際的でないかまたは不要であり得る。超低周波数における受信した波形の位相関係の実際的評価は、一般に、トランスデューサ間で相応して大きい間隔を必要とする。したがって、マイクロフォン間の最大の利用可能な間隔は、低周波限界を確立し得る。一方、マイクロフォン間の距離は、空間エイリアシングを回避するために、最小波長の1/2を超えるべきではない。たとえば、8キロヘルツサンプリングレートは0から4キロヘルツまでの帯域幅を与える。4kHz信号の波長は約8.5センチメートルであるので、この場合、隣接するマイクロフォン間の間隔は約4センチメートルを超えるべきではない。マイクロフォンチャネルは、空間エイリアシングを生じ得る周波数を除去するために低域フィルタ処理され得る。
音声信号(または他の所望の信号)が方向的にコヒーレントであることが予想され得る、特定の周波数成分または特定の周波数レンジをターゲットにすることが望ましいことがある。(たとえば、自動車などの音源からの)指向性雑音および/または拡散雑音など、背景雑音は同じレンジにわたって方向的にコヒーレントでないことになることが予想され得る。音声は4から8キロヘルツまでのレンジにおいて低電力を有する傾向があり、したがって、少なくともこのレンジにわたって位相推定を控えることが望ましいことがある。たとえば、約700ヘルツから約2キロヘルツまでのレンジにわたって位相推定を実行し、方向コヒーレンシを判断することが望ましいことがある。
したがって、周波数成分のすべてよりも少数の周波数成分について(たとえば、FFTの周波数サンプルのすべてよりも少数の周波数サンプルについて)位相推定値を計算するように検出器を構成することが望ましいことがある。一例では、検出器は700Hz〜2000Hzの周波数レンジについて位相推定値を計算する。4キロヘルツ帯域幅信号の128点FFTの場合、700〜2000Hzのレンジは、ほぼ、第10のサンプルから第32のサンプルまでの23個の周波数サンプルに対応する。信号についての現在のピッチ推定値の倍数に対応する周波数成分について位相差のみを考慮するように検出器を構成することも望ましいことがある。
位相ベース検出器は、計算された位相差からの情報に基づいて、チャネルペアの方向コヒーレンスを評価するように構成され得る。マルチチャネル信号の「方向コヒーレンス」は、信号の様々な周波数成分が同じ方向から到着する程度として定義される。理想的に方向的にコヒーレントなチャネルペアの場合、
Figure 2013525848
の値はすべての周波数について定数kに等しく、ここで、kの値は到着方向θおよび到着時間遅延τに関係する。マルチチャネル信号の方向コヒーレンスは、たとえば、(たとえば、方向マスキング関数によって示されるように)各周波数成分について推定される到着方向が特定の方向にどのくらいよく適合するかに従って、(位相差および周波数の比によって、または到着時間遅延によって示されることもある)各周波数成分について推定される到着方向をレーティングすることと、次いで、その信号についてのコヒーレンシ測度を取得するために様々な周波数成分についてのレーティング結果を組み合わせることとによって、定量化され得る。
コヒーレンシ測度を時間平滑化値として生成すること(たとえば、時間平滑化関数を使用してコヒーレンシ測度を計算すること)が望ましいことがある。コヒーレンシ測度の対比は、コヒーレンシ測度の現在値と、経時的コヒーレンシ測度の平均値(たとえば、直近の10、20、50、または100フレームにわたる平均値、最頻値、または中央値)との間の関係の値(たとえば、差または比)として表され得る。コヒーレンシ測度の平均値は、時間平滑化関数を使用して計算され得る。また、方向コヒーレンスの測度の計算および適用を含む、位相ベースVAD技法は、たとえば、米国特許出願公開第2010/0323652 A1号および第2011/038489 A1号(Visserら)に記載されている。
利得ベースVAD技法は、各チャネルについて利得測度の対応する値の間の差に基づいてセグメント中のボイスアクティビティの存在または不在を示すように構成され得る。(時間領域においてまたは周波数領域において計算され得る)そのような利得測度の例は、合計大きさ、平均大きさ、RMS振幅、中央大きさ、ピーク大きさ、総エネルギー、および平均エネルギーを含む。利得測度に対しておよび/または計算された差に対して時間平滑化演算を実行するように検出器を構成することが望ましいことがある。上記のように、利得ベースVAD技法は、(たとえば、所望の周波数レンジにわたる)セグメントレベルの結果、または代替的に、各セグメントの複数のサブバンドの各々についての結果を生成するように構成され得る。
チャネル間の利得差が近接度検出のために使用され得、これは、より良い前面雑音抑圧(たとえば、ユーザの前の干渉話者の抑圧)など、よりアグレッシブな近距離場/遠距離場弁別をサポートし得る。マイクロフォン間の距離に応じて、平衡マイクロフォンチャネル間の利得差は、一般に、音源が50センチメートルまたは1メートル以内にある場合のみ発生することになる。
利得ベースVAD技法は、チャネルの利得間の差がしきい値よりも大きいとき、セグメントが所望の音源からのものであることを検出する(たとえば、ボイスアクティビティの検出を示す)ように構成され得る。しきい値はヒューリスティックに判断され得、信号対雑音比(SNR)、雑音フロアなどの1つまたは複数のファクタに応じて異なるしきい値を使用すること(たとえば、SNRが低いときにより高いしきい値を使用すること)が望ましいことがある。また、利得ベースVAD技法は、たとえば、米国特許出願公開第2010/0323652 A1号(Visserら)に記載されている。
また、組み合わせられた検出器中の個々の検出器のうちの1つまたは複数が、個々の検出器のうちの別の検出器とは異なる時間スケールで結果を生成するように構成され得ることに留意されたい。たとえば、利得ベース、位相ベース、またはオンセットオフセット検出器は、長さmの各セグメントについてVAD指示を生成するように構成された利得ベース、位相ベース、またはオンセットオフセット検出器からの結果と組み合わせられるべき、長さnの各セグメントについてVAD指示を生成するように構成され得、その場合、nはmよりも小さい。
音声アクティブフレームを音声非アクティブフレームと弁別するボイスアクティビティ検出(VAD)は、音声強調および音声コーディングの重要な部分である。上記のように、シングルチャネルVADの例は、SNRベースVAD、尤度比ベースVAD、および音声オンセット/オフセットベースVADを含み、デュアルチャネルVAD技法の例は、位相差ベースVADおよび(近接度ベースとも呼ばれる)利得差ベースVADを含む。デュアルチャネルVADは、概して、シングルチャネル技法よりも正確であるが、一般に、マイクロフォン利得不整合、および/またはユーザが電話を保持している角度に大きく依存する。
図24に、水平位置から−30度、−50度、−70度、および−90度の保持角で6dB SNRの近接度ベースVADテスト統計値対位相差ベースVADテスト統計値の分散プロットを示す。図24および図27〜図29では、グレーの点は音声アクティブフレームに対応し、黒い点は音声非アクティブフレームに対応する。位相差ベースVADでは、この例で使用されるテスト統計値は、ルック方向のレンジにおける推定されたDoAでの周波数ビンの平均数であり(位相コヒーレンシ測度とも呼ばれる)、大きさ差ベースVADでは、この例で使用されるテスト統計値は、1次マイクロフォンと2次マイクロフォンとの間のログRMSレベル差である。図24は、なぜ固定しきい値が、異なる保持角に好適でないことがあるかを証明している。
ポータブルオーディオ感知デバイス(たとえば、ヘッドセットまたはハンドセット)のユーザが、ユーザの口に対する最適でない配向(保持位置または保持角とも呼ばれる)でデバイスを使用すること、および/またはデバイスの使用の間に保持角を変化させることは珍しくない。保持角のそのような変化はVAD段のパフォーマンスに悪影響を及ぼし得る。
変化する保持角に対処する1つの手法は、(たとえば、マイクロフォン間の位相差または到着時間差(TDOA:time-difference-of-arrival)、および/または利得差に基づき得る、到着方向(DoA)推定を使用して)保持角を検出することである。代替または追加として使用され得る、変化する保持角に対処する別の手法は、VADテスト統計値を正規化することである。そのような手法は、保持角を明示的に推定することなしに、VADしきい値を保持角に関係する統計値の関数にするという効果を有するように実装され得る。
オンライン処理では、最小統計値ベースの手法が利用され得る。保持角が変化し、マイクロフォンの利得応答が調和していない状況の場合でも、弁別力を最大にするために、最大および最小統計値追跡に基づくVADテスト統計値の正規化が提案される。
前に雑音電力スペクトル推定アルゴリズムのために使用された、最小統計値アルゴリズムは、ここで最小および最大平滑化テスト統計値追跡のために適用される。最大テスト統計値追跡では、同じアルゴリズムが(20−テスト統計値)の入力とともに使用される。たとえば、最大テスト統計値追跡は、同じアルゴリズムを使用して最小統計値追跡方法から導出され得、したがって、基準点(たとえば、20dB)から最大テスト統計値を減算することが望ましいことがある。次いで、そのテスト統計値は、次のように、0の最小平滑化統計値および1の最大平滑化統計値を作成するために歪曲され得る。
Figure 2013525848
上式で、stは入力テスト統計値を示し、st’は正規化テスト統計値を示し、sminは、追跡された最小平滑化テスト統計値を示し、sMAXは、追跡された最大平滑化テスト統計値を示し、ξは元の(固定)しきい値を示す。正規化テスト統計値st’は、平滑化により[0,1]レンジの外の値を有し得ることに留意されたい。
式(N1)に示す決定ルールは、次のように適応しきい値とともに非正規化テスト統計値stを使用して同等に実装され得ることが、明確に企図され、本明細書によって開示される。
Figure 2013525848
上式で、(sMAX−smin)ξ+sminは、正規化テスト統計値st’とともに固定しきい値ξを使用することに相当する適応しきい値ξ’を示す。
位相差ベースVADは、一般にマイクロフォンの利得応答の差の影響を受けないが、利得差ベースVADは、一般にそのような不整合に極めて敏感である。この方式の潜在的な追加の利益は、正規化テスト統計値st’がマイクロフォン利得較正から独立していることである。たとえば、2次マイクロフォンの利得応答が通常よりも1dB高い場合、現在のテスト統計値st、ならびに最大統計値sMAXおよび最小統計値sminは、1dB低くなる。したがって、正規化テスト統計値st’は同じであることになる。
図25に、水平位置から−30度、−50度、−70度、および−90度の保持角で6dB SNRの近接度ベースVADテスト統計値の場合の追跡された最小(黒、下側トレース)および最大(グレー、上側トレース)テスト統計値を示す。図26に、水平位置から−30度、−50度、−70度、および−90度の保持角で6dB SNRの位相ベースVADテスト統計値の場合のトレースされた最小(黒、下側トレース)および最大(グレー、上側トレース)テスト統計値を示す。図27に、式(N1)に従って正規化されたこれらのテスト統計値についての分散プロットを示す。各プロット中の2つのグレーの線および3つの黒い線は、すべての4つの保持角について同じであるように設定された2つの異なるVADしきい値について考えられる提案を示している(一方の色のすべての線の右上側は音声アクティブフレームであると見なされる)。
式(N1)中の正規化に伴う1つの問題は、全体の分布はうまく正規化されるが、雑音のみの間隔(黒い点)についての正規化スコア差異は、狭い非正規テスト統計値レンジの場合、比較的増加することである。たとえば、図27は、保持角が−30度から−90度まで変化するにつれて、黒い点のかたまりが拡散することを示している。この拡散は、次式などの修正を使用して制御され得る。
Figure 2013525848
または同等に、
Figure 2013525848
上式で、0≦α≦1は、スコアを正規化することと、雑音統計値の差異の増加を抑止することとの間のトレードオフを制御するパラメータである。また、sMAX−sminはマイクロフォン利得から独立していることになるので、式(N3)中の正規化統計値はマイクロフォン利得変化から独立していることに留意されたい。
αの値=0により、図27が導かれることになる。図28に、両方のVAD統計値についてαの値=0.5を適用することから生じる分散プロットのセットを示す。図29に、位相VAD統計値についてはαの値=0.5を適用し、近接度VAD統計値についてはαの値=0.25を適用することから生じる分散プロットのセットを示す。これらの図は、そのような方式とともに固定しきい値を使用することにより、様々な保持角についてパフォーマンスが適度にロバストになり得ることを示している。
そのようなテスト統計値は(たとえば、上記の式(N1)または(N3)の場合のように)正規化され得る。代替的に、アクティブ化された(すなわち、エネルギーの急な増加または減少を示す)周波数帯域の数に対応するしきい値が(たとえば、上記の式(N2)または(N4)の場合のように)適応され得る。
また、追加または代替として、式(N1)〜(N4)に関して説明した正規化技法は、1つまたは複数の他のVAD統計値(たとえば、低周波近接度VAD、オンセットおよび/またはオフセット検出)とともに使用され得る。たとえば、そのような技法を使用してΔE(k,n)を正規化するようにタスクT300を構成することが望ましいことがある。正規化は、信号レベルおよび雑音非定常性に対するオンセット/オフセット検出のロバストネスを増加させ得る。
オンセット/オフセット検出では、ΔE(k,n)の2乗の最大値および最小値を追跡すること(たとえば、正値のみを追跡すること)が望ましいことがある。また、最大値をΔE(k,n)のクリッピングされた値の2乗として(たとえば、オンセットの場合はmax[0,ΔE(k,n)]の2乗として、およびオフセットの場合はmin[0,ΔE(k,n)]の2乗として)追跡することが望ましいことがある。最小統計値追跡では、雑音変動を追跡するために、オンセットの場合はΔE(k,n)の負値、およびオフセットの場合はΔE(k,n)の正値が有用であることがあるが、最大統計値追跡では、それらの値はあまり有用でないことがある。オンセット/オフセット統計値の最大値は、緩やかに減少し、急速に上昇することになることが予想され得る。
概して、(たとえば、方法M100およびM200の様々な実装形態の場合のように)本明細書で説明するオンセットおよび/またはオフセットならびに組み合わせられたVADストラテジは、音響信号を受信するように構成された2つ以上のマイクロフォンのアレイR100をそれぞれが有する1つまたは複数のポータブルオーディオ感知デバイスを使用して実装され得る。そのようなアレイを含むように、また、オーディオ記録および/またはボイス通信適用例のためにそのようなVADストラテジとともに使用されるように構築され得るポータブルオーディオ感知デバイスの例には、電話ハンドセット(たとえば、セルラー電話ハンドセット)、ワイヤードまたはワイヤレスヘッドセット(たとえば、Bluetooth(登録商標)ヘッドセット)、ハンドヘルドオーディオおよび/またはビデオレコーダ、オーディオおよび/またはビデオコンテンツを記録するように構成されたパーソナルメディアプレーヤ、携帯情報端末(PDA)または他のハンドヘルドコンピューティングデバイス、およびノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、または他のポータブルコンピューティングデバイスがある。アレイR100のインスタンスを含むように、また、そのようなVADストラテジとともに使用されるように構築され得るオーディオ感知デバイスの他の例には、セットトップボックスならびにオーディオおよび/またはビデオ会議デバイスがある。
アレイR100の各マイクロフォンは、全方向、双方向、または単方向(たとえば、カージオイド)である応答を有し得る。アレイR100において使用され得る様々なタイプのマイクロフォンには、(限定はしないが)圧電マイクロフォン、ダイナミックマイクロフォン、およびエレクトレットマイクロフォンがある。ハンドセットまたはヘッドセットなど、ポータブルボイス通信のためのデバイスでは、アレイR100の隣接するマイクロフォン間の中心間間隔は一般に約1.5cmから約4.5cmまでの範囲内であるが、ハンドセットまたはスマートフォンなどのデバイスでは(たとえば、10cmまたは15cmまでの)より広い間隔も可能であり、タブレットコンピュータなどのデバイスでは(たとえば、20cm、25cmまたは30cm以上までの)さらに広い間隔が可能である。補聴器では、アレイR100の隣接するマイクロフォン間の中心間間隔はわずか約4mmまたは5mmであり得る。アレイR100のマイクロフォンは、線に沿って、あるいは代替的に、それらの中心が2次元形状(たとえば、三角形)または3次元形状の頂点に存在するように構成され得る。ただし、概して、アレイR100のマイクロフォンは、特定の適用例に好適と見なされる任意の構成で配設され得る。たとえば、図38および図39に、正多角形に準拠しないアレイR100の5マイクロフォン実装形態の一例をそれぞれ示す。
本明細書で説明するマルチマイクロフォンオーディオ感知デバイスの動作中、アレイR100はマルチチャネル信号を生成し、各チャネルは、音響環境に対するマイクロフォンのうちの対応する1つの応答に基づく。単一のマイクロフォンを使用してキャプチャされ得るよりも完全な、音響環境の表現を集合的に与えるために、対応するチャネルが互いに異なるように、1つのマイクロフォンが別のマイクロフォンよりも直接的に特定の音を受信し得る。
アレイR100は、マルチチャネル信号S10を生成するために、マイクロフォンによって生成された信号に対して1つまたは複数の処理演算を実行することが望ましいことがある。図30Aに、(限定はしないが)インピーダンス整合、アナログデジタル変換、利得制御、ならびに/あるいはアナログおよび/またはデジタル領域におけるフィルタ処理を含み得る、1つまたは複数のそのような演算を実行するように構成されたオーディオ前処理段AP10を含むアレイR100の実装形態R200のブロック図を示す。
図30Bに、アレイR200の実装形態R210のブロック図を示す。アレイR210は、アナログ前処理段P10aとアナログ前処理段P10bとを含むオーディオ前処理段AP10の実装形態AP20を含む。一例では、段P10aおよびP10bはそれぞれ、対応するマイクロフォン信号に対して(たとえば、50、100、または200Hzのカットオフ周波数をもつ)高域フィルタ処理演算を実行するように構成される。
アレイR100は、マルチチャネル信号をデジタル信号として、すなわち、サンプルのシーケンスとして生成することが望ましいことがある。アレイR210は、たとえば、対応するアナログチャネルをサンプリングするようにそれぞれ構成されたアナログデジタル変換器(ADC)C10aおよびC10bを含む。音響適用例の典型的なサンプリングレートには、8kHz、12kHz、16kHz、および約8kHzから約16kHzまでのレンジ内の他の周波数があるが、約44または192kHzと同じ程度のサンプリングレートも使用され得る。この特定の例では、アレイR210は、対応するデジタル化チャネルに対して1つまたは複数の前処理演算(たとえば、エコー消去、雑音低減、および/またはスペクトル整形)を実行するようにそれぞれ構成されたデジタル前処理段P20aおよびP20bをも含む。
アレイR100のマイクロフォンは、より一般的には、音以外の放射または放出に敏感なトランスデューサとして実装され得ることに明確に留意されたい。1つのそのような例では、アレイR100のマイクロフォンは、超音波トランスデューサ(たとえば、15、20、25、30、40、または50キロヘルツ以上よりも大きい音響周波数に敏感なトランスデューサ)として実装される。
図31Aに、一般的構成によるデバイスD10のブロック図を示す。デバイスD10は、本明細書で開示するマイクロフォンアレイR100の実装形態のうちのいずれかのインスタンスを含み、本明細書で開示するオーディオ感知デバイスのいずれもデバイスD10のインスタンスとして実装され得る。デバイスD10は、アレイR100によって生成されたマルチチャネル信号S10を処理するように構成された装置AP10の実装形態のインスタンス(たとえば、装置A100、MF100、A200、MF200、あるいは本明細書で開示する方法M100またはM200の実装形態のうちのいずれかのインスタンスを実行するように構成された他の装置のインスタンス)をも含む。装置AP10は、ハードウェアで、ならびに/あるいはソフトウェアおよび/またはファームウェアとのハードウェアの組合せで実装され得る。たとえば、装置AP10はデバイスD10のプロセッサ上に実装され得、また、そのプロセッサは、信号S10の1つまたは複数のチャネルに対して1つまたは複数の他の演算(たとえば、ボコーディング)を実行するように構成され得る。
図31Bに、デバイスD10の実装形態である通信デバイスD20のブロック図を示す。本明細書で説明するポータブルオーディオ感知デバイスのいずれも、装置AP10を含むチップまたはチップセットCS10(たとえば、移動局モデム(MSM)チップセット)を含む、デバイスD20のインスタンスとして実装され得る。チップ/チップセットCS10は、装置AP10のソフトウェアおよび/またはファームウェア部分を(たとえば、命令として)実行するように構成され得る1つまたは複数のプロセッサを含み得る。チップ/チップセットCS10はまた、アレイR100の処理要素(たとえば、オーディオ前処理段AP10の要素)を含み得る。チップ/チップセットCS10は、無線周波(RF)通信信号を受信し、RF信号内で符号化されたオーディオ信号を復号し再生するように構成された、受信機と、装置AP10によって生成された処理済み信号に基づくオーディオ信号を符号化し、符号化オーディオ信号を記述しているRF通信信号を送信するように構成された、送信機とを含み得る。たとえば、チップ/チップセットCS10の1つまたは複数のプロセッサは、符号化オーディオ信号が雑音低減信号に基づくように、マルチチャネル信号の1つまたは複数のチャネルに対して上記で説明した雑音低減演算を実行するように構成され得る。
デバイスD20は、アンテナC30を介してRF通信信号を受信および送信するように構成される。デバイスD20はまた、アンテナC30への経路中にダイプレクサと1つまたは複数の電力増幅器とを含み得る。また、チップ/チップセットCS10は、キーパッドC10を介してユーザ入力を受信し、ディスプレイC20を介して情報を表示するように構成される。この例では、デバイスD20は、全地球測位システム(GPS)ロケーションサービス、および/またはワイヤレス(たとえば、Bluetooth(商標))ヘッドセットなどの外部デバイスとの短距離通信をサポートする、1つまたは複数のアンテナC40をも含む。別の例では、そのような通信デバイスは、それ自体でBluetoothヘッドセットであり、キーパッドC10、ディスプレイC20、およびアンテナC30がない。
図32A〜図32Dに、オーディオ感知デバイスD10のポータブルマルチマイクロフォン実装形態D100の様々な図を示す。デバイスD100は、アレイR100の2マイクロフォン実装形態と、ハウジングから延在するイヤフォンZ20とを支持するハウジングZ10を含むワイヤレスヘッドセットである。そのようなデバイスは、(たとえば、Bluetooth Special Interest Group,Inc.、Bellevue、WAによって公表されたBluetooth(商標)プロトコルのバージョンを使用して)セルラー電話ハンドセットなどの電話デバイスとの通信を介した半二重または全二重テレフォニーをサポートするように構成され得る。概して、ヘッドセットのハウジングは、図32A、図32B、および図32Dに示すように矩形またはさもなければ細長い形(たとえば、ミニブームのような形)であるか、あるいはより丸い形、さらには円形であり得る。ハウジングはまた、バッテリーおよびプロセッサおよび/または他の処理回路(たとえば、プリント回路板およびその上に取り付けられた構成要素)を封入し得、電気的ポート(たとえば、ミニユニバーサルシリアルバス(USB)もしくはバッテリー充電用の他のポート)と、1つまたは複数のボタンスイッチおよび/またはLEDなどのユーザインターフェース機能とを含み得る。一般に、ハウジングの長軸に沿った長さは1インチから3インチまでの範囲内にある。
一般に、アレイR100の各マイクロフォンは、デバイス内に、音響ポートとして働く、ハウジング中の1つまたは複数の小さい穴の背後に取り付けられる。図32B〜図32Dは、デバイスD100のアレイの1次マイクロフォンのための音響ポートZ40と、デバイスD100のアレイの2次マイクロフォンのための音響ポートZ50とのロケーションを示している。
ヘッドセットは、イヤフックZ30などの固定デバイスをも含み得、これは一般にヘッドセットから着脱可能である。外部イヤフックは、たとえば、ユーザがヘッドセットをいずれの耳でも使用するように構成することを可能にするために、可逆的であり得る。代替的に、ヘッドセットのイヤフォンは、内部固定デバイス(たとえば、イヤプラグ)として設計され得、この内部固定デバイスは、特定のユーザの耳道の外側部分により良く合うように、異なるユーザが異なるサイズ(たとえば、直径)のイヤピースを使用できるようにするためのリムーバブルイヤピースを含み得る。
図33に、使用中のそのようなデバイス(ワイヤレスヘッドセットD100)の一例の上面図を示す。図34に、使用中のデバイスD100の様々な標準配向の側面図を示す。
図35A〜図35Dに、ワイヤレスヘッドセットの別の例であるマルチマイクロフォンポータブルオーディオ感知デバイスD10の実装形態D200の様々な図を示す。デバイスD200は、丸みのある、楕円のハウジングZ12と、イヤプラグとして構成され得るイヤフォンZ22とを含む。図35A〜図35Dはまた、デバイスD200のアレイの1次マイクロフォンのための音響ポートZ42と、2次マイクロフォンのための音響ポートZ52とのロケーションを示している。2次マイクロフォンポートZ52は(たとえば、ユーザインターフェースボタンによって)少なくとも部分的にふさがれ得る。
図36Aに、通信ハンドセットであるデバイスD10のポータブルマルチマイクロフォン実装形態D300の(中心軸に沿った)断面図を示す。デバイスD300は、1次マイクロフォンMC10と2次マイクロフォンMC20とを有するアレイR100の実装形態を含む。この例では、デバイスD300はまた1次ラウドスピーカーSP10と2次ラウドスピーカーSP20とを含む。そのようなデバイスは、1つまたは複数の(「コーデック」とも呼ばれる)符号化および復号方式を介してボイス通信データをワイヤレスに送信および受信するように構成され得る。そのようなコーデックの例には、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」と題するThird Generation Partnership Project 2(3GPP2)文書C.S0014−C、v1.0、2007年2月(www−dot−3gpp−dot−orgでオンライン入手可能)に記載されているEnhanced Variable Rate Codec、「Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems」と題する3GPP2文書C.S0030−0、v3.0、2004年1月(www−dot−3gpp−dot−orgでオンライン入手可能)に記載されているSelectable Mode Vocoder音声コーデック、文書ETSI TS 126 092 V6.0.0(European Telecommunications Standards Institute(ETSI)、Sophia Antipolis Cedex、FR、2004年12月)に記載されているAdaptive Multi Rate(AMR)音声コーデック、および文書ETSI TS 126 192 V6.0.0(ETSI、2004年12月)に記載されているAMR Wideband音声コーデックがある。図36Aの例では、ハンドセットD300は(「フリップ」ハンドセットとも呼ばれる)クラムシェルタイプセルラー電話ハンドセットである。そのようなマルチマイクロフォン通信ハンドセットの他の構成には、バータイプおよびスライダタイプ電話ハンドセットがある。
図37に、使用中のデバイスD300の様々な標準配向の側面図を示す。図36Bに、第3のマイクロフォンMC30を含む、アレイR100の3マイクロフォン実装形態を含む、デバイスD300の実装形態D310の断面図を示す。図38および図39に、それぞれ、デバイスD10の他のハンドセット実装形態D340およびD360の様々な図を示す。
アレイR100の4マイクロフォンインスタンスの一例では、マイクロフォンは、1つのマイクロフォンが、約3センチメートル間隔で離間した他の3つのマイクロフォンの位置によって頂点が定義される三角形の後ろ(たとえば、約1センチメートル後ろ)に配置されるような、ほぼ四面体の構成において構成される。そのようなアレイのための潜在的な適用例は、話者の口とアレイとの間の予想される距離が約20〜30センチメートルである、スピーカーフォンモードで動作するハンドセットを含む。図40Aに、4つのマイクロフォンMC10、MC20、MC30、MC40がほぼ四面体の構成において構成されたアレイR100のそのような実装形態を含むデバイスD10のハンドセット実装形態D320の正面図を示す。図40Bに、ハンドセット内のマイクロフォンMC10、MC20、MC30、およびMC40の位置を示すハンドセットD320の側面図を示す。
ハンドセット適用例のためのアレイR100の4マイクロフォンインスタンスの別の例は、ハンドセットの前面(たとえば、キーパッドの1、7、および9の位置の近く)にある3つのマイクロフォンと、背面(たとえば、キーパッドの7または9の位置の後ろ)にある1つのマイクロフォンとを含む。図40Cに、4つのマイクロフォンMC10、MC20、MC30、MC40が「星形」構成において構成されたアレイR100のそのような実装形態を含むデバイス10のハンドセット実装形態D330の正面図を示す。図40Dに、ハンドセット内のマイクロフォンMC10、MC20、MC30、およびMC40の位置を示すハンドセットD330の側面図を示す。本明細書で説明するオンセット/オフセットおよび/または組み合わせられたVADストラテジを実行するために使用され得るポータブルオーディオ感知デバイスの他の例には、マイクロフォンがタッチスクリーンの外周において同様にして構成された(たとえば、iPhone(Apple Inc.、Cupertino、CA)、HD2(HTC、Taiwan、ROC)またはCLIQ(Motorola,Inc.、Schaumberg、IL)など、フラットな非折り畳みスラブとしての)ハンドセットD320およびD330のタッチスクリーン実装形態がある。
図41A〜図41Cに、アレイR100のインスタンスを含むように、また、本明細書で開示するVADストラテジとともに使用されるように実装され得るポータブルオーディオ感知デバイスの追加の例を示す。これらの例の各々では、アレイR100のマイクロフォンが白抜きの円によって示されている。図41Aは、少なくとも1つの前向きマイクロフォンペアを有し、ペアの一方のマイクロフォンがテンプル上にあり、他方がテンプルまたは対応する端部部分上にある、眼鏡(たとえば、度付きメガネ、サングラス、または保護メガネ)を示している。図41Bは、アレイR100が1つまたは複数のマイクロフォンペア(この例では、口にあるペア、およびユーザの頭部の各側面にあるペア)を含む、ヘルメットを示している。図41Cは、少なくとも1つのマイクロフォンペア(この例では、前面および側面のペア)を含むゴーグル(たとえば、スキー用ゴーグル)を示している。
本明細書で開示する切替えストラテジとともに使用されるべき1つまたは複数のマイクロフォンを有するポータブルオーディオ感知デバイスのための追加の配置例は、限定はしないが、キャップまたはハットのバイザーまたは縁、ラペル、胸ポケット、肩、上腕(すなわち、肩と肘との間)、下腕(すなわち、肘と手首との間)、リストバンドあるいは腕時計を含む。上記ストラテジにおいて使用される1つまたは複数のマイクロフォンは、カメラまたはカムコーダなど、ハンドヘルドデバイス上に常駐し得る。
図42Aに、メディアプレーヤであるオーディオ感知デバイスD10のポータブルマルチマイクロフォン実装形態D400の図を示す。そのようなデバイスは、標準圧縮形式(たとえば、Moving Pictures Experts Group(MPEG)−1 Audio Layer 3(MP3)、MPEG−4 Part 14(MP4)、Windows(登録商標) Media Audio/Video(WMA/WMV)のバージョン(Microsoft Corp.、Redmond、WA)、Advanced Audio Coding(AAC)、International Telecommunication Union(ITU)−T H.264など)に従って符号化されたファイルまたはストリームなどの圧縮オーディオまたはオーディオビジュアル情報を再生するように構成され得る。デバイスD400は、デバイスの前面に配設されたディスプレイスクリーンSC10とラウドスピーカーSP10とを含み、アレイR100のマイクロフォンMC10およびMC20が、デバイスの同じ面に(たとえば、この例のように上面の両側に、または前面の両側に)配設される。図42Bに、マイクロフォンMC10およびMC20がデバイスの反対側の面に配設されたデバイスD400の別の実装形態D410を示し、図42Cに、マイクロフォンMC10およびMC20がデバイスの隣接する面に配設されたデバイスD400のさらなる実装形態D420を示す。また、メディアプレーヤは、意図された使用中、より長い軸が水平になるように設計され得る。
図43Aに、ハンズフリーカーキットであるマルチマイクロフォンオーディオ感知デバイスD10の実装形態D500の図を示す。そのようなデバイスは、車両のダッシュボード、風防、バックミラー、バイザー、または別の室内表面の中もしくは上に設置されるか、またはそれらに着脱自在に固定されるように構成され得る。デバイスD500はラウドスピーカー85とアレイR100の実装形態とを含む。この特定の例では、デバイスD500は、線形アレイで構成された4つのマイクロフォンとしてのアレイR100の実装形態R102を含む。そのようなデバイスは、上記の例などの1つまたは複数のコーデックを介してボイス通信データをワイヤレスに送信および受信するように構成され得る。代替または追加として、そのようなデバイスは、(たとえば、上記で説明したようにBluetooth(商標)プロトコルのバージョンを使用して)セルラー電話ハンドセットなどの電話デバイスとの通信を介した半二重または全二重テレフォニーをサポートするように構成され得る。
図43Bに、ライティングデバイス(たとえば、ペンまたは鉛筆)であるマルチマイクロフォンオーディオ感知デバイスD10のポータブルマルチマイクロフォン実装形態D600の図を示す。デバイスD600はアレイR100の実装形態を含む。そのようなデバイスは、上記の例などの1つまたは複数のコーデックを介してボイス通信データをワイヤレスに送信および受信するように構成され得る。代替または追加として、そのようなデバイスは、(たとえば、上記で説明したようにBluetooth(商標)プロトコルのバージョンを使用して)セルラー電話ハンドセットおよび/またはワイヤレスヘッドセットなどのデバイスとの通信を介した半二重または全二重テレフォニーをサポートするように構成され得る。デバイスD600は、アレイR100によって生成された信号中の、描画面81(たとえば、1枚の紙)上でのデバイスD600の先端の移動から生じ得る、スクラッチノイズ82のレベルを低減するために空間選択的処理演算を実行するように構成された1つまたは複数のプロセッサを含み得る。
ポータブルコンピューティングデバイスの種類は現在、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、ウルトラポータブルコンピュータ、タブレットコンピュータ、モバイルインターネットデバイス、スマートブック、またはスマートフォンなどの名称を有するデバイスを含む。1つのタイプのそのようなデバイスは、上記で説明したスレートまたはスラブ構成を有し、スライドアウト式キーボードをも含み得る。図44A〜図44Dに、ディスプレイスクリーンを含む上部パネルと、キーボードを含み得る下部パネルとを有し、2つのパネルが、クラムシェルまたは他のヒンジ結合関係で接続され得る、別のタイプのそのようなデバイスを示す。
図44Aは、ディスプレイスクリーンSC10の上方で上部パネルPL10上に線形アレイで構成された4つのマイクロフォンMC10、MC20、MC30、MC40を含むような、デバイスD10の実装形態D700の一例の正面図を示している。図44Bは、別の次元における4つのマイクロフォンの位置を示す上部パネルPL10の上面図を示している。図44Cは、ディスプレイスクリーンSC10の上方で上部パネルPL12上に非線形アレイで構成された4つのマイクロフォンMC10、MC20、MC30、MC40を含むような、デバイスD10のポータブルコンピューティング実装形態D710の別の例の正面図を示している。図44Dは、マイクロフォンMC10、MC20、およびMC30がパネルの前面に配設され、マイクロフォンMC40がパネルの背面に配設された、別の次元における4つのマイクロフォンの位置を示す上部パネルPL12の上面図を示している。
図45に、ハンドヘルド適用例のためのマルチマイクロフォンオーディオ感知デバイスD10のポータブルマルチマイクロフォン実装形態D800の図を示す。デバイスD800は、タッチスクリーンディスプレイTS10と、ユーザインターフェース選択コントロールUI10(左側)と、ユーザインターフェースナビゲーションコントロールUI20(右側)と、2つのラウドスピーカーSP10およびSP20と、3つの前面マイクロフォンMC10、MC20、MC30および1つの背面マイクロフォンMC40を含むアレイR100の実装形態とを含む。ユーザインターフェースコントロールの各々は、プッシュボタン、トラックボール、クリックホイール、タッチパッド、ジョイスティックおよび/または他のポインティングデバイスなどのうちの1つまたは複数を使用して実装され得る。ブラウズトークモードまたはゲームプレイモードで使用され得るデバイスD800の典型的なサイズは約15センチメートル×20センチメートルである。ポータブルマルチマイクロフォンオーディオ感知デバイスD10は、アレイR100のマイクロフォンがタブレットコンピュータの上面のマージン内および/または1つまたは複数の側面に配設された、上面上にタッチスクリーンディスプレイを含むタブレットコンピュータ(たとえば、iPad(Apple,Inc.)などの「スレート」、Slate(Hewlett−Packard Co.、Palo Alto、CA)またはStreak(Dell Inc.、Round Rock、TX))として同様に実装され得る。
本明細書で開示するVADストラテジの適用例はポータブルオーディオ感知デバイスに限定されない。図46A〜図46Dに、会議デバイスのいくつかの例の上面図を示す。図46Aは、アレイR100の3マイクロフォン実装形態(マイクロフォンMC10、MC20、およびMC30)を含む。図46Bは、アレイR100の4マイクロフォン実装形態(マイクロフォンMC10、MC20、MC30、およびMC40)を含む。図46Cは、アレイR100の5マイクロフォン実装形態(マイクロフォンMC10、MC20、MC30、MC40、およびMC50)を含む。図46Dは、アレイR100の6マイクロフォン実装形態(マイクロフォンMC10、MC20、MC30、MC40、MC50、およびMC60)を含む。アレイR100のマイクロフォンの各々を正多角形の対応する頂点に配置することが望ましいことがある。遠端オーディオ信号の再生のためのラウドスピーカーSP10は(たとえば、図46Aに示すように)デバイス内に含まれ得、および/またはそのようなラウドスピーカーは、(たとえば、音響的フィードバックを低減するために)デバイスとは別に配置され得る。追加の遠距離場使用事例の例は、(たとえば、ボイスオーバIP(VoIP)適用例をサポートするための)TVセットトップボックスおよびゲーム機(たとえば、MicrosoftのXbox、ソニーのプレイステーション、任天堂のWii)を含む。
本明細書で開示するシステム、方法、および装置の適用範囲は、図31〜図46Dに示す特定の例を含み、また、それらの例に限定されないことが明確に開示される。本明細書で開示する方法および装置は、概して任意の送受信および/またはオーディオ感知適用例、特にそのような適用例のモバイルまたは場合によってはポータブルインスタンスにおいて適用され得る。たとえば、本明細書で開示する構成の範囲は、符号分割多元接続(CDMA)無線インターフェースを採用するように構成されたワイヤレステレフォニー通信システム中に常駐する通信デバイスを含む。とはいえ、本明細書で説明する特徴を有する方法および装置は、ワイヤードおよび/またはワイヤレス(たとえば、CDMA、TDMA、FDMA、および/またはTD−SCDMA)送信チャネルを介したボイスオーバIP(VoIP)を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐し得ることが、当業者には理解されよう。
本明細書で開示する通信デバイスは、パケット交換式であるネットワーク(たとえば、VoIPなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび/またはワイヤレスネットワーク)および/または回線交換式であるネットワークにおける使用に適応させられ得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示する通信デバイスは、狭帯域コーディングシステム(たとえば、約4または5キロヘルツの可聴周波数レンジを符号化するシステム)での使用、ならびに/または全帯域広帯域コーディングシステムおよびスプリットバンド広帯域コーディングシステムを含む、広帯域コーディングシステム(たとえば、5キロヘルツを超える可聴周波数を符号化するシステム)での使用に適応させられ得ることが明確に企図され、本明細書によって開示される。
説明した構成の上記の提示は、本明細書で開示する方法および他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示および説明するフローチャート、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形態も本開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般原理は他の構成にも同様に適用され得る。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
情報および信号は、多種多様な技術および技法のいずれかを使用して表され得ることを当業者ならば理解されよう。たとえば、上記の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界または磁性粒子、光場または光学粒子、あるいはそれらの任意の組合せによって表され得る。
本明細書で開示する構成の実装形態の重要な設計要件は、8キロヘルツよりも高いサンプリングレート(たとえば、12、16、または44kHz)におけるボイス通信の適用例などの計算集約的適用例では特に、(一般に百万命令毎秒またはMIPSで測定される)処理遅延および/または計算複雑さを最小にすることを含み得る。
本明細書で説明するマルチマイクロフォン処理システムの目的は、全体で10〜12dBの雑音低減を達成すること、所望の話者の移動中にボイスレベルおよびカラーを保持すること、アグレッシブな雑音除去、音声の残響除去の代わりに雑音が背景に移動されたという知覚を取得すること、ならびに/またはよりアグレッシブな雑音低減のための後処理(たとえば、スペクトル減算またはウィーナーフィルタ処理など、雑音推定値に基づくスペクトルマスキングおよび/または別のスペクトル修正演算)のオプションを可能にすることを含み得る。
本明細書で開示する装置(たとえば、装置A100、MF100、A110、A120、A200、A205、A210、および/またはMF200)の実装形態の様々な要素は、意図された適用例に好適と見なされる、任意のハードウェア構造、あるいはソフトウェアおよび/またはファームウェアとのハードウェアの任意の組合せで実施され得る。たとえば、そのような要素は、たとえば同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。これらの要素のうちの任意の2つ以上、さらにはすべてが、同じ1つまたは複数のアレイ内に実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。
本明細書で開示する装置(たとえば、装置A100、MF100、A110、A120、A200、A205、A210、および/またはMF200)の様々な実装形態の1つまたは複数の要素は、部分的に、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)などの論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとしても実装され得る。本明細書で開示する装置の実装形態の様々な要素のいずれも、1つまたは複数のコンピュータ(たとえば、「プロセッサ」とも呼ばれる、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)としても実施され得、これらの要素のうちの任意の2つ以上、さらにはすべてが、同じそのような1つまたは複数のコンピュータ内に実装され得る。
本明細書で開示するプロセッサまたは処理するための他の手段は、たとえば同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する1つまたは複数の電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。そのようなアレイの例には、マイクロプロセッサ、組込みプロセッサ、IPコア、DSP、FPGA、ASSP、およびASICなどの論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示するプロセッサまたは処理するための他の手段は、1つまたは複数のコンピュータ(たとえば、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)あるいは他のプロセッサとしても実施され得る。本明細書で説明するプロセッサは、プロセッサが組み込まれているデバイスまたはシステム(たとえば、オーディオ感知デバイス)の別の動作に関係するタスクなど、マルチチャネル信号のチャネルのサブセットを選択するプロシージャに直接関係しないタスクを実施するために、またはそのプロシージャに直接関係しない命令の他のセットを実行するために、使用することが可能である。また、本明細書で開示する方法の一部はオーディオ感知デバイスのプロセッサによって実行され(たとえば、テスクT200)、その方法の別の一部は1つまたは複数の他のプロセッサの制御下で実行される(たとえば、テスクT600)ことが可能である。
本明細書で開示する構成に関して説明する様々な例示的なモジュール、論理ブロック、回路、およびテストならびに他の動作は、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装され得ることを、当業者なら理解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示する構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASICまたはASSP、FPGAまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタロジック、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行され得る。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体からロードされるもしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、フラッシュRAMなどの不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、またはCD−ROMなど、非一時的記憶媒体中に、あるいは当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサおよび記憶媒体はASIC中に常駐し得る。ASICはユーザ端末中に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末中に個別構成要素として常駐し得る。
本明細書で開示する様々な方法(たとえば、方法M100、M110、M120、M130、M132、M140、M142、および/またはM200)は、プロセッサなどの論理要素のアレイによって実行され得、本明細書で説明する装置の様々な要素は、部分的に、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令(たとえば、論理式)を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムを1つのモジュールまたはシステムに結合することができ、1つのモジュールまたはシステムを、同じ機能を実行する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装した場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読記憶媒体に記憶され得、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信され得る。
本明細書で開示する方法、方式、および技法の実装形態は、(たとえば、本明細書に記載する1つまたは複数のコンピュータ可読記憶媒体の有形のコンピュータ可読特徴において)論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械によって実行可能な命令の1つまたは複数のセットとしても有形に実施され得る。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な記憶媒体を含む、任意の媒体を含み得る。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスケットまたは他の磁気ストレージ、CD−ROM/DVDまたは他の光ストレージ、ハードディスク、光ファイバー媒体、無線周波(RF)リンク、あるいは所望の情報を記憶するために使用され得、アクセスされ得る、任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバー、エアリンク、電磁リンク、RFリンクなどの伝送媒体を介して伝播することができるどんな信号をも含み得る。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードされ得る。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。
本明細書で説明する方法のタスクの各々は、ハードウェアで直接実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、またはその2つの組合せで実施され得る。本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ(たとえば、論理ゲート)は、この方法の様々なタスクのうちの1つ、複数、さらにはすべてを実行するように構成される。タスクのうちの1つまたは複数(場合によってはすべて)は、論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(たとえば、コンピュータ)によって読取り可能および/または実行可能であるコンピュータプログラム製品(たとえば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなど、1つまたは複数のデータ記憶媒体など)に埋め込まれたコード(たとえば、命令の1つまたは複数のセット)としても実装され得る。本明細書で開示する方法の実装形態のタスクは、2つ以上のそのようなアレイまたは機械によっても実行され得る。これらのまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能をもつ他のデバイス内で実行され得る。そのようなデバイスは、(VoIPなどの1つまたは複数のプロトコルを使用して)回線交換および/またはパケット交換ネットワークと通信するように構成され得る。たとえば、そのようなデバイスは、符号化フレームを受信および/または送信するように構成されたRF回路を含み得る。
本明細書で開示する様々な方法は、ポータブル通信デバイス(たとえば、ハンドセット、ヘッドセット、または携帯情報端末(PDA))によって実行され得ること、および本明細書で説明する様々な装置は、そのようなデバイスに含まれ得ることが明確に開示される。典型的なリアルタイム(たとえば、オンライン)適用例は、そのようなモバイルデバイスを使用して行われる電話会話である。
1つまたは複数の例示的な実施形態では、本明細書で説明する動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装した場合、そのような動作は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶され得るか、あるいはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信(たとえば、伝送)媒体の両方を含む。限定ではなく、例として、コンピュータ可読記憶媒体は、(限定はしないが、ダイナミックまたはスタティックRAM、ROM、EEPROM、および/またはフラッシュRAMを含み得る)半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの記憶要素のアレイ、CD−ROMまたは他の光ディスクストレージ、ならびに/あるいは磁気ディスクストレージまたは他の磁気ストレージデバイスを備えることができる。そのような記憶媒体は、コンピュータによってアクセスされ得る命令またはデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、命令またはデータ構造の形態の所望でプログラムコードを搬送するために使用され得、コンピュータによってアクセスされ得る、任意の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)およびブルーレイディスク(商標)(Blu−Ray Disc Association、Universal City、CA)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。
本明細書で説明する音響信号処理装置は、いくつかの動作を制御するために音声入力を受容し、あるいは背景雑音から所望の雑音を分離することから利益を得ることがある、通信デバイスなどの電子デバイスに組み込まれ得る。多くの適用例では、複数の方向発の背景音から明瞭な所望の音を強調または分離することから利益を得ることがある。そのような適用例では、ボイス認識および検出、音声強調および分離、ボイスアクティブ化制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイスにおけるヒューマンマシンインターフェースを含み得る。限定された処理機能のみを与えるデバイスに適したそのような音響信号処理装置を実装することが望ましいことがある。
本明細書で説明するモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上にまたはチップセット中の2つ以上のチップ間に常駐する電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明する装置の様々な実装形態の1つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、およびASICなど、論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとしても実装され得る。
本明細書で説明する装置の実装形態の1つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施するために、または装置の動作に直接関係しない命令の他のセットを実行するために、使用することが可能である。また、そのような装置の実装形態の1つまたは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび/または光デバイスの構成)を有することが可能である。

Claims (48)

  1. オーディオ信号を処理する方法であって、前記方法は、
    前記オーディオ信号の第1の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると判断することと、
    前記オーディオ信号中の前記第1の複数の連続セグメントの直後に発生する前記オーディオ信号の第2の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと判断することと、
    前記第2の複数の連続セグメントのうち発生する第1のセグメントでない、前記第2の複数の連続セグメントのうちの1つの間に、前記オーディオ信号のボイスアクティビティ状態の遷移が発生することを検出することと、
    前記第1の複数における各セグメントについて、および前記第2の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの1つを示す対応する値を有するボイスアクティビティ検出信号を生成することと
    を備え、
    前記第1の複数の連続セグメントの各々について、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
    前記検出された遷移が発生する前記セグメントの前に発生する前記第2の複数の連続セグメントの各々について、および前記第1の複数のうちの少なくとも1つのセグメントについて前記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
    前記検出された遷移が発生する前記セグメントの後に発生する前記第2の複数の連続セグメントの各々について、および前記オーディオ信号の前記音声アクティビティ状態の遷移が発生することを前記検出することに応答して、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティなしを示す、
    方法。
  2. 前記方法が、前記第2の複数のセグメントのうちの前記1つの間の第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することを備え、
    前記第2の複数のセグメントのうちの前記1つの間に前記遷移が発生することを前記検出することが、エネルギーの前記計算された時間導関数に基づく、請求項1に記載の方法。
  3. 前記遷移が発生することを前記検出することは、前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成することを含み、
    前記遷移が発生することを前記検出することは、前記対応する周波数成分がアクティブであることを示す前記指示の数と第1のしきい値との間の関係に基づく、請求項2に記載の方法。
  4. 前記方法は、前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、
    前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することと、
    前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成することと、
    (A)前記対応する周波数成分がアクティブであることを示す前記指示の数と、(B)前記第1のしきい値よりも高い第2のしきい値との間の関係に基づいて、前記セグメントの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生しないと判断することと
    を備える、請求項3に記載の方法。
  5. 前記方法は、前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、
    前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々について、時間に対するエネルギーの2次導関数を計算することと、
    前記複数の異なる周波数成分の各々について、および時間に対するエネルギーの前記対応する計算された2次導関数に基づいて、前記周波数成分がインパルシブであるかどうかについての対応する指示を生成することと、
    前記対応する周波数成分がインパルシブであることを示す前記指示の数としきい値との間の関係に基づいて、前記セグメントの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生しないと判断することと
    を備える、請求項3に記載の方法。
  6. 前記オーディオ信号の前記第1の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると前記判断することが、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づき、
    前記オーディオ信号の前記第2の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づく、請求項1に記載の方法。
  7. 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルのレベルと前記第2のチャネルのレベルとの間の差である、請求項6に記載の方法。
  8. 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルにおける信号のインスタンスと、前記セグメントの間の前記第2のチャネルにおける前記信号のインスタンスとの間の時間差である、請求項6に記載の方法。
  9. 前記第1の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在すると前記判断することが、前記セグメントの間の前記オーディオ信号の第1の複数の異なる周波数成分の各々について、前記第1のチャネルにおける前記周波数成分の位相と前記第2のチャネルにおける前記周波数成分の位相との間の差を計算することを備え、前記セグメントの間の前記第1のチャネルと前記セグメントの間の前記第2のチャネルとの間の前記差が、前記計算された位相差のうちの1つであり、
    前記第2の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、前記セグメントの間の前記オーディオ信号の前記第1の複数の異なる周波数成分の各々について、前記第1のチャネルにおける前記周波数成分の位相と前記第2のチャネルにおける前記周波数成分の位相との間の差を計算することを備え、前記セグメントの間の前記第1のチャネルと前記セグメントの間の前記第2のチャネルとの間の前記差が、前記計算された位相差のうちの1つである、請求項6に記載の方法。
  10. 前記方法が、前記第2の複数のセグメントのうちの前記1つの間の前記第1のチャネルの第2の複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することを備え、
    前記第2の複数のセグメントのうちの前記1つの間に前記遷移が発生することを前記検出することが、エネルギーの前記計算された時間導関数に基づき、
    前記第1の複数の周波数成分を含む周波数帯域が、前記第2の複数の周波数成分を含む周波数帯域とは別個である、請求項9に記載の方法。
  11. 前記第1の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在すると前記判断することが、少なくとも前記複数の異なる周波数成分の到着方向の間のコヒーレンス度を示すコヒーレンシ測度の対応する値に基づき、前記値が、前記対応する複数の計算された位相差からの情報に基づき、
    前記第2の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、少なくとも前記複数の異なる周波数成分の前記到着方向の間のコヒーレンス度を示す前記コヒーレンシ測度の対応する値に基づき、前記値が、前記対応する複数の計算された位相差からの情報に基づく、請求項9に記載の方法。
  12. オーディオ信号を処理するための装置であって、前記装置は、
    前記オーディオ信号の第1の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると判断するための手段と、
    前記オーディオ信号中の前記第1の複数の連続セグメントの直後に発生する前記オーディオ信号の第2の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと判断するための手段と、
    前記第2の複数の連続セグメントのうちの1つの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生することを検出するための手段と、
    前記第1の複数における各セグメントについて、および前記第2の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの1つを示す対応する値を有するボイスアクティビティ検出信号を生成するための手段と
    を備え、
    前記第1の複数の連続セグメントの各々について、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
    前記検出された遷移が発生する前記セグメントの前に発生する前記第2の複数の連続セグメントの各々について、および前記第1の複数のうちの少なくとも1つのセグメントについて前記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
    前記検出された遷移が発生する前記セグメントの後に発生する前記第2の複数の連続セグメントの各々について、および前記オーディオ信号の前記音声アクティビティ状態の遷移が発生することを前記検出することに応答して、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティなしを示す、
    装置。
  13. 前記装置が、前記第2の複数のセグメントのうちの前記1つの間の第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するための手段を備え、
    前記第2の複数のセグメントのうちの前記1つの間に前記遷移が発生することを検出するための前記手段が、エネルギーの前記計算された時間導関数に基づいて前記遷移を検出するように構成された、請求項12に記載の装置。
  14. 前記遷移が発生することを検出するための前記手段は、前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成するための手段を含み、
    前記遷移が発生することを検出するための前記手段は、前記対応する周波数成分がアクティブであることを示す前記指示の数と第1のしきい値との間の関係に基づいて前記遷移を検出するように構成された、請求項13に記載の装置。
  15. 前記装置は、
    前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するための手段と、
    前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成するための手段と、
    (A)前記対応する周波数成分がアクティブであることを示す前記指示の数と、(B)前記第1のしきい値よりも高い第2のしきい値との間の関係に基づいて、前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生しないと判断するための手段と
    を備える、請求項14に記載の装置。
  16. 前記装置は、
    前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々について時間に対するエネルギーの2次導関数を計算するための手段と、
    前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの前記複数の異なる周波数成分の各々について、および時間に対するエネルギーの前記対応する計算された2次導関数に基づいて、前記周波数成分がインパルシブであるかどうかについての対応する指示を生成するための手段と、
    前記対応する周波数成分がインパルシブであることを示す前記指示の数としきい値との間の関係に基づいて、前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生しないと判断するための手段と
    を備える、請求項14に記載の装置。
  17. 前記オーディオ信号の前記第1の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると判断するための前記手段が、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づいて前記判断することを実行するように構成され、
    前記オーディオ信号の前記第2の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと判断するための前記手段が、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づいて前記判断することを実行するように構成された、請求項12に記載の装置。
  18. 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルのレベルと前記第2のチャネルのレベルとの間の差である、請求項17に記載の装置。
  19. 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルにおける信号のインスタンスと、前記セグメントの間の前記第2のチャネルにおける前記信号のインスタンスとの間の時間差である、請求項17に記載の装置。
  20. 前記セグメント中にボイスアクティビティが存在すると判断するための前記手段が、前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、および前記セグメントの間の前記オーディオ信号の第1の複数の異なる周波数成分の各々について、前記第1のチャネルにおける前記周波数成分の位相と前記第2のチャネルにおける前記周波数成分の位相との間の差を計算するための手段を備え、前記セグメントの間の前記第1のチャネルと前記セグメントの間の前記第2のチャネルとの間の前記差が、前記計算された位相差のうちの1つである、請求項17に記載の装置。
  21. 前記装置が、前記第2の複数のセグメントのうちの前記1つの間の前記第1のチャネルの第2の複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するための手段を備え、
    前記第2の複数のセグメントのうちの前記1つの間に前記遷移が発生することを検出するための前記手段は、エネルギーの前記計算された時間導関数に基づいて、前記遷移が発生することを検出するように構成され、
    前記第1の複数の周波数成分を含む周波数帯域が、前記第2の複数の周波数成分を含む周波数帯域とは別個である、請求項20に記載の装置。
  22. 前記第1の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在すると判断するための前記手段は、少なくとも前記複数の異なる周波数成分の到着方向の間のコヒーレンス度を示すコヒーレンシ測度の対応する値に基づいて、前記ボイスアクティビティが存在すると判断するように構成され、前記値が、前記対応する複数の計算された位相差からの情報に基づき、
    前記第2の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在しないと判断するための前記手段は、少なくとも前記複数の異なる周波数成分の前記到着方向の間のコヒーレンス度を示す前記コヒーレンシ測度の対応する値に基づいて、ボイスアクティビティが存在しないと判断するように構成され、前記値が、前記対応する複数の計算された位相差からの情報に基づく、請求項20に記載の装置。
  23. オーディオ信号を処理するための装置であって、前記装置は、
    前記オーディオ信号の第1の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると判断し、
    前記オーディオ信号中の前記第1の複数の連続セグメントの直後に発生する前記オーディオ信号の第2の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと判断する
    ように構成された第1のボイスアクティビティ検出器と、
    前記第2の複数の連続セグメントのうちの1つの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生することを検出するように構成された第2のボイスアクティビティ検出器と、
    前記第1の複数における各セグメントについて、および前記第2の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの1つを示す対応する値を有するボイスアクティビティ検出信号を生成するように構成された信号発生器と
    を備え、
    前記第1の複数の連続セグメントの各々について、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
    前記検出された遷移が発生する前記セグメントの前に発生する前記第2の複数の連続セグメントの各々について、および前記第1の複数のうちの少なくとも1つのセグメントについて前記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
    前記検出された遷移が発生する前記セグメントの後に発生する前記第2の複数の連続セグメントの各々について、および前記オーディオ信号の前記音声アクティビティ状態の遷移が発生することを前記検出することに応答して、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティなしを示す、
    装置。
  24. 前記装置が、前記第2の複数のセグメントのうちの前記1つの間の第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するように構成された計算器を備え、
    前記第2のボイスアクティビティ検出器が、エネルギーの前記計算された時間導関数に基づいて前記遷移を検出するように構成された、請求項23に記載の装置。
  25. 前記第2のボイスアクティビティ検出器は、前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成するように構成されたコンパレータを含み、
    前記第2のボイスアクティビティ検出器は、前記対応する周波数成分がアクティブであることを示す前記指示の数と第1のしきい値との間の関係に基づいて前記遷移を検出するように構成された、請求項24に記載の装置。
  26. 前記装置は、
    マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するように構成された計算器と、
    前記マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成するように構成されたコンパレータと
    を備え、
    前記第2のボイスアクティビティ検出器は、(A)前記対応する周波数成分がアクティブであることを示す前記指示の数と、(B)前記第1のしきい値よりも高い第2のしきい値との間の関係に基づいて、前記マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの間に前記マルチチャネル信号のボイスアクティビティ状態の遷移が発生しないと判断するように構成された、
    請求項25に記載の装置。
  27. 前記装置は、
    前記マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々について時間に対するエネルギーの2次導関数を計算するように構成された計算器と、
    前記マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの前記複数の異なる周波数成分の各々について、および時間に対するエネルギーの前記対応する計算された2次導関数に基づいて、前記周波数成分がインパルシブであるかどうかについての対応する指示を生成するように構成されたコンパレータと
    を備え、
    前記第2のボイスアクティビティ検出器は、前記対応する周波数成分がインパルシブであることを示す前記指示の数としきい値との間の関係に基づいて、前記マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの間に前記マルチチャネル信号のボイスアクティビティ状態の遷移が発生しないと判断するように構成された、
    請求項25に記載の装置。
  28. 前記第1のボイスアクティビティ検出器は、前記オーディオ信号の前記第1の複数の連続セグメントの各々について、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づいて、前記セグメント中にボイスアクティビティが存在すると判断するように構成され、
    前記第1のボイスアクティビティ検出器は、前記オーディオ信号の前記第2の複数の連続セグメントの各々について、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づいて、前記セグメント中にボイスアクティビティが存在しないと判断するように構成された、請求項23に記載の装置。
  29. 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルのレベルと前記第2のチャネルのレベルとの間の差である、請求項28に記載の装置。
  30. 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルにおける信号のインスタンスと、前記セグメントの間の前記第2のチャネルにおける前記信号のインスタンスとの間の時間差である、請求項28に記載の装置。
  31. 前記第1のボイスアクティビティ検出器が、前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、および前記セグメントの間の前記マルチチャネル信号の第1の複数の異なる周波数成分の各々について、前記第1のチャネルにおける前記周波数成分の位相と前記第2のチャネルにおける前記周波数成分の位相との間の差を計算するように構成された計算器を含み、前記セグメントの間の前記第1のチャネルと前記セグメントの間の前記第2のチャネルとの間の前記差が、前記計算された位相差のうちの1つである、請求項28に記載の装置。
  32. 前記装置が、前記第2の複数のセグメントのうちの前記1つの間の前記第1のチャネルの第2の複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するように構成された計算器を備え、
    前記第2のボイスアクティビティ検出器が、エネルギーの前記計算された時間導関数に基づいて、前記遷移が発生することを検出するように構成され、
    前記第1の複数の周波数成分を含む周波数帯域が、前記第2の複数の周波数成分を含む周波数帯域とは別個である、請求項31に記載の装置。
  33. 前記第1のボイスアクティビティ検出器は、前記第1の複数のうちの各セグメントについて、少なくとも前記複数の異なる周波数成分の到着方向の間のコヒーレンス度を示すコヒーレンシ測度の対応する値に基づいて、前記セグメント中に前記ボイスアクティビティが存在すると判断するように構成され、前記値が、前記対応する複数の計算された位相差からの情報に基づき、
    前記第1のボイスアクティビティ検出器は、前記第2の複数のうちの各セグメントについて、少なくとも前記複数の異なる周波数成分の前記到着方向の間のコヒーレンス度を示す前記コヒーレンシ測度の対応する値に基づいて、前記セグメント中にボイスアクティビティが存在しないと判断するように構成され、前記値が、前記対応する複数の計算された位相差からの情報に基づく、請求項31に記載の装置。
  34. 1つまたは複数のプロセッサによって実行されると、
    マルチチャネル信号の第1の複数の連続セグメントの各々について、および前記セグメントの間の前記マルチチャネル信号の第1のチャネルと前記セグメントの間の前記マルチチャネル信号の第2のチャネルとの間の差に基づいて、前記セグメント中にボイスアクティビティが存在すると判断することと、
    前記マルチチャネル信号中の前記第1の複数の連続セグメントの直後に発生する前記マルチチャネル信号の第2の複数の連続セグメントの各々について、および前記セグメントの間の前記マルチチャネル信号の第1のチャネルと前記セグメントの間の前記マルチチャネル信号の第2のチャネルとの間の差に基づいて、前記セグメント中にボイスアクティビティが存在しないと判断することと、
    前記第2の複数の連続セグメントのうち発生する第1のセグメントでない、前記第2の複数の連続セグメントのうちの1つの間に、前記マルチチャネル信号のボイスアクティビティ状態の遷移が発生することを検出することと、
    前記第1の複数における各セグメントについて、および前記第2の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの1つを示す対応する値を有するボイスアクティビティ検出信号を生成することと
    を前記1つまたは複数のプロセッサに行わせる機械実行可能命令を記憶する有形構造を有するコンピュータ可読媒体であって、
    前記第1の複数の連続セグメントの各々について、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
    前記検出された遷移が発生する前記セグメントの前に発生する前記第2の複数の連続セグメントの各々について、および前記第1の複数のうちの少なくとも1つのセグメントについて前記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
    前記検出された遷移が発生する前記セグメントの後に発生する前記第2の複数の連続セグメントの各々について、および前記マルチチャネル信号の前記音声アクティビティ状態の遷移が発生することを前記検出することに応答して、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティなしを示す、
    コンピュータ可読媒体。
  35. 前記命令が、前記1つまたは複数のプロセッサによって実行されると、前記第2の複数のセグメントのうちの前記1つの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することを前記1つまたは複数のプロセッサに行わせ、
    前記第2の複数のセグメントのうちの前記1つの間に前記遷移が発生することを前記検出することが、エネルギーの前記計算された時間導関数に基づく、請求項34に記載の媒体。
  36. 前記遷移が発生することを前記検出することは、前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成することを含み、
    前記遷移が発生することを前記検出することは、前記対応する周波数成分がアクティブであることを示す前記指示の数と第1のしきい値との間の関係に基づく、請求項35に記載の媒体。
  37. 前記命令は、前記1つまたは複数のプロセッサによって実行されると、前記マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、
    前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することと、
    前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成することと、
    (A)前記対応する周波数成分がアクティブであることを示す前記指示の数と、(B)前記第1のしきい値よりも高い第2のしきい値との間の関係に基づいて、前記セグメントの間に前記マルチチャネル信号のボイスアクティビティ状態の遷移が発生しないと判断することと
    を前記1つまたは複数のプロセッサに行わせる、請求項36に記載の媒体。
  38. 前記命令は、前記1つまたは複数のプロセッサによって実行されると、前記マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、
    前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々について、時間に対するエネルギーの2次導関数を計算することと、
    前記複数の異なる周波数成分の各々について、および時間に対するエネルギーの前記対応する計算された2次導関数に基づいて、前記周波数成分がインパルシブであるかどうかについての対応する指示を生成することと、
    前記対応する周波数成分がインパルシブであることを示す前記指示の数としきい値との間の関係に基づいて、前記セグメントの間に前記マルチチャネル信号のボイスアクティビティ状態の遷移が発生しないと判断することと
    を前記1つまたは複数のプロセッサに行わせる、請求項36に記載の媒体。
  39. 前記オーディオ信号の前記第1の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると前記判断することが、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づき、
    前記オーディオ信号の前記第2の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づく、請求項34に記載の媒体。
  40. 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルのレベルと前記第2のチャネルのレベルとの間の差である、請求項39に記載の媒体。
  41. 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルにおける信号のインスタンスと、前記セグメントの間の前記第2のチャネルにおける前記信号のインスタンスとの間の時間差である、請求項39に記載の媒体。
  42. 前記第1の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在すると前記判断することが、前記セグメントの間の前記マルチチャネル信号の第1の複数の異なる周波数成分の各々について、前記第1のチャネルにおける前記周波数成分の位相と前記第2のチャネルにおける前記周波数成分の位相との間の差を計算することを備え、前記セグメントの間の前記第1のチャネルと前記セグメントの間の前記第2のチャネルとの間の前記差が、前記計算された位相差のうちの1つであり、
    前記第2の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、前記セグメントの間の前記マルチチャネル信号の前記第1の複数の異なる周波数成分の各々について、前記第1のチャネルにおける前記周波数成分の位相と前記第2のチャネルにおける前記周波数成分の位相との間の差を計算することを備え、前記セグメントの間の前記第1のチャネルと前記セグメントの間の前記第2のチャネルとの間の前記差が、前記計算された位相差のうちの1つである、請求項39に記載の媒体。
  43. 前記命令が、1つまたは複数のプロセッサによって実行されると、前記第2の複数のセグメントのうちの前記1つの間の前記第1のチャネルの第2の複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することを前記1つまたは複数のプロセッサに行わせ、
    前記第2の複数のセグメントのうちの前記1つの間に前記遷移が発生することを前記検出することが、エネルギーの前記計算された時間導関数に基づき、
    前記第1の複数の周波数成分を含む周波数帯域が、前記第2の複数の周波数成分を含む周波数帯域とは別個である、請求項42に記載の媒体。
  44. 前記第1の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在すると前記判断することが、少なくとも前記複数の異なる周波数成分の到着方向の間のコヒーレンス度を示すコヒーレンシ測度の対応する値に基づき、前記値が、前記対応する複数の計算された位相差からの情報に基づき、
    前記第2の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、少なくとも前記複数の異なる周波数成分の前記到着方向の間のコヒーレンス度を示す前記コヒーレンシ測度の対応する値に基づき、前記値が、前記対応する複数の計算された位相差からの情報に基づく、請求項42に記載の媒体。
  45. 前記方法が、
    前記第1および第2の複数のセグメントのうちの一方のセグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することと、
    前記第1および第2の複数のうちの一方の前記セグメントについてのボイスアクティビティ検出指示を生成することと
    を備え、
    前記ボイスアクティビティ検出指示を前記生成することが、前記セグメントについてのテスト統計値の値をしきい値の値と比較することを含み、
    前記ボイスアクティビティ検出指示を前記生成することが、エネルギーの前記計算された複数の時間導関数に基づいて、前記テスト統計値と前記しきい値との間の関係を修正することを含み、
    前記第1および第2の複数のうちの一方の前記セグメントについての前記ボイスアクティビティ検出信号の値が、前記ボイスアクティビティ検出指示に基づく、
    請求項1に記載の方法。
  46. 前記装置が、
    前記第1および第2の複数のセグメントのうちの一方のセグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するための手段と、
    前記第1および第2の複数のうちの一方の前記セグメントについてのボイスアクティビティ検出指示を生成するための手段と
    を備え、
    前記ボイスアクティビティ検出指示を生成するための前記手段が、前記セグメントについてのテスト統計値の値をしきい値と比較するための手段を含み、
    前記ボイスアクティビティ検出指示を生成するための前記手段が、エネルギーの前記計算された複数の時間導関数に基づいて、前記テスト統計値と前記しきい値との間の関係を修正するための手段を含み、
    前記第1および第2の複数のうちの一方の前記セグメントについての前記ボイスアクティビティ検出信号の値が、前記ボイスアクティビティ検出指示に基づく、
    請求項12に記載の装置。
  47. 前記装置が、
    前記第1および第2の複数のセグメントのうちの一方のセグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するように構成された第3のボイスアクティビティ検出器と、
    前記第1および第2の複数のうちの一方の前記セグメントについてのテスト統計値の値をしきい値と比較することの結果に基づいて、前記セグメントについてのボイスアクティビティ検出指示を生成するように構成された第4のボイスアクティビティ検出器と
    を備え、
    前記第4のボイスアクティビティ検出器が、エネルギーの前記計算された複数の時間導関数に基づいて、前記テスト統計値と前記しきい値との間の関係を修正するように構成され、
    前記第1および第2の複数のうちの一方の前記セグメントについての前記ボイスアクティビティ検出信号の値が、前記ボイスアクティビティ検出指示に基づく、
    請求項23に記載の装置。
  48. 前記第4のボイスアクティビティ検出器が前記第1のボイスアクティビティ検出器であり、
    前記セグメント中にボイスアクティビティが存在するかまたは存在しないと前記判断することが、前記ボイスアクティビティ検出指示を生成することを含む、請求項47に記載の装置。
JP2013506344A 2010-04-22 2011-04-22 ボイスアクティビティ検出 Expired - Fee Related JP5575977B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US32700910P 2010-04-22 2010-04-22
US61/327,009 2010-04-22
PCT/US2011/033654 WO2011133924A1 (en) 2010-04-22 2011-04-22 Voice activity detection

Publications (2)

Publication Number Publication Date
JP2013525848A true JP2013525848A (ja) 2013-06-20
JP5575977B2 JP5575977B2 (ja) 2014-08-20

Family

ID=44278818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013506344A Expired - Fee Related JP5575977B2 (ja) 2010-04-22 2011-04-22 ボイスアクティビティ検出

Country Status (6)

Country Link
US (1) US9165567B2 (ja)
EP (1) EP2561508A1 (ja)
JP (1) JP5575977B2 (ja)
KR (1) KR20140026229A (ja)
CN (1) CN102884575A (ja)
WO (1) WO2011133924A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014016377A (ja) * 2012-07-05 2014-01-30 Oki Electric Ind Co Ltd 音声信号処理装置、方法及びプログラム
JP2014056112A (ja) * 2012-09-12 2014-03-27 Oki Electric Ind Co Ltd 音声信号処理装置、方法及びプログラム
JP2018189985A (ja) * 2018-08-02 2018-11-29 株式会社東芝 電子機器および電子機器の制御方法
JP2019204074A (ja) * 2018-05-21 2019-11-28 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声対話方法、装置及びシステム

Families Citing this family (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007147077A2 (en) 2006-06-14 2007-12-21 Personics Holdings Inc. Earguard monitoring system
WO2008008730A2 (en) 2006-07-08 2008-01-17 Personics Holdings Inc. Personal audio assistant device and method
US11450331B2 (en) 2006-07-08 2022-09-20 Staton Techiya, Llc Personal audio assistant device and method
US8917894B2 (en) 2007-01-22 2014-12-23 Personics Holdings, LLC. Method and device for acute sound detection and reproduction
WO2008095167A2 (en) 2007-02-01 2008-08-07 Personics Holdings Inc. Method and device for audio recording
US11750965B2 (en) 2007-03-07 2023-09-05 Staton Techiya, Llc Acoustic dampening compensation system
WO2008124786A2 (en) 2007-04-09 2008-10-16 Personics Holdings Inc. Always on headwear recording system
US11317202B2 (en) 2007-04-13 2022-04-26 Staton Techiya, Llc Method and device for voice operated control
US10194032B2 (en) 2007-05-04 2019-01-29 Staton Techiya, Llc Method and apparatus for in-ear canal sound suppression
US11683643B2 (en) 2007-05-04 2023-06-20 Staton Techiya Llc Method and device for in ear canal echo suppression
US11856375B2 (en) 2007-05-04 2023-12-26 Staton Techiya Llc Method and device for in-ear echo suppression
US10009677B2 (en) 2007-07-09 2018-06-26 Staton Techiya, Llc Methods and mechanisms for inflation
US8488799B2 (en) 2008-09-11 2013-07-16 Personics Holdings Inc. Method and system for sound monitoring over a network
US8600067B2 (en) 2008-09-19 2013-12-03 Personics Holdings Inc. Acoustic sealing analysis system
US9129291B2 (en) 2008-09-22 2015-09-08 Personics Holdings, Llc Personalized sound management and method
US8554350B2 (en) 2008-10-15 2013-10-08 Personics Holdings Inc. Device and method to reduce ear wax clogging of acoustic ports, hearing aid sealing system, and feedback reduction system
WO2010094033A2 (en) 2009-02-13 2010-08-19 Personics Holdings Inc. Earplug and pumping systems
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
EP2586216A1 (en) 2010-06-26 2013-05-01 Personics Holdings, Inc. Method and devices for occluding an ear canal having a predetermined filter characteristic
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
EP3493205B1 (en) 2010-12-24 2020-12-23 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal
EP2494545A4 (en) * 2010-12-24 2012-11-21 Huawei Tech Co Ltd METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES
CN102971789B (zh) * 2010-12-24 2015-04-15 华为技术有限公司 用于执行话音活动检测的方法和设备
US9264804B2 (en) * 2010-12-29 2016-02-16 Telefonaktiebolaget L M Ericsson (Publ) Noise suppressing method and a noise suppressor for applying the noise suppressing method
CN103688245A (zh) 2010-12-30 2014-03-26 安比恩特兹公司 利用一群数据获取装置进行信息处理
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
US10356532B2 (en) 2011-03-18 2019-07-16 Staton Techiya, Llc Earpiece and method for forming an earpiece
CN102740215A (zh) * 2011-03-31 2012-10-17 Jvc建伍株式会社 声音输入装置、通信装置、及声音输入装置的动作方法
TWI606441B (zh) 2011-05-13 2017-11-21 三星電子股份有限公司 解碼裝置
US10362381B2 (en) 2011-06-01 2019-07-23 Staton Techiya, Llc Methods and devices for radio frequency (RF) mitigation proximate the ear
US8909524B2 (en) * 2011-06-07 2014-12-09 Analog Devices, Inc. Adaptive active noise canceling for handset
JP5817366B2 (ja) * 2011-09-12 2015-11-18 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
US8838445B1 (en) * 2011-10-10 2014-09-16 The Boeing Company Method of removing contamination in acoustic noise measurements
US9857451B2 (en) 2012-04-13 2018-01-02 Qualcomm Incorporated Systems and methods for mapping a source location
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
WO2014039026A1 (en) 2012-09-04 2014-03-13 Personics Holdings, Inc. Occlusion device capable of occluding an ear canal
JP6098149B2 (ja) * 2012-12-12 2017-03-22 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP2014123011A (ja) * 2012-12-21 2014-07-03 Sony Corp 雑音検出装置および方法、並びに、プログラム
US10043535B2 (en) 2013-01-15 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
MX346945B (es) * 2013-01-29 2017-04-06 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de refuerzo de frecuencia mediante una operacion de limitacion de energia.
US9454958B2 (en) * 2013-03-07 2016-09-27 Microsoft Technology Licensing, Llc Exploiting heterogeneous data in deep neural network-based speech recognition systems
US9830360B1 (en) * 2013-03-12 2017-11-28 Google Llc Determining content classifications using feature frequency
US10008198B2 (en) * 2013-03-28 2018-06-26 Korea Advanced Institute Of Science And Technology Nested segmentation method for speech recognition based on sound processing of brain
US11170089B2 (en) 2013-08-22 2021-11-09 Staton Techiya, Llc Methods and systems for a voice ID verification database and service in social networking and commercial business transactions
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
US9167082B2 (en) 2013-09-22 2015-10-20 Steven Wayne Goldstein Methods and systems for voice augmented caller ID / ring tone alias
US10405163B2 (en) * 2013-10-06 2019-09-03 Staton Techiya, Llc Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices
US10045135B2 (en) 2013-10-24 2018-08-07 Staton Techiya, Llc Method and device for recognition and arbitration of an input connection
US9147397B2 (en) * 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
US8843369B1 (en) * 2013-12-27 2014-09-23 Google Inc. Speech endpointing based on voice profile
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US9729975B2 (en) * 2014-06-20 2017-08-08 Natus Medical Incorporated Apparatus for testing directionality in hearing instruments
US10360926B2 (en) * 2014-07-10 2019-07-23 Analog Devices Global Unlimited Company Low-complexity voice activity detection
CN105261375B (zh) 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
CN105472092A (zh) * 2014-07-29 2016-04-06 小米科技有限责任公司 通话控制方法、装置及移动终端
CN104134440B (zh) * 2014-07-31 2018-05-08 百度在线网络技术(北京)有限公司 用于便携式终端的语音检测方法和语音检测装置
JP6275606B2 (ja) * 2014-09-17 2018-02-07 株式会社東芝 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
US9947318B2 (en) * 2014-10-03 2018-04-17 2236008 Ontario Inc. System and method for processing an audio signal captured from a microphone
US10163453B2 (en) 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
US10413240B2 (en) 2014-12-10 2019-09-17 Staton Techiya, Llc Membrane and balloon systems and designs for conduits
US10242690B2 (en) 2014-12-12 2019-03-26 Nuance Communications, Inc. System and method for speech enhancement using a coherent to diffuse sound ratio
TWI579835B (zh) * 2015-03-19 2017-04-21 絡達科技股份有限公司 音效增益方法
US10515301B2 (en) 2015-04-17 2019-12-24 Microsoft Technology Licensing, Llc Small-footprint deep neural network
US9984154B2 (en) * 2015-05-01 2018-05-29 Morpho Detection, Llc Systems and methods for analyzing time series data based on event transitions
US10709388B2 (en) 2015-05-08 2020-07-14 Staton Techiya, Llc Biometric, physiological or environmental monitoring using a closed chamber
US10418016B2 (en) 2015-05-29 2019-09-17 Staton Techiya, Llc Methods and devices for attenuating sound in a conduit or chamber
CN106303837B (zh) * 2015-06-24 2019-10-18 联芯科技有限公司 双麦克风的风噪检测及抑制方法、系统
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
US10242689B2 (en) * 2015-09-17 2019-03-26 Intel IP Corporation Position-robust multiple microphone noise estimation techniques
KR101942521B1 (ko) 2015-10-19 2019-01-28 구글 엘엘씨 음성 엔드포인팅
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
KR20170051856A (ko) * 2015-11-02 2017-05-12 주식회사 아이티매직 사운드 신호에서 진단 신호를 추출하는 방법 및 진단 장치
CN105609118B (zh) * 2015-12-30 2020-02-07 生迪智慧科技有限公司 语音检测方法及装置
US10616693B2 (en) 2016-01-22 2020-04-07 Staton Techiya Llc System and method for efficiency among devices
CN107305774B (zh) * 2016-04-22 2020-11-03 腾讯科技(深圳)有限公司 语音检测方法和装置
WO2017205558A1 (en) * 2016-05-25 2017-11-30 Smartear, Inc In-ear utility device having dual microphones
US10045130B2 (en) 2016-05-25 2018-08-07 Smartear, Inc. In-ear utility device having voice recognition
US20170347177A1 (en) 2016-05-25 2017-11-30 Smartear, Inc. In-Ear Utility Device Having Sensors
WO2017202680A1 (en) * 2016-05-26 2017-11-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for voice or sound activity detection for spatial audio
CN107564544A (zh) * 2016-06-30 2018-01-09 展讯通信(上海)有限公司 语音活动侦测方法及装置
EP3290942B1 (en) 2016-08-31 2019-03-13 Rohde & Schwarz GmbH & Co. KG A method and apparatus for detection of a signal
DK3300078T3 (da) * 2016-09-26 2021-02-15 Oticon As Stemmeaktivitetsdetektionsenhed og en høreanordning, der omfatter en stemmeaktivitetsdetektionsenhed
US10242696B2 (en) * 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
CN106535045A (zh) * 2016-11-30 2017-03-22 中航华东光电(上海)有限公司 喉头送话器音频增强处理模块
US9916840B1 (en) * 2016-12-06 2018-03-13 Amazon Technologies, Inc. Delay estimation for acoustic echo cancellation
US10366708B2 (en) * 2017-03-20 2019-07-30 Bose Corporation Systems and methods of detecting speech activity of headphone user
US10224053B2 (en) * 2017-03-24 2019-03-05 Hyundai Motor Company Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering
US10410634B2 (en) 2017-05-18 2019-09-10 Smartear, Inc. Ear-borne audio device conversation recording and compressed data transmission
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
WO2018226779A1 (en) 2017-06-06 2018-12-13 Google Llc End of query detection
CN107331386B (zh) * 2017-06-26 2020-07-21 上海智臻智能网络科技股份有限公司 音频信号的端点检测方法、装置、处理系统及计算机设备
US10582285B2 (en) 2017-09-30 2020-03-03 Smartear, Inc. Comfort tip with pressure relief valves and horn
CN109686378B (zh) * 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端
US10405082B2 (en) 2017-10-23 2019-09-03 Staton Techiya, Llc Automatic keyword pass-through system
CN109859744B (zh) * 2017-11-29 2021-01-19 宁波方太厨具有限公司 一种应用于吸油烟机中的语音端点检测方法
CN109859749A (zh) 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
CN108053842B (zh) * 2017-12-13 2021-09-14 电子科技大学 基于图像识别的短波语音端点检测方法
US10885907B2 (en) * 2018-02-14 2021-01-05 Cirrus Logic, Inc. Noise reduction system and method for audio device with multiple microphones
US11638084B2 (en) 2018-03-09 2023-04-25 Earsoft, Llc Eartips and earphone devices, and systems and methods therefor
US11607155B2 (en) 2018-03-10 2023-03-21 Staton Techiya, Llc Method to estimate hearing impairment compensation function
US10817252B2 (en) 2018-03-10 2020-10-27 Staton Techiya, Llc Earphone software and hardware
US10332543B1 (en) * 2018-03-12 2019-06-25 Cypress Semiconductor Corporation Systems and methods for capturing noise for pattern recognition processing
US10951994B2 (en) 2018-04-04 2021-03-16 Staton Techiya, Llc Method to acquire preferred dynamic range function for speech enhancement
US11341987B2 (en) 2018-04-19 2022-05-24 Semiconductor Components Industries, Llc Computationally efficient speech classifier and related methods
US11488590B2 (en) 2018-05-09 2022-11-01 Staton Techiya Llc Methods and systems for processing, storing, and publishing data collected by an in-ear device
US11122354B2 (en) 2018-05-22 2021-09-14 Staton Techiya, Llc Hearing sensitivity acquisition methods and devices
US11032664B2 (en) 2018-05-29 2021-06-08 Staton Techiya, Llc Location based audio signal message processing
US11240609B2 (en) 2018-06-22 2022-02-01 Semiconductor Components Industries, Llc Music classifier and related methods
US10878812B1 (en) * 2018-09-26 2020-12-29 Amazon Technologies, Inc. Determining devices to respond to user requests
US10789941B2 (en) * 2018-09-28 2020-09-29 Intel Corporation Acoustic event detector with reduced resource consumption
CN109285563B (zh) * 2018-10-15 2022-05-06 华为技术有限公司 在线翻译过程中的语音数据处理方法及装置
CN113348503B (zh) 2019-01-29 2024-08-06 谷歌有限责任公司 使用结构化音频输出检测回放和/或适应无线扬声器中的未对准的回放
CN110070885B (zh) * 2019-02-28 2021-12-24 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
EP3800640B1 (en) * 2019-06-21 2024-10-16 Shenzhen Goodix Technology Co., Ltd. Voice detection method, voice detection device, voice processing chip and electronic apparatus
CN110753297B (zh) * 2019-09-27 2021-06-11 广州励丰文化科技股份有限公司 一种音频信号的混合处理方法及处理装置
WO2021148342A1 (en) 2020-01-21 2021-07-29 Dolby International Ab Noise floor estimation and noise reduction
US11335361B2 (en) * 2020-04-24 2022-05-17 Universal Electronics Inc. Method and apparatus for providing noise suppression to an intelligent personal assistant
CN111627453B (zh) * 2020-05-13 2024-02-09 广州国音智能科技有限公司 公安语音信息管理方法、装置、设备及计算机存储介质
US11776562B2 (en) 2020-05-29 2023-10-03 Qualcomm Incorporated Context-aware hardware-based voice activity detection
WO2021253235A1 (zh) * 2020-06-16 2021-12-23 华为技术有限公司 语音活动检测方法和装置
CN111816216A (zh) * 2020-08-25 2020-10-23 苏州思必驰信息科技有限公司 语音活性检测方法和装置
US11783809B2 (en) * 2020-10-08 2023-10-10 Qualcomm Incorporated User voice activity detection using dynamic classifier
TR202021840A1 (tr) * 2020-12-26 2022-07-21 Cankaya Ueniversitesi Konuşma sinyali aktivite bölgelerinin belirlenmesini sağlayan yöntem.
TW202226230A (zh) * 2020-12-29 2022-07-01 新加坡商創新科技有限公司 將麥克風信號靜音和取消靜音之方法
GB2606366B (en) * 2021-05-05 2023-10-18 Waves Audio Ltd Self-activated speech enhancement
US12094488B2 (en) * 2022-10-22 2024-09-17 SiliconIntervention Inc. Low power voice activity detector
CN116895281B (zh) * 2023-09-11 2023-11-14 归芯科技(深圳)有限公司 基于能量的语音激活检测方法、装置及芯片

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03211599A (ja) * 1989-11-29 1991-09-17 Communications Satellite Corp <Comsat> 4.8kbpsの情報伝送速度を有する音声符号化/復号化器
JPH08314497A (ja) * 1995-05-23 1996-11-29 Nec Corp 無音圧縮音声符号化復号化装置
US20020172364A1 (en) * 2000-12-19 2002-11-21 Anthony Mauro Discontinuous transmission (DTX) controller system and method
JP2003076394A (ja) * 2001-08-31 2003-03-14 Fujitsu Ltd 音声符号変換方法及び装置
US20060217973A1 (en) * 2005-03-24 2006-09-28 Mindspeed Technologies, Inc. Adaptive voice mode extension for a voice activity detector
JP2009545778A (ja) * 2006-07-31 2009-12-24 クゥアルコム・インコーポレイテッド 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5689615A (en) 1996-01-22 1997-11-18 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech
US5774849A (en) 1996-01-22 1998-06-30 Rockwell International Corporation Method and apparatus for generating frame voicing decisions of an incoming speech signal
DE69716266T2 (de) 1996-07-03 2003-06-12 British Telecommunications P.L.C., London Sprachaktivitätsdetektor
WO2000046789A1 (fr) * 1999-02-05 2000-08-10 Fujitsu Limited Detecteur de la presence d'un son et procede de detection de la presence et/ou de l'absence d'un son
JP3789246B2 (ja) 1999-02-25 2006-06-21 株式会社リコー 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体
US6570986B1 (en) 1999-08-30 2003-05-27 Industrial Technology Research Institute Double-talk detector
US6535851B1 (en) 2000-03-24 2003-03-18 Speechworks, International, Inc. Segmentation approach for speech recognition systems
KR100367700B1 (ko) 2000-11-22 2003-01-10 엘지전자 주식회사 음성부호화기의 유/무성음정보 추정방법
US6850887B2 (en) 2001-02-28 2005-02-01 International Business Machines Corporation Speech recognition in noisy environments
US7171357B2 (en) 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
GB2379148A (en) 2001-08-21 2003-02-26 Mitel Knowledge Corp Voice activity detection
FR2833103B1 (fr) * 2001-12-05 2004-07-09 France Telecom Systeme de detection de parole dans le bruit
GB2384670B (en) * 2002-01-24 2004-02-18 Motorola Inc Voice activity detector and validator for noisy environments
US7024353B2 (en) 2002-08-09 2006-04-04 Motorola, Inc. Distributed speech recognition with back-end voice activity detection apparatus and method
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
CA2420129A1 (en) * 2003-02-17 2004-08-17 Catena Networks, Canada, Inc. A method for robustly detecting voice activity
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
US7925510B2 (en) 2004-04-28 2011-04-12 Nuance Communications, Inc. Componentized voice server with selectable internal and external speech detectors
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
KR100677396B1 (ko) 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
US8219391B2 (en) 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
US8315857B2 (en) 2005-05-27 2012-11-20 Audience, Inc. Systems and methods for audio signal analysis and modification
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
US20070036342A1 (en) * 2005-08-05 2007-02-15 Boillot Marc A Method and system for operation of a voice activity detector
WO2007028250A2 (en) 2005-09-09 2007-03-15 Mcmaster University Method and device for binaural signal enhancement
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
US8311814B2 (en) * 2006-09-19 2012-11-13 Avaya Inc. Efficient voice activity detector to detect fixed power signals
EP2089877B1 (en) 2006-11-16 2010-04-07 International Business Machines Corporation Voice activity detection system and method
US8041043B2 (en) 2007-01-12 2011-10-18 Fraunhofer-Gessellschaft Zur Foerderung Angewandten Forschung E.V. Processing microphone generated signals to generate surround sound
JP4854533B2 (ja) 2007-01-30 2012-01-18 富士通株式会社 音響判定方法、音響判定装置及びコンピュータプログラム
JP4871191B2 (ja) 2007-04-09 2012-02-08 日本電信電話株式会社 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
US8321217B2 (en) * 2007-05-22 2012-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Voice activity detector
US8321213B2 (en) * 2007-05-25 2012-11-27 Aliphcom, Inc. Acoustic voice activity detection (AVAD) for electronic systems
US8374851B2 (en) 2007-07-30 2013-02-12 Texas Instruments Incorporated Voice activity detector and method
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
JP2009092994A (ja) * 2007-10-10 2009-04-30 Audio Technica Corp 音声会議装置
US8175291B2 (en) 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
WO2010038386A1 (ja) 2008-09-30 2010-04-08 パナソニック株式会社 音判定装置、音検知装置及び音判定方法
US8724829B2 (en) 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
KR101519104B1 (ko) * 2008-10-30 2015-05-11 삼성전자 주식회사 목적음 검출 장치 및 방법
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03211599A (ja) * 1989-11-29 1991-09-17 Communications Satellite Corp <Comsat> 4.8kbpsの情報伝送速度を有する音声符号化/復号化器
JPH08314497A (ja) * 1995-05-23 1996-11-29 Nec Corp 無音圧縮音声符号化復号化装置
US20020172364A1 (en) * 2000-12-19 2002-11-21 Anthony Mauro Discontinuous transmission (DTX) controller system and method
JP2003076394A (ja) * 2001-08-31 2003-03-14 Fujitsu Ltd 音声符号変換方法及び装置
US20060217973A1 (en) * 2005-03-24 2006-09-28 Mindspeed Technologies, Inc. Adaptive voice mode extension for a voice activity detector
JP2009545778A (ja) * 2006-07-31 2009-12-24 クゥアルコム・インコーポレイテッド 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014016377A (ja) * 2012-07-05 2014-01-30 Oki Electric Ind Co Ltd 音声信号処理装置、方法及びプログラム
JP2014056112A (ja) * 2012-09-12 2014-03-27 Oki Electric Ind Co Ltd 音声信号処理装置、方法及びプログラム
JP2019204074A (ja) * 2018-05-21 2019-11-28 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声対話方法、装置及びシステム
JP2018189985A (ja) * 2018-08-02 2018-11-29 株式会社東芝 電子機器および電子機器の制御方法

Also Published As

Publication number Publication date
WO2011133924A1 (en) 2011-10-27
JP5575977B2 (ja) 2014-08-20
US20110264447A1 (en) 2011-10-27
US9165567B2 (en) 2015-10-20
EP2561508A1 (en) 2013-02-27
CN102884575A (zh) 2013-01-16
KR20140026229A (ko) 2014-03-05

Similar Documents

Publication Publication Date Title
JP5575977B2 (ja) ボイスアクティビティ検出
JP5038550B1 (ja) ロバストな雑音低減のためのマイクロフォンアレイサブセット選択
JP5714700B2 (ja) ヘッドマウントマイクロフォンペアを使用する音声信号の処理のためのシステム、方法、装置、及びコンピュータ可読媒体
EP2599329B1 (en) System, method, apparatus, and computer-readable medium for multi-microphone location-selective processing
JP5307248B2 (ja) コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体
US8898058B2 (en) Systems, methods, and apparatus for voice activity detection
JP5410603B2 (ja) マルチチャネル信号の位相ベースの処理のためのシステム、方法、装置、およびコンピュータ可読媒体
JP5329655B2 (ja) マルチチャネル信号のバランスをとるためのシステム、方法及び装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140603

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140702

R150 Certificate of patent or registration of utility model

Ref document number: 5575977

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees