JP2023159381A

JP2023159381A - 音声認識オーディオシステムおよび方法

Info

Publication number: JP2023159381A
Application number: JP2023137191A
Authority: JP
Inventors: ディグレイ，ティモシー; Degraye Timothy; ユゲ，リリアーヌ; Huguet Liliane
Original assignee: Hed Technologies Sarl
Current assignee: Hed Technologies Sarl
Priority date: 2017-12-07
Filing date: 2023-08-25
Publication date: 2023-10-31
Also published as: CA3084890A1; JP2021511755A; WO2019111050A3; WO2019111050A2

Abstract

【課題】音声認識オーディオシステムおよびヘッドセットを装着しているユーザが音楽または任意の他のオーディオ源を聴いている間に外部音響環境を認識する方法を提供する。【解決手段】はるか遠くの音声を聞くことを回避する柔軟性をユーザに与える調節可能な音響認識ゾーンを既定する方法であって、周波数領域で外部音響を分析して、発振周波数候補を選択して、時間領域で、発振周波数候補が、関心のある信号であるかどうかを判断する。外部音響を対象とする信号を関心のある信号であると判断した場合、外部音響は、オーディオ源からのオーディオと混合する。【選択図】図７

Description

本発明は、ヘッドセットを装着したユーザが音楽または任意の他のオーディオ源を聴き
ながら外部音響環境を認識するためのシステムおよび方法に関する。

発話活動検出または発話検出として公知の音声活動検出（ｖｏｉｃｅａｃｔｉｖｉｔ
ｙｄｅｔｅｃｔｉｏｎ、ＶＡＤ）は、人間の発話のありまたはなしを検出する発話処理
で使用される技法である。さまざまなＶＡＤアルゴリズムが公知である。ＶＡＤで使用さ
れる従来のアルゴリズム解決手段は、入力信号に雑音があるときに検出スコアが劣るとい
う問題を欠点として持つことが公知である。

ＶＡＤは、発話認識システム、発話圧縮システム、および雑音低減システムを含む多く
の発話処理アプリケーションで役割を果たす。図１では、フレーム化された入力信号から
の特徴抽出、次いで最後の数フレームから取り込んだ情報に基づき多次元しきい値の採用
、続けてフレームが発話かそれとも雑音かを判定するために特徴をこのしきい値と比較す
ることから構成される、従来のＶＡＤの基本原理が描かれている。一般に、典型的には、
文の中で出現する正常な短い無音期間を含む連続発話ストリームを確保することが目的で
ある判定ハングオーバという最終段階が存在する。１０ｍｓ～４０ｍｓの継続期間は、発
話が統計的に定常的であると考えることができる時間窓に対応するので、一般に１０ｍｓ
～４０ｍｓの継続期間になるようにフレーム長を選ぶ。

発話を検出する基準は、アルゴリズムで使用することができる明確に規定された数学的
構造を有する、周期的であるような有声部分を探すことである。別の取り組み方法は、発
話用統計モデルを使用し、取り込んだデータサンプルから発話パラメータを推定し、判定
理論の古典的結果を使用して、フレーム発話／雑音分類に至ることである。

図２は、発話を検出するために時間領域法で使用されてきた技法を例示する。技法は、
短時間エネルギー、ゼロ交差率、相互相関、周期性測度、線形予測分析、およびピッチ推
定を含む。図３は、発話を検出するために周波数領域法で使用されてきた技法を例示する
。技法は、副帯域エネルギー、ウィーナー（Ｗｅｉｎｅｒ）エントロピー、ケプストラム
、エネルギーエントロピー、調和率、およびスペクトルピーク分析を含む。従来のＶＡＤ
アルゴリズムは、時間領域または周波数領域の特徴を使用する、または統計的アルゴリズ
ムもしくは他の特定のアルゴリズムの仕組みを使用する。いくつかの従来のＶＡＤは、長
期スペクトル発散、ケプストラムピーク、ＭＥＬフィルタ処理スペクトル、および時間領
域または周波数領域でのスペクトル－時間変調を含む特徴の集合体を使用する。

雑音の量が増大するとき、ＶＡＤ性能は低下することは公知である。従来の解決手段は
、ＶＡＤシステムの前に雑音低減（ｎｏｉｓｅｒｅｄｕｃｔｉｏｎ、ＮＲ）モジュール
を用いるべきである。雑音低減（ＮＲ）を用いて発話信号を処理するときの１つの公知の
限界は、音楽雑音が潜在的に出現することであり、音楽雑音は、入力信号に追加されてＶ
ＡＤモジュールを誤った方向に導くことがあり、誤検出を生み出す。

従来のＮＲモジュールを使用することに伴う別の欠点は、異なる雑音レベルおよびカテ
ゴリに対してシステムが正しく作動できるようにするために内部パラメータを設定するこ
とが困難なことであり、さらにはそうすることが不可能なことである。ある例として、雑
音が非常に多い環境に取り組むために１組の内部パラメータを選ぶ場合、無音または静か
な環境で、比較的重要な歪みが出現する。

オーディオ品質に影響を及ぼすだけではなく、ＶＡＤモジュールの性能さえ害すること
がある上記の欠点を克服するために、雑音レベル環境を検出するための改善された仕組み
を提供し、ＮＲ内部パラメータの動的設定を可能にすることが望ましい。

改善された、雑音にロバストなＶＡＤ法、およびユーザが音楽または任意の他のオーデ
ィオ源を聴いている間に外部音響環境を認識できるようにするためのシステムを提供する
ことが望ましい。

本発明は、音声認識オーディオシステム、およびヘッドセットを装着しているユーザが
音楽または任意の他のオーディオ源を聴いている間に外部音響環境を認識するための方法
に関する。本発明は、ユーザに柔軟性を与えて、はるか遠くの音声を聞くことを回避する
、調節可能な音響認識ゾーンの概念に関する。本発明のシステムは、本明細書により、参
照により本出願の中に組み入れられる米国特許出願公開第２０１６／０２４１９４７号明
細書で記述されているようなヘッドホンの特徴を使用する。一実施形態では、ヘッドホン
は、４つの入力マイクロホンを有するマイクロホンアレイを含む。このマイクロホンアレ
イは、空間音響獲得選択性を提供し、関心のある方向へマイクロホンアレイを向けること
を可能にする。ビーム形成法を使用し、雑音低減システム、分数遅延処理、および本発明
の音声活動検出（ＶＡＤ）アルゴリズムのような異なる技術と組み合わせて、雑音のある
環境で、改善された性能を伴う新しいオーディオアーキテクチャを提供する。

本発明は、雑音低減およびアレイ処理を含む、異なる信号処理モジュールを含む。詳細
には、雑音検知（ＮｏｉｓｅＳｅｎｓｉｎｇ、ＮＳ）と呼ばれる、雑音レベルを推定す
る手順が提供される。この手順は、出力音響品質が最適化されるように、雑音低減パラメ
ータを適合させる。音声が検出されると、ユーザは、聴いていた音楽または他のオーディ
オ源を乱すことなくヘッドホン信号を介して警報を受けることができる。これは、外部音
声をヘッドホンリード信号と混合することにより行われる。心理音響学的特性を考慮し、
了解度を同時に最大にしながら、音楽信号の音量を低減することなく最終混合を可能にす
る混合の仕組みを使用する。

本発明の音声認識オーディオシステムの典型的適用例は、以下のシナリオの範囲内で、
すなわち、人の叫び声、会話または呼び声、赤ん坊の泣き声、公共輸送のアナウンスなど
の音声、誰かが鳴らしているドアのベル、宅配便で活動化されたドアベル、家、自動車、
および他の警報などのベルおよび警報、自動車の警笛、警察および救急車の空襲サイレン
、ならびにホイッスルなどの他のシナリオで出現する可能性がある。以下の図面を参照し
て、本発明についてより完全に記述する。

音声活動検出（ＶＡＤ）の従来技術の原理の概略図である。例示的従来技術の時間領域発話検出技法の概略図である。例示的従来技術の周波数領域発話検出技法の概略図である。本発明の教示による、関心のある外部音声をユーザの音楽と混合する音声認識オーディオシステムの概略図である。本発明の音声認識オーディオシステムで使用する、調節可能な音響認識ゾーンの概略図である。本発明のヘッドホンで使用するマイクロホンアレイの概略図である。本発明の教示による、音声活動検出のための方法の流れ図である。発話信号の概略図である。対数ウィーナーエントロピーの概略図である。簡略化対数ウィーナーエントロピーの概略図である。雑音低減（ＮＲ）モジュールおよび音声活動検出（ＶＡＤ）モジュールの周囲にデータバッファ構造を含む音声活動検出アーキテクチャシステムの概略図である。ハングオーバ手順の状態機械図の概略図である。バッファ長が１２８の発話信号の概略図である。図１１Ａに示す信号の対数ウィーナーエントロピーの概略図である。図１１Ａに示す信号の簡略化対数ウィーナーエントロピーの概略図である。バッファ長が２５６の発話信号の概略図である。図１２Ａに示す信号の対数ウィーナーエントロピーの概略図である。図１２Ａに示す信号の簡略化対数ウィーナーエントロピーの概略図である。バッファ長が５１２の発話信号の概略図である。図１３Ａに示す信号の対数ウィーナーエントロピーの概略図である。図１３Ａに示す信号の簡略化対数ウィーナーエントロピーの概略図である。本発明の教示による適応雑音低減法の概略図である。雑音を含む入力信号の概略図である。左前方マイクロホンおよび右前方マイクロホンの位相差の概略図である。右前方マイクロホンおよび右後方マイクロホンの概略図である。マイクロプロセッサアレイを使用する局所化およびビーム形成を含む、音声活動検出（ＶＡＤ）の出力品質を改善する方法の流れ図である。拡散雑音に対する音声活動検出（ＶＡＤ）のロバスト性を改善する概略図である。認識ゾーン内で、望ましくない音声に対する音声活動検出（ＶＡＤ）のロバスト性を増大させる方法の流れ図である。適応スペクトル等化を含む音声認識オーディオシステムを実装するための方法の流れ図である。図２０Ａは、不良な発話了解度を伴う音楽のグラフである。図２０Ｂは、適応ＥＱの概念を使用して発話了解度が良好な音楽のグラフである。図２１Ａは、不良な発話了解度の概略図である。図２１Ｂは、ＨＲＴＦに基づく了解度改善の概念を使用して達成された良好な発話了解度の概略図である。圧縮に基づく処理を使用する特別な処理方法の流れ図である。不良な了解度をもたらす処理の概略図である。圧縮に基づく処理を使用して良好な了解度を提供する特別な処理の、ある実装形態の概略図である。

次に、本発明の好ましい実施形態をより詳細に参照し、好ましい実施形態のある例を添
付図面に例示する。可能なときはいつでも、同じまたは類似する部分を指すために、図面
および記述全体を通して同じ参照番号を使用する。

本発明の音声認識オーディオシステムは、ヘッドホンを装着している任意のユーザが音
楽または任意の他のオーディオ源を聴いている間に外部音響環境を認識できるようにする
。一実施形態では、音声認識オーディオシステムを、たとえば米国特許出願公開第２０１
６－０２４１９４７号明細書で記述するような、入力マイクロホンを４つ有するヘッドホ
ンとして実装することができる。ユーザは、ヘッドホンのマイクロホンから到来する信号
が望ましい信号であると認識されたとき、音声または１組の規定された関心のある音響を
聞くことにより刺激される。マイクロホンから到来する信号が音声または関心のある任意
の信号であると分析されないとき、聞き手は、マイクロホン信号により混乱させられこと
はなく、リード信号を聞くだけである。

図４は、ヘッドホン１２を装着し、音楽を聴いている、またはオーディオ出力と共にテ
レビ画面などを注視している人Ａに向かって人Ｂがやって来るときの音声認識オーディオ
システム１０に関する可能なシナリオを例示する。人Ｂが人Ａに向かって話しかけるとす
ぐに、音声は、イヤーパッド１４の中に配列された１つまたは複数のマイクロホン１５を
通して検出され、人Ｂが話した発話メッセージを人Ａが認識するようにリード信号と混合
される。かき乱すことのないように、外部音響は、人間の音声などの望ましいものである
ときだけ音楽と混合される必要がある。音声認識システム１０はまた、他の典型的な音響
、たとえば警報、鳴る音、警笛、警報、サイレン、ベル、およびホイッスルも検出するこ
とができる。

図５に描くように、音声認識オーディオシステム１０と共に調節可能な音響認識ゾーン
（ＡｄｊｕｓｔａｂｌｅＳｏｕｎｄＡｗａｒｅｎｅｓｓＺｏｎｅ、ＡＳＡＺ）と呼
ばれるサブシステムを使用することができる。ユーザは、音声認識システム１０が、規定
された球半径の内側にある、ささやきではない正常な音声だけに反応するように、ヘッド
ホン１２に関連したアプリケーション・プログラム・インタフェース（Ａｐｐｌｉｃａｔ
ｉｏｎＰｒｏｇｒａｍＩｎｔｅｒｆａｃｅ、ＡＰＩ）を通してユーザの頭の周囲に可
変の球半径を規定する能力を有する。規定された球の外側に位置する、叫び声ではない任
意の他の正常な音声も検出されない。音声認識システム１２を調節する３つのレベルを、
広い、中程度、および狭いと規定することができる。広い調節は、大きな長さを有する半
径ＲＬに対応し、中程度の調節は、ＲＬよりも小さな中程度の長さを有する半径ＲＭに対
応し、狭い調節は、半径ＲＭよりも小さな、小さな長さを有する半径ＲＳに対応する。た
とえば、半径ＲＬは、約７５フィート～約３０フィートまでの範囲の長さを有することが
でき、半径ＲＭは、約５０フィート～約２０フィートまでの範囲の長さを有することがで
き、半径ＲＳは、約２５フィート～約１フィートまでの範囲の長さを有することができる
。

図４を参照すると、音声認識オーディオシステム１０は、雑音低減（ＮＲ）アルゴリズ
ムの内部パラメータのいずれにも迅速に調和することができるように、雑音レベルを推定
するための雑音低減（ＮＲ）法または雑音低減（ＮＲ）アルゴリズムを含む。これにより
、広範囲の雑音レベルに対して最良のオーディオ品質が提供される。さらにまた、雑音検
知（ＮｏｉｓｅＳｅｎｓｉｎｇ、ＮＳ）と呼ばれるこの手順を使用して、影響されやす
いしきい値または他の内部パラメータを動的に調節して、良好な性能を達成する。

一実施形態では、ヘッドホン１２は、イヤーパッド１４内に位置する１つまたは複数の
無指向性マイクロホン１５を有する。ヘッドホン１２は、図６に示すように、４つの無指
向性マイクロホン１５を含むことができる。ヘッドホン１２は、４つの無指向性マイクロ
ホン１５からなる長方形アレイまたは台形アレイを備えつける。この構成は、一直線にな
った、またはさらにまた対角線上に要素を組み合わせる対により、異なる仮想指向性／心
臓形のマイクロホンを使用できるようにする。無指向性マイクロホン１５は、ユーザの周
囲環境の３６０°オーディオイメージを実現するために、特有の位置に搭載されたイヤー
パッド１４の下側部分１６に位置する。アレイ処理アルゴリズムを使用して、話者の場所
などの、関心のある局所化を決定する。局所化が遂行されると、ユーザは、その方向に向
けて等価アンテナ放射パターンを容易に向けることができる。そうすれば、１つまたは複
数の無指向性マイクロホン１５での雑音エネルギーを低減することができ、外部音声は強
化される。以下で記述するように、ビーム形成の影響は、雑音低減性能に決定的な影響を
及ぼす。１つまたは複数のスピーカ１７をマイクロホン１５と関連づけることができる。
代替実施形態では、ヘッドホン１２は、あるタイプの構造に関連する任意のタイプのスピ
ーカアレイを含むことができる。

図７は、音声認識オーディオシステム１０内に実装することができる音声活動検出２０
のための方法の概略図である。本発明の実装形態は、周波数領域と時間領域の両方を使用
するためにある。ブロック２２で、周期パターンを検出するために周波数領域を使用する
ことができる。ブロック２２を第１の推測ステップと呼ぶことができる。ブロック２２は
、潜在的発振周波数候補を選択することが目的の粗い判定処理である。ブロック２２の後
に、ブロック２４を遂行することができる。ブロック２４は、選択した発振周波数候補が
確認されたか、されていないかを調べるために、時間領域手順とすることができる。ブロ
ック２２での周波数領推測ステップのために、および雑音耐性があるように、大規模バッ
ファを、および偽陰性判定の割合を最小にするために比較的低いしきい値を使用すること
ができる。検出した発振周波数候補が間違っている場合、周波数領域の第１のステップの
分析のために使用したフレーム内部の副フレームに対して作動している時間領域アルゴリ
ズム分析の結果を再帰的に使用して、ブロック２４内の第２の、かつ最終の判定処理を時
間領域で遂行する。

ブロック２２のある実装形態では、２つの連続する手順に伴う計算上の負担を低減する
ために、ウィーナーエントロピーまたはスペクトル平坦度を使用する。また、以下で記述
するように、雑音低減のために入力バッファのＦＦＴを使用することができる。

ブロック２４のある実装形態では、ピッチ推定アルゴリズムを使用する。一実施形態で
は、ピッチ推定アルゴリズムは、ロバストなＹＩＮアルゴリズムに基づく。推定処理を簡
略化して、検出だけの処理にすることができる、または完全なアルゴリズムを使用して、
アルゴリズムを誤りに対してさらによりロバストにするために、連続するフレーム間で推
定したピッチ値の連続性を確保できる。

フレーム内の副フレームに加えて大きなフレーム間の重なりにわたり連続して判定する
ことにより、ＷＥＹＩＮ（ＷｅｉｎｅｒＥｎｔｒｏｐｙＹＩＮ、ウィーナーエントロ
ピーＹＩＮ）アルゴリズムと呼ばれるアルゴリズムの精度が高まる。

ＶＡＤに関する一実施形態では、ブロック２２で、周波数領域内の特徴の異なる組合せ
を用いて本方法を行って、ブロック２４の時間領域で再分析される潜在的ピッチ有声フレ
ーム候補を検出することができる。

ウィーナーエントロピーは、次式のように得られ、

上式は、次式を使用して計算することができる。

この式は、次式を導く。

ウィーナーエントロピーは、異なる帯域Ｂ_i、ｉ＝１，…，Ｌで計算することができる
。その結果、候補選択処理は、Ｌ個のスカラー量を計算することによって行われる。

これらは、しきい値判定ステップ後、選択処理に送られる。

フレームが発話ありの候補として設計されると、ブロック２４で時間領域の検査が開始
される。次式のように、長さＭのＫ個の副フレームにわたりＹＩＮアルゴリズムを使用す
ることができ、
Ｎ＝ＫＭ、
式中、
Ｎ＝２^L
は、ＦＦＴを使用することができるように、２のべき乗になるように選んだ、スペクト
ル領域で使用するフレーム長である。

ＹＩＮアルゴリズムをピッチ推定アルゴリズムからピッチ検出アルゴリズムに変える。
そのために、周波数帯域

は次式の時間値間隔［τ_min，τ_max］を導く、期待される最小および最大のピッチ周波
数値に対応するように規定され、

式中Ｆ_Sは、周波数領域で処理するために使用する元のサンプリング周波数の分数とす
ることができるサンプリング周波数であり、

は、それぞれ床（ｆｌｏｏｒ）丸め演算子および天井（ｃｅｉｌｉｎｇ）丸め演算子で
ある。ある例として、

である場合、［τ_min，τ_max］＝［２０，１１５］である。

時間遅延による遅れに関する以下の行列を規定する。

式中、＜＞は、最も近い整数への丸め演算子であり、（０；ｍ）＝（０１２ …
ｍ－１ｍ）である。上記の例を以下のように再考する。

この選択を用いて、ＹＩＮ差分関数の計算は、行列Δの第１行および第２行の遅れ値に
従って行われる。この行列の第１列は、差分関数計算を開始する相対インデックスを与え
る。

このフレームにわたり、長さＨの連続する間隔から引き継いだ１組の差分関数値を規定
する。これらの値は、以下のように規定される行数および列数を伴う行列の形に構成され
る。

ＹＩＮ差分行列ｄｄは、その一般要素により以下のように規定される。

次いで、次式について考えてみる。

さらに、以下の量について考えてみる。

次式を計算することによりアルゴリズムは再開する。

そして、最小を探す。
ｒｒ（ｉ）＝ｍｉｎ（Ｄｎ（τ_min：τ_max））
上式をしきい値と比較する。

この最小がしきい値よりも小さい場合、副フレームｉに関する発話あり判定βｉ＝１が
得られる。

本フレーム内の連続するＫ個の副フレームに対して判定が行われると、続けて多数決を
行うことにより、全フレームにわたり発話ありに関する判定が行われる。

式中、Ｑは（限定するわけではないが）Ｋ／２になるように選ばれてよい。

一実施形態では、ブロック２２で、ウィーナーエントロピー簡略化を使用することがで
きる。高くつく平方根ベクトル演算

を回避するために、次式を選んで、使用する。

図８Ａは、発話信号を示す。図８Ｂは、ウィーナーエントロピーの対数を示す。図８Ｃ
は、簡略化ウィーナーエントロピーの対数を示す。結果は、簡略化ウィーナーエントロピ
ーが有声発話の正しい指示であることを示す。

一実施形態では、ブロック２４で、ＹＩＮ簡略化を使用することができる。時間領域部
分については、以下のＹＩＮ版を使用することができる。

この最後の等式では、自乗差関数は、演算回数を低減するために、絶対値により置き換
えられている。

２つの連続するフレーム間でＪ個のサンプルの重なりが存在する（発話ありの判定は、
最初のＪ個のサンプルだけについて正しい）。

ｒ_k（ｉ＋１）が、時間ｉ＋１で行列ｄｄ_i+1のｋ番目の行である場合、以下が得られ、

式中、ｒ_m（ｉ＋１）は、行列ｄｄ_i+1のｍ番目の列であり、ｄｄ_i（２：ｎ列，：）は
、列２からｎ列まで、本フレームｉに関連づけられたｄｄから抽出された行列である。

前記の式から次式が容易に演繹される。

または、
Ｄｄ_i+1＝Ｄｄ_i－ｒ_i（ｉ）＋ｒ_n列（ｉ＋１）
したがって、行列ｄｄの行の和を計算する前に行列ｄｄの要素をすべて計算する必要は
ない。代わりに、ベクトルＤｄ（ｉ）は、ｒ番目のｎ列（ｉ）およびｎ番目のｎ列（ｉ）
を計算することにより更新される。

図９は、雑音検知アーキテクチャシステム５０と組み合わせた音声活動検出アーキテク
チャシステム３０での、方法２０のある実装形態の概略図である。図１に示すように、音
声活動検出（ＶＡＤ）アーキテクチャシステム３０および雑音検知アーキテクチャシステ
ム（ＮＳ）５０を音声認識オーディオシステム１０の中に実装して、雑音にロバストな音
声活動検出（ＶＡＤ）を提供することができる。図９を参照すると、入力バッファ３１は
、入力信号２９を受信する。高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓ
ｆｏｒｍａｔｉｏｎＦＦＴ）、および入力バッファ３１での入力信号２９の連結は、フ
レーム３２を決定する。ウィーナー・エントロピー・モジュール３３でフレーム３２を使
用して、候補を検出することができる。ウィーナー・エントロピー・モジュール３３は、
図７に示すようなブロック２２を遂行する。

図９を参照すると、フレーム３２はまた、連続するＫ個の副フレーム３４に分割するこ
とができる。ＹＩＮピッチ検出モジュール３６の前に、副フレーム３４に対してダウンサ
ンプリング処理３５を使用することができる。ＹＩＮピッチ検出モジュール３６は、図７
に示すようなブロック２４を遂行する。図９を参照すると、ウィーナー・エントロピー・
モジュール３３およびＹＩＮ検出モジュール３６は、副フレーム判定３７を決定する。発
話ありを判断するモジュール４０の前で、副フレーム判定３７、および他の副フレーム３
８からの判定をハングオーバモジュール３９の中に導入することができる。文の内部に低
エネルギーの領域を見いだすことができ、本発明の方法２０は、これらの領域を非発話フ
レームと考えてよい。中断が多すぎる場合、出力での聴取は、いらいらさせる可能性があ
る。ハングオーバモジュール３９を使用することにより混乱を除去することができる。ま
た、雑音検知（ＮＳ）アーキテクチャ５０にフレーム３２を転送することができる。

図１０は、ハングオーバモジュール３９内で使用することができる状態機械６０の概略
図である。ハングオーバモジュール出力で発話ありを表す恒久的状態１を円６１により描
き、ハングオーバモジュール出力で発話なしを表す恒久的状態０を円６３により描く。円
６１およびボックス６４，ならびに円６３およびボックス６５から外に出る各判定矢印（
０または１）は、フレーム処理後に得られる。判定が前の判定と同じである場合、ＸＹま
たはＸＮは、それぞれ発話ありまたは発話なしとして累積される。同じではない場合、Ｘ
ＹおよびＸＮは、それらの初期値０にリセットされる。これらの変数の一方がＮＹまたは
ＮＮに等しくなると、一方の状態から別の状態への切替えが起動される。

この方法またはアルゴリズムでは、ｄｅｃＶａｄは、図９に示す発話検出モジュール４
０から到来する判定入力を意味する。図１０の状態機械で位置インデックスｉｄｘ、およ
びそのインデックスの状態に関連する判定出力ｄｅｃＨｏｖ値を規定する場合、その結果
、状態［０］＝０および状態［１］＝１である。

図１１～図１３は、ウィーナーエントロピー値に及ぼす入力バッファデータの影響を示
す。図１１Ａ、図１２Ａ、および図１３Ａは、それぞれ１２８、２５６、および５１２の
バッファ長での発話信号を示す。図１１Ｂ、図１２Ｂ、および図１３Ｂは、それぞれ１２
８、２５６、および５１２のバッファ長での対数ウィーナーエントロピーを示す。図１１
Ｃ，図１２Ｃ、および図１３Ｃは、それぞれ１２８、２５６、および５１２のバッファ長
での簡略化対数ウィーナーエントロピーを示す。入力データバッファ長を増大させること
により、ウィーナーエントロピー曲線を滑らかにする効果があることが示されている。

一実施形態では、雑音検知（ＮＳ）アーキテクチャ５０は、音楽雑音の出現をできるだ
け回避しながら、すべての可能な雑音レベルについて、雑音低減（ＮＲ）オーディオ品質
出力を提供するように最適化する。図１４に描くように、適応雑音低減（ＮＲ）モジュー
ル７０で雑音検知（ＮＳ）の出力５１を使用することができる。雑音エネルギー検知アー
キテクチャシステム７２を使用して、モジュール７３、および合波器７５と出力を組み合
わせた雑音低減モジュール７４を用いて雑音を推定する。雑音低減（ＮＲ）アルゴリズム
パラメータの選択を導出する雑音低減モジュール７４により、雑音の量を推定する。距離
計算モジュール７６は、検知した雑音とヘッドホン１２の間の距離を決定することができ
る。

距離計算モジュール７６から得た出力を、ハングオーバ判定モジュール７７で使用する
。雑音レベル状態の間を切り替える頻度を制御するために、雑音、中間段階、および雑音
なしとして３つの雑音レベル状態を規定し、これらの状態は、音声認識オーディオシステ
ム１０が突然の雑音またはインパルス性雑音に対して切り替えられないように、ハングオ
ーバ判定モジュール７７で決定される。適応雑音低減モジュール７８は、ハングオーバ判
定モジュール７７から得られる信号を処理して、雑音を低減する。未加工の信号Ｇ１８
０と処理済み信号８２Ｇ２の両方は、クリーンな信号８５を提供するためにミキサ８４
で混合され、適応凸線形結合を用いて音声活動決定（ｖｏｉｃｅａｃｔｉｖｉｔｙｄ
ｅｔｅｒｍｉｎａｔｉｏｎ、ＶＡＤ）アーキテクチャシステム３０に伝送され、
ｙ＝Ｇ１ｘ１＋（１－Ｇ１）ｘ２
式中、ｘ１は、未加工のマイクロホン入力であり、ｘ２は、ＮＲモジュール出力であり
、ｙは、ＶＡＤモジュールの入力である。

Ｇ１は、時間領域または周波数領域で計算することができる２乗平均平方根（ｒｏｏｔ
ｍｅａｎｓｑｕａｒｅ、ＲＭＳ）値ξに依存する。

環境雑音を最大まで低減しながら、音楽雑音およびオーディオアーチファクトを最小ま
で制限する目的で、ＮＲアルゴリズムおよびそれらのアルゴリズムに対応する内部設定パ
ラメータを調節することができる。

一実施形態では、音声認識オーディオシステム１０は、マイクロホンアレイおよびたと
えば４チャネル手順を有するヘッドホン１２を含むことができる。多重チャネル手順の利
点は、多重チャネル手順が、効率を増大させる革新的特徴をもたらすことである。スピー
カは、空間内に局所化するので、マイクロホンアレイへのスピーカ音声音響の伝播は、雑
音拡散とは反対にコヒーレントなパスに従う。典型的には、１つのマイクロホンで拾い上
げられた音声は、第２のマイクロホンで記録された音声の、遅延した複製である。図１５
Ａ～図１５Ｃは、位相差パターンを例示する。信号は、タイミングが、前方にある１つの
スピーカおよび後方にある１つのスピーカ（約２秒～約６秒）、ならびに２つのスピーカ
、すなわち前方に１つ、および後方に１つ（約６秒～約１０秒）を表す、描かれた４チャ
ネル記録マイクロホンアレイの第１トラックである。雑音は、図１５Ａに示すように、入
力信号に人工的に追加されている。ＭＬＦとＭＬＢ（ブロードサイド）の間の位相差を図
１５Ｂに示し、ＭＲＦとＭＲＢ（エンドファイア）Ｉの間の位相差を図１５Ｃに示す。両
方のアレイについて、発話がありまたはなしのときに、位相差パターンは類似して見えな
いことが示されている。

マイクロホンアレイは、空間フィルタの役割を果たして、望ましくない方向から到来す
る音響を減衰させ、一方では、選択した１つまたは複数の方向から到来する音響を強化す
る。マイクロホンアレイを使用することにより、音響品質を改善するのに、ならびに／ま
たはＶＡＤ雑音ロバスト性および検出精度を高めるのに役立つ可能性がある。

図１６は、雑音のある信号を受信して、クリーンな信号を決定する雑音検知アーキテク
チャシステム５０を含む音声認識オーディオシステム１０のある実装形態を例示する。ク
リーンな信号は、音声活動検出アーキテクチャシステム３０で使用される。マイクロホン
アレイ１００は、局所化モジュール１０２およびビーム形成モジュール１０４と共に使用
することができる。

マイクロホンアレイ１００内のマイクロホン１５の１つで、１方向で音声を検出すると
、局所化モジュール１０２は、スピーカ到来方向を局所化する。ビーム形成モジュール１
０４は、音声を検出しているマイクロホンを、決定した方向に向けて、その結果として、
他の方向から到来する雑音を減衰させる。ビーム形成モジュール１０４は、外部雑音を統
計的および空間的に減衰させて、図６に示すように、強化された音声信号をヘッドホン１
２のスピーカ１７に配送させる。

代替実施形態では、雑音は、すべての方向から到来している。たとえば、雑音は、列車
、飛行機、船などですべての方向で発生する可能性があり、これらの場所では、雑音は、
主としてモータエンジンに起因し、客室の音響が反響するために到来方向がまったく正確
ではない。逆に、関心のあるスピーカは、空間の単一地点に常に位置する。反響は、スピ
ーカの、たとえば最大数メートル近傍にあるので、めったに問題とならない。

図１７は、雑音のある信号を受信して、クリーンな信号を決定する雑音検知アーキテク
チャシステム５０と、雑音と信号の間の差を利用するマイクロホンアレイの使用とを含む
音声認識オーディオシステム１０のある実装形態を例示する。雑音低減（ＮＲ）モジュー
ル７０および音声活動検出アーキテクチャシステム３０と並列に、たとえば前方および後
方など、異なる方向から到来する入射信号をビーム形成モジュール１０４で受信し、類似
モジュール１０６で比較する。発話がある場合、スピーカを同時に複数の位置に配置する
ことができないことを考慮して、２つのスペクトル間の差を観察すべきである。発話がな
い場合、ヘッドホンがどの方向を向いていようが、雑音は多かれ少なかれ同じであること
を考慮して、スペクトル間の小さな差を観察することができる。類似モジュール１０６で
決定した信号を、有声信号、および多くの場合、音声活動検出アーキテクチャシステム３
０からのアーチファクトと、ミキサ１０７で混合することができる。そのような類似に基
づく特徴を使用することは、雑音に対する信号のロバスト性を高めるための音声活動検出
アーキテクチャシステムの誤警報を除去するのに役立つ可能性がある。

図１８は、複数のスピーカがユーザの周囲に配置された場合の、望ましくない音声の取
消しを含む音声認識オーディオシステム１０のある実装形態を例示する。ユーザは、特有
の方向、たとえば前方からの１つのスピーカと話したいと望む。マイクロホンアレイ１０
０を認識ゾーン１０８で使用して、望ましくない方向から到来するすべての信号をビーム
形成モジュール１０４で除去して、信号を前処理して、雑音低減（ＮＲ）モジュール７０
および音声活動検出アーキテクチャシステム３０の中に入る前に、認識ゾーンだけから到
来する、雑音のある信号にすることができる。

音声認識オーディオシステム１０が高い了解度を確保することは好ましい。ユーザが外
部音声により割り込まれたとき、音楽レベルを一定に保って、ユーザが音声メッセージを
明瞭に聞くことを確実にしながら、外部音声を追加することが望ましい。この利点は、音
声誤警報検出と聴取条件の両方を制御することにより達成することができる。音声誤警報
は、音声活動検出アーキテクチャシステム３０により決定することができる。一実施形態
では、本発明は、図６に示すように、音声活動検出アーキテクチャシステム３０により検
出された外部発話をヘッドホン１２から到来する音楽と混合するステップを提供する。

ヘッドホン１２から届けられるスピーカ音声をユーザがよく理解するのを確実にするこ
とが望ましい。一実施形態では、発話を検出し、伝送する間に、音楽の音響レベルをミュ
ートする、または少なくとも低減する。音声了解度を改善するための混合戦略は、適応空
間等化、空間分離、および別個または一緒に処理することができる、スタジオに着想を得
た特別な処理を含むことができる。

音楽と混合された発話信号を聴くことは、特に音楽がすでに音声信号を包含するときに
発話信号の了解度を劇的に低減する。多くの情報源によれば、発話基本周波数に対して信
号対雑音比（ｓｉｇｎａｌ－ｔｏ－ｎｏｉｓｅｒａｔｉｏ、ＳＮＲ）を高めることによ
り発話理解が高まる証拠が存在する。ひいては、すべての高調波についてＳＮＲが高いほ
ど、それだけ発話理解はよくなる。

本発明では、音声活動検出（ＶＡＤ）アーキテクチャシステム３０から到来する音声も
、ヘッドホン１２でユーザが再生する音楽も、利用可能である。一実施形態では、両方の
信号のエネルギーを、特に基本周波数帯域および関連する高調波帯域で比較することがで
き、音声活動検出（ＶＡＤ）アーキテクチャシステム３０から得られる信号は、音楽と比
較されたときに比較的低い場合、増大させられる。

図１９は、適応スペクトル等化法２００を含む音声認識オーディオシステム１０のある
実装形態を例示する。音声を検出するたびに、適応空間等化法２００を遂行することがで
きる。ブロック２０１で、音楽のスペクトル密度電力の推定値を決定する。ブロック２０
２で、発話のスペクトル密度電力の推定値を決定する。ブロック２０３で、ブロック２０
２から得られる発話の基本周波数の推定値、およびフォルマントを決定する。ブロック２
０４で、ブロック２０３から得られる発話フォルマントとブロック２０１から得られる音
楽の間でエネルギー比を計算して、スペクトル帯域ごとに音声対音楽比（ｖｏｉｃｅ－ｔ
ｏ－ｍｕｓｉｃｒａｔｉｏ、ＶＭＲ）を決定する。ブロック２０５で、ブロック２０４
により決定された低ＶＭＲを伴う帯域に対してＦＦＴに基づく等化器（ｅｑｕａｌｉｚｅ
ｒ、ＥＱ）を適用する。

図２０Ａは、了解度が不良な音楽スペクトル３０２と比較した、発話スペクトル３０１
に関する電力および周波数のグラフ３００を例示する。ブロック２０４により決定された
音楽に対して音声フォルマントのエネルギーが比較的低い帯域３０４については、ブロッ
ク２０５でＦＦＴに基づく等化器を適用して、それらの帯域を強化する。図２０Ｂは、強
化後の了解度が良好な音楽スペクトル３０２と比較した、発話スペクトル３０１に関する
電力および周波数のグラフ３００を例示する。

図２１Ａおよび図２１Ｂは、空間分解４００を含む音声認識オーディオシステム１０の
ある実装形態を例示する。この戦略は、関心のある信号が検出されると、埋め込まれたマ
イクロホンアレイを使用して、この関心のある信号を局所化することができると仮定する
。たとえば、相互相関に基づく方法を介することによる。図２１Ａは、位置４０２でモノ
ラル発話を、位置４０３でステレオ音楽を伴う、不良な了解度を例示する。スピーカ到来
方向に従って、音声活動検出（ＶＡＤ）３０により届けられた信号にＨＲＴＦに基づくフ
ィルタを適用して、実際のスピーカ位置に従って信号を具体化する（３Ｄ効果）。

これにより、ユーザ４０１は、空間内で音響信号を分離できるようになる。良好な了解
度を例示する図２０Ｂに示すように、位置４０６で、頭部の中心で音楽を知覚し、一方で
は、位置４０４で、頭部の外側で発話を知覚する。同時に、音楽を一時的にステレオから
モノラルに切り替えることができる。空間的聴力を回復することは、発話了解度を著しく
高めることが公知である。

図２２は、音楽と混合されて、特別な処理アルゴリズムを使用することができるときに
音声の存在を高める、圧縮に基づく処理５００を含む音声認識オーディオシステム１０の
ある実装形態を例示する。ブロック５０１で、音声信号をコピーし、圧縮し、次いで、圧
縮された信号を元の音声信号にコピーする。ブロック５０２で、得られる信号に軽い飽和
を適用する。ブロック５０３で、特別な等化器を適用する。

ブロック５０１で、圧縮は、音素間の強度差を低減し、その結果、時系列マスキング効
果は低減され、発話ラウドネスは増大する。圧縮された音声と元の音声の両方の総和は、
音声が依然として自然に聞こえることを確実にする。ブロック５０２は、より多くの高調
波をもたらす。たとえば、基本周波数（Ｆ０）だけではなくＦ１およびＦ２の高調波情報
も、母音識別および子音知覚のために決定的に重要であることが公知である。ブロック５
０３は、低周波雑音を除去し、関心のある周波数帯域を増大させることにより、たとえば
、７０Ｈｚまで－１８ｄＢ／オクターブ、２５０Ｈｚの周囲で－３ｄＢ、５００Ｈｚの周
囲で－２ｄＢ、３．３ｋＨｚの周囲で＋２．５ｄＢ、および１０ｋＨｚの周囲で＋７ｄＢ
の低域カットにより、音声信号をクリーンにすることを目的とする。

図２３Ａは、音声信号６０１の利得６０２を音楽信号６０４とミキサ６０５で組合せて
ドライバへの入力６０６に提供する、不良な了解度を例示する。図２３Ｂは、圧縮に基づ
く処理５００を実装するシステム６００を例示する。音声信号６０１を圧縮モジュール６
０７に適用して、圧縮された信号を提供する。圧縮された信号は、ミキサ６０８で音声信
号６０１の利得６０２と組み合わせられる。ミキサ６０８の出力は、ブロック５０２の軽
い飽和を遂行するために飽和モジュール６０９に、および特別な等化器を適用するために
等化モジュール６１０に適用される。等化モジュール６１０の出力をミキサ６１２で音楽
信号６０４と組み合わせて、ドライバへの入力６１４を提供する。

本発明の、雑音にロバストなＶＡＤ法またはアルゴリズムは、選択し、次いで確認する
戦略の取り組み方法を使用する。第１ステップは、雑音の影響を低減できるようにする比
較的大規模な入力バッファを用いて、周波数領域で行われる。有声発話信号ありは、多帯
域ウィーナーエントロピー特徴を介して検出され、古典的ウィーナーエントロピーの特性
を害することなく計算量をどのようにして低減することができるかを示す。

アルゴリズムの第２の部分は、ピッチ推定がピッチの簡単な検出により置換される、Ｙ
ＩＮアルゴリズムの簡略版を用いて時間領域で行われる。計算量をさらに低減するために
、古典的自乗差の代わりに絶対値差を使用する。このアルゴリズムは、入力フレーム全体
に沿って、連続する副フレームにわたり作動する。

本発明は、調節可能な音響認識ゾーンシステムの導出をもたらす。入力信号の振幅、お
よびユーザと遠くの外部音声を区別するのに役立ついくつかの特徴を使用して、システム
は、ＶＡＤアルゴリズムによりユーザが正常な音声を考慮することができる球状領域を自
分の頭部の周囲に規定できるようにする。この球の外側でユーザが正常な音声量で話して
いる場合、システムはその音声量を拒絶する。

本発明は、雑音検知システムの導出をもたらす。

雑音低減法またはアルゴリズムだけではなく、ＶＡＤおよびアレイ処理アルゴリズムの
ような他の主要なモジュールも、これらの内部設定が、静かな状況から雑音が非常に多い
状況まで、考えられるすべての雑音レベルを容易に取り扱うことはできないという事実を
欠点として持つことがある。本システムの性能を改善するために、本発明の雑音検知の仕
組みを導出し、本発明のシステムの中にこの仕組みを一体化することにより、雑音低減お
よびＶＡＤアルゴリズムの性能をどのようにして著しく改善するかについて示されている
。実際は、雑音検知により、ＶＡＤ、雑音低減、音声局所化およびマイクロホン・アレイ
・システムを使用するビーム形成、ならびに異なるアルゴリズムからなる計算量低減とい
った相互に作用する関連モジュールを含む自己調節可能な内部パラメータを用いて、再構
成可能なアルゴリズムのアーキテクチャが可能になる。

本発明は、計算量の負担をどのようにして著しく低減することができるかを示す。これ
により、電力消費が低減される、またはさらに処理するための余地がより多く得られる。
本発明は、音声了解度を高めながら音楽の音量を一定に保つという制約のもとで行われる
オーディオ混合方式の導出をもたらす。

本発明の代替実施形態を、事前にプログラムされたハードウェア要素、他の関連構成要
素として、またはハードウェアプロセッサを含むハードウェア構成要素およびソフトウェ
ア構成要素の組合せとして実装してよい。ハードウェア構成要素および／もしくはソフト
ウェア構成要素の両方を含む専用プロセッサ機器もしくは汎用プロセッサ機器、または処
理能力を有するように適合させた専用コンピュータもしくは汎用コンピュータに関連して
、本発明の実施形態を実装してよい。

実施形態はまた、物理的コンピュータ可読媒体、ならびに／またはコンピュータ実行可
能命令、データ構造、および／もしくは中に記憶したデータ信号を運ぶ、もしくは有する
ための無形のコンピュータ可読媒体を含んでよい。そのような物理的コンピュータ可読媒
体および／または無形のコンピュータ可読媒体は、汎用コンピュータまたは専用コンピュ
ータによりアクセスすることができる任意の利用可能な媒体とすることができる。限定で
はなく例として、そのような物理的コンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲ
ＯＭ、ＣＤ－ＲＯＭもしくは他の光ディスク記憶領域、磁気ディスク記憶領域もしくは磁
気記憶機器、他の半導体記憶媒体、またはコンピュータ実行可能命令、データ構造、およ
び／もしくはデータ信号の形で所望のデータを記憶するために使用することができ、かつ
汎用コンピュータまたは専用コンピュータによりアクセスすることができる任意の他の物
理媒体を含むことができる。汎用コンピュータまたは専用コンピュータ内部では、無形の
コンピュータ可読媒体は、コンピュータ内に常駐する回路を通すなどして、コンピュータ
の一方の部分から別の部分へデータ信号を伝えるための電磁的手段を含むことができる。

ネットワークまたは別の通信接続（有線、無線、または有線もしくは無線の組合せ）を
介してコンピュータに情報を伝送または提供するとき、コンピュータ実行可能命令、デー
タ構造、および／またはデータ信号（たとえば、配線、ケーブル、光ファイバ、電子回路
、化学物質など）を送信および受信するためのハードウェア機器は、当然のことながら物
理的コンピュータ可読媒体と見るべきであり、一方では、コンピュータ実行可能命令、デ
ータ構造、および／またはデータ信号（たとえば、無線通信、衛星通信、赤外線通信など
）を送信および／または受信するための無線搬送波または無線媒体は、当然のことながら
無形のコンピュータ可読媒体と見るべきである。上記の組合せもまた、コンピュータ可読
媒体の範囲に含まれるべきである。

コンピュータ実行可能命令は、たとえば、汎用コンピュータ、専用コンピュータ、また
は専用処理機器に、ある種の機能または機能のグループを遂行させる命令、データ、およ
び/またはデータ信号を含む。必須ではないが、本発明の様態について本明細書では、プ
ログラムモジュールなどのコンピュータ実行可能命令がネットワーク環境および／または
非ネットワーク環境でコンピュータにより実行されるという一般的文脈で記述してきた。
一般に、プログラムモジュールは、特定のタスクを遂行する、または特定の抽象的コンテ
ンツタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、およびコ
ンテンツ構造を含む。コンピュータ実行可能命令、関連するコンテンツ構造、およびプロ
グラムモジュールは、本明細書で開示する方法の様態を実行するためのプログラムコード
の例を表す。

実装形態はまた、プロセッサにより実行されたとき、本発明の方法をシステムに遂行さ
せるコンピュータ実行可能命令を備える、中に記憶されたコンピュータ可読プログラムコ
ードを有する物理的コンピュータ可読媒体を有する、本発明のシステムで使用するための
コンピュータプログラム製品を含んでよい。

上述の実施形態は、本発明の原理の適用例を表すことができる、多くの考えられる特有
の実施形態を少しだけ例示する。本発明の精神および範囲を逸脱することなく、当業者に
よりこれらの原理に従って数多くの、さまざまな他の配列を容易に考案することができる
。

Claims

音声認識オーディオシステムであって、
オーディオ源からオーディオを受信するように構成されたヘッドホンと、
外部音響環境の中で外部音響を検出して、前記外部音響を対象とする信号を生成するよ
うに構成された、前記ヘッドホンに関連する少なくとも１つのマイクロホンと、
前記外部音響を対象とする信号が、関心のある信号であるかどうかを判断するための分
析器モジュールと
を備え、前記外部音響を対象とする前記信号が、前記関心のある信号である場合、前記
外部音響は、前記オーディオ源からの前記オーディオと混合される
音声認識オーディオシステム。
前記分析器モジュールは、周波数領域で、前記外部音響を対象とする前記信号を分析し
て、発振周波数候補を選択して、時間領域で、前記発振周波数候補が前記関心のある信号
であるかどうかを判断するように構成される、請求項１に記載の音声認識オーディオシス
テム。
前記分析器モジュールは、入力バッファで前記外部音響を対象とする前記信号を受信し
、前記周波数領域での前記分析は、前記入力バッファ内の前記信号のＦＦＴを使用して、
入力フレームを生成し、前記時間領域での前記分析は、前記入力フレームと共に副フレー
ムを再帰的に使用する、請求項２に記載の音声認識オーディオシステム。
前記周波数領域での前記分析は、ウィーナーエントロピーまたは簡略化ウィーナーエン
トロピーを用いて遂行される、請求項３に記載の音声認識オーディオシステム。
前記時間領域での前記分析は、ピッチ推定またはＹＩＮアルゴリズムを用いて遂行され
る、請求項３に記載の音声認識オーディオシステム。
前記分析器モジュールは、前記時間領域で判断した前記関心のある信号の中に発話あり
または発話なしを判断するためのハングオーバモジュールをさらに備える、請求項１に記
載の音声認識オーディオシステム。
雑音低減アルゴリズムで前記周波数領域での前記分析を使用して、前記外部音響環境で
の雑音レベルを推定して、前記雑音レベルに基づき前記音声認識オーディオシステムを調
節する、請求項２に記載の音声認識オーディオシステム。
前記ヘッドホンの周囲に、１つまたは複数の調節ゾーンを有する調節可能な音響認識ゾ
ーンを規定し、前記外部音響は、前記１つまたは複数の調節ゾーンの所定の１つの内部に
あるとき、前記関心のある信号であると判断される、請求項１に記載の音声認識オーディ
オシステム。
前記オーディオは音楽である、請求項１に記載の音声認識オーディオシステム。
前記ヘッドホンは、選択した方向から到来するオーディオを減衰または増幅するように
配列されたマイクロホンのアレイを備え、前記マイクロホンの前記アレイのうちの前記マ
イクロホンは、ユーザの周囲環境の３６０°オーディオイメージを実現するためにさまざ
まな方向に向けられる、請求項１に記載の音声認識オーディオシステム。
前記ヘッドホンの周囲に、１つまたは複数の調節ゾーンを有する調節可能な音響認識ゾ
ーンを規定し、前記外部音響は、前記１つまたは複数の調節ゾーンの所定の１つの内部に
あるとき、前記関心のある信号であると判断され、前記マイクロホンアレイは、望ましく
ない方向から到来する信号を除去し、関心のある方向に前記マイクロホンアレイを向ける
、請求項１０に記載の音声認識オーディオシステム。
オーディオ源からオーディオを受信するように構成されたヘッドホンを装着しているユ
ーザが外部音響環境を認識するための方法であって、
ａ．前記ヘッドホンに関連する少なくとも１つのマイクロホンを用いて、前記外部音響
環境の中で外部音響を検出するステップと、
ｂ．前記外部音響を対象とする信号を発生させるステップと、
ｃ．前記外部音響を対象とする前記信号が、関心のある信号であるかどうかを判断する
ステップと、
ｄ．前記外部音響を対象とする前記信号が、前記関心のある信号であると判断された場
合、前記外部音響を前記オーディオ源からの前記オーディオと混合するステップと
を備える方法。
前記ステップｂで、周波数領域で、前記外部音響を分析して、発振周波数候補を選択し
て、時間領域で、前記発振周波数候補が前記関心のある信号であるかどうかを判断する、
請求項１２に記載の方法。
前記周波数領域での前記分析は、ウィーナーエントロピーまたは簡略化ウィーナーエン
トロピーを用いて遂行される、請求項１３に記載の方法。
前記時間領域での前記分析は、ピッチ推定またはＹＩＮアルゴリズムを用いて遂行され
る、請求項１３に記載の方法。
前記時間領域で判断した前記関心のある信号の中に発話ありまたは発話なしを判断する
ステップ
をさらに備える、請求項１３に記載の方法。
前記外側の音響環境での雑音レベルを推定するステップ
をさらに備え、
前記ステップｃは、前記雑音レベルに基づき調節して、前記外部音響を対象とする前記
信号が、前記関心のある信号であるかどうかを判断するステップを含む、
請求項１２に記載の方法。
前記ヘッドホンの周囲に、１つまたは複数の調節ゾーンを有する調節可能な音響認識ゾ
ーンを規定するステップをさらに備え、前記ステップｃで、前記外部音響は、前記１つま
たは複数の調節ゾーンの所定の１つの内部にあるとき、前記関心のある信号であると判断
される、
請求項１２に記載の方法。
前記少なくとも１つのマイクロホンは、マイクロホンのアレイであり、前記ステップａ
で音響を検出した後、前記音響の方向を局所化して、前記決定した局所化方向に向けて前
記マイクロホンの前記アレイを向けるステップをさらに備える、請求項１２に記載の方法
。
ｅ．前記ステップｂでの前記信号が雑音のある信号であるかどうか判断するステップと
、
ｆ．前記雑音のある信号であると判断したとき、クリーンな信号を生成するステップと
、
ｇ．前記ステップｃで、第１の方向および第２の方向から前記信号を判断するステップ
と、
ｈ．前記第１の方向および前記第２の方向から得られる前記信号の類似度を推測するス
テップであって、前記ステップｈで、前記第１の方向から得られる前記信号および前記第
２の方向から得られる前記信号が類似していると判断する場合、前記ステップｄで前記信
号を混合するステップと
をさらに備える、請求項１９に記載の方法。
前記調節可能な音響認識ゾーンで、望ましくない方向から到来するすべての信号を除去
するステップをさらに備える、請求項１８に記載の方法。
前記音響は音楽であり、
前記音響のスペクトル密度電力を推定するステップと、
前記外部音響の中にある発話のスペクトル密度電力を推定するステップと、
前記発話の基本周波数を推定して、発話フォーマットを決定するステップと、
前記発話フォーマットと前記音楽の形式ブロックの前記スペクトル電力の間のエネルギ
ー比を計算して、スペクトル帯域ごとに音声対音楽比（ｖｏｉｃｅ－ｔｏ－ｍｕｓｉｃ
ｒａｔｉｏ、ＶＭＲ）を決定するステップと、
所定のＶＭＲを伴う前記スペクトル帯域に対してＦＦＴに基づく等化器（ｅｑｕａｌｉ
ｚｅｒ、ＥＱ）を適用するステップと
をさらに備える、請求項１２に記載の方法。
オーディオ源からオーディオを受信するように構成されたヘッドホンで、外部音響環境
の中で音響を判断するための非一時的コンピュータ可読記憶媒体の中に実装されたコンピ
ュータプログラム製品であって、前記プログラムは、前記ヘッドホンに関連する少なくと
も１つのマイクロホンを用いて前記外部音響環境の中で外部音響を検出するためのプログ
ラムコードと、前記外部音響を対象とする信号を生成するためのプログラムコードと、前
記外部音響を対象とする前記信号が、関心のある信号であるかどうかを判断するためのプ
ログラムコードと、前記外部音響を対象とする前記信号が、前記関心のある信号であるか
どうかを判断するためのプログラムコードと、前記外部音響を関心のあると判断したとき
に前記外部音響を前記オーディオ源からの前記オーディオと混合するためのプログラムコ
ードとを備える、コンピュータプログラム製品。
周波数領域で、前記外部音響を分析して、発振周波数候補を選択して、時間領域で、前
記発振周波数候補が、前記関心のある信号であるかどうかを判断する、請求項２３に記載
のコンピュータプログラム製品。