JP2007164169A

JP2007164169A - 高周波数圧縮を通じてスピーチ了解度を改良するためのシステム

Info

Publication number: JP2007164169A
Application number: JP2006321499A
Authority: JP
Inventors: Phillip A Hetherington; エー．ヘザーリントンフィリップ; Xueman Li; リーシュエマン
Original assignee: QNX Software Systems Wavemakers Inc
Current assignee: QNX Software Systems Wavemakers Inc
Priority date: 2005-12-09
Filing date: 2006-11-29
Publication date: 2007-06-28
Also published as: US8086451B2; CN101030382A; CA2569221C; JP5463306B2; CA2569221A1; KR100843926B1; EP1796082A1; JP2011141551A; US8219389B2; EP3089162B1; EP3089162A1; KR20070061360A; US20120095759A1; US20060241938A1

Abstract

【課題】制限された周波数範囲内のスピーチの知覚できる音を改良するシステムを提供すること。
【解決手段】処理されたスピーチの了解度および知覚品質を改良するスピーチ強調システムは、周波数変換器およびスペクトル圧縮器を含む。周波数変換器は、スピーチ信号を時間ドメインから周波数ドメインに変換する。スペクトル圧縮器は、高周波数帯域の予め選択された部分を圧縮し、かつ圧縮された高周波数帯域をより低い帯域制限された周波数範囲にマッピングする。
【選択図】図１

Description

（優先権の主張）
本出願は、２００５年４月２０日に出願された米国出願第１１／１１０，５５６号「ＳｙｓｔｅｍｆｏｒＩｍｐｒｏｖｉｎｇＳｐｅｅｃｈＱｕａｌｉｔｙａｎｄＩｎｔｅｌｌｉｇｉｂｉｌｉｔｙ」の一部継続出願である。上記出願の開示は、参考により本明細書中に援用される。

（技術分野）
本発明は、通信システムに関し、より詳細には、スピーチの了解度を改良するシステムに関する。

（関連技術）
多数の通信デバイスは、スピーチ信号を取得、同化および転送する。スピーチ信号は、通信媒体を介して１つのシステムからもう一方のシステムへと送られる。全ての通信システム、特にワイヤレス通信システムは、帯域幅制限を受ける。一部の電話システムを含む一部のシステムにおいては、音声信号の明確性は、高および低周波数を通過させることができるシステム能力による。多数の低周波数が通信システムの通過帯域にあり得る一方、システムは、一部の無声音の子音にて見い出される高周波数成分を含む高周波数信号をブロックまたは減衰し得る。

一部の通信デバイスは、スペクトルを処理することによってこの高周波数減衰を克服し得る。これらのシステムは、無声音のスピーチを識別および処理するためにスピーチ／サイレンススイッチおよび声音／無声音スイッチを使用し得る。声音と無声音セグメントとの間における遷移を検出するのが困難になり得るため、一部のシステム、特にノイズまたは残響に対して影響を受けやすいシステムは、信頼性がなく、かつリアルタイム処理と使用されない場合もある。一部のシステムにおいては、スイッチは高価であり、スピーチの知覚をひずませるアーティファクトを生成する。

従って、制限された周波数範囲内のスピーチの知覚できる音を改良するシステムが必要である。

スピーチ強調システムは、スピーチ信号の了解度を改良する。システムは、周波数変換器およびスペクトル圧縮器を含む。周波数変換器は、スピーチ信号を時間ドメインから周波数ドメインに変換する。スペクトル圧縮器は、高周波数帯域の予め選択された部分を圧縮し、かつ圧縮された高周波数帯域をより低い帯域制限された周波数範囲にマッピングする。

本発明の他のシステム、方法、特徴、および利点は、以下の図および詳細な説明の考察によって当業者に明らかになるであろう。そのような全ての追加のシステム、方法、特徴、および利点が、この説明に含まれ、本発明の範囲内にあり、上記の特許請求の範囲によって保護されることが意図される。

本発明は、さらに、以下の手段を提供する。

（項目１）
処理されたスピーチの了解度および品質を改良するスピーチシステムであって、該システムは、
スピーチ信号を周波数のスペクトルに変換する周波数変換器と、
該周波数変換器に電気的に結合されているスペクトル圧縮器であって、予め選択された高周波数帯域を圧縮し、かつ該圧縮された高周波数帯域をより低い帯域制限された周波数範囲にマッピングする、スペクトル圧縮器と
を備える、システム。

（項目２）
前記周波数変換器が、ほぼリアルタイムにおいて、前記スピーチ信号をその周波数スペクトルに自動的に変換するようにプログラムされる、項目１に記載のシステム。

（項目３）
前記周波数変換器が、リアルタイムにおいて、前記スピーチ信号を周波数の前記スペクトルに自動的に変換するように、プログラムされるか構成される、項目１に記載のシステム。

（項目４）
前記高周波数帯域が、前記より低い帯域制限された周波数範囲より大きい範囲の周波数を含む、項目１に記載のシステム。

（項目５）
前記スペクトル圧縮器が、非線形圧縮基底関数を含む、項目１に記載のシステム。

（項目６）
前記より低い帯域制限された周波数範囲が、アナログ帯域幅の一部を含む、項目１に記載のシステム。

（項目７）
前記より低い帯域制限された周波数範囲が、電話帯域幅の一部を含む、項目１に記載のシステム。

（項目８）
前記スピーチ信号が検出されたときに存在するノイズのレベルを検出および測定するように構成されるノイズ検出器をさらに備える、項目１に記載のシステム。

（項目９）
前記スピーチ信号が検出されたときに存在するノイズのレベルを検出および推定するように構成されるノイズ検出器をさらに備える、項目１に記載のシステム。

（項目１０）
独立した外部信号に関連して前記圧縮された高周波数帯域のゲインを調節するように構成されるゲインコントローラをさらに備える、項目１に記載のシステム。

（項目１１）
前記独立した外部信号がバックグラウンドノイズを含む、項目１０に記載のシステム。

（項目１２）
前記スペクトル圧縮器に結合されるゲインコントローラをさらに備え、該スペクトル圧縮器は、前記より低い帯域制限された周波数範囲において、前記圧縮された高周波数帯域のゲインのみを実質的に調節するように構成される、項目１に記載のシステム。

（項目１３）
前記スペクトル圧縮器が、検出されたスピーチ信号から独立した信号によって変化する複数のゲイン調節を適用するように構成される、項目１２に記載のシステム。

（項目１４）
処理されたスピーチの了解度を改良するスピーチシステムであって、該スピーチシステムは、
スピーチ信号をその周波数ドメインに変換する周波数変換器と、
該周波数変換器に結合されているスペクトル圧縮器であって、予め選択された高周波数帯域を圧縮し、かつ該圧縮された高周波数帯域をより低い周波数帯域にマッピングする、スペクトル圧縮器と、
存在するノイズのレベルを検出および推定するように構成されるノイズ検出器と、
該圧縮された高周波数帯域のゲインを独立した外部信号の変化するレベルに比例して調節するように構成されるゲインコントローラと
を備える、スピーチシステム。

（項目１５）
前記スペクトル圧縮器を調整するコントローラをさらに備え、該コントローラは、圧縮された信号の信号−ノイズ比を圧縮される前の信号の信号−ノイズ比と比較するモニタを含む、項目１４に記載のスピーチシステム。

（項目１６）
前記ゲインコントローラが、前記外部信号の変化するレベルによって変化するゲインを適用するように構成される、項目１４に記載のスピーチシステム。

（項目１７）
前記ゲインコントローラが、圧縮された信号のレベルが前記独立した外部信号のレベルと実質的に一致するように、可変ゲインを適用するように構成される、項目１４に記載のスピーチシステム。

（項目１８）
処理されたスピーチの了解度を改良するスピーチシステムであって、該スピーチシステムは、
リアルタイムにおいて、スピーチ信号を時間ドメインから周波数ドメインに変換する周波数変換器と、
該周波数変換器に結合されているスペクトル圧縮器であって、予め選択された高周波数帯域を圧縮し、かつ該圧縮された高周波数帯域を電話通過帯域内のより低い周波数帯域にマッピングする、スペクトル圧縮器と、
スピーチ信号のバックグラウンドノイズレベルを検出および計測するように構成されるノイズ検出器と、
該バックグラウンドノイズのレベルに関連して該圧縮された高周波数帯域に可変ゲインを適用するように構成されるゲインコントローラと
を備える、スピーチシステム。

（項目１９）
前記スペクトル圧縮器を通信バスを介して調整するコントローラをさらに備え、該コントローラは、検出されたスピーチ信号の一部の信号−ノイズ比を圧縮された信号の一部の信号−ノイズ比と比較する、項目１８に記載のスピーチシステム。

（項目２０）
前記コントローラが、周波数ビンの比較を通じて振幅を比較するようにプログラムされる、項目１９に記載のスピーチシステム。

（項目２１）
前記ゲインコントラーラに結合される自動スピーチ認識システムをさらに備える、項目１９に記載のスピーチシステム。

本発明により、制限された周波数範囲内のスピーチの知覚できる音を改良するシステムが提供され得る。

本発明は、以下の図面および説明を参照してより理解され得る。図における構成要素は、縮尺どおりではないが、代わりに、本発明の原理を示すことに対して強調される。更に、図においては、同一の参照番号が異なる図に亘って、対応する部分を指定する。

強調ロジックは、処理されたスピーチの了解度を改良する。ロジックは、処理されるスピーチセグメントを識別および圧縮し得る。選択された音声および／または無声音セグメントは、処理され得、かつ１つ以上の周波数帯域にシフトされ得る。知覚品質を改良するために、適応ゲイン調節は、時間または周波数ドメインにおいて行われ得る。システムは、スピーチセグメントの一部または全体のゲインを調節し得る。システムの多様性は、一部のアプリケーションにおいて第２のシステムにスピーチが送られる前に、ロジックがスピーチを強調することを可能にする。スピーチおよびオーディオは、ワイヤレスに、または時間および／または周波数ドメイン内の音声をキャプチャおよび引き出し得る通信バスを介してＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ（ＡＳＲ）に送られ得る。

任意の帯域制限されたデバイスは、これらのシステムから利益を受け得る。システムは、任意の帯域制限されたデバイスに埋め込まれ得るか、そのデバイスの基本部分になり得るか、またはそのデバイスにインターフェースするように構成され得る。システムは、航空交通管制デバイス（同様の帯域制限された通過帯域を有し得る）、無線インターコム（互いに通信するクルーまたはユーザのための可動または固定システム、および１つ以上のＢｌｕｅｔｏｏｔｈリンクに亘って制限された帯域幅を有し得る、ヘッドセットのような、Ｂｌｕｅｔｏｏｔｈ使用可能デバイスのような無線アプリケーションの一部になり得るか、またはその無線アプリケーションをインターフェースし得る。システムは、車両、商用アプリケーションまたはユーザの家を制御し得るデバイス（例えば、音声制御のような）をインターフェースし得る他の個人的または商用の制限された帯域幅通信システムの一部にもなり得る。

一部の代替として、システムは、他の処理またはシステムに先行し得る。一部のシステムは、強調ロジックの性質を破壊し得る適応フィルタ、他の回路網またはプログラミングを使用し得る。一部のシステムにおいて、強調ロジックは先行し、エコーキャンセラー（例えば、不要音を減衰または実質的に減衰するシステムまたは処理）に結合され得る。エコーが検出または処理された場合、強調ロジックは、自動的にディセーブルまたは緩和され得、後に、エコーの圧縮およびマッピング、ならびに一部の場合においては、ゲイン調節を防ぐためにイネーブルされ得る。システムが先行するか、またはビーム形成器に結合された場合、制御器またはビーム形成器（例えば、信号コンバイナ）は、強調ロジックの動作を制御し得る（例えば、強調ロジックを自動的にイネーブル、ディセーブル、または緩和する）。一部のシステムにおいては、この制御は、マルチパスひずみおよび／または同一チャネル干渉のようなひずみを更に抑制し得る。他のシステムまたはアプリケーションにおいては、強調ロジックは、適合後のシステムまたは処理に結合される。一部のアプリケーションにおいては、強調ロジックは、制御されるか、または不要信号の強調を防ぐか最小化する制御器にインターフェースされる。

図１は、強調ロジック１００のブロック図である。強調ロジック１００は、１つ以上のオペレーティングシステムにて実行またはそのシステムをインターフェースすることが可能であるハードウェアおよび／またはソフトウェアを含み得る。時間ドメインにおいては、強調ロジック１００は、変換ロジックおよび圧縮ロジックを含み得る。図１においては、変換ロジックは、周波数変換器１０２を含む。周波数変換器１０２は、入力信号の周波数変換に対して時間を提供する。受け取った際、周波数変換器は、入力信号をその周波数スペクトルに変換するようにプログラムまたは構成される。周波数変換器は、アナログオーディオまたはスピーチ信号を、遅れて、またはリアルタイムで周波数のプログラムされた範囲に変換し得る。一部の周波数変換器１０２は、通過帯域の外にある周波数を消去、最小化、または鈍らせる（ｄａｍｐｅｎｉｎｇ）一方、所定の周波数を選択的に通過させる狭帯域通過フィルタのセットを含み得る。他の強調システム１００は、高速フーリエ変換（ＦＦＴ）に基づくデジタル周波数スペクトルを生成するようにプログラムまたは構成された周波数変換器１０２を使用する。これらの周波数変換器１０２は、リアルタイム、ほぼリアルタイム、または遅れた周波数スペクトルを生成するために、選択された範囲または周波数帯域の全体から信号を集め得る。一部の強調システムにおいては、周波数変換器１０２は、オーディオまたはスピーチ信号を自動的に検出し、周波数のプログラムされた範囲に自動的に変換する。

圧縮ロジックは、スペクトル圧縮デバイスまたはスペクトル圧縮器１０４を含む。スペクトル圧縮器１０４は、高周波数範囲内の広い範囲の周波数成分をより低い、および一部の強調システムにおいては、より狭い周波数範囲にマッピングする。図１においては、スペクトル圧縮器１０４は、選択された高周波数帯域を圧縮し、圧縮された帯域をより低い帯域制限された周波数範囲にマッピングすることによってオーディオまたはスピーチ範囲を処理する。電話帯域幅のような通信帯域を介して送信されたスピーチまたはオーディオ信号に適用された場合、圧縮は、一部の高周波数成分を、電話または通信帯域幅内にある帯域に変換およびマッピングする。一強調システムにおいては、スペクトル圧縮器１０４は、対象の最高周波数よりほぼ２倍高い、第１の周波数と第２の周波数との間の周波数成分をより短いまたはより小さい帯域制限された範囲にマッピングする。これらの強調システムにおいて、帯域制限された範囲の上側カットオフ周波数は、電話または他の通信帯域幅の上側カットオフ周波数と実質的に一致し得る。

図２において、図１に示されるスペクトル圧縮器１０４は、指定のカットオフ周波数「Ａ」とナイキスト周波数との間の周波数成分をカットオフ周波数「Ａ」と「Ｂ」との間にある帯域制限された範囲に圧縮およびマッピングする。示されるように、約２，８００Ｈｚから約５，５５０Ｈｚの間にある無声音の子音（ここにおいて、文字「Ｓ」）の圧縮は、約２，８００Ｈｚから約３，６００Ｈｚの間に固定される周波数範囲に圧縮およびマッピングされる。カットオフ周波数「Ａ」の下にある周波数成分は、変化されないか、または実質的に変化されない。約０Ｈｚから約３，６００Ｈｚの間の帯域幅は、電話システムまたは他の通信システムの帯域幅と一致し得る。他の通信帯域幅と一致する他の周波数範囲も使用され得る。

一部の強調システムによって使用される周波数圧縮スキームの１つは、周波数圧縮を周波数互換と組み合わせる。これらの強調システムにおいては、圧縮された高周波数成分を見出すように強調コントローラがプログラムされ得る。一部の強調システムにおいては、式１が使用される。

ここにおいて、Ｃ_ｍは、圧縮された高周波数成分の振幅であり、ｇ_ｍはゲイン係数であり、Ｓ_ｋはオリジナルスピーチ信号の周波数成分であり、

は圧縮基底関数であり、ｋは離散周波数インデックスである。任意の形の窓関数が、例えば、三角形、ハニング、ハミング、ガウシアン、ガボール、またはウェーブレットウィンドウを含む非線形圧縮基底関数

として使用され得る一方、図３は、一部の強調システムにて使用される典型的５０％の重複基底関数の一群を示す。これらの三角形の基底関数は、より狭い周波数範囲を覆うより低い周波数基底関数およびより広い周波数範囲を覆うより高い周波数基底関数を有する。

周波数成分は次いで、より低い周波数範囲にマッピングされる。一部の強調システムにおいては、強調コントローラは、式２に示される関数に周波数をマッピングするようにプログラムされ得るか、またはそのように構成され得る。

式２においては、

は圧縮されたスピーチ信号の周波数成分であり、ｆ_０はカットオフ周波数インデックスである。この圧縮スキームに基づいて、カットオフ周波数インデックスｆ_０より低いオリジナルスピーチの全ての周波数成分は、変化されないままか、または実質的に変化されない。カットオフ周波数「Ａ」からナイキスト周波数までの周波数成分は、圧縮され、より低い周波数範囲にシフトされる。周波数範囲は、下側カットオフ周波数「Ａ」から、電話または通信通過帯域の上限をも含み得る上側カットオフ周波数「Ｂ」まで延びる。この強調システムにおいては、より高い周波数成分は、上側カットオフ周波数「Ｂ」に近い周波数より、より高い圧縮率およびより大きい周波数シフトを有す。これらの強調システムは、スピーチ信号の了解度および／または知覚品質を改良する。なぜなら、カットオフ周波数「Ｂ」より上の周波数が、正確なスピーチ認識に対して重大になり得るかなりの子音情報を運ぶからである。

実質的に平滑な、および／または実質的に一定の聴覚バックグラウンドを維持するために、適応高周波数ゲイン調節が圧縮された信号に適用され得る。図１においては、ゲインコントローラ１０６は、ノイズ検出器１０８を介してリアルタイム、ほぼリアルタイム、またはディレイドタイムにおいて、バックグラウンドノイズ信号のような独立した外部信号を計測または推定することによって、高周波数抵抗制御を圧縮された信号に適用し得る。ノイズ検出器１０８は、バックグラウンドノイズを検出し、それを計測し得、および／または推定し得る。バックグラウンドノイズは、通信ライン、媒体、ロジック、または回路に固有になり得、および／または音声またはスピーチ信号に対して独立し得る。一部の強調システムにおいては、実質的に一定の識別可能バックグラウンドノイズまたは音は、電話または通信帯域幅の周波数「Ａ」から周波数「Ｂ」までのような選択された帯域幅に維持される。

ゲインコントローラ１０６は、式３に示される関数に従うと、一部のアプリケーションにノイズを含む圧縮されたスペクトル信号のみを増幅および／または減衰するようにプログラムされ得る。式３においては、出力ゲインｇ_ｍは、

によって導き出される。ここにおいて、Ｎ_ｋは、入力バックグラウンドノイズの周波数成分である。ゲインを計測されまたは推定されたノイズレベルまで追跡することによって、一部の強調システムは、圧縮されたおよび圧縮されていない帯域幅に亘ってノイズフロアを維持する。図４に示されるように、周波数が圧縮された周波数帯域にて増加するとともに、ノイズがスロープダウンした場合、信号の圧縮された部分は、圧縮前より圧縮後により少ないエネルギーを有し得る。これらの状況において、比例ゲインは、圧縮された信号のスロープを調節するために圧縮された信号に適用され得る。図４において、圧縮された信号のスロープは、圧縮された周波数帯域内のオリジナル信号のスロープに実質的に等しくなるように調節される。一部の強調システムにおいては、ゲインコントローラ１０６は、図４に示される圧縮された信号を１と等しいまたは１より大きく、圧縮された信号の周波数によって変化する乗数をかける。図４において、圧縮された帯域幅に亘る乗数におけるインクリメンタルな差異は、ポジティブトレンドを有するであろう。

図５に示される圧縮された信号帯域内の増加するバックグラウンドノイズの効果を克服するため、ゲインコントローラ１０６は、信号の圧縮された部分のゲインを鈍らし得るか、またはそれを減衰し得る。これらの状況において、圧縮された信号の強さは、圧縮された信号のスロープを調節するために鈍らされ、または減衰される。図５において、スロープは、圧縮された周波数帯域内のオリジナル信号のスロープに実質的に等しくなるように調節される。一部の強調システムにおいては、ゲインコントローラ１０６は、図５に示される圧縮された信号に０より大きく１以下である乗数をかける。図５において、乗数は、圧縮された信号の周波数によって変化する。図５に示される圧縮された帯域幅に亘る乗数におけるインクリメンタルな差異は、ネガティブトレンドを有するであろう。

図６に示されるように、バックグラウンドノイズが所望の帯域幅の全ての周波数に亘って均等またはほぼ均等である場合、ゲインコントローラ１０６は、圧縮された信号を増幅または鈍らせずに渡す。一部の強調システムにおいて、ゲインコントローラ１０６はこれらの状況にて使用されないが、入力信号を正規化するプリコンディショニングコントローラが、オリジナル入力スピーチセグメントを生成するためにスピーチ強調システムのフロントエンド上にインターフェースされる。

帯域制限された周波数範囲におけるスピーチ損失を最小化するために、強調システムのカットオフ周波数は、通信システムの帯域幅によって異なり得る。約３，６００Ｈｚまでの帯域幅を有する一部の電話システムにおいては、カットオフ周波数は、約２，５００Ｈｚから約３，６００Ｈｚの間にあり得る。これらのシステムにおいて、最も低いカットオフ周波数の下に少しの圧縮が生じるか、または全く生じない一方、より高い周波数は、より強く圧縮および互換される。結果的に、ピッチを伝える（ｉｍｐａｒｔ）、または人間の耳によって知覚され得るより低い高調波関係が保存される。

音声強調システムに対する更なる代替は、圧縮されたおよび圧縮されていない信号の信号−ノイズ比（ＳＮＲ）を解析することによって達成され得る。この代替は、母音の第２のフォルマントピークが約３，２００Ｈｚの周波数より低く支配的に位置され、それらのエネルギーがより高い周波数に対して素早く減衰することを認識する。これは、／ｓ／，／ｆ／，／ｔ／および／ｔ∫／のような一部の無声音の子音に対しては、そうでない場合がある。子音を表すエネルギーは、周波数のより高い範囲を覆い得る。一部のシステムにおいては、子音は約３，０００Ｈｚから約１２，０００Ｈｚの間にあり得る。車のような車両にて検出され得る高バックグラウンドノイズが検出された場合、子音は、より低い周波数帯域より、より高い周波数帯域において、より高い信号−ノイズ比を有する傾向があり得る。この代替においては、カットオフ周波数「Ａ」と「Ｂ」との間にある圧縮されていない範囲ＳＮＲ_{Ａ−Ｂｕｎｃｏｍｐｒｅｓｓｅｄ}内の平均ＳＮＲは、コントローラによって、カットオフ周波数「Ａ」と「Ｂ」との間にある圧縮されるであろう周波数範囲ＳＮＲ_{Ａ−Ｂｃｏｍｐｒｅｓｓｅｄ}内の平均ＳＮＲと比較される。平均ＳＮＲ_{Ａ−Ｂｕｎｃｏｍｐｒｅｓｓｅｄ}が、平均ＳＮＲ_{Ａ−Ｂｃｏｍｐｒｅｓｓｅｄ}より高くまたはそれと等しい場合、圧縮は生じない。平均ＳＮＲ_{Ａ−Ｂｕｎｃｏｍｐｒｅｓｓｅｄ}が、平均ＳＮＲ_{Ａ−Ｂｃｏｍｐｒｅｓｓｅｄ}より低い場合、圧縮が、一部の場合、ゲイン調節が生じる。この代替Ａ−Ｂは、周波数帯域を表す。この代替におけるコントローラは、ワイヤレスに、または通信バスのような有形（ｔａｎｇｉｂｌｅ）通信媒体を介してスペクトル圧縮器１０４を調整し得るプロセッサを含み得る。

他の代替のスピーチ強調システムおよび方法は、入力信号の各周波数成分の振幅を、スペクトル圧縮器に結合される第２のコントローラを介して同じ周波数帯域内にある圧縮された信号の対応する振幅と比較する。

式４に示されるこの代替においては、カットオフ周波数「Ａ」と「Ｂ」との間にある各周波数ビンの振幅は、圧縮されたまたは圧縮されていないスペクトルの高い方のどちらかの振幅になるように選ばれる。

上述されたコントローラ、システムおよび方法の各々は、信号ベアリング媒体、メモリのようなコンピュータ読取可能媒体に符号化され得るか、１つ以上の集積回路のようなデバイス内にプログラムされ得るか、もしくはコントローラまたはコンピュータによって処理され得る。方法がソフトウェアによって実行される場合、ソフトウェアは、スペクトル圧縮器１０４、ノイズ検出器１０８、ゲイン調節器１０６、周波数−時間変換器１１０に内在するかまたはそれらにインターフェースされるメモリ、もしくはスピーチ強調ロジックにインターフェースされるかまたはそれに内在する任意の種類の不揮発性または揮発性メモリに内在し得る。メモリは、ロジカル機能をインプリメントするための実行可能命令の順序付けられたリスティングを含み得る。ロジカル機能は、デジタル回路網を介して、ソースコードを介して、アナログ回路網を介して、もしくはアナログ電気または光信号を介してのようにアナログソースを介してインプリメントされ得る。ソフトウェアは、命令実行可能システム、装置、またはデバイスによる使用のために、またはそれらに関連して、任意のコンピュータ読取可能または信号ベアリング媒体に組み入れられ得る。そのようなシステムは、コンピュータベースシステム、プロセッサ含有システム、または命令を実行し得る命令実行可能システム、装置、またはデバイスから命令を選択的に取り出し得る他のシステムを含み得る。

「コンピュータ読取可能媒体」、「機械読取可能媒体」、「伝搬信号」媒体、および／または「信号ベアリング媒体」は、命令実行可能システム、装置、またはデバイスによる使用のために、またはそれらに関連して、ソフトウェアを含み、格納し、通信し、伝搬し、または移動させる任意の装置を含み得る。機械読取可能媒体は、電子、磁気、光、電磁、赤外線または半導体システム、装置、デバイス、または伝搬媒体に選択的になり得るが、それらに限定されない。機械読取可能媒体の非網羅的リストの例は、１つ以上のワイヤを有する電気接続「電子」、携帯磁気または光ディスク、ランダムアクセスメモリ「ＲＡＭ」（電子）、読取専用メモリ「ＲＯＭ」（電子）、消去可能プログラマブル読取専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）（電子）のような揮発性メモリ、または光ファイバ（光）を含む。ソフトウェアが画像または他の形式（例えば、光スキャンを介して）として電子的に格納され得、コンパイルされ得、および／または解釈され得、他の処理され得る一方、機械読取可能媒体は、ソフトウェアがプリントされた有形媒体をも含み得る。処理された媒体は次いで、コンピュータおよび／または機械メモリに格納され得る。

スピーチ強調ロジック１００は、任意の技術またはデバイスに適応できる。図１に示されるように、一部のスピーチ強調システムは、周波数−時間変換器１１０にインターフェースされるか、またはそれに結合される。周波数−時間変換器１１０は、信号を周波数ドメインから時間ドメインに変換し得る。一部の時間−周波数変換器は、一部または全ての入力周波数をほぼ同時に処理し得るため、一部の周波数−時間変換器は、リアルタイム、ほぼリアルタイム、またはいくらかの遅れで入力信号を変換するようにプログラムされ得るか、またはそのように構成され得る。一部のスピーチ強調ロジックまたは構成要素は、図８に示されるように（電話ロジックまたは車両制御ロジック単独で組み入れられ得る車両に示される）、リモートまたはローカルＡＳＲエンジンをインターフェースするか、それらを結合する。ＡＳＲエンジンは、電話およびオーディオ機器を含み得るランドラインおよびワイヤレス通信デバイスのようなリモート配置に送信され得る形式に音声および他の音を変換し、人または物を移動させるデバイスまたは構造（例えば、車両）内部にあり得、またはデバイス内にてスタンドアローンである器具に組み入れられ得る。同様に、スピーチ強調は、図７に示されるように、ＡＳＲを備えるまたは備えない車両の外またはその車両にインターフェースされるウォーキートーキー、Ｂｌｕｅｔｏｏｔｈ使用可能デバイス（例えば、ヘッドセット）を含むパーソナル通信デバイスに組み入れられ得る。

スピーチ強調ロジックは、適応可能でもあり、音をワイヤレスにもしくは電気または光接続によって検出および／またはモニタするシステムをインターフェースし得る。所定の音が高周波数帯域内にて検出された場合、システムは、これらの信号の圧縮、マッピング、および一部の場合において、ゲイン調節を防ぐために強調ロジックをディスエーブルし得、ディスエーブルしない場合、その強調ロジックを緩和し得る。通信バスのようなバスを介して、ノイズ検出器は、これらの音の強調を防ぎまたは緩和するために、割込み（ソフトウェア割込みのハードウェア）またはメッセージを送信し得る。これらのアプリケーションにおいて、強調ロジックは、各々が参考により本明細書中に援用される米国出願第１１／００６，９３５号の「ＳｙｓｔｅｍｆｏｒＳｕｐｐｒｅｓｓｉｎｇＲａｉｎＮｏｉｓｅ」に説明される１つ以上の回路、ロジック、システムまたは方法をインターフェースし得るか、またはそれらに組み入れられ得る。

スピーチ強調ロジックは、スピーチ信号の了解度を改良する。ロジックは、処理されるスピーチセグメントを自動的に識別および圧縮し得る。選択された音声および／または無音声セグメントは処理され得、かつ１つ以上の周波数帯域にシフトされ得る。知覚品質を改良するために、適応ゲイン調節は、時間または周波数ドメイン内にて行われ得る。システムは、感知された信号または推定された信号に基づく一部の調節を用いて、スピーチセグメントの一部のみまたは全てのゲインを調節し得る。システムの多様性は、ロジックが、第２のシステムによってスピーチが渡されまたは処理される前にそのスピーチを強調することを可能にする。一部のアプリケーションにおいては、スピーチまたは他のオーディオ信号は、時間および／または周波数ドメイン内の音声をキャプチャし得、かつ引き出し得るリモート、ローカル、またはモバイルＡＳＲエンジンに渡され得る。一部のスピーチ強調システムは、スピーチとサイレンスまたは音声と無音声セグメントの間にてスイッチせず、従って、キーキー、ギャーギャー、チュッチュッ、カチリ、ポタポタ、ポン、低周波数楽音（ｔｏｎｅｓ）もしくはスピーチをキャプチャまたは再構成する一部のスピーチシステム内にて生成され得る他の音響アーチファクトにあまり影響されない。

本発明の様々な実施形態が説明される一方、本発明の範囲内にて更なる実施形態およびインプリメンテーションが可能であることが当業者に明らかになるであろう。従って、本発明は、添付の特許請求の範囲およびそれらの均等物の観点から以外には制限されない。

以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。

処理されたスピーチの了解度および知覚品質を改良するスピーチ強調システムは、周波数変換器およびスペクトル圧縮器を含む。周波数変換器は、スピーチ信号を時間ドメインから周波数ドメインに変換する。スペクトル圧縮器は、高周波数帯域の予め選択された部分を圧縮し、かつ圧縮された高周波数帯域をより低い帯域制限された周波数範囲にマッピングする。

スピーチ強調システムのブロック図である。圧縮されていないおよび圧縮された信号のグラフである。基底関数の一群のグラフである。オリジナル例示的スピーチ信号およびその信号の圧縮された部分のグラフである。オリジナル例示的スピーチ信号およびその信号の圧縮された部分の第２のグラフである。オリジナル例示的スピーチ信号およびその信号の圧縮された部分の第３のグラフである。車両内のスピーチ強調システムおよび／または電話または他の通信デバイスのブロック図である。車両内の自動スピーチ認識システムおよび／または電話または他の通信デバイスに結合されるスピーチ強調システムのブロック図である。

符号の説明

１０２周波数変換器
１０４スペクトル圧縮器

Claims

処理されたスピーチの了解度および品質を改良するスピーチシステムであって、該システムは、
スピーチ信号を周波数のスペクトルに変換する周波数変換器と、
該周波数変換器に電気的に結合されているスペクトル圧縮器であって、予め選択された高周波数帯域を圧縮し、かつ該圧縮された高周波数帯域をより低い帯域制限された周波数範囲にマッピングする、スペクトル圧縮器と
を備える、システム。
前記周波数変換器が、ほぼリアルタイムにおいて、前記スピーチ信号をその周波数スペクトルに自動的に変換するようにプログラムされる、請求項１に記載のシステム。
前記周波数変換器が、リアルタイムにおいて、前記スピーチ信号を周波数の前記スペクトルに自動的に変換するように、プログラムされるか構成される、請求項１に記載のシステム。
前記高周波数帯域が、前記より低い帯域制限された周波数範囲より大きい範囲の周波数を含む、請求項１に記載のシステム。
前記スペクトル圧縮器が、非線形圧縮基底関数を含む、請求項１に記載のシステム。
前記より低い帯域制限された周波数範囲が、アナログ帯域幅の一部を含む、請求項１に記載のシステム。
前記より低い帯域制限された周波数範囲が、電話帯域幅の一部を含む、請求項１に記載のシステム。
前記スピーチ信号が検出されたときに存在するノイズのレベルを検出および測定するように構成されるノイズ検出器をさらに備える、請求項１に記載のシステム。
前記スピーチ信号が検出されたときに存在するノイズのレベルを検出および推定するように構成されるノイズ検出器をさらに備える、請求項１に記載のシステム。
独立した外部信号に関連して前記圧縮された高周波数帯域のゲインを調節するように構成されるゲインコントローラをさらに備える、請求項１に記載のシステム。
前記独立した外部信号がバックグラウンドノイズを含む、請求項１０に記載のシステム。
前記スペクトル圧縮器に結合されるゲインコントローラをさらに備え、該スペクトル圧縮器は、前記より低い帯域制限された周波数範囲において、前記圧縮された高周波数帯域のゲインのみを実質的に調節するように構成される、請求項１に記載のシステム。
前記スペクトル圧縮器が、検出されたスピーチ信号から独立した信号によって変化する複数のゲイン調節を適用するように構成される、請求項１２に記載のシステム。
処理されたスピーチの了解度を改良するスピーチシステムであって、該スピーチシステムは、
スピーチ信号をその周波数ドメインに変換する周波数変換器と、
該周波数変換器に結合されているスペクトル圧縮器であって、予め選択された高周波数帯域を圧縮し、かつ該圧縮された高周波数帯域をより低い周波数帯域にマッピングする、スペクトル圧縮器と、
存在するノイズのレベルを検出および推定するように構成されるノイズ検出器と、
該圧縮された高周波数帯域のゲインを独立した外部信号の変化するレベルに比例して調節するように構成されるゲインコントローラと
を備える、スピーチシステム。
前記スペクトル圧縮器を調整するコントローラをさらに備え、該コントローラは、圧縮された信号の信号−ノイズ比を圧縮される前の信号の信号−ノイズ比と比較するモニタを含む、請求項１４に記載のスピーチシステム。
前記ゲインコントローラが、前記外部信号の変化するレベルによって変化するゲインを適用するように構成される、請求項１４に記載のスピーチシステム。
前記ゲインコントローラが、圧縮された信号のレベルが前記独立した外部信号のレベルと実質的に一致するように、可変ゲインを適用するように構成される、請求項１４に記載のスピーチシステム。
処理されたスピーチの了解度を改良するスピーチシステムであって、該スピーチシステムは、
リアルタイムにおいて、スピーチ信号を時間ドメインから周波数ドメインに変換する周波数変換器と、
該周波数変換器に結合されているスペクトル圧縮器であって、予め選択された高周波数帯域を圧縮し、かつ該圧縮された高周波数帯域を電話通過帯域内のより低い周波数帯域にマッピングする、スペクトル圧縮器と、
スピーチ信号のバックグラウンドノイズレベルを検出および計測するように構成されるノイズ検出器と、
該バックグラウンドノイズのレベルに関連して該圧縮された高周波数帯域に可変ゲインを適用するように構成されるゲインコントローラと
を備える、スピーチシステム。
前記スペクトル圧縮器を通信バスを介して調整するコントローラをさらに備え、該コントローラは、検出されたスピーチ信号の一部の信号−ノイズ比を圧縮された信号の一部の信号−ノイズ比と比較する、請求項１８に記載のスピーチシステム。
前記コントローラが、周波数ビンの比較を通じて振幅を比較するようにプログラムされる、請求項１９に記載のスピーチシステム。
前記ゲインコントラーラに結合される自動スピーチ認識システムをさらに備える、請求項１９に記載のスピーチシステム。