JP2004527797A

JP2004527797A - 音声信号の処理方法

Info

Publication number: JP2004527797A
Application number: JP2002590150A
Authority: JP
Inventors: ビエトリクス，フランク; カデュッソー，ユベール
Original assignee: ウェーヴコム
Priority date: 2001-05-15
Filing date: 2002-05-15
Publication date: 2004-09-09
Also published as: DE60223246D1; EP1395981A1; EP1395981B1; IL158797A; IL158797A0; US7295968B2; KR20040005965A; US20040236572A1; CN1520589A; CN1223991C; FR2824978A1; WO2002093558A1; ATE377244T1; FR2824978B1

Abstract

本発明は、ソース音声信号に第１の区分窓５０５、５０６、７００、７０１を適用して得られる第１のサンプルシーケンスに適用される少なくとも１つの数学的変換を用いた第１の音声信号処理２０５と、第１のステップにより送られる信号に第２の区分窓５０７、５０８を適用して得られる第２のサンプルシーケンスに適用される第２の音声処理２０６とを含んでなり、区分どうしが同期するように、２つの連続する第１の窓および／または２つの連続する第２の窓が重複することを特徴とする音声信号処理に関する。

Description

【技術分野】
【０００１】
本発明は、音声信号処理の分野に関する。
【０００２】
より詳細には、本発明は、特にデジタル通信デバイス、例えば、デジタル電話および／またはハンズフリー移動無線電話を経由した音声信号のノイズの低減またはキャンセルに関する。
【背景技術】
【０００３】
（典型的には車内などの）騒音環境においてデジタル音声通信デバイスが使用される場合には、そのような環境により、音声信号が大幅に妨害される結果、通信品質が劣化することがあり得る。
【０００４】
公知の技術によれば、この問題を解決するために、音声信号を個別に処理する前に、マイクロホンにより捕捉された信号に作用するノイズサプレッサやノイズキャンセラが挿入される。
【０００５】
第１の公知の技術によれば、音声信号を捕捉するように設計されたマイクロホンと音声信号処理デバイスとの間に、エコーまたはノイズのキャンセルおよび低減デバイスが設置される。このデバイスによって、有用な信号対雑音比が改善してエコーが抑制されるため、最適な状況下で信号を処理することができる。しかしながら、この従来技術には、特定の目的に合わせたデバイスが必要となり、追加のコストの発生およびアプリケーションの複雑化という欠点がある。
【０００６】
第２の公知の技術によれば、スピーチサンプルの連続した流れに適用される高速フーリエ変換（Fast Fourier Transform：以下、「ＦＦＴ」とよぶ）の使用に基づいたノイズ低減関数が、デジタル通信デバイスに組み込まれる。１つの例において、サンプルの流れは、フォーマット窓を適用して得られる２５６サンプルの窓へと切り分けられ、窓の半分が重複する（つまり、窓の前半の１２８サンプルは、先行窓の後半の１２８サンプルに対応する）。ＦＦＴが各窓に適用されて、ＦＦＴの結果が、ノイズもしくはエコーのキャンセルまたは低減関数によって処理される。
【０００７】
次に、この関数の結果は、逆高速フーリエ変換（Inverse Fast Fourier Transform：以下、「ＩＦＦＴ」とよぶ）を介して処理され、スピーチサンプルの流れが再構成されて、スピーチ処理関数を介して処理される。
【０００８】
この従来技術の欠点は、比較的に実行が複雑なことである。
【発明の開示】
【発明が解決しようとする課題】
【０００９】
さまざまな態様による本発明の主な目的は、従来技術のこれらの欠点を解消することである。
【００１０】
より詳細には、本発明の１つの目的は、音声フレームに適用される音声処理を最適化しながら、データブロックに適用される数学的な変換に基づいた処理の複雑性を低減できる音声処理方法およびデバイスを提供することである。
【００１１】
本発明の別の目的は、数学的変換に基づいた処理と音声処理との統合を最適化することである。
【００１２】
本発明のさらなる目的は、この処理の持続時間を最適化することである。
【００１３】
本発明の別の目的は、この処理に必要とされる計算能力を低減することである。
【課題を解決するための手段】
【００１４】
これらの目的を達成するために、本発明によれば、
ソース音声信号に第１の区分窓（segmentation window）を適用して得られる第１のサンプルシーケンスに適用される少なくとも１つの数学的変換を実行する、ソース音声信号を処理する第１のステップと、
第１のステップによって送られる信号に第１の区分窓とは異なる第２の区分窓を適用して得られる第２のサンプルシーケンスに適用される、音声処理の第２のステップと
を含んでなり、
区分どうしが同期する（segmentations are synchronous）ように、２つの連続する第１の窓および／または２つの連続する第２の窓が重複することを特徴とする、音声信号の処理方法が提案される。
【００１５】
したがって、音声処理ステップは、連続して、またはマルチタスク環境において実行することができる。さらに、この実行は、メモリを使用することにより、予測可能で高精度に経済的に行われる。
【００１６】
特有の特徴によれば、このプロセスは、第２の区分窓が連続フレームであることを特徴とする。
【００１７】
したがって、本発明によれば、この方法の処理時間が最適化される。
【００１８】
特有の特徴によれば、この方法は、第１のシーケンスの最後のサンプルが、第１のステップ後に、対応する第２のシーケンスの最後のサンプルであることも特徴とする。
【００１９】
したがって、第２の音声処理ステップを無駄に待機することなく実行して、音声処理の総時間を最適化することが好ましい。
【００２０】
特定の特徴によれば、この方法は、第１の区分窓のそれぞれが、
数学的変換に適応される、完全な再構成および処理スペクトル特性の第１の中間窓と、
第２の矩形中間窓と
の畳み込みによって得られる完全な再構成の窓であることを特徴とする。
【００２１】
したがって、重複する第１の区分窓の部分が完全な再構成のものであり、これによって、第１の比較的に単純なプロセスの間に、信号を再度組み合わせることができるようになる。
【００２２】
さらに、第１の中間窓が数学的変換に適応されるため（特に、メインローブは平坦なままであるのに対して、比較的に強い窓のサイドローブの低減が存在するため）、対応する処理の品質が最適化される。
【００２３】
さらに、第２の中間窓が矩形である場合には、対応するサンプル処理は単純で効果的である。
【００２４】
特有の特徴によれば、この方法は、各第１のシーケンスに適用される第１の処理ステップが、
第１のシーケンスに適用される所定の処理サブステップと、
第１のシーケンスの処理されたサンプルに適用される逆数学的変換サブステップと、
第１のシーケンスに適用された逆数学的変換サブステップから発生したスピーチサンプルと、先行する第１のシーケンスに適用された逆数学的変換サブセットから発生した対応するスピーチサンプルとを追加するステップと
をさらに含むことを特徴とする。
【００２５】
特有の特徴によれば、この方法は、所定の処理サブステップが、音声信号におけるノイズ低減またはキャンセルを含むことを特徴とする。
【００２６】
特有の特徴によれば、所定の処理サブステップが、
音声信号におけるエコー低減またはエコーキャンセルと、
音声信号における音声認識と
を含む群に属する少なくとも１つの処理を含むことを特徴とする。
【００２７】
したがって、この方法は、ノイズおよび／またはエコーの低減および／またはキャンセル、および／または（例えば、電話、パーソナルコンピュータ、または遠隔制御装置の）デバイスの音声認識などの処理を組み合わせることが有益であり、それにより、この処理の効率性を最適化しながら複雑性を低減でき、および／またはデバイスの強力な統合が可能となる（その結果、コストの低下およびエネルギー消費量の減少が実現でき、これは、特に、バッテリーで動作する通信デバイスにとっては比較的に主要なものである。）
【００２８】
特有の特徴によれば、この方法は、前記数学的変換が、
ＦＦＴおよびその変形と、
高速アダマール変換（Fast Hadamard Transformations：以下、「ＦＨＴ」とよぶ）およびその変形と、
直接コサイン変換（Direct Cosine Transformation：以下、「ＤＣＴ」とよぶ）およびその変形と
を含む群に属することを特徴とする。
【００２９】
したがって、本発明により、第１の音声処理に適応される１つ以上の数学的変換を使用できることが有益であり、これらの変換は、第２の区分窓のサイズとは異なるサイズのブロックに適用される。
【００３０】
特有の特徴によれば、この方法は、ソース音声信号がスピーチ信号であることを特徴とする。
【００３１】
したがって、本発明は、例えば、記憶および／または遠隔送信用のスピーチコード化（「ボコーダ処理(vocoding)」）および／またはスピーチ圧縮などのスピーチ特有のものである場合には、第２の音声処理に十分に適応される。
【００３２】
また、本発明は、
ソース音声信号に第１の区分窓を適用して得られる第１のサンプルシーケンスに適用される少なくとも１つの数学的変換を実行する、ソース音声信号を処理する第１の手段と、
第１のステップによって送られる信号に第１の区分窓とは異なる第２の区分窓を適用して得られる第２のサンプルシーケンスに適用される、音声処理の第２の手段と
を含んでなり、
区分どうしが同期するように、２つの連続する第１の窓および／または２つの連続する第２の窓が重複することを特徴とする音声信号の処理デバイスに関する。
【００３３】
さらに、本発明は、少なくとも１つのマイクロプロセッサにより読み取り可能な支持体に記録されるプログラム要素を含み、該プログラム要素がマイクロプロセッサを制御するコンピュータプログラム製品であって、
ソース音声信号に第１の区分窓を適用して得られる第１のサンプルシーケンスに適用される少なくとも１つの数学的変換を実行する、ソース音声信号を処理する第１のステップと、
第１のステップにより送られる信号に第１の区分窓とは異なる第２の区分窓を適用して得られる第２のサンプルシーケンスに適用される、音声処理の第２のステップと
を実行して、
区分どうしが同期するように、２つの連続する第１の窓および／または２つの連続する第２の窓が重複することを特徴とするコンピュータプログラム製品に関する。
【００３４】
さらに、本発明は、コンピュータでプログラムを実行するときには、前述したような音声処理方法の実行に適応される命令のシーケンスをプログラムが含むことを特徴とするコンピュータプログラム製品に関する。
【００３５】
音声信号処理デバイスおよびコンピュータプログラム製品の利点は、音声信号処理方法のものと同じであり、それらについてはさらに詳細に記載しない。
【００３６】
本発明の他の特徴および利点は、簡単に説明するための非制限的な例として与えられた好ましい実施形態と、添付の図面とを含む以下の記載を読むことによって、さらに明らかになるであろう。
【発明を実施するための最良の形態】
【００３７】
本発明の一般的な原理は、ＦＦＴに基づいた処理、特に、ノイズのキャンセルまたは低減処理と、スピーチコード化タイプのスピーチ処理との同期(synchronization)にある。
【００３８】
実際には、ＦＦＴおよびＩＦＦＴは、（典型的に、１２８または２５６の）２サンプルの大きさ程度からなる窓を処理する。
【００３９】
一方で、スピーチコード化は、異なるサイズの窓を考慮する（典型的に、ＧＳＭでのスピーチ処理では、１６０サンプルの窓を考慮する）。
【００４０】
例えば、欧州電気通信標準化機構（ＥＴＳＩ）により公開されたＧＳＭ規格に準拠した無線電話の場合には、スピーチ信号は、８ｋＨｚの周波数でサンプリングされた後、圧縮形式で２０ｍｓのフレームで受信者に送信される。
【００４１】
ＧＳＭ規格によれば、スピーチコード化は、ボコーダを介して、１６０サンプルのフレームに実行されることを留意されたい。このコード化は、所望の流れに応じて、以下のドキュメントに明記されている。
フルレート（ＦＲ）スピーチトランスコーディング（ＧＳＭ０６．１０）
ハーフレート（ＨＲ）スピーチトランスコーディング（ＧＳＭ０６．２０）
エンハンストフルレート（ＥＦＲ）スピーチトランスコーディング（ＧＳＭ０６．６０）
アダプティブマルチレート（ＡＭＲ）スピーチトランスコーディング（ＧＳＭ０６．９０）
【００４２】
従来技術によれば、処理される１６０スピーチサンプルの窓を考慮する際、ノイズおよび／またはエコーの低減またはキャンセルデバイスは、長さが１６０の最大３つの窓に切り分けることができる長さ２５６の窓を処理する。とりわけ、これは、この従来技術に固有の非同時性のものであるため、この処理が複雑化され、メモリ、および計算に使用される計算能力および／またはデジタル信号プロセッサ（ＤＳＰ）クロックの特大化が必要になる。
【００４３】
本発明によれば、ノイズおよび／またはエコーの低減またはキャンセル窓の終わりを、スピーチ処理フレームと、好ましくは、スピーチ処理フレームの終わりと体系的に一致させることにより、２つのタイプの処理が同時進行する。したがって、ノイズキャンセルまたは低減窓のサイズが、２５６サンプルに等しく、スピーチ処理フレームのサイズが、１６０サンプルに等しければ、エコー低減またはキャンセル窓は、全スピーチ処理フレームと、前の窓からの９６サンプル（２５６から１６０を引いた数）とを含むことになる。
【００４４】
したがって、ノイズ低減またはキャンセル窓とスピーチ処理フレームとの間には同時性が保たれ、全処理長が最適化される。
【００４５】
本発明によれば、フォーマット窓（１６０サンプルと関連するスピーチフレームと、２５６点を有するＦＦＴに適用）が、完全な再構成、すなわち、（重なり合いの部分に関して）互いに重なり合う２つの窓の振幅の和が常に１に等しいことと、各側に９６のカバレッジを有する長さ２５６の窓であることが好ましい。
【００４６】
このような窓は、例えば、長さ９７のハニング窓（ハニング窓（９７）と記載）と、幅１６０の矩形窓（矩形窓（１６０）と記載）との畳み込みにより得られる。
【００４７】
次に、２５６点を有するＦＦＴが、１６０サンプルのフレームで同期された２５６サンプルの各窓に適用される。ＦＦＴの実行は、当業者によく知られているものであり、ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ版、１９９２年出版、Ｗ．Ｈ．Ｐｒｅｓｓ、Ｓ．Ａ．Ｔｅｕｋｏｌｓｋｙ、Ｗ．Ｔ．Ｖｅｔｔｅｒｌｉｎｇ、およびＢ．Ｐ．Ｆｌａｎｎｅｒｙ著の書籍「ＮｕｍｅｒｉｃａｌＲｅｃｉｐｅｓｉｎＣ，２^nd ｅｄｉｔｉｏｎ」に詳細に記載されている。
【００４８】
次に、公知のあらゆるタイプのノイズ低減アルゴリズムが適用された後、考慮される２５６サンプルのブロックに逆変換動作（ＩＦＦＴと記載）を実行する。
【００４９】
このようにして、２５６サンプルのブロックが連続して処理される。ＩＦＦＴ動作後、現行窓の最初の９６処理サンプルは、先行窓の最後の９６処理サンプルに追加される。追加されると、現行窓の最初の１６０サンプルは、ボコーダに送信されて、必要に応じて、適用可能な基準に準拠した公知のスピーチコード化方法に応じて処理される。
【００５０】
図１に、本発明を実行する無線電話を示す。
【００５１】
図１は、本発明の好ましい実施形態による無線電話の概要を略図的に表す。
【００５２】
無線電話１００は、アドレスおよびデータバス１０３を介してリンクされる以下のもの、すなわち、マイクロホン１０７と、アナログ・デジタル変換器１０８と、ラウドスピーカ１０９と、デジタル・アナログ変換器１１０と、信号処理プロセッサ（以下、「ＤＳＰ」とよぶ）１０４と、不揮発性メモリ１０５と、ランダムアクセスメモリ１０６と、無線インタフェース１１１と、データフレームおよびプロトコルの交換を管理および制御するユニット１１２と、（典型的には、キーボードおよびスクリーンなどの）マン／マシン・インタフェース１１３とを含む。
【００５３】
図１に示す要素の各々は、当業者には公知のものであり。これらの一般的な要素については、本願明細書において詳細には記載しない。
【００５４】
さらに、本願明細書を通して使用される「レジスタ」という用語は、前述のメモリの各々における、（全プログラムまたは全トランザクションデータシーケンスを格納可能な）大容量メモリゾーンと同程度の（小さなバイナリデータなどの）小容量メモリゾーンを示すことに留意されたい。
【００５５】
（いわゆる、ＲＯＭなどの）不揮発性メモリ１０５は、分かりやすいように、保有するデータと同じ名称を有するレジスタにおいて、
ＤＳＰ１０４の動作プログラムを「ｐｒｏｇ」３０８レジスタに保持し、
ＦＦＴにより考慮される点の数に対応する第１の区分窓サイズを表す値Ｌ（典型的に、値２５６）をレジスタ１１５に保持し、
ボコーダにより処理されるフレームサイズに対応する第２の窓サイズを表す値Ｌ’（典型的に、値１６０）をレジスタ１１５に保持し、
信号のノイズを低減させるために使用される値α、β、γ、κ、およびβ_fを保持する。
【００５６】
ランダムアクセスメモリ１０６は、中間処理データ、変数、および結果を保持し、特に、
受信信号のノイズサンプル値が保持されるレジスタ１１７と、
処理サンプル値が保持されるレジスタ１１８と、
ボコーダ用の処理サンプルのシーケンスとを含む。
【００５７】
ＤＳＰは、フーリエ変換およびスピーチコード化タイプのプロセッサに特に適応される。例えば、「ＯＡＫ」（登録商標）の名称のＤＳＰＧＲＯＵＰ（登録商標）社製のＤＳＰコアを使用することができる。
【００５８】
図２は、図１の無線電話によりスピーチ信号に実行される連続処理を示す。
【００５９】
マイクロホン１０７を通過する信号は、
エコーによる影響を受ける可能性のあるスピーチ信号（生成信号２００と遅延された生成信号との和として表される）と、
ノイズ２０２との和２０３であることに留意されたい。
【００６０】
マイクロホン１０７により捕捉される音響効果ノイズは、アナログ・デジタル変換器２０４に送られ、ステップ２０４において、一連のデジタルサンプルに変換される。ＧＳＭ規格によれば、サンプリングは、典型的に、８ｋＨｚに等しい周波数で行われることに留意されたい。
【００６１】
次に、ステップ２０５において、一連のデジタルサンプルが処理される。
【００６２】
次に、ステップ２０６において、処理サンプルのＬ’（１６０）のフレームは、公知の方法（典型的に、例えば、ＧＳＭ規格に特定されているもの）により、ボコーダによってコード化される。
【００６３】
次に、ステップ２０７において、「ボコーダ処理された」フレームは、ユニット１１２によりフォーマット化されて、公知の技術（例えば、ＧＳＭ規格に準拠したもの）により、無線モジュール１１１に送信される。
【００６４】
図３は、図２の処理ステップ２０５において実行されるノイズキャンセルまたは低減アルゴリズムを示す。
【００６５】
初期化ステップ３００において、ＤＳＰ１０４は、ＲＡＭ１０６において、受信した最後のサンプルに対応する９６サンプルの最初のブロックをゼロに初期化するとともに、処理２０５の正確な動作に必要なすべての変数を初期化する。
【００６６】
次に、ステップ３０１において、ＤＳＰ１０４は、ＲＡＭ１０６において、前の受信サンプルに引き続き、変換器１０８から送られる１６０受信サンプルのシーケンスを記憶する。
【００６７】
次に、ステップ３０２において、ＤＳＰ１０４は、長さ２５６の区分窓を最後の２５６受信サンプルから形成されたシーケンスに適用する。（以下、図７において、この窓が示されていることに留意されたい。）
【００６８】
次に、区分窓を適用することにより得られたシーケンスに、２５６点を有するＦＦＴタイプの数学的変換が適用される。
【００６９】
次に、ステップ３０３において、数学的変換から得られたシーケンスに、ノイズ低減タイプの処理（以下、図８に詳細を記載）が適用される。
【００７０】
次に、ステップ３０４において、処理シーケンスに、ステップ３０２のようなＩＦＦＴタイプの逆変換が適用される。
【００７１】
次に、ステップ３０５において、必要に応じて（すなわち、第１の繰り返し後）、ＤＳＰ１０４は、前の処理シーケンスの最後の９６処理サンプルを、現行シーケンスの最初の９６処理サンプルに追加する。
【００７２】
次に、ステップ３０６において、ボコーダに、最初の１６０現行処理サンプルの形成されたシーケンスまたはフレームが送信される。
【００７３】
次に、ステップ３０７において、ステップ３０５において送信された１６０サンプルに対応する１６０受信サンプルが、メモリ１０６から取り除かれる。
【００７４】
次に、ステップ３０１が繰り返される。
【００７５】
図４は、図２のステップ２０６において実行されるスピーチコード化を示す。
【００７６】
初期化ステップ４００において、ＤＳＰ１０４は、ＲＡＭ１０６において、コード化ステップ２０６の正確な動作に必要なすべての変数を初期化する。
【００７７】
次に、ステップ４０１において、ＤＳＰ１０４は、ＲＡＭ１０６において、ステップ３０７において送信された１６０サンプルのフレームを記憶する。
【００７８】
次に、ステップ４０２において、ＤＳＰ１０４は、公知の技術により、スピーチコード化処理を１６０サンプルのフレームに適用する。
【００７９】
次に、ステップ４０３において、コード化フレームは、フォーマット化され、ユニット１０２に送信されて、受信者に送信される。
【００８０】
次に、ステップ４０４において、１６０サンプルのフレームが、メモリＲＡＭ１０６から取り除かれる。
【００８１】
次に、動作４０１が繰り返される。
【００８２】
図５は、図３および図４の処理により実行されたもののようなサンプルシーケンスの窓を示す。
【００８３】
第１のグラフ上には、変換器１０８から直接受信した信号の強度５０３と、時間ｔ５０２との関係を表す曲線５００が表示されている。
【００８４】
第２のグラフ上には、ステップ２０５において処理された信号の強度５０４と、時間ｔ５０２との関係を表す曲線５００が表示されている。
【００８５】
第１のグラフ上で、２５６に等しい長さＬの連続窓５０５および５０６に時間が切り分けられ、これらの窓は、９６に等しい長さＬ’’だけ重複し、ステップ３０２において得られることに留意されたい。
【００８６】
また、第２のグラフ上で、１６０に等しい長さＬ’の連続フレーム５０７および５０８に時間が切り分けられ、これらのフレームは、重複せず、送信ステップ３０６において得られることに留意されたい。
【００８７】
信号の区分は、窓５０５（窓５０６のそれぞれ）と、窓５０７（窓５０８のそれぞれ）が、完全に同時性であるように行われる。
【００８８】
したがって、好ましい実施形態によれば、窓５０５（窓５０６のそれぞれ）と、窓５０７（窓５０８のそれぞれ）は、（ステップ３０３と３０４と３０５に従って）処理の前後に、同じサンプルで終了する。
【００８９】
このようにして、重複は、Ｌ’に等しい長さに及ぶ。
【００９０】
図６は、公知のフォーマット窓を示す。
【００９１】
振幅６０２を与えるグラフ上に、サンプル６０１の順序に応じた窓が表されており、長さ２５６のハニング窓６０３および６０４は、１２８の重なり合いを有する。
【００９２】
このような公知の切り分けでは、窓が、あらゆる状況下において、１６０サンプルのフレームの区分を有する同時性を備えることができないことに留意されたい。
【００９３】
図７は、本発明により最適化されたフォーマット窓７００および７０１を示す（図５の窓５０５および５０６にそれぞれ対応するが、より詳細に表されている）。
【００９４】
前述したように、グラフは、サンプル６０１の順序に応じた窓の振幅６０２を与える。
【００９５】
窓７００および７０１は、長さ９７の中間ハニング窓と、長さ１６０の矩形窓との畳み込みを介して得られるハニング窓（Hanning window）である。したがって、１６０サインプルに等しい窓を連続オフセットすると、完全に再構成された窓が得られる。
【００９６】
図８は、図３に示すようなノイズ低減タイプの処理ステップ３０３を詳細に示す。
【００９７】
このようなノイズ低減処理は、以下の文献である、文献「ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＶＩＩ：ＴｈｅｏｒｉｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，１９９４，ＥＵＲＡＳＩＰ」、１１８２〜１１８５ページで公表されたＲ．Ｍａｒｔｉｎ著の「Ｓｐｅｃｔｒａｌｓｕｂｓｔｒａｃｔｉｏｎｂａｓｅｄｏｎｍｉｎｉｍｕｍｓｔａｔｉｓｔｉｃｓ」と、会議「ＥＳＣＡ．ＥＵＲＯＰＳＰＥＥＣＨ’９５，４^th ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎａｎｄＴｅｃｈｎｏｌｏｇｙ」のリポート（１５１３〜１５１６ページ）で公表されたＧ．Ｄｏｂｌｉｎｇｅｒ著の「Ｃｏｍｐｕｔａｔｉｏｎａｌｌｙｅｆｆｉｃｉｅｎｔｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｂｙｓｐｅｃｔｒａｌｍｉｎｉｍａｔｒａｃｋｉｎｇｉｎｓｕｂｂａｎｄｓ」と、ｔｈｅｔｅｃｈｎｏｌｏｇｙｕｎｉｖｅｒｓｉｔｙｏｆＤａｒｍｓｔａｄｔによりコレクション「ＦａｃｈｇｅｂｉｅｔＴｈｅｏｒｉｅｄｅｒＳｉｇｎａｌｅ」にドイツ語で公表された「ＡＣｏｍｂｉｎａｔｉｏｎｏｆｎｏｉｓｅｒｅｄｕｃｔｉｏｎａｎｄｉｍｐｒｏｖｅｄｅｃｈｏｃａｎｃｅｌｌａｔｉｏｎ」とに特に詳細に記載されている。
【００９８】
ステップ３０２に従って処理した後、音響効果スピーチ信号に対応する２５６スペクトル成分を含むフレーム８０１が、以下に詳細に記載するプロセス３０３に従って処理される。
【００９９】
ｍ^th音響効果スピーチ信号フレームのｋ^th成分は、Ｘ_k（ｍ）であると観察される。
【０１００】
動作８０２の間、ＤＳＰ１０４は、直交座標のフレーム８０１の成分を極座標に変換して、スペクトル振幅の位相を分離する。
【０１０１】
異なる処理の間には、スペクトル振幅しか修正されず、位相は変化しないままである。
【０１０２】
ステップ８０３において、まず、以下の関係式により、信号のパワーＰ_xk（ｍ）を短時間で推定する。
Ｐ_xk（１）＝（１−α｜Ｘ_k（１）｜²
（推定される収束速度を改善するために、補正値が加えられることもある）
Ｐ_xk（ｍ）＝αＰ_xk（ｍ−１）＋（１−α｜Ｘ_k（ｍ）｜² ｍ＞１の場合
【０１０３】
「忘れられた（forgotten）」係数αの値が０．７〜０．９に含まれるときには、短時間での静止スピーチスペクトルの十分な探究が確保される。
【０１０４】
これらの関係には、特に、計算の容易さと、測定遅延が導入されないこととの２つの利点がある。
【０１０５】
実施形態の変形例によれば、ノイズ低減改善アルゴリズムが使用される。しかしながら、このアルゴリズムに追加遅延を導入するには、複雑な値を有するスペクトル成分を格納するためのメモリのサイズを増大する必要がある。
【０１０６】
次に、（ある方法において、Ｐ_xk（ｍ）の時間的最小値の探究を実行する）以下の非線形推定手段により、ノイズのスペクトルパワーＰ_nk（ｍ）が推定される。
Ｐ_nk（１）＝Ｐ_xk（１）
ｍが１より厳密に大きい場合（ｍ＞１）、
Ｐ_nk（ｍ−１）＜Ｐ_xk（ｍ）であれば、
【数１】

そうでなければ、Ｐ_nk（ｍ）＝Ｐ_xk（ｍ）。
【０１０７】
次に、ステップ８０６において、ＤＳＰ１０４は、以下の関係式に従って、実値のゲインファクタｇ_k（ｍ）を計算する。
【数２】

そうでなければ、ｇ_k（ｍ）＝β_f。
【０１０８】
係数κは、ノイズ低減アルゴリズムの良好な性能を得るために導入されるノイズ過大推定ファクタである。
【０１０９】
β_fは、最小スペクトル値に相当する。β_fは、ノイズ低減フィルタの減衰を正の値に制限して、信号に最小ノイズが存在するようにする。
【０１１０】
次に、ステップ８０７において、ＤＳＰ１０４は、振幅｜Ｘ_k（ｍ）｜を対応するゲインファクタｇ_k（ｍ）で乗算して、以下の関係式により、改善した信号振幅｜Ｙ_k（ｍ）｜を得る。
｜Ｙ_k（ｍ）｜＝ｇ_k（ｍ）ｋの値に対する｜Ｘ_k（ｍ）｜は、１〜２５６の範囲からなる。
【０１１１】
次に、極座標から直交座標への変換ステップ８０８において、ＤＳＰ１０４は、ステップ８０７において設定された振幅｜Ｙ_k（ｍ）｜から開始する抑圧ノイズと、ステップ８０２において抽出された信号位相とを備える信号８０９を構成する。
【０１１２】
次に、信号８０９は、逆フーリエ変換ステップ３０４に従って処理される。
【０１１３】
本発明が、前述した実施例に限定されるものではないことは言うまでもない。
【０１１４】
特に、当業者であれば、（特に、ＧＳＭ、ＵＭＴＳ、ＩＳ９５などのタイプの）移動電話に制限されず、受信音声信号への数学的変換前後に音声コード化を含むあらゆるタイプのデバイスに範囲が及ぶ本発明の応用のあらゆるタイプの変形が可能であろう。
【０１１５】
さらに、本発明は、ソーススピーチ信号の処理のみに適用されるのではなく、あらゆるタイプの音声処理に範囲が及ぶ。
【０１１６】
本発明によれば、適用される数学的変換は、特に、音声処理に従って処理されたフレームのサイズに等しくないか、またはこのフレームサイズに近い倍数または序数ではない特定の長さのサンプルブロックに適用される任意のタイプのものである。したがって、本発明が及ぶ範囲として、音声フレームのサイズが１６０に等しいか、または、さらに一般的には、２のべき乗ではなく、長さが２５６、１２８、５１２、または、さらに一般的には、２ⁿ（ここで、ｎは自然数を表す）のブロックサイズに、数学的変換、特に、ＦＦＴ、ＦＨＴまたはＤＣＴ、または、（例えば、これらの変換の１つ以上を、１つ以上の他の変換と組み合わせることにより得られる）これらの変換の変形例が適用される場合などが挙げられる。
【０１１７】
さらに、本発明は、特に、音声認識、エコーキャンセル、および／または、エコー低減の場合には、数学的変換と関連付けされ、スピーチコード化ステップの前後に実行される任意のタイプの処理に適用される。
【０１１８】
本発明は、単純な機器の据付けに制限されるものではなく、コンピュータプログラムの命令シーケンスの形態や、ハードウェア部分とソフトウェア部分とを混合させた任意の形態で与えることもできることに留意されたい。本発明が部分的または全体的にソフトウェア形態に組み込まれる場合には、対応する命令シーケンスは、（例えば、ディスケット、ＣＤ−ＲＯＭ、またはＤＶＤ−ＲＯＭのような）取り外し可能なストレージ手段などに格納可能であり、このようなストレージ手段は、コンピュータまたはマイクロプロセッサにより部分的または全体的に読み取り可能である。
【図面の簡単な説明】
【０１１９】
【図１】本発明の特定の実施形態による無線電話を示すブロック図である。
【図２】図１の無線電話により音声信号に実行される連続処理を示す概略図である。
【図３】図２による、ノイズキャンセルまたは低減アルゴリズムを示す概略図である。
【図４】図２による、フレームに適用されるスピーチ処理を示す概略図である。
【図５】例として図３および図４の処理により実行されたサンプルの流れの窓化を示す概略図である。
【図６】公知のフォーマット窓を示す概略図である。
【図７】本発明の好ましい実施形態による、図３の窓化動作で使用される最適化されたフォーマット窓を示す概略図である。
【図８】図３に示すタイプのノイズ低減処理をさらに詳細に示す概略図である。

Claims

ソース音声信号に第１の区分窓（５０５、５０６、７００、７０１）を適用して得られる第１のサンプルシーケンスに適用される数学的変換を実行する、前記ソース音声信号を処理する第１のステップ（２０５）と、
該第１のステップによって送られる信号に前記第１の区分窓とは異なる第２の区分窓（５０７、５０８）を適用して得られる第２のサンプルシーケンスに適用される、音声処理の第２のステップ（２０６）と
を含んでなり、
前記区分どうしが同期するように、前記２つの連続する第１の窓および／または前記２つの連続する第２の窓が重複することを特徴とする音声信号の処理方法。
前記第２の区分窓は、連続フレームであることを特徴とする請求項１に記載の方法。
第１のシーケンスの最後のサンプルは、前記第１のステップ後に、対応する第２のシーケンスの最後のサンプルでもあることを特徴とする請求項１または２に記載の方法。
前記第１の区分窓（７００、７０１）は、
前記数学的変換に適応される、完全な再構成および処理スペクトル特性の第１の中間窓と、
第２の矩形中間窓と
の畳み込みにより得られた完全な再構成の窓であることを特徴とする請求項１から３のいずれかに記載の方法。
各第１のシーケンスに適用される前記第１の処理ステップは、
前記第１のシーケンスに適用される所定の処理サブステップ（３０３）と、
前記第１のシーケンスの処理されたサンプルに適用される逆数学的変換サブステップ（３０４）と、
前記第１のシーケンスに適用された前記逆数学的変換サブステップから発生したスピーチサンプルと、先行する第１のシーケンスに適用された前記逆数学的変換サブセットから発生した対応するスピーチサンプルとを追加するステップ（３０５）と
をさらに含むことを特徴とする請求項１から４のいずれかに記載の方法。
前記所定の処理サブステップは、前記音声信号におけるノイズ低減またはノイズキャンセルを含むことを特徴とする請求項５に記載の方法。
前記所定の処理サブステップは、
前記音声信号におけるエコー低減またはエコーキャンセルと、
前記音声信号における音声認識と
を含む群に属する少なくとも１つの処理を含むことを特徴とする請求項５または６のいずれかに記載の方法。
前記数学的変換は、
ＦＦＴおよびその変形と、
高速アダマール変換（ＦＨＴ）およびその変形と、
直接コサイン変換（ＤＣＴ）およびその変形と
を含む群に属することを特徴とする請求項１から７のいずれかに記載の方法。
前記ソース音声信号は、スピーチ信号であることを特徴とする請求項１から８のいずれかに記載の方法。
ソース音声信号に第１の区分窓を適用して得られる第１のサンプルシーケンスに適用される少なくとも１つの数学的変換を実行する、前記ソース音声信号を処理する第１の手段と、
前記第１のステップにより送られる信号に前記第１の区分窓とは異なる第２の区分窓を適用して得られる第２のサンプルシーケンスに適用される、音声処理の第２の手段と
を含んでなり、
前記区分どうしが同期するように、前記２つの連続する第１の窓および／または前記２つの連続する第２の窓が重複することを特徴とする、音声信号の処理デバイス。
少なくとも１つのマイクロプロセッサによって読み取り可能な支持体に記録されるプログラム要素を含み、該プログラム要素がマイクロプロセッサを制御するコンピュータプログラム製品であって、
ソース音声信号に第１の区分窓を適用することによって得られる第１のサンプルシーケンスに適用される少なくとも１つの数学的変換を実行する、前記ソース音声信号を処理する第１のステップと、
前記第１のステップにより送られる信号に前記第１の区分窓とは異なる第２の区分窓を適用することにより得られる第２のサンプルシーケンスに適用される、音声処理の第２のステップと
を実行して、
前記区分どうしが同期するように、２つの連続する第１の窓および／または２つの連続する第２の窓が重複することを特徴とするコンピュータプログラム製品。
コンピュータにおいて前記プログラムを実行するときには、請求項１から９のいずれかに記載の音声処理方法の実行に適応される命令のシーケンスを前記プログラムが含むことを特徴とするコンピュータプログラム製品。