JP2004527797A - 音声信号の処理方法 - Google Patents

音声信号の処理方法 Download PDF

Info

Publication number
JP2004527797A
JP2004527797A JP2002590150A JP2002590150A JP2004527797A JP 2004527797 A JP2004527797 A JP 2004527797A JP 2002590150 A JP2002590150 A JP 2002590150A JP 2002590150 A JP2002590150 A JP 2002590150A JP 2004527797 A JP2004527797 A JP 2004527797A
Authority
JP
Japan
Prior art keywords
window
processing
audio signal
speech
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002590150A
Other languages
English (en)
Inventor
ビエトリクス,フランク
カデュッソー,ユベール
Original Assignee
ウェーヴコム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ウェーヴコム filed Critical ウェーヴコム
Publication of JP2004527797A publication Critical patent/JP2004527797A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Stereophonic System (AREA)

Abstract

本発明は、ソース音声信号に第1の区分窓505、506、700、701を適用して得られる第1のサンプルシーケンスに適用される少なくとも1つの数学的変換を用いた第1の音声信号処理205と、第1のステップにより送られる信号に第2の区分窓507、508を適用して得られる第2のサンプルシーケンスに適用される第2の音声処理206とを含んでなり、区分どうしが同期するように、2つの連続する第1の窓および/または2つの連続する第2の窓が重複することを特徴とする音声信号処理に関する。

Description

【技術分野】
【0001】
本発明は、音声信号処理の分野に関する。
【0002】
より詳細には、本発明は、特にデジタル通信デバイス、例えば、デジタル電話および/またはハンズフリー移動無線電話を経由した音声信号のノイズの低減またはキャンセルに関する。
【背景技術】
【0003】
(典型的には車内などの)騒音環境においてデジタル音声通信デバイスが使用される場合には、そのような環境により、音声信号が大幅に妨害される結果、通信品質が劣化することがあり得る。
【0004】
公知の技術によれば、この問題を解決するために、音声信号を個別に処理する前に、マイクロホンにより捕捉された信号に作用するノイズサプレッサやノイズキャンセラが挿入される。
【0005】
第1の公知の技術によれば、音声信号を捕捉するように設計されたマイクロホンと音声信号処理デバイスとの間に、エコーまたはノイズのキャンセルおよび低減デバイスが設置される。このデバイスによって、有用な信号対雑音比が改善してエコーが抑制されるため、最適な状況下で信号を処理することができる。しかしながら、この従来技術には、特定の目的に合わせたデバイスが必要となり、追加のコストの発生およびアプリケーションの複雑化という欠点がある。
【0006】
第2の公知の技術によれば、スピーチサンプルの連続した流れに適用される高速フーリエ変換(Fast Fourier Transform:以下、「FFT」とよぶ)の使用に基づいたノイズ低減関数が、デジタル通信デバイスに組み込まれる。1つの例において、サンプルの流れは、フォーマット窓を適用して得られる256サンプルの窓へと切り分けられ、窓の半分が重複する(つまり、窓の前半の128サンプルは、先行窓の後半の128サンプルに対応する)。FFTが各窓に適用されて、FFTの結果が、ノイズもしくはエコーのキャンセルまたは低減関数によって処理される。
【0007】
次に、この関数の結果は、逆高速フーリエ変換(Inverse Fast Fourier Transform:以下、「IFFT」とよぶ)を介して処理され、スピーチサンプルの流れが再構成されて、スピーチ処理関数を介して処理される。
【0008】
この従来技術の欠点は、比較的に実行が複雑なことである。
【発明の開示】
【発明が解決しようとする課題】
【0009】
さまざまな態様による本発明の主な目的は、従来技術のこれらの欠点を解消することである。
【0010】
より詳細には、本発明の1つの目的は、音声フレームに適用される音声処理を最適化しながら、データブロックに適用される数学的な変換に基づいた処理の複雑性を低減できる音声処理方法およびデバイスを提供することである。
【0011】
本発明の別の目的は、数学的変換に基づいた処理と音声処理との統合を最適化することである。
【0012】
本発明のさらなる目的は、この処理の持続時間を最適化することである。
【0013】
本発明の別の目的は、この処理に必要とされる計算能力を低減することである。
【課題を解決するための手段】
【0014】
これらの目的を達成するために、本発明によれば、
ソース音声信号に第1の区分窓(segmentation window)を適用して得られる第1のサンプルシーケンスに適用される少なくとも1つの数学的変換を実行する、ソース音声信号を処理する第1のステップと、
第1のステップによって送られる信号に第1の区分窓とは異なる第2の区分窓を適用して得られる第2のサンプルシーケンスに適用される、音声処理の第2のステップと
を含んでなり、
区分どうしが同期する(segmentations are synchronous)ように、2つの連続する第1の窓および/または2つの連続する第2の窓が重複することを特徴とする、音声信号の処理方法が提案される。
【0015】
したがって、音声処理ステップは、連続して、またはマルチタスク環境において実行することができる。さらに、この実行は、メモリを使用することにより、予測可能で高精度に経済的に行われる。
【0016】
特有の特徴によれば、このプロセスは、第2の区分窓が連続フレームであることを特徴とする。
【0017】
したがって、本発明によれば、この方法の処理時間が最適化される。
【0018】
特有の特徴によれば、この方法は、第1のシーケンスの最後のサンプルが、第1のステップ後に、対応する第2のシーケンスの最後のサンプルであることも特徴とする。
【0019】
したがって、第2の音声処理ステップを無駄に待機することなく実行して、音声処理の総時間を最適化することが好ましい。
【0020】
特定の特徴によれば、この方法は、第1の区分窓のそれぞれが、
数学的変換に適応される、完全な再構成および処理スペクトル特性の第1の中間窓と、
第2の矩形中間窓と
の畳み込みによって得られる完全な再構成の窓であることを特徴とする。
【0021】
したがって、重複する第1の区分窓の部分が完全な再構成のものであり、これによって、第1の比較的に単純なプロセスの間に、信号を再度組み合わせることができるようになる。
【0022】
さらに、第1の中間窓が数学的変換に適応されるため(特に、メインローブは平坦なままであるのに対して、比較的に強い窓のサイドローブの低減が存在するため)、対応する処理の品質が最適化される。
【0023】
さらに、第2の中間窓が矩形である場合には、対応するサンプル処理は単純で効果的である。
【0024】
特有の特徴によれば、この方法は、各第1のシーケンスに適用される第1の処理ステップが、
第1のシーケンスに適用される所定の処理サブステップと、
第1のシーケンスの処理されたサンプルに適用される逆数学的変換サブステップと、
第1のシーケンスに適用された逆数学的変換サブステップから発生したスピーチサンプルと、先行する第1のシーケンスに適用された逆数学的変換サブセットから発生した対応するスピーチサンプルとを追加するステップと
をさらに含むことを特徴とする。
【0025】
特有の特徴によれば、この方法は、所定の処理サブステップが、音声信号におけるノイズ低減またはキャンセルを含むことを特徴とする。
【0026】
特有の特徴によれば、所定の処理サブステップが、
音声信号におけるエコー低減またはエコーキャンセルと、
音声信号における音声認識と
を含む群に属する少なくとも1つの処理を含むことを特徴とする。
【0027】
したがって、この方法は、ノイズおよび/またはエコーの低減および/またはキャンセル、および/または(例えば、電話、パーソナルコンピュータ、または遠隔制御装置の)デバイスの音声認識などの処理を組み合わせることが有益であり、それにより、この処理の効率性を最適化しながら複雑性を低減でき、および/またはデバイスの強力な統合が可能となる(その結果、コストの低下およびエネルギー消費量の減少が実現でき、これは、特に、バッテリーで動作する通信デバイスにとっては比較的に主要なものである。)
【0028】
特有の特徴によれば、この方法は、前記数学的変換が、
FFTおよびその変形と、
高速アダマール変換(Fast Hadamard Transformations:以下、「FHT」とよぶ)およびその変形と、
直接コサイン変換(Direct Cosine Transformation:以下、「DCT」とよぶ)およびその変形と
を含む群に属することを特徴とする。
【0029】
したがって、本発明により、第1の音声処理に適応される1つ以上の数学的変換を使用できることが有益であり、これらの変換は、第2の区分窓のサイズとは異なるサイズのブロックに適用される。
【0030】
特有の特徴によれば、この方法は、ソース音声信号がスピーチ信号であることを特徴とする。
【0031】
したがって、本発明は、例えば、記憶および/または遠隔送信用のスピーチコード化(「ボコーダ処理(vocoding)」)および/またはスピーチ圧縮などのスピーチ特有のものである場合には、第2の音声処理に十分に適応される。
【0032】
また、本発明は、
ソース音声信号に第1の区分窓を適用して得られる第1のサンプルシーケンスに適用される少なくとも1つの数学的変換を実行する、ソース音声信号を処理する第1の手段と、
第1のステップによって送られる信号に第1の区分窓とは異なる第2の区分窓を適用して得られる第2のサンプルシーケンスに適用される、音声処理の第2の手段と
を含んでなり、
区分どうしが同期するように、2つの連続する第1の窓および/または2つの連続する第2の窓が重複することを特徴とする音声信号の処理デバイスに関する。
【0033】
さらに、本発明は、少なくとも1つのマイクロプロセッサにより読み取り可能な支持体に記録されるプログラム要素を含み、該プログラム要素がマイクロプロセッサを制御するコンピュータプログラム製品であって、
ソース音声信号に第1の区分窓を適用して得られる第1のサンプルシーケンスに適用される少なくとも1つの数学的変換を実行する、ソース音声信号を処理する第1のステップと、
第1のステップにより送られる信号に第1の区分窓とは異なる第2の区分窓を適用して得られる第2のサンプルシーケンスに適用される、音声処理の第2のステップと
を実行して、
区分どうしが同期するように、2つの連続する第1の窓および/または2つの連続する第2の窓が重複することを特徴とするコンピュータプログラム製品に関する。
【0034】
さらに、本発明は、コンピュータでプログラムを実行するときには、前述したような音声処理方法の実行に適応される命令のシーケンスをプログラムが含むことを特徴とするコンピュータプログラム製品に関する。
【0035】
音声信号処理デバイスおよびコンピュータプログラム製品の利点は、音声信号処理方法のものと同じであり、それらについてはさらに詳細に記載しない。
【0036】
本発明の他の特徴および利点は、簡単に説明するための非制限的な例として与えられた好ましい実施形態と、添付の図面とを含む以下の記載を読むことによって、さらに明らかになるであろう。
【発明を実施するための最良の形態】
【0037】
本発明の一般的な原理は、FFTに基づいた処理、特に、ノイズのキャンセルまたは低減処理と、スピーチコード化タイプのスピーチ処理との同期(synchronization)にある。
【0038】
実際には、FFTおよびIFFTは、(典型的に、128または256の)2サンプルの大きさ程度からなる窓を処理する。
【0039】
一方で、スピーチコード化は、異なるサイズの窓を考慮する(典型的に、GSMでのスピーチ処理では、160サンプルの窓を考慮する)。
【0040】
例えば、欧州電気通信標準化機構(ETSI)により公開されたGSM規格に準拠した無線電話の場合には、スピーチ信号は、8kHzの周波数でサンプリングされた後、圧縮形式で20msのフレームで受信者に送信される。
【0041】
GSM規格によれば、スピーチコード化は、ボコーダを介して、160サンプルのフレームに実行されることを留意されたい。このコード化は、所望の流れに応じて、以下のドキュメントに明記されている。
フルレート(FR)スピーチトランスコーディング(GSM06.10)
ハーフレート(HR)スピーチトランスコーディング(GSM06.20)
エンハンストフルレート(EFR)スピーチトランスコーディング(GSM06.60)
アダプティブマルチレート(AMR)スピーチトランスコーディング(GSM06.90)
【0042】
従来技術によれば、処理される160スピーチサンプルの窓を考慮する際、ノイズおよび/またはエコーの低減またはキャンセルデバイスは、長さが160の最大3つの窓に切り分けることができる長さ256の窓を処理する。とりわけ、これは、この従来技術に固有の非同時性のものであるため、この処理が複雑化され、メモリ、および計算に使用される計算能力および/またはデジタル信号プロセッサ(DSP)クロックの特大化が必要になる。
【0043】
本発明によれば、ノイズおよび/またはエコーの低減またはキャンセル窓の終わりを、スピーチ処理フレームと、好ましくは、スピーチ処理フレームの終わりと体系的に一致させることにより、2つのタイプの処理が同時進行する。したがって、ノイズキャンセルまたは低減窓のサイズが、256サンプルに等しく、スピーチ処理フレームのサイズが、160サンプルに等しければ、エコー低減またはキャンセル窓は、全スピーチ処理フレームと、前の窓からの96サンプル(256から160を引いた数)とを含むことになる。
【0044】
したがって、ノイズ低減またはキャンセル窓とスピーチ処理フレームとの間には同時性が保たれ、全処理長が最適化される。
【0045】
本発明によれば、フォーマット窓(160サンプルと関連するスピーチフレームと、256点を有するFFTに適用)が、完全な再構成、すなわち、(重なり合いの部分に関して)互いに重なり合う2つの窓の振幅の和が常に1に等しいことと、各側に96のカバレッジを有する長さ256の窓であることが好ましい。
【0046】
このような窓は、例えば、長さ97のハニング窓(ハニング窓(97)と記載)と、幅160の矩形窓(矩形窓(160)と記載)との畳み込みにより得られる。
【0047】
次に、256点を有するFFTが、160サンプルのフレームで同期された256サンプルの各窓に適用される。FFTの実行は、当業者によく知られているものであり、Cambridge University Press版、1992年出版、W.H.Press、S.A.Teukolsky、W.T.Vetterling、およびB.P.Flannery著の書籍「Numerical Recipes in C,2nd edition」に詳細に記載されている。
【0048】
次に、公知のあらゆるタイプのノイズ低減アルゴリズムが適用された後、考慮される256サンプルのブロックに逆変換動作(IFFTと記載)を実行する。
【0049】
このようにして、256サンプルのブロックが連続して処理される。IFFT動作後、現行窓の最初の96処理サンプルは、先行窓の最後の96処理サンプルに追加される。追加されると、現行窓の最初の160サンプルは、ボコーダに送信されて、必要に応じて、適用可能な基準に準拠した公知のスピーチコード化方法に応じて処理される。
【0050】
図1に、本発明を実行する無線電話を示す。
【0051】
図1は、本発明の好ましい実施形態による無線電話の概要を略図的に表す。
【0052】
無線電話100は、アドレスおよびデータバス103を介してリンクされる以下のもの、すなわち、マイクロホン107と、アナログ・デジタル変換器108と、ラウドスピーカ109と、デジタル・アナログ変換器110と、信号処理プロセッサ(以下、「DSP」とよぶ)104と、不揮発性メモリ105と、ランダムアクセスメモリ106と、無線インタフェース111と、データフレームおよびプロトコルの交換を管理および制御するユニット112と、(典型的には、キーボードおよびスクリーンなどの)マン/マシン・インタフェース113とを含む。
【0053】
図1に示す要素の各々は、当業者には公知のものであり。これらの一般的な要素については、本願明細書において詳細には記載しない。
【0054】
さらに、本願明細書を通して使用される「レジスタ」という用語は、前述のメモリの各々における、(全プログラムまたは全トランザクションデータシーケンスを格納可能な)大容量メモリゾーンと同程度の(小さなバイナリデータなどの)小容量メモリゾーンを示すことに留意されたい。
【0055】
(いわゆる、ROMなどの)不揮発性メモリ105は、分かりやすいように、保有するデータと同じ名称を有するレジスタにおいて、
DSP104の動作プログラムを「prog」308レジスタに保持し、
FFTにより考慮される点の数に対応する第1の区分窓サイズを表す値L(典型的に、値256)をレジスタ115に保持し、
ボコーダにより処理されるフレームサイズに対応する第2の窓サイズを表す値L’(典型的に、値160)をレジスタ115に保持し、
信号のノイズを低減させるために使用される値α、β、γ、κ、およびβfを保持する。
【0056】
ランダムアクセスメモリ106は、中間処理データ、変数、および結果を保持し、特に、
受信信号のノイズサンプル値が保持されるレジスタ117と、
処理サンプル値が保持されるレジスタ118と、
ボコーダ用の処理サンプルのシーケンスとを含む。
【0057】
DSPは、フーリエ変換およびスピーチコード化タイプのプロセッサに特に適応される。例えば、「OAK」(登録商標)の名称のDSP GROUP(登録商標)社製のDSPコアを使用することができる。
【0058】
図2は、図1の無線電話によりスピーチ信号に実行される連続処理を示す。
【0059】
マイクロホン107を通過する信号は、
エコーによる影響を受ける可能性のあるスピーチ信号(生成信号200と遅延された生成信号との和として表される)と、
ノイズ202との和203であることに留意されたい。
【0060】
マイクロホン107により捕捉される音響効果ノイズは、アナログ・デジタル変換器204に送られ、ステップ204において、一連のデジタルサンプルに変換される。GSM規格によれば、サンプリングは、典型的に、8kHzに等しい周波数で行われることに留意されたい。
【0061】
次に、ステップ205において、一連のデジタルサンプルが処理される。
【0062】
次に、ステップ206において、処理サンプルのL’(160)のフレームは、公知の方法(典型的に、例えば、GSM規格に特定されているもの)により、ボコーダによってコード化される。
【0063】
次に、ステップ207において、「ボコーダ処理された」フレームは、ユニット112によりフォーマット化されて、公知の技術(例えば、GSM規格に準拠したもの)により、無線モジュール111に送信される。
【0064】
図3は、図2の処理ステップ205において実行されるノイズキャンセルまたは低減アルゴリズムを示す。
【0065】
初期化ステップ300において、DSP104は、RAM106において、受信した最後のサンプルに対応する96サンプルの最初のブロックをゼロに初期化するとともに、処理205の正確な動作に必要なすべての変数を初期化する。
【0066】
次に、ステップ301において、DSP104は、RAM106において、前の受信サンプルに引き続き、変換器108から送られる160受信サンプルのシーケンスを記憶する。
【0067】
次に、ステップ302において、DSP104は、長さ256の区分窓を最後の256受信サンプルから形成されたシーケンスに適用する。(以下、図7において、この窓が示されていることに留意されたい。)
【0068】
次に、区分窓を適用することにより得られたシーケンスに、256点を有するFFTタイプの数学的変換が適用される。
【0069】
次に、ステップ303において、数学的変換から得られたシーケンスに、ノイズ低減タイプの処理(以下、図8に詳細を記載)が適用される。
【0070】
次に、ステップ304において、処理シーケンスに、ステップ302のようなIFFTタイプの逆変換が適用される。
【0071】
次に、ステップ305において、必要に応じて(すなわち、第1の繰り返し後)、DSP104は、前の処理シーケンスの最後の96処理サンプルを、現行シーケンスの最初の96処理サンプルに追加する。
【0072】
次に、ステップ306において、ボコーダに、最初の160現行処理サンプルの形成されたシーケンスまたはフレームが送信される。
【0073】
次に、ステップ307において、ステップ305において送信された160サンプルに対応する160受信サンプルが、メモリ106から取り除かれる。
【0074】
次に、ステップ301が繰り返される。
【0075】
図4は、図2のステップ206において実行されるスピーチコード化を示す。
【0076】
初期化ステップ400において、DSP104は、RAM106において、コード化ステップ206の正確な動作に必要なすべての変数を初期化する。
【0077】
次に、ステップ401において、DSP104は、RAM106において、ステップ307において送信された160サンプルのフレームを記憶する。
【0078】
次に、ステップ402において、DSP104は、公知の技術により、スピーチコード化処理を160サンプルのフレームに適用する。
【0079】
次に、ステップ403において、コード化フレームは、フォーマット化され、ユニット102に送信されて、受信者に送信される。
【0080】
次に、ステップ404において、160サンプルのフレームが、メモリRAM106から取り除かれる。
【0081】
次に、動作401が繰り返される。
【0082】
図5は、図3および図4の処理により実行されたもののようなサンプルシーケンスの窓を示す。
【0083】
第1のグラフ上には、変換器108から直接受信した信号の強度503と、時間t502との関係を表す曲線500が表示されている。
【0084】
第2のグラフ上には、ステップ205において処理された信号の強度504と、時間t502との関係を表す曲線500が表示されている。
【0085】
第1のグラフ上で、256に等しい長さLの連続窓505および506に時間が切り分けられ、これらの窓は、96に等しい長さL’’だけ重複し、ステップ302において得られることに留意されたい。
【0086】
また、第2のグラフ上で、160に等しい長さL’の連続フレーム507および508に時間が切り分けられ、これらのフレームは、重複せず、送信ステップ306において得られることに留意されたい。
【0087】
信号の区分は、窓505(窓506のそれぞれ)と、窓507(窓508のそれぞれ)が、完全に同時性であるように行われる。
【0088】
したがって、好ましい実施形態によれば、窓505(窓506のそれぞれ)と、窓507(窓508のそれぞれ)は、(ステップ303と304と305に従って)処理の前後に、同じサンプルで終了する。
【0089】
このようにして、重複は、L’に等しい長さに及ぶ。
【0090】
図6は、公知のフォーマット窓を示す。
【0091】
振幅602を与えるグラフ上に、サンプル601の順序に応じた窓が表されており、長さ256のハニング窓603および604は、128の重なり合いを有する。
【0092】
このような公知の切り分けでは、窓が、あらゆる状況下において、160サンプルのフレームの区分を有する同時性を備えることができないことに留意されたい。
【0093】
図7は、本発明により最適化されたフォーマット窓700および701を示す(図5の窓505および506にそれぞれ対応するが、より詳細に表されている)。
【0094】
前述したように、グラフは、サンプル601の順序に応じた窓の振幅602を与える。
【0095】
窓700および701は、長さ97の中間ハニング窓と、長さ160の矩形窓との畳み込みを介して得られるハニング窓(Hanning window)である。したがって、160サインプルに等しい窓を連続オフセットすると、完全に再構成された窓が得られる。
【0096】
図8は、図3に示すようなノイズ低減タイプの処理ステップ303を詳細に示す。
【0097】
このようなノイズ低減処理は、以下の文献である、文献「Signal Processing VII: Theories and Applications,1994,EURASIP」、1182〜1185ページで公表されたR.Martin著の「Spectral substraction based on minimum statistics」と、会議「ESCA.EUROPSPEECH’95,4th European Conference on Speech Communication and Technology」のリポート(1513〜1516ページ)で公表されたG.Doblinger著の「Computationally efficient speech enhancement by spectral minima tracking in subbands」と、the technology university of Darmstadtによりコレクション「Fachgebiet Theorie der Signale」にドイツ語で公表された「A Combination of noise reduction and improved echo cancellation」とに特に詳細に記載されている。
【0098】
ステップ302に従って処理した後、音響効果スピーチ信号に対応する256スペクトル成分を含むフレーム801が、以下に詳細に記載するプロセス303に従って処理される。
【0099】
th音響効果スピーチ信号フレームのkth成分は、Xk(m)であると観察される。
【0100】
動作802の間、DSP104は、直交座標のフレーム801の成分を極座標に変換して、スペクトル振幅の位相を分離する。
【0101】
異なる処理の間には、スペクトル振幅しか修正されず、位相は変化しないままである。
【0102】
ステップ803において、まず、以下の関係式により、信号のパワーPxk(m)を短時間で推定する。
xk(1)=(1−α|Xk(1)|2
(推定される収束速度を改善するために、補正値が加えられることもある)
xk(m)=αPxk(m−1)+(1−α|Xk(m)|2 m>1の場合
【0103】
「忘れられた(forgotten)」係数αの値が0.7〜0.9に含まれるときには、短時間での静止スピーチスペクトルの十分な探究が確保される。
【0104】
これらの関係には、特に、計算の容易さと、測定遅延が導入されないこととの2つの利点がある。
【0105】
実施形態の変形例によれば、ノイズ低減改善アルゴリズムが使用される。しかしながら、このアルゴリズムに追加遅延を導入するには、複雑な値を有するスペクトル成分を格納するためのメモリのサイズを増大する必要がある。
【0106】
次に、(ある方法において、Pxk(m)の時間的最小値の探究を実行する)以下の非線形推定手段により、ノイズのスペクトルパワーPnk(m)が推定される。
nk(1)=Pxk(1)
mが1より厳密に大きい場合(m>1)、
nk(m−1)<Pxk(m)であれば、
【数1】
Figure 2004527797
そうでなければ、Pnk(m)=Pxk(m)。
【0107】
次に、ステップ806において、DSP104は、以下の関係式に従って、実値のゲインファクタgk(m)を計算する。
【数2】
Figure 2004527797
そうでなければ、gk(m)=βf
【0108】
係数κは、ノイズ低減アルゴリズムの良好な性能を得るために導入されるノイズ過大推定ファクタである。
【0109】
βfは、最小スペクトル値に相当する。βfは、ノイズ低減フィルタの減衰を正の値に制限して、信号に最小ノイズが存在するようにする。
【0110】
次に、ステップ807において、DSP104は、振幅|Xk(m)|を対応するゲインファクタgk(m)で乗算して、以下の関係式により、改善した信号振幅|Yk(m)|を得る。
|Yk(m)|=gk(m) kの値に対する|Xk(m)|は、1〜256の範囲からなる。
【0111】
次に、極座標から直交座標への変換ステップ808において、DSP104は、ステップ807において設定された振幅|Yk(m)|から開始する抑圧ノイズと、ステップ802において抽出された信号位相とを備える信号809を構成する。
【0112】
次に、信号809は、逆フーリエ変換ステップ304に従って処理される。
【0113】
本発明が、前述した実施例に限定されるものではないことは言うまでもない。
【0114】
特に、当業者であれば、(特に、GSM、UMTS、IS95などのタイプの)移動電話に制限されず、受信音声信号への数学的変換前後に音声コード化を含むあらゆるタイプのデバイスに範囲が及ぶ本発明の応用のあらゆるタイプの変形が可能であろう。
【0115】
さらに、本発明は、ソーススピーチ信号の処理のみに適用されるのではなく、あらゆるタイプの音声処理に範囲が及ぶ。
【0116】
本発明によれば、適用される数学的変換は、特に、音声処理に従って処理されたフレームのサイズに等しくないか、またはこのフレームサイズに近い倍数または序数ではない特定の長さのサンプルブロックに適用される任意のタイプのものである。したがって、本発明が及ぶ範囲として、音声フレームのサイズが160に等しいか、または、さらに一般的には、2のべき乗ではなく、長さが256、128、512、または、さらに一般的には、2n(ここで、nは自然数を表す)のブロックサイズに、数学的変換、特に、FFT、FHTまたはDCT、または、(例えば、これらの変換の1つ以上を、1つ以上の他の変換と組み合わせることにより得られる)これらの変換の変形例が適用される場合などが挙げられる。
【0117】
さらに、本発明は、特に、音声認識、エコーキャンセル、および/または、エコー低減の場合には、数学的変換と関連付けされ、スピーチコード化ステップの前後に実行される任意のタイプの処理に適用される。
【0118】
本発明は、単純な機器の据付けに制限されるものではなく、コンピュータプログラムの命令シーケンスの形態や、ハードウェア部分とソフトウェア部分とを混合させた任意の形態で与えることもできることに留意されたい。本発明が部分的または全体的にソフトウェア形態に組み込まれる場合には、対応する命令シーケンスは、(例えば、ディスケット、CD−ROM、またはDVD−ROMのような)取り外し可能なストレージ手段などに格納可能であり、このようなストレージ手段は、コンピュータまたはマイクロプロセッサにより部分的または全体的に読み取り可能である。
【図面の簡単な説明】
【0119】
【図1】本発明の特定の実施形態による無線電話を示すブロック図である。
【図2】図1の無線電話により音声信号に実行される連続処理を示す概略図である。
【図3】図2による、ノイズキャンセルまたは低減アルゴリズムを示す概略図である。
【図4】図2による、フレームに適用されるスピーチ処理を示す概略図である。
【図5】例として図3および図4の処理により実行されたサンプルの流れの窓化を示す概略図である。
【図6】公知のフォーマット窓を示す概略図である。
【図7】本発明の好ましい実施形態による、図3の窓化動作で使用される最適化されたフォーマット窓を示す概略図である。
【図8】図3に示すタイプのノイズ低減処理をさらに詳細に示す概略図である。

Claims (12)

  1. ソース音声信号に第1の区分窓(505、506、700、701)を適用して得られる第1のサンプルシーケンスに適用される数学的変換を実行する、前記ソース音声信号を処理する第1のステップ(205)と、
    該第1のステップによって送られる信号に前記第1の区分窓とは異なる第2の区分窓(507、508)を適用して得られる第2のサンプルシーケンスに適用される、音声処理の第2のステップ(206)と
    を含んでなり、
    前記区分どうしが同期するように、前記2つの連続する第1の窓および/または前記2つの連続する第2の窓が重複することを特徴とする音声信号の処理方法。
  2. 前記第2の区分窓は、連続フレームであることを特徴とする請求項1に記載の方法。
  3. 第1のシーケンスの最後のサンプルは、前記第1のステップ後に、対応する第2のシーケンスの最後のサンプルでもあることを特徴とする請求項1または2に記載の方法。
  4. 前記第1の区分窓(700、701)は、
    前記数学的変換に適応される、完全な再構成および処理スペクトル特性の第1の中間窓と、
    第2の矩形中間窓と
    の畳み込みにより得られた完全な再構成の窓であることを特徴とする請求項1から3のいずれかに記載の方法。
  5. 各第1のシーケンスに適用される前記第1の処理ステップは、
    前記第1のシーケンスに適用される所定の処理サブステップ(303)と、
    前記第1のシーケンスの処理されたサンプルに適用される逆数学的変換サブステップ(304)と、
    前記第1のシーケンスに適用された前記逆数学的変換サブステップから発生したスピーチサンプルと、先行する第1のシーケンスに適用された前記逆数学的変換サブセットから発生した対応するスピーチサンプルとを追加するステップ(305)と
    をさらに含むことを特徴とする請求項1から4のいずれかに記載の方法。
  6. 前記所定の処理サブステップは、前記音声信号におけるノイズ低減またはノイズキャンセルを含むことを特徴とする請求項5に記載の方法。
  7. 前記所定の処理サブステップは、
    前記音声信号におけるエコー低減またはエコーキャンセルと、
    前記音声信号における音声認識と
    を含む群に属する少なくとも1つの処理を含むことを特徴とする請求項5または6のいずれかに記載の方法。
  8. 前記数学的変換は、
    FFTおよびその変形と、
    高速アダマール変換(FHT)およびその変形と、
    直接コサイン変換(DCT)およびその変形と
    を含む群に属することを特徴とする請求項1から7のいずれかに記載の方法。
  9. 前記ソース音声信号は、スピーチ信号であることを特徴とする請求項1から8のいずれかに記載の方法。
  10. ソース音声信号に第1の区分窓を適用して得られる第1のサンプルシーケンスに適用される少なくとも1つの数学的変換を実行する、前記ソース音声信号を処理する第1の手段と、
    前記第1のステップにより送られる信号に前記第1の区分窓とは異なる第2の区分窓を適用して得られる第2のサンプルシーケンスに適用される、音声処理の第2の手段と
    を含んでなり、
    前記区分どうしが同期するように、前記2つの連続する第1の窓および/または前記2つの連続する第2の窓が重複することを特徴とする、音声信号の処理デバイス。
  11. 少なくとも1つのマイクロプロセッサによって読み取り可能な支持体に記録されるプログラム要素を含み、該プログラム要素がマイクロプロセッサを制御するコンピュータプログラム製品であって、
    ソース音声信号に第1の区分窓を適用することによって得られる第1のサンプルシーケンスに適用される少なくとも1つの数学的変換を実行する、前記ソース音声信号を処理する第1のステップと、
    前記第1のステップにより送られる信号に前記第1の区分窓とは異なる第2の区分窓を適用することにより得られる第2のサンプルシーケンスに適用される、音声処理の第2のステップと
    を実行して、
    前記区分どうしが同期するように、2つの連続する第1の窓および/または2つの連続する第2の窓が重複することを特徴とするコンピュータプログラム製品。
  12. コンピュータにおいて前記プログラムを実行するときには、請求項1から9のいずれかに記載の音声処理方法の実行に適応される命令のシーケンスを前記プログラムが含むことを特徴とするコンピュータプログラム製品。
JP2002590150A 2001-05-15 2002-05-15 音声信号の処理方法 Pending JP2004527797A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0106412A FR2824978B1 (fr) 2001-05-15 2001-05-15 Dispositif et procede de traitement d'un signal audio
PCT/FR2002/001640 WO2002093558A1 (fr) 2001-05-15 2002-05-15 Dispositif et procede de traitement d'un signal audio.

Publications (1)

Publication Number Publication Date
JP2004527797A true JP2004527797A (ja) 2004-09-09

Family

ID=8863317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002590150A Pending JP2004527797A (ja) 2001-05-15 2002-05-15 音声信号の処理方法

Country Status (10)

Country Link
US (1) US7295968B2 (ja)
EP (1) EP1395981B1 (ja)
JP (1) JP2004527797A (ja)
KR (1) KR20040005965A (ja)
CN (1) CN1223991C (ja)
AT (1) ATE377244T1 (ja)
DE (1) DE60223246D1 (ja)
FR (1) FR2824978B1 (ja)
IL (2) IL158797A0 (ja)
WO (1) WO2002093558A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
EP2024863B1 (en) 2006-05-07 2018-01-10 Varcode Ltd. A system and method for improved quality management in a product logistic chain
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
ATE520120T1 (de) * 2006-06-29 2011-08-15 Nxp Bv Klangrahmenlängenanpassung
JP2010526386A (ja) 2007-05-06 2010-07-29 バーコード リミティド バーコード標識を利用する品質管理のシステムと方法
CN101802812B (zh) 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
WO2009063465A2 (en) 2007-11-14 2009-05-22 Varcode Ltd. A system and method for quality management utilizing barcode indicators
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
CA2787390A1 (en) 2010-02-01 2011-08-04 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
EP2372704A1 (en) 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor and method for processing a signal
US20140025374A1 (en) * 2012-07-22 2014-01-23 Xia Lou Speech enhancement to improve speech intelligibility and automatic speech recognition
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
EP2848300A1 (en) 2013-09-13 2015-03-18 Borealis AG Process for olefin production by metathesis and reactor system therefore
CN105830152B (zh) * 2014-01-28 2019-09-06 三菱电机株式会社 集音装置、集音装置的输入信号校正方法以及移动设备信息系统
CN104914307B (zh) * 2015-04-23 2017-09-12 深圳市鼎阳科技有限公司 一种频谱仪及其多参数并行扫频的频谱测量方法
WO2016185474A1 (en) 2015-05-18 2016-11-24 Varcode Ltd. Thermochromic ink indicia for activatable quality labels
WO2017006326A1 (en) 2015-07-07 2017-01-12 Varcode Ltd. Electronic quality indicator
US10594530B2 (en) * 2018-05-29 2020-03-17 Qualcomm Incorporated Techniques for successive peak reduction crest factor reduction
US20210020191A1 (en) * 2019-07-18 2021-01-21 DeepConvo Inc. Methods and systems for voice profiling as a service
CN113272895A (zh) * 2019-12-16 2021-08-17 谷歌有限责任公司 音频编码中的与振幅无关的窗口大小
CN118430527B (zh) * 2024-07-05 2024-09-06 青岛珞宾通信有限公司 一种基于pda端边缘计算处理的声音识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07264144A (ja) * 1994-03-16 1995-10-13 Toshiba Corp 信号圧縮符号化装置および圧縮信号復号装置
JPH09204196A (ja) * 1995-12-12 1997-08-05 Nokia Mobile Phones Ltd 雑音抑圧器及び移動局並びに雑音抑圧方法
WO1999021185A1 (en) * 1997-10-17 1999-04-29 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries
WO1999021187A1 (en) * 1997-10-17 1999-04-29 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to attenuate spectral splatter at frame boundaries
JP2003514473A (ja) * 1999-11-15 2003-04-15 ノキア コーポレイション ノイズ抑制

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
AU3690197A (en) * 1996-08-02 1998-02-25 Universite De Sherbrooke Speech/audio coding with non-linear spectral-amplitude transformation
US6370500B1 (en) * 1999-09-30 2002-04-09 Motorola, Inc. Method and apparatus for non-speech activity reduction of a low bit rate digital voice message
US6418405B1 (en) * 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for dynamic segmentation of a low bit rate digital voice message

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07264144A (ja) * 1994-03-16 1995-10-13 Toshiba Corp 信号圧縮符号化装置および圧縮信号復号装置
JPH09204196A (ja) * 1995-12-12 1997-08-05 Nokia Mobile Phones Ltd 雑音抑圧器及び移動局並びに雑音抑圧方法
WO1999021185A1 (en) * 1997-10-17 1999-04-29 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries
WO1999021187A1 (en) * 1997-10-17 1999-04-29 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to attenuate spectral splatter at frame boundaries
JP2001521308A (ja) * 1997-10-17 2001-11-06 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション エイリアシング抑制追加フィルタバンク付フレーム・基礎オーディオ符号化
JP2001521259A (ja) * 1997-10-17 2001-11-06 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション エイリアシング抑制追加フィルタバンク付フレーム・基礎オーディオ符号化
JP2003514473A (ja) * 1999-11-15 2003-04-15 ノキア コーポレイション ノイズ抑制

Also Published As

Publication number Publication date
KR20040005965A (ko) 2004-01-16
IL158797A0 (en) 2004-05-12
DE60223246D1 (de) 2007-12-13
EP1395981B1 (fr) 2007-10-31
FR2824978A1 (fr) 2002-11-22
FR2824978B1 (fr) 2003-09-19
CN1520589A (zh) 2004-08-11
US20040236572A1 (en) 2004-11-25
EP1395981A1 (fr) 2004-03-10
ATE377244T1 (de) 2007-11-15
CN1223991C (zh) 2005-10-19
WO2002093558A1 (fr) 2002-11-21
IL158797A (en) 2009-02-11
US7295968B2 (en) 2007-11-13

Similar Documents

Publication Publication Date Title
JP2004527797A (ja) 音声信号の処理方法
JP4512574B2 (ja) 音声活動に基づくゲイン制限による音声強化についての方法、記録媒体、及び装置
CN101976566B (zh) 语音增强方法及应用该方法的装置
US9159337B2 (en) Apparatus and method for generating a high frequency audio signal using adaptive oversampling
US8724798B2 (en) System and method for acoustic echo cancellation using spectral decomposition
JP4210521B2 (ja) 雑音低減法および装置
US7379866B2 (en) Simple noise suppression model
CN108464015B (zh) 麦克风阵列信号处理系统
CN111554315B (zh) 单通道语音增强方法及装置、存储介质、终端
CN101916567B (zh) 应用于双麦克风系统的语音增强方法
US10141008B1 (en) Real-time voice masking in a computer network
KR20130133848A (ko) 스펙트럼 도메인 잡음 형상화를 사용하는 선형 예측 기반 코딩 방식
EP1526510B1 (en) Systems and methods for echo cancellation with arbitrary playback sampling rates
JP2019168709A (ja) オーディオ信号復号器における改善された周波数帯域拡張
US10504530B2 (en) Switching between transforms
JP6408125B2 (ja) オーディオ信号内の雑音を推定するための方法、雑音推定器、オーディオ符号化器、オーディオ復号器、およびオーディオ信号を送信するためのシステム
CN101106384A (zh) 时域和频域中的分段快速卷积
JP6140685B2 (ja) 帯域パワー算出装置及び帯域パワー算出方法
JP2004110001A (ja) 雑音抑圧方法、雑音抑圧装置、雑音抑圧プログラム
CN114999519A (zh) 一种基于双重变换的语音实时降噪方法及系统
JP2003295898A (ja) 音声処理方法、音声処理装置、音声処理プログラム
KR20050034240A (ko) 다중 해상도를 갖는 잡음 억제장치
Kang et al. Audio Effect for Highlighting Speaker’s Voice Corrupted by Background Noise on Portable Digital Imaging Devices

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080306

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090203