JP5644013B2 - 発話音声処理 - Google Patents

発話音声処理 Download PDF

Info

Publication number
JP5644013B2
JP5644013B2 JP2013513424A JP2013513424A JP5644013B2 JP 5644013 B2 JP5644013 B2 JP 5644013B2 JP 2013513424 A JP2013513424 A JP 2013513424A JP 2013513424 A JP2013513424 A JP 2013513424A JP 5644013 B2 JP5644013 B2 JP 5644013B2
Authority
JP
Japan
Prior art keywords
speech
utterance
noise
signal
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013513424A
Other languages
English (en)
Other versions
JP2013531275A (ja
Inventor
エム. ベルトマン、ウィリアム
エム. ベルトマン、ウィリアム
サナルトゥ、マティーアス
ライチョードゥリー、アリジット
ピー. ランガラジャン、アナンド
ピー. ランガラジャン、アナンド
イー. デイシャー、マイケル
イー. デイシャー、マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2013531275A publication Critical patent/JP2013531275A/ja
Application granted granted Critical
Publication of JP5644013B2 publication Critical patent/JP5644013B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Circuits Of Receivers In General (AREA)

Description

本発明は、一般的に音声処理に関し、特に発話信号処理に関する。
本発明の実施形態は、添付の図面において、限定としてではなく例示として示され、図面においては、同様の参照番号により同様の要素を示す。
いくつかの実施形態に係る発話処理エンジンの図である。 いくつかの実施形態に係るシンセサイザーの図である。 いくつかの実施形態に係る発話処理エンジンを実施するための構造を示す図である。 いくつかの実施形態に係る電子デバイスプラットフォームの図である。
たとえば、車載機能付きのモバイルインターネットデバイスおよびキーボード機能が限定されている電話等では、音声命令および連続発話認識が用いられている。いかなる発話認識エンジンにもクリーンな入力を供給することができることが望まれるが、環境におけるバックグラウンドノイズによってこれは妨害されている。たとえば、オープンに与えられる口述命令語(open dictation word)の正確性は、自動車の騒音および喫茶店の環境等では約20%に低下する可能性があることが実験で示されており、ユーザにとっては許容範囲を超える。
今日の発話エンジンは、バックグラウンドノイズの影響を低減させるいくつかのノイズ低減機能を有する。しかし、これらの機能では、困難な環境においてオープンに口述命令を与えることを可能にするには十分ではないかもしれない。したがって、発話信号処理を向上させるべく、カルマンフィルタリング技術を用いる場合がある。
本明細書に提示されるいくつかの実施形態では、音声ノイズフィルタリング処理を、別々の発話認識経路と人間による受信経路とに分岐することにより、発話認識性能が強化されうる。つまり、音声経路を模造して、「知覚」(もしくは聴覚による受信)チャネルと、発話認識エンジン用に音声を前処理するべく用いられる別個のチャネルとを生成する。
図1は、いくつかの実施形態に係る発話処理エンジン102のブロック図である。発話処理エンジンは、カルマン法に基づくフィルタリングエンジン104、発話者/音声モデル106、環境ノイズモデル107、自動発話認識(ASR)エンジン108、および標準ノイズ抑制ブロック110を備える。
音声(たとえば、マイクからのデジタル化音声)は、SPE(発話処理エンジン)に入力されて2つの経路に、つまり、カルマンフィルターブロック104に至る発話認識経路と、ユーザに聴き取られるように、ブロック110において標準ノイズ抑制技術を用いて処理された音声知覚経路(複製された音声)とに分割される。カルマンフィルターは、発話者/音声モデル106と、環境ノイズモデル107とからの成分を用いて音声信号からノイズを除去し、フィルター済み信号を自動発話認識(ASR)エンジン108に供給する。
発話者/ノイズモデル106(少なくとも、初期バージョン)は、初期バージョンが未熟であっても、SPEはそれを用いて動作するので、SPEが実行される前に生成され、SPEが実行されている間に更新される。発話者/音声エンジン106は、現在の発話者に対応付けられた特定の特性を提供する。このような特性は、ユーザ固有の基本声門周波数を含む1つ以上の声門調波(glottal harmonics)、およびその他の任意の適切な情報を含みうる。たとえば、以前に取得したモデル(たとえば、ユーザの訓練から得られたもの)が利用可能である場合、それらを発話者/ユーザモデル106に組み込んでもよい。図示のように、特定のユーザについて以前に生成された「クリーン」な音声情報(x'(n))を用いてもよい。
発話者/音声モデルと同じく、環境ノイズモデル107も、想定したノイズ環境、または特定の環境もしくは以前に特性化した環境(たとえば、オフィス、自動車、飛行機等)についての初期設定データ/想定に基づいたものでよい。環境ノイズモデルは、環境に対応付けられた静的データ(たとえば、想定したバックグラウンドノイズ成分)、および/または、リアルタイムセンサ等から得られる動的データであってよい。たとえば、環境ノイズモデルは、ノイズモデル推定器の性能を強化するべく、自動車速度、バックグラウンドノイズをマイクで拾ったデータ、空調情報等のセンサ入力を含んでよい。いくつかの実施形態では、たとえば単一のチャネルについて、音声活動検出器アルゴリズムを用いて無発話期間を検出することによるノイズ推定方法を採用してよい。ノイズモデルとカルマンフィルタリングとの間に反復ループを用いることにより、ノイズモデルをさらに強化してよい。
フィルター104は、発話者モデルおよびノイズモデルの一方もしくは両方を用いて、受信した音声信号をフィルタリングしてよい。フィルターは、再び発話者モデルから、パルス形の周期的成分をカルマンフィルタリングに付加して、発話ソース(たとえば、人間、または、たとえば口述命令装置、音声制御装置、もしくは翻訳装置を用いるその他の発話エンティティ)が発生した声門調波を構成する拡張(extension)を用いてよい。カルマンフィルタリングは白色ノイズ入力に通常用いられてきたが、人間の発話の場合、周期的入力の付加により発話発生の生理をより良く真似ることができるであろう。所定のモデル情報と声門調波パラメータとを含む発話者モデルを用いて、発話者モデルについて、所定の、もしくは以前に決定した、係数のセットをロードしてよい。カルマンフィルタリングによって、必ずしも人間による聞こえ方が顕著には改善しない音声が生成されるが、通常、発話認識エンジンの性能は向上する。人間による知覚と、カルマン前処理フィルタリングを用いる発話認識入力との両方を最大限に高めるべく、音声経路を模造(2つの経路を生成)する。
独立入力および駆動ノイズ、並びに付加的な有色ノイズを構成するノイズ観測を用いて、声道応答をARもしくはARMAシステムとしてモデル化するべく、カルマン技術を利用して実装されたフィルター104を用いることができる。
従来のカルマン法の用法では、周期的な駆動入力は通常無視され、簡略化のため、駆動白色ノイズだけが用いられる。この想定が示唆しているのは、(理想的な性能下では)フィルターによって、生理値を持たず、自然な聞こえ方もしない、クリーンであるが無声の発話信号が生成されるということである。しかし、この想定は、フィルターパラメータだけが必要である場合には十分であろう。
他方、線形カルマンフィルターでは、音声生成において観察される基本的な双方向特性が捕らえられ、したがって、ノイズ条件下において、クリーンな入力について、より良好な推定値が生成されると我々は判断した。たとえば、CP分析およびソースモデリングと組み合わせると、線形カルマンフィルターは、発話処理で、さらに良好な性能を発揮する。この種のスキームにおけるエラーは、生理学的/音響学的な発声の失敗(misrepresentation)の結果にではなく、そのスキームのパラメータ推定エラーに対応付けられる。したがって、本明細書に開示される発話増強スキームは、線形カルマンフィルターに基づいており、その構成は、以下の表の「線形」という項目名の下に示されている。
Figure 0005644013
状態xは、声門ソースuおよび環境ノイズwにより生成されるクリーンな発話入力に対応する。(xは、SPEへの実際の入力ではない)。測定された信号yは、観測ノイズvだけ損失している。上記したように、以前のカルマン法アプローチでは、簡略化のために周期的入力uを無視し、白色ノイズが増加した発話を生成していた。しかし、この周期的入力を含め、状態遷移行列をCP表記することにより、クリーンな入力xについて、より良好な推定値が得られ、したがって発話認識性能が良好になる。以下の項では、本明細書において用いられるカルマンフィルタリングをより詳細に記載する。
いくつかの実施形態では、発話の増強にカルマンフィルタリングモデルに基づくアプローチを用いる。このアプローチでは、クリーンな発話は、バックグラウンドノイズにより線形に損失した特定の信号(representation)の後に続くと想定する。通常、標準的カルマンフィルタリングでは、入力として通常、白色ガウスノイズを有する自己回帰(AR)モデルを用いて、クリーンな発話を表現する。クリーンな発話は、離散時間方程式1で表される。
Figure 0005644013
ここで、x[n]はクリーンな発話であり、αはARもしくは線形予測符号化(LPC)の係数であり、w[n]は白色ノイズ入力であり、pはARモデルの次数である(通常、経験則としてp=fs/1000+2に従うと想定され、fsはkHZ単位のサンプリングレートである)。このモデルを書き換えて、式(2)および(3)で示されるような、カルマンフィルターに必要とされる所望の構成を生成することができる。したがって、以下のようになる。
Figure 0005644013
Figure 0005644013
ここで、xk+1およびxは、今後および現在のクリーンな発話についてのp個のサンプルを含むベクトルであり、Φは制御可能な正準形の最後の行にLPC係数を含む状態遷移行列であり、wは白色ノイズ入力を表し、この白色ノイズ入力は、ベクトルゲインGを介して現在のサンプルに影響を与えるベクトルに変換される。クリーンな発話は、現在のサンプルを取得するべく射影ベクトルHを介して射影され、取得された現在のサンプルはバックグラウンドノイズvに線形に加算されて、損失した観測もしくはノイズを含む発話yが生成される。
カルマンフィルタリングには、伝達段階および更新段階の2つの基本的な段階が含まれる。伝達段階では、モデルを用いて、以前の推定値(したがって、表記はn|n−1)に基づき、現在のサンプルを予測する。これは、式(4)で表される。以前のp個の点を含む1つのベクトルの1つのバッファだけが必要であることに注意すべきである。更新段階は、式(5)から(7)に表され、まず、予測したサンプルを、予測値と推測値との誤差を考慮して補正する。この誤差は、式(6)および(7)に定義されるカルマンゲインKにより制御される。これらのパラメータの全ては、各フレーム内で一回算出してよく、つまり、発話は、各フレーム(通常、25ms以下の持続期間)内における静止したプロセスであると考えられる。
Figure 0005644013
Figure 0005644013
Figure 0005644013
Figure 0005644013
本プロジェクトで提案する「修正カルマンフィルター」は、システムにおける2つの基本的なノイズについての想定、つまり、有声区間では声門パルスによってもARモデルが駆動されるという想定、および、バックグラウンドノイズは自身に対応付けられた共鳴音(非白色プロセス)を有するという想定を一般化することにより、標準フィルターを拡張したものである。声門パルスは、u[n]で表され、声帯振動がある場合に存在する。バックグラウンドノイズは、次数がq(推定すると、経験則的に、たとえばq=fs/2000と取得される)のARモデルに従うと想定される。したがって、システムの新しい構成を表す2つの式は、以下のようになる。
Figure 0005644013
Figure 0005644013
発話およびノイズのモデルは似た構成を有するので、カルマンフィルターに必要な状態方程式は、より大きい対角行列に埋め込まれる2つのサブシステムを生成することにより、拡張することができる。式(10)から(13)に示す通りに、同じシステム構成を用いて発話およびノイズを追跡する。これらの式において、下付き文字sは発話を表し、下付き文字vはバックグラウンドノイズを表す。声門パルスは、ベクトルBがGと同じ構成を有する現在のサンプルにだけ導入される。
Figure 0005644013
Figure 0005644013
Figure 0005644013
Figure 0005644013
カルマン法の伝達および更新を計算する式が標準カルマンフィルターと異なるのは、とりわけ、声門パルスが含められ、ノイズはフィルター自身により追跡されているのでノイズ共分散行列Rが含められないという点である。これらの違いは、式(4)を式(14)で修正し、式(6)を式(15)で補正することにより表される。したがって、以下のようになる。
Figure 0005644013
Figure 0005644013
これらの補正により、フィルターによって、発話信号およびバックグラウンドノイズの状況がより良く表されるようになり、より良好なノイズ除去とASR性能とが得られる。
新しいカルマンフィルタリング技術は、発話認識の強化にだけでなく、発話合成の向上にも用いることができる。図2を参照すると、時間領域に基づいたシンセサイザーの図が示されている。提案するスキームは、入力信号に適用される3つの相互連結されたプロセスを組み合わせた構成を有する。第1分岐では、ソースコンポーネントの特徴を識別し、ソース信号を生成する。第2分岐では、フィルター構成を検索し、CP(閉フェーズ)分析およびフルフレーム分析のいずれかを適用してフィルターの線形予測係数(LPC)を定義する。第3分岐では、包絡線を検出し、合成音の安定性を確保する。これらの分岐における計算は、シリアルもしくはパラレルに実行することができ、相互作用のレベルが適切に処理される限り、それぞれ異なるフレームおよびウィンドウの構造(frame and windowing structures)を用いてよい(たとえば、いくつかの実施例では、第1分岐で長方形のウィンドウおよび互いに重ならないフレームを用い、第2分岐でたとえば50%重なるハミングを用いることができる)。
図3は、電力消費を削減するべく、たとえばモバイルデバイスにおいて、音声処理エンジンのフロントエンドを実装するための一般的な構成を示す。本図では、たとえば図1のSPE102におけるそれぞれのブロックを構成するための電力効率的な態様が示されている。この構成は、計算集約的ブロック301と、メモリアクセス集約的なバックエンド305とに分割されている。計算集約的フロントエンド301は、フィルター処理部302と、入力音声が発話を含むかを判定する判定ブロック304とを有する。メモリ集約的バックエンド305は、発話者モデルを生成かつ更新する発話者モデルブロック306と、ASRを実施する発話認識ブロック308とを有する。発話者モデルブロック306は、ノイズモデルの全部もしくは一部を生成するノイズモデル部を有してもよい。音声がフロントエンド301に入力され、フィルター302で処理され、判定ブロック304で発話を含むと判定された場合、フィルター302からのフィルター済み発話信号を処理するべく、発話者モデルブロック306および発話認識ブロック308が起動される。
ハードウェアのフロントエンドでのメモリ要件を低下させることにより、より低電力での動作の実行が可能となり、ワット当たりの動作数が増大する。フロントエンド301における発話増強アルゴリズムのハードウェア実装により、低電力を達成するための機会が与えられ、プロセッサハードウェアのバックエンドに覚醒信号を供給する閾値検出器304の利用が可能となる。バックエンド305は、通常はメモリ集約的かつ高性能な(たとえば、隠れマルコフモデルおよび/またはニューラルネットワークに基づいた)発話認識アルゴリズムをハードウェアで実装したものである。したがって、ハードウェア(たとえば、SPEハードウェア)を計算集約的なフロントエンドと、高性能なバックエンドとに分割することによって、発話の増強および認識のための、「ボイスウェイクアップ」機能および「オールウェイズリスニング」機能も実装してよい。
図4は、携帯コンピューティングデバイス、スマートホン等用の電子デバイスプラットフォーム402の例を示す。図示された部分には、1つ以上の処理コア404、グラフィックスプロセッサ(GPX)406、メモリコントローラハブ(MCH)408、IO部410、および電力管理部416が含まれる。GPX406は、映像コンテンツを供給するべくディスプレイ407とインターフェースしている。MCH408は、プラットフォームに追加的なメモリ(たとえば、揮発性または不揮発性)を設けるべくメモリ409とインターフェースしている。電力管理部416は、電源(たとえば、バッテリ、アダプタ変換機、VR等)を制御してプラットフォームの様々な部に電力を供給し、かつ、実行可能である場合は、様々な活動状態を管理して電力消費を低減させる。
IO部410は、音声処理部412および周辺インターフェース414を含む。周辺インターフェースによって、通信を行ったり、多様な周辺装置415(キーボード、無線インターフェース、プリンタ等)を有効にしたりするためのインターフェース(たとえば、PCIおよびUSB)が提供される。音声処理部412は、多様な音声入力/出力(アナログおよび/またはデジタル)を受信して、ユーザとの間で音声コンテンツを授受する。音声処理部は、内部のモジュールとも通信して、たとえば、ユーザとネットワーク(たとえば、セル、インターネット等)との間で音声を通信させる。音声処理部412は、プラットフォーム402の機能からの指示を受けて音声を処理するための多様なコンポーネント(たとえば、A/D/A変換機、コーデック等)を含む。特に、音声処理部412は、発話処理を実施するための本明細書に記載のSPE413を含む。特に、SPEは、図3に示す電力効率的な構造を有する。
これまでの記載では、数多くの特定的な詳細事項を述べた。しかし、本発明の実施形態は、これらの特定的な詳細事項がなくても実施されることは理解されよう。別の例では、記載の理解が不明瞭とならないように、周知の回路、構造、および技術については詳細に記載しなかった。このことを念頭に置いた場合、「一実施形態」、「ある実施形態」、「例示的な実施形態」、「多様な実施形態」等の言及は、このように言及された本発明の実施形態は、特定の特性、構造、もしくは特徴を含むが、実施形態の全てが必ずしも当該特定の特性、構造、もしくは特徴を含むのではないことを示す。さらに、いくつかの実施形態は、その他の実施形態について記載された特徴のうち、いくつか、もしくは全てを含む場合があり、いずれも含まない場合もある。
これまでの記載および以下の特許請求の範囲では、下記の文言は、以下の通りに解釈されるべきである:「連結される(coupled)」および「接続される(connected)」等の文言、およびこれらの変化形が用いられている。これらの文言は、互いに同義語であることは意図されていないと理解されるべきである。むしろ、特定の実施形態では、「接続される(connected)」は、2つ以上の要素が、互いに、物理的もしくは電気的に直接接触していることを表すべく用いられる。「連結される(coupled)」は、2つ以上の要素が互いに協働もしくは作用するが、物理的もしくは電気的に直接接触している場合もしていない場合もあることを表すべく用いられる。
「PMOSトランジスタ」という文言は、P型金属−酸化物−半導体接合電界効果トランジスタを表す。同様に、「NMOSトランジスタ」という文言は、N型金属−酸化物−半導体接合電界効果トランジスタを表す。特に別途明記される場合、もしくはその文言の使用の特質上要請される場合以外は、「MOSトランジスタ」、「NMOSトランジスタ」、もしくは「PMOSトランジスタ」という文言が使用される場合はいつでも、典型例を示す意味で用いられていると理解されるべきである。これらの文言は、例をいくつか挙げると、VT、材料種、絶縁体厚さ、ゲート構成等が異なるデバイスを含む多様なMOSデバイスを包含する。さらに、特段MOS等と呼称されない限り、トランジスタという文言は、たとえば、接合型電界効果トランジスタ、バイポーラ接合トランジスタ、金属半導体FET、多様な種類の三次元トランジスタ、MOS、または、その他の今日知られているもの、もしくは今後開発されるものを含むことができる。
本発明は、記載された実施形態に限定されず、添付の特許請求の範囲の趣旨および範囲内で修正もしくは変更しても実施可能である。たとえば、本発明は、あらゆる種類の半導体集積回路(「IC」)チップに適用できる。これらのICチップの例としては、プロセッサ、コントローラ、チップセットコンポーネント、プログラマブルロジックアレイ(PLA)、メモリチップ、ネットワークチップ等が挙げられる。
図面のいくつかでは、信号伝達ラインが線で表されていることを理解されたい。いくつかは太く描線されて構成要素としてより重要な信号路を示し、数字表示を有して構成要素としていくつかの信号路を示し、および/または一端もしくは両端に矢印を有して一次情報の流れる方向を示す。しかし、これは、限定的な意味で解釈されるべきでない。むしろ、このような付加的な詳細は、回路のより簡単な理解を促すべく、1つ以上の例示的な実施形態に関連して用いられうる。図示されたいずれの信号線も、付加的な情報を有していようといなかろうと、実際に複数の方向に伝達されうる1つ以上の信号を有してよく、たとえば、差動対、光ファイバーライン、および/またはシングルエンドラインにより実装されるデジタルもしくはアナログのライン等の、任意の適切な種類の信号スキームで実装してよい。
例示としての大きさ/モデル/値/範囲を提示したが、本発明の実施形態はこれらに限定されないと理解されるべきである。製造技術(たとえば、フォトリソグラフィ)は時とともに発展して行くので、より小型のデバイスが製造されることが予期される。さらに、図面においては、図示および記載を簡略にするべく、また、本発明が曖昧となることを防止するべく、ICチップおよびその他のコンポーネントへの周知の電力/接地接続は図示したり、図示を省略したりした。さらに、構成をブロック図形式で示したのは、本発明が曖昧となるのを回避するためであり、また、これらブロック図構成の実施に係る特定が本発明を実施するプラットフォームに大きく左右されるという事実を考慮してのことであり、つまり、これらの特定は当業者のよく知るところである。本発明の例示的な実施形態を記載するべく特定的な詳細(たとえば、回路)が記載されていたとしても、本発明は、これらの特定的な詳細を省略もしくは変更しても実施することができることは当業者には明らかであろう。したがって、記載は限定としてではなく例示として見なされるべきである。
本実施形態によれば、以下の各項目もまた開示される。
(項目1)
聴覚的受信者(auditory receiver)へと提供される第1音声発話経路と、第2音声発話経路とを有する発話処理エンジンと、
前記第2音声発話経路に連結されて、音声発話信号を受信し、発話者の声門情報を含む発話者モデルに少なくとも部分的に基づいて前記音声発話信号からノイズを除去するカルマンフィルターと
を備える装置。
(項目2)
前記フィルターは、環境ノイズ情報を組み込んだノイズモデルにも基づいて、ノイズを除去する項目1に記載の装置。
(項目3)
前記環境ノイズ情報は、リアルタイム情報を含む項目2に記載の装置。
(項目4)
前記リアルタイム情報は、1つ以上のノイズセンサからの情報を含む項目3に記載の装置。
(項目5)
前記発話者モデルには、以前に生成された、ノイズ除去済みの、発話者についての発話信号情報が組み込まれている項目1に記載の装置。
(項目6)
前記フィルターは、フロントエンド部内に実装され、前記発話者モデルは、前記音声発話信号に発話が検出された場合に有効にされるバックエンド部内に実装される項目1に記載の装置。
(項目7)
前記発話処理エンジンは、発話認識エンジンを含む項目6に記載の装置。
(項目8)
前記発話認識エンジンは、前記バックエンド部の一部である項目7に記載の装置。
(項目9)
聴覚的受信者へと提供される第1音声発話経路と、第2音声発話経路とを含む発話処理エンジンを有する音声処理部と、
前記第2音声発話経路に連結されて、音声発話信号を受信し、発話者の声門情報を含む発話者モデルに少なくとも部分的に基づいて前記音声発話信号からノイズを除去するカルマンフィルターと
を備える電子デバイス。
(項目10)
前記フィルターは、環境ノイズ情報を組み込んだノイズモデルにも基づいて、ノイズを除去する項目9に記載の電子デバイス。
(項目11)
前記環境ノイズ情報は、リアルタイム情報を含む項目10に記載の電子デバイス。
(項目12)
前記リアルタイム情報は、1つ以上のノイズセンサからの情報を含む項目11に記載の電子デバイス。
(項目13)
前記発話者モデルには、以前に生成された、ノイズ除去済みの、発話者についての発話信号情報が組み込まれている項目9に記載の電子デバイス。
(項目14)
前記フィルターは、フロントエンド部内に実装され、前記発話者モデルは、前記音声発話信号に発話が検出された場合に有効にされるバックエンド部内に実装される項目9に記載の電子デバイス。
(項目15)
前記発話処理エンジンは、発話認識エンジンを含む項目14に記載の電子デバイス。
(項目16)
前記発話認識エンジンは、前記バックエンド部の一部である項目15に記載の電子デバイス。

Claims (20)

  1. ノイズ抑制技術を用いて処理される音声知覚経路であり、聴覚的受信者(auditory receiver)へと提供される第1音声発話経路と、経路の先において独立した第2音声発話経路とを有する発話処理エンジンと、
    前記第2音声発話経路に連結されて、音声発話信号を受信し、発話者の声門情報を含む発話者モデルに少なくとも部分的に基づいて前記音声発話信号からノイズを除去するカルマンフィルターと
    を備える装置。
  2. 前記フィルターは、環境ノイズ情報を組み込んだノイズモデルにも基づいて、ノイズを除去する請求項1に記載の装置。
  3. 前記環境ノイズ情報は、リアルタイム情報を含む請求項2に記載の装置。
  4. 前記リアルタイム情報は、1つ以上のノイズセンサからの情報を含む請求項3に記載の装置。
  5. 前記発話者モデルには、以前に生成された、ノイズ除去済みの、発話者についての発話信号情報が組み込まれている請求項1から4のいずれか一項に記載の装置。
  6. 前記フィルターは、フロントエンド部内に実装され、前記発話者モデルは、前記音声発話信号に発話が検出された場合に有効にされるバックエンド部内に実装される請求項1から5のいずれか一項に記載の装置。
  7. 前記発話処理エンジンは、発話認識エンジンを含む請求項6に記載の装置。
  8. 前記発話認識エンジンは、前記バックエンド部の一部である請求項7に記載の装置。
  9. ノイズ抑制技術を用いて処理される音声知覚経路であり、聴覚的受信者へと提供される第1音声発話経路と、経路の先において独立した第2音声発話経路とを含む発話処理エンジンを有する音声処理部と、
    前記第2音声発話経路に連結されて、音声発話信号を受信し、発話者の声門情報を含む発話者モデルに少なくとも部分的に基づいて前記音声発話信号からノイズを除去するカルマンフィルターと
    を備える電子デバイス。
  10. 前記フィルターは、環境ノイズ情報を組み込んだノイズモデルにも基づいて、ノイズを除去する請求項9に記載の電子デバイス。
  11. 前記環境ノイズ情報は、リアルタイム情報を含む請求項10に記載の電子デバイス。
  12. 前記リアルタイム情報は、1つ以上のノイズセンサからの情報を含む請求項11に記載の電子デバイス。
  13. 前記発話者モデルには、以前に生成された、ノイズ除去済みの、発話者についての発話信号情報が組み込まれている請求項9から12のいずれか一項に記載の電子デバイス。
  14. 前記フィルターは、フロントエンド部内に実装され、前記発話者モデルは、前記音声発話信号に発話が検出された場合に有効にされるバックエンド部内に実装される請求項9から13のいずれか一項に記載の電子デバイス。
  15. 前記発話処理エンジンは、発話認識エンジンを含む請求項14に記載の電子デバイス。
  16. 前記発話認識エンジンは、前記バックエンド部の一部である請求項15に記載の電子デバイス。
  17. 前記フィルターは、発話認識に用いられる請求項1から8のいずれか一項に記載の装置。
  18. フィルタリングされた前記音声発話信号は、前記第2音声発話経路に接続された発話認識エンジンに供給される請求項17に記載の装置。
  19. 前記フィルターは、パルス形の周期的成分を付加して発話ソースが発生した声紋調波を構成する請求項1から8および請求項17から18のいずれか一項に記載の装置。
  20. 前記第1音声発話経路は、複製された発話音声信号を入力する請求項1から8および請求項17から19のいずれか一項に記載の装置。
JP2013513424A 2010-06-30 2011-06-30 発話音声処理 Expired - Fee Related JP5644013B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/828,195 US8725506B2 (en) 2010-06-30 2010-06-30 Speech audio processing
US12/828,195 2010-06-30
PCT/US2011/042515 WO2012003269A2 (en) 2010-06-30 2011-06-30 Speech audio processing

Publications (2)

Publication Number Publication Date
JP2013531275A JP2013531275A (ja) 2013-08-01
JP5644013B2 true JP5644013B2 (ja) 2014-12-24

Family

ID=45400342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013513424A Expired - Fee Related JP5644013B2 (ja) 2010-06-30 2011-06-30 発話音声処理

Country Status (7)

Country Link
US (1) US8725506B2 (ja)
EP (1) EP2589047A4 (ja)
JP (1) JP5644013B2 (ja)
KR (1) KR101434083B1 (ja)
CN (1) CN102934159B (ja)
TW (1) TWI455112B (ja)
WO (1) WO2012003269A2 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725506B2 (en) 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
US8812014B2 (en) * 2010-08-30 2014-08-19 Qualcomm Incorporated Audio-based environment awareness
US9947333B1 (en) * 2012-02-10 2018-04-17 Amazon Technologies, Inc. Voice interaction architecture with intelligent background noise cancellation
US9437213B2 (en) 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
US9020818B2 (en) 2012-03-05 2015-04-28 Malaspina Labs (Barbados) Inc. Format based speech reconstruction from noisy signals
US9384759B2 (en) * 2012-03-05 2016-07-05 Malaspina Labs (Barbados) Inc. Voice activity detection and pitch estimation
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
US9361890B2 (en) * 2013-09-20 2016-06-07 Lenovo (Singapore) Pte. Ltd. Context-based audio filter selection
WO2015050556A1 (en) * 2013-10-04 2015-04-09 Intel Corporation Cancellation of interfering audio on a mobile device
KR101912177B1 (ko) 2013-11-15 2018-10-26 인텔 코포레이션 음성 인식 동적 사전을 유지하기 위한 시스템 및 방법
US9449602B2 (en) * 2013-12-03 2016-09-20 Google Inc. Dual uplink pre-processing paths for machine and human listening
KR102216048B1 (ko) 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
CN104463841A (zh) * 2014-10-21 2015-03-25 深圳大学 衰减系数自适应的滤波方法及滤波系统
US9299347B1 (en) * 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
DK3217399T3 (en) * 2016-03-11 2019-02-25 Gn Hearing As Kalman filtering based speech enhancement using a codebook based approach
DE102017209585A1 (de) * 2016-06-08 2017-12-14 Ford Global Technologies, Llc System und verfahren zur selektiven verstärkung eines akustischen signals
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
WO2019169616A1 (zh) * 2018-03-09 2019-09-12 深圳市汇顶科技股份有限公司 语音信号处理方法及装置
CN110738990B (zh) 2018-07-19 2022-03-25 南京地平线机器人技术有限公司 识别语音的方法和装置
WO2021041741A1 (en) * 2019-08-30 2021-03-04 Dolby Laboratories Licensing Corporation Pre-conditioning audio for machine perception
GB202104280D0 (en) * 2021-03-26 2021-05-12 Samsung Electronics Co Ltd Method and apparatus for real-time sound enhancement
CN113053382A (zh) * 2021-03-30 2021-06-29 联想(北京)有限公司 处理方法和装置

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5148488A (en) * 1989-11-17 1992-09-15 Nynex Corporation Method and filter for enhancing a noisy speech signal
US5434947A (en) * 1993-02-23 1995-07-18 Motorola Method for generating a spectral noise weighting filter for use in a speech coder
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6427134B1 (en) * 1996-07-03 2002-07-30 British Telecommunications Public Limited Company Voice activity detector for calculating spectral irregularity measure on the basis of spectral difference measurements
TW309675B (en) 1996-12-26 1997-07-01 Yiing Lii Method and apparatus for complex fuzzy signal processing
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6408269B1 (en) * 1999-03-03 2002-06-18 Industrial Technology Research Institute Frame-based subband Kalman filtering method and apparatus for speech enhancement
TW425542B (en) 1999-03-19 2001-03-11 Ind Tech Res Inst Kalman filter for speech enhancement
US7117157B1 (en) * 1999-03-26 2006-10-03 Canon Kabushiki Kaisha Processing apparatus for determining which person in a group is speaking
US20020026253A1 (en) 2000-06-02 2002-02-28 Rajan Jebu Jacob Speech processing apparatus
US6954745B2 (en) 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
JP2002006898A (ja) 2000-06-22 2002-01-11 Asahi Kasei Corp ノイズ低減方法及びノイズ低減装置
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US6850887B2 (en) * 2001-02-28 2005-02-01 International Business Machines Corporation Speech recognition in noisy environments
US7082393B2 (en) * 2001-03-27 2006-07-25 Rast Associates, Llc Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
US6757651B2 (en) * 2001-08-28 2004-06-29 Intellisist, Llc Speech detection system and method
US7346175B2 (en) * 2001-09-12 2008-03-18 Bitwave Private Limited System and apparatus for speech communication and speech recognition
JP2003271191A (ja) * 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
US20040064315A1 (en) * 2002-09-30 2004-04-01 Deisher Michael E. Acoustic confidence driven front-end preprocessing for speech recognition in adverse environments
KR100633985B1 (ko) 2004-05-04 2006-10-16 주식회사 팬택앤큐리텔 단말기에서의 에코 및 잡음 제거 장치
US20090163168A1 (en) * 2005-04-26 2009-06-25 Aalborg Universitet Efficient initialization of iterative parameter estimation
CA2612903C (en) * 2005-06-20 2015-04-21 Telecom Italia S.P.A. Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
US8744844B2 (en) * 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
CN101281744B (zh) 2007-04-04 2011-07-06 纽昂斯通讯公司 语音分析方法和装置以及语音合成方法和装置
KR100930584B1 (ko) * 2007-09-19 2009-12-09 한국전자통신연구원 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
US8527266B2 (en) * 2008-03-21 2013-09-03 Tokyo University Of Science Educational Foundation Administrative Organization Noise suppression device and noise suppression method
US8121837B2 (en) * 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
KR101056511B1 (ko) * 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US20110125490A1 (en) * 2008-10-24 2011-05-26 Satoru Furuta Noise suppressor and voice decoder
US9202455B2 (en) * 2008-11-24 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced active noise cancellation
US8660281B2 (en) * 2009-02-03 2014-02-25 University Of Ottawa Method and system for a multi-microphone noise reduction
KR101253102B1 (ko) * 2009-09-30 2013-04-10 한국전자통신연구원 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법
US8725506B2 (en) 2010-06-30 2014-05-13 Intel Corporation Speech audio processing

Also Published As

Publication number Publication date
US20120004909A1 (en) 2012-01-05
WO2012003269A2 (en) 2012-01-05
CN102934159A (zh) 2013-02-13
JP2013531275A (ja) 2013-08-01
KR20130033372A (ko) 2013-04-03
WO2012003269A3 (en) 2012-03-29
CN102934159B (zh) 2015-12-16
TWI455112B (zh) 2014-10-01
KR101434083B1 (ko) 2014-08-25
US8725506B2 (en) 2014-05-13
EP2589047A2 (en) 2013-05-08
EP2589047A4 (en) 2015-11-25
TW201222527A (en) 2012-06-01

Similar Documents

Publication Publication Date Title
JP5644013B2 (ja) 発話音声処理
Kalinli et al. Noise adaptive training for robust automatic speech recognition
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
Narayanan et al. Joint noise adaptive training for robust automatic speech recognition
JP4842583B2 (ja) 多感覚音声強調のための方法および装置
JP4283212B2 (ja) 雑音除去装置、雑音除去プログラム、及び雑音除去方法
KR101201146B1 (ko) 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법
CN107667401B (zh) 用于电子设备的降噪
US11308946B2 (en) Methods and apparatus for ASR with embedded noise reduction
US9378755B2 (en) Detecting a user's voice activity using dynamic probabilistic models of speech features
Li et al. Feature denoising using joint sparse representation for in-car speech recognition
US20090265168A1 (en) Noise cancellation system and method
JP2004509364A (ja) 音声認識システム
Li et al. Robust log-energy estimation and its dynamic change enhancement for in-car speech recognition
Kurpukdee et al. Improving voice activity detection by using denoising-based techniques with convolutional lstm
Yoon et al. Speech enhancement based on speech/noise-dominant decision
Lu et al. Robust speech recognition using improved vector Taylor series algorithm for embedded systems
Sasou et al. HMM-based noise-robust feature compensation
US11783818B2 (en) Two stage user customizable wake word detection
Hao et al. Denoi-spex+: a speaker extraction network based speech dialogue system
CN117953912A (zh) 一种语音信号处理方法及相关设备
Whittington et al. Low-cost hardware speech enhancement for improved speech recognition in automotive environments
Setiawan Exploration and optimization of noise reduction algorithms for speech recognition in embedded devices
Thatphithakkul et al. Combined simulated data adaptation and piecewise linear transformation for robust speech recognition
Singh et al. Speech Enhancement using Segmental Non-Negative Matrix Factorization (SNMF) and Hidden Marvok Model (HMM)

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141015

R150 Certificate of patent or registration of utility model

Ref document number: 5644013

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees