JP2013500508A

JP2013500508A - 音声信号の処理に際して、ノイズを無視して音声を対象にすることによりノイズを低減するシステムおよび方法

Info

Publication number: JP2013500508A
Application number: JP2012522970A
Authority: JP
Inventors: ピンソン，マーク
Original assignee: SCTI Holdings Inc
Current assignee: SCTI Holdings Inc
Priority date: 2009-07-27
Filing date: 2010-07-27
Publication date: 2013-01-07
Anticipated expiration: 2030-07-27
Also published as: EP2460157B1; JP5799013B2; US9318120B2; US20120191450A1; US20160232895A1; KR101344435B1; WO2011014512A1; US8954320B2; CN102483926A; EP2460157A4; EP2460157A1; KR20120037954A; US20150154978A1; CN102483926B; US9570072B2

Abstract

ノイズの多いチャネルで伝えられる音声信号または環境ノイズを有する音声信号を処理するシステムおよび方法である。ノイズ汚染が最も少ない高調波のサブセットに注目し、低信号対ノイズ比を有する信号の高調波を無視し、音声と一致しない振幅変調を無視する。
【選択図】図４Ａ

Description

本発明は、音声信号を処理する際のノイズ低減に関する。より詳細には、本発明は、適応フィルタを使用して、ノイズを含む音声信号から音声情報を抽出することに関するものである。

［関連出願の相互参照］
この出願は、２００９年７月２７日に出願された米国仮特許出願第６１／２２８，９２５号に対して優先権を主張する。この米国仮特許出願は、引用により本明細書にそのまま援用されるものである。

自動音声認識システム（“ＡＳＲ”）は、音声の言葉を含む音響信号をテキストに変換する。そのようなシステムの“フロントエンド”は、対象となる音声信号から重要な識別音声の“特徴”を抽出することにより、変換プロセスを開始する。ＡＳＲシステムの特徴抽出能力は、対象となる音声信号がノイズ汚染されたときに、大幅に低下する。実際に、ノイズは、その他の多くの実用的な用途において、ＡＳＲシステムの幅広い使用の妨げとなる。これは、入力として音声の言葉を用いるとともに、より明瞭に聞こえて分かるように信号を処理する、補聴器、ヘッドホン、無線、有線またはインターネットベースの音声通信のような、その他の通信または聴覚システムにも当てはまる。

現在のノイズ低減システムにおいては、ノイズをモデリングして信号から取り去ることにより、ノイズを軽減しようと試みている。それらシステムは、ノイズ信号の正確な推定を必要とする。しかしながら、ノイズ信号が非定常的で、ノイズがモデルと異なるとき、あるいはノイズが時間とともに変化する場合に、それら技術は機能しなくなるか、有効性が制限されるため、正確な評価が非常に困難となる。

その他の方法は、ノイズ汚染された音声を認識するためにＡＳＲシステムを教育しようと試みるトレーニングモデルに依存する。しかしながら、環境ノイズおよびシステムノイズの大きさが、大き過ぎるか、または動的過ぎるため、必要な信頼性を有するトレーニングモデルを生成することができない。

また、それ以外のもので、音声の高調波特性を利用して、音声認識を改善するように試みたものもある。しかしながら、音声の調和構造を検出して追跡しようとするこれまでの試みは、十分ではなかった。

本発明は、フィルタを使用して、人間の音声を含むノイズの多い信号から音声情報を抽出して、その抽出分のうち、音声情報を伝えない部分を無視するシステムおよび方法に関する。

本発明の幾つかの実施形態は、ノイズに汚染されることが最も少ない高調波のサブセットに注目するステップを含む。本発明の幾つかの実施形態は、低信号対ノイズ比を有する信号高調波を無視するステップを含む。幾つかの実施形態は、音声と一致しない振幅変調を無視するステップを含む。本発明の現時点で好ましい実施形態は、ノイズ汚染が最も少ない高調波のサブセットに注目し、低信号対ノイズ比を有する信号高調波を無視し、音声と一致しない振幅変調を無視する、信号の処理システムを含む。

本発明の幾つかの実施形態は、自動音声抽出を実行するための複数の処理モジュールを備えるプロセッサを有するシステムを含む。現時点で好ましい実施形態では、プロセッサが、高調波周波数識別部（harmonic frequency identifier）、適応フィルタアプリケータ（adaptive filter applicator）、モジュレータ（modulator）、出力比コンストラクタ（power ratio constructor）、低出力高周波リムーバ（low-power harmonic remover）および非音声高調波リムーバ（non-speech harmonic remover）を備え、ノイズの影響を受けることが最も少ない高調波のサブセットに注目し、低信号対ノイズ比を有する信号高調波を無視し、音声と一致しない振幅変調を無視するような方法で、モジュールが信号を処理するように構成されている。

図１Ａは、本発明の幾つかの実施形態に係る、音高および高調波のサブセットに保持された情報を含む単語を発する人間の話者の周波数を時間とともにプロットしたグラフである。図１Ｂは、本発明の幾つかの実施形態に係る、音声信号高調波の振幅変調の値を時間とともにプロットしたグラフである。図２は、本発明の現時点で好ましい実施形態に係る自動音声抽出の方法を示している。図３Ａは、元の音声信号のスペクトログラムを示している。図３Ｂは、ノイズ成分を加えた音声信号のスペクトログラムを示している。図３Ｃは、本発明の幾つかの実施形態に係る音声信号の音声変換再構成のスペクトログラムを示している。図４Ａは、本発明の幾つかの実施形態に係る自動音声抽出のシステムを示している。図４Ｂは、本発明の現時点で好ましい実施形態に係る自動音声抽出を実行する複数の処理モジュールを備える処理エンジンを示している。図５は、コンピュータシステムの例示的形式の装置の概略ブロック図で、そのコンピュータシステム内では、命令のセットがプログラムされて、本発明の論理ステップを当該装置に実行させるものとなっている。

上述したように、コンピュータ認識可能な音声の処理システムを作ろうとする多くの従来の試みは、ノイズのモデリングおよび除去に重点を置いており、ノイズ条件がそれらのモデルと異なるときに機能しなくなる。特にこの理由により、実際のところ、人間の能力に近いＡＳＲシステムは先行技術に存在しない。同じことは、補聴器、無線、有線およびインターネットベースの音声通信システムのような、音声入力を使用するその他のシステムにも該当する。

他方、人間は、中程度の量の様々なタイプのノイズの中で、時間変化条件下で、音声を確実に理解することができる。人間は、ノイズを除去することによってではなく、ノイズを無視して、音声情報信号の意味のある特徴により集中的および選択的に注目することによって、ノイズの多い音声信号内のノイズに対応している。ノイズ低減に対する本発明の方法の目的は、先行技術のようなノイズ低減技術ではなく、人間の能力により近付けることである。

音声信号は、基本周波数（fundamental frequency）、すなわち“音高（pitch）”と、基本周波数の整数倍、すなわち“高調波または倍音（harmonics）”とからなる調波構造を備える。有声音声は、音高および高調波にエネルギーが集まる調波構造を示す。これは、音高の周波数およびその整数倍の高調波周波数に、有声音声のエネルギーが集中することを意味している。

本発明は、この調波構造を検知および追跡して、それにより音声把握に最も関連する信号の特徴を抽出するシステムおよび方法である。

本発明者は、関連するエネルギーの集中が高調波に存在することにより、音高およびその高調波が最も高い局所的な信号対ノイズ比を有することを見出した。これは、ノイズレベルが増加したときに、高調波がノイズの中で目立つ信号の最後の特徴であることを意味している。高調波の振幅変調は、音声知覚に使用される情報を符号化する。この情報は、幾分冗長的に符号化される。したがって、音声情報は高調波のサブセットのみに依存して伝えられる。

高調波のサブセットに注目することは、ノイズ汚染を受けることが最も少ない高調波への選択的な注意によってメッセージを受け取ることができるため、音声を把握する人間の能力をさらに高める。本発明の現時点で好ましい実施形態は、ノイズ汚染を受けることが最も少ない高調波のサブセットに選択的に注目するこの能力を再現する。

本発明においては、用語“ノイズまたは雑音”は、環境ノイズ、チャネルノイズおよびそれらの組合せに限定される訳ではないが、それらを含む音声信号における望ましくない任意の音のことをいう。

より汚染の少ない高調波に選択的に注目することができる多くの方法が存在する。それら方法は、高調波のサブセットに選択的に注目するために、別個に、または組み合わせて使用することができる。それら方法は、後ほどより詳細に説明する。

図１Ａおよび図１Ｂは、有声音声の調波構造および音声信号の高調波の振幅変調を示し、これは、高調波のサブセットが音声情報の大部分を如何に伝えるのかを示している。

図１Ａは、単語“ｏｎｅ”を発する人間の話者の周波数を時間とともにプロットしたグラフである。図示のように、単語“ｏｎｅ”は時間インデックス３７から開始して、時間インデックス１０２に至る。有声音声の調波構造はハッキリと分かる。

上述したように、音声信号の振幅変調は、どの高調波が最も多くの音声情報を伝えるかについての情報を提供する。図１Ｂは、上記単語“ｏｎｅ”の発声の音声信号高調波の振幅変調の値を時間とともにプロットしたグラフである。図１Ｂに示すように、振幅変調のパターンは語音を表わしている。例えば、最も低い高調波のみが、単語の最後の“ｎの音”の間に大きなエネルギーを有している。

上述したように、高調波のサブセットに注目することは、ノイズ汚染を受けることが最も少ない高調波への選択的な注意によってメッセージを受け取ることができるため、音声を把握する人間の能力をさらに高める。同様に、本発明の現時点で好ましい実施形態は、信頼できる高調波のサブセットから音声を再構築するシステムおよび方法を含む。

高調波の変調は、音声が生成されるときに声道の構成を変えることによって引き起こされる。本発明者は、音声情報を符号化する高調波の振幅変調が非常に遅く、それが約１６Ｈｚであることを見出した。

このため、１６Ｈｚより上の変調速度が音声源と合致しないためこれを除去することができるという知見に基づき、約１６Ｈｚよりも速く高調波振幅を変調するノイズは、無視することができる。

本発明の現時点で好ましい実施形態は、別個の３つの仕組みにより、ノイズを低減するシステムおよび方法を含む。先ず、非高調波エネルギーはすべて無視される。次に、低い信号対ノイズ比を有する信号高調波は無視される。最後に、音声と一致しない振幅変調は無視される。

図２は、本発明の現時点で好ましい実施形態に係る自動音声抽出の方法２００を示している。この方法２００は、自動音声認識システムにおける音声信号の伝送および受け取りから開始する（２０１）。次に、音声信号の音高が、その高調波周波数とともに、識別される（２０２）。

音声信号の音高は、信号自体の固有の特徴を処理することによって識別される。有声音声中に、強い高調波パターンが示される。高調波は、音高の整数倍である。スペクトルにわたって局所的に最も強いエネルギー集中を追跡するために、適応狭帯域フィルタのセットが使用される。これらのフィルタは、高調波およびその他の強い狭い周波数の信号をロックオンすることとなる。ロックオンされた周波数は、倍音列と一致する周波数を選択するために検査される。その音高は、倍音列のベースとして判定される。実際に、音高を判定するために基音にフィルタをロックオンさせる必要は無い。

入ってくる音声信号においては、人が話すことによって高調波が振幅変調される。音声源と一致する高調波およびその振幅変調を分離することによって、我々は、関係の無いノイズの多くを無視しながらも、関係のある音声情報の多くを捕捉する。ノイズの多くが除去された信号を再構成するために、我々は、振幅パターンに１Ｈｚと１６Ｈｚとの間で帯域フィルタリングをかけて音声源と一致しない変調を取り除いた後に、それら自体の抽出された振幅パターンを有する選択した高調波の各々を変調することとなる。

基音振動数とその高調波が特定されると、非高調波エネルギーを無視するために、１またはそれ以上のフィルタが信号に適用される（２０３）。適応狭帯域フィルタは、狭帯域であることにより、非高調波エネルギーを減衰する。適応フィルタは、その出力から瞬時周波数および振幅を推定するプロセスを使用する。狭帯域フィルタは、推定と等しい中心周波数で生成される。この周波数の出力の瞬時周波数および振幅は、より正確な推定を与えるために計算される。本発明の幾つかの実施形態では、出力が安定するまで、改善プロセスをより多くのサイクル繰り返すようにしてもよい。高調波成分を追跡する次回のステップでは、様々なフィルタ用の中心周波数として、最終的な推定が使用される。

次に、高調波のみの信号が変調される（２０４）。現時点で好ましい実施形態では、変調のステップ（２０４）が振幅変調を含む。

方法２００は、振幅変調された高調波信号について信号対ノイズ比を作成して（２０５）、所与の閾値の大きさ未満に低下した信号対ノイズ比を有する高調波を無視すること（２０６）を続け、ノイズ汚染の最も少ない高調波に注目する。

上述したように、汚染の少ない高調波に選択的に注目することを可能にする多くの方法が存在する。それら方法は、高調波のサブセットに選択的に注目するために、別個に、または組み合わせて使用することができる。

本発明の幾つかの実施形態では、システムが、汚染を受けない高調波についてはスペクトルの信号対ノイズ比が高いという事実を利用して、ノイズ汚染を受けた高調波を無視する。それら実施形態は、ともに高周波に中心がある狭および広帯域を規定するステップを含む。幾つかの実施形態では、広帯域が、音高から外側の両方向に、音高から離れた予め設定された距離まで及ぶ。幾つかの実施形態では、広帯域が、次に低い高調波および次に高い高調波まで、パーセント距離を隔てて延びる。好ましくは、広帯域が、次に低い高調波周波数までの実質的に中間から、次に高い高調波周波数までの実質的に中間に及び、ここで、実質的に中間には、最も近い高調波までの距離の４０％と６０％の間の距離が含まれる。その他の幾つかの実施形態では、広帯域が、次に低い高調波周波数までの丁度中間と、次に高い高調波周波数までの丁度中間とに及ぶ。

また、狭帯域の帯域幅は、追跡フィルタによって決定されることが望ましいが、その帯域幅は、広帯域の帯域幅よりも小さくなるであろう。汚染を受けない音声信号では、エネルギーの殆どすべてが高調波の近くに集中する。

このため、高調波の近傍における信号対ノイズ比に関連する関数は、狭帯域のエネルギーと広帯域のエネルギーの比率（広帯域のエネルギーに対する狭帯域のエネルギーの比率）として計算することができる。よって、所与の閾値振幅未満に低下した信号対ノイズ比を有する高調波を無視するステップは、狭帯域のエネルギーと広帯域のエネルギーの比率が予め設定された閾値よりも高い高調波を無視するステップを含む。

本発明の幾つかの実施形態では、予め設定された閾値が、システムの望ましい性能に基づいて選択される。

本発明の幾つかのその他の実施形態では、システムが、各高調波の推定周波数が高調波の周波数近傍のノイズ成分によって汚染を受けるという知見を利用して、ノイズ汚染を受けた高調波を無視する。このノイズは高調波の推定を“引っ張る”こととなる。倍音列の周波数の関係は固定されているため、所与の高調波について、高調波の“予期される”周波数を計算するために、それ以外の高調波に対する基準を使用することができる。高調波推定のその予期される値からの偏差は、高調波近傍における汚染の尺度となる。

このため、本発明の幾つかの実施形態は、音高に基づいて高調波の周波数を推定するステップと、信号を分析することにより観測される高調波の実際の周波数を測定するステップと、推定される周波数と実際に観測される周波数との偏差値を判定するステップと、偏差をノイズに起因するものと結論付けるステップと、偏差値が予め設定された値を上回る高調波を無視するステップとを含む。

最後に、本発明の現時点で好ましい実施形態では、方法が、狭帯域のエネルギーと広帯域のエネルギーとの比率と、予期される値からの偏差とを使用してノイズ汚染を受けた高調波を無視し、それが、汚染の小さい高調波に選択的に注目するために、同時に使用される。

最後に、方法２００は、人間の音声と一致しない残りの振幅変調信号を選択的に無視する（２０７）。幾つかの実施形態では、抽出した振幅パターンを、人間の音声の範囲の特徴を有する帯域通過フィルタに通過させることにより、人間の音声と一致しない振幅変調が抑制される。好ましくは、帯域通過フィルタが１Ｈｚ乃至１６Ｈｚの範囲を有する。

音声信号認識の方法２００の最終結果は、元の信号の不可欠な成分と厳密に適合するように再現される、ノイズおよび不必要な認識情報の無い音響信号である。

先行技術の音声認識の特徴抽出の手法およびその他の音声信号処理使用法は、ノイズから音声情報を分離するために、方法２００の開示したステップを使用することはない。

他方、方法２００は、大きなレベルのノイズ下における信頼性のある追跡を実証している。例えば、図３Ａ乃至図３Ｃは、本発明の利点を示す信号のスペクトログラムを例示している。

図３Ａは、元の音声信号のスペクトログラムを示している。図３Ｂは、ノイズ成分を加えた音声信号のスペクトログラムを示している。また、図３Ｃは、本発明の幾つかの実施形態に係る音声信号の音声変換再構成のスペクトログラムを示している。図示のように、再構成によって、ノイズ成分の無い音声信号が正確に再生されている。

本発明の幾つかの実施形態では、自動音声抽出のシステムが、自動音声抽出を行う方法２００を利用するように構成された信号プロセッサを含む。

図４Ａは、本発明の幾つかの実施形態に係る自動音声抽出の基本システム４００を示している。図４Ａによれば、入力信号が、メモリ４０２に接続されたプロセッサ４０１に送られる。本発明の現時点で好ましい実施形態では、図２の方法を行うようにプロセッサ４０１が構成されている。また、本発明の現時点で好ましい実施形態では、プロセッサ４０１が、必要とされる様々な実行ステップを行うように構成された複数の処理モジュールを含む。

図４Ａのシステム４００は、任意の自動音声認識、並びに、入力として音声の言葉を利用してノイズ汚染に悩む任意のその他のシステムまたはデバイスに組み入れることができ、それらシステムまたはデバイスには、補聴器、ヘッドホン、または、空対空および地対空通信を含む、無線、有線またはインターネットによる音声通信が含まれるが、それらに限定される訳ではない。

図４Ｂは、本発明の現時点で好ましい実施形態に係る自動音声抽出を実行する複数の処理モジュールを備える処理エンジン４０５を示している。図４Ｂによれば、処理エンジン４０５は、高調波周波数識別部４１０、適応フィルタアプリケータ４２０、モジュレータ４３０、出力比コンストラクタ４４０、低出力高周波リムーバ４５０および非音声高調波リムーバ４６０を備える。本発明の現時点で好ましい実施形態によれば、方法２００を行うように処理エンジン４０５が構成される。

図５は、コンピュータシステム１６００の例示的形式の装置の概略ブロック図で、そのコンピュータシステム内では、命令のセットをプログラムして、本発明の論理ステップを当該装置に実行させることが可能となっている。代替的な実施形態では、装置が、ネットワークルータ、ネットワークスイッチ、ネットワークブリッジ、携帯情報端末（ＰＤＡ）、携帯電話、Ｗｅｂアプライアンス、または当該装置によって取られる動作を指定する一連の命令を実行することができる任意の装置を含むことができる。

コンピューターシステム１６００は、プロセッサ１６０２、メインメモリ１６０４およびスタティックメモリ１６０６を含み、それらがバス１６０８を介して相互に遣り取りするものとなっている。コンピューターシステム１６００は、表示装置１６１０、例えば、液晶ディスプレイ（ＬＣＤ）または陰極線管（ＣＲＴ）をさらに含むことができる。さらに、コンピューターシステム１６００は、英数字入力装置１６１２、例えば、キーボードと、カーソル制御装置１６１４、例えば、マウスと、ディスク駆動装置１６１６と、信号発生装置１６１８、例えば、スピーカと、ネットワークインターフェース装置１６２０とを含む。

ディスク駆動装置１６１６は、機械可読媒体１６２４を含み、この媒体には、本明細書に記載の以下の方法の何れか一つまたはすべてを具現化する実行可能な命令のセット、すなわち、ソフトウェア１６２６が格納されている。また、ソフトウェア１６２６は、メインメモリ１６０４内および／またはプロセッサ１６０２内にも、完全に、または少なくとも部分的に存在するものとして示されている。また、ソフトウェア１６２６は、ネットワークインターフェース装置１６２０によって、ネットワーク１６２８，１６３０を介して伝送または受信されるものであってもよい。

上述したシステム１６００とは対照的に、異なる実施形態は、処理エンティティを実行に移すために、コンピュータで実行される命令の代わりに、論理回路を使用する。速さ、費用、金型費などの領域における適用の具体的な条件に応じて、何千もの集積したトランジスタを有する特定用途向け集積回路（ＡＳＩＣ）を構築することにより、この論理回路を実装することができる。そのようなＡＳＩＣは、ＣＭＯＳ（相補型金属酸化膜半導体）、ＴＴＬ（トランジスタ−トランジスタ論理回路）、ＶＬＳＩ（超大規模システム統合）または別の適当な構成で実行されるものであってもよい。その他の選択肢は、デジタル信号処理チップ（ＤＳＰ）、ディスクリート回路（抵抗器、コンデンサ、ダイオード、インダクタおよびトランジスタのような）、フィールドプログラマブル・ゲートアレイ（ＦＰＧＡ）、プログラマブル・ロジックアレー（ＰＬＡ）、プログラマブル論理デバイス（ＰＬＤ）を含む。

当然のことながら、ある形式の処理コア（コンピュータのＣＰＵのような）で実行されるソフトウェアプログラムまたはソフトウェアモジュールをサポートするものとして、またはサポートするために、あるいは、機械またはコンピュータ可読媒体上で、またはそれら媒体内で実行または実現するために、本実施形態を使用することができる。機械可読媒体は、機械、例えば、コンピュータにより読み取り可能な形式で情報を記憶または送信する任意の機構を含む。例えば、機械可読媒体は、リードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリデバイス、電気、光学、音響、または搬送波、赤外線信号、デジタル信号などの伝搬信号のその他の形式、または情報を記憶または伝送するのに適した任意のその他のタイプの媒体を含む。

当業者によって理解されるように、本発明は、その趣旨または本質的な特徴から逸脱しない範囲で、その他の特定の形式で具現化することもできる。同様に、具体的な呼称および部材の区分、特徴、特性およびその他の態様は、必須または重要なものではなく、本発明またはその特徴を実行する機構は、異なる名称、区分および／または形式を有することが可能である。すなわち、本発明の開示は、本発明の範囲を限定することを目的とするものではなく、例示を目的とするものであり、本発明の範囲は、以下の特許請求の範囲に示されるものである。

Claims

自動音声抽出システムにおいてノイズを無視して音声を対象とする方法であって、
自動音声抽出システムに音声信号を受け入れるステップと、
前記音声信号の基本周波数を識別するステップと、
前記基本周波数の１またはそれ以上の高調波を識別するステップと、
前記基本周波数および前記１またはそれ以上の高調波へのフィルタを適用して、１またはそれ以上の高調波のみの信号を生成するステップと、
前記１またはそれ以上の高調波のみの信号において振幅変調を行うステップと、
前記１またはそれ以上の高調波のみの信号について、１またはそれ以上の信号対ノイズ比を作成するステップと、
前記１またはそれ以上の高調波のみの信号のうち、信号対ノイズ比が閾値の大きさ未満に低下した１またはそれ以上の信号を無視するステップと、
前記１またはそれ以上の高調波のみの信号のうち、振幅変調が人間の音声に一致しない１またはそれ以上の信号を無視するステップとを備え、
結果として得られた信号が出力されることを特徴とする方法。
請求項１に記載の音声信号の処理方法において、
前記音声信号の基本周波数を識別するステップが、前記音声信号をデジタルフィルタで処理するように構成されたプロセッサを提供するステップをさらに備えることを特徴とする方法。
請求項２に記載の音声信号の処理方法において、
前記デジタルフィルタが、前記音声信号のスペクトル全体にわたって前記音声信号の局所的に最も強いエネルギー量を追跡するように構成された１またはそれ以上の適応狭帯域フィルタを含むことを特徴とする方法。
請求項３に記載の音声信号の処理方法において、
倍音列に一致する局所的に最も強いエネルギー量を選択するとともに、前記基本周波数として、前記局所的に最も強いエネルギー量に関連する周波数を選択するように前記プロセッサを構成するステップをさらに備えることを特徴とする方法。
請求項４に記載の音声信号の処理方法において、
前記倍音列に一致する１またはそれ以上の追加的な局所的に強いエネルギー量を選択するとともに、前記基本周波数の高調波として、前記倍音列と一致する周波数を選択するように前記プロセッサを構成するステップをさらに備えることを特徴とする方法。
請求項３に記載の音声信号の処理方法において、
前記１またはそれ以上の適応狭帯域フィルタを構成するステップが、
推定中心周波数を生成するステップと、
前記推定中心周波数を使用して、前記音声信号の瞬時周波数および振幅を計算し、それによってより正確な中心周波数を提供するステップと、
前記推定中心周波数を前記より正確な中心周波数と置き換えるステップとをさらに備えることを特徴とする方法。
請求項１に記載の音声信号の処理方法において、
前記１またはそれ以上の高調波のみの信号のうち、信号対ノイズ比が閾値の大きさ未満に低下した１またはそれ以上の信号を無視するステップが、
前記基本周波数に中心を有し、次に低い高調波周波数までの実質的に中間から、次に高い高調波周波数までの実質的に中間に及ぶ少なくとも１の広帯域を規定するステップと、
前記基本周波数に中心を有する少なくとも１の狭帯域を規定するステップであって、前記狭帯域の帯域幅が前記広帯域の帯域幅よりも小さいステップと、
前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率を計算するステップと、
前記１またはそれ以上の高調波のみの信号のうち、前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率が閾値よりも高い１またはそれ以上の信号を無視するステップとをさらに備えることを特徴とする方法。
請求項１に記載の音声信号の処理方法において、
前記１またはそれ以上の高調波のみの信号のうち、信号対ノイズ比が閾値の大きさ未満に低下した１またはそれ以上の信号を無視するステップが、
前記基本周波数に基づいて、前記１またはそれ以上の高調波の周波数を推定するステップと、
前記基本周波数の１またはそれ以上の高調波を識別するステップで観測された１またはそれ以上の高調波の実際の周波数を判定するステップと、
前記１またはそれ以上の高調波の前記推定される周波数と前記１またはそれ以上の高調波の実際の周波数との間の偏差値を判定するステップと、
前記１またはそれ以上の高調波のみの信号のうち、偏差値が予め設定された値を超える１またはそれ以上の信号を無視するステップとをさらに備えることを特徴とする方法。
請求項１に記載の音声信号の処理方法において、
前記１またはそれ以上の高調波のみの信号のうち、信号対ノイズ比が閾値の大きさ未満に低下した１またはそれ以上の信号を無視するステップが、
前記基本周波数に中心を有し、次に低い高調波周波数までの実質的に中間から、次に高い高調波周波数までの実質的に中間に及ぶ少なくとも１の広帯域を規定するステップと、
前記基本周波数に中心を有する少なくとも１の狭帯域を規定するステップであって、前記狭帯域の帯域幅が前記広帯域の帯域幅よりも小さいステップと、
前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率を計算するステップと、
前記１またはそれ以上の高調波のみの信号のうち、前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率が閾値よりも高い１またはそれ以上の信号を無視するステップと、
前記基本周波数に基づいて、前記１またはそれ以上の高調波の周波数を推定するステップと、
前記基本周波数の１またはそれ以上の高調波を識別するステップで観測された１またはそれ以上の高調波の実際の周波数を判定するステップと、
前記１またはそれ以上の高調波の前記推定される周波数と前記１またはそれ以上の高調波の実際の周波数との間の偏差値を判定するステップと、
前記１またはそれ以上の高調波のみの信号のうち、偏差値が予め設定された値を超える１またはそれ以上の信号を無視するステップとをさらに備えることを特徴とする方法。
請求項１に記載の音声信号の処理方法において、
前記１またはそれ以上の高調波のみの信号のうち、振幅変調が人間の音声に一致しない１またはそれ以上の信号を無視するステップが、
１ヘルツから１６ヘルツの範囲を有する帯域通過フィルタに、前記振幅変調を通過させるステップをさらに備えることを特徴とする方法。
実行可能コンピュータ可読媒体であって、
実行時に請求項１に記載の方法を行う命令が記憶されていることを特徴とする実行可能コンピュータ可読媒体。
自動音声抽出のために音声信号を処理する装置であって、
自動音声抽出システムに音声信号を受け入れるように構成された音声信号入力デバイスと、
メモリデバイスおよび前記音声信号入力デバイスに動作可能に接続され、複数の処理モジュールを含むプロセッサとを備え、
前記複数の処理モジュールが、
前記音声信号の基本周波数を識別するように構成された高調波周波数識別部と、
前記基本周波数および前記１またはそれ以上の高調波へのフィルタを適用して、１またはそれ以上の高調波のみの信号を生成するように構成されたフィルタアプリケータと、
１またはそれ以上の高調波のみの信号において振幅変調を実行するように構成されたモジュレータと、
１またはそれ以上の高調波のみの信号について、１またはそれ以上の信号対ノイズ比を作成するように構成された出力比コンストラクタと、
前記１またはそれ以上の高調波のみの信号のうち、信号対ノイズ比が閾値の大きさ未満に低下した１またはそれ以上の信号を無視するように構成された低出力高調波リムーバと、
前記１またはそれ以上の高調波のみの信号のうち、振幅変調が人間の音声に一致しない１またはそれ以上の信号を無視するように構成された非音声高調波リムーバとを備え、処理信号を出力することを特徴とする装置。
請求項１２に記載の装置において、
前記フィルタアプリケータが、前記音声信号のスペクトル全体にわたって前記音声信号の局所的に最も強いエネルギー量を追跡するように構成された１またはそれ以上の適応狭帯域フィルタで構成されていることを特徴とする装置。
請求項１３に記載の装置において、
前記フィルタアプリケータが、倍音列に一致する局所的に最も強いエネルギー量を選択し、前記基本周波数として、前記局所的に最も強いエネルギー量に関連する周波数を選択するように構成されていることを特徴とする装置。
請求項１４に記載の装置において、
前記フィルタアプリケータが、前記倍音列に一致する１またはそれ以上の追加的な局所的に強いエネルギー量を選択し、前記基本周波数の高調波として、前記倍音列と一致する周波数を選択するように構成されていることを特徴とする装置。
請求項１２に記載の装置において、
前記低出力高調波リムーバが、
前記基本周波数に中心を有し、次に低い高調波周波数までの実質的に中間から、次に高い高調波周波数までの実質的に中間に及ぶ少なくとも１の広帯域を規定するステップと、
前記基本周波数に中心を有する少なくとも１の狭帯域を規定するステップであって、前記狭帯域の帯域幅が前記広帯域の帯域幅よりも小さいステップと、
前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率を計算するステップと、
前記１またはそれ以上の高調波のみの信号のうち、前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率が閾値よりも高い１またはそれ以上の信号を無視するステップとを行うようにさらに構成されていることを特徴とする装置。
請求項１２に記載の装置において、
前記低出力高調波リムーバが、
前記基本周波数に基づいて、前記１またはそれ以上の高調波の周波数を推定するステップと、
前記基本周波数の１またはそれ以上の高調波を識別するステップで観測された１またはそれ以上の高調波の実際の周波数を判定するステップと、
前記１またはそれ以上の高調波の前記推定される周波数と前記１またはそれ以上の高調波の実際の周波数との間の偏差値を判定するステップと、
前記１またはそれ以上の高調波のみの信号のうち、偏差値が予め設定された値を超える１またはそれ以上の信号を無視するステップとを行うようにさらに構成されていることを特徴とする装置。
請求項１２に記載の装置において、
前記低出力高調波リムーバが、
前記基本周波数に中心を有し、次に低い高調波周波数までの実質的に中間から、次に高い高調波周波数までの実質的に中間に及ぶ少なくとも１の広帯域を規定するステップと、
前記基本周波数に中心を有する少なくとも１の狭帯域を規定するステップであって、前記狭帯域の帯域幅が前記広帯域の帯域幅よりも小さいステップと、
前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率を計算するステップと、
前記１またはそれ以上の高調波のみの信号のうち、前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率が閾値よりも高い１またはそれ以上の信号を無視するステップと、
前記基本周波数に基づいて、前記１またはそれ以上の高調波の周波数を推定するステップと、
前記基本周波数の１またはそれ以上の高調波を識別するステップで観測された１またはそれ以上の高調波の実際の周波数を判定するステップと、
前記１またはそれ以上の高調波の前記推定される周波数と前記１またはそれ以上の高調波の実際の周波数との間の偏差値を判定するステップと、
前記１またはそれ以上の高調波のみの信号のうち、偏差値が予め設定された値を超える１またはそれ以上の信号を無視するステップとを行うようにさらに構成されていることを特徴とする装置。
請求項１２に記載の装置において、
前記非音声高調波リムーバが、
１ヘルツから１６ヘルツの範囲を有する帯域通過フィルタに振幅変調を通過させることにより、前記１またはそれ以上の高調波のみの信号のうち、１またはそれ以上の信号を無視するように構成されていることを特徴とする装置。
自動音声抽出のために音声信号を処理する方法であって、
自動音声抽出システムに音声信号を受け入れるステップと、
前記音声信号の基本周波数を識別するステップと、
前記基本周波数の１またはそれ以上の高調波を識別するステップと、
前記基本周波数および前記１またはそれ以上の高調波へのフィルタを適用して、１またはそれ以上の高調波のみの信号を生成するステップと、
前記１またはそれ以上の高調波のみの信号において振幅変調を行うステップと、
前記１またはそれ以上の高調波のみの信号について、１またはそれ以上の信号対ノイズ比を作成するステップと、
前記１またはそれ以上の高調波のみの信号のうち、信号対ノイズ比が閾値の大きさ未満に低下した１またはそれ以上の信号を無視するステップとを備え、このステップが、
前記基本周波数に中心を有し、次に低い高調波周波数までの実質的に中間から、次に高い高調波周波数までの実質的に中間に及ぶ少なくとも１の広帯域を規定するステップと、
前記基本周波数に中心を有する少なくとも１の狭帯域を規定するステップであって、前記狭帯域の帯域幅が前記広帯域の帯域幅よりも小さいステップと、
前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率を計算するステップと、
前記１またはそれ以上の高調波のみの信号のうち、前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率が閾値よりも高い１またはそれ以上の信号を無視するステップと、
前記基本周波数に基づいて、前記１またはそれ以上の高調波の周波数を推定するステップと、
前記基本周波数の１またはそれ以上の高調波を識別するステップで観測された１またはそれ以上の高調波の実際の周波数を判定するステップと、
前記１またはそれ以上の高調波の前記推定される周波数と前記１またはそれ以上の高調波の実際の周波数との間の偏差値を判定するステップと、
前記１またはそれ以上の高調波のみの信号のうち、偏差値が予め設定された値を超える１またはそれ以上の信号を無視するステップとを含み、
当該方法がさらに、
前記１またはそれ以上の高調波のみの信号のうち、振幅変調が人間の音声に一致しない１またはそれ以上の信号を無視するステップを備え、
結果として得られた信号が出力されることを特徴とする方法。