JP2020204772A - 高調波ノイズ源からのノイズを抑制する方法、記憶媒体及び装置 - Google Patents

高調波ノイズ源からのノイズを抑制する方法、記憶媒体及び装置 Download PDF

Info

Publication number
JP2020204772A
JP2020204772A JP2020128283A JP2020128283A JP2020204772A JP 2020204772 A JP2020204772 A JP 2020204772A JP 2020128283 A JP2020128283 A JP 2020128283A JP 2020128283 A JP2020128283 A JP 2020128283A JP 2020204772 A JP2020204772 A JP 2020204772A
Authority
JP
Japan
Prior art keywords
contour
point
threshold
amplitude
exemplary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020128283A
Other languages
English (en)
Other versions
JP7025089B2 (ja
Inventor
マッカラム マシュー
Mccallum Matthew
マッカラム マシュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nielsen Co US LLC
Original Assignee
Nielsen Co US LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nielsen Co US LLC filed Critical Nielsen Co US LLC
Publication of JP2020204772A publication Critical patent/JP2020204772A/ja
Application granted granted Critical
Publication of JP7025089B2 publication Critical patent/JP7025089B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

【課題】高調波ノイズ源からのノイズを抑制する方法、装置及びシステムを提供する。【解決手段】ノイズを抑制する方法は、音声サンプル中の周波数値に関して比較的大きな振幅を表す第1の点を決定するステップと、比較的大きな振幅の第1の点から、閾値内の振幅、周波数、及び位相の値を有する点の第1の輪郭トレースを生成するステップと、比較的大きな振幅の第2の点の閾値内の振幅、周波数及び位相の値を有する点の第2の輪郭トレースを生成するステップと、輪郭トレースの各々に関するパラメータを計算するステップと、パラメータに基づいて、第1又は第2の輪郭トレースがアウトライアを表すかを判定するステップと、輪郭がアウトライア輪郭トレースである旨の判定に応答して、音声サンプルからアウトライア輪郭トレースを除去するステップを含む。【選択図】図3

Description

開示の分野
[0001]本開示は、概して信号処理に関し、より詳細には、高調波ノイズ源からのノイズを抑制する方法及び装置に関する。
背景
[0002]音声のモバイル記録が広まっている。コンサート等のイベントのモバイル記録は、モバイル機器上のマイクを介して行われ、ミュージックID(MusicID)(登録商標)等のメディア認識プラットフォームを用いて記録中に提示されたメディアを後で識別するために用いられてもよい。
制器を実装し得る例示的なプロセッサプラットフォームの模式図である。
図1は、ライブ環境から音声が記録され、処理され、中央設備に提供される音声記録及び処理システムの模式図である。 図2は、図1の高調波ノイズ抑制器の追加の詳細を示したブロック図である。 図3は、音声サンプルに存在する高調波ノイズを抑制する図2の高調波ノイズ抑制器の実装に使用できる例示的な機械可読命令を表すフローチャートである。 図4は、音声サンプルに存在する高調波ノイズを抑制する図2の高調波ノイズ抑制器の実装に使用できる例示的な機械可読命令を表すフローチャートである。 図5は、音声サンプルに存在する高調波ノイズを抑制する図2の高調波ノイズ抑制器の実装に使用できる例示的な機械可読命令を表すフローチャートである。 図6は、音声サンプルに存在する高調波ノイズを抑制する図2の高調波ノイズ抑制器の実装に使用できる例示的な機械可読命令を表すフローチャートである。
図7は、図2の領域変換器により処理された後の音声信号の例示的なスペクトログラムを示した図である。
図8は、図2の輪郭追跡器により生成されたある瞬間の振幅ピークの例示的なプロットを示した図である。
図9は、図2の輪郭追跡器により生成された追跡輪郭の例示的なプロットを示した図である。
図10は、図2のパラメータ計算器により生成された輪郭特性の例示的な分布を示した図である。
図11は、図2の分類器により生成された外れ(outlier、アウトライア)閾値を伴う輪郭特性の例示的な分布を示した図である。
図12は、図2の分類器により生成された元のスペクトログラムに対するアウトライア輪郭を示す例示的なアウトライア輪郭プロットを示した図である。
図13は、図2の分類器により生成され識別されたアウトライアの高調波を含む例示的なアウトライア輪郭プロットを示した図である。
図14は、図2の減算器により生成された音声サンプル全体から減算されるアウトライア輪郭の例示的な減算スペクトルを示した図である。
図15は、図2の合成器により生成された例示的なノイズ抑制されたスペクトルを示した図である。
図3〜図6の命令を実行して、図1及び図2の例示的な高調波ノイズ抑制器を実装し得る例示的なプロセッサプラットフォームの模式図である。
[0014]図面は、原寸に比例していない。
詳細な説明
[0015]近年、モバイル機器の普及の高まりによって、個人がいつでも簡単に音声を記録できるようになった。例えば、多くの個人は、モバイル機器を使用して、コンサート等の娯楽イベントで音声を記録することを選ぶ。これらのイベントで記録された音声は、音声記録に基づいて個人に提示されているメディアを決定することに関心があるメディア計測機関にとって有用となり得る。
[0016]従来、メディア計測機関は、透かしを利用してメディアを識別可能である。このような場合は、メディアの識別情報(例えば、タイトル、アーティスト、アルバム等)を表す1つ又は複数の音声コードがメディアに埋め込まれている可能性がある。この追加又は代替として、透かし又は類似コードがメディアに埋め込まれていない場合は、フィンガープリント又はシグネチャに基づくメディアモニタリング技術が用いられるようになっていてもよい。シグネチャは、モニタリング時間間隔においてモニタリングメディアの1つ又は複数の固有特性を用いることにより、メディアの実質的に一意のプロキシを生成する。このシグネチャは、(1つ又は複数の)メディア信号の(1つ又は複数の)任意の性状を表す任意の形態(例えば、一連のデジタル値、波形等)であってもよい。本明細書において、音声信号及び/又は音声サンプルという用語は、音を表すデータを指す。音声シグネチャは、大きな振幅を有する音声サンプルの特性等、識別が容易な特定の性状に焦点を当てて生成される場合もある。例えば、遠方の群衆、交通、又は風の一定の背景ノイズ等の小さなノイズは、低振幅の信号しか伝達しないため、大きな振幅の特性に焦点を当てた音声シグネチャには相対的にほとんど影響を及ぼさない。ただし、近くの会話等の他種のノイズは、メディアを適切に表すように音声シグネチャを生成可能な精度に大きな影響を及ぼし得る。さらに、発話は、音声シグネチャの生成に用いられる狭帯域トーン高振幅特性と干渉し得る相当な高調波成分を有することが多い。これらの干渉特性及びシグネチャの作成に寄与する所望の音声サンプルパラメータの両者は、局所的な信号対雑音比が低いエリアにおける前述の低振幅ノイズに通常は焦点を当てた従来のノイズ抑制技術の影響をあまり受けない。このため、ライブの観客がいる環境又は有意なノイズ源がある環境で記録された音声は、信頼性の高い音声シグネチャの生成に利用するのが困難又は不可能となり得る。
[0017]ノイズ又は不要な記録音を抑制する従来の技術では、音声シグネチャの生成に最も重要な音声サンプルの性状に対して、具体的に対処していない。
[0018]本明細書に開示の例示的な方法、装置、システム、及び製造品は、高調波成分を有するノイズを抑制する技術に関する。例えば、これらの技術は、コンサートにおける音声記録から声の影響を抑制するのに利用可能である。いくつかの例において、本明細書に開示の例示的な方法、装置、システム、及び製造品によれば、記録された音声サンプルのノイズ抑制が可能であるとともに、モバイル機器において、ノイズを抑制した音声から音声シグネチャを生成することができる。いくつかの例においては、音声サンプルのノイズ抑制が中央処理設備で行われるが、ここでは音声シグネチャの生成も行われる。他の例において、これらの技術は、その他任意のステップ又はその他任意の状況での実施により、音声サンプルのノイズの影響を抑えることができる。いくつかの例及び構成において、これらの技術は、シグネチャ生成のためのノイズ抑制の実行の追加又は代替として、鮮明な音声記録の生成のためのノイズ抑制に用いられるようになっていてもよい。
[0019]図1は、音声サンプルの高調波ノイズを抑制する本開示の教示内容に従って構成された例示的なシステムの模式図である。図1の例示的なシステム100は、音声サンプルを記録して音声プロセッサ104に送信する(1つ又は複数の)音声記録機器102を具備する。また、音声プロセッサ104は、音声サンプルを増強する高調波ノイズ抑制器106を具備する。そして、音声プロセッサ104は、ノイズが抑制された音声信号をネットワーク108に転送し、例えば中央設備110に音声信号が伝達され、音声信号がさらに処理又は利用されるようになっていてもよい。
[0020]図1の図示例の例示的な音声記録機器102は、マイクに向けられた音声を取り込み、当該音声を表すデジタル音声信号を生成する機器である。音声をいつでも記録できる任意数の音声記録機器102が存在していてもよい。いくつかの例においては、音声記録機器102のいずれかがアナログ機器であり、これによって、記録音声に基づくデジタル信号が後で生成されるようになっていてもよい。いくつかの例において、音声記録機器102は、携帯電話等の別のモバイル機器の一部であってもよい。他の例において、音声記録機器102は、音声記録を主目的とした独立型機器であってもよい。いくつかの例において、音声記録機器102は、モバイル機器でなくてもよく、常設の専門的音声記録装備構成であってもよい。例示的な音声記録機器102は、音声プロセッサ104と連通して、音声記録機器102に記録された音声の処理を実行する。いくつかの例において、音声プロセッサ104は、音声記録機器102と同じモバイル機器の構成要素であってもよい。他の例において、ネットワーク108等のネットワークを介して、記録音声が別の機器又は設備に送信されるようになっていてもよいし、いくつかの例においては、物理的なハードウェア接続(例えば、イーサネット(登録商標)、シリアルATA、USB等)又は他の方法によって送信されるようになっていてもよい。このようないくつかの例において、ライブイベントの観客は、音声記録機器102を持ち運び、ネットワーク108を介して、記録音声信号を音声プロセッサ104に伝達するようにしてもよい。
[0021]図1の図示例の例示的な音声プロセッサ104は、音声サンプルの操作及び修正を行うように構成されている。例示的な音声プロセッサ104は、モバイル機器の一部であってもよく、音声記録機器102を追加で具備していてもよい。いくつかの例において、音声プロセッサ104は、中央設備110又はその他任意の場所において、音声記録機器102と同じモバイル機器上に位置付けられていてもよい。音声プロセッサ104は、本開示の教示内容に従って高調波ノイズ抑制を実行する高調波ノイズ抑制器106を具備する。いくつかの例において、高調波ノイズ抑制器106は、単一の構成要素とは対照的に、複数の構成要素であってもよい。いくつかの例において、音声プロセッサ104は、等化、圧縮、標準ノイズ抑制、フィルタリング、又はその他任意の音声処理技術を実装する機能を追加で含む。
[0022]図1の図示例の例示的な高調波ノイズ抑制器106は、音声サンプルからの高調波ノイズを抑制可能な構成要素である。例示的な高調波ノイズ抑制器106は、音声入力信号を受信し、当該信号に対するノイズ抑制を行って、ノイズを抑制した出力信号を生成する。高調波ノイズ抑制器106は、フーリエ変換等によって音声サンプルを時間領域から周波数領域に変換できるほか、逆フーリエ変換等によって同じ演算を逆方向に実行するように構成されている。例示的な高調波ノイズ抑制器106は、代表数の周波数値で比較的大きな振幅の点を決定し、決定した大きな振幅の点の一部又は全部に関する局在的な高振幅信号を表す輪郭を生成するように構成されている。例えば、比較的大きな振幅の点は、特定の周波数帯域内の最高振幅点であってもよい。本明細書において、比較的大きな振幅を表す点は、ピークとも称する。高調波ノイズ抑制器106は、輪郭の一部又は全部に関して、音声サンプルの重要な特徴の輪郭識別を関連する高調波へと伝搬するようにさらに構成されている。例示的な高調波ノイズ抑制器106は、高調波輪郭を決定するプロセスにおいて、信号が記録された基本周波数を決定し、この基本周波数に基づいて、特定数の高調波周波数における関連輪郭を解析するようにしてもよい。この追加又は代替として、例示的な高調波ノイズ抑制器106は、音声サンプル及び決定した輪郭のパラメータを決定するように構成されていてもよい。いくつかの例において、例示的な高調波ノイズ抑制器106が決定可能なパラメータとしては、例えば輪郭の位相コヒーレンス、個々の輪郭上の平均及び最大振幅、輪郭の振幅パラメータの標準偏差、各輪郭におけるピッチ移動の割合、音声サンプル及び輪郭セットにおける最大及び平均振幅、並びにその他任意の音声サンプルパラメータが挙げられる。例示的な高調波ノイズ抑制器106は、決定したパラメータに基づいて、アウトライアとなる輪郭をさらに決定することができる。例示的な高調波ノイズ抑制器106は、アウトライアを表すように決定された音声サンプルの部分を音声サンプルから減算するように構成されている。この減算は、時間領域又はある大きさで又は複素周波数領域表現のいずれかで行うことができる。その後、例示的な高調波ノイズ抑制器106は、音声サンプルを合成して、時間領域のノイズ抑制音声サンプルを生成する。例示的な高調波ノイズ抑制器106は、ハードウェア、ファームウェア、ソフトウェア、又はこれらの任意の組み合わせで実装されていてもよい。
[0023]図1の図示例の例示的なネットワーク108は、インターネットである。ネットワーク108は、ノイズが抑制された音声出力信号、そのノイズ抑制音声出力信号に基づいて生成された音声シグネチャ、及び音声プロセッサ104により生成、処理、又は送信されたその他任意のデータの通信媒体として機能する。いくつかの例において、ネットワーク108は、音声記録機器102及び音声プロセッサ104を具備するモバイル機器で生成された音声シグネチャを中央設備110に伝達する。この追加又は代替として、音声プロセッサ104及び中央設備110を通信可能に連結するその他任意のネットワークが挙げられる。いくつかの例において、ネットワーク108は、音声プロセッサ104、中央設備110、及び音声記録機器102の連結等、その他任意の追加又は代替要素を連結していてもよい。いくつかの例において、ネットワーク108は、他の微小なネットワークの組み合わせであり、これらはすべて、パブリック又はプライベートが可能である。各要素は、1つ又は複数の中間構成要素を通じた直接又は間接的な通信であり、直接且つ物理的(例えば、有線)通信及び/又は継続的な通信を要さないものの、周期的又は非周期的な間隔での選択的な通信のほか、1回限りのイベントを含む場合に、通信可能に連結されたものと称する。
[0024]例示的な中央設備110は、ノイズが抑制された音声サンプル及び/又はそのノイズ抑制音声サンプルに基づいて生成された音声シグネチャを受信して利用する。いくつかの例において、中央設備110は、観客計測機関(例えば、The Nielsen Company(US)LLC)及び/又は自動コンテンツ認識サービスプロバイダ(例えば、Gracenote,Inc.)である。いくつかの例において、中央設備110が実行するタスク(例えば、音声シグネチャの生成)は、1つの物理的設備で行われるようになっていてもよい。いくつかの例において、これらのタスクは、複数の設備で行われるようになっていてもよい。代わりに、いくつかの例示的なシステムにおいて、音声シグネチャの生成は、モバイル機器に内蔵され、音声記録機器102を追加で具備し得る音声プロセッサ104で行われるようになっていてもよい。これらの要素は、任意の組み合わせ又は順序で利用されるようになっていてもよい。
[0025]動作時、音声記録機器102は、音声を記録して、デジタルフォーマットの音声信号を音声プロセッサ104に送信する。音声プロセッサ104は、音声信号を処理するが、高調波ノイズ抑制器106による処理で信号から高調波ノイズを抑制することを含む。その後、ネットワーク108を介して、ノイズが抑制された音声信号及び/又はそのノイズ抑制音声信号に基づいて生成された音声シグネチャが中央設備110に送信される。
[0026]高調波ノイズ抑制器106の例示的な一実施態様の追加の詳細を与えるブロック図を図2に示す。例示的な高調波ノイズ抑制器106は、音声サンプル(例えば、離散信号)を受信して、音声サンプルを処理することにより、高調波ノイズを含むノイズを抑制することができる。例えば、高調波ノイズ抑制器106は、コンサート等のカジュアルな会場での歌の音声記録に対して、近くの会話が及ぼす影響を抑制することができる。高調波ノイズ抑制プロセスの後、高調波ノイズ抑制器106は、ノイズを抑制した音声信号を音声プロセッサ104の別の構成要素に伝達して、音声シグネチャを生成することができる。
[0027]図2に示すように、図示の例示的な高調波ノイズ抑制器106は、領域変換器202、輪郭追跡器204、パラメータ計算器206、分類器208、減算器210、及び合成器212を含み、それぞれが音声信号と相互作用する。いくつかの例においては、音声信号がこれらの要素により連続して処理される。図示の例示的な高調波ノイズ抑制器106は、は、データベース214を追加で具備する。
[0028]図2の図示例の例示的な領域変換器202は、入力音声信号を周波数領域に移して音声信号の解析及び処理を行うステップを実行する。例示的な領域変換器202は、適当なサンプリングレートで音声信号を再サンプリングすることにより、短時間フーリエ変換(STFT)を実行する。例えば、音声信号が8kHzのサンプリングレートで再サンプリングされるようになっていてもよい。いくつかの例において、データセットの再サンプリングは、マトラボ(MATLAB)(登録商標)の「resample」等の機能を用いて実行されるようになっていてもよい。短時間フーリエ変換に適したサンプルサイズに音声信号を変換可能な任意既知の再サンプリング様式が用いられるようになっていてもよい。その後、例示的な領域変換器202は、短時間フーリエ変換(STFT)を実行することにより、時間領域の音声信号を周波数領域に変換する。STFTは、以下の式(1)に従って記述することができる。

式(1)
[0029]上式(1)の図示例において、変数Mはウィンドウ間のサンプルの増分を表し、変数Nはウィンドウイング長を表し、変数Kは離散フーリエ変換における周波数ビン数を表し、変数kは周波数ビン指数を表し、変数nは時間指数を表し、x[n]は記録されたデジタル音声信号を表し、w[n]は任意のウィンドウイング関数を表し、X[k,m]は結果としてのSTFTを表す。
[0030]例示的な領域変換器202は、50ミリ秒のウィンドウイング長を用いたハミング窓関数で短時間フーリエ変換を実行する。この50ミリ秒のウィンドウイング長は、例示的な領域変換器202が入力音声信号を8kHzのサンプリングレートで再サンプリングした場合のウィンドウ当たりの40サンプルに対応する。他の例においては、その他任意のウィンドウイング長のその他任意のウィンドウイング関数(例えば、ハニング窓、ガウス窓等)が利用されるようになっていてもよい。例示的な領域変換器202は、例示的な8kHzのサンプリングレートで400サンプルを表す2ミリ秒に設定されたウィンドウ間の経過時間で短時間フーリエ変換を追加実行する。例示的な領域変換器202は、1600サイズの高速フーリエ変換(FFT)を利用する。例示的な8kHzのサンプリングレートにおいて、このFFTレートは、5Hzの周波数スペクトル分解能を表す。他の例においては、ウィンドウ間の任意の経過時間及び任意のFFTサイズが利用されるようになっていてもよい。いくつかの例においては、入力音声信号を周波数領域に変換してさらに処理するその他任意の種類の変換が用いられるようになっていてもよい。領域変換器202による領域変換の後は、図7に示すように、音声信号をスペクトログラムで表すことができる。スペクトログラムは、音声信号の周波数及び時間を表示し、音声信号の振幅が陰影の暗部により表される。例えば、図7の図示例のスペクトログラム上の領域702において、暗い曲線は、約5〜6秒の300〜500Hzの範囲の高振幅信号を示す。いくつかの例においては、領域変換器202の完了した領域変換、中間処理、及び処理結果がデータベース214に格納される。他の例において、これらの要素は、一時的メモリ又はその他任意のアクセス可能なメモリに格納される。
[0031]図2の図示例の例示的な輪郭追跡器204は、信号の顕著な特徴の効率的で簡単な解析及びノイズを表す部分の決定のため、信号の高振幅部分を表す輪郭を生成する。例示的な輪郭追跡器204は、信号の最高振幅点を決定することによって、輪郭の追跡を開始する信号の部分を決定する。いくつかの例において、輪郭追跡器204は、特定レベルの精度(例えば、1Hzごと)で、信号のすべての周波数における比較的大きな振幅の点を決定する。したがって、輪郭追跡器204は、音声サンプルの代表数の周波数値に関して、比較的大きな振幅の点を決定する。例えば、輪郭追跡器204は、図7の例に示すスペクトログラムで表される信号に関して、図8のある瞬間のピークプロットに示すように、比較的大きな振幅の点(例えば、ピーク)を決定するようにしてもよい。図8のある瞬間のピークプロットの図示例において、領域802は、当該領域中の大量の比較的大きな点(例えば、ある瞬間に存在するピーク)のため、暗く見える。これに対応して、図7の例示的なスペクトログラムは、高振幅信号の領域を領域702に示す。例示的な輪郭追跡器204は、以下の式(2)に従って記述するように、2つの連続するSTFTフレーム間の位相差を計算することによって、より正確なピーク周波数をさらに計算する。

式(2)
[0032]上式(2)の図示例において、変数ωk,mは正確なピーク周波数を表し、変数kは元の大きさピークの周波数ビン指数を表し、値KはSTFT表現での周波数ビン数を表し、∠(.)は複素数の偏角を表し、mはSTFT表現での時間ウィンドウ指数を表し、MはSTFTでの連続するウィンドウ間のサンプルの増分を表し、X[k,m]は複素STFT領域信号を表す。
[0033]輪郭追跡器204は、式(3)及び式(4)に従って、振幅及び位相のより正確な値を追加で生成することにより、離散表現とは対照的に、周波数値の連続範囲に位置付け可能なデータセットを求める。
φk,m=∠X[k,m]+∠W(ωk,m) 式(3)

式(4)
[0034]上式(3)及び上式(4)の図示例において、変数φk,mはより正確な位相を表し、∠(.)は複素数の偏角を表し、|.|は複素数の大きさを表し、kは周波数ビン指数を表し、mは時間ウィンドウ指数を表し、X[k,m]は記録音声信号の複素STFTを表し、W(ωk,m)はピークの正確な連続周波数箇所ωk,mでサンプリングされたX[k,m]のSTFTに関するウィンドウイング関数の離散時間フーリエ変換を表す。
[0035]そして、例示的な輪郭追跡器204は、瞬間のピークを利用して、高振幅信号を表す連続信号データに対応した輪郭を生成する。すべての瞬間のピークについて輪郭を決定する時間及びリソース集約的なプロセスを回避するため、例示的な輪郭追跡器204は、瞬間のピークの特定割合についてのみ輪郭を追跡するように構成されている。例えば、ピーク輪郭追跡プロセスは、輪郭の追跡に瞬間のピークの40%が使用されたら終了となり得る。いくつかの例においては、一実施態様の必要な精度及び処理速度に基づいて、任意の方法により、追跡する適当な数の輪郭を決定するようにしてもよい。最も顕著な点の輪郭を最初に追跡するため、例示的な輪郭追跡器204は、振幅の降順にピークの輪郭を追跡する。例えば、輪郭追跡器204は、最高振幅のデータ点の輪郭を追跡することから始める。この追跡が完了したら、例示的な輪郭追跡器204は、次に大きな振幅のピークを識別し、上述の停止条件が満たされるまで、輪郭の追跡を進める。他の例においては、任意の考え得る順序でピークを識別して追跡する任意の方法が利用されるようになっていてもよい。
[0036]輪郭追跡を開始するピークが選択されると、例示的な輪郭追跡器204は、個々のSTFTフレームによる前後進及び過去の点からの許容距離内に別の高振幅データ点が存在するかの判定によって、輪郭を追跡する。例示的な輪郭追跡器204には、ある点を比較的大きな振幅の点(例えば、ピーク)と考え得る閾値を規定する様々なパラメータが設定されている。例えば、輪郭追跡器204は、ピークと考えられる如何なる点の振幅も、音声サンプルの最大スペクトル振幅全体の0.00001の割合以上が必要となるように構成されていてもよい。この全体的な振幅要件のほか、例示的な輪郭追跡器204には、前後進して別のピークを見つける場合に、位相、周波数、及び振幅の許容範囲の逸脱のパラメータが設定されている。例えば、例示的な輪郭追跡器204の一実施態様において、隣接するピーク間の周波数の許容し得る変化は、STFT解析において特定されるウィンドウ帯域幅内である必要がある。また、連続するピーク間の絶対複素距離は、過去のピークの振幅の1.0倍以内である必要がある。他の例において、これらのパラメータは、程度の差こそあれ、必要に応じて選択的となるように構成されていてもよい。
[0037]また、例示的な輪郭追跡器204には、輪郭追跡が始まる比較的大きな振幅の最初の点に対して輪郭中の任意のピークの最大許容低下を規定するパラメータが設定されている。例えば、輪郭追跡器204は、比較的大きな振幅の最初の点の下方35%以上の振幅を有するピークのみを輪郭の一部とし得るように構成されていてもよい。また、例示的な輪郭追跡器204は、輪郭の最小長さが40ミリ秒、最大長さが1秒であることを要する。輪郭追跡が終わった場合に輪郭追跡器204が示す上記又は他の要件のいずれも満たさない輪郭はクリアされ、輪郭追跡プロセスは、音声信号中の2番目に大きな振幅ピークに移動して継続される。或いは、輪郭追跡プロセスは、比較的大きな振幅のその他任意の識別点で継続されるようになっていてもよい。輪郭に含まれる輪郭追跡器204の要件を満たすデータ点については、信号対雑音比がさらに計算される。例えば、輪郭中のすべての点について2乗ピーク振幅値及び2乗複素距離値を累積することにより、信号対雑音比を計算可能である。そして、輪郭のすべての振幅値の平均2乗値を輪郭上のすべての複素距離値の平均2乗値で除算する。例えば、振幅差の平均2乗値は、以下の式(5)に従って記述可能である。

式(5)
[0038]上式(5)の図示例において、変数k及びsは正確な振幅、周波数、又は位相が計算されたSTFT周波数ビンを表し、変数mは対応する時間ウィンドウ指数を表し、μは追跡時のSTFTフレームのステップを表し(+veが未来、−veが過去)、Ak,mはピークについて計算された正確な振幅を表し、φk,mはピークについて計算された正確な位相を表し、ωs,mは時間ウィンドウmで周波数ビンsについて計算された正確な周波数を表し、MはSTFTウィンドウ間のサンプルの増分を表す。
[0039]例示的な輪郭追跡器204は、不要な輪郭を検討対象から除外するための最小の信号対雑音比を追加で有していてもよい。例えば、輪郭追跡器204は、信号対雑音比が少なくとも1であることを要する場合がある。他の例において、輪郭追跡器204には、任意の要件が設定されていてもよく、本明細書に開示の例示的な要件の如何なる組み合わせ又は個々の実施態様が実装されるようになっていてもよい。
[0040]例示的な輪郭追跡器204は、輪郭の一部となるフレームの要件を満たす如何なる信号データ点も持たないSTFTフレームに遭遇したら、次のフレームに進んで、要件を満たす如何なるデータ点も持たない連続フレームの数をモニタリングするカウンタをインクリメントする。例示的な輪郭追跡器204には、スキップSTFTフレームの最大数が設定されている。例えば、ピーク間のスキップSTFTフレームの最大数は、10フレームとなるように構成されていてもよい。本例において、カウンタが10に達した場合、特定の輪郭の追跡は反対方向に進むように切り替わり、高振幅の最初の点から再び開始となる。この反対方向でもスキップSTFTフレームの最大数に再び達した場合は、現在の輪郭の追跡が終了となる。
[0041]最高振幅の信号のデータ点に基づく順序での輪郭追跡のほか、例示的な輪郭追跡器204は、高調波に関する輪郭の追跡を実行する。例えば、図2の図示例の輪郭追跡器204は、輪郭に関する本明細書に開示のすべての要件(例えば、最小雑音比要件、最小及び最大長要件等)を満たした輪郭の高調波に関する輪郭を見つける。いくつかの例において、例示的な輪郭追跡器204は、高調波輪郭を決定する前に、所与の輪郭の基本周波数を決定することによって、このプロセスを開始するようにしてもよい。いくつかの例において、基本周波数は、過去に追跡した輪郭を一組の整数で除算して潜在的な基本輪郭を計算することにより決定される。例えば、過去に追跡した輪郭は、1〜5の整数で除算されるようになっていてもよい。その後、輪郭内のすべてのSTFTビン及びその多くの高調波において、潜在的な基本輪郭ごとにSTFTの平均振幅が計算される。例えば、平均振幅は、STFTのナイキスト周波数未満の周波数において、これらすべての高調波で計算されるようになっていてもよい。その後、最高平均振幅の潜在的な輪郭が基本周波数輪郭として選択されるようになっていてもよい。例示的な輪郭追跡器204は、基本輪郭(本明細書に開示の技術を用いてピークから追跡した輪郭)を利用して、高調波に関する輪郭を決定する。例示的な輪郭追跡器204は、基本輪郭が特定の周波数範囲内となることを求めるように構成されていてもよい。例えば、輪郭追跡器204は、基本輪郭が80Hz〜450Hzの周波数範囲内となることを求めるようにしてもよい。或いは、高調波輪郭の発見及び追跡を進めるのが適当かを判定するのに、如何なる要件が設定されるようになっていてもよい。いくつかの例においては、高調波追跡の初期化に際して、輪郭追跡器204は、輪郭追跡器204により輪郭を追跡する高調波周波数の数を追跡する別のカウンタを利用する。例示的な輪郭追跡器204は、高調波周波数での所与数の輪郭が追跡された後、高調波に関する輪郭の追跡を停止するように構成可能である。例示的な輪郭追跡器204は、所与の高調波次数における最大振幅の点を見つけて、新たな輪郭の追跡を開始する。例示的な輪郭追跡器204には、輪郭のすべてのピークが含まれるべき周波数範囲閾値が設定されていてもよい。例えば、輪郭追跡器204は、高調波輪郭のすべてのピークが基本輪郭周波数の整数高調波次数の100Hz以内であることを求めるように構成されていてもよい。所与の高調波次数における最高振幅の点が決まり、この点が周波数範囲閾値及びその他任意の要件内に含まれる場合は、本明細書に開示の方法を用いて輪郭が追跡される。輪郭追跡が完了したら、例示的な輪郭追跡器204は、例示的な輪郭追跡器204により設定された長さ要件に高調波輪郭が含まれるか等の付加的な条件を確認する。例えば、高調波輪郭は、基本輪郭の前後いずれかの200ミリ秒以下の時間だけ延びるように求められていてもよい。他の例においては、高調波輪郭が基本輪郭の高調波を表すように、如何なる要件が実施されるようになっていてもよい。
[0042]図2の図示例の例示的な輪郭追跡器204は、設定された停止条件(例えば、輪郭のある瞬間のピークの40%及びその許容可能なすべての高調波の追跡)に達したら、輪郭セットをデータベース214に格納する。いくつかの例において、例示的な輪郭追跡器204は、輪郭が生成され、当該輪郭追跡器204により課されたすべての要件を満たしたものと判定された場合、これらをデータベース214に個別に格納する。図7のスペクトログラム及び図8のある瞬間のピークプロットの同じ音声信号の追跡輪郭一式の図示例を図9に与える。例示的な輪郭902aは、本明細書に開示の方法及び技術を用いて追跡された例示的な基本輪郭である。例示的な輪郭902b及び902cは、本明細書に開示の高調波に関する輪郭追跡プロセスを用いて例示的な輪郭追跡器204により追跡された高調波輪郭である。図9の追跡輪郭を図10の分布プロットに追加で表すが、これは、当該輪郭の平均周波数及び所与の輪郭の最大振幅によりプロットされた輪郭を示している。これらの図で用いる例示的な輪郭セットは、図8のある瞬間のピークの40%を起点とする輪郭追跡を表す。
[0043]図2の図示例の例示的なパラメータ計算器206は、輪郭追跡器204により生成された輪郭のパラメータを計算する。パラメータ計算器206は、音声信号のノイズに関連し得るアウトライア輪郭の決定に役立つ輪郭のパラメータを決定する。例えば、パラメータ計算器206は、すべての輪郭の振幅値の平均及び標準偏差を決定するようにしてもよい。この追加又は代替として、パラメータ計算器206は、すべての輪郭の振幅値の中央値及び中央絶対偏差を決定するようにしてもよい。例示的なパラメータ計算器206は、輪郭に属するすべてのピーク又は最も大きい最大振幅輪郭及び最も小さい最大振幅輪郭の一部を除くすべてのピークに基づいて、このような輪郭振幅統計値を決定するようにしてもよい。例えば、平均輪郭振幅の計算に際しては、最高振幅から5%の輪郭及び最小振幅から5%の輪郭が除外されるようになっていてもよい。いくつかの例においては、所与の全輪郭の最大ピーク振幅の使用により、輪郭の平均振幅を計算することができる。この追加又は代替として、位相コヒーレンス、ピッチ移動の割合等の他のパラメータ、又はその他任意のパラメータがパラメータ計算器206により計算されるようになっていてもよい。いくつかの例において、例示的なパラメータ計算器206は、高調波ノイズ抑制器106の分類器208又はその他任意の構成要素と組み合わされていてもよい。
[0044]図2の図示例の例示的な分類器208は、パラメータ計算器206により計算された輪郭パラメータに基づいて、輪郭がアウトライアであるものと判定する。例えば、分類器208は、平均からの統計的距離(例えば、標準偏差数)であるパラメータに基づいてアウトライアを表す輪郭を決定するように構成可能である。例えば、分類器208は、平均からの標準偏差数が5を上回る輪郭がアウトライアであるものと判定するようにしてもよい。他の例において、許容可能なこの分散量は、入力音声の質及び特性(例えば、ノイズからの干渉量、ノイズの種類等)、シグネチャ生成等の用途に必要なノイズ抑制量等の様々な検討事項、又はその他任意の検討事項に基づいて調整されるようになっていてもよい。いくつかの例においては、輪郭がアウトライアを表すかの判定に、ディープニューラルネットワーク又はサポートベクターマシンが用いられるようになっていてもよい。この追加又は代替として、アウトライア輪郭の決定には、分類器208により他のパラメータが用いられるようになっていてもよい。例えば、図2の図示例において、分類器208は、アウトライアと考えられる40超の信号対雑音比を輪郭が有する条件を追加で確認する。
[0045]図7〜図10の例示的な音声信号は、最小の信号対雑音比(SNR)として40、最大の振幅偏差として5.2個の標準偏差という閾値を用いて分類器208によって解析される。SNR及び振幅標準偏差のカットオフと併せて輪郭を図11にプロットする。例示的な領域1102には、信号対雑音比は非常に大きいものの、振幅は本例の閾値(例えば、平均+5.2個の標準偏差)を下回る複数の輪郭を含む。このため、領域1102の輪郭は、アウトライアでないことが決まる。例示的な領域1104においては、本例の輪郭について許容可能な最大振幅(例えば、平均+5.2個の標準偏差)を超える振幅を有する多くの輪郭が存在する。ただし、これら輪郭の信号対雑音比は相対的に低いため、アウトライアとも音声信号からの減算対象とも決まらない。ただし、例示的な領域1106には、信号対雑音比の閾値及び最大振幅の閾値の両者を上回る輪郭を含む。本例において、これらの点は、分類器208によりアウトライアと判定され、後で音声信号から除去される。図11で識別されたアウトライア輪郭を図12の追跡輪郭によってさらに示す。例えば、部分1202には、アウトライアとして識別された輪郭の部分を含む。図12のアウトライア輪郭識別子が重畳されたスペクトログラムにおいては、複数のアウトライア輪郭が存在するものの、これらはすべて、周波数帯域が相対的に低い。図13に示すように、例示的な分類器208は同様にして、アウトライアとなるアウトライア輪郭に対応する高調波輪郭をさらに識別する。このアウトライア輪郭識別子が重畳された例示的なスペクトログラムにおいては、図12の部分1202において過去に識別されたように、基本アウトライア輪郭1302aの高調波1302b及び1302cと併せて、基本アウトライア輪郭1302aがアウトライアとして識別される。別の高調波についても同様に、より大きな周波数帯域に示しているが、これらは、例示的な分類器208によりアウトライアとして識別されるとともにフラグされて、後で音声信号から除去される。
[0046]図2の図示例の例示的な減算器210は、識別されたアウトライアを元の音声信号から減算して、音声信号中のノイズを抑制する。アウトライア輪郭を除去するため、例示的な減算器210は、輪郭の複素短時間スペクトルを生成して音声サンプル全体から減算する。減算の実行に先立って、減算器210は、決定されたすべてのノイズ輪郭の振幅、周波数、及び位相の値を用いて全ノイズスペクトル並びに残りの信号の空きスペクトルを合成する必要がある。その後、ノイズスペクトルを音声信号のSTFT表現から減算して、ノイズ輪郭を除去することができる。図7〜図13において解析した音声信号から消去された性状の一例を図14の図示例に示す。この例示的なスペクトログラムにおいては、図13において識別されたアウトライア輪郭を示す。そして、例示的な減算器210は、これら識別されたアウトライア輪郭を音声サンプルスペクトログラム全体から減算する。図7〜図14において解析したデータセットに対して減算器210が実行した減算の例示的な結果を図15に示す。図示のように、暗い(例えば、高振幅の)輪郭を過去に含んでいたエリアは、この場合は白く(例えば、振幅ゼロに)見える。図示例の例示的な減算器210は、アウトライアと判定された輪郭の振幅を効果的に除外又は軽減する如何なる方法によっても、アウトライア信号を減算するようにしてもよい。
[0047]図2の図示例の例示的な合成器212は、ノイズが抑制された音声信号の合成によって、ノイズ抑制プロセスを完了する。例示的な合成器212は、逆高速フーリエ変換を実行して、信号を周波数領域から時間領域に変換する。結果としての信号は、サンプルの利用によって、音声サンプルにより表されたメディアの(1つ又は複数の)正確な音声シグネチャを生成できる可能性が高くなったノイズ抑制された信号である。いくつかの例において、合成器212は、ノイズ抑制された音声出力信号をネットワーク108に送信する。この追加又は代替として、合成器212は、ノイズ抑制された音声出力信号をデータベース214に保存するようにしてもよい。
[0048]図2の図示例の例示的なデータベース214は、最初の音声サンプルのほか、ノイズが抑制された音声サンプル、及び最初の音声サンプルをそのノイズ抑制音声サンプルに変換する中間プロセスに利用されるデータの格納に用いられる。この追加又は代替として、例示的なデータベース214は、モデル、パラメータ、関数、スクリプト、又は高調波ノイズ抑制器106の処理の実行に必要なその他任意のデータの格納に用いられるようになっていてもよい。例示的なデータベース214は、例えば物理的機器(例えば、フラッシュメモリ、磁気媒体、光学媒体等)、ファームウェア若しくはソフトウェア実施態様(例えば、系統的なデータ格納システム)、又はこれら形態の任意の組み合わせ等、データを格納する一実施態様である。例示的なデータベース214に格納されたデータは、例えばバイナリデータ、カンマ区切りデータ、タブ区切りデータ、構造化照会言語(SQL)構造、オーディオファイル(例えば、mp3、wav等)、マトラボ(MATLAB)(登録商標)データ、又はその他任意のデータ種等、任意のデータフォーマットであってもよい。いくつかの例において、元の音声サンプルデータは、ノイズ抑制された音声サンプルの作成に際して、上書き又は消去されるようになっていてもよい。いくつかの例において、データベース214は、同じ音声記録に属する多くの音声サンプル(例えば、音声シグネチャが生成される同じメディアに関するサンプル)を格納及び系統化するようにしてもよい。データベース214は、図示の例においては単一のデータベースとして示しているが、任意の数及び/又は(1つ又は複数の)種類のデータベースによって実現されていてもよい。
[0049]図2においては、図1の高調波ノイズ抑制器106を実装する例示的な様式を示したが、図2に示す要素、プロセス、及び/又は機器のうちの1つ又は複数がその他任意の方法で組み合わせ、分割、再配置、省略、除外、及び/又は実装されていてもよい。さらに、例示的な領域変換器202、例示的な輪郭追跡器204、例示的なパラメータ計算器206、例示的な分類器208、例示的な減算器210、例示的な合成器212、例示的なデータベース214、及び/又はより概略的に、図1の例示的な高調波ノイズ抑制器106は、ハードウェア、ソフトウェア、ファームウェア、並びに/又はハードウェア、ソフトウェア、及び/若しくはファームウェアの任意の組み合わせにより実装されていてもよい。このため、例えば、例示的なy、例示的なZ、及び/又はより概略的に、例示的な高調波ノイズ抑制器106はいずれも、1つ又は複数のアナログ又はデジタル回路、論理回路、(1つ又は複数の)プログラマブルプロセッサ、(1つ又は複数の)特定用途向け集積回路(ASIC)、(1つ又は複数の)プログラマブル論理デバイス(PLD)、及び/又は(1つ又は複数の)フィールドプログラマブル論理デバイス(FPLD)による実装も可能である。純粋にソフトウェア及び/又はファームウェアの実施態様を網羅するように本特許の装置又はシステムに関する請求項のいずれかを解釈する場合、本明細書において、例示的な領域変換器202、例示的な輪郭追跡器204、例示的なパラメータ計算器206、例示的な分類器208、例示的な減算器210、例示的な合成器212、例示的なデータベース214のうちの少なくとも1つは、ソフトウェア及び/又はファームウェアを含むメモリ、デジタル多用途ディスク(DVD)、コンパクトディスク(CD)、ブルーレイディスク等の非一時的コンピュータ可読記憶装置又はストレージディスクを含むように明示的に規定される。さらに、図1の例示的な高調波ノイズ抑制器106は、図2に示したものの追加又は代替となる1つ又は複数の要素、プロセス、及び/若しくは機器を含むこと並びに/又は図示のありとあらゆる要素、プロセス、及び機器のうちの2つ以上を含むことが可能である。
[0050]図1及び図2の高調波ノイズ抑制器106を実装する例示的な機械可読命令を表すフローチャートを図3〜図6に示す。本例において、機械可読命令は、図16に関して以下に論じる例示的なプロセッサプラットフォーム1600に示すプロセッサ1612等のプロセッサにより実行されるプログラムを含む。このプログラムは、プロセッサ1612と関連付けられたCD−ROM、フロッピーディスク、ハードドライブ、DVD、ブルーレイディスク、又はメモリ等の非一時的コンピュータ可読記憶媒体に格納されたソフトウェアに具現化されていてもよいが、この代替として、プログラムの全部及び/又は一部は、プロセッサ1612以外の機器による実行並びに/又はファームウェア若しくは専用ハードウェアにおける具現化も可能である。さらに、図3〜図6に示すフローチャートを参照して例示的なプログラムを説明するが、この代替として、例示的な高調波ノイズ抑制器106を実装するその他多くの方法が用いられるようになっていてもよい。例えば、ブロックの実行順序の変更並びに/又は説明するブロックの一部の変更、除外、若しくは組み合わせが可能である。この追加又は代替として、ソフトウェア又はファームウェアの実行なく対応する演算を行うように構造化された1つ又は複数のハードウェア回路(例えば、離散及び/又は集積アナログ及び/又はデジタル回路、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、比較器、演算増幅器(オペアンプ)、ロジック回路等)により、ありとあらゆるブロックが実装されていてもよい。
[0051]前述の通り、図3〜図6の例示的なプロセスは、ハードディスクドライブ、フラッシュメモリ、リードオンリーメモリ、CD、DVD、キャッシュ、ランダムアクセスメモリ、並びに/又は任意の持続時間(例えば、長期間、永久、短時間、一時的バッファリング、及び/若しくは情報キャッシング)にわたって情報が格納されるその他任意の記憶装置若しくはストレージディスク等の非一時的コンピュータ及び/又は機械可読媒体に格納されたコード化命令(例えば、コンピュータ及び/又は機械可読命令)を用いて実装されていてもよい。本明細書において、非一時的コンピュータ可読媒体という用語は、任意の種類のコンピュータ可読記憶装置及び/又はストレージディスクを含み、伝搬信号及び送信媒体を除外するように明示的に規定される。本明細書において、「含む(including)」及び「備える(comprising)」(及びそのすべての形態及び時制)は、オープンエンドな用語である。したがって、任意の形態の「含む」又は「備える」(例えば、comprises、includes、comprising、including等)に続く何かを請求項が挙げている場合はいつでも、対応する請求項の範囲から逸脱することなく、付加的な要素、項目等が存在していてもよいことが了解されるものとする。本明細書において、請求項の前文で表現「少なくとも(at least)」が遷移用語として用いられている場合、これは、用語「備える」及び「含む」がオープンエンドであるのと同様にオープンエンドである。
[0052]図2の高調波ノイズ抑制器106を実装するとともに音声信号の領域変換及び輪郭追跡を行うように実行し得る例示的な機械可読命令を図3に示す。前述の図及び関連する説明を参照して、図3の例示的な機械可読命令300は、例示的な高調波ノイズ抑制器106が所望のサンプリングレートで音声信号を再サンプリングすることで開始となる(ブロック302)。例えば、例示的な領域変換器202は、高調波ノイズ抑制器106により受信された音声信号を再サンプリングして、さらに処理する音声信号を準備するようにしてもよい。例えば、所望のサンプリングレートは、例示的な領域変換器202により指定された短時間フーリエ変換パラメータの最適なサンプリングレートに基づいて選択されるようになっていてもよい。
[0053]ブロック304において、例示的な高調波ノイズ抑制器106は、入力音声に短時間フーリエ変換(STFT)を実行する。例えば、領域変換器202は、入力音声信号にSTFTを実行して、図7のスペクトログラムに示すように、信号を離散化して周波数領域の音声信号の表現を与えるようにしてもよい。いくつかの例において、領域変換器202は、その他任意の変換により、さらに解析する音声信号の周波数領域表現を生成するようにしてもよい。
[0054]ブロック306において、例示的な高調波ノイズ抑制器106は、一組の代表周波数に関して各周波数で比較的大きな振幅の点(例えば、ピーク)を識別し、これらの点をデータ点セットに追加して輪郭追跡を行う。例えば、輪郭追跡器204は、図8に示すある瞬間のピークのプロットで図示するように、輪郭追跡を開始する適当な点を決定する第1のステップとして、最高振幅点を識別するようにしてもよい。この信号の高振幅部分の代表としての点セットのサイズ及び相対分解能は、とりわけ領域変換器202により実行されるステップにおいて適用されるパラメータ(例えば、ウィンドウサイズ、サンプリングレート等)によって決まる。他の例においては、その他任意の方法(例えば、音声信号中の最高振幅データ点の割合の識別、平均からの特定の偏差量を超える振幅の点セットの識別等)によって、輪郭追跡のシードセットとして機能するように最高振幅点セットが生成されるようになっていてもよい。
[0055]ブロック308において、例示的な高調波ノイズ抑制器106は、位相差によって、比較的大きな振幅の点の周波数を計算する。例えば、例示的な輪郭追跡器204は、輪郭追跡を初期化するプロセスにおいて、すべての点で正確な周波数を計算するようにしてもよい。代表周波数セットにおける高振幅点の識別によって、(データの離散化特性により)輪郭追跡で使用するおおよそのピークが決まるものの、例示的な輪郭追跡器204は、周波数を精緻化して、すべてのピークの位相差の計算により、さらに精度を向上する。この追加又は代替としては、所与のピークに対してより正確な周波数値を与えるその他任意の方法が利用されるようになっていてもよい。
[0056]ブロック310において、例示的な高調波ノイズ抑制器106は、比較的大きな振幅の点の複素振幅を計算する。例えば、例示的な輪郭追跡器204は、輪郭追跡を初期化するプロセスにおいて、すべての最高振幅点の複素振幅を計算するようにしてもよい。周波数の計算と同様に、ピークにおける複素振幅の計算によれば、周波数値の連続範囲で効果的に位置付けできるより正確な振幅及び位相が得られる。この追加又は代替としては、所与のピークに対してより正確な複素振幅を与えるその他任意の方法が利用されるようになっていてもよい。
[0057]ブロック312において、例示的な高調波ノイズ抑制器106は、データ点セットから輪郭追跡用の高振幅点を選択する。例えば、高調波ノイズ抑制器106は、データ点セットから、全体が最高振幅の点を輪郭追跡用に選択するようにしてもよい。輪郭追跡器204は、図8に示すある瞬間のピークプロットの例示的な最高振幅点804等、比較的大きな振幅の点を見つけるようにしてもよい。例示的な輪郭追跡器204は、全体が比較的大きな振幅のデータセットのピークの発見又は、いくつかの例において、全体が最高振幅のセットのピークの発見によって、(図5に記載の通り初期化された高調波輪郭を除く)全輪郭の追跡を開始する。
[0058]ブロック314において、例示的な高調波ノイズ抑制器106は、ブロック312で選択された高振幅点から輪郭を生成する。例えば、輪郭追跡器204は、図8の図示例の領域802により示すように、選択された高振幅点から輪郭を生成するようにしてもよい。高振幅点から輪郭を生成する詳細な命令については、図4に示す。
[0059]ブロック316において、例示的な高調波ノイズ抑制器106は、生成された輪郭が長さ及び信号対雑音比の要件を満たすかを判定する。例えば、輪郭追跡器204は、生成された輪郭が長さ及び信号対雑音比の要件を満たすか判定することにより、高調波に関する輪郭の発見のため、輪郭を格納及び/又は使用すべきかを判定するようにしてもよい。いくつかの例において、輪郭の長さは、(多くの極小輪郭を処理するリソース集約的且つ低報酬なプロセスを回避するため)最小長さを上回り、最大長さを下回る必要がある。また、いくつかの例において、信号対雑音比は、特定の最小値を上回ることにより、生成された音声シグネチャの潜在的な精度に影響を及ぼすように、真の干渉が潜在的に輪郭中に存在し得ることを示す必要がある。音声シグネチャが通常の低振幅ノイズに対して堅牢である場合が多く、低SNR値が不要な輪郭を示し得ることから、音声シグネチャを生成する例示的な用途においては、低SNR値の輪郭が概して除去しにくい。他の例において、例示的な輪郭追跡器204は、さらに処理する生成輪郭の任意の追加又は代替条件を確認するようにしてもよい。生成輪郭が長さ要件及びSNR比要件を満たすことに応答して、処理がブロック318に移行する。逆に、生成輪郭が長さ要件及び/又はSNR比要件を満たさない場合は、処理がブロック322に移行する。
[0060]ブロック318において、例示的な高調波ノイズ抑制器106は、高調波に関する輪郭を生成する。例えば、輪郭追跡器204は、図8の図示例に示す輪郭802b及び802cのような高調波に関する輪郭を生成するようにしてもよい。高調波に関する輪郭を生成する例示的な命令については、図5に示す。
[0061]ブロック320において、例示的な高調波ノイズ抑制器106は、輪郭をデータベース214のメモリに保存する。例えば、輪郭追跡器204は、輪郭又は輪郭セットの追跡プロセスが終わった後、生成された輪郭をデータベース214のメモリに格納するようにしてもよい。例示的な輪郭追跡器204は、高振幅点から生成された輪郭(ブロック314)のみならず、高調波に関する生成された任意の輪郭(ブロック318)を格納する。或いは、例示的な輪郭追跡器204は、高調波ノイズ抑制器106がアクセス可能な任意の場所に生成輪郭を格納するようにしてもよい。
[0062]ブロック322において、例示的な高調波ノイズ抑制器106は、輪郭追跡用に検討されたセットから輪郭を生成するのに用いられたすべての点をクリアする。例えば、輪郭追跡器204は、輪郭の始点となった高振幅点及び当該輪郭の生成に使用されたすべての点をクリアすることにより、追跡する新たな輪郭の2番目に大きな振幅ピークを発見できるようにしてもよい。その結果、新たな輪郭が開始となるその他の点の数が減り、新たな最高振幅ピークがセット中に存在する。
[0063]ブロック324において、例示的な高調波ノイズ抑制器106は、輪郭追跡用の元のデータ点セットから輪郭の追跡に用いられた点の割合が閾値よりも大きいかを判定する。例えば、輪郭追跡器204は、輪郭追跡用の元のデータ点セットから輪郭の追跡に用いられた点の割合が閾値よりも大きいかを判定して、追跡停止条件を確認するようにしてもよい。例えば、輪郭追跡器204は、最高振幅ピークの40%が輪郭の描画に利用されたら、輪郭追跡を終えるように構成されていてもよい。図9の図示例に示すように、輪郭の割合の閾値に達したら、輪郭の追跡は完了となる。元のセットからの輪郭の追跡に用いられた点の割合が閾値より大きくなったことに応答して、処理がブロック326に移行する。逆に、元のデータ点セットからの輪郭の追跡に用いられた点の割合が閾値よりも大きくない場合は、処理がブロック312に移行する。
[0064]ブロック326において、例示的な高調波ノイズ抑制器106は、輪郭を処理する。例えば、パラメータ計算器206、分類器208、及び減算器210は、輪郭パラメータを生成し、アウトライアとなる輪郭を決定し、音声サンプルからアウトライアを除去するようにしてもよい。ブロック326の輪郭処理については、図6に示すフローチャートで説明する。
[0065]図2の高調波ノイズ抑制器106を実装するとともに、比較的大きな振幅のデータ点に基づいて、音声サンプルからの輪郭の生成を行うように実行し得る例示的な機械可読命令314を図4に示す。前述の図及び関連する説明を参照して、図4の例示的な機械可読命令314は、例示的な高調波ノイズ抑制器106が輪郭追跡用のデータ点セットの高振幅点を開始指標として設定することで開始となる(ブロック402)。例えば、輪郭追跡器204は、データ点セットの最高振幅点を開始指標として設定することにより、輪郭追跡を初期化するようにしてもよい。輪郭追跡器204は、(例えば、図3のブロック306で決定した)輪郭追跡用のデータ点セットの最高振幅点を新たな輪郭追跡の開始点として有するピークで新たな追跡を開始する。他の例においては、輪郭追跡用の開始ピークを選択する別の方法(例えば、閾値振幅、周波数、又は位相閾値を満たすピークの選択、特定の関心サンプル領域のピークの選択等)が利用されるようになっていてもよい。
[0066]ブロック404において、例示的な高調波ノイズ抑制器106は、スキップフレームカウンタを生成し、その値をゼロに設定する。例えば、輪郭追跡器204は、スキップフレームカウンタを生成し、その値をゼロに設定するようにしてもよい。スキップフレームカウンタによれば、例示的な輪郭追跡器204は、輪郭追跡中に多くの許容範囲のスキップSTFTフレームによって規定されるように、輪郭追跡中に見つかった如何なる新ピークも、輪郭中の先行ピークから妥当な距離範囲内となるようにすることができる。
[0067]ブロック406において、例示的な高調波ノイズ抑制器106は、1つのSTFTフレームにおける経過時間の位相を調整する。例えば、輪郭追跡器204は、1つのSTFTフレームにおける経過時間の位相を調整することにより、周波数領域において、過去のフレームを現在のフレームと比較できるようにしてもよい。
[0068]ブロック408において、例示的な高調波ノイズ抑制器106は、1つのSTFTフレームの前進又は後進を行う。例えば、輪郭追跡器204は、停止条件に達するまで(例えば、ブロック424)、まずは前進して輪郭追跡を進めるように構成されていてもよい。例示的な輪郭追跡器204は、個々のSTFTフレームだけ進むことにより、スキップフレームカウンタが追跡する輪郭から特定フレーム数内の連続した点を見つける。そして、例示的な輪郭追跡器204は、開始指標に戻り、後方に進んで、輪郭の一部となる要件を満たす残りのピークを追跡する。他の例において、例示的な輪郭追跡器204は、まず後進し、後方で停止条件に達した後、前進するようにしてもよい。他の例においては、その他任意の進行サイズが利用されるようになっていてもよい。
[0069]ブロック410において、例示的な高調波ノイズ抑制器106は、過去の高振幅点の予め設定された振幅、周波数、及び位相閾値範囲内の点を見つけ、これらの点をセットに追加する。例えば、例示的な輪郭追跡器204は、振幅、周波数、複素距離、及びその他任意のパラメータに関する条件を確認して、輪郭に属する点セットに点を追加すべきかを判定するように構成されていてもよい。
[0070]ブロック412において、例示的な高調波ノイズ抑制器106は、セット中に点が存在するかを判定する。例えば、輪郭追跡器204は、セット中に点が存在するかを判定するように構成されていてもよい。例示的な輪郭追跡器204の要求閾値を満たす点が現行ステップで見つかった場合、当該セットは、これら要件を満たすその他任意の点と併せて、少なくともこの点を含むことになる。セット中に点が見つからない場合、このSTFTステップにおいては、輪郭の一部となる要件を満たすデータが見つかっていない。セット中にピークが存在するものと高調波ノイズ抑制器106が判定したことに応答して、処理がブロック414に移行する。逆の場合は、セット中にピークが存在しないものと高調波ノイズ抑制器106が判定したことに応答して、処理がブロック422に移行する。
[0071]ブロック414において、例示的な高調波ノイズ抑制器106は、(例えば、過去の時間ステップから)過去ステップの点までの複素距離が最小の点を見つける。例えば、輪郭追跡器204は、過去の点までの複素距離が最小の点を見つけるようにしてもよい。いくつかの例において、この点は、STFTステップのピーク表現として機能する。他の例においては、セット中の点に対する平均等の操作の実行によって、複素距離が最小の点を利用する代わりに、STFTステップの適切な代表点を決定するようにしてもよい。
[0072]ブロック416において、例示的な高調波ノイズ抑制器106は、位相調整された過去の点から現在の点までの複素距離が閾値未満であるかを判定する。例えば、輪郭追跡器204は、(例えば、過去のSTFTステップの)過去の点から現在の点までの複素距離が閾値未満であるかを判定するようにしてもよい。輪郭に追加された点が潜在的にノイズを表し得る同じ信号に属するように、例示的な輪郭追跡器204には、ピークが過去フレームのピークから依然として追跡中の輪郭の一部と考えられる最大複素距離の閾値が設定されている。
[0073]ブロック418において、例示的な高調波ノイズ抑制器106は、例えば式5を含む本明細書に記載のプロセスを用いて輪郭の信号対雑音比を決定するため、輪郭追跡器204により後で使用される2乗ピーク振幅及び(例えば、セット中の位相調整連続点間の)2乗複素距離を累積する。例えば、輪郭追跡器204は、2乗ピーク振幅及び2乗複素距離の値を累積するようにしてもよい。2乗ピーク振幅及び2乗複素距離の値は、パラメータ計算器206がアクセス可能な如何なる場所に格納されてもよく、如何なるフォーマット(例えば、行列表現、線引きデータ等)で格納されてもよい。
[0074]ブロック420において、例示的な高調波ノイズ抑制器106は、点セットを輪郭に追加し、如何なるデータも含まないようにセットをクリアする。例えば、例示的な輪郭追跡器204は、点セットをクリアして、新たな点セットを見つける必要がある新たなステップを初期化する。いくつかの例において、例示的な輪郭追跡器204は、最大振幅点のみを追加するようにしてもよいし、別のパラメータに基づいて、選択的に点をカウンタに追加するようにしてもよい。
[0075]ブロック422において、例示的な高調波ノイズ抑制器106は、スキップフレームカウンタをインクリメントする。例えば、スキップフレームカウンタは、輪郭追跡器204により実装され、セットへの追加に適した点が見つけられないすべてのSTFTフレームに関してインクリメントされるようになっていてもよい。この例示的な状況において(ブロック422)、輪郭追跡器204は、過去の高振幅点の振幅、周波数、及び位相閾値内の如何なる点も見つけられなかった。このため、輪郭に追加される点セットは空であり、フレームは「スキップ(skip)された」と考えられる。いくつかの例においては、単一のスキップフレームに遭遇した場合に輪郭を終端するより厳格な要件が実装されていてもよく、スキップフレームカウンタの必要性がなくなる代わりに、新たな停止条件が実装される。
[0076]ブロック424において、例示的な高調波ノイズ抑制器106は、スキップフレームカウンタの値がスキップフレーム閾値よりも大きいかを判定する。例えば、輪郭追跡器204は、スキップフレームカウンタの値がスキップフレーム閾値よりも大きいかを判定するようにしてもよい。例示的な輪郭追跡器204には、ある方向の輪郭追跡が終わる前にはピークが見つけられない許容範囲の連続フレームの最大数の閾値が設定されている。スキップフレームカウンタがスキップフレーム閾値よりも大きくなったことに応答して、処理がブロック426に移行する。逆の場合は、スキップフレームカウンタがスキップフレーム閾値よりも大きくないことに応答して、処理がブロック406に移行する。
[0077]ブロック426において、例示的な高調波ノイズ抑制器106は、前後両方向に輪郭が追跡されたかを判定する。例えば、例示的な輪郭追跡器204は、前後両方向に輪郭追跡が実行されたかを判定するようにしてもよい。例示的な輪郭追跡器204は、輪郭追跡の終了に先立ち、最初の開始点からの輪郭追跡に関して、前後両方向の停止条件に達している必要がある。前後両方向に輪郭が追跡されたことに応答して、処理が図3の命令に戻り、ブロック316に移行する。逆の場合は、前後両方向に輪郭追跡が実行されていないことに応答して、処理がブロック428に移行する。
[0078]ブロック428において、例示的な高調波ノイズ抑制器106は、スキップフレームカウンタをリセットし、追跡方向を変更して、開始指標から追跡プロセスを再開する。例えば、例示的な輪郭追跡器204は、フレームカウンタをリセットし、追跡方向を変更して、開始指標から追跡プロセスを再開することにより、第2の方向の輪郭の追跡を継続する。
[0079]図2の高調波ノイズ抑制器106を実装するとともに、基本輪郭に基づいて、高調波に関する輪郭の生成を行うように実行し得る例示的な機械可読命令318を図5に示す。前述の図及び関連する説明を参照して、図5の例示的な機械可読命令318は、高振幅点から生成された輪郭を基本輪郭として使用可能であるかを例示的な高調波ノイズ抑制器106が判定することで開始となる(ブロック502)。例えば、例示的な輪郭追跡器204は、高振幅点から生成された輪郭を基本輪郭として使用可能であるかを判定するようにしてもよい。いくつかの例において、例示的な輪郭追跡器204は、高振幅点から生成された輪郭が特定の周波数範囲内であることを確認することにより、高調波輪郭を決定する基本輪郭としての使用に受け入れ可能となり得ることを示していてもよい。この追加又は代替として例示的な輪郭追跡器204は、過去に追跡した輪郭を一組の整数で除算して潜在的な基本輪郭を計算することにより、基本輪郭を計算するようにしてもよい。例えば、過去に追跡した輪郭は、1〜5の整数で除算されるようになっていてもよい。その後、輪郭内のすべてのSTFTビン及びその多くの高調波において、潜在的な基本輪郭ごとにSTFTの平均振幅が計算される。例えば、平均振幅は、STFTのナイキスト周波数未満の周波数において、これらすべての高調波で計算されるようになっていてもよい。その後、最高平均振幅の潜在的な輪郭が基本周波数輪郭として選択されるようになっていてもよい。輪郭を基本輪郭として使用可能であるものと例示的な高調波ノイズ抑制器106が判定したことに応答して、処理がブロック504に移行する。逆に、輪郭を基本輪郭として使用できない場合は、処理が図3の命令に戻って、ブロック320に移行する。
[0080]ブロック504において、例示的な高調波ノイズ抑制器106は、高調波次数を1に設定する。例えば、輪郭追跡器204は、高調波次数を1に設定するようにしてもよい。高調波次数は、値1で初期化されて基本輪郭を表し、インクリメントによって、高調波に関する輪郭を決定する。
[0081]ブロック506において、例示的な高調波ノイズ抑制器106は、高調波次数をインクリメントする。例えば、輪郭追跡器204は、高調波次数をインクリメントすることにより、高調波に関する輪郭の追跡を開始するようにしてもよい。
[0082]ブロック508において、例示的な高調波ノイズ抑制器106は、高調波次数の閾値周波数範囲内で比較的大きな振幅の点を見つける。例えば、輪郭追跡器204には、高調波輪郭の一部と考えられるようにピークの収束が必要な特定の範囲が設定されていてもよい。例えば、輪郭追跡器204によれば、ピークは、輪郭の整数の高調波次数を乗算した基本輪郭の100Hz以内となる必要がある。
[0083]ブロック510において、例示的な高調波ノイズ抑制器106は、閾値周波数範囲内で見つかった点から、高振幅の点を選択する。例えば、輪郭追跡器204は、閾値周波数範囲内で識別された点から、高振幅の点を選択することにより、高調波の追跡を開始するようにしてもよい。いくつかの例においては、輪郭追跡器204の標準的な輪郭追跡プロセスと同様に、高調波の追跡が最高振幅点で開始となる。他の例においては、高調波輪郭の追跡の開始に異なる点が選択されるようになっていてもよい。
[0084]ブロック512において、例示的な高調波ノイズ抑制器106は、高振幅点から輪郭を生成する。例えば、輪郭追跡器204は、全体が最高振幅の点から輪郭を生成するようにしてもよい。高振幅点から輪郭を生成する詳細な命令については、図4に示す。
[0085]ブロック514において、例示的な高調波ノイズ抑制器106は、輪郭が基本輪郭条件を超えて、最小時間長及び最大許容時間を満たすかを判定する。例えば、輪郭追跡器204は、輪郭セット又は永久メモリへの輪郭の関連付けに先立って、高調波に関する輪郭が基本輪郭条件を超えて、最小時間長及び最大許容時間を満たすかを判定するようにしてもよい。
[0086]ブロック516において、例示的な高調波ノイズ抑制器106は、輪郭を高調波輪郭セットに保存する。例えば、輪郭追跡器204は、追跡輪郭データセット全体への輪郭の格納に先立って、輪郭を高調波輪郭セットに格納するようにしてもよい。高調波セットに格納済みと考えられるが、追跡輪郭データセット全体にも見られる高調波に関する輪郭の一例については、図9の輪郭902b又は902cにより示す。
[0087]ブロック518において、例示的な高調波ノイズ抑制器106は、最も新しい高調波輪郭の追跡に利用された現行の高調波次数が設定閾値に等しいかを判定する。例えば、輪郭追跡器204には、追跡する高調波輪郭の最大数の閾値が設定されていてもよい。現行の高調波次数が設定閾値に等しいことに応答して、処理が図3に戻り、ブロック320に移行する。逆の場合は、現行の高調波次数が設定閾値を下回ることに応答して、処理がブロック506に移行する。
[0088]図2の高調波ノイズ抑制器106を実装するとともに輪郭パラメータの生成、アウトライアの分類、並びに音声信号のノイズ減算及び合成を行うように実行し得る例示的な機械可読命令326を図6に示す。前述の図及び関連する説明を参照して、図6の例示的な機械可読命令326は、例示的な高調波ノイズ抑制器106が輪郭パラメータの平均及び標準偏差値を計算することで開始となる(ブロック602)。例えば、パラメータ計算器206は、すべての輪郭にわたる平均振幅値のほか、すべての輪郭にわたる振幅の標準偏差を計算するようにしてもよい。いくつかの例において、パラメータ計算器206は、末端輪郭の一部(例えば、最高振幅の上位5%及び最低振幅の下位5%の輪郭)を除く輪郭セットに基づいて、平均振幅及び/又は標準偏差を決定するようにしてもよい。この追加又は代替として、パラメータ計算器206は、位相コヒーレンス、ピッチ移動の割合、又は輪郭のその他任意のパラメータを計算するようにしてもよい。いくつかの例において、パラメータ計算器206は、輪郭セットのうちの特定種類のノイズの識別に有用と考えられる他のパラメータを計算するように構成されていてもよい。
[0089]ブロック604において、例示的な高調波ノイズ抑制器106は、パラメータの平均からの特定数の標準偏差及び信号対雑音比(SNR)に基づいて、アウトライア輪郭を決定する。例えば、分類器208は、平均からの閾値統計的距離を超える平均振幅及び閾値最小値を上回る信号対雑音比を有する輪郭に基づいて、アウトライア輪郭を決定するようにしてもよい。例えば、分類器208は、平均より標準偏差5つ分高い振幅及び40を上回るSNRを有することに基づいて、輪郭がアウトライアであるものと判定するようにしてもよい。いくつかの例において、分類器208は、同じくアウトライア輪郭となるアウトライア輪郭のすべての高調波を追加で決定するようにしてもよい。図11に示す輪郭の例示的な分布は、平均輪郭振幅値からの特定数の標準偏差に基づいて、最小信号対雑音比閾値40及び最小輪郭振幅0.004を有するものとしてアウトライアを識別するように分類器208が構成された一実施態様を示している。本例において、灰色領域1106の6つの点は、高調波ノイズ抑制器106によりアウトライアとして決定されることになる。アウトライアとして識別されたピッチ輪郭に対応する輪郭は、同じ音声信号に関して、図12の図示中でさらに強調している。そして、これら輪郭の高調波についても、同じ音声信号に関して、アウトライアとしてさらに識別の上、図13の図示中でさらに強調している。
[0090]ブロック606において、例示的な高調波ノイズ抑制器106は、アウトライアと判定された輪郭の複素短時間スペクトルを生成する。例えば、減算器210は、アウトライアと判定された輪郭に基づいてノイズスペクトルを生成するようにしてもよい。いくつかの例において、アウトライアノイズスペクトルは、輪郭をそれぞれの最大観測振幅で含むとともに、音声サンプルのその他すべての周波数及び位相組み合わせをゼロ振幅で含む。減算器210により生成される例示的なスペクトルを図14に示す。図示のように、例示的なノイズスペクトルには、図13の同じ音声信号に関する図示中でアウトライア又はアウトライアの高調波として強調された輪郭のみが含まれる。
[0091]ブロック608において、例示的な高調波ノイズ抑制器106は、アウトライアと判定された輪郭の複素短時間スペクトルを音声サンプルスペクトログラム全体から減算する。例えば、減算器210は、アウトライアと判定された輪郭の複素短時間スペクトルを音声サンプルスペクトログラムから減算するようにしてもよく、図15の図示例に示すように、ノイズが抑制されたスペクトログラム出力が得られる。図15に示すように、同じ音声サンプルに関する図14の減算スペクトルは、図15のスペクトログラムから除去済みである。
[0092]ブロック610において、例示的な高調波ノイズ抑制器106は、逆高速フーリエ変換を実行して、音声サンプルを時間領域に変換する。例えば、合成器212は、逆高速フーリエ変換及び重畳加算演算を実行して、サンプルを時間領域に変換するようにしてもよい。この変換の後、音声サンプルは、ノイズ抑制プロセス前と同様に時間領域にあり、高調波ノイズの除去によってノイズが抑制されている。
[0093]ブロック612において、例示的な高調波ノイズ抑制器106は、ノイズが抑制された音声サンプルを保存する。例えば、音声サンプルは、データベース214に保存されるようになっていてもよい。或いは、高調波ノイズ抑制器106がアクセス可能な任意の場所に音声サンプルが保存されるようになっていてもよい。いくつかの例において、ノイズ抑制された音声サンプルは、データベース214への保存の有無に関わらず、中央設備110に送信されるようになっていてもよい。
[0094]図7は、短時間フーリエ変換を用いて周波数領域に変換された音声サンプルの例示的なスペクトログラムである。このスペクトログラムは、その軸上に時間及び周波数を示しており、線の暗部によって信号の振幅が示される。例えば、領域702は、高振幅信号を示す暗部を表示している。
[0095]図8は、図7のスペクトログラムの同じ音声信号の比較的大きな振幅の点(例えば、ある瞬間のピーク)の例示的なプロットである。図8のように、プロットのより暗い領域は、音声サンプルのより大きな振幅のある瞬間のピークを示す。例えば、領域802は、高振幅を有する点を示す暗部を表示している。領域802内の点804は、輪郭の追跡を開始し得る比較的大きな振幅の点を示す。
[0096]図9は、図7及び図8の同じ音声信号の追跡輪郭の例示的な追跡輪郭プロットである。追跡輪郭プロットは、輪郭の描画に用いられた高振幅点の割合を指定する停止条件に達するまで追跡された輪郭をすべて表示している。追跡輪郭プロットにおいて、輪郭902a、902b、及び902cには、高調波に関すると見られる輪郭を含む。
[0097]図10は、図7〜図9の同じ音声サンプルの輪郭特性の例示的な分布であり、輪郭の周波数平均及び輪郭の最大振幅の関数としてすべての輪郭を表示している。より暗く見えるエリアには、周波数平均及び最大振幅が類似する多くの輪郭のクラスタを含む。逆に、高振幅の個々の点は、アウトライアを示す場合がある。例えば、点1002は、すべての輪郭の平均振幅の約15倍も大きな輪郭の最も大きい最大振幅を有する。また、点1004及び点1006も大きな振幅を有する。ただし、いくつかの例において、これらの輪郭は、当該輪郭の最大振幅に基づいてアウトライアと判定されているわけではなく、輪郭の信号対雑音比についても同様にさらに検討する必要がある。
[0098]図11は、図7〜図10の同じ音声サンプルの輪郭特性の例示的な分布であり、輪郭の信号対雑音比及び輪郭の最大振幅の関数としてすべての輪郭を表示している。この例示的な図示においては、輪郭がより大幅にクラスタ化しており、ほとんどの信号対雑音比及び振幅が相対的に低い。最小の信号対雑音比(約40)及び最小の振幅(約0.004)の両者を超える輪郭として、アウトライアは容易に識別される。領域1104には、最大輪郭振幅要件を超えるものの、アウトライアと考えられるほどの信号対雑音比ではない輪郭を含む。例えば、(図10の点1002と同じ輪郭に対応する)点1108及び(図10の点1004と同じ輪郭に対応する)点1110は、上位2つの最大振幅値を有するものの、輪郭の信号対雑音比が低いことから、アウトライアではないと判定される。逆に、領域1102には、信号対雑音比は高いものの、アウトライアと考えられるほどの最大振幅ではない輪郭を含む。領域1106には、例示的な要件に基づいてアウトライア輪郭と判定された輪郭を含む。例示的な点1112(図10の点1006と同じ輪郭に対応)は、ともに閾値を超える最大振幅及び信号対雑音比を有するため、アウトライアと判定される。
[0099]図12は、図7〜図11の同じ音声サンプルに関してアウトライアと識別されたピッチ輪郭の例示的な図示である。暗い輪郭(1202が示す輪郭等)は、信号対雑音比及び最大振幅の要件に基づいてアウトライアと判定されている。
[00100]図13は、図7〜図12の同じ音声サンプルに関してアウトライア及びこれらアウトライアの高調波と識別されたピッチ輪郭の例示的な図示である。輪郭1302aが基本アウトライア輪郭の一例である一方、1302b及び1302cは、高調波アウトライア輪郭の一例である。
[00101]図14は、図7〜図13の同じ音声サンプルに関してアウトライアと識別された輪郭の信号のみから成る減算スペクトルの例示的な図示である。そして、減算スペクトルは、これら輪郭の減算によって、音声信号の元のスペクトログラムからのノイズ除去に利用可能である。
[00102]図15は、図14の減算スペクトルの減算実行後の図7〜図14の同じ音声サンプルに関するノイズ抑制されたスペクトルの例示的な図示である。
[00103]図16は、図2の高調波ノイズ抑制器106を実装する図3〜図6の命令を実行し得る例示的なプロセッサプラットフォーム1000のブロック図である。プロセッサプラットフォーム1600としては、例えばサーバ、パソコン、モバイル機器(例えば、携帯電話、スマートフォン、アイパッド(iPad)(登録商標)等のタブレット)、個人用デジタル補助装置(PDA)、インターネット家電、DVDプレーヤ、CDプレーヤ、デジタルビデオレコーダ、ブルーレイプレーヤ、ゲーム機、パーソナルビデオレコーダ、セットトップボックス、又はその他任意の種類のコンピュータ機器が可能である。
[00104]図示例のプロセッサプラットフォーム1600は、プロセッサ1612を含む。図示例のプロセッサ1612は、ハードウェアである。例えば、プロセッサ1612は、任意の所望系統又は製造業者の1つ又は複数の集積回路、論理回路、マイクロプロセッサ、又はコントローラにより実装可能である。ハードウェアプロセッサは、半導体ベース(例えば、シリコンベース)のデバイスであってもよい。本例において、プロセッサ1612は、例示的な領域変換器202、例示的な輪郭追跡器204、例示的なパラメータ計算器206、例示的な分類器208、例示的な減算器210、例示的な合成器212、及び例示的なデータベース214を実装する。
[00105]図示例のプロセッサ1612は、ローカルメモリ1613(例えば、キャッシュ)を具備する。図示例のプロセッサ1612は、バス1618を介して、揮発性メモリ1614及び不揮発性メモリ1616を含むメインメモリと連通している。揮発性メモリ1614は、同期型ダイナミックランダムアクセスメモリ(SDRAM)、ダイナミックランダムアクセスメモリ(DRAM)、RAMBUSダイナミックランダムアクセスメモリ(RDRAM)、及び/又はその他任意の種類のランダムアクセスメモリデバイスにより実装されていてもよい。不揮発性メモリ1616は、フラッシュメモリ及び/又はその他任意の所望種類のメモリデバイスにより実装されていてもよい。メインメモリ1614、1616へのアクセスは、メモリコントローラにより制御される。
[00106]また、図示例のプロセッサプラットフォーム1600は、インターフェース回路1620を含む。インターフェース回路1620は、イーサネットインターフェース、ユニバーサルシリアルバス(USB)、及び/又は周辺機器相互接続(PCI)高速インターフェース等、任意の種類のインターフェース規格により実装されていてもよい。
[00107]図示例においては、1つ又は複数の入力装置1622がインターフェース回路1620に接続されている。ユーザは、(1つ又は複数の)入力装置1622によって、データ及び/又はコマンドをプロセッサ1612に入力することができる。例えば、(1つ又は複数の)入力装置は、音声センサ、マイク、カメラ(スチール又はビデオ)、キーボード、ボタン、マウス、タッチスクリーン、トラックパッド、トラックボール、ISOポインティングデバイス、及び/又は音声認識システムにより実装可能である。
[00108]また、図示例のインターフェース回路1620には、1つ又は複数の出力装置1624が接続されている。例えば、出力装置1024は、表示装置(例えば、発光ダイオード(LED)、有機発光ダイオード(OLED)、液晶ディスプレイ、陰極線管ディスプレイ(CRT)、タッチスクリーン、触覚出力装置、プリンタ、及び/又はスピーカ)により実装可能である。このため、図示例のインターフェース回路1620は通常、グラフィックスドライバカード、グラフィックスドライバチップ、及び/又はグラフィックスドライバプロセッサを具備する。
[00109]また、図示例のインターフェース回路1620は、ネットワーク1626(例えば、イーサネット接続、デジタル加入者線(DSL)、電話線、同軸ケーブル、携帯電話システム等)を介した外部機械(例えば、任意の種類のコンピュータ機器)とのデータ交換を容易化する送信機、受信機、送受信機、モデム、及び/又はネットワークインターフェースカード等の通信機器を具備する。
[00110]また、図示例のプロセッサプラットフォーム1600は、ソフトウェア及び/又はデータを格納する1つ又は複数のマスストレージデバイス1628を含む。このようなマスストレージデバイス1628の例としては、フロッピーディスクドライブ、ハードディスクドライブ、コンパクトディスクドライブ、ブルーレイディスクドライブ、個別ディスク冗長アレイ(RAID)システム、及びDVDドライブが挙げられる。
[00111]図3〜図6のコード化命令1632は、マスストレージデバイス1628、揮発性メモリ1614、不揮発性メモリ1616、並びに/又はCD若しくはDVD等の取り外し可能な非一時的コンピュータ可読記憶媒体に格納されていてもよい。
[00112]以上から、当然のことながら、音声信号の高調波ノイズ抑制によって音声信号の鮮明さを増強し得る例示的な方法、装置、及び製造品が開示されたことになる。本明細書に開示の技術によって、特に高い信号対雑音比及び高振幅信号を含む高エネルギー特性及び高調波をノイズが有する場合は、音声信号のノイズが大幅に抑制される。さらに、高振幅特性の識別基本輪郭に基づいて、ノイズを表す高調波輪郭を識別及び抑制することにより、高振幅信号データ点の大部分を解析することなく、複数の高調波レベルにおけるノイズ除去によって最大限にノイズを抑制する効率的な手段が得られる。開示の輪郭追跡技術によれば、音声信号の最も顕著な特徴に注目した特性化によって、音声シグネチャ等の用途のための重要な特徴にのみ焦点を当てたノイズ抑制プロセスを容易化可能である。
[00113]本明細書においては、特定の例示的な方法、装置、及び製造品を開示したが、本特許の網羅範囲はこれらに限定されない。むしろ、本特許は、その特許請求の範囲にほとんどが含まれるすべての方法、装置、及び製造品を網羅する。
[項目1]
高調波ノイズを抑制する装置であって、
輪郭追跡器であり、
音声サンプル中の周波数値に関して比較的大きな振幅を表す第1の点を決定することと、
比較的大きな振幅の第1の点から、特定の閾値内の振幅、周波数、及び位相の値を有する他の点の第1の輪郭トレースを生成することであり、前記第1の輪郭トレースの前記点が、互いから又は比較的大きな振幅の前記第1の点から特定の数のフレーム内で連続して発生する、生成することと、
比較的大きな振幅の第2の点の閾値内の振幅、周波数、及び位相の値を有する点の第2の輪郭トレースを生成することであり、前記第2の輪郭トレースの前記点が、互いから又は比較的大きな振幅の前記第2の点から特定の数のフレーム内で連続して発生する、生成することと、
を行う、輪郭追跡器と、
前記輪郭トレースの各々に関するパラメータを計算するパラメータ計算器と、
に基づいて、前記第1の輪郭トレース及び前記第2の輪郭トレースがアウトライアを表すかを判定する分類器と、
前記第1の輪郭又は前記第2の輪郭がアウトライア輪郭トレースである旨の判定に応答して、前記音声サンプルから前記アウトライア輪郭トレースを除去する減算器と、
を備えた、装置。
[項目2]
前記輪郭追跡器が、比較的大きな振幅の第3の点の閾値内の振幅、周波数、及び位相の値を有する点の第3の輪郭トレースをさらに生成し、比較的大きな振幅の前記第3の点が、前記第1の点により表された前記周波数の高調波周波数の周波数範囲閾値内であり、前記第3の輪郭トレースの前記点が、互いから又は比較的大きな振幅の前記第3の点から特定の数のフレーム内で連続して発生する、項目1に記載の装置。
[項目3]
前記輪郭追跡器が、前記音声サンプル中の代表数の周波数に関して比較的大きな振幅の点をさらに決定し、前記音声サンプル中の比較的大きな振幅の前記点の特定割合に関して輪郭を生成する、項目1に記載の装置。
[項目4]
前記分類器が、前記計算されたパラメータの平均からの統計的距離に基づいて、前記第1の輪郭トレース及び前記第2の輪郭トレースがアウトライアを表すかを判定する、項目1に記載の装置。
[項目5]
アウトライア輪郭トレースの除去によって、正確な音声シグネチャの生成に用いられるノイズ抑制音声信号を改善する、項目1に記載の装置。
[項目6]
特定のウィンドウイング長及びウィンドウ時間フレームを伴う短時間フーリエ変換を前記音声サンプルに対して実行する領域変換器をさらに備えた、項目1に記載の装置。
[項目7]
前記第1の輪郭又は前記第2の輪郭の一部となる特定の閾値内の点が見つかることなしに特定数の短時間フーリエ変換フレームが解析された場合、前記輪郭追跡器が輪郭の生成を終了する、項目6に記載の装置。
[項目8]
方法であって、
プロセッサで命令を実行することにより、音声サンプル中の周波数値に関して比較的大きな振幅を表す第1の点を決定するステップと、
前記プロセッサで命令を実行することにより、比較的大きな振幅の第1の点から、特定の閾値内の振幅、周波数、及び位相の値を有する他の点の第1の輪郭トレースを生成するステップであり、前記第1の輪郭トレースの前記点が、互いから又は比較的大きな振幅の前記第1の点から特定の数のフレーム内で連続して発生する、ステップと、
前記プロセッサで命令を実行することにより、比較的大きな振幅の第2の点の閾値内の振幅、周波数、及び位相の値を有する点の第2の輪郭トレースを生成するステップであり、前記第2の輪郭トレースの前記点が、互いから又は比較的大きな振幅の前記第2の点から特定の数のフレーム内で連続して発生する、ステップと、
前記プロセッサで命令を実行することにより、前記輪郭トレースの各々に関するパラメータを計算するステップと、
前記プロセッサで命令を実行することにより、前記計算したパラメータに基づいて、前記第1の輪郭トレース又は前記第2の輪郭トレースがアウトライアを表すかを判定するステップと、
前記プロセッサで命令を実行することにより、前記第1の輪郭又は前記第2の輪郭がアウトライア輪郭トレースである旨の判定に応答して、前記音声サンプルから前記アウトライア輪郭トレースを除去するステップと、
を含む、方法。
[項目9]
前記プロセッサで命令を実行することにより、比較的大きな振幅の第3の点の閾値内の振幅、周波数、及び位相の値を有する点の第3の輪郭トレースを生成するステップであり、比較的大きな振幅の前記第3の点が、前記第1の点により表された前記周波数の高調波周波数の周波数範囲閾値内であり、前記第3の輪郭トレースの前記点が、互いから又は比較的大きな振幅の前記第3の点から特定の数のフレーム内で連続して発生する、ステップをさらに含む、項目8に記載の方法。
[項目10]
前記音声サンプル中の代表数の周波数に関して比較的大きな振幅の点を決定し、前記音声サンプル中の比較的大きな振幅の前記点の特定割合に関して輪郭を生成するステップをさらに含む、項目8に記載の方法。
[項目11]
前記第1の輪郭トレース及び前記第2の輪郭トレースがアウトライアを表すかを判定するステップが、前記計算したパラメータの平均からの統計的距離に基づく、項目8に記載の方法。
[項目12]
アウトライア輪郭トレースの除去によって、正確な音声シグネチャの生成に用いられるノイズ抑制音声信号を改善する、項目8に記載の方法。
[項目13]
特定のウィンドウイング長及びウィンドウ時間フレームを伴う短時間フーリエ変換が前記音声サンプルに対して実行される、項目8に記載の方法。
[項目14]
前記第1の輪郭又は前記第2の輪郭の一部となる特定の閾値内の点が見つかることなしに特定数の短時間フーリエ変換フレームが解析された場合、前記第1の輪郭及び前記第2の輪郭の生成が終了となる、項目13に記載の方法。
[項目15]
コンピュータ可読命令を含む非一時的コンピュータ可読記憶媒体であって、前記コンピュータ可読命令が、実行された場合にプロセッサに少なくとも、
プロセッサで命令を実行することにより、音声サンプル中の周波数値に関して比較的大きな振幅を表す第1の点を決定することと、
前記プロセッサで命令を実行することにより、比較的大きな振幅の第1の点から、特定の閾値内の振幅、周波数、及び位相の値を有する他の点の第1の輪郭トレースを生成することであり、前記第2の輪郭トレースの前記点が、互いから又は比較的大きな振幅の前記第1の点から特定の数のフレーム内で連続して発生する、生成することと、
前記プロセッサで命令を実行することにより、比較的大きな振幅の第2の点の閾値内の振幅、周波数、及び位相の値を有する点の第2の輪郭トレースを生成することであり、前記第2の輪郭トレースの前記点が、互いから又は比較的大きな振幅の前記第2の点から特定の数のフレーム内で連続して発生する、生成することと、
前記プロセッサで命令を実行することにより、前記輪郭トレースの各々に関するパラメータを計算することと、
前記プロセッサで命令を実行することにより、前記計算したパラメータに基づいて、前記第1の輪郭トレース又は前記第2の輪郭トレースがアウトライアを表すかを判定することと、
前記プロセッサで命令を実行することにより、前記第1の輪郭又は前記第2の輪郭がアウトライア輪郭トレースである旨の判定に応答して、前記音声サンプルから前記アウトライア輪郭トレースを除去することと、
を行わせる、非一時的コンピュータ可読記憶媒体。
[項目16]
前記プロセッサで命令を実行することにより、比較的大きな振幅の第3の点の閾値内の振幅、周波数、及び位相の値を有する点の第3の輪郭トレースを生成することであり、比較的大きな振幅の前記第3の点が、前記第1の点により表された前記周波数の高調波周波数の周波数範囲閾値内であり、前記第3の輪郭トレースの前記点が、互いから又は比較的大きな振幅の前記第3の点から特定の数のフレーム内で連続して発生する、生成することをさらに含む、項目15に記載の非一時的コンピュータ可読記憶媒体。
[項目17]
前記音声サンプル中の代表数の周波数に関して比較的大きな振幅の点を決定し、前記音声サンプル中の比較的大きな振幅の前記点の特定割合に関して輪郭を生成することをさらに含む、項目15に記載の非一時的コンピュータ可読記憶媒体。
[項目18]
前記第1の輪郭トレース及び前記第2の輪郭トレースがアウトライアを表すかを判定することが、前記計算したパラメータの平均からの統計的距離に基づく、項目15に記載の非一時的コンピュータ可読記憶媒体。
[項目19]
アウトライア輪郭トレースの除去によって、正確な音声シグネチャの生成に用いられるノイズ抑制音声信号を改善する、項目15に記載の非一時的コンピュータ可読記憶媒体。
[項目20]
特定のウィンドウイング長及びウィンドウ時間フレームを伴う短時間フーリエ変換が前記音声サンプルに対して実行される、項目15に記載の非一時的コンピュータ可読記憶媒体。
100 システム
102 音声記録器
104 音声プロセッサ
106 高調波ノイズ抑制器
108 ネットワーク
110 中央設備
202 領域変換器
204 輪郭追跡器
206 パラメータ計算器
208 分類器
210 減算器
212 合成器
214 データベース
702 領域
802 領域
902a 輪郭
902b 輪郭
902c 輪郭
1002 点
1004 点
1006 点
1102 領域
1104 領域
1106 領域
1108 点
1110 点
1202 部分
1302a 基本アウトライア輪郭
1302b 高調波
1302c 高調波
1600 プロセッサプラットフォーム
1612 プロセッサ
1613 ローカルメモリ
1614 揮発性メモリ
1616 不揮発性メモリ
1618 バス
1620 インターフェース
1622 (1つ又は複数の)入力装置
1624 (1つ又は複数の)出力装置
1626 ネットワーク
1628 マスストレージ
1632 コード化命令

Claims (20)

  1. 高調波ノイズを抑制する装置であって、
    輪郭追跡器であり、
    音声サンプルの周波数スペクトル中の周波数成分の比較的大きな振幅の第1の点を決定することと、
    前記第1の点の振幅閾値内の振幅値、前記第1の点の周波数閾値内の周波数値、および前記第1の点の位相閾値内の位相値を有する前記周波数スペクトル中の点セットを決定することと、
    (1)前記点セットの第2の点と(2)前記第1の点との間の距離が距離閾値を満たすときにカウンタをインクリメントすることと、
    前記カウンタがカウンタ閾値を満たすときに、前記点セットを含む輪郭トレースを生成することと、
    を行う、輪郭追跡器と、
    前記点セットの前記振幅値がアウトライア閾値を満たすときに前記音声サンプルから前記輪郭トレースを除去する減算器と、
    を備えた、装置。
  2. 前記第1の点と前記第2の点との間の複素距離が前記距離閾値未満であるときに前記距離閾値が満たされる、請求項1に記載の装置。
  3. 前記輪郭追跡器が、前記第1の点からの時間的な前後進によって前記輪郭トレースを生成するようになっており、
    前記輪郭トレースが、前記カウンタ閾値が満たされると終わるようになっており、
    前記カウンタ閾値は、前記輪郭トレースの別の点に対して、前記振幅閾値を満たす振幅、前記周波数閾値を満たす周波数および前記位相閾値を満たす位相を有する点が見つからない連続時間フレームの最大数に対応する、請求項1に記載の装置。
  4. 前記輪郭追跡器が、前記音声サンプル中の代表数の周波数に関して比較的大きな振幅の点を決定し、前記音声サンプル中の比較的大きな振幅の前記点の特定割合に関して輪郭を生成する、請求項1に記載の装置。
  5. 前記輪郭トレースのパラメータからの統計的距離に基づいて、前記輪郭トレースが前記アウトライアであるかを判定する分類器をさらに備える、請求項1に記載の装置。
  6. 特定のウィンドウイング長及びウィンドウ時間フレームを伴う短時間フーリエ変換を前記音声サンプルに対して実行する領域変換器をさらに備えた、請求項1に記載の装置。
  7. 前記輪郭トレースの前記点セットが、前記第1の点又は一の別の点の前記距離閾値内に連続に発生する、請求項6に記載の装置。
  8. コンピュータ可読命令を含む非一時的コンピュータ可読記憶媒体であって、前記コンピュータ可読命令が、実行された場合にプロセッサに、
    音声サンプルの周波数スペクトル中の周波数成分の比較的大きな振幅の第1の点を決定することと、
    前記第1の点の振幅閾値内の振幅値、前記第1の点の周波数閾値内の周波数値、および前記第1の点の位相閾値内の位相値を有する前記周波数スペクトル中の点セットを決定することと、
    (1)前記点セットの第2の点と(2)前記第1の点との間の距離が距離閾値を満たすときにカウンタをインクリメントすることと、
    前記カウンタがカウンタ閾値を満たすときに、前記点セットを含む輪郭トレースを生成することと、
    前記点セットの前記振幅値がアウトライア閾値を満たすときに前記音声サンプルから前記輪郭トレースを除去することと、
    を行わせる、非一時的コンピュータ可読記憶媒体。
  9. 前記第1の点と前記第2の点との間の複素距離が前記距離閾値未満であるときに前記距離閾値が満たされる、請求項8に記載の非一時的コンピュータ可読記憶媒体。
  10. 前記コンピュータ可読命令が、実行された場合にプロセッサに、
    前記第1の点からの時間的な前後進によって前記輪郭トレースを生成すること
    を行わせ、
    前記輪郭トレースが、前記カウンタ閾値が満たされると終わるようになっており、
    前記カウンタ閾値は、前記輪郭トレースの別の点に対して、前記振幅閾値を満たす振幅、前記周波数閾値を満たす周波数および前記位相閾値を満たす位相を有する点が見つからない連続時間フレームの最大数に対応する、請求項8に記載の非一時的コンピュータ可読記憶媒体。
  11. 前記コンピュータ可読命令が、実行された場合に前記プロセッサに、
    前記音声サンプル中の代表数の周波数に関して比較的大きな振幅の点を決定し、前記音声サンプル中の比較的大きな振幅の前記点の特定割合に関して輪郭を生成すること
    を行わせる、請求項8に記載の非一時的コンピュータ可読記憶媒体。
  12. 前記コンピュータ可読命令が、実行された場合に前記プロセッサに、
    前記輪郭トレースのパラメータからの統計的距離に基づいて、前記輪郭トレースが前記アウトライアであるかを判定すること
    を行わせる、請求項8に記載の非一時的コンピュータ可読記憶媒体。
  13. 前記コンピュータ可読命令が、実行された場合に前記プロセッサに、
    特定のウィンドウイング長及びウィンドウ時間フレームを伴う短時間フーリエ変換を前記音声サンプルに対して実行すること
    を行わせる、請求項8に記載の非一時的コンピュータ可読記憶媒体。
  14. 前記輪郭トレースの前記点セットが、前記第1の点又は一の別の点の前記距離閾値内に連続に発生する、請求項13に記載の非一時的コンピュータ可読記憶媒体。
  15. 高調波ノイズを抑制する方法であって、
    音声サンプルの周波数スペクトル中の周波数成分の比較的大きな振幅の第1の点を決定するステップと、
    前記第1の点の振幅閾値内の振幅値、前記第1の点の周波数閾値内の周波数値、および前記第1の点の位相閾値内の位相値を有する前記周波数スペクトル中の点セットを決定するステップと、
    (1)前記点セットの第2の点と(2)前記第1の点との間の距離が距離閾値を満たすときにカウンタをインクリメントするステップと、
    前記カウンタがカウンタ閾値を満たすときに、前記点セットを含む輪郭トレースを生成するステップと、
    前記点セットの前記振幅値がアウトライア閾値を満たすときに前記音声サンプルから前記輪郭トレースを除去するステップと、
    を含む、方法。
  16. 前記第1の点と前記第2の点との間の複素距離が前記距離閾値未満であるときに前記距離閾値が満たされる、請求項15に記載の方法。
  17. 前記第1の点からの時間的な前後進によって前記輪郭トレースを生成するステップをさらに含み、
    前記輪郭トレースが、前記カウンタ閾値が満たされると終わるようになっており、
    前記カウンタ閾値は、前記輪郭トレースの別の点に対して、前記振幅閾値を満たす振幅、前記周波数閾値を満たす周波数および前記位相閾値を満たす位相を有する点が見つからない連続時間フレームの最大数に対応する、請求項15に記載の方法。
  18. 前記音声サンプル中の代表数の周波数に関して比較的大きな振幅の点を決定し、前記音声サンプル中の比較的大きな振幅の前記点の特定割合に関して輪郭を生成するステップをさらに含む、請求項15に記載の方法。
  19. 前記輪郭トレースのパラメータからの統計的距離に基づいて、前記輪郭トレースが前記アウトライアであるかを判定するステップをさらに含む、請求項15に記載の方法。
  20. 特定のウィンドウイング長及びウィンドウ時間フレームを伴う短時間フーリエ変換を前記音声サンプルに対して実行するステップ、をさらに含む、請求項15に記載の方法。
JP2020128283A 2017-10-26 2020-07-29 高調波ノイズ源からのノイズを抑制する方法、記憶媒体及び装置 Active JP7025089B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/794,870 US10249319B1 (en) 2017-10-26 2017-10-26 Methods and apparatus to reduce noise from harmonic noise sources
US15/794,870 2017-10-26

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018199320A Division JP6743107B2 (ja) 2017-10-26 2018-10-23 高調波ノイズ源からのノイズを抑制する方法、記憶媒体及び装置

Publications (2)

Publication Number Publication Date
JP2020204772A true JP2020204772A (ja) 2020-12-24
JP7025089B2 JP7025089B2 (ja) 2022-02-24

Family

ID=63965355

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018199320A Active JP6743107B2 (ja) 2017-10-26 2018-10-23 高調波ノイズ源からのノイズを抑制する方法、記憶媒体及び装置
JP2020128283A Active JP7025089B2 (ja) 2017-10-26 2020-07-29 高調波ノイズ源からのノイズを抑制する方法、記憶媒体及び装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2018199320A Active JP6743107B2 (ja) 2017-10-26 2018-10-23 高調波ノイズ源からのノイズを抑制する方法、記憶媒体及び装置

Country Status (3)

Country Link
US (6) US10249319B1 (ja)
EP (2) EP3477642B1 (ja)
JP (2) JP6743107B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10249319B1 (en) 2017-10-26 2019-04-02 The Nielsen Company (Us), Llc Methods and apparatus to reduce noise from harmonic noise sources
US11049481B1 (en) * 2019-11-27 2021-06-29 Amazon Technologies, Inc. Music generation system
CN113077806B (zh) * 2021-03-23 2023-10-13 杭州网易智企科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备
CN113345453B (zh) * 2021-06-01 2023-06-16 平安科技(深圳)有限公司 歌声转换方法、装置、设备及存储介质
CN114422046B (zh) * 2022-01-21 2024-03-15 上海创远仪器技术股份有限公司 基于多通道一致性针对异常相位校准数据进行筛查处理的方法、装置、处理器及其存储介质
US11886768B2 (en) * 2022-04-29 2024-01-30 Adobe Inc. Real time generative audio for brush and canvas interaction in digital drawing

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010154092A (ja) * 2008-12-24 2010-07-08 Fujitsu Ltd 雑音検出装置及び雑音検出方法
JP2013171130A (ja) * 2012-02-20 2013-09-02 Jvc Kenwood Corp 特殊信号検出装置、雑音信号抑制装置、特殊信号検出方法、雑音信号抑制方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330673B1 (en) * 1998-10-14 2001-12-11 Liquid Audio, Inc. Determination of a best offset to detect an embedded pattern
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
KR20060083202A (ko) * 2003-09-05 2006-07-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 낮은 비트율 오디오 인코딩
US7912567B2 (en) * 2007-03-07 2011-03-22 Audiocodes Ltd. Noise suppressor
WO2010065673A2 (en) 2008-12-02 2010-06-10 Melodis Corporation System and method for identifying original music
US8049093B2 (en) 2009-12-30 2011-11-01 Motorola Solutions, Inc. Method and apparatus for best matching an audible query to a set of audible targets
WO2013125257A1 (ja) * 2012-02-20 2013-08-29 株式会社Jvcケンウッド 雑音信号抑制装置、雑音信号抑制方法、特殊信号検出装置、特殊信号検出方法、報知音検出装置、および、報知音検出方法
US20130282373A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US20150162014A1 (en) * 2013-12-06 2015-06-11 Qualcomm Incorporated Systems and methods for enhancing an audio signal
US9837068B2 (en) * 2014-10-22 2017-12-05 Qualcomm Incorporated Sound sample verification for generating sound detection model
EP3023884A1 (en) 2014-11-21 2016-05-25 Thomson Licensing Method and apparatus for generating fingerprint of an audio signal
US10249319B1 (en) 2017-10-26 2019-04-02 The Nielsen Company (Us), Llc Methods and apparatus to reduce noise from harmonic noise sources

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010154092A (ja) * 2008-12-24 2010-07-08 Fujitsu Ltd 雑音検出装置及び雑音検出方法
JP2013171130A (ja) * 2012-02-20 2013-09-02 Jvc Kenwood Corp 特殊信号検出装置、雑音信号抑制装置、特殊信号検出方法、雑音信号抑制方法

Also Published As

Publication number Publication date
US10249319B1 (en) 2019-04-02
JP2019079050A (ja) 2019-05-23
US20210280205A1 (en) 2021-09-09
US20200357424A1 (en) 2020-11-12
EP4300489A2 (en) 2024-01-03
US11557309B2 (en) 2023-01-17
JP6743107B2 (ja) 2020-08-19
US11017797B2 (en) 2021-05-25
JP7025089B2 (ja) 2022-02-24
EP4300489A3 (en) 2024-06-26
US11894011B2 (en) 2024-02-06
EP3477642B1 (en) 2023-12-27
US20190251984A1 (en) 2019-08-15
US10726860B2 (en) 2020-07-28
US20240119955A1 (en) 2024-04-11
US20230162753A1 (en) 2023-05-25
EP3477642A1 (en) 2019-05-01

Similar Documents

Publication Publication Date Title
JP7025089B2 (ja) 高調波ノイズ源からのノイズを抑制する方法、記憶媒体及び装置
CN108320730B (zh) 音乐分类方法及节拍点检测方法、存储设备及计算机设备
JP5826291B2 (ja) 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
EP2828856B1 (en) Audio classification using harmonicity estimation
US20140123836A1 (en) Musical composition processing system for processing musical composition for energy level and related methods
EP3899701B1 (fr) Mesure temporelle a haute precision d'evenements vibro-acoustiques en synchronisation avec un signal sonore sur dispositif a ecran tactile
JP2018506078A (ja) 発話の復元のためのシステムおよび方法
EP3847642B1 (en) Methods and apparatus to fingerprint an audio signal via normalization
JP5815435B2 (ja) 音源位置判定装置、音源位置判定方法、プログラム
CN114743571A (zh) 一种音频处理方法、装置、存储介质及电子设备
CN113593604A (zh) 检测音频质量方法、装置及存储介质
KR20220158673A (ko) 미디어 식별 방법 및 기기
US12032628B2 (en) Methods and apparatus to fingerprint an audio signal via exponential normalization
US20210157838A1 (en) Methods and apparatus to fingerprint an audio signal via exponential normalization
JP7461192B2 (ja) 基本周波数推定装置、アクティブノイズコントロール装置、基本周波数の推定方法及び基本周波数の推定プログラム
KR20240108548A (ko) 정규화를 통해 오디오 신호를 핑거프린팅하는 방법 및 장치
JP5495858B2 (ja) 音楽音響信号のピッチ推定装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220207

R150 Certificate of patent or registration of utility model

Ref document number: 7025089

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150