JP4866958B2 - Noise reduction in electronic devices with farfield microphones on the console - Google Patents

Noise reduction in electronic devices with farfield microphones on the console Download PDF

Info

Publication number
JP4866958B2
JP4866958B2 JP2009509909A JP2009509909A JP4866958B2 JP 4866958 B2 JP4866958 B2 JP 4866958B2 JP 2009509909 A JP2009509909 A JP 2009509909A JP 2009509909 A JP2009509909 A JP 2009509909A JP 4866958 B2 JP4866958 B2 JP 4866958B2
Authority
JP
Japan
Prior art keywords
signal
console
noise
narrowband
microphones
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009509909A
Other languages
Japanese (ja)
Other versions
JP2009535997A (en
Inventor
マオ シャドン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/381,727 external-priority patent/US7697700B2/en
Priority claimed from US11/418,988 external-priority patent/US8160269B2/en
Priority claimed from US11/381,725 external-priority patent/US7783061B2/en
Priority claimed from PCT/US2006/017483 external-priority patent/WO2006121896A2/en
Priority claimed from US11/418,989 external-priority patent/US8139793B2/en
Priority claimed from US11/429,047 external-priority patent/US8233642B2/en
Priority claimed from US11/381,728 external-priority patent/US7545926B2/en
Priority claimed from US11/381,724 external-priority patent/US8073157B2/en
Priority claimed from US11/381,721 external-priority patent/US8947347B2/en
Priority claimed from US11/381,729 external-priority patent/US7809145B2/en
Application filed by Sony Interactive Entertainment Inc, Sony Computer Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JP2009535997A publication Critical patent/JP2009535997A/en
Application granted granted Critical
Publication of JP4866958B2 publication Critical patent/JP4866958B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

[優先権の主張]
本出願は、本出願と譲受人が共通であって本出願と同時に係属する特許文献1の恩恵を主張し、その開示内容全体をここに援用する。本出願は、本出願と譲受人が共通であって本出願と同時に係属する特許文献2の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献3の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献4の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献5の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献6の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献7の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献8の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献9の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献10の恩恵を主張し、その開示内容全体をここに援用する。
米国特許出願 第11/381,727号,シャドン マオ, "NOISE REMOVAL FOR ELECTRONIC DEVICE WITH FAR FIELD MICROPHONE ON CONSOLE", 2006年5月4日出願, (代理人整理番号SCEA05073US00) 米国特許出願 第11/381,729号,シャドン マオ, "ULTRA SMALL MICROPHONE ARRAY", 2006年5月4日出願, (代理人整理番号SCEA05062US00) 米国特許出願 第11/381,728号,シャドン マオ, "ECHO AND NOISE CANCELATION", 2006年5月4日出願, (代理人整理番号SCEA05064US00) 米国特許出願 第11/381,725号,シャドン マオ, "METHODS AND APPARATUS FOR TARGETED SOUND DETECTION", 2006年5月4日出願, (代理人整理番号SCEA05072US00), 米国特許出願 第11/381,724号,シャドン マオ, "METHODS AND APPARATUS FOR TARGETED SOUND DETECTION AND CHARACTERIZATION", 2006年5月4日出願, (代理人整理番号SCEA05079US00) 米国特許出願 第11/381,721号,シャドン マオ, "SELECTIVE SOUND SOURCE LISTENING IN CONJUNCTION WITH COMPUTER INTERACTIVE PROCESSING", 2006年5月4日出願, (代理人整理番号SCEA04005 JUMBOUS) PCT出願 PCT/US06/17483号,シャドン マオ, "SELECTIVE SOUND SOURCE LISTENING IN CONJUNCTION WITH COMPUTER INTERACTIVE PROCESSING", 2006年5月4日出願, (代理人整理番号SCEA04005 JUMBOPCT) 米国特許出願 第11/418,988号,シャドン マオ, "METHODS AND APPARATUSES FOR ADJUSTING A LISTENING AREA FOR CAPTURING SOUNDS", 2006年5月4日出願, (代理人整理番号SCEA-00300) 米国特許出願 第11/418,989号,シャドン マオ, "METHODS AND APPARATUSES FOR CAPTURING AN AUDIO SIGNAL BASED ON VISUAL IMAGE", 2006年5月4日出願, (代理人整理番号SCEA-00400) 米国特許出願 第11/429,047号,シャドン マオ, "METHODS AND APPARATUSES FOR CAPTURING AN AUDIO SIGNAL BASED ON A LOCATION OF THE SIGNAL", 2006年5月4日出願, (代理人整理番号SCEA-00500)
[Priority claim]
This application claims the benefit of Patent Document 1, which is commonly assigned to this application and is the same as the present application, the entire disclosure of which is incorporated herein by reference. This application claims the benefit of Patent Document 2 that is commonly assigned to this application and is the same as the present application, the entire disclosure of which is incorporated herein. This application also claims the benefit of US Pat. No. 6,057,056, whose assignee is common to this application and is co-pending with this application, the entire disclosure of which is incorporated herein by reference. This application also claims the benefit of US Pat. No. 6,057,056, whose assignee is common to this application and is co-pending with this application, the entire disclosure of which is incorporated herein by reference. This application also claims the benefit of Patent Document 5, which is common to the present application and is assigned at the same time as the present application, the entire disclosure of which is incorporated herein. This application also claims the benefit of US Pat. No. 6,057,097, whose assignee is common to this application and co-pending with this application, the entire disclosure of which is incorporated herein by reference. This application also claims the benefit of Patent Document 7, which is commonly assigned to this application and is pending at the same time as this application, the entire disclosure of which is incorporated herein by reference. This application also claims the benefit of U.S. Pat. No. 6,053,075, whose assignee is common to this application and is co-pending with this application, the entire disclosure of which is incorporated herein by reference. This application also claims the benefit of U.S. Pat. No. 6,053,075, whose assignee is common to this application and is co-pending with this application, the entire disclosure of which is incorporated herein by reference. This application also claims the benefit of US Pat. No. 6,057,056, whose assignee is common to this application and is pending at the same time as this application, the entire disclosure of which is incorporated herein by reference.
US Patent Application No. 11 / 381,727, Shadon Mao, "NOISE REMOVAL FOR ELECTRONIC DEVICE WITH FAR FIELD MICROPHONE ON CONSOLE", filed May 4, 2006, (Attorney Docket Number SCEA05073US00) US Patent Application No. 11 / 381,729, Shadon Mao, "ULTRA SMALL MICROPHONE ARRAY", filed May 4, 2006, (Attorney Docket Number SCEA05062US00) US Patent Application No. 11 / 381,728, Shadon Mao, "ECHO AND NOISE CANCELATION", filed May 4, 2006, (Attorney Docket Number SCEA05064US00) US Patent Application No. 11 / 381,725, Shadon Mao, "METHODS AND APPARATUS FOR TARGETED SOUND DETECTION", filed May 4, 2006, (Attorney Docket Number SCEA05072US00), US Patent Application No. 11 / 381,724, Shadon Mao, "METHODS AND APPARATUS FOR TARGETED SOUND DETECTION AND CHARACTERIZATION", filed May 4, 2006, (Attorney Docket Number SCEA05079US00) US Patent Application No. 11 / 381,721, Shadon Mao, "SELECTIVE SOUND SOURCE LISTENING IN CONJUNCTION WITH COMPUTER INTERACTIVE PROCESSING", filed May 4, 2006, (Attorney Docket Number SCEA04005 JUMBOUS) PCT Application PCT / US06 / 17483, Shadon Mao, "SELECTIVE SOUND SOURCE LISTENING IN CONJUNCTION WITH COMPUTER INTERACTIVE PROCESSING", filed May 4, 2006, (Attorney Docket Number SCEA04005 JUMBOPCT) US Patent Application No. 11 / 418,988, Shadon Mao, "METHODS AND APPARATUSES FOR ADJUSTING A LISTENING AREA FOR CAPTURING SOUNDS", filed May 4, 2006, (Attorney Docket Number SCEA-00300) US Patent Application No. 11 / 418,989, Shadon Mao, "METHODS AND APPARATUSES FOR CAPTURING AN AUDIO SIGNAL BASED ON VISUAL IMAGE", filed May 4, 2006, (Attorney Docket SCEA-00400) US Patent Application No. 11 / 429,047, Shadon Mao, "METHODS AND APPARATUSES FOR CAPTURING AN AUDIO SIGNAL BASED ON A LOCATION OF THE SIGNAL", filed May 4, 2006, (Attorney Docket Number SCEA-00500)

多くの民生用電子装置において、様々なユーザコントロール装置や入力装置を含むコンソールが用いられている。テレビゲームコンソールや、ケーブルテレビセット・トップボックスや、デジタルビデオレコーダのような多くの用途において、コンソールにはマイクロフォンが組み込まれていることが望ましい。コストを削減するために、マイクロフォンは典型的には、優先的な受信方向を有さない従来型の全方向性マイクロフォンである。残念ながら、このような電子装置コンソールは、冷却ファン、ハードディスクドライブ、CD−ROMドライブ、デジタルビデオディスク(DVD)ドライブのようなノイズ源をも含む。コンソール上に位置するマイクロフォンは、例えばユーザの音声コマンドなどの所望の音声入力を多いに妨害しうる。この問題に対処するために、これらのノイズ源からのノイズをフィルタリング処理により除去する技術がこれらの装置に実装されている。   In many consumer electronic devices, consoles including various user control devices and input devices are used. In many applications, such as video game consoles, cable TV set / top boxes, and digital video recorders, it is desirable for the console to incorporate a microphone. In order to reduce costs, the microphone is typically a conventional omnidirectional microphone that does not have a preferred receiving direction. Unfortunately, such electronic device consoles also include noise sources such as cooling fans, hard disk drives, CD-ROM drives, and digital video disk (DVD) drives. A microphone located on the console can often interfere with a desired voice input, such as a user voice command. In order to cope with this problem, a technique for removing noise from these noise sources by filtering processing is implemented in these devices.

従来の手法は、広帯域(ブロードバンド)に分布するノイズをフィルタリング処理により除去する場合において、効果的であった。例えば、ファンからのノイズはガウス分布に従うため、周波数の広帯域にわたって分布している。このようなノイズは、ガウス分布によってシミュレーションすることができ、コンソールのマイクロフォンの入力信号から打ち消す(cancel)ことができる。例えばハードディスクやDVDドライブなどのディスクドライブからのノイズは、ガンマ分布や狭帯域ラプラス分布のような狭帯域(ナローバンド)周波数分布によって特徴づけられる。残念ながら、ガウス分布ノイズ用の方法であって、ガンマ分布に従うノイズの除去に適した決定的な方法はない。   The conventional method is effective in removing noise distributed over a wide band by a filtering process. For example, since noise from a fan follows a Gaussian distribution, it is distributed over a wide frequency band. Such noise can be simulated by a Gaussian distribution and can be canceled from the input signal of the console microphone. For example, noise from a disk drive such as a hard disk or a DVD drive is characterized by a narrow band frequency distribution such as a gamma distribution or a narrow band Laplace distribution. Unfortunately, there is no definitive method for gaussian noise and suitable for removing noise that follows a gamma distribution.

[発明の概要]
本発明の実施例は、1以上のマイクロフォンのあるコンソールを有し、狭帯域(ナローバンド)分布ノイズ源もまたそのコンソール上に位置する装置におけるノイズの低減を目的とする。広帯域に分布する所望の音と狭帯域に分布するノイズを含むマイクロフォン信号が、複数の周波数ビンに分割される。各周波数ビンにおいて、信号のその周波数ビン内の一部が、そのコンソールに位置する狭帯域ノイズ源の狭帯域分布特性に属するかどうか、決定される。狭帯域ノイズを低減するために、狭帯域分布に属する信号の一部を含む周波数ビンが、フィルタリング処理される。
[Summary of Invention]
Embodiments of the present invention aim to reduce noise in devices that have a console with one or more microphones, and a narrowband distributed noise source is also located on the console. A microphone signal including a desired sound distributed in a wide band and noise distributed in a narrow band is divided into a plurality of frequency bins. For each frequency bin, it is determined whether a portion of the signal in that frequency bin belongs to the narrow band distribution characteristic of the narrow band noise source located at the console. In order to reduce the narrow band noise, the frequency bin including a part of the signal belonging to the narrow band distribution is filtered.

本発明の教示は、添付の図面とともに、以下の詳細な図面を考慮することによって、容易に理解することができる。
本発明の1実施形態にかかる電子装置の概略図である。 図1に示されるタイプの装置におけるノイズ低減方法のフローチャートである。 図3A−3Bは、本発明の実施形態にかかる狭帯域ノイズ低減を説明するグラフであり、マイクロフォン信号を周波数の関数として示すグラフである。 図4A−4Bは、本発明の別の実施形態にかかる狭帯域ノイズ低減を説明するグラフであり、異なるマイクロフォンのマイクロフォン信号を周波数の関数として示すグラフである。
The teachings of the present invention can be readily understood by considering the following detailed drawings in conjunction with the accompanying drawings, in which:
1 is a schematic view of an electronic device according to an embodiment of the present invention. 2 is a flowchart of a noise reduction method in the apparatus of the type shown in FIG. 3A-3B are graphs illustrating narrowband noise reduction according to embodiments of the present invention and are graphs showing microphone signals as a function of frequency. 4A-4B are graphs illustrating narrowband noise reduction according to another embodiment of the present invention, showing the microphone signals of different microphones as a function of frequency.

[具体的な実施形態の説明]
以下の詳細な説明は、説明の目的のための具体的な細部を含むが、以下の細部について、多くの変形や変更が、本発明の範囲内において可能であることは、当該技術分野において通常の知識を有する者に理解されるだろう。したがって、以下に記述される本発明の実施例の説明により、特許請求の範囲に記載されている発明が一般性を失うことはなく、また、制限されることはない。
[Description of Specific Embodiment]
The following detailed description includes specific details for the purpose of description, but it is normal in the art that many variations and modifications of the following details are possible within the scope of the present invention. It will be understood by those who have knowledge of. Accordingly, the description of the embodiments of the present invention described below does not lose the generality of the invention described in the scope of claims and is not limited thereto.

図1に示されるように、本発明の実施形態にかかる電子装置100は、1以上のマイクロフォン104A、104Bを有するコンソール102を含む。ここで用いられるように、コンソールという語は、一般的に、計算かつ/または信号処理機能を実行する電子コンポーネントを含むスタンドアローンユニットを指す。コンソールは、例えばジョイスティック106のような、1以上の外部入力装置からの入力を受けてもよい。そして、コンソールは、例えばモニタ108のような1以上の外部出力装置に出力を供給してもよい。コンソール102は、CPU110とメモリ112を含んでもよい。コンソールは、オプションとして、コンソールのコンポーネントを冷却するためのファン114を含んでもよい。コンソール102は、例えば、ソニープレイステーション(登録商標)のようなテレビゲームシステムのコンソールであってもよく、ケーブルテレビセット・トップボックスであってもよく、カルフォルニア州アルビソのTiVoIncが提供するTiVoデジタルビデオレコーダであってもよい。   As shown in FIG. 1, an electronic device 100 according to an embodiment of the present invention includes a console 102 having one or more microphones 104A, 104B. As used herein, the term console generally refers to a stand-alone unit that includes electronic components that perform computational and / or signal processing functions. The console may receive input from one or more external input devices, such as joystick 106. The console may then provide output to one or more external output devices, such as the monitor 108. The console 102 may include a CPU 110 and a memory 112. The console may optionally include a fan 114 for cooling the components of the console. The console 102 may be a console of a video game system such as Sony PlayStation (registered trademark) or a cable TV set / top box, and is a TiVo digital video recorder provided by TiVoInc in Alviso, California. It may be.

プロセッサユニット110とメモリ112は、システムバス116を介して互いに接続されていてもよい。マイクロフォン104Aと104Bは、入出力(I/O)エレメント118を通して、プロセッサかつ/またはメモリと接続されていてもよい。ここで用いられるように、入出力(I/O)という言葉は、一般的に、コンソール100への/からの、および周辺装置への/からのデータを転送する任意のプログラム、オペレーション、または装置を指す。すべてのデータ転送が、一の装置からの出力であり、他の一の装置への入力であると見なすことができるであろう。   The processor unit 110 and the memory 112 may be connected to each other via a system bus 116. Microphones 104A and 104B may be connected to a processor and / or memory through input / output (I / O) elements 118. As used herein, the term input / output (I / O) generally refers to any program, operation, or device that transfers data to / from console 100 and to / from peripheral devices. Point to. All data transfers could be considered output from one device and input to another device.

装置100は、コンソール102に対して内部の、または外部の追加的な1以上の周辺ユニットを含んでもよい。周辺装置は、キーボードやマウスなどの入力のみの装置や、プリンタなどの出力のみの装置、そして上書き可能CD−ROMなどの入力装置かつ出力装置として動作する装置を含む。周辺装置という言葉は、マウス、キーボード、プリンタ、モニタ、マイクロフォン、ゲームコントローラ、カメラ、外部Zipドライブ、スキャナなどの外部装置と、CD−ROMドライブ、CD−Rドライブ、ハードディスクドライブ、DVDドライブ、内部モデムなどの内部装置(例えば、ディスクドライブ120)、および、フラッシュメモリ用リーダ/ライタ、ハードドライブなどのそのほかの周辺装置を含む。   The device 100 may include one or more additional peripheral units internal to or external to the console 102. Peripheral devices include input only devices such as a keyboard and mouse, output only devices such as a printer, and devices that operate as input and output devices such as an overwritable CD-ROM. Peripheral devices are external devices such as mouse, keyboard, printer, monitor, microphone, game controller, camera, external Zip drive, scanner, CD-ROM drive, CD-R drive, hard disk drive, DVD drive, internal modem And other peripheral devices such as a flash memory reader / writer, hard drive, and the like.

コンソールは少なくとも一つの、ディスクドライブ120のような狭帯域分布ノイズ源を含む。ディスクドライブ120からの狭帯域ノイズは、マイクロフォン入力x(t)、x(t)から生成されたデジタル信号からフィルタリング処理される。これにより、例えばリモートソース101からの音声などの所望の音が、ディスクドライブ120の音によりかき消されないようにできる。狭帯域ノイズはガンマ分布により特徴づけられるかもしれない。ソース101からの所望の音は、望ましくは、ガウス分布確率密度関数のような広帯域確率密度関数によって特徴づけられる。 The console includes at least one narrow band distributed noise source, such as a disk drive 120. Narrowband noise from the disk drive 120 is filtered from the digital signal generated from the microphone inputs x A (t), x B (t). Thereby, for example, a desired sound such as a sound from the remote source 101 can be prevented from being erased by the sound of the disk drive 120. Narrowband noise may be characterized by a gamma distribution. The desired sound from the source 101 is preferably characterized by a broadband probability density function, such as a Gaussian probability density function.

メモリ112は、プロセッサ110によって実行可能なコード化された命令、かつ/または、狭帯域ディスクドライブノイズの除去を促進するデータ115を含んでもよい。特に、データ115は、ディスクドライブからの音の録音の長時間トレーニングデータから作成された分布関数を含んでもよい。分布関数は、ルックアップテーブルの形で格納されていてもよい。   Memory 112 may include coded instructions that are executable by processor 110 and / or data 115 that facilitates removal of narrowband disk drive noise. In particular, the data 115 may include a distribution function created from long-time training data of sound recordings from the disk drive. The distribution function may be stored in the form of a lookup table.

コード化された命令113は、図1に示されるタイプの装置における狭帯域分布ノイズを低減するための方法200を実行してもよい。方法200によると、1以上のコンソールマイクロフォン入力信号104A、104Bは、ステップ202に示されるように、周波数ビンに分割される。信号を複数の周波数ビンに分割するステップは、時間窓で切り取られた信号の一部(例えば、マイクロフォン信号x(t))を取得するステップ、その時間窓で切り取られた信号の一部を周波数領域信号x(f)に変換するステップ(例えば高速フーリエ変換を用いて)、周波数領域信号を周波数ビンに分割するステップを含んでもよい。ステップ204において、例えば、約32ミリ秒のマイクロフォンデータが、周波数ビンに分類するためのバッファに格納されているかもしれない。それぞれの周波数ビンについて、信号の一部であるその周波数ビン内の信号が、狭帯域ディスクドライブノイズの狭帯域分布特性に属するかどうか、決定される。ステップ206に示されるように、狭帯域分布に属する信号の一部を含む周波数ビンは、入力信号から、フィルタリング処理によって除去される。 The encoded instructions 113 may perform a method 200 for reducing narrowband distributed noise in a device of the type shown in FIG. According to method 200, one or more console microphone input signals 104A, 104B are divided into frequency bins, as shown in step 202. The step of dividing the signal into a plurality of frequency bins includes obtaining a portion of the signal clipped by the time window (eg, microphone signal x A (t)), and subtracting the portion of the signal clipped by the time window. It may include the steps of converting to a frequency domain signal x (f) (eg, using fast Fourier transform) and dividing the frequency domain signal into frequency bins. In step 204, for example, approximately 32 milliseconds of microphone data may be stored in a buffer for classification into frequency bins. For each frequency bin, it is determined whether the signal within that frequency bin that is part of the signal belongs to the narrow band distribution characteristic of the narrow band disk drive noise. As shown in step 206, frequency bins containing a portion of the signal belonging to the narrowband distribution are removed from the input signal by a filtering process.

入力信号のフィルタリング処理については、図3A−Bを参照することにより理解されるであろう。具体的には、図3Aに示されるように、周波数領域信号x(f)は、広帯域信号302と狭帯域信号304の組み合わせであると見なすことができるであろう。図3Bに示されるように、これらの信号が周波数ビン306に分割されるとき、各ビンは、広帯域信号302の一部と、狭帯域信号304の一部に対応する値を含む。信号x(f)の、所与の周波数ビンにおける狭帯域信号304に起因する一部(図3Bにおいて、破線の棒グラフで示されている)は、トレーニングデータから予測することができるであろう。この部分は、そのビンにおいて狭帯域ノイズをフィルタリング処理により除去するために、周波数ビン306内の値から差し引かれてもよい。   The input signal filtering process will be understood with reference to FIGS. 3A-B. Specifically, as shown in FIG. 3A, the frequency domain signal x (f) could be considered as a combination of a wideband signal 302 and a narrowband signal 304. As shown in FIG. 3B, when these signals are divided into frequency bins 306, each bin includes a value corresponding to a portion of the wideband signal 302 and a portion of the narrowband signal 304. The portion of signal x (f) due to narrowband signal 304 in a given frequency bin (shown in FIG. 3B by a dashed bar graph) could be predicted from the training data. This portion may be subtracted from the value in the frequency bin 306 to remove narrowband noise in that bin by filtering.

狭帯域信号304は、以下のように予測されてもよい。初めに、分布モデルのトレーニングのために、大きなボリュームにおいて、狭帯域信号サンプルが採集される。分布モデルは、スピーチモデリングのようなパターン認識技術分野において、当業者に広く知られている。狭帯域信号304のための分布モデルは、スピーチモデリングにおいて用いられるモデルと、いくつかの例外を除いて近似する。具体的には、ガウス分布による広帯域分布と考えられているスピーチと異なり、狭帯域信号304内の狭帯域ノイズは、「ガンマ」分布密度関数を有する。この分布モデルは、「ガンマミックスモデル」として知られている。これに対して、話者/言語認識のようなスピーチ応用例においては、通常、「ガウス分布ミックスモデル」が用いられる。これら二つのモデルは非常に近似しており、基礎となる分布関数のみが、大きく異なる。モデルトレーニング手法は、スピーチモデリングにおいて広く利用可能である「予測最大」(EM:Estimate−Maximize)アルゴリズムに従う。EMアルゴリズムは、トレーニングデータセットから、モデルパラメータの組を予測するインタラクティブな尤度最大化(liklihood maximization)方法である。特徴ベクトル(feature vector)が、パワースペクトラムの対数から直接的に生成される。これに対して、スピーチモデルにおいては、通常、DCTやセプトラム係数(ceptrum−coefficient)のような、さらなる圧縮が適用される。これは、興味の対象となる信号は狭帯域に分布し、広帯域バックグラウンドにおける減衰につながる帯域平均は望しくないからである。実時間において、モデルは、狭帯域ノイズパワースペクトラム密度(PSD)を予測するために用いられる。   Narrowband signal 304 may be predicted as follows. Initially, narrowband signal samples are collected in a large volume for training the distribution model. Distribution models are well known to those skilled in the art of pattern recognition techniques such as speech modeling. The distribution model for narrowband signal 304 approximates the model used in speech modeling with some exceptions. Specifically, unlike speech that is considered a wideband distribution with a Gaussian distribution, the narrowband noise in the narrowband signal 304 has a “gamma” distribution density function. This distribution model is known as a “gamma mix model”. On the other hand, in a speech application such as speaker / language recognition, a “Gaussian distribution mixed model” is usually used. These two models are very close and differ only in the underlying distribution function. The model training approach follows an “Estimate-Maximize” (EM) algorithm that is widely available in speech modeling. The EM algorithm is an interactive likelihood maximization method that predicts a set of model parameters from a training data set. A feature vector is generated directly from the logarithm of the power spectrum. In contrast, speech models typically apply further compression, such as DCT or septum-coefficient. This is because the signal of interest is distributed in a narrow band and band averaging that leads to attenuation in the broadband background is not desired. In real time, the model is used to predict narrowband noise power spectral density (PSD).

このようなモデルに対するアルゴリズムは以下のように進められる。   The algorithm for such a model proceeds as follows.

初めに、信号x(t)が、時間領域から周波数領域に変換される。
X(k)=fft(x(t))
ここで、kは、周波数インデックスである。
First, the signal x (t) is transformed from the time domain to the frequency domain.
X (k) = fft (x (t))
Here, k is a frequency index.

次に周波数領域信号X(k)から、パワースペクトラムが取得される。
yy(k)=X(k).conj(X(k))
ここで、「conj」は、複素共役を指す。
Next, a power spectrum is acquired from the frequency domain signal X (k).
S yy (k) = X (k). * Conj (X (k))
Here, “conj” refers to a complex conjugate.

次に、パワースペクトラムの対数から、特徴ベクトルV(k)が、取得される。
V(k)=log(Syy(k))
Next, a feature vector V (k) is acquired from the logarithm of the power spectrum.
V (k) = log (S yy (k))

「特徴ベクトル」という語は、パターン認識において広く用いられる語である。基本的に、任意のパターンマッチングは、1)先験的な(priori)特徴空間における分布を定義するあらかじめトレーニングされたモデルと、2)ランタイムが観測される特徴ベクトルと含む。タスクは、特徴ベクトルをモデルに対してマッチングすることである。事前にトレーニングされたガンマ<モデル>を所与として、狭帯域ノイズが存在する確率<P(k)>は、この観測された特徴V(k)から取得できる。
(k)=Gamma(Model,V(k))
The term “feature vector” is a word that is widely used in pattern recognition. Basically, arbitrary pattern matching includes 1) a pretrained model that defines a distribution in a priori feature space, and 2) a feature vector whose runtime is observed. The task is to match feature vectors against the model. Given a pretrained gamma <model>, the probability < N (k)> that narrowband noise is present can be obtained from this observed feature V (k).
P n (k) = Gamma (Model, V (k))

狭帯域ノイズPSDは、適応的に更新される。
nn(k)=αnn(k)+(1−α)yy(k)(k)+Snn(k)(1−P(k))
Pn(k)が、0であるならば、すなわち、狭帯域ノイズは存在せず、Snn(k)は、変化しない。P(k)=1であるならば、すなわち、周波数<k>は、完全に狭帯域ノイズである。そうすると、
nn(k)=αnn(k)+(1−α)yy(k)
が成り立つ。これは基本的に、統計的ピリオドグラム平均である。ここでαは、スムージングファクタである。
The narrowband noise PSD is adaptively updated.
S nn (k) = α * S nn (k) + (1-α) * S yy (k) * P n (k) + S nn (k) * (1-P n (k))
If Pn (k) is 0, that is, there is no narrowband noise and S nn (k) does not change. If P n (k) = 1, that is, the frequency <k> is completely narrowband noise. Then
S nn (k) = α * S nn (k) + (1−α) * S yy (k)
Holds. This is basically a statistical periodogram average. Here, α is a smoothing factor.

予測ノイズPSDを所与として、クリーンな音声信号を予測することは、複雑ではない。このような予測を実行するためのアルゴリズムの例は、よく知られており、非特許文献1および非特許文献に記載されるMMSEに基づく。両文献の開示内容を、ここに援用する。
Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator," IEEE Trans. Acoust, Speech, Signal Processing, Vol. ASSP-32, 1109-112ページ, 1984年12月 D. Malah, "Speech enhancement using a minimum mean-square error log- spectral amplitude estimator," IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP- 33, 443-445ページ, 1985年4月
Predicting a clean speech signal given the prediction noise PSD is not complicated. Examples of algorithms for performing such prediction are well known and are based on MMSE described in Non-Patent Literature 1 and Non-Patent Literature. The disclosures of both documents are incorporated herein by reference.
Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator," IEEE Trans. Acoust, Speech, Signal Processing, Vol. ASSP-32, 1109-112, 1984 12 Moon D. Malah, "Speech enhancement using a minimum mean-square error log- spectral amplitude estimator," IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-33, pp. 443-445, April 1985

また別の実施形態においては、フィルタリング処理に当たって、コンソール102上の2以上のマイクロフォンの存在を有利に活用してもよい。コンソール102上に二つのマイクロフォン104A、104Bがある時には、そのうちの一方(104B)が他方(104)よりも、ディスクドライブの近くにあるかもしれない。その結果、マイクロフォン入力信号x(t)とx(t)とで、ディスクドライブ120からのノイズの到着時間が異なる。到着時間の差は、図4A−Bに示されるように、入力信号x(t)とx(t)が、それぞれx(f)とx(f)へと周波数変換されたときの、周波数分布の差に帰着する。これに対して、リモートソースからの周波数が広帯域に分布することに関しては、x(t)とx(t)とについて、それほど違いはないであろう。しかしながら、マイクロフォン104Aからの狭帯域信号304Aの周波数分布は、マイクロフォン104Bからの周波数分布304Bに対して、周波数がシフトしているだろう。周波数ビン306に対する狭帯域ノイズの寄与は、二つのマイクロフォン104A、104Bからの周波数領域信号x(f)、x(f)から特徴ベクトルV(k)を生成することにより決定することができる。 In another embodiment, the presence of two or more microphones on the console 102 may be advantageously utilized in the filtering process. When there are two microphones 104A, 104B on the console 102, one of them (104B) may be closer to the disk drive than the other (104). As a result, the arrival time of noise from the disk drive 120 differs between the microphone input signals x A (t) and x B (t). As shown in FIGS. 4A-B, the difference in arrival time is obtained when the input signals x A (t) and x B (t) are frequency-converted to x A (f) and x B (f), respectively. This results in a difference in frequency distribution. On the other hand, with respect to the fact that the frequency from the remote source is distributed over a wide band, there will not be much difference between x A (t) and x B (t). However, the frequency distribution of the narrowband signal 304A from the microphone 104A will be shifted in frequency with respect to the frequency distribution 304B from the microphone 104B. The narrow band noise contribution to the frequency bin 306 can be determined by generating a feature vector V (k) from the frequency domain signals x A (f), x B (f) from the two microphones 104A, 104B. .

例えば、第一特徴ベクトルV(k,A)は、マイクロフォン104AについてのパワースペクトラムSyy(k,A)から生成される。
V(k,A)=log(Syy(k,A))
For example, the first feature vector V (k, A) is generated from the power spectrum S yy (k, A) for the microphone 104A.
V (k, A) = log (S yy (k, A))

第二特徴ベクトルV(k,B)は、マイクロフォン104BについてのパワースペクトラムSyy(k,B)から生成される。
V(k,B)=log(Syy(k,B))
The second feature vector V (k, B) is generated from the power spectrum S yy (k, B) for the microphone 104B.
V (k, B) = log (S yy (k, B))

特徴ベクトルV(k)は、V(k,A)とV(k,B)とを、単純に連結することにより得られる。
V(k)=[V(k,1),V(k,2)]
The feature vector V (k) is obtained by simply connecting V (k, A) and V (k, B).
V (k) = [V (k, 1), V (k, 2)]

残りのモデルトレーニング、実時間検出は、モデルサイズと特徴ベクトルの次元が倍であることを除いて、同じである。上述の手法においては、アレイビームフォーミング(array beam forming)も、到着時間差に依存する手法も用いていないが、実際には、空間情報は、トレーニングされたモデルとランタイム特徴ベクトルに、暗に含まれており、検出における正確性を大いに向上させる。   The rest of the model training and real-time detection is the same except that the model size and feature vector dimensions are doubled. The above approach does not use array beam forming or an approach that depends on arrival time differences, but in practice, spatial information is implicitly included in the trained model and runtime feature vectors. And greatly improve the accuracy of detection.

本発明の実施形態は、ここで提示されたように用いられてもよく、また他のユーザ入力メカニズムと共に用いられてもよい。方位角方向や音声のボリュームを追跡したり測定したりするメカニズム、かつ/または、能動的または受動的にオブジェクトの位置を追跡するメカニズム、マシン・ビジョンを用いるメカニズム、これらの組み合わせなどである。追跡されるオブジェクトは、システムへのフィードバックを操作する補助的なコントロール装置やボタンを含んでもよい。そのようなフィードバックには、光源からの光の放射、音質の歪曲手段、その他の適切な送信機、変調器、コントロール装置、ボタン、圧力パッドなどが含まれてもよいが、これらに制限されるものではない。それは、同じ符号化状態の転送や変調に影響を及ぼしてもよく、かつ/または、システムによって追跡されている装置への命令や、その装置からの命令を転送してもよい。そのような装置は、本発明の実施形態に関連して用いられるシステムの一部であったり、またはシステムと相互作用したり、またはシステムに影響を与えたりする。   Embodiments of the present invention may be used as presented herein and may be used with other user input mechanisms. A mechanism for tracking and measuring the azimuth direction and volume of sound, and / or a mechanism for actively or passively tracking the position of an object, a mechanism using machine vision, a combination thereof, and the like. The tracked object may include auxiliary controls and buttons that manipulate feedback to the system. Such feedback may include, but is not limited to, emission of light from the light source, sound quality distortion means, other suitable transmitters, modulators, control devices, buttons, pressure pads, etc. It is not a thing. It may affect the transfer and modulation of the same coding state and / or transfer instructions to and from the device being tracked by the system. Such devices are part of, or interact with, or affect the system used in connection with embodiments of the present invention.

以上は、本発明の好ましい実施形態の完全な記述であるが、他の様々な変形、変更、等価物への置換が可能である。それゆえ、本発明の範囲は、上記の記述によって決定されるのではなく、以下の請求項によって決定されるべきであり、その完全な等価物もその範囲に含まれる。ここで記述された特徴は、好ましいものであるか否かに関わらず、ここで述べたいずれの特徴と組み合わされてもよい。以下の請求項においては、特に明示的に断らない限りは、各要素の数量は一以上である。ここに、添付される請求項は、所与の請求項において、「〜ための手段」との語句を用いて明示的に示される場合の他は、ミーンズ・プラス・ファンクションの制限を含むと解されてはならない。   The above is a complete description of the preferred embodiment of the present invention, but various other variations, modifications, and equivalents are possible. The scope of the invention should, therefore, be determined not by the above description, but should be determined by the following claims, including their full equivalents. The features described herein may be combined with any of the features described herein, whether or not they are preferred. In the following claims, unless expressly stated otherwise, the quantity of each element is one or more. The claims appended hereto are understood to include means plus function limitations in the given claims, except where explicitly indicated using the phrase “means for”. Must not be done.

Claims (21)

コンソールを有する電子装置においてノイズ低減方法を実装するためのプロセッサ可読命令セットを格納したプロセッサ可読媒体であって、前記コンソールには1以上のマイクロフォンが位置しており、前記コンソールには狭帯域分布ノイズのノイズ源が位置しており、プロセッサはマイクロフォンと接続されており、メモリはプロセッサと接続されており、
前記プロセッサ可読命令は、
実行された際に、広帯域に分布する所望の音と、前記コンソール上に位置するノイズ源からの狭帯域分布ノイズとを含む信号を、前記1以上のマイクロフォンから取得するステップを前記装置に実行せしめる命令と、
実行された際に、前記信号を複数の周波数ビンに分割するステップを実行せしめる命令と、
実行された際に、前記信号のパワースペクトラムの対数から特徴ベクトルを生成し、その特徴ベクトルについて事前にトレーニングされたモデルに対するマッチングをとることにより、各周波数ビンについて、その周波数ビン内の前記信号の一部が、前記コンソール上に位置するノイズ源からの狭帯域分布特性に属するか決定するステップを実行せしめる命令と、
実行された際に、前記1以上のマイクロフォンからの信号から生成された信号データから、狭帯域分布特性に属する前記信号の一部を含む周波数ビンをフィルタリング処理するステップを実行せしめる命令と、
を含むプロセッサ可読媒体。
A processor readable medium storing a processor readable instruction set for implementing a noise reduction method in an electronic device having a console, wherein the console has one or more microphones, and the console has a narrowband distributed noise. Noise source is located, the processor is connected to the microphone, the memory is connected to the processor,
The processor readable instructions are:
When executed, causes the apparatus to acquire from the one or more microphones a signal including a desired sound distributed in a wide band and narrowband distributed noise from a noise source located on the console. Instructions and
When executed, the instructions allowed to perform the step of dividing the signal into a plurality of frequency bins,
When executed, for each frequency bin, generate a feature vector from the logarithm of the power spectrum of the signal and match the pre-trained model for that feature vector, so that the signal in the frequency bin part, the instructions allowed to perform the step of determining whether belonging to the narrow band distribution characteristic from the noise source located on the console,
When executed, from the signal data generated from a signal from the one or more microphones, and instructions allowed to perform the step of filtering the frequency bins comprising a portion of the signals belonging to the narrow band distribution characteristic,
A processor readable medium comprising:
前記その周波数ビン内の前記信号の一部が狭帯域分布特性に属するか決定するステップは、その周波数ビン内の前記信号の一部に対応する値と、前記コンソール上に位置するノイズ源からの既知の信号から導出された、その周波数ビンの値として格納されている値とを比較するステップを含む請求項1に記載のプロセッサ可読媒体。  Determining whether a portion of the signal in the frequency bin belongs to a narrowband distribution characteristic includes: a value corresponding to the portion of the signal in the frequency bin and a noise source located on the console. The processor-readable medium of claim 1, comprising comparing a value derived from a known signal and stored as a value for that frequency bin. 前記1以上のマイクロフォンは、第1マイクロフォンと、第2マイクロフォンとを含み、
前記1以上のマイクロフォンから信号を取得するステップは、前記第1マイクロフォンから第1信号を取得するステップと、前記第2マイクロフォンから第2信号を取得するステップとを含み、
前記その周波数ビン内の前記信号の一部が狭帯域分布特性に属するか決定するステップは、前記第1信号から第1ベクトル特性を決定し、前記第2信号から第2ベクトル特性を取得するステップと、前記第1信号と前記第2信号とから結合特徴ベクトルを形成し、その結合特徴ベクトルをモデルに対してマッチングするステップとを含む請求項1に記載のプロセッサ可読媒体。
The one or more microphones include a first microphone and a second microphone;
Obtaining a signal from the one or more microphones includes obtaining a first signal from the first microphone and obtaining a second signal from the second microphone;
The step of determining whether a part of the signal in the frequency bin belongs to a narrowband distribution characteristic is a step of determining a first vector characteristic from the first signal and obtaining a second vector characteristic from the second signal The processor readable medium of claim 1, comprising: forming a combined feature vector from the first signal and the second signal and matching the combined feature vector against a model.
前記信号を、複数の周波数ビンに分割するステップは、
時間窓で切り取られた前記信号の一部を取り込むステップと、
前記時間窓で切り取られた前記信号の一部を周波数領域信号に変換するステップと、
前記周波数領域信号を、複数の周波数ビンに分割するステップと、
を含む請求項1に記載のプロセッサ可読媒体。
The step of dividing the signal into a plurality of frequency bins comprises:
Capturing a portion of the signal clipped by a time window;
Converting a portion of the signal clipped in the time window into a frequency domain signal;
Dividing the frequency domain signal into a plurality of frequency bins;
The processor readable medium of claim 1 comprising:
前記広帯域に分布する所望の音は、音声である請求項1に記載のプロセッサ可読媒体。  The processor-readable medium according to claim 1, wherein the desired sound distributed in a wide band is a voice. 前記狭帯域分布ノイズのノイズ源は、ディスクドライブである請求項1に記載のプロセッサ可読媒体。  The processor-readable medium of claim 1, wherein the noise source of the narrowband distributed noise is a disk drive. 前記広帯域に分布する所望の音は、ガウス分布確率密度関数で特徴づけられる請求項1に記載のプロセッサ可読媒体。  The processor-readable medium of claim 1, wherein the desired sound distributed over a wide band is characterized by a Gaussian probability density function. 前記狭帯域ノイズは、ガンマ分布確率密度関数で特徴づけられる請求項1に記載のプロセッサ可読媒体。  The processor readable medium of claim 1, wherein the narrowband noise is characterized by a gamma distribution probability density function. 電子装置であって、
コンソールと、
前記コンソール上に位置する1以上のマイクロフォンと、
前記コンソール上に位置する狭帯域ノイズのノイズ源と、
前記マイクロフォンに接続されているプロセッサと、
前記プロセッサに接続されており、ノイズ低減方法を実装するためのプロセッサ可読命令セットを格納するメモリとを備え、
前記プロセッサ可読命令は、
実行された際に、広帯域に分布する所望の音と、前記コンソール上に位置するノイズ源からの狭帯域分布ノイズとを含む信号を、前記1以上のマイクロフォンから取得するステップを前記装置に実行せしめる命令と、
実行された際に、前記信号を複数の周波数ビンに分割するステップを実行せしめる命令と、
実行された際に、前記信号のパワースペクトラムの対数から特徴ベクトルを生成し、その特徴ベクトルについて事前にトレーニングされたモデルに対するマッチングをとることにより、各周波数ビンについて、その周波数ビン内の前記信号の一部が、前記コンソール上に位置するノイズ源からの狭帯域分布特性に属するか決定するステップを実行せしめる命令と、
実行された際に、前記1以上のマイクロフォンからの信号から生成された信号データから、狭帯域分布特性に属する前記信号の一部を含む周波数ビンをフィルタリング処理するステップを実行せしめる命令と、
を含む電子装置。
An electronic device,
Console,
One or more microphones located on the console;
A narrowband noise source located on the console;
A processor connected to the microphone;
A memory connected to the processor and storing a processor readable instruction set for implementing a noise reduction method;
The processor readable instructions are:
When executed, causes the apparatus to acquire from the one or more microphones a signal including a desired sound distributed in a wide band and narrowband distributed noise from a noise source located on the console. Instructions and
When executed, the instructions allowed to perform the step of dividing the signal into a plurality of frequency bins,
When executed, for each frequency bin, generate a feature vector from the logarithm of the power spectrum of the signal and match the pre-trained model for that feature vector, so that the signal in the frequency bin part, the instructions allowed to perform the step of determining whether belonging to the narrow band distribution characteristic from the noise source located on the console,
When executed, from the signal data generated from a signal from the one or more microphones, and instructions allowed to perform the step of filtering the frequency bins comprising a portion of the signals belonging to the narrow band distribution characteristic,
Including electronic devices.
前記実行された際に各周波数ビンについてその周波数ビン内の前記信号の一部が前記コンソール上に位置するノイズ源からの狭帯域分布特性に属するか決定するステップを実行せしめる命令は、
実行された際に、その周波数ビン内の前記信号の一部に対応する値と、前記コンソール上に位置するノイズ源からの既知の信号から導出されたその周波数ビンの値として格納されている値とを比較する1以上の命令を含む請求項9に記載の装置。
Instructions allowed to perform the step of determining whether belonging to the narrow band distribution characteristic of the noise source a portion of the signal in that frequency bin for each frequency bin in the are executed is located on the console,
When executed, a value corresponding to a portion of the signal in the frequency bin and a value stored as the value of the frequency bin derived from a known signal from a noise source located on the console The apparatus of claim 9, comprising one or more instructions for comparing to.
前記メモリに格納されたルックアップテーブルをさらに備え、
前記ルックアップテーブルは、前記格納されている値を含む請求項10に記載の装置。
Further comprising a lookup table stored in the memory;
The apparatus of claim 10, wherein the look-up table includes the stored value.
前記1以上のマイクロフォンは、第1マイクロフォンと、第2マイクロフォンとを含む請求項9に記載の装置。  The apparatus of claim 9, wherein the one or more microphones include a first microphone and a second microphone. 前記実行された際に信号を前記1以上のマイクロフォンから取得するステップを実行せしめる命令は、
実行された際に、前記第1マイクロフォンから第1信号を取得するステップと、前記第2マイクロフォンとから第2信号を取得するステップとを前記装置に実行せしめる1以上の命令を含み、
前記その周波数ビン内の前記信号の一部が狭帯域分布特性に属するか決定するステップは、前記第1信号から第1ベクトル特性を決定し、前記第2信号から第2ベクトル特性を取得するステップと、前記第1信号と前記第2信号とから結合特徴ベクトルを形成し、その結合特徴ベクトルをモデルに対してマッチングするステップとを含む請求項9に記載の装置。
Instructions allowed to perform the step of obtaining a signal when the run from the one or more microphones,
One or more instructions that, when executed, cause the apparatus to perform the steps of obtaining a first signal from the first microphone and obtaining a second signal from the second microphone;
The step of determining whether a part of the signal in the frequency bin belongs to a narrowband distribution characteristic is a step of determining a first vector characteristic from the first signal and obtaining a second vector characteristic from the second signal And forming a combined feature vector from the first signal and the second signal, and matching the combined feature vector to a model.
前記実行された際に前記信号を複数の周波数ビンに分割するステップを実行せしめる命令は、
時間窓で切り取られた前記信号の一部を取り込むステップと、
前記時間窓で切り取られた前記信号の一部を周波数領域信号に変換するステップと、
前記周波数領域信号を、複数の周波数ビンに分割するステップと、
を前記装置に実行せしめる命令を含む請求項9に記載の装置。
Wherein the step of dividing the signal into a plurality of frequency bins when executed allowed to execute instructions,
Capturing a portion of the signal clipped by a time window;
Converting a portion of the signal clipped in the time window into a frequency domain signal;
Dividing the frequency domain signal into a plurality of frequency bins;
10. The device of claim 9, comprising instructions that cause the device to execute.
前記広帯域に分布する所望の音は、音声である請求項9に記載の装置。  The apparatus according to claim 9, wherein the desired sound distributed in a wide band is a voice. 前記狭帯域分布ノイズのノイズ源は、ディスクドライブである請求項9に記載の装置。  The apparatus according to claim 9, wherein the noise source of the narrow band distributed noise is a disk drive. 前記広帯域に分布する所望の音は、ガウス分布確率密度関数で特徴づけられる請求項9に記載の装置。  The apparatus of claim 9, wherein the desired sound distributed over a wide band is characterized by a Gaussian probability density function. 前記狭帯域ノイズは、ガンマ分布確率密度関数で特徴づけられる請求項9に記載の装置。  The apparatus of claim 9, wherein the narrowband noise is characterized by a gamma distribution probability density function. 前記コンソールは、テレビゲームコンソールである請求項9に記載の装置。  The apparatus of claim 9, wherein the console is a video game console. 前記コンソールは、デジタルビデオレコーダ、またはケーブルテレビセットトップボックスである請求項9に記載の装置。  The apparatus according to claim 9, wherein the console is a digital video recorder or a cable TV set top box. コンソールを有する装置においてノイズを低減する方法であって、そのコンソールは、1以上のマイクロフォンとそのコンソール上に位置する狭帯域分布ノイズ源とを有し、
広帯域に分布する所望の音と、前記コンソール上に位置するノイズ源からの狭帯域分布ノイズとを含む信号を、前記1以上のマイクロフォンから取得するステップと、
前記信号を、複数の周波数ビンに分割するステップと、
前記信号のパワースペクトラムの対数から特徴ベクトルを生成し、その特徴ベクトルについて事前にトレーニングされたモデルに対するマッチングをとることにより、各周波数ビンについて、その周波数ビン内の前記信号の一部が、前記コンソール上に位置するノイズ源からの狭帯域分布特性に属するか、決定するステップと、
前記1以上のマイクロフォンからの信号から生成された信号データから、狭帯域分布特性に属する前記信号の一部を含む周波数ビンをフィルタリング処理するステップと、
を備える方法。
A method of reducing noise in a device having a console, the console comprising one or more microphones and a narrowband distributed noise source located on the console;
Obtaining from the one or more microphones a signal comprising a desired sound distributed over a wide band and narrowband distributed noise from a noise source located on the console;
Dividing the signal into a plurality of frequency bins;
By generating a feature vector from the logarithm of the power spectrum of the signal and matching against a pretrained model for that feature vector, for each frequency bin, a portion of the signal in that frequency bin is Determining whether it belongs to a narrowband distribution characteristic from a noise source located above;
Filtering frequency bins including a portion of the signal belonging to a narrowband distribution characteristic from signal data generated from signals from the one or more microphones ;
A method comprising:
JP2009509909A 2006-05-04 2007-03-30 Noise reduction in electronic devices with farfield microphones on the console Expired - Fee Related JP4866958B2 (en)

Applications Claiming Priority (21)

Application Number Priority Date Filing Date Title
US11/418,989 2006-05-04
US11/418,988 2006-05-04
US11/381,721 US8947347B2 (en) 2003-08-27 2006-05-04 Controlling actions in a video game unit
US11/429,047 US8233642B2 (en) 2003-08-27 2006-05-04 Methods and apparatuses for capturing an audio signal based on a location of the signal
US11/429,047 2006-05-04
US11/381,724 US8073157B2 (en) 2003-08-27 2006-05-04 Methods and apparatus for targeted sound detection and characterization
US11/381,728 US7545926B2 (en) 2006-05-04 2006-05-04 Echo and noise cancellation
US11/381,727 US7697700B2 (en) 2006-05-04 2006-05-04 Noise removal for electronic device with far field microphone on console
USPCT/US2006/017483 2006-05-04
US11/381,729 US7809145B2 (en) 2006-05-04 2006-05-04 Ultra small microphone array
US11/381,721 2006-05-04
US11/381,724 2006-05-04
US11/418,988 US8160269B2 (en) 2003-08-27 2006-05-04 Methods and apparatuses for adjusting a listening area for capturing sounds
US11/381,728 2006-05-04
US11/381,727 2006-05-04
US11/381,725 2006-05-04
US11/381,729 2006-05-04
US11/418,989 US8139793B2 (en) 2003-08-27 2006-05-04 Methods and apparatus for capturing audio signals based on a visual image
PCT/US2006/017483 WO2006121896A2 (en) 2005-05-05 2006-05-04 Microphone array based selective sound source listening and video game control
US11/381,725 US7783061B2 (en) 2003-08-27 2006-05-04 Methods and apparatus for the targeted sound detection
PCT/US2007/065701 WO2007130766A2 (en) 2006-05-04 2007-03-30 Narrow band noise reduction for speech enhancement

Publications (2)

Publication Number Publication Date
JP2009535997A JP2009535997A (en) 2009-10-01
JP4866958B2 true JP4866958B2 (en) 2012-02-01

Family

ID=56290936

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2009509908A Expired - Fee Related JP4476355B2 (en) 2006-05-04 2007-03-30 Echo and noise cancellation
JP2009509909A Expired - Fee Related JP4866958B2 (en) 2006-05-04 2007-03-30 Noise reduction in electronic devices with farfield microphones on the console
JP2010019147A Expired - Fee Related JP4833343B2 (en) 2006-05-04 2010-01-29 Echo and noise cancellation

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2009509908A Expired - Fee Related JP4476355B2 (en) 2006-05-04 2007-03-30 Echo and noise cancellation

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2010019147A Expired - Fee Related JP4833343B2 (en) 2006-05-04 2010-01-29 Echo and noise cancellation

Country Status (3)

Country Link
EP (2) EP2014132A4 (en)
JP (3) JP4476355B2 (en)
WO (2) WO2007130766A2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2858068A4 (en) * 2012-05-31 2016-02-24 Toyota Motor Co Ltd Audio source detection device, noise model generation device, noise reduction device, audio source direction estimation device, approaching vehicle detection device and noise reduction method

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8738367B2 (en) 2009-03-18 2014-05-27 Nec Corporation Speech signal processing device
JP4964267B2 (en) * 2009-04-03 2012-06-27 有限会社ケプストラム Adaptive filter and echo canceller having the same
JP2010249939A (en) * 2009-04-13 2010-11-04 Sony Corp Noise reducing device and noise determination method
CN109166589B (en) * 2018-08-13 2024-08-20 深圳市腾讯网络信息技术有限公司 Application sound suppression method, device, medium and equipment
US11837248B2 (en) 2019-12-18 2023-12-05 Dolby Laboratories Licensing Corporation Filter adaptation step size control for echo cancellation
CN113689871A (en) * 2020-05-19 2021-11-23 阿里巴巴集团控股有限公司 Echo cancellation method and device
CN112017679B (en) * 2020-08-05 2024-01-26 海尔优家智能科技(北京)有限公司 Method, device and equipment for updating adaptive filter coefficients

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04340599A (en) * 1991-05-16 1992-11-26 Ricoh Co Ltd Noise canceller device
JPH06303689A (en) * 1993-04-16 1994-10-28 Oki Electric Ind Co Ltd Moise eliminating device
JP2001513916A (en) * 1997-03-03 2001-09-04 テレフォンアクチーボラゲット エル エム エリクソン(パブル) High resolution post-processing method for speech decoder
JP2001299835A (en) * 2000-04-24 2001-10-30 Tomi Kensetsu:Kk Nursing device and nursing room using the same
JP2002537586A (en) * 1999-02-18 2002-11-05 アンドレア エレクトロニクス コーポレイション System, method and apparatus for canceling noise
JP2003284181A (en) * 2002-03-20 2003-10-03 Matsushita Electric Ind Co Ltd Sound collection apparatus
JP2004254329A (en) * 2003-02-21 2004-09-09 Herman Becker Automotive Systems-Wavemakers Inc System for suppressing wind noise
JP2005197956A (en) * 2004-01-06 2005-07-21 Matsushita Electric Ind Co Ltd Periodic noise suppressor
WO2006007290A2 (en) * 2004-06-30 2006-01-19 Motorola, Inc., A Corporation Of The State Of Delaware Method and apparatus for equalizing a speech signal generated within a self-contained breathing apparatus system

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4802227A (en) 1987-04-03 1989-01-31 American Telephone And Telegraph Company Noise reduction processing arrangement for microphone arrays
DE69428119T2 (en) * 1993-07-07 2002-03-21 Picturetel Corp., Peabody REDUCING BACKGROUND NOISE FOR LANGUAGE ENHANCEMENT
US5806025A (en) * 1996-08-07 1998-09-08 U S West, Inc. Method and system for adaptive filtering of speech signals using signal-to-noise ratio to choose subband filter bank
FR2771542B1 (en) * 1997-11-21 2000-02-11 Sextant Avionique FREQUENTIAL FILTERING METHOD APPLIED TO NOISE NOISE OF SOUND SIGNALS USING A WIENER FILTER
DE19806015C2 (en) * 1998-02-13 1999-12-23 Siemens Ag Process for improving acoustic attenuation in hands-free systems
US6263078B1 (en) * 1999-01-07 2001-07-17 Signalworks, Inc. Acoustic echo canceller with fast volume control compensation
US6426979B1 (en) * 1999-04-29 2002-07-30 Legerity, Inc. Adaptation control algorithm for echo cancellation using signal-value based analysis
CA2390200A1 (en) * 1999-11-03 2001-05-10 Charles W. K. Gritton Integrated voice processing system for packet networks
US7139401B2 (en) * 2002-01-03 2006-11-21 Hitachi Global Storage Technologies B.V. Hard disk drive with self-contained active acoustic noise reduction
DE10305369B4 (en) * 2003-02-10 2005-05-19 Siemens Ag User-adaptive method for noise modeling
US6947549B2 (en) * 2003-02-19 2005-09-20 The Hong Kong Polytechnic University Echo canceller
JP5038143B2 (en) * 2004-10-13 2012-10-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Echo cancellation

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04340599A (en) * 1991-05-16 1992-11-26 Ricoh Co Ltd Noise canceller device
JPH06303689A (en) * 1993-04-16 1994-10-28 Oki Electric Ind Co Ltd Moise eliminating device
JP2001513916A (en) * 1997-03-03 2001-09-04 テレフォンアクチーボラゲット エル エム エリクソン(パブル) High resolution post-processing method for speech decoder
JP2002537586A (en) * 1999-02-18 2002-11-05 アンドレア エレクトロニクス コーポレイション System, method and apparatus for canceling noise
JP2001299835A (en) * 2000-04-24 2001-10-30 Tomi Kensetsu:Kk Nursing device and nursing room using the same
JP2003284181A (en) * 2002-03-20 2003-10-03 Matsushita Electric Ind Co Ltd Sound collection apparatus
JP2004254329A (en) * 2003-02-21 2004-09-09 Herman Becker Automotive Systems-Wavemakers Inc System for suppressing wind noise
JP2005197956A (en) * 2004-01-06 2005-07-21 Matsushita Electric Ind Co Ltd Periodic noise suppressor
WO2006007290A2 (en) * 2004-06-30 2006-01-19 Motorola, Inc., A Corporation Of The State Of Delaware Method and apparatus for equalizing a speech signal generated within a self-contained breathing apparatus system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2858068A4 (en) * 2012-05-31 2016-02-24 Toyota Motor Co Ltd Audio source detection device, noise model generation device, noise reduction device, audio source direction estimation device, approaching vehicle detection device and noise reduction method

Also Published As

Publication number Publication date
EP2014132A4 (en) 2013-01-02
EP2014132A2 (en) 2009-01-14
WO2007130766A3 (en) 2008-09-04
JP4476355B2 (en) 2010-06-09
JP2009535997A (en) 2009-10-01
JP2009535996A (en) 2009-10-01
WO2007130766A2 (en) 2007-11-15
JP4833343B2 (en) 2011-12-07
EP2012725A4 (en) 2011-10-12
EP2012725A2 (en) 2009-01-14
WO2007130765A3 (en) 2008-12-18
JP2010171985A (en) 2010-08-05
WO2007130765A2 (en) 2007-11-15

Similar Documents

Publication Publication Date Title
US7697700B2 (en) Noise removal for electronic device with far field microphone on console
JP4866958B2 (en) Noise reduction in electronic devices with farfield microphones on the console
KR101224755B1 (en) Multi-sensory speech enhancement using a speech-state model
US9286907B2 (en) Smart rejecter for keyboard click noise
US7065487B2 (en) Speech recognition method, program and apparatus using multiple acoustic models
CN111418012B (en) Method for processing an audio signal and audio processing device
JP4842583B2 (en) Method and apparatus for multisensory speech enhancement
JP7498560B2 (en) Systems and methods
JP4975025B2 (en) Multisensory speech enhancement using clean speech prior distribution
US9564144B2 (en) System and method for multichannel on-line unsupervised bayesian spectral filtering of real-world acoustic noise
JP2011203759A (en) Method and apparatus for multi-sensory speech enhancement
JP2006003899A (en) Gain-constraining noise suppression
CN104021798B (en) For by with variable spectral gain and can dynamic modulation hardness algorithm to the method for audio signal sound insulation
JP2006215549A (en) Method and apparatus for reducing noise corruption by alternative sensor signal in multi-sensory speech enhancement
WO2020079957A1 (en) Audio signal processing device and noise suppression method
US10079028B2 (en) Sound enhancement through reverberation matching
KR20220022286A (en) Method and apparatus for extracting reverberant environment embedding using dereverberation autoencoder
Ashraf et al. Ambient-noise free generation of clean underwater ship engine audios from hydrophones using generative adversarial networks
KR20220053475A (en) Electronic apparatus and method for controlling thereof
JP2007293059A (en) Signal processing apparatus and its method
CN113823301A (en) Training method and device of voice enhancement model and voice enhancement method and device
JP5609157B2 (en) Coefficient setting device and noise suppression device
CN115604627A (en) Audio signal processing method and device, electronic equipment and readable storage medium
US20230197054A1 (en) Cancel filter coefficient selecting apparatus, cancel filter coefficient selecting method, and program
US20230343312A1 (en) Music Enhancement Systems

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20101126

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111108

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees