JP2008288910A - Sound pickup device - Google Patents

Sound pickup device Download PDF

Info

Publication number
JP2008288910A
JP2008288910A JP2007132277A JP2007132277A JP2008288910A JP 2008288910 A JP2008288910 A JP 2008288910A JP 2007132277 A JP2007132277 A JP 2007132277A JP 2007132277 A JP2007132277 A JP 2007132277A JP 2008288910 A JP2008288910 A JP 2008288910A
Authority
JP
Japan
Prior art keywords
noise
signal
directivity
unit
interpolation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007132277A
Other languages
Japanese (ja)
Other versions
JP4952368B2 (en
Inventor
Kazuhiko Ozawa
一彦 小沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007132277A priority Critical patent/JP4952368B2/en
Publication of JP2008288910A publication Critical patent/JP2008288910A/en
Application granted granted Critical
Publication of JP4952368B2 publication Critical patent/JP4952368B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic Arrangements (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To reduce noise by using directivity when sound is picked up in a sound pickup device and specifying a noise generation period. <P>SOLUTION: A directivity generating portion 330 generates a directivity signal having directivity to a surrounding specific direction based on a voice signal from a voice input portion 310 supplied through an amplifier 320. When detecting noise from the directivity signal supplied from the directivity generating portion 330, a noise detecting portion 360 generates a signal indicating a noise removal period according to a noise generation period. According to the noise removal period supplied from the noise detecting portion 360, a noise reducing processor 370 removes noise in the directivity signal supplied from the directivity generating portion 330 in the noise removal period, and does not remove the noise in the noise removal period. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、収音装置に関し、特に音声信号のノイズを低減させる収音装置に関する。   The present invention relates to a sound collection device, and more particularly to a sound collection device that reduces noise in an audio signal.

ビデオカメラなどの撮像装置は、被写体の撮像に合わせてその撮像装置の周囲の音源を収音するためにマイクロホンを内蔵することが多い。このマイクロホンはレンズ画角に合った収音を主な目的としているが、近年では周囲全体に対する立体的なサラウンド収音も行われるようになっている。   An imaging device such as a video camera often incorporates a microphone in order to pick up sound sources around the imaging device in accordance with the imaging of the subject. The main purpose of this microphone is to pick up sound that matches the angle of view of the lens, but in recent years, three-dimensional surround sound pickup has also been performed on the entire surroundings.

このような撮像装置には、収音に関する機構以外に、記録媒体であるDVD(Digital Versatile Disc)またはHDD(Hard Disc Drive)などのディスクドライブ機構や、オートフォーカス、パワーズーム、光学手振れ補正などのレンズドライブ機構も搭載されている。また、ユーザが操作する液晶モニターの開閉機構や、各種操作スイッチなども含まれている。これらの機構の動作音は、上述の収音機構に対するノイズとして入射することになり、収音機構からすれば、目的とする音声収音のS/N比(Signal to Noise ratio)を下げる要因になる。これらのノイズは、本来であれば発生側で抑制されるべきであるが、撮像装置の小型化および高機能化により益々難易度が増してきている。   In addition to the sound collection mechanism, such an imaging apparatus includes a disk drive mechanism such as a DVD (Digital Versatile Disc) or HDD (Hard Disc Drive) as a recording medium, autofocus, power zoom, optical image stabilization, and the like. A lens drive mechanism is also installed. In addition, a liquid crystal monitor opening / closing mechanism operated by a user, various operation switches, and the like are also included. The operating sound of these mechanisms is incident as noise on the above-described sound collecting mechanism, and according to the sound collecting mechanism, it is a factor that lowers the S / N ratio (Signal to Noise ratio) of the target sound collecting sound. Become. Although these noises should be suppressed on the generation side, they are becoming increasingly difficult due to the downsizing and high functionality of the imaging device.

また、これらのノイズは、キャビネットを伝わる振動によるものと空気中を音として伝播する音響ノイズとが同時に発生したものであり、これによりマイクロホンへのノイズ伝達経路は複雑なものとなっている。したがって、従来のように、マイクロホンをキャビネットからゴムダンパー等のインシュレータで浮かせる構造をとることや、ゴムワイヤー等で中空に浮かすような構造をとることで、キャビネットから伝わる振動を吸収しノイズが伝わらないようにするパッシブな方法だけでは十分なノイズ低減効果が得られていなかった。   In addition, these noises are caused by vibrations that propagate through the cabinet and acoustic noises that propagate as sound in the air at the same time, which complicates the noise transmission path to the microphone. Therefore, by taking a structure that floats the microphone from the cabinet with an insulator such as a rubber damper or a structure that floats in the air with a rubber wire or the like, the vibration transmitted from the cabinet is absorbed and noise is not transmitted. In such a passive method alone, a sufficient noise reduction effect has not been obtained.

さらに、このようなノイズは、クリック音に代表されるように、総じて短いタイミング期間、例えば数ミリ秒乃至数百ミリ秒の瞬時に発生する場合が多く、適応フィルタなどのノイズ低減手法では低減処理が間に合わない場合が多かった。   Furthermore, such noise is often generated instantaneously in a short timing period, for example, several milliseconds to several hundred milliseconds, as represented by a click sound, and is reduced by noise reduction techniques such as an adaptive filter. There were many cases where was not in time.

これに対し、人間の聴覚におけるマスキング効果を利用することによりノイズ低減を行う技術が提案されている。例えば、外部からノイズ発生タイミングを検出することにより音声信号を切り替えて、ノイズを低減する装置が提案されている(例えば、特許文献1参照。)。
特開2005−303681号公報(図1)
On the other hand, a technique for reducing noise by using a masking effect in human hearing has been proposed. For example, an apparatus for reducing noise by switching sound signals by detecting noise generation timing from the outside has been proposed (for example, see Patent Document 1).
Japanese Patent Laying-Open No. 2005-303681 (FIG. 1)

上述の従来技術は、人間の聴覚に認識されないように、上述のショックノイズ、タッチノイズ、および、クリックノイズなどを除去するものであり、ノイズ発生期間が特定できる場合には有効であった。   The above-described conventional technology removes the above-described shock noise, touch noise, click noise, and the like so as not to be recognized by human hearing, and is effective when the noise generation period can be specified.

しかしながら、従来技術においては、入力信号にノイズ以外の音が混入している場合や、駆動装置からノイズタイミングが得られない場合には、ノイズ発生期間を特定することができないため、ノイズを除去できないという問題があった。   However, in the prior art, when noise other than noise is mixed in the input signal, or when the noise timing cannot be obtained from the driving device, the noise generation period cannot be specified, and therefore noise cannot be removed. There was a problem.

本発明はこのような状況に鑑みてなされたものであり、収音の際に指向性を利用してノイズ発生期間を特定し、ノイズを低減させることを目的とする。   The present invention has been made in view of such a situation, and an object thereof is to specify a noise generation period using directivity at the time of sound collection and reduce noise.

本発明は、上記課題を解決するためになされたものであり、その第1の側面は、周囲の複数の音声信号を入力する音声入力手段と、上記複数の音声信号に基づいて第1の方向に指向性を有する第1の指向性信号および第2の方向に指向性を有する第2の指向性信号を生成する指向性生成手段と、上記第1の指向性信号からノイズ帯域を除去するノイズ除去手段と、上記第2の指向性信号に含まれるノイズを認識するノイズ認識手段と、上記認識されたノイズの発生期間に応じてノイズ除去期間を示す信号を生成するノイズ除去期間生成手段と、上記ノイズ除去期間であることが示されている場合には上記ノイズ除去手段の出力を選択し、上記ノイズ除去期間であることが示されていない場合には上記第1の指向性信号を選択する選択手段とを具備することを特徴とする収音装置である。これにより、第2の指向性信号に含まれるノイズの発生期間に応じて第1の指向性信号からのノイズ除去の有無を選択させるという作用をもたらす。   The present invention has been made to solve the above-described problems, and a first aspect of the present invention is that a first direction is based on a plurality of surrounding sound signals and sound input means for inputting a plurality of surrounding sound signals. Directivity generating means for generating a first directivity signal having directivity and a second directivity signal having directivity in the second direction, and noise for removing a noise band from the first directivity signal Removing means, noise recognizing means for recognizing noise included in the second directivity signal, noise removing period generating means for generating a signal indicating a noise removing period according to the recognized noise generation period, When the noise removal period is indicated, the output of the noise removal means is selected, and when the noise removal period is not indicated, the first directivity signal is selected. With selection means A sound pickup device, characterized by Bei. Accordingly, there is an effect that the presence or absence of noise removal from the first directional signal is selected according to the generation period of the noise included in the second directional signal.

また、この第1の側面において、上記音声入力手段は、複数の双指向性マイクロホンと、1つの無指向性マイクロホンとを備えてもよい。また、上記音声入力手段は、複数の無指向性マイクロホンを備えてもよい。また、上記音声入力手段は、複数の単一指向性マイクロホンと、1つの双指向性マイクロホンとを備えてもよい。これらに基づき、指向性生成手段において第1および第2の指向性信号が生成される。   In the first aspect, the voice input unit may include a plurality of bidirectional microphones and one omnidirectional microphone. The voice input means may include a plurality of omnidirectional microphones. The voice input means may include a plurality of unidirectional microphones and a single bidirectional microphone. Based on these, first and second directivity signals are generated in the directivity generating means.

また、この第1の側面において、所定の方向を示す回転係数を生成する回転係数生成手段をさらに具備し、上記指向性生成手段は、上記回転係数の示す方向が上記第1の方向であれば上記第1の指向性信号を生成し、上記回転係数の示す方向が上記第2の方向であれば上記第2の指向性信号を生成してもよい。これにより、回転係数を基準として第1および第2の指向性信号が生成される。   The first aspect may further include rotation coefficient generation means for generating a rotation coefficient indicating a predetermined direction, and the directivity generation means may be configured so that the direction indicated by the rotation coefficient is the first direction. The first directivity signal may be generated, and the second directivity signal may be generated if the direction indicated by the rotation coefficient is the second direction. Thereby, the first and second directivity signals are generated with the rotation coefficient as a reference.

また、この第1の側面において、上記ノイズ認識手段は、上記ノイズに波形近似した所定期間における平均値がゼロであるウェーブレット信号と上記第2の指向性信号との畳込み演算による出力を評価値として上記ノイズ認識を行うようにしてもよい。これにより、時間領域におけるノイズ認識結果に応じてノイズ除去の有無を選択させるという作用をもたらす。   In the first aspect, the noise recognizing means evaluates an output from a convolution operation of a wavelet signal having a mean value of zero in a predetermined period approximated to the noise and a second directivity signal. The above noise recognition may be performed. This brings about the effect that the presence or absence of noise removal is selected according to the noise recognition result in the time domain.

また、この第1の側面において、上記ノイズ認識手段は、上記ノイズの周波数スペクトルに近似したパターン信号とフーリエ変換された上記第2の指向性信号との相関性を評価値として上記ノイズ認識を行うようにしてもよい。これにより、周波数領域におけるノイズ認識結果に応じてノイズ除去の有無を選択させるという作用をもたらす。   In the first aspect, the noise recognizing unit performs the noise recognition using an evaluation value as a correlation between a pattern signal approximated to the frequency spectrum of the noise and the second directivity signal subjected to Fourier transform. You may do it. This brings about the effect that the presence or absence of noise removal is selected according to the noise recognition result in the frequency domain.

また、この第1の側面において、上記ノイズ除去手段は、ノイズ帯域を除去するフィルタにより実現することができる。この場合において、上記ノイズ除去手段は、上記ノイズ認識手段において認識されたノイズの周波数に基づいて上記フィルタの除去帯域および通過帯域を適応的に変化させるようにしてもよい。   In the first aspect, the noise removing unit can be realized by a filter that removes a noise band. In this case, the noise removal unit may adaptively change the removal band and the pass band of the filter based on the frequency of the noise recognized by the noise recognition unit.

また、この第1の側面において、上記選択手段は、クロスフェードスイッチにより実現してもよい。これにより、ノイズ除去の有無を切り替える際に所定の時定数をもってクロスフェードさせるという作用をもたらす。   In the first aspect, the selection means may be realized by a cross fade switch. This brings about the effect of crossfading with a predetermined time constant when switching the presence or absence of noise removal.

また、本発明の第2の側面は、周囲の複数の音声信号を入力する音声入力手段と、上記複数の音声信号に基づいて第1の方向に指向性を有する第1の指向性信号および第2の方向に指向性を有する第2の指向性信号を生成する指向性生成手段と、上記第1の指向性信号からノイズ帯域を除去するノイズ除去手段と、上記ノイズ帯域の除去された信号に対する補間を行う信号補間手段と、上記第2の指向性信号に含まれるノイズを認識するノイズ認識手段と、上記認識されたノイズの発生期間に応じてノイズ除去期間を示す信号を生成するノイズ除去期間生成手段と、上記ノイズ除去期間であることが示されている場合には上記信号補間手段の出力を選択し、上記ノイズ除去期間であることが示されていない場合には上記第1の指向性信号を選択する選択手段とを具備することを特徴とする収音装置であってもよい。これにより、第2の指向性信号に含まれるノイズの発生期間に応じて第1の指向性信号からのノイズ除去の有無を選択させるとともに、ノイズ除去された第1の指向性信号を補間して聴感上のマスキング効果を向上させるという作用をもたらす。   According to a second aspect of the present invention, there is provided audio input means for inputting a plurality of surrounding audio signals, a first directional signal having directivity in a first direction based on the plurality of audio signals, and a first Directivity generating means for generating a second directivity signal having directivity in two directions, noise removing means for removing a noise band from the first directivity signal, and the signal from which the noise band has been removed A signal interpolation unit for performing interpolation, a noise recognition unit for recognizing noise included in the second directional signal, and a noise removal period for generating a signal indicating a noise removal period according to the recognized noise generation period When the generation means and the noise removal period are indicated, the output of the signal interpolation means is selected, and when the noise removal period is not indicated, the first directivity is selected. Select signal It may be a sound pickup apparatus characterized by comprising selecting means for. As a result, the presence or absence of noise removal from the first directional signal is selected according to the generation period of the noise included in the second directional signal, and the first directional signal from which noise has been removed is interpolated. It brings about the effect of improving the audible masking effect.

また、この第2の側面において、上記信号補間手段は、上記補間のための補間源信号を生成する補間源信号生成手段と、上記補間源信号から上記ノイズ帯域以外を除去する補間外除去手段と、上記第1の指向性信号のレベル包絡線を生成するレベル包絡線生成手段と、上記レベル包絡線に基づいて上記補間のためのレベル係数を生成するレベル係数生成手段と、上記レベル係数に基づいて上記補間外除去手段の出力を変調するレベル変調手段と、上記ノイズ除去手段の出力と上記レベル変調手段の出力とを合成して上記選択手段に出力する合成手段とを具備してもよい。この場合において、上記レベル変調手段は、さらに人間の聴覚上でマスキングされるレベルに基づいて上記補間外除去手段の出力を変調するようにしてもよい。また、上記補間源信号生成手段は、所定の波形および所定の周期からなる複数もしくは単一の周期信号、音声帯域にレベルが均一なホワイトノイズ信号、または、上記周期信号および上記ホワイトノイズ信号の所定の混合比による混合信号の何れかを生成するようにしてもよい。   In the second aspect, the signal interpolation means includes an interpolation source signal generation means for generating an interpolation source signal for the interpolation, and an extra-interpolation removal means for removing an area other than the noise band from the interpolation source signal. Level envelope generating means for generating a level envelope of the first directional signal, level coefficient generating means for generating a level coefficient for the interpolation based on the level envelope, and based on the level coefficient Level modulation means for modulating the output of the non-interpolation removal means, and synthesis means for synthesizing the output of the noise removal means and the output of the level modulation means and outputting them to the selection means. In this case, the level modulation means may further modulate the output of the non-interpolation removal means based on a level masked on human hearing. Further, the interpolation source signal generation means is a predetermined signal of a plurality or a single periodic signal having a predetermined waveform and a predetermined period, a white noise signal having a uniform level in a voice band, or a predetermined period of the periodic signal and the white noise signal. Any one of the mixed signals based on the mixing ratio may be generated.

また、この第2の側面において、上記信号補間手段は、上記補間のための補間源信号を生成する補間源信号生成手段と、上記補間源信号から上記ノイズ帯域以外を除去する補間外除去手段と、上記ノイズ除去手段の出力の周波数スペクトル包絡線を生成するスペクトル包絡線生成手段と、上記スペクトル包絡線に基づいて上記補間のためのスペクトル係数を生成するスペクトル係数生成手段と、上記スペクトル係数に基づいて上記補間外除去手段の出力を変調するスペクトル変調手段と、上記第1の指向性信号のレベル包絡線を生成するレベル包絡線生成手段と、上記レベル包絡線に基づいて上記補間のためのレベル係数を生成するレベル係数生成手段と、上記レベル係数に基づいて上記スペクトル変調手段の出力を変調するレベル変調手段と、上記ノイズ除去手段の出力と上記レベル変調手段の出力とを合成して上記選択手段に出力する合成手段とを具備してもよい。この場合において、上記ノイズ除去手段および上記補間外除去手段は、上記ノイズ認識手段において認識されたノイズの周波数に基づいて除去帯域および通過帯域を適応的に変化させるフィルタにより実現してもよい。   In the second aspect, the signal interpolation means includes an interpolation source signal generation means for generating an interpolation source signal for the interpolation, and an extra-interpolation removal means for removing an area other than the noise band from the interpolation source signal. A spectrum envelope generating means for generating a frequency spectrum envelope of the output of the noise removing means; a spectrum coefficient generating means for generating a spectrum coefficient for the interpolation based on the spectrum envelope; and based on the spectrum coefficient. Spectrum modulating means for modulating the output of the non-interpolation removing means, level envelope generating means for generating a level envelope of the first directional signal, and a level for the interpolation based on the level envelope Level coefficient generating means for generating coefficients, and level modulating means for modulating the output of the spectrum modulating means based on the level coefficients May be synthesized with the outputs of the above-level modulation means for said noise removing means comprises a synthesizing means for outputting to said selection means. In this case, the noise removal unit and the non-interpolation removal unit may be realized by a filter that adaptively changes the removal band and the pass band based on the frequency of the noise recognized by the noise recognition unit.

本発明によれば、収音の際に指向性を利用してノイズ発生期間を特定し、ノイズを低減させることができるという優れた効果を奏し得る。   According to the present invention, it is possible to obtain an excellent effect that noise can be reduced by specifying a noise generation period using directivity during sound collection.

次に本発明の実施の形態について図面を参照して詳細に説明する。   Next, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明の実施の形態における収音装置300の一構成例を示す図である。この収音装置300は、音声入力部310と、アンプ320と、指向性生成部330と、タイミング生成部340と、回転係数生成部350と、ノイズ検出部360と、ノイズ低減処理部370と、符号化処理部380と、記録再生部390とを備えている。   FIG. 1 is a diagram illustrating a configuration example of a sound collection device 300 according to an embodiment of the present invention. The sound collection device 300 includes an audio input unit 310, an amplifier 320, a directivity generation unit 330, a timing generation unit 340, a rotation coefficient generation unit 350, a noise detection unit 360, a noise reduction processing unit 370, An encoding processing unit 380 and a recording / reproducing unit 390 are provided.

音声入力部310は、周囲の音声信号を取得して入力するものであり、例えば、複数のマイクロホンなどにより実現される。アンプ320は、音声入力部310からの音声信号を増幅して指向性生成部330に供給するものである。   The voice input unit 310 acquires and inputs a surrounding voice signal, and is realized by, for example, a plurality of microphones. The amplifier 320 amplifies the audio signal from the audio input unit 310 and supplies it to the directivity generation unit 330.

指向性生成部330は、アンプ320を介して供給された音声入力部310からの音声信号に基づいて、周囲の特定の方向に対して指向性を有する指向性信号を生成するものである。指向性を有する方向については、回転係数生成部350から供給される回転係数に従う。この結果、複数の方向についてそれぞれ指向性を有する指向性信号が得られるが、これらのうちでノイズ認識のために用いられる指向性信号が信号線338を介してノイズ検出部360に供給され、それ以外の本来の音声信号として用いられる指向性信号が信号線339を介してノイズ低減処理部370に供給される。   The directivity generation unit 330 generates a directivity signal having directivity in a specific direction around the sound signal from the sound input unit 310 supplied via the amplifier 320. The direction having directivity follows the rotation coefficient supplied from the rotation coefficient generation unit 350. As a result, a directional signal having directivity in each of a plurality of directions is obtained. Of these, a directional signal used for noise recognition is supplied to the noise detection unit 360 via the signal line 338, A directivity signal used as an original audio signal other than the above is supplied to the noise reduction processing unit 370 via the signal line 339.

タイミング生成部340は、指向性生成部330、回転係数生成部350、ノイズ検出部360およびノイズ低減処理部370における動作タイミングを生成するものである。このタイミング生成部340では、後述するアップサンプリング処理のために、1オーディオサンプリング期間「1/Fs」をm分割して、サンプリング期間「1/(m・Fs)」毎にタイミング信号を生成する。すなわち、サンプリング周波数は、「m・Fs」となる。このタイミング生成部340により生成されたタイミング信号は、信号線349を介して各部に供給される。   The timing generation unit 340 generates operation timings in the directivity generation unit 330, the rotation coefficient generation unit 350, the noise detection unit 360, and the noise reduction processing unit 370. The timing generator 340 divides one audio sampling period “1 / Fs” into m for upsampling processing described later, and generates a timing signal for each sampling period “1 / (m · Fs)”. That is, the sampling frequency is “m · Fs”. The timing signal generated by the timing generation unit 340 is supplied to each unit via a signal line 349.

回転係数生成部350は、指向性生成部330において生成される指向性信号の指向性の方向を示す回転係数を生成するものである。この回転係数生成部350によって生成された回転係数は、信号線359を介して指向性生成部330に供給される。   The rotation coefficient generation unit 350 generates a rotation coefficient indicating the directivity direction of the directivity signal generated by the directivity generation unit 330. The rotation coefficient generated by the rotation coefficient generation unit 350 is supplied to the directivity generation unit 330 via the signal line 359.

ノイズ検出部360は、指向性生成部330から信号線338を介して供給された指向性信号からノイズを検出するものである。このノイズ検出部360は、ノイズが検出されると、ノイズの発生期間に応じてノイズ除去期間を示す信号を生成する。このノイズ検出部360によって生成されたノイズ除去期間は、信号線369を介してノイズ低減処理部370に供給される。   The noise detection unit 360 detects noise from the directivity signal supplied from the directivity generation unit 330 via the signal line 338. When noise is detected, the noise detection unit 360 generates a signal indicating a noise removal period according to the noise generation period. The noise removal period generated by the noise detection unit 360 is supplied to the noise reduction processing unit 370 via the signal line 369.

ノイズ低減処理部370は、ノイズ検出部360から供給されたノイズ除去期間に従って、指向性生成部330から供給された指向性信号に含まれるノイズを除去するものである。このノイズ低減処理部370によってノイズ除去の処理が施された指向性信号は、信号線371乃至376を介して符号化処理部380に供給される。なお、これら信号線371乃至376は、後述する5.1チャンネルサラウンド信号のそれぞれに対応するものである。   The noise reduction processing unit 370 removes noise included in the directivity signal supplied from the directivity generation unit 330 according to the noise removal period supplied from the noise detection unit 360. The directivity signal that has been subjected to noise removal processing by the noise reduction processing unit 370 is supplied to the encoding processing unit 380 via signal lines 371 to 376. These signal lines 371 to 376 correspond to 5.1 channel surround signals described later.

符号化処理部380は、ノイズ低減処理部370から供給された各信号について符号化(エンコード)処理を行うものである。この符号化処理部380によって符号化された記録ストリーム信号は、信号線389を介して記録再生部390に供給される。   The encoding processing unit 380 performs an encoding process on each signal supplied from the noise reduction processing unit 370. The recording stream signal encoded by the encoding processing unit 380 is supplied to the recording / reproducing unit 390 via the signal line 389.

記録再生部390は、符号化処理部380から供給された記録ストリーム信号を記録媒体に記録し、または、再生するものである。なお、この記録再生部390では、音声入力部310から入力された音声信号とともに映像信号を記録してもよいが、本発明の実施の形態では説明を省略する。   The recording / reproducing unit 390 records or reproduces the recording stream signal supplied from the encoding processing unit 380 on a recording medium. The recording / playback unit 390 may record the video signal together with the audio signal input from the audio input unit 310, but the description thereof is omitted in the embodiment of the present invention.

図2は、5.1チャンネルのサラウンド音源の配置および指向特性を示す図である。このサラウンド音源の5.1チャンネルは、収音装置300を基準として正面方向(FRT:Front)の指向パターン591、正面左方向(FL:Front Left)の指向パターン592、正面右方向(FR:Front Right)の指向パターン593、後方左方向(RL:Rear Left)の指向パターン594および後方右方向(RR:Rear Right)の指向パターン595の5チャンネルと、全指向方向の指向パターン596の低周波数帯域(LF:Low Frequency)の0.1チャンネルである。低周波数帯域の0.1チャンネルは、100Hz程度以下の低音の重量感を得るためのものである。   FIG. 2 is a diagram showing the arrangement and directivity characteristics of 5.1 surround sound sources. The 5.1 channel of the surround sound source includes a directivity pattern 591 in the front direction (FRT: Front), a directivity pattern 592 in the front left direction (FL: Front Left), and a front right direction (FR: Front) with reference to the sound collection device 300. Right channel pattern 593, rear left direction (RL: Rear Left) direction pattern 594 and rear right direction (RR: Rear Right) directivity pattern 595, and low frequency band of all directivity direction pattern 596 (LF: Low Frequency) 0.1 channel. The 0.1 channel in the low frequency band is for obtaining a low-weight sound feeling of about 100 Hz or less.

このようなサラウンド音源を収音および記録して既存のサラウンド対応システムで再生することによりサラウンド音場が得られる。なお、上述したサラウンド音場の収音や音源作成は、制作者の制作意図やノウハウに委ねられているが、5.1チャンネルサラウンド音場再生規格ITU(International Telecommunication Union)−R規格を意識して行われる場合が多い。この規格では、再生スピーカ配置として、正面方向(FRT)を0度にして、正面左方向(FL)を30度、正面右方向(FR)を30度、後方左方向(RL)を100乃至120度、後方右方向(RR)を100乃至120度とすることが推奨されている。   A surround sound field can be obtained by picking up and recording such a surround sound source and playing it back on an existing surround compatible system. The sound collection and sound source creation of the surround sound field described above is left to the production intention and know-how of the producer, but it is conscious of the 5.1 channel surround sound field reproduction standard ITU (International Telecommunication Union) -R standard. Is often done. In this standard, the front speaker direction (FRT) is 0 degrees, the front left direction (FL) is 30 degrees, the front right direction (FR) is 30 degrees, and the rear left direction (RL) is 100 to 120 as the playback speaker arrangement. It is recommended that the rear right direction (RR) be 100 to 120 degrees.

図3は、本発明の実施の形態におけるベクトル量抽出の一例を示す図である。本発明の実施の形態では、収音装置を中心とした各方向に対して、音源としてのベクトルと、ノイズ検出のためのベクトルとが設定される。   FIG. 3 is a diagram showing an example of vector amount extraction in the embodiment of the present invention. In the embodiment of the present invention, a vector as a sound source and a vector for noise detection are set for each direction around the sound collection device.

FRTベクトル631は正面方向に対するベクトルであり、FLベクトル632は正面左方向に対するベクトルであり、FRベクトル633は正面右方向に対するベクトルであり、RLベクトル634は後方左方向に対するベクトルであり、RRベクトル635は後方右方向に対するベクトルである。なお、低周波数帯域の0.1チャンネルは、波長が長く、方向性をほとんど持たず大きさのみと考えられることから、スカラー量として扱うこととする。   The FRT vector 631 is a vector for the front direction, the FL vector 632 is a vector for the front left direction, the FR vector 633 is a vector for the front right direction, the RL vector 634 is a vector for the rear left direction, and the RR vector 635. Is a vector for the backward right direction. Note that the 0.1 channel in the low frequency band has a long wavelength, has little directivity, and is considered to be only a size, so it is treated as a scalar quantity.

ノイズベクトルAおよびFはレンズ駆動機構から生じるノイズを想定したベクトルであり、ノイズベクトルBはグリップ部(把持部)から生じるノイズを想定したベクトルであり、ノイズベクトルCはディスク機構から生じるノイズを想定したベクトルであり、ノイズベクトルDはLCD(Liquid Crystal Display)モニターから生じるノイズを想定したベクトルであり、ノイズベクトルEは各種操作スイッチから生じるノイズを想定したベクトルである。   Noise vectors A and F are vectors assuming noise generated from the lens driving mechanism, noise vector B is a vector assuming noise generated from the grip part (gripping part), and noise vector C is assumed noise generated from the disk mechanism. The noise vector D is a vector assuming noise generated from an LCD (Liquid Crystal Display) monitor, and the noise vector E is a vector assuming noise generated from various operation switches.

このように各方向から入射するノイズに方向と大きさ(収音レベル)を合わせたベクトル量抽出を行うことで、そのノイズのみを認識し易くすることができる。また、音源方向とノイズ方向とが一致する場合には、音源方向のベクトル量をノイズ認識のためにも使用する。このときの収音イメージが図3における各ベクトルを囲む実線620となる。   As described above, by extracting the vector amount in which the direction and the magnitude (sound collection level) are combined with the noise incident from each direction, only the noise can be easily recognized. In addition, when the sound source direction and the noise direction match, the vector amount in the sound source direction is also used for noise recognition. The sound collection image at this time is a solid line 620 surrounding each vector in FIG.

図4は、本発明の実施の形態における収音装置によるポーラパターンの例を示す図である。ポーラパターンは、収音装置における各マイクロホンの全周囲方向からの感度レベルを極座標表示したものである。この図では、正面方向を0度とし、また、半径方向の感度レベルは相対的なものであり、中心を感度ゼロ点としている。   FIG. 4 is a diagram illustrating an example of a polar pattern by the sound collection device according to the embodiment of the present invention. The polar pattern is a polar coordinate display of the sensitivity level from the entire circumference of each microphone in the sound collection device. In this figure, the front direction is 0 degree, the sensitivity level in the radial direction is relative, and the center is the sensitivity zero point.

図4(a)は、無指向(全指向)性のポーラパターンであり、全方向に同レベルの感度特性を有している。図4(b)は、1次(単一)指向性のポーラパターンであり、ある単方向に指向性をもたせる場合に使用される。この例では、0度方向に指向性を有している。図4(c)は、1次指向性よりもさらに強い方向選択性を有する2次指向性のポーラパターンである。図4(d)および(e)は、双指向性と呼ばれるもので、ある方向およびその方向とは対極の方向に最大感度をもち、それらと90度方向には感度ゼロを示すものである。図4(d)および(e)は、互いに直交した特性を有している。また、正極(+)特性と負極(−)特性が対極し、両者は信号位相が180度ずれている。そして、これらの指向特性は、マイクロホン単独もしくは少数のマイクロホンの組合せ演算により生成することができる。   FIG. 4A shows an omnidirectional (omnidirectional) polar pattern having the same level of sensitivity characteristics in all directions. FIG. 4B is a polar pattern of primary (single) directivity, and is used when directivity is given in a single direction. In this example, it has directivity in the 0 degree direction. FIG. 4C shows a polar pattern with a secondary directivity having a direction selectivity stronger than the primary directivity. FIGS. 4D and 4E are called bi-directionality, and have a maximum sensitivity in a direction opposite to the certain direction and the direction, and zero sensitivity in the direction of 90 degrees with them. 4D and 4E have characteristics orthogonal to each other. Further, the positive electrode (+) characteristic and the negative electrode (−) characteristic are opposite to each other, and the signal phase of both is shifted by 180 degrees. These directivity characteristics can be generated by a single microphone or a combination calculation of a small number of microphones.

本発明の実施の形態では、これらマイクロホンは、音声入力部310として収音装置に内蔵もしくは外付けにより搭載される。そして、これらマイクロホンは、複数方向からの音声やノイズを同時に収音する。   In the embodiment of the present invention, these microphones are mounted in the sound collection device as the sound input unit 310 or are externally mounted. These microphones simultaneously collect sound and noise from a plurality of directions.

図5は、本発明の実施の形態におけるマイクロホンの第1の配置例を示す図である。この第1の配置例では、無指向性マイクロホン411と、双指向性マイクロホン412および413とが配置されている。   FIG. 5 is a diagram showing a first arrangement example of microphones in the embodiment of the present invention. In this first arrangement example, an omnidirectional microphone 411 and bidirectional microphones 412 and 413 are arranged.

無指向性マイクロホン411は、指向性を有しないマイクロホンである。双指向性マイクロホン412は、図4(d)のように右方向および左方向の双方向に指向性を有するマイクロホンであり、無指向性マイクロホン411よりも相対的に正面方向に配置される。双指向性マイクロホン413は、図4(e)のように正面方向および後方方向の双方向に指向性を有するマイクロホンであり、無指向性マイクロホン411よりも相対的に後方方向に配置される。尚、各マイクロホン相互の位置関係は、一例でありこれに限定されず、例えばそれぞれのマイクロホンを立体的に配置しても良い。   The omnidirectional microphone 411 is a microphone having no directivity. As shown in FIG. 4D, the bidirectional microphone 412 is a microphone having directivity in both the right direction and the left direction, and is disposed in the front direction relative to the omnidirectional microphone 411. As shown in FIG. 4E, the bidirectional microphone 413 is a microphone having directivity in both the front direction and the backward direction, and is disposed in the backward direction relative to the omnidirectional microphone 411. The positional relationship between the microphones is an example and is not limited to this. For example, the microphones may be arranged three-dimensionally.

図6は、本発明の実施の形態による第1の配置例によるマイクロホンの音源の合成例を示す図である。この音源合成機構は、指向性生成部330に含まれるものであり、レベル可変部422および423と、加算合成部426とを備える。   FIG. 6 is a diagram showing a synthesis example of sound sources of microphones according to the first arrangement example according to the embodiment of the present invention. This sound source synthesis mechanism is included in the directivity generation unit 330 and includes level variable units 422 and 423 and an addition synthesis unit 426.

レベル可変部422は、双指向性マイクロホン412から供給される横方向の双指向性信号をKs倍するものである。また、レベル可変部423は、双指向性マイクロホン413から供給される縦方向の双指向性信号をKc倍するものである。ここで、KsおよびKcは、指向方向により定められる回転係数である。この回転係数については後述する。   The level variable unit 422 multiplies the lateral bidirectional signal supplied from the bidirectional microphone 412 by Ks. The level varying unit 423 multiplies the vertical bidirectional signal supplied from the bidirectional microphone 413 by Kc. Here, Ks and Kc are rotation coefficients determined by the directivity direction. This rotation coefficient will be described later.

加算合成部426は、無指向性マイクロホン411から供給される無指向性信号、レベル可変部422から供給される信号、および、レベル可変部423から供給される信号の3つの信号を加算平均処理により合成するものである。この加算合成部426によって合成された音源は任意の指向性を有する音源になる。   The adder / synthesizer 426 performs an averaging process on the three signals of the omnidirectional signal supplied from the omnidirectional microphone 411, the signal supplied from the level variable unit 422, and the signal supplied from the level variable unit 423. To be synthesized. The sound source synthesized by the adding and synthesizing unit 426 becomes a sound source having arbitrary directivity.

ここで、横方向の双指向性信号(図4(d))を時間tのサイン関数sin(t)、縦方向の双指向性信号(図4(e))を時間tのコサイン関数cos(t)として表すと、加算合成部426によって合成される音源Xは次式により表すことができる。なお、この式において、「1」は無指向性信号(図4(a))に対応する。
X=(1+Ks・sin(t)+Kc・cos(t))/2
Here, the lateral bi-directional signal (FIG. 4D) is a sine function sin (t) at time t, and the vertical bi-directional signal (FIG. 4E) is a cosine function cos (t) at time t. When expressed as t), the sound source X synthesized by the addition synthesis unit 426 can be represented by the following equation. In this equation, “1” corresponds to an omnidirectional signal (FIG. 4A).
X = (1 + Ks · sin (t) + Kc · cos (t)) / 2

図7は、本発明の実施の形態における回転係数を示す図である。   FIG. 7 is a diagram showing a rotation coefficient in the embodiment of the present invention.

回転係数Ks611は指向性の回転角φに応じてサインカーブを描き、回転係数Kc612は指向性の回転角φに応じてコサインカーブを描くものである。すなわち、回転係数Ks611およびKc612は、−1から1までの範囲で指向性の回転角φに応じた実数になる。   The rotation coefficient Ks611 draws a sine curve according to the directivity rotation angle φ, and the rotation coefficient Kc612 draws a cosine curve according to the directivity rotation angle φ. That is, the rotation coefficients Ks611 and Kc612 are real numbers corresponding to the directivity rotation angle φ in the range from −1 to 1.

回転角φが0度の場合、Ks=0、Kc=1で、双指向性マイクロホン413からの双指向性信号のみが加算合成部426に入力される。また、回転角φが45度の場合、KsおよびKcはともに2の平方根の逆数(≒0.7)になり、双指向性マイクロホン412および413からの双指向性信号が同レベルにより加算合成部426で加算平均処理され、さらに無指向性信号が加算平均処理される。この様子を表したものが図8である。   When the rotation angle φ is 0 degree, Ks = 0 and Kc = 1, and only the bidirectional signal from the bidirectional microphone 413 is input to the adder / synthesizer 426. When the rotation angle φ is 45 degrees, both Ks and Kc are reciprocals of the square root of 2 (≈0.7), and the bidirectional signals from the bidirectional microphones 412 and 413 are added and combined at the same level. At 426, the averaging process is performed, and the omnidirectional signal is further subjected to an averaging process. This is shown in FIG.

すなわち、回転角φが45度の場合、2つの双指向性信号が同レベルにより加算平均処理されることにより、破線による逆相部分がキャンセルされ、実線による同相部分が残り、図8(a)における指向性511の信号が得られる。そして、この指向性511の信号と無指向性512の信号が加算平均処理されることによって、破線による逆相部分がキャンセルされ、実線による同相部分が残り、図8(b)の回転角φが45度の指向性513の信号が得られることになる。   That is, when the rotation angle φ is 45 degrees, the two bi-directional signals are subjected to addition averaging processing at the same level, so that the reverse phase portion by the broken line is canceled and the in-phase portion by the solid line remains, and FIG. A signal of directivity 511 at is obtained. Then, the signal of directivity 511 and the signal of non-directivity 512 are added and averaged to cancel the reverse phase portion indicated by the broken line, the in-phase portion indicated by the solid line remains, and the rotation angle φ in FIG. A 45 degree directivity 513 signal is obtained.

同様に、回転角φが90度の場合、双指向性マイクロホン412からの双指向性信号のみが加算合成部426に入力される。また、回転角φが90乃至180度の場合、Kcが負係数の乗算により、双指向性マイクロホン413からの双指向性信号の正負極性が反転して合成される。また、回転角φが180乃至270度の場合、KsとKcが負係数の乗算により、双指向性マイクロホン412および413からの双指向性信号の正負極性が反転して合成される。また、回転角φが270乃至0度の場合、Ksが負係数の乗算により、双指向性マイクロホン412からの双指向性信号の正負極性が反転して合成される。   Similarly, when the rotation angle φ is 90 degrees, only the bidirectional signal from the bidirectional microphone 412 is input to the adder / synthesizer 426. When the rotation angle φ is 90 to 180 degrees, the positive and negative polarities of the bidirectional signal from the bidirectional microphone 413 are inverted and synthesized by multiplying Kc by a negative coefficient. When the rotation angle φ is 180 to 270 degrees, the positive and negative polarities of the bidirectional signals from the bidirectional microphones 412 and 413 are inverted and synthesized by multiplying Ks and Kc by a negative coefficient. When the rotation angle φ is 270 to 0 degrees, the positive and negative polarities of the bi-directional signal from the bi-directional microphone 412 are inverted and synthesized by multiplying Ks by a negative coefficient.

このように、回転係数KsおよびKcを設定することにより、任意の回転角φに指向性を有する信号を生成することができる。また、このようにして生成された信号を用いることによってサラウンド音源を生成することができる。そして、これらの音源を図3のベクトルに振り分けることにより、ノイズ検出用信号と本来の音声信号とに峻別することができる。   In this way, by setting the rotation coefficients Ks and Kc, a signal having directivity at an arbitrary rotation angle φ can be generated. A surround sound source can be generated by using the signal generated in this way. Then, by distributing these sound sources into the vectors shown in FIG. 3, it is possible to distinguish the noise detection signal from the original audio signal.

図9は、本発明の実施の形態におけるマイクロホンの第2の配置例を示す図である。この第2の配置例では、無指向性マイクロホン431乃至434の4つのマイクロホンが配置されている。これら無指向性マイクロホン431乃至434の間の距離は、例えば10乃至15ミリメートル程度である。また、無指向性マイクロホン431および433を結ぶ直線と無指向性マイクロホン434および432を結ぶ直線とが直交していればよく、相互の位置関係はこれに限定されない。   FIG. 9 is a diagram illustrating a second arrangement example of the microphones according to the embodiment of the present invention. In the second arrangement example, four microphones omnidirectional microphones 431 to 434 are arranged. The distance between these omnidirectional microphones 431 to 434 is, for example, about 10 to 15 millimeters. Further, the straight line connecting the omnidirectional microphones 431 and 433 and the straight line connecting the omnidirectional microphones 434 and 432 may be orthogonal to each other, and the mutual positional relationship is not limited to this.

これら無指向性マイクロホン431乃至434は、何れも特定方向への指向性を有しないが、これらを組み合わせて合成することにより、任意の方向に指向性を有する信号を生成することができる。   None of these omnidirectional microphones 431 to 434 have directivity in a specific direction, but a signal having directivity in an arbitrary direction can be generated by combining them.

図10は、本発明の実施の形態による第2の配置例におけるマイクロホンの指向特性の生成例を示す図である。   FIG. 10 is a diagram illustrating an example of generation of directivity characteristics of microphones in the second arrangement example according to the embodiment of the present invention.

無指向性マイクロホン431の音源から無指向性マイクロホン433の音源を減算して周波数特性を整えると、図10(a)のような双指向性信号506が生成される。また、無指向性マイクロホン434の音源から無指向性マイクロホン432の音源を減算して周波数特性を整えると、図10(b)のような双指向性信号507が生成される。さらに、無指向性マイクロホン431乃至434の音源を任意に組み合わせて加算することにより無指向性信号が生成される。   When the frequency characteristic is adjusted by subtracting the sound source of the omnidirectional microphone 433 from the sound source of the omnidirectional microphone 431, a bidirectional signal 506 as shown in FIG. Further, when the frequency characteristics are adjusted by subtracting the sound source of the omnidirectional microphone 432 from the sound source of the omnidirectional microphone 434, a bidirectional signal 507 as shown in FIG. 10B is generated. Furthermore, an omnidirectional signal is generated by adding any combination of the sound sources of the omnidirectional microphones 431 to 434.

図11は、本発明の実施の形態による第2の配置例におけるマイクロホンの音源の合成例を示す図である。この音源合成機構は、指向性生成部330に含まれるものであり、加算部441と、減算部442および443と、レベル可変部444および445と、加算合成部446とを備える。   FIG. 11 is a diagram showing a synthesis example of the sound sources of the microphones in the second arrangement example according to the embodiment of the present invention. This sound source synthesis mechanism is included in the directivity generation unit 330, and includes an addition unit 441, subtraction units 442 and 443, level variable units 444 and 445, and an addition synthesis unit 446.

加算部441は、無指向性マイクロホン431乃至434の音源を全て加算平均処理することにより無指向性信号を生成するものである。減算部442は、無指向性マイクロホン434の音源から無指向性マイクロホン432の音源を減算して、図10(b)の横方向の双指向性信号507を生成するものである。減算部443は、無指向性マイクロホン431の音源から無指向性マイクロホン433の音源を減算して、図10(a)の縦方向の双指向性信号506を生成するものである。   The adder 441 generates an omnidirectional signal by performing an averaging process on all the sound sources of the omnidirectional microphones 431 to 434. The subtracting unit 442 subtracts the sound source of the omnidirectional microphone 432 from the sound source of the omnidirectional microphone 434 to generate the lateral bidirectional signal 507 in FIG. The subtracting unit 443 subtracts the sound source of the omnidirectional microphone 433 from the sound source of the omnidirectional microphone 431 to generate the vertical direction bi-directional signal 506 in FIG.

レベル可変部444は、図10(b)の横方向の双指向性信号506をKs倍するものである。また、レベル可変部445は、図10(a)の縦方向の双指向性信号507をKc倍するものである。なお、これら方向係数KcおよびKsは、図7により説明したものと同じものである。   The level variable unit 444 multiplies the horizontal bidirectional signal 506 in FIG. 10B by Ks. The level variable unit 445 multiplies the vertical bidirectional signal 507 in FIG. 10A by Kc. These direction coefficients Kc and Ks are the same as those described with reference to FIG.

加算合成部446は、加算部441から供給される無指向性信号、レベル可変部444から供給される信号、および、レベル可変部445から供給される信号の3つの信号を加算平均処理により合成するものである。この加算合成部446によって合成された音源は任意の指向性を有する音源になる。   The adder / synthesizer 446 synthesizes the three signals of the omnidirectional signal supplied from the adder 441, the signal supplied from the level variable unit 444, and the signal supplied from the level variable unit 445 through an addition averaging process. Is. The sound source synthesized by the adding and synthesizing unit 446 becomes a sound source having arbitrary directivity.

この第2の配置例におけるマイクロホンの音源の合成例では、加算部441の出力は第1の配置例における無指向性マイクロホン411の出力と同等であり、減算部442の出力は第1の配置例における双指向性マイクロホン412の出力と同等であり、減算部443の出力は第1の配置例における双指向性マイクロホン413の出力と同等である。したがって、加算合成部446からの出力は、加算合成部426の出力と同等のものになる。   In the microphone sound source synthesis example in the second arrangement example, the output of the adder 441 is equivalent to the output of the omnidirectional microphone 411 in the first arrangement example, and the output of the subtractor 442 is the first arrangement example. The output of the subtracting unit 443 is equivalent to the output of the bidirectional microphone 413 in the first arrangement example. Therefore, the output from the addition synthesis unit 446 is equivalent to the output from the addition synthesis unit 426.

図12は、本発明の実施の形態におけるマイクロホンの第3の配置例を示す図である。この第3の配置例では、単一指向性マイクロホン452および453と双指向性マイクロホン451の3つのマイクロホンが配置されている。尚、各マイクロホン相互の位置関係は、一例でありこれに限定されず、例えばそれぞれのマイクロホンを立体的に配置しても良い。   FIG. 12 is a diagram showing a third arrangement example of microphones according to the embodiment of the present invention. In this third arrangement example, three microphones, unidirectional microphones 452 and 453 and a bidirectional microphone 451, are arranged. The positional relationship between the microphones is an example and is not limited to this. For example, the microphones may be arranged three-dimensionally.

双指向性マイクロホン451は、図4(d)のように右方向および左方向の双方向に指向性を有するマイクロホンである。単一指向性マイクロホン452は、図4(b)のように正面方向に指向性を有するマイクロホンである。単一指向性マイクロホン453は、図4(b)とは逆に後方に指向性を有するマイクロホンである。これら各マイクロホンの間の距離は、例えば10乃至15ミリメートル程度である。   The bi-directional microphone 451 is a microphone having directivity in both the right direction and the left direction as shown in FIG. The unidirectional microphone 452 is a microphone having directivity in the front direction as shown in FIG. The unidirectional microphone 453 is a microphone having directivity on the rear side, contrary to FIG. The distance between these microphones is, for example, about 10 to 15 millimeters.

図13は、本発明の実施の形態による第3の配置例におけるマイクロホンの音源の合成例を示す図である。この音源合成機構は、指向性生成部330に含まれるものであり、レベル可変部461乃至463と、加算合成部466とを備える。   FIG. 13 is a diagram showing a synthesis example of the sound sources of the microphones in the third arrangement example according to the embodiment of the present invention. This sound source synthesis mechanism is included in the directivity generation unit 330 and includes level variable units 461 to 463 and an addition synthesis unit 466.

レベル可変部461は、双指向性マイクロホン451の音源をKs倍するものである。レベル可変部462は、単一指向性マイクロホン452の音源を(1+Kc)倍するものである。レベル可変部463は、単一指向性マイクロホン453の音源を(1−Kc)倍するものである。なお、これら方向係数KcおよびKsは、図7により説明したものと同じものである。   The level variable unit 461 multiplies the sound source of the bidirectional microphone 451 by Ks. The level variable unit 462 multiplies the sound source of the unidirectional microphone 452 by (1 + Kc). The level variable unit 463 multiplies the sound source of the unidirectional microphone 453 by (1−Kc). These direction coefficients Kc and Ks are the same as those described with reference to FIG.

加算合成部466は、レベル可変部461乃至463から供給される3つの信号を加算平均処理により合成するものである。この加算合成部466によって合成された音源は任意の指向性を有する音源になる。   The adder / synthesizer 466 synthesizes the three signals supplied from the level variable units 461 to 463 by the addition averaging process. The sound source synthesized by the adding and synthesizing unit 466 becomes a sound source having arbitrary directivity.

ここで、縦方向の双指向性信号を時間tのコサイン関数cos(t)として表すと、単一指向性マイクロホン452の音源は(1+cos(t))になる。また、単一指向性マイクロホン453の音源は(1−cos(t))になる。そして、横方向の双指向性信号を時間tのサイン関数sin(t)として表すと、加算合成部466によって合成される音源Yは次式により表すことができる。
Y=((1+Kc)・(1+cos(t))/2
+(1−Kc)・(1−cos(t))/2
+Ks・sin(t))/2
Here, when the vertical bidirectional signal is expressed as a cosine function cos (t) at time t, the sound source of the unidirectional microphone 452 is (1 + cos (t)). The sound source of the unidirectional microphone 453 is (1-cos (t)). When the lateral bi-directional signal is represented as a sine function sin (t) at time t, the sound source Y synthesized by the addition synthesis unit 466 can be represented by the following equation.
Y = ((1 + Kc). (1 + cos (t)) / 2
+ (1-Kc). (1-cos (t)) / 2
+ Ks · sin (t)) / 2

図14は、本発明の実施の形態による第3の配置例におけるマイクロホンの指向特性の生成例を示す図である。   FIG. 14 is a diagram illustrating a generation example of the directivity characteristics of the microphone in the third arrangement example according to the embodiment of the present invention.

図14(a)には、単一指向性マイクロホン452の音源の指向性521、単一指向性マイクロホン453の音源の指向性522、および、双指向性マイクロホン451の音源の指向性523が示されている。   14A shows the directivity 521 of the sound source of the unidirectional microphone 452, the directivity 522 of the sound source of the unidirectional microphone 453, and the directivity 523 of the sound source of the bi-directional microphone 451. FIG. ing.

加算合成部466によって合成される音源Yの式において、回転角φが0度に設定された場合、Ks=0、Kc=1になるため、加算合成部466からは単一指向性マイクロホン452の音源が出力される。指向性の回転角φが45度に設定された場合、KsおよびKcはともに2の平方根の逆数(≒0.7)になるため、加算合成部466において加算平均処理が行われて、図14(b)の指向性524のように45度方向に単一指向性の信号が生成される。   In the expression of the sound source Y synthesized by the adding and synthesizing unit 466, when the rotation angle φ is set to 0 degree, Ks = 0 and Kc = 1. Therefore, the adding and synthesizing unit 466 receives the unidirectional microphone 452. A sound source is output. When the directivity rotation angle φ is set to 45 degrees, both Ks and Kc are reciprocals of the square root of 2 (≈0.7), and therefore, the addition / synthesis unit 466 performs addition averaging processing, and FIG. A unidirectional signal is generated in the 45-degree direction like the directivity 524 in (b).

また、指向性の回転角φが90度に設定された場合、Ks=1、Kc=0になるため、レベル可変部462および463によって無指向性信号が生成され、加算合成部466によって双指向性マイクロホン451の双指向性信号と加算平均処理されることによって90度方向に単一指向性の信号が生成される。   Further, when the directivity rotation angle φ is set to 90 degrees, Ks = 1 and Kc = 0, so that a non-directional signal is generated by the level variable units 462 and 463, and the adder / synthesizer 466 is bi-directional. The unidirectional signal is generated in the 90-degree direction by performing an averaging process with the bidirectional signal of the directional microphone 451.

同様に、指向性の回転角φが90乃至180度の範囲ではKcが負係数で合成され、指向性の回転角φが180乃至270度の範囲ではKsおよびkcが負係数で合成され、指向性の回転角φが270乃至0度の範囲ではKsが負係数で合成される。例えば、指向性の回転角φが315度に設定された場合、Kcは2の平方根の逆数(≒0.7)になり、Ksは2の平方根の逆数の負数(≒−0.7)になる。これにより、加算合成部466において加算平均処理が行われて、図14(b)の指向性525のように315度方向に単一指向性の信号が生成される。   Similarly, Kc is synthesized with a negative coefficient when the directivity rotation angle φ is in the range of 90 to 180 degrees, and Ks and kc are synthesized with a negative coefficient when the directivity rotation angle φ is in the range of 180 to 270 degrees. Ks is synthesized with a negative coefficient in the range where the rotation angle φ of the sex is 270 to 0 degrees. For example, when the directivity rotation angle φ is set to 315 degrees, Kc is the inverse of the square root of 2 (≈0.7), and Ks is the negative of the inverse of the square root of 2 (≈−0.7). Become. As a result, the addition and synthesis unit 466 performs addition averaging processing, and a unidirectional signal is generated in the direction of 315 degrees as in the directivity 525 of FIG.

なお、上述の第1乃至3の配置例では、図4(b)のような単一指向性信号を得る手法について説明したが、図4(c)のような2次指向性信号を生成することも可能である。この場合、合成される音源Zは次式により表すことができる。なお、この式において、「1」は無指向性信号(図4(a))に対応し、sin(t)は横方向の双指向性信号(図4(d))に対応し、cos(t)は縦方向の双指向性信号(図4(e))に対応する。
Z=((1+Ks・sin(t)+Kc・cos(t))
・(Ks・sin(t)+Kc・cos(t)))/2
In the first to third arrangement examples described above, the technique for obtaining the unidirectional signal as shown in FIG. 4B has been described. However, the secondary directional signal as shown in FIG. 4C is generated. It is also possible. In this case, the synthesized sound source Z can be expressed by the following equation. In this equation, “1” corresponds to an omnidirectional signal (FIG. 4A), sin (t) corresponds to a lateral bidirectional signal (FIG. 4D), and cos ( t) corresponds to the vertical bidirectional signal (FIG. 4E).
Z = ((1 + Ks · sin (t) + Kc · cos (t))
(Ks.sin (t) + Kc.cos (t))) / 2

この2次指向性信号によれば、さらに指向性を狭角にすることができるため、後述するノイズ検出のための各指向性信号の選択性を向上させることができる。   According to this secondary directivity signal, since the directivity can be further narrowed, the selectivity of each directivity signal for noise detection described later can be improved.

なお、上述の第1乃至3の配置例は説明のための例であり、各マイクロホンは相対的に近接していれば、本発明の目的の範囲内で変更可能である。例えば、これらは直線上や等間隔に並べる必要はなく、また、図9の配置例では、3つのマイクロホンでも同様に構成可能である。   The above first to third arrangement examples are examples for explanation, and can be changed within the scope of the object of the present invention as long as the microphones are relatively close to each other. For example, these do not need to be arranged on a straight line or at equal intervals, and in the arrangement example of FIG. 9, three microphones can be similarly configured.

図15は、本発明の実施の形態における指向性の回転角φの例を示す図である。指向性の回転角φ(651)は、正面方向を0度として、時計回りに回転する指向性650の成す角度を表す。   FIG. 15 is a diagram showing an example of the directivity rotation angle φ in the embodiment of the present invention. The directivity rotation angle φ (651) represents the angle formed by the directivity 650 that rotates clockwise with the front direction as 0 degree.

上述の音源合成機構によれば、全周囲の任意の回転角φによる複数の指向性信号を合成することができる。しかし、これらの指向性信号を個別に扱うこととすると、扱うチャンネル数が増加して、処理が大規模化もしくは複雑化するおそれがある。そこで、本発明の実施の形態では、各指向性信号を単独もしくは少数のチャンネルの指向性ストリーム信号として扱うこととする。   According to the above-described sound source synthesizing mechanism, it is possible to synthesize a plurality of directional signals with an arbitrary rotation angle φ around the entire circumference. However, if these directional signals are handled individually, the number of channels to be handled increases, and the processing may become large or complicated. Therefore, in the embodiment of the present invention, each directional signal is treated as a directional stream signal of a single channel or a small number of channels.

図16は、本発明の実施の形態における指向性ストリーム信号の内容例を示す図である。この図において、横軸は、一例として全周囲を30度毎に分割した方向チャンネルである。この例では、回転角φが0度のD_1チャンネル、回転角φが30度のD_2チャンネル、回転角φが90度のD_3チャンネルと続き、回転角φが330度のD_cチャンネルに至る12チャンネルが示されている。   FIG. 16 is a diagram illustrating an example of the contents of a directional stream signal in the embodiment of the present invention. In this figure, the horizontal axis is a direction channel obtained by dividing the entire circumference every 30 degrees as an example. In this example, there are 12 channels ranging from a D_1 channel with a rotation angle φ of 0 degrees, a D_2 channel with a rotation angle φ of 30 degrees, a D_3 channel with a rotation angle φ of 90 degrees, and a D_c channel with a rotation angle φ of 330 degrees. It is shown.

また、縦軸は、オーディオサンプリング周期を表す。サンプリング周波数をFsとすると、オーディオサンプリング周期は「1/Fs」となる。オーディオサンプリング周期Ts_0では、D_1チャンネルから順にサンプリングされた指向性信号が、S(01)、S(02)、S(03)の要領で順次並べられている。また、オーディオサンプリング周期Ts_1でも、D_1チャンネルから順にサンプリングされた指向性信号が、S(11)、S(12)、S(13)の要領で順次並べられている。   The vertical axis represents the audio sampling period. When the sampling frequency is Fs, the audio sampling period is “1 / Fs”. In the audio sampling period Ts_0, the directivity signals sampled in order from the D_1 channel are sequentially arranged in the manner of S (01), S (02), and S (03). In the audio sampling period Ts_1, the directional signals sampled in order from the D_1 channel are sequentially arranged in the manner of S (11), S (12), and S (13).

このようにサンプリングされた信号を順番にスキャンニングして、1本の指向性ストリーム信号として生成したものが図17である。この指向性ストリーム信号には時間軸および方向の両者によるベクトル成分のレベルが含まれることになる。すなわち、上述の配置例により説明した指向性パターンは、指向性方向に最も強い大きさを有するベクトル量の集合体とみなすことができ、その主軸方向を回転角φに沿って変化させることにより、各主軸方向に対して収音レベルに応じたベクトル量がオーディオサンプリング周期毎に得られる。   The signals sampled in this way are sequentially scanned and generated as a single directional stream signal as shown in FIG. This directional stream signal includes vector component levels in both the time axis and direction. That is, the directivity pattern described in the above arrangement example can be regarded as an aggregate of vector quantities having the strongest magnitude in the directivity direction, and by changing the principal axis direction along the rotation angle φ, A vector amount corresponding to the sound collection level in each main axis direction is obtained for each audio sampling period.

図17に示すように、1つのオーディオサンプリング周期「1/Fs」においてそれぞれm個(mは整数)の方向チャンネルをサンプリングする場合、必要な指向性ストリーム信号のサンプリング周期は「1/(m・Fs)」となる。例えば、図16の例では、m=12であるため、サンプリング周期は「1/(12×Fs)」である。   As shown in FIG. 17, when sampling m (m is an integer) direction channels in one audio sampling period “1 / Fs”, the necessary directional stream signal sampling period is “1 / (m · Fs) ". For example, in the example of FIG. 16, since m = 12, the sampling period is “1 / (12 × Fs)”.

図18は、本発明の実施の形態における指向性生成部330の一構成例を示す図である。この指向性生成部330は、アップサンプリング部331と、インターポレーションフィルタ332と、指向性生成部333とを備えている。   FIG. 18 is a diagram illustrating a configuration example of the directivity generation unit 330 according to the embodiment of the present invention. The directivity generation unit 330 includes an upsampling unit 331, an interpolation filter 332, and a directivity generation unit 333.

アップサンプリング部331は、アンプ320を介して音声入力部310から取得した音声信号をアップサンプリングするものである。すなわち、サンプリング周波数Fsでサンプリングされた音声信号は、アップサンプリング部331においてサンプリング周波数「m・Fs」で再サンプリングされる。   The upsampling unit 331 is for upsampling the audio signal acquired from the audio input unit 310 via the amplifier 320. That is, the audio signal sampled at the sampling frequency Fs is resampled at the sampling frequency “m · Fs” in the upsampling unit 331.

インターポレーションフィルタ332は、アップサンプリング部331における再サンプリングにより発生した不要な広帯域成分(偽信号)を除去するものである。このインターポレーションフィルタ332は、例えばローパスフィルタ(LPF)により実現される。   The interpolation filter 332 removes unnecessary wideband components (false signals) generated by re-sampling in the upsampling unit 331. The interpolation filter 332 is realized by, for example, a low pass filter (LPF).

指向性生成部333は、インターポレーションフィルタ332から供給されたサンプリング周期「1/(m・Fs)」の音声信号に基づいて、指向性信号を生成するものである。この指向性生成部333は、信号線359を介して回転係数生成部350から供給された回転係数に従って、その回転係数に対応した指向性を有する指向性信号を生成する。ここでは、ノイズ検出のための指向性信号が信号線338からノイズ検出部360に供給され、それ以外の本来の音声信号として用いられる指向性信号が信号線339からノイズ低減処理部370に供給されるものとする。   The directivity generation unit 333 generates a directivity signal based on the audio signal having the sampling period “1 / (m · Fs)” supplied from the interpolation filter 332. The directivity generation unit 333 generates a directivity signal having directivity corresponding to the rotation coefficient in accordance with the rotation coefficient supplied from the rotation coefficient generation unit 350 via the signal line 359. Here, a directivity signal for noise detection is supplied from the signal line 338 to the noise detection unit 360, and other directivity signals used as original audio signals are supplied from the signal line 339 to the noise reduction processing unit 370. Shall be.

図19は、本発明の実施の形態におけるダウンサンプリング機構の一構成例を示す図である。このダウンサンプリング機構は、ノイズ低減処理部370およびノイズ検出部360の内部に設けられるものであり、指向性方向抽出部371と、デシメーションフィルタ372と、ダウンサンプリング部373とを備える。   FIG. 19 is a diagram illustrating a configuration example of the downsampling mechanism according to the embodiment of the present invention. This downsampling mechanism is provided inside the noise reduction processing unit 370 and the noise detection unit 360, and includes a directivity direction extraction unit 371, a decimation filter 372, and a downsampling unit 373.

指向性方向抽出部371は、信号線349によって供給されたサンプリング周波数「m・Fs」に同期したタイミングで、各指向性信号を抽出するものである。   The directivity direction extraction unit 371 extracts each directivity signal at a timing synchronized with the sampling frequency “m · Fs” supplied by the signal line 349.

デシメーションフィルタ372は、指向性方向抽出部371によって抽出された指向性信号において、不要な折返し成分を除去するものであり、例えばローパスフィルタ(LPF)により実現される。   The decimation filter 372 removes unnecessary aliasing components from the directivity signal extracted by the directivity direction extraction unit 371, and is realized by, for example, a low-pass filter (LPF).

ダウンサンプリング部373は、デシメーションフィルタ372から供給された指向性信号のサンプリングレートを「1/m」倍することにより、本来のサンプリング周波数Fsに戻すものである。   The down-sampling unit 373 returns the original sampling frequency Fs by multiplying the sampling rate of the directional signal supplied from the decimation filter 372 by “1 / m”.

これにより、ノイズ低減処理部370では、例えば、図2により説明した正面方向、正面左方向、正面右方向、後方左方向、後方右方向および低周波数帯域の5.1チャンネルのサラウンド音源に対応する指向性信号を生成することができる。また、ノイズ検出部360では、例えば、図3により説明したノイズベクトルに対応する指向性信号を生成することができる。   Thereby, the noise reduction processing unit 370 corresponds to, for example, the 5.1 channel surround sound source of the front direction, the front left direction, the front right direction, the rear left direction, the rear right direction, and the low frequency band described with reference to FIG. A directional signal can be generated. In addition, the noise detection unit 360 can generate, for example, a directivity signal corresponding to the noise vector described with reference to FIG.

図20は、本発明の実施の形態におけるノイズ低減機構の第1の構成例を示す図である。このノイズ低減機構には、ノイズ検出のための指向性信号が信号線118を介して入力されるとともに、それ以外の本来の音声信号として用いられる指向性信号が信号線119を介して入力されて、この指向性信号についてノイズ低減処理が行われる。   FIG. 20 is a diagram illustrating a first configuration example of the noise reduction mechanism according to the embodiment of the present invention. In this noise reduction mechanism, a directional signal for noise detection is input via the signal line 118, and other directional signals used as original sound signals are input via the signal line 119. Then, noise reduction processing is performed on this directional signal.

このノイズ低減機構は、補間源信号生成部130と、ノイズ除去フィルタ141と、逆フィルタ142と、レベルエンベロープ生成部171と、レベル係数生成部172と、レベル変調部173と、合成部180と、選択スイッチ190と、ノイズ認識部210と、ノイズ除去期間生成部220とを備えている。ノイズ認識部210およびノイズ除去期間生成部220はノイズ検出部360に含まれ、それ以外の各部はノイズ低減処理部370に含まれることが想定されるが、これに限定されるものではない。   This noise reduction mechanism includes an interpolation source signal generation unit 130, a noise removal filter 141, an inverse filter 142, a level envelope generation unit 171, a level coefficient generation unit 172, a level modulation unit 173, a synthesis unit 180, A selection switch 190, a noise recognition unit 210, and a noise removal period generation unit 220 are provided. Although it is assumed that the noise recognition unit 210 and the noise removal period generation unit 220 are included in the noise detection unit 360 and other units are included in the noise reduction processing unit 370, the present invention is not limited to this.

ノイズ除去フィルタ141は、音声入力部310からの指向性信号からノイズ帯域を除去するフィルタである。このノイズ除去フィルタ141は、例えば単一もしくは複数の周波数帯域を除去対象とするBEF(Band Elimination Filter)等により実現される。このノイズ除去フィルタ141の出力は信号線149を介して合成部180の一方の入力に供給される。   The noise removal filter 141 is a filter that removes a noise band from the directional signal from the audio input unit 310. The noise removal filter 141 is realized by, for example, a BEF (Band Elimination Filter) or the like whose removal target is a single or a plurality of frequency bands. The output of the noise removal filter 141 is supplied to one input of the synthesis unit 180 via the signal line 149.

補間源信号生成部130は、補間のための補間源信号を生成するものである。本発明の実施の形態では、ノイズ除去フィルタ141によってノイズ帯域を除去された指向性信号に対して補間信号を合成することにより、人間の聴覚上のマスキング効果を向上させる。補間源信号生成部130は、その補間信号の源となる補間源信号として、トーン信号およびランダム信号を適宜混合したものを出力する。この補間源信号生成部130の構成については後述する。   The interpolation source signal generation unit 130 generates an interpolation source signal for interpolation. In the embodiment of the present invention, the interpolating signal is synthesized with the directional signal from which the noise band has been removed by the noise removing filter 141, thereby improving the human auditory masking effect. The interpolation source signal generation unit 130 outputs a signal obtained by appropriately mixing a tone signal and a random signal as an interpolation source signal that is a source of the interpolation signal. The configuration of the interpolation source signal generation unit 130 will be described later.

逆フィルタ142は、補間源信号生成部130によって生成された補間源信号からノイズ帯域以外を除去するフィルタである。この逆フィルタ142は、ノイズ除去フィルタ141の逆フィルタ特性を有するものであり、ノイズ除去フィルタ141の阻止帯域が逆フィルタ142の通過帯域となり、ノイズ除去フィルタ141の通過帯域が逆フィルタ142の阻止帯域となる。この逆フィルタ142の出力は信号線148を介してレベル変調部173に供給される。   The inverse filter 142 is a filter that removes other than the noise band from the interpolation source signal generated by the interpolation source signal generation unit 130. The inverse filter 142 has the inverse filter characteristics of the noise removal filter 141, and the stop band of the noise removal filter 141 becomes the pass band of the inverse filter 142, and the pass band of the noise removal filter 141 is the stop band of the inverse filter 142. It becomes. The output of the inverse filter 142 is supplied to the level modulation unit 173 via the signal line 148.

レベルエンベロープ生成部171は、音声入力部310からの指向性信号のレベルエンベロープ(レベル包絡線)を連続的に検出するものである。このレベルエンベロープ生成部171の出力は信号線177を介してレベル係数生成部172に供給される。   The level envelope generator 171 continuously detects the level envelope (level envelope) of the directional signal from the audio input unit 310. The output of the level envelope generator 171 is supplied to the level coefficient generator 172 via the signal line 177.

レベル係数生成部172は、レベルエンベロープ生成部171から供給されたレベルエンベロープに基づいてレベル係数を生成するものである。このレベル係数生成部172の出力は信号線178を介してレベル変調部173に供給される。   The level coefficient generation unit 172 generates a level coefficient based on the level envelope supplied from the level envelope generation unit 171. The output of the level coefficient generation unit 172 is supplied to the level modulation unit 173 via the signal line 178.

レベル変調部173は、逆フィルタ142から供給された補間源信号に対して、レベル係数生成部172から供給されたレベル係数に応じてレベル変調を行って補間信号として出力するものである。このレベル変調部173の出力は信号線179を介して合成部180の一方の入力に供給される。   The level modulation unit 173 performs level modulation on the interpolation source signal supplied from the inverse filter 142 in accordance with the level coefficient supplied from the level coefficient generation unit 172, and outputs the result as an interpolation signal. The output of the level modulation unit 173 is supplied to one input of the synthesis unit 180 via the signal line 179.

合成部180は、ノイズ除去フィルタ141から信号線149を介して供給された指向性信号とレベル変調部173から信号線179を介して供給された補間信号とを合成するものである。この合成部180は、例えば加算器により実現される。この合成部180の出力は、信号線189を介して選択スイッチ190のオン入力端子に供給される。   The synthesizer 180 synthesizes the directivity signal supplied from the noise removal filter 141 via the signal line 149 and the interpolated signal supplied from the level modulator 173 via the signal line 179. The synthesizing unit 180 is realized by an adder, for example. The output of the synthesis unit 180 is supplied to the ON input terminal of the selection switch 190 via the signal line 189.

ノイズ認識部210は、音声入力部310からの指向性信号に含まれるノイズを認識するものである。このノイズ認識部210の出力は、信号線219を介してノイズ除去期間生成部220に供給される。ノイズ除去期間生成部220は、ノイズ認識部210においてノイズが認識されると、ノイズの発生期間に応じてノイズ除去期間を示す信号を生成するものである。このノイズ除去期間生成部220の出力は、信号線369を介して選択スイッチ190の制御端子に供給される。   The noise recognition unit 210 recognizes noise included in the directivity signal from the voice input unit 310. The output of the noise recognition unit 210 is supplied to the noise removal period generation unit 220 via the signal line 219. When the noise recognition unit 210 recognizes noise, the noise removal period generation unit 220 generates a signal indicating the noise removal period according to the noise generation period. The output of the noise removal period generator 220 is supplied to the control terminal of the selection switch 190 via the signal line 369.

選択スイッチ190は、ノイズ除去期間生成部220から信号線369を介して供給された信号に応じて、ノイズ除去期間であれば合成部180から信号線189を介して供給された指向性信号を選択し、ノイズ除去期間でなければ音声入力部310から信号線119を介して供給された指向性信号を選択するスイッチである。この選択スイッチ190の出力は、信号線199を介して後段の処理のために供給される。   The selection switch 190 selects the directivity signal supplied from the synthesizing unit 180 via the signal line 189 in the noise removal period according to the signal supplied from the noise removal period generation unit 220 via the signal line 369. If the period is not a noise elimination period, the switch selects a directional signal supplied from the audio input unit 310 via the signal line 119. The output of the selection switch 190 is supplied via the signal line 199 for subsequent processing.

なお、ここでは、指向性信号の1チャンネル分のノイズ低減機構の例を示しているが、実際には、必要なチャンネル数に対応する数のノイズ低減機構が設けられる。   Although an example of a noise reduction mechanism for one channel of a directional signal is shown here, in actuality, the number of noise reduction mechanisms corresponding to the required number of channels is provided.

図21は、本発明の実施の形態において利用するマスキング現象を説明するための図である。人間の聴覚は、大きな騒音の中では人の声が聞き取りにくくなるように、相対的に大きな音の陰にあるような小さな音の存在に気が付かないようになっている。このような現象はマスキング現象と呼ばれ、周波数成分、音圧レベル、および、持続時間などの条件に依存することが知られている。この聴覚マスキング現象は周波数マスキングと時間マスキングに大別され、さらに時間マスキングは同時マスキングと非同時マスキング(継時マスキング)に分けられる。このマスキング現象は、例えばCD(コンパクトディスク)などにおいて、オーディオ信号を1/5乃至1/10程度に圧縮する高能率符号化として応用されるようになっている。   FIG. 21 is a diagram for explaining the masking phenomenon used in the embodiment of the present invention. Human hearing is not aware of the presence of small sounds behind relatively loud sounds, so that human voices are difficult to hear in loud noises. Such a phenomenon is called a masking phenomenon and is known to depend on conditions such as a frequency component, a sound pressure level, and a duration. This auditory masking phenomenon is roughly divided into frequency masking and time masking, and time masking is further divided into simultaneous masking and non-simultaneous masking (continuous masking). This masking phenomenon is applied as high-efficiency encoding that compresses an audio signal to about 1/5 to 1/10 in a CD (compact disc), for example.

図21では、横方向に時間経過が示され、縦方向に時間ごとの信号レベルの絶対値が示されている。図21(a)のように、信号Aが所定レベルで入力し、無信号のギャップ期間を挟んで信号Bが所定レベルで入力した場合、人間の聴感レベルは図21(b)のように模式的に示される。すなわち、人間の聴感では、信号Aが消えた後でも信号Aのパターンが領域91のように暫くの間は感度が低下しながらも残存する。このような現象は前方(順向)マスキングと呼ばれ、この期間には別の音が存在しても人間の聴感上は聞き取れなくなる。また、信号Bが入力する直前にも、領域92のように同様の感度低下が発生する。これは後方(逆向)マスキングと呼ばれ、この期間に別の音が存在しても人間の聴感上は聞き取れなくなる。   In FIG. 21, the elapsed time is shown in the horizontal direction, and the absolute value of the signal level for each time is shown in the vertical direction. As shown in FIG. 21A, when the signal A is input at a predetermined level and the signal B is input at a predetermined level across a gap period of no signal, the human audibility level is schematically shown in FIG. Indicated. That is, in human hearing, even after the signal A disappears, the pattern of the signal A remains for a while like the region 91 while the sensitivity decreases. Such a phenomenon is called forward (forward) masking, and even if another sound is present during this period, it becomes inaudible for human hearing. Also, just before the signal B is input, the same sensitivity decrease occurs as in the region 92. This is called backward (reverse) masking, and even if another sound is present during this period, it becomes inaudible for human hearing.

通常は、後方マスキング量に対して前方マスキング量の方が大きく、時間的には条件にも左右されるが、最大で数百mS程度発生する。そしてある条件下においては、図21(a)のギャップ期間は数ミリ秒乃至数十ミリ秒程度が聴感上で認知されず、信号Aと信号Bが連続音として聞こえる現象が発生する。このような現象は、R.Plompのギャップ検出についての研究論文(1963)、三浦の研究論文(JAS.Journal 94.11月号)、さらに聴覚心理学概論(B.C.J.ムーア著、大串健吾監訳、誠信書房、第4章/聴覚系の時間分解能)にも示されているように、以下の特性を有することが知られている。   Usually, the forward masking amount is larger than the backward masking amount, and it occurs about several hundreds mS at the maximum although it depends on the conditions in terms of time. Under certain conditions, the gap period shown in FIG. 21A is not perceived by hearing for several milliseconds to several tens of milliseconds, and a phenomenon occurs in which the signals A and B are heard as continuous sounds. Such a phenomenon is described in R.A. Research paper on gap detection in Plomp (1963), research paper by Miura (JAS. Journal 94.November issue), and introduction to auditory psychology (B.C.J. Moore, written by Kengo Ogushi, Seishin Shobo, No. 1) As shown in Chapter 4 / Temporal resolution of auditory system, it is known to have the following characteristics.

(第1特性):信号Aと信号Bの周波数帯域に相関性があればギャップ長は大きくなる。また、周波数的に信号Aと信号Bの連続性が保たれていればギャップ長は大きくなる。
(第2特性):単一正弦波信号よりも、帯域信号の方が、ギャップ長は大きくなる。
(第3特性):信号Aと信号Bのレベルが同じ場合、信号レベルが小さい程ギャップ長は大きくなり、ある程度以上に信号レベルが大きくなるとギャップ長は変化しない。
(第4特性):信号Aよりも信号Bのレベルが小さい方が、ギャップ長は大きくなる。
(第5特性):信号に含まれる中心周波数が低い程ギャップ長は大きくなり、中心周波数が高くなる程ギャップ長が小さくなる。
(First characteristic): If there is a correlation between the frequency bands of the signals A and B, the gap length becomes large. Further, if the continuity between the signal A and the signal B is maintained in terms of frequency, the gap length increases.
(Second characteristic): The band length of the band signal is larger than that of the single sine wave signal.
(Third characteristic): When the levels of the signals A and B are the same, the gap length increases as the signal level decreases, and the gap length does not change when the signal level increases beyond a certain level.
(4th characteristic): The gap length becomes large when the level of the signal B is smaller than the signal A.
(Fifth characteristic): The gap length increases as the center frequency included in the signal decreases, and the gap length decreases as the center frequency increases.

本発明の実施の形態においては、レベル係数生成部172がこれら5つの特性を鑑みて、補間のためのレベル係数を生成する。例えば、レベル係数生成部172は、音声レベルが小さい場合にギャップ期間を長くし(第3特性)、また、音声レベルが時間的に上昇傾向にある場合よりも下降傾向の場合にギャップ期間をより長くする(第4特性)。   In the embodiment of the present invention, the level coefficient generation unit 172 generates a level coefficient for interpolation in consideration of these five characteristics. For example, the level coefficient generation unit 172 increases the gap period when the audio level is low (third characteristic), and increases the gap period when the audio level tends to be lower than when the audio level tends to increase with time. Increase the length (fourth characteristic).

図22は、本発明の実施の形態における補間源信号生成部130の一構成例を示す図である。この補間源信号生成部130は、トーン信号発生部131と、ホワイトノイズ信号発生部132と、混合部133とを備えている。   FIG. 22 is a diagram illustrating a configuration example of the interpolation source signal generation unit 130 in the embodiment of the present invention. The interpolation source signal generation unit 130 includes a tone signal generation unit 131, a white noise signal generation unit 132, and a mixing unit 133.

トーン信号発生部131は、所定周期の単一もしくは複数の正弦波やパルス波などで構成されるトーン信号を発生するものである。このトーン信号は、周波数特性上、所定周波数に単一もしくは複数のピークを有する。   The tone signal generator 131 generates a tone signal composed of a single or plural sine waves or pulse waves having a predetermined period. This tone signal has a single or a plurality of peaks at a predetermined frequency in terms of frequency characteristics.

ホワイトノイズ信号発生部132は、音声帯域の全帯域にレベルが均一なホワイトノイズ信号(ランダム信号)を発生するものである。このホワイトノイズ信号発生部132は、例えば、M系列の乱数発生器などにより実現される。   The white noise signal generator 132 generates a white noise signal (random signal) having a uniform level in the entire audio band. The white noise signal generator 132 is realized by, for example, an M-sequence random number generator.

混合部133は、トーン信号発生部131の発生したトーン信号とホワイトノイズ信号発生部132の発生したホワイトノイズ信号とを所定の混合比により混合した混合信号を補間源信号として出力するものである。この混合部133の出力は信号線139を介して逆フィルタ142に供給される。   The mixing unit 133 outputs a mixed signal obtained by mixing the tone signal generated by the tone signal generating unit 131 and the white noise signal generated by the white noise signal generating unit 132 at a predetermined mixing ratio as an interpolation source signal. The output of the mixing unit 133 is supplied to the inverse filter 142 via the signal line 139.

なお、上記所定の混合比は、ノイズ除去フィルタ141のノイズ除去帯域特性に応じて適宜設定される。但し、何れか一方をゼロとして、トーン信号のみ、または、ホワイトノイズ信号のみを補間源信号として出力してもよい。   The predetermined mixing ratio is appropriately set according to the noise removal band characteristic of the noise removal filter 141. However, either one may be set to zero, and only the tone signal or only the white noise signal may be output as the interpolation source signal.

図23は、本発明の実施の形態におけるノイズ除去フィルタ141および逆フィルタ142の周波数特性例を示す図である。ここでは、横方向に周波数、縦方向にフィルタの通過信号レベルを示している。   FIG. 23 is a diagram illustrating an example of frequency characteristics of the noise removal filter 141 and the inverse filter 142 according to the embodiment of the present invention. Here, the frequency is shown in the horizontal direction, and the pass signal level of the filter is shown in the vertical direction.

図23(a)は、ノイズ除去フィルタ141の周波数特性例であり、ここでは、除去帯域の中心周波数としてfa、fbおよびfcの3つを有するフィルタであることが示されている。一方、図23(b)は、逆フィルタ142の周波数特性例であり、ノイズ除去フィルタ141とは逆に、中心周波数fa、fbおよびfcを通過帯域として有するフィルタであることが示されている。   FIG. 23A shows an example of the frequency characteristic of the noise removal filter 141. Here, it is shown that the filter has three of fa, fb, and fc as the center frequencies of the removal band. On the other hand, FIG. 23B shows an example of the frequency characteristic of the inverse filter 142, and shows that the filter has the center frequencies fa, fb, and fc as passbands, contrary to the noise removal filter 141.

すなわち、この例では、中心周波数fa、fbおよびfcをノイズ帯域として、ノイズ除去フィルタ141ではノイズ帯域を除去帯域として扱い、逆フィルタ142ではノイズ帯域を通過帯域として扱っていることが分かる。   That is, in this example, it can be seen that the center frequencies fa, fb, and fc are treated as noise bands, the noise removal filter 141 treats the noise bands as removal bands, and the inverse filter 142 treats the noise bands as pass bands.

図24は、本発明の実施の形態におけるレベルエンベロープ生成部171の一構成例を示す図である。このレベルエンベロープ生成部171は、絶対値生成部174と、平滑化部175とを備えている。   FIG. 24 is a diagram illustrating a configuration example of the level envelope generation unit 171 according to the embodiment of the present invention. The level envelope generation unit 171 includes an absolute value generation unit 174 and a smoothing unit 175.

絶対値生成部174は、信号線119を介して供給される指向性信号の絶対値を生成するものである。平滑化部175は、絶対値生成部174によって絶対値化された指向性信号から低域成分を抽出して平滑化するものであり、例えば、ローパスフィルタ(LPF)によって実現される。この平滑化により、瞬時ノイズのような急激なレベル変化による影響を取り除くことができる。   The absolute value generation unit 174 generates an absolute value of the directional signal supplied via the signal line 119. The smoothing unit 175 extracts and smoothes a low frequency component from the directivity signal absolute valued by the absolute value generation unit 174, and is realized by, for example, a low-pass filter (LPF). By this smoothing, it is possible to remove the influence caused by a rapid level change such as instantaneous noise.

図25は、本発明の実施の形態におけるレベルエンベロープ生成部171による処理過程の一例を示す図である。図25(a)は、信号線119を介してレベルエンベロープ生成部171に供給される指向性信号(音声信号)の波形例である。この指向性信号は、絶対値生成部174によって絶対値化されることにより、図25(b)のような波形になる。   FIG. 25 is a diagram illustrating an example of a process performed by the level envelope generation unit 171 in the embodiment of the present invention. FIG. 25A is a waveform example of a directional signal (audio signal) supplied to the level envelope generation unit 171 via the signal line 119. This directivity signal is converted into an absolute value by the absolute value generation unit 174, thereby forming a waveform as shown in FIG.

そして、図25(b)の波形を有する絶対値化された指向性信号は、平滑化部175によって平滑化されることにより、図25(c)に示す太線のような包絡線になる。   Then, the absolute value-directed directional signal having the waveform of FIG. 25B is smoothed by the smoothing unit 175, thereby forming an envelope like the thick line shown in FIG.

このようにして生成されたレベルエンベロープに基づいてレベル係数生成部172によりレベル係数が生成され、このレベル係数によってレベル変調部173を制御することにより、補間信号が生成される。   A level coefficient is generated by the level coefficient generation unit 172 based on the level envelope generated in this manner, and an interpolation signal is generated by controlling the level modulation unit 173 with this level coefficient.

図26は、本発明の実施の形態における補間信号の一例を示す図である。この例では、レベルエンベロープ生成部171によって生成されたレベルエンベロープに基づいて信号Aと信号Bとの間の周波数の連続性を維持するように補正信号21を生成している。これにより、上述の第1特性によって、ギャップ長を大きくすることができる。   FIG. 26 is a diagram showing an example of the interpolation signal in the embodiment of the present invention. In this example, the correction signal 21 is generated so as to maintain the frequency continuity between the signal A and the signal B based on the level envelope generated by the level envelope generation unit 171. Thereby, the gap length can be increased by the above-described first characteristic.

図27は、本発明の実施の形態における補間信号の他の例を示す図である。この例では、図21(b)に示した前方マスキングおよび後方マスキングと信号Bとの間の不足分ΔSを補うための補正信号22を生成している。これにより、聴感上でギャップが感じられないようにしている。すなわち、この図27の例では、図26の例のように信号Aと信号Bとの間の連続性を確保するものではなく、あくまでも聴感上でギャップ期間がマスキングされるようにレベル補間をしている。   FIG. 27 is a diagram showing another example of the interpolation signal in the embodiment of the present invention. In this example, the correction signal 22 is generated to compensate for the shortage ΔS between the forward masking and backward masking and the signal B shown in FIG. This prevents gaps from being felt in the sense of hearing. That is, in the example of FIG. 27, continuity between the signal A and the signal B is not ensured as in the example of FIG. 26, and level interpolation is performed so that the gap period is masked to the last. ing.

図28は、本発明の実施の形態におけるノイズ認識部210の一構成例を示す図である。図28(a)は時間領域でノイズを認識するものであり、図28(b)は周波数領域でノイズを認識するものである。   FIG. 28 is a diagram illustrating a configuration example of the noise recognition unit 210 according to the embodiment of the present invention. FIG. 28 (a) recognizes noise in the time domain, and FIG. 28 (b) recognizes noise in the frequency domain.

図28(a)の構成例では、ノイズ認識部210は、フレーム生成部211と、ノイズパターンマッチング部212と、ノイズパターン保持部213とを備えている。   In the configuration example of FIG. 28A, the noise recognition unit 210 includes a frame generation unit 211, a noise pattern matching unit 212, and a noise pattern holding unit 213.

フレーム生成部211は、信号線119を介して供給された指向性信号を所定時間毎にフレーム化するものである。ここで、フレームとは複数のオーディオサンプリング信号からなるデータ列である。フレーム化されたN個(Nは整数)のオーディオサンプリング信号S(n)はノイズパターンマッチング部212に供給される。但し、nは1からNの整数を表す。   The frame generation unit 211 frames the directional signal supplied via the signal line 119 every predetermined time. Here, a frame is a data string composed of a plurality of audio sampling signals. The framed N (N is an integer) audio sampling signals S (n) are supplied to the noise pattern matching unit 212. However, n represents an integer of 1 to N.

ノイズパターン保持部213は、ノイズパターンW(n)を保持するメモリである。このノイズパターン(ウェーブレットとも呼ばれる)は、さらにaおよびbの関数W((n−b)/a)として、ノイズパターン保持部213から読み出される。ここで、aはスケールパラメータ(但し、a>0)であり、この値が小さいと低い周波数成分のノイズ認識に対応する。一方、スケールパラメータが大きいと高い周波数成分のノイズ認識に対応する。また、bはシフトパラメータであり、ノイズパターンとの間のパターンマッチングの際のシフト位置(時間)を表す。ウェーブレットは信号の平均値が0で、時間0の周りに局在する関数であるが、本発明の実施の形態においては、実際のノイズ波形に近似する関数を予め選択して、ノイズパターン保持部213に保持しておくものとする。   The noise pattern holding unit 213 is a memory that holds the noise pattern W (n). This noise pattern (also referred to as a wavelet) is further read from the noise pattern holding unit 213 as a function W ((n−b) / a) of a and b. Here, a is a scale parameter (where a> 0), and a small value corresponds to noise recognition of a low frequency component. On the other hand, a large scale parameter corresponds to high frequency component noise recognition. Further, b is a shift parameter and represents a shift position (time) at the time of pattern matching with a noise pattern. A wavelet is a function whose signal average value is 0 and is localized around time 0. In the embodiment of the present invention, a function that approximates an actual noise waveform is selected in advance, and a noise pattern holding unit is selected. It shall be held at 213.

ノイズパターンマッチング部212は、フレーム生成部211によってフレーム化された指向性信号S(n)と、ノイズパターン保持部213に保持されているノイズパターンW(n)とaおよびbを変えながら畳込み演算を行うことにより、指向性信号に存在するノイズを評価するものである。この場合の評価値Etは次式により算出される。

Figure 2008288910
The noise pattern matching unit 212 performs convolution while changing the directivity signal S (n) framed by the frame generation unit 211 and the noise pattern W (n) held in the noise pattern holding unit 213 and a and b. By performing the calculation, noise existing in the directional signal is evaluated. The evaluation value Et in this case is calculated by the following formula.
Figure 2008288910

すなわち、評価値Etは、音声信号S(n)の中にノイズパターンW(n)がどの程度含まれるかを示す指標であり、フレーム毎の指向性信号S(n)にノイズが存在する場合には評価値Etは大きくなり、ノイズと相関が少ない場合には評価値Etがゼロに近づくようになる。   That is, the evaluation value Et is an index indicating how much the noise pattern W (n) is included in the audio signal S (n), and when there is noise in the directional signal S (n) for each frame. The evaluation value Et becomes large, and the evaluation value Et approaches zero when there is little correlation with noise.

図28(b)の構成例では、ノイズ認識部210は、フレーム生成部214と、フーリエ変換部215と、ノイズパターンマッチング部216と、ノイズパターン保持部217とを備えている。   In the configuration example of FIG. 28B, the noise recognition unit 210 includes a frame generation unit 214, a Fourier transform unit 215, a noise pattern matching unit 216, and a noise pattern holding unit 217.

フレーム生成部214は、フレーム生成部211と同様に、信号線119を介して供給された指向性信号を所定時間毎にフレーム化するものである。フーリエ変換部215は、フレーム生成部214によってフレーム化された指向性信号をFFT(Fast Fourier Transform)によりフーリエ変換して、時間信号から周波数信号F(n)に変換するものである。   Similar to the frame generation unit 211, the frame generation unit 214 converts the directional signal supplied via the signal line 119 into frames every predetermined time. The Fourier transform unit 215 performs Fourier transform on the directivity signal framed by the frame generation unit 214 by FFT (Fast Fourier Transform), and transforms the time signal into the frequency signal F (n).

ノイズパターン保持部217は、ノイズパターンP(n)を保持するメモリである。このノイズパターン保持部217に保持されるノイズパターンP(n)は、ノイズ発生時の周波数分布をモデル化したものである。   The noise pattern holding unit 217 is a memory that holds the noise pattern P (n). The noise pattern P (n) held in the noise pattern holding unit 217 models a frequency distribution when noise is generated.

ノイズパターンマッチング部216は、フーリエ変換部215により変換された指向性信号F(n)と、ノイズパターン保持部213に保持されているノイズパターンP(n)との相関度を求めることにより、指向性信号に存在するノイズを評価するものである。この場合の評価値Efは次式により算出される。

Figure 2008288910
The noise pattern matching unit 216 obtains the directivity by obtaining the correlation between the directivity signal F (n) converted by the Fourier transform unit 215 and the noise pattern P (n) held in the noise pattern holding unit 213. This is to evaluate noise existing in the sex signal. The evaluation value Ef in this case is calculated by the following equation.
Figure 2008288910

ここで、Nは1フレーム内のFFTポイント数である。すなわちnが1〜Nでノイズパターンと指向性信号の相似度が高い場合には、評価値Efは1に近づくため、所定の閾値以上であれば両者のパターンはほぼ一致していると認識することができる。   Here, N is the number of FFT points in one frame. That is, when n is 1 to N and the similarity between the noise pattern and the directivity signal is high, the evaluation value Ef approaches 1, so that if the noise pattern and the directivity signal are equal to or greater than a predetermined threshold value, the patterns are recognized as substantially matching. be able to.

このようにしてノイズが認識された場合、ノイズ除去期間生成部220は、そのノイズ発生の始点および終点により定められる期間をノイズ除去期間として生成する。ここでは、時間領域および周波数領域のそれぞれでノイズを認識する手法について説明したが、これらを組み合わせることによりさらに認識率を向上させることができる。   When noise is recognized in this way, the noise removal period generation unit 220 generates a period determined by the start and end points of the noise generation as the noise removal period. Here, although the method of recognizing noise in each of the time domain and the frequency domain has been described, the recognition rate can be further improved by combining these.

なお、複数種類のノイズを想定する場合には、上述のノイズパターン保持部213およびノイズパターン保持部217において、複数種類のノイズに対応するノイズパターンを保持しておいて、それぞれのノイズを認識することになる。   When a plurality of types of noise are assumed, the above-described noise pattern holding unit 213 and noise pattern holding unit 217 hold noise patterns corresponding to a plurality of types of noise and recognize each noise. It will be.

図20の例では、選択スイッチ190として単純な切替スイッチを想定して説明したが、これは例えば以下のようなクロスフェードスイッチにより実現してもよい。   In the example of FIG. 20, the description has been made assuming a simple changeover switch as the selection switch 190, but this may be realized by, for example, the following cross-fade switch.

図29は、本発明の実施の形態における選択スイッチ190の一例としてのクロスフェードスイッチ191の構成例を示す図である。このクロスフェードスイッチ191は、アッテネータ192および193と、制御係数生成部194と、係数反転部195と、合成部196とを備えている。   FIG. 29 is a diagram illustrating a configuration example of a crossfade switch 191 as an example of the selection switch 190 according to the embodiment of the present invention. The cross fade switch 191 includes attenuators 192 and 193, a control coefficient generation unit 194, a coefficient inversion unit 195, and a synthesis unit 196.

アッテネータ192および193は、入力信号を制御係数に応じて減衰させる減衰器である。アッテネータ192の制御係数は制御係数生成部194から供給され、アッテネータ193の制御係数は係数反転部195から供給される。   Attenuators 192 and 193 are attenuators that attenuate the input signal in accordance with the control coefficient. The control coefficient of the attenuator 192 is supplied from the control coefficient generation unit 194, and the control coefficient of the attenuator 193 is supplied from the coefficient inversion unit 195.

制御係数生成部194は、信号線229を介して供給されるノイズ除去期間に基づいてアッテネータ192の制御係数を生成するものである。係数反転部195は、制御係数生成部194の出力を反転するものである。すなわち、アッテネータ192および193の制御係数は互いに反転したものとなる。   The control coefficient generation unit 194 generates a control coefficient for the attenuator 192 based on the noise removal period supplied via the signal line 229. The coefficient inversion unit 195 inverts the output of the control coefficient generation unit 194. That is, the control coefficients of the attenuators 192 and 193 are inverted from each other.

合成部196は、アッテネータ192および193の出力を合成するものであり、例えば加算器により実現される。   The synthesizer 196 synthesizes the outputs of the attenuators 192 and 193 and is realized by an adder, for example.

図30は、本発明の実施の形態におけるクロスフェードスイッチ191の波形信号例を示す図である。信号線229に図30(a)のような信号31が入力された場合、制御係数生成部194の出力信号は信号32のように所定の時定数をもってクロスフェードする。一方、係数反転部195の出力信号は、信号32の反転信号33であり、同様に所定の時定数をもってクロスフェードする。したがって、オーバーシュートやリンギングの発生を防ぐことができる。また、アッテネータ192および193の出力の切替えの際の波形の不連続性を聴感上で吸収することができ、マスキング効果に有利に働くというメリットがある。   FIG. 30 is a diagram illustrating a waveform signal example of the crossfade switch 191 in the embodiment of the present invention. When the signal 31 as shown in FIG. 30A is input to the signal line 229, the output signal of the control coefficient generation unit 194 crossfades with a predetermined time constant like the signal 32. On the other hand, the output signal of the coefficient inverting unit 195 is an inverted signal 33 of the signal 32, and similarly crossfades with a predetermined time constant. Therefore, the occurrence of overshoot and ringing can be prevented. Further, the discontinuity of the waveform at the time of switching the outputs of the attenuators 192 and 193 can be absorbed in the sense of hearing, and there is an advantage that it works advantageously for the masking effect.

図31は、本発明の実施の形態におけるクロスフェードスイッチ191を用いた場合の補間信号の例を示す図である。レベル変調部173において図26のような補間信号が出力されたとすると、クロスフェードスイッチ191を用いた場合には、図31のように信号AおよびBと補間信号との間の遷移においてクロスフェードされ、滑らかな切替えを実現することができる。   FIG. 31 is a diagram illustrating an example of an interpolation signal when the crossfade switch 191 according to the embodiment of the present invention is used. If the level modulation unit 173 outputs an interpolation signal as shown in FIG. 26, when the crossfade switch 191 is used, the signal is crossfade at the transition between the signals A and B and the interpolation signal as shown in FIG. Smooth switching can be realized.

図32は、本発明の実施の形態におけるノイズ低減機構の第2の構成例を示す図である。このノイズ低減機構には第1の構成例と同様に、ノイズ検出のための指向性信号が信号線118を介して入力されるとともに、それ以外の本来の音声信号として用いられる指向性信号が信号線119を介して入力されて、この指向性信号についてノイズ低減処理が行われる。   FIG. 32 is a diagram illustrating a second configuration example of the noise reduction mechanism according to the embodiment of the present invention. Similar to the first configuration example, a directivity signal for noise detection is input to the noise reduction mechanism via the signal line 118, and other directivity signals used as original audio signals are signals. A noise reduction process is performed on the directional signal, which is input via the line 119.

この第2の構成例では、第1の構成例に加えて、ノイズ除去フィルタ143と、スペクトルエンベロープ生成部161と、スペクトル係数生成部162と、可変フィルタ163とをさらに備えている。これらはノイズ低減処理部370に含まれることが想定されるが、これに限定されるものではない。   In this second configuration example, in addition to the first configuration example, a noise removal filter 143, a spectrum envelope generation unit 161, a spectrum coefficient generation unit 162, and a variable filter 163 are further provided. These are assumed to be included in the noise reduction processing unit 370, but are not limited thereto.

ノイズ除去フィルタ143は、ノイズ除去フィルタ141と同様に、音声入力部310からの指向性信号からノイズ帯域を除去するフィルタである。このノイズ除去フィルタ143の出力はスペクトルエンベロープ生成部161に供給される。なお、このノイズ除去フィルタ143はノイズ除去フィルタ141と共通化することが可能であり、その場合にはノイズ除去フィルタ141の出力をスペクトルエンベロープ生成部161に供給することになる。   Similar to the noise removal filter 141, the noise removal filter 143 is a filter that removes a noise band from the directional signal from the audio input unit 310. The output of the noise removal filter 143 is supplied to the spectrum envelope generator 161. The noise removal filter 143 can be shared with the noise removal filter 141. In this case, the output of the noise removal filter 141 is supplied to the spectrum envelope generation unit 161.

スペクトルエンベロープ生成部161は、音声入力部310からの指向性信号の周波数スペクトルのエンベロープ(スペクトル包絡線)を連続的に検出するものである。このスペクトルエンベロープ生成部161では、FFTや複数の帯域分割により指向性信号(音声信号)の周波数毎のレベルを検出することにより、周波数スペクトルが検出される。このスペクトルエンベロープ生成部161の出力はスペクトル係数生成部162に供給される。   The spectrum envelope generator 161 continuously detects the envelope (spectrum envelope) of the frequency spectrum of the directional signal from the voice input unit 310. The spectrum envelope generation unit 161 detects the frequency spectrum by detecting the level for each frequency of the directivity signal (audio signal) by FFT or a plurality of band divisions. The output of the spectrum envelope generator 161 is supplied to the spectrum coefficient generator 162.

スペクトル係数生成部162は、スペクトルエンベロープ生成部161から供給されたスペクトルエンベロープに基づいてスペクトル係数を生成するものである。このスペクトル係数生成部162では、スペクトルエンベロープ生成部161において検出された周波数スペクトルを再現するようにスペクトル係数が生成される。このスペクトル係数生成部162の出力は、信号線168を介して可変フィルタ163に供給される。   The spectrum coefficient generation unit 162 generates a spectrum coefficient based on the spectrum envelope supplied from the spectrum envelope generation unit 161. In the spectrum coefficient generation unit 162, a spectrum coefficient is generated so as to reproduce the frequency spectrum detected by the spectrum envelope generation unit 161. The output of the spectral coefficient generation unit 162 is supplied to the variable filter 163 via the signal line 168.

可変フィルタ163は、逆フィルタ142から供給された補間源信号に対して、スペクトル係数生成部162から供給されたスペクトル係数に応じて周波数変調を行うものである。これにより、レベル変調部173におけるレベル変調だけでなく、周波数成分でも連続的に補間を行うため、第1特性によってギャップ長をさらに大きくすることができる。   The variable filter 163 performs frequency modulation on the interpolation source signal supplied from the inverse filter 142 in accordance with the spectrum coefficient supplied from the spectrum coefficient generation unit 162. Accordingly, since the interpolation is continuously performed not only for the level modulation in the level modulation unit 173 but also for the frequency component, the gap length can be further increased by the first characteristic.

なお、この第2の構成例において、選択スイッチ190をクロスフェードスイッチ191に置き換えることができる点についても第1の構成例と同様である。   Note that, in the second configuration example, the selection switch 190 can be replaced with the cross-fade switch 191 as in the first configuration example.

図33は、本発明の実施の形態におけるノイズ低減機構の第3の構成例を示す図である。このノイズ低減機構には第1および第2の構成例と同様に、ノイズ検出のための指向性信号が信号線118を介して入力されるとともに、それ以外の本来の音声信号として用いられる指向性信号が信号線119を介して入力されて、この指向性信号についてノイズ低減処理が行われる。   FIG. 33 is a diagram illustrating a third configuration example of the noise reduction mechanism according to the embodiment of the present invention. Similar to the first and second configuration examples, a directivity signal for noise detection is input to the noise reduction mechanism via the signal line 118 and the directivity used as the other original audio signal is used. A signal is input via the signal line 119, and noise reduction processing is performed on the directional signal.

この第3の構成例では、第2の構成例に加えて遅延部120が備えられ、この遅延部120によって所定時間の遅延が施された出力がノイズ除去フィルタ141、143およびレベルエンベロープ生成部171に供給されている。また、ノイズ認識部210からの信号線157が可変フィルタブロック140に供給されている。この可変フィルタブロック140は、ノイズ除去フィルタ141、逆フィルタ142およびノイズ除去フィルタ143を含むブロックである。   In the third configuration example, a delay unit 120 is provided in addition to the second configuration example, and the outputs subjected to a delay of a predetermined time by the delay unit 120 are the noise removal filters 141 and 143 and the level envelope generation unit 171. Has been supplied to. A signal line 157 from the noise recognition unit 210 is supplied to the variable filter block 140. The variable filter block 140 is a block including a noise removal filter 141, an inverse filter 142, and a noise removal filter 143.

この第3の構成例におけるノイズ認識部210は、認識したノイズについて周波数を検出して、可変フィルタブロック140にフィードバックするようにしている。ノイズ周波数の検出方法としては、図28(a)の時間領域におけるノイズ認識の際には、ノイズパターンが最も一致したスケールパラメータaからノイズ周波数を算出することができる。また、図28(b)の周波数領域におけるノイズ認識の際には、フーリエ変換部215からのノイズピーク周波数を検出することでノイズ周波数を算出することができる。   The noise recognition unit 210 in the third configuration example detects the frequency of the recognized noise and feeds it back to the variable filter block 140. As a method for detecting the noise frequency, the noise frequency can be calculated from the scale parameter a that most closely matches the noise pattern at the time of noise recognition in the time domain of FIG. In addition, when the noise is recognized in the frequency domain of FIG. 28B, the noise frequency can be calculated by detecting the noise peak frequency from the Fourier transform unit 215.

ノイズ認識部210からフィードバックされたノイズ周波数は、可変フィルタブロック140の各フィルタにおいて通過帯域または阻止帯域の調整のために用いられる。これにより、例えば、図23における中心周波数fa、fbおよびfcを、ノイズ周波数に合わせて適応的に変化させることによって、ノイズ周波数の変動や、複数のノイズ発生源からの連続的なノイズに対して効果的に対応することができる。   The noise frequency fed back from the noise recognition unit 210 is used for adjusting the passband or stopband in each filter of the variable filter block 140. Accordingly, for example, by changing the center frequencies fa, fb, and fc in FIG. 23 adaptively according to the noise frequency, it is possible to prevent fluctuations in the noise frequency and continuous noise from a plurality of noise generation sources. It can respond effectively.

この第3の構成例では、ノイズ認識部210以外に対する指向性信号の供給は遅延部120を介して行われるため、ノイズ認識の結果に応じて通過帯域または阻止帯域をリアルタイムに調整することができる。   In the third configuration example, since the directivity signal is supplied to the parts other than the noise recognition unit 210 via the delay unit 120, the pass band or the stop band can be adjusted in real time according to the result of the noise recognition. .

なお、この第3の構成例において、選択スイッチ190をクロスフェードスイッチ191に置き換えることができる点についても第1および第2の構成例と同様である。   Note that the third configuration example is the same as the first and second configuration examples in that the selection switch 190 can be replaced with the cross-fade switch 191.

次に本発明の実施の形態における撮像装置の動作について図面を参照して説明する。   Next, the operation of the imaging apparatus according to the embodiment of the present invention will be described with reference to the drawings.

図34は、本発明の実施の形態による収音装置300におけるノイズ低減方法の基本的な処理手順例を示す図である。この処理手順例は、上述の第1乃至第3の各構成例に共通のものである。   FIG. 34 is a diagram showing an example of a basic processing procedure of the noise reduction method in the sound collection device 300 according to the embodiment of the present invention. This processing procedure example is common to the first to third configuration examples described above.

まず、ノイズ認識部210においてノイズ認識処理が行われる(ステップS910)。これにより、ノイズ除去期間生成部220ではノイズ除去期間が生成される。そして、ノイズ除去期間に該当する場合には(ステップS920)、選択スイッチ190によってノイズ除去フィルタ141から信号線149を介して供給された指向性信号が選択される(ステップS930)。一方、ノイズ除去期間に該当しない場合には(ステップS920)、音声入力部310から信号線119を介して供給された指向性信号が選択される(ステップS940)。以上の処理が繰り返される。   First, noise recognition processing is performed in the noise recognition unit 210 (step S910). As a result, the noise removal period generator 220 generates a noise removal period. When the noise removal period is satisfied (step S920), the directivity signal supplied from the noise removal filter 141 via the signal line 149 is selected by the selection switch 190 (step S930). On the other hand, when it does not correspond to the noise removal period (step S920), the directivity signal supplied from the audio input unit 310 via the signal line 119 is selected (step S940). The above process is repeated.

このように、本発明の実施の形態によれば、指向性生成部330において生成された指向性信号に基づいてノイズ検出部360においてノイズ検出を行い、その結果に従って指向性信号についてノイズ低減処理部370においてノイズ除去を行うことができる。ノイズ検出部360においてノイズに用いられる指向性信号はノイズベクトルに対応するものであり、効率的にノイズを検出することができる。また、ノイズ低減処理部370では、ノイズ認識部210において認識されたノイズからノイズ除去期間を特定し、ノイズ除去期間にはノイズ除去フィルタ141によってノイズ除去された信号を選択して、それ以外の期間にはノイズ除去されない指向性信号を選択するように選択スイッチ190を制御することにより、人間の聴感を考慮したノイズ低減処理を実現することができる。また、本発明の実施の形態によれば、ノイズ除去期間において補間信号を合成することにより、長時間継続するノイズも低減することができる。   As described above, according to the embodiment of the present invention, the noise detection unit 360 performs noise detection based on the directivity signal generated by the directivity generation unit 330, and the noise reduction processing unit is performed on the directivity signal according to the result. Noise removal can be performed at 370. The directivity signal used for noise in the noise detection unit 360 corresponds to a noise vector, and noise can be detected efficiently. In addition, the noise reduction processing unit 370 specifies a noise removal period from the noise recognized by the noise recognition unit 210, selects a signal from which noise has been removed by the noise removal filter 141 during the noise removal period, and performs other periods. By controlling the selection switch 190 so as to select a directional signal from which noise is not removed, it is possible to realize noise reduction processing in consideration of human hearing. Further, according to the embodiment of the present invention, it is possible to reduce noise that continues for a long time by synthesizing the interpolation signal in the noise removal period.

なお、本発明の実施の形態では、指向性信号をスキャンニング処理して記録ストリーム信号を生成し、また、アップサンプリング処理およびダウンサンプリング処理によりサンプリング周波数を変更する例について説明したが、これらの処理を行うことなく、各指向性信号を個別に扱うようにしてもよい。   In the embodiment of the present invention, the example in which the recording stream signal is generated by scanning the directional signal and the sampling frequency is changed by the upsampling process and the downsampling process has been described. Each directivity signal may be handled individually without performing the above.

また、本発明の実施の形態では、5.1チャンネルサラウンド信号を想定した例について説明したが、本発明はこれに限定されるものではなく、適宜チャンネル数を増減させた場合であっても本発明の目的を逸脱しない範囲で同様に実施可能である。   In the embodiment of the present invention, an example in which a 5.1 channel surround signal is assumed has been described. However, the present invention is not limited to this, and the present invention is not limited to this case even when the number of channels is appropriately increased or decreased. The present invention can be similarly implemented without departing from the object of the invention.

また、本発明の実施の形態は本発明を具現化するための一例を示したものであり、以下に示すように特許請求の範囲における発明特定事項とそれぞれ対応関係を有するが、これに限定されるものではなく本発明の要旨を逸脱しない範囲において種々の変形を施すことができる。   Further, the embodiment of the present invention shows an example for embodying the present invention, and has a corresponding relationship with the invention specific matter in the claims as shown below, but is not limited thereto. However, various modifications can be made without departing from the scope of the present invention.

すなわち、請求項1において、音声入力手段は例えば音声入力部310に対応する。また、指向性生成手段は例えば指向性生成部330に対応する。また、ノイズ除去手段は例えばノイズ除去フィルタ141に対応する。また、ノイズ認識手段は例えばノイズ認識部210に対応する。また、ノイズ除去期間生成手段は例えばノイズ除去期間生成部220に対応する。また、選択手段は例えば選択スイッチ190に対応する。   That is, in claim 1, the voice input unit corresponds to the voice input unit 310, for example. The directivity generation means corresponds to the directivity generation unit 330, for example. The noise removing unit corresponds to the noise removing filter 141, for example. Further, the noise recognition means corresponds to the noise recognition unit 210, for example. Further, the noise removal period generation unit corresponds to the noise removal period generation unit 220, for example. The selection means corresponds to the selection switch 190, for example.

また、請求項2において、双指向性マイクロホンは例えば双指向性マイクロホン412および413に対応する。また、無指向性マイクロホンは例えば無指向性マイクロホン411に対応する。   Further, in claim 2, the bidirectional microphone corresponds to, for example, the bidirectional microphones 412 and 413. An omnidirectional microphone corresponds to the omnidirectional microphone 411, for example.

また、請求項3において、無指向性マイクロホンは例えば無指向性マイクロホン431乃至434に対応する。   Further, in claim 3, the omnidirectional microphone corresponds to, for example, the omnidirectional microphones 431 to 434.

また、請求項4において、単一指向性マイクロホンは例えば単一指向性マイクロホン452および453に対応する。また、双指向性マイクロホンは例えば双指向性マイクロホン451に対応する。   Further, in claim 4, unidirectional microphones correspond to, for example, unidirectional microphones 452 and 453. The bidirectional microphone corresponds to, for example, the bidirectional microphone 451.

また、請求項5において、回転係数生成手段は例えば回転係数生成部350に対応する。   Further, in claim 5, the rotation coefficient generation means corresponds to, for example, the rotation coefficient generation unit 350.

また、請求項11において、音声入力手段は例えば音声入力部310に対応する。また、指向性生成手段は例えば指向性生成部330に対応する。また、ノイズ除去手段は例えばノイズ除去フィルタ141に対応する。また、信号補間手段は例えば補間源信号生成部130、逆フィルタ142、ノイズ除去フィルタ143、スペクトルエンベロープ生成部161、スペクトル係数生成部162、可変フィルタ163、レベルエンベロープ生成部171、レベル係数生成部172、レベル変調部173および合成部180の少なくとも一部の組合せに対応する。また、ノイズ認識手段は例えばノイズ認識部210に対応する。また、ノイズ除去期間生成手段は例えばノイズ除去期間生成部220に対応する。また、選択手段は例えば選択スイッチ190に対応する。   In claim 11, the voice input means corresponds to the voice input unit 310, for example. The directivity generation means corresponds to the directivity generation unit 330, for example. The noise removing unit corresponds to the noise removing filter 141, for example. The signal interpolation means includes, for example, an interpolation source signal generation unit 130, an inverse filter 142, a noise removal filter 143, a spectrum envelope generation unit 161, a spectrum coefficient generation unit 162, a variable filter 163, a level envelope generation unit 171, and a level coefficient generation unit 172. This corresponds to at least a partial combination of the level modulation unit 173 and the synthesis unit 180. Further, the noise recognition means corresponds to the noise recognition unit 210, for example. Further, the noise removal period generation unit corresponds to the noise removal period generation unit 220, for example. The selection means corresponds to the selection switch 190, for example.

また、請求項12において、補間源信号生成手段は例えば補間源信号生成部130に対応する。また、補間外除去手段は例えば逆フィルタ142に対応する。また、レベル包絡線生成手段は例えばレベルエンベロープ生成部171に対応する。また、レベル係数生成手段は例えばレベル係数生成部172に対応する。また、レベル変調手段は例えばレベル変調部173に対応する。また、合成手段は例えば合成部180に対応する。   Further, in claim 12, the interpolation source signal generation means corresponds to the interpolation source signal generation unit 130, for example. Further, the out-of-interpolation removing unit corresponds to the inverse filter 142, for example. The level envelope generation means corresponds to the level envelope generation unit 171, for example. The level coefficient generation means corresponds to the level coefficient generation unit 172, for example. The level modulation means corresponds to the level modulation unit 173, for example. A synthesizing unit corresponds to the synthesizing unit 180, for example.

また、請求項15において、補間源信号生成手段は例えば補間源信号生成部130に対応する。また、補間外除去手段は例えば逆フィルタ142に対応する。また、スペクトル包絡線生成手段は例えばスペクトルエンベロープ生成部161に対応する。また、スペクトル係数生成手段は例えばスペクトル係数生成部162に対応する。また、スペクトル変調手段は例えば可変フィルタ163に対応する。また、レベル包絡線生成手段は例えばレベルエンベロープ生成部171に対応する。また、レベル係数生成手段は例えばレベル係数生成部172に対応する。また、レベル変調手段は例えばレベル変調部173に対応する。また、合成手段は例えば合成部180に対応する。   Further, in claim 15, the interpolation source signal generation means corresponds to the interpolation source signal generation unit 130, for example. Further, the out-of-interpolation removing unit corresponds to the inverse filter 142, for example. The spectrum envelope generation means corresponds to, for example, the spectrum envelope generation unit 161. The spectral coefficient generation unit corresponds to, for example, the spectral coefficient generation unit 162. The spectrum modulation means corresponds to the variable filter 163, for example. The level envelope generation means corresponds to the level envelope generation unit 171, for example. The level coefficient generation means corresponds to the level coefficient generation unit 172, for example. The level modulation means corresponds to the level modulation unit 173, for example. A synthesizing unit corresponds to the synthesizing unit 180, for example.

なお、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。   The processing procedure described in the embodiment of the present invention may be regarded as a method having a series of these procedures, and a program for causing a computer to execute these series of procedures or a recording medium storing the program May be taken as

本発明の実施の形態における収音装置300の一構成例を示す図である。It is a figure which shows one structural example of the sound collection apparatus 300 in embodiment of this invention. 5.1チャンネルのサラウンド音源の配置および指向特性を示す図である。It is a figure which shows arrangement | positioning and directivity of 5.1 surround sound source. 本発明の実施の形態におけるベクトル量抽出の一例を示す図である。It is a figure which shows an example of the vector amount extraction in embodiment of this invention. 本発明の実施の形態における収音装置によるポーラパターンの例を示す図である。It is a figure which shows the example of the polar pattern by the sound collection device in embodiment of this invention. 本発明の実施の形態におけるマイクロホンの第1の配置例を示す図である。It is a figure which shows the 1st example of arrangement | positioning of the microphone in embodiment of this invention. 本発明の実施の形態による第1の配置例によるマイクロホンの音源の合成例を示す図である。It is a figure which shows the synthesis example of the sound source of the microphone by the 1st example of arrangement | positioning by embodiment of this invention. 本発明の実施の形態における回転係数を示す図である。It is a figure which shows the rotation coefficient in embodiment of this invention. 本発明の実施の形態による第1の配置例におけるマイクロホンの指向特性の一例を示す図である。It is a figure which shows an example of the directivity characteristic of the microphone in the 1st example of arrangement | positioning by embodiment of this invention. 本発明の実施の形態におけるマイクロホンの第2の配置例を示す図である。It is a figure which shows the 2nd example of arrangement | positioning of the microphone in embodiment of this invention. 本発明の実施の形態による第2の配置例におけるマイクロホンの指向特性の生成例を示す図である。It is a figure which shows the production | generation example of the directional characteristic of the microphone in the 2nd example of arrangement | positioning by embodiment of this invention. 本発明の実施の形態による第2の配置例におけるマイクロホンの音源の合成例を示す図である。It is a figure which shows the synthesis example of the sound source of the microphone in the 2nd example of arrangement | positioning by embodiment of this invention. 本発明の実施の形態におけるマイクロホンの第3の配置例を示す図である。It is a figure which shows the 3rd example of arrangement | positioning of the microphone in embodiment of this invention. 本発明の実施の形態による第3の配置例におけるマイクロホンの音源の合成例を示す図である。It is a figure which shows the synthesis example of the sound source of the microphone in the 3rd example of arrangement | positioning by embodiment of this invention. 本発明の実施の形態による第3の配置例におけるマイクロホンの指向特性の生成例を示す図である。It is a figure which shows the production | generation example of the directional characteristic of the microphone in the 3rd example of arrangement | positioning by embodiment of this invention. 本発明の実施の形態における指向性の回転角φの例を示す図である。It is a figure which shows the example of the rotation angle of directivity in embodiment of this invention. 本発明の実施の形態における指向性ストリーム信号の内容例を示す図である。It is a figure which shows the example of the content of the directional stream signal in embodiment of this invention. 本発明の実施の形態における指向性ストリーム信号とサンプリング周期の関係を示す図である。It is a figure which shows the relationship between the directional stream signal and sampling period in embodiment of this invention. 本発明の実施の形態における指向性生成部330の一構成例を示す図である。It is a figure which shows the example of 1 structure of the directivity production | generation part 330 in embodiment of this invention. 本発明の実施の形態におけるダウンサンプリング機構の一構成例を示す図である。It is a figure which shows one structural example of the downsampling mechanism in embodiment of this invention. 本発明の実施の形態におけるノイズ低減機構の第1の構成例を示す図である。It is a figure which shows the 1st structural example of the noise reduction mechanism in embodiment of this invention. 本発明の実施の形態において利用するマスキング現象を説明するための図である。It is a figure for demonstrating the masking phenomenon utilized in embodiment of this invention. 本発明の実施の形態における補間源信号生成部130の一構成例を示す図である。It is a figure which shows one structural example of the interpolation source signal generation part 130 in embodiment of this invention. 、本発明の実施の形態におけるノイズ除去フィルタ141および逆フィルタ142の周波数特性例を示す図である。It is a figure which shows the frequency characteristic example of the noise removal filter 141 and the inverse filter 142 in embodiment of this invention. 本発明の実施の形態におけるレベルエンベロープ生成部171の一構成例を示す図である。It is a figure which shows the example of 1 structure of the level envelope production | generation part 171 in embodiment of this invention. 本発明の実施の形態におけるレベルエンベロープ生成部171による処理過程の一例を示す図である。It is a figure which shows an example of the process in the level envelope production | generation part 171 in embodiment of this invention. 本発明の実施の形態における補間信号の一例を示す図である。It is a figure which shows an example of the interpolation signal in embodiment of this invention. 本発明の実施の形態における補間信号の他の例を示す図である。It is a figure which shows the other example of the interpolation signal in embodiment of this invention. 本発明の実施の形態におけるノイズ認識部210の一構成例を示す図である。It is a figure which shows the example of 1 structure of the noise recognition part 210 in embodiment of this invention. 本発明の実施の形態における選択スイッチ190の一例としてのクロスフェードスイッチ191の構成例を示す図である。It is a figure which shows the structural example of the crossfade switch 191 as an example of the selection switch 190 in embodiment of this invention. 本発明の実施の形態におけるクロスフェードスイッチ191の波形信号例を示す図である。It is a figure which shows the waveform signal example of the cross fade switch 191 in embodiment of this invention. 本発明の実施の形態におけるクロスフェードスイッチ191を用いた場合の補間信号の例を示す図である。It is a figure which shows the example of the interpolation signal at the time of using the cross fade switch 191 in embodiment of this invention. 本発明の実施の形態におけるノイズ低減機構の第2の構成例を示す図である。It is a figure which shows the 2nd structural example of the noise reduction mechanism in embodiment of this invention. 本発明の実施の形態におけるノイズ低減機構の第3の構成例を示す図である。It is a figure which shows the 3rd structural example of the noise reduction mechanism in embodiment of this invention. 本発明の実施の形態による収音装置300におけるノイズ低減方法の基本的な処理手順例を示す図である。It is a figure which shows the example of a basic process sequence of the noise reduction method in the sound collection device 300 by embodiment of this invention.

符号の説明Explanation of symbols

300 収音装置
310 音声入力部
320 アンプ
330 指向性生成部
331 アップサンプリング部
332 インターポレーションフィルタ
333 指向性生成部
340 タイミング生成部
350 回転係数生成部
360 ノイズ検出部
370 ノイズ低減処理部
371 指向性方向抽出部
372 デシメーションフィルタ
373 ダウンサンプリング部
380 符号化処理部
390 記録再生部
411 無指向性マイクロホン
412、413 双指向性マイクロホン
422、423 レベル可変部
426 加算合成部
431〜434 無指向性マイクロホン
441 加算部
442、443 減算部
444、445 レベル可変部
446 加算合成部
451 双指向性マイクロホン
452、453 単一指向性マイクロホン
461〜463 レベル可変部
466 加算合成部
506、507 双指向性信号
DESCRIPTION OF SYMBOLS 300 Sound collecting device 310 Audio | voice input part 320 Amplifier 330 Directivity production | generation part 331 Upsampling part 332 Interpolation filter 333 Directivity production | generation part 340 Timing production | generation part 350 Rotation coefficient production | generation part 360 Noise detection part 370 Noise reduction process part 371 Directivity Direction extraction unit 372 Decimation filter 373 Downsampling unit 380 Coding processing unit 390 Recording / playback unit 411 Nondirectional microphone 412 413 Bidirectional microphone 422, 423 Level variable unit 426 Addition synthesis unit 431-434 Nondirectional microphone 441 Addition Unit 442, 443 subtraction unit 444, 445 level variable unit 446 addition synthesis unit 451 bi-directional microphone 452, 453 unidirectional microphone 461-463 level variable unit 66 adding and combining unit 506, 507 bi-directional signal

Claims (16)

周囲の複数の音声信号を入力する音声入力手段と、
前記複数の音声信号に基づいて第1の方向に指向性を有する第1の指向性信号および第2の方向に指向性を有する第2の指向性信号を生成する指向性生成手段と、
前記第1の指向性信号からノイズ帯域を除去するノイズ除去手段と、
前記第2の指向性信号に含まれるノイズを認識するノイズ認識手段と、
前記認識されたノイズの発生期間に応じてノイズ除去期間を示す信号を生成するノイズ除去期間生成手段と、
前記ノイズ除去期間であることが示されている場合には前記ノイズ除去手段の出力を選択し、前記ノイズ除去期間であることが示されていない場合には前記第1の指向性信号を選択する選択手段と
を具備することを特徴とする収音装置。
Voice input means for inputting a plurality of surrounding voice signals;
Directivity generation means for generating a first directivity signal having directivity in a first direction and a second directivity signal having directivity in a second direction based on the plurality of audio signals;
Noise removing means for removing a noise band from the first directional signal;
Noise recognition means for recognizing noise included in the second directional signal;
Noise removal period generation means for generating a signal indicating a noise removal period according to the recognized noise generation period;
When the noise removal period is indicated, the output of the noise removal means is selected, and when the noise removal period is not indicated, the first directivity signal is selected. And a sound collecting device.
前記音声入力手段は、複数の双指向性マイクロホンと、1つの無指向性マイクロホンとを備えることを特徴とする請求項1記載の収音装置。   2. The sound collecting apparatus according to claim 1, wherein the voice input unit includes a plurality of bidirectional microphones and one omnidirectional microphone. 前記音声入力手段は、複数の無指向性マイクロホンを備えることを特徴とする請求項1記載の収音装置。   The sound collection device according to claim 1, wherein the voice input unit includes a plurality of omnidirectional microphones. 前記音声入力手段は、複数の単一指向性マイクロホンと、1つの双指向性マイクロホンとを備えることを特徴とする請求項1記載の収音装置。   2. The sound collection device according to claim 1, wherein the voice input unit includes a plurality of unidirectional microphones and one bi-directional microphone. 所定の方向を示す回転係数を生成する回転係数生成手段をさらに具備し、
前記指向性生成手段は、前記回転係数の示す方向が前記第1の方向であれば前記第1の指向性信号を生成し、前記回転係数の示す方向が前記第2の方向であれば前記第2の指向性信号を生成することを特徴とする請求項1記載の収音装置。
A rotation coefficient generating means for generating a rotation coefficient indicating a predetermined direction;
The directivity generation means generates the first directivity signal if the direction indicated by the rotation coefficient is the first direction, and generates the first directivity signal if the direction indicated by the rotation coefficient is the second direction. The sound collecting device according to claim 1, wherein two directional signals are generated.
前記ノイズ認識手段は、前記ノイズに波形近似した所定期間における平均値がゼロであるウェーブレット信号と前記第2の指向性信号との畳込み演算による出力を評価値として前記ノイズ認識を行うことを特徴とする請求項1記載の収音装置。   The noise recognition means performs the noise recognition using an output obtained by convolution of a wavelet signal having a mean value of zero in a predetermined period approximated to the noise as a waveform and the second directivity signal as an evaluation value. The sound collecting device according to claim 1. 前記ノイズ認識手段は、前記ノイズの周波数スペクトルに近似したパターン信号とフーリエ変換された前記第2の指向性信号との相関性を評価値として前記ノイズ認識を行うことを特徴とする請求項1記載の収音装置。   The noise recognition means performs the noise recognition using an evaluation value as a correlation between a pattern signal approximated to a frequency spectrum of the noise and the second directional signal subjected to Fourier transform. Sound collecting device. 前記ノイズ除去手段は、ノイズ帯域を除去するフィルタであることを特徴とする請求項1記載の収音装置。   2. The sound collecting device according to claim 1, wherein the noise removing unit is a filter for removing a noise band. 前記ノイズ除去手段は、前記ノイズ認識手段において認識されたノイズの周波数に基づいて前記フィルタの除去帯域および通過帯域を適応的に変化させることを特徴とする請求項8記載の収音装置。   9. The sound collecting device according to claim 8, wherein the noise removing unit adaptively changes a removal band and a pass band of the filter based on a frequency of noise recognized by the noise recognizing unit. 前記選択手段は、クロスフェードスイッチであることを特徴とする請求項1記載の収音装置。   2. The sound collection device according to claim 1, wherein the selection means is a cross-fade switch. 周囲の複数の音声信号を入力する音声入力手段と、
前記複数の音声信号に基づいて第1の方向に指向性を有する第1の指向性信号および第2の方向に指向性を有する第2の指向性信号を生成する指向性生成手段と、
前記第1の指向性信号からノイズ帯域を除去するノイズ除去手段と、
前記ノイズ帯域の除去された信号に対する補間を行う信号補間手段と、
前記第2の指向性信号に含まれるノイズを認識するノイズ認識手段と、
前記認識されたノイズの発生期間に応じてノイズ除去期間を示す信号を生成するノイズ除去期間生成手段と、
前記ノイズ除去期間であることが示されている場合には前記信号補間手段の出力を選択し、前記ノイズ除去期間であることが示されていない場合には前記第1の指向性信号を選択する選択手段と
を具備することを特徴とする収音装置。
Voice input means for inputting a plurality of surrounding voice signals;
Directivity generation means for generating a first directivity signal having directivity in a first direction and a second directivity signal having directivity in a second direction based on the plurality of audio signals;
Noise removing means for removing a noise band from the first directional signal;
Signal interpolation means for performing interpolation on the signal from which the noise band has been removed;
Noise recognition means for recognizing noise included in the second directional signal;
Noise removal period generation means for generating a signal indicating a noise removal period according to the recognized noise generation period;
When the noise removal period is indicated, the output of the signal interpolation means is selected, and when the noise removal period is not indicated, the first directivity signal is selected. And a sound collecting device.
前記信号補間手段は、
前記補間のための補間源信号を生成する補間源信号生成手段と、
前記補間源信号から前記ノイズ帯域以外を除去する補間外除去手段と、
前記第1の指向性信号のレベル包絡線を生成するレベル包絡線生成手段と、
前記レベル包絡線に基づいて前記補間のためのレベル係数を生成するレベル係数生成手段と、
前記レベル係数に基づいて前記補間外除去手段の出力を変調するレベル変調手段と、
前記ノイズ除去手段の出力と前記レベル変調手段の出力とを合成して前記選択手段に出力する合成手段と
を具備することを特徴とする請求項11記載の収音装置。
The signal interpolation means includes
Interpolation source signal generation means for generating an interpolation source signal for the interpolation;
Non-interpolation removal means for removing the noise source band other than the noise band from the interpolation source signal;
Level envelope generating means for generating a level envelope of the first directional signal;
Level coefficient generating means for generating a level coefficient for the interpolation based on the level envelope;
Level modulation means for modulating the output of the non-interpolation removal means based on the level coefficient;
12. The sound collecting apparatus according to claim 11, further comprising a combining unit that combines the output of the noise removing unit and the output of the level modulating unit and outputs the combined result to the selecting unit.
前記レベル変調手段は、さらに人間の聴覚上でマスキングされるレベルに基づいて前記補間外除去手段の出力を変調することを特徴とする請求項12記載の収音装置。   13. The sound collecting device according to claim 12, wherein the level modulation means further modulates the output of the extrapolation removal means based on a level masked on human hearing. 前記補間源信号生成手段は、所定の波形および所定の周期からなる複数もしくは単一の周期信号、音声帯域にレベルが均一なホワイトノイズ信号、または、前記周期信号および前記ホワイトノイズ信号の所定の混合比による混合信号の何れかを生成することを特徴とする請求項12記載の収音装置。   The interpolation source signal generation means includes a plurality or a single periodic signal having a predetermined waveform and a predetermined period, a white noise signal having a uniform level in a voice band, or a predetermined mixture of the periodic signal and the white noise signal. 13. The sound collecting device according to claim 12, wherein one of the mixed signals based on the ratio is generated. 前記信号補間手段は、
前記補間のための補間源信号を生成する補間源信号生成手段と、
前記補間源信号から前記ノイズ帯域以外を除去する補間外除去手段と、
前記ノイズ除去手段の出力の周波数スペクトル包絡線を生成するスペクトル包絡線生成手段と、
前記スペクトル包絡線に基づいて前記補間のためのスペクトル係数を生成するスペクトル係数生成手段と、
前記スペクトル係数に基づいて前記補間外除去手段の出力を変調するスペクトル変調手段と、
前記第1の指向性信号のレベル包絡線を生成するレベル包絡線生成手段と、
前記レベル包絡線に基づいて前記補間のためのレベル係数を生成するレベル係数生成手段と、
前記レベル係数に基づいて前記スペクトル変調手段の出力を変調するレベル変調手段と、
前記ノイズ除去手段の出力と前記レベル変調手段の出力とを合成して前記選択手段に出力する合成手段と
を具備することを特徴とする請求項11記載の収音装置。
The signal interpolation means includes
Interpolation source signal generation means for generating an interpolation source signal for the interpolation;
Non-interpolation removal means for removing the noise source band other than the noise band from the interpolation source signal;
A spectrum envelope generating means for generating a frequency spectrum envelope of the output of the noise removing means;
Spectral coefficient generating means for generating a spectral coefficient for the interpolation based on the spectral envelope;
Spectrum modulating means for modulating the output of the out-of-interpolation removing means based on the spectral coefficient;
Level envelope generating means for generating a level envelope of the first directional signal;
Level coefficient generating means for generating a level coefficient for the interpolation based on the level envelope;
Level modulation means for modulating the output of the spectrum modulation means based on the level coefficient;
12. The sound collecting apparatus according to claim 11, further comprising a combining unit that combines the output of the noise removing unit and the output of the level modulating unit and outputs the combined result to the selecting unit.
前記ノイズ除去手段および前記補間外除去手段は、前記ノイズ認識手段において認識されたノイズの周波数に基づいて除去帯域および通過帯域を適応的に変化させるフィルタであることを特徴とする請求項15記載の収音装置。   16. The filter according to claim 15, wherein the noise removal unit and the non-interpolation removal unit are filters that adaptively change a removal band and a pass band based on a frequency of noise recognized by the noise recognition unit. Sound collection device.
JP2007132277A 2007-05-18 2007-05-18 Sound collector Expired - Fee Related JP4952368B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007132277A JP4952368B2 (en) 2007-05-18 2007-05-18 Sound collector

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007132277A JP4952368B2 (en) 2007-05-18 2007-05-18 Sound collector

Publications (2)

Publication Number Publication Date
JP2008288910A true JP2008288910A (en) 2008-11-27
JP4952368B2 JP4952368B2 (en) 2012-06-13

Family

ID=40148209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007132277A Expired - Fee Related JP4952368B2 (en) 2007-05-18 2007-05-18 Sound collector

Country Status (1)

Country Link
JP (1) JP4952368B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010249939A (en) * 2009-04-13 2010-11-04 Sony Corp Noise reducing device and noise determination method
JP2011071655A (en) * 2009-09-24 2011-04-07 Oki Electric Industry Co Ltd Sound collecting device, acoustic communication system, and program
JP2011077603A (en) * 2009-09-29 2011-04-14 Kyocera Mita Corp Information processing apparatus and image forming apparatus
JP2011259195A (en) * 2010-06-09 2011-12-22 Yamaha Corp Acoustic processing apparatus

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02260932A (en) * 1989-03-31 1990-10-23 Sharp Corp Voice multiplex system
JP2005303681A (en) * 2004-04-12 2005-10-27 Sony Corp Noise reduction method and device thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02260932A (en) * 1989-03-31 1990-10-23 Sharp Corp Voice multiplex system
JP2005303681A (en) * 2004-04-12 2005-10-27 Sony Corp Noise reduction method and device thereof

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010249939A (en) * 2009-04-13 2010-11-04 Sony Corp Noise reducing device and noise determination method
JP2011071655A (en) * 2009-09-24 2011-04-07 Oki Electric Industry Co Ltd Sound collecting device, acoustic communication system, and program
US8731212B2 (en) 2009-09-24 2014-05-20 Oki Electric Industry Co., Ltd. Sound collecting device, acoustic communication system, and computer-readable storage medium
JP2011077603A (en) * 2009-09-29 2011-04-14 Kyocera Mita Corp Information processing apparatus and image forming apparatus
JP2011259195A (en) * 2010-06-09 2011-12-22 Yamaha Corp Acoustic processing apparatus

Also Published As

Publication number Publication date
JP4952368B2 (en) 2012-06-13

Similar Documents

Publication Publication Date Title
JP5056157B2 (en) Noise reduction circuit
US7711557B2 (en) Audio signal noise reduction device and method
US7697699B2 (en) Method of and apparatus for reducing noise
CN100525101C (en) Method and apparatus to record a signal using a beam forming algorithm
WO2005101898A2 (en) A method and system for sound source separation
KR101489035B1 (en) Method and apparatus for processing audio signals
JP4952368B2 (en) Sound collector
KR101377135B1 (en) Method for enhancing Audio signal of low frequency and medium frequency and apparatus therefor
JP6637926B2 (en) Voice processing device and control method thereof
JP4901542B2 (en) Audio signal generating apparatus and method
KR101637407B1 (en) Apparatus and method and computer program for generating a stereo output signal for providing additional output channels
JP5349062B2 (en) SOUND PROCESSING DEVICE, ELECTRONIC DEVICE HAVING SAME, AND SOUND PROCESSING METHOD
KR101944758B1 (en) An audio signal processing apparatus and method for modifying a stereo image of a stereo signal
JP2005049364A (en) Method and device for removing known acoustic signal
KR101520618B1 (en) Method and apparatus for focusing the sound through the array speaker
JP6355049B2 (en) Acoustic signal processing method and acoustic signal processing apparatus
JP2009282536A (en) Method and device for removing known acoustic signal
JP5224586B2 (en) Audio signal interpolation device
US20140247947A1 (en) Sound separation device and sound separation method
JP2018207313A (en) Audio processing device and method of controlling the same
JP2018207316A (en) Voice processing apparatus and control method thereof
JP2009005157A (en) Sound signal correction device
WO2021212287A1 (en) Audio signal processing method, audio processing device, and recording apparatus
US11501745B1 (en) Musical instrument pickup signal processing system
JP6931296B2 (en) Speech processing device and its control method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120227

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150323

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees