JP2016048872A - Sound collection device - Google Patents
Sound collection device Download PDFInfo
- Publication number
- JP2016048872A JP2016048872A JP2014173523A JP2014173523A JP2016048872A JP 2016048872 A JP2016048872 A JP 2016048872A JP 2014173523 A JP2014173523 A JP 2014173523A JP 2014173523 A JP2014173523 A JP 2014173523A JP 2016048872 A JP2016048872 A JP 2016048872A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- microphone
- noise
- wearer
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 claims abstract description 50
- 210000005069 ears Anatomy 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims description 23
- 238000001914 filtration Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 description 29
- 230000003595 spectral effect Effects 0.000 description 25
- 230000006870 function Effects 0.000 description 22
- 230000008569 process Effects 0.000 description 18
- 238000000605 extraction Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000007493 shaping process Methods 0.000 description 12
- 238000012935 Averaging Methods 0.000 description 11
- 210000003128 head Anatomy 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000009408 flooring Methods 0.000 description 6
- 238000009499 grossing Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 210000003454 tympanic membrane Anatomy 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Headphones And Earphones (AREA)
Abstract
Description
本発明は、ヘッドセット型の収音装置に関する。 The present invention relates to a headset type sound collecting device.
非特許文献1が、ノイズキャンセリングヘッドホンとして知られている。非特許文献1では、ヘッドホンに内蔵されたマイクで騒音を収音し、その騒音を打ち消す効果のある逆位相の音を発生させ、音声信号とともに再生する。これにより、利用者は、音声信号をより明瞭に聞き取ることができる。
Non-Patent
しかしながら、従来技術は、別環境で収音、または、録音された音声・音響信号をヘッドホンで再生する場合に、再生する音声・音響信号に対して、ヘッドホン周辺のノイズをキャンセルすることを想定しており、ヘッドセットのマイクロホンで収音された収音信号に対してヘッドセット周辺のノイズをキャンセルすることを想定していない。なお、ヘッドホンとは再生装置や受信機から出力された電気信号を、耳(鼓膜)に近接した発音体(スピーカーなど)を用いて音波(可聴音)に変換する装置であり、ヘッドセットとは頭部に装着するマイクロホン(収音装置)の総称である。 However, the conventional technology assumes that noise around a headphone is canceled with respect to the reproduced sound / sound signal when the sound / sound signal recorded or recorded sound is reproduced with headphones in another environment. Therefore, it is not assumed that the noise around the headset is canceled with respect to the collected sound signal collected by the microphone of the headset. A headphone is a device that converts electrical signals output from a playback device or receiver into sound waves (audible sound) using a sounding body (such as a speaker) close to the ear (the eardrum). A generic term for microphones (sound pickup devices) worn on the head.
本発明は、所定の位置関係にある複数のマイクロホンを利用して、ターゲット音及び外部ノイズ音を収音し、ターゲット音が従来よりも明瞭になるように信号処理を行うヘッドセット型の収音装置を提供することを目的とする。 The present invention collects a target sound and an external noise sound using a plurality of microphones in a predetermined positional relationship, and performs a signal processing so that the target sound is clearer than before. An object is to provide an apparatus.
上記の課題を解決するために、本発明の一態様によれば、収音装置は、ヘッドセット型である。収音装置は、収音装置の装着者の口元近傍に配され、装着者が発する音声であるターゲット音を収音するための1個の第一マイクロホンと、第一マイクロホンとは、ヘッドセットの形態において離れた位置に配置され、外部ノイズ音を収音するための2個の第二マイクロホンと、第一マイクロホンの収音信号及び第二マイクロホンの収音信号を用いて、(i)ターゲット音を強調した、または/および、(ii)外部ノイズ音を抑圧した出力信号を生成する信号処理部とを含む。第一マイクロホンは、装着者の口元の方向に対して単一指向性を有し、2個の第二マイクロホンは、それぞれ、装着者の両耳近傍に配置され、外向きに対して指向性を有する。 In order to solve the above problems, according to one aspect of the present invention, the sound collection device is a headset type. The sound collection device is arranged near the mouth of the wearer of the sound collection device, and a first microphone for collecting a target sound, which is a sound emitted by the wearer, (I) Target sound by using two second microphones for collecting external noise sound, a collected sound signal of the first microphone, and a collected sound signal of the second microphone. And / or (ii) a signal processing unit that generates an output signal in which external noise sound is suppressed. The first microphone has a single directivity with respect to the direction of the wearer's mouth, and the two second microphones are respectively disposed in the vicinity of both ears of the wearer and have directivity with respect to the outward direction. Have.
本発明によれば、収音信号に対してターゲット音が従来のヘッドセット型の収音装置よりも明瞭になるように信号処理を行うことができるという効果を奏する。 According to the present invention, there is an effect that signal processing can be performed on a sound collection signal so that the target sound is clearer than a conventional headset type sound collection device.
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。 Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted. In the following explanation, the symbol “^” etc. used in the text should be described immediately above the character immediately after it, but it is described immediately before the character due to restrictions on the text notation. In the formula, these symbols are written in their original positions. Further, the processing performed for each element of a vector or matrix is applied to all elements of the vector or matrix unless otherwise specified.
<第一実施形態>
図1は第一実施形態に係る収音装置100の構成を示す図、図2はその機能ブロック図、図3はその処理フローを示す図である。
<First embodiment>
FIG. 1 is a diagram illustrating a configuration of a
収音装置100は、第一マイクロホン110と、第二マイクロホン120−1及び120−2と、信号処理部140を含む。
The
収音装置100は、第一マイクロホン110及び第二マイクロホン120−1及び120−2で収音された収音信号から、(i)ターゲット音を強調した、または/および、(ii)外部ノイズ音を抑圧した出力信号zを生成し出力する。
The sound collection device 100 (i) emphasizes the target sound from the sound collection signals collected by the
<ヘッドセットの形状と、第一マイクロホン及び第二マイクロホン>
収音装置100は、ヘッドセット型である。前述の通り、ヘッドセットとは頭部に装着するマイクロホン(収音装置)の総称であり、その構造は固定バンド101が装着者9の頭頂部を通って耳当て部102等を介して装着者9の両耳で支持するものや、耳当て部102及び固定バンド101を介して装着者9の両耳と後頭部で支持するもの、固定バンド101及び図示しないこめかみ支持部を介して装着者9の後頭部とこめかみで支持するもの等がある。その他、頭部に装着可能な形態であって、以下の第一マイクロホン及び第二マイクロホンを搭載することができる形態であればよい。
<Headset shape, first microphone and second microphone>
The
第一マイクロホンは、装着者9が発する音声であるターゲット音を収音するためのマイクロホンである。本実施形態では、第一マイクロホンは、1つであり(第一マイクロホン110)、装着者9の口元近傍に配置され、装着者9の口元の方向に対して単一指向性を有する(図1参照)。このような構成により、装着者9が発する音声であるターゲット音を収音する。 The first microphone is a microphone for picking up a target sound that is a sound emitted by the wearer 9. In the present embodiment, there is one first microphone (first microphone 110), which is disposed in the vicinity of the mouth of the wearer 9, and has a single directivity with respect to the direction of the mouth of the wearer 9 (FIG. 1). reference). With such a configuration, a target sound that is a sound emitted by the wearer 9 is collected.
第二マイクロホンは、外部ノイズ音を収音するためのマイクロホンである。本実施形態では、第二マイクロホンは、2つであり(第二マイクロホン120−1及び120−2)、装着者9の両耳近傍に配置され、外向きに対して指向性を有する(図1参照)。このような構成により、外部ノイズ音を収音する。 The second microphone is a microphone for collecting external noise sound. In the present embodiment, there are two second microphones (second microphones 120-1 and 120-2), which are arranged in the vicinity of both ears of the wearer 9 and have directivity toward the outside (FIG. 1). reference). With such a configuration, an external noise sound is collected.
ヘッドセットの場合、収音したい音は装着者9の口から発せられる音声に限られると考えられる。そこで、本実施形態では、第一マイクロホンを装着者9の口元近傍に配置し、第一マイクロホンはできるだけ口元の音を強調して収音するために、指向性のあるものを選んだ。また、外部ノイズ音を強調して収音するための第二マイクロホンを第一マイクロホンから離れた位置に配置し、外向きに指向性を有するものとした。 In the case of the headset, it is considered that the sound to be collected is limited to the sound emitted from the mouth of the wearer 9. Therefore, in the present embodiment, the first microphone is arranged near the mouth of the wearer 9, and the first microphone is selected to have directivity in order to emphasize the sound of the mouth as much as possible. In addition, the second microphone for emphasizing the external noise sound and picking up the sound is arranged at a position away from the first microphone, and has directivity outward.
<信号処理部140の処理内容>
信号処理部140は、第一マイクロホンの収音信号及び第二マイクロホンの収音信号を第一マイクロホン及び第二マイクロホンから受け取り、これらの値を用いて、(i)前記ターゲット音を強調した、または/および、(ii)前記外部ノイズ音を抑圧した出力信号を生成し、収音装置100の出力値として出力する。
<Processing content of
The
例えば、信号処理部140は、自乗部141及び142、フィルタ推定部143及び第二フィルタリング部144を含む。
For example, the
信号処理部140は、第一マイクロホン110で収音された時間領域の信号を、周波数領域の信号に変換した収音信号X0、並びに、第二マイクロホン120−1及び120−2でそれぞれ収音された時間領域の信号を、周波数領域の信号に変換した周波数領域の収音信号X1及びX2を受け取り、出力信号zを出力する。
The
<自乗部141>
自乗部141は、第二マイクロホン120−1及び120−2の収音信号X1及びX2を受け取り、これらの値を加算して自乗した値、または、これらの値の自乗和、または、これらの値を自乗した値を重み付加算した値を計算し(S141)出力する。なお、^φNは以下の式で定義される雑音エリアのパワースペクトル密度の推定値である。例えば、
<Square
The
または
または、
とする。ただし、Kは第二マイクロホンの個数(よって本実施形態ではK=2)、ωは周波数、τはフレームのインデックス、gk(ω)は予め設定した定数(重み)を表す。雑音エリアの詳細については後述する。 And However, K is the number of second microphones (therefore, K = 2 in this embodiment), ω is a frequency, τ is a frame index, and g k (ω) is a preset constant (weight). Details of the noise area will be described later.
(1)とする場合、(2)を使用するより正確に雑音エリアのパワースペクトル密度を推定することができるという利点がある。 In the case of (1), there is an advantage that the power spectrum density of the noise area can be estimated more accurately than using (2).
(2)とする場合、(1)よりも雑音エリアのパワースペクトル密度の推定の誤差が増えるが、加算処理をアナログ回路で行うことが可能であり、第二マイクロホンの個数が2以上であってもAD変換機1つでハードウェア構成することができ、安価なハード構成とできるという利点がある。 In the case of (2), the error in estimating the power spectral density of the noise area is larger than in (1), but the addition process can be performed by an analog circuit, and the number of second microphones is 2 or more. Also, there is an advantage that a hardware configuration can be achieved with one AD converter, and an inexpensive hardware configuration can be achieved.
(3)とする場合、ターゲット音よりも外部ノイズ音が多く含まれている第二マイクロホンに対する重みを大きく設定することができ、より精度よく雑音エリアのパワースペクトル密度を推定できるという利点がある。たとえば、口元から最も離れている第二マイクロホンの重みを最も大きくすることで、ターゲット音の混入が少ない第二マイクロホンの重みを大きくし、雑音エリアのパワースペクトル密度の推定精度を高めることができる。 In the case of (3), there is an advantage that the weight for the second microphone containing more external noise sounds than the target sound can be set larger, and the power spectral density of the noise area can be estimated more accurately. For example, by increasing the weight of the second microphone farthest from the mouth, it is possible to increase the weight of the second microphone with a small amount of target sound and increase the estimation accuracy of the power spectrum density in the noise area.
<自乗部142>
自乗部142は、第一マイクロホン110の収音信号X0を受け取り、この値を自乗した値^φS(ω,τ)=|X0(ω,τ)|2を計算し(S142)、出力する。なお、^φSは、ターゲットエリアのパワースペクトル密度の推定値である。ターゲットエリアの詳細については後述する。
<
The
<フィルタ推定部143>
フィルタ推定部143は、^φN(ω,τ)及び^φS(ω,τ)を受け取り、外部ノイズ音を抑圧するフィルタGを推定し(S143)、出力する。
<
The
例えば、参考文献1に基づくポストフィルタ設計法について説明する。
For example, a post filter design method based on
(参考文献1)Y. Hioka et al., “Underdetermined sound source separation using power spectrum density estimated by combination of directivity gain,” IEEE Trans. Audio, Speech, Language Proc., 21, 1240-1250, 2013.
参考文献1では、複数のビームフォーミングを用いて推定した各エリアのパワースペクトル密度(PSD)に基づいてポストフィルタを設計する方式が提案されている。以下、この方式をLPSD法(Local PSD-based post-filter design)と呼ぶ。図2を用いて、LPSD法の処理フローを説明する。
(Reference 1) Y. Hioka et al., “Underdetermined sound source separation using power spectrum density estimated by combination of directivity gain,” IEEE Trans. Audio, Speech, Language Proc., 21, 1240-1250, 2013.
例えば、Wiener法に基づいてポストフィルタを設計する場合、フィルタG(ω,τ)は以下のように計算される。 For example, when designing a post filter based on the Wiener method, the filter G (ω, τ) is calculated as follows.
ここで、φS(ω,τ)はターゲットエリア(マイクロホンの周囲を予め複数のエリアに分けた場合、複数のエリアのうちの収音したい音源が含まれるエリアであり、ターゲット音を発する音源が含まれるエリア。ヘッドセットの場合、装着者の口が含まれるエリア)のパワースペクトル密度を表し、φN(ω,τ)は雑音エリア(外部ノイズ音を発する音源が含まれるエリアであり、ターゲットエリアとは異なるように設定される。ヘッドセットの場合、上述の複数のエリアのうちターゲットエリアを除く装着者の口が含まれない全てのエリアである)のパワースペクトル密度を表す。ここで、あるエリアのパワースペクトル密度と言った場合には、そのエリアから到来する音のパワースペクトル密度のことを意味する。すなわち、例えば、ターゲットエリアのパワースペクトル密度とはターゲットエリアから到来する音のパワースペクトル密度のことであり、雑音エリアのパワースペクトル密度とは雑音エリアから到来する音のパワースペクトル密度のことである。 Here, φ S (ω, τ) is a target area (in the case where the periphery of the microphone is divided into a plurality of areas in advance, it is an area including a sound source to be picked up from the plurality of areas. Included area: In the case of a headset, it represents the power spectral density of the wearer's mouth, and φ N (ω, τ) is a noise area (an area containing a sound source that emits external noise sound) In the case of the headset, the power spectral density of the above-mentioned plurality of areas that do not include the wearer's mouth except the target area is represented. Here, the power spectrum density of a certain area means the power spectrum density of sound coming from that area. That is, for example, the power spectral density of the target area is the power spectral density of sound coming from the target area, and the power spectral density of the noise area is the power spectral density of sound coming from the noise area.
後述するように、ヘッドセットの場合、第一マイクロホンと第二マイクロホンとは、所定の位置関係(第二マイクロホンは、第一マイクロホンとは、ヘッドセットの形態において離れた位置に配置される)にあるが、その位置関係は同一ではない。言い換えると、位置関係は、装着者毎(頭の大きさや口元の位置に応じて)、装着する度、及び、時刻毎に、変化する。そのため、マイクロホン間に生じる位相や振幅の差が変化する。よって、マイクロホン間に生じる位相や振幅の差を利用するビームフォーミングでは、マイクロホン間の位置関係に対して性能が敏感に変化するため、第一マイクロホンと第二マイクロホンによるビームフォーミングは、ターゲット音や外部ノイズ音のレベルを推定するための手段としてはふさわしくない。そこで、第一マイクロホンを装着者の口元方向に指向性を有するマイクロホンとする。さらに第一マイクロホンは口元に近接させることで、第一マイクロホンによる収音信号にはターゲット音が主に含まれる。一方、第二マイクロホンを外向きに対して指向性を有するマイクロホンとする。さらに、マイクロホンの位置に対して頑健に外部ノイズ音のレベルを推定するために、口元近傍に配置された第一マイクロホンから離れた位置に第二マイクロホンを配置することで、第二マイクロホンによる収音信号には外部ノイズ音が主に含まれる。これにより、フィルタ推定部143は、ターゲットエリアのパワースペクトル密度の推定値^φSが第一マイクロホンの収音信号X0(ω,τ)を用いて^φS=|X0(ω,τ)|2として求められ、雑音エリアのパワースペクトル密度の推定値^φNが第二マイクロホンの収音信号Xk(ω,τ)を用いて例えば式(1)〜(3)により求められる。
As will be described later, in the case of a headset, the first microphone and the second microphone are in a predetermined positional relationship (the second microphone is arranged at a position separated from the first microphone in the form of the headset). Although there is a positional relationship is not the same. In other words, the positional relationship changes for each wearer (according to the size of the head and the position of the mouth), every time it is worn, and every time. Therefore, the difference in phase and amplitude generated between the microphones changes. Therefore, in beam forming that uses the difference in phase and amplitude generated between microphones, the performance changes sensitively with respect to the positional relationship between the microphones. It is not suitable as a means for estimating the noise level. Therefore, the first microphone is a microphone having directivity in the direction of the wearer's mouth. Furthermore, the target sound is mainly included in the collected sound signal by the first microphone by bringing the first microphone close to the mouth. On the other hand, the second microphone is a microphone having directivity with respect to the outward direction. Furthermore, in order to robustly estimate the level of the external noise sound relative to the position of the microphone, the second microphone is arranged at a position away from the first microphone arranged in the vicinity of the mouth, so that sound collection by the second microphone is performed. The signal mainly includes external noise. Thus, the
フィルタ推定部143は、例えば、次式により、フィルタG(ω,τ)を推定する。
For example, the
<第二フィルタリング部144>
第二フィルタリング部144は、フィルタGを受け取り、フィルタGを用いて、収音信号X0に対してフィルタリングを行う(S144)。X0(ω,τ)に含まれる外部ノイズ音を抑圧するために、ポストフィルタG(ω,τ)を掛け合わせる。
<
The
最後に、Z(ω,τ)を逆高速フーリエ変換(IFFT)することで、出力信号zを得る。 Finally, the output signal z is obtained by performing inverse fast Fourier transform (IFFT) on Z (ω, τ).
<効果>
このような構成により、ターゲット音が従来のヘッドセット型の収音装置よりも明瞭になるように信号処理を行うことができる。特に、高騒音下において収音されたターゲット音の聞き取りやすさを向上させることができ、高騒音下での通話や音声認識を可能とする。
<Effect>
With such a configuration, signal processing can be performed so that the target sound is clearer than the conventional headset type sound pickup device. In particular, it is possible to improve the easiness of hearing the target sound collected under high noise, and it is possible to make a call and recognize voice under high noise.
なお、非特許文献1では、ヘッドホンの音声信号に対してノイズキャンセルすることを想定しているため、装着者が発する音声を収音する必要がない。そのため、装着者が発する音声を収音するためのマイクロホンが存在しない。仮に、非特許文献1のヘッドホンと従来のヘッドセット(装着者が発する音声を収音するためのマイクロホン)を組合せたとしても、ノイズキャンセルの対象となる音声は、ヘッドホンの音声信号であって、装着者が発する音声を収音するためのマイクロホンで収音した収音信号ではない。そのため、従来技術では問題が生じておらず、装着者が発する音声を収音するためのマイクロホンと、外部ノイズ音を収音するためのマイクロホンとの位置関係について、検討すらされていない。
In
また、第一マイクロホンの位置(口元近傍)に複数のマイクロホンを位置関係が変わらないように配置し、ビームフォーミングを行う方法も考えられるが、フィルタリング処理の計算量が大きくなるという問題がある。さらに、ヘッドセットのフレキシブルパイプ等の先端部分はスペースが限られており、複数のマイクロホンを配置するのに適さない。 A method of arranging a plurality of microphones at the position of the first microphone (near the mouth) so that the positional relationship does not change and performing beam forming is also conceivable, but there is a problem that the amount of calculation of the filtering process increases. Furthermore, a space is limited at the tip of the headset such as a flexible pipe, which is not suitable for arranging a plurality of microphones.
本実施形態では、指向性のマイクロホンを使うなどして、ターゲット音とその他の外部ノイズの音をできるだけ分けて収音できるような装置を設計することで、ビームフォーミングをせずとも外部ノイズ音のレベル推定を行うことができる構成とした。 In this embodiment, by designing a device that can collect the target sound and other external noise sounds as much as possible by using a directional microphone, etc., the external noise sound can be obtained without beam forming. It was set as the structure which can perform level estimation.
<変形例>
従来のノイズキャンセリングヘッドホンと本実施形態のヘッドセットとを組合せてもよい。その場合、第二マイクロホンの収音信号をヘッドホンの音声信号に対してノイズキャンセルを施すためにも利用すればよい。
<Modification>
You may combine the conventional noise canceling headphones and the headset of this embodiment. In that case, the collected sound signal of the second microphone may be used to perform noise cancellation on the sound signal of the headphones.
第一マイクロホンは、できる限り、ターゲット音を収音し、外部ノイズ音を収音しない構成であればよく、第一実施形態の構成に限定されない。例えば、収音装置100は、複数個の第一マイクロホンを含んでもよい。また、第一マイクロホンを、装着者9の口元に近接させることで、第一マイクロホンによる収音信号に主にターゲット音が含まれるようにした場合には、第一マイクロホンは、必ずしも単一指向性でなくともよく、どのような指向性でもよい。また、必ずしも装着者9の口元近傍に配置される必要はなく、例えば、耳元近傍に配置され、超指向性を有し、ターゲット音を収音してもよい。このような構成であっても、第一マイクロホンによる収音信号X0(ω,τ)に主に含まれるのはターゲット音となるため、ターゲットエリアのパワースペクトル密度の推定値^φS(ω,τ)は、^φS(ω,τ)=|X0(ω,τ)|2で推定することができる。
The first microphone is not limited to the configuration of the first embodiment as long as it can collect the target sound and not the external noise sound as much as possible. For example, the
第二マイクロホンは、できる限り、ターゲット音を収音せず、外部ノイズ音を収音する構成であればよく、第一実施形態の構成に限定されない。例えば、収音装置100は、1個の第二マイクロホンのみを含んでもよいし、3個以上の第二マイクロホンを含んでもよい。また、第二マイクロホンは必ずしも装着者9の両耳近傍に配置される必要はなく、できる限り、ターゲット音を収音せず、外部ノイズ音を収音することができる位置に配置されればよい。例えば、図1のA〜F(Aは左頬近傍、Bは左後頭部(1)または左側頭部、Cは左後頭部(2)または左頭頂部、Dは後頭部または頭頂部、Eは右後頭部(2)または右頭頂部、Fは右後頭部(1)または右側頭部)の位置に配置され、できる限り、ターゲット音を収音しないように指向性を有し、外部ノイズ音を収音してもよい。なお、第二マイクロホンを、第一マイクロホン110とは、ヘッドセットの形態において、物理的に離れた位置に配置することで、できる限り、ターゲット音を収音せず、外部ノイズ音を収音しやすくすることができる。特に、第一実施形態のように装着者9の両耳近傍に第二マイクロホンを配置すると、ターゲット音を収音せず、外部ノイズ音を収音しやすい。このような位置関係により、ターゲット音を収音せず、外部ノイズ音を収音しやすくすることができる場合には、第二マイクロホンは、外向きに対して指向性を有さなくともよく、どのような指向性でもよい。このような構成であっても、第二マイクロホンによる収音信号Xk(ω,τ)に主に含まれるのは外部ノイズ音になるため、雑音エリアのパワースペクトル密度の推定値^φN(ω,τ)は、式(1)〜(3)で推定することができる。
The second microphone is not limited to the configuration of the first embodiment as long as it can collect the target sound and collect the external noise as much as possible. For example, the
フィルタ推定部143において推定されるフィルタは、(i)前記ターゲット音を強調する、または/および、(ii)前記外部ノイズ音を抑圧するものであればどのようなものでもよく、第一実施形態のフィルタに限定されない。
The filter estimated by the
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。第一実施形態とは、フィルタ推定部143における処理が異なる。なお、本実施形態において、「外部ノイズ音」のことを「雑音」ともいう。
<Second embodiment>
A description will be given centering on differences from the first embodiment. The process in the
LPSD法では、ターゲット音と干渉雑音とが混在することを仮定して問題を定式化してきた。しかし、実用上の問題では、コヒーレント性のある干渉雑音だけでなく、インコヒーレント性の強い定常性雑音(空調の雑音、マイクの内部雑音等)が混在することが多い。この場合、φS(ω,τ)及びφN(ω,τ)の推定誤差が大きくなり、雑音抑圧性能が低下してしまうことがあった。 The LPSD method has formulated the problem on the assumption that the target sound and interference noise are mixed. However, practical problems often include not only coherent interference noise but also stationary noise with high incoherence (air conditioning noise, microphone internal noise, etc.). In this case, estimation errors of φ S (ω, τ) and φ N (ω, τ) become large, and noise suppression performance may be deteriorated.
以下に説明するフィルタ推定部143では、LPSD法を拡張することで、様々な雑音環境に対して頑健にポストフィルタを推定する。具体的には、雑音の種類毎に分割してパワースペクトル密度を推定することで、ターゲット音のパワーとその他雑音のパワーとの比の推定誤差を小さくする。
In the
図4に、フィルタ推定部143の例のブロック図を示す。
FIG. 4 shows a block diagram of an example of the
フィルタ推定部143は、図4に示すように、第一定常/非定常成分抽出部143A、第二定常/非定常成分抽出部143Bと、多様雑音対応型ゲイン計算部143Cと、時間周波数平均化部143Dと、ゲインシェーピング部143Eとを例えば備えている。
As shown in FIG. 4, the
この収音装置のフィルタ推定部143により例えば実現される信号処理の各ステップを、図5に示す。
FIG. 5 shows each step of signal processing realized by the
以下、収音装置のフィルタ推定部143及び方法の実施形態の詳細について説明する。なお、基本的な信号処理のフレームワーク、言葉の定義等については、背景技術及び第一実施形態の欄に記載したものと同様である。よって、これらの重複説明を省略する。
Details of the
本実施形態では、第一マイクロホン110でターゲット音が収音され、第二マイクロホン120−1及び120−2で外部ノイズ音が収音されると想定する。
In the present embodiment, it is assumed that the target sound is collected by the
<第一定常/非定常成分抽出部143A>
例えば次式により定義される^φS(ω,τ)には、ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)が含まれる。
<First Steady / Unsteady
For example, ^ φ S (ω, τ) defined by the following equation has a nonstationary component ^ φ S (A) (ω, τ) derived from the sound arriving from the target area and a steady state derived from incoherent noise. The component ^ φ S (B) (ω, τ) is included.
なお、Kは第二マイクロホンの個数を表す。ここで、雑音には、干渉雑音とインコヒーレントな雑音との2種類の雑音がある。干渉雑音とは、雑音エリアに配置された雑音音源から発せられた雑音のことである。インコヒーレントな雑音とは、ターゲットエリア及び雑音エリアから発せられたものに限らず、雑音エリア、及び、これらのエリア以外の場所から発せられ、定常的に存在している雑音のことである。 K represents the number of second microphones. Here, there are two types of noise, interference noise and incoherent noise. Interference noise is noise generated from a noise source arranged in a noise area. Incoherent noise is not limited to noise emitted from the target area and the noise area, but is noise that is emitted from the noise area and places other than these areas and exists constantly.
そこで、第一定常/非定常成分抽出部143Aは、ターゲットエリアのパワースペクトル密度^φS(ω,τ)から、ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)を時間平均処理により抽出する(S143A)。
Therefore, the first stationary / unsteady
抽出されたターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)は、多様雑音対応型ゲイン計算部143Cに出力される。
There are various non-stationary components ^ φ S (A) (ω, τ) derived from the sound coming from the extracted target area and stationary components ^ φ S (B) (ω, τ) derived from incoherent noise. It is output to the noise corresponding
例えば、第一定常/非定常成分抽出部143Aは、式(11)及び式(12)のように指数移動平均処理をすることで、^φS(ω,τ)から^φS (B)(ω,τ)を計算する。
For example, the first stationary / unsteady
ここで、αSは平滑化係数であり、所定の正の実数である。例えば、0<αS<1とする。また、時定数が150ms程度となるように設定してもよい。ΥSは、特定区間のフレームのインデックスの集合である。例えば、特定区間が3から4秒程度となるように設定される。 Here, α S is a smoothing coefficient, which is a predetermined positive real number. For example, 0 <α S <1. Further, the time constant may be set to about 150 ms. Υ S is a set of frames index for a specific section. For example, the specific section is set to be about 3 to 4 seconds.
そして、第一定常/非定常成分抽出部143Aは、式(13)のように、^φS(ω,τ)から^φS (B)(ω,τ)を減算することで^φS (A)(ω,τ)を計算する。
Then, the first constant / non-stationary
ここで、βS(ω)は重み係数であり、所定の正の実数である。βS(ω)は、例えば1から3程度の実数に設定される。 Here, β S (ω) is a weighting coefficient, which is a predetermined positive real number. β S (ω) is set to a real number of about 1 to 3, for example.
なお、^φS (A)(ω,τ)は、^φS (A)(ω,τ)≧0という条件を満たすようにフロアリング処理されてもよい。このフロアリング処理は、例えば第一定常/非定常成分抽出部143Aにより行われる。
Note that ^ φ S (A) (ω, τ) may be floored so as to satisfy the condition of ^ φ S (A) (ω, τ) ≧ 0. This flooring process is performed by the first stationary / unsteady
<第二定常/非定常成分抽出部143B>
例えば式(10)により定義される^φN(ω,τ)には、干渉雑音に由来する非定常成分^φN (A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φN (B)(ω,τ)が含まれる。
<Second Steady / Unsteady
For example, ^ φ N (ω, τ) defined by equation (10) includes non-stationary components derived from interference noise ^ φ N (A) (ω, τ) and stationary components derived from incoherent noise ^ φ N (B) (ω, τ) is included.
そこで、第二定常/非定常成分抽出部143Bは、雑音エリアのパワースペクトル密度^φN(ω,τ)を入力とし、雑音エリアのパワースペクトル密度^φN(ω,τ)から、干渉雑音に由来する非定常成分^φN (A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φN (B)(ω,τ)を時間平均処理により抽出する(S143B)。
Therefore, the second stationary / unsteady
抽出された干渉雑音に由来する非定常成分^φN (A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φN (B)(ω,τ)は、多様雑音対応型ゲイン計算部143Cに出力される。
The non-stationary component ^ φ N (A) (ω, τ) derived from the extracted interference noise and the stationary component ^ φ N (B) (ω, τ) derived from incoherent noise are It is output to the
例えば、第二定常/非定常成分抽出部143Bは、式(14)及び式(15)のように指数移動平均処理をすることで、^φN(ω,τ)から^φN (B)(ω,τ)を計算する。
For example, the second stationary / unsteady
ここで、αNは平滑化係数であり、所定の正の実数である。例えば、0<αN<1とする。また、時定数が150ms程度となるように設定してもよい。ΥNは、特定区間のフレームのインデックスの集合である。例えば、特定区間が3から4秒程度となるように設定される。 Here, α N is a smoothing coefficient, which is a predetermined positive real number. For example, 0 <α N <1. Further, the time constant may be set to about 150 ms. Υ N is a set of frames index for a specific section. For example, the specific section is set to be about 3 to 4 seconds.
そして、第二定常/非定常成分抽出部143Bは、式(16)のように、^φN(ω,τ)から^φN (B)(ω,τ)を減算することで^φN (A)(ω,τ)を計算する。
Then, the second constant / non-stationary
ここで、βN(ω)は重み係数であり、所定の正の実数である。βN(ω)は、例えば1から3程度の実数に設定される。 Here, β N (ω) is a weighting coefficient, which is a predetermined positive real number. β N (ω) is set to a real number of about 1 to 3, for example.
なお、^φN (A)(ω,τ)は、^φN (A)(ω,τ)≧0という条件を満たすようにフロアリング処理されてもよい。このフロアリング処理は、例えば第二定常/非定常成分抽出部143Bにより行われる。
Note that ^ φ N (A) (ω, τ) may be floored so as to satisfy the condition of ^ φ N (A) (ω, τ) ≧ 0. This flooring process is performed by, for example, the second steady / unsteady
αNは、αSと同じであっても異なっていてもよい。ΥNは、ΥSと同じであっても異なっていてもよい。βN(ω)は、βS(ω)と同じであっても異なっていてもよい。 α N may be the same as or different from α S. Υ N may be the same as or different from Υ S. β N (ω) may be the same as or different from β S (ω).
<多様雑音対応型ゲイン計算部143C>
多様雑音対応型ゲイン計算部143Cは、ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)と、インコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)と、干渉雑音に由来する非定常成分^φN (A)(ω,τ)と、インコヒーレントな雑音に由来する定常成分^φN (B)(ω,τ)を入力とし、これらを用いて、ターゲットエリアから到来する音の定常成分を強調するフィルタ~G(ω,τ)を計算する(S143C)。
<Gain
The various noise corresponding
計算されたフィルタ~G(ω,τ)は、時間周波数平均化部143Dに出力される。
The calculated filter ~ G (ω, τ) is output to the time
雑音の種類ごとに(言い換えれば、インコヒーレントな雑音、コヒーレントな雑音という雑音の種類ごと)パワースペクトル密度を推定したので、多様雑音対応型ゲイン計算部143Cは、例えば、以下の式(17)により定義されるポストフィルタ~G(ω,τ)を計算する。
Since the power spectral density is estimated for each type of noise (in other words, for each type of noise such as incoherent noise and coherent noise), the various noise corresponding
^φS (B)(ω,τ)の値の振る舞いと^φN (B)(ω,τ)の値の振る舞いとに違いがあり、インコヒーレント性の仮定が崩れている場合には、多様雑音対応型ゲイン計算部143Cは以下の式(18)により定義されるポストフィルタ~G(ω,τ)を計算してもよい。
If there is a difference between the behavior of the value of ^ φ S (B) (ω, τ) and the behavior of ^ φ N (B) (ω, τ), and the assumption of incoherence is broken, The various noise corresponding
<時間周波数平均化部143D>
時間周波数平均化部143Dは、フィルタ~G(ω,τ)を受け取り、フィルタ~G(ω,τ)について時間方向と周波数方向との少なくとも一方の方向への平滑化処理を行う(S143D)。
<Time
The time
平滑化処理されたフィルタ~G(ω,τ)は、ゲインシェーピング部143Eに出力される。
The smoothed filter˜G (ω, τ) is output to the
時間方向に平滑化を行う場合には、τ0及びτ1を0以上の整数として、時間周波数平均化部143Dは、例えば、フィルタ~G(ω,τ)の時間方向に近傍のフィルタである~G(ω,τ-τ0),…~G(ω,τ+τ1)について加算平均をすればよい。時間周波数平均化部143Dは、~G(ω,τ-τ0),…~G(ω,τ+τ1)について重み付き加算をしてもよい。
In the case of performing smoothing in the time direction, τ 0 and τ 1 are integers greater than or equal to 0, and the time
また、周波数方向に平滑化を行う場合には、ω0及びω1を0以上の実数として、時間周波数平均化部143Dは、例えば、フィルタ~G(ω,τ)の周波数方向に近傍のフィルタである~G(ω-ω0,τ),…~G(ω+ω1,τ)について加算平均をすればよい。時間周波数平均化部143Dは、~G(ω-ω0,τ),…~G(ω+ω1,τ)について重み付き加算をしてもよい。
Further, when performing smoothing in the frequency direction, ω 0 and ω 1 are set to real numbers of 0 or more, and the time
<ゲインシェーピング部143E>
ゲインシェーピング部143Eは、平滑化処理が行われたフィルタ~G(ω,τ)を受け取り、平滑化処理が行われたフィルタ~G(ω,τ)についてゲインシェーピングを行うことにより、フィルタG(ω,τ)を生成し、(S143E)出力する。ゲインシェーピング部143Eは、例えば、以下の式(19)により定義されるフィルタG(ω,τ)を生成する。
<Gain shaping
The
ここで、γは重み係数であり、正の実数である。例えば、γを1から1.3程度に設定すればよい。 Here, γ is a weighting factor, which is a positive real number. For example, γ may be set to about 1 to 1.3.
ゲインシェーピング部143Eは、A≦G(ω,τ)≦1を満たすように、フィルタG(ω,τ)についてフロアリング処理をしてもよい。Aは0から0.3の実数であり、通常0.1程度とする。G(ω,τ)が1より大きいと強調し過ぎになる可能性があり、また、G(ω,τ)が小さ過ぎるとミュージカルノイズの発生する可能性がある。適切なフロアリング処理を行うことにより、この強調及びミュージカルノイズの発生を防止することができる。
The
定義域及び値域が実数である関数fを考える。関数fは例えば非減少関数とする。ゲインシェーピングは、ゲインシェーピング前の~G(ω,τ)を関数fに入力したときの出力値を求める操作を意味する。言い換えれば、関数fに~G(ω,τ)を入力したときの出力値がG(ω,τ)である。関数fの例が、式(19)である。式(19)による関数fは、f(x)=γ(x-0.5)+0.5である。 Consider a function f whose domain and range are real numbers. For example, the function f is a non-decreasing function. Gain shaping means an operation for obtaining an output value when ~ G (ω, τ) before gain shaping is input to the function f. In other words, the output value when ~ G (ω, τ) is input to the function f is G (ω, τ). An example of the function f is Expression (19). The function f according to the equation (19) is f (x) = γ (x−0.5) +0.5.
他の関数fの他の例を図6を用いて説明する。図6では、インデックスを省略している。すなわち、図6のGはG(ω,τ)を意味し、~Gは~G(ω,τ)を意味する。まず、この例では、図6(A)から図6(B)に示すように、関数fのグラフの傾きを変えている。そして、図6(B)から図6(C)に示すように、0≦G(ω,τ)≦1を満たすように、フロアリング処理をしている。この図6(C)の太線により示されるグラフで特定される関数が関数fの他の例である。 Another example of another function f will be described with reference to FIG. In FIG. 6, the index is omitted. That is, G in FIG. 6 means G (ω, τ), and ~ G means ~ G (ω, τ). First, in this example, as shown in FIGS. 6A to 6B, the slope of the graph of the function f is changed. Then, as shown in FIGS. 6B to 6C, flooring processing is performed so as to satisfy 0 ≦ G (ω, τ) ≦ 1. The function specified by the graph indicated by the bold line in FIG. 6C is another example of the function f.
関数fのグラフは、図6(C)に示すものに限られない。例えば、図6(C)では、関数fのグラフは直線で構成されているが、関数fのグラフは曲線で構成されていてもよい。例えば、関数fは、ハイパボリックタンジェント関数に対してフロアリング処理を施したものであってもよい。 The graph of the function f is not limited to that shown in FIG. For example, in FIG. 6C, the graph of the function f is composed of a straight line, but the graph of the function f may be composed of a curve. For example, the function f may be a function obtained by performing a flooring process on a hyperbolic tangent function.
<効果>
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、このフィルタ推定部143によれば、多様な性質を持つ雑音が存在する環境に対して頑健に、雑音抑圧するためのポストフィルタを設計することができる。また、リアルタイム性のある処理で、このようなポストフィルタを設計することができる。
<Effect>
With such a configuration, the same effect as that of the first embodiment can be obtained. Furthermore, according to the
<変形例>
時間周波数平均化部143D及びゲインシェーピング部143Eの処理は、いわゆるミュージカルノイズを抑えるために行われる。時間周波数平均化部143D及びゲインシェーピング部143Eの処理は、行われなくてもよい。
<Modification>
The processing of the time
指数移動平均処理による^φS (B)(ω,τ)及び^φS (A)(ω,τ)の計算は、第一定常/非定常成分抽出部143Aの処理の一例である。第一定常/非定常成分抽出部143Aは、他の処理により、^φS (B)(ω,τ)及び^φS (A)(ω,τ)を抽出してもよい。
The calculation of ^ φ S (B) (ω, τ) and ^ φ S (A) (ω, τ) by the exponential moving average process is an example of the process of the first steady / unsteady
同様に、指数移動平均処理による^φN (B)(ω,τ)及び^φN (A)(ω,τ)の計算は、第二定常/非定常成分抽出部143Bの処理の一例である。第二定常/非定常成分抽出部143Bは、他の処理により、^φN (B)(ω,τ)及び^φN (A)(ω,τ)を抽出してもよい。
Similarly, calculation of ^ φ N (B) (ω, τ) and ^ φ N (A) (ω, τ) by exponential moving average processing is an example of processing of the second stationary / unsteady component extraction unit 143B. is there. The second steady / unsteady
<第三実施形態>
第一実施形態と異なる部分を中心に説明する。
<Third embodiment>
A description will be given centering on differences from the first embodiment.
第一マイクロホンが装着者9の近接しているとはいえ、第一マイクロホンの収音信号にも外部ノイズ音は混入している。また、第二マイクロホンが、第一マイクロホンから離れた位置に配置されているとはいえ、第二マイクロホンの収音信号にはターゲット音が混入している。本実施形態では、この混入分を補正することで、フィルタGの精度を高める。 Although the first microphone is close to the wearer 9, the external noise sound is also mixed in the sound pickup signal of the first microphone. In addition, although the second microphone is disposed at a position away from the first microphone, the target sound is mixed in the collected sound signal of the second microphone. In the present embodiment, the accuracy of the filter G is improved by correcting the mixed amount.
そこで、本実施形態では、ターゲットエリアのパワースペクトル密度の推定値^φS(ω,τ)および雑音エリアのパワースペクトル密度の推定値^φN(ω,τ)を補正する。補正式は以下の通りである。
^φ’S(ω,τ)=^φS(ω,τ)-α^φN(ω,τ) (21)
^φ’N(ω,τ)=^φN(ω,τ)-γ^φS(ω,τ) (22)
フィルタ推定部143は、式(5)において、^φS(ω,τ)及び^φN(ω,τ)に代えて、^φ’S(ω,τ)及び^φ’N(ω,τ)を用いて、ポストフィルタG(ω,τ)を計算すればよい。
Therefore, in this embodiment, the estimated value ^ φ S (ω, τ) of the power spectral density in the target area and the estimated value ^ φ N (ω, τ) of the power spectral density in the noise area are corrected. The correction formula is as follows.
^ φ ' S (ω, τ) = ^ φ S (ω, τ) -α ^ φ N (ω, τ) (21)
^ φ ' N (ω, τ) = ^ φ N (ω, τ) -γ ^ φ S (ω, τ) (22)
The
なお、第一マイクロホン及び第二マイクロホンの配置や指向特性を考慮して、α及びγを予め設定してもよいし、適応的に設定してもよい。 Note that α and γ may be set in advance or may be set adaptively in consideration of the arrangement and directivity characteristics of the first microphone and the second microphone.
予め設定する場合には、信号処理部140の機能ブロック図は図2で表され、フィルタ推定部143は、α及びγを予め記憶しておけばよい。
In the case of setting in advance, the functional block diagram of the
図7はα及びγを適応的に設定する場合の信号処理部140の機能ブロック図を、図8はその処理フローの例を示す。信号処理部140は、レベル比推定部145を含む。
FIG. 7 is a functional block diagram of the
<レベル比推定部145>
レベル比推定部145は、ターゲットエリアのパワースペクトル密度の推定値^φS(ω,τ)および雑音エリアのパワースペクトル密度の推定値^φN(ω,τ)を受け取り、これらの値を用いて、α及びγを求め(S145)、フィルタ推定部143に出力する。
<
The level
αは、雑音成分の第一マイクロホンと第二マイクロホン間のレベル差であるので、ターゲット音がなく雑音のみが存在する区間(雑音区間)に(第一マイクロホンのレベル)/(第ニマイクロホンのレベル)を計算することで求められる。まず、
α=^φS(ω,τ)/^φN(ω,τ) (23)
を計算する。ターゲット音は第一マイクロホンに大きく入り、第二マイクロホンに小さく入るので、マイクロホン間のレベル差(第一マイクロホンのレベル)/(第二マイクロホンのレベル)を観測することで、ターゲット音が存在する区間と、ターゲット音が存在しない雑音のみの区間(雑音区間)を識別することができる。レベル差(第一マイクロホンのレベル)/(第ニマイクロホンのレベル)があらかじめ設定した閾値以下である場合に雑音区間であると判定し、そのときのαを出力する。例えば、第一マイクロホンに収音されるターゲット音は、第二マイクロホンに比べ10〜20dB程度大きいレベルとなっていると見込まれる。そのため、あらかじめ設定する閾値は、1〜10の間に設定するとよい。
α is a level difference between the first microphone and the second microphone of the noise component. Therefore, in a section (noise section) where there is no target sound and only noise exists (level of the first microphone) / (level of the second microphone) ) Is calculated. First,
α = ^ φ S (ω, τ) / ^ φ N (ω, τ) (23)
Calculate Since the target sound enters the first microphone largely and enters the second microphone smallly, by observing the level difference between the microphones (level of the first microphone) / (level of the second microphone), the section where the target sound exists Then, it is possible to identify a noise-only section (noise section) in which the target sound does not exist. When the level difference (the level of the first microphone) / (the level of the second microphone) is equal to or less than a preset threshold value, it is determined that it is a noise interval, and α at that time is output. For example, the target sound collected by the first microphone is expected to be about 10 to 20 dB higher than the second microphone. Therefore, the threshold value set in advance is preferably set between 1 and 10.
γは、ターゲット音の第二マイクロホンと第一マイクロホン間のレベル差であるので、発話区間に(第二マイクロホンのレベル)/(第一マイクロホンのレベル)を計算することで求められる。まず、
γ=^φN(ω,τ)/^φS(ω,τ) (24)
を計算する。ターゲット音は第一マイクロホンに大きく入り、第ニマイクロホンに小さく入るので、マイクロホン間のレベル差(第二マイクロホンのレベル)/(第一マイクロホンのレベル)を観測することで、発話区間を検出することができる。レベル差(第二マイクロホンのレベル)/(第一マイクロホンのレベル)があらかじめ設定した閾値以下である場合に発話区間であると判定し、そのときのγを出力する。例えば、第一マイクロホンと第二マイクロホン間のレベル差は、発話区間であれば10〜20dBくらいが見込まれる。そのため、あらかじめ設定する閾値は、1〜10の間に設定するとよい。
Since γ is a level difference between the second microphone and the first microphone of the target sound, it can be obtained by calculating (level of the second microphone) / (level of the first microphone) in the speech section. First,
γ = ^ φ N (ω, τ) / ^ φ S (ω, τ) (24)
Calculate Since the target sound enters the first microphone largely and enters the second microphone smallly, the speech interval can be detected by observing the level difference between the microphones (second microphone level) / (first microphone level). Can do. When the level difference (the level of the second microphone) / (the level of the first microphone) is equal to or less than a preset threshold value, the speech section is determined to be output, and γ at that time is output. For example, the level difference between the first microphone and the second microphone is expected to be about 10 to 20 dB in the utterance period. Therefore, the threshold value set in advance is preferably set between 1 and 10.
レベル比推定部145は一定時間ごとにα及びγを求めることで、フィルタ推定部143はα及びγを適応的に設定することができる。
The level
<効果>
このような構成により第一実施形態と同様の効果を得ることができる。さらに、第一マイクロホンにおける外部ノイズ音の混入、および、第二マイクロホンにおけるターゲット音の混入を考慮することで、フィルタGの精度を高めることができる。
<Effect>
With this configuration, the same effect as that of the first embodiment can be obtained. Furthermore, the accuracy of the filter G can be improved by taking into account the mixing of external noise sound in the first microphone and the mixing of target sound in the second microphone.
<変形例>
本実施形態と第二実施形態を組合せてもよい。
<Modification>
You may combine this embodiment and 2nd embodiment.
第二実施形態のフィルタ推定部143の処理の前段で、第三実施形態の方法で^φ’S(ω,τ)及び^φ’N(ω,τ)を計算して、^φ’S(ω,τ)及び^φ’N(ω,τ)を用いて、第二実施形態のフィルタ推定部143の処理を行ってもよいが、本変形例では、ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)および環境雑音に由来する非定常成分^φN (A)(ω,τ)を補正する。補正式は以下の通りである。
^φ’S (A)(ω,τ)=^φS (A)(ω,τ)-β^φN (A)(ω,τ) (25)
^φ’N (A)(ω,τ)=^φN (A)(ω,τ)-κ^φS (A)(ω,τ) (26)
多様雑音対応型ゲイン計算部143Cは、式(17)または式(18)において、^φS (A)(ω,τ)及び^φN (A)(ω,τ)に代えて、^φ’S (A)(ω,τ)及び^φ’N (A)(ω,τ)を用いて、ポストフィルタ~G(ω,τ)を計算すればよい。
Before the processing of the
^ φ ' S (A) (ω, τ) = ^ φ S (A) (ω, τ) -β ^ φ N (A) (ω, τ) (25)
^ φ ' N (A) (ω, τ) = ^ φ N (A) (ω, τ) -κ ^ φ S (A) (ω, τ) (26)
The variable noise corresponding
なお、第一マイクロホン及び第二マイクロホンの配置や指向特性を考慮して、β及びκを予め設定してもよいし、適応的に設定してもよい。 Note that β and κ may be set in advance or adaptively in consideration of the arrangement and directivity characteristics of the first microphone and the second microphone.
予め設定する場合には、フィルタ推定部143の機能ブロック図は図4で表され、多様雑音対応型ゲイン計算部143Cは、β及びκを予め記憶しておけばよい。
In the case of setting in advance, the functional block diagram of the
図9はβ及びκを適応的に設定する場合のフィルタ推定部143の機能ブロック図を、図10はその処理フローの例を表す。フィルタ推定部143は、レベル比推定部143Fを含む。
FIG. 9 is a functional block diagram of the
レベル比推定部143Fは、ターゲットエリアのパワースペクトル密度の推定値^φS(ω,τ)および雑音エリアのパワースペクトル密度の推定値^φN(ω,τ)に代えて、ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)および環境雑音に由来する非定常成分^φN (A)(ω,τ)を用いて、同様の処理を行い、αおよびγに代えて、βおよびκを求め、出力する(S143F)。よって、
β=^φS (A)(ω,τ)/^φN (A)(ω,τ)
κ=^φN (A)(ω,τ)/^φS (A)(ω,τ)
であり、β及びκが、それぞれあらかじめ設定した閾値以下のときに出力される。
The level
β = ^ φ S (A) (ω, τ) / ^ φ N (A) (ω, τ)
κ = ^ φ N (A) (ω, τ) / ^ φ S (A) (ω, τ)
And are output when β and κ are each equal to or less than a preset threshold value.
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。 The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
<Program and recording medium>
In addition, various processing functions in each device described in the above embodiments and modifications may be realized by a computer. In that case, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its storage unit. When executing the process, this computer reads the program stored in its own storage unit and executes the process according to the read program. As another embodiment of this program, a computer may read a program directly from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program includes information provided for processing by the electronic computer and equivalent to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In addition, although each device is configured by executing a predetermined program on a computer, at least a part of these processing contents may be realized by hardware.
スマートフォンのコマンド入力として、音声認識が一般的に利用されるようになってきた。車内や工場内といった雑音下では、ハンズフリーで機器を操作したり、遠隔地と通話するといった需要が高いと考えられる。 Speech recognition has been commonly used as a command input for smartphones. Under noisy conditions such as in cars and factories, there is a high demand for hands-free operation of devices and calls with remote locations.
この発明は、例えばこのような場合に利用することができる。 The present invention can be used, for example, in such a case.
Claims (2)
当該収音装置の装着者の口元近傍に配され、前記装着者が発する音声であるターゲット音を収音するための1個の第一マイクロホンと、
前記第一マイクロホンとは、ヘッドセットの形態において離れた位置に配置され、外部ノイズ音を収音するための2個の第二マイクロホンと、
第一マイクロホンの収音信号及び第二マイクロホンの収音信号を用いて、(i)前記ターゲット音を強調した、または/および、(ii)前記外部ノイズ音を抑圧した出力信号を生成する信号処理部とを含み、
前記第一マイクロホンは、前記装着者の口元の方向に対して単一指向性を有し、
2個の前記第二マイクロホンは、それぞれ、前記装着者の両耳近傍に配置され、外向きに対して指向性を有する、
収音装置。 A headset type sound collecting device,
A first microphone arranged in the vicinity of the mouth of the wearer of the sound collection device for collecting a target sound, which is a sound emitted by the wearer;
The first microphone is arranged at a position separated in the form of a headset, and two second microphones for collecting external noise sound,
Signal processing for generating an output signal in which (i) the target sound is emphasized and / or (ii) the external noise sound is suppressed by using the collected sound signal of the first microphone and the collected sound signal of the second microphone Including
The first microphone has unidirectionality with respect to the direction of the wearer's mouth,
Each of the two second microphones is disposed in the vicinity of both ears of the wearer and has directivity toward the outside.
Sound collection device.
前記信号処理部は、
第一マイクロホンの収音信号及び第二マイクロホンの収音信号を用いて、前記第一マイクロホンの収音信号から、前記外部ノイズ音を抑圧するフィルタを推定するフィルタ推定部と、
前記フィルタを用いて、前記第一マイクロホンの収音信号に対してフィルタリングを行う第二フィルタリング部とを含む、
収音装置。 The sound collection device according to claim 1,
The signal processing unit
A filter estimation unit that estimates a filter that suppresses the external noise sound from the collected sound signal of the first microphone, using the collected sound signal of the first microphone and the collected sound signal of the second microphone;
A second filtering unit that performs filtering on the collected sound signal of the first microphone using the filter;
Sound collection device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014173523A JP6204312B2 (en) | 2014-08-28 | 2014-08-28 | Sound collector |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014173523A JP6204312B2 (en) | 2014-08-28 | 2014-08-28 | Sound collector |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016048872A true JP2016048872A (en) | 2016-04-07 |
JP6204312B2 JP6204312B2 (en) | 2017-09-27 |
Family
ID=55649559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014173523A Active JP6204312B2 (en) | 2014-08-28 | 2014-08-28 | Sound collector |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6204312B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018044011A1 (en) * | 2016-08-29 | 2018-03-08 | 엘지전자 주식회사 | Portable sound device |
WO2019031593A1 (en) * | 2017-08-09 | 2019-02-14 | イアフレド株式会社 | Video and sound reproduction device and method |
JP2019083406A (en) * | 2017-10-30 | 2019-05-30 | パナソニックIpマネジメント株式会社 | headset |
JP2020506634A (en) * | 2017-02-14 | 2020-02-27 | アバネラ コーポレイションAvnera Corporation | Method for detecting user voice activity in a communication assembly, the communication assembly |
CN111883167A (en) * | 2020-08-12 | 2020-11-03 | 上海明略人工智能(集团)有限公司 | Sound separation method and device, recording equipment and readable storage medium |
CN112116918A (en) * | 2020-09-27 | 2020-12-22 | 北京声加科技有限公司 | Speech signal enhancement processing method and earphone |
US11614916B2 (en) | 2017-02-07 | 2023-03-28 | Avnera Corporation | User voice activity detection |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012151745A (en) * | 2011-01-20 | 2012-08-09 | Nippon Telegr & Teleph Corp <Ntt> | Stereo head set |
JP2014507683A (en) * | 2011-08-10 | 2014-03-27 | 歌尓声学股▲ふん▼有限公司 | Communication earphone sound enhancement method, apparatus, and noise reduction communication earphone |
-
2014
- 2014-08-28 JP JP2014173523A patent/JP6204312B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012151745A (en) * | 2011-01-20 | 2012-08-09 | Nippon Telegr & Teleph Corp <Ntt> | Stereo head set |
JP2014507683A (en) * | 2011-08-10 | 2014-03-27 | 歌尓声学股▲ふん▼有限公司 | Communication earphone sound enhancement method, apparatus, and noise reduction communication earphone |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018044011A1 (en) * | 2016-08-29 | 2018-03-08 | 엘지전자 주식회사 | Portable sound device |
US11614916B2 (en) | 2017-02-07 | 2023-03-28 | Avnera Corporation | User voice activity detection |
JP2020506634A (en) * | 2017-02-14 | 2020-02-27 | アバネラ コーポレイションAvnera Corporation | Method for detecting user voice activity in a communication assembly, the communication assembly |
JP7123951B2 (en) | 2017-02-14 | 2022-08-23 | アバネラ コーポレイション | Method for user voice activity detection in a communication assembly, the communication assembly |
WO2019031593A1 (en) * | 2017-08-09 | 2019-02-14 | イアフレド株式会社 | Video and sound reproduction device and method |
JP2019033426A (en) * | 2017-08-09 | 2019-02-28 | イアフレド株式会社 | Video sound reproduction device and method |
JP2019083406A (en) * | 2017-10-30 | 2019-05-30 | パナソニックIpマネジメント株式会社 | headset |
CN111883167A (en) * | 2020-08-12 | 2020-11-03 | 上海明略人工智能(集团)有限公司 | Sound separation method and device, recording equipment and readable storage medium |
CN112116918A (en) * | 2020-09-27 | 2020-12-22 | 北京声加科技有限公司 | Speech signal enhancement processing method and earphone |
CN112116918B (en) * | 2020-09-27 | 2023-09-22 | 北京声加科技有限公司 | Voice signal enhancement processing method and earphone |
Also Published As
Publication number | Publication date |
---|---|
JP6204312B2 (en) | 2017-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6204312B2 (en) | Sound collector | |
US9113241B2 (en) | Noise removing apparatus and noise removing method | |
JP5452655B2 (en) | Multi-sensor voice quality improvement using voice state model | |
KR101934999B1 (en) | Apparatus for removing noise and method for performing thereof | |
WO2012014451A1 (en) | Multi-input noise suppresion device, multi-input noise suppression method, program, and integrated circuit | |
JP6135106B2 (en) | Speech enhancement device, speech enhancement method, and computer program for speech enhancement | |
JP6668995B2 (en) | Noise suppression device, noise suppression method, and computer program for noise suppression | |
JP6225245B2 (en) | Signal processing apparatus, method and program | |
JP6151236B2 (en) | Noise suppression device, method and program thereof | |
US9747919B2 (en) | Sound processing apparatus and recording medium storing a sound processing program | |
JPWO2014097637A1 (en) | Directional microphone device, acoustic signal processing method and program | |
KR101581885B1 (en) | Apparatus and Method for reducing noise in the complex spectrum | |
KR101757461B1 (en) | Method for estimating spectrum density of diffuse noise and processor perfomring the same | |
JPWO2018037643A1 (en) | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM | |
JP6182169B2 (en) | Sound collecting apparatus, method and program thereof | |
JP2012181561A (en) | Signal processing apparatus | |
CN110858485B (en) | Voice enhancement method, device, equipment and storage medium | |
JP2017083566A (en) | Noise suppression device, noise suppression method, and program | |
JP6638248B2 (en) | Audio determination device, method and program, and audio signal processing device | |
CN113611319B (en) | Wind noise suppression method, device, equipment and system based on voice component | |
JP6473066B2 (en) | Noise suppression device, method and program thereof | |
JP5774062B2 (en) | Echo canceling apparatus, echo canceling method, and program thereof | |
JP6263890B2 (en) | Audio signal processing apparatus and program | |
CN112584266A (en) | Signal processing method and device and earphone | |
JP6631127B2 (en) | Voice determination device, method and program, and voice processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160914 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170710 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170718 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170817 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170829 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6204312 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |