JP2011205324A - Voice processor, voice processing method, and program - Google Patents
Voice processor, voice processing method, and program Download PDFInfo
- Publication number
- JP2011205324A JP2011205324A JP2010069732A JP2010069732A JP2011205324A JP 2011205324 A JP2011205324 A JP 2011205324A JP 2010069732 A JP2010069732 A JP 2010069732A JP 2010069732 A JP2010069732 A JP 2010069732A JP 2011205324 A JP2011205324 A JP 2011205324A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- volume
- arrival
- unit
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、音声処理装置、音声処理方法およびプログラムに関する。 The present invention relates to a voice processing device, a voice processing method, and a program.
従来、複数の発話者からの音声が重畳されている音声信号に基づいて再生される音声には、特定の発話者からの音声が小さく聴取され聞き取りにくいといった課題があった。
このような課題に対し、複数の発話者からの音声が重畳された音声信号を、独立成分分析などの手法を用いて各発話者毎の音声に分離してから、それぞれの音声にたいして音量の補正を行うことが知られている。
Conventionally, the sound reproduced based on the sound signal on which the sounds from a plurality of speakers are superimposed has a problem that the sound from a specific speaker is small and difficult to hear.
In response to these issues, the speech signal with the speech from multiple speakers is separated into speech for each speaker using a technique such as independent component analysis, and then the volume is corrected for each speech. Is known to do.
しかしながら、上記のような独立成分分析などの手法を用いて各発話者毎の音声を分離するためには、高度で複雑かつ多量の演算を必要とするために、汎用の端末装置や音声会議装置といった音声処理機能を有する機器に搭載するには、コストが高くなってしまうとともに消費電力が大きくなってしまうといった問題があった。 However, in order to separate voices for each speaker using the above-described method such as independent component analysis, a high-level, complicated and large amount of computation is required. In the case of mounting on a device having such a voice processing function, there is a problem that the cost increases and the power consumption increases.
このような問題に対し、複数のマイクを用いて特定の位置からの音声信号を取得する収音装置によって取得した音声信号の音量を適正に補正する技術が知られている(特許文献1)。
特許文献1に記載の技術では、2つの指向性マイクと1つの無指向性マイクの合わせて3つのマイクを用いて一の収音装置を構成し、この収音装置による音声の収音方向を特定するとともに、収音した音声のレベルを収音方向毎に比較して調整する技術である。
In order to solve such a problem, a technique for appropriately correcting the volume of a sound signal acquired by a sound collecting device that acquires sound signals from a specific position using a plurality of microphones is known (Patent Document 1).
In the technique described in
しかしながら、特許文献1の技術は、2つの指向性マイクと1つの無指向性マイクを必要とし、これらマイクの配置位置に複雑な制約があるため、容易に実現することが困難であるといった問題があった。
また、特許文献1の技術は、一の収音装置の構成として2つの指向性マイクと1つの無指向性マイクのあわせて3つのマイクを用いるため、使用するマイクの個数が多くコストが高くなってしまうとともに、マイクを搭載するために十分な面積を装置内に確保しなければならないといった問題があった。
さらに、特許文献1の技術は、収音装置によって特定される収音方向が所定の方向に限定されるため、複数の音源が収音装置に近接している場合など、音源の方向が特定できない場合があり細かな制御ができないといった問題があった。
However, the technique of
Moreover, since the technique of
Furthermore, since the sound collection direction specified by the sound collection device is limited to a predetermined direction in the technique of
そこで本発明は、上述の問題を解決すべく、複数の音声が混合されている音声信号に対して、複数の無指向性マイクによって収音して各音声の到来方向を判別するとともに、この音声信号に混合されている複数の音声の音量を補正した音声信号を容易に出力する音声処理装置および音声処理方法を提供することを目的とする。 Therefore, in order to solve the above-described problem, the present invention collects sound by using a plurality of omnidirectional microphones for a sound signal in which a plurality of sounds are mixed, and determines the direction of arrival of each sound. An object of the present invention is to provide an audio processing device and an audio processing method that easily output an audio signal in which the volume of a plurality of audio signals mixed with the signal is corrected.
上述の目的を達成するために、本発明は、互いに離間して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する音声信号出力部と、この音声信号出力部から出力される音声信号の前記周波数帯域成分間の位相差に基づいて前記マイクロフォンによって収集された音声の到来方向を判別する到来方向判別部と、この到来方向判別部によって判別された到来方向に応じて前記音声信号に対する音量の補正量を導出する音声補正量導出部と、この音量補正量導出部によって導出された前記補正量を用いて前記音声信号の音量を補正する音量補正実行部とを備えることを特徴とする。 In order to achieve the above-described object, the present invention provides an audio signal output unit that outputs an arbitrary frequency band component among audio signals respectively acquired by a plurality of omnidirectional microphones arranged apart from each other; An arrival direction discriminating unit that discriminates the arrival direction of the voice collected by the microphone based on the phase difference between the frequency band components of the audio signal output from the audio signal output unit, and the arrival direction discriminating unit. A sound correction amount deriving unit for deriving a sound volume correction amount for the sound signal according to the arrival direction, and a sound volume correction for correcting the sound signal volume using the correction amount derived by the sound volume correction amount deriving unit. And an execution unit.
本発明によれば、音声信号出力部の無指向性マイクロフォンによって収集された音声における所定の周波数帯域成分間の位相差に基づいてこのマイクロフォンによって収集された音声の到来方向を判別し、マイクロフォンによって収集された音声の補正量を到来方向に応じて導出することにより、マイクロフォンによって収集された音声の音量を到来方向に応じて補正することができる。 According to the present invention, the direction of arrival of the voice collected by the microphone is determined based on the phase difference between the predetermined frequency band components in the voice collected by the omnidirectional microphone of the voice signal output unit, and collected by the microphone. By deriving the corrected amount of the sound according to the direction of arrival, the volume of the sound collected by the microphone can be corrected according to the direction of arrival.
したがって、複数の到来方向からの音声が重畳されている音声信号から、複数の音声間の音量が均等になるように異なる到来方向からの音声の音量を補正することができるため、音声信号に重畳された各音声を聞き取りやすく再生することができる。
また、音声信号に重畳されている複数の音声を分離せずにこの音声信号に重畳されている複数の音声の到来方向別に音声の補正を行うことから、低演算量でかつ容易に音声信号に重畳された各音声の音量の補正を実行することが可能となる。
Therefore, since the sound volume from different directions of arrival can be corrected so that the sound volume between the plurality of sounds is equalized from the sound signal in which the sounds from the plurality of directions of arrival are superimposed, it is superimposed on the sound signal. It is possible to reproduce each of the recorded voices in an easy-to-understand manner.
In addition, since the sound is corrected for each direction of arrival of the plurality of sounds superimposed on the sound signal without separating the plurality of sounds superimposed on the sound signal, the sound signal can be easily converted into the sound signal with a low amount of computation. It is possible to correct the volume of each superimposed voice.
以下、本発明の実施の形態について、図面を参照し詳細に説明する。
[第1の実施の形態]
本発明における第1の実施の形態にかかる音声処理装置は、異なる到来方向からの複数の音声が重畳された音声信号を複数のマイクロフォンで取得して、これらマイクロフォンで取得した音声信号における任意の周波数帯域成分間の位相差に基づいて判別される音声の到来方向に応じて取得した音声信号の音量を補正する音声処理装置である。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[First Embodiment]
The speech processing apparatus according to the first embodiment of the present invention acquires a speech signal on which a plurality of speeches from different directions of arrival are superimposed by using a plurality of microphones, and an arbitrary frequency in the speech signal obtained by these microphones. This is a sound processing apparatus that corrects the volume of a sound signal acquired according to the direction of arrival of sound determined based on the phase difference between band components.
本実施の形態にかかる音声処理装置10は、図1に示すように、音声信号出力部110と到来方向判別部120と音量補正量導出部130と音量補正実行部140とから構成されている。
音声信号出力部110は、互いに離間して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する。
到来方向判別部120は、音声信号出力部110から出力される音声信号の任意の周波数帯域間の位相差に基づいて、音声信号出力部110のマイクロフォンによって収集された音声の到来方向を判別する。
As shown in FIG. 1, the
The audio signal output unit 110 outputs an arbitrary frequency band component among the audio signals respectively acquired by a plurality of omnidirectional microphones arranged apart from each other.
The arrival direction
音量補正量導出部130は、到来方向判別部120によって判別された音声信号出力部110のマイクロフォンによって収集された音声の到来方向に応じてこのマイクロフォンによって取得された音声信号に対する音量の補正量を導出する。
音量補正実行部140は、音量補正量導出部130によって導出された補正量を用いて音声信号出力部110のマイクロフォンによって取得された音声信号の音量を補正する。
The sound volume correction amount deriving unit 130 derives a sound volume correction amount for the sound signal acquired by the microphone according to the sound arrival direction collected by the microphone of the sound signal output unit 110 determined by the arrival
The volume
なお、本実施の形態にかかる音声処理装置10の各構成要素は、CPUやメモリ、インターフェースからなるコンピュータにコンピュータプログラム(ソフトウエア)をインストールすることによって実現され、上述した音声処理装置10の各種機能は、上記コンピュータの各種ハードウェア資源と上記コンピュータプログラムとが協働することによって実現される。
Each component of the
次に、図2を参照して、本実施の形態にかかる音声処理装置10の動作について説明する。
本実施の形態にかかる音声処理装置10は、図2に示すように、音声信号出力部110の複数のマイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を音声信号出力部110にそれぞれを出力させる(S101)。
Next, the operation of the
As shown in FIG. 2, the
音声信号出力部110から複数のマイクロフォンによってそれぞれ取得された音声信号における任意の周波数帯域成分それぞれが出力されると、到来方向判定部120は、音声信号出力部110から出力された各周波数帯域成分間の位相差に基づいて、マイクロフォンによって収集された音声の到来方向を判別する(S102)。
When each arbitrary frequency band component in the audio signal acquired by each of the plurality of microphones is output from the audio signal output unit 110, the arrival
到来方向判定部120によってマイクロフォンによって収集された音声の到来方向を判別すると、音声補正量導出部130は、マイクロフォンによって取得された音声信号に対する音量の補正量を音声の到来方向に応じて導出する(S103)。
音声信号に対する音量の補正量が導出されると、音量補正実行部140は、導出された補正量を用いて音声信号の音量を補正する(S103)。
When the arrival
When the volume correction amount for the audio signal is derived, the volume
このように、本実施の形態にかかる音声処理装置によれば、音声信号出力部のマイクロフォンによって収集された音声における所定の周波数帯域成分間の位相差に基づいてこのマイクロフォンによって収集された音声の到来方向を判別してマイクロフォンによって収集された音声の補正量を到来方向に応じて導出することにより、マイクロフォンによって収集された音声の音量を到来方向に応じて補正することができる。
したがって、複数の到来方向からの音声が重畳されている音声信号から、複数の音声間の音量が均等になるように異なる到来方向からの音声の音量を補正することができるため、音声信号に重畳された各音声を聞き取りやすく再生することができる。
As described above, according to the sound processing device according to the present embodiment, the arrival of the sound collected by the microphone based on the phase difference between the predetermined frequency band components in the sound collected by the microphone of the sound signal output unit. By determining the direction and deriving the correction amount of the voice collected by the microphone according to the direction of arrival, the volume of the voice collected by the microphone can be corrected according to the direction of arrival.
Therefore, since the sound volume from different directions of arrival can be corrected so that the sound volume between the plurality of sounds is equalized from the sound signal in which the sounds from the plurality of directions of arrival are superimposed, it is superimposed on the sound signal. It is possible to reproduce each of the recorded voices so that they can be easily heard.
[第2の実施の形態]
図3は、本発明における第2の実施の形態にかかる音声処理装置の構成を示すブロック図である。本実施の形態にかかる音声処理装置は、複数の音声が重畳された音声信号に対する音量の補正を音声の到来方向に応じて実行するものであり、特に、互いに離間して設置された2つの無指向性マイクロフォンによって取得された音声信号に基づいて、この音声信号に重畳された複数の音声の到来方向を判別して音声信号の音量を補正する音声処理装置である。
なお、本実施の形態にかかる音声処理装置の構成要素について、第1の実施の形態において説明した音声処理装置10の構成要素と同様の構成および機能を有するものには、同一の符号を付し、その詳細な説明は省略する。
[Second Embodiment]
FIG. 3 is a block diagram showing the configuration of the speech processing apparatus according to the second embodiment of the present invention. The sound processing apparatus according to the present embodiment performs sound volume correction on a sound signal on which a plurality of sounds are superimposed according to the direction of arrival of the sound. This is a voice processing device that determines the direction of arrival of a plurality of voices superimposed on the voice signal based on the voice signal acquired by the directional microphone and corrects the volume of the voice signal.
In addition, about the component of the speech processing device concerning this Embodiment, the same code | symbol is attached | subjected to what has the structure and function similar to the component of the
図3に示すように、本実施の形態にかかる音声処理装置20は、音声信号出力部210と到来方向判別部220と音量補正量導出部230と音量補正実行部240とから構成されている。
音声信号出力部210は、2つの無指向性マイクロフォン211−a,221−bを有する収音部211と、収音部211によって取得された音声信号を任意の周波数帯域成分に変換する周波数分析部212とから構成されている。
As shown in FIG. 3, the
The audio
音声信号出力210の収音部211は、無指向性マイクロフォン211−a,211−bを互いに離間して配置し、無指向性マイクロフォン211−a,221−bそれぞれによって取得された音声信号をそれぞれ出力する。
周波数分析部212は、収音部211から出力される無指向性マイクロフォン211−a,211−bそれぞれによって取得された音声信号について、所定の周波数帯域成分を生成し、出力する。ここで、周波数分析部212が出力する音声信号の周波数帯域成分における周波数帯域は、予め設定した周波数帯域とすることができる。例えば、人の声の周波数帯域の範囲内で予め設定した周波数帯域毎の音声信号における周波数帯域成分としても良い。
The
The
到来方向判定部220は、周波数分析部212から出力される無指向性マイクロフォン211−a,211−bそれぞれによって取得された音声信号の到来方向を、これら音声信号の所定の周波数帯域成分間の位相差に基づいて特定される収音領域毎に判別する。
The arrival
<音声信号の到来方向の判別>
ここで、到来方向判別部220による音声信号の到来方向の判別機能について、具体的に説明する。
図4は、本実施の形態にかかる音声処理装置を搭載した端末Aと、端末Aの2つの無指向性マイクロフォン211−a,211−bによって収音される音声(音源1〜音源3)との位置関係の一例を概念的に示す図である。端末Aは、異なる音源(音源1〜3)による異なる位置から到来する音声を無指向性マイクロフォン211−a,211−bによって収音し、これらマイクで収音した全ての音声、すなわち音源1〜3の音声を含んだ音声信号を出力する。
<Determination of direction of arrival of audio signal>
Here, the function of determining the arrival direction of the audio signal by the arrival
FIG. 4 shows a terminal A on which the sound processing apparatus according to the present embodiment is mounted, and sounds (sound
図4に示すように、異なる音源の異なる位置から到来する音声を収音する場合、端末Aの無指向性マイクロフォン211−aによって収音される音源1〜3を含んだ音声信号と無指向性マイクロフォン211−bによって収音される音源1〜3を含んだ音声信号との間には、音源の位置に応じて収音時間のずれが発生している。ここで、音源の位置と2つの無指向性マイクロフォンによって収音される音声信号との関係の概念図を図5に示す。
As shown in FIG. 4, when collecting sounds coming from different positions of different sound sources, the sound signals including
例えば、図5に示すように、音源1からの音声を無指向性マイクロフォン211−aで収音した音声波形と無指向性マイクロフォン211−bで収音した音声波形との間には収音時間差aが、音源3からの音声を無指向性マイクロフォン211−aで収音した音声波形と無指向性マイクロフォン211−bで収音した音声波形との間には収音時間差cが存在している。
このような収音時間差は、無指向性マイクロフォン211−a、211−bと音源との位置関係に応じて発生する。すなわち、無指向性マイクロフォン211−aによって収音される音声のうち、音源1からの音声については、無指向性マイクロフォン211−bよりも無指向性マイクロフォン211−aが音源1に近い位置にあることから無指向性マイクロフォン211−bで収音されるより時間aだけ早く収音され、音源3からの音声については、無指向性マイクロフォン211−bよりも遠い位置にあることから時間cだけ遅れて収音される。
For example, as shown in FIG. 5, there is a difference in sound collection time between a sound waveform obtained by collecting sound from the
Such a sound collection time difference occurs according to the positional relationship between the omnidirectional microphones 211-a and 211-b and the sound source. That is, among the sounds collected by the omnidirectional microphone 211-a, the omnidirectional microphone 211-a is closer to the
一方、音源2からの音声については、無指向性マイクロフォン211−a、211−b共に等距離の位置にあることから、同時に収音され、収音時間のずれは発生していない。
このように、音源の位置に応じて、2つの無指向性マイクロフォンが収音する音声のタイミングには時間差が発生しており、この収音タイミングのずれに基づく2つの無指向性マイクロフォンによって取得された音声信号の位相差によって、音源の位置を特定することができる。
音声到来方向判定部220は、上述の図5を参照した説明のように、無指向性マイクロフォン211−a,211−bのそれぞれによって取得された音声信号のうち、周波数分析部212から出力される各周波数成分間の位相差を抽出することにより、収音部211によって収音された音声の到来方向を判別する。
On the other hand, the sound from the
In this way, there is a time difference in the timing of the sound collected by the two omnidirectional microphones depending on the position of the sound source, and the time difference is acquired by the two omnidirectional microphones based on the difference in the sound collection timing. The position of the sound source can be specified by the phase difference between the sound signals.
The voice arrival
具体的には、例えば、音声到来方向判定部220は、収音領域を3つの領域に分割するように対応付けられた音声信号の位相差の情報を予め記憶している。音声到来方向判定部220は、無指向性マイクロフォン211−a,211−bのそれぞれによって取得された音声信号のうち、周波数分析部212から出力される周波数成分間の抽出した位相差と、予め記憶している収音領域毎に対応付けられた位相差の情報とを比較して、抽出した位相差を有する周波数成分の収音領域を判別する。
すなわち、到来方向判別部220は、収音部211によって取得された音声信号の全ての周波数成分について位相差を抽出して、抽出した位相差と予め記憶している収音領域毎に対応付けられた位相差の情報とを比較することにより、収音部2211によって収音された音声の到来方向を判別する。
Specifically, for example, the voice arrival
That is, the arrival
音量補正量導出部230は、収音部211によって取得された音声信号の到来方向毎に音量の補正量を定めた音量補正係数を導出する。
音量補正量導出部230は、到来方向判定部220によって収音領域が判別された周波数成分の音量レベルに基づいて音声信号の音量レベルを収音領域毎に推定する音量推定部231と、音量推定部231によって推定された音声信号の収音領域毎の音量レベルに基づいて収音部211によって取得された音声信号の音量に対する補正量を収音領域毎に示す音量補正係数を導出する補正係数導出部232とから構成されている。
The volume correction
The volume correction
ここで、音量補正量導出部230の音量推定部231による音声信号の収音領域毎の音量レベルの推定機能および補正係数導出部232による音声信号の音量に対する補正量を収音領域毎に示す音量補正係数の導出機能について、具体的に説明する。
Here, a sound volume level estimation function for each sound collection region of the sound signal by the sound volume estimation unit 231 of the sound volume correction
<音声信号の音量の推定>
音量推定部231は、周波数分析部212から出力される収音部211によって取得された音声信号の各周波数成分毎に音量レベルを算出する。例えば、音量推定部231は、周波数分析部212から出力される音声信号の周波数成分におけるスペクトルのエネルギーに基づいて、この周波数成分の音量レベルを導出することができ、また、音声信号の周波数成分における振幅値(電圧値)に基づいてこの周波数成分の音量レベルを導出しても良い。
<Estimation of audio signal volume>
The volume estimation unit 231 calculates a volume level for each frequency component of the audio signal acquired by the
音量推定部231は、周波数分析部212から出力される音声信号の各周波数成分における音量レベルを算出し、算出した音量レベルとこの音量レベルを有する周波数成分の到来方向とを関連付けて、音声信号の到来方向と各周波数成分における音量との関係を導出する。すなわち、音量推定部231は、音声信号の任意の周波数成分における位相差と音量レベルとの関係を、到来方向判別部220によって判別された収音領域毎に導出する。
音量推定部231は、導出した収音領域と音声信号の各周波数成分における音量レベルとの関係に基づいて、収音領域における最大音量レベルをこの収音領域における音声信号の音量として推定する。
The volume estimation unit 231 calculates the volume level of each frequency component of the audio signal output from the
The sound volume estimation unit 231 estimates the maximum sound volume level in the sound collection area as the sound signal volume in the sound collection area based on the relationship between the derived sound collection area and the sound volume level in each frequency component of the sound signal.
具体的には、例えば、音量推定部231によって推定される収音領域毎の音量は、収音領域と音声信号の各周波数成分における音量レベルとの関係の一例である図6中の実線に示すように、3つの収音領域(領域1〜3)における音声信号の周波数成分のうち、領域1における周波数成分の最大音量レベルを領域1の音声信号の音量とし、領域2、3も同様にこれら領域における周波数成分の最大音量レベルをこれら領域の音声信号の音量と推定する。
Specifically, for example, the volume for each sound collection region estimated by the sound volume estimation unit 231 is indicated by a solid line in FIG. 6 which is an example of the relationship between the sound collection region and the volume level of each frequency component of the audio signal. Thus, among the frequency components of the audio signal in the three sound collection areas (
<音量補正係数の導出>
補正係数導出部232は、音量推定部231によって推定された収音領域毎の音声信号の音量に基づいて収音領域毎に所望の音声信号が存在しているか否かを判定し、所望の音声信号が存在している収音領域それぞれの音声信号の音量を均一にするよう補正量を算出し、この補正量を収音領域毎に定めた音量補正係数を導出する。
<Derivation of volume correction coefficient>
The correction
具体的には、例えば、図6に示すように、補正係数導出部232は、音量推定部231によって推定された音声信号の収音領域毎の音量に対して所定の閾値を予め設定する。この閾値より大きい音量を有する音声信号が、収音部211によって取得された所望の音声信号と判定することができる。この閾値は、規定値として予め設定しても良く、また、収音部211によって収音された音声に含まれる周囲雑音の音量を適宜算出して周囲雑音量に応じて定めても良い。
Specifically, for example, as illustrated in FIG. 6, the correction
図6に示す例では、音量推定部231によって推定された音声信号の収音領域毎の音量のうち、領域1と領域3の音量については閾値を超えており、領域2の音量については閾値を下回っている。すなわち、補正係数推定部232は、収音領域が領域1、領域3からの音声信号には所望の音声信号が存在し、領域2からの音声信号には所望の音声信号が存在していないと判定することができる。
In the example illustrated in FIG. 6, among the sound volume for each sound collection area of the audio signal estimated by the sound volume estimation unit 231, the sound volume of the
収音領域毎に所望の音声信号が存在しているか否かを判定すると、補正係数推定部232は、所望の音声信号が存在している収音領域のうち、最も高い音量の音声信号の収音領域と他の収音領域との音声信号の音量が同一となるよう収音領域毎に音量の補正量を算出する。
例えば、図6に示す例では、補正係数導出部232は、所望の音声信号が存在している領域1と領域3に対し、音量の高い領域1の音声信号の音量に合わせるよう領域3の音声信号の音量に対する補正量を算出する。また、領域2の音声信号に対しては、閾値未満の音量であるため補正を実行しない。
When it is determined whether or not a desired sound signal exists for each sound collection area, the correction
For example, in the example illustrated in FIG. 6, the correction
すなわち、補正係数導出部232は、領域1と領域2の音声信号の音量に対する補正は行わず、領域3の音声信号の音量を領域1の音声信号の音量と同一となるよう補正する補正量を定めた音量補正係数を導出する。例えば、補正を行わない領域の補正量は1とし、補正を行う領域の補正量sは、s=(領域の最大音量)/(補正領域の音量)とすることができる。図6に示す例における領域3の音声信号の音量に対する補正量sは、s=V1/V3によって算出される。
That is, the correction
補正係数導出部232は、図6に示した領域1および領域2の音声信号の音量に対する補正量を1、領域3の音声信号の音量に対する補正量をsと定めた音量補正係数を導出する。
補正係数導出部232によって導出される音量補正係数は、補正された音量が過大な音量とならないよう、補正後の音量に制限を加えるとしても良い。例えば、補正後の音量が予め設定した限界値を超えないように音量補正係数を調整するとしても良く、導出する音量補正係数をs・α(0<α<1)として、適宜αを設定することにより補正後の音量を調整するとしても良い。
The correction
The volume correction coefficient derived by the correction
ここで、図7に補正係数導出部232によって導出される音量補正係数の一例を示す。図7に示すように、補正係数導出部232によって導出された図6に示した領域1および領域2の音声信号の音量に対する補正量を1、領域3の音声信号の音量に対する補正量をsと定めた音量補正係数を波線にて示す。図7に示すような波線で示した音量補正係数を各領域の音声信号の音量補正に適応させると、領域2と領域3の境界上の音声信号に対して不連続となる音量補正を実行することとなる。これにより、異音の発生を引き起こす可能性がある。よって、補正係数導出部232は、不連続となる音量補正が発生しないような音量補正係数を導出する。
Here, FIG. 7 shows an example of the volume correction coefficient derived by the correction
例えば、図7の実線にて示すように、領域2および領域3のそれぞれの区間の中央となる位相差が各領域の補正量となるよう線形補間することで、領域2と領域3の境界上における補正量の不連続点の解消を実現することができる。また、線形補間だけではなく、2次補間などの非線形補間を用いても良く、過去の補正量を用いて平滑化しても良い。
For example, as shown by a solid line in FIG. 7, linear interpolation is performed so that the phase difference at the center of each section of the
音量補正実行部240は、音声信号出力部210から出力される音声信号に音量補正量導出部230によって導出される音量補正係数を反映させ、収音部211によって取得された音声信号の音量を補正する。
具体的には、周波数分析部212によって出力される音声信号の所定の周波数成分と補正係数導出部232によって導出される音量補正係数とを用いて、周波数成分の音量を補正する。例えば、任意の周波数成分Xi(f,t)の音量を音量補正係数Ci(f,t)を用いて補正した周波数成分をYi(f,t)とすると、Yi(f,t)=Xi(f,t)・Ci(f,t)とすることができる。ただし、fは周波数インデックス、tは時間インデックスとする。
The volume
Specifically, the volume of the frequency component is corrected using a predetermined frequency component of the audio signal output by the
なお、本実施の形態にかかる音声処理装置20の各構成要素は、CPUやメモリ、インターフェースからなるコンピュータにコンピュータプログラム(ソフトウエア)をインストールすることによって実現され、上述した音声処理装置20の各種機能は、上記コンピュータの各種ハードウェア資源と上記コンピュータプログラムとが協働することによって実現される。
Each component of the
次に、本実施の形態にかかる音声処理装置20の音声処理動作について、図8に示すフローチャートを参照して説明する。
図8に示すように、本実施の形態にかかる音声処理装置20は、収音部211に搭載された2つの無指向性マイクロフォン211−a,211−bによって音声を収音する(S201)。
Next, the voice processing operation of the
As shown in FIG. 8, the
2つの無指向性マイクロフォン211−a,211−bそれぞれによって取得された音声信号は、周波数分析部212によって予め設定されている周波数帯域毎の周波数成分にそれぞれ分割されて出力される(S202)。
周波数分析部212から2つの無指向性マイクロフォン211−a,211−bによって取得された音声信号の各周波数成分がそれぞれ出力されると、到来方向判定部220は、所定の周波数帯域毎に出力された周波数成分のうち無指向性マイクロフォン211−aによって取得された音声信号の周波数成分と無指向性マイクロフォン211−bによって取得された音声信号の周波数成分との位相差を抽出する(S203)。
The audio signals acquired by the two omnidirectional microphones 211-a and 211-b are respectively divided into frequency components for each frequency band set in advance by the
When each frequency component of the audio signal acquired by the two omnidirectional microphones 211-a and 211-b is output from the
所定の周波数帯域毎に周波数成分の位相差を抽出すると、到来方向判定部220は、予め記憶している周波数成分の位相差と収音領域との関係および抽出した位相差に基づいて、収音部211によって取得された音声信号の各周波数成分の到来方向を予め設定された収音領域毎に判別する(S204)。
When the phase difference of the frequency component is extracted for each predetermined frequency band, the arrival
収音部211によって取得された音声信号の各周波数成分の到来方向が収音領域毎に判別されると、音量補正量導出部230は、収音領域毎に音声信号の音量を推定して収音領域毎に音声信号の音量に対する補正量を定めた音量補正係数を導出する(S205)。
When the direction of arrival of each frequency component of the audio signal acquired by the
音量補正量導出部230によって音量補正係数が導出されると、音量補正実行部240は、周波数分析部212から出力される音声信号の各周波数成分と音量補正量導出部230から出力される音量補正係数とを用いて、収音部211によって取得された音声信号の音量を収音領域毎に補正する(S206)。
When the sound volume correction coefficient is derived by the sound volume correction
このように、本実施の形態にかかる音声処理装置20は、互いに離間して設置された2つの無指向性マイクロフォンによって収音された音声に対し、所定の周波数帯域毎に分割した周波数成分間の位相差に基づいてこの周波数成分の到来方向を判別し、全ての到来方向からの音声信号の音量が均等になるよう音量の補正量を到来方向毎に導出することにより、複数の音声が重畳されている信号から複数の音声間の音量が均等になるように複数の音声の音量を補正することができる。
したがって、複数の音声が重畳された音声信号のうち、聞き取りづらい特定の音声の音量を補正することができ、聞き取りやすく音声信号を再生することが可能となる。
As described above, the
Therefore, it is possible to correct the volume of a specific sound that is difficult to hear among the sound signals on which a plurality of sounds are superimposed, and it is possible to reproduce the sound signal that is easy to hear.
また、本実施の形態にかかる音声処理装置は、無指向性マイクロフォンによって取得された複数の音声が重畳された音声信号に対し、個々の音声に分離せず、所定の周波数帯域毎に分割した周波数成分間の位相差を導出することにより音声信号の到来方向を判別し到来方向毎に音声信号の音量補正を実行することから、独立成分分析などの手法を用いて各音声を分離した後に各音声の音量補正を実行する処理よりも低演算量で且つ容易に複数の音声の音量を補正することができる。
したがって、本実施の形態にかかる音声処理装置を、汎用の端末装置や音声会議装置といった音声処理機能を有する機器に、コストを抑制し且つ消費電力を抑えて搭載することが可能となる。
In addition, the audio processing apparatus according to the present embodiment is a frequency obtained by dividing a sound signal on which a plurality of sounds acquired by an omnidirectional microphone are superimposed without being separated into individual sounds and divided into predetermined frequency bands. Since the arrival direction of the audio signal is determined by deriving the phase difference between the components and the volume of the audio signal is corrected for each arrival direction, each audio is separated after being separated using a technique such as independent component analysis. The volume of a plurality of sounds can be easily corrected with a smaller amount of computation than the process of executing the volume correction.
Therefore, the audio processing device according to the present embodiment can be mounted on a device having an audio processing function, such as a general-purpose terminal device or an audio conference device, with reduced cost and reduced power consumption.
[第3の実施の形態]
図9は、本発明における第3の実施の形態にかかる音声処理装置の構成を示すブロック図である。本実施の形態にかかる音声処理装置は、第2の実施の形態において説明した音声処理装置20の機能に、取得した音声信号の各周波数成分における音量に応じて音声信号の収音領域を適宜設定する機能をさらに加えたものである。
なお、本実施の形態にかかる音声処理装置30の構成および機能について、第2の実施の形態において説明した音声処理装置20と同一の構成および機能を有するものには同一の符号を付し、これらの詳細な説明を省略する。
[Third Embodiment]
FIG. 9 is a block diagram showing the configuration of the speech processing apparatus according to the third embodiment of the present invention. The sound processing apparatus according to the present embodiment appropriately sets the sound signal collection area of the sound signal according to the volume of each frequency component of the acquired sound signal in the function of the
In addition, about the structure and function of the
本実施の形態にかかる音声処理装置30は、図9に示すように、互いに離間して設置された2つの無指向性マイクロフォン211−a,211−bによって収音された音声の各周波数成分をそれぞれ出力する音声信号出力部210と、音声信号出力部210から出力される音声の各周波数成分の到来方向を判別する到来方向判定部320と、音声信号出力部210によって取得された音声信号の音量の到来方向に応じた補正量を導出する音量補正量導出部230と、音声信号出力部210によって出力される音声に音量補正量導出部230によって導出される音量の補正量を反映させることにより、音声の音量を補正する音量補正実行部240とから構成されている。
As shown in FIG. 9, the
上記した本実施の形態にかかる音声処理装置30の構成要素のうち、到来方向判別部320は、音声信号出力部210から出力される音声信号の周波数帯域成分間の位相差におけるこの周波数帯域成分の音量レベルに応じて収音領域を特定する収音領域特定部321をさらに備える。
Of the components of the
ここで、収音領域特定部321による収音領域の特定機能について、詳細に説明する。
収音領域特定部321は、周波数分析部212から所定の周波数帯域毎に出力される収音部211によって取得された音声信号の周波数成分のうち、無指向性マイクロフォン211−aによって取得された音声信号の周波数成分と無指向性マイクロフォン211−bによって取得された音声信号の周波数成分との位相差を抽出し、音声信号の周波数成分に対し、抽出した位相差と音量レベル(周波数成分におけるスペクトルまたは電圧値)との関係を導出する。
Here, the sound collection area specifying function by the sound collection area specifying unit 321 will be described in detail.
The sound collection region specifying unit 321 includes the sound acquired by the omnidirectional microphone 211-a among the frequency components of the sound signal acquired by the
図10に、収音領域特定部321が導出する音声信号の周波数成分における位相差と音量レベルとの関係を概念的に説明する図を示す。
収音領域特定部321は、図10に示すように、収音部211によって取得された音声信号の周波数成分毎に、抽出した位相差と音量レベルとを関連付けて記憶し(図10で示す×印)、音声信号の周波数成分における位相差と音量レベルとの関係を導出する。
FIG. 10 conceptually illustrates the relationship between the phase difference in the frequency component of the audio signal derived by the sound collection area specifying unit 321 and the volume level.
As shown in FIG. 10, the sound collection area specifying unit 321 stores the extracted phase difference and volume level in association with each frequency component of the audio signal acquired by the sound collection unit 211 (× shown in FIG. 10). The relationship between the phase difference in the frequency component of the audio signal and the volume level is derived.
収音領域特定部321は、導出した音声信号の周波数成分における位相差と音量レベルとの関係に基づいて、収音領域を特定する。
具体的には、収音部211によって取得された音声信号の各周波数成分における位相差と音量レベルの関係から、補間により求められる図10の一点波線で示すような位相差と音量レベルの関係を示す曲線を導出する。補間の方法として、スプライン補間を用いても良い。
The sound collection area specifying unit 321 specifies the sound collection area based on the relationship between the phase difference in the derived frequency component of the audio signal and the volume level.
Specifically, from the relationship between the phase difference and volume level in each frequency component of the audio signal acquired by the
収音領域特定部321は、補間により導出された音声信号の位相差と音量レベルとの関係を示す曲線の山と谷を検出し、谷を示す位相差を収音領域の境界位置と特定する。例えば、図10に示すように、位相差D1が収音領域1と領域2の境界点とし、位相差D2を領域2と領域3の境界点と特定する。
図10の例では、補間の後に谷を検出し、収音領域の境界点として特定するとしたが、演算量を削減するため、補間を実行せず近傍の値を用いて谷を検出し、収音領域の境界点として特定しても良い。
The sound collection area specifying unit 321 detects peaks and valleys of a curve indicating the relationship between the phase difference of the audio signal derived by interpolation and the volume level, and specifies the phase difference indicating the valley as the boundary position of the sound collection area. . For example, as shown in FIG. 10, the phase difference D1 is the boundary point between the
In the example of FIG. 10, valleys are detected after interpolation and specified as boundary points of the sound collection area. However, in order to reduce the amount of calculation, valleys are detected by using neighboring values without performing interpolation, and are collected. You may specify as a boundary point of a sound area.
収音領域特定部321によって収音領域が特定されると、音声補正量導出部230によって音声信号出力部210によって取得された音声信号の音量の補正量を収音領域毎に導出され、音量補正実行部240によって音声信号の音量の補正が実行される。
When the sound collection region is specified by the sound collection region specifying unit 321, the sound signal volume correction amount obtained by the sound
このように、本実施の形態にかかる音声処理装置によれば、取得した音声信号に応じて収音領域を特定してこの収音領域に応じて音声信号の音量の補正を実行することにより、収音した複数の音声の到来方向に応じて音源の到来方向を適宜特定することができる。
したがって、移動する音源に対しても音量の補正を行うことができるため、高品質な出力音声を生成することが可能となる。
As described above, according to the sound processing device according to the present embodiment, by specifying the sound collection area according to the acquired sound signal and correcting the volume of the sound signal according to the sound collection area, The arrival direction of the sound source can be appropriately specified according to the arrival directions of the collected voices.
Therefore, since the volume can be corrected even for a moving sound source, it is possible to generate high-quality output sound.
音声通話を実行する電話端末およびTV会議システムや、音声録音機能を有するICレコーダなどの録音機器に利用可能である。 The present invention can be used for a telephone terminal and a TV conference system for performing a voice call, and a recording device such as an IC recorder having a voice recording function.
10,20,30…音声処理装置、110,210…音声信号出力部、120,220,320…到来方向判定部、321…収音領域特定部、130,230…音量補正量導出部、231…音量推定部、232…補正係数導出部、140,240…音量補正実行部。
DESCRIPTION OF
Claims (6)
この音声信号出力部から出力される音声信号の前記周波数帯域成分間の位相差に基づいて前記マイクロフォンによって収集された音声の到来方向を判別する到来方向判別部と、
この到来方向判別部によって判別された到来方向に応じて前記音声信号の音量に対する補正量を導出する音量補正量導出部と、
この音量補正量導出部によって導出された前記補正量を用いて前記音声信号の音量を補正する音量補正実行部と
を備えることを特徴とする音声処理装置。 An audio signal output unit that outputs an arbitrary frequency band component among audio signals respectively acquired by a plurality of omnidirectional microphones arranged apart from each other;
A direction-of-arrival determination unit that determines a direction of arrival of sound collected by the microphone based on a phase difference between the frequency band components of the sound signal output from the sound signal output unit;
A volume correction amount derivation unit that derives a correction amount for the volume of the audio signal according to the direction of arrival determined by the direction of arrival determination unit;
A sound processing apparatus comprising: a sound volume correction execution unit that corrects a sound volume of the sound signal using the correction amount derived by the sound volume correction amount deriving unit.
前記到来方向判別部は、前記マイクロフォンによって収集される音声の到来方向を前記周波数帯域成分間の位相差に応じて特定される収音領域毎に判別し、
前記音量補正量導出部は、前記到来方向判別部によって前記収音領域を判別された前記周波数帯域成分の音量レベルに基づいて前記音声信号の音量に対する補正量を前記収音領域毎に導出する
ことを特徴とする音声処理装置。 The speech processing apparatus according to claim 1,
The arrival direction determining unit determines the arrival direction of the sound collected by the microphone for each sound collection region specified according to the phase difference between the frequency band components,
The volume correction amount deriving unit derives a correction amount for the volume of the audio signal for each sound collection region based on the volume level of the frequency band component for which the sound collection region is determined by the arrival direction determination unit. A voice processing apparatus characterized by the above.
前記到来方向判定部は、前記音声信号出力部から出力される任意の周波数帯域成分間の位相差におけるこの周波数帯域成分の音量レベルに応じて前記収音領域を特定することを特徴とする音声処理装置。 The speech processing apparatus according to claim 2, wherein
The voice direction characterized in that the arrival direction determination unit specifies the sound collection region according to a volume level of the frequency band component in a phase difference between arbitrary frequency band components output from the voice signal output unit apparatus.
この音声信号出力ステップから出力される音声信号の前記周波数帯域成分間の位相差に基づいて前記マイクロフォンによって収集された音声の到来方向を判別する到来方向判別ステップと、
この到来方向判別ステップによって判別された到来方向に応じて前記音声信号の音量に対する補正量を導出する音量補正量導出ステップと、
この音量補正量導出ステップによって導出された前記補正量を用いて前記音声信号の音量を補正する音量補正実行ステップと
を備えることを特徴とする音声処理方法。 An audio signal output step for outputting an arbitrary frequency band component among audio signals respectively acquired by a plurality of omnidirectional microphones arranged apart from each other;
A direction-of-arrival determination step of determining a direction of arrival of the sound collected by the microphone based on a phase difference between the frequency band components of the sound signal output from the sound signal output step;
A volume correction amount derivation step for deriving a correction amount for the volume of the audio signal according to the direction of arrival determined by the direction of arrival determination step;
A sound processing method comprising: a sound volume correction executing step of correcting the sound volume of the sound signal using the correction amount derived in the sound volume correction amount deriving step.
前記到来方向判別ステップは、前記マイクロフォンによって収集される音声の到来方向を前記周波数帯域成分間の位相差に応じて特定される収音領域毎に判別し、
前記音量補正量導出ステップは、前記到来方向判別ステップによって前記収音領域を判別された前記周波数帯域成分の音量レベルに基づいて前記音声信号の音量に対する補正量を前記収音領域毎に導出する
ことを特徴とする音声処理方法。 The voice processing method according to claim 4,
The direction of arrival determination step determines the direction of arrival of sound collected by the microphone for each sound collection area specified according to the phase difference between the frequency band components,
The volume correction amount derivation step derives a correction amount for the volume of the audio signal for each sound collection area based on the volume level of the frequency band component in which the sound collection area is determined by the arrival direction determination step. A voice processing method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010069732A JP2011205324A (en) | 2010-03-25 | 2010-03-25 | Voice processor, voice processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010069732A JP2011205324A (en) | 2010-03-25 | 2010-03-25 | Voice processor, voice processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011205324A true JP2011205324A (en) | 2011-10-13 |
Family
ID=44881510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010069732A Pending JP2011205324A (en) | 2010-03-25 | 2010-03-25 | Voice processor, voice processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011205324A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014085673A (en) * | 2012-10-23 | 2014-05-12 | Huwei Device Co Ltd | Method for intelligently controlling volume of electronic equipment, and mounting equipment |
US9368118B2 (en) | 2012-09-25 | 2016-06-14 | Fuji Xerox Co., Ltd. | Voice analyzer, voice analysis system, and non-transitory computer readable medium storing program |
-
2010
- 2010-03-25 JP JP2010069732A patent/JP2011205324A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9368118B2 (en) | 2012-09-25 | 2016-06-14 | Fuji Xerox Co., Ltd. | Voice analyzer, voice analysis system, and non-transitory computer readable medium storing program |
JP2014085673A (en) * | 2012-10-23 | 2014-05-12 | Huwei Device Co Ltd | Method for intelligently controlling volume of electronic equipment, and mounting equipment |
US9197177B2 (en) | 2012-10-23 | 2015-11-24 | Huawei Device Co., Ltd. | Method and implementation apparatus for intelligently controlling volume of electronic device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2755204B1 (en) | Noise suppression device and method | |
US9906882B2 (en) | Method and apparatus for wind noise detection | |
JP4912036B2 (en) | Directional sound collecting device, directional sound collecting method, and computer program | |
EP1887831A2 (en) | Method, apparatus and program for estimating the direction of a sound source | |
JP2010112996A (en) | Voice processing device, voice processing method and program | |
MX2012011203A (en) | A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal. | |
JP2010092054A (en) | Device and method for estimating noise and apparatus for reducing noise utilizing the same | |
JP5642339B2 (en) | Signal separation device and signal separation method | |
JP2010232862A (en) | Audio processing device, audio processing method and program | |
JP2008054071A (en) | Device for eliminating paper rustling noise | |
JP2010112995A (en) | Call voice processing device, call voice processing method and program | |
JPWO2020110228A1 (en) | Information processing equipment, programs and information processing methods | |
EP3220659A1 (en) | Sound processing device, sound processing method, and program | |
JP2011205324A (en) | Voice processor, voice processing method, and program | |
JP2004012151A (en) | System of estimating direction of sound source | |
US11863946B2 (en) | Method, apparatus and computer program for processing audio signals | |
JP6638248B2 (en) | Audio determination device, method and program, and audio signal processing device | |
KR101022457B1 (en) | Method to combine CASA and soft mask for single-channel speech separation | |
KR101096091B1 (en) | Apparatus for Separating Voice and Method for Separating Voice of Single Channel Using the Same | |
JP6361360B2 (en) | Reverberation judgment device and program | |
JP6631127B2 (en) | Voice determination device, method and program, and voice processing device | |
WO2023249957A1 (en) | Speech enhancement and interference suppression | |
JP7226107B2 (en) | Speaker Direction Determination Program, Speaker Direction Determination Method, and Speaker Direction Determination Device | |
JP2011030048A (en) | Electromagnetic noise canceling filter and electromagnetic noise canceling method | |
Marin-Hurtado et al. | Robust non-vad implementation of Multichannel Wiener filter for binaural noise reduction |