JP2015070292A - Sound collection/emission device and sound collection/emission program - Google Patents
Sound collection/emission device and sound collection/emission program Download PDFInfo
- Publication number
- JP2015070292A JP2015070292A JP2013199999A JP2013199999A JP2015070292A JP 2015070292 A JP2015070292 A JP 2015070292A JP 2013199999 A JP2013199999 A JP 2013199999A JP 2013199999 A JP2013199999 A JP 2013199999A JP 2015070292 A JP2015070292 A JP 2015070292A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- emission
- target
- signal
- emitted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、集音・放音装置及び集音・放音プログラムに関し、例えば、マイクロホンによる捕捉音声、捕捉音響などから、スピーカが放音した成分を除去することを欲する通信端末、オーディオ機器などに適用し得るものである。 The present invention relates to a sound collection / sound emission device and a sound collection / sound emission program, for example, in communication terminals, audio devices, and the like that want to remove components emitted by a speaker from sound captured by a microphone, captured sound, and the like. It can be applied.
例えば、スマートフォンに通話音声を入力する場合や、オーディオ機器やスマートフォンなどに音声コマンドを入力する場合などにおいては、音声が入力される機器は、利用者の口が存在すると思われる正面からの音声だけを、他の方向からの音声、音楽、雑音などと区別して抽出することが好ましい。 For example, when inputting call voice to a smartphone or inputting voice commands to an audio device or smartphone, the device to which the sound is input is only the sound from the front where the user's mouth seems to exist. Is preferably distinguished from voice, music, noise, etc. from other directions.
2つのマイクロホンに入力された音を捕捉し、入力音(電気信号)の位相差に基づいて周囲の雑音を抑圧して、所定方位(例えば正面)の音源からマイクロホンに到来する音(以下、目的音と呼ぶ)だけを分離を抽出する方式(音源分離方式)が、特許文献1に記載されている。
Sounds input to two microphones are captured, ambient noise is suppressed based on the phase difference between the input sounds (electrical signals), and sound arriving at the microphone from a sound source in a predetermined direction (for example, the front)
特許文献1に第3の実施形態として記載されている目的音の抽出方法は、マイクロホンの左右に死角を有する二つの指向性を形成して得た二つの信号の相関に応じた抑圧係数を周波数成分毎に入力音信号に乗算することにより、左右から到来する雑音成分(非目的音)を抑圧する手法である。特許文献1に第4の実施形態として記載されている目的音の抽出方法は、マイクロホンの正面に死角を有する指向性を形成し、これにより得られた信号を、左右から到来する雑音成分として入力音信号から減算することにより、左右から到来する雑音成分(非目的音)を抑圧する手法である。
The target sound extraction method described in
ところで、近年、図6に示すように、携帯端末(例えば、スマートフォンやタブレット端末)などの通信機能を有する集音機器2の両脇に、一対のスピーカ3L及び3Rを配置して接続し、このような構成で遠隔地と通話を行なう集音・放音装置1が利用されるようになってきている。また、同様な構成で、集音機器2内に記録された音楽ファイルやインターネット上の音楽配信サイトから取得した楽曲ファイルによる音(音楽)を、両脇のスピーカ3L及び3Rから放音させている状態で、利用者が、集音機器2のマイクロホン正面から発した音声によるコマンドを受ける方法も検討されている。
Incidentally, in recent years, as shown in FIG. 6, a pair of
両脇のスピーカ3L及び3Rから音楽などが放音されている状態で、正面から到来する目的音を抽出し、通話相手に発話内容を伝えたり、若しくは、音声認識処理を介して音声コマンドを認識して音声コマンドに対応する処理を実行したりする場合には、スピーカ3L、3Rから発する音などが雑音となり、通話音質や音声認識率を大きく低下させる。
In the state where music is emitted from the
そこで、上述した特許文献1の記載技術のような音源分離方式を適用し、両脇のスピーカ3L及び3Rから到来する雑音成分を抑圧し、正面からの目的音を抽出しなければならない。特許文献1に記載の音源分離方式を適用する場合には、図7に示すように、集音機器1に、2つのマイクロホン4L、4Rを搭載若しくは外付けすることを要する。
Therefore, it is necessary to apply a sound source separation method such as the technology described in
しかしながら、利用者が集音・放音装置1から音楽を放音して楽しむ場合、その音量は大きく、大きな音量の音楽が雑音成分(非目的音)としてマイクロホン4L、4Rに捕捉されるため、音源分離方式を適用して目的音を抽出したとしても、抽出した目的音信号に雑音成分が多く残ってしまう。
However, when the user enjoys the music from the sound collecting /
これを避けようとすると、利用者は、音楽の出力(放音)を停止してから、通話音声や音声コマンドなどの入力音声を発音すれば良い。しかしながら、このように出力を停止させるキー操作などを行うのであれば、音声コマンドのメリットは薄れ、キー操作などでコマンドを入力する方が簡便である。また、着信からの通話の場合、音声の出力停止操作をできないことや、出力停止操作の実行のため着信が遅れてしまうことなども生じる。 In order to avoid this, after the user stops outputting the music (sound emission), the user may pronounce the input voice such as a call voice or voice command. However, if the key operation for stopping the output is performed as described above, the merit of the voice command is reduced, and it is easier to input the command by the key operation. Further, in the case of a call from an incoming call, the voice output stop operation cannot be performed, or the incoming call is delayed due to the execution of the output stop operation.
ここで、集音・放音装置1から放音される音声、音響も様々で、それがスピーカ3L、3Rで捕捉されて、目的音に対する妨害音(非目的音)も様々である。すなわち、妨害音も音楽、音声フレーズなど様々な種類があり、妨害音の種類によっては音響特性は大きく異なる。例えば、音楽(楽曲)には、クラシック音楽からロックまで様々なジャンルの音楽が存在する。仮に、妨害音がロックであれば、音量が大きいためにSN比は劣悪になり、ドラムなどの打楽器による突発的な衝撃音が多く生じるので非定常な特性となる。一方、クラシック音楽の場合には、音量が比較的小さいため目的音とのSN比は良好で、突発的な衝撃音が生じることは少ないので定常な特性である。従って、妨害音が音声フレーズやクラシック音楽の場合には、妨害音(非目的音)に対する強力な抑圧処理をしなくても十分な抑圧効果が得られるが、ロックの場合には、大音量雑音や突発的な変動に対応できる強力な抑圧処理をしなければならない。
Here, there are various sounds and sounds emitted from the sound collection /
以上のように、妨害音(非目的音)の種類による音響特性の差を無視して一律に妨害音の抑圧処理を施すと、抑圧性能が不足する、あるいは、過剰に妨害音を抑圧することで音質が低下する、といった問題が生じる。 As described above, if the interference noise suppression process is uniformly performed ignoring the difference in acoustic characteristics depending on the type of the interference sound (non-target sound), the suppression performance is insufficient or the interference sound is excessively suppressed. This causes problems such as poor sound quality.
そのため、妨害音の種類に拘らず、所望する処理の精度を向上することができる集音・放音装置及び集音・放音プログラムが望まれている。 Therefore, there is a demand for a sound collection / sound emission device and a sound collection / sound emission program that can improve the accuracy of desired processing regardless of the type of interference sound.
第1の本発明は、少なくとも2本のマイクロホンが周囲音を捕捉する集音部と、1又は複数のスピーカから放音する放音部とを有する集音・放音装置において、(1)上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロホンで捕捉された放音に伴う妨害音を疑似した疑似妨害音信号を生成し、上記各マイクロホンからの入力音信号から減算することにより、上記各マイクロホンで捕捉された放音妨害音を除去する、音響エコーキャンセラ構成を流用している放音妨害音除去手段と、(2)上記放音妨害音除去手段内で生成された疑似放音妨害音信号に基づいて、放音妨害音の音種を判定する音種判定手段と、(3)上記音種判定手段の判定結果に応じて、自己の処理を切り替える1又は複数の音種反映処理手段とを備えることを特徴とする。 According to a first aspect of the present invention, there is provided a sound collection / sound emission device having a sound collection unit in which at least two microphones capture ambient sounds and a sound emission unit that emits sound from one or more speakers. A sound signal emitted by the sound emitting unit is input, emitted from the speaker, generates a pseudo-interference sound signal that simulates the interference sound accompanying the sound output captured by each microphone, and is input from each microphone. A sound emission disturbing sound removing means using an acoustic echo canceller configuration for removing the sound emission disturbing sound captured by each of the microphones by subtracting from the sound signal; and (2) the sound emission disturbing sound removing means. Sound type determination means for determining the sound type of the sound emission disturbing sound based on the pseudo sound emission disturbance sound signal generated in the sound source, and (3) self-processing according to the determination result of the sound type determination means. One or more sound type reflection processes to be switched Characterized in that it comprises a stage.
第2の本発明は、少なくとも2本のマイクロホンが周囲音を捕捉する集音部と、1又は複数のスピーカから放音する放音部とを有する集音・放音装置に搭載されるコンピュータが実行する集音・放音プログラムであって、上記コンピュータを、(1)上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロホンで捕捉された放音に伴う妨害音を疑似した疑似妨害音信号を生成し、上記各マイクロホンからの入力音信号から減算することにより、上記各マイクロホンで捕捉された放音妨害音を除去する、音響エコーキャンセラ構成を流用している放音妨害音除去手段と、(2)上記放音妨害音除去手段内で生成された疑似放音妨害音信号に基づいて、放音妨害音の音種を判定する音種判定手段と、(3)上記音種判定手段の判定結果に応じて、自己の処理を切り替える1又は複数の音種反映処理手段として機能させることを特徴とする。 According to a second aspect of the present invention, there is provided a computer mounted on a sound collection / sound emission device having a sound collection unit in which at least two microphones capture ambient sounds and a sound emission unit that emits sound from one or more speakers. A sound collection / sound emission program to be executed, wherein the computer is (1) a sound signal emitted by the sound emission unit is input, sound is emitted from the speaker, and is emitted by the microphones. A sound echo canceller configuration that diverts the sound emission interference sound captured by each microphone by generating a pseudo interference sound signal that simulates the accompanying interference sound and subtracting it from the input sound signal from each microphone is diverted. And (2) sound type determination means for determining the sound type of the sound emission disturbing sound based on the pseudo sound emission disturbance sound signal generated in the sound emission interference sound removing means. (3) The above sound types According to the determination result of the constant means and be made to function as one or more note type reflection processing unit switches its own processing.
本発明によれば、妨害音の種類に拘らず、所望する処理の精度を向上できる集音・放音装置及び集音・放音プログラムを実現できる。 According to the present invention, it is possible to realize a sound collection / sound emission device and a sound collection / sound emission program that can improve the accuracy of desired processing regardless of the type of interference sound.
(A)第1の実施形態
以下、本発明による集音・放音装置及び集音・放音プログラムの第1の実施形態を、図面を参照しながら説明する。
(A) First Embodiment Hereinafter, a first embodiment of a sound collecting / sound emitting device and a sound collecting / sound emitting program according to the present invention will be described with reference to the drawings.
(A−1)第1の実施形態の構成
第1の実施形態の集音・放音装置は、一対のマイクロホンが搭載され、若しくは、外付けされており、かつ、一対のスピーカが搭載され、若しくは、外付けされているものである。例えば、スマートフォンやタブレット端末などの集音機器を利用している集音・放音装置であれば、一対のマイクロホンが搭載され、一対のスピーカが外付けされて構成される。また例えば、スピーカ一体型のオーディオ機器が該当する集音・放音装置であれば、一対のマイクロホンも一対のスピーカも搭載されて構成される。以上のように、一対のマイクロホン及び一対のスピーカの接続形態は多様であるが、いずれの接続形態を適用したものであっても良い。
(A-1) Configuration of the First Embodiment The sound collection / sound emission device of the first embodiment is equipped with a pair of microphones or externally attached, and a pair of speakers. Or it is an external one. For example, in the case of a sound collecting / sound emitting device using a sound collecting device such as a smartphone or a tablet terminal, a pair of microphones is mounted and a pair of speakers are externally configured. Further, for example, if a speaker integrated audio device is a corresponding sound collecting / sound emitting device, a pair of microphones and a pair of speakers are mounted. As described above, the connection forms of the pair of microphones and the pair of speakers are various, but any connection form may be applied.
以下では、第1の実施形態の集音・放音装置は、上述した図7に示すように、一対のマイクロホンが搭載され、一対のスピーカが外付けされて構成されているとして説明を行う。また、第1の実施形態の集音・放音装置における各構成要素の符号も、図7に記述されている構成要素に関しては、図7で用いている符号をそのまま用いる。 In the following, the sound collection / sound emission device of the first embodiment will be described on the assumption that a pair of microphones are mounted and a pair of speakers are externally attached as shown in FIG. 7 described above. In addition, for the components described in FIG. 7, the symbols used in FIG. 7 are used as they are for the components in the sound collection / sound emission device of the first embodiment.
図1は、第1の実施形態の集音・放音装置10の構成を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of a sound collection /
第1の実施形態の集音・放音装置10は、ハードウェア的な各種構成要素を接続して構築されたものであっても良く、また、一部の構成要素(例えば、スピーカ、マイクロホン、アナログ/デジタル変換部(A/D変換部)、デジタル/アナログ変換部(D/A変換部)を除く部分)を、CPU、ROM、RAMなどのプログラムの実行構成を適用してその機能を実現するように構築されたものであっても良い。いずれの構築方法を適用した場合であっても、集音・放音装置10の機能的な詳細構成は、図1で表す構成となっている。なお、プログラムを適用する場合において、プログラムは、集音・放音装置10が有するメモリに装置出荷時から書き込まれているものであっても良く、また、ダウンロードによりインストールされるものであっても良い。例えば、後者の場合としては、スマートフォン用のアプリケーションとしてプログラムを用意しておき、必要とする利用者が、インターネットを介してダウンロードしてインストールする場合を挙げることができる。
The sound collection /
図1において、第1の実施形態の集音・放音装置10は、放音部20及び集音部30を有する。
In FIG. 1, the sound collection /
放音部20は、既存の放音部と同様な構成を有する。放音部20は、Lチャンネル及びRチャンネルの音源データ記憶部21L及び21R、D/A変換部22L及び22R、並びに、スピーカ3L及び3Rを有する。
The
一方、集音部30は、Lチャンネル及びRチャンネルのマイクロホン4L及び4R、並びに、A/D変換部31L及び31Rと、放音非目的音キャンセラ処理部32と、図2に詳細構成を示す音源分離処理部33とを有する。ここで、後述する音源データの入力端子を有する集音部30の全体が音源分離ユニットとして構築されて、市販に供するものであっても良い。また、A/D変換部31L、31R、放音非目的音キャンセラ処理部32及び音源分離処理部33でなる部分が、後述する音源データの入力端子を有して、音源分離ユニットとして構築され、市販に供するものであっても良い。
On the other hand, the
音源データ記憶部21L及び21Rはそれぞれ、Lチャンネル、Rチャンネル用の音源データ(デジタル信号)sigL、sigRを記憶し、図示しない放音制御部の制御下で音源データsigL、sigRを読み出して出力するものである。音源データsigL、sigRは、例えば、楽曲データであっても良く、電子書籍その他の読み上げ用などの音声データであっても良い。各音源データ記憶部21L、21Rは、CD−ROMなどの記録媒体が装填された記録媒体アクセス装置であっても良く、インターネット上のサイトなどの外部装置から通信によって取得した音源データを記憶する当該装置の記憶部によって構成されたものであっても良い。また、各音源データ記憶部21L、21Rは、例えば、USBコネクタ接続で接続される外付けの装置が該当するものであっても良い。さらに、各音源データ記憶部21L、21Rは「記憶部」とネーミングしているが、各音源データ記憶部21L、21Rの概念には、デジタル音声放送の受信機のような、受信した音源データをリアルタイムに出力する構成をも含むものとする。
The sound source
D/A変換部22L及び22Rはそれぞれ、対応する音源データ記憶部21L、21Rから出力された音源データsigL、sigRをアナログ信号に変換して対応するスピーカ3L、3Rに与えるものである。
The D /
スピーカ3L及び3Rはそれぞれ、対応するD/A変換部22L、22Rから与えられた音源信号を放音出力(発音出力)するものである。ここで、スピーカ3L及び3Rから放音出力された音響若しくは音声は、マイクロホン4R、4Lに捕捉されることを意図したものではなく、マイクロホン4R、4Lの捕捉機能から見たとき、非目的音になっている。
The
以上では、スピーカ3L、3Rから放音される音楽、音声の当初の信号形式がデジタル信号(音源データ)であるものを示したが、音源データ記憶部21L、21Rに相当する構成が、レコードプレイヤ、オーディオカセットテープレコーダ、AMやFMのラジオ受信機などであって、アナログ信号でなる音響信号や音声信号を出力するものであっても良い。この場合には、D/A変換部22L及び22Rは省略され、別途、Lチャンネル、Rチャンネル用のA/D変換部を設けて、アナログ信号の音響信号や音声信号をデジタル信号に変換して放音非目的音キャンセラ処理部32に与えることになる。
In the above, the music and sound emitted from the
マイクロホン4R及び4Lはそれぞれ、周囲音を捕捉して電気信号(アナログ信号)に変換するものである。一対のマイクロホン4R及び4Lにより、ステレオ信号が得られる。各マイクロホン4R、4Lは、当該集音・放音装置10の正面から到来する音を主として捕捉するような指向性を有するものであるが、両脇に配置されているスピーカ3L、3Rから放音された音をも捕捉するものである。なお、スピーカ3L、3Rは、一対のマイクロホン4R及び4Lの両脇に配置されることが好ましいが、この配置に限定されるものではない。
Each of the
各マイクロホン4R、4Lは、例えば、当該集音・放音装置10の筐体に設けられた筒体内に取り付けられる。ここで、筒体の内面には合成樹脂でなる遮音部材が設けられ、マイクロホン4R、4Lが取り付けられたときに、筐体の内外を音が通過する経路ができないようになされている。これにより、筐体内部で発生した雑音や、外部から筐体内部に入り込んで反射により筐体外部に出ていこうとする雑音などを、マイクロホン4R、4Lが捕捉するようなことを極力防止することができる。
The
A/D変換部31L及び31Rはそれぞれ、対応するマイクロホン4R、4Lが捕捉した入力音信号をデジタル信号inputL、inputRに変換して放音非目的音キャンセラ処理部32に与えるものである。各A/D変換部31L、31Rは、例えば、音源データsigL、sigRのサンプリングレートと同じサンプリングレートのデジタル信号に変換する。
The A /
放音非目的音キャンセラ処理部32には、音源データ記憶部21L及び21Rから出力された音源データsigL及びsigRも与えられる。ここで、放音非目的音キャンセラ処理部32に入力される4つのデジタル信号のサンプリングレートが揃っていることを要する。例えば、インターネットのサイトからダウンロードし、音源データ記憶部21L及び21Rに記憶された音源データsigL、sigRのサンプリングレートが、A/D変換部31L、31Rからのデジタル信号inputL、inputRのサンプリングレートと異なる場合には、D/A変換部22L、22Rへはダウンロードした音源データsigL、sigRをそのまま与え、放音非目的音キャンセラ処理部32へは音源データsigL、sigRのサンプリングレートを変換した音源データを与えるようにすれば良い。
The sound emission non-target sound
放音非目的音キャンセラ処理部32は、音源データ記憶部21L及び21Rから出力された音源データsigL及びsigRに基づき、入力音信号(デジタル信号)inputL、inputRに含まれている、スピーカ3L、3Rから放音されることによる非目的音成分(以下、適宜、放音非目的音と呼ぶ)を除去(若しくは軽減)し、除去処理後の入力音信号ECoutL、ECoutRを音源分離処理部33に与えるものである。
The sound emission non-target sound
ここで、スピーカ3L、3Rから放音され、マイクロホン4R、4Lによって捕捉される、目的音から見て不要な音(放音非目的音)は、電話通信において問題となっている音響エコーと同様にみなすことができる。そこで、第1の実施形態においては、放音非目的音キャンセラ処理部32を、音響エコーキャンセラの技術を流用して構成している。例えば、非特許文献1には「ステレオエコーキャンセラ」が記載されている。第1の実施形態では、放音非目的音キャンセラ処理部32として、非特許文献1の図3.71若しくは図3.75の記載のものを適用しているとする。
Here, the sound that is emitted from the
ステレオエコーキャンセラ構成の放音非目的音キャンセラ処理部32では、入力音信号inputL、inputRから、放音目的音を除去するために、内部で、疑似的な放音目的音信号(以下、疑似放音目的音信号と呼ぶ)PSechoL、PSechoRが生成されており、この第1の実施形態の場合、疑似放音目的音信号PSechoL、PSechoRも音源分離処理部33に与えられる。
In the sound emission non-target sound
音源分離処理部33は、図2に示す詳細構成を有し、放音非目的音が除去された入力音信号ECoutL、ECoutRと疑似放音目的音信号PSechoL、PSechoRとに基づき、所定方位(例えば、正面)にある音源からの目的音だけを抽出するものである。音源分離処理部33が適用している音源分離方法は、音源の方向によって特性が変化するコヒーレンス係数を適用したコヒーレンスフィルタ法である。
The sound source
図2において、音源分離処理部33は、FFT(高速フーリエ変換)部41、第1のコヒーレンス係数計算部42、第2のコヒーレンス係数計算部43、抑圧係数算出部44、抑圧係数乗算部45、IFFT(逆高速フーリエ変換)部46、コヒーレンス計算部47及び放音非目的音種判定部48を有する。
2, the sound source
FFT部41は、時間領域の信号である、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)と、疑似放音目的音信号PSechoL(n)、PSechoR(n)とをそれぞれ、周波数領域の信号XL(f,K)、XR(f,K)、YL(f,K)、YR(f,K)に変換するものである。なお、上記での「n」は時刻を表すパラメータであり、「f」は周波数を表すパラメータであり、「K」は変換に供する所定の入力サンプル数の塊を規定するフレームの順番を表すパラメータであり、説明上、明らかにしたいときに記述する。すなわち、記述していなくても、それは記述の省略であって、処理の中ではこれらパラメータは参照されている。
The
第1のコヒーレンス係数計算部42は、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)から得られた周波数領域信号XL(f,K)及びXR(f,K)に基づいて、コヒーレンス係数Xcoef(f,K)を計算するものである。
The first coherence
第2のコヒーレンス係数計算部43は、疑似放音目的音信号PSechoL(n)、PSechoR(n)から得られた周波数領域信号YL(f,K)及びYR(f,K)に基づいてコヒーレンス係数Ycoef(f,K)を計算するものである。
The second
コヒーレンス係数Xcoef(f,K)、Ycoef(f,K)の計算式として、特許文献1に記載のものを適用できる(特許文献1の(1)式、(2)式、(4)式参照)。
As the calculation formulas of the coherence coefficients Xcoef (f, K) and Ycoef (f, K), those described in
コヒーレンス計算部47は、第2のコヒーレンス係数計算部43が得た第2のコヒーレンス係数Ycoef(f,K)から、コヒーレンスCOH(K)を計算するものである。コヒーレンスCOH(K)は、特許文献1の(5)式に示すように、全M個の周波数成分毎のコヒーレンス係数Ycoef(f,K)の平均値として算出される。
The coherence calculator 47 calculates the coherence COH (K) from the second coherence coefficient Ycoef (f, K) obtained by the second
放音非目的音種判定部48は、コヒーレンス計算部47が得たコヒーレンスCOH(K)に基づいて、放音非目的音となる音源データsigL、sigRの音種を判定するものである。例えば、衝撃音を含む音源データsigL、sigRか、衝撃音をほとんど含まない音源データsigL、sigRかを判別するものである。 The sound emission non-purpose sound type determination unit 48 determines the sound type of the sound source data sigL and sigR that are the sound non-purpose sound based on the coherence COH (K) obtained by the coherence calculation unit 47. For example, it is determined whether the sound source data sigL and sigR includes impact sound, or the sound source data sigL and sigR that hardly includes impact sound.
放音非目的音種判定部48は、例えば、プログラムで実現されており、機能的には、図3に示すように、コヒーレンス受信部51、長期平均計算部52、分散計算部53、判定部54及び判定結果出力部55を有する。
The sound emission non-purpose sound type determination unit 48 is realized by a program, for example, and functionally, as shown in FIG. 3, a
コヒーレンス受信部51は、コヒーレンス計算部47が得たコヒーレンスCOH(K)を取り込むものである。
The
長期平均計算部52は、コヒーレンスCOH(K)の長期平均値avecoh(K)を、例えば、(1)式に従って計算するものであり、分散計算部53は、一般的な分散の計算式に従ってコヒーレンスCOH(K)の分散varを計算するものである。
The long-term
avecoh(k)
=β×COH(K)+(1−β)×COH(K−1)
但し、βは0.0<β<1.0の範囲の値 …(1)
判定部54は、コヒーレンスCOH(K)の長期平均値avecoh(K)と分散varとから、放音非目的音となる音源データsigL、sigRの音種を判定するものである。判定部54は、例えば、長期平均値avecoh(K)が予め設定されている閾値を超え、かつ、分散varが予め設定されている閾値を超えている場合に、音源データsigL、sigRが衝撃音を含むものであると判定し、長期平均値avecoh(K)及び分散varの組み合わせが上記以外の場合に、音源データsigL、sigRが衝撃音を含まないものであると判定する。
avecoh (k)
= Β × COH (K) + (1−β) × COH (K−1)
However, β is a value in the range of 0.0 <β <1.0 (1)
The
判定結果出力部55は、得られた音種の判定結果を、抑圧係数算出部44に与えるものである。
The determination
図4は、音源データsigL、sigRの楽曲が、変化が穏やかなクラシックの場合と衝撃音を含む変化が激しいロックの場合に得られたコヒーレンスCOH(K)の時間変化を示している。クラシックの場合には、コヒーレンスCOH(K)の長期平均値は小さく分散も小さい。ロックの場合には、衝撃音部分が長期平均値を引き上げると共に、分散を大きくしている。そのため、コヒーレンスCOH(K)の長期平均値及び分散に基づいて、音源データsigL、sigRが衝撃音を含むものであるか否かを判定することができる。 FIG. 4 shows temporal changes in coherence COH (K) obtained when the music of the sound source data sigL and sigR is a classical music with a gentle change and a rock with a strong change including an impact sound. In the case of classic, the long-term average value of coherence COH (K) is small and the variance is also small. In the case of rock, the impact sound part raises the long-term average value and increases the dispersion. Therefore, based on the long-term average value and variance of the coherence COH (K), it can be determined whether or not the sound source data sigL and sigR includes an impact sound.
抑圧係数算出部44は、2つのコヒーレンス係数Xcoef(f,K)及びYcoef(f,K)から、非目的音を抑圧する抑圧係数NRcoef(f,K)を算出して抑圧係数乗算部45に与えるものである。抑圧係数算出部44は、放音非目的音種判定部48の判定結果に応じて、抑圧係数NRcoef(f,K)の算出方法を切り替えるものである。
The suppression coefficient calculation unit 44 calculates a suppression coefficient NRcoef (f, K) for suppressing the non-target sound from the two coherence coefficients Xcoef (f, K) and Ycoef (f, K), and supplies the suppression
例えば、抑圧係数算出部44は、放音非目的音種判定部48の判定結果が、音源データsigL、sigRは衝撃音を含むという結果のときには、(2)式に従って抑圧係数NRcoef(f,K)を算出し、一方、放音非目的音種判定部48の判定結果が、音源データsigL、sigRは衝撃音を含まないという結果のときには、第1のコヒーレンス係数計算部42が得たコヒーレンス係数Xcoef(f,K)をそのまま抑圧係数NRcoef(f,K)とする。衝撃音の有無に対し、これ以外の対応であっても良い。例えば、抑圧係数算出部44は、衝撃音の有無に応じて、(2)式におけるαを切り替えるようにしても良い(なお、衝撃音を含む場合の方がαを大きくする)。
For example, when the determination result of the sound emission non-target sound type determination unit 48 is that the sound source data sigL and sigR include impact sound, the suppression coefficient calculation unit 44 suppresses the suppression coefficient NRcoef (f, K) according to the equation (2). On the other hand, when the determination result of the sound emission non-target sound type determination unit 48 is that the sound source data sigL and sigR do not include an impact sound, the coherence coefficient obtained by the first coherence
NRcoef(f,K)
=Xcoef(f,K)−α×Ycoef(f,K)
但し、αは0.0<α≦1.0の範囲の値 …(2)
抑圧係数乗算部45は、放音非目的音が除去された入力音信号から得られた一方の周波数領域信号XL(f,K)に対し、(3)式に示すように、抑圧係数NRcoef(f,K)を乗算して非目的音が除去された周波数領域信号(言い換えると、目的音の周波数領域信号)Z(f,K)を得るものである。
NRcoef (f, K)
= Xcoef (f, K)-[alpha] * Ycoef (f, K)
However, α is a value in the range of 0.0 <α ≦ 1.0 (2)
The suppression
Z(f,K)=XL(f,K)×NRcoef(f、K) …(3)
IFFT部46は、周波数領域信号である非目的音抑圧信号Z(f、K)を時間領域信号z(n)に変換するものである。後段回路が、周波数領域信号Z(f、K)をそのまま処理できる構成であれば、IFFT部46は省略することができる。
Z (f, K) = XL (f, K) × NRcoef (f, K) (3)
The
放音非目的音キャンセラ処理部32も、音源分離処理部33と同様に、非目的音の除去機能を有するものである。音源分離処理部33に加えて、放音非目的音キャンセラ処理部32を設けるようにしたのは、以下の理由による。すなわち、非目的音を一括して捉えるのではなく、放音非目的音及び背景非目的音を区別し、それぞれに適した除去方法を考慮し、放音非目的音を放音非目的音キャンセラ処理部32で除去し、背景非目的音を音源分離処理部33で除去することとした。すなわち、音源分離処理部33の前処理部として放音非目的音キャンセラ処理部32を設け、音源分離処理部33が不得手なLチャンネルとRチャンネルの相関が強い非目的音成分を放音非目的音キャンセラ処理部32で予め抑圧しておくことにより、音源分離処理部33の機能を十分に発揮させると同時に、放音非目的音キャンセラ処理部32で抑圧しきれなかった非目的音成分を音源分離処理部33で抑圧し、音源分離処理部33を単体で適用するよりもはるかに高性能な非目的音の抑圧性能を得るようにしている。
Similarly to the sound source
音源分離処理部33の音源分離方法としてコヒーレンスフィルタ法を単に適用する場合であれば、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)から非目的音の抑圧に用いる抑圧係数を得るようにすれば良い。この実施形態において、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)だけでなく、疑似放音目的音信号PSechoL(n)、PSechoR(n)をも適用して、非目的音の抑圧に用いる抑圧係数NRcoef(f,K)を得ている。このようにしたのは、以下の理由による。
If the coherence filter method is simply applied as the sound source separation method of the sound source
スピーカ3L、3Rから放音される放音音が、例えば、楽曲であって、打楽器の音のような突発的に全周波数に成分を有する衝撃音(例えば、ロックにおけるドラムの音)が含まれる場合、放音非目的音キャンセラ処理部32(の適応フィルタ)における追従が間に合わず、放音非目的音を十分に抑圧できない。また、衝撃音は、全周波数に成分を有するため、その到来方位が正面ではなくても、左右のスピーカ3L、3Rから放音された音同士が強い相関を有し、恰も正面から到来するような特性を有する。そのため、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)だけから非目的音の抑圧に用いる抑圧係数を得た場合には、放音非目的音が衝撃音のときに、放音非目的音の除去が不十分となる。
The sound emitted from the
このような不都合を回避するために、疑似放音目的音信号PSechoL、PSechoRも非目的音の抑圧に用いる抑圧係数NRcoefの形成に用いることとした。 In order to avoid such an inconvenience, the pseudo sound emission target sound signals PSechoL and PSechoR are also used to form the suppression coefficient NRcoef used for suppressing the non-target sound.
放音非目的音キャンセラ処理部32で算出される疑似放音目的音信号PSechoL、PSechoRは、音源データsigL、sigRにスピーカ3L、3Rからマイクロホン4L、4Rまでの伝達特性を畳み込んだ信号であるので、マイクロホン4L、4Rが捕捉した入力音信号inputL、inputRに含まれる妨害音成分と近い特性を有していると言える。従って、疑似放音目的音信号PSechoL、PSechoR、あるいは、疑似放音目的音信号PSechoL、PSechoRから得られる特徴量を参照にすることで、衝撃音への抑圧性能を高めることが期待できる。
The pseudo sound emission target sound signals PSechoL and PSechoR calculated by the sound emission non-target sound
そのため、第1の実施形態においては、疑似放音目的音信号PSechoL、PSechoRも、非目的音の抑圧に用いる抑圧係数NRcoefの形成に用いることとした。 Therefore, in the first embodiment, the pseudo sound emission target sound signals PSechoL and PSechoR are also used to form the suppression coefficient NRcoef used for suppressing the non-target sound.
次に、疑似放音目的音信号PSechoL、PSechoRを非目的音の抑圧に用いる抑圧係数NRcoefの形成に用いることができることを、より具体的に説明する。 Next, it will be described in more detail that the pseudo sound emission target sound signals PSechoL and PSechoR can be used to form the suppression coefficient NRcoef used for suppressing the non-target sound.
第1の実施形態が想定する機器構成(上述した図6、図7参照)を考慮すると、妨害音が正面から到来することはあり得ない。この挙動を、特許文献1に記載のコヒーレンスのような到来方位と直結する特徴量の挙動と対応付けると、妨害音は、正面から到来する目的音と同等以上のコヒーレンス値をとらないと言うことができる。しかし、上述した通り、妨害音に衝撃音が含まれる場合には、左右のスピーカ3L、3Rから放音される妨害音同士の相関が著しく増し、妨害音であるにも拘わらす、正面から到来するかのような挙動をする。つまり、衝撃音が含まれる場合の妨害音のコヒーレンス値は目的音と同等以上の値となる。従って、妨害音の到来方位に応じて雑音抑圧ゲインを設定するコヒーレンスフィルタ法では、十分に妨害音を抑圧できない。ところで、疑似放音目的音信号PSechoL、PSechoRは、放音されれば放音非目的音となる音源データsigL、sigRに、スピーカ3L、3Rからマイクロホン4L、4Rまでの伝達特性を畳み込んだ音なので、目的音成分は含まず、両脇のスピーカ3L、3Rから到来する妨害音成分だけに由来する信号である。よって、2つの疑似放音目的音信号PSechoL、PSechoRから得られるコヒーレンス値のレンジは、目的音のレンジより小さく、仮に、妨害音源データsigL、sigRに衝撃音が含まれている場合には、疑似放音目的音信号PSechoL、PSechoRのコヒーレンスが大きくなる。逆に言えば、疑似放音目的音信号PSechoL、PSechoRのコヒーレンスの急増によって衝撃音の発生を検出することができる。疑似放音目的音信号PSechoL、PSechoRから得られたコヒーレンスフィルタ係数Ycoefを参照することで、衝撃音の成分を周波数毎に取得することができる。放音非目的音キャンセラ処理部32から出力された放音非目的音が除去された入力音信号ECoutL、ECoutRから得たコヒーレンスフィルタ係数Xcoefを、疑似放音目的音信号PSechoL、PSechoRから得られたコヒーレンスフィルタ係数Ycoefで(2)式に示すように調整することにより、衝撃音に由来する成分をコヒーレンスフィルタ係数から除去し、より正確な抑圧係数Zcoefを算出することができる。
Considering the device configuration assumed by the first embodiment (see FIGS. 6 and 7 described above), no disturbing sound can come from the front. When this behavior is associated with the behavior of the feature quantity directly linked to the arrival direction such as the coherence described in
また、コヒーレンスは、信号レベルで正規化されている周波数成分毎のコヒーレンス係数を平均したものであるので、放音非目的音の音量に影響を受けずに算出できる。従って、ロックとクラシックのような音量が大きく異なる楽曲同士であっても、音量に依存せずに特性を比較でき、音量が大きいクラシックを誤ってロックと判定するようなことを極力排除することができる。 Further, since the coherence is an average of the coherence coefficients for each frequency component normalized by the signal level, it can be calculated without being influenced by the volume of the emitted non-target sound. Therefore, even between songs such as rock and classical music with greatly different volumes, the characteristics can be compared without depending on the volume, and it is possible to eliminate as much as possible that the classical music with a large volume is erroneously determined to be rock. it can.
(2)式は、音源データsigL、sigRが衝撃音を含む場合の音源分離の精度低下を防止する工夫を有するものであるが、音源データsigL、sigRが衝撃音を含まない場合に、その工夫が却って精度に影響する恐れがある。 The expression (2) has a contrivance to prevent a reduction in accuracy of sound source separation when the sound source data sigL and sigR includes impact sound. However, when the sound source data sigL and sigR do not include impact sound, the contrivance is obtained. However, the accuracy may be affected.
そこで、この実施形態においては、放音非目的音となる音源データsigL、sigRが衝撃音を含むか否かに応じて、非目的音の抑圧係数の算出方法((2)式を適用するか否か)を切り替えて、音源データsigL、sigRが衝撃音を含むか否かに拘わらず、音源分離精度を高めるようにした。 Therefore, in this embodiment, the calculation method of the suppression coefficient for the non-target sound (equation (2)) is applied depending on whether the sound source data sigL and sigR that are the sound non-target sound include the impact sound. The sound source separation accuracy is improved regardless of whether the sound source data sigL and sigR include impact sound.
(A−2)第1の実施形態の動作
次に、第1の実施形態の集音・放音装置10の動作を説明する。以下では、音源データが楽曲データであり、目的音が、集音・放音装置10の正面に位置する利用者が発音した音声であるとして、適宜、説明する。
(A-2) Operation of the First Embodiment Next, the operation of the sound collection /
各音源データ記憶部21L、21Rから読み出された音源データ(楽曲データ)はそれぞれ、対応するD/A変換部22L、22Rによってアナログ信号に変換された後、各スピーカ3L、3Rから放音される。このような音楽が当該集音・放音装置10から流れているときに、利用者が当該集音・放音装置10に向かって発音した音声は、両マイクロホン4L及び4Rによって捕捉される。この際、スピーカ3L、3Rからの音楽も流れているため、スピーカ3Lからの音楽も両マイクロホン4L及び4Rによって捕捉され、スピーカ3Rからの音楽も両マイクロホン4L及び4Rによって捕捉される。さらに、周囲の背景雑音(エアコンの駆動音、近くを走行する車両からの走行音など)も、両マイクロホン4L及び4Rによって捕捉される。
The sound source data (music data) read from the sound source
すなわち、各マイクロホン4L、4Rが捕捉して得た入力音信号には、利用者の音声という目的音以外に、自装置が放音した音楽という放音非目的音や、背景雑音などの非目的音(背景非目的音)が含まれている。
In other words, the input sound signals obtained by the
各マイクロホン4L、4Rが捕捉して得た入力音信号はそれぞれ、対応するA/D変換部31L、31Rによってデジタル信号inputL、inputRに変換されて放音非目的音キャンセラ処理部32に与えられる。放音非目的音キャンセラ処理部32には、音源データsigL及びsigRも与えられる。
Input sound signals obtained by the
放音非目的音キャンセラ処理部32においては、Lチャンネルに係る入力音信号(デジタル信号)inputLから、内部で生成した疑似放音目的音信号PSechoLを減算することにより、放音非目的音が除去された入力音信号ECoutLが得られ、同様に、Rチャンネルに係る入力音信号(デジタル信号)inputRから、内部で生成した疑似放音目的音信号PSechoRを減算することにより、放音非目的音が除去された入力音信号ECoutRが得られる。このようにして得られた放音非目的音が除去された一対に入力音信号ECoutL、ECoutRが、内部生成の一対の疑似放音目的音信号PSechoL、PSechoRと共に、音源分離処理部33に与えられる。
In the sound non-target sound
音源分離処理部33においては、FFT部41によって、時間領域信号である、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)と、疑似放音目的音信号PSechoL(n)、PSechoR(n)とがそれぞれ、周波数領域信号XL(f,K)、XR(f,K)、YL(f,K)、YR(f,K)に変換される。
In the sound source
そして、第1のコヒーレンス係数計算部42によって、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)から得られた周波数領域信号XL(f,K)及びXR(f,K)に基づいて、コヒーレンス係数Xcoef(f,K)が計算され、第2のコヒーレンス係数計算部43によって、疑似放音目的音信号PSechoL(n)、PSechoR(n)から得られた周波数領域信号YL(f,K)及びYR(f,K)に基づいてコヒーレンス係数Ycoef(f,K)が計算される。
Then, the first coherence
その後、コヒーレンス計算部47によって、第2のコヒーレンス係数計算部43が得た第2のコヒーレンス係数Ycoef(f,K)から、コヒーレンスCOH(K)が計算され、放音非目的音種判定部48によって、コヒーレンスCOH(K)の挙動に基づいて、放音非目的音となる音源データsigL、sigRが、衝撃音を含むか否かが判定され、その判定結果が抑圧係数算出部44に与えられる。
Thereafter, the coherence calculation unit 47 calculates the coherence COH (K) from the second coherence coefficient Ycoef (f, K) obtained by the second coherence
抑圧係数算出部44において、音源データは衝撃音を含むという判定結果が与えられると、上述した(2)式に従って抑圧係数NRcoef(f,K)が算出され、一方、音源データは衝撃音を含まないという判定結果が与えられると、第1のコヒーレンス係数計算部42が得たコヒーレンス係数Xcoef(f,K)がそのまま抑圧係数NRcoef(f,K)とされる。そして、抑圧係数乗算部45によって、放音非目的音が除去された入力音信号から得られた一方の周波数領域信号XL(f,K)に抑圧係数NRcoef(f,K)が周波数成分毎に乗算されて非目的音が除去された周波数領域信号Z(f,K)が得られる。この周波数領域信号である非目的音抑圧信号Z(f、K)をIFFT部46によって時間領域信号z(n)に変換することにより、目的音成分だけを含む出力信号output(=z(n))が得られる。
When the suppression coefficient calculation unit 44 gives a determination result that the sound source data includes an impact sound, the suppression coefficient NRcoef (f, K) is calculated according to the above-described equation (2), while the sound source data includes the impact sound. If the determination result is given, the coherence coefficient Xcoef (f, K) obtained by the first
(A−3)第1の実施形態の効果
第1の実施形態によれば、非目的音を一括して捉えるのではなく、放音非目的音及び背景非目的音に区別し、さらに放音非目的音については音種を判定し、それぞれに適した除去処理を適用して除去して目的音を抽出するようにしたので、目的音の抽出精度を非常に高いものとすることができる。
(A-3) Effects of the First Embodiment According to the first embodiment, the non-target sounds are not collectively captured, but are classified into the sound non-target sounds and the background non-target sounds, and the sound is further emitted. Since the target sound is extracted by determining the sound type of the non-target sound and applying the removal process suitable for each non-target sound, the target sound extraction accuracy can be made extremely high.
その結果、例えば、抽出した目的音成分である音声を通話に用いた場合には通話音質を高めることができ、抽出した目的音成分である音声を音声認識に供する場合には認識率を高めることができる。 As a result, for example, when the voice that is the extracted target sound component is used for a call, the call sound quality can be improved, and when the voice that is the extracted target sound component is used for voice recognition, the recognition rate is increased. Can do.
(B)第2の実施形態
次に、本発明による集音・放音装置及び集音・放音プログラムの第2の実施形態を、第1の実施形態との差異を中心に説明する。
(B) Second Embodiment Next, a second embodiment of the sound collecting / sound emitting apparatus and sound collecting / sound emitting program according to the present invention will be described focusing on differences from the first embodiment.
図5は、第2の実施形態の放音非目的音キャンセラ処理部(以下、符号32Aを用いる)の詳細構成を示すブロック図である。
FIG. 5 is a block diagram illustrating a detailed configuration of a sound emission non-target sound canceller processing unit (hereinafter,
図5において、放音非目的音キャンセラ処理部32Aは、4つの擬似放音非目的音生成部61LL〜61RRと、4つの減算部62LL〜62RRとを有している。
In FIG. 5, the sound emission non-purpose sound
上述したように、スピーカ3L、3Rから放音され、マイクロホン4R、4Lによって捕捉される放音非目的音は、電話通信において問題となっている音響エコーと同様にみなすことができる。第2の実施形態においては、放音非目的音キャンセラ処理部32Aを、モノラルエコーキャンセラの技術を4つ適用して構成した。なお、図4に示すような構成もステレオエコーキャンセラの範疇に属すると捉えることができる(非特許文献1の図3.73参照)。
As described above, the non-target sound emitted from the
擬似放音非目的音生成部61LLは、Lチャンネルの入力音信号inputLに含まれている、スピーカ3Lから放音されてマイクロホン4Lで捕捉された放音非目的音を擬似した擬似放音非目的音を音源データsigLに基づいて生成し、減算部62LLは、Lチャンネルの入力音信号inputLから、擬似放音非目的音生成部61LLが生成した擬似放音非目的音を減算し、Lチャンネルの入力音信号inputLから、スピーカ3Lから放音されてマイクロホン4Lで捕捉された放音非目的音の成分を除去するものである。
The simulated sound emission non-purpose sound generation unit 61LL simulates the sound emission non-purpose sound that is included in the L channel input sound signal inputL and is emitted from the
擬似放音非目的音生成部61RLは、Lチャンネルの入力音信号inputLに含まれている、スピーカ3Rから放音されてマイクロホン4Lで捕捉された放音非目的音を擬似した擬似放音非目的音を音源データsigRに基づいて生成し、減算部62RLは、擬似放音非目的音生成部61LLの出力音信号から、擬似放音非目的音生成部61RLが生成した擬似放音非目的音を減算し、擬似放音非目的音生成部61LLの出力音信号から、スピーカ3Rから放音されてマイクロホン4Lで捕捉された放音非目的音の成分を除去するものである。
The simulated sound emission non-purpose sound generation unit 61RL simulates the sound emission non-purpose sound that is included in the L channel input sound signal inputL and is emitted from the
これにより、擬似放音非目的音生成部61RLから出力された入力音信号ECoutLは、入力音信号inputLから、スピーカ3Lから放音されてマイクロホン4Lで捕捉された放音非目的音の成分と、スピーカ3Rから放音されてマイクロホン4Lで捕捉された放音非目的音の成分とが除外されたものとなる。
As a result, the input sound signal ECoutL output from the simulated sound emission non-purpose sound generation unit 61RL is emitted from the input sound signal inputL and emitted from the
擬似放音非目的音生成部61LRは、Rチャンネルの入力音信号inputRに含まれている、スピーカ3Lから放音されてマイクロホン4Rで捕捉された放音非目的音を擬似した擬似放音非目的音を音源データsigLに基づいて生成し、減算部62LRは、Rチャンネルの入力音信号inputRから、擬似放音非目的音生成部61LRが生成した擬似放音非目的音を減算し、Rチャンネルの入力音信号inputRから、スピーカ3Lから放音されてマイクロホン4Rで捕捉された放音非目的音の成分を除去するものである。
The pseudo sound emission non-purpose sound generation unit 61LR simulates the sound non-purpose sound that is emitted from the
擬似放音非目的音生成部61RRは、Rチャンネルの入力音信号inputLに含まれている、スピーカ3Rから放音されてマイクロホン4Rで捕捉された放音非目的音を擬似した擬似放音非目的音を音源データsigRに基づいて生成し、減算部62RRは、擬似放音非目的音生成部61LRの出力音信号から、擬似放音非目的音生成部61RRが生成した擬似放音非目的音を減算し、擬似放音非目的音生成部61LRの出力音信号から、スピーカ3Rから放音されてマイクロホン4Rで捕捉された放音非目的音の成分を除去するものである。
The simulated sound emission non-purpose sound generation unit 61RR simulates the sound emission non-purpose sound that is included in the R channel input sound signal inputL and is emitted from the
これにより、擬似放音非目的音生成部61RRから出力された入力音信号ECoutRは、入力音信号inputRから、スピーカ3Lから放音されてマイクロホン4Rで捕捉された放音非目的音の成分と、スピーカ3Rから放音されてマイクロホン4Rで捕捉された放音非目的音の成分とが除外されたものとなる。
As a result, the input sound signal ECoutR output from the simulated sound emission non-purpose sound generation unit 61RR is emitted from the input sound signal inputR and emitted from the
擬似放音非目的音生成部61LL〜61RRはそれぞれ、音響エコーキャンセラで利用されているような適応フィルタによって構成される。これら適応フィルタが適用する適応アルゴリズムは限定されないが、例えば、学習同定アルゴリズムを適用することができる。 Each of the simulated sound emission non-target sound generation units 61LL to 61RR is configured by an adaptive filter used in an acoustic echo canceller. Although the adaptive algorithm which these adaptive filters apply is not limited, for example, a learning identification algorithm can be applied.
モノラルエコーキャンセラを用いる場合、スピーカ3L、3Rとマイクロホン4L、4Rが二つずつあるため音響経路の混雑が生じ、音響経路特性を正確に推定できず十分な抑圧効果が得られない場合がある。
When a monaural echo canceller is used, there are two
そこで、音源データsigL、sigRの再生に先立ち、ホワイトノイズをスピーカ3Lだけから放音して、スピーカ3Lからマイクロホン4Lまでの音響経路特性HLLとスピーカ3Lからマイクロホン4Rまでの音響経路特性HLRを、擬似放音非目的音生成部61LL及び61LR(の適応フィルタ)が推定し、次に、ホワイトノイズをスピーカ3Rだけから放音し、スピーカ3Rからマイクロホン4Lまでの音響経路特性HRLとスピーカ3Rからマイクロホン4Rまでの音響経路特性HRRを擬似放音非目的音生成部61RL及び61RR(の適応フィルタ)が推定し、初期設定しておく。
Therefore, prior to reproduction of the sound source data sigL and sigR, white noise is emitted only from the
これ以降、4つの音響経路特性と対応する音源データsigL、sigRとを畳み込むことで得た疑似放音非目的音信号を、マイクロホン4L、4Rが捕捉した入力音信号から減算することで放音非目的音を抑圧することができる。
Thereafter, the pseudo sound emission non-target sound signal obtained by convolving the four sound path characteristics and the corresponding sound source data sigL and sigR is subtracted from the input sound signal captured by the
この際、放音非目的音種判定部48(図2参照)による音源データsigL、sigRの音種の判定結果が、擬似放音非目的音生成部61LL〜61RRに与えられて利用される。各擬似放音非目的音生成部61LL〜61RRはそれぞれ、音種の判定結果に応じて、適応フィルタのステップサイズを変更する。各擬似放音非目的音生成部61LL〜61RRはそれぞれ、衝撃音を含む音源データの場合には、衝撃音を含まない音源データの場合に比較して、ステップサイズを小さくして追従性を速めるようにする。 At this time, the sound type determination results of the sound source data sigL and sigR by the sound emission non-purpose sound type determination unit 48 (see FIG. 2) are given to the pseudo sound emission non-purpose sound generation units 61LL to 61RR and used. Each of the simulated sound emission non-purpose sound generation units 61LL to 61RR changes the step size of the adaptive filter according to the sound type determination result. Each of the pseudo sound emission non-target sound generation units 61LL to 61RR has a smaller step size and quicker follow-up in the case of sound source data including impact sound than in the case of sound source data not including impact sound. Like that.
第2の実施形態によっても、非目的音を一括して捉えるのではなく、放音非目的音及び背景非目的音に区別し、さらに放音非目的音については音種を判定し、それぞれに適した除去処理を適用して除去して目的音を抽出するようにしたので、目的音の抽出精度を非常に高いものとすることができる。 Also according to the second embodiment, the non-target sounds are not collectively captured, but are classified into the emitted non-purpose sounds and the background non-purpose sounds, and the sound types are determined for the emitted non-purpose sounds. Since the target sound is extracted by applying a suitable removal process, the target sound can be extracted with very high accuracy.
その結果、例えば、抽出した目的音成分である音声を通話に用いた場合には通話音質を高めることができ、抽出した目的音成分である音声を音声認識に供する場合には認識率を高めることができる。 As a result, for example, when the voice that is the extracted target sound component is used for a call, the call sound quality can be improved, and when the voice that is the extracted target sound component is used for voice recognition, the recognition rate is increased. Can do.
(C)他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
(C) Other Embodiments In the description of each of the above-described embodiments, various modified embodiments have been referred to. However, modified embodiments as exemplified below can be given.
上記各実施形態では、抑圧係数計算部44が、必要に応じて、(2)式によって抑圧係数を算出するものを示したが、抑圧係数が小さくなり過ぎないように、(2)式の演算後にフロアリング処理を施すようにしても良い。このようにすると、過剰抑圧による音質低下を防ぐことができる。 In each of the above embodiments, the suppression coefficient calculation unit 44 calculates the suppression coefficient according to the expression (2) as necessary. However, the calculation of the expression (2) is performed so that the suppression coefficient does not become too small. You may make it perform a flooring process later. In this way, it is possible to prevent deterioration in sound quality due to excessive suppression.
上記各実施形態では、音種の判定が、音源データが衝撃音を含むか否かの判定であったが、衝撃音を強く含む、弱く含む、含まないなどの3種類以上の判定であっても良く、この場合には、衝撃音の含み方によって(2)式における係数αを切り替えるようにしても良い。3種類の判定方法としては、長期平均と比較する閾値を2つとすると共に、分散と比較する閾値を2つとし、長期平均も分散も大きい方の閾値を超過している場合に、衝撃音を強く含むと判定し、長期平均も分散も小さい方の閾値以下の場合に、衝撃音を含まないと判定し、上述した2つの場合以外を、衝撃音を弱く含むと判定する方法を挙げることができる。 In each of the above embodiments, the determination of the sound type is a determination of whether or not the sound source data includes an impact sound, but there are three or more types of determinations such as whether the impact sound is strongly included, weakly included, or not included. In this case, the coefficient α in the equation (2) may be switched depending on how the impact sound is included. The three types of determination methods include two thresholds to be compared with the long-term average and two thresholds to be compared with the variance, and if the long-term average and the variance are larger, the impact sound is It is determined that the sound is strongly included, and when the long-term average and the variance are less than the smaller threshold value, it is determined that the sound is not included, and except for the two cases described above, the method is determined that the sound is weakly included. it can.
上記各実施形態では、第1のコヒーレンス係数を、第2のコヒーレンス係数を利用して修正する演算式が(2)式に示す減算であるものを示したが、他の演算式(関数)を適用して、第2のコヒーレンス係数を利用して第1のコヒーレンス係数を修正するようにしても良い。例えば、第1のコヒーレンス係数を、第2のコヒーレンス係数を係数倍した値で除算して抑圧係数を算出するようにしても良い。 In each of the above embodiments, the arithmetic expression for correcting the first coherence coefficient using the second coherence coefficient is the subtraction shown in the expression (2), but other arithmetic expressions (functions) are The first coherence coefficient may be corrected by applying the second coherence coefficient. For example, the suppression coefficient may be calculated by dividing the first coherence coefficient by a value obtained by multiplying the second coherence coefficient by a coefficient.
上記各実施形態では、放音非目的音(妨害音)の判定に用いる特徴量がコヒーレンスの分散及び長期平均値であるものを示したが、図3に示すような挙動を区別できるものであれば、他の統計量を用いるようにしても良い。例えば、コヒーレンスの最大値を平均値で割った値若しくは変動係数(=標準偏差/平均値)を特徴量として用いるようにしても良い。 In each of the above-described embodiments, the characteristic amount used for the determination of the sound emission non-target sound (interfering sound) is the coherence variance and the long-term average value. However, if the behavior as shown in FIG. 3 can be distinguished. For example, other statistics may be used. For example, a value obtained by dividing the maximum coherence value by the average value or a coefficient of variation (= standard deviation / average value) may be used as the feature amount.
また、コヒーレンスではなく、全てではない1又は複数の周波数成分のコヒーレンス係数を用いて特徴量を算出するようにしても良い。さらに、コヒーレンス係数やコヒーレンスを演算することなく、疑似放音非目的音信号のパワー変化等に基づいて、衝撃音の有無や衝撃音の混入段階を判別するようにしても良い。さらにまた、判定に用いる特徴量は、疑似放音非目的音信号から得られる特徴量に限定されない。例えば、疑似放音非目的音信号から得られる特徴量に代え、若しくは、疑似放音非目的音信号から得られる特徴量に加え、放音非目的音キャンセラ処理部から出力された、放音非目的音が除去された入力音信号から得られる特徴量を、放音非目的音の音種の判定に用いるようにしても良い。 Further, the feature amount may be calculated using not the coherence but the coherence coefficient of one or a plurality of frequency components that are not all. Furthermore, the presence / absence of an impact sound and the stage where the impact sound is mixed may be determined based on the power change of the pseudo sound emission non-target sound signal without calculating the coherence coefficient or coherence. Furthermore, the feature value used for the determination is not limited to the feature value obtained from the pseudo sound emission non-target sound signal. For example, instead of the feature amount obtained from the pseudo-non-target sound signal, or in addition to the feature amount obtained from the pseudo-non-target sound signal, the sound non-sound output from the sound non-target sound canceller processing unit is output. You may make it use the feature-value obtained from the input sound signal from which the target sound was removed for determination of the kind of sound of a non-target sound to be emitted.
上記第1の実施形態では、音種の判定結果を、抑圧係数の算出方法に反映させ、上記第2の実施形態では、音種の判定結果を、抑圧係数の算出方法と適応フィルタのステップサイズに反映させたものを示したが、音種の判定結果を利用方法はこれらに限定されない。例えば、適応フィルタのステップサイズだけ反映させるようにしても良く、音源分離方法として、他の音源分離方法(後述する)を適用する場合にはその処理の中で用いるパラメータの切替えに反映させるようにしても良い。 In the first embodiment, the sound type determination result is reflected in the suppression coefficient calculation method. In the second embodiment, the sound type determination result is used as the suppression coefficient calculation method and the step size of the adaptive filter. However, the method of using the determination result of the sound type is not limited to these. For example, only the step size of the adaptive filter may be reflected. When another sound source separation method (described later) is applied as the sound source separation method, it is reflected in switching of parameters used in the processing. May be.
上記各実施形態では、音源分離処理部がコヒーレンスフィルタ法に従って目的音と背景非目的音とを分離するものを示したが、分離方法はこれに限定されない。例えば、コヒーレンスフィルタ法と周波数減算法(スペクトル減算法)との組み合わせを適用するようにしても良く、コヒーレンスフィルタ法とウィーナーフィルタ法との組み合わせを適用するようにしても良く、コヒーレンスフィルタ法と周波数減算法とウィーナーフィルタ法との組み合わせを適用するようにしても良い。周波数減算法を適用する場合において、入力音声信号のスペクトルから雑音成分のスペクトルを減算する比率を、音種の判定結果に応じて変更するようにしても良い。また、ウィーナーフィルタ法を適用する場合において、入力音声信号のスペクトルに対して乗算するウィーナーフィルタ係数を、音種の判定結果に応じて変更するようにしても良い。 In each of the embodiments described above, the sound source separation processing unit has shown the target sound and the background non-target sound separated according to the coherence filter method, but the separation method is not limited to this. For example, a combination of the coherence filter method and the frequency subtraction method (spectral subtraction method) may be applied, or a combination of the coherence filter method and the Wiener filter method may be applied. The coherence filter method and the frequency A combination of the subtraction method and the Wiener filter method may be applied. In the case of applying the frequency subtraction method, the ratio of subtracting the noise component spectrum from the spectrum of the input voice signal may be changed according to the sound type determination result. Further, when the Wiener filter method is applied, the Wiener filter coefficient to be multiplied with respect to the spectrum of the input audio signal may be changed according to the determination result of the sound type.
なお、本発明の技術思想は、放音非目的音キャンセラ処理部32だけを備え、音源分離処理部33を備えない集音・放音装置に対しても適用可能なものである。例えば、放音非目的音の音種を、放音非目的音キャンセラ処理部32、32Aのステップサイズに反映させる態様を挙げることができる。
The technical idea of the present invention is also applicable to a sound collecting / sound emitting device that includes only the sound non-target sound
上記各実施形態では、スピーカが2つの場合を示したが、スピーカは1つでも3つ以上であっても良い。また、マイクロホンも2つに限定されず、3以上あっても良い。スピーカとマイクロホンとの数に応じて定まる放音音響経路の数を考慮して、放音非目的音キャンセラ処理部32の内部構成を設計すれば良い。
In each of the above-described embodiments, the case where there are two speakers is shown, but there may be one speaker or three or more speakers. Also, the number of microphones is not limited to two and may be three or more. The internal configuration of the sound emission non-target sound
上記各実施形態では、集音・放音装置単体で全ての処理を実行するものを示したが、非目的音の除去処理などを外部のサーバに委ねて実行するようにしても良い。例えば、集音・放音装置がスマートフォンの場合において、いわゆるクラウドによってシステムを構成し、利用者から外部サーバの存在が分からないように更新しても良い。特許請求の範囲における「集音・放音装置」の請求項は、利用者からは見えない外部サーバが処理を行っている場合を含むものとする。 In each of the above-described embodiments, the sound collection / sound emission device alone performs all processing. However, the non-target sound removal processing may be performed by an external server. For example, when the sound collection / sound emission device is a smartphone, the system may be configured by a so-called cloud and updated so that the user does not know the presence of the external server. The claim of “sound collecting / sound emitting device” in the claims includes a case where an external server that is invisible to the user performs processing.
10…集音・放音装置、
20…放音部、21L、21R…音源データ記憶部、22L、22R…D/A変換部、3L、3R…スピーカ、
30…集音部、4L、4R…マイクロホン、31L、31R…A/D変換部、32、32A…放音非目的音キャンセラ処理部、33…音源分離処理部、41…FFT部、42…第1のコヒーレンス係数計算部、43…第2のコヒーレンス係数計算部、44…抑圧係数算出部、45…抑圧係数乗算部、46…IFFT部、47…コヒーレンス計算部、48…放音非目的音種判定部、61LL〜61RR…擬似放音非目的音生成部、62LL〜62RR…減算部。
10 ... Sound collecting / sound emitting device,
20 ... Sound emission part, 21L, 21R ... Sound source data storage part, 22L, 22R ... D / A conversion part, 3L, 3R ... Speaker
30 ... Sound collection unit, 4L, 4R ... Microphone, 31L, 31R ... A / D conversion unit, 32, 32A ... Sound emission non-target sound canceller processing unit, 33 ... Sound source separation processing unit, 41 ... FFT unit, 42th 1 coherence coefficient calculation unit, 43 ... second coherence coefficient calculation unit, 44 ... suppression coefficient calculation unit, 45 ... suppression coefficient multiplication unit, 46 ... IFFT unit, 47 ... coherence calculation unit, 48 ... sound emission non-target sound type Determination unit, 61LL to 61RR... Pseudo sound emission non-purpose sound generation unit, 62LL to 62RR.
Claims (6)
上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロホンで捕捉された放音に伴う妨害音を疑似した疑似妨害音信号を生成し、上記各マイクロホンからの入力音信号から減算することにより、上記各マイクロホンで捕捉された放音妨害音を除去する、音響エコーキャンセラ構成を流用している放音妨害音除去手段と、
上記放音妨害音除去手段内で生成された疑似放音妨害音信号に基づいて、放音妨害音の音種を判定する音種判定手段と、
上記音種判定手段の判定結果に応じて、自己の処理を切り替える1又は複数の音種反映処理手段と
を備えることを特徴とする集音・放音装置。 In a sound collection / sound emission device having a sound collection unit in which at least two microphones capture ambient sound and a sound emission unit that emits sound from one or more speakers,
A sound signal emitted by the sound emitting unit is input, emitted from the speaker, and generates a pseudo-interfering sound signal that simulates an interfering sound accompanying the emitted sound captured by each of the microphones. A sound emission disturbing sound removing means that diverts an acoustic echo canceller configuration that removes the sound emission disturbing sound captured by each microphone by subtracting from the input sound signal;
Sound type determination means for determining the sound type of the sound emission disturbing sound based on the pseudo sound emission disturbance sound signal generated in the sound emission interference sound removing means;
A sound collecting / sound emitting device comprising: one or a plurality of sound type reflection processing means for switching own processing according to a determination result of the sound type determination means.
上記コンピュータを、
上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロホンで捕捉された放音に伴う妨害音を疑似した疑似妨害音信号を生成し、上記各マイクロホンからの入力音信号から減算することにより、上記各マイクロホンで捕捉された放音妨害音を除去する、音響エコーキャンセラ構成を流用している放音妨害音除去手段と、
上記放音妨害音除去手段内で生成された疑似放音妨害音信号に基づいて、放音妨害音の音種を判定する音種判定手段と、
上記音種判定手段の判定結果に応じて、自己の処理を切り替える1又は複数の音種反映処理手段と
して機能させることを特徴とする集音・放音プログラム。 Sound collection / sound emission executed by a computer mounted in a sound collection / sound emission device having a sound collection unit in which at least two microphones capture ambient sound and a sound emission unit emitting sound from one or more speakers A program,
The above computer
A sound signal emitted by the sound emitting unit is input, emitted from the speaker, and generates a pseudo-interfering sound signal that simulates an interfering sound accompanying the emitted sound captured by each of the microphones. A sound emission disturbing sound removing means that diverts an acoustic echo canceller configuration that removes the sound emission disturbing sound captured by each microphone by subtracting from the input sound signal;
Sound type determination means for determining the sound type of the sound emission disturbing sound based on the pseudo sound emission disturbance sound signal generated in the sound emission interference sound removing means;
A sound collection / sound emission program which functions as one or a plurality of sound type reflection processing means for switching its own processing according to the determination result of the sound type determination means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013199999A JP2015070292A (en) | 2013-09-26 | 2013-09-26 | Sound collection/emission device and sound collection/emission program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013199999A JP2015070292A (en) | 2013-09-26 | 2013-09-26 | Sound collection/emission device and sound collection/emission program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015070292A true JP2015070292A (en) | 2015-04-13 |
Family
ID=52836632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013199999A Pending JP2015070292A (en) | 2013-09-26 | 2013-09-26 | Sound collection/emission device and sound collection/emission program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015070292A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019026261A1 (en) * | 2017-08-03 | 2019-02-07 | ヤマハ株式会社 | Performance evaluation device and performance evaluation method |
CN114866905A (en) * | 2022-05-05 | 2022-08-05 | 镁佳(北京)科技有限公司 | Audio processing method and device for vehicle-mounted sound equipment |
-
2013
- 2013-09-26 JP JP2013199999A patent/JP2015070292A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019026261A1 (en) * | 2017-08-03 | 2019-02-07 | ヤマハ株式会社 | Performance evaluation device and performance evaluation method |
CN114866905A (en) * | 2022-05-05 | 2022-08-05 | 镁佳(北京)科技有限公司 | Audio processing method and device for vehicle-mounted sound equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10650796B2 (en) | Single-channel, binaural and multi-channel dereverberation | |
CN106664473B (en) | Information processing apparatus, information processing method, and program | |
JP6196320B2 (en) | Filter and method for infomed spatial filtering using multiple instantaneous arrival direction estimates | |
US9558755B1 (en) | Noise suppression assisted automatic speech recognition | |
US8355511B2 (en) | System and method for envelope-based acoustic echo cancellation | |
JP6703525B2 (en) | Method and device for enhancing sound source | |
CN104303227A (en) | Apparatus and method for improving the perceived quality of sound reproduction by combining active noise cancellation and perceptual noise compensation | |
WO2005125272A1 (en) | Howling suppression device, program, integrated circuit, and howling suppression method | |
US8315399B2 (en) | Device for and a method of processing audio data | |
JP2002078100A (en) | Method and system for processing stereophonic signal, and recording medium with recorded stereophonic signal processing program | |
KR102191736B1 (en) | Method and apparatus for speech enhancement with artificial neural network | |
EP2752848B1 (en) | Method and apparatus for generating a noise reduced audio signal using a microphone array | |
EP3005362B1 (en) | Apparatus and method for improving a perception of a sound signal | |
JP4835151B2 (en) | Audio system | |
CN102968999A (en) | Audio signal processing | |
US11380312B1 (en) | Residual echo suppression for keyword detection | |
CN111883153B (en) | Microphone array-based double-end speaking state detection method and device | |
JP2015070292A (en) | Sound collection/emission device and sound collection/emission program | |
JP3755739B2 (en) | Stereo sound signal processing method and apparatus, program, and recording medium | |
JP2015070291A (en) | Sound collection/emission device, sound source separation unit and sound source separation program | |
Yousefian et al. | A hybrid coherence model for noise reduction in reverberant environments | |
JP6186878B2 (en) | Sound collecting / sound emitting device, sound source separation unit and sound source separation program | |
JP2016024231A (en) | Sound collection and sound radiation device, disturbing sound suppression device and disturbing sound suppression program | |
JP6790659B2 (en) | Sound processing equipment and sound processing method | |
CN113611271B (en) | Digital volume augmentation method and device suitable for mobile terminal and storage medium |