JP2015070291A - Sound collection/emission device, sound source separation unit and sound source separation program - Google Patents
Sound collection/emission device, sound source separation unit and sound source separation program Download PDFInfo
- Publication number
- JP2015070291A JP2015070291A JP2013199981A JP2013199981A JP2015070291A JP 2015070291 A JP2015070291 A JP 2015070291A JP 2013199981 A JP2013199981 A JP 2013199981A JP 2013199981 A JP2013199981 A JP 2013199981A JP 2015070291 A JP2015070291 A JP 2015070291A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- target
- source separation
- parameter
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、集音・放音装置、音源分離ユニット及び音源分離プログラムに関し、例えば、マイクロホンによる捕捉音声、捕捉音響などから、所定方向の音源から到来する音(以下、目的音と呼ぶ)だけを分離することを欲する通信端末、オーディオ機器などに適用し得るものである。 The present invention relates to a sound collecting / sound emitting device, a sound source separation unit, and a sound source separation program. For example, only sound coming from a sound source in a predetermined direction (hereinafter referred to as a target sound) from captured sound by a microphone, captured sound, etc. The present invention can be applied to communication terminals, audio devices, etc. that want to be separated.
例えば、スマートフォンに通話音声を入力する場合や、オーディオ機器やスマートフォンなどに音声コマンドを入力する場合などにおいては、音声が入力される機器は、利用者の口が存在すると思われる正面からの音声だけを、他の方向からの音声、音楽、雑音などと区別して抽出することが好ましい。 For example, when inputting call voice to a smartphone or inputting voice commands to an audio device or smartphone, the device to which the sound is input is only the sound from the front where the user's mouth seems to exist. Is preferably distinguished from voice, music, noise, etc. from other directions.
2つのマイクロホンに入力された音を捕捉し、入力音(電気信号)の位相差に基づいて周囲の雑音を抑圧して、マイクロホンの所定方位(例えば正面)から到来する目的音を抽出する方式(音源分離方式)が、特許文献1に記載されている。
A system that captures sound input to two microphones, suppresses ambient noise based on the phase difference between the input sounds (electrical signals), and extracts a target sound that arrives from a predetermined direction (for example, the front) of the microphone ( (Sound source separation method) is described in
特許文献1に第3の実施形態として記載されている目的音の抽出方法は、マイクロホンの左右に死角を有する二つの指向性を形成して得た二つの信号の相関に応じた抑圧係数を周波数成分毎に入力音信号に乗算することにより、左右から到来する雑音成分(非目的音)を抑圧する手法である。特許文献1に第4の実施形態として記載されている目的音の抽出方法は、マイクロホンの正面に死角を有する指向性を形成し、これにより得られた信号を、左右から到来する雑音成分として入力音信号から減算することにより、左右から到来する雑音成分(非目的音)を抑圧する手法である。
The target sound extraction method described in
ところで、近年、図8に示すように、携帯端末(例えば、スマートフォンやタブレット端末)などの通信機能を有する集音機器2の両脇に、一対のスピーカ3L及び3Rを配置して接続し、このような構成で遠隔地と通話を行なう集音・放音装置1が利用されるようになってきている。また、同様な構成で、集音機器2内に記録された音楽ファイルやインターネット上の音楽配信サイトから取得した楽曲ファイルによる音(音楽)を、両脇のスピーカ3L及び3Rから放音させている状態で、利用者が、集音機器2のマイクロホン正面から発した音声によるコマンドを受ける方法も検討されている。
Incidentally, in recent years, as shown in FIG. 8, a pair of
両脇のスピーカ3L及び3Rから音楽などが放音されている状態で、正面から到来する目的音を抽出し、通話相手に発話内容を伝えたり、若しくは、音声認識処理を介して音声コマンドを認識して音声コマンドに対応する処理を実行したりする場合には、スピーカ3L、3Rから発する音などが雑音となり、通話音質や音声認識率を大きく低下させる。
In the state where music is emitted from the
そこで、上述した特許文献1の記載技術のような音源分離方式を適用し、両脇のスピーカ3L及び3Rから到来する雑音成分を抑圧し、正面からの目的音を抽出しなければならない。特許文献1に記載の音源分離方式を適用する場合には、図9に示すように、集音機器1に、2つのマイクロホン4L、4Rを搭載若しくは外付けすることを要する。
Therefore, it is necessary to apply a sound source separation method such as the technology described in
しかしながら、利用者が集音・放音装置1から音楽を放音して楽しむ場合、その音量は大きく、大きな音量の音楽が雑音成分(非目的音)としてマイクロホン4L、4Rに捕捉されるため、音源分離方式を適用して目的音を抽出したとしても、抽出した目的音信号に雑音成分が多く残ってしまう。
However, when the user enjoys the music from the sound collecting /
これを避けようとすると、利用者は、音楽の出力(放音)を停止してから、通話音声や音声コマンドなどの入力音声を発音すれば良い。しかしながら、このように出力を停止させるキー操作などを行うのであれば、音声コマンドのメリットは薄れ、キー操作などでコマンドを入力する方が簡便である。また、着信からの通話の場合、音声の出力停止操作をできないことや、出力停止操作の実行のため着信が遅れてしまうことなども生じる。 In order to avoid this, after the user stops outputting the music (sound emission), the user may pronounce the input voice such as a call voice or voice command. However, if the key operation for stopping the output is performed as described above, the merit of the voice command is reduced, and it is easier to input the command by the key operation. Further, in the case of a call from an incoming call, the voice output stop operation cannot be performed, or the incoming call is delayed due to the execution of the output stop operation.
そのため、放音音がある状況においても、意図した音源からの目的音を、良好なSN比をもって抽出することができる、集音・放音装置、音源分離ユニット及び音源分離プログラムが望まれている。 Therefore, there is a demand for a sound collecting / sound emitting device, a sound source separation unit, and a sound source separation program capable of extracting a target sound from an intended sound source with a good S / N ratio even in a situation where there is a sound emission. .
第1の本発明は、少なくとも2本のマイクロホンが周囲音を捕捉する集音部と、1又は複数のスピーカから放音する放音部とを有する集音・放音装置において、(1)上記2本のマイクロホンが周囲音を捕捉した入力音信号に基づき、所定方位にある音源からの目的音を抽出する音源分離手段と、(2)上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロホンで捕捉された放音に伴う非目的音を疑似した疑似放音非目的音信号を生成し、上記各マイクロホンからの入力音信号から減算することにより、上記各マイクロホンで捕捉された放音非目的音を除去する、上記音源分離手段へ至る経路までに設けられた放音非目的音除去手段とを備え、(1)上記音源分離手段は、(1−1)上記放音非目的音除去手段から出力された放音非目的音を除去された入力音信号から、音源分離のための第1のパラメータを生成する第1の分離用パラメータ生成部と、(1−2)上記放音非目的音除去手段内で生成された疑似放音非目的音信号に基づいて、音源分離のための第2のパラメータを生成する第2の分離用パラメータ生成部と、(1−3)上記第1のパラメータを上記第2のパラメータを利用して修正して音源分離に利用する最終的なパラメータを得るパラメータ修正部と、(1−4)修正されたパラメータを適用して音源分離を行う音源分離部とを有し、(3)放音非目的音を上記放音非目的音除去手段で除去すると共に、その他の非目的音を上記音源分離手段で除去して目的音を抽出することを特徴とする。 According to a first aspect of the present invention, there is provided a sound collection / sound emission device having a sound collection unit in which at least two microphones capture ambient sounds and a sound emission unit that emits sound from one or more speakers. Sound source separation means for extracting a target sound from a sound source in a predetermined direction based on an input sound signal in which two microphones capture ambient sound; and (2) a sound signal emitted by the sound emitting unit is input; By generating a pseudo-sounding non-target sound signal that simulates a non-target sound that is emitted from the speaker and captured by each microphone, and subtracting it from the input sound signal from each microphone, The sound source non-target sound removing means provided up to the path to the sound source separation means for removing the sound non-target sound captured by each microphone is provided. (1) The sound source separation means is (1- 1) The above non-target sound removal hand A first separation parameter generating unit that generates a first parameter for sound source separation from the input sound signal from which the sound non-target sound output from is removed, and (1-2) the sound non-purpose sound output A second separation parameter generation unit that generates a second parameter for sound source separation based on the pseudo sound emission non-target sound signal generated in the sound removal means; (1-3) the first A parameter correcting unit that corrects the parameter using the second parameter to obtain a final parameter used for sound source separation; and (1-4) a sound source separating unit that performs sound source separation using the corrected parameter. And (3) removing the non-target sound by the sound non-target sound removing means and extracting the target sound by removing the other non-purpose sound by the sound source separating means. To do.
第2の本発明は、少なくとも2本のマイクロホンが周囲音を捕捉する集音部と、1又は複数のスピーカから放音する放音部とを有する集音・放音装置に適用される音源分離ユニットであって、(1)上記2本のマイクロホンが周囲音を捕捉した入力音信号に基づき、所定方位にある音源からの目的音を抽出する音源分離手段と、(2)上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロホンで捕捉された放音に伴う非目的音を疑似した疑似放音非目的音信号を生成し、上記各マイクロホンからの入力音信号から減算することにより、上記各マイクロホンで捕捉された放音非目的音を除去する、上記音源分離手段へ至る経路までに設けられた放音非目的音除去手段とを備え、(1)上記音源分離手段は、(1−1)上記放音非目的音除去手段から出力された放音非目的音を除去された入力音信号から、音源分離のための第1のパラメータを生成する第1の分離用パラメータ生成部と、(1−2)上記放音非目的音除去手段内で生成された疑似放音非目的音信号に基づいて、音源分離のための第2のパラメータを生成する第2の分離用パラメータ生成部と、(1−3)上記第1のパラメータを上記第2のパラメータを利用して修正して音源分離に利用する最終的なパラメータを得るパラメータ修正部と、(1−4)修正されたパラメータを適用して音源分離を行う音源分離部とを有し、(3)放音非目的音を上記放音非目的音除去手段で除去すると共に、その他の非目的音を上記音源分離手段で除去して目的音を抽出することを特徴とする。 The second aspect of the present invention is a sound source separation applied to a sound collection / sound emission device having a sound collection unit in which at least two microphones capture ambient sounds and a sound emission unit that emits sound from one or more speakers. (1) sound source separation means for extracting a target sound from a sound source in a predetermined direction based on an input sound signal obtained by capturing the ambient sound by the two microphones; and (2) the sound emitting unit. A sound signal to be emitted is input, emitted from the speaker, and generates a pseudo-non-target sound signal that simulates a non-target sound accompanying the sound output captured by each microphone, and is input from each microphone. A sound non-target sound removing means provided up to a path to the sound source separating means for removing the sound non-purpose sound captured by each of the microphones by subtracting from the sound signal; (1) The sound source separation means is (1 1) a first separation parameter generating unit that generates a first parameter for sound source separation from an input sound signal from which the sound non-target sound output from the sound non-target sound removing means is removed; (1-2) a second separation parameter generating unit that generates a second parameter for sound source separation based on the pseudo-non-target sound signal generated in the sound non-target sound removing means; (1-3) a parameter correction unit that corrects the first parameter using the second parameter to obtain a final parameter to be used for sound source separation; and (1-4) the corrected parameter. And (3) removing the non-target sound by the sound non-target sound removing means and removing the other non-target sound by the sound source separating means. And extracting a target sound.
第3の本発明は、少なくとも2本のマイクロホンが周囲音を捕捉する集音部と、1又は複数のスピーカから放音する放音部とを有する集音・放音装置に搭載されるコンピュータが実行する音源分離プログラムであって、上記コンピュータを、(1)上記2本のマイクロホンが周囲音を捕捉した入力音信号に基づき、所定方位にある音源からの目的音を抽出する音源分離手段と、(2)上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロホンで捕捉された放音に伴う非目的音を疑似した疑似放音非目的音信号を生成し、上記各マイクロホンからの入力音信号から減算することにより、上記各マイクロホンで捕捉された放音非目的音を除去する、上記音源分離手段へ至る経路までに設けられた放音非目的音除去手段として機能させ、(1)機能させられる上記音源分離手段は、(1−1)上記放音非目的音除去手段から出力された放音非目的音を除去された入力音信号から、音源分離のための第1のパラメータを生成する第1の分離用パラメータ生成部と、(1−2)上記放音非目的音除去手段内で生成された疑似放音非目的音信号に基づいて、音源分離のための第2のパラメータを生成する第2の分離用パラメータ生成部と、(1−3)上記第1のパラメータを上記第2のパラメータを利用して修正して音源分離に利用する最終的なパラメータを得るパラメータ修正部と、(1−4)修正されたパラメータを適用して音源分離を行う音源分離部とを有し、(3)放音非目的音を上記放音非目的音除去手段で除去すると共に、その他の非目的音を上記音源分離手段で除去して目的音を抽出することを特徴とする。 According to a third aspect of the present invention, there is provided a computer mounted on a sound collection / sound emission device having a sound collection unit in which at least two microphones capture ambient sounds and a sound emission unit that emits sound from one or more speakers. A sound source separation program to be executed, the computer comprising: (1) sound source separation means for extracting a target sound from a sound source in a predetermined direction based on an input sound signal obtained by capturing the ambient sound by the two microphones; (2) A sound signal emitted by the sound emitting unit is input, sound is emitted from the speaker, and a pseudo sound emitting non-purpose sound signal simulating a non-purpose sound accompanying sound emission captured by each microphone is generated. Then, by subtracting from the input sound signal from each of the microphones, the emitted non-target sound captured by each of the microphones is removed, and the emitted non-target sound removal provided up to the path to the sound source separation means (1) The sound source separation means to be functioned is (1-1) sound source separation from the input sound signal from which the sound non-target sound output from the sound non-purpose sound removal means is removed. A first separation parameter generation unit for generating a first parameter for the sound source, and (1-2) a sound source based on the pseudo sound emission non-purpose sound signal generated in the sound emission non-purpose sound removal means A second parameter generation unit for separation that generates a second parameter for separation; and (1-3) a final that is used for sound source separation after the first parameter is modified using the second parameter. And (1-4) a sound source separation unit that performs sound source separation by applying the modified parameters, and (3) the non-target sound is a non-target sound. Remove with the removal means and other non-target sounds Removing a source separating means and extracting a target sound.
本発明によれば、放音音がある状況においても、放音音の音種によらず、意図した音源からの目的音を良好なSN比をもって抽出できる集音・放音装置、音源分離ユニット及び音源分離プログラムを実現できる。 According to the present invention, a sound collection / sound emission device and a sound source separation unit that can extract a target sound from an intended sound source with a good SN ratio regardless of the sound type of the sound emission even in a situation where the sound emission is present And a sound source separation program.
(A)第1の実施形態
以下、本発明による集音・放音装置、音源分離ユニット及び音源分離プログラムの第1の実施形態を、図面を参照しながら説明する。
(A) First Embodiment Hereinafter, a first embodiment of a sound collecting / sound emitting device, a sound source separation unit, and a sound source separation program according to the present invention will be described with reference to the drawings.
(A−1)第1の実施形態の構成
第1の実施形態の集音・放音装置は、一対のマイクロホンが搭載され、若しくは、外付けされており、かつ、一対のスピーカが搭載され、若しくは、外付けされているものである。例えば、スマートフォンやタブレット端末などの集音機器を利用している集音・放音装置であれば、一対のマイクロホンが搭載され、一対のスピーカが外付けされて構成される。また例えば、スピーカ一体型のオーディオ機器が該当する集音・放音装置であれば、一対のマイクロホンも一対のスピーカも搭載されて構成される。以上のように、一対のマイクロホン及び一対のスピーカの接続形態は多様であるが、いずれの接続形態を適用したものであっても良い。
(A-1) Configuration of the First Embodiment The sound collection / sound emission device of the first embodiment is equipped with a pair of microphones or externally attached, and a pair of speakers. Or it is an external one. For example, in the case of a sound collecting / sound emitting device using a sound collecting device such as a smartphone or a tablet terminal, a pair of microphones is mounted and a pair of speakers are externally configured. Further, for example, if a speaker integrated audio device is a corresponding sound collecting / sound emitting device, a pair of microphones and a pair of speakers are mounted. As described above, the connection forms of the pair of microphones and the pair of speakers are various, but any connection form may be applied.
以下では、第1の実施形態の集音・放音装置は、上述した図9に示すように、一対のマイクロホンが搭載され、一対のスピーカが外付けされて構成されているとして説明を行う。また、第1の実施形態の集音・放音装置における各構成要素の符号も、図9に記述されている構成要素に関しては、図9で用いている符号をそのまま用いる。 In the following, the sound collection / sound emission device of the first embodiment will be described on the assumption that a pair of microphones are mounted and a pair of speakers are externally attached as shown in FIG. 9 described above. In addition, for the components described in FIG. 9, the symbols used in FIG. 9 are used as they are for the components in the sound collection / sound emission device of the first embodiment.
図1は、第1の実施形態の集音・放音装置10の構成を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of a sound collection /
第1の実施形態の集音・放音装置10は、ハードウェア的な各種構成要素を接続して構築されたものであっても良く、また、一部の構成要素(例えば、スピーカ、マイクロホン、アナログ/デジタル変換部(A/D変換部)、デジタル/アナログ変換部(D/A変換部)を除く部分)を、CPU、ROM、RAMなどのプログラムの実行構成を適用してその機能を実現するように構築されたものであっても良い。いずれの構築方法を適用した場合であっても、集音・放音装置10の機能的な詳細構成は、図1で表す構成となっている。なお、プログラムを適用する場合において、プログラムは、集音・放音装置10が有するメモリに装置出荷時から書き込まれているものであっても良く、また、ダウンロードによりインストールされるものであっても良い。例えば、後者の場合としては、スマートフォン用のアプリケーションとしてプログラムを用意しておき、必要とする利用者が、インターネットを介してダウンロードしてインストールする場合を挙げることができる。
The sound collection /
図1において、第1の実施形態の集音・放音装置10は、放音部20及び集音部30を有する。
In FIG. 1, the sound collection /
放音部20は、既存の放音部と同様な構成を有する。放音部20は、Lチャンネル及びRチャンネルの音源データ記憶部21L及び21R、D/A変換部22L及び22R、並びに、スピーカ3L及び3Rを有する。
The
一方、集音部30は、Lチャンネル及びRチャンネルのマイクロホン4L及び4R、並びに、A/D変換部31L及び31Rと、放音非目的音キャンセラ処理部32と、図2に詳細構成を示す音源分離処理部33とを有する。ここで、後述する音源データの入力端子を有する集音部30の全体が音源分離ユニットとして構築されて、市販に供するものであっても良い。また、A/D変換部31L、31R、放音非目的音キャンセラ処理部32及び音源分離処理部33でなる部分が、後述する音源データの入力端子を有して、音源分離ユニットとして構築され、市販に供するものであっても良い。すなわち、集音・放音装置10は、特に、集音部30は、音源分離ユニットを用いて構築されたものであっても良い。
On the other hand, the
音源データ記憶部21L及び21Rはそれぞれ、Lチャンネル、Rチャンネル用の音源データ(デジタル信号)sigL、sigRを記憶し、図示しない放音制御部の制御下で音源データsigL、sigRを読み出して出力するものである。音源データsigL、sigRは、例えば、楽曲データであっても良く、電子書籍その他の読み上げ用などの音声データであっても良い。各音源データ記憶部21L、21Rは、CD−ROMなどの記録媒体が装填された記録媒体アクセス装置であっても良く、インターネット上のサイトなどの外部装置から通信によって取得した音源データを記憶する当該装置の記憶部によって構成されたものであっても良い。また、各音源データ記憶部21L、21Rは、例えば、USBコネクタ接続で接続される外付けの装置が該当するものであっても良い。さらに、各音源データ記憶部21L、21Rは「記憶部」とネーミングしているが、各音源データ記憶部21L、21Rの概念には、デジタル音声放送の受信機のような、受信した音源データをリアルタイムに出力する構成をも含むものとする。 The sound source data storage units 21L and 21R store the sound source data (digital signals) sigL and sigR for the L channel and the R channel, respectively, and read and output the sound source data sigL and sigR under the control of a sound emission control unit (not shown). Is. The sound source data sigL and sigR may be, for example, music data or electronic data such as an electronic book for reading out. Each of the sound source data storage units 21L and 21R may be a recording medium access device loaded with a recording medium such as a CD-ROM, and stores sound source data acquired by communication from an external device such as a site on the Internet. It may be configured by a storage unit of the apparatus. The sound source data storage units 21L and 21R may correspond to, for example, external devices connected by USB connector connection. Furthermore, each sound source data storage unit 21L, 21R is named “storage unit”, but the concept of each sound source data storage unit 21L, 21R includes received sound source data such as a digital audio broadcast receiver. A configuration for outputting in real time is also included.
D/A変換部22L及び22Rはそれぞれ、対応する音源データ記憶部21L、21Rから出力された音源データsigL、sigRをアナログ信号に変換して対応するスピーカ3L、3Rに与えるものである。
The D /
スピーカ3L及び3Rはそれぞれ、対応するD/A変換部22L、22Rから与えられた音源信号を放音出力(発音出力)するものである。ここで、スピーカ3L及び3Rから放音出力された音響若しくは音声は、マイクロホン4R、4Lに捕捉されることを意図したものではなく、マイクロホン4R、4Lの捕捉機能から見たとき、非目的音になっている。
The
以上では、スピーカ3L、3Rから放音される音楽、音声の当初の信号形式がデジタル信号(音源データ)であるものを示したが、音源データ記憶部21L、21Rに相当する構成が、レコードプレイヤ、オーディオカセットテープレコーダ、AMやFMのラジオ受信機などであって、アナログ信号でなる音響信号や音声信号を出力するものであっても良い。この場合には、D/A変換部22L及び22Rは省略され、別途、Lチャンネル、Rチャンネル用のA/D変換部を設けて、アナログ信号の音響信号や音声信号をデジタル信号に変換して放音非目的音キャンセラ処理部32に与えることになる。
In the above, the music and sound emitted from the
マイクロホン4R及び4Lはそれぞれ、周囲音を捕捉して電気信号(アナログ信号)に変換するものである。一対のマイクロホン4R及び4Lにより、ステレオ信号が得られる。各マイクロホン4R、4Lは、当該集音・放音装置10の正面から到来する音を主として捕捉するような指向性を有するものであるが、両脇に配置されているスピーカ3L、3Rから放音された音をも捕捉するものである。なお、スピーカ3L、3Rは、一対のマイクロホン4R及び4Lの両脇に配置されることが好ましいが、この配置に限定されるものではない。
Each of the
各マイクロホン4R、4Lは、例えば、当該集音・放音装置10の筐体に設けられた筒体内に取り付けられる。ここで、筒体の内面には合成樹脂でなる遮音部材が設けられ、マイクロホン4R、4Lが取り付けられたときに、筐体の内外を音が通過する経路ができないようになされている。これにより、筐体内部で発生した雑音や、外部から筐体内部に入り込んで反射により筐体外部に出ていこうとする雑音などを、マイクロホン4R、4Lが捕捉するようなことを極力防止することができる。
The
A/D変換部31L及び31Rはそれぞれ、対応するマイクロホン4R、4Lが捕捉した入力音信号をデジタル信号inputL、inputRに変換して放音非目的音キャンセラ処理部32に与えるものである。各A/D変換部31L、31Rは、例えば、音源データsigL、sigRのサンプリングレートと同じサンプリングレートのデジタル信号に変換する。
The A /
放音非目的音キャンセラ処理部32には、音源データ記憶部21L及び21Rから出力された音源データsigL及びsigRも与えられる。ここで、放音非目的音キャンセラ処理部32に入力される4つのデジタル信号のサンプリングレートが揃っていることを要する。例えば、インターネットのサイトからダウンロードし、音源データ記憶部21L及び21Rに記憶された音源データsigL、sigRのサンプリングレートが、A/D変換部31L、31Rからのデジタル信号inputL、inputRのサンプリングレートと異なる場合には、D/A変換部22L、22Rへはダウンロードした音源データsigL、sigRをそのまま与え、放音非目的音キャンセラ処理部32へは音源データsigL、sigRのサンプリングレートを変換した音源データを与えるようにすれば良い。
The sound emission non-target sound
放音非目的音キャンセラ処理部32は、音源データ記憶部21L及び21Rから出力された音源データsigL及びsigRに基づき、入力音信号(デジタル信号)inputL、inputRに含まれている、スピーカ3L、3Rから放音されることによる非目的音成分(以下、適宜、放音非目的音と呼ぶ)を除去(若しくは軽減)し、除去処理後の入力音信号ECoutL、ECoutRを音源分離処理部33に与えるものである。
The sound emission non-target sound
ここで、スピーカ3L、3Rから放音され、マイクロホン4R、4Lによって捕捉される、目的音から見て不要な音(放音非目的音)は、電話通信において問題となっている音響エコーと同様にみなすことができる。そこで、第1の実施形態においては、放音非目的音キャンセラ処理部32を、音響エコーキャンセラの技術を流用して構成している。例えば、非特許文献1には「ステレオエコーキャンセラ」が記載されている。第1の実施形態では、放音非目的音キャンセラ処理部32として、非特許文献1の図3.71若しくは図3.75の記載のものを適用しているとする。
Here, the sound that is emitted from the
ステレオエコーキャンセラ構成の放音非目的音キャンセラ処理部32では、入力音信号inputL、inputRから、放音目的音を除去するために、内部で、疑似的な放音目的音信号(以下、疑似放音目的音信号と呼ぶ)PSechoL、PSechoRが生成されており、この第1の実施形態の場合、疑似放音目的音信号PSechoL、PSechoRも音源分離処理部33に与えられる。
In the sound emission non-target sound
音源分離処理部33は、図2に示す詳細構成を有し、放音非目的音が除去された入力音信号ECoutL、ECoutRと疑似放音目的音信号PSechoL、PSechoRとに基づき、所定方位(例えば、正面)にある音源からの目的音だけを抽出するものである。音源分離処理部33が適用している音源分離方法は、音源の方向によって特性が変化するコヒーレンス係数を適用したコヒーレンスフィルタ法である。
The sound source
図2において、音源分離処理部33は、FFT(高速フーリエ変換)部41、第1のコヒーレンス係数計算部42、第2のコヒーレンス係数計算部43、抑圧係数算出部44、抑圧係数乗算部45及びIFFT(逆高速フーリエ変換)部46を有する。
2, the sound source
FFT部41は、時間領域の信号である、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)と、疑似放音目的音信号PSechoL(n)、PSechoR(n)とをそれぞれ、周波数領域の信号XL(f,K)、XR(f,K)、YL(f,K)、YR(f,K)に変換するものである。なお、上記での「n」は時刻を表すパラメータであり、「f」は周波数を表すパラメータであり、「K」は変換に供する所定の入力サンプル数の塊を規定するフレームの順番を表すパラメータである。
The
第1のコヒーレンス係数計算部42は、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)から得られた周波数領域信号XL(f,K)及びXR(f,K)に基づいて、コヒーレンス係数Xcoef(f,K)を計算するものである。
The first coherence
第2のコヒーレンス係数計算部43は、疑似放音目的音信号PSechoL(n)、PSechoR(n)から得られた周波数領域信号YL(f,K)及びYR(f,K)に基づいてコヒーレンス係数Ycoef(f,K)を計算するものである。
The second
コヒーレンス係数Xcoef(f,K)、Ycoef(f,K)の計算式として、特許文献1に記載のものを適用できる(特許文献1の(1)式、(2)式、(4)式参照)。
As the calculation formulas of the coherence coefficients Xcoef (f, K) and Ycoef (f, K), those described in
抑圧係数算出部44は、2つのコヒーレンス係数Xcoef(f,K)及びYcoef(f,K)から、非目的音を抑圧する抑圧係数NRcoef(f,K)を算出して抑圧係数乗算部45に与えるものである。抑圧係数算出部44は、図3に示すように、第1及び第2のコヒーレンス係数計算部42及び43からのコヒーレンス係数Xcoef(f,K)及びYcoef(f,K)を受信する係数受信部51と、(1)式に従って抑圧係数NRcoef(f,K)を演算する抑圧係数演算部52と、得られた抑圧係数NRcoef(f,K)を抑圧係数乗算部45に与える抑圧係数送信部53とでなる。
The suppression
NRcoef(f,K)
=Xcoef(f,K)−α×Ycoef(f,K)
但し、αは0.0<α≦1.0の範囲の値 …(1)
抑圧係数乗算部45は、放音非目的音が除去された入力音信号から得られた一方の周波数領域信号XL(f,K)に対し、(2)式に示すように、抑圧係数NRcoef(f,K)を乗算して非目的音が除去された周波数領域信号(言い換えると、目的音の周波数領域信号)Z(f,K)を得るものである。
NRcoef (f, K)
= Xcoef (f, K)-[alpha] * Ycoef (f, K)
However, α is a value in the range of 0.0 <α ≦ 1.0 (1)
The suppression
Z(f,K)=XL(f,K)×NRcoef(f、K) …(2)
IFFT部46は、周波数領域信号である非目的音抑圧信号Z(f、K)を時間領域信号z(n)に変換するものである。後段回路が、周波数領域信号Z(f、K)をそのまま処理できる構成であれば、IFFT部46は省略することができる。
Z (f, K) = XL (f, K) × NRcoef (f, K) (2)
The
放音非目的音キャンセラ処理部32も、音源分離処理部33と同様に、非目的音の除去機能を有するものである。音源分離処理部33に加えて、放音非目的音キャンセラ処理部32を設けるようにしたのは、以下の理由による。すなわち、非目的音を一括して捉えるのではなく、放音非目的音及び背景非目的音を区別し、それぞれに適した除去方法を考慮し、放音非目的音を放音非目的音キャンセラ処理部32で除去し、背景非目的音を音源分離処理部33で除去することとした。すなわち、音源分離処理部33の前処理部として放音非目的音キャンセラ処理部32を設け、音源分離処理部33が不得手なLチャンネルとRチャンネルの相関が強い非目的音成分を放音非目的音キャンセラ処理部32で予め抑圧しておくことにより、音源分離処理部33の機能を十分に発揮させると同時に、放音非目的音キャンセラ処理部32で抑圧しきれなかった非目的音成分を音源分離処理部33で抑圧し、音源分離処理部33を単体で適用するよりもはるかに高性能な非目的音の抑圧性能を得るようにしている。
Similarly to the sound source
音源分離処理部33の音源分離方法としてコヒーレンスフィルタ法を単に適用する場合であれば、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)から非目的音の抑圧に用いる抑圧係数を得るようにすれば良い。この第1の実施形態において、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)だけでなく、疑似放音目的音信号PSechoL(n)、PSechoR(n)をも適用して、非目的音の抑圧に用いる抑圧係数NRcoef(f,K)を得ている。このようにしたのは、以下の理由による。
If the coherence filter method is simply applied as the sound source separation method of the sound source
スピーカ3L、3Rから放音される放音音が、例えば、楽曲であって、打楽器の音のような突発的に全周波数に成分を有する衝撃音(例えば、ロックにおけるドラムの音)が含まれる場合、放音非目的音キャンセラ処理部32(の適応フィルタ)における追従が間に合わず、放音非目的音を十分に抑圧できない。また、衝撃音は、全周波数に成分を有するため、その到来方位が正面ではなくても、左右のスピーカ3L、3Rから放音された音同士が強い相関を有し、恰も正面から到来するような特性を有する。そのため、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)だけから非目的音の抑圧に用いる抑圧係数を得た場合には、放音非目的音が衝撃音のときに、放音非目的音の除去が不十分となる。
The sound emitted from the
このような不都合を回避するために、疑似放音目的音信号PSechoL、PSechoRも非目的音の抑圧に用いる抑圧係数NRcoefの形成に用いることとした。 In order to avoid such an inconvenience, the pseudo sound emission target sound signals PSechoL and PSechoR are also used to form the suppression coefficient NRcoef used for suppressing the non-target sound.
放音非目的音キャンセラ処理部32で算出される疑似放音目的音信号PSechoL、PSechoRは、音源データsigL、sigRにスピーカ3L、3Rからマイクロホン4L、4Rまでの伝達特性を畳み込んだ信号であるので、マイクロホン4L、4Rが捕捉した入力音信号inputL、inputRに含まれる妨害音成分と近い特性を有していると言える。従って、疑似放音目的音信号PSechoL、PSechoR、あるいは、疑似放音目的音信号PSechoL、PSechoRから得られる特徴量を参照にすることで、衝撃音への抑圧性能を高めることが期待できる。
The pseudo sound emission target sound signals PSechoL and PSechoR calculated by the sound emission non-target sound
そのため、第1の実施形態においては、疑似放音目的音信号PSechoL、PSechoRも非目的音の抑圧に用いる抑圧係数NRcoefの形成に用いることとした。 Therefore, in the first embodiment, the pseudo sound emission target sound signals PSechoL and PSechoR are also used for forming the suppression coefficient NRcoef used for suppressing the non-target sound.
次に、疑似放音目的音信号PSechoL、PSechoRを非目的音の抑圧に用いる抑圧係数NRcoefの形成に用いることができることを、より具体的に説明する。 Next, it will be described in more detail that the pseudo sound emission target sound signals PSechoL and PSechoR can be used to form the suppression coefficient NRcoef used for suppressing the non-target sound.
第1の実施形態が想定する機器構成(上述した図8、図9参照)を考慮すると、妨害音が正面から到来することはあり得ない。この挙動を、特許文献1に記載のコヒーレンスのような到来方位と直結する特徴量の挙動と対応付けると、妨害音は、正面から到来する目的音と同等以上のコヒーレンス値をとらないと言うことができる。しかし、上述した通り、妨害音に衝撃音が含まれる場合には、左右のスピーカ3L、3Rから放音される妨害音同士の相関が著しく増し、妨害音であるにも拘わらす、正面から到来するかのような挙動をする。つまり、衝撃音が含まれる場合の妨害音のコヒーレンス値は目的音と同等以上の値となる。従って、妨害音の到来方位に応じて雑音抑圧ゲインを設定するコヒーレンスフィルタ法では、十分に妨害音を抑圧できない。ところで、疑似放音目的音信号PSechoL、PSechoRは、放音されれば放音非目的音となる音源データsigL、sigRに、スピーカ3L、3Rからマイクロホン4L、4Rまでの伝達特性を畳み込んだ音なので、目的音成分は含まず、両脇のスピーカ3L、3Rから到来する妨害音成分だけに由来する信号である。よって、2つの疑似放音目的音信号PSechoL、PSechoRから得られるコヒーレンス値のレンジは、目的音のレンジより小さく、仮に、妨害音源データsigL、sigRに衝撃音が含まれている場合には、疑似放音目的音信号PSechoL、PSechoRのコヒーレンスが大きくなる。逆に言えば、疑似放音目的音信号PSechoL、PSechoRのコヒーレンスの急増によって衝撃音の発生を検出することができる。疑似放音目的音信号PSechoL、PSechoRから得られたコヒーレンスフィルタ係数Ycoefを参照することで、衝撃音の成分を周波数毎に取得することができる。放音非目的音キャンセラ処理部32から出力された放音非目的音が除去された入力音信号ECoutL、ECoutRから得たコヒーレンスフィルタ係数Xcoefを、疑似放音目的音信号PSechoL、PSechoRから得られたコヒーレンスフィルタ係数Ycoefで(2)式に示すように調整することにより、衝撃音に由来する成分をコヒーレンスフィルタ係数から除去し、より正確な抑圧係数Zcoefを算出することができる。
Considering the device configuration assumed by the first embodiment (see FIGS. 8 and 9 described above), the disturbing sound cannot come from the front. When this behavior is associated with the behavior of the feature quantity directly linked to the arrival direction such as the coherence described in
(A−2)第1の実施形態の動作
次に、第1の実施形態の集音・放音装置10の動作を説明する。以下では、音源データが楽曲データであり、目的音が、集音・放音装置10の正面に位置する利用者が発音した音声であるとして、適宜、説明する。
(A-2) Operation of the First Embodiment Next, the operation of the sound collection /
各音源データ記憶部21L、21Rから読み出された音源データ(楽曲データ)はそれぞれ、対応するD/A変換部22L、22Rによってアナログ信号に変換された後、各スピーカ3L、3Rから放音される。このような音楽が当該集音・放音装置10から流れているときに、利用者が当該集音・放音装置10に向かって発音した音声は、両マイクロホン4L及び4Rによって捕捉される。この際、スピーカ3L、3Rからの音楽も流れているため、スピーカ3Lからの音楽も両マイクロホン4L及び4Rによって捕捉され、スピーカ3Rからの音楽も両マイクロホン4L及び4Rによって捕捉される。さらに、周囲の背景雑音(エアコンの駆動音、近くを走行する車両からの走行音など)も、両マイクロホン4L及び4Rによって捕捉される。
The sound source data (music data) read from the sound source data storage units 21L and 21R are converted into analog signals by the corresponding D /
すなわち、各マイクロホン4L、4Rが捕捉して得た入力音信号には、利用者の音声という目的音以外に、自装置が放音した音楽という放音非目的音や、背景雑音などの非目的音(以下、適宜、背景非目的音と呼ぶ)が含まれている。
In other words, the input sound signals obtained by the
各マイクロホン4L、4Rが捕捉して得た入力音信号はそれぞれ、対応するA/D変換部31L、31Rによってデジタル信号inputL、inputRに変換されて放音非目的音キャンセラ処理部32に与えられる。放音非目的音キャンセラ処理部32には、音源データsigL及びsigRも与えられる。
Input sound signals obtained by the
放音非目的音キャンセラ処理部32においては、Lチャンネルに係る入力音信号(デジタル信号)inputLから、内部で生成した疑似放音目的音信号PSechoLを減算することにより、放音非目的音が除去された入力音信号ECoutLが得られ、同様に、Rチャンネルに係る入力音信号(デジタル信号)inputRから、内部で生成した疑似放音目的音信号PSechoRを減算することにより、放音非目的音が除去された入力音信号ECoutRが得られる。このようにして得られた放音非目的音が除去された一対に入力音信号ECoutL、ECoutRが、内部生成の一対の疑似放音目的音信号PSechoL、PSechoRと共に、音源分離処理部33に与えられる。
In the sound non-target sound
音源分離処理部33においては、FFT部41によって、時間領域信号である、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)と、疑似放音目的音信号PSechoL(n)、PSechoR(n)とがそれぞれ、周波数領域信号XL(f,K)、XR(f,K)、YL(f,K)、YR(f,K)に変換される。
In the sound source
そして、第1のコヒーレンス係数計算部42によって、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)から得られた周波数領域信号XL(f,K)及びXR(f,K)に基づいて、コヒーレンス係数Xcoef(f,K)が計算され、第2のコヒーレンス係数計算部43によって、疑似放音目的音信号PSechoL(n)、PSechoR(n)から得られた周波数領域信号YL(f,K)及びYR(f,K)に基づいてコヒーレンス係数Ycoef(f,K)が計算される。
Then, the first coherence
その後、抑圧係数算出部44において、2つのコヒーレンス係数Xcoef(f,K)及びYcoef(f,K)から、(1)式に従って、非目的音を抑圧する抑圧係数NRcoef(f,K)が算出されて抑圧係数乗算部45に与えられ、抑圧係数乗算部45によって、放音非目的音が除去された入力音信号から得られた一方の周波数領域信号XL(f,K)に抑圧係数NRcoef(f,K)が周波数成分毎に乗算されて非目的音が除去された周波数領域信号Z(f,K)が得られる。この周波数領域信号である非目的音抑圧信号Z(f、K)をIFFT部46によって時間領域信号z(n)に変換することにより、目的音成分だけを含む出力信号output(=z(n))が得られる。
Thereafter, the suppression
(A−3)第1の実施形態の効果
第1の実施形態によれば、非目的音を一括して捉えるのではなく、放音非目的音及び背景非目的音に区別し、それぞれに適した除去処理を適用して除去して目的音を抽出するようにしたので、目的音の抽出精度を非常に高いものとすることができる。
(A-3) Effects of the first embodiment According to the first embodiment, the non-target sounds are not collectively detected, but are classified into the emitted non-target sounds and the background non-target sounds, which are suitable for each. Since the target sound is extracted by applying the removal process, the target sound extraction accuracy can be made extremely high.
しかも、第1の実施形態によれば、疑似放音目的音信号から算出したコヒーレンスフィルタ係数の特性を雑音抑圧係数に反映するようにしたので、音源データが衝撃音を含んでいたとしても、非目的音を十分に抑圧することができる。 In addition, according to the first embodiment, since the characteristics of the coherence filter coefficient calculated from the simulated sound emission target sound signal are reflected in the noise suppression coefficient, even if the sound source data includes an impact sound, the The target sound can be sufficiently suppressed.
その結果、例えば、抽出した目的音成分である音声を通話に用いた場合には通話音質を高めることができ、抽出した目的音成分である音声を音声認識に供する場合には認識率を高めることができる。 As a result, for example, when the voice that is the extracted target sound component is used for a call, the call sound quality can be improved, and when the voice that is the extracted target sound component is used for voice recognition, the recognition rate is increased. Can do.
(B)第2の実施形態
次に、本発明による集音・放音装置、音源分離ユニット及び音源分離プログラムの第2の実施形態を、図面を参照しながら説明する。
(B) Second Embodiment Next, a second embodiment of the sound collecting / sound emitting device, sound source separation unit, and sound source separation program according to the present invention will be described with reference to the drawings.
第2の実施形態は、第1の実施形態と比較すると、音源分離処理部(以下、符号33Aを用いる)の内部構成が異なっている。
The second embodiment is different from the first embodiment in the internal configuration of a sound source separation processing unit (hereinafter,
図4は、第2の実施形態の音源分離処理部33Aの詳細構成を示すブロック図であり、第1の実施形態に係る上述した図2との同一、対応部分には、同一符号を付して示している。
FIG. 4 is a block diagram showing a detailed configuration of the sound source
図4において、第2の実施形態の音源分離処理部33Aは、FFT部41、第1のコヒーレンス係数計算部42、第2のコヒーレンス係数計算部43、抑圧係数算出部44A、抑圧係数乗算部45及びIFFT部46に加え、コヒーレンス計算部47及び放音非目的音種判定部48を有する。また、抑圧係数算出部44Aも、第1の実施形態のものから変更されている。
4, the sound source
コヒーレンス計算部47は、第2のコヒーレンス係数計算部43が得た第2のコヒーレンス係数Ycoef(f,K)から、コヒーレンスCOH(K)を計算するものである。コヒーレンスCOH(K)は、特許文献1の(5)式に示すように、全M個の周波数成分毎のコヒーレンス係数Ycoef(f,K)の平均値として算出される。
The coherence calculator 47 calculates the coherence COH (K) from the second coherence coefficient Ycoef (f, K) obtained by the second
放音非目的音種判定部48は、コヒーレンス計算部47が得たコヒーレンスCOH(K)に基づいて、放音非目的音となる音源データsigL、sigRの音種を判定するものである。例えば、衝撃音を含む音源データsigL、sigRか、衝撃音をほとんど含まない音源データsigL、sigRかを判別するものである。
The sound emission non-purpose sound
放音非目的音種判定部48は、例えば、プログラムで実現されており、機能的には、図5に示すように、コヒーレンス受信部61、長期平均計算部62、分散計算部63、判定部64及び判定結果出力部65を有する。
The sound emission non-purpose sound
コヒーレンス受信部61は、コヒーレンス計算部47が得たコヒーレンスCOH(K)を取り込むものである。
The
長期平均計算部62は、コヒーレンスCOH(K)の長期平均値avecoh(K)を、例えば、(3)式に従って計算するものであり、分散計算部63は、一般的な分散の計算式に従ってコヒーレンスCOH(K)の分散varを計算するものである。
The long-term
avecoh(k)
=β×COH(K)+(1−β)×COH(K−1)
但し、βは0.0<β<1.0の範囲の値 …(3)
判定部64は、コヒーレンスCOH(K)の長期平均値avecoh(K)と分散varとから、放音非目的音となる音源データsigL、sigRの音種を判定するものである。判定部64は、例えば、長期平均値avecoh(K)が予め設定されている閾値を超え、かつ、分散varが予め設定されている閾値を超えている場合に、音源データsigL、sigRが衝撃音を含むものであると判定し、長期平均値avecoh(K)及び分散varの組み合わせが上記以外の場合に、音源データsigL、sigRが衝撃音を含まないものであると判定する。
avecoh (k)
= Β × COH (K) + (1−β) × COH (K−1)
However, β is a value in the range of 0.0 <β <1.0 (3)
The
判定結果出力部65は、得られた音種の判定結果を、抑圧係数算出部44Aに与えるものである。
The determination
図6は、音源データsigL、sigRの楽曲が、変化が穏やかなクラシックの場合と衝撃音を含む変化が激しいロックの場合に得られたコヒーレンスCOH(K)の時間変化を示している。クラシックの場合には、コヒーレンスCOH(K)の長期平均値は小さく分散も小さい。ロックの場合には、衝撃波部分が長期平均値を引き上げると共に、分散を大きくしている。そのため、コヒーレンスCOH(K)の長期平均値及び分散に基づいて、音源データsigL、sigRが衝撃音を含むものであるか否かを判定することができる。 FIG. 6 shows temporal changes in coherence COH (K) obtained when the music of the sound source data sigL and sigR is a classical music with a gentle change and a rock with a strong change including an impact sound. In the case of classic, the long-term average value of coherence COH (K) is small and the variance is also small. In the case of rock, the shock wave part raises the long-term average and increases the dispersion. Therefore, based on the long-term average value and variance of the coherence COH (K), it can be determined whether or not the sound source data sigL and sigR includes an impact sound.
コヒーレンスを適用するようにしたのは、以下の理由による。コヒーレンスは、信号レベルで正規化されている周波数成分毎のコヒーレンス係数を平均したものであるので、放音非目的音の音量に影響を受けずに算出できる。従って、ロックとクラシックのような音量が大きく異なる楽曲同士であっても、音量に依存せずに特性を比較でき、音量が大きいクラシックを誤ってロックと判定するようなことを極力排除することができる。 The reason why the coherence is applied is as follows. The coherence is an average of the coherence coefficients for each frequency component normalized by the signal level, and thus can be calculated without being affected by the volume of the emitted non-target sound. Therefore, even between songs such as rock and classical music with greatly different volumes, the characteristics can be compared without depending on the volume, and it is possible to eliminate as much as possible that the classical music with a large volume is erroneously determined to be rock. it can.
第2の実施形態の抑圧係数算出部44Aは、放音非目的音種判定部48の判定結果に応じて、抑圧係数NRcoef(f,K)の算出方法を切り替えるものである。
The suppression
例えば、抑圧係数算出部44Aは、放音非目的音種判定部48の判定結果が、音源データsigL、sigRは衝撃音を含むという結果のときには、第1の実施形態と同様に(1)式に従って抑圧係数NRcoef(f,K)を算出し、一方、放音非目的音種判定部48の判定結果が、音源データsigL、sigRは衝撃音を含まないという結果のときには、第1のコヒーレンス係数計算部42が得たコヒーレンス係数Xcoef(f,K)をそのまま抑圧係数NRcoef(f,K)とする。衝撃音の有無に対し、これ以外の対応であっても良い。例えば、抑圧係数算出部44Aは、衝撃音の有無に応じて、(1)式におけるαを切り替えるようにしても良い(なお、衝撃音を含む場合の方がαを大きくする)。
For example, when the determination result of the sound emission non-target sound
第1の実施形態は、音源データsigL、sigRが衝撃音を含む場合の音源分離の精度低下を防止する工夫を有するものであるが、音源データsigL、sigRが衝撃音を含まない場合に、その工夫が却って精度に影響する恐れがある。 The first embodiment has a contrivance to prevent a decrease in accuracy of sound source separation when the sound source data sigL and sigR include impact sound, but when the sound source data sigL and sigR do not include impact sound, Ingenuity may affect accuracy.
この第2の実施形態によれば、放音非目的音となる音源データsigL、sigRが衝撃音を含むか否かに応じて、非目的音の抑圧係数の算出方法を切り替えるようにしたので、音源データsigL、sigRが衝撃音を含むか否かに拘わらず、音源分離精度を高めることができる。 According to the second embodiment, since the sound source data sigL and sigR that are sound emission non-target sounds include the impact sound, the calculation method of the suppression coefficient of the non-target sound is switched. Regardless of whether the sound source data sigL and sigR include impact sound, the sound source separation accuracy can be improved.
(C)他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
(C) Other Embodiments In the description of each of the above-described embodiments, various modified embodiments have been referred to. However, modified embodiments as exemplified below can be given.
上記各実施形態においては、放音非目的音キャンセラ処理部32として、ステレオエコーキャンセラの技術を流用したものを示したが、放音非目的音キャンセラ処理部32として、図7に示すような4つのモノラルエコーキャンセラ71LL、71RL、71LR、71RRの構成を利用するようにしても良い。なお、図7に示すような構成もステレオエコーキャンセラの範疇に属すると捉えることができる(非特許文献1の図3.73参照)。
In each of the above-described embodiments, the sound emission non-target sound
モノラルエコーキャンセラを用いる場合、スピーカ3L、3Rとマイクロホン4L、4Rが二つずつあるため音響経路の混雑が生じ、音響経路特性を正確に推定できず十分な抑圧効果が得られない場合がある。
When a monaural echo canceller is used, there are two
そこで、音源データsigL、sigRの再生に先立ち、ホワイトノイズをスピーカ3Lだけから放音して、スピーカ3Lからマイクロホン4Lまでの音響経路特性HLLとスピーカ3Lからマイクロホン4Rまでの音響経路特性HLRを、モノラルエコーキャンセラ71LL及び71LRの適応フィルタが推定し、次に、ホワイトノイズをスピーカ3Rだけから放音し、スピーカ3Rからマイクロホン4Lまでの音響経路特性HRLとスピーカ3Rからマイクロホン4Rまでの音響経路特性HRRをモノラルエコーキャンセラ71RL及び71RRの適応フィルタが推定し、初期設定しておく。以降、4つの音響経路特性と対応する音源データとを畳み込むことで得た疑似放音非目的音信号を、マイクロホンが捕捉した入力音信号から減算することで放音非目的音を抑圧することができる。以上のように、4つのモノラルエコーキャンセラ71LL、71RL、71LR、71RRの適応フィルタが、音源データの放音に先立って4つの音響経路特性をそれぞれ事前学習しておくことにより、音響経路の混雑を防ぎ、放音非目的音を抑圧することができる。
Therefore, prior to reproduction of the sound source data sigL and sigR, white noise is emitted only from the
なお、ホワイトノイズ区間終了後に、4つのモノラルエコーキャンセラ71LL、71RL、71LR、71RRの適応フィルタの係数更新を停止させ、ホワイトノイズで学習した際の係数を常時用いて放音非目的音の除去を行うようにしても良い。 After the white noise period is over, the update of the coefficients of the adaptive filters of the four monaural echo cancellers 71LL, 71RL, 71LR, 71RR is stopped, and the sound that has been learned with white noise is always used to remove the emitted non-target sound. You may make it do.
上記第1の実施形態では、抑圧係数計算部44が(1)式によって抑圧係数を算出するものを示したが、抑圧係数が小さくなり過ぎないように、(1)式の演算後にフロアリング処理を施すようにしても良い。このようにすると、過剰抑圧による音質低下を防ぐことができる。
In the first embodiment, the suppression
上記第1の実施形態では、抑圧係数計算部44が演算する(1)式における係数αが固定の場合を示したが、係数αとして可変係数を適用するようにしても良い。例えば、放音非目的音(若しくは非目的音全体)の含まれ具合に応じて係数αを制御するようにしても良い。例えば、放音非目的音となる音源データのパワーを雑音の含有量として係数αを可変するようにしても良い。これにより、雑音の含有量に応じて抑圧性能を制御することが可能となる。
In the first embodiment, the case where the coefficient α in the expression (1) calculated by the suppression
また、第2の実施形態では、音種の判定が、音源データが衝撃音を含むか否かの判定であったが、衝撃音を強く含む、弱く含む、含まないなどの3種類以上の判定であっても良く、この場合には、衝撃音の含み方によって係数αを切り替えるようにしても良い。 In the second embodiment, the determination of the sound type is a determination of whether or not the sound source data includes an impact sound. However, there are three or more determinations such as a strong, weak, and no impact sound. In this case, the coefficient α may be switched depending on how the impact sound is included.
上記各実施形態では、第1のコヒーレンス係数を、第2のコヒーレンス係数を利用して修正する演算式が(1)式に示す減算であるものを示したが、他の演算式(関数)を適用して、第2のコヒーレンス係数を利用して第1のコヒーレンス係数を修正するようにしても良い。例えば、第1のコヒーレンス係数を、第2のコヒーレンス係数を係数倍した値で除算して抑圧係数を算出するようにしても良い。 In each of the above embodiments, the arithmetic expression for correcting the first coherence coefficient by using the second coherence coefficient is the subtraction shown in the expression (1), but other arithmetic expressions (functions) are The first coherence coefficient may be corrected by applying the second coherence coefficient. For example, the suppression coefficient may be calculated by dividing the first coherence coefficient by a value obtained by multiplying the second coherence coefficient by a coefficient.
上記第2の実施形態では、放音非目的音(妨害音)の判定に用いる特徴量がコヒーレンスの分散及び長期平均値であるものを示したが、図6に示すような挙動を区別できるものであれば、他の統計量を用いるようにしても良い。例えば、コヒーレンスの最大値を平均値で割った値若しくは変動係数(=標準偏差/平均値)を特徴量として用いるようにしても良い。 In the second embodiment, the characteristic amount used for the determination of the sound emission non-target sound (interfering sound) is the coherence variance and the long-term average value. However, the characteristic as shown in FIG. 6 can be distinguished. If so, other statistics may be used. For example, a value obtained by dividing the maximum coherence value by the average value or a coefficient of variation (= standard deviation / average value) may be used as the feature amount.
また、コヒーレンスではなく、全てではない1又は複数の周波数成分のコヒーレンス係数を用いて特徴量を算出するようにしても良い。さらに、コヒーレンス係数やコヒーレンスを演算することなく、疑似放音非目的音信号のパワー変化等に基づいて、衝撃音の有無や衝撃音の混入段階を判別するようにしても良い。さらにまた、判定に用いる特徴量は、疑似放音非目的音信号から得られる特徴量に限定されない。例えば、疑似放音非目的音信号から得られる特徴量に代え、若しくは、疑似放音非目的音信号から得られる特徴量に加え、放音非目的音キャンセラ処理部から出力された、放音非目的音が除去された入力音信号から得られる特徴量を、放音非目的音の音種の判定に用いるようにしても良い。 Further, the feature amount may be calculated using not the coherence but the coherence coefficient of one or a plurality of frequency components that are not all. Furthermore, the presence / absence of an impact sound and the stage where the impact sound is mixed may be determined based on the power change of the pseudo sound emission non-target sound signal without calculating the coherence coefficient or coherence. Furthermore, the feature value used for the determination is not limited to the feature value obtained from the pseudo sound emission non-target sound signal. For example, instead of the feature amount obtained from the pseudo-non-target sound signal, or in addition to the feature amount obtained from the pseudo-non-target sound signal, the sound non-sound output from the sound non-target sound canceller processing unit is output. You may make it use the feature-value obtained from the input sound signal from which the target sound was removed for determination of the kind of sound of a non-target sound to be emitted.
上記第2の実施形態では、音種の判定結果を、抑圧係数の算出方法に反映させるものを示したが、これに代え、若しくは、これに加え、放音非目的音キャンセラ処理部内の適応フィルタのステップサイズの変更に利用するようにしても良い。例えば、衝撃音を含む場合には、ステップサイズを大きくして追従性を速めるようにする。 In the second embodiment, the sound type determination result is reflected in the suppression coefficient calculation method. However, instead of or in addition to this, an adaptive filter in the sound emission non-target sound canceller processing unit is used. It may be used to change the step size. For example, when an impact sound is included, the step size is increased to speed up the follow-up performance.
上記各実施形態では、音源分離処理部がコヒーレンスフィルタ法に従って目的音と背景非目的音とを分離するものを示したが、分離方法はこれに限定されない。例えば、コヒーレンスフィルタ法と周波数減算法(スペクトル減算法)との組み合わせを適用するようにしても良く、コヒーレンスフィルタ法とウィーナーフィルタ法との組み合わせを適用するようにしても良く、コヒーレンスフィルタ法と周波数減算法とウィーナーフィルタ法との組み合わせを適用するようにしても良い。 In each of the embodiments described above, the sound source separation processing unit has shown the target sound and the background non-target sound separated according to the coherence filter method, but the separation method is not limited to this. For example, a combination of the coherence filter method and the frequency subtraction method (spectral subtraction method) may be applied, or a combination of the coherence filter method and the Wiener filter method may be applied. The coherence filter method and the frequency A combination of the subtraction method and the Wiener filter method may be applied.
周波数減算法を適用する場合において、入力音声信号のスペクトルから雑音成分のスペクトルを減算する比率を、第2の実施形態で判定した音種の判定結果に応じて変更するようにしても良い。また、ウィーナーフィルタ法を適用する場合において、入力音声信号のスペクトルに対して乗算するウィーナーフィルタ係数を、第2の実施形態で判定した音種の判定結果に応じて変更するようにしても良い。 When applying the frequency subtraction method, the ratio of subtracting the spectrum of the noise component from the spectrum of the input speech signal may be changed according to the determination result of the sound type determined in the second embodiment. Further, when applying the Wiener filter method, the Wiener filter coefficient to be multiplied with respect to the spectrum of the input audio signal may be changed according to the determination result of the sound type determined in the second embodiment.
上記各実施形態では、スピーカが2つの場合を示したが、スピーカは1つでも3つ以上であっても良い。また、マイクロホンも2つに限定されず、3以上あっても良い。スピーカとマイクロホンとの数に応じて定まる放音音響経路の数を考慮して、放音非目的音キャンセラ処理部32の内部構成を設計すれば良い。
In each of the above-described embodiments, the case where there are two speakers is shown, but there may be one speaker or three or more speakers. Also, the number of microphones is not limited to two and may be three or more. The internal configuration of the sound emission non-target sound
上記各実施形態では、集音・放音装置単体で全ての処理を実行するものを示したが、非目的音の除去処理などを外部のサーバに委ねて実行するようにしても良い。例えば、集音・放音装置がスマートフォンの場合において、いわゆるクラウドによってシステムを構成し、利用者から外部サーバの存在が分からないように更新しても良い。特許請求の範囲における「集音・放音装置」の請求項は、利用者からは見えない外部サーバが処理を行っている場合を含むものとする。 In each of the above-described embodiments, the sound collection / sound emission device alone performs all processing. However, the non-target sound removal processing may be performed by an external server. For example, when the sound collection / sound emission device is a smartphone, the system may be configured by a so-called cloud and updated so that the user does not know the presence of the external server. The claim of “sound collecting / sound emitting device” in the claims includes a case where an external server that is invisible to the user performs processing.
10…集音・放音装置、
20…放音部、21L、21R…音源データ記憶部、22L、22R…D/A変換部、3L、3R…スピーカ、
30…集音部、4L、4R…マイクロホン、31L、31R…A/D変換部、32…放音非目的音キャンセラ処理部、33、33A…音源分離処理部、41…FFT部、42…第1のコヒーレンス係数計算部、43…第2のコヒーレンス係数計算部、44、44A…抑圧係数算出部、45…抑圧係数乗算部、46…IFFT部、47…コヒーレンス計算部、48…放音非目的音種判定部。
10 ... Sound collecting / sound emitting device,
20 ... Sound emission part, 21L, 21R ... Sound source data storage part, 22L, 22R ... D / A conversion part, 3L, 3R ... Speaker
30 ... Sound collection unit, 4L, 4R ... Microphone, 31L, 31R ... A / D conversion unit, 32 ... Sound emission non-target sound canceller processing unit, 33, 33A ... Sound source separation processing unit, 41 ... FFT unit, 42th 1 coherence
Claims (7)
上記2本のマイクロホンが周囲音を捕捉した入力音信号に基づき、所定方位にある音源からの目的音を抽出する音源分離手段と、
上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロホンで捕捉された放音に伴う非目的音を疑似した疑似放音非目的音信号を生成し、上記各マイクロホンからの入力音信号から減算することにより、上記各マイクロホンで捕捉された放音非目的音を除去する、上記音源分離手段へ至る経路までに設けられた放音非目的音除去手段とを備え、
上記音源分離手段は、
上記放音非目的音除去手段から出力された放音非目的音を除去された入力音信号から、音源分離のための第1のパラメータを生成する第1の分離用パラメータ生成部と、
上記放音非目的音除去手段内で生成された疑似放音非目的音信号に基づいて、音源分離のための第2のパラメータを生成する第2の分離用パラメータ生成部と、
上記第1のパラメータを上記第2のパラメータを利用して修正して音源分離に利用する最終的なパラメータを得るパラメータ修正部と、
修正されたパラメータを適用して音源分離を行う音源分離部とを有し、
放音非目的音を上記放音非目的音除去手段で除去すると共に、その他の非目的音を上記音源分離手段で除去して目的音を抽出する
ことを特徴とする集音・放音装置。 In a sound collection / sound emission device having a sound collection unit in which at least two microphones capture ambient sound and a sound emission unit that emits sound from one or more speakers,
Sound source separation means for extracting a target sound from a sound source in a predetermined direction based on an input sound signal obtained by capturing the ambient sound by the two microphones;
A sound signal emitted by the sound emitting unit is input, sound is emitted from the speaker, and a pseudo sound emitting non-purpose sound signal that simulates a non-purpose sound accompanying sound emission captured by each microphone is generated, A sound emission non-target sound removing means provided up to a route to the sound source separation means for removing the sound non-purpose sound captured by each microphone by subtracting from the input sound signal from each microphone; Prepared,
The sound source separation means is
A first separation parameter generating unit that generates a first parameter for sound source separation from the input sound signal from which the sound non-target sound output from the sound non-target sound removing means is removed;
A second separation parameter generating unit that generates a second parameter for sound source separation based on the pseudo-sound non-target sound signal generated in the sound non-target sound removing means;
A parameter correction unit for correcting the first parameter using the second parameter to obtain a final parameter used for sound source separation;
A sound source separation unit that performs sound source separation by applying the corrected parameters;
A sound collecting / sound emitting device characterized in that the non-target sound is removed by the sound non-target sound removing means and the non-target sound is removed by the sound source separation means to extract the target sound.
上記2本のマイクロホンが周囲音を捕捉した入力音信号に基づき、所定方位にある音源からの目的音を抽出する音源分離手段と、
上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロホンで捕捉された放音に伴う非目的音を疑似した疑似放音非目的音信号を生成し、上記各マイクロホンからの入力音信号から減算することにより、上記各マイクロホンで捕捉された放音非目的音を除去する、上記音源分離手段へ至る経路までに設けられた放音非目的音除去手段とを備え、
上記音源分離手段は、
上記放音非目的音除去手段から出力された放音非目的音を除去された入力音信号から、音源分離のための第1のパラメータを生成する第1の分離用パラメータ生成部と、
上記放音非目的音除去手段内で生成された疑似放音非目的音信号に基づいて、音源分離のための第2のパラメータを生成する第2の分離用パラメータ生成部と、
上記第1のパラメータを上記第2のパラメータを利用して修正して音源分離に利用する最終的なパラメータを得るパラメータ修正部と、
修正されたパラメータを適用して音源分離を行う音源分離部とを有し、
放音非目的音を上記放音非目的音除去手段で除去すると共に、その他の非目的音を上記音源分離手段で除去して目的音を抽出する
ことを特徴とする音源分離ユニット。 A sound source separation unit applied to a sound collection / sound emission device having a sound collection unit in which at least two microphones capture ambient sound and a sound emission unit that emits sound from one or more speakers,
Sound source separation means for extracting a target sound from a sound source in a predetermined direction based on an input sound signal obtained by capturing the ambient sound by the two microphones;
A sound signal emitted by the sound emitting unit is input, sound is emitted from the speaker, and a pseudo sound emitting non-purpose sound signal that simulates a non-purpose sound accompanying sound emission captured by each microphone is generated, A sound emission non-target sound removing means provided up to a route to the sound source separation means for removing the sound non-purpose sound captured by each microphone by subtracting from the input sound signal from each microphone; Prepared,
The sound source separation means is
A first separation parameter generating unit that generates a first parameter for sound source separation from the input sound signal from which the sound non-target sound output from the sound non-target sound removing means is removed;
A second separation parameter generating unit that generates a second parameter for sound source separation based on the pseudo-sound non-target sound signal generated in the sound non-target sound removing means;
A parameter correction unit for correcting the first parameter using the second parameter to obtain a final parameter used for sound source separation;
A sound source separation unit that performs sound source separation by applying the corrected parameters;
A sound source separation unit characterized in that a non-target sound is removed by the sound non-target sound removing means, and a target sound is extracted by removing other non-purpose sounds by the sound source separation means.
上記コンピュータを、
上記2本のマイクロホンが周囲音を捕捉した入力音信号に基づき、所定方位にある音源からの目的音を抽出する音源分離手段と、
上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロホンで捕捉された放音に伴う非目的音を疑似した疑似放音非目的音信号を生成し、上記各マイクロホンからの入力音信号から減算することにより、上記各マイクロホンで捕捉された放音非目的音を除去する、上記音源分離手段へ至る経路までに設けられた放音非目的音除去手段として機能させ、
機能させられる上記音源分離手段は、
上記放音非目的音除去手段から出力された放音非目的音を除去された入力音信号から、音源分離のための第1のパラメータを生成する第1の分離用パラメータ生成部と、
上記放音非目的音除去手段内で生成された疑似放音非目的音信号に基づいて、音源分離のための第2のパラメータを生成する第2の分離用パラメータ生成部と、
上記第1のパラメータを上記第2のパラメータを利用して修正して音源分離に利用する最終的なパラメータを得るパラメータ修正部と、
修正されたパラメータを適用して音源分離を行う音源分離部とを有し、
放音非目的音を上記放音非目的音除去手段で除去すると共に、その他の非目的音を上記音源分離手段で除去して目的音を抽出する
ことを特徴とする音源分離プログラム。 A sound source separation program executed by a computer mounted on a sound collecting / sound emitting device having a sound collecting unit in which at least two microphones capture ambient sound and a sound emitting unit emitting sound from one or more speakers. And
The above computer
Sound source separation means for extracting a target sound from a sound source in a predetermined direction based on an input sound signal obtained by capturing the ambient sound by the two microphones;
A sound signal emitted by the sound emitting unit is input, sound is emitted from the speaker, and a pseudo sound emitting non-purpose sound signal that simulates a non-purpose sound accompanying sound emission captured by each microphone is generated, Functions as sound emission non-target sound removal means provided up to the path to the sound source separation means, which removes sound emission non-purpose sound captured by each microphone by subtracting from the input sound signal from each microphone Let
The sound source separation means to be operated is
A first separation parameter generating unit that generates a first parameter for sound source separation from the input sound signal from which the sound non-target sound output from the sound non-target sound removing means is removed;
A second separation parameter generating unit that generates a second parameter for sound source separation based on the pseudo-sound non-target sound signal generated in the sound non-target sound removing means;
A parameter correction unit for correcting the first parameter using the second parameter to obtain a final parameter used for sound source separation;
A sound source separation unit that performs sound source separation by applying the corrected parameters;
A sound source separation program for removing a non-target sound by the sound non-target sound removing means and extracting a target sound by removing other non-target sounds by the sound source separation means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013199981A JP2015070291A (en) | 2013-09-26 | 2013-09-26 | Sound collection/emission device, sound source separation unit and sound source separation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013199981A JP2015070291A (en) | 2013-09-26 | 2013-09-26 | Sound collection/emission device, sound source separation unit and sound source separation program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015070291A true JP2015070291A (en) | 2015-04-13 |
Family
ID=52836631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013199981A Pending JP2015070291A (en) | 2013-09-26 | 2013-09-26 | Sound collection/emission device, sound source separation unit and sound source separation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015070291A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105227743A (en) * | 2015-08-25 | 2016-01-06 | 努比亚技术有限公司 | A kind of method for recording, device and mobile terminal |
WO2018229821A1 (en) * | 2017-06-12 | 2018-12-20 | ヤマハ株式会社 | Signal processing device, teleconferencing device, and signal processing method |
-
2013
- 2013-09-26 JP JP2013199981A patent/JP2015070291A/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105227743A (en) * | 2015-08-25 | 2016-01-06 | 努比亚技术有限公司 | A kind of method for recording, device and mobile terminal |
WO2018229821A1 (en) * | 2017-06-12 | 2018-12-20 | ヤマハ株式会社 | Signal processing device, teleconferencing device, and signal processing method |
CN110731088A (en) * | 2017-06-12 | 2020-01-24 | 雅马哈株式会社 | Signal processing apparatus, teleconference apparatus, and signal processing method |
JPWO2018229821A1 (en) * | 2017-06-12 | 2020-04-16 | ヤマハ株式会社 | Signal processing device, remote conference device, and signal processing method |
US10978087B2 (en) | 2017-06-12 | 2021-04-13 | Yamaha Corporation | Signal processing device, teleconferencing device, and signal processing method |
JP2021193807A (en) * | 2017-06-12 | 2021-12-23 | ヤマハ株式会社 | Signal processing device, teleconferencing device, and signal processing method |
CN110731088B (en) * | 2017-06-12 | 2022-04-19 | 雅马哈株式会社 | Signal processing apparatus, teleconference apparatus, and signal processing method |
JP7215541B2 (en) | 2017-06-12 | 2023-01-31 | ヤマハ株式会社 | SIGNAL PROCESSING DEVICE, REMOTE CONFERENCE DEVICE, AND SIGNAL PROCESSING METHOD |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106664473B (en) | Information processing apparatus, information processing method, and program | |
CN102947685B (en) | Method and apparatus for reducing the effect of environmental noise on listeners | |
CN1926911B (en) | Howling suppression device, program, integrated circuit, and howling suppression method | |
US8355511B2 (en) | System and method for envelope-based acoustic echo cancellation | |
US9558755B1 (en) | Noise suppression assisted automatic speech recognition | |
US8867759B2 (en) | System and method for utilizing inter-microphone level differences for speech enhancement | |
JP6196320B2 (en) | Filter and method for infomed spatial filtering using multiple instantaneous arrival direction estimates | |
JP5762956B2 (en) | System and method for providing noise suppression utilizing nulling denoising | |
JP5060631B1 (en) | Signal processing apparatus and signal processing method | |
CN104303227A (en) | Apparatus and method for improving the perceived quality of sound reproduction by combining active noise cancellation and perceptual noise compensation | |
US9343073B1 (en) | Robust noise suppression system in adverse echo conditions | |
US8761410B1 (en) | Systems and methods for multi-channel dereverberation | |
JP2008122729A (en) | Noise reducing device, noise reducing method, noise reducing program, and noise reducing audio outputting device | |
EP2752848B1 (en) | Method and apparatus for generating a noise reduced audio signal using a microphone array | |
JP4886881B2 (en) | Acoustic correction device, acoustic output device, and acoustic correction method | |
JP5811993B2 (en) | Headphones, headphone noise reduction method, noise reduction processing program | |
CN111554317A (en) | Voice broadcasting method, device, computer storage medium and system | |
JP4835151B2 (en) | Audio system | |
JP2015070291A (en) | Sound collection/emission device, sound source separation unit and sound source separation program | |
JP2015070292A (en) | Sound collection/emission device and sound collection/emission program | |
JP2002247699A (en) | Stereophonic signal processing method and device, and program and recording medium | |
JP6186878B2 (en) | Sound collecting / sound emitting device, sound source separation unit and sound source separation program | |
JP2016024231A (en) | Sound collection and sound radiation device, disturbing sound suppression device and disturbing sound suppression program | |
JP5880753B2 (en) | Headphones, headphone noise reduction method, noise reduction processing program | |
JP5022459B2 (en) | Sound collection device, sound collection method, and sound collection program |