JP2011172081A - Amplifying conversation method, device and program - Google Patents

Amplifying conversation method, device and program Download PDF

Info

Publication number
JP2011172081A
JP2011172081A JP2010034890A JP2010034890A JP2011172081A JP 2011172081 A JP2011172081 A JP 2011172081A JP 2010034890 A JP2010034890 A JP 2010034890A JP 2010034890 A JP2010034890 A JP 2010034890A JP 2011172081 A JP2011172081 A JP 2011172081A
Authority
JP
Japan
Prior art keywords
gain
superposition
sound
main channel
sound signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010034890A
Other languages
Japanese (ja)
Inventor
Sumitaka Sakauchi
澄宇 阪内
Akira Emura
暁 江村
Kenta Niwa
健太 丹羽
Yoichi Haneda
陽一 羽田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010034890A priority Critical patent/JP2011172081A/en
Publication of JP2011172081A publication Critical patent/JP2011172081A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an amplifying conversation device, method and program, in which a sound volume can be automatically controlled for each microphone not degrading follow-up performance, without increasing a calculation amount of an adapted filter or a memory amount. <P>SOLUTION: The amplifying conversation device includes a main channel estimating section 430 for estimating one or more microphones to be a main channel, an addition section 440 for adding a collected sound as a sound signal, an echo cancel section 450 for canceling echo of the added sound signal, a sound detecting section 461 for detecting sound from the echo-canceled sound signal, a superposition gain calculating section 462 for setting an initial value based on the main channel when sound is detected and calculating a superposition gain using the initial value and the echo-canceled sound signal, a gain superposing section 463 for superposing the superposition gain and the echo-canceled sound signal, and a superposition gain storing section 464 for respective channels for storing the superposition gain corresponding to the main channel. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、音信号を用いた遠隔通信において、スピーカから出力される音声レベルを、マイクロホンに入力された音声レベルなどに応じて、自動で制御する拡声通話方法、拡声通話装置、拡声通話プログラムに関する。   The present invention relates to a voice call method, a voice call device, and a voice call program for automatically controlling a voice level output from a speaker in accordance with a voice level inputted to a microphone in remote communication using a sound signal. .

遠隔通信会議に用いられる拡声通話装置の機能として、図1のように適応フィルタを用いて音響エコーの発生を防止するエコーキャンセラがある。エコーキャンセラには、図2のようにボイススイッチを併用することにより、適応フィルタに対する初期学習を必要としないものもある。
例えば、図1に示すエコーキャンセラでは、適応フィルタ914が、スピーカ911からマイクロホン912への音響エコー経路913に相当する伝達経路を推定する。適応フィルタ914は、推定された伝達経路に基づき、疑似エコー信号を合成し、エコー信号から、疑似エコー信号を差し引くことで、エコー信号を消去する。
例えば、図2に示すエコーキャンセラでは、BG適応フィルタ924が、適応処理を行い、エコー消去フィルタ925が、BG適応フィルタ924から転送される係数で疑似エコーを推定する。ボイススイッチ制御回路926は、電源立ち上げ時に主に損失を挿入し、適応フィルタの収束に伴い、挿入する損失量を減少させる(非特許文献1参照)。
As a function of the voice communication device used in the remote communication conference, there is an echo canceller that prevents the generation of acoustic echo using an adaptive filter as shown in FIG. Some echo cancellers do not require initial learning for an adaptive filter by using a voice switch as shown in FIG.
For example, in the echo canceller shown in FIG. 1, the adaptive filter 914 estimates a transmission path corresponding to the acoustic echo path 913 from the speaker 911 to the microphone 912. The adaptive filter 914 synthesizes the pseudo echo signal based on the estimated transmission path, and deletes the echo signal by subtracting the pseudo echo signal from the echo signal.
For example, in the echo canceller shown in FIG. 2, the BG adaptive filter 924 performs an adaptive process, and the echo cancellation filter 925 estimates a pseudo echo with a coefficient transferred from the BG adaptive filter 924. The voice switch control circuit 926 mainly inserts a loss when the power is turned on, and reduces the amount of loss to be inserted as the adaptive filter converges (see Non-Patent Document 1).

また、遠隔通信会議に用いられる拡声通話装置の機能として、図3のような自動音量制御装置がある。
図3の自動音量制御装置では、まず、入力信号は切り出し窓により切り出され、バッファ931に蓄えられる。次に、音声信号識別回路932が、入力信号が音声信号であるか否かを識別する。音量増幅回路933は、音声信号識別回路932の識別結果に基づいて、入力信号の増幅率を決定する。波形重畳回路934は、音量増幅回路933にて決定された増幅率に基づいたコサイン窓を入力信号に重畳し、重畳結果を出力信号とする。音声信号識別回路932に用いられるアルゴリズムは隠れマルコフモデル、ベクトル量子化、ニューラルネットワークなどである(特許文献1参照)。
Moreover, there is an automatic volume control device as shown in FIG.
In the automatic volume control apparatus of FIG. 3, first, the input signal is cut out by the cutout window and stored in the buffer 931. Next, the audio signal identification circuit 932 identifies whether or not the input signal is an audio signal. The volume amplification circuit 933 determines the amplification factor of the input signal based on the identification result of the audio signal identification circuit 932. The waveform superimposing circuit 934 superimposes a cosine window based on the amplification factor determined by the volume amplifier circuit 933 on the input signal, and uses the superimposition result as an output signal. The algorithm used for the audio signal identification circuit 932 is a hidden Markov model, vector quantization, a neural network, or the like (see Patent Document 1).

特開平8−250944号公報JP-A-8-250944

北脇信彦編著、「未来ねっと技術シリーズ ディジタル音声・オーディオ技術」オーム社出版、pp218〜255.Edited by Nobuhiko Kitawaki, `` Future Netto Technology Series Digital Voice / Audio Technology '', published by Ohmsha, pp218-255.

例えば、遠隔通信会議などで、複数の話者が存在し、話者それぞれにマイクロホンが設置された場合、話者と話者に近接するマイクロホンとの距離、話者の声の大きさが、それぞれ異なっていることにより、マイクロホンごとに出力音声レベルにバラツキが生じ、出力音声が聞き取りにくくなるという課題がある。   For example, in a telecommunication conference, when there are multiple speakers and a microphone is installed for each speaker, the distance between the speaker and the microphone adjacent to the speaker, and the speaker's voice volume, Due to the difference, there is a problem that the output sound level varies from microphone to microphone, making it difficult to hear the output sound.

この課題を解決するためには、複数のマイクロホンの各々に対して、個別に自動音量制御を行うことが必要である。
しかしながら、適応フィルタは音響エコー経路を線形システムとして推定して動作する一方、前述のような自動音量制御は非線形な処理を行うため、当該制御を適応フィルタと音響エコー経路の間に配置できない。
したがって、自動音量制御は適応フィルタよりも伝送網側にて行う必要がある。このため、複数のマイクロホンの各々に対して個別に自動音量制御を行う場合には、適応フィルタにマイクロホンと同じ数だけ音信号を入力しなければならず、適応フィルタの演算量やメモリ量が、マイクロホンの数に比例して増大する、という課題が生じる。
In order to solve this problem, it is necessary to perform automatic volume control individually for each of the plurality of microphones.
However, while the adaptive filter operates by estimating the acoustic echo path as a linear system, the automatic volume control as described above performs non-linear processing, and thus the control cannot be arranged between the adaptive filter and the acoustic echo path.
Therefore, automatic volume control needs to be performed on the transmission network side rather than the adaptive filter. For this reason, when performing automatic volume control individually for each of a plurality of microphones, the same number of sound signals as the microphones must be input to the adaptive filter, and the amount of computation and memory of the adaptive filter are The problem of increasing in proportion to the number of microphones arises.

このあらたな課題を解決するためには、複数のマイクロホンからの入力音信号を、1つに加算してから適応フィルタに入力し、適応フィルタの演算量、メモリ量を減少させる必要がある。
しかしながら、前述のような自動音量制御は制御に時間を要するため、話者が変わることにより、メインで収音するマイクロホン(メインチャネル、以下同じ)が頻繁に移り変わる場合には、追随性能が劣化する、という課題がさらに生じる。
In order to solve this new problem, it is necessary to add input sound signals from a plurality of microphones to one and then input to the adaptive filter, thereby reducing the amount of computation and memory of the adaptive filter.
However, since the automatic volume control as described above takes time to control, the follow-up performance deteriorates when the microphone (main channel, the same applies hereinafter) that collects sound frequently changes due to the change of the speaker. A further problem arises.

本発明は、これらの課題を解決するためになされたもので、適応フィルタの演算量やメモリ量を増やすことなく、メインチャネルの頻繁な移り変わりによっても、追随性能が劣化しない、複数のマイクロホンの各々に対する個別の自動音量制御を可能とする拡声通話方法、拡声通話装置、拡声通話プログラムを提供することを目的とする。   The present invention has been made to solve these problems. Each of the plurality of microphones does not deteriorate the following performance even if the main channel is frequently changed without increasing the calculation amount and memory amount of the adaptive filter. It is an object to provide a loudspeaking method, a loudspeaker device, and a loudspeaker program that enable individual automatic volume control.

本発明の拡声通話方法は、メインチャネル推定処理と、加算処理と、エコーキャンセル処理と、音声検出処理と、重畳ゲイン計算処理と、ゲイン重畳処理と、チャネル別重畳ゲイン記憶処理とを有する。
メインチャネル推定処理では、N個(ただしNは2以上の整数)のマイクロホンの1以上をメインチャネルとして推定する。加算処理では、マイクロホンに収音された音を、音信号として加算する。エコーキャンセル処理では、加算された音信号のエコーをキャンセルする。音声検出処理では、エコーキャンセル処理を行った音信号から、音声を検出する。重畳ゲイン計算処理では、音声が検出された場合に、推定されたメインチャネルに基づいて初期値を設定し、この初期値と、エコーキャンセル処理を行った音信号とを用いて重畳ゲインを計算する。ゲイン重畳処理では、重畳ゲイン計算処理により計算された重畳ゲインと、エコーキャンセル処理を行った音信号とを重畳する。チャネル別重畳ゲイン記憶処理では、重畳ゲイン計算処理により計算された重畳ゲインを、推定されたメインチャネルに対応させて、チャネル別重畳ゲイン記憶部に記憶する。
ここで、重畳ゲイン計算処理で設定する初期値は、初期値設定処理時に、チャネル別重畳ゲイン記憶部にメインチャネルごとに記憶されている過去の重畳ゲインを用いることもできる。
また、各群が複数のマイクロホンを有するように、マイクロホンをM個(ただしMは2以上の整数)の群に分け、各群のマイクロホンで収音された音に対して、群ごとに前述の処理を行うこともできる。
The voice call method of the present invention includes main channel estimation processing, addition processing, echo cancellation processing, voice detection processing, superposition gain calculation processing, gain superposition processing, and channel-specific superposition gain storage processing.
In the main channel estimation process, one or more of N (where N is an integer of 2 or more) microphones are estimated as the main channel. In the addition process, the sound collected by the microphone is added as a sound signal. In the echo cancellation process, the echo of the added sound signal is canceled. In the sound detection process, a sound is detected from the sound signal subjected to the echo cancellation process. In the superposition gain calculation process, when speech is detected, an initial value is set based on the estimated main channel, and a superposition gain is calculated using the initial value and the sound signal subjected to the echo cancellation process. . In the gain superimposing process, the superimposing gain calculated by the superimposing gain calculating process and the sound signal subjected to the echo canceling process are superimposed. In the channel-specific superimposing gain storage process, the superimposing gain calculated by the superimposing gain calculation process is stored in the channel-specific superimposing gain storage unit in association with the estimated main channel.
Here, as the initial value set in the superposition gain calculation process, a past superposition gain stored for each main channel in the superposition gain storage unit for each channel can also be used during the initial value setting process.
Further, the microphones are divided into M groups (where M is an integer of 2 or more) so that each group has a plurality of microphones, and the sound collected by the microphones of each group is described for each group. Processing can also be performed.

本発明によれば、複数のマイクロホンからの入力音信号を加算処理で加算し、加算された音信号にたいして、エコーキャンセル処理を行うので、適応フィルタの演算量、メモリ量を増大させることがない。さらに、N個のマイクロホンの1以上をメインチャネルとして推定し、推定されたメインチャネルに基づいて設定される初期値と、エコーキャンセルを行った音信号とを用いて重畳ゲインを計算し、重畳するので、メインチャネルの頻繁な移り変わりによっても、追随性能を劣化させることがない。従って、本発明の拡声通話方法は、適応フィルタの演算量やメモリ量を増やすことなく、メインチャネルの頻繁な移り変わりによっても追随性能が劣化しない、複数のマイクロホン各々に対する個別の自動音量制御を可能とする。   According to the present invention, input sound signals from a plurality of microphones are added by addition processing, and echo cancellation processing is performed on the added sound signals, so that the calculation amount and memory amount of the adaptive filter are not increased. Furthermore, one or more of the N microphones are estimated as main channels, and a superposition gain is calculated using the initial value set based on the estimated main channel and the sound signal subjected to echo cancellation, and superimposition is performed. Therefore, even if the main channel is frequently changed, the following performance is not deteriorated. Therefore, the loudspeaking method of the present invention enables individual automatic volume control for each of a plurality of microphones without increasing the computation amount of the adaptive filter and the amount of memory, and the follow-up performance does not deteriorate due to frequent changes in the main channel. To do.

従来例を説明する図。The figure explaining a prior art example. 従来例を説明する図。The figure explaining a prior art example. 従来例を説明する図。The figure explaining a prior art example. 実施例1、変形例1に係る拡声通話装置の構成を示すブロック図。The block diagram which shows the structure of the loudspeaker apparatus which concerns on Example 1 and the modification 1. FIG. 実施例1に係る拡声通話装置の動作を示すフローチャート。3 is a flowchart showing the operation of the loudspeaker device according to the first embodiment. 変形例1に係る拡声通話装置の動作を示すフローチャート。9 is a flowchart showing the operation of a loudspeaker device according to Modification 1. 実施例2に係る拡声通話装置の構成を示すブロック図。FIG. 4 is a block diagram illustrating a configuration of a loudspeaker device according to a second embodiment. 実施例2に係る拡声通話装置の動作を示すフローチャート。9 is a flowchart showing the operation of the loudspeaker device according to the second embodiment.

以下、本発明の実施の形態について、詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail.

図4、5を参照して、本発明の実施例1に係る拡声通話装置および、拡声通話方法を説明する。図4は、実施例1に係る拡声通話装置400の構成を示すブロック図である。図5は、実施例1に係る拡声通話装置400の動作を示すフローチャートである。拡声通話装置400は、スピーカ911と、N個(ただしNは2以上の整数、以下同じ)のマイクロホン912−1〜Nと、メインチャネル推定部430と、加算部440と、エコーキャンセル部450と、自動音量調整部460とを備えている。自動音量調整部460は、音声検出部461と、重畳ゲイン計算部462と、ゲイン重畳部463と、チャネル別重畳ゲイン記憶部464とを備えている。   With reference to FIGS. 4 and 5, the loudspeaker device and the loudspeaker method according to Embodiment 1 of the present invention will be described. FIG. 4 is a block diagram illustrating the configuration of the loudspeaker apparatus 400 according to the first embodiment. FIG. 5 is a flowchart illustrating the operation of the loudspeaker apparatus 400 according to the first embodiment. The loudspeaker apparatus 400 includes a speaker 911, N microphones (where N is an integer of 2 or more, and the same applies hereinafter), a main channel estimation unit 430, an addition unit 440, and an echo cancellation unit 450. And an automatic volume controller 460. The automatic volume control unit 460 includes a voice detection unit 461, a superimposition gain calculation unit 462, a gain superposition unit 463, and a channel-specific superimposition gain storage unit 464.

ネットワーク470から拡声通話装置400に入力された音信号は、エコーキャンセル部450を経由して、スピーカ911から拡声される。マイクロホン912−1〜Nは、収音した音を音信号に変換し、加算部440と、メインチャネル推定部430それぞれに入力する。
メインチャネル推定部430は、N個のマイクロホン912−1〜Nの1以上をメインチャネルとして推定する(S530)。メインチャネル推定方法として、マイクロホン912−1〜Nから出力される音信号の時間信号パワーを比較して、当該パワーが最大となるマイクロホンをメインチャネルとする方法がある。ただし、当該推定方法に限定する必要はなく、話者の入れ替わりに対して、追随性良く推定できる方法であれば、他の方法でもかまわない。推定されるメインチャネルは1以上N未満であれば、いくつとしても良く、時間信号パワーを比較して、メインチャネルを推定する場合には、時間信号パワーの大きいものから順に、予め定めておいた数のマイクロホンをメインチャネルとしても良いし、予め定めておいた閾値を超える時間信号パワーが出力されたマイクロホン全てをメインチャネルとしても良い。この場合にも前記と同様、話者の入れ替わりに対して、追随性良く推定できる方法であれば、他の方法でもかまわない。
加算部440は、マイクロホンに収音された音を、音信号として加算する(S540)。エコーキャンセル部450は、加算された音信号のエコーをキャンセルする(S550)。エコーキャンセル部450は、図1の一般的な形式のエコーキャンセラとしても良いし、図2のようにボイススイッチを併用する形式のものでも良い。
A sound signal input from the network 470 to the loudspeaker apparatus 400 is loudened from the speaker 911 via the echo canceling unit 450. Microphones 912-1 to 912 -N convert the collected sound into sound signals and input the sound signals to the adding unit 440 and the main channel estimating unit 430, respectively.
The main channel estimation unit 430 estimates one or more of the N microphones 912-1 to 912 -N as the main channel (S 530). As a main channel estimation method, there is a method in which the time signal powers of sound signals output from the microphones 912-1 to 912-N are compared, and the microphone having the maximum power is used as the main channel. However, it is not necessary to limit to the estimation method, and any other method may be used as long as it can be estimated with good followability with respect to the change of speakers. As long as the estimated main channel is 1 or more and less than N, any number may be used. When the main channel is estimated by comparing the time signal power, the time channel power is determined in descending order. Several microphones may be used as main channels, or all microphones that output time signal power exceeding a predetermined threshold may be used as main channels. Also in this case, as described above, other methods may be used as long as they can be estimated with good followability with respect to the change of speakers.
The adding unit 440 adds the sound collected by the microphone as a sound signal (S540). The echo cancel unit 450 cancels the echo of the added sound signal (S550). The echo canceling unit 450 may be a general type echo canceller of FIG. 1, or may be of a type using a voice switch as shown in FIG.

音声検出部461は、エコーをキャンセルした音信号から、音声が存在するか否かを検出する(S561)。音声検出方法は、閾値を超える音信号レベルが入力された場合に、音声を検出したと判定する方法で良い。検出に用いる閾値は、周囲雑音レベルから予め定める。ただし、当該検出方法に限定する必要はなく、メインチャネル推定部430における方法と同様に、話者の入れ替わりに対して、追随性良く検出できる方法であれば他の方法を用いることもできる。   The voice detection unit 461 detects whether or not there is a voice from the sound signal from which the echo is canceled (S561). The sound detection method may be a method of determining that sound is detected when a sound signal level exceeding a threshold is input. The threshold used for detection is determined in advance from the ambient noise level. However, it is not necessary to limit to the detection method, and other methods can be used as long as they can be detected with good follow-up with respect to the change of the speaker, similarly to the method in the main channel estimation unit 430.

重畳ゲイン計算部462は、音声が検出された場合に、推定されたメインチャネルに基づいて初期値を設定し(S562a)、この初期値と、エコーキャンセル処理を行った音信号とを用いて重畳ゲインを計算する(S562b)。音声が検出されない場合には、出力音声レベルの調整は行われない。重畳ゲインの計算方法について以下に詳細を述べる。時刻tにおいて、メインチャネルがCnと推定されたとき、計算される重畳ゲインをGCn[t]、メインチャネルCnからの入力音信号レベルをVCn[t]、ネットワーク470へ出力する音信号の目標出力音信号レベルをV、初期値をG、時定数をαとすると、重畳ゲインGCn[t]は、忘却係数を乗じた加算により、
Cn[t]=(1−α)×V/VCn[t]+α×G
にて、計算される。
上式では、目標出力音信号レベルと、入力音信号レベルとの比V/VCn[t]を用いることとしているが、他の方法を用いることとしても構わない。
The superposition gain calculation unit 462 sets an initial value based on the estimated main channel when speech is detected (S562a), and superimposes using the initial value and the sound signal subjected to echo cancellation processing. The gain is calculated (S562b). If no sound is detected, the output sound level is not adjusted. Details of the calculation method of the superposition gain will be described below. When the main channel is estimated to be Cn at time t, the calculated superposition gain is G Cn [t] , the input sound signal level from the main channel Cn is V Cn [t] , and the sound signal output to the network 470 is Assuming that the target output sound signal level is V d , the initial value is G i , and the time constant is α, the superposition gain G Cn [t] is obtained by adding the forgetting factor,
G Cn [t] = (1−α) × V d / V Cn [t] + α × G i
In the calculation.
In the above equation, the ratio V d / V Cn [t] between the target output sound signal level and the input sound signal level is used, but other methods may be used.

ここで初期値Gには、kを正の整数として、k時刻過去の該当メインチャネルの重畳ゲインGCn[t-k]を用いることができる。従って、初期値Gをk時刻過去の重畳ゲインとした場合、時刻tにおける重畳ゲインは、
Cn[t]=(1−α)×V/VCn[t]+α×GCn[t−k]
にて、計算される。
また、時刻tにおける初期値Gを計算するために、時刻t−kから時刻t−1までの複数の重畳ゲインを用いることとしても良い。この場合、時刻tにおいて、メインチャネルがCnであるとき、初期値G,重畳ゲインGCn[t]は、時定数αt−1t−2,…αt−kを用いて、下式により計算される。
Here, as the initial value G i , the superposition gain G Cn [t−k] of the corresponding main channel in the past k times can be used, where k is a positive integer. Therefore, when the initial value G i is a superposition gain at k times in the past, the superposition gain at time t is
G Cn [t] = (1−α) × V d / V Cn [t] + α × G Cn [t−k]
In the calculation.
Further, in order to calculate the initial value G i at time t, it is also possible to use a plurality of superimposed gain from time t-k to a time t-1. In this case, when the main channel is Cn at time t, the initial value G i and the superposition gain G Cn [t] are time constants α t , α t−1 , α t−2 ,. And is calculated by the following formula.

Figure 2011172081
Figure 2011172081

Cn[t]=α×V/VCn[t]+G
ただし、
G Cn [t] = α t × V d / V Cn [t] + G i
However,

Figure 2011172081
Figure 2011172081

重畳ゲインの計算方法は、上記の式で表現される方法に限定されず、複数過去の該当メインチャネルの重畳ゲインを用いて、時間による重畳ゲインの変化を平滑化して算出する方法を用いることとしても良い。   The calculation method of the superposition gain is not limited to the method expressed by the above formula, and a method of smoothing and calculating the superposition gain change with time using the superposition gain of the corresponding main channel in the past is used. Also good.

また、メインチャネル推定部430において、推定するメインチャネルを複数とする場合、推定されたメインチャネルがC1,C2,C3,…,Cnのn個、各メインチャネルからの入力音信号レベルが、VC1[t],VC2[t],VC3[t],…,VCn[t]であるとき、時刻tにおける重畳ゲインGC1,C2,C3,…,Cn[t]は、 When the main channel estimation unit 430 uses a plurality of main channels to be estimated, the estimated main channels are n of C1, C2, C3,..., Cn, and the input sound signal level from each main channel is V When C1 [t] , V C2 [t] , V C3 [t] ,..., V Cn [t] , the superposition gains G C1, C2, C3,.

Figure 2011172081
Figure 2011172081

にて、計算することができる。ここで、a(n)はメインチャネル数nに依存する補正係数であり、1より大きな値をとる。 Can be calculated. Here, a (n) is a correction coefficient depending on the number of main channels n, and takes a value larger than 1.

ゲイン重畳部463は、重畳ゲイン計算部462で計算された重畳ゲインと、エコーキャンセル処理を行った音信号とを重畳する(S563)。チャネル別重畳ゲイン記憶部464は、重畳ゲイン計算処理(S562a,S562b)により計算された重畳ゲインを、推定されたメインチャネルに対応させて記憶する(S564)。例えば、時刻tにて、メインチャネルCnであった場合、チャネル別重畳ゲイン記憶部464は、チャネルCnに対応する記憶領域に、重畳ゲインGCn[t]を記憶する。このとき、メインチャネルと推定されなかったチャネルについては、時刻tにおいて、チャネル別重畳ゲイン記憶部464に記憶されている重畳ゲインを、そのまま保持しておき、時刻t以降の計算時に、随時読み出して用いるものとする。また、初期値Gを計算するために、時刻t−kから時刻t−1までの複数の重畳ゲインを用いる場合には、例えば、チャネルCn,時刻t−kに対応する記憶領域には、重畳ゲインGCn[t-k]を記憶する。従って、記憶する重畳ゲインの数は、チャネルごとにN個、時刻ごとにk個となり、記憶総数はN×k個となる。 The gain superimposing unit 463 superimposes the superimposing gain calculated by the superimposing gain calculating unit 462 and the sound signal subjected to the echo canceling process (S563). The channel-specific superposition gain storage unit 464 stores the superposition gain calculated by the superposition gain calculation processing (S562a, S562b) in association with the estimated main channel (S564). For example, when the channel is the main channel Cn at time t, the channel-specific superposition gain storage unit 464 stores the superposition gain G Cn [t] in the storage area corresponding to the channel Cn. At this time, for the channel not estimated as the main channel, the superposition gain stored in the channel-specific superposition gain storage unit 464 is held as it is at time t, and is read out at any time during calculation after time t. Shall be used. Further, in order to calculate the initial value G i, in the case of using a plurality of superimposed gain from time t-k to a time t-1, for example, in the storage area corresponding to the channel Cn, time t-k is The superposition gain G Cn [t−k] is stored. Accordingly, the number of superposition gains to be stored is N for each channel, k for each time, and the total number stored is N × k.

また、マイクロホンがN個であり、推定するメインチャネルがn個(nは2以上の整数)である場合には、重畳ゲインは、N個のマイクロホンのうちからn個のメインチャネルを選び出す組み合わせ、通り計算される。従って、チャネル別重畳ゲイン記憶部464には、各チャネルの組み合わせに対応する記憶領域に、総数個の重畳ゲインが記憶されることとなる。
加えて、初期値Gを計算するために、時刻t−kから時刻t−1までの複数の重畳ゲインを用いる場合には、記憶される重畳ゲインの総数は×k個となる。
このようにしてチャネル別重畳ゲイン記憶部464に記憶された重畳ゲインは、初期値や新たに重畳ゲインを計算するときに、重畳ゲイン計算部462に随時読みだされて使用される。拡声通話装置400は、電源投入時に、チャネル別重畳ゲイン記憶部464の各記憶領域に予め値1を設定する。重畳ゲインが計算されるたびに、メインチャネルに対応する記憶領域の重畳ゲインを更新し、もしくは時刻ごとに対応する記憶領域にそれぞれ記憶する。
Further, when there are N microphones and n main channels to be estimated (n is an integer of 2 or more), the superposition gain is a combination of selecting n main channels from the N microphones, N C n ways are calculated. Accordingly, the channel-by-channel superposition gain storage unit 464 stores a total of N C n superposition gains in a storage area corresponding to each channel combination.
In addition, when a plurality of superposition gains from time t-k to time t-1 are used to calculate the initial value G i , the total number of superposition gains to be stored is N C n × k. .
The superposition gain stored in the channel-specific superposition gain storage unit 464 in this manner is read and used as needed by the superposition gain calculation unit 462 when calculating an initial value or a new superposition gain. Loudspeaker 400 sets a value 1 in advance in each storage area of channel-specific superposition gain storage section 464 when power is turned on. Each time the superposition gain is calculated, the superposition gain in the storage area corresponding to the main channel is updated or stored in the storage area corresponding to each time.

本実施例により、加算部440が複数の入力音信号を加算し(S540)、エコーキャンセル部450が加算された音信号にたいしてエコーキャンセルを行う(S550)ので、適応フィルタの演算量、メモリ量を増大させることがない。さらに、メインチャネル推定部430が、N個のマイクロホンの1以上をメインチャネルとして推定(S530)し、重畳ゲイン計算部462が、推定されたメインチャネルに基づいて初期値を設定(S562a)し、当該初期値と、エコーキャンセルを行った音信号とを用いて重畳ゲインを計算し(S562b)、ゲイン重畳部463が重畳ゲインを音信号に重畳(S563)するので、メインチャネルの頻繁な移り変わりによっても、追随性能を劣化させることがない。従って、本実施例の拡声通話装置および拡声通話方法は、適応フィルタの演算量やメモリ量を増やすことなく、メインチャネルの頻繁な移り変わりによっても追随性能が劣化しない、複数のマイクロホン各々に対する個別の自動音量制御を可能とする。   According to the present embodiment, the adding unit 440 adds a plurality of input sound signals (S540), and the echo canceling unit 450 performs echo cancellation (S550), so that the calculation amount and memory amount of the adaptive filter are reduced. There is no increase. Further, the main channel estimation unit 430 estimates one or more of the N microphones as main channels (S530), and the superposition gain calculation unit 462 sets an initial value based on the estimated main channel (S562a), The superposition gain is calculated using the initial value and the sound signal subjected to echo cancellation (S562b), and the gain superposition unit 463 superimposes the superposition gain on the sound signal (S563). However, the following performance is not deteriorated. Therefore, the loudspeaker device and the loudspeaker method according to the present embodiment do not increase the amount of calculation of the adaptive filter and the amount of memory, and the automatic performance for each of the plurality of microphones does not deteriorate due to frequent changes of the main channel. Allows volume control.

さらに本実施例では、メインチャネル推定部430が、複数のマイクロホンをメインチャネルと推定するので、話者音声が複数のマイクロホンに分かれて入力された場合にも、適切に自動音量制御を行うことができる。さらに本実施例では、重畳ゲイン計算部462が、k時刻過去に計算された重畳ゲインを初期値として、現在の重畳ゲインを計算する際に用いるので、過去に計算された重畳ゲインを反映させた自動音量制御を行うことができる。さらに、重畳ゲイン計算部462が、当該初期値に忘却係数を乗じるため、過去に計算された重畳ゲインを反映させる程度を任意に設定することができる。   Further, in the present embodiment, the main channel estimation unit 430 estimates a plurality of microphones as the main channel, so that automatic volume control can be appropriately performed even when the speaker voice is divided and input to the plurality of microphones. it can. Furthermore, in the present embodiment, the superposition gain calculation unit 462 uses the superposition gain calculated in the past k times as an initial value when calculating the current superposition gain, so the superposition gain calculated in the past is reflected. Automatic volume control can be performed. Furthermore, since the superposition gain calculation unit 462 multiplies the initial value by a forgetting factor, it is possible to arbitrarily set the degree of reflecting the superposition gain calculated in the past.

[変形例1]
図4、6を参照して、実施例1の変形例1を説明する。
変形例1では、重量ゲイン計算部462’は、初期値計算時にチャネル別重畳ゲイン記憶部464に記憶されている重畳ゲインを、初期値と設定することを特徴とする(S662a)。具体的には、初期値Gを、時刻t−1においてチャネル別重畳ゲイン記憶部464に記憶されている重畳ゲインGCn[t−1]とする。詳細には、時刻t、メインチャネルCnであるときの、重畳ゲインGCn[t]は、時定数α、目標出力音信号レベルVを用いて、以下の式にて計算される。
Cn[t]=(1−α)×V/VCn[t]+α×GCn[t−1]
計算された重畳ゲインGCn[t]は、チャネル別重畳ゲイン記憶部464に、メインチャネルに対応して記憶され、時刻t以降に再びメインチャネルがnと推定された場合に、初期値Gとして、あらたな重畳ゲイン計算に用いられる。
本変形例はこのような構成であるため、実施例1と同様の効果が得られる。
[Modification 1]
A first modification of the first embodiment will be described with reference to FIGS.
In the first modification, the weight gain calculation unit 462 ′ sets the superposition gain stored in the channel-specific superposition gain storage unit 464 at the time of initial value calculation as an initial value (S662a). Specifically, the initial value G i is set to the superposition gain G Cn [t−1] stored in the channel-specific superposition gain storage unit 464 at time t−1. Specifically, the superposition gain G Cn [t] at the time t and the main channel Cn is calculated by the following equation using the time constant α and the target output sound signal level V d .
G Cn [t] = (1−α) × V d / V Cn [t] + α × G Cn [t−1]
The calculated superposition gain G Cn [t] is stored in the channel-specific superposition gain storage unit 464 corresponding to the main channel, and when the main channel is estimated to be n again after time t, the initial value G i Is used for a new superposition gain calculation.
Since the present modification has such a configuration, the same effects as those of the first embodiment can be obtained.

図7、8を参照して、本発明の実施例2に係る拡声通話装置および、拡声通話方法を説明する。図7は、実施例2に係る拡声通話装置700の構成を示すブロック図である。図8は、実施例2に係る拡声通話装置700の動作を示すフローチャートである。実施例2では、各群が複数のマイクロホンを有するように、マイクロホンをM個(ただしMは2以上の整数、以下同じ)の群に分け、各群のマイクロホンで収音された音に対して、群ごとに実施例1記載の処理を行うこととする。
拡声通話装置700は、スピーカ911と、m番目のマイクロホン群において、N個(ただしmは正の整数、Nは2以上の整数、以下同じ)のマイクロホン912−m−1〜NをもつようなM個のマイクロホンの群と、マイクロホン群ごとのメインチャネル推定部430−1〜Mと、マイクロホン群ごとの加算部440−1〜Mと、エコーキャンセル部750と、マイクロホン群ごとの自動音量調整部460−1〜Mとを備えている。
拡声通話装置700の自動音量調整部460−1〜Mは、マイクロホン群ごとに、音声検出部461−1〜Mと、重畳ゲイン計算部462−1〜Mと、ゲイン重畳部463−1〜Mと、チャネル別重畳ゲイン記憶部464−1〜Mとを備えている。
With reference to FIGS. 7 and 8, a loudspeaker device and a loudspeaker method according to Embodiment 2 of the present invention will be described. FIG. 7 is a block diagram illustrating the configuration of the loudspeaker apparatus 700 according to the second embodiment. FIG. 8 is a flowchart illustrating the operation of the loudspeaker apparatus 700 according to the second embodiment. In the second embodiment, the microphones are divided into M groups (where M is an integer of 2 or more, and the same shall apply hereinafter) so that each group has a plurality of microphones. The processing described in Example 1 is performed for each group.
The loudspeaker apparatus 700 uses N m (where m is a positive integer, N m is an integer greater than or equal to 2 and the same applies below) microphones 912-m-1 to N m in the speaker 911 and the m th microphone group. A group of M microphones, a main channel estimation unit 430-1 to M for each microphone group, an addition unit 440-1 to M for each microphone group, an echo cancellation unit 750, and an automatic for each microphone group Volume adjustment units 460-1 to 460-M are provided.
The automatic volume control units 460-1 to 460 -M of the loudspeaker communication device 700 are, for each microphone group, voice detection units 461-1 to M, superimposition gain calculation units 462-1 to M, and gain superposition units 463-1 to M. And channel-specific superposition gain storage units 464-1 to 464-1M.

ネットワーク470から拡声通話装置700に入力された音信号は、エコーキャンセル部750を経由して、スピーカ911から拡声される。マイクロホン912−1−1〜912−M−Nは、収音した音を音信号に変換し、加算部440−1〜Mと、メインチャネル推定部430−1〜Mそれぞれに入力する。
メインチャネル推定部430−1〜Mは、各群のマイクロホンの1以上をメインチャネルとして推定する(S830−1〜M)。加算部440−1〜Mは、マイクロホンに収音された音を、群ごとに音信号として加算する(S540−1〜M)。エコーキャンセル部750は、群ごとに加算された音信号のエコーをキャンセルする(S550−1〜M)。音声検出部461−1〜Mは、群ごとにエコーをキャンセルした音信号から、音声が存在するか否かを検出する(S561−1〜M)。重畳ゲイン計算部462−1〜Mは、音声が検出された場合に、推定されたメインチャネルに基づいて初期値を設定し(S562a−1〜M)、この初期値と、エコーキャンセル処理を行った音信号とを用いて重畳ゲインを計算する(S562b−1〜M)。ゲイン重畳部463−1〜Mは、重畳ゲイン計算部462−1〜Mで計算された重畳ゲインと、群ごとにエコーキャンセル処理を行った音信号とを重畳する(S563−1〜M)。チャネル別重畳ゲイン記憶部464−1〜Mは、重畳ゲイン計算処理(S562a−1〜M,S562b−1〜M)により計算された重畳ゲインを、推定されたメインチャネルに対応させて記憶する(S564−1〜M)。
A sound signal input from the network 470 to the loudspeaker apparatus 700 is loudened from the speaker 911 via the echo canceling unit 750. The microphones 912-1-1 to 912 -M-N M convert the collected sound into sound signals and input the sound signals to the addition units 440-1 to 440 -M and the main channel estimation units 430-1 to 430 -M, respectively.
The main channel estimation units 430-1 to 430-1 to M estimate one or more microphones of each group as main channels (S830-1 to M). The adders 440-1 to M add the sounds collected by the microphones as sound signals for each group (S540-1 to M). The echo cancel unit 750 cancels the echo of the sound signal added for each group (S550-1 to M). The sound detection units 461-1 to M detect whether or not there is sound from the sound signal whose echo is canceled for each group (S561-1 to M). Superimposition gain calculators 462-1 to 462-1 set initial values based on the estimated main channel when speech is detected (S562a-1 to M562), and performs echo cancellation processing with these initial values. The superposition gain is calculated using the obtained sound signal (S562b-1 to M). The gain superimposing units 463-1 to 463 -M superimpose the superimposing gain calculated by the superimposing gain calculating units 462-1 to M and the sound signal subjected to the echo cancellation processing for each group (S <b> 563-1 to M). The channel-specific superposition gain storage units 464-1 to 464-M store the superposition gains calculated by the superposition gain calculation processing (S562a-1 to M, S562b-1 to M) in association with the estimated main channel ( S564-1 to M).

本実施例はこのような構成であるため、実施例1と同様の効果が得られる。さらに本実施例では、M個の群ごとに処理を行う構成であるため、より多くのマイクロホンからの入力音に対し、追随性を劣化させることなく、複数のマイクロホン各々に対する個別の自動音量制御を行うことができる。さらにマイクロホン群ごとに音信号が出力されるため、マイクロホン群ごとに対応するスピーカからの出力が可能となり、出力側のスピーカをM個まで拡張することができる。   Since the present embodiment has such a configuration, the same effects as those of the first embodiment can be obtained. Furthermore, in the present embodiment, since the processing is performed for each of the M groups, individual automatic volume control for each of the plurality of microphones is performed without degrading the followability with respect to input sounds from more microphones. It can be carried out. Furthermore, since a sound signal is output for each microphone group, output from the speaker corresponding to each microphone group is possible, and the number of speakers on the output side can be expanded.

Claims (5)

N個(ただしNは2以上の整数)のマイクロホンの1以上をメインチャネルとして推定するメインチャネル推定処理と、
前記マイクロホンに収音された音を、音信号として加算する加算処理と、
前記加算処理で加算された前記音信号のエコーをキャンセルするエコーキャンセル処理と、
前記エコーキャンセル処理を行った音信号から、音声を検出する音声検出処理と、
前記音声検出処理によって前記音声が検出された場合に、前記推定されたメインチャネルに基づいて初期値を設定し、前記初期値と、前記エコーキャンセル処理を行った音信号と、を用いて重畳ゲインを計算する重畳ゲイン計算処理と、
前記重畳ゲイン計算処理により計算された前記重畳ゲインと、前記エコーキャンセル処理を行った音信号とを重畳するゲイン重畳処理と、
前記重畳ゲイン計算処理により計算された前記重畳ゲインを、前記推定されたメインチャネルに対応させてチャネル別重畳ゲイン記憶部に記憶するチャネル別重畳ゲイン記憶処理と、
を有すること、
を特徴とする拡声通話方法。
A main channel estimation process for estimating one or more of N (where N is an integer of 2 or more) microphones as a main channel;
An addition process of adding the sound collected by the microphone as a sound signal;
Echo cancellation processing for canceling echo of the sound signal added in the addition processing;
A sound detection process for detecting a sound from the sound signal subjected to the echo cancellation process;
When the voice is detected by the voice detection process, an initial value is set based on the estimated main channel, and a superposition gain is set using the initial value and the sound signal subjected to the echo cancellation process. Superimposing gain calculation processing for calculating
Gain superimposition processing for superimposing the superposition gain calculated by the superimposition gain calculation processing and the sound signal subjected to the echo cancellation processing;
Channel-by-channel superposition gain storage processing for storing the superposition gain calculated by the superposition gain calculation processing in a channel-specific superposition gain storage unit in association with the estimated main channel;
Having
A voice call method characterized by the above.
請求項1記載の拡声通話方法であって、
前記重畳ゲイン計算処理の前記初期値は、当該初期値設定処理時に前記チャネル別重畳ゲイン記憶部に記憶されている前記推定されたメインチャネルに対応する前記重畳ゲインであること、
を特徴とする拡声通話方法。
A voice call method according to claim 1, wherein
The initial value of the superposition gain calculation process is the superposition gain corresponding to the estimated main channel stored in the channel-specific superposition gain storage unit during the initial value setting process;
A voice call method characterized by the above.
前記マイクロホンを、各群が複数のマイクロホンを有するようにM個(Mは2以上の整数)の群に分け、各群のマイクロホンで収音された音に対して請求項1又は2記載の処理を行うこと、
を特徴とする拡声通話方法。
3. The process according to claim 1, wherein the microphones are divided into M groups (M is an integer of 2 or more) so that each group has a plurality of microphones, and the sound collected by the microphones of each group is processed. To do the
A voice call method characterized by the above.
N個(ただしNは2以上の整数)のマイクロホンの1以上をメインチャネルとして推定するメインチャネル推定部と、
前記マイクロホンに収音された音を、音信号として加算する加算部と、
前記加算処理で加算された前記音信号のエコーをキャンセルするエコーキャンセル部と、
前記エコーキャンセル部でエコーキャンセルを行った音信号から、音声を検出する音声検出部と、
前記音声検出部によって前記音声が検出された場合に、前記推定されたメインチャネルに基づいて初期値を設定し、前記初期値と、前記エコーキャンセル処理を行った音信号と、を用いて重畳ゲインを計算する重畳ゲイン計算部と、
前記重畳ゲイン計算処理により計算された前記重畳ゲインと、前記エコーキャンセル処理を行った音信号とを重畳するゲイン重畳部と、
前記重畳ゲイン計算部により計算された前記重畳ゲインを、前記推定されたメインチャネルに対応させてチャネル別重畳ゲイン記憶部に記憶するチャネル別重畳ゲイン記憶部と、
を有すること、
を特徴とする拡声通話装置。
A main channel estimation unit that estimates one or more of N (where N is an integer of 2 or more) microphones as a main channel;
An adder for adding the sound collected by the microphone as a sound signal;
An echo cancellation unit for canceling echo of the sound signal added in the addition process;
A sound detection unit that detects sound from the sound signal subjected to echo cancellation by the echo cancellation unit;
When the voice is detected by the voice detection unit, an initial value is set based on the estimated main channel, and a superposition gain is set using the initial value and the sound signal subjected to the echo cancellation processing. A superposition gain calculation unit for calculating
A gain superimposing unit that superimposes the superimposing gain calculated by the superimposing gain calculating process and the sound signal subjected to the echo canceling process;
A channel-specific superimposition gain storage unit that stores the superposition gain calculated by the superimposition gain calculation unit in a channel-specific superimposition gain storage unit in association with the estimated main channel;
Having
A voice communication device characterized by the above.
請求項1ないし3の何れかに記載された拡声通話方法を実行すべき指令を、コンピュータに対してする拡声通話プログラム。   A loudspeaker program for giving a command to the computer to execute the loudspeaker method according to any one of claims 1 to 3.
JP2010034890A 2010-02-19 2010-02-19 Amplifying conversation method, device and program Pending JP2011172081A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010034890A JP2011172081A (en) 2010-02-19 2010-02-19 Amplifying conversation method, device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010034890A JP2011172081A (en) 2010-02-19 2010-02-19 Amplifying conversation method, device and program

Publications (1)

Publication Number Publication Date
JP2011172081A true JP2011172081A (en) 2011-09-01

Family

ID=44685724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010034890A Pending JP2011172081A (en) 2010-02-19 2010-02-19 Amplifying conversation method, device and program

Country Status (1)

Country Link
JP (1) JP2011172081A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750462A (en) * 2020-08-07 2021-05-04 腾讯科技(深圳)有限公司 Audio processing method, device and equipment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750462A (en) * 2020-08-07 2021-05-04 腾讯科技(深圳)有限公司 Audio processing method, device and equipment

Similar Documents

Publication Publication Date Title
US8842851B2 (en) Audio source localization system and method
JP6773403B2 (en) Gain control system and gain control method
US8041054B2 (en) Systems and methods for selectively switching between multiple microphones
JP5036874B2 (en) Echo canceller
JP5451876B2 (en) Acoustic multichannel cancellation
US9313573B2 (en) Method and device for microphone selection
US9699554B1 (en) Adaptive signal equalization
US8693678B2 (en) Device and method for controlling damping of residual echo
US9343073B1 (en) Robust noise suppression system in adverse echo conditions
US8718562B2 (en) Processing audio signals
JPH114288A (en) Echo canceler device
WO2009117084A2 (en) System and method for envelope-based acoustic echo cancellation
CN109273019B (en) Method for double-talk detection for echo suppression and echo suppression
EP2987314B1 (en) Echo suppression
CN112272848A (en) Background noise estimation using gap confidence
US8406430B2 (en) Simulated background noise enabled echo canceller
KR20150053621A (en) Apparatus and method for cancelling acoustic echo in teleconference system
JP4413205B2 (en) Echo suppression method, apparatus, echo suppression program, recording medium
JP2011172081A (en) Amplifying conversation method, device and program
JP4504782B2 (en) Echo cancellation method, apparatus for implementing this method, program, and recording medium therefor
JP2007151047A (en) Voice switch method, voice switch apparatus, voice switch program and recording medium recorded with the program
JP4247158B2 (en) Multi-channel acoustic echo cancellation method, multi-channel acoustic echo cancellation apparatus, multi-channel acoustic echo cancellation program, recording medium
JP4642711B2 (en) Echo canceller
CN116013345A (en) Echo cancellation method and electronic equipment
JP2002252577A (en) Method and system for canceling multichannel acoustic echo, its program and its recording medium

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Effective date: 20110624

Free format text: JAPANESE INTERMEDIATE CODE: A7423