JP2007151038A - Sound processing apparatus - Google Patents
Sound processing apparatus Download PDFInfo
- Publication number
- JP2007151038A JP2007151038A JP2005346182A JP2005346182A JP2007151038A JP 2007151038 A JP2007151038 A JP 2007151038A JP 2005346182 A JP2005346182 A JP 2005346182A JP 2005346182 A JP2005346182 A JP 2005346182A JP 2007151038 A JP2007151038 A JP 2007151038A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sound
- frequency band
- band
- sound emission
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
Abstract
Description
本発明は音声処理装置に関し、特にスピーカとマイクロフォン(以下、マイクとする)を備える拡声通話系で全二重通話を行う場合の音声処理を実行する音声処理装置に関する。 The present invention relates to an audio processing device, and more particularly to an audio processing device that executes audio processing when a full-duplex call is performed in a loudspeaker communication system including a speaker and a microphone (hereinafter referred to as a microphone).
ハンズフリー電話やテレビ会議システムなど、各装置がスピーカとマイクを備えた拡声通話系では、遠端装置のマイクで収音された音声が近端装置に送られ、近端装置のスピーカから放音される。一方、近端装置が装備するマイクから収音される近端話者の音声も遠端装置へ送られ、遠端装置のスピーカから放音されるように構成されている。このため、遠端、近端それぞれでスピーカから放音される相手の音声がマイクに印加される。何も処理を行わない場合は、この音声が再び相手装置へ送られるため、自分の発声がこだまのように少し遅れてスピーカから聞こえる「エコー」という現象を引き起こす。エコーが大きくなると、再びマイクに印加されて系をループし、ハウリングを引き起こす。 In a voice call system where each device has a speaker and microphone, such as hands-free telephones and video conference systems, the sound collected by the far-end device's microphone is sent to the near-end device and emitted from the near-end device's speaker. Is done. On the other hand, the voice of the near-end speaker picked up from the microphone provided in the near-end device is also sent to the far-end device and emitted from the speaker of the far-end device. For this reason, the voice of the other party emitted from the speaker at each of the far end and the near end is applied to the microphone. If no processing is performed, this voice is sent again to the other device, causing a phenomenon called “echo” that the user's utterance can be heard from the speaker with a slight delay as if it is a piece. When the echo becomes large, it is applied to the microphone again to loop the system and cause howling.
従来、このような拡声通信系では、エコーやハウリングを防止するための音声処理装置としてエコーキャンセラが組み込まれている。一般的なエコーキャンセラは、適応フィルタを用いてスピーカとマイク間のインパルスレスポンスを測定し、スピーカから放音されるリファレンス信号にこのインパルスレスポンスを畳み込んだ擬似エコーを生成し、マイクに印加されるスピーカの音声から擬似エコーを差し引くことでエコー成分を除去している。 Conventionally, in such a loudspeaker communication system, an echo canceller is incorporated as a voice processing device for preventing echo and howling. A general echo canceller measures the impulse response between a speaker and a microphone using an adaptive filter, generates a pseudo echo obtained by convolving the impulse response with a reference signal emitted from the speaker, and applies it to the microphone. The echo component is removed by subtracting the pseudo echo from the sound of the speaker.
しかし、スピーカとマイクの間のインパルスレスポンスは、室内の温度変化や人などの動きによって変化するため、全帯域用エコーキャンセラを係数固定型で構成するのでは、エコーを十分消去することが難しかった。そこで、音声信号を複数の帯域に分割し、帯域ごとにエコーキャンセル処理を行う帯域分割型のエコー消去装置が提案されている(たとえば、特許文献1参照)。
しかし、従来の適応フィルタを用いてエコーを除去する音声処理装置では、正確な擬似エコーを生成することが難しく、したがって、エコーを十分消去するためには演算量が膨大となるという問題点があった。 However, it is difficult to generate an accurate pseudo echo in a speech processing apparatus that removes an echo using a conventional adaptive filter. Therefore, there is a problem that the amount of calculation becomes enormous in order to sufficiently cancel the echo. It was.
上述のようにスピーカとマイクの間のインパルスレスポンスは、室内の人物が体を動かすなど、音声の反射の関係が変わるだけで変化するが、適応フィルタが変化に追従して収束するにはある程度の時間がかかる。また、適応フィルタの原理上、スピーカから放音された音声に含まれない周波数成分に対しては適応が行えないため、ホワイトノイズのような全ての周波数を含む音声の場合には収束が速いが、テレビ会議のように人の声がスピーカから放音されるような場合は、収束までにある程度の時間がかかることが知られている。このように、系が変化してから適応フィルタが収束するまでの時間は正確な擬似エコーを生成することができないため、エコーが残留したり、ハウリングが引き起こされたりするという問題点がある。帯域分割型の場合も適応フィルタを利用していることから、同様の問題点がある。 As described above, the impulse response between the speaker and the microphone changes only by changing the relationship of voice reflection, such as a person moving in the room, but there is some degree that the adaptive filter converges following the change. take time. In addition, due to the principle of the adaptive filter, since it is not possible to adapt to frequency components not included in the sound emitted from the speaker, convergence is fast in the case of sound including all frequencies such as white noise. When a human voice is emitted from a speaker as in a video conference, it is known that a certain amount of time is required for convergence. As described above, since it is not possible to generate an accurate pseudo echo during the time from the change of the system to the convergence of the adaptive filter, there is a problem that echo remains or howling is caused. The band division type also has a similar problem because it uses an adaptive filter.
また、一般的に適応フィルタの演算量はファーストフーリエ変換(FFT)や、フィルタバンクに比べて大きいものであり、ローコストなシステムに用いる場合に負担となるという問題点もある。特に、体育館など広い場所での音声信号処理に適用される場合には、スピーカからマイクまでの距離が大きくなったり、残留時間が長くなったりすることから、適応フィルタに長いタップ長が必要となることが知られている。この場合、さらに計算量が増加し、負担が重くなる。 In general, the amount of calculation of the adaptive filter is larger than that of Fast Fourier Transform (FFT) or a filter bank, and there is a problem that it becomes a burden when used in a low-cost system. In particular, when applied to audio signal processing in a large place such as a gymnasium, the distance from the speaker to the microphone increases and the remaining time increases, so a long tap length is required for the adaptive filter. It is known. In this case, the calculation amount further increases and the burden becomes heavy.
本発明はこのような点に鑑みてなされたものであり、エコー除去処理に要する計算量を減少させ、効果的なエコー処理を可能にするとともに、系の変動から収束までの時間エコーを除去できる音声処理装置を提供することを目的とする。 The present invention has been made in view of these points, and can reduce the amount of calculation required for echo removal processing, enable effective echo processing, and remove time echoes from system fluctuations to convergence. An object is to provide a sound processing device.
本発明では上記課題を解決するために、スピーカとマイクを備える拡声通話系で全二重通話を行う場合の音声処理を実行する音声処理装置において、放音信号分割手段、収音信号分割手段、帯域選択手段、放音信号合成手段および収音信号合成手段を具備する音声処理装置が提供される。放音信号分割手段は、他装置から取得し、スピーカから出力する放音信号を複数の周波数帯域に帯域分割する。一方、収音信号分割手段は、マイクから入力される収音信号を同様の周波数帯域に帯域分割する。帯域選択手段は、複数の周波数帯域の全範囲を含む所定の周波数帯域範囲を、放音信号を選択する周波数帯域と収音信号を選択する周波数帯域とに分け、周波数帯域ごとに、選択されなかった周波数帯域の放音信号または収音信号の信号成分を除去する。放音信号合成手段は、帯域分割され、帯域選択手段によって選択されなかった周波数帯域の信号成分が除去された放音信号を合成する。収音信号合成手段は、同様に、帯域分割され、帯域選択手段によって選択されなかった周波数帯域の信号成分が除去された収音信号を合成する。 In the present invention, in order to solve the above-mentioned problem, in a voice processing device that executes voice processing in a full-duplex call in a loudspeaker call system including a speaker and a microphone, An audio processing apparatus including a band selection unit, a sound emission signal synthesis unit, and a sound collection signal synthesis unit is provided. The sound emission signal dividing means divides the sound emission signal obtained from another device and output from the speaker into a plurality of frequency bands. On the other hand, the sound collection signal dividing means divides the sound collection signal input from the microphone into the same frequency band. The band selection means divides a predetermined frequency band range including the entire range of a plurality of frequency bands into a frequency band for selecting a sound emission signal and a frequency band for selecting a sound collection signal, and is not selected for each frequency band. The signal component of the sound emission signal or sound collection signal in the selected frequency band is removed. The sound emission signal synthesizing unit synthesizes the sound emission signal obtained by dividing the band and removing the signal component of the frequency band not selected by the band selection unit. Similarly, the collected sound signal synthesizing unit synthesizes the collected sound signal from which the signal components of the frequency band that has been divided into bands and not selected by the band selecting unit are removed.
このような音声処理装置によれば、帯域選択手段は、複数の周波数帯域の全領域を含む所定の周波数帯域範囲を、放音信号を選択する周波数帯域と収音信号を選択する周波数帯域とに分け、所定の周波数帯域範囲に属する周波数帯域では、それぞれ、放音信号または収音信号のいずれか一方が選択される。この周波数帯域では、選択された放音信号または収音信号の一方の信号成分が保持され、他方が除去される。放音信号分割手段は、他装置から取得し、スピーカから出力する放音信号を複数の周波数帯域に分割し、帯域選択手段に出力する。帯域選択手段は、複数の周波数帯域に分割された放音信号ついて、選択された周波数帯域の信号成分を保持し、選択されなかった周波数帯域の信号成分を除去して放音信号合成手段へ出力する。そして、放音信号合成手段は、選択されなかった周波数帯域の信号成分が除去された放音信号を合成し、スピーカへ出力する。これにより、スピーカからは、選択されなかった周波数帯域の信号成分が除去された音声信号(放音信号)が放音される。一方、収音信号分割手段は、マイクから入力する収音信号を放音信号と同じ複数の周波数帯域に分割し、帯域選択手段に出力する。帯域選択手段は、複数の周波数帯域に分割された収音信号ついて、収音信号が選択され、放音信号が選択されなかった周波数帯域の信号成分を保持し、放音信号が選択され収音信号が選択されなかった周波数帯域の信号成分を除去して収音信号合成手段へ出力する。そして、放音信号合成手段は、選択されなかった周波数帯域の信号成分が除去された収音信号を合成する。これにより、マイクより入力されるスピーカの放音が重畳される周波数帯域の信号成分が除去された収音信号が合成され、他装置へ送られる。 According to such an audio processing device, the band selecting means converts the predetermined frequency band range including all areas of the plurality of frequency bands into a frequency band for selecting the sound emission signal and a frequency band for selecting the sound collection signal. In the frequency band belonging to the predetermined frequency band range, either the sound emission signal or the sound collection signal is selected. In this frequency band, one signal component of the selected sound emission signal or sound collection signal is retained, and the other is removed. The sound emission signal dividing means divides the sound emission signal acquired from the other device and output from the speaker into a plurality of frequency bands, and outputs it to the band selection means. The band selection means holds the signal component of the selected frequency band for the sound emission signal divided into a plurality of frequency bands, removes the signal component of the frequency band not selected, and outputs it to the sound emission signal synthesis means To do. Then, the sound emission signal synthesizing unit synthesizes the sound emission signal from which the signal components in the frequency band not selected are removed, and outputs the synthesized sound signal to the speaker. As a result, a sound signal (sound emission signal) from which the signal component of the frequency band that has not been selected is removed is emitted from the speaker. On the other hand, the collected sound signal dividing unit divides the collected sound signal input from the microphone into a plurality of frequency bands that are the same as the sound output signal, and outputs the divided frequency band to the band selecting unit. The band selection means holds the signal component of the frequency band in which the sound collection signal is selected and the sound emission signal is not selected for the sound collection signal divided into a plurality of frequency bands, and the sound emission signal is selected and collected. The signal component in the frequency band where the signal is not selected is removed and output to the collected sound signal synthesizing means. The sound emission signal synthesizing unit synthesizes the collected sound signal from which the signal component of the frequency band that has not been selected is removed. Thereby, the collected sound signal from which the signal component of the frequency band in which the sound output of the speaker input from the microphone is superimposed is removed is synthesized and sent to another device.
本発明の音声処理装置では、スピーカから放音する音声と、マイクで収音する音声を複数の周波数領域に分割し、一方の信号成分を有効とする領域は他方の信号成分を除去することによって、放音する音声信号と収音する音声信号の周波数成分が重ならないようにすることができる。したがって、マイクに収音する音声には、スピーカから放音される音声が重畳されているが、重畳成分が含まれるのは、収音信号の周波数領域のうち信号成分を除去する領域のみである。この結果、エコーやハウリングが起こらずに、拡声通話系における双方向同時通話を実現することができる。 In the sound processing apparatus of the present invention, the sound emitted from the speaker and the sound picked up by the microphone are divided into a plurality of frequency regions, and the region in which one signal component is valid is removed by removing the other signal component. The frequency components of the sound signal to be emitted and the sound signal to be collected can be prevented from overlapping. Therefore, the sound collected by the microphone is superimposed with the sound emitted from the speaker, but the superimposed component is included only in the region where the signal component is removed from the frequency region of the collected sound signal. . As a result, it is possible to realize a two-way simultaneous call in a loudspeaker call system without causing echo or howling.
また、系変動時の収束にある程度の時間がかかり、計算量も少なくない適応フィルタと比較し、収束時間も必要とせず、計算量も少なくて済む。これにより、マイクやスピーカを動かしたり、発言者が動いたりしたような場合にも、効果を発揮することができる。 In addition, it takes a certain amount of time for convergence when the system fluctuates, and does not require a convergence time and requires a smaller amount of calculation compared to an adaptive filter that does not require a small amount of calculation. Thereby, even when a microphone or a speaker is moved or a speaker moves, the effect can be exhibited.
以下、本発明の実施の形態を図面を参照して説明する。まず、実施の形態に適用される発明の概念について説明し、その後、実施の形態の具体的な内容を説明する。
図1は、実施の形態に適用される発明の概念図である。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. First, the concept of the invention applied to the embodiment will be described, and then the specific contents of the embodiment will be described.
FIG. 1 is a conceptual diagram of the invention applied to the embodiment.
本発明にかかる音声処理装置は、放音信号を複数の周波数帯域に分割する放音信号分割手段1、収音信号を複数の周波数帯域に分割する収音信号分割手段2、複数の周波数帯域に分割された放音信号と収音信号の信号成分が含まれる周波数帯域が重ならないようそれぞれが利用する帯域を選択する帯域選択手段3、帯域選択処理された放音信号を合成する放音信号合成手段4および帯域選択処理された収音信号を合成する収音信号合成手段5を具備する。 The sound processing apparatus according to the present invention includes a sound emission signal dividing means 1 for dividing a sound emission signal into a plurality of frequency bands, a sound collection signal dividing means 2 for dividing the sound collection signal into a plurality of frequency bands, and a plurality of frequency bands. Band selection means 3 for selecting a band to be used so that frequency bands including the signal components of the divided sound emission signal and the collected sound signal do not overlap each other, and sound emission signal synthesis for synthesizing the sound emission signals subjected to the band selection processing Means 4 and sound collection signal synthesis means 5 for synthesizing the sound collection signals subjected to band selection processing are provided.
放音信号分割手段1は、他装置から取得し、スピーカから出力される放音信号、すなわち、他装置がマイクによって収音した音声信号を入力すると、フーリエ変換などの時間領域から周波数領域への変換手法や、フィルタバンクを用いたマルチレート信号処理によって、音声信号(放音信号)を複数の周波数帯域に帯域分割する。帯域分割した放音信号は、帯域選択手段3へ出力する。 The sound emission signal dividing means 1 obtains a sound emission signal acquired from another device and output from a speaker, that is, a sound signal collected by the other device with a microphone, and then changes from the time domain to the frequency domain such as Fourier transform. A voice signal (sound emission signal) is divided into a plurality of frequency bands by a conversion method or multi-rate signal processing using a filter bank. The sound emission signal that has been divided into bands is output to the band selecting means 3.
収音信号分割手段2は、マイクから入力された収音信号、すなわち、スピーカから出力された放音信号が重畳された音声信号を入力すると、放音信号分割手段1と同じ方法によって、音声信号(収音信号)を複数の周波数帯域に帯域分割する。帯域分割した収音信号は、帯域選択手段3へ出力する。 When the sound collection signal dividing means 2 receives the sound collection signal inputted from the microphone, that is, the sound signal superimposed with the sound emission signal outputted from the speaker, the sound signal is divided by the same method as the sound emission signal division means 1. The (sound pickup signal) is divided into a plurality of frequency bands. The collected sound signal divided into the bands is outputted to the band selecting means 3.
帯域選択手段3は、複数の周波数帯域に帯域分割された放音信号と収音信号を入力し、所定の周波数帯域範囲について、放音信号を選択する周波数帯域と、収音信号を選択する周波数帯域とを決定する。所定の周波数帯域範囲は、全周波数帯域の範囲とすることもできるし、全範囲の一部としてもよい。放音信号を選択する周波数帯域では、その周波数帯域の放音信号の信号成分は除去せず、その周波数帯域の収音信号の信号成分は除去する。一方、収音信号を選択する周波数帯域では、その周波数帯域の放音信号の信号成分は除去し、その周波数帯域の収音信号の信号成分は保持する。これにより、スピーカへ出力する音声信号(放音信号)と、マイクから入力する音声信号(収音信号)の信号成分が含まれる周波数帯域が重ならなくなる。このため、マイクから入力する収音信号に放音信号が重畳されていても、これを除去することができる。また、除去した周波数帯域の音声信号の信号成分を、除去しなかった周波数帯域の信号成分で補間してもよい。なお、周波数帯域範囲や周波数帯域の選択の詳細については、実施の形態で詳細に説明する。
The
放音信号合成手段4は、放音信号分割手段1によって帯域分割され、帯域選択手段3によって所定の周波数帯域の信号成分が除去された放音信号を合成し、スピーカへ出力する。
The sound emission signal synthesizing unit 4 synthesizes the sound emission signal which has been band-divided by the sound emission
収音信号合成手段5は、収音信号分割手段2によって帯域分割され、帯域選択手段3によって放音信号が除去された周波数帯域の信号成分を保持し、放音信号が保持される周波数帯域の信号成分が除去された収音信号を合成する。合成された収音信号は、他装置のスピーカから出力される放音信号として、他装置へ送られる。 The collected sound signal synthesizing means 5 holds the signal component of the frequency band that is divided by the collected sound signal dividing means 2 and from which the sound emission signal is removed by the band selection means 3, and has the frequency band in which the sound emission signal is held. The collected sound signal from which the signal component is removed is synthesized. The synthesized sound collection signal is sent to the other device as a sound emission signal output from the speaker of the other device.
このような構成の音声処理装置では、全二重通信を行う相手先の装置が収音した音声信号が入力されると、これをスピーカに放音する音声処理を行う。相手先装置から取得した相手先の収音信号を放音信号とし、放音信号分割手段1によって複数の周波数帯域に帯域分割する。帯域分割された放音信号は、帯域選択手段3によって所定の周波数帯域の信号成分が除去された後、放音信号合成手段4で合成され、スピーカから放音される。したがって、スピーカから放音される音声信号は、所定の周波数帯域の信号成分が除去されている。
In the audio processing apparatus having such a configuration, when an audio signal picked up by a partner apparatus that performs full-duplex communication is input, audio processing is performed for emitting the sound signal to a speaker. The collected sound signal of the other party acquired from the other party device is used as a sound emission signal, and the sound emission signal dividing means 1 performs band division into a plurality of frequency bands. The sound signal that has been subjected to the band division is synthesized by the sound emission signal synthesizing unit 4 after the signal component of a predetermined frequency band is removed by the
このスピーカから放音された音声信号は、発言者の音声とともにマイクを介して音声処理装置に入力される。このマイクから入力された収音信号には、発言者の音声信号にスピーカから放音された音声信号が重畳されている。収音信号分割手段2は、この収音信号を放音信号分割手段1と同様にして、複数の周波数帯域に分割し、帯域選択手段3へ出力する。帯域選択手段3の音声処理では、放音信号を選択した周波数帯域の収音信号の信号成分を除去し、放音信号が選択されなかった、すなわち、収音信号が選択された周波数帯域の収音信号成分を除去しない。これにより、帯域分割された収音信号からは、放音信号が重畳される周波数帯域の信号成分が除去される。収音信号合成手段5によって、この収音信号を合成し、相手先装置へ送信する。合成された収音信号からは、スピーカからの放音信号の信号成分、すなわち、エコー成分は除去されており、エコー成分が除去された収音信号を他装置へ出力することによって、ハウリングも防止することができる。
The audio signal emitted from the speaker is input to the audio processing device via the microphone together with the voice of the speaker. The sound signal input from the microphone is superimposed with the sound signal emitted from the speaker on the sound signal of the speaker. The collected sound signal dividing means 2 divides the collected sound signal into a plurality of frequency bands in the same manner as the emitted sound signal dividing means 1, and outputs it to the
このように、本発明にかかる音声処理装置によれば、エコーやハウリングを抑制して、双方向同時通話を実現することができる。また、スピーカから出力する音声信号(放音信号)と、マイクから入力する音声信号(収音信号)の周波数成分が重ならないようにすることによって、エコーやハウリングを抑制するので、適応フィルタに比べ計算量も少なく、系が変動した場合でも対応することができ、収束までの時間を必要としないという利点もある。 As described above, according to the voice processing device of the present invention, it is possible to realize two-way simultaneous calling while suppressing echo and howling. In addition, since the frequency components of the audio signal (sound emission signal) output from the speaker and the audio signal (sound collection signal) input from the microphone do not overlap, echo and howling are suppressed, so compared to the adaptive filter There is also an advantage that the amount of calculation is small, it is possible to cope with the case where the system fluctuates, and the time until convergence is not required.
以下、実施の形態を、テレビ会議システムの音声処理部に適用した場合を例に図面を参照して詳細に説明する。
図2は、本発明の実施の形態のテレビ会議システムの構成を示した図である。図では、本発明の説明と関係のない画像に関する処理部を省略している。
Hereinafter, an embodiment will be described in detail with reference to the drawings, taking as an example a case where the embodiment is applied to an audio processing unit of a video conference system.
FIG. 2 is a diagram showing the configuration of the video conference system according to the embodiment of the present invention. In the figure, a processing unit relating to an image that is not related to the description of the present invention is omitted.
本実施の形態のテレビ会議システムは、スピーカ21aとマイク22aを接続する会議端末10aと、スピーカ21bとマイク22bを接続する会議端末10bが通信回線23によって接続されている。以下、任意の話者の近くに配置される会議端末10aを近端装置、近端装置10aと通信回線23を介して接続し、この話者からは遠方に位置する会議端末10bを遠端装置10bとする。近端装置10aと遠端装置10bは、同様の構成をしており、図では遠端装置10bの内部ブロック図を省略している。なお、通信回線23は、イーサネット(登録商標)などの一般的なディジタル通信回線である。
In the video conference system of the present embodiment, a conference terminal 10a connecting a speaker 21a and a
近端装置10aに接続されたスピーカ21aは、遠端装置10bに接続されたマイク22bで収音された音声を近端装置10aで処理して放音する。近端装置10aに接続されたマイク22aは、近端装置10aのテレビ会議出席者の発言音声を収音する。このとき、空間を介して入力されるスピーカ21aから放音される音声が重畳して収音される。遠端装置10bの場合も同様である。
The speaker 21a connected to the near-end device 10a processes the sound collected by the microphone 22b connected to the far-end device 10b with the near-end device 10a and emits the sound. The
以下、近端装置10aおよび遠端装置10bの内部構成を近端装置10aの場合で説明する。近端装置10aは、スピーカに接続するD/A変換器11、マイク22bに接続するA/D変換器12、音声信号を処理する信号処理部13、音声信号の符号化/復号処理を行う音声コーデック14および通信回線23に接続する通信部15を具備する。
Hereinafter, the internal configuration of the near-end device 10a and the far-end device 10b will be described in the case of the near-end device 10a. The near-end device 10a includes a D /
D/A変換器11は、信号処理部13で処理されたディジタル音声データをアナログへ変換する。アナログ音声信号は、図示しない増幅器で増幅された後、スピーカ21aから放音される。A/D変換器12は、マイク22aで収音された音声が、図示しない増幅器で増幅されたアナログ音声信号をディジタル音声データに変換する。信号処理部13は、ディジタルシグナルプロセッサー(DSP)で構成され、入力および出力の音声データを所望のデータへ変換する処理を行うとともに、収音された音声と放音される音声の周波数成分が重ならないように音声処理を実行する。この音声処理の詳細は後述する。音声コーデック14は、信号処理部13から送られてくるマイク22aの入力に基づく音声データをテレビ会議システムの通信で標準的に定められている符号へ変換するとともに、通信部15から送られてくる遠端装置10bによって符号化された音声データをデコードし、信号処理部13へ送る。通信部15は、遠端装置10bとの間で、符号化された音声データを含む入出力データを、所定のディジタルデータ通信プロトコルに基づき、通信回線23を介して送受信する。
The D /
次に、信号処理部13による音声処理について詳細に説明する。
まず、第1の実施の形態として、音声信号の全周波数範囲を放音の信号成分を選択する周波数帯域と、収音の信号成分を選択する周波数帯域とに分けて音声処理する信号処理部について説明する。
Next, audio processing by the
First, as a first embodiment, a signal processing unit that performs audio processing by dividing the entire frequency range of an audio signal into a frequency band for selecting a signal component for sound emission and a frequency band for selecting a signal component for sound collection explain.
図3は、本発明の第1の実施の形態の信号処理部の構成を示した図である。なお、信号処理部30は、図2に示した会議端末の信号処理部13に組み込まれる。
本発明の第1の実施の形態である信号処理部30は、放音信号を複数の周波数帯域に帯域分割する分析フィルタバンク31、帯域分割された放音信号を合成する合成フィルタバンク32、収音信号を複数の周波数帯域に帯域分割する分析フィルタバンク33および帯域分割された収音信号を合成する合成フィルタバンク34を具備する。
FIG. 3 is a diagram illustrating a configuration of the signal processing unit according to the first embodiment of this invention. The
The
分析フィルタバンク31は、放音信号分割手段であり、音声コーデック14から入力した音声信号データを低域から高域までの128チャンネルの周波数帯域に帯域分割する。以下、説明のため、最も低域のチャンネルを第1チャンネルとして順番に番号を付し、最も高域のチャンネルを第128チャンネルとする。この帯域分割処理は、たとえば、渡口和信らによる「完全再構成DFTフィルタバンクを用いたサブバンド適応フィルタ」(電子情報通信学会、1996年8月、Vol.J79−A No.8 pp.1385−1393)に記載されているDFTフィルタバンクを用いて構成する。帯域を分割してダウンサンプリングの後に信号処理を行い、再び再合成する処理はマルチレート信号処理と呼ばれる。帯域分割の手法は、DFTフィルタバンクのほかにもQMFフィルタバンクなど、用途に応じて様々な手法が知られている。実施の形態では、DFTフィルタバンクを用いた場合について説明するが、他の手法で帯域分割を行ってもかまわない。また、フィルタバンク以外の方法として、フーリエ変換などの時間領域から周波数領域への変換、逆変換が定義されている手法を用いることもできる。DFTフィルタバンクは分析と合成に機能が分けられる。分析で帯域別に分割された音声データは、合成フィルタバンクで元の音声データに再合成することができることが知られている。なお、手法によっては元の信号と再合成された信号が多少異なる場合もあるが、本発明に関しては本質的な影響がないように構成することができる。
The
合成フィルタバンク32は、放音信号合成手段であり、分析フィルタバンク31が帯域分割した128チャンネルの音声信号のうち、図示しない帯域選択手段によって、偶数番目のチャンネルの信号成分が除去された音声データを入力し、全帯域の成分を合成して1つの音声信号を生成する。音声信号は、D/A変換器11を介してスピーカ21aへ出力される。
The
分析フィルタバンク33は、収音信号分割手段であり、A/D変換器12から入力した音声信号データを、分析フィルタバンク31と同様に、低域から高域までの128チャンネルの周波数帯域に帯域分割する。なお、分析フィルタバンク33は、分析フィルタバンク31と同じに構成される。
The
合成フィルタバンク34は、収音信号合成手段であり、分析フィルタバンク33が帯域分割した128チャンネルの音声信号のうち、図示しない帯域選択手段によって、奇数番目のチャンネルの信号成分が除去された音声データを入力し、全帯域の成分を合成して1つの音声信号を生成する。音声信号は、音声コーデック14を介して他装置へ送信される。
The
なお、帯域選択手段では、スピーカ21aから放音される音声信号と、マイク22aで収音する音声信号の周波数成分が重ならないように、それぞれの音声信号が含まれる周波数帯域(チャンネル)を選択する。ここでは、低域から順に1から128まで割り振った番号の奇数番目のチャンネル(1、3、・・・、127)を放音される音声信号用として選択し、偶数番目のチャンネル(2、4、・・・、128)をマイクから収音される音声信号用として選択する。すなわち、放音される音声信号は、奇数番目のチャンネルに該当する周波数帯域の信号成分を利用し、偶数番目のチャンネルに該当する周波数帯域の信号成分は除去される。また、収音される音声信号は、奇数番目のチャンネルに該当する周波数帯域の信号成分を除去し、偶数番目のチャンネルに該当する周波数帯域の信号成分を利用される。このように、チャンネルを分離することによって、放音された音声信号が収音された音声信号に重畳されることを防止することができる。
The band selection means selects a frequency band (channel) in which each audio signal is included so that the audio signal emitted from the speaker 21a and the frequency component of the audio signal collected by the
このような信号処理部30によって実行される音声処理について、フローチャートを用いて説明する。
まず、スピーカから放音する音声信号の処理(以下、スピーカ音声処理とする)について説明する。図4は、第1の実施の形態の信号処理部を含む近端装置のスピーカ音声処理手順を示したフローチャートである。なお、遠端装置10bにおいても同様の手順で音声処理が行われる。
The sound processing executed by the
First, processing of an audio signal emitted from a speaker (hereinafter referred to as speaker audio processing) will be described. FIG. 4 is a flowchart illustrating a speaker audio processing procedure of the near-end device including the signal processing unit according to the first embodiment. In the far-end device 10b, sound processing is performed in the same procedure.
[ステップS01] 通信回線23を介して遠端装置10bからの符号化された音声データを通信部15で受信する。
[ステップS02] ステップS01で受信した音声データを音声コーデック14によってデコードし、たとえば、32KHzサンプリング16ビットストレートPCMのディジタル音声データが生成される。このディジタル音声データは、DSPによって構成される信号処理部30へ送られる。
[Step S01] The encoded voice data from the far-end device 10b is received by the
[Step S02] The audio data received in step S01 is decoded by the
[ステップS03] 信号処理部30では、入力された音声データに対し、分析フィルタバンク31による帯域分割処理を行う。ここでは、DFTフィルタバンクを用いて、他装置から入力された放音される音声データを低域から高域までの128チャンネルの周波数帯域に分割する。
[Step S03] The
[ステップS04] 128チャンネルのうち、放音される音声信号に割り当てられたチャンネル(ここでは、奇数番目のチャンネル)の信号成分をそのまま合成フィルタバンク32に送り、放音される音声信号に割り当てられなかったチャンネル(ここでは、偶数番目のチャンネル)の信号成分を合成フィルタバンク32へ出力しない。すなわち、分析フィルタバンク31の128チャンネルの周波数帯域のうち、偶数番目の出力を0として合成フィルタバンク32へ出力する。これにより、放音される音声信号の偶数番目の周波数帯域の信号成分が除去される。
[Step S04] Of the 128 channels, the signal component of the channel assigned to the sound signal to be emitted (in this case, the odd-numbered channel) is directly sent to the
[ステップS05] 合成フィルタバンク32は、放音される音声信号が割り当てられなかった周波数帯域(ここでは、偶数番目のチャンネル)の信号成分が除去された音声データを受け取り、全帯域の信号成分を合成して1つの音声信号とし、D/A変換器11へ送る。
[Step S05] The
[ステップS06] D/A変換器11は、合成フィルタバンク32が合成した放音用の音声信号をアナログ音声信号へ変換し、スピーカ21aへ出力する。
[ステップS07] D/A変換器11から取得したアナログ音声信号を増幅器で増幅し、スピーカ21aから放音する。
[Step S06] The D /
[Step S07] The analog audio signal acquired from the D /
以上のスピーカ音声処理手順が実行されることにより、他装置から入力され、スピーカ21aから放音する音声信号について、128チャンネルに帯域分割された偶数番目の周波数帯域の信号成分が除去され、1つの音声信号に合成された後、スピーカ21aから出力される。 By executing the above speaker audio processing procedure, the signal component of the even-numbered frequency band divided into 128 channels is removed from the audio signal input from another device and emitted from the speaker 21a. After being synthesized with the audio signal, it is output from the speaker 21a.
次に、マイクから収音する音声信号の音声処理(以下、マイク音声処理とする)について説明する。図5は、第1の実施の形態の信号処理部を含む近端装置のマイク音声処理手順を示したフローチャートである。なお、遠端装置10bにおいても同様の手順で音声処理が行われる。 Next, audio processing of an audio signal collected from a microphone (hereinafter referred to as microphone audio processing) will be described. FIG. 5 is a flowchart illustrating a microphone sound processing procedure of the near-end device including the signal processing unit according to the first embodiment. In the far-end device 10b, sound processing is performed in the same procedure.
[ステップS11] 近端装置側のテレビ会議出席者の発言や、スピーカ21aから放音される音声は、マイク22aによって収音される。この収音された音声は、A/D変換器12で32KHzサンプリング16ビットストレートPCMのディジタル音声データに変換される。変換された音声データは、分析フィルタバンク33へ出力される。
[Step S11] The speech of the video conference attendee on the near-end device side and the sound emitted from the speaker 21a are collected by the
[ステップS12] 分析フィルタバンク33は、ステップS11で生成された音声データを入力し、放音信号用の分析フィルタバンク31と同様に、128チャンネルの音声データに分割する。
[Step S12] The
[ステップS13] 128チャンネルのうち、放音信号とは逆の収音信号に割り当てられたチャンネル(ここでは、偶数番目のチャンネル)の信号成分をそのまま合成フィルタバンク34に送り、放音される音声信号に割り当てられたチャンネル(ここでは、奇数番目のチャンネル)の信号成分を合成フィルタバンク34へ出力しない。すなわち、分析フィルタバンク33の128チャンネルの周波数帯域のうち、放音される音声信号とは逆の奇数番目の出力を0として合成フィルタバンク34へ出力する。これにより、収音された音声信号の奇数番目の周波数帯域の信号成分が除去される。
[Step S13] Of the 128 channels, the signal component of the channel (here, the even-numbered channel) assigned to the sound pickup signal opposite to the sound output signal is sent to the
[ステップS14] 合成フィルタバンク34は、収音された音声信号が割り当てられなかった周波数帯域(ここでは、放音信号と逆の奇数番目のチャンネル)の信号成分が除去された音声データを受け取り、全帯域の信号成分を合成して1つの音声信号とし、音声コーデック14へ送る。
[Step S14] The
[ステップS15] 音声コーデック14は、合成フィルタバンク34より入力された音声信号を予め定められている符号へエンコードし、通信部15へ送る。
[ステップS16] 通信部15は、この符号化された音声データを、通信回線23を介して遠端装置10bへ送信する。
[Step S <b> 15] The
[Step S16] The
以上の処理手順が実行されることにより、マイク22aで収音され、遠端装置10bに送信される音声信号について、128チャンネルに帯域分割された奇数番目の周波数帯域の信号成分が除去され、1つの音声信号に合成され、エンコードされた後、通信部15送信される。
By executing the above processing procedure, the signal component of the odd frequency band divided into 128 channels is removed from the audio signal collected by the
上述のように、スピーカ21aから放音され、マイク22aから収音される音声信号は、奇数番目のチャンネルに相当する周波数帯域の信号成分のみが保持されている。したがって、収音された音声信号から奇数番目のチャンネルの信号成分を除去することによって、スピーカ21aから放音された音声信号に由来する信号成分は、収音された音声信号から除去されたことになる。すなわち、収音された音声信号からエコー成分が除去されたことになる。
As described above, the audio signal emitted from the speaker 21a and collected from the
以上のように、第1の実施の形態では、スピーカから放音される音声とマイクで収音する音声の周波数成分を周波数帯域の偶数番目と奇数番目で分けて重ならないように構成することにより、エコーおよびハウリングを抑制して双方向同時通話を実現することが可能となる。 As described above, in the first embodiment, the frequency components of the sound emitted from the speaker and the sound collected by the microphone are divided into even-numbered and odd-numbered frequency bands so as not to overlap. In addition, it is possible to realize a two-way simultaneous call while suppressing echo and howling.
なお、上記の説明では、チャンネルを偶数番目と奇数番目とに分けるとしたが、マイクとスピーカそれぞれの周波数成分が重ならないように構成されていれば実現できるので、偶数、奇数という分け方の他にも、様々な分け方が可能である。 In the above description, the channels are divided into even-numbered and odd-numbered channels. However, this can be realized if the frequency components of the microphone and the speaker do not overlap each other. In addition, various ways of dividing are possible.
マイク音声処理用のチャンネルとスピーカ音声処理用のチャンネルを偶数、奇数と交互に分けるのではなく、2以上の周波数帯域ごとに分けてもよい。たとえば、
マイク音声処理で選択するチャンネル: 1、2、5、6、・・・、125、126
スピーカ音声処理で選択するチャンネル:3、4、7、8、・・・、127、128
というように、2つずつ交互に分けてもよい。
The channel for microphone sound processing and the channel for speaker sound processing may be divided into two or more frequency bands instead of being alternately divided into even and odd numbers. For example,
Channels selected for microphone audio processing: 1, 2, 5, 6,..., 125, 126
Channels selected for speaker audio processing: 3, 4, 7, 8,..., 127, 128
As such, it may be alternately divided into two.
また、単純に選択するチャンネルをあらかじめ選択する方法のほかに、音声の特徴に応じて動的に選択する方法がある。
本実施の形態の音声処理では、音声の一部の成分を除去するので、音質に影響を与える可能性がある。たとえば、音声圧縮のために一部の成分を除去する場合に、聴感上の影響を軽減する手法として、聴覚マスキング効果を利用した方法が知られている。
In addition to a method of simply selecting a channel to be selected in advance, there is a method of dynamically selecting a channel according to audio characteristics.
In the audio processing according to the present embodiment, since some components of the audio are removed, the sound quality may be affected. For example, a method using an auditory masking effect is known as a method of reducing the influence on hearing when removing some components for audio compression.
図6は、音声信号の特性を示した図である。図は、ある時間のスピーカへ出力すべき音声を分析フィルタバンク31で処理した出力を、横軸にフィルタバンクの128チャンネルを低域から高域に並べ、縦軸にパワーをプロットしたグラフである。
FIG. 6 is a diagram showing the characteristics of an audio signal. The figure is a graph in which the output to be output to the speaker for a certain time is processed by the
この図では、第15、60、78チャンネルにピークがある特性となっている。この場合、聴覚マスキング効果を利用したスピーカ音声処理とマイク音声処理の周波数成分が重ならないようにするチャンネル選択は、たとえば、次のように行う。 In this figure, there is a characteristic with peaks in the 15th, 60th, and 78th channels. In this case, channel selection that prevents frequency components of speaker audio processing and microphone audio processing using the auditory masking effect from overlapping is performed as follows, for example.
スピーカ音声処理で選択するチャンネル:3、6、9、12、15、18、21、24、27、30、33、36、39、42、45、48、51、54、57、60、63、66、59、72、75、78、81、84、87、90、93、96、99、102、105、108、111、114、117、120、123、126
マイク音声処理で選択するチャンネル:上記を除く1から128までのチャンネル
すなわち、スピーカ音声処理では、ピークがある第15、60、78を含めて2チャンネルごとに選択し、マイク音声処理では、それ以外のチャンネルを選択する。聴覚マスキング効果を利用した選択方法は、前述の2チャンネルごとに限らず、任意の値に調整可能である。また、音声の周波数成分のピークの検出は、ある一時点のピークを使う方法のほかに、時間平均したもののピークを検出する方法も可能である。
Channels selected for speaker audio processing: 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48, 51, 54, 57, 60, 63, 66, 59, 72, 75, 78, 81, 84, 87, 90, 93, 96, 99, 102, 105, 108, 111, 114, 117, 120, 123, 126
Channels selected for microphone audio processing:
以上の説明では、フィルタバンクを利用して周波数成分に分割し、マイク音声処理およびスピーカ音声処理それぞれの周波数成分が重ならないようにする構成を示したが、フィルタバンクのほかに同様な時間周波数変換を行うフーリエ変換を用いる方法も可能である。この場合、分析フィルタバンク31、33を128ポイントのフーリエ変換とし、合成フィルタバンク32、34をこのフーリエ変換に対応する逆変換とすればよい。また、時間周波数変換は、フィルタバンク、フーリエ変換のほかにもディスクリートコサイン変換(DCT)やウエーブレット変換を用いても可能である。
In the above description, the filter bank is used to divide the frequency components so that the frequency components of the microphone audio processing and the speaker audio processing do not overlap each other. It is also possible to use a method using Fourier transform to perform the above. In this case, the
また、第1の実施の形態では、周波数成分を除去して0とするとしたが、0以外にも環境騒音に準じる小さな値を選択することも可能である。
次に、第2の実施の形態について説明する。第1の実施の形態では、音声信号の全周波数範囲を放音の信号成分を選択する周波数帯域と、収音の信号成分を選択する周波数帯域とに分けるとしたが、第2の実施の形態では、このような音声処理を一部の周波数帯域範囲とし、他の周波数帯域には適応フィルタを用いた音声処理を行うとする。
In the first embodiment, the frequency component is removed and set to 0. However, it is also possible to select a small value according to the environmental noise other than 0.
Next, a second embodiment will be described. In the first embodiment, the entire frequency range of the audio signal is divided into a frequency band for selecting a sound signal component and a frequency band for selecting a sound signal component. Then, it is assumed that such voice processing is performed in a part of the frequency band range, and voice processing using an adaptive filter is performed in other frequency bands.
図7は、第2の実施の形態の信号処理部の構成を示した図である。なお、第2の実施の形態における信号処理部が有する処理機能の構成要素は、図3に示した第1の実施の形態の構成要素と同様である。そこで、図3に示した構成要素の符号を用いて、第2の実施の形態における機能を説明する。 FIG. 7 is a diagram illustrating the configuration of the signal processing unit according to the second embodiment. In addition, the component of the processing function which the signal processing part in 2nd Embodiment has is the same as the component of 1st Embodiment shown in FIG. Therefore, the functions of the second embodiment will be described using the reference numerals of the components shown in FIG.
第2の実施の形態では、分析フィルタバンク31、33による帯域分割を256チャンネルとし、第1チャンネルを最も低い周波数の成分を出力するとし、順番に番号を付し、最も高い周波数成分のフィルタを第256チャンネルとする。そして、第1チャンネルから第128チャンネルについては、適応フィルタ41、42、43、・・・、44を用いた音声処理を行い、第129チャンネルから第256チャンネルについては、第1の実施の形態で示したのと同様の処理を行う。なお、第1チャンネルから第128チャンネルについて適応フィルタを用いた音声処理を行うのは、一般的に、低域側の周波数帯域に音声信号が多く含まれることによる。
In the second embodiment, it is assumed that the band division by the
第129チャンネルから第256チャンネルについては、スピーカ音声処理として、分析フィルタバンク31によって帯域分割されたチャンネルの信号成分のうち、偶数番目のチャンネルの信号成分を除去して合成フィルタバンク32へ送る。また、マイク音声処理として、分析フィルタバンク33によって帯域分割されたチャンネルの信号成分のうち、奇数番目のチャンネルの信号成分を除去して合成フィルタバンク34へ送る。以上の処理が行われることにより、第129チャンネルから第256チャンネルが属する周波数帯域については、第1の実施の形態と同様の効果が得られる。
For the 129th to 256th channels, the signal components of the even-numbered channels are removed from the signal components of the channels divided by the
次に、第2の実施の形態の音声処理手順について説明する。図8は、第2の実施の形態の信号処理部の音声処理手順を示したフローチャートである。なお、第1の実施の形態と同じ処理手順については、説明を省略する。 Next, an audio processing procedure according to the second embodiment will be described. FIG. 8 is a flowchart illustrating an audio processing procedure of the signal processing unit according to the second embodiment. Note that description of the same processing procedure as in the first embodiment is omitted.
スピーカ音声処理について説明する。
[ステップS21] 分析フィルタバンク31によって、第1チャンネルを最も低い周波数成分として第256チャンネルまでの256チャンネルに、放音される音声信号が帯域分割される。
Speaker audio processing will be described.
[Step S21] The
[ステップS22] この256チャンネルのうち、第129チャンネルから第256チャンネルについて、偶数番目の出力を0とし、合成フィルタバンク32へ出力する。
[ステップS23] この256チャンネルのうち、第1から第128チャンネルに対しては、全てのチャンネルの信号成分を合成フィルタバンク32へ送るとともに、それぞれのチャンネルに対応して設けられた適応フィルタ(処理部)41、42、43、・・・、44へ適応フィルタ処理のリファレンス音声として信号成分を送る。
[Step S22] Of the 256 channels, the even-numbered output is set to 0 for the 129th channel to the 256th channel, and is output to the
[Step S23] Among the 256 channels, for the first to 128th channels, the signal components of all the channels are sent to the
[ステップS24] 全帯域の信号成分を合成して、1つの音声信号とする。この音声信号は、D/A変換器11を経て、スピーカ21aより出力される。
マイク音声処理について説明する。
[Step S24] The signal components of all the bands are combined into one audio signal. This audio signal is output from the speaker 21 a via the D /
The microphone sound processing will be described.
[ステップS25] スピーカ音声処理と同時に、マイク22aを介して入力された音声信号は、分析フィルタバンク31と同じ構成の分析フィルタバンク33によって256チャンネルに帯域分割される。
[Step S25] Simultaneously with the speaker audio processing, the audio signal input through the
[ステップS26] 256チャンネルのうち、第129チャンネルから第256チャンネルについて、スピーカ音声処理とは逆に奇数番目の出力を0とし、合成フィルタバンク34へ出力する。すなわち、第129チャンネルから第256チャンネルの成分は、第1の実施の形態と同様に、スピーカ21aへの出力音声と、マイク22aからの入力音声が、それぞれ奇数チャンネル、偶数チャンネルの音声成分しか含まず、同じ周波数成分が重ならないように構成される。
[Step S26] Contrary to speaker audio processing, odd-numbered outputs are set to 0 for 256th channel to 129th to 256th channels, and output to the
[ステップS27] この256チャンネルのうち、第1から第128チャンネルについては、それぞれのチャンネルに対応して設けられた適応フィルタ(処理部)41、42、43、・・・、44へ信号成分を送る。 [Step S27] Among the 256 channels, for the first to 128th channels, signal components are sent to adaptive filters (processing units) 41, 42, 43,..., 44 provided corresponding to the respective channels. send.
[ステップS28] 適応フィルタ(処理部)41、42、43、・・・、44は、第1から第128チャンネルについて、ステップS23によって入力されたスピーカへ放音する音声信号をリファレンス信号とし、ステップS27によって入力されたマイクが収音した音声信号を目的信号として、LMS(Least Mean Square)アルゴリズムを用いた適応フィルタにより処理される。適応フィルタ処理については、本願発明と直接には関連しないので説明は省略する。適応フィルタ処理により、擬似エコーが生成される。 [Step S28] The adaptive filters (processing units) 41, 42, 43,..., 44 use the audio signal emitted to the speaker input in step S23 for the first to 128th channels as a reference signal. The voice signal picked up by the microphone input in S27 is processed as an objective signal by an adaptive filter using an LMS (Least Mean Square) algorithm. Since the adaptive filter processing is not directly related to the present invention, a description thereof will be omitted. A pseudo echo is generated by the adaptive filter processing.
[ステップS29] 適応フィルタ(処理部)41、42、43、・・・、44は、第1から第128チャンネルについて、ステップS27によって入力されたマイクが収音した音声信号からステップS28によって算出された擬似エコーを差し引き、合成フィルタバンク34へ送る。
[Step S29] The adaptive filters (processing units) 41, 42, 43,..., 44 are calculated in Step S28 for the first to 128th channels from the audio signal collected by the microphone input in Step S27. The pseudo echo is subtracted and sent to the
[ステップS30] 合成フィルタバンク34では、ステップS26によって入力された第129チャンネルから第256チャンネルの信号成分と、ステップS29によって入力された第1から第128チャンネルの信号成分の全帯域の成分を合成して1つの音声信号とする。この音声信号は、音声コーデック14を経て、他装置へ送信される。
[Step S30] In the
以上の説明の第2の実施の形態では、第1の実施の形態の構成に適応フィルタによるエコーキャンセルを組み合わせることにより、音質に強い影響を与える信号成分は適応フィルタによって音声処理し、音質に影響が少ない信号成分は第1の実施の形態の構成により音声処理を行う。これにより、第1の実施の形態が適用される周波数帯域では、第1の実施の形態と同様に計算量を削減することができるので、音質と計算量を考慮した最適なシステムを設計することができる。 In the second embodiment described above, by combining the configuration of the first embodiment with echo cancellation by an adaptive filter, signal components that have a strong influence on sound quality are processed by the adaptive filter, and the sound quality is affected. The signal component with a small amount is subjected to sound processing by the configuration of the first embodiment. As a result, in the frequency band to which the first embodiment is applied, the amount of calculation can be reduced as in the first embodiment, and therefore an optimal system that takes into account the sound quality and the amount of calculation should be designed. Can do.
なお、第2の実施の形態の第129チャンネルから第256チャンネルの処理は、第1の実施の形態の処理と同様であり、第1の実施の形態と同様の変形が可能である。
また、適応フィルタの手法は、LMSアルゴリズムのほかに様々な手法が知られており、他の手法を用いることもできる。また、適応フィルタの性能向上のための制御方法も様々な手法が知られており、適応処理(ステップS28)に適用することで、性能が向上する。
Note that the processing from the 129th channel to the 256th channel in the second embodiment is the same as the processing in the first embodiment, and can be modified in the same manner as in the first embodiment.
In addition to the LMS algorithm, various methods are known as adaptive filter methods, and other methods can also be used. Various control methods for improving the performance of the adaptive filter are known, and the performance is improved by applying the adaptive filter to the adaptive processing (step S28).
DFTフィルタバンクなどを用いるマルチレート信号処理では、周波数変換が行われることから、フィルタ出力をダウンサンプリングして計算量を低減する手法が知られている。本実施の形態に対しても特に、適応フィルタ処理で、この手法により計算量を削減することができる。 In multi-rate signal processing using a DFT filter bank or the like, since frequency conversion is performed, a method of down-sampling the filter output to reduce the calculation amount is known. Particularly for the present embodiment, it is possible to reduce the amount of calculation by this method in the adaptive filter processing.
以上の説明の第1の実施の形態および第2の実施の形態では、マイクとスピーカの音声の周波数成分が重ならないように構成するために、一部の成分を除去する方法について詳細に説明した。この構成ではマイクの音声から除去する周波数成分は、スピーカから放音される音声に含まれる成分であり、スピーカから放音される音声から除去される周波数成分はマイクで収音される音声のうち除去されない周波数成分となっており、背反な関係になっている。近端装置と遠端装置がこのような全く同じ構成で接続されると、遠端装置のマイクから除去された周波数成分が、近端装置のスピーカから放音される音声の除去されない周波数成分となり、近端で出力される音声は既に遠端で除去されており、何も聞こえない状況が起こる。以下にこのような問題を解決する方法をいくつか説明する。 In the first embodiment and the second embodiment described above, the method of removing some components has been described in detail so that the frequency components of the sound of the microphone and the speaker do not overlap. . In this configuration, the frequency component removed from the sound of the microphone is a component included in the sound emitted from the speaker, and the frequency component removed from the sound emitted from the speaker is the portion of the sound collected by the microphone. This is a frequency component that is not removed, and has a contradictory relationship. When the near-end device and the far-end device are connected in exactly the same configuration, the frequency component removed from the far-end device microphone becomes the frequency component from which the sound emitted from the near-end device speaker is not removed. The sound output at the near end has already been removed at the far end, and a situation occurs in which nothing can be heard. Several methods for solving such problems are described below.
第1の音声処理として、マイク音声は除去された成分を除去されなかった成分で補間して遠端装置へ送ることができる。以下に、補間の方法の詳細を説明する。
第1の実施の形態では分析フィルタバンク33から、128チャンネルの出力のうち奇数番目のチャンネルが0として合成フィルタバンク34へ送られることが詳述されている。図5に示した第1の実施の形態のマイク音声処理のステップS13で、除去される奇数チャンネルを除去されない隣の偶数チャンネルのデータで置き換える。例えば除去される第1チャンネルは第2チャンネルと同じデータとする。同様に第3チャンネルは第4チャンネルのデータを、第5は第6を、というように第128チャンネルまで構成する。この補間操作以外については第1の実施の形態と同じ構成で実現可能である。
As the first sound processing, the microphone sound can be transmitted to the far-end device by interpolating the removed component with the component not removed. Details of the interpolation method will be described below.
In the first embodiment, it is described in detail that the odd-numbered channel among the 128-channel outputs is sent to the
第2の音声処理として、遠端装置から送られてくる音声に除去された成分がある場合、その成分を補完してスピーカから出力する。
以下に、補間の方法の詳細を説明する。第1の実施の形態では分析フィルタバンク31から128チャンネルの出力のうち偶数チャンネルを0として合成フィルタバンク32へ送られることが詳述されている。図4に示した第1の実施の形態のスピーカ音声処理におけるステップS03の処理後に、除去された周波数成分があるかを判定する。この方法は一定時間のフィルタ出力のパワーを積算し閾値以下の場合、この周波数成分が除去されていると判断する。除去されていると判断された場合は隣の奇数チャンネルのデータで置き換える。例えば、第2チャンネルの成分が除去されていると判断した場合には第1チャンネルのデータと同じデータとする。この判断及び操作の後にステップS04へ処理を進める。前述の判断と操作以外については、第1の実施の形態と同じ構成で実現可能である。
As the second sound processing, when there is a removed component in the sound sent from the far-end device, the component is complemented and output from the speaker.
Details of the interpolation method will be described below. In the first embodiment, it is described in detail that the even-numbered channel of the 128-channel output from the
また、遠端装置のマイク音声から除去された周波数成分以外を、近端装置のマイク音声の除去する周波数成分とする。前述のように、スピーカから放音される音声の周波数成分とマイクで収音される音声の周波数成分は背反の関係で構成されている。ゆえに、近端装置と遠端装置でこの関係を逆転して用いれば、遠端装置のマイク音声から除去された成分を近端装置のスピーカから放音しようとして何も音声が出力されないという状態が起こらない。図4に示した第1の実施の形態のスピーカ音声処理におけるステップ04では偶数チャンネルの出力を0とすることを説明したが、次のように構成する。ステップ03からの出力に対して、一定時間の偶数チャンネルのパワーの和と、奇数チャンネルのパワーの和を積算する。前記の値を比較し、値の小さな偶数あるいは奇数のチャンネル群を0とする。また、図5に示したマイク音声処理におけるステップS13では、前記で偶数チャンネルが0とされた場合は奇数チャンネルを0とし、奇数チャンネルが0とされた場合は偶数チャンネルを0とする。前述の判断と操作以外については第1の実施の形態と同じ構成で実現可能である。前述の説明では除去された成分のある、なしをフィルタバンク出力のパワーから判断したが、遠端装置と近端装置でどの成分を除去したかをコントロール信号として相手装置へ送り、そのコントロール信号によって制御する構成も可能である。 Further, frequency components other than the frequency components removed from the microphone sound of the far-end device are set as frequency components to be removed from the microphone sound of the near-end device. As described above, the frequency component of the sound emitted from the speaker and the frequency component of the sound collected by the microphone are configured in a trade-off relationship. Therefore, if this relationship is reversed between the near-end device and the far-end device, no sound is output when the component removed from the far-end device's microphone sound is emitted from the near-end device speaker. Does not happen. In step 04 in the speaker sound processing of the first embodiment shown in FIG. 4, it has been described that the output of the even-numbered channel is set to 0. The configuration is as follows. For the output from step 03, the sum of the powers of the even-numbered channels and the power of the odd-numbered channels for a certain period of time are integrated. The above values are compared, and an even or odd channel group having a small value is set to 0. In step S13 in the microphone sound processing shown in FIG. 5, when the even channel is set to 0, the odd channel is set to 0. When the odd channel is set to 0, the even channel is set to 0. Except for the above-described determination and operation, it can be realized with the same configuration as that of the first embodiment. In the above description, the presence or absence of the removed component is determined from the power of the filter bank output. However, the component that has been removed by the far-end device and the near-end device is sent as a control signal to the other device, and the control signal A configuration to control is also possible.
以上のいずれかの処理が行われることにより、たとえば、近端装置のマイクで除去した周波数成分が遠端装置のスピーカから出力する成分として選択された場合に起こる、出力される音声信号成分が既に除去されていて、信号成分が何もないという問題を回避することができる。 By performing any of the above processes, for example, the output audio signal component that occurs when the frequency component removed by the microphone of the near-end device is selected as the component to be output from the speaker of the far-end device has already been generated. The problem of no signal component being eliminated can be avoided.
1……放音信号分割手段、2……収音信号分割手段、3……帯域選択手段、4……放音信号合成手段、5……収音信号合成手段
1 ... Sound emission signal dividing means, 2 ... Sound collection signal division means, 3 ... Band selection means, 4 ... Sound emission signal synthesis means, 5 ... Sound collection signal synthesis means
Claims (12)
他装置から取得し、前記スピーカから出力する放音信号を複数の周波数帯域に帯域分割する放音信号分割手段と、
前記マイクロフォンから入力される収音信号を前記複数の周波数帯域に帯域分割する収音信号分割手段と、
前記複数の周波数帯域の全範囲を含む所定の周波数帯域範囲を、前記放音信号を選択する前記周波数帯域と前記収音信号を選択する前記周波数帯域とに分け、前記周波数帯域ごとに、選択されなかった前記周波数帯域の前記放音信号または前記収音信号の信号成分を除去する帯域選択手段と、
帯域分割され、前記帯域選択手段によって前記選択されなかった周波数帯域の信号成分が除去された前記放音信号を合成する放音信号合成手段と、
帯域分割され、前記帯域選択手段によって前記選択されなかった周波数帯域の信号成分が除去された前記収音信号を合成する収音信号合成手段と、
を具備することを特徴とする音声処理装置。 In a voice processing device that performs voice processing when a full-duplex call is made in a loudspeaker call system including a speaker and a microphone,
Sound emission signal dividing means for dividing a sound emission signal obtained from another device and output from the speaker into a plurality of frequency bands;
A sound collection signal dividing means for dividing the sound collection signal input from the microphone into the plurality of frequency bands;
The predetermined frequency band range including the entire range of the plurality of frequency bands is divided into the frequency band for selecting the sound emission signal and the frequency band for selecting the sound pickup signal, and is selected for each frequency band. Band selection means for removing signal components of the sound emission signal or the sound collection signal of the frequency band that was not present,
Sound emission signal synthesizing means for synthesizing the sound emission signal that has been band-divided and from which the signal component of the frequency band not selected by the band selection means has been removed;
Sound collection signal synthesis means for synthesizing the sound collection signal that has been band-divided and from which the signal component of the frequency band not selected by the band selection means has been removed;
A speech processing apparatus comprising:
ことを特徴とする請求項1記載の音声処理装置。 The sound emission signal dividing means and the sound collection signal division means separate the sound emission signal and the sound collection signal into a plurality of frequency bands by performing a conversion process from a time domain to a frequency domain including a Fourier transform process. To
The speech processing apparatus according to claim 1.
ことを特徴とする請求項1記載の音声処理装置。 The sound emission signal dividing unit and the sound collection signal division unit separate the sound emission signal and the sound collection signal into the plurality of frequency bands by performing multi-rate signal processing using a predetermined filter bank.
The speech processing apparatus according to claim 1.
ことを特徴とする請求項1記載の音声処理装置。 The band selection means sequentially assigns numbers to the frequency bands included in the predetermined frequency band range, and removes signal components of one of the frequency bands, which are even-numbered or odd-numbered, for the sound emission signal that has been band-divided. And removing the other without removing the signal component of the even-numbered or odd-numbered frequency band obtained by removing the signal component of the sound emission signal with respect to the sound-collected signal that has been band-divided, without removing the other. The frequency band in which the sound emission signal and the sound collection signal are included does not overlap.
The speech processing apparatus according to claim 1.
ことを特徴とする請求項4記載の音声処理装置。 Whether the band selection means selects the odd-numbered or even-numbered frequency band for removing the signal component for the sound emission signal and the collected sound signal divided by the band depends on the other party of the full-duplex call. It is determined according to a combination that does not overlap with the selection of the frequency band for removing the signal component of some other device.
The speech processing apparatus according to claim 4.
ことを特徴とする請求項1記載の音声処理装置。 The band selecting unit obtains a predetermined frequency band from the other device according to a level of a signal component in the frequency band of the sound emission signal obtained from the other device and divided into bands by the sound emission signal dividing unit. It is determined whether or not the signal component is removed, and when the frequency band from which the signal component is removed is detected, the detected frequency band is selected as the frequency band from which the signal component of the sound emission signal is removed.
The speech processing apparatus according to claim 1.
ことを特徴とする請求項1記載の音声処理装置。 The band selection unit is configured to release the signal component of the sound emission signal in the frequency band having the sound characteristics according to the sound characteristics of the sound output signals input from the other device. Determining the frequency band for selecting a sound signal;
The speech processing apparatus according to claim 1.
ことを特徴とする請求項7記載の音声処理装置。 The band selection means dynamically performs the selection of the frequency band for selecting the sound emission signal according to the characteristics of the sound.
The speech processing apparatus according to claim 7.
ことを特徴とする請求項1記載の音声処理装置。 The band selection means performs voice processing using an adaptive filter for a part of the frequency band range of the frequency band that is divided, and the sound emission signal of the predetermined frequency band for the remaining frequency band range and the Perform audio processing to remove the signal component of the collected sound signal,
The speech processing apparatus according to claim 1.
ことを特徴とする請求項6記載の音声処理装置。 The band selection means selects the frequency band to be processed using the adaptive filter according to the characteristics of the voice of the sound emission signal input from the other device.
The speech processing apparatus according to claim 6.
ことを特徴とする請求項1記載の音声処理装置。 The band selection means uses the signal component of the collected sound signal of the frequency band from which the signal component is not removed for the collected sound signal obtained by dividing the band and removing the signal component of the predetermined frequency band. Interpolating the signal component of the collected sound signal in the frequency band from which
The speech processing apparatus according to claim 1.
ことを特徴とする請求項1記載の音声処理装置。 The band selecting unit obtains a predetermined frequency band from the other device according to a level of a signal component in the frequency band of the sound emission signal obtained from the other device and divided into bands by the sound emission signal dividing unit. It is determined whether the signal component has been removed, and when the frequency band from which the signal component has been removed is detected, the signal component is used by using the signal component of the sound emission signal in the frequency band from which the signal component has not been removed. Interpolating the signal component of the sound emission signal in the frequency band from which
The speech processing apparatus according to claim 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005346182A JP2007151038A (en) | 2005-11-30 | 2005-11-30 | Sound processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005346182A JP2007151038A (en) | 2005-11-30 | 2005-11-30 | Sound processing apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007151038A true JP2007151038A (en) | 2007-06-14 |
Family
ID=38211848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005346182A Pending JP2007151038A (en) | 2005-11-30 | 2005-11-30 | Sound processing apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007151038A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013077977A (en) * | 2011-09-30 | 2013-04-25 | Jvc Kenwood Corp | Speaker device |
CN114363771A (en) * | 2022-01-17 | 2022-04-15 | 广州市奥威亚电子科技有限公司 | Audio processing device and system |
-
2005
- 2005-11-30 JP JP2005346182A patent/JP2007151038A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013077977A (en) * | 2011-09-30 | 2013-04-25 | Jvc Kenwood Corp | Speaker device |
CN114363771A (en) * | 2022-01-17 | 2022-04-15 | 广州市奥威亚电子科技有限公司 | Audio processing device and system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5288723B2 (en) | Multi-channel echo compensation | |
JP5221117B2 (en) | Low complexity echo compensation | |
US8311234B2 (en) | Echo canceller and communication audio processing apparatus | |
US20040218755A1 (en) | Echo canceller with reduced requirement for processing power | |
CA2593183C (en) | Partitioned fast convolution in the time and frequency domain | |
JP4417390B2 (en) | System and method for enhancing stereo sound | |
US7783478B2 (en) | Two stage frequency subband decomposition | |
JP2010507105A (en) | System and method for canceling acoustic echo in an audio conference communication system | |
JP2003506924A (en) | Echo cancellation device for canceling echo in a transceiver unit | |
US9313573B2 (en) | Method and device for microphone selection | |
KR20130040194A (en) | Method and device for suppressing residual echoes | |
KR100842590B1 (en) | Method and apparatus for eliminating acoustic echo in mobile terminal | |
JP3607625B2 (en) | Multi-channel echo suppression method, apparatus thereof, program thereof and recording medium thereof | |
WO2019239977A1 (en) | Echo suppression device, echo suppression method, and echo suppression program | |
US20090067615A1 (en) | Echo cancellation using gain control | |
JP2007151038A (en) | Sound processing apparatus | |
JP2006203358A (en) | Echo canceling circuit and mobile radio terminal | |
Fukui et al. | Double-talk robust acoustic echo cancellation for CD-quality hands-free videoconferencing system | |
CN117280414A (en) | Noise reduction based on dynamic neural network | |
JP4504782B2 (en) | Echo cancellation method, apparatus for implementing this method, program, and recording medium therefor | |
JP5359744B2 (en) | Sound processing apparatus and program | |
JP2007336132A (en) | Echo suppressor | |
JPH08223275A (en) | Hand-free talking device | |
JP5631523B2 (en) | Echo canceller | |
EP2568619B1 (en) | Echo cancelling-codec |