JP5143656B2 - Sound collection system and sound display method - Google Patents
Sound collection system and sound display method Download PDFInfo
- Publication number
- JP5143656B2 JP5143656B2 JP2008188581A JP2008188581A JP5143656B2 JP 5143656 B2 JP5143656 B2 JP 5143656B2 JP 2008188581 A JP2008188581 A JP 2008188581A JP 2008188581 A JP2008188581 A JP 2008188581A JP 5143656 B2 JP5143656 B2 JP 5143656B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound source
- volume
- signal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、音収集システムに関し、特に、収集した音の音量を表示することができる音収集システムに関する。 The present invention relates to a sound collection system, and more particularly to a sound collection system capable of displaying the volume of collected sound.
電話会議システム及びテレビ会議システムにおいて、ある拠点の音声入力部から収集された音声は、エコーキャンセラ又は雑音除去処理が実行された後、他の拠点に送信される。このとき、送信される自分の音声が、遠端(音声の受信側)の相手に聞こえるだけの十分大きい音量で送信されているとは限らない。また、聞こえて欲しくない音声が、遠端の相手に聞こえないぐらい十分小さい音量で送信されているとは限らない。 In a telephone conference system and a video conference system, voice collected from a voice input unit at a certain site is transmitted to another site after echo canceller or noise removal processing is executed. At this time, the transmitted own voice is not necessarily transmitted at a volume that is high enough to be heard by the far end (speech receiving side) partner. Also, the voice that you do not want to hear is not always transmitted at a volume that is low enough not to be heard by the far-end party.
ユーザが自分の音声がどの程度の音量で遠端に送信されているかを知ることができれば、ユーザは自分の音声の音量を確認しながら、その音量に応じて会話を行うことができる。 If the user can know how loud his / her voice is transmitted to the far end, the user can talk according to the volume of his / her voice while checking the volume of his / her voice.
しかし、ユーザが自分の音声がどの程度の音量で遠端に送信されているかを知ることは、容易ではない。たとえば、受信信号の音量をユーザに提示する方法が考えられる(例えば、特許文献1参照。)。
しかし、特許文献1に記載の方法で確認できる音量は、自分の音声のみの音量ではなく、同時に発話した人物の音声、他の拠点から送信された音声がスピーカから出力された音、及び環境騒音、などの複数音源の音が重畳された音を収音した信号の音量でしかない。
However, the volume that can be confirmed by the method described in
本発明は、音声入力部から収集された音声がどれだけ抑圧されているかを音源ごとに確認できる、音収集システムを提供することにある。 An object of the present invention is to provide a sound collection system capable of confirming, for each sound source, how much the voice collected from the voice input unit is suppressed.
本発明の代表的な一例を示せば以下の通りである。すなわち、二以上のマイクロホンで構成されるマイクロホンアレイと、前記マイクロホンアレイから出力された信号を変換する処理部と、を備える音収集システムであって、前記処理部は、前記マイクロホンアレイから出力された信号を、音源が存在する方向ごと分離する音源分離部と、前記マイクロホンアレイから出力された信号から雑音を除去する雑音除去処理部と、前記音源分離部から出力された信号、及び前記雑音除去処理部から出力された残留信号に基づいて、前記残留信号の方向別の音量を算出する方向別残留信号計算部と、を備え、音収集システムは、さらに、前記方向別残留信号計算部による算出結果に基づいて、前記方向別の残留信号の音量を表示する抑圧量表示部を備えることを特徴とする。 A typical example of the present invention is as follows. That is, a sound collection system including a microphone array composed of two or more microphones and a processing unit that converts a signal output from the microphone array, wherein the processing unit is output from the microphone array. A sound source separation unit that separates a signal for each direction in which a sound source exists, a noise removal processing unit that removes noise from the signal output from the microphone array, a signal output from the sound source separation unit, and the noise removal processing And a direction-specific residual signal calculation unit that calculates a sound volume for each direction of the residual signal based on the residual signal output from the unit, and the sound collection system further includes a calculation result by the direction-specific residual signal calculation unit And a suppression amount display unit for displaying the volume of the residual signal for each direction.
本発明の一実施の形態によれば、収集された音声がどれだけ抑圧されているかを音源ごとに確認することができる。 According to the embodiment of the present invention, it is possible to confirm for each sound source how much the collected voice is suppressed.
[第1の実施の形態]
以下、本発明を用いたテレビ会議システムを例に説明する。IPネットワーク回線を用いたテレビ会議システムは、ネットワークで接続された二以上の拠点のそれぞれが、マイクロホンアレイ及びスピーカなどから構成される電話会議設備を用いて交信し、各拠点に存在する話者間の会話を実現する。以下、任意拠点を中心としたテレビ会議システムについて説明する。なお、該拠点を近端と記し、近端と接続される近端以外の拠点を遠端と記す。
[First Embodiment]
Hereinafter, a video conference system using the present invention will be described as an example. In a video conference system using an IP network line, two or more bases connected by a network communicate with each other using a telephone conference facility composed of a microphone array and a speaker, and between speakers existing at each base. Realize conversation. Hereinafter, a video conference system centering on an arbitrary base will be described. The base is referred to as the near end, and the base other than the near end connected to the near end is referred to as the far end.
図1は、本発明の第1の実施の形態におけるテレビ会議システムのハードウェア構成を示した図である。 FIG. 1 is a diagram showing a hardware configuration of the video conference system according to the first embodiment of the present invention.
テレビ会議システムは、二以上のマイクロホン素子からなるマイクロホンアレイ101、A/D−D/A変換装置102、中央演算装置103、揮発性メモリ104、記憶媒体105、抑圧量表示部106、雑音除去操作入力部107、スピーカ108、カメラ109、画像表示装置110、ハブ111、オーディオケーブル112、デジタルケーブル113、デジタルケーブル114、デジタルケーブル115、オーディオケーブル116、デジタルケーブル117、モニタケーブル118、及びLANケーブル119から構成される。
The video conference system includes a
A/D−D/A変換装置102は、マイクロホンアレイ101から出力される音圧のアナログ信号をデジタルデータに変換する。中央演算装置103は、A/D−D/A変換装置102の出力を管理する。記憶媒体105は、プログラム及びマイクロホンアレイ101の各マイク素子の物理座標などの情報を記憶し、また、中央演算装置103と接続されている。
The A / D-D /
マイクロホンアレイ101の各マイクロホン素子で収集された多チャンネル音圧データは、オーディオケーブル112を介してA/D−D/A変換装置102に出力される。前記多チャンネル音圧データは、A/D−D/A変換装置102によって多チャンネルデジタル音圧データに変換される。前述した変換は、各マイクロホン素子から出力される音圧信号の間で変換タイミングを同期して実行される。
Multi-channel sound pressure data collected by each microphone element of the
変換された多チャンネルデジタル音圧データは、デジタルケーブル113を介して中央演算装置103に出力される。中央演算装置103は、入力された多チャンネルデジタル音圧データに音響信号処理を実行する。音響信号処理が実行された信号は、LANケーブル119及びハブ111を介して、ネットワークへ送信される。
The converted multi-channel digital sound pressure data is output to the
ネットワークを介して遠端から受信したデジタル音圧データは、ハブ111及びLANケーブル119を介して、中央演算装置103に出力され、前記中央演算装置103で音響信号処理が実行される。前記音声処理がされたデジタル音圧データは、デジタルケーブル113を介して、A/D−D/A変換装置102に出力される。出力されたデジタル音圧データは、A/D−D/A変換装置102によってアナログ音圧データに変換され、オーディオケーブル116を介して変換されたアナログ音圧データがスピーカ108から出力される。
Digital sound pressure data received from the far end via the network is output to the
雑音除去操作入力部107は、収集された多チャンネル音圧データに含まれる各方向から到来する音声を抑圧するか否かを示す抑圧方向データをユーザが設定する入力部である。雑音除去操作入力部107は、例えば、複数のボタンが円筒状筐体の側面を一周するように設置された装置である。前記ボタンを操作することによって、前記ボタンが配置された方向から到来する音声を抑圧するか否かを設定することができる。例えば、ある方向から到来する音声を抑圧する場合はその方向のボタンのLEDを点灯させ、ある方向から到来する音声を抑圧しない時はその方向のボタンのLEDが消灯させることによって、どの方向の音声が抑圧されているかをユーザに提示できる。設定された抑圧方向のデータは、デジタルケーブル115を介して中央演算装置103に送信される。
The noise removal
マイクロホンアレイ101で収集され、中央演算装置103に出力された多チャンネルデジタル音圧データXには、スピーカ108から出力された音声が音響エコーとして含まれる。
The multichannel digital sound pressure data X collected by the
中央演算装置103は、多チャンネルデジタル音圧データX、及びハブ111から出力されたデジタル音圧データに基づいて、前記音響エコーを除去するための多チャンネルデジタルフィルタを各時刻に更新し、更新された前記デジタルフィルタを揮発性メモリ104に記憶し、各時間帯に更新された前記デジタルフィルタを用いて前記音響エコーを除去する。さらに、中央演算装置103は、雑音除去操作入力部107から出力された抑圧方向データと、記憶媒体105に記憶されているマイクロホンアレイ101の各マイク素子の物理座標とを参照し、音響エコーを除去した後の多チャンネル音圧データYに対し、雑音除去処理を実行する。
The
また、中央演算装置103は、前記多チャンネルデジタル音圧データXを用いて、前記多チャンネルデジタル音圧データXに含まれる各到来方向の音量P_Xを算出する。さらに、中央演算装置103は、前記多チャンネルのデジタル音圧データXと前記雑音除去処理が実行されたデジタル音圧データYとを用いて、前記雑音除去処理が実行されたデジタル音圧データYに含まれる各到来方向の音量P_Yを算出する。算出された音量P_X及び算出された音量P_Yは、中央演算装置103から、デジタルケーブル14を介して、抑圧量表示部106に出力される。
Further, the
抑圧量表示部106は、算出された音量P_X及び算出された音量P_Yを表示する。
The suppression
カメラ109で撮影された画像信号は、デジタルケーブル117を介して、中央演算装置103に出力される。中央演算装置103は、入力された画像信号に画像信号処理を実行する。画像信号処理が実行された画像信号は、LANケーブル119及びハブ111を介してネットワーク上に送信される。
An image signal captured by the
遠端から送信された前記画像信号は、ハブ111及びLANケーブル119を介して、中央演算装置に出力される。中央演算装置103は、入力された前記画像信号に画像信号処理を実行し、画像信号処理が実行された前記画像信号はモニタケーブル118を介して画像表示装置110に出力し、画像表示装置110の画面に画像を表示する。
The image signal transmitted from the far end is output to the central processing unit via the
デジタルケーブル113、デジタルケーブル114、デジタルケーブル115、デジタルケーブル117は、USBケーブルなどが用いられる。
As the
抑圧量表示部106は、各方向から到来する音声の抑圧量をユーザに示すことができる。抑圧量表示部106は、例えば、緑色の複数のLEDを縦に並べた列SEQ_Xと赤色の複数のLEDを縦に並べた列SEQ_Yの2列を一つの列の組SEQ_COMBし、複数のSEQ_COMBが円筒状筐体の側面を一周するように配置された装置である。SEQ_COMBが配置された方向θがΘ=[θ_1,θ_2]の範囲に含まれる場合、SEQ_X_Θは、入力された多チャンネルデジタル音圧データXに含まれる、Θの範囲から到来する音声の音量をレベルメータを用いて表示する。SEQ_COMBが配置された方向θがΘ=[θ_1,θ_2]の範囲に含まれる場合、SEQ_Y_Θは、雑音が除去されたデジタル音圧データYに含まれる、Θの範囲から到来する音声の音量をレベルメータを用いて表示する。
The suppression
音声が到来する方向の範囲ごとに音量を表示することによって、ユーザは、自分の音声の抑圧量を確認することができる。 By displaying the volume for each range of the direction in which the voice comes, the user can check the suppression amount of his / her voice.
本実施の形態において、マイクロホンアレイ101と抑圧量表示部106との筐体同士が互いに物理的に固定され、相対的位置関係が固定されていることが望ましい。これによって、マイクロホンアレイ101を移動する場合、抑圧量を表示する表示部も一緒に移動するため、ユーザは、マイクロホンアレイ101の位置を基準に考えればよく、抑圧される方向が分かりやすい。
In the present embodiment, it is desirable that the housings of the
また、新たにセンサを設置することが必要ないため装置の構成は簡易にできる。すなわち、マイクロホンアレイ101と抑圧量表示部106との相対的位置関係が時間的に変わるならば、相対的位置関係に応じて抑圧量を表示する位置を変化させなければならない。そのためには、磁気センサ、超音波センサ、または、カメラでマーカ位置を取得するなど、各種位置センサで相対的位置関係を得る必要がある。しかし、センサを導入すれば装置の構成が複雑になる。マイクロホンアレイ101と抑圧量表示部106との相対的位置関係を固定することによって、センサを不要とする。
Further, since it is not necessary to newly install a sensor, the configuration of the apparatus can be simplified. That is, if the relative positional relationship between the
また、抑圧量表示部106と雑音除去操作入力部107との筐体同士が互いに物理的に固定され、相対的位置関係が固定されていることが望ましい。これによって、前述したように相対的位置関係の推定のためのセンサを使わないことで、装置の構成を簡易にできる。
In addition, it is desirable that the housings of the suppression
さらに、抑圧量表示部106のLED列の組SEQ_COMBが配置されている方向と、雑音除去操作入力部107のボタンが配置されている方向とが、一致していることが望ましい。これによって、ユーザが音声を抑圧したい方向を指定するときに、抑圧量を表示する表示部の位置とボタンの位置との間の距離が短いほど、ユーザが操作しやすい。
Furthermore, it is desirable that the direction in which the LED row set SEQ_COMB of the suppression
図2は、本発明の第1の実施の形態におけるテレビ会議システムの利用例を示した図である。 FIG. 2 is a diagram showing a usage example of the video conference system according to the first embodiment of the present invention.
拠点AにユーザU1、及びユーザU2が存在し、拠点Bに存在するユーザと通話を行っている。このとき、拠点Aだけで会話を行いたいユーザU1が、自分の音声を拠点Bのユーザに聞こえないように、雑音除去操作入力部107に設置されたボタンのうち、自分からの距離が最短であるボタンを操作する。つまり、自分が存在する位置に対応するボタンを押す。すると、中央演算装置103が、ユーザU1の方向から到来する音量をよくあるするような指向性パターンを持つ方向性のフィルタを算出する。中央演算装置103は、算出された前記フィルタをエコーキャンセラ処理後の信号に適用し、ユーザU1の方向から到来する音を抑圧した音声を、拠点Bに送信する。
A user U1 and a user U2 exist at the base A, and a call is made with a user at the base B. At this time, the user U1 who wants to talk only at the site A has the shortest distance from himself among the buttons installed in the noise removal
拠点Bでは、受信した前記信号が中央演算装置203を介し、スピーカ208から出力される。
At the site B, the received signal is output from the
拠点Aにおける抑圧量表示部106は、入力された多チャンネルデジタル音圧データXに含まれるユーザU1の存在する方向から到来する音声の音量、及び雑音除去後のデジタル音圧データに含まれるユーザU1が存在する方向から到来する音の音量を、ユーザU1の存在する方向に対応する抑圧量表示部106に配置されたSEQ_COMBに表示する。
The suppression
ユーザU1は、表示される抑圧量を見て、ユーザU1の存在する方向から到来する音声の音量が十分抑圧されているか否かを確認しながら、拠点Bのユーザに聞かれずに会話ができる。また、拠点AのユーザU2と拠点Bのユーザとの間の会話を邪魔していないことを確認しながら、拠点Aだけで会話ができる。また、拠点Aの会話音声が十分抑圧されていない場合、拠点AのユーザU1、ユーザU2は、より多くの方向を指定するように雑音除去操作入力部107のボタンを操作するか、又は、より小さい声で会話するか、などによって、拠点Bのユーザに会話を聞かれずに経典Aだけで会話できる。
The user U1 can talk without being heard by the user at the site B while checking whether or not the volume of the voice coming from the direction in which the user U1 exists is sufficiently suppressed by looking at the displayed suppression amount. Further, it is possible to have a conversation only at the site A while confirming that the conversation between the user U2 at the site A and the user at the site B is not disturbed. Further, when the conversation voice of the site A is not sufficiently suppressed, the user U1 and the user U2 of the site A operate the buttons of the noise removal
図3は、本発明の音収集システムの実施例であるテレビ会議システムにおける、各ユーザの発話、雑音除去操作入力部107への入力操作、抑圧量表示部106の表示、及び、遠端に送信される音圧データの音量の関係のタイムチャートの例を示す図である。なお、図3において横軸が時刻を表している。
FIG. 3 shows the speech of each user, the input operation to the noise removal
時間帯t1において、ユーザU1及びユーザU2が発話している。このとき、ユーザU1及びユーザU2の音声は、抑圧されずに遠端に送信される。抑圧量表示においても、収集された音声の音量と送信される音声の音量との音量差はわずかであり、ほとんど抑圧されていないことが分かる。 The user U1 and the user U2 speak in the time zone t1. At this time, the voices of the users U1 and U2 are transmitted to the far end without being suppressed. Even in the suppression amount display, it can be seen that the volume difference between the volume of the collected voice and the volume of the transmitted voice is small, and is hardly suppressed.
時刻t2において、ユーザU1が、雑音除去操作入力部107のユーザU1から最短の位置に設置されたボタンB1を操作する。この操作の後から、ユーザU1の存在する方向の音声は抑圧された状態となる。
At time t2, the user U1 operates the button B1 installed at the shortest position from the user U1 of the noise removal
時間帯t3において、ユーザU1及びユーザU2が発話している。このとき、ユーザU2の音声は、時間帯t1と同様に、抑圧されずに送信される。一方で、ユーザU1の存在する方向の音声は抑圧された状態であるため、ユーザU1の音声は残留信号中では抑圧されている。抑圧量表示でも、ユーザU1の存在する方向から収集された音声の音量と遠端に送信される音声の音量との差が大きいことから、ユーザU1の音声が十分に抑圧されていることが分かり、ユーザU1は安心して近端だけでの会話を行うことができる。 User U1 and user U2 speak in time zone t3. At this time, the voice of the user U2 is transmitted without being suppressed as in the time zone t1. On the other hand, since the voice in the direction in which the user U1 exists is in a suppressed state, the voice of the user U1 is suppressed in the residual signal. Even in the suppression amount display, since the difference between the volume of the voice collected from the direction where the user U1 exists and the volume of the voice transmitted to the far end is large, it can be seen that the voice of the user U1 is sufficiently suppressed. The user U1 can perform a conversation only at the near end with peace of mind.
時刻t4において、ユーザU1が、再びボタンB1を操作する。この操作の後から、ユーザU1の存在する方向の音声は抑圧された状態から通常の抑圧されていない状態に戻る。 At time t4, the user U1 operates the button B1 again. After this operation, the sound in the direction in which the user U1 exists returns from the suppressed state to the normal unsuppressed state.
時間帯t5において、ユーザU1の方向の音声は抑圧された状態ではないため、ユーザU1の音声は、時間帯t1と同様に、抑圧されずに遠端に送信される。抑圧量表示においても、収集された音声の音量と遠端に送信される音声の音量との音量差はわずかであり、ほとんど抑圧されていないことが分かる。 Since the voice in the direction of the user U1 is not suppressed in the time zone t5, the voice of the user U1 is transmitted to the far end without being suppressed as in the time zone t1. Even in the suppression amount display, it can be seen that the volume difference between the volume of the collected voice and the volume of the voice transmitted to the far end is very small, and is hardly suppressed.
図13は、本発明の第1の実施の形態のテレビ会議システムの一連の処理を示したフローチャートである。 FIG. 13 is a flowchart showing a series of processes of the video conference system according to the first embodiment of this invention.
テレビ会議システムが起動した後、まず、自拠点(近端)の中央演算装置103は、音響エコーキャンセラ適応処理を行なう(S1301)。音響エコーキャンセラ適応処理は、スピーカから白色信号、又は、時間方向に周波数が変化するタイプの全帯域信号などを出力し、音響エコーキャンセラのフィルタを初期化する。その後、中央演算装置103は、他の拠点(遠端)から接続が要求されたか否かを判定する(S1302)。
After the video conference system is activated, first, the
他の拠点(遠端)から接続が要求がされたと判定された場合、中央演算装置103は、他の拠点(遠端)との接続を行う(S1304)。他の拠点(遠端)から接続が要求されていないと判定された場合、中央演算装置103は、自拠点(近端)から他の拠点(遠端)へ接続を要求したか否かを判定する(S1303)。
When it is determined that a connection is requested from another base (far end), the
自拠点(近端)から他の拠点(遠端)へ接続を要求したと判定された場合、中央演算装置103は、他の拠点(遠端)との接続を行う(S1304)。自拠点(近端)から他の拠点(遠端)へ接続を要求していないと判定された場合、中央演算装置103は、S1302に戻る。
When it is determined that a connection is requested from its own base (near end) to another base (far end), the
S1304において、他の拠点(遠端)と接続された後、中央演算装置103は、スピーカから遠端の音声を再生し(S1305)、音響エコーキャンセラ(S1306)、雑音除去処理(S1307)、収集音声の音源分離(S1308)、残留信号に対する方向別音量の計算(S1309)、抑圧量の提示(S1310)、及び、他の拠点(遠端)への音声送信(S1311)の順に処理を実行する。前述した処理が実行された後、中央演算装置103は、他の拠点(遠端)との接続が切れたか否かを判定する(S1312)。
In S1304, after being connected to another site (far end), the
他の拠点(遠端)との接続が切れていると判定された場合、中央演算装置103は、他の拠点(遠端)との接続を切断する処理を実行し(S1314)、一連の処理を終了する。他の拠点(遠端)との接続が切れていないと判定された場合、中央演算装置103は、自拠点(近端)から他の拠点(遠端)へ切断を要求したか否かを判定する(S1313)。
When it is determined that the connection with the other base (far end) is broken, the
自拠点(近端)から他の拠点(遠端)へ切断を要求したと判定された場合、中央演算装置103は、他の拠点(遠端)との接続を切断する処理を実行し(S1314)、一連の処理を終了する。自拠点(近端)から他の拠点(遠端)へ切断を要求していないと判定された場合、S1315に戻り、以下、同様の処理を行う。
When it is determined that a disconnection request has been made from its own base (near end) to another base (far end), the
図4は、本発明の第1の実施の形態におけるテレビ会議システムの構成を示したブロック図である。 FIG. 4 is a block diagram showing the configuration of the video conference system according to the first embodiment of the present invention.
マイクロホンアレイ101の各マイクロホン素子に入力された多チャンネルアナログ音圧データは、多チャンネルA/D変換部401で各マイクロホン素子に対応した多チャンネルデジタル音圧データx_i(t)に変換される。ここで、iはマイク素子の番号を示すインデックスであり、全マイク素子数をMとすると、iは0からM−1までのいずれの値をとる。また、tはサンプリング周期ごとの離散時間である。変換された多チャンネルデジタル音圧データx_i(t)は、多チャンネルフレーム処理部402に出力される。
Multi-channel analog sound pressure data input to each microphone element of the
音声受信部404は、遠端から送信されたデジタル音圧データref(t)を受信する。なお、受信するデジタル音圧データref(t)は、TCP/IPプロトコル、又はRTPプロトコルを用いたデジタル音圧データである。
The
サーバを中央に介する多拠点テレビ会議システムの場合、サーバは多拠点から音声信号を受信し、受信した音声信号を混合して、それぞれの拠点に送信する。音声受信部404は、サーバから送信さえた混合した音声信号を受信する。この場合、音声受信部404は、混合した音声をそのままデジタル音圧データref(t)としてD/A変換部405と多チャンネルフレーム処理部402とに送信する。
In the case of a multi-site video conference system with a server at the center, the server receives audio signals from the multi-sites, mixes the received audio signals, and transmits the mixed audio signals to the respective bases. The
サーバを中央に介さず、マルチキャストなどを用いて通信を行う多拠点テレビ会議システムの場合、それぞれの拠点の音声信号は、それぞれの拠点に送信され、音声受信部404は、それぞれの拠点の音声信号をそれぞれの拠点から直接受信する。この場合、音声受信部404は、それぞれの拠点の音声を混合した後、前記混合した音声をデジタル音圧データref(t)としてD/A変換部405と多チャンネルフレーム処理部402とに出力する。なお、多チャンネルフレーム処理部402に出力されたデジタル音圧データref(t)は、後述するように、多チャンネルフレーム処理部402において参照信号として用いられる。
In the case of a multi-site video conference system in which communication is performed using multicast or the like without using a server in the center, the audio signal of each base is transmitted to each base, and the
D/A変換部405は、入力されたデジタル音圧データref(t)をアナログ音圧データに変換する。変換されたアナログ音圧データは、音声再生部406でスピーカ108から出力される。
The D /
多チャンネルフレーム処理部402は、入力された多チャンネルデジタル音圧データx_i(t)をt=τSからt=τS+F−1の範囲に該当する多チャンネル時間領域フレーム信号Xf_i(t,τ)及び時間領域の参照信号Reff(t,τ)に変換する。
The multi-channel
なお、fは周波数を等間隔に分割した周波数帯域を表すインデックスであり、周波数をN分割した場合、fは0からN−1までのいずれかの値をとる。以下、周波数ビンfと記す。tは、時間を表す。τはフレームインデックスと呼び、多チャンネルフレーム処理部402から音声送信部413までの処理が完了した後、τは1加算される。Sはフレームシフトと呼び、フレームごとにずらすサンプル数を意味する。Fはフレームサイズと呼び、フレームごとに一度に処理するサンプル数を意味する。
Note that f is an index representing a frequency band obtained by dividing the frequency at equal intervals. When the frequency is divided into N, f takes any value from 0 to N-1. Hereinafter, it is described as a frequency bin f. t represents time. τ is called a frame index, and τ is incremented by 1 after the processing from the multi-channel
変換された多チャンネル時間領域フレーム信号Xf_i(t,τ)及び時間領域の参照信号Reff(t,τ)は、多チャンネル短時間周波数分析部403に出力される。多チャンネル短時間周波数分析部403は、入力された多チャンネル時間領域フレーム信号Xf_i(t,τ)及び時間領域の参照信号Reff(t,τ)に、直流成分カット、ハミング窓、ハニング窓、及びブラックマン窓などの窓処理を実行する。その後、多チャンネル短時間周波数分析部403は、さらに、短時間フーリエ変換を実行し、多チャンネル周波数領域フレーム信号Xf_i(f,τ)及び周波数領域の参照信号Reff(f,τ)に変換する。ここで、周波数ビンfの数(以下、周波数ビン数と記す。)をNとする。
The converted multi-channel time-domain frame signal Xf_i (t, τ) and the time-domain reference signal Reff (t, τ) are output to the multi-channel short-time
図14は、本発明の第1の実施の形態の、任意フレームτにおける多チャンネル周波数領域フレーム信号Xf_i(f,τ)のデータ構造を示した説明図である。 FIG. 14 is an explanatory diagram showing a data structure of the multi-channel frequency domain frame signal Xf_i (f, τ) in the arbitrary frame τ according to the first embodiment of this invention.
マイク素子数及び周波数ビン数で分割された一つ一つに、対応する多チャンネル周波数領域フレーム信号Xf_i(f,τ)が格納されている。なお、多チャンネル周波数領域フレーム信号Xf_i(f,τ)は、複素数の値をとる。 A corresponding multi-channel frequency domain frame signal Xf_i (f, τ) is stored in each divided by the number of microphone elements and the number of frequency bins. The multi-channel frequency domain frame signal Xf_i (f, τ) takes a complex value.
各マイクロホン素子の多チャンネル周波数領域フレーム信号Xf_i(f,τ)及び周波数領域の参照信号Reff(f,τ)は、多チャンネル音響エコーキャンセラ部407に出力される。また、多チャンネル周波数領域フレーム信号Xf_i(f,τ)は、音源分離部408にも出力される。
The multi-channel frequency domain frame signal Xf_i (f, τ) and the frequency domain reference signal Reff (f, τ) of each microphone element are output to the multi-channel
多チャンネル音響エコーキャンセラ部407は、多チャンネル短時間周波数分析部403から入力された各マイクロホン素子の多チャンネル周波数領域フレーム信号Xf_i(f,τ)から、スピーカ108から入力された信号の音響エコー信号成分を除去する。音響エコー信号成分は、多チャンネル短時間周波数分析部403から入力された周波数領域の参照信号Reff(f,τ)に基づいて算出される。前記音響エコー除去処理は、例えば、NLMSアルゴリズムなど一般的なアルゴリズムを用いて音響エコーの伝達関数を逐次適応させれる処理が考えられる。なお、音響エコーキャンセラの処理の差異は、本発明の本質的な差にはならない。
The multi-channel
多チャンネル音響エコーキャンセラ部407で音響エコー成分が除去された後の多チャンネル周波数領域フレーム信号をEf_i(f,τ)とする。多チャンネル音響エコーキャンセラ部407で算出された多チャンネル周波数領域フレーム信号Ef_i(f,τ)は、雑音除去処理部409に出力される。
The multi-channel frequency domain frame signal after the acoustic echo component is removed by the multi-channel
図15は、本発明の第1の実施の形態の任意フレームτにおける多チャンネル周波数領域フレーム信号Ef_i(f,τ)のデータ構造を示した説明図である。 FIG. 15 is an explanatory diagram illustrating a data structure of the multi-channel frequency domain frame signal Ef_i (f, τ) in the arbitrary frame τ according to the first embodiment of this invention.
マイク素子数及び周波数ビン数で分割された一つ一つに、対応する多チャンネル周波数領域フレーム信号Ef_i(f,τ)が格納されている。なお、多チャンネル周波数領域フレーム信号Ef_i(f,τ)は、複素数の値をとる。 A corresponding multi-channel frequency domain frame signal Ef_i (f, τ) is stored in each divided by the number of microphone elements and the number of frequency bins. The multi-channel frequency domain frame signal Ef_i (f, τ) takes a complex value.
雑音除去操作入力部107は、互いに排他的なJ個の方向範囲Θ_j=[θ_j1,θ_j2]ごとに、雑音除去を行うか否かを示す信号が出力される。ただし、jは方向を示すインデックスであり、全方向をJ分割した場合、jは、0からJ−1までのいずれかの値をとる。
The noise removal
具体的には、雑音除去処理部409は、方向範囲Θ_jごとに対応するボタンB_jを備えており、ボタンB_jが押される度に、
Specifically, the noise
に示すような、二値の値をとるIsReduced_j(τ)が出力される。ただし、IsReduced_j(τ)は、任意フレームでボタンB_jが押されたときに、真(値が1)をとるブール値とする。 IsReduced_j (τ) having a binary value as shown in FIG. However, IsReduced_j (τ) is a Boolean value that is true (value is 1) when the button B_j is pressed in an arbitrary frame.
出力されるIsReduced_j(τ)が0であるの場合、雑音除去を行わないことを意味する信号が雑音除去処理部409に出力される。出力されるIsReduced_j(τ)が0でない場合、雑音除去を行うことを意味する信号が雑音除去処理部409に出力される。
When IsReduced_j (τ) to be output is 0, a signal indicating that noise removal is not performed is output to the noise
図16は、本発明の第1の実施の形態の、任意フレームτにおけるIsReduced_j(τ)のデータ構造を示した説明図である。 FIG. 16 is an explanatory diagram illustrating a data structure of IsReduced_j (τ) in an arbitrary frame τ according to the first embodiment of this invention.
全方向をJ分割した領域に、対応する値が格納される。図16に示すように1次元の配列になっている。 Corresponding values are stored in an area obtained by dividing J in all directions. As shown in FIG. 16, it is a one-dimensional array.
なお、雑音を除去する方向を指定する方法は、ユーザーが手動で指定する方法に限定されず、雑音除去処理部409に予め設定値を設ける方法であってもよい。この場合、雑音除去操作入力部107を備える必要がない。
Note that the method of designating the direction of noise removal is not limited to the method of manual designation by the user, and may be a method of providing a preset value in the noise
雑音除去処理部409は、多チャンネル音響エコーキャンセラ部407から入力された多チャンネル周波数領域フレーム信号Ef_i(f,τ)、及び、雑音除去操作入力部107から入力されたIsReduced_j(τ)に基づいて、多チャンネル周波数領域フレーム信号Ef_i(f,τ)から指定された方向の雑音を除去する。以下、具体的な処理について説明する。
The noise
図5は、最小分散ビームフォーマによる雑音除去処理部409の構成例を示すブロック図である。
FIG. 5 is a block diagram illustrating a configuration example of the noise
雑音除去処理部409は、目的音/雑音分離部501、目的音ステアリングベクトル更新部502、雑音共分散行列更新部503、フィルタ更新部504、及び、フィルタ乗算部505を備える。
The noise
まず、入力された多チャンネル周波数領域フレーム信号Ef_i(f,τ)の性質について説明する。 First, the properties of the input multi-channel frequency domain frame signal Ef_i (f, τ) will be described.
図6は、入力された多チャンネル周波数領域フレーム信号Ef_i(f,τ)のうちの一つのチャンネルの信号を模式的に示す図である。 FIG. 6 is a diagram schematically showing a signal of one channel of the input multi-channel frequency domain frame signal Ef_i (f, τ).
図6に示すように、収集された音声は、周波数成分ごとが離散していることが知られている。この性質を「スパース性」と呼ぶ。したがって、各周波数成分は、ただ一人の音声の成分と仮定できる。本実施の形態は、この仮定を利用して目的音と雑音とを分離する。 As shown in FIG. 6, it is known that the collected speech is discrete for each frequency component. This property is called “sparseness”. Therefore, each frequency component can be assumed to be a component of only one voice. The present embodiment uses this assumption to separate the target sound and noise.
まず、目的音/雑音分離部501は、マイク配置410からマイク素子の配置に関するデータ、雑音除去操作入力部107から収集された多チャンネル音圧データに含まれる任意方向から到来する音声を抑圧するか否かを示す抑圧方向データ、及び、多チャンネル音響エコーキャンセラ部407から入力された多チャンネル周波数領域フレーム信号Ef_i(f,τ)を用いてθを算出する。なお、θは、音声の到来方向を表す量である。
First, the target sound /
θの算出方法としては、例えば、マイクロホンアレイ101のマイク素子数が二つの場合、
As a calculation method of θ, for example, when the number of microphone elements of the
を用いて算出される。 Is calculated using
ここで、ρ(f,τ)は、二つのマイク素子の入力信号の、フレームτ、及び周波数インデックスfにおける位相差とする。位相差ρ(f,τ)の算出方法としては、例えば、図14に示すように、任意の周波数、つまり、任意の行における、マイク素子1の多チャンネル周波数領域フレーム信号Xf_1(f,τ)とマイク素子iの多チャンネル周波数領域フレーム信号Xf_1(f,τ)との割り算を計算し、その乗数から位相差が算出される。
Here, ρ (f, τ) is a phase difference between the input signals of the two microphone elements at the frame τ and the frequency index f. As a calculation method of the phase difference ρ (f, τ), for example, as shown in FIG. 14, the multi-channel frequency domain frame signal Xf_1 (f, τ) of the
また、freq(f)は周波数ビンfの周波数であり、 Freq (f) is the frequency of the frequency bin f,
を用いて算出される。ただし、Fsは、多チャンネルA/D変換部401のサンプリングレートである。dは、二つのマイク素子の物理的な間隔とする。cは、音速である。音速は、厳密には温度、及び媒質の密度に依存して変化するが、通常340m/sなど一つの値に固定し用いてもよい。
Is calculated using Here, Fs is the sampling rate of the multi-channel A /
雑音除去処理は、前述の「スパース性」の仮定に基づいて、時間−周波数を固定し、固定された時間−周波数ごとに同一の処理を行う。以下、固定された時間−周波数のサフィックス(f,τ)は省略して記す。 In the noise removal processing, the time-frequency is fixed based on the above-mentioned “sparseness” assumption, and the same processing is performed for each fixed time-frequency. Hereinafter, the fixed time-frequency suffix (f, τ) is omitted.
マイクロホンアレイ101のマイク素子数が三つ以上の場合、SPIREアルゴリズム(非特許文献1参照)によって、θを算出できる。なお、SPIREアルゴリズムにおいても、前述の「スパース性」の仮定に基づき、時間−周波数を固定し、固定された時間−周波数ごとに同一の処理を行う。
When the number of microphone elements in the
図7は、マイクロホンアレイ101のマイク素子数が三つ以上の場合におけるθの算出方法(SPIREアルゴリズム)を示すフローチャートである。
FIG. 7 is a flowchart showing a θ calculation method (SPIRE algorithm) when the number of microphone elements of the
まず、目的音/雑音分離部501は、マイク素子の配置に関するデータを読み込む(S701)。なお、マイク配置に関すデータは、記憶媒体105が保持する。
First, the target sound /
次に、目的音/雑音分離部501は、二つのマイク素子を一つの組とするマイクペアを構成するためにマイク素子の組み合わせを選択する(S702)。このとき、選択される二つのマイク素子の配置間隔がマイクペアごとに異なるように選択されることが望ましい。
Next, the target sound /
次に、目的音/雑音分離部501は、選択された各マイクペアをマイク素子の配置間隔が小さいものから順に並び替え、マイクペア待ち行列に格納する(S703)。ここで、kを一つのマイクペアを特定するためのインデックスとし、k=1をマイク素子の配置間隔が最も短いマイクペアとし、k=Kをマイク素子の配置間隔が最も長いマイクペアとする。
Next, the target sound /
目的音/雑音分離部501は、マイクペア待ち行列の要素数が0か否かを判定する(S704)。つまり、マイクペアがあるか否かが判定される。マイクペア待ち行列の要素数が0でないと判定された場合、目的音/雑音分離部501は、マイクペア待ち行列からマイク素子の配置間隔が最短のマイクペアを一つ読み出し、かつ、読み出したマイクペアをマイクペア待ち行列から除く処理を行う(S705)。
The target sound /
目的音/雑音分離部501は、読み出したマイクペアに対して、位相差を算出する。具体的には、目的音/雑音分離部501は、まず、
The target sound /
を満たす整数n_kを算出する。不等式で囲まれた範囲が2πに相当するため、必ず解が存在する。 An integer n_k that satisfies the above is calculated. Since the range enclosed by the inequality corresponds to 2π, there is always a solution.
次に、目的音/雑音分離部501は、算出された整数n_kを
Next, the target sound /
に代入し、位相差を算出する。なお、k=1の場合における初期値は、 And the phase difference is calculated. The initial value in the case of k = 1 is
で定義される。 Defined by
S706の後に再びS704に戻り、全てのマイクペアについて同一の処理を実行する。 After S706, the process returns to S704 again, and the same processing is executed for all microphone pairs.
S704において、マイクペア待ち行列の要素数が0であると判定された場合、目的音/雑音分離部501は、算出された位相差を
If it is determined in S704 that the number of elements in the microphone pair queue is 0, the target sound /
に代入し、音声の到来方向であるθ(f,τ)を算出する。ここで、dkはk番目のマイクペアのマイク素子の配置間隔とする。 And θ (f, τ), which is the voice arrival direction, is calculated. Here, d k is the arrangement interval of the microphone elements of the kth microphone pair.
音の到来方向の算出の推定精度は、マイクペアのマイク素子の配置間隔が長いほど、高くなるが、多チャンネル周波数領域フレーム信号Ef_i(f,τ)の半波長以上のマイクペアのマイク素子の配置間隔が長ければ、マイクペアのマイク素子の配置間隔の位相差から一つの方向を特定することができず、同じ位相差を持つ二つ以上の方向が存在してしまう(空間的エイリアシング)。 The estimation accuracy of the calculation of the arrival direction of sound increases as the arrangement interval of the microphone elements of the microphone pair increases, but the arrangement interval of the microphone elements of the microphone pair having a half wavelength or more of the multi-channel frequency domain frame signal Ef_i (f, τ). Is longer, one direction cannot be specified from the phase difference of the arrangement intervals of the microphone elements of the microphone pair, and two or more directions having the same phase difference exist (spatial aliasing).
前述の到来方向の算出方法は、長いマイクペアのマイク素子の配置間隔に対して本来[数2]で得られる二つ以上の方向のうち、前のループで短いマイクペアのマイク
素子の配置間隔に対して一意に得られている音声の到来方向θ(f,τ)の方を選択することと等価な手順となっている。したがって、空間的エイリアシングが生じるような場合においても高精度に音の到来方向を算出することができる。
The above calculation method of the arrival direction is based on the arrangement interval of the microphone elements of the short microphone pair in the previous loop among the two or more directions originally obtained by [Formula 2] with respect to the arrangement interval of the microphone elements of the long microphone pair. The procedure is equivalent to selecting the direction of arrival θ (f, τ) of the voice obtained uniquely. Therefore, the direction of arrival of sound can be calculated with high accuracy even when spatial aliasing occurs.
目的音/雑音分離部501は、算出された時間−周波数ごとの音声の到来方向θ(f,τ)に基づいて、多チャンネル周波数領域フレーム信号Ef_i(f,τ)を目的音信号Esubject_i(f,τ)と雑音信号Enoise_i(f,τ)とに分離する。
The target sound /
具体的には、各周波数ビンfにおいて、方向範囲Θ_jに音声の到来方向θ(f,τ)が含まれるような方向範囲Θ_jのjに対し、以下に示すように分離される。 Specifically, in each frequency bin f, separation is performed as follows with respect to j in the direction range Θ_j in which the direction range Θ_j includes the voice arrival direction θ (f, τ).
図17は、本発明の第1の実施の形態の任意フレームτにおける目的音信号Esubject_i(f,τ)のデータ構造を示す図である。図18は、本発明の第1の実施の形態の任意フレームτにおける雑音信号Enoise_i(f,τ)のデータ構造を示す図である。 FIG. 17 is a diagram illustrating a data structure of the target sound signal E subject — i (f, τ) in an arbitrary frame τ according to the first embodiment of this invention. FIG. 18 is a diagram illustrating a data structure of the noise signal E noise — i (f, τ) in an arbitrary frame τ according to the first embodiment of this invention.
目的音信号Esubject_i(f,τ)は、目的音/雑音分離部501から目的音ステアリングベクトル更新部502に出力される。雑音信号Enoise_i(f,τ)は、目的音/雑音分離部501から雑音共分散行列更新部503に出力される。
The target sound signal E subject — i (f, τ) is output from the target sound /
目的音ステアリングベクトル更新部502は、
The target sound steering
に基づき、目的音ステアリングベクトルasubject(f,τ)=[a_0(f,τ),・・・,a_M−1(f,τ)]Tを更新する。ただし、安定のために、目的音信号Esubject_i(f,τ)の絶対値が十分に大きいときだけに更新するようにしてもよい。更新された目的音ステアリングベクトルasubject(f,τ)は、フィルタ更新部504に出力される。
, A target sound steering vector a subject (f, τ) = [a — 0 (f, τ),..., A_M−1 (f, τ)] T is updated. However, for the sake of stability, it may be updated only when the absolute value of the target sound signal E subject — i (f, τ) is sufficiently large. The updated target sound steering vector a subject (f, τ) is output to the
雑音共分散行列更新部503は、
The noise covariance
に基づき、雑音共分散行列Rn(f,τ)を更新する。ただし、雑音信号Enoise_i(f,τ)=[Enoise_0(f,τ),・・・,Enoise_M−1(f,τ)]Tとし、γnは0以上1未満の適当な定数パラメタとする。また、安定のために、雑音信号Enoise_i(f,τ)の絶対値が十分に大きいときだけに更新するようにしてもよい。更新された雑音共分散行列Rn(f,τ)は、フィルタ更新部504に出力される。
Based on the above, the noise covariance matrix R n (f, τ) is updated. However, the noise signal E noise — i (f, τ) = [E noise — 0 (f, τ),..., E noise — M−1 (f, τ)] T, and γ n is 0 or more and less than 1 Constant parameter. For the sake of stability, the noise signal E noise — i (f, τ) may be updated only when the absolute value is sufficiently large. The updated noise covariance matrix R n (f, τ) is output to the
フィルタ更新部504は、入力された目的音ステアリングベクトルasubject(f,τ)、及び、雑音共分散行列雑音共分散行列Rn(f,τ)から、
The
に基づき、フィルタw(f,τ)を算出する。ただし、γwは0以上1未満の適当な定数パラメタである。 Based on the above, the filter w (f, τ) is calculated. However, γ w is an appropriate constant parameter of 0 or more and less than 1.
フィルタ乗算部505は、フィルタw(f,τ)、及び多チャンネル周波数領域フレーム信号Ef_i(f,τ)を
The
に代入し、指定された方向から到来する音を除去した周波数領域フレーム信号y(f,τ)を算出する。 And the frequency domain frame signal y (f, τ) from which the sound coming from the designated direction is removed is calculated.
前述した手順によって算出された周波数領域フレーム信号y(f,τ)は、時間信号生成部411及び方向別残留音量計算部415に出力される。時間信号生成部411は、入力された周波数領域フレーム信号y(f,τ)に逆FFTを行い、時間領域フレーム信号y(t,τ)に変換する。さらに、時間信号生成部411は、時間領域フレーム信号y(t,τ)をフレーム周期ごとに重ね合わせ、加算し、かつ窓関数の逆数を乗算し、時間領域信号y(t)に変換する。そして、時間信号生成部411は、音声送信部413に変換された時間領域信号y(t)を出力する。
The frequency domain frame signal y (f, τ) calculated by the above-described procedure is output to the time
音声送信部413は、サーバを介する場合、サーバに対して、各拠点ごとに生成した時間領域信号y(t)を送信する。サーバを介さない場合、各拠点に対して、時間領域信号y(t)をTCP/IP又はRTPプロトコルを用いて送信する。
When transmitting through the server, the
音源分離部408は、多チャンネル周波数フレーム領域信号Xf_i(f,τ)を、各方向の成分である方向別周波数領域フレーム信号Xf_j(f,τ)に分離し、音量計算部414、及び方向別残留音量計算部415に、分離された方向別周波数領域フレーム信号Xf_j(f,τ)を出力する。以下、音源分離部408における処理について説明する。
The sound
図8は、本発明の第1の実施の形態の音源分離部408の処理を示すフローチャートである。
FIG. 8 is a flowchart illustrating processing of the sound
まず、音源分離部408は、入力された多チャンネル周波数フレーム領域信号Xf_i(f,τ)から、音声の到来方向θ(f,τ)を算出する(S801)。なお、音の到来方向θ(f,τ)の算出方法は、前述したSPIREアルゴリズムを用いて算出される。
First, the sound
次に、音源分離部408は、周波数ビンfごとに振幅の絶対値AX(f,τ)を
Next, the sound
を用いて算出する(S802)。 (S802).
算出されたθ(f,τ)が方向範囲Θjの範囲内に含まれる場合、 When the calculated θ (f, τ) is included in the range of the direction range Θj,
に基づいて方向別周波数領域フレーム信号Xf_j(f,τ)を算出する(S803)。 Then, the direction-specific frequency domain frame signal Xf_j (f, τ) is calculated (S803).
図19は、本発明の第1の実施の形態の任意フレームτ方向別周波数領域フレーム信号Xf_j(f,τ)のデータ構造を示す図である。 FIG. 19 is a diagram illustrating a data structure of the frequency domain frame signal Xf_j (f, τ) for each arbitrary frame τ direction according to the first embodiment of this invention.
前述の処理のよって算出された方向別周波数領域フレーム信号Xf_j(f,τ)は、図19に示すに、対応する周波数及び対応する方向範囲ごとにデータが格納されている。 As shown in FIG. 19, the direction-specific frequency domain frame signal Xf_j (f, τ) calculated by the above processing stores data for each corresponding frequency and corresponding direction range.
音量計算部414は、入力された方向別周波数領域フレーム信号Xf_j(f,τ)の収音信号内方向別音量P_j(τ)を、
The
に基づいて算出する。算出された収音信号内方向別音量P_j(τ)は、抑圧量表示部106に出力される。
Calculate based on The calculated volume P_j (τ) for each direction in the collected sound signal is output to the suppression
方向別残留音量計算部415は、雑音除去処理部409から入力された周波数領域フレーム信号y(f,τ)、及び、音源分離部408から入力された方向別周波数領域フレーム信号Xf_j(f,τ)から、方向範囲Θjの範囲内から到来する音が抑圧された音量、つまり、残留信号内方向別音量Q_j(τ)を算出する。以下、方向別残留音量計算部415における。処理について説明する。
The direction-specific residual
図9は、本発明の第1の実施の形態の方向別残留音量計算部415の処理を示すフローチャートである。
FIG. 9 is a flowchart illustrating a process of the direction-specific residual
まず、方向別残留音量計算部415は、初期化設定を行う(S901)。具体的には、周波数ビンfを0に設定し、全ての範囲方向Θjに対して残留信号内方向別音量Q_j(τ)を0に設定する。
First, the direction-specific residual sound
次に、方向別残留音量計算部415は、f=N−1であるか否かを判定する(S902)。f=N−1でないと判定された場合、方向別残留音量計算部415は、jを0に設定する(S908)。
Next, the direction-specific residual sound
方向別残留音量計算部415は、j=Jであるか否かを判定する(S903)。j=Jであると判定された場合、方向別残留音量計算部415は、S907に進む。j=Jでないと判定された場合、方向別残留音量計算部415は、方向別周波数領域フレーム信号Xf_j(f,τ)=0であるか否かを判定する(S904)。
The direction-specific residual
方向別周波数領域フレーム信号Xf_j(f,τ)=0であると判定された場合、方向別残留音量計算部415は、j+1を新たなjと定義し(S905)、S903に戻る。方向別周波数領域フレーム信号Xf_j(f,τ)=0でないと判定された場合、方向別残留音量計算部415は、残留信号内方向別音量Q_j(τ)に|y(f,τ)|2を加算し、前記加算された値を新たな残留信号内方向別音量Q_j(τ)と定義する(S906)。
When it is determined that the direction-specific frequency domain frame signal Xf_j (f, τ) = 0, the direction-specific residual
次に、方向別残留音量計算部415は、f+1を新たな周波数ビンfと定義し(S907)、S902へ戻り、以下同様の処理を行う。
Next, the direction-specific residual
S902においてf=N−1であると判定された場合、方向別残留音量計算部415は、抑圧量表示部106に残留信号内方向別音量Q_j(τ)を出力する。
When it is determined in S902 that f = N−1, the direction-specific residual sound
ここで、方向別周波数領域フレーム信号Xf_j(f,τ)は、音源分離部408において、「スパース性」の仮定に基づき、各周波数fの成分をただ一つの範囲方向Θjに分離されたものであるため、多くとも一つのfでのみ方向別周波数領域フレーム信号Xf_j(f,τ)≠0である。したがって、S903〜S905のループにおいて、方向別周波数領域フレーム信号Xf_j(f,τ)≠0となる周波数ビンfを一つ見つけた場合、次のS902〜S907のループに移ることができる。これによって、高速な処理を行える。
Here, the direction-specific frequency domain frame signal Xf_j (f, τ) is obtained by separating the components of each frequency f into a single range direction Θj in the sound
図10は、本発明の第1の実施の形態の抑圧量表示部106の表示の一例を示す図である。
FIG. 10 is a diagram illustrating an example of display on the suppression
抑圧量表示部106は、収音音量のメータSEQ_X_Θjと残留信号の音量メータSEQ_Y_Θjとが並列して一組のSEQ_COMB_Θjになっており、SEQ_COMB_Θjが円筒上筐体の側面に配置されている。各SEQ_COMB_Θjは、各方向範囲Θjに対応する。SEQ_COMB_Θjは、方向範囲Θ_j=[θ_j1,θ_j2]に対して、θjm=(θ_j1+θ_j2)/2の方向に配置されているのが望ましい。これは、各SEQ_COMB_Θjが配置されている方向と音声の到来方向の対応を分かりやすくするためである。
In the suppression
収音音量のメータSEQ_X_Θjは、収音信号内方向ごと音量P_j(τ)を表示する。残留信号の音量メータSEQ_Y_Θjは、残留信号内方向別音量Q_(τ)を表示する。 The sound collection volume meter SEQ_X_Θj displays the volume P_j (τ) for each direction in the sound collection signal. The residual signal volume meter SEQ_Y_Θj displays the volume Q_ (τ) for each residual signal inward direction.
図11は、本発明の第1の実施の形態の抑圧量表示部106で点灯するLEDの数と収音信号内方向別音量P_j(τ)の値との対応付けを示す図である。図12は、本発明の第1の実施の形態の抑圧量表示部106で点灯するLEDの数と残留信号内方向別音量Q_j(τ)の値との対応付けを示す図である。
FIG. 11 is a diagram illustrating a correspondence between the number of LEDs that are turned on in the suppression
収音音量のメータSEQ_X_Θjを構成するLEDの個数が8個だった場合、収音信号内方向別音量P_j(τ)とPmaxの比に対して、点灯するLEDの数を0個から8個点灯させるものが考えられる。ただし、表中のPmaxは収音信号内方向別音量P_j(τ)の最大値とし、各LEDの番号は下部から順にL1、L2・・・、L8とする。残留信号内方向別音量Q_j(τ)についても、図12に示すように、同様である。ただし、Qmaxは、残留信号内方向別音量Q_j(τ)の最大値とする。 When the number of LEDs constituting the sound collection volume meter SEQ_X_Θj is 8, the number of LEDs to be lit is 0 to 8 with respect to the ratio of the volume P_j (τ) and Pmax according to the direction of the sound collection signal. What can be considered. However, Pmax in the table is the maximum value of the volume P_j (τ) for each direction in the collected sound signal, and the numbers of the LEDs are L1, L2,. The same applies to the volume Q_j (τ) for each remaining signal in-direction, as shown in FIG. However, Qmax is the maximum value of the volume Q_j (τ) for each remaining signal in the direction.
抑圧量表示部106は、本実施の形態のようなLEDによる表示だけに限定されない。例えば、有機ELディスプレイまたは液晶ディスプレイなどの他のデバイスであってもよく、また、レベルメータとしての機能を有する他の表示方法であってもよい。
The suppression
本実施の形態は、テレビ会議システムに限定されない、例えば、携帯電話のテレビ電話またはカーナビのハンズフリー通話装置に適用可能である。 The present embodiment is not limited to a video conference system, and can be applied to, for example, a mobile phone videophone or a car navigation handsfree call device.
本発明の実施の形態は、マイクロホンアレイ101、抑圧量表示部106、雑音除去操作入力部107の形状に限定されない。例えば、半球状の形状でマイクロホンアレイ101に、マイク素子が配置され、各マイク素子に対応するように抑圧量表示部106、及び雑音除去操作入力部107を配置してもよい。この場合、2次元的な方向ではなく、高さを含めた3次元的な方向について音を分離し、表示することができる。
The embodiment of the present invention is not limited to the shapes of the
[第2の実施の形態]
図20は、本発明の第2の実施の形態におけるテレビ会議システムの構成を示したブロック図である。
[Second Embodiment]
FIG. 20 is a block diagram showing the configuration of the video conference system according to the second embodiment of the present invention.
第2の実施の形態は、多チャンネル音響エコーキャンセラ部407で算出された多チャンネル周波数領域フレーム信号Ef_i(f,τ)を、音源分離部408及び雑音除去処理部409に出力する。
In the second embodiment, the multi-channel frequency domain frame signal Ef_i (f, τ) calculated by the multi-channel acoustic
前述した構成によって、第1の実施の形態は、エコーを除去し、かつ、雑音を除去した音声を抑圧された音声として表示するのに対し、第2の実施の形態は、雑音を除去した音声を抑圧された音声として表示する。 With the above-described configuration, the first embodiment displays the voice with the echo removed and the noise removed as the suppressed voice, whereas the second embodiment has the voice with the noise removed. Is displayed as suppressed speech.
[第3の実施の形態]
抑圧量表示部106は、収音信号内方向別音量P_j(τ)、及び残留信号内方向別音量Q_j(τ)を表示する形態に限定されない。
[Third Embodiment]
The suppression
例えば、抑圧量表示部106は、
For example, the suppression
に示すように、収音信号内方向別音量P_j(τ)と残留信号内方向別音量Q_j(τ)との差を抑圧量R_j(τ)と定義し、抑圧量R_j(τ)を表示する形態であってもよい。 As shown in FIG. 5, the difference between the volume P_j (τ) for each direction in the collected sound signal and the volume Q_j (τ) for each remaining signal direction is defined as a suppression amount R_j (τ), and the suppression amount R_j (τ) is displayed. Form may be sufficient.
また、抑圧量表示部106は、
The suppression
に示すように、収音信号内方向別音量P_j(τ)と残留信号内方向別音量Q_j(τ)の比を抑圧量R_j(τ)と定義し、抑圧量R_j(τ)を表示する形態であってもよい。 As shown in FIG. 3, the ratio of the volume P_j (τ) for each direction in the collected sound signal and the volume Q_j (τ) for each remaining signal direction is defined as the suppression amount R_j (τ), and the suppression amount R_j (τ) is displayed. It may be.
抑圧量表示部106は、収音信号内方向別音量P_j(τ)と残留信号内方向別音量Q_j(τ)との相対的な大きさの違いが分かる尺度を表示することが望ましい。
It is desirable that the suppression
図21は、本発明の第3の実施の形態における抑圧量表示部106の表示の一例を示す図である。
FIG. 21 is a diagram illustrating an example of display on the suppression
図21に示すように、抑圧量表示部106は、抑圧量R_j(τ)、及び残留信号内方向別音量Q_j(τ)を表示アイコンを用いる表示方法が考えられる。
As shown in FIG. 21, the suppression
図22は、本発明の第3の実施の形態における表示アイコンと抑圧量R_j(τ)との対応付けを示す図である。図23は、本発明の第3の実施の形態における表示アイコンと残留信号内方向別音量Q_j(τ)との対応付けを示す図である。 FIG. 22 is a diagram illustrating associations between display icons and suppression amounts R_j (τ) according to the third embodiment of the present invention. FIG. 23 is a diagram illustrating a correspondence between display icons and residual signal in-direction volume Q_j (τ) according to the third embodiment of the present invention.
図22に示すように、抑圧量R_j(τ)とRmaxとの比を表示アイコンと対応付ける方法が考えられる。ただし、Rmaxは、抑圧量R_j(τ)の最大値とする。また、図23に示すように、残留信号内方向別音量Q_j(τ)とQmaxとの比を表示アイコンと対応付ける方法が考えられる。ただし、Qmaxは、残留信号内方向別音量Q_j(τ)の最大値とする。 As shown in FIG. 22, a method of associating the ratio between the suppression amount R_j (τ) and Rmax with the display icon is conceivable. However, Rmax is the maximum value of the suppression amount R_j (τ). In addition, as shown in FIG. 23, a method of associating the ratio between the volume Q_j (τ) for each remaining signal in-direction and Qmax with a display icon is conceivable. However, Qmax is the maximum value of the volume Q_j (τ) for each remaining signal in the direction.
以上説明した第3の実施の形態では、第1の実施の形態に比べて、ユーザは、より直観的に音量を把握できる。 In the third embodiment described above, the user can grasp the volume more intuitively as compared with the first embodiment.
[第4の実施の形態]
音声を音源ごとに分離する音源分離部408の処理の方法は第1の実施の形態に限定されず、他の処理によって分離できる。
[Fourth Embodiment]
The processing method of the sound
図24は、本発明の第4の実施の形態におけるテレビ会議システムの構成を示したブロック図である。 FIG. 24 is a block diagram showing a configuration of a video conference system according to the fourth embodiment of the present invention.
図24に示すように、多チャンネルフレーム処理部402から出力される多チャンネル時間領域フレーム信号Xf_i(t,τ)が音源分離部2608に入力される。以下、音源分離部2608の処理について説明する。
As shown in FIG. 24, the multi-channel time domain frame signal Xf_i (t, τ) output from the multi-channel
図25は、本発明の第4の実施の形態の音源分離部2608の処理を示したフローチャートである。 FIG. 25 is a flowchart illustrating processing of the sound source separation unit 2608 according to the fourth embodiment of this invention.
音源分離部2608は、多チャンネル時間領域フレーム信号Xf_i(t,τ)を入力とし、SIMO−ICA(非特許文献2参照)フィルタを算出し、SIMO−ICAフィルタを更新する(S2701)。なお、フィルタの算出方法及び更新方法は、非特許文献2に記載された方法を用いることができる。
The sound source separation unit 2608 receives the multi-channel time domain frame signal Xf_i (t, τ) as input, calculates a SIMO-ICA (see Non-Patent Document 2) filter, and updates the SIMO-ICA filter (S2701). In addition, the method described in the
次に、音源分離部2608は、更新されたSIMO−ICAのフィルタを多チャンネル時間領域フレーム信号Xf_i(t,τ)に乗算し、各音源ごとに分離する(S2702)。前述した分離処理によって、S個の信号Xf_s_i(t,τ)に分離される。ここで、sは、0からS−1までの整数であり、各音源を表すインデックスである。以下、音源sと記す。また、Sは最大音源数であり、マイク素子の数(M個)以下の数とする。つまり、分離された信号Xf_s_i(t,τ)は、音源sの音がマイク素子iに入力された信号を示す。 Next, the sound source separation unit 2608 multiplies the updated SIMO-ICA filter by the multi-channel time domain frame signal Xf_i (t, τ), and separates each sound source (S2702). By the separation process described above, the signal is separated into S signals Xf_s_i (t, τ). Here, s is an integer from 0 to S-1, and is an index representing each sound source. Hereinafter, it is described as a sound source s. S is the maximum number of sound sources, and is a number equal to or less than the number of microphone elements (M). That is, the separated signal Xf_s_i (t, τ) indicates a signal in which the sound of the sound source s is input to the microphone element i.
音源分離部2608は、分離された信号Xf_s_i(t,τ)を周波数領域フレーム信号Xf_s_i(f,τ)に変換する(S2703)。 The sound source separation unit 2608 converts the separated signal Xf_s_i (t, τ) into a frequency domain frame signal Xf_s_i (f, τ) (S2703).
音源分離部2608は、音源sを0に設定し(S2704)、次にs=S−1か否かを判定する(S2705)。 The sound source separation unit 2608 sets the sound source s to 0 (S2704), and then determines whether or not s = S-1 (S2705).
s=S−1でないと判定された場合、音源分離部2608は、周波数ビンfを0に設定し、さらに、方向ヒストグラムh_s(θ)を初期化する(S2706)。具体的には、各音源sの全ての音声の到来方向θに対して、方向ヒストグラムh_s(θ)=0と設定する。なお、方向ヒストグラムh_s(θ)は任意の音源における角度分布を示すヒストグラムである。次に、音源分離部2608は、f=N−1か否かを判定する(S2707)。 If it is determined that s = S−1 is not satisfied, the sound source separation unit 2608 sets the frequency bin f to 0 and further initializes the direction histogram h_s (θ) (S2706). Specifically, the direction histogram h_s (θ) = 0 is set for the arrival directions θ of all the sounds of the sound sources s. The direction histogram h_s (θ) is a histogram showing the angle distribution in an arbitrary sound source. Next, the sound source separation unit 2608 determines whether or not f = N−1 (S2707).
周波数ビンf=N−1でないと判定された場合、音源分離部2608は、音声の到来方向θ(f,τ)を算出する(S2708)。なお、音声の到来方向θ(f,τ)の算出は、第1の実施の形態と同様に、SPIREアルゴリズムを用いて算出される。 If it is determined that the frequency bin f = N−1 is not satisfied, the sound source separation unit 2608 calculates the voice arrival direction θ (f, τ) (S2708). Note that the voice arrival direction θ (f, τ) is calculated using the SPIRE algorithm, as in the first embodiment.
次に、音源分離部2608は、算出された音声の到来方向θ(f,τ)をθhとし、 Next, the sound source separation unit 2608 sets the calculated voice arrival direction θ (f, τ) as θ h ,
にしたがって、方向ヒストグラムh_s(θh)へ投票する(S2709)。そして、f+1を新たな周波数ビンfと定義し(S2710)、S2707へ戻る。以下、全ての周波数について(f=N−1になるまで)、S2708〜S2710までの処理が同様に行われる。 Accordingly, the voting is performed for the direction histogram h_s (θ h ) (S2709). Then, f + 1 is defined as a new frequency bin f (S2710), and the process returns to S2707. Thereafter, the processing from S2708 to S2710 is similarly performed for all frequencies (until f = N−1).
S2707において、f=N−1であると判定された場合、音源分離部2608は、S2707〜S2710の一連のループ処理によって作成された方向ヒストグラムh_s(θh)から方向ピークを探索する(S2711)。SIMO―ICAフィルタを用いた分離によって、理論的に、周波数領域フレーム信号Xf_s_i(f,τ)は、単一の音源の成分である。したがって、前述した方向ピークの探索は、方向ヒストグラムh_s(θh)の分布から最大値をとるθh求めればよい。また、求められたθhを音源sの音の到来方向θ_sとする。 If it is determined in step S2707 that f = N−1, the sound source separation unit 2608 searches for a direction peak from the direction histogram h_s (θ h ) created by the series of loop processing in steps S2707 to S2710 (S2711). . Due to the separation using the SIMO-ICA filter, the frequency domain frame signal Xf_s_i (f, τ) is theoretically a component of a single sound source. Therefore, the search for the direction peak described above may be performed by obtaining θ h that takes the maximum value from the distribution of the direction histogram h_s (θ h ). Further, the obtained θ h is set as the sound arrival direction θ_s of the sound source s.
方向ピークを探索した後、音源分離部2608は、s+1を新たな音源sと定義し(S2712)、S2705へ戻り、以下、同様の処理を行う。 After searching for the direction peak, the sound source separation unit 2608 defines s + 1 as a new sound source s (S2712), returns to S2705, and thereafter performs the same processing.
S2705において、s=S−1であると判定された場合、音源分離部2608は、前述した、S2705〜S2712のループ処理によって、算出された各音源sの音声の到来方向θ_sと、抑圧量表示部106の範囲方向Θ_jとを対応付ける(S2713)。
When it is determined in S2705 that s = S-1, the sound source separation unit 2608 displays the arrival direction θ_s of the sound of each sound source s calculated by the loop processing of S2705 to S2712 and the suppression amount display. The range direction Θ_j of the
以上の処理によって、音源分離部2608は、算出された各音源sの音声の到来方向θ_sに基づいて、各方向に分離さた方向別周波数領域フレーム信号Xf_j(f,τ)を算出し、音量計算部414及び方向別残留音量計算部2615に方向別周波数領域フレーム信号をXf_j(f,τ)を出力する。以下、算出された各音源sの音声の到来方向θ_sと表示範囲Θ_jとの対応付け、及び方向別周波数領域フレーム信号Xf_j(f,τ)の算出方法について説明する。
Through the above processing, the sound source separation unit 2608 calculates the direction-specific frequency domain frame signal Xf_j (f, τ) separated in each direction based on the calculated voice arrival direction θ_s of each sound source s. The direction-specific frequency domain frame signal Xf_j (f, τ) is output to the
一つの方法として、例えば、Θ_jがθ_sを含むjについて、 As one method, for example, for j where Θ_j includes θ_s,
に基づいて方向ごと周波数領域フレーム信号Xf_j(f,τ)を算出する。 Based on the above, a frequency domain frame signal Xf_j (f, τ) is calculated for each direction.
また、別の方法として、例えば、 As another method, for example,
に示すコスト関数C(δ)を考える。ここで、δ(s,j)は、任意の音源sに対して、ただ一つのjのみが1となり、その他のjについては0となり、かつ、任意のjに対し、ただ一つのsのみが1となり、その他のsについては0となるような関数である。δ(s,j)は音源sとjとの一対一の対応関係を表す。また、dist(θ_s,Θ_j)は、 Consider the cost function C (δ) shown in FIG. Here, for δ (s, j), only one j is 1 for an arbitrary sound source s, 0 for the other j, and only one s for any j. The function is 1 and the other s are 0. δ (s, j) represents a one-to-one correspondence between the sound sources s and j. Also, dist (θ_s, Θ_j) is
に示すような、距離関数とする。 A distance function as shown in FIG.
対応付けの方法として、例えば、コスト関数C(δ)が最大となるδを求めることで、音源sと方向範囲jとを対応付ける方法が考えられる。そして、δ(s,j)=1となるsの分離された信号Xf_s_i(t,τ)を As a method of association, for example, a method of associating the sound source s with the direction range j by obtaining δ that maximizes the cost function C (δ) is conceivable. Then, s separated signals Xf_s_i (t, τ) satisfying δ (s, j) = 1 are obtained.
に代入し、方向ごと周波数領域フレーム信号Xf_j(f,τ)を算出する。前述した方法を用いることによって、音源sの方向が近接し、かつ、抑圧量表示部106で表示できる方向が離散的に存在していても、音源sごとに分離することができる。
And the frequency domain frame signal Xf_j (f, τ) is calculated for each direction. By using the method described above, even if the direction of the sound source s is close and the directions that can be displayed by the suppression
次に、方向別残留音量計算部2615について説明する。 Next, the direction-specific residual volume calculation unit 2615 will be described.
図26は、本発明の第4の実施の形態の方向別残留音量計算部2615の処理を示すフローチャートである。 FIG. 26 is a flowchart illustrating a process of the direction-specific residual sound volume calculation unit 2615 according to the fourth embodiment of this invention.
方向別残留音量計算部2615は、初期化処理を行う(S2801)。具体的には、周波数ビンfを0に設定し、残留信号内方向別音量Q_j(τ)を0に設定する。次に、方向別残留音量計算部2615は、f=N−1であるか否かを判定する(S2802)。 The direction-specific residual volume calculation unit 2615 performs an initialization process (S2801). Specifically, the frequency bin f is set to 0, and the residual signal inner direction volume Q_j (τ) is set to 0. Next, the direction-specific residual volume calculation unit 2615 determines whether or not f = N−1 (S2802).
f=N−1でないと判定された場合、方向別残留音量計算部2615は、 When it is determined that f = N−1 is not satisfied, the direction-specific residual volume calculation unit 2615
に基づいて、Psumを算出し(S2803)、方向範囲jを0に設定する(S2804)。次に、方向別残留音量計算部2615は、j=J−1か否かを判定する(S2805)。 Based on, to calculate the P sum (S2803), it sets the direction range j to 0 (S2804). Next, the direction-specific residual sound volume calculation unit 2615 determines whether j = J−1 or not (S2805).
j=J−1でないと判定された場合、方向別残留音量計算部2615は、S2803で算出されたPsumを When it is determined that j = J−1 is not satisfied, the direction-specific residual volume calculation unit 2615 calculates the P sum calculated in S2803.
に代入し、Q_jを算出する(S2806)。 And Q_j is calculated (S2806).
次に、方向別残留音量計算部2615は、j+1を新たな方向範囲jと定義し(S2807)、S2805へ戻り、同様の処理を行う。 Next, the direction-specific residual volume calculation unit 2615 defines j + 1 as a new direction range j (S2807), returns to S2805, and performs the same processing.
S2805において、j=Jであると判定された場合、方向別残留音量計算部2615は、f+1を新たな周波数ビンfと定義し(S2808)、S2802へ戻り、以下同様の処理を行う。 When it is determined in S2805 that j = J, the direction-specific residual volume calculation unit 2615 defines f + 1 as a new frequency bin f (S2808), returns to S2802, and performs the same processing.
S2802において、f=N−1であると判定された場合、方向別残留音量計算部2615は、S2802〜S2808の一連のループ処理から算出された残留信号内方向別音量Q_j(τ)を抑圧量表示部106へ出力する。
When it is determined in S2802 that f = N−1, the direction-specific residual volume calculation unit 2615 suppresses the residual signal-specific direction volume Q_j (τ) calculated from the series of loop processing of S2802 to S2808. The data is output to the
なお、抑圧量表示部106の表示方法としては、第1の実施の形態または第3の実施の形態と同様の方法を用いる。
As a display method of the suppression
本実施の形態は、テレビ会議システムに限定されない、例えば、携帯電話のテレビ電話またはカーナビのハンズフリー通話装置に適用可能である。また、音源分離部2608において、音声のスパース性の仮定を必要としない音源の分離方法を用いるため、会話音声に限られず、環境音または楽音など、他の種類の音を対象とする場合にも適用可能である。 The present embodiment is not limited to a video conference system, and can be applied to, for example, a mobile phone videophone or a car navigation handsfree call device. In addition, since the sound source separation unit 2608 uses a sound source separation method that does not require the assumption of speech sparsity, the sound source separation unit 2608 is not limited to conversational speech, and may be used for other types of sounds such as environmental sounds or musical sounds. Applicable.
[第5の実施の形態]
本発明は、例えば、ICレコーダなどの音声録音装置にも適応可能である。
[Fifth Embodiment]
The present invention is also applicable to a voice recording device such as an IC recorder.
図27は、本発明の第5の実施の形態の音声録音装置のハードウェア構成例を示す図である。 FIG. 27 is a diagram illustrating a hardware configuration example of a voice recording device according to the fifth embodiment of the present invention.
音声録音装置2000は、一以上のマイクロホン素子からなるマイクロホンアレイ101、マイクロホンアレイ101から入力されるアナログの音圧値をデジタルデータに変換するA/D変換装置2002、A/D変換装置2002から出力されるデジタルデータを処理する中央演算装置103、中央演算装置103に接続された揮発性メモリ104、中央演算装置103に接続された、プログラム及びマイクロホンアレイ101の各マイク素子の物理的な配置などの情報を記憶する記憶媒体105、抑圧量表示部106、雑音除去操作入力部107、オーディオケーブル112、デジタルケーブル113、デジタルケーブル114、及びデジタルケーブル115から構成される。
The voice recording apparatus 2000 includes a
第5の実施の形態は、遠端とのデータのやりとりを必要としないため、カメラ及びモニタなどの画像を扱わなくてもよい。また、A/D変換装置2002は、音声を再生しないため、D/A変換を必要としない。したがって、A/D変換装置2002は、入力された多チャンネル音圧データを多チャンネルデジタル音圧データに変換する処理のみを行う。
Since the fifth embodiment does not require data exchange with the far end, images such as a camera and a monitor need not be handled. In addition, the A /
なお、マイクロホンアレイ101、抑圧量表示部106、及び雑音除去操作入力部107の配置方法は第1の実施の形態と同様である。また、中央演算装置103、抑圧量表示装置2006、及び雑音除去操作入力部107とにおける処理は、第1の実施の形態と同様である。
The arrangement method of the
図28は、本発明の第5の実施の形態の音声録音装置の構成を示すブロック図である。 FIG. 28 is a block diagram showing a configuration of a voice recording apparatus according to the fifth embodiment of the present invention.
本実施の形態における音声録音装置は、図28に示すのように、音声受信部404、音声再生部406、及び多チャンネル音響エコーキャンセラ部407が無くてもよい。また、雑音除去操作入力部2007を介してユーザが手動で雑音として除去する方向を決定してもよいが、音声録音装置に予め設定された値によって雑音として除去する方向を決定してもよい。その場合、雑音除去操作入力部2007は、音声録音装置の構成に含まなくてもよい。
As shown in FIG. 28, the audio recording apparatus according to the present embodiment may not include the
本実施の形態における音声録音装置は、ある方向から騒音または録音したくない音声が到来し、該音声が到来する方向からの到来音を雑音として除去するように操作する場合、前述した騒音または録音したくない音声が雑音として十分に除去され、かつ、録音したい音声が録音されていることを、ユーザが確かめながら会話することができる
本実施の形態は、ICレコーダに限らず、ビデオカメラの録音機構などにも、そのまま適用可能である。また、第4の実施の形態のように、SIMO−ICAを用いた音源分離部2608及び方向別残留音量計算部2615を音声録音装置の構成とすることもできる。その場合、第4の実施の形態で前述したように、音源分離部2608において、音声のスパース性の仮定を必要としない音源の分離方法を用いるため、会話音声に限られず、環境音または楽音など、他の種類の音を対象とする場合にも適用可能である。
When the voice recording apparatus in the present embodiment is operated so as to remove noise or voice that is not desired to be recorded from a certain direction and removes the incoming sound from the direction from which the voice arrives as noise, the above-described noise or recording is performed. The user can make a conversation while confirming that the sound that he / she does not want to remove is sufficiently removed as noise and the sound he / she wants to record is recorded. The present invention can be applied to a mechanism as it is. Further, as in the fourth embodiment, the sound source separation unit 2608 and the direction-specific residual volume calculation unit 2615 using SIMO-ICA can be configured as a voice recording device. In this case, as described above in the fourth embodiment, the sound source separation unit 2608 uses a sound source separation method that does not require the assumption of speech sparsity. It can also be applied to other types of sounds.
本発明の実施の形態は、音声録音装置の形状に限定されない。例えば、半球状の形状であってもよい。この場合、2次元的な方向ではなく、高さを含めた3次元的な方向について音を分離し、表示することができる。 The embodiment of the present invention is not limited to the shape of the voice recording device. For example, a hemispherical shape may be used. In this case, the sound can be separated and displayed not in the two-dimensional direction but in the three-dimensional direction including the height.
100 テレビ会議システム
101 マイクロホンアレイ
102 A/D−D/A変換装置
103 中央演算装置
104 揮発性メモリ
105 記憶媒体
106 抑圧量表示部
107 雑音除去操作入力部
108 スピーカ
109 カメラ
110 画像表示装置
111 ハブ
112 オーディオケーブル
113〜115 デジタルケーブル
116 オーディオケーブル
117 デジタルケーブル
118 モニタケーブル
119 LANケーブル
U1、U2 ユーザ
203 中央演算装置
208 スピーカ
t1、t3、t5 時間帯
t2、t4 時刻
401 多チャンネルA/D変換部
402 多チャンネルフレーム処理部
403 多チャンネル短時間周波数分析部
404 音声受信部
405 D/A変換部
406 音声再生部
407 多チャンネル音響エコーキャンセラ部
408 音源分離部
409 雑音除去処理部
410 マイク配置
411 時間信号生成部
413 音声送信部
414 音量計算部
415 方向別残留音量計算部
501 目的音/雑音分離部
502 目的音ステアリングベクトル更新部
503 雑音共分散行列更新部
504 フィルタ更新部
505 フィルタ更新部
S701〜S707 ステップ
S801〜S803 ステップ
S901〜S908 ステップ
S1301〜S1314 ステップ
L1〜L8 LEDの番号
2000 音声録音装置
2002 A/D変換装置
2608 音源分離部
2615 方向別残留音量計算部
S2701〜S2713 ステップ
S2801〜S2808 ステップ
DESCRIPTION OF
Claims (10)
前記処理部は、
前記マイクロホンアレイから出力された信号を、音源が存在する方向ごと分離する音源分離部と、
前記マイクロホンアレイから出力された信号から雑音を除去する雑音除去処理部と、
前記音源分離部から出力された信号、及び前記雑音除去処理部から出力された残留信号に基づいて、前記残留信号の方向別の音量を算出する方向別残留信号計算部と、を備え、
音収集システムは、さらに、前記方向別残留信号計算部による算出結果に基づいて、前記方向別の残留信号の音量を表示する抑圧量表示部を備えることを特徴とする音収集システム。 A sound collection system comprising: a microphone array composed of two or more microphones; and a processing unit that converts a signal output from the microphone array,
The processor is
A sound source separation unit that separates signals output from the microphone array for each direction in which a sound source exists;
A noise removal processing unit for removing noise from the signal output from the microphone array;
A residual signal calculation unit for each direction that calculates a volume for each direction of the residual signal based on the signal output from the sound source separation unit and the residual signal output from the noise removal processing unit;
The sound collection system further includes a suppression amount display unit that displays a volume of the residual signal for each direction based on a calculation result by the residual signal calculation unit for each direction.
時間成分及び周波数成分によって区分された時間・周波数領域の各周波数ごとに、音源が存在する方向を算出し、
前記算出された方向に基づいて、前記マイクロホンアレイから出力された信号を、音源の存在する方向ごとに分離し、
前記方向別残留信号計算部は、
時間成分及び周波数成分によって区分された時間・周波数領域に音源が存在するか否かを判定し、
前記判定結果に基づいて前記残留信号の方向別の音量を算出することを特徴とする請求項1に記載の音収集システム。 The sound source separation unit is
For each frequency in the time / frequency domain divided by the time component and frequency component, calculate the direction in which the sound source exists,
Based on the calculated direction, the signal output from the microphone array is separated for each direction in which a sound source exists,
The direction-specific residual signal calculator is
Determine whether the sound source exists in the time / frequency domain divided by the time component and the frequency component,
The sound collection system according to claim 1, wherein a sound volume for each direction of the residual signal is calculated based on the determination result.
前記各マイクロホンが収集した音を、周波数ごとにその音源が存在する方向を算出し、
前記算出された周波数ごとの音源が存在する方向に基づいて、前記マイクロホンアレイから出力された信号を、音源の存在する方向ごとに分離し、
前記方向別残留信号計算部は、
前記音源の存在する方向ごとに分離され、前記マイクロホンアレイから出力された信号の大きさの和に対する、前記音源の存在する方向ごとに分離され、前記マイクロホンアレイから出力された信号のうちの所定の方向の当該信号の大きさの相対値を、前記残留信号の方向別の音量として算出することを特徴とする請求項1に記載の音収集システム。 The sound source separation unit is
Calculate the direction that the sound source exists for each frequency of the sound collected by each microphone,
Based on the direction in which the sound source for each calculated frequency exists, the signal output from the microphone array is separated for each direction in which the sound source exists,
The direction-specific residual signal calculator is
Separated for each direction in which the sound source is present and separated from each direction in which the sound source is present and output from the microphone array with respect to the sum of the magnitudes of the signals output from the microphone array. The sound collection system according to claim 1, wherein a relative value of the magnitude of the signal in the direction is calculated as a volume for each direction of the residual signal.
前記抑圧量表示部は、さらに、前記音量計算部による算出結果に基づいて、前記音源分離部から出力された信号の音量を表示することを特徴とする請求項1に記載の音収集システム。 The processing unit further includes a volume calculation unit that calculates the volume of the signal output from the sound source separation unit,
The sound collection system according to claim 1, wherein the suppression amount display unit further displays a volume of the signal output from the sound source separation unit based on a calculation result by the volume calculation unit.
前記処理部は、
前記マイクロホンアレイから出力された信号を、音源が存在する方向ごとに分離し、
前記マイクロホンアレイから出力された信号から雑音を除去し、
前記雑音が除去された残留信号に基づいて、前記残留信号の方向別の音量を算出し、
前記抑圧量表示部は、
前記算出された残留信号の方向別の音量を表示することを特徴とする音表示方法。 Sound in a sound collection device comprising: a microphone array including two or more microphones; a processing unit that converts a signal output from the microphone array; and a suppression amount display unit that displays a volume of the converted signal. Display method,
The processor is
The signal output from the microphone array is separated for each direction in which a sound source exists,
Remove noise from the signal output from the microphone array,
Based on the residual signal from which the noise has been removed, calculate a volume for each direction of the residual signal,
The suppression amount display unit
A sound display method comprising displaying the calculated volume of each residual signal in each direction.
前記残留信号の方向別の音量を算出する場合に、
時間成分及び周波数成分によって区分された時間・周波数領域の各周波数ごとに、音源が存在する方向を算出し、
前記算出された方向に基づいて、前記マイクロホンアレイから出力された信号を、音源の存在する方向ごとに分離し、
時間成分及び周波数成分によって区分された時間・周波数領域に音源が存在するか否かを判定し、
前記判定結果に基づいて前記残留信号の方向別の音量を算出することを特徴とする請求項8に記載の音表示方法。 The processor is
When calculating the volume for each direction of the residual signal,
For each frequency in the time / frequency domain divided by the time component and frequency component, calculate the direction in which the sound source exists,
Based on the calculated direction, the signal output from the microphone array is separated for each direction in which a sound source exists,
Determine whether the sound source exists in the time / frequency domain divided by the time component and the frequency component,
The sound display method according to claim 8, wherein the sound volume for each direction of the residual signal is calculated based on the determination result.
前記残留信号の方向別の音量を算出する場合に、
前記各マイクロホンが収集した音を、周波数ごとにその音源が存在する方向を算出し、
前記算出された周波数ごとの音源が存在する方向の統計量を算出し、
前記算出された統計量に基づいて、前記マイクロホンアレイから出力された信号を、音源の存在する方向ごとに分離し、
前記音源の存在する方向ごとに分離され、前記マイクロホンアレイから出力された信号の大きさの和に対する、所定の方向の前記音源の存在する方向ごとに分離され、前記マイクロホンアレイから出力された信号の大きさの相対値を、前記残留信号の方向別の音量として算出することを特徴とする請求項8に記載の音表示方法。 The processor is
When calculating the volume for each direction of the residual signal,
Calculate the direction that the sound source exists for each frequency of the sound collected by each microphone,
Calculating the direction of the statistics sound source is present for each of the calculated frequency,
Based on the calculated statistics, the signal output from the microphone array is separated for each direction in which a sound source exists,
The signal output from the microphone array is separated for each direction in which the sound source is present in a predetermined direction with respect to the sum of the magnitudes of the signals output from the microphone array and separated in the direction in which the sound source is present. The sound display method according to claim 8 , wherein a relative value of the magnitude is calculated as a volume for each direction of the residual signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008188581A JP5143656B2 (en) | 2008-07-22 | 2008-07-22 | Sound collection system and sound display method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008188581A JP5143656B2 (en) | 2008-07-22 | 2008-07-22 | Sound collection system and sound display method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010028531A JP2010028531A (en) | 2010-02-04 |
JP5143656B2 true JP5143656B2 (en) | 2013-02-13 |
Family
ID=41733921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008188581A Expired - Fee Related JP5143656B2 (en) | 2008-07-22 | 2008-07-22 | Sound collection system and sound display method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5143656B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130156204A1 (en) * | 2011-12-14 | 2013-06-20 | Mitel Networks Corporation | Visual feedback of audio input levels |
US9070374B2 (en) | 2012-02-20 | 2015-06-30 | JVC Kenwood Corporation | Communication apparatus and condition notification method for notifying a used condition of communication apparatus by using a light-emitting device attached to communication apparatus |
JP2014011600A (en) * | 2012-06-29 | 2014-01-20 | Audio Technica Corp | Microphone |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006171226A (en) * | 2004-12-14 | 2006-06-29 | Sony Corp | Voice processing device |
-
2008
- 2008-07-22 JP JP2008188581A patent/JP5143656B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010028531A (en) | 2010-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10932075B2 (en) | Spatial audio processing apparatus | |
US11527243B1 (en) | Signal processing based on audio context | |
US10251009B2 (en) | Audio scene apparatus | |
EP3320692B1 (en) | Spatial audio processing apparatus | |
US9357306B2 (en) | Multichannel audio calibration method and apparatus | |
KR101812862B1 (en) | Audio apparatus | |
US20170359669A1 (en) | Apparatus And Method For Reproducing Recorded Audio With Correct Spatial Directionality | |
EP3005344A1 (en) | An audio scene apparatus | |
WO2013166439A1 (en) | Systems and methods for source signal separation | |
CN111009256A (en) | Audio signal processing method and device, terminal and storage medium | |
CN111863015A (en) | Audio processing method and device, electronic equipment and readable storage medium | |
CN111009257A (en) | Audio signal processing method and device, terminal and storage medium | |
JP5143656B2 (en) | Sound collection system and sound display method | |
CN110133594A (en) | A kind of sound localization method, device and the device for auditory localization | |
JP2011250311A (en) | Device and method for auditory display | |
JP5267808B2 (en) | Sound output system and sound output method | |
CN108574914B (en) | Method and device for adjusting multicast playback file of sound box and receiving end | |
Wittje | Concepts and significance of noise in acoustics: before and after the great war | |
WO2024058147A1 (en) | Processing device, output device, and processing system | |
CN109951762B (en) | Method, system and device for extracting source signal of hearing device | |
JP5931707B2 (en) | Video conferencing system | |
WO2014096908A1 (en) | Spatial audio apparatus | |
Mugagga | A binaural sound sources localisation application for smart phones | |
JP2012103845A (en) | Voice controller and voice control method | |
JPWO2005048650A1 (en) | Signal receiving apparatus and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110221 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120704 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120710 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120906 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121121 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151130 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5143656 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |