JP5246120B2

JP5246120B2 - 収音装置、利得制御方法、およびプログラム

Info

Publication number: JP5246120B2
Application number: JP2009224668A
Authority: JP
Inventors: 隆矢頭; 真資高田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2009-09-29
Filing date: 2009-09-29
Publication date: 2013-07-24
Anticipated expiration: 2029-09-29
Also published as: JP2011077649A

Description

本発明は、収音装置、利得制御方法、およびプログラムに関する。

近日、ユーザが遠隔地に存在する他ユーザと会話するための遠隔通信システムの研究が盛んに行われている。この遠隔通信システムでは、ユーザの音声がマイクロホンなどを備える収音装置により収音され、収音装置により収音された音声が遠隔地に存在する他ユーザに送信される。

ここで、マイクロホンが無指向性である場合、ユーザの音声だけでなく、雑音や反響音も収音されるので、ユーザの音声を聞き取り難くなってしまう。この問題に対し、複数のマイクロホンを用いて複数方向に指向性を形成し、複数の指向方向のうちで音声が存在する方向に収音方向を限定する収音装置が提案されている。例えば、特許文献１には、マイクアレイを用いて指向性を形成し、信号レベルが所定レベル以上である指向方向から最大の方向を検出し、検出した方向に指向性の照準を合わせてユーザの音声を収音する方法が開示されている。

また、多地点間におけるテレビ会議や、３人以上のユーザが同時通話可能な電話会議を行う場合、場所ごとにマイクロホンの状態やマイクロホンとユーザとの距離が異なるので、収音により得られる音声信号の信号レベルも場所ごとに異なる。この問題に関し、特許文献２には、音声信号の信号レベルを適用的に制御する自動利得制御方法および自動利得制御装置が開示されている。

さらに、特許文献３には、音源方向を検出する検出手段と、検出された音源方向から発せられた音を収音する収音手段と、指向方向が切り替わる度に出力レベルが一定になるように利得を自動調整する利得調整手段を備える装置が開示されている。

なお、自動利得制御は、一般的に、低いレベルの信号を増幅し、過大なレベルの信号を適切なレベルに制限する制御である。この自動利得制御の適用に関し、特許文献２には、音声でない低いレベルの雑音が増幅されないよう、音声が検出された音声区間に自動利得制御を適用することが開示されている。

特開２００３−３０４５８９号公報特開平８−２５０９４４号公報特開平９−１４００００号公報

ここで、ユーザが発する音声には、他ユーザに明確に伝えようとする発言としての音声と、つぶやき、独り言または近隣ユーザとの雑談などの小音量の音声とが含まれる。発言としての音声の信号レベルが小さい場合には遠隔地のユーザが聞きやすい音量に増幅することが望まれるが、その他の独り言や雑談などの音声も自動利得制御によって増幅することは適切でない。しかし、従来の装置では、発言としての音声だけでなく、他の音声も所定レベルに増幅されてしまうという問題があった。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、音声の種類に応じた利得制御を行うことが可能な、新規かつ改良された収音装置、利得制御方法、およびプログラムを提供することにある。

上記課題を解決するために、本発明のある観点によれば、指向性を形成して指向方向ごとに信号を取得する信号取得部と、指向方向と信号閾値が対応付けて記録される記録部と、前記信号取得部により取得された信号から音声信号を検出する音声検出部と、前記音声検出部により検出された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回るか否かを判断する判断部と、前記判断部による判断結果に基づき、前記信号閾値を上回る音声信号を第１の信号レベルに利得調整を行う利得制御部とを備え、前記利得制御部は、前記信号閾値を下回る音声信号の利得調整を行わない、または、前記第１の信号レベルより低い第２の信号レベルに利得調整する、収音装置が提供される。

前記収音装置は、前記記録部に指向方向と対応付けて記録される信号閾値を話者の事前発声に基づいて学習する学習部をさらに備え、前記学習部は、前記事前発声に基づいて音声信号が取得された指向方向に対応する信号閾値を、前記事前発声により取得された前記音声信号の信号レベルに基づいて学習してもよい。

前記収音装置は、話者による発声に基づいて前記話者と前記収音装置との距離を検出する位置検出部と、前記発声に基づいて音声信号が取得された指向方向に対応する信号閾値を、前記位置検出部により検出された前記話者と前記収音装置との距離に応じて設定する学習部と、をさらに備えてもよい。

前記学習部は、前記位置検出部により検出された前記話者と前記収音装置との距離が長いほど、信号閾値を小さなレベルに設定してもよい。

前記収音装置は、離隔して配置された複数組のマイクロホンアレイをさらに備え、前記信号取得部は、前記複数組のマイクロホンアレイによる収音信号の各々から指向方向ごとの信号を取得し、前記位置検出部は、前記複数組のマイクロホンアレイによる収音信号の各々から前記発声に基づく音声信号が取得された指向方向、および前記複数組のマイクロホンアレイの配置間隔に基づいて前記話者と前記収音装置との距離を検出してもよい。

また、上記課題を解決するために、本発明の別の観点によれば、指向方向と信号閾値を対応付けて記録するステップと、指向性を形成して指向方向ごとに信号を取得するステップと、取得された信号から音声信号を検出するステップと、検出された取得された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回っているか否かを判断するステップと、前記信号閾値を上回る音声信号を第１の信号レベルに利得調整するステップとを含み、前記信号閾値を下回る音声信号に対しては、利得調整が行われない、または、前記第１の信号レベルより低い第２の信号レベルに利得調整されてもよい。

また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、指向性を形成して指向方向ごとに信号を取得する信号取得部と、指向方向と信号閾値が対応付けて記録される記録部と、前記信号取得部により取得された信号から音声信号を検出する音声検出部と、前記音声検出部により検出された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回っているか否かを判断する判断部と、前記判断部による判断結果に基づき、前記信号閾値を上回る音声信号を第１の信号レベルに利得調整し、前記信号閾値を下回る音声信号の利得調整を行わない、または、前記第１の信号レベルより低い第２の信号レベルに利得調整する利得制御部と、として機能させるためのプログラムが提供される。

以上説明したように本発明によれば、音声の種類に応じた利得制御を行うことが可能である。

本発明の実施形態による遠隔通信システムの構成を示した説明図である。第１の実施形態による遠隔通信装置の構成を示した機能ブロック図である。ビームフォーマーの原理を示した説明図である。マイクロホンの配置を示した説明図である。指向性形成部の具体的な構成を示した説明図である。話者特性記録部への記録内容の具体例を示した説明図である。利得制御部による利得調整の具体例を示した説明図である。利得制御部による利得調整の具体例を示した説明図である。第１の実施形態による遠隔通信装置の動作を示したフローチャートである。第２の実施形態による遠隔通信装置の構成を示した機能ブロック図である。音源位置（ユーザ位置）と、マイクロホンアレイとの位置関係を示した説明図である。第２の実施形態による遠隔通信装置の動作を示したフローチャートである。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成を、必要に応じて遠隔通信装置１０Ａ、および１０Ｂのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、遠隔通信装置１０Ａ、および１０Ｂを特に区別する必要が無い場合には、単に遠隔通信装置１０と称する。

（遠隔通信システム）
まず、図１を参照し、本発明の実施形態による遠隔通信システム１について説明する。図１は、本発明の実施形態による遠隔通信システム１の構成を示した説明図である。図１に示したように、本発明の実施形態による遠隔通信システム１は、遠隔通信装置１０Ａおよび１０Ｂと、通信網１２と、を備える。

遠隔通信装置１０Ａおよび遠隔通信装置１０Ｂは、異なる建物、または異なる部屋などに遠隔して配置されており、通信網１２を介して接続されている。この通信網１２は、通信網１２に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網１２は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、通信網１２は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

遠隔通信装置１０は、収音装置および撮像装置としての機能を有し、収音した音声および撮像した映像を、通信網１２を介して他の遠隔通信装置１０へ送信する。また、遠隔通信装置１０は、通信網１２を介して他の遠隔通信装置１０から音声および映像を受信し、受信した音声をスピーカなどから出力し、映像をディスプレイに表示する。

これにより、遠隔通信装置１０を利用するユーザは、遠隔地に存在するユーザと音声および映像を利用してコミュニケーションをとることが可能となる。具体的には、図１に示した例では、ユーザＡ〜Ｃは、遠隔通信装置１０Ａを利用することにより、遠隔通信装置１０Ｂを利用するユーザＤおよびＥとコミュニケーションをとることができる。

このように、遠隔通信装置１０は、映像および音声の双方を処理することが可能であるが、本実施形態による遠隔通信装置１０においては音声の利得制御が重要なポイントであるため、本明細書においては音声の利得制御に重きをおいて説明する。

（背景の整理）
近日、ユーザが発した音声を収音して、収音した音声を自動的に一定レベルに増幅して伝送するテレビ会議用装置の研究が行われている。ここで、ユーザが発する音声には、他ユーザに明確に伝えようとする発言としての音声と、つぶやき、独り言または近隣ユーザとの雑談および相談などの小音量の音声とが含まれる。発言としての音声の信号レベルが小さい場合には遠隔地のユーザが聞きやすい音量に増幅することが望まれるが、その他の独り言や雑談などの音声も自動利得制御によって増幅することは適切でない。

一方、独り言や雑談などの音声も、遠隔地の場の雰囲気や状況を知るためには有用な情報であるので、音声以外の雑音と同列に不要な情報として除去、あるいは抑圧してしまうことも得策ではない。

そこで、上記の事情を背景にして本実施形態による遠隔通信装置１０を創作するに至った。本実施形態による遠隔通信装置１０によれば、発言としての音声を適切な音量で受聴でき、かつ、その他の音声も抑圧することなく取り出すことが可能である。以下、このような遠隔通信装置１０について詳細に説明する。

（第１の実施形態）
図２は、第１の実施形態による遠隔通信装置１０の構成を示した機能ブロック図である。図２に示したように、遠隔通信装置１０は、マイクロホン１００−１〜１００−ｍからなるマイクロホンアレイ１００と、指向性形成部１０１と、音声検出部１０２と、発言レベル学習部１０３と、話者特性記録部１０４と、発言判定部１０５と、利得制御部１０６と、通信部１０７と、を備える。なお、図２に示した各機能ブロックは、一つの収容体に設けられている必要はなく、異なる収容体に分離して設けられていてもよい。

マイクロホン１００−１〜１００−ｍおよび指向性形成部１０１は、指向性を形成して、指向方向から発せられた音信号を指向方向ごとに取得する信号取得部として機能する。具体的には、マイクロホン１００−１〜１００−ｍおよび指向性形成部１０１は、ビームフォーマーの原理に基づく信号処理を行うことにより指向性を形成する。

なお、指向性の形成方法はかかる例に限定されず、例えば、指向性を有するｉ本のマイクロホンを、円周をｉ等分した各円弧の中心方向に各マイクロホンの指向性が向くように配置することにより指向性を形成してもよい。しかし、この形成方法では、必要方向分のマイクロホンが必要となるなどの制約が多いため、本実施形態においてはビームフォーマーの原理に基づく信号処理を行うことにより指向性を形成することとした。このビームフォーマーの原理によれば、２本以上の異なる位置に配置した無指向性マイクロホンを利用することにより、任意の方向に指向性を形成できる。以下、このようなビームフォーマーの原理と併せて、本実施形態による指向性の形成方法を説明する。

図３は、ビームフォーマーの原理を示した説明図である。図３に示した例では、２本のマイクロホンＭ１およびＭ２が距離Ｌだけ離れて設置されている。この場合、θ方向から到来する音波は、まず音源に近いマイクロホンＭ１に到達した後、距離ｄだけ進んでマイクロホンＭ２に到達する。ここで、距離ｄは、以下の数式１のように表わされる。

したがって、マイクロホンＭ２の受音信号ｘ_２（ｔ）は、以下の数式２に示すように、マイクロホンＭ１の受音信号ｘ_１（ｔ）に対し、音波が距離ｄを進行するのに要した時間τだけ遅れた信号である。

数式２より、遅延部２２がｘ_１（ｔ）に時間τの遅延を与え、加算部２４が以下の数式３に示すように遅延後のｘ_１（ｔ）とｘ_２（ｔ）を加算すれば、同相の信号同士が加算されるので、θ方向からの信号成分が強調される。なお、マイクロホンＭ２の方が音源に近い場合には、上記とは反対にマイクロホンＭ２の受音信号ｘ_２（ｔ）に対して遅延を与える。

このような時間領域での指向性を形成するための信号処理は、周波数領域でも同様に行うことができる。時間軸をτだけ遅延させた信号のフーリエ変換結果は、遅延前の信号をフーリエ変換した結果にｅ^−ｊωτを乗じたものになる。したがって、ｂ（ｔ）、ｘ_１（ｔ）、およびｘ_２（ｔ）の各々のフーリエ変換結果をＢ（ω）、Ｘ_１（ω）、Ｘ_２（ω）とすると、上記数式３は周波数領域上で以下のように表現される。

なお、時間領域でビームフォーマーを形成する場合には、デジタル処理においては遅延時間τをサンプリング周期単位でしか選択できないが、周波数領域では遅延時間τを任意に選択できるため、遅延時間τを変えることで指向方向（強調方向）を任意に定めることが可能である。

以上、図３を参照してビームフォーマーの原理を説明した。続いて、図４および図５を参照し、ビームフォーマーの原理に基づいて周波数領域で指向性を形成するマイクロホン１００−１〜１００−ｍおよび指向性形成部１０１について具体的に説明する。

図４は、マイクロホン１００−１〜１００−ｍの配置を示した説明図である。図４に示したように、マイクロホン１００−１〜１００−ｍは、直線状に等間隔（距離Ｌ間隔）に配置される。このマイクロホン１００−１〜１００−ｍによる受音信号ｘ_１（ｎ）〜ｘ_ｍ（ｎ）は、ＡＤ変換部（図示せず。）によりデジタル信号に変換された後、指向性形成部１０１に入力される。

図４に示した例では、マイクロホン１００−１への音波到達に対し、マイクロホン１００−２、１００−３、・・・、１００−ｍ、への音波到達は、音源方向θに応じ、τ、２τ、・・・、（ｍ−１）τ、遅れる。このため、マイクロホン１００−１、１００−２、・・・による受音信号ｘ_１（ｎ）、ｘ_２（ｎ）・・・に適切な遅延を与えることにより、全ての受音信号が同位相化される。さらに、同位相化された受音信号同士を加算することにより、θ方向から到来する信号のみを強調することができる。なお、マイクロホン１００の数が増えれば、加算される受音信号の数も増えるので、指向方向に対する利得が向上する。本実施形態による指向性形成部１０１は、上記の原理を周波数領域で実現する。

図５は、指向性形成部１０１の具体的な構成を示した説明図である。図５に示したように、指向性形成部１０１は、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）３０１−１〜３０１−ｍと、遅延制御部３０２と、乗算部３０３−１〜３０３−ｍと、加算部３０４と、逆ＦＦＴ３０５と、を備える。

ＦＦＴ３０１−１〜３０１−ｍは、デジタル信号に変換された受音信号ｘ_１（ｎ）〜ｘ_ｍ（ｎ）が入力され、高速フーリエ変換を行うことにより、受音信号ｘ_１（ｎ）〜ｘ_ｍ（ｎ）を周波数領域のスペクトルＸ_１（ω）〜Ｘ_ｍ（ω）に変換する。

スペクトルＸ_１（ω）〜Ｘ_ｍ（ω）は、乗算部３０３−１〜３０３−ｍに供給され、乗算部３０３−１〜３０３−ｍにより遅延係数が乗算される。この遅延係数は、遅延制御部３０２により、形成する指向性の方向に応じて各乗算部３０３−１〜３０３−ｍに与えられる。

具体的には、図４に示したように、Ｌｓｉｎθで表現される距離差ｄによって生じる音波の到達時間差をτとすると、遅延制御部３０２は、乗算部３０３−１〜３０３−ｍに、ｅ^{−ｊω（ｍ−１）τ}、ｅ^{−ｊω（ｍ−２）τ}、・・・ｅ^−ｊωτ、１、を遅延係数として与える。なお、図４における下方向に指向性を形成する場合には、マイクロホン１００−ｍが最も音源に近いので、遅延制御部３０２は、上記とは逆に乗算部３０３−ｍに最も大きな遅延係数を与える。

加算部３０４は、乗算部３０３−１〜３０３−ｍによるスペクトルＸ_１（ω）〜Ｘ_ｍ（ω）と遅延係数の乗算結果を加算し、指向方向ごとの収音信号スペクトルＢ_１（ω）〜Ｂｊ（ω）を取得する。すなわち、本実施形態においてはｊ個の方向からの収音信号を取得することを想定しており、例えば、円周をｊ等分した各円弧の中心方向からの収音信号を取得することができる。

逆ＦＦＴ３０５は、加算部３０４により得られる収音信号スペクトルＢ_１（ω）〜Ｂｊ（ω）を逆フーリエ変換し、時間領域の収音信号ｂ_０〜ｂ_ｊを取得する。これにより、以降の処理は時間領域で行われることとなる。なお、指向性形成部１０１に逆ＦＦＴ３０５を設けず、指向性形成部１０１から収音信号スペクトルＢ_１（ω）〜Ｂｊ（ω）を出力してもよい。この場合には、以降の処理が周波数領域で行われることとなる。

音声検出部１０２は、図２に示したように、指向性形成部１０１により取得された指向方向ごとの収音信号ｂ_１〜ｂ_ｊが入力される。そして、音声検出部１０２は、全ての指向方向に対応する収音信号ｂ_１〜ｂ_ｊに対して音声信号の有無を検出し、検出された音声信号、音声信号の信号レベル（例えば、平均振幅値）、および方向情報を発言判定部１０５に出力する。

なお、音声検出部１０２による音声信号の検出方法は特に限定されない。例えば、音声検出部１０２は、収音信号の信号レベルが一定時間以上にわたって所定レベル以上であった場合に音声入力が始まったと判定し、その後、収音信号の信号レベルが一定時間以上にわたって所定レベルを下回った場合に音声入力が終了した判定してもよい。

発言レベル学習部１０３は、ユーザによる事前発声に基づき、音声信号が発言であるか否かを判定するための発言レベル（信号閾値）を指向方向ごとに学習し、話者特性記録部１０４に方向と発言レベルを対応付けて記録する。

具体的には、会議開始に先立って遠隔通信装置１０を発言レベル登録モードに設定し、各ユーザが順次にマイクロホン１００に向って規定の音声を発声する。ユーザが発声すると、マイクロホン１００および指向性形成部１０１を介して指向方向ごとの収音信号が音声検出部１０２に供給され、音声検出部１０２が収音信号からユーザの音声信号を検出する。そして、音声検出部１０２は、検出した音声信号の信号レベルを、音声信号が検出された指向方向と併せて発言レベル学習部１０３に供給する。

発言レベル学習部１０３は、ユーザごとの音声信号の信号レベルを発声時間で平均し、平均結果に応じた発言レベルを方向と対応付けて話者特性記録部１０４に記録する。

図６は、話者特性記録部１０４への記録内容の具体例を示した説明図である。図６に示したように、ユーザによる事前発声に基づき、各方向と対応付けて発言レベルが記録される。また、ユーザ音声が検出されなかった方向に対しても、「方向３」に示したように所定の初期値が対応付けて記録される。なお、発言レベルは、発言レベル学習部１０３による音声信号の信号レベルの平均結果そのものであってもよいが、マージンを持たせるために、平均結果の７割など平均結果より低い値であってもよい。

発言判定部（判断部）１０５は、会議運用モードにおいて、音声検出部１０２により検出された音声信号、音声信号の信号レベル、および方向情報が供給される。発言判定部１０５は、供給された方向情報の示す方向に対応する発言レベルを話者特性記録部１０４から読み出し、読み出した発言レベルを音声信号の信号レベルが上回るか否かを判定する。ここで、発言レベルに達していると判定された音声信号は発言として扱われ、他の音声は独り言や雑談として扱われる。

利得制御部１０６は、発言判定部１０５による判定結果に基づいて音声信号の利得調整を行う。具体的には、利得制御部１０６は、発言判定部１０５により発言レベルを上回ると判定された音声信号を、信号レベルが発言伝送レベル（第１の信号レベル）になるように利得調整する。

一方、利得制御部１０６は、発言判定部１０５により発言レベルを下回ると判定された音声信号を、発言伝送レベルより低い他音声伝送レベル（第２の信号レベル）に利得調整する。または、利得制御部１０６は、発言判定部１０５により発言レベルを下回ると判定された音声信号は利得調整せず、そのまま出力してもよい。利得制御部１０６によるこのような利得調整の具体例を図７および図８に示す。

図７および図８は、利得制御部１０６による利得調整の具体例を示した説明図である。図７の左図に示したように、「方向１」から検出された音声信号の信号レベルが「発言レベル１」を上回っている場合、利得制御部１０６は、図７の右図に示したように、音声信号の信号レベルを発言伝送レベルに増幅する。

一方、図８の左図に示したように、「方向１」から検出された音声信号の信号レベルが「発言レベル１」を下回っている場合、利得制御部１０６は、図８の右図に示したように、音声信号の信号レベルを発言伝送レベルより低い他音声伝送レベルに増幅する。

上記のように利得調整部１０６により利得調整された音声信号は、通信部１０７により他の遠隔通信装置１０に伝送される。なお、通信部１０７は、他の遠隔通信装置１０から送信された音声信号を受信し、遠隔通信装置１０は、通信部１０７により受信された音声信号を出力するための構成を有する。

以上、第１の実施形態による遠隔通信装置１０の構成を説明した。続いて、図９を参照し、第１の実施形態による遠隔通信装置１０の動作を説明する。

図９は、第１の実施形態による遠隔通信装置１０の動作を示したフローチャートである。図９に示したように、まず、遠隔通信装置１０を発言レベル登録モードに設定し、各ユーザが事前発声を行う（Ｓ４０４）。そして、事前発声に基づく音声信号を音声検出部１０２が検出し、発言レベル学習部１０３が、音声検出部１０２により検出された音声信号の信号レベルに基づいて指向方向ごとの発言レベルを学習する（Ｓ４０８）。

続いて、会議運用モードにおいて、音声検出部１０２により音声信号が検出されると（Ｓ４１２）、発言判定部１０５が、音声検出部１０２により検出された音声信号の信号レベルが、検出方向に対応する発言レベルを上回っているか否かを判定する（Ｓ４１６）。

そして、音声信号の信号レベルが発言レベルを上回っていると判定された場合、利得制御部１０６は、音声信号の信号レベルを発言伝送レベルに利得調整する（Ｓ４２０）。一方、音声信号の信号レベルが発言レベルを下回っていると判定された場合、利得制御部１０６は、音声信号の信号レベルを他音声伝送レベルに利得調整する、または利得調整を行わない（Ｓ４２４）。

続いて、通信部１０７が、利得制御部１０６による利得調整後の音声信号を他の遠隔通信装置１０に伝送する（Ｓ４２８）。その後、Ｓ４１２からの処理が繰り返される。

（第１の実施形態の効果）
以上説明したように、第１の実施形態による遠隔通信装置１０は、複数の指向方向からの収音信号から音声信号を検出する音声検出部１０２、ユーザによる事前発声に基づき指向方向ごとの発言レベルを学習する発言レベル学習部１０３、音声検出部１０２により検出された音声信号が発言レベルを上回るか否かを判定する発言判定部１０５、および、発言レベルを上回る音声信号を発言伝送レベルに増幅し、他の音声信号を発言伝送レベルより低い他音声伝送レベルに利得調整する利得制御部１０６を備える。

したがって、第１の実施形態による遠隔通信装置１０によれば、各ユーザによる発言を、ユーザごとの声の大きさの個人差、またはユーザ位置による影響を受けることなく、受聴ユーザが適切な音量レベルで聴くことが可能である。さらに、第１の実施形態による遠隔通信装置１０によれば、発言以外の小音量の音声が発言と同レベルに増幅されることを防止しつつ、発言より小音量で伝えることが可能である。これにより、例えば独り言や雑談などの音声も除去されずに伝送されるので、受聴ユーザが、独り言や雑談などの音声から遠隔地の場の雰囲気や状況を知ることが可能となる。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。第１の実施形態においては、発言レベルを学習するために、会議開始に先立って遠隔通信装置１０が発言レベル登録モードに設定される例を説明した。一方、第２の実施形態による遠隔通信装置１０’は、発言レベルの学習に際し、特別な動作モードを設けず、会議運用中に逐次学習する。

ここで、会議開始時点では、各ユーザの発言レベルが学習されていないので、初期的な基準値が必要である。しかし、各ユーザの発言レベルは、遠隔通信装置１０’と各ユーザとの位置関係により大きく異なるため、一律の基準値を与えることは最適ではない。

そこで、第２の実施形態においては、各ユーザと遠隔通信装置１０’との距離を検出し、検出した距離に応じた値を発言レベルの初期値として設定することとした。以下、このような機能を実現するための第２の実施形態による遠隔通信装置１０’について具体的に説明する。

図１０は、第２の実施形態による遠隔通信装置１０’の構成を示した機能ブロック図である。図１０に示したように、第２の実施形態による遠隔通信装置１０’は、音声方向検出部６２０および６２１と、音源位置検出部６０７と、発言レベル学習部６０８と、話者特性記録部６０９と、利得制御部６１０と、通信部６１１と、を備える。

また、音声方向検出部６２０は、マイクロホンアレイ６０１、指向性形成部６０３、および音声検出部６０５を備え、音声方向検出部６２１は、マイクロホンアレイ６０２、指向性形成部６０４、および音声検出部６０６を備える。

マイクロホンアレイ６０１およびマイクロホンアレイ６０２は、第１の実施形態と同様に、直線状に配置された複数のマイクロホンで構成されており、既知である距離Ｄを隔てて配置されている。

指向性形成部６０３は、マイクロホンアレイ６０１による受音信号から指向方向ごとの収音信号を取得し、音声検出部６０５は、指向方向ごとの収音信号から音声信号を検出する。指向性形成部６０４も同様に、マイクロホンアレイ６０２による受音信号から指向方向ごとの収音信号を取得し、音声検出部６０６は、指向方向ごとの収音信号から音声信号を検出する。指向性の形成方法および音声信号の検出方法は第１の実施形態で説明したので、詳細な説明を省略する。

音源位置検出部６０７は、音声検出部６０５により音声信号が検出された方向、音声検出部６０６により音声が検出された方向、および、マイクロホンアレイ６０１およびマイクロホンアレイ６０２間の距離Ｄに基づき、音源位置を検出する。以下、図１１を参照して具体的に説明する。

図１１は、音源位置（ユーザ位置）と、マイクロホンアレイ６０１およびマイクロホンアレイ６０２との位置関係を示した説明図である。マイクロホンアレイ６０１から見た音源方向θ１は音声検出部６０５により検出され、マイクロホンアレイ６０２から見た音源方向θ２は音声検出部６０６により検出される。また、マイクロホンアレイ６０１およびマイクロホンアレイ６０２間の距離Ｄは既知である。ここで、音源方向θ１、音源方向θ２、および距離Ｄは、マイクロホンアレイ６０１、マイクロホンアレイ６０２および音源を頂点に有する三角形の２角挟辺に相当する。

したがって、音源位置検出部６０７は、音源方向θ１、音源方向θ２、および距離Ｄに基づき、三角測量の原理に従って音源位置を特定することができる。例えば、音源位置検出部６０７は、所定の数式に音源方向θ１、音源方向θ２、および距離Ｄを代入することにより音源位置を特定してもよい。または、音源方向θ１、音源方向θ２、および音源位置の関係を示す事前に作成されたテーブルに基づいて音源位置を特定してもよい。

さらに、音源位置検出部６０７は、特定した音源位置から、音源位置と遠隔通信装置１０’との距離を算出し、発言レベル学習部６０８に供給する。なお、音源位置と遠隔通信装置１０’との距離は、音源位置とマイクロホンアレイ６０１との距離であってもよい。

発言レベル学習部６０８は、音声検出部６０５により音声信号が検出された方向が初めての方向である場合、すなわち、新規ユーザの方向である場合、当該方向と、音源位置検出部６０７により算出された距離に応じた発言レベルとを対応付けて話者特性記録部６０９に設定する。

具体的には、ユーザと遠隔通信装置１０’との距離が遠いほど、ユーザが同じ音量で発言しても音声信号の遠隔通信装置１０における信号レベルは減衰してしまう。したがって、発言レベル学習部６０８は、音源位置検出部６０７により算出された距離が長いほど、発言レベルを小さなレベルに設定する。より詳細には、音波の信号レベルは進行距離の２乗に反比例するので、発言レベル学習部６０８は、音源位置検出部６０７により算出された距離の２乗に反比例するように発言レベルを設定してもよい。

また、発言レベル学習部６０８は、発言レベルが既設定である方向から音声信号が検出されると、音声信号の信号レベルに応じて発言レベルを逐次更新する。例えば、発言レベル学習部６０８は、音声信号の信号レベルが発言レベルを上回っている場合、音声信号の信号レベルと発言レベルの差分に比例するレベルだけ発言レベルを高めてもよい。

また、本実施形態においては、発言レベル学習部６０８は、発言判定部としての機能を包含する。すなわち、発言レベル学習部６０８は、音声検出部６０５により検出された音声信号の信号レベルが、音声信号の検出方向に対応する発言レベルを上回っているか否かを判定する。

利得制御部６１０は、第１の実施形態の利得制御部１０６と同様に、発言レベル学習部６０８により発言レベルを上回ると判定された音声信号を、信号レベルが発言伝送レベルになるように利得調整する。一方、利得制御部６１０は、発言レベル学習部６０８により発言レベルを下回ると判定された音声信号を、発言伝送レベルより低い他音声伝送レベルに利得調整する。または、利得制御部６１０は、発言レベル学習部６０８により発言レベルを下回ると判定された音声信号は利得調整せず、そのまま出力してもよい。上記のように利得調整部１０６により利得調整された音声信号は、通信部１０７により他の遠隔通信装置１０’に伝送される。

以上、第２の実施形態による遠隔通信装置１０’の構成を説明した。続いて、図１２を参照し、第２の実施形態による遠隔通信装置１０’の動作を説明する。

図１２は、第２の実施形態による遠隔通信装置１０’の動作を示したフローチャートである。図１２に示したように、音声検出部６０５および音声検出部６０６により音声信号が検出されると（Ｓ５０４）、音源位置検出部６０７は、音声検出部６０５および音声検出部６０６により音声信号が検出された方向に基づき、音源位置を検出する（Ｓ５０８）。

また、発言レベル学習部６０８は、音声検出部６０５により音声信号が検出された方向が初めての方向である場合（Ｓ５１２）、音源位置検出部６０７により検出された音源位置と遠隔通信装置１０’との距離に応じて発言レベルを設定する（Ｓ５１６）。

一方、発言レベルが既設定である方向から音声信号が検出された場合、発言レベル学習部６０８は、音声信号の信号レベルが発言レベルを上回るか否かを判定する（Ｓ５２０）。そして、音声信号の信号レベルが発言レベルを上回ると判定された場合、利得制御部６１０は、音声信号の信号レベルを発言伝送レベルに利得調整する（Ｓ５２４）。また、音声信号の信号レベルが発言レベルを下回ると判定された場合、利得制御部６１０は、音声信号の信号レベルを発言伝送レベルより低い他音声伝送レベルに利得調整する（Ｓ５２８）。

続いて、通信部６１１が、利得制御部６１０による利得調整後の音声信号を他の遠隔通信装置１０’に伝送する（Ｓ５３２）。その後、Ｓ５０４からの処理が繰り返される。

（第２の実施形態の効果）
以上説明したように、第２の実施形態によれば、発言レベル学習モードなどの動作モードを遠隔通信装置１０’に設けずに、会議運用中に発言レベルを学習、設定することができる。より詳細には、各ユーザと遠隔通信装置１０’との距離を検出し、検出した距離に応じた値を発言レベルの初期値として設定することが可能である。

なお、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、本明細書の遠隔通信装置１０および１０’の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、遠隔通信装置１０および１０’の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

また、遠隔通信装置１０および１０’に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上述した遠隔通信装置１０および１０’の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。

１０、１０’ 遠隔通信装置
１２通信網
１００、６０１、６０２マイクロホンアレイ
１０１、６０３、６０４指向性形成部
１０２、６０５、６０６音声検出部
１０３、６０８発言レベル学習部
１０４、６０９話者特性記録部
１０５発言判定部
１０６、６１０利得制御部
１０７、６１１通信部
３０１−１、３０１−ｍＦＦＴ
３０２遅延制御部
３０３−１、３０３−ｍ乗算部
３０４加算部
３０５逆ＦＦＴ
６０７音源位置検出部

Claims

指向性を形成して指向方向ごとに信号を取得する信号取得部と；
指向方向と信号閾値が対応付けて記録される記録部と；
前記信号取得部により取得された信号から音声信号を検出する音声検出部と；
前記音声検出部により検出された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回るか否かを判断する判断部と；
前記判断部による判断結果に基づき、前記信号閾値を上回る音声信号を第１の信号レベルに利得調整を行う利得制御部と；
を備え、
前記利得制御部は、前記信号閾値を下回る音声信号の利得調整を行わない、または、前記第１の信号レベルより低い第２の信号レベルに利得調整する、収音装置。
前記収音装置は、
前記記録部に指向方向と対応付けて記録される信号閾値を話者の事前発声に基づいて学習する学習部をさらに備え、
前記学習部は、前記事前発声に基づいて音声信号が取得された指向方向に対応する信号閾値を、前記事前発声により取得された前記音声信号の信号レベルに基づいて学習する、請求項１に記載の収音装置。
前記収音装置は、
話者による発声に基づいて前記話者と前記収音装置との距離を検出する位置検出部と；
前記発声に基づいて音声信号が取得された指向方向に対応する信号閾値を、前記位置検出部により検出された前記話者と前記収音装置との距離に応じて設定する学習部と；
をさらに備える、請求項１に記載の収音装置。
前記学習部は、前記位置検出部により検出された前記話者と前記収音装置との距離が長いほど、信号閾値を小さなレベルに設定する、請求項３に記載の収音装置。
前記収音装置は、
離隔して配置された複数組のマイクロホンアレイをさらに備え、
前記信号取得部は、前記複数組のマイクロホンアレイによる収音信号の各々から指向方向ごとの信号を取得し、
前記位置検出部は、前記複数組のマイクロホンアレイによる収音信号の各々から前記発声に基づく音声信号が取得された指向方向、および前記複数組のマイクロホンアレイの配置間隔に基づいて前記話者と前記収音装置との距離を検出する、請求項３に記載の収音装置。
指向方向と信号閾値を対応付けて記録するステップと；
指向性を形成して指向方向ごとに信号を取得するステップと；
取得された信号から音声信号を検出するステップと；
検出された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回っているか否かを判断するステップと；
前記信号閾値を上回る音声信号を第１の信号レベルに利得調整するステップと；
を含み、
前記信号閾値を下回る音声信号に対しては、利得調整が行われない、または、前記第１の信号レベルより低い第２の信号レベルに利得調整される、利得調整方法。
コンピュータを、
指向性を形成して指向方向ごとに信号を取得する信号取得部と；
指向方向と信号閾値が対応付けて記録される記録部と；
前記信号取得部により取得された信号から音声信号を検出する音声検出部と；
前記音声検出部により検出された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回っているか否かを判断する判断部と；
前記判断部による判断結果に基づき、前記信号閾値を上回る音声信号を第１の信号レベルに利得調整し、前記信号閾値を下回る音声信号の利得調整を行わない、または、前記第１の信号レベルより低い第２の信号レベルに利得調整する利得制御部と；
として機能させるための、プログラム。