JP5246120B2 - 収音装置、利得制御方法、およびプログラム - Google Patents

収音装置、利得制御方法、およびプログラム Download PDF

Info

Publication number
JP5246120B2
JP5246120B2 JP2009224668A JP2009224668A JP5246120B2 JP 5246120 B2 JP5246120 B2 JP 5246120B2 JP 2009224668 A JP2009224668 A JP 2009224668A JP 2009224668 A JP2009224668 A JP 2009224668A JP 5246120 B2 JP5246120 B2 JP 5246120B2
Authority
JP
Japan
Prior art keywords
signal
level
unit
audio
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009224668A
Other languages
English (en)
Other versions
JP2011077649A (ja
Inventor
隆 矢頭
真資 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2009224668A priority Critical patent/JP5246120B2/ja
Publication of JP2011077649A publication Critical patent/JP2011077649A/ja
Application granted granted Critical
Publication of JP5246120B2 publication Critical patent/JP5246120B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本発明は、収音装置、利得制御方法、およびプログラムに関する。
近日、ユーザが遠隔地に存在する他ユーザと会話するための遠隔通信システムの研究が盛んに行われている。この遠隔通信システムでは、ユーザの音声がマイクロホンなどを備える収音装置により収音され、収音装置により収音された音声が遠隔地に存在する他ユーザに送信される。
ここで、マイクロホンが無指向性である場合、ユーザの音声だけでなく、雑音や反響音も収音されるので、ユーザの音声を聞き取り難くなってしまう。この問題に対し、複数のマイクロホンを用いて複数方向に指向性を形成し、複数の指向方向のうちで音声が存在する方向に収音方向を限定する収音装置が提案されている。例えば、特許文献1には、マイクアレイを用いて指向性を形成し、信号レベルが所定レベル以上である指向方向から最大の方向を検出し、検出した方向に指向性の照準を合わせてユーザの音声を収音する方法が開示されている。
また、多地点間におけるテレビ会議や、3人以上のユーザが同時通話可能な電話会議を行う場合、場所ごとにマイクロホンの状態やマイクロホンとユーザとの距離が異なるので、収音により得られる音声信号の信号レベルも場所ごとに異なる。この問題に関し、特許文献2には、音声信号の信号レベルを適用的に制御する自動利得制御方法および自動利得制御装置が開示されている。
さらに、特許文献3には、音源方向を検出する検出手段と、検出された音源方向から発せられた音を収音する収音手段と、指向方向が切り替わる度に出力レベルが一定になるように利得を自動調整する利得調整手段を備える装置が開示されている。
なお、自動利得制御は、一般的に、低いレベルの信号を増幅し、過大なレベルの信号を適切なレベルに制限する制御である。この自動利得制御の適用に関し、特許文献2には、音声でない低いレベルの雑音が増幅されないよう、音声が検出された音声区間に自動利得制御を適用することが開示されている。
特開2003−304589号公報 特開平8−250944号公報 特開平9−140000号公報
ここで、ユーザが発する音声には、他ユーザに明確に伝えようとする発言としての音声と、つぶやき、独り言または近隣ユーザとの雑談などの小音量の音声とが含まれる。発言としての音声の信号レベルが小さい場合には遠隔地のユーザが聞きやすい音量に増幅することが望まれるが、その他の独り言や雑談などの音声も自動利得制御によって増幅することは適切でない。しかし、従来の装置では、発言としての音声だけでなく、他の音声も所定レベルに増幅されてしまうという問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、音声の種類に応じた利得制御を行うことが可能な、新規かつ改良された収音装置、利得制御方法、およびプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、指向性を形成して指向方向ごとに信号を取得する信号取得部と、指向方向と信号閾値が対応付けて記録される記録部と、前記信号取得部により取得された信号から音声信号を検出する音声検出部と、前記音声検出部により検出された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回るか否かを判断する判断部と、前記判断部による判断結果に基づき、前記信号閾値を上回る音声信号を第1の信号レベルに利得調整を行う利得制御部とを備え、前記利得制御部は、前記信号閾値を下回る音声信号の利得調整を行わない、または、前記第1の信号レベルより低い第2の信号レベルに利得調整する、収音装置が提供される。
前記収音装置は、前記記録部に指向方向と対応付けて記録される信号閾値を話者の事前発声に基づいて学習する学習部をさらに備え、前記学習部は、前記事前発声に基づいて音声信号が取得された指向方向に対応する信号閾値を、前記事前発声により取得された前記音声信号の信号レベルに基づいて学習してもよい。
前記収音装置は、話者による発声に基づいて前記話者と前記収音装置との距離を検出する位置検出部と、前記発声に基づいて音声信号が取得された指向方向に対応する信号閾値を、前記位置検出部により検出された前記話者と前記収音装置との距離に応じて設定する学習部と、をさらに備えてもよい。
前記学習部は、前記位置検出部により検出された前記話者と前記収音装置との距離が長いほど、信号閾値を小さなレベルに設定してもよい。
前記収音装置は、離隔して配置された複数組のマイクロホンアレイをさらに備え、前記信号取得部は、前記複数組のマイクロホンアレイによる収音信号の各々から指向方向ごとの信号を取得し、前記位置検出部は、前記複数組のマイクロホンアレイによる収音信号の各々から前記発声に基づく音声信号が取得された指向方向、および前記複数組のマイクロホンアレイの配置間隔に基づいて前記話者と前記収音装置との距離を検出してもよい。
また、上記課題を解決するために、本発明の別の観点によれば、指向方向と信号閾値を対応付けて記録するステップと、指向性を形成して指向方向ごとに信号を取得するステップと、取得された信号から音声信号を検出するステップと、検出された取得された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回っているか否かを判断するステップと、前記信号閾値を上回る音声信号を第1の信号レベルに利得調整するステップとを含み、前記信号閾値を下回る音声信号に対しては、利得調整が行われない、または、前記第1の信号レベルより低い第2の信号レベルに利得調整されてもよい。
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、指向性を形成して指向方向ごとに信号を取得する信号取得部と、指向方向と信号閾値が対応付けて記録される記録部と、前記信号取得部により取得された信号から音声信号を検出する音声検出部と、前記音声検出部により検出された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回っているか否かを判断する判断部と、前記判断部による判断結果に基づき、前記信号閾値を上回る音声信号を第1の信号レベルに利得調整し、前記信号閾値を下回る音声信号の利得調整を行わない、または、前記第1の信号レベルより低い第2の信号レベルに利得調整する利得制御部と、として機能させるためのプログラムが提供される。
以上説明したように本発明によれば、音声の種類に応じた利得制御を行うことが可能である。
本発明の実施形態による遠隔通信システムの構成を示した説明図である。 第1の実施形態による遠隔通信装置の構成を示した機能ブロック図である。 ビームフォーマーの原理を示した説明図である。 マイクロホンの配置を示した説明図である。 指向性形成部の具体的な構成を示した説明図である。 話者特性記録部への記録内容の具体例を示した説明図である。 利得制御部による利得調整の具体例を示した説明図である。 利得制御部による利得調整の具体例を示した説明図である。 第1の実施形態による遠隔通信装置の動作を示したフローチャートである。 第2の実施形態による遠隔通信装置の構成を示した機能ブロック図である。 音源位置(ユーザ位置)と、マイクロホンアレイとの位置関係を示した説明図である。 第2の実施形態による遠隔通信装置の動作を示したフローチャートである。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成を、必要に応じて遠隔通信装置10A、および10Bのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、遠隔通信装置10A、および10Bを特に区別する必要が無い場合には、単に遠隔通信装置10と称する。
(遠隔通信システム)
まず、図1を参照し、本発明の実施形態による遠隔通信システム1について説明する。図1は、本発明の実施形態による遠隔通信システム1の構成を示した説明図である。図1に示したように、本発明の実施形態による遠隔通信システム1は、遠隔通信装置10Aおよび10Bと、通信網12と、を備える。
遠隔通信装置10Aおよび遠隔通信装置10Bは、異なる建物、または異なる部屋などに遠隔して配置されており、通信網12を介して接続されている。この通信網12は、通信網12に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網12は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網12は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
遠隔通信装置10は、収音装置および撮像装置としての機能を有し、収音した音声および撮像した映像を、通信網12を介して他の遠隔通信装置10へ送信する。また、遠隔通信装置10は、通信網12を介して他の遠隔通信装置10から音声および映像を受信し、受信した音声をスピーカなどから出力し、映像をディスプレイに表示する。
これにより、遠隔通信装置10を利用するユーザは、遠隔地に存在するユーザと音声および映像を利用してコミュニケーションをとることが可能となる。具体的には、図1に示した例では、ユーザA〜Cは、遠隔通信装置10Aを利用することにより、遠隔通信装置10Bを利用するユーザDおよびEとコミュニケーションをとることができる。
このように、遠隔通信装置10は、映像および音声の双方を処理することが可能であるが、本実施形態による遠隔通信装置10においては音声の利得制御が重要なポイントであるため、本明細書においては音声の利得制御に重きをおいて説明する。
(背景の整理)
近日、ユーザが発した音声を収音して、収音した音声を自動的に一定レベルに増幅して伝送するテレビ会議用装置の研究が行われている。ここで、ユーザが発する音声には、他ユーザに明確に伝えようとする発言としての音声と、つぶやき、独り言または近隣ユーザとの雑談および相談などの小音量の音声とが含まれる。発言としての音声の信号レベルが小さい場合には遠隔地のユーザが聞きやすい音量に増幅することが望まれるが、その他の独り言や雑談などの音声も自動利得制御によって増幅することは適切でない。
一方、独り言や雑談などの音声も、遠隔地の場の雰囲気や状況を知るためには有用な情報であるので、音声以外の雑音と同列に不要な情報として除去、あるいは抑圧してしまうことも得策ではない。
そこで、上記の事情を背景にして本実施形態による遠隔通信装置10を創作するに至った。本実施形態による遠隔通信装置10によれば、発言としての音声を適切な音量で受聴でき、かつ、その他の音声も抑圧することなく取り出すことが可能である。以下、このような遠隔通信装置10について詳細に説明する。
(第1の実施形態)
図2は、第1の実施形態による遠隔通信装置10の構成を示した機能ブロック図である。図2に示したように、遠隔通信装置10は、マイクロホン100−1〜100−mからなるマイクロホンアレイ100と、指向性形成部101と、音声検出部102と、発言レベル学習部103と、話者特性記録部104と、発言判定部105と、利得制御部106と、通信部107と、を備える。なお、図2に示した各機能ブロックは、一つの収容体に設けられている必要はなく、異なる収容体に分離して設けられていてもよい。
マイクロホン100−1〜100−mおよび指向性形成部101は、指向性を形成して、指向方向から発せられた音信号を指向方向ごとに取得する信号取得部として機能する。具体的には、マイクロホン100−1〜100−mおよび指向性形成部101は、ビームフォーマーの原理に基づく信号処理を行うことにより指向性を形成する。
なお、指向性の形成方法はかかる例に限定されず、例えば、指向性を有するi本のマイクロホンを、円周をi等分した各円弧の中心方向に各マイクロホンの指向性が向くように配置することにより指向性を形成してもよい。しかし、この形成方法では、必要方向分のマイクロホンが必要となるなどの制約が多いため、本実施形態においてはビームフォーマーの原理に基づく信号処理を行うことにより指向性を形成することとした。このビームフォーマーの原理によれば、2本以上の異なる位置に配置した無指向性マイクロホンを利用することにより、任意の方向に指向性を形成できる。以下、このようなビームフォーマーの原理と併せて、本実施形態による指向性の形成方法を説明する。
図3は、ビームフォーマーの原理を示した説明図である。図3に示した例では、2本のマイクロホンM1およびM2が距離Lだけ離れて設置されている。この場合、θ方向から到来する音波は、まず音源に近いマイクロホンM1に到達した後、距離dだけ進んでマイクロホンM2に到達する。ここで、距離dは、以下の数式1のように表わされる。
Figure 0005246120
したがって、マイクロホンM2の受音信号x(t)は、以下の数式2に示すように、マイクロホンM1の受音信号x(t)に対し、音波が距離dを進行するのに要した時間τだけ遅れた信号である。
Figure 0005246120
数式2より、遅延部22がx(t)に時間τの遅延を与え、加算部24が以下の数式3に示すように遅延後のx(t)とx(t)を加算すれば、同相の信号同士が加算されるので、θ方向からの信号成分が強調される。なお、マイクロホンM2の方が音源に近い場合には、上記とは反対にマイクロホンM2の受音信号x(t)に対して遅延を与える。
Figure 0005246120
このような時間領域での指向性を形成するための信号処理は、周波数領域でも同様に行うことができる。時間軸をτだけ遅延させた信号のフーリエ変換結果は、遅延前の信号をフーリエ変換した結果にe−jωτを乗じたものになる。したがって、b(t)、x(t)、およびx(t)の各々のフーリエ変換結果をB(ω)、X(ω)、X(ω)とすると、上記数式3は周波数領域上で以下のように表現される。
Figure 0005246120
なお、時間領域でビームフォーマーを形成する場合には、デジタル処理においては遅延時間τをサンプリング周期単位でしか選択できないが、周波数領域では遅延時間τを任意に選択できるため、遅延時間τを変えることで指向方向(強調方向)を任意に定めることが可能である。
以上、図3を参照してビームフォーマーの原理を説明した。続いて、図4および図5を参照し、ビームフォーマーの原理に基づいて周波数領域で指向性を形成するマイクロホン100−1〜100−mおよび指向性形成部101について具体的に説明する。
図4は、マイクロホン100−1〜100−mの配置を示した説明図である。図4に示したように、マイクロホン100−1〜100−mは、直線状に等間隔(距離L間隔)に配置される。このマイクロホン100−1〜100−mによる受音信号x(n)〜x(n)は、AD変換部(図示せず。)によりデジタル信号に変換された後、指向性形成部101に入力される。
図4に示した例では、マイクロホン100−1への音波到達に対し、マイクロホン100−2、100−3、・・・、100−m、への音波到達は、音源方向θに応じ、τ、2τ、・・・、(m−1)τ、遅れる。このため、マイクロホン100−1、100−2、・・・による受音信号x(n)、x(n)・・・に適切な遅延を与えることにより、全ての受音信号が同位相化される。さらに、同位相化された受音信号同士を加算することにより、θ方向から到来する信号のみを強調することができる。なお、マイクロホン100の数が増えれば、加算される受音信号の数も増えるので、指向方向に対する利得が向上する。本実施形態による指向性形成部101は、上記の原理を周波数領域で実現する。
図5は、指向性形成部101の具体的な構成を示した説明図である。図5に示したように、指向性形成部101は、FFT(Fast Fourier Transform)301−1〜301−mと、遅延制御部302と、乗算部303−1〜303−mと、加算部304と、逆FFT305と、を備える。
FFT301−1〜301−mは、デジタル信号に変換された受音信号x(n)〜x(n)が入力され、高速フーリエ変換を行うことにより、受音信号x(n)〜x(n)を周波数領域のスペクトルX(ω)〜X(ω)に変換する。
スペクトルX(ω)〜X(ω)は、乗算部303−1〜303−mに供給され、乗算部303−1〜303−mにより遅延係数が乗算される。この遅延係数は、遅延制御部302により、形成する指向性の方向に応じて各乗算部303−1〜303−mに与えられる。
具体的には、図4に示したように、Lsinθで表現される距離差dによって生じる音波の到達時間差をτとすると、遅延制御部302は、乗算部303−1〜303−mに、e−jω(m−1)τ、e−jω(m−2)τ、・・・e−jωτ、1、を遅延係数として与える。なお、図4における下方向に指向性を形成する場合には、マイクロホン100−mが最も音源に近いので、遅延制御部302は、上記とは逆に乗算部303−mに最も大きな遅延係数を与える。
加算部304は、乗算部303−1〜303−mによるスペクトルX(ω)〜X(ω)と遅延係数の乗算結果を加算し、指向方向ごとの収音信号スペクトルB(ω)〜Bj(ω)を取得する。すなわち、本実施形態においてはj個の方向からの収音信号を取得することを想定しており、例えば、円周をj等分した各円弧の中心方向からの収音信号を取得することができる。
逆FFT305は、加算部304により得られる収音信号スペクトルB(ω)〜Bj(ω)を逆フーリエ変換し、時間領域の収音信号b〜bを取得する。これにより、以降の処理は時間領域で行われることとなる。なお、指向性形成部101に逆FFT305を設けず、指向性形成部101から収音信号スペクトルB(ω)〜Bj(ω)を出力してもよい。この場合には、以降の処理が周波数領域で行われることとなる。
音声検出部102は、図2に示したように、指向性形成部101により取得された指向方向ごとの収音信号b〜bが入力される。そして、音声検出部102は、全ての指向方向に対応する収音信号b〜bに対して音声信号の有無を検出し、検出された音声信号、音声信号の信号レベル(例えば、平均振幅値)、および方向情報を発言判定部105に出力する。
なお、音声検出部102による音声信号の検出方法は特に限定されない。例えば、音声検出部102は、収音信号の信号レベルが一定時間以上にわたって所定レベル以上であった場合に音声入力が始まったと判定し、その後、収音信号の信号レベルが一定時間以上にわたって所定レベルを下回った場合に音声入力が終了した判定してもよい。
発言レベル学習部103は、ユーザによる事前発声に基づき、音声信号が発言であるか否かを判定するための発言レベル(信号閾値)を指向方向ごとに学習し、話者特性記録部104に方向と発言レベルを対応付けて記録する。
具体的には、会議開始に先立って遠隔通信装置10を発言レベル登録モードに設定し、各ユーザが順次にマイクロホン100に向って規定の音声を発声する。ユーザが発声すると、マイクロホン100および指向性形成部101を介して指向方向ごとの収音信号が音声検出部102に供給され、音声検出部102が収音信号からユーザの音声信号を検出する。そして、音声検出部102は、検出した音声信号の信号レベルを、音声信号が検出された指向方向と併せて発言レベル学習部103に供給する。
発言レベル学習部103は、ユーザごとの音声信号の信号レベルを発声時間で平均し、平均結果に応じた発言レベルを方向と対応付けて話者特性記録部104に記録する。
図6は、話者特性記録部104への記録内容の具体例を示した説明図である。図6に示したように、ユーザによる事前発声に基づき、各方向と対応付けて発言レベルが記録される。また、ユーザ音声が検出されなかった方向に対しても、「方向3」に示したように所定の初期値が対応付けて記録される。なお、発言レベルは、発言レベル学習部103による音声信号の信号レベルの平均結果そのものであってもよいが、マージンを持たせるために、平均結果の7割など平均結果より低い値であってもよい。
発言判定部(判断部)105は、会議運用モードにおいて、音声検出部102により検出された音声信号、音声信号の信号レベル、および方向情報が供給される。発言判定部105は、供給された方向情報の示す方向に対応する発言レベルを話者特性記録部104から読み出し、読み出した発言レベルを音声信号の信号レベルが上回るか否かを判定する。ここで、発言レベルに達していると判定された音声信号は発言として扱われ、他の音声は独り言や雑談として扱われる。
利得制御部106は、発言判定部105による判定結果に基づいて音声信号の利得調整を行う。具体的には、利得制御部106は、発言判定部105により発言レベルを上回ると判定された音声信号を、信号レベルが発言伝送レベル(第1の信号レベル)になるように利得調整する。
一方、利得制御部106は、発言判定部105により発言レベルを下回ると判定された音声信号を、発言伝送レベルより低い他音声伝送レベル(第2の信号レベル)に利得調整する。または、利得制御部106は、発言判定部105により発言レベルを下回ると判定された音声信号は利得調整せず、そのまま出力してもよい。利得制御部106によるこのような利得調整の具体例を図7および図8に示す。
図7および図8は、利得制御部106による利得調整の具体例を示した説明図である。図7の左図に示したように、「方向1」から検出された音声信号の信号レベルが「発言レベル1」を上回っている場合、利得制御部106は、図7の右図に示したように、音声信号の信号レベルを発言伝送レベルに増幅する。
一方、図8の左図に示したように、「方向1」から検出された音声信号の信号レベルが「発言レベル1」を下回っている場合、利得制御部106は、図8の右図に示したように、音声信号の信号レベルを発言伝送レベルより低い他音声伝送レベルに増幅する。
上記のように利得調整部106により利得調整された音声信号は、通信部107により他の遠隔通信装置10に伝送される。なお、通信部107は、他の遠隔通信装置10から送信された音声信号を受信し、遠隔通信装置10は、通信部107により受信された音声信号を出力するための構成を有する。
以上、第1の実施形態による遠隔通信装置10の構成を説明した。続いて、図9を参照し、第1の実施形態による遠隔通信装置10の動作を説明する。
図9は、第1の実施形態による遠隔通信装置10の動作を示したフローチャートである。図9に示したように、まず、遠隔通信装置10を発言レベル登録モードに設定し、各ユーザが事前発声を行う(S404)。そして、事前発声に基づく音声信号を音声検出部102が検出し、発言レベル学習部103が、音声検出部102により検出された音声信号の信号レベルに基づいて指向方向ごとの発言レベルを学習する(S408)。
続いて、会議運用モードにおいて、音声検出部102により音声信号が検出されると(S412)、発言判定部105が、音声検出部102により検出された音声信号の信号レベルが、検出方向に対応する発言レベルを上回っているか否かを判定する(S416)。
そして、音声信号の信号レベルが発言レベルを上回っていると判定された場合、利得制御部106は、音声信号の信号レベルを発言伝送レベルに利得調整する(S420)。一方、音声信号の信号レベルが発言レベルを下回っていると判定された場合、利得制御部106は、音声信号の信号レベルを他音声伝送レベルに利得調整する、または利得調整を行わない(S424)。
続いて、通信部107が、利得制御部106による利得調整後の音声信号を他の遠隔通信装置10に伝送する(S428)。その後、S412からの処理が繰り返される。
(第1の実施形態の効果)
以上説明したように、第1の実施形態による遠隔通信装置10は、複数の指向方向からの収音信号から音声信号を検出する音声検出部102、ユーザによる事前発声に基づき指向方向ごとの発言レベルを学習する発言レベル学習部103、音声検出部102により検出された音声信号が発言レベルを上回るか否かを判定する発言判定部105、および、発言レベルを上回る音声信号を発言伝送レベルに増幅し、他の音声信号を発言伝送レベルより低い他音声伝送レベルに利得調整する利得制御部106を備える。
したがって、第1の実施形態による遠隔通信装置10によれば、各ユーザによる発言を、ユーザごとの声の大きさの個人差、またはユーザ位置による影響を受けることなく、受聴ユーザが適切な音量レベルで聴くことが可能である。さらに、第1の実施形態による遠隔通信装置10によれば、発言以外の小音量の音声が発言と同レベルに増幅されることを防止しつつ、発言より小音量で伝えることが可能である。これにより、例えば独り言や雑談などの音声も除去されずに伝送されるので、受聴ユーザが、独り言や雑談などの音声から遠隔地の場の雰囲気や状況を知ることが可能となる。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。第1の実施形態においては、発言レベルを学習するために、会議開始に先立って遠隔通信装置10が発言レベル登録モードに設定される例を説明した。一方、第2の実施形態による遠隔通信装置10’は、発言レベルの学習に際し、特別な動作モードを設けず、会議運用中に逐次学習する。
ここで、会議開始時点では、各ユーザの発言レベルが学習されていないので、初期的な基準値が必要である。しかし、各ユーザの発言レベルは、遠隔通信装置10’と各ユーザとの位置関係により大きく異なるため、一律の基準値を与えることは最適ではない。
そこで、第2の実施形態においては、各ユーザと遠隔通信装置10’との距離を検出し、検出した距離に応じた値を発言レベルの初期値として設定することとした。以下、このような機能を実現するための第2の実施形態による遠隔通信装置10’について具体的に説明する。
図10は、第2の実施形態による遠隔通信装置10’の構成を示した機能ブロック図である。図10に示したように、第2の実施形態による遠隔通信装置10’は、音声方向検出部620および621と、音源位置検出部607と、発言レベル学習部608と、話者特性記録部609と、利得制御部610と、通信部611と、を備える。
また、音声方向検出部620は、マイクロホンアレイ601、指向性形成部603、および音声検出部605を備え、音声方向検出部621は、マイクロホンアレイ602、指向性形成部604、および音声検出部606を備える。
マイクロホンアレイ601およびマイクロホンアレイ602は、第1の実施形態と同様に、直線状に配置された複数のマイクロホンで構成されており、既知である距離Dを隔てて配置されている。
指向性形成部603は、マイクロホンアレイ601による受音信号から指向方向ごとの収音信号を取得し、音声検出部605は、指向方向ごとの収音信号から音声信号を検出する。指向性形成部604も同様に、マイクロホンアレイ602による受音信号から指向方向ごとの収音信号を取得し、音声検出部606は、指向方向ごとの収音信号から音声信号を検出する。指向性の形成方法および音声信号の検出方法は第1の実施形態で説明したので、詳細な説明を省略する。
音源位置検出部607は、音声検出部605により音声信号が検出された方向、音声検出部606により音声が検出された方向、および、マイクロホンアレイ601およびマイクロホンアレイ602間の距離Dに基づき、音源位置を検出する。以下、図11を参照して具体的に説明する。
図11は、音源位置(ユーザ位置)と、マイクロホンアレイ601およびマイクロホンアレイ602との位置関係を示した説明図である。マイクロホンアレイ601から見た音源方向θ1は音声検出部605により検出され、マイクロホンアレイ602から見た音源方向θ2は音声検出部606により検出される。また、マイクロホンアレイ601およびマイクロホンアレイ602間の距離Dは既知である。ここで、音源方向θ1、音源方向θ2、および距離Dは、マイクロホンアレイ601、マイクロホンアレイ602および音源を頂点に有する三角形の2角挟辺に相当する。
したがって、音源位置検出部607は、音源方向θ1、音源方向θ2、および距離Dに基づき、三角測量の原理に従って音源位置を特定することができる。例えば、音源位置検出部607は、所定の数式に音源方向θ1、音源方向θ2、および距離Dを代入することにより音源位置を特定してもよい。または、音源方向θ1、音源方向θ2、および音源位置の関係を示す事前に作成されたテーブルに基づいて音源位置を特定してもよい。
さらに、音源位置検出部607は、特定した音源位置から、音源位置と遠隔通信装置10’との距離を算出し、発言レベル学習部608に供給する。なお、音源位置と遠隔通信装置10’との距離は、音源位置とマイクロホンアレイ601との距離であってもよい。
発言レベル学習部608は、音声検出部605により音声信号が検出された方向が初めての方向である場合、すなわち、新規ユーザの方向である場合、当該方向と、音源位置検出部607により算出された距離に応じた発言レベルとを対応付けて話者特性記録部609に設定する。
具体的には、ユーザと遠隔通信装置10’との距離が遠いほど、ユーザが同じ音量で発言しても音声信号の遠隔通信装置10における信号レベルは減衰してしまう。したがって、発言レベル学習部608は、音源位置検出部607により算出された距離が長いほど、発言レベルを小さなレベルに設定する。より詳細には、音波の信号レベルは進行距離の2乗に反比例するので、発言レベル学習部608は、音源位置検出部607により算出された距離の2乗に反比例するように発言レベルを設定してもよい。
また、発言レベル学習部608は、発言レベルが既設定である方向から音声信号が検出されると、音声信号の信号レベルに応じて発言レベルを逐次更新する。例えば、発言レベル学習部608は、音声信号の信号レベルが発言レベルを上回っている場合、音声信号の信号レベルと発言レベルの差分に比例するレベルだけ発言レベルを高めてもよい。
また、本実施形態においては、発言レベル学習部608は、発言判定部としての機能を包含する。すなわち、発言レベル学習部608は、音声検出部605により検出された音声信号の信号レベルが、音声信号の検出方向に対応する発言レベルを上回っているか否かを判定する。
利得制御部610は、第1の実施形態の利得制御部106と同様に、発言レベル学習部608により発言レベルを上回ると判定された音声信号を、信号レベルが発言伝送レベルになるように利得調整する。一方、利得制御部610は、発言レベル学習部608により発言レベルを下回ると判定された音声信号を、発言伝送レベルより低い他音声伝送レベルに利得調整する。または、利得制御部610は、発言レベル学習部608により発言レベルを下回ると判定された音声信号は利得調整せず、そのまま出力してもよい。上記のように利得調整部106により利得調整された音声信号は、通信部107により他の遠隔通信装置10’に伝送される。
以上、第2の実施形態による遠隔通信装置10’の構成を説明した。続いて、図12を参照し、第2の実施形態による遠隔通信装置10’の動作を説明する。
図12は、第2の実施形態による遠隔通信装置10’の動作を示したフローチャートである。図12に示したように、音声検出部605および音声検出部606により音声信号が検出されると(S504)、音源位置検出部607は、音声検出部605および音声検出部606により音声信号が検出された方向に基づき、音源位置を検出する(S508)。
また、発言レベル学習部608は、音声検出部605により音声信号が検出された方向が初めての方向である場合(S512)、音源位置検出部607により検出された音源位置と遠隔通信装置10’との距離に応じて発言レベルを設定する(S516)。
一方、発言レベルが既設定である方向から音声信号が検出された場合、発言レベル学習部608は、音声信号の信号レベルが発言レベルを上回るか否かを判定する(S520)。そして、音声信号の信号レベルが発言レベルを上回ると判定された場合、利得制御部610は、音声信号の信号レベルを発言伝送レベルに利得調整する(S524)。また、音声信号の信号レベルが発言レベルを下回ると判定された場合、利得制御部610は、音声信号の信号レベルを発言伝送レベルより低い他音声伝送レベルに利得調整する(S528)。
続いて、通信部611が、利得制御部610による利得調整後の音声信号を他の遠隔通信装置10’に伝送する(S532)。その後、S504からの処理が繰り返される。
(第2の実施形態の効果)
以上説明したように、第2の実施形態によれば、発言レベル学習モードなどの動作モードを遠隔通信装置10’に設けずに、会議運用中に発言レベルを学習、設定することができる。より詳細には、各ユーザと遠隔通信装置10’との距離を検出し、検出した距離に応じた値を発言レベルの初期値として設定することが可能である。
なお、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
例えば、本明細書の遠隔通信装置10および10’の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、遠隔通信装置10および10’の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
また、遠隔通信装置10および10’に内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述した遠隔通信装置10および10’の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
10、10’ 遠隔通信装置
12 通信網
100、601、602 マイクロホンアレイ
101、603、604 指向性形成部
102、605、606 音声検出部
103、608 発言レベル学習部
104、609 話者特性記録部
105 発言判定部
106、610 利得制御部
107、611 通信部
301−1、301−m FFT
302 遅延制御部
303−1、303−m 乗算部
304 加算部
305 逆FFT
607 音源位置検出部

Claims (7)

  1. 指向性を形成して指向方向ごとに信号を取得する信号取得部と;
    指向方向と信号閾値が対応付けて記録される記録部と;
    前記信号取得部により取得された信号から音声信号を検出する音声検出部と;
    前記音声検出部により検出された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回るか否かを判断する判断部と;
    前記判断部による判断結果に基づき、前記信号閾値を上回る音声信号を第1の信号レベルに利得調整を行う利得制御部と;
    を備え、
    前記利得制御部は、前記信号閾値を下回る音声信号の利得調整を行わない、または、前記第1の信号レベルより低い第2の信号レベルに利得調整する、収音装置。
  2. 前記収音装置は、
    前記記録部に指向方向と対応付けて記録される信号閾値を話者の事前発声に基づいて学習する学習部をさらに備え、
    前記学習部は、前記事前発声に基づいて音声信号が取得された指向方向に対応する信号閾値を、前記事前発声により取得された前記音声信号の信号レベルに基づいて学習する、請求項1に記載の収音装置。
  3. 前記収音装置は、
    話者による発声に基づいて前記話者と前記収音装置との距離を検出する位置検出部と;
    前記発声に基づいて音声信号が取得された指向方向に対応する信号閾値を、前記位置検出部により検出された前記話者と前記収音装置との距離に応じて設定する学習部と;
    をさらに備える、請求項1に記載の収音装置。
  4. 前記学習部は、前記位置検出部により検出された前記話者と前記収音装置との距離が長いほど、信号閾値を小さなレベルに設定する、請求項3に記載の収音装置。
  5. 前記収音装置は、
    離隔して配置された複数組のマイクロホンアレイをさらに備え、
    前記信号取得部は、前記複数組のマイクロホンアレイによる収音信号の各々から指向方向ごとの信号を取得し、
    前記位置検出部は、前記複数組のマイクロホンアレイによる収音信号の各々から前記発声に基づく音声信号が取得された指向方向、および前記複数組のマイクロホンアレイの配置間隔に基づいて前記話者と前記収音装置との距離を検出する、請求項3に記載の収音装置。
  6. 指向方向と信号閾値を対応付けて記録するステップと;
    指向性を形成して指向方向ごとに信号を取得するステップと;
    取得された信号から音声信号を検出するステップと;
    検出された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回っているか否かを判断するステップと;
    前記信号閾値を上回る音声信号を第1の信号レベルに利得調整するステップと;
    を含み、
    前記信号閾値を下回る音声信号に対しては、利得調整が行われない、または、前記第1の信号レベルより低い第2の信号レベルに利得調整される、利得調整方法。
  7. コンピュータを、
    指向性を形成して指向方向ごとに信号を取得する信号取得部と;
    指向方向と信号閾値が対応付けて記録される記録部と;
    前記信号取得部により取得された信号から音声信号を検出する音声検出部と;
    前記音声検出部により検出された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回っているか否かを判断する判断部と;
    前記判断部による判断結果に基づき、前記信号閾値を上回る音声信号を第1の信号レベルに利得調整し、前記信号閾値を下回る音声信号の利得調整を行わない、または、前記第1の信号レベルより低い第2の信号レベルに利得調整する利得制御部と;
    として機能させるための、プログラム。


JP2009224668A 2009-09-29 2009-09-29 収音装置、利得制御方法、およびプログラム Expired - Fee Related JP5246120B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009224668A JP5246120B2 (ja) 2009-09-29 2009-09-29 収音装置、利得制御方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009224668A JP5246120B2 (ja) 2009-09-29 2009-09-29 収音装置、利得制御方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2011077649A JP2011077649A (ja) 2011-04-14
JP5246120B2 true JP5246120B2 (ja) 2013-07-24

Family

ID=44021203

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009224668A Expired - Fee Related JP5246120B2 (ja) 2009-09-29 2009-09-29 収音装置、利得制御方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5246120B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6056544B2 (ja) * 2013-02-26 2017-01-11 富士ゼロックス株式会社 音声解析装置、信号解析装置、音声解析システムおよびプログラム
JP5929810B2 (ja) * 2013-03-27 2016-06-08 富士ゼロックス株式会社 音声解析システム、音声端末装置およびプログラム
JP5737342B2 (ja) * 2013-07-22 2015-06-17 沖電気工業株式会社 収音装置及びプログラム
JP5988461B2 (ja) * 2014-07-30 2016-09-07 株式会社タムラ製作所 自動音声調整装置
CN106205628B (zh) 2015-05-06 2018-11-02 小米科技有限责任公司 声音信号优化方法及装置
JP2017108240A (ja) * 2015-12-08 2017-06-15 シャープ株式会社 情報処理装置、及び情報処理方法
JP6701573B2 (ja) 2016-08-03 2020-05-27 株式会社リコー 音声処理装置、音声映像出力装置、及び遠隔会議システム
CN112151058B (zh) * 2019-06-28 2023-09-15 大众问问(北京)信息科技有限公司 一种声音信号的处理方法、装置及设备
CN112669878B (zh) * 2020-12-23 2024-04-19 北京声智科技有限公司 声音增益值的计算方法、装置和电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05241588A (ja) * 1992-03-02 1993-09-21 Fujitsu Ltd 閾値決定方法
JP5070960B2 (ja) * 2007-07-06 2012-11-14 ヤマハ株式会社 収音装置

Also Published As

Publication number Publication date
JP2011077649A (ja) 2011-04-14

Similar Documents

Publication Publication Date Title
JP5246120B2 (ja) 収音装置、利得制御方法、およびプログラム
US10553235B2 (en) Transparent near-end user control over far-end speech enhancement processing
US10149049B2 (en) Processing speech from distributed microphones
AU2016201028B2 (en) Signal enhancement using wireless streaming
DK2916321T3 (en) Processing a noisy audio signal to estimate target and noise spectral variations
US20120163624A1 (en) Directional sound source filtering apparatus using microphone array and control method thereof
CN108235181B (zh) 在音频处理装置中降噪的方法
EP2835986B1 (en) Hearing device with input transducer and wireless receiver
US20120303363A1 (en) Processing Audio Signals
EP2732638B1 (en) Speech enhancement system and method
EP2715725A2 (en) Processing audio signals
WO2016034454A1 (en) Method and apparatus for enhancing sound sources
CN110875056B (zh) 语音转录设备、系统、方法、及电子设备
JP2001309483A (ja) 収音方法および収音装置
US10529358B2 (en) Method and system for reducing background sounds in a noisy environment
US10602276B1 (en) Intelligent personal assistant
JPH1118192A (ja) 収音方法およびその装置
JPH1118193A (ja) 受話状態検出方法およびその装置
JP2007329753A (ja) 音声通信装置および音声通信システム
JP2008294599A (ja) 放収音装置、および放収音システム
US10419851B2 (en) Retaining binaural cues when mixing microphone signals
JP2019537071A (ja) 分散したマイクロホンからの音声の処理
JP2009302983A (ja) 音声処理装置および音声処理方法
JP2008294600A (ja) 放収音装置、および放収音システム
JP5022459B2 (ja) 収音装置、収音方法及び収音プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130325

R150 Certificate of patent or registration of utility model

Ref document number: 5246120

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees