JP2012094945A - 音声通信システム、及び、音声通信装置 - Google Patents

音声通信システム、及び、音声通信装置 Download PDF

Info

Publication number
JP2012094945A
JP2012094945A JP2010238103A JP2010238103A JP2012094945A JP 2012094945 A JP2012094945 A JP 2012094945A JP 2010238103 A JP2010238103 A JP 2010238103A JP 2010238103 A JP2010238103 A JP 2010238103A JP 2012094945 A JP2012094945 A JP 2012094945A
Authority
JP
Japan
Prior art keywords
unit
audio signal
voice
voice communication
communication device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010238103A
Other languages
English (en)
Inventor
Yusuke Fujita
雄介 藤田
Kenji Nagamatsu
健司 永松
Masato Togami
真人 戸上
Yohei Kawaguchi
洋平 川口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010238103A priority Critical patent/JP2012094945A/ja
Publication of JP2012094945A publication Critical patent/JP2012094945A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 遠隔会議システム等における音声通信装置において、話し手が、聞き手の受聴環境を理解し、話し手の音声が聞き手にどのように聞こえているかを認識することは困難であった。
【解決手段】 聞き手側の音声通信装置で環境音響特性を計測し、その環境音響特性の情報を話し手側の音声通信装置に送信し、話し手側の音声通信装置では、受信した環境音響特性の情報を利用して、マイク等の音声入力装置から入力された音声信号を変換し、話し手側の出力装置から音声出力を行う。
【選択図】 図1

Description

本発明は、音声通信装置に関する。
本技術の背景技術として、遠隔会議システムがある。
遠隔会議システムにおいて、マイク入力部から収集された音声は、エコーキャンセラまたは雑音除去処理が実行された後、符号化処理や変調処理を施されて、遠隔拠点に送信される。そして、遠隔拠点で受信された音声は、受信側で、復号処理や復調処理を施された後、音量や音質の変換処理が実行されて、スピーカから出力される。このとき、話し手は、自分の音声を、骨伝導や話し手の周りの空間の伝達特性を通して聞いている。しかし、聞き手側で、どのような変換を施されているかを、話し手側に認識させることは、容易ではない。
例えば、視覚的に認識させる方法として、特開2006−67240号公報(特許文献1)がある。この公報には、「通話者の発声をマイクより検出した音量を通話者本人に認識できるようにし、通話者が自分の話し声が相手側にとって充分聞き取れる音量であるか否かを判断できるようにする」とある。
また、例えば、聴覚的に認識させる方法として、特開平11−331320号公報(特許文献2)がある。この公報には、「話速変換機能を用いて、話し手側と、聞き手側との間で、会話を開始するとき、会話を開始する前に、聞き手側が話速変換された音声を聞くことを話し手側に知らせ、これによって聞き手側の応答タイミングが遅れることを認識させ、応答遅れに起因する違和感を解消させるとともに、話し手側に発声タイミングを調整させて、会話時の違和感を無くす」とある。
特開2006−67240号公報 特開平11−331320号公報
しかし、特許文献1に開示される技術では、話し手のマイク入力部の情報のみを情報源として想定しており、聞き手の受聴環境が想定されていない。また、表示によって視覚的に音量を認識できるようにするに留まっており、音声が聞き手の環境によって劣化する情報を詳しく理解することはできない。
また、特許文献2に開示される技術では、聞き手側が聞いている音声を話し手側に送り返す構成を備えるが、話速変換により伸長された時間の効果を認識できるようにするに留まっている。なぜなら、聞き手側が聞いている音声を話し手側に送り返す構成は、伝送遅延を生じるため、そのまま返すと、遅延聴覚フィードバックと呼ばれる現象により、発話の継続が困難になるためである。そこで、音量を低減したり、低域成分を抽出したりする方法が提案されているが、これらの方法は、聞き手の受聴環境(例えば、残響の効果やスピーカの周波数特性)の多くを失わせる結果となる。
そこで、本発明は、聞き手の受聴環境において自身の音声がどのように届いているかを、伝送遅延を引き起こさずに、聴覚的に理解することができる音声通信装置を提供する。
上述した課題を解決するために、本発明の音声通信システムの一例では、音声信号が入力される音声信号入力部と音声信号を出力する音声信号出力部とを各々有する第1の音声通信装置と第2の音声通信装置とからなる音声通信システムであって、前記第1の音声通信装置は、前記第2の音声通信装置から音声信号を受信する音声信号受信部と、所定の空間における環境音響特性を測定する測定部と、前記測定部により測定された前記環境音響特性に関する情報を前記第2の音声通信装置に送信する特性情報送信部と、を有し、前記第2の音声通信装置は、音声信号を前記第1の音声通信装置に送信する音声信号送信部と、前記第2の音声通信装置から前記環境音響特性に関する情報を受信する特性情報受信部と、前記環境音響特性に関する情報に基づいて前記第2の音声通信装置の音声信号入力部に入力された音声信号を変換する音声信号変換部と、を有し、前記音声信号変換部により変換された音声信号を前記第2の音声信号装置の音声信号出力部に出力すること、を特徴とする。
また、聞き手側の音声通信装置の一例では、音声信号が入力される音声信号入力部と、音声信号を出力する音声信号出力部と、他の音声通信装置から前記音声出力部に出力する音声信号を受信する音声信号受信部と、所定の空間における環境音響特性を測定する測定部と、前記測定部により測定された前記環境音響特性に関する情報を前記他の音声通信装置に送信する特性情報送信部と、を有することを特徴とする。
また、話し手側の音声通信装置の一例では、音声信号が入力される音声信号入力部と、
音声信号を出力する音声信号出力部と、前記音声入力部に入力された音声信号を他の音声通信装置に送信する音声信号送信部と、所定の空間における環境音響特性に関する情報を前記他の音声通信装置から受信する特性情報受信部と、該特性情報受信部により受信した前記環境音響特性に関する情報に基づいて、前記音声信号入力部に入力された音声信号を変換する音声信号変換部と、を有し、前記音声信号出力部は、前記音声信号変換部により変換された音声信号を出力すること、を特徴とする。
本発明によれば、話し手は、聞き手の受聴環境において自身の音声がどのように届いているかを聴覚から理解することができる。
上記以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
第1実施形態のシステムの構成を示す図である。 第1実施形態のシステムのハードウェア構成を示す図である。 第1実施形態の聞き手側装置の構成を示す図である。 第1実施形態の聞き手側装置のハードウェア構成を示す図である。 第1実施形態の話し手側装置の構成を示す図である。 第1実施形態の話し手側装置のハードウェア構成を示す図である。 第1実施形態の聞き手側処理のフローチャートを示す図である。 第1実施形態の話し手側処理のフローチャートを示す図である。 第1実施形態の音声通信装置の構成を示す図である。 第1実施形態の音声通信装置のハードウェア構成を示す図である。 第2実施形態の音声通信装置の構成を示す図である。 第2実施形態の音声通信装置のハードウェア構成を示す図である。 第2実施形態の聞き手側処理のフローチャートを示す図である。 第2実施形態の話し手側処理のフローチャートを示す図である。 第3実施形態の音声通信装置の構成を示す図である。 第3実施形態の音声通信装置のハードウェア構成を示す図である。 第3実施形態の聞き手側処理のフローチャートを示す図である。 第3実施形態における空間伝達特性選択部を受信側の装置に配するシステムの構成を示す図である。 第3実施形態における空間伝達特性選択部を受信側の装置に配するシステムのハードウェア構成を示す図である。 第3実施形態における空間伝達特性選択部を受信側の装置に配する構成における話し手側処理のフローチャートを示す図である。 第3実施形態における音声履歴に基づく空間伝達特性選択を行う構成を示す図である。 第3実施形態における音声履歴に基づく空間伝達特性選択を行うハードウェア構成を示す図である。 第4実施形態の音声通信装置の構成を示す図である。 第4実施形態の音声通信装置のハードウェア構成を示す図である。
本発明では、聞き手側における受聴環境を計測し、聞き手側の装置がその受聴環境に関する情報を話し手側の装置に送信し、話し手側では、受信した受聴環境に関する情報を利用して、音声入力部から入力された音声を変換し、音声出力部から音声を出力する。
ここで、受聴環境とは、聞き手側装置で計測される環境音響特性、のことである。環境音響特性の一例として、空間伝達特性(空間伝達関数)がある。空間伝達特性とは、スピーカから出力される音声x(t)が空間を伝わってマイクの位置においてy(t)となるときに、y(t)とx(t)の間に成り立つ関係をいう。普通は、経路によって異なる時間遅れと減衰との重ね合わせなので、線形フィルタとして表現できる。詳細については後述する。また、環境音響特性の他の例として、環境騒音特性がある。環境騒音特性とは、マイクに入る音声の中で、目的音(スピーカから出力される音声x(t))に由来しない成分に関する特性であり、詳細については後述する。
本実施例では、環境音響特性の一例として、空間伝達特性を送受信することによって、聞き手の環境音響特性を理解することを可能とする遠隔会議システムの例を説明する。
図1は、本実施例の遠隔会議システムの構成図の例である。
遠隔会議システムは、ネットワーク装置101と複数の音声通信装置102を有する。音声通信装置102は、音声入力部103、音声出力部104、通信処理部105、話し手側処理部106、聞き手側処理部107、を有する。
図2は、本実施例の遠隔会議システムのハードウェア構成図である。音声通信装置102は、マイク201とスピーカ202からなる音声入出力装置及び通信装置203を備え、電話回線やLANなどのネットワーク装置101を通じて、別の音声通信装置と接続される。話し手側処理と聞き手側処理を実行するプログラムをメモリ204内に備え、CPU205などの演算装置がプログラムを実行する。例えば、パーソナルコンピュータを用いて構成することができる。また、携帯電話、TV会議専用システムなどで構成してもよい。
ここで、聞き手側処理および話し手側処理は、それぞれ分離した装置として構成することもできる。
図3は、本実施例の聞き手側装置の構成図である。また、図4は、聞き手側装置のハードウェア構成図である。聞き手側装置300は、音声入力部103、音声出力部104、通信処理部105、空間伝達特性測定部301、音声混合部302、を有する。音声入力部103は、装置近傍にある音声の入力を受けつける。例えば、装置内にマイクロフォンを設置する方法、卓上据置型のマイクロフォンを接続する方法、利用者が装着する接話マイクロフォンを接続する方法などが考えられる。音声出力部104は、音声混合部302から得られる音声を装置外部へ出力する。例えば、遠隔会装置内にスピーカを設置する方法、卓上据置型のスピーカを接続する方法、利用者が装着するヘッドフォンやイヤホンを接続する方法などが考えられる。通信処理部105は、遠隔地に設置される音声通信装置102と通信を行い、外部の音声通信装置から送信される音声の受信と、空間伝達特性測定部301(空間伝達特性測定処理401を実行するプログラム)から得られる空間伝達特性の送信を行う。
空間伝達特性測定部301(空間伝達特性測定処理401)は、音声入力部103から得られる音声と音声混合部302から得られる音声に基づいて、空間伝達特性を計算する。音声混合部302は、通信処理から得られる受信音声を音声出力部104へ出力する。
図5は、本実施例の話し手側装置の構成図である。また、図6は、話し手側装置のハードウェア構成図である。話し手側装置500は、音声入力部103、音声出力部104、通信処理部105、音声変換部501、音声混合部302、を有する。
音声入力部103、音声出力部104の機能は、聞き手側装置と同様である。通信処理部105は、遠隔地に設置される音声通信装置102と通信を行い、音声入力部103から得られる音声を送信し、外部の音声通信装置102から送信される空間伝達特性を受信する。音声変換部501(音声変換処理601を実行するプログラム)は、音声入力部103から得られる音声を、通信処理部105から得られる空間伝達特性に基づいて変換する。音声混合部302は、音声変換部501から得られる音声を音声出力部104へ出力する。
次に、上記のように構成される、この発明の実施例1に係る遠隔会議システムの動作を説明する。本実施例の遠隔会議システムの動作は、聞き手側処理と話し手側処理とに分けられる。まず、本実施例の遠隔会議システムの聞き手側処理について説明する。
図7は、本実施例の遠隔会議システムの聞き手側処理を説明するフローチャートの例である。
まず、音声入力部103は、装置近傍の音声を受け付ける(ステップS701)。同時に、通信処理部105は、外部の音声通信装置102から送信された音声を受信する(ステップS702)。ここで、受信された音声が、例えば音声符号化されたディジタル信号であれば、誤り訂正符号復号処理や、音声復号処理が行われる。また、例えばアナログ信号であれば、復調処理が行われ、A/D変換処理が行われる。受信音声は、音声混合部302を介して出力音声となり、音声出力部104から出力される。
次に、空間伝達特性測定部301は、入力音声と出力音声から空間伝達特性を測定する(ステップS703)。ここで、空間伝達特性を求める方法として、音響エコーキャンセラがある。例えば、文献「F.K. Soong, A.M. Peterson:``Fast least-squares (LS) in the voice echo cancellation application," Proc. ICASSP, pp.1398-1403, 1982.」に記載の方法を使用することができる。
ここで、音響エコーキャンセラーの具体的な処理を示す。入力音声は、ディジタル音圧データ列{x(t)}と表す。なお、tは時刻を表すインデックスである。また、空間伝達特性をFIR型ディジタルフィルタの係数列として{b(k)}と表す。なお、kは0からNであり、Nはフィルタ次数である。入力音声信号{x(t)}と出力音声信号{y(t)}に対して、擬似エコー信号{p(t)}は、入力音声信号に空間伝達特性フィルタ{b(k)}を掛けて、
(数1)
p(t)=Σ_k b(k)×y(t−k)
のようになる。
ここで、入力音声信号から擬似エコー信号を引いた{x(t)−p(t)}が、音響エコーが除去された信号となる。ここで、{b(k)}は、入力音声信号から擬似エコー信号を引いた{x(t)−p(t)}が最小となるように適応的に求められる。例えば、NLMSアルゴリズムなどのアルゴリズムを用いて逐次適応させればよい。次に、通信処理部105は、ステップS703で測定された空間伝達特性であるフィルタ係数列{b(k)}を送信する(ステップS704)。
このようにして、聞き手側処理では、環境音響特性を示す空間伝達特性を送信することで、自身の受聴環境を相手に知らせることが可能となる。
次に、本実施例の遠隔会議システムの話し手側処理について説明する。
図8は、本実施例の遠隔会議システムの話し手側処理を説明するフローチャートの例である。
まず、音声入力部103は、装置近傍の音声を受け付ける(ステップS801)。次に、通信処理部105は、音声を外部の音声通信装置102に送信する(ステップS802)。同時に、通信処理部105は、外部の音声通信装置102から送信された空間伝達特性を受信する(ステップS803)。次に、音声変換部501は、入力音声を、受信した空間伝達特性に基づいて変換する(ステップS804)。このステップは、FIR型ディジタルフィルタとして構成され、変換音声{c(t)}は、
(数2)
c(t)=Σ_k{b(k)×x(t−k)}
のようにして求められる。
このようにして変換された音声は、外部の音声通信装置102から送信された空間伝達特性の効果を与えられた音声となる。最後に、音声出力部104は、音声混合部302を介して、変換音声をスピーカへ出力する(ステップS805)。
このようにして、話し手は、自身の話した声を聞き手側の環境音響特性である空間伝達特性を通した音として聞くことができるため、聞き手側における残響感や周波数特性の劣化などを理解することが可能となる。
上記のとおり、空間伝達特性を送受信することによって、聞き手の受聴環境を理解することを可能となる。また、本実施例の構成は、聞き手側のマイクで受信した音声を直接送る構成と異なり、伝送遅延が発生しないため、遅延聴覚フィードバックにより発話が困難になることもない。
本実施例では、聞き手側装置と話し手側装置に分けた構成で説明したが、別の構成では、話し手側処理と聞き手側処理を両方含む音声通信装置として構成することもできる。図9は、本構成による音声通信装置の構成を示す図である。また、図10は、本構成のハードウェア構成図である。本構成では、聞き手側処理における空間伝達特性の測定結果を利用して、話し手側処理の音声送信時に、エコーキャンセル処理を行う、エコーキャンセル処理部901を備えている。上記空間伝達特性の測定処理は、エコーキャンセル処理の一部であるため、処理を流用できる利点がある。以降、話し手側処理として、エコーキャンセル処理の説明は行わないが、音声を送信する処理の前段で実行することができる。
上記の実施例では、聞き手の環境音響特性として、空間伝達特性を利用する例を示したが、聞き手の受聴環境として、環境騒音を理解することも重要である。本実施例では、聞き手の受聴環境を理解するために、環境騒音特性を送受信する音声通信装置の例を説明する。
図11は、本実施例の音声通信装置の構成図の例である。また、図12は本実施例のハードウェア構成図の例である。
本実施例は、上記実施例1の構成における話し手側処理と聞き手側処理の両方を含んだ構成としている。加えて、本実施例は、上記実施例1の構成に加えて、環境騒音特性測定部1101(環境騒音特性測定処理1201を実行するプログラム)を有する。ここでは、環境騒音特性の一例として信号対雑音比を利用する。
次に、本実施例の音声通信装置の聞き手側処理の動作について説明する。
図13は、本実施例の遠隔会議システムの聞き手側処理を説明するフローチャートの例である。
まず、音声入力部103は、装置近傍の音声を受け付ける(ステップS1301)。同時に、通信処理部105は、外部の音声通信装置102から送信された音声を受信する(ステップS1302)。受信音声は、音声混合部302を介して出力音声となり、音声出力部104から出力される。次に、空間伝達特性測定部301は、入力音声と出力音声から空間伝達特性を測定する(ステップS1303)。次に、通信処理部105は、ステップS1303で測定された空間伝達特性であるフィルタ係数列{b(k)}を送信する(ステップS1304)。
また、ステップS1303と同時に、環境騒音測定部1101は、音声入力部103から得られる音声と音声混合部302から得られる音声に基づいて、信号対雑音比を測定する(ステップS1305)。音声入力部103から得られる音声と、音声混合部302から得られる音声の間には相関があるが、この相関の量を調べることにより、装置外部から新たに入力された信号(すなわち環境騒音)とスピーカから出力された信号との間のパワー比を推定することが可能である。この処理は、公知の音響エコーキャンセラにおける擬似エコー信号を用いて実現することができる。例えば、音響エコーキャンセラが中間的に生成する擬似エコー信号{p(t)}を利用して、音声入力信号{x(t)}とのパワー比を求めればよく、
(数3)
R=Power(p(t))/Power(x(t))
のようにして、信号対雑音比Rが求められる。なお、Power()は、一般的な短時間信号の平均パワーを求める関数を利用すればよい。
次に、通信処理部105は、ステップS1305で測定された環境騒音特性である信号対雑音比を送信する(ステップS1306)。
このようにして、聞き手側処理では、環境音響特性を示す空間伝達特性に加えて、環境騒音特性を送信することで、自身の受聴環境についてより多くの情報を相手に知らせることが可能となる。
次に、本実施例の音声通信装置の話し手側処理の動作について説明する。
図14は、本実施例の遠隔会議システムの話し手側処理を説明するフローチャートの例である。
まず、音声入力部103は、装置近傍の音声を受け付ける(ステップS1401)。次に、通信処理部105は、音声を外部の音声通信装置に送信する(ステップS1402)。同時に、通信処理部105は、外部の音声通信装置102から送信された空間伝達特性を受信する(ステップS1403)。同時に、通信処理部105は、外部の音声通信装置102から送信された環境騒音特性を受信する(ステップS1404)。同時に、通信処理部105は、外部の音声通信装置102から送信された音声を受信する(ステップS1405)。次に、音声変換部501は、入力音声を、受信した空間伝達特性に基づいて変換する(ステップS1406)。
次に、音声混合部302は、変換音声と、受信音声とを、環境騒音特性に基づいて混合する(ステップS1407)。ここで、受信した音声信号{r(t)}は、遠隔地の環境騒音とみなすことができるので、音声変換部501から出力される変換音声信号{c(t)}を、環境騒音特性として受信した、遠隔地での信号対雑音比Rに基づいて、
(数4)
y(t)=(1−√R)×c(t)+√R×r(t)
のように混合した出力信号を生成することで、環境騒音に対して、自身の音声がどの程度埋もれているかを反映した出力信号を得ることができる。
最後に、音声出力部104は、音声混合部302を介して、変換音声をスピーカへ出力する(ステップS1408)。
以上のようにして、話し手は、聞き手の環境騒音の中で、自身の音声の埋もれ具合を理解することが可能となる。
本実施例では、複数のマイクを利用する遠隔会議システムにおいて、1つのマイクを利用するより効果的に、聞き手の受聴環境を伝えることが可能な遠隔会議装置の例を説明する。
図15は、本実施例の音声通信装置の構成図の例である。また、図16は、本実施例の音声通信装置のハードウェア構成図である。
実施例1の構成に加えて、追加の音声入力部103B、追加の空間伝達特性測定部301B、追加のエコーキャンセル処理部901Bを有し、さらに加えて、送信音声混合部1501、空間伝達特性選択部1502(空間伝達特性選択処理1601を実行するプログラム)、を有する。送信音声混合部1501は、複数の音声入力部103から得られる音声を混合し、送信音声を生成する。空間伝達特性選択部1502は、複数の空間伝達特性測定部301から出力される空間伝達特性に基づき、一つの空間伝達特性を選択する。
次に、本実施例の音声通信装置102の動作について説明する。話し手側の処理は、実施例1と同等であるので、聞き手側処理のみ説明する。
図17は、本実施例の遠隔会議システムの聞き手側処理を説明するフローチャートの例である。ここで、2つの音声入力部103から得られる音声を、それぞれ第1入力音声、第2入力音声のように呼ぶ。
まず、通信処理部105は、外部の音声通信装置から送信された音声を受信する(ステップS1701)。受信音声は、音声混合部302を介して出力音声となり、音声出力部104から出力される。同時に、第1音声入力部103は、装置近傍の音声を受け付ける(ステップS1702)。同時に、第2音声入力部103Bは、装置近傍の音声を受け付ける(ステップS1703)。次に、第1空間伝達特性測定部301は、第1入力音声と出力音声から空間伝達特性を測定する(ステップS1704)。同時に、第2空間伝達特性測定部301Bは、第2入力音声と出力音声から空間伝達特性を測定する(ステップS1705)。
次に、空間伝達特性選択部1502は、複数の空間伝達特性測定部301から出力される空間伝達特性に基づき、一つの空間伝達特性を選択する(ステップS1706)。ここで、複数のマイクに対応する空間伝達特性を、{b_i(k)}と表す。なお、iはマイクのインデックスとする。空間伝達特性選択部1502は、空間伝達特性{b_i(k)}に関する評価関数{E_i(b)}に基づいて、一つの空間伝達特性を選択する。ここで、例えば{b_i(k)}のピークにおける時刻を、
(数5)
E_i(b)=argmax_k{b_i(k)}
のように求め、この評価値が最大となるマイクのインデックスを選択すると、スピーカから最も離れたマイクに対する空間伝達関数を選択することに相当する。このようにして、スピーカから最も離れたマイクの空間伝達関数を選択することで、遠く離れた聴取者に対応する環境音響特性を伝えることが可能となる。
最後に、通信処理部105は、ステップS1706で測定された空間伝達特性であるフィルタ係数列{b(k)}を送信する(ステップS1707)。
また、本実施例は、空間伝達特性選択部1502を送信側に配した構成をとったが、空間伝達特性選択部1502を受信側に配する構成をとることもできる。このように構成すると、3拠点以上で遠隔会議を行う際、複数拠点から得られる空間伝達特性を利用して、最もスピーカから離れた環境音響特性を選択することが可能となる。
図18は、空間伝達特性選択部1502を受信側に配するシステム構成を示す図である。また、図19は、本構成のハードウェア構成図である。話し手側装置の通信処理部105は、複数の聞き手側装置300からの空間伝達特性を受信する。
次に、本構成の動作を説明する。聞き手側処理は実施例1と同様であるので、話し手側処理のみ動作を説明する。
図20は、空間伝達特性選択部1502を受信側に配するシステムの話し手側装置500の動作を示すフローチャートである。
ここで、2つの受信した空間伝達特性を第1空間伝達特性、第2空間伝達特性と呼ぶ。
まず、通信処理部105は、外部の音声通信装置101から送信された第1空間伝達特性と第2空間伝達特性を受信する(ステップS2001、ステップS2002)。同時に、音声入力部103は、装置近傍の音声を受け付ける(ステップS2003)。次に、通信処理部105は、音声を外部の音声通信装置101に送信する(ステップS2004)。次に、 空間伝達特性選択部1502は、複数の空間伝達特性から、一つの空間伝達特性を選択する(ステップS2005)。次に、音声変換部501は、入力音声を、選択した空間伝達特性に基づいて変換する(ステップS2006)。最後に、音声混合部302は、音声変換部501から得られる変換音声を音声出力部104へ出力する(ステップS2007)。
ここで、評価関数としては、スピーカとマイクとの距離を計算したが、残響時間の長さや大きさを計算するものであってもよい。
上記の実施例では、環境音響特性として空間伝達特性を利用し、空間伝達関数からスピーカとマイクとの間の距離を評価値として求める構成を説明したが、例えば、実施例2のように、環境音響特性として環境雑音特性を利用し、信号対雑音比に対する評価値を求める構成も考えられる。例えばこの場合、複数の信号対雑音比R_iに関して、評価値{E_i(R)}を、
(数6)
E_i(R)=1/R_i
のように求め、この評価値が最大となるマイクのインデックスを選択すると、最も信号対雑音比の低いマイクに対する特性を選択することになる。従って、最も聞き辛いと考えられる環境音響特性を選択することが可能となる。
また、本実施例の別の構成では、複数の音声入力部103に入力された音声の履歴から、送信する空間伝達特性や環境騒音特性を選択する構成をとることもできる。例えばこの場合、音声入力部103に入力される複数の音声に関して、発話区間検出処理を行うことで、最後に発話区間が検出されたマイクに対する特性を選択することができる。このようにすると、接続された複数のマイクの中で、対話相手に近いマイクを環境音響特性として選択することが可能となる。
図21は、音声履歴に基づく空間伝達特性選択を行う構成を示す図である。また、図22は、本構成のハードウェア構成図の例である。音声履歴測定部2101(音声履歴測定処理2201を実行するプログラム)は、複数の音声入力部103から得られる音声に対して、発話区間検出処理を行い、最後に発話区間が検出されたマイクのインデックスを、空間伝達特性選択部1502に与えることで、上記のように、対話相手に近いマイクを環境音響特性として選択することが可能とする。
上記の実施例1では、聞き手側の空間伝達関数を模擬するフィルタの構成により、環境音響特性を模擬したが、聞き手側で測定される空間伝達関数は、スピーカとマイクとの間の伝達関数であり、スピーカと聞き手の耳との間の伝達関数とは異なっている。そこで、スピーカと聞き手の耳との間の距離を、別途入力手段によって利用者が指定することで、空間伝達関数の補正を行うことが可能となる。
本実施例では、空間伝達特性の送受信に加えて、受信側で空間伝達特性の変換を行うことにより、より効果的に、聞き手の環境音響特性を再現することのできる遠隔会議装置の例を説明する。
なお、本実施例では、受信側で空間伝達特性の変換を行う例を示すが、送信側で空間伝達特性の変換を示す構成をとってもよい。この場合、聞き手側処理として、空間伝達特性を測定した後、指定された受聴距離に基づいて空間伝達関数の補正を行い、変換した空間伝達特性を送信すればよい。
図23は、本実施例の遠隔会議装置の構成図の例である。また、図24は、本実施例のハードウェア構成図である。
本実施例は、上記実施例1の構成に加えて、受聴距離指定部2301、空間伝達特性変換部2302、を有する。音声入力部103、音声出力部104、通信処理部105、音声混合部302、空間伝達特性測定部301の動作は、実施例1と同様である。
受聴距離指定部2301は、遠隔会議相手の、スピーカからの受聴距離を指定する入力手段2401を備える。例えば、ダイヤルやマウス、キーボードなどの入力手段によって、受聴距離を指定する。あるいは、遠隔会議相手側が、自身の受聴距離を送信し、受聴距離指定部2301が、受聴距離を受信する構成であってもよい。
空間伝達特性変換部2302は、受聴距離指定部2301が示す受聴距離に応じて、通信処理部105から得られる空間伝達特性を変換した、変換空間伝達特性を生成する。音声変換部501は、空間伝達特性変換部2302から出力される変換空間伝達特性に基づいて、音声入力部103から得られる音声を変換した、変換音声を生成する。
ここで、空間伝達特性変換部2302の動作の例を示す。
まず、受信した空間伝達特性{b(k)}から、スピーカとマイクとの間の距離d_micを推定することができる。これは、{b(k)}のピークが立つ時刻として、
(数7)
d_mic=argmax_k{b(k)}
のようにして求められる。ここで、空間伝達特性の中の直接音特性を減衰させることで、受聴距離を遠くする効果が得られる。受聴距離指定部601が示す受聴距離d_earに応じて、減衰率{f}を
(数8)
f=d_mic/d_ear
のように計算し、空間伝達特性の直接音特性{b(d_mic)}を
(数9)
b’(d_mic)=f×b(d_mic)
のように変換することで、変換空間伝達特性{b’(k)}を得る。
このようにして、受聴距離を利用者が指定し、空間伝達関数の補正を行うことで、より効果的に、聞き手の環境音響特性を再現することが可能となる。
なお、本発明は上記の遠隔会議システムの実施例に限定されるものではなく、例えば、車載装置におけるハンズフリー通話や、コンサートホールにおけるPAシステム、鉄道車両内アナウンスなど、様々な装置・システムで実施可能である。
また、本発明は上記の実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記の実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
102 音声通信装置
103 音声入力部
104 音声出力部
105 通信処理部
301 空間伝達特性測定部
302 音声混合部
501 音声変換部
901 エコーキャンセル処理部
1101 環境騒音特性測定部
1502 空間伝達特性選択部
2101 音声履歴測定部
2301 受聴距離指定部
2302 空間伝達特性変換部

Claims (19)

  1. 音声信号が入力される音声信号入力部と音声信号を出力する音声信号出力部とを各々有する第1の音声通信装置と第2の音声通信装置とからなる音声通信システムであって、
    前記第1の音声通信装置は、
    前記第2の音声通信装置から音声信号を受信する音声信号受信部と、所定の空間における環境音響特性を測定する測定部と、前記測定部により測定された前記環境音響特性に関する情報を前記第2の音声通信装置に送信する特性情報送信部と、を有し、
    前記第2の音声通信装置は、
    音声信号を前記第1の音声通信装置に送信する音声信号送信部と、前記第2の音声通信装置から前記環境音響特性に関する情報を受信する特性情報受信部と、前記環境音響特性に関する情報に基づいて前記第2の音声通信装置の音声信号入力部に入力された音声信号を変換する音声信号変換部と、を有し、前記音声信号変換部により変換された音声信号を前記第2の音声信号装置の音声信号出力部に出力すること、を特徴とする音声通信システム。
  2. 請求項1に記載の音声通信システムにおいて、
    前記環境音響特性は空間伝達特性であることを特徴とする音声通信システム。
  3. 請求項2に記載の音声通信システムにおいて、
    前記測定部は、前記第1の音声通信装置における前記音声信号入力部に入力される音声信号と前記第1の音声通信装置における前記音声信号出力部により出力される音声信号とに基づいて、前記空間伝達特性を測定することを特徴とする音声通信システム。
  4. 請求項2に記載の音声通信システムにおいて、
    前記第2の音声通信装置は、
    距離に関する情報が入力される距離情報入力手段と、
    該距離情報入力手段により入力された距離に関する情報に基づいて、前記空間伝達特性を変換する空間伝達特性変換部と、を有することを特徴とする音声通信システム。
  5. 請求項1に記載の音声通信システムにおいて、
    前記第1の音声通信装置は、
    複数の前記環境音響特性を各々測定する複数の測定部と、
    前記複数の測定部により各々測定された複数の前記環境音響特性のうち、前記第2の音声通信装置に送信する環境音響特性に関する情報を選択する選択部と、を有し、
    前記第2の音声通信装置は、
    前記選択された環境音響特性に関する情報を前記第1の音声通信装置から受信し、前記選択された環境音響特性に関する情報に基づいて前記第2の音声通信装置の音声信号入力部に入力された音声信号を変換することを特徴とする音声通信システム。
  6. 請求項1に記載の音声通信装置において、
    前記環境音響特性は環境騒音特性であることを特徴とする音声通信システム。
  7. 請求項6に記載の音声通信装置において、
    前記測定部は、前記第1の音声通信装置における前記音声信号入力部に入力される音声信号と前記第1の音声通信装置における前記音声信号出力部により出力される音声信号とに基づいて、前記環境騒音特性を測定することを特徴とする音声通信装置。
  8. 音声信号が入力される音声信号入力部と、
    音声信号を出力する音声信号出力部と、
    他の音声通信装置から前記音声出力部に出力する音声信号を受信する音声信号受信部と、
    所定の空間における環境音響特性を測定する測定部と、
    前記測定部により測定された前記環境音響特性に関する情報を前記他の音声通信装置に送信する特性情報送信部と、を有することを特徴とする音声通信装置。
  9. 請求項8に記載の音声通信装置において、
    前記環境音響特性は空間伝達特性であることを特徴とする音声通信装置。
  10. 請求項9に記載の音声通信装置において、
    前記測定部は、前記音声信号入力部に入力される音声信号と前記音声信号出力部に出力する音声信号とに基づいて、前記空間伝達特性を測定することを特徴とする音声通信装置。
  11. 請求項9に記載の音声通信装置において、
    距離に関する情報が入力される距離情報入力手段と、
    該距離情報入力手段により入力された距離に関する情報に基づいて、前記空間伝達特性を変換する空間伝達特性変換部と、を有することを特徴とする音声通信装置。
  12. 請求項8に記載の音声通信装置において、
    複数の前記環境音響特性を各々測定する複数の測定部と、
    前記複数の測定部により各々測定された複数の前記環境音響特性から、前記他の音声通信装置に送信する前記環境音響特性に関する情報を選択する選択部と、を有することを特徴とする音声通信装置。
  13. 請求項8に記載の音声通信装置において、
    前記環境音響特性は環境騒音特性であることを特徴とする音声通信装置。
  14. 請求項13に記載の音声通信装置において、
    前記測定部は、前記音声信号入力部に入力される音声信号と前記音声信号出力部に出力する音声信号とに基づいて、前記環境騒音特性を測定することを特徴とする音声通信装置。
  15. 音声信号が入力される音声信号入力部と、
    音声信号を出力する音声信号出力部と、
    前記音声入力部に入力された音声信号を他の音声通信装置に送信する音声信号送信部と、
    所定の空間における環境音響特性に関する情報を前記他の音声通信装置から受信する特性情報受信部と、
    該特性情報受信部により受信した前記環境音響特性に関する情報に基づいて、前記音声信号入力部に入力された音声信号を変換する音声信号変換部と、を有し、
    前記音声信号出力部は、前記音声信号変換部により変換された音声信号を出力すること、を特徴とする音声通信装置。
  16. 請求項15に記載の音声通信装置において、
    前記環境音響特性は空間伝達特性であることを特徴とする音声通信装置。
  17. 請求項16に記載の音声通信装置において、
    距離に関する情報が入力される距離情報入力手段と、
    該距離情報入力手段により入力された距離に関する情報に基づいて、前記空間伝達特性を変換する空間伝達特性変換部と、を有することを特徴とする音声通信装置。
  18. 請求項15に記載の音声通信装置において、
    前記特性情報受信部により受信される複数の環境音響特性に関する情報から一つの環境音響特性に関する情報を選択する選択部を有し、
    前記音声信号変換部は、前記選択部により選択された環境音響特性に関する情報に基づいて、前記音声信号入力部に入力された音声信号を変換することを特徴とする音声通信装置。
  19. 請求項15に記載の音声通信装置において、
    前記環境音響特性は環境騒音特性であることを特徴とする音声通信装置。
JP2010238103A 2010-10-25 2010-10-25 音声通信システム、及び、音声通信装置 Pending JP2012094945A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010238103A JP2012094945A (ja) 2010-10-25 2010-10-25 音声通信システム、及び、音声通信装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010238103A JP2012094945A (ja) 2010-10-25 2010-10-25 音声通信システム、及び、音声通信装置

Publications (1)

Publication Number Publication Date
JP2012094945A true JP2012094945A (ja) 2012-05-17

Family

ID=46387860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010238103A Pending JP2012094945A (ja) 2010-10-25 2010-10-25 音声通信システム、及び、音声通信装置

Country Status (1)

Country Link
JP (1) JP2012094945A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013055536A (ja) * 2011-09-05 2013-03-21 Nippon Telegr & Teleph Corp <Ntt> 場内拡声方法、場内拡声装置とそのプログラム
JPWO2019008733A1 (ja) * 2017-07-07 2020-07-09 ヤマハ株式会社 音声処理方法、遠隔会話方法、音声処理装置、遠隔会話装置、ヘッドセット、および、遠隔会話システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013055536A (ja) * 2011-09-05 2013-03-21 Nippon Telegr & Teleph Corp <Ntt> 場内拡声方法、場内拡声装置とそのプログラム
JPWO2019008733A1 (ja) * 2017-07-07 2020-07-09 ヤマハ株式会社 音声処理方法、遠隔会話方法、音声処理装置、遠隔会話装置、ヘッドセット、および、遠隔会話システム
US11259116B2 (en) 2017-07-07 2022-02-22 Yamaha Corporation Sound processing method, remote conversation method, sound processing device, remote conversation device, headset, and remote conversation system

Similar Documents

Publication Publication Date Title
KR101984356B1 (ko) 오디오 장면 장치
JP6163468B2 (ja) 音響品質評価装置、音響品質評価方法、およびプログラム
JP6703525B2 (ja) 音源を強調するための方法及び機器
JP2018528479A (ja) スーパー広帯域音楽のための適応雑音抑圧
JP2019518985A (ja) 分散したマイクロホンからの音声の処理
CN112071328B (zh) 音频降噪
US10978085B2 (en) Doppler microphone processing for conference calls
US20140329511A1 (en) Audio conferencing
CN104364842A (zh) 立体声音频信号编码器
EP3005362B1 (en) Apparatus and method for improving a perception of a sound signal
US10192566B1 (en) Noise reduction in an audio system
CN108989946A (zh) 检测和减少反馈
JP6571623B2 (ja) 音響品質評価装置、音響品質評価方法、およびプログラム
WO2016042410A1 (en) Techniques for acoustic reverberance control and related systems and methods
CN111145773A (zh) 声场还原方法和装置
JP2012094945A (ja) 音声通信システム、及び、音声通信装置
JP6363429B2 (ja) データ構造、データ生成装置、データ生成方法、およびプログラム
Koyama et al. Real-time sound field transmission system by using wave field reconstruction filter and its evaluation
JP6126053B2 (ja) 音響品質評価装置、音響品質評価方法、およびプログラム
KR100310283B1 (ko) 음성의 3-d 국소화를 향상시키는 방법
TWI790694B (zh) 聲音浮水印的處理方法及聲音浮水印產生裝置
GB2567013A (en) Sound processing system
JP6594840B2 (ja) 音響品質評価装置、音響品質評価方法、データ構造、およびプログラム
US20230197088A1 (en) Processing method of sound watermark and sound watermark generating apparatus
Aburuotu Mitigating Noise and Interference in Audio Signal during Virtual Meetings Using Audio Porting in Digital Signal Processing (APS)

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120521