JP2011211547A

JP2011211547A - 収音装置および収音システム

Info

Publication number: JP2011211547A
Application number: JP2010078099A
Authority: JP
Inventors: Makoto Tanaka; 田中　　良
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2010-03-30
Filing date: 2010-03-30
Publication date: 2011-10-20

Abstract

【課題】エコーキャンセリングしたい音源が、電気的に接続していなくても、当該音源からの音に対してエコーキャンセル処理を確実に施す。
【解決手段】収音装置１０のマイクロホンＭＣからの収音信号Ｓｓはエコーキャンセル部１２に与えられるともに音声認識サーバ２０へ与えられる。音声認識サーバ２０は収音信号Ｓｓに基づいてコンテンツ情報Ｃｉｍとタイミング情報Ｃｔｐとを検出する。コンテンツサーバ３０はコンテンツ情報Ｃｉｍに基づいてコンテンツ音声ファイルＣｍを読み出す。収音装置１０の音声再生部１１は、コンテンツ音声ファイルＣｍをデコードして、タイミング情報Ｃｔｐに基づくタイミングで再生し、再生音信号Ｓｍをエコーキャンセル部１２へ出力する。エコーキャンセル部１２は、再生音信号Ｓｍに基づいて、収音信号Ｓｓのエコーキャンセル処理を行う。
【選択図】図１

Description

この発明は、マイクロホンを備え、周囲から収音して収音信号を生成する収音装置、特にエコーキャンセル機能を備えた収音装置に関する。

従来、エコーキャンセル機能を備えた収音装置や放収音装置が各種考案されている。このような装置では、特許文献１に示すように、スピーカとマイクロホンとが単一の筐体に配設されている。エコーキャンセル部は、スピーカを駆動する放音駆動信号とインパルス応答に基づく適応パラメータを用いて、スピーカからマイクロホンに回り込むエコーに対応する擬似エコー信号を生成する。エコーキャンセル部は、マイクロホンの収音信号から擬似エコー信号を減算することで、所望とする音声信号のみを出力する。

そして、この構成では、単一の筐体にスピーカとマイクロホンとが配設され、スピーカへの放音駆動信号の入力ラインとエコーキャンセル部とが、筐体内で電気的に接続されている。

特表２００１−５０９６１５号公報

しかしながら、例えば、話者が部屋内で映像を見て当該映像の音声を聴きながら、携帯電話で通話をしているような場合には、再生されている映像の音声もマイクで収音されてしまう。この場合、再生音の元となる音信号を、電気的に直接携帯電話に与えることができない。すなわち、上述のような構成の収音装置では、エコーキャンセル部に参照となる音信号を入力することができない。したがって、話者が聞いている音楽の音が、通話の相手先で放音されてしまい、会話の邪魔になることがある。

したがって、この発明の目的は、エコーキャンセリングしたい音源が、電気的に接続していなくても、当該音源からの音に対してエコーキャンセル処理を施すことができる収音装置、および収音システムを提供することにある。

この発明は、収音装置に関する。収音装置は、マイクロホン、音声再生部、およびエコーキャンセル部を備える。マイクロホンは、エコーを含む収音信号を生成する。音声再生部は、マイクロホンの収音信号に基づいてエコーと同じ音声再生信号を生成する。エコーキャンセル部は、エコーキャンセル後の収音信号から設定される適応パラメータと音声再生信号とから擬似エコー信号を生成する。エコーキャンセル部は、当該擬似エコー信号を収音信号から減算することでエコーキャンセル処理を行う。

また、この発明は収音システムに関する。収音システムは、上述の収音装置、音声認識サーバ、およびコンテンツサーバを備える。音声認識サーバは、マイクロホンから出力される収音信号からコンテンツ情報および再生タイミング情報を検出する。コンテンツサーバは、コンテンツ情報から音声データを読み出す。収音装置の音声再生部は、再生タイミング情報と音声データとに基づいて音声再生信号を生成する。

この構成では、エコー音の音源がエコーキャンセル部へ電気的に直接接続されていなくても、エコー音が音声再生部からエコーキャンセル部へ与えられる。これにより、適応型のエコーキャンセル処理が可能になる。

また、この発明の収音システムでは、音声認識サーバは、音声認識にかかる時間を検出し、再生タイミング情報とともに、音声認識遅延時間情報を、音声再生部へ出力する。音声再生部は、再生タイミング情報に基づく時間に、音声認識遅延時間情報に基づく時間を加算して、音声再生のタイミングを決定する。

これらの構成では、音声再生部が、音声認識にかかる時間の遅延を加味した上で、擬似エコーの元となる音声を再生する。これにより、認識処理に要する所定時間までは、エコーキャンセル処理が行えないが、それ以降では適切なエコーキャンセル処理を実行することができる。

また、この発明の収音装置では、マイクロホンとエコーキャンセル部との間に配設され、マイクロホンから出力される収音信号を遅延処理する遅延回路を、備える。

また、この発明は収音システムに関する。収音システムは、上述の収音装置と、音声認識サーバ、およびコンテンツサーバを備える。音声認識サーバは、マイクロホンから出力される収音信号からコンテンツ情報および再生タイミング情報を検出する。コンテンツサーバは、コンテンツ情報から音声データを読み出す。収音装置の音声再生部は、再生タイミング情報と音声データとに基づいて前記音声再生信号を生成する。収音装置の遅延回路は、音声再生部への情報入力タイミングに基づく遅延量で、収音信号を遅延させる。

この構成では、エコー音がエコーキャンセル部へ電気的に直接入力されないため、音声再生部からの音声再生信号の入力に或程度の遅延が生じる可能性がある。このため、遅延回路を設けることで、この遅延による収音信号と擬似エコー信号との同期ズレが解消する。これにより、より確実なエコーキャンセル処理が実現できる。

この発明によれば、エコーキャンセリングしたい音源が、電気的に接続していなくても、当該音源からの音に対してエコーキャンセル処理を施すことができる。これにより、映像等の音声を聴きながら通話しても、聞いている音声が通話の相手先に聞こえないようにすることができる。

本発明の第１の実施形態に係る収音システム１の構成図である。音声認識サーバ２０のコンテンツ音声認識フローの一例を示すフローチャートである。本発明の第２の実施形態に係る収音システム１Ａの構成図である。本発明の第３の実施形態に係る収音システム１Ｂの構成図である。

本発明の第１の実施形態に係る収音システムについて図を参照して説明する。図１は第１の実施形態の収音システム１の構成図である。収音システム１は収音装置１０、音声認識サーバ２０、およびコンテンツサーバ３０を備える。

収音装置１０は、話者５００の居る部屋内に配置されている。当該部屋内には、ＤＶＤプレイヤ等のメディア再生装置９００と、当該メディア再生装置２０２に接続し、コンテンツ音声を放音するスピーカＳＰが配置されている。収音装置１０は、マイクロホンＭＣ、音声再生部１１、エコーキャンセル部１２を備える。

マイクロホンＭＣは、部屋内の音を収音して収音信号Ｓｓを生成する。収音信号Ｓｓには、話者５００が発音していれば話者音声信号Ｓｗが含まれ、コンテンツ音声が放音されていればコンテンツ音声エコー信号Ｓｍｅが含まれる。以下では、実際に通話時に問題になる、収音信号Ｓｓに話者音声信号Ｓｗとコンテンツ音声エコー信号Ｓｍｅとがともに含まれている場合を示す。

収音信号Ｓｓは、エコーキャンセル部１２に入力されるとともに、音声認識サーバ２０へ出力される。

音声認識サーバ２０は、収音装置１０に対して、例えばネットワーク接続している。音声認識サーバ２０は、収音信号Ｓｓを取得すると、例えば図２に示すような方法を用いて、コンテンツ情報Ｃｉｍとタイミング情報Ｃｔｐとを検出する。図２は、音声認識サーバ２０のコンテンツ音声認識フローの一例を示すフローチャートである。

まず、音声認識サーバ２０は、収音信号Ｓｓを順次サンプリングして、分析対象期間分だけバッファリングする（Ｓ１０１）。

音声認識サーバ２０は、分析対象期間に含まれる時間軸上に並ぶ複数の収音信号Ｓｓを用いてケプストラム分析を行う（Ｓ１０２）。より具体的には、音声認識サーバ２０は、分析対象期間の複数の収音信号Ｓｓを用いてフーリエ変換（例えば高速フーリエ変換）を行い、各周波数成分の絶対値を取る。次に、音声認識サーバ２０は、これら絶対値の対数を取り、振幅スペクトルを取得する。音声認識サーバ２０は、この振幅スペクトルを逆フーリエ変換することで、ケプストラムを取得する。このケプストラムの高次成分はピッチ情報であり、ケプストラムの低次成分はフォルマント情報となる。

音声認識サーバ２０は、ケプストラムに対して低次成分を抽出することで、フォルマント情報を検出する（Ｓ１０３）。音声認識サーバ２０は、検出したフォルマント情報をフォルマントデータとして記憶する（Ｓ１０４）。

音声認識サーバ２０は、このようなフォルマントデータの取得を、所定データ数になるまで、順次分析対象期間毎に連続的に実行する（Ｓ１０５：Ｎｏ→Ｓ１０１）。この所定データ数は、次のリファレンスデータとの比較処理に必要な個数に基づいて、予め設定されている。

音声認識サーバ２０は、時系列に並ぶ所定データ数のフォルマントデータを取得すると（Ｓ１０５：Ｙｅｓ）、これら時系列に並ぶ複数のフォルマントデータをフォルマントデータ列として、リファレンスデータと相関処理する（Ｓ１０６）。リファレンスデータは、コンテンツ音声毎のフォルマントデータ列によって構成されており、予め音声認識サーバ２０に記憶されている。

音声認識サーバ２０は、コンテンツ音声毎に記憶されているフォルマントデータを、コンテンツの最初から順に、上述の所定データ数の単位で抽出する。この際、音声認識サーバ２０は、先頭となるフォルマントデータが１つずつシフトするように、順次抽出する。

音声認識サーバ２０は、ケプストラム分析で取得したフォルマントデータ列に対して、最も相関レベルの高いリファレンスのフォルマントデータ列を検出し、当該リファレンスのフォルマントデータ列に対応するコンテンツ情報Ｃｉｍを取得する。また、音声認識サーバ２０は、当該リファレンスのフォルマントデータ列の先頭の時間情報を、タイミング情報Ｃｔｐとして取得する（Ｓ１０７）。

音声認識サーバ２０は、コンテンツ情報Ｃｉｍをコンテンツサーバ３０へ出力する。音声認識サーバ２０は、タイミング情報Ｃｔｐを収音装置１０の音声再生部１１へ出力する。

なお、上述の方法では、ケプストラムの低次成分であるフォルマント情報のみを用いて音声認識を行ったが、高次成分であるピッチ情報を用いてもよい。ただし、低次成分はフォルマント情報のみを用いることで、リファレンスデータの容量を小さくすることができ、且つ相関処理に利用するデータ量が小さくなるので、高速なコンテンツ認識が可能になる。

また、上述の説明では、フォルマントデータの時間軸上での並びからコンテンツを認識する例を示したが、音域やテンポ等の他の特徴を用いてコンテンツを認識してもよい。

また、上述の説明では、収音信号Ｓｓをそのまま音声認識に利用した場合を示した。しかしながら、収音信号Ｓｓに含まれるコンテンツ音声エコー信号Ｓｍｅを抽出し、当該コンテンツ音声エコー信号Ｓｍｅを用いてコンテンツ認識を行ってもよい。コンテンツ音声エコー信号Ｓｍｅの抽出方法としては、例えば、音声認識サーバ２０は、話者音声の周波数帯域成分を取り出し、当該話者音声の周波数帯域成分のレベルが低下した期間、すなわち話者音声のレベルが低い期間（例えば通話相手が話している期間等）の収音信号Ｓｓを用いるようにすればよい。

コンテンツサーバ３０は、コンテンツ情報Ｃｉｍに基づいて、コンテンツ音声ファイルＣｍを抽出する。コンテンツサーバ３０は、抽出したコンテンツ音声ファイルＣｍを収音装置１０の音声再生部１１へ出力する。

収音装置１０の音声再生部１１は、コンテンツ音声ファイルＣｍをデコードし、タイミング情報Ｃｔｐに基づくタイミングから再生し、再生音信号Ｓｍを出力する。このような処理を行うことで、メディア再生装置２０２に収音装置１０が電気的に接続していなくても、コンテンツ音声エコー信号Ｓｍｅに対応するエコーキャンセル処理の参照信号となる再生音信号Ｓｍを生成することができる。

エコーキャンセル部１２は、擬似エコー生成部１２１、ポストプロセッサ１２２、および適応パラメータ設定部１２３を備える。擬似エコー生成部１２１は、音声再生部１１からの再生音信号Ｓｍと、適応パラメータ設定部１２３からの適応パラメータＰｉｎとを用いて、既知の方法（インパルス応答を用いた擬似エコー信号の生成方法等）により、擬似エコー信号Ｓｍｅ’を生成する。ポストプロセッサ１２２は、収音信号Ｓｓから擬似エコー信号Ｓｍｅ’を減算処理する。適応パラメータ設定部１２３は、収音信号Ｓｓから擬似エコー信号Ｓｍｅ’を減算した減算信号に基づいて、既知の方法で適応パラメータＰｉｎを設定する。

このような構成を用いてエコーキャンセル処理を行うことで、収音信号Ｓｓに含まれるコンテンツ音声エコー信号Ｓｍｅが抑圧され、話者音声信号Ｓｗのみが出力される。これにより、通話の相手先には、話者音声信号Ｓｗのみを送信することができる。この結果、通話の相手先に、自分の聞いているコンテンツの音声が漏れることを防止できる。そして、これにより、例えば、コンテンツを視聴しながらでも明瞭な通話を行うことができる。

次に、第２の実施形態に係る収音システムについて図を参照して説明する。図３は本実施形態の収音システム１Ａの構成図である。本実施形態の収音システム１Ａは、音声認識サーバ２０の処理および音声再生部１１Ａの処理が、第１の実施形態と異なる。したがって、異なる箇所のみを説明する。

本実施形態の音声認識サーバ２０は、上述のタイミング情報Ｃｔｐとともに、収音信号Ｓｓが入力されてからコンテンツ認識が終了するまでの時間を計時する。音声認識サーバ２０は、計時した時間を、コンテンツ認識遅延時間情報Ｃｄとして、タイミング情報Ｃｔｐとともに、収音装置１０Ａの音声再生部１１Ａへ出力する。

音声再生部１１Ａは、タイミング情報Ｃｔｐに基づく時間と、コンテンツ認識遅延時間情報に基づく時間とを加算して、再生タイミングを決定する。音声再生部１１Ａは、決定した再生タイミングの位置から、コンテンツ音声ファイルＣｍを再生し、擬似エコー生成部１２１へ出力する。

このような構成とすることで、コンテンツ認識の遅延時間を加味して、擬似エコー信号の元となるコンテンツ音声を再生できる。これにより、認識開始当初の所定時間は、有効なエコーキャンセル処理が行われないが、所定時間以降は、適切で有効なエコーキャンセル処理を行うことができる。

次に、第３の実施形態に係る収音システムについて図を参照して説明する。図４は本実施形態の収音システム１Ｂの構成図である。本実施形態の収音システム１Ｂは、第１の実施形態に示した収音システム１と、収音装置の構成が部分的に異なる。したがって、以下では、異なる箇所のみを説明する。

本実施形態の収音装置１０Ｂは、マイクロホンＭＣとエコーキャンセル部１２のポストプロセッサ１２２との間に、遅延回路１３を備える。遅延回路１３は、収音信号Ｓｓを所定時間長に亘りバッファリングする回路である。遅延回路１３には、音声再生部１１から情報取得タイミング信号ＴＤが与えられる。遅延回路１３は、情報取得タイミング信号ＴＤを受け付けると、バッファリングした収音信号Ｓｓを、情報取得タイミングに応じて順次エコーキャンセル部１２のポストプロセッサ１２２へ出力する。

このような構成とすれば、音声認識サーバ２０やコンテンツサーバ３０の処理に或程度の時間を要してしまっても、当該時間に応じて、エコーキャンセル部１２に収音信号Ｓｓが遅延入力される。これにより、より確実なエコーキャンセル処理を実現することができる。

なお、上述の説明では、メディア再生装置９００からコンテンツ音声を再生する場合を示したが、外部のストリーミング用コンテンツサーバからコンテンツ音声をストリーミングして、収音装置とは別体のスピーカから放音するような場合であっても、上述のような構成を利用でき、確実なエコーキャンセル処理を実現できる。

さらには、例えばＣＤをメディアとしてＣＤプレイヤで楽曲を再生する場合のように、当該楽曲を別体のスピーカから放音するような場合であっても、上述のような構成を利用でき、確実なエコーキャンセル処理を実現できる。

この場合、上述の音声認識サーバ２０は、楽曲認識サーバに置き換えればよい。楽曲認識サーバには、楽曲毎の楽曲音に対するフォルマントデータ列を記憶されており、相関レベルの高い楽曲を検出すると、楽曲情報とタイミング情報とを出力する。コンテンツサーバ３０には、楽曲毎に楽曲音データが記憶されており、楽曲情報に基づいて、該当する楽曲音データを出力する。収音装置１０の音声再生部は、音楽再生部として機能し、楽曲音データとタイミング情報とからエコーキャンセル用の音楽信号を生成する。

１，１Ａ，１Ｂ−収音システム、１０，１０Ａ，１０Ｂ−収音装置、１１，１１Ａ−音声再生部、１２−エコーキャンセル部、１２１−擬似エコー生成部、１２２−ポストプロセッサ、１２３−適応パラメータ設定部、１３−遅延回路、２０−音声認識サーバ、３０−コンテンツサーバ、９００−メディア再生装置、ＭＣ−マイクロホン、ＳＰ−スピーカ

Claims

収音信号を生成するマイクロホンと、
マイクロホンの収音信号に基づいてエコーと同じ音声再生信号を生成する音声再生部と、
エコーキャンセル後の収音信号から設定される適応パラメータと前記音声再生信号とから擬似エコー信号を生成して、前記収音信号から減算することでエコーキャンセル処理を行うエコーキャンセル部と、
を備えた収音装置。
請求項１に記載の収音装置であって、
前記マイクロホンと前記エコーキャンセル部との間に配設され、前記マイクロホンから出力される収音信号を、前記音声再生信号の生成時間に基づいて遅延処理する遅延回路を、備えた収音装置。
請求項１に記載の収音装置と、
前記マイクロホンから出力される収音信号からコンテンツ情報および再生タイミング情報を検出する音声認識サーバと、
前記コンテンツ情報から当該コンテンツの音声データを読み出すコンテンツサーバと、を備え、
前記音声再生部は、再生タイミング情報と音声データとに基づいて前記音声再生信号を生成する、収音システム。
請求項３に記載の収音システムであって、
前記音声認識サーバは、音声認識にかかる時間を検出し、前記再生タイミング情報とともに、音声認識遅延時間情報を、前記音声再生部へ出力し、
前記音声再生部は、前記再生タイミング情報に基づく時間に、前記音声認識遅延時間情報に基づく時間を加算して、音声再生のタイミングを決定する、収音システム。
請求項２に記載の収音装置と、
前記マイクロホンから出力される収音信号からコンテンツ情報および再生タイミング情報を検出する音声認識サーバと、
前記コンテンツ情報から当該コンテンツの音声データを読み出すコンテンツサーバと、を備え、
前記音声再生部は、再生タイミング情報と音声データとに基づいて前記音声再生信号を生成し、
前記遅延回路は、前記音声再生部への情報入力タイミングに基づく遅延量で、前記収音信号を遅延させる、収音システム。