JP6646677B2

JP6646677B2 - 音声信号処理方法および装置

Info

Publication number: JP6646677B2
Application number: JP2017544147A
Authority: JP
Inventors: 遼一高島; 洋平川口; 貴志住吉; 真人戸上
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2015-10-09
Filing date: 2015-10-09
Publication date: 2020-02-14
Anticipated expiration: 2035-10-09
Also published as: WO2017061023A1; US10629222B2; JPWO2017061023A1; US20190035418A1

Description

本発明は、複数の音源が混ざった音を分離する音声信号処理方法および装置に関する。

本技術分野の背景技術として、特許文献１および特許文献２がある。特許文献１には、「２個のマイクロホンで観測された観測信号の複素スペクトルを得、観測信号の複素スペクトルのマイクロホン間位相差を各時間周波数について計算する。１個のマイクロホンで観測された観測信号から得られた観測信号の複素スペクトル、特徴量作成部で得られたマイクロホン間位相差、および音源信号の複素スペクトルの分布を表す事前情報を用い、各時間周波数での各音源に対応する観測信号の複素スペクトルおよびマイクロホン間位相差の分布を表す確率モデルのパラメタを推定する。推定されたパラメタから得られる各時間周波数での各音源の観測信号の複素スペクトルおよびマイクロホン間位相差に対する寄与率を用い、各時間周波数での当該寄与率および観測信号の複素スペクトルから、分離信号の複素スペクトルを抽出し、それを時間領域の分離信号に変換する」技術が開示されている（要約参照）。また、特許文献２には、「音声認識システムにおける音圧・周波数特性測定装置は、音声入力がない時間帯における環境雑音をマイクロホンから取り込み、その音圧と周波数特性の時間変化量を測定する。音声認識可否判定装置は、前記測定された環境雑音の音圧と周波数特性時間変化量を基にして、音声認識が「良好」、「可能」、または「不可」であるかを判定する。前記音声認識可否判定装置の判定結果は、状況通知装置によって、使用者に通知される。」技術が開示されている。

特開２０１３−１８６３８３号公報特開２００４−２７１５９６号公報

本発明は、複数の音が混ざった信号を分離して、各音源の音を抽出する音声信号処理に関する発明である。特許文献１では、複数のマイクロホンで収録された音信号を入力として、各音源の音を抽出する装置および方法が記載されている。しかしこの方法は、各マイクロホンが同期して音を収録することを前提としている。各収録系が同期していない場合、収録開始タイミングの違いや、サンプリング周波数の違いによって観測信号間の位相差が変化するため、分離性能が低下し、仮に後段に音声認識を行う場合は、音声認識性能も低下する。

特許文献２では、周囲環境雑音の音圧を用いて音声認識のしやすさを判定する方法が記載されているが、非同期収録デバイスによる音声認識性能の低下を判定する方法については言及されていない。

本発明の目的は、複数のデバイスが非同期で収録した音を入力とする場合であっても、各音源の音を分離する音声信号処理方法および装置を提供することにある。

上記課題を解決するために本発明は、それぞれがマイクとスピーカを備える複数の音声入出力デバイスを含むシステムにおける音声信号処理方法であって、前記複数の音声入出力デバイスに対して、それぞれ異なる周波数の参照信号を出力し、前記異なる周波数の参照信号に応じて前記複数の音声入出力デバイスのスピーカからそれぞれ出力された音の電気信号であるスピーカ出力信号を前記複数の音声入出力デバイスからそれぞれ受信し、前記複数の音声入出力デバイスのマイクにそれぞれ収録された音の電気信号であるマイク入力信号を前記複数の音声入出力デバイスからそれぞれ受信し、前記複数の音声入出力デバイスからそれぞれ受信したスピーカ出力信号とマイク入力信号とから、前記デバイスごとの時間シフト量を算出し、前記算出された時間シフト量に基づいて、前記複数のデバイスの複数のマイク入力信号を分離し、前記分離したマイク入力信号である分離された音声信号を出力する構成を採用する。

本発明によれば、複数のデバイスが非同期で収録した音を入力とする場合であっても、各音源の音を分離することが可能である。

本発明の一実施形態である音声信号処理装置と音声入出力デバイスの構成図を示す。音声信号処理を音声入出力デバイスに実行させる構成図である。音声信号処理装置が音声入出力機能を有する構成図である。本実施例の信号処理装置１００、音声入出力デバイス１１０および１２０における機能ブロック図である。本実施例の信号処理装置１００の処理フローチャートである。時間シフト量計算処理（Ｓ５０２）を詳細に説明した処理フローである。各デバイスのスピーカ出力信号とマイク入力信号の例である。各デバイスにおけるマイク入力信号を、計算した時間シフト量を用いて時間合わせをした例である。分離性能評価処理（Ｓ５０５）を詳細に説明した処理フローである。２個の音声が混ざった信号に対して、低い分離性能で２個の信号に分離した場合と、高い分離性能で２個の信号に分離した場合の例である。サンプリングミスマッチ計算処理（Ｓ５０７）を詳細に説明した処理フローである。

以下、本発明の実施形態を、図面を用いて詳細に説明する。

本実施例では、複数のデバイスが非同期で収録した音声に対して音源分離を行う信号処理装置１００の例を説明する。

図１は、本実施例における音源分離システムの構成図を示す。本実施例における音声分離システムは、２個の音声入出力デバイス１１０、１２０と、音源分離を実施する信号処理装置１００が、無線で通信する構成である。

各音声入出力デバイス（１１０および１２０）は、マイク（１１１および１２１）、スピーカ（１１２および１２２）、Ａ／Ｄ変換器（１１３および１２３）、Ｄ／Ａ変換器（１１４および１２４）、中央演算装置（１１５および１２５）、メモリ（１１６および１２６）、記憶媒体（１１７および１２７）、通信制御装置（１１８および１２８）により構成されている。このような構成を持つデバイスとして、例えばスマートフォンやタブレット型ＰＣなどの携帯端末が挙げられる。

信号処理装置１００は、中央演算装置１０１、メモリ１０２、記憶媒体１０３、通信制御装置１０４から構成される。

各デバイス（１１０および１２０）では、Ｄ／Ａ変換器（１１２および１２２）でデジタル信号からアナログ信号に変換された後、スピーカ（１１２および１２２）より音声が出力される。また同時に、マイク（１１１および１２１）は周囲の音を収録し、Ａ／Ｄ変換器（１１３および１２３）によって収録したアナログ信号がデジタル信号に変換される。これらの音声入出力は非同期で行われる。

中央演算装置（１１５および１２５）は、スピーカより音として出力するデジタル信号であるスピーカ出力信号およびマイクに入力された音のデジタル信号であるマイク入力信号をメモリ（１１６および１２６）へ格納する。通信制御装置（１１８および１２８）は、メモリに格納されたスピーカ出力信号およびマイク入力信号を信号処理装置１００側の通信制御装置１０４へ送信する。

信号処理装置１００の中央演算装置１０１は、デバイス（１１０または１２０）から受信した信号をメモリ１０２へ格納した後、音源分離処理を行う。また、中央演算装置１０１は、音源分離のために必要な処理として、通信制御装置１０４を通じて参照信号を各デバイスの通信制御装置（１１８および１２８）へ送信する機能を有する。

これら一連の処理は、それぞれの記憶媒体１０３、１１７および１２７に格納されたプログラムにより実行される。

図１の構成では、各デバイス１１０、１２０と信号処理装置１００が無線によって通信するが、図２のように、音源分離処理をどちらか一方、あるいは両方のデバイスに実行させるような構成でもよい。この場合、どちらか一方、あるいは両方のデバイス内の中央演算装置（２０５および／または２１５）が音源分離処理を行う機能を有する。また、図３のように、独立したデバイスを用いずに、信号処理装置３００が音声入出力機能を有する構成（つまり、図１におけるデバイス１１０、１２０、および信号処理装置１００が一体となった構成）もあり得る。本実施例では、図１における構成を例として説明する。

図４は、本実施例の信号処理装置１００、音声入出力デバイス１１０および１２０における機能ブロック図である。

各デバイス（１１０、１２０）は、データ送受信部（４１１および４２１）が、参照信号（および、後段処理部４０６が出力した信号でありスピーカから出力される音の信号）を、信号処理装置１００側のデータ送受信部４０２より受信し、Ｄ／Ａ変換部（４１３および４２３）を通じてスピーカ（１１２および１２２）から出力させる。また同時にマイク（１１１および１２１）が収録した周囲の音をＡ／Ｄ変換部（４１２および４２２）によってデジタル信号（マイク入力信号）に変換した後、データ送受信部（４１１および４２１）より信号処理装置１００側のデータ送受信部４０２へ送信する。

信号処理装置１００内の時間シフト量計算部４０１は、各デバイスのマイク入力信号間の時間シフト量、デバイス毎のマイク入力信号とスピーカ出力信号間の時間シフト量を計算するために、参照信号をデータ送受信部４０２に送信し、それにより、参照信号がデータ送受信部（４１１、４２１）に送信され、各デバイスのＤ／Ａ変換部（４１２、４２３）を通じて音がスピーカ（１１２、１２２）より出力される。このとき、時間シフト量計算部４０１は、各デバイスのマイク入力信号とスピーカ出力信号を、データ送受信部（４０２、４１１、４２１）を通じて受信し、時間シフト量を計算する。

信号分離部４０３は、データ送受信部４０２より入力されるマイク入力信号およびスピーカ出力信号と、時間シフト量計算部４０１によって計算された時間シフト量を入力として、信号分離およびエコー除去を行う。ここで、各デバイスについて、エコーとは、当該デバイスのスピーカより出力されて当該デバイスのマイクに回り込んで収録される音声の信号のことを指す。信号分離部４０３は、分離後信号、マイク入力、スピーカ出力を分離性能評価部４０４に出力する。

分離性能評価部４０４は、信号分離部４０３から送信される分離後信号を入力として、分離性能を評価する。このとき、分離性能が閾値以下であれば、時間シフト量計算モード切り替え指示を時間シフト量計算部４０１へ送信することで、時間シフト量計算部４０１は、再度時間シフト量計算処理を行う。

サンプリングミスマッチ計算部４０５は、分離性能評価部４０４から送信されるマイク入力信号、分離後信号、スピーカ出力信号を入力として、サンプリング周波数の誤差に起因する時間シフト量を逐次計算し、信号分離部４０３へフィードバックする。

サンプリングミスマッチ計算部４０５は、分離後信号を後段処理部４０６へ出力し、後段処理部４０６は、受信した分離後信号を用いて何らかの処理を行い、処理した結果である何らかの音を、データ送受信部４０２を通じて各デバイスのスピーカより出力させる。後段処理部４０６による処理としては、例えば分離後信号を用いて音声認識を行い、認識結果を用いて別の言語に翻訳し、その翻訳音声をスピーカより出力させるような音声翻訳処理が挙げられる。

図５は、本実施例の信号処理装置１００の処理フローチャートである。処理開始（Ｓ５０１）後、まず時間シフト量計算部４０１が、各デバイスのマイク入力信号間の時間シフト量と、デバイス毎のマイク入力信号とスピーカ出力信号との間の時間シフト量を計算する（Ｓ５０２）。その後、各デバイスは常時音声入出力を行い続け、都度マイク入力信号およびスピーカ出力信号を信号処理装置１００へ送信し続ける（Ｓ５０３）。次に、信号分離部４０３は、マイク入力信号に対して、音源分離およびエコー除去を行う（Ｓ５０４）。次に、分離性能評価部４０４は分離後の信号に対して分離性能を評価する（Ｓ５０５）。

Ｓ５０５の評価処理において、分離性能が閾値以下であった場合は（Ｓ５０６：Ｙｅｓ）、デバイスの入出力間の同期が取れていないと判断し、再度時間シフト量計算処理（Ｓ５０２）を実施する。分離性能が閾値を超えた場合は（Ｓ５０６：Ｎｏ）、サンプリングミスマッチ計算部４０５が各デバイスのサンプリング周波数の誤差に起因する時間シフト量を逐次計算する（Ｓ５０７）。そして、音声認識などの後段処理を行い、必要に応じてスピーカへの出力を行う（Ｓ５０８）。マイク入力信号、スピーカ出力信号からの音源分離、分離性能評価、サンプリングミスマッチ計算、後段処理（Ｓ５０３〜Ｓ５０８）は繰り返し行われる。以降、各処理について詳細を記載する。

図６は、図５における時間シフト量計算処理（Ｓ５０２）を細かく説明した処理フローである。まず、時間シフト量計算部４０１が、データ送受信部４０２、４１１、４２１を通じて参照信号に応じた音をスピーカ１１２、１２２より出力させる（Ｓ６０２）。次に各デバイスは、参照信号に応じた音を出力した時間帯におけるスピーカ出力信号とマイク入力信号を、データ送受信部４１１、４２１、４０２を通じて時間シフト量計算部４０１へ送信する（Ｓ６０３）。そして時間シフト量計算部４０１は、各デバイスのマイク入力間の時間シフト量およびデバイス毎のマイク入力とスピーカ出力間の時間シフト量を計算する（Ｓ６０４）。

図７は、各デバイスのスピーカ出力信号とマイク入力信号の例である。まず、仮にデバイス毎にＡ／Ｄ変換とＤ／Ａ変換が同期して動いていたとすると、スピーカ出力信号とマイク入力信号には同タイミングで参照信号が観測される。しかしＡ／Ｄ変換とＤ／Ａ変換が同期していない場合は、デバイス毎のスピーカ出力とマイク入力の間には、デバイス内の処理遅延に起因した時間シフトが存在する。また、デバイス毎のマイク入力信号は、収録開始タイミングが異なることに起因した時間シフトが存在する（図７参照）。

時間シフト量計算処理（図５のＳ５０２）では、これらの時間シフト量を計算する。その方法として、それぞれ対応した参照信号同士で相互相関関数を計算し、相互相関係数がピークとなる時刻を用いて、信号間の時間シフト量を計算することが可能である。しかしこのとき、対応していない参照信号同士の相互相関関数が計算され、誤った時間シフト量が計算される場合が存在する。

図７においては、デバイス１、デバイス２の順番で音が出力され、それぞれの音が各デバイスのマイクによって収録されている。このとき、それぞれマイクで収録された音を示す２個のマイク入力信号のうち、先に収録された信号がデバイス１のスピーカ出力信号、後に収録された信号がデバイス２のスピーカ出力信号と対応するべきである。しかし、デバイス毎の音の出力間隔が短く音がオーバーラップするような場合などでは、対応していない音同士の相互相関関数が計算され、ただしく時間シフト量が計算されなくなる場合がある。その対策として、本実施例ではデバイス毎に固有の周波数帯域を持つ参照信号が送信される。デバイス毎に設定した周波数帯域に絞って相互相関関数を計算することで、対応しない音同士の相互相関関数は低い値となり、そのため時間シフト量を安定して計算することが可能となる。

また、本実施例においては、可聴域の音が出力される。一方、超音波などの非可聴域の音を所定間隔で（または常時）出力させることで、音声分離処理と並列して時間シフト量を随時計算することも可能である。

信号処理装置１００は、時間シフト量計算部４０１が計算した時間シフト量を用いて、非同期のマイク入力信号およびスピーカ出力信号間の時間合わせを行う。

図８は、各デバイスにおけるマイク入力信号を、計算した時間シフト量を用いて時間合わせを行った例である。各信号の時間が合っていない場合、従来から用いられているような、複数マイクロホンを用いた音源分離手法やエコーキャンセリング手法を適用することは困難である。その理由は、上述したように、従来の音源分離手法やエコーキャンセリング手法は、複数マイク間、またはマイクとスピーカ間が同期していることが前提であるからである。

そこで本実施例では、時間シフト量計算部４０１が計算した時間シフト量を用いて各信号の時間を合わせることで、音源分離およびエコーキャンセリングを実施可能にさせる。なお、音源分離およびエコーキャンセリングは、それぞれ公知のマイクロホンアレーを用いた方式やエコーキャンセリングの方式を用いている。

図９は、分離性能評価処理（図５のＳ５０５）を細かく説明した処理フローである。この処理では、信号分離部４０３によって分離された複数の音信号について、分離性能評価部４０４が分離信号同士の類似度や相関係数などを計算することで、分離性能を評価する。例えば分離信号同士の類似度を計算し（Ｓ８０２）、計算された類似度の逆数を性能評価値とする（Ｓ８０３）。

図１０は、ある２個の音声が混ざった信号に対して、低い分離性能で２個の信号に分離した場合と、高い分離性能で２個の信号に分離した場合の例である。基本的に混ざる音声はそれぞれ独立な内容の発話であるため、もし高い性能で分離が行われている場合、分離後の信号は互いに類似しない独立な音声になる。一方、分離性能が低い場合、分離後の信号にはそれぞれの音声が互いにノイズとして残留するため、分離後信号同士は互いに類似した音声になる。この性質を利用して、分離後の信号同士の類似度や相関係数を用いて、分離性能を評価する。

類似度としては、例えば互いの信号のユークリッド距離を測り、その逆数を使う等が挙げられる。求めた類似度や相関係数を用いて、例えばその逆数を、分離性能を表す指標とし、その値があらかじめ定めた閾値以下であれば、分離が正しく行われていないと判定することが可能である。あるいは、類似度や相関係数をそのまま用いて、その値が定めた閾値以上であれば、分離が正しく行われていないと判定することも可能である。

本実施例では、分離性能評価部４０４による評価処理において、分離が正しく行われていないと判定された場合、時間シフト量の計算が正しくできていないと判断し、時間シフト計算処理（Ｓ５０２）を再度行う構成を取っている。これにより、分離処理の途中で信号間の時間合わせが精度良くできていない場合であっても、それを自動的に検知して、再度時間シフト計算処理を実施することが可能となる。

図１１は、サンプリングミスマッチ計算処理（図５のＳ５０７）を詳しく説明した処理フローである。サンプリングミスマッチ計算部４０５は、デバイス毎のマイク入力信号間の相互相関関数を計算することで、各デバイスのマイク入力信号間の時間シフト量を計算する（Ｓ１００２）。そして分離後のエコー成分とスピーカ出力信号間の相互相関関数を計算することで、デバイス毎のマイク入力・スピーカ出力間の時間シフト量を計算する（Ｓ１００３）。

時間シフト量は、最初に処理Ｓ５０２で計算されたとしても、分離処理や後段処理を継続して行ううちに変化していく。これは、デバイス毎によってサンプリング周波数に誤差があるためである。よって、逐次的に時間シフト量を再計算することが必要となるが、毎回参照信号を出力することは後段処理の妨げになる。そこで、サンプリングミスマッチ計算処理Ｓ５０７では、参照信号の代わりにマイク入力とスピーカ出力を使って逐次的に時間シフト量を計算する。

まず、各デバイスのマイク入力信号間の時間シフト量の計算（Ｓ１００２）は、音源分離前のマイク入力信号間の相互相関関数を計算し、そのピークを探索することで可能である。次に、デバイス毎のマイク入力・スピーカ出力間の時間シフト量を計算する（Ｓ１００３）。このとき、マイク入力信号にはスピーカ出力によるエコー成分の他、外部の音声も混ざっているため、音源分離処理によって得られるエコー成分と、スピーカ出力の間の相互相関関数を計算し、そのピークを探索することで、デバイス毎のマイク入力・スピーカ出力間の時間シフト量を計算する。

なお、前述の通り、非可聴域の音が用いられる場合は、非可聴域の音の参照信号を所定の間隔で（または常時）出力することで、逐次時間シフト量を計算することが可能である。

１００音声信号処理装置
１０１音声信号処理装置１００の中央演算装置
１０２音声信号処理装置１００のメモリ
１０３音声信号処理装置１００の記憶媒体
１０４音声信号処理装置１００の通信制御装置
１１０音声入出力デバイス１
１１１音声入出力デバイス１（１１０）のマイク
１１２音声入出力デバイス１（１１０）のスピーカ
１２０音声入出力デバイス２
１２１音声入出力デバイス２（１２０）のマイク
１２２音声入出力デバイス２（１２０）のスピーカ
４０１時間シフト量計算部
４０２データ送受信部
４０３信号分離部
４０４分離性能評価部
４０５サンプリングミスマッチ計算部
４０６後段処理部
４１１音声入出力デバイス１（１１０）におけるデータ送受信部
４１２音声入出力デバイス１（１１０）におけるＡ／Ｄ変換部
４１３音声入出力デバイス１（１１０）におけるＤ／Ａ変換部
４２１音声入出力デバイス２（１２０）におけるデータ送受信部
４２２音声入出力デバイス２（１２０）におけるＡ／Ｄ変換部
４２３音声入出力デバイス２（１２０）におけるＤ／Ａ変換部

Claims

それぞれがマイクとスピーカを備える複数の音声入出力デバイスを含むシステムにおける音声信号処理方法であって、
前記複数の音声入出力デバイスに対して、それぞれ異なる周波数の参照信号を出力し、
前記異なる周波数の参照信号に応じて前記複数の音声入出力デバイスのスピーカからそれぞれ出力された音の電気信号であるスピーカ出力信号を前記複数の音声入出力デバイスからそれぞれ受信し、
前記複数の音声入出力デバイスのマイクにそれぞれ収録された音の電気信号であるマイク入力信号を前記複数の音声入出力デバイスからそれぞれ受信し、
前記複数の音声入出力デバイスからそれぞれ受信したスピーカ出力信号とマイク入力信号とから、前記音声入出力デバイスごとの時間シフト量を算出し、
前記算出された時間シフト量に基づいて、前記複数の音声入出力デバイスの複数のマイク入力信号を分離し、
前記分離したマイク入力信号である分離された音声信号を出力する
ことを特徴とする音声信号処理方法。
前記分離された音声信号から分離性能を評価し、
前記評価された分離性能が閾値を超えている場合、前記分離されたマイク入力信号と、前記複数の音声入出力デバイスのスピーカ出力信号から、それらの信号どうしの時間シフト量を算出し、
前記算出された時間シフト量に基づいて、各マイク入力信号の分離を行う
ことを特徴とする請求項１記載の音声信号処理方法。
前記分離された音声信号から分離性能を評価し、
前記評価された分離性能が閾値以下の場合、前記複数の音声入出力デバイスに、それぞれ異なる周波数の参照信号を再度送信する
ことを特徴とする請求項１記載の音声信号処理方法。
前記分離性能を、前記分離された音声信号間の類似度あるいは相関係数を用いて評価する
ことを特徴とする請求項２記載の音声信号処理方法。
前記参照信号は、非可聴域の信号である
ことを特徴とする請求項１記載の音声信号処理方法。
前記複数の音声入出力デバイスのスピーカから所定間隔で非可聴域の音が出力され、
前記スピーカから非可聴域の音が出力されたときに、前記音声入出力デバイスごとの時間シフト量を算出する
ことを特徴とする請求項５記載の音声信号処理方法。
それぞれがマイクとスピーカを含む複数の音声入出力デバイスに対して、それぞれ異なる周波数の参照信号を送信するとともに、前記複数の音声入出力デバイスのスピーカが出力した音の電気信号であるスピーカ出力信号と、前記複数の音声入出力デバイスのマイクにそれぞれ収録された音の電気信号であるマイク入力信号を受信するデータ送受信部と、
前記複数の音声入出力デバイスからそれぞれ受信したスピーカ出力信号とマイク入力信号に基づいて、前記音声入出力デバイスごとの時間シフト量を算出する時間シフト量計算部と、
前記算出された時間シフト量に基づいて、前記複数の音声入出力デバイスの複数のマイク入力信号を分離する信号分離部と
を備え、
前記データ送受信部は、前記分離されたマイク入力信号である分離された音声信号を前記複数の音声入出力デバイスに送信することを特徴とする音声信号処理装置。
前記参照信号は、非可聴域の信号である
ことを特徴とする請求項７記載の音声信号処理装置。
前記時間シフト量計算部は、前記スピーカ出力信号と前記マイク入力信号とに基づいて、前記音声入出力デバイスごとの時間シフト量を所定の間隔で算出する
ことを特徴とする請求項８記載の音声信号処理装置。
マイクとスピーカを含む音声入出力デバイスを複数備えるシステムにおける音声信号処理方法であって、
前記音声入出力デバイスに含まれるマイクとスピーカは非同期であり、
前記複数のマイクは非同期であり、
前記複数の音声入出力デバイスのスピーカからそれぞれ出力された音の電気信号であるスピーカ出力信号と、前記複数の音声入出力デバイスのマイクにそれぞれ収録された音の電気信号であるマイク入力信号とに基づいて、前記マイクとスピーカの時間シフト量を計算し、
前記計算結果に基づいて、前記マイク入力信号を分離する
ことを特徴とする音声信号処理方法。