JP6800809B2

JP6800809B2 - 音声処理装置、音声処理方法およびプログラム

Info

Publication number: JP6800809B2
Application number: JP2017108959A
Authority: JP
Inventors: 寧丁; 籠嶋　岳彦; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-06-01
Filing date: 2017-06-01
Publication date: 2020-12-16
Anticipated expiration: 2037-06-01
Also published as: JP2018205449A; US20180350370A1; US10504523B2

Description

本発明の実施形態は、音声処理装置、音声処理方法およびプログラムに関する。

複数の話者が参加する会議での発話を認識し、議事録の作成などを行う会議システムが知られている。このような会議システムでは、例えば、複数の話者ごとにマイクが割り当てられ、マイクから入力された音声が認識される。

特開２００８−３０９８５６号公報特開２０１４−０４１３０８号公報

しかしながら、従来技術では、複数の話者が同時に発話したときに、ある話者のマイクに他の話者の声が回り込み、認識精度が劣化する場合があった。

実施形態の音声処理装置は、受付部と、分離部と、出力制御部と、を備える。受付部は、ｎ個（ｎは２以上の整数）の音源に対応するｎ個の音声入力装置に入力されたｎ個の入力信号を受け付ける。分離部は、入力信号を、音源ごとに分離してｎ個の分離信号を生成する。出力制御部は、音声を発した音源の個数に応じて、入力信号に基づいて生成される出力信号と、分離信号に基づいて生成される出力信号と、を切り替えて出力する。

第１の実施形態にかかる音声処理装置のハードウェア構成図。第１の実施形態にかかる音声処理装置の機能ブロック図。第１の実施形態における音声処理のフローチャート。音源数が１と判定される場合の処理の例を示す図。音源数が２と判定される場合の処理の例を示す図。第２の実施形態にかかる音声処理装置の機能ブロック図。音源数が１と判定される場合の処理の例を示す図。第３の実施形態にかかる音声処理システムの構成ブロック図。

以下に添付図面を参照して、この発明にかかる音声処理装置の好適な実施形態を詳細に説明する。

（第１の実施形態）
第１の実施形態にかかる音声処理装置は、音声を発した音源の個数（音源数）に応じて、入力信号に基づいて生成される出力信号と、分離信号に基づいて生成される出力信号と、を切り替えて出力する。入力信号は、例えばマイクなどの音声入力装置により取得される音声の信号である。分離信号は、入力信号を音源ごとに分離して得られる信号である。

例えば、音源の個数が２以上の場合は、分離信号が出力信号として出力される。これにより回り込み音声を抑制可能となる。また、音源の個数が１つの場合は、音源に対応するマイクから入力される入力信号が出力信号として出力される。これにより、音源分離に伴う信号の歪みの発生を回避可能となる。音声の回り込みの抑制、および、信号の歪みの回避により、後段の音声認識などの処理の精度を向上させることが可能となる。

図１は、第１の実施形態にかかる音声処理装置１００のハードウェア構成例を示す説明図である。なお第２の実施形態以降の各実施形態についても同様のハードウェア構成を適用できる。

音声処理装置１００は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、マイク５４−１〜５４−ｎと、ネットワークに接続して通信を行う通信Ｉ／Ｆ５５と、各部を接続するバス６１を備えている。

マイク５４−１〜５４−ｎは、音源からの音を入力する音声入力装置の一例である。例えば、ｎ個（ｎは２以上の整数）の音源それぞれに対応してｎ個のマイク５４−１〜５４−ｎが備えられる。区別する必要がない場合は、マイク５４−１〜５４−ｎを単にマイク５４という場合がある。

例えば音声処理装置１００が会議システムに適用される場合であれば、会議の参加者（話者）ごとに、１つのマイク５４が割り当てられる。参加者は、遠隔会議を行う場合の遠隔地に存在する参加者であってもよい。この場合、遠隔地の参加者の発話を出力するスピーカなどの音声出力装置が音源の１つに相当する。マイク５４は、入力された音に対応する入力信号を出力する。

図２は、第１の実施形態にかかる音声処理装置１００の機能構成例を示すブロック図である。図２に示すように、音声処理装置１００は、受付部１１１と、分離部１１２と、判定部１１３と、出力制御部１１４と、認識部１１５と、を有する。

図２の各部は、例えば、１または複数のプロセッサにより実現される。例えば各部は、ＣＰＵ５１などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

各部は、必要に応じて、処理に用いるデータなどを記憶装置に記憶したり、データなどを記憶装置から読み出して利用したりしてもよい。記憶装置は、上記のＲＯＭ５２およびＲＡＭ５３の他、ＨＤＤ（Hard Disk Drive）、光ディスク、および、メモリカードなどの任意の記憶媒体を用いることができる。記憶装置は、物理的に異なる記憶媒体としてもよいし、物理的に同一の記憶媒体の異なる記憶領域として実現してもよい。さらに記憶装置のそれぞれは、物理的に異なる複数の記憶媒体により実現してもよい。

受付部１１１は、ｎ個のマイク５４−１〜５４−ｎに入力されたｎ個の入力信号を受け付ける。

分離部１１２は、入力信号を音源ごとに分離する音源分離を実行し、複数の分離信号を生成する。分離部１１２は、ｎ個の音源に対応するｎ個の入力信号を入力し、ｎ個の音源に対応するｎ個の分離信号を生成する。分離部１１２は、例えば、複数の入力信号をマイクアレイ分離方法により、逐次で音源ごとに分離する。分離方法は、独立成分分析（ＩＣＡ：Independent Component Analysis）に基づく方法でもよいし、時間−周波数マスキング（Time-frequency Masking）に基づく方法でもよい。

特許文献２の方法に基づく実時間の音源分離方法を適用してもよい。この方法では、入力信号を用いて補助変数が推定される。そして、推定された補助変数の値と分離行列とに基づいて、近似補助関数の関数値が最小になるように分離行列が更新される。最後に更新された分離行列を用いて入力信号が分離される。

判定部１１３は、所定の期間に同時に音声を発した音源の個数を判定する。所定の期間は、例えば、音声認識の単位となる信号を取得する期間に相当する。例えば判定部１１３は、分離信号が音声の信号であることの尤度（音声らしさ）を求める。判定部１１３は、尤度が閾値以上である分離信号の個数を、音声を発した音源の個数であると判定する。音声の信号であることの尤度は、例えば、ＳＮＲ（Signal to Noise Ratio：信号対雑音比）、スペクトルエントロピー、および、クロスエントロピーなどを用いた任意の指標を用いることができる。

判定部１１３は、分離信号のパワーを用いて音源の個数を判定してもよい。例えば判定部１１３は、分離信号ごとにパワーを計算する。判定部１１３は、パワーが閾値以上となる分離信号の個数を、音声を発した音源の個数であると判定する。

パワーと比較する閾値は、予め決めた閾値であってもよいし、計算した各分離信号のパワーから算出した値であってもよい。例えば判定部１１３は、分離信号のパワーの平均値（平均パワー）を算出し、この平均値を閾値としてもよい。判定部１１３は、パワーが平均パワー以上となる分離信号の個数を、音声を発した音源の個数であると判定する。

出力制御部１１４は、認識部１１５に対する出力信号の出力を制御する。例えば出力制御部１１４は、音声を発した音源の個数に応じて、入力信号に基づいて生成される出力信号と、分離信号に基づいて生成される出力信号と、を切り替えて出力する。

より具体的には、出力制御部１１４は、音声を発した音源の個数が１の場合、入力信号に基づいて生成される出力信号を出力する。例えば出力制御部１１４は、ｎ個の入力信号のうち、音声認識に対してより有効な１つの入力信号を選択し、出力信号として出力する。より具体的には、出力制御部１１４は、複数の入力信号のパワーまたはＳＮＲを計算し、パワーまたはＳＮＲが最も大きい入力信号を、音源である話者から最も近いマイク５４で取得された入力信号であると判定し、選択する。

音源と入力信号との対応がわかっている場合は、出力制御部１１４は、ｎ個の入力信号のうち、音声を発したと判定された１の音源に対応する入力信号を選択し、出力信号として出力してもよい。

音声を発していないと判定された音源に対しては、出力制御部１１４は、出力信号を出力しなくてもよい（ミュートにする）。なお、入力信号から１つを選択する方法は、後述する第２の実施形態のように信号を強調する処理などが不要であり、計算量を抑制することができる。

出力制御部１１４は、音声を発した音源の個数が２以上の場合、分離信号に基づいて生成される出力信号を出力する。出力制御部１１４は、例えば、ｎ個の分離信号を、ｎ個の音源それぞれに対応するｎ個の出力信号として出力する。

なお音声を発した音源がない場合（音源数＝０）、出力制御部１１４は、例えば、出力信号を出力しない。

認識部１１５は、出力信号に対して音声認識を実行する。例えば認識部１１５は、音源（話者）ごとに、音源に対応して出力された出力信号の音声認識を実行する。音声認識とともに、または、音声認識の代わりに、音声認識以外の音声処理を実行してもよい。

なお、音声処理装置１００を会議システムに適用する場合であれば、音声処理装置１００が、会議を制御するための機能部をさらに備えてもよい。例えば音声処理装置１００は、音声認識の結果を表示する機能、音声認識の結果を用いて議事録を作成する機能、および、入力信号または出力信号に基づく音声を出力する機能などを備えてもよい。

次に、このように構成された第１の実施形態にかかる音声処理装置１００による音声処理について図３を用いて説明する。図３は、第１の実施形態における音声処理の一例を示すフローチャートである。

受付部１１１は、マイク５４により取得された入力信号の入力を受け付ける（ステップＳ１０１）。分離部１１２は、入力信号に対して音源分離を実行し、音源ごとの分離信号を出力する（ステップＳ１０２）。判定部１１３は、分離信号に基づいて、音声を発した音源の個数（音源数）を判定する（ステップＳ１０３）。

出力制御部１１４は、音源数が１であるか否かを判定する（ステップＳ１０４）。音源数が１の場合（ステップＳ１０４：Ｙｅｓ）、出力制御部１１４は、入力信号を用いて出力信号を生成する（ステップＳ１０５）。例えば出力制御部１１４は、ｎ個の入力信号のうち１つの入力信号を選択し、出力信号として出力する。

音源数が１でない場合（ステップＳ１０４：Ｎｏ）、出力制御部１１４は、音源数が２以上であるか否かを判定する（ステップＳ１０６）。音源数が２以上の場合（ステップＳ１０６：Ｙｅｓ）、出力制御部１１４は、分離信号を用いて出力信号を生成する（ステップＳ１０７）。例えば出力制御部１１４は、ｎ個の分離信号を、ｎ個の音源それぞれに対応するｎ個の出力信号とする。

音源数が２以上でない場合（ステップＳ１０６：Ｎｏ）、および、ステップＳ１０５またはステップＳ１０７で出力信号が生成された後、認識部１１５は、出力信号に対する音声認識を実行する（ステップＳ１０８）。なお、音源数が２以上でない場合とは、例えば、音声を発した音源がない場合である。上記のように、このような状況では出力信号が出力されない場合がある。出力信号が出力されない場合は、認識部１１５は、音声認識を実行しなくてよい。

次に、音声処理装置１００による音声処理の具体例について図４および図５を用いて説明する。図４は、音源数が１と判定される場合の処理の例を示す図である。図５は、音源数が２と判定される場合の処理の例を示す図である。

図４および図５は、音源である話者が３人（話者４０１−１、４０１−２、４０１−３）である場合の例である。各話者に対応して、３つのマイク５４−１、５４−２、５４−３が設置される。

入力信号の数はマイク５４の本数と同じである。例えば、図４に示すように話者４０１−１のみが発話した場合、話者４０１−１の発話４０２−１に対して、マイク５４−１、５４−２、および、５４−３から、それぞれ、入力信号４０３−１、４０３−２、および、４０３−３が出力される。

分離部１１２は、３つの入力信号に対して音源分離を実行し、各音源（各マイク５４）に対応する３つの分離信号４０４−１、４０４−２、４０４−３を出力する（ステップＳ４０１）。

なお、音源分離では、分離信号の振幅を決めるために、バックプロジェクション（back-projection）処理が必要となる場合がある。バックプロジェクションは、分離信号を、選択した入力信号に逆投影し、分離信号の振幅を決める処理である。

複数のマイク５４間の距離が近い場合、各マイク５４の入力信号の振幅はあまり変わらない。このため、任意のマイク５４の入力信号を用いてバックプロジェクションを実行すればよい。一方、複数のマイク５４間の距離が遠い場合、各マイク５４の入力信号の振幅は大きく異なる。このため、任意のマイク５４の入力信号を用いてバックプロジェクションを実行すると、分離信号に悪影響が生じる場合がある。

図４の例では、複数のマイク５４間の距離が遠い場合、マイク５４−１を用いて話者４０１−１の発話４０２−１を取得した入力信号４０３−１は、マイク５４−３を用いて話者４０１−１の発話４０２−１を取得した入力信号４０３−３より振幅が大きい。入力信号４０３−３を用いて話者４０１−１の分離信号４０４−１のバックプロジェクションを実行すると、話者４０１−１の分離信号４０４−１は小さくなる。

本実施形態では、各話者から一番近いマイクの入力信号に基づいて、バックプロジェクションを行う。図４の例では、入力信号４０３−１を用いて話者４０１−１の分離信号４０４−１のバックプロジェクションを実行する。入力信号４０３−２を用いて話者４０１−２の分離信号４０４−２のバックプロジェクションを実行する。入力信号４０３−３を用いて話者４０１−３の分離信号４０４−３のバックプロジェクションを実行する。

音源分離により回り込み音声を完全に抑制できればよいが、実際には、抑制しきれない回り込み音声が残ることがある。図４の例では、話者４０１−１の発話に対して、分離信号４０４−２では回り込み音声が十分に抑制されているが、分離信号４０４−３では抑制しきれない回り込み音声が残っている。

判定部１１３は、分離信号に基づき音声を発した音源の個数を判定する（ステップＳ４０２）。例えば、判定部１１３は、図４に示すように、分離信号４０４−１、分離信号４０４−２、および、分離信号４０４−３それぞれの音声らしさを計算する。

例えば、分離信号４０４−１は話者４０１−１の発話４０２−１を分離した信号であるため、音声らしさが高くなる。分離信号４０４−２は回り込み音声を抑制できたため、音声らしさが非常に低くなる。分離信号４０４−３は抑制しきれていない回り込み音声が残っているが、音声らしさは低くなる。例えば、分離信号４０４−１、４０４−２、および、４０４−３の音声らしさが、それぞれ０．９、０、および、０．２であったとする。また、予め定められた音声らしさの閾値が０．５であったとする。判定部１１３は、閾値以上の分離信号の個数が１つであるため、音声を発した音源の個数は１つと判定する。

分離信号のパワーを用いて音源数を判定する場合は以下のようになる。例えば、分離信号４０４−１、４０４−２、および、４０４−３のパワーが、それぞれ、０．９、０、および、０．２であったとする。判定部１１３は、閾値以上の分離信号の個数が１つであるため、音声を発した音源の個数は１つと判定する。

平均パワーを用いて判定する場合は以下のようになる。例えば、分離信号４０４−１、４０４−２、および、４０４−３のパワーが、それぞれ、０．９、０、および、０．２であったとする。判定部１１３は、これらの平均値０．３７を平均パワーとして計算する。判定部１１３は、平均パワー以上の分離信号の個数が１つであるため、音声を発した音源の個数は１つと判定する。

出力制御部１１４は、判定結果に応じて出力信号を生成する（ステップＳ４０３）。図４の例では音源数が１と判定されたため、出力制御部１１４は、音源（話者４０１−１）に対応する入力信号４０３−１を、出力信号４０５−１として生成する。話者４０１−２と話者４０１−３の発話がないため、出力制御部１１４は、これらの話者に対する出力信号はミュートにする。

認識部１１５は、出力信号に対して音声認識を実行する（ステップＳ４０４）。

図５は、話者４０１−１および話者４０１−２が同時に発話した場合の例である。この場合、話者４０１−１の発話５０２−１、および、話者４０１−２の発話５０２−２に対して、マイク５４−１、５４−２、および、５４−３から、それぞれ、入力信号５０３−１、５０３−２、および、５０３−３が出力される。

また、音源分離により、分離信号５０４−１、５０４−２、および、５０４−３が得られる（ステップＳ４０１）。分離信号５０４−１は、話者４０１−１の発話５０２−１を分離した信号である。分離信号５０４−２は、話者４０１−２の発話５０２−２を分離した信号である。分離信号５０４−３は、抑制しきれない回り込み音声の信号である。

判定部１１３は、分離信号に基づき音声を発した音源の個数を判定する。例えば、分離信号５０４−１、５０４−２、および、５０４−３の音声らしさが、それぞれ、０．９、０．７、および、０．２であったとする。また、予め定められた音声らしさの閾値が０．５であったとする。判定部１１３は、閾値以上の分離信号の個数が２つであるため、音声を発した音源の個数は２つと判定する（ステップＳ４０２）。

音源数が２と判定されたため、出力制御部１１４は、分離信号に基づき出力信号を生成する（ステップＳ４０３）。例えば出力制御部１１４は、分離信号５０４−１を、話者４０１−１に対する出力信号５０５−１として生成する。出力制御部１１４は、分離信号５０４−２を、話者４０１−２に対する出力信号５０５−２として生成する。話者４０１−３の発話がないため、出力制御部１１４は、話者４０１−３に対する出力信号はミュートに（音声を出さない、または無音に）する。

本実施形態のようにマイク５４と話者とが１対１に対応する場合であっても、話者が同時に発話すると回り込みが発生しうる。発話した話者が１人の場合（音源が１つの場合）は回り込みがないと判断できるので、入力信号を使って音声を認識しても精度が低下する可能性は小さい。なお、音声を発した音源数が１つの場合、分離信号を出力信号として出力することも可能である。しかし、本実施形態のように入力信号を出力信号として出力すれば、音源分離に伴う信号の歪みの発生を回避可能となる。

以上のように、第１の実施形態にかかる音声処理装置では、複数の話者（音源）に対して、複数のマイクを用いて入力信号を取得する。取得した入力信号を音源ごとに分離し、同時に音声を発した音源数を判定する。そして、音源数に応じて、入力信号と分離信号とを切り替えて出力信号として出力し、音声認識を実行する。これにより、回り込み音声を抑制し、それぞれの話者の音声をより高精度に認識可能となる。

（第２の実施形態）
第２の実施形態にかかる音声処理装置は、音声を発した音源の個数が１の場合、音源の方向の音声を強調した出力信号を生成して出力する。これにより、例えば後段の音声認識などの処理の精度をさらに向上させることが可能となる。

図６は、第２の実施形態にかかる音声処理装置１００−２の構成の一例を示すブロック図である。図６に示すように、音声処理装置１００−２は、受付部１１１と、分離部１１２と、判定部１１３と、出力制御部１１４−２と、認識部１１５と、を有する。

第２の実施形態では、出力制御部１１４−２の機能が第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる音声処理装置１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

出力制御部１１４−２は、音声を発した音源の個数が１の場合、入力信号を用いて音源の方向の音声を強調した出力信号を生成する点が、第１の実施形態の出力制御部１１４と異なっている。出力制御部１１４−２は、例えば複数の入力信号を用いたビームフォーミングにより、音源方向の音声を強調した信号を生成する。ビームフォーミングとは指向性を制御する信号処理技術で、例えば各マイクへの音声到達時間のずれを計算して補正する方法である。音源の方向の音声が強調されるため、後段の音声認識などの処理をさらに高精度に実行可能となる。入力信号を用いて音源方向の音声を強調できる方法であれば、ビームフォーミング以外の方法を適用してもよい。

なお、第２の実施形態にかかる音声処理装置１００−２による音声処理の全体の流れは、図３と同様である。第２の実施形態では、ステップＳ１０５で、出力制御部１１４−２が、複数の入力信号を用いてビームフォーミングを実行し、音源方向の音声を強調した出力信号を生成する。

次に、第２の実施形態の音声処理装置１００−２による音声処理の具体例について図７を用いて説明する。図７は、音源数が１と判定される場合の処理の例を示す図である。また図７は、話者４０１−３の発話の代わりに、雑音源の例であるエアコンディショナー７０１−３からの雑音７０２−３が入力される例を示す。

図７に示すように、話者４０１−１のみが発話し、かつ、エアコンディショナー７０１−３からの雑音７０２−３がある場合、話者４０１−１の発話７０２−１および雑音７０２−３に対して、マイク５４−１、５４−２、および、５４−３から、それぞれ、入力信号７０３−１、７０３−２、および、７０３−３が出力される。

分離部１１２は、３つの入力信号に対して音源分離を実行し、各音源（各マイク５４）に対応する３つの分離信号７０４−１、７０４−２、７０４−３を出力する（ステップＳ４０１）。分離信号７０４−１は、話者４０１−１の発話７０２−１の分離信号である。分離信号７０４−２は、抑制しきれない回り込み音声の信号である。分離信号７０４−３は、エアコンディショナー７０１−３の雑音７０２−３の分離信号である。

判定部１１３は、分離信号に基づき音声を発した音源の個数を判定する（ステップＳ４０２）。例えば、判定部１１３は、図７に示すように、分離信号７０４−１、分離信号７０４−２、および、分離信号７０４−３それぞれの音声らしさを計算する。

例えば、分離信号７０４−１、７０４−２、および、７０４−３の音声らしさが、それぞれ０．９、０．２、および、０であったとする。また、予め定められた音声らしさの閾値が０．５であったとする。判定部１１３は、閾値以上の分離信号の個数が１つであるため、音声を発した音源の個数は１つと判定する。

このように、判定部１１３は、雑音がある場合でも、音源の個数を正しく判定できる。従って、雑音がある場合でも、回り込み音声を抑制し、各話者の音声を認識できる。判定部１１３の機能は共通するため、第１の実施形態でも雑音を考慮した音源数の判定が実現できる。

なお信号のパワーを用いて音源数を判定してもよいが、例えば雑音のパワーが大きい状況では、音源数を誤判定する可能性がある。このような場合は、パワーではなく音声らしさを用いて音源数を判定することが望ましい。

出力制御部１１４−２は、判定結果に応じて出力信号を生成する（ステップＳ４０３−２）。図７の例では音源数が１と判定されたため、出力制御部１１４−２は、入力信号７０３−１、７０３−２、および、７０３−３を用いたビームフォーミングにより、話者４０１−１の発話７０２−１を強調した出力信号７０５−１を生成して出力する。話者４０１−２と話者４０１−３の発話がないため、出力制御部１１４−２は、これらの話者に対する出力信号はミュートにする。

認識部１１５は、出力信号７０５−１に対して音声認識を実行する（ステップＳ４０４）。

このように、第２の実施形態によれば、音源の方向の音声を強調した出力信号を生成して出力できる。これにより、後段の音声認識などの処理の精度をさらに向上させることが可能となる。

（第３の実施形態）
第３の実施形態では、音声処理装置の機能を複数の装置に分散した音声処理システムとして実現した例を説明する。以下では、第１の実施形態の音声処理装置１００の機能を分散する例を説明するが、第２の実施形態の音声処理装置１００−２の機能を分散するように構成してもよい。

図８は、第３の実施形態にかかる音声処理システムの構成の一例を示すブロック図である。図８に示すように、音声処理システムは、サーバ装置３００−３と、クライアント装置２００−３と、がネットワーク４００−３で接続された構成となっている。ネットワーク４００−３は、インターネットなどのあらゆるネットワーク形態を適用できる。

クライアント装置２００−３は、例えば通常のパーソナルコンピュータなどの単体の装置により構成することができる。クライアント装置２００−３は１台に限られず、複数のクライアント装置２００−３が備えられてもよい。

サーバ装置３００−３は、クライアント装置２００−３からの要求に応じて音声処理を実行する装置である。サーバ装置３００−３は、物理的に１つの装置により構成してもよいし、クラウドコンピューティング環境上の仮想的な装置として実現してもよい。複数のサーバ装置３００−３が備えられてもよい。

クライアント装置２００−３およびサーバ装置３００−３は、図１に示す音声処理装置１００と同様のハードウェア構成とすることができる。サーバ装置３００−３で音声の取得が不要な場合は、図１からマイク５４を除いたハードウェア構成としてもよい。

クライアント装置２００−３は、受付部１１１と、通信制御部２０１−３と、を有する。サーバ装置３００−３は、通信制御部３０１−３と、分離部１１２と、判定部１１３と、出力制御部１１４と、認識部１１５と、を有する。

受付部１１１、分離部１１２、判定部１１３、出力制御部１１４、および、認識部１１５の機能は、第１の実施形態と同様であるので、同一符号を付し、説明は省略する。

通信制御部２０１−３は、サーバ装置３００−３などの外部装置との間の通信を制御する。例えば通信制御部２０１−３は、受付部１１１により受け付けられたマイク５４からの入力信号を、リアルタイムで、または、ユーザの指示等に応じて、サーバ装置３００−３に送信する。

本実施形態の音声処理システムが会議システムに適用される場合であれば、クライアント装置２００−３が、会議を制御するための機能部をさらに備えてもよい。この場合、通信制御部２０１−３は、会議に関する情報をさらにサーバ装置３００−３との間で送受信してもよい。

通信制御部３０１−３は、クライアント装置２００−３などの外部装置との間の通信を制御する。例えば通信制御部３０１−３は、クライアント装置２００−３から送信された入力信号を受信する。受信された入力信号は、分離部１１２に渡される。以降は、第１の実施形態と同様の手順で、分離部１１２、判定部１１３、出力制御部１１４、および、認識部１１５の各機能が実行される。

音声認識の結果は、例えば通信制御部３０１−３によりクライアント装置２００−３に送信されてもよい。本実施形態の音声処理システムが会議システムに適用される場合であれば、サーバ装置３００−３が、会議を制御するための機能部をさらに備えてもよい。この場合、通信制御部３０１−３は、会議に関する情報をさらにクライアント装置２００−３との間で送受信してもよい。

図８では、分離部１１２、判定部１１３、出力制御部１１４、および、認識部１１５の機能をサーバ装置３００−３が備える例を説明した。機能の分散方法はこれに限られるものではない。例えば、これらの４つの機能部のうち一部をクライアント装置２００−３が備えるように構成してもよい。また、音声処理システムが複数のサーバ装置を備え、複数のサーバ装置が、これらの４つの機能部をさらに分散して備えるように構成してもよい。

以上説明したとおり、第１から第３の実施形態によれば、音声の回り込みの抑制、および、信号の歪みの回避が可能となる。この結果、後段の音声認識などの処理の精度を向上させることが可能となる。

上記各実施形態にかかる装置（音声処理装置、クライアント装置、サーバ装置）で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

実施形態にかかる装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、実施形態にかかる装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、実施形態にかかる装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

実施形態にかかる装置で実行されるプログラムは、コンピュータを上述した装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００、１００−２音声処理装置
１１１受付部
１１２分離部
１１３判定部
１１４、１１４−２出力制御部
１１５認識部
２００−３クライアント装置
２０１−３通信制御部
３００−３サーバ装置
３０１−３通信制御部
４００−３ネットワーク

Claims

ｎ個（ｎは２以上の整数）の音源に対応するｎ個の音声入力装置に入力されたｎ個の入力信号を受け付ける受付部と、
前記入力信号を、前記音源ごとに分離してｎ個の分離信号を生成する分離部と、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、を備え、
前記出力制御部は、音声を発した音源の個数が１の場合、前記入力信号に基づいて生成される出力信号を出力し、音声を発した音源の個数が２以上の場合、前記分離信号に基づいて生成される出力信号を出力し、
前記出力制御部は、音声を発した音源の個数が１の場合、前記入力信号を用いたビームフォーミングにより、音源の方向の音声を強調した出力信号を生成する、
音声処理装置。
ｎ個（ｎは２以上の整数）の音源に対応するｎ個の音声入力装置に入力されたｎ個の入力信号を受け付ける受付部と、
前記入力信号を、前記音源ごとに分離してｎ個の分離信号を生成する分離部と、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、
前記分離信号が音声の信号であることの尤度を求め、前記尤度が閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定部と、
を備える音声処理装置。
ｎ個（ｎは２以上の整数）の音源に対応するｎ個の音声入力装置に入力されたｎ個の入力信号を受け付ける受付部と、
前記入力信号を、前記音源ごとに分離してｎ個の分離信号を生成する分離部と、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、
パワーが閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定部と、
を備える音声処理装置。
前記出力制御部は、音声を発した音源の個数が１の場合、ｎ個の前記入力信号のうち１つを出力信号として選択する、
請求項１から請求項３のいずれか１項に記載の音声処理装置。
前記出力信号に対して音声認識を実行する認識部をさらに備える、
請求項１から請求項３のいずれか１項に記載の音声処理装置。
前記閾値は、複数の前記分離信号のパワーの平均値である、
請求項２または請求項３に記載の音声処理装置。
ｎ個（ｎは２以上の整数）の音源に対応するｎ個の音声入力装置で取得されたｎ個の入力信号を受け付ける受付ステップと、
前記入力信号を、前記音源ごとに分離してｎ個の分離信号を生成する分離ステップと、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御ステップと、を含み、
前記出力制御ステップは、音声を発した音源の個数が１の場合、前記入力信号に基づいて生成される出力信号を出力し、音声を発した音源の個数が２以上の場合、前記分離信号に基づいて生成される出力信号を出力し、
前記出力制御ステップは、音声を発した音源の個数が１の場合、前記入力信号を用いたビームフォーミングにより、音源の方向の音声を強調した出力信号を生成する、
音声処理方法。
ｎ個（ｎは２以上の整数）の音源に対応するｎ個の音声入力装置で取得されたｎ個の入力信号を受け付ける受付ステップと、
前記入力信号を、前記音源ごとに分離してｎ個の分離信号を生成する分離ステップと、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御ステップと、
前記分離信号が音声の信号であることの尤度を求め、前記尤度が閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定ステップと、
を含む音声処理方法。
ｎ個（ｎは２以上の整数）の音源に対応するｎ個の音声入力装置で取得されたｎ個の入力信号を受け付ける受付ステップと、
前記入力信号を、前記音源ごとに分離してｎ個の分離信号を生成する分離ステップと、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御ステップと、
パワーが閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定ステップと、
を含む音声処理方法。
コンピュータを、
ｎ個（ｎは２以上の整数）の音源に対応するｎ個の音声入力装置で取得されたｎ個の入力信号を受け付ける受付部と、
前記入力信号を、前記音源ごとに分離してｎ個の分離信号を生成する分離部と、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、として機能させ、
前記出力制御部は、音声を発した音源の個数が１の場合、前記入力信号に基づいて生成される出力信号を出力し、音声を発した音源の個数が２以上の場合、前記分離信号に基づいて生成される出力信号を出力し、
前記出力制御部は、音声を発した音源の個数が１の場合、前記入力信号を用いたビームフォーミングにより、音源の方向の音声を強調した出力信号を生成する、
プログラム。
コンピュータを、
ｎ個（ｎは２以上の整数）の音源に対応するｎ個の音声入力装置で取得されたｎ個の入力信号を受け付ける受付部と、
前記入力信号を、前記音源ごとに分離してｎ個の分離信号を生成する分離部と、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、
前記分離信号が音声の信号であることの尤度を求め、前記尤度が閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定部と、
として機能させるためのプログラム。
コンピュータを、
ｎ個（ｎは２以上の整数）の音源に対応するｎ個の音声入力装置で取得されたｎ個の入力信号を受け付ける受付部と、
前記入力信号を、前記音源ごとに分離してｎ個の分離信号を生成する分離部と、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、
パワーが閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定部と、
として機能させるためのプログラム。