JP6276132B2

JP6276132B2 - 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム

Info

Publication number: JP6276132B2
Application number: JP2014155522A
Authority: JP
Inventors: 長　健太; 健太長; 敏行加納
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2014-07-30
Filing date: 2014-07-30
Publication date: 2018-02-07
Anticipated expiration: 2034-07-30
Also published as: US20160379673A1; US10276191B2; WO2016017229A1; JP2016033530A

Description

本発明の実施形態は、発話区間検出装置、音声処理システム、発話区間検出方法およびプログラムに関する。

クライアント装置からサーバ装置に音声（人の発話）を含む信号を送信し、サーバ装置で音声認識処理を行って認識結果をクライアント装置に返すサーバ・クライアント型の音声認識システムが知られている。この種の音声認識システムでは、クライアント装置からサーバ装置への通信量の削減を図るために、クライアント側で入力した信号から音声の区間（以下、発話区間という。）を検出する処理を行い、検出された発話区間の信号のみをサーバ装置に送信することが提案されている。

クライアント装置で発話区間の検出を行う場合、クライアント装置はサーバ装置と比較してリソースが限られるため、正確な発話区間の検出を行うことは難しい。さらに、クライアント側の音声状況は環境ごとに異なり、変動することが多いため、発話音声の取りこぼしが発生する懸念がある。このため、通信量の削減を図りつつ、発話区間を精度よく検出できるようにすることが求められている。

特許第４４２５０５５号公報

本発明が解決しようとする課題は、通信量の削減を図りつつ、発話区間を精度よく検出することができる発話区間検出装置、音声処理システム、発話区間検出方法およびプログラムを提供することである。

実施形態の発話区間検出装置は、受信部と、検出部と、尤度調整指示部と、を備える。受信部は、外部装置が第１の方法で算出した発話らしさを表す尤度が第１閾値以上の信号である第１音声信号を受信する。検出部は、前記第１音声信号から、前記第１の方法とは異なる第２の方法で算出した前記尤度が前記第１閾値よりも大きい第２閾値以上の区間の信号である第２音声信号を検出する。尤度調整指示部は、サンプル信号と、当該サンプル信号に対して前記検出部が前記第２の方法で算出した前記尤度の時系列データとを前記外部装置に送信し、前記サンプル信号に対して前記第１の方法で時系列に算出される前記尤度が前記時系列データに近づくように、前記外部装置に対して前記尤度の調整を指示する。

図１は、実施形態の音声認識システムの構成例を示すブロック図である。図２は、第１検出部の処理の一例を説明する図である。図３は、第２検出部の処理の概要を説明する図である。図４は、時間比率を説明する図である。図５は、クライアント装置の処理手順の一例を示すフローチャートである。図６は、サーバ装置の処理手順の一例を示すフローチャートである。図７は、クライアント装置の他の構成例を示すブロック図である。図８は、サーバ装置のハードウェア構成の一例を概略的に示すブロック図である。

以下、実施形態の発話区間検出装置、音声処理システム、発話区間検出方法およびプログラムを、図面を参照して詳細に説明する。以下で示す実施形態は、クライアント装置が入力した信号に対してサーバ装置において音声認識処理を行い、認識結果をクライアント装置に返すサーバ・クライアント型の音声認識システムへの適用例であるが、本発明を適用可能なシステムはこれに限らない。

（第１の実施形態）
図１は、本実施形態に係る音声認識システムの構成例を示すブロック図である。この音声認識システムは、複数のクライアント装置１０（第１装置、外部装置）とサーバ装置２０（第２装置、発話区間検出装置）とが通信ネットワーク３０を介して通信可能に接続される構成である。この音声認識システムでは、クライアント装置１０において、入力した信号に対して大まかな発話区間の検出を行い、発話が含まれている可能性のある区間の信号（以下、第１音声信号という。）をサーバ装置２０に送信する。サーバ装置２０は、クライアント装置１０から受信した第１音声信号に対して厳密な発話区間の検出を行い、発話である可能性が高い区間の信号（以下、第２音声信号という。）に対して音声認識処理を行って、認識結果のテキストデータをクライアント装置１０に送信する。これにより、クライアント装置１０とサーバ装置２０との間の通信量の削減を図りつつ、発話区間を精度よく検出して高精度で効率的な音声認識を実現する。

クライアント装置１０は、図１に示すように、マイク１１と、第１検出部１２と、通信部１３（送信部）と、尤度調整部１４と、閾値調整部１５と、を備える。クライアント装置１０としては、例えば、外部接続端子に外付けのマイクを接続したパーソナルコンピュータや、マイクを内蔵するスマートフォン、タブレット端末、テレビ会議（ビデオ会議）システム用の端末として構成されたテレビ会議端末などを利用することができる。これらの装置はプロセッサやメモリなどの通常のコンピュータシステムを実現するリソースを備え、一例として、コンピュータシステム上で所定のプログラムを実行することにより、第１検出部１２、通信部１３、尤度調整部１４、閾値調整部１５などの各機能的な構成要素を実現する。

マイク１１は、人の発話（音声）を含む信号を入力する。マイク１１が入力した信号（以下、入力信号という。）は、第１検出部１２に渡される。なお、本実施形態ではクライアント装置１０がマイク１１により信号を入力する例を説明するが、クライアント装置１０が外部装置から受信した信号、あるいは記録媒体などから読み出した信号を入力信号としてもよい。

第１検出部１２は、入力信号に対して、演算の処理負荷が比較的低い方法を用いて発話区間の検出を行う。本実施形態では、第１検出部１２が、入力信号の信号強度に基づいて発話区間の検出を行う例を説明する。すなわち、第１検出部１２は、マイク１１からの入力信号の信号強度を発話区間検出のための特徴量として用い、入力信号に対して信号強度が大きいほど大きい値を示す尤度を時系列で算出する。ここで算出される尤度は人の発話らしさを表す値であり、例えば最大値が１、最小値が０となるように正規化される。そして、第１検出部１２は、入力信号の中で尤度が第１閾値以上の区間を発話区間として検出し、この区間の信号を第１音声信号として出力する。

図２は、第１検出部１２の処理の一例を説明する図である。図２（ａ）は、マイク１１が入力したリニアＰＣＭサンプリングデータ（入力信号）のグラフであり、横軸が時間、縦軸が信号強度を表している。図２（ｂ）は、（ａ）の入力信号から算出された尤度の時系列を表すグラフである。図２（ｃ）は、（ｂ）の尤度を第１閾値と比較することで検出された発話区間を示している。なお、（ａ）のグラフは信号強度を振幅として表しており、振幅が大きいほど信号強度が大きいことを示している。また、（ｂ）の尤度は、一定時間あたりの信号強度の平均値を正規化し、時間軸上にプロットしたものを曲線で近似した波形となっている。

図２に示すように、第１検出部１２は、入力信号に対して信号強度が大きいほど大きい値となる尤度を算出する（第１の方法）。そして、第１検出部１２は、入力信号の中で尤度が第１閾値以上となっている区間を発話区間として検出する。なお、第１閾値は、入力信号から音声の取りこぼしが生じない程度の小さい値（例えば０．１）に初期設定され、後述するように、サーバ装置２０からの指示に応じて適宜調整される。第１検出部１２は、この第１閾値を用いて、入力信号の中で人の発話（音声）が含まれる可能性があると推定される区間を発話区間として検出している。また、第１検出部１２が入力信号に対して算出する尤度は、後述するように、サーバ装置２０側で算出される尤度との整合が取れるように調整される。

通信部１３は、サーバ装置２０との間で通信ネットワーク３０を介した各種情報の送受信を行う。例えば、通信部１３は、第１検出部１２が発話区間として検出した区間の信号である第１音声信号を、サーバ装置２０に対して送信する。また、通信部１３は、サーバ装置２０から送信される後述の音声認識処理の認識結果としてのテキストデータや、尤度調整の指示、閾値調整の指示、マイク１１の感度調整の指示などを受信する。

尤度調整部１４は、サーバ装置２０からの尤度調整の指示に従って、第１検出部１２が入力信号に対して算出する尤度の調整を行う。なお、尤度調整部１４の処理の具体例については、サーバ装置２０における処理の説明と併せて詳細を後述する。

閾値調整部１５は、サーバ装置２０からの閾値調整の指示に従って、第１検出部１２による発話区間の検出に用いる第１閾値の調整を行う。また、閾値調整部１５は、サーバ装置２０からマイク１１の感度調整の指示が送られた場合に、この感度調整の指示に従ってマイク１１の感度を調整する機能を持つ。なお、閾値調整部１５の処理の具体例については、サーバ装置２０における処理の説明と併せて詳細を後述する。

サーバ装置２０は、図１に示すように、通信部２１（受信部）と、第２検出部２２（検出部）と、音声認識部２３と、閾値調整部２４と、尤度調整指示部２５と、時間比率算出部２６と、閾値調整指示部２７と、記憶部２８とを備える。

通信部２１は、クライアント装置１０との間で通信ネットワーク３０を介した各種情報の送受信を行う。例えば、通信部２１は、クライアント装置１０から送信された第１音声信号や閾値問い合わせなどを受信する。また、通信部２１は、音声認識部２３による認識結果としてのテキストデータや、尤度調整指示部２５からの尤度調整の指令、閾値調整指示部２７からの閾値調整の指示、マイク１１の感度調整の指示などをクライアント装置１０に対して送信する。

第２検出部２２は、クライアント装置１０から受信した第１音声信号に対して、クライアント装置１０の第１検出部１２で行う発話区間検出よりも演算の処理負荷が高い方法を用いて、厳密な発話区間の検出を行う。例えば、第２検出部２２は、音声の周波数特性や音響モデルなどから計算される特徴量を用いて、第１音声信号に対して時系列で尤度を算出する（第２の方法）。そして、第２検出部２２は、第１音声信号の中で尤度が第２閾値以上の区間を発話区間として検出し、この区間の信号を第２音声信号として出力する。ここで第２閾値は、厳密な発話区間の検出を行うために、クライアント装置１０の第１検出部１２に設定される第１閾値よりも大きな値（例えば０．３）に初期設定され、後述するように、音声認識部２３による認識結果に応じて、閾値調整部２４により適宜調整される。

図３は、第２検出部２２の処理の概要を説明する図である。図３（ａ）は、第１音声信号から算出された尤度の時間変化を表すグラフである。図３（ｂ）は、（ａ）の尤度を第２閾値と比較することで検出された発話区間（ハッチングを付した部分）を示している。図３に示すように、第２検出部２２は、第１音声信号から時系列で算出した尤度が第１閾値よりも大きい第２閾値以上となっている区間を発話区間として検出する。そして、第２検出部２２は、検出した発話区間の信号である第２音声信号を音声認識部２３に渡す。

音声の周波数特性や音響モデルなどから計算される特徴量を用いた発話区間検出は、クライアント装置１０の第１検出部１２が行う単純な発話区間検出と比べてより多くのコンピュータリソースを必要とするが、発話区間をより正確に検出することができる。また、第１音声信号から算出された尤度が第１閾値よりも大きい第２閾値以上の区間を発話区間として検出することにより、より正確な発話区間を検出することができる。

音声認識部２３は、第２音声信号に対して、例えば音響モデルや言語モデルなどを用いた音声認識処理を行って、第２音声信号に対応するテキストデータを出力する。音声認識部２３が実施する音声認識処理については、公知の技術をそのまま利用できるため、ここでは詳細な説明を省略する。認識結果としてのテキストデータは、通信部２１からクライアント装置１０に対して送信される。そして、このテキストデータが、クライアント装置１０の図示しない表示部に表示される。

なお、例えば他拠点間のテレビ会議やグループ通話など、複数のクライアント装置１０で情報が共有されるアプリケーションにおいて本実施形態の音声認識システムを利用する場合は、サーバ装置２０は、上述した音声認識処理の認識結果としてのテキストデータを集約した画面情報などを、情報を共有する複数のクライアント装置１０に対してそれぞれ送信する。これにより、複数話者の発話を音声認識処理した認識結果のテキストデータが集約された画面を、複数のクライアント装置１０の表示部に表示させることができる。

閾値調整部２４は、音声認識部２３による認識結果に基づいて、第２検出部２２による発話区間の検出に用いる第２閾値の調整を行う。音声認識部２３は、第２音声信号に対して、音響モデルを用いた音響的な解析だけでなく、言語モデルを用いて発話として成り立っているかなどの言語的な解析も行って、第２音声信号に含まれる発話をテキストデータに変換する。したがって、音声認識部２３による音声認識処理は、第２検出部２２よりもさらに正確に発話区間を検出していると捉えることができる。つまり、音声認識部２３による認識結果から、第２検出部２２が発話区間を正確に検出できているかどうかが分かる。

そこで、閾値調整部２４は、音声認識部２３による認識結果に基づいて、第２検出部２２による発話区間の検出精度を高めるように、第２閾値を調整する。具体的には閾値調整部２４は、音声認識処理の認識結果から、第２音声信号が発話の途中で途切れた信号となっていると判断される場合は第２閾値を小さくするように調整し、第２音声信号が発話でない部分を多く含む信号となっていると判断される場合は第２閾値を大きくするように調整する。これにより、第２検出部２２は、第１音声信号から発話区間をより正確に検出できるようになる。

尤度調整指示部２５は、クライアント装置１０の第１検出部１２により算出される尤度が、第２検出部２２により算出される尤度に近づくように、クライアント装置１０に対して尤度の調整を指示する。

本実施形態の音声認識システムは、クライアント装置１０で大まかな発話区間検出を行い、サーバ装置２０で厳密な発話区間検出を行うことで、クライアント装置１０とサーバ装置２０との間の通信量の削減を図りつつ、発話区間を精度よく検出して高精度で効率的な音声認識を実現する構成である。このため、サーバ装置２０での発話区間検出に用いる第２閾値を、クライアント装置１０での発話区間検出に用いる第１閾値よりも大きな値としている。しかし、クライアント装置１０の第１検出部１２が入力信号から尤度を算出する方法と、サーバ装置２０の第２検出部２２が第１音声信号から尤度を算出する方法が異なるため、同じ信号に対して第１検出部１２が算出する尤度と第２検出部２２が算出する尤度とが同程度になるように調整が必要となる。

そこで、尤度調整指示部２５は、例えば以下に示すような処理を行って、クライアント装置１０の第１検出部１２により算出される尤度が、第２検出部２２により算出される尤度に近づくように、クライアント装置１０に対して尤度の調整を指示する。そして、クライアント装置１０の尤度調整部１４が、この尤度調整指示部２５からの指示に従って、第１検出部１２が算出する尤度の調整を行う。

すなわち、尤度調整指示部２５は、まず、予め保持しているサンプル信号を第２検出部２２に渡して尤度の算出を要求し、第２検出部２２が上述した方法によりサンプル信号から算出した尤度の時系列データを取得する。サンプル信号は、人が発話している区間と無音の区間とを含む。なお、第２検出部２２が算出する尤度は、予め最大値が１、最小値が０となるように正規化されていてもよいし、サンプル信号から算出した尤度の時系列データの最大値が１、最小値が０になるように調整されてもよい。

その後、クライアント装置１０がサーバ装置２０に接続すると、尤度調整指示部２５は、サーバ装置２０に接続したクライアント装置１０に対して、予め保持しているサンプル信号と、このサンプル信号から第２検出部２２が算出した尤度の時系列データとを送信する。そして、尤度調整指示部２５は、送信したサンプル信号に対して第１検出部１２が上述した方法で時系列に算出する尤度が、送信した時系列データに近づくように、クライアント装置１０に対して尤度の調整を指示する。

サーバ装置２０からサンプル信号、尤度の時系列データおよび尤度調整の指示を受信したクライアント装置１０では、尤度調整部１４が、サーバ装置２０からの尤度調整の指示に従って、第１検出部１２が算出する尤度の調整を行う。具体的には、尤度調整部１４は、サーバ装置２０から受信したサンプル信号を第１検出部１２に渡して尤度の算出を要求する。この際、尤度調整部１４は、第１検出部１２に対して、尤度算出に関するパラメータを複数通りに変化させながら尤度を算出することを要求する。ここで、尤度算出に関するパラメータとしては、例えば、入力信号の信号強度に対する尤度の算出式やテーブルなどが挙げられる。

そして、尤度調整部１４は、第１検出部１２から、変化させた各パラメータに対応する複数の尤度の時系列データを取得し、これら複数の尤度の時系列データをそれぞれ、サーバ装置２０から受信した時系列データと比較する。そして、尤度調整部１４は、サーバ装置２０から受信した時系列データに対する類似度が最も高い時系列データを特定し、第１検出部１２に対して、この時系列データに対応するパラメータを、尤度算出に関するパラメータとして使用することを指示する。以上の処理によって、第１検出部１２が算出する尤度が、第２検出部２２が算出する尤度に近づくように調整される。

なお、マイク１１や環境などの影響も加味した尤度調整を行いたい場合は、サンプル信号を外部の音声プレーヤにより再生してマイク１１で入力し、マイク１１で入力したサンプル信号に対して第１検出部１２が尤度の算出を行うようにしてもよい。この場合、クライアント装置１０のユーザがサーバ装置２０からサンプル信号をダウンロードし、クライアント装置１０を動作させた状態で、ダウンロードしたサンプル信号を外部の音声プレーヤにより再生させるようにしてもよい。

時間比率算出部２６は、クライアント装置１０から受信した第１音声信号と、第２検出部２２が第１音声信号から検出した発話区間の信号である第２音声信号との時間比率を算出する。図４は、時間比率を説明する図であり、図４（ａ）〜（ｃ）それぞれ横軸が時間、白抜きの矩形が第１音声信号の時間長さ、ハッチングを付した矩形が第２音声信号の時間長さを表している。時間比率は、第１音声信号（クライアント装置１０の第１検出部１２が検出した発話区間）の時間長さに対する、第２音声信号（サーバ装置２０の第２検出部２２が検出した発話区間）の時間長さの割合である。

図４（ａ）は、時間比率が適正範囲にあり、クライアント装置１０とサーバ装置２０とが想定通りの動作をしている例を示している。つまり、時間比率が図４（ａ）のようになっていれば、クライアント装置１０における大まかな発話区間検出と、サーバ装置２０における厳密な発話区間検出との関係が想定通りであることが推定される。

図４（ｂ）は、第１音声信号の時間長さに対して第２音声信号の時間長さが短すぎ、時間比率が適正範囲よりも小さくなっている例を示している。クライアント装置１０の第１検出部１２が入力信号中の発話でない部分を過剰に含む区間を発話区間として検出している場合に、時間比率が図４（ｂ）のようになる。時間比率が図４（ｂ）のようになっている場合、発話でない部分を過剰に含む第１音声信号がクライアント装置１０からサーバ装置２０に送信されるため、通信量の増加を招く。

図４（ｃ）は、第１音声信号の時間長さに対して第２音声信号の時間長さが長すぎ、時間比率が適正範囲よりも大きくなっている例を示している。クライアント装置１０の第１検出部１２による発話区間の検出が厳密になりすぎている場合に、時間比率が図４（ｃ）のようになる。時間比率が図４（ｃ）のようになっている場合、クライアント装置１０において入力信号から発話音声の取りこぼしが生じる懸念がある。

以上のように、第１音声信号と第２音声信号との時間比率は、クライアント装置１０とサーバ装置２０とが想定通りの動作をしているか否かを判断する上で有用な情報となる。そこで、本実施形態のサーバ装置２０は、上述した時間比率を算出する時間比率算出部２６を備えている。時間比率算出部２６が算出した時間比率は、閾値調整指示部２７に渡される。

閾値調整指示部２７は、時間比率算出部２６により算出された時間比率に基づいて、クライアント装置１０の第１検出部１２が発話区間の検出に用いる第１閾値の適正値を算出し、クライアント装置１０に対して第１閾値を算出した適正値に調整することを指示する。この閾値調整指示部２７のクライアント装置１０に対する指示は、例えば、クライアント装置１０からの閾値問い合わせに対する応答として行う。すなわち、閾値調整指示部２７は、クライアント装置１０からの閾値問い合わせに応じて、時間比率算出部２６に対して時間比率の算出を要求し、時間比率算出部２６から時間比率を取得する。そして、取得した時間比率が図４（ｂ）の例のように適正範囲よりも小さくなっている場合は、閾値調整指示部２７は、クライアント装置１０において現在設定されている第１閾値よりも大きい値を適正値として算出し、算出した適正値を問い合わせに対する返り値としてクライアント装置１０に送信して、クライアント装置１０に第１閾値の調整を指示する。一方、取得した時間比率が図４（ｃ）の例のように適正範囲よりも大きくなっている場合は、閾値調整指示部２７は、クライアント装置１０において現在設定されている第１閾値よりも小さい値を適正値として算出し、算出した適正値を問い合わせに対する返り値としてクライアント装置１０に送信して、クライアント装置１０に第１閾値の調整を指示する。

サーバ装置２０から第１閾値の適正値および閾値調整の指示を受信したクライアント装置１０では、閾値調整部１５が、サーバ装置２０からの指示に従って、第１検出部１２が発話区間の検出に用いている現在の第１閾値を、サーバ装置２０から受信した適正値に変更する。以上の処理を繰り返すことにより、第１検出部１２により検出される発話区間が、サーバ装置２０の第２検出部２２により検出される発話区間との関係において最適化されていく。

また、閾値調整指示部２７は、クライアント装置１０に対して算出した第１閾値の適正値を、当該クライアント装置１０の属性情報と対応付けて記憶部２８に格納し、記憶部２８に記憶させる機能を持つ。ここで属性情報とは、クライアント装置１０の性能や使用環境、クライアント装置１０を使用するユーザ情報など、発話区間の検出に影響を与える可能性がある各種条件を示す情報である。例えば、クライアント装置１０のハードウェア資源のスペック、オペレーションシステムなどのソフトウェアのバージョン、マイク１１の性能などを含むクライアント装置１０のプロファイル情報や、クライアント装置１０が例えば会議室などの特定の環境で固定して使用される場合の当該使用環境の情報、アカウントに紐付けられたクライアント装置１０のユーザ情報などが、属性情報の一例として挙げられる。これらの属性情報は、例えば、クライアント装置１０がサーバ装置２０に接続する際にクライアント装置１０から取得される。

ここで、クライアント装置１０がサーバ装置２０に接続する際にクライアント装置１０から取得された属性情報が、記憶部２８が記憶している他のクライアント装置１０の属性情報と類似する場合、閾値調整指示部２７は、その属性情報に対応付けて記憶部２８が記憶している第１閾値の適正値を読み出して、サーバ装置２０に接続したクライアント装置１０に対して、記憶部２８から読み出した適正値を第１閾値の初期値として設定することを指示してもよい。これにより、第１閾値の初期値を固定値に設定する場合と比べて、クライアント装置１０の性能や使用環境により適合した初期値を設定することができ、第１閾値の調整を行う前の初期段階においても、第１検出部１２による適切な発話区間の検出が期待できる。

また、閾値調整指示部２７は、上述した時間比率に基づいて算出した第１閾値の適正値が０から１の間で予め定められた基準範囲を越える場合は、クライアント装置１０に対してマイク１１の感度を調整することを指示するように構成してもよい。例えば、時間比率に基づいて算出した第１閾値の適正値が基準範囲を越えて１に近い値となっている場合は、クライアント装置１０のマイク１１が発話以外の環境雑音を多く入力している状況が想定される。このような場合には、閾値調整指示部２７は、クライアント装置１０に対してマイク１１の感度を下げることを指示する。また、時間比率に基づいて算出した第１閾値の適正値が基準範囲を越えて０に近い値となっている場合は、クライアント装置１０のマイク１１が適切に音を入力していない状況が想定される。このような場合には、閾値調整指示部２７は、クライアント装置１０に対してマイク１１の感度を上げることを指示する。

サーバ装置２０からマイク１１の感度調整の指示を受信したクライアント装置１０では、閾値調整部１５が、サーバ装置２０からの指示に従って、マイク１１の感度の調整を行う。これにより、マイク１１の感度が環境に順応するように調整され、第１検出部１２が適切な発話区間の検出を行えるようになる。

また、閾値調整指示部２７は、上述したマイク１１の感度調整の指示に加えて、あるいはマイク１１の感度調整の指示の代わりに、クライアント装置１０に対してマイク１１を用いた信号の入力が適切に行われていない旨の警告を送信するように構成してもよい。例えば、時間比率に基づいて算出した第１閾値の適正値が基準範囲を越えて１に近い値となっている場合に、閾値調整指示部２７は、例えば、マイク１１が発話以外の環境雑音を多く入力していることをユーザに伝えるとともに雑音が少ない環境での利用を促す警告を送信する。また、時間比率に基づいて算出した第１閾値の適正値が基準範囲を越えて０に近い値となっている場合に、閾値調整指示部２７は、例えば、マイク１１が適切に音を入力していないことをユーザに伝えるとともに使用するマイク１１をより高性能のものに変更することを促す警告を送信する。このような警告を受信したクライアント装置１０側では、警告の内容を図示しない表示部に表示してユーザに報知する。また、マイク１１の感度調整の指示も警告に含め、警告の内容をクライアント装置１０が解釈して自動的にマイク１１の感度調整を行うようにしてもよい。

次に、本実施形態に係る音声認識システムの動作の一例について、クライアント装置１０での処理とサーバ装置２０での処理とに分けて説明する。まず、クライアント装置１０での処理の流れを図５に沿って説明する。図５は、クライアント装置１０の処理手順の一例を示すフローチャートである。

図５のフローチャートで示す一連の処理は、クライアント装置１０がサーバ装置２０に接続したことを契機に開始される。処理が開始されると、まず尤度調整部１４が、サーバ装置２０からの尤度調整の指示に従って、例えば上述の方法により第１検出部１２が算出する尤度の調整を行う（ステップＳ１０１）。

次に、第１検出部１２が、発話区間の検出に用いる第１閾値の初期値を設定する（ステップＳ１０２）。第１閾値の初期値は、上述したように、予め定められた固定値（例えば０．１）であってもよいし、属性情報（プロファイル情報や使用環境の情報、ユーザ情報など）が類似する他のクライアント装置１０に対して算出された第１閾値の適正値であってもよい。また、閾値調整部１５が第１閾値の初期値を設定する構成であってもよい。

次に、マイク１１が、音声（人の発話）を含む信号の入力を開始し（ステップＳ１０３）、入力信号を第１検出部１２に渡す。そして、第１検出部１２が、入力信号に対して例えば上述の方法により発話区間の検出を行う（ステップＳ１０４）。第１検出部１２が検出した発話区間の信号である第１音声信号は、通信部１３から、通信ネットワーク３０を介してサーバ装置２０に送信される（ステップＳ１０５）。

サーバ装置２０において音声認識処理が行われて認識結果が送信されると、その認識結果が通信部１３により受信される（ステップＳ１０６）。この認識結果はクライアント装置１０の図示しない表示部に表示される。

次に、閾値調整部１５が、サーバ装置２０に対して閾値問い合わせを行う（ステップＳ１０７）。閾値問い合わせは、通信部１３から、通信ネットワーク３０を介してサーバ装置２０に送信される。そして、この閾値問い合わせに対する応答としてサーバ装置２０から第１閾値の適正値および調整指示が送信されると、この適正値および調整指示が通信部１３により受信され、閾値調整部１５に渡される（ステップＳ１０８）。閾値調整部１５は、サーバ装置２０からの調整指示に従って、第１検出部１２が発話区間の検出に用いる第１閾値の値を、調整指示とともに受け取った適正値に変更することで、第１閾値を調整する（ステップＳ１０９）。

その後、マイク１１による信号の入力が継続している間は（ステップＳ１１０：Ｎｏ）、ステップＳ１０３〜ステップＳ１０９の処理が繰り返され、マイク１１による信号の入力が終了すると（ステップＳ１１０：Ｙｅｓ）、図５のフローチャートで示す一連の処理が終了する。

次に、サーバ装置２０での処理の流れを図６に沿って説明する。図６は、サーバ装置２０の処理手順の一例を示すフローチャートである。図６のフローチャートで示す一連の処理は、クライアント装置１０がサーバ装置２０に接続したことを契機に開始される。複数のクライアント装置１０が同時にサーバ装置２０に接続している場合、サーバ装置２０は、それぞれのクライアント装置１０ごとに図６のフローチャートで示す処理を実行する。

処理が開始されると、まず尤度調整指示部２５が、例えば上述の方法により、クライアント装置１０に対して尤度調整の指示を行う（ステップＳ２０１）。

次に、第２検出部２２が、発話区間の検出に用いる第２閾値の初期値を設定する（ステップＳ２０２）。第２閾値の初期値は、上述したように、第１検出部１２が発話区間の検出に用いる第１閾値よりも大きい値（例えば０．３）に設定される。なお、閾値調整部２４が第２閾値の初期値を設定する構成であってもよい。

次に、クライアント装置１０から第１音声信号が送信されると、この第１音声信号が通信部２１により受信され、第２検出部２２に渡される（ステップＳ２０３）。そして、第２検出部２２が、クライアント装置１０からの第１音声信号に対して例えば上述の方法により発話区間の検出を行う（ステップＳ２０４）。第２検出部２２が検出した発話区間の信号である第２音声信号は、音声認識部２３に渡される。

次に、音声認識部２３が、第２検出部２２から受け取った第２音声信号に対して音声認識処理を行う（ステップＳ２０５）。この音声認識部２３による認識結果は、通信部２１から、通信ネットワーク３０を介してクライアント装置１０に送信される（ステップＳ２０６）。

次に、閾値調整部２４が、音声認識部２３による認識結果に基づいて、例えば上述の方法により第２閾値を調整する（ステップＳ２０７）。

その後、クライアント装置１０から閾値問い合わせが送信されると、この閾値問い合わせが通信部２１により受信され、閾値調整指示部２７に渡される（ステップＳ２０８）。閾値調整指示部２７は、閾値問い合わせを受け取ると、まず、時間比率算出部２６に対し時間比率の算出を要求する。この要求に応じて、時間比率算出部２６が第１音声信号と第２音声信号との時間比率を算出する（ステップＳ２０９）。

次に、閾値調整指示部２７は、時間比率算出部２６により算出された時間比率を取得し、この時間比率に基づいて、例えば上述の方法により第１閾値の適正値を算出する（ステップＳ２１０）。閾値調整指示部２７が算出した第１閾値の適正値は、閾値調整の指示とともに、通信部２１から、通信ネットワーク３０を介してクライアント装置１０に送信される（ステップＳ２１１）。また、この第１閾値の適正値は、クライアント装置１０の属性情報に対応付けて記憶部２８に格納される（ステップＳ２１２）。

その後、クライアント装置１０との接続が維持されている間は（ステップＳ２１３：Ｙｅｓ）、ステップＳ２０３〜ステップＳ２１２の処理が繰り返され、クライアント装置１０との接続が遮断されると（ステップＳ２１３：Ｎｏ）、図６のフローチャートで示す一連の処理が終了する。

以上、具体的な例を挙げながら詳細に説明したように、本実施形態に係る音声認識システムは、クライアント装置１０で入力信号に対し大まかな発話区間の検出を行って第１音声信号をサーバ装置２０に送信し、サーバ装置２０で第１音声信号に対し厳密な発話区間の検出を行って、得られた第２音声信号に対し音声認識処理を行う構成である。したがって、本実施形態によれば、クライアント装置１０とサーバ装置２０との間の通信量の削減を図りつつ、発話区間を精度よく検出して高精度で効率的な音声認識を実施することができる。

また、本実施形態の音声認識システムは、クライアント装置１０側で算出される尤度をサーバ装置２０側で算出される尤度に近づける機能を備えるため、クライアント装置１０側とサーバ装置２０側とで異なる方法で発話区間の検出を行いながら、共通の指標となる閾値を用いて発話区間の検出精度を調整することができる。すなわち、リソースが限られるクライアント装置１０側での発話区間検出は演算の処理負荷が比較的低い方法で行い、サーバ装置２０側ではクライアント装置１０よりも演算の処理負荷が高い方法で厳密な発話区間検出を実施することができる。

また、本実施形態の音声認識システムは、クライアント装置１０側での発話区間検出に用いる第１閾値を調整する機能や、サーバ装置２０側での発話区間検出に用いる第２閾値を調整する機能を備えるため、クライアント装置１０側で検出される発話区間とサーバ装置２０側で検出される発話区間との関係を、処理を繰り返すごとに最適化していくことができる。

（第２の実施形態）
クライアント装置１０の他の構成例を第２実施形態として説明する。以下では、第２実施形態のクライアント装置１０を第１実施形態と区別してクライアント装置１０Ａと表記する。なお、サーバ装置２０の構成は第１実施形態と共通である。以下、第１実施形態と共通の部分は同一の符号を付して重複した説明を省略し、第１実施形態との相違点のみを説明する。

図７は、第２実施形態のクライアント装置１０Ａの構成例を示すブロック図である。第２実施形態のクライアント装置１０Ａは、例えばテレビ会議端末のように複数のユーザが共有して使用することを想定して構成されたものであり、第１実施形態のクライアント装置１０が備えるマイク１１に代えて、複数のマイクが一体化された構成のマイクアレイ１６を備える。マイクアレイ１６は、複数の話者の発話を含む信号を入力する。

また、第２実施形態のクライアント装置１０Ａは、第１実施形態のクライアント装置１０の構成に加えて、音声分離部１７（分離部）をさらに備える。音声分離部１７は、マイクアレイ１６が入力した入力信号を、話者ごとの信号に分離する。すなわち、音声分離部１７は、マイクアレイ１６が入力した入力信号から音源（話者）の方向を推定し、推定した音源の方向が複数ある場合は、入力信号を音源ごとの信号に分離する。このような音源の方向を推定して信号を分離する技術は公知の技術であるため、ここでは詳細な説明は省略する。

また、音声分離部１７は、音源（話者）ごとに分離したそれぞれの信号に対し、発話区間を検出するための第１検出部１２を動的に生成する。すなわち、音声分離部１７は、マイクアレイ１６が入力した入力信号から、ある方向に音源（話者）が存在すると判断したときに、その音源からの信号に対して発話区間の検出を行うための第１検出部１２を生成する。また、他の方向に音源（話者）が存在すると判断したときも同様に、その音源からの信号に対して発話区間の検出を行うための第１検出部１２を生成する。音源（話者）ごとに分離された信号は、それぞれ動的に生成された第１検出部１２に渡されて、以降、第１実施形態と同様の処理が行われる。なお、音源（話者）ごとに動的に生成された第１検出部１２は、所定時間に亘ってその音源（話者）の方向からの入力がない場合に削除される。

また、クライアント装置１０Ａでは、第１実施形態と同様に、尤度調整部１４による尤度の調整や、閾値調整部１５による第１閾値の調整が行われるが、これらの尤度調整や閾値調整は、音源（話者）ごとに動的に生成される第１検出部１２に対してそれぞれ個別に行われる。なお、サーバ装置２０における処理も同様に、音源（話者）ごとに分離された信号に対して個別に行われる。

以上のように、本実施形態では、クライアント装置１０Ａが入力信号を話者ごとに分離して第１検出部１２を動的に生成する構成としているため、第１実施形態と同様に、クライアント装置１０とサーバ装置２０との間の通信量の削減を図りつつ、発話区間を精度よく検出して高精度で効率的な音声認識を実施することができることに加えて、複数話者の発話に対して個別に音声認識を行って、話者ごとの認識結果を得ることができる。

（補足）
以上説明した実施形態のサーバ装置２０における各機能的な構成要素は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用いて実行されるプログラム（ソフトウェア）により実現することができる。

図８は、サーバ装置２０のハードウェア構成の一例を概略的に示すブロック図である。サーバ装置２０は、図８に示すように、ＣＰＵなどのプロセッサ１０１と、ＲＡＭなどの主記憶部１０２と、各種の記憶装置を用いた補助記憶部１０３と、通信インタフェース１０４と、これらの各部を接続するバス１０５とを含んだ汎用のコンピュータシステムとして構成される。なお、補助記憶部１０３は、有線または無線によるＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）などで各部に接続されてもよい。

サーバ装置２０の各機能的な構成要素は、例えば、プロセッサ１０１が、主記憶部１０２を利用して、補助記憶部１０３などに格納されたプログラムを実行することによって実現される。このプログラムは、例えば、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disc）などのコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。

また、このプログラムを、インターネットなどのネットワークに接続された他のコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、このプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。また、このプログラムを、コンピュータ内部のＲＯＭ（補助記憶部１０３）などに予め組み込んで提供するように構成してもよい。

このプログラムは、サーバ装置２０の機能的な構成要素（通信部２１、第２検出部２２、音声認識部２３、閾値調整部２４、尤度調整指示部２５、時間比率算出部２６および閾値調整指示部２７）を含むモジュール構成となっており、実際のハードウェアとしては、例えば、プロセッサ１０１が上記記録媒体からプログラムを読み出して実行することにより、上記の各構成要素が主記憶部１０２上にロードされ、上記の各構成要素が主記憶部１０２上に生成されるようになっている。なお、サーバ装置２０の機能的な構成要素は、その一部または全部を、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field-Programmable Gate Array）などの専用のハードウェアを用いて実現することも可能である。

以上、本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０クライアント装置
１１マイク
１２第１検出部
１３通信部
１４尤度調整部
１５閾値調整部
１６マイクアレイ
１７音声分離部
２０サーバ装置
２１通信部
２２第２検出部
２３音声認識部
２４閾値調整部
２５尤度調整部
２６時間比率算出部
２７閾値調整指示部
３０通信ネットワーク

Claims

外部装置が第１の方法で算出した発話らしさを表す尤度が第１閾値以上の信号である第１音声信号を受信する受信部と、
前記第１音声信号から、前記第１の方法とは異なる第２の方法で算出した前記尤度が前記第１閾値よりも大きい第２閾値以上の区間の信号である第２音声信号を検出する検出部と、
サンプル信号と、当該サンプル信号に対して前記検出部が前記第２の方法で算出した前記尤度の時系列データとを前記外部装置に送信し、前記サンプル信号に対して前記第１の方法で時系列に算出される前記尤度が前記時系列データに近づくように、前記外部装置に対して前記尤度の調整を指示する尤度調整指示部と、を備える発話区間検出装置。
発話らしさを表す尤度が第１閾値以上の信号である第１音声信号を外部装置から受信する受信部と、
前記第１音声信号から、前記尤度が前記第１閾値よりも大きい第２閾値以上の区間の信号である第２音声信号を検出する検出部と、
前記第１音声信号と前記第２音声信号との時間比率を算出する時間比率算出部と、
前記時間比率に基づいて前記第１閾値の適正値を算出し、前記外部装置に対して、前記第１閾値を前記適正値に調整することを指示する閾値調整指示部と、を備える発話区間検出装置。
前記外部装置はマイクを用いて入力した信号から前記第１音声信号を検出し、
前記閾値調整指示部は、前記時間比率に基づいて算出した前記適正値が基準範囲を越える場合は、前記外部装置に対して前記マイクの感度を調整することを指示する、請求項２に記載の発話区間検出装置。
前記外部装置はマイクを用いて入力した信号から前記第１音声信号を検出し、
前記閾値調整指示部は、前記時間比率に基づいて算出した前記適正値が基準範囲を越える場合は、前記外部装置に対して前記マイクを用いた信号の入力が適切に行われていない旨の警告を送信する、請求項２に記載の発話区間検出装置。
前記外部装置に対して算出した前記適正値を当該外部装置の属性情報に対応付けて記憶する記憶部をさらに備え、
前記閾値調整指示部は、前記記憶部が記憶する属性情報と類似する属性の他の外部装置に対し、前記属性情報と対応付けられた前記適正値を前記第１閾値として設定することを指示する、請求項２乃至４のいずれか一項に記載の発話区間検出装置。
前記第２音声信号に対して音声認識処理を行って前記第２音声信号に対応するテキストデータを出力する音声認識部をさらに備える、請求項１乃至５のいずれか一項に記載の発話区間検出装置。
前記音声認識部による認識結果に基づいて、前記第２閾値を調整する閾値調整部をさらに備える、請求項６に記載の発話区間検出装置。
第１装置と、ネットワークを介して前記第１装置と通信する第２装置とを含む音声処理システムであって、
前記第１装置は、
入力信号から、第１の方法で算出した発話らしさを表す尤度が第１閾値以上の区間の信号である第１音声信号を検出する第１検出部と、
前記第１音声信号を前記第２装置に送信する送信部と、を備え、
前記第２装置は、
前記第１音声信号を受信する受信部と、
前記第１音声信号から、前記第１の方法とは異なる第２の方法で算出した前記尤度が前記第１閾値よりも大きい第２閾値以上の区間の信号である第２音声信号を検出する第２検出部と、
サンプル信号と、当該サンプル信号に対して前記第２検出部が前記第２の方法で算出した前記尤度の時系列データとを前記第１装置に送信し、前記サンプル信号に対して前記第１の方法で時系列に算出される前記尤度が前記時系列データに近づくように、前記第１装置に対して前記尤度の調整を指示する尤度調整指示部と、を備える音声処理システム。
第１装置と、ネットワークを介して前記第１装置と通信する第２装置とを含む音声処理システムであって、
前記第１装置は、
入力信号から、発話らしさを表す尤度が第１閾値以上の区間の信号である第１音声信号を検出する第１検出部と、
前記第１音声信号を前記第２装置に送信する送信部と、を備え、
前記第２装置は、
前記第１音声信号を受信する受信部と、
前記第１音声信号から、前記尤度が前記第１閾値よりも大きい第２閾値以上の区間の信号である第２音声信号を検出する第２検出部と、
前記第１音声信号と前記第２音声信号との時間比率を算出する時間比率算出部と、
前記時間比率に基づいて前記第１閾値の適正値を算出し、前記第１装置に対して、前記第１閾値を前記適正値に調整することを指示する閾値調整指示部と、を備える音声処理システム。
前記第１装置は、
前記入力信号を話者ごとの信号に分離する分離部をさらに備え、
前記第１検出部は、分離された話者ごとの信号に対して動的に生成される、請求項８または９に記載の音声処理システム。
コンピュータが実行する発話区間検出方法であって、
外部装置が第１の方法で算出した発話らしさを表す尤度が第１閾値以上の信号である第１音声信号を受信する工程と、
前記第１音声信号から、前記第１の方法とは異なる第２の方法で算出した前記尤度が前記第１閾値よりも大きい第２閾値以上の区間の信号である第２音声信号を検出する工程と、
サンプル信号と、当該サンプル信号に対して前記第２の方法で算出した前記尤度の時系列データとを前記外部装置に送信し、前記サンプル信号に対して前記第１の方法で時系列に算出される前記尤度が前記時系列データに近づくように、前記外部装置に対して前記尤度の調整を指示する工程と、を含む発話区間検出方法。
コンピュータが実行する発話区間検出方法であって、
発話らしさを表す尤度が第１閾値以上の信号である第１音声信号を外部装置から受信する工程と、
前記第１音声信号から、前記尤度が前記第１閾値よりも大きい第２閾値以上の区間の信号である第２音声信号を検出する工程と、
前記第１音声信号と前記第２音声信号との時間比率を算出する工程と、
前記時間比率に基づいて前記第１閾値の適正値を算出し、前記外部装置に対して、前記第１閾値を前記適正値に調整することを指示する工程と、を含む発話区間検出方法。
コンピュータに、
外部装置が第１の方法で算出した発話らしさを表す尤度が第１閾値以上の信号である第１音声信号を受信する機能と、
前記第１音声信号から、前記第１の方法とは異なる第２の方法で算出した前記尤度が前記第１閾値よりも大きい第２閾値以上の区間の信号である第２音声信号を検出する機能と、
サンプル信号と、当該サンプル信号に対して前記第２の方法で算出した前記尤度の時系列データとを前記外部装置に送信し、前記サンプル信号に対して前記第１の方法で時系列に算出される前記尤度が前記時系列データに近づくように、前記外部装置に対して前記尤度の調整を指示する機能と、を実現させるためのプログラム。
コンピュータに、
発話らしさを表す尤度が第１閾値以上の信号である第１音声信号を外部装置から受信する機能と、
前記第１音声信号から、前記尤度が前記第１閾値よりも大きい第２閾値以上の区間の信号である第２音声信号を検出する機能と、
前記第１音声信号と前記第２音声信号との時間比率を算出する機能と、
前記時間比率に基づいて前記第１閾値の適正値を算出し、前記外部装置に対して、前記第１閾値を前記適正値に調整することを指示する機能と、を実現させるためのプログラム。