JP6275606B2

JP6275606B2 - 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム

Info

Publication number: JP6275606B2
Application number: JP2014188890A
Authority: JP
Inventors: 翔子宮森; 舘森　三慶; 三慶舘森; 上野　晃嗣; 晃嗣上野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-09-17
Filing date: 2014-09-17
Publication date: 2018-02-07
Anticipated expiration: 2034-09-17
Also published as: WO2016043182A1; US20170110146A1; JP2016061890A; US10210886B2

Description

本発明の実施形態は、音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラムに関する。

例えばサーバ・クライアント型の音声認識システムなど、クライアント端末に入力された音声に対してサーバ装置で所定の処理を実行するシステムが知られている。この種のシステムでは、クライアント端末からサーバ装置への通信量削減のために、クライアント端末において入力信号から人が発話した音声の部分である音声区間を検出する処理を実行し、検出した音声区間の信号のみをサーバ装置に送信することも行われる。しかし、クライアント端末はサーバ装置と比べてリソースが限られるため、クライアント端末における音声区間の検出は十分な精度が得られない場合が多く、音声の送信漏れが生じる懸念がある。このため、通信量の削減を図りながら音声の送信漏れを抑制できる新たな仕組みの構築が望まれる。

特許第４１９７２７１号公報特許第４４２５０５５号公報

本発明が解決しようとする課題は、通信量の削減を図りながら音声の送信漏れを抑制できる音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラムを提供することである。

実施形態の音声区間検出システムは、通信可能に接続された音声始端検出装置と音声終端検出装置とを含む。前記音声始端検出装置は、第１検出部と、第１送信部と、第１受信部と、を備え、前記音声終端検出装置は、第２受信部と、第２検出部と、第２送信部と、を備える。第１検出部は、時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出する。第１送信部は、前記始端が検出されると、該始端以降の前記入力信号を前記音声終端検出装置に送信し、前記第１検出部によって前記終端が検出されると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記音声終端検出装置に送信する。第１受信部は、音声区間の終端が検出されたことを示す終端検出信号を前記音声終端検出装置から受信し、前記入力信号の送信再開を要求する送信再開リクエストが前記音声終端検出装置から送信されると、該送信再開リクエストを受信する。第２受信部は、前記始端以降の前記入力信号を前記音声始端検出装置から受信し、前記送信中断メッセージが前記音声始端検出装置から送信されると、該送信中断メッセージを受信する。第２検出部は、受信した前記入力信号から音声区間の終端を検出する。第２送信部は、前記終端が検出されると、前記終端検出信号を前記音声始端検出装置に送信し、前記第２検出部により前記終端が検出されず、かつ、前記第２受信部により前記送信中断メッセージが受信されると、前記送信再開リクエストを前記音声始端検出装置に送信する。前記第１送信部は、前記第１受信部が前記終端検出信号を受信すると、前記入力信号の送信を停止し、前記第１受信部が前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号を前記音声終端検出装置に送信する。

第１実施形態の音声区間検出システムの構成例を示すブロック図。音声始端検出装置における処理手順の一例を示すフローチャート。音声終端検出装置における処理手順の一例を示すフローチャート。第２実施形態の音声区間検出システムの構成例を示すブロック図。音声始端検出装置における処理手順の一例を示すフローチャート。音声終端検出装置における処理手順の一例を示すフローチャート。

実施形態の音声区間検出システムは、通信可能に接続された音声始端検出装置と音声終端検出装置との協働により、マイクなどの入力デバイスから時系列に入力される音声を含む信号（以下、入力信号という。）から音声区間を検出する。音声始端検出装置は、入力信号から音声区間の始端（以下、音声始端という。）を検出する処理を行い、音声始端が検出されると、それ以降の入力信号を音声終端検出装置に送信する。音声終端検出装置は、音声始端検出装置から受信した入力信号、つまり音声始端検出装置によって検出された音声始端以降の入力信号に対して、音声区間の終端（以下、音声終端という。）を検出する処理を行い、音声終端が検出されると、終端検出信号を音声始端検出装置に送信する。音声始端検出装置は、音声終端検出装置から終端検出信号を受信すると、音声終端検出装置に対する入力信号の送信を停止する。

実施形態の音声区間検出システムは、例えば、音声始端検出装置をクライアント端末とし、音声終端検出装置をサーバ装置としたサーバ・クライアント型のシステムとして実現することができる。この場合、クライアント端末としては、例えば、外部接続端子に外付けのマイクを接続したパーソナルコンピュータや、マイクを内蔵する携帯電話機、スマートフォン、タブレット端末、テレビ会議（ビデオ会議）システム用の端末として構成されたテレビ会議端末など、通信ネットワークに接続する機能を持った装置を利用することができる。クライアント端末として利用するこれらの装置は、プロセッサやメモリなどの通常のコンピュータシステムを実現するリソースを備え、一例として、コンピュータシステム上で所定のプログラムを実行することにより、音声始端検出装置としての機能を実現する。一方、サーバ装置は、通信ネットワーク上に構築されたサーバコンピュータであり、プロセッサやメモリなどの通常のコンピュータシステムを実現するリソースを備え、例えば、コンピュータシステム上で所定のプログラムを実行することにより、音声終端検出装置としての機能を実現する。音声終端検出装置の機能を実現するサーバ装置は、クラウドシステム上で動作する仮想マシンであってもよい。

クライアント端末に入力された音声に対してサーバ装置で所定の処理を実行する従来のサーバ・クライアント型のシステムでは、クライアント端末からサーバ装置への通信量削減のために、クライアント端末において入力信号から音声始端と音声終端とを検出（つまり、音声区間を検出）し、検出した音声区間の信号をサーバ装置に送信していた。したがって、クライアント端末からサーバ装置に送信される音声区間の信号は、クライアント装置での処理によって決定されていた。しかし、クライアント端末はサーバ装置と比べてリソースが限られるため、クライアント端末における音声区間の検出は十分な精度が得られない場合が多い。このため、入力信号の音声の部分を誤って音声区間でないと判定してしまう場合があり、音声の送信漏れが生じる懸念がある。

これに対して実施形態の音声区間検出システムでは、音声始端検出装置と音声終端検出装置との協働により音声区間が検出され、少なくともこの音声区間を含む信号が、音声始端検出装置から音声終端検出装置に送信される。つまり、音声始端検出装置と比べて十分なリソースを持つ音声終端検出装置において音声終端の検出を高精度に行い、その結果を音声始端検出装置にフィードバックすることで、音声始端検出装置から音声終端検出装置に送信される信号の範囲が決定される。したがって、実施形態の音声区間検出システムによれば、音声始端検出装置から音声終端検出装置への通信量の削減を図りながら音声の送信漏れを有効に抑制することができる。

実施形態の音声区間検出システムによって検出される音声区間の信号は、様々な用途で利用することができる。例えば、サーバ・クライアント型の音声認識システムに対して実施形態の音声区間検出システムを適用した場合、検出された音声区間の信号に対してサーバ装置により音声認識処理が実行され、認識結果のテキストデータがクライアント端末に送信される。また、サーバ・クライアント型の音声蓄積システムに対して実施形態の音声区間検出システムを適用した場合、検出された音声区間の信号が録音データとしてサーバ装置に蓄積される。また、音声区間検出システムによって検出された音声区間の信号を他のアプリケーションサーバに送信して利用することもできる。

なお、実施形態の音声区間検出システムをサーバ・クライアント型のシステムとして実現した場合、音声終端検出装置に対して多数の音声始端検出装置を接続することができる。この場合、音声終端検出装置は、接続された音声始端検出装置ごとに並列で処理を実行する。音声終端検出装置は、例えば、音声始端検出装置に対して事前に付与された固有の識別情報を用いて音声始端検出装置の機器認証や管理などを行うことができる。

以下、実施形態の音声区間検出システムの具体例について、図面を参照しながら詳細に説明する。

［第１実施形態］
図１は、第１実施形態の音声区間検出システムの構成例を示すブロック図である。本実施形態の音声区間検出システムは、図１に示すように、通信ネットワークＮＴを介して通信可能に接続された音声始端検出装置１０と音声終端検出装置２０とを備える。

音声始端検出装置１０は、図１に示すように、入力制御部１１と、第１検出部１３と、第１送信部１４と、第１受信部１５とを備える。

入力制御部１１は、現在の音声区間の検出状態、すなわち、音声始端も音声終端も検出されていない状態であるか、音声始端が検出されているが音声終端が検出されていない状態であるかを保持し、その状態に応じて、マイクなどの入力デバイスから時系列に入力される入力信号の流れを制御する。なお、入力信号はマイクなどの入力デバイスから入力された信号に限らず、例えば、録音データをプログラム中で読み込んだ信号などであってもよい。

入力制御部１１は、現在の音声区間の検出状態が、音声始端も音声終端も検出されていない状態であれば、入力信号を第１検出部１３に渡す。また、入力制御部１１は、現在の音声区間の検出状態が、音声始端が検出されているが音声終端が検出されていない状態であれば、入力信号を第１送信部１４に渡す。なお、入力制御部１１は、後述の終端検出信号によって音声終端が検出されたことを認識すると、第１送信部１４への入力信号の供給を停止する。そして、その後の音声区間の検出が要求された場合など、新たに音声区間の検出を開始する場合は、音声始端が検出されていないものとして、入力信号を再び第１検出部１３に渡す。

第１検出部１３は、入力制御部１１から渡された入力信号から音声始端を検出する処理を実行する。第１検出部１３が実行する処理としては、音声区間の検出方法として知られている様々な方法のうち、処理負荷が比較的低い方法を採用すればよい。例えば、入力信号のパワーを閾値と比較することで音声始端を検出する方法などを用いることができる。第１検出部１３が音声始端を検出した場合、音声始端を検出したことを示す情報が入力制御部１１に伝えられる。入力制御部１１は、この情報に基づいて音声始端が検出されたことを認識し、入力信号の供給先を第１検出部１３から第１送信部１４へと切り替える。なお、第１検出部１３が音声始端を検出した場合に入力制御部１１に伝える情報には、検出した音声始端の時間軸上における位置（始端位置）を示す情報が含まれていることが望ましい。これにより、入力制御部１１に始端位置を認識させることができる。

第１送信部１４は、入力制御部１１から渡された入力信号を、通信ネットワークＮＴを介して音声終端検出装置２０に送信する。入力制御部１１は、第１検出部１３によって音声始端が検出されると、検出された音声始端以降の入力信号を第１送信部１４に渡す。したがって、第１送信部１４は、第１検出部１３によって検出された音声始端以降の入力信号を、音声終端検出装置２０に送信する。

第１受信部１５は、音声終端検出装置２０から通信ネットワークＮＴを介して送信される終端検出信号を受信する。終端検出信号は、後述するように、音声終端検出装置２０において音声終端が検出された場合に送信される。第１受信部１５は、音声終端検出装置２０から終端検出信号が送信されるとこれを受信して、入力制御部１１に渡す。入力制御部１１は、この終端検出信号に基づいて音声終端が検出されたことを認識する。

音声終端が検出されたことを入力制御部１１が認識すると、入力制御部１１から第１送信部１４への入力信号の供給が停止される。したがって、第１受信部１５が音声終端検出装置２０から送信された終端検出信号を受信すると、第１送信部１４は、音声終端検出装置２０に対する入力信号の送信を停止する。

音声終端検出装置２０は、図１に示すように、第２受信部２１と、第２検出部２２と、第２送信部２３とを備える。

第２受信部２１は、音声始端検出装置１０から通信ネットワークＮＴを介して送信される入力信号を受信する。音声始端検出装置１０から送信される入力信号は、上述したように、音声始端検出装置１０に時系列で入力される入力信号のうち、第１検出部１３によって検出された音声始端以降の入力信号である。第２受信部２１は、この音声始端以降の入力信号を音声始端検出装置１０から受信する。第２受信部２１が受信した入力信号は、第２検出部２２に渡される。

第２検出部２２は、第２受信部２１が受信した入力信号から音声終端を検出する処理を実行する。第２検出部２２が実行する処理としては、音声区間の検出方法として知られている様々な方法のうち、音声始端検出装置１０の第１検出部１３が用いる方法と比べて、処理負荷が大きいが検出精度が高い方法を採用すればよい。例えば、入力信号に対してノイズ除去のためのフィルタリング処理などを行った上で信号パワーを閾値と比較して音声終端を検出する方法や、音声の周波数特性や音響モデルなどから計算される特徴量を用いて音声終端を検出する方法などを用いることができる。音声終端検出装置２０は、上述したように、十分なリソースを持ち処理能力が高いサーバ装置で実現することを想定するため、このような処理負荷の高い方法による高精度な検出を適切に（大幅な遅延を招くことなく）実行できる。第２検出部２２が音声終端を検出した場合、その情報が第２送信部２３に伝えられる。

第２送信部２３は、第２検出部２２により音声終端が検出されると、音声終端が検出されたことを示す終端検出信号を生成して、この終端検出信号を通信ネットワークＮＴを介して音声始端検出装置１０に送信する。この際、第２送信部２３は、第２検出部２２によって検出された音声終端の時間軸上の位置（終端位置）を特定するための時間情報を含む終端検出信号を生成することが望ましい。例えば、第２送信部２３は、第２受信部２１が受信した入力信号の先頭である音声始端を基準とした終端位置の時刻を表す相対時刻を第２検出部２２から取得し、この相対時刻を時間情報として埋め込んだ終端検出信号を生成する。また、第２受信部２１が受信した入力信号に時刻を表すタイムスタンプが付されている場合、第２送信部２３は、終端位置に対応するタイムスタンプを第２検出部２２から取得し、このタイムスタンプを時間情報として埋め込んだ終端検出信号を生成してもよい。このような時間情報を含む終端検出信号を音声始端検出装置１０に送信することにより、終端位置を音声始端検出装置１０に知らせることができる。

次に、以上のように構成される本実施形態の音声区間検出システムの動作概要を説明する。

まず、音声始端検出装置１０に対する入力信号の入力が開始される。このとき、音声始端は検出されていないため、入力信号が第１検出部１３に渡されて音声始端を検出する処理が行われる。そして、第１検出部１３により音声始端が検出されると、音声始端以降の入力信号が、第１送信部１４から音声終端検出装置２０に送信される。

音声終端検出装置２０では、音声始端以降の入力信号を第２受信部２１が受信すると、この入力信号が第２検出部２２に渡されて音声終端を検出する処理が行われる。そして、第２検出部２２により音声終端が検出されると、終端検出信号が、第２送信部２３から音声始端検出装置１０に送信される。この終端検出信号を音声始端検出装置１０の第１受信部１５が受信すると、第１送信部１４から音声終端検出装置２０への入力信号の送信が停止される。

次に、図２を参照しながら、音声始端検出装置１０における処理手順を説明する。図２は、音声始端検出装置１０における処理手順の一例を示すフローチャートである。この図２のフローチャートで示す一連の処理は、音声始端検出装置１０に入力信号が入力されると開始される。

音声始端検出装置１０に入力信号が入力されると、まず、入力制御部１１が、音声始端が未検出の状態であるか否かを判定し（ステップＳ１０１）、音声始端が検出済みであれば（ステップＳ１０１：Ｎｏ）、入力信号を第１送信部１４に渡す。この場合、ステップＳ１０４に処理が移行する。一方、音声始端が未検出の状態であれば（ステップＳ１０１：Ｙｅｓ）、入力制御部１１は、入力信号を第１検出部１３に渡す。この場合、第１検出部１３が、入力制御部１１から渡された入力信号に対して、音声始端を検出する処理を実行する（ステップＳ１０２）。

その後、入力制御部１１は、第１検出部１３により音声始端が検出されたか否かを判定する（ステップＳ１０３）。ここで、音声始端が検出されない場合（ステップＳ１０３：Ｎｏ）、入力制御部１１は、入力信号を第１検出部１３に供給し続ける。これにより、ステップＳ１０２の第１検出部１３による音声始端の検出処理が継続される。一方、第１検出部１３により音声始端が検出されると（ステップＳ１０３：Ｙｅｓ）、入力制御部１１は、検出された音声始端以降の入力信号を第１送信部１４に渡す。この場合、ステップＳ１０４に処理が移行する。

ステップＳ１０４では、第１送信部１４が、入力制御部１１から渡された入力信号を、通信ネットワークＮＴを介して音声終端検出装置２０に送信する。以上の手順により、第１検出部１３によって検出された音声始端以降の入力信号が、音声終端検出装置２０に送信されることになる。

その後、入力制御部１１は、第１受信部１５が音声終端検出装置２０から送信される終端検出信号を受信したか否かを判定する（ステップＳ１０５）。ここで、終端検出信号を受信していなければ（ステップＳ１０５：Ｎｏ）、入力制御部１１は、入力信号を第１送信部１４に供給し続ける。これにより、ステップＳ１０４の第１送信部１４による入力信号の送信処理が継続される。一方、第１受信部１５が終端検出信号を受信すると（ステップＳ１０５：Ｙｅｓ）、入力制御部１１から第１送信部１４への入力信号の供給が停止されることで、第１送信部１４から音声終端検出装置２０への入力信号の送信が停止し、一連の処理が終了する。

次に、図３を参照しながら、音声終端検出装置２０における処理手順を説明する。図３は、音声終端検出装置２０における処理手順の一例を示すフローチャートである。この図３のフローチャートで示す一連の処理は、音声始端検出装置１０から音声終端検出装置２０に対して入力信号が送信されるたびに繰り返し実行される。

音声始端検出装置１０から入力信号が送信されると、まず、第２受信部２１が入力信号を受信して（ステップＳ２０１）、第２検出部２２に渡す。そして、第２検出部２２が、第２受信部２１から渡された入力信号に対して、音声終端を検出する処理を実行する（ステップＳ２０２）。ここで、第２検出部２２によって音声終端が検出されなければ（ステップＳ２０３：Ｎｏ）、そのまま処理を終了する。一方、第２検出部２２によって音声終端が検出されると（ステップＳ２０３：Ｙｅｓ）、第２送信部２３が、終端検出信号を生成して音声始端検出装置１０に送信し（ステップＳ２０４）、処理を終了する。

以上、具体的な例を挙げながら説明したように、本実施形態の音声区間検出システムでは、音声始端検出装置１０により検出された音声始端以降の入力音声が音声終端検出装置２０に送信される。そして、この入力信号から音声終端検出装置２０によって音声終端が検出されると、音声始端検出装置１０から音声終端検出装置２０への入力信号の送信が停止される。したがって、この音声区間検出システムによれば、音声始端検出装置１０から音声終端検出装置２０への通信量の削減を図りながら、音声の送信漏れを有効に抑制することができる。

［第２実施形態］
次に、第２実施形態の音声区間検出システムについて説明する。本実施形態の音声区間検出システムでは、音声始端検出装置が音声終端の検出も行って、音声終端を検出すると音声終端検出装置に対する入力信号の送信を中断する。一方、音声終端検出装置は、第１実施形態と同様に音声始端検出装置から受信した入力信号に対して音声終端を検出する処理を行うが、受信した入力信号から音声終端が検出されない場合は、音声始端検出装置に対して入力信号の送信再開を要求する。そして、音声始端検出装置は、音声終端検出装置からの要求に応じて、中断した時点以降の入力信号を音声終端検出装置に送信する。これにより、音声始端検出装置から音声終端検出装置への通信量を、第１実施形態よりもさらに削減することができる。

図４は、第２実施形態の音声区間検出システムの構成例を示すブロック図である。本実施形態の音声区間検出システムは、図４に示すように、通信ネットワークＮＴを介して通信可能に接続された音声始端検出装置３０と、音声終端検出装置４０とを備える。

音声始端検出装置３０は、図４に示すように、入力制御部３１と、入力バッファ３２と、第１検出部３３と、第１送信部３４と、第１受信部３５とを備える。入力バッファ３２は、マイクなどの入力デバイスから時系列に入力される入力信号が順次格納されるバッファである。

入力制御部３１は、第１実施形態の入力制御部１１と同様に、現在の音声区間の検出状態に応じて、マイクなどの入力デバイスから時系列に入力される入力信号の流れを制御する。ただし、本実施形態の入力制御部３１は、第１検出部３３によって音声始端が検出された後も継続して第１検出部３３に入力信号を渡す。その後、第１検出部３３によって音声終端が検出されると、第１送信部３４への入力信号の供給を停止し、第１送信部３４から音声終端検出装置４０への入力信号の送信を中断させる。また、本実施形態の入力制御部３１は、第１受信部３５によって後述の送信再開リクエストが受信されると、送信を中断した時点以降の入力信号を入力バッファ３２から取り出して第１送信部３４に渡し、第１送信部３４から音声終端検出装置４０への入力信号の送信を再開させる。

第１検出部３３は、始端検出部３３ａと終端検出部３３ｂとを有する。始端検出部３３ａは、第１実施形態の第１検出部１３と同様に、入力制御部３１から渡された入力信号から音声始端を検出する処理を実行する。終端検出部３３ｂは、入力制御部３１から渡された入力信号から音声終端を検出する処理を実行する。これら始端検出部３３ａおよび終端検出部３３ｂが実行する処理としては、第１実施形態の第１検出部１３と同様の検出方法を用いることができる。始端検出部３３ａが音声始端を検出した場合は、始端位置を示す情報が入力制御部３１に伝えられる。終端検出部３３ｂが音声終端を検出した場合は、終端位置を示す情報が入力制御部３１に伝えられる。

第１送信部３４は、入力信号送信部３４ａとメッセージ送信部３４ｂとを有する。入力信号送信部３４ａは、第１実施形態の第１送信部１４と同様に、入力制御部３１から渡された入力信号を、通信ネットワークＮＴを介して音声終端検出装置４０に送信する。メッセージ送信部３４ｂは、第１検出部３３の終端検出部３３ｂにより音声終端が検出されたことにより、入力制御部３１からの入力信号の供給が停止された場合に、入力信号の送信を中断することを示す送信中断メッセージを生成し、この送信中断メッセージを、通信ネットワークＮＴを介して音声終端検出装置４０に送信する。

第１受信部３５は、検出信号受信部３５ａとリクエスト受信部３５ｂとを有する。検出信号受信部３５ａは、第１実施形態の第１受信部１５と同様に、音声終端検出装置４０から通信ネットワークＮＴを介して送信される終端検出信号を受信する。リクエスト受信部３５ｂは、音声終端検出装置４０から通信ネットワークＮＴを介して送信される送信再開リクエストを受信する。送信再開リクエストは、後述するように、音声終端検出装置４０において受信した入力信号から音声終端が検出されない場合に送信される。リクエスト受信部３５ｂは、音声終端検出装置４０から送信再開リクエストが送信されるとこれを受信して、入力制御部３１に渡す。入力制御部３１は、この送信再開リクエストを受け取ると、停止していた第１送信部３４への入力信号の供給を再開し、送信を中断した時点以降の入力信号を入力バッファ３２から取り出して第１送信部３４に渡す。これにより、第１送信部３４の入力信号送信部３４ａから音声終端検出装置４０への入力信号の送信が再開される。

音声終端検出装置４０は、図４に示すように、第２受信部４１と、第２検出部４２と、第２送信部４３とを備える。

第２受信部４１は、入力信号受信部４１ａとメッセージ受信部４１ｂとを有する。入力信号受信部４１ａは、第１実施形態の第２受信部２１と同様に、音声始端検出装置３０から通信ネットワークＮＴを介して送信される入力信号を受信する。入力信号受信部４１ａが受信した入力信号は、第２検出部４２に渡される。メッセージ受信部４１ｂは、音声始端検出装置３０から通信ネットワークＮＴを介して送信される送信中断メッセージを受信する。メッセージ受信部４１ｂが受信した送信中断メッセージは、第２検出部４２に渡される。

第２検出部４２は、第１実施形態の第２検出部２２と同様に、入力信号受信部４１ａが受信した入力信号から音声終端を検出する処理を実行する。第２検出部４２が実行する処理としては、第１実施形態の第２検出部２２と同様の検出方法を用いることができる。第２検出部４２が音声終端を検出した場合、その情報が第２送信部４３に伝えられる。また、入力信号受信部４１ａが受信した入力信号から音声終端が検出されず、かつ、メッセージ受信部４１ｂが送信中断メッセージを受信している場合、第２検出部４２は、第２送信部４３に対して送信再開リクエストの送信を依頼する。

第２送信部４３は、検出信号送信部４３ａとリクエスト送信部４３ｂとを有する。検出信号送信部４３ａは、第１実施形態の第２送信部２３と同様に、第２検出部４２により音声終端が検出されると、音声終端が検出されたことを示す終端検出信号を生成して、この終端検出信号を通信ネットワークＮＴを介して音声始端検出装置３０に送信する。リクエスト送信部４３ｂは、第２検出部４２からの依頼に応じて、音声始端検出装置３０に対して入力信号の送信再開を要求する送信再開リクエストを生成し、この送信再開リクエストを通信ネットワークＮＴを介して音声始端検出装置３０に送信する。

音声始端検出装置３０に対する入力信号の入力が開始されると、この入力信号が入力バッファ３２に順次格納される。このとき、音声始端は検出されていないため、入力信号が第１検出部３３に渡されて始端検出部３３ａによる音声始端の検出処理が行われる。そして、始端検出部３３ａにより音声始端が検出されると、音声始端以降の入力信号が、入力信号送信部３４ａから音声終端検出装置４０に送信される。また、始端検出部３３ａにより音声始端が検出された後も、入力信号は第１検出部３３に渡されて終端検出部３３ｂによる音声終端の検出処理が行われる。そして、検出信号受信部３５ａにより終端検出信号が受信される前に終端検出部３３ｂにより音声終端が検出されると、入力信号送信部３４ａから音声終端検出装置４０への入力信号の送信が中断される。この際、メッセージ送信部３４ｂから音声終端検出装置４０に対して、送信中断メッセージが送信される。

音声終端検出装置４０では、音声始端以降の入力信号を入力信号受信部４１ａが受信すると、この入力信号が第２検出部４２に渡されて音声終端を検出する処理が行われる。そして、第２検出部４２により音声終端が検出されると、終端検出信号が、検出信号送信部４３ａから音声始端検出装置３０に送信される。この場合、音声始端検出装置３０では、検出信号受信部３５ａによって終端検出信号が受信され、入力信号送信部３４ａから音声終端検出装置４０への入力信号の送信が停止される。

また、音声終端検出装置４０では、音声始端検出装置３０から受信した入力信号から音声終端が検出されず、かつ、メッセージ受信部４１ｂが送信中断メッセージを受信している場合、送信再開リクエストが、リクエスト送信部４３ｂから音声始端検出装置３０に送信される。この場合、音声始端検出装置３０では、リクエスト受信部３５ｂによって送信再開リクエストが受信され、送信を中断した時点以降の入力信号が入力バッファ３２から読み出されて、入力信号送信部３４ａから音声終端検出装置４０への入力信号の送信が再開される。そして、音声終端検出装置４０の第２検出部４２による音声終端の検出処理が再開され、以降、音声終端が検出されるまで上記の動作が繰り返される。

次に、図５を参照しながら、音声始端検出装置３０における処理手順を説明する。図５は、音声始端検出装置３０における処理手順の一例を示すフローチャートである。この図５のフローチャートで示す一連の処理は、音声始端検出装置３０に入力信号が入力されると開始される。

音声始端検出装置３０に入力信号が入力されると、まず、入力制御部３１が、入力信号を入力バッファ３２に順次格納する（ステップＳ３０１）。このとき、入力制御部３１は、音声終端検出装置４０に対する入力信号の送信を中断している状態であるか否かを判定し（ステップＳ３０２）、入力信号の送信中断中であれば（ステップＳ３０２：Ｙｅｓ）、ステップＳ３１０に処理を移行する。一方、入力信号の送信中断中でなければ（ステップＳ３０２：Ｎｏ）、入力制御部３１は、音声始端が未検出の状態であるか否かを判定し（ステップＳ３０３）、音声始端が検出済みであれば（ステップＳ３０３：Ｎｏ）、入力信号を第１送信部３４に渡すとともに、入力信号を第１検出部３３に渡して終端検出を指示する。この場合、ステップＳ３０６に処理が移行する。

一方、音声始端が未検出の状態であれば（ステップＳ３０３：Ｙｅｓ）、入力制御部３１は、入力信号を第１検出部３３に渡して始端検出を指示する。この指示を受けて、第１検出部３３の始端検出部３３ａが、入力制御部３１から渡された入力信号に対して、音声始端を検出する処理を実行する（ステップＳ３０４）。

その後、入力制御部３１は、始端検出部３３ａにより音声始端が検出されたか否かを判定する（ステップＳ３０５）。ここで、音声始端が検出されない場合は（ステップＳ３０５：Ｎｏ）、ステップＳ３０１に戻って以降の処理が繰り返される。一方、始端検出部３３ａにより音声始端が検出されると（ステップＳ３０５：Ｙｅｓ）、入力制御部３１は、検出された音声始端以降の入力信号を第１送信部３４に渡す。この場合、ステップＳ３０６に処理が移行する。

ステップＳ３０６では、第１送信部３４の入力信号送信部３４ａが、入力制御部３１から渡された入力信号（マイクなどの入力デバイスから入力された信号または入力バッファ３２から取り出された信号）を、通信ネットワークＮＴを介して音声終端検出装置４０に送信する。以上の手順により、始端検出部３３ａによって検出された音声始端以降の入力信号が、音声終端検出装置４０に送信されることになる。また、本実施形態では、音声始端以降の入力信号の送信と並行して、第１検出部３３の終端検出部３３ｂが、入力制御部３１からの指示を受けて、入力制御部３１から渡された入力信号に対して、音声終端を検出する処理を実行する（ステップＳ３０７）。

その後、入力制御部３１は、終端検出部３３ｂにより音声終端が検出されたか否かを判定する（ステップＳ３０８）。ここで、音声終端が検出されない場合は（ステップＳ３０８：Ｎｏ）、ステップＳ３１２に処理を移行する。一方、終端検出部３３ｂにより音声終端が検出されると（ステップＳ３０８：Ｙｅｓ）、入力制御部３１から第１送信部３４への入力信号の供給が停止されることで、入力信号送信部３４ａは音声終端検出装置４０への入力信号の送信を中断する。そして、メッセージ送信部３４ｂが、送信中断メッセージを生成して音声終端検出装置４０に送信する（ステップＳ３０９）。

その後、入力制御部３１は、第１受信部３５のリクエスト受信部３５ｂが音声終端検出装置４０から送信される送信再開リクエストを受信したか否かを判定し（ステップＳ３１０）、送信再開リクエストを受信した場合は（ステップＳ３１０：Ｙｅｓ）、送信を中断した時点以降の入力信号を入力バッファ３２から取り出して、第１送信部３４に渡す（ステップＳ３１１）。この場合、ステップＳ３０６に処理が戻って、送信を中断した時点以降の入力信号が、入力信号送信部３４ａから音声終端検出装置４０に送信される。一方、送信再開リクエストを受信していなければ（ステップＳ３１０：Ｎｏ）、ステップＳ３１２に処理を移行する。

ステップＳ３１２では、入力制御部３１は、第１受信部３５の検出信号受信部３５ａが音声終端検出装置４０から送信される終端検出信号を受信したか否かを判定する（ステップＳ３１２）。ここで、検出信号受信部３５ａが終端検出信号を受信していなければ（ステップＳ３１２：Ｎｏ）、ステップＳ３０１に戻って以降の処理が繰り返される。一方、検出信号受信部３５ａが終端検出信号を受信すると（ステップＳ３１２：Ｙｅｓ）、入力制御部３１から第１送信部３４への入力信号の供給が停止されることで、入力信号送信部３４ａから音声終端検出装置４０への入力信号の送信が停止し、一連の処理が終了する。

次に、図６を参照しながら、音声終端検出装置４０における処理手順を説明する。図６は、音声終端検出装置４０における処理手順の一例を示すフローチャートである。この図６のフローチャートで示す一連の処理は、音声始端検出装置３０から音声終端検出装置４０に対して入力信号が送信されるたびに繰り返し実行される。

音声始端検出装置３０から入力信号が送信されると、まず、入力信号受信部４１ａが入力信号を受信して（ステップＳ４０１）、第２検出部４２に渡す。そして、第２検出部４２が、入力信号受信部４１ａから渡された入力信号に対して、音声終端を検出する処理を実行する（ステップＳ４０２）。ここで、第２検出部４２によって音声終端が検出されると（ステップＳ４０３：Ｙｅｓ）、検出信号送信部４３ａが、終端検出信号を生成して音声始端検出装置３０に送信し（ステップＳ４０４）、処理を終了する。

一方、ステップＳ４０１で受信した入力信号から音声終端が検出されない場合は（ステップＳ４０３：Ｎｏ）、メッセージ受信部４１ｂが音声始端検出装置３０から送信される送信中断メッセージを受信したか否かが判定される（ステップＳ４０５）。そして、メッセージ受信部４１ｂが送信中断メッセージを受信していなければ（ステップＳ４０５：Ｎｏ）、そのまま処理を終了する。一方、メッセージ受信部４１ｂが送信中断メッセージを受信していれば（ステップＳ４０５：Ｙｅｓ）、リクエスト送信部４３ｂが送信再開リクエストを生成して音声始端検出装置３０に送信し（ステップＳ４０６）、処理を終了する。

以上、具体的な例を挙げながら説明したように、本実施形態の音声区間検出システムでは、第１実施形態と同様に、音声始端検出装置３０により検出された音声始端以降の入力音声が音声終端検出装置４０に送信され、音声終端検出装置４０によって音声終端を検出する処理が行われる。この際、本実施形態では、音声始端検出装置３０において音声終端が検出されると、音声終端検出装置４０に対する入力信号の送信が中断される。そして、音声終端検出装置４０によって音声終端が検出されない場合に、音声始端検出装置３０から音声終端検出装置４０への入力信号の送信が再開され、音声終端検出装置４０によって音声終端が検出されると、音声始端検出装置３０から音声終端検出装置４０への入力信号の送信が停止される。したがって、本実施形態の音声区間検出システムによれば、音声始端検出装置３０から音声終端検出装置４０への通信量を第１実施形態よりもさらに削減しながら、音声の送信漏れを有効に抑制することができる。

［補足説明］
上述した実施形態の音声区間検出システムを構成する音声始端検出装置１０，３０および音声終端検出装置２０，４０は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用い、このコンピュータシステム上で所定のプログラム（ソフトウェア）を実行することによって、上述した各部の動作を実現することができる。このとき、上記のプログラムは、例えば、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、またはこれに類する記録媒体に記録されて提供される。なお、プログラムを記録する記録媒体は、コンピュータシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。また、上記プログラムを、コンピュータシステムに予めインストールするように構成してもよいし、ネットワークを介して配布される上記のプログラムをコンピュータシステムに適宜インストールするように構成してもよい。

上記のコンピュータシステムで実行されるプログラムは、上述した音声始端検出装置１０，３０や音声終端検出装置２０，４０の各機能的な構成要素を含むモジュール構成となっており、プロセッサがこのプログラムを適宜読み出して実行することにより、上述した音声始端検出装置１０，３０や音声終端検出装置２０，４０の各機能的な構成要素がメモリ上にロードされ、メモリ上に生成されるようになっている。

なお、上述した音声始端検出装置１０，３０や音声終端検出装置２０，４０の各機能的な構成要素は、プログラム（ソフトウェア）により実現するだけでなく、その一部または全部を、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などの専用のハードウェアにより実現することもできる。

以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０音声始端検出装置
１３第１検出部
１４第１送信部
１５第１受信部
２０音声終端検出装置
２１第２受信部
２２第２検出部
２３第２送信部
３０音声始端検出装置
３２入力バッファ
３３第１検出部
３４第１送信部
３５第１受信部
４０音声終端検出装置
４１第２受信部
４２第２検出部
４３第２送信部

Claims

通信可能に接続された音声始端検出装置と音声終端検出装置とを含む音声区間検出システムであって、
前記音声始端検出装置は、
時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出する第１検出部と、
前記始端が検出されると、該始端以降の前記入力信号を前記音声終端検出装置に送信し、前記第１検出部によって前記終端が検出されると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記音声終端検出装置に送信する第１送信部と、
音声区間の終端が検出されたことを示す終端検出信号を前記音声終端検出装置から受信し、前記入力信号の送信再開を要求する送信再開リクエストが前記音声終端検出装置から送信されると、該送信再開リクエストを受信する第１受信部と、を備え、
前記音声終端検出装置は、
前記始端以降の前記入力信号を前記音声始端検出装置から受信し、前記送信中断メッセージが前記音声始端検出装置から送信されると、該送信中断メッセージを受信する第２受信部と、
受信した前記入力信号から音声区間の終端を検出する第２検出部と、
前記終端が検出されると、前記終端検出信号を前記音声始端検出装置に送信し、前記第２検出部により前記終端が検出されず、かつ、前記第２受信部により前記送信中断メッセージが受信されると、前記送信再開リクエストを前記音声始端検出装置に送信する第２送信部と、を備え、
前記第１送信部は、前記第１受信部が前記終端検出信号を受信すると、前記入力信号の送信を停止し、前記第１受信部が前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号を前記音声終端検出装置に送信する、音声区間検出システム。
前記音声始端検出装置は、
前記入力信号を順次格納する入力バッファをさらに備え、
前記第１送信部は、前記第１受信部が前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号であって、前記入力バッファから取り出された前記入力信号を前記音声終端検出装置に送信する、請求項１に記載の音声区間検出システム。
前記第２送信部は、前記第２検出部により検出された前記終端の時間軸上の位置を特定するための時間情報を含む前記終端検出信号を前記音声始端検出装置に送信する、請求項１または２に記載の音声区間検出システム。
前記第２検出部が前記終端を検出する処理負荷は、前記第１検出部が前記始端を検出する処理負荷よりも大きい、請求項１乃至３のいずれか一項に記載の音声区間検出システム。
時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出する検出部と、
前記始端が検出されると、該始端以降の前記入力信号を外部装置に送信し、前記検出部によって前記終端が検出されると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記外部装置に送信する送信部と、
音声区間の終端が検出されたことを示す終端検出信号を前記外部装置から受信し、前記入力信号の送信再開を要求する送信再開リクエストが前記外部装置から送信されると、該送信再開リクエストを受信する受信部と、を備え、
前記送信部は、前記受信部が前記終端検出信号を受信すると、前記入力信号の送信を停止し、前記受信部が前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号を前記外部装置に送信する、音声始端検出装置。
外部装置に時系列で入力される入力信号のうち、前記外部装置によって検出された音声区間の始端以降の前記入力信号を前記外部装置から受信し、前記入力信号の送信を中断することを示す送信中断メッセージが前記外部装置から送信されると、該送信中断メッセージを受信する受信部と、
受信した前記入力信号から音声区間の終端を検出する検出部と、
前記終端が検出されると、音声区間の終端が検出されたことを示す終端検出信号を前記外部装置に送信し、前記検出部により前記終端が検出されず、かつ、前記受信部により前記送信中断メッセージが受信されると、前記入力信号の送信再開を要求する送信再開リクエストを前記外部装置に送信する送信部と、を備える音声終端検出装置。
通信可能に接続された音声始端検出装置と音声終端検出装置とを含む音声区間検出システムにより実行される音声区間検出方法であって、
前記音声始端検出装置が、時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出し、
前記音声始端検出装置が、前記始端を検出すると、該始端以降の前記入力信号を前記音声終端検出装置に送信し、前記終端を検出すると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記音声終端検出装置に送信し、
前記音声終端検出装置が、前記始端以降の前記入力信号を前記音声始端検出装置から受信し、前記送信中断メッセージが前記音声始端検出装置から送信されると、該送信中断メッセージを受信し、
前記音声終端検出装置が、受信した前記入力信号から音声区間の終端を検出し、
前記音声終端検出装置が、前記終端を検出すると、音声区間の終端が検出されたことを示す終端検出信号を前記音声始端検出装置に送信し、前記終端が検出されず、かつ、前記送信中断メッセージを受信すると、前記入力信号の送信再開を要求する送信再開リクエストを前記音声始端検出装置に送信し、
前記音声始端検出装置が、前記終端検出信号を前記音声終端検出装置から受信し、前記送信再開リクエストが前記音声終端検出装置から送信されると、該送信再開リクエストを受信し、
前記音声始端検出装置が、前記終端検出信号を受信すると、前記入力信号の送信を停止し、前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号を前記音声終端検出装置に送信する、音声区間検出方法。
音声始端検出装置により実行される音声始端検出方法であって、
時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出し、
前記始端を検出すると、該始端以降の前記入力信号を外部装置に送信し、前記終端を検出すると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記外部装置に送信し、
音声区間の終端が検出されたことを示す終端検出信号を前記外部装置から受信し、前記入力信号の送信再開を要求する送信再開リクエストが前記外部装置から送信されると、該送信再開リクエストを受信し、
前記終端検出信号を受信すると、前記入力信号の送信を停止し、前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号を前記外部装置に送信する、音声始端検出方法。
音声終端検出装置により実行される音声終端検出方法であって、
外部装置に時系列で入力される入力信号のうち、前記外部装置によって検出された音声区間の始端以降の前記入力信号を前記外部装置から受信し、前記入力信号の送信を中断することを示す送信中断メッセージが前記外部装置から送信されると、該送信中断メッセージを受信し、
受信した前記入力信号から音声区間の終端を検出し、
前記終端を検出すると、音声区間の終端が検出されたことを示す終端検出信号を前記外部装置に送信し、前記終端が検出されず、かつ、前記送信中断メッセージが受信されると、前記入力信号の送信再開を要求する送信再開リクエストを前記外部装置に送信する、音声終端検出方法。
コンピュータに、
時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出する機能と、
前記始端を検出すると、該始端以降の前記入力信号を外部装置に送信し、前記終端を検出すると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記外部装置に送信する機能と、
音声区間の終端が検出されたことを示す終端検出信号を前記外部装置から受信し、前記入力信号の送信再開を要求する送信再開リクエストが前記外部装置から送信されると、該送信再開リクエストを受信する機能と、を実現させるためのプログラム。
コンピュータに、
外部装置に時系列で入力される入力信号のうち、前記外部装置によって検出された音声区間の始端以降の前記入力信号を前記外部装置から受信し、前記入力信号の送信を中断することを示す送信中断メッセージが前記外部装置から送信されると、該送信中断メッセージを受信する機能と、
受信した前記入力信号から音声区間の終端を検出する機能と、
前記終端を検出すると、音声区間の終端が検出されたことを示す終端検出信号を前記外部装置に送信し、前記終端が検出されず、かつ、前記送信中断メッセージが受信されると、前記入力信号の送信再開を要求する送信再開リクエストを前記外部装置に送信する機能と、を実現させるためのプログラム。