JP6275606B2 - 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム - Google Patents

音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム Download PDF

Info

Publication number
JP6275606B2
JP6275606B2 JP2014188890A JP2014188890A JP6275606B2 JP 6275606 B2 JP6275606 B2 JP 6275606B2 JP 2014188890 A JP2014188890 A JP 2014188890A JP 2014188890 A JP2014188890 A JP 2014188890A JP 6275606 B2 JP6275606 B2 JP 6275606B2
Authority
JP
Japan
Prior art keywords
voice
transmission
input signal
termination
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014188890A
Other languages
English (en)
Other versions
JP2016061890A (ja
Inventor
翔子 宮森
翔子 宮森
舘森 三慶
三慶 舘森
上野 晃嗣
晃嗣 上野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2014188890A priority Critical patent/JP6275606B2/ja
Priority to PCT/JP2015/076121 priority patent/WO2016043182A1/ja
Publication of JP2016061890A publication Critical patent/JP2016061890A/ja
Priority to US15/391,143 priority patent/US10210886B2/en
Application granted granted Critical
Publication of JP6275606B2 publication Critical patent/JP6275606B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明の実施形態は、音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラムに関する。
例えばサーバ・クライアント型の音声認識システムなど、クライアント端末に入力された音声に対してサーバ装置で所定の処理を実行するシステムが知られている。この種のシステムでは、クライアント端末からサーバ装置への通信量削減のために、クライアント端末において入力信号から人が発話した音声の部分である音声区間を検出する処理を実行し、検出した音声区間の信号のみをサーバ装置に送信することも行われる。しかし、クライアント端末はサーバ装置と比べてリソースが限られるため、クライアント端末における音声区間の検出は十分な精度が得られない場合が多く、音声の送信漏れが生じる懸念がある。このため、通信量の削減を図りながら音声の送信漏れを抑制できる新たな仕組みの構築が望まれる。
特許第4197271号公報 特許第4425055号公報
本発明が解決しようとする課題は、通信量の削減を図りながら音声の送信漏れを抑制できる音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラムを提供することである。
実施形態の音声区間検出システムは、通信可能に接続された音声始端検出装置と音声終端検出装置とを含む。前記音声始端検出装置は、第1検出部と、第1送信部と、第1受信部と、を備え、前記音声終端検出装置は、第2受信部と、第2検出部と、第2送信部と、を備える。第1検出部は、時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出する。第1送信部は、前記始端が検出されると、該始端以降の前記入力信号を前記音声終端検出装置に送信し、前記第1検出部によって前記終端が検出されると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記音声終端検出装置に送信する。第1受信部は、音声区間の終端が検出されたことを示す終端検出信号を前記音声終端検出装置から受信し、前記入力信号の送信再開を要求する送信再開リクエストが前記音声終端検出装置から送信されると、該送信再開リクエストを受信する。第2受信部は、前記始端以降の前記入力信号を前記音声始端検出装置から受信し、前記送信中断メッセージが前記音声始端検出装置から送信されると、該送信中断メッセージを受信する。第2検出部は、受信した前記入力信号から音声区間の終端を検出する。第2送信部は、前記終端が検出されると、前記終端検出信号を前記音声始端検出装置に送信し、前記第2検出部により前記終端が検出されず、かつ、前記第2受信部により前記送信中断メッセージが受信されると、前記送信再開リクエストを前記音声始端検出装置に送信する。前記第1送信部は、前記第1受信部が前記終端検出信号を受信すると、前記入力信号の送信を停止し、前記第1受信部が前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号を前記音声終端検出装置に送信する。
第1実施形態の音声区間検出システムの構成例を示すブロック図。 音声始端検出装置における処理手順の一例を示すフローチャート。 音声終端検出装置における処理手順の一例を示すフローチャート。 第2実施形態の音声区間検出システムの構成例を示すブロック図。 音声始端検出装置における処理手順の一例を示すフローチャート。 音声終端検出装置における処理手順の一例を示すフローチャート。
実施形態の音声区間検出システムは、通信可能に接続された音声始端検出装置と音声終端検出装置との協働により、マイクなどの入力デバイスから時系列に入力される音声を含む信号(以下、入力信号という。)から音声区間を検出する。音声始端検出装置は、入力信号から音声区間の始端(以下、音声始端という。)を検出する処理を行い、音声始端が検出されると、それ以降の入力信号を音声終端検出装置に送信する。音声終端検出装置は、音声始端検出装置から受信した入力信号、つまり音声始端検出装置によって検出された音声始端以降の入力信号に対して、音声区間の終端(以下、音声終端という。)を検出する処理を行い、音声終端が検出されると、終端検出信号を音声始端検出装置に送信する。音声始端検出装置は、音声終端検出装置から終端検出信号を受信すると、音声終端検出装置に対する入力信号の送信を停止する。
実施形態の音声区間検出システムは、例えば、音声始端検出装置をクライアント端末とし、音声終端検出装置をサーバ装置としたサーバ・クライアント型のシステムとして実現することができる。この場合、クライアント端末としては、例えば、外部接続端子に外付けのマイクを接続したパーソナルコンピュータや、マイクを内蔵する携帯電話機、スマートフォン、タブレット端末、テレビ会議(ビデオ会議)システム用の端末として構成されたテレビ会議端末など、通信ネットワークに接続する機能を持った装置を利用することができる。クライアント端末として利用するこれらの装置は、プロセッサやメモリなどの通常のコンピュータシステムを実現するリソースを備え、一例として、コンピュータシステム上で所定のプログラムを実行することにより、音声始端検出装置としての機能を実現する。一方、サーバ装置は、通信ネットワーク上に構築されたサーバコンピュータであり、プロセッサやメモリなどの通常のコンピュータシステムを実現するリソースを備え、例えば、コンピュータシステム上で所定のプログラムを実行することにより、音声終端検出装置としての機能を実現する。音声終端検出装置の機能を実現するサーバ装置は、クラウドシステム上で動作する仮想マシンであってもよい。
クライアント端末に入力された音声に対してサーバ装置で所定の処理を実行する従来のサーバ・クライアント型のシステムでは、クライアント端末からサーバ装置への通信量削減のために、クライアント端末において入力信号から音声始端と音声終端とを検出(つまり、音声区間を検出)し、検出した音声区間の信号をサーバ装置に送信していた。したがって、クライアント端末からサーバ装置に送信される音声区間の信号は、クライアント装置での処理によって決定されていた。しかし、クライアント端末はサーバ装置と比べてリソースが限られるため、クライアント端末における音声区間の検出は十分な精度が得られない場合が多い。このため、入力信号の音声の部分を誤って音声区間でないと判定してしまう場合があり、音声の送信漏れが生じる懸念がある。
これに対して実施形態の音声区間検出システムでは、音声始端検出装置と音声終端検出装置との協働により音声区間が検出され、少なくともこの音声区間を含む信号が、音声始端検出装置から音声終端検出装置に送信される。つまり、音声始端検出装置と比べて十分なリソースを持つ音声終端検出装置において音声終端の検出を高精度に行い、その結果を音声始端検出装置にフィードバックすることで、音声始端検出装置から音声終端検出装置に送信される信号の範囲が決定される。したがって、実施形態の音声区間検出システムによれば、音声始端検出装置から音声終端検出装置への通信量の削減を図りながら音声の送信漏れを有効に抑制することができる。
実施形態の音声区間検出システムによって検出される音声区間の信号は、様々な用途で利用することができる。例えば、サーバ・クライアント型の音声認識システムに対して実施形態の音声区間検出システムを適用した場合、検出された音声区間の信号に対してサーバ装置により音声認識処理が実行され、認識結果のテキストデータがクライアント端末に送信される。また、サーバ・クライアント型の音声蓄積システムに対して実施形態の音声区間検出システムを適用した場合、検出された音声区間の信号が録音データとしてサーバ装置に蓄積される。また、音声区間検出システムによって検出された音声区間の信号を他のアプリケーションサーバに送信して利用することもできる。
なお、実施形態の音声区間検出システムをサーバ・クライアント型のシステムとして実現した場合、音声終端検出装置に対して多数の音声始端検出装置を接続することができる。この場合、音声終端検出装置は、接続された音声始端検出装置ごとに並列で処理を実行する。音声終端検出装置は、例えば、音声始端検出装置に対して事前に付与された固有の識別情報を用いて音声始端検出装置の機器認証や管理などを行うことができる。
以下、実施形態の音声区間検出システムの具体例について、図面を参照しながら詳細に説明する。
[第1実施形態]
図1は、第1実施形態の音声区間検出システムの構成例を示すブロック図である。本実施形態の音声区間検出システムは、図1に示すように、通信ネットワークNTを介して通信可能に接続された音声始端検出装置10と音声終端検出装置20とを備える。
音声始端検出装置10は、図1に示すように、入力制御部11と、第1検出部13と、第1送信部14と、第1受信部15とを備える。
入力制御部11は、現在の音声区間の検出状態、すなわち、音声始端も音声終端も検出されていない状態であるか、音声始端が検出されているが音声終端が検出されていない状態であるかを保持し、その状態に応じて、マイクなどの入力デバイスから時系列に入力される入力信号の流れを制御する。なお、入力信号はマイクなどの入力デバイスから入力された信号に限らず、例えば、録音データをプログラム中で読み込んだ信号などであってもよい。
入力制御部11は、現在の音声区間の検出状態が、音声始端も音声終端も検出されていない状態であれば、入力信号を第1検出部13に渡す。また、入力制御部11は、現在の音声区間の検出状態が、音声始端が検出されているが音声終端が検出されていない状態であれば、入力信号を第1送信部14に渡す。なお、入力制御部11は、後述の終端検出信号によって音声終端が検出されたことを認識すると、第1送信部14への入力信号の供給を停止する。そして、その後の音声区間の検出が要求された場合など、新たに音声区間の検出を開始する場合は、音声始端が検出されていないものとして、入力信号を再び第1検出部13に渡す。
第1検出部13は、入力制御部11から渡された入力信号から音声始端を検出する処理を実行する。第1検出部13が実行する処理としては、音声区間の検出方法として知られている様々な方法のうち、処理負荷が比較的低い方法を採用すればよい。例えば、入力信号のパワーを閾値と比較することで音声始端を検出する方法などを用いることができる。第1検出部13が音声始端を検出した場合、音声始端を検出したことを示す情報が入力制御部11に伝えられる。入力制御部11は、この情報に基づいて音声始端が検出されたことを認識し、入力信号の供給先を第1検出部13から第1送信部14へと切り替える。なお、第1検出部13が音声始端を検出した場合に入力制御部11に伝える情報には、検出した音声始端の時間軸上における位置(始端位置)を示す情報が含まれていることが望ましい。これにより、入力制御部11に始端位置を認識させることができる。
第1送信部14は、入力制御部11から渡された入力信号を、通信ネットワークNTを介して音声終端検出装置20に送信する。入力制御部11は、第1検出部13によって音声始端が検出されると、検出された音声始端以降の入力信号を第1送信部14に渡す。したがって、第1送信部14は、第1検出部13によって検出された音声始端以降の入力信号を、音声終端検出装置20に送信する。
第1受信部15は、音声終端検出装置20から通信ネットワークNTを介して送信される終端検出信号を受信する。終端検出信号は、後述するように、音声終端検出装置20において音声終端が検出された場合に送信される。第1受信部15は、音声終端検出装置20から終端検出信号が送信されるとこれを受信して、入力制御部11に渡す。入力制御部11は、この終端検出信号に基づいて音声終端が検出されたことを認識する。
音声終端が検出されたことを入力制御部11が認識すると、入力制御部11から第1送信部14への入力信号の供給が停止される。したがって、第1受信部15が音声終端検出装置20から送信された終端検出信号を受信すると、第1送信部14は、音声終端検出装置20に対する入力信号の送信を停止する。
音声終端検出装置20は、図1に示すように、第2受信部21と、第2検出部22と、第2送信部23とを備える。
第2受信部21は、音声始端検出装置10から通信ネットワークNTを介して送信される入力信号を受信する。音声始端検出装置10から送信される入力信号は、上述したように、音声始端検出装置10に時系列で入力される入力信号のうち、第1検出部13によって検出された音声始端以降の入力信号である。第2受信部21は、この音声始端以降の入力信号を音声始端検出装置10から受信する。第2受信部21が受信した入力信号は、第2検出部22に渡される。
第2検出部22は、第2受信部21が受信した入力信号から音声終端を検出する処理を実行する。第2検出部22が実行する処理としては、音声区間の検出方法として知られている様々な方法のうち、音声始端検出装置10の第1検出部13が用いる方法と比べて、処理負荷が大きいが検出精度が高い方法を採用すればよい。例えば、入力信号に対してノイズ除去のためのフィルタリング処理などを行った上で信号パワーを閾値と比較して音声終端を検出する方法や、音声の周波数特性や音響モデルなどから計算される特徴量を用いて音声終端を検出する方法などを用いることができる。音声終端検出装置20は、上述したように、十分なリソースを持ち処理能力が高いサーバ装置で実現することを想定するため、このような処理負荷の高い方法による高精度な検出を適切に(大幅な遅延を招くことなく)実行できる。第2検出部22が音声終端を検出した場合、その情報が第2送信部23に伝えられる。
第2送信部23は、第2検出部22により音声終端が検出されると、音声終端が検出されたことを示す終端検出信号を生成して、この終端検出信号を通信ネットワークNTを介して音声始端検出装置10に送信する。この際、第2送信部23は、第2検出部22によって検出された音声終端の時間軸上の位置(終端位置)を特定するための時間情報を含む終端検出信号を生成することが望ましい。例えば、第2送信部23は、第2受信部21が受信した入力信号の先頭である音声始端を基準とした終端位置の時刻を表す相対時刻を第2検出部22から取得し、この相対時刻を時間情報として埋め込んだ終端検出信号を生成する。また、第2受信部21が受信した入力信号に時刻を表すタイムスタンプが付されている場合、第2送信部23は、終端位置に対応するタイムスタンプを第2検出部22から取得し、このタイムスタンプを時間情報として埋め込んだ終端検出信号を生成してもよい。このような時間情報を含む終端検出信号を音声始端検出装置10に送信することにより、終端位置を音声始端検出装置10に知らせることができる。
次に、以上のように構成される本実施形態の音声区間検出システムの動作概要を説明する。
まず、音声始端検出装置10に対する入力信号の入力が開始される。このとき、音声始端は検出されていないため、入力信号が第1検出部13に渡されて音声始端を検出する処理が行われる。そして、第1検出部13により音声始端が検出されると、音声始端以降の入力信号が、第1送信部14から音声終端検出装置20に送信される。
音声終端検出装置20では、音声始端以降の入力信号を第2受信部21が受信すると、この入力信号が第2検出部22に渡されて音声終端を検出する処理が行われる。そして、第2検出部22により音声終端が検出されると、終端検出信号が、第2送信部23から音声始端検出装置10に送信される。この終端検出信号を音声始端検出装置10の第1受信部15が受信すると、第1送信部14から音声終端検出装置20への入力信号の送信が停止される。
次に、図2を参照しながら、音声始端検出装置10における処理手順を説明する。図2は、音声始端検出装置10における処理手順の一例を示すフローチャートである。この図2のフローチャートで示す一連の処理は、音声始端検出装置10に入力信号が入力されると開始される。
音声始端検出装置10に入力信号が入力されると、まず、入力制御部11が、音声始端が未検出の状態であるか否かを判定し(ステップS101)、音声始端が検出済みであれば(ステップS101:No)、入力信号を第1送信部14に渡す。この場合、ステップS104に処理が移行する。一方、音声始端が未検出の状態であれば(ステップS101:Yes)、入力制御部11は、入力信号を第1検出部13に渡す。この場合、第1検出部13が、入力制御部11から渡された入力信号に対して、音声始端を検出する処理を実行する(ステップS102)。
その後、入力制御部11は、第1検出部13により音声始端が検出されたか否かを判定する(ステップS103)。ここで、音声始端が検出されない場合(ステップS103:No)、入力制御部11は、入力信号を第1検出部13に供給し続ける。これにより、ステップS102の第1検出部13による音声始端の検出処理が継続される。一方、第1検出部13により音声始端が検出されると(ステップS103:Yes)、入力制御部11は、検出された音声始端以降の入力信号を第1送信部14に渡す。この場合、ステップS104に処理が移行する。
ステップS104では、第1送信部14が、入力制御部11から渡された入力信号を、通信ネットワークNTを介して音声終端検出装置20に送信する。以上の手順により、第1検出部13によって検出された音声始端以降の入力信号が、音声終端検出装置20に送信されることになる。
その後、入力制御部11は、第1受信部15が音声終端検出装置20から送信される終端検出信号を受信したか否かを判定する(ステップS105)。ここで、終端検出信号を受信していなければ(ステップS105:No)、入力制御部11は、入力信号を第1送信部14に供給し続ける。これにより、ステップS104の第1送信部14による入力信号の送信処理が継続される。一方、第1受信部15が終端検出信号を受信すると(ステップS105:Yes)、入力制御部11から第1送信部14への入力信号の供給が停止されることで、第1送信部14から音声終端検出装置20への入力信号の送信が停止し、一連の処理が終了する。
次に、図3を参照しながら、音声終端検出装置20における処理手順を説明する。図3は、音声終端検出装置20における処理手順の一例を示すフローチャートである。この図3のフローチャートで示す一連の処理は、音声始端検出装置10から音声終端検出装置20に対して入力信号が送信されるたびに繰り返し実行される。
音声始端検出装置10から入力信号が送信されると、まず、第2受信部21が入力信号を受信して(ステップS201)、第2検出部22に渡す。そして、第2検出部22が、第2受信部21から渡された入力信号に対して、音声終端を検出する処理を実行する(ステップS202)。ここで、第2検出部22によって音声終端が検出されなければ(ステップS203:No)、そのまま処理を終了する。一方、第2検出部22によって音声終端が検出されると(ステップS203:Yes)、第2送信部23が、終端検出信号を生成して音声始端検出装置10に送信し(ステップS204)、処理を終了する。
以上、具体的な例を挙げながら説明したように、本実施形態の音声区間検出システムでは、音声始端検出装置10により検出された音声始端以降の入力音声が音声終端検出装置20に送信される。そして、この入力信号から音声終端検出装置20によって音声終端が検出されると、音声始端検出装置10から音声終端検出装置20への入力信号の送信が停止される。したがって、この音声区間検出システムによれば、音声始端検出装置10から音声終端検出装置20への通信量の削減を図りながら、音声の送信漏れを有効に抑制することができる。
[第2実施形態]
次に、第2実施形態の音声区間検出システムについて説明する。本実施形態の音声区間検出システムでは、音声始端検出装置が音声終端の検出も行って、音声終端を検出すると音声終端検出装置に対する入力信号の送信を中断する。一方、音声終端検出装置は、第1実施形態と同様に音声始端検出装置から受信した入力信号に対して音声終端を検出する処理を行うが、受信した入力信号から音声終端が検出されない場合は、音声始端検出装置に対して入力信号の送信再開を要求する。そして、音声始端検出装置は、音声終端検出装置からの要求に応じて、中断した時点以降の入力信号を音声終端検出装置に送信する。これにより、音声始端検出装置から音声終端検出装置への通信量を、第1実施形態よりもさらに削減することができる。
図4は、第2実施形態の音声区間検出システムの構成例を示すブロック図である。本実施形態の音声区間検出システムは、図4に示すように、通信ネットワークNTを介して通信可能に接続された音声始端検出装置30と、音声終端検出装置40とを備える。
音声始端検出装置30は、図4に示すように、入力制御部31と、入力バッファ32と、第1検出部33と、第1送信部34と、第1受信部35とを備える。入力バッファ32は、マイクなどの入力デバイスから時系列に入力される入力信号が順次格納されるバッファである。
入力制御部31は、第1実施形態の入力制御部11と同様に、現在の音声区間の検出状態に応じて、マイクなどの入力デバイスから時系列に入力される入力信号の流れを制御する。ただし、本実施形態の入力制御部31は、第1検出部33によって音声始端が検出された後も継続して第1検出部33に入力信号を渡す。その後、第1検出部33によって音声終端が検出されると、第1送信部34への入力信号の供給を停止し、第1送信部34から音声終端検出装置40への入力信号の送信を中断させる。また、本実施形態の入力制御部31は、第1受信部35によって後述の送信再開リクエストが受信されると、送信を中断した時点以降の入力信号を入力バッファ32から取り出して第1送信部34に渡し、第1送信部34から音声終端検出装置40への入力信号の送信を再開させる。
第1検出部33は、始端検出部33aと終端検出部33bとを有する。始端検出部33aは、第1実施形態の第1検出部13と同様に、入力制御部31から渡された入力信号から音声始端を検出する処理を実行する。終端検出部33bは、入力制御部31から渡された入力信号から音声終端を検出する処理を実行する。これら始端検出部33aおよび終端検出部33bが実行する処理としては、第1実施形態の第1検出部13と同様の検出方法を用いることができる。始端検出部33aが音声始端を検出した場合は、始端位置を示す情報が入力制御部31に伝えられる。終端検出部33bが音声終端を検出した場合は、終端位置を示す情報が入力制御部31に伝えられる。
第1送信部34は、入力信号送信部34aとメッセージ送信部34bとを有する。入力信号送信部34aは、第1実施形態の第1送信部14と同様に、入力制御部31から渡された入力信号を、通信ネットワークNTを介して音声終端検出装置40に送信する。メッセージ送信部34bは、第1検出部33の終端検出部33bにより音声終端が検出されたことにより、入力制御部31からの入力信号の供給が停止された場合に、入力信号の送信を中断することを示す送信中断メッセージを生成し、この送信中断メッセージを、通信ネットワークNTを介して音声終端検出装置40に送信する。
第1受信部35は、検出信号受信部35aとリクエスト受信部35bとを有する。検出信号受信部35aは、第1実施形態の第1受信部15と同様に、音声終端検出装置40から通信ネットワークNTを介して送信される終端検出信号を受信する。リクエスト受信部35bは、音声終端検出装置40から通信ネットワークNTを介して送信される送信再開リクエストを受信する。送信再開リクエストは、後述するように、音声終端検出装置40において受信した入力信号から音声終端が検出されない場合に送信される。リクエスト受信部35bは、音声終端検出装置40から送信再開リクエストが送信されるとこれを受信して、入力制御部31に渡す。入力制御部31は、この送信再開リクエストを受け取ると、停止していた第1送信部34への入力信号の供給を再開し、送信を中断した時点以降の入力信号を入力バッファ32から取り出して第1送信部34に渡す。これにより、第1送信部34の入力信号送信部34aから音声終端検出装置40への入力信号の送信が再開される。
音声終端検出装置40は、図4に示すように、第2受信部41と、第2検出部42と、第2送信部43とを備える。
第2受信部41は、入力信号受信部41aとメッセージ受信部41bとを有する。入力信号受信部41aは、第1実施形態の第2受信部21と同様に、音声始端検出装置30から通信ネットワークNTを介して送信される入力信号を受信する。入力信号受信部41aが受信した入力信号は、第2検出部42に渡される。メッセージ受信部41bは、音声始端検出装置30から通信ネットワークNTを介して送信される送信中断メッセージを受信する。メッセージ受信部41bが受信した送信中断メッセージは、第2検出部42に渡される。
第2検出部42は、第1実施形態の第2検出部22と同様に、入力信号受信部41aが受信した入力信号から音声終端を検出する処理を実行する。第2検出部42が実行する処理としては、第1実施形態の第2検出部22と同様の検出方法を用いることができる。第2検出部42が音声終端を検出した場合、その情報が第2送信部43に伝えられる。また、入力信号受信部41aが受信した入力信号から音声終端が検出されず、かつ、メッセージ受信部41bが送信中断メッセージを受信している場合、第2検出部42は、第2送信部43に対して送信再開リクエストの送信を依頼する。
第2送信部43は、検出信号送信部43aとリクエスト送信部43bとを有する。検出信号送信部43aは、第1実施形態の第2送信部23と同様に、第2検出部42により音声終端が検出されると、音声終端が検出されたことを示す終端検出信号を生成して、この終端検出信号を通信ネットワークNTを介して音声始端検出装置30に送信する。リクエスト送信部43bは、第2検出部42からの依頼に応じて、音声始端検出装置30に対して入力信号の送信再開を要求する送信再開リクエストを生成し、この送信再開リクエストを通信ネットワークNTを介して音声始端検出装置30に送信する。
次に、以上のように構成される本実施形態の音声区間検出システムの動作概要を説明する。
音声始端検出装置30に対する入力信号の入力が開始されると、この入力信号が入力バッファ32に順次格納される。このとき、音声始端は検出されていないため、入力信号が第1検出部33に渡されて始端検出部33aによる音声始端の検出処理が行われる。そして、始端検出部33aにより音声始端が検出されると、音声始端以降の入力信号が、入力信号送信部34aから音声終端検出装置40に送信される。また、始端検出部33aにより音声始端が検出された後も、入力信号は第1検出部33に渡されて終端検出部33bによる音声終端の検出処理が行われる。そして、検出信号受信部35aにより終端検出信号が受信される前に終端検出部33bにより音声終端が検出されると、入力信号送信部34aから音声終端検出装置40への入力信号の送信が中断される。この際、メッセージ送信部34bから音声終端検出装置40に対して、送信中断メッセージが送信される。
音声終端検出装置40では、音声始端以降の入力信号を入力信号受信部41aが受信すると、この入力信号が第2検出部42に渡されて音声終端を検出する処理が行われる。そして、第2検出部42により音声終端が検出されると、終端検出信号が、検出信号送信部43aから音声始端検出装置30に送信される。この場合、音声始端検出装置30では、検出信号受信部35aによって終端検出信号が受信され、入力信号送信部34aから音声終端検出装置40への入力信号の送信が停止される。
また、音声終端検出装置40では、音声始端検出装置30から受信した入力信号から音声終端が検出されず、かつ、メッセージ受信部41bが送信中断メッセージを受信している場合、送信再開リクエストが、リクエスト送信部43bから音声始端検出装置30に送信される。この場合、音声始端検出装置30では、リクエスト受信部35bによって送信再開リクエストが受信され、送信を中断した時点以降の入力信号が入力バッファ32から読み出されて、入力信号送信部34aから音声終端検出装置40への入力信号の送信が再開される。そして、音声終端検出装置40の第2検出部42による音声終端の検出処理が再開され、以降、音声終端が検出されるまで上記の動作が繰り返される。
次に、図5を参照しながら、音声始端検出装置30における処理手順を説明する。図5は、音声始端検出装置30における処理手順の一例を示すフローチャートである。この図5のフローチャートで示す一連の処理は、音声始端検出装置30に入力信号が入力されると開始される。
音声始端検出装置30に入力信号が入力されると、まず、入力制御部31が、入力信号を入力バッファ32に順次格納する(ステップS301)。このとき、入力制御部31は、音声終端検出装置40に対する入力信号の送信を中断している状態であるか否かを判定し(ステップS302)、入力信号の送信中断中であれば(ステップS302:Yes)、ステップS310に処理を移行する。一方、入力信号の送信中断中でなければ(ステップS302:No)、入力制御部31は、音声始端が未検出の状態であるか否かを判定し(ステップS303)、音声始端が検出済みであれば(ステップS303:No)、入力信号を第1送信部34に渡すとともに、入力信号を第1検出部33に渡して終端検出を指示する。この場合、ステップS306に処理が移行する。
一方、音声始端が未検出の状態であれば(ステップS303:Yes)、入力制御部31は、入力信号を第1検出部33に渡して始端検出を指示する。この指示を受けて、第1検出部33の始端検出部33aが、入力制御部31から渡された入力信号に対して、音声始端を検出する処理を実行する(ステップS304)。
その後、入力制御部31は、始端検出部33aにより音声始端が検出されたか否かを判定する(ステップS305)。ここで、音声始端が検出されない場合は(ステップS305:No)、ステップS301に戻って以降の処理が繰り返される。一方、始端検出部33aにより音声始端が検出されると(ステップS305:Yes)、入力制御部31は、検出された音声始端以降の入力信号を第1送信部34に渡す。この場合、ステップS306に処理が移行する。
ステップS306では、第1送信部34の入力信号送信部34aが、入力制御部31から渡された入力信号(マイクなどの入力デバイスから入力された信号または入力バッファ32から取り出された信号)を、通信ネットワークNTを介して音声終端検出装置40に送信する。以上の手順により、始端検出部33aによって検出された音声始端以降の入力信号が、音声終端検出装置40に送信されることになる。また、本実施形態では、音声始端以降の入力信号の送信と並行して、第1検出部33の終端検出部33bが、入力制御部31からの指示を受けて、入力制御部31から渡された入力信号に対して、音声終端を検出する処理を実行する(ステップS307)。
その後、入力制御部31は、終端検出部33bにより音声終端が検出されたか否かを判定する(ステップS308)。ここで、音声終端が検出されない場合は(ステップS308:No)、ステップS312に処理を移行する。一方、終端検出部33bにより音声終端が検出されると(ステップS308:Yes)、入力制御部31から第1送信部34への入力信号の供給が停止されることで、入力信号送信部34aは音声終端検出装置40への入力信号の送信を中断する。そして、メッセージ送信部34bが、送信中断メッセージを生成して音声終端検出装置40に送信する(ステップS309)。
その後、入力制御部31は、第1受信部35のリクエスト受信部35bが音声終端検出装置40から送信される送信再開リクエストを受信したか否かを判定し(ステップS310)、送信再開リクエストを受信した場合は(ステップS310:Yes)、送信を中断した時点以降の入力信号を入力バッファ32から取り出して、第1送信部34に渡す(ステップS311)。この場合、ステップS306に処理が戻って、送信を中断した時点以降の入力信号が、入力信号送信部34aから音声終端検出装置40に送信される。一方、送信再開リクエストを受信していなければ(ステップS310:No)、ステップS312に処理を移行する。
ステップS312では、入力制御部31は、第1受信部35の検出信号受信部35aが音声終端検出装置40から送信される終端検出信号を受信したか否かを判定する(ステップS312)。ここで、検出信号受信部35aが終端検出信号を受信していなければ(ステップS312:No)、ステップS301に戻って以降の処理が繰り返される。一方、検出信号受信部35aが終端検出信号を受信すると(ステップS312:Yes)、入力制御部31から第1送信部34への入力信号の供給が停止されることで、入力信号送信部34aから音声終端検出装置40への入力信号の送信が停止し、一連の処理が終了する。
次に、図6を参照しながら、音声終端検出装置40における処理手順を説明する。図6は、音声終端検出装置40における処理手順の一例を示すフローチャートである。この図6のフローチャートで示す一連の処理は、音声始端検出装置30から音声終端検出装置40に対して入力信号が送信されるたびに繰り返し実行される。
音声始端検出装置30から入力信号が送信されると、まず、入力信号受信部41aが入力信号を受信して(ステップS401)、第2検出部42に渡す。そして、第2検出部42が、入力信号受信部41aから渡された入力信号に対して、音声終端を検出する処理を実行する(ステップS402)。ここで、第2検出部42によって音声終端が検出されると(ステップS403:Yes)、検出信号送信部43aが、終端検出信号を生成して音声始端検出装置30に送信し(ステップS404)、処理を終了する。
一方、ステップS401で受信した入力信号から音声終端が検出されない場合は(ステップS403:No)、メッセージ受信部41bが音声始端検出装置30から送信される送信中断メッセージを受信したか否かが判定される(ステップS405)。そして、メッセージ受信部41bが送信中断メッセージを受信していなければ(ステップS405:No)、そのまま処理を終了する。一方、メッセージ受信部41bが送信中断メッセージを受信していれば(ステップS405:Yes)、リクエスト送信部43bが送信再開リクエストを生成して音声始端検出装置30に送信し(ステップS406)、処理を終了する。
以上、具体的な例を挙げながら説明したように、本実施形態の音声区間検出システムでは、第1実施形態と同様に、音声始端検出装置30により検出された音声始端以降の入力音声が音声終端検出装置40に送信され、音声終端検出装置40によって音声終端を検出する処理が行われる。この際、本実施形態では、音声始端検出装置30において音声終端が検出されると、音声終端検出装置40に対する入力信号の送信が中断される。そして、音声終端検出装置40によって音声終端が検出されない場合に、音声始端検出装置30から音声終端検出装置40への入力信号の送信が再開され、音声終端検出装置40によって音声終端が検出されると、音声始端検出装置30から音声終端検出装置40への入力信号の送信が停止される。したがって、本実施形態の音声区間検出システムによれば、音声始端検出装置30から音声終端検出装置40への通信量を第1実施形態よりもさらに削減しながら、音声の送信漏れを有効に抑制することができる。
[補足説明]
上述した実施形態の音声区間検出システムを構成する音声始端検出装置10,30および音声終端検出装置20,40は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用い、このコンピュータシステム上で所定のプログラム(ソフトウェア)を実行することによって、上述した各部の動作を実現することができる。このとき、上記のプログラムは、例えば、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、またはこれに類する記録媒体に記録されて提供される。なお、プログラムを記録する記録媒体は、コンピュータシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。また、上記プログラムを、コンピュータシステムに予めインストールするように構成してもよいし、ネットワークを介して配布される上記のプログラムをコンピュータシステムに適宜インストールするように構成してもよい。
上記のコンピュータシステムで実行されるプログラムは、上述した音声始端検出装置10,30や音声終端検出装置20,40の各機能的な構成要素を含むモジュール構成となっており、プロセッサがこのプログラムを適宜読み出して実行することにより、上述した音声始端検出装置10,30や音声終端検出装置20,40の各機能的な構成要素がメモリ上にロードされ、メモリ上に生成されるようになっている。
なお、上述した音声始端検出装置10,30や音声終端検出装置20,40の各機能的な構成要素は、プログラム(ソフトウェア)により実現するだけでなく、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field−Programmable Gate Array)などの専用のハードウェアにより実現することもできる。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 音声始端検出装置
13 第1検出部
14 第1送信部
15 第1受信部
20 音声終端検出装置
21 第2受信部
22 第2検出部
23 第2送信部
30 音声始端検出装置
32 入力バッファ
33 第1検出部
34 第1送信部
35 第1受信部
40 音声終端検出装置
41 第2受信部
42 第2検出部
43 第2送信部

Claims (11)

  1. 通信可能に接続された音声始端検出装置と音声終端検出装置とを含む音声区間検出システムであって、
    前記音声始端検出装置は、
    時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出する第1検出部と、
    前記始端が検出されると、該始端以降の前記入力信号を前記音声終端検出装置に送信し、前記第1検出部によって前記終端が検出されると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記音声終端検出装置に送信する第1送信部と、
    音声区間の終端が検出されたことを示す終端検出信号を前記音声終端検出装置から受信し、前記入力信号の送信再開を要求する送信再開リクエストが前記音声終端検出装置から送信されると、該送信再開リクエストを受信する第1受信部と、を備え、
    前記音声終端検出装置は、
    前記始端以降の前記入力信号を前記音声始端検出装置から受信し、前記送信中断メッセージが前記音声始端検出装置から送信されると、該送信中断メッセージを受信する第2受信部と、
    受信した前記入力信号から音声区間の終端を検出する第2検出部と、
    前記終端が検出されると、前記終端検出信号を前記音声始端検出装置に送信し、前記第2検出部により前記終端が検出されず、かつ、前記第2受信部により前記送信中断メッセージが受信されると、前記送信再開リクエストを前記音声始端検出装置に送信する第2送信部と、を備え、
    前記第1送信部は、前記第1受信部が前記終端検出信号を受信すると、前記入力信号の送信を停止し、前記第1受信部が前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号を前記音声終端検出装置に送信する、音声区間検出システム。
  2. 前記音声始端検出装置は、
    前記入力信号を順次格納する入力バッファをさらに備え、
    前記第1送信部は、前記第1受信部が前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号であって、前記入力バッファから取り出された前記入力信号を前記音声終端検出装置に送信する、請求項に記載の音声区間検出システム。
  3. 前記第2送信部は、前記第2検出部により検出された前記終端の時間軸上の位置を特定するための時間情報を含む前記終端検出信号を前記音声始端検出装置に送信する、請求項1または2に記載の音声区間検出システム。
  4. 前記第2検出部が前記終端を検出する処理負荷は、前記第1検出部が前記始端を検出する処理負荷よりも大きい、請求項1乃至3のいずれか一項に記載の音声区間検出システム。
  5. 時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出する検出部と、
    前記始端が検出されると、該始端以降の前記入力信号を外部装置に送信し、前記検出部によって前記終端が検出されると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記外部装置に送信する送信部と、
    音声区間の終端が検出されたことを示す終端検出信号を前記外部装置から受信し、前記入力信号の送信再開を要求する送信再開リクエストが前記外部装置から送信されると、該送信再開リクエストを受信する受信部と、を備え、
    前記送信部は、前記受信部が前記終端検出信号を受信すると、前記入力信号の送信を停止し、前記受信部が前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号を前記外部装置に送信する、音声始端検出装置。
  6. 外部装置に時系列で入力される入力信号のうち、前記外部装置によって検出された音声区間の始端以降の前記入力信号を前記外部装置から受信し、前記入力信号の送信を中断することを示す送信中断メッセージが前記外部装置から送信されると、該送信中断メッセージを受信する受信部と、
    受信した前記入力信号から音声区間の終端を検出する検出部と、
    前記終端が検出されると、音声区間の終端が検出されたことを示す終端検出信号を前記外部装置に送信し、前記検出部により前記終端が検出されず、かつ、前記受信部により前記送信中断メッセージが受信されると、前記入力信号の送信再開を要求する送信再開リクエストを前記外部装置に送信する送信部と、を備える音声終端検出装置。
  7. 通信可能に接続された音声始端検出装置と音声終端検出装置とを含む音声区間検出システムにより実行される音声区間検出方法であって、
    前記音声始端検出装置が、時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出し
    前記音声始端検出装置が、前記始端を検出すると、該始端以降の前記入力信号を前記音声終端検出装置に送信し、前記終端を検出すると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記音声終端検出装置に送信し
    前記音声終端検出装置が、前記始端以降の前記入力信号を前記音声始端検出装置から受信し、前記送信中断メッセージが前記音声始端検出装置から送信されると、該送信中断メッセージを受信し
    前記音声終端検出装置が、受信した前記入力信号から音声区間の終端を検出し、
    前記音声終端検出装置が、前記終端を検出すると、音声区間の終端が検出されたことを示す終端検出信号を前記音声始端検出装置に送信し、前記終端が検出されず、かつ、前記送信中断メッセージを受信すると、前記入力信号の送信再開を要求する送信再開リクエストを前記音声始端検出装置に送信し
    前記音声始端検出装置が、前記終端検出信号を前記音声終端検出装置から受信し、前記送信再開リクエストが前記音声終端検出装置から送信されると、該送信再開リクエストを受信し
    前記音声始端検出装置が、前記終端検出信号を受信すると、前記入力信号の送信を停止し、前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号を前記音声終端検出装置に送信する、音声区間検出方法。
  8. 音声始端検出装置により実行される音声始端検出方法であって、
    時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出し
    前記始端を検出すると、該始端以降の前記入力信号を外部装置に送信し、前記終端を検出すると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記外部装置に送信し
    音声区間の終端が検出されたことを示す終端検出信号を前記外部装置から受信し、前記入力信号の送信再開を要求する送信再開リクエストが前記外部装置から送信されると、該送信再開リクエストを受信し
    前記終端検出信号を受信すると、前記入力信号の送信を停止し、前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号を前記外部装置に送信する、音声始端検出方法。
  9. 音声終端検出装置により実行される音声終端検出方法であって、
    外部装置に時系列で入力される入力信号のうち、前記外部装置によって検出された音声区間の始端以降の前記入力信号を前記外部装置から受信し、前記入力信号の送信を中断することを示す送信中断メッセージが前記外部装置から送信されると、該送信中断メッセージを受信し
    受信した前記入力信号から音声区間の終端を検出
    前記終端を検出すると、音声区間の終端が検出されたことを示す終端検出信号を前記外部装置に送信し、前記終端が検出されず、かつ、前記送信中断メッセージが受信されると、前記入力信号の送信再開を要求する送信再開リクエストを前記外部装置に送信する、音声終端検出方法。
  10. コンピュータに、
    時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出する機能と、
    前記始端を検出すると、該始端以降の前記入力信号を外部装置に送信し、前記終端を検出すると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記外部装置に送信する機能と、
    音声区間の終端が検出されたことを示す終端検出信号を前記外部装置から受信し、前記入力信号の送信再開を要求する送信再開リクエストが前記外部装置から送信されると、該送信再開リクエストを受信する機能と、を実現させるためのプログラム。
  11. コンピュータに、
    外部装置に時系列で入力される入力信号のうち、前記外部装置によって検出された音声区間の始端以降の前記入力信号を前記外部装置から受信し、前記入力信号の送信を中断することを示す送信中断メッセージが前記外部装置から送信されると、該送信中断メッセージを受信する機能と、
    受信した前記入力信号から音声区間の終端を検出する機能と、
    前記終端を検出すると、音声区間の終端が検出されたことを示す終端検出信号を前記外部装置に送信し、前記終端が検出されず、かつ、前記送信中断メッセージが受信されると、前記入力信号の送信再開を要求する送信再開リクエストを前記外部装置に送信する機能と、を実現させるためのプログラム。
JP2014188890A 2014-09-17 2014-09-17 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム Active JP6275606B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014188890A JP6275606B2 (ja) 2014-09-17 2014-09-17 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
PCT/JP2015/076121 WO2016043182A1 (ja) 2014-09-17 2015-09-15 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
US15/391,143 US10210886B2 (en) 2014-09-17 2016-12-27 Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014188890A JP6275606B2 (ja) 2014-09-17 2014-09-17 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2016061890A JP2016061890A (ja) 2016-04-25
JP6275606B2 true JP6275606B2 (ja) 2018-02-07

Family

ID=55533219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014188890A Active JP6275606B2 (ja) 2014-09-17 2014-09-17 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム

Country Status (3)

Country Link
US (1) US10210886B2 (ja)
JP (1) JP6275606B2 (ja)
WO (1) WO2016043182A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766418B (zh) 2018-05-24 2020-01-14 百度在线网络技术(北京)有限公司 语音端点识别方法、装置及设备
CN112530408A (zh) * 2020-11-20 2021-03-19 北京有竹居网络技术有限公司 用于识别语音的方法、装置、电子设备和介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3721948B2 (ja) * 2000-05-30 2005-11-30 株式会社国際電気通信基礎技術研究所 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
JP3885523B2 (ja) 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
US6999921B2 (en) * 2001-12-13 2006-02-14 Motorola, Inc. Audio overhang reduction by silent frame deletion in wireless calls
JP2003195880A (ja) * 2001-12-28 2003-07-09 Nec Corp サーバ・クライアント型音声認識装置
JP4197271B2 (ja) 2003-06-17 2008-12-17 シャープ株式会社 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体
JP4425055B2 (ja) * 2004-05-18 2010-03-03 日本電信電話株式会社 クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体
US20070168591A1 (en) * 2005-12-08 2007-07-19 Inter-Tel, Inc. System and method for validating codec software
WO2011133924A1 (en) * 2010-04-22 2011-10-27 Qualcomm Incorporated Voice activity detection
US9183843B2 (en) * 2011-01-07 2015-11-10 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US9444816B2 (en) * 2011-03-30 2016-09-13 Qualcomm Incorporated Continuous voice authentication for a mobile device
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
JP6105321B2 (ja) * 2013-02-21 2017-03-29 富士通テン株式会社 通信装置、通信システム、通信方法、及び、プログラム
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
KR101834546B1 (ko) * 2013-08-28 2018-04-13 한국전자통신연구원 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법
US9311932B2 (en) * 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing

Also Published As

Publication number Publication date
WO2016043182A1 (ja) 2016-03-24
JP2016061890A (ja) 2016-04-25
US10210886B2 (en) 2019-02-19
US20170110146A1 (en) 2017-04-20

Similar Documents

Publication Publication Date Title
US20170330566A1 (en) Distributed Volume Control for Speech Recognition
US11023755B2 (en) Detection of liveness
US9666190B2 (en) Speech recognition using loosely coupled components
US9900685B2 (en) Creating an audio envelope based on angular information
US9824685B2 (en) Handsfree device with continuous keyword recognition
JP7353497B2 (ja) 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム
JP2018517919A (ja) 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
US10312874B2 (en) Volume control methods and devices, and multimedia playback control methods and devices
US20190147890A1 (en) Audio peripheral device
US11430447B2 (en) Voice activation based on user recognition
US10536191B1 (en) Maintaining consistent audio setting(s) between wireless headphones
JP6817386B2 (ja) 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
JP6275606B2 (ja) 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
CN110164443B (zh) 用于电子设备的语音处理方法、装置以及电子设备
KR20200050152A (ko) 다중 기기를 음성 인식 시스템 및 그 제어 방법
US10916248B2 (en) Wake-up word detection
WO2017210856A1 (zh) 控制音频输出的方法、用户终端和对讲机终端
US20120027225A1 (en) Bell sound outputting apparatus and method thereof
CN109791476B (zh) 通信装置
JP2019028160A (ja) 電子装置および情報端末システム
JP5973030B2 (ja) 音声認識システム、および音声処理装置
JP7303091B2 (ja) 制御装置、電子機器、制御装置の制御方法および制御プログラム
CN104780411A (zh) 一种具有声控功能的电视盒子遥控器及系统和使用方法
WO2018207483A1 (ja) 情報処理装置、電子機器、制御方法、および制御プログラム
KR20180129473A (ko) 음성전처리장치 및 그 동작방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180110

R151 Written notification of patent or utility model registration

Ref document number: 6275606

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350