JP6275606B2 - 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム - Google Patents
音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム Download PDFInfo
- Publication number
- JP6275606B2 JP6275606B2 JP2014188890A JP2014188890A JP6275606B2 JP 6275606 B2 JP6275606 B2 JP 6275606B2 JP 2014188890 A JP2014188890 A JP 2014188890A JP 2014188890 A JP2014188890 A JP 2014188890A JP 6275606 B2 JP6275606 B2 JP 6275606B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- transmission
- input signal
- termination
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 397
- 230000005540 biological transmission Effects 0.000 claims description 198
- 238000000034 method Methods 0.000 claims description 54
- 238000003708 edge detection Methods 0.000 claims description 44
- 239000000725 suspension Substances 0.000 claims 2
- 230000008569 process Effects 0.000 description 34
- 238000004891 communication Methods 0.000 description 24
- 230000008054 signal transmission Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Description
図1は、第1実施形態の音声区間検出システムの構成例を示すブロック図である。本実施形態の音声区間検出システムは、図1に示すように、通信ネットワークNTを介して通信可能に接続された音声始端検出装置10と音声終端検出装置20とを備える。
次に、第2実施形態の音声区間検出システムについて説明する。本実施形態の音声区間検出システムでは、音声始端検出装置が音声終端の検出も行って、音声終端を検出すると音声終端検出装置に対する入力信号の送信を中断する。一方、音声終端検出装置は、第1実施形態と同様に音声始端検出装置から受信した入力信号に対して音声終端を検出する処理を行うが、受信した入力信号から音声終端が検出されない場合は、音声始端検出装置に対して入力信号の送信再開を要求する。そして、音声始端検出装置は、音声終端検出装置からの要求に応じて、中断した時点以降の入力信号を音声終端検出装置に送信する。これにより、音声始端検出装置から音声終端検出装置への通信量を、第1実施形態よりもさらに削減することができる。
上述した実施形態の音声区間検出システムを構成する音声始端検出装置10,30および音声終端検出装置20,40は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用い、このコンピュータシステム上で所定のプログラム(ソフトウェア)を実行することによって、上述した各部の動作を実現することができる。このとき、上記のプログラムは、例えば、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、またはこれに類する記録媒体に記録されて提供される。なお、プログラムを記録する記録媒体は、コンピュータシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。また、上記プログラムを、コンピュータシステムに予めインストールするように構成してもよいし、ネットワークを介して配布される上記のプログラムをコンピュータシステムに適宜インストールするように構成してもよい。
13 第1検出部
14 第1送信部
15 第1受信部
20 音声終端検出装置
21 第2受信部
22 第2検出部
23 第2送信部
30 音声始端検出装置
32 入力バッファ
33 第1検出部
34 第1送信部
35 第1受信部
40 音声終端検出装置
41 第2受信部
42 第2検出部
43 第2送信部
Claims (11)
- 通信可能に接続された音声始端検出装置と音声終端検出装置とを含む音声区間検出システムであって、
前記音声始端検出装置は、
時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出する第1検出部と、
前記始端が検出されると、該始端以降の前記入力信号を前記音声終端検出装置に送信し、前記第1検出部によって前記終端が検出されると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記音声終端検出装置に送信する第1送信部と、
音声区間の終端が検出されたことを示す終端検出信号を前記音声終端検出装置から受信し、前記入力信号の送信再開を要求する送信再開リクエストが前記音声終端検出装置から送信されると、該送信再開リクエストを受信する第1受信部と、を備え、
前記音声終端検出装置は、
前記始端以降の前記入力信号を前記音声始端検出装置から受信し、前記送信中断メッセージが前記音声始端検出装置から送信されると、該送信中断メッセージを受信する第2受信部と、
受信した前記入力信号から音声区間の終端を検出する第2検出部と、
前記終端が検出されると、前記終端検出信号を前記音声始端検出装置に送信し、前記第2検出部により前記終端が検出されず、かつ、前記第2受信部により前記送信中断メッセージが受信されると、前記送信再開リクエストを前記音声始端検出装置に送信する第2送信部と、を備え、
前記第1送信部は、前記第1受信部が前記終端検出信号を受信すると、前記入力信号の送信を停止し、前記第1受信部が前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号を前記音声終端検出装置に送信する、音声区間検出システム。 - 前記音声始端検出装置は、
前記入力信号を順次格納する入力バッファをさらに備え、
前記第1送信部は、前記第1受信部が前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号であって、前記入力バッファから取り出された前記入力信号を前記音声終端検出装置に送信する、請求項1に記載の音声区間検出システム。 - 前記第2送信部は、前記第2検出部により検出された前記終端の時間軸上の位置を特定するための時間情報を含む前記終端検出信号を前記音声始端検出装置に送信する、請求項1または2に記載の音声区間検出システム。
- 前記第2検出部が前記終端を検出する処理負荷は、前記第1検出部が前記始端を検出する処理負荷よりも大きい、請求項1乃至3のいずれか一項に記載の音声区間検出システム。
- 時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出する検出部と、
前記始端が検出されると、該始端以降の前記入力信号を外部装置に送信し、前記検出部によって前記終端が検出されると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記外部装置に送信する送信部と、
音声区間の終端が検出されたことを示す終端検出信号を前記外部装置から受信し、前記入力信号の送信再開を要求する送信再開リクエストが前記外部装置から送信されると、該送信再開リクエストを受信する受信部と、を備え、
前記送信部は、前記受信部が前記終端検出信号を受信すると、前記入力信号の送信を停止し、前記受信部が前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号を前記外部装置に送信する、音声始端検出装置。 - 外部装置に時系列で入力される入力信号のうち、前記外部装置によって検出された音声区間の始端以降の前記入力信号を前記外部装置から受信し、前記入力信号の送信を中断することを示す送信中断メッセージが前記外部装置から送信されると、該送信中断メッセージを受信する受信部と、
受信した前記入力信号から音声区間の終端を検出する検出部と、
前記終端が検出されると、音声区間の終端が検出されたことを示す終端検出信号を前記外部装置に送信し、前記検出部により前記終端が検出されず、かつ、前記受信部により前記送信中断メッセージが受信されると、前記入力信号の送信再開を要求する送信再開リクエストを前記外部装置に送信する送信部と、を備える音声終端検出装置。 - 通信可能に接続された音声始端検出装置と音声終端検出装置とを含む音声区間検出システムにより実行される音声区間検出方法であって、
前記音声始端検出装置が、時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出し、
前記音声始端検出装置が、前記始端を検出すると、該始端以降の前記入力信号を前記音声終端検出装置に送信し、前記終端を検出すると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記音声終端検出装置に送信し、
前記音声終端検出装置が、前記始端以降の前記入力信号を前記音声始端検出装置から受信し、前記送信中断メッセージが前記音声始端検出装置から送信されると、該送信中断メッセージを受信し、
前記音声終端検出装置が、受信した前記入力信号から音声区間の終端を検出し、
前記音声終端検出装置が、前記終端を検出すると、音声区間の終端が検出されたことを示す終端検出信号を前記音声始端検出装置に送信し、前記終端が検出されず、かつ、前記送信中断メッセージを受信すると、前記入力信号の送信再開を要求する送信再開リクエストを前記音声始端検出装置に送信し、
前記音声始端検出装置が、前記終端検出信号を前記音声終端検出装置から受信し、前記送信再開リクエストが前記音声終端検出装置から送信されると、該送信再開リクエストを受信し、
前記音声始端検出装置が、前記終端検出信号を受信すると、前記入力信号の送信を停止し、前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号を前記音声終端検出装置に送信する、音声区間検出方法。 - 音声始端検出装置により実行される音声始端検出方法であって、
時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出し、
前記始端を検出すると、該始端以降の前記入力信号を外部装置に送信し、前記終端を検出すると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記外部装置に送信し、
音声区間の終端が検出されたことを示す終端検出信号を前記外部装置から受信し、前記入力信号の送信再開を要求する送信再開リクエストが前記外部装置から送信されると、該送信再開リクエストを受信し、
前記終端検出信号を受信すると、前記入力信号の送信を停止し、前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号を前記外部装置に送信する、音声始端検出方法。 - 音声終端検出装置により実行される音声終端検出方法であって、
外部装置に時系列で入力される入力信号のうち、前記外部装置によって検出された音声区間の始端以降の前記入力信号を前記外部装置から受信し、前記入力信号の送信を中断することを示す送信中断メッセージが前記外部装置から送信されると、該送信中断メッセージを受信し、
受信した前記入力信号から音声区間の終端を検出し、
前記終端を検出すると、音声区間の終端が検出されたことを示す終端検出信号を前記外部装置に送信し、前記終端が検出されず、かつ、前記送信中断メッセージが受信されると、前記入力信号の送信再開を要求する送信再開リクエストを前記外部装置に送信する、音声終端検出方法。 - コンピュータに、
時系列に入力される入力信号から音声区間の始端を検出するとともに、前記入力信号から音声区間の終端を検出する機能と、
前記始端を検出すると、該始端以降の前記入力信号を外部装置に送信し、前記終端を検出すると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記外部装置に送信する機能と、
音声区間の終端が検出されたことを示す終端検出信号を前記外部装置から受信し、前記入力信号の送信再開を要求する送信再開リクエストが前記外部装置から送信されると、該送信再開リクエストを受信する機能と、を実現させるためのプログラム。 - コンピュータに、
外部装置に時系列で入力される入力信号のうち、前記外部装置によって検出された音声区間の始端以降の前記入力信号を前記外部装置から受信し、前記入力信号の送信を中断することを示す送信中断メッセージが前記外部装置から送信されると、該送信中断メッセージを受信する機能と、
受信した前記入力信号から音声区間の終端を検出する機能と、
前記終端を検出すると、音声区間の終端が検出されたことを示す終端検出信号を前記外部装置に送信し、前記終端が検出されず、かつ、前記送信中断メッセージが受信されると、前記入力信号の送信再開を要求する送信再開リクエストを前記外部装置に送信する機能と、を実現させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014188890A JP6275606B2 (ja) | 2014-09-17 | 2014-09-17 | 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム |
PCT/JP2015/076121 WO2016043182A1 (ja) | 2014-09-17 | 2015-09-15 | 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム |
US15/391,143 US10210886B2 (en) | 2014-09-17 | 2016-12-27 | Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014188890A JP6275606B2 (ja) | 2014-09-17 | 2014-09-17 | 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016061890A JP2016061890A (ja) | 2016-04-25 |
JP6275606B2 true JP6275606B2 (ja) | 2018-02-07 |
Family
ID=55533219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014188890A Active JP6275606B2 (ja) | 2014-09-17 | 2014-09-17 | 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10210886B2 (ja) |
JP (1) | JP6275606B2 (ja) |
WO (1) | WO2016043182A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108766418B (zh) | 2018-05-24 | 2020-01-14 | 百度在线网络技术(北京)有限公司 | 语音端点识别方法、装置及设备 |
CN112530408A (zh) * | 2020-11-20 | 2021-03-19 | 北京有竹居网络技术有限公司 | 用于识别语音的方法、装置、电子设备和介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3721948B2 (ja) * | 2000-05-30 | 2005-11-30 | 株式会社国際電気通信基礎技術研究所 | 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
JP3885523B2 (ja) | 2001-06-20 | 2007-02-21 | 日本電気株式会社 | サーバ・クライアント型音声認識装置及び方法 |
US6999921B2 (en) * | 2001-12-13 | 2006-02-14 | Motorola, Inc. | Audio overhang reduction by silent frame deletion in wireless calls |
JP2003195880A (ja) * | 2001-12-28 | 2003-07-09 | Nec Corp | サーバ・クライアント型音声認識装置 |
JP4197271B2 (ja) | 2003-06-17 | 2008-12-17 | シャープ株式会社 | 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 |
JP4425055B2 (ja) * | 2004-05-18 | 2010-03-03 | 日本電信電話株式会社 | クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 |
US20070168591A1 (en) * | 2005-12-08 | 2007-07-19 | Inter-Tel, Inc. | System and method for validating codec software |
WO2011133924A1 (en) * | 2010-04-22 | 2011-10-27 | Qualcomm Incorporated | Voice activity detection |
US9183843B2 (en) * | 2011-01-07 | 2015-11-10 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US9444816B2 (en) * | 2011-03-30 | 2016-09-13 | Qualcomm Incorporated | Continuous voice authentication for a mobile device |
US9818407B1 (en) * | 2013-02-07 | 2017-11-14 | Amazon Technologies, Inc. | Distributed endpointing for speech recognition |
JP6105321B2 (ja) * | 2013-02-21 | 2017-03-29 | 富士通テン株式会社 | 通信装置、通信システム、通信方法、及び、プログラム |
JP2015011170A (ja) * | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | ローカルな音声認識を行なう音声認識クライアント装置 |
KR101834546B1 (ko) * | 2013-08-28 | 2018-04-13 | 한국전자통신연구원 | 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법 |
US9311932B2 (en) * | 2014-01-23 | 2016-04-12 | International Business Machines Corporation | Adaptive pause detection in speech recognition |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
-
2014
- 2014-09-17 JP JP2014188890A patent/JP6275606B2/ja active Active
-
2015
- 2015-09-15 WO PCT/JP2015/076121 patent/WO2016043182A1/ja active Application Filing
-
2016
- 2016-12-27 US US15/391,143 patent/US10210886B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2016043182A1 (ja) | 2016-03-24 |
JP2016061890A (ja) | 2016-04-25 |
US10210886B2 (en) | 2019-02-19 |
US20170110146A1 (en) | 2017-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170330566A1 (en) | Distributed Volume Control for Speech Recognition | |
US11023755B2 (en) | Detection of liveness | |
US9666190B2 (en) | Speech recognition using loosely coupled components | |
US9900685B2 (en) | Creating an audio envelope based on angular information | |
US9824685B2 (en) | Handsfree device with continuous keyword recognition | |
JP7353497B2 (ja) | 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム | |
JP2018517919A (ja) | 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 | |
US10312874B2 (en) | Volume control methods and devices, and multimedia playback control methods and devices | |
US20190147890A1 (en) | Audio peripheral device | |
US11430447B2 (en) | Voice activation based on user recognition | |
US10536191B1 (en) | Maintaining consistent audio setting(s) between wireless headphones | |
JP6817386B2 (ja) | 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 | |
JP6275606B2 (ja) | 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム | |
CN110164443B (zh) | 用于电子设备的语音处理方法、装置以及电子设备 | |
KR20200050152A (ko) | 다중 기기를 음성 인식 시스템 및 그 제어 방법 | |
US10916248B2 (en) | Wake-up word detection | |
WO2017210856A1 (zh) | 控制音频输出的方法、用户终端和对讲机终端 | |
US20120027225A1 (en) | Bell sound outputting apparatus and method thereof | |
CN109791476B (zh) | 通信装置 | |
JP2019028160A (ja) | 電子装置および情報端末システム | |
JP5973030B2 (ja) | 音声認識システム、および音声処理装置 | |
JP7303091B2 (ja) | 制御装置、電子機器、制御装置の制御方法および制御プログラム | |
CN104780411A (zh) | 一种具有声控功能的电视盒子遥控器及系统和使用方法 | |
WO2018207483A1 (ja) | 情報処理装置、電子機器、制御方法、および制御プログラム | |
KR20180129473A (ko) | 음성전처리장치 및 그 동작방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180110 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6275606 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |