JP6276132B2 - 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム - Google Patents
発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム Download PDFInfo
- Publication number
- JP6276132B2 JP6276132B2 JP2014155522A JP2014155522A JP6276132B2 JP 6276132 B2 JP6276132 B2 JP 6276132B2 JP 2014155522 A JP2014155522 A JP 2014155522A JP 2014155522 A JP2014155522 A JP 2014155522A JP 6276132 B2 JP6276132 B2 JP 6276132B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- likelihood
- threshold
- unit
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 137
- 238000012545 processing Methods 0.000 title claims description 42
- 238000000034 method Methods 0.000 claims description 66
- 230000005236 sound signal Effects 0.000 claims description 56
- 230000008569 process Effects 0.000 claims description 17
- 230000035945 sensitivity Effects 0.000 claims description 16
- 238000000926 separation method Methods 0.000 claims description 9
- 238000013459 approach Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 38
- 238000004364 calculation method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Description
図1は、本実施形態に係る音声認識システムの構成例を示すブロック図である。この音声認識システムは、複数のクライアント装置10(第1装置、外部装置)とサーバ装置20(第2装置、発話区間検出装置)とが通信ネットワーク30を介して通信可能に接続される構成である。この音声認識システムでは、クライアント装置10において、入力した信号に対して大まかな発話区間の検出を行い、発話が含まれている可能性のある区間の信号(以下、第1音声信号という。)をサーバ装置20に送信する。サーバ装置20は、クライアント装置10から受信した第1音声信号に対して厳密な発話区間の検出を行い、発話である可能性が高い区間の信号(以下、第2音声信号という。)に対して音声認識処理を行って、認識結果のテキストデータをクライアント装置10に送信する。これにより、クライアント装置10とサーバ装置20との間の通信量の削減を図りつつ、発話区間を精度よく検出して高精度で効率的な音声認識を実現する。
クライアント装置10の他の構成例を第2実施形態として説明する。以下では、第2実施形態のクライアント装置10を第1実施形態と区別してクライアント装置10Aと表記する。なお、サーバ装置20の構成は第1実施形態と共通である。以下、第1実施形態と共通の部分は同一の符号を付して重複した説明を省略し、第1実施形態との相違点のみを説明する。
以上説明した実施形態のサーバ装置20における各機能的な構成要素は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用いて実行されるプログラム(ソフトウェア)により実現することができる。
11 マイク
12 第1検出部
13 通信部
14 尤度調整部
15 閾値調整部
16 マイクアレイ
17 音声分離部
20 サーバ装置
21 通信部
22 第2検出部
23 音声認識部
24 閾値調整部
25 尤度調整部
26 時間比率算出部
27 閾値調整指示部
30 通信ネットワーク
Claims (14)
- 外部装置が第1の方法で算出した発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を受信する受信部と、
前記第1音声信号から、前記第1の方法とは異なる第2の方法で算出した前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する検出部と、
サンプル信号と、当該サンプル信号に対して前記検出部が前記第2の方法で算出した前記尤度の時系列データとを前記外部装置に送信し、前記サンプル信号に対して前記第1の方法で時系列に算出される前記尤度が前記時系列データに近づくように、前記外部装置に対して前記尤度の調整を指示する尤度調整指示部と、を備える発話区間検出装置。 - 発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を外部装置から受信する受信部と、
前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する検出部と、
前記第1音声信号と前記第2音声信号との時間比率を算出する時間比率算出部と、
前記時間比率に基づいて前記第1閾値の適正値を算出し、前記外部装置に対して、前記第1閾値を前記適正値に調整することを指示する閾値調整指示部と、を備える発話区間検出装置。 - 前記外部装置はマイクを用いて入力した信号から前記第1音声信号を検出し、
前記閾値調整指示部は、前記時間比率に基づいて算出した前記適正値が基準範囲を越える場合は、前記外部装置に対して前記マイクの感度を調整することを指示する、請求項2に記載の発話区間検出装置。 - 前記外部装置はマイクを用いて入力した信号から前記第1音声信号を検出し、
前記閾値調整指示部は、前記時間比率に基づいて算出した前記適正値が基準範囲を越える場合は、前記外部装置に対して前記マイクを用いた信号の入力が適切に行われていない旨の警告を送信する、請求項2に記載の発話区間検出装置。 - 前記外部装置に対して算出した前記適正値を当該外部装置の属性情報に対応付けて記憶する記憶部をさらに備え、
前記閾値調整指示部は、前記記憶部が記憶する属性情報と類似する属性の他の外部装置に対し、前記属性情報と対応付けられた前記適正値を前記第1閾値として設定することを指示する、請求項2乃至4のいずれか一項に記載の発話区間検出装置。 - 前記第2音声信号に対して音声認識処理を行って前記第2音声信号に対応するテキストデータを出力する音声認識部をさらに備える、請求項1乃至5のいずれか一項に記載の発話区間検出装置。
- 前記音声認識部による認識結果に基づいて、前記第2閾値を調整する閾値調整部をさらに備える、請求項6に記載の発話区間検出装置。
- 第1装置と、ネットワークを介して前記第1装置と通信する第2装置とを含む音声処理システムであって、
前記第1装置は、
入力信号から、第1の方法で算出した発話らしさを表す尤度が第1閾値以上の区間の信号である第1音声信号を検出する第1検出部と、
前記第1音声信号を前記第2装置に送信する送信部と、を備え、
前記第2装置は、
前記第1音声信号を受信する受信部と、
前記第1音声信号から、前記第1の方法とは異なる第2の方法で算出した前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する第2検出部と、
サンプル信号と、当該サンプル信号に対して前記第2検出部が前記第2の方法で算出した前記尤度の時系列データとを前記第1装置に送信し、前記サンプル信号に対して前記第1の方法で時系列に算出される前記尤度が前記時系列データに近づくように、前記第1装置に対して前記尤度の調整を指示する尤度調整指示部と、を備える音声処理システム。 - 第1装置と、ネットワークを介して前記第1装置と通信する第2装置とを含む音声処理システムであって、
前記第1装置は、
入力信号から、発話らしさを表す尤度が第1閾値以上の区間の信号である第1音声信号を検出する第1検出部と、
前記第1音声信号を前記第2装置に送信する送信部と、を備え、
前記第2装置は、
前記第1音声信号を受信する受信部と、
前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する第2検出部と、
前記第1音声信号と前記第2音声信号との時間比率を算出する時間比率算出部と、
前記時間比率に基づいて前記第1閾値の適正値を算出し、前記第1装置に対して、前記第1閾値を前記適正値に調整することを指示する閾値調整指示部と、を備える音声処理システム。 - 前記第1装置は、
前記入力信号を話者ごとの信号に分離する分離部をさらに備え、
前記第1検出部は、分離された話者ごとの信号に対して動的に生成される、請求項8または9に記載の音声処理システム。 - コンピュータが実行する発話区間検出方法であって、
外部装置が第1の方法で算出した発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を受信する工程と、
前記第1音声信号から、前記第1の方法とは異なる第2の方法で算出した前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する工程と、
サンプル信号と、当該サンプル信号に対して前記第2の方法で算出した前記尤度の時系列データとを前記外部装置に送信し、前記サンプル信号に対して前記第1の方法で時系列に算出される前記尤度が前記時系列データに近づくように、前記外部装置に対して前記尤度の調整を指示する工程と、を含む発話区間検出方法。 - コンピュータが実行する発話区間検出方法であって、
発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を外部装置から受信する工程と、
前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する工程と、
前記第1音声信号と前記第2音声信号との時間比率を算出する工程と、
前記時間比率に基づいて前記第1閾値の適正値を算出し、前記外部装置に対して、前記第1閾値を前記適正値に調整することを指示する工程と、を含む発話区間検出方法。 - コンピュータに、
外部装置が第1の方法で算出した発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を受信する機能と、
前記第1音声信号から、前記第1の方法とは異なる第2の方法で算出した前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する機能と、
サンプル信号と、当該サンプル信号に対して前記第2の方法で算出した前記尤度の時系列データとを前記外部装置に送信し、前記サンプル信号に対して前記第1の方法で時系列に算出される前記尤度が前記時系列データに近づくように、前記外部装置に対して前記尤度の調整を指示する機能と、を実現させるためのプログラム。 - コンピュータに、
発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を外部装置から受信する機能と、
前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する機能と、
前記第1音声信号と前記第2音声信号との時間比率を算出する機能と、
前記時間比率に基づいて前記第1閾値の適正値を算出し、前記外部装置に対して、前記第1閾値を前記適正値に調整することを指示する機能と、を実現させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014155522A JP6276132B2 (ja) | 2014-07-30 | 2014-07-30 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
PCT/JP2015/063533 WO2016017229A1 (ja) | 2014-07-30 | 2015-05-11 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
US15/263,520 US10276191B2 (en) | 2014-07-30 | 2016-09-13 | Speech section detection device, voice processing system, speech section detection method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014155522A JP6276132B2 (ja) | 2014-07-30 | 2014-07-30 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016033530A JP2016033530A (ja) | 2016-03-10 |
JP6276132B2 true JP6276132B2 (ja) | 2018-02-07 |
Family
ID=55217133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014155522A Active JP6276132B2 (ja) | 2014-07-30 | 2014-07-30 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10276191B2 (ja) |
JP (1) | JP6276132B2 (ja) |
WO (1) | WO2016017229A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6553111B2 (ja) * | 2017-03-21 | 2019-07-31 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2019191490A (ja) * | 2018-04-27 | 2019-10-31 | 東芝映像ソリューション株式会社 | 音声対話端末、および音声対話端末制御方法 |
JP7047626B2 (ja) * | 2018-06-22 | 2022-04-05 | コニカミノルタ株式会社 | 会議システム、会議サーバ及びプログラム |
JP7131362B2 (ja) * | 2018-12-20 | 2022-09-06 | トヨタ自動車株式会社 | 制御装置、音声対話装置及びプログラム |
WO2024167785A1 (en) * | 2023-02-07 | 2024-08-15 | Dolby Laboratories Licensing Corporation | Method and system for robust processing of speech classifier |
CN118248133A (zh) * | 2024-05-27 | 2024-06-25 | 暗物智能科技(广州)有限公司 | 二阶段语音识别方法、装置、计算机设备及可读存储介质 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3601631B2 (ja) * | 1995-10-24 | 2004-12-15 | 株式会社リコー | 話者認識システムおよび話者認識方法 |
JP2991144B2 (ja) * | 1997-01-29 | 1999-12-20 | 日本電気株式会社 | 話者認識装置 |
JP3477432B2 (ja) | 2000-08-04 | 2003-12-10 | 旭化成株式会社 | 音声認識方法およびサーバならびに音声認識システム |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
FR2853126A1 (fr) * | 2003-03-25 | 2004-10-01 | France Telecom | Procede de reconnaissance de parole distribuee |
JP4197271B2 (ja) | 2003-06-17 | 2008-12-17 | シャープ株式会社 | 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 |
JP4413564B2 (ja) * | 2003-09-16 | 2010-02-10 | 三菱電機株式会社 | 情報端末および音声認識システム |
US7567908B2 (en) * | 2004-01-13 | 2009-07-28 | International Business Machines Corporation | Differential dynamic content delivery with text display in dependence upon simultaneous speech |
JP4425055B2 (ja) | 2004-05-18 | 2010-03-03 | 日本電信電話株式会社 | クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 |
GB2418764B (en) * | 2004-09-30 | 2008-04-09 | Fluency Voice Technology Ltd | Improving pattern recognition accuracy with distortions |
US7464029B2 (en) * | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
JP2007199552A (ja) * | 2006-01-30 | 2007-08-09 | Toyota Motor Corp | 音声認識装置と音声認識方法 |
CN101502089B (zh) * | 2006-07-28 | 2013-07-03 | 西门子企业通讯有限责任两合公司 | 进行音频会议的方法、音频会议装置和编码器之间的切换方法 |
JP4714129B2 (ja) * | 2006-11-29 | 2011-06-29 | 日本電信電話株式会社 | 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体 |
JP4715738B2 (ja) * | 2006-12-19 | 2011-07-06 | トヨタ自動車株式会社 | 発話検出装置及び発話検出方法 |
JP2008158055A (ja) * | 2006-12-21 | 2008-07-10 | Sumitomo Cement Computers Systems Co Ltd | 言語発音練習支援システム |
JP4451892B2 (ja) * | 2007-03-19 | 2010-04-14 | 株式会社リコー | 映像再生装置、映像再生方法、及び映像再生プログラム |
US8452596B2 (en) * | 2007-03-27 | 2013-05-28 | Nec Corporation | Speaker selection based at least on an acoustic feature value similar to that of an utterance speaker |
US7813924B2 (en) * | 2007-04-10 | 2010-10-12 | Nokia Corporation | Voice conversion training and data collection |
US8364485B2 (en) * | 2007-08-27 | 2013-01-29 | International Business Machines Corporation | Method for automatically identifying sentence boundaries in noisy conversational data |
KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
JP2011191423A (ja) * | 2010-03-12 | 2011-09-29 | Honda Motor Co Ltd | 発話認識装置、発話認識方法 |
US8543402B1 (en) * | 2010-04-30 | 2013-09-24 | The Intellisis Corporation | Speaker segmentation in noisy conversational speech |
WO2011145987A1 (en) * | 2010-05-18 | 2011-11-24 | Telefonaktiebolaget Lm Ericsson (Publ) | Encoder adaption in teleconferencing system |
-
2014
- 2014-07-30 JP JP2014155522A patent/JP6276132B2/ja active Active
-
2015
- 2015-05-11 WO PCT/JP2015/063533 patent/WO2016017229A1/ja active Application Filing
-
2016
- 2016-09-13 US US15/263,520 patent/US10276191B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20160379673A1 (en) | 2016-12-29 |
US10276191B2 (en) | 2019-04-30 |
WO2016017229A1 (ja) | 2016-02-04 |
JP2016033530A (ja) | 2016-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6276132B2 (ja) | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム | |
US10579327B2 (en) | Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold | |
US11064296B2 (en) | Voice denoising method and apparatus, server and storage medium | |
US20190082276A1 (en) | Low latency audio enhancement | |
US11516347B2 (en) | Systems and methods to automatically join conference | |
KR20170032096A (ko) | 전자장치, 전자장치의 구동방법, 음성인식장치, 음성인식장치의 구동 방법 및 컴퓨터 판독가능 기록매체 | |
EP3484183B1 (en) | Location classification for intelligent personal assistant | |
US8793128B2 (en) | Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point | |
US8935168B2 (en) | State detecting device and storage medium storing a state detecting program | |
JP6067391B2 (ja) | 信号音量に基いた信号利得の適合時のピーク検出 | |
JP5863928B1 (ja) | 音声調整装置 | |
JP2018005122A (ja) | 検出装置、検出方法及び検出プログラム | |
JP2004012151A (ja) | 音源方向推定装置 | |
WO2019207912A1 (ja) | 情報処理装置及び情報処理方法 | |
US9704504B2 (en) | Voice analysis device and voice analysis system | |
JP2005157086A (ja) | 音声認識装置 | |
KR102044970B1 (ko) | 환경 특징 추출 방법 및 이를 이용한 보청기 작동 방법 | |
US10706870B2 (en) | Sound processing method, apparatus for sound processing, and non-transitory computer-readable storage medium | |
JP6361360B2 (ja) | 残響判定装置及びプログラム | |
JP2020024310A (ja) | 音声処理システム及び音声処理方法 | |
US11694705B2 (en) | Sound signal processing system apparatus for avoiding adverse effects on speech recognition | |
JP6822540B2 (ja) | 端末装置、通信方法及び通信プログラム | |
US10601757B2 (en) | Multi-output mode communication support device, communication support method, and computer program product | |
JP6282999B2 (ja) | 補聴器の指向性を試験するための装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160923 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170919 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20171120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6276132 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |