JP2016033530A - 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム - Google Patents
発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム Download PDFInfo
- Publication number
- JP2016033530A JP2016033530A JP2014155522A JP2014155522A JP2016033530A JP 2016033530 A JP2016033530 A JP 2016033530A JP 2014155522 A JP2014155522 A JP 2014155522A JP 2014155522 A JP2014155522 A JP 2014155522A JP 2016033530 A JP2016033530 A JP 2016033530A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- likelihood
- unit
- threshold
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Abstract
Description
図1は、本実施形態に係る音声認識システムの構成例を示すブロック図である。この音声認識システムは、複数のクライアント装置10(第1装置、外部装置)とサーバ装置20(第2装置、発話区間検出装置)とが通信ネットワーク30を介して通信可能に接続される構成である。この音声認識システムでは、クライアント装置10において、入力した信号に対して大まかな発話区間の検出を行い、発話が含まれている可能性のある区間の信号(以下、第1音声信号という。)をサーバ装置20に送信する。サーバ装置20は、クライアント装置10から受信した第1音声信号に対して厳密な発話区間の検出を行い、発話である可能性が高い区間の信号(以下、第2音声信号という。)に対して音声認識処理を行って、認識結果のテキストデータをクライアント装置10に送信する。これにより、クライアント装置10とサーバ装置20との間の通信量の削減を図りつつ、発話区間を精度よく検出して高精度で効率的な音声認識を実現する。
クライアント装置10の他の構成例を第2実施形態として説明する。以下では、第2実施形態のクライアント装置10を第1実施形態と区別してクライアント装置10Aと表記する。なお、サーバ装置20の構成は第1実施形態と共通である。以下、第1実施形態と共通の部分は同一の符号を付して重複した説明を省略し、第1実施形態との相違点のみを説明する。
以上説明した実施形態のサーバ装置20における各機能的な構成要素は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用いて実行されるプログラム(ソフトウェア)により実現することができる。
11 マイク
12 第1検出部
13 通信部
14 尤度調整部
15 閾値調整部
16 マイクアレイ
17 音声分離部
20 サーバ装置
21 通信部
22 第2検出部
23 音声認識部
24 閾値調整部
25 尤度調整部
26 時間比率算出部
27 閾値調整指示部
30 通信ネットワーク
Claims (13)
- 発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を外部装置から受信する受信部と、
前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する検出部と、を備える発話区間検出装置。 - 前記外部装置は、第1の方法で前記尤度を算出し、
前記検出部は、前記第1の方法とは異なる第2の方法で前記尤度を算出し、
前記第1の方法で算出される前記尤度が前記第2の方法で算出される前記尤度に近づくように、前記外部装置に対して前記尤度の調整を指示する尤度調整指示部をさらに備える、請求項1に記載の発話区間検出装置。 - 前記尤度調整指示部は、サンプル信号と、当該サンプル信号に対して前記検出部が前記第2の方法で算出した前記尤度の時系列データとを前記外部装置に送信し、前記サンプル信号に対して前記第1の方法で時系列に算出される前記尤度が前記時系列データに近づくように、前記外部装置に対して前記尤度の調整を指示する、請求項2に記載の発話区間検出装置。
- 前記第1音声信号と前記第2音声信号との時間比率を算出する時間比率算出部と、
前記時間比率に基づいて前記第1閾値の適正値を算出し、前記外部装置に対して、前記第1閾値を前記適正値に調整することを指示する閾値調整指示部をさらに備える、請求項1に記載の発話区間検出装置。 - 前記外部装置はマイクを用いて入力した信号から前記第1音声信号を検出し、
前記閾値調整指示部は、前記時間比率に基づいて算出した前記適正値が基準範囲を越える場合は、前記外部装置に対して前記マイクの感度を調整することを指示する、請求項4に記載の発話区間検出装置。 - 前記外部装置はマイクを用いて入力した信号から前記第1音声信号を検出し、
前記閾値調整指示部は、前記時間比率に基づいて算出した前記適正値が基準範囲を越える場合は、前記外部装置に対して前記マイクを用いた信号の入力が適切に行われていない旨の警告を送信する、請求項4に記載の発話区間検出装置。 - 前記外部装置に対して算出した前記適正値を当該外部装置の属性情報に対応付けて記憶する記憶部をさらに備え、
前記閾値調整指示部は、前記記憶部が記憶する属性情報と類似する属性の他の外部装置に対し、前記属性情報と対応付けられた前記適正値を前記第1閾値として設定することを指示する、請求項4に記載の発話区間検出装置。 - 前記第2音声信号に対して音声認識処理を行って前記第2音声信号に対応するテキストデータを出力する音声認識部をさらに備える、請求項1に記載の発話区間検出装置。
- 前記音声認識部による認識結果に基づいて、前記第2閾値を調整する閾値調整部をさらに備える、請求項8に記載の発話区間検出装置。
- 第1装置と、ネットワークを介して前記第1装置と通信する第2装置とを含む音声処理システムであって、
前記第1装置は、
入力信号から、発話らしさを表す尤度が第1閾値以上の区間の信号である第1音声信号を検出する第1検出部と、
前記第1音声信号を前記第2装置に送信する送信部と、を備え、
前記第2装置は、
前記第1音声信号を受信する受信部と、
前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する第2検出部と、を備える音声処理システム。 - 前記第1装置は、
前記入力信号を話者ごとの信号に分離する分離部をさらに備え、
前記第1検出部は、分離された話者ごとの信号に対して動的に生成される、請求項10に記載の音声処理システム。 - コンピュータが実行する発話区間検出方法であって、
発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を外部装置から受信する工程と、
前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する工程と、を含む発話区間検出方法。 - コンピュータに、
発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を外部装置から受信する機能と、
前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する機能と、を実現させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014155522A JP6276132B2 (ja) | 2014-07-30 | 2014-07-30 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
PCT/JP2015/063533 WO2016017229A1 (ja) | 2014-07-30 | 2015-05-11 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
US15/263,520 US10276191B2 (en) | 2014-07-30 | 2016-09-13 | Speech section detection device, voice processing system, speech section detection method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014155522A JP6276132B2 (ja) | 2014-07-30 | 2014-07-30 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016033530A true JP2016033530A (ja) | 2016-03-10 |
JP6276132B2 JP6276132B2 (ja) | 2018-02-07 |
Family
ID=55217133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014155522A Active JP6276132B2 (ja) | 2014-07-30 | 2014-07-30 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10276191B2 (ja) |
JP (1) | JP6276132B2 (ja) |
WO (1) | WO2016017229A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018156044A (ja) * | 2017-03-21 | 2018-10-04 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2019191490A (ja) * | 2018-04-27 | 2019-10-31 | 東芝映像ソリューション株式会社 | 音声対話端末、および音声対話端末制御方法 |
JP2020101603A (ja) * | 2018-12-20 | 2020-07-02 | トヨタ自動車株式会社 | 制御装置、音声対話装置、音声認識サーバ及びプログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7047626B2 (ja) * | 2018-06-22 | 2022-04-05 | コニカミノルタ株式会社 | 会議システム、会議サーバ及びプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005091611A (ja) * | 2003-09-16 | 2005-04-07 | Mitsubishi Electric Corp | 情報端末、音声認識サーバ、および音声認識システム |
JP2007199552A (ja) * | 2006-01-30 | 2007-08-09 | Toyota Motor Corp | 音声認識装置と音声認識方法 |
JP2007235969A (ja) * | 2007-03-19 | 2007-09-13 | Ricoh Co Ltd | 映像記録システム、プログラム及び記録媒体 |
JP2008152125A (ja) * | 2006-12-19 | 2008-07-03 | Toyota Central R&D Labs Inc | 発話検出装置及び発話検出方法 |
JP2008158055A (ja) * | 2006-12-21 | 2008-07-10 | Sumitomo Cement Computers Systems Co Ltd | 言語発音練習支援システム |
JP2011191423A (ja) * | 2010-03-12 | 2011-09-29 | Honda Motor Co Ltd | 発話認識装置、発話認識方法 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3601631B2 (ja) * | 1995-10-24 | 2004-12-15 | 株式会社リコー | 話者認識システムおよび話者認識方法 |
JP2991144B2 (ja) * | 1997-01-29 | 1999-12-20 | 日本電気株式会社 | 話者認識装置 |
JP3477432B2 (ja) | 2000-08-04 | 2003-12-10 | 旭化成株式会社 | 音声認識方法およびサーバならびに音声認識システム |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
FR2853126A1 (fr) * | 2003-03-25 | 2004-10-01 | France Telecom | Procede de reconnaissance de parole distribuee |
JP4197271B2 (ja) | 2003-06-17 | 2008-12-17 | シャープ株式会社 | 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 |
US7567908B2 (en) * | 2004-01-13 | 2009-07-28 | International Business Machines Corporation | Differential dynamic content delivery with text display in dependence upon simultaneous speech |
JP4425055B2 (ja) | 2004-05-18 | 2010-03-03 | 日本電信電話株式会社 | クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 |
GB2418764B (en) * | 2004-09-30 | 2008-04-09 | Fluency Voice Technology Ltd | Improving pattern recognition accuracy with distortions |
US7464029B2 (en) * | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
EP2047669B1 (de) * | 2006-07-28 | 2014-05-21 | Unify GmbH & Co. KG | Verfahren zum durchführen einer audiokonferenz, audiokonferenzeinrichtung und umschalteverfahren zwischen kodierern |
JP4714129B2 (ja) * | 2006-11-29 | 2011-06-29 | 日本電信電話株式会社 | 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体 |
US8452596B2 (en) * | 2007-03-27 | 2013-05-28 | Nec Corporation | Speaker selection based at least on an acoustic feature value similar to that of an utterance speaker |
US7813924B2 (en) * | 2007-04-10 | 2010-10-12 | Nokia Corporation | Voice conversion training and data collection |
US8364485B2 (en) * | 2007-08-27 | 2013-01-29 | International Business Machines Corporation | Method for automatically identifying sentence boundaries in noisy conversational data |
KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
US8543402B1 (en) * | 2010-04-30 | 2013-09-24 | The Intellisis Corporation | Speaker segmentation in noisy conversational speech |
US9258429B2 (en) * | 2010-05-18 | 2016-02-09 | Telefonaktiebolaget L M Ericsson | Encoder adaption in teleconferencing system |
-
2014
- 2014-07-30 JP JP2014155522A patent/JP6276132B2/ja active Active
-
2015
- 2015-05-11 WO PCT/JP2015/063533 patent/WO2016017229A1/ja active Application Filing
-
2016
- 2016-09-13 US US15/263,520 patent/US10276191B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005091611A (ja) * | 2003-09-16 | 2005-04-07 | Mitsubishi Electric Corp | 情報端末、音声認識サーバ、および音声認識システム |
JP2007199552A (ja) * | 2006-01-30 | 2007-08-09 | Toyota Motor Corp | 音声認識装置と音声認識方法 |
JP2008152125A (ja) * | 2006-12-19 | 2008-07-03 | Toyota Central R&D Labs Inc | 発話検出装置及び発話検出方法 |
JP2008158055A (ja) * | 2006-12-21 | 2008-07-10 | Sumitomo Cement Computers Systems Co Ltd | 言語発音練習支援システム |
JP2007235969A (ja) * | 2007-03-19 | 2007-09-13 | Ricoh Co Ltd | 映像記録システム、プログラム及び記録媒体 |
JP2011191423A (ja) * | 2010-03-12 | 2011-09-29 | Honda Motor Co Ltd | 発話認識装置、発話認識方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018156044A (ja) * | 2017-03-21 | 2018-10-04 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
US10579327B2 (en) | 2017-03-21 | 2020-03-03 | Kabushiki Kaisha Toshiba | Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold |
JP2019191490A (ja) * | 2018-04-27 | 2019-10-31 | 東芝映像ソリューション株式会社 | 音声対話端末、および音声対話端末制御方法 |
JP2020101603A (ja) * | 2018-12-20 | 2020-07-02 | トヨタ自動車株式会社 | 制御装置、音声対話装置、音声認識サーバ及びプログラム |
JP7131362B2 (ja) | 2018-12-20 | 2022-09-06 | トヨタ自動車株式会社 | 制御装置、音声対話装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2016017229A1 (ja) | 2016-02-04 |
US10276191B2 (en) | 2019-04-30 |
JP6276132B2 (ja) | 2018-02-07 |
US20160379673A1 (en) | 2016-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10579327B2 (en) | Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold | |
US11064296B2 (en) | Voice denoising method and apparatus, server and storage medium | |
US11870942B2 (en) | Systems and methods to automatically join conference | |
KR20170032096A (ko) | 전자장치, 전자장치의 구동방법, 음성인식장치, 음성인식장치의 구동 방법 및 컴퓨터 판독가능 기록매체 | |
JP6276132B2 (ja) | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム | |
EP3484183B1 (en) | Location classification for intelligent personal assistant | |
JP2010112995A (ja) | 通話音声処理装置、通話音声処理方法およびプログラム | |
US8793128B2 (en) | Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point | |
JP6067391B2 (ja) | 信号音量に基いた信号利得の適合時のピーク検出 | |
JP5863928B1 (ja) | 音声調整装置 | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
JP2004012151A (ja) | 音源方向推定装置 | |
JP2018005122A (ja) | 検出装置、検出方法及び検出プログラム | |
JP2017015774A (ja) | 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム | |
US20140324418A1 (en) | Voice input/output device, method and programme for preventing howling | |
CN116830191A (zh) | 基于热词属性调配自动语音识别参数 | |
JP2005157086A (ja) | 音声認識装置 | |
WO2019207912A1 (ja) | 情報処理装置及び情報処理方法 | |
JP2020024310A (ja) | 音声処理システム及び音声処理方法 | |
JP6361360B2 (ja) | 残響判定装置及びプログラム | |
JP2020201337A (ja) | 音声処理装置及び音声処理方法 | |
US11694705B2 (en) | Sound signal processing system apparatus for avoiding adverse effects on speech recognition | |
JP6822540B2 (ja) | 端末装置、通信方法及び通信プログラム | |
US10601757B2 (en) | Multi-output mode communication support device, communication support method, and computer program product | |
JP6282999B2 (ja) | 補聴器の指向性を試験するための装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160923 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170919 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20171120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6276132 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |