JP7409381B2 - 発話区間検出装置、発話区間検出方法、プログラム - Google Patents
発話区間検出装置、発話区間検出方法、プログラム Download PDFInfo
- Publication number
- JP7409381B2 JP7409381B2 JP2021534484A JP2021534484A JP7409381B2 JP 7409381 B2 JP7409381 B2 JP 7409381B2 JP 2021534484 A JP2021534484 A JP 2021534484A JP 2021534484 A JP2021534484 A JP 2021534484A JP 7409381 B2 JP7409381 B2 JP 7409381B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- section
- speech section
- utterance
- detection device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 50
- 238000000034 method Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims 2
- 238000012545 processing Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000277269 Oncorhynchus masou Species 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Description
以下、図1を参照して実施例1の発話区間検出装置の構成を説明する。同図に示すように本実施例の発話区間検出装置11は、音声非音声判定部111と、音声区間抽出部112と、発話終端判定部113と、非音声区間継続時間閾値決定部114と、発話区間検出部115を含む。
入力:短時間フレームごとの音響特徴量の系列(x1,...,xT)
出力:音声非音声ラベル系列(s1,...,sT)
P(st)=VoiceActivityDetection(x1,...,xt;θ1)
(参考非特許文献1:X.-L. Zhang and J. Wu, “Deep belief networks based voice activity detection,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 4, pp. 697-710, 2013.)
(参考非特許文献2:N. Ryant, M. Liberman, and J. Yuan, “Speech activity detection on youtube using deep neural networks,” In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 728-731, 2013.)
(参考非特許文献3:J. Sohn, N. S. Kim, and W. Sung, “A statistical model-based voice activity detection,” IEEE Signal Processing Letters, vol. 6, no. 1, pp.1-3, 1999.)
入力:短時間フレームごとの音響特徴量の系列(x1,...,xT)、音声非音声ラベル系列(s1,...,sT)
出力:音声と判定されたある区間の音響特徴量の系列(xn,...,xm)(1≦n, m≦T, n<m)
入力:音声と判定されたある区間の音響特徴量の系列(xn,...,xm)(1≦n and m≦T)
出力:対象の音声区間の終端が発話終端である確率pn,m
pn,m=EndOfUtterance(xn,...,xm;θ2)
(参考非特許文献4:Ryo Masumura, Taichi Asami, Hirokazu Masataki, Ryo Ishii, Ryuichiro Higashinaka, "Online End-of-Turn Detection from Speech based on Stacked Time-Asynchronous Sequential Networks", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.1661-1665, 2017.)
入力:対象の音声区間が発話終端である確率pn,m
出力:対象の音声区間直後の非音声区間継続時間の閾値σn,m
σn,m=K-kpn,m
入力:音声非音声ラベル系列(s1,...,sT)、各音声区間直後の非音声区間継続時間の閾値σn,m(n,mのペアは0以上含まれる)
出力:発話区間ラベル系列(u1,...,uT)
実施例1の発話区間検出装置11によれば、入力された音響信号から、発話区間を頑健に切り出すことができる。実施例1の発話区間検出装置11によれば、話し言葉のように多様な音声現象が音響信号に含まれる場合であっても、発話の途中で発話区間が途切れてしまったり、発話区間に余分な非音声区間が過剰に含まれることが発生したりすることなく、発話区間を検出することができる。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (8)
- 音声認識の前処理として発話区間を検出する発話区間検出装置であって、
音声区間の音響特徴量に基づいて、前記音声区間の終端が発話終端である確率を出力する発話終端判定部と、
前記確率に基づいて非音声区間の継続時間に関する閾値を決定する非音声区間継続時間閾値決定部を含む
発話区間検出装置。 - 請求項1に記載の発話区間検出装置であって、
前記音声区間に続く非音声区間の継続時間と対応する前記閾値とを比較して、発話区間を検出する発話区間検出部をさらに含む
発話区間検出装置。 - 請求項1に記載の発話区間検出装置であって、
音響信号のあるフレームが音声であるか非音声であるかの判定である音声非音声判定を行う音声非音声判定部をさらに含む
発話区間検出装置。 - 請求項2に記載の発話区間検出装置であって、
前記非音声区間継続時間閾値決定部は、
前記音声区間の終端が発話終端である確率が高くなればなるほど対応する前記閾値を小さな値とし、前記音声区間の終端が発話終端である確率が低くなればなるほど対応する前記閾値を大きな値とし、
前記発話区間検出部は、
前記音声区間に続く非音声区間の継続時間が対応する前記閾値以上である場合に対応する非音声区間を発話区間外の非音声区間として検出する
発話区間検出装置。 - 請求項1に記載の発話区間検出装置であって、
前記非音声区間継続時間閾値決定部は、
Kおよびkを人手によりあらかじめ決定したハイパーパラメータとし、K≧k≧0.0とし、前記確率をp n,m とし、非音声区間の継続時間に関する閾値σ n,m を
σ n,m =K-kp n,m
として決定する
発話区間検出装置。 - 請求項1に記載の発話区間検出装置であって、
前記発話終端判定部は、
音響特徴量に基づき、学習データを用いて学習を行ったニューラルネットワークにより前記確率を求める
発話化区間検出装置。 - 音声認識の前処理として発話区間を検出する発話区間検出方法であって、
音声区間の音響特徴量に基づいて、前記音声区間の終端が発話終端である確率を出力する発話終端判定ステップと、
前記確率に基づいて非音声区間の継続時間に関する閾値を決定する非音声区間継続時間閾値決定ステップを含む
発話区間検出方法。 - コンピュータを請求項1から6の何れかに記載の発話区間検出装置として機能させるプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/029035 WO2021014612A1 (ja) | 2019-07-24 | 2019-07-24 | 発話区間検出装置、発話区間検出方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021014612A1 JPWO2021014612A1 (ja) | 2021-01-28 |
JP7409381B2 true JP7409381B2 (ja) | 2024-01-09 |
Family
ID=74193592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021534484A Active JP7409381B2 (ja) | 2019-07-24 | 2019-07-24 | 発話区間検出装置、発話区間検出方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220270637A1 (ja) |
JP (1) | JP7409381B2 (ja) |
WO (1) | WO2021014612A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7071579B1 (ja) * | 2021-10-27 | 2022-05-19 | アルインコ株式会社 | デジタル無線送信装置及びデジタル無線通信システム |
WO2023181107A1 (ja) * | 2022-03-22 | 2023-09-28 | 日本電気株式会社 | 音声検出装置、音声検出方法及び記録媒体 |
KR102516391B1 (ko) * | 2022-09-02 | 2023-04-03 | 주식회사 액션파워 | 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005017932A (ja) | 2003-06-27 | 2005-01-20 | Nissan Motor Co Ltd | 音声認識装置および音声認識用プログラム |
JP2007256482A (ja) | 2006-03-22 | 2007-10-04 | Fujitsu Ltd | 音声認識装置、音声認識方法、及びコンピュータプログラム |
JP2017078848A (ja) | 2015-10-19 | 2017-04-27 | グーグル インコーポレイテッド | スピーチエンドポインティング |
JP2019040148A (ja) | 2017-08-29 | 2019-03-14 | 日本電信電話株式会社 | 音声区間検出装置、その方法、及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07104676B2 (ja) * | 1988-02-29 | 1995-11-13 | 日本電信電話株式会社 | 適応形発声終了検出方法 |
US9437186B1 (en) * | 2013-06-19 | 2016-09-06 | Amazon Technologies, Inc. | Enhanced endpoint detection for speech recognition |
-
2019
- 2019-07-24 WO PCT/JP2019/029035 patent/WO2021014612A1/ja active Application Filing
- 2019-07-24 US US17/628,045 patent/US20220270637A1/en active Pending
- 2019-07-24 JP JP2021534484A patent/JP7409381B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005017932A (ja) | 2003-06-27 | 2005-01-20 | Nissan Motor Co Ltd | 音声認識装置および音声認識用プログラム |
JP2007256482A (ja) | 2006-03-22 | 2007-10-04 | Fujitsu Ltd | 音声認識装置、音声認識方法、及びコンピュータプログラム |
JP2017078848A (ja) | 2015-10-19 | 2017-04-27 | グーグル インコーポレイテッド | スピーチエンドポインティング |
JP2019040148A (ja) | 2017-08-29 | 2019-03-14 | 日本電信電話株式会社 | 音声区間検出装置、その方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021014612A1 (ja) | 2021-01-28 |
US20220270637A1 (en) | 2022-08-25 |
WO2021014612A1 (ja) | 2021-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7409381B2 (ja) | 発話区間検出装置、発話区間検出方法、プログラム | |
WO2020226778A1 (en) | On-device custom wake word detection | |
JP2019211749A (ja) | 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム | |
JP6622681B2 (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
CN110895928A (zh) | 语音识别方法和设备 | |
Kim et al. | Sequential labeling for tracking dynamic dialog states | |
JP6495792B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
WO2019107170A1 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
JP6636374B2 (ja) | 登録発話分割装置、話者らしさ評価装置、話者識別装置、登録発話分割方法、話者らしさ評価方法、プログラム | |
JP6612277B2 (ja) | ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 | |
JP5852550B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
JP6716513B2 (ja) | 音声区間検出装置、その方法、及びプログラム | |
JP7279800B2 (ja) | 学習装置、推定装置、それらの方法、およびプログラム | |
WO2020162238A1 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP5982265B2 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
JP7111017B2 (ja) | パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム | |
JP2008064849A (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
Odriozola et al. | An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods | |
WO2024018518A1 (ja) | モデル学習装置、満足度推定装置、モデル学習方法、満足度推定方法、プログラム | |
CN111816164A (zh) | 用于语音识别的方法及设备 | |
JP7218810B2 (ja) | 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム | |
WO2018216511A1 (ja) | 属性識別装置、属性識別方法、プログラム | |
JP7160170B2 (ja) | 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム | |
JP7176629B2 (ja) | 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221115 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230816 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231204 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7409381 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |