JP2019053233A - 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム - Google Patents
発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム Download PDFInfo
- Publication number
- JP2019053233A JP2019053233A JP2017178359A JP2017178359A JP2019053233A JP 2019053233 A JP2019053233 A JP 2019053233A JP 2017178359 A JP2017178359 A JP 2017178359A JP 2017178359 A JP2017178359 A JP 2017178359A JP 2019053233 A JP2019053233 A JP 2019053233A
- Authority
- JP
- Japan
- Prior art keywords
- pitch gain
- section
- threshold
- utterance
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Abstract
Description
この発話区間検出装置は、音声信号中で話者が発話している区間(以下、単に発話区間と呼ぶ)では、人の声の特性上、ある程度の周期性が認められることから、音の周期性の強さを表すピッチゲインに基づいて発話区間を検出する。これにより、この発話区間検出装置は、話者の声以外でも大きな値を取り得るパワーまたは信号対雑音比を利用するよりも、発話区間をより正確に検出できる。
プロセッサ13が有するこれらの各部は、例えば、プロセッサ13上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、プロセッサ13が有するこれらの各部は、その各部の機能を専用の回路として、プロセッサ13に組み込まれてもよい。
なお、後述する有音判定部24により、現フレームが何らかの信号成分を含む有音フレームであると判定された場合には、雑音推定部22は、現フレームの推定雑音成分Noise(k)を、Noise(k-1)で置換してもよい。これにより、雑音推定部22は、雑音成分のみを含み、信号成分を含まないと推定されるフレームに基づいて雑音成分を推定できるので、雑音成分の推定精度を向上できる。
図11は、上記の何れかの実施形態またはその変形例による発話区間検出装置が実装されたサーバクライアントシステムの概略構成図である。
サーバクライアントシステム100は、端末110とサーバ120とを有し、端末110とサーバ120とは、通信ネットワーク130を介して互いに通信可能となっている。なお、サーバクライアントシステム100が有する端末110は複数存在してもよい。同様に、サーバクライアントシステム100が有するサーバ120は複数存在してもよい。
(付記1)
話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出するピッチゲイン算出部と、
前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定する発話区間開始検出部と、
前記発話区間におけるピッチゲインの第1の代表値から前記発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ前記第1の閾値より低い第2の閾値を設定する閾値設定部と、
前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となると前記発話区間が終了すると判定する発話区間終了検出部と、
を有する発話区間検出装置。
(付記2)
前記閾値設定部は、前記発話区間におけるピッチゲインの最大値を前記第1の代表値として算出する、付記1に記載の発話区間検出装置。
(付記3)
前記発話区間が開始される前の区間におけるピッチゲインの平均値を前記第2の代表値として算出する雑音ピッチゲイン算出部をさらに有する、付記1または2に記載の発話区間検出装置。
(付記4)
前記閾値設定部は、前記発話区間が開始されたと判定されたフレームにおける前記ピッチゲインが大きいほど、前記第2の閾値を高くする、付記1〜3の何れかに記載の発話区間検出装置。
(付記5)
前記フレームごとに、前記音声信号の信号対雑音成分比を算出する信号対雑音成分比算出部をさらに有し、
前記発話区間開始検出部は、前記信号対雑音成分比が大きいフレームほど、当該フレームにおける前記第2の閾値を高くする、付記1〜3の何れかに記載の発話区間検出装置。
(付記6)
話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出し、
前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定し、
前記発話区間におけるピッチゲインの第1の代表値から前記発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ前記第1の閾値より低い第2の閾値を設定し、
前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となると前記発話区間が終了すると判定する、
ことを含む発話区間検出方法。
(付記7)
話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出し、
前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定し、
前記発話区間におけるピッチゲインの第1の代表値から前記発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ前記第1の閾値より低い第2の閾値を設定し、
前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となると前記発話区間が終了すると判定する、
ことをコンピュータに実行させるための発話区間検出用コンピュータプログラム。
(付記8)
話者の声が表された音声信号を取得するマイクロホンと、
前記音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出し、
前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定し、
前記発話区間におけるピッチゲインの第1の代表値から前記発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ前記第1の閾値より低い第2の閾値を設定し、
前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となると前記発話区間が終了すると判定するように構成されたプロセッサと、
を有する発話区間検出装置。
11 マイクロホン
12 アナログ/デジタルコンバータ
13 プロセッサ
14 メモリ
21 パワー算出部
22 雑音推定部
23 信号対雑音比算出部
24 有音判定部
25 ピッチゲイン算出部
26 発話区間開始検出部
27 雑音ピッチゲイン算出部
28 閾値設定部
29 発話区間終了検出部
100 サーバクライアントシステム
110 端末
111 マイクロホン
112 メモリ
113 通信インターフェース
114 プロセッサ
120 サーバ
121 通信インターフェース
122 メモリ
123 プロセッサ
130 通信ネットワーク
Claims (6)
- 話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出するピッチゲイン算出部と、
前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定する発話区間開始検出部と、
前記発話区間におけるピッチゲインの第1の代表値から前記発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ前記第1の閾値より低い第2の閾値を設定する閾値設定部と、
前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となると前記発話区間が終了すると判定する発話区間終了検出部と、
を有する発話区間検出装置。 - 前記閾値設定部は、前記発話区間におけるピッチゲインの最大値を前記第1の代表値として算出する、請求項1に記載の発話区間検出装置。
- 前記発話区間が開始される前の区間におけるピッチゲインの平均値を前記第2の代表値として算出する雑音ピッチゲイン算出部をさらに有する、請求項1または2に記載の発話区間検出装置。
- 前記閾値設定部は、前記発話区間が開始されたと判定されたフレームにおける前記ピッチゲインが大きいほど、前記第2の閾値を高くする、請求項1〜3の何れか一項に記載の発話区間検出装置。
- 話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出し、
前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定し、
前記発話区間におけるピッチゲインの第1の代表値から前記発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ前記第1の閾値より低い第2の閾値を設定し、
前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となると前記発話区間が終了すると判定する、
ことを含む発話区間検出方法。 - 話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出し、
前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定し、
前記発話区間におけるピッチゲインの第1の代表値から前記発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ前記第1の閾値より低い第2の閾値を設定し、
前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となると前記発話区間が終了すると判定する、
ことをコンピュータに実行させるための発話区間検出用コンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017178359A JP6996185B2 (ja) | 2017-09-15 | 2017-09-15 | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム |
US16/124,288 US10446173B2 (en) | 2017-09-15 | 2018-09-07 | Apparatus, method for detecting speech production interval, and non-transitory computer-readable storage medium for storing speech production interval detection computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017178359A JP6996185B2 (ja) | 2017-09-15 | 2017-09-15 | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019053233A true JP2019053233A (ja) | 2019-04-04 |
JP6996185B2 JP6996185B2 (ja) | 2022-01-17 |
Family
ID=65720471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017178359A Active JP6996185B2 (ja) | 2017-09-15 | 2017-09-15 | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10446173B2 (ja) |
JP (1) | JP6996185B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020218597A1 (ja) * | 2019-04-26 | 2020-10-29 | 株式会社Preferred Networks | 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6996185B2 (ja) * | 2017-09-15 | 2022-01-17 | 富士通株式会社 | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム |
JP6904198B2 (ja) * | 2017-09-25 | 2021-07-14 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1333425C (en) * | 1988-09-21 | 1994-12-06 | Kazunori Ozawa | Communication system capable of improving a speech quality by classifying speech signals |
US5960386A (en) * | 1996-05-17 | 1999-09-28 | Janiszewski; Thomas John | Method for adaptively controlling the pitch gain of a vocoder's adaptive codebook |
JP3331297B2 (ja) | 1997-01-23 | 2002-10-07 | 株式会社東芝 | 背景音/音声分類方法及び装置並びに音声符号化方法及び装置 |
US6202046B1 (en) * | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
JPH11133997A (ja) | 1997-11-04 | 1999-05-21 | Matsushita Electric Ind Co Ltd | 有音無音判定装置 |
CA2336360C (en) | 1998-06-30 | 2006-08-01 | Nec Corporation | Speech coder |
US6188981B1 (en) * | 1998-09-18 | 2001-02-13 | Conexant Systems, Inc. | Method and apparatus for detecting voice activity in a speech signal |
US6687668B2 (en) * | 1999-12-31 | 2004-02-03 | C & S Technology Co., Ltd. | Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same |
JP3806344B2 (ja) | 2000-11-30 | 2006-08-09 | 松下電器産業株式会社 | 定常雑音区間検出装置及び定常雑音区間検出方法 |
WO2002045078A1 (en) * | 2000-11-30 | 2002-06-06 | Matsushita Electric Industrial Co., Ltd. | Audio decoder and audio decoding method |
JP4521673B2 (ja) | 2003-06-19 | 2010-08-11 | 株式会社国際電気通信基礎技術研究所 | 発話区間検出装置、コンピュータプログラム及びコンピュータ |
US7571094B2 (en) * | 2005-09-21 | 2009-08-04 | Texas Instruments Incorporated | Circuits, processes, devices and systems for codebook search reduction in speech coders |
JP4911034B2 (ja) | 2005-10-20 | 2012-04-04 | 日本電気株式会社 | 音声判別システム、音声判別方法及び音声判別用プログラム |
US8762150B2 (en) * | 2010-09-16 | 2014-06-24 | Nuance Communications, Inc. | Using codec parameters for endpoint detection in speech recognition |
US9111531B2 (en) * | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
US20150170655A1 (en) * | 2013-12-15 | 2015-06-18 | Qualcomm Incorporated | Systems and methods of blind bandwidth extension |
JP6996185B2 (ja) * | 2017-09-15 | 2022-01-17 | 富士通株式会社 | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム |
-
2017
- 2017-09-15 JP JP2017178359A patent/JP6996185B2/ja active Active
-
2018
- 2018-09-07 US US16/124,288 patent/US10446173B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020218597A1 (ja) * | 2019-04-26 | 2020-10-29 | 株式会社Preferred Networks | 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6996185B2 (ja) | 2022-01-17 |
US20190088272A1 (en) | 2019-03-21 |
US10446173B2 (en) | 2019-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6759898B2 (ja) | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム | |
JP5810946B2 (ja) | 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
JP5708155B2 (ja) | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム | |
JP6268717B2 (ja) | 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム | |
JP6263868B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
US20190180758A1 (en) | Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program | |
US9031841B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JPWO2008114448A1 (ja) | 音声認識システム、音声認識プログラムおよび音声認識方法 | |
JP6176055B2 (ja) | 音声検索装置及び音声検索方法 | |
JP6699748B2 (ja) | 対話装置、対話方法及び対話用コンピュータプログラム | |
KR101836430B1 (ko) | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 | |
JP6996185B2 (ja) | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム | |
JPH08221092A (ja) | スペクトルサブトラクションを用いた雑音除去システム | |
JPH11175082A (ja) | 音声対話装置及び音声対話用音声合成方法 | |
JP2018045127A (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
JP2005070367A (ja) | 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラムおよび音声認識プログラム、記録媒体、並びに電子機器 | |
JP2011154341A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JPWO2011077924A1 (ja) | 音声検出装置、音声検出方法、および音声検出プログラム | |
JP2023553994A (ja) | ホットワード特性に基づいた自動音声認識パラメータの適応 | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
JP2019032400A (ja) | 発話判定プログラム、発話判定方法、及び発話判定装置 | |
JP2015087557A (ja) | 発話様式検出装置および発話様式検出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210709 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6996185 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |