JP5732976B2 - 音声区間判定装置、音声区間判定方法、及びプログラム - Google Patents
音声区間判定装置、音声区間判定方法、及びプログラム Download PDFInfo
- Publication number
- JP5732976B2 JP5732976B2 JP2011078895A JP2011078895A JP5732976B2 JP 5732976 B2 JP5732976 B2 JP 5732976B2 JP 2011078895 A JP2011078895 A JP 2011078895A JP 2011078895 A JP2011078895 A JP 2011078895A JP 5732976 B2 JP5732976 B2 JP 5732976B2
- Authority
- JP
- Japan
- Prior art keywords
- power spectrum
- unit
- spectrum
- power
- input signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000001228 spectrum Methods 0.000 claims description 170
- 230000003595 spectral effect Effects 0.000 claims description 73
- 238000004364 calculation method Methods 0.000 claims description 40
- 206010019133 Hangover Diseases 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 230000008859 change Effects 0.000 description 11
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Description
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、非定常雑音が含まれる信号についてリアルタイムで音声区間を精度よく判定することのできる音声区間判定装置、音声区間判定方法、及びプログラムを提供することにある。
入力信号に音声が含まれているか否かを判定する音声区間判定技術の分野では、信号のパワーに基づいて判定する技術がある。ところが、信号のレベルが変動する場合には、信号のパワーに基づいて音声区間を正しく判定することは困難である。
s’k=sk+αi ・・・数式(3)
まず、本実施形態に係る音声区間判定装置100の機能構成について図3を参照しながら説明する。図3は、本発明の一実施形態に係る音声区間判定装置の機能構成を示すブロック図である。
次に、図4を参照しながら、本実施形態に係る音声区間判定方法の動作の一例について説明する。図4は、音声区間判定方法の流れの一例を示すフローチャートである。
上記において、本実施形態に係る音声区間判定装置100の構成及び動作について説明してきた。ここで既知の入力信号を上記の音声区間判定装置100に入力した場合の作用効果について図5〜図8を参照しながら一例を挙げて説明する。
101 フレーム分割部
102 パワースペクトル算出部
103 パワースペクトル操作部
104 スペクトルエントロピー算出部
105 判定部
106 雑音パワー算出部
Claims (6)
- 入力信号をフレーム単位に分割するフレーム分割部と、
前記フレーム分割部により分割されたフレーム毎に前記入力信号の強度を各周波数均一に増加させるパワー操作部と、
前記パワー操作部により強度が増加された前記入力信号を用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、
前記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定する判定部と、
を備えることを特徴とする、音声区間判定装置。 - 入力信号をフレーム単位に分割するフレーム分割部と、
前記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部と、
前記パワースペクトル算出部により算出されたパワースペクトルの強度を各周波数均一に増加させるパワースペクトル操作部と、
前記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、
前記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定する判定部と、
を備えることを特徴とする、音声区間判定装置。 - 前記判定部により音声区間でないと判定された区間の前記パワースペクトルの平均パワーを算出することにより雑音の平均パワーを算出する雑音パワー算出部、
をさらに備え、
前記パワースペクトル操作部は、前記雑音パワー算出部により算出される雑音の平均パワーに応じて前記パワースペクトルの強度を増加させることを特徴とする、請求項2に記載の音声区間判定装置。 - 前記判定部は、スペクトルエントロピーの値と所定の閾値との大小関係に基づいて、前記入力信号が音声区間であると判定した後、所定長のハングオーバーカウントを開始し、当該ハングオーバーカウントが0となるまでは前記入力信号を音声区間であると判定する、請求項2に記載の音声区間判定装置。
- 入力信号をフレーム単位に分割し、
分割されたフレームについて分析長毎のパワースペクトルを算出し、
算出された前記パワースペクトルの強度を各周波数均一に増加させ、
強度が増加された前記パワースペクトルを用いてスペクトルエントロピーを算出し、
算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定することを特徴とする、音声区間判定方法。 - コンピュータを、
入力信号をフレーム単位に分割するフレーム分割部と、
前記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部と、
前記パワースペクトル算出部により算出されたパワースペクトルの強度を各周波数均一に増加させるパワースペクトル操作部と、
前記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、
前記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定する判定部と、
を備えることを特徴とする、音声区間判定装置として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011078895A JP5732976B2 (ja) | 2011-03-31 | 2011-03-31 | 音声区間判定装置、音声区間判定方法、及びプログラム |
US13/399,905 US9123351B2 (en) | 2011-03-31 | 2012-02-17 | Speech segment determination device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011078895A JP5732976B2 (ja) | 2011-03-31 | 2011-03-31 | 音声区間判定装置、音声区間判定方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012215600A JP2012215600A (ja) | 2012-11-08 |
JP5732976B2 true JP5732976B2 (ja) | 2015-06-10 |
Family
ID=46928422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011078895A Expired - Fee Related JP5732976B2 (ja) | 2011-03-31 | 2011-03-31 | 音声区間判定装置、音声区間判定方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9123351B2 (ja) |
JP (1) | JP5732976B2 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9047878B2 (en) * | 2010-11-24 | 2015-06-02 | JVC Kenwood Corporation | Speech determination apparatus and speech determination method |
CN104217723B (zh) * | 2013-05-30 | 2016-11-09 | 华为技术有限公司 | 信号编码方法及设备 |
WO2016092837A1 (ja) * | 2014-12-10 | 2016-06-16 | 日本電気株式会社 | 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体 |
CN107211058B (zh) | 2015-02-03 | 2020-06-16 | 杜比实验室特许公司 | 基于会话动态的会议分段 |
KR102448391B1 (ko) * | 2015-03-11 | 2022-09-28 | 프레코르디오르 오와이 | 심장 기능부전을 나타내는 정보를 생성하는 방법 및 장치 |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
JP6903884B2 (ja) | 2016-09-15 | 2021-07-14 | 沖電気工業株式会社 | 信号処理装置、プログラム及び方法、並びに、通話装置 |
GB2554943A (en) * | 2016-10-16 | 2018-04-18 | Sentimoto Ltd | Voice activity detection method and apparatus |
CN107331386B (zh) * | 2017-06-26 | 2020-07-21 | 上海智臻智能网络科技股份有限公司 | 音频信号的端点检测方法、装置、处理系统及计算机设备 |
US10431242B1 (en) * | 2017-11-02 | 2019-10-01 | Gopro, Inc. | Systems and methods for identifying speech based on spectral features |
CN107731223B (zh) * | 2017-11-22 | 2022-07-26 | 腾讯科技(深圳)有限公司 | 语音活性检测方法、相关装置和设备 |
CN108122552B (zh) * | 2017-12-15 | 2021-10-15 | 上海智臻智能网络科技股份有限公司 | 语音情绪识别方法和装置 |
CN108364637B (zh) * | 2018-02-01 | 2021-07-13 | 福州大学 | 一种音频句子边界检测方法 |
CN109087632B (zh) * | 2018-08-17 | 2023-06-06 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
CN112955951A (zh) * | 2018-11-15 | 2021-06-11 | 深圳市欢太科技有限公司 | 语音端点检测方法、装置、存储介质及电子设备 |
CN110047519B (zh) * | 2019-04-16 | 2021-08-24 | 广州大学 | 一种语音端点检测方法、装置及设备 |
JP7243983B2 (ja) * | 2019-05-21 | 2023-03-22 | 学校法人桐蔭学園 | 非接触音響解析システム |
WO2020251074A1 (ko) * | 2019-06-12 | 2020-12-17 | 엘지전자 주식회사 | 음성 인식 기능을 제공하는 인공 지능 로봇 및 그의 동작 방법 |
US11783810B2 (en) * | 2019-07-19 | 2023-10-10 | The Boeing Company | Voice activity detection and dialogue recognition for air traffic control |
CA3176352A1 (en) * | 2020-04-21 | 2021-10-28 | Cary Chu | Systems and methods for improved accuracy of bullying or altercation detection or identification of excessive machine noise |
DE102020207503A1 (de) | 2020-06-17 | 2021-12-23 | Robert Bosch Gesellschaft mit beschränkter Haftung | Detektieren von sprachaktivität in echtzeit in audiosignalen |
CN112185390B (zh) * | 2020-09-27 | 2023-10-03 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 机上信息辅助方法及装置 |
CN112102851B (zh) * | 2020-11-17 | 2021-04-13 | 深圳壹账通智能科技有限公司 | 语音端点检测方法、装置、设备及计算机可读存储介质 |
CN114385977B (zh) * | 2021-12-13 | 2024-05-28 | 广州方硅信息技术有限公司 | 信号的有效频率检测方法、终端设备及存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2989219B2 (ja) * | 1990-05-18 | 1999-12-13 | 株式会社リコー | 音声区間検出方式 |
US5633936A (en) | 1995-01-09 | 1997-05-27 | Texas Instruments Incorporated | Method and apparatus for detecting a near-end speech signal |
AU2001294989A1 (en) * | 2000-10-04 | 2002-04-15 | Clarity, L.L.C. | Speech detection |
US7478043B1 (en) * | 2002-06-05 | 2009-01-13 | Verizon Corporate Services Group, Inc. | Estimation of speech spectral parameters in the presence of noise |
US7146315B2 (en) * | 2002-08-30 | 2006-12-05 | Siemens Corporate Research, Inc. | Multichannel voice detection in adverse environments |
US7660713B2 (en) * | 2003-10-23 | 2010-02-09 | Microsoft Corporation | Systems and methods that detect a desired signal via a linear discriminative classifier that utilizes an estimated posterior signal-to-noise ratio (SNR) |
WO2008090564A2 (en) * | 2007-01-24 | 2008-07-31 | P.E.S Institute Of Technology | Speech activity detection |
GB0703275D0 (en) * | 2007-02-20 | 2007-03-28 | Skype Ltd | Method of estimating noise levels in a communication system |
JP4871191B2 (ja) * | 2007-04-09 | 2012-02-08 | 日本電信電話株式会社 | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 |
KR100930060B1 (ko) * | 2008-01-09 | 2009-12-08 | 성균관대학교산학협력단 | 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체 |
JP4950930B2 (ja) * | 2008-04-03 | 2012-06-13 | 株式会社東芝 | 音声/非音声を判定する装置、方法およびプログラム |
JP5147012B2 (ja) * | 2008-08-22 | 2013-02-20 | 日本電信電話株式会社 | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 |
US8412525B2 (en) * | 2009-04-30 | 2013-04-02 | Microsoft Corporation | Noise robust speech classifier ensemble |
-
2011
- 2011-03-31 JP JP2011078895A patent/JP5732976B2/ja not_active Expired - Fee Related
-
2012
- 2012-02-17 US US13/399,905 patent/US9123351B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US9123351B2 (en) | 2015-09-01 |
US20120253813A1 (en) | 2012-10-04 |
JP2012215600A (ja) | 2012-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5732976B2 (ja) | 音声区間判定装置、音声区間判定方法、及びプログラム | |
US11670325B2 (en) | Voice activity detection using a soft decision mechanism | |
US9536547B2 (en) | Speaker change detection device and speaker change detection method | |
US20130282369A1 (en) | Systems and methods for audio signal processing | |
US10867620B2 (en) | Sibilance detection and mitigation | |
JP2008534989A (ja) | 音声アクティビティ検出装置および方法 | |
JP6493889B2 (ja) | 音声信号を検出するための方法および装置 | |
US20160365088A1 (en) | Voice command response accuracy | |
CN104867497A (zh) | 一种语音降噪方法 | |
JPWO2013132926A1 (ja) | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 | |
CN116490920A (zh) | 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质 | |
JP2018534618A (ja) | ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置 | |
Tian et al. | An investigation of spoofing speech detection under additive noise and reverberant conditions | |
TW201633293A (zh) | 聲頻訊號的雜訊偵測方法與裝置 | |
JP2015169827A (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
Tian et al. | Spoofing detection under noisy conditions: a preliminary investigation and an initial database | |
JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
KR20070061216A (ko) | Gmm을 이용한 음질향상 시스템 | |
JP6672478B2 (ja) | 生体音解析方法、プログラム、記憶媒体及び生体音解析装置 | |
Darabian et al. | Improving the performance of MFCC for Persian robust speech recognition | |
CN115862685B (zh) | 一种实时语音活动的检测方法、装置和电子设备 | |
KR20200026587A (ko) | 음성 구간을 검출하는 방법 및 장치 | |
JP2015031913A (ja) | 音声処理装置、音声処理方法、及びプログラム | |
WO2018129854A1 (zh) | 一种语音处理方法及装置 | |
CN113470621B (zh) | 语音检测方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140819 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141014 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150317 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150330 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5732976 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |