JP2007114413A - 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム - Google Patents
音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム Download PDFInfo
- Publication number
- JP2007114413A JP2007114413A JP2005304770A JP2005304770A JP2007114413A JP 2007114413 A JP2007114413 A JP 2007114413A JP 2005304770 A JP2005304770 A JP 2005304770A JP 2005304770 A JP2005304770 A JP 2005304770A JP 2007114413 A JP2007114413 A JP 2007114413A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- feature
- discrimination
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims description 60
- 238000012850 discrimination method Methods 0.000 title claims description 5
- 239000013598 vector Substances 0.000 claims abstract description 124
- 230000009466 transformation Effects 0.000 claims abstract description 97
- 239000011159 matrix material Substances 0.000 claims abstract description 65
- 230000001131 transforming effect Effects 0.000 claims abstract description 7
- 238000006243 chemical reaction Methods 0.000 claims description 69
- 238000000605 extraction Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000003068 static effect Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 abstract description 4
- 238000012549 training Methods 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000000513 principal component analysis Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】既知の学習サンプルに基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段120と、学習サンプルに基づいて算出された、音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段122と、音響信号をフレーム単位に分割するフレーム分割手段102と、複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出手段104と、特徴ベクトルを特徴変換パラメータを利用して線形変換を行う特徴変換手段106と、線形変換された後の特徴ベクトルと音声非音声モデルのパラメータにより定まる音声非音声モデルとの照合結果に基づいて、複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別手段110とを備えた。
【選択図】 図1
Description
図1は、実施の形態1にかかる音声区間検出装置10の機能構成を示すブロック図である。音声区間検出装置10は、AD変換部100と、フレーム分割部102と、特徴抽出部104と、特徴変換部106と、モデル照合部108と、音声非音声判別部110と、音声区間検出部112と、特徴変換パラメータ保持部120と、音声非音声判別パラメータ保持部122とを備えている。
図5は、実施の形態2にかかる音声区間検出装置10の機能構成を示すブロック図である。実施の形態2にかかる音声区間検出装置10は、損失計算部130と、パラメータ更新部132とを備えている。
51 CPU
52 ROM
53 RAM
57 通信I/F
62 バス
100 AD変換部
102 フレーム分割部
104 特徴抽出部
106 特徴変換部
108 モデル照合部
110 音声非音声判別部
112 音声区間検出部
120 特徴変換パラメータ保持部
122 音声非音声判別パラメータ保持部
130 損失計算部
132 パラメータ更新部
Claims (17)
- 予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段と、
前記学習サンプルの前記音声非音声尤度に基づいて算出された、音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段と、
音響信号を取得する音響信号取得手段と、
前記音響信号取得手段が取得した前記音響信号をフレーム単位に分割するフレーム分割手段と、
前記フレーム分割手段により得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出手段と、
前記特徴ベクトル抽出手段により抽出された前記特徴ベクトルを前記特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換手段と、
前記特徴変換手段により線形変換された後の前記特徴ベクトルと前記音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別手段と
を備えたことを特徴とする音声非音声判別装置。 - 前記特徴変換手段により線形変換された後の前記特徴ベクトルを、前記音声非音声判別パラメータ保持手段が保持する前記音声非音声モデルのパラメータにより定まる前記音声非音声モデルと照合する照合手段をさらに備え、
前記音声非音声判別手段は、前記照合手段による照合結果と、予め定められた閾値とを比較することにより、前記複数フレームに含まれる所定のフレームが音声フレームであるか非音声フレームであるかを判別することを特徴とする請求項1に記載の音声非音声判別装置。 - 前記学習サンプルの前記音声非音声尤度を算出する音声非音声尤度算出手段と、
前記音声非音声尤度算出手段により算出された前記音声非音声尤度に基づいて、前記変換行列のパラメータを算出する特徴変換パラメータ算出手段と
をさらに備え、
前記特徴変換パラメータ保持手段は、前記特徴変換パラメータ算出手段により算出された前記変換行列のパラメータを保持することを特徴とする請求項2に記載の音声非音声判別装置。 - 前記特徴変換パラメータ算出手段は、前記学習サンプルに対し算出された前記音声非音声尤度と、当該学習サンプルに対し設定されている前記音声非音声尤度との差がより小さくなるような前記変換行列のパラメータを算出することを特徴とする請求項3に記載の音声非音声判別装置。
- 学習モードと音声非音声判別モードとを有し、
前記特徴変換パラメータ算出手段は、前記学習モードに設定されているときに前記変換行列のパラメータを算出することを特徴とする請求項3または4に記載の音声非音声判別装置。 - 前記音声非音声判別手段は、前記音声非音声判別モードに設定されているときに、前記入力フレームが前記音声フレームであるか前記非音声フレームであるかを判別することを特徴とする請求項5に記載の音声非音声判別装置。
- 前記学習サンプルの前記音声非音声尤度を算出する音声非音声尤度算出手段と、
前記音声非音声尤度算出手段により算出された前記音声非音声尤度に基づいて、前記音声モデルおよび前記非音声モデルそれぞれのパラメータを算出する音声非音声判別パラメータ算出手段と
をさらに備え、
前記音声非音声判別パラメータ保持手段は、前記音声非音声判別パラメータ算出手段により算出された前記音声モデルおよび前記非音声モデルそれぞれのパラメータを保持することを特徴とする請求項2に記載の音声非音声判別装置。 - 前記音声非音声判別パラメータ算出手段は、前記学習サンプルに対し算出された前記音声非音声尤度と、当該学習サンプルに対し設定されている前記音声非音声尤度との差がより小さくなるような前記音声モデルおよび前記非音声モデルのパラメータを算出することを特徴とする請求項7に記載の音声非音声判別装置。
- 学習モードと音声非音声判別モードとを有し、
前記音声非音声判別パラメータ算出手段は、前記学習モードに設定されているときに前記変換行列のパラメータを算出することを特徴とする請求項7または8に記載の音声非音声判別装置。 - 前記特徴変換手段は、前記特徴抽出手段により抽出された前記特徴ベクトルをより低次元の前記特徴ベクトルに線形変換することを特徴とする請求項1から9のいずれか一項に記載の音声非音声判別装置。
- 前記特徴抽出手段は、前記音響信号のスペクトルの静的特徴量と動的特徴量とを結合したn次元の前記特徴ベクトルを抽出することを特徴とする請求項1から10のいずれか一項に記載の音声非音声判別装置。
- 前記特徴抽出手段は、複数フレームそれぞれの前記音響信号のスペクトル特徴量を結合したn次元の前記特徴ベクトルを抽出することを特徴とする請求項1から11のいずれか一項に記載の音声非音声判別装置。
- 予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段と、
前記学習サンプルの前記音声非音声尤度に基づいて算出された、音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段と、
音響信号を取得する音響信号取得手段と、
前記音響信号取得手段が取得した前記音響信号をフレーム単位に分割するフレーム分割手段と、
前記フレーム分割手段により得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出手段と、
前記特徴ベクトル抽出手段により抽出された前記特徴ベクトルを前記特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換手段と、
前記特徴変換手段により線形変換された後の前記特徴ベクトルと前記音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別手段と、
前記音声非音声判別手段による判別結果に基づいて、音声区間を検出する音声区間検出手段と
を備えたことを特徴とする音声区間検出装置。 - 音響信号を取得する音響信号取得ステップと、
前記音響信号取得ステップにおいて取得した前記音響信号をフレーム単位に分割するフレーム分割ステップと、
前記フレーム分割ステップにおいて得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにおいて抽出された前記特徴ベクトルを、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換ステップと、
前記特徴変換ステップにおいて線形変換された後の前記特徴ベクトルと、前記学習サンプルの前記音声非音声尤度に基づいて算出された音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別ステップと
を有することを特徴とする音声非音声判別方法。 - 音響信号を取得する音響信号取得ステップと、
前記音響信号取得ステップにおいて取得した前記音響信号をフレーム単位に分割するフレーム分割ステップと、
前記フレーム分割ステップにおいて得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにおいて抽出された前記特徴ベクトルを、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換ステップと、
前記特徴変換ステップにおいて線形変換された後の前記特徴ベクトルと、前記学習サンプルの前記音声非音声尤度に基づいて算出された音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別ステップと、
前記音声非音声判別ステップにおける判別結果に基づいて、音声区間を検出する音声区間検出ステップと
を有することを特徴とする音声区間検出方法。 - 音声非音声判別処理をコンピュータに実行させる音声非音声判別プログラムであって、
音響信号を取得する音響信号取得ステップと、
前記音響信号取得ステップにおいて取得した前記音響信号をフレーム単位に分割するフレーム分割ステップと、
前記フレーム分割ステップにおいて得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにおいて抽出された前記特徴ベクトルを、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換ステップと、
前記特徴変換ステップにおいて線形変換された後の前記特徴ベクトルと、前記学習サンプルの前記音声非音声尤度に基づいて算出された音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別ステップと
を有することを特徴とする音声非音声判別プログラム。 - 音声区間検出処理をコンピュータに実行させる音声区間検出プログラムであって、
音響信号を取得する音響信号取得ステップと、
前記音響信号取得ステップにおいて取得した前記音響信号をフレーム単位に分割するフレーム分割ステップと、
前記フレーム分割ステップにおいて得られた複数フレームの音響信号から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにおいて抽出された前記特徴ベクトルを、予め設定されている既知の学習サンプルに対して算出された実際の音声非音声尤度に基づいて算出された変換行列のパラメータを保持する特徴変換パラメータ保持手段が保持している前記変換行列を利用して線形変換を行う特徴変換ステップと、
前記特徴変換ステップにおいて線形変換された後の前記特徴ベクトルと、前記学習サンプルの前記音声非音声尤度に基づいて算出された音声非音声モデルのパラメータを保持する音声非音声判別パラメータ保持手段が保持する前記パラメータにより定まる前記音声非音声モデルとの照合結果に基づいて、前記複数フレームに含まれる所定の入力フレームが音声フレームであるか非音声フレームであるかを判別する音声非音声判別ステップと、
前記音声非音声判別ステップにおける判別結果に基づいて、音声区間を検出する音声区間検出ステップと
を有することを特徴とする音声区間検出プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005304770A JP2007114413A (ja) | 2005-10-19 | 2005-10-19 | 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム |
US11/582,547 US20070088548A1 (en) | 2005-10-19 | 2006-10-18 | Device, method, and computer program product for determining speech/non-speech |
CNA2006101447605A CN1953050A (zh) | 2005-10-19 | 2006-10-19 | 用于确定语音/非语音的装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005304770A JP2007114413A (ja) | 2005-10-19 | 2005-10-19 | 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007114413A true JP2007114413A (ja) | 2007-05-10 |
Family
ID=37949207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005304770A Pending JP2007114413A (ja) | 2005-10-19 | 2005-10-19 | 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20070088548A1 (ja) |
JP (1) | JP2007114413A (ja) |
CN (1) | CN1953050A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009210617A (ja) * | 2008-02-29 | 2009-09-17 | Internatl Business Mach Corp <Ibm> | 発話区間検出システム、方法及びプログラム |
JP2012063726A (ja) * | 2010-09-17 | 2012-03-29 | Toshiba Corp | 音質補正装置及び音声補正方法 |
KR20190019464A (ko) * | 2017-08-17 | 2019-02-27 | 국방과학연구소 | 소리 데이터 분류 장치 및 방법 |
WO2021107333A1 (ko) * | 2019-11-25 | 2021-06-03 | 광주과학기술원 | 딥러닝 기반 감지상황에서의 음향 사건 탐지 방법 |
WO2022137439A1 (ja) * | 2020-12-24 | 2022-06-30 | 日本電気株式会社 | 情報処理システム、情報処理方法、及びコンピュータプログラム |
WO2022157973A1 (ja) * | 2021-01-25 | 2022-07-28 | 日本電気株式会社 | 情報処理システム、情報処理方法、及びコンピュータプログラム |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4282704B2 (ja) * | 2006-09-27 | 2009-06-24 | 株式会社東芝 | 音声区間検出装置およびプログラム |
CN101083627B (zh) * | 2007-07-30 | 2010-09-15 | 华为技术有限公司 | 检测数据属性的方法及系统、数据属性分析装置 |
WO2009041402A1 (ja) | 2007-09-25 | 2009-04-02 | Nec Corporation | 周波数軸伸縮係数推定装置とシステム方法並びにプログラム |
US8046221B2 (en) * | 2007-10-31 | 2011-10-25 | At&T Intellectual Property Ii, L.P. | Multi-state barge-in models for spoken dialog systems |
JP4950930B2 (ja) * | 2008-04-03 | 2012-06-13 | 株式会社東芝 | 音声/非音声を判定する装置、方法およびプログラム |
WO2010019831A1 (en) * | 2008-08-14 | 2010-02-18 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
US8831947B2 (en) * | 2010-11-07 | 2014-09-09 | Nice Systems Ltd. | Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice |
CN102148030A (zh) * | 2011-03-23 | 2011-08-10 | 同济大学 | 一种语音识别的端点检测方法 |
US20130317821A1 (en) * | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Sparse signal detection with mismatched models |
CN103903629B (zh) * | 2012-12-28 | 2017-02-15 | 联芯科技有限公司 | 基于隐马尔科夫链模型的噪声估计方法和装置 |
KR101619260B1 (ko) * | 2014-11-10 | 2016-05-10 | 현대자동차 주식회사 | 차량 내 음성인식 장치 및 방법 |
CN110895929B (zh) * | 2015-01-30 | 2022-08-12 | 展讯通信(上海)有限公司 | 语音识别方法及装置 |
CN105496447B (zh) * | 2016-01-15 | 2019-02-05 | 厦门大学 | 具有主动降噪和辅助诊断功能的电子听诊器 |
CN108428448A (zh) * | 2017-02-13 | 2018-08-21 | 芋头科技(杭州)有限公司 | 一种语音端点检测方法及语音识别方法 |
CN111862985B (zh) * | 2019-05-17 | 2024-05-31 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别装置、方法、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0416999A (ja) * | 1990-05-11 | 1992-01-21 | Seiko Epson Corp | 音声認識装置 |
JPH0458297A (ja) * | 1990-06-27 | 1992-02-25 | Toshiba Corp | 有音検出装置および有音検出方法 |
JPH08106295A (ja) * | 1994-10-05 | 1996-04-23 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | パターン認識方法及び装置 |
JPH09245125A (ja) * | 1996-03-06 | 1997-09-19 | Toshiba Corp | パターン認識装置及び同装置における辞書修正方法 |
JPH10254476A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声区間検出方法 |
JP2000081893A (ja) * | 1998-09-04 | 2000-03-21 | Matsushita Electric Ind Co Ltd | 話者適応化または話者正規化方法 |
JP2003303000A (ja) * | 2002-03-15 | 2003-10-24 | Matsushita Electric Ind Co Ltd | 特殊領域におけるチャンネル雑音および加法性雑音の合同補償に関する方法および装置 |
JP2004192603A (ja) * | 2002-07-16 | 2004-07-08 | Nec Corp | パターン特徴抽出方法及びその装置 |
JP2004272201A (ja) * | 2002-09-27 | 2004-09-30 | Matsushita Electric Ind Co Ltd | 音声端点を検出する方法および装置 |
JP2004325979A (ja) * | 2003-04-28 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2040025A1 (en) * | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
JP3716870B2 (ja) * | 1995-05-31 | 2005-11-16 | ソニー株式会社 | 音声認識装置および音声認識方法 |
US20020138254A1 (en) * | 1997-07-18 | 2002-09-26 | Takehiko Isaka | Method and apparatus for processing speech signals |
US6327565B1 (en) * | 1998-04-30 | 2001-12-04 | Matsushita Electric Industrial Co., Ltd. | Speaker and environment adaptation based on eigenvoices |
US6529872B1 (en) * | 2000-04-18 | 2003-03-04 | Matsushita Electric Industrial Co., Ltd. | Method for noise adaptation in automatic speech recognition using transformed matrices |
US6563309B2 (en) * | 2001-09-28 | 2003-05-13 | The Boeing Company | Use of eddy current to non-destructively measure crack depth |
US7567900B2 (en) * | 2003-06-11 | 2009-07-28 | Panasonic Corporation | Harmonic structure based acoustic speech interval detection method and device |
-
2005
- 2005-10-19 JP JP2005304770A patent/JP2007114413A/ja active Pending
-
2006
- 2006-10-18 US US11/582,547 patent/US20070088548A1/en not_active Abandoned
- 2006-10-19 CN CNA2006101447605A patent/CN1953050A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0416999A (ja) * | 1990-05-11 | 1992-01-21 | Seiko Epson Corp | 音声認識装置 |
JPH0458297A (ja) * | 1990-06-27 | 1992-02-25 | Toshiba Corp | 有音検出装置および有音検出方法 |
JPH08106295A (ja) * | 1994-10-05 | 1996-04-23 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | パターン認識方法及び装置 |
JPH09245125A (ja) * | 1996-03-06 | 1997-09-19 | Toshiba Corp | パターン認識装置及び同装置における辞書修正方法 |
JPH10254476A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声区間検出方法 |
JP2000081893A (ja) * | 1998-09-04 | 2000-03-21 | Matsushita Electric Ind Co Ltd | 話者適応化または話者正規化方法 |
JP2003303000A (ja) * | 2002-03-15 | 2003-10-24 | Matsushita Electric Ind Co Ltd | 特殊領域におけるチャンネル雑音および加法性雑音の合同補償に関する方法および装置 |
JP2004192603A (ja) * | 2002-07-16 | 2004-07-08 | Nec Corp | パターン特徴抽出方法及びその装置 |
JP2004272201A (ja) * | 2002-09-27 | 2004-09-30 | Matsushita Electric Ind Co Ltd | 音声端点を検出する方法および装置 |
JP2004325979A (ja) * | 2003-04-28 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009210617A (ja) * | 2008-02-29 | 2009-09-17 | Internatl Business Mach Corp <Ibm> | 発話区間検出システム、方法及びプログラム |
JP2012063726A (ja) * | 2010-09-17 | 2012-03-29 | Toshiba Corp | 音質補正装置及び音声補正方法 |
KR20190019464A (ko) * | 2017-08-17 | 2019-02-27 | 국방과학연구소 | 소리 데이터 분류 장치 및 방법 |
KR101957993B1 (ko) * | 2017-08-17 | 2019-03-14 | 국방과학연구소 | 소리 데이터 분류 장치 및 방법 |
WO2021107333A1 (ko) * | 2019-11-25 | 2021-06-03 | 광주과학기술원 | 딥러닝 기반 감지상황에서의 음향 사건 탐지 방법 |
WO2022137439A1 (ja) * | 2020-12-24 | 2022-06-30 | 日本電気株式会社 | 情報処理システム、情報処理方法、及びコンピュータプログラム |
WO2022157973A1 (ja) * | 2021-01-25 | 2022-07-28 | 日本電気株式会社 | 情報処理システム、情報処理方法、及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20070088548A1 (en) | 2007-04-19 |
CN1953050A (zh) | 2007-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007114413A (ja) | 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム | |
US9875743B2 (en) | Acoustic signature building for a speaker from multiple sessions | |
JP4355322B2 (ja) | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 | |
US9460722B2 (en) | Blind diarization of recorded calls with arbitrary number of speakers | |
EP2048656B1 (en) | Speaker recognition | |
JP2006079079A (ja) | 分散音声認識システム及びその方法 | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
EP1005019B1 (en) | Segment-based similarity measurement method for speech recognition | |
JP4717872B2 (ja) | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 | |
KR20110010233A (ko) | 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템 | |
JP3004023B2 (ja) | 音声認識装置 | |
CN110415707B (zh) | 一种基于语音特征融合和gmm的说话人识别方法 | |
US6823304B2 (en) | Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant | |
KR101925252B1 (ko) | 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치 | |
KR100429896B1 (ko) | 잡음 환경에서의 음성신호 검출방법 및 그 장치 | |
Abushariah et al. | Voice based automatic person identification system using vector quantization | |
JP3493849B2 (ja) | 音声認識装置 | |
EP1189202A1 (en) | Duration models for speech recognition | |
EP1063634A2 (en) | System for recognizing utterances alternately spoken by plural speakers with an improved recognition accuracy | |
Ning | Developing an isolated word recognition system in MATLAB | |
JP3704080B2 (ja) | 音声認識方法及び音声認識装置並びに音声認識プログラム | |
JPH0736477A (ja) | パターンマッチング方式 | |
JPH0997095A (ja) | 音声認識装置 | |
JPH05249987A (ja) | 音声検出方法および音声検出装置 | |
Djeghader et al. | Hybridization process for text-independent speaker identification based on vector quantization model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100518 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100713 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100810 |