JP5229219B2 - 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム - Google Patents
話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム Download PDFInfo
- Publication number
- JP5229219B2 JP5229219B2 JP2009506262A JP2009506262A JP5229219B2 JP 5229219 B2 JP5229219 B2 JP 5229219B2 JP 2009506262 A JP2009506262 A JP 2009506262A JP 2009506262 A JP2009506262 A JP 2009506262A JP 5229219 B2 JP5229219 B2 JP 5229219B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- likelihood
- time
- selection
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006978 adaptation Effects 0.000 title claims description 44
- 238000010187 selection method Methods 0.000 title claims description 11
- 238000004364 calculation method Methods 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 16
- 230000010354 integration Effects 0.000 claims description 15
- 230000005236 sound signal Effects 0.000 claims description 15
- 230000002123 temporal effect Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 description 46
- 230000007704 transition Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 10
- 239000000203 mixture Substances 0.000 description 10
- 230000008859 change Effects 0.000 description 8
- 238000009826 distribution Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 3
- 241000287463 Phalacrocorax Species 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
2 データ処理装置
3 記憶装置
21 音響特徴量算出手段
22 話者スコア算出手段
23 長時間話者選択手段
24 短時間話者選択手段
25 適応モデル作成手段
26 十分統計量統合手段
27 短時間話者統合手段
31 話者モデル記憶部
32 十分統計量記憶部
33 発話依存関係記憶部
Claims (21)
- 複数の話者モデルを記憶する話者モデル記憶手段と、
入力された音声信号から所定時間フレームごとの特徴量を算出する音響特徴量算出手段と、
所定時間フレームごとに前記音響特徴量算出手段で順次算出される前記特徴量に対して、前記話者モデル記憶手段に記憶されている複数の話者モデルのそれぞれのゆう度を一定または不定のサイクルで順次算出する話者スコア算出手段と、を備えた話者選択装置であって、
前記話者スコア算出手段は、
相対的に異なる2つの時間長の前記音声信号に基づく第1ゆう度と第2ゆう度とを算出し、
前記第1ゆう度が高い所定数の話者モデルに対応する話者を選択する選択処理を実行する第1選択手段と、
前記第1選択手段が選択した話者を、前記所定数よりも少ない数の前記第2ゆう度が高い話者モデルに絞り込む絞り込み処理を実行する第2選択手段と、を備え、
前記第2選択手段が絞り込んだ話者に対応する情報を出力し、
前記第1ゆう度および前記第2ゆう度のそれぞれの更新に応じて、前記第1選択手段および前記第2選択手段は前記選択処理および前記絞り込み処理をそれぞれ繰り返し実行する
ことを特徴とする話者選択装置。 - 請求項1記載の話者選択装置において、
前記話者スコア算出手段は、相対的に長時間の音声信号にもとづく長時間ゆう度を前記第1ゆう度として算出し、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第2ゆう度として算出し、
前記第1選択手段は、前記長時間ゆう度が高い所定数の話者モデルに対応する話者を選択する長時間話者選択手段であり、
前記第2選択手段は、前記所定数よりも少ない数の前記短時間ゆう度が高い話者モデルに対応する話者を選択する短時間話者選択手段である
ことを特徴とする話者選択装置。 - 請求項1記載の話者選択装置において、
前記話者スコア算出手段は、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第1ゆう度として算出し、相対的に長時間の音声信号にもとづく長時間ゆう度を第2ゆう度として算出し、
前記第1選択手段は、前記短時間ゆう度が高い所定数の話者モデルに対応する話者を選択する短時間話者選択手段であり、
前記第2選択手段は、前記所定数よりも少ない数の前記長時間ゆう度が高い話者モデルに対応する話者を選択する長時間話者選択手段である
ことを特徴とする話者選択装置。 - 請求項2または請求項3に記載の話者選択装置において、
前記長時間話者選択手段は、前記話者スコア算出手段が算出したゆう度と、あらかじめ定められたゆう度に関する第1の閾値と、を用いて話者を選択し、
前記短時間話者選択手段は、前記話者スコア算出手段が算出したゆう度と、あらかじめ定められたゆう度に関する閾値であって前記第1の閾値と同じ値または異なる値である第2の閾値と、を用いて話者を選択する
ことを特徴とする話者選択装置。 - 請求項2または請求項3に記載の話者選択装置において、
発話間の時間的な依存関係を示すデータを記憶する発話依存関係記憶手段を備え、
前記話者スコア算出手段は、前記発話依存関係記憶手段に記憶されているデータを反映させてゆう度を算出する
ことを特徴とする話者選択装置。 - 請求項1から請求項5のうちのいずれかに記載された話者選択装置と、
前記話者選択装置が選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成手段と、を備えた
ことを特徴とする話者適応モデル作成装置。 - 請求項2から請求項5のうちのいずれかに記載された話者選択装置と、
前記長時間話者選択手段が選択した複数の話者のそれぞれに対応する十分統計量から統計処理計算によって長時間話者に関する1つの十分統計量を作成する手段と、
前記短時間話者選択手段が選択した複数の話者のそれぞれに対応する十分統計量から統計処理計算によって短時間話者に関する1つの十分統計量を作成する手段と、
前記各手段が計算した十分統計量を統計処理計算によって統合して話者適応モデルを作成する適応モデル作成手段と、を備えた
ことを特徴とする話者適応モデル作成装置。 - 請求項2から請求項5のうちのいずれかに記載された話者選択装置と、
前記短時間話者選択手段が選択した話者の出現頻度を計算する短時間話者統合手段と、
前記話者の出現頻度にもとづいて十分統計量を重み付け統合して1つの話者適応モデルを作成する適応モデル作成手段と、を備えた
ことを特徴とする話者適応モデル作成装置。 - あらかじめ複数の話者モデルを記憶し、
入力された音声信号から所定時間フレームごとの特徴量を算出し、
所定時間フレームごとに順次算出される前記特徴量に対して、記憶されている複数の話者モデルのそれぞれについて相対的に異なる2つの時間長の前記音声信号に基づく第1ゆう度と第2ゆう度とを一定または不定のサイクルで順次算出し、
前記第1ゆう度が高い所定数の話者モデルに対応する話者を選択する選択処理を実行し、
前記第1ゆう度が高い所定数の話者モデルに対応する話者として選択された話者を、前記所定数よりも少ない数の前記第2ゆう度が高い話者モデルに絞り込む絞り込み処理を実行し、
この絞り込みで絞り込まれた話者に対応する情報を出力し、
前記選択処理および前記絞り込み処理を前記第1ゆう度および前記第2ゆう度の更新に応じてそれぞれ繰り返し実行する
ことを特徴とする話者選択方法。 - 請求項9に記載の話者選択方法において、
前記第1ゆう度および前記第2ゆう度を算出する際には、相対的に長時間の音声信号にもとづく長時間ゆう度を前記第1ゆう度として算出し、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第2ゆう度として算出し、
前記第1ゆう度が高い所定数の話者モデルに対応する話者を選択する際には、前記長時間ゆう度が高い所定数の話者モデルに対応する話者を選択し、
前記第2ゆう度が高い話者モデルに絞り込む際には、前記所定数よりも少ない数の前記短時間ゆう度が高い話者モデルに対応する話者を選択する
ことを特徴とする話者選択方法。 - 請求項9に記載の話者選択方法において、
前記第1ゆう度および前記第2ゆう度を算出する際には、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第1ゆう度として算出し、相対的に長時間の音声信号にもとづく長時間ゆう度を前記第2ゆう度として算出し、
前記第1ゆう度が高い所定数の話者モデルに対応する話者を選択する際には、前記短時間ゆう度が高い所定数の話者モデルに対応する話者を選択し、
前記第2ゆう度が高い話者モデルに絞り込む際には、前記所定数よりも少ない数の前記長時間ゆう度が高い話者モデルに対応する話者を選択する
ことを特徴とする話者選択方法。 - 請求項10または請求項11に記載の話者選択方法において、
前記長時間ゆう度が高い話者モデルに対応する話者を選択する際には、前記第1ゆう度および前記第2ゆう度を算出する際に算出したゆう度と、あらかじめ定められたゆう度に関する第1の閾値と、を用いて話者を選択し、
前記短時間ゆう度が高い所定数の話者モデルに対応する話者を選択する際には、前記第1ゆう度および前記第2ゆう度を算出する際に算出したゆう度と、あらかじめ定められたゆう度に関する閾値であって前記第1の閾値と同じ値または異なる値である第2の閾値と、を用いて話者を選択する
ことを特徴とする話者選択方法。 - 請求項10または請求項11に記載の話者選択方法において、
発話間の時間的な依存関係を示すデータをあらかじめ記憶し、
前記第1ゆう度および前記第2ゆう度を算出する際に、記憶されている発話間の時間的な依存関係を示すデータを反映させてゆう度を算出する
ことを特徴とする話者選択方法。 - コンピュータを、
複数の話者モデルを記憶する話者モデル記憶手段と、
入力された音声信号から所定時間フレームごとの特徴量を算出する音響特徴量算出手段と、
所定時間フレームごとに前記音響特徴量算出手段で順次算出される前記特徴量に対して、前記話者モデル記憶手段に記憶されている複数の話者モデルのそれぞれのゆう度を一定または不定のサイクルで順次算出する話者スコア算出手段と、して機能させる話者選択用プログラムであって、
前記話者スコア算出手段は、
相対的に異なる2つの時間長の前記音声信号に基づく第1ゆう度と第2ゆう度とを算出し、
前記第1ゆう度が高い所定数の話者モデルに対応する話者を選択する選択処理を実行する第1選択手段と、
前記第1選択手段で選択した話者を、前記所定数よりも少ない数の前記第2ゆう度が高い話者モデルに絞り込む絞り込み処理を実行する第2選択手段と、を備え、
前記第2選択手段が絞り込んだ話者に対応する情報を出力し、
前記第1ゆう度および前記第2ゆう度のそれぞれの更新に応じて、前記第1選択手段および前記第2選択手段は前記選択処理および前記絞り込み処理をそれぞれ繰り返し実行する
ことを特徴とする話者選択用プログラム。 - 請求項14に記載の話者選択用プログラムにおいて、
前記話者スコア算出手段は、相対的に長時間の音声信号にもとづく長時間ゆう度を前記第1ゆう度として算出し、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第2ゆう度として算出し、
前記第1選択手段は、前記長時間ゆう度が高い所定数の話者モデルに対応する話者を選択する長時間話者選択手段であり、
前記第2選択手段は、前記所定数よりも少ない数の前記短時間ゆう度が高い話者モデルに対応する話者を選択する短時間話者選択手段である
ことを特徴とする話者選択用プログラム。 - 請求項14に記載の話者選択用プログラムにおいて、
前記話者スコア算出手段は、相対的に短時間の音声信号にもとづく短時間ゆう度を前記第1ゆう度として算出し、相対的に長時間の音声信号にもとづく長時間ゆう度を前記第2ゆう度として算出し、
前記第1選択手段は、前記短時間ゆう度が高い所定数の話者モデルに対応する話者を選択する短時間話者選択手段であり、
前記第2選択手段は、前記所定数よりも少ない数の前記長時間ゆう度が高い話者モデルに対応する話者を選択する長時間話者選択手段である
ことを特徴とする話者選択用プログラム。 - 請求項15または請求項16に記載の話者選択用プログラムにおいて、
前記長時間話者選択手段は、前記話者スコア算出手段が算出したゆう度と、あらかじめ定められたゆう度に関する第1の閾値と、を用いて話者を選択し、
前記短時間話者選択手段は、前記話者スコア算出手段が算出したゆう度と、あらかじめ定められたゆう度に関する閾値であって前記第1の閾値と同じ値または異なる値である第2の閾値と、を用いて話者を選択する
ことを特徴とする話者選択用プログラム。 - 請求項15または請求項16に記載の話者選択用プログラムにおいて、
前記コンピュータを、さらに、発話間の時間的な依存関係を示すデータを記憶する発話依存関係記憶手段として機能させ、
前記話者スコア算出手段は、前記発話依存関係記憶手段に記憶されているデータを反映させてゆう度を算出する
ことを特徴とする話者選択用プログラム。 - 請求項14から請求項18のいずれかに記載の話者選択用プログラムにおける各手段に加えて、
前記コンピュータを、さらに、
前記第2選択手段で選択された話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成手段として機能させる
ことを特徴とする話者適応モデル作成プログラム。 - 請求項15から請求項18のいずれかに記載の話者選択用プログラムにおける各手段に加えて、
前記コンピュータを、さらに、
前記長時間話者選択手段が選択した複数の話者のそれぞれに対応する十分統計量から統計処理計算によって長時間話者に関する1つの十分統計量を作成する手段と、
前記短時間話者選択手段が選択した複数の話者のそれぞれに対応する十分統計量から統計処理計算によって短時間話者に関する1つの十分統計量を作成する手段と、
前記各手段が計算した十分統計量を統計処理計算によって統合して話者適応モデルを作成する適応モデル作成手段と、して機能させる
ことを特徴とする話者適応モデル作成プログラム。 - 請求項15から請求項18のいずれかに記載の話者選択用プログラムにおける各手段に加えて、
前記コンピュータを、さらに、
前記短時間話者選択手段が選択した話者の出現頻度を計算する短時間話者統合手段と、
前記話者の出現頻度にもとづいて十分統計量を重み付け統合して1つの話者適応モデルを作成する適応モデル作成手段と、して機能させる
ことを特徴とする話者適応モデル作成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009506262A JP5229219B2 (ja) | 2007-03-27 | 2008-02-29 | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007082230 | 2007-03-27 | ||
JP2007082230 | 2007-03-27 | ||
JP2009506262A JP5229219B2 (ja) | 2007-03-27 | 2008-02-29 | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム |
PCT/JP2008/053629 WO2008117626A1 (ja) | 2007-03-27 | 2008-02-29 | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2008117626A1 JPWO2008117626A1 (ja) | 2010-07-15 |
JP5229219B2 true JP5229219B2 (ja) | 2013-07-03 |
Family
ID=39788364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009506262A Active JP5229219B2 (ja) | 2007-03-27 | 2008-02-29 | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8452596B2 (ja) |
JP (1) | JP5229219B2 (ja) |
WO (1) | WO2008117626A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009057739A1 (ja) * | 2007-10-31 | 2009-05-07 | Nec Corporation | 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム |
US8160877B1 (en) * | 2009-08-06 | 2012-04-17 | Narus, Inc. | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting |
US20120239400A1 (en) * | 2009-11-25 | 2012-09-20 | Nrc Corporation | Speech data analysis device, speech data analysis method and speech data analysis program |
JP5549506B2 (ja) * | 2010-09-28 | 2014-07-16 | 富士通株式会社 | 音声認識装置及び音声認識方法 |
US9047867B2 (en) * | 2011-02-21 | 2015-06-02 | Adobe Systems Incorporated | Systems and methods for concurrent signal recognition |
JP5779032B2 (ja) * | 2011-07-28 | 2015-09-16 | 株式会社東芝 | 話者分類装置、話者分類方法および話者分類プログラム |
US8965763B1 (en) * | 2012-02-02 | 2015-02-24 | Google Inc. | Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training |
US8543398B1 (en) | 2012-02-29 | 2013-09-24 | Google Inc. | Training an automatic speech recognition system using compressed word frequencies |
US8374865B1 (en) | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US8571859B1 (en) | 2012-05-31 | 2013-10-29 | Google Inc. | Multi-stage speaker adaptation |
US8805684B1 (en) | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US8880398B1 (en) | 2012-07-13 | 2014-11-04 | Google Inc. | Localized speech recognition with offload |
US9123333B2 (en) | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
JP6424628B2 (ja) * | 2013-01-17 | 2018-11-21 | 日本電気株式会社 | 話者識別装置、話者識別方法、および話者識別用プログラム |
CN103679452A (zh) * | 2013-06-20 | 2014-03-26 | 腾讯科技(深圳)有限公司 | 支付验证方法、装置及系统 |
US9390712B2 (en) * | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
US9858922B2 (en) * | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
JP6276132B2 (ja) * | 2014-07-30 | 2018-02-07 | 株式会社東芝 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
JP6303971B2 (ja) | 2014-10-17 | 2018-04-04 | 富士通株式会社 | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US10311855B2 (en) * | 2016-03-29 | 2019-06-04 | Speech Morphing Systems, Inc. | Method and apparatus for designating a soundalike voice to a target voice from a database of voices |
US10896682B1 (en) * | 2017-08-09 | 2021-01-19 | Apple Inc. | Speaker recognition based on an inside microphone of a headphone |
WO2020003413A1 (ja) | 2018-06-27 | 2020-01-02 | 日本電気株式会社 | 情報処理装置、制御方法、及びプログラム |
JP2023549794A (ja) * | 2020-12-25 | 2023-11-29 | 日本電気株式会社 | 話者識別装置、方法およびプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003167599A (ja) * | 2001-12-03 | 2003-06-13 | Seiko Epson Corp | 音声認識方法および音声認識装置 |
JP2004053821A (ja) * | 2002-07-18 | 2004-02-19 | Univ Waseda | 話者識別方法およびそのシステム、並びにプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6182037B1 (en) | 1997-05-06 | 2001-01-30 | International Business Machines Corporation | Speaker recognition over large population with fast and detailed matches |
JP3735209B2 (ja) * | 1999-03-03 | 2006-01-18 | 富士通株式会社 | 話者認識装置及び方法 |
JP3756879B2 (ja) | 2001-12-20 | 2006-03-15 | 松下電器産業株式会社 | 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム |
JP2003202891A (ja) | 2002-01-07 | 2003-07-18 | Matsushita Electric Ind Co Ltd | 音声処理用適応モデル作成方法 |
JP4318475B2 (ja) * | 2003-03-27 | 2009-08-26 | セコム株式会社 | 話者認証装置及び話者認証プログラム |
-
2008
- 2008-02-29 WO PCT/JP2008/053629 patent/WO2008117626A1/ja active Application Filing
- 2008-02-29 US US12/593,414 patent/US8452596B2/en active Active
- 2008-02-29 JP JP2009506262A patent/JP5229219B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003167599A (ja) * | 2001-12-03 | 2003-06-13 | Seiko Epson Corp | 音声認識方法および音声認識装置 |
JP2004053821A (ja) * | 2002-07-18 | 2004-02-19 | Univ Waseda | 話者識別方法およびそのシステム、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20100114572A1 (en) | 2010-05-06 |
WO2008117626A1 (ja) | 2008-10-02 |
US8452596B2 (en) | 2013-05-28 |
JPWO2008117626A1 (ja) | 2010-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5229219B2 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム | |
KR102401512B1 (ko) | 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 | |
US10923111B1 (en) | Speech detection and speech recognition | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
JP5326892B2 (ja) | 情報処理装置、プログラム、および音響モデルを生成する方法 | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
JP4355322B2 (ja) | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
CN106875936B (zh) | 语音识别方法及装置 | |
US11823655B2 (en) | Synthetic speech processing | |
JP6845489B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
Herbig et al. | Self-learning speaker identification for enhanced speech recognition | |
JP7107377B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Sakti et al. | Deep bottleneck features and sound-dependent i-vectors for simultaneous recognition of speech and environmental sounds | |
JP7216348B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP5626558B2 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム | |
Sinha et al. | Exploring the role of pitch-adaptive cepstral features in context of children's mismatched ASR | |
Yadav et al. | Confidence calibration measures to improve speech recognition | |
Leino | Maximum a posteriori for acoustic model adaptation in automatic speech recognition | |
Tao et al. | Acoustic model adaptation for automatic speech recognition and animal vocalization classification | |
Bharathi et al. | Improving the performance of speaker and language identification tasks using unique characteristics of a class | |
Merino | Speaker Compensation in Automatic Speech Recogniton | |
JP2007248742A (ja) | 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 | |
Stephenson12 et al. | Õà «≈ á À»¿«∆¡ á«∆ ÕÀ¡∆∆≈¡ À¡∆∆ Ãœ «√ À œ¡ ÿ«Ã¿«ÕÀá∆ á Õƒ à «Œ¡ ƒ À | |
Breslin | The Multiple Regression Hidden Markov Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120828 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130304 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160329 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5229219 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |