JP2015082036A - 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 - Google Patents
音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 Download PDFInfo
- Publication number
- JP2015082036A JP2015082036A JP2013220132A JP2013220132A JP2015082036A JP 2015082036 A JP2015082036 A JP 2015082036A JP 2013220132 A JP2013220132 A JP 2013220132A JP 2013220132 A JP2013220132 A JP 2013220132A JP 2015082036 A JP2015082036 A JP 2015082036A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- frame
- phoneme
- analysis frame
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 57
- 230000006978 adaptation Effects 0.000 title claims abstract description 38
- 238000004458 analytical method Methods 0.000 claims abstract description 125
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 8
- 238000013450 outlier detection Methods 0.000 claims abstract description 5
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 20
- 230000005236 sound signal Effects 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
と対応付けられた音響分析フレームである。このような音響分析フレームを検出するためにフレーム信頼尺度を用いる。
図5に、この発明の音響モデル適応装置300の機能構成例を示す。音響モデル適応装置300は、音響分析フレーム信頼度計算装置100,200と、特徴量選択部316と、音響モデル適応部317と、を具備する。
図6に、この発明の音声認識装置400の機能構成例を示す。音声認識装置400は、音響分析フレーム信頼度計算装置100,200と、特徴量選択部316と、音声認識部418と、音響モデル419と、言語モデル420と、を具備する。参照符号から明らかなように、音響分析フレーム信頼度計算装置100,200と、特徴量選択部316とは、上記した音響モデル適応装置300と同じものである。
力として、音響モデル419と言語モデル420とを用いて音声認識結果を出力するものであり、選択フラグが付与されていない音響分析フレームについては、言語モデル420の重みを増やして音声認識処理を行う。つまり、選択フラグが付与されていない音響分析フレームの音響特徴量は誤差を含んでいる可能性が高いので、音響特徴量に依拠するスコアの計算を軽く扱う。要するに、言語モデル420の重みを、音響モデル419の重みよりも大きくして、その音響分析フレームのスコアを計算して音声認識処理を行う。その結果、音声認識精度の向上が期待できる。
Claims (6)
- 音声信号を、所定時間長の音響分析フレームに分割して当該音響分析フレームの単位で音響特徴量を抽出し、当該音響特徴量と初期音響モデルを用いて音響尤度を計算し、上記音響分析フレームに最尤の音素IDを付与して上記音響特徴量と音響尤度と音素IDとを対応付けた音素ID・音響尤度付き音響特徴量系列を出力する音声認識部と、
上記音素ID・音響尤度付き音響特徴量系列を入力として、上記各音素IDごとに上記音響特徴量を分類して音響特徴量集合を作成し、当該各音響特徴量集合に対して外れ値検出を行って外れ値スコアを求め、当該外れ値スコアを用いた関数の値を信頼度の尺度として求め、上記音響分析フレームごとに上記関数の値を付与したフレーム信頼度付き音響特徴量系列を出力するフレーム信頼尺度計算部と、
を具備する音響分析フレーム信頼度計算装置。 - 請求項1に記載した音響分析フレーム信頼度計算装置において、
上記音声認識部は、
音声信号を、初期音響モデルを用いて音声認識し、音声認識テキストを出力する音声認識手段と、
上記音声信号と音声認識テキストを入力として、当該音声信号を所定時間長の音響分析フレームに分割し、上記各音響分析フレームの音響特徴量を抽出して音響特徴量系列を生成すると共に、上記音声認識テキストから音素系列を取得して初期音響モデルを用いて最大の音響尤度の音素を上記各音響分析フレームに音素IDとして付与し、上記音響特徴量と音響尤度と音素IDとを対応付けた音素ID・音響尤度付き音響特徴量系列を出力する音響特徴量アライメント手段と、
で構成されることを特徴とする音響分析フレーム信頼度計算装置。 - 請求項1又は2に記載した音響分析フレーム信頼度計算装置と、
上記音響分析フレーム信頼度計算装置が出力するフレーム信頼度付き音響特徴量系列を入力として、上記音響分析フレームごとの信頼度が、選択閾値以上の音響分析フレームを選択することを示す選択フラグを付与した選択フラグ付き音響特徴量系列を出力する特徴量選択部と、
上記選択フラグ付き音響特徴量系列を入力として、上記選択フラグが付与されていない各音響分析フレームの音響特徴量を用いて計算する統計量に、0以上1以下の実数値の非選択重みを乗じて更新した統計量を求め、当該更新後の統計量に基づいて上記初期音響モデルのパラメータを更新して適応後音響モデルを出力する音響モデル適応部と、
を具備する音響モデル適応装置。 - 請求項1又は2に記載した音響分析フレーム信頼度計算装置と、
上記音響分析フレーム信頼度計算装置が出力するフレーム信頼度付き音響特徴量系列を入力として、上記音響分析フレームごとの信頼度が、選択閾値以上の音響分析フレームを選択することを示す選択フラグを付与した選択フラグ付き音響特徴量系列を出力する特徴量選択部と、
上記選択フラグ付き音響特徴量系列を入力として、上記選択フラグが付与されていない音響分析フレームについては言語モデルの重みを増やして音声認識処理を行い音声認識結果を出力する音声認識部と、
を具備する音声認識装置。 - 音声認識部が、音声信号を、所定時間長の音響分析フレームに分割して当該音響分析フレームの単位で音響特徴量を抽出し、当該音響特徴量と初期音響モデルを用いて音響尤度を計算し、上記音響分析フレームに最尤の音素IDを付与して上記音響特徴量と音響尤度と音素IDとを対応付けた音素ID・音響尤度付き音響特徴量系列を出力する音声認識過程と、
フレーム信頼尺度計算部が、上記音素ID・音響尤度付き音響特徴量系列を入力として、上記各音素IDごとに上記音響特徴量を分類して音響特徴量集合を作成し、当該各音響特徴量集合に対して外れ値検出を行って外れ値スコアを求め、当該外れ値スコアを用いた関数の値を信頼度の尺度として求め、上記音響分析フレームごとに上記関数の値を付与したフレーム信頼度付き音響特徴量系列を出力するフレーム信頼尺度計算過程と、
を含む音響分析フレーム信頼度計算方法。 - 請求項1又は2に記載した音響分析フレーム信頼度計算装置、請求項3に記載した音響モデル適応装置、請求項4に記載した音声認識装置、の何れかの装置の各部の機能を、コンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013220132A JP6148150B2 (ja) | 2013-10-23 | 2013-10-23 | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013220132A JP6148150B2 (ja) | 2013-10-23 | 2013-10-23 | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015082036A true JP2015082036A (ja) | 2015-04-27 |
JP6148150B2 JP6148150B2 (ja) | 2017-06-14 |
Family
ID=53012648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013220132A Expired - Fee Related JP6148150B2 (ja) | 2013-10-23 | 2013-10-23 | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6148150B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018045062A (ja) * | 2016-09-14 | 2018-03-22 | Kddi株式会社 | 学習者の口述音声から自動的に採点するプログラム、装置及び方法 |
CN109727446A (zh) * | 2019-01-15 | 2019-05-07 | 华北电力大学(保定) | 一种用电数据异常值的识别与处理方法 |
WO2019220532A1 (ja) * | 2018-05-15 | 2019-11-21 | 日本電気株式会社 | パターン認識装置、パターン認識方法及びパターン認識プログラム |
JP2021081713A (ja) * | 2019-11-21 | 2021-05-27 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声信号を処理するための方法、装置、機器、および媒体 |
CN113223503A (zh) * | 2020-04-29 | 2021-08-06 | 浙江大学 | 一种基于测试反馈的核心训练语音选择方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000122689A (ja) * | 1998-10-20 | 2000-04-28 | Mitsubishi Electric Corp | 話者適応化装置及び音声認識装置 |
JP2005148342A (ja) * | 2003-11-14 | 2005-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
JP2006227628A (ja) * | 2005-02-18 | 2006-08-31 | Samsung Electronics Co Ltd | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 |
-
2013
- 2013-10-23 JP JP2013220132A patent/JP6148150B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000122689A (ja) * | 1998-10-20 | 2000-04-28 | Mitsubishi Electric Corp | 話者適応化装置及び音声認識装置 |
JP2005148342A (ja) * | 2003-11-14 | 2005-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
JP2006227628A (ja) * | 2005-02-18 | 2006-08-31 | Samsung Electronics Co Ltd | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018045062A (ja) * | 2016-09-14 | 2018-03-22 | Kddi株式会社 | 学習者の口述音声から自動的に採点するプログラム、装置及び方法 |
WO2019220532A1 (ja) * | 2018-05-15 | 2019-11-21 | 日本電気株式会社 | パターン認識装置、パターン認識方法及びパターン認識プログラム |
JPWO2019220532A1 (ja) * | 2018-05-15 | 2021-05-20 | 日本電気株式会社 | パターン認識装置、パターン認識方法及びパターン認識プログラム |
JP7211419B2 (ja) | 2018-05-15 | 2023-01-24 | 日本電気株式会社 | パターン認識装置、パターン認識方法及びパターン認識プログラム |
US11620985B2 (en) | 2018-05-15 | 2023-04-04 | Nec Corporation | Pattern recognition robust to influence of a transfer path |
CN109727446A (zh) * | 2019-01-15 | 2019-05-07 | 华北电力大学(保定) | 一种用电数据异常值的识别与处理方法 |
JP2021081713A (ja) * | 2019-11-21 | 2021-05-27 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声信号を処理するための方法、装置、機器、および媒体 |
JP7178394B2 (ja) | 2019-11-21 | 2022-11-25 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 音声信号を処理するための方法、装置、機器、および媒体 |
CN113223503A (zh) * | 2020-04-29 | 2021-08-06 | 浙江大学 | 一种基于测试反馈的核心训练语音选择方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6148150B2 (ja) | 2017-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9875739B2 (en) | Speaker separation in diarization | |
JP6148150B2 (ja) | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 | |
CN111951825B (zh) | 一种发音测评方法、介质、装置和计算设备 | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
JP2011242775A (ja) | 音声認識エラー予測値としての文法適合度評価のための方法およびシステム | |
JP5692493B2 (ja) | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 | |
KR102199246B1 (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
JP2017040794A (ja) | 音響処理装置及び音響処理方法 | |
WO2018051945A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
US20110224985A1 (en) | Model adaptation device, method thereof, and program thereof | |
US9697825B2 (en) | Audio recording triage system | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
CN118284930A (zh) | 用于装置特征分析以改善用户体验的方法和系统 | |
CN110419078B (zh) | 用于自动语音识别的系统和方法 | |
JP5749186B2 (ja) | 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム | |
JPWO2010024052A1 (ja) | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム | |
JP2016191739A (ja) | 発音誤り検出装置、方法およびプログラム | |
JP6274015B2 (ja) | 音響モデル調整装置及びプログラム | |
CN114678040B (zh) | 语音一致性检测方法、装置、设备及存储介质 | |
JP6903613B2 (ja) | 音声認識装置、音声認識方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170518 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6148150 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |