JP7426686B2 - 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法 - Google Patents
音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法 Download PDFInfo
- Publication number
- JP7426686B2 JP7426686B2 JP2019114876A JP2019114876A JP7426686B2 JP 7426686 B2 JP7426686 B2 JP 7426686B2 JP 2019114876 A JP2019114876 A JP 2019114876A JP 2019114876 A JP2019114876 A JP 2019114876A JP 7426686 B2 JP7426686 B2 JP 7426686B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition performance
- reverberant
- speech recognition
- speech
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 61
- 238000010276 construction Methods 0.000 title claims description 10
- 230000008569 process Effects 0.000 claims description 34
- 230000004044 response Effects 0.000 claims description 23
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000010183 spectrum analysis Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
構築:全結合の多層パーセプロトン
各層の素子数:
素子数入力層:600素子(残響音声の音声特徴量入力用)
隠れ層:100素子×1~3層
出力層:1素子(音声認識性能値出力用)
入力する音声特徴量(600次元):
MFCC(メル周波数ケプストラム係数)の次元数:12次元
ΔMFCC(MFCCの一次の回帰係数)の次元数:12次元
ΔPower(パワーの一次の回帰係数)の次元数:1次元
合計フレーム数:24フレーム(対象フレーム+前後23フレーム)
活性化関数:ReLU(Rectified Linear Unit, Rectifier:正規化線形関数)
評価関数:音声認識性能の真値と推定値との二乗誤差
パラメータ学習法:誤差逆伝搬法(学習率の調整にはAdamを採用)
評価音声と音声認識性能
クリーン音声:ATR音素バランス文(1話者50文×10話者)
残響:距離や発話方位が異なる120カ所のインパルス応答
音声認識性能の数:1200個(10話者×120カ所)(なお、1000個は学習用、200個を試験に用いた)
音声認識器:Julius(ver.4.4.2)、ディクテーションキット(ver.4.4)
言語モデル:語彙サイズ59084の単語Trigramモデル(現代日本語書き言葉均衡コーパスの約1億語を用いて学習)
音響モデル:性別非依存のDNN-HMM(JNASコーパス、CSJの計378時間の音声データで学習)
入力層:1320素子(11フレームの音響特徴量を連結)
隠れ層:2048素子×7層
出力層:2004素子
音響特徴量:フィルタバンク+1次差分+2次差分(40次元×3=120次元)
音声特徴量:フィルタバンク+1次差分+2次差分(40次元×3=120次元)
入力層:1320素子(11フレームの音声特徴量を連結)
本発明は、上記実施形態に限定されるものではなく、様々な変形が可能である。
3 :メモリ装置
5 :出力装置
10 :プロセッサ
11 :学習モデル
20 :メモリ
100 :システム
F :フレーム
FV :特徴量
FV1 :特徴量
FV2 :特徴量
Ft :対象フレーム
PV :予測値
S111 :音声入力処理
S112 :特徴量抽出処理
S113 :音声認識性能予測処理
S113A :特徴量FVを入力する処理
S113B :学習モデルから予測値を得る処理
S113C :1つの予測値を算出する処理
S114 :予測結果出力処理
W :音声波形
W1 :音声波形
W2 :音声波形
W3 :音声波形
W4 :音声波形
W5 :音声波形
W7 :音声波形
W8 :音声波形
Claims (10)
- 残響音声の複数の音響特徴フレームを、学習モデルに入力して、前記残響音声の得られた空間における音声認識性能の予測値を前記学習モデルから出力する音声認識性能予測処理を実行するよう構成され、
前記学習モデルは、残響音声の複数の音響特徴フレーム及び前記残響音声の得られた空間における音声認識性能の値を用いた機械学習により、残響音声の複数の音響特徴フレームが入力されると、前記残響音声の得られた空間における音声認識性能の予測値を出力するよう構成され、
各音響特徴フレームは、スペクトル解析を含む音声解析によって残響音声から抽出された音声特徴量を含む
音声認識性能の予測システム。 - 各音響特徴フレームは、区間ごとの前記残響音声の複数の音声特徴量を含み、
前記残響音声の複数の前記音響特徴フレームを前記学習モデルに入力することは、予測対象の区間に対応した対象フレームを含む複数フレームからなる対象フレーム群を入力することを含む
請求項1に記載の音声認識性能の予測システム。 - 前記残響音声の複数の前記音響特徴フレームを前記学習モデルに入力することは、前記対象フレーム群と、前記予測対象の区間に近接した他の区間に対する他のフレーム群と、を入力することを含む
請求項2に記載の音声認識性能の予測システム。 - 前記音声認識性能の予測値を出力することは、前記対象フレーム群と前記他のフレーム群とのそれぞれについて得られた、複数の音声認識性能の予測値から、前記予測対象の区間についての1つの前記音声認識性能の予測値を算出すること、を含む
請求項3に記載の音声認識性能の予測システム。 - 残響音声の複数の音響特徴フレームが入力されると、前記残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデルの構築方法であって、
残響音声の複数の音響特徴フレーム、及び、前記残響音声の得られた空間における音声認識性能の値の組である教師データのうち、複数の前記音響特徴フレームを学習モデルの入力層へ入力し、前記音声認識性能の値を学習モデルの出力層へ入力することで、前記教師データによる機械学習を行って、前記学習モデルを構築することを含み、
各音響特徴フレームは、スペクトル解析を含む音声解析によって残響音声から抽出された音声特徴量を含む
学習モデルの構築方法。 - 前記残響音声を、クリーン音声とインパルス応答とから生成することをさらに備える
請求項5に記載の学習モデルの構築方法。 - 前記残響音声を、クリーン音声とインパルス応答とノイズとから生成することをさらに備える
請求項5に記載の学習モデルの構築方法。 - コンピュータが、残響音声の複数の音響特徴フレームを、学習モデルに入力して、前記残響音声の得られた空間における音声認識性能の予測値を前記学習モデルから出力する、ことを実行することを含む方法であって、
前記学習モデルは、残響音声の複数の音響特徴フレーム及び前記残響音声の得られた空間における音声認識性能の値を用いた機械学習により、残響音声の複数の音響特徴フレームが入力されると、前記残響音声の得られた空間における音声認識性能の予測値を出力するよう構成され、
各音響特徴フレームは、スペクトル解析を含む音声解析によって残響音声から抽出された音声特徴量を含む
音声認識性能の予測方法。 - 各音響特徴フレームは、区間ごとの前記残響音声の複数の音声特徴量を含み、
前記残響音声の複数の前記音響特徴フレームを前記学習モデルに入力することは、予測対象の区間に対応した対象フレームを含む複数フレームからなる対象フレーム群を入力することを含む
請求項8に記載の音声認識性能の予測方法。 - 前記残響音声の複数の前記音響特徴フレームを前記学習モデルに入力することは、前記対象フレーム群と、前記予測対象の区間に近接した他の区間に対する他のフレーム群と、を入力することを含む
請求項9に記載の音声認識性能の予測方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019114876A JP7426686B2 (ja) | 2019-06-20 | 2019-06-20 | 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019114876A JP7426686B2 (ja) | 2019-06-20 | 2019-06-20 | 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021001949A JP2021001949A (ja) | 2021-01-07 |
JP7426686B2 true JP7426686B2 (ja) | 2024-02-02 |
Family
ID=73995465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019114876A Active JP7426686B2 (ja) | 2019-06-20 | 2019-06-20 | 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7426686B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113782002B (zh) * | 2021-09-01 | 2023-07-04 | 深聪半导体(江苏)有限公司 | 基于混响模拟的语音识别测试方法及系统 |
-
2019
- 2019-06-20 JP JP2019114876A patent/JP7426686B2/ja active Active
Non-Patent Citations (2)
Title |
---|
福森隆寛 他,"PESQと室内音響指標を用いた雑音・残響指標NRSR-PAに基づく雑音・残響下音声認識性能の予測",電子情報通信学会論文誌D,2015年03月01日,Vol.J98-D, No.3,pp.343-352 |
郭 他,"ノンリファレンス特徴量を用いた自然発話音声認識の性能推定の検討",日本音響学会2016年秋季研究発表会講演論文集CD-ROM,2016年08月31日,pp.121-124 |
Also Published As
Publication number | Publication date |
---|---|
JP2021001949A (ja) | 2021-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sinha et al. | Assessment of pitch-adaptive front-end signal processing for children’s speech recognition | |
US8131544B2 (en) | System for distinguishing desired audio signals from noise | |
US8024184B2 (en) | Speech recognition device, speech recognition method, computer-executable program for causing computer to execute recognition method, and storage medium | |
US7590526B2 (en) | Method for processing speech signal data and finding a filter coefficient | |
JP6261043B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP6077957B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
Valentini-Botinhao et al. | Speech enhancement of noisy and reverberant speech for text-to-speech | |
JP6532021B2 (ja) | 音声処理装置及び音声処理方法 | |
US8219396B2 (en) | Apparatus and method for evaluating performance of speech recognition | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP7426686B2 (ja) | 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法 | |
Ichikawa et al. | Dynamic features in the linear-logarithmic hybrid domain for automatic speech recognition in a reverberant environment | |
JP2016186516A (ja) | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム | |
JP6367773B2 (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
Bawa et al. | Developing sequentially trained robust Punjabi speech recognition system under matched and mismatched conditions | |
JP6599408B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 | |
JP2019219468A (ja) | 生成装置、生成方法及び生成プログラム | |
JP5172797B2 (ja) | 残響抑圧装置とその方法と、プログラムと記録媒体 | |
Amino et al. | Speaker characteristics that appear in vowel nasalisation and their change over time | |
WO2020230460A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
WO2024038560A1 (ja) | 学習装置、推定装置、学習方法、及びプログラム | |
JP2019028301A (ja) | 音響信号処理装置、方法及びプログラム | |
JP2019029861A (ja) | 音響信号処理装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20190716 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220602 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230320 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7426686 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |