JP6820764B2 - 音響モデル学習装置および音響モデル学習プログラム - Google Patents
音響モデル学習装置および音響モデル学習プログラム Download PDFInfo
- Publication number
- JP6820764B2 JP6820764B2 JP2017037421A JP2017037421A JP6820764B2 JP 6820764 B2 JP6820764 B2 JP 6820764B2 JP 2017037421 A JP2017037421 A JP 2017037421A JP 2017037421 A JP2017037421 A JP 2017037421A JP 6820764 B2 JP6820764 B2 JP 6820764B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- layer
- learning
- dimensions
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
従来の音声認識技術の多くは、変換候補が30文字程度の英語音声認識を対象としている。日本語の場合、ひらがな、カタカナ、漢字等を合わせると変換候補の数が2000以上と膨大であり、そのため学習により決定すべきパラメータの数(パラメータをベクトルとみた場合、ベクトルの次元数)が著しく増大する。
また、従来技術では、学習により決定すべきパラメータ数(次元数)が増大すると、学習時間が増大するという問題がある。またパラメータが多すぎると細かいところまで表現し過ぎてしまって、逆により一般的で本質的な特徴を表現しきれないという問題(汎化能力の問題)もある。一方、パラメータが少なすぎると、必要な個数の文字を表現できなくなる。
本発明に係る音響モデル学習装置によれば、演算で取り扱うベクトルの次元圧縮処理を行うことで、音響モデルをEnd−to−endの音声認識手法を用いて学習する際に決定すべきパラメータ数が削減される。
また、本発明に係る音響モデル学習装置によれば、日本語音響モデルに必要な表現力があり、かつ、単語認識誤り率(WER)が改善され、学習時間および学習回数が著しく短縮される。
[日本語音声認識装置の構成]
図1に示す日本語音声認識装置1は、日本語音響モデル学習装置10と、日本語言語モデル学習装置20と、を備えている。
音響モデル記憶手段101は、音響モデル学習手段100が学習により生成した音響モデルを記憶するもので、ハードディスク等の一般的な記憶媒体である。
一方、学習が終了した後の評価フェーズにおいては、音響モデル記憶手段101(日本語音響モデル学習装置10)に対して、学習データ2の代わりに、評価用の音声3を入力する。このとき、音響モデル学習手段100は、音響モデル記憶手段101に記憶されているところの、事前学習により生成された音響モデルを用いて、評価用の音声3を認識し、対応する文字列を出力する。
また、評価フェーズに対応した処理を行う文字列生成手段を別に設けて、音響モデル学習手段100には事前学習フェーズに対応した処理だけを行わせるように構成しても構わない。
言語モデル記憶手段201に記憶されている言語モデルは、非特許文献2に記載されたモデルのように、音響モデル記憶手段101に対して評価用の音声3またはその特徴量を入力して得られた表意文字を含む文字列を入力として、前後の単語の関係から単語列を推定し、推定結果である単語列を出力するモデルの全てに適用可能なものである。言語モデルは、大量のテキストから予め学習した出力系列(単語等)の出現確率等をモデル化したものであり、例えば、一般的なNグラム言語モデルを用いることができる。
すなわち、評価フェーズにおいては、言語モデル学習手段200は、言語モデル記憶手段201に記憶されている言語モデルを用いて、入力された文字列を、順次、単語に変換することで単語列を生成する単語列生成手段として機能する。なお、評価フェーズに対応した処理を行う単語列生成手段を別に設けて、言語モデル学習手段200には事前学習フェーズに対応した処理だけを行わせるように構成しても構わない。
日本語音響モデル学習装置10の音響モデル学習手段100で用いる音響モデルのネットワーク構造を説明する前に、End−to−end音響モデルのネットワーク構造について図2を参照して説明する。図2にはBLSTM構造をもつ標準的なネットワーク構造の一例が示されているが、LSTMを用いて実現したものやLSTM構造を持たない一般的なRNNに対しても本発明が同様に適用可能である。
深層学習手段111Rは、第1層のBLSTM30aと、第2層のBLSTM30bと、第3層のBLSTM30cと、で構成されている。深層学習手段111Rは、音声を入力とし、音声がラベルのうちどれであるかを学習する手段である。ここでは3層構造としたが、深層学習手段111Rは、4層以上の多層構造のニューラルネットワークであっても構わない。深層学習手段111Rは、音声の特徴量が連続して入力され、多層構造の各層において、音声の特徴量についての時間方向の情報を記憶し、当該時間方向の情報を用いて、音声の特徴量から対象とする複数の文字のいずれであるのかを予測した確率を表す特徴ベクトルを出力する。深層学習手段111Rは、その内部構造をパラメータにより定義することができる。BLSTM構造の場合、パラメータは、層数とメモリセルである。メモリセルは、LSTM構造において、時間方向の情報を記憶するベクトルの次元数を決定するパラメータ、言い換えれば、時間軸上どこまで離れたデータを計算に取り込むかの長さを表している。なお、LSTM構造におけるメモリセルについては、非特許文献2に詳述されているので、ここでは説明を省略する。
深層学習手段111Rは、120次元の音声の特徴量(特徴ベクトル)6を入力として、その最終層のBLSTM30cから640次元の特徴ベクトルを出力する。
図3は第1実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造を説明する模式図である。ここでは、図2を参照して説明した、同一規模の3層の深層学習手段111RをN層に一般化して深層学習手段111と表記する。深層学習手段111は、層数がN(N≧3)であるものとしている。また、図2のBLSTMのことを、Fw−LSTMとBw−LSTMのペアで図示して説明する。なお、この深層学習手段111の次元数は、層数Nが一定値であれば、メモリセルCに依存する。
同様に、深層学習手段111の第N層における前方(Fw)のLSTMには、メモリセルCが設定されており、後方(Bw)のLSTMにもメモリセルCが設定されている。
一方、深層学習手段111の第1層と第N層を除く所定の第n層においては、前方(Fw)のLSTMには、メモリセルc(c<C)が設定されており、後方(Bw)のLSTMにもメモリセルc(c<C)が設定されている。
さらに、第1層、第n層、第N層以外のその他の層では、前方(Fw)のLSTMには、メモリセルCが設定されており、後方(Bw)のLSTMにもメモリセルCが設定されている。
したがって、第n層の出力する特徴ベクトルの次元は、他の層から出力する特徴ベクトルの次元よりも縮小され、音響モデルのネットワーク構造の次元圧縮(ボトルネック構造)が実現される。これにより、深層学習手段111による演算で取り扱う特徴ベクトルの次元を圧縮することができる。なお、図3では、Fw−LSTMおよびBw−LSTMをそれぞれ表すブロックの横幅でメモリセルの大小を表している。
図4に示すように、第1実施形態に係る音響モデル学習手段100Aは、一例として層数Nを3とした深層学習手段111Aと、線形写像手段112と、正規化手段113とを備えている。なお、図2に示した音響モデル学習手段100Rと同じ構成には同じ符号を付して説明を省略する。
深層学習手段111Aは、第1層のBLSTM30aと、第2層のBLSTM30dと、第3層のBLSTM30cと、で構成されている。
第1層のBLSTM30aおよび最終層(第3層)のBLSTM30cは、いずれも出力する特徴ベクトルの次元は640次元であり、それぞれの層において2つのメモリセルがそれぞれC=320である。
一方、第2層のBLSTM30dは、出力する特徴ベクトルの次元は320次元であり、2つのメモリセルがそれぞれc=160である。
第1実施形態に係る日本語音響モデル学習装置10によれば、深層学習手段111Aの演算で取り扱う特徴ベクトルの次元を圧縮することにより音響モデルのネットワーク構造の次元圧縮を実現し、これによって、音響モデルの学習により決定すべきパラメータ数が削減される。
図5は第2実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造のうち、線形変換部分を説明する模式図である。ここでは、図2の音響モデル学習手段100Rにおいて、線形写像手段112へ入力する特徴ベクトルが仮に4次元であり、出力される文字を表すベクトルが100次元であるものとして説明する。図2の音響モデル学習手段100Rによれば、線形写像手段112によって、図5(a)に示すように、入力される4次元ベクトル(1*4の行列)に対して、4*100の行列が乗算されて100次元のベクトル(1*100の行列)が出力される。この場合、入力される4次元ベクトルに対して乗算される行列の要素数は4×100=400である。この行列の要素数は、音響モデルの学習により決定すべきパラメータ数(次元数)の大小の目安となる。
図6に示すように、第2実施形態に係る音響モデル学習手段100Bは、深層学習手段111Rと、線形写像手段112Bと、正規化手段113とを備えている。なお、図2に示した音響モデル学習手段100Rと同じ構成には同じ符号を付して説明を省略する。
線形写像手段112Bは、第1線形写像手段40と、第2線形写像手段42と、を備えている。
第1線形写像手段40は、深層学習手段111Rの最終層(第3層)であるBLSTM30cから入力される640次元の特徴ベクトルに対して、640*320の行列を乗算して320次元のベクトルを出力する。
第2線形写像手段42は、第1線形写像手段40から入力される320次元の特徴ベクトルに対して、320*2934の行列を乗算して2934次元のベクトルを出力する。第2線形写像手段42の出力するベクトルは、正規化手段113へ入力する。
図2に示した音響モデル学習手段100Rの場合、すなわち、線形写像手段112が行列分解を行わない場合、線形写像手段112が入力ベクトルに対して乗算する行列に着目すると、その行列の要素数は、
640×2934=1,877,760 である。
640×320+320×2934=1,143,680 である。
また、線形写像手段112Bが備える第1線形写像手段40の出力するベクトルの次元が320次元まで圧縮されており、汎化能力が高まることが期待される。
第3実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造は、第1および第2実施形態を組み合わせたネットワーク構造である。すなわち、図2に示した深層学習手段111Rの第2層をBLSTM30dと置換することでボトルネック構造の深層学習手段111Aを備えると共に、図2に示した線形写像手段112を行列分解を行うことのできる線形写像手段112Bと置換することで、音響モデルのネットワーク構造の次元圧縮を実現するものである。図7は第3実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。
第3実施形態に係る日本語音響モデル学習装置10によれば、深層学習手段111Aおよび線形写像手段112Bの双方の演算で取り扱う特徴ベクトルの次元を圧縮することにより音響モデルのネットワーク構造の次元圧縮を実現し、これによって、音響モデルの学習により決定すべきパラメータ数が削減される。
詳細には、Affine変換の行列分解を行う手法、すなわち、線形写像手段112Bにおいて次元を圧縮する第2実施形態および第3実施形態において、WERがより改善されており、汎化能力がより高められている。このうち、Affine変換の行列分解のみを適用したモデル、すなわち、第2実施形態では、WERが、図2の標準的な構造を用いる手法より20.2%改善した。これは、漢字の読み相当の次元数(=320)まで一度次元を圧縮したことで、モデルの汎化能力が向上したためと考えられる。
10 日本語音響モデル学習装置
100,100A,100B,110C 音響モデル学習手段
101 音響モデル記憶手段
111,111A,111R 深層学習手段
112,112B 線形写像手段
113 正規化手段
30a,30b,30c,30d BLSTM
40 第1線形写像手段
42 第2線形写像手段
Claims (3)
- 入力された音声が音声認識されることにより出力される文字との対応付けを学習することにより、前記入力された音声をEnd−to−endの音声認識手法を用いて文字に変換し、当該文字を出力する音響モデルを学習する音響モデル学習装置であって、
3層以上の多層構造のニューラルネットワークを有し、音声の特徴量が連続して入力され、前記多層構造の各層において、前記特徴量についての時間方向の情報を記憶し、当該時間方向の情報を用いて、前記音声の特徴量から対象とする複数の文字のいずれであるのかを予測した確率を表す特徴ベクトルを出力する深層学習手段と、
前記深層学習手段の最終層の出力である特徴ベクトルに所定の変換行列を適用することにより、前記深層学習手段の出力する特徴ベクトルの次元を所定の演算により変換する線形写像手段と、を備え、
前記深層学習手段および前記線形写像手段による演算のうちの少なくとも1つの演算で取り扱う前記特徴ベクトルの次元を圧縮することにより前記音響モデルを学習し、
前記深層学習手段は、前記特徴ベクトルの次元の圧縮を行うために、
前記多層構造の第1層および最終層を除く所定の1層において時間方向の情報を記憶するベクトルの次元数が、前記第1層および前記最終層において時間方向の情報を記憶するベクトルの次元数よりも小さく設定された状態で、前記入力される音声の特徴量から文字を予測することを特徴とする音響モデル学習装置。 - 請求項1に記載の音響モデル学習装置において、
前記線形写像手段は、
前記深層学習手段の最終層の出力する特徴ベクトルの次元数をDL、前記線形写像手段の出力するベクトルの次元数をDAとして、
前記深層学習手段の最終層の出力する特徴ベクトルに対して、前記変換行列を適用することに代えて、前記変換行列を次の式
DL×DA > DL×r+r×DA … 式(1)
を満たすランクrで行列分解して得られる2つの行列を順次適用して前記特徴ベクトルの次元の圧縮を行うことを特徴とする音響モデル学習装置。 - コンピュータを、請求項1または請求項2に記載の音響モデル学習装置として機能させるための音響モデル学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017037421A JP6820764B2 (ja) | 2017-02-28 | 2017-02-28 | 音響モデル学習装置および音響モデル学習プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017037421A JP6820764B2 (ja) | 2017-02-28 | 2017-02-28 | 音響モデル学習装置および音響モデル学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018141925A JP2018141925A (ja) | 2018-09-13 |
JP6820764B2 true JP6820764B2 (ja) | 2021-01-27 |
Family
ID=63526729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017037421A Active JP6820764B2 (ja) | 2017-02-28 | 2017-02-28 | 音響モデル学習装置および音響モデル学習プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6820764B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753653B (zh) * | 2018-12-25 | 2023-07-11 | 金蝶软件(中国)有限公司 | 实体名称识别方法、装置、计算机设备和存储介质 |
CN110047510A (zh) * | 2019-04-15 | 2019-07-23 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置、计算机设备及存储介质 |
KR102382215B1 (ko) * | 2020-10-20 | 2022-04-01 | 김규현 | 사고음 딥러닝을 통한 음향기반 도로 사고 자동 검지 시스템 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9824684B2 (en) * | 2014-11-13 | 2017-11-21 | Microsoft Technology Licensing, Llc | Prediction-based sequence recognition |
US10223635B2 (en) * | 2015-01-22 | 2019-03-05 | Qualcomm Incorporated | Model compression and fine-tuning |
JP6628350B2 (ja) * | 2015-05-11 | 2020-01-08 | 国立研究開発法人情報通信研究機構 | リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置 |
-
2017
- 2017-02-28 JP JP2017037421A patent/JP6820764B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018141925A (ja) | 2018-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mohamed et al. | Self-supervised speech representation learning: A review | |
CN109887484B (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
Deng et al. | Foundations and Trends in Signal Processing: DEEP LEARNING–Methods and Applications | |
Masumura et al. | Large context end-to-end automatic speech recognition via extension of hierarchical recurrent encoder-decoder models | |
Deena et al. | Recurrent neural network language model adaptation for multi-genre broadcast speech recognition and alignment | |
Yu et al. | Learning cross-lingual information with multilingual BLSTM for speech synthesis of low-resource languages | |
US11961515B2 (en) | Contrastive Siamese network for semi-supervised speech recognition | |
US20230104228A1 (en) | Joint Unsupervised and Supervised Training for Multilingual ASR | |
JP6820764B2 (ja) | 音響モデル学習装置および音響モデル学習プログラム | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
Kumar et al. | A comprehensive review of recent automatic speech summarization and keyword identification techniques | |
CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
Garg et al. | Survey on acoustic modeling and feature extraction for speech recognition | |
Alsayadi et al. | Non-diacritized Arabic speech recognition based on CNN-LSTM and attention-based models | |
Dawodi et al. | Dari speech classification using deep convolutional neural network | |
Zhang et al. | Cacnet: Cube attentional cnn for automatic speech recognition | |
Nasr et al. | End-to-end speech recognition for arabic dialects | |
Heba et al. | Char+ CV-CTC: combining graphemes and consonant/vowel units for CTC-based ASR using Multitask Learning | |
US20230317059A1 (en) | Alignment Prediction to Inject Text into Automatic Speech Recognition Training | |
US20230096821A1 (en) | Large-Scale Language Model Data Selection for Rare-Word Speech Recognition | |
Pandey et al. | LSTM Based Attentive Fusion of Spectral and Prosodic Information for Keyword Spotting in Hindi Language. | |
Galatang | Syllable-Based Indonesian Automatic Speech Recognition. | |
Thai | Deepfake detection and low-resource language speech recogntion using deep learning | |
US20230103722A1 (en) | Guided Data Selection for Masked Speech Modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200110 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200916 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6820764 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |