JP2021162798A - 学習装置、学習方法および学習プログラム - Google Patents

学習装置、学習方法および学習プログラム Download PDF

Info

Publication number
JP2021162798A
JP2021162798A JP2020066879A JP2020066879A JP2021162798A JP 2021162798 A JP2021162798 A JP 2021162798A JP 2020066879 A JP2020066879 A JP 2020066879A JP 2020066879 A JP2020066879 A JP 2020066879A JP 2021162798 A JP2021162798 A JP 2021162798A
Authority
JP
Japan
Prior art keywords
neural network
posterior probability
symbol string
learning
ctc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020066879A
Other languages
English (en)
Other versions
JP7274441B2 (ja
Inventor
成樹 苅田
Shigeki Karita
厚徳 小川
Atsunori Ogawa
晋治 渡部
Shinji Watabe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Johns Hopkins University
Original Assignee
Nippon Telegraph and Telephone Corp
Johns Hopkins University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Johns Hopkins University filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2020066879A priority Critical patent/JP7274441B2/ja
Publication of JP2021162798A publication Critical patent/JP2021162798A/ja
Application granted granted Critical
Publication of JP7274441B2 publication Critical patent/JP7274441B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】ノイズ等を含む訓練データを学習に用いても、音声認識の精度の向上を可能とする。【解決手段】符号化器12bが、第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する。第1復号化器12cが、第2のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のCTCに基づく事後確率を算出する。第2復号化器12dが、第3のニューラルネットワークを用いて、正解記号列と中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する。更新部12fが、CTCに基づく事後確率が所定の閾値より大きい場合に、第2復号化器12dが算出した事後確率と、CTCに基づく事後確率とから算出した損失関数値を用いて、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータを更新する。【選択図】図1

Description

本発明は、学習装置、学習方法および学習プログラムに関する。
従来の音声認識モデルは、音響モデルと言語モデルとを別々の系として学習させている。これに対し、ニューラルネットワークを用いたend−to−endの音声認識モデルの学習技術が注目されている(非特許文献1参照)。この技術では、音声を入力とし、記号列を特定する情報を出力する系全体として最適化を行うことができるので、従来の音声認識より精度の高い音声認識が可能となる。
また、一般に、モデルの学習では、訓練データの数を増やすほど、学習の結果として得られるモデルの精度が向上することが期待される。例えば、音声認識モデルの学習において、ノイズを含まないクリーンな音声データと、その書き起こしテキストとのペアからなる理想的な状態の訓練データを用いれば、訓練データの数を増やすほど、音声認識の精度が向上する。
J. Chorowski et al., "Attention-Based Models for Speech Recognition", 2015年, Advances in Neural Information Processing Systems 28 (NIPS 2015), pp. 577-585
しかしながら、ノイズ等を含む訓練データを学習に用いても、音声認識の精度の向上が困難な場合がある。例えば、現実の音声認識では、多くの訓練データには雑音等が含まれており、ノイズを含まないクリーンな音声データを大量に用意することは困難である。また、ノイズや誤り等を含む訓練データの数を増やして学習しても、却って音声認識の精度が低下してしまう場合がある。
本発明は、上記に鑑みてなされたものであって、ノイズ等を含む訓練データを学習に用いても、音声認識の精度の向上を可能とすることを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換部と、第2のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第1の算出部と、第3のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第2の算出部と、前記CTCに基づく事後確率が所定の閾値より大きい場合に、前記第2の算出部が算出した前記事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新する更新部と、を有することを特徴とする。
本発明によれば、ノイズ等を含む訓練データを学習に用いても、音声認識の精度の向上が可能となる。
図1は、本実施形態の学習装置の概略構成を例示する模式図である。 図2は、他の実施形態の学習装置の概略構成を例示する模式図である。 図3は、学習処理手順を示すフローチャートである。 図4は、学習プログラムを実行するコンピュータの一例を示す図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[学習装置の構成]
図1は、本実施形態の学習装置の概略構成を例示する模式図である。図1に例示するように、本実施形態の学習装置10は、パソコン等の汎用コンピュータで実現され、記憶部11、および制御部12を備える。
記憶部11は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部11には、学習装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。
本実施形態において、記憶部11は、後述するend−to−endニューラルネットワークのパラメータ11aを記憶する。これらのパラメータ11aは、後述する学習処理により更新される。
制御部12は、CPU(Central Processing Unit)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部12は、図1に例示するように、データ選択部12a、符号化器12b、第1復号化器12c、第2復号化器12d、データクレンジング部12e、更新部12fおよび終了判定部12gとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。また、制御部12は、その他の機能部を備えてもよい。
データ選択部12aは、学習用の音声信号の入力を受け付ける。具体的には、データ選択部12aは、入力された訓練データの集合から、後述する学習処理に用いる音声信号を選択し、後述する符号化器12bに入力する。なお、訓練データのうち、全ての音声信号が符号化器12bに入力された場合には、後述する更新部12fの処理が実行されるようにしてもよい。
符号化器12bは、変換部の一例であり、第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する。符号化器12bは、例えば、Transformerエンコーダであり、単位時間ごとの音声信号の特徴量である対数メルフィルタバンク特徴量Xfbankを、前処理用のニューラルネットワークによって長さ等を縮約した特徴量Xsubを入力として受け付ける。そして、符号化器12bは、特徴量Xsubを第1のニューラルネットワークにより中間特徴量に変換して出力する。
ここで、符号化器12bを構成する第1のニューラルネットワークの層の総数e、第i層(i=0,1,…,e−1)の入力Xi、出力Xi+1と表記すると、次式(1)に示すように、各層iは、入力特徴量Xiを中間特徴量Xi+1に変換して出力する。また、最終層である第e−1層は、中間特徴量として音声特徴量Xを出力する。
Figure 2021162798
ここで、PEは、フレーム番号1,2,…,nsubを入力として、datt次元の特徴量を出力するニューラルネットワークである。また、MHAは、3つの特徴量系列を入力として、1つ目の特徴量系列と同じ次元・長さの特徴量系列を出力するニューラルネットワークである。また、FFは、2層の全結合層とReLU(Rectified Linear Units)活性化層からなる、入力特徴量と時刻ごとに同じ次元の特徴量系列を出力するニューラルネットワークである。
なお、符号化器12bを構成する第1のニューラルネットワークは、上記(1)式以外に、前処理用のニューラルネットワークとして、例えば、2層のCNN(Convolution Neural Networks)とReLU活性化層とで構成される場合がある。その場合には、CNNの出力の長さnsub、チャネル数dattとすれば、各中間特徴量Xは、nsub×datt次元のベクトルとなる。
また、符号化器12bは、Transformerのエンコーダに限定されず、例えば、RNN(Recurrent Neural Networks)等のエンコーダであってもよい。
第1復号化器12cは、第1の算出部の一例であり、第2のニューラルネットワークを用いて、中間特徴量Xから、予測される記号列と該記号列のCTCに基づく事後確率を算出する。ここで、予測される記号列とは、教師データとして与えられる正解記号列に後続する記号を含む新たな記号列のことである。第1復号化器12cは、例えば、CTCデコーダであり、第1のニューラルネットワークを用いて、中間特徴量Xの時刻(フレーム)に対応する記号を配置した記号列であるアライメントついて、あらゆるアライメントに対する事後確率を算出する。
具体的には、第1復号化器12cは、符号化器12bの出力であるXを用いて、次式(2)に示すように、CTCに基づく事後確率pctc(Y|X)を算出して出力する。
Figure 2021162798
ここで、重み行列Wctcおよびバイアスベクトルbctcは、第2のニューラルネットワークのパラメータであり、予め学習されたものである。
そして、CTCに基づく事後確率pctc(Y|X)とは、XとYとの間の任意のアライメントに対する事後確率である。アライメントとは、各入力系列データの時刻tに対応する記号列Yを配置した系列である。例えば、5フレームからなる入力系列に対するアライメントπとして、aabcc、abbbc、aaabc、…等が挙げられる。
Cは、第1復号化器12cの出力であり、C[t,π[t]]は、出力記号π[t]とXのt番目のフレームとの間のアライメントである。
また、多対1のマッピング関数B(π)は、アライメントπから冗長な記号を取り除く関数である、例えば、φを空白記号(blank symbol)とすれば、B(aaφb)=abである。また、1対多のマッピング関数B-1は、記号列を入力として、上記したアライメントのすべての集合を出力する。
上記式(2)の第2式では、Xを観測した場合の各アライメントπの事後確率を、「時刻tに記号π[t]を配置する確率C[t,π[t]]を全時刻で総乗したもの」として算出している。
また、上記式(2)の第3式では、Xを観測した場合の記号列Yの事後確率を、「Yの出現の場合わけであるアライメントのすべてにおける上記した第2式の事後確率を総和したもの」として算出している。
第2復号化器12dは、第2の算出部の一例であり、第3のニューラルネットワークを用いて、正解記号列と中間特徴量Xとから、予測される記号列と該記号列の事後確率とを算出する。
例えば、第2復号化器12dは、Transformerにおけるデコーダである。第2復号化器12dは、符号化器12bで変換して得られた音声特徴量Xと、既に予測済みの記号列Y[1:u]=Y[1],…,Y[u]を入力とし、次式(3)に示すように、後続する記号列Y[2:u+1]を予測して出力する。
Figure 2021162798
ここで、Embedは、PEと同様のニューラルネットワークによる演算を表す関数であり、PEにおける時刻(フレーム)に代えて記号の系列Y[1:u]を入力として、datt次元の特徴量を出力する。
なお、第2復号化器12dを構成する第3のニューラルネットワークの層の総数d、第j層(j=0,1,…,d−1)の入力Zj、出力Zj+1と表記する。この場合に、第2復号化器12dは、次式(4)に示すように、Y[1:u]およびXが与えられたもとで、Transformerに基づく事後確率、つまり、次の記号がY[u+1]となる事後確率ps2s(Y|X)を算出して出力する。
Figure 2021162798
ここで、重み行列Wattおよびバイアスベクトルbattは、第3のニューラルネットワークのパラメータであり、予め学習されたものである。
なお、学習装置10は、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークを、全体として1つのend−to−endのニューラルネットワークとみなして学習する。
また、第2復号化器12dは、Transformerのデコーダに限定されず、例えば、RNN等のデコーダであってもよい。
データクレンジング部12eは、第1復号化器12cで算出された事後確率に基づいて、後述する更新部12fの処理に用いるデータを選別する。具体的には、データクレンジング部12eは、CTCに基づく事後確率が所定の閾値より大きい場合に、後述する更新部12fに処理を実行させる。
例えば、データクレンジング部12eは、CTCに基づく事後確率が所定の閾値より大きいデータのインデックスを、インデックス集合Iとして記憶部11に記憶しておく。
なお、CTCに基づく事後確率が所定の閾値以下である場合には、データクレンジング部12eは、データ選択部12aに他の音声信号を選択させる。
更新部12fは、CTCに基づく事後確率が所定の閾値より大きい場合に、第2復号化器12dが算出した事後確率と、CTCに基づく事後確率とから算出した損失関数値を用いて、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータ11aを更新する。
具体的には、更新部12fは、データクレンジング部12eが選別した音声信号について第1復号化器12cの出力に関する損失と、第2復号化器21dの出力に関する損失とを算出し、それらの和に基づいて、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークの各パラメータ11aを更新する。
ここで、第1復号化器12cの出力に関する損失は、次式(5)に示すインデックス集合Iに含まれるインデックスの入力データに対応して各復号化器の出力から算出される、次式(6)に示すCTC損失である。
Figure 2021162798
Figure 2021162798
また、第2復号化器12dの出力に関する損失は、上記式(5)のインデックス集合Iに含まれるンデックスの入力データに対応して各復号化器の出力から算出される、次式(7)に示すクロスエントロピー損失である。
Figure 2021162798
更新部12fは、上記式(6)、(7)の損失の重み付け和を損失関数値として、例えば誤差逆伝搬学習等の周知の手法を用いて、end−to−endニューラルネットワークのパラメータの値を算出し、記憶部11に記憶されているパラメータ11aを更新する。
このようにして、学習装置10は、CTCに基づく事後確率が所定の閾値以下であって、訓練データとして用いるべきではないデータを除外するデータクレンジングを、学習中に行いながら、学習を行うことが可能となる。
なお、学習装置10は、パラメータ11aの更新が行われた後、再び学習用の音声信号の入力を受け付けて、end−to−endニューラルネットワークを用いて、記号列の予測を行う。
終了判定部12gは、所定の終了条件を満たした場合に、パラメータ11aの更新を終了する。例えば、終了判定部12gは、損失関数値が所定の閾値以下となった場合、パラメータ11aの更新回数が所定の回数に到達した場合、またはパラメータ11aの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、パラメータ11aの更新を終了する。
なお、図1に示した学習装置10では、第1復号化器12cと第2復号化器12dとの処理が並列に実行される。ここで、図2は、他の実施形態の学習装置10の概略構成を例示する模式図である。図2に示すように、学習装置10は、データクレンジング部12eが選別したデータのみを、第2復号化器12dに入力するようにしてもよい。このように、データクレンジング部12eは、上記した第2復号化器12dの処理を、CTCに基づく事後確率が所定の閾値より大きい場合にのみ実行させるようにしてもよい。この場合には、第2復号化器12dの処理が軽減される。
[学習処理]
次に、図3を参照して、本実施形態に係る学習装置10による学習処理について説明する。図3は、学習処理手順を示すフローチャートである。図3のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
まず、符号化器12bが、データ選択部12aから入力された学習用の音声信号を受け付ける(ステップS1)。そして、符号化器12bが、第1のニューラルネットワークを用いて、受け付けた音声信号の特徴量を、符号化した中間特徴量に変換する(ステップS2)。
また、第1復号化器12cが、第2のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のCTCに基づく事後確率を算出する(ステップS3)。また、第2復号化器12dが、第3のニューラルネットワークを用いて、正解記号列と中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する(ステップS4)。
次に、データクレンジング部12eが、CTCに基づく事後確率が所定の閾値より大きいか否かを確認し、所定の閾値より大きい場合に(ステップS5、Yes)、ステップS6に処理を進める。一方、データクレンジング部12eは、CTCに基づく事後確率が所定の閾値以下である場合には(ステップS5、No)、ステップS1に処理を戻す。
更新部12fは、第2復号化器12dが算出した事後確率と、CTCに基づく事後確率とから算出した損失関数値を用いて、end−to−endニューラルネットワークのパラメータ11aを更新する(ステップS6)。
そして、終了判定部12gが、所定の終了条件を満たすか否かを確認する(ステップS7)。例えば、終了判定部12gは、損失関数値が所定の閾値以下となった場合、パラメータ11aの更新回数が所定の回数に到達した場合、またはパラメータ11aの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、終了条件を満たすと判定する。
終了判定部12gは、所定の終了条件を満たさないと判定した場合には(ステップS7、No)、ステップS1に処理を戻して、記号列の予測とパラメータ11aの更新とを繰り返す。一方、終了判定部22gは、所定の終了条件を満たすと判定した場合には(ステップS7、Yes)、一連の学習処理を終了する。
以上、説明したように、本実施形態の学習装置10において、符号化器12bが、第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する。また、第1復号化器12cが、第2のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のCTCに基づく事後確率を算出する。また、第2復号化器12dが、第3のニューラルネットワークを用いて、正解記号列と中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する。また、CTCに基づく事後確率が所定の閾値より大きい場合に、更新部12fが、第2復号化器12dが算出した事後確率と、CTCに基づく事後確率とから算出した損失関数値を用いて、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータを更新する。
このように、学習装置10は、CTCに基づく事後確率が所定の閾値以下であって、学習用に用いると音声認識の精度を低下させる恐れのあるデータを除外するデータクレンジングを、学習中に行うことができる。その結果、ノイズや誤り等を含む訓練データを学習に用いても、音声認識の精度の向上が可能となる。
また、学習装置10は、第2復号化器12dの処理を、CTCに基づく事後確率が所定の閾値より大きい場合に行うようにしてもよい。これにより、第2復号化器12dの処理が軽減される。
また、学習装置10は、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークを、全体として1つのend−to−endのニューラルネットワークとみなして学習する。これにより、音声認識処理が最適化され、より高精度に音声認識が可能となる。
また、学習装置10は、終了判定部12gが、損失関数値が所定の閾値以下となった場合、パラメータ11aの更新回数が所定の回数に到達した場合、またはパラメータ11aの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、パラメータ11aの更新を終了する。これにより、学習処理の処理負荷を抑制することが可能となる。
[プログラム]
上記実施形態に係る学習装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、学習装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声認識処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10として機能させることができる。
ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistant)などのスレート端末などがその範疇に含まれる。また、学習装置10の機能を、クラウドサーバに実装してもよい。
図4は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
また、学習プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した学習装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
また、学習プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、学習プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、学習プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
10 学習装置
11 記憶部
11a パラメータ
12 制御部
12a データ選択部
12b 符号化器
12c 第1復号化器(CTCデコーダ)
12d 第2復号化器
12e データクレンジング部
12f 更新部
12g 終了判定部

Claims (6)

  1. 第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換部と、
    第2のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第1の算出部と、
    第3のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第2の算出部と、
    前記CTCに基づく事後確率が所定の閾値より大きい場合に、前記第2の算出部が算出した前記事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新する更新部と、
    を有することを特徴とする学習装置。
  2. 前記第2の算出部の処理を、前記CTCに基づく事後確率が所定の閾値より大きい場合に行うことを特徴とする請求項1に記載の学習装置。
  3. 前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークを、全体として1つのend−to−endのニューラルネットワークとみなして学習することを特徴とする請求項1に記載の学習装置。
  4. 前記損失関数値が所定の閾値以下となった場合、前記パラメータの更新回数が所定の回数に到達した場合、または前記パラメータの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、前記パラメータの更新を終了する終了判定部をさらに有することを特徴とする請求項1に記載の学習装置。
  5. 学習装置で実行される学習方法であって、
    第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換工程と、
    第2のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第1の算出工程と、
    第3のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第2の算出工程と、
    前記CTCに基づく事後確率が所定の閾値より大きい場合に、前記第2の算出工程が算出した前記事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新する更新工程と、
    を含んだことを特徴とする学習方法。
  6. 第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換ステップと、
    第2のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第1の算出ステップと、
    第3のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第2の算出ステップと、
    前記CTCに基づく事後確率が所定の閾値より大きい場合に、前記第2の算出ステップが算出した前記事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新する更新ステップと、
    をコンピュータに実行させるための学習プログラム。
JP2020066879A 2020-04-02 2020-04-02 学習装置、学習方法および学習プログラム Active JP7274441B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020066879A JP7274441B2 (ja) 2020-04-02 2020-04-02 学習装置、学習方法および学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020066879A JP7274441B2 (ja) 2020-04-02 2020-04-02 学習装置、学習方法および学習プログラム

Publications (2)

Publication Number Publication Date
JP2021162798A true JP2021162798A (ja) 2021-10-11
JP7274441B2 JP7274441B2 (ja) 2023-05-16

Family

ID=78004876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020066879A Active JP7274441B2 (ja) 2020-04-02 2020-04-02 学習装置、学習方法および学習プログラム

Country Status (1)

Country Link
JP (1) JP7274441B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017027049A (ja) * 2015-07-22 2017-02-02 グーグル インコーポレイテッド 個別化されたホットワード検出モデル
JP2018031812A (ja) * 2016-08-22 2018-03-01 日本電信電話株式会社 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
JP2020505650A (ja) * 2017-05-11 2020-02-20 三菱電機株式会社 音声認識システム及び音声認識の方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017027049A (ja) * 2015-07-22 2017-02-02 グーグル インコーポレイテッド 個別化されたホットワード検出モデル
JP2018031812A (ja) * 2016-08-22 2018-03-01 日本電信電話株式会社 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
JP2020505650A (ja) * 2017-05-11 2020-02-20 三菱電機株式会社 音声認識システム及び音声認識の方法

Also Published As

Publication number Publication date
JP7274441B2 (ja) 2023-05-16

Similar Documents

Publication Publication Date Title
CN113905391B (zh) 集成学习网络流量预测方法、系统、设备、终端、介质
CN111128137B (zh) 一种声学模型的训练方法、装置、计算机设备和存储介质
CN108804611B (zh) 一种基于自我评论序列学习的对话回复生成方法及系统
CN112435656B (zh) 模型训练方法、语音识别方法、装置、设备及存储介质
CN111081230B (zh) 语音识别方法和设备
CN113628059B (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN116884391B (zh) 基于扩散模型的多模态融合音频生成方法及装置
US20210073645A1 (en) Learning apparatus and method, and program
KR20190136578A (ko) 음성 인식 방법 및 장치
KR20210042696A (ko) 모델 학습 방법 및 장치
CN115803806A (zh) 用于训练双模式机器学习言语识别模型的系统和方法
CN115762489A (zh) 语音识别模型的数据处理系统及方法、语音识别方法
JP7329393B2 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
CN116341651A (zh) 实体识别模型训练方法、装置、电子设备及存储介质
CN115222046A (zh) 神经网络结构搜索方法、装置、电子设备及存储介质
JP2021039220A (ja) 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム
JP6973192B2 (ja) 言語モデルを利用する装置、方法及びプログラム
CN111797220A (zh) 对话生成方法、装置、计算机设备和存储介质
JP2021162798A (ja) 学習装置、学習方法および学習プログラム
JP6633556B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
CN112885367B (zh) 基频获取方法、装置、计算机设备和存储介质
CN114912441A (zh) 文本纠错模型生成方法、纠错方法、系统、设备和介质
CN114023310A (zh) 应用于语音数据处理的方法、装置及计算机程序产品
JP2021039218A (ja) 学習装置、学習方法及び学習プログラム
JP2021135314A (ja) 学習装置、音声認識装置、学習方法、および、学習プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200403

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220728

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230418

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230501

R150 Certificate of patent or registration of utility model

Ref document number: 7274441

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150