JP7274441B2 - LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM - Google Patents
LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM Download PDFInfo
- Publication number
- JP7274441B2 JP7274441B2 JP2020066879A JP2020066879A JP7274441B2 JP 7274441 B2 JP7274441 B2 JP 7274441B2 JP 2020066879 A JP2020066879 A JP 2020066879A JP 2020066879 A JP2020066879 A JP 2020066879A JP 7274441 B2 JP7274441 B2 JP 7274441B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- learning
- symbol string
- posterior probability
- ctc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、学習装置、学習方法および学習プログラムに関する。 The present invention relates to a learning device, a learning method, and a learning program.
従来の音声認識モデルは、音響モデルと言語モデルとを別々の系として学習させている。これに対し、ニューラルネットワークを用いたend-to-endの音声認識モデルの学習技術が注目されている(非特許文献1参照)。この技術では、音声を入力とし、記号列を特定する情報を出力する系全体として最適化を行うことができるので、従来の音声認識より精度の高い音声認識が可能となる。 A conventional speech recognition model trains an acoustic model and a language model as separate systems. On the other hand, a technique for learning an end-to-end speech recognition model using a neural network is attracting attention (see Non-Patent Document 1). With this technology, the overall system that takes speech as an input and outputs information specifying a symbol string can be optimized, so speech recognition with higher accuracy than conventional speech recognition is possible.
また、一般に、モデルの学習では、訓練データの数を増やすほど、学習の結果として得られるモデルの精度が向上することが期待される。例えば、音声認識モデルの学習において、ノイズを含まないクリーンな音声データと、その書き起こしテキストとのペアからなる理想的な状態の訓練データを用いれば、訓練データの数を増やすほど、音声認識の精度が向上する。 Also, in model learning, it is generally expected that the more the number of training data is increased, the more the accuracy of the model obtained as a result of learning is improved. For example, in training a speech recognition model, if ideal training data consisting of a pair of clean speech data without noise and its transcript is used, the more the training data, the better the speech recognition performance. Improves accuracy.
しかしながら、ノイズ等を含む訓練データを学習に用いても、音声認識の精度の向上が困難な場合がある。例えば、現実の音声認識では、多くの訓練データには雑音等が含まれており、ノイズを含まないクリーンな音声データを大量に用意することは困難である。また、ノイズや誤り等を含む訓練データの数を増やして学習しても、却って音声認識の精度が低下してしまう場合がある。 However, even if training data containing noise or the like is used for learning, it may be difficult to improve the accuracy of speech recognition. For example, in actual speech recognition, much training data contains noise and the like, and it is difficult to prepare a large amount of clean speech data that does not contain noise. In addition, even if the number of training data containing noise, errors, etc. is increased for learning, the accuracy of speech recognition may rather deteriorate.
本発明は、上記に鑑みてなされたものであって、ノイズ等を含む訓練データを学習に用いても、音声認識の精度の向上を可能とすることを目的とする。 SUMMARY OF THE INVENTION It is an object of the present invention to improve the accuracy of speech recognition even when training data containing noise and the like is used for learning.
上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換部と、第2のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第1の算出部と、第3のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第2の算出部と、前記CTCに基づく事後確率が所定の閾値より大きい場合に、前記第2の算出部が算出した前記事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新する更新部と、を有することを特徴とする。 In order to solve the above-described problems and achieve the object, the learning apparatus according to the present invention uses a first neural network to convert the feature amount of an input speech signal for learning into an encoded intermediate feature amount. and a second neural network, a symbol string to be predicted from the intermediate feature amount and a posterior probability based on CTC (Connectionist Temporal Classification) of the symbol string. and a second calculation unit that calculates a predicted symbol string and the posterior probability of the symbol string from the correct symbol string and the intermediate feature value using a third neural network, and the posterior probability based on the CTC When the probability is greater than a predetermined threshold, the first neural network uses the loss function value calculated from the posterior probability calculated by the second calculation unit and the posterior probability based on the CTC, the and an updating unit that updates parameters of the second neural network and the third neural network.
本発明によれば、ノイズ等を含む訓練データを学習に用いても、音声認識の精度の向上が可能となる。 According to the present invention, it is possible to improve the accuracy of speech recognition even if training data containing noise or the like is used for learning.
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。 An embodiment of the present invention will be described in detail below with reference to the drawings. It should be noted that the present invention is not limited by this embodiment. Moreover, in the description of the drawings, the same parts are denoted by the same reference numerals.
[学習装置の構成]
図1は、本実施形態の学習装置の概略構成を例示する模式図である。図1に例示するように、本実施形態の学習装置10は、パソコン等の汎用コンピュータで実現され、記憶部11、および制御部12を備える。
[Configuration of learning device]
FIG. 1 is a schematic diagram illustrating the schematic configuration of the learning device of this embodiment. As illustrated in FIG. 1, a learning device 10 of this embodiment is implemented by a general-purpose computer such as a personal computer, and includes a storage unit 11 and a control unit 12 .
記憶部11は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部11には、学習装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。 The storage unit 11 is realized by a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk. In the storage unit 11, a processing program for operating the learning device 10, data used during execution of the processing program, and the like are stored in advance, or are temporarily stored each time processing is performed.
本実施形態において、記憶部11は、後述するend-to-endニューラルネットワークのパラメータ11aを記憶する。これらのパラメータ11aは、後述する学習処理により更新される。
In this embodiment, the storage unit 11
制御部12は、CPU(Central Processing Unit)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部12は、図1に例示するように、データ選択部12a、符号化器12b、第1復号化器12c、第2復号化器12d、データクレンジング部12e、更新部12fおよび終了判定部12gとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。また、制御部12は、その他の機能部を備えてもよい。
The control unit 12 is implemented using a CPU (Central Processing Unit) or the like, and executes a processing program stored in a memory. Accordingly, as illustrated in FIG. 1, the control unit 12 includes a data selection unit 12a, an
データ選択部12aは、学習用の音声信号の入力を受け付ける。具体的には、データ選択部12aは、入力された訓練データの集合から、後述する学習処理に用いる音声信号を選択し、後述する符号化器12bに入力する。なお、訓練データのうち、全ての音声信号が符号化器12bに入力された場合には、後述する更新部12fの処理が実行されるようにしてもよい。
The data selector 12a accepts an input of an audio signal for learning. Specifically, the data selection unit 12a selects an audio signal to be used in a learning process, which will be described later, from a set of input training data, and inputs it to the
符号化器12bは、変換部の一例であり、第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する。符号化器12bは、例えば、Transformerエンコーダであり、単位時間ごとの音声信号の特徴量である対数メルフィルタバンク特徴量Xfbankを、前処理用のニューラルネットワークによって長さ等を縮約した特徴量Xsubを入力として受け付ける。そして、符号化器12bは、特徴量Xsubを第1のニューラルネットワークにより中間特徴量に変換して出力する。
The
ここで、符号化器12bを構成する第1のニューラルネットワークの層の総数e、第i層(i=0,1,…,e-1)の入力Xi、出力Xi+1と表記すると、次式(1)に示すように、各層iは、入力特徴量Xiを中間特徴量Xi+1に変換して出力する。また、最終層である第e-1層は、中間特徴量として音声特徴量Xeを出力する。
Here, if the total number of layers of the first neural network constituting the
ここで、PEは、フレーム番号1,2,…,nsubを入力として、datt次元の特徴量を出力するニューラルネットワークである。また、MHAは、3つの特徴量系列を入力として、1つ目の特徴量系列と同じ次元・長さの特徴量系列を出力するニューラルネットワークである。また、FFは、2層の全結合層とReLU(Rectified Linear Units)活性化層からなる、入力特徴量と時刻ごとに同じ次元の特徴量系列を出力するニューラルネットワークである。
Here, PE is a neural network that receives frame
なお、符号化器12bを構成する第1のニューラルネットワークは、上記(1)式以外に、前処理用のニューラルネットワークとして、例えば、2層のCNN(Convolution Neural Networks)とReLU活性化層とで構成される場合がある。その場合には、CNNの出力の長さnsub、チャネル数dattとすれば、各中間特徴量Xiは、nsub×datt次元のベクトルとなる。
In addition to the above equation (1), the first neural network constituting the
また、符号化器12bは、Transformerのエンコーダに限定されず、例えば、RNN(Recurrent Neural Networks)等のエンコーダであってもよい。
Further, the
第1復号化器12cは、第1の算出部の一例であり、第2のニューラルネットワークを用いて、中間特徴量Xeから、予測される記号列と該記号列のCTCに基づく事後確率を算出する。ここで、予測される記号列とは、教師データとして与えられる正解記号列に後続する記号を含む新たな記号列のことである。第1復号化器12cは、例えば、CTCデコーダであり、第1のニューラルネットワークを用いて、中間特徴量Xeの時刻(フレーム)に対応する記号を配置した記号列であるアライメントついて、あらゆるアライメントに対する事後確率を算出する。 The first decoder 12c is an example of a first calculator, and uses a second neural network to obtain a predicted symbol string and a CTC-based posterior probability of the symbol string from the intermediate feature Xe . calculate. Here, the predicted symbol string is a new symbol string that includes symbols following the correct symbol string given as training data. The first decoder 12c is, for example, a CTC decoder, and uses a first neural network to determine any alignment, which is a symbol string in which symbols corresponding to the time (frame) of the intermediate feature Xe are arranged. Calculate the posterior probability for
具体的には、第1復号化器12cは、符号化器12bの出力であるXeを用いて、次式(2)に示すように、CTCに基づく事後確率pctc(Y|Xe)を算出して出力する。
Specifically, the first decoder 12c uses X e that is the output of the
ここで、重み行列Wctcおよびバイアスベクトルbctcは、第2のニューラルネットワークのパラメータであり、予め学習されたものである。 Here, the weight matrix W ctc and the bias vector b ctc are parameters of the second neural network and are learned in advance.
そして、CTCに基づく事後確率pctc(Y|Xe)とは、XeとYとの間の任意のアライメントに対する事後確率である。アライメントとは、各入力系列データの時刻tに対応する記号列Yを配置した系列である。例えば、5フレームからなる入力系列に対するアライメントπとして、aabcc、abbbc、aaabc、…等が挙げられる。 And the CTC-based posterior probability p ctc (Y|X e ) is the posterior probability for any alignment between X e and Y. Alignment is a sequence in which symbol strings Y corresponding to time t of each input sequence data are arranged. For example, aabcc, abbbc, aaabc, .
Cは、第1復号化器12cの出力であり、C[t,π[t]]は、出力記号π[t]とXeのt番目のフレームとの間のアライメントである。 C is the output of the first decoder 12c and C[t,π[t]] is the alignment between the output symbol π[t] and the tth frame of Xe .
また、多対1のマッピング関数B(π)は、アライメントπから冗長な記号を取り除く関数である、例えば、φを空白記号(blank symbol)とすれば、B(aaφb)=abである。また、1対多のマッピング関数B-1は、記号列を入力として、上記したアライメントのすべての集合を出力する。 Also, the many-to-one mapping function B(π) is a function that removes redundant symbols from the alignment π. For example, if φ is a blank symbol, B(aaφb)=ab. Also, the one-to-many mapping function B −1 takes the symbol string as input and outputs a set of all the above alignments.
上記式(2)の第2式では、Xeを観測した場合の各アライメントπの事後確率を、「時刻tに記号π[t]を配置する確率C[t,π[t]]を全時刻で総乗したもの」として算出している。 In the second formula of the above formula (2), the posterior probability of each alignment π when X e is observed is defined as “probability C[t, π[t]] of arranging symbol π[t] at time t. It is calculated as the product of time.
また、上記式(2)の第3式では、Xeを観測した場合の記号列Yの事後確率を、「Yの出現の場合わけであるアライメントのすべてにおける上記した第2式の事後確率を総和したもの」として算出している。 In addition, in the third formula of the above formula (2), the posterior probability of the symbol string Y when X e is observed is expressed as "the posterior probability of the second formula above for all alignments in which Y appears. It is calculated as the sum total.
第2復号化器12dは、第2の算出部の一例であり、第3のニューラルネットワークを用いて、正解記号列と中間特徴量Xeとから、予測される記号列と該記号列の事後確率とを算出する。
The
例えば、第2復号化器12dは、Transformerにおけるデコーダである。第2復号化器12dは、符号化器12bで変換して得られた音声特徴量Xeと、既に予測済みの記号列Y[1:u]=Y[1],…,Y[u]を入力とし、次式(3)に示すように、後続する記号列Y[2:u+1]を予測して出力する。
For example, the
ここで、Embedは、PEと同様のニューラルネットワークによる演算を表す関数であり、PEにおける時刻(フレーム)に代えて記号の系列Y[1:u]を入力として、datt次元の特徴量を出力する。 Here, Embed is a function that expresses computation by a neural network similar to PE, and outputs a d att -dimensional feature amount by inputting a series of symbols Y[1:u] instead of the time (frame) in PE. do.
なお、第2復号化器12dを構成する第3のニューラルネットワークの層の総数d、第j層(j=0,1,…,d-1)の入力Zj、出力Zj+1と表記する。この場合に、第2復号化器12dは、次式(4)に示すように、Y[1:u]およびXeが与えられたもとで、Transformerに基づく事後確率、つまり、次の記号がY[u+1]となる事後確率ps2s(Y|Xe)を算出して出力する。
The total number of layers of the third neural network constituting the
ここで、重み行列Wattおよびバイアスベクトルbattは、第3のニューラルネットワークのパラメータであり、予め学習されたものである。 Here, the weight matrix W att and the bias vector b att are the parameters of the third neural network and are learned in advance.
なお、学習装置10は、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークを、全体として1つのend-to-endのニューラルネットワークとみなして学習する。 The learning device 10 learns by regarding the first neural network, the second neural network, and the third neural network as one end-to-end neural network as a whole.
また、第2復号化器12dは、Transformerのデコーダに限定されず、例えば、RNN等のデコーダであってもよい。
Further, the
データクレンジング部12eは、第1復号化器12cで算出された事後確率に基づいて、後述する更新部12fの処理に用いるデータを選別する。具体的には、データクレンジング部12eは、CTCに基づく事後確率が所定の閾値より大きい場合に、後述する更新部12fに処理を実行させる。 Based on the posterior probability calculated by the first decoder 12c, the data cleansing unit 12e selects data to be used for processing by the updating unit 12f, which will be described later. Specifically, when the CTC-based posterior probability is greater than a predetermined threshold, the data cleansing unit 12e causes the updating unit 12f, which will be described later, to perform processing.
例えば、データクレンジング部12eは、CTCに基づく事後確率が所定の閾値より大きいデータのインデックスを、インデックス集合Iとして記憶部11に記憶しておく。 For example, the data cleansing unit 12e stores, as an index set I, in the storage unit 11, indexes of data whose CTC-based posterior probabilities are greater than a predetermined threshold.
なお、CTCに基づく事後確率が所定の閾値以下である場合には、データクレンジング部12eは、データ選択部12aに他の音声信号を選択させる。 Note that when the posterior probability based on CTC is equal to or less than a predetermined threshold, the data cleansing unit 12e causes the data selection unit 12a to select another audio signal.
更新部12fは、CTCに基づく事後確率が所定の閾値より大きい場合に、第2復号化器12dが算出した事後確率と、CTCに基づく事後確率とから算出した損失関数値を用いて、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータ11aを更新する。
When the CTC-based posterior probability is greater than a predetermined threshold, the updating unit 12f uses the loss function value calculated from the posterior probability calculated by the
具体的には、更新部12fは、データクレンジング部12eが選別した音声信号について第1復号化器12cの出力に関する損失と、第2復号化器21dの出力に関する損失とを算出し、それらの和に基づいて、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークの各パラメータ11aを更新する。
Specifically, the updating unit 12f calculates the loss related to the output of the first decoder 12c and the loss related to the output of the second decoder 21d for the audio signal selected by the data cleansing unit 12e, and sums them update the
ここで、第1復号化器12cの出力に関する損失は、次式(5)に示すインデックス集合Iに含まれるインデックスの入力データに対応して各復号化器の出力から算出される、次式(6)に示すCTC損失である。 Here, the loss related to the output of the first decoder 12c is calculated from the output of each decoder corresponding to the input data of the index included in the index set I shown in the following equation (5). 6) is the CTC loss shown in FIG.
また、第2復号化器12dの出力に関する損失は、上記式(5)のインデックス集合Iに含まれるンデックスの入力データに対応して各復号化器の出力から算出される、次式(7)に示すクロスエントロピー損失である。
Also, the loss related to the output of the
更新部12fは、上記式(6)、(7)の損失の重み付け和を損失関数値として、例えば誤差逆伝搬学習等の周知の手法を用いて、end-to-endニューラルネットワークのパラメータの値を算出し、記憶部11に記憶されているパラメータ11aを更新する。
The update unit 12f uses the weighted sum of the losses of the above equations (6) and (7) as a loss function value, and uses a well-known technique such as error backpropagation learning to obtain the parameter values of the end-to-end neural network. is calculated, and the
このようにして、学習装置10は、CTCに基づく事後確率が所定の閾値以下であって、訓練データとして用いるべきではないデータを除外するデータクレンジングを、学習中に行いながら、学習を行うことが可能となる。 In this way, the learning device 10 can perform learning while performing data cleansing to exclude data that should not be used as training data because the CTC-based posterior probability is equal to or less than a predetermined threshold value during learning. It becomes possible.
なお、学習装置10は、パラメータ11aの更新が行われた後、再び学習用の音声信号の入力を受け付けて、end-to-endニューラルネットワークを用いて、記号列の予測を行う。
Note that after the
終了判定部12gは、所定の終了条件を満たした場合に、パラメータ11aの更新を終了する。例えば、終了判定部12gは、損失関数値が所定の閾値以下となった場合、パラメータ11aの更新回数が所定の回数に到達した場合、またはパラメータ11aの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、パラメータ11aの更新を終了する。
The
なお、図1に示した学習装置10では、第1復号化器12cと第2復号化器12dとの処理が並列に実行される。ここで、図2は、他の実施形態の学習装置10の概略構成を例示する模式図である。図2に示すように、学習装置10は、データクレンジング部12eが選別したデータのみを、第2復号化器12dに入力するようにしてもよい。このように、データクレンジング部12eは、上記した第2復号化器12dの処理を、CTCに基づく事後確率が所定の閾値より大きい場合にのみ実行させるようにしてもよい。この場合には、第2復号化器12dの処理が軽減される。
Note that in the learning device 10 shown in FIG. 1, the processes of the first decoder 12c and the
[学習処理]
次に、図3を参照して、本実施形態に係る学習装置10による学習処理について説明する。図3は、学習処理手順を示すフローチャートである。図3のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
[Learning process]
Next, learning processing by the learning device 10 according to the present embodiment will be described with reference to FIG. FIG. 3 is a flow chart showing the learning processing procedure. The flowchart in FIG. 3 is started, for example, at the timing when the user performs an operation input instructing the start.
まず、符号化器12bが、データ選択部12aから入力された学習用の音声信号を受け付ける(ステップS1)。そして、符号化器12bが、第1のニューラルネットワークを用いて、受け付けた音声信号の特徴量を、符号化した中間特徴量に変換する(ステップS2)。
First, the
また、第1復号化器12cが、第2のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のCTCに基づく事後確率を算出する(ステップS3)。また、第2復号化器12dが、第3のニューラルネットワークを用いて、正解記号列と中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する(ステップS4)。
Also, the first decoder 12c uses the second neural network to calculate the predicted symbol string and the CTC-based posterior probability of the symbol string from the intermediate feature amount (step S3). Also, the
次に、データクレンジング部12eが、CTCに基づく事後確率が所定の閾値より大きいか否かを確認し、所定の閾値より大きい場合に(ステップS5、Yes)、ステップS6に処理を進める。一方、データクレンジング部12eは、CTCに基づく事後確率が所定の閾値以下である場合には(ステップS5、No)、ステップS1に処理を戻す。 Next, the data cleansing unit 12e checks whether the CTC-based posterior probability is greater than a predetermined threshold, and if it is greater than the predetermined threshold (step S5, Yes), the process proceeds to step S6. On the other hand, when the CTC-based posterior probability is equal to or less than the predetermined threshold (step S5, No), the data cleansing unit 12e returns the process to step S1.
更新部12fは、第2復号化器12dが算出した事後確率と、CTCに基づく事後確率とから算出した損失関数値を用いて、end-to-endニューラルネットワークのパラメータ11aを更新する(ステップS6)。
The updating unit 12f updates the
そして、終了判定部12gが、所定の終了条件を満たすか否かを確認する(ステップS7)。例えば、終了判定部12gは、損失関数値が所定の閾値以下となった場合、パラメータ11aの更新回数が所定の回数に到達した場合、またはパラメータ11aの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、終了条件を満たすと判定する。
Then, the
終了判定部12gは、所定の終了条件を満たさないと判定した場合には(ステップS7、No)、ステップS1に処理を戻して、記号列の予測とパラメータ11aの更新とを繰り返す。一方、終了判定部22gは、所定の終了条件を満たすと判定した場合には(ステップS7、Yes)、一連の学習処理を終了する。
When the
以上、説明したように、本実施形態の学習装置10において、符号化器12bが、第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する。また、第1復号化器12cが、第2のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のCTCに基づく事後確率を算出する。また、第2復号化器12dが、第3のニューラルネットワークを用いて、正解記号列と中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する。また、CTCに基づく事後確率が所定の閾値より大きい場合に、更新部12fが、第2復号化器12dが算出した事後確率と、CTCに基づく事後確率とから算出した損失関数値を用いて、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータを更新する。
As described above, in the learning apparatus 10 of the present embodiment, the
このように、学習装置10は、CTCに基づく事後確率が所定の閾値以下であって、学習用に用いると音声認識の精度を低下させる恐れのあるデータを除外するデータクレンジングを、学習中に行うことができる。その結果、ノイズや誤り等を含む訓練データを学習に用いても、音声認識の精度の向上が可能となる。 In this way, the learning device 10 performs data cleansing during learning to exclude data whose posterior probability based on CTC is equal to or less than a predetermined threshold and which may reduce the accuracy of speech recognition when used for learning. be able to. As a result, even if training data containing noise, errors, etc. is used for learning, the accuracy of speech recognition can be improved.
また、学習装置10は、第2復号化器12dの処理を、CTCに基づく事後確率が所定の閾値より大きい場合に行うようにしてもよい。これにより、第2復号化器12dの処理が軽減される。
Also, the learning device 10 may perform the processing of the
また、学習装置10は、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークを、全体として1つのend-to-endのニューラルネットワークとみなして学習する。これにより、音声認識処理が最適化され、より高精度に音声認識が可能となる。 In addition, learning device 10 learns by regarding the first neural network, the second neural network, and the third neural network as one end-to-end neural network as a whole. This optimizes the speech recognition process and enables more accurate speech recognition.
また、学習装置10は、終了判定部12gが、損失関数値が所定の閾値以下となった場合、パラメータ11aの更新回数が所定の回数に到達した場合、またはパラメータ11aの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、パラメータ11aの更新を終了する。これにより、学習処理の処理負荷を抑制することが可能となる。
Further, the learning device 10 determines that the loss function value is equal to or less than a predetermined threshold value, the number of updates of the
[プログラム]
上記実施形態に係る学習装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、学習装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声認識処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10として機能させることができる。
[program]
It is also possible to create a program in which the processing executed by the learning device 10 according to the above embodiment is described in a computer-executable language. As one embodiment, the learning device 10 can be implemented by installing a learning program that executes the above-described speech recognition processing as package software or online software on a desired computer. For example, the information processing device can function as the learning device 10 by causing the information processing device to execute the learning program.
ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistant)などのスレート端末などがその範疇に含まれる。また、学習装置10の機能を、クラウドサーバに実装してもよい。 The information processing apparatus referred to here includes a desktop or notebook personal computer. In addition, information processing devices include smart phones, mobile communication terminals such as mobile phones and PHSs (Personal Handyphone Systems), and slate terminals such as PDAs (Personal Digital Assistants). Also, the functions of the learning device 10 may be implemented in a cloud server.
図4は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
FIG. 4 is a diagram showing an example of a computer that executes a learning program.
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
The
ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
Here, the
また、学習プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した学習装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
The learning program is also stored in
また、学習プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
Data used for information processing by the learning program is stored as
なお、学習プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、学習プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
Note that the
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。 Although the embodiments to which the invention made by the present inventor is applied have been described above, the present invention is not limited by the descriptions and drawings forming a part of the disclosure of the present invention according to the embodiments. That is, other embodiments, examples, operation techniques, etc. made by those skilled in the art based on this embodiment are all included in the scope of the present invention.
10 学習装置
11 記憶部
11a パラメータ
12 制御部
12a データ選択部
12b 符号化器
12c 第1復号化器(CTCデコーダ)
12d 第2復号化器
12e データクレンジング部
12f 更新部
12g 終了判定部
REFERENCE SIGNS LIST 10 learning device 11
12d second decoder 12e data cleansing unit
Claims (6)
第2のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第1の算出部と、
第3のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第2の算出部と、
前記CTCに基づく事後確率が所定の閾値より大きい場合に、前記第2の算出部が算出した前記事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新する更新部と、
を有することを特徴とする学習装置。 a conversion unit that converts the feature quantity of the input speech signal for learning into a coded intermediate feature quantity using the first neural network;
a first calculation unit that calculates a predicted symbol string and a posterior probability based on CTC (Connectionist Temporal Classification) of the symbol string from the intermediate feature amount using a second neural network;
a second calculation unit that calculates a predicted symbol string and the posterior probability of the symbol string from the correct symbol string and the intermediate feature using a third neural network;
When the posterior probability based on the CTC is greater than a predetermined threshold, using the loss function value calculated from the posterior probability calculated by the second calculation unit and the posterior probability based on the CTC, an updating unit that updates the parameters of the neural network of, the second neural network and the third neural network;
A learning device characterized by comprising:
第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換工程と、
第2のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第1の算出工程と、
第3のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第2の算出工程と、
前記CTCに基づく事後確率が所定の閾値より大きい場合に、前記第2の算出工程が算出した前記事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新する更新工程と、
を含んだことを特徴とする学習方法。 A learning method executed by a learning device, comprising:
a conversion step of converting the feature quantity of the input learning speech signal into an encoded intermediate feature quantity using the first neural network;
A first calculation step of calculating a predicted symbol string and a posterior probability based on CTC (Connectionist Temporal Classification) of the symbol string from the intermediate feature amount using a second neural network;
a second calculation step of calculating a predicted symbol string and the posterior probability of the symbol string from the correct symbol string and the intermediate feature amount using a third neural network;
When the posterior probability based on the CTC is greater than a predetermined threshold, using the loss function value calculated from the posterior probability calculated by the second calculation step and the posterior probability based on the CTC, an updating step of updating parameters of the neural network of, the second neural network and the third neural network;
A learning method comprising:
第2のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第1の算出ステップと、
第3のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第2の算出ステップと、
前記CTCに基づく事後確率が所定の閾値より大きい場合に、前記第2の算出ステップが算出した前記事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新する更新ステップと、
をコンピュータに実行させるための学習プログラム。 a transformation step of transforming the feature quantity of the input speech signal for learning into a coded intermediate feature quantity using the first neural network;
a first calculation step of calculating a predicted symbol string and a posterior probability based on CTC (Connectionist Temporal Classification) of the symbol string from the intermediate feature amount using a second neural network;
a second calculation step of calculating a predicted symbol string and the posterior probability of the symbol string from the correct symbol string and the intermediate feature using a third neural network;
When the CTC-based posterior probability is greater than a predetermined threshold, the first an updating step of updating parameters of the neural network of, the second neural network and the third neural network;
A learning program for making a computer execute
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020066879A JP7274441B2 (en) | 2020-04-02 | 2020-04-02 | LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020066879A JP7274441B2 (en) | 2020-04-02 | 2020-04-02 | LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021162798A JP2021162798A (en) | 2021-10-11 |
JP7274441B2 true JP7274441B2 (en) | 2023-05-16 |
Family
ID=78004876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020066879A Active JP7274441B2 (en) | 2020-04-02 | 2020-04-02 | LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7274441B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017027049A (en) | 2015-07-22 | 2017-02-02 | グーグル インコーポレイテッド | Individualized hotword detection model |
JP2018031812A (en) | 2016-08-22 | 2018-03-01 | 日本電信電話株式会社 | Sound data processor, method for processing sound data, and sound data processing program |
JP2020505650A (en) | 2017-05-11 | 2020-02-20 | 三菱電機株式会社 | Voice recognition system and voice recognition method |
-
2020
- 2020-04-02 JP JP2020066879A patent/JP7274441B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017027049A (en) | 2015-07-22 | 2017-02-02 | グーグル インコーポレイテッド | Individualized hotword detection model |
JP2018031812A (en) | 2016-08-22 | 2018-03-01 | 日本電信電話株式会社 | Sound data processor, method for processing sound data, and sound data processing program |
JP2020505650A (en) | 2017-05-11 | 2020-02-20 | 三菱電機株式会社 | Voice recognition system and voice recognition method |
Also Published As
Publication number | Publication date |
---|---|
JP2021162798A (en) | 2021-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6712642B2 (en) | Model learning device, method and program | |
US11113479B2 (en) | Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query | |
JP7273108B2 (en) | MODEL TRAINING METHOD, APPARATUS, ELECTRONIC DEVICE, STORAGE MEDIUM, PROGRAM | |
US20140257803A1 (en) | Conservatively adapting a deep neural network in a recognition system | |
US20140156575A1 (en) | Method and Apparatus of Processing Data Using Deep Belief Networks Employing Low-Rank Matrix Factorization | |
CN111354333B (en) | Self-attention-based Chinese prosody level prediction method and system | |
US11886813B2 (en) | Efficient automatic punctuation with robust inference | |
CN111310441A (en) | Text correction method, device, terminal and medium based on BERT (binary offset transcription) voice recognition | |
CN110275928B (en) | Iterative entity relation extraction method | |
WO2019006541A1 (en) | System and method for automatic building of learning machines using learning machines | |
WO2019163718A1 (en) | Learning device, speech recognition order estimation device, methods therefor, and program | |
WO2019138897A1 (en) | Learning device and method, and program | |
KR20210042696A (en) | Apparatus and method for learning model | |
CN115803806A (en) | Systems and methods for training dual-mode machine-learned speech recognition models | |
CN114528387A (en) | Deep learning conversation strategy model construction method and system based on conversation flow bootstrap | |
JP7212596B2 (en) | LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM | |
CN111832699A (en) | Computationally efficient expressive output layer for neural networks | |
JP6973192B2 (en) | Devices, methods and programs that utilize the language model | |
CN111737957B (en) | Chinese character pinyin conversion method and device, electronic equipment and storage medium | |
JP7274441B2 (en) | LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM | |
JP2023046213A (en) | Method, information processing device and program for performing transfer learning while suppressing occurrence of catastrophic forgetting | |
CN110852361B (en) | Image classification method and device based on improved deep neural network and electronic equipment | |
JP7192995B2 (en) | Determination device, learning device, determination method and determination program | |
CN115053235A (en) | Sequence modeling using interpolation | |
WO2022185457A1 (en) | Feature quantity extraction device, learning device, feature quantity extraction method, learning method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200403 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220728 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230418 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230501 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7274441 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |