JP7274441B2 - LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM - Google Patents

LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM Download PDF

Info

Publication number
JP7274441B2
JP7274441B2 JP2020066879A JP2020066879A JP7274441B2 JP 7274441 B2 JP7274441 B2 JP 7274441B2 JP 2020066879 A JP2020066879 A JP 2020066879A JP 2020066879 A JP2020066879 A JP 2020066879A JP 7274441 B2 JP7274441 B2 JP 7274441B2
Authority
JP
Japan
Prior art keywords
neural network
learning
symbol string
posterior probability
ctc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020066879A
Other languages
Japanese (ja)
Other versions
JP2021162798A (en
Inventor
成樹 苅田
厚徳 小川
晋治 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Johns Hopkins University
Original Assignee
Johns Hopkins University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Johns Hopkins University filed Critical Johns Hopkins University
Priority to JP2020066879A priority Critical patent/JP7274441B2/en
Publication of JP2021162798A publication Critical patent/JP2021162798A/en
Application granted granted Critical
Publication of JP7274441B2 publication Critical patent/JP7274441B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、学習装置、学習方法および学習プログラムに関する。 The present invention relates to a learning device, a learning method, and a learning program.

従来の音声認識モデルは、音響モデルと言語モデルとを別々の系として学習させている。これに対し、ニューラルネットワークを用いたend-to-endの音声認識モデルの学習技術が注目されている(非特許文献1参照)。この技術では、音声を入力とし、記号列を特定する情報を出力する系全体として最適化を行うことができるので、従来の音声認識より精度の高い音声認識が可能となる。 A conventional speech recognition model trains an acoustic model and a language model as separate systems. On the other hand, a technique for learning an end-to-end speech recognition model using a neural network is attracting attention (see Non-Patent Document 1). With this technology, the overall system that takes speech as an input and outputs information specifying a symbol string can be optimized, so speech recognition with higher accuracy than conventional speech recognition is possible.

また、一般に、モデルの学習では、訓練データの数を増やすほど、学習の結果として得られるモデルの精度が向上することが期待される。例えば、音声認識モデルの学習において、ノイズを含まないクリーンな音声データと、その書き起こしテキストとのペアからなる理想的な状態の訓練データを用いれば、訓練データの数を増やすほど、音声認識の精度が向上する。 Also, in model learning, it is generally expected that the more the number of training data is increased, the more the accuracy of the model obtained as a result of learning is improved. For example, in training a speech recognition model, if ideal training data consisting of a pair of clean speech data without noise and its transcript is used, the more the training data, the better the speech recognition performance. Improves accuracy.

J. Chorowski et al., “Attention-Based Models for Speech Recognition”, 2015年, Advances in Neural Information Processing Systems 28 (NIPS 2015), pp. 577-585J. Chorowski et al., “Attention-Based Models for Speech Recognition”, 2015, Advances in Neural Information Processing Systems 28 (NIPS 2015), pp. 577-585

しかしながら、ノイズ等を含む訓練データを学習に用いても、音声認識の精度の向上が困難な場合がある。例えば、現実の音声認識では、多くの訓練データには雑音等が含まれており、ノイズを含まないクリーンな音声データを大量に用意することは困難である。また、ノイズや誤り等を含む訓練データの数を増やして学習しても、却って音声認識の精度が低下してしまう場合がある。 However, even if training data containing noise or the like is used for learning, it may be difficult to improve the accuracy of speech recognition. For example, in actual speech recognition, much training data contains noise and the like, and it is difficult to prepare a large amount of clean speech data that does not contain noise. In addition, even if the number of training data containing noise, errors, etc. is increased for learning, the accuracy of speech recognition may rather deteriorate.

本発明は、上記に鑑みてなされたものであって、ノイズ等を含む訓練データを学習に用いても、音声認識の精度の向上を可能とすることを目的とする。 SUMMARY OF THE INVENTION It is an object of the present invention to improve the accuracy of speech recognition even when training data containing noise and the like is used for learning.

上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換部と、第2のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第1の算出部と、第3のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第2の算出部と、前記CTCに基づく事後確率が所定の閾値より大きい場合に、前記第2の算出部が算出した前記事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新する更新部と、を有することを特徴とする。 In order to solve the above-described problems and achieve the object, the learning apparatus according to the present invention uses a first neural network to convert the feature amount of an input speech signal for learning into an encoded intermediate feature amount. and a second neural network, a symbol string to be predicted from the intermediate feature amount and a posterior probability based on CTC (Connectionist Temporal Classification) of the symbol string. and a second calculation unit that calculates a predicted symbol string and the posterior probability of the symbol string from the correct symbol string and the intermediate feature value using a third neural network, and the posterior probability based on the CTC When the probability is greater than a predetermined threshold, the first neural network uses the loss function value calculated from the posterior probability calculated by the second calculation unit and the posterior probability based on the CTC, the and an updating unit that updates parameters of the second neural network and the third neural network.

本発明によれば、ノイズ等を含む訓練データを学習に用いても、音声認識の精度の向上が可能となる。 According to the present invention, it is possible to improve the accuracy of speech recognition even if training data containing noise or the like is used for learning.

図1は、本実施形態の学習装置の概略構成を例示する模式図である。FIG. 1 is a schematic diagram illustrating the schematic configuration of the learning device of this embodiment. 図2は、他の実施形態の学習装置の概略構成を例示する模式図である。FIG. 2 is a schematic diagram illustrating a schematic configuration of a learning device according to another embodiment. 図3は、学習処理手順を示すフローチャートである。FIG. 3 is a flow chart showing the learning processing procedure. 図4は、学習プログラムを実行するコンピュータの一例を示す図である。FIG. 4 is a diagram showing an example of a computer that executes a learning program.

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。 An embodiment of the present invention will be described in detail below with reference to the drawings. It should be noted that the present invention is not limited by this embodiment. Moreover, in the description of the drawings, the same parts are denoted by the same reference numerals.

[学習装置の構成]
図1は、本実施形態の学習装置の概略構成を例示する模式図である。図1に例示するように、本実施形態の学習装置10は、パソコン等の汎用コンピュータで実現され、記憶部11、および制御部12を備える。
[Configuration of learning device]
FIG. 1 is a schematic diagram illustrating the schematic configuration of the learning device of this embodiment. As illustrated in FIG. 1, a learning device 10 of this embodiment is implemented by a general-purpose computer such as a personal computer, and includes a storage unit 11 and a control unit 12 .

記憶部11は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部11には、学習装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。 The storage unit 11 is realized by a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk. In the storage unit 11, a processing program for operating the learning device 10, data used during execution of the processing program, and the like are stored in advance, or are temporarily stored each time processing is performed.

本実施形態において、記憶部11は、後述するend-to-endニューラルネットワークのパラメータ11aを記憶する。これらのパラメータ11aは、後述する学習処理により更新される。 In this embodiment, the storage unit 11 stores parameters 11a of an end-to-end neural network, which will be described later. These parameters 11a are updated by learning processing, which will be described later.

制御部12は、CPU(Central Processing Unit)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部12は、図1に例示するように、データ選択部12a、符号化器12b、第1復号化器12c、第2復号化器12d、データクレンジング部12e、更新部12fおよび終了判定部12gとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。また、制御部12は、その他の機能部を備えてもよい。 The control unit 12 is implemented using a CPU (Central Processing Unit) or the like, and executes a processing program stored in a memory. Accordingly, as illustrated in FIG. 1, the control unit 12 includes a data selection unit 12a, an encoder 12b, a first decoder 12c, a second decoder 12d, a data cleansing unit 12e, an update unit 12f, and an end It functions as the determination unit 12g. Note that these functional units may be implemented in different hardware, respectively or partially. Also, the control unit 12 may include other functional units.

データ選択部12aは、学習用の音声信号の入力を受け付ける。具体的には、データ選択部12aは、入力された訓練データの集合から、後述する学習処理に用いる音声信号を選択し、後述する符号化器12bに入力する。なお、訓練データのうち、全ての音声信号が符号化器12bに入力された場合には、後述する更新部12fの処理が実行されるようにしてもよい。 The data selector 12a accepts an input of an audio signal for learning. Specifically, the data selection unit 12a selects an audio signal to be used in a learning process, which will be described later, from a set of input training data, and inputs it to the encoder 12b, which will be described later. It should be noted that the processing of the updating unit 12f, which will be described later, may be executed when all the speech signals in the training data are input to the encoder 12b.

符号化器12bは、変換部の一例であり、第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する。符号化器12bは、例えば、Transformerエンコーダであり、単位時間ごとの音声信号の特徴量である対数メルフィルタバンク特徴量Xfbankを、前処理用のニューラルネットワークによって長さ等を縮約した特徴量Xsubを入力として受け付ける。そして、符号化器12bは、特徴量Xsubを第1のニューラルネットワークにより中間特徴量に変換して出力する。 The encoder 12b is an example of a conversion unit, and uses a first neural network to convert the feature quantity of the input learning speech signal into an encoded intermediate feature quantity. The encoder 12b is, for example, a Transformer encoder, and converts the logarithmic mel filter bank feature amount X fbank , which is the feature amount of the speech signal for each unit time, into a feature amount obtained by contracting the length, etc., using a preprocessing neural network. Accepts X sub as input. Then, the encoder 12b converts the feature amount X sub into an intermediate feature amount by the first neural network and outputs the intermediate feature amount.

ここで、符号化器12bを構成する第1のニューラルネットワークの層の総数e、第i層(i=0,1,…,e-1)の入力Xi、出力Xi+1と表記すると、次式(1)に示すように、各層iは、入力特徴量Xiを中間特徴量Xi+1に変換して出力する。また、最終層である第e-1層は、中間特徴量として音声特徴量Xを出力する。 Here, if the total number of layers of the first neural network constituting the encoder 12b is e, the input X i of the i-th layer (i=0, 1, . . . , e−1), and the output X i+1 is expressed as , as shown in the following equation (1), each layer i converts the input feature quantity X i into the intermediate feature quantity X i+1 and outputs it. Also, the e−1-th layer, which is the final layer, outputs the speech feature quantity X e as an intermediate feature quantity.

Figure 0007274441000001
Figure 0007274441000001

ここで、PEは、フレーム番号1,2,…,nsubを入力として、datt次元の特徴量を出力するニューラルネットワークである。また、MHAは、3つの特徴量系列を入力として、1つ目の特徴量系列と同じ次元・長さの特徴量系列を出力するニューラルネットワークである。また、FFは、2層の全結合層とReLU(Rectified Linear Units)活性化層からなる、入力特徴量と時刻ごとに同じ次元の特徴量系列を出力するニューラルネットワークである。 Here, PE is a neural network that receives frame numbers 1, 2, . MHA is a neural network that receives three feature quantity sequences as inputs and outputs a feature quantity sequence having the same dimension and length as the first feature quantity sequence. FF is a neural network that outputs a feature value sequence of the same dimension as the input feature value for each time, which consists of two fully connected layers and a ReLU (Rectified Linear Units) activation layer.

なお、符号化器12bを構成する第1のニューラルネットワークは、上記(1)式以外に、前処理用のニューラルネットワークとして、例えば、2層のCNN(Convolution Neural Networks)とReLU活性化層とで構成される場合がある。その場合には、CNNの出力の長さnsub、チャネル数dattとすれば、各中間特徴量Xは、nsub×datt次元のベクトルとなる。 In addition to the above equation (1), the first neural network constituting the encoder 12b is, for example, a two-layer CNN (Convolution Neural Network) and a ReLU activation layer as a preprocessing neural network. may be configured. In that case, if the output length of the CNN is n sub and the number of channels is d att , each intermediate feature X i becomes a vector of n sub ×d att dimensions.

また、符号化器12bは、Transformerのエンコーダに限定されず、例えば、RNN(Recurrent Neural Networks)等のエンコーダであってもよい。 Further, the encoder 12b is not limited to the Transformer encoder, and may be, for example, an RNN (Recurrent Neural Networks) encoder.

第1復号化器12cは、第1の算出部の一例であり、第2のニューラルネットワークを用いて、中間特徴量Xから、予測される記号列と該記号列のCTCに基づく事後確率を算出する。ここで、予測される記号列とは、教師データとして与えられる正解記号列に後続する記号を含む新たな記号列のことである。第1復号化器12cは、例えば、CTCデコーダであり、第1のニューラルネットワークを用いて、中間特徴量Xの時刻(フレーム)に対応する記号を配置した記号列であるアライメントついて、あらゆるアライメントに対する事後確率を算出する。 The first decoder 12c is an example of a first calculator, and uses a second neural network to obtain a predicted symbol string and a CTC-based posterior probability of the symbol string from the intermediate feature Xe . calculate. Here, the predicted symbol string is a new symbol string that includes symbols following the correct symbol string given as training data. The first decoder 12c is, for example, a CTC decoder, and uses a first neural network to determine any alignment, which is a symbol string in which symbols corresponding to the time (frame) of the intermediate feature Xe are arranged. Calculate the posterior probability for

具体的には、第1復号化器12cは、符号化器12bの出力であるXを用いて、次式(2)に示すように、CTCに基づく事後確率pctc(Y|X)を算出して出力する。 Specifically, the first decoder 12c uses X e that is the output of the encoder 12b to obtain the CTC-based posterior probability p ctc (Y|X e ) as shown in the following equation (2): is calculated and output.

Figure 0007274441000002
Figure 0007274441000002

ここで、重み行列Wctcおよびバイアスベクトルbctcは、第2のニューラルネットワークのパラメータであり、予め学習されたものである。 Here, the weight matrix W ctc and the bias vector b ctc are parameters of the second neural network and are learned in advance.

そして、CTCに基づく事後確率pctc(Y|X)とは、XとYとの間の任意のアライメントに対する事後確率である。アライメントとは、各入力系列データの時刻tに対応する記号列Yを配置した系列である。例えば、5フレームからなる入力系列に対するアライメントπとして、aabcc、abbbc、aaabc、…等が挙げられる。 And the CTC-based posterior probability p ctc (Y|X e ) is the posterior probability for any alignment between X e and Y. Alignment is a sequence in which symbol strings Y corresponding to time t of each input sequence data are arranged. For example, aabcc, abbbc, aaabc, .

Cは、第1復号化器12cの出力であり、C[t,π[t]]は、出力記号π[t]とXのt番目のフレームとの間のアライメントである。 C is the output of the first decoder 12c and C[t,π[t]] is the alignment between the output symbol π[t] and the tth frame of Xe .

また、多対1のマッピング関数B(π)は、アライメントπから冗長な記号を取り除く関数である、例えば、φを空白記号(blank symbol)とすれば、B(aaφb)=abである。また、1対多のマッピング関数B-1は、記号列を入力として、上記したアライメントのすべての集合を出力する。 Also, the many-to-one mapping function B(π) is a function that removes redundant symbols from the alignment π. For example, if φ is a blank symbol, B(aaφb)=ab. Also, the one-to-many mapping function B −1 takes the symbol string as input and outputs a set of all the above alignments.

上記式(2)の第2式では、Xを観測した場合の各アライメントπの事後確率を、「時刻tに記号π[t]を配置する確率C[t,π[t]]を全時刻で総乗したもの」として算出している。 In the second formula of the above formula (2), the posterior probability of each alignment π when X e is observed is defined as “probability C[t, π[t]] of arranging symbol π[t] at time t. It is calculated as the product of time.

また、上記式(2)の第3式では、Xを観測した場合の記号列Yの事後確率を、「Yの出現の場合わけであるアライメントのすべてにおける上記した第2式の事後確率を総和したもの」として算出している。 In addition, in the third formula of the above formula (2), the posterior probability of the symbol string Y when X e is observed is expressed as "the posterior probability of the second formula above for all alignments in which Y appears. It is calculated as the sum total.

第2復号化器12dは、第2の算出部の一例であり、第3のニューラルネットワークを用いて、正解記号列と中間特徴量Xとから、予測される記号列と該記号列の事後確率とを算出する。 The second decoder 12d is an example of a second calculator, and uses a third neural network to predict a symbol string and a posterior to the symbol string from the correct symbol string and the intermediate feature quantity Xe . Calculate the probability and

例えば、第2復号化器12dは、Transformerにおけるデコーダである。第2復号化器12dは、符号化器12bで変換して得られた音声特徴量Xと、既に予測済みの記号列Y[1:u]=Y[1],…,Y[u]を入力とし、次式(3)に示すように、後続する記号列Y[2:u+1]を予測して出力する。 For example, the second decoder 12d is a decoder in Transformer. The second decoder 12d converts the speech feature quantity Xe obtained by the conversion by the encoder 12b and the already predicted symbol string Y[1:u]=Y[1], . . . , Y[u] is input, and the subsequent symbol string Y[2:u+1] is predicted and output as shown in the following equation (3).

Figure 0007274441000003
Figure 0007274441000003

ここで、Embedは、PEと同様のニューラルネットワークによる演算を表す関数であり、PEにおける時刻(フレーム)に代えて記号の系列Y[1:u]を入力として、datt次元の特徴量を出力する。 Here, Embed is a function that expresses computation by a neural network similar to PE, and outputs a d att -dimensional feature amount by inputting a series of symbols Y[1:u] instead of the time (frame) in PE. do.

なお、第2復号化器12dを構成する第3のニューラルネットワークの層の総数d、第j層(j=0,1,…,d-1)の入力Zj、出力Zj+1と表記する。この場合に、第2復号化器12dは、次式(4)に示すように、Y[1:u]およびXが与えられたもとで、Transformerに基づく事後確率、つまり、次の記号がY[u+1]となる事後確率ps2s(Y|X)を算出して出力する。 The total number of layers of the third neural network constituting the second decoder 12d is expressed as d, the input Z j and the output Z j+1 of the j-th layer (j=0, 1, . . . , d−1). do. In this case, the second decoder 12d is given Y[1:u] and X e as shown in the following equation (4), and the posterior probability based on the Transformer, that is, the next symbol is Y The posterior probability p s2s (Y|X e ) of [u+1] is calculated and output.

Figure 0007274441000004
Figure 0007274441000004

ここで、重み行列Wattおよびバイアスベクトルbattは、第3のニューラルネットワークのパラメータであり、予め学習されたものである。 Here, the weight matrix W att and the bias vector b att are the parameters of the third neural network and are learned in advance.

なお、学習装置10は、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークを、全体として1つのend-to-endのニューラルネットワークとみなして学習する。 The learning device 10 learns by regarding the first neural network, the second neural network, and the third neural network as one end-to-end neural network as a whole.

また、第2復号化器12dは、Transformerのデコーダに限定されず、例えば、RNN等のデコーダであってもよい。 Further, the second decoder 12d is not limited to a Transformer decoder, and may be, for example, an RNN decoder.

データクレンジング部12eは、第1復号化器12cで算出された事後確率に基づいて、後述する更新部12fの処理に用いるデータを選別する。具体的には、データクレンジング部12eは、CTCに基づく事後確率が所定の閾値より大きい場合に、後述する更新部12fに処理を実行させる。 Based on the posterior probability calculated by the first decoder 12c, the data cleansing unit 12e selects data to be used for processing by the updating unit 12f, which will be described later. Specifically, when the CTC-based posterior probability is greater than a predetermined threshold, the data cleansing unit 12e causes the updating unit 12f, which will be described later, to perform processing.

例えば、データクレンジング部12eは、CTCに基づく事後確率が所定の閾値より大きいデータのインデックスを、インデックス集合Iとして記憶部11に記憶しておく。 For example, the data cleansing unit 12e stores, as an index set I, in the storage unit 11, indexes of data whose CTC-based posterior probabilities are greater than a predetermined threshold.

なお、CTCに基づく事後確率が所定の閾値以下である場合には、データクレンジング部12eは、データ選択部12aに他の音声信号を選択させる。 Note that when the posterior probability based on CTC is equal to or less than a predetermined threshold, the data cleansing unit 12e causes the data selection unit 12a to select another audio signal.

更新部12fは、CTCに基づく事後確率が所定の閾値より大きい場合に、第2復号化器12dが算出した事後確率と、CTCに基づく事後確率とから算出した損失関数値を用いて、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータ11aを更新する。 When the CTC-based posterior probability is greater than a predetermined threshold, the updating unit 12f uses the loss function value calculated from the posterior probability calculated by the second decoder 12d and the CTC-based posterior probability to update the first , the second neural network and the third neural network parameters 11a are updated.

具体的には、更新部12fは、データクレンジング部12eが選別した音声信号について第1復号化器12cの出力に関する損失と、第2復号化器21dの出力に関する損失とを算出し、それらの和に基づいて、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークの各パラメータ11aを更新する。 Specifically, the updating unit 12f calculates the loss related to the output of the first decoder 12c and the loss related to the output of the second decoder 21d for the audio signal selected by the data cleansing unit 12e, and sums them update the parameters 11a of the first neural network, the second neural network, and the third neural network based on .

ここで、第1復号化器12cの出力に関する損失は、次式(5)に示すインデックス集合Iに含まれるインデックスの入力データに対応して各復号化器の出力から算出される、次式(6)に示すCTC損失である。 Here, the loss related to the output of the first decoder 12c is calculated from the output of each decoder corresponding to the input data of the index included in the index set I shown in the following equation (5). 6) is the CTC loss shown in FIG.

Figure 0007274441000005
Figure 0007274441000005
Figure 0007274441000006
Figure 0007274441000006

また、第2復号化器12dの出力に関する損失は、上記式(5)のインデックス集合Iに含まれるンデックスの入力データに対応して各復号化器の出力から算出される、次式(7)に示すクロスエントロピー損失である。 Also, the loss related to the output of the second decoder 12d is calculated from the output of each decoder corresponding to the input data of the index included in the index set I of the above equation (5), as shown in the following equation (7) is the cross-entropy loss shown in .

Figure 0007274441000007
Figure 0007274441000007

更新部12fは、上記式(6)、(7)の損失の重み付け和を損失関数値として、例えば誤差逆伝搬学習等の周知の手法を用いて、end-to-endニューラルネットワークのパラメータの値を算出し、記憶部11に記憶されているパラメータ11aを更新する。 The update unit 12f uses the weighted sum of the losses of the above equations (6) and (7) as a loss function value, and uses a well-known technique such as error backpropagation learning to obtain the parameter values of the end-to-end neural network. is calculated, and the parameter 11a stored in the storage unit 11 is updated.

このようにして、学習装置10は、CTCに基づく事後確率が所定の閾値以下であって、訓練データとして用いるべきではないデータを除外するデータクレンジングを、学習中に行いながら、学習を行うことが可能となる。 In this way, the learning device 10 can perform learning while performing data cleansing to exclude data that should not be used as training data because the CTC-based posterior probability is equal to or less than a predetermined threshold value during learning. It becomes possible.

なお、学習装置10は、パラメータ11aの更新が行われた後、再び学習用の音声信号の入力を受け付けて、end-to-endニューラルネットワークを用いて、記号列の予測を行う。 Note that after the parameter 11a is updated, the learning device 10 receives the input of the speech signal for learning again and predicts the symbol string using the end-to-end neural network.

終了判定部12gは、所定の終了条件を満たした場合に、パラメータ11aの更新を終了する。例えば、終了判定部12gは、損失関数値が所定の閾値以下となった場合、パラメータ11aの更新回数が所定の回数に到達した場合、またはパラメータ11aの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、パラメータ11aの更新を終了する。 The termination determination unit 12g terminates updating of the parameter 11a when a predetermined termination condition is satisfied. For example, when the loss function value becomes equal to or less than a predetermined threshold, when the number of times the parameter 11a is updated reaches a predetermined number, or when the amount of update of the parameter 11a becomes equal to or less than a predetermined threshold In at least one of the cases, the update of the parameter 11a is terminated.

なお、図1に示した学習装置10では、第1復号化器12cと第2復号化器12dとの処理が並列に実行される。ここで、図2は、他の実施形態の学習装置10の概略構成を例示する模式図である。図2に示すように、学習装置10は、データクレンジング部12eが選別したデータのみを、第2復号化器12dに入力するようにしてもよい。このように、データクレンジング部12eは、上記した第2復号化器12dの処理を、CTCに基づく事後確率が所定の閾値より大きい場合にのみ実行させるようにしてもよい。この場合には、第2復号化器12dの処理が軽減される。 Note that in the learning device 10 shown in FIG. 1, the processes of the first decoder 12c and the second decoder 12d are executed in parallel. Here, FIG. 2 is a schematic diagram illustrating a schematic configuration of the learning device 10 of another embodiment. As shown in FIG. 2, the learning device 10 may input only the data selected by the data cleansing unit 12e to the second decoder 12d. In this way, the data cleansing unit 12e may cause the processing of the second decoder 12d described above to be executed only when the posterior probability based on the CTC is greater than a predetermined threshold. In this case, the processing of the second decoder 12d is reduced.

[学習処理]
次に、図3を参照して、本実施形態に係る学習装置10による学習処理について説明する。図3は、学習処理手順を示すフローチャートである。図3のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
[Learning process]
Next, learning processing by the learning device 10 according to the present embodiment will be described with reference to FIG. FIG. 3 is a flow chart showing the learning processing procedure. The flowchart in FIG. 3 is started, for example, at the timing when the user performs an operation input instructing the start.

まず、符号化器12bが、データ選択部12aから入力された学習用の音声信号を受け付ける(ステップS1)。そして、符号化器12bが、第1のニューラルネットワークを用いて、受け付けた音声信号の特徴量を、符号化した中間特徴量に変換する(ステップS2)。 First, the encoder 12b receives an audio signal for learning input from the data selector 12a (step S1). Then, the encoder 12b uses the first neural network to convert the feature quantity of the received speech signal into an encoded intermediate feature quantity (step S2).

また、第1復号化器12cが、第2のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のCTCに基づく事後確率を算出する(ステップS3)。また、第2復号化器12dが、第3のニューラルネットワークを用いて、正解記号列と中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する(ステップS4)。 Also, the first decoder 12c uses the second neural network to calculate the predicted symbol string and the CTC-based posterior probability of the symbol string from the intermediate feature amount (step S3). Also, the second decoder 12d uses a third neural network to calculate a predicted symbol string and the posterior probability of the symbol string from the correct symbol string and the intermediate feature quantity (step S4).

次に、データクレンジング部12eが、CTCに基づく事後確率が所定の閾値より大きいか否かを確認し、所定の閾値より大きい場合に(ステップS5、Yes)、ステップS6に処理を進める。一方、データクレンジング部12eは、CTCに基づく事後確率が所定の閾値以下である場合には(ステップS5、No)、ステップS1に処理を戻す。 Next, the data cleansing unit 12e checks whether the CTC-based posterior probability is greater than a predetermined threshold, and if it is greater than the predetermined threshold (step S5, Yes), the process proceeds to step S6. On the other hand, when the CTC-based posterior probability is equal to or less than the predetermined threshold (step S5, No), the data cleansing unit 12e returns the process to step S1.

更新部12fは、第2復号化器12dが算出した事後確率と、CTCに基づく事後確率とから算出した損失関数値を用いて、end-to-endニューラルネットワークのパラメータ11aを更新する(ステップS6)。 The updating unit 12f updates the parameter 11a of the end-to-end neural network using the loss function value calculated from the posterior probability calculated by the second decoder 12d and the posterior probability based on the CTC (step S6 ).

そして、終了判定部12gが、所定の終了条件を満たすか否かを確認する(ステップS7)。例えば、終了判定部12gは、損失関数値が所定の閾値以下となった場合、パラメータ11aの更新回数が所定の回数に到達した場合、またはパラメータ11aの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、終了条件を満たすと判定する。 Then, the termination determination unit 12g confirms whether or not a predetermined termination condition is satisfied (step S7). For example, when the loss function value becomes equal to or less than a predetermined threshold, when the number of times the parameter 11a is updated reaches a predetermined number, or when the amount of update of the parameter 11a becomes equal to or less than a predetermined threshold In at least one of the cases, it is determined that the termination condition is satisfied.

終了判定部12gは、所定の終了条件を満たさないと判定した場合には(ステップS7、No)、ステップS1に処理を戻して、記号列の予測とパラメータ11aの更新とを繰り返す。一方、終了判定部22gは、所定の終了条件を満たすと判定した場合には(ステップS7、Yes)、一連の学習処理を終了する。 When the termination determination unit 12g determines that the predetermined termination condition is not satisfied (step S7, No), the process returns to step S1 to repeat prediction of the symbol string and update of the parameter 11a. On the other hand, when the termination determination unit 22g determines that the predetermined termination condition is satisfied (step S7, Yes), the series of learning processes is terminated.

以上、説明したように、本実施形態の学習装置10において、符号化器12bが、第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する。また、第1復号化器12cが、第2のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のCTCに基づく事後確率を算出する。また、第2復号化器12dが、第3のニューラルネットワークを用いて、正解記号列と中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する。また、CTCに基づく事後確率が所定の閾値より大きい場合に、更新部12fが、第2復号化器12dが算出した事後確率と、CTCに基づく事後確率とから算出した損失関数値を用いて、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータを更新する。 As described above, in the learning apparatus 10 of the present embodiment, the encoder 12b uses the first neural network to encode the feature amount of the input speech signal for learning to an intermediate feature amount. Convert to Also, the first decoder 12c uses the second neural network to calculate the predicted symbol string and the CTC-based posterior probability of the symbol string from the intermediate feature amount. Also, the second decoder 12d uses a third neural network to calculate a predicted symbol string and the posterior probability of the symbol string from the correct symbol string and the intermediate feature quantity. Further, when the CTC-based posterior probability is greater than a predetermined threshold, the updating unit 12f uses the loss function value calculated from the posterior probability calculated by the second decoder 12d and the CTC-based posterior probability, Update the parameters of the first neural network, the second neural network and the third neural network.

このように、学習装置10は、CTCに基づく事後確率が所定の閾値以下であって、学習用に用いると音声認識の精度を低下させる恐れのあるデータを除外するデータクレンジングを、学習中に行うことができる。その結果、ノイズや誤り等を含む訓練データを学習に用いても、音声認識の精度の向上が可能となる。 In this way, the learning device 10 performs data cleansing during learning to exclude data whose posterior probability based on CTC is equal to or less than a predetermined threshold and which may reduce the accuracy of speech recognition when used for learning. be able to. As a result, even if training data containing noise, errors, etc. is used for learning, the accuracy of speech recognition can be improved.

また、学習装置10は、第2復号化器12dの処理を、CTCに基づく事後確率が所定の閾値より大きい場合に行うようにしてもよい。これにより、第2復号化器12dの処理が軽減される。 Also, the learning device 10 may perform the processing of the second decoder 12d when the posterior probability based on the CTC is greater than a predetermined threshold. This reduces the processing of the second decoder 12d.

また、学習装置10は、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークを、全体として1つのend-to-endのニューラルネットワークとみなして学習する。これにより、音声認識処理が最適化され、より高精度に音声認識が可能となる。 In addition, learning device 10 learns by regarding the first neural network, the second neural network, and the third neural network as one end-to-end neural network as a whole. This optimizes the speech recognition process and enables more accurate speech recognition.

また、学習装置10は、終了判定部12gが、損失関数値が所定の閾値以下となった場合、パラメータ11aの更新回数が所定の回数に到達した場合、またはパラメータ11aの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、パラメータ11aの更新を終了する。これにより、学習処理の処理負荷を抑制することが可能となる。 Further, the learning device 10 determines that the loss function value is equal to or less than a predetermined threshold value, the number of updates of the parameter 11a reaches a predetermined number of times, or the update amount of the parameter 11a reaches a predetermined threshold value. In at least one of the cases below, the update of the parameter 11a is terminated. This makes it possible to suppress the processing load of the learning process.

[プログラム]
上記実施形態に係る学習装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、学習装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声認識処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10として機能させることができる。
[program]
It is also possible to create a program in which the processing executed by the learning device 10 according to the above embodiment is described in a computer-executable language. As one embodiment, the learning device 10 can be implemented by installing a learning program that executes the above-described speech recognition processing as package software or online software on a desired computer. For example, the information processing device can function as the learning device 10 by causing the information processing device to execute the learning program.

ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistant)などのスレート端末などがその範疇に含まれる。また、学習装置10の機能を、クラウドサーバに実装してもよい。 The information processing apparatus referred to here includes a desktop or notebook personal computer. In addition, information processing devices include smart phones, mobile communication terminals such as mobile phones and PHSs (Personal Handyphone Systems), and slate terminals such as PDAs (Personal Digital Assistants). Also, the functions of the learning device 10 may be implemented in a cloud server.

図4は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。 FIG. 4 is a diagram showing an example of a computer that executes a learning program. Computer 1000 includes, for example, memory 1010 , CPU 1020 , hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .

メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。 The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012 . The ROM 1011 stores a boot program such as BIOS (Basic Input Output System). Hard disk drive interface 1030 is connected to hard disk drive 1031 . Disk drive interface 1040 is connected to disk drive 1041 . A removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041, for example. A mouse 1051 and a keyboard 1052 are connected to the serial port interface 1050, for example. For example, a display 1061 is connected to the video adapter 1060 .

ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。 Here, the hard disk drive 1031 stores an OS 1091, application programs 1092, program modules 1093 and program data 1094, for example. Each piece of information described in the above embodiment is stored in the hard disk drive 1031 or the memory 1010, for example.

また、学習プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した学習装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。 The learning program is also stored in hard disk drive 1031 as, for example, program modules 1093 that describe instructions to be executed by computer 1000 . Specifically, the hard disk drive 1031 stores a program module 1093 that describes each process executed by the learning device 10 described in the above embodiment.

また、学習プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。 Data used for information processing by the learning program is stored as program data 1094 in the hard disk drive 1031, for example. Then, the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the hard disk drive 1031 to the RAM 1012 as necessary, and executes each procedure described above.

なお、学習プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、学習プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。 Note that the program module 1093 and program data 1094 related to the learning program are not limited to being stored in the hard disk drive 1031. For example, they may be stored in a removable storage medium and read by the CPU 1020 via the disk drive 1041 or the like. may be Alternatively, program module 1093 and program data 1094 related to the learning program are stored in another computer connected via a network such as LAN or WAN (Wide Area Network), and are read out by CPU 1020 via network interface 1070. may

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。 Although the embodiments to which the invention made by the present inventor is applied have been described above, the present invention is not limited by the descriptions and drawings forming a part of the disclosure of the present invention according to the embodiments. That is, other embodiments, examples, operation techniques, etc. made by those skilled in the art based on this embodiment are all included in the scope of the present invention.

10 学習装置
11 記憶部
11a パラメータ
12 制御部
12a データ選択部
12b 符号化器
12c 第1復号化器(CTCデコーダ)
12d 第2復号化器
12e データクレンジング部
12f 更新部
12g 終了判定部
REFERENCE SIGNS LIST 10 learning device 11 storage unit 11a parameter 12 control unit 12a data selection unit 12b encoder 12c first decoder (CTC decoder)
12d second decoder 12e data cleansing unit 12f update unit 12g end determination unit

Claims (6)

第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換部と、
第2のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第1の算出部と、
第3のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第2の算出部と、
前記CTCに基づく事後確率が所定の閾値より大きい場合に、前記第2の算出部が算出した前記事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
a conversion unit that converts the feature quantity of the input speech signal for learning into a coded intermediate feature quantity using the first neural network;
a first calculation unit that calculates a predicted symbol string and a posterior probability based on CTC (Connectionist Temporal Classification) of the symbol string from the intermediate feature amount using a second neural network;
a second calculation unit that calculates a predicted symbol string and the posterior probability of the symbol string from the correct symbol string and the intermediate feature using a third neural network;
When the posterior probability based on the CTC is greater than a predetermined threshold, using the loss function value calculated from the posterior probability calculated by the second calculation unit and the posterior probability based on the CTC, an updating unit that updates the parameters of the neural network of, the second neural network and the third neural network;
A learning device characterized by comprising:
前記第2の算出部の処理を、前記CTCに基づく事後確率が所定の閾値より大きい場合に行うことを特徴とする請求項1に記載の学習装置。 2. The learning apparatus according to claim 1, wherein the process of the second calculator is performed when the posterior probability based on the CTC is greater than a predetermined threshold. 前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークを、全体として1つのend-to-endのニューラルネットワークとみなして学習することを特徴とする請求項1に記載の学習装置。 2. The method according to claim 1, wherein learning is performed by considering the first neural network, the second neural network and the third neural network as one end-to-end neural network as a whole. learning device. 前記損失関数値が所定の閾値以下となった場合、前記パラメータの更新回数が所定の回数に到達した場合、または前記パラメータの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、前記パラメータの更新を終了する終了判定部をさらに有することを特徴とする請求項1に記載の学習装置。 When the loss function value becomes equal to or less than a predetermined threshold, when the number of times the parameter is updated reaches a predetermined number, or when the amount of update of the parameter becomes equal to or less than a predetermined threshold. 2. The learning apparatus according to claim 1, further comprising an end determination unit for terminating update of said parameters. 学習装置で実行される学習方法であって、
第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換工程と、
第2のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第1の算出工程と、
第3のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第2の算出工程と、
前記CTCに基づく事後確率が所定の閾値より大きい場合に、前記第2の算出工程が算出した前記事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新する更新工程と、
を含んだことを特徴とする学習方法。
A learning method executed by a learning device, comprising:
a conversion step of converting the feature quantity of the input learning speech signal into an encoded intermediate feature quantity using the first neural network;
A first calculation step of calculating a predicted symbol string and a posterior probability based on CTC (Connectionist Temporal Classification) of the symbol string from the intermediate feature amount using a second neural network;
a second calculation step of calculating a predicted symbol string and the posterior probability of the symbol string from the correct symbol string and the intermediate feature amount using a third neural network;
When the posterior probability based on the CTC is greater than a predetermined threshold, using the loss function value calculated from the posterior probability calculated by the second calculation step and the posterior probability based on the CTC, an updating step of updating parameters of the neural network of, the second neural network and the third neural network;
A learning method comprising:
第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換ステップと、
第2のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第1の算出ステップと、
第3のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第2の算出ステップと、
前記CTCに基づく事後確率が所定の閾値より大きい場合に、前記第2の算出ステップが算出した前記事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新する更新ステップと、
をコンピュータに実行させるための学習プログラム。
a transformation step of transforming the feature quantity of the input speech signal for learning into a coded intermediate feature quantity using the first neural network;
a first calculation step of calculating a predicted symbol string and a posterior probability based on CTC (Connectionist Temporal Classification) of the symbol string from the intermediate feature amount using a second neural network;
a second calculation step of calculating a predicted symbol string and the posterior probability of the symbol string from the correct symbol string and the intermediate feature using a third neural network;
When the CTC-based posterior probability is greater than a predetermined threshold, the first an updating step of updating parameters of the neural network of, the second neural network and the third neural network;
A learning program for making a computer execute
JP2020066879A 2020-04-02 2020-04-02 LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM Active JP7274441B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020066879A JP7274441B2 (en) 2020-04-02 2020-04-02 LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020066879A JP7274441B2 (en) 2020-04-02 2020-04-02 LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM

Publications (2)

Publication Number Publication Date
JP2021162798A JP2021162798A (en) 2021-10-11
JP7274441B2 true JP7274441B2 (en) 2023-05-16

Family

ID=78004876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020066879A Active JP7274441B2 (en) 2020-04-02 2020-04-02 LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM

Country Status (1)

Country Link
JP (1) JP7274441B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017027049A (en) 2015-07-22 2017-02-02 グーグル インコーポレイテッド Individualized hotword detection model
JP2018031812A (en) 2016-08-22 2018-03-01 日本電信電話株式会社 Sound data processor, method for processing sound data, and sound data processing program
JP2020505650A (en) 2017-05-11 2020-02-20 三菱電機株式会社 Voice recognition system and voice recognition method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017027049A (en) 2015-07-22 2017-02-02 グーグル インコーポレイテッド Individualized hotword detection model
JP2018031812A (en) 2016-08-22 2018-03-01 日本電信電話株式会社 Sound data processor, method for processing sound data, and sound data processing program
JP2020505650A (en) 2017-05-11 2020-02-20 三菱電機株式会社 Voice recognition system and voice recognition method

Also Published As

Publication number Publication date
JP2021162798A (en) 2021-10-11

Similar Documents

Publication Publication Date Title
JP6712642B2 (en) Model learning device, method and program
US11113479B2 (en) Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query
JP7273108B2 (en) MODEL TRAINING METHOD, APPARATUS, ELECTRONIC DEVICE, STORAGE MEDIUM, PROGRAM
US20140257803A1 (en) Conservatively adapting a deep neural network in a recognition system
US20140156575A1 (en) Method and Apparatus of Processing Data Using Deep Belief Networks Employing Low-Rank Matrix Factorization
CN111354333B (en) Self-attention-based Chinese prosody level prediction method and system
US11886813B2 (en) Efficient automatic punctuation with robust inference
CN111310441A (en) Text correction method, device, terminal and medium based on BERT (binary offset transcription) voice recognition
CN110275928B (en) Iterative entity relation extraction method
WO2019006541A1 (en) System and method for automatic building of learning machines using learning machines
WO2019163718A1 (en) Learning device, speech recognition order estimation device, methods therefor, and program
WO2019138897A1 (en) Learning device and method, and program
KR20210042696A (en) Apparatus and method for learning model
CN115803806A (en) Systems and methods for training dual-mode machine-learned speech recognition models
CN114528387A (en) Deep learning conversation strategy model construction method and system based on conversation flow bootstrap
JP7212596B2 (en) LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM
CN111832699A (en) Computationally efficient expressive output layer for neural networks
JP6973192B2 (en) Devices, methods and programs that utilize the language model
CN111737957B (en) Chinese character pinyin conversion method and device, electronic equipment and storage medium
JP7274441B2 (en) LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM
JP2023046213A (en) Method, information processing device and program for performing transfer learning while suppressing occurrence of catastrophic forgetting
CN110852361B (en) Image classification method and device based on improved deep neural network and electronic equipment
JP7192995B2 (en) Determination device, learning device, determination method and determination program
CN115053235A (en) Sequence modeling using interpolation
WO2022185457A1 (en) Feature quantity extraction device, learning device, feature quantity extraction method, learning method, and program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200403

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220728

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230418

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230501

R150 Certificate of patent or registration of utility model

Ref document number: 7274441

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150