JP2019159654A - Time-series information learning system, method, and neural network model - Google Patents
Time-series information learning system, method, and neural network model Download PDFInfo
- Publication number
- JP2019159654A JP2019159654A JP2018044134A JP2018044134A JP2019159654A JP 2019159654 A JP2019159654 A JP 2019159654A JP 2018044134 A JP2018044134 A JP 2018044134A JP 2018044134 A JP2018044134 A JP 2018044134A JP 2019159654 A JP2019159654 A JP 2019159654A
- Authority
- JP
- Japan
- Prior art keywords
- model
- time
- learning
- label
- series information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は時系列で入力された情報を、ニューラルネットワークを用いて認識する技術に関する。詳しくは、時系列情報を処理するシステムで利用されるニューラルネットワークのモデルを学習する技術、および、その学習によって得られたニューラルネットワークのモデルに関する。 The present invention relates to a technique for recognizing information input in time series using a neural network. More specifically, the present invention relates to a technique for learning a neural network model used in a system for processing time-series information, and a neural network model obtained by the learning.
音声情報や動画像情報などは、時間的な変化を伴う情報であり、時間の経過とともに連続的に入力される情報である。 Audio information, moving image information, and the like are information accompanying temporal changes, and are information that is continuously input as time passes.
人が発声した音声や各種の音源から音声情報を取得し、音声情報を認識する音声認識システムがある。音声認識システムは発話された音声波形を分析し、音響モデル、発音辞書、言語モデルと呼ばれるデータベースと照合することで、発話内容(文章)を出力するものである。 There is a voice recognition system that acquires voice information from a voice uttered by a person or various sound sources and recognizes the voice information. The speech recognition system analyzes uttered speech waveforms and compares them with a database called an acoustic model, pronunciation dictionary, and language model, and outputs utterance contents (sentences).
従来の音響モデルとして、DNN-HMMモデルがある。DNN-HMMはニューラルネットワークベースの音声認識として主流の方法である。DNN-HMMモデルは、ある時刻の音声特徴量に対してどのラベル(例えば音素)の確率が高いかをモデル化したDNN (deep neural networks:ディープニューラルネットワーク)と、ラベルの時間変化をモデル化したHMM (Hidden Markov Model:隠れマルコフモデル)の2つのモデルで表現している。 There is a DNN-HMM model as a conventional acoustic model. DNN-HMM is the mainstream method for neural network based speech recognition. The DNN-HMM model is a model of DNN (deep neural networks) that models the probability of which label (for example, phoneme) is high with respect to speech features at a certain time, and the time variation of the label. It is expressed by two models, HMM (Hidden Markov Model).
End-to-endモデルはDNN-HMMより後に提案されたモデルである。End-to-endモデルでは音響モデルをDNN-HMMのように2つのモデルに分けずに、1個のモデルで表現する方式である。End-to-endモデルはDNN-HMMと比べて、HMMを用いないため、音声認識処理が単純かつ高速であるという利点がある。End-to-endモデルの例としてはCTC (Connectionist Temporal Classification)やAttentionモデルが存在する。以降、End-to-endモデルについて、CTC音響モデルを例に説明する。 The end-to-end model was proposed after DNN-HMM. In the end-to-end model, the acoustic model is expressed by one model without being divided into two models like DNN-HMM. Compared with DNN-HMM, the end-to-end model has the advantage that the speech recognition process is simple and fast because it does not use an HMM. Examples of end-to-end models include CTC (Connectionist Temporal Classification) and Attention models. Hereinafter, the CTC acoustic model will be described as an example of the end-to-end model.
上述した認識技術の関連技術として、ナレッジディスティレーション(KD : Knowledge distillation)とよばれるDNN学習方法がある。ナレッジディスティレーションは、学習済みの複雑かつ高性能なモデルの情報を単純かつ低性能なモデルに写すのに使われる手法である。例えば、高性能ではあるが、構造が複雑であり、システムに適用することが困難なモデルと、構造は単純であるが、性能が低いモデルが存在する場合を考える。ナレッジディスティレーションでは前者を教師モデル、後者を生徒モデルと定義し、教師モデルの出力を正解ラベルの代わりに用いて生徒モデルを学習させる。これにより、教師モデルの知識を生徒モデルに伝搬させることができる。 As a technology related to the above-described recognition technology, there is a DNN learning method called Knowledge Distillation (KD). Knowledge distribution is a technique used to copy learned complex and high-performance model information into a simple and low-performance model. For example, consider a case where there are a model having high performance but having a complicated structure and difficult to apply to a system, and a model having a simple structure but low performance. In knowledge distribution, the former is defined as a teacher model and the latter as a student model, and the student model is trained using the output of the teacher model instead of the correct answer label. Thereby, the knowledge of the teacher model can be propagated to the student model.
下記特許文献1および特許文献2においては、CTCを用いた音声認識装置が開示されている。
In the following
下記非特許文献1においては、CTCに関する技術が開示されている。また、下記非特許文献2においては、ナレッジディスティレーションに関する技術が開示されている。
Non-Patent
CTCは時系列データを扱うため、RNN (Recurrent neural network:再帰型ニューラルネットワーク)を内部に持つ必要がある。RNNには過去の情報だけを考慮するUnidirectional RNNと、過去、未来両方の情報を用いるBidirectional RNNの2種類が存在する。Bidirectional RNNを用いた場合、音声認識率は高いが、未来の情報を用いるため、リアルタイム処理が困難である。Unidirectional RNNを用いればリアルタイム処理に適用可能となるが、音声認識率は低下する。 Since CTC handles time-series data, it needs to have an internal RNN (Recurrent neural network). There are two types of RNNs: Unidirectional RNN that considers only past information and Bidirectional RNN that uses both past and future information. When Bidirectional RNN is used, the speech recognition rate is high, but since future information is used, real-time processing is difficult. If Unidirectional RNN is used, it can be applied to real-time processing, but the speech recognition rate decreases.
本発明は、学習対象であるモデルの構造を変えることなく、学習対象であるモデルの認識率を、より構造が複雑な教師モデルの認識率に近づけることで、リアルタイム性と音声認識率を両立したモデルを得ることを課題とする。 The present invention achieves both real-time performance and speech recognition rate by changing the recognition rate of the model to be learned close to the recognition rate of the teacher model having a more complicated structure without changing the structure of the model to be learned. The challenge is to obtain a model.
上記課題を解決するため、本実施の形態の学習システムは以下のとおり構成される。本実施の形態の学習システムは、時系列情報を認識するシステムを構成するために、ニューラルネットワークを学習するシステムである。 In order to solve the above problem, the learning system of the present embodiment is configured as follows. The learning system of this embodiment is a system that learns a neural network in order to configure a system that recognizes time-series information.
本実施の形態の学習システムは、時系列情報を表現可能なニューラルネットワークを内部に有する第1のモデルと、時系列情報を表現可能なニューラルネットワークを内部に有し、正解ラベルによって学習された、前記第1のモデルよりも構造が複雑な第2のモデルと、前記第1のモデルを生徒モデルとし、前記第2のモデルを教師モデルとし、ナレッジディスティレーションを用いて前記第1のモデルを学習する第1のモデル学習部と、を備える。 The learning system of the present embodiment includes a first model having a neural network capable of expressing time series information therein and a neural network capable of expressing time series information therein, and has been learned by a correct answer label. The second model having a more complex structure than the first model, the first model as a student model, the second model as a teacher model, and learning the first model using knowledge distraction A first model learning unit.
前記第1のモデル学習部は、複数のフレームデータを含む第1の時系列データを前記第1のモデルに入力し、前記第1のモデルの第1の出力結果として、ラベル系列候補群のそれぞれの確率を得る第1の出力部と、前記複数のフレームデータを含む前記第1の時系列データを前記第2のモデルに入力し、前記第2のモデルの第2の出力結果として、ラベル系列候補群のそれぞれの確率を得る第2の出力部と、前記第1の出力結果と前記第2の出力結果との差を評価する評価部と、前記評価部における評価結果に基づいて、前記第1のモデルを学習させる第1のモデル学習部と、を備える。 The first model learning unit inputs first time series data including a plurality of frame data to the first model, and outputs each of the label series candidate groups as a first output result of the first model. A first output unit that obtains the probability of the first time-series data including the plurality of frame data is input to the second model, and a label sequence is output as a second output result of the second model. Based on the second output unit for obtaining the respective probabilities of the candidate group, the evaluation unit for evaluating the difference between the first output result and the second output result, and the evaluation result in the evaluation unit, A first model learning unit that learns one model.
第1のモデルは、本実施の形態の学習システムにおいて、拡張されたナレッジディスティレーションによって学習されている。つまり、フレームごとに出力された出力値の確率値ではなく、時系列で出力されたラベル系列候補群の確率値を評価することで、学習の精度を上げることに成功している。 The first model is learned by the extended knowledge distribution in the learning system of the present embodiment. That is, it has succeeded in improving the accuracy of learning by evaluating the probability value of the label sequence candidate group output in time series, not the probability value of the output value output for each frame.
したがって、第1のモデルは、教師モデルである第2のモデルと比べると構造は単純であるモデルでありながら、高い認識精度を保持している。また、第1のモデルは第2のモデルと比較すると構造が単純であるため、ハードウェアとして実装する場合には回路規模を小さくすることができる。また、第1のモデルは第2のモデルと比較すると構造が単純であるため、ソフトウェアとして実装する場合には、CPU、メモリ等の資源に高い性能を要求しない。したがって、第1のモデルを実装する認識システムをスマートフォンやタブレットなどの端末でも利用することが可能である。 Therefore, the first model is a model having a simple structure as compared with the second model, which is a teacher model, and maintains high recognition accuracy. In addition, since the first model has a simpler structure than the second model, the circuit scale can be reduced when implemented as hardware. In addition, since the first model has a simple structure as compared with the second model, high performance is not required for resources such as CPU and memory when implemented as software. Therefore, the recognition system that implements the first model can also be used in terminals such as smartphones and tablets.
また、本実施の形態の時系列情報の学習システムにおいて、前記第1のモデルおよび前記第2のモデルはリカレントニューラルネットワークを内部に有するモデルを含む。 In the time-series information learning system according to the present embodiment, the first model and the second model include a model having a recurrent neural network therein.
また、本実施の形態の時系列情報の学習システムにおいて、前記第1のモデルおよび前記第2のモデルはCTC(Connectionist Temporal Classification)モデルを含む。 In the time-series information learning system according to the present embodiment, the first model and the second model include a CTC (Connectionist Temporal Classification) model.
また、本実施の形態の時系列情報の学習システムにおいて、前記第1のモデルは、Unidirectional-CTCモデルであり、前記第2のモデルはBidirectional-CTCモデルである。学習された第1のモデルであるUnidirectional-CTCモデルは、第2のモデルであるBidirectional-CTCモデルとは異なり未来の入力を必要としないため、リアルタイム性の高い処理を実現可能である。また、第1のモデルはハードウェアやソフトウェアの実装上有利である。 In the time-series information learning system of the present embodiment, the first model is a Unidirectional-CTC model, and the second model is a Bidirectional-CTC model. Unlike the Bidirectional-CTC model, which is the second model, the learned first model, the Unidirectional-CTC model, does not require future input, and thus can realize processing with high real-time characteristics. The first model is advantageous in terms of hardware and software implementation.
また、本実施の形態の時系列情報の学習システムにおいて、前記時系列情報は音声情報である。学習された第1のモデルにより、音声情報を高い認識率で認識可能である。また、構造が複雑な音響モデルを利用する場合と比べてリアルタイム性を向上させることができる。 In the time-series information learning system according to the present embodiment, the time-series information is audio information. The learned first model can recognize voice information with a high recognition rate. In addition, real-time performance can be improved as compared with the case where an acoustic model having a complicated structure is used.
また、本実施の形態は、上記の時系列情報の学習システムにおいて学習されたニューラルネットワークモデルも対象である。上記の時系列情報の学習システムにおいて学習されたニューラルネットワークモデルを利用した認識システムを構築することで、ハードウェアやソフトウェアに高い負荷を掛けることなく、高い精度の認識結果を得ることができる。 The present embodiment is also intended for a neural network model learned in the time-series information learning system. By constructing a recognition system using the neural network model learned in the above-described time-series information learning system, a highly accurate recognition result can be obtained without imposing a high load on hardware or software.
また、本実施の形態の学習方法は以下の工程を備える。本実施の形態の学習システムは、時系列情報を認識するシステムを構成するために、時系列情報を表現可能なニューラルネットワークを内部に有する第1のモデルを学習する学習方法である。 In addition, the learning method of the present embodiment includes the following steps. The learning system according to the present embodiment is a learning method for learning a first model that internally includes a neural network that can express time-series information in order to configure a system that recognizes time-series information.
本実施の形態の学習システムは、(a)時系列情報を表現可能なニューラルネットワークを内部に有し、前記第1のモデルよりも構造が複雑な第2のモデルを、正解ラベルを用いて学習する第2のモデル学習工程と、(b)前記第1のモデルを生徒モデルとし、前記第2のモデルを教師モデルとし、ナレッジディスティレーションを用いて前記第1のモデルを学習する第1のモデル学習工程と、を備える。 The learning system of the present embodiment (a) has a neural network capable of expressing time-series information therein, and learns a second model having a more complex structure than the first model using a correct label. And (b) a first model that learns the first model using a knowledge destination using the first model as a student model and the second model as a teacher model. A learning process.
また、前記第1のモデル学習工程(b)は、(b−1)複数のフレームデータを含む第1の時系列データを前記第1のモデルに入力する工程と、(b−2)前記複数のフレームデータを含む前記第1の時系列データを前記第2のモデルに入力する工程と、(b−3)前記複数のフレームデータを含む前記第1の時系列データに対応して得られた前記第1のモデルの第1の出力結果として、ラベル系列候補群のそれぞれの確率を得る工程と、(b−4)前記複数のフレームデータを含む前記第1の時系列データに対応して得られた前記第2のモデルの第2の出力結果として、ラベル系列候補群のそれぞれの確率を得る工程と、(b−5)前記工程(b−3)において得られた前記第1の出力結果と、前記工程(b−4)において得られた前記第2の出力結果との差を評価する評価工程と、(b−6)前記評価工程の評価結果に基づいて、前記第1のモデルを学習させる工程と、を含む。 The first model learning step (b) includes (b-1) inputting first time-series data including a plurality of frame data to the first model, and (b-2) the plurality of the plurality of frame data. A step of inputting the first time-series data including the frame data into the second model; and (b-3) obtained in correspondence with the first time-series data including the plurality of frame data. As a first output result of the first model, a step of obtaining each probability of a label sequence candidate group, and (b-4) obtained corresponding to the first time series data including the plurality of frame data. A second output result of the obtained second model, a step of obtaining each probability of a label sequence candidate group, and (b-5) the first output result obtained in the step (b-3). And the first obtained in the step (b-4) An evaluation step of evaluating a difference between the output result based on the evaluation results of (b-6) said evaluation step, and a step to learn the first model.
本実施の形態の学習システムあるいは学習方法で学習される第1のモデルは、教師モデルである第2のモデルと比べると構造は単純であるモデルでありながら、高い認識精度を保持している。また、第1のモデルは第2のモデルと比較して構造が単純であるため、ハードウェアとして実装する場合であっても、ソフトウェアとして実装する場合であっても、コンピュータやデバイスに対する性能の要求を低くすることができる。また、第1のモデルは第2のモデルと比較して構造が単純であるため、第2のモデルを用いて認識処理を実行する場合と比較してリアルタイム性を向上させることができる。 The first model learned by the learning system or the learning method of the present embodiment is a model that has a simple structure as compared with the second model that is a teacher model, but retains high recognition accuracy. In addition, since the first model has a simple structure as compared with the second model, performance requirements for computers and devices are required regardless of whether they are implemented as hardware or software. Can be lowered. Further, since the first model has a simple structure as compared with the second model, the real-time property can be improved as compared with the case where the recognition process is executed using the second model.
以下、添付の図面を参照しながら、本実施の形態に係る時系列情報処理システムについて説明する。本実施の形態に係る時系列情報処理システムは、時系列情報を入力して学習するとともに、時系列情報を入力し、時系列情報の認識結果を出力するシステムである。時系列情報は、時間の経過に伴って連続的に入力される情報である。時系列情報として、本実施の形態では音声情報を例に説明する。しかし、本実施の形態の時系列情報処理システムは、音声情報のみならず、他の時系列情報を認識するシステムとしても利用できる。例えば、他の時系列情報としては、時間の経過に伴って連続的に入力される動画像情報や、センシング情報などが挙げられる。 Hereinafter, a time-series information processing system according to the present embodiment will be described with reference to the accompanying drawings. The time-series information processing system according to the present embodiment is a system that inputs and learns time-series information, inputs time-series information, and outputs a recognition result of the time-series information. The time series information is information that is continuously input as time passes. In this embodiment, audio information is described as an example of time series information. However, the time-series information processing system of this embodiment can be used as a system that recognizes not only audio information but also other time-series information. For example, as other time-series information, moving image information that is continuously input with the passage of time, sensing information, and the like can be given.
本実施の形態の時系列情報処理システムは、時系列情報を認識するためのモデルを学習する学習システムと、学習システムによって学習されたモデルを利用して、時系列情報を認識する認識システムとから構成されている。 The time-series information processing system according to the present embodiment includes a learning system that learns a model for recognizing time-series information, and a recognition system that recognizes time-series information using a model learned by the learning system. It is configured.
以下の説明においては、時系列情報として音声情報を例として説明する。つまり、本実施の形態の時系列情報処理システムとして、音声情報を認識するための音響モデル23を学習する学習システム10と、学習システム10によって学習された音響モデル23を利用して、音声情報を認識する認識システム20を例に説明する。
In the following description, audio information will be described as an example of time series information. That is, as the time-series information processing system of the present embodiment, the
{1.時系列情報処理システムにおける学習フェーズと認識フェーズの処理の流れ}
図1は、本実施の形態に係る時系列情報処理システムの全体の流れを示す図である。本実施の形態の時系列情報処理システムは、学習フェーズと認識フェーズの2つのフェーズを有している。学習フェーズにおいては、学習システム10において、音響モデル23の学習が行われる。認識フェーズでは、認識システム20において、学習された音響モデル23を利用して音声情報の認識が行われる。学習システム10と認識システム20とは、同一のコンピュータや、デバイス上に実装されてもよいし、別のコンピュータやデバイス上に実装されてもよい。
{1. Flow of learning phase and recognition phase processing in a time-series information processing system}
FIG. 1 is a diagram showing an overall flow of the time-series information processing system according to the present embodiment. The time-series information processing system of the present embodiment has two phases, a learning phase and a recognition phase. In the learning phase, the
図1に示すように、学習システム10に入力された音声データは、特徴量計算部11において特徴量が計算される。特徴量計算部11において計算された音声データの特徴量は、フレームごとに音響モデル学習部12に入力される。音響モデル学習部12よって、音響モデル23の学習が行われる。後で詳しく説明するが、音響モデル学習部12は、既に学習されている音響モデル13を教師モデルとして、音響モデル23の学習を行う。音響モデル学習部12は、教師モデルである音響モデル13から出力された複数のラベル系列とその出力確率を教師として、音響モデル23の学習を行う。
As shown in FIG. 1, the feature
認識システム20に入力された音声データは、特徴量計算部21において特徴量が計算される。特徴量計算部21において計算された音声データの特徴量は、フレームごとにデコーダ22において分析される。デコーダ22は、学習フェーズで学習された音響モデル23、発音辞書24および言語モデル25を利用して、音声データの認識結果を出力する。
The feature amount of the speech data input to the
{2.学習システムの構成}
次に、図2〜図8を参照しながら、学習システムの構成と学習処理の方法について説明する。
{2. Structure of learning system}
Next, the configuration of the learning system and the learning processing method will be described with reference to FIGS.
図2は、学習システム10の機能ブロック図である。学習システム10は、図1でも示したように、特徴量計算部11および音響モデル学習部12を備えている。音響モデル学習部12は、ラベル推定部121、ラベル推定部122、ラベル系列評価部123および学習部124を備えている。学習システム10は、また、音響モデル13および音響モデル23を備えている。
FIG. 2 is a functional block diagram of the
特徴量計算部11は、時系列情報として音声データを入力する。特徴量計算部11は、音声データの波形を20ms〜30msのフレームデータに分解し、フレームごとの特徴量を抽出する。特徴量計算部11は、従来から行われている方法によって音声データの特徴量を抽出する。特徴抽出方法としては例えば、メルフィルタバンク分析やメル周波数ケプストラム分析などが挙げられる。
The feature
<2−1.音響モデル13(教師モデル)によるラベル(音素)の出力>
特徴量計算部11において計算された各フレームの特徴量は、ラベル推定部121に入力される。ラベル推定部121は、入力されたフレームデータについて、音響モデル13を用いてラベルごとの確率に変換する。
<2-1. Output of label (phoneme) by acoustic model 13 (teacher model)>
The feature amount of each frame calculated by the feature
ラベルは、例えばa,iといった音素、あるいは仮名、文字、単語といった単位であらかじめ定義される。CTCモデルにおいては前記に加えて、他のどのラベルにも当てはまらないことを示す「ブランク(-)」のラベルもラベル集合に含まれる。本実施形態においては、音素、ノイズ、ブランクでラベルの集合を定義している。ラベル推定部121は、入力された各フレームに対して、前記ラベルそれぞれの確率値を出力する。
The label is defined in advance in units of phonemes such as a and i, or kana, characters, and words. In the CTC model, in addition to the above, a label of “blank (−)” indicating that it does not apply to any other label is also included in the label set. In this embodiment, a set of labels is defined by phonemes, noises, and blanks. The
音響モデル13は、本実施の形態においては、Bidirectional-CTCを用いている。Bidirectional-CTCは、時系列情報を扱うDNN(Deep neural network)の一種であるBidirectional-RNN (Recurrent neural network:リカレントニューラルネットワーク)を内部に有するCTC(Connectionist Temporal Classification)モデルである。CTCは、End-to-endモデルの一例である。CTCでは、長さの異なる入出力系列(本実施形態では音声フレーム系列とラベル系列)間の変換が可能なフレームワークである。CTCでは、フレーム毎に割り振られたラベルに対して、同一ラベルの削除と、ブランクラベル(−)の削除を行うことで、認識結果であるラベル系列を出力する。例えば7フレームの入力データに対して“a a - k - i -”と割り振られている場合、認識結果としては“aki”というラベル系列を出力する。
The
本実施の形態では、音響モデル13として、End-to-endモデルを利用することを特徴としている。本実施の形態においては、音響モデル13として、End-to-endモデルの一例であるCTCを用いているが、End-to-endモデルとしては他にAttentionモデルを用いることができる。
The present embodiment is characterized in that an end-to-end model is used as the
また、本実施の形態においては、音響モデル13として、Bidirectional-RNNを内部に有するモデルを用いているが、その限りでは無く、時系列情報を扱えるニューラルネットワークであれば適用可能である。時系列情報を扱えるニューラルネットワークの例としては、Bidirectional-RNNの他にUnidirectional-RNN、Time-delay neural networkなどが挙げられる。また前述のRNNはLSTM (Long short term memory)のような類似モデルにも置き換え可能である。ただし、音響モデル13は音響モデル23よりも構造が複雑かつ高性能なモデルであることが本実施の形態の学習方法を利用した効果に繋がる。
In the present embodiment, a model having Bidirectional-RNN inside is used as the
音響モデル13は、既に学習が完了している教師モデルである。教師モデルである音響モデル13は、事前に、音声データと正解ラベル系列のセットからなる学習データを用いて学習されている。
The
音響モデル13は、従来のCTCの学習方法に従って学習される。すなわち、学習データを入力して、正解の音素系列の確率が最大になるように学習する。確率の計算方法は従来のforward-backwardアルゴリズムが用いられる。また、モデルパラメータの更新には、誤差逆伝搬法が用いられる。
The
図3は、一般的なニューラルネットワークを正解ラベルを用いて学習する方法を示した図である。ニューラルネットワークの入力層に学習データ(本実施形態の例だと1フレームの音声データに相当)が入力される。そしてニューラルネットワークの計算結果として出力層から各ラベルの確率(確率分布)が出力される。このとき、学習データに対応するラベルの確率を1、他のラベルの確率を0とするベクトルを正解の確率分布として、二つの確率分布の距離が小さくなるようにニューラルネットワークを学習する。距離尺度としてはクロスエントロピーやユークリッド距離が使われる。 FIG. 3 is a diagram showing a method of learning a general neural network using correct answer labels. Learning data (corresponding to one frame of audio data in the example of this embodiment) is input to the input layer of the neural network. Then, the probability (probability distribution) of each label is output from the output layer as a calculation result of the neural network. At this time, the neural network is trained so that the distance between the two probability distributions becomes small, assuming that the probability probability of the label corresponding to the learning data is 1 and that the probability of the other label is 0 is a correct probability distribution. Cross entropy or Euclidean distance is used as the distance measure.
図4は一般的なDNN33を示す図である。DNN33は入力層と複数の中間層(隠れ層)、出力層を有する。図4の例では入力層331と4個の中間層332、333、334および335、そして出力層336を有している。ここでは図の簡単化のため一般的なDNN33で例示するが、本実施形態の音響モデル13においては前後フレーム間でも結合を持つRNNを使用している。
FIG. 4 is a diagram showing a
入力層331へは、特徴量計算部11によって計算された、1フレーム分の特徴量ベクトルが入力される。すなわち、入力層のノード331(1)〜331(n1)の数は、特徴量の次元数に相当する。
A feature value vector for one frame calculated by the feature
本実施の形態においては、中間層332は、n2個のノード332(1)、332(2)・・・332(n2)を、中間層333は、n3個のノード333(1)、333(2)・・・333(n3)を、中間層334は、n4個のノード334(1)、334(2)・・・334(n4)を、中間層335は、n5個のノード335(1)、335(2)・・・335(n5)を、有している。各中間層のノード数は、異なっていてもよい。また、各中間層のノード数は入力層と異なっていてもよい。
In this embodiment, the
本実施の形態においては、出力層336は、各ラベルに対応したノードを含んでいる。出力層のノード数はラベルの数に相当する。
In the present embodiment, the
音声データに含まれるフレームデータの特徴量が、n1次元のデータ(特徴量ベクトル)として入力層331(1)、331(2)・・・331(n1)に入力される。上述したように、ここでは一般的なDNN33を図を使って説明しているが、本実施の形態で利用されるBidirectional-CTCである音響モデル13は、過去のフレームデータの情報および未来のフレームデータの情報を参照しながら、各中間層で演算を行い、出力層においてラベルごとの確率値を出力する。例えば、
a:0.12
b:0.05
c:0.03
・・・
z:0.09
ブランク:0.02
といったように、フレームデータがいずれのラベルに対応するかを示す確率値を算出する。
The feature amount of the frame data included in the audio data is input to the input layers 331 (1), 331 (2). As described above, a
a: 0.12
b: 0.05
c: 0.03
...
z: 0.09
Blank: 0.02
As described above, a probability value indicating which label the frame data corresponds to is calculated.
図5は、本実施形態において音響モデル13が有する、Bidirectional-RNNの処理を示す。図5において、横軸は時間である。縦方向に並ぶ一系統のブロックがある時刻のBidirectional-RNNを示している。各時刻のBidirectional-RNNの各層は1つのブロックで示している。つまり、図5の各ブロックは、図4のように複数のノードからなるニューラルネットワークの各層を表している。
FIG. 5 shows the Bidirectional-RNN processing that the
ある時間に入力層131に入力されたフレームデータは、中間層132、133・・・と伝播して出力層136から出力される。このとき、中間層132、133・・・では、図中で各ブロックから横方向に伸びた線で示されている通り、前後の時刻の中間層132、133・・・の出力も入力される。
Frame data input to the
図5で示す例では、時刻t1においては、音素の候補がブランク(−)として出力されたことを示している。出力層136からは、ラベルごとの確率が出力されるが、その中でブランクの確率が一番高かったことを示している。
The example shown in FIG. 5 indicates that a phoneme candidate is output as a blank (-) at time t1. From the
同様に、時時刻t2では“a”が、時刻t3では、ブランク(−)、時刻t4では“k”、時刻t5では“i”、時刻t6ではブランク(−)が音素の候補として出力されていることを示している。 Similarly, “a” is output as a phoneme candidate at time t2, “a” at time t3, “k” at time t4, “i” at time t5, and blank (−) at time t6. It shows that.
<2−2.音響モデル23(生徒モデル)によるラベル(音素)の出力>
再び、図2を参照する。特徴量計算部11において計算された特徴量は、また、ラベル推定部122に入力される。ラベル推定部122は、ラベル推定部121と同様、音声データに含まれる特徴量をフレームごとに入力し、音響モデル23を用いて、フレームデータをラベルごとの確率に変換する。ラベル推定部122は、音声データに含まれるフレームデータを、ラベルごとの確率値として出力する。
<2-2. Output of label (phoneme) by acoustic model 23 (student model)>
Reference is again made to FIG. The feature amount calculated by the feature
ラベル推定部122もラベル推定部121と同様にラベルごとの確率値を出力する。ここでラベルの定義は、音響モデル13、ラベル推定部121、音響モデル23およびラベル推定部122において同じ定義である。
Similarly to the
音響モデル23は、音響モデル13を教師モデルとして学習されるモデルである。生徒モデルである音響モデル23は、音響モデル13よりも構造の複雑度の小さいモデルである。ここで、構造が複雑なモデルとは、例えば、中間層(隠れ層)の数が多いモデルである。あるいは、構造が複雑なモデルとは、ノードの数の多いモデルである。また、構造が複雑なモデルとしては、他にもCNN (Convolution neural network)のように計算処理量の多い層を有するモデルや、リカレント構造を有するモデルなどがある。
The
生徒モデルである音響モデル23は、正解ラベルを用いた学習は行われない。音響モデル23は、音響モデル13を教師モデルとしてナレッジディスティレーションにより学習される。
The
音響モデル23は、本実施の形態においては、Unidirectional-CTCを用いている。Unidirectional-CTCは、Unidirectional-RNNを内部に有するCTCモデルである。音響モデル23は音響モデル13と同様、End-to-endモデルの一例であり、CTCの他にAttentionモデルを使用することができ、また内部のニューラルネットワークもRNN、LSTM、Time-delay neural networkなどに変更可能である。ただし、音響モデル23は音響モデル13よりも単純かつ性能の低いモデルであることが本実施の形態の学習方法を利用した効果に繋がる。
The
本実施の形態においては、教師モデルとしては前後の時間の情報を参照するリカレントニューラルネットワーク(Bidirectional-CTC)を用いるのに対して、生徒モデルとして過去の時間の情報を参照するリカレントニューラルネットワーク(Unidirectional)を用いている。したがって、教師モデルである音響モデル13は、生徒モデルである音響モデル23より構造が複雑なモデルである。ただし、これは音響モデル13および音響モデル23の一例である。本実施の形態においては、音響モデル13および音響モデル23は、時系列情報を表現可能なニューラルネットワークであること、つまり、End-to-endモデルのニューラルネットワークであることと、音響モデル13に比べて構造が複雑でない音響モデル23を利用すればよく、その他のモデルを利用してもよい。たとえば、音響モデル13、23ともに、Bidirectional-CTCを用い、音響モデル13よりも構造が複雑でない音響モデル23を利用してもよい。あるいは、音響モデル13、23ともに、Unidirectional-CTCを用い、音響モデル13よりも構造が複雑でない音響モデル23を利用してもよい。
In this embodiment, a recurrent neural network (Bidirectional-CTC) that refers to information on the previous and subsequent times is used as a teacher model, whereas a recurrent neural network (Unidirectional) that refers to information on a past time as a student model. ) Is used. Therefore, the
生徒モデルである音響モデル23は、教師モデルである音響モデル13の認識能力を転移させることで学習を行う。例えば、生徒モデルは、比較的処理能力の小さいコンピュータやスマートフォンなどで利用させることを前提とした比較的構造の簡単なモデルである。正解モデルを利用して学習された構造の複雑な音響モデル13の認識能力を、音響モデル23に転移させることで、教師モデルの高い認識精度を転移させることができる。
The
図6は、一般的なフレーム単位のナレッジディスティレーションを説明する図である。生徒モデルの入力層に、1フレームの音声データが入力される。また、教師モデルの入力層にも、生徒モデルに入力されたフレームデータと同じフレームデータが入力される。 FIG. 6 is a diagram for explaining a knowledge distribution in a general frame unit. One frame of audio data is input to the input layer of the student model. Also, the same frame data as the frame data input to the student model is input to the input layer of the teacher model.
入力された1フレームの音声データは、それぞれ教師モデルと生徒モデルの中間層を伝搬し、出力層において、各ラベルの確率値として出力される。ナレッジディスティレーションによる学習方式では、それぞれのモデルから出力されるラベルごとの確率値(ラベルの確率分布)が近くなるように、生徒モデルを学習する。確率分布の近さを測る指標としては、クロスエントロピーやカルバックライブラーダイバージェンスが用いられる。従来のナレッジディスティレーションによる学習をそのままCTCの学習に用いる場合、音響モデル23がフレームごとに出力するラベルの確率分布と音響モデル13がフレームごとに出力する確率分布を用いて、フレームごとの確率分布が近くなるように音響モデル23を学習することになる。つまり、従来のナレッジディスティレーションではフレーム独立な学習基準になっている。しかし、本実施の形態の学習システムにおいては、フレームごとの各ラベルの確率値を単純に評価するのではなく、新しい手法(拡張ナレッジディスティレーションと呼ぶ)により2つのモデルの差を評価する。この評価方法については後で詳しく説明する。
The input audio data of one frame propagates through the intermediate layer of the teacher model and the student model, respectively, and is output as the probability value of each label in the output layer. In the learning method based on knowledge distribution, the student model is learned so that the probability value (label probability distribution) for each label output from each model is close. As an index for measuring the proximity of the probability distribution, cross entropy or Cullback library divergence is used. When learning by conventional knowledge distribution is used for CTC learning as it is, the probability distribution of each frame using the probability distribution of the label output by the
図7は音響モデル23が有するUnidirectional-RNNを示す図である。図において、時間t1においては、音素の候補がブランク(−)として出力されたことを示している。また、時間t2では“a”、時間t3では、ブランク(−)、時間t4では“k”、時間t5では“i”、時間t6ではブランク(−)が音素の候補として出力されていることを示している。
FIG. 7 is a diagram showing the Unidirectional-RNN that the
<2−3.拡張ナレッジディスティレーションによる学習処理>
再び図2を参照する。ラベル系列評価部123は、ラベル推定部121が出力するフレームデータのラベルごとの確率値を入力する。上述したように、ラベル推定部121は、教師モデル13を用いて、フレームデータごとにラベルごとの確率値を出力する。具体的には、ラベル推定部121は、教師モデルを用いて、ラベルごとの確率値を出力する。ラベル系列評価部123は、フレームごとに出力されたラベルごとの確率値を入力する。
<2-3. Learning process by extended knowledge distribution>
Refer to FIG. 2 again. The label
図8は、ラベル系列評価部123が入力するラベルごとの確率値の例を示している。図9の右側が、教師モデルである音響モデル13から出力されたラベルごとの確率値を示している。図の例では、時間t1、t2およびt3の各時間において、ラベルごとの確率値が示されている。時間t1では、ラベル“a”の確率値が他のラベルの確率値よりも高く、時間t1のフレームデータはラベル“a”である可能性が高いことを示している。同様に、時間t2では、ラベル“k”である可能性が高いことを示している。
FIG. 8 shows an example of probability values for each label input by the label
再び図2を参照する。ラベル系列評価部123は、ラベル推定部122が出力するフレームデータのラベルごとの確率値を入力する。上述したように、ラベル推定部122は、生徒モデル23を用いて、フレームごとにラベルごとの確率値を出力する。具体的には、ラベル推定部122は、生徒モデルを用いて、ラベルごとの確率値を出力する。ラベル系列評価部123は、フレームごとに出力されたラベルごとの確率値を入力する。
Refer to FIG. 2 again. The label
図8の左側が、生徒モデルである音響モデル23から出力されたラベルごとの確率値を示している。図の例では、時間t1、t2およびt3の各時間において、ラベルごとの確率値が示されている。時間t1では、音素“a”の確率値が他のラベルの確率値よりも高く、時間t1のフレームデータはラベル“a”である可能性が高いことを示している。同様に、時間t2では、ラベル“k”である可能性が高いことを示している。
The left side of FIG. 8 shows the probability value for each label output from the
ラベル系列評価部123は、教師モデルである音響モデル13が出力したラベルごとの確率値から、ラベル系列候補群の確率値を算出する。図8に示した例であれば、ラベル系列評価部123は、音響モデル13が出力したラベルごとの確率値から、以下のラベル系列候補群の確率値を算出している。
aki : 0.5
akai : 0.004
ai : 0.03
・・・
The label
aki: 0.5
akai: 0.004
ai: 0.03
...
全てのラベル系列を展開することは現実的に困難なため、ラベル系列評価部123は、例えば、確率値の高い上位10個のラベル系列をラベル系列候補として採用する。
Since it is practically difficult to expand all the label sequences, the label
ラベル系列の確率値の算出方法は特に限定されるものではないが、その一例を示す。例えば、ラベル系列“aki”に対応する音声データは多くのパターンが存在する。たとえば、音声データが7フレームのフレームデータであると仮定すると、ラベル系列“aki”に対応する音声データは、
aakk--i
aa-kkki
akk--ii
akkii--
など多くのパターンが存在する。個々のラベル系列の確率値を、ラベルごとの確率値の乗算で表することにより、ラベル系列“aki”に対応する1つのパターン(例えば、aakk-i)の確率値を算出することができる。そこで、ラベル系列“aki”の確率値としては、個々のパターンの確率値の加算を用いることや、最も高い確率値が得られたパターンの確率値を採用するなどの方法が考えられる。
The method for calculating the probability value of the label series is not particularly limited, but an example is shown. For example, there are many patterns of audio data corresponding to the label sequence “aki”. For example, assuming that the audio data is frame data of 7 frames, the audio data corresponding to the label sequence “aki” is
aakk--i
aa-kkki
akk--ii
akkii--
Many patterns exist. By expressing the probability value of each label sequence by multiplying the probability value for each label, the probability value of one pattern (for example, aakk-i) corresponding to the label sequence “aki” can be calculated. Therefore, as the probability value of the label series “aki”, there are conceivable methods such as using addition of probability values of individual patterns or adopting the probability value of the pattern having the highest probability value.
ラベル系列評価部123は、各ラベル系列“aki”、“akai”、“ai”などの確率値を算出すると、上述したように、例えば確率値の高い上位10個のラベル系列を、ラベル系列候補として採用する。
When the label
ラベル系列評価部123は、生徒モデルである音響モデル23が出力したラベルごとの確率値からも、同様に、ラベル系列候補群の確率値を算出する。図8に示した例であれば、ラベル系列評価部123は、音響モデル23が出力したラベルごとの確率値から、以下のラベル系列候補群の確率値を算出している。
aki : 0.3
akai : 0.1
ai : 0.05
・・・
Similarly, the label
aki: 0.3
akai: 0.1
ai: 0.05
...
生徒モデルである音響モデル23が出力したラベルごとの確率値から、ラベル系列候補群の確率値を算出する方法は、上述した教師モデルの場合と同様であるため、説明を省略する。
The method of calculating the probability value of the label series candidate group from the probability value for each label output from the
ラベル系列評価部123は、音響モデル13および音響モデル23について、それぞれラベル系列候補群の確率値(ラベル系列の確率分布)を算出すると、音響モデル13および音響モデル23について算出されたラベル系列の確率分布との距離を、損失関数を用いて算出する。損失関数としてはクロスエントロピーやカルバックライブラーダイバージェンスが挙げられる。本実施の形態において重要となるのは、音響モデル13および音響モデル23について算出されたフレームごとのラベルの確率値の差を評価するのではなく、音響モデル13および音響モデル23について算出されたラベル系列候補群の確率値の差を評価することである。
When the label
本実施の形態の時系列情報処理システム1で用いられる音響モデルは、End-to-endのモデルであり、時系列情報を表現可能なニューラルネットワークである。したがって、フレームごとに出力されたラベルごとの確率値を評価しても、学習の精度が上がらないことが発明者らによって確認された。そこで、フレームごとに出力されたラベルごとの確率値ではなく、シーケンスレベルで出力されたラベル系列候補群の確率値を評価することで、学習の精度を上げることができるのである。
The acoustic model used in the time series
ラベル系列評価部123において、ラベル系列候補群の確率分布の距離が計算されると、学習部124が、距離を最小化させるように音響モデル23を学習する。学習には、従来から用いられている方法、例えば誤差逆伝播法が利用される。
When the label
{3.認識システムの構成}
図9は、本実施の形態に係る認識システム20の構成である。認識システム20は、特徴量算出部21、デコーダ22、音響モデル23、発音辞書24および言語モデル25を備えている。
{3. Configuration of recognition system}
FIG. 9 shows a configuration of the
特徴量計算部21は、時系列情報として音声データを入力する。特徴量計算部21は、音声データの波形をフレームデータに分解し、フレームごとの特徴量を抽出する。特徴量計算部21は、従来から行われている方法によって音声データの特徴量を抽出する。特徴抽出方法としては例えば、メルフィルタバンク分析やメル周波数ケプストラム分析などが挙げられるが、学習時に使用していた特徴量計算部11と分析条件を合わせる必要がある。
The feature
特徴量計算部21において算出されたフレームごとの特徴量はデコーダ22に入力される。デコーダ22は、上述した学習処理によって学習された音響モデル23を備えている。デコーダ22は、音声データの特徴量をフレームごとに音響モデル23に入力し、フレームをラベルごとの確率値に変換する。本実施形態においてラベルは音素によって定義されているので、デコーダ22は、音響モデル23によって、音素ごとの確率値に変換することになる。
The feature amount for each frame calculated by the feature
デコーダ22は、音響モデル23から得られた音素ごとの確率値を元に、発音辞書データベース24と言語モデル25を参照し最も確率の高い認識結果を出力する。発音辞書データベース24は、単語と、それを構成する音素列からなる。たとえば“こんにちは”という単語に対しては、音素列/k/o/N/n/i/ch/i/w/a/が定義されている。
Based on the probability value for each phoneme obtained from the
言語モデル25は単語間のつながりをモデル化してものである。例えば“こんにちは”という単語に対して、次にどの単語が現れやすいかをモデル化している。言語モデル化方式としては、従来のn-gramやRNNモデルが挙げられる。デコーダ22は、音響モデル23から得られた確率値、発音辞書データベース24、言語モデル25が示す確率値を元に、最も確率の高い単語系列を音声認識結果として出力する。最も確率値の高い単語系列の探索方法としては、ビームサーチ法などが挙げられる。
The
このように認識システム20では、学習システム10で学習された音響モデル23が利用される。上述したように、音響モデル23は、本実施の形態の学習システム10において、拡張されたナレッジディスティレーションによって学習されている。つまり、フレームごとに出力されたラベルごとの確率値ではなく、シーケンスレベルで出力されたラベル系列候補群の確率値を評価することで、学習の精度を上げることに成功している。したがって、教師モデルである音響モデル13と比べると構造は単純であるモデルでありながら、高い認識精度を保持している。また、音響モデル23は音響モデル13と比較すると構造が単純であるため、ハードウェアとして実装する場合には回路規模を小さくすることができる。また、音響モデル23は構造が単純であるため、ソフトウェアとして実装する場合には、CPU、メモリ等の資源に高い性能を要求しない。したがって、本実施の形態の認識システム20をスマートフォンやタブレットなどの端末でも利用することが可能である。また、音響モデル23の構造が音響モデル13と比較して単純であるため、リアルタイム性の向上を図ることができる。
Thus, in the
このように本実施の形態の学習システム10は、学習対象である音響モデル23の構造を変えることなく、音響モデル23の認識率を、より構造が複雑な教師モデルである音響モデル13の認識率に近づけることで、リアルタイム性と音声認識率を両立したモデルを得ることを課題とする。具体的には、Unidirectional RNNベースのCTC (Uni-CTC)の構造を変えることなく、認識率をBidirectional RNNベースのCTC (Bi-CTC)に近づけることで、リアルタイム性と音声認識率を両立したEnd-to-end音響モデルを得ることが可能である。
As described above, the
{4.実験結果}
図10は、本実施の形態の学習方法による実験結果を示す図である。評価データはWSJコーパスと呼ばれる英語音声データベースを用いている。特徴量は40次元のメルフィルタバンク特徴量とその1次および2次デルタ特徴量を用いた(計120次元)。ラベルは72種類の音素と2種類のノイズ、そしてブランクによって定義した。教師モデルにはBidirectional-LSTMを有するBidirectional-CTCを、生徒モデルにはUnidirectional-LSTMを有するUnidirectional-CTCを使用した。それぞれの中間層の数は3であり、各中間層のメモリセル数は512である。図の上段は、WSJコーパス内のtrain_si84と呼ばれる、15時間の学習データを用いて学習させたときの実験結果である。正解ラベルを用いて通常の学習法で学習させた教師モデル(Bidirectional-CTC)の単語誤り率は10.35%である。正解ラベルを用いて通常の学習法で学習させた生徒モデル(Unidirectional-CTC)の単語誤り率は11.77%である。
{4. Experimental result}
FIG. 10 is a diagram illustrating an experimental result according to the learning method of the present embodiment. The evaluation data uses an English speech database called WSJ Corpus. For the feature amount, a 40-dimensional mel filter bank feature amount and its primary and secondary delta feature amounts were used (120 dimensions in total). The labels were defined by 72 phonemes, 2 noises, and a blank. Bidirectional-CTC with Bidirectional-LSTM was used for the teacher model, and Unidirectional-CTC with Unidirectional-LSTM was used for the student model. The number of each intermediate layer is 3, and the number of memory cells in each intermediate layer is 512. The upper part of the figure shows the experimental results when learning is performed using 15 hours of learning data called train_si84 in the WSJ corpus. The word error rate of the teacher model (Bidirectional-CTC) trained by the normal learning method using the correct answer label is 10.35%. The word error rate of the student model (Unidirectional-CTC) trained by the normal learning method using the correct answer label is 11.77%.
これに対して、従来から行われているフレームレベルでのナレッジディスティレーションにより学習させた生徒モデルの単語誤り率は16.04%であり、通常の学習法より悪化した。一方、本実施の形態の学習方法であるシーケンスレベル(系列単位)でのナレッジディスティレーションにより学習させた生徒モデルの単語誤り率は10.83%となり、性能差が66.2%改善されたことが分かる。 On the other hand, the word error rate of the student model trained by the conventional knowledge distribution at the frame level was 16.04%, which was worse than the normal learning method. On the other hand, it can be seen that the word error rate of the student model trained by knowledge distribution at the sequence level (sequence unit) as the learning method of the present embodiment is 10.83%, and the performance difference is improved by 66.2%.
図10の下段は、WSJコーパス内のtrain_si284と呼ばれる、81時間の学習データを用いて学習させたときの実験結果である。正解ラベルを用いて通常の学習法で学習させた教師モデル(Bidirectional-CTC)の単語誤り率は8.70%である。正解ラベルを用いて通常の学習法で学習させた生徒モデル(Unidirectional-CTC)の単語誤り率は10.37%である。 The lower part of FIG. 10 shows the experimental results when learning is performed using 81 hours of learning data called train_si284 in the WSJ corpus. The word error rate of the teacher model (Bidirectional-CTC) trained by the normal learning method using the correct answer label is 8.70%. The word error rate of the student model (Unidirectional-CTC) trained by the normal learning method using the correct answer label is 10.37%.
これに対して、従来から行われているフレームレベルでのナレッジディスティレーションにより学習させた生徒モデルの単語誤り率は12.71%であり、通常の学習法より悪化した。一方、本実施の形態の学習方法であるシーケンスレベル(系列単位)でのナレッジディスティレーションにより学習させた生徒モデルの単語誤り率は9.57%となり、性能差が47.9%改善されたことが分かる。 On the other hand, the word error rate of the student model learned by the conventional knowledge distribution at the frame level was 12.71%, which was worse than the normal learning method. On the other hand, it can be seen that the word error rate of the student model trained by knowledge distribution at the sequence level (sequence unit) which is the learning method of the present embodiment is 9.57%, and the performance difference is improved by 47.9%.
上記の実験結果は、教師モデルと生徒モデルがそれぞれ3層の中間層を有する例であるが、中間層の数やノード数を教師モデルと生徒モデルで統一する必要は無い。例えば教師モデルの中間層を4層、生徒モデルの中間層を2層というような条件であっても、同様の効果が期待できる。 The above experimental result is an example in which the teacher model and the student model each have three intermediate layers. However, it is not necessary to unify the number of intermediate layers and the number of nodes in the teacher model and the student model. For example, the same effect can be expected even under the condition that the middle layer of the teacher model is four layers and the middle layer of the student model is two layers.
なお、本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。 The specific configuration of the present invention is not limited to the above-described embodiment, and various changes and modifications can be made without departing from the scope of the invention.
1 時系列情報処理システム
10 学習システム
13 教師モデル
20 認識システム
23 生徒モデル
1 Time-series
Claims (6)
時系列情報を表現可能なニューラルネットワークを内部に有する第1のモデルと、
時系列情報を表現可能なニューラルネットワークを内部に有し、正解ラベルによって学習された、前記第1のモデルよりも構造が複雑な第2のモデルと、
前記第1のモデルを生徒モデルとし、前記第2のモデルを教師モデルとし、ナレッジディスティレーションを用いて前記第1のモデルを学習する第1のモデル学習部と、
を備え、
前記第1のモデル学習部は、
複数のフレームデータを含む第1の時系列データを前記第1のモデルに入力し、前記第1のモデルの第1の出力結果として、ラベル系列候補群のそれぞれの確率を得る第1の出力部と、
前記複数のフレームデータを含む前記第1の時系列データを前記第2のモデルに入力し、前記第2のモデルの第2の出力結果として、ラベル系列候補群のそれぞれの確率を得る第2の出力部と、
前記第1の出力結果と前記第2の出力結果との差を評価する評価部と、
前記評価部における評価結果に基づいて、前記第1のモデルを学習させる第1のモデル学習部と、
を備える時系列情報の学習システム。 A system for learning a neural network to construct a system for recognizing time series information,
A first model having therein a neural network capable of expressing time series information;
A second model having a neural network capable of expressing time-series information therein and having been learned by a correct label and having a more complex structure than the first model;
A first model learning unit that uses the first model as a student model, the second model as a teacher model, and learns the first model using a knowledge destination;
With
The first model learning unit
A first output unit that inputs first time-series data including a plurality of frame data to the first model and obtains respective probabilities of label sequence candidate groups as a first output result of the first model When,
The first time series data including the plurality of frame data is input to the second model, and a second output result of the second model is used to obtain respective probabilities of label series candidate groups. An output section;
An evaluation unit that evaluates a difference between the first output result and the second output result;
A first model learning unit for learning the first model based on an evaluation result in the evaluation unit;
A learning system for time-series information.
前記第1のモデルおよび前記第2のモデルはリカレントニューラルネットワークを内部に有するモデルを含む、時系列情報の学習システム。 The time-series information learning system according to claim 1,
The time series information learning system, wherein the first model and the second model include a model having a recurrent neural network therein.
前記第1のモデルおよび前記第2のモデルはCTC(Connectionist Temporal Classification)モデルを含む、時系列情報の学習システム。 The time series information learning system according to claim 2,
The time series information learning system, wherein the first model and the second model include a CTC (Connectionist Temporal Classification) model.
前記第1のモデルは、Unidirectional-CTCモデルであり、前記第2のモデルはBidirectional-CTCモデルである、時系列情報の学習システム。 The time-series information learning system according to claim 3,
The time-series information learning system, wherein the first model is a Unidirectional-CTC model and the second model is a Bidirectional-CTC model.
前記時系列情報は音声情報を含む、時系列情報の学習システム。 The time-series information learning system according to any one of claims 1 to 4,
The time-series information learning system, wherein the time-series information includes voice information.
(a)時系列情報を表現可能なニューラルネットワークを内部に有し、前記第1のモデルよりも構造が複雑な第2のモデルを、正解ラベルを用いて学習する第2のモデル学習工程と、
(b)前記第1のモデルを生徒モデルとし、前記第2のモデルを教師モデルとし、ナレッジディスティレーションを用いて前記第1のモデルを学習する第1のモデル学習工程と、
を備え、
前記第1のモデル学習工程(b)は、
(b−1)複数のフレームデータを含む第1の時系列データを前記第1のモデルに入力する工程と、
(b−2)前記複数のフレームデータを含む前記第1の時系列データを前記第2のモデルに入力する工程と、
(b−3)前記複数のフレームデータを含む前記第1の時系列データに対応して得られた前記第1のモデルの第1の出力結果として、ラベル系列候補群のそれぞれの確率を得る工程と、
(b−4)前記複数のフレームデータを含む前記第1の時系列データに対応して得られた前記第2のモデルの第2の出力結果として、ラベル系列候補群のそれぞれの確率を得る工程と、
(b−5)前記工程(b−3)において得られた前記第1の出力結果と、前記工程(b−4)において得られた前記第2の出力結果との差を評価する評価工程と、
(b−6)前記評価工程の評価結果に基づいて、前記第1のモデルを学習させる工程と、
を含む時系列情報の学習方法。 In order to construct a system for recognizing time series information, a learning method for learning a first model having a neural network that can express time series information therein,
(A) a second model learning step in which a second model having a neural network capable of expressing time-series information and having a more complex structure than the first model is learned using a correct label;
(B) a first model learning step in which the first model is a student model, the second model is a teacher model, and the first model is learned using knowledge distrition;
With
In the first model learning step (b),
(B-1) inputting first time-series data including a plurality of frame data into the first model;
(B-2) inputting the first time-series data including the plurality of frame data into the second model;
(B-3) obtaining each probability of a label sequence candidate group as a first output result of the first model obtained corresponding to the first time-series data including the plurality of frame data When,
(B-4) A step of obtaining each probability of a label sequence candidate group as a second output result of the second model obtained corresponding to the first time-series data including the plurality of frame data. When,
(B-5) an evaluation step for evaluating a difference between the first output result obtained in the step (b-3) and the second output result obtained in the step (b-4); ,
(B-6) a step of learning the first model based on an evaluation result of the evaluation step;
For learning time-series information including
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018044134A JP7070894B2 (en) | 2018-03-12 | 2018-03-12 | Time series information learning system, method and neural network model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018044134A JP7070894B2 (en) | 2018-03-12 | 2018-03-12 | Time series information learning system, method and neural network model |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019159654A true JP2019159654A (en) | 2019-09-19 |
JP7070894B2 JP7070894B2 (en) | 2022-05-18 |
Family
ID=67996428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018044134A Active JP7070894B2 (en) | 2018-03-12 | 2018-03-12 | Time series information learning system, method and neural network model |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7070894B2 (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079574A (en) * | 2019-11-29 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | Method and system for training neural network |
CN111191722A (en) * | 2019-12-30 | 2020-05-22 | 支付宝(杭州)信息技术有限公司 | Method and device for training prediction model through computer |
CN112422870A (en) * | 2020-11-12 | 2021-02-26 | 复旦大学 | Deep learning video frame insertion method based on knowledge distillation |
JP2021074321A (en) * | 2019-11-11 | 2021-05-20 | 富士フイルム株式会社 | Learning device, learning method, and learned model |
JP2021096813A (en) * | 2019-12-18 | 2021-06-24 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Method and apparatus for processing data |
JP2021140749A (en) * | 2020-03-09 | 2021-09-16 | コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ | Electronic device for precise action profiling for implanting human's knowledge to artificial intelligence, and operation method thereof |
WO2021220658A1 (en) * | 2020-04-30 | 2021-11-04 | ソニーグループ株式会社 | Information processing device and program |
WO2022113338A1 (en) * | 2020-11-30 | 2022-06-02 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
WO2022113340A1 (en) * | 2020-11-30 | 2022-06-02 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
WO2022121515A1 (en) * | 2020-12-11 | 2022-06-16 | International Business Machines Corporation | Mixup data augmentation for knowledge distillation framework |
KR102445226B1 (en) * | 2021-10-20 | 2022-09-20 | (주)뤼이드 | Method to reduce the size of model for knowledge tracing |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017531255A (en) * | 2014-09-12 | 2017-10-19 | マイクロソフト コーポレーションMicrosoft Corporation | Student DNN learning by output distribution |
WO2017213055A1 (en) * | 2016-06-09 | 2017-12-14 | 国立研究開発法人情報通信研究機構 | Speech recognition device and computer program |
-
2018
- 2018-03-12 JP JP2018044134A patent/JP7070894B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017531255A (en) * | 2014-09-12 | 2017-10-19 | マイクロソフト コーポレーションMicrosoft Corporation | Student DNN learning by output distribution |
WO2017213055A1 (en) * | 2016-06-09 | 2017-12-14 | 国立研究開発法人情報通信研究機構 | Speech recognition device and computer program |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7292184B2 (en) | 2019-11-11 | 2023-06-16 | 富士フイルム株式会社 | LEARNING APPARATUS, LEARNING METHOD AND TRAINED MODEL |
JP2021074321A (en) * | 2019-11-11 | 2021-05-20 | 富士フイルム株式会社 | Learning device, learning method, and learned model |
CN111079574B (en) * | 2019-11-29 | 2022-08-02 | 支付宝(杭州)信息技术有限公司 | Method and system for training neural network |
CN111079574A (en) * | 2019-11-29 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | Method and system for training neural network |
JP2021096813A (en) * | 2019-12-18 | 2021-06-24 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Method and apparatus for processing data |
CN111191722B (en) * | 2019-12-30 | 2022-08-09 | 支付宝(杭州)信息技术有限公司 | Method and device for training prediction model through computer |
CN111191722A (en) * | 2019-12-30 | 2020-05-22 | 支付宝(杭州)信息技术有限公司 | Method and device for training prediction model through computer |
JP2021140749A (en) * | 2020-03-09 | 2021-09-16 | コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ | Electronic device for precise action profiling for implanting human's knowledge to artificial intelligence, and operation method thereof |
JP7283774B2 (en) | 2020-03-09 | 2023-05-30 | コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ | ELECTRONIC APPARATUS AND OPERATING METHOD THEREOF, AND COMPUTER PROGRAM FOR PRECISE BEHAVIOR PROFILING FOR IMPLANTING HUMAN INTELLIGENCE TO ARTIFICIAL INTELLIGENCE |
WO2021220658A1 (en) * | 2020-04-30 | 2021-11-04 | ソニーグループ株式会社 | Information processing device and program |
CN112422870B (en) * | 2020-11-12 | 2021-09-17 | 复旦大学 | Deep learning video frame insertion method based on knowledge distillation |
CN112422870A (en) * | 2020-11-12 | 2021-02-26 | 复旦大学 | Deep learning video frame insertion method based on knowledge distillation |
WO2022113338A1 (en) * | 2020-11-30 | 2022-06-02 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
WO2022113340A1 (en) * | 2020-11-30 | 2022-06-02 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
WO2022121515A1 (en) * | 2020-12-11 | 2022-06-16 | International Business Machines Corporation | Mixup data augmentation for knowledge distillation framework |
GB2617035A (en) * | 2020-12-11 | 2023-09-27 | Ibm | Mixup data augmentation for knowledge distillation framework |
KR102445226B1 (en) * | 2021-10-20 | 2022-09-20 | (주)뤼이드 | Method to reduce the size of model for knowledge tracing |
Also Published As
Publication number | Publication date |
---|---|
JP7070894B2 (en) | 2022-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7070894B2 (en) | Time series information learning system, method and neural network model | |
CN108492820B (en) | Chinese speech recognition method based on cyclic neural network language model and deep neural network acoustic model | |
Dahl et al. | Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition | |
US11158305B2 (en) | Online verification of custom wake word | |
US11798535B2 (en) | On-device custom wake word detection | |
US20190267023A1 (en) | Speech recognition using connectionist temporal classification | |
JP7418991B2 (en) | Speech recognition method and device | |
Lugosch et al. | DONUT: CTC-based query-by-example keyword spotting | |
Liu et al. | Graph-based semisupervised learning for acoustic modeling in automatic speech recognition | |
Ao et al. | Query-by-example spoken term detection using attention-based multi-hop networks | |
Soltau et al. | Reducing the computational complexity for whole word models | |
WO2021109856A1 (en) | Speech recognition system for cognitive impairment | |
Prabhavalkar et al. | A factored conditional random field model for articulatory feature forced transcription | |
Bhatta et al. | Nepali speech recognition using CNN, GRU and CTC | |
Zhou et al. | Extracting unit embeddings using sequence-to-sequence acoustic models for unit selection speech synthesis | |
Heymann et al. | Improving ctc using stimulated learning for sequence modeling | |
Manjunath et al. | Development of multilingual phone recognition system for Indian languages | |
Becerra et al. | A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish | |
CN115240712A (en) | Multi-mode-based emotion classification method, device, equipment and storage medium | |
CN112951277B (en) | Method and device for evaluating speech | |
Kang et al. | Lattice based transcription loss for end-to-end speech recognition | |
JP5161174B2 (en) | Route search device, speech recognition device, method and program thereof | |
Ramadhelza et al. | Indonesian Phonemicization Model Using N-Gram-Based Bidirectional Long Short-Term Memory | |
Zhang et al. | Application of pronunciation knowledge on phoneme recognition by lstm neural network | |
Naaman et al. | Learning Similarity Functions for Pronunciation Variations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20180403 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220425 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7070894 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |