JP7385900B2 - Inference machine, inference program and learning method - Google Patents
Inference machine, inference program and learning method Download PDFInfo
- Publication number
- JP7385900B2 JP7385900B2 JP2019163555A JP2019163555A JP7385900B2 JP 7385900 B2 JP7385900 B2 JP 7385900B2 JP 2019163555 A JP2019163555 A JP 2019163555A JP 2019163555 A JP2019163555 A JP 2019163555A JP 7385900 B2 JP7385900 B2 JP 7385900B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- speech recognition
- corresponding text
- inference
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 67
- 230000014509 gene expression Effects 0.000 claims description 55
- 230000005236 sound signal Effects 0.000 claims description 24
- 230000010365 information processing Effects 0.000 description 43
- 238000012545 processing Methods 0.000 description 42
- 238000012549 training Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 19
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 241001672694 Citrus reticulata Species 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000001142 back Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
本技術は、音声認識タスクを実現するための推論器、推論プログラムおよび学習方法に関する。 The present technology relates to an inference device, an inference program, and a learning method for realizing a speech recognition task.
音声認識分野においては、音響モデル、言語モデル、および辞書(lexicon)を一体化したニューラルネットワークである、エンド・トゥ・エンド(end-to-end)モデルが検討および提案されている(非特許文献1および2など参照)。音声認識タスクに向けられたエンド・トゥ・エンドモデルとして、Transformerベースの自動音声認識(ASR:Automatic Speech Recognition)システムが注目されている(非特許文献3など参照)。Transformerベースのエンド・トゥ・エンドモデルを用いることで、ASRシステムの構築および学習を容易化できる。
In the field of speech recognition, an end-to-end model, which is a neural network that integrates an acoustic model, a language model, and a dictionary (lexicon), has been studied and proposed (non-patent literature). 1 and 2, etc.). Transformer-based automatic speech recognition (ASR) systems are attracting attention as an end-to-end model for speech recognition tasks (see Non-Patent
非特許文献4および5は、中国語に関して、Transformerベースのエンド・トゥ・エンド音声認識システムにおける音響モデルの研究成果を開示する。
また、非特許文献6および7は、単一のモデルを用いた多言語エンド・トゥ・エンド音声認識システムを効率的に学習する方法を開示する。より具体的には、各発話の先頭に、当該発話がいずれの言語であるかを示す特定のワード<Language Mark>(例えば、<English>,<Mandarin>,<Japanese>,<German>など)を追加したデータセットを用いて学習を行う。<Language Mark>がラベルとして取り扱われる。
Additionally, Non-Patent
上述の非特許文献6および7に開示される方法は、文字(character)レベルで学習を行うものであり、複数の言語を同時に学習した場合(すなわち、単一のモデルを用いて多言語の音声認識システムを構築使用とした場合)には、トークンの数が膨大となり、パラメータサイズが巨大化するという課題がある。
The methods disclosed in Non-Patent
本技術は、より少ないパラメータサイズのモデルを用いて、多言語エンド・トゥ・エンド音声認識システムを実現するための技術を提供することを目的とする。 The purpose of this technology is to provide a technology for realizing a multilingual end-to-end speech recognition system using a model with a smaller parameter size.
ある実施の形態によれば、複数の言語のうち任意の言語で発話された音声信号の入力を受けて、対応するテキストを出力する推論器が提供される。推論器は、前記音声信号の音声特徴を示す入力シーケンスを受けて、対応するテキストに含まれる文字の特徴を示す、文字レベルとは異なるレベルの表現を出力する学習済モデルと、予め定められた文字と当該文字の特徴との対応関係を参照して、前記学習済モデルから出力される表現から対応するテキストを再構成する再構成部とを含む。 According to one embodiment, a reasoner is provided that receives input of an audio signal uttered in any one of a plurality of languages and outputs corresponding text. The reasoner receives an input sequence representing the audio characteristics of the audio signal and outputs a representation at a level different from the character level representing characteristics of characters included in the corresponding text, and a predetermined model. and a reconstruction unit that reconstructs a corresponding text from the expression output from the learned model by referring to the correspondence between characters and the characteristics of the characters.
前記学習済モデルから出力される表現は、対応するテキストに含まれる各文字の構造を特定する情報を含んでいてもよい。 The expression output from the learned model may include information specifying the structure of each character included in the corresponding text.
前記文字の構造を特定する情報は、対応する文字を構成する1または複数の文字部品を特定する情報を含んでいてもよい。 The information specifying the structure of the character may include information specifying one or more character parts that constitute the corresponding character.
前記文字の構造を特定する情報は、前記1または複数の文字部品の配置を特定する情報を含んでいてもよい。 The information specifying the structure of the character may include information specifying the arrangement of the one or more character parts.
前記対応関係は、言語ごとに、1または複数の文字部品と対応する文字との対応関係を規定してもよい。 The correspondence relationship may define a correspondence relationship between one or more character parts and corresponding characters for each language.
前記学習済モデルから出力される表現は、対応するテキストに含まれる各文字の発音を特定する情報を含んでいてもよい。 The expression output from the learned model may include information specifying the pronunciation of each character included in the corresponding text.
前記文字の発音を特定する情報は、音韻構造を表現するユニバーサル特徴に基づいて、対応する文字の発音を特定する情報を含んでいてもよい。 The information specifying the pronunciation of the character may include information specifying the pronunciation of the corresponding character based on universal features expressing phonological structure.
前記文字の発音を特定する情報は、対応するテキストに含まれる単語をさらに分解した文字ごとに発音を規定する情報を含んでいてもよい。 The information specifying the pronunciation of the character may include information specifying the pronunciation for each character obtained by further decomposing the word included in the corresponding text.
前記対応関係は、言語ごとに、発音を特定する情報と対応する文字との対応関係を規定してもよい。 The correspondence relationship may define a correspondence relationship between information specifying pronunciation and corresponding characters for each language.
別の実施の形態によれば、上記の推論器をコンピュータで実現するための推論プログラムが提供される。 According to another embodiment, an inference program for implementing the above inference device on a computer is provided.
さらに別の実施の形態によれば、複数の言語のうち任意の言語で発話された音声信号の入力を受けて、対応するテキストを出力する推論器を学習する学習方法が提供される。学習方法は、音声信号と対応するテキストとを用意するステップと、前記テキストに含まれる文字の特徴を示す、文字レベルとは異なるレベルの表現を生成するステップと、前記音声信号の音声特徴を示す入力シーケンスを前記推論器に入力して得られる推論結果と、対応する表現との誤差に基づいて、前記推論器を規定するパラメータを最適化するステップとを含む。 According to yet another embodiment, a learning method is provided for learning a reasoner that receives an input of an audio signal uttered in any one of a plurality of languages and outputs a corresponding text. The learning method includes the steps of: preparing an audio signal and a corresponding text; generating an expression at a level different from the character level that represents the characteristics of characters included in the text; and representing the audio characteristics of the audio signal. The method includes the step of optimizing parameters defining the inference device based on an error between an inference result obtained by inputting an input sequence to the inference device and a corresponding expression.
さらに別の実施の形態によれば、コンピュータに上記の学習方法を実行させるための学習プログラムが提供される。 According to yet another embodiment, a learning program for causing a computer to execute the above learning method is provided.
本技術によれば、より少ないパラメータサイズのモデルを用いて、多言語エンド・トゥ・エンド音声認識システムを実現できる。 According to the present technology, a multilingual end-to-end speech recognition system can be realized using a model with a smaller parameter size.
本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。 Embodiments of the present invention will be described in detail with reference to the drawings. Note that the same or corresponding parts in the figures are designated by the same reference numerals, and the description thereof will not be repeated.
[A.概要]
音声認識タスクに用いられる従来のモデル(典型的には、DNN-HMMモデル)は、1フレームの発話に対して1つのトークンのみがラベルとして使用できる。これに対して、Transformerなどのエンド・トゥ・エンドモデルでは、1フレームの発話に対して一連のトークンを関連付けることができ、これによってより強力な表現能力を発揮する。
[A. overview]
Conventional models used for speech recognition tasks (typically DNN-HMM models) allow only one token to be used as a label for one frame of utterance. In contrast, end-to-end models such as Transformer allow a series of tokens to be associated with one frame of utterance, thereby demonstrating stronger expressive capabilities.
本実施の形態に従う音声認識システムは、エンド・トゥ・エンドモデルを用いて多言語対応の音声認識タスクを実行する。本実施の形態に従う音声認識システムは、既存の音声認識システムのような文字(character)レベルではなく、異なるレベルの表現(representation)を用いる。 The speech recognition system according to this embodiment executes multilingual speech recognition tasks using an end-to-end model. The speech recognition system according to the present embodiment uses a different level of representation rather than the character level like existing speech recognition systems.
より具体的には、言語間の類似性に着目した表現を利用することで、パラメータサイズを低減する。このような言語間の類似性の一例として、以下では、個々の文字が意味を表す表意文字(典型的には、漢字)の構造に着目する例(第1の実施例)、および、個々の文字が音素または音節を表す表音文字(あるいは、音標文字)の構造に着目する例(第2の実施例)について例示する。なお、本発明の技術的範囲は、表意文字および表音文字に限られず、言語間の任意の類似性を利用した音声認識システムを包含するものである。 More specifically, the parameter size is reduced by using expressions that focus on similarities between languages. As an example of such similarities between languages, an example (first example) focusing on the structure of ideograms (typically kanji) in which each character represents a meaning, and An example (second embodiment) in which attention is paid to the structure of phonetic characters (or phonetic characters) in which characters represent phonemes or syllables will be exemplified. Note that the technical scope of the present invention is not limited to ideograms and phonetic characters, but includes a speech recognition system that utilizes any similarity between languages.
第1の実施例(表意文字)は、類似した表意文字(典型的には、漢字)を利用する複数の言語に対して単一のモデルを用いる場合を想定しており、漢字を「へん」と「つくり」といった1または複数の文字部品の組み合わせと捉えて、学習済モデルを構築する。 The first embodiment (ideograms) assumes a case where a single model is used for multiple languages that use similar ideograms (typically kanji), and kanji are A trained model is constructed by considering it as a combination of one or more character parts such as and "tsukuri".
第2の実施例(表音文字)は、類似した表音文字を利用する複数の言語に対して単一のモデルを用いる場合を想定しており、文字(character)を1または複数の音調特徴(articulatory feature)の組み合わせと捉えて、学習済モデルを構築する。 The second embodiment (phonetic characters) assumes a case where a single model is used for multiple languages that use similar phonetic characters, and a character is defined by one or more tonal characteristics. (articulatory features) and construct a trained model.
このような学習済モデルを採用することで、モデルの規模(パラメータサイズ)を抑制しつつ、多言語対応のリアルタイムな音声認識システムを実現できる。さらに、認識性能の向上も期待できる。 By employing such a trained model, it is possible to realize a multilingual real-time speech recognition system while suppressing the scale of the model (parameter size). Furthermore, improvement in recognition performance can also be expected.
以下、本実施の形態に従う音声認識システムの詳細について説明する。
[B.Transformer]
本実施の形態に従う音声認識システムには、どのようなエンド・トゥ・エンドモデルを用いてもよい。現時点では、例えば、Transformer、LSTM(Long short-term memory)を用いたモデル、BERTと称されるモデルなどが挙げられる。以下の説明においては、典型例として、Transformerベースのエンド・トゥ・エンドモデルを採用する。但し、技術の進歩に伴って新たなエンド・トゥ・エンドモデルが開発された場合には、そのような新たなモデルにも適用可能であることは自明である。
The details of the speech recognition system according to this embodiment will be explained below.
[B. Transformer]
Any end-to-end model may be used in the speech recognition system according to this embodiment. At present, examples include a model using Transformer, LSTM (Long short-term memory), and a model called BERT. In the following description, a Transformer-based end-to-end model is adopted as a typical example. However, if a new end-to-end model is developed as technology advances, it is obvious that the present invention can also be applied to such a new model.
以下、一般的なTransformerについて説明する。
図1は、本発明の関連技術に従うTransformer10の一例を示す模式図である。図1を参照して、Transformer10は、学習済モデルであり、ニュートラルネットワークの一形態に相当する。
A general Transformer will be explained below.
FIG. 1 is a schematic diagram showing an example of a
Transformer10は、スタックされたN層分のエンコーダブロック20とM層分のデコーダブロック40とを含む。スタックされたN層分のエンコーダブロック20をまとめてエンコーダ200とも称す。スタックされたM層分のデコーダブロック40をまとめてデコーダ400とも称す。
The
エンコーダ200は、入力シーケンス2から中間シーケンスを出力する。デコーダ400は、エンコーダ200から出力される中間シーケンスおよび先に出力された出力シーケンスに基づいて出力シーケンス70を出力する。
エンコーダ200(すなわち、N層分のエンコーダブロック20のうち先頭層)には、入力埋め込み(Input Embedding)層4、位置埋め込み層(Positional Embedding)層6および加算器8により生成される入力トークン列が入力される。エンコーダ200(すなわち、N層分のエンコーダブロック20のうち最終層)は、算出結果として、中間センテンス表現を出力する。
The encoder 200 (that is, the first layer among the N layers of encoder blocks 20) receives an input token string generated by an
入力埋め込み層4は、センテンスなどの入力シーケンス2を、所定単位で1または複数のトークンに分割するとともに、各分割したトークンの値を示す所定次元のベクトルを生成する。位置埋め込み層6は、各トークンが入力シーケンス2内のいずれの位置に存在しているのかを示す値である位置埋め込み(positional embedding)を出力する。加算器8は、入力埋め込み層4からのシーケンスに、位置埋め込み層6からの位置埋め込みを付加する。
The
エンコーダブロック20の各々は、MHA(Multi-head Attention)層22と、フィードフォワード(Feed Forward)層26と、加算・正則化(Add & Norm)層24,28とを含む。
Each of the encoder blocks 20 includes an MHA (Multi-head Attention)
MHA層22は、入力トークン列(ベクトル)についてAttentionを算出する。加算・正則化層24は、入力トークン列(ベクトル)にMHA層22から出力されるベクトルを加算した上で、任意の手法で正則化(normalize)する。フィードフォワード層26は、入力されたベクトルに対して位置(すなわち、入力される時刻)をシフトする。加算・正則化層28は、加算・正則化層24から出力されるベクトルに、フィードフォワード層26から出力されるベクトルを加算した上で、任意の手法で正則化する。
The
デコーダ400(すなわち、M層分のデコーダブロック40のうち先頭層)には、出力埋め込み(Output Embedding)層14、位置埋め込み層(Positional Embedding)層16および加算器18により生成される出力トークン列が入力される。デコーダ400(すなわち、M層分のデコーダブロック40のうち最終層)は、算出結果として、出力シーケンスを出力する。
The decoder 400 (that is, the first layer among M layers of decoder blocks 40) has an output token string generated by an
出力埋め込み層14は、既出力シーケンス(前回の出力シーケンスに対して時刻を一致させるためにシフトされたもの)(Outputs(Shifted right))12を、所定単位で1または複数のトークンに分割するとともに、各分割したトークンの値を示す所定次元のベクトルを生成する。位置埋め込み層16は、各トークンが既出力シーケンス12内のいずれの位置に存在しているのかを示す値である位置埋め込み(positional embedding)を出力する。加算器18は、出力埋め込み層14からのトークン列に、位置埋め込み層16からの位置埋め込みを付加する。
The
デコーダブロック40の各々は、MMHA(Masked Multi-head Attention)層42と、MHA(Multi-head Attention)層46と、フィードフォワード(Feed Forward)層50と、加算・正則化(Add & Norm)層44,48,52とを含む。すなわち、デコーダブロック40は、エンコーダブロック20と類似した構成となっているが、MMHA層42および加算・正則化層44を含んでいる点が異なっている。
Each of the decoder blocks 40 includes an MMHA (Masked Multi-head Attention)
MMHA層42は、先に算出されたベクトルのうち存在し得ないベクトルに対してマスク処理を実行する。加算・正則化層44は、出力トークン列(ベクトル)にMMHA層42から出力されるベクトルを加算した上で、任意の手法で正則化する。
The
MHA層46は、エンコーダブロック20の加算・正則化層28から出力される中間センテンス表現、および、加算・正則化層44から出力されるベクトルについて、Attentionを算出する。MHA層46の基本的な処理は、MHA層22と同様である。加算・正則化層48は、加算・正則化層44から出力されるベクトルに、MHA層46から出力されるベクトルを加算した上で、任意の手法で正則化する。フィードフォワード層50は、入力されたベクトルに対して位置(すなわち、入力される時刻)をシフトする。加算・正則化層52は、MHA層46から出力されるベクトルに、フィードフォワード層50から出力されるベクトルを加算した上で、任意の手法で正則化する。
The
Transformer10は、出力層として、ソフトマックス(Softmax)層60を含む。ソフトマックス層60は、デコーダ400から出力されるベクトルをソフトマックス関数に入力して得られる結果を出力シーケンス70として出力する。
[C.ハードウェア構成]
次に、本実施の形態に従う音声認識システムを実現するハードウェア構成の一例について説明する。
[C. Hardware configuration]
Next, an example of the hardware configuration for realizing the speech recognition system according to this embodiment will be described.
図2は、本実施の形態に従う音声認識システムを実現するハードウェア構成の一例を示す模式図である。音声認識システムは、典型的には、コンピュータの一例である情報処理装置500を用いて実現される。
FIG. 2 is a schematic diagram showing an example of the hardware configuration for realizing the speech recognition system according to the present embodiment. The speech recognition system is typically realized using an
図2を参照して、音声認識システムを実現する情報処理装置500は、主要なハードウェアコンポーネントとして、CPU(central processing unit)502と、GPU(graphics processing unit)504と、主メモリ506と、ディスプレイ508と、ネットワークインターフェイス(I/F:interface)510と、二次記憶装置512と、入力デバイス522と、光学ドライブ524とを含む。これらのコンポーネントは、内部バス528を介して互いに接続される。
Referring to FIG. 2, an
CPU502および/またはGPU504は、本実施の形態に従う音声認識システムの実現に必要な処理を実行するプロセッサである。CPU502およびGPU504は、複数個配置されてもよいし、複数のコアを有していてもよい。
主メモリ506は、プロセッサ(CPU502および/またはGPU504)が処理を実行するにあたって、プログラムコードやワークデータなどを一時的に格納(あるいは、キャッシュ)する記憶領域であり、例えば、DRAM(dynamic random access memory)やSRAM(static random access memory)などの揮発性メモリデバイスなどで構成される。
The
ディスプレイ508は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、LCD(liquid crystal display)や有機EL(electroluminescence)ディスプレイなどで構成される。
The
ネットワークインターフェイス510は、インターネット上またはイントラネット上の任意の情報処理装置などとの間でデータを遣り取りする。ネットワークインターフェイス510としては、例えば、イーサネット(登録商標)、無線LAN(local area network)、Bluetooth(登録商標)などの任意の通信方式を採用できる。
The
入力デバイス522は、ユーザからの指示や操作などを受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。また、入力デバイス522は、学習およびデコーディングに必要な音声信号を収集するための集音デバイスを含んでいてもよいし、集音デバイスにより収集された音声信号の入力を受け付けるためのインターフェイスを含んでいてもよい。
The
光学ドライブ524は、CD-ROM(compact disc read only memory)、DVD(digital versatile disc)などの光学ディスク526に格納されている情報を読出して、内部バス528を介して他のコンポーネントへ出力する。光学ディスク526は、非一過的(non-transitory)な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ524が光学ディスク526からプログラムを読み出して、二次記憶装置512などにインストールすることで、コンピュータが情報処理装置500として機能するようになる。したがって、本発明の主題は、二次記憶装置512などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク526などの記録媒体でもあり得る。
The
図2には、非一過的な記録媒体の一例として、光学ディスク526などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、MO(magneto-optical disk)などの光磁気記録媒体を用いてもよい。
Although FIG. 2 shows an optical recording medium such as an
二次記憶装置512は、コンピュータを情報処理装置500として機能させるために必要なプログラムおよびデータを格納する。例えば、ハードディスク、SSD(solid state drive)などの不揮発性記憶装置で構成される。
The
より具体的には、二次記憶装置512は、図示しないOS(operating system)の他、学習処理を実現するための学習プログラム514と、音声認識システムに用いられるモデルの構造を定義するモデル定義データ516と、音声認識システムに用いられる学習済モデルを規定する複数のパラメータからなるパラメータセット518と、推論プログラム520と、トレーニングデータセット530とを格納している。
More specifically, the
学習プログラム514は、プロセッサ(CPU502および/またはGPU504)により実行されることで、パラメータセット518を決定するための学習処理を実現する。すなわち、学習プログラム514は、コンピュータに推論器(音声認識システム)を学習するための学習処理を実行させる。
The
モデル定義データ516は、音声認識システムを構成するモデルに含まれるコンポーネントおよびコンポーネント間の接続関係などを定義するための情報を含む。
The
パラメータセット518は、音声認識システムを構成する各コンポーネントについてのパラメータを含む。パラメータセット518に含まれる各パラメータは、学習プログラム514の実行により最適化される。
Parameter set 518 includes parameters for each component that makes up the speech recognition system. Each parameter included in the parameter set 518 is optimized by executing the
推論プログラム520は、パラメータセット518により規定されるモデルを用いた推論処理を実行する。すなわち、推論プログラム520は、後述するような推論器をコンピュータで実現する。トレーニングデータセット530は、図4に示すようなデータの組み合わせからなる。
The
プロセッサ(CPU502および/またはGPU504)がプログラムを実行する際に必要となるライブラリや機能モジュールの一部を、OSが標準で提供するライブラリまたは機能モジュールにより代替してもよい。この場合には、プログラム単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、OSの実行環境下にインストールされることで、目的の処理を実現できる。このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。
A part of the library or function module required when the processor (
また、これらのプログラムは、上述したようないずれかの記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。 Furthermore, these programs may not only be stored and distributed in any of the recording media as described above, but may also be distributed by being downloaded from a server device or the like via the Internet or an intranet.
図2には、単一のコンピュータを用いて情報処理装置500を構成する例を示すが、これに限らず、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、音声認識システムを構成する学習済モデルおよび学習済モデルを用いた推論器を実現するようにしてもよい。
Although FIG. 2 shows an example in which the
プロセッサ(CPU502および/またはGPU504)がプログラムを実行することで実現される機能の全部または一部を、集積回路などのハードワイヤード回路(hard-wired circuit)を用いて実現してもよい。例えば、ASIC(application specific integrated circuit)やFPGA(field-programmable gate array)などを用いて実現してもよい。
All or part of the functions realized by the processor (
当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う情報処理装置500を実現できるであろう。
Those skilled in the art will be able to implement
説明の便宜上、同一の情報処理装置500を用いて、学習処理および推論処理を実行する例を示すが、学習処理および推論処理を異なるハードウェアを用いて実現してもよい。
For convenience of explanation, an example is shown in which the same
[D.第1の実施例(表意文字)]
第1の実施例として、漢字などの表意文字を用いる複数の言語に対して単一のモデルを用いた音声認識システムについて説明する。
[D. First example (ideograms)]
As a first example, a speech recognition system using a single model for multiple languages using ideographic characters such as Chinese characters will be described.
(d1:概要)
図3は、第1の実施例に従う音声認識システム100Aの概要を示す模式図である。図3を参照して、音声認識システム100Aは、音声特徴を示す入力シーケンス2の入力を受けて、対応するテキストを出力シーケンス70として出力する。すなわち、音声認識システム100Aは、複数の言語のうち任意の言語で発話された音声信号の入力を受けて、対応するテキストを出力する推論器に相当する。
(d1: Overview)
FIG. 3 is a schematic diagram showing an overview of the speech recognition system 100A according to the first embodiment. Referring to FIG. 3, the speech recognition system 100A receives an
出力シーケンス70の先頭には、いずれの言語であるかを示す言語ラベル72(<TW>,<HK>,<MA>など)が付加されている。このような言語ラベル72が付加されることによって、いずれの言語であるかを一意に特定できる。
At the beginning of the
音声認識システム100Aは、Transformer10と、文字合成部80とを含む。
The speech recognition system 100A includes a
Transformer10は、音声信号の音声特徴を示す入力シーケンス2を受けて、対応するテキストに含まれる文字の特徴を示す、文字(character)レベルとは異なるレベルの表現を出力する学習済モデルに相当する。より具体的には、Transformer10は、漢字を構成する1または複数の文字部品を示す、文字レベルではなく、異なるレベルの表現(以下、「文字部品表現82」あるいは「Decomposed Character representation」とも称す。)を用いる。文字部品表現82は、対応するテキストに含まれる各文字の構造を特定する情報を含む(詳細については後述する)。
The
本明細書において、「文字部品」は、出力すべきテキストを構成する少なくとも一部分を構成する要素を意味し、言語体系などに応じて任意に決定できる単位で規定される。 In this specification, a "character component" means an element that constitutes at least a part of a text to be output, and is defined in units that can be arbitrarily determined depending on the language system and the like.
文字合成部80は、予め定められた文字と当該文字の特徴との対応関係を参照して、Transformer10(学習済モデル)から出力される表現から対応するテキストを再構成する再構成部に相当する。より具体的には、文字合成部80は、Transformer10から出力される文字部品表現82の入力を受けて、出力すべき文字(漢字)に合成して、出力シーケンス70として出力する。
The character synthesis unit 80 corresponds to a reconstruction unit that reconstructs a corresponding text from the expression output from the Transformer 10 (trained model) with reference to the correspondence between predetermined characters and the characteristics of the characters. . More specifically, the character synthesis unit 80 receives input of the character part representation 82 output from the
第1の実施例においては、漢字を構成する1または複数の文字部品に分解した状態を示す表現を用いてモデルの学習を行う。 In the first embodiment, a model is trained using an expression that shows a state in which a kanji is broken down into one or more character parts.
(d2:文字部品表現82)
図3に示す文字部品表現82は、典型的には、以下のようなデータ構造のシーケンスとして出力される。
(d2: Character part representation 82)
The character part representation 82 shown in FIG. 3 is typically output as a sequence of data structures as shown below.
(1)<言語ラベル>[部品特定情報],[部品特定情報],・・・,<区切文字>,[部品特定情報],[部品特定情報],・・・
(2)<言語ラベル>[構造特定情報],[部品特定情報],[部品特定情報],・・・,<区切文字>,[部品特定情報],[部品特定情報],・・・
文字部品表現82に含まれる<言語ラベル>は、いずれの言語であるかを特定するための情報を含む。<言語ラベル>としては、例えば、<TW>(台湾),<HK>(香港),<MA>(中国標準語)などが用いられる。
(1) <Language label> [Component identification information], [Part identification information], ..., <Delimiter>, [Part identification information], [Part identification information], ...
(2) <Language label> [Structure identification information], [Part identification information], [Part identification information], ..., <Delimiter>, [Part identification information], [Part identification information], ...
<Language label> included in the character part expression 82 includes information for specifying which language it is. As <language label>, <TW> (Taiwan), <HK> (Hong Kong), <MA> (Mandarin Chinese), etc. are used, for example.
文字部品表現82に含まれる[部品特定情報]は、対応する文字を構成する文字部品を特定するための情報を含む。文字部品表現82に含まれる<区切文字>は、出力される文字の区切りを意味し、<区切文字>から次の<区切文字>までに存在する[部品特定情報]に基づいて、出力すべき文字が再構成される。<区切文字>としては、単にブランク(無出力)を用いてもよい。このように、文字部品表現82は、対応する文字を構成する1または複数の文字部品を特定する情報を含む。 [Component identification information] included in the character component representation 82 includes information for specifying character components that constitute the corresponding character. The <delimiter> included in the character part expression 82 means a delimiter between characters to be output, and the character to be output is determined based on the [component specific information] that exists between the <delimiter> and the next <delimiter>. Characters are reorganized. A blank (no output) may be simply used as the <delimiter>. In this way, the character part representation 82 includes information that specifies one or more character parts that constitute the corresponding character.
文字部品表現82に含まれる[構造特定情報]は、対応する文字を構成する文字部品の組み合わせに係る構造を特定するための情報を含む。例えば、ある文字が横並びで配置された2つの文字部品で構成されている場合において、[構造特定情報]は、横並びで配置されていることを示す情報を含むことになる。このように、文字部品表現82は、1または複数の文字部品の配置を特定する情報を含んでいてもよい。 [Structure identification information] included in the character part expression 82 includes information for specifying a structure related to a combination of character parts forming a corresponding character. For example, in the case where a certain character is composed of two character parts arranged side by side, the [structure specifying information] includes information indicating that the characters are arranged side by side. In this way, the character part representation 82 may include information specifying the arrangement of one or more character parts.
なお、上述した文字部品表現82のデータ構造は一例であり、文字を再構成できるものであれば、どのようなデータ構造を採用してもよい。さらに、文字部品表現82には、より多くの情報を含めるようにしてもよい。 Note that the data structure of the character part representation 82 described above is just an example, and any data structure may be employed as long as it allows characters to be reconstructed. Furthermore, the character part representation 82 may include more information.
(d3:文字部品への分解)
次に、文字を文字部品に分解する方法の一例について説明する。
(d3: Decomposition into character parts)
Next, an example of a method for decomposing characters into character parts will be described.
図4は、第1の実施例に従う音声認識システム100Aにおける文字部品への分解の方法を説明するための図である。図4を参照して、複数の文字の構造802が規定されており、各文字についていずれの構造802に該当するのかが決定された上で、決定された構造802に応じて、各文字が1または複数の文字部品804に分解される。
FIG. 4 is a diagram for explaining a method of decomposition into character parts in the speech recognition system 100A according to the first embodiment. Referring to FIG. 4, a plurality of
したがって、各文字からは、決定された構造802の情報と、当該決定された構造802の情報に基づいて分解された1または複数の文字部品804との情報が生成される(単純分解806)。
Therefore, from each character, information on the
さらに、文字によっては、複数の構造802を有していると決定され、それぞれの構造802に従って文字部品804の情報が生成されてもよい(混合構造808)。
Further, some characters may be determined to have
文字の構造802については、漢字の構造に基づいて任意のパターンを決定すればよいが、典型例としては、12種類の構造802を予め用意すればよい。
Regarding the
(d4:文字合成部80)
次に、第1の実施例に従う音声認識システム100Aの文字合成部80(図3参照)における処理例について説明する。
(d4: Character synthesis section 80)
Next, an example of processing in the character synthesis unit 80 (see FIG. 3) of the speech recognition system 100A according to the first embodiment will be described.
上述したように、文字部品表現82は、出力すべき文字を構成する1または複数の文字部品を特定するための部品特定情報からなる。文字合成部80は、文字部品表現82に含まれる文字ごとに規定される1または複数の部品特定情報に基づいて、出力すべき文字を再構成する。文字部品表現82は文字部品対応テーブル84を有しており、文字部品対応テーブル84に基づいて、文字が再構成される。 As described above, the character part expression 82 consists of part specifying information for specifying one or more character parts that constitute a character to be output. The character synthesis unit 80 reconstructs characters to be output based on one or more pieces of part specifying information defined for each character included in the character part representation 82. The character part expression 82 has a character part correspondence table 84, and characters are reconstructed based on the character part correspondence table 84.
文字部品対応テーブル84は、言語ごとに、1または複数の文字部品と対応する文字との対応関係を規定する。 The character parts correspondence table 84 defines the correspondence between one or more character parts and corresponding characters for each language.
図5は、第1の実施例に従う音声認識システム100Aの文字合成部80において利用される文字部品対応テーブル84の一例を示す図である。図5を参照して、文字部品対応テーブル84は、1または複数の文字部品の組み合わせを規定する組み合わせ定義842と、対応する文字844との組を複数含む。
FIG. 5 is a diagram showing an example of the character-component correspondence table 84 used in the character synthesis section 80 of the speech recognition system 100A according to the first embodiment. Referring to FIG. 5, character component correspondence table 84 includes a plurality of sets of
文字合成部80は、Transformer10から出力される文字部品表現82に含まれる区切文字の位置で区切って、1または複数の部品特定情報を抽出する。そして、文字合成部80は、抽出した1または複数の部品特定情報をキーにして文字部品対応テーブル84を参照することで、対応する文字を決定する。文字部品対応テーブル84を参照した文字の決定処理を繰り返すことで、入力シーケンス2に対応するテキストを出力シーケンス70として出力する。
The character synthesis unit 80 separates the character part expression 82 output from the
文字部品対応テーブル84は、言語ごとに用意されてもよい。この場合には、文字合成部80は、Transformer10から出力される文字部品表現82のシーケンスの先頭に含まれる言語ラベルの値に基づいて、対応する言語の文字部品対応テーブル84を選択する。
The character component correspondence table 84 may be prepared for each language. In this case, the character synthesis unit 80 selects the character-component correspondence table 84 of the corresponding language based on the value of the language label included at the beginning of the sequence of character-component expressions 82 output from the
さらに、文字部品対応テーブル84は、各データに関連付けて構造特定情報(対応する文字を構成する文字部品の組み合わせに係る構造を特定するための情報)を含んでいてもよい。構造特定情報を付加することで、同じ文字部品で構成されるものの、配置が異なる文字同士を区別することができる。 Further, the character-component correspondence table 84 may include structure identification information (information for specifying a structure related to a combination of character parts constituting a corresponding character) in association with each data. By adding structure identification information, it is possible to distinguish between characters that are composed of the same character parts but that are arranged differently.
上述のような文字部品対応テーブル84を参照することで、Transformer10から出力される文字部品表現82から出力シーケンス70を生成できる。
By referring to the character-component correspondence table 84 as described above, the
(d5:学習処理)
次に、第1の実施例に従う音声認識システム100Aの学習処理についての一例について説明する。
(d5: learning process)
Next, an example of the learning process of the speech recognition system 100A according to the first embodiment will be described.
図6は、第1の実施例に従う音声認識システム100Aの学習処理を説明するための模式図である。図6を参照して、トレーニングデータセットとして、音声特徴を示す入力シーケンス2と対応するテキスト64との組が用意される。テキスト64には、いずれの言語であるかを示す言語ラベルを含んでいてもよい。
FIG. 6 is a schematic diagram for explaining the learning process of the speech recognition system 100A according to the first embodiment. Referring to FIG. 6, a set of
学習処理においては、前処理として、テキスト64に含まれる各文字を1または複数の文字部品に分解した文字部品表現82が生成される。文字部品表現82の生成に際して、文字部品対応テーブル84が必要に応じて参照されるとともに、文字部品対応テーブル84の内容が適宜更新されてもよい。 In the learning process, as a preprocess, a character part representation 82 is generated in which each character included in the text 64 is decomposed into one or more character parts. When generating the character-component representation 82, the character-component correspondence table 84 may be referred to as necessary, and the contents of the character-component correspondence table 84 may be updated as appropriate.
そして、入力シーケンス2と対応する文字部品表現82との組をトレーニングデータとして用いて、モデル(Transformer10)を学習する。モデルの学習方法自体については、公知の技術を適宜採用することができる。
Then, the model (Transformer 10) is learned using the set of the
図7は、第1の実施例に従う音声認識システム100Aの学習処理の手順を示すフローチャートである。図7に示す主要なステップは、典型的には、情報処理装置500のプロセッサ(CPU502および/またはGPU504)が学習プログラム514を実行することで実現される。
FIG. 7 is a flowchart showing the procedure of the learning process of the speech recognition system 100A according to the first embodiment. The main steps shown in FIG. 7 are typically realized by the processor (
図7を参照して、情報処理装置500は、音声特徴を示す入力シーケンス2と対応するテキストとの組からなるトレーニングデータセットの入力を受け付ける(ステップS100)。情報処理装置500は、受け付けたトレーニングデータセットのテキストに含まれる各文字を、所定規則に従って1または複数の文字部品の組み合わせに分解することで、文字部品表現82を生成する(ステップS102)。このように、情報処理装置500は、テキストに含まれる文字の特徴を示す、文字レベルとは異なるレベルの表現を生成する。そして、情報処理装置500は、音声特徴を示す入力シーケンス2と対応する文字部品表現82との組み合わせからなるトレーニングデータセットを生成する(ステップS104)。
Referring to FIG. 7,
続いて、情報処理装置500は、Transformer10のパラメータを初期化する(ステップS106)。そして、パラメータの最適化が実行される。すなわち、トレーニングデータセットを用いてTransformer10に含まれるパラメータが最適化される。
Subsequently, the
より具体的には、情報処理装置500は、トレーニングデータセットに含まれる入力シーケンス2をTransformer10に入力して出力シーケンス(文字部品表現82の推論結果)を演算する(ステップS108)。そして、情報処理装置500は、出力シーケンス(推論結果)と、トレーニングデータセットの対応する文字部品表現82(正解データ)とを比較して誤差情報を演算し(ステップS110)、当該演算した誤差情報に基づいてTransformer10のパラメータを最適化する(ステップS112)。
More specifically, the
情報処理装置500は、予め定められた学習処理の終了条件が満たされているか否かを判断する(ステップS114)。予め定められた学習処理の終了条件が満たされていなければ(ステップS114においてNO)、情報処理装置500は、トレーニングデータセットに含まれるトレーニングデータを選択して、ステップS108以下の処理を再度実行する。
The
これに対して、予め定められた学習処理の終了条件が満たされていれば(ステップS114においてYES)、情報処理装置500は、当該時点のパラメータ値で規定されるTransformer10を学習済モデルとして決定する(ステップS116)。このときのパラメータ値が、学習済モデルを規定するパラメータセット518として出力される。そして、処理は終了する。
On the other hand, if the predetermined learning processing termination condition is satisfied (YES in step S114), the
(d6:推論処理)
図8は、第1の実施例に従う音声認識システム100Aの推論処理の手順を示すフローチャートである。図8に示す主要なステップは、典型的には、情報処理装置500のプロセッサ(CPU502および/またはGPU504)が推論プログラム520を実行することで実現される。
(d6: Inference processing)
FIG. 8 is a flowchart showing the inference processing procedure of the speech recognition system 100A according to the first embodiment. The main steps shown in FIG. 8 are typically realized by the processor (
図8を参照して、情報処理装置500は、入力される音声信号から音声特徴を演算することで入力シーケンスを生成する(ステップS150)。情報処理装置500は、生成した入力シーケンスをTransformer10に入力して、推論結果の出力シーケンスとして、文字部品表現82を演算する(ステップS152)。続いて、情報処理装置500は、文字部品対応テーブル84を参照して、文字部品表現82からテキストを再構成する(ステップS154)。この再構成したテキストが出力シーケンスとして出力される。
Referring to FIG. 8,
そして、情報処理装置500は、音声信号の入力が継続しているか否かを判断する(ステップS156)。音声信号の入力が継続していれば(ステップS156においてYES)、ステップS150以下の処理が繰り返される。
The
一方、音声信号の入力が継続していなければ(ステップS156においてNO)、推論処理は一旦終了する。 On the other hand, if the input of the audio signal is not continuing (NO in step S156), the inference process is temporarily terminated.
(d7:性能評価結果)
次に、第1の実施例に従う音声認識システム100Aの性能評価を行った結果の一例を示す。
(d7: Performance evaluation result)
Next, an example of the results of performance evaluation of the speech recognition system 100A according to the first embodiment will be shown.
第1の実験例では、漢字を用いる言語として、台湾<TW>、香港<HK>、中国標準語<MA>の3言語のトレーニングデータセットを用いた評価を行った。評価対象の音声認識システムとしては、文字(character)レベルで処理する音声認識システム(関連技術)(表中「(c)」で示される)と、第1の実施例に従う音声認識システム100A(文字部品表現を用いる)(表中「(r)」で示される)とを比較した。 In the first experimental example, evaluation was performed using training datasets for three languages that use Chinese characters: Taiwan <TW>, Hong Kong <HK>, and Mandarin Chinese <MA>. The speech recognition systems to be evaluated include a speech recognition system (related technology) that processes at the character level (indicated by "(c)" in the table), and a speech recognition system 100A (character) according to the first embodiment. (using parts representation) (indicated by "(r)" in the table).
また、各言語単体で学習を行った場合と、単一のモデルを3つの言語で学習した場合とを比較した。評価としては、各言語のデータセットの一部をテストデータとして用いた。 We also compared the case in which each language was trained alone and the case in which a single model was trained in three languages. For evaluation, part of the dataset for each language was used as test data.
認識性能の評価指標として、文字誤り率(CER%:Character Error Rate)を用いている。 Character error rate (CER%) is used as an evaluation index of recognition performance.
表1に示すように、文字レベルの音声認識システムを単一の言語で学習した場合、当該学習した言語については高い性能を示している(MA(c),HK(c),TW(c))。これに対して、第1の実施例に従う音声認識システム100Aにおいては、単一の言語で学習した場合の性能はやや劣っている(MA(r),HK(r),TW(r))。 As shown in Table 1, when a character-level speech recognition system is trained in a single language, it shows high performance in the learned language (MA (c), HK (c), TW (c) ). On the other hand, in the speech recognition system 100A according to the first embodiment, the performance is slightly inferior when trained in a single language (MA(r), HK(r), TW(r)).
しかしながら、単一のモデルを3つの言語で学習した場合には、第1の実施例に従う音声認識システム100A(MA+HK+TW(r))は、関連技術に従う音声認識システム(MA+HK+TW(c))に比較して、高い認識性能を示していることが分かる。 However, when a single model is trained in three languages, the speech recognition system 100A (MA+HK+TW(r)) according to the first embodiment is less effective than the speech recognition system (MA+HK+TW(c)) according to the related art. It can be seen that the recognition performance is high.
次に、第2の実験例では、関連技術に従う音声認識システムにおいて、文字(character)単位および単語(word)単位で学習を行った場合と比較した。このとき、他の音声認識システムと比較可能となるように、第1の実施例に従う音声認識システム100Aを、台湾<TW>、香港<HK>、中国標準語<MA>の3言語のトレーニングデータセットに加えて、日本語のトレーニングデータセットを用いて学習した。日本語のトレーニングデータセットとしては、日本語話し言葉コーパス(Corpus of Spontaneous Japanese:CSJ)を用いた。なお、表2において、「E01」,「E02」,「E03」は、CSJ-Eval01,CSJ-Eval02,CSJ-Eval03をそれぞれ意味する。 Next, in a second experimental example, a comparison was made with a speech recognition system according to related technology in which learning is performed in character units and word units. At this time, in order to be able to compare with other speech recognition systems, the speech recognition system 100A according to the first embodiment is used with training data in three languages: Taiwan <TW>, Hong Kong <HK>, and Mandarin Chinese <MA>. In addition to the Japanese training dataset, we learned using the Japanese training dataset. As the Japanese training dataset, we used the Corpus of Spontaneous Japanese (CSJ). In Table 2, "E01", "E02", and "E03" mean CSJ-Eval01, CSJ-Eval02, and CSJ-Eval03, respectively.
このとき、日本語については、漢字に加えて、かなに相当する文字部品を含む文字部品表現を用いた。 At this time, for Japanese, we used a character part representation that includes character parts corresponding to kana in addition to kanji.
また、表2中において、WPM(Wordpiece Model)についても比較例として示す。 Furthermore, in Table 2, WPM (Wordpiece Model) is also shown as a comparative example.
表2に示すように、第1の実施例に従う音声認識システム100Aの認識性能は、最新のモデルの認識性能と同等あるいはそれ以上となっている。 As shown in Table 2, the recognition performance of the speech recognition system 100A according to the first example is equal to or higher than the recognition performance of the latest model.
次に、第3の実験例では、関連技術に従う音声認識システムのパラメータサイズについて評価を行った。第1の実施例に従う音声認識システム100A(表中「(r)」で示される)および関連技術に従う音声認識システム(表中「(c)」で示される)を、中国標準語<MA>および日本語<JP>のトレーニングデータセットを用いて学習した。 Next, in a third experimental example, parameter sizes of a speech recognition system according to related technology were evaluated. The speech recognition system 100A according to the first embodiment (indicated by "(r)" in the table) and the speech recognition system according to related technology (indicated by "(c)" in the table) are used in Mandarin Chinese <MA> and Learning was performed using the Japanese <JP> training dataset.
第1の実施例に従う音声認識システム100Aと関連技術に従う音声認識システムとの間でほぼ同一の認識性能を発揮するまで学習した状態を比較すると、以下の表3のようになる。 A comparison of the state in which the speech recognition system 100A according to the first embodiment and the speech recognition system according to the related technology have been trained to achieve almost the same recognition performance is as shown in Table 3 below.
表3に示すように、文字誤り率(CER%)がほぼ同じ状態のモデル同士を比較すると、第1の実施例に従う音声認識システム100Aのパラメータサイズは、関連技術に従う音声認識システムの1/2以下であり、パラメータサイズが大幅に抑制されていることが分かる。 As shown in Table 3, when comparing models with almost the same character error rate (CER%), the parameter size of the speech recognition system 100A according to the first embodiment is 1/2 that of the speech recognition system according to the related technology. It can be seen that the parameter size is significantly suppressed.
[E.第2の実施例(表音文字)]
第2の実施例として、類似した発音体系を有する複数の言語に対して単一のモデルを用いた音声認識システムについて説明する。
[E. Second example (phonetic characters)]
As a second embodiment, a speech recognition system using a single model for multiple languages having similar pronunciation systems will be described.
(e1:概要)
図9は、第2の実施例に従う音声認識システム100Bの概要を示す模式図である。図9を参照して、音声認識システム100Bは、音声特徴を示す入力シーケンス2の入力を受けて、対応するテキストを出力シーケンス70として出力する。すなわち、音声認識システム100Bは、複数の言語のうち任意の言語で発話された音声信号の入力を受けて、対応するテキストを出力する推論器に相当する。
(e1: Overview)
FIG. 9 is a schematic diagram showing an overview of a
出力シーケンス70の先頭には、いずれの言語であるかを示す言語ラベル72(<MY>,<KH>,<SI>,<NE>など)が付加されている。このような言語ラベル72が付加されることによって、いずれの言語であるかを一意に特定できる。
At the beginning of the
音声認識システム100Bは、Transformer10と、文字変換部90とを含む。
The
Transformer10は、音声信号の音声特徴を示す入力シーケンス2を受けて、対応するテキストに含まれる文字の特徴を示す、文字(character)レベルとは異なるレベルの表現を出力する学習済モデルに相当する。より具体的には、Transformer10は、文字レベルではなく、異なるレベルの表現(以下、「ユニバーサル音声表現92」あるいは「Universal Articulatory representation」とも称す。)を用いる。ユニバーサル音声表現92は、対応するテキストに含まれる各文字の発音を特定する情報を含む(詳細については後述する)。
The
文字変換部90は、予め定められた文字と当該文字の特徴との対応関係を参照して、Transformer10(学習済モデル)から出力される表現から対応するテキストを再構成する再構成部に相当する。より具体的には、文字変換部90は、Transformer10から出力されるユニバーサル音声表現92の入力を受けて、出力すべき文字に変換して、出力シーケンス70として出力する。
The
第2の実施例においては、文字が示す音声を示す表現を用いてモデルの学習を行う。
(e2:ユニバーサル音声表現92)
ユニバーサル音声表現92は、テキストの発音を規定する表現である。テキストの発音は、国際音声記号(IPA:International Pronunciation Alphabet)を用いて規定されることが一般的である。ここで、異なる言語間では単音セット(phone-sets)が異なるが、IPAを用いた場合にはこのような異なる単音セットを適切に規定することが難しい。
In the second embodiment, a model is trained using expressions indicating sounds indicated by characters.
(e2: Universal phonetic expression 92)
Universal
そこで、第2の実施例に従う音声認識システム100Bにおいては、さまざまな言語の音韻構造を表現するユニバーサル特徴に基づく、ユニバーサル音声表現92を用いる。ユニバーサル特徴としては、(1)円/非円唇、(2)舌(低、中央、高)、(3)舌(前、中、後)、(4)有無声音(声帯震動)、(5)子音(気流)、(6)唇、舌頂、舌背、咽喉音の6種類が想定される。さらに、ユニバーサル特徴として、声調などのその他の要因を加えてもよい。
Therefore, the
より具体的には、以下の表4のユニバーサル音声テーブルに示すように、3つのカテゴリごとに複数の属性(Attributes)が規定されている。3つのカテゴリは、子音の位置(consonants(position))、子音の態様(consonants(manner))、母音(vowel)を含む。 More specifically, as shown in the universal audio table in Table 4 below, a plurality of attributes are defined for each of the three categories. The three categories include consonants(position), consonants(manner), and vowel.
ユニバーサル音声表現92は、文字ごとに1または複数の属性の組み合わせが割り当てられることによって生成される。
Universal
ユニバーサル音声表現92は、典型的には、以下のようなデータ構造のシーケンスとして出力される。
<言語ラベル>[属性],[属性],・・・,<区切文字>,[属性],[属性],・・・
ユニバーサル音声表現92に含まれる<言語ラベル>は、いずれの言語であるかを特定するための情報を含む。
<Language label> [Attribute], [Attribute], ..., <Delimiter>, [Attribute], [Attribute], ...
<Language label> included in the
ユニバーサル音声表現92に含まれる[属性](Attributes)は、表4のユニバーサル音声テーブルに従って定義されるユニバーサル特徴を特定するための情報を含む。このように、ユニバーサル音声表現92は、音韻構造を表現するユニバーサル特徴に基づいて、対応する文字の発音を特定する情報を含む。
[Attributes] included in the
ユニバーサル音声表現92に含まれる<区切文字>は、出力される文字の区切りを意味し、<区切文字>から次の<区切文字>までに存在する[属性]に基づいて、出力すべき文字が再構成される。<区切文字>としては、単にブランク(無出力)を用いてもよい。
The <delimiter> included in the universal
なお、上述したユニバーサル音声表現92のデータ構造は一例であり、文字を再構成できるものであれば、どのようなデータ構造を採用してもよい。
Note that the data structure of the
上述したように、第2の実施例に従う音声認識システム100Bにおいては、文字(character)レベルではなく、各文字の発音を規定するユニバーサル特徴のレベルで学習処理および推論処理を実行する。
As described above, in the
(e3:処理の詳細)
次に、第2の実施例に従う音声認識システム100Bにおける処理の詳細について説明する。
(e3: Processing details)
Next, details of processing in the
図10は、第2の実施例に従う音声認識システム100Bにおける学習処理および推論処理の内容を説明するための模式図である。図10を参照して、学習処理においては、多言語音声データ531および多言語テキストデータ532を含むトレーニングデータセット530が用いられる。多言語テキストデータ532には、いずれの言語であるかを示す言語ラベルを含んでいてもよい。
FIG. 10 is a schematic diagram for explaining the contents of learning processing and inference processing in the
多言語音声データ531から抽出される音声特徴(入力シーケンス)としてTransformer10へ入力される。
It is input to the
また、多言語テキストデータ532に対してユニバーサル特徴変換91が適用されて、多言語テキストデータ532に含まれる文字ごとの発音を示す、1または複数の属性の組み合わせが出力される。多言語テキストデータ532に含まれる言語ラベルも抽出される。
Further, the
言語ラベルと1または複数の属性の組み合わせとを含むユニバーサル音声表現92が、対応するラベル(正解データ)として、Transformer10へ入力される。
A
すなわち、多言語音声データ531と多言語テキストデータ532との組から生成される、音声特徴とユニバーサル音声表現92との組に基づいて、Transformer10のパラメータが最適化される。
That is, the parameters of the
一方、推論処理においては、認識対象の多言語音声データ533から抽出される音声特徴(入力シーケンス)としてTransformer10へ入力される。Transformer10は、推論結果として、ユニバーサル音声表現92を出力する。文字変換部90は、ユニバーサル音声表現92をテキストデータ534に変換し、推論結果として出力する。
On the other hand, in the inference process, the voice features (input sequence) extracted from the
図11は、第2の実施例に従う音声認識システム100Bにおけるユニバーサル音声表現に係る処理を説明するための図である。図11においては、図10に示す学習処理および推論処理に対応付けて処理が示されている。
FIG. 11 is a diagram for explaining processing related to universal speech expression in the
図11を参照して、学習処理においては、多言語テキストデータ532に含まれるテキストが単語(Word)96の単位に分割された後、文字(character)97の単位にさらに分割される。最終的に、文字97ごとに1または複数の属性の組み合わせ98が割り当てられる。このとき、音声特徴対応テーブル94が参照される。このように、ユニバーサル音声表現92は、対応するテキストに含まれる単語96をさらに分解した文字97ごとに発音を規定する情報を含むことになる。
Referring to FIG. 11, in the learning process, the text included in
音声特徴対応テーブル94は、言語ごとに、発音を特定する情報と対応する文字との対応関係を規定する。より具体的には、音声特徴対応テーブル94は、各文字と1または複数の属性との対応関係を規定する。 The speech feature correspondence table 94 defines the correspondence between information specifying pronunciation and corresponding characters for each language. More specifically, the audio feature correspondence table 94 defines the correspondence between each character and one or more attributes.
図12は、第2の実施例に従う音声認識システム100Bの文字変換部90において利用される音声特徴対応テーブル94の一例を示す図である。図12を参照して、音声特徴対応テーブル94は、文字(character)と、文字に対応するユニバーサル特徴の1または複数の属性の組み合わせとを規定する。音声特徴対応テーブル94は、言語ごとに用意されてもよい。
FIG. 12 is a diagram showing an example of the speech feature correspondence table 94 used in the
再度図11を参照して、推論処理においては、音声特徴対応テーブル94を参照して、音声特徴を示す入力シーケンスに対応する推論結果に含まれる属性の組み合わせ98に対応する文字97に順次変換される。そして、変換によって得られた文字97から単語96が再構成されて、推論結果として出力される。 Referring again to FIG. 11, in the inference process, the speech feature correspondence table 94 is referred to, and the characters 97 are sequentially converted into characters 97 corresponding to attribute combinations 98 included in the inference results corresponding to the input sequence indicating the speech features. Ru. Then, a word 96 is reconstructed from the characters 97 obtained by the conversion and output as an inference result.
以上のような処理手順によって、音声認識システムを構築および運用できる。
(e4:学習処理)
次に、第2の実施例に従う音声認識システム100Bの学習処理についての一例について説明する。
A speech recognition system can be constructed and operated through the processing procedure described above.
(e4: learning process)
Next, an example of the learning process of the
図13は、第2の実施例に従う音声認識システム100Bの学習処理の手順を示すフローチャートである。図13に示す主要なステップは、典型的には、情報処理装置500のプロセッサ(CPU502および/またはGPU504)が学習プログラム514を実行することで実現される。
FIG. 13 is a flowchart showing the procedure of the learning process of the
図13を参照して、情報処理装置500は、音声特徴を示す入力シーケンス2と対応するテキストとの組からなるトレーニングデータセットの入力を受け付ける(ステップS200)。情報処理装置500は、受け付けたトレーニングデータセットのテキストを単語ごとに分割し(ステップS202)、分割した各単語を文字ごとに分割する(ステップS204)。さらに、情報処理装置500は、文字ごとにユニバーサル特徴の1または複数の属性の組み合わせを決定する(ステップS206)。決定された1または複数の属性の組み合わせからラベルとしてのユニバーサル音声表現92が生成される。このとき、対象のテキスト言語に対応する音声特徴対応テーブル94が参照されてもよい。このように、情報処理装置500は、テキストに含まれる文字の特徴を示す、文字レベルとは異なるレベルの表現を生成する。
Referring to FIG. 13,
情報処理装置500は、音声特徴を示す入力シーケンス2と対応する1または複数の属性との組み合わせからなるトレーニングデータセットを生成する(ステップS208)。
The
続いて、情報処理装置500は、Transformer10のパラメータを初期化する(ステップS210)。そして、パラメータの最適化が実行される。すなわち、トレーニングデータセットを用いてTransformer10に含まれるパラメータが最適化される。
Subsequently, the
より具体的には、情報処理装置500は、トレーニングデータセットに含まれる入力シーケンス2をTransformer10に入力して出力シーケンス(ユニバーサル音声表現92)を演算する(ステップS212)。そして、情報処理装置500は、出力シーケンス(推論結果)と、トレーニングデータセットの対応するユニバーサル音声表現92(正解データ)とを比較して誤差情報を演算し(ステップS214)、当該演算した誤差情報に基づいてTransformer10のパラメータを最適化する(ステップS216)。
More specifically, the
情報処理装置500は、予め定められた学習処理の終了条件が満たされているか否かを判断する(ステップS218)。予め定められた学習処理の終了条件が満たされていなければ(ステップS218においてNO)、情報処理装置500は、トレーニングデータセットに含まれるトレーニングデータを選択して、ステップS212以下の処理を再度実行する。
The
これに対して、予め定められた学習処理の終了条件が満たされていれば(ステップS218においてYES)、情報処理装置500は、当該時点のパラメータ値で規定されるTransformer10を学習済モデルとして決定する(ステップS220)。このときのパラメータ値が、学習済モデルを規定するパラメータセット518として出力される。そして、処理は終了する。
On the other hand, if the predetermined learning process termination condition is satisfied (YES in step S218), the
(e5:推論処理)
図14は、第2の実施例に従う音声認識システム100Bの推論処理の手順を示すフローチャートである。図14に示す主要なステップは、典型的には、情報処理装置500のプロセッサ(CPU502および/またはGPU504)が推論プログラム520を実行することで実現される。
(e5: Inference processing)
FIG. 14 is a flowchart showing the inference processing procedure of the
図14を参照して、情報処理装置500は、入力される音声信号から音声特徴を演算することで入力シーケンスを生成する(ステップS250)。情報処理装置500は、生成した入力シーケンスをTransformer10に入力して、推論結果の出力シーケンスとして、ユニバーサル音声表現92を演算する(ステップS252)。続いて、情報処理装置500は、音声特徴対応テーブル94を参照して、ユニバーサル音声表現92を文字に変換し(ステップS254)、変換した複数の文字から単語を再構成する(ステップS256)。最終的に、再構成した複数の単語からなるテキストを生成する(ステップS258)。この生成したテキストが出力シーケンスとして出力される。
Referring to FIG. 14,
そして、情報処理装置500は、音声信号の入力が継続しているか否かを判断する(ステップS260)。音声信号の入力が継続していれば(ステップS260においてYES)、ステップS250以下の処理が繰り返される。
Then, the
一方、音声信号の入力が継続していなければ(ステップS260においてNO)、推論処理は一旦終了する。 On the other hand, if the input of the audio signal is not continuing (NO in step S260), the inference process ends once.
(e6:性能評価結果)
次に、第2の実施例に従う音声認識システム100Bの性能評価を行った結果の一例を示す。
(e6: Performance evaluation results)
Next, an example of the results of performance evaluation of the
第2の実験例では、漢字を用いる言語として、アジア圏で用いられる、マレーシア語<MY>、クメール語<KH>、シンハラ語<SI>、ネパール語<NE>の4言語のトレーニングデータセットを用いた評価を行った。評価対象の音声認識システムとしては、単語(word)レベルで処理する音声認識システム(関連技術)(表中「(w)」で示される)、文字(character)レベルで処理する音声認識システム(関連技術)(表中「(c)」で示される)、国際音声記号(IPA)に従う発音記号レベルで処理する音声認識システム(関連技術)(表中「(p)」で示される)、ならびに、第2の実施例に従う音声認識システム100B(ユニバーサル音声表現を用いる)(表中「(a)」で示される)を採用した。
In the second experimental example, we used training data sets for four languages that use kanji: Malaysian <MY>, Khmer <KH>, Sinhalese <SI>, and Nepali <NE>, which are used in Asia. We conducted an evaluation using The speech recognition systems to be evaluated include a speech recognition system (related technology) that processes at the word level (indicated by "(w)" in the table), a speech recognition system that processes at the character level (related technology), and a speech recognition system that processes at the character level (related technology). technology) (indicated by "(c)" in the table), a speech recognition system that processes at the phonetic symbol level according to the International Phonetic Alphabet (IPA) (related technology) (indicated by "(p)" in the table), and A
表5には、各言語単体および4言語で学習を行った場合のパラメータサイズの変化を示す。 Table 5 shows changes in parameter sizes when learning was performed for each language alone and for four languages.
表5に示すように、いずれの評価例においても、第2の実施例に従う音声認識システム100Bのパラメータサイズが最小となっていることが分かる。
As shown in Table 5, it can be seen that in all evaluation examples, the parameter size of the
また、表6には、各言語単体および4言語で学習を行った場合の認識性能の変化を示す。認識性能の評価指標として、文字誤り率(CER%:Character Error Rate)を用いている。 Furthermore, Table 6 shows changes in recognition performance when learning was performed for each language alone and for four languages. Character error rate (CER%) is used as an evaluation index of recognition performance.
表6に示すように、第2の実施例に従う音声認識システム100Bの認識性能は、国際音声記号(IPA)に従う発音記号レベルで処理する音声認識システム(関連技術)の認識性能と同等あるいはそれ以上となっている。表5に示すように、パラメータサイズを大幅に低減できることを考慮すると、ユニバーサル音声表現を用いることで、より少ないパラメータサイズのモデルを用いて、多言語エンド・トゥ・エンド音声認識システムを実現できることが分かる。
As shown in Table 6, the recognition performance of the
[F.応用例および変形例]
本実施の形態に従う音声認識システムを用いた応用例として、自動音声翻訳システムなどを実現してもよい。この場合には、本実施の形態に従う音声認識システムから出力されるテキストに対応する音声を出力する音声合成部をさらに追加することで実現できる。
[F. Application examples and modifications]
As an application example using the speech recognition system according to this embodiment, an automatic speech translation system or the like may be realized. In this case, this can be realized by further adding a speech synthesis unit that outputs speech corresponding to the text output from the speech recognition system according to the present embodiment.
また、上述した第1の実施例および第2の実施例を単一のモデルを用いて実現することもできる。この場合には、文字部品表現およびユニバーサル音声表現の両方を出力できるように、Transformer10の出力層の次元数を設定すればよい。加えて、さらに、第1の実施例および/または第2の実施例に加えて、文字レベルあるいは単語レベルで学習を行う言語を追加することも可能である。
Further, the first embodiment and the second embodiment described above can also be realized using a single model. In this case, the number of dimensions of the output layer of the
[G.まとめ]
本実施の形態に従う学習処理によれば、文字レベルとは異なるレベルの表現を用いた学習済モデルを利用することで、パラメータサイズの増大を抑制しつつ、認識性能を高めることができる推定器を実現できる。これによって、より少ないパラメータサイズのモデルを用いて、多言語エンド・トゥ・エンド音声認識システムを実現するための技術を提供できる。
[G. summary]
According to the learning process according to this embodiment, by using a trained model that uses expressions at a level different from the character level, an estimator that can improve recognition performance while suppressing an increase in parameter size is created. realizable. This makes it possible to provide a technique for realizing a multilingual end-to-end speech recognition system using a model with a smaller parameter size.
今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 The embodiments disclosed this time should be considered to be illustrative in all respects and not restrictive. The scope of the present invention is indicated by the claims rather than the description of the embodiments described above, and it is intended that all changes within the meaning and range equivalent to the claims are included.
2 入力シーケンス、4 入力埋め込み層、6,16 位置埋め込み層、8,18 加算器、10 Transformer、14 出力埋め込み層、20 エンコーダブロック、22,46 MHA層、24,28,44,48,52 加算・正則化層、26,50 フィードフォワード層、40 デコーダブロック、42 MMHA層、60 ソフトマックス層、64 テキスト、70 出力シーケンス、72 言語ラベル、80 文字合成部、82 文字部品表現、84 文字部品対応テーブル、90 文字変換部、91 ユニバーサル特徴変換、92 ユニバーサル音声表現、94 音声特徴対応テーブル、96 単語、97,844 文字、98 属性の組み合わせ、100A,100B 音声認識システム、200 エンコーダ、400 デコーダ、500 情報処理装置、502 CPU、504 GPU、506 主メモリ、508 ディスプレイ、510 ネットワークインターフェイス、512 二次記憶装置、514 学習プログラム、516 モデル定義データ、518 パラメータセット、520 推論プログラム、522 入力デバイス、524 光学ドライブ、526 光学ディスク、528 内部バス、530 トレーニングデータセット、531,533 多言語音声データ、532 多言語テキストデータ、534 テキストデータ、802 構造、804 文字部品、806 単純分解、808 混合構造、842 組み合わせ定義。 2 input sequence, 4 input embedding layer, 6, 16 position embedding layer, 8, 18 adder, 10 Transformer, 14 output embedding layer, 20 encoder block, 22, 46 MHA layer, 24, 28, 44, 48, 52 addition・Regularization layer, 26, 50 Feedforward layer, 40 Decoder block, 42 MMHA layer, 60 Softmax layer, 64 Text, 70 Output sequence, 72 Language label, 80 Character synthesis section, 82 Character component representation, 84 Character component support table, 90 character conversion unit, 91 universal feature conversion, 92 universal speech expression, 94 speech feature correspondence table, 96 word, 97,844 character, 98 combination of attributes, 100A, 100B speech recognition system, 200 encoder, 400 decoder, 500 Information processing device, 502 CPU, 504 GPU, 506 main memory, 508 display, 510 network interface, 512 secondary storage device, 514 learning program, 516 model definition data, 518 parameter set, 520 inference program, 522 input device, 524 optics drive, 526 optical disk, 528 internal bus, 530 training data set, 531,533 multilingual audio data, 532 multilingual text data, 534 text data, 802 structure, 804 character parts, 806 simple decomposition, 808 mixed structure, 842 combination Definition.
Claims (6)
前記音声信号の音声特徴を示す入力シーケンスを受けて、対応するテキストに含まれる文字の特徴を示す、文字レベルとは異なるレベルの表現を出力する学習済モデルと、
予め定められた文字と当該文字の特徴との対応関係を参照して、前記学習済モデルから出力される表現から対応するテキストを再構成する再構成部とを備え、
前記学習済モデルから出力される表現は、対応するテキストに含まれる各文字の構造を特定する情報を含む、推論器。 An inference device that receives input of an audio signal uttered in any language among a plurality of languages and outputs a corresponding text,
a trained model that receives an input sequence representing audio characteristics of the audio signal and outputs an expression at a level different from a character level representing characteristics of characters included in the corresponding text;
a reconstruction unit that reconstructs a corresponding text from an expression output from the learned model by referring to a correspondence relationship between a predetermined character and a feature of the character ,
An inference device , wherein the expression output from the trained model includes information specifying the structure of each character included in the corresponding text .
前記音声信号の音声特徴を示す入力シーケンスを受けて、対応するテキストに含まれる文字の特徴を示す、文字レベルとは異なるレベルの表現を出力する学習済モデルと、
予め定められた文字と当該文字の特徴との対応関係を参照して、前記学習済モデルから出力される表現から対応するテキストを再構成する再構成部とを備え、
前記学習済モデルから出力される表現は、対応するテキストがいずれの言語であるかを特定するための情報を含む、推論器。 An inference device that receives input of an audio signal uttered in any language among a plurality of languages and outputs a corresponding text,
a trained model that receives an input sequence representing audio characteristics of the audio signal and outputs an expression at a level different from a character level that represents characteristics of characters included in the corresponding text;
a reconstruction unit that reconstructs a corresponding text from an expression output from the learned model by referring to a correspondence relationship between a predetermined character and a feature of the character ;
An inference device , wherein the expression output from the trained model includes information for specifying which language the corresponding text is in .
音声信号と対応するテキストとを用意するステップと、
前記テキストに含まれる文字の特徴を示す、文字レベルとは異なるレベルの表現を生成するステップと、
前記音声信号の音声特徴を示す入力シーケンスを前記推論器に入力して得られる推論結果と、対応する表現との誤差に基づいて、前記推論器を規定するパラメータを最適化するステップとを備え、
前記文字レベルとは異なるレベルの表現は、対応するテキストに含まれる各文字の構造を特定する情報、または、対応するテキストがいずれの言語であるかを特定するための情報を含む、学習方法。 A learning method for learning a reasoner that receives an input of an audio signal uttered in any language among multiple languages and outputs a corresponding text, the method comprising:
providing an audio signal and a corresponding text;
generating a representation at a level different from the character level that indicates characteristics of characters included in the text;
optimizing parameters defining the inference device based on an error between an inference result obtained by inputting an input sequence indicating audio characteristics of the audio signal to the inference device and a corresponding expression ;
The learning method, wherein the expression at a level different from the character level includes information specifying the structure of each character included in the corresponding text or information specifying which language the corresponding text is in.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019163555A JP7385900B2 (en) | 2019-09-09 | 2019-09-09 | Inference machine, inference program and learning method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019163555A JP7385900B2 (en) | 2019-09-09 | 2019-09-09 | Inference machine, inference program and learning method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021043272A JP2021043272A (en) | 2021-03-18 |
JP7385900B2 true JP7385900B2 (en) | 2023-11-24 |
Family
ID=74863991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019163555A Active JP7385900B2 (en) | 2019-09-09 | 2019-09-09 | Inference machine, inference program and learning method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7385900B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010072446A (en) | 2008-09-19 | 2010-04-02 | Toyohashi Univ Of Technology | Coarticulation feature extraction device, coarticulation feature extraction method and coarticulation feature extraction program |
JP2014229124A (en) | 2013-05-23 | 2014-12-08 | 独立行政法人情報通信研究機構 | Learning method of deep neural network, storage medium storing parameter of subnetwork of deep neural network, and computer program |
US20190189111A1 (en) | 2017-12-15 | 2019-06-20 | Mitsubishi Electric Research Laboratories, Inc. | Method and Apparatus for Multi-Lingual End-to-End Speech Recognition |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995002879A1 (en) * | 1993-07-13 | 1995-01-26 | Theodore Austin Bordeaux | Multi-language speech recognition system |
-
2019
- 2019-09-09 JP JP2019163555A patent/JP7385900B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010072446A (en) | 2008-09-19 | 2010-04-02 | Toyohashi Univ Of Technology | Coarticulation feature extraction device, coarticulation feature extraction method and coarticulation feature extraction program |
JP2014229124A (en) | 2013-05-23 | 2014-12-08 | 独立行政法人情報通信研究機構 | Learning method of deep neural network, storage medium storing parameter of subnetwork of deep neural network, and computer program |
US20160110642A1 (en) | 2013-05-23 | 2016-04-21 | National Institute Of Information And Communications Technology | Deep neural network learning method and apparatus, and category-independent sub-network learning apparatus |
US20190189111A1 (en) | 2017-12-15 | 2019-06-20 | Mitsubishi Electric Research Laboratories, Inc. | Method and Apparatus for Multi-Lingual End-to-End Speech Recognition |
Also Published As
Publication number | Publication date |
---|---|
JP2021043272A (en) | 2021-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109887484B (en) | Dual learning-based voice recognition and voice synthesis method and device | |
JP6493866B2 (en) | Information processing apparatus, information processing method, and program | |
US20170286397A1 (en) | Predictive Embeddings | |
JP7092953B2 (en) | Phoneme-based context analysis for multilingual speech recognition with an end-to-end model | |
WO2016151700A1 (en) | Intention understanding device, method and program | |
JP2023012493A (en) | Language model pre-training method, apparatus, device, and storage medium | |
JP2019082931A (en) | Retrieval device, similarity calculation method, and program | |
CN112185361B (en) | Voice recognition model training method and device, electronic equipment and storage medium | |
JP2022169757A (en) | Retrieval device, retrieval method, and retrieval program | |
WO2020170906A1 (en) | Generation device, learning device, generation method, and program | |
WO2020170912A1 (en) | Generation device, learning device, generation method, and program | |
JPWO2014073206A1 (en) | Information processing apparatus and information processing method | |
US11397856B2 (en) | Phonetic patterns for fuzzy matching in natural language processing | |
US20220222442A1 (en) | Parameter learning apparatus, parameter learning method, and computer readable recording medium | |
KR100542757B1 (en) | Automatic expansion Method and Device for Foreign language transliteration | |
JP2001075964A (en) | Information processing unit, information processing method and recording medium | |
JP2015084047A (en) | Text set creation device, text set creating method and text set create program | |
JP7385900B2 (en) | Inference machine, inference program and learning method | |
JP2023181819A (en) | Language processing device, machine learning method, estimation method, and program | |
JP6558856B2 (en) | Morphological analyzer, model learning device, and program | |
JP4405542B2 (en) | Apparatus, method and program for clustering phoneme models | |
KR20100069555A (en) | Speech recognition system and method | |
WO2014030258A1 (en) | Morphological analysis device, text analysis method, and program for same | |
Ghadekar et al. | ASR for Indian regional language using Nvidia’s NeMo toolkit | |
JP6309852B2 (en) | Enhanced position prediction apparatus, enhanced position prediction method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230530 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231106 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7385900 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |