JP6941494B2 - エンドツーエンド日本語音声認識モデル学習装置およびプログラム - Google Patents
エンドツーエンド日本語音声認識モデル学習装置およびプログラム Download PDFInfo
- Publication number
- JP6941494B2 JP6941494B2 JP2017139177A JP2017139177A JP6941494B2 JP 6941494 B2 JP6941494 B2 JP 6941494B2 JP 2017139177 A JP2017139177 A JP 2017139177A JP 2017139177 A JP2017139177 A JP 2017139177A JP 6941494 B2 JP6941494 B2 JP 6941494B2
- Authority
- JP
- Japan
- Prior art keywords
- label
- text
- character
- characters
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 33
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 241001325209 Nama Species 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
(1)入力した音声を特徴ベクトル(音響特徴量)へ変換し、(2)特徴ベクトルを各単語に対して人手で割りつけた音素へ変換するような音響モデルを学習し、(3)音素列を単語へ変換するような言語モデルを学習する。
1つは、出力ラベル数が多く、パラメータ数が英語に比べ膨大であることである。英語で文字を出力するEnd−to−Endのニューラルネットワーク(NN)を構成した場合、出力ラベルの数はアルファベットに数字、記号を含めても100種程度だが、日本語には漢字、ひらがな、カタカナなど3,000以上の文字種が存在する。文字種の多さのためネットワークの各層間の結合パラメータが多くなるが、文字種に対して発音の種類は多くないため、ネットワーク内の表現に重複が生じ、モデルの頑健性に乏しい。
り、学習を難しくする。
前記学習データにおける前記テキストから、当該テキストに含まれる出現頻度が、予め定められた出現頻度の基準より低い複数の文字または複数の単語を、当該複数の文字または複数の単語を代表するクラスに割り当てるクラスラベルと、前記基準よりも出現頻度が高い単独の文字または単独の単語に付される単独ラベルと、を作成するラベル作成手段と、
前記複数の文字または複数の単語を、前記クラスラベルに割り当てる変換表に基づいて、前記学習データにおける前記テキストに含まれる複数の文字または複数の単語を前記クラスラベルに変換し、前記テキストを変換した後のテキストである変換後テキストを作成するテキスト作成手段と、
前記学習データである音声または当該音声の音響特徴量と、前記変換後テキストと、前記クラスラベルと、複数の前記単独ラベルと、を学習し、当該学習により音声または音響特徴量を前記クラスラベルおよび前記単独ラベルのラベル列に変換し、変換した当該ラベル列に基づいて、前記音響モデルを学習する音響モデル学習手段と、を備える構成とした。
本発明に係るエンドツーエンド日本語音声認識モデル学習装置によれば、出現頻度が低い複数の文字または複数の単語を1つのクラスラベルとしてまとめて学習することができる。
したがって、出現頻度が低い複数の文字または複数の単語について従来手法よりも多いサンプル数で音響特徴を学習することが可能となり、音声認識率が向上する。
また、このような学習によって、日本語のような出力ラベル数の多さに起因する学習ネットワークの表現の重複を緩和することが可能となり、音声認識率が向上する。
(第1実施形態)
[エンドツーエンド日本語音声認識モデル学習装置の構成]
エンドツーエンド日本語音声認識モデル学習装置2は、テキスト1bと音声1aまたは当該音声の音響特徴量(以下、単に音声という)とを含む学習データ1である音声1aから文字または単語(以下、単に文字という)のラベル3を出力するエンドツーエンドの音響モデルを音声認識モデルとして学習する。
エンドツーエンド日本語音声認識モデル学習装置2は、学習データ1におけるテキスト1bから、テキスト1bに含まれる出現頻度が予め定められた出現頻度の基準より低い複数の文字を、当該複数の文字を代表するクラスに割り当てるクラスラベルと、前記基準よりも出現頻度が高い単独の文字に関する単独ラベルと、を作成し、複数の文字をクラスラベルに割り当てる文字・ラベル変換表4に基づいて、学習データ1におけるテキスト1bに含まれる複数の文字をクラスラベルに変換し、テキスト1bを変換した後のテキストである変換後テキスト1cを作成する。そして、学習データ1における音声1aと変換後テキスト1cとクラスラベルと複数の単独ラベルとを学習し、当該学習により音声1aをクラスラベルおよび単独ラベルのラベル列に変換し、変換した当該ラベル列に基づいて、音響モデルを学習する。
ここでは、出現頻度が最上位からN文字種までの文字からなるリストを、文字リストFと呼ぶ。また、それ以外の低頻度文字からなるリストを、文字リストRと呼ぶ。この文字リストFおよび文字リストRは記憶手段24に記憶される。
また、図4(b)の2行目に示す「今日の尾☆市は雨」は、このときに、テキスト作成手段5が出力する変換後テキスト1cの一例である。
なお、テキスト作成手段5へ入力するテキストは、学習データ1のテキスト1bとは別のテキストであってもよい。
言語モデル記憶手段9は、言語モデル学習手段7が学習により作成した言語モデルを記憶するものであって、ハードディスク等の一般的な記憶媒体である。
この音声認識手段10は、入力された音声を、特徴量(特徴ベクトル)に変換し、この特徴量を音響モデル記憶手段8に記憶されている音響モデルを用いて、順次、ラベルに変換することでラベル列を作成する。このときに音声認識手段10は、例えば、図4(c)の1行目に示す「今日の尾☆市は雨」のようなラベル列を作成する。
そして、音声認識手段10は、言語モデル記憶手段9に記憶されている言語モデルを用いて、前記ラベル列を、順次、単語に変換することで単語列を作成する。このときに音声認識手段10は、例えば、図4(c)の2行目に示す「今日の尾鷲市は雨」のような単語列を作成する。
第1実施形態に係るエンドツーエンド日本語音声認識モデル学習装置2のラベル作成手段20によるクラスラベルの作成処理の流れについて図5を参照して説明する。
まず、エンドツーエンド日本語音声認識モデル学習装置2のラベル作成手段20は、形態素分割手段21によって、学習データ1のテキスト1bを形態素に分割した形態素単位リストWを作成する(ステップS101)。
そして、ラベル作成手段20は、ラベル決定手段23によって、文字リストRから低頻度文字を選択し(ステップS103)、選択した低頻度文字をクラスラベルに追加し(ステップS104)、文字・ラベル変換表4を更新する(ステップS105)。
次に、本発明の第2実施形態に係る日本語音声認識モデル学習装置について図6を参照して説明する。なお、第2実施形態に係るエンドツーエンド日本語音声認識モデル学習装置は、ラベル作成手段20Bが複数のクラスラベルを作成する点が第1実施形態とは異なるものの、他の構成要素が第1実施形態と同様なので、その全体構成の図面を省略する。また、図6に示すラベル作成手段20Bにおいて、図2に示すラベル作成手段20と同一の構成には同一の符号を付して説明を適宜省略する。
ラベル作成手段20Bは、出現頻度が予め定められた基準より低い所定の複数の文字を、予め定められた基準で区分された複数のクラスのいずれかに割り当てて複数のクラスラベルを作成する。
本実施形態では、テキスト作成手段5に入力するテキスト1bが、例えば、図7(b)の1行目に示す「今日の尾鷲市は雨」である場合、テキスト作成手段5は、変換後テキスト1cとして、例えば、図7(b)の2行目に示す「今日の尾<わ>市は雨」のような変換後テキスト1cを出力する。
また、本実施形態では、音声認識手段10は、入力音声から、例えば、図7(c)の1行目に示す「今日の尾<わ>市は雨」のようなラベル列を作成した場合、言語モデルを用いて例えば、図7(c)の2行目に示す「今日の尾鷲市は雨」のような単語列を作成する。
以下、ラベル作成手段20Bの各構成について図6を参照して説明する。
例えば、注目する漢字sが「生」の場合に、形態素リスト作成手段25が作成する形態素リストJsの一例を図8に示す。
ここで、各漢字の組み合わせの読みと、形態素全体の読みとの編集距離Dxは、一方の読みから、挿入、削除、置換といった操作を行なうことによって、他方の読みに編集する際に、必要とされる操作の最小回数である。編集距離算出手段26は、これら削除・挿入・置換誤り文字数を求めることで編集距離Dxを算出する。
ここでは、「生」の読みは、例えば「せい」、「しょう」、「き」、「なま」であるものとする。また、「物」の読みは、例えば「ぶつ」、「もの」であるものとする。
この場合、全ての組み合わせji s,xとは、「せい−もの」、「せい−ぶつ」、「しょう−もの」、「しょう−ぶつ」、「き−もの」、「き−ぶつ」、「なま−もの」、「なま−ぶつ」の合計8個の組み合わせである。
図8に示す「生物」の全体の読みjr sは、形態素分割手段21で「せいぶつ」のように付与されている。しかしながら、形態素分割手段21は、単語レベルの読みを付与するものであって、シンボル「生物」において、シンボル「生」の読みが、「せ」なのか、「せい」なのかということについては、情報が無い。そこで、読み区切り推定手段27は、例えば、上記した合計8個の組み合わせについてのそれぞれの編集距離Dxに基づいて、シンボル「生物」においてシンボル「生」の読みが「せい」である確率が高いことを判定し、シンボル「生物」において、注目する漢字sである「生」の単独の読みの区切りjr s,sを推定する。
この読みリストLr sは、当該漢字sについての処理のときに記憶手段24に記憶される。
よって、この場合、読みリスト作成手段28は、「生物」、「生徒」、「生活」を、漢字「生」の読み「せい」に対応した読みリストLr sへ格納する。
また、読みリスト作成手段28は、「生涯」を、漢字「生」の読み「しょう」に対応した読みリストLr sへ格納する。
さらに、読みリスト作成手段28は、「生き物」を、漢字「生」の読み「い」に対応した読みリストLr sへ格納する。
ラベル決定手段23Bは、文字リストRから低頻度文字を選択したときに、漢字以外であれば、該当するクラスに割り当てる。
ラベル決定手段23Bは、注目する漢字sの読みji sごとに分類した読みリストLr sごとに、読みリストLr sに格納されている全形態素jsの個数Lr,c sを、数え上げ、最大要素数を持っている読みリストの読みの頭文字を判定する。
また、漢字「生」の読み「しょう」に対応した読みリストLr sに格納されている形態素の個数Lr,c sは「1」である。
また、漢字「生」の読み「い」に対応した読みリストLr sに格納されている形態素の個数Lr,c sは「1」である。
したがって、この場合、ラベル決定手段23Bは、漢字「生」の読み「せい」に対応した読みリストLr sが最大要素数を持っていることから、その頭文字「せ」から、クラス「<せ>」に割り当てると判定する。
図9(a)には、一例として、漢字「奏」、「創」、「遭」、「送」を、その読みの頭文字である「そ」に対応させて、クラスラベル「<そ>」に割り当てて学習した音響モデルを模式的に示している。また、変換後テキスト1cの一例である「演<そ>会 に 出る」から、元のテキスト1bの一例である「演奏会」を復元できるような学習を行った言語モデルを模式的に示している。
変換器Lは、文字・ラベル変換表4によって、クラスラベルを含むラベル列から、日本語の単語へ復元する。図9(b)ではその例として、漢字「奏」がラベル「<そ>」に割り振られた場合の単語列出力を示している。
変換器Lでは、変換器Tで推定されたトークン列を単語に変換する際、音響モデル学習時に割り当てたクラスラベルから本来の文字を含む単語への変換をする役割をもつ。
変換器Gでは、変換器Lで得られた単語列の候補から、単語間の統計的な連続情報(n−gram)によってもっともらしい認識結果を出力する。
次に、第2実施形態に係るエンドツーエンド日本語音声認識モデル学習装置2のラベル作成手段20Bによるクラスラベルの作成処理の流れについて図10を参照して説明する。なお、図10に示すステップS101,S102の処理は、図5に示す処理と同一の処理なので、説明を省略する。
そして、ラベル作成手段20Bは、ラベル決定手段23Bによって、文字リストRから低頻度文字を選択する(ステップS202)。
ここで、ラベル決定手段23Bが低頻度文字として漢字を選択した場合、ラベル作成手段20Bは、当該漢字の読みを推定し、読みの頭文字のリストに追加する処理を実行する(ステップS203)。なお、その詳細は後記する。
さらに、ラベル決定手段23Bは、低頻度文字として、読みを推定できない数字やアルファベットを選択した場合、読み不明のリストに追加する(ステップS205)。
あるいは、ラベル決定手段23Bは、低頻度文字として、読みの存在しない記号を選択した場合、記号のリストに追加する(ステップS206)。
ラベル作成手段20Bは、ラベル決定手段23Bによって、形態素リストJsから形態素js(js番目の形態素)を選択する(ステップS232)。なお、js(js=1,2,…)は形態素を識別する符号であるが、以下、単に形態素jsという。
ただし、ステップS236にて編集距離が指定した値よりも大きくなるなどして読みが推定できない場合には、ステップS205と同様に、読み不明のリストに追加することとする。
第1および第2実施形態に係るエンドツーエンド日本語音声認識モデル学習装置によって生成した音響モデルおよび言語モデルを用いて音声認識したときの単語誤り率をそれぞれ求めた。以下、これらを実施例1および実施例2という。また、比較例として、クラスラベルを用いずに音声認識したときの単語誤り率を求めた。
KaldiベースのEESENフレームワーク(https://github.com/srvk/eesen)を用いた。なお、Kaldiベースについては、下記の参考文献に記載されている。
(参考文献)
D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz et al., “The kaldi speech recognition toolkit," in Proc. ASRU, no. EPFL-CONF-192584. IEEE Signal Processing Society, 2011.
音響モデルは、CTC基準の4層BLSTM(Bi-directional Long Short Term Memory)で、学習データ1の音声1aおよびテキスト1bとして、712時間分のNHK(登録商標)の番組音声と字幕のペアを用いて学習した。
特徴量としては、合計120次元の特徴パラメータであり、その内訳は、40次元の対数メルフィルタバンク特徴量、およびそれぞれのΔ,ΔΔ係数である。
LSTMのメモリセルは各方向320ずつとした。
言語モデルは、語彙20万単語のNHK(登録商標)の原稿と字幕から作成したARPAフォーマットの3gramWFSTを使用した。
評価用データには、NHK(登録商標)の情報番組「ひるまえほっと」5時間分を使用した。
、カタカナ等3,476種である。この3,476文字種を頻度の高いものから順に集めた際、学習データ中の全文字のうち何パーセントをカバー可能かについて調査した。その結果、学習データ中のほとんどの文字が高頻度文字種の上位30%程度に集中しており、上位42%の1,452の文字種で学習データに現れる全文字中の99%の文字を網羅できることがわかった。なお、実験では、以下に示すように上位1,500文字種を高頻度の文字種としてピックアップした。
実施例1では、学習データ1中から、高頻度の文字を1,500字抜き出して、文字のラベルの出力用の1,500ラベルとした。加えて、それ以外の1,976字を1種のクラスラベルに割当てた。つまり、1,501ラベルを音響モデル学習に用いた。また、割り当てた1種のクラスラベルからもともとの文字へ復元する言語モデルを用いた。
5 テキスト作成手段
6 音響モデル学習手段
7 言語モデル学習手段
8 音響モデル記憶手段
9 言語モデル記憶手段
10 音声認識手段
20,20B ラベル生成手段
21 形態素分割手段
22 文字リスト作成手段
23,23B ラベル決定手段
24 記憶手段
25 形態素リスト作成手段
26 編集距離算出手段
27 読み区切り推定手段
28 読みリスト作成手段
Claims (5)
- テキストと音声または当該音声の音響特徴量とを含む学習データである前記音声または当該音声の音響特徴量から文字または単語のラベルを出力するエンドツーエンドの音響モデルを音声認識モデルとして学習するエンドツーエンド日本語音声認識モデル学習装置であって、
前記学習データにおける前記テキストから、当該テキストに含まれる出現頻度が、予め定められた出現頻度の基準より低い複数の文字または複数の単語を、当該複数の文字または複数の単語を代表するクラスに割り当てるクラスラベルと、前記基準よりも出現頻度が高い単独の文字または単独の単語に付される単独ラベルと、を作成するラベル作成手段と、
前記複数の文字または複数の単語を、前記クラスラベルに割り当てる変換表に基づいて、前記学習データにおける前記テキストに含まれる複数の文字または複数の単語を前記クラスラベルに変換し、前記テキストを変換した後のテキストである変換後テキストを作成するテキスト作成手段と、
前記学習データである音声または当該音声の音響特徴量と、前記変換後テキストと、前記クラスラベルと、複数の前記単独ラベルと、を学習し、当該学習により音声または音響特徴量を前記クラスラベルおよび前記単独ラベルのラベル列に変換し、変換した当該ラベル列に基づいて、前記音響モデルを学習する音響モデル学習手段と、を備えるエンドツーエンド日本語音声認識モデル学習装置。 - 前記ラベル作成手段は、前記出現頻度が予め定められた基準より低い所定の複数の文字または複数の単語を、予め定められた基準で区分された複数のクラスのいずれかに割り当てて複数のクラスラベルを作成する請求項1に記載のエンドツーエンド日本語音声認識モデル学習装置。
- 前記ラベル作成手段は、前記出現頻度が予め定められた基準より低い所定の複数の文字または複数の単語を、文字または単語の読みごとに区分された複数のクラスのいずれかに割り当てて複数のクラスラベルを作成する請求項2に記載のエンドツーエンド日本語音声認識モデル学習装置。
- 前記変換後テキストを学習し、当該学習により前記クラスラベルおよび前記単独ラベルのラベル列を単語列に変換する言語モデルを前記音声認識モデルとして学習する言語モデル学習手段を備える請求項1から請求項3のいずれか一項に記載のエンドツーエンド日本語音声認識モデル学習装置。
- コンピュータを、請求項1から請求項4のいずれか一項に記載のエンドツーエンド日本語音声認識モデル学習装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017139177A JP6941494B2 (ja) | 2017-07-18 | 2017-07-18 | エンドツーエンド日本語音声認識モデル学習装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017139177A JP6941494B2 (ja) | 2017-07-18 | 2017-07-18 | エンドツーエンド日本語音声認識モデル学習装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019020597A JP2019020597A (ja) | 2019-02-07 |
JP6941494B2 true JP6941494B2 (ja) | 2021-09-29 |
Family
ID=65354482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017139177A Active JP6941494B2 (ja) | 2017-07-18 | 2017-07-18 | エンドツーエンド日本語音声認識モデル学習装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6941494B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7234415B2 (ja) * | 2019-05-06 | 2023-03-07 | グーグル エルエルシー | 音声認識のためのコンテキストバイアス |
CN112133292A (zh) * | 2019-06-25 | 2020-12-25 | 南京航空航天大学 | 一种针对民航陆空通话领域的端到端的自动语音识别方法 |
CN111223481B (zh) * | 2020-01-09 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 信息提取方法、装置、计算机可读存储介质及电子设备 |
CN114981885A (zh) * | 2020-01-17 | 2022-08-30 | 谷歌有限责任公司 | 用于自动语音识别的字母数字序列偏置 |
CN113806521A (zh) * | 2021-08-03 | 2021-12-17 | 武汉众智数字技术有限公司 | 一种基于对比学习的文本标签挖掘方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3836977A (en) * | 1973-06-25 | 1974-09-17 | Hazeltine Corp | Antenna system having a reflector with a substantially open construction |
JPH0833739B2 (ja) * | 1990-09-13 | 1996-03-29 | 三菱電機株式会社 | パターン表現モデル学習装置 |
-
2017
- 2017-07-18 JP JP2017139177A patent/JP6941494B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019020597A (ja) | 2019-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109887497B (zh) | 语音识别的建模方法、装置及设备 | |
JP6941494B2 (ja) | エンドツーエンド日本語音声認識モデル学習装置およびプログラム | |
CN113811946B (zh) | 数字序列的端到端自动语音识别 | |
JP4769223B2 (ja) | テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 | |
CN113692616B (zh) | 用于在端到端模型中的跨语言语音识别的基于音素的场境化 | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
Liu et al. | Gram-CTC: Automatic unit selection and target decomposition for sequence labelling | |
US5949961A (en) | Word syllabification in speech synthesis system | |
US7966173B2 (en) | System and method for diacritization of text | |
JP2020505650A (ja) | 音声認識システム及び音声認識の方法 | |
CN107705787A (zh) | 一种语音识别方法及装置 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN102063900A (zh) | 克服混淆发音的语音识别方法及系统 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
KR20230156125A (ko) | 룩업 테이블 순환 언어 모델 | |
CN115455946A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
JP6718787B2 (ja) | 日本語音声認識モデル学習装置及びプログラム | |
CN114299930A (zh) | 端到端语音识别模型处理方法、语音识别方法及相关装置 | |
KR100542757B1 (ko) | 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치 | |
CN117378005A (zh) | 用于自动语音识别的多语言重新评分模型 | |
JP4741452B2 (ja) | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
CN115662389A (zh) | 多音字语料的标注方法及装置 | |
JP6020093B2 (ja) | アルファベット読み推定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200605 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210810 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210906 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6941494 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |