JP6941494B2 - エンドツーエンド日本語音声認識モデル学習装置およびプログラム - Google Patents

エンドツーエンド日本語音声認識モデル学習装置およびプログラム Download PDF

Info

Publication number
JP6941494B2
JP6941494B2 JP2017139177A JP2017139177A JP6941494B2 JP 6941494 B2 JP6941494 B2 JP 6941494B2 JP 2017139177 A JP2017139177 A JP 2017139177A JP 2017139177 A JP2017139177 A JP 2017139177A JP 6941494 B2 JP6941494 B2 JP 6941494B2
Authority
JP
Japan
Prior art keywords
label
text
character
characters
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017139177A
Other languages
English (en)
Other versions
JP2019020597A (ja
Inventor
伊藤 均
均 伊藤
庄衛 佐藤
庄衛 佐藤
彰夫 小林
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Japan Broadcasting Corp
Priority to JP2017139177A priority Critical patent/JP6941494B2/ja
Publication of JP2019020597A publication Critical patent/JP2019020597A/ja
Application granted granted Critical
Publication of JP6941494B2 publication Critical patent/JP6941494B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、エンドツーエンド日本語音声認識モデル学習装置およびそのプログラムに関する。
従来、音声を認識するための音声認識モデルの学習には、概ね次の(1)〜(3)のようなプロセスが必要であった。
(1)入力した音声を特徴ベクトル(音響特徴量)へ変換し、(2)特徴ベクトルを各単語に対して人手で割りつけた音素へ変換するような音響モデルを学習し、(3)音素列を単語へ変換するような言語モデルを学習する。
このうち、従来(2)のプロセスは、まず、入力音声の系列長の変化に強いHMM/GMM(Hidden Markov model/Gaussian Mixture Model)により音響モデルを学習し、さらに近年では、DNN(Deep Neural Network)によってこの音響モデルの学習を行うことで高精度な音響モデルを生成してきた(図12(a)参照)。
そして、このようなモデル学習の複雑さを解消するための技術として、CTC(Connectionist Temporal Classification)(非特許文献1参照)とDNNとを用いた音響モデル学習法が知られている。この学習法は、音声と、音素または文字などのラベルと、の対応付けを直接学習する仕組みである。この学習法は、入力音声の系列長が変化した場合にも音響モデルの学習能力に強く、HMM/GMMによる学習をこのCTCとDNNとを用いた音響モデル学習法に置き換えることで、音響モデルの学習を一括で行う(End−to−End)ことが可能である。特に、CTCとRNN(Recurrent Neural Network)とを用いた音響モデル学習法には様々な手法が知られており、ビッグデータといわれる多量のデータを用いることにより、入力音声の特徴ベクトルを入力し、この特徴ベクトルから直接文字(文字ラベル)を出力する学習法も提案されている(非特許文献2、3参照)。また、End−to−Endの音響モデル学習では、図12(b)に示すように、音素等の中間表現を用いることがない。
Graves, A., et al., "Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks," ICML '06 Proceedings of the 23rd international conference on Machine learning Pages 369-376 (2006) Miao, Y., et al., " EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING" 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) Pages 167-174 (2015) Hannun, A., et al., " Deep Speech: Scaling up end-to-end speech recognition" Cornell University Library arXiv:1412.5567, 19 Dec 2014
しかしながら、DNNの出力を文字とする先行研究の多くは、英語による音声認識を対象としており、日本語を扱う場合には、日本語の文字種の多さが原因で以下の2つの問題が生じる。
1つは、出力ラベル数が多く、パラメータ数が英語に比べ膨大であることである。英語で文字を出力するEnd−to−Endのニューラルネットワーク(NN)を構成した場合、出力ラベルの数はアルファベットに数字、記号を含めても100種程度だが、日本語には漢字、ひらがな、カタカナなど3,000以上の文字種が存在する。文字種の多さのためネットワークの各層間の結合パラメータが多くなるが、文字種に対して発音の種類は多くないため、ネットワーク内の表現に重複が生じ、モデルの頑健性に乏しい。
り、学習を難しくする。
もう一つの問題は、いわゆる「疎」を意味するデータスパース性の課題がある。日本語の場合、文字種が多い分だけ、文字1種あたりの平均学習サンプル数は少なくなり、また、出現頻度の極端に少ない文字も存在する。このような出現頻度の低い文字(低頻度文字)が出力ラベルに存在している音響モデルでは、その文字の音響特徴はほとんど学習されず、音声認識結果として、例えば不要な低頻度文字が挿入誤りとして出力される傾向にあった。そのため、音声認識率を向上させることが難しかった。
本発明は、以上のような問題点に鑑みてなされたものであり、日本語の音声認識率を向上させることのできるエンドツーエンド日本語音声認識モデル学習装置およびプログラムを提供することを目的とする。
前記課題を解決するために、本発明に係るエンドツーエンド日本語音声認識モデル学習装置は、テキストと音声または当該音声の音響特徴量とを含む学習データである前記音声または当該音声の音響特徴量から文字または単語のラベルを出力するエンドツーエンドの音響モデルを音声認識モデルとして学習するエンドツーエンド日本語音声認識モデル学習装置であって、
前記学習データにおける前記テキストから、当該テキストに含まれる出現頻度が、予め定められた出現頻度の基準より低い複数の文字または複数の単語を、当該複数の文字または複数の単語を代表するクラスに割り当てるクラスラベルと、前記基準よりも出現頻度が高い単独の文字または単独の単語に付される単独ラベルと、を作成するラベル作成手段と、
前記複数の文字または複数の単語を、前記クラスラベルに割り当てる変換表に基づいて、前記学習データにおける前記テキストに含まれる複数の文字または複数の単語を前記クラスラベルに変換し、前記テキストを変換した後のテキストである変換後テキストを作成するテキスト作成手段と、
前記学習データである音声または当該音声の音響特徴量と、前記変換後テキストと、前記クラスラベルと、複数の前記単独ラベルと、を学習し、当該学習により音声または音響特徴量を前記クラスラベルおよび前記単独ラベルのラベル列に変換し、変換した当該ラベル列に基づいて、前記音響モデルを学習する音響モデル学習手段と、を備える構成とした。
本発明は、以下に示す優れた効果を奏するものである。
本発明に係るエンドツーエンド日本語音声認識モデル学習装置によれば、出現頻度が低い複数の文字または複数の単語を1つのクラスラベルとしてまとめて学習することができる。
したがって、出現頻度が低い複数の文字または複数の単語について従来手法よりも多いサンプル数で音響特徴を学習することが可能となり、音声認識率が向上する。
また、このような学習によって、日本語のような出力ラベル数の多さに起因する学習ネットワークの表現の重複を緩和することが可能となり、音声認識率が向上する。
本発明の第1実施形態に係るエンドツーエンド日本語音声認識モデル学習装置を模式的に示すブロック図である。 本発明の第1実施形態に係るエンドツーエンド日本語音声認識モデル学習装置のラベル作成手段の構成を模式的に示すブロック図である。 音響モデルの模式図であって、(a)は入力音声からラベルを出力する模式図、(b)は、入力する音声からクラスラベルも出力する模式図である。 (a)は、文字・ラベル変換表の一例、(b)は、文字をクラスラベルに変換する音響モデルの概念図、(c)は、テキスト中のクラスラベルを文字に復元する言語モデルの概念図である。 第1実施形態に係るラベル作成手段によるクラスラベルの作成処理の流れを示すフローチャートである。 本発明の第2実施形態に係るエンドツーエンド日本語音声認識モデル学習装置のラベル作成手段の構成を模式的に示すブロック図である。 (a)は、入力する音声から複数のクラスラベルを出力する音響モデルの模式図、(b)は、文字をクラスラベルに変換する音響モデルの概念図、(c)は、テキスト中のクラスラベルを文字に復元する言語モデルの概念図である。 形態素リストおよび読みリストの模式図である。 (a)は、音声認識手段による処理の一例を示す概念図であり、(b)は、(a)の音声認識を行う言語モデル学習手段を構成する単語を出力する変換器の模式図である。 第2実施形態に係るラベル作成手段によるクラスラベルの作成処理の流れを示すフローチャートである。 図10の処理において漢字を選択した場合の処理の流れを示すフローチャートである。 (a)は、従来の発音辞書を用いる音声認識処理の流れの模式図であり、(b)は、従来の英語におけるエンドツーエンドの音声認識処理の流れの模式図である。
以下、本発明の実施形態に係る日本語音声認識モデル学習装置について、図面を参照しながら説明する。
(第1実施形態)
[エンドツーエンド日本語音声認識モデル学習装置の構成]
エンドツーエンド日本語音声認識モデル学習装置2は、テキスト1bと音声1aまたは当該音声の音響特徴量(以下、単に音声という)とを含む学習データ1である音声1aから文字または単語(以下、単に文字という)のラベル3を出力するエンドツーエンドの音響モデルを音声認識モデルとして学習する。
本実施形態では、日本語の音響モデル作成用の学習データ1を、音声1aとテキスト1bとのペアとして説明する。音声1aおよびテキスト1bは、日本語の大量の音声データおよび大量のテキストを表している。例えば、音声1aとして、事前学習用の放送番組の番組音声を用い、テキスト1bとして、その番組音声の内容の厳密な書き起こし、または、それに準ずるものを用いることができる。なお、図1において、変換後テキスト1c、ラベル3、および、ラベル・変換表4は、それぞれデータを示している。
このエンドツーエンド日本語音声認識モデル学習装置2は、ラベル作成手段20と、テキスト作成手段5と、音響モデル学習手段6と、言語モデル学習手段7と、音響モデル記憶手段8と、言語モデル記憶手段9と、を備えている。なお、ここでは、エンドツーエンド日本語音声認識モデル学習装置2は、音声認識手段10を備えている。
エンドツーエンド日本語音声認識モデル学習装置2は、学習データ1におけるテキスト1bから、テキスト1bに含まれる出現頻度が予め定められた出現頻度の基準より低い複数の文字を、当該複数の文字を代表するクラスに割り当てるクラスラベルと、前記基準よりも出現頻度が高い単独の文字に関する単独ラベルと、を作成し、複数の文字をクラスラベルに割り当てる文字・ラベル変換表4に基づいて、学習データ1におけるテキスト1bに含まれる複数の文字をクラスラベルに変換し、テキスト1bを変換した後のテキストである変換後テキスト1cを作成する。そして、学習データ1における音声1aと変換後テキスト1cとクラスラベルと複数の単独ラベルとを学習し、当該学習により音声1aをクラスラベルおよび単独ラベルのラベル列に変換し、変換した当該ラベル列に基づいて、音響モデルを学習する。
ラベル作成手段20は、学習データ1におけるテキスト1bから、テキスト1bに含まれる出現頻度が予め定められた出現頻度の基準より低い複数の文字を、当該複数の文字を代表するクラスに割り当てるクラスラベルと、前記基準よりも出現頻度が高い単独の文字に関する単独ラベルと、を作成するものである。単独ラベル(以下、文字のラベルという)と、クラスラベルとを総称する場合、ラベル3と表記する。ラベル3は、音響モデルの出力に用いるラベルである。文字のラベルは、単独の文字を扱うラベルであり、クラスラベルは、複数の文字をひとまとまりに扱うラベルである。
ラベル作成手段20は、テキスト1bの中からモデル学習に適したラベル3と、どの文字をどのクラスラベルと対応させるかに関する表である文字・ラベル変換表4と、を作成し、出力する。ここでは、ラベル作成手段20は、学習データ1におけるテキスト1bから、文字ラベルを作成し、クラスラベルを後から追加することとした。文字のラベルは、図3(a)の模式図に示すように、ひらがな、カタカナ、漢字、アルファベット等を含んでいる。クラスラベルを図3(b)の模式図では、星印で示しているが、これに限定されるものではない。
本実施形態では、ラベル作成手段20は、図2に示すように、形態素分割手段21と、文字リスト作成手段22と、ラベル決定手段23と、記憶手段24と、を備えている。
形態素分割手段21は、学習データ1のテキスト1bを形態素に分割し、そのそれぞれについて読みを付与するものである。なお、形態素分割手段21としては、例えば日本語形態素解析のための一般的なソフトウェア(例えばMeCabやChaSen)を用いることができる。以下では、学習データ1のテキスト1bを形態素単位に分割したリストのことを、形態素単位リストWと呼ぶ。この形態素リストWは記憶手段24に記憶される。
文字リスト作成手段22は、学習データ1のテキスト1b内の文字ごとの出現頻度を計数し、出現頻度が予め定められた基準より高い文字のリストと、それ以外の文字のリストを作成するものである。
ここでは、出現頻度が最上位からN文字種までの文字からなるリストを、文字リストFと呼ぶ。また、それ以外の低頻度文字からなるリストを、文字リストRと呼ぶ。この文字リストFおよび文字リストRは記憶手段24に記憶される。
前記Nの値は、所望の値に設定でき、例えば、学習データ1のテキスト1b内の全文字種の総数の半分より小さくすることができる。言い換えると、学習データ1におけるテキスト1bに含まれる出現頻度が予め定められた基準より低い文字の種類の個数は、テキスト1bに含まれる全文字種の総数の1/2以上にすることができる。
ラベル決定手段23は、このラベル作成手段20全体の制御を司る。ラベル決定手段23は、高頻度の文字については文字のラベルとして決定し、文字リストRから選択した低頻度文字についてはクラスラベルとして決定する。ラベル決定手段23は、クラスラベルおよび文字のラベルをラベル3として記憶手段24に格納する。
また、ラベル決定手段23は、ラベル・変換表4を作成し、テキスト作成手段5に出力する。ラベル・変換表4は、複数の文字をクラスラベルに割り当てるための変換表である。ラベル・変換表4の一例を図4(a)に示す。この例は、図3(b)の模式図に対応しており、文字「璃、鷲、劉、…」をそれぞれ星印「☆」に変換する。
記憶手段24は、ラベル作成手段20の処理により作成されたデータ等を記憶するものであって、ハードディスク等の一般的な記憶媒体である。この記憶手段24には、形態素リストW、文字リストF、文字リストR、ラベル3のデータ等が記憶される。
テキスト作成手段5は、文字・ラベル変換表4に基づいて、学習データ1におけるテキスト1bに含まれる複数の文字をクラスラベルに変換し、テキスト1bを変換した後のテキストである変換後テキスト1cを作成する。このテキスト作成手段5は、テキスト1bを入力し、文字・ラベル変換表4を用いて、テキスト1bのクラスラベルごとに分類された文字群を、分類されたクラスラベルに書き換えて変換後テキスト1cを作成する。
図4(b)の1行目に示す「今日の尾鷲市は雨」は、このテキスト作成手段5に入力するテキスト1bの一例である。
また、図4(b)の2行目に示す「今日の尾☆市は雨」は、このときに、テキスト作成手段5が出力する変換後テキスト1cの一例である。
なお、テキスト作成手段5へ入力するテキストは、学習データ1のテキスト1bとは別のテキストであってもよい。
音響モデル学習手段6は、学習データ1である音声1aと、変換後テキスト1cと、クラスラベルと、複数の単独ラベル(文字のラベル)と、を学習し、当該学習により音声1aをクラスラベルおよび文字のラベルのラベル列に変換し、変換した当該ラベル列に基づいて、音響モデルを学習する。この音響モデル学習手段6は、ラベル3と音声1aと変換後テキスト1cを用いて音声がラベル3のうちどれであるかを出力するモデルを学習し、音響モデル記憶手段8に記憶する。音響モデル学習手段6は、非特許文献2に記載されたような文字のシーケンスを特定するEnd−to−Endの音響モデルの全てに適用可能なものである。
この音響モデルは、大量の音声データから予め抽出した音響特徴量(メル周波数ケプストラム係数、フィルタバンク出力等)を、設定したラベルごとにディープニューラルネットワーク(Deep Neural Network)とコネクショニスト時系列分類法(CTC:Connectionist Temporal Classification)等によってモデル化したものである。なお、音響モデルによる音響特徴量の尤度計算は、出力が漢字を含む書記素であれば再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)であっても、長・短期記憶(LSTM:Long Short Term Memory)であっても構わない。
言語モデル学習手段7は、変換後テキスト1cを学習し、当該学習によりクラスラベルおよび単独ラベル(文字のラベル)のラベル列を単語列に変換する言語モデルを音声認識モデルとして学習する。言語モデルは、大量のテキストから予め学習した出力系列(単語等)の出現確率等をモデル化したものである。この言語モデルには、例えば、一般的なNグラム言語モデルを用いることができる。
言語モデル学習手段7は、ラベル3と変換後テキスト1cとを用いて、ラベル3から単語列を出力するモデルを学習し、言語モデル記憶手段9に記憶する。言語モデル学習手段7は、非特許文献2のように、音響モデル記憶手段8の出力を入力として、前後の単語の関係から単語列を推定し出力するもののうち、音響モデル学習手段6で用いたラベル3にない文字についても文字・ラベル変換表4と前後の単語の関係から文字を復元する。
音響モデル記憶手段8は、音響モデル学習手段6が学習により作成した音響モデルを記憶するもので、ハードディスク等の一般的な記憶媒体である。
言語モデル記憶手段9は、言語モデル学習手段7が学習により作成した言語モデルを記憶するものであって、ハードディスク等の一般的な記憶媒体である。
音声認識手段10は、入力された音声(評価用音声)を、人が発話した発話区間ごとに音声認識するものである。この音声認識手段10は、認識結果である単語列を図示しない表示装置等に出力する。
この音声認識手段10は、入力された音声を、特徴量(特徴ベクトル)に変換し、この特徴量を音響モデル記憶手段8に記憶されている音響モデルを用いて、順次、ラベルに変換することでラベル列を作成する。このときに音声認識手段10は、例えば、図4(c)の1行目に示す「今日の尾☆市は雨」のようなラベル列を作成する。
そして、音声認識手段10は、言語モデル記憶手段9に記憶されている言語モデルを用いて、前記ラベル列を、順次、単語に変換することで単語列を作成する。このときに音声認識手段10は、例えば、図4(c)の2行目に示す「今日の尾鷲市は雨」のような単語列を作成する。
[クラスラベルの作成処理の流れ]
第1実施形態に係るエンドツーエンド日本語音声認識モデル学習装置2のラベル作成手段20によるクラスラベルの作成処理の流れについて図5を参照して説明する。
まず、エンドツーエンド日本語音声認識モデル学習装置2のラベル作成手段20は、形態素分割手段21によって、学習データ1のテキスト1bを形態素に分割した形態素単位リストWを作成する(ステップS101)。
そして、ラベル作成手段20は、文字リスト作成手段22によって、学習データ1のテキスト1b内の文字ごとの出現頻度上位N文字種の文字リストFと、それ以外の低頻度文字からなる文字リストRを作成する(ステップS102)。
そして、ラベル作成手段20は、ラベル決定手段23によって、文字リストRから低頻度文字を選択し(ステップS103)、選択した低頻度文字をクラスラベルに追加し(ステップS104)、文字・ラベル変換表4を更新する(ステップS105)。
そして、ラベル決定手段23は、全ての低頻度文字を選択したか否かを判定する(ステップS106)。未選択の低頻度文字がある場合(ステップS106:No)、ラベル決定手段23は、ステップS103に戻る。一方、全ての低頻度文字を選択した場合(ステップS106:Yes)、ラベル作成手段20は、クラスラベルと文字リストFを統合してラベル3を作成し(ステップS107)、文字・ラベル変換表4をテキスト作成手段5に出力し、処理を終了する。
本実施形態によれば、出現頻度の低い文字(低頻度文字)を一つのクラスラベルとしてまとめることで、学習パラメータを減らし、1ラベルあたりの学習サンプル数を増やすので、低頻度文字の音響特徴が学習され易くなり、日本語の音声認識精度が向上する効果を奏する。
(第2実施形態)
次に、本発明の第2実施形態に係る日本語音声認識モデル学習装置について図6を参照して説明する。なお、第2実施形態に係るエンドツーエンド日本語音声認識モデル学習装置は、ラベル作成手段20Bが複数のクラスラベルを作成する点が第1実施形態とは異なるものの、他の構成要素が第1実施形態と同様なので、その全体構成の図面を省略する。また、図6に示すラベル作成手段20Bにおいて、図2に示すラベル作成手段20と同一の構成には同一の符号を付して説明を適宜省略する。
ラベル作成手段20Bは、出現頻度が予め定められた基準より低い所定の複数の文字を、予め定められた基準で区分された複数のクラスのいずれかに割り当てて複数のクラスラベルを作成する。
ここでは、ラベル作成手段20Bは、一例として、文字の音韻的特徴を反映し、図7(a)に示すように、文字の読みごとに区分された複数のクラスのいずれかに割り当てて複数のクラスラベルを作成することとした。なお、図7(a)において、例えば、読みが「あ」であるクラスに割り当てられた「<あ>」は、読みを表す文字「あ」と、その両側に記載された2つの記号「<」、「>」とにより、クラスラベルを表している。
本実施形態では、テキスト作成手段5に入力するテキスト1bが、例えば、図7(b)の1行目に示す「今日の尾鷲市は雨」である場合、テキスト作成手段5は、変換後テキスト1cとして、例えば、図7(b)の2行目に示す「今日の尾<わ>市は雨」のような変換後テキスト1cを出力する。
また、本実施形態では、音声認識手段10は、入力音声から、例えば、図7(c)の1行目に示す「今日の尾<わ>市は雨」のようなラベル列を作成した場合、言語モデルを用いて例えば、図7(c)の2行目に示す「今日の尾鷲市は雨」のような単語列を作成する。
以下、ラベル作成手段20Bの各構成について図6を参照して説明する。
ラベル作成手段20Bは、図6に示すように、形態素分割手段21と、文字リスト作成手段22と、ラベル決定手段23Bと、記憶手段24と、形態素リスト作成手段25と、編集距離算出手段26と、読み区切り推定手段27と、読みリスト作成手段28と、を備えている。
形態素リスト作成手段25は、形態素単位リストWのうち文字リストR内の低頻度文字を含む形態素リストJを作成するものである。この形態素リストJは記憶手段24に記憶される。なお、形態素リスト作成手段25としては、例えば日本語形態素解析のための一般的なソフトウェアを用いることができる。
本実施形態では、形態素リスト作成手段25は、形態素単位リストWに基づいて、注目する漢字sごとに、当該漢字sを含む形態素のリストである形態素リストJsを作成する。この形態素リストJsは、当該漢字sについての処理のときに記憶手段24に記憶される。
例えば、注目する漢字sが「生」の場合に、形態素リスト作成手段25が作成する形態素リストJsの一例を図8に示す。
また、ここでは、形態素リスト作成手段25は、注目する漢字sごとの形態素リストJsに出現する各形態素js(形態素リストJs内の各形態素区間js)に含まれる全ての漢字の一文字単独での全ての読みのリストである単独漢字リストも作成することとした。具体的には、形態素jsの一例が「生」である場合、形態素リスト作成手段25は、「生」の読みとして、例えば「せい」、「しょう」、「き」、「なま」を記載したリストを作成する。
編集距離算出手段26は、注目する漢字sごとの形態素リストJsに出現する形態素jsごとに、形態素jsを構成する各漢字に単独の読みを付与したときに対応付けられる全ての組み合わせを、形態素分割手段21で付与された形態素js全体の読みjr sと比較して編集距離Dxを算出するものである。
ここで、各漢字の組み合わせの読みと、形態素全体の読みとの編集距離Dxは、一方の読みから、挿入、削除、置換といった操作を行なうことによって、他方の読みに編集する際に、必要とされる操作の最小回数である。編集距離算出手段26は、これら削除・挿入・置換誤り文字数を求めることで編集距離Dxを算出する。
具体的には、形態素jsの一例を図8に示す「生物」であるものとすると、「生」および「物」に、単独の読みをそれぞれ付与したときに対応付けられる全ての組み合わせとは、各文字の読みを組み合わせることで得られる。
ここでは、「生」の読みは、例えば「せい」、「しょう」、「き」、「なま」であるものとする。また、「物」の読みは、例えば「ぶつ」、「もの」であるものとする。
この場合、全ての組み合わせji s,xとは、「せい−もの」、「せい−ぶつ」、「しょう−もの」、「しょう−ぶつ」、「き−もの」、「き−ぶつ」、「なま−もの」、「なま−ぶつ」の合計8個の組み合わせである。
読み区切り推定手段27は、編集距離Dxが最小となる漢字の組み合わせji s,xを求め、当該形態素jsにおいて注目する漢字sの単独の読みの区切りjr s,sを推定するものである。
図8に示す「生物」の全体の読みjr sは、形態素分割手段21で「せいぶつ」のように付与されている。しかしながら、形態素分割手段21は、単語レベルの読みを付与するものであって、シンボル「生物」において、シンボル「生」の読みが、「せ」なのか、「せい」なのかということについては、情報が無い。そこで、読み区切り推定手段27は、例えば、上記した合計8個の組み合わせについてのそれぞれの編集距離Dxに基づいて、シンボル「生物」においてシンボル「生」の読みが「せい」である確率が高いことを判定し、シンボル「生物」において、注目する漢字sである「生」の単独の読みの区切りjr s,sを推定する。
読みリスト作成手段28は、前記した一文字単独での全ての読みのリストである単独漢字リストを参照して、形態素jsにおいて注目する漢字sに対して推定された読みの区切りjr s,sが、注目する漢字sの一文字単独での全ての読みji xのいずれであるのかを判定し、判定された読みに応じて、形態素jsを注目する漢字sの読みji sごとに分類した読みリストLr sへ格納するものである。
この読みリストLr sは、当該漢字sについての処理のときに記憶手段24に記憶される。
図8に示す例では、上から3個目までの「生」の読みは「せい」であり、上から4個目の「生」の読みは「しょう」であり、上から5個目の「生」の読みは「い」である。
よって、この場合、読みリスト作成手段28は、「生物」、「生徒」、「生活」を、漢字「生」の読み「せい」に対応した読みリストLr sへ格納する。
また、読みリスト作成手段28は、「生涯」を、漢字「生」の読み「しょう」に対応した読みリストLr sへ格納する。
さらに、読みリスト作成手段28は、「生き物」を、漢字「生」の読み「い」に対応した読みリストLr sへ格納する。
ラベル決定手段23Bは、ラベル決定手段23と同様に、ラベル作成手段20B全体の制御を司り、高頻度の文字については文字のラベルとして決定し、文字リストRから選択した低頻度文字についてはクラスラベルとして決定する。ラベル決定手段23Bは、クラスラベルおよび文字のラベルをラベル3として記憶手段24に格納する。
ラベル決定手段23Bは、文字リストRから低頻度文字を選択したときに、漢字以外であれば、該当するクラスに割り当てる。
ラベル決定手段23Bは、注目する漢字sの読みji sごとに分類した読みリストLr sごとに、読みリストLr sに格納されている全形態素jsの個数Lr,c sを、数え上げ、最大要素数を持っている読みリストの読みの頭文字を判定する。
具体的には、図8に示す例では、漢字「生」の読み「せい」に対応した読みリストLr sに格納されている形態素の個数Lr,c sは「3」である。
また、漢字「生」の読み「しょう」に対応した読みリストLr sに格納されている形態素の個数Lr,c sは「1」である。
また、漢字「生」の読み「い」に対応した読みリストLr sに格納されている形態素の個数Lr,c sは「1」である。
したがって、この場合、ラベル決定手段23Bは、漢字「生」の読み「せい」に対応した読みリストLr sが最大要素数を持っていることから、その頭文字「せ」から、クラス「<せ>」に割り当てると判定する。
本実施形態では、記憶手段24には、形態素リストW、文字リストF、文字リストR、ラベル3等のデータに加え、形態素リストJ、形態素リストJs、読みリストLr sが記憶される。
ここで、言語モデル学習手段7が、ラベルから文字を復元する処理について図9(a)および図9(b)を参照して説明する。
図9(a)には、一例として、漢字「奏」、「創」、「遭」、「送」を、その読みの頭文字である「そ」に対応させて、クラスラベル「<そ>」に割り当てて学習した音響モデルを模式的に示している。また、変換後テキスト1cの一例である「演<そ>会 に 出る」から、元のテキスト1bの一例である「演奏会」を復元できるような学習を行った言語モデルを模式的に示している。
図9(b)は、このときの言語モデルにおいて、漢字「奏」をクラスラベル「<そ>」に割り当てて学習した際の単語「演奏会」についての重みつき有限状態トランスデューサ(Weighted Finite State Transducer:WFST)の模式図である。WFSTは、入力信号および出力信号のペアとその重みを記すことにより情報を遷移する変換器であって、非特許文献2、3においても言語モデル学習手段に用いられている。なお、図9(b)において、WFSTの矢印上の「入力信号:出力信号(遷移確率)」のうち、遷移確率の記載は省略する。また、「eps」は入出力がない遷移を示す。また、「space」は空白の遷移を示す。
本実施形態では、言語モデル学習手段7は、文字列作成手段(以下、変換器Tという)、単語列作成手段(以下、変換器Lという)、文章作成手段(以下、変換器Gという)のそれぞれのトランスデューサの合成で表される。ここでは、CTCのラベルから文字への変換器T、文字から単語への変換器L、単語から文章への変換器Gの3つの変換器の合成によりデコードする。
変換器Tで生成されるのはラベル3を用いた文字列である。
変換器Lは、文字・ラベル変換表4によって、クラスラベルを含むラベル列から、日本語の単語へ復元する。図9(b)ではその例として、漢字「奏」がラベル「<そ>」に割り振られた場合の単語列出力を示している。
変換器Lでは、変換器Tで推定されたトークン列を単語に変換する際、音響モデル学習時に割り当てたクラスラベルから本来の文字を含む単語への変換をする役割をもつ。
変換器Gでは、変換器Lで得られた単語列の候補から、単語間の統計的な連続情報(n−gram)によってもっともらしい認識結果を出力する。
[クラスラベルの作成処理の流れ]
次に、第2実施形態に係るエンドツーエンド日本語音声認識モデル学習装置2のラベル作成手段20Bによるクラスラベルの作成処理の流れについて図10を参照して説明する。なお、図10に示すステップS101,S102の処理は、図5に示す処理と同一の処理なので、説明を省略する。
ステップS102に続いて、ラベル作成手段20Bは、形態素リスト作成手段25によって、形態素単位リストWのうち文字リストR内の低頻度文字を含む形態素リストJを作成する(ステップS201)。
そして、ラベル作成手段20Bは、ラベル決定手段23Bによって、文字リストRから低頻度文字を選択する(ステップS202)。
ここで、ラベル決定手段23Bが低頻度文字として漢字を選択した場合、ラベル作成手段20Bは、当該漢字の読みを推定し、読みの頭文字のリストに追加する処理を実行する(ステップS203)。なお、その詳細は後記する。
また、ラベル決定手段23Bは、低頻度文字として、ひらがなやカタカナを選択した場合、その該当する読みのリストに追加する(ステップS204)。
さらに、ラベル決定手段23Bは、低頻度文字として、読みを推定できない数字やアルファベットを選択した場合、読み不明のリストに追加する(ステップS205)。
あるいは、ラベル決定手段23Bは、低頻度文字として、読みの存在しない記号を選択した場合、記号のリストに追加する(ステップS206)。
ステップS203〜ステップS206のいずれかの処理に続いて、ラベル作成手段20Bは、ラベル決定手段23Bによって、文字・ラベル変換表4を更新する(ステップS207)。そして、ラベル決定手段23Bは、全ての低頻度文字を選択したか否かを判定する(ステップS208)。未選択の低頻度文字がある場合(ステップS208:No)、ラベル決定手段23Bは、ステップS202に戻る。一方、全ての低頻度文字を選択した場合(ステップS208:Yes)、クラスラベル集合Liと文字リストFを統合してラベル3を作成し(ステップS209)、文字・ラベル変換表4をテキスト作成手段5に出力し、処理を終了する。
次に、ラベル作成手段20Bが、低頻度文字として漢字を選択した場合の処理について図11を参照(適宜図10参照)して説明する。なお、ここでは、図10に示す処理の途中から一部を重複させて説明する。まず、ラベル作成手段20Bは、ラベル決定手段23Bによって、文字リストRから、低頻度文字として漢字sを選択する(初期値s=1:ステップS202)。なお、s(s=1,2,…)は漢字を識別する符号であるが、以下、単に漢字sという。
そして、ラベル作成手段20Bは、形態素リスト作成手段25によって、前記ステップS201(図10)で作成した低頻度文字を含む形態素リストJから、漢字s(s番目の漢字)を含む形態素リストJを作成する(ステップS231)。
ラベル作成手段20Bは、ラベル決定手段23Bによって、形態素リストJsから形態素js(js番目の形態素)を選択する(ステップS232)。なお、js(js=1,2,…)は形態素を識別する符号であるが、以下、単に形態素jsという。
続いて、ラベル作成手段20Bは、例えば、編集距離算出手段26および読み区切り推定手段27によって、形態素jsにおいて漢字sの読みjr s,sを推定し、読みリスト作成手段28によって、この漢字sの読みrごとに用意された読みリストLr sに形態素jsを格納する(ステップS233)。
そして、ラベル決定手段23Bは、全形態素区間を選択したか否かを判定する(ステップS234)。未選択の形態素区間がある場合(ステップS234:No)、ラベル決定手段23Bは、形態素区間の値(js)に「1」を加算し(js=js+1:ステップS235)、ステップS232に戻る。
一方、全形態素区間を選択した場合(ステップS234:Yes)、ラベル作成手段20Bは、読みリスト作成手段28によって、漢字sの読みrごとに分類された読みリストLr sに格納されている形態素の数Lr,c sを数え上げ、読みリストLr sのうち最大要素数を持つ読みrの頭文字rtを求める(ステップS236)。そして、ラベル決定手段23Bは、頭文字rtのリストLr rtに漢字sを追加する(ステップS237)。
ただし、ステップS236にて編集距離が指定した値よりも大きくなるなどして読みが推定できない場合には、ステップS205と同様に、読み不明のリストに追加することとする。
そして、ラベル作成手段20Bは、ラベル決定手段23Bによって、文字・ラベル変換表4を更新する(ステップS207)。そして、ラベル決定手段23Bは、低頻度文字における全ての漢字を選択したか否かを判定する(ステップS208)。未選択の漢字区間がある場合(ステップS208:No)、ラベル決定手段23Bは、漢字区間の値(s)に「1」を加算し(s=s+1:ステップS238)、ステップS202に戻る。一方、低頻度文字における全漢字区間を選択した場合(ステップS238:Yes)、ラベル決定手段23Bは、クラスラベル集合Liと文字リストFを統合してラベル3を作成し(ステップS209)、文字・ラベル変換表4をテキスト作成手段5に出力し、処理を終了する。なお、ステップS209において、クラスラベル集合Liの中に該当する漢字が存在しない場合、そのクラスラベルは省略してもよい。
本実施形態によれば、第1実施形態と同様に、日本語の音声認識精度が向上する効果を奏する。また、文字の読みを基準に複数のクラスラベルに分割したので、クラスラベルから文字を復元する際に、文字の読みがヒントになるので、いっそう単語認識精度を向上させる効果がある。
以上、本発明の各実施形態について説明したが、本発明はこれらに限定されるものではなく、その趣旨を変えない範囲で実施することができる。例えば、音響モデル学習手段6や音声認識手段10には、音声を入力し、内部で特徴量に変換するのとして説明したが、音声を変換した音響特徴量を入力として用いてもよい。
また、前記各実施形態では、エンドツーエンド日本語音声認識モデル学習装置として説明したが、各装置の構成の処理を可能にするように、汎用または特殊なコンピュータ言語で記述したエンドツーエンド日本語音声認識モデル学習プログラムとみなすことも可能である。
また、頭文字の読みの推定について、形態素リスト作成手段25が、注目する漢字sごとの形態素リストJsに出現する各形態素jsに含まれる全ての漢字の一文字単独での全ての読みのリストである単独漢字リストを作成することとしたが、この方法に限定されない。例えば、kakasiの辞書のもつ文字の読みリストから、漢字の位置に応じて前方/後方一致するよう一字ずつ探索し、合致した読みを採用することもできる。なお、kakasiは、漢字仮名交じり文をひらがな文やローマ字文に変換することを目的として作成されたプログラムと辞書をいう。
また、エンドツーエンド日本語音声認識モデル学習装置2は、入力する音声1aから文字のラベル3を直接出力するエンドツーエンドの音声認識モデルを学習するものとしたが、単語のラベルを直接出力するようにしてもよい。なお、日本語の単語数は、日本語の文字種の数よりも多いためパラメータ数も多いが、例えば10万程度の語彙数であっても単語を直接出力するシステムが可能であることが報告されている。
第2実施形態では、複数のクラスラベルに分割する基準を文字の読みとして説明したが、例えば、文字または単語の前後関係や品詞等のコンテキストを基準に複数のクラスラベルに分割してもよい。
本発明に係るエンドツーエンド日本語音声認識モデル学習装置の性能を確かめるために、音声認識実験を行った。
第1および第2実施形態に係るエンドツーエンド日本語音声認識モデル学習装置によって生成した音響モデルおよび言語モデルを用いて音声認識したときの単語誤り率をそれぞれ求めた。以下、これらを実施例1および実施例2という。また、比較例として、クラスラベルを用いずに音声認識したときの単語誤り率を求めた。
<実験条件>
KaldiベースのEESENフレームワーク(https://github.com/srvk/eesen)を用いた。なお、Kaldiベースについては、下記の参考文献に記載されている。
(参考文献)
D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz et al., “The kaldi speech recognition toolkit," in Proc. ASRU, no. EPFL-CONF-192584. IEEE Signal Processing Society, 2011.
実験では、KaldiベースのEESENフレームワークを、日本語の文字が出力可能なように、以下のように修正して用いた。
音響モデルは、CTC基準の4層BLSTM(Bi-directional Long Short Term Memory)で、学習データ1の音声1aおよびテキスト1bとして、712時間分のNHK(登録商標)の番組音声と字幕のペアを用いて学習した。
特徴量としては、合計120次元の特徴パラメータであり、その内訳は、40次元の対数メルフィルタバンク特徴量、およびそれぞれのΔ,ΔΔ係数である。
LSTMのメモリセルは各方向320ずつとした。
言語モデルは、語彙20万単語のNHK(登録商標)の原稿と字幕から作成したARPAフォーマットの3gramWFSTを使用した。
評価用データには、NHK(登録商標)の情報番組「ひるまえほっと」5時間分を使用した。
学習データ1として用いる前記した712時間のデータで登場する文字種は、漢字、
、カタカナ等3,476種である。この3,476文字種を頻度の高いものから順に集めた際、学習データ中の全文字のうち何パーセントをカバー可能かについて調査した。その結果、学習データ中のほとんどの文字が高頻度文字種の上位30%程度に集中しており、上位42%の1,452の文字種で学習データに現れる全文字中の99%の文字を網羅できることがわかった。なお、実験では、以下に示すように上位1,500文字種を高頻度の文字種としてピックアップした。
音響モデルの出力ラベルとして、学習データ1で出現する全文字種(3,476種)用のラベルに、ブランクラベルを加えた3,477ラベルを出力とするものを比較例として実験した。
実施例1では、学習データ1中から、高頻度の文字を1,500字抜き出して、文字のラベルの出力用の1,500ラベルとした。加えて、それ以外の1,976字を1種のクラスラベルに割当てた。つまり、1,501ラベルを音響モデル学習に用いた。また、割り当てた1種のクラスラベルからもともとの文字へ復元する言語モデルを用いた。
また、実施例2では、学習データ1中から、高頻度の文字を1,500字抜き出して、文字のラベルの出力用の1,500ラベルとした。加えて、それ以外の1,976字を73種のクラスラベルに割当てた。ここで、73種とは、五十音図における「を」と撥音とを含む46文字種のそれぞれの読みを表すクラス、濁音および半濁音を含む25文字種のそれぞれの読みを表すクラス、数字やアルファベット等の読み不明のクラス、および、記号のクラスを意味する。なお、実際には、1,976字のうちいずれの文字も割り当てられなかったクラスラベル(3クラスラベル)については除外しているため、1,570ラベルのみを音響モデル学習に用いた。また、割り当てた70種のクラスラベルからもともとの文字へ復元する言語モデルを用いた。実験結果を表1に示す。
Figure 0006941494
クラスを使用しない場合に比べ、クラス使用した方が音声認識単語誤り率(Word Error Rate:WER)が改善している。クラスも、全ての低頻度文字を1つのクラスラベルに割り当てるよりも複数のクラスラベルに分割する方がWERはさらに改善する。
2 エンドツーエンド日本語音声認識モデル学習装置
5 テキスト作成手段
6 音響モデル学習手段
7 言語モデル学習手段
8 音響モデル記憶手段
9 言語モデル記憶手段
10 音声認識手段
20,20B ラベル生成手段
21 形態素分割手段
22 文字リスト作成手段
23,23B ラベル決定手段
24 記憶手段
25 形態素リスト作成手段
26 編集距離算出手段
27 読み区切り推定手段
28 読みリスト作成手段

Claims (5)

  1. テキストと音声または当該音声の音響特徴量とを含む学習データである前記音声または当該音声の音響特徴量から文字または単語のラベルを出力するエンドツーエンドの音響モデルを音声認識モデルとして学習するエンドツーエンド日本語音声認識モデル学習装置であって、
    前記学習データにおける前記テキストから、当該テキストに含まれる出現頻度が、予め定められた出現頻度の基準より低い複数の文字または複数の単語を、当該複数の文字または複数の単語を代表するクラスに割り当てるクラスラベルと、前記基準よりも出現頻度が高い単独の文字または単独の単語に付される単独ラベルと、を作成するラベル作成手段と、
    前記複数の文字または複数の単語を、前記クラスラベルに割り当てる変換表に基づいて、前記学習データにおける前記テキストに含まれる複数の文字または複数の単語を前記クラスラベルに変換し、前記テキストを変換した後のテキストである変換後テキストを作成するテキスト作成手段と、
    前記学習データである音声または当該音声の音響特徴量と、前記変換後テキストと、前記クラスラベルと、複数の前記単独ラベルと、を学習し、当該学習により音声または音響特徴量を前記クラスラベルおよび前記単独ラベルのラベル列に変換し、変換した当該ラベル列に基づいて、前記音響モデルを学習する音響モデル学習手段と、を備えるエンドツーエンド日本語音声認識モデル学習装置。
  2. 前記ラベル作成手段は、前記出現頻度が予め定められた基準より低い所定の複数の文字または複数の単語を、予め定められた基準で区分された複数のクラスのいずれかに割り当てて複数のクラスラベルを作成する請求項1に記載のエンドツーエンド日本語音声認識モデル学習装置。
  3. 前記ラベル作成手段は、前記出現頻度が予め定められた基準より低い所定の複数の文字または複数の単語を、文字または単語の読みごとに区分された複数のクラスのいずれかに割り当てて複数のクラスラベルを作成する請求項2に記載のエンドツーエンド日本語音声認識モデル学習装置。
  4. 前記変換後テキストを学習し、当該学習により前記クラスラベルおよび前記単独ラベルのラベル列を単語列に変換する言語モデルを前記音声認識モデルとして学習する言語モデル学習手段を備える請求項1から請求項3のいずれか一項に記載のエンドツーエンド日本語音声認識モデル学習装置。
  5. コンピュータを、請求項1から請求項4のいずれか一項に記載のエンドツーエンド日本語音声認識モデル学習装置として機能させるためのプログラム。
JP2017139177A 2017-07-18 2017-07-18 エンドツーエンド日本語音声認識モデル学習装置およびプログラム Active JP6941494B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017139177A JP6941494B2 (ja) 2017-07-18 2017-07-18 エンドツーエンド日本語音声認識モデル学習装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017139177A JP6941494B2 (ja) 2017-07-18 2017-07-18 エンドツーエンド日本語音声認識モデル学習装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2019020597A JP2019020597A (ja) 2019-02-07
JP6941494B2 true JP6941494B2 (ja) 2021-09-29

Family

ID=65354482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017139177A Active JP6941494B2 (ja) 2017-07-18 2017-07-18 エンドツーエンド日本語音声認識モデル学習装置およびプログラム

Country Status (1)

Country Link
JP (1) JP6941494B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7234415B2 (ja) * 2019-05-06 2023-03-07 グーグル エルエルシー 音声認識のためのコンテキストバイアス
CN112133292A (zh) * 2019-06-25 2020-12-25 南京航空航天大学 一种针对民航陆空通话领域的端到端的自动语音识别方法
CN111223481B (zh) * 2020-01-09 2023-10-13 腾讯科技(深圳)有限公司 信息提取方法、装置、计算机可读存储介质及电子设备
CN114981885A (zh) * 2020-01-17 2022-08-30 谷歌有限责任公司 用于自动语音识别的字母数字序列偏置
CN113806521A (zh) * 2021-08-03 2021-12-17 武汉众智数字技术有限公司 一种基于对比学习的文本标签挖掘方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3836977A (en) * 1973-06-25 1974-09-17 Hazeltine Corp Antenna system having a reflector with a substantially open construction
JPH0833739B2 (ja) * 1990-09-13 1996-03-29 三菱電機株式会社 パターン表現モデル学習装置

Also Published As

Publication number Publication date
JP2019020597A (ja) 2019-02-07

Similar Documents

Publication Publication Date Title
CN109887497B (zh) 语音识别的建模方法、装置及设备
JP6941494B2 (ja) エンドツーエンド日本語音声認識モデル学習装置およびプログラム
CN113811946B (zh) 数字序列的端到端自动语音识别
JP4769223B2 (ja) テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
Liu et al. Gram-CTC: Automatic unit selection and target decomposition for sequence labelling
US5949961A (en) Word syllabification in speech synthesis system
US7966173B2 (en) System and method for diacritization of text
JP2020505650A (ja) 音声認識システム及び音声認識の方法
CN107705787A (zh) 一种语音识别方法及装置
CN112397056B (zh) 语音评测方法及计算机存储介质
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
JP6718787B2 (ja) 日本語音声認識モデル学習装置及びプログラム
CN114299930A (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
CN117378005A (zh) 用于自动语音识别的多语言重新评分模型
JP4741452B2 (ja) 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
CN115662389A (zh) 多音字语料的标注方法及装置
JP6020093B2 (ja) アルファベット読み推定装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210810

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210906

R150 Certificate of patent or registration of utility model

Ref document number: 6941494

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250