JP6718787B2 - 日本語音声認識モデル学習装置及びプログラム - Google Patents

日本語音声認識モデル学習装置及びプログラム Download PDF

Info

Publication number
JP6718787B2
JP6718787B2 JP2016204175A JP2016204175A JP6718787B2 JP 6718787 B2 JP6718787 B2 JP 6718787B2 JP 2016204175 A JP2016204175 A JP 2016204175A JP 2016204175 A JP2016204175 A JP 2016204175A JP 6718787 B2 JP6718787 B2 JP 6718787B2
Authority
JP
Japan
Prior art keywords
morpheme
list
label
reading
kanji
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016204175A
Other languages
English (en)
Other versions
JP2018066800A (ja
Inventor
伊藤 均
均 伊藤
庄衛 佐藤
庄衛 佐藤
彰夫 小林
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Japan Broadcasting Corp
Priority to JP2016204175A priority Critical patent/JP6718787B2/ja
Publication of JP2018066800A publication Critical patent/JP2018066800A/ja
Application granted granted Critical
Publication of JP6718787B2 publication Critical patent/JP6718787B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、日本語音声認識モデル学習装置及びそのプログラムに関するものである。
従来、音声認識を行うためのモデルの学習には、大別して次の(1)〜(3)のような多くのプロセスが必要であった。
(1)音声を、その音響特徴量をベクトルの成分として持つ特徴ベクトルへ変換する。
(2)この特徴ベクトルを各単語に対して人手で割りつけた音素へ変換するような音響モデルを学習する。
(3)音素列を、意味のある単語へ変換するような言語モデルを学習する。
このうち、従来(2)のプロセスは、入力音声の系列長の変化に強いHMM(Hidden Markov model)が用いられ、近年では、DNN(Deep Neural Network)によって学習を行うことで高精度な音響モデルを生成してきた。
そして、このようなモデル学習の複雑さを解消するための技術として、CTC(Connectionist Temporal Classification)(非特許文献1参照)とDNNとを用いた音響モデル学習法がある。これは、音声と、音素又は文字などのラベルと、の対応付けを直接学習する仕組みであり、入力音声の系列長の変化に強く、事前のHMMによる学習に置き換えて、全ての処理を一括で行う(End−to−End)音響モデルの学習が可能とされている。特に、CTCとRNN(Recurrent Neural Network)とを用いた音響モデル学習法は様々な手法が紹介されており、多量のデータを用いることにより、特徴ベクトルを入力として文字(文字ラベル)を直接出力する学習法も提案されている(非特許文献2、3参照)。
Graves, A., et al., "Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks," ICML '06 Proceedings of the 23rd international conference on Machine learning Pages 369-376 (2006) Miao, Y., et al., " EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING" 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) Pages 167-174 (2015) Hannun, A., et al., " Deep Speech: Scaling up end-to-end speech recognition" Cornell University Library arXiv:1412.5567, 19 Dec 2014
しかし、これら音響モデルを学習するプロセスにおいて、DNNの出力を文字とする先行研究の多くは、英語音声認識を対象としており、日本語を扱う上では幾つかの問題がある。第一に、DNNの出力文字として推測すべき候補の個数が圧倒的に多くなってしまうことが挙げられる。英語を構成する文字は、多くとも100ラベル程度で分類可能である。つまり、推測すべきラベルは、具体的には、アルファベットの文字(letters)、0から9までのアラビア数字(digits)、ピリオド、コンマ、クエスチョンマーク等の句読点(punctuation marks)等である。それに対して、日本語を構成する文字は、平仮名、カタカナ、アルファベット、漢字、句読点等2000以上存在する。つまり、推測すべきラベルが2000以上存在する。
そして第二に、アルファベットは表音文字であるのに対して、漢字が表意文字であるために生じる問題が挙げられる。具体的には、漢字等の表意文字の場合、一つの文字に対して、例えば音読み、訓読みのように複数の読みが存在するために、日本語の文字は英語の文字よりも適用が難しくなる。なお、日本語同様に表意文字を用いる中国語は、漢字の数は日本語よりも多いものの、一つの漢字で複数の読みを有する漢字の数は日本語と比べて圧倒的に少ないので、中国語の文字は日本語の文字ほど適用が難しくなることはない。
また、日本語において、例えば「生」という文字を用いた単語として、「生まれ」、「生い立ち」、「生放送」の3つの単語に着目すると、「生」という文字と、その前後の文字との関係によって「生」という文字の読みが異なることが分かる。更に、ある文字について珍しい読み方をする単語がより多く含まれるような学習データほど、音響モデルの学習をより難しくする。
そもそも、上記した「生まれ」、「生い立ち」、「生放送」といった単語であっても、DNNの出力を音素とする場合には、人手で構築した発音辞書において、単語ごとに音素列を予め定めているため、音声認識が比較的容易である。一方、DNNの出力を文字とする場合、すなわち、音素等の中間表現を用いないエンドツーエンド(End−to−End)の音響モデル学習の場合、DNNの出力を音素とする場合に比べて、音声認識の認識結果(単語)を正しく表示することは難しいのが現状である。
具体的には、DNNの出力として、漢字等の複数読みを有する表意文字(以下、異発音表意文字という)を含むラベルを直接出力する場合、ラベル数が膨大になるため、日本語の音響モデル学習は、英語の音響モデル学習よりも複雑になってしまう。さらに、この膨大なラベル数に加え、各ラベルの読み方が複数存在することにより音声認識率を向上させることが難しかった。
本発明は、以上のような問題点に鑑みてなされたものであり、日本語の音響モデル学習を簡素化することのできる日本語音声認識モデル学習装置及びプログラムを提供することを課題とする。
前記課題を解決するために、本発明に係る日本語音声認識モデル学習装置は、入力される音声又は音響特徴量に対応した正解として推定される文字のラベルを出力するエンドツーエンドの音響モデルを生成する日本語音声認識モデル学習装置であって、日本語の音響モデル作成用の学習データにおける音声又は音響特徴量とテキストとのペア、1文字単位のラベル、及び少なくとも1文字の漢字を含む文字列単位のラベルとを用いる学習により前記音響モデルを生成する音響モデル学習手段と、前記学習データにおけるテキストと、前記1文字単位のラベルと、前記文字列単位のラベルとを用いる学習により、前記1文字単位のラベルと前記文字列単位のラベルとを単語列に変換する言語モデルを生成する言語モデル学習手段と、前記学習データにおけるテキストから、前記1文字単位のラベルと前記文字列単位のラベルを生成するラベル生成手段と、を備え、前記ラベル生成手段が、形態素分割手段と、出現頻度リスト作成手段と、ラベル選定手段と、を備えることとした。
かる構成によれば、日本語音声認識モデル学習装置において、ラベル生成手段は、形態素分割手段によって、前記学習データのテキストを形態素に分割し、そのそれぞれについて読みを付与する。
そして、ラベル生成手段は、出現頻度リスト作成手段によって、少なくとも1文字の漢字を含む文字列からなる形態素について前記学習データ内での出現頻度を表す出現頻度リストを作成する。
そして、ラベル生成手段は、ラベル選定手段によって、前記学習データ内で出現頻度が予め定められた基準より高い前記形態素、又は、前記学習データ内で漢字の特定の読みの出現頻度が予め定められた基準より低い前記形態素を検出し、検出した前記形態素を表す文字列を構成する少なくとも一部の文字列を、前記文字列単位のラベルとして選定する。
また、本発明は、コンピュータを、前記日本語音声認識モデル学習装置として機能させるための日本語音声認識モデル学習プログラムで実現することもできる。
本発明は、以下に示す優れた効果を奏するものである。
本発明に係る日本語音声認識モデル学習装置によれば、1文字単位のラベルと、漢字を含む文字列単位のラベルと、を併用することで、音声とラベルとの対応付けが可能となり、日本語の音響モデル学習を簡素化することができる。
また、読みの多様性に対応するためには多くの学習データが必要であるが、本発明に係る日本語音声認識モデル学習装置によれば、文字列単位のラベルを用いることで、ラベルの読みを一意に確定することができる。そのため、音声認識精度が向上し、特に、少量のデータにおいて音声認識精度を保つ効果を奏する。
本発明の第1実施形態に係る日本語音声認識モデル学習装置を含む音声認識システムを模式的に示すブロック図である。 第1実施形態に係る日本語音声認識モデル学習装置が生成するラベルの概念図であって、(a)は1文字単位のラベル、(b)は追加された文字列単位のラベルをそれぞれ示している。 第1実施形態に係る日本語音声認識モデル学習装置のラベル生成手段の構成を模式的に示すブロック図である。 第1実施形態に係る日本語音声認識モデル学習装置による文字列単位のラベルの生成処理の流れを示すフローチャートである。 第2実施形態に係る日本語音声認識モデル学習装置のラベル生成手段の構成を模式的に示すブロック図である。 第2実施形態に係る日本語音声認識モデル学習装置が生成するラベルの説明図であって、(a)は形態素リストの一例、(b)はラベルの一例をそれぞれ示している。 第2実施形態に係る日本語音声認識モデル学習装置による文字列単位のラベルの生成処理の流れを示すフローチャートである。 第3実施形態に係る日本語音声認識モデル学習装置のラベル生成手段の構成を模式的に示すブロック図である。 第3実施形態に係る日本語音声認識モデル学習装置が生成するラベルの説明図であって、(a)は形態素リストの一例、(b)は単独漢字リストの一例、(c)はラベルの一例をそれぞれ示している。 第3実施形態に係る日本語音声認識モデル学習装置による文字列単位のラベルの生成処理の流れを示すフローチャートである。 学習時の追加ラベル数に関する音声認識実験の結果を示すグラフ(その1)である。 学習時の追加ラベル数に関する音声認識実験の結果を示すグラフ(その2)である。 学習データ量に関する音声認識実験の結果を示すグラフ(その1)である。 学習データ量に関する音声認識実験の結果を示すグラフ(その2)である。
以下、本発明の実施形態に係る日本語音声認識モデル学習装置について、図面を参照しながら説明する。
(第1実施形態)
図1に示す音声認識システムSは、音声認識手段10と、日本語音声認識モデル学習装置2と、を備えている。
[音声認識手段の構成]
音声認識手段10は、入力された音声(評価用音声)を、人が発話した発話区間ごとに音声認識するものである。この音声認識手段10は、認識結果である単語列を図示しない表示装置等に出力する。ここでは、音声認識手段10は、ラベル列生成手段11と、単語列生成手段12と、を備えている。
ラベル列生成手段11は、入力された音声を、特徴量(特徴ベクトル)に変換し、この特徴量を音響モデル記憶手段6に記憶されている音響モデルを用いて、順次、ラベルに変換することでラベル列を生成する。
単語列生成手段12は、言語モデル記憶手段7に記憶されている言語モデルを用いて、ラベル列生成手段11により生成されたラベル列を、順次、単語に変換することで単語列を生成する。
[日本語音声認識モデル学習装置の構成]
日本語音声認識モデル学習装置2は、入力される音声(学習用音声)に対応した正解として推定される文字のラベルを出力するエンドツーエンドの音響モデルを生成する装置である。以下では、日本語の音響モデル作成用の学習データ1を、音声1aとテキスト1bとのペアとして説明する。音声1a及びテキスト1bは、日本語の大量の音声データ及び大量のテキストを表している。例えば、音声1aとして、事前学習用の放送番組の番組音声を用い、テキスト1bとして、その番組音声の内容の厳密な書き起こし、又は、それに準ずるものを用いることができる。
ここでは、日本語音声認識モデル学習装置2は、音響モデル学習手段4と、言語モデル学習手段5と、音響モデル記憶手段6と、言語モデル記憶手段7と、ラベル生成手段20と、を備えている。
音響モデル学習手段4は、日本語の音響モデル作成用の学習データ1における音声1aとテキスト1bとのペア、1文字単位のラベル、及び文字列単位のラベルを用いる学習により、音声認識に用いる音響モデルを生成するものである。文字列単位のラベルとは、音響モデルの出力に用いるラベルであって、少なくとも1文字の漢字を含んでいる。文字列単位のラベルは、複数の文字から構成されるが一まとまりに扱われるラベルである。音響モデル学習手段4は、非特許文献2に記載されたような文字のシーケンスを特定するEnd−to−Endの音響モデルの全てに適用可能なものである。
この音響モデルは、大量の音声データから予め抽出した音響特徴量(メル周波数ケプストラム係数、フィルタバンク出力等)を、設定したラベルごとにディープニューラルネットワーク(Deep Neural Network)とコネクショニスト時系列分類法(CTC:Connectionist Temporal Classification)等によってモデル化したものである。なお、音響モデルによる音響特徴量の尤度計算は、出力が漢字を含む書記素であれば再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)であっても、長・短期記憶(LSTM:Long Short Term Memory)であっても構わない。
言語モデル学習手段5は、学習データ1におけるテキスト1b、1文字単位のラベル、及び文字列単位のラベルを用いる学習により、1文字単位のラベルと文字列単位のラベルとを単語列に変換する言語モデルを生成するものである。この言語モデル学習手段5は、評価用音声を音声認識手段10のラベル列生成手段11に入力して得られた表意文字を含むラベル列を言語モデル学習手段5の入力として、前後の単語の関係から単語列を推定し、推定結果である単語列を出力するものであれば、特に限定されない。この言語モデルは、大量のテキストから予め学習した出力系列(単語等)の出現確率等をモデル化したものである。この言語モデルには、例えば、一般的なNグラム言語モデルを用いることができる。
音響モデル記憶手段6は、音響モデル学習手段4が学習により生成した音響モデルを記憶するもので、ハードディスク等の一般的な記憶媒体である。
言語モデル記憶手段7は、言語モデル学習手段5が学習により生成した言語モデルを記憶するものであって、ハードディスク等の一般的な記憶媒体である。
ラベル生成手段20は、学習データ1におけるテキスト1bから、文字列単位のラベルを生成するものである。ここでは、ラベル生成手段20は、学習データ1におけるテキスト1bから、1文字単位のラベルも生成し、文字列単位のラベルを後から音響モデルの出力に追加することとした。1文字単位のラベルは、図2(a)の概念図に示すように、平仮名、カタカナ、漢字等を含んでいる。図2(b)の概念図は、符号3aで示す文字列単位のラベルが追加された状態を示している。
本実施形態では、ラベル生成手段20は、図3に示すように、形態素分割手段21と、基本ラベル作成手段22と、出現頻度リスト作成手段23と、ラベル選定手段24と、を備えている。
形態素分割手段21は、学習データのテキスト1bを形態素に分割し、そのそれぞれについて読みを付与するものである。なお、形態素分割手段21としては、例えば日本語形態素解析のための一般的なソフトウェア(例えばMeCabやChaSen)を用いることができる。
基本ラベル作成手段22は、学習データ1のテキスト1bに出現するラベルを一文字単位で作成するものである。ラベル生成手段20において生成されたラベル3は、例えば日本語音声認識モデル学習装置2が備える記憶手段8に格納され、音響モデル学習手段4や言語モデル学習手段5により参照される。なお、基本ラベル作成手段22が作成するラベルを、ラベル選定手段24で選定するラベルと区別する場合、1文字単位のラベルと呼称する。
出現頻度リスト作成手段23は、漢字を含む文字列からなる形態素について学習データ1内での出現頻度を表す出現頻度リストJを作成するものである。なお、出現頻度リスト作成手段23としては、例えば日本語形態素解析のための一般的なソフトウェアを用いることができる。
ラベル選定手段24は、漢字を含む文字列からなる形態素についての学習データ1内の出現頻度に基づいて文字列単位のラベルを選定するものである。
本実施形態では、ラベル選定手段24は、学習データ1内で出現頻度が予め定められた基準より高い形態素を検出し、検出した形態素を表す文字列を構成する少なくとも一部の文字列を、文字列単位のラベルとして選定することとした。
このために、ここでは、ラベル生成手段20は、ラベル選定制御手段241と、出現頻度判定手段242と、ラベル決定手段243と、を備えている。
ラベル選定制御手段241は、このラベル選定手段24全体の制御を司り、ここでは、出現頻度リストJから、文字列単位のラベルの候補である形態素の選択を行う。このラベル選定制御手段241は、学習データ1におけるテキスト1bが分割された形態素区間毎に、形態素区間に対応した形態素を選択する。なお、形態素区間の任意の識別番号をj(=1,2,…)と表記する。
出現頻度判定手段242は、出現頻度リストJ内の形態素が、出現頻度リストJの出現頻度の上位k種類の形態素集合l(l∈J)に含まれるか否かを判定するものである。この出現頻度判定手段242は、判定前に、出現頻度リストJから出現頻度の高い予め定められた個数(k個)の異なる形態素からなる形態素集合lを作成する。また、出現頻度判定手段242は、形態素区間jに対応した形態素が形態素集合lに含まれるか否かを形態素区間毎に判定する。
ラベル決定手段243は、形態素集合lに含まれると判定された形態素を表す文字列を、文字列単位のラベルとして決定するものである。すなわち、本実施形態では、学習データ1のテキスト1bから作成された出現頻度リストJにおいて高頻度に出現する漢字の形態素を新たに出力ラベルとして追加する。以下では、この手法を高頻度形態素追加手法と呼称する。
[文字列単位のラベルの生成処理の流れ]
第1実施形態に係る日本語音声認識モデル学習装置2による文字列単位のラベルの生成処理の流れについて図4を参照して説明する。
まず、日本語音声認識モデル学習装置2のラベル生成手段20は、形態素分割手段21によって、学習データ1のテキスト1bを形態素に分割する(ステップS101)。
そして、ラベル生成手段20は、出現頻度リスト作成手段23によって、テキスト1b内での出現頻度を求め、形態素ごとの重複のないような出現頻度リストJを求める(ステップS102)。
上記の前処理に続いて、ラベル生成手段20は、ラベル選定手段24のラベル選定制御手段241によって、形態素区間の初期値(j=1)を設定し(ステップS103)、j番目の形態素を選択する(ステップS104)。そして、ラベル選定手段24の出現頻度判定手段242は、選択されたj番目の形態素が出現頻度の上位に含まれるか否かを判定する(ステップS105)。選択されたj番目の形態素が出現頻度の上位に含まれる場合(ステップS105:Yes)、ラベル選定手段24のラベル決定手段243は、j番目の形態素を文字列単位のラベルjaddとして追加する(ステップS106)。
一方、選択されたj番目の形態素が出現頻度の上位に含まれない場合(ステップS105:No)、ステップS106をスキップして、ラベル選定制御手段241は、全形態素区間を選択したか否かを判定する(ステップS107)。未選択の形態素区間がある場合(ステップS107:No)、ラベル選定制御手段241は、形態素区間の値(j)に「1」を加算し(ステップS108)、ステップS104に戻る。一方、全形態素区間を選択した場合(ステップS107:Yes)、ラベル生成手段20は処理を終了する。
本実施形態によれば、1文字単位のラベルに加えて、漢字を含む文字列単位のラベルを用いることで、読みの多様性により1文字単位のラベルだけでは上手く分離出来なかった、音声とラベルとの対応付けが可能となり、日本語の音響モデル学習を簡素化することができる。また、文字列単位のラベルを用いることで、ラベルの読みを一意に確定することができるため、音声認識精度が向上し、特に、少量のデータにおいて音声認識精度を保つ効果を奏する。
本発明においてラベル追加手法は、高頻度形態素追加手法に限るものではなく、学習データ1のテキスト1b中で頻度の低い読み方をする文字を含む形態素を出力ラベルとして追加することも可能である。以下では、この手法を低頻度読み形態素追加手法と呼称する。低頻度読み形態素追加手法の1つとして、形態素の頭文字の読みのうち、最初の一字のみに着目する手法について第2実施形態として説明する。
(第2実施形態)
図5は、第2実施形態に係る日本語音声認識モデル学習装置のラベル生成手段の構成を模式的に示すブロック図である。なお、第2実施形態に係る日本語音声認識モデル学習装置は、ラベル生成手段20Aの構成が第1実施形態とは異なるので、その全体構成の図面を省略する。また、図5に示すラベル生成手段20Aにおいて、図3に示すラベル生成手段20と同一の構成には同一の符号を付して説明を適宜省略する。
ラベル生成手段20Aは、図5に示すように、形態素分割手段21と、基本ラベル作成手段22と、出現頻度リスト作成手段23と、出現漢字リスト作成手段25と、形態素リスト作成手段26と、読みリスト作成手段27と、ラベル選定手段24Aと、を備えている。
出現漢字リスト作成手段25は、出現頻度リストJの中に含まれる形態素のうち、漢字について1文字単位で重複のないリストである出現漢字リストSを作成するものである。
形態素リスト作成手段26は、出現漢字リストSに基づいて、注目する漢字s毎に、当該漢字sを先頭の文字に含む形態素のリストである形態素リストHsを作成するものである。
なお、出現漢字リスト作成手段25や形態素リスト作成手段26としては、例えば日本語形態素解析のための一般的なソフトウェアを用いることができる。
例えば、注目する漢字sが「生」の場合に、形態素リスト作成手段26が作成する形態素リストHsの一例を図6(a)に示す。
読みリスト作成手段27は、注目する漢字sを先頭の文字に含む形態素リストHsに出現する形態素hs毎(形態素リストHs内の形態素区間hs毎)に、形態素hsを、当該形態素hs全体の読みにおける頭文字の読みhr s毎に設けた読みリストLr s,hのいずれかへ格納するものである。なお、形態素hs全体の読み(単語レベルの読み)は形態素分割手段21で付与されている。
図6(a)に示す例では、上から4個目までの形態素では、全体の読みにおける頭文字の読みは「せ」であり、上から5個目の形態素では、全体の読みにおける頭文字の読みは「し」であり、上から6個目の形態素では、全体の読みにおける頭文字の読みは「き」である。
よって、この場合、読みリスト作成手段27は、「生物」、「生徒」、「生活」、「生息」の読みにおける頭文字の読みである「せ」に対応した読みリストLr s,hへ格納する。
また、読みリスト作成手段27は、「生涯」を、読み「しょうがい」における頭文字の読みである「し」に対応した読みリストLr s,hへ格納する。
さらに、読みリスト作成手段27は、「生糸」を、読み「きいと」における頭文字の読みである「き」に対応した読みリストLr s,hへ格納する。
ラベル選定手段24Aは、ラベル選定制御手段241と、閾値判定手段244と、ラベル決定手段243Aと、を備えている。
閾値判定手段244は、hr s毎に設けた読みリストLr s,hごとに、読みリストLr s,hに格納されている形態素の個数Lr,c s,hを、形態素リストHsに格納されている全形態素hsの個数Nums,hで除した値を所定の閾値nと比較するものである。この閾値判定手段244は、次の式(1)を満たすか否かを読み毎にそれぞれ判定する。
Figure 0006718787
具体的には、図6(a)に示す例では、漢字「生」における頭文字の読みである「せ」に対応した読みリストLr s,hに格納されている形態素の個数Lr,c s,hは「3」である。
また、漢字「生」における頭文字の読みである「し」に対応した読みリストLr s,hに格納されている形態素の個数Lr,c s,hは「1」である。
また、漢字「生」における頭文字の読みである「き」に対応した読みリストLr s,hに格納されている形態素の個数Lr,c s,hは「1」である。
さらに、注目する漢字sが「生」の場合に形態素リストHsに格納されている全形態素hsの個数Nums,hは「6」である。
ここで、所定の閾値nが例えば0.2である場合についての判定結果を説明する。
漢字「生」における頭文字の読みである「せ」に対応した読みリストLr s,hに関しては3/6>0.2であるので、閾値nより大きいと判定する。
漢字「生」における頭文字の読みである「し」に対応した読みリストLr s,hに関しては1/6<0.2であるので、閾値nより小さいと判定する。
漢字「生」における頭文字の読みである「き」に対応した読みリストLr s,hに関しては1/6<0.2であるので、閾値nより小さいと判定する。
ラベル決定手段243Aは、閾値nより小さいと判定された読みリストLr s,hに格納されている形態素hsを表す文字列を、文字列単位のラベルとして決定するものである。
具体的には、図6(a)に示す例では、漢字「生」における頭文字の読み「し」が閾値nによって珍しいと判定されたので、漢字「生」における頭文字の読み「し」に対応した読みリストLr s,hに格納されている形態素である「生涯」が、追加すべき文字列単位のラベル(図6(b)の符号3b)として決定される。
同様に、漢字「生」における頭文字の読み「き」も珍しいので、漢字「生」における頭文字の読み「き」に対応した読みリストLr s,hに格納されている形態素である「生糸」が、追加ラベル(図6(b)の符号3b)として決定される。
[文字列単位のラベルの生成処理の流れ]
第2実施形態に係る日本語音声認識モデル学習装置2による文字列単位のラベルの生成処理の流れについて図7を参照して説明する。なお、図7に示すステップS101,S102の処理は、図4に示す処理と同一の処理なので、説明を省略する。
ステップS102に続いて、ラベル生成手段20Aは、出現漢字リスト作成手段25によって、出現頻度リストJの中に含まれる漢字について、1文字単位で重複のない出現漢字リストSを作成する(ステップS203)。そして、ラベル選定手段24Aのラベル選定制御手段241は、漢字区間の初期値(s=1)を設定し(ステップS204)、出現漢字リストSからs番目の漢字を選択する(ステップS205)。そして、ラベル生成手段20Aは、形態素リスト作成手段26によって、s番目の漢字を、漢字文字列の頭文字に持つ形態素からなる形態素リストHsを作成する(ステップS206)。
上記の前処理に続いて、ラベル生成手段20Aは、ラベル選定手段24Aのラベル選定制御手段241によって、形態素区間の初期値(hs=1)を設定し(ステップS207)、形態素リストHsからhs番目の形態素を選択する(ステップS208)。続いて、ラベル生成手段20Aは、読みリスト作成手段27によって、当該形態素hs全体の読みにおける頭文字の読みhr sに応じて分類された読みリストLr s,hに、hs番目の形態素を格納する(ステップS209)。
そして、ラベル選定手段24Aのラベル選定制御手段241は、全形態素区間を選択したか否かを判定する(ステップS210)。未選択の形態素区間がある場合(ステップS210:No)、ラベル選定制御手段241は、形態素区間の値(hs)に「1」を加算し(ステップS211)、ステップS208に戻る。
一方、全形態素区間を選択した場合(ステップS210:Yes)、ラベル生成手段20Aは、閾値判定手段244によって、s番目の漢字の読みにおける頭文字の読み、すなわちs番目の漢字を語頭にもつ形態素hs全体の読みにおける頭文字の読みhr sごとに分類された読みリストLr s,h内の形態素の数Lr,c s,hを数え上げ、前記した式(1)を満たすか否かを読み毎にそれぞれ判定する(ステップS212)。読みリストLr s,hが前記した式(1)を満たす場合(ステップS212:Yes)、ラベル選定手段24Aのラベル決定手段243Aは、当該読みリストLr s,h中の形態素を文字列単位のラベルjaddとして追加する(ステップS213)。
一方、読みリストLr s,hが前記した式(1)を満たない場合(ステップS212:No)、ステップS213をスキップして、ラベル選定制御手段241は、全漢字区間を選択したか否かを判定する(ステップS214)。未選択の漢字区間がある場合(ステップS214:No)、ラベル選定制御手段241は、漢字区間の値(s)に「1」を加算し(ステップS215)、ステップS205に戻る。一方、全漢字区間を選択した場合(ステップS214:Yes)、ラベル決定手段243Aは、文字列単位のラベルjaddに重複がないように整理して音響モデルの出力ラベルに追加し(ステップS216)、処理を終了する。
本実施形態によれば、第1実施形態と同様に、日本語の音響モデル学習を簡素化することができる。また、音声認識精度が向上し、特に、少量のデータにおいて音声認識精度を保つ効果を奏する。
本発明において、ラベル追加手法としての低頻度読み形態素追加手法は、形態素の頭文字の読みのみに着目する手法に限るものではない。以下では、形態素を構成する全ての文字の読みに着目する手法について第3実施形態として説明する。
(第3実施形態)
図8は、第3実施形態に係る日本語音声認識モデル学習装置のラベル生成手段の構成を模式的に示すブロック図である。なお、第3実施形態に係る日本語音声認識モデル学習装置は、ラベル生成手段20Bの構成が第1実施形態とは異なるので、その全体構成の図面を省略する。また、図8に示すラベル生成手段20Bにおいて、図5に示すラベル生成手段20Aと同一の構成には同一の符号を付して説明を適宜省略する。
ラベル生成手段20Bは、図8に示すように、形態素分割手段21と、基本ラベル作成手段22と、出現頻度リスト作成手段23と、出現漢字リスト作成手段25と、形態素リスト作成手段26Bと、編集距離算出手段28と、読み区切り推定手段29と、読みリスト作成手段27Bと、ラベル選定手段24Bと、を備えている。
形態素リスト作成手段26Bは、出現漢字リストSに基づいて、注目する漢字s毎に、当該漢字sを含む形態素のリストである形態素リストJsを作成すると共に、注目する漢字s毎の形態素リストJsに出現する各形態素js(形態素リストJs内の各形態素区間js)に含まれる全ての漢字の一文字単独での全ての読みji xのリストである単独漢字リストを作成するものである。
例えば、注目する漢字sが「生」の場合に、形態素リスト作成手段26Bが作成する形態素リストJsの一例を図9(a)に示す。注目する漢字である「生」は、必ずしも先頭の文字である必要はない。
また、図9(b)に示す単独漢字リストの例は、図9(a)に示す漢字「生」を含む形態素リストJsに出現する漢字xについて、それぞれの漢字xの一文字単独での全ての読みji xを付与して作成したものである。
編集距離算出手段28は、注目する漢字s毎の形態素リストJsに出現する形態素js毎に、単独漢字リストを参照して、形態素jsを構成する各漢字に単独の読みを付与したときに対応付けられる全ての組み合わせを、形態素分割手段21で付与された形態素js全体の読みjr sと比較して編集距離Dxを算出するものである。
ここで、各漢字の組み合わせの読みと、形態素全体の読みとの編集距離Dxは、一方の読みから、挿入、削除、置換といった操作を行なうことによって、他方の読みに編集する際に、必要とされる操作の最小回数である。編集距離算出手段28は、これら削除・挿入・置換誤り文字数を求めることで編集距離Dxを算出する。
読み区切り推定手段29は、編集距離Dxが最小となる漢字の組み合わせji s,xを求め、当該形態素jsにおいて注目する漢字sの単独の読みの区切りjr s,sを推定するものである。
図9(a)に示す「生物」の全体の読みjr sは、形態素分割手段21で「せいぶつ」のように付与されている。しかしながら、形態素分割手段21は、単語レベルの読みを付与するものであって、シンボル「生物」において、シンボル「生」の読みが、「せ」なのか、「せい」なのかということについては、情報が無い。そこで、読み区切り推定手段29は、上記した合計8個の組み合わせについてのそれぞれの編集距離Dxに基づいて、シンボル「生物」においてシンボル「生」の読みが「せい」である確率が高いことを判定し、シンボル「生物」において、注目する漢字sである「生」の単独の読みの区切りjr s,sを推定する。
なお、図9(a)に示す「生物」を一例とすると、「生」及び「物」に、単独の読みをそれぞれ付与したときに対応付けられる全ての組み合わせji s,xとは、図9(b)に示す読みを組み合わせることで得られる。具体的には、「せい−もの」、「せい−ぶつ」、「しょう−もの」、「しょう−ぶつ」、「き−もの」、「き−ぶつ」、「なま−もの」、「なま−ぶつ」の合計8個の組み合わせである。
読みリスト作成手段27Bは、単独漢字リストを参照して、形態素jsにおいて注目する漢字sに対して推定された読みの区切りjr s,sが、注目する漢字sの一文字単独での全ての読みji xのいずれであるのかを判定し、判定された読みに応じて、形態素jsを注目する漢字sの読みji sごとに分類した読みリストLr sへ格納するものである。
図9(a)に示す例では、上から4個目までの「生」の読みは「せい」であり、上から5個目の「生」の読みは「しょう」であり、上から6個目の「生」の読みは「じょう」である。
よって、この場合、読みリスト作成手段27Bは、「生物」、「生徒」、「半生」、「人生」を、漢字「生」の読み「せい」に対応した読みリストLr sへ格納する。
また、読みリスト作成手段27Bは、「生涯」を、漢字「生」の読み「しょう」に対応した読みリストLr sへ格納する。
さらに、読みリスト作成手段27Bは、「誕生」を、漢字「生」の読み「じょう」に対応した読みリストLr sへ格納する。
ラベル選定手段24Bは、ラベル選定制御手段241と、閾値判定手段244Bと、ラベル決定手段243Bと、を備えている。
閾値判定手段244Bは、注目する漢字sの読みji sごとに分類した読みリストLr sごとに、読みリストLr sに格納されている全形態素jsの個数Lr,c sを、注目する漢字s毎の形態素リストJsに格納されている全形態素jsの個数Numsで除した値を所定の閾値n′と比較するものである。この閾値判定手段244Bは、次の式(2)を満たすか否かを読み毎にそれぞれ判定する。
Figure 0006718787
具体的には、図9(a)に示す例では、漢字「生」の読み「せい」に対応した読みリストLr sに格納されている形態素の個数Lr,c sは「3」である。
また、漢字「生」の読み「しょう」に対応した読みリストLr sに格納されている形態素の個数Lr,c sは「1」である。
また、漢字「生」の読み「じょう」に対応した読みリストLr sに格納されている形態素の個数Lr,c sは「1」である。
さらに、注目する漢字sが「生」の場合に形態素リストJsに格納されている全形態素jsの個数Numsは「6」である。
ここで、所定の閾値n′が例えば0.2である場合についての判定結果を説明する。
漢字「生」の読み「せい」に対応した読みリストLr sに関しては3/6>0.2であるので、閾値n′より大きいと判定する。
漢字「生」の読み「しょう」に対応した読みリストLr sに関しては1/6<0.2であるので、閾値n′より小さいと判定する。
漢字「生」の読み「じょう」に対応した読みリストLr sに関しては1/6<0.2であるので、閾値n′より小さいと判定する。
ラベル決定手段243Bは、閾値n′より小さいと判定された読みリストLr sに格納されている形態素jsを表す文字列を、文字列単位のラベルとして決定するものである。
具体的には、図9(a)に示す例では、漢字「生」の読み「しょう」が閾値n′によって珍しいと判定されたので、漢字「生」の読み「しょう」に対応した読みリストLr sに格納されている形態素である「生涯」が、追加すべき文字列単位のラベル(図9(c)の符号3c)として決定される。
同様に、漢字「生」の読み「じょう」も珍しいので、漢字「生」の読み「じょう」に対応した読みリストLr sに格納されている形態素である「誕生」が、追加ラベル(図9(c)の符号3c)として決定される。
[文字列単位のラベルの生成処理の流れ]
第3実施形態に係る日本語音声認識モデル学習装置2による文字列単位のラベルの生成処理の流れについて図10を参照して説明する。なお、図10に示すステップS101,S102の処理は、図4に示す処理と同一の処理であり、ステップS203〜S205の処理は、図7に示す処理と同一の処理なので、説明を省略する。
ステップS205に続いて、ラベル生成手段20Bは、形態素リスト作成手段26Bによって、s番目の漢字を含む形態素からなる形態素リストJsを作成する(ステップS306)。
上記の前処理に続いて、ラベル生成手段20Bは、ラベル選定手段24Bのラベル選定制御手段241によって、形態素区間の初期値(js=1)を設定し(ステップS307)、形態素リストJsからjs番目の形態素を選択する(ステップS308)。続いて、ラベル生成手段20Bは、編集距離算出手段28及び読み区切り推定手段29によって、js番目の形態素に含まれているs番目の漢字の読みを推定し、読みリスト作成手段27Bによって、s番目の漢字の読みのバリエーションrごとに分類された読みリストLr sに、このjs番目の形態素を格納する(ステップS309)。
そして、ラベル選定手段24Bのラベル選定制御手段241は、全形態素区間を選択したか否かを判定する(ステップS310)。未選択の形態素区間がある場合(ステップS310:No)、ラベル選定制御手段241は、形態素区間の値(js)に「1」を加算し(ステップS311)、ステップS308に戻る。
一方、全形態素区間を選択した場合(ステップS310:Yes)、ラベル生成手段20Bは、閾値判定手段244Bによって、s番目の漢字の読みrごとに分類された読みリストLr sに格納されている形態素の数Lr,c sを数え上げ、前記した式(2)を満たすか否かを読み毎にそれぞれ判定する(ステップS312)。読みリストLr sが前記した式(2)を満たす場合(ステップS312:Yes)、ラベル選定手段24Bのラベル決定手段243Bは、当該読みリストLr s中の形態素を文字列単位のラベルjaddとして追加する(ステップS313)。
一方、読みリストLr sが前記した式(2)を満たない場合(ステップS312:No)、ステップS313をスキップして、ラベル選定制御手段241は、全漢字区間を選択したか否かを判定する(ステップS314)。未選択の漢字区間がある場合(ステップS314:No)、ラベル選定制御手段241は、漢字区間の値(s)に「1」を加算し(ステップS315)、ステップS205に戻る。一方、全漢字区間を選択した場合(ステップS314:Yes)、ラベル決定手段243Bは、文字列単位のラベルjaddに重複がないように整理して音響モデルの出力ラベルに追加し(ステップS316)、処理を終了する。
本実施形態によれば、第1及び第2実施形態と同様に、日本語の音響モデル学習を簡素化することができる。また、音声認識精度が向上し、特に、少量のデータにおいて音声認識精度を保つ効果を奏する。
以上、本発明の各実施形態について説明したが、本発明はこれらに限定されるものではなく、その趣旨を変えない範囲で実施することができる。例えば、図2(b)、図6(b)及び図9(c)には、2文字からなる文字列でラベルを例示したが、文字列単位のラベルは3文字以上であってもよい。
また、ラベル候補が3文字以上の形態素である場合には、ラベル決定手段243が決定するラベルは、その形態素を表す文字列全体であってもよいし、その一部であってもよい。例えば先頭から所定文字数p(例えば2文字)の文字列を、文字列単位のラベルとすると、先頭部分が共通する複数の単語(形態素)についてp個の文字を共通の読みとすることで、これら複数の単語について、より少ないラベル数でより多くの単語についての読みを追加することができる。
また、出現頻度リストJを作成する際に、学習データ1中の全ての形態素を対象としたリストを作成するのではなく、出現頻度が予め定められた閾値N以下の形態素については、リストアップしないようにしてもよい。
その際に、第1実施形態のように高頻度形態素だけを追加ラベルとする場合には、閾値Nを例えば150として、学習データ中で151回以上出現するような形態素を対象とした出現頻度リストを作成することで、高出現頻度のラベル候補を予め絞ることができる。
また、第2及び第3実施形態のように読みの珍しい形態素だけを追加ラベルとする場合には、閾値Nを例えば15として、学習データ中で16回以上出現するような形態素を対象とした出現頻度リストを作成することで、1回や2回しか出現しないような極めて希少な多くのラベルを追加する煩雑さを解消し、実用的に必要なラベル候補となるように予めフィルタリングすることができる。
また、音響モデル学習手段4や音声認識手段10には、音声を入力し、内部で特徴量に変換するのとして説明したが、音声を変換した音響特徴量を入力として用いてもよい。
また、漢字の読みは、音読み、訓読みだけでもよいし、常用漢字表外の読みを追加してもよいし、人名の読みを追加してもよい。
また、文字列単位のラベル候補の形態素には、二十歳(はたち)等の熟字訓を採用してもよい。
また、前記各実施形態では、日本語音声認識モデル学習装置として説明したが、各装置の構成の処理を可能にするように、汎用又は特殊なコンピュータ言語で記述した日本語音声認識モデル学習プログラムとみなすことも可能である。
さらに、第1から第3実施形態のうちの少なくとも2つを組み合わせてもよい。
本発明に係る日本語音声認識モデル学習装置の性能を確かめるために、以下の2つの観点で音声認識実験を行った。
[1.学習時の追加ラベル数に関する音声認識実験]
まず、第1の観点として、第1実施形態に係る日本語音声認識モデル学習装置について、学習時に、1文字単位のラベルに対して追加する文字列単位のラベルの個数を変えた上で学習により生成した音響モデル及び言語モデルを用いて音声認識したときの単語誤り率をそれぞれ求めた。また、第2実施形態に係る日本語音声認識モデル学習装置についても同様の実験を行った。
<学習手法>
日本語でのエンドツーエンド音声認識に関する先行研究はほとんど報告されていない。そこで、非特許文献2に記載された手法、すなわち、英語でのend−to−end音声認識においてBi-directional LSTM(双方向長・短期記憶)とCTCとを用いる学習手法に倣って、日本語における音声認識実験を行った。なお、この手法自体は、1文字単位のラベルとして、音素の出力と文字の出力とがそれぞれ可能であるが、実験では、文字を出力するものを選択した。
<実験条件>
実験では、生放送番組への字幕付与を想定したため、評価用データとして、NHK(登録商標)の情報番組「ひるまえほっと」の2013年6月放送分の番組音声(32k単語)を対象に音声認識実験を行った。
情報番組では話題が多様である上に話し言葉を含んで話されるため、一定の音声認識率を確保するためには現状では多量の学習データを必要とする。そこで、一例として、学習データには、下記の参考文献1に記載された基準で字幕を書き起こしとしてみなしてよいと判断された、放送音声と字幕のペアから成る1404時間分のデータを、学習データ1の音声1aとテキスト1bのペアとして利用した。
(参考文献1)「奥貴裕、尾上和穂、一木麻乃、佐藤庄衛、小林彰夫、“教師ラベルの精度推定に基づく音声言語コーパスの自動構築”、2015年秋季日本音響学会研究発表会講演論文集日本音響学会講演論文集、1-Q-1, pp.67-68」
特徴量としては40次元のフィルタバンク特徴を用い、5層のBi-directional LSTM構造で文字を直接出力した。
言語モデルについては、比較のために2つ用意した。
1つは、音響モデルの学習に用いた1404時間分のデータを構成する字幕のテキスト(テキスト1b)から学習したものであり、以下では、s_LMと表記する。
もう1つは、その学習後に、更に多量のコーパスから学習した4gram言語モデルであり、以下では、l_LMと表記する。s_LMとl_LMとを独立に用いて音声認識実験を行った。
形態素分割手段21に形態素解析エンジンであるMeCabを用いた。すなわち、形態素自体の読みをMeCabで取得した。なお、MeCabについては、次の参考文献2に詳述されている。
(参考文献2)「T. Kudo, K. Yamamoto, Y. Matsumoto, “Applying Conditional Random Fields to Japanese Morphological Analysis”, Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP-2004), pp.230-237, 2004」
基本ラベル作成手段22が学習データ1のテキスト1bから作成する1文字単位のラベルは、音素を含まず、平仮名、カタカナ、漢字、0から9までの算数字、記号、雑音、及び空白(ブランク)を加えた2934種のラベルから構成される。
<実験方法>
第1実施形態で説明した高頻度形態素追加手法については、漢字のみの形態素において、追加する文字列単位のラベルの種類であるk、すなわち、出現頻度リストJの出現頻度の上位k種類を、500種(No.1)、800種(No.2)、1000種(No.3)のように変えた場合に、音響モデル及び言語モデルの学習をそれぞれ行った。その後、前記した評価用データを対象に音声認識実験を行った。
第2実施形態で説明した低頻度読み形態素追加手法については、漢字のみの形態素において、追加する文字列単位のラベルの個数を、調整の結果、325種(No.4)、501種(No.5)、801種(No.6)のように変えた場合に、音響モデル及び言語モデルの学習をそれぞれ行った。その後、前記した評価用データを対象に音声認識実験を行った。
ここで、調整とは、低頻度読み形態素追加手法については、前記した式(1)における所定の閾値nの値や、必要なラベル候補となるように予めフィルタリングするための閾値Nの値等によって追加ラベル数が変わることから閾値n、Nの調整を行ったことを意味する。具体的には、No.4〜No.6については、必要なラベル候補となるように予めフィルタリングするための閾値Nを9として、出現頻度が9以下の形態素については、リストアップしないようにして、学習データ内で10回以上登場した、漢字を含む形態素を対象とした出現頻度リストJを作成した。
No.4では、追加ラベル数がおよそ300となるように、前記した式(1)における閾値を、n=0.12としてラベルを選定した結果、追加ラベルが325種となった。
No.5では、追加ラベル数がおよそ500となるように、前記した式(1)における閾値を、n=0.16としてラベルを選定した結果、追加ラベルが501種となった。
No.6では、追加ラベル数がおよそ800となるように、前記した式(1)における閾値を、n=0.22としてラベルを選定した結果、追加ラベルが801種となった。
以下では、No.1〜No.6について、言語モデルs_LMを用いた場合をNo.1S〜No.6Sと表記し、一方、言語モデルl_LMを用いた場合をNo.1L〜No.6Lと表記する。
No.1S〜No.6Sを以下の表1及び図11に示し、No.1L〜No.6Lを以下の表2及び図12に示す。図11及び図12において、グラフの横軸は、追加したラベル数を示し、縦軸は、音声認識の単語誤り率(WER:Word Error Rate)を示している。
Figure 0006718787
Figure 0006718787
各音声認識実験結果が示すように、いずれの言語モデル(s_LM、l_LM)を用いた場合でも、全体的には、学習時に低頻度読み形態素追加手法を用いた場合の方が、高頻度形態素追加手法を用いた場合よりもWERの数値が低く、音声認識の単語誤り率に関する性能が良い傾向にあった。さらに、1文字単位のラベルに対して追加する文字列単位のラベル数についても、低低頻度読み形態素追加手法の方が、高頻度形態素追加手法よりも追加する数が少なくても済む傾向にあった。そのため、低頻度読み形態素追加手法の方がより効率的なラベル追加手法であることが分かった。
[2.学習データ量に関する音声認識実験]
次に、第2の観点として、第1実施形態に係る日本語音声認識モデル学習装置について、学習データ量を変えた上で学習により生成した音響モデル及び言語モデルを用いて音声認識したときの単語誤り率をそれぞれ求めた。また、第2実施形態に係る日本語音声認識モデル学習装置についても同様の実験を行った。さらに、比較として、1文字単位のラベルだけを用いる日本語音声認識モデル学習装置(以下、基本ラベル手法又はbaseという)についても同様の実験を行った。
以下では、前記した第1の観点の実験(追加ラベル数に関する実験)と異なる点について説明する。この実験では、学習データには、放送音声と字幕のペアから成る1404時間分のデータの他に、より時間数の少ない複数種類の学習データを準備した。
<実験方法>
第1実施形態で説明した高頻度形態素追加手法については、追加する文字列単位のラベルの個数を500種(No.1と同様)に固定した上で、学習データの時間数を、394時間(No.7)、971時間(No.8)、1023時間(No.9)、1404時間(No.10)のように変えた場合に、音響モデル及び言語モデルの学習をそれぞれ行った。その後、前記した評価用データを対象に音声認識実験を行った。なお、No.10の実験は、前記したNo.1の実験と等価である。
第2実施形態で説明した低頻度読み形態素追加手法については、追加する文字列単位のラベルの個数を325種(No.4と同様)に固定した上で、学習データの時間数を、394時間(No.11)、971時間(No.12)、1023時間(No.13)、1404時間(No.14)のように変えた場合に、音響モデル及び言語モデルの学習をそれぞれ行った。その後、前記した評価用データを対象に音声認識実験を行った。なお、No.14の実験は、前記したNo.4の実験と等価である。
比較するための基本ラベル手法(base)については、1文字単位のラベルだけを用いて、学習データの時間数を、394時間(No.21)、971時間(No.22)、1023時間(No.23)、1404時間(No.24)のように変えた場合に、音響モデル及び言語モデルの学習をそれぞれ行った。その後、前記した評価用データを対象に音声認識実験を行った。
以下では、No.7〜No.14及びNo.21〜No.24について、言語モデルs_LMを用いた場合をNo.7S〜No.14S及びNo.21S〜No.24Sと表記し、一方、言語モデルl_LMを用いた場合をNo.7L〜No.14L及びNo.21L〜No.24Lと表記する。
No.7S〜No.14S及びNo.21S〜No.24Sを以下の表3及び図13に示し、No.7L〜No.14L及びNo.21L〜No.24Lを以下の表4及び図14に示す。
図13及び図14において、グラフの横軸は、学習データ量を時間単位で示し、縦軸は、音声認識の単語誤り率(WER)を示している。
Figure 0006718787
Figure 0006718787
図13及び図14に示すように、いずれの言語モデル(s_LM、l_LM)を用いた場合でも、971時間のデータ量の際、学習時に高頻度形態素追加手法及び低頻度読み形態素追加手法を用いた場合の方が、基本ラベル手法(base)を用いた場合よりもWERの数値が際立って低く、音声認識の単語誤り率に関する性能が大きく優っていることが分かる。すなわち、表3に記載のNo.8S及びNo.12SはNo.22SよりもWERの数値が際立って低く、表4に記載のNo.8L及びNo.12LはNo.22LよりもWERの数値が際立って低い。
以下、表3に記載のNo.8S、No.12S、No.22Sを、実施例1、実施例2、比較例1という。
また、表4に記載のNo.8L、No.12L、No.22Lを、実施例3、実施例4、比較例2という。
また、図13及び図14に示すように、いずれの言語モデル(s_LM、l_LM)を用いた場合でも、高頻度形態素追加手法及び低頻度読み形態素追加手法を用いたときには、学習データが971時間のデータ量のWERは、1404時間のデータ量のWERと大差ない結果となった。つまり、学習データが971時間(実施例1〜実施例4)であっても、1404時間まで増やした場合の認識誤り率と大差ない結果を得ることができることが分かった。これは、基本ラベル手法(比較例1、比較例2)では、1つのラベルで複数の特徴を学習するために多くのデータが必要だったのに対して、高頻度形態素追加手法及び低頻度読み形態素追加手法では、1つのラベルで学習すべき特徴の種類が減ったために必要なデータが少なく済んでいると推測できる。
漢字の読みのバリエーションを学習するためにはデータ量が必要であるが、学習データのデータ量が十分ではないときにも、高頻度形態素追加手法及び低頻度読み形態素追加手法を用いると、基本ラベル手法(base)と同等の性能が得られることが分かった。
また、特に低頻度読み形態素追加手法については全体を通して学習の収束が早いことが分った。収束までの時間差の最も大きかった場合で比べると、基本ラベル手法(base)のNo.23Lでは、収束までに14エポック必要だったのに対し、低頻度読み形態素追加手法のNo.13Lでは、収束まで10エポックで済んだ。つまり、No.13Lは、No.23Lと比べて、30%にあたる4エポック、実験日数にして約8日間収束が早かった。ここで、エポックは、対象とする全ての学習データについての1回分の処理を終えるまでの処理単位である。
なお、学習データが1023時間以上のデータ量の場合、基本ラベル手法(base)の方が、認識誤り率が良い結果となった。本実験では、前記した参考文献1に記載された基準で自動生成した学習データを用いており、学習データの品質が均一でないため、実験条件によって、認識精度にぶれがあることが前提である。しかし、認識率に、このような差が生じたのは次の2つの理由が考えられる。第一に、学習データが増加した際に、読みのバリエーションの学習が可能となったことが推測される。そして第二に、読みの種類としての珍しさの基準のみから追加するラベルを選定していたことが推測される。10回以上登場している形態素という条件を設けてラベルを選定したものの、読みの種類ごとの登場回数を考慮するとより一層学習データ内の分類が可能となると考えられる。
S 音声認識システム
1 学習データ
1a 音声
1b テキスト
2 日本語音声認識モデル学習装置
4 音響モデル学習手段
5 言語モデル学習手段
20,20A,20B ラベル生成手段
21 形態素分割手段
22 基本ラベル作成手段
23 出現頻度リスト作成手段
24,24A,24B ラベル選定手段
241 ラベル選定制御手段
242 出現頻度判定手段
243,243A,243B ラベル決定手段
244,244B 閾値判定手段
25 出現漢字リスト作成手段
26,26B 形態素リスト作成手段
27,27B 読みリスト作成手段
28 編集距離算出手段
29 読み区切り推定手段

Claims (5)

  1. 入力される音声又は音響特徴量に対応した正解として推定される文字のラベルを出力するエンドツーエンドの音響モデルを生成する日本語音声認識モデル学習装置であって、
    日本語の音響モデル作成用の学習データにおける音声又は音響特徴量とテキストとのペア、1文字単位のラベル、及び少なくとも1文字の漢字を含む文字列単位のラベルを用いる学習により前記音響モデルを生成する音響モデル学習手段と、
    前記学習データにおけるテキスト、前記1文字単位のラベル、及び前記文字列単位のラベルを用いる学習により、前記1文字単位のラベルと前記文字列単位のラベルとを単語列に変換する言語モデルを生成する言語モデル学習手段と、
    前記学習データにおけるテキストから、前記文字列単位のラベルを生成するラベル生成手段と、を備え、
    前記ラベル生成手段は、
    前記学習データのテキストを形態素に分割し、そのそれぞれについて読みを付与する形態素分割手段と、
    少なくとも1文字の漢字を含む文字列からなる形態素について前記学習データ内での出現頻度を表す出現頻度リストを作成する出現頻度リスト作成手段と、
    前記学習データ内で出現頻度が予め定められた基準より高い前記形態素、又は、前記学習データ内で漢字の特定の読みの出現頻度が予め定められた基準より低い前記形態素を検出し、検出した前記形態素を表す文字列を構成する少なくとも一部の文字列を、前記文字列単位のラベルとして選定するラベル選定手段と、を備える日本語音声認識モデル学習装置。
  2. 前記ラベル生成手段は、
    前記出現頻度リストから出現頻度の高い予め定められた個数の異なる形態素からなる形態素集合を作成すると共に、前記学習データにおけるテキストが分割された形態素区間に対応した形態素が前記形態素集合に含まれるか否かを形態素区間毎に判定する出現頻度判定手段と、
    前記形態素集合に含まれると判定された形態素を表す文字列全体又はその一部であって先頭から所定文字数の文字列を、前記文字列単位のラベルとして決定するラベル決定手段と、
    を備える請求項1に記載の日本語音声認識モデル学習装置。
  3. 前記ラベル生成手段は、
    前記出現頻度リストの中に含まれる形態素のうち、漢字について1文字単位で重複のないリストである出現漢字リストを作成する出現漢字リスト作成手段と、
    前記出現漢字リストに基づいて、注目する漢字毎に、当該漢字を先頭の文字に含む形態素のリストである形態素リストを作成する形態素リスト作成手段と、
    前記注目する漢字を先頭の文字に含む形態素リストに出現する形態素毎に、前記形態素を、当該形態素全体の読みにおける頭文字の読み毎に設けた読みリストのいずれかへ格納する読みリスト作成手段と、
    前記形態素全体の読みにおける頭文字の読み毎に設けた読みリストごとに、前記読みリストに格納されている形態素の個数を、前記形態素リストに格納されている全形態素の個数で除した値を所定の閾値と比較する閾値判定手段と、
    前記閾値より小さいと判定された読みリストに格納されている形態素を表す文字列全体又はその一部であって先頭から所定文字数の文字列を、前記文字列単位のラベルとして決定するラベル決定手段と、
    を備える請求項1に記載の日本語音声認識モデル学習装置。
  4. 前記ラベル生成手段は、
    前記出現頻度リストの中に含まれる形態素のうち、漢字について1文字単位で重複のないリストである出現漢字リストを作成する出現漢字リスト作成手段と、
    前記出現漢字リストに基づいて、注目する漢字毎に、当該漢字を含む形態素のリストである形態素リストを作成すると共に、前記注目する漢字毎の形態素リストに出現する各形態素に含まれる全ての漢字の一文字単独での全ての読みのリストである単独漢字リストとを作成する形態素リスト作成手段と、
    前記注目する漢字毎の形態素リストに出現する形態素毎に、前記単独漢字リストを参照して、前記形態素を構成する各漢字に単独の読みを付与したときに対応付けられる全ての組み合わせを、前記形態素分割手段で付与された当該形態素全体の読みと比較して編集距離を算出する編集距離算出手段と、
    前記編集距離が最小となる漢字の組み合わせを求め、当該形態素において前記注目する漢字の単独の読みの区切りを推定する読み区切り推定手段と、
    前記単独漢字リストを参照して、前記形態素において前記注目する漢字に対して推定された読みの区切りが、前記注目する漢字の一文字単独での全ての読みのいずれであるのかを判定し、判定された読みに応じて、前記形態素を前記注目する漢字の読みごとに分類した読みリストへ格納する読みリスト作成手段と、
    前記注目する漢字の読みごとに分類した読みリストごとに、前記読みリストに格納されている全形態素の個数を、前記注目する漢字毎の形態素リストに格納されている全形態素の個数で除した値を所定の閾値と比較する閾値判定手段と、
    前記閾値より小さいと判定された読みリストに格納されている形態素を表す文字列全体又はその一部であって先頭から所定文字数の文字列を、前記文字列単位のラベルとして決定するラベル決定手段と、
    を備える請求項1に記載の日本語音声認識モデル学習装置。
  5. コンピュータを、請求項1から請求項4のいずれか一項に記載の日本語音声認識モデル学習装置として機能させるための日本語音声認識モデル学習プログラム。
JP2016204175A 2016-10-18 2016-10-18 日本語音声認識モデル学習装置及びプログラム Expired - Fee Related JP6718787B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016204175A JP6718787B2 (ja) 2016-10-18 2016-10-18 日本語音声認識モデル学習装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016204175A JP6718787B2 (ja) 2016-10-18 2016-10-18 日本語音声認識モデル学習装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2018066800A JP2018066800A (ja) 2018-04-26
JP6718787B2 true JP6718787B2 (ja) 2020-07-08

Family

ID=62085994

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016204175A Expired - Fee Related JP6718787B2 (ja) 2016-10-18 2016-10-18 日本語音声認識モデル学習装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6718787B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299471B (zh) * 2018-11-05 2022-12-27 广州百田信息科技有限公司 一种文本匹配的方法、装置及终端
CN111540363B (zh) * 2020-04-20 2023-10-24 合肥讯飞数码科技有限公司 关键词模型及解码网络构建方法、检测方法及相关设备
CN113408664B (zh) * 2021-07-20 2024-04-16 北京百度网讯科技有限公司 训练方法、分类方法、装置、电子设备以及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10540957B2 (en) * 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription

Also Published As

Publication number Publication date
JP2018066800A (ja) 2018-04-26

Similar Documents

Publication Publication Date Title
Alumäe et al. Advanced rich transcription system for Estonian speech
US7966173B2 (en) System and method for diacritization of text
Tachbelie et al. Using different acoustic, lexical and language modeling units for ASR of an under-resourced language–Amharic
KR20170011636A (ko) 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법
Kadyan et al. Refinement of HMM model parameters for Punjabi automatic speech recognition (PASR) system
US20100100379A1 (en) Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
CN109979257B (zh) 一种基于英语朗读自动打分进行分拆运算精准矫正的方法
US11935523B2 (en) Detection of correctness of pronunciation
CN112259083B (zh) 音频处理方法及装置
JP6941494B2 (ja) エンドツーエンド日本語音声認識モデル学習装置およびプログラム
JP6718787B2 (ja) 日本語音声認識モデル学習装置及びプログラム
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
CN113205813B (zh) 语音识别文本的纠错方法
CN111429886B (zh) 一种语音识别方法及系统
CN114974222A (zh) 一种词汇拆分模型构建方法、语音识别模型构建方法
Réveil et al. Improving proper name recognition by means of automatically learned pronunciation variants
CN114492382A (zh) 人物提取方法、文本朗读方法、对话式文本生成方法、装置、设备及存储介质
Tian Data-driven approaches for automatic detection of syllable boundaries.
Seki et al. Diversity-based core-set selection for text-to-speech with linguistic and acoustic features
Arısoy Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition
US20240144915A1 (en) Speech recognition apparatus, speech recognition method, learning apparatus, learning method, and recording medium
JP2008249761A (ja) 統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200615

R150 Certificate of patent or registration of utility model

Ref document number: 6718787

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees