JP2022064779A

JP2022064779A - 学習装置、予測装置、学習方法および学習プログラム

Info

Publication number: JP2022064779A
Application number: JP2020173612A
Authority: JP
Inventors: 悠哉藤田; Yuya Fujita; 基大町; Motoki Omachi; 賢也渡邊; Kenya Watanabe
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2022-04-26
Anticipated expiration: 2040-10-14
Also published as: JP7244473B2

Abstract

【課題】モデルを用いた言語処理での認識精度を高めること。【解決手段】本願に係る学習装置は、取得部と、学習部とを有する。取得部は、予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する。学習部は、所定の情報と、別種情報とに基づいて、所定の情報を入力とした場合の予測結果となる予測対象情報が生成されるようにモデルを学習する。【選択図】図４

Description

本発明は、学習装置、予測装置、学習方法および学習プログラムに関する。

従来、言語モデルを用いて言語処理を行う技術が知られている。このような技術の一例として、発話文の単語列に対して、次に現れる単語を予測する技術が知られている。

特開２０１９－２１９８２７号公報

しかしながら、上記の従来技術では、モデルを用いた言語処理での認識精度を高めることができるとは限らない。

例えば、上記の従来技術では、発話文の文頭から文末まで、当該発話文を構成する単語に対応する入力単語ベクトルと発話文に対応するキャプション統合ベクトルとに基づいて言語モデルが学習されている。

このようなことから、上記の従来技術では、例えば、単語表記をサポートするような他種別の情報をさらに用いてモデルを学習することは考慮されていない。

したがって、上記の従来技術では、モデルを用いた言語処理での認識精度を高めることができるとは限らない。

本願は、上記に鑑みてなされたものであって、モデルを用いた言語処理での認識精度を高めることができる学習装置、予測装置、学習方法および学習プログラムを提供することを目的とする。

本願に係る学習装置は、予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する取得部と、前記所定の情報と、前記別種情報とに基づいて、前記所定の情報を入力とした場合の予測結果となる前記予測対象情報が生成されるようにモデルを学習する学習部とを有することを特徴とする。

実施形態の一態様によれば、モデルを用いた言語処理での認識精度を高めることができるという効果を奏する。

図１は、実施形態に係る学習処理の全体像を示す図である。図２は、実施形態に係る学習処理の一例を示す図である。図３は、実施形態に係る予測処理の一例を示す図である。図４は、実施形態に係る学習装置および予測装置の構成例を示す図である。図５は、実施形態に係る学習処理手順を示すフローチャートである。図６は、変形例に係る学習処理の一例を示す図である。図７は、コンピュータ１０００の一例を示すハードウェア構成図である。

以下に、本願に係る学習装置、予測装置、学習方法および学習プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る学習装置、予測装置、学習方法および学習プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。

［実施形態］
〔１．実施形態に係る学習処理の概要〕
まず、実施形態に係る学習処理の概要について音声認識技術を例に説明する。例えば、音声認識を行うコンピュータには、音素などの短い単位ごとの標準的な特徴量挙動パターン（音響モデル）、発声された文の中に出現し得る単語の一覧とそれぞれの読み（単語辞書）、文中の単語つながりパターン（言語モデル）などが予め蓄えられている。

したがって、音声認識を行うコンピュータでは、入力音声から得た特徴量の時系列を基に、これらのモデルを用いて作り出される候補文の中から入力音声に対応する文としてもっとも確からしいものを探し出す（探索する）ことで音声が認識されることになる。

音声認識についてより詳細に説明する。音声認識とは、例えばマイクなどの集音部から入力された音声波形の時系列（Ｘ＝ｘ_１ｙ_２・・・ｘ_Ｔ）を、テキスト文字列（Ｗ＝ｗ_１ｗ_２・・・ｗ_Ｎ）に変換する技術である。このようなことから、音響モデルとは、音素の周波数パターンなどの音響的特徴を表すものと解釈することができる。具体的には、音響モデルは、確率ｐ（Ｘ｜Ｗ）を近似するモデルであり、単語列Ｗが音声波形Ｘとして発現する確率が与えられる。一方、言語モデルとは、単語間の接続関係などの言語的特徴を表すものと解釈することができる。具体的には、言語モデルは、確率ｐ（Ｗ）を近似するモデルであり、単語列Ｗが発現する確率が与えられることで単語列中の次の単語が予測される。また、単語辞書は、言語モデルの単語と音響モデルを結びつけるために用いられる。

ここで、本実施形態で用いられる音響モデルの一例としては、ＤＮＮ－ＨＭＭ音響モデルが挙げられる。ＤＮＮ－ＨＭＭ音響モデルは、ある時刻の音声特徴量に対してどのラベル（例えば音素）の確率が高いかをモデル化したＤＮＮ（Deep Neural Networks：ディープニューラルネットワーク)と、ラベルの時間変化をモデル化したＨＭＭ（Hidden Markov Model：隠れマルコフモデル)の２つのモデルで表現されている。

なお、音響モデルに用いられるディープニューラルネットワークは、ＤＮＮに限らず、例えば、ＣＮＮ（Convolutional Neural Networks：畳み込みニューラルネットワーク）や、ＲＮＮ（Recurrent Neural Networks：リカレントニューラルネットワーク）の１つであるＬＳＴＭ（Long Short-Term Memory）、あるいはこれらの組み合わせが用いられてもよい。

また、本実施形態で用いられる言語モデルの一例としては、Ｎ－ｇｒａｍ言語モデルが挙げられる。Ｎ－ｇｒａｍ言語モデルでは、単語列中の次の単語が予測されが、次単語の候補をよりよく予測できる（パープレキシティを下げる）ことのできるＲＮＮ言語モデル（例えば、ＬＳＴＭ）が用いられてもよい。

また、音声認識は、上記のような音響モデル、言語モデル、単語辞書といった複数の部品を個々に最適化して組み合わせたシステムとして構築される場合があるが、本実施形態で対象とする音声認識は、ＧＭＭ（Gaussian Mixture Model）を１つのＤＮＮに置き換えて利用するというＤＮＮ－ＨＭＭハイブリッド音声認識であってよい。一方で、本実施形態で対象とする音声認識は、ＤＮＮ－ＨＭＭハイブリッド音声認識に限らず、ＬＳＴＭのようなＲＮＮを用いて直接音響特長量から目的の記号（例えば、音素や文字など）に変換するＥｎｄ－ｔｏ－Ｅｎｄ音声認識であってもよい。

上記の通り、ＤＮＮ－ＨＭＭハイブリッド音声認識では、音響モデル、言語モデル、単語辞書といった複数の部品を個々に最適化して組み合わせられるのに対して、Ｅｎｄ－ｔｏ－Ｅｎｄ音声認識では、これらが１つのニューラルネットワークとして構築されており、モデルの構造がシンプルになる。したがって、Ｅｎｄ－ｔｏ－Ｅｎｄ音声認識では、モデルを軽量化してスマートスピーカーやスマートフォンなどのエッジデバイス側で動作させるということがより容易に行えるようになるといった利点がある。

また、Ｅｎｄ－ｔｏ－Ｅｎｄ音声認識には、ＣＴＣ（Connectionist Temporal Classification）を用いた手法と、アテンション機構（注意機構とも呼ばれる）（attention mechanism）を用いたエンコーダ－デコーダモデルがある。すなわち、アテンション機構を用いたモデルは、エンコーダとデコーダの２つのサブネットワークから構成される。エンコーダでは、ＬＳＴＭのようなＲＮＮを用いて音響特長量系列を長さＴの分散表現にする。そして、このエンコードされた情報を基にデコーダは、長さＬの文字系列を予測する。例えば、デコーダは、エンコードされた系列表現の関連する度合いに基づいて文字系列を順次予測する。

実施形態に係る学習処理では、エンコーダおよびデコーダともに複数層の双方向ＬＳＴＭが用いられてもよいし、エンコーダおよびデコーダのうちいずれか一方には１層の単方向ＬＳＴＭが用いられてもよい。

ここで、ＤＮＮ－ＨＭＭハイブリッド音声認識、Ｅｎｄ－ｔｏ－Ｅｎｄ音声認識のいずれであっても認識精度（予測精度）を改善する余地がある。したがって、実施形態に係る学習処理は、上記のようなネットワークモデルの中で従来用いられている情報（後述する「表記情報」）に加えて、係る情報をサポートできるようなサポート情報（後述する「読み情報」）をさらに用いて認識精度を高めようとするアプローチである。具体的には、実施形態に係る学習処理は、アテンション機構を用いたエンコーダ－デコーダモデルに対して上記のようなサポート情報を適用することで、予測対象となる文字情報である予測対象情報が、特定の情報を入力とした場合の予測結果として生成されるようモデルを学習するものである。

例えば、画像認識においてアテンション機構を用いて注視すべき領域を強調させる技術がある。実施形態に係る学習処理は、係る技術を文字認識に適用することで、強調すべき表記情報をアテンションで強調させることで、アテンションに応じた文字列を出力するようモデルを学習させる、というものである。

なお、以下の実施形態では、実施形態に係る学習処理で対象とされる文字認識技術は、音声認識技術であるものとして説明するが、実施形態に係る学習処理を適用可能な文字認識技術は、音声認識技術に限定されない。例えば、実施形態に係る学習処理は、機械翻訳をはじめとする各種の文字変換に適用され得る。

〔２．実施形態に係る学習処理の全体像と、音声認識の中での位置付け〕
続いて、図１を用いて実施形態に係る学習処理の全体像と、音声認識の中での位置付けについて説明する。図１は、実施形態に係る学習処理の全体像を示す図である。図１に示される学習処理は、学習装置の一例である学習装置１００によって行われる。また、係る例では、学習装置１００は、音声認識に特化した装置（すなわち音声認識装置）であってよい。また、本実施形態では、学習装置１００は、サーバ装置であるものとするが、クラウドによって構成されてもよい。

また、図１には、入力音声に対応する文字列としてもっとも確からしい文字列が予測結果として出力されるよう、このもっとも確からしい文字列を探索するという学習処理の流れの一場面が示される。また、図１には、任意の利用者である利用者Ｕｘにより入力された音声データ「今日の天気は？」に応じた表記情報が学習用データとして用いられる例が示される。

また、図１の例では、「今日の天気は？」という音声が、字面が優先された文字列（具体的には、漢字とひらがな（場合によってはカタカナでもよい）で構成される見た目上もっとも自然な表記形態の文字列）で構成された文章として、「今日の天気は」という表記で認識されるようモデルを学習したい。そうすると、図１の例では、「今日の天気は」という文字情報が、予測対象となる文字情報である予測対象情報に対応する。また、このようなことから後述するラベルは、予測対象情報に合わせて、表記形態の種別として字面が優先された表記形態で生成されることになる。

上記の点を踏まえて以下に、実施形態に係る学習処理の全体像を示す。

まず、学習装置１００は、音声データ「今日の天気は？」の入力を受け付けたことに応じて、音声データにＡ／Ｄ変換を施すことで、音声データを示す音声波形を得る。

次に、学習装置１００は、音声波形に基づいて、音声データの特徴量を計算することで、音声データの特徴を示す特徴量情報を抽出する。例えば、学習装置１００は、音声波形を２０ｍｓ～３０ｍｓのフレームデータに分解し、フレームごとの特徴量を抽出する。また、フレームごとの特徴量は、図１に示す音響特長量系列として与えられる。

次に、学習装置１００は、音響モデルＭＤ１、単語辞書ＤＣ、言語モデルＭＤ２を用いて、確からしい文字列を探索するという学習処理を行う。

ここで、音響モデルＭＤ１は、例えば、ＤＮＮ－ＨＭＭ音響モデルであってよい。もちろん音響モデルＭＤ１は、ＤＮＮ－ＨＭＭ音響モデルに限定されず、各種の音響モデルが適用され得る。また、言語モデルＭＤ２は、アテンション機構を用いたエンコーダ－デコーダモデルであってよい。例えば、言語モデルＭＤ２は、ＬＳＴＭを用いたアテンション付きのエンコーダ－デコーダモデルであってよい。このような言語モデルＭＤ２では、エンコーダおよびデコーダの役割をもたせる層にアテンション機構を有するＬＳＴＭが用いられる。また、ＬＳＴＭは、過去の時間の情報を参照するリカレントニューラルネットワーク（Unidirectional）のＬＳＴＭ（Unidirectional-LSTM）であってもよい。

また、言語モデルＭＤ２は、ＬＳＴＭを用いたアテンション付きのエンコーダ－デコーダモデルに限定されず、各種の言語モデルが適用され得る。例えば、言語モデルＭＤ２は、ＲＮＮやＣＮＮなどが使われずアテンション層のみで構築されるＴｒａｎｓｆｏｒｍｅｒであってもよい。具体的には、言語モデルＭＤ２は、Ｔｒａｎｓｆｏｒｍｅｒを用いたアテンション付きのエンコーダ－デコーダモデルであってもよい。

また、図１の例では、音響モデルＭＤ１、単語辞書ＤＣ、言語モデルＭＤ２がひとくくりにされている。したがって、実施形態に係る音声認識は、音響モデルＭＤ１、単語辞書ＤＣ、言語モデルＭＤ２を個々に最適化して組み合わせたＤＮＮ－ＨＭＭハイブリッド音声認識であってよい。また、実施形態に係る音声認識は、音響モデルＭＤ１、単語辞書ＤＣ、言語モデルＭＤ２それぞれに対応するニューラルネットワークが１つのニューラルネットワークで構築されたＥｎｄ－ｔｏ－Ｅｎｄ音声認識であってもよい。また、このようなことから図１では、音響モデルＭＤ１、単語辞書ＤＣ、言語モデルＭＤ２をひとくくりにした音声認識モデルであって、ＤＮＮ－ＨＭＭハイブリッド音声認識、あるいは、Ｅｎｄ－ｔｏ－Ｅｎｄ音声認識としてのモデルが「音声認識ＤＮＮ」と概念的に表記されている。換言すると、実施形態に係る音声認識ＤＮＮは、ＤＮＮ－ＨＭＭハイブリッド音声認識モデルであってもよいし、Ｅｎｄ－ｔｏ－Ｅｎｄ音声認識モデルであってもよい。

このような状態において、学習装置１００は、学習用データ（ラベル）の生成を行う。例えば、学習装置１００は、各フレームデータ（音響特長量系列）について、音響モデルＭＤ１を用いてラベルごとの確率に変換することで認識結果であるラベル系列（予測対象となる文字情報である予測対象情報を示す所定の情報の一例）を生成（出力）する。

ラベルは、例えば、音素、仮名（ひらがな、カタカナ）、漢字、単語といった単位であらかじめ定義されてよく、例えば、音響モデルＭＤ１において、字面が優先された文字列（具体的には、漢字と仮名で構成される見た目上最も自然な表記形態で示される文字列）を出力するように学習されていたとする。係る場合、学習装置１００は、ラベルごとの確率に基づいて、予測対象情報「今日の天気は」を示す所定の情報である学習用データ（ラベル）として、字面が優先された文字列「今日の天気は」を得る。

また、ここでいうラベルとしての文字列「今日の天気は」は、漢字と仮名で構成される見た目上最も自然な表記で示される情報、すなわち「表記情報」である。なお、予測対象情報「今日の天気は」と、ラベルとしての文字列「今日の天気は」とは、同一に見えるが、ラベルとしての文字列「今日の天気は」は、音素やベクトルを含む中間表現で構成された文字列であり、実際には、予測対象情報「今日の天気は」とは情報の構成要素が異なる。

また、学習装置１００は、所定の情報である学習用データ（ラベル）に対応する情報であって、この所定の情報を「読み」の観点からサポートする（学習処理におけるヒントとなる）別種情報も生成する。

上記の通り、ラベルは、例えば、音素、仮名（ひらがな、カタカナ）、漢字、単語といった単位であらかじめ定義されてよいため、音響モデルＭＤ１は、所定の情報（具体的には、ラベルとしての文字列「今日の天気は」）が発話された際の発話音に応じて表記するという表記形態（所謂、音表記）で示される文字列を出力するように学習されることもできる。このように学習されていた場合、学習装置１００は、各フレームデータを音響モデルＭＤ１に入力することで、ラベルとしての文字列「今日の天気は」とは表記形態の種別が異なる別種の文字列として「キョーノテンキハ」を得ることができる。

また、ここでいう別種の文字列「キョーノテンキハ」は、所定の情報が発話された際の発話音に応じて表記される文字情報、すなわち「読み情報」である。したがって、「読み情報」（キョーノテンキハ）は、「表記情報」（今日の天気は）に対する表記形態の種別が異なる「別種情報」である。

なお、図１の例では、学習装置１００は、各フレームデータを音響モデルＭＤ１に入力し、音響モデルＭＤ１が各フレームデータに対応する音素に基づく表記情報および読み情報を出力することで、表記情報および読み情報を生成（取得）している。しかしながら、音響モデルＭＤ１の学習のされ方によっては、学習装置１００は、各フレームデータを音響モデルＭＤ１に入力することで表記情報を取得し、この表示情報から読み情報を動的に生成することができる。また、音響モデルＭＤ１の学習のされ方によっては、学習装置１００は、各フレームデータを音響モデルＭＤ１に入力することで読み情報を取得し、この読み情報から表記情報を動的に生成することができる。

また、学習装置１００は、生成した読み情報に対応する品詞情報をさらに生成してもよい。図１の例では、学習装置１００は、読み情報としての別種の文字列「キョーノテンキハ」を形態素に分解することで、形態素ごとの品詞を示す品詞情報を取得することができる。また、音響モデルＭＤ１が、このような品詞情報も読み情報とともに出力するよう学習されていてもよい。品詞を用いた処理については図６で説明する。

次に、学習装置１００は、上記のように取得した所定の情報と、別種情報とに基づいて、所定の情報を入力とした場合の予測結果となる予測対象情報が生成されるように言語モデルＭＤ２を学習する。図１の例では、学習装置１００は、所定の情報の一例であるラベルとしての文字列「今日の天気は」と、別種情報の一例である別種の文字列「キョーノテンキハ」とに基づいて、ラベルとしての文字列「今日の天気は」を入力した場合の予測結果として予測対象情報「今日の天気は」という文字列が生成されるよう言語モデルＭＤ２を学習する。このような学習によれば、言語モデルＭＤ２は、図１に示す「今日の天気は？」という音声入力に対して、字面が優先された文字列「今日の天気は」を音声認識結果として出力できるようになる。

〔３．実施形態に係る学習処理の一例について〕
上述した説明した通り、実施形態に係る学習処理の対象となるモデルは、音声認識ＤＮＮに含まれる言語モデルＭＤ２である。したがって、次に、図２を用いて、言語モデルＭＤ２に焦点を当てた学習処理についてより詳細に説明する。図２は、実施形態に係る学習処理の一例を示す図である。図２に示す言語モデルＭＤ２は、ＬＳＴＭを用いたアテンション付きのエンコーダ－デコーダモデルである。

また、図２の例では、学習装置１００が、音響モデルＭＤ１から所定の情報の一例であるラベルとしての文字列「今日の天気は」（表記情報）と、別種情報の一例である別種の文字列「キョーノテンキハ」（読み情報）とを取得したことにより、これらを用いて言語モデルＭＤ２を学習する学習処置の一例が示される。また、このようなことから、図２では、所定の情報の一例であるラベルとしての文字列「今日の天気は」を、「表記情報ＴＸ１１」と表記し、別種情報の一例である別種の文字列「キョーノテンキハ」を、「読み情報ＴＸ１２」と表記する。

また、図２の例では、実施形態に係る学習処理において、表記情報ＴＸ１１を用いた学習処理と、読み情報ＴＸ１２を用いた学習処理とが同時並行的に進行される。

また、音声認識ＤＮＮでは、start-of-sentence（＜sos＞）と、end-of-sentence（＜eos＞）という特殊な記号が用いられる。したがって、実施形態に係る学習処理は、＜sos＞が検出された時点で処理が開始され、＜eos＞が検出された時点で処理が終了される。

図２の例では、表記情報ＴＸ１１および表記情報ＴＸ１２双方の＜sos＞が検出されたことで、表記情報ＴＸ１１を用いた学習処理と、読み情報ＴＸ１２を用いた学習処理とが並行して進んでいる。

このような中で、学習装置１００は、別種情報である読み情報ＴＸ１２をＬＳＴＭに適用することで、読み情報ＴＸ１２の特徴を示す値を取得する（ステップＳ１）。図２に示すように、言語モデルＭＤ２のうち、読み情報ＴＸ１２を用いた学習処理に対応するモデルでは、エンコーダおよびデコーダの役割をもたせる層にアテンション機構を有するＬＳＴＭが用いられている。このようなモデルを言語モデルＭＤ２－２とすると、言語モデルＭＤ２－２は、学習装置１００により読み情報ＴＸ１２が入力されると、読み情報ＴＸ１２をパターンごとに分解し、得られたセグメント（例えば、品詞などにより意味のあるセグメント）から特徴を抽出する。また、言語モデルＭＤ２－２は、抽出した特徴を示す値（例えば、アテンションスコア）を算出し、これを出力する。例えば、言語モデルＭＤ２－２は、読み情報ＴＸ１２が形態素に分解された形態素ごとの特徴を示す値を算出し、これらを出力することができる。

また、このようにして、学習装置１００は、読み情報ＴＸ１２の特徴を示す値として、読み情報ＴＸ１２の特徴を示すアテンションを取得する。

次に、学習装置１００は、表記情報ＴＸ１１を用いた学習処理に対応するモデルにアテンションを適用し（ステップＳ２）、そして、アテンションに応じてモデルが出力した出力情報に基づいて、予測対象情報を生成するように言語モデルＭＤ２を学習する（ステップＳ３）。

ステップＳ２からＳ３にかけての処理について具体例を示す。まず、図２に示すように、言語モデルＭＤ２のうち、表記情報ＴＸ１１を用いた学習処理に対応するモデルは、ＬＳＴＭを用いたエンコーダ－デコーダモデル（こちらのモデルにはアテンション機構は存在しない）である。このようなモデルを言語モデルＭＤ２－１とすると、学習装置１００は、ステップＳ２において言語モデルＭＤ２－１に対して、ステップＳ１で得られたアテンションを適用する。

例えば、学習装置１００は、言語モデルＭＤ２－１のうち、ＬＳＴＭが用いられるエンコーダモデル（第１のモデルの一例）に対して、読み情報ＴＸ１２が形態素に分解された形態素ごとの特徴を示す値（形態素ごとのアテンション）をまとめて入力する。エンコーダにおいて複数層の双方向ＬＳＴＭが用いられている場合、学習装置１００は、いずれの層にアテンションを入力してもよい。

ここで、言語モデルＭＤ２－１のエンコーダモデルは、読み情報ＴＸ１２を用いた学習処理と同時に進行していた表記情報ＴＸ１１側の学習処理により、表記情報ＴＸ１１の特徴を示す値を出力している。よって、アテンションが入力された以降の表記情報ＴＸ１１を用いた学習処理では、表記情報ＴＸ１１の特徴を示す値が入力のアテンションに応じて補正される。例えば、表記情報ＴＸ１１の特徴を示す値とは、モデルパラメータ（接続係数、重み）であり、このモデルパラメータの計算が行われるたびに、計算されたモデルパラメータがアテンションによって更新される。例えば、アテンションが入力された層では、エンコーダモデルで作られた要素ごとの出力に対して、行列積によって重み付けがなされるが、ペアになる要素に対して正しく重み付けされるようアテンションによって補正される。

また、学習装置１００は、表記情報ＴＸ１１の特徴を示す値がアテンションに応じて補正されると、言語モデルＭＤ２－１のうち、ＬＳＴＭが用いられるデコーダモデル（第２のモデルの一例）に対して、補正後の値を入力する。そして、学習装置１００は、補正後の値に基づき係るデコーダモデルが予測対象情報を出力するように学習させる。図２の例では、学習装置１００は、表記情報ＴＸ１１（ラベルとしての文字列「今日の天気は」）の入力に応じて、予測対象情報「今日の天気は」という文字列ＴＸ１３が生成されるよう言語モデルＭＤ２－１を学習する。

また、図２で説明した学習処理によれば、「今日の天気は？」という音声入力に対して、字面が優先された文字列「今日の天気は」と音声認識結果として出力できるようになる。

また、学習装置１００は、実施形態に係る学習処理による学習済の言語モデルＭＤ２を含む音声認識ＤＮＮを、モデルを用いて実際に予測（音声認識）を行うデバイスである予測装置に提供する。図２の例では、音声認識ＤＮＮを用いて実際に予測を行う予測装置の一例としてスマートスピーカー１０（以下、「予測装置１０」と表記する場合もある）が示される。例えば、学習装置１００は、スマートスピーカー１０からの要求があった場合や、音声認識ＤＮＮを更新できたタイミングごとに音声認識ＤＮＮを提供することができる。例えば、スマートスピーカー１０の所有者が利用者Ｕ１であるとすると、利用者Ｕ１は、スマートスピーカー１０に対して音声入力することで、音声入力に応じた最適な出力を得ることができるようになる。

なお、モデルを用いて実際に予測を行うデバイスである所謂エッジデバイスは、スマートスピーカーではなく、例えば、スマートフォンなどの各種の携帯電話端末や、デスクトップＰＣや、ウェアラブルデバイスなどであってもよい。

さて、これまで図１および図２で説明してきた学習装置１００によれば、従来技術のように単に表記情報が学習に用いられるのではなく、表記情報のうち特に強調すべき特徴を音表記である読み情報から得られたアテンションで強調させることで、アテンションに応じた文字列が出力されるようモデルの学習が行われる。このような学習装置１００によれば、モデルを用いた言語処理での認識精度を高めることができるようになる。

〔４．実施形態に係る予測処理の一例について〕
続いて、図３を用いて、図１および図２で学習されたモデル（音声認識ＤＮＮ）の一例を示すとともに、係るモデルを用いた予測処理について説明する。予測処理は、図２に示したスマートスピーカー１０によって行われる。図３は、実施形態に係る予測処理の一例を示す図である。

図３には、表記情報ＴＸ１１（今日の天気は）を学習用データ（ラベル）とし、これをアテンションで補正することで学習された実施形態に係る音声認識ＤＮＮが概念的に示される。

ここで、スマートスピーカー１０に対して「今日の天気は？」と音声入力されたとする。係る場合、スマートスピーカー１０は、まず、音声認識ＤＮＮと＜sos＞とを用いて、単語「今」が発現する確率を計算する。より具体的には、スマートスピーカー１０は、従来技術と比較して、このときさらに読み情報ＴＸ１２（キョーノテンキ）の全てを適用して単語「今」が発現する確率を計算する。このことは、「今日の天気は？」という音声入力に対して、字面が優先された文字列（具体的には、漢字と仮名で構成される見た目上最も自然な表記形態の文字列）である「今日の天気は」が、正しい音声認識結果として出力されるよう、読み情報ＴＸ１２（キョーノテンキ）によって特徴の抽出がサポートされていることを示す。

また、図３の例では、スマートスピーカー１０は、次に、音声認識ＤＮＮを用いて、単語「今」の次に単語「日」が発現する確率を計算する。より具体的には、スマートスピーカー１０は、従来技術と比較して、このときさらに読み情報ＴＸ１２（キョーノテンキ）の全てを適用して単語「今」の次に単語「日」が発現する確率を計算する。

また、図３の例では、スマートスピーカー１０は、次に、音声認識ＤＮＮを用いて、単語「今日」の次に単語「の」が発現する確率を計算する。より具体的には、スマートスピーカー１０は、従来技術と比較して、このときさらに読み情報ＴＸ１２（キョーノテンキ）の全てを適用して単語「今日」の次に単語「の」が発現する確率を計算する。

また、予測処理が進み、＜eos＞が検出された最後においては、スマートスピーカー１０は、音声認識ＤＮＮを用いて、文字列「今日の天気は」が発現する確率を計算する。より具体的には、スマートスピーカー１０は、従来技術と比較して、このときさらに読み情報ＴＸ１２（キョーノテンキ）の全てを適用して文字列「今日の天気は」が発現する確率を計算する。

また、スマートスピーカー１０は、計算によって得られた確立に基づき最も確かな文字列（この場合、「今日の天気は」）を選択し、選択した文字列を音声認識結果として出力する。例えば、スマートスピーカー１０は、表示画面を備えている場合には、この表示画面に音声認識結果を表示させる。また、スマートスピーカー１０は、自装置と紐付けられている他のデバイス（例えば、利用者Ｕ１のスマートフォンなど）が存在する場合には、この他のデバイスに対して音声認識結果を表示させてもよい。

〔５．生成装置の構成〕
次に、図４を用いて、実施形態に係る学習装置１００および予測装置１０について説明する。図４は、実施形態に係る学習装置１００および予測装置１０の構成例を示す図である。

〔５－１．学習装置の構成〕
まず、実施形態に係る学習装置１００について説明する。図４に示すように、学習装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークＮと有線または無線で接続され、例えば、予測装置１０との間で情報の送受信を行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、モデル情報記憶部１２１を有する。

（モデル情報記憶部１２１について）
モデル情報記憶部１２１は、モデルに関する各種情報を記憶する。例えば、モデル情報記憶部１２１は、モデルごとに当該モデルの学習に用いる学習用データを記憶する。例えば、モデル情報記憶部１２１は、図１および図２で説明した表記情報や読み情報を学習用データとして記憶する。

（制御部１３０について）
制御部１３０は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、学習装置１００内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図４に示すように、制御部１３０は、データ制御部１３１と、生成部１３２と、取得部１３３と、学習部１３４と、提供部１３５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図４に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図４に示した接続関係に限られず、他の接続関係であってもよい。

（データ制御部１３１）
データ制御部１３１は、モデルの学習に用いるデータに関する各種制御を行う。

図１の例を用いると、データ制御部１３１は、音声入力を受け付けると、受け付けた音声（音声データ）から音声波形を抽出する。また、データ制御部１３１は、音声波形に基づいて、音声データの特徴量を計算することで、音声データの特徴を示す特徴量情報を抽出する。例えば、データ制御部１３１は、音声波形を２０ｍｓ～３０ｍｓのフレームデータに分解し、フレームごとの特徴量を抽出する。また、フレームごとの特徴量は、音響特長量系列として与えられる。

（生成部１３２について）
生成部１３２は、所定の音響モデルを用いて、入力された音声データからモデルの学習に用いるデータを生成する。

図１の例を用いると、生成部１３２は、学習用データ（ラベル）を生成する。例えば、生成部１３２は、各フレームデータを音響モデルＭＤ１に入力する。そして、生成部１３２は、例えば音響モデルＭＤ１に対して各フレームデータに対応する音素に基づく表記情報および読み情報を出力させることで、入力された音声データに対応する表記情報（漢字と仮名で構成される見た目上最も自然な表記形態で示される、字面が優先された文字列）、および、読み情報（表記情報が発話された場合の発話音に応じた表記形態で示された文字列）を取得する。また、生成部１３２は、取得した情報のうち表記情報を学習用データ（ラベル）として設定し、取得した情報のうち読み情報をアテンションの対象となる情報として設定する。

ここで、表記情報は、予測対象となる文字情報である予測対象情報を示す所定の情報の一例であり、字面が優先された文字列で予測対象情報が表記された文字情報であって、所定の中間表現で構成された文字情報である。また、読み情報は、表記情報とは種別（例えば、表記形態の種別）が異なる別種情報の一例であって、表記情報が発話された際の発話音に応じて表記された文字情報である。

また、生成部１３２は、表記情報および読み情報をモデル情報記憶部１２１に登録する。例えば、モデル情報記憶部１２１において、各モデルがモデルＩＤ（Identifier）で区別された状態で登録されている場合、生成部１３２は、モデルＩＤで識別されるモデルごとに、当該モデルを対象として生成した表記情報および読み情報を登録する。

（取得部１３３について）
取得部１３３は、予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する。具体的には、取得部１３３は、所定の情報として、字面が優先された文字列で予測対象情報が表記された文字情報であって、所定の中間表現で構成された文字情報を取得し、別種情報として、所定の情報が発話された際の発話音に応じて表記された文字情報を取得する。

図１の例では、生成部１３２により、所定の情報の一例であるラベルとしての文字列「今日の天気は」（表記情報）と、別種情報の一例である別種の文字列「キョーノテンキハ」（読み情報）とが生成されたことにより、取得部１３３は、これらの情報を取得する。例えば、取得部１３３は、実施形態に係る学習処理が行われるタイミングで、これらの情報をモデル情報記憶部１２１から取得することができる。

（学習部１３４について）
学習部１３４は、図１および図２で説明した実施形態に係る学習処理を行う。例えば、学習部１３４は、音響認識ＤＮＮに含まれるモデル（ニューラルネットワーク）のうち、言語モデルＭＤ２を対象として、実施形態に係る学習処理を行う。

また、具体的には、学習部１３４は、所定の情報と、別種情報とに基づいて、所定の情報を入力とした場合の予測結果（例えば、音声認識結果）となる予測対象情報が生成されるようにモデルを学習する。

例えば、学習部１３４は、別種情報の特徴を示す値（アテンション）に応じてモデルにより出力された出力情報に基づいて、予測対象情報を生成するようにモデルを学習する。例えば、学習部１３４は、別種情報の特徴を示す値として、別種情報を示す文字列が所定の単位で分解された単位ごとの特徴を示す値（例えば、形態素ごとのアテンション）の全てがまとめてモデルに入力されることで出力された出力情報に基づいて、予測対象情報を生成するようにモデルを学習する。また、例えば、学習部１３４は、別種情報の特徴を示す値として、別種情報を示す文字列が所定の単位で分解された各単位の品詞の特徴を示す値がモデルに入力されることで出力された出力情報に基づいて、予測対象情報を生成するようにモデルを学習する。また、これらの一例として、学習部１３４は、モデルのうち第１のモデル（エンコーダ）が出力した値が、別種情報の特徴を示す値に応じて補正されたことによる補正後の値を入力することで、当該第２のモデルが予測対象情報を出力するように学習させる。

また、学習部１３４は、上記の学習処理が行われた後の学習済のモデルをモデル情報記憶部１２１に登録する。

（提供部１３５について）
提供部１３５は、学習部１３４によって学習が行われた学習済のモデルを、係るモデルを用いて予測（例えば、音声認識）を行う予測装置１０に提供する。図１の例では、提供部１３５は、予測装置１０の一例であるスマートスピーカー１０に学習済のモデルを提供している。

〔５－２．予測装置の構成〕
次に、実施形態に係る予測装置１０について説明する。図４に示すように、予測装置１０は、通信部１１と、制御部１３とを有する。

（通信部１１について）
通信部１１は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１は、ネットワークＮと有線または無線で接続され、例えば、学習装置１００との間で情報の送受信を行う。

（制御部１３について）
制御部１３は、ＣＰＵやＭＰＵ等によって、予測装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

図４に示すように、制御部１３は、取得部１３ａと、入力受付部１３ｂと、予測部１３ｃと、出力制御部１３ｄとを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３の内部構成は、図４に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３が有する各処理部の接続関係は、図４に示した接続関係に限られず、他の接続関係であってもよい。

（取得部１３ａについて）
取得部１３ａは、学習済のモデルを取得する。具体的には、取得部１３ａは、学習済のモデルを学習装置１００から取得する。例えば、取得部１３ａは、実施形態に係る学習処理によりモデルが更新（学習）されるたびに、学習済のモデルを学習装置１００から取得する。

（入力受付部１３ｂについて）
入力受付部１３ｂは、利用者から予測対象となる情報の入力を受け付ける。例えば、音声認識のシチュエーションでは、入力受付部１３ｂは、利用者による発話に応じた音声入力を受け付ける。また、例えば、機械翻訳のシチュエーションでは、入力部１３ｂは、機械翻訳の対象となる文字情報の入力を受け付ける。

（予測部１３ｃについて）
予測部１３ｃは、入力受付部１３ｂにより予測対象となる情報の入力を受け付けられた場合には、取得部１３ａにより取得された学習済のモデルを用いて、入力データを示す文字情報（文字列）を予測する。例えば、音声認識のシチュエーションでは、予測部１３ｃは、図３に示す音声認識ＤＮＮを用いて、入力データを示す文字情報（文字列）を予測する。例えば、予測部１３ｃは、単語列Ｗが発現する確率を計算することで、単語列中の次の単語を予測する。

（出力制御部１３ｄについて）
出力制御部１３ｄは、予測部１３ｃにより予測された予測結果に応じて生成された情報（文字列）が利用者に向けて出力されるよう出力制御する。例えば、出力制御部１３ｄは、予測装置１０と紐付けられている他のデバイス（例えば、利用者のスマートフォンなど）が存在する場合には、この他のデバイスに対して予測結果に応じて生成された情報（音声認識結果や翻訳結果など）を表示させてもよい。

〔６．処理手順〕
次に、図５を用いて、実施形態に係る学習処理の手順について説明する。図５は、実施形態に係る学習処理手順を示すフローチャートである。なお、図５の例では、データ制御部１３１が、利用者から音声入力を受け付けたことで、音声データに対応する特徴量（音響特徴量系列）を抽出したものとし、これに引き続いて行われる実施形態に係る学習処理の手順を示す。また、図５では、図２の例を適宜採用して説明することにする。

まず、生成部１３２は、特徴量（音響特徴量系列）を音響モデルＭＤ１に適用することで、モデルの学習に用いられるデータを生成する（ステップＳ１０１）。例えば、生成部１３２は、学習用データ（ラベル）に関する各種情報を生成する。例えば、生成部１３２は、音響モデルＭＤ１を用いて、入力された音声データに対応する表記情報、および、読み情報を生成する。そして、生成部１３２は、表記情報を学習用データ（ラベル）として設定し、読み情報をアテンションの対象となる情報として設定する。

次に、取得部１３３は、生成部１３２により生成されたデータを取得する（ステップＳ１０２）。具体的には、取得部１３３は、表記情報および読み情報を取得する。また、取得部１３３は、取得した表記情報および読み情報を学習部１３４に渡す。

次に、学習部１３４は、表記情報と、読み情報とに基づいて、表記情報を入力とした場合の予測結果となる予測対象情報が生成されるようにモデルを学習する（ステップＳ１０３）。例えば、学習部１３４は、実施形態委係る学習処理のうち、表記情報を用いた学習処置と、読み情報を用いた学習処理を同時に進行させる中で次のような処理を行う。

具体的には、学習部１３４は、読み情報を言語モデルＭＤ２－２に入力することで、読み情報が形態素に分解された形態素ごとの特徴を示す値（形態素ごとのアテンション）を出力させる。次に、学習部１３４は、言語モデルＭＤ２－１のうちエンコーダモデルに対して、形態素ごとのアテンションをまとめて入力する。なお、学習部１２４は、例えば、形態素ごとのアテンションを時系列に応じた順で入力してもよい。

また、学習部１３４は、この時点でエンコーダモデルによって得られている表記情報の特徴を示す値が、入力したアテンションによって補正されるといった学習がエンコーダモデルによって行われるよう制御する。そして、学習部１３４は、表記情報の特徴を示す値がアテンションに応じて補正されると、言語モデルＭＤ２－１のうちデコーダモデルに対して、補正後の値を入力する。そして、学習部１３４は、補正後の値に基づきデコーダモデルが予測対象情報を出力するように学習させる。

〔７．変形例〕
上記実施形態に係る学習装置１００は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、学習装置１００の他の実施形態について説明する。

〔７－１．品詞情報をさらに用いた学習〕
上記実施形態では、学習部１３４が、別種情報の特徴を示す値として、別種情報を示す文字列が所定の単位で分解された単位ごとの特徴を示す値がモデルに入力されることで出力された出力情報に基づいて、予測対象情報を生成するようにモデルを学習する例を示した。しかしながら、学習部１３４は、別種情報に対応する品詞情報をさらに用いてモデルに学習させてもよい。具体的には、学習部１３４は、別種情報の特徴を示す値として、別種情報を示す文字列が所定の単位で分解された各単位の品詞の特徴を示す値がモデルに入力されることで出力された出力情報に基づいて、予測対象情報を生成するようにモデルを学習する。この点について、図６の例を用いて説明する。図６は、変形例に係る学習処理の一例を示す図である。

図６の例では、図２の例に対して品詞情報がさらに適用された場合の学習処理が示される。したがって、図２の例と重複する内容についてはその説明を省略する。また、図６の例では、取得部１３３は、読み情報ＴＸ１２が形態素に分解された形態素ごとの品詞を示す品詞情報を取得している。そして、図６では、読み情報ＴＸ１２に対応付けられたこのような品詞情報として、品詞情報ＷＤ１２が示される。つまり、品詞情報ＷＤ１２には、読み情報ＴＸ１２が形態素に分解された形態素ごとの品詞を示す品詞情報が含まれる。具体的には、品詞情報ＷＤ１２では、「キョー」に対応する品詞が「名詞」であること、「ノ」に対応する品詞が「助詞」であること、「テンキ」に対応する品詞が「名詞」であること、「ハ」に対応する品詞が「助詞」であること、を示す情報で構成される。

ここで、図２の例では、学習部１３４は、別種情報である読み情報ＴＸ１２をＬＳＴＭに適用することで、読み情報ＴＸ１２の特徴を示す値を取得していた。しかし、品詞情報ＷＤ１２をさらに用いる今回の例では、学習部１３４は、品詞情報ＷＤ１２をＬＳＴＭが用いられる言語モデルＭＤ２－２に適用することで、品詞情報ＷＤ１２の特徴を示す値をさらに取得する。この点について、言語モデルＭＤ２－２は、学習部１３４により品詞情報ＷＤ１２が入力されると、品詞情報ＷＤ１２に基づき形態素ごとの品詞の特徴を抽出する。例えば、言語モデルＭＤ２－２は、隣り合う品詞間の関係性を特徴付ける情報を抽出する。そして、言語モデルＭＤ２－２は、隣り合う品詞間の関係性を特徴付ける値（例えば、アテンションスコア）を算出し、これを出力する。このようにして、学習部１３４は、品詞情報ＷＤ１２の特徴を示す値をさらに取得する。

次に、学習部１３４は、表記情報ＴＸ１１を用いた学習処理に対応するモデルにアテンションを適用し、アテンションに応じてモデルが出力した出力情報に基づいて、予測対象情報を生成するように言語モデルＭＤ２を学習する。

ここで、図２の例では、学習部１３４は、言語モデルＭＤ２－１のうち、ＬＳＴＭが用いられるエンコーダモデル（第１のモデルの一例）に対して、読み情報ＴＸ１２の特徴を示すアテンションを入力していた。しかし、品詞情報ＷＤ１２をさらに用いる今回の例では、学習部１３４は、係るエンコーダモデルに対して、品詞情報ＷＤ１２の特徴を示すアテンションをさらに入力する。エンコーダにおいて複数層の双方向ＬＳＴＭが用いられている場合、学習部１３４は、いずれの層にアテンションを入力してもよい。エンコーダモデルでは、読み情報ＴＸ１２の特徴を示すアテンション、および、品詞情報ＷＤ１２の特徴を示すアテンションが入力されると、表記情報ＴＸ１１の特徴を示す値がこれらアテンションに応じて補正される。

また、学習部１３４は、表記情報ＴＸ１１の特徴を示す値がアテンションに応じて補正されると、言語モデルＭＤ２－１のうち、ＬＳＴＭが用いられるデコーダモデル（第２のモデルの一例）に対して、補正後の値を入力する。そして、学習部１３４は、補正後の値に基づき係るデコーダモデルが予測対象情報を出力するように学習させる。図６の例では、学習部１３４は、表記情報ＴＸ１１（ラベルとしての文字列「今日の天気は」）の入力に応じて、予測対象情報「今日の天気は」という文字列ＴＸ１３が生成されるよう言語モデルＭＤ２－１を学習する。

〔７－２．表記情報と読み情報の関係について〕
上記実施形態では、表記情報および読み情報の双方が１の利用者による入力データに基づくものである例を示した。表記情報および読み情報は、それぞれ異なる利用者による入力データから生成されてもよい。例えば、学習装置１００は、利用者Ｕ３による音声データに対応する表記情報を取得し、利用者Ｕ４に対応する音声データに対応する読み情報を取得することで、利用者Ｕ３の表記情報と、利用者Ｕ４の読み情報とに基づいて、予測対象情報が生成されるようにモデルを学習してもよい。

なお、この場合、利用者Ｕ３による音声データで示される発話内容と、利用者Ｕ４に対応する音声データで示される発話内容とは、同一の内容であることが好ましい。

〔７－３．表記情報、読み情報について〕
上記実施形態では、学習装置１００が、学習に用いられるデータを生成する例を示した。例えば、学習装置１００が、利用者による音声入力に応じて、音声データから表記情報および読み情報を生成する例を示した。しかしながら、学習装置１００は、必ずしも学習に用いられるデータを生成する必要はない。例えば、表記情報および読み情報は、学習装置１００に対して外部から入力されてもよい。例えば、表記情報および読み情報は、利用者による操作に応じて外部のコンピュータから学習装置１００へと入力されてもよい。

また、表示情報および読み情報のうちいずれか一方だけが外部から入力されることで、学習装置１００は、入力された方を用いて、もう一方を生成してもよい。

また、上記実施形態では、学習装置１００が、入力データに対応する音素から読み情報（別種情報）を得ることで、この読み情報と表記情報に基づいて表記情報を入力とした場合の予測結果となる予測対象情報が生成されるようにモデルを学習する例を示した。しかし、音素は音韻論上の最小単位であり、上述した通り音素から読み情報が推定されることを考慮すると、学習装置１００は、読み情報の代わりに読み情報の大本となる音素情報自体を学習に用いることもできる。したがって、例えば、学習装置１００は、読み情報と表記情報に基づいて表記情報を入力とした場合の予測結果となる予測対象情報が生成されるようにモデルを学習してもよい。

〔８．ハードウェア構成〕
また、上記実施形態に係る学習装置１００および予測装置１０は、例えば図７に示すような構成のコンピュータ１０００によって実現される。図７は、コンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、通信網５０を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを、通信網５０を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを、入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラム又はデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る学習装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、ＨＤＤ１４００には、記憶部１２０内のデータが格納される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを、記録媒体１８００から読み取って実行するが、他の例として、他の装置から、通信網５０を介してこれらのプログラムを取得してもよい。

また、例えば、コンピュータ１０００が実施形態に係る予測装置１０として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３の機能を実現する。

〔９．その他〕
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

以上、本願の実施形態をいくつかの図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１００学習装置
１２０記憶部
１２１モデル情報記憶部
１３０制御部
１３１データ制御部
１３２生成部
１３３取得部
１３４学習部
１３５提供部
１０予測装置
１３制御部
１３ａ取得部
１３ｂ入力受付部
１３ｃ予測部
１３ｄ出力制御部

Claims

予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する取得部と、
前記所定の情報と、前記別種情報とに基づいて、前記所定の情報を入力とした場合の予測結果となる前記予測対象情報が生成されるようにモデルを学習する学習部と
を有することを特徴とする学習装置。
前記取得部は、前記所定の情報として、字面が優先された文字列で前記予測対象情報が表記された文字情報であって、所定の中間表現で構成された文字情報を取得し、前記別種情報として、前記所定の情報が発話された際の発話音に応じて表記された文字情報を取得する
ことを特徴とする請求項１に記載の学習装置。
前記学習部は、前記別種情報の特徴を示す値に応じて前記モデルにより出力された出力情報に基づいて、前記予測対象情報を生成するようにモデルを学習する
ことを特徴とする請求項１または２に記載の学習装置。
前記学習部は、前記別種情報の特徴を示す値として、前記別種情報を示す文字列が所定の単位で分解された単位ごとの特徴を示す値が前記モデルに入力されることで出力された前記出力情報に基づいて、前記予測対象情報を生成するようにモデルを学習する
ことを特徴とする請求項３に記載の学習装置。
前記学習部は、前記別種情報の特徴を示す値として、前記別種情報を示す文字列が所定の単位で分解された各単位の品詞の特徴を示す値が前記モデルに入力されることで出力された前記出力情報に基づいて、前記予測対象情報を生成するようにモデルを学習する
ことを特徴とする請求項３または４に記載の学習装置。
前記学習部は、前記モデルのうち第１のモデルが出力した値が、前記別種情報の特徴を示す値に応じて補正されたことによる補正後の値を、前記モデルのうち第２のモデルに入力することで、当該第２のモデルが前記予測対象情報を出力するように前記モデルを学習させる
ことを特徴とする請求項３～５のいずれか１つに記載の学習装置。
所定の音響モデルを用いて、入力された音声データから前記所定の情報を生成する生成部をさらに有し、
前記学習部は、前記生成部により生成された所定の情報と、前記別種情報とに基づいて、前記モデルを学習する
ことを特徴とする請求項１～６のいずれか１つに記載の学習装置。
請求項１～７のいずれか１つに記載の学習装置により学習されたモデルを用いて、入力データを示す文字情報を予測する予測装置。
学習装置が実行する学習方法であって、
予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する取得工程と、
前記所定の情報と、前記別種情報とに基づいて、前記所定の情報を入力とした場合の予測結果となる前記予測対象情報が生成されるようにモデルを学習する学習工程と
を含むことを特徴とする学習方法。
予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する取得手順と、
前記所定の情報と、前記別種情報とに基づいて、前記所定の情報を入力とした場合の予測結果となる前記予測対象情報が生成されるようにモデルを学習する学習手順と
をコンピュータに実行させることを特徴とする学習プログラム。