JP2022064779A - 学習装置、予測装置、学習方法および学習プログラム - Google Patents

学習装置、予測装置、学習方法および学習プログラム Download PDF

Info

Publication number
JP2022064779A
JP2022064779A JP2020173612A JP2020173612A JP2022064779A JP 2022064779 A JP2022064779 A JP 2022064779A JP 2020173612 A JP2020173612 A JP 2020173612A JP 2020173612 A JP2020173612 A JP 2020173612A JP 2022064779 A JP2022064779 A JP 2022064779A
Authority
JP
Japan
Prior art keywords
information
model
learning
unit
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020173612A
Other languages
English (en)
Other versions
JP7244473B2 (ja
Inventor
悠哉 藤田
Yuya Fujita
基 大町
Motoki Omachi
賢也 渡邊
Kenya Watanabe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2020173612A priority Critical patent/JP7244473B2/ja
Publication of JP2022064779A publication Critical patent/JP2022064779A/ja
Application granted granted Critical
Publication of JP7244473B2 publication Critical patent/JP7244473B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】モデルを用いた言語処理での認識精度を高めること。【解決手段】本願に係る学習装置は、取得部と、学習部とを有する。取得部は、予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する。学習部は、所定の情報と、別種情報とに基づいて、所定の情報を入力とした場合の予測結果となる予測対象情報が生成されるようにモデルを学習する。【選択図】図4

Description

本発明は、学習装置、予測装置、学習方法および学習プログラムに関する。
従来、言語モデルを用いて言語処理を行う技術が知られている。このような技術の一例として、発話文の単語列に対して、次に現れる単語を予測する技術が知られている。
特開2019-219827号公報
しかしながら、上記の従来技術では、モデルを用いた言語処理での認識精度を高めることができるとは限らない。
例えば、上記の従来技術では、発話文の文頭から文末まで、当該発話文を構成する単語に対応する入力単語ベクトルと発話文に対応するキャプション統合ベクトルとに基づいて言語モデルが学習されている。
このようなことから、上記の従来技術では、例えば、単語表記をサポートするような他種別の情報をさらに用いてモデルを学習することは考慮されていない。
したがって、上記の従来技術では、モデルを用いた言語処理での認識精度を高めることができるとは限らない。
本願は、上記に鑑みてなされたものであって、モデルを用いた言語処理での認識精度を高めることができる学習装置、予測装置、学習方法および学習プログラムを提供することを目的とする。
本願に係る学習装置は、予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する取得部と、前記所定の情報と、前記別種情報とに基づいて、前記所定の情報を入力とした場合の予測結果となる前記予測対象情報が生成されるようにモデルを学習する学習部とを有することを特徴とする。
実施形態の一態様によれば、モデルを用いた言語処理での認識精度を高めることができるという効果を奏する。
図1は、実施形態に係る学習処理の全体像を示す図である。 図2は、実施形態に係る学習処理の一例を示す図である。 図3は、実施形態に係る予測処理の一例を示す図である。 図4は、実施形態に係る学習装置および予測装置の構成例を示す図である。 図5は、実施形態に係る学習処理手順を示すフローチャートである。 図6は、変形例に係る学習処理の一例を示す図である。 図7は、コンピュータ1000の一例を示すハードウェア構成図である。
以下に、本願に係る学習装置、予測装置、学習方法および学習プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る学習装置、予測装置、学習方法および学習プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。
[実施形態]
〔1.実施形態に係る学習処理の概要〕
まず、実施形態に係る学習処理の概要について音声認識技術を例に説明する。例えば、音声認識を行うコンピュータには、音素などの短い単位ごとの標準的な特徴量挙動パターン(音響モデル)、発声された文の中に出現し得る単語の一覧とそれぞれの読み(単語辞書)、文中の単語つながりパターン(言語モデル)などが予め蓄えられている。
したがって、音声認識を行うコンピュータでは、入力音声から得た特徴量の時系列を基に、これらのモデルを用いて作り出される候補文の中から入力音声に対応する文としてもっとも確からしいものを探し出す(探索する)ことで音声が認識されることになる。
音声認識についてより詳細に説明する。音声認識とは、例えばマイクなどの集音部から入力された音声波形の時系列(X=x・・・x)を、テキスト文字列(W=w・・・w)に変換する技術である。このようなことから、音響モデルとは、音素の周波数パターンなどの音響的特徴を表すものと解釈することができる。具体的には、音響モデルは、確率p(X|W)を近似するモデルであり、単語列Wが音声波形Xとして発現する確率が与えられる。一方、言語モデルとは、単語間の接続関係などの言語的特徴を表すものと解釈することができる。具体的には、言語モデルは、確率p(W)を近似するモデルであり、単語列Wが発現する確率が与えられることで単語列中の次の単語が予測される。また、単語辞書は、言語モデルの単語と音響モデルを結びつけるために用いられる。
ここで、本実施形態で用いられる音響モデルの一例としては、DNN-HMM音響モデルが挙げられる。DNN-HMM音響モデルは、ある時刻の音声特徴量に対してどのラベル(例えば音素)の確率が高いかをモデル化したDNN(Deep Neural Networks:ディープニューラルネットワーク)と、ラベルの時間変化をモデル化したHMM(Hidden Markov Model:隠れマルコフモデル)の2つのモデルで表現されている。
なお、音響モデルに用いられるディープニューラルネットワークは、DNNに限らず、例えば、CNN(Convolutional Neural Networks:畳み込みニューラルネットワーク)や、RNN(Recurrent Neural Networks:リカレントニューラルネットワーク)の1つであるLSTM(Long Short-Term Memory)、あるいはこれらの組み合わせが用いられてもよい。
また、本実施形態で用いられる言語モデルの一例としては、N-gram言語モデルが挙げられる。N-gram言語モデルでは、単語列中の次の単語が予測されが、次単語の候補をよりよく予測できる(パープレキシティを下げる)ことのできるRNN言語モデル(例えば、LSTM)が用いられてもよい。
また、音声認識は、上記のような音響モデル、言語モデル、単語辞書といった複数の部品を個々に最適化して組み合わせたシステムとして構築される場合があるが、本実施形態で対象とする音声認識は、GMM(Gaussian Mixture Model)を1つのDNNに置き換えて利用するというDNN-HMMハイブリッド音声認識であってよい。一方で、本実施形態で対象とする音声認識は、DNN-HMMハイブリッド音声認識に限らず、LSTMのようなRNNを用いて直接音響特長量から目的の記号(例えば、音素や文字など)に変換するEnd-to-End音声認識であってもよい。
上記の通り、DNN-HMMハイブリッド音声認識では、音響モデル、言語モデル、単語辞書といった複数の部品を個々に最適化して組み合わせられるのに対して、End-to-End音声認識では、これらが1つのニューラルネットワークとして構築されており、モデルの構造がシンプルになる。したがって、End-to-End音声認識では、モデルを軽量化してスマートスピーカーやスマートフォンなどのエッジデバイス側で動作させるということがより容易に行えるようになるといった利点がある。
また、End-to-End音声認識には、CTC(Connectionist Temporal Classification)を用いた手法と、アテンション機構(注意機構とも呼ばれる)(attention mechanism)を用いたエンコーダ-デコーダモデルがある。すなわち、アテンション機構を用いたモデルは、エンコーダとデコーダの2つのサブネットワークから構成される。エンコーダでは、LSTMのようなRNNを用いて音響特長量系列を長さTの分散表現にする。そして、このエンコードされた情報を基にデコーダは、長さLの文字系列を予測する。例えば、デコーダは、エンコードされた系列表現の関連する度合いに基づいて文字系列を順次予測する。
実施形態に係る学習処理では、エンコーダおよびデコーダともに複数層の双方向LSTMが用いられてもよいし、エンコーダおよびデコーダのうちいずれか一方には1層の単方向LSTMが用いられてもよい。
ここで、DNN-HMMハイブリッド音声認識、End-to-End音声認識のいずれであっても認識精度(予測精度)を改善する余地がある。したがって、実施形態に係る学習処理は、上記のようなネットワークモデルの中で従来用いられている情報(後述する「表記情報」)に加えて、係る情報をサポートできるようなサポート情報(後述する「読み情報」)をさらに用いて認識精度を高めようとするアプローチである。具体的には、実施形態に係る学習処理は、アテンション機構を用いたエンコーダ-デコーダモデルに対して上記のようなサポート情報を適用することで、予測対象となる文字情報である予測対象情報が、特定の情報を入力とした場合の予測結果として生成されるようモデルを学習するものである。
例えば、画像認識においてアテンション機構を用いて注視すべき領域を強調させる技術がある。実施形態に係る学習処理は、係る技術を文字認識に適用することで、強調すべき表記情報をアテンションで強調させることで、アテンションに応じた文字列を出力するようモデルを学習させる、というものである。
なお、以下の実施形態では、実施形態に係る学習処理で対象とされる文字認識技術は、音声認識技術であるものとして説明するが、実施形態に係る学習処理を適用可能な文字認識技術は、音声認識技術に限定されない。例えば、実施形態に係る学習処理は、機械翻訳をはじめとする各種の文字変換に適用され得る。
〔2.実施形態に係る学習処理の全体像と、音声認識の中での位置付け〕
続いて、図1を用いて実施形態に係る学習処理の全体像と、音声認識の中での位置付けについて説明する。図1は、実施形態に係る学習処理の全体像を示す図である。図1に示される学習処理は、学習装置の一例である学習装置100によって行われる。また、係る例では、学習装置100は、音声認識に特化した装置(すなわち音声認識装置)であってよい。また、本実施形態では、学習装置100は、サーバ装置であるものとするが、クラウドによって構成されてもよい。
また、図1には、入力音声に対応する文字列としてもっとも確からしい文字列が予測結果として出力されるよう、このもっとも確からしい文字列を探索するという学習処理の流れの一場面が示される。また、図1には、任意の利用者である利用者Uxにより入力された音声データ「今日の天気は?」に応じた表記情報が学習用データとして用いられる例が示される。
また、図1の例では、「今日の天気は?」という音声が、字面が優先された文字列(具体的には、漢字とひらがな(場合によってはカタカナでもよい)で構成される見た目上もっとも自然な表記形態の文字列)で構成された文章として、「今日の天気は」という表記で認識されるようモデルを学習したい。そうすると、図1の例では、「今日の天気は」という文字情報が、予測対象となる文字情報である予測対象情報に対応する。また、このようなことから後述するラベルは、予測対象情報に合わせて、表記形態の種別として字面が優先された表記形態で生成されることになる。
上記の点を踏まえて以下に、実施形態に係る学習処理の全体像を示す。
まず、学習装置100は、音声データ「今日の天気は?」の入力を受け付けたことに応じて、音声データにA/D変換を施すことで、音声データを示す音声波形を得る。
次に、学習装置100は、音声波形に基づいて、音声データの特徴量を計算することで、音声データの特徴を示す特徴量情報を抽出する。例えば、学習装置100は、音声波形を20ms~30msのフレームデータに分解し、フレームごとの特徴量を抽出する。また、フレームごとの特徴量は、図1に示す音響特長量系列として与えられる。
次に、学習装置100は、音響モデルMD1、単語辞書DC、言語モデルMD2を用いて、確からしい文字列を探索するという学習処理を行う。
ここで、音響モデルMD1は、例えば、DNN-HMM音響モデルであってよい。もちろん音響モデルMD1は、DNN-HMM音響モデルに限定されず、各種の音響モデルが適用され得る。また、言語モデルMD2は、アテンション機構を用いたエンコーダ-デコーダモデルであってよい。例えば、言語モデルMD2は、LSTMを用いたアテンション付きのエンコーダ-デコーダモデルであってよい。このような言語モデルMD2では、エンコーダおよびデコーダの役割をもたせる層にアテンション機構を有するLSTMが用いられる。また、LSTMは、過去の時間の情報を参照するリカレントニューラルネットワーク(Unidirectional)のLSTM(Unidirectional-LSTM)であってもよい。
また、言語モデルMD2は、LSTMを用いたアテンション付きのエンコーダ-デコーダモデルに限定されず、各種の言語モデルが適用され得る。例えば、言語モデルMD2は、RNNやCNNなどが使われずアテンション層のみで構築されるTransformerであってもよい。具体的には、言語モデルMD2は、Transformerを用いたアテンション付きのエンコーダ-デコーダモデルであってもよい。
また、図1の例では、音響モデルMD1、単語辞書DC、言語モデルMD2がひとくくりにされている。したがって、実施形態に係る音声認識は、音響モデルMD1、単語辞書DC、言語モデルMD2を個々に最適化して組み合わせたDNN-HMMハイブリッド音声認識であってよい。また、実施形態に係る音声認識は、音響モデルMD1、単語辞書DC、言語モデルMD2それぞれに対応するニューラルネットワークが1つのニューラルネットワークで構築されたEnd-to-End音声認識であってもよい。また、このようなことから図1では、音響モデルMD1、単語辞書DC、言語モデルMD2をひとくくりにした音声認識モデルであって、DNN-HMMハイブリッド音声認識、あるいは、End-to-End音声認識としてのモデルが「音声認識DNN」と概念的に表記されている。換言すると、実施形態に係る音声認識DNNは、DNN-HMMハイブリッド音声認識モデルであってもよいし、End-to-End音声認識モデルであってもよい。
このような状態において、学習装置100は、学習用データ(ラベル)の生成を行う。例えば、学習装置100は、各フレームデータ(音響特長量系列)について、音響モデルMD1を用いてラベルごとの確率に変換することで認識結果であるラベル系列(予測対象となる文字情報である予測対象情報を示す所定の情報の一例)を生成(出力)する。
ラベルは、例えば、音素、仮名(ひらがな、カタカナ)、漢字、単語といった単位であらかじめ定義されてよく、例えば、音響モデルMD1において、字面が優先された文字列(具体的には、漢字と仮名で構成される見た目上最も自然な表記形態で示される文字列)を出力するように学習されていたとする。係る場合、学習装置100は、ラベルごとの確率に基づいて、予測対象情報「今日の天気は」を示す所定の情報である学習用データ(ラベル)として、字面が優先された文字列「今日の天気は」を得る。
また、ここでいうラベルとしての文字列「今日の天気は」は、漢字と仮名で構成される見た目上最も自然な表記で示される情報、すなわち「表記情報」である。なお、予測対象情報「今日の天気は」と、ラベルとしての文字列「今日の天気は」とは、同一に見えるが、ラベルとしての文字列「今日の天気は」は、音素やベクトルを含む中間表現で構成された文字列であり、実際には、予測対象情報「今日の天気は」とは情報の構成要素が異なる。
また、学習装置100は、所定の情報である学習用データ(ラベル)に対応する情報であって、この所定の情報を「読み」の観点からサポートする(学習処理におけるヒントとなる)別種情報も生成する。
上記の通り、ラベルは、例えば、音素、仮名(ひらがな、カタカナ)、漢字、単語といった単位であらかじめ定義されてよいため、音響モデルMD1は、所定の情報(具体的には、ラベルとしての文字列「今日の天気は」)が発話された際の発話音に応じて表記するという表記形態(所謂、音表記)で示される文字列を出力するように学習されることもできる。このように学習されていた場合、学習装置100は、各フレームデータを音響モデルMD1に入力することで、ラベルとしての文字列「今日の天気は」とは表記形態の種別が異なる別種の文字列として「キョーノテンキハ」を得ることができる。
また、ここでいう別種の文字列「キョーノテンキハ」は、所定の情報が発話された際の発話音に応じて表記される文字情報、すなわち「読み情報」である。したがって、「読み情報」(キョーノテンキハ)は、「表記情報」(今日の天気は)に対する表記形態の種別が異なる「別種情報」である。
なお、図1の例では、学習装置100は、各フレームデータを音響モデルMD1に入力し、音響モデルMD1が各フレームデータに対応する音素に基づく表記情報および読み情報を出力することで、表記情報および読み情報を生成(取得)している。しかしながら、音響モデルMD1の学習のされ方によっては、学習装置100は、各フレームデータを音響モデルMD1に入力することで表記情報を取得し、この表示情報から読み情報を動的に生成することができる。また、音響モデルMD1の学習のされ方によっては、学習装置100は、各フレームデータを音響モデルMD1に入力することで読み情報を取得し、この読み情報から表記情報を動的に生成することができる。
また、学習装置100は、生成した読み情報に対応する品詞情報をさらに生成してもよい。図1の例では、学習装置100は、読み情報としての別種の文字列「キョーノテンキハ」を形態素に分解することで、形態素ごとの品詞を示す品詞情報を取得することができる。また、音響モデルMD1が、このような品詞情報も読み情報とともに出力するよう学習されていてもよい。品詞を用いた処理については図6で説明する。
次に、学習装置100は、上記のように取得した所定の情報と、別種情報とに基づいて、所定の情報を入力とした場合の予測結果となる予測対象情報が生成されるように言語モデルMD2を学習する。図1の例では、学習装置100は、所定の情報の一例であるラベルとしての文字列「今日の天気は」と、別種情報の一例である別種の文字列「キョーノテンキハ」とに基づいて、ラベルとしての文字列「今日の天気は」を入力した場合の予測結果として予測対象情報「今日の天気は」という文字列が生成されるよう言語モデルMD2を学習する。このような学習によれば、言語モデルMD2は、図1に示す「今日の天気は?」という音声入力に対して、字面が優先された文字列「今日の天気は」を音声認識結果として出力できるようになる。
〔3.実施形態に係る学習処理の一例について〕
上述した説明した通り、実施形態に係る学習処理の対象となるモデルは、音声認識DNNに含まれる言語モデルMD2である。したがって、次に、図2を用いて、言語モデルMD2に焦点を当てた学習処理についてより詳細に説明する。図2は、実施形態に係る学習処理の一例を示す図である。図2に示す言語モデルMD2は、LSTMを用いたアテンション付きのエンコーダ-デコーダモデルである。
また、図2の例では、学習装置100が、音響モデルMD1から所定の情報の一例であるラベルとしての文字列「今日の天気は」(表記情報)と、別種情報の一例である別種の文字列「キョーノテンキハ」(読み情報)とを取得したことにより、これらを用いて言語モデルMD2を学習する学習処置の一例が示される。また、このようなことから、図2では、所定の情報の一例であるラベルとしての文字列「今日の天気は」を、「表記情報TX11」と表記し、別種情報の一例である別種の文字列「キョーノテンキハ」を、「読み情報TX12」と表記する。
また、図2の例では、実施形態に係る学習処理において、表記情報TX11を用いた学習処理と、読み情報TX12を用いた学習処理とが同時並行的に進行される。
また、音声認識DNNでは、start-of-sentence(<sos>)と、end-of-sentence(<eos>)という特殊な記号が用いられる。したがって、実施形態に係る学習処理は、<sos>が検出された時点で処理が開始され、<eos>が検出された時点で処理が終了される。
図2の例では、表記情報TX11および表記情報TX12双方の<sos>が検出されたことで、表記情報TX11を用いた学習処理と、読み情報TX12を用いた学習処理とが並行して進んでいる。
このような中で、学習装置100は、別種情報である読み情報TX12をLSTMに適用することで、読み情報TX12の特徴を示す値を取得する(ステップS1)。図2に示すように、言語モデルMD2のうち、読み情報TX12を用いた学習処理に対応するモデルでは、エンコーダおよびデコーダの役割をもたせる層にアテンション機構を有するLSTMが用いられている。このようなモデルを言語モデルMD2-2とすると、言語モデルMD2-2は、学習装置100により読み情報TX12が入力されると、読み情報TX12をパターンごとに分解し、得られたセグメント(例えば、品詞などにより意味のあるセグメント)から特徴を抽出する。また、言語モデルMD2-2は、抽出した特徴を示す値(例えば、アテンションスコア)を算出し、これを出力する。例えば、言語モデルMD2-2は、読み情報TX12が形態素に分解された形態素ごとの特徴を示す値を算出し、これらを出力することができる。
また、このようにして、学習装置100は、読み情報TX12の特徴を示す値として、読み情報TX12の特徴を示すアテンションを取得する。
次に、学習装置100は、表記情報TX11を用いた学習処理に対応するモデルにアテンションを適用し(ステップS2)、そして、アテンションに応じてモデルが出力した出力情報に基づいて、予測対象情報を生成するように言語モデルMD2を学習する(ステップS3)。
ステップS2からS3にかけての処理について具体例を示す。まず、図2に示すように、言語モデルMD2のうち、表記情報TX11を用いた学習処理に対応するモデルは、LSTMを用いたエンコーダ-デコーダモデル(こちらのモデルにはアテンション機構は存在しない)である。このようなモデルを言語モデルMD2-1とすると、学習装置100は、ステップS2において言語モデルMD2-1に対して、ステップS1で得られたアテンションを適用する。
例えば、学習装置100は、言語モデルMD2-1のうち、LSTMが用いられるエンコーダモデル(第1のモデルの一例)に対して、読み情報TX12が形態素に分解された形態素ごとの特徴を示す値(形態素ごとのアテンション)をまとめて入力する。エンコーダにおいて複数層の双方向LSTMが用いられている場合、学習装置100は、いずれの層にアテンションを入力してもよい。
ここで、言語モデルMD2-1のエンコーダモデルは、読み情報TX12を用いた学習処理と同時に進行していた表記情報TX11側の学習処理により、表記情報TX11の特徴を示す値を出力している。よって、アテンションが入力された以降の表記情報TX11を用いた学習処理では、表記情報TX11の特徴を示す値が入力のアテンションに応じて補正される。例えば、表記情報TX11の特徴を示す値とは、モデルパラメータ(接続係数、重み)であり、このモデルパラメータの計算が行われるたびに、計算されたモデルパラメータがアテンションによって更新される。例えば、アテンションが入力された層では、エンコーダモデルで作られた要素ごとの出力に対して、行列積によって重み付けがなされるが、ペアになる要素に対して正しく重み付けされるようアテンションによって補正される。
また、学習装置100は、表記情報TX11の特徴を示す値がアテンションに応じて補正されると、言語モデルMD2-1のうち、LSTMが用いられるデコーダモデル(第2のモデルの一例)に対して、補正後の値を入力する。そして、学習装置100は、補正後の値に基づき係るデコーダモデルが予測対象情報を出力するように学習させる。図2の例では、学習装置100は、表記情報TX11(ラベルとしての文字列「今日の天気は」)の入力に応じて、予測対象情報「今日の天気は」という文字列TX13が生成されるよう言語モデルMD2-1を学習する。
また、図2で説明した学習処理によれば、「今日の天気は?」という音声入力に対して、字面が優先された文字列「今日の天気は」と音声認識結果として出力できるようになる。
また、学習装置100は、実施形態に係る学習処理による学習済の言語モデルMD2を含む音声認識DNNを、モデルを用いて実際に予測(音声認識)を行うデバイスである予測装置に提供する。図2の例では、音声認識DNNを用いて実際に予測を行う予測装置の一例としてスマートスピーカー10(以下、「予測装置10」と表記する場合もある)が示される。例えば、学習装置100は、スマートスピーカー10からの要求があった場合や、音声認識DNNを更新できたタイミングごとに音声認識DNNを提供することができる。例えば、スマートスピーカー10の所有者が利用者U1であるとすると、利用者U1は、スマートスピーカー10に対して音声入力することで、音声入力に応じた最適な出力を得ることができるようになる。
なお、モデルを用いて実際に予測を行うデバイスである所謂エッジデバイスは、スマートスピーカーではなく、例えば、スマートフォンなどの各種の携帯電話端末や、デスクトップPCや、ウェアラブルデバイスなどであってもよい。
さて、これまで図1および図2で説明してきた学習装置100によれば、従来技術のように単に表記情報が学習に用いられるのではなく、表記情報のうち特に強調すべき特徴を音表記である読み情報から得られたアテンションで強調させることで、アテンションに応じた文字列が出力されるようモデルの学習が行われる。このような学習装置100によれば、モデルを用いた言語処理での認識精度を高めることができるようになる。
〔4.実施形態に係る予測処理の一例について〕
続いて、図3を用いて、図1および図2で学習されたモデル(音声認識DNN)の一例を示すとともに、係るモデルを用いた予測処理について説明する。予測処理は、図2に示したスマートスピーカー10によって行われる。図3は、実施形態に係る予測処理の一例を示す図である。
図3には、表記情報TX11(今日の天気は)を学習用データ(ラベル)とし、これをアテンションで補正することで学習された実施形態に係る音声認識DNNが概念的に示される。
ここで、スマートスピーカー10に対して「今日の天気は?」と音声入力されたとする。係る場合、スマートスピーカー10は、まず、音声認識DNNと<sos>とを用いて、単語「今」が発現する確率を計算する。より具体的には、スマートスピーカー10は、従来技術と比較して、このときさらに読み情報TX12(キョーノテンキ)の全てを適用して単語「今」が発現する確率を計算する。このことは、「今日の天気は?」という音声入力に対して、字面が優先された文字列(具体的には、漢字と仮名で構成される見た目上最も自然な表記形態の文字列)である「今日の天気は」が、正しい音声認識結果として出力されるよう、読み情報TX12(キョーノテンキ)によって特徴の抽出がサポートされていることを示す。
また、図3の例では、スマートスピーカー10は、次に、音声認識DNNを用いて、単語「今」の次に単語「日」が発現する確率を計算する。より具体的には、スマートスピーカー10は、従来技術と比較して、このときさらに読み情報TX12(キョーノテンキ)の全てを適用して単語「今」の次に単語「日」が発現する確率を計算する。
また、図3の例では、スマートスピーカー10は、次に、音声認識DNNを用いて、単語「今日」の次に単語「の」が発現する確率を計算する。より具体的には、スマートスピーカー10は、従来技術と比較して、このときさらに読み情報TX12(キョーノテンキ)の全てを適用して単語「今日」の次に単語「の」が発現する確率を計算する。
また、予測処理が進み、<eos>が検出された最後においては、スマートスピーカー10は、音声認識DNNを用いて、文字列「今日の天気は」が発現する確率を計算する。より具体的には、スマートスピーカー10は、従来技術と比較して、このときさらに読み情報TX12(キョーノテンキ)の全てを適用して文字列「今日の天気は」が発現する確率を計算する。
また、スマートスピーカー10は、計算によって得られた確立に基づき最も確かな文字列(この場合、「今日の天気は」)を選択し、選択した文字列を音声認識結果として出力する。例えば、スマートスピーカー10は、表示画面を備えている場合には、この表示画面に音声認識結果を表示させる。また、スマートスピーカー10は、自装置と紐付けられている他のデバイス(例えば、利用者U1のスマートフォンなど)が存在する場合には、この他のデバイスに対して音声認識結果を表示させてもよい。
〔5.生成装置の構成〕
次に、図4を用いて、実施形態に係る学習装置100および予測装置10について説明する。図4は、実施形態に係る学習装置100および予測装置10の構成例を示す図である。
〔5-1.学習装置の構成〕
まず、実施形態に係る学習装置100について説明する。図4に示すように、学習装置100は、通信部110と、記憶部120と、制御部130とを有する。
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークNと有線または無線で接続され、例えば、予測装置10との間で情報の送受信を行う。
(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、モデル情報記憶部121を有する。
(モデル情報記憶部121について)
モデル情報記憶部121は、モデルに関する各種情報を記憶する。例えば、モデル情報記憶部121は、モデルごとに当該モデルの学習に用いる学習用データを記憶する。例えば、モデル情報記憶部121は、図1および図2で説明した表記情報や読み情報を学習用データとして記憶する。
(制御部130について)
制御部130は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、学習装置100内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図4に示すように、制御部130は、データ制御部131と、生成部132と、取得部133と、学習部134と、提供部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図4に示した接続関係に限られず、他の接続関係であってもよい。
(データ制御部131)
データ制御部131は、モデルの学習に用いるデータに関する各種制御を行う。
図1の例を用いると、データ制御部131は、音声入力を受け付けると、受け付けた音声(音声データ)から音声波形を抽出する。また、データ制御部131は、音声波形に基づいて、音声データの特徴量を計算することで、音声データの特徴を示す特徴量情報を抽出する。例えば、データ制御部131は、音声波形を20ms~30msのフレームデータに分解し、フレームごとの特徴量を抽出する。また、フレームごとの特徴量は、音響特長量系列として与えられる。
(生成部132について)
生成部132は、所定の音響モデルを用いて、入力された音声データからモデルの学習に用いるデータを生成する。
図1の例を用いると、生成部132は、学習用データ(ラベル)を生成する。例えば、生成部132は、各フレームデータを音響モデルMD1に入力する。そして、生成部132は、例えば音響モデルMD1に対して各フレームデータに対応する音素に基づく表記情報および読み情報を出力させることで、入力された音声データに対応する表記情報(漢字と仮名で構成される見た目上最も自然な表記形態で示される、字面が優先された文字列)、および、読み情報(表記情報が発話された場合の発話音に応じた表記形態で示された文字列)を取得する。また、生成部132は、取得した情報のうち表記情報を学習用データ(ラベル)として設定し、取得した情報のうち読み情報をアテンションの対象となる情報として設定する。
ここで、表記情報は、予測対象となる文字情報である予測対象情報を示す所定の情報の一例であり、字面が優先された文字列で予測対象情報が表記された文字情報であって、所定の中間表現で構成された文字情報である。また、読み情報は、表記情報とは種別(例えば、表記形態の種別)が異なる別種情報の一例であって、表記情報が発話された際の発話音に応じて表記された文字情報である。
また、生成部132は、表記情報および読み情報をモデル情報記憶部121に登録する。例えば、モデル情報記憶部121において、各モデルがモデルID(Identifier)で区別された状態で登録されている場合、生成部132は、モデルIDで識別されるモデルごとに、当該モデルを対象として生成した表記情報および読み情報を登録する。
(取得部133について)
取得部133は、予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する。具体的には、取得部133は、所定の情報として、字面が優先された文字列で予測対象情報が表記された文字情報であって、所定の中間表現で構成された文字情報を取得し、別種情報として、所定の情報が発話された際の発話音に応じて表記された文字情報を取得する。
図1の例では、生成部132により、所定の情報の一例であるラベルとしての文字列「今日の天気は」(表記情報)と、別種情報の一例である別種の文字列「キョーノテンキハ」(読み情報)とが生成されたことにより、取得部133は、これらの情報を取得する。例えば、取得部133は、実施形態に係る学習処理が行われるタイミングで、これらの情報をモデル情報記憶部121から取得することができる。
(学習部134について)
学習部134は、図1および図2で説明した実施形態に係る学習処理を行う。例えば、学習部134は、音響認識DNNに含まれるモデル(ニューラルネットワーク)のうち、言語モデルMD2を対象として、実施形態に係る学習処理を行う。
また、具体的には、学習部134は、所定の情報と、別種情報とに基づいて、所定の情報を入力とした場合の予測結果(例えば、音声認識結果)となる予測対象情報が生成されるようにモデルを学習する。
例えば、学習部134は、別種情報の特徴を示す値(アテンション)に応じてモデルにより出力された出力情報に基づいて、予測対象情報を生成するようにモデルを学習する。例えば、学習部134は、別種情報の特徴を示す値として、別種情報を示す文字列が所定の単位で分解された単位ごとの特徴を示す値(例えば、形態素ごとのアテンション)の全てがまとめてモデルに入力されることで出力された出力情報に基づいて、予測対象情報を生成するようにモデルを学習する。また、例えば、学習部134は、別種情報の特徴を示す値として、別種情報を示す文字列が所定の単位で分解された各単位の品詞の特徴を示す値がモデルに入力されることで出力された出力情報に基づいて、予測対象情報を生成するようにモデルを学習する。また、これらの一例として、学習部134は、モデルのうち第1のモデル(エンコーダ)が出力した値が、別種情報の特徴を示す値に応じて補正されたことによる補正後の値を入力することで、当該第2のモデルが予測対象情報を出力するように学習させる。
また、学習部134は、上記の学習処理が行われた後の学習済のモデルをモデル情報記憶部121に登録する。
(提供部135について)
提供部135は、学習部134によって学習が行われた学習済のモデルを、係るモデルを用いて予測(例えば、音声認識)を行う予測装置10に提供する。図1の例では、提供部135は、予測装置10の一例であるスマートスピーカー10に学習済のモデルを提供している。
〔5-2.予測装置の構成〕
次に、実施形態に係る予測装置10について説明する。図4に示すように、予測装置10は、通信部11と、制御部13とを有する。
(通信部11について)
通信部11は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部11は、ネットワークNと有線または無線で接続され、例えば、学習装置100との間で情報の送受信を行う。
(制御部13について)
制御部13は、CPUやMPU等によって、予測装置10内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部13は、例えば、ASICやFPGA等の集積回路により実現される。
図4に示すように、制御部13は、取得部13aと、入力受付部13bと、予測部13cと、出力制御部13dとを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部13の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部13が有する各処理部の接続関係は、図4に示した接続関係に限られず、他の接続関係であってもよい。
(取得部13aについて)
取得部13aは、学習済のモデルを取得する。具体的には、取得部13aは、学習済のモデルを学習装置100から取得する。例えば、取得部13aは、実施形態に係る学習処理によりモデルが更新(学習)されるたびに、学習済のモデルを学習装置100から取得する。
(入力受付部13bについて)
入力受付部13bは、利用者から予測対象となる情報の入力を受け付ける。例えば、音声認識のシチュエーションでは、入力受付部13bは、利用者による発話に応じた音声入力を受け付ける。また、例えば、機械翻訳のシチュエーションでは、入力部13bは、機械翻訳の対象となる文字情報の入力を受け付ける。
(予測部13cについて)
予測部13cは、入力受付部13bにより予測対象となる情報の入力を受け付けられた場合には、取得部13aにより取得された学習済のモデルを用いて、入力データを示す文字情報(文字列)を予測する。例えば、音声認識のシチュエーションでは、予測部13cは、図3に示す音声認識DNNを用いて、入力データを示す文字情報(文字列)を予測する。例えば、予測部13cは、単語列Wが発現する確率を計算することで、単語列中の次の単語を予測する。
(出力制御部13dについて)
出力制御部13dは、予測部13cにより予測された予測結果に応じて生成された情報(文字列)が利用者に向けて出力されるよう出力制御する。例えば、出力制御部13dは、予測装置10と紐付けられている他のデバイス(例えば、利用者のスマートフォンなど)が存在する場合には、この他のデバイスに対して予測結果に応じて生成された情報(音声認識結果や翻訳結果など)を表示させてもよい。
〔6.処理手順〕
次に、図5を用いて、実施形態に係る学習処理の手順について説明する。図5は、実施形態に係る学習処理手順を示すフローチャートである。なお、図5の例では、データ制御部131が、利用者から音声入力を受け付けたことで、音声データに対応する特徴量(音響特徴量系列)を抽出したものとし、これに引き続いて行われる実施形態に係る学習処理の手順を示す。また、図5では、図2の例を適宜採用して説明することにする。
まず、生成部132は、特徴量(音響特徴量系列)を音響モデルMD1に適用することで、モデルの学習に用いられるデータを生成する(ステップS101)。例えば、生成部132は、学習用データ(ラベル)に関する各種情報を生成する。例えば、生成部132は、音響モデルMD1を用いて、入力された音声データに対応する表記情報、および、読み情報を生成する。そして、生成部132は、表記情報を学習用データ(ラベル)として設定し、読み情報をアテンションの対象となる情報として設定する。
次に、取得部133は、生成部132により生成されたデータを取得する(ステップS102)。具体的には、取得部133は、表記情報および読み情報を取得する。また、取得部133は、取得した表記情報および読み情報を学習部134に渡す。
次に、学習部134は、表記情報と、読み情報とに基づいて、表記情報を入力とした場合の予測結果となる予測対象情報が生成されるようにモデルを学習する(ステップS103)。例えば、学習部134は、実施形態委係る学習処理のうち、表記情報を用いた学習処置と、読み情報を用いた学習処理を同時に進行させる中で次のような処理を行う。
具体的には、学習部134は、読み情報を言語モデルMD2-2に入力することで、読み情報が形態素に分解された形態素ごとの特徴を示す値(形態素ごとのアテンション)を出力させる。次に、学習部134は、言語モデルMD2-1のうちエンコーダモデルに対して、形態素ごとのアテンションをまとめて入力する。なお、学習部124は、例えば、形態素ごとのアテンションを時系列に応じた順で入力してもよい。
また、学習部134は、この時点でエンコーダモデルによって得られている表記情報の特徴を示す値が、入力したアテンションによって補正されるといった学習がエンコーダモデルによって行われるよう制御する。そして、学習部134は、表記情報の特徴を示す値がアテンションに応じて補正されると、言語モデルMD2-1のうちデコーダモデルに対して、補正後の値を入力する。そして、学習部134は、補正後の値に基づきデコーダモデルが予測対象情報を出力するように学習させる。
〔7.変形例〕
上記実施形態に係る学習装置100は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、学習装置100の他の実施形態について説明する。
〔7-1.品詞情報をさらに用いた学習〕
上記実施形態では、学習部134が、別種情報の特徴を示す値として、別種情報を示す文字列が所定の単位で分解された単位ごとの特徴を示す値がモデルに入力されることで出力された出力情報に基づいて、予測対象情報を生成するようにモデルを学習する例を示した。しかしながら、学習部134は、別種情報に対応する品詞情報をさらに用いてモデルに学習させてもよい。具体的には、学習部134は、別種情報の特徴を示す値として、別種情報を示す文字列が所定の単位で分解された各単位の品詞の特徴を示す値がモデルに入力されることで出力された出力情報に基づいて、予測対象情報を生成するようにモデルを学習する。この点について、図6の例を用いて説明する。図6は、変形例に係る学習処理の一例を示す図である。
図6の例では、図2の例に対して品詞情報がさらに適用された場合の学習処理が示される。したがって、図2の例と重複する内容についてはその説明を省略する。また、図6の例では、取得部133は、読み情報TX12が形態素に分解された形態素ごとの品詞を示す品詞情報を取得している。そして、図6では、読み情報TX12に対応付けられたこのような品詞情報として、品詞情報WD12が示される。つまり、品詞情報WD12には、読み情報TX12が形態素に分解された形態素ごとの品詞を示す品詞情報が含まれる。具体的には、品詞情報WD12では、「キョー」に対応する品詞が「名詞」であること、「ノ」に対応する品詞が「助詞」であること、「テンキ」に対応する品詞が「名詞」であること、「ハ」に対応する品詞が「助詞」であること、を示す情報で構成される。
ここで、図2の例では、学習部134は、別種情報である読み情報TX12をLSTMに適用することで、読み情報TX12の特徴を示す値を取得していた。しかし、品詞情報WD12をさらに用いる今回の例では、学習部134は、品詞情報WD12をLSTMが用いられる言語モデルMD2-2に適用することで、品詞情報WD12の特徴を示す値をさらに取得する。この点について、言語モデルMD2-2は、学習部134により品詞情報WD12が入力されると、品詞情報WD12に基づき形態素ごとの品詞の特徴を抽出する。例えば、言語モデルMD2-2は、隣り合う品詞間の関係性を特徴付ける情報を抽出する。そして、言語モデルMD2-2は、隣り合う品詞間の関係性を特徴付ける値(例えば、アテンションスコア)を算出し、これを出力する。このようにして、学習部134は、品詞情報WD12の特徴を示す値をさらに取得する。
次に、学習部134は、表記情報TX11を用いた学習処理に対応するモデルにアテンションを適用し、アテンションに応じてモデルが出力した出力情報に基づいて、予測対象情報を生成するように言語モデルMD2を学習する。
ここで、図2の例では、学習部134は、言語モデルMD2-1のうち、LSTMが用いられるエンコーダモデル(第1のモデルの一例)に対して、読み情報TX12の特徴を示すアテンションを入力していた。しかし、品詞情報WD12をさらに用いる今回の例では、学習部134は、係るエンコーダモデルに対して、品詞情報WD12の特徴を示すアテンションをさらに入力する。エンコーダにおいて複数層の双方向LSTMが用いられている場合、学習部134は、いずれの層にアテンションを入力してもよい。エンコーダモデルでは、読み情報TX12の特徴を示すアテンション、および、品詞情報WD12の特徴を示すアテンションが入力されると、表記情報TX11の特徴を示す値がこれらアテンションに応じて補正される。
また、学習部134は、表記情報TX11の特徴を示す値がアテンションに応じて補正されると、言語モデルMD2-1のうち、LSTMが用いられるデコーダモデル(第2のモデルの一例)に対して、補正後の値を入力する。そして、学習部134は、補正後の値に基づき係るデコーダモデルが予測対象情報を出力するように学習させる。図6の例では、学習部134は、表記情報TX11(ラベルとしての文字列「今日の天気は」)の入力に応じて、予測対象情報「今日の天気は」という文字列TX13が生成されるよう言語モデルMD2-1を学習する。
〔7-2.表記情報と読み情報の関係について〕
上記実施形態では、表記情報および読み情報の双方が1の利用者による入力データに基づくものである例を示した。表記情報および読み情報は、それぞれ異なる利用者による入力データから生成されてもよい。例えば、学習装置100は、利用者U3による音声データに対応する表記情報を取得し、利用者U4に対応する音声データに対応する読み情報を取得することで、利用者U3の表記情報と、利用者U4の読み情報とに基づいて、予測対象情報が生成されるようにモデルを学習してもよい。
なお、この場合、利用者U3による音声データで示される発話内容と、利用者U4に対応する音声データで示される発話内容とは、同一の内容であることが好ましい。
〔7-3.表記情報、読み情報について〕
上記実施形態では、学習装置100が、学習に用いられるデータを生成する例を示した。例えば、学習装置100が、利用者による音声入力に応じて、音声データから表記情報および読み情報を生成する例を示した。しかしながら、学習装置100は、必ずしも学習に用いられるデータを生成する必要はない。例えば、表記情報および読み情報は、学習装置100に対して外部から入力されてもよい。例えば、表記情報および読み情報は、利用者による操作に応じて外部のコンピュータから学習装置100へと入力されてもよい。
また、表示情報および読み情報のうちいずれか一方だけが外部から入力されることで、学習装置100は、入力された方を用いて、もう一方を生成してもよい。
また、上記実施形態では、学習装置100が、入力データに対応する音素から読み情報(別種情報)を得ることで、この読み情報と表記情報に基づいて表記情報を入力とした場合の予測結果となる予測対象情報が生成されるようにモデルを学習する例を示した。しかし、音素は音韻論上の最小単位であり、上述した通り音素から読み情報が推定されることを考慮すると、学習装置100は、読み情報の代わりに読み情報の大本となる音素情報自体を学習に用いることもできる。したがって、例えば、学習装置100は、読み情報と表記情報に基づいて表記情報を入力とした場合の予測結果となる予測対象情報が生成されるようにモデルを学習してもよい。
〔8.ハードウェア構成〕
また、上記実施形態に係る学習装置100および予測装置10は、例えば図7に示すような構成のコンピュータ1000によって実現される。図7は、コンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、通信網50を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、通信網50を介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを、入出力インターフェイス1600を介して出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る学習装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内のデータが格納される。コンピュータ1000のCPU1100は、これらのプログラムを、記録媒体1800から読み取って実行するが、他の例として、他の装置から、通信網50を介してこれらのプログラムを取得してもよい。
また、例えば、コンピュータ1000が実施形態に係る予測装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部13の機能を実現する。
〔9.その他〕
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
以上、本願の実施形態をいくつかの図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
100 学習装置
120 記憶部
121 モデル情報記憶部
130 制御部
131 データ制御部
132 生成部
133 取得部
134 学習部
135 提供部
10 予測装置
13 制御部
13a 取得部
13b 入力受付部
13c 予測部
13d 出力制御部

Claims (10)

  1. 予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する取得部と、
    前記所定の情報と、前記別種情報とに基づいて、前記所定の情報を入力とした場合の予測結果となる前記予測対象情報が生成されるようにモデルを学習する学習部と
    を有することを特徴とする学習装置。
  2. 前記取得部は、前記所定の情報として、字面が優先された文字列で前記予測対象情報が表記された文字情報であって、所定の中間表現で構成された文字情報を取得し、前記別種情報として、前記所定の情報が発話された際の発話音に応じて表記された文字情報を取得する
    ことを特徴とする請求項1に記載の学習装置。
  3. 前記学習部は、前記別種情報の特徴を示す値に応じて前記モデルにより出力された出力情報に基づいて、前記予測対象情報を生成するようにモデルを学習する
    ことを特徴とする請求項1または2に記載の学習装置。
  4. 前記学習部は、前記別種情報の特徴を示す値として、前記別種情報を示す文字列が所定の単位で分解された単位ごとの特徴を示す値が前記モデルに入力されることで出力された前記出力情報に基づいて、前記予測対象情報を生成するようにモデルを学習する
    ことを特徴とする請求項3に記載の学習装置。
  5. 前記学習部は、前記別種情報の特徴を示す値として、前記別種情報を示す文字列が所定の単位で分解された各単位の品詞の特徴を示す値が前記モデルに入力されることで出力された前記出力情報に基づいて、前記予測対象情報を生成するようにモデルを学習する
    ことを特徴とする請求項3または4に記載の学習装置。
  6. 前記学習部は、前記モデルのうち第1のモデルが出力した値が、前記別種情報の特徴を示す値に応じて補正されたことによる補正後の値を、前記モデルのうち第2のモデルに入力することで、当該第2のモデルが前記予測対象情報を出力するように前記モデルを学習させる
    ことを特徴とする請求項3~5のいずれか1つに記載の学習装置。
  7. 所定の音響モデルを用いて、入力された音声データから前記所定の情報を生成する生成部をさらに有し、
    前記学習部は、前記生成部により生成された所定の情報と、前記別種情報とに基づいて、前記モデルを学習する
    ことを特徴とする請求項1~6のいずれか1つに記載の学習装置。
  8. 請求項1~7のいずれか1つに記載の学習装置により学習されたモデルを用いて、入力データを示す文字情報を予測する予測装置。
  9. 学習装置が実行する学習方法であって、
    予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する取得工程と、
    前記所定の情報と、前記別種情報とに基づいて、前記所定の情報を入力とした場合の予測結果となる前記予測対象情報が生成されるようにモデルを学習する学習工程と
    を含むことを特徴とする学習方法。
  10. 予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する取得手順と、
    前記所定の情報と、前記別種情報とに基づいて、前記所定の情報を入力とした場合の予測結果となる前記予測対象情報が生成されるようにモデルを学習する学習手順と
    をコンピュータに実行させることを特徴とする学習プログラム。
JP2020173612A 2020-10-14 2020-10-14 学習装置、予測装置、学習方法および学習プログラム Active JP7244473B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020173612A JP7244473B2 (ja) 2020-10-14 2020-10-14 学習装置、予測装置、学習方法および学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020173612A JP7244473B2 (ja) 2020-10-14 2020-10-14 学習装置、予測装置、学習方法および学習プログラム

Publications (2)

Publication Number Publication Date
JP2022064779A true JP2022064779A (ja) 2022-04-26
JP7244473B2 JP7244473B2 (ja) 2023-03-22

Family

ID=81385756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020173612A Active JP7244473B2 (ja) 2020-10-14 2020-10-14 学習装置、予測装置、学習方法および学習プログラム

Country Status (1)

Country Link
JP (1) JP7244473B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020030367A (ja) * 2018-08-24 2020-02-27 日本放送協会 音声認識結果整形モデル学習装置およびそのプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020030367A (ja) * 2018-08-24 2020-02-27 日本放送協会 音声認識結果整形モデル学習装置およびそのプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
増田嵩志,鶴岡慶雅: "ニューラルネットワーク日英機械翻訳における品詞情報の利用", 言語処理学会第22回年次大会発表論文集, JPN6022037702, 2016, pages 294 - 297, ISSN: 0004867670 *
田中智大,外2名: "複数仮説を考慮したニューラル誤り訂正言語モデルの検討", 電子情報通信学会技術研究報告, vol. 第118巻,第198号, JPN6022037703, August 2018 (2018-08-01), pages 31 - 36, ISSN: 0004867671 *

Also Published As

Publication number Publication date
JP7244473B2 (ja) 2023-03-22

Similar Documents

Publication Publication Date Title
JP6802005B2 (ja) 音声認識装置、音声認識方法及び音声認識システム
JP7066349B2 (ja) 翻訳方法、翻訳装置及びコンピュータプログラム
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
CN112309366B (zh) 语音合成方法、装置、存储介质及电子设备
CN112735373A (zh) 语音合成方法、装置、设备及存储介质
WO2020098269A1 (zh) 一种语音合成方法及语音合成装置
JP2020034883A (ja) 音声合成装置及びプログラム
EP3550449A1 (en) Search method and electronic device using the method
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
KR102367778B1 (ko) 언어 정보를 처리하기 위한 방법 및 그 전자 장치
KR20220128397A (ko) 자동 음성 인식을 위한 영숫자 시퀀스 바이어싱
JP2023546930A (ja) 言語間音声合成を改良するための音声認識の使用
CN113823259A (zh) 将文本数据转换为音素序列的方法及设备
KR20200095947A (ko) 전자 장치 및 이의 제어 방법
CN112785667A (zh) 视频生成方法、装置、介质及电子设备
KR20200140171A (ko) 전자 장치 및 이의 제어 방법
JP7244473B2 (ja) 学習装置、予測装置、学習方法および学習プログラム
CN114242035A (zh) 语音合成方法、装置、介质以及电子设备
Šoić et al. Spoken notifications in smart environments using Croatian language
JP7012935B1 (ja) プログラム、情報処理装置、方法
US20230017892A1 (en) Injecting Text in Self-Supervised Speech Pre-training
US20220310061A1 (en) Regularizing Word Segmentation
JP7102986B2 (ja) 音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230309

R150 Certificate of patent or registration of utility model

Ref document number: 7244473

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350