JP6849621B2 - 学習装置、学習方法及び学習プログラム - Google Patents

学習装置、学習方法及び学習プログラム Download PDF

Info

Publication number
JP6849621B2
JP6849621B2 JP2018017224A JP2018017224A JP6849621B2 JP 6849621 B2 JP6849621 B2 JP 6849621B2 JP 2018017224 A JP2018017224 A JP 2018017224A JP 2018017224 A JP2018017224 A JP 2018017224A JP 6849621 B2 JP6849621 B2 JP 6849621B2
Authority
JP
Japan
Prior art keywords
hypothesis
learning
series
model
hypotheses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018017224A
Other languages
English (en)
Other versions
JP2019133084A (ja
Inventor
小川 厚徳
厚徳 小川
マーク デルクロア
マーク デルクロア
成樹 苅田
成樹 苅田
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018017224A priority Critical patent/JP6849621B2/ja
Priority to PCT/JP2019/003734 priority patent/WO2019151506A1/ja
Priority to US16/966,056 priority patent/US20200365143A1/en
Publication of JP2019133084A publication Critical patent/JP2019133084A/ja
Application granted granted Critical
Publication of JP6849621B2 publication Critical patent/JP6849621B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Description

本発明は、学習装置、学習方法及び学習プログラムに関する。
音声認識は、人間が発した音声(発話)を計算機により単語列(テキスト)に変換する技術である。通常、音声認識システムは、入力された一つの発話に対して、音声認識スコアの最も高い仮説(音声認識結果)である一つの単語列(1ベスト仮説)を出力する。ただし、音声認識装置による音声認識の精度は、100%ではない。このため、一つの入力発話に対して、1ベスト仮説のみを出力するのではなく、N(≧2)個の仮説を出力して、Nベストリスコアリング装置を用いて、そのN個仮説の中から音声認識精度が最も高いと推定される仮説を最終的な音声認識結果として出力する、Nベストリスコアリングと呼ばれる手法がある。なお、Nベストリスコアリング(モデル)とNベストリランキング(モデル)とは同義として扱われている。
T. Oba, T. Hori, A. Nakamura, and A. Ito, "Round-Robin Duel Discriminative Language Models", IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no.4, pp.1244−1255, May 2012. A. Ogawa and T. Hori, "Error detection and accuracy estimation in automatic speech recognition using deep bidirectional recurrent neural networks", Speech Communication, vol. 89, pp.70−83, May 2017.
図8は、Nベストリスコアリングの処理手順を示す図である。このNベストリスコアリングでは、まず、1発話の入力を受け付けると(ステップS31)、音声認識を行い(ステップS32)、音声認識結果であるN個の仮説を、これらの各スコアを基に降順でソートして出力する(ステップS33)。出力した仮説は、Nベスト仮説である。このNベスト仮説を用いて、Nベストリスコアリング処理が実行される(ステップS34)。Nベストリスコアリング処理では、後処理として、モデルを用いて、そのNベスト仮説に対して再度スコア付けを行う。モデルは、例えば、Nベストリスコアリングモデルを用いる。
そして、Nベストリスコアリング処理では、それらの再度付与されたスコアを基にNベスト仮説を降順にソートするリランキングを行う。Nベストリスコアリング処理では、ソートの結果、Nベスト仮説の最上位にランキングされた仮説を抽出し、抽出した仮説を、最終的な音声認識結果として出力する。
Nの値としては、通常、100〜1000程度が設定されることが多い。なお、Nを2以上に設定しても、一つの仮説しか得られない場合もある。その場合は、Nベストリスコアリングを行う意味はない。
図9は、Nベスト仮説の具体例を示す図である。図9では、Nを5以上に設定して音声認識を行い、5位までの五つの仮説が得られている。図9において、「[]」は、本来そこには単語がないことを示す。仮説は、音声認識スコアを基準として降順にソートされている。図9の例では、3位仮説が最も音声認識精度が高い(最も誤りが少ない)オラクル仮説である。Nベストリスコアリングの処理によって、この3位仮説が1位にリランキングされることが期待される。
ここで、Nベストリスコアリングモデルとして、音声認識仮説である単語列の言語としての正しさに着目して、単語のつながり易さを確率統計的に表現する(評価する)言語モデルが採用されることが多い。単語列の言語としての正しさは、単語列の自然さ、単語同士のつながりの正しさである。
従来、例えば、Nベスト仮説中の各仮説に含まれる単語のn連鎖(nは通常1〜3程度)を素性として、ログリニアモデルに基づき、認識精度がより高い仮説により高いスコアを与えるような識別的言語モデルが盛んに研究されていた。
また、近年では、ニューラルネットワーク(Neural Network:NN)の発展に基づき、NNに基づくNN言語モデルのうち、再帰的ニューラルネットワーク(Recurrent Neural Network:RNN)に基づくRNN言語モデルがNベストリスコアリングモデルとして盛んに利用されている。
ここで、識別的言語モデルは、Nベスト仮説を用いて学習されるため、音声認識誤りを考慮したNベストリスコアリングを行うためのモデルであるものの、最新のNNに基づくモデルではない。
一方、RNN言語モデルは、最新のNNに基づくモデルであるものの、その学習は誤りを含まない正しい単語列を用いて行われるため、音声認識誤りを考慮できない。また、RNN言語モデルは高いNベストリスコアリング精度を示すものの、本来は単語列が与えられたときに、その単語列の次にどの単語が生起しやすいかを推定するモデルである。すなわち、RNN言語モデルは、厳密には、Nベストリスコアリングを行うためのモデルではない。言い換えると、RNN言語モデルの次単語を推定する機能は、Nベストリスコアリングを行う上で必要な機能以上の機能であると言える。
このように、ある一つの入力に対する解の候補として挙げられた複数の系列に対して、最も精度が高い(最も誤りが少ない)候補を判定するために、複数の系列に対して、最も精度が高い候補を判定するうえで最適なモデルを、識別的言語モデルやRNN言語モデルではなく、最新のNNに基づき実現することが期待されている。
本発明は、上記に鑑みてなされたものであって、ある一つの入力に対する解の候補として挙げられた複数の系列に対し、最も精度が高い候補を判定する上で最適なモデルを実現する学習装置、学習方法及び学習プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、精度が既知である学習用の複数の系列の入力を受け付ける入力部と、複数の系列のうちの二つの系列の特徴量がそれぞれ与えられたとき、それら二つの系列の精度の高低を判定できるような、ニューラルネットワークで表されるモデルを学習する学習部と、を有することを特徴とする。
本発明によれば、ある一つの入力に対する解の候補として挙げられた複数の系列に対し、最も精度が高い候補を判定する上で最適なモデルを実現する。
図1は、実施の形態に係るリランキング装置の機能構成の一例を示す図である。 図2は、Nベストリスコアリングモデルの構築例を示す図である。 図3は、図1に示すリランキング装置が実行するリランキング処理の処理手順を示すフローチャートである。 図4は、実施の形態に係る学習装置の機能構成の一例を示す図である。 図5は、図4に示す学習装置が実行する学習処理の処理手順を示すフローチャートである。 図6は、Nベストリランキングの評価結果を示す図である。 図7は、プログラムが実行されることにより、リランキング装置及び学習装置が実現されるコンピュータの一例を示す図である。 図8は、Nベストリスコアリングの処理手順を示す図である。 図9は、Nベスト仮説の具体例を示す図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。本実施の形態では、ある正解に対する候補として挙げられた複数の系列として、音声認識結果であるN(N≧2)ベスト仮説を例として説明する。そして、本実施の形態では、Nベスト仮説のうち、最終的な音声認識結果である最も音声認識精度が高い仮説(単語列)を得るためのNベストリランキングモデルを用いたリランキング装置、及び、Nベストリランキングモデルを実現する学習装置について説明する。なお、本実施の形態については、Nベストリスコアリング(モデル)ではなく、Nベストリランキング(モデル)と表現を統一して説明する。
まず、本実施の形態に係るリランキング装置がNベスト仮説のリランキングを行う上で、Nベストリランキングモデルが有すべき必要最低限な機能について述べる。従来の方法では、Nベスト仮説は、リスコアリングの結果、スコアが降順になるようにソートされる。しかしながら、Nベストリスコアリングの主な目的は、Nベスト仮説から最も音声認識精度が高い仮説(オラクル仮説)を、最終的な音声認識結果として見つけ出すことである。このため、リスコアリング後のNベスト仮説は、必ずしもソートされている必要はない。本実施の形態ではこの点に着目した。
すなわち、本実施の形態では、Nベスト仮説の中からオラクル仮説をリランキングにより見つけ出すためにNベストリランキングモデルに必要最低限な機能は、Nベスト仮説中の二つの仮説に着目したときに、どちらの仮説の方がより高い音声認識精度を有しているかを判定できることである点に着目した。言い換えると、Nベストリランキングモデルに必要最低限な機能は、Nベスト仮説中の二つの仮説を対象に、一対一の仮説比較を行うことができることである。
そこで、本実施の形態に係るリランキング装置は、NNで表され、一対一の二つの仮説の比較を行う機能を持つNベストリランキングモデルを用いることによって、二つの仮説のうち音声認識精度がより高い仮説を判定する機能を持たせた。そして、本実施の形態に係るリランキング装置は、音声認識精度がより高い仮説を次の判定対象の一方の仮説として残し、未判定の仮説から他方の仮説を選択して、Nベストリランキングモデルを用いた比較を行う。本実施の形態に係るリランキング装置は、前回の判定で音声認識精度がより高いと判定された仮説を判定対象の一方の仮説として選択し、未判定の仮説のいずれかを他方の仮説として選択し、Nベストリランキングモデルによる二つの仮説に対する比較処理を繰り返す。これによって、本実施の形態では、Nベスト仮説の中からオラクル仮説を見つけ出すことを可能にした。
[実施の形態]
[リランキング装置]
次に、実施の形態に係るリランキング装置について説明する。このリランキング装置は、音声認識結果であるNベスト仮説のうちの二つの仮説に対する、NNで表されるNベストリランキングモデルを用いた音声認識精度の高低の判定を繰り返し実行して、最も音声認識精度の高い仮説を最終的な音声認識結果として出力する。
図1は、実施の形態に係るリランキング装置の機能構成の一例を示す図である。実施の形態1に係るリランキング装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。
リランキング装置10は、音声認識装置2から出力されたNベスト仮説の入力を受け付ける。そして、リランキング装置10は、このNベスト仮説のうち、二つの仮説に対する音声認識精度の高低についての判定を、全Nベスト仮説について実行し、音声認識精度が高い仮説として残った仮説を、最終的な音声認識結果として出力する。なお、音声認識装置2は、1発話が入力されると、例えば、音声認識用のモデルを用いて音声認識を行い、音声認識結果としてNベスト仮説を出力する。音声認識用のモデルは、学習用の複数の発話と、各発話に対応する書き起こし(正解単語列)を学習データとして用いて学習(モデルパラメータが最適化)されている。
リランキング装置10は、Nベストリランキングモデル記憶部11、仮説入力部12、仮説選択部13、特徴量抽出部14、判定部15、実行制御部16及び出力部17を有する。
Nベストリランキングモデル記憶部11は、Nベストリランキングモデルを記憶する。Nベストリランキングモデルは、NNで表されるモデルである。Nベストリランキングモデルは、音声認識精度が既知である学習用のNベスト仮説を用いて予め学習される。Nベストリランキングモデルは、学習用のNベスト仮説のうち二つの系列の複数の組み合わせについて、二つの系列の特徴量が与えられたときに、その二つの系列の音声認識精度の高低を判定できるように学習される。Nベストリランキングモデルは、二つの仮説を、RNNを用いて隠れ状態ベクトルに変換する。そして、Nベストリランキングモデルは、NNを用いて、隠れ状態ベクトルを基に二つの仮説の精度の高低の並びが正しいことを示す第1の事後確率及び二つの仮説の精度の高低の並びが誤りであることを示す第2の事後確率を出力する。言い換えると、Nベストリランキングモデルでは、RNNの後段に2クラス分類FFNNが接続される。この2クラス分類FFNNは、RNNが変換した隠れ状態ベクトルを基に、二つの仮説のNベスト仮説における順位の上下関係が正しいことを示す第1の事後確率及び二つの仮説のNベスト仮説における順位の上下関係が誤りであることを示す第2の事後確率を出力する。
仮説入力部12は、Nベスト仮説の入力を受け付ける。Nベスト仮説は、音声認識装置2が出力する。或いは、他の装置が、ネットワーク等を介して、Nベスト仮説をリランキング装置10に入力してもよい。
仮説選択部13は、入力を受け付けたNベスト仮説のうち、一対一の比較対象である二つの仮説を選択する。仮説選択部13は、一定のルールに従い、Nベスト仮説の中から、任意の二つの仮説を1組とし選択する。具体的には、仮説選択部13は、二つの仮説の一方の仮説として、比較対象時に最高の精度を持つと推定される仮説を選択する。仮説選択部13は、二つの仮説の他方の仮説として、前回比較対象となった仮説の順位の次の順位の仮説を選択する。このように、仮説選択部13は、全Nベスト仮説について一対一の比較が実行されるように、Nベスト仮説から、比較対象の二つの仮説を選択する。
特徴量抽出部14は、一対一の比較対象である二つの仮説について、それぞれの特徴量を抽出する。特徴量抽出部14は、一対一の比較対象であるNベスト仮説中のu位の仮説(単語列)と、Nベスト仮説中のv位(u<v≦N)の仮説とについて、それぞれの特徴量を抽出する。特徴量抽出部14は、仮説中の各単語単位で特徴量ベクトルを抽出する。各単語の特徴量ベクトルは、例えば、離散値である単語IDをNNによる単語の埋め込み処理により連続値のベクトルとして表現した単語ベクトルに、音声認識処理により得られる単語単位の音響スコア(対数尤度)や言語スコア(対数確率)などを補助特徴量として、単語ベクトルに連結したものである。
判定部15は、一対一の比較対象の二つの仮説に対し、Nベストリランキングモデルを用いて、いずれの仮説がより高い音声認識精度を有しているかを判定する。具体的には、一対一の比較対象であるu位の仮説と、v(u<v≦N)位の仮説との特徴量をNベストリランキングモデルに入力し、Nベストリランキングモデルによる出力結果を用いて、どちらの仮説が高い音声認識精度を有しているかを判定する。u位及びv位で表す仮説の順位は、Nベスト仮説において既に付与されているものである。リランキング装置10では、順位の再設定を行わない。
ここで、Nベストリランキングモデルは、u位の仮説の特徴量及びv位の仮説の特徴量が入力されると、u位の仮説がv位の仮説よりも音声認識精度が高いことを示す第1の事後確率と、v位の仮説がu位の仮説よりも音声認識精度が高いことを示す第2の事後確率とを出力する。判定部15は、第1の事後確率が第2の事後確率よりも高い場合には、u位の仮説がv位の仮説よりも音声認識精度が高いと判定する。また、判定部15は、第1の事後確率が第2の事後確率よりも低い場合には、v位の仮説よりもu位の仮説よりも音声認識精度が高いと判定する。
なお、リランキング装置10では、特徴量抽出部14の機能を、Nベストリランキングモデルが有してもよい。この場合、判定部15は、比較対象である二つの仮説をNベストリランキングモデルに入力する。
そして、判定部15は、比較対象の二つの系列のうち、より精度が高いと判定した仮説を次の判定時における比較対象として残し、他方の仮説を以降比較対象から外す。仮説選択部13は、判定部15によって精度が高いと判定された仮説を二つの系列の一方の仮説として選択し、Nベスト仮説のうち、判定部15による判定が行われていない仮説のいずれかを他方の仮説として選択する。具体的には、前述したように、仮説選択部13は、判定部15が残した仮説を二つの仮説の一方の仮説として選択し、Nベスト仮説のうち、前回比較対象となった仮説の順位の次の順位の仮説を二つの仮説の他方の仮説として選択する。
実行制御部16は、判定部15による判定処理と仮説選択部14による選択処理とを、所定条件に達するまで繰り返す制御を行う。この場合、実行制御部16は、全Nベスト仮説について一対一の比較が実行されるように、仮説選択部13における比較対象の二つの仮説の選択処理、特徴量抽出部14における特徴量抽出処理、及び、判定部15における判定処理を繰り返す制御を行う。具体的に、実行制御部16は、比較対象である仮説の順位がNになるまで、仮説の選択処理、特徴量抽出処理及び判定処理を繰り返す制御を行う。
出力部17は、仮説の選択処理、特徴量抽出処理、判定処理及び順位の設定処理が繰り返された結果、Nベスト仮説のうち、所定条件に達した場合、比較対象として残っている仮説を、最も音声認識精度が高い仮説、すなわち、最終的な音声認識結果として出力する。出力部17は、最後の判定処理で精度が高いと判定された仮説を最終的な音声認識結果として出力する。
次に、Nベストリランキングモデルに必要最低限な機能要件を数式で定義する。W(u)=w (u),w (u),・・・,wL(W(u)) (u)を、Nベスト仮説中のu位の仮説(単語列)と定義する。また、L(W(u))を、W(u)の長さ(単語数)と定義する。
また、A(u)=a (u),a (u),・・・,aL(W(u)) (u)をW(u)に対応する補助特徴量ベクトル列と定義する。W(u)中のi番目の単語w (u)の補助特徴量ベクトルa (u)は、例えば、音声認識装置による音声認識処理の結果として得られる音響スコア(対数尤度)や言語スコア(対数確率)などである(詳細は、例えば、非特許文献2を参照)。
また、X(u)=x (u),x (u),・・・,xL(W(u)) (u)をW(u)に対応する特徴量ベクトル列と定義する。W(u)中のi番目の単語w (u)の特徴量ベクトルx (u)は、x (u)=concat(embed(w (u)),a (u))で得られる。ここで、concat(・)は、ベクトルの連結処理を表す。また、embed(・)は、NNによる単語の埋め込み処理(離散値の単語IDを連続値のベクトルで表現する処理)(詳細は、例えば、坪井祐太,海野裕也,鈴木潤,深層学習による自然言語処理,MLP機械学習プロフェッショナルシリーズ,講談社,2017.(以降、参考文献1とする。)を参照)を表す。なお、embed(・)を行うNNもNベストリスコアリングモデルの一部であり、そのパラメータは、後述のエンコーダRNN及び2クラス分類FFNNのパラメータと同時に学習(最適化)される。
Nベスト仮説中のu番目の仮説W(u)とv番目の仮説W(v)(u<v≦N)の特徴量ベクトル列X(u),X(v)が与えられたとき、リランキング装置10におけるNベストリランキングモデルは、2クラスの記号y={0,1}の事後確率Pを出力する。y=0は、W(u)及び仮説W(v)の順位の上下関係が正しいことを示す。また、y=1は、W(u)及び仮説W(v)の順位の上下関係が誤りであることを示す。P(0|X(u),X(v))は、u位の仮説とv位の仮説との順位の上下関係が正しさを確率的に表現する第1の事後確率である。P(1|X(u),X(v))は、u位の仮説とv位の仮説との順位の上下関係が誤りであることを確率的に表現する第2の事後確率である。
判定部15は、Nベストリランキングモデルから出力された第1の事後確率P(0|X(u),X(v))及び第2の事後確率P(1|X(u),X(v))を取得し、取得した二つの事後確率の大小を比較して、u位の仮説及びv位の仮説のいずれがより音声認識精度が高いかを判定する。判定部15は、第1の事後確率P(0|X(u),X(v))が第2の事後確率P(1|X(u),X(v))よりも高い場合には、u位の仮説がv位の仮説よりも音声認識精度が高いと判定する。また、判定部15は、第1の事後確率P(0|X(u),X(v))が第2の事後確率P(1|X(u),X(v))よりも低い場合には、v位の仮説がu位の仮説よりも音声認識精度が高いと判定する。
すなわち、判定部15は、以下の(1−1)式及び(1−2)式に示すように、u位の仮説及びv位の仮説のいずれがより音声認識精度が高いかを判定する。
P(0|X(u),X(v))≧P(1|X(u),X(v)
if acc(W(u))≧acc(W(v)) ・・・(1−1)
P(0|X(u),X(v))<P(1|X(u),X(v)
otherwise ・・・(1−2)
ここで、acc(・)は、与えられた仮説(単語列)の音声認識精度を返す関数ΣP(y|X(u),X(v))=1である。(1−1)式の1段目に示す不等式が満足される場合、判定部15は、仮説W(u)は仮説W(v)以上の音声認識精度を持つと判定する。また、(1−2)式の不等式が満足される場合、判定部15は、W(u)はW(v)よりも低い音声認識精度を持つと判定する。
したがって、(1−1)式の1段目に示す不等式が満足される場合、W(u)及びW(v)のランキングの上下関係(u<v)が正しいと推定される。このため、判定部15は、W(u)を、W(v)との一対一の仮説比較においてW(v)よりも音声認識精度が高い仮説として残し、次の一対一の仮説比較でもW(u)として引き続き使用する。なお、判定部15は、W(v)を、W(u)よりも音声認識精度が低い仮説として扱い、最も音声認識精度が高い仮説の候補、すなわち、最終的な音声認識結果の候補から除外する。
そして、(1−2)式の1段目不等式が満足される場合は、W(u)及びW(v)のランキングの上下関係は、誤りであると推定される。すなわち、W(u)及びW(v)のランキングの上下関係は逆であると推定される。このため、判定部15は、W(v)を、W(u)との一対一の仮説比較においてW(u)よりも音声認識精度が高い仮説として残し、次の一対一の仮説比較ではW(u)として使用する。なお、判定部15は、元のW(u)を、元のW(v)よりも音声認識精度が低い仮説として扱い、最も音声認識精度が高い仮説の候補、すなわち、最終的な音声認識結果の候補から除外する。なお、Nベストリランキングモデルは、第1の事後確率P(0|X(u),X(v))及び第2の事後確率P(1|X(u),X(v))の事後確率の大小を比較して、u位の仮説及びv位の仮説のいずれがより音声認識精度が高いかを判定し、仮説の残存の判定までを推定してもよい。
[Nベストリランキングモデルの構築例]
図2は、Nベストリランキングモデルの構築例を示す図である。なお、図2では、簡単のため、単語の埋め込み処理embed(・)を行うNNは省略されている。以下、その詳細について説明する。
比較対象の仮説W(u)の長さ(単語数)L(W(u))と仮説W(v)(u<v≦N)の長さL(W(v))とが異なる可能性がある。この長さの違いを吸収するため、Nベストランキングモデルは、二つの仮説を、RNNを用いて隠れ状態ベクトルに変換する。具体的には、Nベストリランキングモデルは、この処理を行うために、エンコーダ−デコーダモデル(詳細は、例えば、参考文献1参照)のエンコーダRNN111を有する。
Nベストリランキングモデルは、エンコーダRNN111を用いてW(u)とW(v)を固定長の隠れ状態ベクトルで表現することができる。そして、Nベストリランキングモデルは、これらの隠れ状態ベクトルを用いることによって、W(u)とW(v)とを公平に比較することが可能になる。
エンコーダRNN111の処理について説明する。エンコーダRNN111は、RNNの一種である長短期記憶メモリ(long short−term memory:LSTM)ユニット(詳細は、例えば、参考文献1参照)を有する。LSTMユニットは、W(u)のi番目の単語w (u)の特徴量ベクトルx (u)と、i−1番目の隠れ状態ベクトルh{i−1} (u)が与えられたとき、i番目の隠れ状態ベクトルh (u)を以下の(2)式のように与える。
(u)=lstm(x (u), h{i−1} (u)) ・・・(2)
ここで、lstm(・)は、1層単方向(unidirectional)のLSTMユニットの処理を示す。また、h (u)=0(ゼロベクトル)である。h (u)は、単語列w (u),w (u),・・・,w (u)の特徴量ベクトル列x (u),x (u),・・・,x (u)をエンコード(符号化)したものである。エンコーダRNN111は、この処理を、特徴量ベクトル列X(u)中の各特徴量ベクトルx (u)に対して繰り返すことで、X(u)をエンコードした隠れ状態ベクトルhL(W(u)) (u)を得ることができる。
エンコーダRNN111は、同様の処理を特徴量ベクトル列X(v)に対しても行い、X(v)をエンコードした隠れ状態ベクトルhL(W(v)) (v)を得る。なお、X(u)に対して処理を行うLSTMユニットと、X(v)に対して処理を行うLSTMユニットは同じもの、すなわち、パラメータが共有されていてもよいし、別のLSTMユニットであってもよい。また、図2では、xL(W(u)) (u),xL(W(v)) (v),hL(W(u)) (u),hL(W(v)) (v)の下付き部分L(W(u))は、L(W(u))と示している。
Nベストリランキングモデルは、以上で得た二つの隠れ状態ベクトルhL(W(u)) (u),hL(W(v)) (v)を連結した隠れ状態ベクトルh{(u,v)}をエンコーダRNN11の出力として以下の(3)式のように得る。
{(u,v)}=concat(hL(W(u)) (u),hL(W(v)) (v)) ・・・(3)
そして、Nベストリランキングモデルは、エンコーダRNN111の後段に、クラス分類(y=0 or 1)を行うためのNNを連結する。例えば、Nベストリランキングモデルは、2クラス分類のためのNNとして、1層のフィードフォワード型NN(FFNN)112(詳細は、例えば、参考文献1を参照)を用いる。エンコーダRNN111の出力として得た隠れ状態ベクトルh{(u,v)}が、1層の2クラス分類FFNNに入力され、最終的に、2クラスの記号y={0,1}の事後確率P(y|X(u),X(v))を以下の(4),(5)式のように得ることができる。
{(u,v)}=linear(h{(u,v)}) ・・・(4)
P(y|X(u),X(v))=softmax(z{(u,v)}
・・・(5)
ここで、linear(・)は、線形変換処理(詳細は、例えば、参考文献1を参照)を表す。softmax(・)は、ソフトマックス処理を表す。また、softmax(・)は、ソフトマックス処理の結果として得られる事後確率ベクトルのy番目の要素(確率値)を表す。
[Nベストリランキングモデルの他の構築例1]
なお、図2に示すエンコーダRNN111のLSTMユニットは、1層単方向のLSTMユニットとしたが、複数層または双方向(bidirectional)のLSTMユニットであってもよい。
[Nベストリランキングモデルの他の構築例2]
また、LSTMユニットの代わりに、単純な(下記のsigmoid関数等を活性化関数として持つ。)RNNや、Gated Recurrent Unit(GRU)を用いてもよい。
[Nベストリランキングモデルの他の構築例3]
さらに、Nベストリランキングモデルは、図2の構築例では、2クラス分類NNとして、1層のフィードフォワード型NNを用いたが、複数層のフィードフォワード型NNを用いてもよい。Nベストリランキングモデルは、複数層のフィードフォワード型NNを用いる場合、活性化関数として、sigmoid関数、tanh関数、Rectified Linear Unit(ReLU)関数、Parametric ReLU(PReLU)関数などを用いることができる。なお、Nベストリランキングモデルの他の構築例1〜3の用語の詳細については、例えば、参考文献1を参照いただきたい。
[Nベストリランキングモデルの他の構築例4]
また、Nベストリランキングモデルは、従来のNベストリスコアリングモデル(例えばRNN言語モデル)により計算されたスコアを、特徴量ベクトルにおける新たな次元として追加して利用することも可能である。
[リランキング処理の処理手順]
次に、図1に示すリランキング装置10が実行するリランキング処理の処理手順について説明する。図3は、図1に示すリランキング装置10が実行するリランキング処理の処理手順を示すフローチャートである。
まず、仮説入力部12が、リランキング対象のNベスト仮説の入力を受け付けると(ステップS1)、仮説選択部13は、入力を受け付けたNベスト仮説のうち、順次、一対一の比較対象であるu位及びv位の二つの仮説を選択する(u<v≦N)。まず、仮説選択部13は、u=1、v=2に設定する(ステップS2)。そして、仮説選択部13は、入力を受け付けたNベスト仮説から、u位及びv位の二つの仮説W(u),W(v)をNベスト仮説から選択する(ステップS3)。続いて、特徴量抽出部14は、仮説W(u),W(v)の特徴量を抽出する(ステップS4)。判定部15は、仮説W(u),W(v)の特徴量(X(u),X(v))をNベストリランキングモデルに入力する(ステップS5)。
判定部15は、Nベストリランキングモデルからの出力結果を取得する(ステップS6)。具体的には、判定部15は、第1の事後確率P(0|X(u),X(v))及び第2の事後確率P(1|X(u),X(v))を取得する。
そして、(1−1)式及び(1−2)式において説明したように、判定部15は、acc(W(u))≧acc(W(v))であるか否かを判定する(ステップS7)。判定部15は、P(0|X(u),X(V))≧P(1|X(u),X(v))の場合、acc(W(u))≧acc(W(v))であると判定する。一方、判定部15は、P(0|X(u),X(v))<P(1|X(u),X(v))の場合、acc(W(u))≧acc(W(v))でないと判定する。
判定部15がacc(W(u))≧acc(W(v))であると判定した場合(ステップS7:Yes)、順位設定部16は、kについてk=uと設定する(ステップS8)。kは、最も音声認識精度が高い仮説のNベスト仮説における順位(ランキング)である。一方、判定部15がacc(W(u))≧acc(W(v))でないと判定した場合(ステップS7:No)、順位設定部16は、k=vと設定する(ステップS9)。
続いて、実行制御部16は、v=Nであるか否かを判定する(ステップS10)。実行制御部16は、v=Nでないと判定した場合(ステップS10:No)、必要な一対一の仮説比較処理がまだ全ては終了していないため、仮説選択部13に対し、比較対象の次の仮説の選択を行わせる。具体的には、仮説選択部13は、u=k、v=v+1に設定し(ステップS11)、ステップS3に戻り、次の判定対象のNベスト仮説W(u),W(v)を選択する。そして、リランキング装置10は、このNベスト仮説W(u),W(v)に対して、ステップS4〜ステップS10の処理を実行する。
また、実行制御部16は、v=Nであると判定した場合(ステップS10:Yes)、必要な一対一の比較処理が全て終了したため、k位のW(k)を最も音声認識精度が高いと推定される仮説、すなわち、最終的な音声認識結果として出力し(ステップS12)、処理を終了する。このように、リランキング装置10では、任意の二つの仮説を1組とし、複数の組についてそれぞれ音声認識精度の高低の判定を繰り返すことで、最も音声認識精度が高いと推定される仮説を、最終的な音声認識結果として出力することができる。
[学習装置]
次に、リランキング装置10が用いるNベストリランキングモデルを学習する学習装置について説明する。図4は、実施の形態に係る学習装置の機能構成の一例を示す図である。実施の形態1に係る学習装置20は、例えば、ROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。図4に示すように、Nベストリランキングモデル記憶部21、学習装置20は、仮説入力部22及び学習部23を有する。
Nベストリランキングモデル記憶部21は、学習対象のNベストリランキングモデルを記憶する。Nベストリランキングモデルは、NNで表される。Nベストリランキングモデルは、Nベスト仮説のうちの二つの仮説を、RNNを用いて隠れ状態ベクトルに変換する。そして、Nベストリランキングモデルは、NNを用いて、隠れ状態ベクトルを基に二つの仮説の精度の高低の並びが正しいことを示す第1の事後確率及び二つの仮説の精度の高低の並びが誤りであることを示す第2の事後確率を出力する。
仮説入力部22は、音声認識精度が既知である学習用のNベスト仮説の入力を受け付ける。学習用のNベスト仮説として、学習データ中の各発話に対して音声認識が行われ、各発話のNベスト仮説が得られているものとする。また学習データであるので、全ての仮説の音声認識精度は、既知である。また、Nベスト仮説中の全ての仮説に対して、前述のように、特徴量ベクトル列が抽出されているものとする。
学習部23は、学習用のNベスト仮説のうちの二つの仮説の特徴量がそれぞれ与えられたときに、それら二つの仮説の精度の高低が判定できるような、Nベストリランキングモデルを学習する。学習部23では、学習用のNベスト仮説のうちの二つの仮説の特徴量ベクトル列と、これらに対応する教師ラベル(後述)とを、Nベストリランキングモデルに与える。これによって、学習部23は、Nベストリランキングモデルがこれら二つの仮説の音声認識精度の高低を正しく判定できるように、Nベストリランキングモデルの学習(パラメータの最適化)を行う。具体的には、学習部23は、特徴量ベクトル列と、対応する教師ラベルとをNベストリランキングモデルに入力し、Nベストリランキングモデルがこれらの特徴量ベクトルを与えられたときに対応する教師ラベルを正しく出力できるように、Nベストリランキングモデルの学習を行う。学習部23は、教師ラベル付与部231及び入替部232を有する。
教師ラベル付与部231は、二つの仮説のうち音声認識精度がより高い仮説に他方の仮説よりも高い順位が付与されている場合に正解を表す教師ラベル(y=0)を付与して、Nベストリランキングモデルに学習させる。また、教師ラベル付与部231は、二つの仮説のうち音声認識精度がより高い仮説に他方の仮説よりも低い順位が付与されている場合に誤りを表す教師ラベル(y=1)を付与し、Nベストリランキングモデルに学習させる。
入替部232は、学習用のNベスト仮説のうちの二つの仮説の順位を入れ換え、対応する教師ラベルも入れ換えて、Nベストリランキングモデルの学習を行う。例えば、教師ラベルとしてy=0が付与されている二つの仮説については、二つの仮説の順位を入れ換え、教師ラベルyを1に変える。一方、教師ラベルとしてy=1が付与されている二つの仮説については、二つの仮説の順位を入れ換え、教師ラベルyを0に変える。
[学習処理の処理手順]
次に、図4に示す学習装置20が実行する学習処理の処理手順について説明する。図5は、図4に示す学習装置が実行する学習処理の処理手順を示すフローチャートである。図5では、Nベスト仮説から二つの仮説としてW(u),W(v)(u<v≦N)が与えられ、かつ、acc(W(u))≧acc(W(v))であるときの学習処理の処理手順を示す。
図5に示すように、教師ラベル付与部231が、教師ラベルy=0を付与し(ステップS21)、W(u),W(v)の特徴量X(u),X(v)をNベストリランキングモデルに入力し(ステップS22)、Nベストリランキングモデルを学習させ、Nベストリランキングモデルのモデルパラメータを更新させる(ステップS23)。すなわち、(1−1)式に従うと、この二つの仮説のW(u),W(v)の特徴量ベクトルX(u),X(v)をNベストリランキングモデルに入力した場合、モデルは、理想的には、P(0|X(u),X(v))=1との事後確率を出力すべきである。このため、教師ラベル付与部231は、教師ラベルとして、y=0を与える。以上の入力を基に、学習部23は、モデルパラメータ(エンコーダRNN(LSTMユニット)及び2クラス分類FFNN及び単語の埋め込み処理embed(・)を行うNNのパラメータを同時に)を更新させる。
そして、入替部232は、仮説W(u),W(v)の順位を入れ替える(ステップS24)。すなわち、元々、W(v)であった仮説をW(u)とし、元々、W(u)であった仮説をW(v)とする。この場合には、acc(W(u))≧acc(W(v))ではない。よって、(1−2)式に従えば、この二つの仮説W(u),W(v)の特徴量ベクトルX(u),X(v)をNベストリランキングモデルに入力した場合、モデルは理想的には,P(1|X(u),X(v))=1との事後確率を出力すべきである。このため、教師ラベル付与部231は、教師ラベルとして、y=1を付与し(ステップS25)、W(u),W(v)の特徴量X(u),X(v)をNベストリランキングモデルに入力する(ステップS26)。学習部23は、以上の入力を基に、Nベストリランキングモデルを学習させ、Nベストリランキングモデルのモデルパラメータを更新させて(ステップS27)、二つの仮説W(u),W(v)に対する学習処理を終了する。
学習装置20は、上記の手順を、学習データ中の各発話のNベスト仮説について繰り返し、更にはその繰り返し自体を何度か(何エポックか)繰り返す。学習部23は、学習の更なる具体的な手順については、従来のNNの学習(詳細は、例えば、参考文献1参照)と同様に行うことができる。
[学習処理の効率化例1]
図5に示す学習処理の処理手順は、計算コストが高い。例えば、Eをエポック数、Mを学習データ中の発話数とすると、上記の学習手順におけるモデルパラメータの更新回数は、最大で、E×M×N×2×になる。通常、Eは数十程度、Mは少なくとも数万、Nは上記の通り100〜1000程度であるので、モデルパラメータの更新回数は、膨大な数に達する。このため、本実施の形態では、学習の効率化を図ることが好ましい。そこで、以下に、学習の効率化例1について述べる。
上述したように、Nベストリスコアリングの主な目的は、Nベスト仮説からオラクル仮説を最終的な音声認識結果として見つけ出すことである。言い換えれば、オラクル仮説をその他のN−1個の仮説から精度よく区別できればよい。これを実現するために、学習の際に、Nベストリランキングモデルに入力する二つの仮説のうちの一方をオラクル仮説とする。これにより、モデルパラメータの更新回数を、E×M×N×2×(N−1)に削減することができる。
[学習処理の効率化例2]
次に、学習の効率化例2について説明する。学習の効率化例1では、Nベスト仮説が与えられたとき、その中に含まれるオラクル仮説とその他のN−1個の仮説とを比較していた。学習処理の効率化例2では、オラクル仮説と比較するその他の仮説の個数を絞り込む。
例えば、まず、下の典型的な四つの仮説を選択する。
仮説1は、オラクル仮説の次に高い音声認識精度を持つ仮説である。
仮説2は、音声認識スコアが最も高い仮説である。
仮説3は、最も低い音声認識精度を持つ仮説である。
仮説4は、音声認識スコアが最も低い仮説である。
仮説1と仮説2とは、音声認識精度が高い(または高いと推定される)仮説で、オラクル仮説との区別が難しい仮説である。一方、仮説3と仮説4とは、音声認識精度が低い(または低いと推定される)仮説で、オラクル仮説との区別が容易な(確実に区別しないといけない)仮説である。その他の仮説をこの四つのみに絞り込む場合は、モデルパラメータの更新回数は、E×M×N×2×4にまで削減することができる。
ただし、上記の四つの仮説のみではオラクル仮説の対立仮説としての多様性が十分に確保できないと考えられる場合、Nベスト仮説から、オラクル仮説とこれらの四つの仮説を除いた、残りのN−5個の仮説から、所定のルールにしたがって抽出した所定数の仮説を選択して前記四つの仮説と共に対立仮説として用いてもよい。例えば、二つの仮説のうちの他方の仮説として、オラクル仮説とこれらの四つの仮説を除いた、残りのN−5個の仮説から、等間隔に、或いは、はランダムに、Q個の仮説を選択して四つの仮説と共に他方の仮説として用いる。このとき、モデルパラメータの更新回数は、E×M×N×2×(4+Q)となる。例えば、Qは、5〜50である。
[評価]
実際に、本実施の形態におけるNベストリスコアリングと、従来のRNN言語モデルとの比較評価を行った。Nベストリランキングモデルを使用する際(評価時)、モデルは、(1−1)式及び(1−2)式にしたがい、2クラスの事後確率P(y|X(u),X(v)),y={0,1}を推定する。リランキング装置10は、これらの事後確率をそのまま用いてNベストリランキングを行ってもよい。また、リランキング装置10は、従来のNベストリランキングモデルと同様に、(6)式を用いて、元々の音声認識スコアとNベストリランキングモデルによるスコア(事後確率の対数値)とを重み付け加算し、その値を基に、Nベストリランキングを行ってもよい。
スコア=(1−λ)×音声認識スコア+λ×Nベストリランキングモデルによるスコア ・・・(6)
なお、(6)式において、λは、Nベストリランキングモデルの重みであり、0≦λ≦1である。リランキング装置10は、λ=1に設定した場合は、音声認識スコアを用いず、Nベストリランキングモデルによるスコアのみを用いて、Nベストリランキングを行う。
[評価結果]
図6は、Nベストリランキングの評価結果を示す図である。図6では、Nベストリランキングの評価結果の例として、日本語話し言葉コーパスを用いて、従来のRNN言語モデル、本実施の形態のリランキング装置10が用いるNベストリランキングモデル、及び、RNN言語モデルのスコアを特徴量ベクトルの一次元として加えたNベストリランキングモデル(他の構築例4)を比較評価した結果を示す。評価は、(6)式に従い、音声認識スコアとNベストリランキングモデルによるスコアとを重み加算したスコアを用いてNベストリランキングを行っている。
図6に示すように、従来のRNN言語モデルよりも、本実施の形態のNベストリランキングモデルの方が着実に音声認識精度を改善できることが分かる。また、構築例4のように、RNN言語モデルのスコアを特徴量ベクトルの一次元として加えることによって、Nベストリランキングモデルの音声認識精度をさらに改善できることが分かる。
さらに、図6より、従来のRNN言語モデルでは、音声認識スコアを使用する必要があり、かつ、重みλに比較的狭い最適値があることが分かる。本評価では、従来のRNN言語モデルは、λ=0.8付近である。一方、本実施の形態のNベストリランキングモデルを用いた場合、従来のRNN言語モデルの場合と比較して、λの最適値の範囲が広いことが分かる。すなわち、本実施の形態のNベストリランキングモデルは、λの値に頑健である。或いは、本実施の形態のNベストリランキングモデルを用いた場合、λ=1において最高か最高に近い音声認識精度が得られているので、音声認識スコアを使用しなくてもよいことが分かる。
[実施の形態の効果]
本実施の形態に係るリランキング装置10では、音声認識結果であるNベスト仮説の入力を受け付け、Nベスト仮説中の二つの仮説に対し、NNで表されるNベストリランキングモデルを用いて、いずれの仮説がより高い音声認識精度を有しているかを判定する。
前述したように、リランキング装置10がNベスト仮説のリランキングを行う上で、Nベストリランキングモデルが有すべき必要最低限の機能は、Nベスト仮説から最も高精度な仮説(オラクル仮説)を、最終的な音声認識結果として見つけ出すことである。このため、リスコアリング後のNベスト仮説は、必ずしもソートされている必要はない。
そこで、本実施の形態では、Nベスト仮説の中からオラクル仮説をリランキングにより見つけ出すために、Nベストリランキングモデルに、Nベスト仮説中の二つの仮説のうちどちらの仮説の方がより高い音声認識精度を有しているかを判定できる機能を持たせた。言い換えると、本実施の形態では、Nベストリランキングモデルに、Nベスト仮説中の二つの仮説を対象に、一対一の仮説比較を実行できる機能を持たせた。
具体的には、リランキング装置10は、NNで表され、一対一の二つの仮説の比較を行う機能を持つNベストリランキングモデルを用い、Nベストリランキングモデルを用いた一対一の二つの仮説に対する比較処理を繰り返すことによって、Nベスト仮説の中からオラクル仮説を見つけ出すことを可能にしている。
さらに、学習装置20は、Nベストリランキングモデルに、音声認識精度が既知である学習用のNベスト仮説のうちの二つの仮説を1組として、複数の組についてそれぞれ音声認識精度の高低を判定できるように予め学習させている。したがって、学習装置20は、Nベストリランキングを行う上で最適なモデルを、最新のNNに基づき実現することができる。そして、リランキング装置10は、学習装置20において学習されたNベストリランキングモデルを使用することによって、一対一の二つの仮説の比較を精度よく行うことができ、このリランキング装置10によるオラクル仮説の抽出を高精度にできる。
このように、本実施の形態によれば、Nベスト仮説の中から最終的な音声認識結果を、精度よく得ることができる、NNで表されたNベストリランキングモデルを実現することができる。そして、本実施によれば、Nベストリランキングモデルを用いることによって、最終的な音声認識結果を精度よく得ることができる。
なお、本実施の形態では、一対一の仮説比較をオラクル仮説(最も精度が高い仮説)と推定される仮説が見つかった時点で処理を終了していたが、オラクル仮説と推定される仮説を除いたN−1個の仮説に対して,オラクル仮説を見つけるのと同様の処理を行うことで、二番目に精度が高いと推定される仮説を見つけ出すことができる。以降、この処理を繰り返すことによって、Nベスト仮説のソートも可能である。
また、本実施の形態では、音声認識のNベスト仮説をリランキングするためのモデルとして、図2に例示するNベストリランキングモデルについて説明した。ただし、本実施の形態のモデルは、音声認識のNベスト仮説への適用にとどまらず、Nベスト仮説を採用しているあらゆるタスクに適用可能である。例えば、機械翻訳や文章要約などにも本実施の形態を適用することが可能である。また、文字列に限らず、数字やアルファベットを含む複数の系列にも本実施の系列を適用することが可能である。
このため、本実施の形態は、ある一つの入力に対する解の候補として挙げられた複数の系列であれば、このうちの二つの系列に対し、NNで表されるモデルを用いて、二つの系列のうちより精度が高い(誤りが少ない)系列を判定できる。そして、本実施の形態では、二つの系列のうち、より精度が高いと判定した系列を比較対象として残し、他方の系列を比較対象から外し、精度が高いと判定した系列を二つの系列の一方の仮説として選択し、複数の系列のうち、判定が行われていない系列のいずれかを他方の仮説として選択する。そして、本実施の形態では、判定処理と選択処理とを、所定条件に達するまで順次実行させせる。これによって、本実施の形態によれば、所定条件に達した場合に比較対象として残っている系列を、最も精度が高い系列、すなわち、最終的な出力として出力することができる。
また、この場合には、本実施の形態では、精度が既知である学習用の複数の系列のうちの二つの系列の特徴量が与えられたとき、それら二つの系列の精度の高低が判定できるような、NNで表されるモデルを学習する。そして、本実施の形態では、二つの系列のうち精度がより高い(誤りがより少ない)系列に他方の系列よりも高い順位が付与されている場合に正解を示す教師ラベルを付与してモデルに学習させる。そして、本実施の形態では、二つの系列のうち精度がより高い(誤りがより少ない)系列に他方の系列よりも低い順位が付与されている場に誤りを示す教師ラベルを付与してモデルに学習させる。本実施の形態では、このモデルによって、一対一の二つの系列の比較が高精度で行うことができ、この結果、最も精度の高い系列を精度よく得ることができる。
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、リランキング装置10及び学習装置20は、一体の装置であってもよい。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。また、本実施形態において説明した各処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
図7は、プログラムが実行されることにより、リランキング装置10或いは学習装置20が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、リランキング装置10或いは学習装置20の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1031に記憶される。例えば、リランキング装置10或いは学習装置20における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。なお、ハードディスクドライブ1031は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
2 音声認識装置
10 リランキング装置
11,21 Nベストリランキングモデル記憶部
12 仮説入力部
13 仮説選択部
14 特徴量抽出部
15 判定部
16 実行制御部
17 出力部
20 学習装置
22 仮説入力部
23 学習部
231 教師ラベル付与部
232 入替部

Claims (7)

  1. 精度が既知である学習用の複数の系列の入力を受け付ける入力部と、
    前記複数の系列のうちの二つの系列の特徴量がそれぞれ与えられたとき、それら二つの系列の精度の高低を判定できるような、ニューラルネットワークで表されるモデルを学習する学習部と、
    を有し、
    前記モデルは、二つの系列を、再帰的ニューラルネットワークを用いて隠れ状態ベクトルに変換し、ニューラルネットワークを用いて、前記隠れ状態ベクトルを基に二つの系列の精度の高低の並びが正しいことを示す第1の事後確率及び二つの系列の精度の高低の並びが誤りであることを示す第2の事後確率を出力することを特徴とする学習装置。
  2. 前記入力部は、音声認識精度が既知である学習用のNベスト仮説の入力を受け付け、
    前記学習部は、前記Nベスト仮説の二つの仮説のうち音声認識精度がより高い仮説に他方の仮説よりも高い順位が付与されている場合に正解ラベルを付与して前記モデルに学習させ、前記二つの仮説のうち音声認識精度がより高い仮説に他方の仮説よりも低い順位が付与されている場合に誤りラベルを付与して前記モデルに学習させることを特徴とする請求項に記載の学習装置。
  3. 前記二つの仮説のうちの一方の仮説は、最も音声認識精度が高いオラクル仮説であることを特徴とする請求項に記載の学習装置。
  4. 前記二つの仮説のうちの他方の仮説は、前記オラクル仮説の次に高い音声認識精度を持つ第1の仮説、Nベスト仮説における音声認識スコアが最も高い第2の仮説、最も低い音声認識精度を持つ第3の仮説、及び、Nベスト仮説における音声認識スコアが最も低い第4の仮説の少なくともいずれかを含むことを特徴とする請求項に記載の学習装置。
  5. 前記二つの仮説のうちの他方の仮説は、Nベスト仮説から、前記オラクル仮説、前記第1の仮説、前記第2の仮説、前記第3の仮説及び前記第4の仮説を除いた仮説から所定のルールにしたがって抽出した所定数の仮説及び前記第1から第4の仮説であることを特徴とする請求項に記載の学習装置。
  6. 学習装置が実行する学習方法であって、
    精度が既知である学習用の複数の系列の入力を受け付ける工程と、
    前記複数の系列のうちの二つの系列の特徴量がそれぞれ与えられたとき、それら二つの系列の精度の高低を判定できるような、ニューラルネットワークで表されるモデルを学習する工程と、
    を含み、
    前記モデルは、二つの系列を、再帰的ニューラルネットワークを用いて隠れ状態ベクトルに変換し、ニューラルネットワークを用いて、前記隠れ状態ベクトルを基に二つの系列の精度の高低の並びが正しいことを示す第1の事後確率及び二つの系列の精度の高低の並びが誤りであることを示す第2の事後確率を出力することを特徴とする学習方法。
  7. 精度が既知である学習用の複数の系列の入力を受け付けるステップと、
    前記複数の系列のうちの二つの系列の特徴量がそれぞれ与えられたとき、それら二つの系列の精度の高低を判定できるような、ニューラルネットワークで表されるモデルを学習するステップと、
    をコンピュータに実行させ
    前記モデルは、二つの系列を、再帰的ニューラルネットワークを用いて隠れ状態ベクトルに変換し、ニューラルネットワークを用いて、前記隠れ状態ベクトルを基に二つの系列の精度の高低の並びが正しいことを示す第1の事後確率及び二つの系列の精度の高低の並びが誤りであることを示す第2の事後確率を出力する学習プログラム。
JP2018017224A 2018-02-02 2018-02-02 学習装置、学習方法及び学習プログラム Active JP6849621B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018017224A JP6849621B2 (ja) 2018-02-02 2018-02-02 学習装置、学習方法及び学習プログラム
PCT/JP2019/003734 WO2019151506A1 (ja) 2018-02-02 2019-02-01 学習装置、学習方法及び学習プログラム
US16/966,056 US20200365143A1 (en) 2018-02-02 2019-02-01 Learning device, learning method, and learning program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018017224A JP6849621B2 (ja) 2018-02-02 2018-02-02 学習装置、学習方法及び学習プログラム

Publications (2)

Publication Number Publication Date
JP2019133084A JP2019133084A (ja) 2019-08-08
JP6849621B2 true JP6849621B2 (ja) 2021-03-24

Family

ID=67480007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018017224A Active JP6849621B2 (ja) 2018-02-02 2018-02-02 学習装置、学習方法及び学習プログラム

Country Status (3)

Country Link
US (1) US20200365143A1 (ja)
JP (1) JP6849621B2 (ja)
WO (1) WO2019151506A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10938852B1 (en) * 2020-08-14 2021-03-02 Private Identity Llc Systems and methods for private authentication with helper networks
US11789699B2 (en) 2018-03-07 2023-10-17 Private Identity Llc Systems and methods for private authentication with helper networks
US11394552B2 (en) 2018-03-07 2022-07-19 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11265168B2 (en) 2018-03-07 2022-03-01 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11392802B2 (en) 2018-03-07 2022-07-19 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11502841B2 (en) 2018-03-07 2022-11-15 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11210375B2 (en) 2018-03-07 2021-12-28 Private Identity Llc Systems and methods for biometric processing with liveness
US10721070B2 (en) 2018-03-07 2020-07-21 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11170084B2 (en) 2018-06-28 2021-11-09 Private Identity Llc Biometric authentication
US11489866B2 (en) * 2018-03-07 2022-11-01 Private Identity Llc Systems and methods for private authentication with helper networks
US11138333B2 (en) 2018-03-07 2021-10-05 Private Identity Llc Systems and methods for privacy-enabled biometric processing
JP7192995B2 (ja) * 2019-08-08 2022-12-20 日本電信電話株式会社 判定装置、学習装置、判定方法及び判定プログラム
US11640527B2 (en) * 2019-09-25 2023-05-02 Salesforce.Com, Inc. Near-zero-cost differentially private deep learning with teacher ensembles
US11455656B2 (en) 2019-11-18 2022-09-27 Walmart Apollo, Llc Methods and apparatus for electronically providing item advertisement recommendations
US11392984B2 (en) * 2019-11-20 2022-07-19 Walmart Apollo, Llc Methods and apparatus for automatically providing item advertisement recommendations

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2810202B2 (ja) * 1990-04-25 1998-10-15 株式会社日立製作所 ニューラルネットワークによる情報処理装置
US20040186714A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Speech recognition improvement through post-processsing
JP5650440B2 (ja) * 2010-05-21 2015-01-07 日本電信電話株式会社 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム
US9015093B1 (en) * 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US20150324686A1 (en) * 2014-05-12 2015-11-12 Qualcomm Incorporated Distributed model learning
US9711133B2 (en) * 2014-07-29 2017-07-18 Yamaha Corporation Estimation of target character train
US20180330718A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition
US10911596B1 (en) * 2017-08-31 2021-02-02 Amazon Technologies, Inc. Voice user interface for wired communications system
US10762903B1 (en) * 2017-11-07 2020-09-01 Amazon Technologies, Inc. Conversational recovery for voice user interface
JP6911785B2 (ja) * 2018-02-02 2021-07-28 日本電信電話株式会社 判定装置、判定方法及び判定プログラム
US11145293B2 (en) * 2018-07-20 2021-10-12 Google Llc Speech recognition with sequence-to-sequence models
US11107463B2 (en) * 2018-08-01 2021-08-31 Google Llc Minimum word error rate training for attention-based sequence-to-sequence models
US11295739B2 (en) * 2018-08-23 2022-04-05 Google Llc Key phrase spotting
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US11017778B1 (en) * 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
CN113811946A (zh) * 2019-05-03 2021-12-17 谷歌有限责任公司 数字序列的端到端自动语音识别
JP7192995B2 (ja) * 2019-08-08 2022-12-20 日本電信電話株式会社 判定装置、学習装置、判定方法及び判定プログラム
US20220093093A1 (en) * 2020-09-21 2022-03-24 Amazon Technologies, Inc. Dialog management for multiple users
US11537661B2 (en) * 2020-10-02 2022-12-27 PolyAI Limited Systems and methods for conversing with a user
US11132988B1 (en) * 2020-10-22 2021-09-28 PolyAI Limited Dialogue system, a dialogue method, and a method of training
US11551663B1 (en) * 2020-12-10 2023-01-10 Amazon Technologies, Inc. Dynamic system response configuration

Also Published As

Publication number Publication date
JP2019133084A (ja) 2019-08-08
WO2019151506A1 (ja) 2019-08-08
US20200365143A1 (en) 2020-11-19

Similar Documents

Publication Publication Date Title
JP6849621B2 (ja) 学習装置、学習方法及び学習プログラム
JP6911785B2 (ja) 判定装置、判定方法及び判定プログラム
US11158305B2 (en) Online verification of custom wake word
CN105654946B (zh) 用于语音识别的设备和方法
CN105679317B (zh) 用于训练语言模型并识别语音的方法和设备
US20190130249A1 (en) Sequence-to-sequence prediction using a neural network model
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
CN110517693B (zh) 语音识别方法、装置、电子设备和计算机可读存储介质
WO2018194960A1 (en) Multi-stage machine learning and recognition
CN108073574A (zh) 用于处理自然语言以及训练自然语言模型的方法和设备
US20210035556A1 (en) Fine-tuning language models for supervised learning tasks via dataset preprocessing
KR20200128938A (ko) 모델 학습 방법 및 장치
US11003993B1 (en) Training recurrent neural networks to generate sequences
CN116127952A (zh) 一种多粒度中文文本纠错方法和装置
CN110275928B (zh) 迭代式实体关系抽取方法
CN1391211A (zh) 对识别系统中的参数进行训练的方法和系统
CN113591462A (zh) 弹幕回复生成方法、装置及电子设备
CN113505225A (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
JP5975938B2 (ja) 音声認識装置、音声認識方法及びプログラム
CN110837730B (zh) 一种未知实体词汇的确定方法及装置
WO2021024491A1 (ja) 判定装置、学習装置、判定方法及び判定プログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
KR102292921B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
US11941356B2 (en) Systems and methods for multi-scale pre-training with densely connected transformer
JP6235922B2 (ja) 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210304

R150 Certificate of patent or registration of utility model

Ref document number: 6849621

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150