JP6973192B2 - 言語モデルを利用する装置、方法及びプログラム - Google Patents

言語モデルを利用する装置、方法及びプログラム Download PDF

Info

Publication number
JP6973192B2
JP6973192B2 JP2018041781A JP2018041781A JP6973192B2 JP 6973192 B2 JP6973192 B2 JP 6973192B2 JP 2018041781 A JP2018041781 A JP 2018041781A JP 2018041781 A JP2018041781 A JP 2018041781A JP 6973192 B2 JP6973192 B2 JP 6973192B2
Authority
JP
Japan
Prior art keywords
symbol
conversion unit
input
auxiliary information
output state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018041781A
Other languages
English (en)
Other versions
JP2019159464A (ja
Inventor
マーク デルクロア
厚徳 小川
智広 中谷
ミヒャエル ヘンチェル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018041781A priority Critical patent/JP6973192B2/ja
Priority to PCT/JP2019/005871 priority patent/WO2019171925A1/ja
Priority to US16/976,692 priority patent/US20210049324A1/en
Publication of JP2019159464A publication Critical patent/JP2019159464A/ja
Application granted granted Critical
Publication of JP6973192B2 publication Critical patent/JP6973192B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、言語モデルのモデル適応技術に関する。
言語モデルのモデルパラメータを、特定のトピックやジャンルに合わせて適応させる技術は、音声認識等において重要な課題である。一般的な言語モデルと比較して、特定のトピックやジャンルに合わせて適応させた言語モデルは、言語解析や音声認識等のタスクの予測精度の向上が期待される。
言語モデルのモデル適応技術として、非特許文献1が知られている。非特許文献1では、リカレントニューラルネットワーク(RNN)で学習された言語モデルのモデル適応技術が開示され、ジャンルに依存しない言語モデルを特定のジャンルに依存するモデルに適応させるため、正解ジャンルのラベルがモデル学習時に追加される。
また、言語モデルではないが、音響モデルにおけるモデル適応技術として、非特許文献2が知られている。
Salil Deena, Madina Hasan, Mortaza Doulaty, Oscar Saz, and Thomas Hain, "Combining feature and model-based adaptation of RNNLMs for multi-genre broadcast speech recognition," in INTERSPEECH, 2016, pp. 2343-2347. Marc Delcroix, Keisuke Kinoshita, Chengzhu Yu, Atsunori Ogawa, Takuya Yoshioka, and Tomohiro Nakatani, "Context adaptive deep neural networks for fast acoustic model adaptation in noisy conditions," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016, pp. 5270-5274.
しかしながら、非特許文献1に開示されるモデル適応技術では、適応のための補助情報がジャンルのみであり、ジャンルを補助情報とする1種類のNNしかないため、適応能力が乏しい。また、正解のジャンルが与えられた状態でなければ適切な学習をすることが難しい。
また、非特許文献2に開示されるモデル適応技術では、音響モデルにおいて高い適応能力を有することが示されている。しかしながら、言語モデルを対象とする場合に当該モデル適応技術をどのように応用すればよいか、また、言語モデルに応用した場合でも効果があるのか否かは明らかではない。
上述した問題点を鑑み、本発明の課題は、より高い適応能力を有する言語モデルのモデル適応技術を提供することである。
上記課題を解決するため、本開示の一態様は、入力された記号を変換し、第1出力状態を得る第1変換部と、前記第1出力状態を変換し、第2出力状態を得る第2変換部と、入力された補助情報を変換し、変換後の補助情報を得る第3変換部と、前記変換後の補助情報と前記第2出力状態とを変換し、複数の出力状態を得る第4変換部と、前記複数の出力状態から前記入力された記号に後続する記号を予測する第5変換部と、を有する装置であって、前記第4変換部は、前記第2出力状態と前記変換後の補助情報とを入力とする複数の隠れ層を有し、各隠れ層に入力される前記変換後の補助情報は互いに異なる装置に関する。
本発明によると、より高い適応能力を有する言語モデルのモデル適応技術を提供することができる。
図1は、本発明の一実施例による推定装置を示すブロック図である。 図2は、本発明の一実施例による言語モデル学習装置を示すブロック図である。 図3は、本発明の一実施例による推定装置及び言語モデル学習装置のハードウェア構成を示すブロック図である。
以下の実施例では、学習済みのニューラルネットワーク(言語モデル)を用いて、入力された記号から次の記号を推定する推定装置と、当該言語モデルを学習する言語モデル学習装置とが開示される。ここで、「記号」とは、言語モデルの処理対象であり、例えば、単語、音素、形態素、文字(character)等である。言語モデルは、入力された記号に基づいて、次に出現する可能性の高い記号の予測結果を出力するものである。以下、処理単位が「単語」である場合を例として、処理を説明する。
後述される実施例による言語モデルは、単語を所定次元のベクトルで表現した単語ベクトルw(t)を入力とし、補助情報を利用して次の単語の予測結果^w(t+1)を出力するものである。例えば、音声認識において、時刻tに発話された単語w(t)の次に発話される可能性の高い単語^w(t+1)を予測する場合等に用いられる。本発明の言語モデルの主な特徴は、補助情報(トピック、文脈、話者等)に依存するニューラルネットワークが複数の分解された隠れ層から構成されることと、分解された隠れ層の各々において、異なる補助情報(γ)に基づく変換が行われることである。
〔実施例1:推定装置〕
まず、図1を参照して、本発明の一実施例による言語モデルを利用した推定装置を説明する。図1は、本発明の一実施例による推定装置を示すブロック図である。
図1に示されるように、推定装置100は、第1変換部110、第2変換部120、第3変換部130、第4変換部140及び第5変換部150を有し、第4変換部140は、第1隠れ層140_1、第2隠れ層140_2、・・・、第N隠れ層140_Nを有する。
第1変換部110は、入力ベクトルw(t)を重み行列U(w)により線形変換することによって第1出力状態x(t)を取得する。例えば、第1変換部110は、ニューラルネットワークの線形層により実現されうる。具体的には、第1変換部110は、時点tにおいて入力された単語を符号化したベクトルw(t)に対して、
Figure 0006973192
に従ってx(t)を計算し、第2変換部120に出力する。
第2変換部120は、第1変換部110から出力されたx(t)をニューラルネットワークに入力することによって第2出力状態h(t)を取得する。ニューラルネットワークの構成は特に限定されるものではなく、RNN(Recurrent Neural Network), LSTM(Long Short Term Memory), DNN(Deep Neural Network), CNN(Convolutional Neural Network)等が利用できる。一例として、LSTMで実現する場合には、第2変換部120は、
Figure 0006973192
に従って第2出力状態h(t)を計算し、第4変換部140に出力する。ここで、i(t), f(t), o(t)はそれぞれLSTMにおける入力ゲート、忘却ゲート及び出力ゲートであり、W(j,w), W(j,h)はそれぞれ入力された単語及び前の隠れ層のゲートjのウェイト行列である。また、σ(・)はベクトルの要素単位のシグモイドであり、tanh(・)はベクトルの要素単位のハイパボリックタンジェントであり、
Figure 0006973192
はベクトルの要素単位の乗算である。ベクトルの要素単位のシグモイドとは、ベクトルの各要素についてのシグモイド関数値を並べたベクトルを返す関数であり、ベクトルの要素単位のハイパボリックタンジェントとは、ベクトルの各要素についてのtanh関数値を並べたベクトルを返す関数である。また、c(t)は隠れ状態である。
第3変換部130は、潜在的ディリクレ配分法(LDA)の出力状態である補助情報a(t)をニューラルネットワークにより線形変換し、変換後の補助情報γを取得し、第4変換部140に出力する。具体的には、第3変換部130は、重み行列をU(a)とし、バイアスベクトルをb(U,a)として、
Figure 0006973192
に従って線形変換を行う線形層として実現されうる。変換後の補助情報γは要素毎に分解され、分解された各要素γnは、第4変換部140の対応する隠れ層140_nに入力される。
ここで、潜在的ディリクレ配分法(LDA)は、テキスト文書の潜在的なトピック(話題、分野等)を推定するためのトピックモデルの一種であり、テキスト文書を入力として、各潜在的なトピックに属する確率を表す確率分布のベクトルを出力する。この出力が第3変換部130の入力として用いられるa(t)である。すなわち、LDAは、テキスト文書の集合におけるトピックを推定するための生成モデルであり、当該集合の各テキスト文書は潜在的なトピックを合成したものとしてモデル化され、これら潜在的なトピックはトピック確率上の合成としてモデル化される。LDAはテキスト文書における単語の順序を無視して、bag-of-wordsモデルでテキスト文書の特徴を表現する。具体的には、テキスト文書中の各文をbag-of-wordsモデルでベクトル表現したものを並べた低ランクの行列表現として、テキスト文書を表現する。LDAでは、各テキスト文書は以下の生成プロセスによって生成される。
1.ポワソン分布からテキスト文書の長さMをサンプリングする。
2.αで特定されるディリクレ分布からのサンプリングによって、テキスト文書のトピック上の多項分布を選択する。
3.M個の単語の各単語qmに対して、トピックを選択し、当該トピックに関連するユニグラム分布
Figure 0006973192
から単語wmを選択する。α,βはLDAにおける主要なパラメータであり、予め学習データに基づいてモデル学習により学習しておく。αはトピックが抽出される多項分布上のディリクレ分布の形状を決定し、βは単語確率に直接影響を与えるパラメータである。
第4変換部140は、N個の分解された隠れ層140_1,140_2,・・・,140_Nから構成される。隠れ層の各々は、linear hidden network(LHN)により実現される。n番目の隠れ層140_nのパラメータをLn (w)、バイアスベクトルをbn (L,w)とする。このとき、第3変換部130から出力される変換後の補助情報γのうち、n番目の隠れ層140_nへ入力される情報をγnとすると、n番目の隠れ層140_nは、第2変換部120から提供される第2出力状態h(t)と第3変換部130から提供されるγnを入力とし、
Figure 0006973192
である出力状態znを第5変換部150に出力する。
第5変換部150は、第4変換部140から出力された出力状態zn (n=1,2,…,N)に対して、
Figure 0006973192
に従ってsoftmax関数値を予測結果^w(t+1)として出力する。ここで、softmax(・)はsoftmax関数であり、m次元の実数値からなるベクトルをm次元のベクトルに変換する関数であり、入力をe=(e1, e2, ..., em)T(Tは転置を表す)とし、出力を^e=(^e1, ^e2, ..., ^em)Tとした場合、
Figure 0006973192
となるように変換する関数である。つまり、出力ベクトルの各要素の総和が1になるように正規化する関数である。
上述した実施例では、補助情報a(t)は、潜在的ディリクレ配分法(LDA)により求めたテキスト文書の潜在的なトピック確率を表す確率分布(ベクトル)であるが、これに限定されるものでない。例えば、補助情報a(t)は、言語モデルの出力となる次の単語の予測結果^w(t+1)の選択に影響するような、直前の単語w(t)のみから生成される情報(以下、「分解された隠れ層への入力情報」という)以外の何れか適切な補助的な情報であってもよい。例えば、補助情報a(t)として、w(t)までの過去の文字列の品詞、直前の文の文脈(対話であれば、直前の話者の発話内容に関する情報等)、会話の場の雰囲気(フォーマルなのか、カジュアルなのか)、会話相手との関係(上司と部下、友人、初対面の人等)、話者の性別、年齢、出身地域(言語や方言に影響もの)が利用されてもよい。会話の場の雰囲気や会話相手、話者の性別等の情報は、いわば予測対象の単語^w(t+1)よりも時系列的に前の単語列w(t0),…,w(t)は、当該単語列の獲得環境を表す情報ともいえる。なお、この例では、t0とtは単語列のインデックスであり、tが小さいほど時系列的に前の単語のインデックスであるとし、t0<tとした。例えば、文の先頭の単語のインデックスをt0とすれば、文の先頭から予測対象の単語のインデックスt+1の直前(つまりt)までの単語列がw(t0),…,w(t)である。
また、上述した実施例では、補助情報a(t)は、トピック確率という1種類の情報であり、これを分解された隠れ層の数(N個)に分割した補助情報γ(n=1,・・・,N)の何れかを各分解された隠れ層に入力していた。しかし、本発明はこれに限られるものではなく、上述した様々な種類の補助情報の中から、複数の異なる種別の補助情報を生成し、それぞれの分解された隠れ層に異なる種別の補助情報が入力される構成としてもよい。要するに、分解された隠れ層に入力される補助情報が互いに異なるものであれば、種別は同じであっても異なっていてもよい。
このようにして、本実施例の第4変換部における分解された隠れ層は、それぞれ、入力された補助情報に応じた適応処理を行った結果を出力することになる。そして、第5変換部が、全ての分解された隠れ層の結果を総合的に勘案し、最終的に出力する次の単語の予測結果^w(t+1)を出力する役割を担うのである。
〔実施例2:言語モデル学習装置〕
次に、図2を参照して、本発明の一実施例による上述した言語モデルを学習するための言語モデル学習装置を説明する。ここで、言語モデル学習装置200における学習対象となるパラメータは、第1変換部110、第2変換部120、第3変換部130及び第4変換部140において用いられる行列及びバイアスベクトルの要素である。図2は、本発明の一実施例による言語モデル学習装置を示すブロック図である。
図2に示されるように、言語モデル学習装置200は、第1変換部210、第2変換部220、第3変換部230、第4変換部240、第5変換部250及びパラメータ更新部260を有する。第1変換部210、第2変換部220、第3変換部230、第4変換部240及び第5変換部250は、推定装置100の第1変換部110、第2変換部120、第3変換部130、第4変換部140及び第5変換部150と基本的に同じであり、本実施例では、説明の簡単化のため相違点のみ説明する。
第1変換部210の入力w(t)は、学習用に用意された単語ベクトルであり、パラメータ更新部260に与えられる正解の出力ベクトルw(t+1)と予め対応付けられているものとする。第1変換部110と同様にして、第1変換部210は、当該入力ベクトルw(t)を重み行列U(w)により線形変換することによって第1出力状態x(t)を取得し、第2変換部220に出力する。
第2変換部220は、第2変換部120と同様にして、第1変換部210から出力されたx(t)をLSTMに入力することによって第2出力状態h(t)を取得し、第4変換部240に出力する。
第3変換部230の入力a(t)は、学習用に用意された単語ベクトルw(t)に対応する補助情報となる。補助情報a(t)は、予め学習用データとしてw(t)に対応付けて記憶されていてもよいし、第1変換部210に入力された学習用データのw(t)から上述の潜在的ディリクレ配分法(LDA)等により計算されてもよい。なお、学習時に用いる補助情報の種類と、推定装置100の運用時に用いる補助情報の種類を同一のものとする。第3変換部230は、第3変換部130と同様にして、補助情報a(t)をニューラルネットワークにより線形変換された補助情報γを取得し、第4変換部240に出力する。
第4変換部240は、N個の分解された隠れ層240_1,240_2,・・・,240_Nから構成される。n番目の隠れ層240_nは、第4変換部140のn番目の隠れ層140_nと同様にして、第2変換部220から提供される第2出力状態h(t)と第3変換部230から提供されるγnから出力状態znを取得し、第5変換部250に出力する。
第5変換部250は、第5変換部150と同様にして、第4変換部240から出力された出力状態zn (n=1,2,…,N)を変換して予測出力ベクトル^w(t+1)を生成し、パラメータ更新部260に出力する。例えば、出力状態zn に関するsoftmax関数値を予測出力ベクトル^w(t+1)とすればよい。なお、ここでは学習用データに含まれるw(t)に対応する正解データw(t+1)と区別するため、出力された予測出力ベクトルを記号^w(t+1)で表記している。
パラメータ更新部260は、第5変換部250から出力された予測出力ベクトル^w(t+1)と、学習用データとして予め与えられている正解出力ベクトルw(t+1)とを比較し、当該比較結果に応じて言語モデルの各パラメータを更新する。パラメータの更新は、例えば、誤差伝播法等、ニューラルネットワークにおける何れか適切なパラメータ更新手法に従って実行すればよい。これにより、予測出力ベクトル^w(t+1)が正解出力ベクトルw(t+1)に近づくように、ニューラルネットワークの各パラメータが繰り返し更新されることとなる。
そして、パラメータ更新部260は、予測出力ベクトル^w(t+1)と正解出力ベクトルw(t+1)との比較結果が予め定めた基準に到達したら、ニューラルネットワークの各パラメータの値を出力して、パラメータ更新処理を終了する。予め定めた基準とは、例えば^w(t+1)とw(t+1)の近さ(距離等)が所定の閾値未満となる、或いは、繰り返し回数(パラメータ更新部260の更新処理の回数)が所定の回数に到達する、等である。
なお、学習済みの言語モデルを音声認識に利用する場合には、入力ベクトルw(t)として、時間区間tの入力音声信号s(t)を認識して得られる単語列に対応する単語ベクトルが利用されてもよい。これを言語モデルに入力することによって、次に発話される可能性の高い単語候補^w(t+1)を得ることができる。この結果に応じて、次の時間区間の音声信号s(t+1)の音声認識結果である単語列を求める際に、推定装置100は、言語モデルにより予測された^w(t+1)を参考にして認識結果を求めてもよい。
ここで、推定装置100及び言語モデル学習装置200は、典型的には、サーバなどの計算装置により実現されてもよく、例えば、図3に示されるように、バスBを介し相互接続されるドライブ装置101、補助記憶装置102、メモリ装置103、プロセッサ104、インタフェース装置105及び通信装置106から構成されてもよい。推定装置100及び言語モデル学習装置200における後述される各種機能及び処理を実現するプログラムを含む各種コンピュータプログラムは、CD−ROM(Compact Disk−Read Only Memory)、DVD(Digital Versatile Disk)、フラッシュメモリなどの記録媒体107によって提供されてもよい。プログラムを記憶した記録媒体107がドライブ装置101にセットされると、プログラムが記録媒体107からドライブ装置101を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体107により行う必要はなく、ネットワークなどを介し何れかの外部装置からダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータなどを格納する。メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムやデータを読み出して格納する。プロセッサ104は、メモリ装置103に格納されたプログラムやプログラムを実行するのに必要なパラメータなどの各種データに従って、上述した推定装置100及び言語モデル学習装置200の各種機能及び処理を実行する。インタフェース装置105は、ネットワーク又は外部装置に接続するための通信インタフェースとして用いられる。通信装置106は、インターネットなどのネットワークと通信するための各種通信処理を実行する。
しかしながら、推定装置100及び言語モデル学習装置200は、上述したハードウェア構成に限定されるものでなく、他の何れか適切なハードウェア構成により実現されてもよい。
以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 推定装置
200 言語モデル学習装置
110、210 第1変換部
120、220 第2変換部
130、230 第3変換部
140、240 第4変換部
150、250 第5変換部
260 パラメータ更新部

Claims (10)

  1. 入力された記号を変換し、第1出力状態を得る第1変換部と、
    前記第1出力状態を変換し、第2出力状態を得る第2変換部と、
    入力された補助情報を変換し、変換後の補助情報を得る第3変換部と、
    前記変換後の補助情報と前記第2出力状態とを変換し、複数の出力状態を得る第4変換部と、
    前記複数の出力状態から前記入力された記号に後続する記号を予測する第5変換部と、
    を有する装置であって、
    前記第4変換部は、前記第2出力状態と前記変換後の補助情報とを入力とする複数の隠れ層を有し、各隠れ層に入力される前記変換後の補助情報は互いに異なる装置。
  2. 入力された学習用記号を変換し、第1出力状態を得る第1変換部と、
    前記第1出力状態を変換し、第2出力状態を得る第2変換部と、
    前記学習用記号に対応して入力された補助情報を変換し、変換後の補助情報を得る第3変換部と、
    前記変換後の補助情報と前記第2出力状態とを変換し、複数の出力状態を得る第4変換部と、
    前記複数の出力状態から前記入力された学習用記号に後続する記号を予測する第5変換部と、
    前記入力された学習用記号に対応する正解出力記号と前記予測された後続する記号を比較し、比較結果に応じて前記第1変換部、前記第2変換部、前記第3変換部または前記第4変換部のパラメータを更新するパラメータ更新部と、
    を有する装置であって、
    前記第4変換部は、前記第2出力状態と前記変換後の補助情報とを入力とする複数の隠れ層を有し、各隠れ層に入力される前記変換後の補助情報は互いに異なる装置。
  3. 前記補助情報は、前記後続する記号の選択に影響する前記入力された記号以外の情報を含む情報から抽出されたものである、請求項1記載の装置。
  4. 前記補助情報は、前記入力された記号を含む、該入力された記号よりも時系列的に前の記号列のトピックと、該記号列の文脈と、該記号列の獲得環境とのうち少なくとも1以上の情報を含む、請求項1又は3記載の装置。
  5. プロセッサが、
    力された記号を変換し、第1出力状態を得るステップと、
    前記第1出力状態を変換し、第2出力状態を得るステップと、
    入力された補助情報を変換し、変換後の補助情報を得るステップと、
    前記変換後の補助情報と前記第2出力状態とを変換し、複数の出力状態を得るステップと、
    前記複数の出力状態から前記入力された記号に後続する記号を予測するステップと、
    実行する方法であって、
    前記複数の出力状態を得るステップでは、前記プロセッサが前記第2出力状態と前記変換後の補助情報とを入力とする複数の隠れ層を用い、各隠れ層に入力される前記変換後の補助情報は互いに異なる方法。
  6. プロセッサが、
    力された学習用記号を変換し、第1出力状態を得るステップと、
    前記第1出力状態を変換し、第2出力状態を得るステップと、
    記学習用記号に対応して入力された補助情報を変換し、変換後の補助情報を得るステップと、
    前記変換後の補助情報と前記第2出力状態とを変換し、複数の出力状態を得るステップと、
    前記複数の出力状態から前記入力された学習用記号に後続する記号を予測するステップと、
    前記プロセッサが、前記入力された学習用記号に対応する正解出力記号と前記予測された後続する記号とを比較し、比較結果に応じてパラメータを更新するステップと、
    実行する方法であって、
    前記複数の出力状態を得るステップでは、前記プロセッサが前記第2出力状態と前記変換後の補助情報とを入力とする複数の隠れ層を用い、各隠れ層に入力される前記変換後の補助情報は互いに異なる方法。
  7. 請求項1、3、4何れか一項記載の装置の各部としてプロセッサを機能させるプログラム。
  8. 前記補助情報は、前記後続する記号の選択に影響する前記入力された学習用記号以外の情報を含む情報から抽出されたものである、請求項2記載の装置。
  9. 前記補助情報は、前記入力された学習用記号を含む、該入力された学習用記号よりも時系列的に前の学習用記号列のトピックと、該学習用記号列の文脈と、該学習用記号列の獲得環境とのうち少なくとも1以上の情報を含む、請求項2又は8記載の装置。
  10. 請求項2、8、9何れか一項記載の装置の各部としてプロセッサを機能させるプログラム。
JP2018041781A 2018-03-08 2018-03-08 言語モデルを利用する装置、方法及びプログラム Active JP6973192B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018041781A JP6973192B2 (ja) 2018-03-08 2018-03-08 言語モデルを利用する装置、方法及びプログラム
PCT/JP2019/005871 WO2019171925A1 (ja) 2018-03-08 2019-02-18 言語モデルを利用する装置、方法及びプログラム
US16/976,692 US20210049324A1 (en) 2018-03-08 2019-02-18 Apparatus, method, and program for utilizing language model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018041781A JP6973192B2 (ja) 2018-03-08 2018-03-08 言語モデルを利用する装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019159464A JP2019159464A (ja) 2019-09-19
JP6973192B2 true JP6973192B2 (ja) 2021-11-24

Family

ID=67846596

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018041781A Active JP6973192B2 (ja) 2018-03-08 2018-03-08 言語モデルを利用する装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US20210049324A1 (ja)
JP (1) JP6973192B2 (ja)
WO (1) WO2019171925A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210032105A (ko) * 2019-09-16 2021-03-24 한국전자통신연구원 랭킹 기반 네트워크 임베딩을 이용한 군집화 방법 및 장치
JP2021076623A (ja) * 2019-11-05 2021-05-20 TXP Medical株式会社 音声入力支援システム
US11804214B2 (en) * 2021-02-26 2023-10-31 Walmart Apollo, Llc Methods and apparatuses for discriminative pre-training for low resource title compression

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558743B2 (en) * 2013-03-15 2017-01-31 Google Inc. Integration of semantic context information
US9824684B2 (en) * 2014-11-13 2017-11-21 Microsoft Technology Licensing, Llc Prediction-based sequence recognition
EP3259688A4 (en) * 2015-02-19 2018-12-12 Digital Reasoning Systems, Inc. Systems and methods for neural language modeling
JP2017016384A (ja) * 2015-07-01 2017-01-19 日本放送協会 混合係数パラメータ学習装置、混合生起確率算出装置、及び、これらのプログラム
US10366158B2 (en) * 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) * 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
JP6637078B2 (ja) * 2016-02-02 2020-01-29 日本電信電話株式会社 音響モデル学習装置、音響モデル学習方法及びプログラム
GB201611380D0 (en) * 2016-06-30 2016-08-17 Microsoft Technology Licensing Llc Artificial neural network with side input for language modelling and prediction

Also Published As

Publication number Publication date
US20210049324A1 (en) 2021-02-18
WO2019171925A1 (ja) 2019-09-12
JP2019159464A (ja) 2019-09-19

Similar Documents

Publication Publication Date Title
US20240161732A1 (en) Multi-dialect and multilingual speech recognition
CN112712804B (zh) 语音识别方法、系统、介质、计算机设备、终端及应用
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US10019438B2 (en) External word embedding neural network language models
CN111145718B (zh) 一种基于自注意力机制的中文普通话字音转换方法
JP7490804B2 (ja) 非同期デコーダでエンド・ツー・エンド音声認識をストリーミングするためのシステムおよび方法
JP5982297B2 (ja) 音声認識装置、音響モデル学習装置、その方法及びプログラム
CN111179916B (zh) 重打分模型训练方法、语音识别方法及相关装置
CN111354333B (zh) 一种基于自注意力的汉语韵律层级预测方法及系统
JP7072178B2 (ja) 自然言語処理のための装置、方法及びプログラム
JP7266683B2 (ja) 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム
JP6973192B2 (ja) 言語モデルを利用する装置、方法及びプログラム
CN111081230A (zh) 语音识别方法和设备
US20230096805A1 (en) Contrastive Siamese Network for Semi-supervised Speech Recognition
US20230237993A1 (en) Systems and Methods for Training Dual-Mode Machine-Learned Speech Recognition Models
WO2019138897A1 (ja) 学習装置および方法、並びにプログラム
Granell et al. Multimodal crowdsourcing for transcribing handwritten documents
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
CN114528387A (zh) 基于对话流自举的深度学习对话策略模型构建方法和系统
WO2021229643A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
CN111026848B (zh) 一种基于相似上下文和强化学习的中文词向量生成方法
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2021039220A (ja) 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム
US20220122586A1 (en) Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization
WO2020162240A1 (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211018

R150 Certificate of patent or registration of utility model

Ref document number: 6973192

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150