JP6852167B2 - コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム - Google Patents

コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム Download PDF

Info

Publication number
JP6852167B2
JP6852167B2 JP2019539388A JP2019539388A JP6852167B2 JP 6852167 B2 JP6852167 B2 JP 6852167B2 JP 2019539388 A JP2019539388 A JP 2019539388A JP 2019539388 A JP2019539388 A JP 2019539388A JP 6852167 B2 JP6852167 B2 JP 6852167B2
Authority
JP
Japan
Prior art keywords
arc
confusion network
word
distributed representation
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019539388A
Other languages
English (en)
Other versions
JPWO2019044583A1 (ja
Inventor
亮 増村
亮 増村
浩和 政瀧
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2019044583A1 publication Critical patent/JPWO2019044583A1/ja
Application granted granted Critical
Publication of JP6852167B2 publication Critical patent/JP6852167B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、コンフュージョンネットワークの分散表現を生成する技術に関する。
音声対話システムにおいては、ユーザの音声について音声認識した結果から発話意図や発話行為を推定し、その推定結果に基づいてシステムのアクションを決定することが一般的である。この発話意図や発話行為の推定は、単語系列であるテキストをあるクラスに分類するクラス分類器を構成することにより実現されている。例えば、発話行為の推定であれば、「ジュースはこちらに売っていますか?」というテキストが入力となり、「質問」というラベルを推定する問題である。このクラス分類器の性能が円滑な音声対話ができるかどうかに大きく関わってくる。
このようなクラス分類器を構成するための主な方法として、分類先となるラベル(以下、クラスラベルという)と組になったテキスト(単語系列)を準備して、機械学習によりクラス分類器を構成する方法がある。前述の問題を扱う場合は、各テキスト(単語系列)に1つのクラスラベルが付いた学習用データを大量に準備しておくことで、クラス分類器を学習することが可能となる。例えば、100000テキストそれぞれにクラスラベルが付いた学習用データを準備することにより、クラス分類器を学習することができる。
このクラス分類器を精緻に学習する方法として、深層学習技術が有用である。深層学習を用いる方法は、いくつか提案されているが、代表的な方法として、Recurrent Neural Network(RNN)を用いる方法(非特許文献1)やConvolutional Neural Network(CNN)を用いる方法(非特許文献2)がある。
RNNを用いたクラス分類器もCNNを用いたクラス分類器も大枠は同じである。つまり、入力となるテキスト(単語系列)の各単語を単語分散表現と呼ばれる単語ベクトルに変換し、その単語ベクトルの系列である単語分散表現系列をRNNまたはCNNを用いて固定長の実数値ベクトルに変換し、その実数値ベクトルを識別関数に入力することにより、クラス分類器が実現できる。
より詳しく説明すると、以下のようになる。w1, w2, …, wTを入力テキストの単語系列とし、クラス分類器は、以下のような処理を実行することで、クラスラベルを推定する。
Figure 0006852167
ここで、ωt(1≦t≦T)は、単語wtの単語分散表現(単語ベクトル)である。hは、単語分散表現系列ω1, ω2, …, ωTを変換した固定長の実数値ベクトルである。Pは、各クラスに対応した事後確率を表す確率分布である。
EMBEDDING(・)は、単語を所定の次元の単語ベクトルに変換する関数である。EMBEDDING(・)は、例えば線形変換の関数として表される。なお、EMBEDDING(・)は線形変換に限るものではなく、同様の機能を持つ関数であればどのような関数であってもよい。
NN(・)は、実数値ベクトル系列を固定長の実数値ベクトルに変換する関数である。NN(・)として、例えばRNNやCNNを用いることができる。なお、NN(・)はRNNやCNNに限るものではなく、同様の機能を持つ関数であればどのような関数であってもよい。
DISCRIMINATE(・)は、固定長のベクトルから各クラスに対応した事後確率を計算するための関数である。DISCRIMINATE(・)として、例えばsoftmax関数を用いることができる。
クラスラベルの推定時は、確率分布Pにおける最大の確率を持つクラスを入力テキストのクラスラベルとして推定する。
Suman Ravuri, Andreas Stolcke,"Recurrent Neural Network and LSTM Models for Lexical Utterance Classification", In Proc. INTERSPEECH 2015, pp.135-139, 2015. Yoon Kim,"Convolutional Neural Networks for Sentence Classification", In Proc. EMNLP 2014, pp.1746-1751, 2014.
上記RNNやCNNを用いたクラス分類器の学習では、音声認識誤りを含まない発話テキスト(つまり、音声認識率が100%である発話テキスト)とクラスラベルの組を用いることが一般的である。しかし、音声認識誤りを含まない発話テキストを用いて学習を行うと、実際に音声対話システムを現場で利用する場合に、音声認識誤りの影響を大きく受ける。すなわち、学習用データに含まれていなかった音声認識誤りを含む発話テキストに対するクラスラベルの推定精度が著しく低下するという問題が生じる。これはクラス分類器学習時とクラスラベル推定時の入力データのミスマッチに起因するものである。
そこで、音声認識器により生成された音声認識誤りを含む発話テキストとクラスラベルの組を用いて学習を行う場合もある。しかし、音声認識誤りを含む発話テキストを用いて学習を行うと、学習時と推定時の入力データのミスマッチはなくなるものの、誤りを含む発話テキストから学習を行うため、クラス分類器そのものの性能が低くなるという問題が生じる。
上記2つの問題は、音声認識結果を表す発話テキストのみを用いていることに起因する。そこで、音声認識結果を含む、音声認識時に生成される様々な情報(音声認識時の仮説空間)を用いることが考えられる。このような様々な情報を扱う方法としてコンフュージョンネットワークがある(参考非特許文献1)。
(参考非特許文献1:Lidia Mangu, Eric Brill, Andreas Stolcke,“Finding consensus in speech recognition: word error minimization and other applications of confusion networks”, Computer Speech and Language, vol.14, pp.373-400, 2000.)
しかし、このコンフュージョンネットワークを用いてクラス分類器を学習することができるようにするためには、学習の入力として用いることができるようにコンフュージョンネットワークを表現することが必要となるが、これまでこの目的に適したコンフュージョンネットワークの表現方法が存在しなかった。
そこで本発明では、コンフュージョンネットワークを機械学習の入力として用いることができるような表現に変換するための技術を提供することを目的とする。
本発明の一態様は、Tを1以上の整数とし、Wt=(wt1, wt2, …, wtN_t) (1≦t≦T)をコンフュージョンネットワークを構成するt番目のアーク単語集合(ただし、wtn(1≦n≦Nt、Ntは1以上の整数)はアーク単語集合Wtに含まれるアーク単語)、Ct=(ct1, ct2, …, ctN_t) (1≦t≦T)を前記コンフュージョンネットワークを構成するt番目のアーク重み集合(ただし、ctn(1≦n≦Nt)はアーク単語wtnに対応するアーク重み)とし、前記コンフュージョンネットワークを構成するアーク単語集合系列W1, W2, …, WTとアーク重み集合系列C1, C2, …, CTから、ベクトルの系列であるコンフュージョンネットワーク分散表現系列U1, U2, …, UTを生成するコンフュージョンネットワーク分散表現系列生成部とを含み、前記コンフュージョンネットワーク分散表現系列生成部は、前記アーク単語集合Wtに含まれるアーク単語wtnを単語分散表現ωtnに変換することによりアーク単語分散表現集合Ωt=(ωt1, ωt2,…, ωtN_t)を得、アーク単語分散表現集合系列Ω1, Ω2, …, ΩTを生成するアーク単語分散表現集合系列変換部と、前記アーク単語分散表現集合系列Ω1, Ω2, …, ΩTと前記アーク重み集合系列C1, C2, …, CTから、前記コンフュージョンネットワーク分散表現系列U1, U2, …, UTを生成するアーク単語分散表現集合重み付け統合部とを含む。
本発明によれば、コンフュージョンネットワークをベクトルの系列であるコンフュージョンネットワーク分散表現系列として表現することにより、コンフュージョンネットワークを機械学習の入力として用いることが可能となる。
コンフュージョンネットワーク、アーク単語集合系列、アーク重み集合系列の関係の一例を示す図である。 コンフュージョンネットワーク分類装置100の構成の一例を示す図である。 コンフュージョンネットワーク分類装置100の動作の一例を示す図である。 コンフュージョンネットワーク分散表現系列生成部110の構成の一例を示す図である。 コンフュージョンネットワーク分散表現系列生成部110の動作の一例を示す図である。 コンフュージョンネットワーク分散表現生成装置200の構成の一例を示す図である。 コンフュージョンネットワーク分散表現生成装置200の動作の一例を示す図である。 コンフュージョンネットワーク類似度計算装置300の構成の一例を示す図である。 コンフュージョンネットワーク類似度計算装置300の動作の一例を示す図である。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
実施形態の説明に先立って、この明細書における表記方法について説明する。
_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。
次に、コンフュージョンネットワークについて説明する。コンフュージョンネットワークとは、音声認識時の仮説空間を効率的に表現する構造であり、ノードとアークからなるグラフとして表される構造である(図1参照)。
音声認識時に得られるコンフュージョンネットワークの各アークは、単語(以下、アーク単語という)に対応し、それぞれの単語が正解である確率(以下、アーク重みという)を持つ。図1のコンフュージョンネットワークは、17個のアーク単語w11, w12, w13, w21, …, w52を含み、アーク単語wtnが正解である確率であるアーク重みはctnとなっている。なお、任意のtについて、Σnctn=1となる。
重要な点としては、(始端時間に対応する)始端ノードと(終端時間に対応する)終端ノードが同一となる単語(以下、このような単語の集合をアーク単語集合という)を同一のノード間にアークとして位置させることにより、アーク単語集合系列とアーク重み集合系列(アーク単語集合に対応するアーク重み集合の系列)の組であるコンフュージョンネットワークとして音声認識時の仮説空間を表現することが可能であることが挙げられる。図1の例では、アーク単語集合W1=(w11, w12, w13)に対応するアーク重み集合はC1=(c11,c12, c13)であり、アーク単語集合系列W1, W2, W3, W4, W5とアーク重み集合系列C1, C2, C3, C4, C5の組がコンフュージョンネットワークを表す。
なお、コンフュージョンネットワークの詳細は、参考非特許文献1を参照にされたい。
<第1実施形態>
以下、図2〜図3を参照してコンフュージョンネットワーク分類装置100について説明する。図2は、コンフュージョンネットワーク分類装置100の構成を示すブロック図である。図3は、コンフュージョンネットワーク分類装置100の動作を示すフローチャートである。図2に示すように、コンフュージョンネットワーク分類装置100は、コンフュージョンネットワーク分散表現系列生成部110、クラスラベル推定部120、記録部190を含む。記録部190は、コンフュージョンネットワーク分類装置100の処理に必要な情報を適宜記録する構成部である。
コンフュージョンネットワーク分類装置100は、コンフュージョンネットワークを入力とする。コンフュージョンネットワークは、アーク単語集合系列とアーク重み集合系列の2つで表現される。
図3に従いコンフュージョンネットワーク分類装置100の動作について説明する。コンフュージョンネットワーク分散表現系列生成部110は、コンフュージョンネットワークを構成するアーク単語集合系列とアーク重み集合系列から、ベクトルの系列であるコンフュージョンネットワーク分散表現系列を生成する(S110)。以下、コンフュージョンネットワーク分散表現系列生成部110について、詳細に説明する。
[コンフュージョンネットワーク分散表現系列生成部110]
入力:コンフュージョンネットワーク(アーク単語集合系列、アーク重み集合系列)
出力:コンフュージョンネットワーク分散表現系列
コンフュージョンネットワーク分散表現系列生成部110は、アーク単語集合系列W1, W2, …, WTとアーク重み集合系列C1, C2, …, CTから、コンフュージョンネットワーク分散表現系列U1, U2, …, UTを生成する(S110)。ただし、Tは1以上の整数である。なお、アーク単語集合系列の長さとアーク重み集合系列の長さはいずれもTであり、2つの系列の長さは同一となる。
コンフュージョンネットワークを構成するt番目のアーク単語集合Wt(1≦t≦T)は、
Figure 0006852167
と表される。ここで、wtnはアーク単語集合Wtに含まれるn種類目のアーク単語を表す(1≦n≦Nt、Ntは1以上の整数)。Ntはアーク単語集合Wtに含まれるアーク単語種類数であり、tにより異なる値となる。
同様に、コンフュージョンネットワークを構成するt番目のアーク重み集合Ct(1≦t≦T)は、
Figure 0006852167
と表される。ここで、ctnはアーク重み集合Ctに含まれるn種類目のアーク重みを表す(1≦n≦Nt)。なお、
Figure 0006852167
である。また、アーク重みctnとアーク単語wtnは対応がとれているものとする。すなわち、アーク重みctnはアーク単語wtnが正解である確率を表す。
以下、図4〜図5を参照してコンフュージョンネットワーク分散表現系列生成部110について説明する。図4は、コンフュージョンネットワーク分散表現系列生成部110の構成を示すブロック図である。図5は、コンフュージョンネットワーク分散表現系列生成部110の動作を示すフローチャートである。図4に示すように、コンフュージョンネットワーク分散表現系列生成部110は、アーク単語分散表現集合系列変換部112、アーク単語分散表現集合重み付け統合部114を含む。
[アーク単語分散表現集合系列変換部112]
入力:アーク単語集合系列
出力:アーク単語分散表現集合系列
アーク単語分散表現集合系列変換部112は、アーク単語集合Wtに含まれるアーク単語wtnを単語分散表現ωtnに変換することによりアーク単語分散表現集合Ωt=(ωt1, ωt2,…, ωtN_t)を得、アーク単語分散表現集合系列Ω1, Ω2, …, ΩTを生成する(S112)。t番目のアーク単語集合Wt(1≦t≦T)の各アーク単語wtn(1≦n≦Nt)に対して、次式によりシンボルであるアーク単語wtnをベクトルである単語分散表現ωtnに変換する。
Figure 0006852167
EMBEDDING(・)は、単語を所定の次元の単語ベクトルに変換する関数である。EMBEDDING(・)は、例えば線形変換の関数として表される。なお、EMBEDDING(・)は線形変換に限るものではなく、同様の機能を持つ関数であればどのような関数であってもよい。例えば、単語を単語分散表現に変換するための変換行列を用いることができる。変換行列は各単語に対して対応するベクトルが準備されている辞書(コードブックテーブル)であり、ベクトルの次元数やその値はこの辞書を生成するときに決まる。また、別の例として、自然言語処理で用いられる単語ベクトルや概念ベクトルを計算する関数などがある。単語ベクトルは単語の共起頻度を利用して得られるベクトルであり、概念ベクトルは単語ベクトルを圧縮して得られるベクトルである。
[アーク単語分散表現集合重み付け統合部114]
入力:アーク単語分散表現集合系列、アーク重み集合系列
出力:コンフュージョンネットワーク分散表現系列
アーク単語分散表現集合重み付け統合部114は、アーク単語分散表現集合系列Ω1, Ω2, …, ΩTとアーク重み集合系列C1, C2, …, CTから、コンフュージョンネットワーク分散表現系列U1, U2, …, UTを生成する(S114)。アーク単語分散表現集合重み付け統合部114は、各t(1≦t≦T)について、アーク単語分散表現集合Ωtとアーク重み集合Ctからコンフュージョンネットワーク分散表現Utを生成する。具体的には、次式により単語分散表現ωtn(1≦n≦Nt)を重み付けで統合することにより、コンフュージョンネットワーク分散表現Utを生成する。
Figure 0006852167
この統合処理をすべてのt(1≦t≦T)について行うことにより、コンフュージョンネットワーク分散表現系列U1, U2, …, UTが得られる。
次に、クラスラベル推定部120は、S110で生成したコンフュージョンネットワーク分散表現系列から、コンフュージョンネットワークのクラスを示すクラスラベルを推定する(S120)。以下、クラスラベル推定部120について、詳細に説明する。
[クラスラベル推定部120]
入力:コンフュージョンネットワーク分散表現系列
出力:クラスラベル
クラスラベル推定部120は、コンフュージョンネットワーク分散表現系列U1, U2, …, UTから、クラスラベルLを推定する(S120)。コンフュージョンネットワーク分散表現系列U1, U2, …, UTに対して、以下のような処理を実行することにより、クラスラベルLを推定する。
Figure 0006852167
ここで、hはコンフュージョンネットワーク分散表現系列U1, U2, …, UTを変換した固定長の実数値ベクトルであり、コンフュージョンネットワーク分散表現系列U1, U2, …, UTの特徴量を表すものである。この実数値ベクトルhはクラスラベルを推定する際の素性として用いられる。なお、実数値ベクトルhの次元は予め定められているものとする。また、Pは分類先となる各クラスに対応した事後確率を表す確率分布である。
NN(・)は、実数値ベクトル系列を固定長の実数値ベクトルに変換する関数である。NN(・)として、例えばRNNやCNNを用いることができる。なお、NN(・)はRNNやCNNに限るものではなく、同様の機能を持つ関数であればどのような関数であってもよい。RNNやCNNなどのニューラルネットワーク以外の機械学習、例えば、SVM(Support Vector Machine)、ランダムフォレストなどを用いて実現してもよい。
DISCRIMINATE(・)は、固定長のベクトルから各クラスに対応した事後確率を計算するための関数である。DISCRIMINATE(・)として、例えばsoftmax関数を用いることができる。
出力となるクラスラベルLは、確率分布Pにおける最大の確率を持つクラスに対応したラベルである。
なお、コンフュージョンネットワーク分類装置100からクラスラベル推定部120を省略することにより、コンフュージョンネットワーク分散表現生成装置101(図示せず)を構成することができる。つまり、コンフュージョンネットワーク分散表現生成装置101は、コンフュージョンネットワーク分散表現系列生成部110、記録部190を含み、コンフュージョンネットワークを入力とし、コンフュージョンネットワーク分散表現系列を生成する。
(コンフュージョンネットワーク分散表現系列生成部110及びクラスラベル推定部120の構成方法)
先述の通り、クラスラベル推定部120の機能の一部であるNN(・)は、ニューラルネットワークとして構成することができるが、クラスラベル推定部120そのものもニューラルネットワークとして構成することができる。つまり、クラスラベル推定部120は、コンフュージョンネットワーク分散表現系列を入力とし、クラスラベルを出力する(例えば、RNNやCNNのような)ニューラルネットワークとして構成することができる。
同様に、コンフュージョンネットワーク分散表現系列生成部110も、コンフュージョンネットワークを入力とし、コンフュージョンネットワーク分散表現系列を出力する(例えば、RNNやCNNのような)ニューラルネットワークとして構成することができる。
さらに、コンフュージョンネットワーク分散表現系列生成部110を構成するニューラルネットワークの出力がクラスラベル推定部120を構成するニューラルネットワークの入力となるように結合することにより、コンフュージョンネットワーク分散表現系列生成部110の機能とクラスラベル推定部120の機能を併せ持つ1つのニューラルネットワークを構成することもできる。この場合、コンフュージョンネットワーク分散表現系列生成部110を構成するニューラルネットワークのパラメータと、クラスラベル推定部120を構成するニューラルネットワークのパラメータを同時に学習することが可能となり、2つのニューラルネットワークのパラメータが全体として最適化される形で学習がなされる。
もちろん、コンフュージョンネットワーク分散表現系列生成部110を構成するニューラルネットワークのパラメータと、クラスラベル推定部120を構成するニューラルネットワークのパラメータを個別に学習することより、独立に最適化するように学習してもよい。
なお、コンフュージョンネットワーク分散表現系列生成部110やクラスラベル推定部120は、必ずしもニューラルネットワークとして構成する必要はなく、他の機械学習により構成してもよい。例えば、クラスラベル推定部120をSVMやランダムフォレストにより構成してもよい。さらには、コンフュージョンネットワーク分散表現系列生成部110やクラスラベル推定部120を機械学習以外の方法により構成してもよい。
本発明によれば、コンフュージョンネットワークをベクトルの系列であるコンフュージョンネットワーク分散表現系列として表現することにより、コンフュージョンネットワークを機械学習の入力として用いることが可能となる。
また、コンフュージョンネットワーク分散表現系列を用いてクラス分類器を構成できるようになることから、例えば、音声認識結果のように一つの単語列のみを用いてクラス分類器を構成する場合よりも、より性能がよいクラス分類器を構成できるようになる。これは、コンフュージョンネットワークが、音声認識結果を含む、音声認識の仮説空間の様々な情報が含んでいることによる。つまり、コンフュージョンネットワークには音声認識結果の複数候補と各候補が正解である確率の情報が含まれるため、認識誤りであるか否か(あるいは、どのくらいの精度で正解らしいのか)を踏まえたうえでクラス分類器を学習することができ、結果学習されたクラス分類器の性能は高くなる。
(適用例)
ここまで、音声認識の過程で得られるコンフュージョンネットワークを用いてクラス分類器を学習し、当該クラス分類器を用いてコンフュージョンネットワーク分類装置を構成することを念頭に説明してきた。1段目の推定器に相当する音声認識器と2段目の推定器に相当するクラス分類器の組合せのように、1段目の推定過程においてコンフュージョンネットワークが生成される場合は、同様の枠組みで2段目の推定器を学習することができる。1段目の推定器と2段目の推定器の組合せとして、例えば、テキスト基本解析器とクラス分類器、音声認識器とテキスト検索器、テキスト基本解析器とテキスト検索器のような組み合わせも可能である。
<第2実施形態>
第1実施形態で説明したコンフュージョンネットワーク分散表現生成装置101では、コンフュージョンネットワークを入力としたが、単語系列であるテキストを入力としてもよい。そこで、ここでは、単語系列であるテキストを入力とし、コンフュージョンネットワーク分散表現系列を生成するコンフュージョンネットワーク分散表現生成装置200について説明する。
以下、図6〜図7を参照してコンフュージョンネットワーク分散表現生成装置200について説明する。図6は、コンフュージョンネットワーク分散表現生成装置200の構成を示すブロック図である。図7は、コンフュージョンネットワーク分散表現生成装置200の動作を示すフローチャートである。図6に示すように、コンフュージョンネットワーク分散表現生成装置200は、テキスト変換部210、コンフュージョンネットワーク分散表現系列生成部110、記録部190を含む。記録部190は、コンフュージョンネットワーク分散表現生成装置200の処理に必要な情報を適宜記録する構成部である。
コンフュージョンネットワーク分散表現生成装置200は、テキスト(単語系列)を入力とする。
図7に従いコンフュージョンネットワーク分散表現生成装置200の動作について説明する。テキスト変換部210は、単語系列から、当該単語系列を表現するコンフュージョンネットワークを構成するアーク単語集合系列とアーク重み集合系列を生成する(S210)。以下、テキスト変換部210について、詳細に説明する。
[テキスト変換部210]
入力:テキスト(単語系列)
出力:コンフュージョンネットワーク(アーク単語集合系列、アーク重み集合系列)
テキスト変換部210は、単語系列w1, w2, …, wTから、当該単語系列を表現するコンフュージョンネットワークを構成するアーク単語集合系列W1, W2, …, WTとアーク重み集合系列C1, C2, …, CTを生成する(S210)。ここで、単語系列w1, w2, …, wTは、例えば、形態素解析を用いて入力テキストを分割することにより得ることができる。アーク単語集合Wtは次式により生成される。
Figure 0006852167
つまり、アーク単語集合Wt(1≦t≦T)は、1つの単語wtをアーク単語として含む集合となる。また、アーク重み集合Ctは次式により生成される。
Figure 0006852167
つまり、アーク重み集合Ct(1≦t≦T)は、単語wtに対応するアーク重み1のみを含む集合となる。これにより、単語系列w1, w2, …, wTに対応するアーク単語集合系列W1, W2, …, WT、アーク重み集合系列C1, C2, …, CTが得られる。
次に、コンフュージョンネットワーク分散表現系列生成部110は、コンフュージョンネットワークを構成するアーク単語集合系列とアーク重み集合系列から、ベクトルの系列であるコンフュージョンネットワーク分散表現系列を生成する(S110)。
本発明によれば、テキストからコンフュージョンネットワーク分散表現系列を生成することが可能となる。ここで、入力となるテキストは音声認識結果に限らない。したがって、音声認識誤りを含む音声認識結果に対応するコンフュージョンネットワーク、音声認識誤りを含まない音声認識結果に対応するコンフュージョンネットワーク、一般のテキストから生成されるコンフュージョンネットワークのすべてを用いてクラス分類器を学習することが可能となる。また、音声認識結果を分類するクラス分類器のための学習データだけでなく、自然言語処理におけるテキスト分類のために作成された学習データを利用してクラス分類器を学習することが可能となる。
<第3実施形態>
第3実施形態では、コンフュージョンネットワーク分散表現系列を用いて、コンフュージョンネットワーク間の類似度を計算する方法について説明する。
以下、図8〜図9を参照してコンフュージョンネットワーク類似度計算装置300について説明する。図8は、コンフュージョンネットワーク類似度計算装置300の構成を示すブロック図である。図9は、コンフュージョンネットワーク類似度計算装置300の動作を示すフローチャートである。図8に示すように、コンフュージョンネットワーク類似度計算装置300は、コンフュージョンネットワーク分散表現系列生成部110、類似度計算部310、記録部190を含む。記録部190は、コンフュージョンネットワーク類似度計算装置300の処理に必要な情報を適宜記録する構成部である。
コンフュージョンネットワーク類似度計算装置300は、2つのコンフュージョンネットワーク(第1コンフュージョンネットワークと第2コンフュージョンネットワーク)を入力とする。入力となる各コンフュージョンネットワークは、例えば、音声認識時に得られるものであってもよいし、テキストをテキスト変換部210と同様の処理により変換して得られるものであってもよい。
図9に従いコンフュージョンネットワーク類似度計算装置300の動作について説明する。コンフュージョンネットワーク分散表現系列生成部110は、第1コンフュージョンネットワークから第1コンフュージョンネットワーク分散表現系列を生成し、第2コンフュージョンネットワークから第2コンフュージョンネットワーク分散表現系列を生成する(S110)。
類似度計算部310は、第1コンフュージョンネットワーク分散表現系列と第2コンフュージョンネットワーク分散表現系列から、第1コンフュージョンネットワークと第2コンフュージョンネットワークの類似度を計算する(S310)。第1コンフュージョンネットワーク分散表現系列と第2コンフュージョンネットワーク分散表現系列はいずれもベクトルの系列であるので、例えば、第1コンフュージョンネットワーク分散表現系列のベクトル和と第2コンフュージョンネットワーク分散表現系列のベクトル和を計算し、それらのベクトルの類似度を計算する。また、ベクトルの類似度として、例えば、コサイン類似度を用いることができる。
本発明によれば、2つのコンフュージョンネットワークの類似の程度を数値として表すことが可能となる。
このような構成を音声検索システムや音声対話システムに組み込み、音声を入力としてテキストのデータベースを検索する処理に用いることにより、入力音声の認識誤りがテキストのデータベースの検索に与える影響を低減することができる。具体的には、入力音声に対応する第1コンフュージョンネットワークと検索結果であるテキストに対応する第2コンフュージョンネットワークの類似度を計算し、類似度が所定の値より小さくなる場合、入力音声の認識結果に誤りがあるとして、再度音声入力を促すようにする。
また、音声を入力としてテキストのデータベースを検索する処理に上述したコンフュージョンネットワークの分散表現とコンフュージョンネットワーク間の類似度計算の枠組みを適用することにより、入力音声の認識誤りがテキストのデータベースの検索に与える影響を低減することができる。具体的には、テキストのデータベース中の各テキストを予め第2コンフュージョンネットワーク分散表現系列に変換しておき、入力音声に対応する第1コンフュージョンネットワーク分散表現系列とデータベース中の各テキストに対応する第2コンフュージョンネットワーク分散表現系列を用いて類似度を計算し、類似度が最も高いテキストを検索結果として返すようにする。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成部)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

Claims (7)

  1. Tを1以上の整数とし、
    Wt=(wt1, wt2, …, wtN_t) (1≦t≦T)をコンフュージョンネットワークを構成するt番目のアーク単語集合(ただし、wtn(1≦n≦Nt、Ntは1以上の整数)はアーク単語集合Wtに含まれるアーク単語)、Ct=(ct1, ct2, …, ctN_t) (1≦t≦T)を前記コンフュージョンネットワークを構成するt番目のアーク重み集合(ただし、ctn(1≦n≦Nt)はアーク単語wtnに対応するアーク重み)とし、
    前記コンフュージョンネットワークを構成するアーク単語集合系列W1, W2, …, WTとアーク重み集合系列C1, C2, …, CTから、ベクトルの系列であるコンフュージョンネットワーク分散表現系列U1, U2, …, UTを生成するコンフュージョンネットワーク分散表現系列生成部と
    を含むコンフュージョンネットワーク分散表現生成装置であって、
    前記コンフュージョンネットワーク分散表現系列生成部は、
    前記アーク単語集合Wtに含まれるアーク単語wtnを単語分散表現ωtnに変換することによりアーク単語分散表現集合Ωt=(ωt1, ωt2,…, ωtN_t)を得、アーク単語分散表現集合系列Ω1, Ω2, …, ΩTを生成するアーク単語分散表現集合系列変換部と、
    前記アーク単語分散表現集合系列Ω1, Ω2, …, ΩTと前記アーク重み集合系列C1, C2,…, CTから、前記コンフュージョンネットワーク分散表現系列U1, U2, …, UTを生成するアーク単語分散表現集合重み付け統合部と
    を含むコンフュージョンネットワーク分散表現生成装置。
  2. 請求項1に記載のコンフュージョンネットワーク分散表現生成装置であって、
    さらに、単語系列w1, w2, …, wTから、次式によりコンフュージョンネットワークを構成するアーク単語集合系列W1, W2, …, WTとアーク重み集合系列C1, C2, …, CTを生成するテキスト変換部を含む
    Figure 0006852167

    ことを特徴とするコンフュージョンネットワーク分散表現生成装置。
  3. Tを1以上の整数とし、
    Wt=(wt1, wt2, …, wtN_t) (1≦t≦T)をコンフュージョンネットワークを構成するt番目のアーク単語集合(ただし、wtn(1≦n≦Nt、Ntは1以上の整数)はアーク単語集合Wtに含まれるアーク単語)、Ct=(ct1, ct2, …, ctN_t) (1≦t≦T)を前記コンフュージョンネットワークを構成するt番目のアーク重み集合(ただし、ctn(1≦n≦Nt)はアーク単語wtnに対応するアーク重み)とし、
    前記コンフュージョンネットワークを構成するアーク単語集合系列W1, W2, …, WTとアーク重み集合系列C1, C2, …, CTから、ベクトルの系列であるコンフュージョンネットワーク分散表現系列U1, U2, …, UTを生成するコンフュージョンネットワーク分散表現系列生成部と
    前記コンフュージョンネットワーク分散表現系列U1, U2, …, UTから、前記コンフュージョンネットワークのクラスを示すクラスラベルを推定するクラスラベル推定部と
    を含むコンフュージョンネットワーク分類装置であって、
    前記コンフュージョンネットワーク分散表現系列生成部は、
    前記アーク単語集合Wtに含まれるアーク単語wtnを単語分散表現ωtnに変換することによりアーク単語分散表現集合Ωt=(ωt1, ωt2,…, ωtN_t)を得、アーク単語分散表現集合系列Ω1, Ω2, …, ΩTを生成するアーク単語分散表現集合系列変換部と、
    前記アーク単語分散表現集合系列Ω1, Ω2, …, ΩTと前記アーク重み集合系列C1, C2,…, CTから、前記コンフュージョンネットワーク分散表現系列U1, U2, …, UTを生成するアーク単語分散表現集合重み付け統合部と
    を含むコンフュージョンネットワーク分類装置。
  4. 請求項3に記載のコンフュージョンネットワーク分類装置であって、
    前記コンフュージョンネットワーク分散表現系列生成部と前記クラスラベル推定部は、ニューラルネットワークとして構成され、
    前記コンフュージョンネットワーク分散表現系列生成部を構成するニューラルネットワークのパラメータと前記クラスラベル推定部を構成するニューラルネットワークのパラメータは、2つのニューラルネットワークを結合して得られる1つのニューラルネットワークとして学習したものである
    ことを特徴とするコンフュージョンネットワーク分類装置。
  5. Tを1以上の整数とし、
    Wt=(wt1, wt2, …, wtN_t) (1≦t≦T)をコンフュージョンネットワークを構成するt番目のアーク単語集合(ただし、wtn(1≦n≦Nt、Ntは1以上の整数)はアーク単語集合Wtに含まれるアーク単語)、Ct=(ct1, ct2, …, ctN_t) (1≦t≦T)を前記コンフュージョンネットワークを構成するt番目のアーク重み集合(ただし、ctn(1≦n≦Nt)はアーク単語wtnに対応するアーク重み)とし、
    コンフュージョンネットワーク分散表現生成装置が、前記コンフュージョンネットワークを構成するアーク単語集合系列W1, W2, …, WTとアーク重み集合系列C1, C2, …, CTから、ベクトルの系列であるコンフュージョンネットワーク分散表現系列U1, U2, …, UTを生成するコンフュージョンネットワーク分散表現系列生成ステップと
    を含むコンフュージョンネットワーク分散表現生成方法であって、
    前記コンフュージョンネットワーク分散表現系列生成ステップは、
    前記アーク単語集合Wtに含まれるアーク単語wtnを単語分散表現ωtnに変換することによりアーク単語分散表現集合Ωt=(ωt1, ωt2,…, ωtN_t)を得、アーク単語分散表現集合系列Ω1, Ω2, …, ΩTを生成するアーク単語分散表現集合系列変換ステップと、
    前記アーク単語分散表現集合系列Ω1, Ω2, …, ΩTと前記アーク重み集合系列C1, C2,…, CTから、前記コンフュージョンネットワーク分散表現系列U1, U2, …, UTを生成するアーク単語分散表現集合重み付け統合ステップと
    を含むコンフュージョンネットワーク分散表現生成方法。
  6. Tを1以上の整数とし、
    Wt=(wt1, wt2, …, wtN_t) (1≦t≦T)をコンフュージョンネットワークを構成するt番目のアーク単語集合(ただし、wtn(1≦n≦Nt、Ntは1以上の整数)はアーク単語集合Wtに含まれるアーク単語)、Ct=(ct1, ct2, …, ctN_t) (1≦t≦T)を前記コンフュージョンネットワークを構成するt番目のアーク重み集合(ただし、ctn(1≦n≦Nt)はアーク単語wtnに対応するアーク重み)とし、
    コンフュージョンネットワーク分類装置が、前記コンフュージョンネットワークを構成するアーク単語集合系列W1, W2, …, WTとアーク重み集合系列C1, C2, …, CTから、ベクトルの系列であるコンフュージョンネットワーク分散表現系列U1, U2, …, UTを生成するコンフュージョンネットワーク分散表現系列生成ステップと
    前記コンフュージョンネットワーク分類装置が、前記コンフュージョンネットワーク分散表現系列U1, U2, …, UTから、前記コンフュージョンネットワークのクラスを示すクラスラベルを推定するクラスラベル推定ステップと
    を含むコンフュージョンネットワーク分類方法であって、
    前記コンフュージョンネットワーク分散表現系列生成ステップは、
    前記アーク単語集合Wtに含まれるアーク単語wtnを単語分散表現ωtnに変換することによりアーク単語分散表現集合Ωt=(ωt1, ωt2,…, ωtN_t)を得、アーク単語分散表現集合系列Ω1, Ω2, …, ΩTを生成するアーク単語分散表現集合系列変換ステップと、
    前記アーク単語分散表現集合系列Ω1, Ω2, …, ΩTと前記アーク重み集合系列C1, C2,…, CTから、前記コンフュージョンネットワーク分散表現系列U1, U2, …, UTを生成するアーク単語分散表現集合重み付け統合ステップと
    を含むコンフュージョンネットワーク分類方法。
  7. 請求項1もしくは2に記載のコンフュージョンネットワーク分散表現生成装置または請求項3もしくは4に記載のコンフュージョンネットワーク分類装置としてコンピュータを機能させるためのプログラム。
JP2019539388A 2017-09-04 2018-08-21 コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム Active JP6852167B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017169325 2017-09-04
JP2017169325 2017-09-04
PCT/JP2018/030776 WO2019044583A1 (ja) 2017-09-04 2018-08-21 コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2019044583A1 JPWO2019044583A1 (ja) 2020-10-08
JP6852167B2 true JP6852167B2 (ja) 2021-03-31

Family

ID=65525508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019539388A Active JP6852167B2 (ja) 2017-09-04 2018-08-21 コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム

Country Status (3)

Country Link
US (1) US11556783B2 (ja)
JP (1) JP6852167B2 (ja)
WO (1) WO2019044583A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386264B2 (en) * 2007-04-13 2013-02-26 Nippon Telegraph And Telephone Corporation Speech data retrieval apparatus, speech data retrieval method, speech data retrieval program and computer usable medium having computer readable speech data retrieval program embodied therein
JP5980142B2 (ja) * 2013-02-20 2016-08-31 日本電信電話株式会社 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム
JP6486789B2 (ja) * 2015-07-22 2019-03-20 日本電信電話株式会社 音声認識装置、音声認識方法、プログラム

Also Published As

Publication number Publication date
US11556783B2 (en) 2023-01-17
US20200218975A1 (en) 2020-07-09
WO2019044583A1 (ja) 2019-03-07
JPWO2019044583A1 (ja) 2020-10-08

Similar Documents

Publication Publication Date Title
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
CN108475262A (zh) 用于文本处理的电子设备和方法
JP6812381B2 (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
JP7070653B2 (ja) 学習装置、音声認識順位推定装置、それらの方法、およびプログラム
US11587553B2 (en) Appropriate utterance estimate model learning apparatus, appropriate utterance judgement apparatus, appropriate utterance estimate model learning method, appropriate utterance judgement method, and program
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
US20190129948A1 (en) Generating method, generating device, and recording medium
JP7211103B2 (ja) 系列ラベリング装置、系列ラベリング方法、およびプログラム
JP6852167B2 (ja) コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム
JP6549064B2 (ja) 音声認識装置、音声認識方法、プログラム
JP4328362B2 (ja) 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラム及びその記録媒体
JP6558856B2 (ja) 形態素解析装置、モデル学習装置、及びプログラム
JP6486789B2 (ja) 音声認識装置、音声認識方法、プログラム
JP6353408B2 (ja) 言語モデル適応装置、言語モデル適応方法、プログラム
JP2022185799A (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
JP5342574B2 (ja) トピックモデリング装置、トピックモデリング方法、及びプログラム
JP6441203B2 (ja) 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム
JP5780516B2 (ja) モデル縮減装置とその方法とプログラム
WO2022162767A1 (ja) 誤り訂正装置、誤り訂正方法、プログラム
JP5700566B2 (ja) スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム
JP7017176B2 (ja) 学習装置、識別装置、それらの方法、およびプログラム
US11462212B2 (en) Document identification device, document identification method, and program
Brunet et al. ICL Markup: Structuring In-Context Learning using Soft-Token Tags

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200303

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210310

R150 Certificate of patent or registration of utility model

Ref document number: 6852167

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150