JP2014160168A - 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム - Google Patents

学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム Download PDF

Info

Publication number
JP2014160168A
JP2014160168A JP2013030772A JP2013030772A JP2014160168A JP 2014160168 A JP2014160168 A JP 2014160168A JP 2013030772 A JP2013030772 A JP 2013030772A JP 2013030772 A JP2013030772 A JP 2013030772A JP 2014160168 A JP2014160168 A JP 2014160168A
Authority
JP
Japan
Prior art keywords
recognition result
word
recognition
word string
learning data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013030772A
Other languages
English (en)
Other versions
JP5980142B2 (ja
Inventor
Atsunori Ogawa
厚徳 小川
Takaaki Hori
貴明 堀
Atsushi Nakamura
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013030772A priority Critical patent/JP5980142B2/ja
Publication of JP2014160168A publication Critical patent/JP2014160168A/ja
Application granted granted Critical
Publication of JP5980142B2 publication Critical patent/JP5980142B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】Nベスト認識結果に適用可能な識別的音声認識精度推定装置における識別モデルを効率よく学習するための学習用データを得ることができる学習データ選択装置を提供する。
【解決手段】Nベスト認識結果単語列が記憶されるNベスト認識結果記憶部と、1位認識結果単語列を記憶する学習用データ記憶部と、Nベスト認識結果記憶部からi位認識結果単語列を抽出するi位認識結果抽出部と、学習用データ記憶部の各認識結果単語列からi位認識結果単語列と最も近似するk位認識結果単語列を抽出するk位認識結果抽出部と、i位認識結果単語列とk位認識結果単語列のうち互いに異なる単語の数から異なり単語率Rを計算する異なり単語率計算部と、異なり単語率Rが予め定めた閾値Tを超える場合にはi位認識結果単語列を学習用データ記憶部に記憶する比較部とを備える。
【選択図】図11

Description

本発明はNベスト認識結果の精度を推定するために用いる学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラムに関する。
非特許文献1において、1位認識結果の精度を推定する識別的音声認識精度推定装置が開示されている。なお、本明細書において、Nベスト認識結果とは、1位からN位までのN個の認識結果の集合を意味するものとし、N位認識結果とは、N位の認識結果を意味するものとする。1ベスト認識結果と1位認識結果とは同じ意味であるため、本明細書では、1位認識結果を1ベスト認識結果、または1−best認識結果とも書く。
小川 厚徳、堀 貴明、中村 篤、"単語アライメントネットワークと識別的誤りタイプ分類による認識精度推定、"2012年音響学会秋季研究発表会、2-1-5,pp.67-68 (2012年) J.D. Williams, "Exploiting the ASR N-Best by tracking multiple dialog state hypotheses," in Proc. Interspeech. ISCA, 2008, pp. 191-194. J.D. Williams and S. Balakrishnan, "Estimating probability of correctness for ASR N-Best lists," in the 10th Annual Meeting of the Special Interest Group in Discourse and Dialogue (SIGDIAL2009). ACL, 2009, pp. 132-135.
ある一つの入力音声に対する音声認識装置の認識結果としては、認識スコアの最も高い1位(1ベスト)認識結果を採用することが多い。しかし、1位認識結果の精度は低いことも多いので、1位認識結果に2位以下の認識結果も加えた複数認識結果を前提として音声認識装置が開発されることもある(非特許文献2、非特許文献3)。2位以下に1位よりも精度の高い認識結果が含まれていることがしばしばあるからである。
非特許文献1のような識別的音声認識精度推定は音声認識技術の高性能化に有用な技術である。しかしながら、非特許文献1の識別的音声認識精度推定技術で使用する識別モデルは1位認識結果を識別するためのモデルであるため、2位以下の認識結果の識別に利用することができない。そのため、上記のような複数認識結果を前提として開発されている音声認識装置の高性能化に利用することができないという問題があった。
そこで本発明では、N(Nは2以上の整数)ベスト認識結果に適用可能な識別的音声認識精度推定装置における識別モデルを効率よく学習するための学習用データを得ることができる学習データ選択装置を提供することを目的とする。
本発明の学習データ選択装置は、Nベスト認識結果記憶部と、学習用データ記憶部と、i位認識結果抽出部と、k位認識結果抽出部と、異なり単語率計算部と、比較部とを備える。Nを2以上の整数とし、kをk<iを充たす正の整数とする。
Nベスト認識結果記憶部には、Nベスト認識結果単語列が予め記憶される。学習用データ記憶部には、初期値として1位認識結果単語列が予め記憶される。i位認識結果抽出部は、Nベスト認識結果記憶部を参照して、i位認識結果単語列を抽出する。k位認識結果抽出部は、学習用データ記憶部に記憶されている各認識結果単語列とi位認識結果単語列とをセグメント毎に照合し、学習用データ記憶部に記憶されている各認識結果単語列の中からi位認識結果単語列と最も近似する認識結果単語列であるk位認識結果単語列を抽出する。異なり単語率計算部は、i位認識結果単語列とk位認識結果単語列のうち互いに異なる単語の数を認識結果単語列の長さで割ったものを異なり単語率Rとして計算する。比較部は、異なり単語率Rと予め定めた閾値Tとを比較して、R>Tである場合にはi位認識結果単語列を学習用データ記憶部に記憶する。
iの初期値をi=2とし、i位認識結果抽出部、k位認識結果抽出部、異なり単語率計算部、および比較部の処理が実行される度に、iはインクリメントされ、i=Nとなるまで、i位認識結果抽出部、k位認識結果抽出部、異なり単語率計算部、および比較部の処理が繰り返し実行される。
本発明の学習データ選択装置によれば、Nベスト認識結果に適用可能な識別的音声認識精度推定装置における識別モデルを効率よく学習するための学習用データを得ることができる。
参考特許文献の識別的音声認識精度推定装置の構成を示すブロック図。 参考特許文献の単語アライメントネットワーク取得部の構成を示すブロック図。 参考特許文献の音声認識部の構成を示すブロック図。 参考特許文献の単語アライメントネットワーク取得部の動作を示すフローチャート。 参考特許文献の識別的音声認識精度推定装置の動作を示すフローチャート。 参考特許文献の認識結果単語確率的分類部が行う1−best認識結果単語列中の各単語に対して確率的単語分類結果を付与する処理について示す図。 参考特許文献と本発明の認識精度算出手順の違いを説明する図。 単語コンフュージョンネットワークからNベスト認識結果を抽出した例を示す図。 単語コンフュージョンネットワークから単語アライメントネットワークへの変換例を示す図。 1単語から成る認識結果における1、2、4位認識結果単語のそれぞれを正解単語とした場合の単語アライメントネットワークの例について示す図。 本発明の実施例1の学習データ選択装置の構成を示すブロック図。 本発明の実施例1の学習データ選択装置の動作を示すフローチャート。 本発明の実施例2の識別的音声認識精度推定装置の構成を示すブロック図。 本発明の実施例2の音声認識部の構成を示すブロック図。 本発明の実施例2の識別的音声認識精度推定装置の動作を示すフローチャート。 本発明の実施例3の識別的音声認識精度推定装置の構成を示すブロック図。 本発明の実施例3の識別的音声認識精度推定装置の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図1、2、3、4、5、6を参照して、参考特許文献(特願2012−187708)の実施例3として記載された識別的音声認識精度推定装置600について説明する。図1は参考特許文献の識別的音声認識精度推定装置600の構成を示すブロック図である。図2は参考特許文献の単語アライメントネットワーク取得部40の構成を示すブロック図である。図3は参考特許文献の音声認識部630の構成を示すブロック図である。図4は参考特許文献の単語アライメントネットワーク取得部40の動作を示すフローチャートである。図5は参考特許文献の識別的音声認識精度推定装置600の動作を示すフローチャートである。図6は参考特許文献の認識結果単語確率的分類部120が行う1−best認識結果単語列中の各単語に対して確率的単語分類結果を付与する処理について示す図である。
図1に示すとおり、参考特許文献の識別的音声認識精度推定装置600は、音声認識部630、単語アライメントネットワーク取得部40、1−best単語アライメント結果シンボル列取得部60、1−best認識結果単語列取得部80、単語特徴量ベクトル作成部90、単語関連情報記憶部100、認識結果単語確率的分類モデル記憶部110、認識結果単語確率的分類部120、確率的認識精度計算部130を備える。図2に示すとおり、単語アライメントネットワーク取得部40は、1−best認識結果単語列取得手段41、正解確率計算手段42、置換誤り確率計算手段43、挿入誤り確率計算手段44、削除誤り確率計算手段45を備える。図3に示すとおり、音声認識部630は、単語ラティス生成手段631、単語コンフュージョンネットワーク生成手段32、対立候補情報生成手段632を備える。
まず音声認識部630は、入力端子2に入力される音声を音声認識し、当該音声認識結果を単語ラティス、および単語コンフュージョンネットワークの形式で生成する。音声認識部630は、これらに加えて後述する対立候補情報を生成し、生成した単語ラティスと、単語コンフュージョンネットワークと、対立候補情報とを出力する(S630)。上記に加え、音声認識部630は、音声認識の過程においてディジタル音声信号の特徴量ベクトルの時系列への変換や、音響モデルと言語モデルを用いた尤度計算などを行う。これらの処理は従来の音声認識と同様であるため詳細は割愛する。
より詳細には、単語ラティス生成手段631は、単語ラティスを生成する(SS631)。単語コンフュージョンネットワーク生成手段32は、生成された単語ラティスから単語コンフュージョンネットワークを生成する(SS32)。次に、対立候補情報生成手段632は、単語ラティス及び単語コンフュージョンネットワークから対立候補情報を生成する(SS632)。
単語ラティスは複数の認識結果単語列の表現形式であり、これを変換して単語コンフュージョンネットワークが生成される。単語コンフュージョンネットワークの方が単語ラティスよりも効率よくコンパクトに複数の認識結果単語列を表現するが、単語ラティスには単語コンフュージョンネットワークには保存されていない情報、例えば、認識結果単語の音響尤度や言語尤度などが記録されている。対立候補情報とは、ある認識結果単語を認識中(探索処理実行中)に、対立候補の単語はいくつあったかを示す情報のことである。
次に、単語アライメントネットワーク取得部40は音声認識部630から出力された単語コンフュージョンネットワークを単語アライメントネットワークに変換する(S40)。単語アライメントネットワークは、何れかのセグメントにおいてεが最大存在確率とならない場合に、最大存在確率を有する単語の存在確率を当該セグメントにおける正解確率とし、当該セグメントにおける最大存在確率を有しないε以外の単語の存在確率の合計を当該セグメントにおける置換誤り確率とし、当該セグメントにおけるεの存在確率を当該セグメントにおける挿入誤り確率とし、何れかのセグメントにおいてεが最大存在確率となる場合に、当該セグメントにおける最大存在確率を有しない単語の存在確率の合計を当該セグメントにおける削除誤り確率として、セグメント毎に、正解/置換誤り/挿入誤り/削除誤り確率を示したものである。
音声認識精度は正解単語列と認識結果単語列のアライメントをDPマッチングにより取ることで計算できるが、単語アライメントネットワークとはこのアライメント結果を表現するものであり、基になる単語コンフュージョンネットワークが複数の認識結果単語列を確率的に表現するものであることから、単語アライメントネットワークは複数のアライメント結果を確率的に表現するものである。
ここで、単語アライメントネットワーク取得部40の処理の詳細を図2に示した各構成手段の動作に細分化して説明すると、まず、1−best認識結果単語列取得手段41は、単語コンフュージョンネットワークから1−best認識結果単語列を取得する(SS41)。
ここで、一つの単語コンフュージョンネットワーク中の各セグメントで最大の存在確率を持つ単語を連結したものを1−best認識結果単語列という。通常の場合、1−best認識結果単語列は最終的な音声認識結果単語列である(単語コンフュージョンネットワークを介さずに最終的な認識結果単語列を得る方法もある)。
以下、得られた1−best認識結果単語が正味の単語であるか、εであるかによって処理が分岐する。1−best認識結果単語がεでない正味の単語である場合、正解確率計算手段42は、当該εでない1−best認識結果単語を、セグメントjにおける正解単語を表す単語アライメント結果シンボルC(jはセグメント番号、以降も同じ)に変え、当該1−best認識結果単語の存在確率を正解確率であるp(C)として付与する(SS42)。ここで、εでない1−best認識結果単語が実は正解単語ではなく、これに競合、対立する認識結果単語(εでない)が正解単語であるとすると、前述の1−best認識結果単語は置換誤り(Substitution_error)となる。よって、置換誤り確率計算手段43は、対立する認識結果単語(εでない)を一つに束ねて置換誤りを表す単語アライメント結果シンボルSとし、置換誤り確率p(S)を、εでない対立候補の存在確率の和として付与する(SS43)。最後に、前述のεでない1−best認識結果単語が、実は正解単語ではなく、ε(単語なし)が正しいとすると、前述のεでない1−best認識結果単語は挿入誤り(Insertion_error)となる。よってこのεを挿入誤りを表す単語アライメント結果シンボルIに変え、挿入誤り確率p(I)をp(ε)として付与する(SS44)。
一方、1−best認識結果単語がεである場合、このεと競合(対立)する認識結果単語が存在する場合には、εすなわち「単語なし」が実は正しくなく、このセグメントに他のεでない対立候補が存在するのが正しいとすると、このεは削除誤り(Deletion_error)となる。よって他のεでない対立候補を一つに束ねて削除誤りを表す単語アライメント結果シンボルDとし、削除誤り確率p(D)を、εでない対立候補の存在確率の和として付与する(SS45)。
次に、1−best単語アライメント結果シンボル列取得部60は、単語アライメントネットワークを1−best単語アライメント結果シンボル列に変換する(S60)。
1−best単語アライメント結果シンボル列とは、単語アライメントネットワークにおいて、何れかのセグメントにおける最大確率が正解確率である場合にシンボルC、何れかのセグメントにおける最大確率が置換誤り確率である場合にシンボルSを、何れかのセグメントにおける最大確率が挿入誤り確率である場合にシンボルIを、何れかのセグメントにおける最大確率が削除誤り確率である場合にシンボルDを、セグメント毎に付与して連結したものである。
次に、音声認識部630から出力された単語コンフュージョンネットワークを入力として、1−best認識結果単語列取得部80は、1−best認識結果単語列を取得する(S80)。単語特徴量ベクトル作成部90は、1−best認識結果単語列中の各単語(εも含む)に対して、単語コンフュージョンネットワークから得られる情報(存在確率、競合単語の数)、単語ラティスから得られる情報(音響尤度、言語尤度)、対立候補情報、単語アライメントネットワークから得られる情報(単語アライメント結果シンボルA(A=C/S/I/D)の存在確率p(A))、1−best単語アライメント結果シンボル列から得られる情報(単語アライメント結果シンボル)を取得する。また同時に単語関連情報記憶部100から、認識結果単語に対する情報(単語関連情報)を取得する。単語関連情報は認識結果単語の品詞情報などを表す。単語特徴量ベクトル作成部90は、これらの入力情報を並べて、単語特徴量ベクトルを作成する(S90)。単語特徴量ベクトルの作成に際し、入力情報はどんな順序で並べても構わないが、一度順序を決めた後はそれを変えないようにする。認識結果単語確率的分類部120は、単語特徴量ベクトル作成部90で作成された1−best認識結果単語列中の各単語(εも含む)の単語特徴量ベクトルを入力として、認識結果単語確率的分類モデル記憶部110に記憶された認識結果単語確率的分類モデル(モデルパラメータ)を用いて、1−best認識結果単語列中の各単語(εも含む)を確率的に単語アライメント結果シンボルに分類し、各シンボルに対し確率を付与する(S120)。このように、セグメント毎に単語アライメント結果シンボルと各シンボルの確率とを対にして表記した結果を確率的単語分類結果と呼ぶ。
別の表現をすれば、1−best認識結果単語列中の各単語(εも含む)の単語特徴量ベクトルと、予め学習された認識結果単語確率的分類モデル(モデルパラメータ)とを用いて付与した、1−best認識結果単語列中の各単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、ε(認識結果単語なし)である確率をセグメント毎に表記した結果を確率的単語分類結果ということができる。
すなわち、例えば1−best認識結果単語列中のj番目の1−best認識結果単語に対して、それが正解である確率p(C)、置換誤りである確率p(S)、挿入誤りである確率p(I)、削除誤りである確率p(D)、εである確率p(ε)を付与する。ここで、p(C)+p(S)+p(I)+p(D)+p(ε)=1である。この処理の様子を図6に示す。認識結果単語確率的分類モデルは、例えば、参考非特許文献1に詳述されている条件付確率場(Conditional_Random_Fields:CRF)などであり、学習データを用いて1−best認識結果単語列中の各単語の単語特徴量ベクトル(当該単語の単語特徴量ベクトルだけでなく当該単語の前後数単語の単語特徴量ベクトルが用いられることもある。これは以下の実施例でも同じである)と、当該単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、εである確率の関係を予め学習しておく。
(参考非特許文献1)J. Lafferty, A. McCallum and F. Pereira, “Conditional random fields: probabilistic models for segmenting and labeling sequence data,”Proc. ICML, pp. 282-289, 2001.
次に、確率的認識精度計算部130は、確率的単語分類結果を用いて音声認識精度を計算し、計算した音声認識精度を出力する(S130)。通常、音声認識精度は、正解単語列中の単語数#N、正解単語数#C、置換誤り単語数#S、挿入誤り単語数#I、削除誤り単語数#Dを、0以上の整数として数え上げて、以下の式(1)または式(2)により計算される。
Figure 2014160168
Figure 2014160168
確率的認識精度計算部130では、確率的単語分類結果の各セグメント中の各単語アライメント結果シンボルの確率値を加算することで計算する。ここで、ある確率的単語分類結果中のセグメント数をJ、j番目のセグメントをQ(j=1,2,…,J)、Q中に存在し得る単語アライメント結果シンボルをA(A=C/S/I/D)、その存在確率をp(A)とする。このとき、正解単語数の推定値E(#C)、置換誤り単語数の推定値E(#S)、挿入誤り単語数の推定値E(#I)、削除誤り単語数の推定値E(#D)、正解単語列中の単語数の推定値E(#N)は、それぞれ以下のように求めることができる。
Figure 2014160168
Figure 2014160168
Figure 2014160168
Figure 2014160168
Figure 2014160168
0以上の整数である#C、#S、#D、#Iとは異なり、これらE(#C)、E(#S)、E(#I)、E(#D)、E(#N)は、小数点以下の数値を取りうる。これらを用いて単語正解率と単語正解精度は以下のように求められる。
Figure 2014160168
Figure 2014160168
1−best認識結果単語列中の正解単語数の推定値E(#C)、置換誤り単語数の推定値E(#S)、挿入誤り単語数の推定値E(#I)、削除誤り単語数の推定値E(#D)は、それぞれ、式(3)、式(4)、式(5)、式(6)で計算できる。図6の例の場合、E(#C)=3.4、E(#S)=0.9、E(#I)=0.8、E(#D)=1.4となる(E(ε)=1.5と計算できるがこれは以降の認識精度推定には用いない)。また、式(7)より正解単語列中の単語数の推定値はE(#N)=3.4+0.9+1.4=5.7となる。単語正解率及び単語正解精度は式(8)及び式(9)で計算できる。図6の例の場合、単語正解率=(3.4/5.7)×100=59.65[%]、単語正解精度=((3.4−0.8)/5.7)×100=45.61[%]となる。
以下、図7を参照して、本発明と参考特許文献の発明の違いについて説明する。図7は参考特許文献と本発明の認識精度算出手順の違いを説明する図である。図7に示すとおり、本発明と参考特許文献の違いは、精度推定の対象が1位のみか、Nベスト(1位も含む)か、の違いである。
図8は単語コンフュージョンネットワークからNベスト認識結果を抽出した例を示す図である。1位認識結果は単語コンフュージョンネットワークの各セグメントにおいて事後確率の最も高い単語を選択することで得ることができる。図8の場合、1位認識結果単語列は、“私ε定額に行くεεた”となる。2位認識結果単語列は1位認識結果単語列に次ぐ合計の事後確率(スコア)を持つ認識結果単語列である。図8の場合は、2位認識結果単語列は、セグメント2において「ε」でなく「は」を選択することで得ることができる。結果、2位認識結果単語列は、“私は定額に行くεεた”となる。ここで図8の正解単語列“私は大学に行く予定でした”と比較すると、1位認識結果単語列よりも2位認識結果単語列の方が一単語分だけ正解単語が増えており、認識精度が高い。すなわち上記したように、2位以下の認識結果が1位の認識結果よりも精度が高くなることがしばしばある。図8の例において、3位認識結果単語列は、第2セグメントにおいて、「が」を選択することで得ることができる。結果、3位認識結果単語列は、“私が定額に行くεεた”となる。3位以下の認識結果も同様に得ることができる。ここで注目すべきは、同程度のランクに位置する認識結果の違いが非常に小さいということである。図8の場合、1、2、3位認識結果の違いは、第2セグメントの1単語のみである。これはNベスト認識結果単語が非常に分かりやすい複数認識結果の表現形式である反面、認識結果の違いを効率的に表現することが困難であることを意味している。図8の場合、この単語コンフュージョンネットワークと同じだけの認識結果のバリエーションを表現するのに、Nベスト認識結果では、2×3×4×2×2×3×2×1=576個の認識結果を並べる必要がある。なお、実際には、NベストのNは、あらかじめ設定する場合が多い。すなわち、図8の場合は、最多で576個の認識結果を得ることができるため、例えば、あらかじめN=100と設定した場合は、上位の100個をNベスト認識結果として得る。しかしながら、N=1000と設定した場合は、上位1000個をNベスト認識結果として得ようとしても、N=576までしか得られない。
図9は単語コンフュージョンネットワークから単語アライメントネットワークへの変換例を示す図である。図9は単語コンフュージョンネットワーク上の1位認識結果単語列中の各単語を正解単語(C)として選択した場合の単語アライメントネットワークの例である。前述したように、単語アライメントネットワーク上のC/S/I/D確率は、認識結果単語確率的分類モデルの特徴量として使用される。
図10を参照して、識別的音声認識精度推定装置をNベスト認識結果に適用する際の課題を明らかにする。図10では説明を簡単にするため、1単語から成る認識結果文章(単語列)を考える。単語コンフュージョンネットワークの1位(1ベスト)認識結果単語を正解単語(C)として選択することで得られる単語アライメントネットワーク1を右上に示す。この例に示すように、一般に音声認識装置は1位認識結果単語を正解単語として出力するように構築されるため、1位認識結果単語を正解単語(C)として選択した場合、C確率はS確率及びI確率よりも相対的に高くなる傾向にある。一方、図10左下の単語アライメントネットワーク2に示すように、2位認識結果単語の「雑貨」を正解単語(C)として選択すると、C確率は低くなり、その代わりにS確率、I確率が大きくなることもある(この例ではI確率は小さいが、実際にI確率が大きくなることもある)。また図10右下の単語アライメントネットワーク3に示すように、4位認識結果単語のεを正解単語として選択すると、D確率が出現する。
図10から明らかなことは、1位(1ベスト)認識結果単語を正解単語(C)として選択する場合と、2位以下の認識結果単語を正解単語(C)として選択する場合とでは、C/S/I/D確率のレンジが大きく異なるということである。よって、1位(1ベスト)認識結果単語を正解単語(C)として選択した場合のC/S/I/D確率のみで学習した識別モデル(非特許文献1の認識結果単語確率的分類モデル)では、C/S/I/D確率のレンジの大きく異なる2位以下の認識結果単語の精度推定を正確に行うことは困難である。従って、Nベスト認識結果に適用可能な識別的音声認識精度推定装置における識別モデルを学習するには、1位(1ベスト)認識結果だけでなく2位以下の認識結果も使用する必要があるということがわかる。
しかしながら、Nベスト認識結果においては、上記したように、同程度のランクに位置する認識結果の違いが非常に小さい。例えば図8の1、2、3位認識結果単語列の場合、セグメント2を除けば全く同じ単語及び単語列が出現するため、このようなデータを識別モデルの学習データとして使えば(非特許文献1において、単に学習データをNベスト認識結果に置き換えただけでは)、同じようなパターンに対してのみ識別モデルを過度に学習することになる。また学習データの量が膨大になるため、識別モデルの学習時間も膨大になってしまう。
そこで、以下の実施例1において、識別的音声認識精度推定をNベスト認識結果に適用するために不可欠な学習データを選択することができ、識別モデルの過学習を抑えることができる学習データ選択装置10を開示する。
以下、本実施例の学習データ選択装置10について、図11、図12を参照して説明する。図11は本実施例の学習データ選択装置10の構成を示すブロック図である。図12は本実施例の学習データ選択装置10の動作を示すフローチャートである。図11に示すように、本実施例の学習データ選択装置10は、Nベスト認識結果記憶部11と、i位認識結果抽出部12と、学習用データ記憶部13と、k位認識結果抽出部14と、異なり単語率計算部15と、閾値記憶部16と、比較部17とを備える。Nベスト認識結果記憶部11には、Nベスト認識結果単語列が予め記憶されている。学習用データ記憶部13には、初期値として1位認識結果単語列が予め記憶されている。閾値記憶部16には、後述する異なり単語率Rと比較するための閾値Tが予め記憶されている。変数iは、学習データ選択装置10の処理が1度実行される度にインクリメントされるナンバーである。学習データ選択装置10は、初期値としてi=2とする(S10A)。まず、i位認識結果抽出部12は、Nベスト認識結果記憶部11を参照して、ランクiの結果であるi位認識結果単語列を抽出する(S12)。次に、k位認識結果抽出部14は、学習用データ記憶部13を参照して、学習用データ記憶部13に記憶されている各認識結果単語列とi位認識結果単語列とをセグメント毎に照合し、学習用データ記憶部13に記憶されている各認識結果単語列の中からi位認識結果単語列と最も近似する認識結果単語列であるk位認識結果単語列を抽出する(S14)。ただし、kはk<iを充たす正の整数である。次に、異なり単語率計算部15は、i位認識結果単語列とk位認識結果単語列のうち互いに異なる単語の数を認識結果単語列の長さ(単語列中の単語数、i位認識結果とk位認識結果単語は同じ単語コンフュージョンネットワークから抽出されたものであるため長さは等しい)で割ったものを異なり単語率Rとして計算し、当該異なり単語率Rとi位認識結果単語列とを出力する(S15)。次に、比較部17は、異なり単語率Rと閾値Tとを比較して、R>Tである場合には(S17A−Y)、i位認識結果単語列を学習用データ記憶部13に記憶する(S17B)。一方比較部17は、R>Tでない場合には(S17A−N)、i位認識結果単語列を学習用データ記憶部13に記憶しない。前述したようにiの初期値をi=2とし、上述のステップS12、S14、S15、S17A、S17Bが実行される度に、iはインクリメントされ、i=Nとなるまで、上述のステップS12、S14、S15、S17A、S17Bが繰り返し実行される。具体的には、ステップS10Bの後、i>Nである場合には(S10C−Y)処理は終了し(エンド)、i>Nでない場合には(S10C−N)、ステップS12以降が再度実行される。
閾値Tを大きく設定するほど、学習用データ記憶部13中の各認識結果単語列の違いは大きくなり、学習用データ記憶部13に含まれる認識結果の個数は少なくなる。閾値Tを小さく設定すれば反対の傾向となり、学習用データ記憶部13中の各認識結果単語列の違いは小さくなり、学習用データ記憶部13に含まれる認識結果の個数は多くなる。
このように、本実施例の学習データ選択装置10によれば、Nベスト認識結果に適用可能な識別的音声認識精度推定装置における識別モデルを効率よく学習するための学習用データを得ることができ、識別モデルの過学習を抑えることができる。
以下の実施例2において、本実施例の学習データ選択装置10を用いて学習された識別モデルを用いて音声認識精度を推定する識別的音声認識精度推定装置20について説明する。
以下、図13、図14、図15を参照して実施例2の識別的音声認識精度推定装置20について説明する。図13は本実施例の識別的音声認識精度推定装置20の構成を示すブロック図である。図14は本実施例の音声認識部21の構成を示すブロック図である。図15は本実施例の識別的音声認識精度推定装置20の動作を示すフローチャートである。本実施例の識別的音声認識精度推定装置20の構成は、図1に示した参考特許文献の実施例3の識別的音声認識精度推定装置600とほぼ同じである。ただし、音声認識部21から出力される結果が1−bestではなくN−bestの形式である点に違いがある。これに伴い、参考特許文献の図1の処理部の各名称に「N−best」が付与される。
すなわち、本実施例の識別的音声認識精度推定装置20は、音声認識部21、N−best単語アライメントネットワーク取得部22、N−best単語アライメント結果シンボル列取得部23、N−best認識結果単語列取得部24、N−best単語特徴量ベクトル作成部25、単語関連情報記憶部26、N−best認識結果単語確率的分類部27、N−best認識結果単語確率的分類モデル記憶部28、N−best確率的認識精度計算部29を備える。図14に示すとおり、音声認識部21は、単語ラティス生成手段211、単語コンフュージョンネットワーク生成手段212、対立候補情報生成手段213を備える。
本実施例のN−best認識結果単語確率的分類モデル記憶部28は、参考特許文献の認識結果単語確率的分類モデル記憶部110と同様に、認識結果単語確率的分類モデルを記憶している。しかしながら、本実施例のN−best認識結果単語確率的分類モデル記憶部28に記憶される認識結果単語確率的分類モデルは、実施例1の学習データ選択装置10により選択され、学習用データ記憶部13に記憶された学習データを用いて予め学習することにより得たモデルであるため、この点は参考特許文献と異なる。本実施例における認識結果単語確率的分類モデルは、例えば前述の条件付確率場などであり、学習用データ記憶部13に記憶された学習データを用いて認識結果単語列中の各単語の単語特徴量ベクトルと、当該単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、εである確率の関係を予め学習しておくことにより生成する。
まず音声認識部21は、入力端子2に入力される音声を音声認識し、当該音声認識結果を単語ラティス、および単語コンフュージョンネットワークの形式で生成する。音声認識部21は、これらに加えて前述した対立候補情報を生成し、生成した単語ラティスと、単語コンフュージョンネットワークと、対立候補情報とを出力する(S21)。
より詳細には、単語ラティス生成手段211は、単語ラティスを生成する(SS211)。単語コンフュージョンネットワーク生成手段212は、生成された単語ラティスから単語コンフュージョンネットワークを生成する(SS212)。次に、対立候補情報生成手段213は、単語ラティス及び単語コンフュージョンネットワークから対立候補情報を生成する(SS213)。
次に、単語アライメントネットワーク取得部22は音声認識部21から出力された単語コンフュージョンネットワークをN−best認識結果中の各ランク(各位)の認識結果の単語アライメントネットワークに変換する(S22)。次に、N−best単語アライメント結果シンボル列取得部23は、N−best認識結果中の各ランクの認識結果の単語アライメントネットワークをN−best認識結果中の各ランクの認識結果の単語アライメント結果シンボル列に変換する(S23)。
次に、音声認識部21から出力された単語コンフュージョンネットワークを入力として、N−best認識結果単語列取得部24は、N−best認識結果単語列を取得する(S24)。N−best単語特徴量ベクトル作成部25は、N−best認識結果単語列中の各単語(εも含む)に対して、単語コンフュージョンネットワークから得られる情報(存在確率、競合単語の数)、単語ラティスから得られる情報(音響尤度、言語尤度)、対立候補情報、N−best認識結果中の各ランクの認識結果の単語アライメントネットワークから得られる情報(各単語アライメント結果シンボルA(A=C/S/I/D)の存在確率p(A))、N−best認識結果中の各ランクの認識結果の単語アライメント結果シンボル列から得られる情報(各単語アライメント結果シンボル)を取得する。また同時に単語関連情報記憶部26から、認識結果単語に対する情報(単語関連情報)を取得する。単語関連情報は認識結果単語の品詞情報などを表す。N−best単語特徴量ベクトル作成部25は、これらの入力情報を並べて、N−best認識結果中の各ランクの認識結果の単語特徴量ベクトルを作成する(S25)。N−best認識結果単語確率的分類部27は、N−best単語特徴量ベクトル作成部25で作成されたN−best認識結果中の各ランクの認識結果の単語特徴量ベクトルを入力として、N−best認識結果単語確率的分類モデル記憶部28に記憶された認識結果単語確率的分類モデル(学習データ選択装置10により選択された学習用データで予め学習されたモデル)を用いて、N−best認識結果中の各ランクの認識結果単語列中の各単語(εも含む)を確率的に単語アライメント結果シンボルに分類し、各シンボルに対し確率を付与し、N−best認識結果中の各ランクの認識結果の確率的単語分類結果を得る(S27)。次に、N−best確率的認識精度計算部29は、N−best認識結果中の各ランクの認識結果の確率的単語分類結果を用いてN−best認識結果中の各ランクの認識結果の確率的認識精度(音声認識精度)を計算し、計算したN−best認識結果中の各ランクの認識結果の確率的認識精度(音声認識精度)を出力する(S29)。
このように、本実施例の識別的音声認識精度推定装置20によれば、Nベスト認識結果の各々についての認識精度の推定値を高精度で得ることができる。
以下、図16、図17を参照して、実施例3の識別的音声認識精度推定装置30について説明する。図16は本実施例の識別的音声認識精度推定装置30の構成を示すブロック図である。図17は本実施例の識別的音声認識精度推定装置30の動作を示すフローチャートである。図16に示すように、本実施例の識別的音声認識精度推定装置30は、実施例2の識別的音声認識精度推定装置20が備える構成21、22、23、24、25、26、27、28、29を備え、さらに、認識結果リランキング部31を備える。実施例2と共通する構成である21、22、23、24、25、26、27、28、29の説明については、実施例2と同様であるから割愛する。
認識結果リランキング部31は、N−best確率的認識精度計算部29が計算したN−best認識結果中の各ランクの認識結果の確率的認識精度を用いて、前記N−best認識結果の順位を再度並び替える(リランキング)(S31)。
ここで、Wを音声認識部21で認識したN−best認識結果のうちr番目(スコアがr番目に大きい)の認識結果候補(仮説)とし、w を仮説Wのi番目の単語、LをWの単語の総数とする。p(w )をw の存在確率とする。
a(W)をN−best確率的認識精度計算部29が出力する仮説Wの確率的認識精度(つまり、単語正解率もしくは単語正解精度)とすると、認識結果リランキング部31は、各仮説W(r=1,・・・,N)について、
Figure 2014160168
により、仮説wのスコアs(W)を求め、このスコアs(W)の大きい順にN−best認識結果の仮説を並べ替えて出力する(S31)。このリランキング処理により、1位認識結果の認識精度を改善することができる。
なお、認識結果リランキング部31の出力結果を音声認識部21にフィードバックし、音声認識部21の認識精度を向上させるための音声認識モデル学習等に利用しても良い。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. Nを2以上の整数とし、
    kをk<iを充たす正の整数とし、
    Nベスト認識結果単語列が予め記憶されるNベスト認識結果記憶部と、
    初期値として1位認識結果単語列を予め記憶する学習用データ記憶部と、
    前記Nベスト認識結果記憶部を参照して、i位認識結果単語列を抽出するi位認識結果抽出部と、
    前記学習用データ記憶部に記憶されている各認識結果単語列と前記i位認識結果単語列とをセグメント毎に照合し、前記学習用データ記憶部に記憶されている各認識結果単語列の中からi位認識結果単語列と最も近似する認識結果単語列であるk位認識結果単語列を抽出するk位認識結果抽出部と、
    前記i位認識結果単語列と前記k位認識結果単語列のうち互いに異なる単語の数を前記認識結果単語列の長さで割ったものを異なり単語率Rとして計算する異なり単語率計算部と、
    前記異なり単語率Rと予め定めた閾値Tとを比較して、R>Tである場合には前記i位認識結果単語列を前記学習用データ記憶部に記憶する比較部とを備え、
    前記iの初期値をi=2とし、前記i位認識結果抽出部、前記k位認識結果抽出部、前記異なり単語率計算部、および前記比較部の処理が実行される度に、前記iはインクリメントされ、i=Nとなるまで、前記i位認識結果抽出部、前記k位認識結果抽出部、前記異なり単語率計算部、および前記比較部の処理が繰り返し実行される
    学習データ選択装置。
  2. Nを2以上の整数とし、
    N−best認識結果単語列と、単語コンフュージョンネットワークと、単語ラティスと、対立候補情報と、N−best認識結果中の各ランクの認識結果の単語アライメントネットワークと、N−best認識結果中の各ランクの認識結果の単語アライメント結果シンボル列と、単語関連情報とを入力とし、N−best認識結果中の各ランクの認識結果の単語特徴量ベクトルを作成するN−best単語特徴量ベクトル作成部と、
    前記N−best認識結果中の各ランクの認識結果の単語特徴量ベクトルを入力とし、認識結果単語確率的分類モデルを用いて、N−best認識結果中の各ランクの認識結果単語列中の各単語を確率的に単語アライメント結果シンボルに分類し、各シンボルに対し確率を付与し、N−best認識結果中の各ランクの認識結果の確率的単語分類結果を取得するN−best認識結果単語確率的分類部と、
    N−best認識結果中の各ランクの認識結果の確率的単語分類結果を用いてN−best認識結果中の各ランクの認識結果の確率的認識精度を計算するN−best確率的認識精度計算部とを備え、
    kをk<iを充たす正の整数とし、Nベスト認識結果単語列からi位認識結果単語列を抽出し、前記i位認識結果単語列と最も近似する認識結果単語列であるk位認識結果単語列を抽出し、前記i位認識結果単語列と前記k位認識結果単語列のうち互いに異なる単語の数を前記認識結果単語列の長さで割ったものを異なり単語率Rとして計算し、前記異なり単語率Rと予め定めた閾値Tとを比較して、R>Tである場合には前記i位認識結果単語列を学習用データとして選択する処理を、前記iの初期値をi=2とし、前記学習用データ選択処理が1度実行される度に、前記iをインクリメントし、i=Nとなるまで、前記学習用データ選択処理を繰り返し実行することにより選択された学習用データを用い、認識結果単語列中の各単語の単語特徴量ベクトルと、当該単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、εである確率の関係を学習することにより、
    前記認識結果単語確率的分類モデルを生成する
    識別的音声認識精度推定装置。
  3. 請求項2に記載の識別的音声認識精度推定装置であって、
    前記計算されたN−best認識結果中の各ランクの認識結果の確率的認識精度を用いて、前記N−best認識結果の順位を再度並び替える認識結果リランキング部
    をさらに備える識別的音声認識精度推定装置。
  4. Nを2以上の整数とし、
    kをk<iを充たす正の整数とし、
    Nベスト認識結果単語列からi位認識結果単語列を抽出するi位認識結果抽出ステップと、
    前記i位認識結果単語列と最も近似する認識結果単語列であるk位認識結果単語列を抽出するk位認識結果抽出ステップと、
    前記i位認識結果単語列と前記k位認識結果単語列のうち互いに異なる単語の数を認識結果単語列の長さで割ったものを異なり単語率Rとして計算する異なり単語率計算ステップと、
    前記異なり単語率Rと予め定めた閾値Tとを比較して、R>Tである場合には前記i位認識結果単語列を学習用データとして選択する比較ステップとを備え、
    前記iの初期値をi=2とし、前記i位認識結果抽出ステップ、前記k位認識結果抽出ステップ、前記異なり単語率計算ステップ、および前記比較ステップの処理が実行される度に、前記iはインクリメントされ、i=Nとなるまで、前記i位認識結果抽出ステップ、前記k位認識結果抽出ステップ、前記異なり単語率計算ステップ、および前記比較ステップの処理が繰り返し実行される
    学習データ選択方法。
  5. Nを2以上の整数とし、
    N−best認識結果単語列と、単語コンフュージョンネットワークと、単語ラティスと、対立候補情報と、N−best認識結果中の各ランクの認識結果の単語アライメントネットワークと、N−best認識結果中の各ランクの認識結果の単語アライメント結果シンボル列と、単語関連情報とを入力とし、N−best認識結果中の各ランクの認識結果の単語特徴量ベクトルを作成するN−best単語特徴量ベクトル作成ステップと、
    前記N−best認識結果中の各ランクの認識結果の単語特徴量ベクトルを入力とし、認識結果単語確率的分類モデルを用いて、N−best認識結果中の各ランクの認識結果単語列中の各単語を確率的に単語アライメント結果シンボルに分類し、各シンボルに対し確率を付与し、N−best認識結果中の各ランクの認識結果の確率的単語分類結果を取得するN−best認識結果単語確率的分類ステップと、
    N−best認識結果中の各ランクの認識結果の確率的単語分類結果を用いてN−best認識結果中の各ランクの認識結果の確率的認識精度を計算するN−best確率的認識精度計算ステップとを有し、
    kをk<iを充たす正の整数とし、Nベスト認識結果単語列からi位認識結果単語列を抽出し、前記i位認識結果単語列と最も近似する認識結果単語列であるk位認識結果単語列を抽出し、前記i位認識結果単語列と前記k位認識結果単語列のうち互いに異なる単語の数を前記認識結果単語列の長さで割ったものを異なり単語率Rとして計算し、前記異なり単語率Rと予め定めた閾値Tとを比較して、R>Tである場合には前記i位認識結果単語列を学習用データとして選択する処理を、前記iの初期値をi=2とし、前記学習用データ選択処理が1度実行される度に、前記iをインクリメントし、i=Nとなるまで、前記学習用データ選択処理を繰り返し実行することにより選択された学習用データを用い、認識結果単語列中の各単語の単語特徴量ベクトルと、当該単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、εである確率の関係を学習することにより、
    前記認識結果単語確率的分類モデルを生成する
    識別的音声認識精度推定方法。
  6. 請求項5に記載の識別的音声認識精度推定方法であって、
    前記計算されたN−best認識結果中の各ランクの認識結果の確率的認識精度を用いて、前記N−best認識結果の順位を再度並び替える認識結果リランキングステップ
    をさらに備える識別的音声認識精度推定方法。
  7. 請求項4に記載された学習データ選択方法の各ステップをコンピュータに実行させるためのプログラム。
  8. 請求項5、または6に記載された識別的音声認識精度推定方法の各ステップをコンピュータに実行させるためのプログラム。
JP2013030772A 2013-02-20 2013-02-20 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム Active JP5980142B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013030772A JP5980142B2 (ja) 2013-02-20 2013-02-20 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013030772A JP5980142B2 (ja) 2013-02-20 2013-02-20 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム

Publications (2)

Publication Number Publication Date
JP2014160168A true JP2014160168A (ja) 2014-09-04
JP5980142B2 JP5980142B2 (ja) 2016-08-31

Family

ID=51611895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013030772A Active JP5980142B2 (ja) 2013-02-20 2013-02-20 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム

Country Status (1)

Country Link
JP (1) JP5980142B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017026808A (ja) * 2015-07-22 2017-02-02 日本電信電話株式会社 音声認識装置、音声認識方法、プログラム
WO2019044583A1 (ja) * 2017-09-04 2019-03-07 日本電信電話株式会社 コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム
CN113168836A (zh) * 2018-09-27 2021-07-23 株式会社OPTiM 计算机系统、语音识别方法以及程序

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007322757A (ja) * 2006-06-01 2007-12-13 Nissan Motor Co Ltd 音声対話装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007322757A (ja) * 2006-06-01 2007-12-13 Nissan Motor Co Ltd 音声対話装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017026808A (ja) * 2015-07-22 2017-02-02 日本電信電話株式会社 音声認識装置、音声認識方法、プログラム
WO2019044583A1 (ja) * 2017-09-04 2019-03-07 日本電信電話株式会社 コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム
JPWO2019044583A1 (ja) * 2017-09-04 2020-10-08 日本電信電話株式会社 コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム
CN113168836A (zh) * 2018-09-27 2021-07-23 株式会社OPTiM 计算机系统、语音识别方法以及程序
CN113168836B (zh) * 2018-09-27 2024-04-23 株式会社OPTiM 计算机系统、语音识别方法以及程序产品

Also Published As

Publication number Publication date
JP5980142B2 (ja) 2016-08-31

Similar Documents

Publication Publication Date Title
KR102057184B1 (ko) 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체
CN109726269B (zh) 信息处理方法、信息处理装置以及程序
JP5294086B2 (ja) 重み係数学習システム及び音声認識システム
US20100100379A1 (en) Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method
US11380301B2 (en) Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program
CN116127953B (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
Kim et al. Sequential labeling for tracking dynamic dialog states
JP5980142B2 (ja) 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム
US20230034414A1 (en) Dialogue processing apparatus, learning apparatus, dialogue processing method, learning method and program
JP5740368B2 (ja) 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム
JP2020118929A (ja) 要約生成装置、方法、プログラム、及び記憶媒体
WO2016181474A1 (ja) パターン認識装置、パターン認識方法およびプログラム
JP6577900B2 (ja) 音素誤り獲得装置、音素誤り獲得方法、およびプログラム
JP2012063611A (ja) 音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラム
JP6772394B1 (ja) 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム
JP6473112B2 (ja) 音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラム
JP2006201553A (ja) 識別的学習方法、装置、プログラム、音声認識装置、プログラム、これらのプログラムを記録した記録媒体
JP6389776B2 (ja) 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム
JP7120064B2 (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム
JP2018081294A (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
WO2019171538A1 (ja) 意味推定システム、方法およびプログラム
WO2019171537A1 (ja) 意味推定システム、方法およびプログラム
JP5264649B2 (ja) 情報圧縮型モデルパラメータ推定装置、方法及びプログラム
JP5679345B2 (ja) 音声認識精度推定装置、音声認識精度推定方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160726

R150 Certificate of patent or registration of utility model

Ref document number: 5980142

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150