JP4981519B2 - 学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体 - Google Patents

学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体 Download PDF

Info

Publication number
JP4981519B2
JP4981519B2 JP2007138626A JP2007138626A JP4981519B2 JP 4981519 B2 JP4981519 B2 JP 4981519B2 JP 2007138626 A JP2007138626 A JP 2007138626A JP 2007138626 A JP2007138626 A JP 2007138626A JP 4981519 B2 JP4981519 B2 JP 4981519B2
Authority
JP
Japan
Prior art keywords
label
score
learning
voice data
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007138626A
Other languages
English (en)
Other versions
JP2008292789A (ja
Inventor
哲 小橋川
裕一 中澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007138626A priority Critical patent/JP4981519B2/ja
Publication of JP2008292789A publication Critical patent/JP2008292789A/ja
Application granted granted Critical
Publication of JP4981519B2 publication Critical patent/JP4981519B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は音響モデルや言語モデルを構築するために使用される学習データに対して、音声データに付与されて音声データと対とされているラベルの誤り候補を発話単位で抽出する学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体に関する。
図4は学習データのラベル誤り候補抽出装置の従来構成例を示したものである。
学習データベース10には音声データと、その音声データの発話内容を示すラベルとが対とされた音声データ・ラベル対が多数格納されており、この学習データベース10から音声データ・ラベル対が読み出し手段21によって読み出される。
読み出された音声データ・ラベル対の音声データ(音声信号)は音声信号入力端子22に入力され、入力された音声データはA/D変換手段23でディジタル信号に変換され、このディジタル信号が音声認識手段24に入力される。音声認識手段24は入力されたディジタル信号から特徴量(音響特徴パラメータ系列)を抽出し、その特徴量に対して、音響モデルパラメータメモリ25に格納されている音響モデルと、言語モデルパラメータメモリ26に格納されている言語モデルとを用いて音声認識を行い、単語列の認識結果を得る。
認識結果/ラベル一致判定手段27は音声認識手段24から入力された音声認識結果の単語列と、前述の読み出し手段21によって読み出された音声データ・ラベル対のラベルとが一致するか否かを判定し、不一致の場合はそのラベルをラベル誤り候補として出力する。
このように、音声データ・ラベル対を順次読み出し、その音声データとラベルとの一致/不一致の検証を音声認識手段を用いて行うといったことが従来行われている(例えば、特許文献1参照)。
一方、特許文献2には音声認識において、その認識結果に信頼度を付与することが記載されており、信頼度として音声認識結果の1位の単語と、1位の単語と異なる単語の内でスコアの最も高い単語との間のスコア差を用いることが記載されている。
特開平11−242492号公報 特開2005−148342号公報
ところで、学習データに対するラベル付けやラベルのチェックは、通常、一定区間の無音に挟まれた1発話単位で行われる。特許文献1に記載されているような単語の一致/不一致に基づく方法から、学習データ中の1発話を認識して、その発話中に含まれる認識結果単語と学習データの単語の一致度を学習データのラベルの信頼度として用いることが考えられるが、出現する単語が異なるようなタスクが異なる学習データを使うことはできない。
特許文献2に記載されているような信頼度を学習データのラベルの信頼度として用いることを考えた場合、音声認識結果の上位N個のうちから学習データのラベルと一致する単語を1位の単語として、単語単位の信頼度を計算し、単語単位の信頼度の総和を学習データのラベルの信頼度として用いることになり、この場合、発話区間で平均化されて正解区間の影響や発話の長さの影響を受けてしまうため、実際に誤っている区間があってもラベル誤りを抽出できないといったことが生じうる。
この発明の目的はこの問題に鑑み、学習データのラベル誤り候補を効率良く抽出することができるようにした抽出装置、抽出方法、そのプログラム及び記録媒体を提供することにある。
請求項1の発明によれば、音声データと、その音声データの発話内容を示すラベルとが対とされた音声データ・ラベル対が多数格納されている学習データベースにおけるラベルの誤り候補を抽出する装置は、学習データベースから音声データ・ラベル対を読み出す手段と、その読み出した音声データを音声認識し、その音声認識結果に対するフレーム単位の認識スコアを計算する認識スコア計算手段と、読み出した音声データを音声認識し、読み出したラベルに対するフレーム単位の学習スコアを計算する学習スコア計算手段と、認識スコアと学習スコアとを比較し、学習スコアが認識スコアより低い区間を誤りとして、読み出したラベルの信頼度を計算する信頼度計算手段と、その計算された信頼度と読み出した音声データ・ラベル対とを組として蓄積する手段と、その蓄積手段から信頼度が低い順にラベルの誤り候補を抽出して出力する手段とを具備し、信頼度計算手段は、1つの音声データ・ラベル対における、フレーム単位の学習スコアがフレーム単位の認識スコアより低い区間長の総和の逆数を信頼度として計算する。
請求項2の発明によれば、音声データと、その音声データの発話内容を示すラベルとが対とされた音声データ・ラベル対が多数格納されている学習データベースにおけるラベルの誤り候補を抽出する装置は、学習データベースから音声データ・ラベル対を読み出す手段と、その読み出した音声データを音声認識し、その音声認識結果に対するフレーム単位の認識スコアを計算する認識スコア計算手段と、読み出した音声データを音声認識し、読み出したラベルに対するフレーム単位の学習スコアを計算する学習スコア計算手段と、認識スコアと学習スコアとを比較し、学習スコアが認識スコアより低い区間を誤りとして、読み出したラベルの信頼度を計算する信頼度計算手段と、その計算された信頼度と読み出した音声データ・ラベル対とを組として蓄積する手段と、その蓄積手段から信頼度が低い順にラベルの誤り候補を抽出して出力する手段とを具備し、信頼度計算手段は、1つの音声データ・ラベル対における、フレーム単位の学習スコアがフレーム単位の認識スコアより低いフレーム数の総和の逆数を信頼度として計算する。
請求項3の発明によれば、音声データと、その音声データの発話内容を示すラベルとが対とされた音声データ・ラベル対が多数格納されている学習データベースにおけるラベルの誤り候補を抽出する装置は、学習データベースから音声データ・ラベル対を読み出す手段と、その読み出した音声データを音声認識し、その音声認識結果に対するフレーム単位の認識スコアを計算する認識スコア計算手段と、読み出した音声データを音声認識し、読み出したラベルに対するフレーム単位の学習スコアを計算する学習スコア計算手段と、認識スコアと学習スコアとを比較し、学習スコアが認識スコアより低い区間を誤りとして、読み出したラベルの信頼度を計算する信頼度計算手段と、その計算された信頼度と読み出した音声データ・ラベル対とを組として蓄積する手段と、その蓄積手段から信頼度が低い順にラベルの誤り候補を抽出して出力する手段とを具備し、信頼度計算手段は学習スコアから認識スコアを減算してスコア差を求め、1つの音声データ・ラベル対における、フレーム単位の学習スコアがフレーム単位の認識スコアより低い区間のスコア差の総和を信頼度として計算する。
請求項4の発明によれば、音声データと、その音声データの発話内容を示すラベルとが対とされた音声データ・ラベル対が多数格納されている学習データベースにおけるラベルの誤り候補を抽出する方法は、学習データベースから音声データ・ラベル対を読み出す過程と、その読み出した音声データを音声認識し、その音声認識結果に対するフレーム単位の認識スコアを計算する過程と、読み出した音声データを音声認識し、読み出したラベルに対するフレーム単位の学習スコアを計算する過程と、計算した認識スコアと学習スコアとを比較し、学習スコアが認識スコアより低い区間を誤りとして、読み出したラベルの信頼度を計算する過程と、その計算された信頼度と読み出した音声データ・ラベル対とを組として蓄積する過程と、その蓄積された信頼度と音声データ・ラベル対の組から信頼度が低い順にラベルの誤り候補を抽出して出力する過程とを含み、1つの音声データ・ラベル対における、フレーム単位の学習スコアがフレーム単位の認識スコアより低い区間長の総和の逆数を信頼度として計算する。
請求項5の発明によれば、音声データと、その音声データの発話内容を示すラベルとが対とされた音声データ・ラベル対が多数格納されている学習データベースにおけるラベルの誤り候補を抽出する方法は、学習データベースから音声データ・ラベル対を読み出す過程と、その読み出した音声データを音声認識し、その音声認識結果に対するフレーム単位の認識スコアを計算する過程と、読み出した音声データを音声認識し、読み出したラベルに対するフレーム単位の学習スコアを計算する過程と、計算した認識スコアと学習スコアとを比較し、学習スコアが認識スコアより低い区間を誤りとして、読み出したラベルの信頼度を計算する過程と、その計算された信頼度と読み出した音声データ・ラベル対とを組として蓄積する過程と、その蓄積された信頼度と音声データ・ラベル対の組から信頼度が低い順にラベルの誤り候補を抽出して出力する過程とを含み、1つの音声データ・ラベル対における、フレーム単位の学習スコアがフレーム単位の認識スコアより低いフレーム数の総和の逆数を信頼度として計算する。
請求項6の発明によれば、音声データと、その音声データの発話内容を示すラベルとが対とされた音声データ・ラベル対が多数格納されている学習データベースにおけるラベルの誤り候補を抽出する方法は、学習データベースから音声データ・ラベル対を読み出す過程と、その読み出した音声データを音声認識し、その音声認識結果に対するフレーム単位の認識スコアを計算する過程と、読み出した音声データを音声認識し、読み出したラベルに対するフレーム単位の学習スコアを計算する過程と、計算した認識スコアと学習スコアとを比較し、学習スコアが認識スコアより低い区間を誤りとして、読み出したラベルの信頼度を計算する過程と、その計算された信頼度と読み出した音声データ・ラベル対とを組として蓄積する過程と、その蓄積された信頼度と音声データ・ラベル対の組から信頼度が低い順にラベルの誤り候補を抽出して出力する過程とを含み、学習スコアから認識スコアを減算してスコア差を求め、1つの音声データ・ラベル対における、フレーム単位の学習スコアがフレーム単位の認識スコアより低い区間のスコア差の総和を信頼度として計算する。
請求項の発明では請求項乃至記載のいずれかの学習データのラベル誤り候補抽出方法をコンピュータに実行させるためのプログラムを提案する。
請求項の発明では請求項記載のプログラムを記憶した記録媒体を提案する。
この発明では、学習スコア(学習データのラベルに対する音響スコア・言語スコア)が認識スコア(音声認識結果の音響スコア・言語スコア)より低い区間のみに着目して、ラベルの信頼度として用いるものとなっており、よってこの発明によれば学習データのラベル誤り候補を効率的に抽出することができる。
この発明の実施形態を図面を参照して実施例により説明する。
図1はこの発明による学習データのラベル誤り候補抽出装置の一実施例の構成を示したものであり、この例ではラベル誤り候補抽出装置は読み出し手段21と音声信号入力端子22とA/D変換手段23と音響モデルパラメータメモリ25と言語モデルパラメータメモリ26と認識スコア計算手段31と学習スコア計算手段32と信頼度計算手段33と書き込み手段34と信頼度蓄積手段35と信頼度ソート手段36とによって構成されている。
読み出し手段21は学習データベース10から音声データ・ラベル対を読み出し、その読み出した音声データ・ラベル対の音声データを音声信号入力端子22に入力する。また、読み出した音声データ・ラベル対を学習スコア計算手段32に入力する。
A/D変換手段23は音声信号入力端子22に入力された音声データ(音声信号)をディジタル信号に変換し、その入力音声ディジタル信号を認識スコア計算手段31及び学習スコア計算手段32に出力する。
認識スコア計算手段31は入力音声ディジタル信号から特徴量(音響特徴パラメータ系列)を抽出し、その特徴量に対して、音響モデルパラメータメモリ25に格納されている音響モデルと、言語モデルパラメータメモリ26に格納されている言語モデルとを用いて音声認識結果を得ると共に、音声認識結果におけるフレーム単位(通常、音声認識では窓長30msec、窓シフト10msecのフレームでの音響分析を行っている)の認識スコア(音響スコア及び言語スコア)を計算する。そして、得られた認識スコアを信頼度計算手段33に出力する。
なお、学習データベース10が音響モデルの学習用として用いられ、つまりこの学習データのラベル誤り候補抽出装置を音響モデル学習用のラベル誤り候補の抽出に用いる場合は、認識スコア計算手段31は認識スコアとして音響スコアを信頼度計算手段33に出力する。
一方、学習データベース10が言語モデルの学習用として用いられ、つまりこの学習データのラベル誤り候補抽出装置を言語モデル学習用のラベル誤り候補の抽出に用いる場合は、認識スコア計算手段31は認識スコアとして言語スコアを信頼度計算手段33に出力する。
学習スコア計算手段32は入力音声ディジタル信号から特徴量を抽出する。そして、音響モデル学習用のラベル誤り候補を抽出する場合には、特徴量に対して、音響モデルパラメータメモリ25に格納されている音響モデルを用いて音声認識し、読み出し手段21から入力された音声データ・ラベル対のラベルの発音表記に対するフレーム単位の音響スコアを計算し、その音響スコアを学習スコアとして信頼度計算手段33に出力する。
一方、言語モデル学習用のラベル誤り候補を抽出する場合には、学習スコア計算手段32は特徴量に対して、音響モデルパラメータメモリ25に格納されている音響モデルと、言語モデルパラメータメモリ26に格納されている言語モデルとを用いて音声認識し、読み出し手段21から入力された音声データ・ラベル対のラベルに対するフレーム単位の言語スコアを計算し、その言語スコアを学習スコアとして信頼度計算手段33に出力する。
なお、学習スコア計算手段32は上述した学習スコアと共に、音声データ・ラベル対を信頼度計算手段33に出力する。
信頼度計算手段33は入力された認識スコアと学習スコアとを比較し、学習スコアが認識スコアより低い区間を誤りとして、入力された音声データ・ラベル対のラベルの信頼度を計算する。ここでは、フレーム単位のスコア差を、
スコア差=学習スコア−認識スコア
とした時、スコア差<0となる区間長の総和の逆数を信頼度とし、この信頼度を計算する。信頼度計算手段33は計算した信頼度と音声データ・ラベル対とを組として出力する。
書き込み手段34は信頼度計算手段33から出力される信頼度と音声データ・ラベル対との組を信頼度蓄積手段35に書き込み、信頼度蓄積手段35は信頼度と音声データ・ラベル対とを組として(対応付けて)蓄積する。
信頼度ソート手段36は信頼度と音声データ・ラベル対との組が信頼度蓄積手段35に一定数以上蓄積された段階で、信頼度が低い順に並ぶように音声データ・ラベル対を並び替え、信頼度が低い順に音声データ・ラベル対からラベルを抽出し、ラベルの誤り候補として出力する。
図2は上記のような構成を有する学習データのラベル誤り候補抽出装置の処理手順を示したものであり、以下、処理手順を説明する。
音声データ・ラベル対を学習データベース10から読み出し(ステップS1)、その読み出した音声データ・ラベル対の音声データを音声認識して、その音声認識結果に対するフレーム単位の認識スコアを計算する(ステップS2)と共に、読み出した音声データを音声認識して、読み出したラベル(学習データのラベル)に対するフレーム単位の学習スコアを計算し(ステップS3)、それら認識スコアと学習スコアとから読み出したラベルの信頼度を計算する(ステップS4)。ここでは、信頼度は学習スコアが認識スコアより低い区間長の総和の逆数とし、この信頼度を計算する。計算された信頼度は音声データ・ラベル対と組とされて蓄積される(ステップS5)。
信頼度と音声データ・ラベル対との組の蓄積が一定数になるまで、上記ステップS1〜S5の処理を繰り返し実行し、信頼度と音声データ・ラベル対との組の蓄積が一定数に達すると(ステップS6)、信頼度が低い順に並ぶように音声データ・ラベル対を並び替える(ステップS7)。そして、信頼度が低い順に音声データ・ラベル対からラベルを抽出してラベル誤り候補として出力する(ステップS8)。
このように、この例では学習スコアが認識スコアよりも低い区間に着目し、この低い区間を誤りとして信頼度を求めている。通常、学習データに対するラベル付けやラベルのチェックは、一定区間の無音に挟まれた1発話単位で行われ、そのため1発話当たりのラベル誤り区間が長いものを抽出できると効率的である。その点、この例では1発話当たりのラベル誤り区間が長い方が信頼度が低くなるため、ラベル誤り候補を効率的に抽出することができる。
図3は認識スコア及び学習スコアが音響スコアであり、つまり音響モデル学習用のラベル誤り候補の抽出において、計算されたスコア差の一例を音声認識結果及びラベルと共に示したものであり、図3中、スコア差<0のAで示した区間がラベル誤り候補の区間となる。
上述した例においては、1発話中の学習スコアが認識スコアより低い(スコア差<0)区間長の総和の逆数を信頼度として用いるものとしているが、これに替え、学習スコアが認識スコアより低いフレーム数の総和の逆数を信頼度として用いるようにしてもよい。
また、ラベルの誤り具合を考慮し、学習スコアが認識スコアより低い区間のスコア差の総和を信頼度として用いることもできる。ラベル誤りとされる区間の長さだけでなく、ラベルの誤り具合の大きさを考慮したスコア差の総和を用いることで、高精度にラベル誤り候補を抽出することができる。
ラベル誤り候補の抽出は信頼度が低い順に行うものとしているが、例えば出力表示する際、信頼度が最も低いものから所定数をラベル誤り候補として出力表示するようにしてもよく、また信頼度が予め定めた閾値以下のものを出力表示してもよい。
さらに、表示する際、誤り候補区間のラベルを文字の色を変えるなどして強調表示することで、修正作業を効率良く進めることが可能となる。
なお、言語モデルとしては音素間の接続が自由な音節タイプライタを用いることができ、また様々なタスクの学習コーパスを用いて生成された汎用的な言語モデルや特定のタスクに特化した特定言語モデルを用いることもできる。音節タイプライタを用いた場合は音響モデル学習用のラベル誤り候補の抽出を行うことができる。汎用的な言語モデルや特定言語モデルを用いた場合は音響スコアを用いれば音響モデル学習用のラベル誤り候補の抽出を行うことができ、言語スコアを用いれば言語モデル学習用のラベル誤り候補の抽出を行うことができる。
以上説明した学習データのラベル誤り候補抽出方法、抽出装置はコンピュータと、コンピュータにインストールされた学習データのラベル誤り候補抽出プログラムによって実現することができる。プログラムはコンピュータが解読可能な符号列によって記述され、コンピュータが読み取り可能な磁気ディスク又はCD−ROM等の記録媒体に記録される。コンピュータにインストールされた学習データのラベル誤り候補抽出プログラムはコンピュータのCPUによって解読されてコンピュータに上述した学習データのラベル誤り候補抽出方法を実行させる。
この発明による学習データのラベル誤り候補抽出装置の一実施例の構成を示すブロック図。 この発明による学習データのラベル誤り候補抽出方法の一実施例の処理手順を示すフローチャート。 認識スコア、学習スコア及びスコア差の具体例を示す図。 学習データのラベル誤り候補抽出装置の従来構成例を示すブロック図。

Claims (8)

  1. 音声データと、その音声データの発話内容を示すラベルとが対とされた音声データ・ラベル対が多数格納されている学習データベースにおけるラベルの誤り候補を抽出する装置であって、 前記学習データベースから音声データ・ラベル対を読み出す手段と、
    その読み出した音声データを音声認識し、その音声認識結果に対するフレーム単位の認識スコアを計算する認識スコア計算手段と、
    前記読み出した音声データを音声認識し、前記読み出したラベルに対するフレーム単位の学習スコアを計算する学習スコア計算手段と、
    前記認識スコアと前記学習スコアとを比較し、学習スコアが認識スコアより低い区間を誤りとして、前記読み出したラベルの信頼度を計算する信頼度計算手段と、
    その計算された信頼度と前記読み出した音声データ・ラベル対とを組として蓄積する手段と、
    その蓄積手段から信頼度が低い順にラベルの誤り候補を抽出して出力する手段とを具備し、
    前記信頼度計算手段は、1つの音声データ・ラベル対における、フレーム単位の前記学習スコアがフレーム単位の前記認識スコアより低い区間長の総和の逆数を信頼度として計算することを特徴とする学習データのラベル誤り候補抽出装置。
  2. 音声データと、その音声データの発話内容を示すラベルとが対とされた音声データ・ラベル対が多数格納されている学習データベースにおけるラベルの誤り候補を抽出する装置であって、 前記学習データベースから音声データ・ラベル対を読み出す手段と、
    その読み出した音声データを音声認識し、その音声認識結果に対するフレーム単位の認識スコアを計算する認識スコア計算手段と、
    前記読み出した音声データを音声認識し、前記読み出したラベルに対するフレーム単位の学習スコアを計算する学習スコア計算手段と、
    前記認識スコアと前記学習スコアとを比較し、学習スコアが認識スコアより低い区間を誤りとして、前記読み出したラベルの信頼度を計算する信頼度計算手段と、
    その計算された信頼度と前記読み出した音声データ・ラベル対とを組として蓄積する手段と、
    その蓄積手段から信頼度が低い順にラベルの誤り候補を抽出して出力する手段とを具備し、
    前記信頼度計算手段は、1つの音声データ・ラベル対における、フレーム単位の前記学習スコアがフレーム単位の前記認識スコアより低いフレーム数の総和の逆数を信頼度として計算することを特徴とする学習データのラベル誤り候補抽出装置。
  3. 音声データと、その音声データの発話内容を示すラベルとが対とされた音声データ・ラベル対が多数格納されている学習データベースにおけるラベルの誤り候補を抽出する装置であって、 前記学習データベースから音声データ・ラベル対を読み出す手段と、
    その読み出した音声データを音声認識し、その音声認識結果に対するフレーム単位の認識スコアを計算する認識スコア計算手段と、
    前記読み出した音声データを音声認識し、前記読み出したラベルに対するフレーム単位の学習スコアを計算する学習スコア計算手段と、
    前記認識スコアと前記学習スコアとを比較し、学習スコアが認識スコアより低い区間を誤りとして、前記読み出したラベルの信頼度を計算する信頼度計算手段と、
    その計算された信頼度と前記読み出した音声データ・ラベル対とを組として蓄積する手段と、
    その蓄積手段から信頼度が低い順にラベルの誤り候補を抽出して出力する手段とを具備し、
    前記信頼度計算手段は前記学習スコアから前記認識スコアを減算してスコア差を求め、1つの音声データ・ラベル対における、フレーム単位の前記学習スコアがフレーム単位の前記認識スコアより低い区間のスコア差の総和を信頼度として計算することを特徴とする学習データのラベル誤り候補抽出装置。
  4. 音声データと、その音声データの発話内容を示すラベルとが対とされた音声データ・ラベル対が多数格納されている学習データベースにおけるラベルの誤り候補を抽出する方法であって、
    前記学習データベースから音声データ・ラベル対を読み出す過程と、
    その読み出した音声データを音声認識し、その音声認識結果に対するフレーム単位の認識スコアを計算する過程と、
    前記読み出した音声データを音声認識し、前記読み出したラベルに対するフレーム単位の学習スコアを計算する過程と、
    前記計算した認識スコアと学習スコアとを比較し、学習スコアが認識スコアより低い区間を誤りとして、前記読み出したラベルの信頼度を計算する過程と、
    その計算された信頼度と前記読み出した音声データ・ラベル対とを組として蓄積する過程と、
    その蓄積された信頼度と音声データ・ラベル対の組から信頼度が低い順にラベルの誤り候補を抽出して出力する過程とを含み、
    1つの音声データ・ラベル対における、フレーム単位の前記学習スコアがフレーム単位の前記認識スコアより低い区間長の総和の逆数を信頼度として計算することを特徴とする学習データのラベル誤り候補抽出方法。
  5. 音声データと、その音声データの発話内容を示すラベルとが対とされた音声データ・ラベル対が多数格納されている学習データベースにおけるラベルの誤り候補を抽出する方法であって、
    前記学習データベースから音声データ・ラベル対を読み出す過程と、
    その読み出した音声データを音声認識し、その音声認識結果に対するフレーム単位の認識スコアを計算する過程と、
    前記読み出した音声データを音声認識し、前記読み出したラベルに対するフレーム単位の学習スコアを計算する過程と、
    前記計算した認識スコアと学習スコアとを比較し、学習スコアが認識スコアより低い区間を誤りとして、前記読み出したラベルの信頼度を計算する過程と、
    その計算された信頼度と前記読み出した音声データ・ラベル対とを組として蓄積する過程と、
    その蓄積された信頼度と音声データ・ラベル対の組から信頼度が低い順にラベルの誤り候補を抽出して出力する過程とを含み、
    1つの音声データ・ラベル対における、フレーム単位の前記学習スコアがフレーム単位の前記認識スコアより低いフレーム数の総和の逆数を信頼度として計算することを特徴とする学習データのラベル誤り候補抽出方法。
  6. 音声データと、その音声データの発話内容を示すラベルとが対とされた音声データ・ラベル対が多数格納されている学習データベースにおけるラベルの誤り候補を抽出する方法であって、
    前記学習データベースから音声データ・ラベル対を読み出す過程と、
    その読み出した音声データを音声認識し、その音声認識結果に対するフレーム単位の認識スコアを計算する過程と、
    前記読み出した音声データを音声認識し、前記読み出したラベルに対するフレーム単位の学習スコアを計算する過程と、
    前記計算した認識スコアと学習スコアとを比較し、学習スコアが認識スコアより低い区間を誤りとして、前記読み出したラベルの信頼度を計算する過程と、
    その計算された信頼度と前記読み出した音声データ・ラベル対とを組として蓄積する過程と、
    その蓄積された信頼度と音声データ・ラベル対の組から信頼度が低い順にラベルの誤り候補を抽出して出力する過程とを含み、
    前記学習スコアから前記認識スコアを減算してスコア差を求め、1つの音声データ・ラベル対における、フレーム単位の前記学習スコアがフレーム単位の前記認識スコアより低い区間のスコア差の総和を信頼度として計算することを特徴とする学習データのラベル誤り候補抽出方法。
  7. 請求項乃至記載のいずれかの学習データのラベル誤り候補抽出方法をコンピュータに実行させるためのプログラム。
  8. 請求項記載のプログラムを記憶した記録媒体。
JP2007138626A 2007-05-25 2007-05-25 学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体 Expired - Fee Related JP4981519B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007138626A JP4981519B2 (ja) 2007-05-25 2007-05-25 学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007138626A JP4981519B2 (ja) 2007-05-25 2007-05-25 学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体

Publications (2)

Publication Number Publication Date
JP2008292789A JP2008292789A (ja) 2008-12-04
JP4981519B2 true JP4981519B2 (ja) 2012-07-25

Family

ID=40167551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007138626A Expired - Fee Related JP4981519B2 (ja) 2007-05-25 2007-05-25 学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体

Country Status (1)

Country Link
JP (1) JP4981519B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5387274B2 (ja) * 2009-09-18 2014-01-15 日本電気株式会社 標準パタン学習装置、ラベル付与基準算出装置、標準パタン学習方法およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08194494A (ja) * 1995-01-13 1996-07-30 Canon Inc 文解析方法および装置
JP2000352993A (ja) * 1999-06-14 2000-12-19 Oki Electric Ind Co Ltd 音声認識システム及びヒドン・マルコフ・モデルの学習方法
JP2002132287A (ja) * 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
JP2002215185A (ja) * 2001-01-19 2002-07-31 Nec Corp 音声認識方式および音声認識プログラム
JP4150645B2 (ja) * 2003-08-27 2008-09-17 株式会社ケンウッド 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム
JP3819896B2 (ja) * 2003-11-14 2006-09-13 日本電信電話株式会社 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2008292789A (ja) 2008-12-04

Similar Documents

Publication Publication Date Title
US11037553B2 (en) Learning-type interactive device
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
KR101262812B1 (ko) 음성 인식 에러 예측자로서의 문법 적합성 평가를 위한 방법들 및 시스템
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
US8355917B2 (en) Position-dependent phonetic models for reliable pronunciation identification
US8738378B2 (en) Speech recognizer, speech recognition method, and speech recognition program
US20160055763A1 (en) Electronic apparatus, pronunciation learning support method, and program storage medium
CN111369974B (zh) 一种方言发音标注方法、语言识别方法及相关装置
KR101587866B1 (ko) 음성 인식용 발음사전 확장 장치 및 방법
JPWO2009081861A1 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP2008129263A (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
US20210134277A1 (en) System and method for automatic speech analysis
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP6276513B2 (ja) 音声認識装置および音声認識プログラム
US11495245B2 (en) Urgency level estimation apparatus, urgency level estimation method, and program
JP4661239B2 (ja) 音声対話装置及び音声対話方法
JP5590549B2 (ja) 音声検索装置および音声検索方法
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP3444108B2 (ja) 音声認識装置
JP4951035B2 (ja) 音声単位別尤度比モデル作成装置、音声単位別尤度比モデル作成方法、音声認識信頼度算出装置、音声認識信頼度算出方法、プログラム
JP4981519B2 (ja) 学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2012255867A (ja) 音声認識装置
JP3440840B2 (ja) 音声認識方法及びその装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110701

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120420

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150427

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4981519

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees