JP4769098B2 - 音声認識信頼度推定装置、その方法、およびプログラム - Google Patents

音声認識信頼度推定装置、その方法、およびプログラム Download PDF

Info

Publication number
JP4769098B2
JP4769098B2 JP2006059216A JP2006059216A JP4769098B2 JP 4769098 B2 JP4769098 B2 JP 4769098B2 JP 2006059216 A JP2006059216 A JP 2006059216A JP 2006059216 A JP2006059216 A JP 2006059216A JP 4769098 B2 JP4769098 B2 JP 4769098B2
Authority
JP
Japan
Prior art keywords
word
likelihood score
speech
value
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006059216A
Other languages
English (en)
Other versions
JP2007240589A (ja
Inventor
裕一 中澤
克年 大附
浩和 政瀧
真詞 田本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006059216A priority Critical patent/JP4769098B2/ja
Publication of JP2007240589A publication Critical patent/JP2007240589A/ja
Application granted granted Critical
Publication of JP4769098B2 publication Critical patent/JP4769098B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は入力音声信号に対する音声認識処理により得られる認識結果の信頼度を推定し、出力する音声認識信頼度推定装置、その方法およびプログラムに関するものである。
音声認識では一般に、入力音声信号を分析して得られる音響的特徴量ベクトルの系列と音声をモデル化した音響モデルとの間で尤度を算出し、認識すべき語彙、単語間の接続のしやすさ、規則を表す言語モデルなどの言語的制約の中において、尤度の最も高い候補を認識結果として出力する。しかし、入力音声信号において、発生の曖昧さや、ノイズや音声信号以外の音響信号が入力されることにより、誤った認識結果を出力する可能性が高くなる。また、入力音声が辞書への未登録語である場合は正しい認識結果を出力することが出来ない。
以上の問題に対して、音声認識結果に信頼度を付与することにより、信頼度の高さにより、認識結果を受理、棄却若しくは、結果の確認を行うことが可能となり、音声認識結果を用いる種々の装置において音声認識誤りに起因する問題を回避することが出来る。例えば、ユーザ(利用者)の想定外の動作が誤認識によって引き起こされることを抑制することが出来る。
非特許文献1、非特許文献2では、単語事後確率を用いて信頼度を計算している。この方法では、単語の音響尤度スコア、単語の言語尤度スコア、forward確率、backward確率を用いて、文中の単語に対する信頼度を算出している。
なお非特許文献1では、N−best候補を用いて、信頼度の計算が行われている。この方法では、音響尤度スコア、言語尤度スコアなどを用いて、認識結果候補をN位まで作成し、作成された候補を用いて、信頼度を算出する。この方法では、複数の候補に多く出現している単語は信頼度が高いとしている。
特許文献1では、言語的妥当性に基づいた信頼度を算出している。この方法では、音声認識結果の単語系列の並びの妥当性に対して、識別学習を行い、単語の正誤判定を行っている。
特許文献2では、競合モデルを用いて、信頼度を決定している。この方法では、音声認識結果に用いたモデルと競合モデルとの2種類のモデルを使用する。各モデルにおいてそれぞれ尤度を求め、得られた尤度から尤度比を算出し、認識結果の信頼度として付与する。
非特許文献3では、複数の音声認識モデルを用いて、信頼度の決定を行っている。この方法では、音声認識モデルを2つ以上用いて音声認識を行い、全ての音声認識モデルで信頼できると判断された共通部分が信頼できると判断するものである。
特開2005−275348号公報 特開平11−85188号公報 Frank Wassel,Ralf Schluter,Klaus Macherey,Hermann Ney:"Confidence Measure for Large Vocabulary Continuous Speech Recognition ",IEEE Transactions Speech and Audio Process Vol.9 No.3 pp.288−298,2001 Thomas Kemp,Thomas Schaaf:"Estimating confidence using word lattices",Proc.5th Eurospeech,pp.827−830,1997 宇津呂 武仁、西崎 博光、小玉 康広、中川 聖一:「複数の大語彙連続音声認識モデルの出力の共通部分を用いた高信頼度部分の推定」、電子情報通信学会論文誌D−II Vol.J86−D−II No.7 pp.974−987,2003
音声認識技術の実用面においては、単語や音節といった短区間の正誤よりも、発話や文単位で高い精度で認識できたか否かの判断が望まれることが多い。しかし、既存の技術では、信頼度を単語や音声単位についてしか算出しないため、実用面における需要を満たすことが困難であった。
この発明によれば、入力されたディジタル音声信号を発話単位に分割し、その分割された発話単位のディジタル音声信号からこの音響特徴パラメータを抽出し、その音響特徴パラメータに対し、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルに出力する確率に基づくスコアを計算し、少なくとも、最も高いスコアを示すモデルが表現するカテゴリを認識し、各発話単位ごとの単語系列中の各単語ごとの上記認識に基づく情報を付与した単語系列を生成し、各発話単位ごとに、その発話単位の単語系列に含まれる全ての単語の各単語単位の上記認識に基づく情報を上記発話単位の発話特徴量ベクトルに変換し、この発話単位の発話特徴量ベクトルと識別モデルを用いて認識率を推定し、その推定した認識率に基いて、当該発話単位の音声認識結果に対する信頼度を求める。
以上の構成によれば、信頼度を算出する際に発話単位の比較的長い区間の単語系列における情報を使用するため、大域的な情報を用いることが出来、対象となる音声により日常で使用する発話や文単位において、高精度な信頼度を出力することができる。
実施例1
図1にこの発明の実施例1を示す。音声認識部6は音響分析部8と認識探索部9により構成される。
入力端子2にディジタル変換されたディジタル音声信号が入力されると、一度、記憶部4に記憶され、この記憶されたディジタル音声信号は、発話分割部5において、発話単位の音声信号に分割される。この分割は例えば、所定値以上継続する無音区間により挟まれた入力音声信号を1発話として、分割する。この分割において、最初の発話音声信号の開始や最後の発話音声信号の終了が、対象入力ディジタル音声信号によって予め分かる場合があり、その様な場合の最初の発話音声信号や最後の発話音声信号は前記所定値以上継続する無音区間に挟まれたものではないが、これらは当然、1発話として、容易に検出分割される。発話単位の例を以下に示す。
(1)「その辺ではかなり収益も上がるんじゃないかなと思います。」
(2)「なるほどね。」
(3)「今、あの韓国に行く買い物ツアーとか、そういうのが非常にはやっているんですが、」
(4)「んー」
このように分割された発話単位ごとの音声信号は、音声認識部6に入力される。音声認識部6では、この入力ディジタル信号に対し、音響モデル格納部10に格納されている音響モデルと辞書・言語モデル格納部12に格納されている辞書・言語モデルを用いて、音声認識される。
音声認識部6から、上述の発話単位ごとに、音声認識結果の単語系列50およびその各単語に音声認識結果に基づく情報を付与して出力する。当該単語の音声認識結果に基づく情報とは、発話単位に含まれる各単語の品詞情報52(例えば、接続詞、名詞、副詞など)、HMM(隠れマルコフモデル)を用いて求められる当該単語の音響尤度スコア54、単語n−gramを用いて求められる当該単語の言語尤度スコア55、音響尤度スコア54と言語尤度スコア55の和で求められる単語尤度スコア56、入力音声と認識結果のマッチング状況の時間的対応関係に基づく単語・音素単位の開始時刻、終了時刻から算出される単語継続時間長58、当該単語の音素数60、この音素数の平均継続時間長を示す音素継続時間長62である。具体的な生成、計算方法は以下で示す。なお、発話単位の分割は、認識結果の単語系列に対し、各単語間の無音区間の長さに基づいて行う。あるいは、単語の品詞情報52を用いて、任意に定めた品詞で区切ってもよい。
情報変換部20では、音声認識部6で各単語に付与された上述の各単語に付与された音声認識結果に基づく情報から発話単位の情報に変換し、出力する。ここで、発話単位の情報とは例えば、発話特徴量ベクトルなどが考えられる。以下の説明では、発話単位の情報を発話特徴量ベクトルとして説明する。この発話特徴量ベクトルに変換される情報には、上述の単語系列50の各単語に付与された品詞情報52、音響尤度スコア54、言語尤度スコア55、単語尤度スコア56、単語継続時間長58、音素数60、音素継続時間長62の音声認識部6で生成された全てまたは一部の情報を用いる。
信頼度付与部22では、情報変換部20から出力された発話特徴量ベクトル64と識別モデル格納部29に格納されている識別モデルを用いて信頼度を求める。求め方の詳細は以下で述べる。
その発話の認識結果の信頼度を出力部26で出力する。ここで、信頼度のみの出力でもよく、その発話音声認識結果にこの信頼度を付与して、出力してもよい。
図2に、図1中の、認識探索部9の詳細と、これに関連する部分の図を示す。認識探索部9は音響尤度スコア計算部90、言語尤度スコア計算部92、単語尤度スコア計算部96、音素数計数部100、単語継続時間計算部102、音素継続時間計算部104、品詞情報付与部105、単語情報付与部106、により構成されている。
音声認識部6に入力された発話単位のディジタル音声信号はまず、音響分析部8で音響特徴パラメータに変換される。音響特徴パラメータとは、入力音声信号を数十msecのフレームと呼ばれる単位で分析して得られるLPCケプストラム、MFCCその他のパラメータである。
この音響特徴パラメータに対し、音響尤度スコア計算部90で、音響モデル格納部10に格納されている音響モデルを参照し、音素系列の複数候補が探索される。これら複数の音素系列候補に対し、辞書・言語モデル格納部12に格納されている辞書・言語モデルを参照して、言語尤度スコア計算部92および、単語尤度スコア計算部96により、単語系列の複数候補が探索される。つまり、入力された音響特徴パラメータに対し、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルに出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とする。
この音声認識において、各単語毎に、音響尤度スコア54、言語尤度スコア55、これら音響尤度スコア54と言語尤度スコア55の和である単語尤度スコア56、更に単語継続時間計算部102からの単語継続時間長58、音素数計数部100からの音素数60、音素継続時間計算部104からの音素継続時間長62、品詞情報付与部105からの品詞情報52がそれぞれ得られる。
各発話単位ごとに、例えば、単語尤度スコア56の合計値の上位N位までのN―best候補を選出する。これら1発話に対するN個の単語系列50について各単語系列50の各単語に品詞情報52、音響尤度スコア54、言語尤度スコア55、単語尤度スコア56、単語継続時間長58、音素数60、音素継続時間長62が単語情報付与部106で付与されて、音声認識部6から出力される。
音声認識部6で付与された1発話単位を構成し、上述の音声認識に基づく情報が付与された単語をA1、A2、...、Axとする。この各単語中の任意の単語をAm(m=1、...、x)とし、単語Amの音響尤度スコア54、言語尤度スコア55、単語尤度スコア56、単語継続時間長58、音素数60、音素継続時間長62、品詞情報52を示す値をそれぞれam、bm、cm、dm、em、fm、gm、とした場合、例えば、図3に示すように情報付単語列記憶部31内に、各単語Amごとに音声認識に基づく情報が記憶される。
情報変換部20では、1発話内における単語A1、A2、...、Axの音響尤度スコア54、言語尤度スコア55、単語尤度スコア56、単語継続時間長58、音素数60、音素継続時間長62、の各統計値、例えば、平均値、分散値、最大値、最小値をそれぞれ求める。まず、単語A1、A2、...、Axにおいての音響尤度スコアa1、a2、...、axが全て音響尤度スコア平均値部201に入力され、これらの平均値Pが計算される。音響尤度スコアa1、a2、...、axが全て音響尤度スコア分散値部202に入力され、これらの分散値Qが計算される。音響尤度スコアa1、a2、...、axが全て音響尤度スコア最大値部203に入力されて、これらの最大値Rが求められる。音響尤度スコアa1、a2、...、axが全て音響尤度スコア最小値部204に入力され、これらの最小値Sが求められる。これらの統計値はこれらに限るものでなく、またこれらのうちの一部のみを用いてもよく、また用いなくてもよい。用いない場合については以下で説明する。
以上のように、計算された平均値P、分散値Q、最大値R、最小値Sがそれぞれ音響尤度スコア平均値正規化部205、音響尤度スコア分散値正規化部206、音響尤度スコア最大値正規化部207、音響尤度スコア最小値正規化部208、に入力され、平均値P、分散値Q、最大値R、最小値Sがそれぞれ、0〜1の値に正規化された値Pa、Qa、Ra、Saが算出される。
また同様に残りの情報、つまり言語尤度スコア55、単語尤度スコア56、単語継続時間長58、音素数60、音素継続時間長62についても、同様の処理により、それぞれの平均値、分散値、最大値、最小値の正規化された値を求める。正規化された平均値、正規化された分散値、正規化された最大値、正規化された最小値として表す場合、つまり、言語尤度スコア55の統計値Pb、Qb、Rb、Sb、単語尤度スコア56の統計値Pc、Qc、Rc、Sc、単語継続時間長58の統計値Pd、Qd、Rd、Sd、音素数60の統計値Pe、Qe、Re、Se、音素継続時間長62の統計値Pf、Qf、Rf、Sfを算出する。これら正規化された値を1要素として、すなわち、この場合24要素で構成される発話特徴量ベクトルを合成部260において合成する。なお、この24要素を全て使用する必要はなく、この中の1以上の要素を使用しても問題はない。そして、用いない統計値を算出する必要もない。
また、次の信頼度付与部22で、信頼度を付与する際に用いる複数の単語を1つのシンボルで表した単語クラスに図1、図4中のクラス分け部21により、分類することで、より精度の高い信頼度を得ることが出来る。ここで1つのシンボルで表した単語クラスとは、(例えば一つのシンボルを、「あ」という言葉で始まるか、というものに設定した時に)、例えば「あ」で始まる単語を単語クラスa、「い」で始まる単語クラスをb、「わ」で始まる単語クラスwに属し、これら以外の言葉で始まる単語を単語クラスxとする。例えば、発話単位の例として、「私はあなたを愛しています。」で説明すると、単語系列が「私」「は」「あなた」「を」「愛し」「て」「い」「ます」に区切られた場合、「あなた」と「愛し」は単語クラスaに属し、「い」は単語クラスbに属する。「私」は単語クラスwに属し、「は」「を」「て」「ます」は単語クラスxに属する。
このような単語クラスを用い、発話における複数の単語中に、1つでも単語クラスaに属する単語があれば、単語クラスaを「1」とし、なければ、「0」とすることを各単語クラスについて調べる。つまり、単語クラスの数をn個とすると、各要素が「0」もしくは「1」であり、要素数がn個のベクトルとして、出力する。
一つのシンボルを単語クラスで表した単語クラスのクラスタリングの例として、品詞情報52を用いることで、効率的に単語クラス分けをすることが出来る。例えば予め4つの品詞、「接続詞」「名詞」「格助詞」「連用詞」について、接続詞クラスa、名詞クラスb、格助詞クラスc、連用詞クラスdという4つの単語クラスを設定する。1発話中における複数の単語中に前記4つの品詞のそれぞれについて1以上含まれていれば「1」を出力し、含まれていなければ、「0」を出力する。例えば、入力された文章音声の発話単位が「しかし今日私は走る」の場合、分割された単語系列が「しかし」、「今日」、「私」、「は」、「走る」、となる。「しかし」は接続詞クラスa、「今日」と「私」は名詞クラスb、「は」は格助詞クラスc、連用詞クラスdには何れの単語も属さず、「走る」はどこのクラスにも属さない。よって、「しかし今日私は走る。」が入力音声である場合、単語クラスベクトルは(1,1,1,0)となる。
なお、上述したように、単語クラスとして、例えば、「あ」で始まる単語のようなクラス分けをする場合は、図2中に破線で示すように、上位N位の発話のそれぞれについて、その構成単語系列中の各単語がどのような単語クラスに属するかを示す情報g’を単語クラス列情報生成部108で生成記憶し、これを単語情報付与部106へ出力する。図3中のクラス判定部(図3では第m品詞クラス判定部250m)では、品詞クラスの場合と、同様に、各単語クラスについて発話単語列中に1つ以上その単語クラスに属するものがあれば「1」1つもなければ「0」とする。
図3の説明に戻ると、m個の任意の品詞を設定し、m個それぞれのクラスを第1品詞クラス2491、第2品詞クラス2492、...、第m品詞クラス249mとする。ただしmは1以上の整数とする。単語A1、A2、...、Axの品詞情報52の値、g1、g2、...、gxを用いて、クラス分け部21で、どの品詞クラスに属するかを判断し、クラス分けをし、単語A1、A2、...、Axはそれぞれ、相当する第1品詞クラス2491、第2品詞クラス2492、...、第m品詞クラス249mに属される。そして、品詞情報52については、任意の品詞について、発話単位中に、その品詞が含まれていれば「1」を出力し、含まれていなければ「0」を出力する。つまり、クラス分けをした結果、単語が含まれていれば第jクラス(j=1、...、m)に対応する第j品詞クラス判定部250jから「1」を出力し、単語が含まれていなければ「0」を出力し、これらそれぞれを1要素として、合成部260で発話特徴量ベクトルを構成する。
なお、1つのシンボルで表した単語クラスの一例として、品詞情報52を用い、m個の任意の品詞を設定し、かつ、1発話単位においての各単語の音響尤度スコア54、言語尤度スコア55、単語尤度スコア56、単語継続時間長58、音素数60、音素継続時間長62のそれぞれの平均値、分散値、最大値、最小値の全ての要素で構成された発話特徴量ベクトルの具体的構成例を図4に示す。
このような発話特徴量ベクトルのみならず、このベクトル中のいくつかの要素のみで発話特徴量ベクトルとしてもよい。
なお、品詞の種類数mを37種類にすると、精度の高い信頼度を出力させることが出来る。図4に示したように、音響尤度スコア54、言語尤度スコア55、単語尤度スコア56、単語継続時間長58、音素数60、音素継続時間長62のそれぞれの発話内での平均値、分散値、最大値、最小値などの統計値、上述の単語クラスから出力された値、全てを用いる場合、61次元(6×4+37の発話特徴量ベクトルが発話単位ごとに発話特徴量ベクトルを合成部260から合成出力される。
N−best候補を音声認識部6で求めた場合は、そのN個の候補のそれぞれについて、発話特徴量ベクトルを求める。
図1の説明に戻る。情報変換部20から発話特徴量ベクトルが信頼度付与部22に入力され、識別モデル格納部29に格納されている識別モデルを用いて、前記入力された発話特徴量ベクトルを評価して、信頼度を出力する。このため予め学習音声信号から、上述したように多数の発話特徴量ベクトルを作成し、これら学習用発話特徴量ベクトルについて、そのベクトルが得られた音声認識結果の認識率がn%(0≦n≦100)以上であるか否かを学習して、認識率n%の識別モデルを作成し、識別モデル格納部29に格納しておく。この識別モデルは通常0≦n≦100の範囲で、必要とされる密度で作成される。例えば信頼度を10%間隔で必要とする場合は(n=0%、10%、20%、30%、...、90%、100%)以上であるか否かをそれぞれ評価できる11個の識別モデルを予め作成して、識別モデル格納部29に格納しておく。
このような、識別モデルを用いて、評価すべき発話単位特徴量ベクトルの信頼度を求めるには、例えば、その発話特徴量ベクトルを、まずn=0%の識別モデルを用いて評価し、認識結果が0%以上であるか否かを判断する。0%以上であると判断されると、上記評価対象発話特徴量ベクトルをn=10%の識別モデルを用いて評価し、n=10%以上であるか否かを判断する。以下、これらの処理を繰り返し、n=80%の識別モデルを用いて、評価した時に、認識率がn=80%以上ではないと判断された場合は、その評価対象発話特徴量ベクトルの基となった発話音声認識結果の認識率は70%以上80%以下と判断される。この判断結果を発話特徴量ベクトルの基となった発話音声認識結果に対する信頼度とする。
なお、発話音声認識率が70%以上であるか否かのみを判断する場合は、n=70%の識別モデルを1個作成し、これを識別モデル格納部29に格納しておけば良い。
上述のようにして、発話特徴量ベクトルを用い、これの基となった発話音声認識結果の認識率の信頼度を推定する。
上述したような、次元数が非常に多い発話量特徴ベクトルを用いると、非常に大量の学習データが必要となり、少量では、過学習の問題が発生することが多い。そこで、識別モデルには、例えば、サポートベクターマシン(SVM)による統計的識別モデルを用いることが考えられる。サポートベクターマシンにより、例えば、認識率が70%の識別モデルを作るには、認識率70%以上のz次元の発話特徴量ベクトルと認識率70%未満のz次元の発話特徴量ベクトルを用いて学習により、複数個のサポートベクターを求め、これらから発話特徴量ベクトルxを変数とする識別関数f(x)を求め、これを識別モデルとする。
この識別モデルを用いて、実際に求めた入力音声信号から得たz次元の発話特徴量ベクトルを評価するには、その発話特徴量ベクトルをxとして、前記識別関数f(x)に代入し、その演算結果が正であれば、70%以上の認識率を持つ信頼性があり、負であれば、70%未満の認識率を持つ信頼性があると判断する。なお、サポートベクターマシンの詳細は、電子情報通信学会誌 vol.83 No.6 2000年6月 460頁−466頁等に記載されている。サポートベクターマシンは「マージン最大化」という基準から自動的に、識別面付近の少数の学習サンプルのみを選択して、識別面を構成するため、少数の学習データでも比較的良い識別性能が得られるため本願の発明に利用すれば、認識モデルの作成効率が良い。
なお、1発話につき、N―best候補のN個の単語系列が認識され、これらN個の音声認識に基づき、作成された各発話特徴量ベクトルを識別モデルでその音声結果の信頼度を推定し、その最も高いものと対応する発話音声認識結果の単語系列を出力する。あるいは、N個の単語系列とその信頼度とを組として出力してもよい。
発話特徴量ベクトルとしては、先に述べたように前記各種の統計量のみを用いてもよく、その統計量、平均値、分散値、最大値、最小値、中の1つまたは、複数を用いても良く、更に、音響尤度スコア54、言語尤度スコア55、単語尤度スコア56、についての値のみでもよく、あるいは、単語クラスの系列のみでも良い。
実験結果
以下に、この発明が優れていることを示す実験結果を説明する。
発話単位の単語系列50の各単語に付与された品詞情報52、音響尤度スコア54、言語尤度スコア55、単語尤度スコア56、単語継続時間長58、音素数60、音素継続時間長62の平均値、分散値、最大値、最小値、を正規化した値、および、品詞の種類数として、37種類の品詞情報52を用いた単語クラスを用いて合成した61次元の発話特徴量ベクトルを使用した。14本の放送ニュースデータの連続単語認識において、語彙数約3万のtrigram言語モデル、性別非依存、状態数約5000、各状態の混合数8の状態共有triphone音響モデルを用いて評価した。用いたデータの概要を図5Aに示す。14本のニュースデータの単語数の総数が100、541個、予め計測された単語正解精度83.59%とする。
放送ニュースデータについては、全データの1割を評価用データ、残りの9割を学習用データとするクロス評価を行い、使用したデータの単語正解精度に近い80%を閾値とし、閾値以上と推定された発話を、高精度に認識された発話として、抽出を行った。本発明では、認識率を推定する手段の一つとして、機械学習を用いた。抽出された発話の再現率を式(1)で、適合率を式(2)で求めた。
式(1) 再現率=H/C
式(2) 適合率=H/N
ただし、Cは評価用データに含まれる認識率80%以上の実際の発話数、Nは認識率80%以上と推定された発話数、Hは認識率80%以上と推定された発話の中で実際に80%以上だった発話数とする。
また比較のため、従来の方法であるN−bestコンフィデンスメジャーを用いた認識率の推定を行った。これは、ある閾値以上の値が付与された単語を正解とし、そうでない単語を不正解と仮定して、認識率を推定したものであり、再現率、適合率は上式(1)(2)を用いて、算出した。比較評価結果を図5Bに示す。N−bestコンフィデンスメジャーを用いた場合、再現率が91.76%、適合率が75.62%であるのに比べ、本願の発明では、再現率が91.87%、適合率が85.64%であり、再現率、適合率とも、向上していることが分かる。従って、連続単語認識において、発話単位の発話特徴量ベクトルを用いて、選択することが、精度の高い結果に結びつくことが分かる。
本願の発明において、入力音声に対応する文章の作成では、信頼度の低い部分を削除、若しくは、信頼度の高い部分を強調するなどして、より効率的な活用が可能となる。
コンピュータと人間とが音声対話を用いて、コミュニケーションをとる音声対話システムで認識した情報において、信頼度の高い部分に重みをつけて、用いたり、信頼度の低い部分を再度確認したりなど、より効率的な対話を行うことが出来る。音声認識に使用する音響モデルを学習する際に、従来は人手でデータを作成して、学習を行っているが、音声認識を行い、高精度に認識された発話のみを用いて、学習を行うことで、教師なし学習を行うことが出来る。上述の例のように、本願の発明を用いることにより、より効率的な音声認識装置を開発することが出来る。
この発明のシステムの構成例を示すブロック図。 音声認識部6の構成例を示すブロック図。 情報付単語系列記憶部31の具体的記憶内容例と情報変換部20の構成例を示す図。 37(m)種類の品詞情報と、音響尤度スコア54、言語尤度スコア55、単語尤度スコア56、単語継続時間長58、音素数60、音素継続時間長62の各々の平均値、分散値、最大値、最小値の全てを要素として構成された発話特徴量ベクトルを示す図。 この発明の効果を示す実験においてのデータを示す表であり、Aは学習並びに評価に用いたデータであり、Bはこの発明とN−bestコンフィデンスメジャーとの比較評価結果を示す表である。

Claims (19)

  1. 入力されたディジタル音声信号を発話単位に分割する発話分割部と
    その発話単位のディジタル音声信号から音響特徴パラメータを抽出し、その音響特徴パラメータに対し、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルに出力する確率に基づくスコアを計算し、少なくとも、最も高いスコアを示すモデルが表現するカテゴリを認識し、上記発話単位ごとの単語系列を求め、かつその単語系列中の各単語ごとの上記認識に基づく情報を付与した単語系列を生成する音声認識部と、
    上記分割された発話単位ごとに、その発話単位の単語系列に含まれる全ての単語の各単語単位の上記認識に基づく情報を上記発話単位の発話特徴量ベクトルに変換する情報変換部と、
    上記発話単位の発話特徴量ベクトルと識別モデルを用いて認識率を推定し、その推定した認識率に基いて、当該発話単位の音声認識結果に対する信頼度を求める信頼度付与部と、
    上記信頼度を出力する出力部と、
    を備えることを特徴とする音声認識信頼度推定装置。
  2. 請求項1記載の音声認識信頼度推定装置において、
    上記情報変換部は、複数の単語の群をそれぞれ1つのシンボルで表した異なる単語クラスについて、1発話中の各単語がどの単語クラスに属するかを表す単語クラス情報列を生成して記憶する単語クラス列情報生成部と、
    上記単語クラス情報列を基に、上記単語系列中に上記各単語クラスごとにこれに属するものがあるかどうかを判定し、その判定結果を上記発話特徴量ベクトルの少なくとも一部とするクラス判定部と、
    を具備することを特徴とする音声認識信頼度推定装置。
  3. 請求項2記載の音声認識信頼度推定装置において、
    上記シンボルは、上記情報中の各単語ごとの品詞情報を用いることを特徴とする音声認識信頼度推定装置。
  4. 請求項1〜3何れかに記載の音声認識信頼度推定装置において、
    上記情報変換部は、上記認識の時に得られた音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長、のうち1つ若しくは複数を用いて、上記発話特徴量ベクトルの少なくとも一部とすることを特徴とする音声認識信頼度推定装置。
  5. 請求項1〜4の何れかに記載の音声認識信頼度推定装置において、
    上記情報変換部は、
    上記認識の時に得られた、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長から算出される、音響尤度スコアの平均値を正規化した値、音響尤度スコアの分散値を正規化した値、音響尤度スコアの最大値を正規化した値、音響尤度スコアの最小値を正規化した値、言語尤度スコアの平均値を正規化した値、言語尤度スコアの分散値を正規化した値、言語尤度スコアの最大値を正規化した値、言語尤度スコアの最小値を正規化した値、単語尤度スコアの平均値を正規化した値、単語尤度スコアの分散値を正規化した値、単語尤度スコアの最大値を正規化した値、単語尤度スコアの最小値を正規化した値、単語継続時間長の平均値を正規化した値、単語継続時間長の分散値を正規化した値、単語継続時間長の最大値を正規化した値、単語継続時間長の最小値を正規化した値、音素数の平均値を正規化した値、音素数の分散値を正規化した値、音素数の最大値を正規化した値、音素数の最小値を正規化した値、音素継続時間長の平均値を正規化した値、音素継続時間長の分散値を正規化した値、音素継続時間長の最大値を正規化した値、音素継続時間長の最小値を正規化した値、の24要素で構成されるベクトルを上記発話特徴量ベクトルとすることを特徴とする音声認識信頼度推定装置。
  6. 請求項1〜5の何れかに記載の音声認識信頼度推定装置において、
    更に、認識率がn%以上であるか否かを評価できる識別モデルを格納した識別モデル格納部を備え、
    上記信頼度付与部は、上記識別モデルを用いて上記発話特徴量ベクトルの認識率がn%以上であるか否かを評価した結果を上記音声認識結果に対する信頼度とすることを特徴とする音声認識信頼度推定装置。
  7. 請求項1〜5の何れかに記載の音声認識信頼度推定装置において、
    更に、認識率がn%以上であるか否かを評価できる識別モデルであって、上記nの値が異なる複数の識別モデルを格納した識別モデル格納部を備え、
    上記信頼度付与部は、上記nの値が異なる上記識別モデルそれぞれについて、該識別モデルを用いて上記発話特徴量ベクトルの認識率がn%以上であるか否かを評価する処理を行った結果として得られる、上記発話特徴量ベクトルの認識率の範囲を上記音声認識結果に対する信頼度とすることを特徴とする音声認識信頼度推定装置。
  8. 請求項1〜7の何れかに記載の音声認信頼度推定装置において、
    上記識別モデルとして、サポートべクターマシン(SVM)に基づき作成されたものであることを特徴とする音声認識信頼度推定装置。
  9. 請求項1〜8の何れかに記載の音声認識信頼度推定装置において、
    上記情報変換部は、上記発話単位内に含まれる各単語に付与された上記認識に基づく情報の値を統計情報に変換し、上記発話特徴量ベクトルの少なくとも一部とすることを特徴とする音声認識信頼度推定装置。
  10. 入力されたディジタル音声信号を発話単位に分割し、その分割された発話単位のディジタル音声信号から音響特徴パラメータを抽出し、その音響特徴パラメータに対し、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルに出力する確率に基づくスコアを計算し、少なくとも、最も高いスコアを示すモデルが表現するカテゴリを認識し、上記発話単位ごとの単語系列を求め、その単語系列に含まれる各単語単位の上記認識に基づく情報を付与した単語系列を求める音声認識ステップと、
    上記分割された発話単位ごとに、その発話単位の単語系列に含まれる全ての単語の各単語単位の上記認識に基づく情報を上記発話単位の発話特徴量ベクトルに変換する情報変換ステップと、
    上記発話単位の発話特徴量ベクトルと識別モデルを用いて認識率を推定し、その推定した認識率に基づいて、当該発話単位の音声認識結果に対する信頼度を求める信頼度付与ステップと、
    その信頼度を出力するステップと、
    を有することを特徴とする音声認識信頼度推定方法。
  11. 請求項10記載の音声認識信頼度推定方法において、
    上記情報変換ステップは、予め決めた複数の単語の群をそれぞれ1つのシンボルで表した単語クラスについて、その単語クラスに属するものがあるか否かを表す単語クラス列に変換するステップを含むことを特徴とする音声認識信頼度推定方法。
  12. 請求項11記載の音声認識信頼度推定方法において、
    上記単語クラスは単語の品詞であることを特徴とする音声認識信頼度推定方法。
  13. 請求項1012の何れに記載の音声認識信頼度推定方法において、
    上記情報変換ステップ上記認識のときに得られた音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長、のうち1つ若しくは複数を用いて、上記発話特徴量ベクトルの少なくとも一部とすることを特徴とする音声認識信頼度推定方法。
  14. 請求項1記載の音声認識信頼度推定方法において、
    上記情報変換ステップは、上記単語に付与された値を発話内の統計情報に変換するステップを含むことを特徴とする音声認識信頼度推定方法。
  15. 請求項10〜14の何れかに記載の音声認識信頼度推定方法において、
    上記情報変換ステップは、
    上記認識の時に得られた、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長から算出される、音響尤度スコアの平均値を正規化した値、音響尤度スコアの分散値を正規化した値、音響尤度スコアの最大値を正規化した値、音響尤度スコアの最小値を正規化した値、言語尤度スコアの平均値を正規化した値、言語尤度スコアの分散値を正規化した値、言語尤度スコアの最大値を正規化した値、言語尤度スコアの最小値を正規化した値、単語尤度スコアの平均値を正規化した値、単語尤度スコアの分散値を正規化した値、単語尤度スコアの最大値を正規化した値、単語尤度スコアの最小値を正規化した値、単語継続時間長の平均値を正規化した値、単語継続時間長の分散値を正規化した値、単語継続時間長の最大値を正規化した値、単語継続時間長の最小値を正規化した値、音素数の平均値を正規化した値、音素数の分散値を正規化した値、音素数の最大値を正規化した値、音素数の最小値を正規化した値、音素継続時間長の平均値を正規化した値、音素継続時間長の分散値を正規化した値、音素継続時間長の最大値を正規化した値、音素継続時間長の最小値を正規化した値、の24要素で構成されるベクトルを上記発話特徴量ベクトルとするステップであることを特徴とする音声認識信頼度推定方法。
  16. 請求項10〜15の何れかに記載の音声認識信頼度推定方法において、
    上記信頼度付与ステップは、認識率がn%以上であるか否かを評価できる識別モデルを用いて上記発話特徴量ベクトルの認識率がn%以上であるか否かを評価した結果を上記音声認識結果に対する信頼度とすることを特徴とする音声認識信頼度推定方法。
  17. 請求項10〜15の何れかに記載の音声認識信頼度推定方法において、
    上記信頼度付与ステップは、認識率がn%以上であるか否かを評価できる識別モデルであって、上記nの値が異なる複数の識別モデルそれぞれについて、識別モデルを用いて上記発話特徴量ベクトルの認識率がn%以上であるか否かを評価する処理を行った結果として得られる、上記発話特徴量ベクトルの認識率の範囲を上記音声認識結果に対する信頼度とする音声認識信頼度推定方法。
  18. 請求項10〜17の何れかに記載の音声認識信頼度推定方法において、
    上記信頼度付与ステップは、サポートベクターマシン(SVM)により、予め作成された識別モデルを用いるステップであることを特徴とする音声認識信頼度推定方法。
  19. 請求項10〜18の何れかに記載した音声認識信頼度推定方法の各ステップをコンピュータに実行させるためのプログラム。
JP2006059216A 2006-03-06 2006-03-06 音声認識信頼度推定装置、その方法、およびプログラム Expired - Fee Related JP4769098B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006059216A JP4769098B2 (ja) 2006-03-06 2006-03-06 音声認識信頼度推定装置、その方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006059216A JP4769098B2 (ja) 2006-03-06 2006-03-06 音声認識信頼度推定装置、その方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2007240589A JP2007240589A (ja) 2007-09-20
JP4769098B2 true JP4769098B2 (ja) 2011-09-07

Family

ID=38586239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006059216A Expired - Fee Related JP4769098B2 (ja) 2006-03-06 2006-03-06 音声認識信頼度推定装置、その方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP4769098B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100934218B1 (ko) 2007-12-13 2009-12-29 한국전자통신연구원 다단계 음성인식 장치 및 그 장치에서의 다단계 음성인식방법
JP5149941B2 (ja) * 2010-07-13 2013-02-20 日本電信電話株式会社 音声認識方法とその装置とプログラム
JP5406806B2 (ja) * 2010-08-25 2014-02-05 日本電信電話株式会社 用件区間抽出方法、装置、及びそのプログラム
JP5679346B2 (ja) * 2012-02-22 2015-03-04 日本電信電話株式会社 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム
JP5888222B2 (ja) * 2012-12-18 2016-03-16 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP6674706B2 (ja) * 2016-09-14 2020-04-01 Kddi株式会社 学習者の口述音声から自動的に採点するプログラム、装置及び方法
CN111027793B (zh) * 2019-03-27 2023-06-30 广东小天才科技有限公司 一种词语掌握程度的确定方法及系统、电子设备
CN115691472B (zh) * 2022-12-28 2023-03-10 中国民用航空飞行学院 一种管制语音识别系统的评估方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002358097A (ja) * 2001-06-01 2002-12-13 Mitsubishi Electric Corp 音声認識装置
JP2004013306A (ja) * 2002-06-04 2004-01-15 Nec Corp 類似度計算装置、インデックスデータ生成装置、映像または音声データベース装置、類似度計算方法、インデックスデータ生成方法、内容表現データ記憶装置、および、記録媒体
JP2005275348A (ja) * 2004-02-23 2005-10-06 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2007240589A (ja) 2007-09-20

Similar Documents

Publication Publication Date Title
US10121467B1 (en) Automatic speech recognition incorporating word usage information
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
US6535850B1 (en) Smart training and smart scoring in SD speech recognition system with user defined vocabulary
Jiang Confidence measures for speech recognition: A survey
Wu et al. Emotion recognition of affective speech based on multiple classifiers using acoustic-prosodic information and semantic labels
JP2965537B2 (ja) 話者クラスタリング処理装置及び音声認識装置
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
US9984677B2 (en) Bettering scores of spoken phrase spotting
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPH1063291A (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP4340685B2 (ja) 音声認識装置及び音声認識方法
US10199037B1 (en) Adaptive beam pruning for automatic speech recognition
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
Williams Knowing what you don't know: roles for confidence measures in automatic speech recognition
Mary et al. Searching speech databases: features, techniques and evaluation measures
JP3660512B2 (ja) 音声認識方法、その装置及びプログラム記録媒体
JP2002342323A (ja) 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
JP4659541B2 (ja) 音声認識装置及び音声認識プログラム
JP3444108B2 (ja) 音声認識装置
JP4259100B2 (ja) 音声認識用未知発話検出装置及び音声認識装置
Manjunath et al. Articulatory and excitation source features for speech recognition in read, extempore and conversation modes
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110617

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140624

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees