JP5177561B2 - 認識器重み学習装置および音声認識装置、ならびに、システム - Google Patents

認識器重み学習装置および音声認識装置、ならびに、システム Download PDF

Info

Publication number
JP5177561B2
JP5177561B2 JP2008557047A JP2008557047A JP5177561B2 JP 5177561 B2 JP5177561 B2 JP 5177561B2 JP 2008557047 A JP2008557047 A JP 2008557047A JP 2008557047 A JP2008557047 A JP 2008557047A JP 5177561 B2 JP5177561 B2 JP 5177561B2
Authority
JP
Japan
Prior art keywords
speech
recognizer
learning
recognition
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008557047A
Other languages
English (en)
Other versions
JPWO2008096582A1 (ja
Inventor
祥史 大西
正 江森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008557047A priority Critical patent/JP5177561B2/ja
Publication of JPWO2008096582A1 publication Critical patent/JPWO2008096582A1/ja
Application granted granted Critical
Publication of JP5177561B2 publication Critical patent/JP5177561B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

本発明は、音声認識技術に関し、特に、複数の音声認識器から得られた認識結果に基づき最終的な認識結果を決定する手法を用いる音声認識技術に関する。
音声認識システムの一例として、非特許文献1に記載のものがある。図7に、同文献に記載の音声認識システムの構成を示す。システム300は、音声入力手段301と、音声認識手段302と、認識結果統合手段303と、認識結果選択手段304と、認識結果出力手段305とから構成されている。このシステム300は、次のように動作する。
音声入力手段301から認識対象の音声を入力されたとき、音声認識手段302が、その音声の認識処理を行い認識結果を出力する。音声認識手段302は、音声認識処理を行うN個の音声認識器を備え、認識結果の単語列をN個出力する。認識結果統合手段303は、N個の認識結果単語列を統合し、一つの単語列ネットワークを生成する。
認識結果統合手段303は、単語列ネットワークを生成するとき、まず、N個の認識結果単語列を互いに出来る限り整合するように並べる。そして、各認識結果単語列に対し単語の区切りごとにノードを設定し、各単語をアークとして認識する。単語列ネットワークとは、このように整列された認識結果単語列がノードにて分岐・合流するネットワークである。
認識結果選択手段304は、単語列ネットワークの中で最適な単語列のパスを選択する。認識結果出力手段305は、選択されたパスを最終的な認識結果として出力する。
図8を参照して、音声認識手段302の音声認識器が3つである場合を例に挙げ、システム300の動作を説明する。音声認識手段302は、3つの音声認識器により、図8(A)に示すような、入力音声に対する3系統の認識結果単語列(認識結果#1〜#3)を出力する。図示のa,b,c,…は、それぞれ単語を表す。認識結果統合手段303は、これら3系統の認識結果単語列から、非特許文献1の2.1節に記載の要領にて、単語列ネットワークを生成する。
認識結果統合手段303は、認識結果1と認識結果2とをDPマッチングすることで互いを整合させるように並べ、各単語をアークとして認識する。これにより、図8(B-1)に示すような、認識結果1及び認識結果2による単語列ネットワークが生成される。「φ」は空の単語を表す。図示の例において、認識結果1および認識結果2間では単語b及び単語dが一致することから、それらが整合するように認識結果1及び認識結果2が並べられている。
さらに、認識結果1及び認識結果2による単語列ネットワークに対し認識結果3をDPマッチングすることにより、図8(B-2)に示すように単語列ネットワークが拡大する。よって、音声認識器が3個以上の場合でも、上記手順を繰り返すことで、同様に単語列ネットワークを順次拡大させることができる。
認識結果選択手段304は、上記のようにして得られた単語列ネットワークから、各ノードに挟まれた単語アークの集合において多数決をとることにより、最適な単語列パスを選択する。その結果、認識結果出力手段305から、図8(C)に示すような最終的な認識結果が出力される。なお、最適な単語列を選択するにあたっては、i番目の単語候補アークの集合において単語wが出現する回数をS(w,i)として、i番目の最適単語wiを後述の[数1]により決定し、i=1,2,・・・と順次wiを決定することで最適な単語列パスを選択する。
Figure 0005177561
Jonathan G. Fiscus、"A Post-Processing System to Yield Reduced Word Error Rates: Recognizer Output Voting Error Reduction (ROVER)"、Proc. IEEE ASRU Workshop、1997、pp.352-437 Steve Young et al.、"The HTK Book (for HTK Version 3.3)"Chapter 3、Cambridge University (http://htk.eng.cam.ac.uk/)、2005、p. 22-25 Nelson Morgan et al.、"Speech Recognition Using On-Line Estimation of Speaking Rate"、Proc. Euro Speech、1997 N. Minematsu, M. Sekiguchi, and K. Hirose、"Automatic estimation of one’s age with his/her speech based upon acoustic modeling techniques of speakers"、Proc. ICASSP 2002、p. I-137-140 ETSI ES 202 050 V1.1.1, "Speech processing, Transmission and Quality aspects(STQ);Distributed speech recognition; Advanced front-end feature extraction algorithm; Compression algorithm," 2002 Frank Wessel et al.、"Confidence Measures for Large Vocabulary Continuous Speech Recognition"、IEEE Trans. on Speech and Audio Processing. Vol. 9 No. 3, March 2001
しかしながら、上記の技術には次の問題点がある。
第1の問題点は、単語列ネットワークから最適な単語列を選択するための多数決が、有効に機能しない可能性があることである。その理由は、例えば複数の音声認識器が共通の認識誤りを起こす場合、多数決により、誤った認識結果が最適単語列として選択されるからである。また、音声認識手段302に、認識誤りを多発する音声認識器が多く含まれる場合、たとえ各々が同じ誤りでなくとも、正解となる単語列は、相対的に少数な仮説となる。その結果、正解が選択され難くなる。
第2の問題点は、図8に示すような単語列ネットワークを生成する際に、計算量を削減し難いことである。その理由は、単語列ネットワークの構成要素となる単語列を得るために、システムが持つ全ての音声認識器を用いるからである。
一方、上記の第1及び第2の問題点を回避するために、例えば、既存の音声認識器の数を減らした場合、多用な音声入力に対処し難くなる。その結果として、性能の改善効果が小さくなるおそれがある。なぜなら、この場合、音声認識器が出力する認識結果が少数となることで、最適単語列の選択肢が制限されるからである。
本発明の目的は、音声認識処理において、適正な認識結果を効率よく導き出すための技術を提供することにある。
本発明に係る認識器重み学習装置は、認識すべき音声の特性が異なる複数の音声認識器を保持する記憶装置に接続された認識器重み学習装置であって、学習用音声の特性に対応する音声認識器を前記記憶装置から選抜する選抜手段と、選抜した音声認識器の集合により前記学習用音声の認識結果を求める認識手段と、前記音声認識器の集合による認識結果を統合して単語列ネットワークを生成する統合手段と、前記音声認識器の集合に関する重み値を学習処理により求める学習手段とを備え、前記学習手段は、前記単語列ネットワークの各アーク集合から重み値候補を加味した多数決により単語を選定し、選定した単語から成る単語列の認識誤り率が最小となる重み値候補を学習結果として出力する。
本発明に係る音声認識装置は、前記認識器重み学習装置が用いる音声認識器と該認識器重み学習装置が出力した重み値を記憶する記憶装置とに接続された音声認識装置であって、入力音声の特性に対応する音声認識器を前記記憶装置から選抜する選抜手段と、選抜した音声認識器の集合により前記入力音声の認識結果を求める認識手段と、前記音声認識器の集合による認識結果を統合して単語列ネットワークを生成する統合手段と、前記単語列ネットワークから最適認識結果の単語列を選択して出力する結果選択手段とを備え、前記結果選択手段は、前記音声認識器の集合に対応する重み値を前記記憶装置から取得し、前記単語列ネットワークの各アーク集合から当該重み値を加味した多数決により単語を選定し、選定した単語から成る単語列を前記最適認識結果として出力することを特徴とする音声認識装置。
本発明に係るシステムは、前記認識器重み学習装置と、前記認識器重み学習装置が用いる音声認識器および該認識器重み学習装置が出力した重み値を記憶する記憶装置と、前記音声認識装置とを備える。
本発明によれば、認識器重み学習装置が音声認識器に関連付ける重み値を求めるとき、認識誤りを多く含む音声認識器ほど重み値が小さく、正解を多く含む音声認識器ほど重み値が大きくなるよう学習することができる。また、このように学習された重み値を用いて音声認識装置が最適認識結果を求めることにより、音声認識器の性能を考慮した適正な最適認識結果を得ることができる。さらにまた、音声認識装置は、記憶装置の音声認識器を選択的に使用することから、認識処理の計算量を削減し易く、処理の効率化を図ることができる。
本発明の実施形態のシステム構成を示すブロック図である。 本発明の実施形態の認識器重み学習装置の基本動作に関するフローチャートである。 本発明の実施形態における音声認識器の分類に関する説明図である。 本発明の実施形態の認識器重み学習装置の詳細動作に関するフローチャートである。 本発明の実施形態の音声認識装置の基本動作に関するフローチャートである。 本発明の実施形態の音声認識装置の詳細動作に関するフローチャートである。 非特許文献1に記載の音声認識装置の構成を示すブロック図である。 非特許文献1に記載の音声認識装置により出力する認識結果に関する説明図である。
符号の説明
1000 システム
100 認識器重み学習装置
101 音声データ記憶部
102 音声認識器記憶部
103 音声認識器選抜手段
104 音声認識部
105 認識結果統合手段
106 認識器重み学習手段
107 認識器重み記憶部
108 正解ラベル記憶部
110 音声認識装置
111 音声入力部
112 音声認識器選抜手段
113 音声認識部
114 認識結果統合手段
115 認識結果選択手段
116 認識結果出力部
図1に、本発明の実施形態のシステム構成を示す。実施形態のシステム1000は、それぞれパーソナルコンピュータのような情報処理装置により実現される認識器重み学習装置100および音声認識装置110と、これら両装置からのアクセスが可能なハードディスク装置やメモリなどの音声認識器記憶部102及び認識器重み記憶部107とを備える。音声認識器記憶部102及び認識器重み記憶部107は、両装置(100,110)からのアクセスが可能であれば、いずれか一方の装置に組み込まれていてもよい。
認識器重み学習装置100は、図1に示すように、音声データ記憶部101と、音声認識器選抜手段103と、音声認識手段104と、認識結果統合手段105と、認識器重み学習手段106と、正解ラベル記憶部108とを備える。音声データ記憶部101および正解ラベル記憶部108は、いずれもハードディスク装置やメモリなどの記憶装置であり、他の構成要素はコンピュータプログラムである。
音声データ記憶部101には、認識器重み値の学習に用いる多数の音声データが記憶されている。音声認識器記憶部102には、音声認識器としてのプログラムが後述の学習モデルの種別ごとに記憶されている。音声認識器は、従来のものと同様に、入力された音声データに対する認識処理を行うものである。正解ラベル記憶部108には、音声データ記憶部101の音声データに対応する正解ラベルが記憶されている。
図2に示すフローチャートを参照して、図1の認識器重み学習装置100の動作について説明する。音声認識器選抜手段103は、音声データ記憶部101から入力された学習用の音声データXに適した音声認識器を音声認識器記憶部102から選抜する。このとき、音声認識器選抜手段103は、音声認識器記憶部102に記憶されているN個の音声認識器の中から、音声データXの特性に対応するM個(N>M)の音声認識器s1(X),s2(X),…,sM(X)を選抜する(ステップS1)。
図3に、本実施形態の音声認識器記憶部102に記憶されている音声認識器の分類を示す。図3に示すように、本実施形態の音声認識器には、発声の速さを表す「話速」、発話者の「年齢」、音声対雑音比(Signal to Noise Ratio)である「SNR」といった3種類のカテゴリが用意されている。また、各カテゴリには、それぞれの程度を表す3つのクラスが設けられている。したがって、音声認識器記憶部102には、9種類(N=9)の音声認識器が存在する。
音声認識器のクラス分けの際は、例えば「話速」のカテゴリの場合、音声認識器に用いる音響モデルの学習データのそれぞれから話速を算出し、算出した話速を「遅い」、「速い」、「中庸」の3つに振り分ける。振り分けの比率は、例えば等分とすることができる。あるいは、各クラスの学習データ分量を確保するため、データの重なりを許して、「遅い」及び「速い」をそれぞれ50%としつつ、「遅い」及び「速い」をそれぞれ25%とした残りの50%を「中庸」とするという比率であってもよい。クラスごとに分けられた各データを用いて、それぞれのクラスの音響モデルを学習することで、「話速」について3つのモデルを学習する。
「年齢」及び「SNR」についても同様に、クラスごとに音響モデルを学習する。これにより、全9個の音響モデルが学習される。音声認識器記憶部102に記憶される音声認識器は、学習された音響モデルを用いたものである。音声認識器の音響モデルおよびその学習方法については、任意のものを適用することができる。例えば、広く用いられている隠れマルコフモデル(HMM)を使用する場合は、非特許文献2の3章に記載されている方法に従い、そこで配布されているツールを使用することができる。
本実施形態の音声認識器選抜手段103は、前述した音声認識器記憶部102にある9個(N=9)の音声認識器の中から、音声データXの特性に対応する音声認識器を、「話速」、「年齢」、「SNR」の各カテゴリから1つずつ、計3個(M=3)選抜する。選抜の際は、後述の方法でカテゴリごとに音声データXの特性を推定し、その推定値が何れのクラスに該当するかを判定する。そして、判定したクラスの音声認識器を、音声データXに対する最適な音声認識器として選抜する。例えば、「話速」に関し得られた推定値が「遅い」に該当する場合、「話速」カテゴリからは、「遅い」クラスの音声認識器が最適な音声認識器として選抜される。
「話速」の推定には、例えば非特許文献3に記載されている、信号処理的に話速を推定する方法を使用することができる。「年齢」の推定には、例えば非特許文献4に記載の、混合ガウス分布モデル(GMM:Gaussian Mixture Model)を使用する方法を用いることができる。SNRの推定には、例えば非特許文献5に記載の、信号処理的手法により入力音声から音声区間及び非音声区間を推定しそのスペクトル比からSNRを推定する方法を使用することができる。これらの非特許文献3〜5に記載の方法を用いることにより、比較的高速かつ少ない計算量で音声認識処理を行うことができる。
なお、非特許文献4に記載のGMMを使用する方法は、「年齢」の推定だけでなく、「年齢」の代わりに「話速」や「SNR」などをラベルとして用いることにより、他の特性の推定にも使用できる。さらにまた、特性が「話速」、「年齢」、「SNR」以外である場合も、その特性に基づき、音響モデルを学習するデータをクラス別に分けてGMMを使用するという方法を利用することが可能である。
音声認識手段104は、音声認識器選抜手段103で選抜されたM個の音声認識器により、入力された音声データを音声認識処理し、M個の認識結果s1,s2,…,sMを出力する(図2:ステップS2)。
認識結果統合手段105は、非特許文献1の2.1節に記載の方法により、音声認識手段104から出力されたM個の認識結果を統合することにより、図8の(B-2)に示すような単語列ネットワークを生成する(ステップS3)。
認識器重み学習手段106は、正解ラベル記憶部108における音声データXに対応する正解ラベルと、単語列ネットワークに対する重み付き多数決により得られた単語列との比較により、この単語列の誤り率を求め、求めた誤り率を用いて認識器重み値を学習する(ステップS4)。そして、学習結果となる認識器重み値を認識器重み記憶部107へ格納する(ステップS5)。
ここで、図4のフローチャートを参照して、認識器重み学習手段106の処理について詳細に説明する。認識器重み学習手段106は、音声認識器選抜手段103が選抜したM個の音声認識器の集合が一致する音声データ群ごとに、以下の処理を行う。
各音声データXに対し音声認識器選抜手段103が選抜したM個の音声認識器をs1(X), s2(X),…,sM(X) とし、その集合ΩXを後述の[数2]のように表す。このとき、選抜されたM個の音声認識器の認識器重み値Λ(ΩX)は、[数3]のように表される。学習処理において、認識器重み値Λ(ΩX)は「0」以上「1」以下の実数をとる候補値である。すなわち、学習処理において上記範囲で変化する候補値のうち、後述の条件が満たされるときの候補値が、最終的な学習結果の認識器重み値となる。
Figure 0005177561
Figure 0005177561
認識器重み学習手段106は、次の[数4]の式により、単語列ネットワークのi番目(i=1,2,…)のアーク集合において単語wが出現するスコアS(w,i,Λ(ΩX))を、[数3]の認識器重み値により重み付けして求める(ステップS4-1)。i番目のアーク集合とは、図8(B-1)及び(B-2)に記載の「i=1,2,…」により識別される単語の集合である。
Figure 0005177561
なお、音声認識器が認識結果単語列と共に信頼度も出力する場合は、さらに、「0」以上「1」以下の値に変換した信頼度を重み付けしたうえで、単語wの出現スコアS(w,i,Λ(ΩX))を求めてもよい。この場合のスコアは、次の[数5]により算出することができる。ここで、[数5]のC(wj)は、音声認識器jが出力するi番目の単語wjの信頼度である。信頼度算出方法は、例えば非特許文献6に詳細が記載されている。
Figure 0005177561
上記のようにして、アーク集合における各単語wの出現スコアが算出されると、次の[数6]に示す重み付き多数決wi(Λ(ΩX))により、出現スコアが最大値をとる単語wiをアーク集合ごとに求める。このように、認識器重み値に依存した多数決により、各アーク集合i(i=1,2,…)から単語wiが順次決定される(ステップS4-2)。
Figure 0005177561
次に、音声データXに対応する正解ラベルを正解ラベル記憶部108から読み出し、読み出した正解ラベルと、各アーク集合i(i=1,2,…)から求めた上記の単語wiで構成される単語列との比較により、この単語列の誤り率を算出する(ステップS4-3)。
より詳細には、正解ラベルの単語列と上記の単語wiによる単語列との間でDPマッチングを行うことにより、双方の単語列を、単語が互いに出来るだけ整合するように対応付ける。そして、一致した単語数、置換誤り単語数、挿入誤り単語数、脱落誤り単語数を算出し、その結果を用いて、次の[数7]あるいは[数8]の式により誤り率(err)を算出する。前述したように、[数6]により決定される単語wiの単語列は、認識器重み値に依存、すなわち認識器重み値の候補に応じて変化する。よって、[数6]の式に基づいた[数7]あるいは[数8]により得られる誤り率(err)も、認識器重み値に依存した量となる。
Figure 0005177561
Figure 0005177561
認識器重み学習手段106は、選抜されたM個の音声認識器の集合が一致する音声データ群において、次の[数9]の式により、それらの誤り率の和を最小にする認識器重み値ΛΩを求める(ステップS4-4)。これにより、認識器重み記憶部107に保存すべき認識器重み値の学習結果が得られる(ステップS4-5)。この学習結果は、すなわち、今回選抜されたM個の音声認識器の集合に関する重み値であり、後述の音声認識装置110が、同じ集合による音声認識を行う際に使用する。
Figure 0005177561
前述したように、誤り率(err)は、「0」以上「1」以下の実数をとる認識器重み値の候補に応じて変化するものである。よって、候補値を順次シフトさせる学習処理において、誤り率の和が最小となるときの候補値を検出することで、学習結果の認識器重み値ΛΩが求められる。なお、あるM個の音声認識器が選抜される音声データが1つのみの場合、すなわち、その音声データのほかにM個の集合要素が一致する音声データが存在しない場合は、その単体の音声データの誤り率を最小とする認識器重み値を求める。
以上説明したように、本実施形態の認識器重み学習装置100は、学習対象の認識器重み値に対応するM個の音声認識器の誤り率が最小となるように、その認識器重み値を決定する。これにより、認識誤りを多く含む音声認識器ほど重み値を小さくし、正解を多く含む音声認識器ほど重み値を大きく設定することができる。
次に、本実施形態の音声認識装置110について説明する。音声認識装置110は、図1に示すように、音声入力手段111と、音声認識器選抜手段112と、音声認識手段113と、認識結果統合手段114と、認識結果選択手段115と、認識結果出力手段116とを備える。これらの構成要素はすべてコンピュータプログラムにより実現される。
また、音声認識装置110の音声入力手段111、音声認識器選抜手段112、音声認識手段113、認識結果統合手段114は、音声認識処理の対象として入力された音声データXに対し、認識器重み学習装置100にて対応する構成要素と同様な機能を果たす。
図5に示すフローチャートを参照して、音声認識装置110の動作について説明する。音声入力手段111からの認識対象の音声データXが入力されると、音声認識器選抜手段112が、音声データXの「話速」等の特性に対応するM個の音声認識器を音声認識器記憶部102から選抜し(ステップS11)、音声認識手段113がそれらM個の音声認識器の認識結果を出力する(ステップS12)。そして、認識結果統合手段114が、M個の認識結果を統合して単語列ネットワークを生成する(ステップS13)。ここまでの手順は、図2に沿って説明した認識器重み学習装置100の動作(ステップS1〜S3)と同様であり、詳細な説明は省略する。
続いて、認識結果選択手段115が、生成された単語列ネットワークから、認識対象の音声データXに対する最適な認識結果となる単語列を選択する(ステップS14)。認識結果出力手段116は、選択された単語列を音声データXの認識結果として出力する(ステップS15)。
ここで、図6に示すフローチャートを参照して、認識結果選択手段115の処理について詳細に説明する。認識結果選択手段115は、認識対象の音声データXに関し選抜されたM個の音声認識器の組み合わせに対応する認識器重み値を認識器重み記憶部107から読み出す(ステップS14-1)。
認識器重み記憶部107から認識器重み値を読み出す処理に関し、図3の一覧を用いて具体的な例を挙げる。音声認識器選抜手段112において、音声データXの認識処理に適した音声認識器として「話速:速い」、「年齢:若中年」、「SNR:大」が選抜されたとする。この場合、認識結果選択手段115は、上記の選抜された音声認識器の集合である{“速い”,“若中年”,“大”}について学習された認識器重み値を、認識器重み記憶部107から読み出す。
上記の要領にて認識器重み記憶部107から読み出した認識器重み値を次の[数10]により表す。
Figure 0005177561
認識結果選択手段115は、読み出した認識器重み値を前述の[数4]又は[数5]に適用することにより、単語列ネットワークの各単語wに関する重み付きの出現スコアを算出する(ステップS14-2)。さらに、次の[数11]の式を用いた重み付き多数決により、出現スコアが最大値をとる単語wiをアーク集合ごとに選択する(ステップS14-3)。そして、各アーク集合から選択した単語wiにより構成される単語列を、音声データXの最適な認識結果として決定する(ステップS14-4)。
Figure 0005177561
以上のようにして、音声認識装置110は、認識対象の音声データXに使用した音声認識器の組み合わせに対応する認識器重み値を認識器重み記憶部107から取得し、その認識器重み値を加味した多数決により、単語列ネットワークから最適な認識結果を導出する。このとき用いる認識器重み値は、前述したように、認識器重み学習装置100が、認識誤りを多く含む音声認識器の重みほど小さな値に設定し、また、正解を多く含む音声認識器の重みほど大きな値に設定するよう予め学習しておいたものである。
従って、本実施形態のシステム1000によれば、音声認識処理を行う際に、複数の音声認識器で共通の認識誤りを起こす、あるいは、認識誤りを多発させる音声認識器が多く存在するという状況であっても、適正な認識結果を得ることが出来る。また、音声認識装置110は、音声データXの認識処理に使用する音声認識器を、その音声データXの特性に基づき選抜することから、より適正な音声認識器により、効率よく処理を行うことができる。
上記実施形態では、音声認識器の分類として、各々が3つのクラスを持つ3つのカテゴリ(図3)を設定したが、本発明を実施するにあたり、音声認識器の分類は図示のものに限定されない。音声認識の用途に応じて、カテゴリ及びクラスの数量、並びに、それらの内容を適宜変更することができる。
また、音声認識器選抜手段(103,112)に関し、上記実施形態では全てのカテゴリを選抜の対象としたが、例えば3つのカテゴリのうちの2つを用いる等、部分的なカテゴリを選抜の対象としてもよい。この場合、学習の状況に応じて、選抜対象のカテゴリを変更するようにしてもよい。また、例えば「話速」のような特性の推定値が、推定の閾値と僅差の場合に、その閾値を境とした2つのクラスを選抜する、すなわち1つのカテゴリから2つのクラスを選抜してもよい。
本発明は、複数の音声認識器により得られる認識結果の単語列から最適な単語列を選択することにより認識精度の向上を図る種々の音声認識技術に適用することができる。また、本発明は、コンピュータプログラム、あるいは、それを記憶した記録媒体として実施してもよい。

Claims (17)

  1. 認識すべき音声の特性が異なる複数の音声認識器を保持する記憶装置に接続された認識器重み学習装置であって、
    学習用音声の特性に対応する音声認識器を前記記憶装置から選抜する選抜手段と、選抜した音声認識器の集合により前記学習用音声の認識結果を求める認識手段と、前記音声認識器の集合による認識結果を統合して単語列ネットワークを生成する統合手段と、前記音声認識器の集合に関する重み値を学習処理により求める学習手段とを備え、
    前記学習手段は、前記単語列ネットワークの各アーク集合から重み値候補を加味した多数決により単語を選定し、選定した単語から成る単語列の認識誤り率が最小となる重み値候補を学習結果として出力することを特徴とする認識器重み学習装置。
  2. 音声の特性に関する複数のカテゴリに分類された複数の音声認識器が前記記憶装置に保持される場合、前記選抜手段は、学習用音声に対し複数のカテゴリの音声認識器を選抜することを特徴とする請求項1記載の認識器重み学習装置。
  3. 前記学習手段は、前記記憶装置から選抜された音声認識器の集合が共通する複数の学習用音声が存在するとき、学習結果として、前記複数の学習用音声の認識誤り率の和が最小となる重み値候補を求めることを特徴とする請求項1又は2記載の認識器重み学習装置。
  4. 前記認識手段は、前記記憶装置から選抜された音声認識器により認識結果の信頼度を求め、
    前記学習手段は、前記単語列ネットワークの各アーク集合から単語を選定するとき、前記多数決においてさらに当該信頼度を加味することを特徴とする請求項1乃至3のいずれか1項に記載の認識器重み学習装置。
  5. コンピュータを請求項1乃至4のいずれか1項に記載の認識器重み学習装置として機能させることを特徴とするプログラム。
  6. 請求項1乃至4のいずれか1項に記載の認識器重み学習装置が用いる音声認識器と該認識器重み学習装置が出力した重み値を記憶する記憶装置とに接続された音声認識装置であって、
    入力音声の特性に対応する音声認識器を前記記憶装置から選抜する選抜手段と、選抜した音声認識器の集合により前記入力音声の認識結果を求める認識手段と、前記音声認識器の集合による認識結果を統合して単語列ネットワークを生成する統合手段と、前記単語列ネットワークから最適認識結果の単語列を選択して出力する結果選択手段とを備え、
    前記結果選択手段は、前記音声認識器の集合に対応する重み値を前記記憶装置から取得し、前記単語列ネットワークの各アーク集合から当該重み値を加味した多数決により単語を選定し、選定した単語から成る単語列を前記最適認識結果として出力することを特徴とする音声認識装置。
  7. 音声の特性に関する複数のカテゴリに分類された複数の音声認識器が前記記憶装置に保持される場合、前記選抜手段は、入力音声に対し複数のカテゴリの音声認識器を選抜することを特徴とする請求項6記載の音声認識装置。
  8. 前記認識手段は、前記記憶装置から選抜された音声認識器により認識結果の信頼度を求め、
    前記結果選択手段は、前記単語列ネットワークの各アーク集合から単語を選定するとき、前記多数決においてさらに当該信頼度を加味することを特徴とする請求項6又は7記載の音声認識装置。
  9. コンピュータを請求項6乃至8のいずれか1項に記載の音声認識装置として機能させることを特徴とするプログラム。
  10. 請求項1乃至4のいずれか1項に記載の認識器重み学習装置と、前記認識器重み学習装置が用いる音声認識器および該認識器重み学習装置が出力した重み値を記憶する記憶装置と、請求項6乃至8のいずれか1項に記載の音声認識装置とを備えることを特徴とするシステム。
  11. 認識すべき音声の特性が異なる複数の音声認識器を保持する記憶装置に接続された認識器重み学習装置が、
    学習用音声の特性に対応する音声認識器を前記記憶装置から選抜するステップと、選抜した音声認識器の集合により前記学習用音声の認識結果を求めるステップと、前記音声認識器の集合による認識結果を統合して単語列ネットワークを生成するステップと、前記音声認識器の集合に関する重み値を学習処理により求めるステップとを実行し、
    重み値を求める前記ステップにおいて、前記単語列ネットワークの各アーク集合から重み値候補を加味した多数決により単語を選定し、選定した単語から成る単語列の認識誤り率が最小となる重み値候補を学習結果として出力することを特徴とする認識器重み学習方法。
  12. 音声の特性に関する複数のカテゴリに分類された複数の音声認識器が前記記憶装置に保持される場合、前記認識器重み学習装置が、学習用音声に対し複数のカテゴリの音声認識器を選抜することを特徴とする請求項11記載の認識器重み学習方法。
  13. 前記認識器重み学習装置が、重み値を求める前記ステップにおいて、
    前記記憶装置から選抜された音声認識器の集合が共通する複数の学習用音声が存在するとき、学習結果として、前記複数の学習用音声の認識誤り率の和を最小とする重み値候補を求めることを特徴とする請求項11又は12記載の認識器重み学習方法。
  14. 前記認識器重み学習装置が、
    学習用音声の認識結果を求める前記ステップにおいて、前記記憶装置から選抜された音声認識器により認識結果の信頼度を求め、
    重み値を求める前記ステップにおいて、前記単語列ネットワークの各アーク集合から単語を選定するとき、前記多数決においてさらに当該信頼度を加味することを特徴とする請求項11乃至13のいずれか1項に記載の認識器重み学習方法。
  15. 請求項11乃至14のいずれか1項に記載の認識器重み学習方法にて用いる音声認識器および該認識器重み学習方法により出力した重み値を記憶する記憶装置に接続された音声認識装置が、
    入力音声の特性に対応する音声認識器を前記記憶装置から選抜するステップと、選抜した音声認識器の集合により前記入力音声の認識結果を求めるステップと、前記音声認識器の集合による認識結果を統合して単語列ネットワークを生成するステップと、前記単語列ネットワークから最適認識結果の単語列を選択して出力するステップとを実行し、
    最適認識結果の単語列を選択する前記ステップにおいて、前記音声認識器の集合に対応する重み値を前記記憶装置から取得し、前記単語列ネットワークの各アーク集合から当該重み値を加味した多数決により単語を選定し、選定した単語から成る単語列を前記最適認識結果として出力することを特徴とする音声認識方法。
  16. 音声の特性に関する複数のカテゴリに分類された複数の音声認識器が前記記憶装置に保持される場合、前記音声認識装置が、入力音声に対し複数のカテゴリの音声認識器を選抜することを特徴とする請求項15記載の音声認識方法。
  17. 前記音声認識装置が、
    入力音声の認識結果を求める前記ステップにおいて、前記記憶装置から選抜された音声認識器により認識結果の信頼度を求め、
    最適認識結果の単語列を選択する前記ステップにおいて、前記単語列ネットワークの各アーク集合から単語を選定するとき、前記多数決においてさらに当該信頼度を加味することを特徴とする請求項15又は16記載の音声認識方法。
JP2008557047A 2007-02-06 2008-01-18 認識器重み学習装置および音声認識装置、ならびに、システム Active JP5177561B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008557047A JP5177561B2 (ja) 2007-02-06 2008-01-18 認識器重み学習装置および音声認識装置、ならびに、システム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007026786 2007-02-06
JP2007026786 2007-02-06
JP2008557047A JP5177561B2 (ja) 2007-02-06 2008-01-18 認識器重み学習装置および音声認識装置、ならびに、システム
PCT/JP2008/050586 WO2008096582A1 (ja) 2007-02-06 2008-01-18 認識器重み学習装置および音声認識装置、ならびに、システム

Publications (2)

Publication Number Publication Date
JPWO2008096582A1 JPWO2008096582A1 (ja) 2010-05-20
JP5177561B2 true JP5177561B2 (ja) 2013-04-03

Family

ID=39681493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008557047A Active JP5177561B2 (ja) 2007-02-06 2008-01-18 認識器重み学習装置および音声認識装置、ならびに、システム

Country Status (3)

Country Link
US (1) US8428950B2 (ja)
JP (1) JP5177561B2 (ja)
WO (1) WO2008096582A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4890518B2 (ja) * 2008-08-29 2012-03-07 ヤフー株式会社 複数言語モデルによる統合音声認識装置
US8346549B2 (en) * 2009-12-04 2013-01-01 At&T Intellectual Property I, L.P. System and method for supplemental speech recognition by identified idle resources
JPWO2011121978A1 (ja) * 2010-03-29 2013-07-04 日本電気株式会社 音声認識システム、装置、方法、およびプログラム
US8812321B2 (en) * 2010-09-30 2014-08-19 At&T Intellectual Property I, L.P. System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning
JP5861649B2 (ja) * 2011-02-03 2016-02-16 日本電気株式会社 モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
US9530103B2 (en) * 2013-04-04 2016-12-27 Cypress Semiconductor Corporation Combining of results from multiple decoders
US9653071B2 (en) 2014-02-08 2017-05-16 Honda Motor Co., Ltd. Method and system for the correction-centric detection of critical speech recognition errors in spoken short messages
US10079020B2 (en) * 2015-11-19 2018-09-18 Panasonic Corporation Speech recognition method and speech recognition apparatus to improve performance or response of speech recognition
WO2018134916A1 (ja) * 2017-01-18 2018-07-26 三菱電機株式会社 音声認識装置
JP6543755B1 (ja) * 2018-04-13 2019-07-10 株式会社Tbsテレビ 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム
US11605378B2 (en) * 2019-07-01 2023-03-14 Lg Electronics Inc. Intelligent gateway device and system including the same
CN111354344B (zh) * 2020-03-09 2023-08-22 第四范式(北京)技术有限公司 语音识别模型的训练方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0667698A (ja) * 1992-06-19 1994-03-11 Seiko Epson Corp 音声認識装置
JPH06110500A (ja) * 1992-09-25 1994-04-22 Nippon Telegr & Teleph Corp <Ntt> 音声記号化装置
JPH06309464A (ja) * 1993-04-20 1994-11-04 Fujitsu Ltd 多判定器によるパターン認識装置
JPH08286695A (ja) * 1995-01-25 1996-11-01 Omron Corp 音声認識装置および音声認識方法
JP2001051969A (ja) * 1999-08-13 2001-02-23 Kdd Corp 正誤答判定機能を有するニューラルネットワーク手段
JP2005309920A (ja) * 2004-04-23 2005-11-04 Alliance Group Inc 多数決装置及びその学習方法と多クラス識別装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60100197A (ja) 1983-11-07 1985-06-04 日本電気株式会社 音声入力装置
JPS6368899A (ja) 1986-09-10 1988-03-28 株式会社日立製作所 音声認識装置
US5794190A (en) * 1990-04-26 1998-08-11 British Telecommunications Public Limited Company Speech pattern recognition using pattern recognizers and classifiers
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
JPH08202388A (ja) 1995-01-24 1996-08-09 Omron Corp 音声認識装置及び音声認識方法
US5687287A (en) * 1995-05-22 1997-11-11 Lucent Technologies Inc. Speaker verification method and apparatus using mixture decomposition discrimination
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
JP3606982B2 (ja) * 1996-01-08 2005-01-05 株式会社リコー パターン認識装置
US6397179B2 (en) * 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition
JP4538954B2 (ja) * 1999-02-19 2010-09-08 ソニー株式会社 音声翻訳装置、音声翻訳方法及び音声翻訳制御プログラムを記録した記録媒体
US6493667B1 (en) * 1999-08-05 2002-12-10 International Business Machines Corporation Enhanced likelihood computation using regression in a speech recognition system
US7054810B2 (en) * 2000-10-06 2006-05-30 International Business Machines Corporation Feature vector-based apparatus and method for robust pattern recognition
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US20050021337A1 (en) * 2003-07-23 2005-01-27 Tae-Hee Kwon HMM modification method
US20060069560A1 (en) * 2004-08-31 2006-03-30 Christopher Passaretti Method and apparatus for controlling recognition results for speech recognition applications
US7624006B2 (en) * 2004-09-15 2009-11-24 Microsoft Corporation Conditional maximum likelihood estimation of naïve bayes probability models
US7684988B2 (en) * 2004-10-15 2010-03-23 Microsoft Corporation Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
US8296144B2 (en) * 2008-06-04 2012-10-23 Robert Bosch Gmbh System and method for automated testing of complicated dialog systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0667698A (ja) * 1992-06-19 1994-03-11 Seiko Epson Corp 音声認識装置
JPH06110500A (ja) * 1992-09-25 1994-04-22 Nippon Telegr & Teleph Corp <Ntt> 音声記号化装置
JPH06309464A (ja) * 1993-04-20 1994-11-04 Fujitsu Ltd 多判定器によるパターン認識装置
JPH08286695A (ja) * 1995-01-25 1996-11-01 Omron Corp 音声認識装置および音声認識方法
JP2001051969A (ja) * 1999-08-13 2001-02-23 Kdd Corp 正誤答判定機能を有するニューラルネットワーク手段
JP2005309920A (ja) * 2004-04-23 2005-11-04 Alliance Group Inc 多数決装置及びその学習方法と多クラス識別装置

Also Published As

Publication number Publication date
US20100318358A1 (en) 2010-12-16
WO2008096582A1 (ja) 2008-08-14
US8428950B2 (en) 2013-04-23
JPWO2008096582A1 (ja) 2010-05-20

Similar Documents

Publication Publication Date Title
JP5177561B2 (ja) 認識器重み学習装置および音声認識装置、ならびに、システム
CN106683677B (zh) 语音识别方法及装置
US9911413B1 (en) Neural latent variable model for spoken language understanding
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
JP4274962B2 (ja) 音声認識システム
JP5066483B2 (ja) 言語理解装置
US7664643B2 (en) System and method for speech separation and multi-talker speech recognition
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
KR101807948B1 (ko) 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법
JP5294086B2 (ja) 重み係数学習システム及び音声認識システム
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
JPH07287592A (ja) オーディオデータセグメントのクラスタリング方法
JP2010170075A (ja) 情報処理装置、プログラム、および音響モデルを生成する方法
WO2002101719A1 (en) Voice recognition apparatus and voice recognition method
CN111640456B (zh) 叠音检测方法、装置和设备
JP4340685B2 (ja) 音声認識装置及び音声認識方法
US20090055177A1 (en) Apparatus and method for generating noise adaptive acoustic model for environment migration including noise adaptive discriminative adaptation method
Van Dalen et al. Improving multiple-crowd-sourced transcriptions using a speech recogniser
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
Barnard et al. Real-world speech recognition with neural networks
Herbig et al. Evaluation of two approaches for speaker specific speech recognition
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
Nahar et al. Effect of data augmentation on dnn-based vad for automatic speech recognition in noisy environment
JPH08241096A (ja) 音声認識方法
JPH10254477A (ja) 音素境界検出装置及び音声認識装置

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101020

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101020

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121226

R150 Certificate of patent or registration of utility model

Ref document number: 5177561

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150