JP2015141253A

JP2015141253A - 音声認識装置、及びプログラム

Info

Publication number: JP2015141253A
Application number: JP2014012766A
Authority: JP
Inventors: 彰夫小林; Akio Kobayashi
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2014-01-27
Filing date: 2014-01-27
Publication date: 2015-08-03
Anticipated expiration: 2034-01-27
Also published as: JP6366166B2

Abstract

【課題】学習データの語彙と音声認識させたい語彙とが異なる場合でも、音声認識対象に適合した誤り修正モデルを学習する。
【解決手段】音声認識装置１は、単語及びクラスに基づく統計的言語モデルを学習データから学習し、クラスに属する単語のリストを音声認識対象に応じて書き換える。音声認識装置１は、統計的音響モデルと、書き換え後の統計的言語モデルと、単語及びクラスに基づく言語的な特徴により音声認識における単語の誤り傾向を修正するための誤り修正モデルとを用いて音声データを音声認識する。音声認識装置１は、音声認識結果をユーザー入力により修正して得た正解単語列に含まれる各単語を整列させる。音声認識装置１は、音声データの入力の度に、音声認識結果と整列させた正解単語列とのそれぞれに含まれる単語及びクラスに基づく言語的な特徴から単語誤りの傾向を学習し、学習した単語誤りの傾向に応じて誤り修正モデルを逐次更新する。
【選択図】図２

Description

本発明は、音声認識装置、及びプログラムに関する。

音声認識の誤り修正については、音声とその書き起こし（正解文）から、言語的な特徴を用いて音声認識の誤り傾向を統計的に学習し、学習の結果得られた統計的な誤り修正モデルを用いて音声認識の性能改善を図る技術がある（例えば、非特許文献１参照）。

小林ほか，「単語誤り最小化に基づく識別的スコアリングによるニュース音声認識」，電子情報通信学会論文誌Ｄ，電子情報通信学会，２０１０年，vol.J93-D no.5，ｐ．５９８−６０９

従来法では、誤り修正モデルの学習に、大量の音声データとその音声認識結果、及び対応する正解単語列を学習データとして用いる。誤り修正モデルは、このような学習データから静的に推定されることが多い。しかし、実際の音声認識では、タスクに合致した誤り修正モデルの学習データを用意することは困難である。つまり、学習データの語彙と音声認識対象の音声（発話内容）の語彙とが完全に一致することは少ない。このような学習データから推定された誤り修正モデルを用いて音声認識結果の誤りを修正しても、認識性能は改善しない。例えば、スポーツ中継の音声認識では、誤り修正モデルを推定するための学習データは用意できるものの、学習データ中にスポーツ中継の対象となる試合に出場する選手の名前やチーム名といった固有名詞が含まれていなければ、これらの認識誤りの傾向を学習することはできない。このように、認識させたい語が学習データに含まれていなければ、そのような語を含む単語列についての誤り傾向を学習できないため、音声認識対象に適合した誤り修正モデルを学習することができなかった。

本発明は、このような事情を考慮してなされたもので、学習データの語彙と音声認識させたい語彙とが異なる場合でも、音声認識対象に適合した誤り修正モデルを学習することができる音声認識装置、及びプログラムを提供する。

本発明の一態様は、統計的音響モデルを記憶する音響モデル記憶部と、統計的言語モデルを記憶する言語モデル記憶部と、単語及び単語が属するクラスに基づく言語的な特徴により音声認識における単語の誤り傾向を修正するための誤り修正モデルを記憶する誤り修正モデル記憶部と、音声データと正解単語列とを含む学習データから単語及び単語のクラスに基づく統計的言語モデルを学習し、学習した前記統計的言語モデルに含まれるクラスに属する単語のリストを音声認識対象に応じて書き換えて前記言語モデル記憶部に書き込むクラスモデル作成部と、入力された音声データを、前記音響モデル記憶部が記憶している前記統計的音響モデル、前記言語モデル記憶部が記憶している前記統計的言語モデル、及び前記誤り修正モデル記憶部が記憶している前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた単語列である音声認識結果を出力する音声認識部と、前記音声認識部から出力された前記音声認識結果をユーザーの入力に従って修正し、正解単語列を生成する誤り修正部と、前記誤り修正部が生成した前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列する整列部と、前記音声データが入力されるたびに、前記音声認識部により前記音声データから得られた前記音声認識結果と前記整列部が整列させた前記正解単語列とのそれぞれに含まれる単語及び単語が属するクラスに基づく言語的な特徴から単語誤りの傾向を学習し、学習した単語誤りの傾向に応じて前記誤り修正モデル記憶部に記憶されている前記誤り修正モデルを逐次更新する誤り修正モデル学習部と、を備えることを特徴とする音声認識装置である。
この発明によれば、音声認識装置は、音声データと正解単語列とを含む学習データから単語及び単語のクラスに基づく統計的言語モデルを学習する。音声認識装置は、学習した統計的言語モデルに含まれるクラスに属する単語のリストを、音声認識対象に応じた単語のリストに書き換える。音声認識装置は、入力された音声データを、統計的音響モデルと、統計的言語モデルと、単語及びクラスに基づく言語的な特徴により音声認識における単語の誤り傾向を修正するための誤り修正モデルとを用いて音声認識する。音声認識装置は、キーボード等を用いたユーザーの入力に従って音声認識結果を修正して正解単語列を得ると、正解単語列に含まれる各単語を音声データに基づいて時刻順に整列する。音声認識装置は、音声データが入力されるたびに逐次、音声認識結果と整列させた正解単語列とのそれぞれに含まれる単語及び単語が属するクラスに基づく言語的な特徴から単語誤りの傾向を学習し、学習した単語誤りの傾向に応じて現在の誤り修正モデルを更新する。
これにより、音声認識装置は、統計的言語モデルの学習に用いた学習データの語彙と音声認識させたい語彙とが異なる場合でも、音声認識対象に適合した誤り修正モデルを逐次学習し、音声認識に適用することができる。

本発明の一態様は、上述する音声認識装置であって、前記言語的な特徴は、単語が属する前記クラスと当該単語に隣接する単語列との共起、あるいは、前記クラスに属する所定の単語の出現数である、ことを特徴とする。
この発明によれば、音声認識装置は、音声認識結果とその音声認識結果に対応する整列させた正解単語列とのそれぞれにおける、単語のクラスとその単語に隣接する単語列との共起、あるいは、クラスに属する所定の単語の出現数を用いて単語の誤り傾向を学習する。音声認識装置は、学習した単語の誤り傾向に応じて現在の誤り修正モデルを更新する。
これにより、音声認識装置は、音声認識結果と整列させた正解単語列とのそれぞれについて、単語が属するクラスと当該単語に隣接する単語列との共起や、クラスに属する所定の単語の出現数を計数することによって、音声認識における単語の誤り傾向を効率的に学習し、学習結果から誤り修正モデルを更新することができる。

本発明の一態様は、上述する音声認識装置であって、前記誤り修正モデルは、前記統計的音響モデルに基づいて得られる前記音声認識結果の音響スコアと、前記統計的言語モデルに基づいて得られる前記音声認識結果の言語スコアとにより算出される前記音声認識結果の音声認識のスコアを、重み付けされた前記言語的な特徴により修正する式である、ことを特徴とする。
この発明によれば、誤り修正モデルは、音声認識結果の音響スコア及び言語スコアにより算出される音声認識のスコアを、重み付けされた言語的な特徴により修正する式であり、音声認識装置は、音声認識結果と整列させた正解単語列とに含まれる言語的な特徴から単語誤りの傾向を学習し、誤り修正モデルに用いる言語的な特徴とその重みとを学習する。
これにより、音声認識装置は、音声認識の認識誤り傾向を効率的に学習し、誤り修正モデルにおける言語的な特徴の重みを更新することができる。

本発明の一態様は、上述する音声認識装置であって、前記誤り修正モデル学習部は、前記正解単語列との比較により得られる前記音声認識結果の単語誤り数と、前記誤り修正モデルにより修正された前記音声認識結果及び前記正解単語列の音声認識のスコアから得られる前記音声認識結果の事後確率とを用いて定められる評価関数により算出される評価値に基づいて、前記正解単語列の事後確率が最大、あるいは、前記音声認識結果の認識誤りが最小となるように前記言語的な特徴の重みを統計的に算出する、ことを特徴とする。
この発明によれば、音声認識装置は、音声認識結果に含まれる単語誤り数と、誤り修正モデルにより修正された音声認識結果及び正解単語列の音声認識のスコアから得られる音声認識結果の事後確率とを用いて定められる評価関数により算出した評価値が、正解単語列の事後確率が最大であることを示す評価値、あるいは、音声認識結果の期待される認識誤りが最小であることを示す評価値となるように言語的な特徴の重みを決定し、誤り修正モデルを更新する。
これにより、音声認識装置は、言語的な特徴の重みを効率的に学習し、誤り修正モデルを更新することができる。

本発明の一態様は、コンピュータを、統計的音響モデルを記憶する音響モデル記憶手段と、統計的言語モデルを記憶する言語モデル記憶手段と、単語及び単語が属するクラスに基づく言語的な特徴により音声認識における単語の誤り傾向を修正するための誤り修正モデルを記憶する誤り修正モデル記憶手段と、音声データと正解単語列とを含む学習データから単語及び単語のクラスに基づく統計的言語モデルを学習し、学習した前記統計的言語モデルに含まれるクラスに属する単語のリストを音声認識対象に応じて書き換えて前記言語モデル記憶手段に書き込むクラスモデル作成手段と、入力された音声データを、前記音響モデル記憶手段が記憶している前記統計的音響モデル、前記言語モデル記憶手段が記憶している前記統計的言語モデル、及び前記誤り修正モデル記憶手段が記憶している前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた単語列である音声認識結果を出力する音声認識手段と、前記音声認識手段から出力された前記音声認識結果をユーザーの入力に従って修正し、正解単語列を生成する誤り修正手段と、前記誤り修正手段が生成した前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列する整列手段と、前記音声データが入力されるたびに、前記音声認識手段により前記音声データから得られた前記音声認識結果と前記整列手段が整列させた前記正解単語列とのそれぞれに含まれる単語及び単語が属するクラスに基づく言語的な特徴から単語誤りの傾向を学習し、学習した単語誤りの傾向に応じて前記誤り修正モデル記憶手段に記憶されている前記誤り修正モデルを逐次更新する誤り修正モデル学習手段と、を具備する音声認識装置として機能させるためのプログラムである。

本発明によれば、学習データの語彙と音声認識させたい語彙とが異なる場合でも、音声認識対象に適合した誤り修正モデルを学習することができる。

本発明の一実施形態における誤り修正モデルの学習方法と、従来の誤り修正モデルの学習方法との比較を示す図である。同実施形態における音声認識装置の構成を示す機能ブロック図である。同実施形態による音声認識装置の全体処理フローを示す図である。同実施形態による誤り修正モデル学習部の誤り修正モデル学習処理フローを示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。

［１．本実施形態の概要］
音声認識では、学習データの語彙と音声認識の対象の音声（発話内容）の語彙とが完全に一致することは少ない。例えば、スポーツ中継の音声を音声認識対象とする場合、学習データ中に含まれる選手の名前の中に、スポーツ中継の対象となる試合に出場する選手の名前が含まれていないことがある。

統計的言語モデルにおいて、上記のような学習データと対象音声との間のミスマッチを解消する際には一般に、単語及び単語のクラスを利用したクラス言語モデルが使われる。スポーツ中継の例にならえば、仮に学習データ中に音声認識対象となる選手名が出現していなかったとしても、選手名が属するクラスに適当な確率を与えた上で当該選手名を語彙に登録しておけば、選手名をクラスに置き代えることによって単語の出現確率を定めることが可能である。しかし、選手名の出現確率を適切に推定できなければ、出場する選手の数が多数の場合には、選手名の単語どうしで競合が起こり、正しい認識結果が得られないかもしれない。例えば、同音の姓でありながら異なる表記を持つような選手名を考えてみれば容易に想像がつくことである。

字幕制作を目的とした音声認識アプリケーションでは、リアルタイムに音声認識結果を出力したのち、人手により誤りを修正する。クラス言語モデルでは、クラスに属する各単語の出現確率を必要とするが、人手による修正を経た認識結果を正解とみなせば、この出現確率を逐次的かつ認識誤りが最小となるように学習し、適応化することが可能となる。このような誤り修正モデルが実現できれば、従来の誤り修正モデルよりも音声認識性能の向上が見込まれるため、前述の字幕制作をはじめとする産業上の応用が大いに期待できる。
そこで、本発明の一実施形態の音声認識装置は、事前に定義した単語クラスとクラス言語モデルを用いて、対象となる放送番組を音声認識しながら逐次的に誤り修正モデルを学習し、音声認識に適用する。

［２．誤り修正モデルの学習アルゴリズム］
続いて、本実施形態の音声認識装置に適用される誤り修正モデルの学習アルゴリズムを説明する。
本実施形態の音声認識装置は、音声認識において、少量の学習データもしくは断片的な情報しか得られない場合でも、単語の属性に応じたクラスに基づく誤り修正モデルを逐次的かつ統計的に頑健に学習し、音声認識に適用する。

音声認識では、統計的言語モデルを用いて単語の予測を行う。しかし、先述のスポーツ中継の例に見られるように、言語モデルの学習データの中に認識させたい単語が含まれていないことがある。このような場合には、統計的言語モデルとして、単語に基づく言語モデルのかわりに単語と単語のクラスに基づくクラス言語モデルが使われることが多い。認識させたい語が学習データに含まれていない場合、その語が含まれるクラスからの出現確率をヒューリスティックに定めることにより、単語の予測が可能となる。例えば、スポーツ中継などでは、出場選手の名前などの断片的な情報しか入手できないことも多い。これは特定の選手が具体的にどのようなプレーを行うのか、選手名を含むテキストもしくは単語列としての情報が得られないため、前後の単語列から選手名の予測を行うことが困難であることを示す。一方、どのようなプレーが行われるか（「ゴールした」「オフサイド」など）は、個々の出場選手にはほとんど依存しないため、過去に行われた試合の放送字幕等から推定できる。

学習データからは、過去のプレーに関するテキスト（単語列）は得られるものの、各選手に関する具体的なテキスト（選手名を含む文脈）は得られない。このようなケースでは、選手名のクラスを用意した上で、認識させたい（出場予定の）選手名をクラスから出現する確率があるものとして予め適当に設定することで、選手名の単語予測を行う。
文献「北研二，”確率的言語モデル”，東京大学出版会，１９９９年，ｐ．７２−７４」によれば、単語の属性に応じたクラスが与えられたときのｎ−ｇｒａｍ言語モデル（クラス言語モデル）は一般に、以下の式（１）により表される。

式（１）において、ｗは予測単語、ｈは予測単語ｗの直前の単語列、ｃは予測単語ｗが所属するクラスである。また、Ｐ（ｗ｜ｈ）は、直前の単語列ｈが与えられたときに単語ｗが出現する事後確率、ｐ（ｗ｜ｃ）は、予測単語ｗがクラスｃから生起する確率（クラスからの出現確率）、ｐ（ｃ｜ｈ）は、直前の単語列ｈが与えられたときにクラスｃが出現する事後確率である。ただし、式（１）では、単語が属するクラスは高々１つと仮定している。

一方、誤り修正モデルを推定するための従来の方法では、音声認識の誤り傾向を学習するために音声認識結果および正解単語列を学習データとして用いる。したがって、音声認識結果もしくは正解単語列中に認識させたい選手名が出現しなければ、選手名に関する音声認識の誤り傾向は学習できない。この欠点を改善するために、本実施形態の音声認識装置は、単語及び単語のクラスに基づく統計的言語モデルを用いて、現在音声認識している放送音声およびその修正結果（正解単語列）から音声認識の誤り傾向を逐次的に学習し、発話内容に適応した誤り修正モデルを学習する。

ここで、従来の誤り修正モデルについて説明する。
ベイズの定理によれば、音声入力ｘが与えられたとき、この音声入力ｘに対して尤もらしい単語列ｗ＾（「＾」は、「ハット」を表す。）は、以下の式（２）により求めることができる。

音声入力ｘ及び単語列ｗは、例えば、発話の単位に対応し、Ｐ（ｗ｜ｘ）は、音声入力ｘが与えられたときに単語列（文仮説）ｗが得られる事後確率である。
Ｐ（ｘ｜ｗ）は、単語列ｗに対する音響的な尤もらしさを示す尤度であり、そのスコアは隠れマルコフモデル（Hidden Markov Model、ＨＭＭ）及びガウス混合分布（Gaussian Mixture Model、ＧＭＭ）に代表される統計的音響モデルに基づいて計算される。
Ｐ（ｗ）は、単語列ｗに対する言語的な尤もらしさであり、そのスコアは、単語またはクラスｎ−ｇｒａｍ言語モデル等の統計的言語モデルにより計算される。なお、単語またはクラスｎ−ｇｒａｍ言語モデルは、Ｎ項の単語またはＮ項の単語及びクラスの連鎖（Ｎは、例えば１、２、または３である。）の統計に基づいて、（Ｎ−１）項の単語または（Ｎ−１）項の単語及びクラスの履歴から次の単語またはクラスの生起確率を与えるモデルである。

以下の説明では、統計的音響モデルにＨＭＭ−ＧＭＭを用い、統計的言語モデルにクラスｎ−ｇｒａｍ言語モデルを用いる。

式（２）のＰ（ｘ｜ｗ）Ｐ（ｗ）が最大の場合は、その対数も最大である。そこで、音声認識では、上記の式（２）のベイズの定理に基づいて、音声入力ｘが与えられたときの文仮説（正解候補）である単語列ｗの評価関数ｓ（ｗ｜ｘ）を以下の式（３）のように定める。

式（３）において、ｆ_ａｍ（ｘ｜ｗ）は統計的音響モデルによる正解候補の単語列ｗの対数音響スコア、ｆ_ｌｍ（ｗ）は統計的言語モデルによる正解候補の単語列ｗの対数言語スコア、λ_ｌｍは音響スコアに対する言語スコアの重みである。

式（３）が定められたとき、以下の式（４）に示すように、音声入力ｘに対する正解候補の単語列ｗの集合Ｗの中から、式（３）が示す評価関数ｓ（ｗ｜ｘ）の結果が最大である最尤仮説の単語列ｗ＾が、音声入力ｘの音声認識結果として選択される。

従来法における誤り修正モデルでは、式（４）に代えて、以下の式（５）により最尤仮説の単語列ｗ＾を求める。

式（５）におけるΣ_ｉλ_ｉｆ_ｉ（ｗ）は、単語列ｗの誤り傾向を反映したスコアであり、単語列ｗに対するペナルティもしくは報償として働く。ｆ_ｉ（ｉ＝１，...，）はｉ番目の素性関数であり、λ_ｉは素性関数ｆ_ｉの重み（素性重み）である。素性関数は、与えられた単語列ｗで言語的ルールが成立すればその数となり、成立しなければ０となるような関数として定められる。
従来法における素性関数ｆ_ｉの言語的ルールである素性の例として、以下の（１ａ）、（１ｂ）に示すような、単語の共起関係に基づくものがある。

（１ａ）単語列ｗに含まれる単語２つ組（ｕ，ｖ）の数
（１ｂ）単語列ｗに含まれる連続しない単語２つ組（ｕ，ｖ）の数

上記のように、音声認識の誤り傾向は、素性関数とその重みにより言語的な特徴に対するペナルティとして表現され、学習データの単語誤りを最小化する評価関数に基づいて推定される。

前述のように、通常の単語ｎ−ｇｒａｍ言語モデルでは、学習データ中に認識させたい語が含まれない場合に確率の推定が困難となる。そこで、本実施形態の音声認識装置は、単語及びクラスに基づくｎ−ｇｒａｍ言語モデル（クラスｎ−ｇｒａｍ言語モデル）を統計的言語モデルとして用いる。クラスｎ−ｇｒａｍ言語モデルでは、クラスに属する単語については前記の式（１）を適用してＰ（ｗ｜ｈ）を得、クラスに属していない単語については、単語ｎ−ｇｒａｍ言語モデルと同様に予め与えられたＰ（ｗ｜ｈ）を適用する。

なお、単語ｗが属するクラスｃは任意に決めてよい。一般には、単語頻度に基づいて統計的手段によりクラスタリングを行って各単語が属するクラスを決定する。しかし、本実施形態では、音声認識の対象となる単語が学習データ中で観測されないことを前提とするため、ヒューリスティクスに基づいて単語を分類する。例えば、人手により選手名やチーム名といったクラスを定め、そのクラスに属する単語とそのクラスにおける各単語の出現確率とを列挙する。なお、本実施形態では、１つの単語は１つのクラスにのみ属するものと仮定する。

そこで、本実施形態では、従来法に基づく式（５）の誤り修正モデルを以下の式（６）のように変更する。

式（６）において、ｆ_ｉ、ｇ_ｊ、ｈ_ｋは素性関数であり、λ_ｉは素性関数ｆ_ｉの重み、μ_ｊは素性関数ｇ_ｊの重み、ν_ｋは素性関数ｈ_ｋの重みである。これらの重みλ_ｉ、μ_ｊ、ν_ｋは、誤り修正モデルのモデルパラメータ（素性重み）である。

式（６）の素性関数ｆ_ｉは、上述した（ａ１）、（ａ２）の例ように、与えられた単語列で言語的ルールが成立すればその数を、成立しなければ０となるような関数として定められる従来の素性関数である。

式（６）の素性関数ｇ_ｊは、クラスを用いることにより導入される素性関数であり、単語のクラスと当該単語に隣接する単語列との共起を素性とする。具体的には、素性関数ｇ_ｊは、以下の（２ａ）、（２ｂ）のようなルールを素性とする。

（２ａ）単語列ｗに含まれる連続する単語・クラスの２つ組（ｕ，ｏ（ｖ））の数
（２ｂ）単語列ｗに含まれる連続する単語・クラスの３つ組（ｕ，ｖ，ｏ（ｚ））の数

ここで、ｏ（・）は、ある単語をクラスに写す関数であり、ｕ、ｖ、ｚは連続する単語である。上記の素性は、直前の単語（品詞または意味カテゴリ）列とクラスとの共起関係を記述した素性関数といえる。なお、ここでの単語列は、１以上の単語からなる。

式（６）の素性関数ｈ_ｋは、以下の（３）のようなルールを素性とする新たに定める素性関数である。

（３）単語列ｗに含まれるクラスｃに属する単語ｕの数

図１は、本実施形態の誤り修正モデルの学習方法と、従来の誤り修正モデルの学習方法との比較を示す図である。従来法においては、単語ｎ−ｇｒａｍに基づく統計的言語モデルの利用を前提としており、そこで利用される素性関数は同図に例示する（鈴木，が，ゴール）のように、単語３つ組など単語列に依存した素性を定義する。

一方、本実施形態では、単語及びクラスに基づく統計的言語モデルの利用を前提としているため、単語の一部がクラスとして表現される。そこで、本実施形態では、クラスを含んだ単語列に基づく素性関数ｇ_ｊを用いる。同図の例では、単語「鈴木」がクラス＜選手＞に置換されており、例えば、単語とクラスの３つ組（＜選手＞，が，ゴール）を素性とする素性関数ｇ_ｊが用いられる。
また、音声認識することにより、これらのクラスは実現値として特定の単語のインスタンスを持つこととなるため、音声認識結果とその修正結果である正解単語列からは、従来の単語３つ組による素性関数ｆ_ｉを得ることができる。同図の例では、クラス＜選手＞のインスタンスは、音声認識結果においては単語「中村」であり、正解単語列では単語「中山」である。そのため、単語３つ組（中村，が，ゴール）、（中山，が，ゴール）を素性とする素性関数ｆ_ｉが用いられる。
さらに、クラスから特定の単語のインスタンスが生起する関係が、新たな素性関数ｈ_ｋとして定義される。例えば、クラス＜選手＞に属する単語「中村」が単語列に出現する数、クラス＜選手＞に属する単語「中山」が単語列に出現する数を素性とする素性関数ｈ_ｋが用いられる。
本実施形態の音声認識装置は、これらの素性関数ｆ_ｉ、ｇ_ｊ、ｈ_ｋを用いて誤り修正モデルを学習するが、この学習を、音声認識結果とその修正結果を用いて逐次的に行う。

音声認識結果をｗ^ｈｙｐ、音声認識結果の修正結果である正解単語列をｗ^ｒｅｆとする。音声認識では、ベイズの定理により事後確率が最大となる音声認識結果の単語列を正解として出力する。したがって、音声入力ｘが与えられたときの正解単語列ｗ^ｒｅｆの事後確率Ｐ（ｗ^ｒｅｆ｜ｘ）は、認識誤りを含む音声認識結果ｗ^ｈｙｐの事後確率Ｐ（ｗ^ｈｙｐ｜ｘ）よりも大きくなることが望ましい。しかし、音声認識のパフォーマンスは、単語認識率（もしくはこれと等価な単語誤り率）によって測られるため、誤り修正モデルでは、誤りが最小となるように正解単語列ｗ^ｒｅｆの事後確率を最大化することが必要となる。そこで、音声認識対象として音声入力ｘが与えられたとき、対応する正解単語列をｗ^ｒｅｆ、音声入力ｘの音声認識結果をｗ^ｈｙｐ∈Ｗとして、モデルパラメータの集合である素性重みΛ＝｛…，λ_ｉ，…，μ_ｊ，…，ν_ｋ，…｝を推定するための目的関数を以下の式（７）のように定める。

式（７）において、Ｒ（ｗ^ｒｅｆ，ｗ^ｈｙｐ）は、正解単語列ｗ^ｒｅｆと音声認識結果ｗ^ｈｙｐの編集距離を返す関数である。２つの単語列の編集距離は、動的計画法により効率的に求めることができる。編集距離は、正解単語列ｗ^ｒｅｆに対する音声認識結果ｗ^ｈｙｐの誤り単語数（置換、脱落、挿入の誤りの総和）を表しており、式（７）の目的関数Ｌ（Λ）は、音声認識結果における単語の期待誤り数を表している。音声認識結果における単語の期待誤り数が少ないほど、音声認識において認識誤りを生じることなく認識結果を生成できる。よって、目的関数Ｌ（Λ）を最小化するように素性重みΛの各モデルパラメータを推定すれば、音声認識の性能向上が期待できる。つまり、式（７）の目的関数は、正解単語列の事後確率が最大、かつ、音声認識結果の単語列に期待される認識誤りが最小となり、モデルパラメータΛが適切であるかの評価値を算出する評価関数として用いられる。

式（７）の目的関数Ｌ（Λ）を最小化するために勾配を計算すると以下の式（８）から式（１０）のようになる。

音声入力を…，ｘ^ｔ−１，ｘ^ｔ，…とすれば、（ｔ−１）番目の音声入力ｘ^ｔ−１を音声認識した後のパラメータ更新式は、確率的勾配降下法により以下の式（１１）から式（１３）となる。なお、λ_ｉ ^ｔ−１、μ_ｊ ^ｔ−１、ν_ｋ ^ｔ−１はそれぞれ、音声入力ｘ^ｔ−１の音声認識前に得られていたモデルパラメータλ_ｉ、μ_ｊ、ν_ｋである。また、λ_ｉ ^ｔ、μ_ｊ ^ｔ、ν_ｋ ^ｔはそれぞれ、音声入力ｘ^ｔ−１の音声認識後に得られる更新後のモデルパラメータλ_ｉ、μ_ｊ、ν_ｋである。κ_λ、κ_μ、κ_νは定数である。

誤り傾向の学習とは、音声データの音声認識結果とその正解単語列を学習データとして用い、式（６）の素性関数ｆ_ｉ、ｇ_ｊ、ｈ_ｋとそれらそれぞれのモデルパラメータλ_ｉ、μ_ｊ、ν_ｋの集合である素性重みΛを求めることである。

上述のように、本実施形態の音声認識装置は、従来の単語に基づく統計的言語モデルではなく、単語及びクラスに基づく統計的言語モデルを誤り修正モデルに用いる。そして、本実施形態の音声認識装置は、発話内容に適応させるために、音声認識結果を逐次取得して単語及びクラスに基づく誤り修正モデルのモデルパラメータを推定する。本実施形態の音声認識装置は、この逐次推定によって、発話内容に適合し、かつ認識させたい語の誤り傾向を反映した誤り修正モデルを得る。本実施形態の音声認識装置は、逐次推定された誤り修正モデルを用いて音声認識を行うことにより音声認識の誤り傾向を修正し、音声認識性能を改善することが可能となる。

［３．音声認識装置の構成］
図２は、本発明の一実施形態による音声認識装置１の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみ抽出して示してある。
音声認識装置１は、コンピュータ装置により実現される。同図に示すように、音声認識装置１は、音声言語資源記憶部１１、音響モデル記憶部１２、言語モデル記憶部１３、誤り修正モデル記憶部１４、クラスモデル作成部２１、音声認識部２２、誤り修正部２３、整列部２４、特徴量抽出部２５、及び誤り修正モデル学習部２６を備えて構成される。

音声言語資源記憶部１１は、学習データとして、音声データと、その音声データの書き起こし（正解単語列）のテキストデータとからなる音声言語資源を記憶する。本実施形態では、音声言語資源として、放送から収集された放送音声及び字幕データＤ１を用いる。音響モデル記憶部１２は、統計的音響モデルを格納する。言語モデル記憶部１３は、単語及び単語のクラスに基づく統計的言語モデルとして、クラス言語モデルを格納する。誤り修正モデル記憶部１４は、誤り修正モデルを格納する。

クラスモデル作成部２１は、音声言語資源記憶部１１に記憶されている音声データから統計的音響モデルを作成し、音響モデル記憶部１２に書き込む。さらにクラスモデル作成部２１は、音声言語資源記憶部１１に記憶されている音声言語資源のテキストデータからクラス言語モデルを作成する。クラスモデル作成部２１は、各クラスに属する単語とその単語のクラスへの所属確率とを示す単語・クラスリストデータＤ２の入力を受け、作成したクラス言語モデルに含まれるクラスに属する単語のリストを書き換える。クラスモデル作成部２１は、書き換え後のクラス言語モデルを言語モデル記憶部１３に書き込む。

音声認識部２２は、音響モデル記憶部１２に記憶されている統計的音響モデル、言語モデル記憶部１３に記憶されているクラス言語モデル、および誤り修正モデル記憶部１４に記憶されている誤り修正モデルを用いて、音声データＤ３を音声認識する。この音声認識により、正解候補の単語列が複数得られる。音声認識部２２は、正解候補の単語列である音声認識結果を複数設定した音声認識結果データＤ４を出力する。本実施形態では、放送字幕の制作を前提としているため、音声認識部２２は、この音声認識結果データＤ４を誤り修正部２３に出力する。誤り修正部２３は、音声認識結果データＤ４が示す音声認識結果に対してユーザーの入力に従って人手により修正を行い、正解単語列を得る。誤り修正部２３は、正解単語列を設定した正解単語列データＤ５を出力する。本実施形態では、正解単語列データＤ５は、放送局内で放送波に重畳され、放送字幕データＤ６として放送される。

整列部２４は、正解単語列データＤ５が示す正解単語列を音声入力に対して時刻順に整列する。整列部２４は、整列させた正解単語列を設定した整列済み正解単語列データＤ７を出力する。特徴量抽出部２５は、音声認識結果データＤ４が示す音声認識結果と、整列済み正解単語列データＤ７が示す整列済みの正解単語列から、誤り修正モデルに用いる素性関数を抽出する。特徴量抽出部２５は、抽出した素性関数を設定した素性関数データＤ８と、音声認識結果データＤ４及び整列済み正解単語列データＤ７とを出力する。

誤り修正モデル学習部２６は、音声認識結果データＤ４が示す音声認識結果、整列済み正解単語列データＤ７が示す整列済みの正解単語列、及び、素性関数データＤ８が示す素性関数を用いて、誤り修正モデルのモデルパラメータΛを学習する。誤り修正モデル学習部２６は、学習したモデルパラメータΛを用いた誤り修正モデルにより、誤り修正モデル記憶部１４に現在記憶されている誤り修正モデルを更新する。
以下に、本実施形態の、音声認識装置１の各部の処理について詳細を述べる。

［４．音声認識装置の処理手順］
図３は、音声認識装置１の処理手順を示す図である。同図に示す一連の処理は、音声認識装置１に、音声認識対象の放送番組の音声データＤ３が入力される度に逐次的に行うものとする。
図３の処理を実行する前にまず、音声言語資源記憶部１１は、放送から収集された放送音声及び字幕データＤ１を蓄積する。この放送音声及び字幕データＤ１が示す放送字幕などのテキストデータに含まれる単語のうち、クラスに属する単語には、クラスを特定する情報を予め付加しておく。例えば、放送字幕などのテキストに含まれる人名などの固有名詞に、クラスを特定する情報を付与しておく。クラスを特定する情報として例えば、先の例のような“選手名”や“チーム名”といったクラス名を用いる。これらのクラス分類は、音声認識対象となる音声の種類により異なるため、テキストデータを形態素解析した際に得られる品詞に基づくなどして、タスクに応じてユーザーが決定し、付与する。

クラスモデル作成部２１は、音声言語資源記憶部１１に記憶されている音声データからＧＭＭ／ＨＭＭなどに基づく統計的音響モデルを作成し、音響モデル記憶部１２に書き込む。さらに、クラスモデル作成部２１は、音声言語資源記憶部１１に蓄積されたテキストデータからクラス言語モデルとして、クラスｎ−ｇｒａｍ言語モデルを生成する。クラスｎ−ｇｒａｍ言語モデルは、クラスに属する単語が含まれない単語列については式（１）におけるＰ（ｗ｜ｈ）を示し、クラスに属する単語が含まれる単語列については、式（１）におけるｐ（ｗ｜ｃ）、及びｐ（ｃ｜ｈ）を示す。ユーザーは、音声認識したい放送番組に関する事前の情報に基づいて、音声認識対象に応じたｐ（ｗ｜ｃ）に相当する単語・クラスリストデータＤ２を作成し、音声認識装置１に入力する。具体的には、単語・クラスリストデータＤ２は、音声言語資源記憶部１１に蓄積されたテキストデータ（字幕データ）に付随しているクラス名に応じて、そのクラス名のクラスに属する単語と、その単語のクラスへの所属確率との一覧を表形式で並べたものである。クラスモデル作成部２１は、生成したクラスｎ−ｇｒａｍ言語モデルに含まれるｐ（ｗ｜ｃ）を、入力された単語・クラスリストデータＤ２が示すｐ（ｗ｜ｃ）に書き換えて言語モデル記憶部１３に書き込む。

［４．１ステップＳ１：音声認識］
音声認識部２２は、音響モデル記憶部１２に記憶されている統計的音響モデル、言語モデル記憶部１３に記憶されているクラス言語モデル、及び誤り修正モデル記憶部１４に記憶されている式（６）に示すような誤り修正モデルを用いて、音声データＤ３の音声認識を行う。この際、音声認識部２２は、小休止をはさんだ音声区間ごとに音声データＤ３を分割し、分割した音声区間を１つの処理単位である音声入力ｘとして音声認識する。このとき、音声認識部２２は、クラス言語モデルが示す各クラスに属する単語の情報を用いて、音声認識結果に含まれる単語が属するクラスを得る。また、音声認識部２２は、音声認識結果ｗ^ｈｙｐのスコアを、式（６）に示す誤り修正モデルのａｒｇｍａｘが対象としている評価関数を用いて算出する。つまり、音声認識部２２は、以下の式（１４）に示すように、音声認識結果ｗ^ｈｙｐについて｛ｆ_ａｍ（ｘ｜ｗ^ｈｙｐ）＋λ_ｌｍｆ_ｌｍ（ｗ^ｈｙｐ）｝により算出される音声認識のスコアを、誤り修正スコアにより修正した（対数）スコアｓ（ｗ^ｈｙｐ）を算出する。なお、誤り修正スコアは、｛Σ_ｉλ_ｉｆ_ｉ（ｗ^ｈｙｐ）＋Σ_ｊμ_ｊｇ_ｊ（ｗ^ｈｙｐ）＋Σ_ｋν_ｋｈ_ｋ（ｗ^ｈｙｐ）｝に相当する。

音声認識部２２は、複数個の音声認識結果ｗ^ｈｙｐのもっともらしさの順序を、スコアｓ（ｗ^ｈｙｐ）の高い順に決定する。音声認識部２２は、各音声認識結果ｗ^ｈｙｐにもっともらしさの順序と、（対数）音響スコアｆ_ａｍ（ｘ｜ｗ^ｈｙｐ）、（対数）言語スコアｆ_ｌｍ（ｗ^ｈｙｐ）、及び誤り修正スコアを付与した音声認識結果データＤ４を出力する。このように、音声認識結果データＤ４が示す音声認識結果は、音声入力から得られた音声認識結果の選択における誤りを修正したものである。

［４．２ステップＳ２：音声認識結果の誤り修正］
誤り修正部２３は、音声認識部２２から出力された音声認識結果データＤ４が示す音声認識結果ｗ^ｈｙｐのうち、もっともらしさの順位が最も高い音声認識結果を、キーボード等の図示しない入力手段によりユーザーが入力した指示に従って修正する。誤り修正部２３は、修正結果である正解単語列ｗ^ｒｅｆを設定した正解単語列データＤ５を出力する。正解単語列データＤ５は、放送局内で放送波に重畳され、放送字幕データＤ６として放送される。

［４．３ステップＳ３：正解単語列の整列］
整列部２４は、既存の技術により、正解単語列データＤ５が示す正解単語列ｗ^ｒｅｆと、この正解単語列ｗ^ｒｅｆに対応する音声入力ｘを用いて、正解単語列ｗ^ｒｅｆを構成する各単語が発話された時刻(単語の開始・終了区間)を同定して整列する。この際、整列部２４は、整列させた各単語について、音響モデル記憶部１２に記憶されている統計的音響モデルによる音響スコア、及び、言語モデル記憶部１３に記憶されているクラス言語モデルによる言語スコアを算出する。さらに、整列部２４は、整列させた各単語について誤り修正スコアを算出する。具体的には、整列部２４は、上述した式（１４）の｛Σ_ｉλ_ｉｆ_ｉ（ｗ^ｈｙｐ）＋Σ_ｊμ_ｊｇ_ｊ（ｗ^ｈｙｐ）＋Σ_ｋν_ｋｈ_ｋ（ｗ^ｈｙｐ）｝の部分に、音声認識結果ｗ^ｈｙｐに代えて正解単語列ｗ^ｒｅｆの各単語を用いて誤り修正スコアを算出する。このとき、整列部２４は、は、クラス言語モデルが示す各クラスに属する単語の情報を用いて、正解単語列ｗ^ｒｅｆに含まれる単語が属するクラスを得る。整列部２４は、整列させた単語からなる正解単語列ｗ^ｒｅｆに各単語の音響スコア、言語スコア、及び誤り修正スコアを付加した整列済み正解単語列データＤ７を出力する。

［４．４ステップＳ４：特徴量抽出］
特徴量抽出部２５は、音声認識結果データＤ４が示す音声認識結果ｗ^ｈｙｐと、整列済み正解単語列データＤ７が示す整列済みの正解単語列ｗ^ｒｅｆとから、言語的特徴に基づく素性関数を抽出する。本実施形態では、特徴量抽出部２５は、以下のルールを素性とする素性関数を定義する。

特徴量抽出部２５は、従来法と同様の単語列に基づいた以下の（１−１）、（１−２）のルールを素性とする素性関数ｆ_ｉを定義する。

（１−１）正解単語列ｗ^ｒｅｆに含まれる連続する単語２つ組（ｕ，ｖ）、単語３つ組（ｕ，ｆ，ｚ）の数
（１−２）音声認識結果ｗ^ｈｙｐに含まれる連続する単語２つ組（ｕ，ｖ）、単語３つ組（ｕ，ｆ，ｚ）の数

さらに、特徴量抽出部２５は、以下の（２−１）、（２−２）のルールを素性とする素性関数ｇ_ｊを定義する。

（２−１）正解単語列ｗ^ｒｅｆに含まれる連続する単語・クラスの２つ組（ｕ，ｏ（ｖ））、３つ組（ｕ，ｖ，ｏ（ｚ））の数
（２−２）音声認識結果ｗ^ｈｙｐに含まれる連続する単語・クラスの２つ組（ｕ，ｏ（ｖ））、３つ組（ｕ，ｖ，ｏ（ｚ））の数

なお、ｏ（・）は、単語をクラスに写す関数である。この関数の値は、言語モデル記憶部１３に記憶されているクラス言語モデルが示す、各クラスに属する単語の情報を用いて得られる。例えばこのクラスは、選手名やチーム名などの固有名詞に基づいて分類されるクラスを指す。また、これら固有名詞は１単語につき１つのクラスに分類され、複数のクラスには属さないものと仮定する。
加えて、特徴量抽出部２５は、以下の（３−１）、（３−２）に示すルールを素性とする素性関数ｈ_ｋを定義する。

（３−１）正解単語列ｗ^ｒｅｆに含まれるクラスｏ（ｕ）に属する単語ｕの数
（３−２）音声認識結果ｗ^ｈｙｐに含まれるクラスｏ（ｕ）に属する単語ｕの数

特徴量抽出部２５は、定義した素性関数ｆ_ｉ、ｇ_ｊ、ｈ_ｋを設定した素性関数データＤ８と、音声認識結果データＤ４及び整列済み正解単語列データＤ７とを誤り修正モデル学習部２６に出力する。

［４．５ステップＳ５：誤り修正モデル学習］
誤り修正モデル学習部２６は、音声認識結果データＤ４が示す音声認識結果ｗ^ｈｙｐ、整列済み正解単語列データＤ７が示す整列済みの正解単語列ｗ^ｒｅｆ、および、素性関数データＤ８が示す素性関数ｆ_ｉ、ｇ_ｊ、ｈ_ｋを利用して誤り修正モデルを更新（学習）する。

図４は、誤り修正モデル学習部２６による誤り修正モデル学習処理を示すフローチャートを示す図である。誤り修正モデルの学習は、音声データＤ３が与えられるたびに逐次的に行われる。誤り修正モデル学習部２６は、学習により得られた誤り修正モデルにより、誤り修正モデル記憶部１４に記憶されている誤り修正モデルを更新する。したがって、誤り修正モデル学習部２６は、第１回目の素性関数の重み(モデルパラメータ）を学習する際は、モデルパラメータに対して適当な初期値を与えるか、音声言語資源記憶部１１のデータを用いて、静的に誤り修正モデルを求めておく。本実施形態では、簡便のためすべてのモデルパラメータをゼロとおき、初期モデルと定める。

誤り修正モデル学習部２６は、音声認識結果データＤ４、整列済み正解単語列データＤ７、及び素性関数データＤ８が入力されると、特徴量抽出部２５が抽出した素性関数を利用した誤り修正モデルが用いる評価関数として、以下の式（１５）を生成する。式（１５）における素性関数ｆ_ｉ、ｇ_ｊ、ｈ_ｋは、これまでに特徴量抽出部２５から出力された素性関数データＤ８に設定された素性関数である。換言すれば、式（１５）における素性関数ｆ_ｉ、ｇ_ｊ、ｈ_ｋは、誤り修正モデル記憶部１４に現在記憶されている誤り修正モデルの素性関数ｆ_ｉ、ｇ_ｊ、ｈ_ｋに、入力された素性関数データＤ８から取得した新たな素性関数ｆ_ｉ、ｇ_ｊ、ｈ_ｋを加えたものである。

式（７）の目的関数Ｌ（Λ）を計算するために、音声入力ｘに対するｎ＝１，...，Ｎ番目の音声認識結果ｗ^ｈｙｐそれぞれについて、正解単語列ｗ^ｒｅｆとの間の編集距離と、事後確率を計算する必要がある。音声入力ｘが与えられたときの音声認識結果ｗ^ｈｙｐの事後確率Ｐ（ｗ^ｈｙｐ｜ｘ）は、以下の式（１６）により算出されるスコアの総和Ｚを用いて、式（１７）により算出される。式（１７）におけるｅｘｐ内の式は、式（１５）における単語列ｗを音声認識結果ｗ^ｈｙｐとしたものである。

そこでまず、誤り修正モデル学習部２６は、ｎに初期値１を設定する（ステップＳ５１）。また、誤り修正モデル学習部２６は、整列済み正解単語列データＤ７から正解単語列ｗ^ｒｅｆと、正解単語列ｗ^ｒｅｆの各単語の音響スコア及び言語スコアを読み出す。誤り修正モデル学習部２６は、読み出した音響スコア及び言語スコアを用いて、式（１５）によりスコアｓ（ｗ^ｒｅｆ）を算出する。このとき、誤り修正モデル学習部２６は、クラス言語モデルが示す各クラスに属する単語の情報を用いて、正解単語列ｗ^ｒｅｆに含まれる単語が属するクラスを得る。誤り修正モデル学習部２６は、算出したスコアｓ（ｗ^ｒｅｆ）をＺの初期値とする。

誤り修正モデル学習部２６は、音声認識結果データＤ４からｎ番目の音声認識結果ｗ^ｈｙｐと、音響スコアｆ_ａｍ（ｘ｜ｗ^ｈｙｐ）及び言語スコア音響スコアｆ_ｌｍ（ｗ^ｈｙｐ）を読み出す。誤り修正モデル学習部２６は、音響スコアｆ_ａｍ（ｘ｜ｗ^ｈｙｐ）及び言語スコアｆ_ｌｍ（ｗ^ｈｙｐ）を用いて、式（１５）によりスコアｓ（ｗ^ｈｙｐ）を算出する。このとき、誤り修正モデル学習部２６は、クラス言語モデルが示す各クラスに属する単語の情報を用いて、音声認識結果ｗ^ｈｙｐに含まれる単語が属するクラスを得る。誤り修正モデル学習部２６は、現在のＺの値を、ｎ番目の音声認識結果ｗ^ｈｙｐについて算出したスコアｓ（ｗ^ｈｙｐ）を加算した値に更新し、記憶しておく（ステップＳ５２）。誤り修正モデル学習部２６は、ｎ番目の音声認識結果ｗ^ｈｙｐと正解単語列ｗ^ｒｅｆとを比較して編集距離Ｒ（ｗ^ｒｅｆ，ｗ^ｈｙｐ）を計算し、記憶しておく（ステップＳ５３）。誤り修正モデル学習部２６は、ｎの値がＮに達していなければ、ｎに１を加算し、ステップＳ５２及びステップＳ５３の処理を実行する（ステップＳ５４）。

ｎの値がＮに達し、正解単語列ｗ^ｒｅｆとＮ個のすべての音声認識結果ｗ^ｈｙｐとのスコアの総和Ｚ、および、Ｎ個のすべての音声認識結果ｗ^ｈｙｐそれぞれと正解単語列ｗ^ｒｅｆとの編集距離Ｒ（ｗ^ｒｅｆ，ｗ^ｈｙｐ）を求めた後、誤り修正モデル学習部２６は、以下のように事後確率と期待誤り数を計算する。

誤り修正モデル学習部２６は、ｎに初期値１を設定する（ステップＳ５５）。誤り修正モデル学習部２６は、ｎ番目の音声認識結果ｗ^ｈｙｐとスコアの総和Ｚを用い、式（１７）により事後確率Ｐ（ｗ^ｈｙｐ｜ｘ）を算出する（ステップＳ５６）。誤り修正モデル学習部２６は、ｎ番目の音声認識結果ｗ^ｈｙｐについてステップＳ５３において計算した編集距離Ｒ（ｗ^ｒｅｆ，ｗ^ｈｙｐ）と、ステップＳ５６において算出した事後確率Ｐ（ｗ^ｈｙｐ｜ｘ）とを用い、式（１８）により期待誤り数Ｌを計算する（ステップＳ５７）。

誤り修正モデル学習部２６は、ｎの値がＮに達していなければ、ｎに１を加算し、ステップＳ５６及びステップＳ５７の処理を実行する（ステップＳ５８）。

ｎの値がＮに達した場合、誤り修正モデル学習部２６は、ステップＳ５７で計算した期待誤り数Ｌを用いて、以下の式（１９）から式（２１）により、各モデルパラメータλ_ｉ，μ_ｊ，ν_ｋそれぞれの変化分（勾配）∂Ｌ（Λ）／∂λ_ｉ、∂Ｌ（Λ）／∂μ_ｊ、∂Ｌ（Λ）／∂ν_ｋを計算する（ステップＳ５９）。なお、誤り修正モデル学習部２６は、素性関数ｆ_ｉ（ｗ’）、ｇ_ｊ（ｗ’）、ｈ_ｋ（ｗ’）の値を、ｗ’に相当する音声認識結果ｗ^ｈｙｐから算出する。

誤り修正モデル学習部２６は、ステップＳ５９において計算した勾配∂Ｌ（Λ）／∂λ_ｉ、∂Ｌ（Λ）／∂μ_ｊ、∂Ｌ（Λ）／∂ν_ｋを用いて、以下の式（２２）から式（２４）により、モデルパラメータλ_ｉ ^ｔ，μ_ｊ ^ｔ，ν_ｋ ^ｔを計算する。

なお、モデルパラメータλ_ｉ ^ｔ，μ_ｊ ^ｔ，ν_ｋ ^ｔはそれぞれ、更新後のモデルパラメータλ_ｉ，μ_ｊ，ν_ｋである。また、モデルパラメータλ_ｉ ^ｔ−１，μ_ｊ ^ｔ−１，ν_ｋ ^ｔ−１はそれぞれ、前回の推定で求めたモデルパラメータλ_ｉ，μ_ｊ，ν_ｋであり、現在誤り修正モデル記憶部１４に記憶されている誤り修正モデルのモデルパラメータである。κ_λ、κ_μ、κ_νは予め決められた定数である。

誤り修正モデル学習部２６は、式（１５）に、式（２２）から式（２４）により算出したモデルパラメータλ_ｉ ^ｔ，μ_ｊ ^ｔ，ν_ｋ ^ｔを設定した評価関数を生成する。誤り修正モデル学習部２６は、式（６）のａｒｇｍａｘが対象としている評価関数に、生成した評価関数を用いて誤り修正モデルを更新し、誤り修正モデル記憶部１４に現在記憶されている誤り修正モデルを、更新した誤り修正モデルに置き換える（ステップＳ６０）。誤り修正モデル学習部２６は、図４の処理を終了する。

［５．効果］
本実施形態によれば、音声認識装置１は、クラスモデルによる素性を用いることで、学習データ中に認識させたい単語が出現しなくても、頑健な誤り修正モデルを構成可能となり、従来よりも認識誤りが削減される。

［６．その他］
なお、上述の音声認識装置１は、内部にコンピュータシステムを有している。そして、音声認識装置１の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

１…音声認識装置、１１…音声言語資源記憶部、１２…音響モデル記憶部、１３…言語モデル記憶部、１４…誤り修正モデル記憶部、２１…クラスモデル作成部、２２…音声認識部、２３…誤り修正部、２４…整列部、２５…特徴量抽出部、２６…誤り修正モデル学習部

Claims

統計的音響モデルを記憶する音響モデル記憶部と、
統計的言語モデルを記憶する言語モデル記憶部と、
単語及び単語が属するクラスに基づく言語的な特徴により音声認識における単語の誤り傾向を修正するための誤り修正モデルを記憶する誤り修正モデル記憶部と、
音声データと正解単語列とを含む学習データから単語及び単語のクラスに基づく統計的言語モデルを学習し、学習した前記統計的言語モデルに含まれるクラスに属する単語のリストを音声認識対象に応じて書き換えて前記言語モデル記憶部に書き込むクラスモデル作成部と、
入力された音声データを、前記音響モデル記憶部が記憶している前記統計的音響モデル、前記言語モデル記憶部が記憶している前記統計的言語モデル、及び前記誤り修正モデル記憶部が記憶している前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた単語列である音声認識結果を出力する音声認識部と、
前記音声認識部から出力された前記音声認識結果をユーザーの入力に従って修正し、正解単語列を生成する誤り修正部と、
前記誤り修正部が生成した前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列する整列部と、
前記音声データが入力されるたびに、前記音声認識部により前記音声データから得られた前記音声認識結果と前記整列部が整列させた前記正解単語列とのそれぞれに含まれる単語及び単語が属するクラスに基づく言語的な特徴から単語誤りの傾向を学習し、学習した単語誤りの傾向に応じて前記誤り修正モデル記憶部に記憶されている前記誤り修正モデルを逐次更新する誤り修正モデル学習部と、
を備えることを特徴とする音声認識装置。
前記言語的な特徴は、単語が属する前記クラスと当該単語に隣接する単語列との共起、あるいは、前記クラスに属する所定の単語の出現数である、
ことを特徴とする請求項１に記載の音声認識装置。
前記誤り修正モデルは、前記統計的音響モデルに基づいて得られる前記音声認識結果の音響スコアと、前記統計的言語モデルに基づいて得られる前記音声認識結果の言語スコアとにより算出される前記音声認識結果の音声認識のスコアを、重み付けされた前記言語的な特徴により修正する式である、
ことを特徴とする請求項１または請求項２に記載の音声認識装置。
前記誤り修正モデル学習部は、前記正解単語列との比較により得られる前記音声認識結果の単語誤り数と、前記誤り修正モデルにより修正された前記音声認識結果及び前記正解単語列の音声認識のスコアから得られる前記音声認識結果の事後確率とを用いて定められる評価関数により算出される評価値に基づいて、前記正解単語列の事後確率が最大、あるいは、前記音声認識結果の認識誤りが最小となるように前記言語的な特徴の重みを統計的に算出する、
ことを特徴とする請求項３に記載の音声認識装置。
コンピュータを、
統計的音響モデルを記憶する音響モデル記憶手段と、
統計的言語モデルを記憶する言語モデル記憶手段と、
単語及び単語が属するクラスに基づく言語的な特徴により音声認識における単語の誤り傾向を修正するための誤り修正モデルを記憶する誤り修正モデル記憶手段と、
音声データと正解単語列とを含む学習データから単語及び単語のクラスに基づく統計的言語モデルを学習し、学習した前記統計的言語モデルに含まれるクラスに属する単語のリストを音声認識対象に応じて書き換えて前記言語モデル記憶手段に書き込むクラスモデル作成手段と、
入力された音声データを、前記音響モデル記憶手段が記憶している前記統計的音響モデル、前記言語モデル記憶手段が記憶している前記統計的言語モデル、及び前記誤り修正モデル記憶手段が記憶している前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた単語列である音声認識結果を出力する音声認識手段と、
前記音声認識手段から出力された前記音声認識結果をユーザーの入力に従って修正し、正解単語列を生成する誤り修正手段と、
前記誤り修正手段が生成した前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列する整列手段と、
前記音声データが入力されるたびに、前記音声認識手段により前記音声データから得られた前記音声認識結果と前記整列手段が整列させた前記正解単語列とのそれぞれに含まれる単語及び単語が属するクラスに基づく言語的な特徴から単語誤りの傾向を学習し、学習した単語誤りの傾向に応じて前記誤り修正モデル記憶手段に記憶されている前記誤り修正モデルを逐次更新する誤り修正モデル学習手段と、
を具備する音声認識装置として機能させるためのプログラム。