JP6047364B2

JP6047364B2 - 音声認識装置、誤り修正モデル学習方法、及びプログラム

Info

Publication number: JP6047364B2
Application number: JP2012224985A
Authority: JP
Inventors: 彰夫小林
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-10-10
Filing date: 2012-10-10
Publication date: 2016-12-21
Anticipated expiration: 2032-10-10
Also published as: JP2014077865A

Description

本発明は、音声認識装置、誤り修正モデル学習方法、及びプログラムに関する。

音声認識の誤り修正については、音声とその書き起こし（正解文）から、言語的な特徴を用いて音声認識の誤り傾向を統計的に学習し、学習の結果得られた統計的な誤り修正モデルを用いて音声認識の性能改善を図る技術がある（例えば、非特許文献１参照）。

小林ほか，「単語誤り最小化に基づく識別的スコアリングによるニュース音声認識」，電子情報通信学会誌，vol.J93-D no.5，２０１０年，ｐ．５９８−６０９

放送番組などの音声認識では、連続した複数の発話を逐次音声認識するが、音声認識が処理している発話の内容は、すでに音声認識の終わった直前の発話内容と関連することが多い。例えば、料理番組では、食材の紹介についての発話があれば、その後の料理方法に関する発話が続くと期待される。つまり、食材に関する単語とその料理方法に関する単語は、隣接する発話において共起する可能性が高い。例えば、「豚ヒレをたたきます」という発話の後に、「次に塩こしょうします」という発話が続くのであれば、「豚ヒレ」と「塩こしょう」の間に関係があり、これらが共起しやすいということになる。
しかし、従来の誤り修正モデルのモデルパラメータ学習では、音声データとその音声認識結果及び正解単語列を用いているが、学習時に音声データの発話順序は考慮されていない。このように、従来の誤り修正モデルでは発話の順序に関係した発話間の単語の共起などの情報は考慮されていないため、発話内容を正しく予測する上で最適なモデルとはなっていない。

本発明は、このような事情を考慮してなされたもので、音声認識の対象となっている発話より過去の発話内容から引き出した情報を利用して誤り修正モデルを最適化する音声認識装置、誤り修正モデル学習方法、及びプログラムを提供する。

［１］本発明の一態様は、発話の音声データを音声認識して得られた音声認識結果と、前記発話の正解単語列とを発話の順序を保持して格納する音声言語資源格納部と、前記音声データから得られた前記音声認識結果に含まれる単語と前記音声データの発話よりも過去の発話の前記正解単語列に含まれる単語とから得られる発話の順序に応じた言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成するモデル学習部と、を備えることを特徴とする音声認識装置である。
この発明によれば、音声認識装置は、音声データを音声認識し、得られた音声認識結果に含まれる単語と、その音声認識結果よりも過去の発話の正解単語列に含まれる単語とから、発話の順序に応じた言語的な特徴を抽出する。過去の発話の正解単語列として、例えば、音声認識結果と時間的に隣接した直近の過去の発話の正解単語列を用いる。音声認識装置は、抽出した言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した認識誤りの傾向を修正するための誤り修正モデルを生成する。
これにより、音声認識の対象となっている発話よりも前の発話の内容から引き出した情報を利用して、発話内容を正しく予測する上で好適な誤り修正モデルを生成することができる。

［２］本発明の一態様は、上述する音声認識装置であって、前記モデル学習部は、前記音声認識結果から得られる同一発話内の言語的な特徴と前記発話の順序に応じた言語的な特徴とに基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成する、ことを特徴とする。
この発明によれば、音声認識装置は、音声認識結果及び正解単語列から発話の順序に応じた言語的な特徴を抽出するとともに音声認識結果から同一発話内の言語的な特徴を抽出する。音声認識装置は、抽出したこれらの言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した認識誤りの傾向を修正するための誤り修正モデルを生成する。
これにより、音声認識装置は、音声認識の対象となっている発話よりも過去の発話内容から引き出した情報に加えて、同一の発話内の言語的特徴を利用して、認識誤りを精度よく修正する誤り修正モデルを生成することができる。

［３］本発明の一態様は、上述する音声認識装置であって、前記モデル学習部は、前記音声認識結果から得られる同一発話内の連続する複数の単語の共起関係、連続しない複数の単語の共起関係、単語の構文的な情報、または単語の意味的な情報のうち１以上と、前記音声認識結果に含まれる単語及び前記過去の発話の前記正解単語列に含まれる単語の共起関係とに基づいて単語の誤り傾向を統計的に学習する、ことを特徴とする。
この発明によれば、音声認識装置は、音声認識結果から得られる同一発話内における単語の共起関係や構文的、意味的な情報と、音声認識結果に含まれる単語と過去の発話の正解単語列から得られる単語の共起関係とに基づいて単語の誤り傾向を統計的に学習し、学習した認識誤りの傾向を修正するための誤り修正モデルを生成する。
これにより、音声認識装置は、認識誤りを精度良く修正する誤り修正モデルを生成することができる。

［４］本発明の一態様は、上述する音声認識装置であって、前記誤り修正モデルは、前記言語的な特徴に基づく素性関数とその重みとを用いて音声認識のスコアを修正する算出式であり、前記モデル学習部は、前記音声認識結果及び前記正解単語列から得られた前記素性関数の値と前記音声認識結果に含まれる単語の認識誤りとを用いて定められる評価関数により算出した評価値に基づいて前記重みを統計的に算出し、算出した前記重みを用いて前記誤り修正モデルを生成する、ことを特徴とする。
この発明によれば、音声認識装置は、言語的特徴を表す素性関数とその重みとで定義される誤り修正モデルが用いる重みを、音声認識結果から得られた素性関数の値と、音声認識結果を正解単語列と比較することによって得られる認識誤りとを用いて定められる評価関数により算出した評価値が、最も認識誤りが少ないことを示す評価値となるように決定し、誤り修正モデルを生成する。
これにより、音声認識装置は、認識誤り傾向を効率的に学習し、誤り修正モデルを生成することができる。

［５］本発明の一態様は、上述する音声認識装置であって、入力された音声データを音声認識し、前記モデル学習部により生成された前記誤り修正モデルを用いて、前記入力された音声データから得られた音声認識結果の選択における誤りを修正する音声認識部をさらに備える、ことを特徴とする。
この発明によれば、音声認識装置は、音声データを音声認識することにより得られた正解候補の中から、誤り修正モデルを用いて音声認識結果を選択する。
これにより、音声認識装置は、認識率のよい音声認識結果を得ることができる。

［６］本発明の一態様は、発話の音声データを音声認識して得られた音声認識結果と、前記発話の正解単語列とを発話の順序を保持して音声言語資源格納部に格納する音声言語資源格納過程と、前記音声データから得られた前記音声認識結果に含まれる単語と前記音声データの発話よりも過去の発話の前記正解単語列に含まれる単語とから得られる発話の順序に応じた言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成するモデル学習過程と、を有することを特徴とする誤り修正モデル学習方法である。

［７］本発明の一態様は、コンピュータを、発話の音声データを音声認識して得られた音声認識結果と、前記発話の正解単語列とを発話の順序を保持して格納する音声言語資源格納手段と、前記音声データから得られた前記音声認識結果に含まれる単語と前記音声データの発話よりも過去の発話の前記正解単語列に含まれる単語とから得られる発話の順序に応じた言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成するモデル学習手段と、を具備する音声認識装置として機能させるためのプログラムである。

本発明によれば、音声認識の対象となっている発話よりも過去の発話内容から引き出した情報を利用して誤り修正モデルを最適化することが可能となる。

本発明の一実施形態による音声認識装置における誤り修正モデルの学習方法を示す図である。同実施形態による話の順序に応じた素性関数の例を示す図である。同実施形態による音声認識装置の構成を示す機能ブロック図である。同実施形態による音声認識装置の全体処理フローを示す図である。同実施形態による音声認識装置のモデル学習処理フローを示す図である。従来法による誤り修正モデルの学習方法を示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。

［１．本実施形態の概要］
音声認識の誤り傾向を反映した誤り修正モデルはすでに考案されているが、この誤り修正モデルは、連続して発声される発話に対して、隣接する発話内容との関係性に基づく情報を利用したものではない。連続した発話では、直前の発話で使われた単語と関連する単語が含まれることが多い。従って、このような近接した発話間の単語のつながりを誤り修正モデルで利用すれば、音声認識の改善が期待される。

そこで本実施形態の音声認識装置は、直近の発話内容に含まれる言語的な特徴を利用して音声認識性能を発話内容に適合させた誤り修正モデルを学習し、音声認識へ適用する。このように、直近の発話内容によって最適化された誤り修正モデルにより、音声認識の性能改善を図る。

［２．誤り修正モデルの学習アルゴリズム］
続いて、本発明の一実施形態による音声認識装置に適用される誤り修正モデルの学習アルゴリズムを説明する。
上述したように、本実施形態の音声認識装置は、従来の課題を解決するために、学習に用いる音声データに発話の順序関係を導入し、隣接する発話間の関係性を誤り修正モデルに取り入れる。本実施形態と従来法の違いは、誤り修正モデルを学習する際のデータの扱い方である。

図６は、従来法による誤り修正モデルの学習方法を示す図である。同図に示すように、従来法では、複数の発話から構成される学習データは、その順序関係を保存しておらず、単語の誤り傾向は、データを一括して用いて学習されてきた。

図１は、本実施形態による誤り修正モデルの学習方法を示す図である。同図に示すように、本実施形態では、学習データの中の各発話の順序関係を考慮し、時間的に隣接する発話間の関係を言語的な特徴として抽出し、誤り修正モデルの学習に利用する。これにより、隣接する発話間の関係が反映された誤り修正モデルが得られるため、従来法よりも音声認識性能を改善することが可能となる。

［２．１従来法の誤り修正モデル］
ベイズの定理によれば、音声入力ｘが与えられたとき、この音声入力ｘに対して尤もらしい単語列ｗ＾（「＾」は、「ハット」を表す。）は、以下の式（１）により求めることができる。

音声入力ｘ及び単語列ｗは、例えば、発話の単位に対応し、Ｐ（ｗ｜ｘ）は、音声入力ｘが発生したときに単語列（文仮説）ｗが得られる事後確率である。
また、Ｐ（ｘ｜ｗ）は、単語列ｗに対する音響的な尤もらしさを示す尤度であり、そのスコア（音響スコア）は隠れマルコフモデル（Hidden Markov Model、ＨＭＭ）及びガウス混合分布（Gaussian Mixture Model，ＧＭＭ）に代表される統計的音響モデル（以下、「音響モデル」と記載する。）に基づいて計算される。言い換えれば、音響特徴量が与えられたとき、複数の正解候補の単語それぞれに対する尤もらしさを表すスコアが音響スコアである。

一方、Ｐ（ｗ）は、単語列ｗに対する言語的な生成確率であり、そのスコア（言語スコア）は、単語ｎ−ｇｒａｍモデル等の統計的言語モデル（以下、「言語モデル」と記載する。）により計算される。言い換えれば、音声認識対象の単語の前または後の単語列、あるいは前後両方の単語列が与えられたとき、複数の正解候補の単語列それぞれに対する尤もらしさを表すスコアが言語スコアである。なお、単語ｎ−ｇｒａｍモデルは、Ｎ単語連鎖（Ｎは、例えば１、２、または３である。）の統計に基づいて、（Ｎ−１）単語の履歴から次の単語の生起確率を与えるモデルである。

以下の説明では、統計的音響モデルにＨＭＭ−ＧＭＭを用い、統計的言語モデルにｎ−ｇｒａｍを用いる。

式（１）のＰ（ｘ｜ｗ）Ｐ（ｗ）が最大の場合は、その対数も最大である。そこで、音声認識では、上記の式（１）のベイズの定理に基づいて、音声入力ｘが発生したときの文仮説（正解候補）である単語列ｗの評価関数ｑ（ｗ｜ｘ）を以下の式（２）のように定める。なお、κは、音響スコアＰ（ｘ｜ｗ）に対する言語スコアＰ（ｗ）の重みである。

そして、以下の式（３）に示すように、音声入力ｘに対する正解候補の単語列ｗの集合の中から、式（２）が示す評価関数ｑ（ｗ｜ｘ）の結果が最大である単語列ｗ＾が、音声入力ｘの音声認識結果として選択される。

従来法における誤り修正モデルでは、式（１）を以下の式（４）のように変更する。

式（４）のｅｘｐΣ_ｉλ_ｉｆ_ｉ（ｗ）は、単語列ｗの誤り傾向を反映したスコアであり、単語列ｗに対するペナルティもしくは報償として働く。また、ｆ_ｉ（ｗ）（ｉ＝１，...，）はｉ番目の素性関数、λ_ｉは素性関数ｆ_ｉ（ｗ）の重み（素性重み）である。素性関数は、与えられた単語列（ここでは、単語列ｗ）で言語的ルールが成立すればその数となり、成立しなければ０となるような関数として定められる。これらルールは、例えば、同一の発話内における連続する単語、連続しない２単語以上の単語の共起関係、単語の構文的な情報または意味的な情報、などの言語的特徴である。従来法における具体的な素性関数ｆ_ｉのルールの例として、以下があげられる。

例えば、単語の共起関係に基づく素性関数として、以下の（１）、（２）がある。

（１）単語列ｗに連続する単語２項組（ｕ，ｖ）が含まれる場合、その数を返す関数
（２）単語列ｗに連続しない単語２項組（ｕ，ｖ）が含まれる場合、その数を返す関数

また、単語列ｗを構成する各単語を名詞や動詞といった品詞カテゴリ（構文情報）に置き換えた上で得られる、構文情報に基づく素性関数として、例えば以下の（３）、（４）がある。なお、ｃ（・）は、単語を品詞にマッピングする関数である。

（３）単語列ｗに連続する品詞２項組（ｃ（ｕ），ｃ（ｖ））が含まれる場合、その数を返す関数
（４）単語列ｗに連続しない品詞２項組（ｃ（ｕ），ｃ（ｖ））が含まれる場合、その数を返す関数

あるいは、単語列ｗを構成する各単語を、意味情報を表すカテゴリ（意味カテゴリ）に置き換えた上で得られる、意味的な情報に基づく素性関数として、例えば以下の（５）、（６）がある。意味カテゴリは、本実施形態の音声認識装置が外部または内部に備えるデータベースに記憶されるシソーラスなどを用いて得ることができる。なお、ｓ（・）は単語を意味カテゴリにマッピングする関数である。

（５）単語列ｗに連続する意味カテゴリ２項組（ｓ（ｕ），ｓ（ｖ））が含まれる場合、その数を返す関数
（６）単語列ｗに連続しない意味カテゴリ２項組（ｓ（ｕ），ｓ（ｖ））が含まれる場合、その数を返す関数

上記のように、音声認識の誤り傾向は、素性関数とその重みにより言語的な特徴に対するペナルティとして表現され、学習データの単語誤りを最小化する評価関数に基づいて推定される。つまり、従来の誤り傾向の学習とは、音声データの音声認識結果とその正解単語列を学習データとして用いて式（４）の重みλ_ｉを求めることである。

［２．２本実施形態に適用される誤り修正モデルの学習アルゴリズム］
いま、単語列ｗに対して、直近の入力音声から得られた単語列をｕとすると、音声入力ｘ、単語列ｕが与えられたときの単語列ｗの条件付き確率Ｐ（ｗ｜ｘ，ｕ）は、以下の式（５）のようになる。

ただし、式（５）の導出では、ベイズの定理と、単語列ｕと音声入力ｘが独立であることを利用している。また、単語列ｕは、任意の長さの単語列であり、複数の発話内容を連結した単語列であってもよい。

ただし、音声入力ｘと隣接する発話の単語列ｕが与えられたとき、入力に対して最も尤もらしい単語列ｗ＾は以下の式（６）となり、式（１）が変更されることに注意する。

ここで、直近の入力音声により単語列ｕが与えられたときの単語列ｗの条件付き確率Ｐ（ｗ｜ｕ）を、式（７）のように仮定する。

なお、ｇ_ｊ（ｗ，ｕ）（ｊ＝１，...，）は、単語列ｗと単語列ｕに対する言語的な特徴を表す素性関数であり、φ_ｊは、ｇ_ｊに対応した重み（素性重み）である。このような発話の順序に応じた言語的な特徴の素性関数ｇ_ｊとして、以下の例がある。ここでは、ｖ，ｚはそれぞれ単語とする。

（例）先行する発話の単語列ｕに単語ｚが含まれている場合に、着目している発話の単語列ｗに含まれる単語ｖの数を返す関数

図２は、素性関数ｇ_ｊの例を示す図である。同図においては、先行する発話の単語列ｕを正解単語列（もしくは尤もらしい認識結果）とし、着目している現在の発話の単語列ｗを正解候補の単語列ｗ_１、ｗ_２、ｗ_３の集合としている。そして、同図においては、先行する発話の単語列ｕに単語ｚが含まれており、正解候補の単語列ｗ_１には単語ｖが１つ含まれている。この場合、ｇ_ｊ（ｗ_１，ｕ）＝１となる。一方、正解候補の単語列ｗ３には単語ｖが２つ含まれているため、ｇ_ｊ（ｗ_３，ｕ）＝２となる。

式（５）及び式（７）から、以下の式（８）となる。

従来の識別的言語モデルの素性関数を考慮すれば、式（８）は、以下の式（９）となる。

音響モデルの尤度をＨＭＭによる対数音響スコアをｈ_０（ｘ，ｗ）、ｎ−ｇａｒａｍ言語モデルによる対数言語スコアをｈ_１（ｗ）とすると、式（９）は、以下の式（１０）のように書き直せる。

ただし、κは、言語スコアに対する重み係数とする。また、Ｚ（Λ，Φ）は、確率の条件を満たすための正規化定数であり、以下の式（１１）とする。式（１１）における単語列ｗ’は、音声入力ｘから音声認識により得られた複数の音声認識結果である。また、モデルパラメータΛは、（λ_１，λ_２，…）であり、モデルパラメータΦは、（φ_１，φ_２，…）である。

本実施形態の音声認識装置による誤り修正モデルの学習とは、式（１０）に示す誤り修正モデルに用いるモデルパラメータΛ及びΦを学習データから推定することである。

ここで、Ｍ個の発話からなる学習データが与えられたとき、モデルパラメータ推定のための目的関数Ｌ（Λ，Φ）を以下の式（１２）とする。

式（１２）におけるＰ（ｗ_ｍ,ｎ｜ｘ_ｍ,ｗ_ｍ−１ ^ｒｅｆ）は、以下の式（１３）のように算出される。

ｍは発話の順序を示し、Ｎ_ｍはｍ番目の発話の学習データに対して音声認識により生成された文仮説ｗ_ｍ，１、ｗ_ｍ，２、…の総数、文仮説ｗ_ｍ，ｎ（ｎは１以上の整数）はｍ番目の発話の学習データの第ｎ番目の正解候補の単語列である。ｗ_ｍ ^ｒｅｆはｍ番目の発話の学習データの正解単語列、Ｒ（・，・）は２つの単語列の編集距離を返す関数である。２つの単語列の編集距離は、動的計画法により効率的に求めることができる。編集距離は、正解単語列に対する音声認識結果の誤り単語数と等価（置換、挿入、脱落誤りの操作）であるため、式（１２）の目的関数Ｌ（Λ，Φ）は、期待される単語誤りの数を表している。この目的関数Ｌ（Λ，Φ）を最小化するようにモデルパラメータΛとモデルパラメータΦを推定すれば、期待される単語誤りの数が最小となる誤り修正モデルが得られるため、音声認識の性能の向上が期待できる。これは、目的関数Ｌ（Λ，Φ）を最小化するようにモデルパラメータΛ及びΦを推定すれば、正解候補の単語列に期待される認識誤りが最小となり、学習データとは異なる未知の入力音声に対する音声認識においても、モデルパラメータΛ及びΦによって認識誤りの最小化が同様に行われるからである。つまり、式（１２）の目的関数は、正解候補の単語列に期待される認識誤りが最小となり、モデルパラメータΛ及びΦが適切であるかの評価値を算出する評価関数として用いられる。

パラメータを推定するため、目的関数のモデルパラメータΛ、Φに関する勾配ΔΛ、ΔΦは、以下の式（１４）、式（１５）から求められる。

勾配ΔΛは、（∂Ｌ（Λ，Φ）／∂λ_１，∂Ｌ（Λ，Φ）／∂λ_２，∂Ｌ（Λ，Φ）／∂λ_３，…）であり、勾配ΔΦは、（∂Ｌ（Λ，Φ）／∂φ_１，∂Ｌ（Λ，Φ）／∂φ_２，∂Ｌ（Λ，Φ）／∂φ_３，…）である。

繰り返し更新によりモデルパラメータΛ^ｔ、Φ^ｔの学習を行うとすれば、ｔ−１回目の繰り返しの後にモデルパラメータΛ^ｔ−１、Φ^ｔ−１が得られたとすると、以下の式（１６）、式（１７）がパラメータ更新式となる。

ここで、η_Λ、η_Φはそれぞれ、式（１４）、式（１５）で得られた勾配ΔΛ、勾配ΔΦの係数である。

［３．音声認識装置の構成］
図３は、本発明の一実施形態による音声認識装置１の構成を示す機能ブロック図であり、発明と関係する機能ブロックのみ抽出して示してある。
音声認識装置１は、コンピュータ装置により実現され、同図に示すように、音声認識部１１、特徴量抽出部１２、モデル学習部１３、音声認識部１４、音声言語資源格納部２１、音響モデル格納部２２、言語モデル格納部２３、及び誤り修正モデル格納部２４を備えて構成される。

音声言語資源格納部２１は、学習データを格納する。音響モデル格納部２２は、音響モデルを格納する。言語モデル格納部２３は、言語モデルを格納する。誤り修正モデル格納部２４は、誤り修正モデルを格納する。

音声認識部１１は、学習データを生成するために音声データを音声認識する。音声データは、発話の音声波形を短時間スペクトル分析して得られた特徴量を示す。本実施形態では、音声データとして、放送音声・字幕データＤ１を用いる。音声認識部１１は、発話の音声データと、音声データを音声認識して得られた音声認識結果データＤ２と、発話の内容の正解単語列を示す正解単語列データＤ３とを対応付けて学習データとして音声言語資源格納部２１に書き込む。このとき、音声認識部１１は、音声認識を行った際の発話の順番も合わせて音声言語資源格納部２１に保持しておく。

特徴量抽出部１２は、発話の順番により整列された学習データの音声認識結果データＤ２及び正解単語列データＤ３から、同一発話内における言語的な特徴と発話の順序に応じた言語的な特徴を抽出する。特徴量抽出部１２は、得られた言語的な特徴をルールとする素性関数ｆ_ｉ，ｇ_ｊを示す素性関数データＤ４を出力する。

モデル学習部１３は、特徴量抽出部１２が出力した素性関数データＤ４と、音声言語資源格納部２１が記憶する学習データとを入力として、誤り修正モデルのモデルパラメータΛ、Φを統計的手段により学習する。モデル学習部１３は、学習したこれらのモデルパラメータΛ、Φを用いた誤り修正モデルを誤り修正モデル格納部２４に書き込む。

音声認識部１４は、音響モデル格納部２２に記憶されている音響モデル、及び言語モデル格納部２３に記憶されている言語モデルを参照し、誤り修正モデル格納部２４に記憶されている誤り修正モデルを用いて入力音声データＤ５の音声認識を行い、音声認識結果データＤ６を出力する。

［４．音声認識装置の処理手順］
図４は、本実施形態による音声認識装置１の全体処理フローを示す図である。以下、同図に示す各ステップの処理について説明する。

［４．１ステップＳ１］
本実施形態では、誤り修正モデルの生成のために、学習データとして、発話の音声認識結果と、その発話内容の書き起こしである正解単語列が必要となる。そこで、音声認識部１１は、音声データ及び正解単語列データの組として放送音声・字幕データＤ１を収集し、放送音声・字幕データＤ１に含まれる音声データを音声認識する。音声認識部１１は、放送音声・字幕データＤ１から取得した字幕データ、あるいは、音声認識の結果を人手により修正したテキストデータを正解単語列データＤ３とする。音声認識部１１は、各発話の音声データと、音声認識結果を示す音声認識結果データＤ２と、正解単語列データＤ３とを対応付けた学習データを音声言語資源格納部２１に格納する。このとき、音声認識部１１は、音声認識を行った際の発話の順序を保持して格納する。ｍ番目（ｍ＝１，２，…）の学習データの音声認識結果データＤ２には、ｍ番目の音声データを音声認識して得られた正解候補である文仮説ｗ_ｍ，ｎ（ｎ＝１，２，…）が含まれ、ｍ番目の学習データの正解単語列データＤ３には、ｍ番目の音声データの正解単語列ｗ_ｍ ^ｒｅｆが含まれる。

［４．２ステップＳ２］
モデル学習部１３は、音声言語資源格納部２１に記憶されている学習データから、誤り傾向学習のために用いる言語的特徴に基づく素性関数を抽出する。

まず、モデル学習部１３は、学習データに含まれる音声認識結果データＤ２及び正解単語列データＤ３のそれぞれから、連続する単語、連続しない２単語以上の単語、単語の構文的な情報または意味的な情報、などの同一発話内の言語的特徴に基づく素性関数を全て抽出する。さらに、モデル学習部１３は、音声認識結果データＤ２が示す正解候補の文仮説ｗ_ｍ，ｎ（図２に示す単語列ｗ_１、ｗ_２，…に相当）と、正解単語列データＤ３が示す当該発話に先行する正解単語列ｗ_ｍ−１ ^ｒｅｆ（図２に示す先行する単語列ｕに相当）とを参照し、発話の順序に応じた言語的特徴に基づく素性関数を全て抽出する。正解単語列ｗ_ｍ−１ ^ｒｅｆは、文仮説ｗ_ｍ，ｎの発話と時間的に隣接した過去の発話の正解単語列である。モデル学習部１３は、抽出したこれらの素性関数が出現する頻度をカウントする。モデル学習部１３は、カウントした出現頻度が予め定めた閾値以上である同一発話内の言語的特徴に基づく素性関数、発話の順序に応じた言語的特徴に基づく素性関数をそれぞれ、誤り傾向学習で用いる素性関数ｆ_ｉ、素性関数ｇ_ｊとして決定する。モデル学習部１３は、決定した素性関数ｆ_ｉ、ｇ_ｊを設定した素性関数データＤ４をモデル学習部１３に出力する。

［４．３ステップＳ３］
続いてモデル学習部１３は、誤り修正モデルのモデルパラメータを学習する。
図５は、ステップＳ３においてモデル学習部１３が実行する誤り修正モデル更新処理の処理フローを示す図である。

（ステップＳ３１：モデルパラメータ初期化処理）
モデル学習部１３は、モデルパラメータΛ、Φに対して適当な初期値を設定する。本実施形態では、初期値をΛ＝Φ＝０とする。

（ステップＳ３２：編集距離計算処理）
式（１２）の目的関数を計算するためには、まず音声認識結果と対応する正解単語列との編集距離を計算する必要がある。そこで、モデル学習部１３は、学習データとして音声言語資源格納部２１に記憶されている学習データを読み出し、音声認識結果データＤ２が示す文仮説ｗ_ｍ，ｎと正解単語列データＤ３が示す正解単語列ｗ_ｍ ^ｒｅｆとから編集距離Ｒ（ｗ_ｍ ^ｒｅｆ，ｗ_ｍ，ｎ）を計算する。これらの編集距離は、誤り修正モデルの学習では定数扱いとなることに注意する。

（ステップＳ３３：目的関数計算処理）
モデル学習部１３は、ステップＳ３２において求めた編集距離Ｒ（ｗ_ｍ ^ｒｅｆ，ｗ_ｍ，ｎ）を用い、式（１２）に従って目的関数Ｌ（Λ，Φ）の値を計算する。そこで、モデル学習部１３は、式（１２）における条件付き確率Ｐ（ｗ_ｍ，ｎ｜ｘ_ｍ，ｗ_ｍ―１ ^ｒｅｆ）を、音響モデルのスコアｈ_０（ｘ_ｍ｜ｗ_ｍ，ｎ）、言語モデルのスコアｈ_１（ｗ_ｍ，ｎ）、及び現在のモデルパラメータΛ、Φとから式（１３）を用いて計算する。モデル学習部１３は、各文仮説ｗ_ｍ，ｎの音響モデルのスコアｈ_０（ｘ_ｍ｜ｗ_ｍ，ｎ）を、音響モデル格納部２２に記憶されている音響モデルと、ｍ番目の学習データの音声データとを用いて取得する。また、モデル学習部１３は、文仮説ｗ_ｍ，ｎの言語モデルのスコアｈ_１（ｗ_ｍ，ｎ）を、言語モデル格納部２３に記憶されている言語モデルを用いて取得する。

（ステップＳ３４：勾配計算処理）
モデル学習部１３は、現在のモデルパラメータΛ、Φの値を用いて、式（１４）及び式（１５）により、式（１２）のモデルパラメータΛ、Φに関する勾配ΔΛ、ΔΦを求める。モデル学習部１３は、式（１４）及び式（１５）における編集距離Ｒ（ｗ_ｍ ^ｒｅｆ，ｗ_ｍ，ｎ）及び条件付き確率Ｐ（ｗ_ｍ，ｎ｜ｘ_ｍ，ｗ_ｍ−１ ^ｒｅｆ）に、ステップＳ３３において目的関数Ｌ（Λ，Φ）を算出したときの値を用いる。また、モデル学習部１３は、式（１４）における素性関数ｇ_ｊ（ｗ_ｍ，ｎ，ｗ_ｍ−１ ^ｒｅｆ）の値を、音声認識結果データＤ２が示す文仮説ｗ_ｍ，ｎ及び正解単語列データＤ３が示す正解単語列ｗ_ｍ−１ ^ｒｅｆとから取得する。モデル学習部１３は、式（１５）における素性関数ｆ_ｉ（ｗ_ｍ，ｎ）の値を、音声認識結果データＤ２が示す文仮説ｗ_ｍ，ｎから取得する。なお、モデル学習部１３は、素性関数ｆ_ｉ及び素性関数ｇ_ｊを素性関数データＤ４から得る。

モデル学習部１３は、求めた勾配ΔΛ、ΔΦを用いて、式（１６）及び式（１７）により、モデルパラメータΛ、Φを更新する。なお、式（１６）及び式（１７）における係数η_Λ、η_Φは、予め定めた値を用いる。

（ステップＳ３５：終了判定処理）
モデル学習部１３は、ステップＳ３４の勾配計算処理により得られた目的関数の値と、更新前の目的関数の値とを比較し、値の変化が所定以上であれば、ステップＳ３３からの処理を繰り返し、所定よりも小さければ更新が収束したとみなしてモデルパラメータΛ、Φの更新を打ち切り、ステップＳ３６の処理を実行する。

（ステップＳ３６：誤り修正モデル出力処理）
モデル学習部１３は、更新が収束したときのモデルパラメータΛ＝（λ_１，λ_２，…）、及びΦ＝（φ_１，φ_２，…）を用いた誤り修正モデルを誤り修正モデル格納部２４に書き込む。

［４．４ステップＳ４］
音声認識部１４は、音声認識対象の音声データとして入力音声データＤ５が入力されると、誤り修正モデル格納部２４に記憶されている誤り修正モデルと、音響モデル格納部２２に記憶されている音響モデル、及び、言語モデル格納部２３に記憶されている言語モデルとを用いて、入力音声データＤ５の正解候補の単語列を得、それらのスコアを算出する。学習時には、現在処理している発話に先行する発話列は正解単語列となるが、音声認識時には正解単語列が得られないため、音声認識部１４は、現在処理している発話より前の発話を音声認識したときに得られた最尤単語列を正解単語列として用いる。音声認識部１４は、スコアが最もよい正解候補の単語列を正解単語列として設定した音声認識結果データＤ６をリアルタイムで出力する。この誤り修正モデルを用いることにより、音声認識部１４は、入力音声データＤ５から得られた音声認識結果の選択における誤りを修正する。

［５．効果］
本実施形態によれば、音声認識装置１は、直前の発話内容を反映した誤り修正モデルが構成可能となり、従来の音声認識よりも認識誤りが削減される。

［６．その他］
なお、上述の音声認識装置１は、内部にコンピュータシステムを有している。そして、音声認識装置１の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

１音声認識装置
１１音声認識部
１２特徴量抽出部
１３モデル学習部
１４音声認識部
２１音声言語資源格納部
２２音響モデル格納部
２３言語モデル格納部
２４誤り修正モデル格納部

Claims

発話の音声データを音声認識して得られた音声認識結果と、前記発話の正解単語列とを発話の順序を保持して格納する音声言語資源格納部と、
前記音声データから得られた前記音声認識結果に含まれる単語と前記音声データの発話よりも過去の発話の前記正解単語列に含まれる単語とから得られる発話の順序に応じた言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成するモデル学習部と、
を備えることを特徴とする音声認識装置。
前記モデル学習部は、前記音声認識結果から得られる同一発話内の言語的な特徴と前記発話の順序に応じた言語的な特徴とに基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成する、
ことを特徴とする請求項１に記載の音声認識装置。
前記モデル学習部は、前記音声認識結果から得られる同一発話内の連続する複数の単語の共起関係、連続しない複数の単語の共起関係、単語の構文的な情報、または単語の意味的な情報のうち１以上と、前記音声認識結果に含まれる単語及び前記過去の発話の前記正解単語列に含まれる単語の共起関係とに基づいて単語の誤り傾向を統計的に学習する、
ことを特徴とする請求項２に記載の音声認識装置。
前記誤り修正モデルは、前記言語的な特徴に基づく素性関数とその重みとを用いて音声認識のスコアを修正する算出式であり、
前記モデル学習部は、前記音声認識結果及び前記正解単語列から得られた前記素性関数の値と前記音声認識結果に含まれる単語の認識誤りとを用いて定められる評価関数により算出した評価値に基づいて前記重みを統計的に算出し、算出した前記重みを用いて前記誤り修正モデルを生成する、
ことを特徴とする請求項１から請求項３のいずれか１項に記載の音声認識装置。
入力された音声データを音声認識し、前記モデル学習部により生成された前記誤り修正モデルを用いて、前記入力された音声データから得られた音声認識結果の選択における誤りを修正する音声認識部をさらに備える、
ことを特徴とする請求項１から請求項４のいずれか１項に記載の音声認識装置。
発話の音声データを音声認識して得られた音声認識結果と、前記発話の正解単語列とを発話の順序を保持して音声言語資源格納部に格納する音声言語資源格納過程と、
前記音声データから得られた前記音声認識結果に含まれる単語と前記音声データの発話よりも過去の発話の前記正解単語列に含まれる単語とから得られる発話の順序に応じた言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成するモデル学習過程と、
を有することを特徴とする誤り修正モデル学習方法。
コンピュータを、
発話の音声データを音声認識して得られた音声認識結果と、前記発話の正解単語列とを発話の順序を保持して格納する音声言語資源格納手段と、
前記音声データから得られた前記音声認識結果に含まれる単語と前記音声データの発話よりも過去の発話の前記正解単語列に含まれる単語とから得られる発話の順序に応じた言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成するモデル学習手段と、
を具備する音声認識装置として機能させるためのプログラム。