JP2011197410A

JP2011197410A - 音声認識装置、音声認識システム、及び音声認識プログラム

Info

Publication number: JP2011197410A
Application number: JP2010064175A
Authority: JP
Inventors: Toru Imai; 亨今井
Original assignee: Nippon Hoso Kyokai NHK
Current assignee: Japan Broadcasting Corp
Priority date: 2010-03-19
Filing date: 2010-03-19
Publication date: 2011-10-06
Anticipated expiration: 2030-03-19
Also published as: JP5271299B2

Abstract

【課題】音声認識の正解精度を向上させる。
【解決手段】入力音声に対する音声認識結果と誤り修正結果とを用いて音声認識を行う音声認識装置において、前記入力音声の音響特徴量を抽出する音響分析手段と、予め設定された音響モデル、言語モデル、及び発音辞書を用いて、候補単語のネットワークからなる単語ラティスを生成する単語ラティス生成手段と、前記単語ラティス生成手段により得られる前記単語ラティスから最尤単語列を選択する最尤単語列選択手段と、前記最尤単語列に対して修正された単語列を用いて前記音響モデルを学習させる音響モデル識別学習手段と、前記音響モデル識別学習手段により学習された音響モデルを用いて、前記修正された単語列に対する単語ラティスを再構成する単語ラティス再構成手段とを有することにより、上記課題を解決する。
【選択図】図１

Description

本発明は、音声認識装置、音声認識システム、及び音声認識プログラムに係り、特に音声認識の正解精度を向上させるための音声認識装置、音声認識システム、及び音声認識プログラムに関する。

従来、テレビ等の生放送番組にリアルタイムで字幕を付与する目的等で音声認識処理が行われている。このような音声認識処理を利用する場合、現状の音声認識技術では完璧ではなく、出力される認識単語列中に数パーセントの誤りが発生する。そこで、誤りをリアルタイムで修正する１名又は数名のオペレータを音声認識装置の後段に配置し、人手で誤りを修正したテキストを字幕放送として送出することが一般的である（非特許文献１、非特許文献２参照。）。

しかしながら、このようにリアルタイムで修正される単語の情報は、現状では音声認識装置にフィードバックされておらず、どの単語をどのように誤って認識したか、或いは正しく認識された単語は何であったかといった、以後の音声認識処理にとって有用な情報が有効に活用されてはいない。なお、近年では、誤りを含む音声認識結果を音声認識装置にフィードバックさせ、将来の認識精度を上げようとする研究がなされており、例えばキャッシュ・モデルと呼ばれる方法（例えば、非特許文献３参照。）や、誤りが修正されたテキストを音声認識装置にフィードバックさせる方法（例えば、非特許文献４参照。）が提案されている。

安藤他，"音声認識を利用した放送用ニュース字幕制作システム，"電子情報通信学会論文誌，ｖｏｌ．Ｊ８４−Ｄ−ＩＩ，ｎｏ．６，ｐｐ．８７７−８８７，２００１本間他，"ダイレクト方式とリスピーク方式の音声認識を併用したリアルタイム字幕制作システム"，映像情報学会論文誌，ｖｏｌ．６３，ｎｏ．３，ｐｐ．３３１−３３８，２００９非特許文献３：北研二著、"確率的言語モデル"、東京大学出版会、ｐｐ．７７、１９９９本間他、"報道系対談番組向け自由発話音声認識の改善"、日本音響学会春季研究発表会講演論文集、３−Ｑ−１７，ｐｐ．２４３−２４４，２００９

しかしながら、上述した従来手法は、何れも単語の連鎖出現確率を表す言語モデルの補正に留まっており、しかも将来の音声認識処理のみに反映されるものである。そのため、声の特徴を表す音響モデルを補正したり、既に音声認識済みだが字幕テキストとしては未確定の部分に対して逐次修正を行うといった処理ができないため、正解精度を迅速に向上させることはできないといった問題があった。

本発明は、上述した問題点に鑑みなされたものであり、音声認識の正解精度を向上させるための音声認識装置、音声認識システム、及び音声認識プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、入力音声に対する音声認識結果と誤り修正結果とを用いて音声認識を行う音声認識装置において、前記入力音声の音響特徴量を抽出する音響分析手段と、予め設定された音響モデル、言語モデル、及び発音辞書を用いて、候補単語のネットワークからなる単語ラティスを生成する単語ラティス生成手段と、前記単語ラティス生成手段により得られる前記単語ラティスから最尤単語列を選択する最尤単語列選択手段と、前記最尤単語列に対して修正された単語列を用いて前記音響モデルを学習させる音響モデル識別学習手段と、前記音響モデル識別学習手段により学習された音響モデルを用いて、前記修正された単語列に対する単語ラティスを再構成する単語ラティス再構成手段とを有することを特徴とする。

請求項１記載の発明によれば、音声認識の正解精度を向上させることができる。

請求項２に記載された発明は、前記単語ラティス再構成手段は、前記入力音声に対する初期の単語ラティスに含まれる各候補単語のうち、誤った単語を正しい単語へ置換させ、不足している正しい単語を新たに挿入し、正しい単語に接続し得ない単語を削除することにより、前記単語ラティスを全体的又は部分的に再構成することを特徴とする。

請求項２記載の発明によれば、修正された部分を迅速に単語ラティスに反映させることができるため、音声認識の正解精度をより向上させることができる。

請求項３に記載された発明は、前記音響モデル識別学習手段は、同じ入力音声に対する正解単語列を複数回取得した場合、最新の正解単語列の統計情報だけを利用し、前記最新の正解単語列以外の古い正解単語列の統計情報は削除して、前記音響モデルを学習させることを特徴とする。

請求項３記載の発明によれば、オペレータのミスや何らかの理由で同じ箇所に再度の修正が行われた場合でも、最新の正解単語列だけを音響モデルに学習させることで、モデルの精度を向上させることができる。

請求項４に記載された発明は、前記単語ラティス再構成手段は、前記修正された単語列が前記正解単語列となるまで繰り返し単語ラティスを再構成することを特徴とする。

請求項４記載の発明によれば、リアルタイムに修正内容を反映させることができる。また、複数の再構成を行うことで、音声認識の正解精度をより向上させることができる。

請求項５に記載された発明は、請求項１乃至４の何れか１項に記載の音声認識装置と、該音声認識装置から得られる音声認識結果に対して誤り修正を行う誤り修正装置とを含む音声認識システムにおいて、前記誤り修正装置は、前記音声認識装置から順次入力される最新の認識単語列を画面上に表示する単語列表示手段と、前記単語列表示手段により表示された認識単語列に対する誤り修正を行うための誤り修正手段と、前記誤り修正手段により得られる正解単語列を、外部装置に出力する、及び／又は、前記音声認識装置にフィードバックする情報出力手段とを有することを特徴とする。

請求項５記載の発明によれば、例えば、同じ発話に対する音声認識結果を繰り返し取得して、自動的に誤り修正装置の画面上の文字を最新の状態に変更することができる。したがって、音声認識結果に対する修正や確認を迅速且つ正確に行うことができる。

請求項６に記載された発明は、入力音声に対する音声認識結果と誤り修正結果とを用いて音声認識を行うための音声認識プログラムにおいて、コンピュータを、前記入力音声の音響特徴量を抽出する音響分析手段、予め設定された音響モデル、言語モデル、及び発音辞書を用いて、候補単語のネットワークからなる単語ラティスを生成する単語ラティス生成手段、前記単語ラティス生成手段により得られる前記単語ラティスから最尤単語列を選択する最尤単語列選択手段、前記最尤単語列に対して修正された単語列を用いて前記音響モデルを学習させる音響モデル識別学習手段、及び、前記音響モデル識別学習手段により学習された音響モデルを用いて、前記修正された単語列に対する単語ラティスを再構成する単語ラティス再構成手段として機能させる。

請求項６記載の発明によれば、音声認識の正解精度を逐次向上させることができる。また、実行プログラムをコンピュータにインストールすることにより、容易に音声認識処理を実現することができる。

本発明によれば、音声認識の正解精度を向上させることができる。

本実施形態における音声認識システムのシステム構成例を示す図である。誤り修正装置における機能構成の一例を示す図である。認識単語列表示手段に表示される文字列の変更例を示す図である。初期の単語ラティスの一例を示す図である。単語の置換により再構成された単語ラティスの一例を示す図である。単語の追加により再構成された単語ラティスの一例を示す図である。単語の削除により再構成された単語ラティスの一例を示す図である。本実施形態における各処理時刻の違いを説明するための図である。他の実施形態における音声認識装置の機能構成一例を示す図である。音声認識の処理手順の一例を示すフローチャートである。

＜本発明について＞
本発明は、例えば、音声認識結果の確定及び誤り修正情報を、オンラインで音声認識装置にフィードバックし、音響モデルの適応学習を正解単語と不正解単語の対応から識別的に実行する。また、本発明は、音声認識の候補単語のネットワークである単語ラティスを自動的に修正し、単語ラティスを再構成してリスコアリングすることにより、より正解精度の高い認識結果を逐次出力するものである。

具体的に説明すると、本発明では、例えばテレビ等の生放送番組にリアルタイムで字幕を付与する目的等で音声認識を利用する場合に、オンラインで逐次修正される文字列、即ち字幕テキストを音声認識装置にフィードバックすることで、既に出力済みの認識単語列でさえも、字幕テキストとして未確定であれば逐次自動修正し、より正解精度の高い認識結果を出力することが可能となる。

以下に、本発明における音声認識装置、音声認識システム、及び音声認識プログラムを好適に実施した形態について、図面を用いて説明する。なお、以下に示す音声認識は、基本的には１発話毎に逐次処理される。１発話とは、２つの無音区間（例えば、約４００ｍｓ程度で無音である区間）で囲まれた音声区間である。

＜音声認識システム：システム構成例＞
図１は、本実施形態における音声認識システムのシステム構成例を示す図である。図１に示す音声認識システム１は、音声認識装置１０として、音響分析手段１１と、単語ラティス生成手段１２と、言語モデル・発音辞書１３と、音響モデル１４と、最尤単語列選択手段１５と、単語ラティス再構成手段１６と、音響モデル識別学習手段１７とを有すると共に、更に誤り修正装置１８を有するよう構成されている。

なお、本実施形態では、図１に示すように、音声認識装置処理により出力された認識単語列の誤りを修正する誤り修正装置１８を音声認識装置１０の外部に設けているが、音声認識装置１０の内部に同様の構成を有していてもよい。

また、本実施形態における音響モデル１４の識別学習には、例えば音素誤り最小化学習（非特許文献：Ｄ．ＰｏｖｅｙａｎｄＰ．Ｃ．Ｗｏｏｄｌａｎｄ， “ＭｉｎｉｍｕｍｐｈｏｎｅｅｒｒｏｒａｎｄＩ−ｓｍｏｏｔｈｉｎｇｆｏｒｉｍｐｒｏｖｅｄｄｉｓｃｒｉｍｉｎａｔｉｖｅｔｒａｉｎｉｎｇ，” Ｐｒｏｃ．ＩＥＥＥＩＣＡＳＳＰ，ｐｐ．Ｉ−１０５−１０８，２００２．）等の一般的手法を用いることができる。

＜音声認識装置１０：機能構成例＞
まず、音声認識システム１における音声認識装置１０の具体的な機能構成について説明する。

音響分析手段１１は、外部から入力される音声信号（入力音声）を分析し、その音響特徴量を抽出する。なお、音響特徴量としては、例えば周波数特性や音のパワー等の各種音響特徴量を抽出する。また、これらの特徴量は、まず音声信号の音声波形に窓関数（ハミング窓等）をかけることによりフレーム化された波形を抽出し、その波形を周波数分析することで、種々の特徴量を抽出する。本実施形態では、例えば、フレーム化された波形のパワースペクトルの対数を逆フーリエ変換した値であるケプストラム係数等を特徴量とすることができ、その他にも一般的な音声認識手法で用いられている。本実施形態では、例えば声の特徴を表す１２次元程度のメル周波数ケプストラム係数（ＭＦＣＣ：ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ）（例えば、鹿野他、「音声認識システム」、オーム社、２００１等を参照。）や、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）係数のような声道の形状を数値化した特徴量、韻律（ピッチ、抑揚等）等の特徴量、またそれらの特徴量の平均値や分散等の統計的情報を分析することにより、種々の特徴量を取得することができる。また、音響分析手段１１は、分析により得られる各種音響特徴量を単語ラティス生成手段１２に出力する。

単語ラティス生成手段１２は、音響分析手段１１により得られる音響特徴量から、予め蓄積されている言語モデル・発音辞書１３及び音響モデル１４を利用して、認識候補として可能性のある複数の単語のネットワークにより構成された単語ラティスを生成する。また、単語ラティス生成手段１２は、生成した単語ラティスを最尤単語列選択手段１５に出力する。

言語モデル・発音辞書１３は、予め設定された本実施形態における音声認識に必要な複数の言語モデルと発音辞書とを蓄積する。ここで、言語モデルには、例えば単語と単語の繋がり易さを確率で表した一般的なＮグラム・モデルを利用することができ、これにより、例えば『単語「地球」の次に単語「温暖化」が接続する確率は０．８』等とそれぞれの単語の繋がり易さを数値化して表現することができる。

また、発音辞書は、各単語の発音を母音と子音の組み合わせで表したファイルであり、例えば単語「地球」の発音は「／ｃｈｉｋｙｕ：／」等と記述されている。なお、言語モデルと発音辞書とは、図１に示すように、それぞれ一体のデータベースで蓄積されていてもよく、また別体のデータベースとして構成されていてもよい。言語モデル・発音辞書１３のデータは、単語ラティス生成手段１２で利用される。

音響モデル１４は、各母音・子音の声の周波数特性等を表したものであり、一般的な隠れマルコフ・モデル（ＨＭＭ；ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）で表すことができる。また、本実施形態では、音響モデル１４又は単語ラティス生成手段１２内に音声認識パラメータを有していてもよい。音声認識パラメータとは、音声認識の過程で保持すべき最大単語数や、言語モデルと音響モデルによる各スコアのバランスを調整する重み係数等、音声認識の正確さと処理速度を調整する変数の情報である。

更に、上述した音響モデル１４は、音響モデル識別学習手段１７により、単語ラティス再構成手段１６から得られる正解単語列を利用して、最新のものに学習することができる。音響モデル１４のデータは、次の発話に対して単語ラティス生成手段１２及び現在処理中の発話に対して単語ラティス再構成手段１６で利用される。

また、本実施形態のように、言語モデル・発音辞書１３及び音響モデル１４を音声認識装置１０の内部に設けているが、外部に設けられていてもよく、その場合には他の外部装置等により適宜更新されていてもよい。

最尤単語列選択手段１５は、単語ラティス生成手段１２により得られた単語ラティスのうち、最も高いスコアとなる単語列の経路を探索し、これを初期の認識単語列として出力する。

上述までの処理により得られる認識単語列は、その後、誤り修正装置１８により正誤判定が行われる。誤り修正装置１８では、入力音声に対応する現在処理中の発話の始端部分から、誤り修正オペレータによって順次正解単語の確定と誤り単語の修正がほぼリアルタイムに実行され、これらの部分的な正解単語列が、例えば字幕放送等のアプリケーション（外部装置）で利用されると共に、誤り修正を反映させるため、単語ラティス再構成手段１６に出力される。

つまり、誤り修正装置１８は、入力された認識単語列に対する正誤判定により誤りの有無を判断し、その判定結果（ＯＫ又は修正がある旨の制御信号）、及び、そのＯＫ又は修正後のデータの内容（修正された単語列（元から正解だった単語列、又は、誤りが正解に修正された単語列））を音声認識装置１０に出力する。

単語ラティス再構成手段１６は、音響モデル識別学習手段１７により学習された音響モデル１４を用いて、正解単語列等の修正された単語列に対する単語ラティスを再構成する。なお、単語列とは、例えば、入力音声の発話区間に対応する１つ又は複数の単語からなる部分文字列である。

また、単語ラティス再構成手段１６は、現時点で初期の音声認識処理はいったん終了しているが、字幕テキスト等の最終結果としては未確定部分の音声認識の単語ラティスのうち、不正解単語に対応する単語ノードとのリンクを、正解単語列から除去する。また、単語ラティス再構成手段１６は、これら除去される単語ノードにしか接続し得ない最終結果未確定部分の単語ノードも除去し、現在処理中の発話の単語ラティスを正解単語列のみに対応するように単語ラティスを再構成して更新する。

また、単語ラティス再構成手段１６は、再構成された単語ラティスを最尤単語列選択手段１５に出力する。また、単語ラティス再構成手段１６は、最終的に確定された情報（正解単語列）を音響モデル識別学習手段１７に出力する。なお、確定された正解単語列は、例えば、誤り修正装置１８からＯＫの制御信号を受信した場合に、その信号に付随して受信した正解単語列である。

なお、単語ラティス再構成手段１６は、誤り修正装置１８から得られる単語列は、１発話全体の単語列でもよく、また１発話中の１つ又は複数の単語からなる部分文字列でもよい。

音響モデル識別学習手段１７は、単語ラティス再構成手段１６から正解単語列の情報を入力し、入力された正解単語列から、単語ラティスにおける正解単語と誤り単語を特定し、これらの時間的な対応付けを利用して、音響モデル１４を識別的に適応学習し、これを更新する。また、音響モデル識別学習手段１７は、適応学習された音響モデル１４を用いて、単語ラティスにおける全単語のスコアを再計算して更新する。ただし、音響モデル識別学習手段１７は、後述する除去対象の単語のスコアは再計算しない。

また、音響モデル識別学習手段１７における音響モデル１４の更新タイミングは、単語ラティス再構成手段１６から最終的に確定された正解単語列を入力したときが好ましい。なお、それ以外にも、例えば、誤り修正装置１８からの正解単語列を単語ラティス再構成手段１６が入力し、単語ラティス再構成手段１６が音響モデル識別学習手段１７に出力したときに更新を行うようにしてもよい。これにより、単語ラティス再構成手段１６による再構成処理が行われる度に音響モデル１４の更新処理を行うことができる。更に、音響モデル識別学習手段１７は、ある一定時間毎、又はある一定の文字量毎、実行制御信号等受信したタイミング等により更新を行ってもよい。

更に、音響モデル識別学習手段１７は、例えば同じ入力音声に対する正解単語列を複数回取得した場合には、その中から最新の正解単語列の統計情報だけを利用し、それ以外の古い正解単語列の統計情報は削除して、音響モデル１４を識別学習してもよい。

上記の再構成が終了後、最尤単語列選択手段１５は、単語ラティスのうち、最も高いスコアとなる単語列の経路を再度探索し、これを誤り反映後の認識単語列として出力し、それ以降は、上述した誤りの修正と正解単語列のフィードバック、音響モデル１４、及び単語ラティスの更新を発話終了まで繰り返す。

誤り修正装置１８は、１つの発話の入力音声に対する認識単語列を繰り返し取得し、常に最新の単語ラティスに基づく最尤な単語列を、誤り修正を行うオペレータに逐次提示する。また、誤り修正装置１８は、オペレータにより修正された正解単語列を音声認識装置１０に出力する。

ここで、本実施形態における音声認識装置１０は、発話途中でも認識結果を逐次に早期確定する手法を想定している。逐次音声認識は、例えば特許第３８３４１６９号公報で示されているような早期確定型の従来手法等を用いることができる。これにより、単語ラティス、認識単語列、及び正解単語列は、発話全体ではなく発話の先頭部分から順次対応することになり、より正しい認識結果をより早く、例えば約０．５秒程度の遅れ時間で出力することになる。なお、本実施形態で適用される早期確定型の従来手法については、本発明ではこれに限定されるものではない。

＜誤り修正装置１８：機能構成例＞
次に、上述した音声認識システム１における誤り修正装置１８の具体的な機能構成例について図を用いて説明する。図２は、誤り修正装置における機能構成の一例を示す図である。図２に示す誤り修正装置１８は、認識単語列表示手段２１と、誤り修正手段２２と、情報出力手段２３とを有するよう構成されている。

誤り修正装置１８は、音声認識装置１０から最新の認識単語列を順次入力すると、その文字列を認識単語列表示手段２１により画面上に表示する。なお、認識単語列表示手段２１は、例えばタッチパネルやモニター等の画面等からなる。また、認識単語列表示手段２１は、表示される認識単語文字列を画面の大きさや文字列の内容に合わせて改行して複数行に表示させる。このとき、認識単語列は、単語毎に区切られているため、認識単語列表示手段２１は、その区切られた単語間で改行することがないように、単語単位で纏めて表示させる。

誤り修正手段２２は、例えばタッチパネル、キーボード、マウス等の入力装置を用いてユーザ（誤り修正オペレータ）等により入力されたＯＫ又は誤りがある旨の信号、及びその修正された又は正解確定の文字列を決定する。つまり、誤り修正手段２２は、ユーザが画面に表示された認識単語列を確認して修正の有無を判断し、その結果、及び、修正時がある場合には、その修正後のデータの内容を入力する。

情報出力手段２３は、得られた正解単語列に対する制御信号がＯＫの場合には、その正解単語列を、字幕放送等のアプリケーション（外部装置）に出力したり、音声認識装置１０にフィードバックするといった処理を行う。なお、上述したアプリケーションへの出力や音声認識装置１０へのフィードバックは、両方行ってもよく、また何れか一方を行ってもよい。

また、情報出力手段２３は、正解単語列に対する制御信号がＮＧの場合には、上述の誤り修正オペレータが入力した正しい単語列を音声認識装置１０に出力してフィードバックすると共に、これを字幕放送等のアプリケーションに出力する。なお、情報出力手段２３は、音声認識装置１０に対して上述したＯＫ、ＮＧの制御信号も送ることができる。これにより、音声認識装置１０は、誤り修正の結果を容易に取得することができる。

＜認識単語列表示手段２１における文字列の変更例＞
次に、認識単語列表示手段２１における文字列の変更例について、図を用いて説明する。図３は、認識単語列表示手段に表示される文字列の変更例を示す図である。図３に示すように、誤り修正装置１８の表示画面３０には、音声認識装置１０から得られる文字列が表示される。

音声認識の例としては、例えば入力音声「次／の／ニュース／です」を「続いて／は／ニューヨーク／して」と音声認識した場合、まず誤り修正装置１８の認識単語列表示手段２１が、入力音声から約０．５秒遅れ程度で同期しながら、ほぼリアルタイムで１単語毎に次々に音声認識結果を画面表示していく（図３（ａ））。

なお、誤り修正装置１８の表示画面３０には、例えば最大１６文字×１０行程度を表示することができ、単語の境界を明確にするため、記号「｜」等の仕切り３１で明示されている。なお、仕切り３１の記号については、本発明においては上記限定されるものではなく、「／」や「＠」、「＃」等であってもよく、括弧で括られていてもよい。

誤り修正装置１８は、初期の誤った認識結果「続いて」を表示画面３０に表示すると、誤り修正を行うオペレータのタッチパネル及びキーボード等の入力手段により、「続いて」（図３（ｂ））から正しい単語「次」への修正指示を誤り修正手段２２で実行する。また、実行結果は、表示画面３０をそのように書き換える（図３（ｃ））。

修正されたテキストは、正解単語列として字幕放送等のアプリケーションで利用されると共に、音声認識装置１０にフィードバックされる。音声認識装置１０では、音響モデル１４の識別学習と単語ラティスの再構成を行い、未確定部分に対してより正しい単語列「の／ニュース／です」が認識単語列として、誤り修正装置１８に再度送られる。

誤り修正装置１８は、常に最新の認識単語列を表示画面３０に表示する（図３（ｄ））。そのため、オペレータは、これ以上の誤りを修正する必要がなく、最初の１単語を修正するだけで、残りの単語も自動的に修正することができ、即座に正解単語列を確定することができる。なお、オペレータは、表示画面３０の１行単位で認識結果を確定および出力指示することができ、この１行単位は、音声認識における１つの発話単位として切り出された音声区間と全く同じか、図３（ｅ）に示すように、それよりも短い場合があり得る。これにより、誤り修正オペレータは発話終了を待たずに、発話中であっても、認識結果の確定と修正を入力音声から遅れなく実行することができる。なお、上述した本実施形態における修正は、仕切り３１で区切られた単語毎に行ってもよく、また複数の単語からなる文字列で行ってもよい。

＜単語ラティス再構成の具体例＞
次に、単語ラティス再構成の具体例について、図を用いて説明する。図４は、初期の単語ラティスの一例を示す図である。また、図５は、単語の置換により再構成された単語ラティスの一例を示す図である。また、図６は、単語の追加により再構成された単語ラティスの一例を示す図である。また、図７は、単語の削除により再構成された単語ラティスの一例を示す図である。

いま、入力音声の発話内容が、仮に「次／の／ニュース／です」であったとする。ここで、記号「／」は、単語の境界（仕切り３１）を表す。本実施形態では、音響分析手段１１において音響特徴量が抽出され、単語ラティス生成手段１２において、例えば図４に示すように、認識候補として可能性のある複数の単語のネットワーク（単語ラティス）が生成されたとする。

ここで、図４の発話始端は発声直前の無音（発音記号ｓｉｌ）を表し、発話終端は発話直後の無音（発音記号ｓｉｌ）を表し、その他の単語は入力音声に対して可能性のある候補単語を表す。また、これらの単語ノードは、単語の漢字仮名表記に加えて、母音・子音で表される発音記号、正解としての尤もらしさを表すスコア、そして入力音声中での単語終端時刻の情報を持つものとする。更に、単語ノード間の矢印で表される各リンクは、単語の接続可能性を表す。

なお、図４〜図７の例では、発明の内容をより明確に示すため、正解となるべき単語ノード間を実線のリンクで結び、不正解となるべき単語ノード間を破線のリンクで結んでいる。また、図４〜図７では、図の上位に書かれた単語ノード程、スコアが高いものとする。

最尤単語列選択手段１５では、図４で示された初期の単語ラティスのうち、最も高いスコアとなる単語列の経路を探索し、これを初期の認識単語列として出力するので、この例では、「続いて／は／ニューヨーク／して」という認識単語列が出力されることになる。

誤り修正装置１８では、ユーザ（誤り修正オペレータ）等によって、誤った単語「続いて」が正しい単語「次」に修正されると、この部分的な正解単語列「次」が単語ラティス再構成手段１６及び音響モデル識別学習手段１７に入力される。

なお、本実施形態では一例として、音声認識装置１０が発話途中でも認識結果を逐次に早期確定するリアルタイム向きのタイプを想定している。

音響モデル識別学習手段１７は、部分的な正解単語列から、単語ラティスにおける正解単語「次」と誤り単語「続いて」を特定し、これらの時間的な対応付けを利用して、音響モデル１４を識別的に適応学習し、これを更新する。

これにより、音響モデル１４は、正解の発音／ｔｓ，ｕ，ｇ，ｉ／に対するスコアが、誤った発音／ｔｓ，ｕ，ｚ，ｕ，ｉ，ｔ，ｅ／に対するスコアよりも高くなるよう、適応学習がなされ、単語ラティス中の全単語のスコアをこれで更新する。これにより、図５に示すように、例えば単語「して」と単語「です」のスコアが逆転し、単語「です」の方が単語「して」のスコアよりも高くなるというような場合も起こり得る。これは、従来のフィードバック手法で困難だった音響的な誤り修正に対応するものである。

単語ラティス再構成手段１６は、部分的な正解単語列に基づき、単語ラティスから誤り単語「続いて」を除去すると共に、誤り単語「続いて」にしか接続し得ない単語ノード「は」、「ニューヨーク」も除去する。これにより、字幕テキスト等の最終結果として未確定部分の単語ラティスは、現時点までの確定及び誤り修正情報を反映して再構成されることになる。

なお、この例では、図５に示すように「次／の／ニュース／です」という単語系列が認識単語列として最尤単語列選択手段１５で選択し再出力される。また、ユーザ（誤り修正を行うオペレータ）等によって後続の単語「の」が正しいと確定された場合には、誤った単語「が」からしか接続し得ない単語「入浴」や単語「でした」も自動的に除去されることになる。

このように、本実施形態においては、ユーザ等が１単語目から誤りの修正と正解単語の確定操作をするだけで、後続の認識誤りを自動的に修正できる可能性がある。以降、誤りの修正とフィードバック、音響モデルと単語ラティスの更新を発話終了まで繰り返すことで、発話中でありながらも、順次誤り修正結果を認識結果に反映させることが可能となる。

上述した誤り修正の例では、単語ラティスの中に正しい単語が含まれており、ユーザ等の指示に基づいて単語ラティスを再構成した。一方、単語ラティスに含まれていない単語を誤り修正オペレータが正しい単語として入力した場合には、例えば図６の「話題」のように、新たな単語ノードを単語ラティスに追加する。また、図７に示すように、ユーザが単語「して」を削除すべきと指示した場合には、単語ノード「して」を削除すると共に、単語ノード「ニュース」から発話終端への新たなリンクを追加する。もし、仮に図４の最上位の列（初期の認識結果）が全て正しい場合には、ユーザが単語を変更することなく確定するため、単語に変更があった場合と同様、正解単語と誤り単語の情報を利用して、音響モデル１４の識別的適応学習及び更新を実施することができる。

このように、本実施形態によれば、ラティスの再構成について置換、追加、削除のあらゆるパターンについて適切なラティスを迅速且つ正確に構成することができる。なお、本実施形態において、上述した単語の置換、追加、削除は、適宜組み合わせて適用することができる。

音声認識装置１０は、上述したような単語ラティスの再構成等を行い、未確定部分のより正しい単語列を認識単語列として、誤り修正装置１８に再度出力することができる。したがって、誤り修正装置１８は、常に最新の認識単語列を表示するので、誤り修正オペレータはこれ以上の誤りを修正する必要がなく、即座に正解単語列を確定できる場合もある。

＜本実施形態における処理時刻の違い＞
次に、本実施形態における各処理時刻の違いについて、図面を用いて説明する。図８は、本実施形態における各処理時刻の違いを説明するための図である。なお、図８では、発話始端から時刻Ｔ１までの音声が、音声認識装置に既に入力されたものとする。

音声認識装置１０は、音響分析手段１１において数十ミリ秒の時間差を要するため、単語ラティス生成手段１２では、時刻Ｔ２の部分の音声認識処理（音響スコア及び言語スコアの算出と部分的な単語ラティスの生成）を実行していると考えられる。また、安定して信頼できる最尤単語列を出力するには、更に数百ミリ秒の時間差を要するため、時刻Ｔ３までの最尤認識単語列が出力されると共に、これと同じ文字列が誤り修正装置１８に表示される。誤り修正を行うオペレータは、この表示される文字列とほぼ同期して遅らせた音声をモニターしており、正解か誤りかの判定、及び正しい単語への修正に多少の時間を要するため、時刻Ｔ４までの正解単語列が確定されることになる。

また、時刻Ｔ２までは単語ラティスが生成済みなので、正解単語列に基づき、時刻Ｔ２と時刻Ｔ４との間の単語ラティスが再構成されることになる。ここで、もし、最尤単語列も自動的に変更されることになれば、誤り修正装置１８の表示画面上では時刻Ｔ３と時刻Ｔ４の間の最終結果未確定部分が更新されることとなる。

＜他の実施形態＞
ここで、上述した本実施形態では、音響モデル識別学習手段１７において音響モデル１４を更新していたが、本発明においてはこれに限定されるものではなく、例えば、上述した学習を言語モデル・発音辞書１３に含まれる言語モデルにおいても同様に行うことができ、言語モデルも識別学習させることで、より高精度な音声認識を実現することができる。ここで、上述した内容を他の実施形態として、図を用いて説明する。

図９は、他の実施形態における音声認識装置の機能構成一例を示す図である。なお、図９に示す音声認識装置４０と、上述した図１における音声認識装置１０とにおいて、略同一の機能を有する構成部分には同一番号を付するものとし、ここでの具体的な説明は省略する。

図９では、上述した実施形態と比較すると、音声認識装置４０に言語モデル識別学習手段４１が設けられている。つまり、本実施形態では、言語モデル識別学習手段４１を用いて言語モデルも入力される正解単語列に対応させて、音響モデル１４と同様に、言語モデル・発音辞書１３についても逐次更新することで、より高精度な音声認識を実現することができる。

このとき、単語ラティス再構成手段１６は、音響モデル１４だけでなく、言語モデル・発音辞書１３からもデータを取得して単語ラティスの再構成を行うことができる。

なお、上述した実施形態の他にも、本発明においては、例えば音響モデルや言語モデル等に対する識別学習を行わず、単語ラティスを再構成する単語ラティス再構成手段１６のみを備えた構成であっても同様の効果を得ることができる。

＜実行プログラム＞
ここで、上述した本実発明における音声認識装置は、ＣＰＵ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータを表示する表示部、並びに外部と通信するためのインタフェイスを備えたコンピュータによって構成することができる。

したがって、音声認識装置１０が有する各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク（フロッピィーディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記録媒体に格納して頒布することもできる。

つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム（音声認識プログラム）を生成し、例えば、汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、音声認識処理を実現することができる。

次に、本発明における実行プログラムによる音声認識処理手順についてフローチャートを用いて説明する。

＜音声認識処理手順例＞
図１０は、音声認識の処理手順の一例を示すフローチャートである。なお、図１０は、誤り逐次修正型音声認識装置全体のフローチャートを示している。

まず、音声認識装置全体の動作を開始すると、認識させたい音声が入力され始めると（Ｓ０１）、最初に音響分析を行い予め設定された音響特徴量を抽出する（Ｓ０２）。また、音声の発話始端を検出する（Ｓ０３）。その後、上述した言語モデルや発音辞書、音響モデル等を利用して、認識候補として可能性のある複数の単語のネットワーク、即ち単語ラティスを生成する（Ｓ０４）。

単語ラティスが生成されると、安定して信頼できる最尤単語列を選択し、これを誤り修正手順やフィードバックさせるための手順に出力する（Ｓ０５）。なお、誤り修正手順では、音声認識処理と並行して、誤りの修正と正解の確定手順を実行する。また、これらの手順は、上述する誤り修正装置１８が行う処理に相当する。

ここで、上述した誤り修正手順により正解単語列の入力があるか否かを判断し（Ｓ０６）、正解単語列の入力がある場合（Ｓ０６において、ＹＥＳ）、音響モデルの識別学習（Ｓ０７）、単語ラティスの再構成（Ｓ０８）、最尤単語列の選択及び出力（Ｓ０９）を行う。このとき、最尤単語列は、再び誤り修正手順において、以降の音声認識処理と並行して誤りの修正と正解の確定が行われる（Ｓ１０）。

次に、Ｓ１０の終了後又はＳ０６の処理において正解単語列の入力なしで結果確定処理がなされる場合（Ｓ０６において、ＮＯ）、音声認識処理が発話終端に達したか否かを判断し（Ｓ１１）、まだ発話終端に達していない場合（Ｓ１１において、ＮＯ）、Ｓ０４に戻り、単語ラティスの生成以降の処理を繰り返す。また、発話終端に達している場合（Ｓ１１において、ＹＥＳ）、次に、音声認識処理全体を終了するか否かを判断する（Ｓ１２）。まだ音声認識処理全体を終了しない場合（Ｓ１２において、ＮＯ）、Ｓ０３に戻り、次の発話の始端検出以降の処理を行う。また、音声認識処理を終了する旨の指示を受けた場合（Ｓ１２において、ＹＥＳ）、全体の処理を終了する。

なお、上述した発話始端検出及び終端検出の処理手順は、公知のあらゆる発話区間検出方式での動作が可能であり、例えば本出願人により出願された特開２００７−２３３１４８号公報に記載された技術等を利用することができる。また、言語モデル及び発音辞書と音響モデルを利用して、認識候補として可能性のある複数の単語のネットワーク、即ち単語ラティスを生成していく音声認識の処理手順は、公知のあらゆる音声認識方式での動作が可能であり、例えば特許第３８３４１６９号公報に記載された技術等を利用することができる。なお、上述の手法は、本発明においては上記公報に記載された内容に限定されるものではない。

上述したように、本発明によれば、音声認識の正解精度を向上させることができる。具体的には、音声認識結果の確定及び誤り修正情報をオンラインで音声認識装置にフィードバックし、正解単語と不正解単語の対応から音響モデルを識別的に適応学習すると共に、音声認識の候補単語のネットワークである単語ラティスを自動的に修正し、単語ラティスを再構成してリスコアリングすることにより、より正解精度の高い認識結果を逐次出力することができる。

つまり、本発明によれば、例えば既に音声認識済みだが、字幕テキスト等の最終結果としては未確定の部分でさえも、迅速に正解精度を向上させ、誤り修正オペレータの作業負担を軽減し、更には字幕テキスト等の最終結果をより正しく、より少ない遅れ時間で提供することができる。

また、本発明によれば、字幕制作の他にも、会議・議会・講義・法廷等での議事録や書き起こし作成、携帯電話等での音声入力等、オンラインで音声認識結果の確認及び誤り修正が施される音声文字化システム等に広く利用できる。

以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

１音声認識システム
１０，４０音声認識装置
１１音響分析手段
１２単語ラティス生成手段
１３言語モデル・発音辞書
１４音響モデル
１５最尤単語列選択手段
１６単語ラティス再構成手段
１７音響モデル識別学習手段
１８誤り修正装置
２１認識単語列表示手段
２２誤り修正手段
２３情報出力手段
３０表示画面
３１仕切り
４１言語モデル識別学習手段

Claims

入力音声に対する音声認識結果と誤り修正結果とを用いて音声認識を行う音声認識装置において、
前記入力音声の音響特徴量を抽出する音響分析手段と、
予め設定された音響モデル、言語モデル、及び発音辞書を用いて、候補単語のネットワークからなる単語ラティスを生成する単語ラティス生成手段と、
前記単語ラティス生成手段により得られる前記単語ラティスから最尤単語列を選択する最尤単語列選択手段と、
前記最尤単語列に対して修正された単語列を用いて前記音響モデルを学習させる音響モデル識別学習手段と、
前記音響モデル識別学習手段により学習された音響モデルを用いて、前記修正された単語列に対する単語ラティスを再構成する単語ラティス再構成手段とを有することを特徴とする音声認識装置。
前記単語ラティス再構成手段は、
前記入力音声に対する初期の単語ラティスに含まれる各候補単語のうち、誤った単語を正しい単語へ置換させ、不足している正しい単語を新たに挿入し、正しい単語に接続し得ない単語を削除することにより、前記単語ラティスを全体的又は部分的に再構成することを特徴とする請求項１に記載の音声認識装置。
前記音響モデル識別学習手段は、
同じ入力音声に対する正解単語列を複数回取得した場合、最新の正解単語列の統計情報だけを利用し、前記最新の正解単語列以外の古い正解単語列の統計情報は削除して、前記音響モデルを学習させることを特徴とする請求項１又は２に記載の音声認識装置。
前記単語ラティス再構成手段は、
前記修正された単語列が前記正解単語列となるまで繰り返し単語ラティスを再構成することを特徴とする請求項３に記載の音声認識装置。
請求項１乃至４の何れか１項に記載の音声認識装置と、該音声認識装置から得られる音声認識結果に対して誤り修正を行う誤り修正装置とを含む音声認識システムにおいて、
前記誤り修正装置は、
前記音声認識装置から順次入力される最新の認識単語列を画面上に表示する単語列表示手段と、
前記単語列表示手段により表示された認識単語列に対する誤り修正を行うための誤り修正手段と、
前記誤り修正手段により得られる正解単語列を、外部装置に出力する、及び／又は、前記音声認識装置にフィードバックする情報出力手段とを有することを特徴とする音声認識システム。
入力音声に対する音声認識結果と誤り修正結果とを用いて音声認識を行うための音声認識プログラムにおいて、
コンピュータを、
前記入力音声の音響特徴量を抽出する音響分析手段、
予め設定された音響モデル、言語モデル、及び発音辞書を用いて、候補単語のネットワークからなる単語ラティスを生成する単語ラティス生成手段、
前記単語ラティス生成手段により得られる前記単語ラティスから最尤単語列を選択する最尤単語列選択手段、
前記最尤単語列に対して修正された単語列を用いて前記音響モデルを学習させる音響モデル識別学習手段、及び、
前記音響モデル識別学習手段により学習された音響モデルを用いて、前記修正された単語列に対する単語ラティスを再構成する単語ラティス再構成手段として機能させるための音声認識プログラム。