JP5447382B2

JP5447382B2 - 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム

Info

Publication number: JP5447382B2
Application number: JP2010526623A
Authority: JP
Inventors: 山本　　仁; 健花沢; 清一三木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-08-27
Filing date: 2009-07-10
Publication date: 2014-03-19
Anticipated expiration: 2029-07-10
Also published as: WO2010024052A1; JPWO2010024052A1

Description

本発明は、音声をテキストデータ等の電子データに変換する音声認識技術で得られる音声認識仮説を検証する音声認識仮説検証装置、音声認識装置、およびそれに用いられる音声認識仮説検証方法、音声認識方法、音声認識仮説検証用プログラム並びに音声認識用プログラムに関する。

音声認識技術の進歩に伴い、電話・多人数会議の記録作成支援用途や、携帯電話等の音声ＵＩ（User Interface）用途など、実応用の場で利用される音声認識システムが構築される場面が増えてきた。

しかし、電話や会議での自発発話（話し言葉）と呼ばれる音声において特徴的な音響面および言語面における多様な現象や、屋外の多種多様な雑音などの影響により、十分な音声認識精度を得ることは難しい。音声認識に誤りが発生すると、誤り訂正のコストが必要となったり、システム誤動作が発生するという問題が生じる。このような音声認識誤りによる悪影響を抑えるためには、音声誤りの検出が重要である。

音声誤りを検出する方法として、音声認識仮説の検証装置によってその正誤を判定する方法が考えられる。この音声認識仮説を検証するために、仮説中の各単語の信頼度尺度を用いる方法が提案されている。

例えば、特許文献１には、音声認識結果の検証に用いる信頼度尺度として各単語の一般化単語事後確率を求め、その値によって発話や単語ごとにその正誤を判定する検証装置が記載されている。

また、例えば、特許文献２には、音声認識手段の生成した文字列および単語列の正誤を予め用意した単語辞書を参照して判定する判定手段と、誤認識と判定された場合に、異なる方法の音声認識により新たな単語列を生成するリライト手段とを含むシステムが記載されている。

特開２００５−１６４８３７号公報特開２００１−１３４２８８号公報

しかし、特許文献１に記載されている検証装置や特許文献２に記載されている方法では、音声認識仮説の検証に基づく認識誤りの検出精度が十分でないという問題点がある。特許文献１に記載されている検証装置では、音声認識仮説の検証を仮説中の単語単位で行うため、認識誤り区間が仮説中の単語単位の組み合わせでしか得られない。すなわち、音声認識仮説に含まれる数少ない単語境界のみを用いて、発話中のどの区間の認識を誤ったかを検出するため、音声認識誤り区間の検出精度が十分ではなくなってしまう。

また、特許文献２に記載されているシステムは、単語辞書を用いて音声認識仮説の正誤の判断を行った結果、誤りと判断された単語列を正しい単語列に置き換えるというものである。正誤の判断に単語辞書を用いていることからも明らかなように、検証は単語単位であり、音声認識誤り区間の検出精度が十分ではなくなってしまう点は特許文献１と同様である。

本発明は、上記課題に鑑みてなされたものであり、音声認識仮説の検証に際し、発話中の音声認識誤り区間の検出精度を高めた音声認識仮説検証装置およびそれを利用する音声認識装置、音声認識仮説検証方法、音声認識方法、音声認識仮説検証用プログラム並びに音声認識用プログラムを提供することを目的とする。

本発明による音声認識仮説検証装置は、入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す１つ以上の検証単位を設定する検証単位変換部と、検証単位変換部によって設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する単位判定部とを備え、検証単位変換部は、音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含む１つ以上の検証単位を設定する。

また、本発明による音声認識装置は、入力された音声に対して音声認識を行い、音声認識仮説を生成する第１の音声認識部と、第１の音声認識部によって生成された音声認識仮説の検証を行う音声認識仮説検証部と、音声認識仮説検証部による音声認識仮説の検証結果を参照して、再び音声認識を行う第２の音声認識部とを備え、音声認識仮説検証部は、入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す１つ以上の検証単位を設定する検証単位変換部と、検証単位変換部によって設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する単位判定部とを有し、検証単位変換部は、音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含む１つ以上の検証単位を設定する。

また、本発明による音声認識仮説検証方法は、音声認識仮説を検証する音声認識仮説検証方法であって、入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す１つ以上の検証単位を、少なくとも音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含むように設定し、設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する。

また、本発明による音声認識方法は、入力された音声に対して音声認識を行って音声認識仮説を生成し、生成された音声認識仮説に対して、検証の処理単位となる時間区間を表す１つ以上の検証単位を、少なくとも音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含むように設定し、設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証し、音声認識仮説の検証結果を参照して、認識正解と判定された時間区間の認識仮説に基づいて選定した音響モデルまたは言語モデルを用いて、再度音声認識を行う。

また、本発明による音声認識仮説検証用プログラムは、コンピュータに、入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す１つ以上の検証単位を、音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含むように設定する手順と、設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する手順とを実行させる。

また、本発明による音声認識用プログラムは、コンピュータに、入力された音声に対して音声認識を行って音声認識仮説を生成する手順と、生成された音声認識仮説に対して、検証の処理単位となる時間区間を表す１つ以上の検証単位を、少なくとも音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含むように設定する手順と、設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する手順と、音声認識仮説の検証結果を参照して、認識正解と判定された時間区間の認識仮説に基づいて選定した音響モデルまたは言語モデルを用いて、再度音声認識を行う手順とを実行させる。

本発明によれば、発話中の音声認識誤り区間の検出精度を高めることができる。

本発明の音声認識仮説検証装置の構成例を示すブロック図である。本発明の音声認識仮説検証装置の他の構成例を示すブロック図である。本発明の第１の実施形態にかかる音声認識仮説検証装置の構成例を示すブロック図である。検証単位の例を示す説明図である。文字・音節・音素・ＨＭＭの状態・音声特徴量の対応例を示す説明図である。検証モデルの一例であるＣＲＦで用いる素性の表現例を示す説明図である。区間判定規則に規定する変更方法の例を示す説明図である。図３に示した音声認識仮説検証装置の動作の一例を示すフローチャートである。本発明の第２の実施形態にかかる音声認識装置の構成例を示すブロック図である。発話と、第１の音声認識部による音声認識仮説と、音声認識仮説検証部による検証結果の例を示す説明図である。

以下に、本発明を実施するための形態について図面を参照して詳細に説明する。

図１は、本発明の音声認識仮説検証装置の構成例を示すブロック図である。

図１に示す音声認識仮説検証装置は、検証単位変換部１と、単位判定部２とを備える。

検証単位変換部１は、入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す１つ以上の検証単位を設定する。検証単位変換部１は、入力された音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含む１つ以上の検証単位を設定する。検証単位変換部１は、例えば、音声認識仮説に含まれる単語の時間区間よりも小さな時間区間が設定された検証単位を含む１つ以上の検証単位を設定してもよい。例えば、音声分析フレーム単位に基づいて１つ以上の検証単位を設定してもよい。

単位判定部２は、検証単位変換部１によって設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する。単位判定部２は、例えば、検証単位の時間区間における音声認識誤りに関する特徴を含む複数種類の特徴を素性とする確率モデルからなる検証モデルと、検証単位ごとに処理対象の音声認識仮説から抽出される特徴とに基づいて、各検証単位の時間区間における認識仮説の正誤を検証してもよい。例えば、単位判定部２は、検証モデルと検証単位ごとに抽出される特徴とに基づいて、検証単位ごとに当該検証単位の時間区間に対する認識仮説が確からしい度合いを示す検証スコアを算出することにより、各検証単位の時間区間における認識仮説の正誤を検証してもよい。また、検証モデルとして、ＣＲＦモデルを用いてもよい。

このように、検証単位変換部１が、音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含む１つ以上の検証単位を設定し、単位判定部２が、その設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証することにより、発話中の音声認識誤り区間の検出精度を高めることができる。これは、検証単位を認識仮説の単語の時間区間に依存させないようにしたことにより、単語単位の特徴ではない特徴を元に検証を行うことができるためである。

図２は、本発明の音声認識仮説検証装置の他の構成例を示すブロック図である。

図２に示すように、図１に示した音声認識仮説検証装置にさらに、区間判定部３を備えていてもよい。区間判定部３は、単位判定部２による検証単位ごとの検証結果に基づいて、処理対象の音声認識仮説の誤り区間を判定する。区間判定部３は、その際に複数の検証単位の検証結果（あれば、検証スコアを含む。）を参照して、単位判定部２による検証結果を変更した上で、誤り区間を判定する。

（第１の実施形態）
以下に、上述した音声認識仮説検証装置のより具体的な実施形態について説明する。

図３は、本発明の第１の実施形態にかかる音声認識仮説検証装置の構成例を示すブロック図である。

図３に示す音声認識仮説検証装置１０１は、音声認識仮説入力部１２と、検証単位変換部１３と、単位判定部１４と、区間判定部１５と、検証モデル記憶部１６と、区間判定規則記憶部１７とを備える。

音声認識仮説検証装置１０１は、全体としては、例えば、入力されたデータをコンピュータで情報処理するパーソナルコンピュータ（ＰＣ）やサーバ装置などの情報処理装置によって実現される。本実施形態では、音声認識装置などから出力される音声認識結果としての音声認識仮説を入力とし、入力された音声認識仮説の検証結果を出力する。

また、音声認識仮説入力部１２は、データを入力するための各種データ入力装置によって実現される。具体的には、データ入力装置およびその入力を受け付ける制御部によって実現される。また、検証単位変換部１３、単位判定部１４および区間判定部１５は、プログラムに従って動作するＣＰＵ等によって実現される。また、検証モデル記憶部１６および区間判定規則記憶部１７は、データを記憶する記憶ユニットによって実現される。

音声認識仮説検証装置１０１の各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされたプログラム、該プログラムを格納するハードディスクなどの記憶ユニットを中心に、ハードウェアとソフトウェアの任意の組み合わせによって実現される。この他にも、例えば、ネットワーク接続用インタフェースといった各種インタフェースを含んでいてもよい。

音声認識仮説入力部１２は、外部の音声認識装置（不図示）から音声認識仮説を受け取り、検証単位変換部１３に提供（出力）する。音声認識仮説は、例えば、認識時のスコア（尤度）や認識対象音声に対応づけられた時間情報が付与された１つ以上の単語列を含む単語グラフやＮベスト単語列の形式で表現される。

検証単位変換部１３は、音声認識仮説入力部１２を介して入力された音声認識仮説を、検証単位のデータ集合に変換する。ここで、検証単位とは、後段の単位判定部１４において行われる検証の処理単位をいう。検証単位変換部１３は、実際に検証単位のデータ集合を生成するのではなく、音声認識仮説に対して検証単位ごとにその範囲（認識対象とされた音声データにおける時間区間）を設定すればよい。以下、検証単位を定めるという表現を用いた場合には、音声認識仮説に対して１つ以上の検証単位とする時間区間を定めることをいう。

検証単位変換部１３は、音声認識仮説の時間情報（音声認識仮説が示す各単語の時間区間）に依存せずに、検証単位を定める。具体的には、検証単位とする時間区間の少なくとも１つに、音声認識仮説が示す単語の時間区間とは異なる区間を含むように検証単位を定めればよい。例えば、認識対象音声の分析フレーム単位や複数の分析フレームをまとめたセグメント単位を１検証単位としてもよい。そのような場合には、認識対象とされた音声データを１分析フレームまたは１セグメントの時間区間ごとに区切ったものが各検証単位の範囲となる。また、音声認識仮説の単語を細かい単位に分割した文字・音節・音素・ＨＭＭの状態のような単位と分析フレームに基づく単位（分析フレーム単位やセグメント単位）とをあわせて用いることもできる。なお、文字・音節・音素・ＨＭＭの状態のような単位とあわせて用いる場合など、音声データ内において１検証単位とされる時間区間は必ずしも一定でなくてよい。

検証単位変換部１３は、認識対象とされた音声データにおける検証単位を示す情報として、例えば、各検証単位を識別するための識別子と、その検証単位が認識仮説の時間区間においてどの区間に該当するかを示す情報とを対応づけた情報を生成してもよい。

図４ａ〜図４ｄは、検証単位の設定例を示す説明図である。

例えば、図４ａに示すように、認識対象音声のある分析フレーム区間１〜１００に対応する音声認識仮説が「今月末」という単語を示していたとする。

ここで、検証単位として分析フレーム単位を用いる場合には、図４ｂに示すように、認識対象音声の分析フレームそれぞれに対応させて検証単位を定めればよい。本例の場合、検証単位変換部１３は、分析フレーム１〜１００の時間区間をそれぞれ範囲とする１００個の検証単位を示す情報を生成すればよい。

また、例えば、検証単位として１０個の分析フレームをまとめたセグメント単位を用いる場合には、図４ｃに示すように、１０個の分析フレームを１単位とする認識対象音声のセグメントそれぞれに対応させて検証単位を定めればよい。本例の場合、検証単位変換部１３は、分析フレーム１〜１０をまとめたセグメント１、分析フレーム１１〜２０をまとめたセグメント２といったセグメント１〜１０の時間区間をそれぞれ範囲とする１０個の検証単位を示す情報を生成すればよい。

また、例えば、単語の先頭部・中間部・末尾部といった単語に関する単位を併用して用いる場合には、図４ｄに示すように、音声認識仮説において分析フレーム境界で示される単語の先頭部・中間部・末尾部それぞれに対応させて検証単位を定めればよい。本例の場合、検証単位変換部１３は、分析フレーム境界で示される単語の先頭部・中間部・末尾部の時間区間をそれぞれ範囲とする３個の検証単位を示す情報を生成すればよい。

また、検証単位を定める際に、文字・音節・音素・ＨＭＭの状態を併用してもよい。

図５に、文字・音節・音素・ＨＭＭの状態・音声特徴量の対応例を示す。

図５に示すように、音声認識仮説において分析フレーム境界で示されるある単語を構成する文字や音節、音素、ＨＭＭの状態に対応させて検証単位を定めればよい。例えば、音節、音素、ＨＭＭの状態の時間区間に基づいて「文字“今”の先頭部」に該当する範囲を特定し、１検証単位として決定する。なお、図５では、音声データを音声特徴量の時系列として示している。この場合、１分析フレームは、音声信号の一定区間（例えば、２５ミリ秒）ごとに計算される特徴量（ベクトル）に相当する。

単位判定部１４は、検証単位変換部１３から検証単位を示す情報および音声認識仮説を受け取り、検証単位それぞれについて所定の検証用特徴を抽出し、抽出した検証用特徴値と検証モデル記憶部１６に記憶されている検証モデルとを用いて検証単位ごとに認識仮説の正誤を判定する。単位判定部１４は、例えば、その検証単位の時間区間に対する認識仮説が確からしい度合いを示す検証スコアを算出し、算出した検証スコアに基づき、検証単位ごとに認識仮説の正誤を判定する。

単位判定部１４は、例えば図３に示したように、対象単位選択部１４１と、特徴抽出部１４２と、スコア算出部１４３と、対象単位判定部１４４とを含んでいてもよい。

対象単位選択部１４１は、検証単位変換部１３から検証単位を示す情報および音声認識仮説を受け取り、その音声認識仮説を特徴抽出部１４２に提供する。また、認識対象とされた音声データに含まれる検証単位それぞれについて、処理対象の検証単位として順次指定し、特徴抽出部１４２および対象単位判定部１４４に提供する。

特徴抽出部１４２は、対象単位選択部１４１から音声認識仮説と処理対象の検証単位を示す情報とを受け取り、処理対象の検証単位に係る所定の検証用特徴を抽出して、スコア算出部１４３に提供する。

検証用特徴とは、音声認識仮説の検証を行う際に用いる特徴のことであり、検証単位ごとに抽出される。検証用特徴としては、音声認識仮説の正解らしさや誤りらしさと関連する性質をもつものを用いる。また、多種の検証用特徴を用いれば、検証の精度を高めることができる。例えば、音声認識仮説の構造情報、音声認識仮説の言語的な情報、認識計算に関する情報を用いてもよい。なお、処理対象の検証単位に係る特徴は、処理対象の検証単位の時間区間のデータ（以下、単に検証単位データという。）だけでなく、その前後の時間区間のデータや当該時間区間を含む単語の時間区間のデータを用いて抽出することも可能である。

音声認識仮説の構造情報としては、例えば、単語グラフが示す処理対象とされた検証単位の時間区間において競合するアークの数や、同時間区間に含まれるノードの数などが挙げられる。検証単位として分析フレームのセグメント単位を用いる場合、セグメント区間に存在するアーク数が多いと、その区間の認識誤りらしさが高い可能性がある。また、当該区間に含まれるノード数が多いと、その区間は元の発話中での単語境界であった可能性があり、その前後で認識誤りらしさが異なる可能性がある。

言語的な情報としては、例えば、仮説中の単語の表層や品詞などが挙げられる。単語表層を特徴に用いることで、頻出する音声認識誤り表現（音声認識装置の認識誤りパターン）を扱うことができるようになる。特に、単語単位よりも細かい単位でこれらの特徴を抽出することで、例えば、認識仮説として「今月末」のような長い単語が出てきた場合にその後半部分が特に認識誤りになりやすい、といった例を検出できるようになる。

認識計算に関する特徴としては、例えば、音響尤度や言語尤度のような仮説のもっともらしさを表す値が挙げられる。検証単位において、その区間が認識誤りである場合、この値が相対的に低かったり、競合仮説との値が小さいなどの特徴を示すことがある。フレーム単位で得られる音響尤度のような値を検証単位で用いることにより、単語単位で平均化されるのと比べてより詳細に参照することが可能である。また、前述の特許文献１に記載されている検証装置などで求められる単語単位の信頼度スコアを検証用特徴に用いることも可能である。

スコア算出部１４３は、特徴抽出部１４２から処理対象の検証単位を示す情報と該検証単位に係る検証用特徴とを受け取り、検証モデル記憶部１６に記憶されている検証モデルを用いて検証スコアを算出し、対象単位判定部１４４に提供する。

検証モデル記憶部１６は、検証単位データに見られる検証用特徴と認識仮説の正解らしさまたは誤りらしさとの関連の強さを表すモデルである検証モデルの情報を保持する。

スコア算出部１４３は、例えば、識別モデルの一種であるＣＲＦ（Conditional Random Fields）による識別処理を用いて検証スコアを算出してもよい。ここで、ＣＲＦは、次の式（１）のように記述される。

Ｐ（Ｙ｜Ｘ）＝ｅｘｐ（Λ・Φ（Ｘ，Ｙ））／Ｚ・・・式（１）

式（１）において、“Ｘ”は識別処理の対象となる入力を示している。また、“Ｙ”は入力に対応づけられる識別結果である。また、“Φ（Ｘ，Ｙ）”は識別に用いる特徴としての素性であり、“Λ”は素性のそれぞれに対応するＣＲＦのモデルパラメータ（重み値）である。また、“Ｚ”は正規化項である。なお、“ｅｘｐ（）”は、ｅを底とする数値のべき乗を求める関数を示している。

ＣＲＦによる識別処理を用いる実施形態において、入力“Ｘ”は、検証対象である音声認識仮説から変換された検証単位データである。また、出力“Ｙ”は、入力された検証単位データごとに対応づけられた検証結果である。素性“（Ｘ，Ｙ）”には、アーク数やノード数、出現頻度といった検証用特徴のとる値を用いる。識別処理時には、入力に対して上記式（１）の左辺Ｐ（Ｙ｜Ｘ）が最大となる出力が選択される。また、ＣＲＦのモデルパラメータは、予め対応付けされた入力（Ｘ：検証単位データ）と出力（Ｙ：識別結果）との組を学習データとして、上記式（１）の対数尤度を最大化する基準での反復計算法などにより最適化（学習）してもよい。なお、このようなＣＲＦを用いた識別処理やモデルパラメータの学習方法に関する詳細は、例えば、文献「J.Lafferty, A.McCallum, F.Pereira, "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data", Proceedings of 18th International Conference of Machine Learning, 2001年, p.282-289」に記載されている。

検証モデル記憶部１６は、例えば、ＣＲＦの情報として、素性Φの情報やモデルパラメータΛ（重み値）の情報を保持してもよい。

対象単位判定部１４４は、対象単位選択部１４１で指定された処理対象の検証単位に対して求められた検証スコアを所定の基準と照らし合わせて、各検証単位に対する認識仮説の正誤を判定する。この判定結果は、認識仮説に対する検証単位での検証結果に相当する。対象単位判定部１４４は、判定結果（すなわち、各検証単位の検証結果）を区間判定部１５に提供する。検証結果と併せて検証スコアを提供してもよい。

以下に、ＣＲＦによる識別処理を用いた検証スコアの算出方法および正誤の判定方法についてより具体的に説明する。

例えば、ある音声データ長に対して設定される検証単位の一つに着目すると、その検証単位の時間区間に相当する区間の音声認識仮説には、認識仮説が誤っていた場合（または正しかった場合）に、アーク数＝４やノード数＝７といった検証用特徴があるとわかったとする。このような場合には、図６に示すように、これらの特徴を検証モデルで用いる素性として表現しておけばよい。

図６は、ＣＲＦの素性Φの例を示す説明図である。

図６では、Ｆ（アーク数＝４）＝１と、Ｆ（ノード数＝７）＝１という素性の例が示されている。

スコア算出部１４３は、これらの素性と、検証結果（例えば、正解と誤りの２つ）それぞれの重み値Λをかけることで、検証結果それぞれのスコアを求めてもよい。そして、対象単位判定部１４４は、このスコアの大きいものから有力な検証結果とすることで、その検証単位に対する検証結果として確定させればよい。

区間判定部１５は、単位判定部１４の対象単位判定部１４４から各検証単位に対する検証結果を受け取り、音声認識仮説に含まれる認識誤り区間を判定する。本実施形態では、区間判定部１５は、各検証単位に対する検証結果を、区間判定規則記憶部１７に記憶されている区間判定規則に従って必要に応じて変更することにより、音声認識仮説に含まれる認識誤り区間を判定する。区間判定規則は、単位判定部１４による検証単位ごとの検証結果を、使用用途に合わせて変更するための規則（変更方法等を規定した情報）である。例えば、検証結果の信頼度や他の検証単位（例えば、前後の検証単位）の検証結果との関係に基づき変更する方法を規定してもよい。

図７ａ〜図７ｄは、区間判定規則に規定する変更方法の例を示す説明図である。図７ａは、入力された音声認識仮説に対して設定した検証単位１〜３２の単位判定部１４による検証結果の一例を示している。

図７ａに示す例では、単位判定部１４による検証結果として、検証単位１〜５，９，１２〜１５，１７〜１９，２５〜２８，３０〜３２に対する認識仮説は正しい旨を示すラベル付け“○”がされている。また、検証単位６〜８，１０〜１１，１６，２０〜２４，２９に対する認識仮説は誤りである旨のラベル付け“×”がされている。このような検証結果に対して、図７ｂに示すように、まず同じラベルが所定のスコア以上で所定の単位以上連続する区間の検証結果を確定させる。図７ｂに示す例では、四角で囲った検証単位１〜５、６〜８、１２〜１５、１７〜１９、２０〜２４、２５〜２８および３０〜３２の区間に対して検証結果を確定させている。これにより、検証単位６〜８および２０〜２４の区間が誤り区間として確定することになる。なお、検証結果のラベルが同じであっても、その検証結果に付された検証スコアが所定のスコア以上でない区間があることにより、所定の単位以上の連続とはならない場合にはその区間は確定されない。

次に、図７ｃに示すように、未確定区間について、その前後の確定区間を所定の数だけ参照し、多数決によって検証結果を確定させる。図７ｃに示す例では、未確定区間である検証単位９〜１１，１６，２９について、前後３つの検証単位からなる確定区間による多数決を試み、その結果、下線によって示すように、検証単位１６および２９の検証結果を認識仮説が正しいとする方に変更している。なお、検証単位データ９〜１１の未確定区間については、その前後の確定区間である検証単位６〜８および検証単位１２〜１４の区間において、正しいと判定された数が３個、誤りと判定された数が３個であり、多数決では決められない。この他にも、所定の数だけの確定区間が連続して得られない場合などが考えられる。

最後に、図７ｄに示すように、残っている未確定区間について、認識仮説を誤りとする検証結果で確定させる。図７ｄに示す例では、未確定区間である検証単位９〜１１について、下線によって示すように、認識仮説が誤りとする検証結果に変更している。

区間判定部１５は、区間判定規則に従って各検証単位に対する検証結果を変更した結果、最終的に誤り区間として確定した検証単位の時間区間を、認識仮説における認識誤り区間として検出すればよい。図７ａ〜図７ｄに示す例では、検証単位６〜１１および２０〜２４の区間が対応している時間区間が認識誤り区間として検出される。

区間判定規則記憶部１７は、区間判定規則として、例えば、変更処理としてどのようなロジックを用いるかを指定する情報や、各ロジックに用いるパラメータ（例えば、連続判定に用いる単位数や閾値等）を記憶してもよい。

次に、本実施形態の動作について説明する。

図８は、図３に示した音声認識仮説検証装置１０１の動作の一例を示すフローチャートである。

図８に示すように、音声認識仮説検証装置１０１は、起動されると、検証モデル記憶部１６や区間判定規則記憶部１７を実現している記憶デバイスから検証モデルや区間判定規則を読み出し、それぞれ単位判定部１４、区間判定部１５から参照できるように展開する等の初期化処理を行う（ステップ１１）。

一方、音声認識仮説入力部１２は、例えば、外部の音声認識装置からの音声認識処理終了の通知に応じて、音声認識仮説を受け取り（入力し）、検証単位変換部１３に提供（出力）する（ステップ１２）。なお、音声認識仮説入力部１２は、例えば、ユーザからの指示に応じて音声認識仮説を入力するなども考えられる。

音声認識仮説入力部１２を介して検証対象である音声認識仮説が入力されると、検証単位変換部１３は、入力された音声認識仮説を１つ以上の検証単位のデータ集合に変換して単位判定部１４に提供する（ステップ１３）。検証単位変換部１３は、例えば、音声データにおける時間区間の情報を用いて１つ以上の検証単位を示す情報を単位判定部１４に提供する。

単位判定部１４は、検証単位ごとに検証スコアを求め、認識仮説を検証（正誤を判定）する（ステップ１４）。単位判定部１４では、まず、対象単位選択部１４１が、認識仮説に対して設定された検証単位それぞれについて順次、処理対象に指定する。そして、特徴抽出部１４２が、処理対象に指定された検証単位の検証用特徴を抽出する。次に、スコア算出部１４３が、抽出された検証用特徴と検証モデルとを参照して、処理対象に指定された検証単位に対する検証スコアを算出する。最後に、対象単位判定部１４４が、算出された検証スコアに基づき、処理対象に指定された検証単位の時間区間に対する認識仮説の正誤を判定する。このようにして判定された検証単位ごとの検証結果（正誤の判定結果）を、検証スコアとともに区間判定部１５に提供する。

区間判定部１５は、検証単位ごとの検証結果に基づき、検証対象として入力された音声認識仮説における認識誤り区間を検出する（ステップ１５）。区間判定部１５は、区間判定規則に従って、検証単位別に付された検証結果を適宜変更し、最終的に誤りと判定された検証単位が対応している時間区間を音声認識仮説における認識誤り区間として出力し、一連の音声認識仮説検証処理を終了する。

このように、本実施形態によれば、音声認識仮説の検証単位として、仮説中の単語単位よりも細かい単位や、仮説中の単語認定に依存しない分析フレーム基準の単位を用いているので、単語単位にはない特徴を参照して音声認識仮説の検証を行うことができ、結果として、より高い精度で音声認識誤り区間を検出することができる。

また、区間判定部１５が検証単位での検証結果を調整（変更）する機能を有していることにより、使用用途にあった認識誤り区間の検出が可能になる。例えば、認識誤り区間の音声を切り出して再度音声認識を行う場合には、ある程度の長さの時間区間が必要になる。このような場合に、所定の長さ以上を確保することができる。また、検証スコアに基づき、「正」らしさと「誤」らしさが同程度の区間を保留にするなどの対応ができ、単位判定部１４における判定誤りに対する頑健性を高めることができる。また、未確定区間をその前後の確定区間によって判定することは、一種の平滑化処理に相当し、例えば、１単位のみ周囲と結果が異なるものを補正することもできる。

なお、音声認識仮説がＮベスト単語列の形式で表現される場合には、そのＮ個の単語列に対してセグメント単位等を用いて共通の検証単位を設定することも、Ｎ個の単語列がそれぞれ示す各単語に関する単位を併用させて別々の検証単位を設定することも可能である。なお、音声認識仮説が単語グラフの形式で表現される場合についても、セグメント単位等を用いてその単語グラフ全体に共通な検証単位を設定することも、また、単語グラフが示す各単語に関する単位を併用させて別々の検証単位を設定することも可能である。

また、音声認識仮説が示す１つの単語列に対して、セグメント単位とする等１つの基準を用いて１種類の検証単位を定めて、その検証単位ごとに抽出した特徴に基づき検証を行うだけでなく、例えば、複数種類の検証単位を定めて、それぞれの種類につき検証を行い、その結果を総合した上で誤り認識区間を判定することも可能である。そのような場合には、検証単位変換部１３と単位判定部１４とを複数備えた上で、区間判定部１５が複数の単位判定部１４からの検証結果を統合して、誤り区間を判定するようにすればよい。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。

図９は、本発明の第２の実施形態にかかる音声認識装置の構成例を示すブロック図である。

図９に示す音声認識装置２０１は、第１の音声認識部２１と、音声認識仮説検証部２２と、第２の音声認識部２３と、第１のモデル記憶部２４と、第２のモデル記憶部２５とを備える。

音声認識装置２０１は、全体としては、例えば、入力されたデータをコンピュータで情報処理するパーソナルコンピュータ（ＰＣ）やサーバ装置などの情報処理装置によって実現される。

第１の音声認識部２１は、当該音声認識装置２０１に入力される音声に対して音声認識処理を行って該音声に対応する単語列候補を求め、音声認識仮説として、例えば、単語グラフを出力する。第１の音声認識部２１では、発話の全区間に対して、第１のモデル記憶部２４に記憶されている第１のモデル（音声認識のためのモデルであって、音響モデルや言語モデル、単語辞書等を含む。）の与えるスコアに従って、音声データに適合する単語列を探索するといった通常の音声認識処理を行えばよい。例えば、音響モデルには隠れマルコフモデル、言語モデルには単語トライグラムモデルなどを用いる。

音声認識仮説検証部２２は、図３に示した音声認識仮説検証装置１０１に相当する処理部であって、第１の音声認識部２１が出力した音声認識仮説について、検証単位の設定処理と、検証単位ごとの検証処理と、誤り区間の判定処理とを行い、その結果を検証結果として出力する。検証結果として、例えば、音声データにおける音声認識誤り区間を示す情報（フレーム番号等）を出力する。

第２の音声認識部２３は、音声認識仮説検証部２２による検証結果に基づき、入力された音声のうち音声認識誤り区間として判定された区間またはその前後を含めた区間に対して、再び音声認識処理を行う。第２の音声認識部２３では、第２のモデル記憶部２５に記憶されている第２のモデルを用いて、音声認識処理を行う。ここで、第２のモデル記憶部２５には、第１のモデル記憶部２４が記憶している第１のモデルとは異なるモデルが記憶されているものとする。音響モデルであれば、音素等の単位ごとに音声特徴量の出現確率分布を示す情報を記憶してもよい。例えば、隠れマルコフモデルを第２のモデルとして用いる場合には、音素等の単位ごとに音声特徴量の出現確率分布として所定の値（第１のモデルとは異なる値）が導出される隠れマルコフモデルを規定するためのパラメータ（計算の際に用いる係数の情報等）を記憶してもよい。また、言語モデルであれば、単語等の単位ごとにその出現確率や接続確率を示す情報を記憶してもよい。例えば、単語トライグラムモデルを第２のモデルとして用いる場合には、単語等の単位ごとにその出現確率や接続確率として所定の値（第１のモデルとは異なる値）が導出される単語トライグラムモデルを規定するためのパラメータ（計算の際に用いる係数の情報等）を記憶してもよい。

図１０は、発話と、第１の音声認識部２１による音声認識仮説と、音声認識仮説検証部２２による検証結果の例を示す説明図である。

図１０に示すように、例えば、「今月松井の出る試合」という発話に対し、第１の音声認識部２１が「＜今月末＞＜火＞＜の＞＜出る＞＜試合＞」という音声認識仮説を出力したとする。なお、“＜＞”は音声認識仮説における単語区切りを示している。この音声認識仮説に対して、音声認識仮説検証部２２が検証単位ごとの特徴を抽出して検証を行ったところ、今月末の「月」の後半部分から「火」の終わりまでに相当する区間、すなわち発話における「松井」に相当する区間が認識誤り区間であると判定したとする。

第２の音声認識部２３は、音声認識仮説検証部２２が認識誤り区間であると判定した区間（今月末の「月」の後半部分から「火」の終わりまでに相当する区間）について、例えば、認識仮説が正しいと判定された区間の認識仮説が示す単語列「の出る試合」を言語的な制約として、音声認識処理を行ってもよい。本例では、「の出る試合」を確定させ、その前の区間を認識対象に、言語的な制約として、例えば、単語のつながりやすさを表す言語モデルを第２のモデルとして用いることにより、認識対象の後半には「の」「出る」とつながりやすい単語が上位にくるようにすればよい。第１の音声認識部２１における音声認識処理では、「の」や「出る」も定まっていないため、あらゆる可能性を考慮しなければならないが、制約の追加により、認識精度を高めることができる。

また、例えば、認識仮説が正しいと判定された「の出る試合」からその発話に人名が出やすいことを推定し、人名を認識しやすいモデルを第２のモデルとして用いて音声認識処理を行ってもよい。本例では、「の出る試合」の区間の前には「人名」が出やすいという情報を得ることにより、「人名」らしい区間では「人名」として用いられる単語の出やすさを高くすればよい。なお、第２のモデルの選定に関して、予め第１のモデルとは異なるモデルが第２のモデルとして第２のモデル記憶部２５に記憶されている場合には、そのまま記憶されている第２のモデルを用いればよい。また、例えば、第２のモデル記憶部２５に複数種類のモデルが記憶されている場合には、その中から第１のモデルとは異なるモデルを第２のモデルとして選択すればよい。なお、第１のモデルと同じ種類のモデルであっても、第１のモデルに与えられたパラメータとは異なる値を与えることにより、第２のモデルとして用いることが可能である。

このように、発話（音声）のどの区間が誤りであるという時間的制約と、その前後にどのような言語情報または音響情報があるかという言語的制約や音響的制約を加えることで、音声認識精度を高めることができる。

なお、本発明においては、音声認識仮説検証装置や音声認識装置内の処理は上述の専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを音声認識仮説検証装置や音声認識装置にて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムを音声認識仮説検証装置や音声認識装置に読み込ませ、実行するものであっても良い。音声認識仮説検証装置や音声認識装置にて読取可能な記録媒体とは、ＩＣカードやメモリカード、あるいは、フロッピーディスク（登録商標）、光磁気ディスク、ＤＶＤ、ＣＤなどの移設可能な記録媒体の他、音声認識仮説検証装置や音声認識装置に内蔵されたＨＤＤ等を指す。この記録媒体に記録されたプログラムは、例えば、制御ブロックにて読み込まれ、制御ブロックの制御によって、上述したものと同様の処理が行われる。

以上、実施例を参照して本願発明を説明したが、本願発明は上記実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２００８年８月２７日に出願された日本出願特願２００８−２１８６０５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、音声認識技術を利用するシステムに好適に適用可能である。

Claims

時間情報が付与された音声認識仮説が入力される音声認識仮説入力部と、
前記入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す１つ以上の検証単位を設定する検証単位変換部と、
前記検証単位変換部によって設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する単位判定部とを備え、
前記検証単位変換部は、前記音声認識仮説の時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなる１つ以上の検証単位を設定する音声認識仮説検証装置。
請求項１に記載の音声認識仮説検証装置において、
前記単位判定部は、少なくとも検証単位の時間区間における音声認識誤りに関する特徴を含む複数種類の特徴を素性とする確率モデルからなる検証モデルと、検証単位ごとに処理対象の音声認識仮説から抽出される特徴とに基づいて、各検証単位の時間区間における認識仮説の正誤を検証する音声認識仮説検証装置。
請求項２に記載の音声認識仮説検証装置において、
前記検証モデルとして、ＣＲＦモデルを用いる音声認識仮説検証装置。
請求項１乃至３のいずれか１項に記載の音声認識仮説検証装置において、
前記単位判定部による検証単位ごとの検証結果に基づいて、処理対象の音声認識仮説の誤り区間を判定する区間判定部を備え、
前記区間判定部は、複数の検証単位の検証結果を参照して、前記単位判定部による検証結果を変更した上で、誤り区間を判定する音声認識仮説検証装置。
請求項１乃至４のいずれか１項に記載の音声認識仮説検証装置において、
前記検証単位変換部は、音声分析フレーム単位に基づいて１つ以上の検証単位を設定する音声認識仮説検証装置。
入力された音声に対して音声認識を行い、時間情報が付与された音声認識仮説を生成する第１の音声認識部と、
前記第１の音声認識部によって生成された音声認識仮説の検証を行う音声認識仮説検証部と、
前記音声認識仮説検証部による音声認識仮説の検証結果を参照して音声認識を行う第２の音声認識部とを備え、
前記音声認識仮説検証部は、
入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す１つ以上の検証単位を設定する検証単位変換部と、
前記検証単位変換部によって設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する単位判定部とを有し、
前記検証単位変換部は、前記音声認識仮説の時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなる１つ以上の検証単位を設定し、
前記第２の音声認識部は、前記単位判定部にて認識仮説が誤りと判定された区間について音声認識を行う音声認識装置。
請求項６に記載の音声認識装置において、
前記第２の音声認識部は、前記音声認識仮説検証部による音声認識仮説の検証結果を参照し、認識正解と判定された時間区間の認識仮説に基づいて選定した音響モデルまたは言語モデルを用いて音声認識を行う音声認識装置。
音声認識仮説を検証する音声認識仮説検証方法であって、
入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す１つ以上の検証単位を、少なくとも前記音声認識仮説に付与された時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなるように設定し、
設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する音声認識仮説検証方法。
請求項８に記載の音声認識仮説検証方法において、
少なくとも検証単位の時間区間における音声認識誤りに関する特徴を含む複数種類の特徴を素性とする確率モデルからなる検証モデルと、検証単位ごとに処理対象の音声認識仮説から抽出される特徴とに基づいて、各検証単位の時間区間における認識仮説の正誤を検証する音声認識仮説検証方法。
請求項８または請求項９に記載の音声認識仮説検証方法において、
検証単位ごとの検証結果に基づいて、処理対象の音声認識仮説の誤り区間を判定する際に、複数の検証単位の検証結果を参照して、前記検証単位ごとの検証結果を変更した上で、誤り区間を判定する音声認識仮説検証方法。
入力された音声に対して音声認識を行って、時間情報が付与された音声認識仮説を生成し、
生成された音声認識仮説に対して、検証の処理単位となる時間区間を表す１つ以上の検証単位を、少なくとも前記音声認識仮説の時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなるように設定し、
設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証し、
音声認識仮説の検証結果を参照して、認識正解と判定された時間区間の認識仮説に基づいて選定した音響モデルまたは言語モデルを用いて、認識仮説が誤りと判定された区間について音声認識を行う音声認識方法。
コンピュータに、
入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す１つ以上の検証単位を、前記音声認識仮説に付与された時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなるように設定する手順と、
設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する手順とを実行させるための音声認識仮説検証用プログラム。
請求項１２に記載の音声認識仮説検証用プログラムにおいて、
コンピュータに、
少なくとも検証単位の時間区間における音声認識誤りに関する特徴を含む複数種類の特徴を素性とする確率モデルからなる検証モデルと、検証単位ごとに処理対象の音声認識仮説から抽出される特徴とに基づいて、各検証単位の時間区間における認識仮説の正誤を検証させる手順を実行させるための音声認識仮説検証用プログラム。
請求項１２または請求項１３に記載の音声認識仮説検証用プログラムにおいて、
コンピュータに、
検証単位ごとの検証結果に基づいて、処理対象の音声認識仮説の誤り区間を判定する際に、複数の検証単位の検証結果を参照して、前記検証単位ごとの検証結果を変更した上で、誤り区間を判定する手順を実行させるための音声認識仮説検証用プログラム。
コンピュータに、
入力された音声に対して音声認識を行って、時間情報が付与された音声認識仮説を生成する手順と、
生成された音声認識仮説に対して、検証の処理単位となる時間区間を表す１つ以上の検証単位を、少なくとも前記音声認識仮説の時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなるように設定する手順と、
設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する手順と、
音声認識仮説の検証結果を参照して、認識正解と判定された時間区間の認識仮説に基づいて選定した音響モデルまたは言語モデルを用いて、認識仮説が誤りと判定された区間について音声認識を行う手順とを実行させるための音声認識用プログラム。