JP5141687B2

JP5141687B2 - 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法

Info

Publication number: JP5141687B2
Application number: JP2009525221A
Authority: JP
Inventors: 賢司阿部
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-07-31
Filing date: 2007-07-31
Publication date: 2013-02-13
Anticipated expiration: 2027-07-31
Also published as: US20100100379A1; WO2009016729A1; JPWO2009016729A1; CN101785050A; CN101785050B

Description

本発明は、音声認識の照合過程において、例えば、入力音声の各音に対応する記号列を、認識語彙を形成する文字列（以下、認識文字列と記す）に変換する際に用いられる変換規則を自動学習する装置に関する。

音声認識装置による照合過程には、例えば、入力音声の音響的特徴に基づいて抽出された各音に対応する記号列（例えば、音素列）から、認識文字列（例えば、音節列）を推定する処理が含まれる。その際、音素列と音節列とを対応付ける変換規則（照合ルールまたはルールと称することもある）が必要となる。このような変換規則は、音声認識装置に予め記録される。

従来、例えば音素列と音節列との変換規則を定義する際には、１音節に複数音素を対応付けたデータを、変換規則の基本単位（変換単位）とするのが一般的であった。例えば、１つの音節「か」に２つの音素／ｋ／／ａ／が対応する場合、このことを示す変換規則は「か→ｋａ」と表される。

しかし、音声認識装置が、１音節という短い単位で照合すると、音節列から認識語彙を形成する際の解の候補数が増大し、誤検出や枝刈りによる正解候補の欠落が生じる場合がある。また、１つの音節に対応する音素列は、その音節に隣接する前後の音節によって変化する場合があるが、１音節単位で定義された変換規則では、そのような変化を表現することができない。

そこで、例えば、複数の音節からなる音節列に音素列を対応付けたルールを変換規則に追加して、音節列の変換単位を長くすることで、正解候補の欠落を抑制したり、上記変化を表現したりすることができる。例えば、２つの音節「かい」に３つの音素／ｋ／／ａ／／ｉ／が対応する場合、このことを示す変換規則は「かい→ｋａｉ」と表される。また、変換規則の変換単位を長くする他の例として、ＨＭＭのモデル単位を音素のみに限定せず、不定長の音響モデルを自動的に作成する例も開示されている（例えば、特開平８−１２３４７７号公報参照）。

しかしながら、変換単位を長くした場合、変換規則が膨大になる傾向にある。例えば、音節列と音素列との間の変換規則に、変換単位が３音節の変換規則を追加しようとした場合、３音節の組み合わせの数は膨大であるので、これらの組み合わせを全ての網羅しようとすると記録するべき変換規則が膨大な数となる。その結果、変換規則を記録するためのメモリサイズや、変換規則を用いて処理する時間が膨大なものとなる。

そこで、本発明は、音声認識で用いられる変換規則として、不要な変換規則を増大させずに、音声認識装置に変換単位を変化させた新しい変換規則を自動的に追加し、音声認識の認識精度を向上させることを目的する。

本発明にかかる音声認識用ルール学習装置は、音響モデルおよび単語辞書を用いて、入力した音声データについて照合処理を実行することにより認識結果を生成する音声認識装置であって、前記照合処理において、音を表す第１の型の文字列と、認識結果を形成するための第２の型の文字列との間の変換規則を用いる音声認識装置に接続される。前記音声認識用ルール学習装置は、前記音声認識装置で認識結果が生成される過程で生成される第１の型の文字列と、当該第１の型の文字列に対応する第２の型の文字列とを対応付けて記録する文字列記録部と、前記単語辞書に記録された単語に対応する第２の型の文字列から、第２の型の文字列の最小単位である第２型要素が複数連なって構成される文字列を、第２型学習文字列候補として抽出する抽出部と、前記抽出部が抽出した第２型学習文字列候補のうち、前記文字列記録部に記録された第２の型の文字列の少なくとも一部に一致する文字列を第２型学習文字列とし、当該第２の型の文字列に対応付けられて前記文字列記録部に記録された前記第１の型の文字列中で、前記第２型学習文字列に対応する箇所を、第１型学習文字列として抽出し、当該第１型学習文字列と第２型学習文字列との対応関係を示すデータを、前記音声認識装置で用いられる変換規則に含めるルール学習部とを備える。

上記構成の音声認識用ルール学習装置では、抽出部が、単語辞書の単語に対応する複数の第２型要素からなる第２の型の文字列を、第２型学習文字列候補として抽出する。ルール学習部は、抽出された第２型学習文字列候補のうち、音声認識装置から取得した第１の型の文字列に対応する第２の型の文字列の少なくとも一部と一致する文字列を、第２型学習文字列として抽出する。そして、ルール学習部は、前記第１の型の文字列の中で第２型学習文字列に対応する箇所を第１型学習文字列として、この第１型学習文字列と第２型学習文字列との対応関係を示すデータを、変換規則に含める。これにより、音声認識装置の認識対象となりうる単語辞書の単語から、複数の連続する第２型要素からなる第２型学習文字列が抽出され、この第２型学習文字列と第１型学習文字列との対応関係を示す変換規則が追加されることになる。その結果、複数の連続する第２型要素を変換単位とする変換規則であって、かつ、音声認識装置で使用される可能性が高い変換規則が学習されることになる。そのため、不要な変換規則（ルール）を増大させずに、複数の第２型要素を変換単位とした新しい変換規則を自動学習することが可能になる。その結果、変換規則を用いて第１の型の文字列と第２の型の文字列との変換処理を行う音声認識装置の認識精度を向上させることができる。

本発明にかかる音声認識用ルール学習装置は、第２の型の文字列の構成単位である第２型要素それぞれに対応する理想的な第１の型の文字列を示すデータである基本ルールを予め記録する基本ルール記録部と、前記基本ルールを用いて前記第２型学習文字列に対応する第１の型の文字列を、第１型基準文字列として生成し、当該第１型基準文字列と、前記第１型学習文字列との類似度合を示す値を計算し、当該値が所定の許容範囲内である場合に、前記第１型学習文字列を前記変換規則に含めると判断する、不要ルール判定部とをさらに備えてもよい。

基本ルールは、第２の型の文字列の構成単位である第２型要素ごとに、対応する理想的な第１の文字列を定めたデータである。不要ルール判定部は、この基本ルールを用いることにより、第２型学習文字列を構成している第２型要素それぞれを、対応する第１の型の文字列に置き換えて、第１型基準文字列を生成することができる。そのため、第１型基準文字列は、第１型学習文字列に比べて、誤変換である可能性が低い傾向にある。不要ルール判定部は、このような第１型基準文字列と第１型学習文字列との類似度合を示す値が許容範囲内である場合に、第１型学習文字列と第２型学習文字列との対応関係を示すデータを変換規則に含めると判断する。そのため、不要ルール判定部は、誤変換を発生させる可能性の高いデータを変換規則に含めないように判断することができる。その結果、不要な変換規則の増加および、誤変換の発生を抑制することができる。

本発明にかかる音声認識用ルール学習装置において、前記不要ルール判定部は、前記第１型基準文字列と前記第１型学習文字列との文字列長の違い、および前記第１型基準文字列と前記第１型学習文字列とで一致する文字の割合のうち、少なくとも１つに基づいて類似度合を示す値を計算する態様とすることができる。

これにより、第１型基準文字列と第１型学習文字列との文字列長の違いまたは一致する文字の割合を基に、その第１型学習文字列の変換規則の要否が判断される。そのため、例えば、不要ルール判定部は、前記第１型基準文字列と前記第１型学習文字列とで一致する文字があまりにも少ない場合や、文字列長の違いが大きい場合等に、その第１型学習文字列に関する変換規則は不要であると判断することが可能になる。

本発明にかかる音声認識用ルール学習装置は、前記ルール学習部が抽出した前記第１型学習文字列および前記第２型学習文字列の少なくともいずれか一方の前記音声認識装置における出現頻度が、所定の許容範囲内である場合に、当該第１型学習文字列と前記第２型学習文字列との対応関係を示すデータを前記変換規則に含めると判断する不要ルール判定部をさらに備えてもよい。

これにより、音声認識装置における出現頻度が低い第１型学習文字列と第２型学習文字列との対応関係を示すデータが変換規則含まれるのが抑制されるので、不要な変換規則の増加が抑制される。なお、前記出現頻度は、音声認識装置が検出した出現をその都度記録することにより得ることができる。このような出現頻度は、音声認識装置で記録されてもよいし、音声認識ルール学習装置に記録されてもよい。

本発明にかかる音声認識用ルール学習装置は、前記所定の許容範囲を示す許容範囲データを記録する閾値記録部と、ユーザから許容範囲を示すデータの入力を受け付け、当該入力に基づいて前記閾値記録部に記録された前記許容範囲データを更新する設定部をさらに備えてもよい。

これにより、ユーザは、不要ルール判定の基準である、第１型学習文字列と第１型基準文字列との類似度合の許容範囲を調整することができる。

本発明にかかる音声認識装置は、音響モデルおよび単語辞書を用いて、入力した音声データについて照合処理を実行することにより認識結果を生成する音声認識部と、前記音声認識部が、前記照合処理において用いる、音を表す第１の型の文字列と、認識結果を形成するための第２の型の文字列との間の変換規則を記録するルール記録部と、前記音声認識部で認識結果が生成される過程で生成される第１の型の文字列と、当該第１の型の文字列に対応する第２の型の文字列とを対応付けて記録する文字列記録部と、前記単語辞書に記録された単語に対応する第２の型の文字列から、第２の型の文字列の最小単位である第２型要素が複数連なって構成される文字列を、第２型学習文字列候補として抽出する抽出部と、前記抽出部が抽出した第２型学習文字列候補のうち、前記文字列記録部に記録された第２の型の文字列の少なくとも一部に一致する文字列を第２型学習文字列とし、当該第２の型の文字列に対応付けられて前記文字列記録部に記録された前記第１の型の文字列中で、前記第２型学習文字列に対応する箇所を、第１型学習文字列として抽出し、当該第１型学習文字列と第２型学習文字列との対応関係を示すデータを、前記音声認識部で用いられる変換規則に含めるルール学習部とを備える。

本発明にかかる音声認識用ルール学習方法は、音響モデルおよび単語辞書を用いて、入力した音声データについて照合処理を実行することにより認識結果を生成する音声認識装置に、前記照合処理において用いられる、音を表す第１の型の文字列と、認識結果を形成するための第２の型の文字列との間の変換規則を学習させる音声認識用ルール学習方法である。前記音声認識用ルール学習方法は、前記音声認識装置で認識結果が生成される過程で生成される第１の型の文字列と、当該第１の型の文字列に対応する第２の型の文字列とを対応付けて記録する文字列記録部を備えるコンピュータが実行する工程であって、前記コンピュータが備える抽出部が、前記単語辞書に記録された単語に対応する第２の型の文字列から、第２の型の文字列の最小単位である第２型要素が複数連なって構成される文字列を、第２型学習文字列候補として抽出する工程と、前記コンピュータが備えるルール学習部が、前記抽出部が抽出した第２型学習文字列候補のうち、前記文字列記録部に記録された第２の型の文字列の少なくとも一部に一致する文字列を第２型学習文字列とし、当該第２の型の文字列に対応付けられて前記文字列記録部に記録された前記第１の型の文字列中で、前記第２型学習文字列に対応する箇所を、第１型学習文字列として抽出し、当該第１型学習文字列と第２型学習文字列との対応関係を示すデータを、前記音声認識装置で用いられる変換規則に含める工程とを含む。

本発明にかかる音声認識用ルール学習プログラムは、音響モデルおよび単語辞書を用いて、入力した音声データについて照合処理を実行することにより認識結果を生成する音声認識装置であって、前記照合処理において、音を表す第１の型の文字列と、認識結果を形成するための第２の型の文字列との間の変換規則を用いる音声認識装置に接続または内蔵されたコンピュータに処理を実行させる。前記音声認識用ルール学習プログラムは、前記音声認識装置で認識結果が生成される過程で生成される第１の型の文字列と、当該第１の型の文字列に対応する第２の型の文字列とを対応付けて記録する文字列記録部にアクセスする処理と、前記単語辞書に記録された単語に対応する第２の型の文字列から、第２の型の文字列の最小単位である第２型要素が複数連なって構成される文字列を、第２型学習文字列候補として抽出する抽出処理と、前記抽出処理で抽出された第２型学習文字列候補のうち、前記文字列記録部に記録された第２の型の文字列の少なくとも一部に一致する文字列を第２型学習文字列とし、当該第２の型の文字列に対応付けられて前記文字列記録部に記録された前記第１の型の文字列中で、前記第２型学習文字列に対応する箇所を、第１型学習文字列として抽出し、当該第１型学習文字列と第２型学習文字列との対応関係を示すデータを、前記音声認識装置で用いられる変換規則に含めるルール学習処理とをコンピュータに実行させる。

本発明によれば、音声認識で用いられる変換規則として、不要な変換規則を増大させずに、音声認識装置に変換単位を変化させた新しい変換規則を自動的に追加し、音声認識の認識精度を向上させることができる。

ルール学習装置と、音声認識装置の構成を表す機能ブロック図音声認識装置の音声認識エンジンの構成を示す機能ブロック図認識語彙記録部に格納されるデータの内容の一例を示す図基本ルール記録部に記録されるデータの内容の一例を示す図学習ルール記録部に記録されるデータの内容の一例を示す図系列Ａ−系列Ｂ記録部に記録されるデータの内容の一例を示す図候補記録部に記録されるデータの内容の一例を示す図初期学習のためのデータを系列Ａ−系列Ｂ記録部３に記録する処理を示すフローチャートルール学習部が、系列Ａ−系列Ｂ記録部に記録されたデータを用いて、初期学習する処理を示すフローチャート音節列Ｓｘと音素列Ｐｘの各区間の対応関係を概念的に示す図抽出部およびルール学習部による再学習処理を示すフローチャート音節列Ｓｉと音素列Ｐｉの各区間の対応関係を概念的に示す図基準文字列作成部および不要ルール判定部による不要ルール削除処理の一例を示すフローチャート学習ルール記録部に記録される変換規則のデータ内容の一例を示す図系列Ａ−系列Ｂ記録部に記録されるデータの内容の一例を示す図系列Ａの発音記号列の各区間と、系列Ｂの単語列の各区間との対応関係を概念的に示す図学習ルール記録部に記録されるデータの内容の一例を示す図認識語彙記録部に格納されるデータの内容の一例を示す図認識語彙記録部の単語から抽出される系列Ｂパターンの例を示す図系列Ａの発音記号列の各区間と、系列Ｂの単語列の各区間との対応関係を概念的に示す図基本ルール記録部４に記録されたデータの内容の一例を示す図

［音声認識装置とルール学習装置の概略構成］
図１は、本実施形態にかかるルール学習装置と、それに接続される音声認識装置の構成を表す機能ブロック図である。図１に示す音声認識装置２０は、音声データを入力して、音声認識を行い、認識結果を出力する装置である。そのために、音声認識エンジン２１、音響モデル記録部２２および認識語彙（単語辞書）記録部２３を備えている。

音声認識エンジン２１は、音声認識処理において、音響モデル記録部２２および認識語彙（単語辞書）記録部２３に加え、ルール学習装置１の基本ルール記録部４および学習ルール記録部５も参照する。基本ルール記録部４および学習ルール記録部５には、音声認識処理の過程において、音声データの音響的特徴に基づいて生成される音を表す第１の型の文字列（以下、系列Ａと称する）と、認識結果を得るための第２の型の文字列（以下、系列Ｂと称する）との変換するに用いられる変換規則を示すデータが記録される。

音声認識エンジン２１は、この変換規則を用いて、音声認識処理において生成した系列Ａと系列Ｂとの変換を行う。本実施形態では、系列Ａが音声データの音響的特徴に基づいて抽出される音を表す記号列であり、系列Ｂが認識語彙を形成する認識文字列である場合について説明する。具体的には、系列Ａが音素列、系列Ｂが音節列とする。なお、後述するように系列Ａと系列Ｂの形態はこれに限られない。

ルール学習装置１は、音声認識装置２０で用いられる、上記のような系列Ａと系列Ｂとの変換規則を自動的に学習するための装置である。概略的には、ルール学習装置１は、音声認識エンジン２１から、系列Ａおよび系列Ｂに関する情報を受け取り、さらに認識語彙記録部２３のデータも参照することにより新たな変換規則を生成し、学習ルール記録部５に記録する。

ルール学習装置１は、基準文字列作成部６、ルール学習部９、抽出部１２、システム監視部１３、認識語彙監視部１６、設定部１８、初期学習用音声データ記録部２、系列Ａ−系列Ｂ記録部３、基本ルール記録部４、学習ルール記録部５、基準文字列記録部７、候補記録部１１、監視情報記録部１４、認識語彙情報記録部１５、閾値記録部１７を備える。

なお、音声認識装置２０およびルール学習装置１の構成は図１に示す構成に限られない。例えば、変換規則を示すデータを記録する基本ルール記録部４および学習ルール記録部５は、ルール学習装置１ではなく、音声認識装置２０に設けられる構成であってもよい。

また、音声認識装置２０およびルール学習装置１は、例えば、パーソナルコンピュータ、サーバマシンなどの汎用コンピュータによって構成される。１台の汎用コンピュータで、音声認識装置２０およびルール学習装置１の両方の機能を実現することができる。また、ネットワークを介して接続された複数の汎用コンピュータに、音声認識装置２０およびルール学習装置１の各機能部が分散して設けられる構成でもよい。さらに、音声認識装置２０およびルール学習装置１は、例えば、車載情報端末、携帯電話、ゲーム機、ＰＤＡ、家電製品、などの電子機器に組み込まれたコンピュータによって構成されていてもよい。

ルール学習装置１の基準文字列作成部６、ルール学習部９、抽出部１２、システム監視部１３、認識語彙監視部１６および設定部１８の各機能部は、コンピュータのＣＰＵがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、上記各機能部の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、初期学習用音声データ記録部２、系列Ａ−系列Ｂ記録部３、基本ルール記録部４、学習ルール記録部５、基準文字列記録部７、候補記録部１１、監視情報記録部１４、認識語彙情報記録部１５および閾値記録部１７は、コンピュータの内蔵記録装置またはこのコンピュータからアクセス可能な記録装置によって具現化される。

［音声認識装置２０の構成］
図２は、音声認識装置２０の音声認識エンジン２１の詳細な構成を説明するための機能ブロック図である。図２に示す機能ブロックで、図１と同じ機能ブロックには同じ番号が付されている。また、図２に示すルール学習装置１では、一部の機能ブロックの掲載を省略している。音声認識エンジン２１は、音声分析部２４、音声照合部２５、音素列変換部２７を備える。

まず、音声認識エンジン２１で用いられるデータを記録する認識語彙記録部２３、音響モデル記録部２２、基本ルール記録部４および学習ルール記録部５について説明する。

音響モデル記録部２２は、どの音素がどのような特徴量になりやすいかをモデル化した音響モデルを記録する。記録される音響モデルは、例えば、現在の主流である音素ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）である。

認識語彙記録部２３は、複数の認識語彙の読みを格納する。図３は、認識語彙記録部２３に格納されるデータの内容の一例を示す図である。図３に示す例では、認識語彙記録部２３に、認識語彙それぞれについて表記と読みが格納されている。ここでは、一例として、読みは音節列で表されている。

例えば、音声認識装置２０のユーザが、認識語彙の表記と読みを記録した記録媒体を音声認識装置２０に読み取らせることによって、認識語彙記録部２３には、上記の認識語彙の表記と読みが格納される。また、同様の操作で、ユーザは、認識語彙記録部２３に新たな認識語彙の表記および読みを格納したり、認識語彙の表記または読みを更新したりすることができる。

基本ルール記録部４および学習ルール記録部５には、系列Ａの一例である音素列と、系列Ｂの一例である音節列との変換規則を示すデータが記録される。変換規則は、例えば、音素列と音節列との対応関係を示すデータとして記録される。

基本ルール記録部４には、予め人によって作成された理想的な変換規則が記録される。基本ルール記録部４の変換規則は、例えば、発生の揺れや多様性を考慮しない理想的な音声データを仮定した変換規則である。これに対して、学習ルール記録部５には、ルール学習装置１によって、後述のように自動的に学習された変換規則が記録される。この変換規則は、発生の揺れや多様性を考慮した変換規則となる。

図４は、基本ルール記録部４に記録されるデータの内容の一例を示す図である。図４に示す例では、音節列の構成単位である１音節（系列Ｂの構成単位である要素）ごとに、それぞれに対応する理想的な音素列が記録されている。なお、基本ルール記録部４に記録されるデータの内容は、図４に示すデータに限られない。例えば、２音節以上の単位で、理想的な変換規則を定義するデータが含まれてもよい。

図５は、学習ルール記録部５に記録されるデータの内容の一例を示す図である。図５に示す例では、１音節または２音節ごとに、それぞれに対応する、学習によって得られた音素列が記録されている。なお、学習ルール記録部５には、１音節または２音節に限られず、２音節以上の音節列について音素列が記録されうる。変換規則の学習については後述する。

なお、認識語彙記録部２３には、さらに、例えば、文脈自由文法（ＣＦＧ：ＣｏｎｔｅｘｔＦｒｅｅＧｒａｍｍａｒ）や有限状態文法（ＦＳＧ：ＦｉｎｉｔｅＳｔａｔｅＧｒａｍｍａｒ）、単語連鎖の確率モデル（Ｎ−ｇｒａｍ）等のような文法データが記録されてもよい。

次に、音声分析部２４、音声照合部２５および音素列変換部２７についてそれぞれ説明する。音声分析部２４は、入力された音声データをフレーム毎の特徴量に変換する。特徴量には、ＭＦＣＣ、ＬＰＣケプストラムやパワー、それらの一次や二次の回帰係数の他、それらの値を主成分分析や判別分析により次元圧縮したものなどの多次元ベクトルが使用されることが多いが、ここでは特に限定しない。変換された特徴量は、各フレームに固有の情報（フレーム固有情報）と共に、内部のメモリに記録される。なお、フレーム固有情報は、例えば、各フレームが先頭から何番目のフレームであるかを示すフレーム番号や、各フレームの開始時点、終了時点、パワーなどを表すデータである。

音素列変換部２７は、基本ルール記録部４および学習ルール記録部５に格納されている変換規則に従って、認識語彙記録部２３に格納されている認識語彙の読みを音素列に変換する。本実施形態では、音素列変換部２７は、変換規則に従って、例えば、認識語彙記録部２３に格納されている全ての認識語彙の読みを音素列に変換する。なお、音素列変換部２７は、１つの認識語彙を、複数通りの音素列に変換してもよい。

例えば、図４に示す基本ルール記録部４の変換規則および図５に示す学習ルール記録部５の変換規則の双方を用いて変換する場合、音節「か」については「か」→「ｋａ」および「か」→「ｋａｓ」の２通りに変換規則があるので、音素列変換部２７は、「か」を含む認識語彙を２通りの音素列に変換することができる。

音声照合部２５は、音響モデル記録部２２の音響モデルと、音声分析部２４により変換された特徴量とを照合することにより、音声区間に含まれるフレームごとに音素スコアを算出する。音声照合部２５は、さらに、フレームごとの音素スコアと、音素列変換部２７が変換した各認識語彙の音素列とを照合することにより、各認識語彙のスコアを計算する。音声照合部２５は、各認識語彙のスコアに基づいて、認識結果となる認識結果として出力する認識語彙を決定する。

なお、例えば、認識語彙記録部２３に文法データが記録されている場合には、音声照合部２５は、文法データを用いて認識語彙列（認識文）を認識結果として出力することもできる。

音声照合部２５は、上記決定した認識語彙を認識結果として出力するとともに、認識結果に含まれる認識語彙の読み（音節列）とそれに対応する音素列とを、系列Ａ−系列Ｂ記録部３に記録する。系列Ａ−系列Ｂ記録部３に記録されるデータについては後述する。

なお、本実施形態で適用可能な音声認識装置は、上記の構成に限られない。音素列と音節列との変換に限らず、音を表す系列Ａと認識結果を形成するための系列Ｂとの変換を行う機能を持つ音声認識装置であれば本実施形態に適用可能である。

［ルール学習装置１の構成］
次に、図１を参照して、ルール学習装置１の構成について説明する。システム監視部１３は、音声認識装置２０およびルール学習装置１の動作状況を監視し、ルール学習装置１の動作を制御する。システム監視部１３は、例えば、監視情報記録部１４および認識語彙情報記録部１５に記録されたデータを基に、ルール学習装置１が実行すべき処理を決定し、各機能部に対して決定した処理の実行を指示する。

監視情報記録部１４には、音声認識装置２０およびルール学習装置１の動作状況を示す監視データが記録される。下記表１は、監視データの内容の一例を示す表である。

上記表１において、「初期学習済みフラグ」は、初期学習処理が済んだか否かを示すデータである。例えば、ルール学習装置１の初期設定では、初期学習済みフラグは「０」であり、初期学習処理が済むとシステム監視部１３が「１」に更新する。「音声入力待ち状態フラグ」は、音声認識装置２０が音声入力待ち状態である場合に「１」、そうでない場合に「０」が設定される。この音声入力待ち状態フラグは、例えば、システム監視部１３が音声認識装置２０から状態を示す信号を受けて、その信号に基づき設定することができる。「変換規則の増加量」は、学習ルール記録部５に追加された変換規則の数の総和である。「最近の再学習日時」は、システム監視部１３が再学習処理の指示を出した最近の日時である。なお、監視データが上記表１に示す内容に限られない。

認識語彙情報記録部１５には、音声認識装置２０の認識語彙記録部２３に記録される認識語彙の更新状況を示すデータが記録される。例えば、認識語彙の更新の有無（「ON」または「OFF」）を示す更新モード情報が認識語彙情報記録部１５に記録される。認識語彙監視部１６は、認識語彙記録部２３の認識語彙の更新状況を監視し、認識語彙に変更があったり、認識語彙が新規で登録されたりした場合に、更新モード情報を「ON」に設定する。

例えば、コンピュータを音声認識装置およびルール学習装置として機能させるためのプログラムを、そのコンピュータにインストールした直後の場合には、上記表１の「初期学習済みフラグ」は「０」となっている。「初期学習済みフラグ」＝「０」で、かつ「音声入力待ち受け状態フラグ」＝「１」であれば、システム監視部１３は、初期学習が必要と判断して、ルール学習部９に、変換規則の初期学習を指示してもよい。初期学習時には、後述するように、初期学習用音声データを音声認識装置２０に入力する必要があるので、音声認識装置２０が入力待ち状態である必要がある。

また、例えば、認識語彙情報記録部１５の上記更新モード情報が「ON」であり、かつ、上記表１の「最近の再学習日時」から所定時間が経過している場合に、システム監視部１３は、変換規則の再学習が必要と判断して、ルール学習部９および抽出部１２に変換規則の再学習を指示してもよい。

また、例えば、上記表１の「変換規則の増加量」が一定以上になった場合に、システム監視部１３は、不要ルール判定部８および基準文字列作成部６に対して、不要ルール判定を指示してもよい。この場合、例えば、システム監視部１３は、不要ルール判定の実行させる度に「変換規則の増加量」をリセットすることで、変換規則が一定量増加する度に不要ルール判定を実行することができる。

このようにして、システム監視部１３は、上記の監視データを基に、変換規則の初期学習実行の要否、および不要ルール削除判定の要否等を判断することができる。また、システム監視部１３は、監視データおよび更新モード情報を基に、変換規則の再学習の要否等を判断することができる。なお、監視情報記録部１４に記録される監視データは、上記表１の例に限られない。

初期学習用音声データ記録部２には、予め認識結果がわかっている音声データが、認識結果の文字列（ここでは一例として音節列とする）と対応付けられて教師データとして記録されている。この教師データは、例えば、音声認識装置２０のユーザが所定の文字列を読み上げたときの音声を録音し、その所定の文字列と対応付けて記録することにより得られる。初期学習用音声データ記録部２には、さまざまな文字列およびその読み上げ音声の組が、教師データとして記録される。

システム監視部１３は、変換規則の初期学習が必要と判断すると、まず、初期学習用音声データ記録部２の教師データのうち音声データＸを音声認識装置２０に入力し、音声認識装置２０で計算された音声データＸに対応する音素列を音声認識装置２０から受け取る。音声データＸに対応する音素列は、系列Ａ−系列Ｂ記録部３に記録される。また、システム監視部１３は音声データＸに対応する文字列（音節列）を、初期学習用音声データ記録部２から取り出して、系列Ａ−系列Ｂ記録部３に記録した音素列と対応付けて記録する。これにより、初期学習用の音声データＸに対応する音素列と音節列との組が系列Ａ−系列Ｂ記録部３に記録される。

その後、システム監視部１３は、ルール学習部９に初期学習の指示を出す。ルール学習部９は、初期学習の際には、この系列Ａ−系列Ｂ記録部３に記録された音素列と音節列の組と、基本ルール記録部４に記録された変換規則とを用いて、変換規則を初期学習して学習ルール記録部５に記録する。初期学習では、例えば、１音節ごとに対応する音素列が学習されて、各１音節とそれに対応する音素列とが対応付けられて記録される。ルール学習部９による初期学習については後で詳しく述べる。

なお、系列Ａ−系列Ｂ記録部３には、音声認識装置２０が、初期学習用の音声データではなく、任意の入力音声データに基づいて生成した音素列と、それに対応する音節列が記録されてもよい。すなわち、音声認識装置２０が、入力音声データを音声認識する過程で生成される音素列および音節列の組を、ルール学習装置１が音声認識装置２０から受け取って系列Ａ−系列Ｂ記録部３に記録してもよい。

図６は、系列Ａ−系列Ｂ記録部３に記録されるデータの内容の一例を示す図である。図６に示す例では、系列Ａと系列Ｂの例として、音素列と音節列とが対応付けられて記録されている。

システム監視部１３は、再学習が必要と判断すると、抽出部１２およびルール学習部９に再学習の指示を出す。抽出部１２は、認識語彙記録部２３から更新された認識語彙または新規登録された認識語彙の読み（音節列）を取得する。そして、抽出部１２は、取得した音節列から、学習する変換規則の変換単位に対応する長さの音節列パターンを抽出し、候補記録部１１に記録する。この音節列パターンが学習文字列候補となる。例えば、変換単位が１音節以上の変換規則を学習する場合は、１音節以上の長さの音節列パターンを抽出する。この場合の例として、認識語彙「あかし」からは、「あ」、「か」、「し」、「あか」、「かし」および「あかし」が学習文字列候補として抽出される。図７は、候補記録部１１に記録されるデータの内容の一例を示す図である。

なお、抽出部１２による学習文字列候補の抽出方法はこれに限られない。例えば、変換単位が２音節の変換規則のみを学習する場合には、２音節の音節列パターンのみを抽出してもよい。また、他の例として、抽出部１２は、音節数が一定の範囲内の音節列パターン（例えば、２音節以上かつ４音節以下の音節列パターン）を抽出することができる。どのような音節列パターンを抽出するかを示す情報は、ルール学習装置１に予め記録されていてもよい。また、ルール学習装置１が、ユーザからどのような音節列パターンを抽出するかを示す情報を受け付けてもよい。

再学習の場合、ルール学習部９は、系列Ａ−系列Ｂ記録部３の音素列と音節列の組および候補記録部１１に記録された学習文字列候補とを照合することにより、学習ルール記録部５に追加する変換規則（ここでは、一例として音素列と音節列との対応関係）を決定する。

具体的には、ルール学習部９は、系列Ａ−系列Ｂ記録部に記録された音節列の中に、抽出部１２が抽出した学習文字列候補と一致する部分がないか検索する。一致する部分があれば、その一致する部分の音節列が学習文字列に決定される。例えば、図６に示す系列Ｂ（音節列）の「あかさたな」には、図７に示す学習文字列候補「あか」、「あ」および「か」が含まれる。そこで、ルール学習部９は、「あか」、「あ」および「か」を学習文字列とすることができる。または、ルール学習部９は、これらの文字列のうち、文字列長が最も長い「あか」のみを学習文字列としてもよい。

そして、ルール学習部９は、系列Ａ−系列Ｂ記録部に記録された音素列の中で、学習文字列に対応する部分の音素列、すなわち学習音素列を決定する。具体的には、ルール学習部９は、系列Ｂ（音節列）の「あかさたな」を、学習文字列「あか」と学習文字列以外の区間「さたな」に分け、学習文字列以外の区間「さたな」をさらに１音節ずつの区間「さ」「た」「な」に区切る。ルール学習部９は、系列Ａ（音素列）も、系列Ｂ（音節列）の区間数と同じ数の区間にランダムに区切る。

そして、ルール学習部９は、各区間の音素列と音節列と対応度合を所定の評価関数を用いて評価し、その評価がよくなるように、系列Ａ（音素列）の区切りを変更する処理を繰り返す。これにより、系列Ｂ（音節列）の区切りによく対応する最適な系列Ａ（音素列）の区切りが得られる。このような最適化手法として、例えば、シミュレーテッドアニーリング法、遺伝アルゴリズム等公知の手法を用いることができる。これにより、学習文字列「あか」に対応する音素列の部分（すなわち、学習音素列）を例えば、「ａｋａｓ」に決定することができる。なお、学習音素列を求め方はこの例に限定されない。

ルール学習部９は、学習文字列「あか」と学習音素列「ａｋａｓ」を対応付けて学習ルール記録部５に記録する。これにより、２音節を変換単位とする変換規則が追加される。すなわち、音節列単位を変更した学習がなされる。ルール学習部９は、抽出部１２が抽出した学習文字列候補のうち、例えば、文字列長が２音節の学習文字列候補から学習文字列を決定するようにすると、変換単位が２音節の変換規則を追加することができる。このようにして、ルール学習部９は、追加する変換規則の変換単位を制御することができる。

さて、システム監視部１３が、不要ルール判定が必要と判断した場合、基準文字列作成部６は、学習ルール記録部５に記録された変換規則の学習文字列ＳＧに対応する音素列を、基本ルール記録部４の基本ルールに基づいて作成する。作成された音素列を基準音素列Ｋとする。不要ルール判定部８は、その基準音素列Ｋを、学習ルール記録部５のその学習文字列ＳＧに対応する音素列（学習音素列ＰＧ）と比較し、両者の類似度合に基づき、その学習文字列ＳＧと学習音素列ＰＧに関する変換規則が不要か否かを判断する。ここで、例えば、学習音素列ＰＧと基準音素列Ｋとの類似度合が予め設定された許容範囲を越える場合に、不要と判断される。この類似度合は、例えば、学習音素列ＰＧと基準音素列Ｋとの間における、音素列の長さの差、一致する音素の数または距離等である。不要ルール判定部８は、不要と判断した変換規則を学習ルール記録部５から削除する。

不要ルール判定部８に判断の基礎となる前記許容範囲を示す許容範囲データは、閾値記録部１７に予め記録される。この許容範囲データは、ルール学習装置１の管理者が設定部１８を介して、更新することができる。すなわち、設定部１８は、管理者から許容範囲を示すデータの入力を受け付け、当該入力に基づいて閾値記録部１７に記録された許容範囲データを更新する。許容範囲データは、例えば、上記の類似度合を示す値の閾値等が含まれる。

［ルール学習装置１の動作：初期学習］
次に、ルール学習装置１の初期学習時の動作例について説明する。図８は、システム監視部１３が初期学習のためのデータを系列Ａ−系列Ｂ記録部３に記録する処理を示すフローチャートである。図９は、ルール学習部９が、系列Ａ−系列Ｂ記録部３に記録されたデータを用いて、初期学習する処理を示すフローチャートである。

図８に示す処理では、まず、システム監視部１３は、初期学習用音声データ記録部２に予め記録された教師データＹに含まれる音声データＸを、音声認識装置２０に入力する（Ｏｐ１）。ここで、教師データＹには、音声データＸとそれに対応する音節列Ｓｘが含まれる。音声データＸは、例えば、「あかさたな」等のような所定の文字列（音節列）をユーザが読み上げた場合の音声である。

音声認識装置２０の音声認識エンジン２１は、入力された音声データＸの音声認識処理を行い、認識結果を生成する。システム監視部１３は、その音声認識処理の過程において生成される、その認識結果に対応する音素列Ｐｘを音声認識装置２０から取得し、系列Ａとして、系列Ａ−系列Ｂ記録部３に記録する（Ｏｐ２）。

また、システム監視部１３は、教師データＹに含まれる音節列Ｓｘを、系列Ｂとして、音素列Ｐｘと対応付けて系列Ａ−系列Ｂ記録部３に記録する（Ｏｐ３）。これにより、音声データＸに対応する音素列Ｐｘと音節列Ｓｘの組が系列Ａ−系列Ｂ記録部３に記録される。

システム監視部１３は、図８に示すＯｐ１〜Ｏｐ３の処理を、初期学習用音声データ記録部２に予め記録された様々な教師データ（文字列および音声データの組）それぞれについて繰り返すことにより、各文字列に対応する音素列と音節列との組を記録することができる。

このようにして、系列Ａ−系列Ｂ記録部３に音素列と音節列との組が記録されると、ルール学習部９は、図９に示す初期学習処理を実行する。図９において、ルール学習部９は、まず、系列Ａ−系列Ｂ記録部３に記録されている系列Ａと系列Ｂの組（本実施形態では、音素列と音節列の組）を全て取得する（Ｏｐ１１）。ここでは、取得した組の各組における系列Ａと系列Ｂを、音素列Ｐｘと音節列Ｓｘと称して以下説明する。そして、ルール学習部９は、各組における系列Ｂを、系列Ｂの構成単位である要素ごとの区間ｂ１〜ｂｎに区切る（Ｏｐ１２）。すなわち、各組における音節列Ｓｘを、音節列Ｓｘの構成単位である音節ごとの区間に区切る。例えば、音節列Ｓｘが「あかさたな」である場合、音節列Ｓｘは、「あ」「か」「さ」「た」および「な」の５つの区間に区切られる。

次に、ルール学習部９は、各組における系列Ａである音素列Ｐｘを、音節列Ｓｘ（系列Ｂ）の各区間に対応するように、ｎ個の区間に区切る（Ｏｐ１３）。このとき、ルール学習部９は、例えば、上述したような最適化手法を用いて、最適な音素列Ｐｘの区切り位置を探索する。

一例を挙げると、例えば、音素列Ｐｘが「ａｋａｓａｔｏｎａａ」である場合、ルール学習部９は、まず初めに、「ａｋａｓａｔｏｎａａ」をランダムにｎ個の区間に区切る。このランダムな区間が、例えば、「ａｋ」、「ａｓ」、「ａｔ」、「ｏ」、「ｎａａ」とすると、音素列Ｐｘと音節列Ｓｘの各区間における対応関係「あ→ａｋ」、「か→ａｓ」、「さ→ａｔ」、「た→ｏ」、「な→ｎａａ」が決まる。このようにして、ルール学習部９は、全ての音素列と音節列の組について各区間の対応関係を求める。

ルール学習部９は、このようにして求めた全ての組における全ての対応関係を参照して、各区間の音節について、対応する音素列の種類数（パターン数）を数える。例えば、ある区間の音節「あ」に対応する音素列として「ａｋ」が対応しており、他の区間の同じ音節「あ」には音素列「ａ」が、さらに他の区間の音節「あ」には音素列「ａｋａｓ」がそれぞれ対応していたとすると、音節「あ」に対して「ａ」、「ａｋ」および「ａｋａｓ」の３種類の音素列が対応していることになる。この場合、これらの区間の音節「あ」の種類数は３になる。

そして、ルール学習部９は、各組について種類数の合計を求め、これを評価関数の値として、この値が小さくなるように、最適化手法を使って、適切な区切り位置を探索する。すなわち、ルール学習部９は、最適化手法を実現するための所定の計算式によって、各組の音素列における新たな区切り位置を計算して区間を変更し、評価関数の値を求める処理を繰り返す。そして、評価関数の値が最小値に収束するときの、各組の音素列の区切りが、音節列の区切りに最もよく対応する最適な区切りとされる。これにより、各組の系列Ｂの各要素ｂ１〜ｂｎそれぞれに対応する系列Ａの区間が決定される。

例えば、音節列Ｓｘと音素列Ｐｘの組については、音節列Ｓｘを構成する各音節の区間「あ」「か」「さ」「た」および「な」それぞれに対応する音素列Ｐｘの区間が決定する。一例として、５つの区間「あ」「か」「さ」「た」および「な」に対して、音素列Ｓｘ「ａｋａｓａｔｏｎａａ」は、「ａ」「ｋａｓ」「ａ」「ｔｏ」および「ｎａａ」の区間に区切られる。

図１０は、この音節列Ｓｘと音素列Ｐｘの各区間の対応関係を概念的に示す図である。図１０においては、音素列Ｐｘの区間の区切りが破線で示されている。各区間の対応関係は「あ→ａ」、「か→ｋａｓ」、「さ→ａ」、「た→ｔｏ」および「な→ｎａａ」となっている。

ルール学習部９は、それぞれの区間についての、音節列と音素列の対応関係（系列Ａと系列Ｂの対応関係）、すなわち変換規則を、学習ルール記録部５に記録する（Ｏｐ１４）。例えば、上記の「あ→ａ」、「か→ｋａｓ」、「さ→ａ」、「た→ｔｏ」および「な→ｎａａ」の対応関係（変換規則）がそれぞれ記録される。ここで、「あ→ａ」は、音節「あ」が音素「ａ」に対応することを示している。例えば、「あ→ａ」、「か→ｋａｓ」および「さ→ａ」については図５に示したように記録される。

なお、本例の初期学習では、学習される変換規則の変換単位は１音節となっている。しかし、１音節を変換単位とする変換規則では、音素列が複数の音節にまたがって対応するようなルールを記述できない。また、音声認識装置２０において１音声単位の変換規則を用いて照合処理を行うと、音節列から認識語彙を形成する際の解の候補数が増大し、誤検出や枝刈りによる正解候補の欠落が生じる場合がある。

そのため、例えば、上記の初期学習において、変換単位を２音節以上とする変換規則を生成することも考えられる。すなわち、系列Ａ―系列Ｂ記録部３に記録された音節列に含まれる全ての２音節の組み合わせについて、変換規則を生成し追加することもできる。しかし、全ての２音節の組み合わせ数は膨大な数になるので、学習ルール記録部５に記録される変換規則のデータサイズや、変換規則を使用する処理にかかる時間が増えすぎて、音声認識装置２０の動作に支障をきたす可能性が高い。

そこで、本実施形態におけるルール学習部９は、初期学習では、上記のように１音節の変換単位での変換規則を学習する。そして、以下に示すように、ルール学習部９は、再学習処理において、２音節以上を変換単位とする変換規則であって、かつ、音声認識装置２０で使われる可能性の高い変換規則を学習する。

［ルール学習装置１の動作：再学習］
図１１は、抽出部１２およびルール学習部９による再学習処理を示すフローチャートである。図１１に示す処理は、例えば、認識語彙記録部２３において、認識語彙が新規登録された場合に、システム監視部１３からの指示を受けて、抽出部１２およびルール学習部９が再学習処理を実行する場合の動作である。

抽出部１２は、認識語彙記録部２３に記録された認識語彙のうち、新規登録された認識語彙の音節列を取得する。そして、抽出部１２は、取得した認識語彙音節列に含まれる１音節以上の音節列パターン（系列Ｂパターン）を抽出する（Ｏｐ２１）。抽出部１２が取得した認識語彙の音節長をｎとすると、音節長＝１の音節、音節長＝２の音節列パターン、音節長＝３の音節列パターン、・・・音節長ｎの音節列パターンが抽出される。

例えば、認識語彙の音節列が「おきしま」であった場合、「お」「き」「し」「ま」「おき」「きし」「しま」「おきし」「きしま」「おきしま」の１０パターンの音節列パターンが抽出される。これらの抽出された音節列パターンが学習文字列候補となる。

次に、ルール学習部９は、系列Ａ−系列Ｂ記録部３に記録されている音素列Ｐと音節列Ｓの組（Ｎ組とする）を全て取得する（Ｏｐ２２）。ルール学習部９は、各組の音節列Ｐについて、Ｏｐ１１で抽出した音節列パターンと比較し、一致する部分を探して、一致する部分を１つの区間として区切る。具体的には、ルール学習部９は、変数ｉをｉ＝１に初期化した後（Ｏｐ２３）、Ｏｐ２４およびＯｐ２５の処理を全ての組（ｉ＝１〜Ｎ）について終了するまで（Ｏｐ２６でＹｅｓと判断されるまで）繰り返す。

Ｏｐ２４では、ルール学習部９はｉ番目の組の音節列Ｓｉについて、Ｏｐ１１で抽出した音節列パターンを、前方から最長一致で検索する。すなわち、音節列Ｓｉに一致する最も長い音節列パターンを、音節列Ｓｉの前方から検索する。例えば、音節列Ｓｉが「おきなわの」であり、認識語彙「おきしま」「はえなわ」から抽出された音節列パターンが下記表２である場合について説明する。

この場合、音節列Ｓｉの「おきなわの」の「おき」および「なわ」の部分が、上記表２の音節列パターン「おき」および「なわ」と前方最長一致することになる。

ここでは、ルール学習部９は、一例として、前方最長一致で検索しているが、検索方法はこれに限られない。例えば、ルール学習部９は、検索対象の音節列長を所定の値に限定してもよいし、後方からの最長一致で適用してもよいし、また、音節列長の限定と後方からの一致を組み合わせてよい。ここで、検索対象の音節列長を例えば、２音節に限定すると、学習する変換規則の音節列長が２音節となる。そのため、変換単位が２音節の変換規則のみを学習することができる。

Ｏｐ２５で、ルール学習部９は、音節列Ｓｉの中で、音節列パターンと一致する部分を、１つの区間として区切る。なお、音節列パターンと一致する部分以外の部分については、１音節ごとに区切られる。例えば、音節列Ｓｉ「おきなわの」は、「おき」、「なわ」、「の」に区切られる。

ルール学習部９は、このようなＯｐ２４、Ｏｐ２５の処理を繰り返すことで、Ｏｐ２１で取得した全ての組の音節列Ｓｉ（ｉ＝１〜Ｎ）について、音節列パターンと一致する部分を１つの区間として区切ることができる。その後、ルール学習部９は、各組の音節列Ｓｉの各区間に対応するように、各組の音素列Ｐｉを区切る（Ｏｐ２７）。このＯｐ２７の処理は、図９のＯｐ１３の処理と同様に行うことができる。これにより、各組の音節列Ｓｉの音節列パターンと一致する部分に対応する音素列を求めることができる。

図１２は、この音節列Ｓｉと音素列Ｐｉの各区間の対応関係を概念的に示す図である。図１２においては、音素列Ｐｉの区間の区切りが破線で示されている。各区間の対応関係は「おき→ｏｋｉ」、「なわ→ｎａａ」および「の→ｎｏ」となっている。

ルール学習部９は、音節列Ｓｉと音節列パターンが一致する部分の区間それぞれについての、音節列と音素列の対応関係（すなわち変換規則を）、学習ルール記録部５に記録する（Ｏｐ２８）。例えば、上記の「おき→ｏｋｉ」および「なわ→ｎａａ」の対応関係（変換規則）がそれぞれ記録される。ここでは、音節列Ｓｉと一致する音節列パターン「おき」「なわ」が学習音節列となり、音素列Ｐｉのそれぞれ対応する区間「ｏｋｉ」「ｎａａ」が学習音素列となる。例えば、「なわ→ｎａａ」については図５に示したように記録される。

以上の図１１に示した再学習の処理により、認識語彙に含まれる文字列（音節列）に関してのみ、変換単位を１音節以上とした変換規則を学習することができる。すなわち、ルール学習装置１は、認識語彙記録部２３で更新または登録された認識語彙に応じて、音素列（系列Ａ）と音節列（系列Ｂ）との変換単位を動的に変更する。これにより、変換単位を大きくした変換規則の学習が可能なるとともに、学習される変換規則が膨大な量になるのを抑制し、使用される可能性が高い変換規則を効率よく学習することが可能になる。

また、上記の再学習においては、初期学習用音声データ記録部２の教師データを用いる必要がない。そのため、再学習の際には、ルール学習装置１は、音声認識装置２０の認識語彙記録部２３に記録された認識語彙のみを取得できればよい。そのため、例えば、音声認識装置２０において，タスクが急遽変更になった場合等のように教師データが用意できない状況であっても、タスク変更に伴って認識語彙が更新された時点で即時に再学習し、対応することができる。すなわち、ルール学習装置１は、教師データがなくても変換規則の再学習を行うことができる。

例えば、音声認識装置２０のタスクが道路交通情報の音声案内であった場合に、急遽、漁業情報の音声案内のタスクも加えることになったとする。このような場合、認識語彙記録部２３に漁業に関する認識語彙（例えば、「沖島」「延縄」等）が追加されたが、これらの認識語彙の教師データを用意できないといった状況が発生しうる。このように、新たに教師データが提供されてなくても、ルール学習装置１は、追加された認識語彙に対応する変換規則を自動的に学習しルール学習部９に追加することが可能である。その結果、音声認識装置２０は、漁業情報案内のタスクに即座に対応することができる。

なお、図１１に示す再学習の処理は一例であって、これに限られない。例えば、ルール学習部９は、過去に学習した変換規則を記録しておき、再学習した変換規則とマージすることができる。例えば、ルール学習部９が過去に学習した変換規則が次の３つであり、
あい → a i
いう → y u u
うえ → u w e
新たに再学習した変換規則が次の２つである場合、
いう → y u u
えお → e h o
ルール学習部９は、過去の学習結果と新たな再学習結果とをマージして、次のような変換規則のデータセットを作成することができる。すなわち、「いう → y u u」については、過去の学習結果と新たな再学習結果が同じなので、ルール学習部９は、いずれかを削除することができる。

［ルール学習装置１の動作：不要ルール判定］
次に、不要ルール削除処理について説明する。図１３は、基準文字列作成部６および不要ルール判定部８による不要ルール削除処理の一例を示すフローチャートである。図１３において、まず、基準文字列作成部６は、学習ルール記録部５に記録された変換規則で示される学習音節列ＳＧとそれに対応する学習音素列ＰＧの組を取得する（Ｏｐ３１）。ここでは、一例として、図５に示す学習ルール記録部５のデータから、学習音節列ＳＧ＝「あか」、学習音素列ＰＧ＝「ａｋａｓ」の組を取得する場合を例にあげて説明する。

基準文字列作成部６は、学習音節列ＳＧに対応する基準音素列（基準文字列）Ｋを、基本ルール記録部４に記録された変換規則を用いて作成する（Ｏｐ３２）。基本ルール記録部４には、例えば、図４に示すように、１音節ごとに対応する音素列が変換規則として記録されている。そのため、基準文字列作成部６は、学習音節列ＳＧの各音節を、基本ルール記録部４の変換規則に基づいて、１音節ずつ音素列に置き換えて、基準音素列を作成する。

例えば、学習音節列ＳＧ＝「あか」の場合、図４に示す変換規則「あ→ａ」および「か→ｋａ」を用いて、基準音素列「ａｋａ」が作成される。作成された基準音素列Ｋは、基準文字列記録部７に記録される。

不要ルール判定部８は、基準文字列記録部７に記録された基準音素列Ｋ「ａｋａ」と、学習音素列ＰＧ「ａｋａｓ」とを比較し、両者の類似度を示す距離ｄを計算する（Ｏｐ３３）。距離ｄは、例えば、ＤＰ照合法等を用いて計算することができる。

不要ルール判定部８は、Ｏｐ３３で計算した、基準音素列Ｋと学習音素列ＰＧとの距離ｄが、閾値記録部１７に記録された閾値ＤＨより大きい場合（Ｏｐ３４でＹｅｓ）、学習音素列ＰＧに関する変換規則は不要であると判断し、学習ルール記録部５から削除する（Ｏｐ３５）。

以上のＯｐ３１〜Ｏｐ３５の処理は、学習ルール記録部５に記録された変換規則全て（すなわち、学習音節列と学習音素列の組全て）について繰り返される。これにより、基準音素列Ｋとの距離がかけ離れている（類似度合が低い）ような学習音素列ＰＧに関する変換規則は、不要ルールとして学習ルール記録部５から削除される。そのため、誤変換をもたらす可能性のある変換規則を取り除くことができ、かつ、学習ルール記録部５に記録されるデータの量を減らすことができる。

なお、不要ルールとして判定される場合の例と挙げると、学習音節列ＳＧ＝「なわ」、基準音素列Ｋ＝「ｎａｗａ」であって、学習音素列ＰＧ＝「ｍｏｇａ」である場合は、ＰＧとＫとで音素内容の違いが大きいため不要と判断される。また、学習音素列ＰＧ＝「ｎａｗａｎｏｕｅ」である場合も、音素列長の違いが大きいため不要と判断される。

なお、Ｏｐ３３で計算される類似度は、上記のＤＰ照合法による距離ｄに限られない。ここで、Ｏｐ３３で計算される類似度の変形例について説明する。例えば、不要ルール判定部８は、基準音素列Ｋと学習音素列ＰＧとで一致する音素がどのくらいあるかに基づいて類似度を計算してもよい。具体的には、不要ルール判定部８は、学習音素列ＰＧの中に、基準音素列Ｋの音素と同一の音素が含まれる割合Ｗを計算し、この割合Ｗに基づいて類似度も求めてよい。一例として、類似度＝Ｗ×定数Ａ（Ａ＞０）と計算することができる。

また、類似度の別の例として、例えば、不要ルール判定部８は、基準音素列Ｋと学習音素列ＰＧとの音素列長の差Ｕに基づいて類似度を求めてもよい。一例として、類似度＝Ｕ×定数Ｂ（Ｂ＜０）と計算することができる。あるいは、差Ｕと上記割合Ｗとを加味して、類似度＝Ｕ×定数Ｂ＋Ｗ×定数Ａで計算することもできる。

また、不要ルール判定部８は、上記の類似度計算において学習音素列と基準音素列の各音素を比較する際、予め用意された、音声認識における誤り（例えば、挿入、置換または欠落）の傾向を示すデータを使って、類似度を計算することができる。これにより、挿入、置換または欠落等の傾向を加味した類似度を計算することができる。ここで、音声認識における誤りとは、理想的な変換規則に従わない変換を意味する。

例えば、図１０に示すように、「ａ→あ」、「ｋａｓ→か」、「ａ→さ」、「ｔｏ→た」「ｎａａ→な」と変換されたとする。理想的な変換規則が「あ→ａ」、「か→ｋａ」、「さ→ｓａ」、「た→ｔａ」、「な→ｎａ」である場合、「か→ｋａｓ」の変換では理想的な変換結果「ｋａ」に対して「ｓ」が挿入された状態となっている。また、「た→ｔｏ」の変換では、理想的な変換結果の「ａ」が「ｏ」に置換された状態となっている。また、「さ→ａ」の変換では、理想的な変換結果から「ｓ」が欠落した状態となっている。このような、挿入、置換、欠落等の誤りの音声認識装置２０における傾向を示すデータは、例えば、下記表３のような内容のデータとして、ルール学習装置１または音声認識装置２０に記録される。

不要ルール判定部８は、例えば、それに対応する基準音素列中の文字が「ｔａ」で、学習音素列中のある音素が「ｔｏ」である場合、もし、上記表３に示す傾向において「ｔａ」と「ｔｏ」の置換誤りの頻度が閾値以上の場合には、「ｔａ」と「ｔｏ」は同じ文字であるとして扱ってもよい。あるいは、不要ルール判定部８は、類似度算出の際に、「ｔａ」と「ｔｏ」との類似度が高くなるような重み付け、あるいは類似度合値（ポイント）の加算等を行ってもよい。

以上、類似度計算の変形例について説明したが、類似度計算は上記例に限られない。また、本実施形態においては、不要ルール判定部８は、基準音素列と学習音素列とを比較することにより、変換規則の要否を判定しているが、基準音素列を用いずに判定することもできる。例えば、不要ルール判定部８は、学習音素列および学習音節列の少なくともいずれか一方の出現頻度に基づいて、要否を判定してもよい。

この場合、学習ルール記録部５に記録される変換規則のデータは、例えば、図１４のような内容となる。図１４に示すデータは、図５に示すデータの内容に、さらに、各学習音節列についての出現頻度を示すデータを追加した内容となっている。不要ルール判定部８は、このような出現頻度を示すデータを順次参照することにより、出現頻度が所定の閾値よりも低い学習音節列については、不要と判定して削除することが可能になる。

なお、図１４に示す出現頻度は、例えば、音声認識装置２０の音声認識エンジン２１が、音声認識処理において、音節列を生成する度に、ルール学習装置１にその音節列を通知し、ルール学習装置１が学習ルール記録部５において、通知された音節列の出現頻度を更新することができる。

なお、出現頻度を示すデータの記録方法は上記の例に限られない。例えば、音声認識装置２０が各音節列の出現頻度を記録しておき、不要ルール判定部８が、不要ルール判定時に音声認識装置２０に記録された出現頻度を参照する構成であってもよい。

また、上記出現頻度に基づく不要ルール判定の他に、学習音節列および学習音素列の少なくともいずれか一方の長さに基づく不要ルール判定も可能である。不要ルール判定部８は、例えば、図４に示すような学習ルール記録部５に記録された学習音節列の音節列長を順次参照し、所定の閾値以上の音節列長である場合は不要と判定し、その学習音節列の変換規則を削除してもよい。

また、上記の説明における類似度、出現頻度、あるいは、音節列または音素列の長さの許容範囲を示す閾値は、上限および下限両方を示す値であってもよいし、どちらか一方を表す値であってもよい。これらの閾値は許容範囲データとして、閾値記録部１７に記録される。管理者は、設定部１８を介して、これらの閾値を調整することができる。これにより、不要ルール判定時の判断基準を動的に変更することができる。

なお、本実施形態において、不要ルール判定部８は、初期学習および再学習の後の処理として不要な変換規則を削除する例を説明したが、例えば、ルール学習部９の再学習処理時に、上記の判定を行い、不要な変換規則を学習ルール記録部５に記録しないようにしてもよい。

［系列Ａおよび系列Ｂの他の例］
以上、本実施形態では、系列Ａが音素列、系列Ｂが音節列である場合について説明したが、系列Ａおよび系列Ｂの他のとりうる態様について説明する。系列Ａは、例えば、音に対応する記号列等のような、音を表す文字列である。系列Ａの表記および言語は任意である。例えば、下記表４に示すような音素記号、発音記号、音に割り当てられたＩＤ番号列が系列Ａに含まれる。

系列Ｂは、例えば、音声認識の認識結果を構成するための文字列であり、認識結果を構成する文字列そのものであってもよいし、認識結果を構成する前の段階の中間文字列であってもよい。また、系列Ｂは、認識語彙記録部２３に記録される認識語彙そのものであってもよいし、認識語彙を変換して一意に得られる文字列であってもよい。系列Ｂの表記および言語も任意である。例えば、下記表５に示すような漢字列、ひらがな列、カタカナ列、アルファベット、文字（列）に割り当てられたＩＤ番号列等が系列Ｂに含まれる。

また、本実施形態では、系列Ａと系列Ｂのように、２つの系列間で変換処理が行われる場合を説明したが、２以上の系列間で変換処理が行われてもよい。例えば、音声認識装置２０は、音素記号→音素ＩＤ→音節列（ひらがな）のように多段階で変換処理を行ってもよい。このような変換処理の一例を次に示す。
/a/ /k/ /a/ → [01] [06] [01] → 「あか」
この場合、ルール学習装置１は、音素記号と音素ＩＤとの間の変換規則、および音素ＩＤと音節列との間の変換規則のいずれか一方または双方を学習の対象とすることができる。

［英語の場合のデータ例］
本実施形態は、日本語の音声認識装置で用いられる変換規則を学習する場合について、説明したが、本発明は日本語に限らず任意の言語に適用できる。ここで、上記実施形態を、英語に適用した場合のデータ例について説明する。ここでは、一例として、系列Ａが発音記号列であり、系列Ｂが単語列である場合について説明する。この例では、単語列に含まれるそれぞれの単語が、系列Ｂの最小単位である要素となる。

図１５は、系列Ａ−系列Ｂ記録部３に記録されるデータの内容の一例を示す図である。図１５に示す例では、系列Ａとして発音記号列が、系列Ｂとして単語列が記録されている。ルール学習部９は、上述したように、系列Ａ−系列Ｂ記録部３に記録された系列Ａとして発音記号列と、系列Ｂの単語列とを用いて、初期学習および再学習処理を行う。

ルール学習部９は、例えば、初期学習においては、１単語を変換単位とする変換規則を学習し、再学習時には、１単語以上を変換単位として変換規則を学習する。

図１６は、初期学習において、ルール学習部９によって求められる、系列Ａの発音記号列の各区間と、系列Ｂの単語列の各区間との対応関係を概念的に示す図である。上述した図９に示した処理と同様にして、系列Ｂの単語列が１単語ごとに区切られ、それに対応するように、系列Ａの発音記号列が区切られる。これにより、各単語（系列Ａの各要素）に対応する発音記号列（系列Ｂ）が求められ、学習ルール記録部５に記録される。

図１７は、学習ルール記録部５に記録されるデータの内容の一例を示す図である。図１７では、例えば、単語「ｗｏｕｌｄ」および「ｙｏｕ」の変換規則が、初期学習で記録される変換規則である。再学習においては、さらに、単語列「ｗｏｕｌｄｙｏｕ」の変換規則が記録される。すなわち、図１１に示した処理と同様の再学習処理により単語列「ｗｏｕｌｄｙｏｕ」の変換規則が学習される。以下、図１１の処理が英語に適用される場合の例を説明する。

図１１のＯｐ２２において、抽出部１２は、認識語彙記録部２２において更新された認識語彙から系列Ｂパターンを抽出する。図１８は、認識語彙記録部２２に格納されるデータの内容の一例を示す図である。図１８に示す例では、認識語彙は単語（系列Ｂ）で表されている。抽出部１２は、認識語彙記録部２２から、連接可能な単語の組み合わせパターン、すなわち系列Ｂパターンを抽出する。この抽出においては、予め記録された文法規則が用いられる。文法規則は、例えば、単語と単語がどのように連接するかを規定する規則の集合である。このような文法規則として、例えば、上述したＣＦＧ、ＦＳＧ、またはＮ−ｇｒａｍ等のような文法データを用いることができる。

図１９は、認識語彙記録部２２の単語「ｗｏｕｌｄ」、「ｙｏｕ」および「ｈａｖｅ」から抽出される系列Ｂパターンの例を示す図である。図１９に示す例では、「ｗｏｕｌｄ」、「ｙｏｕ」、「ｈａｖｅ」、「ｗｏｕｌｄｙｏｕ」、「ｙｏｕｈａｖｅ」および「ｈａｖｅｙｏｕ」が抽出されている。ルール学習部９は、このような系列Ｂパターンと、系列Ａ−系列Ｂ記録部３の単語列（系列Ｂ：例えば、「ｗｏｕｌｄｙｏｕｌｉｋｅ・・・）とを比較して、前方から最長一致する部分を検索する（Ｏｐ２４）。ルール学習部９は、この系列Ｂパターンと一致する部分（この例では「ｗｕｏｌｄｙｏｕ」）を１区間として、単語列（系列Ｂ）を区切り（Ｏｐ２５）、系列Ｂパターンと一致する部分以外は、１単語１区間として区切る。そして、ルール学習部９は、この系列Ｂの各区間に対応する発音記号列（系列Ａ）の区間を計算する（Ｏｐ２７）。

図２０は、系列Ａの発音記号列の各区間と、系列Ｂの単語列の各区間「ｗｏｕｌｄｙｏｕ」および「ｌｉｋｅ」等との対応関係を概念的に示す図である。図２０に示す単語列「ｗｏｕｌｄｙｏｕ」の対応関係は、変換規則として、例えば、図１７に示すように学習ルール記録部部５に記録される。すなわち、学習単語列「ｗｏｕｌｄｙｏｕ」に関する変換規則が学習ルール記録部５に追加記録される。以上が、再学習時のデータ内容の例である。

さて、このようにして学習された変換規則について、図１３に示した不要ルール判定処理により、不要な変換規則が削除される。このとき、Ｏｐ３２では、基本ルール記録部４に予め記録された理想的な変換規則（一般辞書）が用いられる。図２１は、基本ルール記録部４に記録されたデータの内容の一例を示す図である。図２１に示す例では、単語ごとに、対応する発音記号列が記録されている。これにより、基準文字列作成部６は、学習ルール記録部５に記録された学習単語列について、単語ごとに発音記号列に変換し、基準記号列（基準文字列）を作成することができる。下記表６は、基準記号列と、それと比較される学習発音記号列の例を示す表である。

上記表６において、例えば、１行目の学習発音記号列の変換規則は不要と判定されないが、２行目の学習発音記号列は、基準記号列と一致する発音記号が皆無なので、不要ルール判定部８は、例えば、類似度を低く計算し、これに関する変換規則は不要と判定する。３行目の学習発音記号列は、基準記号列と学習発音記号列との記号列長の差が「４」である。閾値が例えば、「３」であれば、この学習発音記号列に関する変換規則は不要と判断される。

以上、英語の音声認識で用いられる変換規則を学習する場合のデータ例について説明した。英語に限らず、他の言語についても同様に本実施形態のルール学習装置１を適用することができる。

上記実施形態によれば、新たな教師データ（音声データ）を用いることなく、タスクに特化した必要最小限の変換規則を再学習して、構築することが可能になる。これにより、音声認識装置２０の認識精度向上、省資源化、高速化が実現される。

本発明は、音声認識装置で用いられる変換規則を自動学習するルール学習装置として有用である。

Claims

音響モデルおよび単語辞書を用いて、入力した音声データについて照合処理を実行することにより認識結果を生成する音声認識装置であって、前記照合処理において、音を表す第１の型の文字列と、認識結果を形成するための第２の型の文字列との間の変換規則を用いて、前記入力した音声データの音を表す第１の型の文字列を第２の型の文字列に変換し、変換した第２の型の文字列に対応する単語辞書の単語を含む認識結果を出力する音声認識装置に接続された音声認識用ルール学習装置であって、
前記音声認識装置で認識結果が生成される過程で生成される第１の型の文字列と、当該第１の型の文字列に対応する第２の型の文字列とを対応付けて記録する文字列記録部と、
前記単語辞書に記録された単語に対応する第２の型の文字列から、第２の型の文字列の最小単位である第２型要素が複数連なって構成される文字列を、第２型学習文字列候補として抽出する抽出部と、
前記抽出部が抽出した第２型学習文字列候補のうち、前記文字列記録部に記録された第２の型の文字列の少なくとも一部に一致する文字列を第２型学習文字列とし、当該第２の型の文字列に対応付けられて前記文字列記録部に記録された前記第１の型の文字列中で、前記第２型学習文字列に対応する箇所を、第１型学習文字列として抽出し、当該第１型学習文字列と第２型学習文字列との対応関係を示すデータを、前記音声認識装置で用いられる変換規則に含めるルール学習部とを備える、音声認識用ルール学習装置。
第２の型の文字列の構成単位である第２型要素それぞれに対応する理想的な第１の型の文字列を示すデータである基本ルールを予め記録する基本ルール記録部と、
前記基本ルールを用いて前記第２型学習文字列に対応する第１の型の文字列を、第１型基準文字列として生成し、当該第１型基準文字列と、前記第１型学習文字列との類似度合を示す値を計算し、当該値が所定の許容範囲内である場合に、前記第１型学習文字列を前記変換規則に含めると判断する、不要ルール判定部とをさらに備える請求項１に記載の音声認識用ルール学習装置。
前記不要ルール判定部は、前記第１型基準文字列と前記第１型学習文字列との文字列長の違い、および前記第１型基準文字列と前記第１型学習文字列とで一致する文字の割合のうち、少なくとも１つに基づいて類似度合を示す値を計算することを特徴とする、請求項２に記載の音声認識用ルール学習装置。
前記ルール学習部が抽出した前記第１型学習文字列および前記第２型学習文字列の少なくともいずれか一方の前記音声認識装置における出現頻度が、所定の許容範囲内である場合に、当該第１型学習文字列と前記第２型学習文字列との対応関係を示すデータを前記変換規則に含めると判断する不要ルール判定部をさらに備える、請求項１に記載の音声認識用ルール学習装置。
前記所定の許容範囲を示す許容範囲データを記録する閾値記録部と、
ユーザから許容範囲を示すデータの入力を受け付け、当該入力に基づいて前記閾値記録部に記録された前記許容範囲データを更新する設定部をさらに備える、請求項２〜４のいずれか１項に記載の音声認識ルール学習装置。
音を表す第１の型の文字列と、認識結果を形成するための第２の型の文字列との間の変換規則を記録するルール記録部と、
音響モデルおよび単語辞書を用いて入力した音声データの照合処理を実行し、当該照合処理において、前記入力した音声データの音を表す第１の型の文字列を、前記変換規則を用いて第２の型の文字列に変換し、変換した第２の型の文字列に対応する単語辞書の単語を含む認識結果を出力する音声認識部と、
前記音声認識部で認識結果が生成される過程で生成される第１の型の文字列と、当該第１の型の文字列に対応する第２の型の文字列とを対応付けて記録する文字列記録部と、
前記単語辞書に記録された単語に対応する第２の型の文字列から、第２の型の文字列の最小単位である第２型要素が複数連なって構成される文字列を、第２型学習文字列候補として抽出する抽出部と、
前記抽出部が抽出した第２型学習文字列候補のうち、前記文字列記録部に記録された第２の型の文字列の少なくとも一部に一致する文字列を第２型学習文字列とし、当該第２の型の文字列に対応付けられて前記文字列記録部に記録された前記第１の型の文字列中で、前記第２型学習文字列に対応する箇所を、第１型学習文字列として抽出し、当該第１型学習文字列と第２型学習文字列との対応関係を示すデータを、前記音声認識部で用いられる変換規則に含めるルール学習部とを備える、音声認識装置。
音響モデルおよび単語辞書を用いて、入力した音声データについて照合処理を実行することにより認識結果を生成する音声認識装置であって、前記照合処理において、音を表す第１の型の文字列と、認識結果を形成するための第２の型の文字列との間の変換規則を用いて、前記入力した音声データの音を表す第１の型の文字列を第２の型の文字列に変換し、変換した第２の型の文字列に対応する単語辞書の単語を含む認識結果を出力する音声認識装置で用いられる前記変換規則を、コンピュータが学習する音声認識用ルール学習方法であって、
前記音声認識装置で認識結果が生成される過程で生成される第１の型の文字列と、当該第１の型の文字列に対応する第２の型の文字列とを対応付けて記録する文字列記録部へアクセス可能なコンピュータが実行する工程であって、
前記単語辞書に記録された単語に対応する第２の型の文字列から、第２の型の文字列の最小単位である第２型要素が複数連なって構成される文字列を、第２型学習文字列候補として抽出する工程と、
前記抽出した第２型学習文字列候補のうち、前記文字列記録部に記録された第２の型の文字列の少なくとも一部に一致する文字列を第２型学習文字列とし、
当該第２の型の文字列に対応付けられて前記文字列記録部に記録された前記第１の型の文字列中で、前記第２型学習文字列に対応する箇所を、第１型学習文字列として抽出し、
当該第１型学習文字列と第２型学習文字列との対応関係を示すデータを、前記音声認識装置で用いられる変換規則に含める工程とを含む、音声認識用ルール学習方法。
音響モデルおよび単語辞書を用いて、入力した音声データについて照合処理を実行することにより認識結果を生成する音声認識装置であって、前記照合処理において、音を表す第１の型の文字列と、認識結果を形成するための第２の型の文字列との間の変換規則を用いて、前記入力した音声データの音を表す第１の型の文字列を第２の型の文字列に変換し、変換した第２の型の文字列に対応する単語辞書の単語を含む認識結果を出力する音声認識装置に接続または内蔵されたコンピュータに処理を実行させる音声認識用ルール学習プログラムであって、
前記音声認識装置で認識結果が生成される過程で生成される第１の型の文字列と、当該第１の型の文字列に対応する第２の型の文字列とを対応付けて記録する文字列記録部にアクセスする処理と、
前記単語辞書に記録された単語に対応する第２の型の文字列から、第２の型の文字列の最小単位である第２型要素が複数連なって構成される文字列を、第２型学習文字列候補として抽出する抽出処理と、
前記抽出処理で抽出された第２型学習文字列候補のうち、前記文字列記録部に記録された第２の型の文字列の少なくとも一部に一致する文字列を第２型学習文字列とし、当該第２の型の文字列に対応付けられて前記文字列記録部に記録された前記第１の型の文字列中で、前記第２型学習文字列に対応する箇所を、第１型学習文字列として抽出し、当該第１型学習文字列と第２型学習文字列との対応関係を示すデータを、前記音声認識装置で用いられる変換規則に含めるルール学習処理とをコンピュータに実行させる、音声認識用ルール学習プログラム。