JP5141687B2 - 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法 - Google Patents

音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法 Download PDF

Info

Publication number
JP5141687B2
JP5141687B2 JP2009525221A JP2009525221A JP5141687B2 JP 5141687 B2 JP5141687 B2 JP 5141687B2 JP 2009525221 A JP2009525221 A JP 2009525221A JP 2009525221 A JP2009525221 A JP 2009525221A JP 5141687 B2 JP5141687 B2 JP 5141687B2
Authority
JP
Japan
Prior art keywords
character string
type
learning
rule
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009525221A
Other languages
English (en)
Other versions
JPWO2009016729A1 (ja
Inventor
賢司 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2009016729A1 publication Critical patent/JPWO2009016729A1/ja
Application granted granted Critical
Publication of JP5141687B2 publication Critical patent/JP5141687B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声認識の照合過程において、例えば、入力音声の各音に対応する記号列を、認識語彙を形成する文字列(以下、認識文字列と記す)に変換する際に用いられる変換規則を自動学習する装置に関する。
音声認識装置による照合過程には、例えば、入力音声の音響的特徴に基づいて抽出された各音に対応する記号列(例えば、音素列)から、認識文字列(例えば、音節列)を推定する処理が含まれる。その際、音素列と音節列とを対応付ける変換規則(照合ルールまたはルールと称することもある)が必要となる。このような変換規則は、音声認識装置に予め記録される。
従来、例えば音素列と音節列との変換規則を定義する際には、1音節に複数音素を対応付けたデータを、変換規則の基本単位(変換単位)とするのが一般的であった。例えば、1つの音節「か」に2つの音素/k//a/が対応する場合、このことを示す変換規則は「か→ka」と表される。
しかし、音声認識装置が、1音節という短い単位で照合すると、音節列から認識語彙を形成する際の解の候補数が増大し、誤検出や枝刈りによる正解候補の欠落が生じる場合がある。また、1つの音節に対応する音素列は、その音節に隣接する前後の音節によって変化する場合があるが、1音節単位で定義された変換規則では、そのような変化を表現することができない。
そこで、例えば、複数の音節からなる音節列に音素列を対応付けたルールを変換規則に追加して、音節列の変換単位を長くすることで、正解候補の欠落を抑制したり、上記変化を表現したりすることができる。例えば、2つの音節「かい」に3つの音素/k//a//i/が対応する場合、このことを示す変換規則は「かい→kai」と表される。また、変換規則の変換単位を長くする他の例として、HMMのモデル単位を音素のみに限定せず、不定長の音響モデルを自動的に作成する例も開示されている(例えば、特開平8−123477号公報参照)。
しかしながら、変換単位を長くした場合、変換規則が膨大になる傾向にある。例えば、音節列と音素列との間の変換規則に、変換単位が3音節の変換規則を追加しようとした場合、3音節の組み合わせの数は膨大であるので、これらの組み合わせを全ての網羅しようとすると記録するべき変換規則が膨大な数となる。その結果、変換規則を記録するためのメモリサイズや、変換規則を用いて処理する時間が膨大なものとなる。
そこで、本発明は、音声認識で用いられる変換規則として、不要な変換規則を増大させずに、音声認識装置に変換単位を変化させた新しい変換規則を自動的に追加し、音声認識の認識精度を向上させることを目的する。
本発明にかかる音声認識用ルール学習装置は、音響モデルおよび単語辞書を用いて、入力した音声データについて照合処理を実行することにより認識結果を生成する音声認識装置であって、前記照合処理において、音を表す第1の型の文字列と、認識結果を形成するための第2の型の文字列との間の変換規則を用いる音声認識装置に接続される。前記音声認識用ルール学習装置は、前記音声認識装置で認識結果が生成される過程で生成される第1の型の文字列と、当該第1の型の文字列に対応する第2の型の文字列とを対応付けて記録する文字列記録部と、前記単語辞書に記録された単語に対応する第2の型の文字列から、第2の型の文字列の最小単位である第2型要素が複数連なって構成される文字列を、第2型学習文字列候補として抽出する抽出部と、前記抽出部が抽出した第2型学習文字列候補のうち、前記文字列記録部に記録された第2の型の文字列の少なくとも一部に一致する文字列を第2型学習文字列とし、当該第2の型の文字列に対応付けられて前記文字列記録部に記録された前記第1の型の文字列中で、前記第2型学習文字列に対応する箇所を、第1型学習文字列として抽出し、当該第1型学習文字列と第2型学習文字列との対応関係を示すデータを、前記音声認識装置で用いられる変換規則に含めるルール学習部とを備える。
上記構成の音声認識用ルール学習装置では、抽出部が、単語辞書の単語に対応する複数の第2型要素からなる第2の型の文字列を、第2型学習文字列候補として抽出する。ルール学習部は、抽出された第2型学習文字列候補のうち、音声認識装置から取得した第1の型の文字列に対応する第2の型の文字列の少なくとも一部と一致する文字列を、第2型学習文字列として抽出する。そして、ルール学習部は、前記第1の型の文字列の中で第2型学習文字列に対応する箇所を第1型学習文字列として、この第1型学習文字列と第2型学習文字列との対応関係を示すデータを、変換規則に含める。これにより、音声認識装置の認識対象となりうる単語辞書の単語から、複数の連続する第2型要素からなる第2型学習文字列が抽出され、この第2型学習文字列と第1型学習文字列との対応関係を示す変換規則が追加されることになる。その結果、複数の連続する第2型要素を変換単位とする変換規則であって、かつ、音声認識装置で使用される可能性が高い変換規則が学習されることになる。そのため、不要な変換規則(ルール)を増大させずに、複数の第2型要素を変換単位とした新しい変換規則を自動学習することが可能になる。その結果、変換規則を用いて第1の型の文字列と第2の型の文字列との変換処理を行う音声認識装置の認識精度を向上させることができる。
本発明にかかる音声認識用ルール学習装置は、第2の型の文字列の構成単位である第2型要素それぞれに対応する理想的な第1の型の文字列を示すデータである基本ルールを予め記録する基本ルール記録部と、前記基本ルールを用いて前記第2型学習文字列に対応する第1の型の文字列を、第1型基準文字列として生成し、当該第1型基準文字列と、前記第1型学習文字列との類似度合を示す値を計算し、当該値が所定の許容範囲内である場合に、前記第1型学習文字列を前記変換規則に含めると判断する、不要ルール判定部とをさらに備えてもよい。
基本ルールは、第2の型の文字列の構成単位である第2型要素ごとに、対応する理想的な第1の文字列を定めたデータである。不要ルール判定部は、この基本ルールを用いることにより、第2型学習文字列を構成している第2型要素それぞれを、対応する第1の型の文字列に置き換えて、第1型基準文字列を生成することができる。そのため、第1型基準文字列は、第1型学習文字列に比べて、誤変換である可能性が低い傾向にある。不要ルール判定部は、このような第1型基準文字列と第1型学習文字列との類似度合を示す値が許容範囲内である場合に、第1型学習文字列と第2型学習文字列との対応関係を示すデータを変換規則に含めると判断する。そのため、不要ルール判定部は、誤変換を発生させる可能性の高いデータを変換規則に含めないように判断することができる。その結果、不要な変換規則の増加および、誤変換の発生を抑制することができる。
本発明にかかる音声認識用ルール学習装置において、前記不要ルール判定部は、前記第1型基準文字列と前記第1型学習文字列との文字列長の違い、および前記第1型基準文字列と前記第1型学習文字列とで一致する文字の割合のうち、少なくとも1つに基づいて類似度合を示す値を計算する態様とすることができる。
これにより、第1型基準文字列と第1型学習文字列との文字列長の違いまたは一致する文字の割合を基に、その第1型学習文字列の変換規則の要否が判断される。そのため、例えば、不要ルール判定部は、前記第1型基準文字列と前記第1型学習文字列とで一致する文字があまりにも少ない場合や、文字列長の違いが大きい場合等に、その第1型学習文字列に関する変換規則は不要であると判断することが可能になる。
本発明にかかる音声認識用ルール学習装置は、前記ルール学習部が抽出した前記第1型学習文字列および前記第2型学習文字列の少なくともいずれか一方の前記音声認識装置における出現頻度が、所定の許容範囲内である場合に、当該第1型学習文字列と前記第2型学習文字列との対応関係を示すデータを前記変換規則に含めると判断する不要ルール判定部をさらに備えてもよい。
これにより、音声認識装置における出現頻度が低い第1型学習文字列と第2型学習文字列との対応関係を示すデータが変換規則含まれるのが抑制されるので、不要な変換規則の増加が抑制される。なお、前記出現頻度は、音声認識装置が検出した出現をその都度記録することにより得ることができる。このような出現頻度は、音声認識装置で記録されてもよいし、音声認識ルール学習装置に記録されてもよい。
本発明にかかる音声認識用ルール学習装置は、前記所定の許容範囲を示す許容範囲データを記録する閾値記録部と、ユーザから許容範囲を示すデータの入力を受け付け、当該入力に基づいて前記閾値記録部に記録された前記許容範囲データを更新する設定部をさらに備えてもよい。
これにより、ユーザは、不要ルール判定の基準である、第1型学習文字列と第1型基準文字列との類似度合の許容範囲を調整することができる。
本発明にかかる音声認識装置は、音響モデルおよび単語辞書を用いて、入力した音声データについて照合処理を実行することにより認識結果を生成する音声認識部と、前記音声認識部が、前記照合処理において用いる、音を表す第1の型の文字列と、認識結果を形成するための第2の型の文字列との間の変換規則を記録するルール記録部と、前記音声認識部で認識結果が生成される過程で生成される第1の型の文字列と、当該第1の型の文字列に対応する第2の型の文字列とを対応付けて記録する文字列記録部と、前記単語辞書に記録された単語に対応する第2の型の文字列から、第2の型の文字列の最小単位である第2型要素が複数連なって構成される文字列を、第2型学習文字列候補として抽出する抽出部と、前記抽出部が抽出した第2型学習文字列候補のうち、前記文字列記録部に記録された第2の型の文字列の少なくとも一部に一致する文字列を第2型学習文字列とし、当該第2の型の文字列に対応付けられて前記文字列記録部に記録された前記第1の型の文字列中で、前記第2型学習文字列に対応する箇所を、第1型学習文字列として抽出し、当該第1型学習文字列と第2型学習文字列との対応関係を示すデータを、前記音声認識部で用いられる変換規則に含めるルール学習部とを備える。
本発明にかかる音声認識用ルール学習方法は、音響モデルおよび単語辞書を用いて、入力した音声データについて照合処理を実行することにより認識結果を生成する音声認識装置に、前記照合処理において用いられる、音を表す第1の型の文字列と、認識結果を形成するための第2の型の文字列との間の変換規則を学習させる音声認識用ルール学習方法である。前記音声認識用ルール学習方法は、前記音声認識装置で認識結果が生成される過程で生成される第1の型の文字列と、当該第1の型の文字列に対応する第2の型の文字列とを対応付けて記録する文字列記録部を備えるコンピュータが実行する工程であって、前記コンピュータが備える抽出部が、前記単語辞書に記録された単語に対応する第2の型の文字列から、第2の型の文字列の最小単位である第2型要素が複数連なって構成される文字列を、第2型学習文字列候補として抽出する工程と、前記コンピュータが備えるルール学習部が、前記抽出部が抽出した第2型学習文字列候補のうち、前記文字列記録部に記録された第2の型の文字列の少なくとも一部に一致する文字列を第2型学習文字列とし、当該第2の型の文字列に対応付けられて前記文字列記録部に記録された前記第1の型の文字列中で、前記第2型学習文字列に対応する箇所を、第1型学習文字列として抽出し、当該第1型学習文字列と第2型学習文字列との対応関係を示すデータを、前記音声認識装置で用いられる変換規則に含める工程とを含む。
本発明にかかる音声認識用ルール学習プログラムは、音響モデルおよび単語辞書を用いて、入力した音声データについて照合処理を実行することにより認識結果を生成する音声認識装置であって、前記照合処理において、音を表す第1の型の文字列と、認識結果を形成するための第2の型の文字列との間の変換規則を用いる音声認識装置に接続または内蔵されたコンピュータに処理を実行させる。前記音声認識用ルール学習プログラムは、前記音声認識装置で認識結果が生成される過程で生成される第1の型の文字列と、当該第1の型の文字列に対応する第2の型の文字列とを対応付けて記録する文字列記録部にアクセスする処理と、前記単語辞書に記録された単語に対応する第2の型の文字列から、第2の型の文字列の最小単位である第2型要素が複数連なって構成される文字列を、第2型学習文字列候補として抽出する抽出処理と、前記抽出処理で抽出された第2型学習文字列候補のうち、前記文字列記録部に記録された第2の型の文字列の少なくとも一部に一致する文字列を第2型学習文字列とし、当該第2の型の文字列に対応付けられて前記文字列記録部に記録された前記第1の型の文字列中で、前記第2型学習文字列に対応する箇所を、第1型学習文字列として抽出し、当該第1型学習文字列と第2型学習文字列との対応関係を示すデータを、前記音声認識装置で用いられる変換規則に含めるルール学習処理とをコンピュータに実行させる。
本発明によれば、音声認識で用いられる変換規則として、不要な変換規則を増大させずに、音声認識装置に変換単位を変化させた新しい変換規則を自動的に追加し、音声認識の認識精度を向上させることができる。
ルール学習装置と、音声認識装置の構成を表す機能ブロック図 音声認識装置の音声認識エンジンの構成を示す機能ブロック図 認識語彙記録部に格納されるデータの内容の一例を示す図 基本ルール記録部に記録されるデータの内容の一例を示す図 学習ルール記録部に記録されるデータの内容の一例を示す図 系列A−系列B記録部に記録されるデータの内容の一例を示す図 候補記録部に記録されるデータの内容の一例を示す図 初期学習のためのデータを系列A−系列B記録部3に記録する処理を示すフローチャート ルール学習部が、系列A−系列B記録部に記録されたデータを用いて、初期学習する処理を示すフローチャート 音節列Sxと音素列Pxの各区間の対応関係を概念的に示す図 抽出部およびルール学習部による再学習処理を示すフローチャート 音節列Siと音素列Piの各区間の対応関係を概念的に示す図 基準文字列作成部および不要ルール判定部による不要ルール削除処理の一例を示すフローチャート 学習ルール記録部に記録される変換規則のデータ内容の一例を示す図 系列A−系列B記録部に記録されるデータの内容の一例を示す図 系列Aの発音記号列の各区間と、系列Bの単語列の各区間との対応関係を概念的に示す図 学習ルール記録部に記録されるデータの内容の一例を示す図 認識語彙記録部に格納されるデータの内容の一例を示す図 認識語彙記録部の単語から抽出される系列Bパターンの例を示す図 系列Aの発音記号列の各区間と、系列Bの単語列の各区間との対応関係を概念的に示す図 基本ルール記録部4に記録されたデータの内容の一例を示す図
[音声認識装置とルール学習装置の概略構成]
図1は、本実施形態にかかるルール学習装置と、それに接続される音声認識装置の構成を表す機能ブロック図である。図1に示す音声認識装置20は、音声データを入力して、音声認識を行い、認識結果を出力する装置である。そのために、音声認識エンジン21、音響モデル記録部22および認識語彙(単語辞書)記録部23を備えている。
音声認識エンジン21は、音声認識処理において、音響モデル記録部22および認識語彙(単語辞書)記録部23に加え、ルール学習装置1の基本ルール記録部4および学習ルール記録部5も参照する。基本ルール記録部4および学習ルール記録部5には、音声認識処理の過程において、音声データの音響的特徴に基づいて生成される音を表す第1の型の文字列(以下、系列Aと称する)と、認識結果を得るための第2の型の文字列(以下、系列Bと称する)との変換するに用いられる変換規則を示すデータが記録される。
音声認識エンジン21は、この変換規則を用いて、音声認識処理において生成した系列Aと系列Bとの変換を行う。本実施形態では、系列Aが音声データの音響的特徴に基づいて抽出される音を表す記号列であり、系列Bが認識語彙を形成する認識文字列である場合について説明する。具体的には、系列Aが音素列、系列Bが音節列とする。なお、後述するように系列Aと系列Bの形態はこれに限られない。
ルール学習装置1は、音声認識装置20で用いられる、上記のような系列Aと系列Bとの変換規則を自動的に学習するための装置である。概略的には、ルール学習装置1は、音声認識エンジン21から、系列Aおよび系列Bに関する情報を受け取り、さらに認識語彙記録部23のデータも参照することにより新たな変換規則を生成し、学習ルール記録部5に記録する。
ルール学習装置1は、基準文字列作成部6、ルール学習部9、抽出部12、システム監視部13、認識語彙監視部16、設定部18、初期学習用音声データ記録部2、系列A−系列B記録部3、基本ルール記録部4、学習ルール記録部5、基準文字列記録部7、候補記録部11、監視情報記録部14、認識語彙情報記録部15、閾値記録部17を備える。
なお、音声認識装置20およびルール学習装置1の構成は図1に示す構成に限られない。例えば、変換規則を示すデータを記録する基本ルール記録部4および学習ルール記録部5は、ルール学習装置1ではなく、音声認識装置20に設けられる構成であってもよい。
また、音声認識装置20およびルール学習装置1は、例えば、パーソナルコンピュータ、サーバマシンなどの汎用コンピュータによって構成される。1台の汎用コンピュータで、音声認識装置20およびルール学習装置1の両方の機能を実現することができる。また、ネットワークを介して接続された複数の汎用コンピュータに、音声認識装置20およびルール学習装置1の各機能部が分散して設けられる構成でもよい。さらに、音声認識装置20およびルール学習装置1は、例えば、車載情報端末、携帯電話、ゲーム機、PDA、家電製品、などの電子機器に組み込まれたコンピュータによって構成されていてもよい。
ルール学習装置1の基準文字列作成部6、ルール学習部9、抽出部12、システム監視部13、認識語彙監視部16および設定部18の各機能部は、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、上記各機能部の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、初期学習用音声データ記録部2、系列A−系列B記録部3、基本ルール記録部4、学習ルール記録部5、基準文字列記録部7、候補記録部11、監視情報記録部14、認識語彙情報記録部15および閾値記録部17は、コンピュータの内蔵記録装置またはこのコンピュータからアクセス可能な記録装置によって具現化される。
[音声認識装置20の構成]
図2は、音声認識装置20の音声認識エンジン21の詳細な構成を説明するための機能ブロック図である。図2に示す機能ブロックで、図1と同じ機能ブロックには同じ番号が付されている。また、図2に示すルール学習装置1では、一部の機能ブロックの掲載を省略している。音声認識エンジン21は、音声分析部24、音声照合部25、音素列変換部27を備える。
まず、音声認識エンジン21で用いられるデータを記録する認識語彙記録部23、音響モデル記録部22、基本ルール記録部4および学習ルール記録部5について説明する。
音響モデル記録部22は、どの音素がどのような特徴量になりやすいかをモデル化した音響モデルを記録する。記録される音響モデルは、例えば、現在の主流である音素HMM(Hidden Markov Model)である。
認識語彙記録部23は、複数の認識語彙の読みを格納する。図3は、認識語彙記録部23に格納されるデータの内容の一例を示す図である。図3に示す例では、認識語彙記録部23に、認識語彙それぞれについて表記と読みが格納されている。ここでは、一例として、読みは音節列で表されている。
例えば、音声認識装置20のユーザが、認識語彙の表記と読みを記録した記録媒体を音声認識装置20に読み取らせることによって、認識語彙記録部23には、上記の認識語彙の表記と読みが格納される。また、同様の操作で、ユーザは、認識語彙記録部23に新たな認識語彙の表記および読みを格納したり、認識語彙の表記または読みを更新したりすることができる。
基本ルール記録部4および学習ルール記録部5には、系列Aの一例である音素列と、系列Bの一例である音節列との変換規則を示すデータが記録される。変換規則は、例えば、音素列と音節列との対応関係を示すデータとして記録される。
基本ルール記録部4には、予め人によって作成された理想的な変換規則が記録される。基本ルール記録部4の変換規則は、例えば、発生の揺れや多様性を考慮しない理想的な音声データを仮定した変換規則である。これに対して、学習ルール記録部5には、ルール学習装置1によって、後述のように自動的に学習された変換規則が記録される。この変換規則は、発生の揺れや多様性を考慮した変換規則となる。
図4は、基本ルール記録部4に記録されるデータの内容の一例を示す図である。図4に示す例では、音節列の構成単位である1音節(系列Bの構成単位である要素)ごとに、それぞれに対応する理想的な音素列が記録されている。なお、基本ルール記録部4に記録されるデータの内容は、図4に示すデータに限られない。例えば、2音節以上の単位で、理想的な変換規則を定義するデータが含まれてもよい。
図5は、学習ルール記録部5に記録されるデータの内容の一例を示す図である。図5に示す例では、1音節または2音節ごとに、それぞれに対応する、学習によって得られた音素列が記録されている。なお、学習ルール記録部5には、1音節または2音節に限られず、2音節以上の音節列について音素列が記録されうる。変換規則の学習については後述する。
なお、認識語彙記録部23には、さらに、例えば、文脈自由文法(CFG:Context Free Grammar)や有限状態文法(FSG:Finite State Grammar)、単語連鎖の確率モデル(N−gram)等のような文法データが記録されてもよい。
次に、音声分析部24、音声照合部25および音素列変換部27についてそれぞれ説明する。音声分析部24は、入力された音声データをフレーム毎の特徴量に変換する。特徴量には、MFCC、LPCケプストラムやパワー、それらの一次や二次の回帰係数の他、それらの値を主成分分析や判別分析により次元圧縮したものなどの多次元ベクトルが使用されることが多いが、ここでは特に限定しない。変換された特徴量は、各フレームに固有の情報(フレーム固有情報)と共に、内部のメモリに記録される。なお、フレーム固有情報は、例えば、各フレームが先頭から何番目のフレームであるかを示すフレーム番号や、各フレームの開始時点、終了時点、パワーなどを表すデータである。
音素列変換部27は、基本ルール記録部4および学習ルール記録部5に格納されている変換規則に従って、認識語彙記録部23に格納されている認識語彙の読みを音素列に変換する。本実施形態では、音素列変換部27は、変換規則に従って、例えば、認識語彙記録部23に格納されている全ての認識語彙の読みを音素列に変換する。なお、音素列変換部27は、1つの認識語彙を、複数通りの音素列に変換してもよい。
例えば、図4に示す基本ルール記録部4の変換規則および図5に示す学習ルール記録部5の変換規則の双方を用いて変換する場合、音節「か」については「か」→「ka」および「か」→「kas」の2通りに変換規則があるので、音素列変換部27は、「か」を含む認識語彙を2通りの音素列に変換することができる。
音声照合部25は、音響モデル記録部22の音響モデルと、音声分析部24により変換された特徴量とを照合することにより、音声区間に含まれるフレームごとに音素スコアを算出する。音声照合部25は、さらに、フレームごとの音素スコアと、音素列変換部27が変換した各認識語彙の音素列とを照合することにより、各認識語彙のスコアを計算する。音声照合部25は、各認識語彙のスコアに基づいて、認識結果となる認識結果として出力する認識語彙を決定する。
なお、例えば、認識語彙記録部23に文法データが記録されている場合には、音声照合部25は、文法データを用いて認識語彙列(認識文)を認識結果として出力することもできる。
音声照合部25は、上記決定した認識語彙を認識結果として出力するとともに、認識結果に含まれる認識語彙の読み(音節列)とそれに対応する音素列とを、系列A−系列B記録部3に記録する。系列A−系列B記録部3に記録されるデータについては後述する。
なお、本実施形態で適用可能な音声認識装置は、上記の構成に限られない。音素列と音節列との変換に限らず、音を表す系列Aと認識結果を形成するための系列Bとの変換を行う機能を持つ音声認識装置であれば本実施形態に適用可能である。
[ルール学習装置1の構成]
次に、図1を参照して、ルール学習装置1の構成について説明する。システム監視部13は、音声認識装置20およびルール学習装置1の動作状況を監視し、ルール学習装置1の動作を制御する。システム監視部13は、例えば、監視情報記録部14および認識語彙情報記録部15に記録されたデータを基に、ルール学習装置1が実行すべき処理を決定し、各機能部に対して決定した処理の実行を指示する。
監視情報記録部14には、音声認識装置20およびルール学習装置1の動作状況を示す監視データが記録される。下記表1は、監視データの内容の一例を示す表である。
Figure 0005141687
上記表1において、「初期学習済みフラグ」は、初期学習処理が済んだか否かを示すデータである。例えば、ルール学習装置1の初期設定では、初期学習済みフラグは「0」であり、初期学習処理が済むとシステム監視部13が「1」に更新する。「音声入力待ち状態フラグ」は、音声認識装置20が音声入力待ち状態である場合に「1」、そうでない場合に「0」が設定される。この音声入力待ち状態フラグは、例えば、システム監視部13が音声認識装置20から状態を示す信号を受けて、その信号に基づき設定することができる。「変換規則の増加量」は、学習ルール記録部5に追加された変換規則の数の総和である。「最近の再学習日時」は、システム監視部13が再学習処理の指示を出した最近の日時である。なお、監視データが上記表1に示す内容に限られない。
認識語彙情報記録部15には、音声認識装置20の認識語彙記録部23に記録される認識語彙の更新状況を示すデータが記録される。例えば、認識語彙の更新の有無(「ON」または「OFF」)を示す更新モード情報が認識語彙情報記録部15に記録される。認識語彙監視部16は、認識語彙記録部23の認識語彙の更新状況を監視し、認識語彙に変更があったり、認識語彙が新規で登録されたりした場合に、更新モード情報を「ON」に設定する。
例えば、コンピュータを音声認識装置およびルール学習装置として機能させるためのプログラムを、そのコンピュータにインストールした直後の場合には、上記表1の「初期学習済みフラグ」は「0」となっている。「初期学習済みフラグ」=「0」で、かつ「音声入力待ち受け状態フラグ」=「1」であれば、システム監視部13は、初期学習が必要と判断して、ルール学習部9に、変換規則の初期学習を指示してもよい。初期学習時には、後述するように、初期学習用音声データを音声認識装置20に入力する必要があるので、音声認識装置20が入力待ち状態である必要がある。
また、例えば、認識語彙情報記録部15の上記更新モード情報が「ON」であり、かつ、上記表1の「最近の再学習日時」から所定時間が経過している場合に、システム監視部13は、変換規則の再学習が必要と判断して、ルール学習部9および抽出部12に変換規則の再学習を指示してもよい。
また、例えば、上記表1の「変換規則の増加量」が一定以上になった場合に、システム監視部13は、不要ルール判定部8および基準文字列作成部6に対して、不要ルール判定を指示してもよい。この場合、例えば、システム監視部13は、不要ルール判定の実行させる度に「変換規則の増加量」をリセットすることで、変換規則が一定量増加する度に不要ルール判定を実行することができる。
このようにして、システム監視部13は、上記の監視データを基に、変換規則の初期学習実行の要否、および不要ルール削除判定の要否等を判断することができる。また、システム監視部13は、監視データおよび更新モード情報を基に、変換規則の再学習の要否等を判断することができる。なお、監視情報記録部14に記録される監視データは、上記表1の例に限られない。
初期学習用音声データ記録部2には、予め認識結果がわかっている音声データが、認識結果の文字列(ここでは一例として音節列とする)と対応付けられて教師データとして記録されている。この教師データは、例えば、音声認識装置20のユーザが所定の文字列を読み上げたときの音声を録音し、その所定の文字列と対応付けて記録することにより得られる。初期学習用音声データ記録部2には、さまざまな文字列およびその読み上げ音声の組が、教師データとして記録される。
システム監視部13は、変換規則の初期学習が必要と判断すると、まず、初期学習用音声データ記録部2の教師データのうち音声データXを音声認識装置20に入力し、音声認識装置20で計算された音声データXに対応する音素列を音声認識装置20から受け取る。音声データXに対応する音素列は、系列A−系列B記録部3に記録される。また、システム監視部13は音声データXに対応する文字列(音節列)を、初期学習用音声データ記録部2から取り出して、系列A−系列B記録部3に記録した音素列と対応付けて記録する。これにより、初期学習用の音声データXに対応する音素列と音節列との組が系列A−系列B記録部3に記録される。
その後、システム監視部13は、ルール学習部9に初期学習の指示を出す。ルール学習部9は、初期学習の際には、この系列A−系列B記録部3に記録された音素列と音節列の組と、基本ルール記録部4に記録された変換規則とを用いて、変換規則を初期学習して学習ルール記録部5に記録する。初期学習では、例えば、1音節ごとに対応する音素列が学習されて、各1音節とそれに対応する音素列とが対応付けられて記録される。ルール学習部9による初期学習については後で詳しく述べる。
なお、系列A−系列B記録部3には、音声認識装置20が、初期学習用の音声データではなく、任意の入力音声データに基づいて生成した音素列と、それに対応する音節列が記録されてもよい。すなわち、音声認識装置20が、入力音声データを音声認識する過程で生成される音素列および音節列の組を、ルール学習装置1が音声認識装置20から受け取って系列A−系列B記録部3に記録してもよい。
図6は、系列A−系列B記録部3に記録されるデータの内容の一例を示す図である。図6に示す例では、系列Aと系列Bの例として、音素列と音節列とが対応付けられて記録されている。
システム監視部13は、再学習が必要と判断すると、抽出部12およびルール学習部9に再学習の指示を出す。抽出部12は、認識語彙記録部23から更新された認識語彙または新規登録された認識語彙の読み(音節列)を取得する。そして、抽出部12は、取得した音節列から、学習する変換規則の変換単位に対応する長さの音節列パターンを抽出し、候補記録部11に記録する。この音節列パターンが学習文字列候補となる。例えば、変換単位が1音節以上の変換規則を学習する場合は、1音節以上の長さの音節列パターンを抽出する。この場合の例として、認識語彙「あかし」からは、「あ」、「か」、「し」、「あか」、「かし」および「あかし」が学習文字列候補として抽出される。図7は、候補記録部11に記録されるデータの内容の一例を示す図である。
なお、抽出部12による学習文字列候補の抽出方法はこれに限られない。例えば、変換単位が2音節の変換規則のみを学習する場合には、2音節の音節列パターンのみを抽出してもよい。また、他の例として、抽出部12は、音節数が一定の範囲内の音節列パターン(例えば、2音節以上かつ4音節以下の音節列パターン)を抽出することができる。どのような音節列パターンを抽出するかを示す情報は、ルール学習装置1に予め記録されていてもよい。また、ルール学習装置1が、ユーザからどのような音節列パターンを抽出するかを示す情報を受け付けてもよい。
再学習の場合、ルール学習部9は、系列A−系列B記録部3の音素列と音節列の組および候補記録部11に記録された学習文字列候補とを照合することにより、学習ルール記録部5に追加する変換規則(ここでは、一例として音素列と音節列との対応関係)を決定する。
具体的には、ルール学習部9は、系列A−系列B記録部に記録された音節列の中に、抽出部12が抽出した学習文字列候補と一致する部分がないか検索する。一致する部分があれば、その一致する部分の音節列が学習文字列に決定される。例えば、図6に示す系列B(音節列)の「あかさたな」には、図7に示す学習文字列候補「あか」、「あ」および「か」が含まれる。そこで、ルール学習部9は、「あか」、「あ」および「か」を学習文字列とすることができる。または、ルール学習部9は、これらの文字列のうち、文字列長が最も長い「あか」のみを学習文字列としてもよい。
そして、ルール学習部9は、系列A−系列B記録部に記録された音素列の中で、学習文字列に対応する部分の音素列、すなわち学習音素列を決定する。具体的には、ルール学習部9は、系列B(音節列)の「あかさたな」を、学習文字列「あか」と学習文字列以外の区間「さたな」に分け、学習文字列以外の区間「さたな」をさらに1音節ずつの区間「さ」「た」「な」に区切る。ルール学習部9は、系列A(音素列)も、系列B(音節列)の区間数と同じ数の区間にランダムに区切る。
そして、ルール学習部9は、各区間の音素列と音節列と対応度合を所定の評価関数を用いて評価し、その評価がよくなるように、系列A(音素列)の区切りを変更する処理を繰り返す。これにより、系列B(音節列)の区切りによく対応する最適な系列A(音素列)の区切りが得られる。このような最適化手法として、例えば、シミュレーテッドアニーリング法、遺伝アルゴリズム等公知の手法を用いることができる。これにより、学習文字列「あか」に対応する音素列の部分(すなわち、学習音素列)を例えば、「akas」に決定することができる。なお、学習音素列を求め方はこの例に限定されない。
ルール学習部9は、学習文字列「あか」と学習音素列「akas」を対応付けて学習ルール記録部5に記録する。これにより、2音節を変換単位とする変換規則が追加される。すなわち、音節列単位を変更した学習がなされる。ルール学習部9は、抽出部12が抽出した学習文字列候補のうち、例えば、文字列長が2音節の学習文字列候補から学習文字列を決定するようにすると、変換単位が2音節の変換規則を追加することができる。このようにして、ルール学習部9は、追加する変換規則の変換単位を制御することができる。
さて、システム監視部13が、不要ルール判定が必要と判断した場合、基準文字列作成部6は、学習ルール記録部5に記録された変換規則の学習文字列SGに対応する音素列を、基本ルール記録部4の基本ルールに基づいて作成する。作成された音素列を基準音素列Kとする。不要ルール判定部8は、その基準音素列Kを、学習ルール記録部5のその学習文字列SGに対応する音素列(学習音素列PG)と比較し、両者の類似度合に基づき、その学習文字列SGと学習音素列PGに関する変換規則が不要か否かを判断する。ここで、例えば、学習音素列PGと基準音素列Kとの類似度合が予め設定された許容範囲を越える場合に、不要と判断される。この類似度合は、例えば、学習音素列PGと基準音素列Kとの間における、音素列の長さの差、一致する音素の数または距離等である。不要ルール判定部8は、不要と判断した変換規則を学習ルール記録部5から削除する。
不要ルール判定部8に判断の基礎となる前記許容範囲を示す許容範囲データは、閾値記録部17に予め記録される。この許容範囲データは、ルール学習装置1の管理者が設定部18を介して、更新することができる。すなわち、設定部18は、管理者から許容範囲を示すデータの入力を受け付け、当該入力に基づいて閾値記録部17に記録された許容範囲データを更新する。許容範囲データは、例えば、上記の類似度合を示す値の閾値等が含まれる。
[ルール学習装置1の動作:初期学習]
次に、ルール学習装置1の初期学習時の動作例について説明する。図8は、システム監視部13が初期学習のためのデータを系列A−系列B記録部3に記録する処理を示すフローチャートである。図9は、ルール学習部9が、系列A−系列B記録部3に記録されたデータを用いて、初期学習する処理を示すフローチャートである。
図8に示す処理では、まず、システム監視部13は、初期学習用音声データ記録部2に予め記録された教師データYに含まれる音声データXを、音声認識装置20に入力する(Op1)。ここで、教師データYには、音声データXとそれに対応する音節列Sxが含まれる。音声データXは、例えば、「あかさたな」等のような所定の文字列(音節列)をユーザが読み上げた場合の音声である。
音声認識装置20の音声認識エンジン21は、入力された音声データXの音声認識処理を行い、認識結果を生成する。システム監視部13は、その音声認識処理の過程において生成される、その認識結果に対応する音素列Pxを音声認識装置20から取得し、系列Aとして、系列A−系列B記録部3に記録する(Op2)。
また、システム監視部13は、教師データYに含まれる音節列Sxを、系列Bとして、音素列Pxと対応付けて系列A−系列B記録部3に記録する(Op3)。これにより、音声データXに対応する音素列Pxと音節列Sxの組が系列A−系列B記録部3に記録される。
システム監視部13は、図8に示すOp1〜Op3の処理を、初期学習用音声データ記録部2に予め記録された様々な教師データ(文字列および音声データの組)それぞれについて繰り返すことにより、各文字列に対応する音素列と音節列との組を記録することができる。
このようにして、系列A−系列B記録部3に音素列と音節列との組が記録されると、ルール学習部9は、図9に示す初期学習処理を実行する。図9において、ルール学習部9は、まず、系列A−系列B記録部3に記録されている系列Aと系列Bの組(本実施形態では、音素列と音節列の組)を全て取得する(Op11)。ここでは、取得した組の各組における系列Aと系列Bを、音素列Pxと音節列Sxと称して以下説明する。そして、ルール学習部9は、各組における系列Bを、系列Bの構成単位である要素ごとの区間b1〜bnに区切る(Op12)。すなわち、各組における音節列Sxを、音節列Sxの構成単位である音節ごとの区間に区切る。例えば、音節列Sxが「あかさたな」である場合、音節列Sxは、「あ」「か」「さ」「た」および「な」の5つの区間に区切られる。
次に、ルール学習部9は、各組における系列Aである音素列Pxを、音節列Sx(系列B)の各区間に対応するように、n個の区間に区切る(Op13)。このとき、ルール学習部9は、例えば、上述したような最適化手法を用いて、最適な音素列Pxの区切り位置を探索する。
一例を挙げると、例えば、音素列Pxが「akasatonaa」である場合、ルール学習部9は、まず初めに、「akasatonaa」をランダムにn個の区間に区切る。このランダムな区間が、例えば、「ak」、「as」、「at」、「o」、「naa」とすると、音素列Pxと音節列Sxの各区間における対応関係「あ→ak」、「か→as」、「さ→at」、「た→o」、「な→naa」が決まる。このようにして、ルール学習部9は、全ての音素列と音節列の組について各区間の対応関係を求める。
ルール学習部9は、このようにして求めた全ての組における全ての対応関係を参照して、各区間の音節について、対応する音素列の種類数(パターン数)を数える。例えば、ある区間の音節「あ」に対応する音素列として「ak」が対応しており、他の区間の同じ音節「あ」には音素列「a」が、さらに他の区間の音節「あ」には音素列「akas」がそれぞれ対応していたとすると、音節「あ」に対して「a」、「ak」および「akas」の3種類の音素列が対応していることになる。この場合、これらの区間の音節「あ」の種類数は3になる。
そして、ルール学習部9は、各組について種類数の合計を求め、これを評価関数の値として、この値が小さくなるように、最適化手法を使って、適切な区切り位置を探索する。すなわち、ルール学習部9は、最適化手法を実現するための所定の計算式によって、各組の音素列における新たな区切り位置を計算して区間を変更し、評価関数の値を求める処理を繰り返す。そして、評価関数の値が最小値に収束するときの、各組の音素列の区切りが、音節列の区切りに最もよく対応する最適な区切りとされる。これにより、各組の系列Bの各要素b1〜bnそれぞれに対応する系列Aの区間が決定される。
例えば、音節列Sxと音素列Pxの組については、音節列Sxを構成する各音節の区間「あ」「か」「さ」「た」および「な」それぞれに対応する音素列Pxの区間が決定する。一例として、5つの区間「あ」「か」「さ」「た」および「な」に対して、音素列Sx「akasatonaa」は、「a」「kas」「a」「to」および「naa」の区間に区切られる。
図10は、この音節列Sxと音素列Pxの各区間の対応関係を概念的に示す図である。図10においては、音素列Pxの区間の区切りが破線で示されている。各区間の対応関係は「あ→a」、「か→kas」、「さ→a」、「た→to」および「な→naa」となっている。
ルール学習部9は、それぞれの区間についての、音節列と音素列の対応関係(系列Aと系列Bの対応関係)、すなわち変換規則を、学習ルール記録部5に記録する(Op14)。例えば、上記の「あ→a」、「か→kas」、「さ→a」、「た→to」および「な→naa」の対応関係(変換規則)がそれぞれ記録される。ここで、「あ→a」は、音節「あ」が音素「a」に対応することを示している。例えば、「あ→a」、「か→kas」および「さ→a」については図5に示したように記録される。
なお、本例の初期学習では、学習される変換規則の変換単位は1音節となっている。しかし、1音節を変換単位とする変換規則では、音素列が複数の音節にまたがって対応するようなルールを記述できない。また、音声認識装置20において1音声単位の変換規則を用いて照合処理を行うと、音節列から認識語彙を形成する際の解の候補数が増大し、誤検出や枝刈りによる正解候補の欠落が生じる場合がある。
そのため、例えば、上記の初期学習において、変換単位を2音節以上とする変換規則を生成することも考えられる。すなわち、系列A―系列B記録部3に記録された音節列に含まれる全ての2音節の組み合わせについて、変換規則を生成し追加することもできる。しかし、全ての2音節の組み合わせ数は膨大な数になるので、学習ルール記録部5に記録される変換規則のデータサイズや、変換規則を使用する処理にかかる時間が増えすぎて、音声認識装置20の動作に支障をきたす可能性が高い。
そこで、本実施形態におけるルール学習部9は、初期学習では、上記のように1音節の変換単位での変換規則を学習する。そして、以下に示すように、ルール学習部9は、再学習処理において、2音節以上を変換単位とする変換規則であって、かつ、音声認識装置20で使われる可能性の高い変換規則を学習する。
[ルール学習装置1の動作:再学習]
図11は、抽出部12およびルール学習部9による再学習処理を示すフローチャートである。図11に示す処理は、例えば、認識語彙記録部23において、認識語彙が新規登録された場合に、システム監視部13からの指示を受けて、抽出部12およびルール学習部9が再学習処理を実行する場合の動作である。
抽出部12は、認識語彙記録部23に記録された認識語彙のうち、新規登録された認識語彙の音節列を取得する。そして、抽出部12は、取得した認識語彙音節列に含まれる1音節以上の音節列パターン(系列Bパターン)を抽出する(Op21)。抽出部12が取得した認識語彙の音節長をnとすると、音節長=1の音節、音節長=2の音節列パターン、音節長=3の音節列パターン、・・・音節長nの音節列パターンが抽出される。
例えば、認識語彙の音節列が「おきしま」であった場合、「お」「き」「し」「ま」「おき」「きし」「しま」「おきし」「きしま」「おきしま」の10パターンの音節列パターンが抽出される。これらの抽出された音節列パターンが学習文字列候補となる。
次に、ルール学習部9は、系列A−系列B記録部3に記録されている音素列Pと音節列Sの組(N組とする)を全て取得する(Op22)。ルール学習部9は、各組の音節列Pについて、Op11で抽出した音節列パターンと比較し、一致する部分を探して、一致する部分を1つの区間として区切る。具体的には、ルール学習部9は、変数iをi=1に初期化した後(Op23)、Op24およびOp25の処理を全ての組(i=1〜N)について終了するまで(Op26でYesと判断されるまで)繰り返す。
Op24では、ルール学習部9はi番目の組の音節列Siについて、Op11で抽出した音節列パターンを、前方から最長一致で検索する。すなわち、音節列Siに一致する最も長い音節列パターンを、音節列Siの前方から検索する。例えば、音節列Siが「おきなわの」であり、認識語彙「おきしま」「はえなわ」から抽出された音節列パターンが下記表2である場合について説明する。
Figure 0005141687
この場合、音節列Siの「おきなわの」の「おき」および「なわ」の部分が、上記表2の音節列パターン「おき」および「なわ」と前方最長一致することになる。
ここでは、ルール学習部9は、一例として、前方最長一致で検索しているが、検索方法はこれに限られない。例えば、ルール学習部9は、検索対象の音節列長を所定の値に限定してもよいし、後方からの最長一致で適用してもよいし、また、音節列長の限定と後方からの一致を組み合わせてよい。ここで、検索対象の音節列長を例えば、2音節に限定すると、学習する変換規則の音節列長が2音節となる。そのため、変換単位が2音節の変換規則のみを学習することができる。
Op25で、ルール学習部9は、音節列Siの中で、音節列パターンと一致する部分を、1つの区間として区切る。なお、音節列パターンと一致する部分以外の部分については、1音節ごとに区切られる。例えば、音節列Si「おきなわの」は、「おき」、「なわ」、「の」に区切られる。
ルール学習部9は、このようなOp24、Op25の処理を繰り返すことで、Op21で取得した全ての組の音節列Si(i=1〜N)について、音節列パターンと一致する部分を1つの区間として区切ることができる。その後、ルール学習部9は、各組の音節列Siの各区間に対応するように、各組の音素列Piを区切る(Op27)。このOp27の処理は、図9のOp13の処理と同様に行うことができる。これにより、各組の音節列Siの音節列パターンと一致する部分に対応する音素列を求めることができる。
図12は、この音節列Siと音素列Piの各区間の対応関係を概念的に示す図である。図12においては、音素列Piの区間の区切りが破線で示されている。各区間の対応関係は「おき→oki」、「なわ→naa」および「の→no」となっている。
ルール学習部9は、音節列Siと音節列パターンが一致する部分の区間それぞれについての、音節列と音素列の対応関係(すなわち変換規則を)、学習ルール記録部5に記録する(Op28)。例えば、上記の「おき→oki」および「なわ→naa」の対応関係(変換規則)がそれぞれ記録される。ここでは、音節列Siと一致する音節列パターン「おき」「なわ」が学習音節列となり、音素列Piのそれぞれ対応する区間「oki」「naa」が学習音素列となる。例えば、「なわ→naa」については図5に示したように記録される。
以上の図11に示した再学習の処理により、認識語彙に含まれる文字列(音節列)に関してのみ、変換単位を1音節以上とした変換規則を学習することができる。すなわち、ルール学習装置1は、認識語彙記録部23で更新または登録された認識語彙に応じて、音素列(系列A)と音節列(系列B)との変換単位を動的に変更する。これにより、変換単位を大きくした変換規則の学習が可能なるとともに、学習される変換規則が膨大な量になるのを抑制し、使用される可能性が高い変換規則を効率よく学習することが可能になる。
また、上記の再学習においては、初期学習用音声データ記録部2の教師データを用いる必要がない。そのため、再学習の際には、ルール学習装置1は、音声認識装置20の認識語彙記録部23に記録された認識語彙のみを取得できればよい。そのため、例えば、音声認識装置20において,タスクが急遽変更になった場合等のように教師データが用意できない状況であっても、タスク変更に伴って認識語彙が更新された時点で即時に再学習し、対応することができる。すなわち、ルール学習装置1は、教師データがなくても変換規則の再学習を行うことができる。
例えば、音声認識装置20のタスクが道路交通情報の音声案内であった場合に、急遽、漁業情報の音声案内のタスクも加えることになったとする。このような場合、認識語彙記録部23に漁業に関する認識語彙(例えば、「沖島」「延縄」等)が追加されたが、これらの認識語彙の教師データを用意できないといった状況が発生しうる。このように、新たに教師データが提供されてなくても、ルール学習装置1は、追加された認識語彙に対応する変換規則を自動的に学習しルール学習部9に追加することが可能である。その結果、音声認識装置20は、漁業情報案内のタスクに即座に対応することができる。
なお、図11に示す再学習の処理は一例であって、これに限られない。例えば、ルール学習部9は、過去に学習した変換規則を記録しておき、再学習した変換規則とマージすることができる。 例えば、ルール学習部9が過去に学習した変換規則が次の3つであり、
あい → a i
いう → y u u
うえ → u w e
新たに再学習した変換規則が次の2つである場合、
いう → y u u
えお → e h o
ルール学習部9は、過去の学習結果と新たな再学習結果とをマージして、次のような変換規則のデータセットを作成することができる。すなわち、「いう → y u u」については、過去の学習結果と新たな再学習結果が同じなので、ルール学習部9は、いずれかを削除することができる。
[ルール学習装置1の動作:不要ルール判定]
次に、不要ルール削除処理について説明する。図13は、基準文字列作成部6および不要ルール判定部8による不要ルール削除処理の一例を示すフローチャートである。図13において、まず、基準文字列作成部6は、学習ルール記録部5に記録された変換規則で示される学習音節列SGとそれに対応する学習音素列PGの組を取得する(Op31)。ここでは、一例として、図5に示す学習ルール記録部5のデータから、学習音節列SG=「あか」、学習音素列PG=「akas」の組を取得する場合を例にあげて説明する。
基準文字列作成部6は、学習音節列SGに対応する基準音素列(基準文字列)Kを、基本ルール記録部4に記録された変換規則を用いて作成する(Op32)。基本ルール記録部4には、例えば、図4に示すように、1音節ごとに対応する音素列が変換規則として記録されている。そのため、基準文字列作成部6は、学習音節列SGの各音節を、基本ルール記録部4の変換規則に基づいて、1音節ずつ音素列に置き換えて、基準音素列を作成する。
例えば、学習音節列SG=「あか」の場合、図4に示す変換規則「あ→a」および「か→ka」を用いて、基準音素列「aka」が作成される。作成された基準音素列Kは、基準文字列記録部7に記録される。
不要ルール判定部8は、基準文字列記録部7に記録された基準音素列K「aka」と、学習音素列PG「akas」とを比較し、両者の類似度を示す距離dを計算する(Op33)。距離dは、例えば、DP照合法等を用いて計算することができる。
不要ルール判定部8は、Op33で計算した、基準音素列Kと学習音素列PGとの距離dが、閾値記録部17に記録された閾値DHより大きい場合(Op34でYes)、学習音素列PGに関する変換規則は不要であると判断し、学習ルール記録部5から削除する(Op35)。
以上のOp31〜Op35の処理は、学習ルール記録部5に記録された変換規則全て(すなわち、学習音節列と学習音素列の組全て)について繰り返される。これにより、基準音素列Kとの距離がかけ離れている(類似度合が低い)ような学習音素列PGに関する変換規則は、不要ルールとして学習ルール記録部5から削除される。そのため、誤変換をもたらす可能性のある変換規則を取り除くことができ、かつ、学習ルール記録部5に記録されるデータの量を減らすことができる。
なお、不要ルールとして判定される場合の例と挙げると、学習音節列SG=「なわ」、基準音素列K=「nawa」であって、学習音素列PG=「moga」である場合は、PGとKとで音素内容の違いが大きいため不要と判断される。また、学習音素列PG=「nawanoue」である場合も、音素列長の違いが大きいため不要と判断される。
なお、Op33で計算される類似度は、上記のDP照合法による距離dに限られない。ここで、Op33で計算される類似度の変形例について説明する。例えば、不要ルール判定部8は、基準音素列Kと学習音素列PGとで一致する音素がどのくらいあるかに基づいて類似度を計算してもよい。具体的には、不要ルール判定部8は、学習音素列PGの中に、基準音素列Kの音素と同一の音素が含まれる割合Wを計算し、この割合Wに基づいて類似度も求めてよい。一例として、類似度=W×定数A(A>0)と計算することができる。
また、類似度の別の例として、例えば、不要ルール判定部8は、基準音素列Kと学習音素列PGとの音素列長の差Uに基づいて類似度を求めてもよい。一例として、類似度=U×定数B(B<0)と計算することができる。あるいは、差Uと上記割合Wとを加味して、類似度=U×定数B + W×定数Aで計算することもできる。
また、不要ルール判定部8は、上記の類似度計算において学習音素列と基準音素列の各音素を比較する際、予め用意された、音声認識における誤り(例えば、挿入、置換または欠落)の傾向を示すデータを使って、類似度を計算することができる。これにより、挿入、置換または欠落等の傾向を加味した類似度を計算することができる。ここで、音声認識における誤りとは、理想的な変換規則に従わない変換を意味する。
例えば、図10に示すように、「a→あ」、「kas→か」、「a→さ」、「to→た」「naa→な」と変換されたとする。理想的な変換規則が「あ→a」、「か→ka」、「さ→sa」、「た→ta」、「な→na」である場合、「か→kas」の変換では理想的な変換結果「ka」に対して「s」が挿入された状態となっている。また、「た→to」の変換では、理想的な変換結果の「a」が「o」に置換された状態となっている。また、「さ→a」の変換では、理想的な変換結果から「s」が欠落した状態となっている。このような、挿入、置換、欠落等の誤りの音声認識装置20における傾向を示すデータは、例えば、下記表3のような内容のデータとして、ルール学習装置1または音声認識装置20に記録される。
Figure 0005141687
不要ルール判定部8は、例えば、それに対応する基準音素列中の文字が「ta」で、学習音素列中のある音素が「to」である場合、もし、上記表3に示す傾向において「ta」と「to」の置換誤りの頻度が閾値以上の場合には、「ta」と「to」は同じ文字であるとして扱ってもよい。あるいは、不要ルール判定部8は、類似度算出の際に、「ta」と「to」との類似度が高くなるような重み付け、あるいは類似度合値(ポイント)の加算等を行ってもよい。
以上、類似度計算の変形例について説明したが、類似度計算は上記例に限られない。また、本実施形態においては、不要ルール判定部8は、基準音素列と学習音素列とを比較することにより、変換規則の要否を判定しているが、基準音素列を用いずに判定することもできる。例えば、不要ルール判定部8は、学習音素列および学習音節列の少なくともいずれか一方の出現頻度に基づいて、要否を判定してもよい。
この場合、学習ルール記録部5に記録される変換規則のデータは、例えば、図14のような内容となる。図14に示すデータは、図5に示すデータの内容に、さらに、各学習音節列についての出現頻度を示すデータを追加した内容となっている。不要ルール判定部8は、このような出現頻度を示すデータを順次参照することにより、出現頻度が所定の閾値よりも低い学習音節列については、不要と判定して削除することが可能になる。
なお、図14に示す出現頻度は、例えば、音声認識装置20の音声認識エンジン21が、音声認識処理において、音節列を生成する度に、ルール学習装置1にその音節列を通知し、ルール学習装置1が学習ルール記録部5において、通知された音節列の出現頻度を更新することができる。
なお、出現頻度を示すデータの記録方法は上記の例に限られない。例えば、音声認識装置20が各音節列の出現頻度を記録しておき、不要ルール判定部8が、不要ルール判定時に音声認識装置20に記録された出現頻度を参照する構成であってもよい。
また、上記出現頻度に基づく不要ルール判定の他に、学習音節列および学習音素列の少なくともいずれか一方の長さに基づく不要ルール判定も可能である。不要ルール判定部8は、例えば、図4に示すような学習ルール記録部5に記録された学習音節列の音節列長を順次参照し、所定の閾値以上の音節列長である場合は不要と判定し、その学習音節列の変換規則を削除してもよい。
また、上記の説明における類似度、出現頻度、あるいは、音節列または音素列の長さの許容範囲を示す閾値は、上限および下限両方を示す値であってもよいし、どちらか一方を表す値であってもよい。これらの閾値は許容範囲データとして、閾値記録部17に記録される。管理者は、設定部18を介して、これらの閾値を調整することができる。これにより、不要ルール判定時の判断基準を動的に変更することができる。
なお、本実施形態において、不要ルール判定部8は、初期学習および再学習の後の処理として不要な変換規則を削除する例を説明したが、例えば、ルール学習部9の再学習処理時に、上記の判定を行い、不要な変換規則を学習ルール記録部5に記録しないようにしてもよい。
[系列Aおよび系列Bの他の例]
以上、本実施形態では、系列Aが音素列、系列Bが音節列である場合について説明したが、系列Aおよび系列Bの他のとりうる態様について説明する。系列Aは、例えば、音に対応する記号列等のような、音を表す文字列である。系列Aの表記および言語は任意である。例えば、下記表4に示すような音素記号、発音記号、音に割り当てられたID番号列が系列Aに含まれる。
Figure 0005141687
系列Bは、例えば、音声認識の認識結果を構成するための文字列であり、認識結果を構成する文字列そのものであってもよいし、認識結果を構成する前の段階の中間文字列であってもよい。また、系列Bは、認識語彙記録部23に記録される認識語彙そのものであってもよいし、認識語彙を変換して一意に得られる文字列であってもよい。系列Bの表記および言語も任意である。例えば、下記表5に示すような漢字列、ひらがな列、カタカナ列、アルファベット、文字(列)に割り当てられたID番号列等が系列Bに含まれる。
Figure 0005141687
また、本実施形態では、系列Aと系列Bのように、2つの系列間で変換処理が行われる場合を説明したが、2以上の系列間で変換処理が行われてもよい。例えば、音声認識装置20は、音素記号→音素ID→音節列(ひらがな)のように多段階で変換処理を行ってもよい。このような変換処理の一例を次に示す。
/a/ /k/ /a/ → [01] [06] [01] → 「あか」
この場合、ルール学習装置1は、音素記号と音素IDとの間の変換規則、および音素IDと音節列との間の変換規則のいずれか一方または双方を学習の対象とすることができる。
[英語の場合のデータ例]
本実施形態は、日本語の音声認識装置で用いられる変換規則を学習する場合について、説明したが、本発明は日本語に限らず任意の言語に適用できる。ここで、上記実施形態を、英語に適用した場合のデータ例について説明する。ここでは、一例として、系列Aが発音記号列であり、系列Bが単語列である場合について説明する。この例では、単語列に含まれるそれぞれの単語が、系列Bの最小単位である要素となる。
図15は、系列A−系列B記録部3に記録されるデータの内容の一例を示す図である。図15に示す例では、系列Aとして発音記号列が、系列Bとして単語列が記録されている。ルール学習部9は、上述したように、系列A−系列B記録部3に記録された系列Aとして発音記号列と、系列Bの単語列とを用いて、初期学習および再学習処理を行う。
ルール学習部9は、例えば、初期学習においては、1単語を変換単位とする変換規則を学習し、再学習時には、1単語以上を変換単位として変換規則を学習する。
図16は、初期学習において、ルール学習部9によって求められる、系列Aの発音記号列の各区間と、系列Bの単語列の各区間との対応関係を概念的に示す図である。上述した図9に示した処理と同様にして、系列Bの単語列が1単語ごとに区切られ、それに対応するように、系列Aの発音記号列が区切られる。これにより、各単語(系列Aの各要素)に対応する発音記号列(系列B)が求められ、学習ルール記録部5に記録される。
図17は、学習ルール記録部5に記録されるデータの内容の一例を示す図である。図17では、例えば、単語「would」および「you」の変換規則が、初期学習で記録される変換規則である。再学習においては、さらに、単語列「would you」の変換規則が記録される。すなわち、図11に示した処理と同様の再学習処理により単語列「would you」の変換規則が学習される。以下、図11の処理が英語に適用される場合の例を説明する。
図11のOp22において、抽出部12は、認識語彙記録部22において更新された認識語彙から系列Bパターンを抽出する。図18は、認識語彙記録部22に格納されるデータの内容の一例を示す図である。図18に示す例では、認識語彙は単語(系列B)で表されている。抽出部12は、認識語彙記録部22から、連接可能な単語の組み合わせパターン、すなわち系列Bパターンを抽出する。この抽出においては、予め記録された文法規則が用いられる。文法規則は、例えば、単語と単語がどのように連接するかを規定する規則の集合である。このような文法規則として、例えば、上述したCFG、FSG、またはN−gram等のような文法データを用いることができる。
図19は、認識語彙記録部22の単語「would」、「you」および「have」から抽出される系列Bパターンの例を示す図である。図19に示す例では、「would」、「you」、「have」、「would you」、「you have」および「have you」が抽出されている。ルール学習部9は、このような系列Bパターンと、系列A−系列B記録部3の単語列(系列B:例えば、「would you like・・・)とを比較して、前方から最長一致する部分を検索する(Op24)。ルール学習部9は、この系列Bパターンと一致する部分(この例では「wuold you」)を1区間として、単語列(系列B)を区切り(Op25)、系列Bパターンと一致する部分以外は、1単語1区間として区切る。そして、ルール学習部9は、この系列Bの各区間に対応する発音記号列(系列A)の区間を計算する(Op27)。
図20は、系列Aの発音記号列の各区間と、系列Bの単語列の各区間「would you」および「like」等との対応関係を概念的に示す図である。図20に示す単語列「would you」の対応関係は、変換規則として、例えば、図17に示すように学習ルール記録部部5に記録される。すなわち、学習単語列「would you」に関する変換規則が学習ルール記録部5に追加記録される。以上が、再学習時のデータ内容の例である。
さて、このようにして学習された変換規則について、図13に示した不要ルール判定処理により、不要な変換規則が削除される。このとき、Op32では、基本ルール記録部4に予め記録された理想的な変換規則(一般辞書)が用いられる。図21は、基本ルール記録部4に記録されたデータの内容の一例を示す図である。図21に示す例では、単語ごとに、対応する発音記号列が記録されている。これにより、基準文字列作成部6は、学習ルール記録部5に記録された学習単語列について、単語ごとに発音記号列に変換し、基準記号列(基準文字列)を作成することができる。下記表6は、基準記号列と、それと比較される学習発音記号列の例を示す表である。
Figure 0005141687
上記表6において、例えば、1行目の学習発音記号列の変換規則は不要と判定されないが、2行目の学習発音記号列は、基準記号列と一致する発音記号が皆無なので、不要ルール判定部8は、例えば、類似度を低く計算し、これに関する変換規則は不要と判定する。3行目の学習発音記号列は、基準記号列と学習発音記号列との記号列長の差が「4」である。閾値が例えば、「3」であれば、この学習発音記号列に関する変換規則は不要と判断される。
以上、英語の音声認識で用いられる変換規則を学習する場合のデータ例について説明した。英語に限らず、他の言語についても同様に本実施形態のルール学習装置1を適用することができる。
上記実施形態によれば、新たな教師データ(音声データ)を用いることなく、タスクに特化した必要最小限の変換規則を再学習して、構築することが可能になる。これにより、音声認識装置20の認識精度向上、省資源化、高速化が実現される。
本発明は、音声認識装置で用いられる変換規則を自動学習するルール学習装置として有用である。

Claims (8)

  1. 音響モデルおよび単語辞書を用いて、入力した音声データについて照合処理を実行することにより認識結果を生成する音声認識装置であって、前記照合処理において、音を表す第1の型の文字列と、認識結果を形成するための第2の型の文字列との間の変換規則を用いて、前記入力した音声データの音を表す第1の型の文字列を第2の型の文字列に変換し、変換した第2の型の文字列に対応する単語辞書の単語を含む認識結果を出力する音声認識装置に接続された音声認識用ルール学習装置であって、
    前記音声認識装置で認識結果が生成される過程で生成される第1の型の文字列と、当該第1の型の文字列に対応する第2の型の文字列とを対応付けて記録する文字列記録部と、
    前記単語辞書に記録された単語に対応する第2の型の文字列から、第2の型の文字列の最小単位である第2型要素が複数連なって構成される文字列を、第2型学習文字列候補として抽出する抽出部と、
    前記抽出部が抽出した第2型学習文字列候補のうち、前記文字列記録部に記録された第2の型の文字列の少なくとも一部に一致する文字列を第2型学習文字列とし、当該第2の型の文字列に対応付けられて前記文字列記録部に記録された前記第1の型の文字列中で、前記第2型学習文字列に対応する箇所を、第1型学習文字列として抽出し、当該第1型学習文字列と第2型学習文字列との対応関係を示すデータを、前記音声認識装置で用いられる変換規則に含めるルール学習部とを備える、音声認識用ルール学習装置。
  2. 第2の型の文字列の構成単位である第2型要素それぞれに対応する理想的な第1の型の文字列を示すデータである基本ルールを予め記録する基本ルール記録部と、
    前記基本ルールを用いて前記第2型学習文字列に対応する第1の型の文字列を、第1型基準文字列として生成し、当該第1型基準文字列と、前記第1型学習文字列との類似度合を示す値を計算し、当該値が所定の許容範囲内である場合に、前記第1型学習文字列を前記変換規則に含めると判断する、不要ルール判定部とをさらに備える請求項1に記載の音声認識用ルール学習装置。
  3. 前記不要ルール判定部は、前記第1型基準文字列と前記第1型学習文字列との文字列長の違い、および前記第1型基準文字列と前記第1型学習文字列とで一致する文字の割合のうち、少なくとも1つに基づいて類似度合を示す値を計算することを特徴とする、請求項2に記載の音声認識用ルール学習装置。
  4. 前記ルール学習部が抽出した前記第1型学習文字列および前記第2型学習文字列の少なくともいずれか一方の前記音声認識装置における出現頻度が、所定の許容範囲内である場合に、当該第1型学習文字列と前記第2型学習文字列との対応関係を示すデータを前記変換規則に含めると判断する不要ルール判定部をさらに備える、請求項1に記載の音声認識用ルール学習装置。
  5. 前記所定の許容範囲を示す許容範囲データを記録する閾値記録部と、
    ユーザから許容範囲を示すデータの入力を受け付け、当該入力に基づいて前記閾値記録部に記録された前記許容範囲データを更新する設定部をさらに備える、請求項2〜4のいずれか1項に記載の音声認識ルール学習装置。
  6. を表す第1の型の文字列と、認識結果を形成するための第2の型の文字列との間の変換規則を記録するルール記録部と、
    音響モデルおよび単語辞書を用いて入力した音声データの照合処理を実行し、当該照合処理において、前記入力した音声データの音を表す第1の型の文字列を、前記変換規則を用いて第2の型の文字列に変換し、変換した第2の型の文字列に対応する単語辞書の単語を含む認識結果を出力する音声認識部と、
    前記音声認識部で認識結果が生成される過程で生成される第1の型の文字列と、当該第1の型の文字列に対応する第2の型の文字列とを対応付けて記録する文字列記録部と、
    前記単語辞書に記録された単語に対応する第2の型の文字列から、第2の型の文字列の最小単位である第2型要素が複数連なって構成される文字列を、第2型学習文字列候補として抽出する抽出部と、
    前記抽出部が抽出した第2型学習文字列候補のうち、前記文字列記録部に記録された第2の型の文字列の少なくとも一部に一致する文字列を第2型学習文字列とし、当該第2の型の文字列に対応付けられて前記文字列記録部に記録された前記第1の型の文字列中で、前記第2型学習文字列に対応する箇所を、第1型学習文字列として抽出し、当該第1型学習文字列と第2型学習文字列との対応関係を示すデータを、前記音声認識部で用いられる変換規則に含めるルール学習部とを備える、音声認識装置。
  7. 音響モデルおよび単語辞書を用いて、入力した音声データについて照合処理を実行することにより認識結果を生成する音声認識装置であって、前記照合処理において音を表す第1の型の文字列と、認識結果を形成するための第2の型の文字列との間の変換規則を用いて、前記入力した音声データの音を表す第1の型の文字列を第2の型の文字列に変換し、変換した第2の型の文字列に対応する単語辞書の単語を含む認識結果を出力する音声認識装置で用いられる前記変換規則を、コンピュータが学習する音声認識用ルール学習方法であって、
    前記音声認識装置で認識結果が生成される過程で生成される第1の型の文字列と、当該第1の型の文字列に対応する第2の型の文字列とを対応付けて記録する文字列記録部へアクセス可能なコンピュータが実行する工程であって、
    記単語辞書に記録された単語に対応する第2の型の文字列から、第2の型の文字列の最小単位である第2型要素が複数連なって構成される文字列を、第2型学習文字列候補として抽出する工程と、
    記抽出した第2型学習文字列候補のうち、前記文字列記録部に記録された第2の型の文字列の少なくとも一部に一致する文字列を第2型学習文字列とし、
    当該第2の型の文字列に対応付けられて前記文字列記録部に記録された前記第1の型の文字列中で、前記第2型学習文字列に対応する箇所を、第1型学習文字列として抽出し、
    当該第1型学習文字列と第2型学習文字列との対応関係を示すデータを、前記音声認識装置で用いられる変換規則に含める工程とを含む、音声認識用ルール学習方法。
  8. 音響モデルおよび単語辞書を用いて、入力した音声データについて照合処理を実行することにより認識結果を生成する音声認識装置であって、前記照合処理において、音を表す第1の型の文字列と、認識結果を形成するための第2の型の文字列との間の変換規則を用いて、前記入力した音声データの音を表す第1の型の文字列を第2の型の文字列に変換し、変換した第2の型の文字列に対応する単語辞書の単語を含む認識結果を出力する音声認識装置に接続または内蔵されたコンピュータに処理を実行させる音声認識用ルール学習プログラムであって、
    前記音声認識装置で認識結果が生成される過程で生成される第1の型の文字列と、当該第1の型の文字列に対応する第2の型の文字列とを対応付けて記録する文字列記録部にアクセスする処理と、
    前記単語辞書に記録された単語に対応する第2の型の文字列から、第2の型の文字列の最小単位である第2型要素が複数連なって構成される文字列を、第2型学習文字列候補として抽出する抽出処理と、
    前記抽出処理で抽出された第2型学習文字列候補のうち、前記文字列記録部に記録された第2の型の文字列の少なくとも一部に一致する文字列を第2型学習文字列とし、当該第2の型の文字列に対応付けられて前記文字列記録部に記録された前記第1の型の文字列中で、前記第2型学習文字列に対応する箇所を、第1型学習文字列として抽出し、当該第1型学習文字列と第2型学習文字列との対応関係を示すデータを、前記音声認識装置で用いられる変換規則に含めるルール学習処理とをコンピュータに実行させる、音声認識用ルール学習プログラム。
JP2009525221A 2007-07-31 2007-07-31 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法 Expired - Fee Related JP5141687B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/064957 WO2009016729A1 (ja) 2007-07-31 2007-07-31 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法

Publications (2)

Publication Number Publication Date
JPWO2009016729A1 JPWO2009016729A1 (ja) 2010-10-07
JP5141687B2 true JP5141687B2 (ja) 2013-02-13

Family

ID=40303974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009525221A Expired - Fee Related JP5141687B2 (ja) 2007-07-31 2007-07-31 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法

Country Status (4)

Country Link
US (1) US20100100379A1 (ja)
JP (1) JP5141687B2 (ja)
CN (1) CN101785050B (ja)
WO (1) WO2009016729A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110093263A1 (en) * 2009-10-20 2011-04-21 Mowzoon Shahin M Automated Video Captioning
JP6045175B2 (ja) * 2012-04-05 2016-12-14 任天堂株式会社 情報処理プログラム、情報処理装置、情報処理方法及び情報処理システム
WO2014013910A1 (ja) 2012-07-19 2014-01-23 住友建機株式会社 ショベル
CN103354089B (zh) * 2013-06-25 2015-10-28 天津三星通信技术研究有限公司 一种语音通信管理方法及其装置
KR102117082B1 (ko) * 2014-12-29 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN106157141B (zh) * 2015-04-27 2021-06-29 创新先进技术有限公司 数值处理方法及装置
CN105893414A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 筛选发音词典有效词条的方法及装置
US10831366B2 (en) * 2016-12-29 2020-11-10 Google Llc Modality learning on mobile devices
US10593320B2 (en) * 2018-01-07 2020-03-17 International Business Machines Corporation Learning transcription errors in speech recognition tasks
US10607596B2 (en) * 2018-01-07 2020-03-31 International Business Machines Corporation Class based learning for transcription errors in speech recognition tasks
US11838459B2 (en) 2019-06-07 2023-12-05 Canon Kabushiki Kaisha Information processing system, information processing apparatus, and information processing method
JP7353806B2 (ja) * 2019-06-07 2023-10-02 キヤノン株式会社 情報処理システム、情報処理装置、情報処理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02255944A (ja) * 1989-01-26 1990-10-16 Nec Corp かな漢字変換装置
JPH1185737A (ja) * 1997-09-12 1999-03-30 Ee I Soft Kk 辞書管理装置および方法並びに記録媒体
JP2001092494A (ja) * 1999-09-24 2001-04-06 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラム記録媒体
JP2004062262A (ja) * 2002-07-25 2004-02-26 Hitachi Ltd 未知語を自動的に辞書へ登録する方法
JP2007171275A (ja) * 2005-12-19 2007-07-05 Canon Inc 言語処理装置及び現後処理方法
JP2008021235A (ja) * 2006-07-14 2008-01-31 Denso Corp 読み登録システム及び読み登録プログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
JP2980228B2 (ja) * 1994-10-25 1999-11-22 日本ビクター株式会社 音声認識用音響モデル生成方法
US5875426A (en) * 1996-06-12 1999-02-23 International Business Machines Corporation Recognizing speech having word liaisons by adding a phoneme to reference word models
US5884259A (en) * 1997-02-12 1999-03-16 International Business Machines Corporation Method and apparatus for a time-synchronous tree-based search strategy
US6385579B1 (en) * 1999-04-29 2002-05-07 International Business Machines Corporation Methods and apparatus for forming compound words for use in a continuous speech recognition system
US6434521B1 (en) * 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
US7120582B1 (en) * 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
US7974843B2 (en) * 2002-01-17 2011-07-05 Siemens Aktiengesellschaft Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US7089188B2 (en) * 2002-03-27 2006-08-08 Hewlett-Packard Development Company, L.P. Method to expand inputs for word or document searching
JP3724649B2 (ja) * 2002-11-11 2005-12-07 松下電器産業株式会社 音声認識用辞書作成装置および音声認識装置
US7529668B2 (en) * 2004-08-03 2009-05-05 Sony Corporation System and method for implementing a refined dictionary for speech recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02255944A (ja) * 1989-01-26 1990-10-16 Nec Corp かな漢字変換装置
JPH1185737A (ja) * 1997-09-12 1999-03-30 Ee I Soft Kk 辞書管理装置および方法並びに記録媒体
JP2001092494A (ja) * 1999-09-24 2001-04-06 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラム記録媒体
JP2004062262A (ja) * 2002-07-25 2004-02-26 Hitachi Ltd 未知語を自動的に辞書へ登録する方法
JP2007171275A (ja) * 2005-12-19 2007-07-05 Canon Inc 言語処理装置及び現後処理方法
JP2008021235A (ja) * 2006-07-14 2008-01-31 Denso Corp 読み登録システム及び読み登録プログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNJ200000002001; 平石智宣 他: '"英語固有名詞のカナ表記への変換"' 情報処理学会第59回(平成11年後期)全国大会講演論文集(2) , 19990928, p.2-363-2-364 *
CSNJ201010058001; 横田和章 他: '"コーパスに基づく日本語文法の自動獲得法"' 情報処理学会第51回(平成7年後期)全国大会講演論文集(3) , 19950920, p.3-1-3-2 *
JPN6012000011; 横田和章 他: '"コーパスに基づく日本語文法の自動獲得法"' 情報処理学会第51回(平成7年後期)全国大会講演論文集(3) , 19950920, p.3-1-3-2 *
JPN6012000012; 平石智宣 他: '"英語固有名詞のカナ表記への変換"' 情報処理学会第59回(平成11年後期)全国大会講演論文集(2) , 19990928, p.2-363-2-364 *

Also Published As

Publication number Publication date
US20100100379A1 (en) 2010-04-22
WO2009016729A1 (ja) 2009-02-05
JPWO2009016729A1 (ja) 2010-10-07
CN101785050A (zh) 2010-07-21
CN101785050B (zh) 2012-06-27

Similar Documents

Publication Publication Date Title
JP5141687B2 (ja) 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法
CN108305634B (zh) 解码方法、解码器及存储介质
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JP4105841B2 (ja) 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US8738378B2 (en) Speech recognizer, speech recognition method, and speech recognition program
JP2008262279A (ja) 音声検索装置
US20030088416A1 (en) HMM-based text-to-phoneme parser and method for training same
CN112951211B (zh) 一种语音唤醒方法及装置
WO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP5590549B2 (ja) 音声検索装置および音声検索方法
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
CN111429886B (zh) 一种语音识别方法及系统
JP2009271117A (ja) 音声検索装置および音声検索方法
JP2004177551A (ja) 音声認識用未知発話検出装置及び音声認識装置
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
KR101095864B1 (ko) 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2000075885A (ja) 音声認識装置
CN113284487B (zh) 基于语音识别结果的匹配方法
JP2008249761A (ja) 統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置
JP3818154B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121023

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121105

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5141687

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees