JP4224250B2

JP4224250B2 - 音声認識装置、音声認識方法および音声認識プログラム

Info

Publication number: JP4224250B2
Application number: JP2002114631A
Authority: JP
Inventors: 佳洋川添
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2002-04-17
Filing date: 2002-04-17
Publication date: 2009-02-12
Anticipated expiration: 2022-04-17
Also published as: US20030200090A1; EP1355295A2; JP2003308090A; EP1355295B1; CN1196103C; EP1355295A3; CN1452157A

Description

【０００１】
【発明の属する技術分野】
本発明は、ＨＭＭ（Hidden Markov Models）法を用いて音声認識を行う技術分野に属し、より詳細には、発話された音声からキーワードを認識する技術分野に属する。
【０００２】
【従来の技術】
現在、人間が発声した音声を認識する音声認識装置が開発されており、このような音声認識装置では、人間が所定の語句の音声を発声すると、その入力信号から語句の音声を認識するようになっている。
【０００３】
また、このような音声認識装置を車載されたナビゲーション装置やパーソナルコンピュータなど各種装置に適用すれば、その装置はキーボードやスイッチ選択の手動操作を要することなく、各種の情報を入力することができるようになる。
【０００４】
したがって、自動車の運転中にナビゲーション装置を利用するなどの人間が両手を使用する作業環境であっても、操作者は、所望の情報を当該装置に入力することができるようになっている。
【０００５】
このような音声認識の代表的なものにＨＭＭ（隠れマルコフモデル）と呼ばれる確率モデルを利用して音声認識を行う方法（以下、単に音声認識という）がある。
【０００６】
この音声認識は、発話音声の特徴量のパターンを、予め用意されたキーワードとなる認識候補の語句（以下、認識対象語（キーワード）という）を示す音声の特徴量のパターンとマッチングさせることにより音声認識を行うようになっている。
【０００７】
具体的には、この音声認識は、予め定められた時間間隔毎に入力された発話音声（入力信号）を分析して特徴量を抽出し、この入力信号の特徴量に予めデータベースに格納されたＨＭＭによって示される認識対象語の特徴量のデータとマッチングの割合（以下、類似度という）を算出するとともに、発話音声の全てにおけるこの類似度を積算し、この積算された類似度が最も高い認識対象語を認識結果として確定するようになっている。
【０００８】
この結果、この音声認識は、発話音声である入力信号から所定の語句の音声認識を行うことができるようになっている。
【０００９】
なお、ＨＭＭは、遷移する状態の集まりとして表される統計的信号源モデルであり、予めキーワードなどの認識すべき音声の特徴量示す。また、このＨＭＭは、予め複数の音声データを採取し、これらの音声データに基づいて生成されるようになっている。
【００１０】
このような音声認識では、発話音声に含まれる認識対象語となるキーワード部分を如何に抽出するかが重要になる。
【００１１】
発話音声には、通常、キーワードの他に、予め既知の認識する際に不要な語である不要語（認識対象語の前後に付加される「えー」や「です」等の語）が含まれるようになっており、発話音声は、原則的には、不要語と当該不要語に挟まれたキーワードによって形成される。
【００１２】
従来、一般的に、音声認識を行う場合、音声認識の対象となるキーワードを認識することによって行うワードスポッティングという手法（以下、単にワードスポッティング音声認識という）がよく用いられている。
【００１３】
このワードスポッティング音声認識は、認識対象となる発話音声を、キーワードモデルを示すＨＭＭの他に、不要語のモデル（以下、ガーベージモデルという）を示すＨＭＭを用意し、最も特徴量の類似度が高いキーワードモデル、ガーベージモデルまたはそれらの組み合わせを認識することによって音声認識を行うようになっている。
【００１４】
【発明が解決しようとする課題】
しかしながら、上述の音声認識装置であっては、想定していない不要語が発話された場合には、その言語を認識することができないとともに、キーワードを的確に抽出することができず、誤認識が生ずるという問題を有していた。
【００１５】
通常、音声認識装置において、誤認識を生じさせないようにするためには、不要語を的確に発話音声から識別すること、すなわち、不要語を的確に認識することが必要になるので、上述の音声認識装置であっては、不要語を的確に認識させ、発話が想定される不要語の言語モデルを用意する必要がある。
【００１６】
すなわち、上述の音声認識装置において、正確にキーワードを認識するためには、あらゆる不要語のモデルを予め用意する必要がある。
【００１７】
具体的には、上述の音声認識装置では、予め用意されたガーベージモデルが「あのー」、「えーっと」といった単語のモデルであったため、新たに「あ」という単語を認識させるためには、改めて「あ」というガーベージモデルを作成し、特徴量のデータとして予め登録させておく必要がある。
【００１８】
一方、通常、不要語とは、認識させたくない言語であり、キーワード以外の全ての言語を指すので、従来の音声認識装置であっては、不要語を的確に識別するには、予め用意するガーベージモデルが膨大な数になる。
【００１９】
したがって、上述の音声認識装置であっては、機器構成上、予め用意することが可能なガーベージモデル数は限られるので、予め用意することができない不要語が発話された場合には、その言語を認識することができず、誤認識が生ずるという問題を有していた。
【００２０】
本発明は、上記の各問題点に鑑みて為されたもので、その課題は、不要語に関する特徴量のデータ量を増やすことなく、音声認識の性能が高い音声認識装置を提供することにある。
【００２１】
【課題を解決するための手段】
上記の課題を解決するために、請求項１に記載の発明は、発話された発話音声に含まれるキーワードを認識する音声認識装置であって、前記発話音声を分析することによって当該発話音声の音声成分の特徴量である発話音声特徴量を抽出する抽出手段と、前記発話音声特徴量に基づいて前記発話音声に含まれる前記キーワードを構成しない不要語または前記キーワードの少なくとも何れか一方を識別し、前記キーワードを認識する認識手段と、前記不要語の構成要素である不要語構成要素の音声成分の特徴量を夫々示す複数の不要語構成要素特徴量データであって、当該特徴量が互いに干渉しない複数の不要語構成要素特徴量データを統合した統合データが予め格納されている格納手段と、を備え、前記認識手段が、前記発話音声に含まれる不要語を識別するときに、前記格納されている統合データに統合されている各前記不要語構成要素特徴量データ毎に、前記抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別する構成を有している。
【００２２】
この構成により、請求項１に記載の発明では、発話音声に含まれる不要語を識別するときに、統合データに統合されている各不要語構成要素特徴量データ毎に、抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別する。
【００２３】
したがって、不要語を識別する際に、複数の不要語構成要素特徴量データを統合した統合データに基づいて当該不要語を識別することにより、少ないデータによって的確に不要語を識別することができるので、予め不要語を認識するためのデータ量を増やすことなく、識別することが可能な不要語を増加させることができ、キーワードの抽出および認識の正確性を向上させることができる。
しかも、格納される１の統合データによって当該不要語の複数の不要語構成要素を識別することができるとともに、複数の特徴量を合成することにより生ずる不要語の識別精度の劣化を抑制することができるので、少ないデータによって的確に不要語を識別することができる。
また、請求項２に記載の発明は、請求項１に記載の音声認識装置において、前記格納手段には、複数の前記統合データが予め格納されている構成を有している。
この構成により、請求項２に記載の発明では、格納手段には、複数の前記統合データが予め格納されている。
【００２４】
また、請求項３に記載の発明は、請求項１または請求項２に記載の音声認識装置において、前記格納手段に予め格納されている前記統合データに統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが、複数の前記不要語構成要素の音声成分の特徴量の特性を有するデータである構成を有している。
【００２５】
この構成により、請求項３に記載の発明では、格納手段に予め格納されている統合データに統合されている複数の不要語構成要素特徴量データのうち少なくとも一つが、複数の不要語構成要素の音声成分の特徴量の特性を有する。
【００２６】
したがって、発話音声に含まれる不要語を識別する際に、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つによって当該不要語を構成する複数の不要語構成要素を識別することができるので、少ないデータによって的確に不要語を識別することができる。
【００２７】
また、請求項４に記載の発明は、請求項３に記載の音声認識装置において、前記格納手段に予め格納されている前記統合データに統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが、複数の前記不要語構成要素の特徴量を結合することによって得られた１の前記音声成分の特徴量を示すデータである構成を有している。
【００２８】
この構成により、請求項４に記載の発明では、格納手段に予め格納されている統合データに統合されている複数の不要語構成要素特徴量データのうち少なくとも一つが、複数の不要語構成要素の特徴量を結合することによって得られた１の音声成分の特徴量を示す。
【００２９】
したがって、発話音声に含まれる不要語を識別する際に、格納手段に予め格納されている統合データに統合されている複数の不要語構成要素特徴量データのうち少なくとも一つによって当該不要語の複数の不要語構成要素を識別することができるので、少ないデータによって的確に不要語を識別することができる。
【００３３】
また、請求項５に記載の発明は、請求項１乃至４の何れか一項に記載の音声認識装置において、前記格納手段に予め格納されている前記統合データに統合されている各前記不要語構成要素特徴量データが、夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示すデータである構成を有している。
【００３４】
この構成により、請求項５に記載の発明では、格納手段に予め格納されている統合データに統合されている各不要語構成要素特徴量データが、夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示す。
【００３５】
したがって、複数の特徴量を合成することにより生ずる識別精度の劣化を抑制するとともに、格納手段に格納される不要語構成要素特徴量のデータ量を増やすことなく、的確に不要語を識別することができる。
【００３６】
また、請求項６に記載の発明は、請求項１乃至５の何れか一項に記載の音声認識装置において、前記格納手段に予め格納されている前記統合データに統合されている各前記不要語構成要素特徴量データが、夫々音素または音節の少なくとも何れか一方の特徴量を示すデータである構成を有している。
【００３７】
この構成により、請求項６に記載の発明では、格納手段に予め格納されている統合データに統合されている各不要語構成要素特徴量データが、夫々音素または音節の少なくとも何れか一方の特徴量を示す。
【００３８】
通常、不要語を含め一般的には認識されるべき言語は膨大な数に上るが、その構成要素となる音素または音節の数は限られる。
【００３９】
したがって、不要語を識別する際に、音素または音節毎に格納されている不要語構成要素特徴量に基づいてあらゆる不要語を識別することができるので、識別する不要語構成要素特徴量のデータ量を増やすことなく、的確に不要語を識別することができ、キーワードの抽出および認識における正確性を向上させることができる。
【００４０】
また、請求項７に記載の発明は、請求項１乃至６の何れか一項に記載の音声認識装置において、１または２以上の前記キーワードの音声成分の特徴量を示すキーワード特徴量データを予め取得するキーワード特徴量データ取得手段を有するとともに、前記認識手段が、前記格納手段に格納されている前記統合データおよび前記取得したキーワード特徴量データに基づいて前記抽出した発話音声の少なくとも一部の特徴量と前記キーワードおよび不要語構成要素の特徴量とが類似する割合を示す類似度を算出する算出手段と、当該算出した類似度に基づいて前記発話音声に含まれる前記キーワードまたは前記不要語の少なくとも何れか一方を識別する識別手段と、を有する構成をしている。
【００４１】
この構成により、請求項７に記載の発明では、格納手段に格納されている統合データおよび取得したキーワード特徴量データに基づいて抽出した発話音声の少なくとも一部の特徴量とキーワードおよび不要語構成要素の特徴量とが類似する割合を示す類似度を算出する算出手段と、当該算出した類似度に基づいて発話音声に含まれるキーワードまたは不要語の少なくとも何れか一方を識別する。
【００４２】
したがって、不要語を識別する際に、発話音声の特徴量と類似する不要語構成要素特徴量およびキーワード特徴量に基づいて発話音声に含まれる不要語およびキーワードを識別するので、予め不要語として認識されるための不要語の特徴量のデータ量を増やすことなく、的確に識別することが可能な不要語を増加させることができ、キーワードの抽出および認識の正確性を向上させることができる。
【００４３】
また、請求項８に記載の発明は、発話された発話音声に含まれるキーワードを認識する音声認識方法であって、前記発話音声を分析することによって当該発話音声の音声成分の特徴量である発話音声特徴量を抽出する抽出処理工程と、前記発話音声に含まれる前記キーワードを構成しない不要語の構成要素である不要語構成要素の音声成分の特徴量を夫々示す複数の不要語構成要素特徴量データであって、当該特徴量が互いに干渉しない複数の不要語構成要素特徴量データを統合した統合データを、予め格納されている格納手段から取得する取得処理工程と、前記抽出した発話音声特徴量と、前記取得した統合データと、に基づいて、前記発話音声に含まれる前記不要語または前記キーワードの少なくとも何れか一方を識別して当該キーワードの認識を行う識別処理工程と、を含み、前記識別処理工程において前記発話音声に含まれる前記不要語を識別するときには、前記取得した統合データに統合されている各前記不要語構成要素特徴量データ毎に、前記抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別する構成を有している。
【００４４】
この構成により、請求項８に記載の発明では、発話音声に含まれる不要語を識別するときには、取得した統合データに統合されている各不要語構成要素特徴量データ毎に、抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別する。
【００４５】
したがって、不要語を識別する際に、複数の不要語構成要素特徴量データを統合した統合データに基づいて当該不要語を識別することにより、少ないデータによって的確に不要語を識別することができるので、予め不要語を認識するためのデータ量を増やすことなく、識別することが可能な不要語を増加させることができ、キーワードの抽出および認識の正確性を向上させることができる。
しかも、格納される１の統合データによって当該不要語の複数の不要語構成要素を識別することができるとともに、複数の特徴量を合成することにより生ずる不要語の識別精度の劣化を抑制することができるので、少ないデータによって的確に不要語を識別することができる。
また、請求項９に記載の発明は、請求項８に記載の音声認識方法において、前記取得処理工程においては、複数の前記統合データを、予め格納されている前記格納手段から取得する構成を有している。
この構成により、請求項９に記載の発明では、複数の統合データを取得する。
【００４６】
また、請求項１０に記載の発明は、請求項８または請求項９に記載の音声認識方法において、前記取得処理工程においては、統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の音声成分の特徴量の特性を有する前記統合データを、予め格納されている前記格納手段から取得する構成を有している。
【００４７】
この構成により、請求項１０に記載の発明では、統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の音声成分の特徴量の特性を有する前記統合データを取得する。
【００４８】
したがって、発話音声に含まれる不要語を識別する際に、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つによって当該不要語を構成する複数の不要語構成要素を識別することができるので、少ないデータによって的確に不要語を識別することができる。
【００４９】
また、請求項１１に記載の発明は、請求項１０に記載の音声認識方法において、前記取得処理工程においては、統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の特徴量を結合することによって得られた１の前記音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得する構成を有している。
【００５０】
この構成により、請求項１１に記載の発明では、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つが複数の不要語構成要素の特徴量を結合することによって得られた１の音声成分の特徴量を示す統合データを取得する。
【００５１】
したがって、発話音声に含まれる不要語を識別する際に、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つによって当該不要語の複数の不要語構成要素を識別することができるので、少ないデータによって的確に不要語を識別することができる。
【００５５】
また、請求項１２に記載の発明は、請求項８乃至１１の何れか一項に記載の音声認識方法において、前記取得処理工程においては、統合されている各前記不要語構成要素特徴量データが夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得する構成を有している。
【００５６】
この構成により、請求項１２に記載の発明では、統合されている各不要語構成要素特徴量データが夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示す統合データを取得する。
【００５７】
したがって、複数の特徴量を合成することにより生ずる識別精度の劣化を抑制するとともに、格納手段に格納される不要語構成要素特徴量のデータ量を増やすことなく、的確に不要語を識別することができる。
【００５８】
また、請求項１３に記載の発明は、請求項８乃至１２の何れか一項に記載の音声認識方法において、前記取得処理工程においては、統合されている各前記不要語構成要素特徴量データが夫々音素または音節の少なくとも何れか一方の特徴量を示すデータを示す前記統合データを、予め格納されている前記格納手段から取得する構成を有している。
【００５９】
この構成により、請求項１３に記載の発明では、統合されている各不要語構成要素特徴量データが夫々音素または音節の少なくとも何れか一方の特徴量を示すデータを示す統合データを取得する。
【００６０】
通常、不要語を含め一般的には認識されるべき言語は膨大な数に上るが、その構成要素となる音素または音節の数は限られる。
【００６１】
したがって、不要語を識別する際に、音素または音節毎に格納されている不要語構成要素特徴量に基づいてあらゆる不要語を識別することができるので、識別する不要語構成要素特徴量のデータ量を増やすことなく、的確に不要語を識別することができ、キーワードの抽出および認識における正確性を向上させることができる。
【００６２】
また、請求項１４に記載の発明は、請求項８乃至１３の何れか一項に記載の音声認識方法において、前記取得処理工程においては、１または２以上の前記キーワードの音声成分の特徴量を示すキーワード特徴量データを予め取得するとともに、前記認識処理工程においては、前記取得処理工程によって取得した前記統合データおよび前記キーワード特徴量データに基づいて、前記抽出した発話音声の少なくとも一部の特徴量と前記キーワードおよび前記不要語構成要素の特徴量とが類似する割合を示す類似度を算出する算出処理工程と、前記算出した類似度に基づいて前記発話音声に含まれる前記キーワードまたは前記不要語の少なくとも何れか一方を識別する識別処理工程と、を含む構成を有している。
【００６３】
この構成により、請求項１４に記載の発明では、取得した統合データおよびキーワード特徴量データに基づいて抽出した発話音声の少なくとも一部の特徴量と各キーワードおよび各不要語構成要素の特徴量との類似する割合を示す類似度を算出するとともに、算出した類似度に基づいて発話音声に含まれるキーワードまたは不要語の少なくとも何れか一方を識別する。
【００６４】
したがって、不要語を識別する際に、発話音声の特徴量と類似する不要語構成要素特徴量およびキーワード特徴量に基づいて発話音声に含まれる不要語およびキーワードを識別するので、予め不要語として認識されるための不要語の特徴量のデータ量を増やすことなく、的確に識別することが可能な不要語を増加させることができ、キーワードの抽出および認識の正確性を向上させることができる。
【００６５】
また、請求項１５に記載の発明は、コンピュータによって、発話された発話音声に含まれるキーワードを認識する音声認識処理を行う音声認識処理プログラムであって、前記コンピュータを、前記発話音声を分析することによって当該発話音声の音声成分の特徴量である発話音声特徴量を抽出する抽出手段、前記発話音声に含まれる前記キーワードを構成しない不要語の構成要素である不要語構成要素の音声成分の特徴量を夫々示す複数の不要語構成要素特徴量データであって、当該特徴量が互いに干渉しない複数の不要語構成要素特徴量データを統合した統合データを、予め格納されている格納手段から取得する取得手段、前記抽出した発話音声特徴量と前記取得した統合データとに基づいて、前記発話音声に含まれる前記不要語または前記キーワードの少なくとも何れか一方を識別して当該キーワードの認識を行う認識手段、として機能させ、前記認識手段としての前記コンピュータを、前記発話音声に含まれる前記不要語を識別するときには、前記取得した統合データに統合されている各前記不要語構成要素特徴量データ毎に、前記抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別するように機能させる構成を有している。
【００６６】
この構成により、請求項１５に記載の発明では、コンピュータによって、発話音声に含まれる不要語を識別するときに、取得した統合データに統合されている各不要語構成要素特徴量データ毎に、抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別する。
【００６７】
したがって、不要語を識別する際に、複数の不要語構成要素特徴量データを統合した統合データに基づいて当該不要語を識別することにより、少ないデータによって的確に不要語を識別することができるので、予め不要語を認識するためのデータ量を増やすことなく、識別することが可能な不要語を増加させることができ、キーワードの抽出および認識の正確性を向上させることができる。
しかも、格納される１の統合データによって当該不要語の複数の不要語構成要素を識別することができるとともに、複数の特徴量を合成することにより生ずる不要語の識別精度の劣化を抑制することができるので、少ないデータによって的確に不要語を識別することができる。
また、請求項１６に記載の発明は、コンピュータによって、請求項１５に記載の音声認識を行う音声認識処理プログラムにおいて、前記取得手段としての前記コンピュータを、複数の前記統合データを、予め格納されている前記格納手段から取得するように機能させる構成を有している。
この構成により、請求項１６に記載の発明では、コンピュータによって、複数の統合データを取得する。
【００６８】
また、請求項１７に記載の発明は、コンピュータによって、請求項１５または請求項１６に記載の音声認識を行う音声認識処理プログラムにおいて、前記取得手段としての前記コンピュータを、統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の音声成分の特徴量の特性を有する前記統合データを、予め格納されている前記格納手段から取得するように機能させる構成を有している。
【００６９】
この構成により、請求項１７に記載の発明では、コンピュータによって、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つが複数の不要語構成要素の音声成分の特徴量の特性を有する統合データを取得する。
【００７０】
したがって、発話音声に含まれる不要語を識別する際に、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つによって当該不要語を構成する複数の不要語構成要素を識別することができるので、少ないデータによって的確に不要語を識別することができる。
【００７１】
また、請求項１８に記載の発明は、コンピュータによって、請求項１７に記載の音声認識を行う音声認識処理プログラムにおいて、前記取得手段としての前記コンピュータを、統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の特徴量を結合することによって得られた１の前記音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得するように機能させる。
【００７２】
この構成により、請求項１８に記載の発明では、コンピュータによって、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つが複数の不要語構成要素の特徴量を結合することによって得られた１の音声成分の特徴量を示す統合データを取得する。
【００７３】
したがって、発話音声に含まれる不要語を識別する際に、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つによって当該不要語の複数の不要語構成要素を識別することができるので、少ないデータによって的確に不要語を識別することができる。
【００７７】
また、請求項１９に記載の発明は、請求項１５乃至１８の何れか一項に記載の音声認識を行う音声認識処理プログラムにおいて、前記取得手段としての前記コンピュータを、統合されている各前記不要語構成要素特徴量データが夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得するように機能させる構成を有している。
【００７８】
この構成により、請求項１９に記載の発明では、コンピュータによって、統合されている各不要語構成要素特徴量データが夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示す統合データを取得する。
【００７９】
したがって、複数の特徴量を合成することにより生ずる識別精度の劣化を抑制するとともに、格納手段に格納される不要語構成要素特徴量のデータ量を増やすことなく、的確に不要語を識別することができる。
【００８０】
また、請求項２０に記載の発明は、コンピュータによって、請求項１５乃至１９の何れか一項に記載の音声認識を行う音声認識処理プログラムにおいて、前記取得手段としての前記コンピュータを、統合されている各前記不要語構成要素特徴量データが夫々音素または音節の少なくとも何れか一方の特徴量を示すデータを示す前記統合データを、予め格納されている前記格納手段から取得するように機能させる構成を有している。
【００８１】
この構成により、請求項２０に記載の発明では、コンピュータによって、統合されている各不要語構成要素特徴量データが夫々音素または音節の少なくとも何れか一方の特徴量を示すデータを示す統合データを取得する。
【００８２】
通常、不要語を含め一般的には認識されるべき言語は膨大な数に上るが、その構成要素となる音素または音節の数は限られる。
【００８３】
したがって、不要語を識別する際に、音素または音節毎に格納されている不要語構成要素特徴量に基づいてあらゆる不要語を識別することができるので、識別する不要語構成要素特徴量のデータ量を増やすことなく、的確に不要語を識別することができ、キーワードの抽出および認識における正確性を向上させることができる。
【００８４】
また、請求項２１に記載の発明は、コンピュータによって、請求項１５乃至２０の何れか一項に記載の音声認識を行う音声認識処理プログラムにおいて、前記取得手段としての前記コンピュータを、１または２以上の前記キーワードの音声成分の特徴量を示すキーワード特徴量データを予め取得するように機能させ、前記認識手段としての前記コンピュータを、前記取得した統合データおよび前記キーワード特徴量データに基づいて、前記抽出した発話音声の少なくとも一部の特徴量と前記キーワードおよび前記不要語構成要素の特徴量とが類似する割合を示す類似度を算出する算出手段、当該算出した類似度に基づいて前記発話音声に含まれる前記キーワードまたは前記不要語の少なくとも何れか一方を識別する識別手段、として機能させる構成を有している。
【００８５】
この構成により、請求項２１に記載の発明では、コンピュータによって、取得した統合データおよびキーワード特徴量データに基づいて抽出した発話音声の少なくとも一部の特徴量と各前記キーワードおよび各不要語構成要素の特徴量との類似する割合を示す類似度を算出するとともに、算出した類似度に基づいて発話音声に含まれるキーワードまたは不要語の少なくとも何れか一方を識別する。
【００８６】
したがって、不要語を識別する際に、発話音声の特徴量と類似する不要語構成要素特徴量およびキーワード特徴量に基づいて発話音声に含まれる不要語およびキーワードを識別するので、予め不要語として認識されるための不要語の特徴量のデータ量を増やすことなく、的確に識別することが可能な不要語を増加させることができ、キーワードの抽出および認識の正確性を向上させることができる。
【００８７】
【発明の実施の形態】
次に、本発明に好適な実施の形態について、図面に基づいて説明する。
【００８８】
なお、以下に説明する実施の形態は、本発明に係る音声認識装置を適用した場合の実施形態である。
【００８９】
〔第１実施形態〕
なお、以下に説明する実施の形態は、本発明に係る音声認識装置を適用した場合の実施形態であり、図１〜図４は、本発明に係る音声認識装置の一実施形態を示す図である。
【００９０】
また、本実施形態において説明する不要語構成要素は、音素単位または音節単位などの音声を構成する音声学的な基本単位を示すが、本実施形態では説明の便宜上、音節単位を用いて以下の説明を行う。
【００９１】
まず、図１、図２を用いて本実施形態のＨＭＭを用いた音声言語モデルについて説明する。
【００９２】
なお、図１は、本実施形態のＨＭＭを用いた認識ネットワークを示す音声言語モデルを示す図であり、図２は、任意のＨＭＭによって任意の発話音声の認識を行う場合の音声言語モデルである。
【００９３】
本実施形態では、図１に示すようなＨＭＭを用いた認識ネットワークを示すモデル（以下、音声言語モデルという）、すなわち、認識すべきキーワードが含まれる音声言語モデル１０を想定する。
【００９４】
この音声言語モデル１０は、キーワードモデル１１の前後にガーベージモデルと呼ばれる不要語を構成する単位を示すモデル（以下、不要語構成要素モデルという）１２ａ、１２ｂを接続する構成を有し、発話音声に含まれるキーワードはキーワードモデル１１に、不要語は各不要語構成要素モデル１２ａ、１２ｂにマッチングさせることによってキーワードと不要語を識別し、発話音声に含まれるキーワードを認識するようになっている。
【００９５】
実際には、このキーワードモデル１１および不要語構成要素モデル１２ａ、１２ｂは、発話音声の任意の区間毎に遷移する状態の集まりを表し、非定常信号源を定常信号の連結で表す統計的信号源モデルであるＨＭＭによって表すようになっている。
【００９６】
このキーワードモデル１１のＨＭＭ（以下、キーワードＨＭＭという）および不要語構成要素モデル１２ａ、１２ｂのＨＭＭ（以下、不要語構成要素ＨＭＭという）は、ある状態からある状態に状態の遷移の確率を示す状態遷移確率と状態が遷移するときに観測されるベクトル（フレーム毎の特徴量ベクトル）の確率を出力する出力確率の２つのパラメータを有し、各キーワードの特徴量パターンおよび不要語構成要素の特徴量パターンを示すようになっている。
【００９７】
一般的に、発話音声は、同じ単語や音節であっても様々な原因によって生じる音響的変動を有するため、発話者が異なれば、発話音声を構成する言語音が大幅に変化するが、同じ言語音は、主に、スペクトル包絡とその時間的推移によって特徴付けられるようになっており、このような変動の時系列パターンの確率的な性質を、ＨＭＭによって精密に表現することができるようになっている。
【００９８】
したがって、本実施形態では、後述するように、入力された発話音声の特徴量と、各キーワードＨＭＭおよび不要語構成要素ＨＭＭと、類似度算出およびマッチング処理を行うことによってこの発話音声に含まれるキーワードを認識するようになっている。
【００９９】
なお、本実施形態では、このＨＭＭは、各キーワードの特徴量パターンおよび不要語構成要素の特徴量を示す一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡のデータまたはこのパワースペクトルの対数をとって逆フーリエ変換したケプストラムのデータを有する確率モデルを示すようになっている。
【０１００】
また、このＨＭＭは、予め複数の人間が発する各音素の音声データを取得し、各音素毎に特徴量のパターンを抽出して各音素毎の特徴量のパターンに基づいて各音素の特徴量のパターンデータを学習させることによって生成されるようになっており、これにより生成されたＨＭＭが予め各データベースに格納されるようになっている。
【０１０１】
このようなＨＭＭを用いて発話音声などの音声に含まれるキーワードの音声認識を行う場合には、当該認識する音声を予め定められた一定時間毎に分割し、予め格納された各ＨＭＭのデータとのマッチング処理に基づいて各分割された状態から次の状態に変化する場合の確率を算出することにより認識すべきキーワードを確定するようになっている。
【０１０２】
具体的には、本実施形態では、この特徴量パターンと任意の状態を示す発話音声の一定時間に区切られた各音声区間の特徴量と比較することによって、このＨＭＭの特徴量パターンと各音声区間の特徴量の一致度を示す類似度を算出し、後述するマッチング処理によってあらゆるＨＭＭの繋がり、すなわち、キーワードと不要語の繋がりの確率を示す累積類似度を算出し、最も類似度の高いＨＭＭの繋がりを発話音声の言語として認識するようになっている。
【０１０３】
この特徴量ベクトルに対する出力確率を示すＨＭＭは、一般的に、図２に示すように、状態遷移確率ａと出力確率ｂのパラメータを持ち、入力された特徴量ベクトルに対する出力確率は、多次元正規分布の混合確率で実現されるようになっており、各状態についての類似度（尤度）は、式（１）によって表すことができるようになっている。
【０１０４】
【数１】

【０１０５】
ただし、ｘは、任意の音声区間の特徴ベクトル、Σ_iは、共分散行列、λは混合比、ｕ_iは予め学習された特徴ベクトルの平均値ベクトル、Ｐは、任意の音声区間の特徴ベクトルの次元数を示す。
【０１０６】
なお、図２は、任意の状態ｉから他の状態（ｉ＋ｎ）に状態変化する場合の状態遷移確率ａと出力確率ｂを示す図であり、図２に示される各グラフはその状態における入力された特徴量ベクトルが出力される場合の出力確率を示すものである。
【０１０７】
また、実際的には、音声認識を行う場合には、式（２）に示すように、上記式（１）の対数を取った対数尤度が用いられることが多い。
【０１０８】
【数２】

【０１０９】
次に、図３を用いてガーベージモデルである不要語構成要素モデルＨＭＭについて説明する。
【０１１０】
なお、図３は、任意の不要語およびキーワードの組み合わせにおいての不要語ＨＭＭと不要語構成要素ＨＭＭとの累積類似度を示すグラフである。
【０１１１】
上述のように、従来の音声認識装置では、キーワードモデルと同様に、不要語モデルも不要語の特徴量を示すＨＭＭで構成するようになっていたため、発話音声に含まれる不要語を識別するには、予め識別すべき不要語を予めデータベースに格納しておく必要がある。
【０１１２】
この識別すべき不要語は、基本的にはあらゆる言語が想定され、キーワードを構成しない言語から言葉として意味が不明で認識することのできない音声まで、キーワード以外の全ての音声を含むので、発話音声に含まれる不要語を的確に識別するためにはＨＭＭによって予め準備される不要語の数は膨大になる。
【０１１３】
したがって、従来の音声認識装置では、発話音声に含まれる不要語を的確に識別するためには、データベースに格納するなどによってあらゆる不要語の特徴量を示すデータを予め取得することが必要となるので、予め格納しておくデータ量が膨大となり、当該データを格納する領域を確保するには物理的に不可能である。
【０１１４】
また、従来の音声認識装置では、格納すべきデータ数が膨大となるため、予めデータベースなどに当該格納すべき不要語のデータを生成するには多大な労力が必要となる。
【０１１５】
一方、不要語も音声言語の一種であるため、不要語であっても、音節または音素などの構成要素から成り立っており、一般的に、その音節または音素などの構成要素は限られることとなる。
【０１１６】
したがって、この不要語構成要素に基づいて発話音声に含まれる不要語の識別を行うようにすれば、予め準備するデータ量を少なくすることができるとともに、あらゆる不要語を的確に識別することができるようになる。
【０１１７】
すなわち、音節または音素などの構成要素を組み合わせれば、あらゆる不要語を構成することができるようになるので、音節または音素などの構成要素のデータを準備し、この構成要素データによって不要語を識別するように構成すれば、予め準備するデータ量を少なくすることができるとともに、あらゆる不要語を的確に識別することができるようになる。
【０１１８】
通常、発話音声に含まれたキーワードを認識する音声認識装置は、後述するように、発話音声を予め設定された時間毎の音声区間に分割し、分割された各音声区間の特徴量毎に予め用意されたＨＭＭなどのガーベージモデルおよび各キーワードモデルとの類似度を算出するとともに、この算出された各音声区間の特徴量毎の各不要語ＨＭＭおよび各キーワードモデルＨＭＭとの類似度に基づいて各キーワードと不要語の組み合わせにおける類似度を積算することによってＨＭＭの繋がりを示す累積類似度を算出するようになっている。
【０１１９】
このため、従来の音声認識装置のように発話音声に含まれた不要語を認識するための不要語ＨＭＭが予め用意されていない場合には、発話音声の不要語に相当する部分の音声の特徴量は、不要語ＨＭＭまたはキーワードＨＭＭの何れのものとも類似度が低くなるとともに、累積類似度も低くなるので、誤認識が生ずることとなる。
【０１２０】
しかしながら、音声区間を不要語構成要素ＨＭＭによってマッチングさせる場合には、発話音声の不要語に相当する部分の音声の特徴量と予め用意された不要語ＨＭＭの特徴量を示すデータとの類似度が高くなるので、発話音声に含まれるキーワードを示す特徴量が、キーワードＨＭＭのデータと一致すれば、発話音声を示すキーワードと不要語との組み合わせの累積類似度は高くなり、キーワードを的確に認識することができるようになっている。
【０１２１】
例えば、図３（ａ）に示すように、発話音声に含まれる不要語のガーベージモデル（以下、不要語ＨＭＭという）が予め用意されている場合には、不要語構成要素ＨＭＭの場合と比べても、累積類似度に相違はないが、図３（ｂ）に示すように、発話音声に含まれる不要語のガーベージモデルのＨＭＭ（以下、不要語ＨＭＭという）が予め用意されていない場合には、不要語構成要素ＨＭＭの場合と比べて、累積類似度が低くなっている。
【０１２２】
このように、本実施形態では、不要語構成要素ＨＭＭを用いて累積類似度を算出することによって発話音声に含まれた不要語を識別し、キーワードを認識するようになっているので、少ないデータによって的確に不要語を識別することができ、キーワードを認識することができるようになっている。
【０１２３】
次に、図４を用いて本実施形態の音声認識装置の構成について説明する。
【０１２４】
なお、図４は、本発明の一実施形態にかかる音声認識装置の構成を示す図である。
【０１２５】
音声認識装置１００は、図４に示すように、発話音声が入力され、電気信号（以下、音声信号という）に変換するマイクロホン１０１と、入力された音声信号から発話音声部分の音声信号を切り出し、予め設定された時間間隔毎にフレーム分割する入力処理部１０２と、各フレーム毎に音声信号の特徴量を抽出する音声分析部１０３と、認識すべき複数のキーワードの特徴量パターンを示すキーワードＨＭＭが予め格納されているキーワードモデルデータベース１０４と、キーワードと識別すべき不要語の構成要素である不要語構成要素ＨＭＭが予め格納されているガーベージモデルデータベース１０５と、抽出されたフレーム毎の特徴量とキーワードＨＭＭおよび不要語構成要素ＨＭＭに基づいてこの各フレーム特徴量の類似度を算出する類似度算出部１０６と、算出された各フレーム毎の各ＨＭＭとの類似度に基づいて後述するマッチング処理を行うマッチング処理部１０７と、マッチング処理に基づいて発話音声に含まれるキーワードを判定する判定部１０８とを備えている。
【０１２６】
音声分析部１０３は、本発明の抽出手段を構成し、キーワードモデルデータベース１０４およびガーベージモデルデータベース１０５は、本発明の格納手段を構成する。また、類似度算出部１０６は、本発明の認識手段、算出手段および取得手段を構成し、マッチング処理部１０７は、本発明の認識手段および算出手段を構成する。さらに、判定部１０８は、認識手段および識別手段を構成する。
【０１２７】
入力処理部１０２には、マイクロホン１０１から出力された音声信号が入力され、この入力処理部１０２は、入力された音声信号の発話音声部分の音声区間を示す音声信号を切り出すとともに、この切り出された音声区間の音声信号を予め設定された時間間隔毎のフレームに分割し、音声分析部１０３に出力するようになっている。
【０１２８】
なお、例えば、１フレームは、１０ｍｓ〜２０ｍｓ程度の時間間隔毎に分割するようになっている。
【０１２９】
音声分析部１０３は、入力されたフレーム毎に当該音声信号を分析するとともに、当該フレーム毎の音声信号の特徴量を抽出して音声認識部に出力するようになっている。
【０１３０】
具体的には、音声分析部１０３は、各フレーム毎に、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡の情報、または、このパワースペクトルの対数をとって逆フーリエ変換したものケプストラムの情報を特徴量として抽出し、当該抽出した特徴量をベクトル化して類似度算出部１０６に出力するようになっている。
【０１３１】
キーワードモデルデータベース１０４には、認識すべきキーワードの特徴量のパターンデータを示すキーワードＨＭＭが予め格納されている。この格納されている複数のキーワードＨＭＭのデータは、認識すべき複数の認識対象語の特徴量のパターンを示すようになっている。
【０１３２】
例えば、車載されたナビゲーション装置で用いる場合には、キーワードモデルデータベース１０４には、自動車が向かう目的地名や現在位置名、レストランなどの施設名といった音声信号の特徴量のパターンを示すＨＭＭが格納されるようになっている。
【０１３３】
本実施形態では、各キーワードの特徴量パターンを示すＨＭＭは、上述のように、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡のデータまたはこのパワースペクトルの対数をとって逆フーリエ変換したケプストラムのデータを有する確率モデルを示すようになっている。
【０１３４】
また、通常、キーワードは、「現在地」や「目的地」のように、複数の音節または音素から構成されるようになっているので、本実施形態では、１つのキーワードＨＭＭは、複数のキーワード構成要素ＨＭＭによって構成されており、類似度算出部１０６では、各キーワード構成要素ＨＭＭ毎に１のフレーム毎の特徴量との類似度を算出するようになっている。
【０１３５】
このように、キーワードモデルデータベース１０４には、認識すべきキーワードの各キーワードＨＭＭ、すなわち、キーワード構成要素ＨＭＭが格納されるようになっている。
【０１３６】
ガーベージモデルデータベース１０５には、この不要語を認識させるための言語モデルであり、不要語構成要素の特徴量のパターンデータを示すＨＭＭが格納されている。
【０１３７】
本実施形態では、ガーベージモデルデータベース１０５には、１つの不要語構成要素の特徴量を示すＨＭＭが格納されている。例えば、音節単位のＨＭＭが格納されている場合、この１つの不要語構成要素のＨＭＭは、５０音、鼻音、濁音、破裂などあらゆる音節の特徴を有する特徴量のパターンを有している。
【０１３８】
通常、各音節毎にそれぞれの特徴量のＨＭＭを生成する場合に、上述と同様に、予め複数の人間が発する各音節の音声データを取得し、各音節毎に特徴量のパターンを抽出してこの各音節毎の特徴量のパターンに基づいて各音節の特徴量のパターンデータを学習させて生成するが、本実施形態では、この音声データを生成する際に、全ての音節の音声データに基づいて全ての特徴量パターンのＨＭＭを生成し、１のＨＭＭの言語モデルによって複数の音節の特徴量を有するＨＭＭを生成するようになっている。
【０１３９】
本実施形態では、このように生成した特徴量のパターンデータによってあらゆる音節の特徴量パターンを有する１の言語モデルであるＨＭＭを生成し、これをベクトル化して予めガーベージモデルデータベース１０５に格納するようになっている。
【０１４０】
類似度算出部１０６には、各フレーム毎のベクトル特徴量が入力されるようになっており、この類似度算出部１０６は、入力された各フレーム毎の特徴量に基づいて各データベースに格納されている各ＨＭＭモデルの特徴量を比較して入力された各フレームの各ＨＭＭとの類似度を算出し、この算出された類似度をマッチング処理部１０７に出力するようになっている。
【０１４１】
本実施形態では、類似度算出部１０６は、各フレーム毎の特徴量、並びに、キーワードモデルデータベース１０４およびガーベージモデルデータベース１０５に格納されるＨＭＭの特徴量に基づいて、各フレームがキーワードモデルデータベース１０４およびガーベージモデルデータベース１０５に格納されるＨＭＭを示す場合などの確率を算出するようになっている。
【０１４２】
具体的には、類似度算出部１０６は、各フレームが各キーワード構成要素ＨＭＭを示す出力確率、および、各フレームが不要語構成要素を示す出力確率を算出するとともに、任意のフレームから次のフレームへの状態遷移が各キーワード構成要素ＨＭＭから他のキーワード構成要素ＨＭＭまたは不要語構成要素への状態遷移を示す状態遷移確率、および、不要語構成要素ＨＭＭから各キーワード構成要素ＨＭＭへの状態遷移を示す状態遷移確率を算出し、これらの確率を類似度としてマッチング処理部１０７に出力するようになっている。
【０１４３】
なお、状態遷移確率には、各キーワード構成要素ＨＭＭから自己のキーワード構成要素ＨＭＭへの状態遷移を示す状態遷移確率、および、不要語構成要素ＨＭＭから自己の不要語構成要素ＨＭＭへの状態遷移を示す状態遷移確率が含まれるようになっている。
【０１４４】
本実施形態では、類似度算出部１０６は、各フレーム毎に算出された各出力確率および各状態遷移確率を各フレームの類似度としてマッチング処理部１０７に出力するようになっている。
【０１４５】
マッチング処理部１０７には、各フレーム毎の各出力確率および各遷移出力確率が入力されるようになっており、マッチング処理部１０７は、この入力された各出力確率および各遷移出力確率に基づいて各キーワードモデルＨＭＭと不要語構成要素モデルＨＭＭとの各組み合わせの類似度を示す累積類似度を算出するマッチング処理を行い、この算出された累積類似度を判定部１０８に出力するようになっている。
【０１４６】
具体的には、マッチング処理部１０７は、後述するように各キーワード毎に１の累積類似度を算出するとともに、キーワードなしの場合の累積類似度、すなわち、不要語構成要素モデルのみで累積類似度を算出するようになっている。
【０１４７】
なお、このマッチング処理部１０７で行われるマッチング処理の詳細については後述する。
【０１４８】
判定部１０８には、マッチング処理部１０７において算出された各キーワード毎の累積類似度が入力されるようになっており、入力された累積類似度の中で最も累積類似度が高いキーワードを発話音声に含まれるキーワードと判定してこのキーワードを外部に出力するようになっている。
【０１４９】
このとき、この判定部１０８は、不要語構成要素モデルのみの累積類似度も判定対象に加えてキーワードの判定を行うようになっており、この不要語構成要素モデルのみの累積類似度が最も入力された累積類似度の中で最も高い場合には、発話音声にキーワードが含まれていなかったものと判定してこの判定結果を外部に出力するようになっている。
【０１５０】
次に、本実施形態のマッチング処理部１０７で行われるマッチング処理について説明する。
【０１５１】
なお、本実施形態のマッチング処理では、ビタビアルゴリズムを用いるようになっており、このビタビアルゴリズムによってキーワードモデルおよび不要語構成要素モデルとの各組み合わせの累積類似度を算出するようになっている。
【０１５２】
このビタビアルゴリズムは、各状態になる出力確率と各状態から他の状態へ遷移する場合の遷移確率に基づいて累積類似度を算出するアルゴリズムであり、累積確率を算出した後に当該累積類似度が算出された組み合わせを出力するようになっている。
【０１５３】
なお、一般的には、各フレームの特徴量によって示される状態とＨＭＭによって示される特徴量の状態のユーグリッド距離を算出し、この累積距離を求めることによって累積類似度を算出するようになっている。
【０１５４】
具体的には、ビタビアルゴリズムは、任意の状態ｉから次の状態ｊへの遷移を示すパスに沿って計算される累積的な確率の計算を行うようになっており、この累積的な確率計算を行うことによって状態の遷移が可能な各パス、すなわち、ＨＭＭの繋がりおよび組み合わせを抽出するようになっている。
【０１５５】
本実施形態では、類似度算出部１０６において算出された各出力確率および各状態遷移確率に基づいて、入力された発話音声の最初の分割フレームから最後の分割フレームまで、順次、各フレームがキーワードモデルまたは不要語構成要素モデルの出力確率および状態遷移確率を当てはめ、キーワードモデルおよび不要語構成要素を任意の組み合わせによる最初の分割フレームから最後の分割フレームまでの累積的な確率を算出するようになっており、各キーワードモデル毎に算出された累積類似度の最も高い組み合わせを、１つずつ判定部１０８に出力するようになっている。
【０１５６】
例えば、認識すべきキーワードが「現在地」「目的地」であり、入力された発話音声が「えーっと、現在地」の場合、本実施形態のマッチング処理は、以下の処理を行うようになっている。
【０１５７】
なお、不要語が「えーっと」であるとともに、ガーベージモデルデータベース１０５にあらゆる不要語構成要素の特徴を示す１の不要語構成要素ＨＭＭが格納されるとともに、キーワードデータベースには、「現在地」「目的地」がそれぞれの音節毎のＨＭＭが格納され、マッチング処理部１０７には、既に類似度算出部１０６において算出された各出力確率および状態遷移確率が入力されているものとする。
【０１５８】
このような場合、本実施形態では、ビタビアルゴリズムによって、「現在地」のキーワードと「目的地」のキーワードそれぞれにおいて、不要語構成要素と全ての組み合わせにおける累積類似度を、出力確率および状態遷移確率に基づいて算出するようになっている。
【０１５９】
具体的には、任意の発話音声が入力された場合、「げんざいち○○○○」、「○げんざいち○○○」、「○○げんざいち○○」、「○○○げんざいち○」、「○○○○げんざいち」（○印は不要語構成要素）の各組み合わせパターンの累積類似度と、現在地のキーワードと同様に、目的地のキーワードにおいても、「もくてきち○○○○」、「○もくてきち○○○」、「○○もくてきち○○」、「○○○もくてきち○」、「○○○○もくてきち」（同様に○印は不要語構成要素）の各パターンの累積類似度を、出力確率および状態遷移確率に基づいて算出するようになっている。
【０１６０】
ビタビアルゴリズムは、１のキーワードモデル毎、この場合は、「現在地」と「目的地」毎に、発話音声の最初のフレームから順次各フレーム毎に同時に全ての組み合わせパターンの累積類似度を算出するようになっている。
【０１６１】
また、このビタビアルゴリズムは、各キーワード毎の各組み合わせの累積類似度を算出する過程において、組み合わせパターンの累積類似度の低いものは順次算出途中で、発話音声がこの組み合わせパターンではないと判断して累積類似度の計算を中止するようになっている。
【０１６２】
具体的には、最初の分割フレームには、キーワード「現在地」のキーワード構成要素ＨＭＭである「げ」のＨＭＭを示す場合と、不要語構成要素ＨＭＭを示す場合との確率である類似度の何れかが加算されるようになるが、この場合、累積類似度の高いものが次の分割フレームの累積類似度を算出するようになっている。上述の場合では、不要語構成要素ＨＭＭの類似度の方が、「げ」のＨＭＭの類似度より高くなるので、「げ」に対するその後の累積類似度、すなわち、「げんざいち○○○○」の算出処理を終了させるようになっている。
【０１６３】
この結果、このようなマッチング処理では、「現在地」および「目的地」の各キーワードにおける累積類似度が１つずつ算出されるようになっている。
【０１６４】
次に、図５を用いて本実施形態のキーワード認識処理について説明する。
【０１６５】
なお、図５は、本実施形態のキーワード認識処理の動作を示すフローチャートである。
【０１６６】
まず、図示しない操作部または制御部によってキーワード認識処理を開始するよう各部に指示が入力され、発話音声がマイクロホン１０１に入力されると（ステップＳ１１）、入力処理部１０２は、入力された音声信号から発話音声部分の音声信号を切り出すとともに（ステップＳ１２）、予め設定された時間間隔毎にフレーム分割を行い、各フレーム毎に音声信号を音声分析部１０３に出力する（ステップＳ１３）。
【０１６７】
次いで、本動作は各フレーム毎に以下の処理を行う。
【０１６８】
まず、音声分析部１０３は、入力されたフレームの音声信号の特徴量を抽出するとともに、抽出したこのフレームの特徴量を類似度算出部１０６に出力する（ステップＳ１４）。
【０１６９】
具体的には、音声分析部１０３は、各フレームの音声信号に基づいて、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡の情報、または、このパワースペクトルの対数をとって逆フーリエ変換したものケプストラムの情報を特徴量として抽出するとともに、当該特徴量をベクトル化して類似度算出部１０６に出力する。
【０１７０】
次いで、類似度算出部１０６は、入力されたフレームの特徴量とキーワードモデルデータベース１０４に格納されている各ＨＭＭモデルの特徴量とを比較するとともに、上述のように、各ＨＭＭモデル毎の当該フレームの出力確率および状態遷移確率を算出し、この出力確率および状態遷移確率をマッチング処理部１０７に出力する（ステップＳ１５）。
【０１７１】
次いで、類似度算出部１０６は、入力されたフレームの特徴量とガーベージモデルデータベース１０５に格納されている不要語構成要素モデルの特徴量とを比較するとともに、上述のように、不要語構成要素ＨＭＭモデルの当該フレームの出力確率および状態遷移確率を算出し、この出力確率および状態遷移確率をマッチング処理部１０７に出力する（ステップＳ１６）。
【０１７２】
次いで、マッチング処理部１０７は、上述したマッチング処理により、各キーワード毎の累積類似度を算出する（ステップＳ１７）。
【０１７３】
具体的には、マッチング処理部１０７は、前回までの累積類似度に入力された各キーワードＨＭＭおよび不要語構成要素ＨＭＭの各類似度を積算し、各キーワードの種別毎に最も累積類似度の高い累積類似度のみ算出する。
【０１７４】
次いで、マッチング処理部１０７は、図示しない制御部からの指示により最終の分割フレームか否か判断し（ステップＳ１８）、最終の分割のフレームと判断したときは、算出した各キーワード毎の最も高い累積類似度を判定部１０８に出力し（ステップＳ１９）、最終の分割フレームでないと判断したときは、ステップＳ１４に行く。
【０１７５】
最後に、判定部１０８は、各キーワード毎の累積類似度に基づいて、最も類似度の高い累積類似度を有するキーワードが発話音声に含まれるキーワードとして外部に出力し（ステップＳ２０）、本動作が終了する。
【０１７６】
以上により本実施形態によれば、不要語構成要素ＨＭＭを用いて累積類似度を算出することによって発話音声に含まれたキーワードを認識することができるので、従来に比べて少ないデータによって的確に不要語を識別することができ、キーワードを認識することができる。
【０１７７】
また、１の不要語構成要素ＨＭＭによって不要語を構成する複数の不要語構成要素を識別することができるので、あらゆる不要語を１の不要語構成要素ＨＭＭによって識別することができる。
【０１７８】
この結果、少ないデータによって的確に不要語を識別することができるとともに、的確に不要語を識別することができ、キーワードの抽出および認識における正確性を向上させることができる。
【０１７９】
なお、本実施形態では、不要語構成要素モデルを音節によって生成するようになっているが、勿論、音素若しくはその他の構成単位に基づいて生成するようにしてもよい。
【０１８０】
また、本実施形態では、ガーベージモデルデータベース１０５には、１の不要語構成要素のＨＭＭが格納されているが、複数の音素・音韻の種別または母音・子音毎に不要語構成要素の特徴量を示すＨＭＭを格納するようにしてもよい。
【０１８１】
この場合、類似度算出処理では、各フレーム毎の特徴量は、各不要語構成要素を構成する各不要語構成要素ＨＭＭと類似度を算出するようになっている。
【０１８２】
また、本実施形態では、上述の音声認識装置によってキーワード認識処理行うようになっているが、音声認識装置にコンピュータおよび記録媒体を備え、この記録媒体に上述のキーワード認識処理を行うプログラムを格納し、コンピュータによってキーワード認識処理プログラムを読み込むことによって上述と同様のキーワード認識処理を行うようにしてもよい。
【０１８３】
また、このキーワード認識処理プログラムを実行する音声認識装置において、記録媒体をＤＶＤやＣＤなどの記録媒体により構成するようにしてもよい。
【０１８４】
この場合、音声認識装置には、記録媒体からプログラムを読み出す読出装置を備えるようになる。
【０１８５】
〔第２実施形態〕
図６〜図８は、本発明に係る音声認識装置の第２実施形態を示す図である。
【０１８６】
本実施形態は、第１実施形態において、ガーベージモデルに格納され、複数の不要語構成要素の特徴量を結合することによって得られた１の不要語構成要素モデルである不要語構成要素ＨＭＭに代えて、ガーベージモデルに複数の不要語構成要素ＨＭＭが格納されているとともに、各不要語構成要素ＨＭＭが、複数の不要語構成要素の特徴量のデータを有する点に特徴があり、この他の構成および第１実施形態と同様であるため、同一部材には同一番号を付して説明を省略する。
【０１８７】
なお、図６は、本実施形態のＨＭＭを用いた認識ネットワークを示す音声言語モデルを示す図であり、図７は、本実施形態の不要語構成要素ＨＭＭの特徴ベクトルと出力確率を示すグラフの一例である。
【０１８８】
また、図８は、複数の不要語構成要素ＨＭＭを統合した場合の不要語構成要素ＨＭＭの出力確率を示すグラフである。
【０１８９】
さらに、本実施形態は、ガーベージモデルデータベースに２つの不要語構成要素ＨＭＭが格納されているものとして説明する。
【０１９０】
この音声言語モデル２０は、第１実施形態と同様に、キーワードはキーワードモデル２１に、不要語はガーベージモデルである各不要語構成要素モデル２２ａ、２２ｂにマッチングすることによってキーワードと不要語を識別し、この発話音声に含まれるキーワードを認識するようになっている。
【０１９１】
第１実施形態では、１の不要語構成要素ＨＭＭは、予め複数の人間が発する各音素の音声データを取得し、各音素毎に特徴量のパターンを抽出して各音素毎の特徴量のパターンに基づいて各音素の特徴量のパターンデータを学習させることによって生成されるようになっているが、本実施形態では、上述のように生成された１の不要語構成要素ＨＭＭを、複数の音素・音韻の種別または母音・子音毎によって生成し、この生成された各不要語構成要素ＨＭＭを統合して１または２以上の不要語構成要素ＨＭＭを生成するようになっている。
【０１９２】
例えば、取得した音声データに基づいて学習させることによって生成された８つの不要語構成要素ＨＭＭを２つの不要語構成要素ＨＭＭに統合する場合は、図７に示すような特徴を有することになる。
【０１９３】
具体的には、図８に示すように、図７（ａ）（ｂ）に示す各グラフを８つのＨＭＭに基づいて２つのＨＭＭに統合するようになっており、統合する際に、他のＨＭＭと特徴量ベクトルが干渉しないように構成するようになっている。
【０１９４】
したがって、本実施形態では、図８に示すように、各特徴量ベクトルを統合することにより、統合前の各不要語構成要素ＨＭＭの特徴を有することになっている。
【０１９５】
具体的には、本実施形態のＨＭＭの特徴量ベクトル（音声ベクトル）の出力確率は、式（２）に基づいて式（３）によって行うことができるようになっており、この算出された各統合前の不要語構成要素ＨＭＭにおいて算出された各出力確率に基づいて最大の値を取ることにより、統合された不要語構成要素ＨＭＭにおいて、特徴量ベクトルの出力確率を算出するようになっている。
【０１９６】
【数３】

【０１９７】
なお、最大値として算出された出力確率が示すＨＭＭを認識すべきＨＭＭ、すなわち、マッチングを取るべきＨＭＭとして類似度を算出するようになっている。
【０１９８】
これにより音声分析部１０３によって分析された各フレームの特徴量ベクトルに対する出力確率を示すグラフである。
【０１９９】
このように本実施形態では、不要語構成要素ＨＭＭを生成するようになっており、このように生成された不要語構成要素ＨＭＭをガーベージモデルデータベースに格納するようになっている。
【０２００】
したがって、本実施形態では、類似度算出部１０６によって上述のように生成された不要語構成要素ＨＭＭおよびキーワードＨＭＭおよび各フレーム毎の特徴量に基づいてフレーム分割された各フレーム毎の類似度を算出し、算出した各類似度をマッチング処理部１０７に出力するようになっている。
【０２０１】
以上により本実施形態によれば、各不要語構成要素ＨＭＭが、複数の不要語構成要素の音声成分の特徴量を有するので、第１実施形態で示される１の不要語構成要素ＨＭＭによって複数の特徴量を合成することにより生ずる識別精度の劣化を抑制することができるとともに、ガーベージモデルデータベースに格納される不要語構成要素ＨＭＭのデータ量を増やすことなく、的確に不要語を識別することができる。
【０２０２】
なお、本実施形態では、不要語構成要素モデルを音節によって生成するようになっているが、勿論、音素若しくはその他の構成単位に基づいて生成するようにしてもよい。
【０２０３】
また、本実施形態では、ガーベージモデルデータベース１０５には、１の不要語構成要素のＨＭＭが格納されているが、複数の音素・音韻の種別または母音・子音毎に不要語構成要素の特徴量を示すＨＭＭを格納するようにしてもよい。
【０２０４】
この場合、類似度算出処理では、各フレーム毎の特徴量は、各不要語構成要素を構成する各不要語構成要素ＨＭＭと類似度を算出するようになっている。
【０２０５】
また、本実施形態では、上述の音声認識装置によってキーワード認識処理行うようになっているが、音声認識装置にコンピュータおよび記録媒体を備え、この記録媒体に上述のキーワード認識処理を行うプログラムを格納し、コンピュータによってキーワード認識処理プログラムを読み込むことによって上述と同様のキーワード認識処理を行うようにしてもよい。
【０２０６】
また、このキーワード認識処理プログラムを実行する音声認識装置において、記録媒体をＤＶＤやＣＤなどの記録媒体により構成するようにしてもよい。
【０２０７】
この場合、音声認識装置には、記録媒体からプログラムを読み出す読出装置を備えるようになる。
【０２０８】
【発明の効果】
以上説明したように、本発明によれば、不要語を識別する際に、複数の不要語構成要素特徴量データを統合した統合データに基づいて当該不要語を識別することにより、少ないデータによって的確に不要語を識別することができるので、予め不要語を認識するためのデータ量を増やすことなく、識別することが可能な不要語を増加させることができ、キーワードの抽出および認識の正確性を向上させることができる。
しかも、格納される１の統合データによって当該不要語の複数の不要語構成要素を識別することができるとともに、複数の特徴量を合成することにより生ずる不要語の識別精度の劣化を抑制することができるので、少ないデータによって的確に不要語を識別することができる。
【図面の簡単な説明】
【図１】本発明に係る音声認識装置の第１実施形態を示す図であり、ＨＭＭを用いた音声言語モデルを示す図である。
【図２】任意のＨＭＭによって任意の発話音声の認識を行う場合の音声言語モデルである。
【図３】任意の不要語およびキーワードの組み合わせにおいて、不要語ＨＭＭと不要語構成要素ＨＭＭとの累積類似度を示すグラフである。
【図４】本発明に係る音声認識装置の第１実施形態および第２実施形態の構成を示す図である。
【図５】第１実施形態のキーワード認識処理の動作を示すフローチャートである。
【図６】本発明に係る音声認識装置の第２実施形態を示す図であり、ＨＭＭを用いた音声言語モデルを示す図である。
【図７】第２実施形態の不要語構成要素ＨＭＭの特徴ベクトルと出力確率を示すグラフの一例である。
【図８】第２実施形態の複数の不要語構成要素ＨＭＭを統合した不要語構成要素ＨＭＭの出力確率を示すグラフである。
【符号の説明】
１０、２０ … 音声言語モデル
１１、２１ … キーワードモデル
１２、２２ … ガーベージモデル
１００ … 音声認識装置
１０１ … マイクロホン
１０２ … 入力処理部
１０３ … 音声分析部（抽出手段）
１０４ … キーワードモデルデータベース
１０５ … ガーベージモデルデータベース（格納手段）
１０６ … 類似度算出部（認識手段、算出手段、取得手段）
１０７ … マッチング処理部（認識手段、算出手段）
１０８ … 判定部（認識手段、識別手段）

Claims

発話された発話音声に含まれるキーワードを認識する音声認識装置であって、
前記発話音声を分析することによって当該発話音声の音声成分の特徴量である発話音声特徴量を抽出する抽出手段と、
前記発話音声特徴量に基づいて前記発話音声に含まれる前記キーワードを構成しない不要語または前記キーワードの少なくとも何れか一方を識別し、前記キーワードを認識する認識手段と、
前記不要語の構成要素である不要語構成要素の音声成分の特徴量を夫々示す複数の不要語構成要素特徴量データであって、当該特徴量が互いに干渉しない複数の不要語構成要素特徴量データを統合した統合データが予め格納されている格納手段と、
を備え、
前記認識手段が、前記発話音声に含まれる不要語を識別するときに、前記格納されている統合データに統合されている各前記不要語構成要素特徴量データ毎に、前記抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記格納手段には、複数の前記統合データが予め格納されていることを特徴とする音声認識装置。
請求項１または請求項２に記載の音声認識装置において、
前記格納手段に予め格納されている前記統合データに統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが、複数の前記不要語構成要素の音声成分の特徴量の特性を有するデータであることを特徴とする音声認識装置。
請求項３に記載の音声認識装置において、
前記格納手段に予め格納されている前記統合データに統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが、複数の前記不要語構成要素の特徴量を結合することによって得られた１の前記音声成分の特徴量を示すデータであることを特徴とする音声認識装置。
請求項１乃至４の何れか一項に記載の音声認識装置において、
前記格納手段に予め格納されている前記統合データに統合されている各前記不要語構成要素特徴量データが、夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示すデータであることを特徴とする音声認識装置。
請求項１乃至５の何れか一項に記載の音声認識装置において、
前記格納手段に予め格納されている前記統合データに統合されている各前記不要語構成要素特徴量データが、夫々音素または音節の少なくとも何れか一方の特徴量を示すデータであることを特徴とする音声認識装置。
請求項１乃至６の何れか一項に記載の音声認識装置において、
１または２以上の前記キーワードの音声成分の特徴量を示すキーワード特徴量データを予め取得するキーワード特徴量データ取得手段を有するとともに、
前記認識手段が、
前記格納手段に格納されている前記統合データおよび前記取得したキーワード特徴量データに基づいて前記抽出した発話音声の少なくとも一部の特徴量と前記キーワードおよび不要語構成要素の特徴量とが類似する割合を示す類似度を算出する算出手段と、
当該算出した類似度に基づいて前記発話音声に含まれる前記キーワードまたは前記不要語の少なくとも何れか一方を識別する識別手段と、
を有することを特徴とする音声認識装置。
発話された発話音声に含まれるキーワードを認識する音声認識方法であって、
前記発話音声を分析することによって当該発話音声の音声成分の特徴量である発話音声特徴量を抽出する抽出処理工程と、
前記発話音声に含まれる前記キーワードを構成しない不要語の構成要素である不要語構成要素の音声成分の特徴量を夫々示す複数の不要語構成要素特徴量データであって、当該特徴量が互いに干渉しない複数の不要語構成要素特徴量データを統合した統合データを、予め格納されている格納手段から取得する取得処理工程と、
前記抽出した発話音声特徴量と、前記取得した統合データと、に基づいて、前記発話音声に含まれる前記不要語または前記キーワードの少なくとも何れか一方を識別して当該キーワードの認識を行う識別処理工程と、を含み、
前記識別処理工程において前記発話音声に含まれる前記不要語を識別するときには、前記取得した統合データに統合されている各前記不要語構成要素特徴量データ毎に、前記抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別することを特徴とする音声認識方法。
請求項８に記載の音声認識方法において、
前記取得処理工程においては、複数の前記統合データを、予め格納されている前記格納手段から取得することを特徴とする音声認識方法。
請求項８または請求項９に記載の音声認識方法において、
前記取得処理工程においては、統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の音声成分の特徴量の特性を有する前記統合データを、予め格納されている前記格納手段から取得することを特徴とする音声認識方法。
請求項１０に記載の音声認識方法において、
前記取得処理工程においては、統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の特徴量を結合することによって得られた１の前記音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得することを特徴とする音声認識方法。
請求項８乃至１１の何れか一項に記載の音声認識方法において、
前記取得処理工程においては、統合されている各前記不要語構成要素特徴量データが夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得することを特徴とする音声認識方法。
請求項８乃至１２の何れか一項に記載の音声認識方法において、
前記取得処理工程においては、統合されている各前記不要語構成要素特徴量データが夫々音素または音節の少なくとも何れか一方の特徴量を示すデータを示す前記統合データを、予め格納されている前記格納手段から取得することを特徴とする音声認識方法。
請求項８乃至１３の何れか一項に記載の音声認識方法において、
前記取得処理工程においては、１または２以上の前記キーワードの音声成分の特徴量を示すキーワード特徴量データを予め取得するとともに、
前記認識処理工程においては、
前記取得処理工程によって取得した前記統合データおよび前記キーワード特徴量データに基づいて、前記抽出した発話音声の少なくとも一部の特徴量と前記キーワードおよび前記不要語構成要素の特徴量とが類似する割合を示す類似度を算出する算出処理工程と、
前記算出した類似度に基づいて前記発話音声に含まれる前記キーワードまたは前記不要語の少なくとも何れか一方を識別する識別処理工程と、
を含むことを特徴とする音声認識方法。
コンピュータによって、発話された発話音声に含まれるキーワードを認識する音声認識処理を行う音声認識処理プログラムであって、
前記コンピュータを、
前記発話音声を分析することによって当該発話音声の音声成分の特徴量である発話音声特徴量を抽出する抽出手段、
前記発話音声に含まれる前記キーワードを構成しない不要語の構成要素である不要語構成要素の音声成分の特徴量を夫々示す複数の不要語構成要素特徴量データであって、当該特徴量が互いに干渉しない複数の不要語構成要素特徴量データを統合した統合データを、予め格納されている格納手段から取得する取得手段、
前記抽出した発話音声特徴量と前記取得した統合データとに基づいて、前記発話音声に含まれる前記不要語または前記キーワードの少なくとも何れか一方を識別して当該キーワードの認識を行う認識手段、として機能させ、
前記認識手段としての前記コンピュータを、
前記発話音声に含まれる前記不要語を識別するときには、前記取得した統合データに統合されている各前記不要語構成要素特徴量データ毎に、前記抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別するように機能させることを特徴とする音声認識処理プログラム。
コンピュータによって、請求項１５に記載の音声認識を行う音声認識処理プログラムにおいて、
前記取得手段としての前記コンピュータを、
複数の前記統合データを、予め格納されている前記格納手段から取得するように機能させることを特徴とする音声認識処理プログラム。
コンピュータによって、請求項１５または請求項１６に記載の音声認識を行う音声認識処理プログラムにおいて、
前記取得手段としての前記コンピュータを、
統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の音声成分の特徴量の特性を有する前記統合データを、予め格納されている前記格納手段から取得するように機能させることを特徴とする音声認識処理プログラム。
コンピュータによって、請求項１７に記載の音声認識を行う音声認識処理プログラムにおいて、
前記取得手段としての前記コンピュータを、
統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の特徴量を結合することによって得られた１の前記音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得するように機能させることを特徴とする音声認識処理プログラム。
コンピュータによって、請求項１５乃至１８の何れか一項に記載の音声認識を行う音声認識処理プログラムにおいて、
前記取得手段としての前記コンピュータを、
統合されている各前記不要語構成要素特徴量データが夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得するように機能させることを特徴とする音声認識処理プログラム。
コンピュータによって、請求項１５乃至１９の何れか一項に記載の音声認識を行う音声認識処理プログラムにおいて、
前記取得手段としての前記コンピュータを、
統合されている各前記不要語構成要素特徴量データが夫々音素または音節の少なくとも何れか一方の特徴量を示すデータを示す前記統合データを、予め格納されている前記格納手段から取得するように機能させることを特徴とする音声認識処理プログラム。
コンピュータによって、請求項１５乃至２０の何れか一項に記載の音声認識を行う音声認識処理プログラムにおいて、
前記取得手段としての前記コンピュータを、
１または２以上の前記キーワードの音声成分の特徴量を示すキーワード特徴量データを予め取得するように機能させ、
前記認識手段としての前記コンピュータを、
前記取得した統合データおよび前記キーワード特徴量データに基づいて、前記抽出した発話音声の少なくとも一部の特徴量と前記キーワードおよび前記不要語構成要素の特徴量とが類似する割合を示す類似度を算出する算出手段、
当該算出した類似度に基づいて前記発話音声に含まれる前記キーワードまたは前記不要語の少なくとも何れか一方を識別する識別手段、
として機能させることを特徴とする音声認識処理プログラム。