JP2016177045A

JP2016177045A - 音声認識装置および音声認識プログラム

Info

Publication number: JP2016177045A
Application number: JP2015055976A
Authority: JP
Inventors: 満次吉田; Mitsuji Yoshida; 荒金　康人; Yasuto Arakane; 康人荒金
Original assignee: RayTron Inc
Current assignee: RayTron Inc
Priority date: 2015-03-19
Filing date: 2015-03-19
Publication date: 2016-10-06
Anticipated expiration: 2035-03-19
Also published as: US20160275944A1; JP6481939B2

Abstract

【課題】構文分析を行わなくても、事前登録単語と追加登録単語とが連続的に発話された音声を認識すること。
【解決手段】連続的に発話されたフレーズ群の音声を入力する音声入力手段（１０１）と、フレーズ群に含まれる事前登録単語を推定する第１の推定手段（１０４）と、追加登録単語の特徴量列についてのパターンデータと入力された音声の特徴量とに基づいて、フレーズ群に含まれる追加登録単語を推定する第２の推定手段（１０６）とを備える。第１の推定手段（１０４）は、複数の事前登録単語それぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって、事前登録単語候補を抽出し、事前登録単語候補の音声区間を切り出す切出し手段（２１１）と、モデルパラメータを用いた認識処理によって、切出し手段により切り出された音声区間内の特徴量に基づき事前登録単語を推定する認識処理手段（２１２）とを含む。
【選択図】図２

Description

本発明は、音声認識装置および音声認識プログラムに関し、特に、孤立単語認識方式により音声認識を行う音声認識装置および音声認識プログラムに関する。

一般的に、不特定話者対応の音声認識アルゴリズムと、単語の追加登録に対応した音声認識アルゴリズムとは異なっている。そのため、不特定話者対応の事前登録単語に加え、ユーザが自由に認識対象の単語を追加登録できるようにした音声認識装置においても、事前登録単語と追加登録単語とをそれぞれ異なるアルゴリズムによって認識可能とする技術が提案されている。

たとえば特許第３４７９６９１号公報（特許文献１）では、話者依存型認識器がＤＴＷ（Dynamic Time Warping）法に基づいて動作し、話者独立型認識器がＨＭＭ（Hidden Markov Model）法に基づいて動作することが開示されている。この場合、後処理装置において、双方の認識器のある所定の認識確率を伴う後処理、すなわち構文分析が行われる。

特許第３４７９６９１号公報

事前登録単語と追加登録単語との双方を認識可能な音声認識装置において、事前登録単語と追加登録単語とが一語ずつ区切って発話された音声を認識することは可能である。しかしながら、事前登録単語と追加登録単語とが連続的に織り交ぜて発話された場合、単語間に明確な区切りがないため、誤認識してしまう可能性が高い。そのため、事前登録単語と追加登録単語とが連続的に発話された音声を適切に認識するためには、上記特許文献１に示されるように、構文分析等が必須とされる。

本発明は、上記のような課題を解決するためになされたものであって、その目的は、構文分析を行わなくても、事前登録単語と追加登録単語とが連続的に発話された音声を認識することのできる音声認識装置および音声認識プログラムを提供することである。

この発明のある局面に従う音声認識装置は、複数の事前登録単語のモデルパラメータと、ユーザによる追加登録単語の特徴量列についてのパターンデータとを記憶する記憶手段と、事前登録単語と追加登録単語とが連続的に発話されたフレーズ群の音声を入力する音声入力手段と、記憶手段に記憶されたモデルパラメータと、音声入力手段に入力された音声の特徴量とに基づいて、フレーズ群に含まれる事前登録単語を推定する第１の推定手段と、記憶手段に記憶されたパターンデータと、音声入力手段に入力された音声の特徴量とに基づいて、フレーズ群に含まれる追加登録単語を推定する第２の推定手段とを備える。上記第１の推定手段は、切出し手段と、認識処理手段とを含む。切出し手段は、複数の事前登録単語それぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって、事前登録単語候補を抽出し、抽出された事前登録単語候補の音声区間を切り出す。認識処理手段は、モデルパラメータを用いた認識処理によって、切出し手段により切り出された音声区間内の特徴量に基づき事前登録単語を推定する。

好ましくは、音声認識装置は、第１の推定手段または第２の推定手段により単語が推定された場合に、推定された単語を認識結果として受理するか否かの受理判定を行う受理判定手段と、受理判定手段により受理された単語を出力する出力手段と、受理判定手段により受理された単語の音声区間を認識対象区間から削除することによって、認識対象区間を更新する更新手段とをさらに備える。

また、認識対象区間の音声に対し、先に、第１の推定手段による事前登録単語の推定処理を実行し、第１の推定手段の推定結果が受理判定手段により棄却された場合に、第２の推定手段による追加登録単語の推定処理を実行することが望ましい。

好ましくは、切出し手段で用いられるテンプレート特徴量列は、モデルパラメータから復元された特徴量列である。

この場合、音声認識装置は、記憶手段に記憶されたモデルパラメータから、複数の事前登録単語それぞれの特徴パターンを算出し、テンプレート特徴量列を復元する復元手段をさらに備えていてもよい。

好ましくは、切出し手段は、モデルパラメータに含まれるばらつき情報に基づいて重み付けを行って、事前登録単語候補を抽出する。

好ましくは、第２の推定手段も、切出し手段と、認識処理手段とを含む。この切出し手段は、認識対象区間内の音声の特徴量列に、パターンデータに応じた特徴量列を照合させることによって、追加登録単語候補を抽出し、抽出された追加登録単語候補の音声区間を切り出す。この認識処理手段は、切り出された追加登録単語候補の音声区間内の特徴量列を、パターンデータに応じた特徴量列に照合させることによって、追加登録単語の認識処理を行う。

あるいは、第２の推定手段は、認識対象区間内の音声の特徴量列に、パターンデータに応じた特徴量列を照合させることによって、追加登録単語を推定してもよい。

この発明のある局面に従う音声認識プログラムは、複数の事前登録単語のモデルパラメータと、ユーザによる追加登録単語の特徴量列についてのパターンデータとを記憶する記憶部を備えたコンピュータにおいて実行されるプログラムである。音声認識プログラムは、事前登録単語と追加登録単語とが連続的に発話されたフレーズ群の音声を入力するステップと、記憶部に記憶されたモデルパラメータと、入力された音声の特徴量とに基づいて、フレーズ群に含まれる事前登録単語を推定する第１の推定ステップと、記憶部に記憶されたパターンデータと、入力された音声の特徴量とに基づいて、フレーズ群に含まれる追加登録単語を推定する第２の推定ステップとを備える。第１の推定ステップは、複数の事前登録単語それぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって、事前登録単語候補を抽出し、抽出された事前登録単語候補の音声区間を切り出すステップと、モデルパラメータを用いた認識処理によって、切り出された音声区間内の特徴量に基づき事前登録単語を推定するステップとを含む。

本発明によれば、構文分析を行わなくても、事前登録単語と追加登録単語とが連続的に発話された音声を認識することができる。

本発明の実施の形態に係る音声認識装置のハードウェア構成例を示すブロック図である。本発明の実施の形態に係る音声認識装置の機能構成を示す機能ブロック図である。本発明の実施の形態において、追加登録単語の認識処理での最小累積距離の計算例を示す図である。本発明の実施の形態において、追加登録単語候補または事前登録単語候補の抽出処理での最小累積距離の計算例を示す図である。本発明の実施の形態において、ＨＭＭフレーズのモデルパラメータから復元されるテンプレート特徴量列の時間変化を示す図である。本発明の実施の形態において、あるＨＭＭフレーズについての複数の教師音声の特徴量列と、復元された特徴量列（特徴パターン）との関係を示すグラフである。本発明の実施の形態における音声認識処理を示すフローチャートである。本発明の実施の形態における連続的音声認識処理を示すフローチャートである。本発明の実施の形態において、単語候補の抽出に用いられる計算式を説明するための図である。実験で用いられた音声波形と認識対象区間との関係を示すグラフである。実験で用いられた音声波形と認識対象区間との関係を示すグラフである。実験で用いられた音声波形と認識対象区間との関係を示すグラフである。実験で用いられた音声波形と認識対象区間との関係を示すグラフである。

本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。

＜概要について＞
本実施の形態に係る音声認識装置は、孤立単語認識方式を採用し、音声信号を分析することで、複数の登録単語から、音声信号が表わす単語を推定して出力する。認識対象の登録単語としては、不特定話者対応の事前登録単語と、特定話者対応の追加登録単語との双方を含む。一般的に、事前登録単語の認識には、各単語のモデルパラメータが用いられ、追加登録単語の認識には、各単語の特徴量列（特徴量ベクトル列）についてのパターンデータが用いられる。

本実施の形態に係る音声認識装置は、事前登録単語と追加登録単語とを異なるアルゴリズムで認識する機能を備えつつ、事前登録単語と追加登録単語とが織り交ぜて連続的に発話された音声（以下「連続的音声」という）の認識を可能としている。

なお、本実施の形態では、事前登録単語の認識はＨＭＭ法に基づいて行われ、追加登録単語の認識はＤＴＷアルゴリズムに基づいて行われる。そのため、後の説明においては、「事前登録単語」を「ＨＭＭフレーズ」、「追加登録単語」を「ＤＴＷフレーズ」と記している。

以下に、このような音声認識装置の構成および動作について、詳細に説明する。

＜構成について＞
（ハードウェア構成）
本実施の形態に係る音声認識装置は、たとえばＰＣ（Personal Computer）などの汎用コンピュータによって実現可能である。

図１は、本発明の実施の形態に係る音声認識装置１のハードウェア構成例を示すブロック図である。図１を参照して、音声認識装置１は、各種演算処理を行うためのＣＰＵ（Central Processing Unit）１１と、各種データおよびプログラムを格納するＲＯＭ（Read Only Memory）１２と、作業データ等を記憶するＲＡＭ（Random Access Memory）１３と、不揮発性の記憶装置、たとえばハードディスク１４と、キーボードなどを含む操作部１５と、各種情報を表示するための表示部１６と、記録媒体１７ａからのデータやプログラムを読み出しおよび書き込み可能なドライブ装置１７と、ネットワーク通信するための通信Ｉ／Ｆ（インターフェイス）１８と、マイクロフォン２０から音声信号を入力するための入力部１９とを備える。記録媒体１７ａは、たとえば、ＣＤ−ＲＯＭ（Compact Disc-ROM）や、メモリカードなどであってよい。

（機能構成）
図２は、本発明の実施の形態に係る音声認識装置１の機能構成を示す機能ブロック図である。図２を参照して、音声認識装置１は、その主な機能構成として、音声入力部１０１と、抽出部１０２と、設定・更新部１０３と、ＨＭＭフレーズ推定部（第１の推定部）１０４と、ＤＴＷフレーズ推定部（第２の推定部）１０６と、受理判定部１０５，１０７と、結果出力部１０８とを含む。

音声入力部１０１は、ＨＭＭフレーズとＤＴＷフレーズとが連続的に発話されたフレーズ群の音声、すなわち連続的音声を入力する。抽出部１０２は、入力された音声を分析し、音声の特徴量を抽出する。具体的には、音声信号を所定の時間長のフレーム単位で切出し、フレーム単位で音声信号を分析することで特徴量を算出する。たとえば、切出された音声信号が、ＭＦＣＣ（Mel-frequency cepstral coefficient）特徴量に変換される。

設定・更新部１０３は、音声の検出区間のなかから、ＨＭＭフレーズ推定部１０４およびＤＴＷフレーズ推定部１０６におけるフレーズの推定対象の区間（以下「認識対象区間」という）の設定および更新を行う。

ＨＭＭフレーズ推定部１０４は、ＨＭＭ記憶部２０１に記憶されたモデルパラメータと、抽出部１０２で抽出された音声の特徴量とに基づいて、フレーズ群に含まれるＨＭＭフレーズを推定する。ＤＴＷフレーズ推定部１０６は、パターン記憶部３０１に記憶されたパターンデータと、抽出部１０２で抽出された音声の特徴量とに基づいて、フレーズ群に含まれるＤＴＷフレーズを推定する。

受理判定部１０５は、ＨＭＭフレーズ推定部１０４により推定されたＨＭＭフレーズを認識結果として受理するか否かの受理判定を行う。同様に、受理判定部１０７は、ＤＴＷフレーズ推定部１０６により推定されたＤＴＷフレーズを認識結果として受理するか否かの受理判定を行う。

結果出力部１０８は、受理判定部１０５，１０７により受理された単語を認識結果として確定し、出力する。具体的には、結果出力部１０８は、たとえば表示部１６に出力する。

ここで、ＨＭＭフレーズ推定部１０４は、公知のＨＭＭ法に従ってフレーズ認識を行う認識処理部２１２だけでなく、切出し部２１１を含んでいる。同様に、ＤＴＷフレーズ推定部１０６も、公知のＤＴＷアルゴリズムに従ってフレーズ認識を行う認識処理部３１２だけでなく、切出し部３１１を含んでいる。

ＨＭＭフレーズ推定部１０４の切出し部２１１は、認識対象区間から、ＨＭＭフレーズが存在する可能性の高い音声区間を切り出す処理を実行する。すなわち、切出し部２１１は、認識対象区間から、ＨＭＭフレーズ候補の抽出処理を行い、抽出されたＨＭＭフレーズ候補の音声区間を切り出す。具体的には、ＨＭＭフレーズ候補の抽出処理は、複数のＨＭＭフレーズそれぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって行われる。切出し部２１１で用いられるテンプレート特徴量列については、後述する。これにより、認識処理部２１２では、切出された音声区間内の特徴量から、ＨＭＭフレーズを推定することができる。

ＤＴＷフレーズ推定部１０６の切出し部３１１は、ＨＭＭフレーズ推定部１０４の切出し部２１１と同様に、認識対象区間から、ＤＴＷフレーズが存在する可能性の高い音声区間を切り出す処理を実行する。すなわち、切出し部３１１は、認識対象区間から、ＤＴＷフレーズ候補の抽出処理を行い、抽出されたＤＴＷフレーズ候補の音声区間を切り出す。具体的には、ＤＴＷフレーズ候補の抽出処理は、複数のＤＴＷフレーズそれぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって行われる。ここでのテンプレート特徴量列のパターンデータは、認識処理部３１２において用いられるデータであり、フレーズの追加登録時に、パターン記憶部３０１に記憶されている。これにより、認識処理部３１２では、切出された音声区間内の特徴量から、ＤＴＷフレーズを推定することができる。

ここで、切出し部２１１，３１１において実行されるフレーズ（候補）抽出処理について説明する。フレーズ抽出処理の理解を深めるために、まず、図３を参照しながら、ＤＴＷアルゴリズムに従ったＤＴＷフレーズ認識処理について簡単に説明する。図３では、入力フレーズの特徴量列が横軸に示され、あるＤＴＷフレーズ（追加登録単語）の特徴量列が縦軸に示されている。たとえば、入力フレーズの特徴量列が３，５，６，４，２，５であり、あるＤＴＷフレーズの特徴量列が５，６，３，１，５であると仮定する。

ＤＴＷ認識処理では、入力フレーズの特徴量列を、ＤＴＷフレーズのテンプレート特徴量列に照合させて、両者の類似度を示す最小累積距離を算出する。ＤＴＷ認識処理において算出される最小累積距離については、以下「ＤＴＷ距離」という。この場合、両フレーズの始端と終端とを合わせ、たとえば、最大傾き「２」、最小傾き「１／２」とし、一点鎖線で示す平行四辺形内でＤＴＷ距離を計算する。この場合、ＤＴＷ距離は「５」となっている。ＤＴＷフレーズ認識においては、各登録フレーズについて上記のような計算を行い、ＤＴＷ距離が最も小さい登録フレーズが認識結果とされる。

これに対し、切出し部２１１，３１１において実行されるフレーズ抽出処理においては、ＤＴＷ認識処理とは逆に、入力フレーズの特徴量列に、登録フレーズのテンプレート特徴量列を照合させて、両者の類似度を示す最小累積距離を算出する。このように、照合先と照合元とを認識処理と逆にしているのは、連続的に発話されたフレーズ群の入力音声全体から、入力音声のどの部分に登録フレーズが存在するか分からないためである。

図４には、フレーズ抽出処理における最小累積距離の計算例が示されている。図４においても、図３と同様に、たとえば、入力フレーズの特徴量列が３，５，６，４，２，５であり、登録フレーズの特徴量列が５，６，３，１，５である場合の計算例が示されている。この場合、両フレーズの始端だけを合わせ、たとえば、最大傾き「２」、最小傾き「１／２」とし、一点鎖線で示すＶ字内で最小累積距離を計算する。この場合、登録フレーズの最終フレームで複数の累積距離が算出されるが、これらの累積距離（１１，７，７，４）のうちの最小の累積距離（４）が、両フレーズの特徴量列の最小累積距離となる。ただし、登録フレーズのフレーム長が異なるため、計算された最小累積距離を登録フレーズのフレーム数で割った数値を、両フレーズの類似度として求めることが望ましい。

なお、図３および図４の距離計算例では、理解を容易にするために、特徴量の次元を１次元とし、かつ、極めて少ないフレーム数のフレーズを例にしたが、通常の入力音声で距離計算をする場合には、登録フレーズの始端と入力音声の始端付近とを合わせればよい。

ところで、ＤＴＷフレーズの抽出処理は、パターン記憶部３０１に記憶されたフレーズ認識用のパターンデータを用いることで簡単に実現可能であるが、ＨＭＭフレーズの抽出処理は、フレーズ認識にパターンデータが用いられないため、上記のような距離計算を可能とするためには、別途テンプレート特徴量列を準備しなければならない。

そこで、本実施の形態では、ＨＭＭ記憶部２０１に記憶されたモデルパラメータから、各ＨＭＭフレーズのテンプレート特徴量列を復元することとしている。すなわち、音声認識装置１は、その機能として復元部１０９をさらに備えている。

復元部１０９は、ＨＭＭ記憶部２０１に記憶されたモデルパラメータから、複数のＨＭＭフレーズそれぞれの特徴パターンを算出し、テンプレート特徴量列を復元する。ＨＭＭ記憶部２０１には、ＨＭＭフレーズごとに、状態遷移確率、出力確率分布、初期状態確率などのパラメータが予め記憶されている。復元部１０９は、これらのパラメータを用いて、各ＨＭＭフレーズのテンプレート特徴量列を復元する。この具体的な方法について、以下に説明する。

状態ｋから状態ｌへの状態遷移確率が「ａ_ｋｌ」、状態ｋの特徴量「ｙ」の出力確率分布が「ｂ_ｋ（ｙ）」のＨＭＭフレーズから、テンプレート特徴量列を生成すると仮定する。なお、ここでは、状態数ＮのスキップなしＬＲ型ＨＭＭで、状態ｋにおける特徴量の出力確率分布が、平均ベクトル「μ_ｋ」、共分散行列「Σ_ｋ」の多次元正規分布である場合について述べる。

状態ｋから出力される特徴量の平均値は平均ベクトル「μ_ｋ」である。そして、状態ｋから特徴量が出力される平均フレーム数は「１／（１−ａ_ｋｋ）」であるため、状態ｋから状態（ｋ＋１）に遷移する時刻の平均値「ｔ_ｋ」は、次の式（１）で表される。

これにより、本実施の形態では、図５で示すような変化をするテンプレート特徴量列を生成する。この場合、テンプレート特徴量列は、以下の式（２）で表される。なお、状態Ｎから最後に特徴量が出力される時刻の平均値「ｔ_Ｎ」は、ＨＭＭの教師音声の特徴量列の平均フレーム長からも求めることができる。

図６のグラフには、あるＨＭＭフレーズについての複数の教師音声の特徴量列と、復元された特徴量列（特徴パターン）との関係が示されている。

復元部１０９は、上記のような計算によって、ＨＭＭフレーズごとに、テンプレート特徴量列を復元する。なお、復元部１０９は、切出し部２１１においてＨＭＭフレーズ抽出処理が行われるたびに作動して復元処理を行ってもよいが、そうすると、認識速度が低下する。そのため、復元部１０９は、たとえば初期設定時など、ユーザからの所定の指示が入力された場合にのみ作動し、算出された特徴パターンに応じたパターンデータを、パターン記憶部２０２に記憶しておくことが望ましい。あるいは、音声認識装置１の製造または出荷時に、ＨＭＭから復元されたパターンデータを、予めパターン記憶部２０２に記憶しておいてもよい。この場合、音声認識装置１は復元部１０９を有していなくてもよい。

なお、図２に示した各記憶部２０１，２０２，３０１は、たとえばハードディスク１４に含まれる。音声入力部１０１は、たとえば入力部１９により実現される。それ以外の機能部は、ＣＰＵ１１が、たとえばＲＯＭ１２に格納されたソフトウェアを実行することで実現される。なお、これらの機能部のうちの少なくとも１つは、ハードウェアにより実現されてもよい。

＜動作について＞
図７は、本発明の実施の形態における音声認識処理を示すフローチャートである。図７のフローチャートに示す処理手順は、予めプログラムとしてＲＯＭ１２に格納されており、ＣＰＵ１１が当該プログラムを読み出して実行することにより音声認識処理の機能が実現される。

図７を参照して、音声入力部１０１に音声が入力されると（ステップＳ（以下「Ｓ」と略す）２）、音声信号のエネルギー等に基づき音声が検出される（Ｓ４）。検出された音声には、連続的に発話されたＨＭＭフレーズとＤＴＷフレーズとが含まれているものとする。

音声が検出されると、その区間内の音声に対し、連続的音声認識処理が実行される（Ｓ６）。なお、検出した音声区間の前後に、検出し損ねたエネルギーの小さい音声が存在する可能性を考慮し、音声区間を前後に数百ミリ秒程度ずつ拡大しておくことが望ましい。

図８は、本実施の形態における連続的音声認識処理を示すフローチャートである。図８を参照して、抽出部１０２は、検出音声を長さ２０ミリ秒程度のフレームに区切って分析し、ＭＦＣＣ等の特徴量を抽出する（Ｓ１２）。抽出部１０２は、フレームを１０ミリ秒程度ずつずらして分析することを繰り返す。これにより、検出音声（入力音声）の特徴量列が得られる。

設定・更新部１０３は、図７のＳ４で検出された音声区間全体を、認識対象区間として設定する（Ｓ１４）。

認識対象区間が設定されると、まず、ＨＭＭフレーズ推定部１０４の切出し部２１１が、ＨＭＭフレーズの抽出処理を実行する（Ｓ１６）。すなわち、パターン記憶部２０２に記憶された各ＨＭＭフレーズのテンプレート特徴量列を、検出音声の特徴量列に照合させて、ＨＭＭフレーズ候補を抽出する。ここでは、認識対象区間の始端付近にＨＭＭフレーズが存在すると仮定して、ＤＴＷアルゴリズムに準拠したフレーズ抽出処理を行う。

具体的には、図４に示したような計算方法によりＨＭＭフレーズごとに最小累積距離を算出し、算出された最小累積距離をそのフレーム数で除算することで、１フレーム当たりの最小累積距離を求める。１フレーム当たりの最小累積距離が最小になるＨＭＭフレーズをＨＭＭフレーズ候補とする。このような処理は、所定の計算式により行うことができる。切出し部２１１は、抽出されたＨＭＭフレーズ候補の音声区間を、ＨＭＭフレーズが存在する可能性が最も高い区間として切出す。

なお、ＨＭＭ記憶部２０１には、平均ベクトルだけではなく、平均ベクトルからのばらつきの情報、つまり、共分散行列も記憶されている。したがって、ＨＭＭフレーズ抽出においては、２つの特徴量列の照合における類似性の距離尺度として、以下の式（３）で示すマハラノビス距離を適用することができる。

マハラノビス距離は、平均ベクトルからのばらつきの程度に応じて距離の重み付けがなされる。そのため、ユークリッド距離による類似度の計算よりも、ＨＭＭフレーズ候補の抽出精度を向上させることができる。

次に、ＨＭＭフレーズ推定部１０４の認識処理部２１２が、ＨＭＭ記憶部２０１に記憶されたモデルパラメータを用いて、ＨＭＭフレーズの認識処理を実行する（Ｓ１８）。具体的には、認識処理部２１２は、切出し部２１１において切出された音声区間内の特徴量に基づいて、ＨＭＭフレーズを推定する。すなわち、ＨＭＭフレーズ抽出処理の結果である特徴量列を、ＨＭＭ法により認識する。

このように、Ｓ１６でのＨＭＭフレーズ抽出の結果をそのまま認識結果とせず、不特定話者の音声認識に適したＨＭＭ法により認識処理を行うことで、認識精度を高めることができる。

続いて、受理判定部１０５は、Ｓ１８での認識結果の受理判定を行う（Ｓ２０）。すなわち、認識処理部２１２において推定されたＨＭＭフレーズを認識結果として受理するか、棄却するかの判定を行う。簡易な棄却アルゴリズムでは、１位のＨＭＭフレーズの尤度値が或る閾値以上であり、かつ、１位と２位の尤度比が別の或る閾値以上であれば受理し、さもなければ、棄却する。これらの閾値は、事前登録音声から予め求められ、記憶されているものとする。

推定されたＨＭＭフレーズが認識結果として受理されると（Ｓ２０にて「受理」）、結果出力部１０８は、受理されたＨＭＭフレーズを認識結果として出力する（Ｓ２２）。

抽出されたＨＭＭフレーズ候補と受理したＨＭＭフレーズとが異なる場合には、切出し部２１１による音声区間の切出しと同様に、受理されたＨＭＭフレーズが存在する区間を検出しなおす（Ｓ２４）。この処理が終わると、Ｓ３８へ進む。

Ｓ２０において、推定されたＨＭＭフレーズが棄却された場合（Ｓ２０にて「棄却」）、認識対象区間の始端付近には、ＨＭＭフレーズは存在しないと判断し、Ｓ２６に移行して、認識対象区間の始端付近にＤＴＷフレーズが存在するか否かの判断が行われる。

なお、ＨＭＭフレーズ抽出処理（Ｓ１６）において最も類似度が高かった１位のＨＭＭフレーズ候補の音声区間における認識結果が棄却された場合、直ちにＳ２６に移行せずに、ＨＭＭフレーズの再認識処理を行ってもよい。具体的には、ＨＭＭフレーズ抽出処理において次に類似度が高かった２位のＨＭＭフレーズ候補の音声区間について、ＨＭＭフレーズ認識処理（Ｓ１８）および受理判定（Ｓ２０）を行ってもよい。その場合、Ｓ２２において出力されるＨＭＭフレーズは、再認識処理で認識および受理されたフレーズであってもよい。これにより、入力音声の認識精度を高めることができる。このような再認識処理は、２位以降の複数（所定数）のＨＭＭフレーズ候補の音声区間について行われてもよい。

Ｓ２６において、ＤＴＷフレーズ推定部１０６の切出し部３１１は、ＤＴＷフレーズの抽出処理を実行する。すなわち、パターン記憶部３０１に記憶されたパターンデータに応じた各ＤＴＷフレーズのテンプレート特徴量列を、検出音声の特徴量列に照合させて、ＤＴＷフレーズ候補を抽出する。ここでも、認識対象区間の始端付近にＤＴＷフレーズが存在すると仮定して、ＤＴＷアルゴリズムに準拠したフレーズ抽出処理を行う。

具体的には、図４に示したような計算方法によりＤＴＷフレーズごとに最小累積距離を算出し、算出された最小累積距離をそのフレーム数で除算することで、１フレーム当たりの最小累積距離を求める。１フレーム当たりの最小累積距離が最小になるＤＴＷフレーズをＤＴＷフレーズ候補とする。このような処理も、所定の計算式により行うことができる。切出し部３１１は、抽出されたＤＴＷフレーズ候補の音声区間を、ＤＴＷフレーズが存在する可能性が最も高い区間として切出す。

次に、ＤＴＷフレーズ推定部１０６の認識処理部３１２は、同じ、パターン記憶部３０１に記憶されたパターンデータを用いて、ＤＴＷフレーズの認識処理を実行する（Ｓ２８）。具体的には、認識処理部３１２は、切出し部３１１において切出された音声区間内の特徴量列を、各ＤＴＷフレーズのテンプレート特徴量列に照合させることによって、ＤＴＷフレーズを推定する。すなわち、ＤＴＷフレーズ抽出処理の結果である特徴量列を、ＤＴＷアルゴリズムにより認識する。

このように、Ｓ２６でのＤＴＷフレーズ抽出の結果をそのまま認識結果とせず、ＤＴＷアルゴリズムにより認識処理を別途行う理由は、次の通りである。すなわち、フレーズ抽出のアルゴリズムでは、一般的に、入力音声の各特徴量が照合される回数が、照合元のテンプレート特徴量列によって異なること、および、入力音声の特徴量がすべて１回ずつ照合されているとは限らないことから、認識精度が若干低くなると考えられるためである。

続いて、受理判定部１０７は、Ｓ２８での認識結果の受理判定を行う（Ｓ３０）。すなわち、認識処理部３１２において推定されたＤＴＷフレーズを認識結果として受理するか、棄却するかの判定を行う。簡易な棄却アルゴリズムでは、１位のＤＴＷフレーズのＤＴＷ距離が或る閾値以下ならば受理し、さもなければ、棄却する。この閾値は、追加登録音声から求めてもよい。

あるいは、受理判定部１０７は、１位のＤＴＷフレーズおよび２位のＤＴＷフレーズそれぞれのＤＴＷ距離の差が所定値以上であれば受理し、所定値未満であれば棄却することとしてもよい。

推定されたＤＴＷフレーズが認識結果として受理されると（Ｓ３０にて「受理」）、結果出力部１０８は、受理されたＤＴＷフレーズを認識結果として出力する（Ｓ３２）。

この場合も、抽出されたＤＴＷフレーズ候補と受理されたＤＴＷフレーズとが異なる場合には、切出し部３１１による音声区間の切出しと同様に、受理されたＤＴＷフレーズが存在する区間を検出しなおす（Ｓ３４）。この処理が終わると、Ｓ３８に進む。

Ｓ３８では、設定・更新部１０３は、認識対象区間から受理フレーズ区間を削除し、認識対象区間を更新する。具体的には、認識対象区間の始端から、受理フレーズを抽出した区間の終端までの特徴量列を削除する。つまり、認識処理区間の始端が、削除した分だけ後方にずらされる。

一方、Ｓ３０において、ＤＴＷフレーズが棄却された場合には（Ｓ３０にて「棄却」）、設定・更新部１０３は、認識対象区間から所定の棄却区間を削除する（Ｓ３６）。具体的には、認識対象区間の始端から、１００〜２００ミリ秒程度の特徴量列を削除する。つまり、認識処理区間の始端が、後方に１００〜２００ミリ秒程度ずらされる。

なお、ＤＴＷフレーズ抽出処理（Ｓ２６）において１位のＤＴＷフレーズ候補の音声区間における認識結果が棄却された場合も、直ちにＳ３６に移行せずに、ＤＴＷフレーズの再認識処理を行ってもよい。具体的には、ＤＴＷフレーズ抽出処理において２位のＤＴＷフレーズ候補の音声区間について、ＤＴＷフレーズ認識処理（Ｓ２８）および受理判定（Ｓ３０）を行ってもよい。また、ＤＴＷフレーズの再認識処理が、２位以降の複数（所定数）のＤＴＷフレーズ候補の音声区間について行われてもよい。

認識対象区間が更新されると、認識対象区間長を検査する（Ｓ４０）。具体的には、認識対象区間の時間長が或る閾値以上であれば（Ｓ４０にて「しきい値以上」）、認識対象区間にフレーズが存在する可能性があると判断し、Ｓ１６に戻り、上記処理を繰り返す。さもなければ（Ｓ４０にて「しきい値未満」）、一連の処理は終了される。なお、この閾値は、ＨＭＭフレーズおよびＤＴＷフレーズの時間長から求めることができる。具体的には、ＨＭＭフレーズおよびＤＴＷフレーズの中で最短のフレーズの時間長のたとえば半分を、閾値として設定してもよい。

上述のように、本実施の形態の音声認識方法によれば、ＨＭＭフレーズのテンプレート特徴量列を用いることで、ＤＴＷアルゴリズムに準拠したフレーズ抽出を行うことができるため、構文分析を行うことなく連続的音声を認識することができる。なお、認識精度をより向上させるためには、構文分析を組み合わせてもよい。

また、ＨＭＭフレーズのテンプレート特徴量列は、ＨＭＭパラメータから復元されるため、別途、教師音声による学習を行う必要がない。そのため、簡易な手法で連続的音声を認識することができる。

また、ＨＭＭパラメータからテンプレート特徴量列を復元する際に、共分散行列の時系列データも復元しておくことで、ＨＭＭフレーズ候補の抽出処理において、特徴量のばらつきに応じて距離の重み付けが可能である。したがって、候補抽出の精確性を向上させることができる。

また、ＨＭＭフレーズの最終的な認識処理はＨＭＭ法に基づいて行い、かつ、ＤＴＷフレーズの最終的な認識処理は、入力音声の特徴量列を照合元とし、テンプレート特徴量列を照合先とするＤＴＷアルゴリズムに基づいて行うため、認識率の低下を防ぐことができる。

また、ＨＭＭフレーズおよびＤＴＷフレーズの抽出処理では、通常のＤＴＷアルゴリズムと異なり、テンプレート特徴量列を照合元とすることで、入力音声から、フレーズ認識に最適な範囲を探索することができる。また、通常、フレーズごとに数千回程度必要となる距離計算を、１回の距離計算で済ますこともできる。このことについては、さらに詳細に説明する。

一般的なＤＴＷフレーズ抽出では、入力音声の特徴量列から部分列を取り出して照合元とし、テンプレート特徴量列に照合することによって最小累積距離が計算される。この場合、取り出す部分列ごとに、そこに存在する可能性が最も高いフレーズとその最小累積距離とが求まる。このような計算は、あらゆる部分列について行われる。そして、最小累積距離を部分列の長さであるフレーム数で割った値のうち、最小となる部分列を探す。これにより、見付かった部分列に、存在する可能性が最も高いフレーズが抽出されたことになる。このような計算は、各フレーズについて数千回程度行う必要がある。これは、部分列の入力音声からの取り出し方が数千通り程度あるためである。また、一般的なＨＭＭフレーズ抽出においても、対数尤度の計算を１フレーズ当たり数千回程度計算する必要がある。

これに対し、本実施の形態では、各フレーズ（ｗ）に対して入力音声の特徴量列を照合先、テンプレート特徴量列を照合元とする最小累積距離をテンプレート特徴量列の長さで割った値を計算し、その中で最小となるフレーズＷ^＊を求める。この際に、次のような式（４）を用いることで、各フレーズ（ｗ）についての距離計算を１回で済ませることができる。

式（４）中の「Ｒｗ」はフレーズｗのテンプレート特徴量列、「Ｊｗ」はその長さを示し、「ａ_ｍｉｎ」は始端フレーム番号「ａ」の最小値、「ｂ_ｍａｘ」は終端フレーム番号「ｂ」の最大値を示す。また、「Ｘ（ａ_ｍｉｎ，ｂ_ｍａｘ）」は、入力音声の特徴量列Ｘのａ_ｍｉｎフレームからｂ_ｍａｘフレームまでを取り出した部分列を示す。この場合、Ｒｗを照合元、Ｘ（ａ_ｍｉｎ，ｂ_ｍａｘ）を照合先とする最小累積距離「Ｄ（Ｒｗ，Ｘ（ａ_ｍｉｎ，ｂ_ｍａｘ））」は、次の式（５）により定義できる。なお、先に示した図４には、参考として、入力フレーズおよび登録フレーズの特徴量列と、式（５）の記号との関係が図示されている。

式（５）の「ｑ_１，・・・,ｑ_Ｊｗ」に関する制約条件は、次の通りである。

図９には、条件（１）〜（６）の不等式で定まる領域を囲む線が、一点鎖線で示されている。本実施の形態では、フレーズごとに、この領域内で最小累積距離を計算する。

切出し部２１１，３１１において、式（４）による計算を行うことで、フレーズ抽出処理に掛かる時間を大幅に短縮することができる。なお、理想的には、式（４）による計算が行われるが、本実施の形態におけるフレーズ抽出処理と、照合元および照合先は同じとしたまま、照合先を、入力音声の特徴量列から取り出されたあらゆる部分列としてもよい。

＜実験結果について＞
本実施の形態における連続的音声認識方法に従い、「チャピット、メールソーシン（メール送信）、サトーサン（佐藤さん）」という連続的音声に対して行った実験結果について説明する。

図１０には、入力音声波形が示されている。「チャピット」と「佐藤さん」はユーザが追加登録したＤＴＷフレーズであり、「メール送信」は事前登録されたＨＭＭフレーズである。なお、「チャピット」は、本実施の形態に係る音声認識装置１を搭載したロボットの名前であり、このロボットは機器（たとえば携帯電話）の遠隔操作が可能な装置であると想定する。

このような入力音声に対して、音声信号のエネルギーに基づいて音声検出を行った場合、これらのフレーズ群の音声は、図１０のグラフの０．８１秒から３．１８秒の間（△印の間）に検出された（図７のＳ４）。

図１０の入力音声波形を見ると、各フレーズ間の間隔は、「チャピット」に含まれる促音「ッ」よりも短いことが分かる。このような音声信号のエネルギーに基づいて１フレーズずつ検出しようとすると、「ッ」のところでも区切られてしまう。本実施の形態の認識方法では、このように、１フレーズずつ検出して認識するのが困難な音声を認識することを想定している。

図８のステップＳ１４で設定される認識対象区間の始端および終端は、図１１において□印で示されている。この段階での認識対象区間は、音声が検出された区間（図１０の△印の間）と、ほぼ等しい。

認識対象区間の始端付近にＨＭＭフレーズが存在する可能性を見積り、最も可能性が高い単語、および、その単語がある区間を求めたところ、「右に移動」というフレーズが単語候補として抽出された（図８のＳ１６）。このフレーズは、０．９１秒から１．４３秒（○の間）にある可能性が最も高いという結果となった。

次に、０．９１秒から１．４３秒の音声区間を切出し、その区間内の音声をＨＭＭ認識したところ、「画面切替」という結果となった（図８のＳ１８）。この場合、認識結果を受理判定したところ、棄却された（図８のＳ２０にて「棄却」）。

そのため、今度は、認識対象区間の始端付近にＤＴＷフレーズが存在する可能性を見積り、最も可能性が高い単語、および、その単語がある区間を求めたところ、「チャピット」というフレーズが単語候補として抽出された（図８のＳ２６）。このフレーズは、０．８０秒から１．３７秒（◇の間）にある可能性が最も高いという結果となった。

次に、０．８０秒から１．３７秒の音声区間を切出し、その区間内の音声をＤＴＷ認識したところ、「チャピット」という結果となった（図８のＳ２８）。この場合、認識結果を受理判定したところ、受理された（図８のＳ３０にて「受理」）。そのため、「チャピット」が１つ目の認識結果として出力された（図８のＳ３２）。

単語が受理されると、図１２に示す認識対象区間（□印の間）に更新される（図８のＳ３８）。すなわち、認識対象区間は、「チャピット」の終端直後の１．３８秒から音声検出区間の終端３．１８秒の間となる。更新された認識対象区間の音声に対し２回目の推定処理が実行される（図８のＳ４０にて「しきい値以上」）。

認識対象区間の始端付近にＨＭＭフレーズが存在する可能性を見積り、最も可能性が高い単語、および、その単語がある区間を求めたところ、「メール送信」というフレーズが、１．４４秒から２．２８秒（○の間）にある可能性が最も高いという結果となった（図８のＳ１６）。

そのため、１．４４秒から２．２８秒の音声区間内の音声を認識したところ、「メール送信」という結果となった（図８のＳ１８）。この認識結果を受理判定したところ、受理されたため（図８のＳ２０にて「受理」）、「メール送信」が２つ目の認識結果として出力された（図８のＳ２２）。

単語が受理されると、図１３に示す認識対象区間（□印の間）に更新される（図８のＳ３８）。すなわち、認識対象区間は、「メール送信」の終端直後の２．２９秒から音声検出区間の終端３．１８秒の間となる。更新された認識対象区間の音声に対し３回目の推定処理が実行される（図８のＳ４０にて「しきい値以上」）。

認識対象区間の始端付近にＨＭＭフレーズが存在する可能性を見積り、最も可能性が高い単語、および、その単語がある区間を求めたところ、「メッセージモード」というフレーズが、２．２４秒から３．１８秒（○の間）にある可能性が最も高いという結果となった（図８のＳ１６）。そのため、２．２４秒から３．１８秒の音声を認識したところ、「入力切替」という結果となった（図８のＳ１８）。認識結果を受理判定したところ、棄却された（図８のＳ２０にて「棄却」）。

続いて、認識対象区間の始端付近にＤＴＷフレーズが存在する可能性を見積り、最も可能性が高い単語、および、その単語がある区間を求めたところ、「佐藤さん」というフレーズが、２．５８秒から３．１０秒（◇の間）にある可能性が最も高いという結果となった（図８のＳ２６）。２．５８秒から３．１０秒の音声を認識したところ、「佐藤さん」という結果となった（図８のＳ２８）。認識結果を受理判定したところ、受理されたため（図８のＳ３０にて「受理」）、「佐藤さん」が３つ目の認識結果として出力された（図８のＳ３２）。

認識対象区間を更新すると、残りの区間は、「佐藤さん」の終端直後の３．１１秒から音声検出区間の終端３．１８秒の間となる（図８のＳ３８）。この場合、認識対象区間の長さは０．０７秒と非常に短いため、この間にフレーズは存在しないと判断し（図８のＳ４０にて「しきい値未満」）、認識処理が終了される。

上記の実験結果から、連続的音声を精度良く認識できていることが分かる。したがって、本実施の形態に係る音声認識装置１によれば、ユーザの満足度を向上させることができる。

なお、本実施の形態では、図６のグラフに示したように、ＨＭＭパラメータからテンプレート特徴量列を階段状に復元することとしたが、多項式補間やスプライン補間等の補間処理を用いて、テンプレート特徴量列を曲線状に復元してもよい。

また、本実施の形態では、認識対象区間の始端付近に登録フレーズが存在すると仮定して、フレーズ抽出処理を行ったが、認識対象区間の終端付近に登録フレーズが存在すると仮定して、フレーズ抽出処理を行ってもよい。この場合、認識対象区間の更新を行う際に、受理フレーズを抽出した区間の始端から、認識対象区間の終端までの特徴量列を削除すればよい。また、棄却区間の削除においては、認識処理区間の終端から、１００〜２００ミリ秒程度の特徴量列を削除すればよい。

また、本実施の形態では、認識対象区間の音声に対し、ＨＭＭフレーズの推定処理とＤＴＷフレーズの推定処理とを直列的に実行することとしたが、これらを並列的に実行してもよい。その場合、受理判定部において、ＨＭＭフレーズの尤度およびＤＴＷフレーズのＤＴＷ距離それぞれについて上記したような判定を行って、いずれか一方を受理するか、双方を棄却する。

また、本実施の形態では、ＨＭＭフレーズ推定部１０４だけでなく、ＤＴＷフレーズ推定部１０６においても、切出し部３１１の機能と認識処理部３１２の機能とを備えることとした。しかしながら、ＤＴＷフレーズを推定する場合には、抽出処理および認識処理のいずれにおいても、ＤＴＷフレーズの特徴量列が用いられるため、抽出処理においても、比較的高い精度でＤＴＷフレーズ候補を抽出できる。そのため、ＤＴＷフレーズ推定部１０６は、抽出処理で抽出されたＤＴＷフレーズ候補を、推定結果（認識結果）としてもよい。すなわち、ＤＴＷフレーズ推定部１０６は、単純に、認識対象区間内の音声の特徴量列に、ＤＴＷフレーズの特徴量列を照合させることによって、発話音声（フレーズ群）に含まれる追加登録単語を推定してもよい。

なお、本実施の形態に係る音声認識装置１により実行される音声認識方法を、プログラムとして提供することもできる。このようなプログラムは、ＣＤ−ＲＯＭ（Compact Disc-ROM）などの光学媒体や、メモリカードなどのコンピュータ読取り可能な一時的でない（non-transitory）記録媒体にて記録させて提供することができる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。

本発明にかかるプログラムは、コンピュータのオペレーティングシステム（ＯＳ）の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずＯＳと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。

また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１音声認識装置、１１ＣＰＵ、１２ＲＯＭ、１３ＲＡＭ、１４ハードディスク、１５操作部、１６表示部、１７ドライブ装置、１７ａ記録媒体、１８通信Ｉ／Ｆ、１９入力部、２０マイクロフォン、１０１音声入力部、１０２抽出部、１０３設定・更新部、１０４ＨＭＭフレーズ推定部、１０６ＤＴＷフレーズ推定部、１０５，１０７受理判定部、１０８結果出力部、１０９復元部、２０１ＨＭＭ記憶部、２０２，３０１パターン記憶部、２１１，３１１切出し部、２１２，３１２認識処理部。

Claims

複数の事前登録単語のモデルパラメータと、ユーザによる追加登録単語の特徴量列についてのパターンデータとを記憶する記憶手段と、
事前登録単語と追加登録単語とが連続的に発話されたフレーズ群の音声を入力する音声入力手段と、
前記記憶手段に記憶された前記モデルパラメータと、前記音声入力手段に入力された音声の特徴量とに基づいて、前記フレーズ群に含まれる事前登録単語を推定する第１の推定手段と、
前記記憶手段に記憶された前記パターンデータと、前記音声入力手段に入力された音声の特徴量とに基づいて、前記フレーズ群に含まれる追加登録単語を推定する第２の推定手段とを備え、
前記第１の推定手段は、
前記複数の事前登録単語それぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって、事前登録単語候補を抽出し、抽出された前記事前登録単語候補の音声区間を切り出す切出し手段と、
前記モデルパラメータを用いた認識処理によって、前記切出し手段により切り出された音声区間内の特徴量に基づき事前登録単語を推定する認識処理手段とを含む、音声認識装置。
前記第１の推定手段または前記第２の推定手段により単語が推定された場合に、推定された単語を認識結果として受理するか否かの受理判定を行う受理判定手段と、
前記受理判定手段により受理された単語を出力する出力手段と、
前記受理判定手段により受理された単語の音声区間を前記認識対象区間から削除することによって、前記認識対象区間を更新する更新手段とをさらに備える、請求項１に記載の音声認識装置。
前記認識対象区間の音声に対し、先に、前記第１の推定手段による事前登録単語の推定処理を実行し、前記第１の推定手段の推定結果が前記受理判定手段により棄却された場合に、前記第２の推定手段による追加登録単語の推定処理を実行する、請求項２に記載の音声認識装置。
前記切出し手段で用いられる前記テンプレート特徴量列は、前記モデルパラメータから復元された特徴量列である、請求項１〜３のいずれかに記載の音声認識装置。
前記記憶手段に記憶された前記モデルパラメータから、前記複数の事前登録単語それぞれの特徴パターンを算出し、前記テンプレート特徴量列を復元する復元手段をさらに備える、請求項４に記載の音声認識装置。
前記切出し手段は、前記モデルパラメータに含まれるばらつき情報に基づいて重み付けを行って、事前登録単語候補を抽出する、請求項１〜５のいずれかに記載の音声認識装置。
前記第２の推定手段は、
前記認識対象区間内の音声の特徴量列に、前記パターンデータに応じた特徴量列を照合させることによって、追加登録単語候補を抽出し、抽出された前記追加登録単語候補の音声区間を切り出す手段と、
切り出された前記追加登録単語候補の音声区間内の特徴量列を、前記パターンデータに応じた特徴量列に照合させることによって、追加登録単語の認識処理を行う手段とを含む、請求項１〜６のいずれかに記載の音声認識装置。
前記第２の推定手段は、前記認識対象区間内の音声の特徴量列に、前記パターンデータに応じた特徴量列を照合させることによって、追加登録単語を推定する、請求項１〜６のいずれかに記載の音声認識装置。
複数の事前登録単語のモデルパラメータと、ユーザによる追加登録単語の特徴量列についてのパターンデータとを記憶する記憶部を備えたコンピュータにおいて実行されるプログラムであって、
事前登録単語と追加登録単語とが連続的に発話されたフレーズ群の音声を入力するステップと、
前記記憶部に記憶された前記モデルパラメータと、入力された音声の特徴量とに基づいて、前記フレーズ群に含まれる事前登録単語を推定する第１の推定ステップと、
前記記憶部に記憶された前記パターンデータと、入力された音声の特徴量とに基づいて、前記フレーズ群に含まれる追加登録単語を推定する第２の推定ステップとを備え、
前記第１の推定ステップは、
前記複数の事前登録単語それぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって、事前登録単語候補を抽出し、抽出された前記事前登録単語候補の音声区間を切り出すステップと、
前記モデルパラメータを用いた認識処理によって、前記切り出された音声区間内の特徴量に基づき事前登録単語を推定するステップとを含む、音声認識プログラム。