JP2018045127A

JP2018045127A - 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法

Info

Publication number: JP2018045127A
Application number: JP2016180650A
Authority: JP
Inventors: 昭二早川; Shoji Hayakawa
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-09-15
Filing date: 2016-09-15
Publication date: 2018-03-22
Anticipated expiration: 2036-09-15
Also published as: JP6690484B2; US20180075843A1; US10665227B2

Abstract

【課題】ユーザが音声認識装置に認識させようと意図したキーワードを選択可能な音声認識用コンピュータプログラムを提供する。【解決手段】音声認識用コンピュータプログラムは、ユーザの第１の音声信号からその第１の音声信号中に含まれる音素の第１の系列を抽出し、ユーザの第２の音声信号からその第２の音声信号中に含まれる音素の第２の系列を抽出し、第１の系列と第２の系列間で共通する音素の系列を抽出し、登録されている複数のキーワードのそれぞれについて、そのキーワードに対応する音素の系列と共通する音素の系列との類似度を算出し、複数のキーワードの中から、キーワードごとの類似度に基づいて所定数のキーワードを選択する、ことをコンピュータに実行させるための命令を含む。【選択図】図７

Description

本発明は、例えば、音声認識用コンピュータプログラム、音声認識装置及び音声認識方法に関する。

従来より、話者が発した音声を集音して得られる音声信号から、話者が発した内容を認識する音声認識技術がユーザインターフェースにおいて利用されている。このような音声認識技術を利用するユーザインターフェースが採用された装置では、ユーザが所望の操作を行うためには、ユーザが予めその操作に対応付けられたキーワードを発することが求められる。したがって、もし、ユーザがその操作を行うためのキーワードを正確に覚えていないと、ユーザは不正確なキーワードを繰り返し発声するものの、ユーザインターフェースがその操作用のキーワードを認識できず、その結果としてその操作が行われない事態となる。

一方、繰り返し発声される音声に基づいて、音声認識を行う技術が提案されている（例えば、特許文献１を参照）。

特開２００７−２４８５２９号公報

特許文献１に記載の技術では、与えられる音声信号中の繰返発声部分が検出される。検出された繰返発声がＤＰマッチングされ、繰返発声中で互いに対応する音声フレームのパワースペクトル上の各周波数ビンでパワーの小さな方を選択することで繰返発声を統合したパワースペクトルが生成される。そしてその統合されたパワースペクトルを用いて音声認識が行われる。

特許文献１に記載の技術では、統合されたパワースペクトルがキーワードを表すものとなるために、ユーザが正しいキーワードを繰り返し発声することが前提となっている。したがって、ユーザが発声の度に異なる語句を発声する場合、統合されたパワースペクトルは、正しいキーワードを表さず、その結果として、キーワードが認識されないこととなる。

一つの側面では、本発明は、ユーザが音声認識装置に認識させようと意図したキーワードを選択可能な音声認識用コンピュータプログラムを提供することを目的とする。

一つの実施形態によれば、音声認識用コンピュータプログラムが提供される。この音声認識用コンピュータプログラムは、ユーザの第１の音声信号からその第１の音声信号中に含まれる音素の第１の系列を抽出し、ユーザの第２の音声信号からその第２の音声信号中に含まれる音素の第２の系列を抽出し、第１の系列と第２の系列間で共通する音素の系列を抽出し、登録されている複数のキーワードのそれぞれについて、そのキーワードに対応する音素の系列と共通する音素の系列との類似度を算出し、複数のキーワードの中から、キーワードごとの類似度に基づいて所定数のキーワードを選択する、ことをコンピュータに実行させるための命令を含む。

ユーザが音声認識装置に認識させようと意図したキーワードを選択できる。

一つの実施形態による音声認識装置の概略構成図である。音声認識装置が有する処理部の機能ブロック図である。キーワード辞書の一例を示す図である。最尤音素系列と共通音素系列の一例を示す図である。本実施形態により利用されるDPマッチングを用いた、最適パスの探索手順の説明図である。変形例による、類似度算出の一例を示す図である。音声認識処理の動作フローチャートである。音素グループと代表音素の関係を表すテーブルの一例を示す図である。変形例による、最尤音素系列の補正に関するフローチャートである。実施形態またはその変形例による音声認識装置が実装されたサーバクライアントシステムの概略構成図である。

以下、図を参照しつつ、音声認識装置、及び、音声認識装置で利用される音声認識方法及び音声認識用コンピュータプログラムについて説明する。ユーザが操作に必要なキーワードを正確に覚えていない場合、ユーザは、発声の度にそのキーワードと類似する異なる語句を発声することが想定される。例えば、音声認識を利用するユーザインターフェースが採用されたナビゲーションシステムにおいて、ユーザの自宅への経路を探索する操作を実行するためのキーワードが「自宅へ帰る」であるとする。この場合において、例えば、１回目の発声では、ユーザは、「えっと自宅、じゃなかった、家に帰る」と発声したとする。しかし、この発声には、正しいキーワードは含まれないので、ユーザが意図した操作が行われない。そのため、２回目の発声では、例えば、ユーザは、「違うか、自宅、自分の住んでいるところ、に帰る」と発声したとする。この場合も、その発声には、正しいキーワードは含まれないので、そのキーワードが認識されず、ユーザが意図した操作は行われない。このように、意図した操作が行われないまま、ユーザは、何度も発声を繰り返すことになる。

また、音声認識の結果、登録されているキーワードのうち、最も類似するものから順に幾つかのキーワードを選択してユーザに提示することも考えられる。しかし、この場合でも、ユーザが正しいキーワードを発声していないので、ユーザに提示されるキーワードの中に、ユーザが意図した操作に対応するキーワードが含まれるとは限らない。

一方、ユーザが意図する操作のために繰り返し発声する場合、ユーザは、発声の度に、その操作と関連する語句を発声すると考えられる。そのため、各回の発声には、その操作に対応するキーワードの少なくとも一部が含まれることが想定される。

そこで、この音声認識装置は、話者の一例であるユーザにより繰り返し発声された音声から共通する音素系列を抽出し、抽出した音素系列と、キーワード辞書に登録されている各キーワードの音素系列とを比較して、最も類似するキーワードを選択する。そしてこの音声認識装置は、選択したキーワードをユーザに提示する。なお、キーワードは、個々の単語であってもよく、あるいは、複数の単語を含むフレーズであってもよい。

この音声認識装置、及び、音声認識装置で利用される音声認識方法及び音声認識用コンピュータプログラムは、音声認識を利用するユーザインターフェースを採用する様々な装置、例えば、ナビゲーションシステム、携帯電話機またはコンピュータなどに実装できる。

図１は、一つの実施形態による音声認識装置の概略構成図である。音声認識装置１は、インターフェース部１１と、アナログ／デジタルコンバータ１２と、処理部１３と、記憶部１４と、通信インターフェース部１５とを有する。

インターフェース部１１は、音声入力部の一例であり、オーディオインターフェースを有する。そしてインターフェース部１１は、例えば、マイクロホン（図示せず）から、アナログ信号であり、かつ、ユーザが発声した音声が表されたモノラルの音声信号を取得する。そしてインターフェース部１１は、その音声信号をアナログ／デジタルコンバータ１２（以下、Ａ／Ｄコンバータと表記する）へ出力する。Ａ／Ｄコンバータ１２は、アナログの音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そしてＡ／Ｄコンバータ１２は、デジタル化された音声信号を処理部１３へ出力する。なお、以下では、デジタル化された音声信号を、単に音声信号と呼ぶ。

処理部１３は、例えば、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部１３は、音声認識処理を実行することで、音声信号から、キーワード辞書に登録されている何れかのキーワードを選択し、選択したキーワードを表す情報を通信インターフェース部１５を介して出力する。あるいは、処理部１３は、選択したキーワードを表示装置（図示せず）を介して表示してもよい。なお、処理部１３による音声認識処理の詳細は後述する。

記憶部１４は、例えば、読み書き可能な不揮発性の半導体メモリと、読み書き可能な揮発性の半導体メモリとを有する。さらに、記憶部１４は、磁気記録媒体あるいは光記録媒体及びそのアクセス装置を有していてもよい。そして記憶部１４は、処理部１３上で実行される音声認識処理で利用される各種のデータ及び音声認識処理の途中で生成される各種のデータを記憶する。例えば、記憶部１４は、音声信号からその音声信号についての最尤音素系列を推定するために利用される各種の情報、及び、音声信号から求められた最尤音素系列及び共通音素系列を記憶する。なお、最尤音素系列及び共通音素系列については後述する。さらに、記憶部１４は、音声認識装置１が認識対象とするキーワードごとの音素系列を記憶するキーワード辞書を記憶する。

通信インターフェース部１５は、音声認識装置１を他の装置、例えば、ナビゲーションシステムと接続するための通信インターフェース回路を有する。そして通信インターフェース部１５は、処理部１３から受け取った、選択されたキーワードを表す情報を他の装置へ出力する。なお、音声認識装置１自体が他の装置の一部として実装される場合には、通信インターフェース部１５は省略されてもよい。

以下、処理部１３の詳細について説明する。

図２は、処理部１３の機能ブロック図である。処理部１３は、音声区間検出部２１と、特徴抽出部２２と、最尤音素系列探索部２３と、判定部２４と、共通音素系列抽出部２５と、照合部２６と、提示部２７とを有する。
処理部１３が有するこれらの各部は、例えば、処理部１３が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部１３が有するこれらの各部は、その各部の機能を実現する一つまたは複数の集積回路であってもよい。

音声区間検出部２１は、音声信号を所定長を持つフレームごとに分割する。フレーム長は、例えば、数10msec〜100msecに設定される。そして音声区間検出部２１は、音声信号の各フレームのうち、ユーザが声を発しているフレームを検出することで、ユーザが発声している区間である音声区間を検出する。

一般に、ユーザが声を発しているフレームにおける音声信号のパワーは、ユーザが声を発していないフレームにおける音声信号のパワーよりも大きい。そこで音声区間検出部２１は、例えば、フレームごとに、音声信号を、時間周波数変換を用いて時間領域から周波数領域のスペクトル信号に変換する。なお、音声区間検出部２１は、時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform,FFT)を用いることができる。そして音声区間検出部２１は、各周波数帯域のスペクトル信号を２乗することにより周波数帯域ごとのパワーを求め、全周波数帯域にわたってパワーの総和を求めてその総和の対数化値（以下、対数パワーと呼ぶ）を算出する。そして音声区間検出部２１は、その対数パワーが所定のパワー閾値よりも大きいフレームを、ユーザが声を発しているフレームとして検出する。パワー閾値は、例えば、背景雑音の対数パワーに所定のオフセットを加算した値に設定される。その背景雑音の対数パワーは、例えば、予め設定されてもよく、あるいは、フレーム単位で更新されてもよい。例えば、音声区間検出部２１は、対数パワーがパワー閾値以下となったフレームの対数パワーに忘却係数α（例えば、α=0.01）を乗じた値を、その時点の背景雑音の対数パワーに(1-α)を乗じた値に加えることで、背景雑音の対数パワーを更新する。
なお、音声区間検出部２１は、発話区間を検出する他の方法に従って、各フレームについてユーザが声を発しているフレームであるか否かを判定してもよい。

音声区間検出部２１は、音声信号について、ユーザが声を発していると判定されたフレームが連続する区間を音声区間として検出する。そして音声区間検出部２１は、音声区間が検出される度に、その音声区間の開始時刻と終了時刻とを特徴抽出部２２に通知する。

特徴抽出部２２は、音声区間内のフレームごとに、ユーザの声の特徴を表す複数の特徴量を算出する。そして特徴抽出部２２は、フレームごとに、各特徴量を要素とする特徴ベクトルを生成し、その特徴ベクトルを出力する。

例えば、特徴抽出部２２は、ユーザの声の特徴を表す特徴量として、メル周波数ケプストラム係数(Mel Frequency Cepstral Coefficient、MFCC)と、それらのΔケプストラム及びΔΔケプストラムを求める。

特徴抽出部２２は、フレームごとに、例えば、FFTを行って周波数係数を算出する。そして特徴抽出部２２は、各周波数係数から算出されるパワースペクトルを、中心周波数がメル尺度で等間隔になるように配置したフィルタバンクに通したときの出力をパワー値として求める。その後、特徴抽出部２２は、そのパワー値の対数に対して離散コサイン変換(Discrete Cosign Transform,DCT)などの周波数変換を行って得られるDCT係数のうちの所定の次数以下の係数を取り出すことによりMFCCを算出する。

また、特徴抽出部２２は、フレームごとにケプストラムを算出し、そのケプストラムを用いてΔケプストラムを算出する。Δケプストラムは、次式によって算出される。

ここで、C_n(t)は、フレームtのn次のケプストラム係数を表し、ΔC_n(t)は、n次のΔケプストラム係数を表す。また、h_kは、時間幅(2K+1)の対称形の窓関数である。なお、h_k=1であってもよい。さらに、特徴抽出部２２は、（１）式において、C_n(t)の代わりにΔC_n(t)を入力することで、n次のΔΔケプストラム係数を算出できる。

特徴抽出部２２は、MFCC、Δケプストラム及びΔΔケプストラムのそれぞれについて、所定の次数（例えば、1〜12次）の係数を、特徴量とすることができる。

なお、変形例によれば、特徴抽出部２２は、パワーの積算値及びピッチ周波数なども、MFCC、Δケプストラム及びΔΔケプストラムの所定の次数の係数とともに、あるいは、所定の次数の係数の代わりに、特徴量として算出してもよい。

特徴抽出部２２は、フレームごとの特徴ベクトルを最尤音素系列探索部２３へ出力する。

最尤音素系列探索部２３は、音素系列抽出部の一例であり、音声区間の各フレームから抽出された特徴量に基づいて、音声区間についての最尤音素系列を探索する。なお、最尤音素系列は、最も確からしいと推定される、音声に含まれる各音素をその発声順に並べた音素系列である。

そのために、最尤音素系列探索部２３は、例えば、音響モデルとして隠れマルコフモデル(Hidden Markov Model, HMM)を利用し、音声の特徴ベクトルに対する各音素の出力確率を混合正規分布(Gaussian Mixture Model, GMM)により算出するGMM-HMMを用いる。

具体的に、最尤音素系列探索部２３は、音声区間中のフレームごとに、そのフレームの特徴ベクトルをGMMに入力することで、そのフレームについての、各音素に対応するHMMの各状態の出力確率を算出する。また、最尤音素系列探索部２３は、特徴ベクトルをGMMに入力する前に、各フレームから算出された特徴ベクトルに対して、特徴ベクトルの次元ごとに平均値を推定してその次元の値から推定した平均値を差し引くCepstral Mean Normalization(CMN)と呼ばれる正規化を実行してもよい。

最尤音素系列探索部２３は、フレームごとに、得られた出力確率を音素HMMの対応する状態についての出力確率として用いることで、着目する音声区間について、累積対数尤度が最大となる音素系列を最尤音素系列として求める。

例えば、最尤音素系列探索部２３は、遷移元である前のフレームの音素候補のHMMの状態から遷移先である現在のフレームのある音素候補のHMMの状態へ遷移する確率（状態遷移確率）の対数化値と、現在のフレームのある音素候補のHMMの状態における出力確率の対数化値とを算出する。そして最尤音素系列探索部２３は、それらの対数化値を、前のフレームまでの音素候補のHMMの状態における累積対数尤度に加算することで、現在のフレームのある音素候補のHMMの状態における累積対数尤度を算出する。その際、最尤音素系列探索部２３は、遷移元の音素候補のHMMの状態の中から、遷移先である現在のフレームのある音素候補のHMMの状態に遷移した場合に、尤も累積対数尤度が大きい遷移元の音素候補を選択する。最尤音素系列探索部２３は、その選択を現在のフレームにおけるすべての音素候補のHMMの状態について行うViterbi演算を音声区間の最後のフレームまで進める。なお、最尤音素系列探索部２３は、上記の合計が所定値以上となる状態遷移を選択してもよい。そして最尤音素系列探索部２３は、最後のフレームにおける累積対数尤度が最大となる状態を選び、その状態に到達するまでの状態遷移の履歴(Viterbiパス)をバックトラックすることにより求め、Viterbiパスに基づいてその音声区間における最尤音素系列を求める。

なお、最尤音素系列探索部２３は、音声信号から最尤音素系列を探索する他の様々な技術の何れかを利用して、音声区間についての最尤音素系列を探索してもよい。
最尤音素系列探索部２３は、求めた最尤音素系列を判定部２４へ出力する。

判定部２４は、音声区間の最尤音素系列と、キーワード辞書に登録された各キーワードの発声を表す音素系列とを比較することにより、音声区間においてユーザが何れかのキーワードを発声したか否かを判定する。

図３は、キーワード辞書の一例を示す図である。キーワード辞書３００には、キーワードごとに、そのキーワードの表記を表す文字列と、そのキーワードの発音を表す音素系列が登録される。例えば、キーワード「自宅へ帰る」に対して、その音素系列"jitakuekaeru"が登録されている。

例えば、判定部２４は、キーワード辞書に登録されたキーワードごとに、そのキーワードの音素系列と最尤音素系列との類似度Pを、例えば、次式に従って算出する。

ここで、Cは、最尤音素系列と着目するキーワードの音素系列間で一致する音素の数であり、Dは、着目するキーワードの音素系列に含まれるものの、最尤音素系列には含まれない音素の数である。そしてSは、着目するキーワードの音素系列に含まれ、かつ、最尤音素系列の対応位置の音素と異なる音素の数である。

判定部２４は、各キーワードの類似度のうちの最大値を、一致判定閾値と比較する。そしてその最大値が一致判定閾値よりも大きい場合、判定部２４は、その最大値に対応するキーワードが音声区間においてユーザにより発声されたと判定する。そして処理部１３は、ユーザにより発声されたと判定されたキーワードを表す情報を、例えば、通信インターフェース（図示せず）を介して音声認識装置１と接続される装置へ出力する。あるいは、処理部１３は、ユーザにより発声されたと判定されたキーワードに応じた処理を実行してもよい。また、処理部１３は、記憶部１４に保存されている最尤音素系列を削除してもよい。そして処理部１３は、その音声区間に対する音声認識処理を終了する。

一方、類似度の最大値が一致判定閾値以下である場合、判定部２４は、最尤音素系列を記憶部１４に保存する。

なお、判定部２４は、音声認識により特定のキーワードを認識する他の技術を利用して、キーワード辞書に登録されている何れかのキーワードが発声されたか否かを判定してもよい。この場合でも、判定部２４は、キーワード辞書に登録されている何れのキーワードについても発声されていないと判定した場合、最尤音素系列を記憶部１４に保存する。

共通音素系列抽出部２５は、最尤音素系列が二つ以上記憶部１４に保存されると、すなわち、何れのキーワードも認識されずに、ユーザが繰り返し発声すると、最尤音素系列同士で共通する音素を発声順に並べた系列（以下、単に共通音素系列と呼ぶ）を抽出する。

本実施形態では、共通音素系列抽出部２５は、二つの最尤音素系列のそれぞれから、無音を表す音素を削除することが好ましい。無音を表す音素は、認識対象となるキーワードと無関係であるためである。例えば、単語の直前の無音が"silB"、単語の直後の無音が"silE"、そしてショートポーズが"sp"という音素で表される場合、これら音素"silB"、"silE"及び"sp"が最尤音素系列から削除される。また、共通音素系列抽出部２５は、二つの最尤音素系列のうちの一方にしか表れない音素も、各最尤音素系列から削除することが好ましい。二つの最尤音素系列のうちの一方にしか表れない音素は、それら最尤音素系列で共通することはないためである。

無音を表す音素、及び、一方の最尤音素系列にしか表れない音素が各最尤音素系列から削除された後、共通音素系列抽出部２５は、その二つの最尤音素系列の先頭から順に、互いに一致する音素を抽出する。そして共通音素系列抽出部２５は、抽出した音素を先頭から並べたものを共通音素系列とする。

図４は、最尤音素系列と共通音素系列の一例を示す図である。図４に示されるように、ユーザが１回目に、「えっと自宅、じゃなかった、家に帰る」と発声したとする。この発声に対して、最尤音素系列４０１が得られる。一方、ユーザが２回目に、「違うか。自宅、自分の住んでいるところ、に帰る」と発声したとする。この発声に対して、最尤音素系列４０２が得られる。なお、最尤音素系列４０１及び最尤音素系列４０２において、音素"sp"、"silB"、及び"silE"は、無音を表す音素である。

上記のように、無音を表す音素、及び、一方の最尤音素系列にしか表れない音素が最尤音素系列４０１及び最尤音素系列４０２からそれぞれ削除されることにより、修正された最尤音素系列４１１及び最尤音素系列４１２が得られる。このうち、共通する音素を先頭から順に抽出することにより、共通音素系列("oitakuertknikaeuq")４２０が得られる。

共通音素系列抽出部２５は、抽出した共通音素系列を記憶部１４に保存する。

照合部２６は、共通音素系列と、キーワード辞書に登録されている各キーワードの音素系列との類似度を算出し、各キーワードのうち、共通音素系列に最も類似する音素系列を持つキーワードを特定する。

共通音素系列は、キーワード辞書に登録されている何れのキーワードもユーザが発声していない場合に抽出されるので、共通音素系列は、キーワード辞書に登録されている何れのキーワードの音素系列とも完全には一致しない可能性がある。一方、ユーザは、意図した操作に対応する音声を発しているので、その操作に対応するキーワードと類似した語句を発していると考えられる。特に、ユーザが繰り返し発声した音声において共通する部分は、その意図した操作に対応するキーワードの一部を含んでいる可能性がある。そこで、本実施形態では、照合部２６は、動的計画法(Dynamic Programming)にしたがって、共通音素系列とキーワード辞書に登録されている各キーワードの音素系列とを照合して、キーワードごとに共通音素系列に対する類似度を算出する。そして照合部２６は、各キーワードの類似度に基づいて共通音素系列と最も類似する音素系列を持つキーワードを特定する。なお、以下では、動的計画法に従った照合を、DPマッチングと呼ぶ。

例えば、照合部２６は、キーワード辞書に登録されているキーワードごとに、そのキーワードに対応する音素系列と共通音素系列との間のレーベンシュタイン距離（編集距離とも呼ばれる）を算出する。その際、照合部２６は、DPマッチングにより、累積距離が最小となる最短パスを求める。

図５は、本実施形態により利用されるDPマッチングを用いた、最適パスの探索手順の説明図である。図５において、横軸には、格子点ごとに、共通音素系列に含まれる各音素が左から順に示される。また、縦軸には、格子点ごとに、着目するキーワードの音素系列に含まれる各音素が下から順に示される。

照合部２６は、左下端の格子点から右上端の格子点へ向かう経路のうち最適パスを探索する。すなわち、照合部２６は、レーベンシュタイン距離が最小となるパスを探索する。この場合、左下端の格子点が最初の注目格子点となる。そして照合部２６は、注目格子点の右側、上側及び右上側に隣接する格子点の何れかを次の注目格子点とする。例えば、照合部２６は、現在の注目格子点から右上に隣接する注目格子点へ遷移した場合に、次の注目格子点が属する行に対応するキーワードの音素と、注目格子点が属する列に対応する、共通音素系列の音素が一致するか否か判定する。そして一致すれば、編集距離に加算されるポイントは'0'となる。しかし、一致しなければ、編集距離に加算されるポイントは'+1'となる。なお、両者が一致しないことは、共通音素系列の次の注目格子点に対応する音素が着目するキーワードの音素系列において置換されたことに相当する。

また、現在の注目格子点に対して上側に隣接する格子点が次の注目格子点となる場合、編集距離に加算されるポイントは'+1'となる。なお、この上側への遷移は、着目するキーワードに対応する音素系列への音素の挿入に相当する。さらに、現在の注目格子点に対して右側に隣接する格子点が次の注目格子点となる場合も、編集距離に加算されるポイントは'+1'となる。なお、この右側への遷移は、着目するキーワードに対応する音素系列中の音素の欠落に相当する。
図５に示した例では、矢印で示される経路５０１が最短パスとなり、また、各点５０２は、その最短パスにおいて、共通音素系列と着目するキーワードに対応する音素系列との間で一致した音素を表す。したがって、この例では、レーベンシュタイン距離D(I,J)は"7"となる。

照合部２６は、キーワード辞書に登録されている各キーワードについて、DPマッチングの結果を利用してそのキーワードの音素系列と共通音素系列間の類似度を算出する。例えば、照合部２６は、次式に従って類似度Pを算出する。

ここで、D(I,J)は、着目するキーワードの音素系列と共通音素系列間のレーベンシュタイン距離を表す。またI、Jは、それぞれ、着目するキーワードの音素系列に含まれる音素の数、共通音素系列に含まれる音素の数を表す。そしてαは予め設定される定数であり、例えば、1である。（３）式から明らかなように、レーベンシュタイン距離が小さいほど、かつ、着目するキーワードの音素系列に含まれる音素の数、及び共通音素系列に含まれる音素の数が多いほど、類似度Pは大きくなる。

あるいは、照合部２６は、（２）式に従って、着目するキーワードの音素系列と共通音素系列間の一致度合に基づいて類似度Pを算出してもよい。この場合には、Cは、共通音素系列と着目するキーワードの音素系列間で一致する音素の数であり、Dは、着目するキーワードの音素系列に含まれるものの、共通音素系列には含まれない音素の数である。そしてSは、着目するキーワードの音素系列に含まれ、かつ、共通音素系列の対応位置の音素と異なる音素の数である。

図６は、この変形例による、類似度算出の一例を示す図である。上側に示される、着目するキーワードの音素系列６０１と、下側に示される、共通音素系列６０２とで、互いに一致する音素は四角で囲まれている。この例では、C=13、D=0、S=3となるので、類似度Pは略81%となる。

なお、この例では、共通音素系列には含まれるものの、着目するキーワードの音素系列には含まれない音素の数は、類似度Pにおいて考慮されていない。この理由は、もともと、ユーザがキーワード辞書に登録されているキーワードを発声しておらず、共通音素系列には、キーワード辞書に登録されている何れのキーワードに対しても、そのキーワードの音素系列に含まれない音素が含まれると想定されるためである。

照合部２６は、類似度が最大となるキーワードを特定する。そして照合部２６は、特定したキーワードを提示部２７に通知する。なお、照合部２６は、類似度の最大値が所定の閾値以下である場合には、共通音素系列からはユーザが意図しているキーワードを検出できないとして、類似度が最大となるキーワードを提示部２７に通知しなくてもよい。この場合には、処理部１３は、記憶部１４に保存されている各最尤音素系列（または、古い方の最尤音素系列）と共通音素系列を消去してもよい。そして処理部１３は、類似度の最大値が所定の閾値よりも大きくなるまで、発声ごとに最尤音素系列の探索、共通音素系列の抽出及びキーワードの音素系列と共通音素系列間の類似度の算出を繰り返してもよい。

提示部２７は、特定されたキーワードをユーザに提示する。例えば、提示部２７は、音声認識装置１と接続された表示装置（図示せず）に、そのキーワードを表示させる。あるいは、提示部２７は、特定されたキーワードが何らかの操作と関連付けられている場合、その操作の内容を表す語句を表示装置に表示させてもよい。例えば、特定されたキーワードが「自宅へ帰る」である場合、提示部２７は、「自宅へのルートを設定してもよろしいでしょうか」との語句を表示する。なお、提示部２７は、そのような語句を決定するために、キーワードと操作の内容及び表示する語句とを関連付けたテーブルを参照して、特定されたキーワードに対応する操作の内容及び表示する語句を決定すればよい。そのようなテーブルは、予め記憶部１４に保存される。

あるいはまた、提示部２７は、特定されたキーワードを表す文字列、あるいはキーワードと関連する操作の内容を表す文字列に基づいてそのキーワードに対応する合成音声信号を生成してもよい。そして提示部２７は、その合成音声信号を、音声認識装置１と接続されたスピーカを介して再生してもよい。その際、提示部２７は、文字列から合成音声信号を生成する様々な音声合成技術の何れを利用してもよい。これにより、音声認識装置１がナビゲーションシステムに実装されている場合のように、ユーザが表示装置を視認することができない場合でも、提示部２７は、ユーザにキーワードを提示することができる。

そしてユーザが、提示されたキーワードを確認して所定の入力操作を行うことで、音声認識装置１と接続された装置、あるいは、音声認識装置１が実装された装置が、そのキーワードに対応する操作を行ってもよい。あるいは、ユーザが承認か非承認かを表す音声を発し、音声認識装置１がその音声を認識することで承認か非承認かを判定してもよい。そして音声認識装置１が、ユーザが承認したことを表す音声を発したと判定した場合、音声認識装置１と接続された装置、あるいは、音声認識装置１が実装された装置が、そのキーワードに対応する操作を行ってもよい。

図７は、本実施形態による、音声認識処理の動作フローチャートである。処理部１３は、下記の動作フローチャートに従って音声認識処理を実行する。

音声区間検出部２１は、入力された音声信号から音声区間を検出する（ステップＳ１０１）。特徴抽出部２２は、音声区間内のフレームごとに、ユーザの声の特徴を表す複数の特徴量を含む特徴ベクトルを算出する（ステップＳ１０２）。

最尤音素系列探索部２３は、各フレームの特徴ベクトルに基づいて、音声区間において発声された音声に対応する最尤音素系列を探索する（ステップＳ１０３）。そして判定部２４は、最尤音素系列とキーワード辞書に基づいて、音声区間においてキーワード辞書に登録されている何れかのキーワードが検出されたか否か判定する（ステップＳ１０４）。何れかのキーワードが検出された場合（ステップＳ１０４−Ｙｅｓ）、処理部１３は、そのキーワードを表す情報を出力して、音声認識処理を終了する。

一方、音声区間におけるユーザの音声が、キーワード辞書に登録されている何れのキーワードとも一致しないと判定した場合（ステップＳ１０４−Ｎｏ）、判定部２４は、最尤音素系列を記憶部１４に保存する（ステップＳ１０５）。

その後、処理部１３は、最尤音素系列が二つ以上記憶部１４に保存されているか否か判定する（ステップＳ１０６）。保存されている最尤音素系列が１個である場合（ステップＳ１０６−Ｎｏ）、処理部１３は、新たに入力された音声信号に対してステップＳ１０１以降の処理を繰り返す。

一方、保存されている最尤音素系列が２以上である場合（ステップＳ１０６−Ｙｅｓ）、共通音素系列抽出部２５は、各最尤音素系列から、共通音素系列を抽出する（ステップＳ１０７）。そして照合部２６は、DPマッチングに従って、キーワード辞書に登録されている各キーワードの音素系列と共通音素系列間の類似度を算出する（ステップＳ１０８）。そして照合部２６は、類似度の最大値に対応するキーワードをユーザに提示する（ステップＳ１０９）。そして処理部１３は、音声認識処理を終了する。

以上に説明してきたように、この音声認識装置は、ユーザが発声した音声からキーワード辞書に登録された何れのキーワードも認識されなかった場合において、繰り返し発声された複数の音声区間の最尤音素系列間で共通して出現する共通音素系列を抽出する。そしてこの音声認識装置は、共通音素系列と、キーワード辞書に登録されている各キーワードの音素系列との類似度をDPマッチングに基づいて算出し、その類似度の最大値に対応するキーワードを特定してユーザに提示する。そのため、この音声認識装置は、ユーザがキーワード辞書に登録されているキーワードを正確に発声せず、発声の度に異なる語句を発しても、ユーザが音声認識装置に認識させようとしたキーワードを特定できる。そのため、この音声認識装置は、ユーザがキーワードを正確に覚えていない場合でも、ユーザがそのキーワードを発声しようとして繰り返し発声することを止めることができる。

なお、変形例によれば、発音の際に互いに置換され得る音素のグループを表す情報が予め記憶部１４に保存されてもよい。そして共通音素系列抽出部２５は、各最尤音素系列において、音素グループに含まれる音素を、その音素グループの代表音素に置換してから共通音素系列を抽出してもよい。これにより、共通音素系列抽出部２５は、より適切な共通音素系列を抽出できる。

図８は、音素グループと代表音素の関係を表すテーブルの一例を示す図である。この例では、テーブル８００の行ごとに、一つの音素グループが示される。この例では、調音形態が似ている音素同士がグループ化される。例えば、１番目の音素グループには、音素"s"と音素"z"が含まれており、この音素グループに含まれる音素は、代表音素"s"で置換される。また、２番目の音素グループには、音素"t"と音素"d"が含まれており、この音素グループに含まれる音素は、代表音素"t"で置換される。

なお、音素グループは、音声認識実験を行って得られる音素置換誤りに関するコンフュージョンマトリックスに基づいて、互いに誤り易い音素同士をグループ化することで求められてもよい。また音素グループごとの代表音素は、その音素グループに含まれる何れの音素に設定されてもよい。

図９は、この変形例による、最尤音素系列の補正に関するフローチャートである。共通音素系列抽出部２５は、最尤音素系列ごとに、このフローチャートに従って補正した後に、共通音素系列を抽出すればよい。

共通音素系列抽出部２５は、着目する最尤音素系列に含まれる音素のうち、何れかの音素グループに含まれる音素をその音素グループの代表音素で置換する（ステップＳ２０１）。そして共通音素系列抽出部２５は、その最尤音素系列から、無音を表す音素を削除する（ステップＳ２０２）。その後、共通音素系列抽出部２５は、その最尤音素系列に含まれるものの、共通音素系列の抽出の際に参照される他方の最尤音素系列に含まれない音素を削除する（ステップＳ２０３）。そして共通音素系列抽出部２５は、最尤音素系列の補正を終了する。
なお、共通音素系列抽出部２５は、ステップＳ２０１の処理とステップＳ２０２の処理の順序を入れ替えてもよい。

同様に、照合部２６も、キーワード辞書に登録されている各キーワードの音素系列について、音素グループに含まれる音素をその音素グループの代表音素に置換してから、共通音素系列との類似度を算出してもよい。これにより、照合部２６は、より正確に各キーワードの音素系列と共通音素系列との類似度を算出できる。

さらに他の変形例によれば、共通音素系列抽出部２５は、３個以上の最尤音素系列から共通音素系列を抽出してもよい。この場合、共通音素系列抽出部２５は、二つの最尤音素系列が得られると、その二つの最尤音素系列から共通音素系列を抽出して、記憶部１４に保存する。そして共通音素系列抽出部２５は、次の最尤音素系列が得られると、保存されている共通音素系列と最新の最尤音素系列とから共通音素系列をさらに抽出して、記憶部１４に保存する。このように、共通音素系列抽出部２５は、新たに最尤音素系列が得られる度に、既に得られている共通音素系列との間で共通音素系列を抽出することで、共通音素系列を更新する。これにより、キーワード辞書に登録されているキーワードの音素系列には含まれず、かつ、共通音素系列に含まれる音素の数が減少する。そのため、照合部２６により、ユーザが意図した正しいキーワードが選択される精度が向上する。

なお、この変形例において、共通音素系列抽出部２５は、３個以上の最尤音素系列において、過半数の最尤音素系列に共通する音素を抽出して、抽出した音素を発声順に並べることにより共通音素系列を抽出してもよい。この場合、共通音素系列抽出部２５は、ユーザが発声の度に繰り返した語句に対応する音素以外でも、比較的多い回数繰り返した語句に対応する音素を共通音素系列に含めることができる。そのため、ユーザが意図したキーワードと異なる類似の語句を毎回繰り返さなくても、そのキーワードを特定できる可能性が向上する。

さらに他の変形例によれば、照合部２６は、類似度が大きい方から順に、２以上の所定数のキーワードを特定してもよい。そして提示部２７は、その所定数のキーワードをユーザに表示してもよい。これにより、ユーザが意図したキーワードが提示されたキーワードに含まれる可能性が高くなる。

また上記の実施形態または変形例による音声認識装置は、サーバクライアント型のシステムに実装されてもよい。
図１０は、上記の何れかの実施形態またはその変形例による音声認識装置が実装されたサーバクライアントシステムの概略構成図である。
サーバクライアントシステム１００は、端末１１０とサーバ１２０とを有し、端末１１０とサーバ１２０とは、通信ネットワーク１３０を介して互いに通信可能となっている。なお、サーバクライアントシステム１００が有する端末１１０は複数存在してもよい。同様に、サーバクライアントシステム１００が有するサーバ１２０は複数存在してもよい。

端末１１０は、音声入力部１１１と、記憶部１１２と、通信部１１３と、制御部１１４とを有する。音声入力部１１１、記憶部１１２及び通信部１１３は、例えば、制御部１１４とバスを介して接続されている。

音声入力部１１１は、例えば、オーディオインターフェースとＡ／Ｄコンバータを有する。そして音声入力部１１１は、例えば、マイクロホンからアナログ信号である音声信号を取得し、その音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そして音声入力部１１１は、デジタル化された音声信号を制御部１１４へ出力する。

記憶部１１２は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部１１２は、端末１１０を制御するためのコンピュータプログラム、端末１１０の識別情報、音声認識処理で利用される各種のデータ及びコンピュータプログラムなどを記憶する。

通信部１１３は、端末１１０を通信ネットワーク１３０に接続するためのインターフェース回路を有する。そして通信部１１３は、制御部１１４から受け取った特徴ベクトルを、端末１１０の識別情報とともに通信ネットワーク１３０を介してサーバ１２０へ送信する。

制御部１１４は、一つまたは複数のプロセッサとその周辺回路を有する。そして制御部１１４は、上記の各実施形態または変形例による処理部の各機能のうち、音声区間検出部２１、特徴抽出部２２及び提示部２７の機能を実現する。すなわち、制御部１１４は、音声信号から音声区間を検出し、音声区間内の各フレームから人の声の特徴を表す複数の特徴量を含む特徴ベクトルを算出する。そして制御部１１４は、フレームごとの特徴ベクトルを、端末１１０の識別情報とともに、通信部１１３及び通信ネットワーク１３０を介してサーバ１２０へ送信する。また制御部１１４は、サーバ１２０から受け取った、特定されたキーワードをディスプレイ（図示せず）に表示するか、あるいは、特定されたキーワードに対応する合成音声信号をスピーカ（図示せず）を介して再生する。

サーバ１２０は、通信部１２１と、記憶部１２２と、処理部１２３とを有する。通信部１２１及び記憶部１２２は、処理部１２３とバスを介して接続されている。

通信部１２１は、サーバ１２０を通信ネットワーク１３０に接続するためのインターフェース回路を有する。そして通信部１２１は、フレームごとの特徴ベクトルと端末１１０の識別情報とを端末１１０から通信ネットワーク１３０を介して受信して処理部１２３に渡す。

記憶部１２２は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部１２２は、サーバ１２０を制御するためのコンピュータプログラムなどを記憶する。また記憶部１２２は、音声認識処理を実行するためのコンピュータプログラム及び各端末から受信したフレームごとの特徴ベクトルを記憶していてもよい。

処理部１２３は、一つまたは複数のプロセッサとその周辺回路を有する。そして処理部１２３は、上記の各実施形態または変形例による音声認識装置の処理部の各機能のうち、音声区間検出部２１、特徴抽出部２２及び提示部２７以外の各部の機能を実現する。すなわち、処理部１２３は、端末１１０から受信した、フレームごとの特徴ベクトルを用いて最尤音素系列を求め、その最尤音素系列に基づいてキーワード辞書に登録されたキーワードを検出できるか否か判定する。処理部１２３は、一つの音声信号からキーワードを検出できない場合には、複数の音声信号のそれぞれから得られた最尤音素系列から共通音素系列を抽出し、共通音素系列に最も類似する音素系列を持つキーワードを特定する。そして処理部１２３は、特定したキーワードを表す情報またはそのキーワードに対応する合成音声信号を通信部１２１及び通信ネットワーク１３０を介して端末１１０へ送信する。

なお、端末１１０は、音声信号そのものをサーバ１２０へ送信してもよい。この場合には、サーバ１２０の処理部１２３が、上記の各実施形態または変形例による音声認識装置の処理部の機能のうち、提示部２７以外の機能を実現する。

上記の各実施形態または変形例による音声認識装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体または光記録媒体といったコンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。

ここに挙げられた全ての例及び特定のキーワードは、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
ユーザの第１の音声信号から当該第１の音声信号中に含まれる音素の第１の系列を抽出し、
前記ユーザの第２の音声信号から当該第２の音声信号中に含まれる音素の第２の系列を抽出し、
前記第１の系列と前記第２の系列間で共通する音素の系列を抽出し、
登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する、
ことをコンピュータに実行させるための音声認識用コンピュータプログラム。
（付記２）
前記所定数のキーワードを選択することは、前記複数のキーワードのうち、前記キーワードごとの前記類似度が大きい方から順に前記所定数のキーワードを選択する、付記1に記載の音声認識用コンピュータプログラム。
（付記３）
前記共通する音素の系列を抽出することは、前記第１の系列及び前記第２の系列のそれぞれから無音を表す音素を削除してから前記共通する音素の系列を抽出する、付記１または２に記載の音声認識用コンピュータプログラム。
（付記４）
前記共通する音素の系列を抽出することは、前記第１の系列及び前記第２の系列のそれぞれから前記第１の系列及び前記第２の系列の何れか一方にのみ含まれる音素を削除してから前記共通する音素の系列を抽出する、付記１〜３の何れかに記載の音声認識用コンピュータプログラム。
（付記５）
前記共通する音素の系列を抽出することは、前記第１の系列及び前記第２の系列のそれぞれについて、当該系列に含まれ、かつ、互いに置換され得る音素グループに属する音素を、当該音素グループと関連付けられた代表音素に置換してから前記共通する音素の系列を抽出する、付記１〜４の何れかに記載の音声認識用コンピュータプログラム。
（付記６）
前記第１の音声信号中で前記ユーザが発声している第１の音声区間を検出し、かつ、前記第２の音声信号中で前記ユーザが発声している第２の音声区間を検出することをさらにコンピュータに実行させ、
前記第１の系列を抽出することは、前記第１の音声区間に含まれる音素の系列を前記第１の系列として抽出し、
前記第２の系列を抽出することは、前記第２の音声区間に含まれる音素の系列を前記第２の系列として抽出する、付記１〜５の何れかに記載の音声認識用コンピュータプログラム。
（付記７）
前記複数のキーワードのそれぞれについて前記類似度を算出することは、前記複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列間の編集距離を算出し、当該編集距離に基づいて前記類似度を算出する、付記１〜６の何れかに記載の音声認識用コンピュータプログラム。
（付記８）
前記複数のキーワードのそれぞれについて前記類似度を算出することは、前記複数のキーワードのそれぞれについて、動的計画法マッチングにより前記編集距離の最小値を求め、当該最小値に基づいて前記類似度を算出する、付記７に記載の音声認識用コンピュータプログラム。
（付記９）
前記複数のキーワードのそれぞれについて前記類似度を算出することは、前記複数のキーワードのそれぞれについて、動的計画法マッチングにより前記編集距離の最小値を求め、当該最小値となるときの当該キーワードに対応する音素の系列と前記共通する音素の系列間の一致度合に基づいて前記類似度を算出する、付記７に記載の音声認識用コンピュータプログラム。
（付記１０）
前記ユーザの声が表された第３の音声信号から当該第３の音声信号中に含まれる音素の第３の系列を抽出することをさらにコンピュータに実行させ、
前記共通する音素の系列を抽出することは、前記第１の系列と、前記第２の系列と、前記第３の系列との間で共通する音素の系列を抽出する、付記１〜９の何れかに記載の音声認識用コンピュータプログラム。
（付記１１）
選択された前記所定数のキーワードを前記ユーザに提示することをさらにコンピュータに実行させる、付記１〜７の何れかに記載の音声認識用コンピュータプログラム。
（付記１２）
ユーザの第１の音声信号から当該第１の音声信号中に含まれる音素の第１の系列を抽出し、
前記ユーザの第２の音声信号から当該第２の音声信号中に含まれる音素の第２の系列を抽出し、
前記第１の系列と前記第２の系列間で共通する音素の系列を抽出し、
登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する、
ことを含む音声認識方法。
（付記１３）
ユーザの第１の音声信号から当該第１の音声信号中に含まれる音素の第１の系列を抽出し、かつ、前記ユーザの第２の音声信号から当該第２の音声信号中に含まれる音素の第２の系列を抽出する音素系列抽出部と、
前記第１の系列と前記第２の系列間で共通する音素の系列を抽出する共通音素系列抽出部と、
登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する照合部と、
を有する音声認識装置。

１音声認識装置
１１インターフェース部
１２Ａ／Ｄコンバータ
１３処理部
１４記憶部
１５通信インターフェース部
２１音声区間検出部
２２特徴抽出部
２３最尤音素系列探索部
２４判定部
２５共通音素系列抽出部
２６照合部
２７提示部
１００サーバクライアントシステム
１１０端末
１１１音声入力部
１１２記憶部
１１３通信部
１１４制御部
１２０サーバ
１２１通信部
１２２記憶部
１２３処理部
１３０通信ネットワーク

Claims

ユーザの第１の音声信号から当該第１の音声信号中に含まれる音素の第１の系列を抽出し、
前記ユーザの第２の音声信号から当該第２の音声信号中に含まれる音素の第２の系列を抽出し、
前記第１の系列と前記第２の系列間で共通する音素の系列を抽出し、
登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する、
ことをコンピュータに実行させるための音声認識用コンピュータプログラム。
前記所定数のキーワードを選択することは、前記複数のキーワードのうち、前記キーワードごとの前記類似度が大きい方から順に前記所定数のキーワードを選択する、請求項1に記載の音声認識用コンピュータプログラム。
前記共通する音素の系列を抽出することは、前記第１の系列及び前記第２の系列のそれぞれから無音を表す音素を削除してから前記共通する音素の系列を抽出する、請求項１または２に記載の音声認識用コンピュータプログラム。
前記共通する音素の系列を抽出することは、前記第１の系列及び前記第２の系列のそれぞれから前記第１の系列及び前記第２の系列の何れか一方にのみ含まれる音素を削除してから前記共通する音素の系列を抽出する、請求項１〜３の何れか一項に記載の音声認識用コンピュータプログラム。
前記共通する音素の系列を抽出することは、前記第１の系列及び前記第２の系列のそれぞれについて、当該系列に含まれ、かつ、互いに置換され得る音素グループに属する音素を、当該音素グループと関連付けられた代表音素に置換してから前記共通する音素の系列を抽出する、請求項１〜４の何れか一項に記載の音声認識用コンピュータプログラム。
前記複数のキーワードのそれぞれについて前記類似度を算出することは、前記複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列間の編集距離を算出し、当該編集距離に基づいて前記類似度を算出する、請求項１〜５の何れか一項に記載の音声認識用コンピュータプログラム。
ユーザの第１の音声信号から当該第１の音声信号中に含まれる音素の第１の系列を抽出し、
前記ユーザの第２の音声信号から当該第２の音声信号中に含まれる音素の第２の系列を抽出し、
前記第１の系列と前記第２の系列間で共通する音素の系列を抽出し、
登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する、
ことを含む音声認識方法。
ユーザの第１の音声信号から当該第１の音声信号中に含まれる音素の第１の系列を抽出し、かつ、前記ユーザの第２の音声信号から当該第２の音声信号中に含まれる音素の第２の系列を抽出する音素系列抽出部と、
前記第１の系列と前記第２の系列間で共通する音素の系列を抽出する共通音素系列抽出部と、
登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する照合部と、
を有する音声認識装置。