JP4333838B2

JP4333838B2 - 複数言語音声認識プログラム及び複数言語音声認識システム

Info

Publication number: JP4333838B2
Application number: JP2003191875A
Authority: JP
Inventors: 巌高松; 崇徳柴田
Original assignee: National Institute of Advanced Industrial Science and Technology AIST; Microjenics Inc
Current assignee: National Institute of Advanced Industrial Science and Technology AIST; Microjenics Inc
Priority date: 2003-07-04
Filing date: 2003-07-04
Publication date: 2009-09-16
Anticipated expiration: 2023-07-04
Also published as: JP2005025024A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力音声に最も似ている候補単語を複数の言語毎に抽出し、そのうちの一つの言語の候補単語を認識結果と判断するものであって、特定言語の使用頻度が高いと判断される場合には、特定言語と異なる言語の認識確率を抑制することのできるプログラム及びシステムに関する。
【０００２】
【従来の技術】
複数言語認識プログラムには、英語と日本語を認識するものとして、図５に示すようにコンピュータに以下のステップを実行させるものがある。登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を二つの言語毎に選択して各言語の候補単語とする言語認識ステップ。各言語の候補単語固有のしきい値と、各候補単語の求めた距離値を比較して、距離値がしきい値よりも小さい候補単語がないときには認識不能とし、距離値がしきい値よりも小さい候補単語が一つあるときにはその候補単語を認識結果とし、候補単語が二つあるときには、候補単語毎に求めた距離値としきい値の差を比較して、差がある場合には、差の大きい方の候補単語を認識結果とする判定ステップ。
【０００３】
ここで距離値とは、基本的には、登録されている候補単語の基準音声データ（波形データ）と、入力された音声データ（波形データ）を比較し、離れ具合を示した値である。但し、データ同士を単に比較すると、効率が悪いので、データの特徴部分について比較する方法を用いることがある（例えば非特許文献１，２，３参照）。
【０００４】
また、しきい値とは、距離値に対して設定する任意の値であって、同じ音声とみなすか否かの分かれ目となる目安の値であり、距離値がしきい値よりも小さい場合には同じ音声とみなし、距離値がしきい値よりも大きい場合には別の音声とみなす。なお、しきい値は、上述したように目安の値であるので、距離値としきい値が計算上同じ場合には、同じ音声とみなすか、別の音声とみなすかは自由に設定して良い。
【０００５】
【非特許文献１】
橋本浩一、”特徴選択と特徴空間の変換”、２頁、[online]、東京大学大学院情報理工学系研究科システム情報学専攻 / 工学部計数工学科石川橋本研究室、[平成１５年６月１６日検索]、インターネット＜ＵＲＬ：http://www.k2.t.u-tokyo.ac.jp/members/hashimoto/pattern.html＞
【非特許文献２】
下萩原勉、”テンプレート切り出しによる不特定話者対応のワードスポッティング”、9頁、10頁、[online]、東京大学大学院情報理工学系研究科電子情報学専攻田中(英)・坂井研究室、[平成１５年６月１６日検索]、インターネット＜ＵＲＬ：http://www.mtl.t.u-tokyo.ac.jp/Research/mtl99bib-j.html＞
【非特許文献３】
松谷融、”音声認識による機器の制御”、5頁、14頁、[online]、高知工科大学工学部知能機械システム工学科、インターネット＜ＵＲＬ：http://www.kochi-tech.ac.jp/library/pp/2000/mec/mec.htm＞
【０００６】
【発明が解決しようとする課題】
上述したプログラムは、日本語と英語の双方で、まず、入力音声と距離が最も近い候補単語を一つ選択し、次に、候補単語の距離値がしきい値に入っていれば、その候補単語を認識結果としても良いと考え、日本語と英語の一方のみ候補単語の距離値がしきい値に入っている場合には、入っている言語の候補単語を認識結果とし、日本語と英語の双方の候補単語の距離値がしきい値に入っている場合には、しきい値から遠い方の候補単語を認識結果とすれば正しい認識結果になるはず、という思想で作られている。
【０００７】
しかしながら、しきい値という概念からすれば、日本語と英語の双方の候補単語の距離値がしきい値に入っている場合には、何れを認識結果としても本来は良いはずである。それにも関わらず、しきい値から遠い候補単語を認識結果とするという思想に基づく従来のプログラムは、日本語と英語の発生頻度について差がある場合には、誤った認識結果になる確率が高くなると思われる。つまり、例えば日本語の入力が続いているときに日本語で「パロ」と言ったのに、英語の「Hello」として認識する場合である。従って、このような不具合をできる限り減らすために、特定の言語の認識結果が多い場合には、特定の言語を認識結果として採用しやすくし、他の言語が認識結果として採用され難くするプログラム及びシステムを発明した。
【０００８】
【課題を解決するための手段】
請求項１の発明の複数言語音声認識プログラムは、コンピュータに、入力された音声データを取り込み、登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、各言語での選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識ステップと、各言語の候補単語固有のしきい値と各候補単語の求めた距離値を比較して、しきい値を基準にして各候補単語を大きいものと小さいものに二分し、全ての言語について候補単語の距離値がしきい値よりも大きいときには認識不能とし、一つの言語のみについて候補単語の距離値がしきい値よりも小さいときには、その候補単語を認識結果とする判定ステップを実行させることを前提とする。
【０００９】
そして、判定ステップでは、複数の言語について候補単語の距離値がしきい値よりも小さいときには、各言語の相対的な採用されにくさを表すペナルティ値に各候補単語固有のしきい値を合わせた合計値から、各候補単語の求めた距離値を相対的に引いた差を比較して、差の最も大きなものを採用し、採用個数が一つの場合にはその候補単語を認識結果とし、採用個数が複数の場合には何れか一つを選択して認識結果とすることを第一の特徴とする。また、ペナルティ値を増減する経験値を、認識結果の言語とそれ以外の言語の少なくとも一方に付与すると共に、現在付与した経験値を各言語の既存のペナルティ値に加味してペナルティ値を更新するペナルティ値更新ステップを、コンピュータに実行させることを第二の特徴とする。
【００１０】
「加味」としてあるのは、ペナルティ値を更新する要素として経験値を用いてという意味であり、具体的には、経験値を既存のペナルティ値に単純に加算させても良いし、それ以外では例えば、特定言語の認識結果が連続して続く場合はその回数によっては、経験値にボーナス値を付加した状態で既存のペナルティ値に加算しても良い。また、選択個数や採用個数が複数の場合に何れか一つを選択する場合は、ランダムに選択しても良いし、後述する環境データを利用して、そのうち最も相関性の高いものをできる限り選択し、相関性の高いものが複数ある場合や、全てのものについて相関性がない場合にはランダムに選択しても良い。
【００１１】
請求項２の発明は、請求項１記載の複数言語音声認識プログラムを前提とする。そして、ユーザー自身又はユーザの周囲の環境データを取り込む環境取得ステップを、コンピュータに実行させることを第一の特徴とする。また、登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識ステップの代わりに、登録されている単語の基準音声データと入力音声データとの距離を比較して距離値が小さいものから複数の単語を複数の言語毎に抽出し、抽出した単語と環境データを照合して全単語が環境データとは相関性がないときには何れか一つの単語を選択して候補単語とし、一つ以上の単語が環境情報と相関性があるときには、最も相関性の高い単語を選択し、選択個数が一つの場合には、選択した単語を候補単語とし、選択個数が複数の場合には、何れか一つを選択して候補単語とする言語認識ステップを用いることを第二の特徴とする。
【００１２】
請求項３の発明の複数言語音声認識システムは、複数の言語毎に、単語と、単語に対応する基準音声データと、単語に対応するしきい値を登録する登録手段と、音声を入力する音声入力手段と、入力された音声データを取り込み、登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、各言語での選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識手段と、各言語の候補単語固有のしきい値と各候補単語の求めた距離値を比較して、しきい値を基準にして各候補単語を大きいものと小さいものに二分し、全ての言語について候補単語の距離値がしきい値よりも大きいときには認識不能とする判定手段を用いることを前提とする。
【００１３】
そして、登録手段では、複数の言語毎に各言語の相対的な採用されにくさを表すペナルティ値を登録することを第一の特徴とする。また、判定手段では、一つの言語のみについて候補単語の距離値がしきい値よりも小さいときには、その候補単語を認識結果とし、複数の言語について候補単語の距離値がしきい値よりも小さいときには、ペナルティ値に各候補単語固有のしきい値を合わせた合計値から、各候補単語の求めた距離値を相対的に引いた差を比較して、差の最も大きなものを採用し、採用個数が一つの場合にはその候補単語を認識結果とし、採用個数が複数の場合には何れか一つを選択して認識結果とすることを第二の特徴とする。さらに、ペナルティ値を増減する経験値を、認識結果の言語とそれ以外の言語の少なくとも一方に付与すると共に、現在付与した経験値を各言語の既存のペナルティ値に加味してペナルティ値を更新するペナルティ値更新手段を用いることを第三の特徴とする。
【００１４】
請求項４の発明では、請求項３記載の複数言語音声認識システムを前提とする。そして、ユーザー自身又はユーザの周囲の環境データを入力する環境入力手段を設けることを第一の特徴とする。また、登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識手段の代わりに、登録されている単語の基準音声データと入力音声データとの距離を比較して距離値が小さいものから複数の単語を複数の言語毎に抽出し、抽出した単語と環境データを照合して全単語が環境データとは相関性がないときには何れか一つの単語を選択して候補単語とし、一つ以上の単語が環境情報と相関性があるときには、最も相関性の高い単語を選択し、選択個数が一つの場合には、選択した単語を候補単語とし、選択個数が複数の場合には、何れか一つを選択して候補単語とする言語認識手段を用いることを第二の特徴とする。
【００１５】
【発明の実施の形態】
本発明の複数言語認識システムは図２に示すように、センサーや音声入力手段（マイク）１等からなる環境入力手段２が、アンプやＡ／Ｄ変換器等からなるデジタル化手段３を介在してバス４に接続されている。環境入力手段２は、マイクを含むセンサーやキーボード等の入力機器であって、入力される環境データの例としては、音声データ以外には、ユーザーの周囲の画像データ、温度データ等、ユーザー自身の個人データ等が例示できる。ＣＰＵ５は、複数言語認識プログラム６を実行して、例えば入力音声に似ている候補単語を言語毎に選択したり、候補単語の中から最も適切なものを選択して最終的な認識結果として判定したり、認識結果として選択した単語の言語を、次回以降の認識処理で、採用されやすくしたりする。ＲＡＭ７は、例えば入力音声データや選択した候補単語等を一旦格納する。
【００１６】
本システムは、日本語、英語対応のものであり、システム内のメモリには、複数言語認識プログラム６と、日本語用登録手段８と、英語用登録手段９のファイルが格納されている。
【００１７】
日本語用登録手段８は、暗い、おはよう、こんにちは、等の多数の日本語単語１０と、各単語１０に対応する基準音声データ１１と、各単語１０に対応するしきい値ＪＳを関連づけたテーブル１２が記憶されると共に、日本語用のペナルティ値ＪＰの初期値がテーブル１２とは別に記憶されている。
【００１８】
英語用登録手段９も同様に、ＣＲＹ、ＭＯＲＮＩＮＧ、ＨＥＬＬＯ等の多数の英単語１３と、各単語１３に対応する基準音声データ１４と、各単語１３に対応するしきい値ＥＳを関連づけたテーブル１５が記憶されると共に、英語用のペナルティ値ＥＰの初期値が記憶されている。
【００１９】
複数言語認識プログラム６は、日本語認識手段１６と、英語認識手段１７と、判定手段１８と、ペナルティ値更新手段１９とから構成され、ＣＰＵ５、ＲＡＭ７等を利用して以下の処理を行う。
【００２０】
日本語認識手段１６は図１に示すように、音声入力手段から入ってきた入力音声データを取り込んで、入力音声データと、日本語の全ての登録単語の基準音声データとの相対的な差（距離）を算出し、距離値の最も近い（小さい）単語を選択する。距離値の最も近い単語は、一つとは限らず、複数存在することも考えられる。一つの場合には、その単語を候補単語（入力音声データと最も近い単語）とするが、複数存在する場合には、図示しない乱数表を利用して一つを選択し、候補単語とする。
【００２１】
また、乱数表だけでなく、環境入力手段２から入力された環境データを利用して、複数の単語から一つを選択するパターンもある。環境データとは、本システムで認識した過去の単語のうち最新のものや、比較的新しいもの、或いは、センサーから入力される現在の温度データやユーザーの周囲の画像データ、ユーザーの年齢、生年月日に代表される個人データ、等であり、各種センサー（マイクを含む）、キーボード等から入力する。環境データと複数の単語を照合して、最も相関性の高い単語を選択する。最も相関性の高い単語が一つの場合には、その単語を候補単語とするが、複数存在する場合には、乱数表を利用して一つを選択し、候補単語とする。選択した複数の単語全てについて、環境データと相関性が見られない場合には、乱数表を利用して一つを選択し、候補単語とする。
【００２２】
英語認識手段１７は、英単語を利用するということ以外は、日本語認識手段１６と同じ処理を行って、一つの単語を候補単語として選択する。
【００２３】
判定手段１８は、各認識手段１６，１７から選択された日本語の候補単語と、英語の候補単語のどちらかを、音声入力データが意味する言葉であると判定するものである。具体的には、まず、各言語の候補単語のしきい値を基準にして、候補単語の距離値がしきい値よりも大きいか、小さいかを判定する。以後の説明では、計算上しきい値と同じ値の距離値は、しきい値よりも大きいものとみなす。日本語、英語双方の候補単語の距離値がしきい値よりも大きい場合は、該当単語ナシ（適切な単語がなく認識不能）とする。日本語と英語の一方の候補単語の距離値がしきい値よりも大きい場合は、小さい候補単語を認識結果として選択する。日本語と英語の双方の候補単語の距離値がしきい値よりも小さい場合には、しきい値とペナルティ値の合計値から距離値を引いて、差を求め、差の大きい方の候補単語を認識結果として選択する。双方の差が同じ場合には、日本語認識手段１６で行った処理と同様に、乱数表のみに基づいて、又は環境データと乱数表に基づいて、何れか一方の候補単語を認識結果として採用する。そして、認識結果をメインプログラムへ通知する。
【００２４】
ペナルティ値更新手段１９は、認識結果として採用した候補単語の言語を、次回以降の入力音声データに対する認識結果として、採用されやすくするものである。具体的には、認識結果として採用された候補単語の言語には、ペナルティ値を減らす経験値を付与し、認識結果として採用されなかった候補単語の言語には、ペナルティ値を増やす経験値を付与し、現在付与した経験値を各言語の既存のペナルティ値に加味（ここでは加算）して、採用した言語についてはペナルティ値を減らし、採用されなかった言語についてはペナルティ値を増やすことによって、ペナルティ値を更新し、認識結果を反映させる。また、該当単語ナシの場合は、各言語でペナルティ値を維持する。
【００２５】
メインプログラムでは、認識結果をいかなるように利用しても良く、例えば単に記憶させておいても良いし、認識結果をディスプレイ等の出力手段２０（図２参照）に表示しても良いし、認識結果に基づいてロボットの手足を動かしたりしても良い。
【００２６】
上述した本発明のシステムを用いて、音声を具体的な単語として認識するフローを図４を中心に、適宜図３を参照しながら説明する。まず、音声が発せられ、コンピュータ外のハードウェア（音声入力手段等）で、入力音声をデジタルデータとする。デジタル化された入力音声データがコンピュータ内に取り込まれ、日本語認識手段１６では、登録されている全ての単語の基準音声データと入力音声データを比較して、最も距離の近い「暗い」を候補単語として選択する。このとき、予め登録されている「暗い」の基準音声データと、入力音声データとを比較して、その距離値ＪＤが計算で7500になったものとする。一方、英語認識手段１７では、同様にして「ＣＲＹ」を候補単語として選択する。このとき、予め登録されている「ＣＲＹ」の基準音声データと、入力音声データとを比較してその距離値ＥＤが計算で7500になったものとする。
【００２７】
続いて判定手段１８では、予め登録されている「暗い」のしきい値ＪＳ（7610）を利用し、日本語の候補単語の「暗い」のしきい値ＪＳよりも距離値ＪＤが小さいか否かを計算する。
ＪＳ−ＪＤ＝7610−7500＝110＞0
となり、入力音声データを日本語で認識した場合は、暗いと認識しても良いと判定する。
同様に、「ＣＲＹ」についてもしきい値ＳＥ（7640）を利用して計算し、
ＥＳ−ＥＤ＝7640−7500＝140＞0
となり、入力音声データを英語で認識した場合は「ＣＲＹ」と認識しても良いと判定する。
双方の言語で単語を認識しても良いと判定したので、何れか一つに絞る処理に移行する。現在の日本語のペナルティ値ＪＰ（0）と、英語のペナルティ値ＥＰ（90）を利用し、各言語のしきい値からペナルティ値を引いた合計値を基準とし、その基準から各候補単語の距離値を引いた値を以下の計算式で求める。
日本語用の計算（ＪＳ−ＪＰ）−ＪＤ＝（7610−0）−7500＝110
英語用の計算（ＥＳ−ＥＰ）−ＥＤ＝（7640−90）−7500＝50
求めた値を日本語と英語とで比較すると、日本語の値の方が大きいので、日本語の候補単語を認識結果として採用する。なお、ペナルティ値を考慮せずに、しきい値から距離値を引いた値を比較した場合には、英語の値の方が大きくなり、逆の結果、即ち、英語を認識結果として採用することになることから、ペナルティ値の重要性が把握できる。
【００２８】
続いてペナルティ値更新手段１９では、認識結果に採用された日本語については、経験値（−１）を付与し、採用されなかった英語については経験値（＋１）を付与する。そして、予め登録されているペナルティ値の上限値100、下限値0を利用して、それぞれ既存のペナルティ値に経験値を加算し、
日本語ではＪＰ＋（−１）＝０とし、
また、英語ではＥＰ＋（＋１）＝91として、
ペナルティ値を更新する。
【００２９】
上述した例では、日本語と英語の認識システム及びプログラムについて説明したが、３つ以上の言語であっても同様に処理する。
【００３０】
【発明の効果】
本発明は、ペナルティ値を考慮することによって、それまでの認識結果が次回以降の認識で反映されることになる。従って、特定の言語の音声をそれまで頻繁に入力していれば、現在入力した音声データが複数の言語で選択された候補単語のしきい値条件を満たしていて、どの言語の単語とすれば良いのか判別に苦しむときに、その特定言語の単語を最終の認識結果として採用しやすくなる。また、各言語の音声を同じ頻度で入力していれば、全ての言語の候補単語が同じレベルで取り扱われることになる。
【００３１】
また、環境データを取り込んだ場合には、候補単語の選択個数が複数でその優劣が付けにくい場合に環境データと相関性の高い単語を選択することによって、精度の高い認識結果が得られる。
【図面の簡単な説明】
【図１】本発明の複数言語認識プログラムのフローチャートである。
【図２】本発明の複数言語認識システムを示す構成図である。
【図３】本発明の複数言語認識システムによる認識フローを概略的に示した構成図である。
【図４】認識する流れを具体的に示すフローチャートである。
【図５】従来の複数言語認識プログラムのフローチャートである。
【符号の説明】
８日本語用登録手段
９英語用登録手段
１６日本語認識手段
１７英語認識手段
１８判定手段
１９ペナルティ値更新手段

Claims

コンピュータに、
入力された音声データを取り込み、登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、各言語での選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識ステップと、
各言語の候補単語固有のしきい値と各候補単語の求めた距離値を比較して、しきい値を基準にして各候補単語を大きいものと小さいものに二分し、全ての言語について候補単語の距離値がしきい値よりも大きいときには認識不能とし、
一つの言語のみについて候補単語の距離値がしきい値よりも小さいときには、その候補単語を認識結果とし、
複数の言語について候補単語の距離値がしきい値よりも小さいときには、各言語の相対的な採用されにくさを表すペナルティ値に各候補単語固有のしきい値を合わせた合計値から、各候補単語の求めた距離値を相対的に引いた差を比較して、差の最も大きなものを採用し、
採用個数が一つの場合にはその候補単語を認識結果とし、
採用個数が複数の場合には何れか一つを選択して認識結果とする判定ステップと、
ペナルティ値を増減する経験値を、認識結果の言語とそれ以外の言語の少なくとも一方に付与すると共に、現在付与した経験値を各言語の既存のペナルティ値に加味してペナルティ値を更新するペナルティ値更新ステップを、実行させることを特徴とする複数言語音声認識プログラム。
請求項１記載の複数言語音声認識プログラムにおいて、
ユーザー自身又はユーザーの周囲の環境データを取り込む環境取得ステップを、コンピュータに実行させると共に、
登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識ステップの代わりに、
登録されている単語の基準音声データと入力音声データとの距離を比較して距離値が小さいものから複数の単語を複数の言語毎に抽出し、
抽出した単語と環境データを照合して全単語が環境データとは相関性がないときには何れか一つの単語を選択して候補単語とし、
一つ以上の単語が環境情報と相関性があるときには、最も相関性の高い単語を選択し、選択個数が一つの場合には、選択した単語を候補単語とし、選択個数が複数の場合には、何れか一つを選択して候補単語とする言語認識ステップを用いることを特徴とする複数言語音声認識プログラム。
複数の言語毎に各言語の相対的な採用されにくさを表すペナルティ値と、単語と、単語に対応する基準音声データと、単語に対応するしきい値を登録する登録手段（８，９）と、
音声を入力する音声入力手段（１）と、
入力された音声データを取り込み、登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、各言語での選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識手段（１６，１７）と、
各言語の候補単語固有のしきい値と各候補単語の求めた距離値を比較して、しきい値を基準にして各候補単語を大きいものと小さいものに二分し、全ての言語について候補単語の距離値がしきい値よりも大きいときには認識不能とし、
一つの言語のみについて候補単語の距離値がしきい値よりも小さいときには、その候補単語を認識結果とし、
複数の言語について候補単語の距離値がしきい値よりも小さいときには、ペナルティ値に各候補単語固有のしきい値を合わせた合計値から、各候補単語の求めた距離値を相対的に引いた差を比較して、差の最も大きなものを採用し、
採用個数が一つの場合にはその候補単語を認識結果とし、
採用個数が複数の場合には何れか一つを選択して認識結果とする判定手段（１８）と、
ペナルティ値を増減する経験値を、認識結果の言語とそれ以外の言語の少なくとも一方に付与すると共に、現在付与した経験値を各言語の既存のペナルティ値に加味してペナルティ値を更新するペナルティ値更新手段（１９）とからなることを特徴とする複数言語音声認識システム。
請求項３記載の複数言語音声認識システムにおいて、
ユーザー自身又はユーザーの周囲の環境データを入力する環境入力手段（２）を設けると共に、
登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識手段（１６，１７）の代わりに、
登録されている単語の基準音声データと入力音声データとの距離を比較して距離値が小さいものから複数の単語を複数の言語毎に抽出し、
抽出した単語と環境データを照合して全単語が環境データとは相関性がないときには何れか一つの単語を選択して候補単語とし、
一つ以上の単語が環境情報と相関性があるときには、最も相関性の高い単語を選択し、選択個数が一つの場合には、選択した単語を候補単語とし、選択個数が複数の場合には、何れか一つを選択して候補単語とする言語認識手段（１６，１７）を用いることを特徴とする複数言語音声認識システム。