JP2004538526A

JP2004538526A - 音声登録方法及びそのシステム，音声登録方法及びそのシステムに基づく音声認識方法及びそのシステム

Info

Publication number: JP2004538526A
Application number: JP2003519929A
Authority: JP
Inventors: サンジンホン; ソンジュリ; テスキム; テスンリ; ホジンチェ; ビョンウォンファン
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2001-08-09
Filing date: 2001-12-06
Publication date: 2004-12-24
Also published as: WO2003015078A1; EP1417677A1; DE60128270T2; KR20030013855A; EP1417677B1; DE60128270D1; US20050033573A1; US7502736B2; EP1417677A4; KR100406307B1

Abstract

音声認識のための音声登録方法において，外部から入力された音信号のスペクトルを分析する工程と；前記音信号内の音声信号から話者認識のために予め設定された言語単位を抽出する工程と；前記各言語単位の声量を測定する工程と；基準としての複数の背景話者の声量データを含む登録（背景）話者の音声データを音声データベースに収集する工程と；前記各言語単位の声量が前記音声データベースに基づいて，予め設定された声量範囲内にあるか否かを判断する工程と；予め設定された数の言語単位が予め設定された声量範囲内にある場合に，多層神経網を使用して各言語単位を学習する工程と；及び前記学習された各言語単位のデータを前記話者を認識するためのデータとして格納する工程と；を含む。これにより，話者の音声を登録するための学習時と話者の検証時の話者の声量を考慮することにより，より正確に話者を検証することができる。

Description

【技術分野】
【０００１】
本発明は，概して，話者の声量を考慮して音声学習及び音声認識を行うことにより，話者の声量に起因するエラーを防止する，音声登録方法及びそのシステムに基づく音声認識方法及びそのシステムに関する。
【背景技術】
【０００２】
一般に，セキュリティシステムは，主に,国家セキュリティや産業セキュリティのために使用されてきたが，近年においては，個人セキュリティやコンピュータセキュリティのために使用されている。
【０００３】
特に，インターネットを含むネットワークシステムの発達により，コンピュータネットワークシステムは益々侵入に対して被害を受け，したがって，個人情報が電子商取引やインターネットなどのネットワーキングを介して流出しやすくなる，という問題が発生するようになっている。
【０００４】
かかる問題を防止するため，コンピュータシステムの場合においては,コンピュータシステムにアクセスする特定ユーザのみを許可する幾つかの方法が開発されている。かかる方法は,ＩＤ，パースワード，認証キーなどを使用する方法，生体的な特徴を使用する方法に分類される。生体的な特徴は，音声，指紋，手の平，網膜などである。
【０００５】
音声は，人間の意図を示す普遍的かつ簡易な手段である。音声を使用した技術としては，音声を認識する音声認識システム，音声を発声する話者を認識する話者認識システムがある。
【０００６】
話者認識技術においては，ユーザは，IＤ，パースワードを使用する必要はなく，不正使用を防止することできる。また，パーソナルコンピュータシステムにおいて通常具備されるサウンドカード，マイクロフォンだけで話者認識システムを実行するのに十分である。さらに，話者認識システムにおいては，特定ユーザの音声に反応してパーソナルコンピュータシステムの動作を制御することができる。
【０００７】
話者認識は，認識方法の形態により，話者識別と話者検証とに分類される。話者識別は，入力された音声の話者を識別し,話者検証は，話者の音声を検証することにより，話者を認定あるいは拒否する。
【０００８】
一般的な話者認識工程は,以下に説明される。
【０００９】
まず，話者を登録するために，話者は，話者認識システムに話者の声を入力した場合には，入力された音信号の波形がスペクトルとしてあらわされる。スペクトルは分析されて孤立単語が抽出され，その結果，単語から音素がサンプリングされる。ここで，音素は,予め設定され，音声を認識するための基準として採用される。その後,話者認識システムは,話者の各音素をパターンを作成し，続いて，予め設定された音素のパターンと比較され，したがって，話者の特性を学習する。その後,学習が完了すると，話者のパターンが登録される。
【００１０】
その後,音声が，新たに,話者認証システムに入力された場合には,話者認証システムは,上記分析方法により，新たに入力された音声に基づいてパターンを作成し，続いて，登録された（背景）話者の音声パターンと比較し，したがって,話者を認定あるいは拒否する。
【００１１】
また，従来の話者認識システムにおいては，新たに作成されたパターンは,データベースに格納されている登録話者の音声パターンと比較される。しかしながら，データベースに格納されている音声は，低雑音，高性能マイク，一定の声量などの理想的な条件下で録音されるので，データベースに格納されている音声は,実際音声の特別な例を示しているに過ぎない。
【００１２】
データベースに格納されている音声とは異なる条件で発声された音声が入力された場合には，音声認識システムの実行は，影響を受ける。特に，音声の声量がシステムの実行に深刻な影響を与える。
【００１３】
このように，音声認識システムにおいては，音声の声量の影響を考慮した音声学習及び話者検証が提供される必要がある。
【発明の開示】
【発明が解決しようとする課題】
【００１４】
したがって，本発明は，上記欠点及びユーザの要求を考慮し，本発明の目的は，話者の声量を考慮した音声学習及び話者検証を実行することにより，より正確に話者を検証することが可能な音声登録方法及びそのシステムと音声登録方法及びそのシステムに基づく音声認識方法及びそのシステムを提供することにある。
【課題を解決するための手段】
【００１５】
本発明の本目的及び他の目的は，音声認識のための音声登録方法において，外部から入力された音信号のスペクトルを分析する工程と；前記音信号内の音声信号から話者認識のために予め設定された言語単位を抽出する工程と；前記各言語単位の声量を測定する工程と；基準としての複数の背景話者の声量データを含む登録（背景）話者の音声データを音声データベースに収集する工程と；前記各言語単位の声量が前記音声データベースに基づいて，予め設定された声量範囲内にあるか否かを判断する工程と；予め設定された数の言語単位が予め設定された声量範囲内にある場合に，多層神経網を使用して各言語単位を学習する工程と；及び前記学習された各言語単位のデータを前記話者を認識するためのデータとして格納する工程と；を含む，ことを特徴とする音声認識のための音声登録方法により達成される。
【００１６】
好ましくは,前記音声分析工程は，前記話者の音声信号をスペクトルとして表現する工程と，前記話者の音声特性を認識可能な話者認識領域に均等にフィルタバンクを配置して，前記スペクトルを圧縮する工程と，を含む。
【００１７】
好ましくは，前記スペクトルの話者認識領域は，前記フィルタバンクが均等に配置される，０〜３ｋＨｚであり，かつ，３ｋＨｚ以上では，前記フィルタバンクの間隔が対数的に増加する。
【００１８】
好ましくは,前記音声登録方法は,さらに，複数の持続音を含む鼻音，母音，類似音から複数の音素を各々言語単位として採用する工程を含み；前記言語単位抽出工程は，前記スペクトルを複数個に分割することにより複数のフレームを形成する工程と，前記複数のフレームの中で言語単位を有するフレームを抽出する工程と，を含む。
【００１９】
好ましくは,前記声量測定工程は，前記スペクトルの言語単位を有するフレームのエネルギー値を測定する工程である。
【００２０】
前記音声登録方法は,さらに，前記音声データベースに格納された前記背景話者の音声スペクトルを分析することにより，前記言語単位を含むフレームのエネルギー値を算出して最大声量と最小声量とを抽出する工程を含み；前記声量判断工程は，前記最大声量と前記最小声量との間にある声量を有するフレームの数が，予め設定された比率以上であるか否かを判断する工程である。
【００２１】
好ましくは，前記音声登録方法は,さらに，前記複数の背景話者の全ての言語単位に複数の基準パターンを形成する工程と，前記話者の全ての言語単位に複数の話者パターンを形成する工程と，を含み；前記学習工程は，逆伝播アルゴリズムにしたがって，前記基準パターンを前記話者パターンとを比較することにより前記話者のパターン特性を学習する工程を含む。
【００２２】
好ましくは，前記音声登録方法は,さらに，一つの学習グループとして，前記一人の背景話者の全ての言語単位に複数の基準パターンを採用することにより，前記背景話者の言語単位の数と同じ数の学習グループを形成する工程を含み；前記学習工程は，前記各学習グループの基準パターンと前記複数の話者パターンを比較して，前記話者パターンの特性を学習する工程である。
【００２３】
好ましくは,前記格納工程は，前記全ての言語単位の複数の話者パターンと，前記全ての言語単位の声量を話者認識データとして格納する工程からなる。
【００２４】
好ましくは,さらに，少なくとも，予め設定された言語単位の数が，予め設定された範囲内にない場合には，前記話者に音声の再入力を要求する工程を含む。
【００２５】
本発明の他の実施例によれば，上記及び他の目的は,話者が登録された話者あるか否かを認識するための話者認識方法において，外部からの入力された音信号のスペクトルを分析する工程と；前記音信号の中の音声信号から話者認識のために予め設定された言語単位を抽出する工程と；各言語単位の声量を測定する工程と；各言語単位の声量が，予め設定された声量範囲内にあるか否かを判断する工程と；少なくとも，予め設定された言語単位の数が予め設定された声量範囲内にある場合には，多層神経網を介して，言語単位が話者に属するものである確率を算出することにより，及び前記確率を平均することにより，話者点数を算出する工程と；前記算出された話者点数を登録話者を検証するための予め設定された最小話者点数であるしきい値と比較することにより，話者点数がしきい値以上である場合に，話者が登録されていることを検証する工程と，を含む，ことを特徴とする話者認識方法により達成される。
【００２６】
好ましくは,前記話者点数は，以下の式により算出される。
【００２７】
【数１】

但し，Ｐ（ＬＵ_ｉ）は，調査される話者がｉ番めの言語単位フレームの背景話者である確率点数であり，Ｍは，孤立単語から抽出された言語単位フレームの数である。
【００２８】
好ましくは,前記話者点数は，識別力に応じて与えられる前記言語単位の重み付けに基づいて算出可能である。
【００２９】
本発明の他の観点においては，上記及び他の目的は,音声を認識するための音声認識システムにおいて，外部から入力された音信号のスペクトルを分析する音声分析器と；前記音信号から音声信号を抽出し，前記音声信号から話者を認識するために予め設定された言語単位を抽出する音声抽出手段と；複数の基準背景話者の声量を含む背景話者音声データが格納される音声データベースと；各言語単位の声量を判断し，前記音声データベースに基づいて，各言語単位の声量が予め設定された声量範囲内にあるか否かを判断する声量判断手段と；少なくとも，前記予め設定された数以上の言語単位が予め設定された声量範囲内にある場合に，前記各言語単位を学習する学習器と；前記学習された言語単位のデータを前記話者の認識データとして格納するメモリと；前記音声が入力された場合に,前記音声分析器，音声抽出器，音量判断手段及び学習器の動作を制御し，前記メモリに前記話者の認識データを格納する制御部と；を含む，ことを特徴とする音声認識のための音声登録システムにより達成される。
【００３０】
本発明の他の実施例によれば，上記及び他の目的は，話者が登録された話者であるか否かを確認するための話者認識システムにおいて，外部から入力された音信号のスペクトルを分析するための音声分析器と；前記音信号から音声信号を抽出し，前記音声信号から話者を認識するために予め設定された言語単位を抽出する音声抽出手段と；各言語単位の声量を判断し，各言語単位の声量が予め設定された声量範囲内にあるか否かを判断する声量判断手段と；前記言語単位が前記話者に属することの確率を算出することにより，及び前記確率を平均することにより，話者点数を算出する話者点数算出部と；前記全ての言語単位の中で少なくとも予め設定された数以上が前記予め設定された声量範囲内にある場合に，前記話者点数算出部が話者点数を算出するように制御し，前記算出された話者点数を，登録された話者であることを確認するための予め設定された最小話者点数である，予め設定されたしきい値と比較することにより，前記話者点数値がしきい値以上である場合に，前記話者が登録された話者であることを確認する制御部と；を含む，ことを特徴とする話者認識システムが提供される。
【発明の効果】
【００３１】
話者の音声を登録するための学習時と話者の検証時の話者の声量を考慮することにより，より正確に話者を検証することができる。
【発明を実施するための最良の形態】
【００３２】
本発明は，添付図面を参照してより説明される。
【００３３】
本発明にかかる音声認識システムにおいて，継続音をサンプリングし，話者を検証するためのＭＬＰ（ＭｕｌｔｉＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ）は，音声の認識時に，単独で，あるいはＨＭＭ（ＨｉｄｄｅｎＭｏｒｋｏｖＭｏｄｅｌ）と共に使用される。ＭＬＰの利点は，競争集団を拒否する学習が可能であり；音声の統計特性の予備データが不要であり；高度の並列演算及び規則性により，ハードウェア内にＭＬＰを具現化し易い。
【００３４】
本発明においては，ＭＬＰは，話者の検証に使用される。以下では，ＭＬＰが話者検証に使用されることを説明するため，話者を検証するための確率論的方法を，最初に説明し，次いで，ＭＬＰの動作が確立論的方法に基づくことを説明する。
【００３５】
話者検証において，音声の発話は，話者Ｓに関する音声モデルＭ（Ｓ）により生成された観測列であるサンプル０と定義される。入力されたサンプル０と音声モデルＭ（Ｓ）との関係は，事後確率Ｐ（Ｍ（Ｓ）｜０）と示すことができる。検証処理Ｖ（Ｓ）は，事後確率Ｐ（Ｍ（Ｓ）｜０）と予め設定されたしきい値Θとの比較により実行される。
【００３６】
【数２】

【００３７】
数式１は，話者の証明は，事後確率がしきい値Θより小さい場合には拒否され，事後確率がしきい値Θより大きい時は認定されることを示す。
【００３８】
Ｂａｙｅｓ公式を使用して，事後確率Ｐ（Ｍ（Ｓ）｜０）は，以下のように記載される。
【００３９】
【数３】

【００４０】
ここで，検証されるべき話者は閉鎖集団でなく開放集団に属するので，閉鎖集団では固定値であった事前確率
Ｐ（Ｍ（Ｓ））も正確に計算できないばかりでなく，話者の証拠であるＰ（｜０）も正確に計算することができない。
【００４１】
【数４】

【００４２】
したがって，Ｐ（Ｍ（Ｓ））とＰ（０）とが不確定な条件下では，Ｐ（０｜Ｍ（Ｓ））は事後確率を計算するために使用することはできない。
【００４３】
上記問題を解決するため，他の話者との比較を介してＰ（０｜Ｍ（Ｓ））を平均化する方法が提案される。例えば，調べられる話者の類似度点数が登録されている（背景）話者の類似度点数化で平均化される。話者と背景話者との比較による類似度は，以下のように表される。
【００４４】
【数５】

【００４５】
但し，Ｌ（０）は，類似度比率であり，Ｐ（０｜Ｍ（Ｓｉ））は，調査される話者の可能確率（ＬｉｋｅｌｉｈｏｏｄＰｒｏｂａｂｉｌｉｔｙ）であり，Ｐ（０｜Ｍ（Ｓｉ））は背景話者の可能確率である。
【００４６】
上記方法を使用して，背景話者集団が全ての調査される話者を表すほど十分に大きい場合には，数式３を近似計算することにより，事後確率Ｐ（Ｍ（Ｓ）｜０））を推定することができる。
【００４７】
一方，Ｇｉｓｈの研究によれば，ＭＬＰは上記数学的モデルを具現化する。
【００４８】
ＭＬＰがｘ及びΘの関数（ここで，ｘは入力特徴ベクトルであり，ΘはＭＬＰを定義する全体パラメーターである）と仮定すると，ｘが調査される話者のＣｅｎｒに属する場合には,ＭＬＰの目標出力ａとし，ｘが背景話者のＣｂｇに属する場合に,ＭＬＰの目標出力をｂとされる。ＭＬＰの性能を評価する基準は，以下のように誤り二乗平均（ＡｖｅｒａｇｅＳｑｕａｒｅｄＥｒｒｏｒ）である。
【００４９】
【数６】

【００５０】
但し，Ｎは学習のためのサンプルの総数である。
【００５１】
このように，Ｎが十分に大きく，二つの話者集団のサンプル数が集団分布の事前確率により提供されると，上記合計は，以下のように近似化することができる。
【００５２】
【数７】

【００５３】
但し，ｐ（ｘ，Ｃ）は，観測結果及び観測話者集団の結合確率（ＪｏｉｎｔＰｒｏｂａｂｌｉｔｙ）の密度関数である。
【００５４】
【数８】

【００５５】
数式７を使用すると，数式６は，以下の式のように表現される。
【００５６】
【数９】

【００５７】
数式８において，最初の項のみが，ＭＬＰと関連するパラメーターを含む。したがって，Ｅを最小化するために，ｆ（ｘ，Θ）のパラメーターを調整することは，ＭＬＰの出力と目標確率値ｄ（ｘ）との誤り二乗平均を最小化するという意味である。
【００５８】
学習中に，ベクトル値[０１]または[１０]が，ＭＬＰの目標出力として，ａ及びｂが指定されると，数式７は数式９のように表現される。これは，二つの集団の中でいずれか一つの集団の事後確率が，ＭＬＰの目標出力のために選択される，ことを意味する。
【００５９】
【数１０】

【００６０】
即ち，数式８によれば，ＭＬＰは，誤り二乗平均に基づいて，選択された事後確率に近接するように学習させる。かかる解釈が正当化されるためには，誤り二乗平均がより小さくなければならず，誤り二乗平均をより低くするためには，ＭＬＰは好適な構造を有しなければならない。
【００６１】
次に，ＭＬＰの動作は，事後確率の平準化の工程を含むことが示される。ＭＬＰの出力は，以下のシグモイド（Ｓｉｇｍｏｉｄ）関数と表現される。
【００６２】
【数１１】

【００６３】
但し，ｚ（ｘ，Θ）は，出力階層におけるシグモイド関数に対する入力である。
【００６４】
数式１０の逆関数は，以下のように示される。
【００６５】
【数１２】

【００６６】
さらに，話者を調査するために，ＭＬＰの出力は事後確率として定義される。
【００６７】
【数１３】

【００６８】
このとき，数式１１は以下のように書き換えられる。
【００６９】
【数１４】

【００７０】
この結果，数式６の類似度比率は，ＭＬＰにより表現される。即ち，類似度比率はＭＬＰで適用することができるので，数式３を近似化することにより，事後確率Ｐ（Ｍ（Ｓ）|０）を推定することができる。したがって，事後確率を使用して，ＭＬＰにより類似度比率を使用して，開放集団での話者検証が可能になる。
【００７１】
他方，ＭＬＰを適用した，本発明にかかる音声認証システムを，以下に説明する。
【００７２】
図１に示すように，本発明にかかる音声認識システム１は，話者登録に先行される学習のための学習パート５と，話者検証のための話者検証パート７と，話者登録と話者検証に共通に使用される分析パート３と，を含む。
【００７３】
分析パート３は，話者の音声信号を分析する音声分析部１１と，入力された音の中で音声信号を抽出し，話者を認識するために予め設定された言語単位を抽出する音声抽出部１３と，各言語単位の声量を決定し，各言語単位の声量が予め設定された声量範囲内にあるか否かを判断する声量判別部１５と，を含む。
【００７４】
学習パート５は，幾つかの言語単位が予め設定された声量範囲内にある場合に言語単位を学習する学習器２３と，話者認識のための学習された言語単位のデータを格納するメモリ２５と，及び調査されると比較される背景話者の声量及び音声特性が格納される音声データベース２１と，を含む。
【００７５】
話者検証パート７は，幾つかの言語単位が予め設定された声量範囲内にある場合に，ＭＬＰを介して言語単位が話者に属する確率を算出し，確率を平均化して話者点数を算出する話者点数算出部３１と，算出された話者点数を予め設定されたしきい値と比較し，話者点数がしきい値以上の場合に，登録された話者であることを確認する制御部３３と，を含む。
【００７６】
しかしながら，音声信号は非線形であるため，話者認識効率は完全ではない。音声信号の共振周波数信号にかかる話者認識率は，Ｃｒｉｓｔｅａらにより測定されている。測定結果によれば，音声の意味を理解するための音声認識の場合には，認識率は，略３００Ｈｚ〜２ｋＨｚの周波数帯域で８０％以上であり，音声が誰のものであるかを識別するための話者認識では，１．５ｋＨｚ〜２．７ｋＨｚの周波数帯域で８０％以上の認識率であった。かかる結果によれば,Ｃｒｉａｔｅａらは，０〜１．５ｋＨｚの周波数帯域と比較して１．５ｋＨｚ〜２．５ｋＨｚ間でのフィルタバンクを稠密にすることにより，話者認識率を向上させた。
【００７７】
図２に示すように，本発明においては，スペクトルの圧縮時において，フィルタバンクの間隔は０〜３ｋＨｚで配置し,３ｋＨｚ以上では対数的にフィルタバンクの配置間隔が増加される。このとき，約０−３ｋＨｚまでの周波数帯域では５０個のフィルタバンクの中で２／３である約３３個を配置し，３ｋＨｚ以上では他のフィルタバンクを対数的に配置する。
【００７８】
本発明者は，上記フィルタバンクの配置方法は，Ｃｒｉａｔｅａｅｔ．ａｌのフィルタバンク配置よりも，話者認識率において，より効率的であることを確認した。以下に，数式１−１して表現される話者間の中心距離，及び数式１−２で表現される話者集団間の分散度により，これを証明する。
【００７９】
【数１５】

【００８０】
【数１６】

【００８１】
数式１−１及び数式１−２から各々導き出される，話者間の中心距離と話者集団間の分散度の結果，本発明にかかるフィルタバンクを配置する場合には，Ｃｒｉｓｔｅａｅｔ．ａｌのフィルタバンク配置と比較して，話者間の中心距離は，図３に示すように，各言語単位に対して平均して２０.７％遠くなり，各言語単位の話者集団の分散度は，図４に示すように，平均して６.３％小さくなる。通常，言語単位の分類率は，話者の中心距離に比例し，話者集団内の分散度が小さくなるほど増加する。したがって，図３及び図４に示すように，本発明においては，話者間の中心距離と話者集団の分散度がともに向上される。
【００８２】
上記のように，本発明にかかる音声認識システムにおいては，音声分析部１１は，０〜３ｈＨｚの周波数帯域では，フィルタバンクの間隔を均等に配置させ，約３ｋＨｚ以上ではフィルタバンクの間隔を対数的に増加されるように配置してスペクトラムを圧縮する。さらに，音声分析手段１１は，スペクトルの圧縮の前に，入力された音声信号を予め設定されたフレーム単位により分割し，各フレームのスペクトルを抽出する。
【００８３】
本発明においては，言語単位は，継続する音が比較的に多い鼻音，母音，類似音から抽出される。したがって，／ａ／，／ｅ／，／ｖ／，／ｏ／，／ｕ／，／ｅｕ／，／ｉ／，／ｌｉｑ／，／ｎａｓ／の合計９つの音素を言語単位として使用する。以下，多くの継続する音を有する上記言語単位を継続音という。
【００８４】
音声抽出部１３は，圧縮されたスペクトルから，閉鎖音，継続音及び無声音を抽出して孤立単語を検出する。孤立単語とは，例えば，句，単語，音節，音素など話者を認識するために必要な言語の単位をいう。音声抽出部１３では，ＴＤＮＮ（Ｔｉｍｅ−Ｄｌａｙｎｅｕｒａｌｎｅｔｗｏｒｋ）を介して，音声分析部１により検出されたフレームを１１個の閉鎖音，９個の継続音，無声音に分類する。その後, ＴＤＮＮからの結果と各フレームのエネルギーを孤立単語を検出するためのアルゴリズムに適用する。ここで，ＴＤＤＮは，付加的に，ＭＬＰと比較して時間遅延項目を有する。
【００８５】
以下では，孤立単語を検出する工程を，図５を参照して説明する。
【００８６】
まず，音声が開始する場合には，音声持続時間が最小音声持続時間（ＭｉｎＳＤ）以上であるか否かが判断される。ＭｉｎＳＤは，孤立単語を検出するための基準として採用される。
音声持続時間がＭｉｎＳＤ以上でない場合には，発声の開始を再検出する。一方,音声持続時間がＭｉｎＳＤ異常である場合には非音声が開始されたか否かを検出する。このとき，非音声が開始された場合には，非音声持続時間が最大非音声持続時間（ＭａｘＮＳＤ）以上か否かが判断される。非音声持続時間がＭａｘＮＳＤ以上である場合には，孤立単語の検出工程が中止される。
【００８７】
孤立単語が検出されると，ＴＤＮＮを介して，孤立単語から継続音が含まれるフレームを抽出することができる。一つのフレームには，単一の継続音あるいは複数の継続音が含むことができる。その後，継続音が含まれるフレームは再分析され，話者認識及び話者検証のための継続音の話者パターンとして使用することができる。
【００８８】
他方，継続音を有するフレームが抽出されると，声量判別部１５では，継続音のスペクトルエネルギー値を測定して，その声量を判断する。さらに，予め音声データベース２１に格納された背景話者の声量と比較して調査される話者の声量が話者登録に使用できるか否かを決定する。
【００８９】
音声データベース２１は，調査される話者と比較する，多くの背景話者の音声のデータの集積であり,背景話者の各継続音の最大声量と最小声量が予め格納されている。
このとき，各背景話者の全ての継続音の声量は，全ての継続音のエネルギー値により計算されることができ，以下に示す。
【００９０】
【数１７】

【００９１】
但し，Ｓは音声サンプル，Ｐは継続音，Ｍはフレームの音声サンプル数，Ｎはフレーム番号である。
【００９２】
数式１−３を使用することにより，調査される話者の継続音が含まれる各フレームが，背景話者の最大声量と最小声量との間にあるか否かを判断する。このとき，継続音を含むフレームは，２つの方法により登録することができる。一つは，調査される話者の音声から抽出された孤立単語の全てのフレームとは無関係に，背景話者の最大声量と最小声量との間にあるフレームのみを登録することが許容される。もう一つは，背景話者の最大声量と最小声量との間にあるフレームが予め設定された比率以上である場合に，フレームが登録されることが許容される。一般に，長い単語の継続音は，アクセントや文法に応じて異なる声量で発生されるので，孤立単語の全てのフレームの平均声量を考慮した後者の方法が適用されるのが好ましい。
【００９３】
他方，本発明において使用される音声データベース２１は，韓国科学技術大学と光雲大学により，性能評価が共同研究されている。音声データベース２１には，単独数字，指示語，４連数字，短文，ＰＢＷ（Ｐｈｏｎｅ−ｂａｌａｎｃｅｄｗｏｒｄ）の発声目録を有する。本発明によれば，ＰＢＷと４連数字目録は，各々，継続音の認識のためのＴＮＤＤと話者検証のためのＭＬＰに使用される。
【００９４】
声量測定により各継続音を有するフレームが登録許容されると，音声抽出部１３は，話者の各言語単位に応じて複数の話者パターンを形成する。背景話者の各言語単位に対応する話者パターンは，予め音声データベース２１に格納されている。
【００９５】
話者を登録するためには，孤立単語に対応する登録単語のテンプレートが形成されて格納され，ＭＬＰにより実行された継続音に応じて学習される。テンプレート単位として登録単語を格納するために，一つの単語に対して２〜３個のテンプレートが必要としなければならない。したがって，話者登録時において，調査される話者は同一単語を数回発声しなければならない。
【００９６】
従来の話者登録のための継続音の学習においては，調査される話者パターンが全ての背景話者パターンに対して学習され，これはエポック（Ｅｐｏｃｈ）と称される。基準パターンを一つのエポックにより学習させる場合には，学習中止判断基準が全ての背景話者に適用されるので，調査される話者，及び調査される話者と近似したパターンを有する背景話者に対する識別度が低下される。ここで，学習中止判断基準は，予め設定された事前設定変化率である。予め設定された事前設定変化率は，ＭＬＰを介しての学習が十分か否かを判断するための基準として採用される誤り平均二乗根の変化率である。誤り平均二乗根は，背景話者間のエラー発生する範囲を示めす。
【００９７】
即ち，誤り平均二乗根の変化率が，調査される話者が背景話者と比較されることにより学習される間に，予め設定された事前設定変化率に近接した場合には，学習器２３は学習を中止する。しかしながら，事前設定変化率は，実験値であり, 背景話者は事前設定変化率よりさらに小さいエラーの発生範囲を有することとすることもできる。したがって，調査される話者と背景話者との間のエラー発生範囲が事前設定変化率より小さい場合には,検証能力が低下し，したがって，誤認受諾率（ＦＡ）が増加する。誤認受諾率は，未登録の話者を過って受諾する比率を示し,システムが未登録話者を受諾した場合には，システムの情報は詐欺師により流出されやすくなるので，誤認受諾は減少させなければならない。
【００９８】
本発明によれば，話者特性を正確に学習するために，一つの背景話者の各継続音に応じて形成された複数の基準パターンを一つの学習グループとして採用する。したがって，各継続音は学習グループを形成するので，全ての背景話者は，各々,複数の学習グループを有する。即ち，一つの背景話者が９つの継続音を有し，各継続音が１０個のパターンを有する場合には，一人の背景話者は，各々，１０個の基準パターンを含む９つの学習グループを有する。
【００９９】
ＭＬＰを使用することにより，学習器２３は，全ての背景話者の基準パターンを複数の調査される話者パターンと比較し，逆伝播アルゴリズムに応じて調査される話者パターンの特性を学習する。ここで，全ての背景話者の基準パターンを複数の調査される話者パターンとを比較することによる一回の学習は，エポックと称される。また，背景話者の一つの学習グループを一つの調査される話者のパターンと比較することによる一回の学習は，サブエポックと称される。
【０１００】
したがって，調査される話者のパターンは，背景話者の基準パターンに対して複数のサブエポック介して進行される。複数のサブエポックを介して進行することにより，全ての背景話者の基準パターンは調査される話者パターンと比較される。このとき，背景話者の基準パターンが話者パターンと類似するればするほど，さらに学習が繰り返される。したがって，調査される話者と背景話者との間のパターンの識別力が向上される。
【０１０１】
このように，学習パターンはメモリ２５に格納され，領さされる話者の音声が再入力される場合に，基準値と使用される。
【０１０２】
他方，話者検証の工程を，以下に説明する。調査される話者がその音声を入力すると，声量判別部１５は，孤立単語の全ての言語単位の中で少なくとも予め設定された数以上が予め設定された声量範囲内に属するかを判断する。入力された孤立単語が予め設定された声量範囲内に属しない場合には，調査される話者はその音声を再入力することが要求される。これに対して,入力された孤立単語が予め設定された声量範囲内にある場合には，孤立単語及び登録単語のテンプレートが相互に一致するか否かをＤＴＷ（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ）アルゴリズムを介して判断される。このとき，入力された孤立単語及び格納された登録単語のテンプレートが相互に一致する場合には，ＭＬＰにより抽出された継続音の学習された話者パターンが入力されることにより話者点数が計算される。話者点数は，数式１−４により算出される。
【０１０３】
【数１８】

【０１０４】
但し，Ｐ（ＬＵ_ｉ）は，調査される話者がｉ番目の言語単位フレームの背景話者である確率点数であり，Ｍは孤立単語から抽出された言語単位フレームの数である。
【０１０５】
話者点数は，良い識別力の継続音に加重値をおいて算出することもできる。
【０１０６】
このように，算出された話者点数は，予め設定されたしきい値と比較され，話者点数がしきい値以上である場合には，入力された音声が登録された話者の音声であると判断されて，音声を受諾する。ここで，しきい値は，登録された話者の音声であることを検証するための最小の話者点数であり，話者検証においては登録単語の検証は重要ではないので，誤認拒否率（ＦＲ）が最小となるように決定される。誤認拒否率は，登録された話者を誤って拒絶する比率を示す。
【０１０７】
かかる構成により，本発明にかかる音声認識システム１においては，音声を登録する工程が，以下に，図６を参照して説明される。
【０１０８】
まず，調査される話者は，その音声を入力すると（Ｓ１０），音声分析部１１は，入力された音声信号を予め設定されたフレームに分割して（Ｓ２０），スペクトル化し（Ｓ３０），フィルタバンクを使用してスペクトルを圧縮した後，孤立単語を抽出する（Ｓ４０）。次に，音声抽出部１３は，孤立単語のフレーム中の言語単位を含むフレームを抽出する（Ｓ５０）。声量判別部１５は，言語単位の声量を測定し（Ｓ６０），声量が背景話者の最大声量と最小声量との間にあるか否かを判断する（Ｓ７０）。このとき，調査される話者の言語単位の声量が，背景話者の最大声量と最小声量との間にない場合には，制御部３３は，話者の音声を再入力することを要求する（Ｓ７５）。
【０１０９】
反対に，調査される話者の言語単位の声量が背景話者の最大声量と最小声量との間にある場合には，調査される話者の全ての言語単位のパターンを生成する（Ｓ８０）。また，学習器２３は，全ての背景話者の基準パターンを調査される話者のパターンとを比較して，調査される話者のパターン特性をＭＬＰにより学習する（Ｓ９０）。ここで，背景話者の基準パターンは，各言語単位に応じて複数の学習グループに分類されており，調査される話者の各パターンは，言語単位に応じて背景話者の基準パターンと比較される。次いで,学習が完了すると，比較されたパターンと声量を調査される話者の声量が登録される（Ｓ１００）。
【０１１０】
さらに，調査される話者の音声が登録された音声であるか否かを検証する話者検証工程は,以下に，図７を参照して説明する。
【０１１１】
まず，調査される話者は，その音声を入力すると（Ｐ１０），音声分析器１１は，入力された音声信号を予め設定されたフレームにより分割し（Ｐ２０），スペクトルとして表示し（Ｐ３０），孤立単語を抽出する（Ｐ４０）。その後，孤立単語のフレームの中で言語単位を含むフレームを抽出する（Ｐ５０）。次に，抽出されたフレームに含まれた言語単位の声量を測定し（Ｐ６０），測定された声量が背景話者の最大声量と最小声量との間に含まれるかを判断する（Ｐ７０）。このとき，調査される話者の言語単位が背景話者の最大声量と最小声量との間にない場合には，制御器３３は，調査される話者にその音声を再入力することを要求する（Ｐ７５）。一方,調査される話者の各言語単位の声量が背景話者の最大声量と最小声量との間にある場合には，話者点数算出部３１は，ＭＬＰにより全ての言語単位の話者点数を算出する（Ｐ８０）。さらに，制御部３３では，算出された話者点数を予め設定されたしきい値と比較し（Ｐ９０），話者点数がしきい値以上である場合には，調査される話者が登録さていることが検証され，調査される話者を受諾する（Ｐ１００）。反対に，話者点数がしきい値の以下である場合には，調査される話者が登録されていないことが検査され，調査される話者を拒絶する（１０５）。
【０１１２】
以下に，表４から表６は，本発明にかかる音声認識システム１を使用した話者登録の結果を示す。そこには，調査される話者は，１８０％，１４０％，１２０％，１００％，８０％大きさの声量で各々登録した後，１８０％，１４０％，１２０％，１００％，８０％の声量で発声した。表１〜表３は，各々，従来の音声認識システムにおける誤認拒否率，誤認受諾率，孤立単語受諾率を示す。さらに，表４〜表６は，各々，本発明にかかる音声認識システムにおける誤認拒否率，誤認受諾率，孤立単語受諾率を示す。ここで，誤認拒否率（ＦＲ）は，登録話者を誤って拒絶する比率と示し，孤立単語受諾率は，調査される話者が背景話者の登録単語を発声した場合における受諾比率を示す。
【０１１３】
【表１】

【０１１４】
【表２】

【０１１５】
【表３】

【０１１６】
【表４】

【０１１７】
表４に示すように，調査される声量が学習された音声に近いほど，誤認拒否率が低下する。一方,調査される恩労が学習された音量と相違するほど，誤認拒否率が増加される。特に，学習された声量が大きく，調査される声量が小さい場合に，誤認拒否率が最小化される。
【０１１８】
【表５】

【０１１９】
表５に示すように，非登録話者を誤って受諾する比率を示す誤認受諾率は，学習された声量または調査される声量が１００％である場合に，最小化される。他の場合には,誤認受諾率が増加する。表２と比較すると，表５は，本発明にかかる音声認識システム１の誤認受諾率が全般的に改善されたことを示している。
【０１２０】
【表６】

【０１２１】
表６に示すように，孤立単語受諾率は，１８０％の学習された声量及び調査される声量である場合に，最小化される。表３と比較すると，表６は，本発明にかかる音声認識システム１の孤立単語受諾率は，全般的に低いことが示されている。したがって，登録された話者は，調査される話者が不十分な音量で発声する場合に，調査される話者が再度発声することを許可することにより，もっとも正確に検証される。
【０１２２】
上記のように，本発明にかかる音声認識システム１においては，音声を学習する際に，調査される話者が予め設定された背景話者の声量範囲内にあるか否かを判断し，予め設定された声量範囲にある音声のみが分析されて，話者パターンが形成される。さらに，話者を検証する際に，調査される話者の声量が，予め設定された背景話者の声量範囲内にあるか否かを判断し，予め設定された声量範囲内にある音声のみの話者点数が計算され,調査される話者を拒絶あるいは受諾する。
【０１２３】
上記のように，本発明にかかる音声認識システムにおいては，学習する際及び話者を検証する際の声量が１００％である場合に最も効果的となる。一方,１００％からの差異が大きくなるほど，認識率は低下する。即ち，従来の音声認識システムにおいては，認識率お呼び声量は無関係であるが，本発明にかかる音声認識システムにおいては，孤立単語の受諾率は，調査される話者と学習された話者との間の声量の差異が大きくなるにしたがって，低下し，調査される話者が再び発声させる。したがって，誤認受諾は，非登録話者を誤認する比率を示し，予め設定された背景話者の声量範囲以内にない場合には，再発声する機会を有するので，音声認識システム１の信頼性が向上される。
【０１２４】
上記に説明したように，本発明においては，話者の声量は，音声を登録するための学習の際，及び話者を検証する際に考慮されるので，より正確に話者を検証することが可能になる。本発明の好ましい実施形態は，具体的な目的に対して開示したが，いわゆる当業者であれば，添付請求項に開示された本発明の範囲及び精神を逸脱することなく，各種修正，付加，代替することは可能である。
【図面の簡単な説明】
【０１２５】
添付図面と共に提供される以下の説明により，本発明はより理解され，その各種目的及び長所は,全面的に賞賛されるであろう。
【図１】図１は，本発明による音声認識システムの構成図である。
【図２】図２は，本発明による音声認識システムのフィルタバンクの配置図である。
【図３】図３は，図２のフィルタバンク配置による背景話者間の中心距離の変化率を示すグラフである。
【図４】図４は，図２のフィルタバンク配置による集団内背景話者の分散度である。
【図５】図５は，本発明による音声認識システムの孤立単語の検出過程を示すフローチャートである。
【図６】図６は，本発明による音声認識システムの音声登録過程を示すフローチャートである。
【図７】図７は，本発明による音声認識システムの話者検証過程を示すフローチャートである。

Claims

音声認識のための音声登録方法において，
外部から入力された音信号のスペクトルを分析する工程と；
前記音信号内の音声信号から話者認識のために予め設定された言語単位を抽出する工程と；
前記各言語単位の声量を測定する工程と；
基準としての複数の背景話者の声量データを含む登録（背景）話者の音声データを音声データベースに収集する工程と；
前記各言語単位の声量が前記音声データベースに基づいて，予め設定された声量範囲内にあるか否かを判断する工程と；
予め設定された数の言語単位が予め設定された声量範囲内にある場合に，多層神経網を使用して各言語単位を学習する工程と；及び
前記学習された各言語単位のデータを前記話者を認識するためのデータとして格納する工程と；を含む，
ことを特徴とする音声認識のための音声登録方法。
前記音声分析工程は，
前記話者の音声信号をスペクトルとして表現する工程と，
前記話者の音声特性を認識可能な話者認識領域に均等にフィルタバンクを配置して，前記スペクトルを圧縮する工程と，を含む，
ことを特徴とする請求項１に記載の音声認識のための音声登録方法。
前記スペクトルの話者認識領域は，前記フィルタバンクが均等に配置される，０〜３ｋＨｚであり，かつ，３ｋＨｚ以上では，前記フィルタバンクの間隔が対数的に増加する，ことを特徴とする請求項２に記載の音声認識のための音声登録方法。
前記音声登録方法は,さらに，
複数の持続音を含む鼻音，母音，類似音から複数の音素を各々言語単位として採用する工程を含み；
前記言語単位抽出工程は，前記スペクトルを複数個に分割することにより複数のフレームを形成する工程と，前記複数のフレームの中で言語単位を有するフレームを抽出する工程と，を含む，
ことを特徴とする請求項３に記載の音声認識のための音声登録方法。
前記声量測定工程は，前記スペクトルの言語単位を有するフレームのエネルギー値を測定する工程である，ことを特徴とする請求項４に記載の音声認識のための音声登録方法。
前記音声登録方法は,さらに，
前記音声データベースに格納された前記背景話者の音声スペクトルを分析することにより，前記言語単位を含むフレームのエネルギー値を算出して最大声量と最小声量とを抽出する工程を含み；
前記声量判断工程は，前記最大声量と前記最小声量との間にある声量を有するフレームの数が，予め設定された比率以上であるか否かを判断する工程である，
ことを特徴とする請求項５に記載の音声認識のための音声登録方法。
前記音声登録方法は,さらに，
前記複数の背景話者の全ての言語単位に複数の基準パターンを形成する工程と，前記話者の全ての言語単位に複数の話者パターンを形成する工程と，を含み；
前記学習工程は，逆伝播アルゴリズムにしたがって，前記基準パターンを前記話者パターンとを比較することにより前記話者のパターン特性を学習する工程を含む，
ことを特徴とする請求項６に記載の音声認識のための音声登録方法。
前記音声登録方法は,さらに，
一つの学習グループとして，前記一人の背景話者の全ての言語単位に複数の基準パターンを採用することにより，前記背景話者の言語単位の数と同じ数の学習グループを形成する工程を含み；
前記学習工程は，前記各学習グループの基準パターンと前記複数の話者パターンを比較して，前記話者パターンの特性を学習する工程である，ことを特徴とする請求項７に記載の音声認識のための音声登録方法。
前記格納工程は，前記全ての言語単位の複数の話者パターンと，前記全ての言語単位の声量を話者認識データとして格納する工程からなる，
ことを特徴とする請求項１に記載の音声認識のための音声登録方法。
前記格納工程は，前記全ての言語単位の複数の話者パターンと，前記全ての言語単位の声量を話者認識データとして格納することを特徴とする請求項２に記載の音声認識のための音声登録方法。
前記格納工程は，前記全ての言語単位の複数の話者パターンと，前記全ての言語単位の声量を話者認識データとして格納する，ことを特徴とする請求項３に記載の音声認識のための音声登録方法。
前記格納工程は，前記全ての言語単位の複数の話者パターンと，前記全ての言語単位の声量を話者認識データとして格納することを特徴とする請求項４に記載の音声認識のための音声登録方法。
前記格納工程は，前記全ての言語単位の複数の話者パターンと，前記全ての言語単位の声量を話者認識データとして格納する，ことを特徴とする請求項５に記載の音声認識のための音声登録方法。
前記格納工程は，前記全ての言語単位の複数の話者パターンと，前記全ての言語単位の声量を話者認識データとして格納する，ことを特徴とする請求項６に記載の音声認識のための音声登録方法。
前記格納工程は，前記全ての言語単位の複数の話者パターンと，前記全ての言語単位の声量を話者認識データとして格納する，ことを特徴とする請求項７に記載の音声認識のための音声登録方法。
前記格納工程は，前記全ての言語単位の複数の話者パターンと，前記全ての言語単位の声量を話者認識データとして格納する，ことを特徴とする請求項８に記載の音声認識のための音声登録方法。
さらに，
少なくとも，予め設定された言語単位の数が，予め設定された範囲内にない場合には，前記話者に音声の再入力を要求する工程を含む，
ことを特徴とする請求項１に記載の音声認識のための音声登録方法。
話者が登録された話者あるか否かを認識するための話者認識方法において，
外部からの入力された音信号のスペクトルを分析する工程と；
前記音信号の中の音声信号から話者認識のために予め設定された言語単位を抽出する工程と；
各言語単位の声量を測定する工程と；
各言語単位の声量が，予め設定された声量範囲内にあるか否かを判断する工程と；
少なくとも，予め設定された言語単位の数が予め設定された声量範囲内にある場合には，多層神経網を介して，言語単位が話者に属するものである確率を算出することにより，及び前記確率を平均することにより，話者点数を算出する工程と；
前記算出された話者点数を，登録話者を検証するための予め設定された最小話者点数であるしきい値と比較することにより，話者点数がしきい値以上である場合に，話者が登録されていることを検証する工程と，を含む，
ことを特徴とする話者認識方法。
前記話者点数は，以下の式により算出される，ことを特徴とする請求項１８に記載の話者認識方法。

但し，Ｐ（ＬＵ_ｉ）は，調査される話者がｉ番めの言語単位フレームの背景話者である確率点数であり，Ｍは，孤立単語から抽出された言語単位フレームの数である。
前記話者点数は，識別力に応じて与えられる前記言語単位の重み付けに基づいて算出可能である，ことを特徴とする請求項１９に記載の話者認識方法。
音声を認識するための音声認識システムにおいて，
外部から入力された音信号のスペクトルを分析する音声分析器と；
前記音信号から音声信号を抽出し，前記音声信号から話者を認識するために予め設定された言語単位を抽出する音声抽出手段と；
複数の基準背景話者の声量を含む背景話者音声データが格納される音声データベースと；
各言語単位の声量を判断し，前記音声データベースに基づいて，各言語単位の声量が予め設定された声量範囲内にあるか否かを判断する声量判断手段と；
少なくとも，前記予め設定された数以上の言語単位が予め設定された声量範囲内にある場合に，前記各言語単位を学習する学習器と；
前記学習された言語単位のデータを前記話者の認識データとして格納するメモリと；
前記音声が入力された場合に,前記音声分析器，音声抽出器，音量判断手段及び学習器の動作を制御し，前記メモリに前記話者の認識データを格納する制御部と；を含む，
ことを特徴とする音声認識のための音声登録システム。
前記音声分析手段は，前記話者の音声信号のスペクトルを分析し，前記スペクトルの中で話者の認識が可能な話者認識領域で所定の比率でフィルタバンクを配置して，前記スペクトルを圧縮する，
ことを特徴とする請求項２１に記載の音声認識のための音声登録システム。
前記話者認識領域は，前記フィルタバンクが均等に配置された，０〜３ｋＨｚであり，３ｋＨｚ以上では前記フィルタバンクの間隔は対数的に増加される，
ことを特徴とする請求項２２に記載の音声認識のための音声登録システム。
前記音声抽出器は，前記スペクトルを複数部分に分割することにより複数のフレームを作成し，前記複数のフレーム中で，言語単位として，各々多くの持続音を含む非音，母音，類似音から選択された音素を有するフレームを抽出する，ことを特徴とする請求項２３に記載の音声認識のための音声登録システム。
前記声量判断手段は，前記スペクトルの前記言語単位を有するフレームのエネルギー値を算出する，ことを特徴とする請求項２４に記載の音声認識のための音声登録システム。
前記声量判断手段は，前記音声データベースに格納された前記背景話者の音声スペクトルを分析することにより，及び前記言語単位を有するフレームのエネルギー値を算出することにより，最大声量と最小声量を予め決定し，かつ前記最大声量と前記最小声量との間にある前記声量を有する前記フレームの数が，予め設定された比率以上であるか否かをを判断する，
ことを特徴とする請求項２５に記載の音声認識のための音声登録システム。
前記音声抽出手段は，複数の背景話者の全ての言語単位に対応する複数の基準パターンを形成し，前記複数の話者の全ての言語単位に複数の話者パターンを形成し；一人の背景話者の全ての言語単位に複数の基準パターンを，一つの学習グループとして採用することにより，複数の学習グループを形成する，
ことを特徴とする請求項２６に記載の音声認識のための音声登録システム。
前記学習器は，逆伝播アルゴリズムに応じて，前記基準パターンを前記話者パターンとを比較することにより，前記話者のパターン特性を学習する，
ことを特徴とする請求項２７に記載の音声認識のための音声登録システム。
前記メモリには，前記全ての言語単位の複数の話者パターンと，前記全ての言語単位の声量が，話者認識データとして格納される，ことを特徴とする請求項２８に記載の音声認識のための音声登録システム。
前記制御部は，前記孤立単語の全ての言語単位のうち，少なくとも前記予め設定された数以上が，予め設定された声量範囲内にない場合に，前記話者に音声の再入力を要求する，ことを特徴とする請求項２９に記載の音声認識のための音声登録システム。
話者が登録された話者であるか否かを確認するための話者認識システムにおいて，
外部から入力された音信号のスペクトルを分析するための音声分析器と；
前記音信号から音声信号を抽出し，前記音声信号から話者を認識するために予め設定された言語単位を抽出する音声抽出手段と；
各言語単位の声量を判断し，各言語単位の声量が予め設定された声量範囲内にあるか否かを判断する声量判断手段と；
前記言語単位が前記話者に属することの確率を算出することにより，及び前記確率を平均することにより，話者点数を算出する話者点数算出部と；
前記全ての言語単位の中で少なくとも予め設定された数以上が前記予め設定された声量範囲内にある場合に，前記話者点数算出部が話者点数を算出するように制御し，
前記算出された話者点数を，登録された話者であることを確認するための予め設定された最小話者点数である，予め設定されたしきい値と比較することにより，前記話者点数値がしきい値以上である場合に，前記話者が登録された話者であることを確認する制御部と；を含む，
ことを特徴とする話者認識システム。
前記話者点数は，以下の式により算出される，ことを特徴とする請求項３１に記載の話者認識システム。

但し，Ｐ（ＬＵ_ｉ）は，調査される話者がｉ番めの言語単位フレームの背景話者である確率点数であり，Ｍは，孤立単語内で抽出された言語単位フレームの数である。
前記話者点数算出部は，識別力に応じて与えられる前記言語単位の重み付けに基づいて話者点数を算出する，ことを特徴とする請求項３２に記載の話者認識システム。