JP2004538526A - 音声登録方法及びそのシステム,音声登録方法及びそのシステムに基づく音声認識方法及びそのシステム - Google Patents
音声登録方法及びそのシステム,音声登録方法及びそのシステムに基づく音声認識方法及びそのシステム Download PDFInfo
- Publication number
- JP2004538526A JP2004538526A JP2003519929A JP2003519929A JP2004538526A JP 2004538526 A JP2004538526 A JP 2004538526A JP 2003519929 A JP2003519929 A JP 2003519929A JP 2003519929 A JP2003519929 A JP 2003519929A JP 2004538526 A JP2004538526 A JP 2004538526A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- recognition
- language
- volume
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000001228 spectrum Methods 0.000 claims abstract description 35
- 230000005236 sound signal Effects 0.000 claims abstract description 11
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 description 22
- 230000008859 change Effects 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 4
- 238000011835 investigation Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
音声認識のための音声登録方法において,外部から入力された音信号のスペクトルを分析する工程と;前記音信号内の音声信号から話者認識のために予め設定された言語単位を抽出する工程と;前記各言語単位の声量を測定する工程と;基準としての複数の背景話者の声量データを含む登録(背景)話者の音声データを音声データベースに収集する工程と;前記各言語単位の声量が前記音声データベースに基づいて,予め設定された声量範囲内にあるか否かを判断する工程と;予め設定された数の言語単位が予め設定された声量範囲内にある場合に,多層神経網を使用して各言語単位を学習する工程と;及び前記学習された各言語単位のデータを前記話者を認識するためのデータとして格納する工程と;を含む。これにより,話者の音声を登録するための学習時と話者の検証時の話者の声量を考慮することにより,より正確に話者を検証することができる。
Description
【技術分野】
【0001】
本発明は,概して,話者の声量を考慮して音声学習及び音声認識を行うことにより,話者の声量に起因するエラーを防止する,音声登録方法及びそのシステムに基づく音声認識方法及びそのシステムに関する。
【背景技術】
【0002】
一般に,セキュリティシステムは,主に,国家セキュリティや産業セキュリティのために使用されてきたが,近年においては,個人セキュリティやコンピュータセキュリティのために使用されている。
【0003】
特に,インターネットを含むネットワークシステムの発達により,コンピュータネットワークシステムは益々侵入に対して被害を受け,したがって,個人情報が電子商取引やインターネットなどのネットワーキングを介して流出しやすくなる,という問題が発生するようになっている。
【0004】
かかる問題を防止するため,コンピュータシステムの場合においては,コンピュータシステムにアクセスする特定ユーザのみを許可する幾つかの方法が開発されている。かかる方法は,ID,パースワード,認証キーなどを使用する方法,生体的な特徴を使用する方法に分類される。生体的な特徴は,音声,指紋,手の平,網膜などである。
【0005】
音声は,人間の意図を示す普遍的かつ簡易な手段である。音声を使用した技術としては,音声を認識する音声認識システム,音声を発声する話者を認識する話者認識システムがある。
【0006】
話者認識技術においては,ユーザは,ID,パースワードを使用する必要はなく,不正使用を防止することできる。また,パーソナルコンピュータシステムにおいて通常具備されるサウンドカード,マイクロフォンだけで話者認識システムを実行するのに十分である。さらに,話者認識システムにおいては,特定ユーザの音声に反応してパーソナルコンピュータシステムの動作を制御することができる。
【0007】
話者認識は,認識方法の形態により,話者識別と話者検証とに分類される。話者識別は,入力された音声の話者を識別し,話者検証は,話者の音声を検証することにより,話者を認定あるいは拒否する。
【0008】
一般的な話者認識工程は,以下に説明される。
【0009】
まず,話者を登録するために,話者は,話者認識システムに話者の声を入力した場合には,入力された音信号の波形がスペクトルとしてあらわされる。スペクトルは分析されて孤立単語が抽出され,その結果,単語から音素がサンプリングされる。ここで,音素は,予め設定され,音声を認識するための基準として採用される。その後,話者認識システムは,話者の各音素をパターンを作成し,続いて,予め設定された音素のパターンと比較され,したがって,話者の特性を学習する。その後,学習が完了すると,話者のパターンが登録される。
【0010】
その後,音声が,新たに,話者認証システムに入力された場合には,話者認証システムは,上記分析方法により,新たに入力された音声に基づいてパターンを作成し,続いて,登録された(背景)話者の音声パターンと比較し,したがって,話者を認定あるいは拒否する。
【0011】
また,従来の話者認識システムにおいては,新たに作成されたパターンは,データベースに格納されている登録話者の音声パターンと比較される。しかしながら,データベースに格納されている音声は,低雑音,高性能マイク,一定の声量などの理想的な条件下で録音されるので,データベースに格納されている音声は,実際音声の特別な例を示しているに過ぎない。
【0012】
データベースに格納されている音声とは異なる条件で発声された音声が入力された場合には,音声認識システムの実行は,影響を受ける。特に,音声の声量がシステムの実行に深刻な影響を与える。
【0013】
このように,音声認識システムにおいては,音声の声量の影響を考慮した音声学習及び話者検証が提供される必要がある。
【発明の開示】
【発明が解決しようとする課題】
【0014】
したがって,本発明は,上記欠点及びユーザの要求を考慮し,本発明の目的は,話者の声量を考慮した音声学習及び話者検証を実行することにより,より正確に話者を検証することが可能な音声登録方法及びそのシステムと音声登録方法及びそのシステムに基づく音声認識方法及びそのシステムを提供することにある。
【課題を解決するための手段】
【0015】
本発明の本目的及び他の目的は,音声認識のための音声登録方法において,外部から入力された音信号のスペクトルを分析する工程と;前記音信号内の音声信号から話者認識のために予め設定された言語単位を抽出する工程と;前記各言語単位の声量を測定する工程と;基準としての複数の背景話者の声量データを含む登録(背景)話者の音声データを音声データベースに収集する工程と;前記各言語単位の声量が前記音声データベースに基づいて,予め設定された声量範囲内にあるか否かを判断する工程と;予め設定された数の言語単位が予め設定された声量範囲内にある場合に,多層神経網を使用して各言語単位を学習する工程と;及び前記学習された各言語単位のデータを前記話者を認識するためのデータとして格納する工程と;を含む,ことを特徴とする音声認識のための音声登録方法により達成される。
【0016】
好ましくは,前記音声分析工程は,前記話者の音声信号をスペクトルとして表現する工程と,前記話者の音声特性を認識可能な話者認識領域に均等にフィルタバンクを配置して,前記スペクトルを圧縮する工程と,を含む。
【0017】
好ましくは,前記スペクトルの話者認識領域は,前記フィルタバンクが均等に配置される,0〜3kHzであり,かつ,3kHz以上では,前記フィルタバンクの間隔が対数的に増加する。
【0018】
好ましくは,前記音声登録方法は,さらに,複数の持続音を含む鼻音,母音,類似音から複数の音素を各々言語単位として採用する工程を含み;前記言語単位抽出工程は,前記スペクトルを複数個に分割することにより複数のフレームを形成する工程と,前記複数のフレームの中で言語単位を有するフレームを抽出する工程と,を含む。
【0019】
好ましくは,前記声量測定工程は,前記スペクトルの言語単位を有するフレームのエネルギー値を測定する工程である。
【0020】
前記音声登録方法は,さらに,前記音声データベースに格納された前記背景話者の音声スペクトルを分析することにより,前記言語単位を含むフレームのエネルギー値を算出して最大声量と最小声量とを抽出する工程を含み;前記声量判断工程は,前記最大声量と前記最小声量との間にある声量を有するフレームの数が,予め設定された比率以上であるか否かを判断する工程である。
【0021】
好ましくは,前記音声登録方法は,さらに,前記複数の背景話者の全ての言語単位に複数の基準パターンを形成する工程と,前記話者の全ての言語単位に複数の話者パターンを形成する工程と,を含み;前記学習工程は,逆伝播アルゴリズムにしたがって,前記基準パターンを前記話者パターンとを比較することにより前記話者のパターン特性を学習する工程を含む。
【0022】
好ましくは,前記音声登録方法は,さらに,一つの学習グループとして,前記一人の背景話者の全ての言語単位に複数の基準パターンを採用することにより,前記背景話者の言語単位の数と同じ数の学習グループを形成する工程を含み;前記学習工程は,前記各学習グループの基準パターンと前記複数の話者パターンを比較して,前記話者パターンの特性を学習する工程である。
【0023】
好ましくは,前記格納工程は,前記全ての言語単位の複数の話者パターンと,前記全ての言語単位の声量を話者認識データとして格納する工程からなる。
【0024】
好ましくは,さらに,少なくとも,予め設定された言語単位の数が,予め設定された範囲内にない場合には,前記話者に音声の再入力を要求する工程を含む。
【0025】
本発明の他の実施例によれば,上記及び他の目的は,話者が登録された話者あるか否かを認識するための話者認識方法において,外部からの入力された音信号のスペクトルを分析する工程と;前記音信号の中の音声信号から話者認識のために予め設定された言語単位を抽出する工程と;各言語単位の声量を測定する工程と;各言語単位の声量が,予め設定された声量範囲内にあるか否かを判断する工程と;少なくとも,予め設定された言語単位の数が予め設定された声量範囲内にある場合には,多層神経網を介して,言語単位が話者に属するものである確率を算出することにより,及び前記確率を平均することにより,話者点数を算出する工程と;前記算出された話者点数を登録話者を検証するための予め設定された最小話者点数であるしきい値と比較することにより,話者点数がしきい値以上である場合に,話者が登録されていることを検証する工程と,を含む,ことを特徴とする話者認識方法により達成される。
【0026】
好ましくは,前記話者点数は,以下の式により算出される。
【0027】
【数1】
但し,P(LUi)は,調査される話者がi番めの言語単位フレームの背景話者である確率点数であり,Mは,孤立単語から抽出された言語単位フレームの数である。
【0028】
好ましくは,前記話者点数は,識別力に応じて与えられる前記言語単位の重み付けに基づいて算出可能である。
【0029】
本発明の他の観点においては,上記及び他の目的は,音声を認識するための音声認識システムにおいて,外部から入力された音信号のスペクトルを分析する音声分析器と;前記音信号から音声信号を抽出し,前記音声信号から話者を認識するために予め設定された言語単位を抽出する音声抽出手段と;複数の基準背景話者の声量を含む背景話者音声データが格納される音声データベースと;各言語単位の声量を判断し,前記音声データベースに基づいて,各言語単位の声量が予め設定された声量範囲内にあるか否かを判断する声量判断手段と;少なくとも,前記予め設定された数以上の言語単位が予め設定された声量範囲内にある場合に,前記各言語単位を学習する学習器と;前記学習された言語単位のデータを前記話者の認識データとして格納するメモリと;前記音声が入力された場合に,前記音声分析器,音声抽出器,音量判断手段及び学習器の動作を制御し,前記メモリに前記話者の認識データを格納する制御部と;を含む,ことを特徴とする音声認識のための音声登録システムにより達成される。
【0030】
本発明の他の実施例によれば,上記及び他の目的は,話者が登録された話者であるか否かを確認するための話者認識システムにおいて,外部から入力された音信号のスペクトルを分析するための音声分析器と;前記音信号から音声信号を抽出し,前記音声信号から話者を認識するために予め設定された言語単位を抽出する音声抽出手段と;各言語単位の声量を判断し,各言語単位の声量が予め設定された声量範囲内にあるか否かを判断する声量判断手段と;前記言語単位が前記話者に属することの確率を算出することにより,及び前記確率を平均することにより,話者点数を算出する話者点数算出部と;前記全ての言語単位の中で少なくとも予め設定された数以上が前記予め設定された声量範囲内にある場合に,前記話者点数算出部が話者点数を算出するように制御し,前記算出された話者点数を,登録された話者であることを確認するための予め設定された最小話者点数である,予め設定されたしきい値と比較することにより,前記話者点数値がしきい値以上である場合に,前記話者が登録された話者であることを確認する制御部と;を含む,ことを特徴とする話者認識システムが提供される。
【発明の効果】
【0031】
話者の音声を登録するための学習時と話者の検証時の話者の声量を考慮することにより,より正確に話者を検証することができる。
【発明を実施するための最良の形態】
【0032】
本発明は,添付図面を参照してより説明される。
【0033】
本発明にかかる音声認識システムにおいて,継続音をサンプリングし,話者を検証するためのMLP(MultiLayer Perceptron)は,音声の認識時に,単独で,あるいはHMM(Hidden Morkov Model)と共に使用される。MLPの利点は,競争集団を拒否する学習が可能であり;音声の統計特性の予備データが不要であり;高度の並列演算及び規則性により,ハードウェア内にMLPを具現化し易い。
【0034】
本発明においては,MLPは,話者の検証に使用される。以下では,MLPが話者検証に使用されることを説明するため,話者を検証するための確率論的方法を,最初に説明し,次いで,MLPの動作が確立論的方法に基づくことを説明する。
【0035】
話者検証において,音声の発話は,話者Sに関する音声モデルM(S)により生成された観測列であるサンプル0と定義される。入力されたサンプル0と音声モデルM(S)との関係は,事後確率P(M(S)|0)と示すことができる。検証処理V(S)は,事後確率P(M(S)|0)と予め設定されたしきい値Θとの比較により実行される。
【0036】
【数2】
【0037】
数式1は,話者の証明は,事後確率がしきい値Θより小さい場合には拒否され,事後確率がしきい値Θより大きい時は認定されることを示す。
【0038】
Bayes公式を使用して,事後確率 P(M(S)|0)は,以下のように記載される。
【0039】
【数3】
【0040】
ここで,検証されるべき話者は閉鎖集団でなく開放集団に属するので,閉鎖集団では固定値であった事前確率
P(M(S))も正確に計算できないばかりでなく,話者の証拠である P(|0)も正確に計算することができない。
【0041】
【数4】
【0042】
したがって, P(M(S))とP(0)とが不確定な条件下では,P(0|M(S))は事後確率を計算するために使用することはできない。
【0043】
上記問題を解決するため,他の話者との比較を介して P(0|M(S))を平均化する方法が提案される。例えば,調べられる話者の類似度点数が登録されている(背景)話者の類似度点数化で平均化される。話者と背景話者との比較による類似度は,以下のように表される。
【0044】
【数5】
【0045】
但し,L(0)は,類似度比率であり, P(0|M(Si))は,調査される話者の可能確率(Likelihood Probability)であり, P(0|M(Si))は背景話者の可能確率である。
【0046】
上記方法を使用して,背景話者集団が全ての調査される話者を表すほど十分に大きい場合には,数式3を近似計算することにより,事後確率P(M(S)|0))を推定することができる。
【0047】
一方,Gishの研究によれば,MLPは上記数学的モデルを具現化する。
【0048】
MLPがx及びΘの関数(ここで,xは入力特徴ベクトルであり,ΘはMLPを定義する全体パラメーターである)と仮定すると,xが調査される話者のCenrに属する場合には,MLPの目標出力aとし,xが背景話者のCbgに属する場合に,MLPの目標出力をbとされる。MLPの性能を評価する基準は,以下のように誤り二乗平均(Average Squared Error)である。
【0049】
【数6】
【0050】
但し,Nは学習のためのサンプルの総数である。
【0051】
このように,Nが十分に大きく,二つの話者集団のサンプル数が集団分布の事前確率により提供されると,上記合計は,以下のように近似化することができる。
【0052】
【数7】
【0053】
但し,p(x,C)は,観測結果及び観測話者集団の結合確率(Joint Probablity)の密度関数である。
【0054】
【数8】
【0055】
数式7を使用すると,数式6は,以下の式のように表現される。
【0056】
【数9】
【0057】
数式8において,最初の項のみが,MLPと関連するパラメーターを含む。したがって,Eを最小化するために,f(x,Θ)のパラメーターを調整することは,MLPの出力と目標確率値d(x)との誤り二乗平均を最小化するという意味である。
【0058】
学習中に,ベクトル値[0 1]または[1 0]が,MLPの目標出力として,a及びbが指定されると,数式7は数式9のように表現される。これは,二つの集団の中でいずれか一つの集団の事後確率が,MLPの目標出力のために選択される,ことを意味する。
【0059】
【数10】
【0060】
即ち,数式8によれば,MLPは,誤り二乗平均に基づいて,選択された事後確率に近接するように学習させる。かかる解釈が正当化されるためには,誤り二乗平均がより小さくなければならず,誤り二乗平均をより低くするためには,MLPは好適な構造を有しなければならない。
【0061】
次に,MLPの動作は,事後確率の平準化の工程を含むことが示される。MLPの出力は,以下のシグモイド(Sigmoid)関数と表現される。
【0062】
【数11】
【0063】
但し,z(x,Θ)は,出力階層におけるシグモイド関数に対する入力である。
【0064】
数式10の逆関数は,以下のように示される。
【0065】
【数12】
【0066】
さらに,話者を調査するために,MLPの出力は事後確率として定義される。
【0067】
【数13】
【0068】
このとき,数式11は以下のように書き換えられる。
【0069】
【数14】
【0070】
この結果,数式6の類似度比率は,MLPにより表現される。即ち,類似度比率はMLPで適用することができるので,数式3を近似化することにより,事後確率P(M(S)|0)を推定することができる。したがって,事後確率を使用して,MLPにより類似度比率を使用して,開放集団での話者検証が可能になる。
【0071】
他方,MLPを適用した,本発明にかかる音声認証システムを,以下に説明する。
【0072】
図1に示すように,本発明にかかる音声認識システム1は,話者登録に先行される学習のための学習パート5と,話者検証のための話者検証パート7と,話者登録と話者検証に共通に使用される分析パート3と,を含む。
【0073】
分析パート3は,話者の音声信号を分析する音声分析部11と,入力された音の中で音声信号を抽出し,話者を認識するために予め設定された言語単位を抽出する音声抽出部13と,各言語単位の声量を決定し,各言語単位の声量が予め設定された声量範囲内にあるか否かを判断する声量判別部15と,を含む。
【0074】
学習パート5は,幾つかの言語単位が予め設定された声量範囲内にある場合に言語単位を学習する学習器23と,話者認識のための学習された言語単位のデータを格納するメモリ25と,及び調査されると比較される背景話者の声量及び音声特性が格納される音声データベース21と,を含む。
【0075】
話者検証パート7は,幾つかの言語単位が予め設定された声量範囲内にある場合に,MLPを介して言語単位が話者に属する確率を算出し,確率を平均化して話者点数を算出する話者点数算出部31と,算出された話者点数を予め設定されたしきい値と比較し,話者点数がしきい値以上の場合に,登録された話者であることを確認する制御部33と,を含む。
【0076】
しかしながら,音声信号は非線形であるため,話者認識効率は完全ではない。音声信号の共振周波数信号にかかる話者認識率は,Cristeaらにより測定されている。測定結果によれば,音声の意味を理解するための音声認識の場合には,認識率は,略300Hz〜2kHzの周波数帯域で80%以上であり,音声が誰のものであるかを識別するための話者認識では,1.5kHz〜2.7kHzの周波数帯域で80%以上の認識率であった。かかる結果によれば,Criateaらは,0〜1.5kHzの周波数帯域と比較して1.5kHz〜2.5kHz間でのフィルタバンクを稠密にすることにより,話者認識率を向上させた。
【0077】
図2に示すように,本発明においては,スペクトルの圧縮時において,フィルタバンクの間隔は0〜3kHzで配置し,3kHz以上では対数的にフィルタバンクの配置間隔が増加される。このとき,約0−3kHzまでの周波数帯域では50個のフィルタバンクの中で2/3である約33個を配置し,3kHz以上では他のフィルタバンクを対数的に配置する。
【0078】
本発明者は,上記フィルタバンクの配置方法は,Criatea et.alのフィルタバンク配置よりも,話者認識率において,より効率的であることを確認した。以下に,数式1−1して表現される話者間の中心距離,及び数式1−2で表現される話者集団間の分散度により,これを証明する。
【0079】
【数15】
【0080】
【数16】
【0081】
数式1−1及び数式1−2から各々導き出される,話者間の中心距離と話者集団間の分散度の結果,本発明にかかるフィルタバンクを配置する場合には,Cristea et.alのフィルタバンク配置と比較して,話者間の中心距離は,図3に示すように,各言語単位に対して平均して20.7%遠くなり,各言語単位の話者集団の分散度は,図4に示すように,平均して6.3%小さくなる。通常,言語単位の分類率は,話者の中心距離に比例し,話者集団内の分散度が小さくなるほど増加する。したがって,図3及び図4に示すように,本発明においては,話者間の中心距離と話者集団の分散度がともに向上される。
【0082】
上記のように,本発明にかかる音声認識システムにおいては,音声分析部11は,0〜3hHzの周波数帯域では,フィルタバンクの間隔を均等に配置させ,約3kHz以上ではフィルタバンクの間隔を対数的に増加されるように配置してスペクトラムを圧縮する。さらに,音声分析手段11は,スペクトルの圧縮の前に,入力された音声信号を予め設定されたフレーム単位により分割し,各フレームのスペクトルを抽出する。
【0083】
本発明においては,言語単位は,継続する音が比較的に多い鼻音,母音,類似音から抽出される。したがって,/a/,/e/,/v/,/o/,/u/,/eu/,/i/,/liq/,/nas/の合計9つの音素を言語単位として使用する。以下,多くの継続する音を有する上記言語単位を継続音という。
【0084】
音声抽出部13は,圧縮されたスペクトルから,閉鎖音,継続音及び無声音を抽出して孤立単語を検出する。孤立単語とは,例えば,句,単語,音節,音素など話者を認識するために必要な言語の単位をいう。音声抽出部13では,TDNN(Time−Dlay neural network)を介して,音声分析部1により検出されたフレームを11個の閉鎖音,9個の継続音,無声音に分類する。その後, TDNNからの結果と各フレームのエネルギーを孤立単語を検出するためのアルゴリズムに適用する。ここで,TDDNは,付加的に,MLPと比較して時間遅延項目を有する。
【0085】
以下では,孤立単語を検出する工程を,図5を参照して説明する。
【0086】
まず,音声が開始する場合には,音声持続時間が最小音声持続時間(MinSD)以上であるか否かが判断される。MinSDは,孤立単語を検出するための基準として採用される。
音声持続時間がMinSD以上でない場合には,発声の開始を再検出する。一方,音声持続時間がMinSD異常である場合には非音声が開始されたか否かを検出する。このとき,非音声が開始された場合には,非音声持続時間が最大非音声持続時間(MaxNSD)以上か否かが判断される。非音声持続時間がMaxNSD以上である場合には,孤立単語の検出工程が中止される。
【0087】
孤立単語が検出されると,TDNNを介して,孤立単語から継続音が含まれるフレームを抽出することができる。一つのフレームには,単一の継続音あるいは複数の継続音が含むことができる。その後,継続音が含まれるフレームは再分析され,話者認識及び話者検証のための継続音の話者パターンとして使用することができる。
【0088】
他方,継続音を有するフレームが抽出されると,声量判別部15では,継続音のスペクトルエネルギー値を測定して,その声量を判断する。さらに,予め音声データベース21に格納された背景話者の声量と比較して調査される話者の声量が話者登録に使用できるか否かを決定する。
【0089】
音声データベース21は,調査される話者と比較する,多くの背景話者の音声のデータの集積であり,背景話者の各継続音の最大声量と最小声量が予め格納されている。
このとき,各背景話者の全ての継続音の声量は,全ての継続音のエネルギー値により計算されることができ,以下に示す。
【0090】
【数17】
【0091】
但し,Sは音声サンプル,Pは継続音,Mはフレームの音声サンプル数,Nはフレーム番号である。
【0092】
数式1−3を使用することにより,調査される話者の継続音が含まれる各フレームが,背景話者の最大声量と最小声量との間にあるか否かを判断する。このとき,継続音を含むフレームは,2つの方法により登録することができる。一つは,調査される話者の音声から抽出された孤立単語の全てのフレームとは無関係に,背景話者の最大声量と最小声量との間にあるフレームのみを登録することが許容される。もう一つは,背景話者の最大声量と最小声量との間にあるフレームが予め設定された比率以上である場合に,フレームが登録されることが許容される。一般に,長い単語の継続音は,アクセントや文法に応じて異なる声量で発生されるので,孤立単語の全てのフレームの平均声量を考慮した後者の方法が適用されるのが好ましい。
【0093】
他方,本発明において使用される音声データベース21は,韓国科学技術大学と光雲大学により,性能評価が共同研究されている。音声データベース21には,単独数字,指示語,4連数字,短文,PBW(Phone−balanced word)の発声目録を有する。本発明によれば,PBWと4連数字目録は,各々,継続音の認識のためのTNDDと話者検証のためのMLPに使用される。
【0094】
声量測定により各継続音を有するフレームが登録許容されると,音声抽出部13は,話者の各言語単位に応じて複数の話者パターンを形成する。背景話者の各言語単位に対応する話者パターンは,予め音声データベース21に格納されている。
【0095】
話者を登録するためには,孤立単語に対応する登録単語のテンプレートが形成されて格納され,MLPにより実行された継続音に応じて学習される。テンプレート単位として登録単語を格納するために,一つの単語に対して2〜3個のテンプレートが必要としなければならない。したがって,話者登録時において,調査される話者は同一単語を数回発声しなければならない。
【0096】
従来の話者登録のための継続音の学習においては,調査される話者パターンが全ての背景話者パターンに対して学習され,これはエポック(Epoch)と称される。基準パターンを一つのエポックにより学習させる場合には,学習中止判断基準が全ての背景話者に適用されるので,調査される話者,及び調査される話者と近似したパターンを有する背景話者に対する識別度が低下される。ここで,学習中止判断基準は,予め設定された事前設定変化率である。予め設定された事前設定変化率は,MLPを介しての学習が十分か否かを判断するための基準として採用される誤り平均二乗根の変化率である。誤り平均二乗根は,背景話者間のエラー発生する範囲を示めす。
【0097】
即ち,誤り平均二乗根の変化率が,調査される話者が背景話者と比較されることにより学習される間に,予め設定された事前設定変化率に近接した場合には,学習器23は学習を中止する。しかしながら,事前設定変化率は,実験値であり, 背景話者は事前設定変化率よりさらに小さいエラーの発生範囲を有することとすることもできる。したがって,調査される話者と背景話者との間のエラー発生範囲が事前設定変化率より小さい場合には,検証能力が低下し,したがって,誤認受諾率(FA)が増加する。誤認受諾率は,未登録の話者を過って受諾する比率を示し,システムが未登録話者を受諾した場合には,システムの情報は詐欺師により流出されやすくなるので,誤認受諾は減少させなければならない。
【0098】
本発明によれば,話者特性を正確に学習するために,一つの背景話者の各継続音に応じて形成された複数の基準パターンを一つの学習グループとして採用する。したがって,各継続音は学習グループを形成するので,全ての背景話者は,各々,複数の学習グループを有する。即ち,一つの背景話者が9つの継続音を有し,各継続音が10個のパターンを有する場合には,一人の背景話者は,各々,10個の基準パターンを含む9つの学習グループを有する。
【0099】
MLPを使用することにより,学習器23は,全ての背景話者の基準パターンを複数の調査される話者パターンと比較し,逆伝播アルゴリズムに応じて調査される話者パターンの特性を学習する。ここで,全ての背景話者の基準パターンを複数の調査される話者パターンとを比較することによる一回の学習は,エポックと称される。また,背景話者の一つの学習グループを一つの調査される話者のパターンと比較することによる一回の学習は,サブエポックと称される。
【0100】
したがって,調査される話者のパターンは,背景話者の基準パターンに対して複数のサブエポック介して進行される。複数のサブエポックを介して進行することにより,全ての背景話者の基準パターンは調査される話者パターンと比較される。このとき,背景話者の基準パターンが話者パターンと類似するればするほど,さらに学習が繰り返される。したがって,調査される話者と背景話者との間のパターンの識別力が向上される。
【0101】
このように,学習パターンはメモリ25に格納され,領さされる話者の音声が再入力される場合に,基準値と使用される。
【0102】
他方,話者検証の工程を,以下に説明する。調査される話者がその音声を入力すると,声量判別部15は,孤立単語の全ての言語単位の中で少なくとも予め設定された数以上が予め設定された声量範囲内に属するかを判断する。入力された孤立単語が予め設定された声量範囲内に属しない場合には,調査される話者はその音声を再入力することが要求される。これに対して,入力された孤立単語が予め設定された声量範囲内にある場合には,孤立単語及び登録単語のテンプレートが相互に一致するか否かをDTW(Dynamic Time Warping)アルゴリズムを介して判断される。このとき,入力された孤立単語及び格納された登録単語のテンプレートが相互に一致する場合には,MLPにより抽出された継続音の学習された話者パターンが入力されることにより話者点数が計算される。話者点数は,数式1−4により算出される。
【0103】
【数18】
【0104】
但し,P(LUi)は,調査される話者がi番目の言語単位フレームの背景話者である確率点数であり,Mは孤立単語から抽出された言語単位フレームの数である。
【0105】
話者点数は,良い識別力の継続音に加重値をおいて算出することもできる。
【0106】
このように,算出された話者点数は,予め設定されたしきい値と比較され,話者点数がしきい値以上である場合には,入力された音声が登録された話者の音声であると判断されて,音声を受諾する。ここで,しきい値は,登録された話者の音声であることを検証するための最小の話者点数であり,話者検証においては登録単語の検証は重要ではないので,誤認拒否率(FR)が最小となるように決定される。誤認拒否率は,登録された話者を誤って拒絶する比率を示す。
【0107】
かかる構成により,本発明にかかる音声認識システム1においては,音声を登録する工程が,以下に,図6を参照して説明される。
【0108】
まず,調査される話者は,その音声を入力すると(S10),音声分析部11は,入力された音声信号を予め設定されたフレームに分割して(S20),スペクトル化し(S30),フィルタバンクを使用してスペクトルを圧縮した後,孤立単語を抽出する(S40)。次に,音声抽出部13は,孤立単語のフレーム中の言語単位を含むフレームを抽出する(S50)。声量判別部15は,言語単位の声量を測定し(S60),声量が背景話者の最大声量と最小声量との間にあるか否かを判断する(S70)。このとき,調査される話者の言語単位の声量が,背景話者の最大声量と最小声量との間にない場合には,制御部33は,話者の音声を再入力することを要求する(S75)。
【0109】
反対に,調査される話者の言語単位の声量が背景話者の最大声量と最小声量との間にある場合には,調査される話者の全ての言語単位のパターンを生成する(S80)。また,学習器23は,全ての背景話者の基準パターンを調査される話者のパターンとを比較して,調査される話者のパターン特性をMLPにより学習する(S90)。ここで,背景話者の基準パターンは,各言語単位に応じて複数の学習グループに分類されており,調査される話者の各パターンは,言語単位に応じて背景話者の基準パターンと比較される。次いで,学習が完了すると,比較されたパターンと声量を調査される話者の声量が登録される(S100)。
【0110】
さらに,調査される話者の音声が登録された音声であるか否かを検証する話者検証工程は,以下に,図7を参照して説明する。
【0111】
まず,調査される話者は,その音声を入力すると(P10),音声分析器11は,入力された音声信号を予め設定されたフレームにより分割し(P20),スペクトルとして表示し(P30),孤立単語を抽出する(P40)。その後,孤立単語のフレームの中で言語単位を含むフレームを抽出する(P50)。次に,抽出されたフレームに含まれた言語単位の声量を測定し(P60),測定された声量が背景話者の最大声量と最小声量との間に含まれるかを判断する(P70)。このとき,調査される話者の言語単位が背景話者の最大声量と最小声量との間にない場合には,制御器33は,調査される話者にその音声を再入力することを要求する(P75)。一方,調査される話者の各言語単位の声量が背景話者の最大声量と最小声量との間にある場合には,話者点数算出部31は,MLPにより全ての言語単位の話者点数を算出する(P80)。さらに,制御部33では,算出された話者点数を予め設定されたしきい値と比較し(P90),話者点数がしきい値以上である場合には,調査される話者が登録さていることが検証され,調査される話者を受諾する(P100)。反対に,話者点数がしきい値の以下である場合には,調査される話者が登録されていないことが検査され,調査される話者を拒絶する(105)。
【0112】
以下に,表4から表6は,本発明にかかる音声認識システム1を使用した話者登録の結果を示す。そこには,調査される話者は,180%,140%,120%,100%,80%大きさの声量で各々登録した後,180%,140%,120%,100%,80%の声量で発声した。表1〜表3は,各々,従来の音声認識システムにおける誤認拒否率,誤認受諾率,孤立単語受諾率を示す。さらに,表4〜表6は,各々,本発明にかかる音声認識システムにおける誤認拒否率,誤認受諾率,孤立単語受諾率を示す。ここで,誤認拒否率(FR)は,登録話者を誤って拒絶する比率と示し,孤立単語受諾率は,調査される話者が背景話者の登録単語を発声した場合における受諾比率を示す。
【0113】
【表1】
【0114】
【表2】
【0115】
【表3】
【0116】
【表4】
【0117】
表4に示すように,調査される声量が学習された音声に近いほど,誤認拒否率が低下する。一方,調査される恩労が学習された音量と相違するほど,誤認拒否率が増加される。特に,学習された声量が大きく,調査される声量が小さい場合に,誤認拒否率が最小化される。
【0118】
【表5】
【0119】
表5に示すように,非登録話者を誤って受諾する比率を示す誤認受諾率は,学習された声量または調査される声量が100%である場合に,最小化される。他の場合には,誤認受諾率が増加する。表2と比較すると,表5は,本発明にかかる音声認識システム1の誤認受諾率が全般的に改善されたことを示している。
【0120】
【表6】
【0121】
表6に示すように,孤立単語受諾率は,180%の学習された声量及び調査される声量である場合に,最小化される。表3と比較すると,表6は,本発明にかかる音声認識システム1の孤立単語受諾率は,全般的に低いことが示されている。したがって,登録された話者は,調査される話者が不十分な音量で発声する場合に,調査される話者が再度発声することを許可することにより,もっとも正確に検証される。
【0122】
上記のように,本発明にかかる音声認識システム1においては,音声を学習する際に,調査される話者が予め設定された背景話者の声量範囲内にあるか否かを判断し,予め設定された声量範囲にある音声のみが分析されて,話者パターンが形成される。さらに,話者を検証する際に,調査される話者の声量が,予め設定された背景話者の声量範囲内にあるか否かを判断し,予め設定された声量範囲内にある音声のみの話者点数が計算され,調査される話者を拒絶あるいは受諾する。
【0123】
上記のように,本発明にかかる音声認識システムにおいては,学習する際及び話者を検証する際の声量が100%である場合に最も効果的となる。一方,100%からの差異が大きくなるほど,認識率は低下する。即ち,従来の音声認識システムにおいては,認識率お呼び声量は無関係であるが,本発明にかかる音声認識システムにおいては,孤立単語の受諾率は,調査される話者と学習された話者との間の声量の差異が大きくなるにしたがって,低下し,調査される話者が再び発声させる。したがって,誤認受諾は,非登録話者を誤認する比率を示し,予め設定された背景話者の声量範囲以内にない場合には,再発声する機会を有するので,音声認識システム1の信頼性が向上される。
【0124】
上記に説明したように,本発明においては,話者の声量は,音声を登録するための学習の際,及び話者を検証する際に考慮されるので,より正確に話者を検証することが可能になる。本発明の好ましい実施形態は,具体的な目的に対して開示したが,いわゆる当業者であれば,添付請求項に開示された本発明の範囲及び精神を逸脱することなく,各種修正,付加,代替することは可能である。
【図面の簡単な説明】
【0125】
添付図面と共に提供される以下の説明により,本発明はより理解され,その各種目的及び長所は,全面的に賞賛されるであろう。
【図1】図1は,本発明による音声認識システムの構成図である。
【図2】図2は,本発明による音声認識システムのフィルタバンクの配置図である。
【図3】図3は,図2のフィルタバンク配置による背景話者間の中心距離の変化率を示すグラフである。
【図4】図4は,図2のフィルタバンク配置による集団内背景話者の分散度である。
【図5】図5は,本発明による音声認識システムの孤立単語の検出過程を示すフローチャートである。
【図6】図6は,本発明による音声認識システムの音声登録過程を示すフローチャートである。
【図7】図7は,本発明による音声認識システムの話者検証過程を示すフローチャートである。
【0001】
本発明は,概して,話者の声量を考慮して音声学習及び音声認識を行うことにより,話者の声量に起因するエラーを防止する,音声登録方法及びそのシステムに基づく音声認識方法及びそのシステムに関する。
【背景技術】
【0002】
一般に,セキュリティシステムは,主に,国家セキュリティや産業セキュリティのために使用されてきたが,近年においては,個人セキュリティやコンピュータセキュリティのために使用されている。
【0003】
特に,インターネットを含むネットワークシステムの発達により,コンピュータネットワークシステムは益々侵入に対して被害を受け,したがって,個人情報が電子商取引やインターネットなどのネットワーキングを介して流出しやすくなる,という問題が発生するようになっている。
【0004】
かかる問題を防止するため,コンピュータシステムの場合においては,コンピュータシステムにアクセスする特定ユーザのみを許可する幾つかの方法が開発されている。かかる方法は,ID,パースワード,認証キーなどを使用する方法,生体的な特徴を使用する方法に分類される。生体的な特徴は,音声,指紋,手の平,網膜などである。
【0005】
音声は,人間の意図を示す普遍的かつ簡易な手段である。音声を使用した技術としては,音声を認識する音声認識システム,音声を発声する話者を認識する話者認識システムがある。
【0006】
話者認識技術においては,ユーザは,ID,パースワードを使用する必要はなく,不正使用を防止することできる。また,パーソナルコンピュータシステムにおいて通常具備されるサウンドカード,マイクロフォンだけで話者認識システムを実行するのに十分である。さらに,話者認識システムにおいては,特定ユーザの音声に反応してパーソナルコンピュータシステムの動作を制御することができる。
【0007】
話者認識は,認識方法の形態により,話者識別と話者検証とに分類される。話者識別は,入力された音声の話者を識別し,話者検証は,話者の音声を検証することにより,話者を認定あるいは拒否する。
【0008】
一般的な話者認識工程は,以下に説明される。
【0009】
まず,話者を登録するために,話者は,話者認識システムに話者の声を入力した場合には,入力された音信号の波形がスペクトルとしてあらわされる。スペクトルは分析されて孤立単語が抽出され,その結果,単語から音素がサンプリングされる。ここで,音素は,予め設定され,音声を認識するための基準として採用される。その後,話者認識システムは,話者の各音素をパターンを作成し,続いて,予め設定された音素のパターンと比較され,したがって,話者の特性を学習する。その後,学習が完了すると,話者のパターンが登録される。
【0010】
その後,音声が,新たに,話者認証システムに入力された場合には,話者認証システムは,上記分析方法により,新たに入力された音声に基づいてパターンを作成し,続いて,登録された(背景)話者の音声パターンと比較し,したがって,話者を認定あるいは拒否する。
【0011】
また,従来の話者認識システムにおいては,新たに作成されたパターンは,データベースに格納されている登録話者の音声パターンと比較される。しかしながら,データベースに格納されている音声は,低雑音,高性能マイク,一定の声量などの理想的な条件下で録音されるので,データベースに格納されている音声は,実際音声の特別な例を示しているに過ぎない。
【0012】
データベースに格納されている音声とは異なる条件で発声された音声が入力された場合には,音声認識システムの実行は,影響を受ける。特に,音声の声量がシステムの実行に深刻な影響を与える。
【0013】
このように,音声認識システムにおいては,音声の声量の影響を考慮した音声学習及び話者検証が提供される必要がある。
【発明の開示】
【発明が解決しようとする課題】
【0014】
したがって,本発明は,上記欠点及びユーザの要求を考慮し,本発明の目的は,話者の声量を考慮した音声学習及び話者検証を実行することにより,より正確に話者を検証することが可能な音声登録方法及びそのシステムと音声登録方法及びそのシステムに基づく音声認識方法及びそのシステムを提供することにある。
【課題を解決するための手段】
【0015】
本発明の本目的及び他の目的は,音声認識のための音声登録方法において,外部から入力された音信号のスペクトルを分析する工程と;前記音信号内の音声信号から話者認識のために予め設定された言語単位を抽出する工程と;前記各言語単位の声量を測定する工程と;基準としての複数の背景話者の声量データを含む登録(背景)話者の音声データを音声データベースに収集する工程と;前記各言語単位の声量が前記音声データベースに基づいて,予め設定された声量範囲内にあるか否かを判断する工程と;予め設定された数の言語単位が予め設定された声量範囲内にある場合に,多層神経網を使用して各言語単位を学習する工程と;及び前記学習された各言語単位のデータを前記話者を認識するためのデータとして格納する工程と;を含む,ことを特徴とする音声認識のための音声登録方法により達成される。
【0016】
好ましくは,前記音声分析工程は,前記話者の音声信号をスペクトルとして表現する工程と,前記話者の音声特性を認識可能な話者認識領域に均等にフィルタバンクを配置して,前記スペクトルを圧縮する工程と,を含む。
【0017】
好ましくは,前記スペクトルの話者認識領域は,前記フィルタバンクが均等に配置される,0〜3kHzであり,かつ,3kHz以上では,前記フィルタバンクの間隔が対数的に増加する。
【0018】
好ましくは,前記音声登録方法は,さらに,複数の持続音を含む鼻音,母音,類似音から複数の音素を各々言語単位として採用する工程を含み;前記言語単位抽出工程は,前記スペクトルを複数個に分割することにより複数のフレームを形成する工程と,前記複数のフレームの中で言語単位を有するフレームを抽出する工程と,を含む。
【0019】
好ましくは,前記声量測定工程は,前記スペクトルの言語単位を有するフレームのエネルギー値を測定する工程である。
【0020】
前記音声登録方法は,さらに,前記音声データベースに格納された前記背景話者の音声スペクトルを分析することにより,前記言語単位を含むフレームのエネルギー値を算出して最大声量と最小声量とを抽出する工程を含み;前記声量判断工程は,前記最大声量と前記最小声量との間にある声量を有するフレームの数が,予め設定された比率以上であるか否かを判断する工程である。
【0021】
好ましくは,前記音声登録方法は,さらに,前記複数の背景話者の全ての言語単位に複数の基準パターンを形成する工程と,前記話者の全ての言語単位に複数の話者パターンを形成する工程と,を含み;前記学習工程は,逆伝播アルゴリズムにしたがって,前記基準パターンを前記話者パターンとを比較することにより前記話者のパターン特性を学習する工程を含む。
【0022】
好ましくは,前記音声登録方法は,さらに,一つの学習グループとして,前記一人の背景話者の全ての言語単位に複数の基準パターンを採用することにより,前記背景話者の言語単位の数と同じ数の学習グループを形成する工程を含み;前記学習工程は,前記各学習グループの基準パターンと前記複数の話者パターンを比較して,前記話者パターンの特性を学習する工程である。
【0023】
好ましくは,前記格納工程は,前記全ての言語単位の複数の話者パターンと,前記全ての言語単位の声量を話者認識データとして格納する工程からなる。
【0024】
好ましくは,さらに,少なくとも,予め設定された言語単位の数が,予め設定された範囲内にない場合には,前記話者に音声の再入力を要求する工程を含む。
【0025】
本発明の他の実施例によれば,上記及び他の目的は,話者が登録された話者あるか否かを認識するための話者認識方法において,外部からの入力された音信号のスペクトルを分析する工程と;前記音信号の中の音声信号から話者認識のために予め設定された言語単位を抽出する工程と;各言語単位の声量を測定する工程と;各言語単位の声量が,予め設定された声量範囲内にあるか否かを判断する工程と;少なくとも,予め設定された言語単位の数が予め設定された声量範囲内にある場合には,多層神経網を介して,言語単位が話者に属するものである確率を算出することにより,及び前記確率を平均することにより,話者点数を算出する工程と;前記算出された話者点数を登録話者を検証するための予め設定された最小話者点数であるしきい値と比較することにより,話者点数がしきい値以上である場合に,話者が登録されていることを検証する工程と,を含む,ことを特徴とする話者認識方法により達成される。
【0026】
好ましくは,前記話者点数は,以下の式により算出される。
【0027】
【数1】
但し,P(LUi)は,調査される話者がi番めの言語単位フレームの背景話者である確率点数であり,Mは,孤立単語から抽出された言語単位フレームの数である。
【0028】
好ましくは,前記話者点数は,識別力に応じて与えられる前記言語単位の重み付けに基づいて算出可能である。
【0029】
本発明の他の観点においては,上記及び他の目的は,音声を認識するための音声認識システムにおいて,外部から入力された音信号のスペクトルを分析する音声分析器と;前記音信号から音声信号を抽出し,前記音声信号から話者を認識するために予め設定された言語単位を抽出する音声抽出手段と;複数の基準背景話者の声量を含む背景話者音声データが格納される音声データベースと;各言語単位の声量を判断し,前記音声データベースに基づいて,各言語単位の声量が予め設定された声量範囲内にあるか否かを判断する声量判断手段と;少なくとも,前記予め設定された数以上の言語単位が予め設定された声量範囲内にある場合に,前記各言語単位を学習する学習器と;前記学習された言語単位のデータを前記話者の認識データとして格納するメモリと;前記音声が入力された場合に,前記音声分析器,音声抽出器,音量判断手段及び学習器の動作を制御し,前記メモリに前記話者の認識データを格納する制御部と;を含む,ことを特徴とする音声認識のための音声登録システムにより達成される。
【0030】
本発明の他の実施例によれば,上記及び他の目的は,話者が登録された話者であるか否かを確認するための話者認識システムにおいて,外部から入力された音信号のスペクトルを分析するための音声分析器と;前記音信号から音声信号を抽出し,前記音声信号から話者を認識するために予め設定された言語単位を抽出する音声抽出手段と;各言語単位の声量を判断し,各言語単位の声量が予め設定された声量範囲内にあるか否かを判断する声量判断手段と;前記言語単位が前記話者に属することの確率を算出することにより,及び前記確率を平均することにより,話者点数を算出する話者点数算出部と;前記全ての言語単位の中で少なくとも予め設定された数以上が前記予め設定された声量範囲内にある場合に,前記話者点数算出部が話者点数を算出するように制御し,前記算出された話者点数を,登録された話者であることを確認するための予め設定された最小話者点数である,予め設定されたしきい値と比較することにより,前記話者点数値がしきい値以上である場合に,前記話者が登録された話者であることを確認する制御部と;を含む,ことを特徴とする話者認識システムが提供される。
【発明の効果】
【0031】
話者の音声を登録するための学習時と話者の検証時の話者の声量を考慮することにより,より正確に話者を検証することができる。
【発明を実施するための最良の形態】
【0032】
本発明は,添付図面を参照してより説明される。
【0033】
本発明にかかる音声認識システムにおいて,継続音をサンプリングし,話者を検証するためのMLP(MultiLayer Perceptron)は,音声の認識時に,単独で,あるいはHMM(Hidden Morkov Model)と共に使用される。MLPの利点は,競争集団を拒否する学習が可能であり;音声の統計特性の予備データが不要であり;高度の並列演算及び規則性により,ハードウェア内にMLPを具現化し易い。
【0034】
本発明においては,MLPは,話者の検証に使用される。以下では,MLPが話者検証に使用されることを説明するため,話者を検証するための確率論的方法を,最初に説明し,次いで,MLPの動作が確立論的方法に基づくことを説明する。
【0035】
話者検証において,音声の発話は,話者Sに関する音声モデルM(S)により生成された観測列であるサンプル0と定義される。入力されたサンプル0と音声モデルM(S)との関係は,事後確率P(M(S)|0)と示すことができる。検証処理V(S)は,事後確率P(M(S)|0)と予め設定されたしきい値Θとの比較により実行される。
【0036】
【数2】
【0037】
数式1は,話者の証明は,事後確率がしきい値Θより小さい場合には拒否され,事後確率がしきい値Θより大きい時は認定されることを示す。
【0038】
Bayes公式を使用して,事後確率 P(M(S)|0)は,以下のように記載される。
【0039】
【数3】
【0040】
ここで,検証されるべき話者は閉鎖集団でなく開放集団に属するので,閉鎖集団では固定値であった事前確率
P(M(S))も正確に計算できないばかりでなく,話者の証拠である P(|0)も正確に計算することができない。
【0041】
【数4】
【0042】
したがって, P(M(S))とP(0)とが不確定な条件下では,P(0|M(S))は事後確率を計算するために使用することはできない。
【0043】
上記問題を解決するため,他の話者との比較を介して P(0|M(S))を平均化する方法が提案される。例えば,調べられる話者の類似度点数が登録されている(背景)話者の類似度点数化で平均化される。話者と背景話者との比較による類似度は,以下のように表される。
【0044】
【数5】
【0045】
但し,L(0)は,類似度比率であり, P(0|M(Si))は,調査される話者の可能確率(Likelihood Probability)であり, P(0|M(Si))は背景話者の可能確率である。
【0046】
上記方法を使用して,背景話者集団が全ての調査される話者を表すほど十分に大きい場合には,数式3を近似計算することにより,事後確率P(M(S)|0))を推定することができる。
【0047】
一方,Gishの研究によれば,MLPは上記数学的モデルを具現化する。
【0048】
MLPがx及びΘの関数(ここで,xは入力特徴ベクトルであり,ΘはMLPを定義する全体パラメーターである)と仮定すると,xが調査される話者のCenrに属する場合には,MLPの目標出力aとし,xが背景話者のCbgに属する場合に,MLPの目標出力をbとされる。MLPの性能を評価する基準は,以下のように誤り二乗平均(Average Squared Error)である。
【0049】
【数6】
【0050】
但し,Nは学習のためのサンプルの総数である。
【0051】
このように,Nが十分に大きく,二つの話者集団のサンプル数が集団分布の事前確率により提供されると,上記合計は,以下のように近似化することができる。
【0052】
【数7】
【0053】
但し,p(x,C)は,観測結果及び観測話者集団の結合確率(Joint Probablity)の密度関数である。
【0054】
【数8】
【0055】
数式7を使用すると,数式6は,以下の式のように表現される。
【0056】
【数9】
【0057】
数式8において,最初の項のみが,MLPと関連するパラメーターを含む。したがって,Eを最小化するために,f(x,Θ)のパラメーターを調整することは,MLPの出力と目標確率値d(x)との誤り二乗平均を最小化するという意味である。
【0058】
学習中に,ベクトル値[0 1]または[1 0]が,MLPの目標出力として,a及びbが指定されると,数式7は数式9のように表現される。これは,二つの集団の中でいずれか一つの集団の事後確率が,MLPの目標出力のために選択される,ことを意味する。
【0059】
【数10】
【0060】
即ち,数式8によれば,MLPは,誤り二乗平均に基づいて,選択された事後確率に近接するように学習させる。かかる解釈が正当化されるためには,誤り二乗平均がより小さくなければならず,誤り二乗平均をより低くするためには,MLPは好適な構造を有しなければならない。
【0061】
次に,MLPの動作は,事後確率の平準化の工程を含むことが示される。MLPの出力は,以下のシグモイド(Sigmoid)関数と表現される。
【0062】
【数11】
【0063】
但し,z(x,Θ)は,出力階層におけるシグモイド関数に対する入力である。
【0064】
数式10の逆関数は,以下のように示される。
【0065】
【数12】
【0066】
さらに,話者を調査するために,MLPの出力は事後確率として定義される。
【0067】
【数13】
【0068】
このとき,数式11は以下のように書き換えられる。
【0069】
【数14】
【0070】
この結果,数式6の類似度比率は,MLPにより表現される。即ち,類似度比率はMLPで適用することができるので,数式3を近似化することにより,事後確率P(M(S)|0)を推定することができる。したがって,事後確率を使用して,MLPにより類似度比率を使用して,開放集団での話者検証が可能になる。
【0071】
他方,MLPを適用した,本発明にかかる音声認証システムを,以下に説明する。
【0072】
図1に示すように,本発明にかかる音声認識システム1は,話者登録に先行される学習のための学習パート5と,話者検証のための話者検証パート7と,話者登録と話者検証に共通に使用される分析パート3と,を含む。
【0073】
分析パート3は,話者の音声信号を分析する音声分析部11と,入力された音の中で音声信号を抽出し,話者を認識するために予め設定された言語単位を抽出する音声抽出部13と,各言語単位の声量を決定し,各言語単位の声量が予め設定された声量範囲内にあるか否かを判断する声量判別部15と,を含む。
【0074】
学習パート5は,幾つかの言語単位が予め設定された声量範囲内にある場合に言語単位を学習する学習器23と,話者認識のための学習された言語単位のデータを格納するメモリ25と,及び調査されると比較される背景話者の声量及び音声特性が格納される音声データベース21と,を含む。
【0075】
話者検証パート7は,幾つかの言語単位が予め設定された声量範囲内にある場合に,MLPを介して言語単位が話者に属する確率を算出し,確率を平均化して話者点数を算出する話者点数算出部31と,算出された話者点数を予め設定されたしきい値と比較し,話者点数がしきい値以上の場合に,登録された話者であることを確認する制御部33と,を含む。
【0076】
しかしながら,音声信号は非線形であるため,話者認識効率は完全ではない。音声信号の共振周波数信号にかかる話者認識率は,Cristeaらにより測定されている。測定結果によれば,音声の意味を理解するための音声認識の場合には,認識率は,略300Hz〜2kHzの周波数帯域で80%以上であり,音声が誰のものであるかを識別するための話者認識では,1.5kHz〜2.7kHzの周波数帯域で80%以上の認識率であった。かかる結果によれば,Criateaらは,0〜1.5kHzの周波数帯域と比較して1.5kHz〜2.5kHz間でのフィルタバンクを稠密にすることにより,話者認識率を向上させた。
【0077】
図2に示すように,本発明においては,スペクトルの圧縮時において,フィルタバンクの間隔は0〜3kHzで配置し,3kHz以上では対数的にフィルタバンクの配置間隔が増加される。このとき,約0−3kHzまでの周波数帯域では50個のフィルタバンクの中で2/3である約33個を配置し,3kHz以上では他のフィルタバンクを対数的に配置する。
【0078】
本発明者は,上記フィルタバンクの配置方法は,Criatea et.alのフィルタバンク配置よりも,話者認識率において,より効率的であることを確認した。以下に,数式1−1して表現される話者間の中心距離,及び数式1−2で表現される話者集団間の分散度により,これを証明する。
【0079】
【数15】
【0080】
【数16】
【0081】
数式1−1及び数式1−2から各々導き出される,話者間の中心距離と話者集団間の分散度の結果,本発明にかかるフィルタバンクを配置する場合には,Cristea et.alのフィルタバンク配置と比較して,話者間の中心距離は,図3に示すように,各言語単位に対して平均して20.7%遠くなり,各言語単位の話者集団の分散度は,図4に示すように,平均して6.3%小さくなる。通常,言語単位の分類率は,話者の中心距離に比例し,話者集団内の分散度が小さくなるほど増加する。したがって,図3及び図4に示すように,本発明においては,話者間の中心距離と話者集団の分散度がともに向上される。
【0082】
上記のように,本発明にかかる音声認識システムにおいては,音声分析部11は,0〜3hHzの周波数帯域では,フィルタバンクの間隔を均等に配置させ,約3kHz以上ではフィルタバンクの間隔を対数的に増加されるように配置してスペクトラムを圧縮する。さらに,音声分析手段11は,スペクトルの圧縮の前に,入力された音声信号を予め設定されたフレーム単位により分割し,各フレームのスペクトルを抽出する。
【0083】
本発明においては,言語単位は,継続する音が比較的に多い鼻音,母音,類似音から抽出される。したがって,/a/,/e/,/v/,/o/,/u/,/eu/,/i/,/liq/,/nas/の合計9つの音素を言語単位として使用する。以下,多くの継続する音を有する上記言語単位を継続音という。
【0084】
音声抽出部13は,圧縮されたスペクトルから,閉鎖音,継続音及び無声音を抽出して孤立単語を検出する。孤立単語とは,例えば,句,単語,音節,音素など話者を認識するために必要な言語の単位をいう。音声抽出部13では,TDNN(Time−Dlay neural network)を介して,音声分析部1により検出されたフレームを11個の閉鎖音,9個の継続音,無声音に分類する。その後, TDNNからの結果と各フレームのエネルギーを孤立単語を検出するためのアルゴリズムに適用する。ここで,TDDNは,付加的に,MLPと比較して時間遅延項目を有する。
【0085】
以下では,孤立単語を検出する工程を,図5を参照して説明する。
【0086】
まず,音声が開始する場合には,音声持続時間が最小音声持続時間(MinSD)以上であるか否かが判断される。MinSDは,孤立単語を検出するための基準として採用される。
音声持続時間がMinSD以上でない場合には,発声の開始を再検出する。一方,音声持続時間がMinSD異常である場合には非音声が開始されたか否かを検出する。このとき,非音声が開始された場合には,非音声持続時間が最大非音声持続時間(MaxNSD)以上か否かが判断される。非音声持続時間がMaxNSD以上である場合には,孤立単語の検出工程が中止される。
【0087】
孤立単語が検出されると,TDNNを介して,孤立単語から継続音が含まれるフレームを抽出することができる。一つのフレームには,単一の継続音あるいは複数の継続音が含むことができる。その後,継続音が含まれるフレームは再分析され,話者認識及び話者検証のための継続音の話者パターンとして使用することができる。
【0088】
他方,継続音を有するフレームが抽出されると,声量判別部15では,継続音のスペクトルエネルギー値を測定して,その声量を判断する。さらに,予め音声データベース21に格納された背景話者の声量と比較して調査される話者の声量が話者登録に使用できるか否かを決定する。
【0089】
音声データベース21は,調査される話者と比較する,多くの背景話者の音声のデータの集積であり,背景話者の各継続音の最大声量と最小声量が予め格納されている。
このとき,各背景話者の全ての継続音の声量は,全ての継続音のエネルギー値により計算されることができ,以下に示す。
【0090】
【数17】
【0091】
但し,Sは音声サンプル,Pは継続音,Mはフレームの音声サンプル数,Nはフレーム番号である。
【0092】
数式1−3を使用することにより,調査される話者の継続音が含まれる各フレームが,背景話者の最大声量と最小声量との間にあるか否かを判断する。このとき,継続音を含むフレームは,2つの方法により登録することができる。一つは,調査される話者の音声から抽出された孤立単語の全てのフレームとは無関係に,背景話者の最大声量と最小声量との間にあるフレームのみを登録することが許容される。もう一つは,背景話者の最大声量と最小声量との間にあるフレームが予め設定された比率以上である場合に,フレームが登録されることが許容される。一般に,長い単語の継続音は,アクセントや文法に応じて異なる声量で発生されるので,孤立単語の全てのフレームの平均声量を考慮した後者の方法が適用されるのが好ましい。
【0093】
他方,本発明において使用される音声データベース21は,韓国科学技術大学と光雲大学により,性能評価が共同研究されている。音声データベース21には,単独数字,指示語,4連数字,短文,PBW(Phone−balanced word)の発声目録を有する。本発明によれば,PBWと4連数字目録は,各々,継続音の認識のためのTNDDと話者検証のためのMLPに使用される。
【0094】
声量測定により各継続音を有するフレームが登録許容されると,音声抽出部13は,話者の各言語単位に応じて複数の話者パターンを形成する。背景話者の各言語単位に対応する話者パターンは,予め音声データベース21に格納されている。
【0095】
話者を登録するためには,孤立単語に対応する登録単語のテンプレートが形成されて格納され,MLPにより実行された継続音に応じて学習される。テンプレート単位として登録単語を格納するために,一つの単語に対して2〜3個のテンプレートが必要としなければならない。したがって,話者登録時において,調査される話者は同一単語を数回発声しなければならない。
【0096】
従来の話者登録のための継続音の学習においては,調査される話者パターンが全ての背景話者パターンに対して学習され,これはエポック(Epoch)と称される。基準パターンを一つのエポックにより学習させる場合には,学習中止判断基準が全ての背景話者に適用されるので,調査される話者,及び調査される話者と近似したパターンを有する背景話者に対する識別度が低下される。ここで,学習中止判断基準は,予め設定された事前設定変化率である。予め設定された事前設定変化率は,MLPを介しての学習が十分か否かを判断するための基準として採用される誤り平均二乗根の変化率である。誤り平均二乗根は,背景話者間のエラー発生する範囲を示めす。
【0097】
即ち,誤り平均二乗根の変化率が,調査される話者が背景話者と比較されることにより学習される間に,予め設定された事前設定変化率に近接した場合には,学習器23は学習を中止する。しかしながら,事前設定変化率は,実験値であり, 背景話者は事前設定変化率よりさらに小さいエラーの発生範囲を有することとすることもできる。したがって,調査される話者と背景話者との間のエラー発生範囲が事前設定変化率より小さい場合には,検証能力が低下し,したがって,誤認受諾率(FA)が増加する。誤認受諾率は,未登録の話者を過って受諾する比率を示し,システムが未登録話者を受諾した場合には,システムの情報は詐欺師により流出されやすくなるので,誤認受諾は減少させなければならない。
【0098】
本発明によれば,話者特性を正確に学習するために,一つの背景話者の各継続音に応じて形成された複数の基準パターンを一つの学習グループとして採用する。したがって,各継続音は学習グループを形成するので,全ての背景話者は,各々,複数の学習グループを有する。即ち,一つの背景話者が9つの継続音を有し,各継続音が10個のパターンを有する場合には,一人の背景話者は,各々,10個の基準パターンを含む9つの学習グループを有する。
【0099】
MLPを使用することにより,学習器23は,全ての背景話者の基準パターンを複数の調査される話者パターンと比較し,逆伝播アルゴリズムに応じて調査される話者パターンの特性を学習する。ここで,全ての背景話者の基準パターンを複数の調査される話者パターンとを比較することによる一回の学習は,エポックと称される。また,背景話者の一つの学習グループを一つの調査される話者のパターンと比較することによる一回の学習は,サブエポックと称される。
【0100】
したがって,調査される話者のパターンは,背景話者の基準パターンに対して複数のサブエポック介して進行される。複数のサブエポックを介して進行することにより,全ての背景話者の基準パターンは調査される話者パターンと比較される。このとき,背景話者の基準パターンが話者パターンと類似するればするほど,さらに学習が繰り返される。したがって,調査される話者と背景話者との間のパターンの識別力が向上される。
【0101】
このように,学習パターンはメモリ25に格納され,領さされる話者の音声が再入力される場合に,基準値と使用される。
【0102】
他方,話者検証の工程を,以下に説明する。調査される話者がその音声を入力すると,声量判別部15は,孤立単語の全ての言語単位の中で少なくとも予め設定された数以上が予め設定された声量範囲内に属するかを判断する。入力された孤立単語が予め設定された声量範囲内に属しない場合には,調査される話者はその音声を再入力することが要求される。これに対して,入力された孤立単語が予め設定された声量範囲内にある場合には,孤立単語及び登録単語のテンプレートが相互に一致するか否かをDTW(Dynamic Time Warping)アルゴリズムを介して判断される。このとき,入力された孤立単語及び格納された登録単語のテンプレートが相互に一致する場合には,MLPにより抽出された継続音の学習された話者パターンが入力されることにより話者点数が計算される。話者点数は,数式1−4により算出される。
【0103】
【数18】
【0104】
但し,P(LUi)は,調査される話者がi番目の言語単位フレームの背景話者である確率点数であり,Mは孤立単語から抽出された言語単位フレームの数である。
【0105】
話者点数は,良い識別力の継続音に加重値をおいて算出することもできる。
【0106】
このように,算出された話者点数は,予め設定されたしきい値と比較され,話者点数がしきい値以上である場合には,入力された音声が登録された話者の音声であると判断されて,音声を受諾する。ここで,しきい値は,登録された話者の音声であることを検証するための最小の話者点数であり,話者検証においては登録単語の検証は重要ではないので,誤認拒否率(FR)が最小となるように決定される。誤認拒否率は,登録された話者を誤って拒絶する比率を示す。
【0107】
かかる構成により,本発明にかかる音声認識システム1においては,音声を登録する工程が,以下に,図6を参照して説明される。
【0108】
まず,調査される話者は,その音声を入力すると(S10),音声分析部11は,入力された音声信号を予め設定されたフレームに分割して(S20),スペクトル化し(S30),フィルタバンクを使用してスペクトルを圧縮した後,孤立単語を抽出する(S40)。次に,音声抽出部13は,孤立単語のフレーム中の言語単位を含むフレームを抽出する(S50)。声量判別部15は,言語単位の声量を測定し(S60),声量が背景話者の最大声量と最小声量との間にあるか否かを判断する(S70)。このとき,調査される話者の言語単位の声量が,背景話者の最大声量と最小声量との間にない場合には,制御部33は,話者の音声を再入力することを要求する(S75)。
【0109】
反対に,調査される話者の言語単位の声量が背景話者の最大声量と最小声量との間にある場合には,調査される話者の全ての言語単位のパターンを生成する(S80)。また,学習器23は,全ての背景話者の基準パターンを調査される話者のパターンとを比較して,調査される話者のパターン特性をMLPにより学習する(S90)。ここで,背景話者の基準パターンは,各言語単位に応じて複数の学習グループに分類されており,調査される話者の各パターンは,言語単位に応じて背景話者の基準パターンと比較される。次いで,学習が完了すると,比較されたパターンと声量を調査される話者の声量が登録される(S100)。
【0110】
さらに,調査される話者の音声が登録された音声であるか否かを検証する話者検証工程は,以下に,図7を参照して説明する。
【0111】
まず,調査される話者は,その音声を入力すると(P10),音声分析器11は,入力された音声信号を予め設定されたフレームにより分割し(P20),スペクトルとして表示し(P30),孤立単語を抽出する(P40)。その後,孤立単語のフレームの中で言語単位を含むフレームを抽出する(P50)。次に,抽出されたフレームに含まれた言語単位の声量を測定し(P60),測定された声量が背景話者の最大声量と最小声量との間に含まれるかを判断する(P70)。このとき,調査される話者の言語単位が背景話者の最大声量と最小声量との間にない場合には,制御器33は,調査される話者にその音声を再入力することを要求する(P75)。一方,調査される話者の各言語単位の声量が背景話者の最大声量と最小声量との間にある場合には,話者点数算出部31は,MLPにより全ての言語単位の話者点数を算出する(P80)。さらに,制御部33では,算出された話者点数を予め設定されたしきい値と比較し(P90),話者点数がしきい値以上である場合には,調査される話者が登録さていることが検証され,調査される話者を受諾する(P100)。反対に,話者点数がしきい値の以下である場合には,調査される話者が登録されていないことが検査され,調査される話者を拒絶する(105)。
【0112】
以下に,表4から表6は,本発明にかかる音声認識システム1を使用した話者登録の結果を示す。そこには,調査される話者は,180%,140%,120%,100%,80%大きさの声量で各々登録した後,180%,140%,120%,100%,80%の声量で発声した。表1〜表3は,各々,従来の音声認識システムにおける誤認拒否率,誤認受諾率,孤立単語受諾率を示す。さらに,表4〜表6は,各々,本発明にかかる音声認識システムにおける誤認拒否率,誤認受諾率,孤立単語受諾率を示す。ここで,誤認拒否率(FR)は,登録話者を誤って拒絶する比率と示し,孤立単語受諾率は,調査される話者が背景話者の登録単語を発声した場合における受諾比率を示す。
【0113】
【表1】
【0114】
【表2】
【0115】
【表3】
【0116】
【表4】
【0117】
表4に示すように,調査される声量が学習された音声に近いほど,誤認拒否率が低下する。一方,調査される恩労が学習された音量と相違するほど,誤認拒否率が増加される。特に,学習された声量が大きく,調査される声量が小さい場合に,誤認拒否率が最小化される。
【0118】
【表5】
【0119】
表5に示すように,非登録話者を誤って受諾する比率を示す誤認受諾率は,学習された声量または調査される声量が100%である場合に,最小化される。他の場合には,誤認受諾率が増加する。表2と比較すると,表5は,本発明にかかる音声認識システム1の誤認受諾率が全般的に改善されたことを示している。
【0120】
【表6】
【0121】
表6に示すように,孤立単語受諾率は,180%の学習された声量及び調査される声量である場合に,最小化される。表3と比較すると,表6は,本発明にかかる音声認識システム1の孤立単語受諾率は,全般的に低いことが示されている。したがって,登録された話者は,調査される話者が不十分な音量で発声する場合に,調査される話者が再度発声することを許可することにより,もっとも正確に検証される。
【0122】
上記のように,本発明にかかる音声認識システム1においては,音声を学習する際に,調査される話者が予め設定された背景話者の声量範囲内にあるか否かを判断し,予め設定された声量範囲にある音声のみが分析されて,話者パターンが形成される。さらに,話者を検証する際に,調査される話者の声量が,予め設定された背景話者の声量範囲内にあるか否かを判断し,予め設定された声量範囲内にある音声のみの話者点数が計算され,調査される話者を拒絶あるいは受諾する。
【0123】
上記のように,本発明にかかる音声認識システムにおいては,学習する際及び話者を検証する際の声量が100%である場合に最も効果的となる。一方,100%からの差異が大きくなるほど,認識率は低下する。即ち,従来の音声認識システムにおいては,認識率お呼び声量は無関係であるが,本発明にかかる音声認識システムにおいては,孤立単語の受諾率は,調査される話者と学習された話者との間の声量の差異が大きくなるにしたがって,低下し,調査される話者が再び発声させる。したがって,誤認受諾は,非登録話者を誤認する比率を示し,予め設定された背景話者の声量範囲以内にない場合には,再発声する機会を有するので,音声認識システム1の信頼性が向上される。
【0124】
上記に説明したように,本発明においては,話者の声量は,音声を登録するための学習の際,及び話者を検証する際に考慮されるので,より正確に話者を検証することが可能になる。本発明の好ましい実施形態は,具体的な目的に対して開示したが,いわゆる当業者であれば,添付請求項に開示された本発明の範囲及び精神を逸脱することなく,各種修正,付加,代替することは可能である。
【図面の簡単な説明】
【0125】
添付図面と共に提供される以下の説明により,本発明はより理解され,その各種目的及び長所は,全面的に賞賛されるであろう。
【図1】図1は,本発明による音声認識システムの構成図である。
【図2】図2は,本発明による音声認識システムのフィルタバンクの配置図である。
【図3】図3は,図2のフィルタバンク配置による背景話者間の中心距離の変化率を示すグラフである。
【図4】図4は,図2のフィルタバンク配置による集団内背景話者の分散度である。
【図5】図5は,本発明による音声認識システムの孤立単語の検出過程を示すフローチャートである。
【図6】図6は,本発明による音声認識システムの音声登録過程を示すフローチャートである。
【図7】図7は,本発明による音声認識システムの話者検証過程を示すフローチャートである。
Claims (33)
- 音声認識のための音声登録方法において,
外部から入力された音信号のスペクトルを分析する工程と;
前記音信号内の音声信号から話者認識のために予め設定された言語単位を抽出する工程と;
前記各言語単位の声量を測定する工程と;
基準としての複数の背景話者の声量データを含む登録(背景)話者の音声データを音声データベースに収集する工程と;
前記各言語単位の声量が前記音声データベースに基づいて,予め設定された声量範囲内にあるか否かを判断する工程と;
予め設定された数の言語単位が予め設定された声量範囲内にある場合に,多層神経網を使用して各言語単位を学習する工程と;及び
前記学習された各言語単位のデータを前記話者を認識するためのデータとして格納する工程と;を含む,
ことを特徴とする音声認識のための音声登録方法。 - 前記音声分析工程は,
前記話者の音声信号をスペクトルとして表現する工程と,
前記話者の音声特性を認識可能な話者認識領域に均等にフィルタバンクを配置して,前記スペクトルを圧縮する工程と,を含む,
ことを特徴とする請求項1に記載の音声認識のための音声登録方法。 - 前記スペクトルの話者認識領域は,前記フィルタバンクが均等に配置される,0〜3kHzであり,かつ,3kHz以上では,前記フィルタバンクの間隔が対数的に増加する,ことを特徴とする請求項2に記載の音声認識のための音声登録方法。
- 前記音声登録方法は,さらに,
複数の持続音を含む鼻音,母音,類似音から複数の音素を各々言語単位として採用する工程を含み;
前記言語単位抽出工程は,前記スペクトルを複数個に分割することにより複数のフレームを形成する工程と,前記複数のフレームの中で言語単位を有するフレームを抽出する工程と,を含む,
ことを特徴とする請求項3に記載の音声認識のための音声登録方法。 - 前記声量測定工程は,前記スペクトルの言語単位を有するフレームのエネルギー値を測定する工程である,ことを特徴とする請求項4に記載の音声認識のための音声登録方法。
- 前記音声登録方法は,さらに,
前記音声データベースに格納された前記背景話者の音声スペクトルを分析することにより,前記言語単位を含むフレームのエネルギー値を算出して最大声量と最小声量とを抽出する工程を含み;
前記声量判断工程は,前記最大声量と前記最小声量との間にある声量を有するフレームの数が,予め設定された比率以上であるか否かを判断する工程である,
ことを特徴とする請求項5に記載の音声認識のための音声登録方法。 - 前記音声登録方法は,さらに,
前記複数の背景話者の全ての言語単位に複数の基準パターンを形成する工程と,前記話者の全ての言語単位に複数の話者パターンを形成する工程と,を含み;
前記学習工程は,逆伝播アルゴリズムにしたがって,前記基準パターンを前記話者パターンとを比較することにより前記話者のパターン特性を学習する工程を含む,
ことを特徴とする請求項6に記載の音声認識のための音声登録方法。 - 前記音声登録方法は,さらに,
一つの学習グループとして,前記一人の背景話者の全ての言語単位に複数の基準パターンを採用することにより,前記背景話者の言語単位の数と同じ数の学習グループを形成する工程を含み;
前記学習工程は,前記各学習グループの基準パターンと前記複数の話者パターンを比較して,前記話者パターンの特性を学習する工程である,ことを特徴とする請求項7に記載の音声認識のための音声登録方法。 - 前記格納工程は,前記全ての言語単位の複数の話者パターンと,前記全ての言語単位の声量を話者認識データとして格納する工程からなる,
ことを特徴とする請求項1に記載の音声認識のための音声登録方法。 - 前記格納工程は,前記全ての言語単位の複数の話者パターンと,前記全ての言語単位の声量を話者認識データとして格納することを特徴とする請求項2に記載の音声認識のための音声登録方法。
- 前記格納工程は,前記全ての言語単位の複数の話者パターンと,前記全ての言語単位の声量を話者認識データとして格納する,ことを特徴とする請求項3に記載の音声認識のための音声登録方法。
- 前記格納工程は,前記全ての言語単位の複数の話者パターンと,前記全ての言語単位の声量を話者認識データとして格納することを特徴とする請求項4に記載の音声認識のための音声登録方法。
- 前記格納工程は,前記全ての言語単位の複数の話者パターンと,前記全ての言語単位の声量を話者認識データとして格納する,ことを特徴とする請求項5に記載の音声認識のための音声登録方法。
- 前記格納工程は,前記全ての言語単位の複数の話者パターンと,前記全ての言語単位の声量を話者認識データとして格納する,ことを特徴とする請求項6に記載の音声認識のための音声登録方法。
- 前記格納工程は,前記全ての言語単位の複数の話者パターンと,前記全ての言語単位の声量を話者認識データとして格納する,ことを特徴とする請求項7に記載の音声認識のための音声登録方法。
- 前記格納工程は,前記全ての言語単位の複数の話者パターンと,前記全ての言語単位の声量を話者認識データとして格納する,ことを特徴とする請求項8に記載の音声認識のための音声登録方法。
- さらに,
少なくとも,予め設定された言語単位の数が,予め設定された範囲内にない場合には,前記話者に音声の再入力を要求する工程を含む,
ことを特徴とする請求項1に記載の音声認識のための音声登録方法。 - 話者が登録された話者あるか否かを認識するための話者認識方法において,
外部からの入力された音信号のスペクトルを分析する工程と;
前記音信号の中の音声信号から話者認識のために予め設定された言語単位を抽出する工程と;
各言語単位の声量を測定する工程と;
各言語単位の声量が,予め設定された声量範囲内にあるか否かを判断する工程と;
少なくとも,予め設定された言語単位の数が予め設定された声量範囲内にある場合には,多層神経網を介して,言語単位が話者に属するものである確率を算出することにより,及び前記確率を平均することにより,話者点数を算出する工程と;
前記算出された話者点数を,登録話者を検証するための予め設定された最小話者点数であるしきい値と比較することにより,話者点数がしきい値以上である場合に,話者が登録されていることを検証する工程と,を含む,
ことを特徴とする話者認識方法。 - 前記話者点数は,識別力に応じて与えられる前記言語単位の重み付けに基づいて算出可能である,ことを特徴とする請求項19に記載の話者認識方法。
- 音声を認識するための音声認識システムにおいて,
外部から入力された音信号のスペクトルを分析する音声分析器と;
前記音信号から音声信号を抽出し,前記音声信号から話者を認識するために予め設定された言語単位を抽出する音声抽出手段と;
複数の基準背景話者の声量を含む背景話者音声データが格納される音声データベースと;
各言語単位の声量を判断し,前記音声データベースに基づいて,各言語単位の声量が予め設定された声量範囲内にあるか否かを判断する声量判断手段と;
少なくとも,前記予め設定された数以上の言語単位が予め設定された声量範囲内にある場合に,前記各言語単位を学習する学習器と;
前記学習された言語単位のデータを前記話者の認識データとして格納するメモリと;
前記音声が入力された場合に,前記音声分析器,音声抽出器,音量判断手段及び学習器の動作を制御し,前記メモリに前記話者の認識データを格納する制御部と;を含む,
ことを特徴とする音声認識のための音声登録システム。 - 前記音声分析手段は,前記話者の音声信号のスペクトルを分析し,前記スペクトルの中で話者の認識が可能な話者認識領域で所定の比率でフィルタバンクを配置して,前記スペクトルを圧縮する,
ことを特徴とする請求項21に記載の音声認識のための音声登録システム。 - 前記話者認識領域は,前記フィルタバンクが均等に配置された,0〜3kHzであり,3kHz以上では前記フィルタバンクの間隔は対数的に増加される,
ことを特徴とする請求項22に記載の音声認識のための音声登録システム。 - 前記音声抽出器は,前記スペクトルを複数部分に分割することにより複数のフレームを作成し,前記複数のフレーム中で,言語単位として,各々多くの持続音を含む非音,母音,類似音から選択された音素を有するフレームを抽出する,ことを特徴とする請求項23に記載の音声認識のための音声登録システム。
- 前記声量判断手段は,前記スペクトルの前記言語単位を有するフレームのエネルギー値を算出する,ことを特徴とする請求項24に記載の音声認識のための音声登録システム。
- 前記声量判断手段は,前記音声データベースに格納された前記背景話者の音声スペクトルを分析することにより,及び前記言語単位を有するフレームのエネルギー値を算出することにより,最大声量と最小声量を予め決定し,かつ前記最大声量と前記最小声量との間にある前記声量を有する前記フレームの数が,予め設定された比率以上であるか否かをを判断する,
ことを特徴とする請求項25に記載の音声認識のための音声登録システム。 - 前記音声抽出手段は,複数の背景話者の全ての言語単位に対応する複数の基準パターンを形成し,前記複数の話者の全ての言語単位に複数の話者パターンを形成し;一人の背景話者の全ての言語単位に複数の基準パターンを,一つの学習グループとして採用することにより,複数の学習グループを形成する,
ことを特徴とする請求項26に記載の音声認識のための音声登録システム。 - 前記学習器は,逆伝播アルゴリズムに応じて,前記基準パターンを前記話者パターンとを比較することにより,前記話者のパターン特性を学習する,
ことを特徴とする請求項27に記載の音声認識のための音声登録システム。 - 前記メモリには,前記全ての言語単位の複数の話者パターンと,前記全ての言語単位の声量が,話者認識データとして格納される,ことを特徴とする請求項28に記載の音声認識のための音声登録システム。
- 前記制御部は,前記孤立単語の全ての言語単位のうち,少なくとも前記予め設定された数以上が,予め設定された声量範囲内にない場合に,前記話者に音声の再入力を要求する,ことを特徴とする請求項29に記載の音声認識のための音声登録システム。
- 話者が登録された話者であるか否かを確認するための話者認識システムにおいて,
外部から入力された音信号のスペクトルを分析するための音声分析器と;
前記音信号から音声信号を抽出し,前記音声信号から話者を認識するために予め設定された言語単位を抽出する音声抽出手段と;
各言語単位の声量を判断し,各言語単位の声量が予め設定された声量範囲内にあるか否かを判断する声量判断手段と;
前記言語単位が前記話者に属することの確率を算出することにより,及び前記確率を平均することにより,話者点数を算出する話者点数算出部と;
前記全ての言語単位の中で少なくとも予め設定された数以上が前記予め設定された声量範囲内にある場合に,前記話者点数算出部が話者点数を算出するように制御し,
前記算出された話者点数を,登録された話者であることを確認するための予め設定された最小話者点数である,予め設定されたしきい値と比較することにより,前記話者点数値がしきい値以上である場合に,前記話者が登録された話者であることを確認する制御部と;を含む,
ことを特徴とする話者認識システム。 - 前記話者点数算出部は,識別力に応じて与えられる前記言語単位の重み付けに基づいて話者点数を算出する,ことを特徴とする請求項32に記載の話者認識システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2001-0048059A KR100406307B1 (ko) | 2001-08-09 | 2001-08-09 | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 |
PCT/KR2001/002105 WO2003015078A1 (en) | 2001-08-09 | 2001-12-06 | Voice registration method and system, and voice recognition method and system based on voice registration method and system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004538526A true JP2004538526A (ja) | 2004-12-24 |
Family
ID=19713041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003519929A Pending JP2004538526A (ja) | 2001-08-09 | 2001-12-06 | 音声登録方法及びそのシステム,音声登録方法及びそのシステムに基づく音声認識方法及びそのシステム |
Country Status (6)
Country | Link |
---|---|
US (1) | US7502736B2 (ja) |
EP (1) | EP1417677B1 (ja) |
JP (1) | JP2004538526A (ja) |
KR (1) | KR100406307B1 (ja) |
DE (1) | DE60128270T2 (ja) |
WO (1) | WO2003015078A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020504329A (ja) * | 2016-12-29 | 2020-02-06 | サムスン エレクトロニクス カンパニー リミテッド | 共振器を利用した話者認識方法及びその装置 |
US11817103B2 (en) | 2017-09-15 | 2023-11-14 | Nec Corporation | Pattern recognition apparatus, pattern recognition method, and storage medium |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7203635B2 (en) * | 2002-06-27 | 2007-04-10 | Microsoft Corporation | Layered models for context awareness |
EP1544831A1 (en) * | 2002-09-27 | 2005-06-22 | Ginganet Corporation | Remote education system, course attendance check method, and course attendance check program |
US7788101B2 (en) * | 2005-10-31 | 2010-08-31 | Hitachi, Ltd. | Adaptation method for inter-person biometrics variability |
US7603275B2 (en) * | 2005-10-31 | 2009-10-13 | Hitachi, Ltd. | System, method and computer program product for verifying an identity using voiced to unvoiced classifiers |
JP5127201B2 (ja) * | 2006-11-08 | 2013-01-23 | キヤノン株式会社 | 情報処理装置及び方法並びにプログラム |
US20080256613A1 (en) * | 2007-03-13 | 2008-10-16 | Grover Noel J | Voice print identification portal |
JP3139277U (ja) * | 2007-11-26 | 2008-02-07 | 株式会社Srj | バーチャルスクールシステムおよびスクールシティシステム |
CN102301419B (zh) * | 2009-01-30 | 2013-06-12 | 三菱电机株式会社 | 声音识别装置 |
US8639508B2 (en) * | 2011-02-14 | 2014-01-28 | General Motors Llc | User-specific confidence thresholds for speech recognition |
US20120284026A1 (en) * | 2011-05-06 | 2012-11-08 | Nexidia Inc. | Speaker verification system |
TWI475558B (zh) | 2012-11-08 | 2015-03-01 | Ind Tech Res Inst | 詞語驗證的方法及裝置 |
US9230550B2 (en) * | 2013-01-10 | 2016-01-05 | Sensory, Incorporated | Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
CN105933323B (zh) * | 2016-06-01 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 声纹注册、认证方法及装置 |
CN106098068B (zh) * | 2016-06-12 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
KR102596430B1 (ko) * | 2016-08-31 | 2023-10-31 | 삼성전자주식회사 | 화자 인식에 기초한 음성 인식 방법 및 장치 |
US10013971B1 (en) * | 2016-12-29 | 2018-07-03 | Google Llc | Automated speech pronunciation attribution |
CN107680601B (zh) * | 2017-10-18 | 2019-02-01 | 深圳势必可赢科技有限公司 | 一种基于语谱图和音素检索的身份同一性检验方法及装置 |
KR101812022B1 (ko) * | 2017-10-20 | 2017-12-26 | 주식회사 공훈 | 음성 인증 시스템 |
WO2019156427A1 (ko) * | 2018-02-09 | 2019-08-15 | 주식회사 공훈 | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치, 문맥 기반 음성 모델 관리 장치 및 그 방법 |
KR102114365B1 (ko) * | 2018-05-23 | 2020-05-22 | 카페24 주식회사 | 음성인식 방법 및 장치 |
KR102061291B1 (ko) * | 2019-04-25 | 2019-12-31 | 이봉규 | 5g 통신 기반 스마트 회의 시스템 및 로보틱 처리 자동화를 통한 회의 지원 방법 |
US11996087B2 (en) | 2021-04-30 | 2024-05-28 | Comcast Cable Communications, Llc | Method and apparatus for intelligent voice recognition |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5224010A (en) * | 1975-08-09 | 1977-02-23 | Fuji Xerox Co Ltd | Individual person recognition system using speech frequency spectrum c entroid locus |
JPS5782899A (en) * | 1980-11-12 | 1982-05-24 | Canon Kk | Voice recognition apparatus |
US4394538A (en) * | 1981-03-04 | 1983-07-19 | Threshold Technology, Inc. | Speech recognition system and method |
JPS5870287A (ja) * | 1981-10-22 | 1983-04-26 | 日産自動車株式会社 | 音声認識装置 |
FR2554623B1 (fr) * | 1983-11-08 | 1986-08-14 | Texas Instruments France | Procede d'analyse de la parole independant du locuteur |
JPH0792673B2 (ja) * | 1984-10-02 | 1995-10-09 | 株式会社東芝 | 認識用辞書学習方法 |
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
JPS62294299A (ja) | 1986-06-13 | 1987-12-21 | 松下電器産業株式会社 | 音声入力装置 |
JPH01290000A (ja) * | 1988-05-17 | 1989-11-21 | Sharp Corp | 音声認識方式 |
US5097509A (en) * | 1990-03-28 | 1992-03-17 | Northern Telecom Limited | Rejection method for speech recognition |
JPH0485600A (ja) * | 1990-07-30 | 1992-03-18 | Clarion Co Ltd | 音声認識装置 |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
CA2105034C (en) * | 1992-10-09 | 1997-12-30 | Biing-Hwang Juang | Speaker verification with cohort normalized scoring |
KR960013310B1 (ko) * | 1993-10-04 | 1996-10-02 | 엘지전자 주식회사 | 음성등록 및 인식 제어방법 |
US5559926A (en) * | 1993-12-22 | 1996-09-24 | Lucent Technologies Inc. | Speech recognition training using bio-signals |
JP2793137B2 (ja) * | 1994-12-14 | 1998-09-03 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 連続音声認識のためのアクセント句境界検出装置 |
US5864815A (en) * | 1995-07-31 | 1999-01-26 | Microsoft Corporation | Method and system for displaying speech recognition status information in a visual notification area |
US5949886A (en) * | 1995-10-26 | 1999-09-07 | Nevins; Ralph J. | Setting a microphone volume level |
US5657424A (en) * | 1995-10-31 | 1997-08-12 | Dictaphone Corporation | Isolated word recognition using decision tree classifiers and time-indexed feature vectors |
DE69725172T2 (de) * | 1996-03-08 | 2004-04-08 | Motorola, Inc., Schaumburg | Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch |
US5946653A (en) * | 1997-10-01 | 1999-08-31 | Motorola, Inc. | Speaker independent speech recognition system and method |
US6098040A (en) * | 1997-11-07 | 2000-08-01 | Nortel Networks Corporation | Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking |
JP3299170B2 (ja) * | 1998-02-24 | 2002-07-08 | 日本電気株式会社 | 音声登録認識装置 |
JP3893763B2 (ja) * | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
US6314396B1 (en) * | 1998-11-06 | 2001-11-06 | International Business Machines Corporation | Automatic gain control in a speech recognition system |
JP2000155595A (ja) | 1998-11-19 | 2000-06-06 | Canon Inc | 撮像装置 |
US6199041B1 (en) * | 1998-11-20 | 2001-03-06 | International Business Machines Corporation | System and method for sampling rate transformation in speech recognition |
JP2000155600A (ja) | 1998-11-24 | 2000-06-06 | Nec Corp | 音声認識システムおよび入力音声レベル警告方法 |
DE19854341A1 (de) * | 1998-11-25 | 2000-06-08 | Alcatel Sa | Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem |
JP3422702B2 (ja) * | 1998-11-30 | 2003-06-30 | 株式会社エヌ・ティ・ティ・データ | 話者照合方法及び装置 |
US6336091B1 (en) * | 1999-01-22 | 2002-01-01 | Motorola, Inc. | Communication device for screening speech recognizer input |
US6826306B1 (en) * | 1999-01-29 | 2004-11-30 | International Business Machines Corporation | System and method for automatic quality assurance of user enrollment in a recognition system |
US6266638B1 (en) * | 1999-03-30 | 2001-07-24 | At&T Corp | Voice quality compensation system for speech synthesis based on unit-selection speech database |
JP3842497B2 (ja) * | 1999-10-22 | 2006-11-08 | アルパイン株式会社 | 音声処理装置 |
JP4880136B2 (ja) * | 2000-07-10 | 2012-02-22 | パナソニック株式会社 | 音声認識装置および音声認識方法 |
US6721706B1 (en) * | 2000-10-30 | 2004-04-13 | Koninklijke Philips Electronics N.V. | Environment-responsive user interface/entertainment device that simulates personal interaction |
US6686839B2 (en) * | 2001-04-04 | 2004-02-03 | International Business Machines Corporation | Method and system for noise notification |
US7243068B2 (en) * | 2004-09-10 | 2007-07-10 | Soliloquy Learning, Inc. | Microphone setup and testing in voice recognition software |
-
2001
- 2001-08-09 KR KR10-2001-0048059A patent/KR100406307B1/ko not_active IP Right Cessation
- 2001-12-06 DE DE60128270T patent/DE60128270T2/de not_active Expired - Lifetime
- 2001-12-06 WO PCT/KR2001/002105 patent/WO2003015078A1/en active IP Right Grant
- 2001-12-06 JP JP2003519929A patent/JP2004538526A/ja active Pending
- 2001-12-06 EP EP01274430A patent/EP1417677B1/en not_active Expired - Lifetime
- 2001-12-06 US US10/486,258 patent/US7502736B2/en active Active
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020504329A (ja) * | 2016-12-29 | 2020-02-06 | サムスン エレクトロニクス カンパニー リミテッド | 共振器を利用した話者認識方法及びその装置 |
JP7048619B2 (ja) | 2016-12-29 | 2022-04-05 | サムスン エレクトロニクス カンパニー リミテッド | 共振器を利用した話者認識方法及びその装置 |
US11341973B2 (en) | 2016-12-29 | 2022-05-24 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speaker by using a resonator |
US11887606B2 (en) | 2016-12-29 | 2024-01-30 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speaker by using a resonator |
US11817103B2 (en) | 2017-09-15 | 2023-11-14 | Nec Corporation | Pattern recognition apparatus, pattern recognition method, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
WO2003015078A1 (en) | 2003-02-20 |
EP1417677A1 (en) | 2004-05-12 |
DE60128270T2 (de) | 2008-01-10 |
KR20030013855A (ko) | 2003-02-15 |
EP1417677B1 (en) | 2007-05-02 |
DE60128270D1 (de) | 2007-06-14 |
US20050033573A1 (en) | 2005-02-10 |
US7502736B2 (en) | 2009-03-10 |
EP1417677A4 (en) | 2005-11-09 |
KR100406307B1 (ko) | 2003-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004538526A (ja) | 音声登録方法及びそのシステム,音声登録方法及びそのシステムに基づく音声認識方法及びそのシステム | |
JP3532346B2 (ja) | ミックスチャ分解識別による話者検証方法と装置 | |
Naik | Speaker verification: A tutorial | |
US8209174B2 (en) | Speaker verification system | |
US20050171774A1 (en) | Features and techniques for speaker authentication | |
Nayana et al. | Comparison of text independent speaker identification systems using GMM and i-vector methods | |
JPH1173195A (ja) | 話者の申し出識別を認証する方法 | |
Debnath et al. | Text-dependent speaker verification system: A review | |
Pandey et al. | Multilingual speaker recognition using ANFIS | |
Ozaydin | Design of a text independent speaker recognition system | |
Ilyas et al. | Speaker verification using vector quantization and hidden Markov model | |
JPH1173196A (ja) | 話者の申し出識別を認証する方法 | |
Lee | A tutorial on speaker and speech verification | |
US7162641B1 (en) | Weight based background discriminant functions in authentication systems | |
Cristea et al. | New cepstrum frequency scale for neural network speaker verification | |
JP4440414B2 (ja) | 話者照合装置及び方法 | |
Tippannavar et al. | Text Independent Speaker Recognition and Classification using KNN Algorithm | |
Manor et al. | Voice trigger system using fuzzy logic | |
Wadehra et al. | Comparative Analysis Of Different Speaker Recognition Algorithms | |
Thakur et al. | Speaker Authentication Using GMM-UBM | |
Mishra et al. | Recognotion of Speaker Useing Mel Frequency Cepstral Coefficient & Vector Quantization for Authentication | |
Patro et al. | Statistical feature evaluation for classification of stressed speech | |
Eijaz | Counter measure system for automatic speaker verification systems | |
Ren et al. | A hybrid GMM speaker verification system for mobile devices in variable environments | |
Rosenberg et al. | Overview of S |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060613 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061107 |