JP2003323197A

JP2003323197A - 音声による個人認証システム

Info

Publication number: JP2003323197A
Application number: JP2002130847A
Authority: JP
Inventors: Kiyoyuki Suzuki; 清幸鈴木
Original assignee: Advanced Media Inc
Current assignee: Advanced Media Inc
Priority date: 2002-05-02
Filing date: 2002-05-02
Publication date: 2003-11-14

Abstract

(57)【要約】【課題】本発明は、声紋データが膨大になった場合で
も短時間に照合が行える方法を提唱することを目的とす
る。【解決手段】コンピュータを用いて入力された音声に
よって個人を特定する個人認証システムにおいて、(1)
認証の対象となる言葉を音声で入力し、当該入力音声を
音声分析して認証用符号化音声データを作成する手段、
(2)前記認証用符号化音声データを、音響モデル、言語
モデルおよび単語辞書を用いて音声認識分析によって言
葉を抽出して、言葉で分類された前記声紋データベース
の中から該言葉に対応するデータのみを抜き出して、認
識用符号化音声データと声紋照合する手段、を備えたこ
とを特徴とする音声による個人認証システムであるとす
る。

Description

【発明の詳細な説明】

【０００１】

【発明が属する技術分野】本発明は、音声で入力した言
葉を用いて迅速な個人認証を行う方法に関する。

【０００２】

【従来の技術】インターネットなどのネット社会では、
一般にパスワードによって個人を認証している。パスワ
ードは個人しか知りえない事柄という前提に立っている
からである。しかしながら、パスワードは盗まれる恐れ
があり、またトライアンドエラーで解読される恐れがあ
る。このようなことから、本人以外には持ちえない特徴
である身体的な特徴を利用した個人認証が研究されてい
る。いわゆるバイオメトリクス技術の研究である。この
種の技術に利用される身体的特徴として、掌形、指紋、
目の網膜パターンや虹彩、筆跡、声紋などがある。掌
形、指紋、筆跡などは犯罪捜査にも取り入れられている
個人を特定する身体的特徴である。

【０００３】また最近では音声の研究が進んでいて、声
紋や言語上の特徴も個人を見分ける重要な手がかりにな
っている。言語上の特徴というのは訛や方言などで、育
った環境によって自然に身に付いている特徴である。例
えば、「後ろ」を関東人は平坦に発音するが、関西人は
「う」にアクセントをおく。標準語（共通語）に堪能な
関西人でも、ふとしたことで関西訛が言葉の端々にあら
われることがある。しかし言語上の特徴は教育や訓練に
よって矯正できるために、必ずしも個人認証の決め手に
はならない。その点、声紋は指紋と同様に一人一人が全
く違った特徴を持っている。このため、声紋分析よる個
人認証の研究が、いま様々な分野で進められている。

【０００４】声紋認証技術（声で個人を特定する技術）
と音声認識技術は一見似ているが、前者は個人を特定す
るための技術であり、後者は誰の声でも同じ内容の発音
は同じ意味として解釈できるようにする技術である。し
かし、基本的に両者は同じ技術と言ってもよい。例え
ば、私たちは「キョウハハレマス」と聞けば、「今日は
晴れます」と理解することができる。このように発音さ
れた言葉を意味のある言葉として聞き取ることが音声認
識である。一方、親しい人がマイクの向こうで「キョウ
ハハレマス」と言ったとき、その声が誰の声であるかを
判断することもできる。私たちは意識はしていないが、
個人個人が持つ声の質（声紋）を判断していることにな
る。声で誰かを判断するときには、その発せられる内容
に立ち入らなくても質だけを聞き分ければよいことにな
る。すなわち、音声認識においては不特定多数の人の声
でサンプリングした言葉（単語）を平均化して辞書化
し、その辞書から誰の声でも同じ内容の発音は同じ言葉
として理解することである。

【０００５】声紋認証では、言葉の内容まで立ち入らな
くても、個々の人達の声を辞書化して記録しておき、発
音された声と辞書に登録された声（声紋）を比較するだ
けで、誰かを判断することになる。この場合、人間の場
合には違う内容の言葉でも、声の特徴（音質）で誰かを
判断できるが、コンピュータの場合には同じ内容の言葉
の方が、比較がしやすい。したがって、自然語で話され
た言葉（日常会話）からその話手が誰かを判断するに
は、会話の言葉の中から音声認識により辞書に登録され
ている単語を抜き出し、同じ単語同士を比較する声紋照
合方法がとられている。

【０００６】前述したように、音声認識技術と声紋認証
技術は基本的には同じものであり、そのアプローチの仕
方が異なるだけである。図１は音声認識と声紋認証の基
本的な相違点を概念的に表したものである。図の（１）
では音声認識に必要な辞書（単語辞書）を作るのに、多
くの人（図のＡ、Ｂ、Ｃ、Ｄ）に同じ単語を発音しても
らい、それを解析して標準化して辞書に登録する。音声
認識過程では、あるＸという人が話した言葉を分析して
テキスト文字に変換して出力する。Ｘという人は辞書作
りに参加したＡ、Ｂ、Ｃ、Ｄ以外の人であっても、話言
葉が分析されて正しい言葉として出力されなければなら
ない。音声認識技術の進んだ現在でも、膨大なデータを
要する自然語においては、すべての人に対して完全無比
な辞書や分析方法は確立されていない。そのため、コン
ピュータが理解できない（認識できない）言葉に対して
は、その人独自（図のＸ）の言葉を学習させる方法がと
られている。

【０００７】声紋認証は音声認識の特殊化したものと捉
えることができる。対象は個人であるために、辞書には
個人個人の音声が登録されている。図の（２）の例で
は、Ａ氏が「私はＡです。」と登録したとしよう。この
音声はそのままデジタル化して辞書に登録されることに
なるが、緊張などで声の調子が変わるので、何度か同じ
発音をしてもらい、その平均値を声紋として登録する。
声紋認証では、辞書に登録されている言葉を喋ってもら
い、音声分析でデジタル化して符号化音声に変換し、辞
書に登録されているＡ氏の言葉と比較して、その言葉が
Ａ氏であるか否かを判定する。正常に認証システムが働
けば、Ａ氏の言葉からＡ氏を認証でき、Ｂ氏がＡ氏を真
似て「私はＡです。」と言っても、Ａ氏と判定されな
い。

【０００８】以上の例からも分かるように、声紋認証は
音声認識に比べて単純で分かりやすい。ある意味では音
声認識技術の一部の機能を利用していることになる。し
かし、音声認識では曖昧さが要求され、声紋認証では厳
密性が要求される。以下で音声認識の概要を説明する。

【０００９】音声処理に関する、コンピュータを用いた
主な最新技術では音声符号化技術、音声合成技術、音声
認識技術、話者認識技術（本発明が扱おうとしている声
紋による個人認証）に大別される。音声符号化技術は、
音声をスペクトル分析してデジタル化し、音声波の持つ
冗長性を取り除いて圧縮化する技術である。音声認識技
術は、音声を言語として認識する技術であり、現在のと
ころ発展途上の技術であるとも言える。現在実用化され
ている（されつつある）技術は、限定された範囲での応
用となっている。

【００１０】音声処理で広く使用されている技術に、ス
ペクトル分析がある。スペクトル分析は音響分析の標準
的な周波数分析で、その中でもとくに広く用いられてい
るのものがパワースペクトル分析である。パワースペク
トル分析では、まず入力された音声信号をデジタル処理
で標本化し、その標本化されたデータをＤＦＴ（離散的
フーリエ変換）やＦＦＴ（高速フーリエ変換）によって
計算して周波数の成分を求める。その求められた周波数
成分を分析して音韻論的処理を施すことにより、音声認
識技術や声紋認証技術等に応用できるデータが得られ
る。

【００１１】大部分の音声認識においては、サンプリン
グした音声をスペクトル分析した後、ベクトル量子化に
よって１００種類程度のグループに分類し、ラベル列と
して処理できるようにする。その後に隠れマルコフモデ
ル（ＨＭＭ）とよばれる統計モデルを用い尤度計算をし
ながらデータを分析し、結果を出力する。ＨＭＭは不特
定話者による連続音声認識技術の中核を担うモデルであ
り、音韻モデル（音響モデル）と単語モデル（言語モデ
ル）のいずれにも利用できる。

【００１２】ＨＭＭの働きは、入力音声パターンを観測
して最もよくマッチする単語列または音韻列を見つけ出
すことである。言語モデルでは、大量のテキストデータ
をＨＭＭ等によって統計的に分析して得られた単語列の
出現確率が用いられる。またＨＭＭによって得られたモ
デルを、音響モデルまたはＨＭＭモデルという。

【００１３】音声認識処理を大きく二つの機能に分割す
るなら、音響分析と音声認識とからなる。音声分析では
音声の符号化、ノイズ処理、補正等を行う。音声認識で
は、音響分析された符号化音声データに対して音響処理
や言語処理によって音声認識を行い、最も確率の高い単
語あるいは文字列抽出する。この音響処理、言語処理に
は音響モデル、言語モデルが使用される。また各モデル
利用される音響パターンや単語あるいは文字列が登録さ
れているものが辞書であり、辞書を充実することによっ
て認識率の向上につなげることができる。

【００１４】図２は、以上の処理を図式化したものであ
る。マイクなどで入力した人間の声（アナログ音声）は
音声分析によって符号化音声Ｘ（デジタル化された特徴
量または特徴パラメータ）に変換され、音声認識プログ
ラム（デコーダー）に渡される。音響モデルより候補単
語列ｗとその確率Ｐ（ｘ｜ｗ）を得、言語モデルより確
率Ｐ（ｗ）を得る。デコーダーでベイズ（Bayes）則を
用いて確率計算をするとした場合、次のような式がえら
れる。すなわち、音声パターンｘ（特徴量ｘ）が観測さ
れたときの、発音された内容がｗである確率（事後確
率）Ｐ（ｗ｜ｘ）は以下のように計算される。Ｐ（ｗ｜ｘ）＝Ｐ（ｘ｜ｗ）Ｐ（ｗ）／Ｐ（ｘ）ここで分母のＰ（ｘ）はｗに無関係であるために、Ｐ
（ｘ｜ｗ）Ｐ（ｗ）が最大となる音索列ｗを求めればよ
いことになる。Ｐ（ｘ｜ｗ）は音響モデルでＨＭＭを用
いて計算される。一方、Ｐ（ｗ）は言語モデルで計算さ
れ、トライグラム（Ｎ単語連鎖モデル＜Ｎグラム＞のＮ
＝３の場合）の値から、近似的にＰ（ｗ）＝ΠＰ（ｗ_i｜ｗ_i-1，ｗ_i-2）と計算される。ここでΠはｉについての階乗を表す。Ｐ
（ｗ_i）は、音索ｗ_i-2、ｗ_i-1と来たときに、次にｗ_iが
来る確率を表す。Ｐ（ｗ）はＰ（ｗ_i）のすべての積に
対して計算し、Ｐ（ｗ）が最も大きな値を取る単語列の
組み合わせを認識結果として決定する。

【００１５】声紋認証（声紋による個人認証）では、上
記のような音声認識処理はしなくても、登録されている
声紋データと入力音声を直接比較することによって本人
かどうかを認定することができる。しかしフリートーク
の中からキーワードを見つけ出す場合には、音声認識処
理（デコード）が必要となる。例えば声紋として姓名
「スズキイチロウ」が登録されている場合、「スズキイ
チロウ」と単独に発音されたときには直接音声比較が行
えるが、「わたしはスズキイチロウです」と会話形式で
言われたときには、キーワードとなるスズキイチロウを
抽出しなければならない。そのときに、デコード処理が
必要となる。

【００１６】声紋を個人認証に利用した公開特許とし
て、『本人特定システム及びその方法』（特開2000-330
589）や『声紋による本人認証及びその強化法』（特開2
001-22385）がある。『本人特定システム及びその方
法』では、本人を特定するために身体的な特徴を用いる
こと提唱している。その一環として声紋が挙げられてい
るが、声紋分析までの細かい記述はない。『声紋による
本人認識及びその強化法』では、人間の声をデジタル信
号に変換してコンピュータに送り、その音声データをウ
ェーブレット変換（Wavelet変換）を用いて級数に展開
し、解析することによって本人を確認する手法が述べら
れている。すなわち、フーリエ展開による解析を発展さ
せたウェーブレット変換を用いることによって声紋によ
る個人認識を強化する方法は述べられている。また本発
明では、ファイアット・シャミア（Fiat-Shamir）のゼ
ロ知識対話証明方法を用いた証明力の強化法も述べられ
ている。

【００１７】

【発明が解決しようとする課題】音声認証（音声によう
個人認証）は、個人的身体的特徴を用いるために盗用さ
れる危険性が少ないという点で、指紋や虹彩などともに
最近広く研究されている。技術的に実用の段階にまで進
んではいるが、現実に応用するとなると現在のところい
くつかの問題があり、まだ途上の技術といえる。その問
題の一つとして、処理時間が挙げられる。これまでの声
紋認証では、標本化された音声データをフーリエ変換に
よる解析、離散的フーリエ変換（ＤＦＴ）あるいは高速
フーリエ変換（ＦＦＴ）による解析を用いるにしても、
標本化された音声データを、辞書に登録されているすべ
ての声紋と照合して本人の確認を行っている。このた
め、辞書が大きくなるに従って個人認証に時間がかかり
すぎるという問題点が生じている。

【００１８】以上のような状況に鑑み、本発明が解決し
ようとする課題は、声紋データが膨大になった場合でも
短時間に照合が行える方法を提唱することである。

【００１９】

【課題を解決するための手段】上記課題を解決するため
に、請求項１に記載された本発明は、コンピュータを用
いて入力された音声によって個人を特定する個人認証シ
ステムにおいて、(1)認証の対象となる言葉を音声で入
力し、当該入力音声を音声分析して認証用符号化音声デ
ータを作成する手段、(2)前記認証用符号化音声データ
を、音響モデル、言語モデルおよび単語辞書を用いて音
声認識分析によって言葉を抽出して、言葉で分類された
前記声紋データベースの中から該言葉に対応するデータ
のみを抜き出して、認識用符号化音声データと声紋照合
する手段、を備えたことを特徴とする音声による個人認
証システムとする。

【００２０】請求項２に記載された本発明は、コンピュ
ータを用いて入力された音声によって個人を特定する個
人認証システムにおいて、(1)個人認証の対象となる言
葉を発音表記を付け、かつ分類して声紋データベース
（声紋辞書）に登録する手段、(2)認証の対象となる言
葉を音声で入力し、当該入力音声を音声分析して認証用
符号化音声データを作成する手段、(3)前記認証用符号
化音声データを、音響モデル、言語モデルおよび単語辞
書を用いて音声認識分析によって言葉を抽出して、言葉
で分類された前記声紋データベースの中から該言葉に対
応するデータのみを抜き出して、認識用符号化音声デー
タと声紋照合する手段、を備えたことを特徴とする音声
による個人認証システムとする。

【００２１】請求項３に記載された本発明は、コンピュ
ータを用いて入力された音声によって個人を特定する個
人認証において、(1)認証の対象となる言葉を音声で入
力し、当該入力音声を音声分析して認証用符号化音声デ
ータを作成する手順、(2)前記認証用符号化音声データ
を、音響モデル、言語モデルおよび単語辞書を用いて音
声認識分析によって言葉を抽出して、言葉で分類された
前記声紋データベースの中から該言葉に対応するデータ
のみを抜き出して、認識用符号化音声データと声紋照合
する手順、を実行する音声による個人認証プログラムで
ある。

【００２２】請求項４に記載された本発明は、前記認証
の対象となる言葉が姓名であることを特徴とする請求項
１または２記載の音声による個人認証システムとする。

【００２３】上記課題を解決するために本発明では、個
人認証を行うためのデジタル化声紋データである言葉、
たとえば姓名を姓でグループ化した声紋辞書を作成して
おき、認証にあたっては、まず認証対象となる音声入力
（姓名の音声入力）に対して音声認識処理によって姓を
解読し、入力姓名と、その姓に対応する声紋辞書の姓名
のみを照合する方法をとる。すなわち、本発明では音声
辞書の姓が一致する声紋データのみが照合の対象とな
り、すべての声紋データを比較することはない。具体的
に以下のように行う。

【００２４】コンピュータを用いて入力された音声によ
って個人を特定する個人認証法において、本発明は声紋
の登録処理と個人認証処理の２通りからなる。さらに個
人認証処理においては、音声認識と個人認証とからな
る。まず、個人認証の対象となる個人の姓名を音声入力
し、音声の符号化、ノイズ除去、補正等の音声分析を行
ったのちの認証元符号化音声データを片仮名、平仮名、
ローマ字等のテキスト文字形態で発音表記を付け、かつ
名字で分類して声紋データベースに登録する。この声紋
データベースを本発明では「声紋辞書」とよぶことにす
る。

【００２５】個人認証を行うために、被認証者に音声
で、認証の対象となる言葉、たとえば姓名を名乗っても
らう。この音声データに対して音声分析して認証用符号
化音声データ（デジタル音声データ）を作成する。デジ
タル音声データに対して、音響モデル、言語モデルおよ
び単語辞書を用いて音声認識分析（デコード）し、名字
（姓）を抽出してテキスト文字に変換しする。次に、名
字で分類された前記声紋辞書の中から名字に対応する姓
名（声紋データ）のみを抜き出して、認証用符号化音声
データと声紋データを照合する。すなわち、本発明の個
人認証処理は姓を解読する音声認識処理と、個人を特定
する声紋認証処理とからなっている。声紋認証処理では
フーリエスペクトル分析や従来技術に挙げたウェーブレ
ット分析などを用いることができるが、本発明では音声
認証処理の詳細には立ち入らない。

【００２６】

【発明の実施の形態】本発明の実施の形態を図を用いて
説明する。なお以下では、個人認証に用いる個人の音声
データを登録してある辞書（声紋データベース）を声紋
辞書とよび、音声認識で用いる音声データが登録されて
いる辞書を単語辞書とよび、それぞれを区別する。な
お、本発明で用いる個人認証用の音声データは個々の人
間が発音する姓名とする。

【００２７】図３は、本発明の音声認識の全体的な処理
フローである。単語辞書は音声認識を行うための辞書で
あり、辞書を作成するためには不特定多数の声を収録し
て標準化したデジタル音声データに変換して辞書登録す
る。音声認識では不特定の人間の声を認識し、テキスト
データを作成しなければならないからである。単語辞書
は一般的な単語を登録した辞書でもよいが、本発明の声
紋認証のための前段階である音声認識に限るなら、単語
辞書は名字のみを対象にした辞書にしてもよい（この場
合でも、５０音表の個々の文字や英数字などの基本語の
音声データの登録は必要）。

【００２８】なお音声認識ではふり仮名（言い換えるな
ら発音記号）さえ分かればよいので、正確な名字を登録
しておかずに、基本語（５０音や英数字の１字単位で
の）で出力する形態も可能である。例えば、「スズキ」
は「ス、ズ、キ」の３つの表音文字を出力する。この点
については、後で説明する。一方、声紋辞書は個人を認
証するためのものであるから、登録される声紋データは
個人個人の音声データが登録されている。両辞書は初期
作業として予め作成しておく。

【００２９】音声認証処理は図に示すように音声分析、
音声認識および姓の抽出、声紋認証からなる。音声分析
では音声入力（サンプリング）、Ａ／Ｄ変換および特
徴量（符号化音声データ）の抽出である。音声入力（サ
ンプリング）では、マイクロホン等の音声入力デバイス
で音声を入力し、ある特定の時間間隔（サンプリング周
期）でサンプリングを行う。サンプリングは、アナログ
波形信号（音声）に含まれる成分の最高周波数の２倍以
上のサンプリング周波数（サンプリング周期の逆数）で
行う。Ａ／Ｄ変換では、Ａ／Ｄ変換器でサンプリングし
た波形の瞬時値を数値化する。この数値化をＡ／Ｄ変換
という。Ａ／Ｄ変換は量子化ともいう。Ａ／Ｄ変換によ
る出力がパルスコードである。特徴量の算出では、パル
スコードから特徴的な音響のみを算出し、補正して特徴
量を作成する。したがって、この段階ではノイズなどは
すべて除去され、音響デジタルデータのみが特徴量（デ
ジタル音声データ）として音声認識処理に送信される。

【００３０】音声認識処理では、特徴量（符号化音声デ
ータ）に対して音響モデル、言語モデルを用いて分析
し、姓名を文字列にして出力する。出力の姓名はふり仮
名で、片仮名、平仮名、ローマ字などの形式のテキスト
文字である。このテキスト文字から名字（姓）を抽出す
る。

【００３１】上記の音声認識で抜き出した名字をキーに
声紋辞書から該当する名字の声紋データを取り出し、前
述の符号化音声データと照合して個人認証を行う。出力
結果は、「本人と認められませんでした（認証否定）」
とか、「本人と認められました（認証肯定）」という文
字列あるいは音声の出力となる。図４は、声紋辞書のデ
ータ形式である。声紋辞書はふり仮名でグループ化され
ていて、対応する声紋データを名字（姓）単位で取り出
せるようになっている。例えば、音声認識でスズキとい
う名字抽出した場合、声紋認証での照合の対象はｊ〜ｋ
の声紋データである。すなわち、ｎ個ある声紋データの
うち、照合はk−（j＋1）個の声紋データを対象にすれ
ばよいことになる。

【００３２】なお音声認識では姓名が解読され、文字列
に変換されるから、ダイレクトに対象となる声紋データ
を取り出すこともできる。例えば、「スズキイチロウ」
と認識された姓名に対しては、テキスト文字検出によっ
て図４の声紋辞書のj+1番目の声紋データを直接取り出
して照合することが可能となる。もしこのとき同一の姓
名がある場合は、その姓名に対して優先的に音声認証処
理を行い、認証結果が否定の場合には、残りの、名字が
「スズキ」に対する音声認証処理を行う。このようなプ
ログラム処理記述にすることによって、効率的な音声認
識が行える。ただしこの場合、単語辞書には名字と名前
を両方登録しておかなければならない。

【００３３】日本の名字は世界的にも多く、約１０万種
類あると言われている。すべての名字に対する音響デー
タ（音声データ）を登録するとなると、多大な時間と労
力が必要となる。実際に多い名字は鈴木、佐藤、田中な
どの上位１００種類程度であるから、1,000種類の名字
を登録しておけば、たいていの名字は包括できる。単語
辞書から音声データとしての名字が登録されていなくて
も、音声認識では一語一語の発音記号は分析できるか
ら、単語辞書に登録されていない名字があっても、音声
認識で文字列の出力には支障はない。ただしこの場合、
照合の対象となる声紋データが増えることになる。

【００３４】最近は帰化する外国人が増えており、これ
までにない名字も増えている。例えばラモス・ルイとい
う姓名が単語辞書に登録されていなくても、ラ、モ、
ス、ル、イという文字列は認識でき、出力できる。この
とき、音声認識では名字がラ、ラモ、ラモス、ラモス
ル、ラモスルイか鑑別できないために、音声認識で得た
前記の文字列の組み合わせを順次声紋認証に渡して、声
紋照合を行うことになる。すなわち、声紋認証処理での
声紋比較対象が増えることになる。この場合でも、声紋
認証で振り仮名チェックを行えば、声紋照合を行う前に
声紋辞書に登録されているかどうかを判断することがで
きる。

【００３５】

【発明の効果】本発明は、音声認識と声紋認証を組み合
わせることによって、個人認証を効率的かつ効果的に行
うことを可能としている。声紋データが少ない場合には
問題はないが、データ量が多くなると声紋照合は時間の
かかる処理となる。従来のようにすべてのデータを照合
の対象にする場合には、認証が肯定の場合のヒット率は
データ量の半分（照合データが１万件の場合には平均5,
000件目でヒット）であり、認証が否定の場合には全デ
ータと照合しなければならなかった。その点、本発明で
は音声認識で出力した姓名で照合データを絞り込むため
に、声紋照合が短時間に行えるわけである。

【００３６】本発明の方法は、姓名のうち姓（名字）で
分類して照合の対象データを姓で絞り込むものである
が、姓名をキーにして声紋辞書からダイレクトに対象声
紋データ（同姓同名があるから、対象は１つとは限らな
い）を取り出すこともできる。ただこの場合、音声認証
で正確に姓と名（名前）を分離して抽出するためには、
単語辞書に姓だけでなく、名も登録しておかなければな
らないから、単語辞書が大きくなる欠点は避けられな
い。もちろん、先に述べたように姓と名の区別が分から
なくても文字列は出力できるから、本発明の派生形とし
てこのような方法もあるという点にとどめておく。

【００３７】本発明では姓名を声紋認証用データとした
が、パスワードなどを声紋認証のデータとした場合で
も、本発明は応用できる。例えば、英数字のパスワード
を声紋認証用データとした場合には、入力された音声デ
ータを音声認識によって文字列に変換し、文字列で分類
されている声紋辞書から対象となる声紋データを取り出
して声紋照合すればよいことになる。パスワードを声紋
認証の対象にした場合には、パスワードと音声認証の２
段構えによる個人認証が行え、より強固な個人認証とす
ることが実現できる。

【図面の簡単な説明】

【図１】音声認識と声紋認証（声紋による個人認証）の
違いを説明するための図である。

【図２】従来技術の音声認識のシステム構成図である。

【図３】本発明の音声認識と声紋認証のシステム構成図
である。

【図４】本発明の声紋認証で用いる声紋辞書のデータ形
式の例を示す図である。

Claims

【特許請求の範囲】

【請求項１】コンピュータを用いて入力された音声によ
って個人を特定する個人認証システムにおいて、(1)認
証の対象となる言葉を音声で入力し、当該入力音声を音
声分析して認証用符号化音声データを作成する手段、
(2)前記認証用符号化音声データを、音響モデル、言語
モデルおよび単語辞書を用いて音声認識分析によって言
葉を抽出して、言葉で分類された前記声紋データベース
の中から該言葉に対応するデータのみを抜き出して、認
識用符号化音声データと声紋照合する手段、を備えたこ
とを特徴とする音声による個人認証システム。
【請求項２】コンピュータを用いて入力された音声によ
って個人を特定する個人認証システムにおいて、(1)個
人認証の対象となる言葉を発音表記を付け、かつ分類し
て声紋データベース（声紋辞書）に登録する手段、(2)
認証の対象となる言葉を音声で入力し、当該入力音声を
音声分析して認証用符号化音声データを作成する手段、
(3)前記認証用符号化音声データを、音響モデル、言語
モデルおよび単語辞書を用いて音声認識分析によって言
葉を抽出して、言葉で分類された前記声紋データベース
の中から該言葉に対応するデータのみを抜き出して、認
識用符号化音声データと声紋照合する手段、を備えたこ
とを特徴とする音声による個人認証システム。
【請求項３】コンピュータを用いて入力された音声によ
って個人を特定する個人認証において、(1)認証の対象
となる言葉を音声で入力し、当該入力音声を音声分析し
て認証用符号化音声データを作成する手順、(2)前記認
証用符号化音声データを、音響モデル、言語モデルおよ
び単語辞書を用いて音声認識分析によって言葉を抽出し
て、言葉で分類された前記声紋データベースの中から該
言葉に対応するデータのみを抜き出して、認識用符号化
音声データと声紋照合する手順、を実行する音声による
個人認証プログラム。
【請求項４】前記認証の対象となる言葉が姓名であるこ
とを特徴とする請求項１または２記載の音声による個人
認証システム。