JP2009508144A

JP2009508144A - 生体測定声紋認証方法および生体測定声紋認証装置

Info

Publication number: JP2009508144A
Application number: JP2008513828A
Authority: JP
Inventors: マンブロ，ジェルマーノディ; サルナ，ベルナルダス
Original assignee: ポーティカステクノロジー，インク．
Priority date: 2005-05-27
Filing date: 2006-05-26
Publication date: 2009-02-26
Also published as: US8571867B2; US20070185718A1; EP1915294A4; WO2006128171A2; EP1915294A2; US20130018657A1; US7536304B2; US8280740B2; CN101467204A; WO2006128171A3; US20090206993A1; CN101467204B

Abstract

【課題】ユーザを認証するシステムと方法を提供する。
【解決手段】ユーザを認証する方法（700）とシステム（900）が提供される。本方法は、ユーザから一以上の話された言葉を受取り（702）、一以上の話された言葉に対応するフレーズを認識し（704）、フレーズにおける一以上の話された言葉から、ユーザの生体測定の声紋を識別し（706）、デバイスと関連付けられたデバイス識別子を決定し（708）、フレーズ，生体測定の声紋，およびデバイス識別子に基づき、ユーザを認証すること（710）を含む。一以上の資源に対するアクセスを許可する判断基準として、送受信機すなわちユーザの位置が用いられる（712）。
【選択図】図１

Description

本発明は、一般に発話認証、より詳しくは音声識別に関する。

電子技術とソフトウェアの進歩は、システムがより効果的に人を認証および確認するのを可能にしてきた。例えば、カメラのような画像処理システムは、人の画像を捕捉し、その画像から人を特定することができる。指紋走査システムは、接触を通して人を識別するために、指紋を捕えることができる。音声処理システムは、人々の声を通して人を識別することができる。これらの技術は、システムセキュリティを確実にし、システムへのアクセスを委任するために、使用前のユーザの識別に提供される。

音声識別（ＩＤ）システムは、様々なセキュリティ関連のアプリケーションで用いられている。音声ＩＤは、時々音声認証と呼ばれているが、これは話者を確かめるために、声紋とパターン認識のソフトウェアを使用する一種のユーザ認証である。生体測定に適合して、音声ＩＤは、声の特徴が指紋および人々の虹彩パターンのように、個人毎に唯一のものであるという前提を頼りにしている。

多くの人々は、移動体デバイスとコンピュータとの結合を通して、インターネット上でのオンラインと共に、情報のやり取りを行なうことができる。移動体デバイスは、オンライン状態になると、他の通信システムとの接続を確立することができる。こうした移動体デバイスのユーザを識別することは、安全なアクセスを提供するための重要な側面を有する。しかしながら、移動体デバイスにおけるユーザの識別は、一般に市販されていない。したがって、ユーザを認証するための必要性が存在する。

本発明の各実施例は、デバイス（装置）における音声認証方法に関する。この方法は、ユーザから一以上の話された言葉（spoken utterance）を受取ることと、前記一以上の話された言葉に対応するフレーズを認識することと、前記フレーズにおける前記一以上の話された言葉の変動性から、生体測定の声紋（voiceprint）を識別することと、デバイスと関連付けられたデバイス識別子を決定することと、前記フレーズ，前記生体測定の声紋，および前記デバイス識別子に基づき、前記ユーザを認証することを含む。生体測定の声紋を作成するために、前記一以上の話された言葉の変動性を決定することができる。この生体測定の声紋は、ユーザの声道に対して身体的に固有なものである声道構造となる。前記ユーザを認証することで、デバイスとの通信を有する一以上の資源に対して、アクセスが許可され得る。アクセスを許可するために、前記デバイスすなわち前記ユーザの位置を、決定することができる。

システムの特徴は、新規性を有するものと信じるが、これは添付の請求の範囲において詳しく記述される。ここにある各実施例は、添付図面と関連付けて、以下の説明を参照することで理解することができ、幾つかの図面において、同一の参照番号は同一の要素であると見なされる。

本発明における方法とシステムの詳細な各実施例は、ここに開示される。しかし、開示される各実施例は、単なる例示的なものに過ぎず、様々な形態で発明を具体化できることを理解すべきである。したがって、ここに開示される特定の構造および機能が、限定的なものとして解釈されるのではなく、殆どあらゆる適切に詳細化された構造において、本発明の各実施例を種々採用するために、請求の範囲に対する基礎として、また当業者を教示する基礎として解釈される。さらに、ここに使用される用語および語句は、限定のために意図されたのではなく、むしろ本実施例の理解可能な記述を提供するのに意図されたものである。

ここで用いられる用語「a」または「an」は、１以上と定義される。ここで用いられる用語「plurality（複数）」は、２以上と定義される。ここで用いられる用語「another（別）」は、少なくとも第２以上と定義される。ここで用いられる用語「including（含む）」や「having（有する）」は、構成する（すなわちオープン言語）ように定義される。ここで用いられる用語「coupled（結合された）」は、接続されたと定義されるが、直接的に接続さたとは限らず、また機械的に接続されたとは限らない。用語「suppressing（抑える）」は、部分的若しくは完全に減少するか、或いは除去することとして定義することができる。用語「processing（処理する）」は、予めプログラムされ、またはプログラムされた命令の集合を実行する多くの適当なプロセッサ，コントローラ，ユニットまたは同様のもので定義することができる。

ここで用いられる用語「program（プログラム）」,「software application（ソフトウェアアプリケーション）」およびそれと同様のものは、コンピュータシステム上での実行のために設計される命令シーケンスとして定義される。プログラム，コンピュータープログラムまたはソフトウェアアプリケーションは、サブルーチン，機能、手続、オブジェクト方法，オブジェクト実行，実行可能アプリケーション，ソースコード，オブジェクトコード、共有ライブラリ／ダイナミックロードライブラリ，および／またはコンピュータシステム上での実行のために設計される他の命令シーケンスを含んでもよい。

本発明の各実施例は、ユーザを認証するシステムと方法に関するものである。当該方法は、ユーザから一以上の話された言葉を受取り、一以上の話された言葉に対応するフレーズ（語句）を認識し、このフレーズにおける一以上の話された言葉の変動性から、生体測定の声紋を識別し、デバイスと関連付けられたデバイス識別子を決定し、前記フレーズ，生体測定の声紋，およびデバイス識別子に基づき、前記ユーザを認証することを含む。

本発明の各実施例はさらに、ユーザ固有の声紋と、この声紋を生成する間にユーザが話すフレーズと、例えばＩＭＥＩ番号のようなユーザ自身の送受話器識別子とに基づくことが可能な認証システムを含む。一つの実施例では、一以上の資源へのアクセスを承認するためのさらなる基準として、送受話器すなわちユーザの位置を採用することができる。本システムは、ユーザ識別における例えば現時点の「社会保障番号／母方の旧姓」モデルを、生体測定の特徴、すなわちユーザの声を利用するより強力（robust）な方法に置換えることができる。

図１を参照すると、ここでは音声認証のための移動通信環境100が示されている。移動通信環境100は、音声認証サーバ130と、データベース130と、一以上の移動体デバイス102を含んでいる。データベース130はユーザプロファイルを保存することができ、移動体デバイス102のユーザを特定するのに利用可能である。ユーザプロファイルは、パスフレーズ、生体測定声紋，およびデバイス識別子を含むことができる。サーバ130はユーザの音声を認証するために、ユーザ自身のプロファイルをデータベース140に保存される他のユーザプロファイルと比較することができる。例えば移動体デバイス102のユーザは、その移動体デバイスが利用できる一以上の資源にアクセスするために、当該移動体デバイスに向けて話すことができる。ユーザの音声を認証すると、一以上の資源に対してアクセスが許可され得る。例えば資源は、サーバ，ＰＢＸ，または他のあらゆる好適な通信システムとすることができる。当該資源は、音楽ダウンロード，オンラインギャンブル，申込，ゲームなどのように、前記デバイスが利用できる特徴またはサービスを提供できる。またこの資源は、個人情報や、リモートサーバや、財務データ若しくはビジネスデータを提供するデータストアのように、安全な若しくは安全でないウェブサイトへのアクセスを提供できるが、それらのものに限定されない。

サーバ130は、ユーザによって話されたパスフレーズが正しいパスフレーズかどうかを認識すると共に、そのフレーズの発音と関連付けられた生体測定の声紋が、データベース内におけるユーザプロファイルに正しくマッチするかどうかを認識することができる。とりわけ、ここでの生体測定の声紋は、前記パスフレーズの一以上の発音中に、ユーザの話すスタイル（形態）における一以上の変動性を分析することで取得される。例えば音声認証サーバ130は、一以上の資源へのアクセスを認証するために、パスフレーズの発音の間に取得されたユーザの声の特徴が、データベース140における一以上の生体測定の声紋にマッチするかどうかを決定できる。さらにサーバ130は、移動体デバイス102が資源にアクセスするためにユーザに対して認証されたデバイスで、またそのユーザにおける生体測定の声紋と関連付けられたデバイスであることを確認できる。特にサーバ130は、移動体デバイス102に向けて話しているユーザが、その移動体デバイスと関係していることを確認できる。ある例では、取得した生体測定の声紋と関連付けられたＩＭＥＩ番号を通して、デバイスがユーザに登録されるかどうかを決定できる。このＩＭＥＩ番号は、移動体デバイスに固有のデバイス識別子である。別な装置では、一以上の資源へのアクセスを認証するために、サーバ130がデバイスの位置を決定できる。例えば、移動体デバイス102はそのデバイス位置を特定するために、汎地球測位システム（ＧＰＳ）を含むことができる。代わりに、前記サーバはユーザによって提示された場所に基づいて、資源へのアクセスを認証することができる。例えば、ユーザはそうした場所を話すことができ、サーバ130は、当該話した場所がデバイスすなわちユーザの認証若しくは受け入れられた位置と一致するかどうかを決定できる。ユーザの音声は、移動体デバイス102で、またはサーバ130で、ユーザの身元を確認するために処理され得る。

移動通信環境100は、システム上で一以上の音声認証サーバ130と無線周波数（ＲＦ）通信ネットワークまたはリンク越しに、無線接続性を提供することができる。サーバ130は、音声およびデータ配信をサポートできるゲートウェイ、ＰＢＸまたは他のあらゆる電気通信ネットワークデバイスとすることができる。あらゆる適切なプロトコル（例えばＴＣＰ／ＩＰ，ＨＴＴＰ，ＨＴＴＰＳ，ＳＩＰなど）を利用して、無線，銅線，および／またはファイバ光接続を用いて、ネットワーク100中の通信を確立できる。一つの装置では、移動体デバイス102はＣＤＭＡ，ＴＤＭＡ，ＯＦＤＭ，ＧＳＭまたはそれと同様のもののように、標準的な通信プロトコルを使用する基地受信機110と通信を行なうことができる。代わって基地受信機110は、パケット交換方式のリンク越しに、移動体デバイス102をインターネット120に接続することができる。インターネット120は、アプリケーションサービスとサービスの各層をサポートし、移動体デバイス102にメディアまたはコンテンツを提供できる。アプリケーションサービス層は、財務またはビジネスに基づくアプリケーションに対するデータベースアクセスを含むことができる。移動体デバイス160は、無線通信チャネルを利用するインターネット120を通して、他の通信デバイスとの接続も可能である。移動体デバイス160は、ネットワーク上でサーバ130と通信を確立し、音声，データおよびメディアを交換し合うために、他の移動体デバイスと通信を確立できる。このサーバは直接、または移動体デバイス102を通してアクセスされ得るインターネット120越しに、アプリケーションサービスをホスト提供することができる。

移動体デバイス102は、移動通信環境100上でサーバ130または他の遠隔サーバにデータを送受信できる。例えば、移動体デバイス160はＷＬＡＮ上でインターネット120に接続することも可能である。無線ローカルアクセスネットワークス（ＷＬＡＮｓ）は、ローカルな地理的領域内において、移動通信環境100への無線アクセスを提供する。ＷＬＡＮｓは一般に、基地局としても知られるアクセスポイント104の一群から構成される。移動通信デバイス102は、音声，データおよびメディアを交換し合うために、前記基地局の領域内でラップトップ103のような他のＷＬＡＮステーションと通信を行なうことができる。標準的なＷＬＡＮの実施に際し、802.11ｂまたは802.11ｇのＷＬＡＮテクノロジーのように、物理層は様々な技術を使用する。この物理層は、赤外線による2.4ＧＨｚ帯の周波数ホッピングスペクトラム拡散や、2.4ＧＨｚ帯の直接シーケンススペクトラム拡散を利用してもよい。

移動体デバイス102は、回線交換ＲＦ接続110若しくはパケットベースのＷＬＡＮアクセスポイント104越しに、サーバ130からおよびサーバ130にデータを送受信できるが、そうしたものに限定されない。特にここでのデータは、一以上の資源へのアクセスをユーザに与えるために、一以上の音声認証サーバ間で共有することが可能なユーザ自身のプロファイルを含むことができる。当然のことながら音声は、音声通信を提供するために、移動体デバイス160からおよび移動体デバイス160に伝送することが可能な音声のパケットとして提示される。例えば、移動体デバイス160のユーザは、その移動体デバイスが利用できる一以上の特徴にアクセスするために、サーバ130またはラップトップ103に呼出しを開始できる。移動通信環境100越しに音声データを伝送できることによって、音声通信を提供する。前記移動体デバイス160は、携帯電話や、パーソナル携帯情報機器や、携帯用の音楽プレーヤーや、他のあらゆる種類の通信デバイスとすることができる。

図２を参照すると、ここには前記移動通信環境100の範囲内で配置される音声認証システム200の典型的な実例が示されている。音声認証システム200は、音声認証サーバ130と、インターフェース150と、データベース140を含むことができる。サーバ130は、ユーザプロファイルを検索するために、インターフェース150を通してデータベース140にアクセスできる。このインターフェースは、ウェブ層152と、ビジネス層154と、データベースアクセス層156を含むことができる。ここでのインターフェース150は、単にネットワーク上で処理するデータと関係しているトランスポート層だけを説明しているに過ぎない点に留意すべきである。インターフェース150は、図示された構成要素の数よりも多少のものを有することができるが、それに限定されるものではない。

データベース140は、音声認証のために複数のユーザプロファイル142を含むことができる。ユーザプロファイル142はユーザに対し固有のもので、且つデバイスに対し固有のものでもあり得る。ユーザプロファイル142は、生体測定声紋144と、パスフレーズ146と、移動体デバイス識別子148を含むことができる。パスフレーズ146は、音声認証の間に話されたものに対し、ユーザによって特に選択された一以上のワードである。ユーザが移動体デバイス102に向けてパスフレーズを話すと、ユーザ自身の音声による声紋が取得され、ユーザプロファイル142に保存される。生体測定声紋142は、ユーザに対して固有である当該ユーザの話すスタイルの特徴を識別するものである。特に生体測定声紋142は、ユーザの声道に対し身体的に固有である声道の構造的な違いをあらわしている。つまり、ユーザの声道は、当該ユーザの声道の身体的な構造に依存する身体的変化を受けたものとすることができる。生体測定声紋は、個人に対し固有であるパスフレーズの発音の間に、声道のそうした特有の変化と関連した身体的な特徴を捕える。ユーザの声道構造は、食道，咽頭，喉頭，口，舌，および唇を含む。これらの身体的な特質（attribute）は、パスフレーズの明確な発言の間の発話生成中に、特定の身体的変化を受けることができ、ユーザの発声と話すスタイルに特有なものである。特に、話しが行なわれた発声における一以上の発音の間に、これらの身体的な特質が被った変化量を、ユーザの身元を確認するのに測定することができる。

図３を参照すると、前記音声認証システム200の典型的実施部300が示されている。当該典型的実施部300は、例えば携帯電話または他の移動コンピュータデバイスのような送受話器102と、移動通信環境100越しに当該送受話器と通信を行なう音声認証サーバ130とを含む。サーバ130は、あらゆる適切なコンピューティングまたはネットワークサーバとすることができる。これらに限られていないけれども、サーバ130上で動作するソフトウェアは、前記送受話器と通信を行なうためのウェブ層152（図２を参照）と、ビジネス層154と、データを格納および読み出すためのデータベースアクセス層154とを含むことができるが、そうしたものに限定されない。サーバ130は監視ページを含むこともでき、それにより前記サーバへの管理のアクセスを可能にする。例えば、この監視ページを通してユーザは自身のプロファイルを更新することができる。音声認証サーバ130は、ユーザプロファイルの作成と、ユーザプロファイルのメンテナンスとユーザ認証を提供する。例えば、ユーザプロファイルは、前記生体測定の声紋，パスフレーズおよびデバイス識別子から作成され、図２で記述したような声紋データベースに保存できる。ユーザプロファイルのメンテナンスは、生体測定声紋や、パスワードや、それに関連する情報のように、プロファイルの詳細を更新または変更する権限を、ユーザに与える。ユーザ認証は、予め生成された声紋に対してユーザが認証されるのを可能にするものである。当該認証は、ユーザ自身の記録された音声と、ユーザに提供される送受話器ＩＭＥＩまたはＰＩＮ（個人認証番号：Personal Identification Number）を用いて行なうことが可能である。例えばＩＭＥＩの代わりとして、ユーザのプロファイルとデバイスを結びつけるために、ＰＩＮを前記移動体デバイスに割り当てることができる。

図２に予め示したシステムの各構成要素に加えて、前記典型的実施部300は、音声認証サーバ130と図１における既存の呼処理移動通信環境100との間に挿入されるゲートウェイ145を含むことができる。１つの装置では、サーバ130は加入者のコンプライアンスであるＬＤＡＰと、監査証跡をサポートすることができる。１つの装置では、ゲートウェイ145は、移動体デバイス120によって提供されたＧＰＳ情報を用いて、発信者の位置を確かめることができる。位置確認能力を備えた生体測定声紋認知の組合せは、ギャンブル（例えば、幾つかの州または領土でのみ許可されているかもしれない）、または商取引（特定のアイテムの販売が、若干の管轄区域で許可されていないかもしれない）のようなアプリケーションに対し、とりわけ都合のよい解決をもたらす。ゲートウェイ145は、発信者の位置を確立するために、前記ＧＰＳデータからデバイスの位置を確認できる。

ゲートウェイ145は、移動通信環境100で呼のマッチングとルーティングを行なうことができる。例えば、技術的に知られているように、ゲートウェイはユーザと関連した呼出し番号と呼出された番号とを確認するのに、ＡＮＩとＤＮＩＳをサポートできる。ユーザが呼出されている番号、若しくはユーザが呼出す番号によって、そのユーザを確認することができる。検討された一つの装置では、ユーザプロファイルの一部として呼び情報を含むことができ、この呼び情報はユーザの身元を確認するのに用いられる。実際には、音声認証サーバ130は、呼出し側の識別情報と場所情報についてゲートウェイ145を問合せることで、データベース130に保存されるユーザプロファイルを参照して、移動体デバイス160に向けて話しているユーザを認証できる。

図４を参照すると、ここでは典型的な音声認証システム200が示されている。音声認証システム200は、音声認証サーバ130への接続を有する移動体デバイス102を含むことができる。認証サーバ130は、認証サーブレット（servlet）420と、プロファイル管理モジュール420と、確認モジュール420と、声紋データベース140とを含むことができる。各モジュールは、移動通信環境100内のサーバ130に、若しくは遠隔位置での他のサーバに存在してもよい。図４では、クライアント−サーバに基づく構造概念を示しているが、本発明の態様は、当該構成に限定されるものではない。音声認証の原則は、分散ネットワークとピアツーピアネットワークで等しく適用され得る。

前記構成要素の幾つかは図１から繰り返され、また当該構成要素が、単に移動通信環境100（図１を参照）の範囲内で、音声認証システム200と一体化した一つの実施例を示すためだけに提供される点に注目すべきである。実際には、音声認証システム200は、資源またはサービスにアクセスするためのユーザ音声認証に基づいて、デバイスに対し利用可能な一つ以上の資源に、移動体デバイスのユーザがアクセスするのを許可することができる。音声認証システム200は、既に示されたプログラムモジュールや、そのプログラムモジュールの構造に限られるものではない。ここでのプログラムモジュールは、音声認証の発明的形態を展開するための一つの実施例として示しているに過ぎない。

音声認証システム200は、移動体デバイス102上で動作するアプリケーション410を含む。このアプリケーションは、Ｃ，Ｃ＋＋，Ｊａｖａ（登録商標），ボイスＸＭＬ，ＶｉｓｕａｌＢａｓｉｃのようなプログラミング言語で記述されるソフトウェアプログラムとすることができる。例えば、アプリケーション410は安全なウェブサイトに、および安全なウェブサイトから、秘密の若しくは安全な情報を送るための財政またはビジネスアプリケーションとすることができる。この秘密の情報は、音声，オーディオ，ビデオまたはデータの形態とすることができる。アプリケーション410は、移動体デバイスによってサポートされた潜在的な通信プロトコルへのアクセスを確保できる。例えば、アプリケーション410は、ジャバ２マイクロエディション（Ｊ２ＭＥ）アプレットとすることができ、このアプレットは、移動体デバイス410に通信接続される一以上のサーバに対し、ＨＴＴＰをサポートするソケット接続を有する。例えば、サーバ130に接続するために、Ｊ２ＭＥは移動体デバイス410上のネイティブＣコードにアクセスすることができる。

アプリケーション410は、音声認証サーバ130（図１を参照）上で動いている認証サーブレット420と通信が可能である。この認証サーブレットは、移動体デバイスクライアント102へのフロントエンドとして動作し、リクエストの種類に依存して、音声認証サーバ130への直接の依頼を行なうことができる。例えば、リクエストの種類は、前述のようなユーザプロファイルの作成や、ユーザプロファイルの更新や、ユーザプロファイルの認証としてもよい。リクエストの種類に基づいて、認証サーブレット420は、適切なプロファイル管理機能を呼出すことができる。つまり、リクエストの種類を決定すると、プロファイル管理モジュール420は、それに関連した依頼を実行するために、アプリケーション410と通信を行なうことができる。

一つの装置において、前記認証サーブレット420とアプリケーション420は、安全なＨＴＴＰ接続412越しに通信を行なうことが可能である。認証サーブレット420はユーザを認証するために、確認モジュール430と通信接続することができる。一つの装置では、認証サーブレット420は、ジャバネーティブインターフェース（Java Native Interface：ＪＮＩ）414越しに、確認モジュール430と通信が可能である。このＪＮＩ414は、各プログラム構成要素の間でプログラミング言語翻訳を提供する。例えば、認証サーブレット420はJavaで記述することができるが、確認モジュール430はＣで記述してもよい。ＪＮＩ414は、コードとデータの構造的な特徴を維持した状態で、一つのフォーマットから別なフォーマットにデータを変換するインターフェースを提供する。確認モジュール430は、アプリケーション410に対し、およびアプリケーション410から情報を通信することができる。特に、移動体デバイス102，ＨＴＴＰＳ412，認証サーブレット420，およびＪＮＩ414は、移動体デバイス102上で音声認証サーバ130の確認モジュール420とアプリケーション410との間の通信経路（チャネル）を確立する。

実際には、移動体デバイス102は確認モジュール420にユーザプロファイル142（図２を参照）を送ることができる。例えば、移動体デバイスに提供される一以上の資源またはサービスへのアクセスをユーザが望むときに、移動体デバイス102はアプリケーション410を提示できる。さらに、ユーザがユーザプロファイルを作成するときにも、移動体デバイスはアプリケーションを提示できる。例えばアプリケーション410は、ユーザにパスワードフレーズを話すように依頼するJ2MEアプリケーションとすることができる。アプリケーション410は、ＩＭＥＩ数のような移動体デバイス102のデバイス識別子にアクセスすることもできる。この情報は、ユーザプロファイルを作成するのに用いられる。特定のデバイスでは、IMEI数の抽出メカニズムがＪ２ＭＥを通してサポートされないこともある。したがって、そのようなデバイスは、ユーザが簡単に覚えることができ、認証に利用できる短いＰＩＮをキーとするために、ユーザに対する条件を含んでもよい。ＩＭＥＩ数がサポートされない場合は、ユーザは前記ＰＩＮをキーとすることを要求されるかもしれず、このＰＩＮは保存されたＩＭＥＩ番号の送信を承認するのに用いられる。

一つの装置では、移動体デバイス102はパスフレーズを認証するための音声認識エンジンを含むことができる。当然のことながら、音声認識エンジンは、フレーズが認識されたことだけを評価するものであって、ユーザの身元を評価するものではない。従って、音声認証における第１の様相、すなわちパスフレーズの確認を、移動送受話器で行なうことができる。サーバでは、生体測定音声認証とデバイス識別子を評価できる。従って、音声認証における第２の様相を、サーバで行なうことができる。

代わりに、発話認識を含む完全な音声認証を、サーバ130で実行することができる。この場合にアプリケーション410は、パスフレーズ144と、生体測定声紋146と、ＩＤＥＩ148とを含むユーザプロファイル142（図２を参照）を作成できる。パスワードフレーズを話すと、Ｊ２ＭＥアプリケーション410は、このユーザプロファイルを確認サーバに送信することができる。一つの装置では、Ｊ２ＭＥアプリケーション410は、発声された言葉（すなわちパスフレーズ）の音声処理を実行して、ユーザプロファイルを作成する前に、一以上の生体測定による音声の特徴を符号化し、これを確認サーバ430に送出することができる。ここでの符号化は、発声された言葉を送るのに必要な音声パケットのサイズを減らすために、音声データを圧縮できる。例えば技術的に知られていているように、ボコーダを使って音声データを圧縮することができる。第２の装置では、前記発声された言葉を、確認モジュール430に非圧縮のフォーマットで伝送することができる。例えば、パルス符号変調（ＰＣＭ）フォーマットまたはマイクロソフトウェーブフォーマット（ＷＡＶ）で、音声を伝送することができる。

プロファイル管理モジュール420は、声紋データベース140に保存される一以上のユーザプロファイルを評価するために、認証サーブレット420と通信を行なうことが可能である。このプロファイル管理モジュール420は、ユーザプロファイルを作成し、更新し、削除することができる。プロファイル管理モジュール420は、他のプロファイル管理システムと同期することもできる。例えば、プロファイル管理モジュール420は、ユーザの成功した認証の後に、外部システムでの統合のためにＡＰＩを公開することができる。一つの装置において、当該アプリケーションプログラミングインタフェース（ＡＰＩ）は、ここに記述される音声認証システムの特徴に従って、アプリケーション開発者が素早くそれらのアプリケーションを統合するのを可能にする。例えば、図２に戻ってこれを参照すると、ＡＰＩは生体測定声紋144を作成するためのモジュールと、パスフレーズ142を作成するためのモジュールと、デバイス146を識別するためのモジュールとを含むことができる。ＡＰＩは、声紋作成および認証の各サービスにアクセスするために、インターフェースを認証サーブレット420に提供する。

プロファイル管理モジュール420は、ジャバデータベースコネクティビティ（Java Database Connectivity：ＪＤＢＣ）416のインターフェース越しに、声紋データベース140と通信を行なうことが可能である。ＪＤＢＣ416は、声紋データベース140からデータを検索して保存するためのデータアクセスを提供できる。例えば声紋データベース140は、技術的に知られていているように、各テーブルで構成されたリレーショナルデータベースとすることができ、このテーブルは行と列の書式設定でインデックスされる。ＪＤＢＣ140は、声紋データベース140内でのデータヘッダとフィールドを位置決めする構造化問合せ言語を提供する。プロファイル管理モジュール420は、生体測定声紋のためにユーザプロファイルを解析して、この生体測定声紋を声紋データベース140内における他の声紋と比較することができる。一つの装置では、インデックスのための移動体送受話器のＩＭＥＩ番号を用いて、生体測定による声紋を保存できる。特に、声紋データベース140は、登録済の声紋を有する多数ユーザからの一以上の参照となる声紋を含んでいる。声紋でのマッチ（一致）を決定すると、プロファイル管理モジュール420は、一以上の資源へのアクセスをユーザに許可することができる。例えば、プロファイル管理モジュール420は、一以上の安全なウェブサイト，ビジネスデータベース，財務センターなどへのソケット接続を許可可能にする。

図５を参照すると、ユーザプロファイルを作成するためのフローチャートが示されている。ユーザプロファイルの作成は、ここで図示するステップの数よりも多く、或いは少なくてもよい。各ステップの記述に対して、図４が参照となるであろう。ステップ501では、ユーザがアプリケーションを起動する。例えば図４を参照すると、ユーザはＪ２ＭＥアプリケーション410を起動させる。代わりに、ユーザはウェブサイトやボイスメールにアクセスしたり、例えばログインスクリーンのように、認証を必要とするサービスを要請したりしてもよい。この場合、前記デバイスはユーザを認定するために、Ｊ２ＭＥアプリケーション410を自動的に立ち上げてもよい。ステップ502において、ユーザは声紋作成のためにユーザ音声の記録が促される。ユーザは、そのユーザが音声認証の間に暗唱するはずの特定のフレーズを提示することができる。ステップ503では、提供されたアプリケーション410を使用して、ユーザがそれらの音声を記録する。ステップ504では、ユーザがＰＩＮ番号を入力することができる。この場合もまた、アプリケーションがデバイスからＩＭＥＩ番号を検索できなければ、ＰＩＮ番号を必要としてもよい。アプリケーション410がＩＭＥＩにアクセスできれば、ＰＩＮ番号を必要としなくてもよい。ステップ505において、ユーザはプロファイルの登録が促される。例えば、ユーザは後の検索のために声紋データベース上に新しく作成されたユーザプロファイルの保存を選択できる。ステップ506では、記録された音声と共に、登録の詳細が認証サーバに送信される。ステップ507では、認証サーバ130がユーザ自身の声紋を作成する。ステップ508では、認証サーバ130が、前記ユーザ自身の声紋を用いてユーザのプロファイルを作成し、そしてＩＭＥＩ（またはＰＩＮ）を作成する。例えば、ユーザプロファイルを声紋データベース140上に保存することができる。ステップ509で、認証サーバ130はユーザに対して肯定的な確証で返答する。

図６を参照すると、音声認証600を通してユーザを確かめるためのフローチャートが示されている。認証600は、ここで図示するステップの数よりも多く、或いは少なくてもよい。各ステップの実行と関連付けられた構成要素の記述に対して、図４も参照となるであろう。ステップ601では、ユーザがアプリケーションを起動する。このアプリケーションも、例えば認証を必要とする特徴またはサービスにアクセスするように、ユーザの行動に基づいて、自動的に起動してもよい。ステップ602において、ユーザは声紋作成のためにユーザ音声の記録が促される。これは、ユーザプロファイル作成500の間に記録された同じフレーズである。ステップ603では、提供されたアプリケーション410を使用して、ユーザがユーザ音声を記録する。ステップ604において、ユーザは、ユーザプロファイル作成500の間に前記認証サーバに登録するのに用いられたＰＩＮを打ち込む。ステップ605では、記録された音声と共に、登録の詳細が認証サーバ130に送信される。ステップ606では、認証サーバがユーザのＰＩＮを利用して、そのユーザ自身の声紋を検索する。ステップ607において、一以上の保存された声紋に対してユーザの録音された声を照合するために、認証サーバ130は前記確認モジュールを利用する。ステップ608で、認証サーバはユーザに返答する。ステップ609で、認証が成功していれば、ユーザはさらにサービスまたはアプリケーションを続行できる。ステップ610で、認証が不成功であれば、ユーザは認証失敗について指示され、そのアプリケーションを終了する。

図７を参照すると、ここではデバイスにおける音声認証のための方法700が示されている。本方法は、ユーザから一以上の話された言葉を受取り（702）、前記一以上の話された言葉と一致するフレーズを認識し（704）、前記フレーズにおける一以上の話された言葉の変動性から、ユーザの生体測定声紋を識別し（706）、デバイスと関連付けられたデバイス識別子を決定し（708）、フレーズ，生体測定声紋，およびデバイス識別子に基づき、ユーザを認証する（710）ことを含んでいる。特に、一つの装置では、その話された言葉（例えばパスフレーズ）をユーザが複数回話す。ユーザの声における変化は、ユーザの声道構成の変化を決定するのに評価することができる。一つの装置では、図３で前述したようなアクセスを許可するために、デバイスまたはユーザの位置を決定することができる（712）。

声道構造の変化は、前記生体測定の声紋にて取得され、一致性を確認するために、声紋データベースにおける複数の参照声紋と比較される。すなわち、話者の音声に応答して、第１の声紋と少なくとも第２の声紋を生成し、この第１の声紋と第２の声紋との違いを識別し、その違いが話者の声道における自然な変化に対応したものかどうかについて、決定を行なうことができる。特に生体測定声紋は、ユーザの声道に対して身体的に固有の声道構成である。従って、前記違いが話者の声道における自然の変化を示すものかどうかで、その話者を認証することができる。

例えば、図３に戻って参照すると、声認証方法700を実装している前記デバイス102は、少なくとも１つの認証サーバに対して接続を確立し、少なくとも１つの認証サーバにユーザプロファイルを送信し、少なくとも１つの認証サーバに保存された複数の参照プロファイルとユーザプロファイルを比較し、そのユーザを認証するために、前記ユーザプロファイルが複数の参照プロファイルのうちの１つに一致するかどうかを決定できる。フレーズを認識すると、音声認証サーバすなわちデバイスは、話された言葉の間で、一以上の声道構造の違いを評価することができる。この声道構造の違いに基づき、複数の参照プロファイルから一以上の声道の形状を一致させることができる。

前述において、方法700の各ステップを実行する音声認証システムの詳しい説明が提供される。特に図８を参照すると、ここでは音声認証システムにおける声認証を特徴付けるアルゴリズム800が提示される。アルゴリズム800は、基礎をなす音声処理方法を高レベルで記述したものであり、この音声処理方法は、生体測定の声紋分析に基づいて、ユーザの身元を認証するのに採用される。アルゴリズム800は、ここで図示するステップの数よりも多く、或いは少ないものも含むことができる点に、留意すべきである。実際に各々のステップは、本明細書で説明する以外に、図示しないステップをさらに含むことができる。方法800を記述する上で、図４が参照となるであろう。

ステップ802において、話された言葉を各発声化フレーム（vocalized frames）に分割することができる。例えば図４を参照すると、ユーザが移動体デバイス102に話すパスフレーズ（例えば、話された言葉）は、有声部分と無声部分に区分化することができる。つまり、母音のような周期的領域に対応する領域を、有声と分類することができ、子音のような非周期的領域に対応する領域を、無声と分類することができる。ステップ804では、前記有声の領域から線形予測符号化（ＬＰＣ）係数を算出し、ステップ806では、このＬＰＣ係数を線形スペクトル対（ＬＳＰ）に変換することができる。ＬＳＰ係数は、圧縮とコーディングに適切である。ステップ808では、前記ＬＳＰ係数からフォルマントを計算できる。フォルマントは、共鳴に対応する音声スペクトルの部分と、発声プロセスによって「形成される」ヌル（空値）である。特に、喉，舌，口，唇のような、人間の発話生成システムにおける身体的な構造は、肺から生じる圧力波に共鳴を作り出す空洞を形成する。スペクトル領域におけるフォルマントは、有声フレームでの発音の間に、ユーザの声道構造の特徴を表わしている。ステップ810では、前記ＬＰＣ／ＬＳＰの分析の間に抽出されるフォルマント構造と特徴を、特徴マトリクスに含めることができる。ステップ812では、この特徴マトリクスを正規化できる。正規化の一態様は、バックグラウンドノイズを除去するのを含んでいる。正規化の第２態様は、声道形状の長さと面積を明らかにすることを含んでいる。ステップ814では、前記特徴マトリクスから、声紋と閾値を計算できる。この生体測定による声紋は、表１に示す各特徴を含むことができる。

実際には、ユーザは話された言葉を提示し、この話された言葉は、音声登録の間、すなわちユーザが音声認証サーバで生体測定声紋を登録したときに用いられたパスフレーズと一致する。例えば登録の間に、ユーザは同じパスフレーズを３回発音する。特徴マトリクスは、パスフレーズの各記録のために算出される。この特徴マトリクスは、話者の声の特徴を表わす数値行列である。この場合、３つの特徴マトリクスが、生体測定声紋を作成するのに用いられる。例えば、表１にて上記掲載される列挙された声紋に関して、平均と境界を含む様々な特徴が、その声紋中に用いられる。表１における各特徴は、声紋を定義するのに３つのマトリクスと共に用いられる。例えば、特徴マトリクスは声の特徴を定義するものであり、表１の各特性は声道構造の変化を記述する。例えば、表１の各特性は、声道の形状を意味する。特に、パスフレーズの発音における変化は、表１における生体測定声紋で定義される声フレーム毎に、特徴ベクトルの境界を確認することで取得される。例えば、表１における生体測定声紋の見出し３は、一以上の特徴ベクトルの要素毎に、最大値および最小限を確認する。例えば、パスフレーズを発音する間に、フォルマントの振幅の自然に生じる変化や、フォルマントのバンド幅の変化や、フォルマントの位置の変化を、前記境界が識別することができ、これはパスフレーズを話しているユーザに対し特有のものとなる。

確認の間、ユーザは前記パスフレーズと一致する同一の話された言葉を話すことで、生体測定声紋が発生する。この生体測定声紋は、一致性を確認するために、予め保存された声紋に対して比較される。確認プロセスの間に、登録に用いられるような声認証アルゴリズム800を用いて話されたフレーズからも、特徴マトリクスが算出される。この特徴マトリクスは、声紋データベースに保存された一以上の参照マトリクスに対して比較される。生体測定声紋の特徴マトリクス毎に、対数距離を算出できる。この対数距離が予め定められた閾値レベルより少なければ、一致であることを決定でき、話者を識別できる。確認プロセスにおける１つの固有な特徴は、声紋からの閾値に依存する比較閾値レベルを設定することを含む。この閾値は話者内における変動性に依存して、ユーザの声に基づいて適合することができる。代わりに、閾値とは独立して、ユーザの声に基づいて適合することなく、閾値を設定することもできる。

１つの実装例において、声紋を生成する前記方法800を送受話器で実行することができ、ユーザを許可する前記方法700を、送受話器と通信を行なうサーバによって実行することができる。図９を参照すると、音声認証システム900の様々な構成要素を表わす図が示されており、この音声認証システム900は声紋を生成する前記方法800を実行する。音声認証システム900は、音声プロセッサ144と生体測定音声アナライザ148を備えることができる。音声プロセッサ144は、ユーザから話された言葉と、その話された言葉の少なくとも１回の繰返しを受取ることができる。生体測定声アナライザ146は、話された言葉と少なくとも１回の繰返しから、一以上の声道形状を算出し、また話された言葉と少なくとも１回の繰返しにおいて変化する発音に基づき、一つ以上の声道形状の間での違いを算出できる。声道構造の違いは、一以上の話された言葉と関連付けられたユーザ声道の有界な身体的変化と一致する。例えば声道構造の違いを、時間と共に音声スペクトルのダイナミックな変化を明らかにする運動量スペクトルに基づくものにすることができる。この運動量スペクトルは、話し中における一以上の声部分に対して下限境界と上限境界とを含むことができ、それにより下限境界と上限境界との間の音声スペクトルにおける変化が、固有の声道形状に対応するようになる。

１つの装置において、必須のものではないが、音声プロセッサ144はスピーチ認識装置146を含むことができる。スピーチ認識装置146は、音声認証の間にユーザによって話されるフレーズを確認できる。１つの態様において、スピーチ認識装置146は、話された言葉の有声領域と無声領域を識別し、有声領域から一以上の音素を認識して、各発声化フレーム（例えば、有声部分）における一以上の音素の位置を識別することもできる。音声プロセッサは、話された言葉を一以上の発声化フレームに分割し、この一以上の発声化フレームから一以上の特徴ベクトルを生成し、一以上の特徴ベクトルから特徴マトリクスを算出して、一以上の発声化フレームの全体で特徴マトリクスを正規化することができる。例えば話したフレーズ毎に、特徴マトリクスを算出できる。発声した言葉は、５ｍｓから20ｍｓまでの間の時間長を有する一以上の発声フレームに仕切ることができる。

音声プロセッサは、音声フレームでの絶対最小値と絶対最大値を識別できる。これらの各値は、予め定められた閾値に対して比較することができる。最大値と最小値が共に振幅レベルより少なければ、声の構成要素を有しないものとして、当該フレームを分類化し、アルゴリズム800は次のフレームに進む。最大値と最小値が振幅レベルより大きいならば、その音声フレーム信号に対して、自己相関関数が算出される。一以上の前に特定された自己相関項が予め定義された閾値より少なければ、そのフレームは有声信号が欠落していると考えられて、アルゴリズム800は次のフレームに進む。

有声のウィンドウ化された音声フレームに、高速フーリエ変換（ＦＦＴ）を適用することができる。音声フレームは、周波数分析前の不連続を捕えるために、重み付け窓で掛け算される。ＦＦＴは、Ｎ個のサンプルの各フレームを、時間領域から周波数領域に変換する。このステップの後で得られる結果は、振幅スペクトルすなわちスペクトルである。

音声信号における音の周波数コンテンツに関する人間の知覚は、線形なスケールに従わない。したがって、線形な周波数スケールから人間の聴力感度に近いスケールに変換するための振幅スペクトルに、Ｂａｒｋスケールを適用できる。つまり、知覚的なフィルタバンク分析を、一つ以上の発声化フレームで実行することができる。Ｂａｒｋ周波数をシミュレートする１つのアプローチは、フィルタバンクを使うことであり、１つのフィルタは各々の望ましいメル−周波数構成要素を有する。フィルタバンクは、三角の帯域通過周波数レスポンスを持つことができる。帯域幅と同様に間隔は、１つのＢａｒｋ周波数区間で決定される。Ｂａｒｋスペクトル係数ＩＢＲの数は、周波数レンジに依存する。電話チャンネルにおいて、3400Ｈｚの周波数レンジは、17のＢａｒｋに一致する。従って、０〜3400Hzの周波数レンジは、１つのＢａｒｋ帯域幅フィルタの１７個分に一致する。各々のフィルタ帯域は三角の帯域通過周波数レスポンスを有することができ、帯域幅と同様に間隔は、一定のＢａｒｋ周波数区間で決定される。Ｂａｒｋスケールに基づきシフトされるスペクトル周波数を、Ｂａｒｋスペクトルと呼ぶことがある。

ＢａｒｋスペクトルＸＦ（n,k）は、ｂａｒｋ−スケール周波数バンクの重み付け因数で掛け算され、各々の周波数帯のエネルギーを得るために、全ての重み付け因数に対する積が加算される。前記話された言葉の各音声フレームに対して、エネルギーマトリクスが算出される。例えば前記話されたパスフレーズを、マトリクスＥ（m,i）として表わすことができる。望ましくないインパルス雑音の幾らかを除去するのに、スムージング用の三点メジアンフィルタが利用される。平滑化されたエネルギーＥ_ｓ（m,i）は、バックグラウンド雑音の周波数エネルギーを除去することで正規化され、それにより音声信号と関連付けられた主要なエネルギーＥ_ｖ（m,i）を得る。１つの装置では、最初の８つの音声フレームにおけるエネルギーを平均化することで、バックグラウンド雑音のエネルギーＥ_ｎ（m,i）を推定できる。

ｍ番目のフレームのｉ番目の帯域における平滑化および正規化されたエネルギーＥ_ｖ（m,i）で、ｉ番目の帯域での音声信号の全エネルギーを、次のように計算できる。

閾値は次のように計算できる。

Ｔ(i)＞1.5ならば、雑音より多くのスピーチが存在するものと見なされて、その帯域を完全のままにすることができる。反対に、閾値がそれよりも少なければ、その帯域は過度に雑音があると見なされて、更なる計算には用いられない。従って、1.5の閾値を上回る帯域がより多い程、より高度な音声内容が反映される。閾値を上回っている帯域は、新たな帯域数として計算され得る。つまり、知覚的なフィルタバンク分析は、Ｂａｒｋ周波数スケールに沿った一以上の周波数帯域で、音声エネルギーと雑音エネルギーを推定することを含む。発声の閾値を越えない雑音エネルギーに対する音声エネルギーの比率を有するフィルタバンクを破棄することで、知覚的なフィルタバンク分析の間において、バックグラウンド雑音を抑えることができる。次の式により、全体の信号エネルギーを前記新たな帯域数で計算できる。

Ｅ_ａ（m）毎に、最小値と最大値を決定できる。適応可能な有声化された分割（セグメンテーション）閾値も、次の式により前記決定した最小値と二乗平均平方根の項に基づき算出できる。

Ｅ_ａ（m）＞Ｔｖなるフレームは、発声化されたものとして分類され、当該発声化だけを用いて、新たなマトリクスを計算できる。特に、前述した音声処理技術は、スピーチの有声部分を識別し、スピーチの各有声領域に基づく特徴マトリクスを計算するのに用いられる。スピーチの各有声領域は、話された言葉内で識別され、位置付けされ得る音素を含むことができる。例えば図９を参照すると、スピーチ認識装置146が音素を識別できる。

有声部分の活動分析に続いて、知覚的なフィルタバンク分析における各エネルギー帯域から、線形予測係数（ＬＰＣ）を算出できる。スペクトルのダイナミックレンジを減らすために、プリエンファシスがＥ_ｖ（m,i）に適用される。これは、ＬＰＣ分析アルゴリズムの数値特性を改善する。最大の振幅スペクトルが見つかると、その最大値の後の全ての点が重み付け係数で掛け算される。ＬＰＣは、その後で線形スペクトル対係数（ＬＳＰ’ｓ）に変換される。フォルマントと反フォルマント（anti-formants）はＬＳＰから算出され、特徴ベクトルはフォルマントと反フォルマントから算出される。フォルマントと反フォルマントを決定すると、スピーチフレーム毎の特徴ベクトルを算出できる。前記話された言葉の有声部分を示す特徴ベクトルに対して、特徴マトリクスを作成できる。この特徴マトリクスは、フォルマント位置，フォルマント振幅，フォルマント帯域幅，反フォルマント位置，反フォルマント振幅，反フォルマント帯域幅，位相情報，平均振幅情報，差分情報，およびダイナミック特性を含むことができる。特に、フォルマントと反フォルマント情報は、Ｂａｒｋスケールに沿って表される。フォルマントと反フォルマント情報の違いは、声道構造の自然な変化における１つの様態を特徴付けるのに評価される。つまり、類似した声道構造から発生する声紋の一致性を識別するために、一以上の特徴ベクトルに対して歪みを評価できる。

声道スペクトルは、前記特徴マトリクスから算出される。特に、話された言葉における一以上の繰返しの間において、類似した特徴を有するフォルマントが、声道スペクトルを作成するのに用いられる。つまり、声の構造を一貫して表わすのに実質的に貢献しているフォルマントが、声道スペクトルを作成するのに用いられる。この声道スペクトルは、ＬＰＣまたは自己相関関数から算出される。声道形状は声道構造に対応しているが、この変化は声道スペクトルの変化から確認される。特に、声道構造を一以上の区分（セクション）として表わすことができ、この区分は、ユーザ声道の一以上の区分に対して特徴のある対応する長さと領域を有する。声道構造の違いは、一以上の話された言葉と関連付けられるユーザ声道の有界な身体的変化と一致する。例えば、声道構造の違いは、音声スペクトルの時間経過におけるダイナミックな変化を占有する運動量スペクトルに基づくことができる。このダイナミックな変化は、スペクトルの振幅またはスペクトルの位相に現われる。運動量スペクトルはスピーチの一以上の有声部分に対して下界（下限）と上界（上限）を含むことができ、それによりこの下界と上界との間の音声スペクトルの変化が、固有の声道構造と一致する。特徴マトリクスに対する上下の境界は、表１に示される。

例えば図９を参照すると、一以上の発声化フレームに対応する話された言葉の中の複数部分に対する特徴ベクトルから、音声プロセッサ944が特徴マトリクスを算出し、ここでの特徴マトリクスは、一以上の発声化フレームにおける特徴ベクトルを連結している。音声プロセッサ944はさらに、予め定めた長さよりも短い発声化フレームと、平均的な声道構造を上回る声道構造に対応する発声化フレームとを除去することで、特徴マトリクスを正規化する。この特徴マトリクスにおける多数の特徴によって、声道スペクトルを特徴付け、或いは提示することができる。話者内（intra-speaker）の変動を最小限にするために、そして話者間（inter-speaker）の変動を最大にする音声データベースの統計的な調査から、前記各特徴の特質が選択されている。

当然のことながら、音声認証の間に、生体測定声アナライザ（図９を参照）は、話者の声における保存された特徴ベクトルの識別パラメータに対して、特徴ベクトルの識別パラメータを比較する。このパラメータは、表１における生体測定声紋で取得されたフォルマント情報と反フォルマント情報を含んでいる。特に、生体測定された声紋は、３つの特徴マトリクス（３回のフレーズ繰返しと関係している）と、ユーザの声道形状を特徴付ける表１の特質とを含んでいる。つまり、ユーザの声道形状は、特徴マトリクスによって特徴付けられ、また特徴マトリクスから算出することができる。

声道形状を決定するために特徴マトリクスを計算する間に、特徴マトリクスで指定される最初の３つのフォルマントから、最初の声道形状が生成されるであろう。声道形状のカーブは、フォルマント周波数から0.2ｃｍの増加で計算され得る。また声道長も、有声フレームに対して計算され得る。例えば、生体測定声アナライザは、最初の生体測定声紋における低域フォルマントから最初の声道形状を算出し、最初の声道形状に基づく声道構成の違いを決定し、最も少ない声道構成の違いを提供する相似の声道形状を識別して、最初の生体測定声紋における高域フォルマントから、前記相似の声道形状を形成する。高域フォルマント周波数は、話者の調音（articulation）スタイルにおける一つの様子を特徴付けるのに強調される。

再び図９を参照すると、生体測定声アナライザ944は、特徴ベクトルから一以上の声道断面領域を決定し、また一以上の声道断面領域に対して、一以上の声道長を決定する。さらに、声道形状を決定するときに、通信帯域幅を考慮することがある。例えば、一般的に140Ｈｚ〜4.6ＫＨｚの間にあって、F1＝640，F2＝1730，F3＝2860，F4＝3340である電話帯域幅に対して、フォルマント周波数を調節できる。

声道の横断面は、補償されたフォルマント周波数の位置に基づいて更新される。声道断面の平均は、スピーチにおける一以上の発声化フレームに基づく声道形状に対して決定される。たとえば、声道形状の変化が比較的一定である箇所で、発声したスピーチの音素領域に対して断面を決定することができる。

特徴マトリクスにおける特徴ベクトルに対して変化ベクトル（variation vector）を生成するために、変化境界を声道形状の変化に基づいて作成できる。例えば、生体測定声アナライザ944は、変化ベクトルの対数距離を算出し、この対数距離に基づく閾値を確立する。当該閾値は、ユーザを認証するための声道構造の違いが、変化境界の中にあるかどうかを決定するのに用いられる。変化境界は、表１で示されるもののように、各特徴ベクトルの平均と標準偏差として提示される。さらに生体測定声アナライザ944は、変化境界でのヒストグラムを算出し、当該ヒストグラムの最大値を決定し、当該最大値に基づく微分ベクトルを算出し、当該微分ベクトルに基づく個人のヒストグラムと第２の変化境界を算出する。

確認の間には、ユーザの身元を確かめるべく、生体測定声紋が前記複数の生体測定声紋の一つに一致するかどうかを決定するために、生体測定声アナライザ944が個人のヒストグラムを評価する。個人のヒストグラムにおける第１の複数のビン（bin）が満たされると、身元確認が有効にされ、個人のヒストグラムにおける第２の複数のビンが満たされると、身元確認が無効にされる。特に、ユーザの声道形状がいつ個人のヒストグラムに一致するのかを決定するために、生体測定声紋における表１の特徴情報が個人のヒストグラムを生成するのに用いられる。ヒストグラムは、生体測定声紋の特徴が話している人に特有なものであるかどうかを統計学的に確認する。つまり、話者の声道形状における変化は、特定のユーザの声道構造と関連付けられた変化に対し評価され、統計学的に比較される。再度云うならば、話された言葉を多数提示することは、声道形態の違い、すなわち声道形状の変化を決定するために提供される。個人のヒストグラムは、ユーザを分類化して認証するために、実用的な検出方法を提供する。例えば、確認の間に、生体測定声アナライザは対数距離を算出し、個人のヒストグラムにおける第１の複数のビンがいつ満たされるのかを決定するための閾値を評価する。さらに、ユーザの声に基づいて、この閾値を適合することもできる。

以上のように、利益，他の利点，および問題の解決が、特定の各実施例に関連して記述されてきた。しかし、利益，利点，問題の解決，およびより多く述べられることに気付き、またより多く述べられるようになる利益，利点，若しくは問題をもたらすあらゆる要素が、重要で、必要とされ、または本質的なあらゆるまたは全ての請求項における特徴または構成要素として、解釈されてはいない。
ここで用いられるように、「comprises：構成する」，「comprising：構成して」という用語や、それに関するあらゆる変化は、非独占的な包含をカバーすることを意図しており、それによりプロセス，方法，論文，または各要素のリストから成る装置は、それらの要素だけを含むものではないが、そうしたプロセス，方法，論文，または装置に明確にリストされておらず、或いは特有の別な構成要素を含んでもよい。さらには、第１と第２，上と下などのように、関連する用語の使用があったとしても、それは各実在物や各動作間におけるあらゆる実際の関係や順番を、必ずしも必要としたり暗示したりすることなく、他方から一方の実在物や動作を区別するためだけに用いられることが理解される。

本発明の実施例を適応する場合に、これはハードウェア，ソフトウェア，またはハードウェアとソフトウェアとの組合せで実現できる。ここに記述される方法を実行するのに適したあらゆる種類のコンピュータシステムや他の装置が、適合している。ハードウェアとソフトウェアの典型的な組合せは、コンピュータープログラムを有する移動通信装置とすることができ、そのプログラムをロードして実行すると、移動通信装置を制御して、ここに記述されるような方法を実行することができる。本実施例における方法とシステムの一部を、コンピュータープログラム製品に埋め込んでもよく、その製品はここに記述される方法の実施を可能にする全ての特徴を備えていて、コンピュータシステムでロードされると、これらの方法を実行できる。

以上、本発明の好ましい各実施例が例示され、記述されてきたが、本発明の各実施例がそのように限定されないことは明らかである。添付の各請求項によって定義されるように、本発明の各実施例における精神と範囲から逸脱することなく、多数の修正，変更，変形，代用，および均等が、当業者おいて生じるであろう。

本発明における装置の実施例に従う移動通信環境である。本発明の装置の実施例に従って、図１の移動通信環境の範囲内で展開される音声認証システムの典型的な実例である。本発明の装置の実施例に従う図２の音声認証システムの典型的な実施である。本発明の装置の実施例に従う音声認証システムである。本発明の装置の実施例に従う音声認証システムの利用に好適な、ユーザプロファイルを生成するためのフローチャートである。発明の装置の実施例に従う音声認証システムの利用に好適な、ユーザプロファイルを生成するためのフローチャートである。本発明の装置の実施例に従うデバイスの音声認証のための方法700である。本発明の装置の実施例に従う音声認証アルゴリズムである。本発明の装置の実施例に従う音声認証システムである。

Claims

デバイスにおける音声認証方法であって、
ユーザから一以上の話された言葉を受取り、
前記一以上の話された言葉に対応するフレーズを認識し、
前記フレーズにおける前記一以上の話された言葉から、生体測定の声紋を識別し、
前記デバイスと関連付けられたデバイス識別子を決定し、
前記フレーズ，前記生体測定の声紋，および前記デバイス識別子に基づき、前記ユーザを認証する音声認証方法。
前記生体測定の声紋の識別では、さらに前記生体測定の声紋を作成するために、前記一以上の話された言葉の変動性を決定し、
当該生体測定の声紋は、前記ユーザの声道に対して身体的に固有な声道構造である請求項１記載の音声認証方法。
前記ユーザを認証すると、前記デバイスとの通信を有する一以上の資源に対してアクセスを許可することをさらに有する請求項１記載の音声認証方法。
前記デバイスの位置を確認することをさらに有する請求項１記載の音声認証方法。
前記デバイスの位置を確認するために、前記デバイスは汎地球測位システム（ＧＰＳ）を備えた請求項４記載の音声認証方法。
前記ユーザの位置を識別するユーザ別の第２の話された言葉を受取り、
前記ユーザの位置が受け入れられた位置に対応することを認識する請求項１記載の音声認証方法。
前記移動体のデバイス識別子がＩＭＥＩ番号である請求項１記載の音声認証方法。
前記ＩＭＥｌ番号はデータベースにおける前記生体測定の声紋と関連付けされ、この生体測定の声紋は、当該生体測定の声紋にインデックスを付けるために前記ＩＭＥｌ番号を用いる請求項７記載の音声認証方法。
前記移動体のデバイス識別子が、当該デバイスに割り当てられたＰＩＮである請求項１記載の音声認証方法。
前記デバイスが、移動送受話器，携帯電話，パーソナル携帯情報機器，ラップトップ型パソコン，ノート型パソコン，携帯用音楽プレーヤー，および通信装置のうちの一つである請求項１記載の音声認証方法。
少なくとも１つの認証サーバに対して接続を確立し、
前記少なくとも１つの認証サーバにユーザプロファイルを送信し、
前記少なくとも１つの認証サーバに保存された複数の参照プロファイルと前記ユーザプロファイルを比較し、
前記ユーザを認証するために、前記ユーザプロファイルが前記複数の参照プロファイルのうちの１つに一致するかどうかを決定することをさらに備え、
ユーザプロファイルは、フレーズ，生体測定の声紋，およびデバイス識別子の少なくとも１つを含む請求項１記載の音声認証方法。
前記認証における第１の部分が前記デバイスで生じ、前記認証における第２の部分が前記認証サーバで生じる請求項１１記載の音声認証方法。
前記認証サーバが、ウェブ層や、ビジネス層や、データベースアクセス層のようなソフトウェアアプリケーションを含む請求項１１記載の音声認証方法。
前記比較は、
前記フレーズを認識すると、前記話された言葉の間で、一以上の声道構造の違いを評価し、
前記声道構造の違いに基づき、複数の参照プロファイルから一以上の声道の形状を一致させることをさらに有する請求項１１記載の音声認証方法。
前記声道構造の違いは、前記話された言葉における一以上の有声部分で評価される請求項１４記載の音声認証方法。
声道構造の違いは、複数の話された言葉と関連付けられるユーザ声道の有界な肉体的変化に対応するものである請求項１４記載の音声認証方法。
前記声道構造の違いは、音声スペクトルの時間経過におけるダイナミックな変化を占有する運動量スペクトルに基づくものである請求項１４記載の音声認証方法。
前記運動量スペクトル、はスピーチの一以上の有声部分に対して下界と上界を含み、それによりこの下界と上界との間の音声スペクトルの変化が、固有の声道構造と一致する請求項１７記載の音声認証方法。
前記声道構造は一以上の区分として表わされ、この区分は、ユーザ声道の一以上の区分に対して特徴のある対応する長さと領域を有する請求項１４記載の音声認証方法。
話された言葉が繰り返される間の違いが、歪み範囲内であるかどうかを決定し、
前記違いが歪み範囲内であれば、声紋の一致を決定することをさらに有する請求項１４記載の音声認証方法。
前記比較は、
少なくとも１つのフォルマント周波数を決定し、
少なくとも１つの反フォルマント周波数を決定し、
声道構造の自然な変化における１つの様態を特徴付けるのに、前記フォルマント周波数と反フォルマント周波数との間の違いを評価することをさらに有する請求項１４記載の音声認証方法。
前記フォルマント周波数と反フォルマント周波数との間の違いを評価することが、電話帯域幅を補償する請求項２１記載の音声認証方法。
高域のフォルマント周波数が、話者の調音スタイルにおける一つの様子を特徴付けるのに強調される請求項２１記載の音声認証方法。
話者の声に応答して第１の声紋を生成し、
話者の声に応答して少なくとも第２の声紋を生成し、
前記第１の声紋と前記第２の声紋との間の違いを識別し、
前記違いが、話者の声道における自然な変化に対応したものかどうかを決定し、
前記違いが、前記話者の声道における自然な変化を示していれば、その話者を認証する話者検証方法。
自然な変化とは声道の身体的変化であって、この身体的変化は、話された言葉の発音中に、その話者の調音的ジェスチャーにおける変化に対して相互に関連付けられ、話者に固有のものである請求項２４記載の話者検証方法。
ユーザからの話された言葉およびこの話された言葉の少なくとも１回の繰返しを受取る音声プロセッサと、
前記話された言葉および前記少なくとも１回の繰返しから一以上の声道形状を算出し、前記話された言葉および前記少なくとも１回の繰返しにおける発音の変化に基づき、前記一以上の声道形状の間での声道構造の違いを算出する生体測定声アナライザと、を備えた生体測定声紋生成システム。
前記音声プロセッサは、
話された言葉を一以上の発声化フレームに分割し、
この一以上の発声化フレームから一以上の特徴ベクトルを生成し、
前記一以上の特徴ベクトルから特徴マトリクスを算出して、
前記一以上の発声化フレームの全体で特徴マトリクスを正規化するものである請求項２６記載の生体測定声紋生成システム。
前記話された言葉の有声領域と無声領域を識別し、
前記有声領域から一以上の音素を認識して、
前記各発声化フレームにおける一以上の音素の位置を識別するスピーチ認識装置をさらに備えた請求項２７記載の生体測定声紋生成システム。
話された言葉を一以上の発声化フレームに分割し、
前記一以上の発声化フレームで知覚的なフィルタバンク分析を実行し、
前記知覚的なフィルタバンク分析から線形予測係数（ＬＰＣ）を算出し、
前記線形予測係数を線形スペクトル対係数（ＬＳＰ’ｓ）に変換し、
前記線形スペクトル対係数からフォルマントと反フォルマントを算出し、
前記フォルマントと反フォルマントから特徴ベクトルを算出することで、
前記音声プロセッサは一以上の特徴ベクトルを生成するものである請求項２７記載の生体測定声紋生成システム。
前記音声プロセッサは、前記一以上の発声化フレームに対応する話された言葉の中の複数部分に対する特徴ベクトルから、特徴マトリクスを算出するものであり、
前記特徴マトリクスは、前記一以上の発声化フレームにおける特徴ベクトルを連結しており、
予め定めた長さよりも短い発声化フレームと、平均的な声道構造を上回る声道構造に対応する発声化フレームとを除去することで、特徴マトリクスを正規化するものである請求項２９記載の生体測定声紋生成システム。
知覚的なフィルタバンク分析を実行することは、Ｂａｒｋ周波数スケールに沿った一以上の周波数帯域で、音声エネルギーと雑音エネルギーを推定することを含む請求項２９記載の生体測定声紋生成システム。
発声の閾値を越えない雑音エネルギーに対する音声エネルギーの比率を有するフィルタバンクを破棄することで、前記知覚的なフィルタバンク分析の間において、バックグラウンド雑音を抑えることをさらに備えた請求項３１記載の生体測定声紋生成システム。
前記線形予測係数（ＬＰＣ）を算出することは、音声信号に対してプリエンファシスを適用することを含む請求項２９記載の生体測定声紋生成システム。
前記特徴ベクトルは、話者内の変動を最小限にし、話者間の変動を最大にする識別パラメータを含む請求項２９記載の生体測定声紋生成システム。
前記生体測定声アナライザは、
前記特徴マトリクスから一以上の声道形状を算出し、
前記一以上の声道形状から声道構造の違いを算出し、
一以上の音素のスペクトルにおける変動を評価し、
前記変動に基づいて、声道構造の違いにおける変化境界を確立するものである請求項３０記載の生体測定声紋生成システム。
前記生体測定声アナライザは、
話者の声における保存された特徴ベクトルの識別パラメータに対して、特徴ベクトルの識別パラメータを比較するものである請求項３５記載の生体測定声紋生成システム。
前記生体測定声アナライザは、
特徴ベクトルから一以上の声道断面領域を決定し、
前記一以上の声道断面領域に対して、一以上の声道長を決定するものである請求項３５記載の生体測定声紋生成システム。
前記生体測定声アナライザは、
特徴マトリクスにおける特徴ベクトルに対して変化ベクトルを生成するために、変化境界を算出し、
前記変化ベクトルの対数距離を算出し、
前記対数距離に基づく閾値を確立するものであり、
前記閾値は、ユーザを認証するための声道構造の違いが、変化境界の中にあるかどうかを決定するのに用いられる請求項３７記載の生体測定声紋生成システム。
前記変化境界は、各特徴ベクトルの平均と標準偏差として提示される請求項３８記載の生体測定声紋生成システム。
前記生体測定声アナライザは、
個人の声道形状における変化境界を決定し、
前記変化境界におけるヒストグラムを算出し、
前記ヒストグラムの最大値を決定し、
前記最大値に基づく微分ベクトルを算出し、
前記微分ベクトルに基づく個人のヒストグラムと第２の変化境界を算出する請求項３８記載の生体測定声紋生成システム。
前記生体測定声アナライザは、
ユーザの身元を確かめるべく、生体測定声紋が前記複数の生体測定声紋の一つに一致するかどうかを決定するために、個人のヒストグラムを評価するものであり、
個人のヒストグラムにおける第１の複数のビンが満たされると、身元確認が有効にされ、個人のヒストグラムにおける第２の複数のビンが満たされると、身元確認が無効にされる請求項４０記載の生体測定声紋生成システム。
前記生体測定声アナライザは、
対数距離を算出し、
個人のヒストグラムにおける前記第１の複数のビンがいつ満たされるのかを決定するための閾値を評価するものである請求項４１記載の生体測定声紋生成システム。
前記閾値は、ユーザの声に基づいて適合される請求項４２記載の生体測定声紋生成システム。
生体測定声紋の作成モジュールと、
パスフレーズの作成モジュールと、
デバイス識別子モジュールを有し、
前記生体測定声紋の作成モジュール，前記パスフレーズの作成モジュール，および前記デバイス識別子モジュールから生成される生体測定の声紋，パスフレーズ，およびデバイス識別子を含むユーザプロファイルを作成するアプリケーションプログラミングインターフェース（ＡＰＩ）をさらに備えた請求項４２記載の生体測定声紋生成システム。
ユーザから受取った一以上の話された言葉から、一以上の声道形状を決定し、
前記一以上の声道形状の間における声道の違いを評価し、
ユーザの声における保存された参照声道形状を示すものに対して、前記声道の違いを比較し、
前記声道構造の違いが前記参照声道形状に対する自然な変化を示すかどうかを決定することからなり、
この自然な変化は、ユーザによって身体的に明瞭に発音され得る声道構造の変動である音声認証方法。
一以上の声道形状を決定することは、
最初の生体測定声紋における低域フォルマントから最初の声道形状を算出し、
前記最初の声道形状に基づく声道構成の違いを決定し、
最も少ない声道構成の違いを提供する相似の声道形状を識別して、
前記最初の生体測定声紋における高域フォルマントから、前記相似の声道形状を形成することをさらに有する請求項４５記載の音声認証方法。
前記話された言葉の源を決定し、この源は、前記話された言葉をマイクロホンに話すユーザか、或いはマイクロホンに話し言葉を記録したものを再生するデバイスの内の一つであり、
前記源がユーザであればアクセスを許可し、前記源がデバイスであればアクセスを許可しない請求項４５記載の音声認証方法。
前記源を決定することは、
前記話された言葉を示す音響信号が、ディジタル記録デバイスにより生成された波形の特徴を有するかどうかを識別し、
この識別は、前記ディジタル記録デバイスによって与えられるスペクトル傾斜の認識を含む請求項４７記載の音声認証方法。
音声自動応答（ＩＶＲ）システムでの呼び中における話された言葉を受取り、
前記話された言葉の認証に応答してプログラム動作を起動し、
前記話された言葉を提示するユーザの声紋を確認するのに、当該話された言葉を分析し、
前記声紋を認証したことに基づき、前記プログラム動作に対するアクセスをユーザに許可する音声認証方法。
前記話された言葉の中で一以上の数字を認識し、
前記音声自動応答システムの特徴部にアクセスするために、前記一以上の数字を自動的に入力することをさらに有し、
それにより前記プログラム動作が、前記特徴部にアクセスするために、前記話された言葉内で認識された一以上の数字に電話をかける請求項４９記載の音声認証方法。
前記話された言葉を提出するのに用いられるデバイスから、デバイス識別子を受取り、
アクセスを許可する前に、前記デバイスの登録を有効にすることをさらに有する請求項４９記載の音声認証方法。
前記プログラム動作は安全なトランザクションであり、前記話された言葉は、アカウント番号，銀行支店番号，電話番号，社会保障番号，およびピン番号のような安全な情報を確認する請求項４９記載の音声認証方法。
前記アクセスを許可すると、前記プログラム動作に従ってコールセンターに呼出しを行ない、
前記コールセンターと接続すると、ユーザのアカウント情報を表示するのに、当該コールセンターでスクリーンポップを起動することをさらに有する請求項５２記載の音声認証方法。
前記音声自動応答（ＩＶＲ）システムは、ＰＢＸ，ゲートウェイ，音声サーバ，およびインターネット音声サーバの一つに存在する請求項５３記載の音声認証方法。