JP4871885B2

JP4871885B2 - ウェブ・ベースの多モード・インターフェースを用いるユーザ検証

Info

Publication number: JP4871885B2
Application number: JP2007555566A
Authority: JP
Inventors: ハラミジョ、デビッド; マッコブ、ジェラルド
Original assignee: ニュアンスコミュニケーションズ，インコーポレイテッド
Priority date: 2005-02-22
Filing date: 2006-01-19
Publication date: 2012-02-08
Anticipated expiration: 2026-01-19
Also published as: CN101120350B; TWI358223B; TW200637331A; US20140249819A1; JP2008532116A; EP2273414B1; US8725514B2; WO2006089822A1; US10818299B2; CN102222190A; EP2273412A1; CN101120350A; US20060190264A1; EP2273412B1; EP1854039A1; EP2273414A1

Description

本発明は、ウェブ・ベースの多モード・インターフェースを用いてユーザの同一性を検証することに関する。

多モード・インターフェースによって、ユーザは、視覚及び音声手段を介してアプリケーションまたは他のシステムと通信することができる。例えば、ユーザは、グラフィカル・ユーザ・インターフェース（ＧＵＩ）を介して１つ以上の話し言葉を発することによって、または、ＧＵＩ入力及び音声入力の組み合わせを行うことによって通信することができる。システムと通信するため、多モード対話は、より直観的な手段をユーザに提供することができる。

スマート・フォン、携帯情報端末及び、小型フォーム・ファクタを有する他の装置のような携帯用コンピューティング装置に関して、多モード・インターフェースは、状況に基づいて対話の手段をユーザに選択させる。幾つかの場合ではＧＵＩを用いるのが有益であるが、他の場合では、音声データ入力の方が有利または便利である。通常の状況では、例えば、ユーザは音声対話を選択することがある。その理由は、音声対話が直観的かつ高速であるためである。どちらも使用するのに厄介かつ面倒であるミニ・キーパッドまたは小型ＧＵＩを用いる必要性から音声データ入力は更にユーザを解放する。

しかし、雑音の多い環境では、音声データ入力ができないことがある。ユーザの発話の正確な認識が不可能となるほどまでに周囲の雑音レベルがユーザの音声入力を覆い隠すことがある。ユーザの同一性を検証する場合のような他の状況では、ユーザはキーパッド入力または言葉以外の対話をも選択することがある。一般的に、ユーザ検証は、ユーザ名及びパスワードを用いて実行される。このような情報を多モード・インターフェースに話しかけることによって、他人に機密情報を立ち聞きされることがあるので、ユーザは、ＧＵＩまたはキーパッドを用いてこのような情報を入力することが多い。しかし、前述したように、このようにしてこのような情報を携帯用コンピューティング装置に入力することは、厄介かつ面倒であることがある。

パスワードを用いるのに他の欠点もある。一般的に、パスワードは、記憶にとどめるのが困難であって、あまり安全ではない。ユーザによって保持され、ユーザ名及びパスワードを各々必要とする多量のアカウントの観点から、パスワードを記憶にとどめることは特に困難であることがある。各パスワードを記憶にとどめる必要性を回避するため、ユーザは、複数のアカウントに対して共通のパスワードを用いるか、アクセス・カードすなわちＡＴＭカードの裏にパスワードを書き留めるか、または、アカウントに対してユーザのユーザ名と同じであるパスワードを用いる傾向にある。これらの行為はどれも、ユーザ・アカウントのセキュリティを危険にさらすことがある。

更に、銀行取引、航空機の予約、製品購買などのような機能がウェブ・ベースの多モード・インターフェースへ移り始めるにつれて、ユーザ検証はますます重要になってくる。このようなシステムは、取引が安全である場合であって、ユーザが、ユーザであると主張する人であることをシステムが保証する場合のみに成功することができる。従って、上述した欠陥を克服する多モード・インターフェースを介してユーザを検証する技術を提供することは有益である。

本発明は、通信ネットワークを介してユーザの同一性を検証するための解決策を提供する。本発明の一実施形態は、ウェブ・ベースの多モード・インターフェースを用いてユーザの同一性を検証する方法を含むことができる。この方法は、多モード・マークアップ言語文書をリモート・コンピューティング装置に送信するステップであって、多モード・マークアップ言語文書はリモート・コンピューティング装置によってレンダリングされると、ユーザにユーザ識別子を問い合わせ、ユーザの声の音声をウェブ・ベースの多モード・アプリケーションに送信させるステップを含むことができる。クライアント装置からユーザ識別子及び記録をほぼ同時に受信することができる。音声を、ユーザ識別子と関連する声紋と比較することができる。従って、比較するステップから獲得された結果に従って、オンライン・システムにアクセスするリモート・コンピューティング装置のユーザを選択的に許可することができる。

本発明の別の実施形態は、ユーザの同一性を検証するシステムを含むことができる。このシステムは、ユーザ識別子と各々関連する複数の声紋を含む声紋データベースを有する検証システムを含むことができる。このシステムは、多モード・マークアップ言語文書をクライアント装置に送信するように構成された多モード・アプリケーションをも含むことができる。多モード・マークアップ言語文書はランダム・スクリプトを指定することができ、多モード・マークアップ言語文書が実行されると、これによって、ユーザ識別子と、話者が声に出して読んでいるランダム・スクリプトのデジタル表現を備える音声とが多モード・アプリケーションに返信される。多モード・アプリケーションは、記録と、複数の声紋から選択され、ユーザ識別子と関連する声紋とを比較することによって話者の同一性を検証する検証システムにスクリプト、記録及びユーザ識別子を送信することができる。

本発明の他の実施形態は、本明細書で説明された様々なステップをマシンに実行させるようにプログラムされているマシン可読ストレージを含むことができる。

次に、ほんの一例として添付図面を参照して本発明の実施形態を説明する。

ウェブ・ベースの多モード・インターフェースを用いてユーザの同一性を検証する例示的な技術及びシステムを以下に説明する。音声識別技術を用いてユーザの同一性を検証することができる。ウェブ・ベースの多モード・アプリケーションから受信された多モード文書をユーザに表示することができる。多モード文書すなわち、ウェブ・ページ・タイプのインターフェースは、ユーザがユーザ識別子またはユーザ名（以降、ユーザＩＤ）及び音声サンプルを提供することをリクエストすることができる。ユーザＩＤ及び音声サンプルをウェブ・ベースの多モード・アプリケーションに返信することができる。音声サンプルに関してユーザＩＤを参照して音声検証を実行することができる。音声検証の結果に基づいて、オンライン・システムにアクセスすることをユーザに許可することができ、または、エントリを拒否することができる。

図１は、本明細書で開示された本発明の構成によるウェブ・ベースの多モード・インターフェースを用いてユーザ検証を実行するシステム１００を示す概略図である。図示のように、システム１００は、クライアント装置１０５と、多モード・アプリケーション１２０を含むサーバ１１０と、声紋データベース１３０を有する検証システム１２５とを含むことができる。

一実施形態では、クライアント装置１０５を、デスクトップ・コンピュータ、サーバなどのような様々なコンピューティング装置のいずれかとすることができる。別の実施形態では、コンピューティング装置１０５を、ラップトップ・コンピュータ、有線または無線のどちらにしてもインターネット通信用に構成された携帯情報端末（ＰＤＡ）、携帯電話などのような携帯用またはモバイルあるいは携帯用モバイル・コンピューティング装置とすることができる。いずれの場合でも、クライアント装置１０５は、リクエストをサーバ１１０に送信し、サーバ１１０から情報を受信する適切なソフトウェアを含むことができる。例えば、クライアント装置１０５は、多モード・マークアップ言語（ＭＭＬ）文書を含むマークアップ言語文書をレンダリングすることができる適切なブラウザを含むことができる。

ＭＭＬ文書は、ユーザ対話の視覚及び音声構成要素を指定することができる。従って、ＭＭＬ文書は任意のマークアップ言語ベース文書またはファイルを含むことができ、このマークアップ言語ベース文書またはファイルがレンダリングされると、これによって、ユーザは、グラフィカル・ユーザ・インターフェース（ＧＵＩ）のような視覚手段と、発話することによる音声手段とを介して入力を行うことができ、または、デュアル・トーン・マルチ周波数入力を行うことができる。このようなマークアップ言語の一例として、Ｘ＋Ｖマークアップ言語が挙げられる。Ｘ＋Ｖは、拡張可能ハイパーテキスト・マークアップ言語（ＸＨＴＭＬ）及び音声拡張可能マークアップ言語（ＶｏｉｃｅＸＭＬ）のサブセットを組み合わせる多モード・ウェブ・ページを作成する提案マークアップ言語である。

一般的に、ＸＨＴＭＬは、拡張可能マークアップ言語（ＸＭＬ）の規則に準拠するように調整されたＨＴＭＬ４．０のバージョンである。ＶｏｉｃｅＸＭＬは、ワールド・ワイド・ウェブ・コンソーシアム（Ｗ３Ｃ）を通じて開発されたＸＭＬベース言語である。ＶｏｉｃｅＸＭＬは、音声ベース・アプリケーションを構築する標準化フォーマットを提供する。ＸＨＴＭＬ及びＶｏｉｃｅＸＭＬ（Ｘ＋Ｖ）によって、ウェブ開発者は、音声入力及び出力を従来のグラフ・ベース・ウェブ・ページに追加することができる。

ＭＭＬの別の例は、音声アプリケーション言語タグ（ＳＡＬＴ）をＸＨＴＭＬ、ハイパーテキスト・マークアップ言語（ＨＴＭＬ）のようなホスト・マークアップ言語またはスケーラブル・ベクトル・グラフィックス（ＳＶＧ）に追加することに基づく。ＳＡＬＴは、視覚モード及び音声モードの両方のユーザ対話をサポートする多モード・ウェブ・ページを作成するのに用いることができる提案マークアップ言語である。ＳＡＬＴは、ＳＡＬＴフォーラムを通じて開発されたＸＭＬベース言語である。

サーバ１１０を、通信ネットワークを介してリクエストを処理し情報を提供することができる様々な情報処理システムのいずれか、例えばウェブ・サーバとすることができる。図示のように、サーバ１１０及びクライアント装置１０５は、インターネット、ローカル・エリア・ネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、モバイルまたはセルラ・ネットワーク、別の様々な通信ネットワーク、または、それらの任意の組み合わせのような通信ネットワーク１１５を介して通信することができる。

多モード・アプリケーション１２０はサーバ１１０内で実行することができる。従って、多モード・アプリケーション１２０はクライアント装置１０５からリクエスト及び情報を受信し、多モードの有無を問わず返信としてマークアップ言語文書のような情報を提供することができる。図には示されていないが、多モード・アプリケーション１２０は、テキスト‐音声（ＴＴＳ）、音声認識またはデュアル・トーン・マルチ周波数処理のいずれか１つまたは任意の組み合わせのような音声処理サービスを含むことができ、または、このような音声処理サービスにアクセスすることができる。これらのサービスをサーバ１１０内に位置付けることができ、または、多モード・アプリケーション１２０内に通信可能にリンクされた異なるコンピューティング・システム内に位置付けることができる。

検証システム１２５は、声紋データベース１３０に格納された声紋と、ユーザの声の記録とを比較することによってユーザの同一性を検証することができる。声紋データベース１３０は、検証システム１２５に登録されたユーザからの複数の異なる声紋を含むことができる。各声紋は、ユーザＩＤに対応または関連することができる。声の記録が受信されると、検証システム１２５は、声の記録を声紋データベース１３０内の声紋と比較して、一致が存在するかどうかを決定することができる。

動作中、クライアント装置１０５は、ＭＭＬ文書をリクエストしている多モード・アプリケーション１２０にリクエスト１３５を送信することができる。多モード・アプリケーション１２０は、ＭＭＬ文書１４０すなわち多モード・ウェブ・ページを送信することによって応答することができる。ＭＭＬ文書１４０をレンダリングすると、クライアント装置１０５は、ＭＭＬ文書の指示の下、ユーザからのユーザＩＤ及び音声サンプルをリクエストすることができる。一実施形態では、文書は、音声サンプルを提供するときにユーザによって読まれるスクリプトを提供することができる。特に、任意のプロンプトを、記録された音声またはＴＴＳのどちらにしても音声プロンプトとすることができ、または、クライアント装置１０５の表示画面に表示されるテキスト・プロンプトとすることができる。

例えば、ユーザがスクリプトを声に出して読むと、クライアント装置１０５はユーザの声のデジタル記録を行うことができる。ユーザＩＤ及びユーザの声の記録がクライアント装置１０５によって獲得された後、クライアント装置１０５は、ＭＭＬ文書１４０の指示の下、ユーザＩＤ及びユーザの声の記録の両方を多モード・アプリケーション１２０に送信することができる。記録１４５及びユーザＩＤ１５０をほぼ同時に送信することができる。多モード・アプリケーション１２０は、ユーザＩＤ１５０及び記録１４５を受信すると、その両方を処理のため検証システム１２５に提供することができる。検証システム１２５は、提供されたユーザＩＤ１５０を用いて声紋を声紋データベース１３０内に位置付けることができる。次に、検証システム１２５は声紋を記録１４５と比較して、記録１４５が声紋と一致するかどうかを決定することができる。記録１４５が声紋と一致する場合、ユーザが、銀行取引、予約などのためにウェブ・サイトのようなオンライン・システムにアクセスすることを許可することができる。記録１４５が声紋と一致しない場合、アクセスを拒否することができる。

別の実施形態では、音声をクライアント装置１０５に記録するのではなく、むしろ、データ接続を介してクライアント装置１０５から多モード・アプリケーション１２０にストリーミングする必要がある。ボイス・オーバーＩＰ（ＶｏＩＰ）として既知であるデータ・チャネルを介する音声をサポートする携帯電話のようなモバイル装置は、音声のストリーミングをサポートすることができる。音声がクライアント装置１０５からストリーミングされた場合、音声を多モード・アプリケーション１２０によって記録することができる。

図２は、本明細書で開示された本発明の構成によるユーザ検証の目的でユーザを登録する方法２００を示すフローチャートである。図１を参照して説明されたシステム、または別の適切なシステムによって方法２００を実行することができる。方法２００をステップ２０５で開始することができ、オンライン・システムにとって新しいユーザはウェブ・ベースの多モード・アプリケーションにアクセスすることができる。ユーザはクライアント装置を介してウェブ・ベースの多モード・アプリケーションにアクセスすることができる。

ステップ２１０では、ウェブ・ベースの多モード・アプリケーションは安全なＭＭＬ文書をクライアント装置のユーザに提供することができる。前述したように、ＭＭＬ文書は、ウェブ・ベースの多モード・インターフェースまたはウェブ・ページを指定することができる。例えば、ＭＭＬ文書は、ユーザＩＤと、電話番号、住所、電子メール・アドレスなどのような必要とされることがある他の個人情報とを受信するフィールドを指定することができる。更に、ＭＭＬ文書は登録スクリプトを指定することができる。登録スクリプトは、テキスト、番号、記号、文字などを含むことができる。

ステップ２１５では、クライアント装置はＭＭＬ文書をレンダリングすると、登録スクリプトを声に出して読むようにユーザにプロンプトを出すことができる。プロンプトを、テキスト・ベース、すなわち、ウェブ・ページに書かれた命令とすることができ、あるいは、ＴＴＳまたは、事前に記録された音声のどちらにしても音声プロンプトとすることができる。登録スクリプトをテキストとしてクライアント装置の表示画面に表示することができる。ステップ２２０では、ユーザは登録スクリプトを声に出して読む、すなわち、登録スクリプトを発話することができる。ステップ２２５では、クライアント装置は、ユーザが声に出して読んでいる登録スクリプトを記録し、ユーザによって提供されたユーザＩＤ及び他の任意の個人情報を獲得する。本発明の一実施形態によれば、ＭＭＬ文書内の記録命令は、ユーザの発話のデジタル記録を行うようにクライアント装置に指示することができる。例えば、Ｘ＋Ｖで書かれたＭＭＬ文書内では、レコード・タグを用いることができる。

ステップ２３０では、ユーザが登録スクリプトを声に出して読むことを終了すると、クライアント装置は、記録された音声を、サーバ上で実行している多モード・アプリケーションに転送することができる。記録された音声に加えて、ＭＭＬ文書のフィールドに入力された任意の情報、特にユーザＩＤをウェブ・ベースの多モード・アプリケーションに送信することができる。当然のことながら、ＭＭＬ文書のフィールドから獲得されたデータと、記録された音声とを同時に、または、ほぼ同時に送信することができる。ＭＭＬ文書が実行されたとき、このような情報がＭＭＬ文書によって指定されたので、クライアント装置はこのような情報を転送する。

前述したように、別の実施形態では、登録または検証あるいはその両方の音声をクライアント装置からウェブ・ベースの多モード・アプリケーションにストリーミングすることができる。このような実施形態では、ウェブ・ベースの多モード・アプリケーションによって音声を記録することができる。この場合、ＭＭＬ文書内のストリーミング命令は、ユーザの発話の音声をウェブ・ベースの多モード・アプリケーションにストリーミングするようにクライアント装置に指示することができる。

ステップ２３５では、ウェブ・ベースの多モード・アプリケーションは、音声と、クライアント装置でＭＭＬ文書に入力されたユーザＩＤのような他の任意の情報とを受信することができる。ステップ２４０では、ウェブ・ベースの多モード・アプリケーションは、ユーザＩＤ、音声及び登録スクリプトを検証システムに送信する。ステップ２４５では、検証システムは、ユーザに固有の声紋を音声及び登録スクリプトのテキストから生成することができる。結果として生成された声紋をユーザＩＤと関連付け、声紋データベース内に格納することができる。ユーザの登録が成功した後、ステップ２５０では、ウェブ・ベースの多モード・アプリケーションは安全なウェルカム・ページをユーザに送信し、これによって、ユーザは、サーバまたは別のサーバ内にある他の安全なページにアクセスすることができる。

図３は、本明細書で開示された本発明の構成によるユーザ検証を実行する方法３００を示すフローチャートである。図１を参照して説明されたシステム、または別の同等のシステムを用いて方法３００を実行することができる。ステップ３０５では、登録されたユーザは、クライアント装置を介してウェブ・ベースの多モード・アプリケーションにアクセスしてウェブ・ページをリクエストするか、または、別の方法でシステムにログインすることができる。ステップ３１０では、多モード・アプリケーションは、ＭＭＬ文書、この場合、安全なウェブ・ベースのログイン・ページを送信することができる。ステップ３１５では、ＭＭＬ文書をクライアント装置によってレンダリングすることができる。

安全なログイン・ページは、ユーザＩＤのようなユーザ入力を受信する１つ以上のフィールドを指定することができる。更に、安全なログイン・ページはスクリプトを指定することができる。スクリプトを、文字、番号または単語のいずれか１つまたは任意の組み合わせのランダム系列とすることができる。ウェブ・ベースの多モード・アプリケーションによって、例えば、単語、文字または番号のいずれか１つまたは任意の組み合わせをこのようなテキストの集合から選択することによってスクリプトをランダムに生成することができる。一実施形態では、スクリプトは、登録スクリプトからランダムに生成された任意の単語、文字または番号を含むことができる。

ランダムに生成されたスクリプトは、偽者が検証システムを騙そうとしないようにする。偽者が、登録されたユーザの発話の事前に記録された部分を再生しようとする場合、事前に記録された発話は、声紋の比較に用いられるための期待されたユーザの発話に一致しない。事前に記録されたユーザの発話は、ランダムに生成されたスクリプトに指定された単語と異なる単語を含む。従って、ユーザ検証は失敗する。このように、本発明の一実施形態によれば、偽者がシステムを騙すのに、事前に記録されたユーザの発話を用いることを阻止するため、音声検証に加えて音声認識を用いることができる。

ステップ３２０では、ユーザは、クライアント装置の表示部分にレンダリングされたＭＭＬ文書の適切なフィールドにユーザＩＤを入力することができる。ユーザは、発話、キーパッド入力、スタイラス入力などを用いてユーザＩＤを入力することができる。ユーザがユーザＩＤを入力する特定の方法は、本発明を限定するものではない。いずれの場合でも、クライアント装置内に一時的にユーザＩＤを格納することができる。

ステップ３２５では、クライアント装置の表示部分に表示されたスクリプトを声に出して読むようにユーザに指示することができる。ＴＴＳプロンプトまたは音声プロンプトを介して、あるいは、レンダリングされたＭＭＬ文書に表示されたテキスト命令によってユーザにプロンプトを出すことができる。ステップ３３０では、クライアント装置は、ユーザが声に出して読んでいるスクリプトのデジタル記録を行うことができる。一実施形態では、デジタル記録をＰＣＭデータとして格納することができる。しかし、当然のことながら、音声がデータ接続を介してウェブ・ベースの多モード・アプリケーションにストリーミングされる場合に用いることができるＡＤＰＣＭ、ＭＰ３、ＡＡＣまたは圧縮ＤＳＲのような様々な異なるデジタル音声フォーマットのいずれをも用いることができるので、特定フォーマットのデジタル音声ファイルは本発明を限定するものではない。

ステップ３３５では、ユーザが発話を終了すると、クライアント装置はスクリプト及びユーザＩＤをウェブ・ベースの多モード・アプリケーションに送信することができる。完全な記録または、ストリーミングされた音声のどちらにしてもユーザＩＤ及び音声すなわち検証音声をクライアントからほぼ同時に送信し、ウェブ・ベースの多モード・アプリケーションによってほぼ同時に受信することができる。ステップ３４０では、ウェブ・ベースの多モード・アプリケーションは、音声及びユーザＩＤを受信することができる。ステップ３４５では、ウェブ・ベースの多モード・アプリケーションは音声、スクリプト及びユーザＩＤを検証システムに転送することができる。

ステップ３５０では、検証システムは、参照としてユーザＩＤを用いてユーザの声紋を位置付けるか、または、声紋データベースから取り出す。ステップ３５５では、検証システムは、音声と、ユーザＩＤに一致する声紋とを比較して、音声が声紋と一致するかどうかを決定することができる。音声が声紋と一致する場合、方法はステップ３６０に進むことができ、従来の視覚的ウェブ・ページまたは多モード・ウェブ・ページとすることができる安全なウェルカム・ページをウェブ・ベースの多モード・アプリケーションからユーザ装置のユーザに提供することができる。サイト及び他の安全なウェブ・ページにアクセスすることを、検証されたユーザに許可することができる。記録された音声が声紋に一致しない場合、ステップ３６５では、ユーザはウェブ・ベースの多モード・アプリケーションによってアクセスを拒否される。

本発明は、ウェブ・ベースの多モード・インターフェースを用いてユーザの同一性を検証するための解決策を提供する。本発明によれば、話者検証システムは、話者の声の物理特性に基づいて話者の同一性を検証する。多モード・インターフェースを介してユーザは登録するだけでなく、その後、検証システムによってユーザを検証することができる。ユーザがテキストの長い一節を記憶にとどめる必要がないように登録スクリプトがユーザに視覚的テキストとして表示されるという点で登録は容易になる。

話者検証部分は、多モード・アプリケーションによって提供されたランダム・スクリプトをユーザに話すよう要求する。ランダム・スクリプトは、偽者が検証システムを騙そうとして、別のユーザの発話の事前に記録された部分を再生しようとすることを阻止する。ランダムに生成されたスクリプトによって指定されるので、事前に記録された発話は、期待されたユーザの発話に一致しなくなる。ユーザの同一性を検証するのに用いられるスクリプトを、登録スクリプトに類似して視覚的にも表示することができる。視覚的パスワード及び音声検証を同時に要求することができるので、ただ１つの形態を用いる場合よりも、多モード・インターフェースを用いる検証を安全にすることができる。

ハードウェア、ソフトウェア、または、ハードウェア及びソフトウェアの組み合わせで本発明を実現することができる。集中的に１つのコンピュータ・システム内に、または、異なる要素が幾つかの相互接続されたコンピュータ・システムにわたって散在するように分散的に本発明を実現することができる。本明細書で説明された方法を行うように適合されたいかなる種類のコンピュータ・システムまたは他の装置も適する。ハードウェア及びソフトウェアの一般的な組み合わせを、コンピュータ・プログラムを有する汎用コンピュータ・システムとすることができ、コンピュータ・プログラムがロードされ実行されると、本明細書で説明された方法をコンピュータ・システムが行うようにコンピュータ・システムを制御する。

また、本明細書で説明された方法の実施を可能にするすべての特徴を備えるコンピュータ・プログラム製品に本発明を統合することができ、コンピュータ・プログラム製品がコンピュータ・システムにロードされると、これらの方法を行うことができる。本明細書では、コンピュータ・プログラム、ソフトウェア・アプリケーションまたはこれらの用語の他の変形のいずれか１つまたは任意の組み合わせは、情報処理能力を有するシステムに特定の機能を直接に実行させるか、あるいは、ａ）別の言語、コードまたは表記への変換と、ｂ）異なる形態での再生との両方またはいずれか一方の後で実行させることを目的とする一連の命令のあらゆる言語、コードまたは表記のいかなる表現をも意味する。

本発明の意図または本質的な特性から逸脱することなく本発明を他の形式で統合することができる。従って、本発明の範囲を示すため、本明細書というよりも特許請求の範囲を参照すべきである。

本明細書で開示された本発明の構成によるウェブ・ベースの多モード・インターフェースを用いてユーザ検証を実行するシステムを示す概略図である。本明細書で開示された本発明の構成によるユーザ検証の目的でユーザを登録する方法を示すフローチャートである。本明細書で開示された本発明の構成によるユーザ検証を実行する方法を示すフローチャートである。

Claims

ウェブ・ベースの多モード・インターフェースを用いてユーザの同一性を検証する方法であって、
リモート・コンピューティング装置から、多モード・マークアップ言語文書のリクエストを受信するステップと、
多モード・マークアップ言語文書をリモート・コンピューティング装置に送信するステップであって、前記多モード・マークアップ言語文書は、前記リモート・コンピューティング装置によってレンダリングされると、前記ユーザによって声に出して読まれるスクリプトを指定して、ユーザにユーザ識別子及び前記ユーザの声の音声を問い合わせるステップと、
前記ユーザ識別子及び前記音声を、前記多モード・マークアップ言語文書の制御の基で、ウェブ・ベースの多モード・アプリケーションで受信するステップと、
前記音声を、前記ユーザ識別子と関連する声紋と比較するステップと、
前記比較するステップから獲得された結果に従って、オンライン・システムにアクセスする前記リモート・コンピューティング装置の前記ユーザを選択的に許可するステップと、
を含む方法。
前記多モード・マークアップ言語文書は、前記音声をストリーミングする命令を含み、前記多モード・マークアップ言語文書をレンダリングし、前記音声をストリーミングする前記命令を解釈することに応答して、前記リモート・コンピューティング装置は前記音声を前記ウェブ・ベースの多モード・アプリケーションにストリーミングするステップを更に含む、請求項１に記載の方法。
前記多モード・マークアップ言語文書は、前記音声を記録する命令を含み、前記多モード・マークアップ言語文書をレンダリングし前記記録する命令を解釈することに応答して、前記リモート・コンピューティング装置は前記ユーザの声のデジタル記録を行うステップを更に含む、請求項１又は２に記載の方法。
前記スクリプトは、ランダムに生成されたテキストを少なくとも部分的に備える、請求項１に記載の方法。
前記音声は、前記ユーザが声に出して読んでいる前記スクリプトのデジタル表現である、請求項１に記載の方法。
前記比較するステップは、前記ウェブ・ベースの多モード・アプリケーションが最初に前記音声、前記スクリプト及び前記ユーザ識別子を検証システムに送信するステップを更に含む、請求項５に記載の方法。
最初に、登録スクリプトを指定する多モード・マークアップ言語文書を前記リモート・コンピューティング装置に送信するステップと、
前記ユーザ識別子と、前記ユーザが発話する前記登録スクリプトのデジタル表現を備える音声とを受信するステップと、
前記ユーザが前記登録スクリプトを発話する前記音声からの声紋を決定し、前記声紋を前記ユーザ識別子と関連付けることによって前記ユーザをオンライン・システムに登録するステップと
を更に含む、請求項１ないし６のうちいずれか１項に記載の方法。
ユーザの同一性を検証するシステムであって、前記システムは、
ユーザ識別子と各々関連する複数の声紋を含む声紋データベースを有する検証システムと、
多モード・マークアップ言語文書のリクエストをクライアント装置から受信し、多モード・マークアップ言語文書を前記クライアントに送信するように構成された多モード・アプリケーションであって、前記多モード・マークアップ言語文書は、前記ユーザによって声に出して読まれるスクリプトを指定し、前記クライアント装置によってレンダリングされると、これによって、ユーザ識別子と、音声とが前記多モード・アプリケーションに返信され、前記音声及び前記ユーザ識別子は、前記多モード・マークアップ言語文書の制御の基で、前記クライアント装置から前記多モード・アプリケーションに送信される、多モード・アプリケーションとを備え、
前記多モード・アプリケーションは、前記音声を、前記ユーザ識別子と関連する声紋と比較することによって話者の同一性を検証する前記検証システムに前記音声及び前記ユーザ識別子を送信するように動作するシステム。
前記スクリプトは、ランダムに生成されたテキストを少なくとも一部に備える、請求項８記載のシステム。
前記比較することは、前記ウェブ・ベースの多モード・アプリケーションが最初に前記音声、前記スクリプト及び前記ユーザ識別子を検証システムに送信することを更に含む、請求項８に記載のシステム。
前記多モード・マークアップ言語文書は、前記音声を記録する命令を含み、これによって、前記多モード・マークアップ言語文書をレンダリングし前記記録する命令を解釈することに応答して、前記クライアント装置は、前記スクリプトを声に出して読む前記話者を記録する、請求項８ないし１０のうちいずれか１項に記載のシステム。
前記多モード・マークアップ言語文書は、前記音声をストリーミングする命令を含み、前記多モード・マークアップ言語文書をレンダリングし、前記音声をストリーミングする前記命令を解釈することに応答して、前記リモート・コンピューティング装置は前記音声を前記多モード・アプリケーションにストリーミングすることを更に含む、請求項８ないし１０のうちいずれか１項に記載のシステム。
請求項１ないし７のいずれか一項に記載の方法をコンピュータに実行させるコンピュータ・プログラム。