JP2018527609A

JP2018527609A - ユーザ声紋モデルを構築するための方法、装置、及びシステム

Info

Publication number: JP2018527609A
Application number: JP2018503211A
Authority: JP
Inventors: リン，チン
Original assignee: アリババグループホウルディングリミテッド
Priority date: 2015-07-23
Filing date: 2016-07-14
Publication date: 2018-09-20
Anticipated expiration: 2036-07-14
Also published as: PL3327720T3; EP3327720B1; US20200321010A1; JP6859522B2; US11043223B2; SG11201800297WA; ES2880006T3; KR20180034507A; EP3327720A4; CN106373575A; US10714094B2; WO2017012496A1; CN106373575B; EP3327720A1; KR102250460B1; US20180137865A1

Abstract

本願は、ユーザ声紋モデルを構築するための方法、装置、及びシステムを提供する。ユーザ声紋モデルを構築するための方法は、ユーザによって入力される音声情報を受信するステップと、モデリング要件を満たすプリセットキーワードが前記音声情報に保持されているかどうかを判断するステップと、前記判断結果が肯定である場合、前記音声情報から、モデリング要件を満たす前記プリセットキーワードに対応する音声分節を取り込むステップと、前記音声分節を用いることによって前記ユーザのための声紋モデルを構築するステップとを含む。本願が提供する技術的解決策がユーザの音声を受信できる任意の適用シナリオにおいて適用される場合、ユーザ声紋モデルの構築は自動的に完了でき、それにより、ユーザによる使用が容易になる。
【選択図】図１

Description

本願は、２０１５年７月２３日出願、発明の名称「ユーザ声紋モデルを構築するための方法、装置、及びシステム」である中国特許出願第２０１５１０４３８３８２．０号に対する優先権を主張し、その全てを本明細書中に引用し、組み込む。

本願は、コンピュータアプリケーション技術の分野に関し、特には、ユーザ声紋モデルを構築するための方法、装置、及びシステムに関する。

声紋は生体特徴の一つである。声紋認識は、話者の発声上の特性（anthropophonic features）及び行動上の特性（behavioral features）により話者の身元を自動的に認識するための生体認識方法である。声紋認識がもたらす安全性は、他の生体認識技術（指紋及び虹彩等）による安全性と同じ程度であるが、そこで必要とされるのは、音声収集装置を実装する特別な装置ではなくて、電話／携帯電話又はマイクだけに過ぎない。声紋認識方法は、話し言葉、方言、アクセントとは無関係であり、プライバシ問題に何ら関与せず、広く応用されている。音響信号は遠隔での伝送及び取得にとって都合が良く、声紋認識方法は、電気通信及びネットワークに基づく身元認識用途において特に有利である。

声紋認識は主に２つの段階を含む。第１の段階は登録段階であり、ユーザが事前に一分節の音声をシステムに記録する必要がある。システムは、登録された音声から抽出された声紋特徴を用いて、ユーザのための声紋モデルを構築する。第２の段階は適用段階であり、ユーザがシステムのプロンプト（入力促進手引）に従って、指定された音声分節を声に出す。システムはユーザの音声を自動的に記録し、声紋特徴を抽出し、この新たに抽出された声紋特徴と予め構築された声紋モデルとに対して照合作業を行ってから、両方の一致度合いに従って現ユーザの身元を認識する。

コンピュータ及びインターネット技術の発展にともなって、声紋認識は、例えば、スマート端末アプリケーション、自動電話サービスシステム等、人々の日常生活へ次第に浸透してきている。先に述べた登録は声紋認識プロセス全体において不可欠なステップであることが、上述の記載から知ることができる。しかし、登録ステップはユーザにとってやや不便である。特に、中年及び高齢者など、新技術に対する感受性に欠ける特定のグループにとっては不便であり、声紋を首尾良く登録できるかどうかという問題さえある。さらに場合により、システムの安全性又は堅牢性を高めるために、登録中にユーザは多くの音声分節を記録するよう要求される可能性があり、これによりユーザは利用するのがますます難しくなってしまう。

本願は、声紋認識システムを利用するうえでの難しさを減らすようにユーザ声紋モデルを構築するための方法、装置、及びシステムを提供する。技術的解決策は以下の通りである。

本願は、ユーザによって入力される音声情報を受信するステップと、モデリング要件を満たすプリセットキーワードが前記音声情報に保持されているかどうかを判断するステップと、前記判断結果が肯定である場合、前記音声情報から、モデリング要件を満たす前記プリセットキーワードに対応する音声分節を取り込むステップと、前記音声分節を用いることによって前記ユーザのための声紋モデルを構築するステップとを含む、ユーザ声紋モデルを構築するための方法を提供する。

本願は、ユーザによって入力される音声情報を受信するステップと、検証要件を満たすプリセットキーワードが前記音声情報に保持されているかどうかを判断するステップと、前記判断結果が肯定である場合、前記音声情報から、検証要件を満たす前記プリセットキーワードに対応する音声分節を取り込むステップと、前記音声分節の声紋特徴を抽出するステップと、前記ユーザの前記声紋特徴と予め構築された声紋モデルとを用いることによって前記ユーザの前記身元を検証するステップとを含む、声紋に基づくユーザ身元検証方法を提供する。

本願は、ユーザによって入力される音声情報を受信するよう構成された音声情報受信モジュールと、モデリング要件を満たすプリセットキーワードが前記音声情報に保持されているかどうかを判断するよう構成されたモデリングキーワード判断モジュールと、前記判断結果が肯定である場合、前記音声情報から、モデリング要件を満たす前記プリセットキーワードに対応する音声分節を取り込むよう構成された音声分節取込モジュールと、前記音声分節を用いることによって前記ユーザのための声紋モデルを構築するよう構成された声紋モデル構築モジュールとを含む、ユーザ声紋モデルを構築するための装置を提供する。

本願は、ユーザによって入力される音声情報を受信するよう構成された音声情報受信モジュールと、検証要件を満たすプリセットキーワードが前記音声情報に保持されているかどうかを判断するよう構成された検証キーワード判断モジュールと、前記判断結果が肯定である場合、前記音声情報から、検証要件を満たす前記プリセットキーワードに対応する音声分節を取り込むよう構成された音声分節取込モジュールと、前記音声分節の声紋特徴を抽出するよう構成された声紋特徴抽出モジュールと、前記ユーザの前記声紋特徴及び予め構築された声紋モデルを用いることによって前記ユーザの前記身元を検証するよう構成された検証モジュールとを含む、声紋に基づくユーザ身元検証装置を提供する。

本願は、声紋に基づくユーザ身元検証システムを提供し、前記システムはユーザ声紋モデルを構築するための前記装置と上記の前記ユーザ身元検証装置とを含む。

本願の実施の形態によって提供される、ユーザ声紋モデルを構築するための方法を適用することによって、理論的には、ユーザの音声を受信できる任意の適用シナリオにおいて、ユーザ声紋モデルを自動的に構築できる。本明細書において、音声情報の受信は、他の機能を実施するために必要な、ユーザによる操作であってもよく、声紋情報を登録する操作を意図的に行う必要はない。したがって、ユーザにとり、その使用は容易である。

それに対応して、身元検証が必要な適用シナリオにおいてユーザの音声情報を取得でき、音声情報がキーワード（このキーワードに基づき、先に、声紋モデルが構築されている）を含んで搬送する場合、身元検証は、声紋を用いることによって自動的に実行されてもよく、それにより他の検証方法の複雑な操作をなくすことができる。その上、ユーザは、検証プロセスで検証パスワードを意図的に発声する必要もない。

上記の概要の説明及び下記の詳細な説明は単なる例示の説明であり、本願を制限するものではないことを理解すべきである。

本願の実施の形態における技術的解決策又は従来技術をより明確に説明するため、実施の形態又は従来技術の説明に必要な添付の図面を、以下、簡単に説明する。明らかに、以下で説明する添付の図面は、本願で記す単なるいくつかの実施の形態に過ぎず、当業者はこれらの添付の図面から他の図面を更に導き出すことができる。

図１は、本願によるユーザ声紋モデルを構築するための方法の概略フロー図である。図２は、本願によるユーザ身元検証方法の概略フロー図である。図３は、本願によるユーザ声紋モデルを構築するための装置の構造の略図である。図４は、本願によるユーザ身元検証装置の構造の略図である。図５は、本願によるユーザ身元検証システムの構造の略図である。

音声は人間同士のコミュニケーションにとって重要な搬送担体（キャリア）である。音声認識等の技術が急速に発達するにつれて、すでにユーザは、音声入力及び音声制御等の多くのシナリオにおいて、音声を介してコンピュータと対話できるようになった。言い換えれば、コンピュータの観点からすれば、ユーザ音声情報を収集する多くの機会があるということである。その上、ユーザの音声情報はユーザの電話メッセージ及びリアルタイム通話記録から収集できる。かかる実態に基づいて、本願は、ユーザが何らの追加登録操作を増やすことなく、ユーザの音声を収集できる任意のシナリオにおけるユーザの声紋モデリングを実施可能な解決策を提供し、よって声紋登録操作が複雑であった従来技術における問題を解決する。

声紋認識には、テキスト依存型声紋認識及びテキスト非依存型声紋認識がある。テキスト依存型声紋認識システムは、登録中に、指定された内容に従って発音するようユーザに要求する。各ユーザの声紋モデルは正確に設定される。その上、ユーザは、認識中にも、指定された内容に従って発音しなければならない。全てのユーザの声紋モデルは「標準」であるので望ましい認識効果を達成できる。しかし、システムはユーザの協力を必要とし、ユーザの発音が指定された内容に準じていなければ、ユーザは正しく認識されることはない。理論的には、テキスト非依存型声紋認識システムは話者の発音した内容を特定しなくてもよい。しかし、モデルの設定は比較的難しく、理想的な認識効果を実際の適用中に達成することができない。

認証効果を保証するため、本願において提供される解決策は「テキスト依存型」声紋認識技術に対して提案され、その解決すべき課題は、ユーザに対して追加の操作を課さずに、どのようにして、ユーザが「指定された内容」を発声できるようにするかである。

この解決策の実施中、発明者は、特定の適用シナリオにおいて、ユーザはその適用シナリオに関するキーワードを発声する可能性が極めて高いことを見出した。例えば、ユーザが音声（例えば、電話又は音声メッセージ等の方法で）で製品照会をする場合、ユーザは、名称、モデル、機能、部品、及び標準的な不具合等の製品のキーワードのうちの１つ以上をほぼ必然的に発声する可能性がある。ユーザが音声制御操作を行う場合は、予め多くの音声制御命令も定義されており、類似する様々なシナリオがある。かかる実態に基づいて、声紋認識が適用される異なるシナリオに対して、これらのシナリオにおいて高頻度で現れる１つ以上のキーワードに関して事前に統計処理がなされてもよく、高頻度の用語は「指定された内容」として定義される。こうして、ユーザが音声対話中にこれらのキーワードを一旦発声すると、システムはユーザの声紋モデリングを実施してもよい。

当業者が本願における技術的解決策を良く理解できるように、本願の実施の形態における技術的解決策を、本願の実施の形態における添付の図面を介して詳細に説明する。明らかに、説明する実施の形態は、単に本願の実施の形態の一部に過ぎず、実施の形態の全てではない。本願の実施の形態に基づいて、当業者によって得られる他の実施の形態は全て本願の保護適用範囲に含まれる。

図１は、本願によるユーザ声紋モデルを構築するための方法のフロー図を示し、この方法は以下のステップを含むことができる。
ステップＳ１０１：ユーザによって入力される音声情報を受信する；
ステップＳ１０２：モデリング要件を満たすプリセットキーワードが音声情報に含まれて搬送されているかどうかを判断する；
ステップＳ１０３：判断結果が肯定である場合、モデリング要件を満たすプリセットキーワードに対応する音声分節を、音声情報から取り込む；そして、
ステップＳ１０４：ユーザの声紋モデルを、音声分節を用いて構築する。

上記の解決策を更に以下で詳細に示す。
理論的には、本願の解決策は、音声入力、音声制御、及び電話メッセージ等のユーザの音声を収集できる何れのシナリオにも実施できる。明らかではあるが、実際の適用中に、以下の要因を更に考慮する必要がある。すなわち、シナリオは声紋認識要件を有するかどうか、現在話しているユーザの身元を判断できるかどうか、ユーザの音声の長さ（計算の複雑さに関わる）、キーワードを含んで搬送する音声分節を効果的に収集できるかどうか（収集効率に関わる）等。

典型的な適用シナリオは、例えば、自動音声応答（ＩＶＲ）システムにおける「１文が１つの問題を記述する」である。このシステムは、発信者ＩＤに従って、又は、ユーザが手動で入力した検証情報によって、又は他の方法で、ユーザの身元を確認できる。「１文」の音声長さは後続の処理に向いている。その上、ユーザは、多くの特定のサービスシナリオにおいて、大抵はいくつかのキーワードを声に出す。例えば、オンライン取引シナリオで関与する可能性のあるキーワードには、注文、受領、納品、金額等が含まれる。銀行及び支払等のシナリオで関与する可能性のあるキーワードには、振込、残高、口座、パスワード等が含まれる。

加えて、ユーザがパーソナル端末を使う場合、オペレーティングシステム層又は様々な特定のアプリケーション層のどちらか一方で用いる様々な音声制御命令をすべて使って、声紋モデリング中に音声情報を収集してもよい。最初に、ユーザは、個人所有の端末を用いる場合、様々な検証操作を行ってもよい。例えば、ユーザが携帯電話のロックを解除するとき又はいくつかの特定のアプリケーションを開始するとき、ユーザに、ジェスチャ（意思表示）又は数字パスワードの入力を要求し、そうすることによって、最初に、ユーザの本人確認の要件を満たすようにしてもよい。加えて、オペレーティングシステム又は特定のアプリケーションのどちらか一方が用いる音声制御命令はそれ程長くなく、それらの多くは予め定義されてもいる。例えば、Ａｎｄｒｏｉｄ携帯電話における音声対話機能は、音声命令「オーケー、グーグル」又は「オーケー、グーグル、ナウ」を用いて起動される。これらのキーワードを、全て、ユーザ声紋モデリングの実施に用いてもよい。

計算の複雑さに関する要件がそれ程高くない場合、手動応答プラットフォームへ実際にアクセスしたユーザ呼出しが記録されてもよく、ユーザの音声及び手動応答プラットフォームの音声は、ユーザの音声部分だけが後続の各ステップで解析されるように、音響特徴に従って区別される。このように、キーワードを含んで搬送する音声分節は、ユーザの長じ時間にわたる呼出し全体から、より効果的に収集できる。

明らかに、上記の適用シナリオはいずれも単なる例示のために用いられ、本願の解決策に対する制限として理解すべきではない。

ステップＳ１０１によれば、ユーザの音声情報は任意の適用シナリオにおいて受信できる。明らかに、最終的な要件は、声紋モデリングを実施することであるため、最初に別の方法（ユーザＩＤ、検証パスワード、ジェスチャ、指紋等の）で現在の話者の身元を確認する必要がある。

ステップＳ１０２において、モデリング要件を満たすプリセットキーワードが音声情報内に含まれて搬送されているかどうかを判断する。ここで、１つ以上のキーワードを実際の要件に従って予め設定してもよい。複数のキーワードを予め設定しておくことは以下の点で有利である。すなわち、一方では、モデリングが成功する可能性が高まる、すなわち、複数のキーワードのうちの少なくとも１つをユーザが声に出しさえすれば声紋モデリングを実施することができる、また他方では、いくつかの適用シナリオにおいて、高い安全性要件を有すると共に、検証のために複数の声紋分節を用いることが要求されてもよい。

このステップでは、プリセットキーワードが音声情報に含まれて搬送されているかどうかを、音声認識関連技術を用いて判断する必要がある。音声認識システムのモデルは、一般に、音声から音節への確率の計算及び音節から単語への確率の計算にそれぞれ対応する音響モデル及び言語モデルを含む２つの部分を含む。本願の解決策の実際の要件に従って、音声情報に関する認識は、以下の２つの観点から実施されてもよい。

ａ）音響特徴を用いる：
人間の言語は全て一連の連続した音節から成り、連続する音情報は音節ストリームと称される。音響学の観点から、音節ストリームは独立したいくつかの音節に分割されてもよい。加えて、各発音音節はその固定音響特徴を有する。音声認識技術は、２つの態様に基づく音響モデルを確立し、斯くして、音節ストリーム上の単語分割を実施する。しかし、本願において、その技術を直接的に利用してユーザ音声情報に関する認識を実施してもよく、特定の解決策は以下のステップを含む。
音響モデルを用いることによって音声情報を分割して少なくとも１つの音声分節を取得するステップ；及び、
取得した音声分節又はそれらの組み合わせがモデリング要件を満たすプリセットキーワードの音響特徴に一致するかどうかを判断し、肯定の場合、モデリング要件を満たすプリセットキーワードが音声情報に含まれて搬送されていると判断するステップ。

例えば、プリセットキーワードには、振込、残高、口座、及びパスワードが含まれており、システムはこれら４つのキーワードの音響データ又は音響特徴データを予め格納しておく必要がある。受信したユーザの音声が「残高照会」であった場合、いくつかの音声分節（特定の分割結果は、異なる分割アルゴリズムに従って異なっていてもよいが、ここでは検討しない）が、音響モデルにより分割することによって最初に取得されてもよく、これらの分節又は分節の組み合わせが「残高」の音響特徴と一致する部分を含んでいることが比較時に認識される。したがって、モデリング要件を満たすキーワードが音声情報に含まれて搬送されていると判断できる。

ｂ）言語特徴を用いる：
テキスト単語分割は自然言語処理技術の分野に属する。純粋な音響学レベルでの単語分割と比較して、テキスト単語分割技術はより成熟しており、より良好な実際の効果がある。加えて、同じ発音は多数の種類のテキストに対応してもよく、そのため、マッチングの間にテキストの内容を直接比較することによってよりよい効果を達成できることが分かる。本願において、ユーザ音声情報の認識は、音声認識技術とテキスト単語分割技術と組み合わせを直接用いることによって実施されてもよい。特定の解決策は以下のステップを含む。
音声情報に関する音声認識を行って対応するテキスト情報を取得するステップ；
言語モデルを用いることによってテキスト情報を分割して少なくとも１つのテキスト分節を取得するステップ；及び、
取得したテキスト分節又はそれらの組み合わせがモデリング要件を満たすプリセットキーワードのテキスト内容と一致するかどうかを判断し、肯定の場合、モデリング要件を満たすプリセットキーワードが音声情報に含まれて搬送されていると判断するステップ。

上記の２つの解決策によれば、当業者は実際の要件に従って柔軟に選択することができる。例えば、異なる言語の特性に従って、西洋言語（英語及び仏語等）の各単語は比較的完全な意味を有するが、中国語の各文字はこの特性を有していない。したがって、音響特徴を単に利用する処理方法は現在のところ西洋言語を処理する方が適している。中国語は、言語内の特徴に関して処理されることが推奨される。明らかに、本願は音声認識アルゴリズム又は単語分割アルゴリズムに集中せず、それが対応する要件を満たす限り、任意の技術的手段を本願に適用することができることに留意されたい。

モデリング要件を満たすプリセットキーワードが音声情報に含まれて搬送されていることがステップＳ１０２で確認された場合、対応する音声分節は、更にステップＳ１０３において音声情報から取り込まれる。判断がステップＳ１０２において音声分節に基づいてなされた場合、音声分節は音声分節のマッチング結果に従って直接取り込まれる。判断がステップＳ１０２においてテキスト分節に基づいてなされた場合、音声分節は、テキスト分節のマッチング結果から逆に推定することによって取得される対応する音声分節の位置に従って取り込まれる。例えば、ユーザが「口座の残高を照会したい」と話すと、ここで「口座」又は「残高」がモデリング要件を満たすプリセットキーワードである。音声情報全体における２つの単語の相対位置は、ステップＳ１０２の処理手続に従って判断することができ、続いて２つの単語「口座」及び「残高」の音響分節が取り込まれる。

ステップＳ１０４では、声紋モデリングが、ステップＳ０１３で取り込まれる音響分節を用いることによって行われる。特定のモデリング方法は本願とは関連がなく、ここで詳細に説明しない。最終的に、モデリング結果はステップＳ１０１において判断された話者身元識別子に関連して格納されて、ユーザの声紋モデルライブラリを形成する。

上記の方法を適用することにより、ユーザが他の音声機能を用いる場合、声紋モデリングが「付随的に」なされてもよく、ユーザによる使用が容易になる。その上、「キーワード」を用いることにより、「テキスト依存」のモデリング要件を満たすこと、及び高いモデリング成功率を保証することの両方が可能になる。
加えて、上記の方法は、更に、初回の声紋情報登録への適用に加え、声紋モデルの更新にも適用できる。特定の更新ストラテジは、以下の２つの観点から考慮することができる。

１）モデルの改良：
声紋モデルを構築する上記の手順は多数のデフォルトキーワードをサポートしており、ユーザは音声対話中に必ずしも全てのキーワードを話せるとは限らない。しかし、ユーザの音声対話は普通の行動であるので、声紋モデルの構築を初回に完了した後、ユーザの音声情報は、ユーザとの対話の後続の手順において再度収集することができる。新規に収集された音声情報が以前のモデルに含まれていないキーワードを含んでいた場合、新しいキーワードを利用して既存の声紋モデルを補完してもよい。

具体的には、特定のユーザに対し、ユーザの声紋モデルが現時点で存在すると仮定し、ステップＳ１０２において、「モデリング要件を満たすプリセットキーワード」は更に「ユーザの現在の声紋モデルに含まれていないプリセットキーワード」として定義されてもよい。

例えば、システムによって指定されるキーワードには、「振込」、「残高」、「口座」、及び「パスワード」が含まれている。ユーザＸが初回に声紋情報を登録する場合、２つのキーワード、「口座」及び「残高」、に対する声紋モデルがそれぞれのユーザに対して確立されている。その後、ユーザＸの音声情報「口座のパスワードを変更したい」が更に収集される。ステップＳ１０２によれば、「口座」及び「パスワード」の両方はプリセットキーワードに属すると判断でき、ここで「パスワード」はユーザＸの現在の声紋モデルに含まれていないプリセットキーワードである。したがって、声紋モデリングはその後「パスワード」を用いて行われ、モデリング結果は、ユーザＸの声紋モデルライブラリに追加される。

この方法を適用することによって、ユーザの声紋モデルを常に改良し、様々な特殊要件を満たすようにしてもよい。その上、システムが、セキュリティ性能についてより高い要件を有する場合、ユーザの声紋モデルに含まれるキーワードの数は、キーワード適用前のある特定の数よりも多くなければならないことを指定してもよい。音声情報収集を１回行っただけでは、ユーザの声紋モデリングを実施できない場合、ユーザの音声情報を複数回収集することによってユーザの声紋モデリングを完了するよう、この実施の形態の方法を採用してもよい。

２）モデルの訓練：
生体認識技術と機械学習技術は密接に関係している。多くの適用シナリオにおいて、モデルは、一般に、サンプルを複数回収集することによって訓練され、それによって、認識の精度及び失敗の許容範囲等の多くの態様における性能を高めている。本願の解決策のために、声紋モデルの訓練は、同じキーワードに対する同じユーザの音声情報を複数回収集することによって行ってもよい。

ここでの要件は、１）の要件とは逆であることが見て取れる。具体的には、同じキーワードに対する声紋サンプルの複数回の収集を実施するため、ステップＳ１０２において、「モデリング要件を満たすプリセットキーワード」は更に「ユーザの現在の声紋モデル内に含まれているプリセットキーワード」として定義されるべきである。

例えば、システムによって指定されるキーワードには、「振込」、「残高」、「口座」、及び「パスワード」が含まれる。ユーザＸが初回に声紋情報を登録するとき、２つのキーワード、「口座」及び「残高」に対して声紋モデルがそれぞれのユーザのために確立されている。後続の音声情報収集工程において、２つのキーワードの声紋モデルが常に訓練されるように、２つのキーワード、「口座」及び「残高」に対してのみ注意が払われてもよい。

実際の適用において、いくつかの制限条件が、ユーザの音声情報を無限に収集することを防ぐよう設定されてもよい。例えば、１つのキーワードに対して収集される声紋サンプルの数が閾値に達すると、声紋サンプルはそのキーワードに対してその後全く収集されない。

更に、特定の適用要件と選択された訓練アルゴリズムとに従って、複数回収集されたサンプルは、本願において限定されることのない平均化及び同時保持等の方法を用いて処理されてもよい。

上記２つの更新ストラテジは、独立に実施しても、組み合わせて実施してもよい。実際には、マクロ的な観点から、２つの機能の実施は、「モデリング要件を満たすプリセットキーワード」が定義されていないとしても、影響を受けない。言い換えれば、ステップＳ１０２が実行される度に、この音声情報に含まれて搬送される全てのキーワードは、可能な限り多く取得される。新しい声紋モデルが、以前のモデルに含まれていないキーワードに対して確立され、以前のモデルに含まれているキーワードは、以前のモデルを訓練するために用いられる。その上、上記２つの機能のうちの一方を選択して実施してもよい。本願の解決策を適用することにより、ユーザに対して何ら問題を生じることなく、学習が可能になる。かように、ユーザの声紋モデルは、徐々に完成させることが重要である。

本願によって提供されるユーザ声紋モデルを構築するための方法について上で述べた。同様の概念に基づいて、本願は更に声紋に基づくユーザ身元検証方法を提供する。図２を参照すると、この方法は以下のステップを含んでも良い。
ステップＳ２０１：ユーザによって入力された音声情報を受信する。
ステップＳ２０２：検証要件を満たすプリセットキーワードが音声情報に含まれて搬送されているかどうかを判断する。
ステップＳ２０３：判断結果が肯定である場合、検証要件を満たすプリセットキーワードに対応する音声分節を音声情報から取り込む。
ステップＳ２０４：音声分節の声紋特徴を抽出する。
ステップＳ２０５：ユーザの身元を、ユーザの声紋特徴と予め構築された声紋モデルとを用いて検証する。
ステップＳ２０１乃至ステップＳ２０３は技術的実施という点でステップＳ１０１乃至ステップＳ１０３と基本的に全く同じであり、その違いは適用シナリオが異なるという点のみにある。ステップＳ２０４乃至ステップＳ２０５は通常の声紋検証ステップであり、詳細には説明しない。本願の解決策と従来の声紋検証解決策との間の相違は明確に以下の通りである。

声紋認識は、主に、登録と適用とを含む２つのステップを含むことが本願の背景技術の記載に従って認められるが、ここで、登録ステップは、適用部分のために必要なデータを準備する。本願の方法を適用して実施される声紋モデリングは、主に、様々な適用要件に当てはまる。加えて、いくつかの特殊適用要件も、本願の解決策の特徴に従って満たしてもよい。

厳密に言えば、声紋認識を含む生体特徴認識技術の適用シナリオは、２つのカテゴリ、すなわち検証と本人確認とに更に細かく分類されてもよい。検証とは、ユーザは、ユーザ自身により宣言された同一人物であるかどうかを認証することであり、例えば、指紋ロック、声紋ロック等を指す。本人確認とは、ユーザの身元を判断することであり、例えば、公安機関が事件現場の指紋又は記録を調査することによって犯罪を判断することを指す。検証の要件は本人確認の要件よりも少ないと知ることは容易である。

本願で提供される技術的解決策は、「検証」要件に基づいて提案されており、通常の声紋検証と比較して、少なくとも以下の特徴を有する。

第１に、本願によって提供される解決策は「テキスト依存型」声紋技術に基づいているが、解決策が適用される場合、ユーザが「指定された内容」を意図的に発声する必要はなく、システムがユーザを意図的に促したり案内したりする必要もない。その理由は、ユーザが他の操作を実行するとき、そのついでに上記要件の全てを満たすことができるからである。

例えば、銀行のセルフサービスの音声サービスシステムにおいて、ユーザがサービス番号に電話をかけ、セルフサービス音声プロンプトに従って「１文が１つの問題を記述する」部分において「残高を照会」を声に出す場合、システムは、情報に従って音声認識、意味認識、要件解析、及び他の処理を実行し、サービスが個人のプライバシに関連し、ユーザの身元を更に認証する必要があると判断してもよい。従来の処理方法は、プロンプト「あなたの口座パスワードを入力し、最後に＃を入力してください」がユーザに提供され、次いで、ユーザがプロンプトに従って操作して検証を完了することであってもよい。本願で提供される解決策を利用することによって、キーワード「残高」に対するモデリングが以前にユーザに対して完了していれば、ユーザが「残高を照会」を声に出した後、声紋を用いることによって検証を実施でき、ユーザがパスワードを入力する必要はなくなる。「指定された内容」を意図的に発声する必要がなければ、声紋検証の利便性を享受できる。

次に、ユーザが発声した特定の内容は不確かではあるが、実際は、「キーワード」の特性に従えば、ユーザがこれらのキーワードを発声した確率は高く、この確率は、キーワードの数が増加するにつれて明らかに高まるであろう。声紋検証に失敗したとしても、通常の検証方法を更に用いてもよい。例えば、上記の例では、パスワードを手動で入力してもよく、そうすることがユーザにとって更なる問題とはならない。

更に、ステップＳ２０３において「検証要件を満たすプリセットキーワード」を定義することによって、システム性能を更に高めてもよく、又は特定の要件を更に満たしてもよい。例えば、「検証要件を満たすプリセットキーワード」は、システムが声紋抽出又はマッチング等の不正な処理を引き続き実行してしまわないように、ユーザの現在の声紋モデルに含まれているプリセットキーワードとして定義されてもよい。その上、支払取引等の安全性に関してより高い要件を有する適用シナリオのために、ユーザ音声に含まれて搬送されるキーワードの数も、「検証要件を満たすプリセットキーワード」において定義されてもよい。数の要件が満たされない場合、この方法は安全性が不十分であると見なされ、この時点で、声紋検証方法を放棄してもよく、より安全な別の方法を代わりに用いてもよい。

最後に、本願によって提供される声紋モデリング方法及び声紋検証方法は、同じ原理に基づいている。したがって、２つの解決策は様々な方法で統合されてもよいことが分かる。例えば、検証手順後、この検証に用いるユーザの音声情報を依然として用いて声紋モデルを完成させてもよい。代表的な適用において、この検証で用いる音声情報がユーザの現在の声紋モデルに含まれていないプリセットキーワードを含んで搬送しているかどうかが最初に判断され、それが肯定である場合、キーワードに対応する音声分節が音声情報から取り込まれ、ユーザの声紋モデルが、音声分節を用いて更新される。特定の更新方法は先の実施の形態を参照して得てもよいが、ここではその内容を繰り返さない。加えて、技術的手順の観点から、身元検証が成功するかどうかは、声紋モデルの更新に影響を及ぼさない。明らかに、安全性の向上が考慮される場合、声紋モデルを更新する操作を、更にユーザ身元検証に成功した場合に起動してもよい。その上、「身元検証に成功する」ことは、声紋身元検証に限定されない。

要約すれば、従来技術に比較して、本願は、ユーザ声紋情報の登録及び検証を、ユーザが他の音声に基づく操作を行ったときに付随的に実施できる。したがって、ユーザによる使用を容易にしていることが、主たる有利な点である。その上、特定の適用シナリオに対して特定のキーワードを設定することによって、「テキスト依存」の利点を保つことができ、より高い成功率も元の不確かな適用シナリオにおいて保証できる。

上記の方法の実施の形態に対応して、本願は、更にユーザ声紋モデルを構築するための装置を提供する。図３を参照すると、この装置は、
ユーザによって入力される音声情報を受信するよう構成された音声情報受信モジュール１１０と；
モデリング要件を満たすプリセットキーワードが音声情報に含まれて搬送されているかどうかを判断するように構成されるモデリングキーワード判断モジュール１２０と；
判断結果が肯定である場合、音声情報から、モデリング要件を満たすプリセットキーワードに対応する音声分節を取り込むよう構成される音声分節取込モジュール１３０と；
音声分節を用いることによってユーザのための声紋モデルを構築するよう構成される声紋モデル構築モジュール１４０とを含んでもよい。

本願の特定の実施の形態によれば、モデリングキーワード判断モジュール１２０は、特に、
ユーザの声紋モデルが既に現時点で存在している場合、声紋モデルに含まれていないプリセットキーワードが音声情報に含まれて搬送されているかどうかを判断する；
又は、
ユーザの声紋モデルが既に現時点で存在している場合、声紋モデル内に既に含まれているプリセットキーワードが音声情報に含まれて搬送されているかどうかを判断するように構成されてもよい。
本願の特定の実施の形態によれば、声紋モデル構築モジュール１４０は、特に、
ユーザの声紋モデルが既に現時点で存在している場合、音声分節を用いることによって声紋モデルを更新するように構成されてもよい。

本願の特定の実施の形態によれば、モデリングキーワード判断モジュール１２０は、特に、
音響モデルを用いることによって音声情報を分割して少なくとも１つの音声分節を取得し；
取得した音声分節又はそれらの組み合わせがモデリング要件を満たすプリセットキーワードの音響特徴に一致するかどうかを判断し、肯定の場合、モデリング要件を満たすプリセットキーワードが音声情報内に含まれて搬送されていることを判断する、よう構成されてもよい。
又は、
モデリングキーワード判断モジュール１２０は、更に、具体的には、
音声情報に関する音声認識を行って対応するテキスト情報を取得し；
言語モデルを用いることによってテキスト情報を分割して少なくとも１つのテキスト分節を取得し；
取得したテキスト分節又はそれらの組み合わせがモデリング要件を満たすプリセットキーワードのテキスト内容と一致するかどうかを判断し、肯定の場合、モデリング要件を満たすプリセットキーワードが音声情報内に含まれて搬送されていることを判断する、ように構成されてもよい。

上記の方法の実施の形態に対応して、本願は更に声紋に基づくユーザ身元検証装置を提供する。図４を参照すると、この装置は、
ユーザによって入力される音声情報を受信するよう構成された音声情報受信モジュール２１０と；
検証要件を満たすプリセットキーワードが音声情報に含まれて搬送されているかどうかを判断するよう構成された検証キーワード判断モジュール２２０と；
判断結果が肯定である場合、音声情報から、検証要件を満たすプリセットキーワードに対応する音声分節を取り込むよう構成された音声分節取込モジュール２３０と；
音声分節の声紋特徴を抽出するよう構成された声紋特徴抽出モジュール２５０と；
ユーザの声紋特徴と予め構築された声紋モデルとを用いることによってユーザの身元を検証するよう構成された検証モジュール２６０とを含んでいてもよい。

本願は更に声紋に基づくユーザ身元検証システムを提供し、このシステムは、ユーザ声紋モデルを構築するための装置及び上で説明したようなユーザ身元検証装置を含んでいてもよい。

実際に、上記の２つの装置におけるいくつかのモジュールによって実施される機能は、例えば、以下の点で全く同じである。
音声情報受信モジュール１１０と、音声情報受信モジュール２１０；
音声分節取込モジュール１３０と、音声分節取込モジュール２３０；
そして、検証キーワード判断モジュール１２０と検証キーワード判断モジュール２２０との間の相違は、単に、判断を行うルールが異なる点にある。したがって、実際の適用中、これらの同一又は類似モジュールは、図５に示すように、システム内で完全に多重化されてもよい。

音声情報受信モジュール３１０は、音声情報受信モジュール１１０と音声情報受信モジュール２１０との機能を統合している。
キーワード判断モジュール３２０は、検証キーワード判断モジュール１２０と検証キーワード判断モジュール２２０との機能を統合している。
音声分節取込モジュール３３０は、音声分節取込モジュール１３０と音声分節取込モジュール２３０との機能を統合している。
声紋モデル構築モジュール３４０、声紋特徴抽出モジュール３５０、及び検証モジュール３６０の機能は、それぞれ、上記の装置において同じ名称のモジュールの機能と全く同じである。

上記の装置における機能の実施プロセス及び全てのユニットの効果は、特に、上記の方法における対応するステップの実施プロセスを参照してもよく、ここでは繰り返さない。

実施方法の上記の説明に基づいて、当業者は、本願が、必要な万能ハードウェアプラットフォームと組み合わせて、ソフトウェアによって実施されてもよいことを明確に理解するであろう。かかる理解に基づいて、本質的に本願の技術的解決策、又は、先行技術に寄与する部分は、ソフトウェア製品の形態で具現化されてもよい。ソフトウェア製品は、ＲＯＭ／ＲＡＭ、磁気ディスク、又は光ディスク等の記憶媒体内に格納されてもよく、コンピュータデバイス（パーソナルコンピュータ、サーバ、ネットワークデバイス等であってもよい）が、本願の全ての実施の形態又は実施の形態のある特定の一部における方法を実行することを可能にするいくつかの命令を含んでいてもよい。

明細書に記載する様々な実施の形態は進歩的な方法で説明されている。実施の形態間の同一又は類似の部分は互いに参照してもよい。各実施の形態については、他の実施の形態とは異なる部分に焦点を当てて説明した。特に、装置又はシステムの実施の形態は、方法の実施の形態と基本的に類似しており、その結果、説明は簡単であり、関連部分については、方法の実施の形態における部分の説明を参照してもよい。上で説明した装置又はシステムの実施の形態は単なる例示であり、ここで別々の部分として示したモジュールは物理的に分離されても、されなくてもよい。本願の実施中、モジュールの機能は、ソフトウェア及び／又はハードウェアの同じ１つ以上の断片の形態で実施されてもよい。この実施の形態の解決策の目的は、実際の要件に従って、そのモジュールの一部又は全部を選択することによって実施されてもよい。当業者は、創意工夫をすることなく本願を理解し、実施してもよい。

本願の特定の実施は上で説明されている。当業者は、いくらかの改良及び改変を本願の原理から逸脱することなく行うことができ、これらの改良及び改変は、本願の保護適用範囲に含まれるとして見なすべきであることに留意されたい。

Claims

ユーザによって入力される音声情報を受信するステップと；
モデリング要件を満たすプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するステップと；
前記判断結果が肯定である場合、前記音声情報から、モデリング要件を満たす前記プリセットキーワードに対応する音声分節を取り込むステップと；
前記音声分節を用いることによって前記ユーザのための声紋モデルを構築するステップとを備える：
ユーザ声紋モデルを構築するための方法。
モデリング要件を満たすプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断する前記ステップは、
前記ユーザの前記声紋モデルが既に現時点で存在している場合、前記声紋モデルに含まれていないプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するステップ、又は、
前記ユーザの前記声紋モデルが既に現時点で存在している場合、前記声紋モデルに既に含まれているプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するステップを備える：
請求項１に記載の方法。
前記音声分節を用いることによって前記ユーザのための声紋モデルを構築する前記ステップは、
前記ユーザの前記声紋モデルが既に現時点で存在している場合、前記音声分節を用いることによって前記声紋モデルを更新するステップを備える：
請求項１又は請求項２に記載の方法。
モデリング要件を満たすプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断する前記ステップは、
音響モデルを用いることによって前記音声情報を分割して少なくとも１つの音声分節を取得するステップと；
前記取得した音声分節又はそれらの組み合わせがモデリング要件を満たす前記プリセットキーワードの音響特徴に一致するかどうかを判断し、肯定の場合、モデリング要件を満たす前記プリセットキーワードが前記音声情報に含まれて搬送されていることを判断するステップとを備える：
請求項１に記載の方法。
モデリング要件を満たすプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断する前記ステップは、
前記音声情報に関する音声認識を行って、対応するテキスト情報を取得するステップと；
言語モデルを用いることによって前記テキスト情報を分割して少なくとも１つのテキスト分節を取得するステップと；
前記取得したテキスト分節又はそれらの組み合わせがモデリング要件を満たす前記プリセットキーワードの前記テキスト内容と一致するかどうかを判断し、肯定の場合、モデリング要件を満たす前記プリセットキーワードが前記音声情報に含まれて搬送されていることを判断するステップとを備える：
請求項１に記載の方法。
ユーザによって入力される音声情報を受信するステップと；
検証要件を満たすプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するステップと；
前記判断結果が肯定である場合、前記音声情報から、検証要件を満たす前記プリセットキーワードに対応する音声分節を取り込むステップと；
前記音声分節の声紋特徴を抽出するステップと；
前記ユーザの前記声紋特徴と予め構築された声紋モデルとを用いることによって前記ユーザの前記身元を検証するステップとを備える：
声紋に基づくユーザ身元検証方法。
前記ユーザの前記声紋モデルに含まれていないプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するステップと；
前記判断結果が肯定である場合、前記音声情報から、前記含まれていないプリセットキーワードに対応する音声分節を取り込むステップと；
前記含まれていない前記プリセットキーワードに対応する前記音声分節を用いることによって前記ユーザの前記声紋モデルを更新するステップとを更に備える：
請求項６に記載の方法。
ユーザによって入力される音声情報を受信するよう構成された音声情報受信モジュールと；
モデリング要件を満たすプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するよう構成されたモデリングキーワード判断モジュールと；
前記判断結果が肯定である場合、前記音声情報から、モデリング要件を満たす前記プリセットキーワードに対応する音声分節を取り込むよう構成された音声分節取込モジュールと；
前記音声分節を用いることによって前記ユーザのための声紋モデルを構築するよう構成された声紋モデル構築モジュールとを備える：
ユーザ声紋モデルを構築するための装置。
前記モデリングキーワード判断モジュールは、具体的には、
前記ユーザの前記声紋モデルが既に現時点で存在している場合、前記声紋モデルに含まれていないプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断する；又は、
前記ユーザの前記声紋モデルが既に現時点で存在している場合、前記声紋モデルに既に含まれているプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するように構成された：
請求項８に記載の装置。
前記声紋モデル構築モジュールは、具体的には、
前記ユーザの前記声紋モデルが既に現時点で存在している場合、前記音声分節を用いることによって前記声紋モデルを更新するよう構成された：
請求項８又は請求項９に記載の装置。
前記モデリングキーワード判断モジュールは、具体的には、
音響モデルを用いることによって前記音声情報を分割して少なくとも１つの音声分節を取得し；
前記取得した音声分節又はそれらの組み合わせがモデリング要件を満たす前記プリセットキーワードの前記音響特徴に一致するかどうかを判断し、肯定の場合、モデリング要件を満たす前記プリセットキーワードが前記音声情報に含まれて搬送されていることを判断するように構成された；
請求項８に記載の装置。
前記モデリングキーワード判断モジュールは、具体的には、
前記音声情報に関する音声認識を行って、対応するテキスト情報を取得し；
言語モデルを用いることによって前記テキスト情報を分割して少なくとも１つのテキスト分節を取得し；
前記取得したテキスト分節又はそれらの組み合わせがモデリング要件を満たす前記プリセットキーワードの前記テキスト内容と一致するかどうかを判断し、肯定の場合、モデリング要件を満たす前記プリセットキーワードが前記音声情報に含まれて搬送されていることを判断するように構成された：
請求項８に記載の装置。
ユーザによって入力される音声情報を受信するよう構成された音声情報受信モジュールと；
検証要件を満たすプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するよう構成された検証キーワード判断モジュールと；
前記判断結果が肯定である場合、前記音声情報から、検証要件を満たす前記プリセットキーワードに対応する音声分節を取り込むよう構成された音声分節取込モジュールと；
前記音声分節の声紋特徴を抽出するよう構成された声紋特徴抽出モジュールと；
前記ユーザの前記声紋特徴及び予め構築された声紋モデルを用いることによって前記ユーザの前記身元を検証するよう構成された検証モジュールとを備える：
声紋に基づくユーザ身元検証装置。
前記システムは、請求項８乃至請求項１２のいずれか一項に記載のユーザ声紋モデルを構築するための前記装置と、請求項１３に記載の前記ユーザ身元検証装置とを備える：
声紋に基づくユーザ身元検証システム。