JP7123871B2

JP7123871B2 - 身元認証方法、身元認証装置、電子機器及びコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP7123871B2
Application number: JP2019129753A
Authority: JP
Inventors: ランキザン，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-07-12
Filing date: 2019-07-12
Publication date: 2022-08-23
Anticipated expiration: 2039-07-12
Also published as: US11294995B2; CN109101801B; JP2020013126A; CN109101801A; US20200019687A1; KR20200007673A

Description

本発明は、一般的に、身元認証に関し、さらに具体的に、身元認証（特に、音声又は言語に基づく身元認証）方法、身元認証装置、電子機器及びコンピュータ読み取り可能な記憶媒体に関する。

スマートスピーカーなどの製品の発展に伴い、音声に基づく身元認証がますます重要になっている。しかしながら、現在音声に基づく身元認証手段は依然としてより浅い技術レベルに止まっている。例えば、一般的な身元認証方式は、周波数（又は音声帯域）に基づく認証方式である。この方式では、一般的に、各ユーザに対して１セットの音声帯域範囲を設定し、受信された音声比較範囲誤差が特定の閾値を越えると、認証失敗とする。受信された音声とユーザの音声帯域とが同一の範囲にあると、認証成功とする。しかしながら、人の耳が識別できる音声周波数範囲は２０Ｈｚ～２０ｋＨｚの間にあるため、汲尽法（ｍｅｔｈｏｄｏｆｅｘｈａｕｓｔｉｏｎ）によって、「正当な」周波数を速やかに見つけることができ、安全係数が非常に低くなる。したがって、上記技術問題を少なくとも部分的に解決するための身元認証のための技術案を提供する必要がある。

本発明によると、身元認証のための手段を提供する。

本発明の第１の態様において、身元認証方法を提供する。身元認証方法は、ユーザの音声信号を取得するステップと、前記音声信号に基づいて、前記音声信号の異なる特性を示す複数の次元を有する特徴データを生成するステップと、前記特徴データに基づいて前記ユーザの身元を決定するステップとを含み、前記ユーザの身元を決定するステップが、前記特徴データに対して正規化処理を行って、前記特徴データのベクトル表現を決定し、教師なし学習モデルによって、前記特徴データのベクトル表現を受信し、前記特徴データのベクトル表現に基づいて、クラスタリングすることによって、前記音声信号のカテゴリーを決定するステップと、前記音声信号のカテゴリーと前記ユーザの身元との間の対応関係を取得するステップと、前記対応関係に基づいて、前記ユーザの身元を前記カテゴリーに対応する身元と決定するステップとを含む。

本発明の第２の態様において、身元認証装置を提供する。身元認証装置は、ユーザの音声信号を取得するための第１の取得モジュールと、前記音声信号に基づいて、前記音声信号の異なる特性を示す複数の次元を有する特徴データを生成する生成モジュールと、前記特徴データに基づいて前記ユーザの身元を決定する第１の決定モジュールとを備え、該第１の決定モジュールが、前記特徴データに対して正規化処理を行って、前記特徴データのベクトル表現を決定し、教師なし学習モデルによって、前記特徴データのベクトル表現を受信し、前記特徴データのベクトル表現に基づいて、クラスタリングすることによって、前記音声信号のカテゴリーを決定する第４の決定モジュールと、前記音声信号のカテゴリーと前記ユーザの身元との間の対応関係を取得する第２の取得モジュールと、前記対応関係に基づいて、前記ユーザの身元を前記カテゴリーに対応する身元と決定する第５の決定モジュールとを備える。

本発明の第３の態様において、電子機器を提供する。電子機器は、少なくとも一つのプロセッサと、少なくとも一つのプログラムを記憶するメモリとを備え、少なくとも一つの前記プログラムが少なくとも一つの前記プロセッサによって実行される場合、上記の身元認証方法を実現する。

本発明の第４の態様において、コンピュータプログラムが記憶されているコンピュータ可読媒体を提供する。コンピュータプログラムがプロセッサによって実行される場合、上記の身元認証方法が実現される。

本発明の明細書に記述された内容は、本発明の内容の実現形態のキーポイント又は重要な特徴を限定することを意図しなく、本発明の内容の範囲を限制するものでもないことを、理解すべきである。本発明の内容の他の特徴は、以下の記述によって容易に理解される。

図面に組みあわせて、さらに以下の詳細な説明を参考して、本発明の内容の各実現形態の上述の特徴と他の特徴、利点、及び態様がもっと明らかになる。図面において、同一又は類似の符号は、同一又は類似の要素を示す。
本発明の一実施形態を実現可能な環境の一例を示す概略図である。本発明の一実施形態に係る身元認証方法を示すフローチャートである。本発明の一実施形態に係るユーザの身元を決定するための方法を示すフローチャートである。本発明の一実施形態に係る身元認証装置を示すブロック図である。本発明の一実施形態に係る電子機器を示すブロック図である。

以下、図面を参照して本発明の内容の実現形態をもっと詳細に記述する。図面では本発明の内容の特定の実現形態を示したが、本発明の内容はさまざまな形態で実現できることを理解すべきであり、ここに記述する実現形態に限られるものではない。より透徹、かつ完全に本発明の内容を理解するために、これら実現形態を提供する。本発明の内容の図面及び実現形態は、単なる例示的な作用に用いられ、本発明の内容の保護範囲を限定するものではないことを、理解すべきである。

以上で言及された現在音声に基づく身元認証態様は、一般的に、音声の周波数に基づいてユーザの身元を決定することによって、認証成功であるかどうかを判断する。しかしながら、このような認証態様は、低い安全係数を有する。

上記問題及び他の可能の潜在的な問題に対し、本発明の一実施形態においては、身元認証のための技術案を提供する。本実施形態では、ユーザの音声信号を取得し、取得した音声信号に基づいて、複数の次元を有する特徴データを生成する。複数の次元の特徴データは、音声信号の異なる特性を示す。特徴データに基づいてユーザの身元を決定する。音声信号の複数の異なる次元に基づいて身元認証を行うため、身元認証の正確性及び安全性を向上させることができる。

以下、図１から図４を参照して、本発明の一実施形態について具体的に記述する。

図１は、本発明の一実施形態を実現することができる模式的な環境１００を示す概略図である。
環境１００において、ユーザ１０２は、スマートスピーカー１０４などの電子機器と言語で対話することができる。例えば、ユーザ１０２は、スマートスピーカー１０４に「僕はテイクアウトを注文したい」と言うことができる。スマートスピーカー１０６は、音声信号を取得することができ、音声信号に基づいてユーザ１０２が該当するタスクを実行する権限があるか否かを決定する。ここではスマートスピーカー１０４を一例として記述するが、本実施形態は、携帯電話、タブレットなどの電子機器に応用することができ、また、少なくとも部分的にクラウド側で実現されてもよいことを、理解すべきである。

図２は、本発明の一実施形態に係る身元認証方法２００を示すフローチャートである。身元認証方法２００は、少なくとも部分的に図１に示したスマートスピーカー１０４によって実現されることができる。

ブロック２０２において、スマートスピーカー１０４は、ユーザ１０２の音声信号を取得する。例えば、スマートスピーカー１０４は、マイクなどのユーザ１０２の音声信号を録音又は収集するための装置を備えていてもよい。本実施形態において、ユーザ１０２の音声信号は、１段の対話を含んでいてもよく、当該対話は、開始語句と終了語句によって定義され、また、該当するタスクに関連されてもよい。例えば、言語識別の方式に基づいて、スマートスピーカー１０２は、ユーザ１０２の当該タスクに対する意図を識別することによって、開始語句を判断し、また、スマートスピーカー１０２は、ユーザ１０２の当該タスクに対する最終の命令を識別することによって終了語句を判断することができる。開始語句と終了語句は、キーワードを識別することによって決定することができる。例えば、この１段の対話は、スマートスピーカー１０２のユーザのテイクアウトの意図に対する識別とユーザのテイクアウトの命令の受信との間の複数の語句であってもよい。

ブロック２０４において、スマートスピーカー１０４は、ユーザ１０２の音声信号に基づいて、複数の次元を有する特徴データを生成する。それぞれの次元の特徴データは、音声信号の該当する特性を示すことができる。例えば、複数の次元は、話速、ラウドネス、音調、周波数及び音色のうち少なくとも二つを含む。現在知られている又は将来開発される任意の適切な方法を使用して、話速、ラウドネス、周波数などの信息を検出することができ、本発明はこれに対して限定しないことを、理解すべきである。また、当業者は、上記次元は、一例として提供されたものに過ぎず、代替案として又は追加的に他の次元の特徴データを使用してもよいことを、理解すべきである。

本実施形態において、特徴データに対して正規化処理を行うことができる。例えば、一言を一つのｎ次元ベクトルに解析することができ、例えば、「Ｄ０、Ｄ１、…、Ｄｎ」に解析することができ、その中、Ｄｉ、ｉ＝１…ｎで一つの次元（例えば、周波数）を示し、Ｄｉの値は、(０、１)の区間内にある。このような方式で特徴データのベクトル表現を決定して、後続の処理で利用することができる。

ブロック２０６において、スマートスピーカー１０４は、生成した特徴データに基づいてユーザ１０２の身元を決定する。例えば、ユーザ１０２の身元は、該当する権限と関連されることができるため、ユーザ１０２の身元に基づいてユーザ１０２の権限を決定し、ユーザ１０２の権限にマッチングされたタスクをトリガーして当該タスクをトリガーして実行させる。言い換えれば、ユーザ１０２の権限とタスクとがマッチングされると、当該タスクを実行する。

本実施形態において、ユーザ１０２の音声信号中から、上記タスクを識別することができる。例えば、スマートスピーカー１０４は、ユーザ１０２の音声信号を言語識別し、識別された文字又は語句に基づいてユーザの意図を決定することができ、例えば、ユーザが実行しようとするタスクを決定することができる。例えば、ユーザ１０２の権限は、さらに、該当するタスクに関連され、すなわち、異なるタスクは、異なる権限を有することができる。

本実施形態において、スマートスピーカー１０４は、特徴データに基づいて音声信号と関連するカテゴリーを決定する。例えば、カテゴリーは、教師なし学習モデルによって決定することができる。例えば、教師なし学習モデルは、特徴データのベクトル表現を受信し、特徴データのベクトル表現に基づいて、クラスタリングすることによって、音声信号と関連するカテゴリーを決定することができる。教師なし学習モデルは、ｋ－ｍｅａｎｓ、ランダムフォレストなどのモデルを含んでいてもよい。上記教師なし学習モデルは、一例として提供されたものに過ぎず、当業者は、他の適当な教師なし学習モデルを使用してもよいことを、理解すべきである。

教師なし学習モデルは、ユーザとスマートスピーカー１０４（又は他の言語機器）との間の日常の対話と交流中で自然的に構築し、絶えず最適化することによって、コストオーバーヘッドが低く、また、リアルタイムの学習能力を有する。毎回の対話は、モデルに対する応用でもあり、モデルに対する訓練でもある。したがって、教師なし学習モデルは、ユーザデータを収集し、収集したユーザデータにラベルを付ける必要がない。このような方式に基づいて、製品の軽量化を実現し、また、ユーザデータを収集する際に引き起こす可能性があるプライバシー問題を防止することができる。

本実施形態において、スマートスピーカー１０４は、音声信号のカテゴリーとユーザの身元との間の対応関係を取得し、上記対応関係に基づいて、ユーザの身元を決定されたカテゴリーに対応する身元と決定することができる。カテゴリーと身元との対応関係は、ユーザ１０２によって予め設定されることができる。例えば、ユーザ１０２は、一つの語句中で身元と起動の権限を言い、例えば、「僕は明ちゃんだ。支払い権限がある」と言うことができる。スマートスピーカー１０４は、決定された語句又は関連する対話のカテゴリーと、語句によって提供される身元及び権限と、に対して、対応関係を構築することができる。最初に権限を与える場合、ユーザにパスワードの入力などを要求して検証することができる。

本実施形態において、ユーザ１０２とスマートスピーカー１０２との対話過程において身元認証を行うことができる。例えば、スマートスピーカー１０２は、キーワードなどのトリガー条件に基づいて、権限を与える検出過程を起動することができる。例えば、スマートスピーカー１０２は、ユーザ１０２の音声信号を言語識別し、また、識別された文字中で「テイクアウト」などのキーワードが検出されると、権限を与える判定過程を起動することができる。

図３は、本発明の一実施形態に係るユーザの身元を決定するための方法３００を示すフローチャートである。例えば、音声信号は、権限を与える判定過程を起動した後の１段の対話を含むことができ、複数の語句を含むことができる。

ブロック３０２において、音声信号に含まれた語句のうち、予め定義された身元に関連する語句の数を決定することができる。例えば、１段の対話は、購入意図の確認から、テイクアウト命令の受信まで、合計１０個の語句である。それぞれの語句に対応するカテゴリー及び身元を決定する。例えば、１０個の語句から、８個の語句に身元Ａがあると決定することができる（例えば、夫）。

ブロック３０４において、数と音声信号に含まれた語句の総数との比率が閾値比率よりも大きいか否かを決定することができる。閾値比率よりも大きいと、方法３００はブロック３０６に進入する。ブロック３０６において、ユーザの身元を、予め定義された身元と決定することができる。例えば、閾値比率が７０％であると、数と総数との比率が８／１０＝８０％であり、７０％よりも大きい。逆に、閾値比率未満であると、ブロック３０８において、音声信号が予め定義された身元を有さないと決定することができる。

図３に示される方法３００は、スマートスピーカーなどの機器に偏在する単一の語句の識別率と精度が１００％に達することが難しいという問題を解決することができる。確率的結果は、単一サンプル内の個人差を補正することができるため、より正確である。

また、方法３００は、ユーザ１０２とスマートスピーカー１０４とが自然的な言語対話の過程で実現でき、別個のリンクを確立する必要がない。したがって、判定タイミングは、自然的な言語対話シーン全体を通し、鈍い対話が必要しない。例えば、ユーザ１０２は、スマートスピーカー１０４との間で以下のような対話をする。

ユーザ：僕はテイクアウトを注文したい。

スピーカー：注文を検索して推薦します、あなたのためにＸＸパッケージを推薦します、購入しますか？

ユーザ：注文しよう！

スピーカー：あなたの注文を確認し、購入は完了しました。

図４は、本発明の一実施形態に係る身元認証装置４００を示すブロック図である。
身元認証装置４００は、図１のスマートスピーカー１０４が備えていてもよく、或いは、少なくとも部分的にスマートスピーカー１０４によって実現されてもよい。図４に示されるように、身元認証装置４００は、第１の取得モジュール４０２と、生成モジュール４０４と、第１の決定モジュール４０６とを備えている。
第１の取得モジュール４０２は、ユーザの音声信号を取得する。
生成モジュール４０４は、音声信号に基づいて、音声信号の異なる特性を示す、複数の次元を有する特徴データを生成する。
第１の決定モジュール４０６は、特徴データに基づいてユーザの身元を決定する。

本実施形態において、複数の次元は、話速、ラウドネス、音調、周波数及び音色のうち少なくとも二つを含む。

本実施形態において、第１の決定モジュール４０６は、音声信号に含まれた語句のうち、予め定義された身元に関連する語句の数を決定する第２の決定モジュールと、決定された数と音声信号に含まれた語句の総数との比率が閾値比率よりも大きいことに応答して、ユーザの身元を予め定義された身元と決定する第３の決定モジュールとを備えている。

本実施形態において、第１の決定モジュール４０６は、特徴データに基づいて音声信号のカテゴリーを決定する第４の決定モジュールと、音声信号のカテゴリーとユーザの身元との間の対応関係を取得する第２の取得モジュールと、対応関係に基づいて、ユーザの身元をカテゴリーに対応する身元と決定する第５の決定モジュールとを備えている。

本実施形態において、音声信号のカテゴリーは、教師なし学習モデルによって決定される。

本実施形態において、身元認証装置４００は、ユーザの身元に基づいてユーザの権限を決定する第６の決定モジュールと、ユーザの権限にマッチングされるタスクをトリガーして実行させるトリガーモジュールとをさらに備えている。

図５は、本発明の一実施形態を実施可能な電子機器５００を示す模式的なブロック図である。図面に示されるように、電子機器５００は、中央処理ユニット（ＣＰＵ）５０１を備え、ＣＰＵ５０１は、読み出し専用メモリ（ＲＯＭ）５０２に記憶されているコンピュータプログラム命令又は記憶ユニット５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードしたコンピュータプログラム命令に従って、さまざまな適当な動作と処理を実行する。ＲＡＭ５０３には、電子機器５００の動作に必要なさまざまなプログラムデータが記憶されてもよい。ＣＰＵ５０１、ＲＯＭ５０２及びＲＡＭ５０３は、バス５０４によって互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース５０５も、バス５０４に接続される。

電子機器５００の、キーボード、マウスなどようなの入力ユニット５０６と、さまざまなタイプのディスプレイ、スピーカーなどのような出力ユニット５０７と、磁気ディスク、光ディスクなどのような記憶ユニット５０８と、ネットワークカード、モデム、無線通信トランシーバなどのような通信ユニット５０９とを備える複数の部品は、Ｉ／Ｏインターフェース５０５に接続されている。通信ユニット５０９は、機器５００が、インターネットのコンピュータネットワーク及び／又はさまざまな電気通信ネットワークなどのような他の機器と、情報／データを交換することを可能にする。

処理ユニット５０１は、上記に記述された身元認証方法２００などに記載のそれぞれの過程及び処理を実行する。例えば、本実施形態において、身元認証方法２００は、コンピュータソフトウェアプログラムによって実現され、記憶ユニット５０８などのような機器可読媒体に有形に含まれている。本実施形態において、コンピュータプログラムの少なくとも一部は、ＲＯＭ５０２及び／又は通信ユニット５０９を介して機器５００上にロード及び／又はインストールされることができる。コンピュータプログラムがＲＡＭ５０３にロードされＣＰＵ５０１によって実行される場合、上記の身元認証方法２００の少なくとも一つのステップを実行することがきる。候補として、変形例として、ＣＰＵ５０１は、他の任意の適当な方式に基づいて（例えば、ファームウェアによって）、身元認証方法２００を実行するように構成されてもよい。

本発明は、身元認証方法、身元認証装置、電子機器、身元認証システム及び／又はコンピュータプログラム製品である。コンピュータプログラム製品は、コンピュータ読み取り可能な記憶媒体を備えていてもよく、コンピュータ読み取り可能な記憶媒体には本発明の各態様を実行するためのコンピュータ読み取り可能なプログラム命令がロードされている。

コンピュータ読み取り可能な記憶媒体は、命令実行機器によって使用される命令を保持かつ記憶可能な有形な機器であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気記憶機器、磁気記憶機器、光記憶機器、電磁記憶機器、半導体記憶機器、又は、上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のさらに具体的な一例（非網羅的リスト）は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているパンチカード又は溝内の突起構造、及び、上記の任意の適当な組み合わせを含む。ここで使用するコンピュータ読み取り可能な記憶媒体は、過渡信号自体として解釈されなく、例えば、無線電波又は他の自由に伝送される電磁波、導波又は他の伝送媒体を介して伝送される電磁波（例えば、通信光ファイバケーブルの光パルス）、又は、電線を介して伝送される電信号として解釈されない。

ここで記述するコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能な記憶媒体から各計算／処理機器にダウンロードしてもよく、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、及び／又は、ワイヤレスネットワークなどのネットワークを介して、外部コンピュータ又は外部記憶機器にダウンロードしてもよい。ネットワークは、銅線伝送ケーブル、光ファイバ伝送、無線伝送、ルータ、ファイアウォール、交換台、ゲートウェイコンピュータ、及び／又は、エッジサーバを含むことができる。それぞれの計算／処理機器中のネットワークネットワークアダプタカード、又は、ネットワークインタフェースは、ネットワークからコンピュータ読み取り可能プログラム命令を受信し、コンピュータ読み取り可能プログラム命令を転送することにより、各計算／処理機器中のコンピュータ読み取り可能な記憶媒体中に記憶されるようにする。

本発明の動作を実行するためのコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、又は、少なくとも一つのプログラミング言語の任意組み合わせを利用して書かれたソースコード又はオブジェクトコードであってもよく、プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、及び、「Ｃ」言語又は類似のプログラミング言語などの従来の手続き型プログラミング言語を含む。コンピュータ読み取り可能プログラム命令は、完全にユーザコンピュータ上で実行されてもよく、部分的にユーザコンピュータ上で実行されてもよく、一つの単独のソフトウェアパッケージとして実行されてもよく、一部がユーザコンピュータ上で実行されもう一部が遠隔コンピュータ上で実行されてもよく、又は、完全に遠隔コンピュータ又はサーバ上で実行されてもよい。遠隔コンピュータの場合、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）、又は、ワイドエリアネットワーク（ＷＡＮ）などの任意の種類のネットワークを介して、ユーザコンピュータに接続されてもよく、又は、外部コンピュータ（例えばインターネットサービスプロバイダを利用してインターネットに接続される）されてもよい。本実施形態において、コンピュータ読み取り可能プログラム命令の状態信息を利用して電子回路をカスタマイズし、カスタマイズされる電子回路は、プログラミングロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は、プログラミングロジックアレイ（ＰＬＡ）などを含み、電子回路は、コンピュータ読み取り可能プログラム命令を実行することによって、本実施形態を実現することができる。

ここで本実施形態に係る身元認証方法、身元認証装置（システム）、及び、コンピュータプログラム製品のフローチャート、及び／又は、ブロック図を参照して、本発明の各態様を記述した。フローチャート、及び／又は、ブロック図のそれぞれのブロック及びフローチャート、及び／又は、ブロック図中の各ブロックの組み合わせは、いずれも、コンピュータ読み取り可能プログラム命令によって実現されることができることを、理解することができる。

これらコンピュータ読み取り可能プログラム命令は、汎用コンピュータ、特殊用途コンピュータ、又は、他のプログラミングデータ処理装置の処理ユニットに供給されて、機械を製造することができる。このようにして、これら命令がコンピュータ又は他のプログラミングデータ処理装置の処理ユニットによって実行される際に、フローチャート及び／又はブロック図中の少なくとも一つのブロック中で定義された機能／動作を実現する装置をもたらす。さらに、これらコンピュータ読み取り可能プログラム命令をコンピュータ読み取り可能な記憶媒体中に記憶してもよく、これら命令は、コンピュータ、プログラミングデータ処理装置、及び／又は、他の機器が特定の方式で動作するようにする。したがって、命令が記憶されているコンピュータ読み取り可能な記憶媒体は、フローチャート及び／又はブロック図中の少なくとも一つのブロック中で定義された機能／動作を実現する各態様の命令を含む一つの製造物を含む。

さらに、コンピュータ読み取り可能プログラム命令を、コンピュータ、他のプログラミングデータ処理装置、又は、他の機器上にロードして、コンピュータ、他のプログラミングデータ処理装置、又は、他の機器上で一連の動作ステップを実行することによって、コンピュータによって実現される過程を体現する。したがって、コンピュータ、他のプログラミングデータ処理装置、又は、他の機器上で実行される命令が、フローチャート及び／又はブロック図中の少なくとも一つのブロック中で定義された機能／動作が実現するようにしてもよい。

図面中のフローチャート及びブロック図は、本発明の一実施形態に係る身元認証システム、身元認証方法、及び、コンピュータプログラム製品実現可能のアーキテクチャ、機能和動作を示した。この点において、フローチャート又はブロック図中のそれぞれのブロックは、一つのモジュール、プログラムセグメント又は命令の一部を代表することができ、モジュール、プログラムセグメント又は命令の一部は、少なくとも一つの指定されたロジック機能を実現する実行可能命令を含む。変形例において、ブロック中に示された機能は、図面中に示された順序とは異なる順序で実現されてもよい。例えば、二つの連続したブロックは、基本的に並列に実行されてもよく、それらは関与する機能に応じて逆の順序で実行されてもよい。ブロック図及び／又はフローチャート中のそれぞれのブロック、及びブロック図及び／又はフローチャート中のブロックの組み合わせは、指定された機能又は動作を実行する特殊用途のハードウェアに基づくシステムによって実現されてもよく、又は、特殊用途ハードウェアとコンピュータ命令との組み合わせによって実現されてもよいことを、注意する必要もある。

以上、本発明について記述したが、上記の説明は、例示的なものであって網羅的なものではなく、また、開示した実施形態に限定されるものではない。説明した実施形態の範囲と精神を逸脱しない場合、当業者にとっては多数の修正及び変更が明らかである。本明細書で使用される用語の選択は、実施形態の原理、実際の応用、又は、市場における技術に対する改良を、最もよく解釈することを意図しており、又は、当業者が本明細書で開示した実施形態を、最もよく理解するようにすることを意図している。

Claims

身元認証方法であって、
ユーザの音声信号を取得するステップと、
前記音声信号に基づいて、前記音声信号の異なる特性を示す複数の次元を有する特徴データを生成するステップと、
前記特徴データに基づいて前記ユーザの身元を決定するステップとを含み、
前記ユーザの身元を決定するステップが、
前記特徴データに対して正規化処理を行って、前記特徴データのベクトル表現を決定し、教師なし学習モデルによって、前記特徴データのベクトル表現を受信し、前記特徴データのベクトル表現に基づいて、クラスタリングすることによって、前記音声信号のカテゴリーを決定するステップと、
前記音声信号のカテゴリーと前記ユーザの身元との間の対応関係を取得するステップと、
前記対応関係に基づいて、前記ユーザの身元を前記カテゴリーに対応する身元と決定するステップとを含む身元認証方法。
前記複数の次元は、話速、ラウドネス、音調、周波数及び音色のうち少なくとも二つを含む請求項１に記載の身元認証方法。
前記ユーザの身元に基づいて前記ユーザの権限を決定するステップと、
前記ユーザの前記権限にマッチングされるタスクをトリガーして実行させるステップとをさらに含む請求項１に記載の身元認証方法。
身元認証装置であって、
ユーザの音声信号を取得する第１の取得モジュールと、
前記音声信号に基づいて、前記音声信号の異なる特性を示す複数の次元を有する特徴データを生成する生成モジュールと、
前記特徴データに基づいて前記ユーザの身元を決定する第１の決定モジュールとを備え、
該第１の決定モジュールが、
前記特徴データに対して正規化処理を行って、前記特徴データのベクトル表現を決定し、教師なし学習モデルによって、前記特徴データのベクトル表現を受信し、前記特徴データのベクトル表現に基づいて、クラスタリングすることによって、前記音声信号のカテゴリーを決定する第４の決定モジュールと、
前記音声信号のカテゴリーと前記ユーザの身元との間の対応関係を取得する第２の取得モジュールと、
前記対応関係に基づいて、前記ユーザの身元を前記カテゴリーに対応する身元と決定する第５の決定モジュールとを備える身元認証装置。
前記複数の次元は、話速、ラウドネス、音調、周波数及び音色のうち少なくとも二つを含む請求項４に記載の身元認証装置。
前記ユーザの身元に基づいて前記ユーザの権限を決定する第６の決定モジュールと、
前記ユーザの前記権限にマッチングされるタスクをトリガーして実行させるトリガーモジュールとさらに備える請求項４に記載の身元認証装置。
電子機器であって、
少なくとも一つのプロセッサと、
少なくとも一つのプログラムを記憶するメモリとを備え、
少なくとも一つの前記プログラムが少なくとも一つの前記プロセッサによって実行される場合、前記電子機器が請求項１から請求項３のいずれかに記載の身元認証方法を実現する電子機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項１から請求項３のいずれかに記載の身元認証方法が実現されるコンピュータ読み取り可能な記憶媒体。