JP2024508403A

JP2024508403A - データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム

Info

Publication number: JP2024508403A
Application number: JP2023548554A
Authority: JP
Inventors: ヤン，ウェイミン; ワン，シャオミン; グオ，ランジェン; タン，フイジョン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2021-05-17
Filing date: 2022-04-08
Publication date: 2024-02-27
Also published as: WO2022242365A1; US20230070762A1; CN113762971A

Abstract

本出願の実施例は、データ暗号化方法、装置、コンピュータ機器及び記憶媒体を開示し、コンピュータ技術分野に属する。当該方法は、コンピュータ機器により実行され、当該方法は、ターゲットオブジェクトの暗号化すべきターゲットデータ及び前記ターゲットオブジェクトに対応するオブジェクト情報を収集するステップ（２０１）であって、前記オブジェクト情報が、前記ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも１つを含むステップと、前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定するステップ（２０２）と、前記セキュリティファクタに基づいて前記ターゲットデータを暗号化し、前記ターゲットデータに対応する暗号化データを取得するステップ（２０３）と、を含む。当該方法による暗号化方式において、ターゲットデータを暗号化するためのセキュリティファクタには、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも１つが含まれ、暗号化データの安全性を向上させる。

Description

本出願は、２０２１年０５月１７日にて中国専利局に提出した、出願番号が２０２１１０５３６３６８．Ｘであって、発明の名称が「データ暗号化方法、装置、コンピュータ機器及び記憶媒体」である中国特許出願に基づく優先権を主張し、その全ての内容が援用により本出願に組み込まれる。

本出願の実施例は、コンピュータ技術分野に関し、特に、データ暗号化方法、装置、コンピュータ機器及び記憶媒体に関する。

コンピュータ技術の発展に伴い、電子支払いは既に一般的な支払い方式となり、支払い手段もますます多様化している。通常、支払いを行う場合、コンピュータ機器は、検証対象のデータを収集し、収集したデータをバックグラウンドのサーバに送信して検証してから支払いを行うことができ、この過程ではデータの安全性を保証するために、データを暗号化する必要がある。

本出願の実施例は、データ暗号化方法、装置、コンピュータ機器及び記憶媒体を提供し、暗号化データの安全性を向上させる。前記技術案は、以下の通りである。

一態様では、データ暗号化方法を提供し、前記方法は、
ターゲットオブジェクトの暗号化すべきターゲットデータ及び前記ターゲットオブジェクトに対応するオブジェクト情報を収集するステップであって、前記オブジェクト情報は、前記ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも１つを含むステップと、
前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定するステップと、
前記セキュリティファクタに基づいて前記ターゲットデータを暗号化し、前記ターゲットデータに対応する暗号化データを取得するステップと、を含む。

任意選択で、前記複数の第２のオーディオセグメントのそれぞれに対して特徴抽出を行い、各第２のオーディオセグメントの第２のセグメント特徴を取得するステップは、
前記第２のオーディオセグメント毎に、前記第２のオーディオセグメントをフーリエ変換し、変換された第２のオーディオセグメントを取得するステップと、
前記変換された第２のオーディオセグメントを前記第２のオーディオセグメントに対応するスペクトル特徴に変換し、前記スペクトル特徴を前記第２のオーディオセグメントの第２のセグメント特徴として決定するステップと、を含む。

任意選択で、前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定する前記ステップは、
前記参照公開鍵に従って前記オブジェクト特徴及び参照特徴をそれぞれ暗号化し、暗号化されたオブジェクト特徴と暗号化された参照特徴を前記ターゲットデータのセキュリティファクタとして決定するステップであって、前記参照特徴は、少なくともタイムスタンプ又はカウンタを含むステップを含む。

任意選択で、前記第１の分類モデルのトレーニングプロセスは、
サンプル画像特徴及び前記サンプル画像特徴に対応するサンプル顔画像が属するサンプルカテゴリを取得するステップであって、前記サンプルカテゴリは生体カテゴリ又は非生体カテゴリを含み、前記生体カテゴリは、前記サンプル顔画像が生体オブジェクトの画像であることを示し、前記非生体カテゴリは、前記サンプル顔画像が非生体オブジェクトの画像であることを示すステップと、
前記第１の分類モデルに基づいて、前記サンプル画像特徴に従って、前記サンプル顔画像が属する予測カテゴリを決定するステップと、
前記サンプルカテゴリと前記予測カテゴリに従って、前記第１の分類モデルをトレーニングするステップと、を含む。

任意選択で、前記第２の分類モデルのトレーニングプロセスは、
サンプルオーディオ特徴と前記サンプルオーディオ特徴に対応するサンプルオーディオ信号が属するサンプルカテゴリを取得するステップであって、前記サンプルカテゴリは生体カテゴリ又は非生体カテゴリを含み、前記生体カテゴリは、前記サンプルオーディオ信号が生体オブジェクトのオーディオ信号であることを示し、前記非生体カテゴリは、前記サンプルオーディオ信号が非生体オブジェクトのオーディオ信号であることを示すステップと、
前記第２の分類モデルに基づいて、前記サンプルオーディオ特徴に従って、前記サンプルオーディオ信号が属する予測カテゴリを決定するステップと、
前記サンプルカテゴリと前記予測カテゴリに従って、前記第２の分類モデルをトレーニングするステップと、を含む。

別の態様では、データ暗号化装置を提供し、前記装置は、
ターゲットオブジェクトの暗号化すべきターゲットデータ及び前記ターゲットオブジェクトに対応するオブジェクト情報を収集するための情報収集モジュールであって、前記オブジェクト情報は、前記ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも１つを含む情報収集モジュールと、
前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定するためのセキュリティファクタ取得モジュールと、
前記セキュリティファクタに基づいて前記ターゲットデータを暗号化し、前記ターゲットデータに対応する暗号化データを取得するためのデータ暗号化モジュールと、を含む。

任意選択で、前記オブジェクト情報は、前記顔画像と前記オーディオ信号を含み、前記装置は、
前記顔画像の画像特徴と前記オーディオ信号のオーディオ特徴をそれぞれ取得するためのオブジェクト特徴取得モジュールをさらに含み、
前記オブジェクト特徴取得モジュールは、さらに、前記画像特徴と前記オーディオ特徴をスティッチングし、スティッチングして得られた特徴を前記オブジェクト特徴として決定する。

任意選択で、前記データ暗号化モジュールは、前記ターゲットデータに対応する暗号化フォーマットと前記セキュリティファクタに基づいて、前記ターゲットデータを暗号化して、前記暗号化データを取得し、前記暗号化フォーマットは、前記暗号化データにおける前記セキュリティファクタと前記ターゲットデータとの相対的な位置関係を示す。

任意選択で、前記セキュリティファクタ取得モジュールは、前記オブジェクト情報が生体カテゴリに属する場合、前記参照公開鍵に従って前記オブジェクト特徴を暗号化し、暗号化された前記オブジェクト特徴を前記セキュリティファクタとして決定し、前記生体カテゴリは、前記オブジェクト情報が生体オブジェクトの情報であることを示す。

任意選択で、前記オブジェクト情報は前記顔画像を含み、前記装置は、
前記顔画像の画像特徴を取得し、前記画像特徴を複数の第１の領域特徴に分割するための第１のカテゴリ決定モジュールであって、前記顔画像は、複数の第１の顔領域を含み、各第１の領域特徴は、前記顔画像における１つの第１の顔領域に対応する第１のカテゴリ決定モジュールをさらに含み、
前記第１のカテゴリ決定モジュールはさらに、前記各第１の領域特徴に基づいて、前記各第１の領域特徴に対応する第１の顔領域が属するカテゴリを決定し、
前記第１のカテゴリ決定モジュールはさらに、前記複数の第１の顔領域における、属するカテゴリが前記生体カテゴリである第１の顔領域の第１の割合を決定し、
前記第１のカテゴリ決定モジュールはさらに、前記第１の割合が第１の参照割合より大きいことに応じて、前記顔画像が前記生体カテゴリに属すると決定する。

任意選択で、前記オブジェクト情報は、前記オーディオ信号を含み、前記装置は、
前記オーディオ信号のオーディオ特徴を取得し、前記オーディオ特徴を複数の第１のセグメント特徴に分割するための第２のカテゴリ決定モジュールであって、前記オーディオ信号は複数の第１のオーディオセグメントを含み、各第１のセグメント特徴は前記オーディオ信号における１つの第１のオーディオセグメントに対応する第２のカテゴリ決定モジュールをさらに含み、
前記第２のカテゴリ決定モジュールはさらに、前記各第１のセグメント特徴に基づいて、前記各第１のセグメント特徴に対応する第１のオーディオセグメントが属するカテゴリを決定し、
前記第２のカテゴリ決定モジュールはさらに、前記複数の第１のオーディオセグメントにおける、属するカテゴリが前記生体カテゴリである第１のオーディオセグメントの第２の割合を決定し、
前記第２のカテゴリ決定モジュールはさらに、前記第２の割合が第２の参照割合より大きいことに応じて、前記オーディオセグメントが前記生体カテゴリに属すると決定する。

任意選択で、前記第２のカテゴリ決定モジュールはさらに、前記第１のセグメント特徴毎に、前記第１のセグメント特徴と前記オーディオ特徴に基づいて、前記第１のセグメント特徴に対応する第１のオーディオセグメントが属するカテゴリを決定する。

任意選択で、前記オブジェクト情報は前記顔画像を含み、前記オブジェクト特徴は前記顔画像の画像特徴を含み、前記装置は、
前記顔画像を複数の第２の顔領域に分割するための画像特徴取得モジュールをさらに含み、
前記画像特徴取得モジュールはさらに、前記複数の第２の顔領域のそれぞれに対して特徴抽出を行い、各第２の顔領域の第２の領域特徴を取得し、
前記画像特徴取得モジュールはさらに、特徴取得モジュールに使用され、取得した複数の第２の領域特徴をスティッチングして、前記画像特徴を得るために使用される。

任意選択で、前記画像特徴取得モジュールはさらに、前記第２の顔領域毎に、前記第２の顔領域に対してエッジ検出を行い、前記第２の顔領域に対応する画像勾配を取得し、前記画像勾配を前記第２の顔領域の第２の領域特徴として決定し、前記画像勾配は、前記第２の顔領域における任意の２つの隣接するピクセルの変化率を示す。

任意選択で、前記オブジェクト情報は、前記オーディオ信号を含み、前記オブジェクト特徴は、前記オーディオ信号のオーディオ特徴を含み、前記装置は、
前記オーディオ信号を複数の第２のオーディオセグメントに分割するためのオーディオ特徴取得モジュールをさらに含み、
前記オーディオ特徴取得モジュールはさらに、前記複数の第２のオーディオセグメントのそれぞれに対して特徴抽出を行い、各第２のオーディオセグメントの第２のセグメント特徴を取得し、
前記オーディオ特徴取得モジュールはさらに、取得した複数の第２のセグメント特徴をスティッチングして、前記オーディオ特徴を得る。

任意選択で、前記オーディオ特徴取得モジュールはさらに、
前記第２のオーディオセグメント毎に、前記第２のオーディオセグメントをフーリエ変換し、変換された第２のオーディオセグメントを取得し、
前記変換された第２のオーディオセグメントを前記第２のオーディオセグメントに対応するスペクトル特徴に変換し、前記スペクトル特徴を前記第２のオーディオセグメントの第２のセグメント特徴として決定する。

任意選択で、前記セキュリティファクタ取得モジュールはさらに、前記参照公開鍵に従って前記オブジェクト特徴及び参照特徴をそれぞれ暗号化し、暗号化されたオブジェクト特徴と暗号化された参照特徴を前記ターゲットデータのセキュリティファクタとして決定し、前記参照特徴は、少なくともタイムスタンプ又はカウンタを含む。

任意選択で、前記オブジェクト情報は前記顔画像を含み、前記装置は、
第１の分類モデルに基づいて、前記顔画像の画像特徴を分類し、前記顔画像が属するカテゴリを得るための第１のカテゴリ決定モジュールをさらに含む。

任意選択で、前記装置は、
サンプル画像特徴と前記サンプル画像特徴に対応するサンプル顔画像が属するサンプルカテゴリを取得するための第１のトレーニングモジュールをさらに含み、
前記サンプルカテゴリは生体カテゴリ又は非生体カテゴリを含み、前記生体カテゴリは前記サンプル顔画像が生体オブジェクトの画像であることを示し、前記非生体カテゴリは前記サンプル顔画像が非生体オブジェクトの画像であることを示し、
前記第１のトレーニングモジュールはさらに、前記第１の分類モデルに基づいて、前記サンプル画像特徴に従って、前記サンプル顔画像が属する予測カテゴリを決定し、
前記第１のトレーニングモジュールはさらに、前記サンプルカテゴリと前記予測カテゴリに従って、前記第１の分類モデルをトレーニングする。

任意選択で、前記オブジェクト情報は、前記オーディオ信号を含み、前記装置は、
第２の分類モデルに基づいて、前記オーディオ信号のオーディオ特徴を分類し、前記オーディオ信号が属するカテゴリを得るための第２のカテゴリ決定モジュールをさらに含む。

任意選択で、前記装置は、
サンプルオーディオ特徴と前記サンプルオーディオ特徴に対応するサンプルオーディオ信号が属するサンプルカテゴリを取得するための第２のトレーニングモジュールをさらに含み、
前記サンプルカテゴリは生体カテゴリ又は非生体カテゴリを含み、前記生体カテゴリは前記サンプルオーディオ信号が生体オブジェクトのオーディオ信号であることを示し、前記非生体カテゴリは、前記サンプルオーディオ信号が非生体オブジェクトのオーディオ信号であることを示し、
前記第２のトレーニングモジュールはさらに、前記第２の分類モデルに基づいて、前記サンプルオーディオ特徴に従って、前記サンプルオーディオ信号が属する予測カテゴリを決定し、
前記第２のトレーニングモジュールはさらに、前記サンプルカテゴリと前記予測カテゴリに従って、前記第２の分類モデルをトレーニングする。

別の態様では、プロセッサとメモリを含むコンピュータ機器を提供し、前記メモリには少なくとも１つのコンピュータプログラムが記憶されており、前記少なくとも１つのコンピュータプログラムが前記プロセッサによってロードされて実行される場合、上記の態様に記載のデータ暗号化方法において実行される動作を実現する。

別の態様では、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体には少なくとも１つのコンピュータプログラムが記憶され、前記少なくとも１つのコンピュータプログラムがプロセッサによってロードされて実行される場合、上記の態様に記載のデータ暗号化方法において実行される動作を実現する。

別の態様では、コンピュータプログラム製品又はコンピュータプログラムを提供し、前記コンピュータプログラム製品又は前記コンピュータプログラムは、コンピュータプログラムコードを含み、前記コンピュータプログラムコードはコンピュータ読み取り可能な記憶媒体に記憶され、コンピュータ機器のプロセッサはコンピュータ読み取り可能な記憶媒体から前記コンピュータプログラムコードを読み取り、プロセッサは前記コンピュータプログラムコードを実行して、上記の態様に記載のデータ暗号化方法において実行される動作を前記コンピュータ機器に実現させる。

本出願の実施例で提供される方法、装置、コンピュータ機器、及び記憶媒体は、暗号化すべきターゲットデータを収集する際には、ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも１つを収集し、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも１つを暗号化することで、暗号化された特徴を、ターゲットデータを暗号化するセキュリティファクタとし、この暗号化方式では、ターゲットデータを暗号化するためのセキュリティファクタには、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも１つが含まれ、かつ、顔画像又はオーディオ信号の特徴がより複雑になり、解読されにくくなるため、暗号化データの安全性を向上させる。

本出願の実施例における技術案をより明確に説明するために、以下では、実施例の説明において使用する必要がある図面を簡単に紹介する。明らかに、以下の説明における図面は、本出願のいくつかの実施例に過ぎず、当業者にとって、創造的な労力をしない前提で、これらの図面に基づいて他の図面を得ることができる。
本出願の実施例による実施環境の概略図である。本出願の実施例によるデータ暗号化方法のフローチャートである。本出願の実施例による別のデータ暗号化方法のフローチャートである。本出願の実施例による画像収集インターフェースの概略図である。本出願の実施例によるオーディオ信号の概略図である。本出願の実施例によるモデルトレーニングの概略図である。本出願の実施例によるモデルに基づいてカテゴリを決定する概略図である。本出願の実施例による第１の分類モデルの構造概略図である。本出願の実施例による第１の分類ネットワークの構造概略図である。本出願の実施例による分類層の構造概略図である。本出願の実施例による第２の分類モデルの構造概略図である。本出願の実施例による別の第２の分類モデルの構造概略図である。本出願の実施例によるデータ暗号化装置の構造概略図である。本出願の実施例による別のデータ暗号化装置の構造概略図である。本出願の実施例による端末の構造概略図である。本出願の実施例によるサーバの構造概略図である。

本出願の実施例の目的、技術案及び利点をより明確にするために、以下は図面を参照しながら本出願の実施形態をさらに詳細に説明する。

本出願で使用される「第１の」、「第２の」などの用語は、本明細書では様々な概念を説明するために使用されてもよいが、これらの概念は、特に明記しない限り、これらの用語によって限定されない。これらの用語は、ある概念を別の概念と区別するためにのみ使用される。例えば、本出願の範囲から逸脱することなく、第１のオーディオセグメントを、第２のオーディオセグメントと呼び、第２のオーディオセグメントを、第１のオーディオセグメントと呼ぶことができる。

本出願で使用される「少なくとも１つ」、「複数」、「各」及び「いずれか」という用語について、少なくとも１つは、１つ又は２つ以上を含み、複数は、２つ以上を含み、各は、対応する複数のそれぞれを指し、いずれかは、複数のうちのいずれか１つを示す。例えば、複数のオーディオセグメントは、３つのオーディオセグメントを含み、各オーディオセグメントは、これらの３つのオーディオセグメントのそれぞれを指し、いずれかは、これらの３つのオーディオセグメントのうちいずれか１つを指し、１番目のオーディオセグメントであってもよく、２番目のオーディオセグメントであってもよく、又は３番目のオーディオセグメントであってもよい。

本出願の実施例で提供される技術案は、人工知能コンピュータービジョン技術、音声認識技術、機械学習などの技術に従って、顔画像又はオーディオ信号に対して特徴抽出を行い、顔画像又はオーディオ信号が生体オブジェクトを収集したものであるかどうかを決定する。

ブロックチェーンは、分散データストレージ、ポイントツーポイント伝送、コンセンサスメカニズム、暗号化アルゴリズムなどのコンピュータ技術の新しい応用モードである。ブロックチェーン（Ｂｌｏｃｋｃｈａｉｎ）は、本質的に１つの脱中心化されたデータベースであり、暗号化方式を使用して相互に関連付けられた一連のデータブロックであり、各データブロックには、一括ネットワークトランザクションの情報が含まれ、その情報の有効性（偽造防止）の検証及び次のブロックの生成に使用される。ブロックチェーンは、ブロックチェーン基盤プラットフォーム、プラットフォーム製品サービス層、及びアプリケーションサービス層を含む。

可能な実現形態では、本出願の実施例に係るコンピュータプログラムは、１つのコンピュータ機器に配置されて実行されてもよく、又は１つの場所に位置する複数のコンピュータ機器で実行されてもよく、又は複数の場所に分散され通信ネットワークを介して相互接続された複数のコンピュータ機器で実行されてもよく、複数の場所に分散され通信ネットワークを介して相互接続された複数のコンピュータ機器は、ブロックチェーンシステムを構成することができる。

可能な実現形態では、本出願の実施例における端末及びサーバは、ブロックチェーンにおけるノードであり、端末に対応するノードは、顔画像又はオーディオ信号を取得してターゲットデータを暗号化し、暗号化された暗号化データをブロックチェーンに記憶し、その後、当該ブロックチェーンにおけるサーバに対応するノードは、当該暗号化データを復号することができる。

本出願の実施例の理解を容易にするために、最初に、本出願の実施例に係るキーワードを解釈する。
教師あり学習：教師あり学習とは、ラベルを含むトレーニングデータセットを利用して機械学習することであり、トレーニングデータセットにおける各サンプルは、入力オブジェクトと、当該入力オブジェクトが所望する出力とを含む。
マルチモーダルフュージョン：マルチモーダルフュージョンは、マルチモーダル機械学習（ＭｕｌｔｉＭｏｄａｌＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，ＭＭＭＬ）であり、機械学習の方法によってマルチソースモーダル情報を処理して理解する能力を実現し、例えば、画像、ビデオ、オーディオ、セマンティクス間のマルチモーダル学習である。シングルモーダル表現学習は、コンピュータ機器で処理できる数値ベクトルとして情報を表現したり、さらにより高レベルの特徴ベクトルとして情報を抽象化したりすることができ、マルチモーダル表現学習は、マルチモーダル間の相補性を利用して、異なるモーダル間の冗長性を除去することによって、より良い特徴表現を学習することができる。マルチモーダル表現学習は、共同表現（ＪｏｉｎｔＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ）と協調表現（ＣｏｏｒｄｉｎａｔｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ）という２つの主要な研究方向を含む。
顔認証データ：顔認証トランザクションを行う場合、デバイスによって収集される顔データである。

本出願の実施例で提供されるデータ暗号化方法は、コンピュータ機器により実行され、当該コンピュータ機器は、端末又はサーバである。以下の各方法実施例は、端末によって実行される当該データ暗号化方法を例として説明し、別の実施例では、当該データ暗号化方法はサーバによって実行され、実行プロセスは以下の実施例と類似しており、ここで繰り返し説明しない。

図１は、本出願の実施例で提供される実施環境の概略図である。図１を参照して、当該実施環境は、端末１０１とサーバ１０２を含む。端末１０１とサーバ１０２は、無線又は有線ネットワーク介して接続される。

端末１０１は、サーバ１０２がサービスを提供するターゲットアプリケーションをインストールし、当該ターゲットアプリケーションによって、例えば、データ収集、データ伝送、メッセージインタラクション、支払いなどの機能を実現することができる。任意選択で、ターゲットアプリケーションは、端末１０１のオペレーティングシステムにおけるターゲットアプリケーション、又は、サードパーティに提供されるターゲットアプリケーションである。例えば、ターゲットアプリケーションは、支払いアプリケーションであり、当該支払いアプリケーションは、支払い機能を有し、勿論、当該支払いアプリケーションは、例えば、データ伝送機能、ショッピング機能、メッセージインタラクション機能などの他の機能を有することもできる。

任意選択で、端末１０１は、スマートフォン、タブレットコンピューター、ノートパソコン、デスクトップコンピュータ、スマートスピーカー、スマートウォッチ、顔認証デバイスなどであるが、これに限定されない。任意選択で、サーバ１０２は、独立した物理サーバであり、又は複数の物理サーバから構成されるサーバクラスタ又は分散システムであり、又はクラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインサービス、セキュリティサービス、ＣＤＮ（ＣｏｎｔｅｎｔＤｅｌｉｖｅｒｙＮｅｔｗｏｒｋ，コンテンツ配信ネットワーク）、及びビッグデータや人工知能プラットフォームなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバである。

図１に示す実施環境に基づいて、顔認証による支払いシーンを提供する。ユーザがショッピングする場合、顔認証支払いの方式で、業者に支払いを行う。この場合、端末は、支払うべき金額、支払いを行うユーザのアカウント情報、支払いを受け取る業者のアカウント情報、及びユーザの顔データを取得し、暗号化すべきターゲットデータ（顔認証データ）としてユーザの顔画像とユーザが発する音声を収集し、顔画像の画像特徴と音声のオーディオ特徴を暗号化し、暗号化された画像特徴と暗号化されたオーディオ特徴をセキュリティファクタとし、セキュリティファクタを採用してターゲットデータを暗号化して暗号化データを取得し、その後、端末は暗号化データをサーバに送信し、サーバは当該暗号化データを復号して、支払いが許可されているかどうかを検証し、検証に合格する場合、端末に支払い情報を返し、ユーザによる確認を経て支払いを完了する。

図２は、本出願の実施例で提供されるデータ暗号化方法のフローチャートである。本出願の実施例の実行主体は、端末である。図２を参照して、当該方法は、次のステップを含む。

２０１、端末は、ターゲットオブジェクトの暗号化すべきターゲットデータ及びターゲットオブジェクトに対応するオブジェクト情報を収集する。
ターゲットオブジェクトはいずれかのオブジェクトであり、ターゲットデータは暗号化すべきデータであり、オブジェクト情報はターゲットオブジェクトを記述するための情報であり、そして、当該オブジェクト情報はターゲットデータを暗号化するために使用され、ターゲットデータは少なくとも顔データ、支払いデータ、又は指紋データのうちの少なくとも１つを含み、オブジェクト情報は少なくともターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも１つを含む。
なお、端末が収集したデータ又は情報はいずれもユーザの十分な許可を得て収集したものであり、例えば、端末は、確認収集オプションを表示し、当該確認収集オプションをトリガすることによって端末がデータを収集することを許可することを提示し、ターゲットオブジェクトが当該確認収集オプションをトリガした後、端末は、当該確認収集オプションに対するトリガ動作に応答して、許可を獲得することを確認すると、ターゲットオブジェクトのターゲットデータ及びオブジェクト情報を収集する。

２０２、端末は、オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴をターゲットデータのセキュリティファクタとして決定する。
参照公開鍵は、端末に記憶され、オブジェクト情報を暗号化するために使用される公開鍵であり、例えば、参照公開鍵は、端末に対応するサーバから送信され、セキュリティファクタは、ターゲットデータを暗号化するために使用される。オブジェクト特徴は、顔画像の画像特徴、又はオーディオ信号のオーディオ特徴のうちの少なくとも１つを含む。任意選択で、オブジェクト特徴が画像特徴とオーディオ特徴を含む場合、参照公開鍵に従って画像特徴とオーディオ特徴をそれぞれ暗号化し、又は、まず画像特徴とオーディオ特徴をスティッチングし、スティッチングして得られた特徴をオブジェクト特徴として決定し、参照公開鍵に従ってオブジェクト特徴を暗号化する。

２０３、端末は、セキュリティファクタに基づいてターゲットデータを暗号化し、ターゲットデータに対応する暗号化データを取得する。
本出願の実施例では、端末は、セキュリティファクタを取得した後、当該セキュリティファクタに基づいてターゲットデータを暗号化し、セキュリティファクタとターゲットデータは任意の方式で組み合わせることができ、本出願の実施例では、これを制限しない。

関連技術では、通常、タイムスタンプを採用してデータに対して非対称暗号化を行うが、このような暗号化データは解読されやすく、安全性が低い。

本出願の実施例で提供される方法は、暗号化すべきターゲットデータを収集する際には、ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも１つを収集し、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも１つを暗号化することで、暗号化された特徴を、ターゲットデータを暗号化するセキュリティファクタとし、この暗号化方式では、ターゲットデータを暗号化するためのセキュリティファクタには、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも１つが含まれ、かつ、顔画像又はオーディオ信号の特徴がより複雑になり、解読されにくくなるため、暗号化データの安全性を向上させる。

図３は、本出願の実施例で提供されるデータ暗号化方法のフローチャートである。本出願の実施例の実行主体は、端末である。図３を参照して、当該方法は、次のステップを含む。

３０１、端末は、ターゲットオブジェクトの暗号化すべきターゲットデータ、ターゲットオブジェクトの顔画像、及びオーディオ信号を収集する。
ターゲットオブジェクトは、いずれかのオブジェクトであり、例えば、ターゲットオブジェクトは、支払いを必要とするユーザである。ターゲットデータは暗号化すべきデータであり、オブジェクト情報はターゲットオブジェクトを記述するための情報であり、そして、当該オブジェクト情報はターゲットデータを暗号化するために使用され、ターゲットデータは、少なくとも顔データ、支払いデータ、又は指紋データのうちの少なくとも１つを含み、オブジェクト情報は、少なくともターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも１つを含む。支払いデータは、支払うべき金額、支払いを行うアカウント情報、支払いを受け取るアカウント情報、又は他の情報を含む。

１つの可能な実現形態では、端末は、カメラによってターゲットオブジェクトの顔画像を収集し、マイクによってターゲットオブジェクトのオーディオ信号を収集する。１つの場合、ターゲットオブジェクトの顔画像とオーディオ信号は生体オブジェクトを収集して得られ、例えば、ターゲットオブジェクトはカメラの前方に立ち、端末はカメラによって顔画像を収集し、ターゲットオブジェクトはマイクに向かって話し、端末はマイクによってターゲットオブジェクトの言うことを収集し、又は、別の場合、ターゲットオブジェクトの顔画像とオーディオ信号は非生体オブジェクトを収集して得られ、例えば、カメラの前に他のコンピュータ機器を置き、コンピュータ機器のスクリーンにターゲットオブジェクトの顔画像を表示し、端末は、カメラによって当該顔画像を収集し、又はコンピュータ機器はターゲットオブジェクトのオーディオを再生し、端末はマイクによってオーディオ信号を収集する。

１つの可能な実現形態では、端末にはターゲットアプリケーションがインストールされており、端末は、当該ターゲットアプリケーションによってターゲットデータ、顔画像、及びオーディオ信号を収集する。例えば、ターゲットアプリケーションは支払いアプリケーションであり、ターゲットデータは顔データであり、ユーザがターゲットアプリケーションによって顔認証支払いを行う場合、ターゲットアプリケーションは、ターゲットオブジェクトの顔データ、顔画像、及びオーディオ信号を収集する。

１つの可能な実現形態では、端末は、画像収集インターフェースによって、顔画像を収集する。画像収集インターフェースには、画像収集領域と提示情報が含まれ、当該提示情報は、ユーザが実行する必要がある動作を提示するために使用され、収集された顔画像は、ＲＧＢ（ＲｅｄＧｒｅｅｎＢｌｕｅ）３色画像又は他のフォーマットの画像である。例えば、図４に示す画像収集インターフェース４０１を参照して、当該画像収集インターフェースには、「真ん中に立ってください」という提示情報を表示し、提示情報の下に円形の画像収集領域を表示し、顔画像を収集する過程では「処理中」という提示情報を表示し、画像収集領域に、認識された顔画像を表示する。

１つの可能な実現形態では、端末がオーディオ信号を収集する時のサンプリングレートとサンプリング深さは任意の数値であり、収集されたオーディオ信号はモノラルであってもよく、ダブルラルであってもよい。例えば、図５に示すオーディオ信号を参照して、当該オーディオ信号のサンプリングレートは１６ｋであり、サンプリング深さは１６ｂｉｔ（ビット）である。また、本出願の実施例は、収集されたオーディオ信号の時間長を制限せず、オーディオ信号は任意の時間長であってもよく、例えば、オーディオ信号は５秒、１０秒、又は他の時間長である。オーディオ信号の内容については、任意選択で、ターゲットオブジェクトが参照内容に応じてオーディオ信号を出し、オーディオ信号の内容は参照内容であり、例えば、参照内容は「私の音声を識別してください」であり、又はオーディオ信号の内容は任意の内容であってもよい。

また、ターゲットデータに顔データが含まれる場合、顔データと顔画像とに重複する内容が存在する。端末は、ターゲットデータに含まれる顔データと、ターゲットデータを暗号化するための顔画像を、異なる方式でそれぞれ収集してもよく、同一方式で収集してもよく、本出願の実施例はこれを制限しない。又は、端末は、顔データと、ターゲットデータを暗号化するための顔画像をそれぞれ収集し、又は、ターゲットオブジェクトの顔画像を収集した後、当該顔画像を暗号化すべき顔データとして直接に決定することで、顔画像と顔データを一度に取得することができ、本出願の実施例はこれを制限しない。

なお、本出願の実施例では、顔画像とオーディオ信号を収集する前後順序を制限せず、任意選択で、端末は顔画像とオーディオ信号を同時に収集し、又は、端末はまず顔画像を収集し、そしてオーディオ信号を収集し、又は、端末はまずオーディオ信号を収集し、そして顔画像を収集する。

３０２、端末は、顔画像に対して特徴抽出を行い、顔画像の画像特徴を取得し、オーディオ信号に対して特徴抽出を行い、オーディオ信号のオーディオ特徴を取得する。
画像特徴は、顔画像を記述するために使用され、当該画像特徴は、ベクトル、行列、又は他の形態の特徴である。オーディオ特徴は、オーディオ信号を記述するために使用され、当該オーディオ特徴は、ベクトル、行列、又は他の形態の特徴である。

端末は、顔画像とオーディオ信号に対して、それぞれ異なる方式で特徴抽出を行う。以下、顔画像の特徴抽出方式とオーディオ信号の特徴抽出方式をそれぞれ説明する。

１、画像特徴の抽出
１つの可能な実現形態では、端末は、顔画像を複数の第２の顔領域に分割し、複数の第２の顔領域のそれぞれに対して特徴抽出を行い、各第２の顔領域の第２の領域特徴を取得し、取得した複数の第２の領域特徴をスティッチングして、画像特徴を得る。任意の２つの第２の顔領域の間には、重複する領域がなく、複数の第２の領域特徴をスティッチングすることは、当該複数の第２の領域特徴に対応する第２の顔領域の顔画像における位置関係に応じて、複数の第２の領域特徴を順次首尾接続して、画像特徴を得ることを意味する。

任意選択で、端末は解像度に応じて顔画像を分割し、各第２の顔領域の解像度は同じであってもよく、異なってもよく、即ち、任意の２つの第２の顔領域のサイズは同じであってもよく、異なってもよい。例えば、顔画像の解像度は１９２０＊１０８０であり、顔画像を６０＊６０の解像度で分割し、複数の第２の顔領域を取得し、各第２の顔領域の解像度は６０＊６０である。

各第２の顔領域の特徴抽出方式について、１つの可能な実現形態では、端末は、第２の顔領域に対してエッジ検出を行い、第２の顔領域に対応する画像勾配を取得し、画像勾配を第２の顔領域の第２の領域特徴として決定し、画像勾配は、第２の顔領域における任意の２つの隣接するピクセルの変化率を示す。任意選択で、画像勾配は、勾配振幅及び勾配方向を含む。端末は、Ｓｏｂｅｌ（ソーベル）演算子、Ｓｃｈａｒｒ演算子、ラプラス演算子、又は他の方式を採用して第２の顔領域に対してエッジ検出を行う。

例えば、Ｓｏｂｅｌアルゴリズムで次の式を採用して画像勾配を決定する。

ただし、

は第２の顔領域の水平方向の勾配値を示し、

は第２の顔領域の垂直方向の勾配値を示し、

は第２の顔領域の勾配振幅を示し、

は第２の顔領域の勾配方向を示し、当該勾配方向は角度で示し、当該角度の範囲は０°－３６０°又は０°－１８０°である。

別の可能な実現形態では、端末は、収集された顔画像に対して直接に特徴抽出を行い、当該顔画像の画像特徴を取得し、顔画像を分割しない。

別の可能な実現形態では、端末は、画像特徴抽出モデルに基づいて、顔画像に対して特徴抽出を行い、顔画像の画像特徴を得る。画像特徴抽出モデルは、端末によってトレーニングされ記憶されてもよく、他のデバイスから当該端末に送信されてもよく、本出願の実施例はこれを制限しない。

２、オーディオ特徴の抽出
１つの可能な実現形態では、端末は、オーディオ信号を複数の第２のオーディオセグメントに分割し、複数の第２のオーディオセグメントのそれぞれに対して特徴抽出を行い、各第２のオーディオセグメントの第２のセグメント特徴を取得し、取得した複数の第２のセグメント特徴をスティッチングして、オーディオ特徴を得る。任意の２つの第２のオーディオセグメントの間には、重複する部分がなく、複数の第２のセグメント特徴をスティッチングすることは、当該複数の第２のオーディオ特徴に対応する第２のオーディオセグメントのオーディオ信号における前後順序に応じて、複数の第２のセグメント特徴を順次首尾接続し、オーディオ特徴を得ることである。

任意選択で、オーディオ信号の時間長に応じて分割し、端末は、参照時間長に応じてオーディオ信号を複数の第２のオーディオセグメントに分割し、各第２のオーディオセグメントの時間長は参照時間長であり、例えば、参照時間長は１秒、２秒、又は他の時間長である。又は、オーディオ信号に含まれるサンプリングポイントの数に応じて分割し、端末は、参照数に応じてオーディオ信号を複数の第２のオーディオセグメントに分割し、各第２のオーディオセグメントには、参照数のサンプリングポイントが含まれ、例えば、参照サンプリングポイントは、４０、８０、又は他の数である。

各第２のオーディオセグメントの特徴抽出方式について、１つの可能な実現形態では、端末は、第２のオーディオセグメントをフーリエ変換して、変換された第２のオーディオセグメントを取得し、変換された第２のオーディオセグメントを第２のオーディオセグメントに対応するスペクトル特徴に変換し、スペクトル特徴を第２のオーディオセグメントの第２のセグメント特徴として決定する。

任意選択で、端末は、第２のオーディオセグメントのメル逆スペクトル（Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＳｐｅｃｔｒｕｍ，ＭＦＣ）を抽出する。端末は、三角窓関数（ＴｒｉａｎｇｕｌａｒＯｖｅｒｌａｐｐｉｎｇＷｉｎｄｏｗ）を採用して、変換された第２のオーディオセグメントをメルスケールにマッピングし、得られた結果に対数を取り、さらに対数を取った結果を離散余弦変換し、メル周波数逆スペクトル係数（Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ，ＭＦＣＣｓ）を得て、得られたメル周波数逆スペクトル係数を第２のセグメント特徴として決定する。

別の可能な実現形態では、端末は、収集されたオーディオ信号に対して直接に特徴抽出を行い、当該オーディオ信号のオーディオ特徴を取得し、オーディオ信号を分割しない。

別の可能な実現形態では、端末は、オーディオ特徴抽出モデルに基づいて、オーディオ信号に対して特徴抽出を行い、オーディオ信号のオーディオ特徴を取得する。オーディオ特徴抽出モデルは、端末によってトレーニングされ記憶されてもよく、他のデバイスから当該端末に送信されてもよく、本出願の実施例はこれを制限しない。

なお、本出願の実施例は、画像特徴とオーディオ特徴を抽出する前後順序を制限しない。任意選択で、端末は、画像特徴とオーディオ特徴を同時に抽出し、又は、端末はまず画像特徴を抽出し、そしてオーディオ特徴を抽出し、又は、端末はまずオーディオ特徴を抽出し、そして画像特徴を抽出する。

３０３、端末は、画像特徴に基づいて、顔画像が属するカテゴリを決定し、オーディオ特徴に基づいて、オーディオ信号が属するカテゴリを決定する。
カテゴリは、生体カテゴリと非生体カテゴリを含み、オブジェクト情報が生体カテゴリに属することは、オブジェクト情報が生体オブジェクトの情報であることを示し、オブジェクト情報が非生体カテゴリに属することは、オブジェクト情報が非生体オブジェクトの情報であることを示す。即ち、顔画像が生体カテゴリに属することは、顔画像が生体のターゲットオブジェクトの画像であることを示し、顔画像が非生体カテゴリに属することは、顔画像が非生体のターゲットオブジェクトの画像であることを示し、オーディオ信号が生体カテゴリに属することは、オーディオ信号が生体のターゲットオブジェクトのオーディオ信号であることを示し、オーディオ信号が非生体カテゴリに属することは、オーディオ信号が非生体のターゲットオブジェクトのオーディオ信号であることを示す。例えば、端末は、ターゲットオブジェクトがマイクの前で言うことを収集する場合、収集されたオーディオ信号は生体カテゴリに属する。

顔画像の画像特徴については、１つの可能な実現形態では、端末は、取得した画像特徴を複数の第１の領域特徴に分割し、顔画像は複数の第１の顔領域を含み、各第１の領域特徴は、顔画像における１つの第１の顔領域に対応し、各第１の領域特徴に基づいて、各第１の領域特徴に対応する第１の顔領域が属するカテゴリを決定し、複数の第１の顔領域における、属するカテゴリが生体カテゴリである第１の顔領域の第１の割合を決定し、第１の割合が第１の参照割合より大きいことに応じて、顔画像が生体カテゴリに属すると決定し、第１の割合が参照割合より大きくないことに応じて、顔画像が非生体カテゴリに属すると決定する。第１の参照割合は任意の割合であり、例えば、第１の参照割合は８０％、８５％、又は他の割合であり、第１の顔領域は、上記のステップ３０２における第２の顔領域と同じであってもよく、異なってもよい。

オーディオ信号のオーディオ特徴については、１つの可能な実現形態では、端末は、取得したオーディオ特徴を複数の第１のセグメント特徴に分割し、オーディオ信号は複数の第１のオーディオセグメントを含み、各第１のセグメント特徴は、オーディオ信号における１つの第１のオーディオセグメントに対応し、各第１のセグメント特徴に基づいて、各第１のセグメント特徴に対応する第１のオーディオセグメントが属するカテゴリを決定し、複数の第１のオーディオセグメントにおける、属するカテゴリが生体カテゴリである第１のオーディオセグメントの第２の割合を決定し、第２の割合が第２の参照割合より大きいことに応じて、オーディオセグメントが生体カテゴリに属すると決定し、第２の割合が第２の参照割合より大きくないことに応じて、オーディオセグメントが非生体カテゴリに属すると決定する。第２の参照割合は任意の割合であり、例えば、第２の参照割合は８０％、８５％、又は他の割合であり、第１のオーディオセグメントは上記のステップ３０２における第２のオーディオセグメントと同じであってもよく、異なってもよい。

第１のセグメント特徴毎に、１つの可能な実現形態では、端末は、第１のセグメント特徴とオーディオ特徴に基づいて、第１のセグメント特徴に対応する第１のオーディオセグメントが属するカテゴリを決定する。つまり、第１のオーディオセグメントが属するカテゴリを決定する場合、第１のオーディオセグメントの第１のセグメント特徴及びオーディオ信号のオーディオ特徴を考慮することにより、第１のオーディオセグメントが属するカテゴリをより正確に決定することができる。

別の可能な実現形態では、端末は、第１の分類モデルに基づいて、顔画像の画像特徴を分類し、顔画像が属するカテゴリを得る。端末は、第２の分類モデルに基づいて、オーディオ信号のオーディオ特徴を分類し、オーディオ信号が属するカテゴリを得る。端末が第１の分類モデルと第２の分類モデルに基づいて分類する詳細なプロセス及びモデル構造の詳細について、以下の図６－１２に示す実施例を参照して、ここで繰り返し説明しない。

３０４、端末は、顔画像とオーディオ信号が生体カテゴリに属する場合、参照公開鍵に従って、画像特徴とオーディオ特徴をそれぞれ暗号化し、暗号化された画像特徴と暗号化されたオーディオ特徴をセキュリティファクタとして決定する。

本出願の実施例では、顔画像とオーディオ信号が生体カテゴリに属する場合にのみ、画像特徴とオーディオ特徴を暗号化し、その後に復号する場合にも、生体カテゴリに属する顔画像の画像特徴と生体カテゴリに属するオーディオ信号のオーディオ特徴を採用して復号する必要もあり、セキュリティファクタの安全性をさらに向上させる。

１つの可能な実現形態では、端末は、参照特徴を暗号化し、暗号化された参照特徴もセキュリティファクタとすることもできる。参照特徴は、タイムスタンプ、カウンタ、又は乱数のうちの少なくとも１つを少なくとも含む。例えば、セキュリティファクタのフォーマットは次の通りである。
｛ｍａｇｉｃ＿ｎｕｍ｝｛ｄｅｖｉｃｅ＿ｉｎｆｏ｝｛ｓｉｇｎ＿ｖｅｒｓｉｏｎ｝｛ｔｉｍｅｓｔａｍｐ｝｛ｃｏｕｎｔｅｒ｝｛ｒａｎｄｏｍ｝｛マルチモーダル学習セキュリティファクタ｝
ただし、ｍａｇｉｃ＿ｎｕｍは、セキュリティファクタの全体的なフォーマットを示し、ｄｅｖｉｃｅ＿ｉｎｆｏは、セキュリティファクタを決定するデバイス情報を示し、ｓｉｇｎ＿ｖｅｒｓｉｏｎは、暗号化時の署名を示し、ｔｉｍｅｓｔａｍｐは、タイムスタンプを示し、ｃｏｕｎｔｅｒはカウンタを示し、ｒａｎｄｏｍは、乱数を示し、マルチモーダル学習セキュリティファクタは、暗号化された画像特徴と暗号化されたオーディオ特徴を示す。

なお、本出願の実施例は、顔画像とオーディオ信号がいずれも生体カテゴリに属する場合にのみ、画像特徴とオーディオ特徴を暗号化することを例として説明したが、別の実施例では、端末は、上記のステップ３０３を実行しなく、即ち、端末は、顔画像とオーディオ信号が属するカテゴリを決定しなく、画像特徴とオーディオ特徴を取得した後、直接に暗号化し、又は、別の実施例では、顔画像とオーディオ信号がいずれも生体カテゴリに属する必要がなく、顔画像とオーディオ信号のいずれか一方が生体カテゴリに属していれば、画像特徴とオーディオ特徴を暗号化することができる。

３０５、端末は、セキュリティファクタに基づいてターゲットデータを暗号化し、ターゲットデータに対応する暗号化データを取得する。

端末は、ターゲットデータに対応する暗号化フォーマットを予め設置し、暗号化フォーマットに従って暗号化し、即ち、ターゲットデータに対応する暗号化フォーマットとセキュリティファクタに基づいて、ターゲットデータを暗号化して暗号化データを取得する。当該暗号化フォーマットは、暗号化データにおけるセキュリティファクタとターゲットデータとの間の相対的な位置関係を示し、例えば、セキュリティファクタは、ターゲットデータの前にあり、又は、セキュリティファクタはターゲットデータの後にある。セキュリティファクタには、画像特徴、オーディオ特徴、カウンタ、及びタイムスタンプなどの特徴が含まれ、異なる特徴は、画像特徴、オーディオ特徴、カウンタ、タイムスタンプという順序で配列されているが、勿論、セキュリティファクタにおける異なる特徴は、他の順序で配列することもでき、本出願はこれを制限しない。例えば、暗号化データのフォーマットは次の通りである。
｛ｍａｇｉｃ＿ｎｕｍ｝｛ｄｅｖｉｃｅ＿ｉｎｆｏ｝｛ｓｉｇｎ＿ｖｅｒｓｉｏｎ｝｛ｔｉｍｅｓｔａｍｐ｝｛ｃｏｕｎｔｅｒ｝｛並行マルチモーダル学習セキュリティファクタ｝｛ｒａｎｄｏｍ｝｛ｐａｙｌｏａｄ｝
ただし、ｍａｇｉｃ＿ｎｕｍはセキュリティファクタの全体的なフォーマットを示し、ｄｅｖｉｃｅ＿ｉｎｆｏはセキュリティファクタを決定するデバイス情報であり、ｓｉｇｎ＿ｖｅｒｓｉｏｎは暗号化時の署名であり、ｔｉｍｅｓｔａｍｐはタイムスタンプを示し、ｃｏｕｎｔｅｒはカウンタを示し、ｒａｎｄｏｍは乱数を示し、ｐａｙｌｏａｄはターゲットデータを示し、並行マルチモーダル学習セキュリティファクタは、暗号化された画像特徴と暗号化されたオーディオ特徴をスティッチングして得られたオブジェクト特徴を示す。

また、１つの可能な実現形態では、端末は、暗号化データを取得した後、暗号化データをサーバに送信し、当該サーバは、暗号化データを復号し、ターゲットデータとセキュリティファクタを取得し、例えば、当該暗号化フォーマットが示す暗号化データにおけるセキュリティファクタとターゲットデータとの相対的な位置関係に従って、暗号化データからターゲットデータとセキュリティファクタを解析する。しかし、この時、当該ターゲットデータを復号されたデータとして直接に決定するのではなく、まずセキュリティファクタを検証する必要がある。従って、参照公開鍵に対応する参照秘密鍵に従って、セキュリティファクタを復号してセキュリティファクタに含まれる画像特徴とオーディオ特徴を取得し、予め記憶されたターゲットオブジェクトの顔画像とオーディオ信号を取得し、セキュリティファクタに含まれる画像特徴とオーディオ特徴が、サーバに記憶されている顔画像の画像特徴とオーディオ信号のオーディオ特徴と一致するかどうかを決定する。一致すると、検証に合格し、ターゲットデータを復号されたデータとして決定し、即ち、サーバは、現在支払いに使用されている顔データ、支払いデータ、又は指紋データのうちの少なくとも１つを決定し、検証合格情報を端末に返し、端末は、支払い確認インターフェースを表示し、ターゲットオブジェクトは当該支払い確認インターフェースを介して支払いを確認することで、上記のターゲットデータに基づいて支払いを完了する。サーバは、予め記憶された顔画像の画像特徴とオーディオ信号のオーディオ特徴を取得する際に、ステップ３０２と同じ特徴取得方式を採用して、特徴取得方式が異なるため取得した特徴に違いが生じ、検証に影響することを避けることができる。

任意選択で、セキュリティファクタに含まれる画像特徴がサーバに記憶されている顔画像の画像特徴と一致しない場合、又はセキュリティファクタに含まれるオーディオ特徴がサーバに記憶されているオーディオ信号のオーディオ特徴と一致しない場合、検証が失敗し、サーバは検証失敗情報を端末に返し、端末は、検証失敗インターフェースを表示してターゲットオブジェクトに再検証を提示する。

任意選択で、サーバに記憶されるターゲットオブジェクトの顔画像とオーディオ信号は、生体ターゲットオブジェクトを収集して得られたものであり、生体カテゴリに属し、上記のステップ３０４に基づいて、端末は、顔画像とオーディオ信号が生体カテゴリに属する場合、暗号化してこそ、セキュリティファクタに含まれる画像特徴及びオーディオ特徴がサーバに記憶されている顔画像の画像特徴及びオーディオ信号のオーディオ特徴と一致することを保証することができ、ひいては、検証に合格する。

なお、図３に示す実施例では、オブジェクト情報が顔画像とオーディオ信号を含むことのみを例として説明したが、別の実施例では、オブジェクト情報は、顔画像を含み、参照公開鍵に従って顔画像の画像特徴を暗号化し、暗号化された画像特徴をターゲットデータのセキュリティファクタとして決定し、当該セキュリティファクタに基づいてターゲットデータを暗号化して暗号化データを取得し、又は、オブジェクト情報は、オーディオ信号を含み、参照公開鍵に従ってオーディオ信号のオーディオ特徴を暗号化し、暗号化されたオーディオ特徴をターゲットデータのセキュリティファクタとして決定し、当該セキュリティファクタに基づいてターゲットデータを暗号化して暗号化データを取得する。

本出願の実施例で提供される方法は、暗号化すべきターゲットデータを収集する際には、ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも１つを収集し、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも１つを暗号化し、暗号化された特徴を、ターゲットデータを暗号化するセキュリティファクタとする。この暗号化方式では、ターゲットデータを暗号化するためのセキュリティファクタには顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも１つが含まれ、かつ、顔画像又はオーディオ信号の特徴がより複雑になり、解読されにくくなるため、暗号化データの安全性を向上させる。

そして、本出願の実施例では、顔画像とオーディオ信号が属するカテゴリを決定し、顔画像が生体カテゴリに属し、かつ、オーディオ信号が生体カテゴリに属する場合、暗号化された画像特徴とオーディオ特徴をセキュリティファクタとして決定し、それにより、その後復号する必要がある場合、今回収集した顔画像とオーディオ信号を、予め記憶された生体カテゴリに属する顔画像とオーディオ信号に従って検証すると、生体カテゴリに属する顔画像とオーディオ信号のみが検証に合格でき、生体カテゴリに属していない顔画像とオーディオ信号が検証に合格できないので、セキュリティファクタの安全性をさらに向上させ、暗号化データの安全性を向上させる。

そして、本出願の実施例では、顔画像を複数の顔領域に分割し、各顔領域が属するカテゴリをそれぞれ決定し、さらに生体カテゴリに属する顔領域が占める割合を投票で決定し、得られた割合に従って、顔画像が属するカテゴリを決定することによれば、個別の分類が間違っている場合でも、顔画像が属するカテゴリを決定することに大きな影響を与えず、分類をより正確にすることができる。同様に、オーディオ信号を複数のオーディオセグメントに分割し、各オーディオセグメントが属するカテゴリをそれぞれ決定し、さらに生体カテゴリに属するオーディオセグメントが占める割合を投票で決定し、得られた割合に従ってオーディオ信号が属するカテゴリを決定することによれば、個別の分類が間違っている場合でも、オーディオ信号が属するカテゴリを決定することに大きな影響を与えず、分類をより正確にすることができる。

次に、第１の分類モデルに基づいて顔画像のカテゴリを決定するプロセスと、第２の分類モデルに基づいてオーディオ信号のカテゴリを決定するプロセスとを説明する。

第１の分類モデルと第２の分類モデルに基づいてカテゴリを決定する前に、まず第１の分類モデルと第２の分類モデルをそれぞれトレーニングする必要があり、図６に示すトレーニングプロセスを参照して、端末は、トレーニングモジュールとモデル評価モジュールを含み、端末は、サンプル顔画像と当該サンプル顔画像が属するサンプルカテゴリを取得し、当該サンプル顔画像のサンプル画像特徴を抽出し、第１の分類モデルを決定し、トレーニングモジュールによって、決定された第１の分類モデルにサンプル画像特徴を入力し、当該第１の分類モデルに基づいてサンプル顔画像が属する予測カテゴリを出力し、モデル評価モジュールに送信し、モデル評価モジュールによって、サンプルカテゴリと予測カテゴリとの間の違いに基づいて、第１の分類モデルにおけるモデルパラメータを調整することで、トレーニングされた第１の分類モデルを得る。同様に、端末は、サンプルオーディオ信号と当該サンプルオーディオ信号が属するサンプルカテゴリを取得し、当該サンプルオーディオ信号のサンプルオーディオ特徴を抽出し、第２の分類モデルを決定し、当該トレーニングモジュールによって、決定された第２の分類モデルにサンプルオーディオ特徴を入力し、当該第２の分類モデルに基づいてサンプルオーディオ信号が属する予測カテゴリを出力し、モデル評価モジュールに送信し、モデル評価モジュールによって、サンプルカテゴリと予測カテゴリとの間の違いに基づいて、第２の分類モデルにおけるモデルパラメータを調整することで、トレーニングされた第２の分類モデルを得る。

任意選択で、端末は、サンプル画像特徴とサンプル画像特徴に対応するサンプル顔画像が属するサンプルカテゴリを取得し、サンプルカテゴリは生体カテゴリ又は非生体カテゴリを含み、生体カテゴリは、サンプル顔画像が生体オブジェクトの画像であることを示し、非生体カテゴリは、サンプル顔画像が非生体オブジェクトの画像であることを示し、第１の分類モデルに基づいて、サンプル画像特徴に従って、サンプル顔画像が属する予測カテゴリを決定し、サンプルカテゴリと予測カテゴリに従って、第１の分類モデルをトレーニングする。

端末は、サンプルオーディオ特徴とサンプルオーディオ特徴に対応するサンプルオーディオ信号が属するサンプルカテゴリを取得し、サンプルカテゴリは生体カテゴリ又は非生体カテゴリを含み、生体カテゴリは、サンプルオーディオ信号が生体オブジェクトのオーディオ信号であることを示し、非生体カテゴリは、サンプルオーディオ信号が非生体オブジェクトのオーディオ信号であることを示し、第２の分類モデルに基づいて、サンプルオーディオ特徴に従って、サンプルオーディオ信号が属する予測カテゴリを決定し、サンプルカテゴリと予測カテゴリに従って、第２の分類モデルをトレーニングする。

１つの可能な実現形態では、モデルをトレーニングする前に、当該第１の分類モデルと第２の分類モデルのハイパーパラメータである反復回数（ｅｐｏｃｈ）、分割された顔領域又はオーディオセグメントの数（ｂａｔｃｈ）、及び学習率（ｌｅａｒｎｉｎｇｒａｔｅ）を予め設置する。例えば、第１の分類モデルのハイパーパラメータは、ｂａｔｃｈ（１２８）、ｅｐｏｃｈ（１０００）、及びｌｅａｒｎｉｎｇｒａｔｅ（０．０００１）であり、第２の分類モデルのハイパーパラメータは、ｂａｔｃｈ（１２８）、ｅｐｏｃｈ（５０００）、及びｌｅａｒｎｉｎｇｒａｔｅ（０．０００１）である。

本出願の実施例では、第１の分類モデルと第２の分類モデルの反復トレーニング回数が参照回数に達した場合、又は第１の分類モデルと第２の分類モデルのトレーニング時間長が参照時間長に達した場合、第１の分類モデルと第２の分類モデルのトレーニングを終了し、トレーニングされた第１の分類モデルと第２の分類モデルをｐｂ（ファイル拡張子）フォーマットのファイルとして記憶する。

図７を参照して、端末は、モデル応用モジュールと出力モジュールをさらに含み、端末は、ターゲットオブジェクトの顔画像とオーディオ信号を収集し、トレーニングされた第１の分類モデルと第２の分類モデルに基づいて、顔画像が属するカテゴリとオーディオ信号が属するカテゴリをそれぞれ決定する。即ち、端末は、顔画像とオーディオ信号を収集し、顔画像の画像特徴とオーディオ信号のオーディオ特徴をそれぞれ抽出し、画像特徴とオーディオ特徴をモデル応用モジュールに入力し、モデル応用モジュールによって、第１の分類モデルに基づいて、画像特徴を分類し、出力モジュールによって画像特徴に対応する顔画像が属するカテゴリを出力し、モデル応用モジュールによって、第２の分類モデルに基づいて、オーディオ特徴を分類し、出力モジュールによって、オーディオ特徴に対応するオーディオ信号が属するカテゴリを出力する。

１つの可能な実現形態では、第１の分類モデルの構造について図８を参照して、当該第１の分類モデルは、第１の入力ネットワーク８０１、複数の第１の分類ネットワーク８０２、及び第１の出力ネットワーク８０３を含み、第１の入力ネットワーク８０１は、入力された画像特徴を複数の第２の領域特徴に分割し、各第２の分類ネットワーク８０２は、１つの第２の領域特徴に対応する第２の顔領域を分類し、第１の出力ネットワーク８０３は、顔画像が属するカテゴリを出力する。

図９を参照して、各分類ネットワーク８０２は、入力層９０１、次元調整層９０２、第１の分類層９０３、第１の次元削減層９０４、第２の分類層９０５、第２の次元削減層９０６、第３の分類層９０７、平均プーリング層（ＡｖｅｒａｇｅＰｏｏｌｉｎｇ）９０８、活性化層（Ｄｒｏｐｏｕｔ）９０９、及び正規化層（Ｓｏｆｔｍａｘ）９１０を含む。例えば、第１の分類モデルに入力された特徴の次元は２９９＊２９９＊３であり、次元調整層９０２を経て出力された特徴の次元は３５＊３５＊２５６であり、第１の分類層９０２を経て特徴を初歩的に分類し、出力された特徴の次元は３５＊３５＊２５６のままであり、第１の次元削減層９０３により出力された特徴の次元は１７＊１７＊８９６であり、その後、第２の分類層９０５、第２の次元削減層９０６、第３の分類層９０７で処理し、出力された特徴の次元は８＊８＊１７９２であり、そして、平均プーリング層９０８で処理された後、１つの数値が出力され、当該数値が活性化層９０９と正規化層９１０で処理された後、分類結果が出力される。任意選択で、第１の分類層９０３、第２の分類層９０５、及び第３の分類層９０７について、分類ネットワーク８０２は、複数の第１の分類層９０３、複数の第２の分類層９０５、及び複数の第３の分類層９０７を含む。勿論、別の実施例では、当該分類ネットワーク８０２のネットワーク構造は、他の形態であってもよく、本出願ではこれを限定しない。

任意選択で、いずれかの分類層について、当該分類層の構造は図１０を参照して、入力層に第２の領域特徴を入力し、３つの畳み込みコアが３＊３の畳み込み層を介して、第２の領域特徴を処理し、処理された第２の領域特徴をそれぞれ畳み込みコアが３＊３の畳み込み層及び１つの最大プーリング層で再び処理し、畳み込み層によって処理された特徴と最大プーリング層によって処理された特徴を第１の全接続層でスティッチングし、スティッチングして得られた第１の特徴を１つの畳み込みコアが１＊１の畳み込み層と畳み込みコアが３＊３の畳み込み層で再び処理し、第２の特徴を得て、スティッチングして得られた第１の特徴を１つの畳み込みコアが１＊１の畳み込み層、１つの畳み込みコアが７＊１の畳み込み層、１つの畳み込みコアが１＊７の畳み込み層、及び１つの畳み込みコアが３＊３の畳み込み層で再び処理し、第３の特徴を得て、第２の特徴と第３の特徴を第２の全接続層でスティッチングし、スティッチングして得られた第４の特徴を１つの畳み込みコアが３＊３の畳み込み層で処理し、第５の特徴を得て、第２の特徴を最大プーリング層で処理し、第６の特徴を得て、第３の全接続層で第５の特徴と第６の特徴をスティッチングし、第２の領域特徴に対応する第２の顔領域が属するカテゴリを得る。勿論、別の実施例では、当該いずれかの分類層のネットワーク構造は、他の形態であってもよく、本出願ではこれを限定しない。

１つの可能な実現形態では、第２の分類モデルの構造について図１１を参照して、当該第２の分類モデルは、第２の入力ネットワーク１１０１、複数の第２の分類ネットワーク１１０２、及び第２の出力ネットワーク１１０３を含み、第２の入力ネットワーク１１０１は、入力されたオーディオ特徴を複数の第２のセグメント特徴に分割し、各第２のセグメントネットワーク１１０２は、１つの第２のセグメント特徴に対応する第２のオーディオセグメントを分類し、第２の出力ネットワーク１１０３は、オーディオ信号が属するカテゴリを出力する。

任意選択で、当該第２の分類モデルの詳細な分類プロセスについて図１２を参照して、オーディオ特徴と複数の第２のセグメント特徴を入力し、オーディオ特徴は１つの畳み込み層と深度処理層で処理され、第２のセグメント特徴毎に、処理されたオーディオ特徴と当該第２のセグメント特徴を再び複数の畳み込み層と深度処理層で処理し、処理された第２のセグメント特徴を得て、特徴選択層で、複数の処理された第２のセグメント特徴から最大の第２のセグメント特徴を選択し、さらに選択された特徴と前の畳み込み層から出力された特徴を特徴選択層の後の次の畳み込み層に入力し、同様に、再び特徴選択層と複数の畳み込み層を介して、各第２のセグメント特徴に対応する第２のオーディオセグメントが属するカテゴリを得て、オーディオ特徴の処理結果と複数の第２のオーディオセグメントが属するカテゴリを出力層に入力し、出力層によって処理した後、オーディオ信号が属するカテゴリを出力する。

可能な実現形態では、第１の分類モデルと第２の分類モデルの分類精度をさらに向上させるために、第１の分類モデルと第２の分類モデルは、残差ネットワーク構造、及びＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ（バッチ規格化）構造を含む必要がある。残差ネットワーク構造は、特徴処理プロセスにおけるネットワークの劣化問題の発生を防止し、モデルの処理速度を高めることができ、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎは、勾配の消失を回避するためにモデルの収束速度を速めることができる。

可能な実現形態では、上記の第１の分類モデルと第２の分類モデルの出力は、０又は１であり、出力が０であれば、非生体カテゴリに属することを示し、出力が１であれば、生体カテゴリに属することを示す。

図１３は、本出願の実施例で提供されるデータ暗号化装置の構造概略図である。図１３を参照して、当該装置は、
ターゲットオブジェクトの暗号化すべきターゲットデータ及びターゲットオブジェクトに対応するオブジェクト情報を収集するための情報収集モジュール１３０１であって、オブジェクト情報は、ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも１つを含む情報収集モジュール１３０１と、
オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴をターゲットデータのセキュリティファクタとして決定するためのセキュリティファクタ取得モジュール１３０２と、
セキュリティファクタに基づいてターゲットデータを暗号化し、ターゲットデータに対応する暗号化データを取得するためのデータ暗号化モジュール１３０３と、を含む。

本出願の実施例で提供される装置は、暗号化すべきターゲットデータを収集する場合、ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも１つを収集し、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも１つを暗号化して、暗号化された特徴を、ターゲットデータを暗号化するセキュリティファクタとする。この暗号化方式では、ターゲットデータを暗号化するためのセキュリティファクタには、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも１つが含まれ、かつ、顔画像又はオーディオ信号の特徴がより複雑になり、解読されにくくなるため、暗号化データの安全性を向上させる。

任意選択で、オブジェクト情報は、顔画像とオーディオ信号を含み、図１４を参照して、当該装置は、
顔画像の画像特徴とオーディオ信号のオーディオ特徴をそれぞれ取得するためのオブジェクト特徴取得モジュール１３０４をさらに含み、
オブジェクト特徴取得モジュール１３０４はさらに、画像特徴とオーディオ特徴をスティッチングし、スティッチングして得られた特徴をオブジェクト特徴として決定する。

任意選択で、データ暗号化モジュール１３０３は、ターゲットデータに対応する暗号化フォーマットとセキュリティファクタに基づいて、ターゲットデータを暗号化して暗号化データを取得し、暗号化フォーマットは、暗号化データにおけるセキュリティファクタとターゲットデータとの間の相対的な位置関係を示す。

任意選択で、セキュリティファクタ取得モジュール１３０２は、オブジェクト情報が生体カテゴリに属する場合、参照公開鍵に従ってオブジェクト特徴を暗号化し、暗号化されたオブジェクト特徴をセキュリティファクタとして決定し、生体カテゴリは、オブジェクト情報が生体オブジェクトの情報であることを示す。

任意選択で、オブジェクト情報は顔画像を含み、図１４を参照して、当該装置は、
顔画像の画像特徴を取得し、画像特徴を複数の第１の領域特徴に分割するための第１のカテゴリ決定モジュール１３０５であって、顔画像は複数の第１の顔領域を含み、各第１の領域特徴は、顔画像における１つの第１の顔領域に対応する第１のカテゴリ決定モジュール１３０５をさらに含み、
第１のカテゴリ決定モジュール１３０５はさらに、各第１の領域特徴に基づいて、各第１の領域特徴に対応する第１の顔領域が属するカテゴリを決定し、
第１のカテゴリ決定モジュール１３０５はさらに、複数の第１の顔領域における、属するカテゴリが生体カテゴリである第１の顔領域の第１の割合を決定し、
第１のカテゴリ決定モジュール１３０５はさらに、第１の割合が第１の参照割合より大きいことに応じて、顔画像が生体カテゴリに属すると決定する。

任意選択で、オブジェクト情報はオーディオ信号を含み、図１４を参照して、当該装置は、
オーディオ信号のオーディオ特徴を取得し、オーディオ特徴を複数の第１のセグメント特徴に分割するための第２のカテゴリ決定モジュール１３０６であって、オーディオ信号は複数の第１のオーディオセグメントを含み、各第１のセグメント特徴はオーディオ信号における１つの第１のオーディオセグメントに対応する第２のカテゴリ決定モジュール１３０６をさらに含み、
第２のカテゴリ決定モジュール１３０６はさらに、各第１のセグメント特徴に基づいて、各第１のセグメント特徴に対応する第１のオーディオセグメントが属するカテゴリを決定し、
第２のカテゴリ決定モジュール１３０６はさらに、複数の第１のオーディオセグメントにおける、属するカテゴリが生体カテゴリである第１のオーディオセグメントの第２の割合を決定し、
第２のカテゴリ決定モジュール１３０６はさらに、第２の割合が第２の参照割合より大きいことに応じて、オーディオセグメントが生体カテゴリに属すると決定する。

任意選択で、図１４を参照して、第２のカテゴリ決定モジュール１３０６はさらに、第１のセグメント特徴毎に、第１のセグメント特徴とオーディオ特徴に基づいて、第１のセグメント特徴に対応する第１のオーディオセグメントが属するカテゴリを決定する。

任意選択で、オブジェクト情報は、顔画像を含み、オブジェクト特徴は、顔画像の画像特徴を含み、図１４を参照して、当該装置は、
顔画像を複数の第２の顔領域に分割するための画像特徴取得モジュール１３０７をさらに含み、
画像特徴取得モジュール１３０７はさらに、複数の第２の顔領域のそれぞれに対して特徴抽出を行い、各第２の顔領域の第２の領域特徴を取得し、
画像特徴取得モジュール１３０７はさらに、取得した複数の第２の領域特徴をスティッチングして、画像特徴を得る。

任意選択で、図１４を参照して、画像特徴取得モジュール１３０７はさらに、第２の顔領域毎に、第２の顔領域に対してエッジ検出を行い、第２の顔領域に対応する画像勾配を取得し、画像勾配を第２の顔領域の第２の領域特徴として決定し、画像勾配は、第２の顔領域における任意の２つの隣接するピクセルの変化率を示す。

任意選択で、オブジェクト情報はオーディオ信号を含み、オブジェクト特徴は、オーディオ信号のオーディオ特徴を含み、図１４を参照して、当該装置は、
オーディオ信号を複数の第２のオーディオセグメントに分割するためのオーディオ特徴取得モジュール１３０８をさらに含み、
オーディオ特徴取得モジュール１３０８はさらに、複数の第２のオーディオセグメントのそれぞれに対して特徴抽出を行い、各第２のオーディオセグメントの第２のセグメント特徴を取得し、
オーディオ特徴取得モジュール１３０８はさらに、取得した複数の第２のセグメント特徴をスティッチングして、オーディオ特徴を得る。

任意選択で、図１４を参照して、オーディオ特徴取得モジュール１３０８はさらに、
第２のオーディオセグメント毎に、第２のオーディオセグメントをフーリエ変換して、変換された第２のオーディオセグメントを取得し、
変換された第２のオーディオセグメントを第２のオーディオセグメントに対応するスペクトル特徴に変換し、スペクトル特徴を第２のオーディオセグメントの第２のセグメント特徴として決定する。

任意選択で、セキュリティファクタ取得モジュール１３０２はさらに、参照公開鍵に従ってオブジェクト特徴と参照特徴をそれぞれ暗号化し、暗号化されたオブジェクト特徴と暗号化された参照特徴をターゲットデータのセキュリティファクタとして決定し、参照特徴は、少なくともタイムスタンプ又はカウンタを含む。

任意選択で、オブジェクト情報は顔画像を含み、図１４を参照して、当該装置は、
第１の分類モデルに基づいて、顔画像の画像特徴を分類し、顔画像が属するカテゴリを得るための第１のカテゴリ決定モジュール１３０５をさらに含む。

任意選択で、図１４を参照して、当該装置は、
サンプル画像特徴とサンプル画像特徴に対応するサンプル顔画像が属するサンプルカテゴリを取得するための第１のトレーニングモジュール１３０９であって、サンプルカテゴリは生体カテゴリ又は非生体カテゴリを含み、生体カテゴリはサンプル顔画像が生体オブジェクトの画像であることを示し、非生体カテゴリはサンプル顔画像が非生体オブジェクトの画像であることを示す第１のトレーニングモジュール１３０９をさらに含み、
第１のトレーニングモジュール１３０９はさらに、第１の分類モデルに基づいて、サンプル画像特徴に従って、サンプル顔画像が属する予測カテゴリを決定し、
第１のトレーニングモジュール１３０９はさらに、サンプルカテゴリと予測カテゴリに従って、第１の分類モデルをトレーニングする。

任意選択で、オブジェクト情報はオーディオ信号を含み、図１４を参照して、当該装置は、
第２の分類モデルに基づいて、オーディオ信号のオーディオ特徴を分類し、オーディオ信号が属するカテゴリを得るための第２のカテゴリ決定モジュール１３０６をさらに含む。

任意選択で、図１４を参照して、当該装置は、
サンプルオーディオ特徴とサンプルオーディオ特徴に対応するサンプルオーディオ信号が属するサンプルカテゴリを取得するための第２のトレーニングモジュール１３１０であって、サンプルカテゴリは、生体カテゴリ又は非生体カテゴリを含み、生体カテゴリは、サンプルオーディオ信号が生体オブジェクトのオーディオ信号であることを示し、非生体カテゴリは、サンプルオーディオ信号が非生体オブジェクトのオーディオ信号であることを示す第２のトレーニングモジュール１３１０をさらに含み、
第２のトレーニングモジュール１３１０はさらに、第２の分類モデルに基づいて、サンプルオーディオ特徴に従って、サンプルオーディオ信号が属する予測カテゴリを決定し、
第２のトレーニングモジュール１３１０はさらに、サンプルカテゴリと予測カテゴリに従って、第２の分類モデルをトレーニングする。

上記の全ての選択可能な技術案は、任意に組み合わせて本出願の選択可能な実施例を形成することができ、ここで説明を省略する。

なお、上記の実施例で提供されるデータ暗号化装置は、データを暗号化する場合、上記の各機能モジュールの分割のみを例として説明し、実際の適用では、必要に応じて上記の機能を異なる機能モジュールに割り当てて完成することができ、即ち、コンピュータ機器の内部構造を異なる機能モジュールに分割して、以上に説明した全部又は一部の機能を完成する。また、上記の実施例で提供されるデータ暗号化装置とデータ暗号化方法実施例は同一の概念に属し、その具体的な実現プロセスは方法の実施例で詳述され、ここで繰り返し説明しない。

本出願の実施例は、コンピュータ機器をさらに提供し、当該コンピュータ機器は、プロセッサとメモリを含み、メモリに少なくとも１つのコンピュータプログラムが記憶されており、当該少なくとも１つのコンピュータプログラムがプロセッサによってロードされて実行される場合、上記の実施例のデータ暗号化方法において実行される動作を実現する。

任意選択で、当該コンピュータ機器は端末として提供される。図１５は、本出願の実施例で提供される端末１５００の構造概略図である。当該端末１５００は、スマートフォン、タブレットコンピューター、ノートパソコン、デスクトップコンピュータ、スマートスピーカー、スマートウォッチ、顔認証デバイスなどであってもよい。端末１５００は、ユーザデバイス、携帯端末、ラップトップ端末、デスクトップ端末などの他の名称と呼ばれることもある。

端末１５００は、プロセッサ１５０１及びメモリ１５０２を含む。

プロセッサ１５０１は、例えば、４コアプロセッサー、８コアプロセッサーなどのような１つ又は複数の処理コアを含むことができる。プロセッサ１５０１は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，デジタル信号処理）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ，フィールドプログラマブルゲートアレイ）、ＰＬＡ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＡｒｒａｙ，プログラマブルロジックアレイ）のうちの少なくとも１つのハードウェア形態で実現することができる。いくつかの実施例では、プロセッサ１５０１は、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，人工知能）プロセッサを含むことができ、当該ＡＩプロセッサは、機械学習に関する計算動作を処理する。

メモリ１５０２は、１つ又は複数のコンピュータ読み取り可能な記憶媒体を含むことができ、当該コンピュータ読み取り可能な記憶媒体は、非一時的であってもよい。いくつかの実施例では、メモリ１５０２における非一時的なコンピュータ読み取り可能な記憶媒体は、少なくとも１つのコンピュータプログラムを記憶するために使用され、当該少なくとも１つのコンピュータプログラムは、プロセッサ１５０１によって実行されることで、本出願の方法実施例で提供されるデータ暗号化方法を実現する。

いくつかの実施例では、端末１５００は、周辺機器インターフェース１５０３と少なくとも１つの周辺機器をさらに含むことができる。プロセッサ１５０１、メモリ１５０２、及び周辺機器インターフェース１５０３の間は、バス又は信号線を介して接続されることができる。各周辺機器は、バス、信号線又は回路基板を介して、周辺機器インターフェース１５０３に接続されることができる。具体的に、周辺機器は、カメラコンポーネント１５０４とオーディオ回路１５０５のうちの少なくとも１つを含む。

周辺機器インターフェース１５０３は、Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ，入力／出力）に関連する少なくとも１つの周辺機器を、プロセッサ１５０１及びメモリ１５０２に接続するために使用される。いくつかの実施例では、プロセッサ１５０１、メモリ１５０２、及び周辺機器インターフェース１５０３は、同一のチップ又は回路基板に集積され、いくつかの他の実施例では、プロセッサ１５０１、メモリ１５０２、及び周辺機器インターフェース１５０３のいずれか１つ又は２つは、別個のチップ又は回路基板で実現されてもよく、本実施例では、これを限定しない。

カメラコンポーネント１５０４は、画像又はビデオを収集する。任意選択で、カメラコンポーネント１５０４は、フロントカメラとバックカメラを含む。フロントカメラは端末のフロントパネルに設置され、バックカメラは端末の背面に設置されている。いくつかの実施例では、バックカメラは、少なくとも２つであり、それぞれは、メインカメラ、被写界深度カメラ、広角カメラ、望遠カメラのいずれかであり、それにより、メインカメラと被写界深度カメラの融合による背景ぼかし機能、メインカメラと広角カメラの融合によるパノラマ撮影、及びＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ，仮想現実）撮影機能又は他の融合撮影機能を実現する。

オーディオ回路１５０５は、マイクロフォン及びスピーカを含む。マイクロフォンは、ユーザ及び環境の音波を収集し、音波を電気信号に変換してプロセッサ１５０１に入力して処理するか、又は無線周波数回路１５０４に入力して音声通信を実現する。ステレオ収音またはノイズ低減の目的で、端末１５００の異なる部分にそれぞれ設置される複数のマイクロフォンが存在してもよい。スピーカは、プロセッサ１５０１又は無線周波数回路１５０４からの電気信号を音波に転換する。スピーカは、従来の薄膜スピーカであってもよく、圧電セラミックスピーカであってもよい。

いくつかの実施例では、端末１５００は、１つ又は複数のセンサ１５０６も含む。当該１つ又は複数のセンサ１５０６は、加速度センサ１５１１、ジャイロセンサ１５１２、圧力センサ１５１３、光学センサ１５１４、及び近接センサ１５１５を含むが、これらに限定されない。

当業者であれば、図１５に示す構造が端末１５００の限定を構成するものではなく、図示したものより多い又は少ないコンポーネントを含んでもよく、又はいくつかのコンポーネントを組み合わせてもよく、又は異なるコンポーネント配置を採用してもよいことを理解することができる。

任意選択で、当該コンピュータ機器はサーバとして提供される。図１６は、本出願の実施例で提供されるサーバの構造概略図であり、当該サーバ１６００は、配置又は性能の違いによって比較的大きな違いを生じる可能性があり、１つ又は複数のプロセッサ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ，ＣＰＵ）１６０１及び１つ又は複数のメモリ１６０２を含んでもよく、メモリ１６０２に少なくとも１つのコンピュータプログラムが記憶されており、当該少なくとも１つのコンピュータプログラムは、プロセッサ１６０１によってロードされて実行される場合、上記の各方法の実施例で提供される方法を実現する。勿論、当該サーバは、入出力するように、有線又は無線ネットワークインターフェース、キーボード、及び入出力インターフェースなどの構成要素をさらに含んでもよく、当該サーバは、他のデバイス機能を実現するための構成要素を含んでもよく、ここで詳しく説明しない。

本出願の実施例は、さらに、コンピュータ読み取り可能な記憶媒体を提供し、当該コンピュータ読み取り可能な記憶媒体に少なくとも１つのコンピュータプログラムが記憶され、当該少なくとも１つのコンピュータプログラムがプロセッサによってロードされて実行される場合、上記の実施例のデータ暗号化方法において実行される動作を実現する。

本出願の実施例は、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータプログラムコードを含み、当該コンピュータプログラムコードがコンピュータ読み取り可能な記憶媒体に記憶される。コンピュータ機器のプロセッサは、コンピュータ読み取り可能な記憶媒体から当該コンピュータプログラムコードを読み取り、プロセッサは、上記の実施例のデータ暗号化方法において実行される動作をコンピュータ機器に実現させるように、当該コンピュータプログラムコードを実行する。

なお、本出願の実施例では、顔画像、オーディオ信号などの関連データに関し、本出願の以上の実施例が具体的な製品又は技術に適用される場合には、ユーザの許可または同意を得る必要があり、関連データの收集、使用、及び処理は、関連する国及び地域の関連する法律法規と基準に従う必要がある。

当業者は、上記の実施例を実現するための全て又は一部のステップがハードウェアによって完成されてもよく、プログラムを介して関連するハードウェアに指令して完成されてもよいことを理解することができ、当該プログラムは、読み取り専用メモリ、磁気ディスク又は光ディスクなどのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。

以上は、本出願の実施例の好ましい実施例に過ぎず、本出願の実施例を限定するために使用されるものではなく、本出願の実施例の精神及び原則の範囲で行われたいかなる補正、均等な置換、改善などは、いずれも本出願の保護範囲に含まれるべきである。

Claims

コンピュータ機器が実行するデータ暗号化方法であって、
ターゲットオブジェクトの暗号化すべきターゲットデータ及び前記ターゲットオブジェクトに対応するオブジェクト情報を収集するステップであって、前記オブジェクト情報は、前記ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも１つを含むステップと、
前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定するステップと、
前記セキュリティファクタに基づいて前記ターゲットデータを暗号化し、前記ターゲットデータに対応する暗号化データを取得するステップと、
を含む方法。
前記オブジェクト情報は、前記顔画像と前記オーディオ信号を含み、
前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定する前記ステップの前に、
前記顔画像の画像特徴と前記オーディオ信号のオーディオ特徴をそれぞれ取得するステップと、
前記画像特徴と前記オーディオ特徴をスティッチングし、スティッチングして得られた特徴を前記オブジェクト特徴として決定するステップと、
をさらに含む請求項１に記載の方法。
前記セキュリティファクタに基づいて前記ターゲットデータを暗号化し、前記ターゲットデータに対応する暗号化データを取得する前記ステップは、
前記ターゲットデータに対応する暗号化フォーマットと前記セキュリティファクタに基づいて、前記ターゲットデータを暗号化し、前記暗号化データを取得するステップであって、前記暗号化フォーマットが、前記暗号化データにおける前記セキュリティファクタと前記ターゲットデータとの相対的な位置関係を示すステップ、
を含む請求項１に記載の方法。
前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定する前記ステップは、
前記オブジェクト情報が生体カテゴリに属する場合、前記参照公開鍵に従って前記オブジェクト特徴を暗号化し、暗号化された前記オブジェクト特徴を前記セキュリティファクタとして決定するステップであって、前記生体カテゴリは、前記オブジェクト情報が生体オブジェクトの情報であることを示すステップ、
を含む請求項１に記載の方法。
前記オブジェクト情報は、前記顔画像を含み、
前記オブジェクト情報が生体カテゴリに属する場合、前記参照公開鍵に従って前記オブジェクト特徴を暗号化し、暗号化された前記オブジェクト特徴を前記セキュリティファクタとして決定する前記ステップの前に、
前記顔画像の画像特徴を取得し、前記画像特徴を複数の第１の領域特徴に分割するステップであって、前記顔画像が、複数の第１の顔領域を含み、各第１の領域特徴が、前記顔画像における１つの第１の顔領域に対応するステップと、
前記各第１の領域特徴に基づいて、前記各第１の領域特徴に対応する第１の顔領域が属するカテゴリを決定するステップと、
前記複数の第１の顔領域における、属するカテゴリが前記生体カテゴリである第１の顔領域の第１の割合を決定するステップと、
前記第１の割合が第１の参照割合より大きいことに応じて、前記顔画像が前記生体カテゴリに属すると決定するステップと、
をさらに含む請求項４に記載の方法。
前記オブジェクト情報は、前記オーディオ信号を含み、
前記オブジェクト情報が生体カテゴリに属する場合、前記参照公開鍵に従って前記オブジェクト特徴を暗号化し、暗号化された前記オブジェクト特徴を前記セキュリティファクタとして決定する前記ステップの前に、
前記オーディオ信号のオーディオ特徴を取得し、前記オーディオ特徴を複数の第１のセグメント特徴に分割するステップであって、前記オーディオ信号が、複数の第１のオーディオセグメントを含み、各第１のセグメント特徴は、前記オーディオ信号における１つの第１のオーディオセグメントに対応するステップと、
前記各第１のセグメント特徴に基づいて、前記各第１のセグメント特徴に対応する第１のオーディオセグメントが属するカテゴリを決定するステップと、
前記複数の第１のオーディオセグメントにおける、属するカテゴリが前記生体カテゴリである第１のオーディオセグメントの第２の割合を決定するステップと、
前記第２の割合が第２の参照割合より大きいことに応じて、前記オーディオセグメントが前記生体カテゴリに属すると決定するステップと、
をさらに含む請求項４に記載の方法。
前記各第１のセグメント特徴に基づいて、前記各第１のセグメント特徴に対応する第１のオーディオセグメントが属するカテゴリを決定する前記ステップは、
前記第１のセグメント特徴毎に、前記第１のセグメント特徴と前記オーディオ特徴に基づいて、前記第１のセグメント特徴に対応する第１のオーディオセグメントが属するカテゴリを決定するステップ、
を含む請求項６に記載の方法。
前記オブジェクト情報は、前記顔画像を含み、前記オブジェクト特徴は、前記顔画像の画像特徴を含み、
前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定する前記ステップの前に、
前記顔画像を複数の第２の顔領域に分割するステップと、
前記複数の第２の顔領域のそれぞれに対して特徴抽出を行い、各第２の顔領域の第２の領域特徴を取得するステップと、
取得した複数の第２の領域特徴をスティッチングし、前記画像特徴を得るステップと、
をさらに含む請求項１に記載の方法。
前記複数の第２の顔領域のそれぞれに対して特徴抽出を行い、各第２の顔領域の第２の領域特徴を得る前記ステップは、
前記第２の顔領域毎に、前記第２の顔領域に対してエッジ検出を行い、前記第２の顔領域に対応する画像勾配を取得し、前記画像勾配を前記第２の顔領域の第２の領域特徴として決定するステップであって、前記画像勾配は、前記第２の顔領域における任意の２つの隣接するピクセルの変化率を示すステップ、
を含む請求項８に記載の方法。
前記オブジェクト情報は、前記オーディオ信号を含み、前記オブジェクト特徴は、前記オーディオ信号のオーディオ特徴を含み、
前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定する前記ステップの前に、
前記オーディオ信号を複数の第２のオーディオセグメントに分割するステップと、
前記複数の第２のオーディオセグメントのそれぞれに対して特徴抽出を行い、各第２のオーディオセグメントの第２のセグメント特徴を取得するステップと、
取得した複数の第２のセグメント特徴をスティッチングし、前記オーディオ特徴を得るステップと、
をさらに含む請求項１に記載の方法。
前記オブジェクト情報は、前記顔画像を含み、
前記オブジェクト情報が生体カテゴリに属する場合、前記参照公開鍵に従って前記オブジェクト特徴を暗号化し、暗号化された前記オブジェクト特徴を前記セキュリティファクタとして決定する前記ステップの前に、
第１の分類モデルに基づいて、前記顔画像の画像特徴を分類し、前記顔画像が属するカテゴリを得るステップ、
をさらに含む請求項４に記載の方法。
前記オブジェクト情報は、前記オーディオ信号を含み、
前記オブジェクト情報が生体カテゴリに属する場合、前記参照公開鍵に従って前記オブジェクト特徴を暗号化し、暗号化された前記オブジェクト特徴を前記セキュリティファクタとして決定する前記ステップの前に、
第２の分類モデルに基づいて、前記オーディオ信号のオーディオ特徴を分類し、前記オーディオ信号の属するカテゴリを得るステップ、
をさらに含む請求項４に記載の方法。
データ暗号化装置であって、
請求項１から１２のいずれか１項に記載のデータ暗号化方法を実行するように構成されたプロセッサ、
を含むデータ暗号化装置。
プロセッサとメモリを含むコンピュータ機器であって、前記メモリに少なくとも１つのコンピュータプログラムが記憶され、前記少なくとも１つのコンピュータプログラムが前記プロセッサによってロードされて実行されることで、請求項１から１２のいずれか１項に記載のデータ暗号化方法において実行される動作を実現するコンピュータ機器。
コンピュータプログラムコードを含むコンピュータプログラムであって、前記コンピュータプログラムコードは、コンピュータ機器のプロセッサに請求項１から１２のいずれか１項に記載のデータ暗号化方法を実行させる、コンピュータプログラム。