CN116152938A

CN116152938A - 身份识别模型训练和电子资源转移方法、装置及设备

Info

Publication number: CN116152938A
Application number: CN202111365727.6A
Authority: CN
Inventors: 杨伟明; 郭润增; 王少鸣
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2023-05-23

Abstract

本申请公开了一种身份识别模型训练和电子资源转移方法、装置及设备，涉及电子资源转移技术领域，用于提高电子资源转移时的身份识别率，降低电子资源转移时的失误概率，本申请实施例可应用于云技术、人工智能以及智慧交通等各种场景中。在该方法中，对手掌图像和音频数据进行多模态的学习，学习到的模型能够对手掌图像和音频数据分别进行预测，并融合预测结果来获得最终的身份识别结果，以提升身份识别的准确率。此外，在训练时，通过手掌图像和音频数据获得的最终身份识别结果，并基于这个身份识别结果对整个模型进行调整，这样，手掌识别子模型和音频识别子模型均能够基于手掌图像和音频数据进行学习，从而更加提升整个模型的身份识别准确度。

Description

身份识别模型训练和电子资源转移方法、装置及设备

技术领域

本申请涉及计算机技术领域，尤其涉及电子资源转移技术领域，提供一种身份识别模型训练和电子资源转移方法、装置及设备。

背景技术

随着网络技术的发展，电子资源转移的方式能够更方便操作对象进行物品的交换，使其得到了更为广泛的应用，并且，电子资源转移的类型也越来越丰富。

以电子资源转移具体为电子支付为例，实现电子支付的方式也越来越丰富，例如：已经较为成熟的扫码支付、刷脸支付以及指纹支付等，并且，新的电子支付方式也逐渐萌芽，例如：最新提出的刷掌支付技术。刷掌支付，是指一种通过扫描手掌即可完成支付对象身份的确认和付款的机制，只需使用摄像头事先拍摄手掌照片完成刷掌支付的授权，在进行支付时，刷掌设备采集支付对象的手掌图像，基于手掌图像来识别手掌特征来识别支付对象身份，支付时无需使用信用卡和智能终端，更加方便。

但是，在进行刷掌支付时，有可能出现支付对象身份误识别，而导致电子资源转移失误的情况。例如：刷掌设备采集对象B的手掌图像后，将其误识别为对象A的手掌，从而导致对象B消费的金额从对象A的支付账户中扣除。

可见，准确的识别支付对象身份是刷掌支付的基础，因此，如何降低支付对象身份识别错误率是值得考虑的问题。

发明内容

本申请实施例提供一种身份识别模型训练和电子资源转移方法、装置及设备，用于提高电子资源转移时的身份识别率，降低电子资源转移时的失误概率。

一方面，提供一种身份识别模型训练方法，所述身份识别模型包括手掌识别子模型、音频识别子模型和融合子模型，所述方法包括：

将各个训练样本输入所述手掌识别子模型，分别获得所述各个训练样本各自包括的手掌图像对应的手掌预测身份；

将所述各个训练样本输入所述音频识别子模型，分别获得所述各个训练样本各自包括的音频数据对应的音频预测身份；

采用所述融合子模型，基于所述各个训练样本各自对应的手掌预测身份和音频预测身份，分别确定所述各个训练样本各自对应的身份识别结果；

基于获得的各个身份识别结果以及相应的真实身份标签对应的总损失值，对所述手掌识别子模型、所述音频识别子模型以及所述融合子模型进行参数调整。

一方面，提供一种基于上述方法训练得到的身份识别模型的电子资源转移方法，所述方法包括：

接收电子资源转移请求，所述电子资源转移请求用于将资源转移对象所拥有的指定数量的电子资源，转移给资源接收对象，以及，所述电子资源转移请求携带了所述资源转移对象的手掌图像和音频数据；

将所述手掌图像和音频数据输入所述身份识别模型，获得所述资源转移对象的身份识别结果；

基于所述身份识别结果，将所述指定数量的电子资源转移给所述资源接收对象。

一方面，提供一种身份识别模型训练装置，所述身份识别模型包括手掌识别子模型、音频识别子模型和融合子模型，所述装置包括：

图像识别单元，用于将各个训练样本输入所述手掌识别子模型，分别获得所述各个训练样本各自包括的手掌图像对应的手掌预测身份；

音频识别单元，用于将所述各个训练样本输入所述音频识别子模型，分别获得所述各个训练样本各自包括的音频数据对应的音频预测身份；

融合预测单元，用于采用所述融合子模型，基于所述各个训练样本各自对应的手掌预测身份和音频预测身份，分别确定所述各个训练样本各自对应的身份识别结果；

模型调整单元，用于基于获得的各个身份识别结果以及相应的真实身份标签对应的总损失值，对所述手掌识别子模型、所述音频识别子模型以及所述融合子模型进行参数调整。

可选的，每个训练样本标注了各自包括的手掌图像和音频数据对应的真实身份标签；则所述装置还包括模型损失确定单元，用于：

基于获得的手掌预测身份以及相应的真实身份标签，获得所述手掌识别子模型的手掌识别损失值；

基于获得的音频预测身份以及相应的真实身份标签，获得所述音频识别子模型的音频识别损失值；

基于所述各个身份识别结果以及相应训练样本对应的真实身份标签，获得样本识别损失值；

基于所述手掌识别损失值、所述音频识别损失值以及所述样本识别损失值，获得所述总损失值。

可选的，所述各个训练样本包括正样本和负样本，每个正样本包括的手掌图像和音频数据对应的真实身份标签相同，每个负样本包括的手掌图像和音频数据对应的真实身份标签不同；则所述模型损失确定单元，还用于：

将各个正样本对应的身份识别结果以及真实身份标签进行比较，分别获得相应的各个第一比对结果；

将各个负样本对应的身份识别结果以及设定的识别失败结果进行比较，分别获得相应的各个第二比对结果；其中，所述识别失败结果用于指示身份识别失败；

基于所述各个第一比对结果和所述各个第二比对结果，获得所述样本识别损失值。

可选的，所述手掌识别子模型包括的卷积核大小不同的两个卷积子网络、区域生成子网络、区域池化层和全连接层；则所述图像识别单元，具体用于：

针对所述各个训练样本，分别执行如下操作：

针对一个训练样本，通过所述两个卷积子网络分别对手掌图像进行卷积处理，获得相应的两个卷积特征图，并通过所述区域生成子网络提取感兴趣区域，获得至少一个区域特征图；

通过所述区域池化层对所述至少一个区域特征图进行池化处理，获得池化特征图；

通过所述全连接层，对获得的所述池化特征图进行特征映射处理，并基于获得的手掌预测向量确定相应的手掌预测身份。

可选的，所述图像识别单元，还用于：

针对所述各个训练样本包括的各个手掌图像，分别执行如下操作：

针对一个手掌图像，对所述一个手掌图像进行区域划分，获得相应的多个手掌子

图像；

分别提取所述多个手掌子图像各自对应的方向梯度直方图特征；

对获得的多个方向梯度直方图特征进行拼接处理，获得所述一个手掌图像的手掌基础特征向量；

将所述各个手掌图像各自对应的手掌基础特征向量输入所述手掌识别子模型。

可选的，所述音频识别单元，还用于：

针对所述各个训练样本包括的各个音频数据，分别执行如下操作：

针对一个音频数据，对所述一个音频数据进行帧划分，获得相应的多个音频帧；

分别提取所述多个音频帧各自对应的梅尔倒频谱特征；

对获得的多个梅尔倒频谱特征进行拼接处理，获得所述一个音频数据的音频基础特征向量；

则将所述各个训练样本输入所述音频识别子模型，包括：

将所述各个音频数据各自对应的音频基础特征向量输入所述音频识别子模型。

可选的，所述音频识别单元，具体用于：

采用交叉划分的方式，对所述一个音频数据进行帧划分，使得所述多个音频帧中相邻的音频帧存在重叠部分。

可选的，所述音频识别单元，还用于：

基于所述各个音频数据，对音频帧过滤模型进行训练，获得已训练后的音频帧过滤模型；其中，所述音频帧过滤模型与所述音频识别子模型的模型结构相同；

针对所述各个音频数据，分别执行如下操作：

针对一个音频数据，将所述一个音频数据包括的多个音频帧输入已训练后的音频

帧过滤模型，获得所述多个音频帧各自对应的音频帧识别身份；

若存在一个音频帧对应的音频帧识别身份与所述一个音频数据的真实身份标签不一致，则将所述一个音频帧从所述一个音频数据中滤除；

将滤除后的各个音频数据输入所述音频识别子模型。

可选的，所述装置还包括预训练单元，用于：

采用多个手掌图像对所述手掌识别子模型进行预训练，获得满足收敛条件时所述手掌识别子模型的第一模型参数；以及，采用多个音频数据对所述音频识别子模型进行预训练，获得满足收敛条件时所述音频识别子模型的第二模型参数；

则所述图像识别单元，具体用于基于所述第一模型参数对所述手掌识别子模型进行初始化，并将各个训练样本输入初始化后的所述手掌识别子模型；

则所述音频识别单元，具体用于基于所述第二模型参数对所述音频识别子模型进行初始化，并将各个训练样本输入初始化后的所述音频识别子模型。

一方面，提供一种电子资源转移装置，所述装置包括：

接收单元，用于接收电子资源转移请求，所述电子资源转移请求用于将资源转移对象所拥有的指定数量的电子资源，转移给资源接收对象，以及，所述电子资源转移请求携带了所述资源转移对象的手掌图像和音频数据；

身份识别单元，用于将所述手掌图像和音频数据输入基于权利要求1～9任一所述方法训练得到的身份识别模型，获得所述资源转移对象的身份识别结果；

资源转移单元，用于基于所述身份识别结果，将所述指定数量的电子资源转移给所述资源接收对象。

一方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一种方法的步骤。

一方面，提供一种计算机存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

一方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一种方法的步骤。

本申请实施例中，身份识别模型包括手掌识别子模型和音频识别子模型，在进行训练时，手掌识别子模型和音频识别子模型分别对训练样本中的手掌图像和音频数据进行识别后，获得各对应的手掌预测身份和音频预测身份，并通过融合子模型对手掌预测身份和音频预测身份进行融合处理，以确定每个训练样本的身份识别结果，而每个训练样本还标注了相应的真实身份标签，从而可以基于这些身份识别结果和各个训练样本的真实身份标签对模型进行调整，使得在模型收敛时能够达到预定的准确率。可见，本申请实施例将手掌图像和音频数据共同作为训练数据来进行多模态的学习，学习到的模型能够对手掌图像和音频数据分别进行预测，并融合了这两者的预测结果来获得最终的身份识别结果，以提升身份识别的准确率。此外，在训练时，通过手掌图像和音频数据获得的最终身份识别结果，并基于这个身份识别结果对整个模型进行调整，这样，手掌识别子模型和音频识别子模型均能够基于手掌图像和音频数据进行学习，从而更加提升整个模型的身份识别准确度。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的应用场景示意图；

图2为本申请实施例提供的身份识别模型的架构示意图；

图3为本申请实施例提供的手掌识别子模型的一种可能的结构示意图；

图4为本申请实施例提供的音频识别子模型的一种可能的结构示意图；

图5为本申请实施例提供的手掌图像训练数据的处理过程的流程示意图；

图6为本申请实施例提供的图像特征提取过程的示意图；

图7为本申请实施例提供的音频训练数据的处理过程的流程示意图；

图8为本申请实施例提供的对一个音频数据进行帧划分的示意图；

图9为本申请实施例提供的音频帧的mel频谱特征提取过程的流程示意图；

图10为本申请实施例提供的身份识别模型训练方法的流程示意图；

图11为本申请实施例提供的手掌识别子模型获取手掌预测身份的过程的流程示意图；

图12为本申请实施例提供的电子资源转移方法的流程示意图；

图13为本申请实施例提供的身份识别模型训练装置的一种结构示意图；

图14为本申请实施例提供的电子资源转移装置的一种结构示意图；

图15为本申请实施例提供的计算机设备的一种结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的一些关键名词进行解释：

电子资源转移：指的是通过转移电子资源的方式以完成特定的交易。如，支付对象A利用自己的账户于2021年3月21日13:48登录设备a，向商户支付5元，用于购买一斤苹果，在此过程中就涉及到电子资源的转移过程。其中，设备a均为支付对象A使用的电子设备，电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、智能家居等具备一定计算能力、且支持电子支付的计算机设备。

有监督学习：是从标签化训练数据集中推断出函数的机器学习任务，训练数据由一组训练实例组成。在监督学习中，每一个例子都是一对由一个输入对象(通常是一个向量)和一个期望的输出值。

本申请实施例涉及人工智能和机器学习技术，主要基于人工智能中的机器学习而设计。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。人工神经网络(Artificial Neural Network，ANN)，从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。神经网络是一种运算模型，由大量的节点(或称神经元)之间相互联接构成，每个节点代表一种特定的输出函数，称为激励函数(activation function)，每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆，网络的输出则依网络的连接方式，权重值和激励函数的不同而不同，而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习、语音技术以及计算机视觉技术等技术。本申请实施例采用语音技术以及计算机视觉技术能够从操作对象中提取得到手掌图像和语音数据，并利用这些手掌图像和语音数据采用机器学习技术学习得到身份识别模型，进而在实际进行电子资源转移的过程中，则可以利用学习得到的身份识别模型对采集到的资源转移对象的手掌图像和语音数据进行身份识别，从而得到该资源转移对象的身份识别结果，例如支付账户，并且利用该身份识别结果完成电子资源转移，例如利用识别到的支付账户向商户付款。

具体的，本申请实施例中采用基于深度学习的人工神经网络模型，其可分为两部分，包括训练部分和应用部分。其中，训练部分就涉及到机器学习这一技术领域，在训练部分中，通过机器学习这一技术训练人工神经网络模型(如身份识别模型)，使得基于本申请实施例中给出的多个训练样本对以及训练方法训练人工神经网络模型，并通过优化算法不断调整模型参数，直至模型收敛；应用部分用于使用在训练部分训练得到的人工神经网络模型对资源转移对象的手掌图像和语音数据进行身份识别，获得相应的身份识别结果从而利用身份识别结果完成电子资源转移的过程。另外，还需要说明的是，本申请实施例中人工神经网络模型可以是在线训练也可以是离线训练，在此不做具体限定，在本文中是以离线训练为例进行举例说明的。

下面对本申请实施例的设计思想进行简要介绍。

目前，电子资源转移的方式的应用逐渐普及。

以电子资源转移具体为电子支付技术中的刷掌支付技术为例，其是指一种通过扫描手掌即可完成支付对象身份的确认和付款的机制。

但是，目前在进行刷掌支付时，如果出现身份误识别，则会导致电子资源转移失误的情况，给支付对象带来经济损失，从而需要更进一步的提升支付对象身份识别的准确率。

鉴于此，本申请实施例提供一种身份识别模型训练方法，在该方法中，其训练的身份识别模型包括手掌识别子模型和音频识别子模型，从而在进行训练时，手掌识别子模型和音频识别子模型分别对训练样本中的手掌图像和音频数据进行识别后，获得各对应的手掌预测身份和音频预测身份，并通过融合子模型对手掌预测身份和音频预测身份进行融合处理，以确定每个训练样本的身份识别结果，而每个训练样本还标注了相应的真实身份标签，从而可以基于这些身份识别结果和各个训练样本的真实身份标签对模型进行调整，直至模型收敛。其中，通过将手掌图像和音频数据共同作为训练数据来进行多模态的学习，学习到的模型能够对手掌图像和音频数据分别进行预测，并融合了这两者的预测结果来获得最终的身份识别结果，以提升身份识别的准确率。此外，在训练时，通过手掌图像和音频数据获得的最终身份识别结果，并基于这个身份识别结果对整个模型进行调整，这样，手掌识别子模型和音频识别子模型均能够基于手掌图像和音频数据进行学习，从而更加提升整个模型的身份识别准确度。

进而，在实际进行电子资源转移的过程中，则可以利用上述训练得到的身份识别模型，基于资源转移对象的手掌图像和音频数据分别进行预测，并融合了这两者的预测结果来获得最终的身份识别结果，从而准确的识别资源转移对象的身份，提升电子资源转移过程的准确性，以保障各个支付对象的电子资源的安全性。

下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

本申请实施例提供的方案可以应用于云技术、人工智能以及智慧交通等各种场景中，例如电子资源转移场景中，如电子支付场景等。如图1所示，为本申请实施例提供的一种应用场景示意图，在该场景中，可以包括资源转移终端设备101和资源转移服务器102。

在一种实施方式中，资源转移终端设备101例如可以为资源转移对象自身拥有的设备，如可以为手机、平板电脑(PAD)、笔记本电脑、台式电脑、智能电视、智能车载设备以及智能可穿戴设备等。资源转移终端设备101可以安装有电子资源转移应用，本申请实施例涉及的应用可以是软件客户端，也可以是网页、小程序等客户端，服务器则是与软件或是网页、小程序等相对应的后台服务器，不限制客户端的具体类型。

在另一种实施方式中，资源转移终端设备101还可以为资源接收对象所拥有的设备，例如商店的刷掌支付设备。同样的，其也可以安装有电子资源转移应用。

无论资源转移终端设备101为哪种类型的终端设备，其均包括数据采集装置，例如摄像头和麦克风，分别用于采集手掌图像和音频数据。

资源转移服务器102可以为资源转移终端设备101上安装的电子资源转移应用所对应的后台服务器，其可以提供电子资源转移系统的后台服务功能，例如实现本申请实施例所提供的身份识别模型的训练方法以及电子资源转移方法的步骤。资源转移服务器102例如可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、即内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。

在一种实施方式中，资源转移服务器102可以包括一个或多个处理器1021、存储器1022以及与终端交互的I/O接口1023等。此外，资源转移服务器102还可以配置数据库1024，数据库1024可以用于存储各个资源转移对象的身份特征向量以及训练得到的模型参数等。其中，资源转移服务器102的存储器1022中还可以存储本申请实施例提供的身份识别模型的训练方法以及电子资源转移方法的程序指令，这些程序指令被处理器1021执行时能够用以实现本申请实施例提供的身份识别模型的训练方法以及电子资源转移方法的步骤，以实现身份识别模型的训练过程以及基于训练得到的身份识别模型执行电子资源转移过程。

在一种实施方式中，身份识别模型的训练过程可以由资源转移服务器102来执行，以利用资源转移服务器102的计算资源快速的实现身份识别模型的训练，而电子资源转移方法还可以是有资源转移终端设备101参与执行的。例如，资源转移终端设备101利用已训练的身份识别模型中特征提取部分来对采集得到的手掌图像和音频数据进行特征提取，以向资源转移服务器102传输提取得到的特征向量，进而资源转移服务器102可以基于这些特征向量进行检索，以得到身份识别结果。或者，资源转移终端设备101进行特征提取获得手掌图像和音频数据的特征向量之后，还可以将手掌图像和音频数据的原始数据以及手掌图像和音频数据的特征向量一并加密传输给资源转移服务器102，进而资源转移服务器102可以利用已训练的身份识别模型中特征提取部分基于原始数据进行特征提取，并将提取得到的特征向量与资源转移终端设备101发送的特征向量进行对比，以判断原始数据是否经过篡改，从而保障电子资源转移数据传输的安全性。

资源转移终端设备101和资源转移服务器102之间可以通过一个或者多个网络103进行直接或间接的通信连接。该网络103可以是有线网络，也可以是无线网络，例如无线网络可以是移动蜂窝网络，或者可以是无线保真(Wireless-Fidelity，WIFI)网络，当然还可以是其他可能的网络，本发明实施例对此不做限制。

需要说明的是，在本申请实施例中，资源转移终端设备101的数量可以为一个，也可以为多个，同样的，资源转移服务器102的数量也可以为一个，也可以为多个，也就是说对于，资源转移终端设备101或者资源转移服务器102的数量并不进行限制。

在一种可能的应用场景中，本申请实施例中涉及的相关数据(如特征向量等)以及模型参数可以采用云存储(cloud storage)技术进行存储。云存储是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(或称存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。

在一种可能的应用场景中，为了便于降低检索的通信时延，可以在各个地区部署资源转移服务器102，或为了负载均衡，可以由不同的资源转移服务器102分别去服务不同地区的资源转移终端设备101，例如，资源转移终端设备101位于地点a，与服务地点a的资源转移服务器102建立通信连接，资源转移终端设备101位于地点b，与服务地点b的资源转移服务器102建立通信连接，多个资源转移服务器102组成一数据共享系统，通过区块链实现数据的共享。

对于数据共享系统中的每个资源转移服务器102，均具有与该资源转移服务器102对应的节点标识，数据共享系统中的每个资源转移服务器102均可以存储有数据共享系统中其他资源转移服务器102的节点标识，以便后续根据其他资源转移服务器102的节点标识，将生成的区块广播至数据共享系统中的其他资源转移服务器102。每个资源转移服务器102中可维护一个节点标识列表，将资源转移服务器102名称和节点标识对应存储至该节点标识列表中。其中，节点标识可为网络之间互联的协议(Internet Protocol，IP)地址以及其他任一种能够用于标识该节点的信息。

当然，本申请实施例提供的方法并不限用于图1所示的应用场景或者图2的架构中，还可以用于其他可能的应用场景，本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

本申请各实施例中提供的方法流程，可以通过图1中的资源转移服务器102或者资源转移终端设备101来执行，也可以由资源转移服务器102和资源转移终端设备101共同执行，这里主要以资源转移服务器102来执行为例进行介绍。

本申请实施例中，身份识别模型的训练过程是一个利用训练样本进行多次循环迭代训练的过程，其主要可以包括模型设计阶段、数据准备阶段和迭代训练阶段，下面将分别进行介绍。

(1)模型设计阶段

参见图2所示，为本申请实施例的身份识别模型的架构示意图。其中，身份识别模型包括手掌识别子模型、音频识别子模型和融合子模型，手掌识别子模型对采集的手掌图像进行身份识别，获得相应的手掌预测身份，音频识别子模型对采集的音频数据进行身份识别，获得相应的音频预测身份，进而通过融合子模型对手掌预测身份和音频预测身份进行融合处理，以获得最终的身份识别结果。

如图2所示，手掌识别子模型通过对采集的手掌图像进行特征提取，并基于提取的特征向量进行模型预测，获得相应的手掌预测向量，进而基于手掌预测向量(embedding)进行embedding检索，从而获得手掌预测身份。同样的，音频子模型通过对采集的音频数据进行特征提取，并基于提取的特征向量进行模型预测，获得相应的音频预测向量，进而基于音频预测向量(embedding)进行embedding检索，从而获得音频预测身份。

在一种实施方式中，可以采用二分类方法进行模型最终的分类，则模型可以满足如下条件，以提升模型训练的质量：

(1)包含残差网络子结构，以防止梯度消失。

(2)包含批量标准化(Batch Normalization，BN)层，以防止模型训练过程中发生震荡。

需要说明的是，满足如下条件的任意网络模型均可作为骨干网络(backbone)模型，例如可以选取ResNet作为手掌识别子模型的骨干网络模型，ResNet为多个残差块(residual block)的串联，ResNet结构非常容易修改和扩展，通过调整block内的通道(channel)数量以及堆叠的block数量，就可以很容易地调整网络的宽度和深度，来得到不同表达能力的网络，而不用过多地担心网络的“退化”问题，只要训练数据足够，逐步加深网络，就可以获得更好的性能表现。

参见图3所示，为本申请实施例的手掌识别子模型的一种可能的结构示意图。其中，该手掌识别子模型可以包括至少两条分支网络，如图3所示的两条分支网络，即包括老师骨干(backbone)子网络和学生骨干子网络，这两个子网络均可以采用卷积神经网络(Convolutional Neural Network，CNN)来实现，为了提取不同粒度的特征，老师骨干子网络和学生骨干子网络所采用的卷积核大小可以不同。手掌识别子模型还可以包括区域生成子网络(RegionProposal Network，RPN)、区域池化(region of interest pooling，ROI)层和全连接层(fully connected layers，FC)。

本申请实施例中，可以选取密集连接卷积网络(Densnet)作为音频识别子模型的骨干网络模型，Densnet由多个密集连接块(dense block)组成，每一层的输入来自前面所有层的输出，从而建立了不同层之间的密切连接关系，保证网络中层与层之间最大程度的信息传输的前提下，直接将所有层连接起来，且这种连接方式使得特征和梯度的传递更加有效，网络也就更加容易训练。

参见图4所示，为音频识别子模型的一种可能的结构示意图。其中，每个方块表示一个dense block，例如，每个dense block可以为stem操作，reduction操作、多次inception-resnet操作、均值池化操作或者Dropout操作等，如图4所示，示出了一种可能的层级关系。在实际应用中，每个dense block所执行的操作可以根据实际需求进行设计，且层间的连接关系也可以基于实际情况进行设计。

上述模型所执行的数据处理过程将在后续的过程中进行详细的介绍，因而在此不在过多赘述。

(二)数据准备阶段

数据收集在机器学习中是重中之重，可以说最重要的一个环节，本申请实施例的收据准备阶段主要包括如下训练数据的准备。

1、手掌图像训练数据的准备

参见图5所示，为手掌图像训练数据的处理过程的流程示意图。

步骤501：获取多个手掌图像数据。

在一种实施方式中，可以通过获取拍摄设备采集的手掌红绿蓝(red-green-blue，RGB)三色图像数据，图像分辨率是与实际拍摄设备的摄像头有关，通常情况下，手掌图像一般采取摄像头支持的最大分辨率进行拍摄。

当然，在实际场景中，获取的手掌图像数据数量通常有限，因而还可以对现有的手掌图像进行一定样本扩充处理，从而获得更多的手掌图像，例如对原始手掌图像进行扭曲处理、剪裁、高斯模糊或者拉伸变换等处理。

本申请实施例中，采用信号数据处理技术，从收集的手掌图像数据中获取、处理和提取有意义的图像特征和属性，方便提供给模型进行训练。其中步骤502～步骤504为一种可能的图像特征提取过程，当然，在实际应用中，仍然可以采用其他可能的图像特征提取方式进行，例如CNN网络。

步骤502：针对每个手掌图像，对该手掌图像进行区域划分，获得相应的多个手掌子图像。

具体的，考虑到采集到的各个手掌图像的分辨率有所不同，因此在进行处理之前，还可以将手掌图像的分辨率进行统一，以使得后续提取到的特征的维度相同，方便进行训练，例如可以通过裁剪或者图像压缩等方式来统一分辨率。

在一种实施方式中，可以按照设定的图像分辨率大小(例如60x60)对每个手掌图像进行分块处理，将原有的手掌图像划分为若干块。

步骤503：分别提取多个手掌子图像各自对应的方向梯度直方图特征。

针对每个手掌图像对应的手掌子图像，提取相应的方向梯度直方图(HistogramOf Gradient，HOG)特征，直到处理完所有的手掌子图像，HOG特征对于手掌检测等方面的表现极为优秀，进而很适合于利用手掌特征的检测。

具体的，可以采用索贝尔(进行HOG特征的提取，sobel算法的计算方法如下所示：

其中，M(x，y)表征梯度的幅度值，θ(x，y)表征梯度的方向，I_x和I_y分别表征水平和垂直方向上的梯度值。

步骤504：对获得的多个HOG特征进行拼接处理，获得一个手掌图像的手掌基础特征向量。

通过上述步骤，每个手掌图像的每个手掌子图像都可以获得一个HOG特征，通过将每个手掌图像的HOG首尾相连，则可以拼接得到一个大的一维向量，这个一维向量即为手掌图像的手掌基础特征向量，

参见图6所示，为图像特征提取过程的示意图，这里以一个手掌图像A为例，按照60x60的分辨率将该手掌图像A划分为多个手掌子图像后，针对每个手掌子图像提取相应的HOG特征，参见图6所示，每个方块表示一个手掌子图像，每个手掌子图像相应提取得到一个小HOG特征(图6中的小方块表示)，将所有的小HOG特征首尾相连，得到获得一个大的一维向量，即手掌图像A的手掌基础特征向量，该手掌基础特征向量则可以送入分类器中进行训练了。

需要说明的是，在进行手掌图像的采集时，同时也会记录下每个手掌图像的来源，即来源于那个资源转移对象，以作为后续模型训练的标签数据。

2、音频训练数据的准备

参见图7所示，为音频训练数据的处理过程的流程示意图。

步骤701：获取多个音频数据。

本申请实施例中，可以通过获取音频采集设备采集的资源转移对象的音频数据，例如以资源转移过程具体为电子支付为例，则支付对象可以在进行支付时说出“确认支付”，从而音频采集设备采集到一端“确认支付”的音频数据。

在一种实施方式中，音频采集设备可以采用16k的采样率、16bit的采样深度以及单声道，进行音频采集，当然，也可以采用其他的采样率或者采样深度，本申请实施例对此不做限制。

本申请实施例中，采用信号数据处理技术，从收集的音频数据中获取、处理和提取有意义的音频特征和属性，方便提供给模型进行训练。其中步骤702～步骤704为一种可能的音频特征提取过程，当然，在实际应用中，仍然可以采用其他可能的音频特征提取方式进行，本申请实施例对此不做限制。

步骤702：分别对各个音频数据进行帧划分，获得各个音频数据各自对应的多个音频帧。

具体的，考虑到采集到的各个音频数据的长度可能有所不同，因此在进行处理之前，还可以将音频数据的长度进行统一，以使得后续提取到的特征的维度相同，方便进行训练，例如可以通过裁等方式来统一。当然，也可以直接利用采集到的原本的音频数据进行后续的处理过程，而获得音频特征之后再对音频特征进行维度的统一。

在一种实施方式中，可以按照设定的帧长大小对每个音频数据进行分块处理，将原有的音频数据划分为若干个音频帧，例如，可以按照每个音频帧80个采样点，10毫秒的方式进行帧划分。

在一种实施方式中，为了使得提取得到的各个音频帧之间的相关性更高，使得最终的音频特征能够更准确的表达音频数据，可以采用交叉划分的方式，对每个音频数据进行帧划分，使得该音频帧中相邻的音频帧存在重叠部分。例如，可以按照每个音频帧80个采样点，10毫秒且重叠部分(overlap)为40个采样点的方式进行帧划分。当然，具体的采样点的数量、时长以及overlap的数量也是可以灵活进行调整的。

参见图8所示，为对一个音频数据进行帧划分的示意图。其中，按照每10ms进行划分，例如第1个音频帧则是从0ms～10ms，而按照每个overlap为40个采样点即为一个音频帧的一半即为5ms，从而第2个音频帧则是从5ms～15ms，后续的音频帧以此类推，直至划分完所有的音频帧，可见，每两个相邻的音频帧都存在overlap，那么提取得到的每两个相邻的音频帧的关联性更为紧密，例如提取得到的第1个音频帧的特征包含了第2个音频帧的部分特征，使得最终提取的音频特征能够更为准确的表达音频数据，有助于后续进行身份识别。

步骤703：针对每个音频数据，分别提取其对应的多个音频帧各自对应的梅尔倒(mel)频谱特征。

针对每个音频数据对应的各个音频帧，提取相应的mel频谱特征，直到处理完所有的音频帧。这里以一个音频数据的一个音频帧为例，对音频帧的mel频谱特征提取过程进行介绍，这里具体以采样率为8k，hop_length＝512，windows为汉明(Hanmming)窗，来提取mel频谱特征。

参见图9所示，为音频帧的mel频谱特征提取过程的流程示意图，其包括步骤7031～7034。

步骤7031：对音频帧信号进行傅里叶转换，获得音频帧对应的频谱。

步骤7032：利用三角窗函数(triangular overlapping window)，将音频帧对应的频谱映射(mapping)至梅尔刻度。

步骤7033：对映射后的频谱取对数。

步骤7034：进行离散余弦转换，获得转换后的梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients，MFCC)，即mel频谱的系数，mel频谱衍生自音频数据的倒频谱(cepstrum)，其频带划分是在梅尔刻度上等距划分的，相较于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示，可以使声音信号有更好的表示，更适用于语音识别功能，以提高音频识别的准确性。

步骤704：针对每个音频数据，对获得的多个mel频谱特征进行拼接处理，获得该音频数据的音频基础特征向量。

通过上述步骤，每个音频数据的每个音频帧都可以获得一个mel频谱特征，通过将每个音频帧的mel频谱特征首尾相连，则可以拼接得到一个大的一维向量，这个一维向量即为音频数据的音频基础特征向量，该手掌基础特征向量则可以送入分类器中进行训练了。

需要说明的是，在进行音频数据的采集时，同时也会记录下每个音频数据的来源，即来源于那个资源转移对象，以作为后续模型训练的标签数据。

(三)迭代训练阶段

本申请实施例中，训练数据准备完成后，则可以利用这些训练数据对构建的模型进行训练。

在一种实施方式中，可以根据上述模型的结构，设置身份识别模型所需的参数和数据，其中包括需要训练的参数，并可以选择TensorFlow(一种编程架构)框架作为训练框架，分别设置好批次(batch)、迭代次数(epoch)和学习率(learning rate)等超参数后，开始训练，最终得到身份识别模型，并存为pb格式的文件，pb格式为TensorFlow的一种保存模式，其只包括一个文件，占用空间小。

例如，设置手掌识别子模型的batch为128，epoch为1000，learning rate为0.0001，即迭代训练1000次，每一次迭代将训练样本分为128批次进行学习；此外，还可以设置音频识别子模型的batch为128，epoch为5000)，learning rate为0.0001。当然，这里的训练参数仅仅为一种可能的示例，在实际情况中还可以根据需求进行调整。

参见图10所示，为本申请实施例提供的身份识别模型训练方法的流程示意图。在迭代训练过程中，将所有训练样本划分为指定的批次，并基于各个次批次的训练样本进行训练，由于每一次迭代过程中针对每一批次进行训练时所执行的步骤是类似的，因此这里以针对一个批次的训练为例进行说明。

步骤1001：将各个训练样本输入手掌识别子模型，分别获得各个训练样本各自包括的手掌图像对应的手掌预测身份。

本申请实施例中，每个训练样本包括一张手掌图像和一段音频数据，以及相应的真实身份标签。在实际情况中，可以根据训练需求调整真实身份标签的内容。

在一种实施方式中，真实身份标签可以为每个训练样本包括的手掌图像和音频数据各自对应的真实身份，例如一个训练样本包括手掌图像A和音频数据B，则真实身份标签可以指示手掌图像A的真实身份C和音频数据B的真实身份D，真实身份C和真实身份D可以相同，也可以不同。

在一种实施方式中，真实身份标签可以指示每个训练样本包括的手掌图像和音频数据各自对应的真实身份是否相同，例如一个训练样本包括手掌图像A和音频数据B，则真实身份标签可以指示手掌图像A的真实身份C和音频数据B的真实身份D是否相同。

具体的，这里以图3所示的手掌识别子模型为例，对手掌识别子模型获取手掌预测身份的过程进行介绍。参见图11所示，为手掌识别子模型获取手掌预测身份的过程的流程示意图。其中，这里具体一个训练样本中的手掌图像A为例进行介绍。

步骤10011：通过两个卷积子网络分别对手掌图像A进行卷积处理，获得相应的两个卷积特征图。

其中，两个卷积子网络即为图3所示的老师骨干子网络和学生骨干子网络，通过这两个骨干网络可分别提取得到手掌图像A的卷积特征图。

在一种实施方式中，手掌图像A可以是指采集到的原始手掌图像，进而通过这两个卷积子网络提取基础图像特征，则在该种方式中，则这两个卷积子网络提取特征的过程则可以为上述图5所示的处理过程。

在一种实施方式中，手掌图像A可以是指通过图5所示的处理过程所得到的手掌基础特征向量，进而通过这两个卷积子网络对手掌基础特征向量进一步提取特征。

步骤10012：通过区域生成子网络提取两个卷积特征图中的感兴趣区域，获得区域特征图。

具体的，如图3所示，可以通过区域生成子网络对学生骨干子网络得到的卷积特征图以及老师骨干子网络得到的卷积特征图进行感兴趣区域的提取，获得相应的区域特征图。

步骤10013：通过区域池化层对获得的区域特征图进行池化处理，获得相应的池化特征图。

具体的，由于获得的各个区域特征图的尺度和长度都可能不同，因而需要通过区域池化层对区域特征图进行池化处理，来获得统一的大小。

具体的，这里的池化处理可以采用均值池化或者最大池化等池化处理方式。

步骤10014：通过全连接层，对获得的池化特征图进行特征映射处理，获得手掌预测向量。

步骤10015：基于获得的手掌预测向量，确定相应的手掌预测身份。

其中，全连接层包括多个权重参数，这些权重参数可以通过初始化方法进行初始赋值，并通过训练过程不断调整，从而基于上述得到的池化特征图以及这些权重参数，则可以相应映射得到手掌预测向量，进而基于该手掌预测向量确定手掌图像A对应的手掌预测身份。

请继续参见图10。

步骤1002：将各个训练样本输入音频识别子模型，分别获得各个训练样本各自包括的音频数据对应的音频预测身份。

本申请实施例中，在将各个训练样本的音频数据输入之后，则音频识别子模型通过模型前向处理，以确定相应的音频预测身份。其中，这里输入的音频数据可以是上述提取得到的音频数据的音频基础特征向量。

以图4所示的音频识别子模型识别音频数据B为例，音频数据B通过input层输入299x299x3大小的音频基础特征向量，经过stem层进行处理后获得的35x35x256大小的向量，并经过5个Inception-resnet层进行处理后获得的35x35x256大小的向量，输入至下一reducetion层，并获得其输出的17x17x896大小的向量，依次类推，直至获得softmax层输出的1x1000的音频预测向量，进而基于该音频预测向量确定音频数据B对应的音频预测身份。

需要说明的是，上述的步骤1001和步骤1002之间并未存在实质上的先后顺序，在执行时可以同时执行，也可以先后顺序执行，本申请实施例对此不做限制。

步骤1003：采用融合子模型，基于各个训练样本各自对应的手掌预测身份和音频预测身份，分别确定各个训练样本各自对应的身份识别结果。

在一种实施方式中，融合子模型可以包括手掌预测身份和音频预测身份各自对应的权重值，进而基于各自的权重值，来获得相应的身份识别结果。

例如，获得的手掌预测身份和音频预测身份可以为多个对象身份的置信度，而设置手掌预测身份的权重值可以为70％，音频预测身份的权重值为30，即以手掌预测身份为主，音频预测身份为辅，那么就可以进行加权求和，来获得各个对象身份的最终置信度，进而该置信度确定最终的身份识别结果。

在一种实施方式中，融合子模型还可以采用神经网络，该神经网络包含了多个网络参数，这些网络参数可以通过初始化方法进行初始赋值，并通过训练过程不断调整，从而基于神经网络包含的多个网络参数以及上述手掌预测身份和音频预测身份，得到相应的身份识别结果。

步骤1004：基于获得的各个身份识别结果以及相应的真实身份标签，确定身份识别模型对应的总损失值。

本申请实施例中，总损失值的获取可以采用如下几种方式，下面逐一进行介绍。

(1)第一种方式

可以基于本次输入的各个手掌图像对应的手掌预测身份以及真实身份标签，来获得手掌识别子模型的手掌识别损失值，并且，基于本次输入的各个音频数据对应的音频预测身份以及真实身份标签，获得音频识别子模型的音频识别损失值，进而基于手掌识别损失值和音频识别损失值获得总损失值。

其中，上述的手掌识别损失值和音频识别损失值均可以采用交叉熵(CrossEntry)损失函数、平方损失函数(quadratic loss function)以及绝对值损失函数(absolute loss function)等损失函数来计算。

在一种实施方式中，总损失值可以为手掌识别损失值和音频识别损失值的总和，也可以为手掌识别损失值和音频识别损失值分别设置不同的权重值，进而进行加权求和获得总损失值。

(2)第二种方式

本申请实施例中，还可以从样本的角度整体衡量样本的损失值。

具体的，可以基于本次输入的各个手掌图像对应的手掌预测身份以及真实身份标签，来获得手掌识别子模型的手掌识别损失值，并且，基于本次输入的各个音频数据对应的音频预测身份以及真实身份标签，获得音频识别子模型的音频识别损失值。此外，还可以基于各个身份识别结果以及相应训练样本对应的真实身份标签，获得样本识别损失值，进而基于手掌识别损失值、音频识别损失值以及样本识别损失值，获得总损失值。

具体的，按照训练样本中的手掌图像和音频数据所属的对象身份是否相同，可以将训练样本划分为正样本和负样本，每个正样本包括的手掌图像和音频数据对应的真实身份标签相同，每个负样本包括的手掌图像和音频数据对应的真实身份标签不同。那么，将各个正样本对应的身份识别结果以及真实身份标签进行比较，分别获得相应的各个第一比对结果，将各个负样本对应的身份识别结果以及设定的识别失败结果进行比较，分别获得相应的各个第二比对结果；其中，识别失败结果用于指示身份识别失败，进而基于各个第一比对结果和各个第二比对结果，获得样本识别损失值。

针对任一正样本，其包括的手掌图像和音频数据所属的对象身份可以相同，则最终预测得到的身份识别结果理论上也应该是标注的对象身份是一致的，从而可以对比身份识别结果与标注的对象身份，从而得到各个正样本的样本识别损失值；而针对任一负样本，其包括的手掌图像和音频数据所属的对象身份可以不相同，则最终预测得到的身份识别结果理论上应指示识别失败，即手掌图像和音频数据不一致，无法正确识别身份，从而也可以对比身份识别结果与负样本的理论结果，从而得到各个负样本的样本识别损失值，进而汇总所有训练样本的样本识别损失值，用于身份识别模型的总损失值的计算。

在一种实施方式中，当真实身份标签指示训练样本中的手掌图像和音频数据各自对应的真实身份，则可以确定每个训练样本中手掌图像和音频数据对应的真实身份是否相同，若相同，则按照上述正样本的计算方式获得样本识别损失值；而若不相同，则按照上述负样本的计算方式获得样本识别损失值。

在一种实施方式中，当真实身份标签指示训练样本中的手掌图像和音频数据所属的对象身份是否相同时，例如真实身份标签为0时，指示手掌图像和音频数据所属的对象身份不相同，真实身份标签为1时，指示手掌图像和音频数据所属的对象身份相同。那么，身份识别结果可以包括指示手掌预测身份和音频预测身份是否相同的指示信息，进而，可以根据手掌预测身份和音频预测身份进行判断，若相同，则指示信息可以为1，若不相同，则指示信息可以为0，从而可以对比真实身份标签与身份识别结果中的指示信息，以确定每个训练样本的样本识别损失值。

步骤1005：判断身份识别模型是否满足收敛条件。

本申请实施例中，收敛条件可以包括如下条件的至少一个：

(1)总损失值不大于预设的损失值阈值。

(2)迭代次数达到预设的次数上限值。

步骤1006：若步骤1005的判断结果为否，则基于总损失值对手掌识别子模型、音频识别子模型以及融合子模型进行参数调整。

若满足上述条件，则确定身份识别模型已满足收敛条件，则训练结束，否则确定身份识别模型还未满足收敛条件那么则需要对模型参数继续进行调整，并利用调整后的身份识别模型进入下一次训练过程，即跳转至步骤1001和1002执行。

本申请实施例中，通过手掌图像和音频数据获得的最终身份识别结果，并基于这个身份识别结果获得的总损失值对整个模型进行调整，这样，手掌识别子模型和音频识别子模型均能够基于手掌图像和音频数据进行学习，从而更加提升整个模型的身份识别准确度。

本申请实施例中，为了提升训练效率，还可以在进行图10的过程进行训练之前，还可以分别对手掌识别子模型和音频识别子模型进行预训练，在利用预训练之后的手掌识别子模型和音频识别子模型参与图10的训练过程，由于分别训练后，这两个模型都已收敛，则可以利用图10的训练过程进行微调学习，使得手掌识别子模型和音频识别子模型能够同时学习到图像和音频两方面的特征，使得身份识别模型更加准确。

具体的，可以采用多个手掌图像对手掌识别子模型进行预训练，获得满足收敛条件时手掌识别子模型的第一模型参数，并可以采用多个音频数据对音频识别子模型进行预训练，获得满足收敛条件时音频识别子模型的第二模型参数，进而，在图10的训练过程开始时，则可以基于第一模型参数对手掌识别子模型进行初始化，以及基于第二模型参数对音频识别子模型进行初始化，在通过各个训练样本对初始化后的音频识别子模型和手掌识别子模型进行训练。

本申请实施例中，针对音频数据而言，考虑到在实际场景中，在用户支付采集音频数据时，还有可能将附近的其他用户的声音采集到，因而提取得到的音频特征有可能掺杂了其他用户的声音特征，从而影响模型训练的准确性。基于此，本申请实施例可以对音频数据中的杂音进行滤除，再利用滤除后的音频数据参与训练。

在一种实施方式中，可以预先采用各个音频数据，对音频帧过滤模型进行训练，获得已训练后的音频帧过滤模型，进而利用该音频帧过滤模型反向对各个音频数据的音频帧进行身份识别，来辅助滤除音频数据中的杂音。

具体的，以一个音频数据为例，将该音频数据包括的多个音频帧输入已训练后的音频帧过滤模型，获得多个音频帧各自对应的音频帧识别身份，若存在一个音频帧对应的音频帧识别身份与其所属的音频数据的真实身份标签不一致，则表明该音频帧属于其他用户的声音，则可以将该音频帧从所属的音频数据中滤除，使得每个音频数据能够属于同一用户，那么后续，将滤除后的各个音频数据输入音频识别子模型进行训练，所得到的音频识别子模型的准确性得以更高。

具体的，该音频帧过滤模型可以采用与上述音频识别子模型相同的模型结构。

本申请实施例中，在身份识别模型训练结束之后，则还可以对该身份识别模型进行评估，若评估准确度达到要求，则可以投入实际的使用过程中了，在进行模型评估时，可以利用评估样本来进行。

具体的，对每个评估样本中的手掌图像和音频数据进行分块，提取相应的HOG特征以及mel频谱特征，进而将提取的这些HOG特征以及mel频谱特征送到身份识别模型进行预测，通过采取投票的方法统计预测结果。针对一个评估样本，若手掌识别子模型和音频识别子模型的预测结果需要为同一用户，否则本次预测失败，并且，手掌预测结果、音频预测结果的权重可进行调整，例如手掌图像的权重为70％，音频数据的权重为30％。

本申请实施例中，还提供一种电子资源转移方法，参见图12所示，为该电子资源转移方法的流程示意图。

步骤1201：接收电子资源转移请求，电子资源转移请求用于将资源转移对象所拥有的指定数量的电子资源，转移给资源接收对象，以及，电子资源转移请求携带了资源转移对象的手掌图像和音频数据。

本申请实施例中，以电子资源转移为电子支付为例，当用户在商户购买物品时，则用户可以采用刷掌支付的方式进行付款，那么资源转移终端设备设备可以采用该用户的手掌图像和音频数据，进而上传至后台服务器，以供后台服务器基于手掌图像和音频数据识别身份向商户付款。

具体的，资源转移终端设备可以对采集的进行特征提取获得手掌图像和音频数据的特征向量之后，还可以将手掌图像和音频数据的原始数据以及手掌图像和音频数据的特征向量一并加密传输给资源转移服务器，进而资源转移服务器接收电子资源转移请求后，可以利用已训练的身份识别模型中特征提取部分基于原始数据进行特征提取，并将提取得到的特征向量与资源转移终端设备发送的特征向量进行对比，以判断原始数据是否经过篡改，从而保障电子资源转移数据传输的安全性。

步骤1202：将手掌图像和音频数据输入身份识别模型，获得资源转移对象的身份识别结果。

该身份识别模型可以为上述训练得到的身份识别模型，因而获得资源转移对象的身份识别结果的过程可以参见上述相应部分的描述，在此不再进行赘述。

步骤1203：基于身份识别结果，将指定数量的电子资源转移给资源接收对象。

例如，身份识别结果可以指示采集的手掌图像和音频数据所对应的用户的支付账户，从而则可以将该支付账户拥有的电子资源转移给商户，以交换相应的物品。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息如上述的手掌图像、音频数据以及支付账户等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

请参见图13，基于同一发明构思，本申请实施例还提供了一种身份识别模型训练装置130，身份识别模型包括手掌识别子模型、音频识别子模型和融合子模型，该装置包括：

图像识别单元1301，用于将各个训练样本输入手掌识别子模型，分别获得各个训练样本各自包括的手掌图像对应的手掌预测身份；

音频识别单元1302，用于将各个训练样本输入音频识别子模型，分别获得各个训练样本各自包括的音频数据对应的音频预测身份；

融合预测单元1303，用于采用融合子模型，基于各个训练样本各自对应的手掌预测身份和音频预测身份，分别确定各个训练样本各自对应的身份识别结果；

模型调整单元1304，用于基于获得的各个身份识别结果以及相应的真实身份标签对应的总损失值，对手掌识别子模型、音频识别子模型以及融合子模型进行参数调整。

可选的，每个训练样本标注了各自包括的手掌图像和音频数据对应的真实身份标签；则该装置还包括模型损失确定单元1305，用于：

基于获得的手掌预测身份以及相应的真实身份标签，获得手掌识别子模型的手掌识别损失值；

基于获得的音频预测身份以及相应的真实身份标签，获得音频识别子模型的音频识别损失值；

基于各个身份识别结果以及相应训练样本对应的真实身份标签，获得样本识别损失值；

基于手掌识别损失值、音频识别损失值以及样本识别损失值，获得总损失值。

可选的，各个训练样本包括正样本和负样本，每个正样本包括的手掌图像和音频数据对应的真实身份标签相同，每个负样本包括的手掌图像和音频数据对应的真实身份标签不同；则模型损失确定单元1305，还用于：

将各个负样本对应的身份识别结果以及设定的识别失败结果进行比较，分别获得相应的各个第二比对结果；其中，识别失败结果用于指示身份识别失败；

基于各个第一比对结果和各个第二比对结果，获得样本识别损失值。

可选的，手掌识别子模型包括的卷积核大小不同的两个卷积子网络、区域生成子网络、区域池化层和全连接层；则图像识别单元1301，具体用于：

针对各个训练样本，分别执行如下操作：

针对一个训练样本，通过两个卷积子网络分别对手掌图像进行卷积处理，获得相应的两个卷积特征图，并通过区域生成子网络提取感兴趣区域，获得至少一个区域特征图；

通过区域池化层对至少一个区域特征图进行池化处理，获得池化特征图；

通过全连接层，对获得的池化特征图进行特征映射处理，并基于获得的手掌预测向量确定相应的手掌预测身份。

可选的，图像识别单元1301，还用于：

针对各个训练样本包括的各个手掌图像，分别执行如下操作：

针对一个手掌图像，对一个手掌图像进行区域划分，获得相应的多个手掌子图像；

分别提取多个手掌子图像各自对应的方向梯度直方图特征；

对获得的多个方向梯度直方图特征进行拼接处理，获得一个手掌图像的手掌基础特征向量；

将各个手掌图像各自对应的手掌基础特征向量输入手掌识别子模型。

可选的，音频识别单元1302，还用于：

针对各个训练样本包括的各个音频数据，分别执行如下操作：

针对一个音频数据，对一个音频数据进行帧划分，获得相应的多个音频帧；

分别提取多个音频帧各自对应的梅尔倒频谱特征；

对获得的多个梅尔倒频谱特征进行拼接处理，获得一个音频数据的音频基础特征向量；

则将各个训练样本输入音频识别子模型，包括：

将各个音频数据各自对应的音频基础特征向量输入音频识别子模型。

可选的，音频识别单元1302，具体用于：

采用交叉划分的方式，对一个音频数据进行帧划分，使得多个音频帧中相邻的音频帧存在重叠部分。

可选的，音频识别单元1302，还用于：

基于各个音频数据，对音频帧过滤模型进行训练，获得已训练后的音频帧过滤模型；其中，音频帧过滤模型与音频识别子模型的模型结构相同；

针对各个音频数据，分别执行如下操作：

针对一个音频数据，将一个音频数据包括的多个音频帧输入已训练后的音频帧过

滤模型，获得多个音频帧各自对应的音频帧识别身份；

若存在一个音频帧对应的音频帧识别身份与一个音频数据的真实身份标签不一致，则将一个音频帧从一个音频数据中滤除；

将滤除后的各个音频数据输入音频识别子模型。

可选的，该装置还包括预训练单元1306，用于：

采用多个手掌图像对手掌识别子模型进行预训练，获得满足收敛条件时手掌识别子模型的第一模型参数；以及，采用多个音频数据对音频识别子模型进行预训练，获得满足收敛条件时音频识别子模型的第二模型参数；

则图像识别单元，具体用于基于第一模型参数对手掌识别子模型进行初始化，并将各个训练样本输入初始化后的手掌识别子模型；

则音频识别单元，具体用于基于第二模型参数对音频识别子模型进行初始化，并将各个训练样本输入初始化后的音频识别子模型。

通过上述装置，可以通过将手掌图像和音频数据共同作为训练数据来进行多模态的学习，学习到的模型能够对手掌图像和音频数据分别进行预测，并融合了这两者的预测结果来获得最终的身份识别结果，以提升身份识别的准确率。此外，在训练时，通过手掌图像和音频数据获得的最终身份识别结果，并基于这个身份识别结果对整个模型进行调整，这样，手掌识别子模型和音频识别子模型均能够基于手掌图像和音频数据进行学习，从而更加提升整个模型的身份识别准确度。

该装置可以用于执行本申请各实施例中所示的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考前述实施例的描述，不多赘述。

请参见图14，基于同一发明构思，本申请实施例还提供了一种电子资源转移装置140，该装置包括：

接收单元1401，用于接收电子资源转移请求，电子资源转移请求用于将资源转移对象所拥有的指定数量的电子资源，转移给资源接收对象，以及，电子资源转移请求携带了资源转移对象的手掌图像和音频数据；

身份识别单元1402，用于将手掌图像和音频数据输入基于权利要求1～9任一方法训练得到的身份识别模型，获得资源转移对象的身份识别结果；

资源转移单元1403，用于基于身份识别结果，将指定数量的电子资源转移给资源接收对象。

请参见图15，基于同一技术构思，本申请实施例还提供了一种计算机设备150，该计算机设备150可以为图1所示的终端设备或服务器，该计算机设备150可以包括存储器1501和处理器1502。

所述存储器1501，用于存储处理器1502执行的计算机程序。存储器1501可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用所创建的数据等。处理器1502，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等等。本申请实施例中不限定上述存储器1501和处理器1502之间的具体连接介质。本申请实施例在图15中以存储器1501和处理器1502之间通过总线1503连接，总线1503在图15中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线1503可以分为地址总线、数据总线、控制总线等。为便于表示，图15中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1501可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1501也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器1501是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1501可以是上述存储器的组合。

处理器1502，用于调用所述存储器1501中存储的计算机程序时执行本申请各实施例中设备所执行的方法。

在一些可能的实施方式中，本申请提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行本申请各实施例中设备所执行的方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种身份识别模型训练方法，其特征在于，所述身份识别模型包括手掌识别子模型、音频识别子模型和融合子模型，所述方法包括：

2.如权利要求1所述的方法，其特征在于，每个训练样本标注了各自包括的手掌图像和音频数据对应的真实身份标签；

在所述基于获得的各个身份识别结果以及相应的真实身份标签对应的总损失值，对所述手掌识别子模型、所述音频识别子模型以及所述融合子模型进行参数调整之前，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述各个训练样本包括正样本和负样本，每个正样本包括的手掌图像和音频数据对应的真实身份标签相同，每个负样本包括的手掌图像和音频数据对应的真实身份标签不同；

则基于所述各个身份识别结果以及相应训练样本对应的真实身份标签，获得样本识别损失值，包括：

4.如权利要求1～3任一所述的方法，其特征在于，所述手掌识别子模型包括的卷积核大小不同的两个卷积子网络、区域生成子网络、区域池化层和全连接层；则将各个训练样本输入所述手掌识别子模型，分别获得所述各个训练样本各自包括的手掌图像对应的手掌预测身份，包括：

针对所述各个训练样本，分别执行如下操作：

5.如权利要求1～3任一所述的方法，其特征在于，在将各个训练样本输入所述手掌识别子模型之前，所述方法还包括：

针对一个手掌图像，对所述一个手掌图像进行区域划分，获得相应的多个手掌子图像；

则将各个训练样本输入所述手掌识别子模型，包括：

6.如权利要求1～3任一所述的方法，其特征在于，在将所述各个训练样本输入所述音频识别子模型之前，所述方法还包括：

分别提取所述多个音频帧各自对应的梅尔倒频谱特征；

则将所述各个训练样本输入所述音频识别子模型，包括：

7.如权利要求6所述的方法，其特征在于，对所述一个音频数据进行帧划分，获得相应的多个音频帧，包括：

8.如权利要求6所述的方法，其特征在于，所述方法还包括：

针对所述各个音频数据，分别执行如下操作：

针对一个音频数据，将所述一个音频数据包括的多个音频帧输入已训练后的音频帧过滤模型，获得所述多个音频帧各自对应的音频帧识别身份；

则将所述各个训练样本输入所述音频识别子模型，包括：

将滤除后的各个音频数据输入所述音频识别子模型。

9.如权利要求1～3任一所述的方法，其特征在于，所述方法还包括：

采用多个手掌图像对所述手掌识别子模型进行预训练，获得满足收敛条件时所述手掌识别子模型的第一模型参数；

采用多个音频数据对所述音频识别子模型进行预训练，获得满足收敛条件时所述音频识别子模型的第二模型参数；

则所述将各个训练样本输入所述手掌识别子模型，包括：

基于所述第一模型参数对所述手掌识别子模型进行初始化，并将各个训练样本输入初始化后的所述手掌识别子模型；

则所述将所述各个训练样本输入所述音频识别子模型，包括：

基于所述第二模型参数对所述音频识别子模型进行初始化，并将各个训练样本输入初始化后的所述音频识别子模型。

10.一种基于权利要求1～9任一所述方法训练得到的身份识别模型的电子资源转移方法，其特征在于，所述方法包括：

11.一种身份识别模型训练装置，其特征在于，所述身份识别模型包括手掌识别子模型、音频识别子模型和融合子模型，所述装置包括：

12.一种电子资源转移装置，其特征在于，所述装置包括：

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，

所述处理器执行所述计算机程序时实现权利要求1～9或者10任一项所述方法的步骤。

14.一种计算机存储介质，其上存储有计算机程序指令，其特征在于，

该计算机程序指令被处理器执行时实现权利要求1～9或者10任一项所述方法的步骤。

15.一种计算机程序产品，包括计算机程序指令，其特征在于，