CN117992925A

CN117992925A - 基于多源异构数据和多模态数据的风险预测方法及装置

Info

Publication number: CN117992925A
Application number: CN202410397552.4A
Authority: CN
Inventors: 王小东; 徐志华; 吕文勇; 周智杰; 朱羽
Original assignee: Chengdu New Hope Finance Information Co Ltd
Current assignee: Chengdu New Hope Finance Information Co Ltd
Priority date: 2024-04-03
Filing date: 2024-04-03
Publication date: 2024-05-07
Anticipated expiration: 2044-04-03
Also published as: CN117992925B

Abstract

本申请提供一种基于多源异构数据和多模态数据的风险预测方法及装置，方法包括：获取待检测用户数据；待检测用户数据包括多源异构数据和多模态数据；多源异构数据为不同数据源的数据；多模态数据为不同表达形式的数据；根据多源异构数据的数据源类别对多源异构数据进行处理，获得数据表文件；对数据表文件中的数据进行结构化特征提取，获得待检测结构化特征；利用非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征；基于待检测结构化特征和待检测非结构化特征，生成待检测融合特征；将待检测融合特征输入预设的风险预测模型，生成风险检测结果。待检测融合特征更全面地描述风险，提高了风险预测或风险识别的准确性。

Description

基于多源异构数据和多模态数据的风险预测方法及装置

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种基于多源异构数据和多模态数据的风险预测方法及装置。

背景技术

在金融行业，对于信用贷款的风险控制，由于其业务形式数量巨大，且风险形式多样，复杂多变，若通过人工方式进行风险检测，效率较低且准确率不高。目前也有一些技术依靠风险识别模型进行风险预测，这些风险识别模型的训练数据主要依靠用户的征信数据、贷前、贷中、贷后数据等，由于模型的训练数据维度单一，导致目前用户的风险识别存在瓶颈，风险识别模型的准确率较低。

发明内容

本申请实施例的目的在于一种基于多源异构数据和多模态数据的风险预测方法、装置、电子设备及存储介质，改善模型的训练数据维度单一，风险识别模型的准确率较低的问题，提高风险识别模型的准确率。

第一方面，本申请实施例提供了一种基于多源异构数据和多模态数据的风险预测方法，包括：获取待检测用户数据；待检测用户数据包括多源异构数据和多模态数据；多源异构数据为不同数据源的数据；多模态数据为不同表达形式的数据；根据多源异构数据的数据源类别对多源异构数据进行处理，获得数据表文件；对数据表文件中的数据进行结构化特征提取，获得待检测结构化特征；利用非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征；基于待检测结构化特征和待检测非结构化特征，生成待检测融合特征；将待检测融合特征输入预设的风险预测模型，生成风险检测结果。

在上述的实现过程中，待检测融合特征可以结合非结构化特征和结构化特征的优点，从而更全面地描述风险。待检测融合特征可以减少对单一数据类型的依赖，从而降低风险预测模型对特定数据缺失或噪声的敏感性，提高风险预测模型的鲁棒性和稳定性，并且训练好的风险预测模型可以捕捉到更复杂的模式。因此，利用风险预测模型对待检测融合特征进行预测，提高了风险预测或风险识别的准确性。

可选地，在任一实施例的基础上，根据多源异构数据的数据源类别对多源异构数据进行处理，获得数据表文件；对数据表文件中的数据进行结构化特征提取，获得待检测结构化特征，包括：通过不同数据源类别对应的脚本文件，对多源异构数据分别进行转换处理，获得不同数据源类别对应的预设格式文件；读取不同数据源类别对应的预设格式文件中的数据，并将读取出的数据按照数据源类别分别存储至分布式文件系统中对应的数据块；利用数据块对应的键，将多个数据块进行等值链接，获得数据表文件；根据数据表文件中的数据，以及预设指标的统计频次，生成待检测结构化特征。

在上述的实现过程中，分别对不同数据源的数据进行处理，获得多源异构数据对应的数据表文件，通过对多个数据库中的数据表进行关联，获得符合要求的结构化特征，提高结构化特征的准确性。

可选地，在任一实施例的基础上，非结构化特征提取模型包括行为特征提取模型、图像特征提取模型、活体特征提取模型、语音特征提取模型以及文本特征提取模型中的至少一个。

在上述的实现过程中，对于多模态数据选择对应的非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征。每一模态的数据均预先训练对应的特征提取模型来进行特征提取，使待检测非结构特征中具有丰富的上下文信息。

可选地，在任一实施例的基础上，行为特征提取模型的构建步骤包括：基于预设设置的页面埋点事件采集用户行为训练数据，用户行为训练数据的类别包括用户输入速度，页面点击速度，表单信息填写速度和页面滑动速度中的至少一项；按照用户行为训练数据的类别以及预设的时间间隔，将用户行为训练进行切片处理，获得切片数据；利用切片数据训练预设的神经网络，获得行为特征提取模型；行为特征提取模型用于对多模态数据中的操作行为数据进行特征提取。

在上述的实现过程中，通过数据埋点方式获取用户行为训练数据，并对用户行为训练数据进行切片，通过神经网络学习行为数据之间的时需依赖关系，从而提高行为特征提取的准确性，增加用户风险预测的维度。

可选地，在任一实施例的基础上，图像特征提取模型的构建步骤包括：分别对用户的证件正面图像、证件反面图像和人像图像进行特征提取，获得证件正面图像特征、证件反面图像特征和人像图像特征；将证件正面图像特征、证件反面图像特征和人像图像特征进行特征融合，生成图像融合特征；利用视觉神经网络模型对图像融合特征进行特征提取，获得图像编码特征；视觉神经网络模型包括多头自注意力机制；利用图像编码特征和损失函数训练预设的神经网络，获得图像特征提取模型；图像特征提取模型用于对多模态数据中的图片数据进行特征提取。

在上述的实现过程中，通过分别对用户的证件正面图像、证件反面图像和人像图像进行特征提取，并将提取出的将证件正面图像特征、证件反面图像特征和人像图像特征进行特征融合，获得图像融合特征。视觉神经网络模型包括多头自注意力机制，增强模型的表示能力。

可选地，在任一实施例的基础上，非结构化特征提取模型包括活体特征提取模型；利用非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征，包括：从多模态数据中获取视频数据的图像帧；通过活体特征提取模型的人脸检测层对图像帧进行人脸检测，获得人脸图像；通过活体特征提取模型的人脸特征提取层对人脸图像进行特征提取，获得人脸特征；通过活体特征提取模型的整体特征提取层对图像帧进行特征提取，获得整体图像特征；通过活体特征提取模型的特征聚合层，将人脸特征和整体图像特征进行求和计算，获得聚合后的特征；将视频数据的图像帧对应的聚合后的特征，依次输入活体特征提取模型的长短期记忆模块，获得时序特征；长短期记忆模块用于学习聚合后的特征之间的时间依赖关联；基于预先设置的视频数据中图像帧的权重，将图像帧对应的时序特征进行加权处理，获得视频数据特征；将视频数据特征作为待检测非结构化特征。

在上述的实现过程中，视频活体涵盖了大量高维特征，通过人脸检测层对图像帧进行人脸检测，获得人脸图像，分别对人脸图像和图像帧进行局部和整体的特征提取，在获取更全面的信息的基础上，更加关注人脸重点。长短期记忆模块很好的学习活体视频前后之间的依赖性和时序性，提高了视频数据特征提取的准确性。

可选地，在任一实施例的基础上，非结构化特征提取模型包括语音特征提取模型；利用非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征，包括：获取多模态数据中的业务语音数据；利用语音特征提取模型中的拼接层对业务语音数据进行拼接，获得拼接语音；利用语音特征提取模型中的语音切片层将拼接语音按照预设的时间间隔进行切片，获得语音切片；利用语音特征提取模型中的语音特征提取层对语音切片进行处理，获得语音切片特征；将语音切片特征进行矩阵化，生成语音特征二维矩阵；将语音特征二维矩阵作为待检测非结构化特征。

在上述的实现过程中，对多模态数据中的业务语音数据进行拼接、切片特征提取以及矩阵化的操作，获得更准确的待检测非结构化特征，为用户预测提供更多维度的非结构化特征。

可选地，在任一实施例的基础上，非结构化特征提取模型包括文本特征提取模型；利用非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征，包括：从多模态数据中获取待识别文本；待识别文本通过文本框输入、光学字符识别和/或语音转换获得；对待识别文本进行分词处理，并将分词后的文本进行排列，获得分词集合；利用文本特征提取模型，对分词集合中的分词进行文本特征提取，获得文本特征向量；将文本特征向量组合为文本二维矩阵；将文本二维矩阵作为待检测非结构化特征。

在上述的实现过程中，通过文本特征提取模型对待识别文本进行文本特征和提取，获得文本特征向量，为用户预测提供更多维度的非结构化特征。

可选地，在任一实施例的基础上，基于待检测结构化特征和待检测非结构化特征，生成待检测融合特征，包括：根据待检测用户数据的标识信息，将待检测结构化特征和待检测非结构化特征进行融合处理，生成待检测融合特征；融合处理包括相加处理、拼接处理、线性融合或非线性融合中的至少一项。

在上述的实现过程中，待检测融合特征可以结合非结构化特征和结构化特征的优点，从而更全面地描述风险。并且待检测融合特征可以减少对单一数据类型的依赖，从而降低风险预测模型对特定数据缺失或噪声的敏感性，提高风险预测模型的鲁棒性和稳定性。

可选地，在任一实施例的基础上，在将待检测融合特征输入预设的风险预测模型，生成风险检测结果之前，方法还包括：获取用户样本数据；用户样本数据包括多源异构样本数据和多模态样本数据；对多源异构样本数据进行处理，获得样本数据表文件，基于样本数据表文件中的数据进行结构化特征提取，获得样本结构化特征；按照多模态样本数据的数据类型，分别对多模态样本数据进行非结构化特征提取，获得样本非结构化特征；将样本结构化特征和样本非结构化特征进行融合，获得样本融合特征；基于样本融合特征以及样本融合特征的标签，训练预设的机器学习模型，生成风险预测模型。

在上述的实现过程中，在训练风险检测模型的时候，结合非结构化特征和结构化特征的优点，从而更全面地描述风险。非结构化特征可以提供丰富的上下文信息，而结构化特征可以提供精确的度量。通过将这些不同类型的信息融合起来，训练好的风险预测模型可以捕捉到更复杂的模式，提高风险预测模型预测准确性。

第二方面，本申请实施例还提供了一种基于多源异构数据和多模态数据的风险预测装置，包括：获取用户数据模块，用于获取待检测用户数据；待检测用户数据包括多源异构数据和多模态数据；多源异构数据为不同数据源的数据；多模态数据为不同表达形式的数据；异构数据处理模块，用于根据多源异构数据的数据源类别对多源异构数据进行处理，获得数据表文件；对数据表文件中的数据进行结构化特征提取，获得待检测结构化特征；多模态数据处理模块，用于利用非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征；特征融合模块，用于基于待检测结构化特征和待检测非结构化特征，生成待检测融合特征；风险预测模块，用于将待检测融合特征输入预设的风险预测模型，生成风险检测结果。

第三方面，本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上面描述的方法。

采用本申请提供基于多源异构数据和多模态数据的风险预测方法、装置、电子设备及存储介质，待检测融合特征可以结合非结构化特征和结构化特征的优点，从而更全面地描述风险。非结构化特征（如行为数据、视频、语言、文本、图像等）可以提供丰富的上下文信息，而结构化特征（如数值数据、分类数据等）可以提供精确的度量。通过将这些不同类型的信息融合起来，风险预测模型能够更准确地预测风险。待检测融合特征可以减少对单一数据类型的依赖，从而降低风险预测模型对特定数据缺失或噪声的敏感性，提高风险预测模型的鲁棒性和稳定性，并且训练好的风险预测模型可以捕捉到更复杂的模式。因此，利用风险预测模型对待检测融合特征进行预测，提高了风险预测或风险识别的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种基于多源异构数据和多模态数据的风险预测方法的流程示意图；

图2为本申请实施例提供的多源异构数据处理流程示意图；

图3为本申请实施例提供的行为特征提取模型建模流程示意图；

图4为本申请实施例提供的图像特征提取模型建模流程示意图；

图5为本申请实施例视频数据特征提取的示意图；

图6为本申请实施例提供的语音切片特征提取的示意图；

图7为本申请实施例提供的文本特征向量提取流程示意图；

图8为本申请实施例提供的风险预测模型的建模流程示意图；

图9为本申请实施例提供的基于多源异构数据和多模态数据的风险预测装置的结构示意图；

图10为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案，因此只作为示例，而不能以此来限制本申请的保护范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

在本申请实施例的描述中，技术术语“第一”、“第二”等仅用于区别不同对象，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中，“多个”的含义是两个及以上，除非另有明确具体的限定。

零售信贷行业一直在快速发展，其中人工智能和数据分析技术也得到了广泛应用。关于零售信用贷款的风险控制，由于其业务形式数量巨大，平均单笔额度不等，且风险形式复杂多变，难以通过业务经验全面覆盖，因此人工介入程度相对较低。

该领域的风险控制绝大部分都是通过风险模型和策略体系进行控制，其中，用户的风险识别是零售信贷业务的核心。目前主流的风险识别技术主要依靠机器学习为主，训练算法时主要依靠用户的征信数据、贷前，贷中，贷后数据、三方数据等，数据维度单一。这些信息主要是指在贷款过程中采集的用户的个人信息、居住信息、合同信息、信贷信息，例如信用卡借款信息等。

然而上述的训练数据并没有利用用户在线申请时的身份证正反面、活体视频、活体人像图像、用户填写表单的文本、接听催收电话时的语音、以及与客服交易时侦测到的电话语音、用户操作页面的行为等非结构化数据。同时，现有的模型算法较为简单，导致目前用户的风险识别存在瓶颈，风险预测模型的精度无法提高。

请参见图1示出的本申请实施例提供的一种基于多源异构数据和多模态数据的风险预测方法的流程示意图。本申请实施例提供的基于多源异构数据和多模态数据的风险预测方法可以应用于电子设备，该电子设备可以包括终端以及服务器；其中终端具体可以为智能手机、平板电脑、计算机、个人数字助理（Personal Digital Assitant，PDA）等；服务器具体可以为应用服务器，也可以为Web服务器。该基于多源异构数据和多模态数据的风险预测方法可以包括：

步骤S110：获取待检测用户数据；待检测用户数据包括多源异构数据和多模态数据；多源异构数据为不同数据源的数据；多模态数据为不同表达形式的数据。

步骤S120：根据多源异构数据的数据源类别对多源异构数据进行处理，获得数据表文件；对数据表文件中的数据进行结构化特征提取，获得待检测结构化特征。

步骤S130：利用非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征。

步骤S140：基于待检测结构化特征和待检测非结构化特征，生成待检测融合特征。

步骤S150：将待检测融合特征输入预设的风险预测模型，生成风险检测结果。

在步骤S110中，在获得用户许可的情况下，可以通过多种方式获取待检测用户数据。多源异构数据是指来自不同数据源的数据，这些数据源可能包括不同的数据库系统、设备、操作系统、管理系统等。由于这些数据来自不同的源头，因此它们的存储模式、逻辑结构、数据格式、产生时间、使用场所、代码协议等都可能存在差异，因此称为多源异构数据。待检测用户数据中的多源异构数据可以从存储用户数据的不同的数据库中获取。

多模态数据为不同表达形式的数据，模态可以指不同的存在形式或表达形式，例如行为数据、视频、图像、文本和语音等。可以通过不同领域或视角获取到数据，这些数据就构成多模态数据。具体来说，待检测用户数据中的多模态数据可以通过用户在线申请贷款时的证件正反面、活体视频、活体人像图像、用户填写表单的文本、接听催收电话时的语音、以及与客服交易时侦测的电话语音、用户操作页面的行为等方式获取。

在步骤S120中，在对多源异构数据进行特征提取时，由于这些数据存在于不同的数据库中，并不能从一个数据库中计算出来。因此，需要针对不同数据源的数据进行分别处理加工。例如，根据多源异构数据的数据源类别，分别对不同数据源的数据进行处理，例如通过不同数据源类别对应的脚本文件，对多源异构数据分别进行转换处理，获得多源异构数据对应的数据表文件。这里的数据表文件可以指宽表文件，宽表是一种数据库表，宽表的特点是字段（列）比较多，宽表文件将不同范畴的字段放入同一张表中，使得提高查询的性能和便捷性。在宽表中，查询时不需要跨多个数据表表，只需在这张宽表中进行，从而减少了与多个维度表进行连接操作的需求，节省系统资源开销，如网络、内存和算力等。

将多源异构数据整合到数据表文件之后，将数据表文件存储在分布式文件系统，可以从分布式文件系统中读取数据表文件中的数据，并对读取到的数据进行结构化特征的提取，获得待检测结构化特征。

结构化特征提取的过程包括：数据清洗和预处理、特征选择以及特征提取等步骤。其中，特征选择可以根据业务需求，使用统计法统计预设指标的统计频次获得。例如，在信贷风险检测的业务中，所选择的特征可以为历史申请次数等。特征提取可以采用统计方法，例如均值、中位数、方差、偏度等，提取出的结构化特征用于描述数据的统计特性。对于文本数据，还可以使用词袋模型、TF-IDF、Word2Vec等方法进行结构化特征提取。

在步骤S130中，对于多模态数据，根据模态类型，选择对应的非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征。每一模态的数据均预先训练对应的特征提取模型来进行特征提取，举例来说，多模态数据中的操作行为数据通过行为特征提取模型来提取行为特征；图片数据通过图像特征提取模型来提取图像特征。

在步骤S140中，对待检测用户数据分别进行结构化特征提取和非结构化特征提取之后，获得待检测结构化特征和待检测非结构化特征，基于待检测结构化特征和待检测非结构化特征，生成待检测融合特征。举例来说，可以采用相加处理或拼接处理等方式对待检测结构化特征和待检测非结构化特征进行融合，生成待检测融合特征。

在步骤S150中，待检测融合特征中包括了待检测用户数据对应的待检测结构化特征和待检测非结构化特征，将待检测融合特征输入预设的风险预测模型，生成风险检测结果。风险检测结果用于表征用户是否具有信贷风险或具有信贷风险的程度。风险预测模型是基于样本融合特征以及样本融合特征的标签训练获得，样本融合特征的获取方式以及训练风险预测模型的过程在后续实施例进行详细描述。

在上述的实现过程中，待检测融合特征可以结合非结构化特征和结构化特征的优点，从而更全面地描述风险。非结构化特征（如行为数据、视频、语言、文本、图像等）可以提供丰富的上下文信息，而结构化特征（如数值数据、分类数据等）可以提供精确的度量。通过将这些不同类型的信息融合起来，风险预测模型能够更准确地预测风险。

待检测融合特征可以减少对单一数据类型的依赖，从而降低风险预测模型对特定数据缺失或噪声的敏感性，提高风险预测模型的鲁棒性和稳定性，并且训练好的风险预测模型可以捕捉到更复杂的模式。因此，利用风险预测模型对待检测融合特征进行预测，提高了风险预测或风险识别的准确性。

可选的，在任一实施例的基础上，根据多源异构数据的数据源类别对多源异构数据进行处理，获得数据表文件；对数据表文件中的数据进行结构化特征提取，获得待检测结构化特征，包括：通过不同数据源类别对应的脚本文件，对多源异构数据分别进行转换处理，获得不同数据源类别对应的预设格式文件。

请参见图2示出的本申请实施例提供的多源异构数据处理流程示意图。

多源异构数据可以存在于Mysql、Hbase、Hive、MongoDB以及数仓等数据库中，在一些情况下，加工一个特征往往需要对多个数据库中的数据表进行关联，才能获得符合要求的结构化特征。为了对这些数据进行统一管理和处理，减少因数据处理脚本语言造成的差异，需要通过不同数据源类别对应的脚本文件，对多源异构数据进行转换处理，获得不同数据源类别对应的预设格式文件。

示例性的，针对Mysql数据库中的数据使用SQL语言提取原始数据，转换处理获得Mysql数据库对应的预设格式文件，预设格式文件可以是XML文件。文件格式可以为：预设格式文件名是Mysql数据表名，文件第一行为表的字段定义名，字段之间以“|”分开；文件第二行（包括第二行）后都是具体的数据，数据之间以“|”间隔。例如：Mysql数据表名可以为：apply.xml；Mysql数据表中的第一行数据为：historyApplyCnt|cardUseCnt|mutiHeadCnt；第二行数据为：2.0|5|7。获得的预设格式文件可以使用文件传输或者服务器拷贝等方式存储到分布式文件系统HDFS中。

其余的多源异构数据，例如存储在Hbase，Hive，MongoDB，数仓等数据库中的数据，同样基于每个数据存储引擎的处理脚本语言处理数据，获得对应的预设格式文件，并将不同数据源类别对应的预设格式文件分别放到HDFS的不同目录下。

使用预设的数据接口，例如Spark NewHadoopAPI，读取不同数据源类别对应的预设格式文件中的数据，并将读取出的数据按照数据源类别分别存储至分布式文件系统中对应的数据块。一个数据块可以为一个RDD（Resilient Distributed Dataset，弹性分布式数据集），将预设格式文件中的数据提取出来，并转换为Spark中的RDD格式，以便进行后续的分布式处理和分析。数据被读取到数据块中，就可以利用Spark提供的丰富操作来进行并行计算、转换、过滤、聚合等操作，从而实现对大规模数据的高效处理和分析。

将数据被读取到数据块中之后，利用数据块对应的键，将多个数据块进行等值链接，获得数据表文件。例如，在Apache Spark中，可以利用join算子根据键对这两个数据块进行等值连接。连接的结果是一个新的数据块，新的数据块中包含匹配的键值对。

获得新的数据块之后，可以对数据库进行数据宽表加工，获得数据表文件。数据宽表加工可以使用filter，map，reduceByKey，mapPartitions，repartition，sortByKey，union，aggregateByKey，takeSample等算子进行处理。数据表文件可以为XML格式的文件，将XML文件存储到分布式文件系统中，该数据表文件中的数据可以看作结构化特征加工的原始数据。

根据数据表文件中的数据，以及预设指标的统计频次，生成待检测结构化特征。例如，基于Spark NewHadoopAPI再次读取数据表文件，依据不同指标的定义逻辑加工结构化数据特征，将数据特征存入到HDFS中，形成最终的特征表。由于使用了Spark分布式计算，可处理超大数据量级的数据，提高处理效率。同时上述步骤已经将预设格式文件存于HDFS中，减少了Spark每次从源头计算，提升了结构化特征加工的效能，增加了拓展性。

可选的，在任一实施例的基础上，非结构化特征提取模型包括行为特征提取模型、图像特征提取模型、活体特征提取模型、语音特征提取模型以及文本特征提取模型中的至少一个。

可选的，在任一实施例的基础上，用户在线申请贷款需要经过多个流程，用户需要进行各种页面点击、信息填写和配合证件人脸的验伪。对于未申请过贷款的人，和中介等熟悉贷款的专业人士，他们的操作行为等是不一样的。针对这种情况，可以构建行为特征提取模型对行为特征进行提取，进而进行风险预测。

请参见图3示出的本申请实施例提供的行为特征提取模型建模流程示意图。

行为特征提取模型的构建步骤包括：

在获得用户许可的情况下，基于预设设置的页面埋点事件采集用户行为训练数据，用户行为训练数据的类别包括用户输入速度，页面点击速度，表单信息填写速度和页面滑动速度中的至少一项。

需要说明的是，为了确保用户数据的安全和隐私，应在合规情况下，明确告知用户所要采集的数据，并获取用户明确的许可之后采集用户行为训练数据，以及应该妥善保存采集的数据，合理合法使用。

作为一种实施方式，用户输入速度可以为用户在文本框打字的速度，获取用户输入速度得方式包括：在应用程序、小程序或页面的输入框中添加事件监听器，监听用户的输入事件。记录用户开始输入和结束输入的时间点。计算输入字符的数量和所花费的时间，从而得出输入速度。

获取页面点击速度的方式包括：在应用程序、小程序或页面中，为每个可点击的元素，例如按钮等添加点击事件监听器。记录用户点击事件的时间点，通过分析连续点击事件之间的时间间隔，得出用户的点击速度。

获取表单信息填写速度的方式包括：在表单的每个字段上添加事件监听器，监听字段的输入和失焦事件。记录用户开始填写和提交表单的时间点。结合用户输入速度和点击速度，分析用户在表单上的整体填写速度。

获取页面滑动速度的方式包括：使用页面滚动事件监听器来追踪用户的滚动行为。记录用户开始滚动和停止滚动的时间点。结合滚动的距离和时间，计算页面滑动速度。

按照用户行为训练数据的类别以及预设的时间间隔，将用户行为训练进行切片处理，获得切片数据。例如，对每个类别的行为训练数据，按照时间顺序进行切片，间隔500MS作为一个切片数据。

利用切片数据训练预设的神经网络，获得行为特征提取模型。例如，神经网络可以是双向LSTM网络，基于双向LSTM对时序数据进行模型搭建，将切片数据输入双向LSTM网络，获得行为时序特征。双向LSTM网络学习用户操作行为，字词句的连续性和上下依赖关系。双向LSTM网络还可以连接加权求和层和Softmax层，完成行为特征提取模型建模；加权求和层用于对双向LSTM网络输出的行为时序特征进行加权求和，Softmax层用于进行分类处理。

行为特征提取模型用于对多模态数据中的操作行为数据进行特征提取，在进行行为特征提取时，可以将操作行为数据输入行为特征提取模型，由行为特征提取模型输出行为特征。

请参见图4示出的本申请实施例提供的图像特征提取模型建模流程示意图。

通过研究发现，图像的翻拍、打印、PS、AIGC合成、高度编辑、替换背景、背景造假、清晰程度等是图像本身维度层面的特征，这些特征在拍摄时是可以通过屏幕摩尔纹、反光、字体造假、图像轮廓和边缘不自然等特征区分出来的，因此本申请实施例将身份证正反面、人像图像进行特征提取，提取图像维度的共有特征，识别用户图像真实性。

可选的，在任一实施例的基础上，图像特征通过图像特征提取模型进行提取，图像特征提取模型的构建步骤包括：在获得用户授权的情况下，获得用户的证件正面图像、证件反面图像和人像图像。其中，人像图像可以是身份证中仅包含人像部分的图像，也可以是其他仅包含人像的图像。

分别对用户的证件正面图像、证件反面图像和人像图像进行特征提取，获得证件正面图像特征、证件反面图像特征和人像图像特征。可以分别采用对应的卷积神经网络对这三部分进行特征提取，例如证件正面图像使用卷积神经网络image_cnn_net1提取特征，证件反面图像使用卷积神经网络image_cnn_net2提取特征，人像图像用卷积神经网络image_cnn_net3提取特征。其中，image_cnn_net1、image_cnn_net2、image_cnn_net3的神经网络结构例如：Alexnet，Resnet，VGG Net、ResNet、ResNeXt、SE-Net，image_cnn_net1、image_cnn_net2、image_cnn_net3的神经网络模型可以相同，也可以不同。

将证件正面图像特征、证件反面图像特征和人像图像特征进行特征融合，生成图像融合特征。特征融合可使用特征图相加、拼接、线性融合或非线性融合等方式。

利用视觉神经网络模型对图像融合特征进行特征提取，获得图像编码特征。视觉神经网络模型可以为ViT Transformer（Vision Transformer），使用VIT Transformer对图像融合特征进行进一步特征提取。VIT Transformer将Transformer结构应用于图像识别任务，视觉神经网络模型包括多头自注意力机制，可以让视觉神经网络模型关注图像边缘轮廓编辑、摩尔纹、反光、PS、姿态造假等特征，从而很好地学习图像的欺诈特征和信用特征。并且每个头都是独立计算注意力权重的，因此多头自注意力机制可以并行计算，提高了模型的计算效率。

利用图像编码特征和损失函数训练预设的神经网络，获得图像特征提取模型；图像特征提取模型用于对多模态数据中的图片数据进行特征提取。其中，损失函数可以为交叉熵损失函数。通过图像特征提取模型提取图像特征时，可以将视觉神经网络模型输出的图像编码特征作为提取出的图像特征。可以理解的是，预设的神经网络可以与行为特征提取模型对应的预设的神经网络相同，也可以不同。

可选的，在任一实施例的基础上，视频活体是指在视频中有一个或者多个能动的在现实世界的物体，对活体进行检测，主要是识别摄像头采集的视频中人脸是不是从真人拍摄而来，而不是从面具、3D打印、电子头、AI合成视频等人脸攻击而来。视频活体涵盖了大量高维特征，为了更好的提取视频特征，本申请实施例构建活体特征提取模型，通过活体特征提取模型提取视频特征。

请参见图5示出的本申请实施例视频数据特征提取的示意图。

非结构化特征提取模型包括活体特征提取模型；利用非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征，包括：从多模态数据中获取视频数据的图像帧，例如对视频数据进行逐帧解析，将每一帧图像存入图像帧列表image_list。循环处理图像帧列表image_list的每一帧，图像帧用表示，其中/>表示图像的序列编号。

通过活体特征提取模型的人脸检测层对图像帧进行人脸检测，获得人脸图像。例如使用计算机视觉处理库Opencv读取图像帧，人脸检测层可以为Yolov8训练的人脸检测模型，通过人脸检测层对图像帧进行人脸检测，获得图像帧中的人脸图像，记作：；图像帧原始图像可以记作：/>。

通过活体特征提取模型的人脸特征提取层对人脸图像进行特征提取，获得人脸特征。人脸特征提取层相较于整体特征提取层的深度更小，人脸特征提取层可以是网络Resnet18，利用Resnet18对人脸图像进行特征提取，获得人脸特征。

通过活体特征提取模型的整体特征提取层对图像帧进行特征提取，获得整体图像特征。整体特征提取层相较于人脸特征提取层的深度更大，整体特征提取层可以是Restnet50，利用Restnet50对图像帧进行特征提取，获得整体图像特征。

人脸图像比图像帧的整体图像面积小，所以深度更小的神经网络感受野提取人脸特征，用大的神经网络感受野提取整体图像特征。

对一帧图像都进行该逻辑处理，形成处理后的特征图，人脸图像的特征记作，图像整体的特征记作/>。通过活体特征提取模型的特征聚合层，将人脸特征和整体图像特征进行求和计算，获得聚合后的特征。聚合后的特征记作。

求和计算的公式例如：

其中，其中i和j表示特征图的编号。

在活体特征提取模型中特征聚合层连接长短期记忆模块，将视频数据的图像帧对应的聚合后的特征，依次输入活体特征提取模型的长短期记忆模块，获得时序特征。长短期记忆模块为一个K层的网络结构的LSTM网络，K的数量可以根据实际情况确定，例如K可以确定为5层，并且每一层LSTM进行前后链接形成双向LSTM，双向LSTM可以很好的学习活体视频前后之间的依赖性和时序性，更好的判别风险。

举例来说，融合特征被输入到LSTM网络中，LSTM在每个时间步（即每个图像帧）都会更新其内部状态，这些状态包含了到目前为止观察到的序列的信息，以及如何将这一信息用于预测下一个时间步的输出。

基于预先设置的视频数据中图像帧的权重，将图像帧对应的时序特征进行加权处理，获得视频数据特征；将视频数据特征作为待检测非结构化特征。视频数据中图像帧的权重可以根据图像帧的重要性、或图像帧与关键事件的相关性等确定，对于视频中的每一帧都可以赋予一个权重，加权处理之后获得视频数据特征，视频数据特征可以是一个综合了所有帧信息的特征表示，视频数据特征反映了整个视频的重要特征和动态变化。

语音数据包含了客服、交易侦测、催收等电话拨打的数据，语音中的语气、语速、情绪、是否回答问题流利、是否声纹比对和用户本人一致等，也能反馈用户的欺诈风险和信用风险，

请参见图6示出的本申请实施例提供的语音切片特征提取的示意图。

可选的，在任一实施例的基础上，非结构化特征提取模型包括语音特征提取模型；利用非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征，包括：获取多模态数据中的业务语音数据；业务语音数据包括客服、交易侦测、催收等电话拨打等语音数据。

在一个可选的实施例中，还可以业务语音数据进行过滤，过滤规则根据业务逻辑来定义，如：删除较短的语音数据，保留语音中客服的语音删除，语音中带有关键词的语音数据，关键词可以为表达用户贷款意愿、还款意愿和还款咨询的关键词。

利用语音特征提取模型中的拼接层对业务语音数据进行拼接，获得拼接语音。基于筛选的语音进行拼接，将每个语音使用命令进行合成。获得拼接语音，

利用语音特征提取模型中的语音切片层将拼接语音按照预设的时间间隔进行切片，获得语音切片。例如，将拼接语音间隔100MS分为一个切片，每个切片记作：，/>表示语音切片的序号。

利用语音特征提取模型中的语音特征提取层对语音切片进行处理，获得语音切片特征。例如针对每个语音切片，使用Python包中的librosa函数读取语音文件，使用melspectrogram（梅尔时频谱图）提取语音切片特征，语音切片特征可以用256维向量表示，并且还可以使用Transformer（深度学习模型）进行进一步特征抽取。将进一步特征抽取的语音切片特征进行下一步的矩阵化。

对每个语音切片特征进行矩阵化，将语音切片特征组合为语音特征二维矩阵，其中每一行为一个语音切片特征，M为256维，N为语音切片特征的个数。将语音特征二维矩阵作为待检测非结构化特征。

文本数据包含了很多用户信息，如用户的地址语音转文本后的话术等，都可以表示用户的欺诈风险和信用风险。

请参见图7示出的本申请实施例提供的文本特征向量提取流程示意图。

可选的，在任一实施例的基础上，非结构化特征提取模型包括文本特征提取模型；利用非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征，包括：从多模态数据中获取待识别文本；待识别文本通过文本框输入、光学字符识别和/或语音转换获得。文本框输入是指用户填写的文本，光学字符识别是指OCR识别。

对待识别文本进行分词处理，并将分词后的文本进行排列，获得分词集合。例如可以使用jieba分词对待识别文本进行分词处理，将待识别文本中的句子按照分词顺序排列，假设分词集合为，/>为“地址”或“城市”等分词。

利用文本特征提取模型，对分词集合中的分词进行文本特征提取，获得文本特征向量。可以使用BERT、LLM、Word2Vec等语言模型将单词转换成文本特征向量，文本特征向量可以为512维。

将文本特征向量组合为文本二维矩阵；将文本二维矩阵作为待检测非结构化特征。利用文本特征向量组成文本二维矩阵，文本二维矩阵中每一行为每个单词的特征，M为文本特征向量的维度，N为单词的个数，

可选的，在任一实施例的基础上，基于待检测结构化特征和待检测非结构化特征，生成待检测融合特征，包括：根据待检测用户数据的标识信息，将待检测结构化特征和待检测非结构化特征进行融合处理，生成待检测融合特征；融合处理包括相加处理、拼接处理、线性融合或非线性融合中的至少一项。

例如可以通过用户ID等标识信息将同一个用户的待检测结构化特征和待检测非结构化特征进行融合处理，若检测结构化特征和待检测非结构化特征的特征维度相同，则可以选择相加处理；若检测结构化特征和待检测非结构化特征的特征维度不同，则可以选择拼接处理。当然，还可以通过线性融合或非线性融合等方式将待检测结构化特征和待检测非结构化特征进行融合处理，本申请实施例对此不作限定。

作为一种实施方式，可以将行为特征、图像特征、视频数据特征、语音特征二维矩阵以及文本二维矩阵均处理为一维向量，然后将将行为特征拼接到待检测结构化特征之后，将图像特征拼接到行为特征之后，将视频数据特征拼接到图像特征之后，将语音特征二维矩阵拼接到视频数据特征之后，将文本二维矩阵拼接到语音特征二维矩阵之后，从而完成特征融合，生成待检测融合特征。

可选的，在任一实施例的基础上，在将待检测融合特征输入预设的风险预测模型，生成风险检测结果之前，方法还包括：获取用户样本数据；用户样本数据包括多源异构样本数据和多模态样本数据。需要说明的是，用户样本数据需经过用户的允许之后获取。

对多源异构样本数据进行处理，获得样本数据表文件，基于样本数据表文件中的数据进行结构化特征提取，获得样本结构化特征。这里对于多源异构样本数据的处理过程，可以参见上述实施例中对待检测数据中多源异构数据的处理过程。

按照多模态样本数据的数据类型，分别对多模态样本数据进行非结构化特征提取，获得样本非结构化特征。每一模态的数据均预先训练对应的特征提取模型来进行特征提取，特征提取模型和特征提取的过程参见上述实施例中对待检测数据中多模态数据的处理过程。

将样本结构化特征和样本非结构化特征进行融合，获得样本融合特征；融合方式可以为相加处理、拼接处理、线性融合或非线性融合等。

基于样本融合特征以及样本融合特征的标签，训练预设的机器学习模型，生成风险预测模型。在一个可选的实施例中，样本融合特征的标签是预设的，样本融合特征的标签可以为“已逾期”或“未逾期”，数据集为贷款申请数据集。风险预测模型建模样本信息如表1：

表1 风险预测模型建模样本信息

使用预设的机器学习模型算法将结构化特征和非结构化特征进行合理运用，生成风险预测模型。机器学习模型可以为XBboost、XR、随机森林、CNN或LSTM等。

表2对比了基线模型和基于多源异构数据和多模态数据建立的风险预测模型。

表2 模型比对表

Base表示只使用结构化数据的风险预测模型，“Base+”表示多源异构数据和多模态数据建立的风险预测模型。可以观察到，相比于Base的性能，“Base+”在AUC（Area underCurve，曲线下的面积）上提升了5%，在KS（Kolmogorov-Smirnov，用于评估模型风险区分能力的指标）上提升了4%。实验表明，非结构化数据能够对基线模型产生增益，可以有效提升模型的性能，并使模型更加稳定。

请参见图8示出的本申请实施例提供的风险预测模型的建模流程示意图。

在获得用户许可允许的情况下，不同的数据库系统、设备、操作系统、管理系统等不同的数据源获取多源异构样本数据，多源异构样本数据可以包括征信数据、信贷数据以及三方数据等。通过不同数据源类别对应的脚本文件，对多源异构样本数据分别进行转换处理，获得数据表文件，将数据表文件存储在分布式文件系统中，并从分布式文件系统中读取数据表文件中的数据，并对读取到的数据进行结构化特征的提取，获得样本结构化特征。

还可以获取用户申请贷款相关的行为数据、图像数据、视频诗句、文本数据以及语音数据等，通过非结构化特征提取模型分别对多模态样本数据进行非结构化特征提取，获得样本非结构化特征。非结构化特征提取模型可以包括CNN、BERT、LSTM和/或VITTransformer等神经网络。

对于提取到的样本结构化特征和样本非结构化特征进行融合，获得样本融合特征；基于样本融合特征以及样本融合特征的标签，训练预设的机器学习模型，生成风险预测模型。

请参见图9示出的本申请实施例提供的基于多源异构数据和多模态数据的风险预测装置的结构示意图；本申请实施例提供了一种基于多源异构数据和多模态数据的风险预测装置200，包括：

获取用户数据模块210，用于获取待检测用户数据；待检测用户数据包括多源异构数据和多模态数据；多源异构数据为不同数据源的数据；多模态数据为不同表达形式的数据；

异构数据处理模块220，用于根据多源异构数据的数据源类别对多源异构数据进行处理，获得数据表文件；对数据表文件中的数据进行结构化特征提取，获得待检测结构化特征；

多模态数据处理模块230，用于利用非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征；

特征融合模块240，用于基于待检测结构化特征和待检测非结构化特征，生成待检测融合特征；

风险预测模块250，用于将待检测融合特征输入预设的风险预测模型，生成风险检测结果。

可选地，在任一实施例的基础上，基于多源异构数据和多模态数据的风险预测装置，异构数据处理模块，具体用于通过不同数据源类别对应的脚本文件，对多源异构数据分别进行转换处理，获得不同数据源类别对应的预设格式文件；读取不同数据源类别对应的预设格式文件中的数据，并将读取出的数据按照数据源类别分别存储至分布式文件系统中对应的数据块；利用数据块对应的键，将多个数据块进行等值链接，获得数据表文件；根据数据表文件中的数据，以及预设指标的统计频次，生成待检测结构化特征。

可选地，在任一实施例的基础上，基于多源异构数据和多模态数据的风险预测装置，非结构化特征提取模型包括行为特征提取模型、图像特征提取模型、活体特征提取模型、语音特征提取模型以及文本特征提取模型中的至少一个。

可选地，在任一实施例的基础上，基于多源异构数据和多模态数据的风险预测装置，多模态数据处理模块，还用于基于预设设置的页面埋点事件采集用户行为训练数据，用户行为训练数据的类别包括用户输入速度，页面点击速度，表单信息填写速度和页面滑动速度中的至少一项；按照用户行为训练数据的类别以及预设的时间间隔，将用户行为训练进行切片处理，获得切片数据；利用切片数据训练预设的神经网络，获得行为特征提取模型；行为特征提取模型用于对多模态数据中的操作行为数据进行特征提取。

可选地，在任一实施例的基础上，基于多源异构数据和多模态数据的风险预测装置，多模态数据处理模块，还用于构建图像特征提取模型：分别对用户的证件正面图像、证件反面图像和人像图像进行特征提取，获得证件正面图像特征、证件反面图像特征和人像图像特征；将证件正面图像特征、证件反面图像特征和人像图像特征进行特征融合，生成图像融合特征；利用视觉神经网络模型对图像融合特征进行特征提取，获得图像编码特征；视觉神经网络模型包括多头自注意力机制；利用图像编码特征和损失函数训练预设的神经网络，获得图像特征提取模型；图像特征提取模型用于对多模态数据中的图片数据进行特征提取。

可选地，在任一实施例的基础上，基于多源异构数据和多模态数据的风险预测装置，非结构化特征提取模型包括活体特征提取模型；多模态数据处理模块，还用于从多模态数据中获取视频数据的图像帧；通过活体特征提取模型的人脸检测层对图像帧进行人脸检测，获得人脸图像；通过活体特征提取模型的人脸特征提取层对人脸图像进行特征提取，获得人脸特征；通过活体特征提取模型的整体特征提取层对图像帧进行特征提取，获得整体图像特征；通过活体特征提取模型的特征聚合层，将人脸特征和整体图像特征进行求和计算，获得聚合后的特征；将视频数据的图像帧对应的聚合后的特征，依次输入活体特征提取模型的长短期记忆模块，获得时序特征；长短期记忆模块用于学习聚合后的特征之间的时间依赖关联；基于预先设置的视频数据中图像帧的权重，将图像帧对应的时序特征进行加权处理，获得视频数据特征；将视频数据特征作为待检测非结构化特征。

可选地，在任一实施例的基础上，基于多源异构数据和多模态数据的风险预测装置，非结构化特征提取模型包括语音特征提取模型；多模态数据处理模块，还用于获取多模态数据中的业务语音数据；利用语音特征提取模型中的拼接层对业务语音数据进行拼接，获得拼接语音；利用语音特征提取模型中的语音切片层将拼接语音按照预设的时间间隔进行切片，获得语音切片；利用语音特征提取模型中的语音特征提取层对语音切片进行处理，获得语音切片特征；将语音切片特征进行矩阵化，生成语音特征二维矩阵；将语音特征二维矩阵作为待检测非结构化特征。

可选地，在任一实施例的基础上，基于多源异构数据和多模态数据的风险预测装置，非结构化特征提取模型包括文本特征提取模型；多模态数据处理模块，还用于从多模态数据中获取待识别文本；待识别文本通过文本框输入、光学字符识别和/或语音转换获得；对待识别文本进行分词处理，并将分词后的文本进行排列，获得分词集合；利用文本特征提取模型，对分词集合中的分词进行文本特征提取，获得文本特征向量；将文本特征向量组合为文本二维矩阵；将文本二维矩阵作为待检测非结构化特征。

可选地，在任一实施例的基础上，基于多源异构数据和多模态数据的风险预测装置，特征融合模块，具体用于根据待检测用户数据的标识信息，将待检测结构化特征和待检测非结构化特征进行融合处理，生成待检测融合特征；融合处理包括相加处理、拼接处理、线性融合或非线性融合中的至少一项。

可选地，在任一实施例的基础上，基于多源异构数据和多模态数据的风险预测装置，还包括风险预测模型构建模块，用于获取用户样本数据；用户样本数据包括多源异构样本数据和多模态样本数据；对多源异构样本数据进行处理，获得样本数据表文件，基于样本数据表文件中的数据进行结构化特征提取，获得样本结构化特征；按照多模态样本数据的数据类型，分别对多模态样本数据进行非结构化特征提取，获得样本非结构化特征；将样本结构化特征和样本非结构化特征进行融合，获得样本融合特征；基于样本融合特征以及样本融合特征的标签，训练预设的机器学习模型，生成风险预测模型。

应理解的是，该装置与上述的基于多源异构数据和多模态数据的风险预测方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件（firmware）的形式存储于存储器中或固化在装置的操作系统（operating system，OS）中的软件功能模块。

请参见图10示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备300，包括：处理器310和存储器320，存储器320存储有处理器310可执行的机器可读指令，机器可读指令被处理器310执行时执行如上的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上的方法。

其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory, 简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory, 简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory, 简称PROM），只读存储器（Read-OnlyMemory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种基于多源异构数据和多模态数据的风险预测方法，其特征在于，包括：

获取待检测用户数据；所述待检测用户数据包括多源异构数据和多模态数据；所述多源异构数据为不同数据源的数据；所述多模态数据为不同表达形式的数据；

根据多源异构数据的数据源类别对所述多源异构数据进行处理，获得数据表文件；对所述数据表文件中的数据进行结构化特征提取，获得待检测结构化特征；

利用非结构化特征提取模型，对所述多模态数据进行特征提取，生成待检测非结构化特征；

基于所述待检测结构化特征和所述待检测非结构化特征，生成待检测融合特征；

将所述待检测融合特征输入预设的风险预测模型，生成风险检测结果。

2.根据权利要求1所述的方法，其特征在于，根据多源异构数据的数据源类别对所述多源异构数据进行处理，获得数据表文件；对所述数据表文件中的数据进行结构化特征提取，获得待检测结构化特征，包括：

通过不同数据源类别对应的脚本文件，对所述多源异构数据分别进行转换处理，获得不同数据源类别对应的预设格式文件；

读取不同数据源类别对应的所述预设格式文件中的数据，并将读取出的数据按照所述数据源类别分别存储至分布式文件系统中对应的数据块；

利用所述数据块对应的键，将多个所述数据块进行等值链接，获得所述数据表文件；

根据所述数据表文件中的数据，以及预设指标的统计频次，生成所述待检测结构化特征。

3.根据权利要求1所述的方法，其特征在于，所述非结构化特征提取模型包括行为特征提取模型、图像特征提取模型、活体特征提取模型、语音特征提取模型以及文本特征提取模型中的至少一个。

4.根据权利要求3所述的方法，其特征在于，所述行为特征提取模型的构建步骤包括：

基于预设设置的页面埋点事件采集用户行为训练数据，所述用户行为训练数据的类别包括用户输入速度，页面点击速度，表单信息填写速度和页面滑动速度中的至少一项；

按照用户行为训练数据的类别以及预设的时间间隔，将所述用户行为训练进行切片处理，获得切片数据；

利用所述切片数据训练预设的神经网络，获得所述行为特征提取模型；所述行为特征提取模型用于对所述多模态数据中的操作行为数据进行特征提取。

5.根据权利要求3所述的方法，其特征在于，所述图像特征提取模型的构建步骤包括：

分别对用户的证件正面图像、证件反面图像和人像图像进行特征提取，获得证件正面图像特征、证件反面图像特征和人像图像特征；

将所述证件正面图像特征、所述证件反面图像特征和所述人像图像特征进行特征融合，生成图像融合特征；

利用视觉神经网络模型对所述图像融合特征进行特征提取，获得图像编码特征；所述视觉神经网络模型包括多头自注意力机制；

利用所述图像编码特征和损失函数训练预设的神经网络，获得所述图像特征提取模型；所述图像特征提取模型用于对所述多模态数据中的图片数据进行特征提取。

6.根据权利要求3所述的方法，其特征在于，所述非结构化特征提取模型包括所述活体特征提取模型；利用非结构化特征提取模型，对所述多模态数据进行特征提取，生成待检测非结构化特征，包括：

从所述多模态数据中获取视频数据的图像帧；

通过所述活体特征提取模型的人脸检测层对所述图像帧进行人脸检测，获得人脸图像；

通过所述活体特征提取模型的人脸特征提取层对所述人脸图像进行特征提取，获得人脸特征；

通过所述活体特征提取模型的整体特征提取层对所述图像帧进行特征提取，获得整体图像特征；

通过所述活体特征提取模型的特征聚合层，将所述人脸特征和所述整体图像特征进行求和计算，获得聚合后的特征；

将所述视频数据的图像帧对应的所述聚合后的特征，依次输入所述活体特征提取模型的长短期记忆模块，获得时序特征；所述长短期记忆模块用于学习所述聚合后的特征之间的时间依赖关联；

基于预先设置的所述视频数据中所述图像帧的权重，将所述图像帧对应的所述时序特征进行加权处理，获得视频数据特征；将所述视频数据特征作为所述待检测非结构化特征。

7.根据权利要求3所述的方法，其特征在于，所述非结构化特征提取模型包括所述语音特征提取模型；利用非结构化特征提取模型，对所述多模态数据进行特征提取，生成待检测非结构化特征，包括：

获取所述多模态数据中的业务语音数据；

利用所述语音特征提取模型中的拼接层对所述业务语音数据进行拼接，获得拼接语音；

利用所述语音特征提取模型中的语音切片层将所述拼接语音按照预设的时间间隔进行切片，获得语音切片；

利用所述语音特征提取模型中的语音特征提取层对所述语音切片进行处理，获得语音切片特征；

将所述语音切片特征进行矩阵化，生成语音特征二维矩阵；将所述语音特征二维矩阵作为所述待检测非结构化特征。

8.根据权利要求3所述的方法，其特征在于，所述非结构化特征提取模型包括所述文本特征提取模型；利用非结构化特征提取模型，对所述多模态数据进行特征提取，生成待检测非结构化特征，包括：

从所述多模态数据中获取待识别文本；所述待识别文本通过文本框输入、光学字符识别和/或语音转换获得；

对所述待识别文本进行分词处理，并将分词后的文本进行排列，获得分词集合；

利用所述文本特征提取模型，对所述分词集合中的所述分词进行文本特征提取，获得文本特征向量；

将所述文本特征向量组合为文本二维矩阵；将所述文本二维矩阵作为所述待检测非结构化特征。

9.根据权利要求1所述的方法，其特征在于，基于所述待检测结构化特征和所述待检测非结构化特征，生成待检测融合特征，包括：

根据所述待检测用户数据的标识信息，将所述待检测结构化特征和所述待检测非结构化特征进行融合处理，生成所述待检测融合特征；所述融合处理包括相加处理、拼接处理、线性融合或非线性融合中的至少一项。

10.根据权利要求1-9任一所述的方法，其特征在于，在将所述待检测融合特征输入预设的风险预测模型，生成风险检测结果之前，所述方法还包括：

获取用户样本数据；所述用户样本数据包括多源异构样本数据和多模态样本数据；

对所述多源异构样本数据进行处理，获得样本数据表文件，基于所述样本数据表文件中的数据进行结构化特征提取，获得样本结构化特征；

按照所述多模态样本数据的数据类型，分别对所述多模态样本数据进行非结构化特征提取，获得样本非结构化特征；

将所述样本结构化特征和所述样本非结构化特征进行融合，获得样本融合特征；

基于所述样本融合特征以及所述样本融合特征的标签，训练预设的机器学习模型，生成所述风险预测模型。

11.一种基于多源异构数据和多模态数据的风险预测装置，其特征在于，包括：

获取用户数据模块，用于获取待检测用户数据；所述待检测用户数据包括多源异构数据和多模态数据；所述多源异构数据为不同数据源的数据；所述多模态数据为不同表达形式的数据；

异构数据处理模块，用于根据多源异构数据的数据源类别对所述多源异构数据进行处理，获得数据表文件；对所述数据表文件中的数据进行结构化特征提取，获得待检测结构化特征；

多模态数据处理模块，用于利用非结构化特征提取模型，对所述多模态数据进行特征提取，生成待检测非结构化特征；

特征融合模块，用于基于所述待检测结构化特征和所述待检测非结构化特征，生成待检测融合特征；

风险预测模块，用于将所述待检测融合特征输入预设的风险预测模型，生成风险检测结果。

12.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至10任一所述的方法。

13.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至10任一所述的方法。