CN117217807B

CN117217807B - 一种基于多模态高维特征的不良资产估值方法

Info

Publication number: CN117217807B
Application number: CN202311473599.6A
Authority: CN
Inventors: 张玻
Original assignee: Sichuan Zhichao Technology Co ltd
Current assignee: Sichuan Zhichao Technology Co ltd
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-01-26
Anticipated expiration: 2043-11-08
Also published as: CN117217807A

Abstract

本发明涉及数据收集与处理技术领域，提供了一种基于多模态高维特征的不良资产估值方法。主旨在于解决现有技术中缺少针对用户信贷的非结构化数据进行结构化的方法，导致无法将高维特征抽取出来用于算法训练的问题。主要方案包括对非结构化的图像、视频、文本、语音数据进行高维特征提取，得到多模态非结构化特征；对结构化特征先进行特征筛选再将筛选出的结构化特征和多模态非结构化特征融合，再利用深度学习技术，对融合后的特征构建预测算法模型，完成资产包的估值。

Description

一种基于多模态高维特征的不良资产估值方法

技术领域

本发明涉及数据收集与处理技术领域，提供了一种基于多模态高维特征的不良资产估值方法。

背景技术

金融不良资产广义上指商业银行等持牌金融机构持有的不能为其带来正常经济利益流入的各类股权、债权、实物类资产。金融不良资产处置方式主要包括诉讼清收、债务重组、债权转让、债转股、资产证券化等方式。不良资产处置中离不开对不良资产进行合理的评估定价，该估值将成为不良资产市场上买卖双方交易对价的重要参考依据。

目前市场对于不良资产转让估值没有成熟的方法，目前评估机构还不能短期内拿出成熟的估值报告。这也导致市场上的不良资产转让价格具有很大的随机性和不确定性。而一个不良资产包中一般存在很多不良资产案件，每个案件的状况和实际质地千差万别。在不良资产包估值过程中，由于买卖双方信息不对称，欠缺债务人相对完善的财务信息以及未来收益，债权的可变现价值依赖于每个债务人的实际财务状况和还款意愿。

当前不良资产包估值的方法主要包括：

1、静态现金流贴现模型：按照确定的期望收益率对证券的未来现金流进行折现，此种方法的关键是确定利率和现金流。静态现金流贴现模型在实操中，最大的难题是未来现金流的确定，以及未来利率走势的预测。由于在不良资产交易过程中，不可能对每个案件的债务人进行详细的了解和资产属性量化，因此单个案件的质地和现金流非常难以判断和定义。因此此种方法对于交易过程中的估值并无太大的实际意义；

2、蒙特卡洛模拟是一种基于概率论和统计论的计算方法。基本原理就是：以资产的初始价格为起点，在考虑提前偿付与违约情况下模拟多种现金流路径，得到各路径下的现金流，再贴现，并将所有路径下的贴现值进行加权平均，得到资产的理论价格。这种方法同样受制于不良资产交易过程中的现金流是否可能有途径获取；

3、对不良资产包样本数据建立多因素回归模型，是通过对历史不良资产包的总结和归纳，总结出影响不良资产包最终价值的因素，然后在此基础上运用统计模型对这些因素进行回归分析，建立回归模型。多因素回归分析采用统计学的分析方法，比较适用于不良资产的定价分析，但需要大量的不良资产处置案例即不良资产包来作为理论研究的基础，同时最终估值的准确性很大程度上依赖于建立回归方程时所选取的变量，如果最初选取的影响不良资产回收率的相关因素是错误的，那么最终的结果可能会和实际情况相距甚远。

现有方法中，例如方法1和方法2的是建立在案件现金流的计算或者模拟的基础上，而现金流由于受制于很多客观（不良资产案件的各项属性）和主观（债务人的实际还款意愿）因素以及难以在案件本身体现的其他诸多因素，例如债务人当前的实际财务状况、工作稳定性、家庭负担、健康状况等等，因此这种方法很难适合于不良资产包交易过程中的价值评估。同时目前不管那种估值方法利用的都是结构化数据，并没有将用户贷款时的身份证照片、大头照照片、活体视频、填写地址文本信息、催收语音数据等非结构化数据利用起来，导致资产包估值和真实价值之间存在很大不匹配，估值不准确等问题，因此，基于多模态语音、图像、视频、文本等，结合结构化数据完成不良资产包价值评估很有研究意义的。

现有的估值算法存在以下问题：

1，现有估值算法只利用了结构化数据，并没有很好的利用用户信贷时的身份证照片、大头照、活体视频、催收语音、居住地址等非结构化数据，导致估值算法无法准确估值，估值可依赖的数据少。

2，针对用户信贷的非结构化数据也没有一种可以对其进行结构化的方法，导致高维特征无法被抽取用于算法训练。

发明内容

本发明的目的在于解决针对用户信贷的非结构化数据现有技术中没有一种可以对其进行结构化的方法，导致高维特征无法被抽取用于算法训练的问题。

为了解决上述技术问题，本发明采用以下技术手段：

本发明提供了一种基于多模态高维特征的不良资产估值方法,包括以下步骤：

步骤1、对非结构化的图像、视频、文本和语音数据进行高维特征提取，得到多模态非结构化特征；

步骤2、先进行特征筛选，再进行特征融合，具体的为：

对结构化特征进行特筛选，再将筛选出的结构化特征和多模态非结构化特征融合，再利用深度学习，对融合后的特征构建预测算法模型，完成资产包的估值。

上述技术方案中，对非结构化的图像、视频、文本和语音数据进行高维特征提取，得到多模态非结构化特征，具体为：

通过身份证照片和大头照编码器实现对身份证和大头照的特征编码，得到非结构化图像特征；

通过活体视频编码器实现对活体视频的特征编码，得到非结构化视频特征；

通过催收语音编码器实现对催收语音的特征编码，得到非结构化语音特征；

通过文本编码器实现对身份证OCR识别的文本的特征编码，得到非结构化文本特征。

上述技术方案中，获取信贷产品本身存在的结构化数据，结构化数据的加工根据业务指标定义，使用Spark SQL，Python等数据加工引擎编写脚本进行数据提取和指标加工，形成多维结构化数据特征。

上述技术方案中，所述特征筛选实现为：对多维结构化数据特征使用IV值计算法计算特征重要性，筛选出IV值大于0.1的多维结构化数据特征。

上述技术方案中，步骤2中特征融合具体的为：

对IV值大于0.1的多维结构化数据特征和非结构化图像特征、非结构化文本特征、非结构化语音特征、非结构化视频特征进行融合，融合时将非结构化图像特征、非结构化文本特征、非结构化语音特征、非结构化视频特征的每一个维度组成一列，非结构化图像特征是256维特征、非结构化文本特征是256维特征、非结构化语音特征是128维特征、非结构化视频特征是512维特征，结构化特征是1000维特征，组成的特征维度是256+256+128+512+1000=2152维特征。

上述技术方案中，身份证照片和大头照编码器的实现包括以下步骤：

步骤a1、使用Yolov8算法进行身份证照片检测或者大头照的人脸检测，将身份证照片或人脸照片从图像中提取出来;

步骤a2、基于身份证照片或人脸照片，使用Resnet34网络提取身份证照片或人脸照片主干网络特征;

步骤a3、使用VIT Transformer嫁接到Resnet34网络之后;

步骤a4、在VIT Transformer网络之后，针对人脸照片或者身份证照片造假类型使用Alexnet，Resnet网络进行网络连接，最后使用不同的损失函数进行学习目标定义，让VITTransformer学习到图像翻拍，打印等特征信息，得到身份证照片和大头照编码器的模型；

步骤a5、身份证照片和大头照编码器的模型使用反向传播算法将每一轮迭代得到的误差向前传递，并进行梯度求导和更新，不断经过多次迭代完成身份证照片和大头照编码器的模型训练；

步骤a6、身份证照片和大头照编码器的模型训练完成后，提取VIT Transformer这一层的特征Map作为身份证照片或者大头照的特征表示，其特征分别记作：Face_Vi_Encode，Id_Vi_Encode。

上述技术方案中，活体视频编码器的实现包括以下步骤：

步骤b1、对活体视频使用OpenCV进行视频解析，将每一帧图像提取出来存入到图像数组中，记作：，/>表示图像的序列编号，从1到/>；

步骤b2、循环数图像组中的每一帧，取出图像使用Resnet34网络结构进行图像2维特征编码器网络结构的搭建，每个图像对应的网络结构记作，其中表示图像的序列编号，从1到/>；

步骤b3、将每个网络结构拼接一个3层的Lstm网络，每个Lstm网络记作：/>，对图像序列按照编号1到N，将/>和/>拼接在一起，得到视频编码器模型；

步骤b4、对视频编码器模型利用反向传播算法和梯度下降法进行求解，让损失函数最小，经过多次迭代或者损失函数不再下降时，则视频编码器模型训练完毕；

步骤b5、将训练后得到的视频编码器模型最后一层特征作为活体视频编码器的特征。

上述技术方案中，催收语音编码器的实现包括以下步骤：

步骤c1、对催收的语音数据的语音格式进行统一格式处理，语音的格式有：MP3、WAV、WMA、MP2、Flac、MIDI、RA、APE、AAC、CDA、MOV，使用Ffmpeg对语音格式进行转码，统一转成WAV格式；

步骤c2、对语音数据进行通道分离，将双通道语音分离成单通道语音，使用Python函数包中的wavfile函数进行通道分离；

步骤c3、基于分离后的语音数据建立催收语音编码器，催收语音编码器的实现过程如下：

步骤c3.1、对语音数据按照20ms进行切片，按照切片顺序组成语音序列，序列记作：， />为语音数据切片序列的编号；

步骤c3.2、对语音数据切片序列进行训练处理，将每一个切片序列都提取mfcc特征，mfcc特征设定为128维，

步骤c3.3、提取完成后将mfcc特征按照切片序号作为行，128维特征作为列，组装成二维数据，然后利用图像处理的特征提取方法，利用VIT Transformer进行语音编码器模型网络搭建实催收现语音编码器特征提取。

上述技术方案中，文本编码器实现包括以下步骤：

文本信息包含了用户身份证OCR识别的文本，用户在线贷款时填写的地址、表单数据，以及用户催收的语音数据转文本后形成的文本数据，文本编码器的实现包括以下步骤：

步骤d1、对语音数据进行语音转文本识别，将语音转成文本；

步骤d2、对语音转文本后的数据，用户身份证OCR识别的地址数据、用户贷款填写的居住地址使用BERT进行文本编码，对文本进行向量化，得到非结构化文本特征。

上述技术方案中，构建预测算法模型：

步骤e1、获取数据样本，并对数据样本按照年份进行统计，结构化特征数据有1000维，包含：信贷数据，还款数据，行为数据，征信数据，非结构化图像数据有256维，非结构化文本数据有256维，非结构化语音数据有128维，视频数据有512维，对数据样本进行划分为训练数据和测试数据；

步骤e2、对训练集的1000维的结构化特征数据按照业务指标定义进行特征加工，加工逻辑按照年份加工，同时对于非结构化的图像、视频、文本和语音数据进行特征编码，按照年份提取非结构化数据的特征编码，得到多模态非结构化特征；

步骤e3、对训练集中的结构化特征、多模态非结构化特征整体计算IV值，剔除不重要的特征，将剩余的结构化特征和多模态非结构化特征进行拼接融合，组成m维向量，得到融合特征；

步骤e4、把每个年份的融合特征作为Lstm的输入，使用双向的Bilstm技术，学习资产包随时间的变化趋势，完成能够预测资产包的价值的资产包估值模型的搭建；

步骤e5、对资产包估值模型进行训练，得到训练好的资产包估值模型；

步骤e6、当要预测n年后资产包的价值，则将n输入训练好的资产包估值模型便得到资产包的价值，即得到初步估值；

步骤e7、使用一个经济影响因子去乘以步骤e6得到的初步估值，得到最终估值，经济影响因子为给定一个区间，经济好大于1，经济不好小于1，从而完成资产包估值区间的确定。

因为本发明采用上述技术手段，因此具备以下有益效果：

本发明提出了利用VIT Transformer，BERT，CNN，LSTM，MFCC等技术对图像、语音、文本、视频等非结构化数据进行特征编码提取特征，并结合信贷数据、行为数据、征信数据等结构化特征进行特征融合，基于LSTM建立时间预测模型预测资产包的价值。该方案有效利用了高维非结构化数据，提升了资产包估值精度，为不良资产估值提供了一种新的解决方案，对结构化和非结构化特征融合提供了新的解决思路，该方案可被借鉴到其他领域。

附图说明

图1为算法架构图；

图2为大头照的特征编码示意图；

图3为活体视频编码器算法示意图；

图4为语音编码器算法示意图；

图5为本发明流程示意简图。

具体实施方式

以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明，但需要注意的是本发明并不仅仅只局限于这些实施方式。相反，对本发明进行的修改或者等同替换，均应涵盖在本发明的权利要求范围当中。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解，没有这些具体细节，本发明同样可以实施。

如图1所示为本发明实施例的算法架构示意图，在一个实施例中本发明提出了一种基于多模态高维特征的不良资产估值方法，首先利用Transformer、BERT、CNN、LSTM，VITTransformer等对非结构化的图像、视频、文本和语音等数据进行高维特征提取，其次对结构化特征进行征选择，然后再和非结构化特征进行特征融合，再利用深度学习，对融合后的特征构建预测算法，完成资产包的估值。

优点在于该方案有效利用了高维非结构化数据，提升了资产包估值精度，为不良资产估值提供了一种新的解决方案，对结构化和非结构化特征融合提供了新的解决思路，该方案可被借鉴到其他领域。

为方便本领域技术人员更好理解本申请技术方案，其详细的实现流程介绍如下：

多模态高维数据特征编码和提取：

估值算法需要依赖高维多模态的图像、视频、语音、文本数据，特别是对不良资产包的估值，催收语音数据发挥巨大的作用，如何利用这些数据是一个技术难点。深度学习和神经网络的发展为识别和解析非结构化数据提供了方案，要进行资产包估值就需要将非结构化数据结构化，转成计算机可以理解的数据编码格式，也就是进行非结构化数据编码，对这几类数据编码分别使用不同的深度学习网络结构。

身份证照片和大头照编码器：

作为一个实施例，本领域技术人员可以针对图像编码可以使用很多方案，不同编码器学习的图像特征不同，资产包估值时主要是识别用户的还款意愿和还款能力，如果用户存在身份冒认等欺诈行为，则表示用户无还款意愿，如果资产包中欺诈越多，则表示该资产包的价值越小，所以针对身份证和大头照的特征编码，本发明使用相同的模型实现身份证和大头照的翻拍、打印、PS造假的识别。

身份证和大头照的造假主要来源于翻拍、打印、PS，要识别这些内容，本本发明使用多任务学习技术，对不同欺诈行为选用不同模型框架进行处理训练模型，为方便本领技术人员理解，对多任务学习做进一步说明，其中步骤a4就是多任务了，多任务是指通过同一个算法识别出不同的分类任务就是多任务了，一般的算法都是一个算法识别一个分类，比如要识别一幅图里面身份证是不是彩打的，这就是一个模型，这个模型只有一个二分类，要么是彩打，要么不是彩打，这就是一个单任务，但是本申请还针对人脸或者身份证造假类型使用Alexnet，Resnet等网络进行网络连接，这里的不同网络可以对接到彩打，翻拍，模糊等分类任务上就是多任务了，不同网络对应不同的分类，具体多少业务可以根据实际需求选择。

本发明把模型公共层作为特征表示层，提取最能表示身份证/人脸照欺诈的特征编码器。大头照的特征编码如下如图2所示，身份证同理，模型网络搭建如下：

步骤a1、使用Yolov8进行身份证检测或者人脸检测，将身份证照片/人脸照片从图像中提取出来。

步骤a2、基于身份证/人脸照片，使用Resnet34提取身份证主干网络特征。

步骤a3、PS、翻拍等图像一般都是很细节的造假点，和真实图像都在边缘等细节存在不同，为了能学习到更细节的PS造假、翻拍等特征，使用VIT Transformer嫁接到Resnet网络之后。

步骤a4、在VIT Transformer网络之后，针对人脸或者身份证造假类型使用Alexnet，Resnet等网络进行网络连接，最后使用不同的损失函数进行模型学习目标定义，目的是让VIT Transformer学习到图像翻拍，打印等特征信息。

步骤a5、使用反向传播算法将每一轮迭代得到的误差向前传递，并进行梯度求导和更新，不断经过多次迭代完成模型训练。

步骤a6、模型训练完成后，提取VIT Transformer那一层的特征Map作为身份证或者大头照的特征表示，其特征分别记作：Face_Vi_Encode，Id_Vi_Encode。

活体视频编码器：

随着AIGC的发展，活体视频造假的可能性很大，针对活体的身份冒认主要存在AI合成、打印、翻拍等，为了更好的识别活体身份造假，本发明提出使用端到端的视频特征编码器技术，模型算法如图3所示，算法实现框架如下：

步骤b1、对活体视频使用OpenCV进行视频解析，将每一帧图像提取出来存入到数组中，记作：，/>表示图像的序列编号，从1到/>。

步骤b2、循环数组图像中的每一帧，取出图像使用Resnet34进行图像2维特征编码器网络搭建，每个图像对应的网络结构记作，其中表示图像的序列编号，从1到/>。

步骤b3、将每个网络拼接一个3层的Lstm网络，每个Lstm记作：/>，对图像序列按照编号1到N，将/>和/>拼接在一起，组成视频编码器。

步骤b4、对视频编码器利用反向传播算法和梯度下降法进行求解，让损失函数最小，经过多次迭代或者损失函数不再下降时，则模型训练完毕。

步骤b5、将训练后得到的模型最后一层特征作为视频编码器的特征。

催收语音编码器：

不良资产主要依靠催收进行贷款回收，催收语音可识别从用户的还款意愿和还款能力，需要对催收语音进行充分挖掘，才可估计出来不良资产包的真实价值，催收语音存在MP3，WAV等格式，催收语音也需要进行转文本后基于语音编码挖掘用户的还款可能性，有时候转码后的文本存在一定的误差，转码后的文本也失去了语音本身的语速、语调、情绪等信息，而本申请通过催收语音编码器把语音转成特征编码后是包含了语音中的各种信息，即保留了语速、语调、情绪等信息，编码后的特征表达不会丢失。语音编码器算法如图4所示，实现步骤如下：

步骤c1、对语音格式进行统一格式处理，语音的格式有：MP3、WAV、WMA、MP2、Flac、MIDI、RA、APE、AAC、CDA、MOV等，使用Ffmpeg对语音格式进行转码，统一转成WAV格式。

步骤c2、对语音文本进行通道分离，将双通道语音分离成单通道语音，使用Python函数包中的wavfile函数进行通道分离。

步骤c3、基于分离后的语音建立语音编码器，编码器的实现过程如下：

步骤c3.1）对语音按照20ms进行切片，按照切片顺序组成语音序列，序列记作：， />为语音切片序列的编号。

步骤c3.2）对切片后的语音提取mfcc特征，mfcc是一种在自动语音和说话人识别中广泛使用的特征。它是在1980年由Davis和Mermelstein搞出来的。从那时起。在语音识别领域，mfcc在人工特征方面可谓是鹤立鸡群，一枝独秀，在语音处理方面作为将语音转成可数值化计算的重要步骤。

步骤c3.3）经过mfcc之后就把语音转成了一维的梅尔频谱图，对语音切片序列进行训练处理，将每一个切片序列都提取mfcc特征，mfcc特征设定为128维，提取完成后将mfcc按照切片序号作为行，128维特征作为列，组装成二维数据，二维数据就相当于把语音这种一维数据转成了二维数据，然后利用图像处理的特征提取方案，利用VITTransformer进行语音编码器模型网络搭建实现语音编码器特征提取。

文本编码器：

文本信息包含了用户，用户在线贷款时填写的地址、表单数据等，以及用户催收语音转文本后形成的数据，文本编码器实现的模型架构如下：

步骤d1、对语音数据进行语音转文本识别，将语音转成文本。

步骤d2、对语音转文本后的数据，用户身份证OCR识别的地址数据、用户贷款填写的居住地址使用BERT进行文本编码，BERT是google提出的一个文本编码器算法，可以对文本进行向量化，让文本变成可计算，已经经过大量数据进行了模型训练，无需重新训练。

结构化特征和多模态高维特征融合与特征选择：

非结构化数据被进行特征编码后，便实现了结构化，对于信贷产品本身存在的结构化数据，如逾期金额、逾期次数、机器人催收次数、人工催收次数、委催次数、委律次数、还款期数、贷款利率、查询银行卡次数、历史逾期记录等进行特征加工，信贷数据可以利用的结构化数据有征信报告，贷前、贷中、贷后的行为数据，信贷数据等，对于这些数据的加工可根据业务指标定义，使用Spark，SQL，编写代码等进行数据提取和指标加工，形成多维结构化数据特征，特征需要的维度和个数越多越好。

当结构化特征和非结构化特征都处理完成后，需要对特征进行选择，特征集的好坏决定了模型效果的好坏，人工提取的特征存在冗余度高、特征重复的现象。需要使用IV值计算法计算特征重要性，筛选特征，将IV值大于0.1的特征留下。

对IV值大于0.1的特征和非结构化图像、文本、语音、视频特征进行融合，融合时需要将图像、文本、语音、视频特征的每一个维度组成一列，假设图像是256维特征、文本是256维特征、语音是128维特征、视频是512维特征，结构化特征是1000维特征，组成的特征维度是256+256+128+512+1000=2152维特征。

多模态高维资产包估值模型：

搭建资产包估值模型，对结构化特征和非结构化特征进行特征融合后，便可以进行估值算法模型的训练了，由于资产包的估值存在按照时间序列和经济周期存在变化，所以在进行资产包估值时，我们使用LSTM算法进行估值，假设预估10年后资产包的价值，参考图5所示流程示意简图，模型搭建的流程为：

1、对数据样本按照年份进行统计，假设训练数据是从2000年-2023年，结构化特征数据有1000维，包含：信贷数据，还款数据，行为数据，征信数据等，图像数据有256维，文本数据256维，语音数据128维，视频数据512维，对数据进行划分，2000-2013为训练数据，2013-2023为测试数据。

2、对2000-2013的结构化1000维数据按照业务指标定义进行特征加工，加工逻辑按照年份加工，因为信贷数据、还款数据、行为数据、征信数据随年份会有变化，同时对于非结构化的图像、视频、文本和语音数据也按照上述特征编码器的提取方案进行特征编码，按照年份提取非结构化数据编码。

3、对结构化特征整体计算IV值，剔除不重要的特征，将剩余的结构化特征和非结构化特征进行拼接融合，组成m维向量。

4、把每个年份的融合特征作为Lstm的输入，Lstm是一循环神经网络技术，对于处理空间有依赖，时间序列预测等问题有独特的优势，为了更好的学习资产包回款对时间的依赖性，使用双向的Bilstm技术，可以更好的学习资产包随时间的变化趋势，更好的预测资产包的价值，搭建好模型以后，对模型进行训练，得到资产包估值模型。

5、假设我们要预测10年后资产包的价值，则将10输入模型便可得到资产包的价值。

6、考虑到资产包的估值一般都是一个范围区间，训练时并未加入经济周期的影响，因此可以使用一个经济影响因子去乘以最终的估值，经济影响因子可以给定一个区间，比如经济好大于1，经济不好小于1，同时好和不好可以在一个区间浮动，从而完成资产包估值区间的确定。

上述非结构化数据特征编码方案，涉及到的图像编码器、语音编码器、视频编码器和文本编码器可以被其他深度学习算法替代，只是替代后的算法性能会受到影响，而本发明整体的估值算法，各个特征编码都采用本申请提出的方法实现保证了特征的准确，从而保证算法最终的结果准确，同时针对资产包的估值预测也可以被其他同类型的LSTM方案替代或者预测算法替代，替代后的资产包估值精度会大打折扣。

上文具体实施方式和附图仅为本发明之常用实施例。显然，在不脱离权利要求书所界定的本发明精神和发明范围的前提下可以有各种增补、修改和替换。本领域技术人员应该理解，本发明在实际应用中可根据具体的环境和工作要求在不背离发明准则的前提下在形式、结构、布局、比例、材料、元素、组件及其它方面有所变化。因此，在此披露之实施例仅用于说明而非限制，本发明之范围由后附权利要求及其合法等同物界定，而不限于此前之描述。

Claims

1.一种基于多模态高维特征的不良资产估值方法，其特征在于，包括以下步骤：

步骤2、先进行特征筛选，再进行特征融合，具体的为：

先对结构化特征进行筛选，再将筛选出的结构化特征和多模态非结构化特征进行特征融合，再利用深度学习，对融合后的特征构建预测算法模型，完成资产包的估值；

对非结构化的图像、视频、文本和语音数据进行高维特征提取，得到多模态非结构化特征，具体为：

通过身份证照片和大头照编码器实现对身份证照片和大头照的特征编码，得到非结构化图像特征；

通过文本编码器实现对身份证OCR识别的文本和用户填写资料文本的特征编码，得到非结构化文本特征;

构建预测算法模型：

步骤e1、获取数据样本，并对数据样本按照年份进行统计，结构化特征数据有1000维，包含：信贷数据，还款数据，行为数据和征信数据，非结构化图像数据有256维，非结构化文本数据有256维，非结构化语音数据有128维，视频数据有512维，对数据样本进行划分为训练数据和测试数据；

步骤e3、对训练集中的结构化特征整体计算IV值，剔除不重要的特征，将剩余的结构化特征和多模态非结构化特征进行拼接融合，组成m维向量，得到融合特征；

2.根据权利要求1所述的一种基于多模态高维特征的不良资产估值方法，其特征在于，获取信贷产品本身存在的结构化数据，结构化数据的加工根据业务指标定义，使用SparkSQL，Python数据加工引擎编写脚本进行数据提取和指标加工，形成多维结构化数据特征。

3.根据权利要求1所述的一种基于多模态高维特征的不良资产估值方法，其特征在于，所述特征筛选实现为：对多维结构化数据特征使用IV值计算法计算特征重要性，筛选出IV值大于0.1的多维结构化数据特征。

4.根据权利要求3所述的一种基于多模态高维特征的不良资产估值方法，其特征在于，步骤2中特征融合具体的为：

5.根据权利要求2所述的一种基于多模态高维特征的不良资产估值方法，其特征在于，身份证照片和大头照编码器的实现包括以下步骤：

步骤a3、使用VIT Transformer嫁接到Resnet34网络之后;

步骤a4、在VIT Transformer网络之后，针对人脸照片或者身份证照片造假类型使用Alexnet，Resnet网络进行网络连接，最后使用不同的损失函数进行学习目标定义，让VITTransformer学习到图像翻拍，打印特征信息，得到身份证照片和大头照编码器的模型；

6.根据权利要求2所述的一种基于多模态高维特征的不良资产估值方法，其特征在于，活体视频编码器的实现包括以下步骤：

步骤b2、循环数图像组中的每一帧，取出图像使用Resnet34网络结构进行图像2维特征编码器网络结构的搭建，每个图像对应的网络结构记作；

步骤b3、将每个网络结构拼接一个3层的Lstm网络，每个Lstm网络记作：/>，将和/>拼接在一起，得到视频编码器模型；

7.根据权利要求2所述的一种基于多模态高维特征的不良资产估值方法，其特征在于，催收语音编码器的实现包括以下步骤：

步骤c3.1、对语音数据按照20ms进行切片，按照切片顺序组成语音序列，序列记作：，/>为语音数据切片序列的编号；

8.根据权利要求2所述的一种基于多模态高维特征的不良资产估值方法，其特征在于，文本编码器实现包括以下步骤：