CN113205093A

CN113205093A - 基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质

Info

Publication number: CN113205093A
Application number: CN202110767832.6A
Authority: CN
Inventors: 李志杰
Original assignee: Zhejiang Zhongke Huazhi Technology Co ltd
Current assignee: Zhejiang Zhongke Huazhi Technology Co ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-08-03

Abstract

本发明公开的一种基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质，其中方法包括：采集数据资产信息形成数据链得到图像类数据资产特征集以及非图像类数据资产特征集；将所述非图像类数据资产特征集作为XGBoost算法的输入进行回归分析得到第一结果；将所述图像类数据资产特征集与所述非图像类数据资产特征集共同作为所述XGBoost算法的输入进行回归分析得到第二结果；计算目标偏差率，与预设的比率阈值进行比较，以输出最终结果。本发明能够实现图像类数据资产与非图像类数据资产的共同处理，使得分析的数据资产范围覆盖广；同时通过设定偏差值可进一步确保数据资产分析的准确性与可靠性；利用XGBoost算法扩充了对于数据资产价值分析的监管权利与力度。

Description

基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质

技术领域

本发明涉及数据分析和处理技术领域，更具体的，涉及一种基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质。

背景技术

随着大数据和人工智能的快速发展，今天的数据不仅为科学提供创新，也能直接创造财富——数据在流动、运行的过程中产生庞大的经济规模：欧盟地区8%的GDP是从数据中产生的。人们愈发认识到，数据不只是资源，更是资产。而数据资产化面临诸多技术难点，其一是数据的产权模糊：数据具有可复制性，当今互联网普遍奉行“谁采集谁拥有”的潜规则，使得侵犯隐私、数据泄露的问题比比皆是；此外，由于数据经由网络可以流通使用，使得数据最终拥有者很难界定；其二是数据孤岛问题：流通的数据由于其安全性以及归属属性难以保障，因此数据不流通成为了人们的选择，从而形成数据孤岛，降低数据的有效性和价值；其三是数据的定价和估值困难：由于数据的非竞争性和无限共享性，使得数据的潜在价值大，价值链长；此外，由于不同主体对于相同数据的需求角度不同，使得他们利用相同数据所挖掘的价值不同，导致了数据的价值难以得到静态的准确厘定。

由于数据资产不具有实物形态，估值时通常类比无形资产，在行业实践中，无形资产价值的评估方法包括成本法、收益法和市场法三种基本方法及其衍生方法。但由于数据资产相比于无形资产还具有“有效期短、可以无限共享、集合使用价值更高”等特点，因此传统的三种评估方法在应用于数据资产上具有局限性。

目前，利用将数据整理分析后形成对外服务的数据商品层出不穷，例如一些平台利用云计算、机器学习等领先科技从用户信用历史、行为偏好、履约能力、身份特质、人脉关系五个维度对用户的信用进行评估，从而客观呈现个人和企业的商业信用状况，将其打包出售给商户，使其可以选择在租赁、购物、商旅出行、本地生活等众多商业场景中满足条件的用户信息。此种打包出售方式，大多根据信息数量、信息质量等因素进行数据资产定价，不能提现数字资产的价值潜力以及实质价值；再比如一些电商平台根据消费者总量、消费者品类购买力、消费者转化力三个指标将品牌消费者数据视为资产，通过数据的全链路透视使得消费者数据资产变得可评估、可优化、可运营，品牌商由此可以直观地看到相应的消费者资产，估算其商业价值并用于帮助其营销决策。而此种方式忽略了数字资产的更新速度快、定价需要动态调整的特点；此外数据资产价值确定的指标需要针对不同主体而决定，而不能固态的选择单调的三个指标进行全部资产的评定；此外一些现有的数据资产管理平台通过元数据对信息资产特征进行描述，并以目录形式分类管理，但是其算法流程复杂，顾客仍不能看到“算法黑箱”的内部构造，用户对于算法结果的自主选择权无法得以实现。

发明内容

鉴于上述问题，本发明的目的是提供一种基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质，通过两种算法实现图像类数据资产与非图像类数据资产的共同处理，以确保数据分析的准确性与可靠性。

本发明第一方面提供了一种基于XGBoost回归与卷积网络的数据资产分析方法，包括以下步骤：

采集数据资产信息形成数据链，以获取图像类数据资产像素集；

通过训练好的卷积神经网络模型提取所述图像类数据资产像素集的特征值得到图像类数据资产特征集；

利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集；

将所述非图像类数据资产特征集作为XGBoost算法的输入进行回归分析得到第一结果；

将所述图像类数据资产特征集与所述非图像类数据资产特征集共同作为所述XGBoost算法的输入进行回归分析得到第二结果；

计算目标偏差率，与预设的比率阈值进行比较，其中，

若所述目标偏差率小于所述比率阈值，则将所述第二结果作为最终结果输出；

若所述目标偏差率大于或等于所述比率阈值，则将所述第一结果作为最终结果输出。

本方案中，所述方法还包括识别所述数据链信息的真实性，具体为：

获取所述数据链上信息欺诈因子；

通过识别所述欺诈因子得到信息真实性评估分值，与预设的分数阈值进行比较，其中，

若所述评估分值大于所述分数阈值则继续获取所述图像类数据资产像素集；

若所述评估分值小于或等于所述分数阈值，则进行人工介入核实，其中，

若人工介入结果显示为非欺诈信息，则继续获取所述图像类数据资产像素集；

若人工介入结果显示为有欺诈信息，则输出“包含欺诈信息”的文本信息作为所述最终结果。

本方案中，所述卷积神经网络模型的训练方法为：

采用多卷积核对输入的图像类数据资产像素集进行卷积操作得到不同像素点之间的关联信息；

采用预设的池化方法降低卷积层的维度，使用反向传播算法训练模型；

采用交叉熵作为损失函数来评估所述训练模型，直至损失不再下降以得到所述训练好的所述卷积神经网络模型。

本方案中，所述卷积神经网络模型训练方法还包括在训练过程中，使用预设的dropout机制丢弃神经元，并且在权重更新时加入L2正则化算法以减小模型复杂度。

本方案中，所述利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集；具体为：

选取OCR算法作为所述预设的特征提取算法；

基于所述OCR算法识别所述数据链上的非图像类文件；

将所述非图像类文件经过所述OCR算法进行特征提取得到所述非图像类数据资产特征集。

本方案中，获取所述图像类数据资产像素集，具体为：

通过所述OCR算法提取所述数据链中的图像类文件及其像素信息；

提炼所述图像类文件不同位置的颜色码，转换成像素矩阵以构成所述图像类数据资产像素集。

本发明第二方面还提供一种基于XGBoost回归与卷积网络的数据资产分析系统，包括存储器和处理器，所述存储器中包括基于XGBoost回归与卷积网络的数据资产分析方法程序，所述基于XGBoost回归与卷积网络的数据资产分析方法程序被所述处理器执行时实现如下步骤：

计算目标偏差率，与预设的比率阈值进行比较，其中，

获取所述数据链上信息欺诈因子；

本方案中，所述卷积神经网络模型的训练方法为：

选取OCR算法作为所述预设的特征提取算法；

基于所述OCR算法识别所述数据链上的非图像类文件；

本方案中，获取所述图像类数据资产像素集，具体为：

本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中包括机器的一种基于XGBoost回归与卷积网络的数据资产分析方法程序，所述基于XGBoost回归与卷积网络的数据资产分析方法程序被处理器执行时，实现如上述任一项所述的一种基于XGBoost回归与卷积网络的数据资产分析方法的步骤。

本发明公开的一种基于XGBoost回归与卷积网络的数据资产分析方法和系统，本发明能够实现图像类数据资产与非图像类数据资产的共同处理，使得分析的数据资产范围覆盖广；同时通过设定偏差值可进一步确保数据资产分析的准确性与可靠性；利用XGBoost算法扩充了对于数据资产价值分析的监管权利与力度。

附图说明

图1示出了本申请一种基于XGBoost回归与卷积网络的数据资产分析方法于一实施例中的步骤流程图；

图2示出了本申请一种基于XGBoost回归与卷积网络的数据资产分析方法于又一实施例中的步骤流程图；

图3示出了本发明一种基于XGBoost回归与卷积网络的数据资产分析系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本申请一种基于XGBoost回归与卷积网络的数据资产分析方法的流程图。

如图1所示，本申请公开了一种基于XGBoost回归与卷积网络的数据资产分析方法，包括以下步骤：

S102，采集数据资产信息形成数据链，以获取图像类数据资产像素集；

S104，通过训练好的卷积神经网络模型提取所述图像类数据资产像素集的特征值得到图像类数据资产特征集；

S106，利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集；

S108，将所述非图像类数据资产特征集作为XGBoost算法的输入进行回归分析得到第一结果；

S110，将所述图像类数据资产特征集与所述非图像类数据资产特征集共同作为所述XGBoost算法的输入进行回归分析得到第二结果；

S110，计算目标偏差率，与预设的比率阈值进行比较；

其中，若所述目标偏差率小于所述比率阈值，则将所述第二结果作为最终结果输出；

需要说明的是，本申请通过两种算法对数据资产进行分析，其中，包括所述训练好的卷积神经网络模型，以及所述XGBoost算法，利用所述卷积神经网络模型得到所述图像类数据资产，利用所述XGBoost算法分析所述非图像类数据资产得到所述第一结果

，利用所述XGBoost算法共同分析所述图像类数据资产与所述非图像类数据资产得到所述第二结果

，当获取两个结果以后，需要比较所述目标偏差率

与所述比率阈值

，的大小，以获得最终的输出结果，其中，所述目标偏差率

的计算式如下：

；

进一步地，若

，则将所述第二结果

作为最终结果输出，若

，则将所述第一结果

作为最终结果输出。例如，设定所述比率阈值为

，若

，则输出

作为结果，若

，则输出

作为结果。

需要说明的是，本申请引入的所述XGBoost算法是一个树集成模型，其决策树允许基于以树状结构排列的一系列规则对输出变量进行预测，由于XGBoost为现有技术，本实施例直接应用，在此不作赘述。

根据本发明实施例，所述方法还包括识别所述数据链信息的真实性，具体为：

获取所述数据链上信息欺诈因子；

需要说明的是，如图2所示，在继续获取所述图像类数据资产像素集前，先对数据链信息的真实性进行初步判断，首先获取所述数据链上的所述信息欺诈因子，得到所述信息真实性评估分值，与所述预设的分数阈值进行比较，其中，若所述评估分值小于或等于所述分数阈值，则进行人工介入核实，若人工介入结果显示为非欺诈信息，则继续获取所述图像类数据资产像素集；若人工介入结果显示为有欺诈信息，则输出“包含欺诈信息”的文本信息作为所述最终结果。

需要说明的是，识别所述数据链信息的真实性还包括比较动态阈值进行判断，具体为：

获取所述数据链上信息欺诈因子，以识别得到信息真实性评估分值；

识别所述欺诈因子的信息归属，获取对应的动态阈值；

比较所述真实性评估分值与所述动态阈值的大小，其中，

若所述真实性评价分值小于所述动态阈值，则输出“包含欺诈信息”的文本信息作为所述最终结果，反之，则不输出。

需要说明的是，利用识别不同数据的信息归属，得到其对应的动态阈值进行比较，可替代人工检查，进行数据真实性分析，根据不同的数据匹配不同的阈值等级。

根据本发明实施例，所述卷积神经网络模型的训练方法为：

需要说明的是，为了提取出所述图像类数据资产像素集的多重特征，在所述卷积神经网络中使用多卷积核对输入的所述图像类数据资产像素进行卷积操作，可以随着卷积核的窗口不断的滑动完成图像类数据资产像素邻近类似像素点信息的同类融合，保留不同像素点信息之间的关联，从图像中查找规律，不同的卷积核通过训练学习到不同的权重，若要提取m个不同特征，则需构建ｍ个卷积核，随着卷积层越多则参数越多，这意味着卷积层的维度可能很庞大，因此我们用池化的方法进行下采样来降低维数，具体选用MaxPooling池化方法，即取滑动窗口里最大的值，进一步地，使用反向传播算法来训练模型，通过最小化交叉熵来优化模型，其中，交叉熵作为所述损失函数，公式如下：

；

其中，p为真实分布，q为非真实分布，

为模型训练值。

根据本发明实施例，所述卷积神经网络模型训练方法还包括在训练过程中，使用预设的dropout机制丢弃神经元，并且在权重更新时加入L2正则化算法以减小模型复杂度。

需要说明的是，为了防止过拟合化，在所述卷积神经网络模型训练时可以使用dropout机制以一定的概率随机地丢弃一些神经元，这样可以让模型不会太依赖某些局部的特征（因为局部特征有可能被丢弃），并且在权重更新时加入所述L2正则化限制，原来的损失函数基础上加上权重参数的平方和，以限制参数过多或者过大，避免模型更加复杂，所述L2正规化限制的公式如下：

；

其中，

是未包含正则化项的训练样本误差，λ 是正则化参数，

是样本。

根据本发明实施例，所述利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集；具体为：

选取OCR算法作为所述预设的特征提取算法；

基于所述OCR算法识别所述数据链上的非图像类文件；

需要说明的是，首先通过所述OCR算法分别提取所述数据链上非图像类文件特征信息以及图像类文件像素信息；将所述非图像类文件通过所述OCR算法提取特征，构成所述非图像类数据资产特征集，其中，OCR算法指光学字符识别，OCR （Optical CharacterRecognition，光学字符识别）。

根据本发明实施例，获取所述图像类数据资产像素集，具体为：

需要说明的是，在获取到所述图像类文件后，提炼所述图像类文件不同位置的颜色码，转换成像素矩阵以构成所述图像类数据资产像素集。

如图3所示，本发明公开了一种基于XGBoost回归与卷积网络的数据资产分析系统30，包括存储器31和处理器32，所述存储器31中包括基于XGBoost回归与卷积网络的数据资产分析方法程序，所述基于XGBoost回归与卷积网络的数据资产分析方法程序被所述处理器32执行时实现如下步骤：

计算目标偏差率，与预设的比率阈值进行比较，其中，

，当获取两个结果以后，需要比较所述目标偏差率

与所述比率阈值

，的大小，以获得最终的输出结果，其中，所述目标偏差率

的计算式如下：

；

进一步地，若

，则将所述第二结果

作为最终结果输出，若

，则将所述第一结果

作为最终结果输出。例如，设定所述比率阈值为

，若

，则输出

作为结果，若

，则输出

作为结果。

获取所述数据链上信息欺诈因子；

识别所述欺诈因子的信息归属，获取对应的动态阈值；

比较所述真实性评估分值与所述动态阈值的大小，其中，

根据本发明实施例，所述卷积神经网络模型的训练方法为：

；

其中，p为真实分布，q为非真实分布，

为模型训练值。

；

其中，

是未包含正则化项的训练样本误差，λ 是正则化参数，

是样本。

选取OCR算法作为所述预设的特征提取算法；

基于所述OCR算法识别所述数据链上的非图像类文件；

本发明公开的一种基于XGBoost回归与卷积网络的数据资产分析方法和系统和可读存储介质，能够实现图像类数据资产与非图像类数据资产的共同处理，使得分析的数据资产范围覆盖广；同时通过设定偏差值可进一步确保数据资产分析的准确性与可靠性；利用XGBoost算法扩充了对于数据资产价值分析的监管权利与力度。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于XGBoost回归与卷积网络的数据资产分析方法，其特征在于，包括以下步骤：

计算目标偏差率，与预设的比率阈值进行比较，其中，

2.根据权利要求1所述的一种基于XGBoost回归与卷积网络的数据资产分析方法，其特征在于，还包括识别所述数据链信息的真实性，具体为：

获取所述数据链上信息欺诈因子；

3.根据权利要求1所述的一种基于XGBoost回归与卷积网络的数据资产分析方法，其特征在于，所述卷积神经网络模型的训练方法为：

4.根据权利要求3所述的一种基于XGBoost回归与卷积网络的数据资产分析方法，其特征在于，所述卷积神经网络模型训练方法还包括在训练过程中，使用预设的dropout机制丢弃神经元，并且在权重更新时加入L2正则化算法以减小模型复杂度。

5.根据权利要求1所述的一种基于XGBoost回归与卷积网络的数据资产分析方法，其特征在于，所述利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集；具体为：

选取OCR算法作为所述预设的特征提取算法；

基于所述OCR算法识别所述数据链上的非图像类文件；

6.根据权利要求5所述的一种基于XGBoost回归与卷积网络的数据资产分析方法，其特征在于，获取所述图像类数据资产像素集，具体为：

7.一种基于XGBoost回归与卷积网络的数据资产分析系统，其特征在于，包括存储器和处理器，所述存储器中包括基于XGBoost回归与卷积网络的数据资产分析方法程序，所述基于XGBoost回归与卷积网络的数据资产分析方法程序被所述处理器执行时实现如下步骤：

计算目标偏差率，与预设的比率阈值进行比较，其中，

8.根据权利要求7所述的一种基于XGBoost回归与卷积网络的数据资产分析系统，其特征在于，还包括识别所述数据链信息的真实性，具体为：

获取所述数据链上信息欺诈因子；

9.根据权利要求7所述的一种基于XGBoost回归与卷积网络的数据资产分析系统，其特征在于，所述卷积神经网络模型的训练方法为：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括一种基于XGBoost回归与卷积网络的数据资产分析方法程序，所述基于XGBoost回归与卷积网络的数据资产分析方法程序被处理器执行时，实现如权利要求1至6中任一项所述的一种基于XGBoost回归与卷积网络的数据资产分析方法的步骤。