CN113205093A - 基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质 - Google Patents

基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质 Download PDF

Info

Publication number
CN113205093A
CN113205093A CN202110767832.6A CN202110767832A CN113205093A CN 113205093 A CN113205093 A CN 113205093A CN 202110767832 A CN202110767832 A CN 202110767832A CN 113205093 A CN113205093 A CN 113205093A
Authority
CN
China
Prior art keywords
data asset
image
information
image data
xgboost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110767832.6A
Other languages
English (en)
Inventor
李志杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Zhongke Huazhi Technology Co ltd
Original Assignee
Zhejiang Zhongke Huazhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Zhongke Huazhi Technology Co ltd filed Critical Zhejiang Zhongke Huazhi Technology Co ltd
Priority to CN202110767832.6A priority Critical patent/CN113205093A/zh
Publication of CN113205093A publication Critical patent/CN113205093A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Finance (AREA)
  • Biophysics (AREA)
  • Accounting & Taxation (AREA)
  • Multimedia (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开的一种基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质,其中方法包括:采集数据资产信息形成数据链得到图像类数据资产特征集以及非图像类数据资产特征集;将所述非图像类数据资产特征集作为XGBoost算法的输入进行回归分析得到第一结果;将所述图像类数据资产特征集与所述非图像类数据资产特征集共同作为所述XGBoost算法的输入进行回归分析得到第二结果;计算目标偏差率,与预设的比率阈值进行比较,以输出最终结果。本发明能够实现图像类数据资产与非图像类数据资产的共同处理,使得分析的数据资产范围覆盖广;同时通过设定偏差值可进一步确保数据资产分析的准确性与可靠性;利用XGBoost算法扩充了对于数据资产价值分析的监管权利与力度。

Description

基于XGBoost回归与卷积网络的数据资产分析方法、系统及 介质
技术领域
本发明涉及数据分析和处理技术领域,更具体的,涉及一种基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质。
背景技术
随着大数据和人工智能的快速发展,今天的数据不仅为科学提供创新,也能直接创造财富——数据在流动、运行的过程中产生庞大的经济规模:欧盟地区8%的GDP是从数据中产生的。人们愈发认识到,数据不只是资源,更是资产。而数据资产化面临诸多技术难点,其一是数据的产权模糊:数据具有可复制性,当今互联网普遍奉行“谁采集谁拥有”的潜规则,使得侵犯隐私、数据泄露的问题比比皆是;此外,由于数据经由网络可以流通使用,使得数据最终拥有者很难界定;其二是数据孤岛问题:流通的数据由于其安全性以及归属属性难以保障,因此数据不流通成为了人们的选择,从而形成数据孤岛,降低数据的有效性和价值;其三是数据的定价和估值困难:由于数据的非竞争性和无限共享性,使得数据的潜在价值大,价值链长;此外,由于不同主体对于相同数据的需求角度不同,使得他们利用相同数据所挖掘的价值不同,导致了数据的价值难以得到静态的准确厘定。
由于数据资产不具有实物形态,估值时通常类比无形资产,在行业实践中,无形资产价值的评估方法包括成本法、收益法和市场法三种基本方法及其衍生方法。但由于数据资产相比于无形资产还具有“有效期短、可以无限共享、集合使用价值更高”等特点,因此传统的三种评估方法在应用于数据资产上具有局限性。
目前,利用将数据整理分析后形成对外服务的数据商品层出不穷,例如一些平台利用云计算、机器学习等领先科技从用户信用历史、行为偏好、履约能力、身份特质、人脉关系五个维度对用户的信用进行评估,从而客观呈现个人和企业的商业信用状况,将其打包出售给商户,使其可以选择在租赁、购物、商旅出行、本地生活等众多商业场景中满足条件的用户信息。此种打包出售方式,大多根据信息数量、信息质量等因素进行数据资产定价,不能提现数字资产的价值潜力以及实质价值;再比如一些电商平台根据消费者总量、消费者品类购买力、消费者转化力三个指标将品牌消费者数据视为资产,通过数据的全链路透视使得消费者数据资产变得可评估、可优化、可运营,品牌商由此可以直观地看到相应的消费者资产,估算其商业价值并用于帮助其营销决策。而此种方式忽略了数字资产的更新速度快、定价需要动态调整的特点;此外数据资产价值确定的指标需要针对不同主体而决定,而不能固态的选择单调的三个指标进行全部资产的评定;此外一些现有的数据资产管理平台通过元数据对信息资产特征进行描述,并以目录形式分类管理,但是其算法流程复杂,顾客仍不能看到“算法黑箱”的内部构造,用户对于算法结果的自主选择权无法得以实现。
发明内容
鉴于上述问题,本发明的目的是提供一种基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质,通过两种算法实现图像类数据资产与非图像类数据资产的共同处理,以确保数据分析的准确性与可靠性。
本发明第一方面提供了一种基于XGBoost回归与卷积网络的数据资产分析方法,包括以下步骤:
采集数据资产信息形成数据链,以获取图像类数据资产像素集;
通过训练好的卷积神经网络模型提取所述图像类数据资产像素集的特征值得到图像类数据资产特征集;
利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集;
将所述非图像类数据资产特征集作为XGBoost算法的输入进行回归分析得到第一结果;
将所述图像类数据资产特征集与所述非图像类数据资产特征集共同作为所述XGBoost算法的输入进行回归分析得到第二结果;
计算目标偏差率,与预设的比率阈值进行比较,其中,
若所述目标偏差率小于所述比率阈值,则将所述第二结果作为最终结果输出;
若所述目标偏差率大于或等于所述比率阈值,则将所述第一结果作为最终结果输出。
本方案中,所述方法还包括识别所述数据链信息的真实性,具体为:
获取所述数据链上信息欺诈因子;
通过识别所述欺诈因子得到信息真实性评估分值,与预设的分数阈值进行比较,其中,
若所述评估分值大于所述分数阈值则继续获取所述图像类数据资产像素集;
若所述评估分值小于或等于所述分数阈值,则进行人工介入核实,其中,
若人工介入结果显示为非欺诈信息,则继续获取所述图像类数据资产像素集;
若人工介入结果显示为有欺诈信息,则输出“包含欺诈信息”的文本信息作为所述最终结果。
本方案中,所述卷积神经网络模型的训练方法为:
采用多卷积核对输入的图像类数据资产像素集进行卷积操作得到不同像素点之间的关联信息;
采用预设的池化方法降低卷积层的维度,使用反向传播算法训练模型;
采用交叉熵作为损失函数来评估所述训练模型,直至损失不再下降以得到所述训练好的所述卷积神经网络模型。
本方案中,所述卷积神经网络模型训练方法还包括在训练过程中,使用预设的dropout机制丢弃神经元,并且在权重更新时加入L2正则化算法以减小模型复杂度。
本方案中,所述利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集;具体为:
选取OCR算法作为所述预设的特征提取算法;
基于所述OCR算法识别所述数据链上的非图像类文件;
将所述非图像类文件经过所述OCR算法进行特征提取得到所述非图像类数据资产特征集。
本方案中,获取所述图像类数据资产像素集,具体为:
通过所述OCR算法提取所述数据链中的图像类文件及其像素信息;
提炼所述图像类文件不同位置的颜色码,转换成像素矩阵以构成所述图像类数据资产像素集。
本发明第二方面还提供一种基于XGBoost回归与卷积网络的数据资产分析系统,包括存储器和处理器,所述存储器中包括基于XGBoost回归与卷积网络的数据资产分析方法程序,所述基于XGBoost回归与卷积网络的数据资产分析方法程序被所述处理器执行时实现如下步骤:
采集数据资产信息形成数据链,以获取图像类数据资产像素集;
通过训练好的卷积神经网络模型提取所述图像类数据资产像素集的特征值得到图像类数据资产特征集;
利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集;
将所述非图像类数据资产特征集作为XGBoost算法的输入进行回归分析得到第一结果;
将所述图像类数据资产特征集与所述非图像类数据资产特征集共同作为所述XGBoost算法的输入进行回归分析得到第二结果;
计算目标偏差率,与预设的比率阈值进行比较,其中,
若所述目标偏差率小于所述比率阈值,则将所述第二结果作为最终结果输出;
若所述目标偏差率大于或等于所述比率阈值,则将所述第一结果作为最终结果输出。
本方案中,所述方法还包括识别所述数据链信息的真实性,具体为:
获取所述数据链上信息欺诈因子;
通过识别所述欺诈因子得到信息真实性评估分值,与预设的分数阈值进行比较,其中,
若所述评估分值大于所述分数阈值则继续获取所述图像类数据资产像素集;
若所述评估分值小于或等于所述分数阈值,则进行人工介入核实,其中,
若人工介入结果显示为非欺诈信息,则继续获取所述图像类数据资产像素集;
若人工介入结果显示为有欺诈信息,则输出“包含欺诈信息”的文本信息作为所述最终结果。
本方案中,所述卷积神经网络模型的训练方法为:
采用多卷积核对输入的图像类数据资产像素集进行卷积操作得到不同像素点之间的关联信息;
采用预设的池化方法降低卷积层的维度,使用反向传播算法训练模型;
采用交叉熵作为损失函数来评估所述训练模型,直至损失不再下降以得到所述训练好的所述卷积神经网络模型。
本方案中,所述卷积神经网络模型训练方法还包括在训练过程中,使用预设的dropout机制丢弃神经元,并且在权重更新时加入L2正则化算法以减小模型复杂度。
本方案中,所述利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集;具体为:
选取OCR算法作为所述预设的特征提取算法;
基于所述OCR算法识别所述数据链上的非图像类文件;
将所述非图像类文件经过所述OCR算法进行特征提取得到所述非图像类数据资产特征集。
本方案中,获取所述图像类数据资产像素集,具体为:
通过所述OCR算法提取所述数据链中的图像类文件及其像素信息;
提炼所述图像类文件不同位置的颜色码,转换成像素矩阵以构成所述图像类数据资产像素集。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种基于XGBoost回归与卷积网络的数据资产分析方法程序,所述基于XGBoost回归与卷积网络的数据资产分析方法程序被处理器执行时,实现如上述任一项所述的一种基于XGBoost回归与卷积网络的数据资产分析方法的步骤。
本发明公开的一种基于XGBoost回归与卷积网络的数据资产分析方法和系统,本发明能够实现图像类数据资产与非图像类数据资产的共同处理,使得分析的数据资产范围覆盖广;同时通过设定偏差值可进一步确保数据资产分析的准确性与可靠性;利用XGBoost算法扩充了对于数据资产价值分析的监管权利与力度。
附图说明
图1示出了本申请一种基于XGBoost回归与卷积网络的数据资产分析方法于一实施例中的步骤流程图;
图2示出了本申请一种基于XGBoost回归与卷积网络的数据资产分析方法于又一实施例中的步骤流程图;
图3示出了本发明一种基于XGBoost回归与卷积网络的数据资产分析系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本申请一种基于XGBoost回归与卷积网络的数据资产分析方法的流程图。
如图1所示,本申请公开了一种基于XGBoost回归与卷积网络的数据资产分析方法,包括以下步骤:
S102,采集数据资产信息形成数据链,以获取图像类数据资产像素集;
S104,通过训练好的卷积神经网络模型提取所述图像类数据资产像素集的特征值得到图像类数据资产特征集;
S106,利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集;
S108,将所述非图像类数据资产特征集作为XGBoost算法的输入进行回归分析得到第一结果;
S110,将所述图像类数据资产特征集与所述非图像类数据资产特征集共同作为所述XGBoost算法的输入进行回归分析得到第二结果;
S110,计算目标偏差率,与预设的比率阈值进行比较;
其中,若所述目标偏差率小于所述比率阈值,则将所述第二结果作为最终结果输出;
若所述目标偏差率大于或等于所述比率阈值,则将所述第一结果作为最终结果输出。
需要说明的是,本申请通过两种算法对数据资产进行分析,其中,包括所述训练好 的卷积神经网络模型,以及所述XGBoost算法,利用所述卷积神经网络模型得到所述图像类 数据资产,利用所述XGBoost算法分析所述非图像类数据资产得到所述第一结果
Figure 920405DEST_PATH_IMAGE001
, 利用所述XGBoost算法共同分析所述图像类数据资产与所述非图像类数据资产得到所述第 二结果
Figure 838682DEST_PATH_IMAGE002
,当获取两个结果以后,需要比较所述目标偏差率
Figure 418872DEST_PATH_IMAGE003
与所述比率阈值
Figure 715992DEST_PATH_IMAGE004
,的大小,以获得最终的输出结果,其中,所述目标偏差率
Figure 247467DEST_PATH_IMAGE003
的计算式如下:
Figure 387462DEST_PATH_IMAGE005
进一步地,若
Figure 216746DEST_PATH_IMAGE006
,则将所述第二结果
Figure 758586DEST_PATH_IMAGE002
作为最终结果输出,若
Figure 133067DEST_PATH_IMAGE007
,则将所述第一结果
Figure 760357DEST_PATH_IMAGE001
作为最终结果输出。例如,设定所述比率阈值为
Figure 393333DEST_PATH_IMAGE008
,若
Figure 196204DEST_PATH_IMAGE009
,则输出
Figure 787591DEST_PATH_IMAGE002
作为结果,若
Figure 777544DEST_PATH_IMAGE010
,则输出
Figure 214210DEST_PATH_IMAGE001
作为结果。
需要说明的是,本申请引入的所述XGBoost算法是一个树集成模型,其决策树允许基于以树状结构排列的一系列规则对输出变量进行预测,由于XGBoost为现有技术,本实施例直接应用,在此不作赘述。
根据本发明实施例,所述方法还包括识别所述数据链信息的真实性,具体为:
获取所述数据链上信息欺诈因子;
通过识别所述欺诈因子得到信息真实性评估分值,与预设的分数阈值进行比较,其中,
若所述评估分值大于所述分数阈值则继续获取所述图像类数据资产像素集;
若所述评估分值小于或等于所述分数阈值,则进行人工介入核实,其中,
若人工介入结果显示为非欺诈信息,则继续获取所述图像类数据资产像素集;
若人工介入结果显示为有欺诈信息,则输出“包含欺诈信息”的文本信息作为所述最终结果。
需要说明的是,如图2所示,在继续获取所述图像类数据资产像素集前,先对数据链信息的真实性进行初步判断,首先获取所述数据链上的所述信息欺诈因子,得到所述信息真实性评估分值,与所述预设的分数阈值进行比较,其中,若所述评估分值小于或等于所述分数阈值,则进行人工介入核实,若人工介入结果显示为非欺诈信息,则继续获取所述图像类数据资产像素集;若人工介入结果显示为有欺诈信息,则输出“包含欺诈信息”的文本信息作为所述最终结果。
需要说明的是,识别所述数据链信息的真实性还包括比较动态阈值进行判断,具体为:
获取所述数据链上信息欺诈因子,以识别得到信息真实性评估分值;
识别所述欺诈因子的信息归属,获取对应的动态阈值;
比较所述真实性评估分值与所述动态阈值的大小,其中,
若所述真实性评价分值小于所述动态阈值,则输出“包含欺诈信息”的文本信息作为所述最终结果,反之,则不输出。
需要说明的是,利用识别不同数据的信息归属,得到其对应的动态阈值进行比较,可替代人工检查,进行数据真实性分析,根据不同的数据匹配不同的阈值等级。
根据本发明实施例,所述卷积神经网络模型的训练方法为:
采用多卷积核对输入的图像类数据资产像素集进行卷积操作得到不同像素点之间的关联信息;
采用预设的池化方法降低卷积层的维度,使用反向传播算法训练模型;
采用交叉熵作为损失函数来评估所述训练模型,直至损失不再下降以得到所述训练好的所述卷积神经网络模型。
需要说明的是,为了提取出所述图像类数据资产像素集的多重特征,在所述卷积神经网络中使用多卷积核对输入的所述图像类数据资产像素进行卷积操作,可以随着卷积核的窗口不断的滑动完成图像类数据资产像素邻近类似像素点信息的同类融合,保留不同像素点信息之间的关联,从图像中查找规律,不同的卷积核通过训练学习到不同的权重,若要提取m个不同特征,则需构建m个卷积核,随着卷积层越多则参数越多,这意味着卷积层的维度可能很庞大,因此我们用池化的方法进行下采样来降低维数,具体选用MaxPooling池化方法,即取滑动窗口里最大的值,进一步地,使用反向传播算法来训练模型,通过最小化交叉熵来优化模型,其中,交叉熵作为所述损失函数,公式如下:
Figure 933904DEST_PATH_IMAGE011
其中,p为真实分布,q为非真实分布,
Figure 633876DEST_PATH_IMAGE012
为模型训练值。
根据本发明实施例,所述卷积神经网络模型训练方法还包括在训练过程中,使用预设的dropout机制丢弃神经元,并且在权重更新时加入L2正则化算法以减小模型复杂度。
需要说明的是,为了防止过拟合化,在所述卷积神经网络模型训练时可以使用dropout机制以一定的概率随机地丢弃一些神经元,这样可以让模型不会太依赖某些局部的特征(因为局部特征有可能被丢弃),并且在权重更新时加入所述L2正则化限制,原来的损失函数基础上加上权重参数的平方和,以限制参数过多或者过大,避免模型更加复杂,所述L2正规化限制的公式如下:
Figure 907862DEST_PATH_IMAGE013
其中,
Figure 69591DEST_PATH_IMAGE014
是未包含正则化项的训练样本误差,λ 是正则化参数,
Figure 706109DEST_PATH_IMAGE015
是样本。
根据本发明实施例,所述利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集;具体为:
选取OCR算法作为所述预设的特征提取算法;
基于所述OCR算法识别所述数据链上的非图像类文件;
将所述非图像类文件经过所述OCR算法进行特征提取得到所述非图像类数据资产特征集。
需要说明的是,首先通过所述OCR算法分别提取所述数据链上非图像类文件特征信息以及图像类文件像素信息;将所述非图像类文件通过所述OCR算法提取特征,构成所述非图像类数据资产特征集,其中,OCR算法指光学字符识别,OCR (Optical CharacterRecognition,光学字符识别)。
根据本发明实施例,获取所述图像类数据资产像素集,具体为:
通过所述OCR算法提取所述数据链中的图像类文件及其像素信息;
提炼所述图像类文件不同位置的颜色码,转换成像素矩阵以构成所述图像类数据资产像素集。
需要说明的是,在获取到所述图像类文件后,提炼所述图像类文件不同位置的颜色码,转换成像素矩阵以构成所述图像类数据资产像素集。
图3示出了本发明一种基于XGBoost回归与卷积网络的数据资产分析系统的框图。
如图3所示,本发明公开了一种基于XGBoost回归与卷积网络的数据资产分析系统30,包括存储器31和处理器32,所述存储器31中包括基于XGBoost回归与卷积网络的数据资产分析方法程序,所述基于XGBoost回归与卷积网络的数据资产分析方法程序被所述处理器32执行时实现如下步骤:
采集数据资产信息形成数据链,以获取图像类数据资产像素集;
通过训练好的卷积神经网络模型提取所述图像类数据资产像素集的特征值得到图像类数据资产特征集;
利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集;
将所述非图像类数据资产特征集作为XGBoost算法的输入进行回归分析得到第一结果;
将所述图像类数据资产特征集与所述非图像类数据资产特征集共同作为所述XGBoost算法的输入进行回归分析得到第二结果;
计算目标偏差率,与预设的比率阈值进行比较,其中,
若所述目标偏差率小于所述比率阈值,则将所述第二结果作为最终结果输出;
若所述目标偏差率大于或等于所述比率阈值,则将所述第一结果作为最终结果输出。
需要说明的是,本申请通过两种算法对数据资产进行分析,其中,包括所述训练好 的卷积神经网络模型,以及所述XGBoost算法,利用所述卷积神经网络模型得到所述图像类 数据资产,利用所述XGBoost算法分析所述非图像类数据资产得到所述第一结果
Figure 842561DEST_PATH_IMAGE016
, 利用所述XGBoost算法共同分析所述图像类数据资产与所述非图像类数据资产得到所述第 二结果
Figure 666161DEST_PATH_IMAGE017
,当获取两个结果以后,需要比较所述目标偏差率
Figure 929783DEST_PATH_IMAGE003
与所述比率阈值
Figure 155228DEST_PATH_IMAGE018
,的大小,以获得最终的输出结果,其中,所述目标偏差率
Figure 541210DEST_PATH_IMAGE003
的计算式如下:
Figure 242318DEST_PATH_IMAGE019
进一步地,若
Figure 168686DEST_PATH_IMAGE020
,则将所述第二结果
Figure 124004DEST_PATH_IMAGE017
作为最终结果输出,若
Figure 743204DEST_PATH_IMAGE021
,则将所述第一结果
Figure 931609DEST_PATH_IMAGE016
作为最终结果输出。例如,设定所述比率阈值为
Figure 661667DEST_PATH_IMAGE022
,若
Figure 471492DEST_PATH_IMAGE023
,则输出
Figure 996014DEST_PATH_IMAGE017
作为结果,若
Figure 406135DEST_PATH_IMAGE024
,则输出
Figure 346410DEST_PATH_IMAGE016
作为结果。
需要说明的是,本申请引入的所述XGBoost算法是一个树集成模型,其决策树允许基于以树状结构排列的一系列规则对输出变量进行预测,由于XGBoost为现有技术,本实施例直接应用,在此不作赘述。
根据本发明实施例,所述方法还包括识别所述数据链信息的真实性,具体为:
获取所述数据链上信息欺诈因子;
通过识别所述欺诈因子得到信息真实性评估分值,与预设的分数阈值进行比较,其中,
若所述评估分值大于所述分数阈值则继续获取所述图像类数据资产像素集;
若所述评估分值小于或等于所述分数阈值,则进行人工介入核实,其中,
若人工介入结果显示为非欺诈信息,则继续获取所述图像类数据资产像素集;
若人工介入结果显示为有欺诈信息,则输出“包含欺诈信息”的文本信息作为所述最终结果。
需要说明的是,如图2所示,在继续获取所述图像类数据资产像素集前,先对数据链信息的真实性进行初步判断,首先获取所述数据链上的所述信息欺诈因子,得到所述信息真实性评估分值,与所述预设的分数阈值进行比较,其中,若所述评估分值小于或等于所述分数阈值,则进行人工介入核实,若人工介入结果显示为非欺诈信息,则继续获取所述图像类数据资产像素集;若人工介入结果显示为有欺诈信息,则输出“包含欺诈信息”的文本信息作为所述最终结果。
需要说明的是,识别所述数据链信息的真实性还包括比较动态阈值进行判断,具体为:
获取所述数据链上信息欺诈因子,以识别得到信息真实性评估分值;
识别所述欺诈因子的信息归属,获取对应的动态阈值;
比较所述真实性评估分值与所述动态阈值的大小,其中,
若所述真实性评价分值小于所述动态阈值,则输出“包含欺诈信息”的文本信息作为所述最终结果,反之,则不输出。
需要说明的是,利用识别不同数据的信息归属,得到其对应的动态阈值进行比较,可替代人工检查,进行数据真实性分析,根据不同的数据匹配不同的阈值等级。
根据本发明实施例,所述卷积神经网络模型的训练方法为:
采用多卷积核对输入的图像类数据资产像素集进行卷积操作得到不同像素点之间的关联信息;
采用预设的池化方法降低卷积层的维度,使用反向传播算法训练模型;
采用交叉熵作为损失函数来评估所述训练模型,直至损失不再下降以得到所述训练好的所述卷积神经网络模型。
需要说明的是,为了提取出所述图像类数据资产像素集的多重特征,在所述卷积神经网络中使用多卷积核对输入的所述图像类数据资产像素进行卷积操作,可以随着卷积核的窗口不断的滑动完成图像类数据资产像素邻近类似像素点信息的同类融合,保留不同像素点信息之间的关联,从图像中查找规律,不同的卷积核通过训练学习到不同的权重,若要提取m个不同特征,则需构建m个卷积核,随着卷积层越多则参数越多,这意味着卷积层的维度可能很庞大,因此我们用池化的方法进行下采样来降低维数,具体选用MaxPooling池化方法,即取滑动窗口里最大的值,进一步地,使用反向传播算法来训练模型,通过最小化交叉熵来优化模型,其中,交叉熵作为所述损失函数,公式如下:
Figure 400953DEST_PATH_IMAGE011
其中,p为真实分布,q为非真实分布,
Figure 221011DEST_PATH_IMAGE012
为模型训练值。
根据本发明实施例,所述卷积神经网络模型训练方法还包括在训练过程中,使用预设的dropout机制丢弃神经元,并且在权重更新时加入L2正则化算法以减小模型复杂度。
需要说明的是,为了防止过拟合化,在所述卷积神经网络模型训练时可以使用dropout机制以一定的概率随机地丢弃一些神经元,这样可以让模型不会太依赖某些局部的特征(因为局部特征有可能被丢弃),并且在权重更新时加入所述L2正则化限制,原来的损失函数基础上加上权重参数的平方和,以限制参数过多或者过大,避免模型更加复杂,所述L2正规化限制的公式如下:
Figure 728215DEST_PATH_IMAGE025
其中,
Figure 472180DEST_PATH_IMAGE014
是未包含正则化项的训练样本误差,λ 是正则化参数,
Figure 771444DEST_PATH_IMAGE015
是样本。
根据本发明实施例,所述利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集;具体为:
选取OCR算法作为所述预设的特征提取算法;
基于所述OCR算法识别所述数据链上的非图像类文件;
将所述非图像类文件经过所述OCR算法进行特征提取得到所述非图像类数据资产特征集。
需要说明的是,首先通过所述OCR算法分别提取所述数据链上非图像类文件特征信息以及图像类文件像素信息;将所述非图像类文件通过所述OCR算法提取特征,构成所述非图像类数据资产特征集,其中,OCR算法指光学字符识别,OCR (Optical CharacterRecognition,光学字符识别)。
根据本发明实施例,获取所述图像类数据资产像素集,具体为:
通过所述OCR算法提取所述数据链中的图像类文件及其像素信息;
提炼所述图像类文件不同位置的颜色码,转换成像素矩阵以构成所述图像类数据资产像素集。
需要说明的是,在获取到所述图像类文件后,提炼所述图像类文件不同位置的颜色码,转换成像素矩阵以构成所述图像类数据资产像素集。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种基于XGBoost回归与卷积网络的数据资产分析方法程序,所述基于XGBoost回归与卷积网络的数据资产分析方法程序被处理器执行时,实现如上述任一项所述的一种基于XGBoost回归与卷积网络的数据资产分析方法的步骤。
本发明公开的一种基于XGBoost回归与卷积网络的数据资产分析方法和系统和可读存储介质,能够实现图像类数据资产与非图像类数据资产的共同处理,使得分析的数据资产范围覆盖广;同时通过设定偏差值可进一步确保数据资产分析的准确性与可靠性;利用XGBoost算法扩充了对于数据资产价值分析的监管权利与力度。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种基于XGBoost回归与卷积网络的数据资产分析方法,其特征在于,包括以下步骤:
采集数据资产信息形成数据链,以获取图像类数据资产像素集;
通过训练好的卷积神经网络模型提取所述图像类数据资产像素集的特征值得到图像类数据资产特征集;
利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集;
将所述非图像类数据资产特征集作为XGBoost算法的输入进行回归分析得到第一结果;
将所述图像类数据资产特征集与所述非图像类数据资产特征集共同作为所述XGBoost算法的输入进行回归分析得到第二结果;
计算目标偏差率,与预设的比率阈值进行比较,其中,
若所述目标偏差率小于所述比率阈值,则将所述第二结果作为最终结果输出;
若所述目标偏差率大于或等于所述比率阈值,则将所述第一结果作为最终结果输出。
2.根据权利要求1所述的一种基于XGBoost回归与卷积网络的数据资产分析方法,其特征在于,还包括识别所述数据链信息的真实性,具体为:
获取所述数据链上信息欺诈因子;
通过识别所述欺诈因子得到信息真实性评估分值,与预设的分数阈值进行比较,其中,
若所述评估分值大于所述分数阈值则继续获取所述图像类数据资产像素集;
若所述评估分值小于或等于所述分数阈值,则进行人工介入核实,其中,
若人工介入结果显示为非欺诈信息,则继续获取所述图像类数据资产像素集;
若人工介入结果显示为有欺诈信息,则输出“包含欺诈信息”的文本信息作为所述最终结果。
3.根据权利要求1所述的一种基于XGBoost回归与卷积网络的数据资产分析方法,其特征在于,所述卷积神经网络模型的训练方法为:
采用多卷积核对输入的图像类数据资产像素集进行卷积操作得到不同像素点之间的关联信息;
采用预设的池化方法降低卷积层的维度,使用反向传播算法训练模型;
采用交叉熵作为损失函数来评估所述训练模型,直至损失不再下降以得到所述训练好的所述卷积神经网络模型。
4.根据权利要求3所述的一种基于XGBoost回归与卷积网络的数据资产分析方法,其特征在于,所述卷积神经网络模型训练方法还包括在训练过程中,使用预设的dropout机制丢弃神经元,并且在权重更新时加入L2正则化算法以减小模型复杂度。
5.根据权利要求1所述的一种基于XGBoost回归与卷积网络的数据资产分析方法,其特征在于,所述利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集;具体为:
选取OCR算法作为所述预设的特征提取算法;
基于所述OCR算法识别所述数据链上的非图像类文件;
将所述非图像类文件经过所述OCR算法进行特征提取得到所述非图像类数据资产特征集。
6.根据权利要求5所述的一种基于XGBoost回归与卷积网络的数据资产分析方法,其特征在于,获取所述图像类数据资产像素集,具体为:
通过所述OCR算法提取所述数据链中的图像类文件及其像素信息;
提炼所述图像类文件不同位置的颜色码,转换成像素矩阵以构成所述图像类数据资产像素集。
7.一种基于XGBoost回归与卷积网络的数据资产分析系统,其特征在于,包括存储器和处理器,所述存储器中包括基于XGBoost回归与卷积网络的数据资产分析方法程序,所述基于XGBoost回归与卷积网络的数据资产分析方法程序被所述处理器执行时实现如下步骤:
采集数据资产信息形成数据链,以获取图像类数据资产像素集;
通过训练好的卷积神经网络模型提取所述图像类数据资产像素集的特征值得到图像类数据资产特征集;
利用预设的特征提取算法提取所述数据链中的非图像类文件得到非图像类数据资产特征集;
将所述非图像类数据资产特征集作为XGBoost算法的输入进行回归分析得到第一结果;
将所述图像类数据资产特征集与所述非图像类数据资产特征集共同作为所述XGBoost算法的输入进行回归分析得到第二结果;
计算目标偏差率,与预设的比率阈值进行比较,其中,
若所述目标偏差率小于所述比率阈值,则将所述第二结果作为最终结果输出;
若所述目标偏差率大于或等于所述比率阈值,则将所述第一结果作为最终结果输出。
8.根据权利要求7所述的一种基于XGBoost回归与卷积网络的数据资产分析系统,其特征在于,还包括识别所述数据链信息的真实性,具体为:
获取所述数据链上信息欺诈因子;
通过识别所述欺诈因子得到信息真实性评估分值,与预设的分数阈值进行比较,其中,
若所述评估分值大于所述分数阈值则继续获取所述图像类数据资产像素集;
若所述评估分值小于或等于所述分数阈值,则进行人工介入核实,其中,
若人工介入结果显示为非欺诈信息,则继续获取所述图像类数据资产像素集;
若人工介入结果显示为有欺诈信息,则输出“包含欺诈信息”的文本信息作为所述最终结果。
9.根据权利要求7所述的一种基于XGBoost回归与卷积网络的数据资产分析系统,其特征在于,所述卷积神经网络模型的训练方法为:
采用多卷积核对输入的图像类数据资产像素集进行卷积操作得到不同像素点之间的关联信息;
采用预设的池化方法降低卷积层的维度,使用反向传播算法训练模型;
采用交叉熵作为损失函数来评估所述训练模型,直至损失不再下降以得到所述训练好的所述卷积神经网络模型。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种基于XGBoost回归与卷积网络的数据资产分析方法程序,所述基于XGBoost回归与卷积网络的数据资产分析方法程序被处理器执行时,实现如权利要求1至6中任一项所述的一种基于XGBoost回归与卷积网络的数据资产分析方法的步骤。
CN202110767832.6A 2021-07-07 2021-07-07 基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质 Pending CN113205093A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110767832.6A CN113205093A (zh) 2021-07-07 2021-07-07 基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110767832.6A CN113205093A (zh) 2021-07-07 2021-07-07 基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质

Publications (1)

Publication Number Publication Date
CN113205093A true CN113205093A (zh) 2021-08-03

Family

ID=77022730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110767832.6A Pending CN113205093A (zh) 2021-07-07 2021-07-07 基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质

Country Status (1)

Country Link
CN (1) CN113205093A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744845A (zh) * 2021-09-17 2021-12-03 平安好医投资管理有限公司 基于人工智能的医学影像处理方法、装置、设备及介质
CN113792962A (zh) * 2021-08-05 2021-12-14 杭州未名信科科技有限公司 一种资产化数据处理方法、装置、存储介质及终端
CN114091940A (zh) * 2021-11-26 2022-02-25 广州广汽商贸物流有限公司 一种物流园区安全风险预警方法、系统、设备及存储介质
CN115689596A (zh) * 2022-08-27 2023-02-03 北京华宜信科技有限公司 一种非定制化数据资产估值方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991441A (zh) * 2019-12-13 2020-04-10 王文斌 基于图像识别的资产评估方法、装置以及计算机存储介质
US20200342313A1 (en) * 2019-04-26 2020-10-29 Ever Fortune.Ai Co., Ltd. Cloud-based transaction system and method capable of providing neural network training model in supervised state
CN112422531A (zh) * 2020-11-05 2021-02-26 博智安全科技股份有限公司 基于CNN和XGBoost的网络流量异常行为检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200342313A1 (en) * 2019-04-26 2020-10-29 Ever Fortune.Ai Co., Ltd. Cloud-based transaction system and method capable of providing neural network training model in supervised state
CN110991441A (zh) * 2019-12-13 2020-04-10 王文斌 基于图像识别的资产评估方法、装置以及计算机存储介质
CN112422531A (zh) * 2020-11-05 2021-02-26 博智安全科技股份有限公司 基于CNN和XGBoost的网络流量异常行为检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘志伟: "基于卷积特征提取的XGBoost营收预测模型", 《网络安全技术与应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792962A (zh) * 2021-08-05 2021-12-14 杭州未名信科科技有限公司 一种资产化数据处理方法、装置、存储介质及终端
CN113744845A (zh) * 2021-09-17 2021-12-03 平安好医投资管理有限公司 基于人工智能的医学影像处理方法、装置、设备及介质
CN114091940A (zh) * 2021-11-26 2022-02-25 广州广汽商贸物流有限公司 一种物流园区安全风险预警方法、系统、设备及存储介质
CN114091940B (zh) * 2021-11-26 2022-07-01 广州广汽商贸物流有限公司 一种物流园区安全风险预警方法、系统、设备及存储介质
CN115689596A (zh) * 2022-08-27 2023-02-03 北京华宜信科技有限公司 一种非定制化数据资产估值方法

Similar Documents

Publication Publication Date Title
CN113205093A (zh) 基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质
Rao et al. Design of comprehensive evaluation index system for P2P credit risk of “three rural” borrowers
CN109711955B (zh) 基于当前订单的差评预警方法、系统、黑名单库建立方法
CN111861174B (zh) 一种针对用户画像的信用评估方法
CN111400754A (zh) 保护用户隐私的用户分类系统的构建方法及装置
CN110704730A (zh) 基于大数据的产品数据推送方法、系统及计算机设备
CN112150298A (zh) 数据处理方法、系统、设备及可读介质
CN112417294A (zh) 一种基于神经网络挖掘模型的业务智能推荐方法
CN112258250A (zh) 基于网络热点的目标用户识别方法、装置和计算机设备
CN116340793A (zh) 一种数据处理方法、装置、设备以及可读存储介质
Yuping et al. New methods of customer segmentation and individual credit evaluation based on machine learning
CN113378609B (zh) 代理商代签名的识别方法及装置
CN113159796A (zh) 一种贸易合同验证方法及装置
CN116821759A (zh) 类别标签的识别预测方法、装置和处理器及电子设备
CN117132383A (zh) 一种信贷数据处理方法、装置、设备及可读存储介质
CN116342255A (zh) 互联网消费贷反欺诈风险识别方法及系统
CN116522131A (zh) 对象表示方法、装置、电子设备及计算机可读存储介质
Wu et al. Customer churn prediction for commercial banks using customer-value-weighted machine learning models
CN114841705A (zh) 一种基于场景识别的反欺诈监测方法
CN113706258A (zh) 基于组合模型的产品推荐方法、装置、设备及存储介质
Preetham et al. A Stacked Model for Approving Bank Loans
CN112581177A (zh) 结合自动特征工程及残差神经网络的营销预测方法
Setnes et al. Fuzzy target selection in direct marketing
CN110956471A (zh) 装修行业征信数据的分析方法
CN110570301A (zh) 风险识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210803

RJ01 Rejection of invention patent application after publication