CN117171672A

CN117171672A - 产品数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN117171672A
Application number: CN202311133512.0A
Authority: CN
Inventors: 娄宸恺; 曾欣; 吕飞鹏; 张闯; 李杰彬; 倪昕琦
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-12-05

Abstract

本申请涉及一种产品数据处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取产品数据维度以及产品数据的存储数据库；根据产品数据维度生成与存储数据库对应的结构化查询语言；执行结构化查询语言，从存储数据库获取产品数据；通过目标决策树模型对产品数据进行处理，得到各产品数据对应的产品标识的产品类型；目标决策树模型是预先通过样本产品数据以及对应样本产品类型进行训练得到的；输出产品类型不符合要求的产品标识。采用本方法能够提高产品数据的处理速度和效率。

Description

产品数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及大数据技术领域，特别是涉及一种产品数据处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机以及大数据技术的发展，出现了机器学习技术，例如决策树模型，决策树模型是一个预测模型，代表的是对象属性与对象值之间的映射关系。

传统技术中，决策树模型需要获取海量的样本数据，并通过海量的数据的计算来训练模型，获取海量的样本数据时会耗费服务器大量的时间，这样会导致服务器处理数据效率不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高数据处理效率的产品数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种产品数据处理方法。所述方法包括：

获取产品数据维度以及产品数据的存储数据库；

根据产品数据维度生成与存储数据库对应的结构化查询语言；

执行结构化查询语言，从存储数据库获取产品数据；

通过目标决策树模型对产品数据进行处理，得到各产品数据对应的产品标识的产品类型；目标决策树模型是预先通过样本产品数据以及对应样本产品类型进行训练得到的；

输出产品类型不符合要求的产品标识。

在其中一个实施例中，通过目标决策树模型对产品数据进行处理，得到各产品数据对应的产品标识的产品类型，包括：

对产品数据进行处理，得到目标决策树模型中各节点对应的评价指标的指标值；

基于目标决策树模型中各节点对应的评价指标的指标值确定产品类型。

在其中一个实施例中，输出产品类型不符合要求的产品标识之前，还包括：

获取产品类型筛选条件；

通过java程序根据产品类型筛选条件对产品类型进行筛选，得到不符合要求的产品类型对应的产品标识；

通过java程序根据不符合要求的产品类型对应的产品标识，生成目标格式的数据文件；

输出产品类型不符合要求的产品标识，包括：

输出目标格式的数据文件。

在其中一个实施例中，执行结构化查询语言，从存储数据库获取产品数据，包括：

通过任务调度系统，定时触发批处理操作执行结构化查询语言，从存储数据库查询得到产品数据。

在其中一个实施例中，通过目标决策树模型对产品数据进行处理，得到各产品数据对应的产品标识的产品类型之前，还包括：

获取样本数据集；样本数据集包括样本产品数据和样本产品数据对应的样本产品类型；

将样本数据集分组得到训练数据组；

通过K折交叉验证基于各训练数据组中的样本产品数据和样本产品类型对初始模型进行训练；

对训练完成的各初始模型进行评估，并基于评估结果从初始模型中选择得到决策树模型的类型；

根据决策树模型的类型、样本产品数据以及对应的样本产品类型对决策树模型进行训练，得到目标决策树模型。

在其中一个实施例中，根据决策树模型的类型、样本产品数据以及对应的样本产品类型对决策树模型进行训练，得到目标决策树模型，包括：

获取产品的评价指标作为决策树模型的参数；基于评价指标的数量得出决策树模型的深度；评价指标是决策树模型的节点；

计算每一样本产品数据对应的评价指标值；

基于评价指标值和对应的样本产品类型对决策树模型训练得到目标决策树模型。

第二方面，本申请还提供了一种产品数据处理装置。所述装置包括：

获取模块，用于获取产品数据维度以及产品数据的存储数据库；

生成模块，用于根据所述产品数据维度生成与所述存储数据库对应的结构化查询语言；

执行模块，用于执行所述结构化查询语言，从所述存储数据库获取所述产品数据；

处理模块，用于通过目标决策树模型对所述产品数据进行处理，得到各所述产品数据对应的产品标识的产品类型；所述目标决策树模型是预先通过样本产品数据以及对应样本产品类型进行训练得到的；

输出模块，用于输出所述产品类型不符合要求的产品标识。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任意一个实施例中所述的方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一个实施例中所述的方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任意一个实施例中所述的方法的步骤。

上述产品数据处理方法、装置、计算机设备、存储介质和计算机程序产品，首先获取产品数据维度以及产品数据的存储数据库；然后根据产品数据维度生成与存储数据库对应的结构化查询语言；执行生成结构化查询语言，从存储数据库获取产品数据；再通过目标决策树模型对产品数据进行处理，由此得到各产品数据对应的产品标识的产品类型；最后输出产品类型不符合要求的产品标识。通过生成并执行结构化查询语言从存储数据库中获取产品数据，提高了获取产品数据的速度，能够及时地将产品数据输入至目标决策树模型进行处理；通过输出产品类型不符合要求的产品标识，减少后续数据处理量，从而提高了产品数据处理效率。

附图说明

图1为一个实施例中产品数据处理方法的应用环境图；

图2为一个实施例中产品数据处理方法的流程示意图；

图3为一个实施例中目标决策树模型对产品数据处理，得到产品类型的流程示意图；

图4为一个实施例中生成目标格式的数据文件的流程示意图；

图5为一个实施例中得到目标决策树模型的流程示意图；

图6为另一个实施例中根据决策树模型的类型、样本产品数据以及对应的样本产品类型，得到目标决策树模型的流程示意图；

图7为一个实施例中产品数据处理装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的产品数据处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。存储数据库可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104获取产品数据维度以及产品数据的存储数据库；根据产品数据维度生成与存储数据库对应的结构化查询语言；执行结构化查询语言，从存储数据库获取产品数据；通过目标决策树模型对产品数据进行处理，得到各产品数据对应的产品标识的产品类型；目标决策树模型是预先通过样本产品数据以及对应样本产品类型进行训练得到的；输出产品类型不符合要求的产品标识。通过生成并执行结构化查询语言从存储数据库中获取产品数据，提高了获取产品数据的速度，能够及时地将产品数据输入至目标决策树模型进行处理；通过输出产品类型不符合要求的产品标识，减少后续数据处理量，从而提高了产品数据处理效率。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种产品数据处理方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤S202，获取产品数据维度以及产品数据的存储数据库。

其中，产品数据维度指的是事物或现象的某种特征；维度可以分为定性维度和定量维度，根据数据类型来划分，数据类型为字符型(文本型)数据，就是定性维度；数据类型为数值型数据的，为定量维度，一般对定量维度做数值分组处理，即数值型数据离散化。在机器学习中的维度可以理解为数据的特征，依据这些维数(特征)进行分类，所以说可以有很多维度。存储数据库是以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合，数据库就是一个存储产品数据等结构化数据的仓库，存储数据库可以集成在服务器上，也可以放在云上或其他网络服务器上。

可选地，在服务器获取产品数据维度以及产品数据的存储数据库之前，存储数据库从不同的上游系统中获取产品数据，存入存储数据库的产品数据是经过预处理的。然后服务器获取产品数据维度以及产品数据的数据源，产品数据的存储数据库；以便后续服务器从存储数据库中获取多维度的产品数据。其中存储数据库可以是一个大型的、集中的数据存储系统，它可以存储和管理来自各个不同系统的数据，不同的系统即为存储数据库的上游系统。

步骤S204，根据产品数据维度生成与存储数据库对应的结构化查询语言。

其中，结构化查询语言是指用于定义和处理关系数据库中的数据的一种标准化语言。一般而言，结构化查询语言SQL语句主要包括两个部分：查询选择子句(也称SELECT子句)和查询源表子句(也称FROM子句)。

其中，查询选择子句可以包括数据表或视图中的列，也可以包括分组聚合函数等。这里的分组聚合函数用于对数据表或视图中的一列或若干列进行聚合运算。其例如可以为求和函数(SUM())、求平均函数(AVG())、求最大值函数(MAX())或者求最小值函数(MIN())等。

查询源表子句可以包括数据表或视图等对象。查询源表子句包括多个对象，为了方便理解，以两个对象为例说明，比如两个数据表、两个视图或者一个数据表和一个视图，则需要对该两个对象建立连接。

需要说明，通过对该两个对象建立连接，可以实现对两个对象进行合并，形成新的结果集。基于形成的结果集，可以实现例如查询等数据库操作。关于上述两个对象，可以通过指定的连接类型建立连接。需要说明，在还指定连接类型时，查询源表子句的语法格式可以表示为：数据表1<连接类型>JOIN数据表2。当然，这里的数据表也可以为视图。关于连接类型可以为，内连接(INNER JOIN)、外连接(OUTER JOIN)或交叉连接(CROSS JOIN)等。

可选地，服务器先获取产品数据维度和产品数据所在的储存数据库，具体为产品数据所在的数据库表或者视图，再根据获取的产品数据维度(特征)及产品数据所在位置信息编写相应的结构化查询语句或者语句块，其中结构化查询语句或者语句块涉及到上述多表连接、子查询、聚合函数等复杂的操作。

步骤S206，执行结构化查询语言，从存储数据库获取产品数据。

可选地，使用数据库管理系统(DBMS)的查询接口，服务器执行编写好的SQL查询语句，执行SQL查询语句的过程就是从数据库表或者视图中获取相应数据的过程，执行SQL查询语句后，得到多个数据表或视图，每个数据表或视图包含了多行多列的数据，这里的数据就是后续需要进行处理产品数据。

可选地，服务器获取到产品数据之后，还可以对产品数据进行预处理，预处理可以包括数据清洗以及缺失值异常值的处理。这里的数据清洗包括去除数据无关字段、对敏感数据进行脱敏处理、修正产品数据的错误，目的是去除产品数据中的无关项、重复项和错误项。这里的缺失值处理可以采用删除含有缺失值的记录、使用平均值或中位数填充缺失值、使用模型预测缺失值等方式。这里的异常值处理可以采用删除异常值、使用平均值或中位数替换异常值、将异常值标记为特殊值等方法。服务器可以将经过预处理的数据存储在数据库、文件系统或者内存中；如果后续需要进行大量的随机访问，那么可能需要将数据存储在数据库或者内存中；如果后续的处理和分析是顺序的，那么可能可以将数据存储在文件系统中。

步骤S208，通过目标决策树模型对产品数据进行处理，得到各产品数据对应的产品标识的产品类型；目标决策树模型是预先通过样本产品数据以及对应样本产品类型进行训练得到的。

其中，决策树模型是一个预测模型，它代表的是对象属性与对象值之间的一种映射关系；树中每个节点表示某个对象，而每个分叉路径则代表某个可能的属性值，而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。目标决策树模型是预先通过样本产品数据以及对应样本产品类型进行训练得到的。产品标识是产品的标识符，能够表征产品唯一性的信息符号；产品标识可以为临时的产品标识，也可以为永久的产品标识。产品类型是按照产品特征标准赋予产品数据的一个标签；产品类型可以为符合要求也可以为不符合要求。

在机器学习中，样本通常被用来表示一个实例或一个事件，例如一张图片、一段文本或一笔交易等，是数据集中的一条数据，样本是数据集中的一个个数据点，它是数据集中最基本的单位；即样本是指数据的特定实例。样本产品数据是产品数据的特定实例；样本产品类型是样本产品数据对应的样本产品类型的特定实例。

可选地，服务器在将获取的产品数据输入至目标决策树模型之前，还可以根据交叉验证使用不同算法的决策树模型进行训练，并对训练完成的不同算法的决策树模型的测试结果进行性能评估，性能评估指标可以包括准确率、精确率、召回率、F1分数、AUC(AreaUnderRoc，AUC)等。根据性能评估结果从决策树模型中选择合适算法的目标决策树模型。其中交叉验证是指模型在验证数据中的评估常用的方法，又称循环验证；准确率是指模型预测正确的结果占总样本的百分比。精确率也叫差准率，是指所有被预测为正的样本中实际为正的样本的概率。召回率也称查全率，是指实际为正的样本中被预测为正样本的概率。F1分数是统计学中用来衡量二分类(或多任务二分类)模型精确度的一种指标；同时兼顾了分类模型的准确率和召回率；F1分数可以看作是模型准确率和召回率的一种加权平均，它的最大值是1，最小值是0，值越大意味着模型越好。AUC(AreaUnderRoc，AUC)是指Roc曲线与坐标轴形成的面积，取值范围[0,1].曲线，Roc曲线又称接受者操作特征曲线。

可选地，服务器将从存储数据库中获取的产品数据输入至预先通过样本产品数据以及对应样本产品类型进行训练得到的目标决策树模型，得到各产品数据对应的产品标识的产品类型。

步骤S210，输出产品类型不符合要求的产品标识。

可选地，服务器输出产品类型不符合要求的产品标识之前，先确定服务器输出信息的接收者，接收者可以是业务机构或者业务部门的相关人员；确定接收者的过程涉及人员的查询、选择、验证等操作。服务器将输出产品类型不符合要求的产品标识发送接收者；发送的方式是邮件、短信、推送通知等。服务器发送完成后，还可以处理接收者的反馈，处理反馈的过程涉及反馈的接收、反馈的解析、反馈的回复、反馈的记录等操作。例如，如果接收者的需求发生了变化，那么需要重新确定接收者或重新编写邮件、短信、推送通知；如果接收者反馈的处理方式发生了变化，那么需要重新设计反馈的处理流程，等等。输出产品类型不符合要求的产品标识发送给接收者的过程均为Java实现，具体地可以采用Springboot框架为基础的Web应用程序。其中，SpringBoot是一个集成了Spring技术栈的一个大整合，是一个简化了Spring应用开发的框架。

上述产品数据处理方法中，获取产品数据维度以及产品数据的存储数据库；根据产品数据维度生成与存储数据库对应的结构化查询语言；执行结构化查询语言，从存储数据库获取产品数据；通过目标决策树模型对产品数据进行处理，得到各产品数据对应的产品标识的产品类型；目标决策树模型是预先通过样本产品数据以及对应样本产品类型进行训练得到的；输出产品类型不符合要求的产品标识。通过生成并执行结构化查询语言从存储数据库中获取产品数据，提高了获取产品数据的速度，能够及时地将产品数据输入至目标决策树模型进行处理；通过输出产品类型不符合要求的产品标识，减少后续数据处理量，从而提高了产品数据处理效率。

在一个实施例中，如图3所示，通过目标决策树模型对产品数据进行处理，得到各产品数据对应的产品标识的产品类型，包括：

步骤S302，对产品数据进行处理，得到目标决策树模型中各节点对应的评价指标的指标值。

其中，评价指标是目标决策树模型的各个节点。评价指标可以包括多个独立的定量评价指标，还可以包括综合评价指标。综合评价指标是一个综合考虑所有独立的定量评价指标的综合评分，通过加权平均的方式计算得出。对所有的独立的指标赋予相应的权重，并基于独立的定量评价指标值以及对应的权重计算得到的综合评价指标的指标值；权重的设置可以根据产品的相关度大小，还可以根据产品处于的场景调整。因此，综合评价指标值＝ω_1*评价指标值1+ω_2*评价指标值2+.....+ω_n*评价指标值n，其中ω₁,...,ω_n是评价指标1...评价指标n对应的权重值。

可选地，服务器将产品数据输入至目标决策树模型进行处理之前，服务器获取多个独立的定量指标的计算逻辑以及综合评价指标的计算逻辑；服务器将获取到的产品数据输入决策树模型中，基于不同属性评价指标的计算逻辑从而得到目标决策树模型中各节点对应的评价指标值。

步骤S304，基于目标决策树模型中各节点对应的评价指标的指标值确定产品类型。

可选地，服务器将获取到的产品数据基于目标决策树模型中各节点对应的评价指标的指标值自上而下的判断，直至满足停止条件；根据目标决策树的运行结果，确定产品类型。

本实施例中，通过目标决策树模型处理产品数据，能够确定产品所属的类型。

在一个实施例中，如图4所示，输出产品类型不符合要求的产品标识，包括：

步骤S402，获取产品类型筛选条件。

其中，产品类型筛选条件是根据产品数据所携带的信息设定的条件。

可选地，在服务器将获取到的产品类型筛选条件输入至服务器提供的前端查询页面之前，将产品类型筛选条件设置完成，例如产品类型筛选条件的设置可以根据使用产品的用户进行设置，可以根据产品所属的管辖单位进行设置。产品类型筛选条件可以是一个也可以是多个，可以是并列关系，也可以是或者关系。且还可以变更产品类型筛选的条件。

步骤S404，通过java程序根据产品类型筛选条件对产品类型进行筛选，得到不符合要求的产品类型对应的产品标识。

可选地，服务器通过java程序根据预先设置好的产品类型筛选条件对产品类型进行筛选，过滤掉不符合产品类型筛选条件的产品类别，从而可以得到不符合要求的产品类型对应的产品标识。

步骤S406，通过java程序根据不符合要求的产品类型对应的产品标识，生成目标格式的数据文件。

其中，目标格式的数据文件是指指定格式的数据文件。

可选地，服务器通过java代码使用Apache的POI框架将携带有不符合要求的产品类型标签的产品数据逐行读取，并设置数据文件行宽、高度等参数，生成指定格式的数据文件，指定格式可以是excel格式也可以是其他格式。其中，Apache POI是Apache软件基金会的开放源码函式库，POI提供API给Java程序对Microsoft Office格式档案读和写的功能。

步骤S408，输出目标格式的数据文件。

可选地，服务器输出指定格式的数据文件，根据指定格式的数据文件将不符合要求的产品标识及涉及该产品的全部或部分信息发送接收者。

本实施例中，通过产品类型筛选条件，过滤掉不需要处理的产品数据并生成目标格式的数据文件，能够达到减少后期处理量的效果。

在一个实施例中，执行结构化查询语言，从存储数据库获取产品数据，包括：

其中，任务调度系统主要对任务的执行进行调度和管理，调度系统定义任务的规则和属性，对任务的执行顺序和逻辑进行编排，从而确保任务的高效执行，具体包括任务执行的频次、具体执行时间，对应的执行脚本和参数等内容。批处理也称为批处理脚本；批处理常适用于不需要实时分析的场景，以及处理大量数据的能力比处理数据的速度更重要的场景中。

可选地，服务器通过任务调度系统，定时触发批处理操作执行SQL结构化查询语言；例如，通过鲁班调度系统设置定时任务触发并行执行SQL结构化查询语言，从而更快速的从存储数据库查询得到产品数据。

本实施例中，通过任务调度系统，定时触发批处理操作执行结构化查询语言，实现并行执行结构化查询语言，能够提高数据获取的效率。

在一个实施例中，如图5所示，通过目标决策树模型对产品数据进行处理，得到各产品数据对应的产品标识的产品类型之前，还包括：

步骤S502，获取样本数据集；样本数据集包括样本产品数据和样本产品数据对应的样本产品类型。

其中，样本数据集是包括样本产品数据和样本产品数据对应的样本产品类型；样本产品数据是产品数据的特定实例；样本产品类型是样本产品数据对应的样本产品类型的特定实例。

可选地，服务器获取包含样本产品数据和样本产品数据对应的样本产品类型的样本数据集。

步骤S504，将样本数据集分组得到训练数据组。

其中，训练数据组是用来训练模型使用的。

可选地，服务器可以将样本数据集分为训练数据组、验证数据组和测试数据组，训练数据组是用来训练模型使用的；验证数据组是区别于训练数据组的新数据，但不同于测试数据组的数据，观察模型在新数据上的表现情况，同时通过调整模型超参数，让模型处于最优状态。验证数据组不同于训练数据值和测试数据值，是非必需存在的，如果不需要调整模型的超参数，就可以不使用验证数据集，且验证数据集评估的效果并非模型的最终效果。测试数据集是用来评估模型的。

步骤S506，通过K折交叉验证基于各训练数据组中的样本产品数据和样本产品类型对初始模型进行训练。

其中，K折交叉验证将训练集数据划分为K部分，利用其中的K-1份作为训练，剩余的一份作为测试，最后取平均测试误差作为泛化误差。这样做的好处是，训练集的所有样本都必然会成为训练数据同时也必然有机会成为一次测试集，可以更好地利用训练集数据。

可选地，服务器将训练数据组划分为相等的k部分，将第一部分作为测试集，其余作为训练集；基于样本产品数据和样本产品类型训练初始决策树模型，每次用不同的部分作为测试集，重复前述步骤k次，每次训练需要计算初始决策树模型在测试集上的性能评估指标。

步骤S508，对训练完成的各初始模型进行评估，并基于评估结果从初始模型中选择得到决策树模型的类型。

其中，常见的性能评估指标包括准确率、精确率、召回率、F1分数、AUC等。

为了便于理解，本实施例以准确率为例进行说明，服务器对训练完成的各个初始模型进行性能评估，平均性能(Mean performance)的计算公式为：

其中，X_i是第i个模型的性能评估结果，i取值从1至k；k是训练集数据划分的部分；

性能的稳定性(Performance stability)通常用标准差(Standard deviation)来表示，其计算公式为：

其中，X_i是第i个模型的性能评估结果，i取值从1至k；k是训练集数据划分的部分；是平均性能，sqrt函数计算正平方根。

可选地，服务器分别不同算法的决策树模型k次训练准确率的平均准确率作为最终的平均准确率；以及计算不同算法模型的k次训练准确率的标准差，以下表格展示了两种决策树算法(C4.5和CART)在K折交叉验证中的性能评估结果。

Fold(折数)	C4.5 Accuracy(准确率)	CART Accuracy(准确率)
			1	0.85	0.82
2	0.88	0.84
			3	0.86	0.83
4	0.87	0.85
			5	0.86	0.84
Mean(平均准确率)	0.864	0.836
			Std Dev(准确率的标准差)	0.012	0.012

在这个表格中，"Fold"列表示交叉验证的折数，"C4.5 Accuracy"列和"CARTAccuracy"列分别表示C4.5和CART在每一折的准确率。"Mean"行表示平均准确率，"StdDev"行表示准确率的标准差。在"C4.5 Accuracy"和"CART Accuracy"准确率的标准差相等的情况下；"C4.5 Accuracy"平均准确率大于"CART Accuracy"平均准确率；因此本实施例选择的决策树模型为C4.5算法的决策树模型。

步骤S510，根据决策树模型的类型、样本产品数据以及对应的样本产品类型对决策树模型进行训练，得到目标决策树模型。

接上述实施例，服务器可以根据C4.5算法的决策树模型设置决策树模型参数，模型参数包括产品数据以及对应的产品类型；从训练集中获取样本产品数据以及对应的样本产品类型对决策树模型进行训练，训练的过程是一个递归的过程，从根节点开始，每次选择一个产品数据特征进行划分，然后在每个子节点上重复这个过程，直到满足停止条件，停止条件包括子节点中的样本产品数据属于同一类；或者该子节点中不存在样本产品数据；或者产品数据特征已经用完；得到目标决策树模型。

本实施例中，通过对初始模型的训练并评估后选择决策树模型的类型并基于此再次进行训练，能够提高决策树模型处理产品数据的准确性。

在一个实施例中，如图6所示，根据决策树模型的类型、样本产品数据以及对应的样本产品类型对决策树模型进行训练，得到目标决策树模型，包括：

步骤S602，获取产品的评价指标作为决策树模型的参数；基于评价指标的数量得出决策树模型的深度；评价指标是决策树模型的节点；

其中，评价指标是根据样本产品数据的特征得出的，将评价指标值作为决策树模型的参数进行计算。决策树模型的最大深度不超过评价指标的数量，为了防止过拟合，可以设置决策树模型的最大深度。每个评价指标都是决策树模型的节点，或为根节点或为中间节点。

可选地，服务器获取决策树模型的各个评价指标以及评价指标的数量。

步骤S604，计算每一样本产品数据对应的评价指标值。

其中，评价指标值是根据获取的样本产品数据进行计算得到的。

可选地，服务器基于各个评价指标公式计算每一样本数据对应的评价指标值，例如其中一个评价指标为净收益率，计算公式：(金额-成本)/金额。

步骤S606，基于评价指标值和对应的样本产品类型对决策树模型训练得到目标决策树模型。

可选地，服务器计算全部评价指标值的信息增益率，选取信息增益率高的评价指标作为节点；此时服务器基于计算的评价指标值构建决策树模型的根节点。删除已经被选取的评价指标；重复执行每一样本产品数据对应的剩余评价指标值的信息增益率，选取信息增益率高的评价指标作为节点；此时服务器基于计算的评价指标值构建决策树模型的各个中间节点；直至全部评价指标均被处理。基于对应的样本产品类型构建决策树的叶子节点，从而生成目标决策树模型。

本实施例中，通过决策树的类型和样本产品数据以及对应的样本产品类型对决策树模型进行训练，能够得到训练完成的最优目标决策树模型。

在一个实施例中，服务器获取产品数据维度以及产品数据的存储数据库；根据产品数据维度生成与存储数据库对应的结构化查询语言；通过任务调度系统，定时触发批处理操作执行结构化查询语言，从存储数据库查询得到产品数据。

服务器获取样本数据集；样本数据集包括样本产品数据和样本产品数据对应的样本产品类型；将样本数据集分组得到训练数据组；通过K折交叉验证基于各训练数据组中的样本产品数据和样本产品类型对初始模型进行训练；对训练完成的各初始模型进行评估，并基于评估结果从初始模型中选择得到决策树模型的类型；获取产品的评价指标作为决策树模型的参数；基于评价指标的数量得出决策树模型的深度；评价指标是决策树模型的节点；计算每一样本产品数据对应的评价指标值；基于评价指标值和对应的样本产品类型对决策树模型训练得到目标决策树模型。

服务器对产品数据进行处理，得到目标决策树模型中各节点对应的评价指标的指标值；基于目标决策树模型中各节点的权重以及指标值得到各产品数据对应的综合评价指标值；基于综合评价指标值确定产品类型。

服务器获取产品类型筛选条件；通过java程序根据产品类型筛选条件对产品类型进行筛选，得到不符合要求的产品类型对应的产品标识；通过java程序根据不符合要求的产品类型对应的产品标识，生成目标格式的数据文件；输出目标格式的数据文件。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的产品数据处理方法的产品数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个产品数据处理装置实施例中的具体限定可以参见上文中对于产品数据处理方法的限定，在此不再赘述。

在一个实施例中，如图7所示，提供了一种产品数据处理装置，包括：M获取模块701、生成模块702、执行模块703、处理模块704和输出模块705，其中：

获取模块701，用于获取产品数据维度以及产品数据的存储数据库。

生成模块702，用于根据所述产品数据维度生成与所述存储数据库对应的结构化查询语言。

执行模块703，用于执行所述结构化查询语言，从所述存储数据库获取所述产品数据。

处理模块704，用于通过目标决策树模型对所述产品数据进行处理，得到各所述产品数据对应的产品标识的产品类型；所述目标决策树模型是预先通过样本产品数据以及对应样本产品类型进行训练得到的。

输出模块705，用于输出所述产品类型不符合要求的产品标识。

在一个实施例中，处理模块704，包括：

处理单元，用于对产品数据进行处理，得到目标决策树模型中各节点对应的评价指标的指标值。

确定单元，用于基于目标决策树模型中各节点对应的评价指标的指标值确定产品类型。

在一个实施例中，产品数据处理装置，还包括：

筛选条件获取模块，用于获取产品类型筛选条件。

筛选产品模块，用于通过java程序根据产品类型筛选条件对产品类型进行筛选，得到不符合要求的产品类型对应的产品标识。

数据文件生成模块，用于通过java程序根据不符合要求的产品类型对应的产品标识，生成目标格式的数据文件。

输出模块705，包括：

输出单元，用于输出目标格式的数据文件。

在一个实施例中，执行模块703，包括：

执行单元，用于通过任务调度系统，定时触发批处理操作执行结构化查询语言，从存储数据库查询得到产品数据。

在一个实施例中，产品数据处理装置，还包括：

样本获取模块，用于获取样本数据集；样本数据集包括样本产品数据和样本产品数据对应的样本产品类型。

样本分组模块，用于将样本数据集分组得到训练数据组。

初始训练模块，用于通过K折交叉验证基于各训练数据组中的样本产品数据和样本产品类型对初始模型进行训练。

评估选择模块，用于对训练完成的各初始模型进行评估，并基于评估结果从初始模型中选择得到决策树模型的类型。

模型生成模块，用于根据决策树模型的类型、样本产品数据以及对应的样本产品类型对决策树模型进行训练，得到目标决策树模型。

在一个实施例中，模型生成模块，包括：

参数获取单元，用于获取产品的评价指标作为决策树模型的参数；基于评价指标的数量得出决策树模型的深度；评价指标是决策树模型的节点；

计算单元，用于计算每一样本产品数据对应的评价指标值；

生成单元，用于基于评价指标值和对应的样本产品类型对决策树模型训练得到目标决策树模型。

上述产品数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储产品数据以及对应的产品类型。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种产品数据处理方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取产品数据维度以及产品数据的存储数据库；

执行结构化查询语言，从存储数据库获取产品数据；

输出产品类型不符合要求的产品标识。

在一个实施例中，处理器执行计算机程序时所实现的通过目标决策树模型对产品数据进行处理，得到各产品数据对应的产品标识的产品类型，包括：

对产品数据进行处理，得到目标决策树模型中各节点对应的评价指标的指标值；基于目标决策树模型中各节点对应的评价指标的指标值确定产品类型。

在一个实施例中，处理器执行计算机程序时所实现的输出产品类型不符合要求的产品标识之前，还包括：

获取产品类型筛选条件；通过java程序根据产品类型筛选条件对产品类型进行筛选，得到不符合要求的产品类型对应的产品标识；通过java程序根据不符合要求的产品类型对应的产品标识，生成目标格式的数据文件；

输出产品类型不符合要求的产品标识，包括：

输出目标格式的数据文件。

在一个实施例中，处理器执行计算机程序时所实现的执行结构化查询语言，从存储数据库获取产品数据，包括：

在一个实施例中，处理器执行计算机程序时所实现的通过目标决策树模型对产品数据进行处理，得到各产品数据对应的产品标识的产品类型之前，还包括：

获取样本数据集；样本数据集包括样本产品数据和样本产品数据对应的样本产品类型；将样本数据集分组得到训练数据组；通过K折交叉验证基于各训练数据组中的样本产品数据和样本产品类型对初始模型进行训练；对训练完成的各初始模型进行评估，并基于评估结果从初始模型中选择得到决策树模型的类型；根据决策树模型的类型、样本产品数据以及对应的样本产品类型对决策树模型进行训练，得到目标决策树模型。

在一个实施例中，处理器执行计算机程序时所实现的根据决策树模型的类型、样本产品数据以及对应的样本产品类型对决策树模型进行训练，得到目标决策树模型，包括：

获取产品的评价指标作为决策树模型的参数；基于评价指标的数量得出决策树模型的深度；评价指标是决策树模型的节点；计算每一样本产品数据对应的评价指标值；基于评价指标值和对应的样本产品类型对决策树模型训练得到目标决策树模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取产品数据维度以及产品数据的存储数据库；

执行结构化查询语言，从存储数据库获取产品数据；

输出产品类型不符合要求的产品标识。

在一个实施例中，计算机程序被处理器执行时所实现的通过目标决策树模型对产品数据进行处理，得到各产品数据对应的产品标识的产品类型，包括：

在一个实施例中，计算机程序被处理器执行时所实现的输出产品类型不符合要求的产品标识之前，还包括：

获取产品类型筛选条件；通过java程序根据产品类型筛选条件对产品类型进行筛选，得到不符合要求的产品类型对应的产品标识；通过java程序根据不符合要求的产品类型对应的产品标识，生成目标格式的数据文件；输出产品类型不符合要求的产品标识，包括：输出目标格式的数据文件。

在一个实施例中，计算机程序被处理器执行时所实现的执行结构化查询语言，从存储数据库获取产品数据，包括：

在一个实施例中，计算机程序被处理器执行时所实现的通过目标决策树模型对产品数据进行处理，得到各产品数据对应的产品标识的产品类型之前，还包括：

在一个实施例中，计算机程序被处理器执行时所实现的根据决策树模型的类型、样本产品数据以及对应的样本产品类型对决策树模型进行训练，得到目标决策树模型，包括：

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取产品数据维度以及产品数据的存储数据库；

执行结构化查询语言，从存储数据库获取产品数据；

输出产品类型不符合要求的产品标识。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种产品数据处理方法，其特征在于，所述方法包括：

获取产品数据维度以及产品数据的存储数据库；

根据所述产品数据维度生成与所述存储数据库对应的结构化查询语言；

执行所述结构化查询语言，从所述存储数据库获取所述产品数据；

通过目标决策树模型对所述产品数据进行处理，得到各所述产品数据对应的产品标识的产品类型；所述目标决策树模型是预先通过样本产品数据以及对应样本产品类型进行训练得到的；

输出所述产品类型不符合要求的产品标识。

2.根据权利要求1所述的方法，其特征在于，所述通过目标决策树模型对所述产品数据进行处理，得到各所述产品数据对应的产品标识的产品类型，包括：

对所述产品数据进行处理，得到所述目标决策树模型中各节点对应的评价指标的指标值；

基于所述目标决策树模型中各节点对应的评价指标的指标值确定产品类型。

3.根据权利要求1所述的方法，其特征在于，所述输出所述产品类型不符合要求的产品标识之前，还包括：

获取产品类型筛选条件；

通过java程序根据所述产品类型筛选条件对所述产品类型进行筛选，得到不符合要求的产品类型对应的产品标识；

通过java程序根据所述不符合要求的产品类型对应的产品标识，生成目标格式的数据文件；

所述输出所述产品类型不符合要求的产品标识，包括：

输出所述目标格式的数据文件。

4.根据权利要求1所述的方法，其特征在于，所述执行所述结构化查询语言，从所述存储数据库获取产品数据，包括：

通过任务调度系统，定时触发批处理操作执行所述结构化查询语言，从所述存储数据库查询得到所述产品数据。

5.根据权利要求1所述的方法，其特征在于，所述通过目标决策树模型对所述产品数据进行处理，得到各所述产品数据对应的产品标识的产品类型之前，还包括：

获取样本数据集；所述样本数据集包括样本产品数据和样本产品数据对应的样本产品类型；

将所述样本数据集分组得到训练数据组；

通过K折交叉验证基于各所述训练数据组中的所述样本产品数据和样本产品类型对初始模型进行训练；

对训练完成的各所述初始模型进行评估，并基于评估结果从初始模型中选择得到决策树模型的类型；

根据所述决策树模型的类型、样本产品数据以及对应的样本产品类型对决策树模型进行训练，得到目标决策树模型。

6.根据权利要求5所述的方法，其特征在于，所述根据决策树模型的类型、样本产品数据以及对应的样本产品类型对决策树模型进行训练，得到目标决策树模型，包括：

获取产品的评价指标作为所述决策树模型的参数；基于所述评价指标的数量得出所述决策树模型的深度；所述评价指标是所述决策树模型的节点；

计算每一所述样本产品数据对应的评价指标值；

基于所述评价指标值和所述对应的样本产品类型对所述决策树模型训练得到目标决策树模型。

7.一种产品数据处理装置，其特征在于，所述装置包括：

输出模块，用于输出所述产品类型不符合要求的产品标识。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。