CN112182322A

CN112182322A - 数据分类方法、系统、计算机设备与计算机可读存储介质

Info

Publication number: CN112182322A
Application number: CN202011054440.7A
Authority: CN
Inventors: 洪钰; 李毅琳; 王开益; 白育龙; 罗力力; 孙海容; 罗水权
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-05

Abstract

本发明涉及数据处理领域，公开了一种数据分类方法、系统、计算机设备与计算机可读存储介质，所述方法包括：获取多个用户的第一数据，对所述第一数据进行数据清洗，得到第二数据；将所述第二数据输入至逻辑回归分类模型中进行计算，以得到参数数据；获取预处理后的目标用户的待分类数据，将所述待分类数据与所述参数数据输入至有序分类模型中进行计算，得到所述目标用户对应的目标等级。本发明还涉及区块链技术领域，所述目标用户对应的目标等级存储至区块链中。本发明实施例的有益效果在于：可以对数据进行有序分类处理，提升了工作效率及模型的精度。

Description

数据分类方法、系统、计算机设备与计算机可读存储介质

技术领域

本发明实施例涉及数据处理领域，尤其涉及一种数据分类方法、系统、计算机设备与计算机可读存储介质。

背景技术

传统的企业信用分析通常基于人工打分进行信用评级，但人工信用分析主观因素强，难以客观衡量企业信用风险，一般采用逻辑回归模型进行计算，但，企业信用分析最重要的在于每个因素对评级结果影响的可解释性，现有的逻辑回归模型计算不够准确，且需要多个软件进行计算，效率低下。

发明内容

有鉴于此，本发明实施例的目的是提供一种数据分类方法、系统、计算机设备与计算机可读存储介质，可以对数据进行有序分类处理，提升了工作效率及模型的精度。

为实现上述目的，本发明实施例提供了一种数据分类方法，包括：

获取多个用户的第一数据，对所述第一数据进行数据清洗，得到第二数据；

将所述第二数据输入至逻辑回归分类模型中进行计算，以得到参数数据；

获取预处理后的目标用户的待分类数据，将所述待分类数据与所述参数数据输入至有序分类模型中进行计算，得到所述目标用户对应的目标等级。

进一步地，所述将所述第二数据输入至逻辑回归分类模型中进行计算，以得到参数数据包括：

获取逻辑回归模型的目标函数；

将所述第二数据作为自变量输入到所述目标函数中，根据梯度下降法对所述目标函数进行计算，得到参数数据。

进一步地，所述获取预处理后的目标用户的待分类数据，将所述待分类数据与所述参数数据输入至有序分类模型中进行计算，得到所述目标用户对应的目标等级包括：

将所述参数数据输入至所述有序分类模型中得到目标分类模型，其中，所述有序分类模型根据逻辑回归模型进行训练得到；

将所述待分类数据输入至所述目标分类模型中进行一阶差分和多分类计算，得到目标概率；

获取多个等级及每个等级对应的概率范围，将所述目标概率与每个等级对应的概率范围进行匹配，得到所述目标用户对应的目标等级。

进一步地，所述有序分类模型根据逻辑回归模型进行训练得到包括：

获取所述逻辑回归模型的回归函数；

为所述逻辑回归模型设置K种分类，将K种分类代入至所述回归函数中进行变换，得到多分类函数；

将所述多分类函数进行一阶差分变换，以构建有序分类模型。

进一步地，所述将所述待分类数据输入至所述目标分类模型中进行一阶差分和多分类计算，得到目标概率的计算公式包括：

其中，P(y_i≤k|x_i,ω,b_k)表示目标概率，x_i表示待分类数据，ω,b_k表示参数数据。

进一步地，所述方法还包括：

将所述目标用户对应的目标等级存储至区块链中。

为实现上述目的，本发明实施例还提供了一种数据分类系统，包括：

数据处理模块，用于读取多个用户的第一数据，对所述第一数据进行数据处理，得到第二数据；

第一计算模块，用于将所述第二数据输入至逻辑回归分类模型中进行计算，以得到参数数据；

第二计算模块，用于获取预处理后的目标用户的待分类数据，将所述待分类数据与所述参数数据输入至有序分类模型中进行计算，得到所述目标用户对应的目标等级。

进一步地，所述第二计算模块还用于：

为实现上述目的，本发明实施例还提供了一种计算机设备，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的数据分类方法的步骤。

为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如上所述的数据分类方法的步骤。

本发明实施例提供的数据分类方法、系统、计算机设备与计算机可读存储介质，通过获取目标用户的第一数据，对第一数据进行数据处理，得到第二数据；将第二数据输入至逻辑回归分类模型中进行计算，以得到参数数据；载将参数数据和待分类数据通过有序分类模型进行差分运算，得到目标概率，进而得到目标用户对应的目标等级，实现了对数据分类进行有序化处理。提高了数据分类的兼容性和流畅性，减少软件切换的时间和人力，避免了不同软件之间的计算误差和差异，使得信评分析系统可以实现整体的端到端的实时数据获取及实时结果输出。减少了人工的参与度，使得结果更加客观可信，并且部署上线的流程更加顺畅，模型调优的方式更加简单有效，提升工作效率及模型结果精度。

附图说明

图1为本发明数据分类方法实施例一的流程图。

图2为本发明数据分类方法实施例一中步骤S120的流程图。

图3为本发明数据分类方法实施例一中步骤S140的流程图。

图4为本发明数据分类方法实施例一中步骤S141的流程图。

图5为本发明数据分类系统实施例二的程序模块示意图。

图6为本发明计算机设备实施例三的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参阅图1，示出了本发明实施例一之数据分类方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。

步骤S100，获取多个用户的第一数据，对所述第一数据进行数据清洗，得到第二数据。

具体地，当接收到目标用户的评级请求后，读取目标用户的第一数据。目标用户为进行信用评级的样本公司，一般为大型企业公司。第一数据可以为多个公司的未经处理的总资产报酬率、经营性净现金流对有息负债比等数据以及多个公司对应的评级等。相应的数据处理过程包括缺失数据、异常数据以及数据归一化处理等过程，得到的是可以放入模型进行计算的第二数据。可以理解为，将第一数据中的每种类型的数据进行分类后，进行数据清洗处理。例如，将当第一数据为年度的总资产报酬率时，查询总资产报酬率的缺失数据，可以根据总资产报酬率的均值对缺失数据进行补齐处理，再根据总资产报酬率的均值，确定其浮动范围，超过该浮动范围的数据为异常数据。归一化处理为将总资产报酬率、经营性净现金流对有息负债比等数据变化成(0，1)之间的小数，例如经营性净现金流，归一化为输入现金流/输出现金流。

步骤S120，将所述第二数据输入至逻辑回归分类模型中进行计算，以得到参数数据。

具体地，将第二数据作为自变量x_i代入至逻辑回归分类模型的目标函数P(y_i≤k|x_i,ω,b_k)中，得到对应的估计概率P。将第二数据输入到逻辑回归模型中，根据梯度下降法计算得到参数数据，包括ω,b_k，为逻辑回归模型需要的参数数据。

示例性地，参阅图2，所述步骤S120具体包括：

步骤S121，获取逻辑回归模型的目标函数。

具体地，逻辑回归模型的目标函数为：

其中：

步骤S122，将所述第二数据作为自变量输入到所述目标函数中，根据梯度下降法对所述目标函数进行计算，得到参数数据。

具体地，根据梯度下降法求解出参数数据的最优值，也可以使用其他最优值求解法，梯度下降是迭代法的一种，可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降(Gradient Descent)是最常采用的方法之一，另一种常用的方法是最小二乘法。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。反过来，如果需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。在机器学习中，基于基本的梯度下降法发展了两种梯度下降方法，分别为随机梯度下降法和批量梯度下降法。

步骤S140，获取预处理后的目标用户的待分类数据，将所述待分类数据与所述参数数据输入至有序分类模型中进行计算，得到所述目标用户对应的目标等级。

具体地，将参数数据代入至预先训练好的有序分类模型中，得到目标分类模型，再将待分类数据输入至目标分类模型中，输出目标概率，根据预存的风险等级对应的概率范围，得到目标概率对应的目标等级。

示例性地，参阅图3，所述步骤S140具体包括：

步骤S141，将所述参数数据输入至所述有序分类模型中得到目标分类模型，其中，所述有序分类模型根据逻辑回归模型进行训练得到。

具体地，将逻辑回归函数进行多分类设置，得到有序分类模型，并将计算好的参数数据代入该有序分类模型中，得到目标分类模型。

示例性地，整个过程为上线模型，第一步为通过Python实时读取第一数据，并进行相应的数据处理过程，得到可以入模的第二数据；第二步为将处理好的可以入模的第二数据从Python中导出，并传入SAS中进行有序分类数据的处理，以获得相应的参数数据，通过梯度下降法对参数数据进行优化；第三步为从SAS中导出有序逻辑回归模型计算得到的参数数据，输入Python中以得到有序分类模型。

示例性地，根据SAS(全称STATISTICAL ANALYSIS SYSTEM，数据分析系统)中处理有序分类数据的源码技术，将Python中只能处理二类分类数据的源码延展至可以处理多类有序分类数据的源码。即通过将处理二分类数据的目标函数改为处理多分类数据的目标函数，并且对相应的参数数据进行优化估计，将该程序的改变嵌入进Python中，以实现在Python中可以处理有序分类数据的能力。

步骤S142，将所述待分类数据输入至所述目标分类模型中进行一阶差分和多分类计算，得到目标概率。

具体地，目标分类模型中进行一阶差分计算的公式为：

其中，

P(y_i≤k|x_i,ω,b_k)为目标概率。

步骤S143，获取多个等级及每个等级对应的概率范围，将所述目标概率与每个等级对应的概率范围进行匹配，得到所述目标用户对应的目标等级。

具体地，取最大概率作为目标概率，再查询目标概率对应的等级，即可的到每个公司主体的估计评级，即目标等级。

示例性地，参阅图4，所述步骤S141具体包括：

步骤S141A，获取所述逻辑回归模型的回归函数。

具体地，逻辑回归模型的回归函数如上述所示，在此不做赘述。

步骤S141B，为所述逻辑回归模型设置K种分类，将K种分类代入至所述回归函数中进行变换，得到多分类函数。

具体地，将逻辑回归函数设置K种分类，得到多分类函数，如下所示：

其中，K为整数。

步骤S141C，将所述多分类函数进行一阶差分变换，以构建有序分类模型。

具体地，对该多分类函数进行一阶差分计算，得到有序分类模型的目标函数，为

示例性地，所述将所述待分类数据输入至所述目标分类模型中进行一阶差分和多分类计算，得到目标概率的计算公式包括：

具体地，x_i代表自变量，也为待分类数据，比如总资产报酬率，经营性净现金流对有息负债比等；y_i代表目标用户，即公司现有评级对应的数值，比如1、2、3；ω,b_k是模型需要估计的参数，即参数数据，i与k为整数；P(y_i≤k|x_i,ω,b_k)表示目标用户的目标概率。

示例性地，所述方法还包括：

将所述目标用户对应的目标等级存储至区块链中。

具体地，基于目标概率得到对应的目标等级，具体来说，目标等级由待分类数据进行有序分类处理得到，比如利用逻辑回归分类处理得到。将目标等级上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该目标等级，以便查证待分类数据是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

实施例二

请继续参阅图5，示出了本发明数据分类系统实施例二的程序模块示意图。在本实施例中，数据分类系统20可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述数据分类方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述数据分类系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

数据处理模块200，用于读取多个用户的第一数据，对所述第一数据进行数据处理，得到第二数据。

具体地，当接收到目标用户的评级请求后，读取目标用户的第一数据。目标用户为进行信用评级的样本公司，一般为大型企业公司。第一数据为多个公司的未经处理的总资产报酬率、经营性净现金流对有息负债比等数据以及多个公司对应的评级等。相应的数据处理过程包括缺失数据、异常数据以及数据归一化处理等过程，得到的是可以放入模型进行计算的第二数据。可以理解为，将第一数据中的每种类型的数据进行分类后，进行数据清洗处理。例如，将当第一数据为年度的总资产报酬率时，查询总资产报酬率的缺失数据，可以根据总资产报酬率的均值对缺失数据进行补齐处理，再根据总资产报酬率的均值，确定其浮动范围，超过该浮动范围的数据为异常数据。归一化处理为将总资产报酬率、经营性净现金流对有息负债比等数据变化成(0，1)之间的小数，例如经营性净现金流，归一化为输入现金流/输出现金流。

第一计算模块202，用于将所述第二数据输入至逻辑回归分类模型中进行计算，以得到参数数据。

示例性地，所述第一计算模块202具体用于：

获取逻辑回归模型的目标函数。

具体地，逻辑回归模型的目标函数为：

其中：

第二计算模块204，用于获取预处理后的目标用户的待分类数据，将所述待分类数据与所述参数数据输入至有序分类模型中进行计算，得到所述目标用户对应的目标等级。

示例性地，所述第二计算模块204具体用于：

将所述参数数据输入至所述有序分类模型中得到目标分类模型，其中，所述有序分类模型根据逻辑回归模型进行训练得到。

将所述待分类数据输入至所述目标分类模型中进行一阶差分和多分类计算，得到目标概率。

具体地，目标分类模型中进行一阶差分计算的公式为：

其中，

P(y_i≤k|x_i,ω,b_k)为目标概率。

实施例三

参阅图6，是本发明实施例三之计算机设备的硬件架构示意图。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图6所示，所述计算机设备2至少包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及数据分类系统20。其中：

本实施例中，存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如实施例二的数据分类系统20的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行数据分类系统20，以实现实施例一的数据分类方法。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述服务器2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述服务器2与外部终端相连，在所述服务器2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。需要指出的是，图6仅示出了具有部件20-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。在本实施例中，存储于存储器21中的所述数据分类系统20还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明。

所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如实施例一所述的数据分类方法的步骤。

所述的数据分类方法包括：

示例性地，所述步骤S120具体包括：

步骤S121，获取逻辑回归模型的目标函数。

具体地，逻辑回归模型的目标函数为：

其中：

示例性地，所述步骤S140具体包括：

具体地，目标分类模型中进行一阶差分计算的公式为：

其中，

P(y_i≤k|x_i,ω,b_k)为目标概率。

示例性地，所述步骤S141具体包括：

步骤S141A，获取所述逻辑回归模型的回归函数。

其中，K为整数。

具体地，x_i代表自变量，也为待分类数据，比如总资产报酬率，经营性净现金流对有息负债比等；y_i代表目标用户，即公司现有评级对应的数值，比如1、2、3；ω,b_k是模型需要估计的参数，即参数数据，i与k为整数；P(y_i≤k|x_i,ω,b_k)表示目标用户的目标概率。实施例四

本实施例还提供一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性的，也可以是易失性的。如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储计算机程序，所述计算机程序可被至少一个处理器所执行，被处理器执行时实现实施例一的数据分类方法的步骤。

所述数据分类方法包括：

示例性地，所述步骤S120具体包括：

步骤S121，获取逻辑回归模型的目标函数。

具体地，逻辑回归模型的目标函数为：

其中：

示例性地，所述步骤S140具体包括：

具体地，目标分类模型中进行一阶差分计算的公式为：

其中，

P(y_i≤k|x_i,ω,b_k)为目标概率。

示例性地，所述步骤S141具体包括：

步骤S141A，获取所述逻辑回归模型的回归函数。

其中，K为整数。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。