CN113743752A

CN113743752A - 一种数据处理方法及装置

Info

Publication number: CN113743752A
Application number: CN202110971622.9A
Authority: CN
Inventors: 孙华蔚; 刘培彬; 李加庆; 李栩樾
Original assignee: Nanjing Xingyun Digital Technology Co Ltd
Current assignee: Nanjing Xingyun Digital Technology Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-12-03
Also published as: CA3170618A1

Abstract

本发明公开了一种数据处理方法及装置，涉及大数据分析领域。方法包括：获取目标公司的公司信息原数据，并对原数据进行格式化处理，获得统一格式的量化数据；对量化数据进行计算处理，得到目标公司的基础评分s；获取目标公司的动态数据，并对其进行标签匹配，获得目标公司的动态指标数据及其权重；基于目标公司的基础评分s，结合目标公司的动态指标数据，计算得到目标公司的最终评分y。本发明能够提高对公司账户信息排查和交易特征分析的效率和准确度。

Description

一种数据处理方法及装置

技术领域

本发明涉及大数据分析领域，具体涉及一种数据处理方法及装置。

背景技术

目前，急需提供一种数据处理方法，以提高对公司账户信息排查和交易特征分析的效率和准确度。

发明内容

为了解决上述背景技术中提到的至少一个问题，本发明提供了一种数据处理方法，能够提高对公司账户信息排查和交易特征分析的效率和准确度。

本发明实施例提供的具体技术方案如下：

一种数据处理方法，所述方法包括如下步骤：

获取目标公司的公司信息原数据X，并对原数据进行格式化处理，获得统一格式的量化数据；

对量化数据进行计算处理，得到目标公司的基础评分s；

获取目标公司的动态数据，并对其进行标签匹配，获得目标公司的动态指标数据及其权重；

基于目标公司的基础评分s，结合目标公司的动态指标数据，计算得到目标公司的最终评分y。

进一步地，所述公司信息原数据X包括：公司工商基本信息数据、司法信息数据及经营信息数据。

所述司法信息数据包括法院公告、执行公告、行政处罚、开庭公告与裁判文书；

所述经营信息数据包括公司年报、资质证书、动产质押、发票数据与电力数据；

所述动态数据包括公司统一社会信用代码、注册地址、法人信息与公司电话；

所述最终评分y为预定取值范围时判定所述目标公司为空壳公司。

进一步地，所述格式化处理包括以下步骤：

步骤S01、计算任一公司信息原数据X_i的缺失值比例R_Xi，设定阈值θ，若 R_Xi>阈值θ，则剔除公司信息原数据X_i；

步骤S02、从公司信息原数据X中筛选出具有数值型的特征数据，获取任一数值型的特征数据X_i的百分位数P_Xi，若P_Xi>P_95％或P_Xi<P_5％，则将任一公司信息原数据的平均值X_mean作为数值型的特征数据X_i，并对数值型的特征数据 X_i作对数处理；

步骤S03、从公司信息原数据X中筛选出具有关联型的特征数据，并对其进行标签化处理，若存在异常，赋“1”，反之，赋“0”；

步骤S04、基于模糊匹配算法，从公司信息原数据X中筛选出目标公司的文本型特征数据，并对其进行标签化处理，若存在异常，赋“1”，反之，赋“0”；

步骤S05、从公司信息原数据X中筛选出目标公司的公司性质这一信息数据，若目标公司的公司性质满足空壳公司排除条件，则直接判定目标公司为非空壳公司。

进一步地，所述对量化数据进行处理计算包括以下步骤：

步骤S001、基于皮尔森相关系数法对量化数据进行多重共线性分析，若量化数据之间的相关系数p大于阈值m，则只保留其中一个量化数据；

步骤S002、基于WOE-IV算法和Gini importance算法，排序输出任一量化数据的feature importance值；

步骤S003、若量化数据的feature importance值大于阈值N，则选定该量化数据为指标数据；

步骤S004、基于添加正则化项L1的平方损失函数和梯度下降法拟合指标数据的权重；

步骤S005、将任一指标数据及其对应权重进行加权平均处理以获得加权平均数据z，并将加权平均数据z进行调整至左偏正态分布；

步骤S006、基于映射函数组将已经构建完成的左偏正态分布的目标公司的指标数据的加权平均数据z控制在分数区间[min，max]内。

进一步地，所述对目标公司的动态数据进行标签匹配具体包括：将目标公司的动态数据与国家工商数据底库中的数据进行匹配，若匹配一致，则赋值“0”，反之，则赋“1”。

进一步地，所述最终评分y的计算公式为：

y＝s+w₁k₁+w₂k₂+…+w_nk_n

其中：s为基础评分，k_n为动态数据匹配标签，w_n为动态数据标签系数，n 为正整数。

进一步地，阈值θ为50％。

进一步地，所述阈值m为0.7；

所述阈值N为0.8；

所述min为1，所述max为10。

所述映射函数具体为：

a·z+b＝s

其中：a、b为转换系数；

更进一步地，所述空壳公司排除条件包括目标公司为上市公司。

一种数据处理装置，所述装置包括：

数据处理模块，用于获取与目标公司相关的公司信息原数据X，并进行处理得到指标数据；

指标数据计算模块，用于基于原数据X处理得到的指标数据，计算各个指标数据对应的权重；

基础评分计算模块，用于基于所述各个指标数据及其对应的权重，计算目标公司的基础评分s；

最终评分计算模块，用于结合目标公司的动态指标数据和目标公司的基础评分s，计算目标公司的最终评分y。

一种数据处理装置，所述装置包括终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如前所述数据处理方法的步骤。

本发明实施例具有如下有益效果：

1.实现了对空壳公司风险测评的系统化、智能化、前瞻性评估和追踪研究。

2.本申请使用的评分模型基于企业的实时数据进行更新，因此可以得到更即时的企业空壳识别评分，且评分会根据企业动态数据的变化而动态更新，这就促使金融机构能更迅速且客观地对企业是否为空壳公司进行判别，对其风险准入效率得到了很大提升。

3.提升了空壳公司判别的准确性：本申请使用的评分模型涵盖了发票数据、电力数据等维度的企业经营数据指标，解决了现有技术中企业真实经营数据缺失的问题；除此之外，区别于空壳公司结果标签，本申请最终输出空壳公司评分并可查询重点指标详细数据，可解释性强，有助于业务部门结合专家经验分析企业真实经营情况，空壳公司判别的准确性得到了很大提升。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出根据本申请实施例提供的一种数据处理方法的流程图；

图2示出根据本申请实施例提供的一种原数据格式化处理的流程图；

图3示出根据本申请实施例提供的一种量化数据处理计算的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

一种数据处理方法，参照图1-图3，包括以下步骤：

获取目标公司的公司信息原数据X_n，并对原数据进行格式化处理，获得统一格式的量化数据；对量化数据进行计算处理，得到目标公司的基础评分s；获取目标公司的动态数据，并对其进行标签匹配，获得目标公司的动态指标数据；基于目标公司的基础评分s，结合目标公司的动态指标数据，计算得到目标公司的最终评分y。

在部分实施例中，公司信息原数据X包括公司工商基本信息数据、司法信息数据及经营信息数据；其中，司法信息数据包括但是不限于法院公告、执行公告、行政处罚、开庭公告与裁判文书；所述经营信息数据包括但是不限于公司年报、资质证书、动产质押、行政处罚、发票数据与电力数据。

在上述实施例中，公司信息原数据X可以从财经网站、金融信息服务商或其他相关公司信息服务商获取。

上述实施例中，所述司法信息数据与经营信息数据可以是目标公司的上一年度数据或者上一年度至前20年年度数据或者上一年度至前10年数据或者上一年度至前5年数据等等。

在部分实施例中，所述格式化处理包括以下步骤：

步骤S01、基于数据统计的方法，对目标公司的公司信息原数据X中任一公司信息原数据X_i的缺失值比例R_Xi进行计算，例如，在公司原数据的收集过程中，会存在部分公司信息原数据无法获取，或者是公司信息元数据中的一类信息的部分年限无法获取的情况，因此需要对确实的部分公司信息原数据的缺失值比例R_Xi进行计算，以确保之后计算获得的目标公司的基础评分s的准确性，当计算得到的任一公司信息原数据X_i的缺失值比例R_Xi，若计算得到的缺失值比例R_Xi的值大于50％，则将该公司信息原数据；

步骤S02、从公司原数据X中筛选出具有数值型的特征数据，其中，数值型的特征数据包括目标公司近几年内作为原告出现在法院裁判文书中的次数，发票数据与电力数据等公司信息数据，基于概率论，计算出上述数值型的特征数据的分数位(percentile)，如果计算得到的上述任一数值型数据X_i的分数位(percentile)P_Xi＞95％或P_Xi＜P_5％，则将任一公司信息原数据X_i替换为任一公司信息原数据的平均值X_mean，即将任一公司信息原数据的平均值X_mean作为数值型的特征数据X_i，在不改变数据的相对关系的前提下，为了缩小数据的绝对数值，方便下一步的计算，特对数值性的特征数据X_i作对数处理得Xi′，即Xi′＝log_e(Xi)，其中，任一公司信息数据的平均值X_mean即为所有数值型数据X_i和再除以数值型数据的个数所得；

步骤S03、从公司信息原数据X中筛选出具有关联型的特征数据，其中，所述关联型的特征数据包括工商基本信息，所述工商基本信息包括公司法人、公司股东、公司监事、公司财务负责人、公司高级管理人员及公司注册地址等等，对上述数据进行对比处理，判断两家或两家以上公司的工商基本信息中的一个或一个以上信息之间的重合度，例如：若通过模糊匹配，检测到有三个公司的公司注册地址都为同一个地方，则判定该目标公司存在“注册地异常”，进一步地，将该信息的匹配标签赋“1”，反之，将该信息的匹配标签赋“0”；又如：若通过模糊匹配，检测到同一人在5个公司担任高层管理人员，则判定目标公司存在“人员结构异常”，设定该信息的匹配标签为1，反之，设定该信息的匹配标签为0；

步骤S04、基于模糊匹配算法，从公司信息原数据X中筛选出目标公司的文本型特征数据，其中，所述文本型特征数据包括法院公告、执行公告、开庭公告与裁判文书等司法信息，并对其进行标签化处理，例如：若检测到目标公司存在“未在规定期限内公示年度报告”类型的经营异常，则基于模糊匹配算法，则认定该目标公司存在异常，则将该类经营信息数据的匹配标签赋值为“1”，反之则将该经营信息数据的匹配标签赋值为“0”；

步骤S05、从公司信息原数据X中筛选出目标公司的公司性质这一信息数据做变量排除处理，例如：若目标公司显示为A股上市公司，则直接判定目标公司的经营正常，直接排除目标公司为空壳公司的可能性。

在部分实施例中，所述量化数据的处理计算包括以下步骤：

步骤S001、基于皮尔森相关系数法对量化数据进行多重共线性分析，上述多重共线性的含义为，在对自变量进行线性回归分析时，自变量之间彼此相关的现象，相关系数p的取值介于-1到1之间，相关系数p的绝对值越大；

在部分实施例中，设定量化变量之间的相关系数p的阈值m为0.7，若量化变量之间的相关系数p大于阈值m，则只保留其中一个量化数据，例如：此处以目标公司近3月列入经营异常次数、近6月列入经营异常次数与近12月列入经营异常次数为例进行说明，

表1.数据变量表

组别	数据变量	数据变量
			组别一	近3月列入经营异常次数	近6月列入经营异常次数
组别二	近3月列入经营异常次数	近12月列入经营异常次数
			组别三	近6月列入经营异常次数	近12月列入经营异常次数

若组别一、组别二、组别三的相关系数p大于阈值0.7，则随机删除其中组别三的两个数据变量；若组别一和组别二的相关系数p大于阈值0.7，则随机删除其中组别一和组别二中共有的一个数据变量；若只有其中一个组别的相关系数p大于阈值0.7，则随机删除该组别中的其中一个数据变量。

在本实施例中，显示获取目标公司的量化数据对应的WOE值，在此对目标公司的量化数据的数量不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。目标公司的每个量化数据都对应一个WOE值，由于对量化数据的数量不作限定，故WOE值的数量也不作限定，但是必须保证对于目标公司而言，每个量化数据只能对应一个目标WOE值，即量化数据和目标WOE值的数量是相同的。其中，WOE(Weight of Evidence)即证据权重，是量化数据取某个值的时候对问题比例的一种影响。

获取目标公司的各个量化数据之后，将目标公司的所有量化数据对应的数据进行数据分箱和格式转换处理，得到目标公司各个分箱对应的WOE值。在此对数据分箱的方式不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，通常对于关联型数据主要有等距分箱、分位数分箱以及基于一定的指标的最优分箱等数据分箱方式，对于文本型数据的主要数据分箱方式有两种：一种是手动进行，将含义不明的指标合并；一种是最优降低基数法，与关联型数据的最优分箱法类似。其中，WOE越大，这个分箱里的样本响应的可能性就越大，WOE越小，分箱内样本响应的可能性越低。由于评分采用线性回归模型，入模数据需呈现单调性。因此，在计算出每个分箱的WOE值后，需同时校验训练数据和测试的WOE是否呈现单调性，若非单调且在业务中无法解释，需要修改或合并分箱，从而使WOE呈现单调。

在获取目标公司各个量化数据对应的初始分箱数据之后，利用目标公司各个量化数据对应的初始分箱数据计算出初始分箱数据对应的IV值，根据IV值与预设的合理区间之间的归属关系，从目标公司的各个量化数据对应的初始分享数据中筛选出目标公司各个量化数据对应的分箱数据，最后基于WOE编码计算特征IV值进行特征排序。其中，IV(Information Value)值即为信息价值，衡量的是某一个指标的信息量，可以表征为WOE值的加权求和，其值的大小决定了自变量对于目标变量的影响程度，部分具有预测能力的量化数据如下表所示：

表2量化数据信息价值表

数据名称	IV值
		注册地址异常-A	0.3502
人员结构异常	0.2734
		实缴资本金额	0.2680
…	…

进一步地，计算得到目标公司各个量化数据的Gini importance值，即针对每一个量化数据训练随机森林模型，同济随机森林模型的每一个决策树，当前特征形成的分支节点的基尼指数下降程度之和，即为各个量化数据的Gini importance值，更近一步地，对Gini importance值进行排序，输出目标公司的各个量化数据的feature importance值，部分量化数据的feature importance值如下表所示：

表3量化数据feature importance值一览表

数据名称	feature importance值
		B类经营异常	5.0909
注册地址异常-A	4.5844
		中标数量	1.4071
…	…

步骤S003、将量化数据的feature importance值与阈值N进行比较，如果该量化数据的feature importance值大于阈值N，则选定该量化数据为指标数据，在本实施例中，阈值N取0.7；

在本实施例中，假设目标公司的基础评分s与各个指标数据之间呈线性相关关系，即满足拟合函数：

s=w^Tx+b

其中，s为基础评分，w为指标数据对应的权重向量，x为指标数据集合，b 为常数项。

基于基础评分s，添加正则化项L1的平方损失函数对其进行约束，然后基于梯度下降法，设定迭代步长，通过不断迭代使得样本值不断逼近于预测值，当两者之间的差值最小时，则得到量化数据对应的权重。

在本实施例中，将任一指标数据x及其权重a按照a·x+b的形式求其加权平均数据z，该加权平均数据z即为指标数据的加权评分，确定得分之后，对得到的指标数据的加权评分数据z的分布状态进行鉴别，若其加权评分数据z为非左偏的正态分布，则将其调整为左偏的正态分布。

为了更准确、更系统的判别目标公司为空壳公司的可能性，特将目标公司的指标数据的加权平均数据z控制一定的分数区间内；其中，将目标公司的指标数据的加权平均数据z控制在一定的分数区间的映射公式为：

a·z+b＝s

其中：a、b为转换系数，s为基础评分；

在上述实施例中，基于转换系统求解函数组：

a·z_min+b＝min

a·z_max+b＝max

其中，z_min为指标数据的加权平均数据的最小值，

z_max为指标数据的加权平均数据的最小值，

min为目标公司的指标数据的加权平均数据z在一定的分数区间[min， max]中的最小值，max为目标公司的指标数据的加权平均数据z在一定的分数区间[min，max]中的最大值。

在上述实施例中，min为1，max为10。

至此，得到了目标公司的基础评分s，在实际的业务场景中，目标公司还会产生动态数据，所述动态数据包括公司统一社会信用代码、注册地址、法人信息与公司电话；为了提高判别目标公司是否为空壳公司的准确度，因此要对公司的动态数据进行考量。

将目标公司的动态数据与国家工商数据底库中目标公司的数据进行标签匹配，例如：在公司的经营过程中，会出现公司地址变化、法人变更、联系电话等公司动态数据的变更，若目标公司的任一动态数据与工商数据底库中的数据匹配一致，则赋值“0”，反之，则赋值“1”，即当目标公司的任一动态数据与工商数据底库中的数据匹配一致时，则该动态数据的标签匹配值为0，反之，则该动态数据的标签匹配值为1。

进一步地，对标签匹配之为1的动态数据的权重进行拟合，即确定动态数据的标签系数，上述权重拟合的方法与前文所述的指标数据的权重拟合方法一致，故此处不与赘述。

在本实施例中，基于目标公司的基础评分s，结合目标公司的动态指标数据，计算得到目标公司的最终评分y，其中最终评分y的计算公式为：

y＝s+w₁k₁+w₂k₂+…+w_nk_n

本申请还提供一种数据处理装置，包括：数据处理模块，用于获取与目标公司相关的公司信息原数据X，并进行处理得到指标数据；指标数据计算模块，用于基于原数据X处理得到的指标数据，计算各个指标数据对应的权重；基础评分计算模块，用于基于所述任一指标数据及其对应的权重，计算目标公司的基础评分s；最终评分计算模块，用于结合目标公司的动态指标数据和目标公司的基础评分s，计算目标公司的最终评分y。

在实施例中，若目标公司无动态数据，则目标公司的基础评分s即为目标公司的最终评分y。

本申请还提供一种数据处理装置，所述装置包括终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序；所述处理器执行所述计算机程序时实现如上述任意实施例的数据处理方法的步骤。

上述存储器可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory， ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存诸程序代码的介质。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竞以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。

尽管已描述了本发明实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括如下步骤：

对量化数据进行计算处理，得到目标公司的基础评分s；

2.根据权利要求1所述的一种数据处理方法，其特征在于，所述公司信息原数据X包括：公司工商基本信息数据、司法信息数据及经营信息数据；

3.根据权利要求2所述的一种数据处理方法，其特征在于，所述格式化处理包括以下步骤：

步骤S01、计算任一公司信息原数据X_i的缺失值比例R_Xi，设定阈值θ，若R_Xi>阈值θ，则剔除公司信息原数据X_i；

步骤S02、从公司信息原数据X中筛选出具有数值型的特征数据，获取任一数值型的特征数据X_i的百分位数P_Xi，若P_Xi>P_95％或P_Xi<P_5％，则将任一公司信息原数据的平均值X_mean作为数值型的特征数据X_i，并对数值型的特征数据X_i作对数处理；

4.根据权利要求3所述的一种数据处理方法，其特征在于，所述阈值θ为50％；所述空壳公司排除条件包括目标公司为上市公司。

5.根据权利要求2所述的一种数据处理方法，其特征在于，所述量化数据的处理计算包括以下步骤：

6.根据权利要求5所述的一种数据处理方法，其特征在于，

所述阈值m为0.7；

所述阈值N为0.8；

所述min为1，所述max为10；

所述映射函数具体为：

a·z+b＝s

其中：a、b为转换系数。

7.根据权利要求2所述的一种数据处理方法，其特征在于，所述目标公司的动态数据的标签匹配具体包括：将目标公司的动态数据与国家工商数据底库中的数据进行匹配，若匹配一致，则赋值“0”，反之，则赋“1”。

8.根据权利要求2所述的一种数据处理方法，其特征在于，所述最终评分y的计算公式为：

y＝s+w₁k₁+w₂k₂+…+w_nk_n

其中：s为基础评分，k_n为动态数据匹配标签，w_n为动态数据标签系数，n为正整数。

9.一种数据处理装置，其特征在于，所述装置包括：

10.一种数据处理装置，其特征在于，所述装置包括终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序；所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述数据处理方法的步骤。