CN113743752A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN113743752A CN113743752A CN202110971622.9A CN202110971622A CN113743752A CN 113743752 A CN113743752 A CN 113743752A CN 202110971622 A CN202110971622 A CN 202110971622A CN 113743752 A CN113743752 A CN 113743752A
- Authority
- CN
- China
- Prior art keywords
- data
- company
- target company
- information
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 32
- 230000008676 import Effects 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000005856 abnormality Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000007812 deficiency Effects 0.000 claims description 5
- 230000007717 exclusion Effects 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012797 qualification Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000011835 investigation Methods 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 17
- 230000002159 abnormal effect Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种数据处理方法及装置,涉及大数据分析领域。方法包括:获取目标公司的公司信息原数据,并对原数据进行格式化处理,获得统一格式的量化数据;对量化数据进行计算处理,得到目标公司的基础评分s;获取目标公司的动态数据,并对其进行标签匹配,获得目标公司的动态指标数据及其权重;基于目标公司的基础评分s,结合目标公司的动态指标数据,计算得到目标公司的最终评分y。本发明能够提高对公司账户信息排查和交易特征分析的效率和准确度。
Description
技术领域
本发明涉及大数据分析领域,具体涉及一种数据处理方法及装置。
背景技术
目前,急需提供一种数据处理方法,以提高对公司账户信息排查和交易特 征分析的效率和准确度。
发明内容
为了解决上述背景技术中提到的至少一个问题,本发明提供了一种数据处 理方法,能够提高对公司账户信息排查和交易特征分析的效率和准确度。
本发明实施例提供的具体技术方案如下:
一种数据处理方法,所述方法包括如下步骤:
获取目标公司的公司信息原数据X,并对原数据进行格式化处理,获得统 一格式的量化数据;
对量化数据进行计算处理,得到目标公司的基础评分s;
获取目标公司的动态数据,并对其进行标签匹配,获得目标公司的动态指 标数据及其权重;
基于目标公司的基础评分s,结合目标公司的动态指标数据,计算得到目标 公司的最终评分y。
进一步地,所述公司信息原数据X包括:公司工商基本信息数据、司法信 息数据及经营信息数据。
所述司法信息数据包括法院公告、执行公告、行政处罚、开庭公告与裁判 文书;
所述经营信息数据包括公司年报、资质证书、动产质押、发票数据与电力 数据;
所述动态数据包括公司统一社会信用代码、注册地址、法人信息与公司电 话;
所述最终评分y为预定取值范围时判定所述目标公司为空壳公司。
进一步地,所述格式化处理包括以下步骤:
步骤S01、计算任一公司信息原数据Xi的缺失值比例RXi,设定阈值θ,若 RXi>阈值θ,则剔除公司信息原数据Xi;
步骤S02、从公司信息原数据X中筛选出具有数值型的特征数据,获取任 一数值型的特征数据Xi的百分位数PXi,若PXi>P95%或PXi<P5%,则将任一公司 信息原数据的平均值Xmean作为数值型的特征数据Xi,并对数值型的特征数据 Xi作对数处理;
步骤S03、从公司信息原数据X中筛选出具有关联型的特征数据,并对其 进行标签化处理,若存在异常,赋“1”,反之,赋“0”;
步骤S04、基于模糊匹配算法,从公司信息原数据X中筛选出目标公司的 文本型特征数据,并对其进行标签化处理,若存在异常,赋“1”,反之,赋“0”;
步骤S05、从公司信息原数据X中筛选出目标公司的公司性质这一信息数 据,若目标公司的公司性质满足空壳公司排除条件,则直接判定目标公司为非 空壳公司。
进一步地,所述对量化数据进行处理计算包括以下步骤:
步骤S001、基于皮尔森相关系数法对量化数据进行多重共线性分析,若量 化数据之间的相关系数p大于阈值m,则只保留其中一个量化数据;
步骤S002、基于WOE-IV算法和Gini importance算法,排序输出任一量化 数据的feature importance值;
步骤S003、若量化数据的feature importance值大于阈值N,则选定该量化 数据为指标数据;
步骤S004、基于添加正则化项L1的平方损失函数和梯度下降法拟合指标数 据的权重;
步骤S005、将任一指标数据及其对应权重进行加权平均处理以获得加权平 均数据z,并将加权平均数据z进行调整至左偏正态分布;
步骤S006、基于映射函数组将已经构建完成的左偏正态分布的目标公司的 指标数据的加权平均数据z控制在分数区间[min,max]内。
进一步地,所述对目标公司的动态数据进行标签匹配具体包括:将目标公 司的动态数据与国家工商数据底库中的数据进行匹配,若匹配一致,则赋值“0”, 反之,则赋“1”。
进一步地,所述最终评分y的计算公式为:
y=s+w1k1+w2k2+…+wnkn
其中:s为基础评分,kn为动态数据匹配标签,wn为动态数据标签系数,n 为正整数。
进一步地,阈值θ为50%。
进一步地,所述阈值m为0.7;
所述阈值N为0.8;
所述min为1,所述max为10。
所述映射函数具体为:
a·z+b=s
其中:a、b为转换系数;
更进一步地,所述空壳公司排除条件包括目标公司为上市公司。
一种数据处理装置,所述装置包括:
数据处理模块,用于获取与目标公司相关的公司信息原数据X,并进行处 理得到指标数据;
指标数据计算模块,用于基于原数据X处理得到的指标数据,计算各个指 标数据对应的权重;
基础评分计算模块,用于基于所述各个指标数据及其对应的权重,计算目 标公司的基础评分s;
最终评分计算模块,用于结合目标公司的动态指标数据和目标公司的基础 评分s,计算目标公司的最终评分y。
一种数据处理装置,所述装置包括终端设备,包括存储器、处理器以及存 储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所 述计算机程序时实现如前所述数据处理方法的步骤。
本发明实施例具有如下有益效果:
1.实现了对空壳公司风险测评的系统化、智能化、前瞻性评估和追踪研究。
2.本申请使用的评分模型基于企业的实时数据进行更新,因此可以得到更 即时的企业空壳识别评分,且评分会根据企业动态数据的变化而动态更新,这 就促使金融机构能更迅速且客观地对企业是否为空壳公司进行判别,对其风险 准入效率得到了很大提升。
3.提升了空壳公司判别的准确性:本申请使用的评分模型涵盖了发票数据、 电力数据等维度的企业经营数据指标,解决了现有技术中企业真实经营数据缺 失的问题;除此之外,区别于空壳公司结果标签,本申请最终输出空壳公司评 分并可查询重点指标详细数据,可解释性强,有助于业务部门结合专家经验分 析企业真实经营情况,空壳公司判别的准确性得到了很大提升。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图1示出根据本申请实施例提供的一种数据处理方法的流程图;
图2示出根据本申请实施例提供的一种原数据格式化处理的流程图;
图3示出根据本申请实施例提供的一种量化数据处理计算的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描 述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中 的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其 他实施例,都属于本发明保护的范围。
实施例
一种数据处理方法,参照图1-图3,包括以下步骤:
获取目标公司的公司信息原数据Xn,并对原数据进行格式化处理,获得统 一格式的量化数据;对量化数据进行计算处理,得到目标公司的基础评分s;获 取目标公司的动态数据,并对其进行标签匹配,获得目标公司的动态指标数据; 基于目标公司的基础评分s,结合目标公司的动态指标数据,计算得到目标公司 的最终评分y。
在部分实施例中,公司信息原数据X包括公司工商基本信息数据、司法信 息数据及经营信息数据;其中,司法信息数据包括但是不限于法院公告、执行 公告、行政处罚、开庭公告与裁判文书;所述经营信息数据包括但是不限于公 司年报、资质证书、动产质押、行政处罚、发票数据与电力数据。
在上述实施例中,公司信息原数据X可以从财经网站、金融信息服务商或 其他相关公司信息服务商获取。
上述实施例中,所述司法信息数据与经营信息数据可以是目标公司的上一 年度数据或者上一年度至前20年年度数据或者上一年度至前10年数据或者上 一年度至前5年数据等等。
在部分实施例中,所述格式化处理包括以下步骤:
步骤S01、基于数据统计的方法,对目标公司的公司信息原数据X中任一 公司信息原数据Xi的缺失值比例RXi进行计算,例如,在公司原数据的收集过 程中,会存在部分公司信息原数据无法获取,或者是公司信息元数据中的一类 信息的部分年限无法获取的情况,因此需要对确实的部分公司信息原数据的缺 失值比例RXi进行计算,以确保之后计算获得的目标公司的基础评分s的准确性, 当计算得到的任一公司信息原数据Xi的缺失值比例RXi,若计算得到的缺失值比 例RXi的值大于50%,则将该公司信息原数据;
步骤S02、从公司原数据X中筛选出具有数值型的特征数据,其中,数值 型的特征数据包括目标公司近几年内作为原告出现在法院裁判文书中的次数, 发票数据与电力数据等公司信息数据,基于概率论,计算出上述数值型的特征 数据的分数位(percentile),如果计算得到的上述任一数值型数据Xi的分数位(percentile)PXi>95%或PXi<P5%,则将任一公司信息原数据Xi替换为任一公司 信息原数据的平均值Xmean,即将任一公司信息原数据的平均值Xmean作为数值型 的特征数据Xi,在不改变数据的相对关系的前提下,为了缩小数据的绝对数值, 方便下一步的计算,特对数值性的特征数据Xi作对数处理得Xi′,即Xi′=loge(Xi), 其中,任一公司信息数据的平均值Xmean即为所有数值型数据Xi和再除以数值型 数据的个数所得;
步骤S03、从公司信息原数据X中筛选出具有关联型的特征数据,其中, 所述关联型的特征数据包括工商基本信息,所述工商基本信息包括公司法人、 公司股东、公司监事、公司财务负责人、公司高级管理人员及公司注册地址等 等,对上述数据进行对比处理,判断两家或两家以上公司的工商基本信息中的 一个或一个以上信息之间的重合度,例如:若通过模糊匹配,检测到有三个公 司的公司注册地址都为同一个地方,则判定该目标公司存在“注册地异常”, 进一步地,将该信息的匹配标签赋“1”,反之,将该信息的匹配标签赋“0”; 又如:若通过模糊匹配,检测到同一人在5个公司担任高层管理人员,则判定 目标公司存在“人员结构异常”,设定该信息的匹配标签为1,反之,设定该信 息的匹配标签为0;
步骤S04、基于模糊匹配算法,从公司信息原数据X中筛选出目标公司的 文本型特征数据,其中,所述文本型特征数据包括法院公告、执行公告、开庭 公告与裁判文书等司法信息,并对其进行标签化处理,例如:若检测到目标公 司存在“未在规定期限内公示年度报告”类型的经营异常,则基于模糊匹配算 法,则认定该目标公司存在异常,则将该类经营信息数据的匹配标签赋值为“1”, 反之则将该经营信息数据的匹配标签赋值为“0”;
步骤S05、从公司信息原数据X中筛选出目标公司的公司性质这一信息数 据做变量排除处理,例如:若目标公司显示为A股上市公司,则直接判定目标 公司的经营正常,直接排除目标公司为空壳公司的可能性。
在部分实施例中,所述量化数据的处理计算包括以下步骤:
步骤S001、基于皮尔森相关系数法对量化数据进行多重共线性分析,上述 多重共线性的含义为,在对自变量进行线性回归分析时,自变量之间彼此相关 的现象,相关系数p的取值介于-1到1之间,相关系数p的绝对值越大;
在部分实施例中,设定量化变量之间的相关系数p的阈值m为0.7,若量化 变量之间的相关系数p大于阈值m,则只保留其中一个量化数据,例如:此处 以目标公司近3月列入经营异常次数、近6月列入经营异常次数与近12月列入 经营异常次数为例进行说明,
表1.数据变量表
组别 | 数据变量 | 数据变量 |
组别一 | 近3月列入经营异常次数 | 近6月列入经营异常次数 |
组别二 | 近3月列入经营异常次数 | 近12月列入经营异常次数 |
组别三 | 近6月列入经营异常次数 | 近12月列入经营异常次数 |
若组别一、组别二、组别三的相关系数p大于阈值0.7,则随机删除其中组 别三的两个数据变量;若组别一和组别二的相关系数p大于阈值0.7,则随机删 除其中组别一和组别二中共有的一个数据变量;若只有其中一个组别的相关系 数p大于阈值0.7,则随机删除该组别中的其中一个数据变量。
步骤S002、基于WOE-IV算法和Gini importance算法,排序输出任一量化 数据的feature importance值;
在本实施例中,显示获取目标公司的量化数据对应的WOE值,在此对目标 公司的量化数据的数量不作具体限定,应由本领域技术人员根据实际情况作出 相应的设定。目标公司的每个量化数据都对应一个WOE值,由于对量化数据的 数量不作限定,故WOE值的数量也不作限定,但是必须保证对于目标公司而言, 每个量化数据只能对应一个目标WOE值,即量化数据和目标WOE值的数量是 相同的。其中,WOE(Weight of Evidence)即证据权重,是量化数据取某个 值的时候对问题比例的一种影响。
获取目标公司的各个量化数据之后,将目标公司的所有量化数据对应的数 据进行数据分箱和格式转换处理,得到目标公司各个分箱对应的WOE值。在此 对数据分箱的方式不作具体限定,应由本领域技术人员根据实际情况作出相应 的设定,通常对于关联型数据主要有等距分箱、分位数分箱以及基于一定的指 标的最优分箱等数据分箱方式,对于文本型数据的主要数据分箱方式有两种: 一种是手动进行,将含义不明的指标合并;一种是最优降低基数法,与关联型 数据的最优分箱法类似。其中,WOE越大,这个分箱里的样本响应的可能性就 越大,WOE越小,分箱内样本响应的可能性越低。由于评分采用线性回归模型, 入模数据需呈现单调性。因此,在计算出每个分箱的WOE值后,需同时校验训 练数据和测试的WOE是否呈现单调性,若非单调且在业务中无法解释,需要修 改或合并分箱,从而使WOE呈现单调。
在获取目标公司各个量化数据对应的初始分箱数据之后,利用目标公司各 个量化数据对应的初始分箱数据计算出初始分箱数据对应的IV值,根据IV值 与预设的合理区间之间的归属关系,从目标公司的各个量化数据对应的初始分 享数据中筛选出目标公司各个量化数据对应的分箱数据,最后基于WOE编码计 算特征IV值进行特征排序。其中,IV(Information Value)值即为信息价值,衡量 的是某一个指标的信息量,可以表征为WOE值的加权求和,其值的大小决定了 自变量对于目标变量的影响程度,部分具有预测能力的量化数据如下表所示:
表2量化数据信息价值表
数据名称 | IV值 |
注册地址异常-A | 0.3502 |
人员结构异常 | 0.2734 |
实缴资本金额 | 0.2680 |
… | … |
进一步地,计算得到目标公司各个量化数据的Gini importance值,即针对 每一个量化数据训练随机森林模型,同济随机森林模型的每一个决策树,当前 特征形成的分支节点的基尼指数下降程度之和,即为各个量化数据的Gini importance值,更近一步地,对Gini importance值进行排序,输出目标公司的各 个量化数据的feature importance值,部分量化数据的feature importance值如下 表所示:
表3量化数据feature importance值一览表
数据名称 | feature importance值 |
B类经营异常 | 5.0909 |
注册地址异常-A | 4.5844 |
中标数量 | 1.4071 |
… | … |
步骤S003、将量化数据的feature importance值与阈值N进行比较,如果该 量化数据的feature importance值大于阈值N,则选定该量化数据为指标数据, 在本实施例中,阈值N取0.7;
步骤S004、基于添加正则化项L1的平方损失函数和梯度下降法拟合指标数 据的权重;
在本实施例中,假设目标公司的基础评分s与各个指标数据之间呈线性相关 关系,即满足拟合函数:
s=wTx+b
其中,s为基础评分,w为指标数据对应的权重向量,x为指标数据集合,b 为常数项。
基于基础评分s,添加正则化项L1的平方损失函数对其进行约束,然后基 于梯度下降法,设定迭代步长,通过不断迭代使得样本值不断逼近于预测值, 当两者之间的差值最小时,则得到量化数据对应的权重。
步骤S005、将任一指标数据及其对应权重进行加权平均处理以获得加权平 均数据z,并将加权平均数据z进行调整至左偏正态分布;
在本实施例中,将任一指标数据x及其权重a按照a·x+b的形式求其加权 平均数据z,该加权平均数据z即为指标数据的加权评分,确定得分之后,对得 到的指标数据的加权评分数据z的分布状态进行鉴别,若其加权评分数据z为非 左偏的正态分布,则将其调整为左偏的正态分布。
步骤S006、基于映射函数组将已经构建完成的左偏正态分布的目标公司的 指标数据的加权平均数据z控制在分数区间[min,max]内。
为了更准确、更系统的判别目标公司为空壳公司的可能性,特将目标公司 的指标数据的加权平均数据z控制一定的分数区间内;其中,将目标公司的指 标数据的加权平均数据z控制在一定的分数区间的映射公式为:
a·z+b=s
其中:a、b为转换系数,s为基础评分;
在上述实施例中,基于转换系统求解函数组:
a·zmin+b=min
a·zmax+b=max
其中,zmin为指标数据的加权平均数据的最小值,
zmax为指标数据的加权平均数据的最小值,
min为目标公司的指标数据的加权平均数据z在一定的分数区间[min, max]中的最小值,max为目标公司的指标数据的加权平均数据z在一定的分数 区间[min,max]中的最大值。
在上述实施例中,min为1,max为10。
至此,得到了目标公司的基础评分s,在实际的业务场景中,目标公司还会 产生动态数据,所述动态数据包括公司统一社会信用代码、注册地址、法人信 息与公司电话;为了提高判别目标公司是否为空壳公司的准确度,因此要对公 司的动态数据进行考量。
将目标公司的动态数据与国家工商数据底库中目标公司的数据进行标签匹 配,例如:在公司的经营过程中,会出现公司地址变化、法人变更、联系电话 等公司动态数据的变更,若目标公司的任一动态数据与工商数据底库中的数据 匹配一致,则赋值“0”,反之,则赋值“1”,即当目标公司的任一动态数据 与工商数据底库中的数据匹配一致时,则该动态数据的标签匹配值为0,反之, 则该动态数据的标签匹配值为1。
进一步地,对标签匹配之为1的动态数据的权重进行拟合,即确定动态数 据的标签系数,上述权重拟合的方法与前文所述的指标数据的权重拟合方法一 致,故此处不与赘述。
在本实施例中,基于目标公司的基础评分s,结合目标公司的动态指标数据, 计算得到目标公司的最终评分y,其中最终评分y的计算公式为:
y=s+w1k1+w2k2+…+wnkn
其中:s为基础评分,kn为动态数据匹配标签,wn为动态数据标签系数,n 为正整数。
本申请还提供一种数据处理装置,包括:数据处理模块,用于获取与目标 公司相关的公司信息原数据X,并进行处理得到指标数据;指标数据计算模块, 用于基于原数据X处理得到的指标数据,计算各个指标数据对应的权重;基础 评分计算模块,用于基于所述任一指标数据及其对应的权重,计算目标公司的 基础评分s;最终评分计算模块,用于结合目标公司的动态指标数据和目标公司 的基础评分s,计算目标公司的最终评分y。
在实施例中,若目标公司无动态数据,则目标公司的基础评分s即为目标公 司的最终评分y。
本申请还提供一种数据处理装置,所述装置包括终端设备,包括存储器、 处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序;所述 处理器执行所述计算机程序时实现如上述任意实施例的数据处理方法的步骤。
上述存储器可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种 可以存诸程序代码的介质。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例 的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清 楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了 各示例的组成及步骤。这些功能究竞以硬件还是软件方式来执行,取决于技术方 案的特定应用和设计约束条件。
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦 得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所 附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变 更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发 明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括如下步骤:
获取目标公司的公司信息原数据X,并对原数据进行格式化处理,获得统一格式的量化数据;
对量化数据进行计算处理,得到目标公司的基础评分s;
获取目标公司的动态数据,并对其进行标签匹配,获得目标公司的动态指标数据及其权重;
基于目标公司的基础评分s,结合目标公司的动态指标数据,计算得到目标公司的最终评分y。
2.根据权利要求1所述的一种数据处理方法,其特征在于,所述公司信息原数据X包括:公司工商基本信息数据、司法信息数据及经营信息数据;
所述司法信息数据包括法院公告、执行公告、行政处罚、开庭公告与裁判文书;
所述经营信息数据包括公司年报、资质证书、动产质押、发票数据与电力数据;
所述动态数据包括公司统一社会信用代码、注册地址、法人信息与公司电话;
所述最终评分y为预定取值范围时判定所述目标公司为空壳公司。
3.根据权利要求2所述的一种数据处理方法,其特征在于,所述格式化处理包括以下步骤:
步骤S01、计算任一公司信息原数据Xi的缺失值比例RXi,设定阈值θ,若RXi>阈值θ,则剔除公司信息原数据Xi;
步骤S02、从公司信息原数据X中筛选出具有数值型的特征数据,获取任一数值型的特征数据Xi的百分位数PXi,若PXi>P95%或PXi<P5%,则将任一公司信息原数据的平均值Xmean作为数值型的特征数据Xi,并对数值型的特征数据Xi作对数处理;
步骤S03、从公司信息原数据X中筛选出具有关联型的特征数据,并对其进行标签化处理,若存在异常,赋“1”,反之,赋“0”;
步骤S04、基于模糊匹配算法,从公司信息原数据X中筛选出目标公司的文本型特征数据,并对其进行标签化处理,若存在异常,赋“1”,反之,赋“0”;
步骤S05、从公司信息原数据X中筛选出目标公司的公司性质这一信息数据,若目标公司的公司性质满足空壳公司排除条件,则直接判定目标公司为非空壳公司。
4.根据权利要求3所述的一种数据处理方法,其特征在于,所述阈值θ为50%;所述空壳公司排除条件包括目标公司为上市公司。
5.根据权利要求2所述的一种数据处理方法,其特征在于,所述量化数据的处理计算包括以下步骤:
步骤S001、基于皮尔森相关系数法对量化数据进行多重共线性分析,若量化数据之间的相关系数p大于阈值m,则只保留其中一个量化数据;
步骤S002、基于WOE-IV算法和Gini importance算法,排序输出任一量化数据的feature importance值;
步骤S003、若量化数据的feature importance值大于阈值N,则选定该量化数据为指标数据;
步骤S004、基于添加正则化项L1的平方损失函数和梯度下降法拟合指标数据的权重;
步骤S005、将任一指标数据及其对应权重进行加权平均处理以获得加权平均数据z,并将加权平均数据z进行调整至左偏正态分布;
步骤S006、基于映射函数组将已经构建完成的左偏正态分布的目标公司的指标数据的加权平均数据z控制在分数区间[min,max]内。
6.根据权利要求5所述的一种数据处理方法,其特征在于,
所述阈值m为0.7;
所述阈值N为0.8;
所述min为1,所述max为10;
所述映射函数具体为:
a·z+b=s
其中:a、b为转换系数。
7.根据权利要求2所述的一种数据处理方法,其特征在于,所述目标公司的动态数据的标签匹配具体包括:将目标公司的动态数据与国家工商数据底库中的数据进行匹配,若匹配一致,则赋值“0”,反之,则赋“1”。
8.根据权利要求2所述的一种数据处理方法,其特征在于,所述最终评分y的计算公式为:
y=s+w1k1+w2k2+…+wnkn
其中:s为基础评分,kn为动态数据匹配标签,wn为动态数据标签系数,n为正整数。
9.一种数据处理装置,其特征在于,所述装置包括:
数据处理模块,用于获取与目标公司相关的公司信息原数据X,并进行处理得到指标数据;
指标数据计算模块,用于基于原数据X处理得到的指标数据,计算各个指标数据对应的权重;
基础评分计算模块,用于基于所述各个指标数据及其对应的权重,计算目标公司的基础评分s;
最终评分计算模块,用于结合目标公司的动态指标数据和目标公司的基础评分s,计算目标公司的最终评分y。
10.一种数据处理装置,其特征在于,所述装置包括终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序;所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述数据处理方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110971622.9A CN113743752A (zh) | 2021-08-23 | 2021-08-23 | 一种数据处理方法及装置 |
CA3170618A CA3170618A1 (en) | 2021-08-23 | 2022-08-17 | Data processing method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110971622.9A CN113743752A (zh) | 2021-08-23 | 2021-08-23 | 一种数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113743752A true CN113743752A (zh) | 2021-12-03 |
Family
ID=78732379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110971622.9A Withdrawn CN113743752A (zh) | 2021-08-23 | 2021-08-23 | 一种数据处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113743752A (zh) |
CA (1) | CA3170618A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757885B (zh) * | 2023-07-06 | 2024-04-23 | 北京中知智慧科技有限公司 | 一种企业知识产权维度评审系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104240326A (zh) * | 2013-06-06 | 2014-12-24 | 广州汽车集团股份有限公司 | 车辆经济驾驶评价服务器及车辆驾驶管理方法 |
CN106295202A (zh) * | 2016-08-15 | 2017-01-04 | 夏茂 | 基于Hale指数的青少年健康状况动态分析方法 |
CN106779457A (zh) * | 2016-12-29 | 2017-05-31 | 深圳微众税银信息服务有限公司 | 一种企业信用评估方法及系统 |
CN107403344A (zh) * | 2017-08-03 | 2017-11-28 | 浙江极赢信息技术有限公司 | 一种互联网活动效果的分析方法及装置 |
CN109118119A (zh) * | 2018-09-06 | 2019-01-01 | 多点生活(成都)科技有限公司 | 风控模型生成方法及装置 |
CN109657978A (zh) * | 2018-12-19 | 2019-04-19 | 重庆誉存大数据科技有限公司 | 一种风险识别方法和系统 |
CN110516818A (zh) * | 2019-05-13 | 2019-11-29 | 南京江行联加智能科技有限公司 | 一种基于集成学习技术的高维度数据预测方法 |
CN111178614A (zh) * | 2019-12-24 | 2020-05-19 | 成都数联铭品科技有限公司 | 一种企业风险的预测方法及系统 |
CN111460312A (zh) * | 2020-06-22 | 2020-07-28 | 上海冰鉴信息科技有限公司 | 空壳企业识别方法、装置及计算机设备 |
CN111506798A (zh) * | 2020-03-04 | 2020-08-07 | 平安科技(深圳)有限公司 | 用户筛选方法、装置、设备及存储介质 |
CN112200592A (zh) * | 2020-10-26 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 一种空壳公司识别方法、装置及设备 |
CN112541698A (zh) * | 2020-12-22 | 2021-03-23 | 北京中数智汇科技股份有限公司 | 基于企业外部特征识别企业风险的方法和系统 |
CN112734161A (zh) * | 2020-12-17 | 2021-04-30 | 企查查科技有限公司 | 精准识别空壳企业的方法、设备和存储介质 |
-
2021
- 2021-08-23 CN CN202110971622.9A patent/CN113743752A/zh not_active Withdrawn
-
2022
- 2022-08-17 CA CA3170618A patent/CA3170618A1/en active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104240326A (zh) * | 2013-06-06 | 2014-12-24 | 广州汽车集团股份有限公司 | 车辆经济驾驶评价服务器及车辆驾驶管理方法 |
CN106295202A (zh) * | 2016-08-15 | 2017-01-04 | 夏茂 | 基于Hale指数的青少年健康状况动态分析方法 |
CN106779457A (zh) * | 2016-12-29 | 2017-05-31 | 深圳微众税银信息服务有限公司 | 一种企业信用评估方法及系统 |
CN107403344A (zh) * | 2017-08-03 | 2017-11-28 | 浙江极赢信息技术有限公司 | 一种互联网活动效果的分析方法及装置 |
CN109118119A (zh) * | 2018-09-06 | 2019-01-01 | 多点生活(成都)科技有限公司 | 风控模型生成方法及装置 |
CN109657978A (zh) * | 2018-12-19 | 2019-04-19 | 重庆誉存大数据科技有限公司 | 一种风险识别方法和系统 |
CN110516818A (zh) * | 2019-05-13 | 2019-11-29 | 南京江行联加智能科技有限公司 | 一种基于集成学习技术的高维度数据预测方法 |
CN111178614A (zh) * | 2019-12-24 | 2020-05-19 | 成都数联铭品科技有限公司 | 一种企业风险的预测方法及系统 |
CN111506798A (zh) * | 2020-03-04 | 2020-08-07 | 平安科技(深圳)有限公司 | 用户筛选方法、装置、设备及存储介质 |
CN111460312A (zh) * | 2020-06-22 | 2020-07-28 | 上海冰鉴信息科技有限公司 | 空壳企业识别方法、装置及计算机设备 |
CN112200592A (zh) * | 2020-10-26 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 一种空壳公司识别方法、装置及设备 |
CN112734161A (zh) * | 2020-12-17 | 2021-04-30 | 企查查科技有限公司 | 精准识别空壳企业的方法、设备和存储介质 |
CN112541698A (zh) * | 2020-12-22 | 2021-03-23 | 北京中数智汇科技股份有限公司 | 基于企业外部特征识别企业风险的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CA3170618A1 (en) | 2023-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108876600B (zh) | 预警信息推送方法、装置、计算机设备和介质 | |
CN103154991B (zh) | 信用风险采集 | |
Antunes et al. | Firm default probabilities revisited | |
CN110704730B (zh) | 基于大数据的产品数据推送方法、系统及计算机设备 | |
CN112668859A (zh) | 基于大数据的客户风险评级方法、装置、设备及存储介质 | |
CN110738527A (zh) | 一种特征重要性排序方法、装置、设备和存储介质 | |
Svabova et al. | Prediction model of firms financial distress | |
CN113822488A (zh) | 融资租赁的风险预测方法、装置、计算机设备及存储介质 | |
CN112950347A (zh) | 资源数据处理的优化方法及装置、存储介质、终端 | |
Kim et al. | Predicting corporate defaults using machine learning with geometric-lag variables | |
Korol | The implementation of fuzzy logic in forecasting financial ratios | |
CN113743752A (zh) | 一种数据处理方法及装置 | |
Sheikhi et al. | Financial distress prediction using distress score as a predictor | |
CN112950359A (zh) | 一种用户识别方法和装置 | |
CN116385151A (zh) | 基于大数据进行风险评级预测的方法及计算设备 | |
Yang et al. | An evidential reasoning rule-based ensemble learning approach for evaluating credit risks with customer heterogeneity | |
Lee et al. | Application of machine learning in credit risk scorecard | |
Witkowska | Discrete choice model application to the credit risk evaluation | |
CN115409226A (zh) | 一种数据处理方法和数据处理系统 | |
CN113450116A (zh) | 一种交易风险分析方法、装置、电子设备及存储介质 | |
Balina et al. | Assessing individual credit risk on the basis of discriminant analysis by Poland's cooperative banks | |
CN118195407B (zh) | 一种基于大数据的产品分类关联方法及系统 | |
CN113282886B (zh) | 基于逻辑回归的银行对公贷款违约判别方法 | |
Hassan et al. | Non-Financial Human Capital Disclosure and Share Price | |
Shen et al. | Modelling the predictive performance of credit scoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211203 |