CN113159084B - 一种空壳企业确定方法及装置、空壳企业监测方法及装置 - Google Patents
一种空壳企业确定方法及装置、空壳企业监测方法及装置 Download PDFInfo
- Publication number
- CN113159084B CN113159084B CN202011513583.XA CN202011513583A CN113159084B CN 113159084 B CN113159084 B CN 113159084B CN 202011513583 A CN202011513583 A CN 202011513583A CN 113159084 B CN113159084 B CN 113159084B
- Authority
- CN
- China
- Prior art keywords
- samples
- positive
- sample set
- sample
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012544 monitoring process Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 58
- 230000005611 electricity Effects 0.000 claims description 28
- 238000009826 distribution Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000012806 monitoring device Methods 0.000 claims 1
- 238000003860 storage Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种空壳企业确定方法及装置、空壳企业监测方法及装置。该空壳企业确定方法包括:从全量样本中选取出m个样本作为训练样本集;从训练样本集中选出n个正样本作为第一正样本集,并从第一正样本集中选取出s个正样本作为第二正样本集;对第二正样本集中所有正样本进行标记作为标签样本,将训练样本集中其他未标记的m‑s个样本作为无标签样本;利用训练样本集,且以是否为标签样本来训练预设分类器;利用已经训练好的预设分类器对全量样本进行预测,从而获得全量样本中各样本为正样本的概率值以及根据该概率值确定的分类结果;在分类结果是确定为正样本时,确定对应的样本为空壳企业。本发明方案可以准确地确定出某个样本是否为空壳公司。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种空壳企业确定方法、装置、空壳企业监测方法及装置。
背景技术
据相关研究机构分析,2019年底中国空壳公司数量超过450万家,每10家企业中即有1家疑似空壳公司;近一年指向中性或负面目的所设立的空壳公司增速达25%。
目前法律上对空壳企业没有一个明确的定义。对企业传统意义上的监测基本依赖工商、税务、社保、质监等数据给出相关的参考信息。常见的企业空壳监测方法有:
1.人工解读:具有相关专业知识的人士对企业数据指标进行分析解读。这种方式存在着成本高,效率低下等问题。
2.传统的统计学模型:这种方法存在着诸多问题,比如筛选条件依赖专家经验人工定义,而经验的主观性和局限性导致了筛选条件必然存在偏差;条件死板导致分类的准确率低下;只能看到分类结果而无法得到概率、可信度等更多信息。
3.机器学习方法建模:该方法需要对企业的各种数据及指标进行分析,通过建模对企业的空壳风险进行评估。常用的机器学习方法包含有监督学习、半监督学习和无监督学习。传统的监督学习方法,需要企业明确的空壳和非空壳标签,而对企业添加空壳和非空壳标识需要消耗大量的时间和人力。无监督学习则因为正负样本边界模糊和数据分布不均匀等问题,导致分类的可靠性不足。
发明内容
本申请的一个目的在于提供一种建模以及模型训练效率高、结果准确的空壳企业确定方法。
本申请的一个进一步的目的在于进一步提高模型预测结果的准确性以及可靠性。
特别地,本申请提供了一种空壳企业确定方法,包括如下步骤:
从全量样本中选取出m个样本作为训练样本集;
从所述训练样本集中按照一预设条件筛选出n个正样本作为第一正样本集,并从所述第一正样本集中选取出s个正样本作为第二正样本集;
对所述第二正样本集中所有正样本进行标记,并将已经标记的所述第二正样本集中所有正样本作为标签样本,将训练样本集中其他未标记的m-s个样本作为无标签样本;
利用所述训练样本集,且以是否为所述标签样本来训练预设分类器;
利用已经训练好的所述预设分类器对所述全量样本进行预测,从而获得所述全量样本中各样本为正样本的概率值以及根据该概率值确定的分类结果,所述分类结果包括确定为正样本和确定为负样本;
在所述分类结果是确定为正样本时,确定对应的样本为空壳企业。
可选地,利用已经训练好的所述预设分类器对所述全量样本进行预测,从而获得所述全量样本中各样本为正样本的概率值以及根据该概率值确定的分类结果,包括如下步骤:
利用已经训练好的所述预设分类器对所述全量样本进行预测,获得所述全量样本中各样本为所述标签样本的概率值Pj,其中,Pj为第j个样本为所述标签样本的概率值;
根据所述概率值Pj以及利用已经训练好的所述预设分类器进行预测并计算获得的正样本为所述标签样本的平均概率值P+,获得第j个样本被标记的实际概率值Pj’;
将所述实际概率值Pj’与一预设概率值P0进行比较,在Pj’>P0时,确定该第j个样本为正样本,否则为负样本。
可选地,所述平均概率值P+按照如下方法获取:
利用已经训练好的所述预设分类器对所有标签样本进行预测,获得每个标签样本被标记的概率值Rj,其中,Rj为第j个标签样本被标记的概率值;
按照公式P+=(R1+R2+…+Rj+…+Rs)/s,计算获得所述平均概率值P+;
可选地,根据所述概率值Pj以及利用所述已经训练好的所述预设分类器进行预测并计算获得的正样本为所述标签样本的平均概率值P+,获得第j个样本被标记的实际概率值Pj’的步骤中,按照公式Pj’=Pj/P+计算获得第j个样本被标记的实际概率值Pj’。
可选地,从全量样本中选取出m个样本作为第一训练样本集的步骤中,选择无放回随机抽样或分层随机抽样的方式从所述全量样本中选出所述第一训练样本集;
可选地,所述从所述第一训练样本集中按照一预设条件筛选出n个正样本作为第一正样本集的步骤中,所述预设条件为能够明确确定出是空壳公司的特征字段。
可选地,所述预设条件为同时满足以下公式一和公式二的条件:
其中,Ii,n满足以下公式:
Un满足以下公式:
其中,Ei,n表示某个行业中第n个企业在所取的连续的12个月中第i个月的用电量,Li为该行业中所有企业在所取的连续的12个月中第i个月用电量的均值的最低水平临界值,M为常数,i为1-12中任一值。
可选地,所述Li满足以下公式:
其中,ei表示该行业中所有企业在所取的连续的12个月中第i个月的用电量的均值,其满足以下公式:
其中,a和b均为常数。
可选地,所述从所述第一正样本集中选取出s个正样本作为第二正样本集的步骤中,所述s个正样本的特征分布与所述n个正样本的特征分布基本上保持一致,以使所述第二正样本集对于所述第一正样本集具有代表性。
可选地,还包括如下步骤:
获取所述训练样本集中所有训练样本的大类特征,所述大类特征包括企业月用电量特征、企业行业特征、企业规模特征和企业的地理区域特征;
从每个所述大类特征中提取出至少一个具体特征;
对所有大类特征以及对应的具体特征进行数据处理,从而确定训练所述预设分类器所需的特征;
可选地,所述企业月用电量特征至少包括以下任一个或多个的特征:
En,max=max(E1,n,E2,n,...E12,n)
En,min=min(E1,n,E2,n,...E12,n)
其中,I为指示函数。
可选地,对所有大类特征以及对应的具体特征进行数据处理的步骤中,所述数据处理包括特征分析、数据溯源、数据质量核查、数据清洗、数据分类、数据计算和数据合并处理;
可选地,通过所述特征分析和所述数据溯源确定训练所述分类器所需的数据表以及该数据表中对应的字段信息;
可选地,所述数据质量核查包括对所述数据表中的关键字段进行总量统计、空值计算、异常值统计以及重复值统计;
可选地,所述数据清洗包括对经所述数据质量核查后的数据表进行初次去重、异常值标注、空值填充或删除、二次去重和异常值填充。
相应地,本发明还提供了一种空壳企业确定装置,包括第一处理器以及第一存储器:
所述第一存储器用于存储第一程序代码,并将所述第一程序代码传输给所述第一处理器;
所述第一处理器用于根据所述第一程序代码中的指令执行前述的空壳企业确定方法。
特别地,本发明还提供了一种空壳企业监测方法,包括如下步骤:
利用前述的空壳企业确定方法生成结果清单表,所述结果清单表中包括全量样本中的各样本为正样本的概率值、根据该概率值确定的分类结果以及关联出的对应的企业信息;
对所述结果清单表进行统计分析,生成空壳企业在不同行业以及不同地区的结果分析报告。
相应地,本发明还提供了一种空壳企业监测装置,包括第二处理器以及第二存储器:
所述第二存储器用于存储第二程序代码,并将所述第二程序代码传输给所述第二处理器;
所述第二处理器用于根据所述第二程序代码中的指令执行前述的空壳企业监测方法。
根据本发明实施例的方案,通过从M个训练样本中筛选出N个正样本,并对N样本进行标记,从而使得后续训练时,可以以训练样本是否为被标记的标签样本来训练预设分类器,从而极大地减小了训练时的样本数,提高训练预设分类器的效率,并通过利用预测获得全量样本中各样本为正样本的概率值来确定分类结果,从而可以准确地确定出某个样本是否为正样本,即是否为空壳公司。
进一步地,在已经训练好的所述预设分类器建立完成之后,利用该已经训练好的所述预设分类器对所有标签样本进行预测,最后求得正样本为标签样本的平均概率值P+,再根据全量样本中各样本为标签样本的概率值Pj和平均概率值P+,按照Pj’=Pj/P+公式请求第j个样本被标记的实际概率值Pj’,从而更加准确地获得每个样本的被标记的实际概率值,从而获得精确的分类结果,增加根据该已经训练好的所述预设分类器预测的结果的准确性以及可靠性。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1示出了根据本发明一个实施例的空壳企业确定方法的示意性流程图;
图2示出了图1所示步骤S500的示意性流程图;
图3示出了根据本发明一个实施例的空壳企业监测方法的示意性流程图;
图4示出了根据本发明一个实施例的服务器的示意性结构图;
图5示出了根据本发明一个实施例的用于空壳企业确定和/或空壳企业监测的终端设备的示意性结构图。
具体实施方式
图1示出了根据本发明一个实施例的空壳企业确定方法的示意性流程图。如图1所示,该空壳企业确定方法包括:
步骤S100,从全量样本中选取出m个样本作为训练样本集;
步骤S200,从训练样本集中按照一预设条件筛选出n个正样本作为第一正样本集,并从第一正样本集中选取出s个正样本作为第二正样本集;
步骤S300,对第二正样本集中所有正样本进行标记,并将已经标记的第二正样本集中所有正样本作为标签样本,将训练样本集中其他未标记的m-s个样本作为无标签样本;
步骤S400,利用训练样本集,且以是否为标签样本来训练预设分类器;
步骤S500,利用已经训练好的所述预设分类器对全量样本进行预测,从而获得全量样本中各样本为正样本的概率值以及根据该概率值确定的分类结果,分类结果包括确定为正样本和确定为负样本;
在分类结果是确定为正样本时,确定对应的样本为空壳企业。
根据本发明实施例的方案,通过从训练样本集中筛选出n个正样本作为第一正样本集,并对第一正样本集中所有样本进行标记,从而使得后续训练时,可以以样本是否为被标记的标签样本来训练预设分类器,从而极大地减小了训练时的样本数,提高训练预设分类器的效率,并通过利用预测获得全量样本中各样本为正样本的概率值来确定分类结果,从而可以准确地确定出某个样本是否为正样本,即是否为空壳公司。
在步骤S100之前,需要获取全量样本,至少获取训练样本的用于建立已经训练好的所述预设分类器的特征。包括如下步骤:
第一步:空壳企业概念定义
通过对空壳企业的相关信息的调研,得到空壳企业的主要特征,并给出了空壳企业的客观定义标准,即为已经登记注册,且在一年内没有进行过实际生产活动的企业。
第二步:特征分析和数据溯源
结合空壳企业不进行生产和随时间变化的特性,以及可以获取的数据,选取了企业用电量、企业规模、地区分布、行业分布共计四个大类特征,并在每个大类特征中提取一个或者多个具体特征。
在选取了具体特征后,对建立特征所需要的信息进行数据溯源,确定最终需要的数据表和表中对应的字段信息,以满足建立特征的要求。
例如,在建立企业规模特征时,根据企业用电规模将所有的企业划分为小微企业和电力规模以上企业,该电力规模以上企业简称规上企业。划分企业规模所需要特征以选取主客户信息表中的运行容量和合同容量。
第三步:数据质量核查和数据清洗
遍历并核查国网总部数据中各省提供数据质量,核查过程包括,对相应数据表中的关键字段进行总量统计、空值统计、异常值统计,重复值统计等处理。
选取数据质量合格省份的对应数据表做进一步的清洗工作。数据清洗包括初次去重,异常值标注,空值填充(或删除),二次去重,异常值填充等环节。最终将数据处理到可以直接计算并建立特征的程度。
例如,通过数据质量核查,选择四川等省的数据作为初期的整体样本。特征中所需最重要的月用电量(t_pq)在应收电费信息表中,清洗工作如下:
(1)该表在省公司上传或其他环节中产生了部分的重复数据,因此进行初次去重,即所有字段均发生重复的数据只保留一条;
(2)月用电量中存在大量的负值,与实际情况不符,将所有负用电量统一标注为-1(标注为-1)是为了方便后续的计算;
(3)将与t_pq相关联的时间字段(rcvbl_ym)为空值的所有数据全部删除,将全部企业用户(cons_no)对应的全部时间中月电量(t_pq)的空值(包括N/和不存在的数据)全部置零;
(4)将单用户多电表(单一用户每月产生相同数量的t_pq)的同月份月用电量进行加和,将其他情况(单一用户每月产生不同数量的t_pq)月用电量标注为-1(即异常值);
(5)将月用电量为-1的异常值,用该用户12个月中非异常值的平均值填充。
第四步:特征工程
利用处理好的字段信息,经过数据分类、数据计算以及数据合并等处理,建立训练模型所用的特征。
例如,在四川的模型中,共四大类特征,分别为:
(1)企业用电量特征:包括企业过去一年内月度用电的平均值、标准差、最大值、最小值,以及企业12个月的用电量在它所属行业的月均用电量不同区间中的分布情况;
(2)企业行业特征:根据企业所属行业的行业编码确定,根据国民经济行业分类(GB/T 4754—2017)和业务分析需求确定所需的分类特征;
(3)企业规模特征:根据合同容量确定,包括规上企业和小微企业的分类特征;
(4)企业的地理区域特征:根据地市级供电公司的编码确定。
其中,在一个优选的实施例中,该企业月用电量特征至少包括以下任一个或多个的特征:
En,maX=max(E1,n,E2,n,...E12,n)
En,min=min(E1,n,E2,n,...E12,n)
其中,I为指示函数,即当输入为True的时候,输出为1,输入为False的时候,输出为0。也就是说,当I函数满足其括号内的条件时,则确定输入为True,输出的结果为1,否则,确定输入为False,输出为0。
在步骤S100中,是从全量样本中按照无放回随机抽样或分层随机抽样的方式随机选取出第一训练样本集,该训练样本集中样本的数量占全量样本数量的30%-70%中任一值。可以根据实际需要选取训练样本占全量样本的比值。通过选择无放回随机抽样或分层随机抽样的抽样方式可以确保第一训练样本集具有代表性。
在步骤S200中,该预设条件为比较严格的条件,可以通过该条件明确确定出是空壳公司,例如该预设条件可以是能够明确确定出是空壳公司的特征字段。优选地,该预设条件中的特征维度与训练特征的维度不同。
在一个实施例中,该预设条件为同时满足以下公式一和公式二的条件:
其中,Ii,n满足以下公式:
Un满足以下公式:
其中,Ei,n表示某个行业中第n个企业在所取的连续的12个月中第i个月的用电量,Li为该行业中所有企业在所取的连续的12个月中第i个月用电量的均值的最低水平临界值,M为常数,i为1-12中任一值。
可选地,所述Li满足以下公式:
其中,ei表示该行业中所有企业在所取的连续的12个月中第i个月的用电量的均值,其满足以下公式:
其中,a和b均为常数。
其中,对于在所取的连续的12个月中第i个月的用电量的理解,以下以一个示例进行解释:例如,需要获取2020年11月份的用电量,那么从2020年11月份向前推12个月,即推到2019年12月份,那么在所取的连续的12个月中第i个月的用电量就是指,这12个月中第i个月的用电量,假如i=3,那么在所取的连续的12个月中第3个月的用电量就是指2020年2月份的用电量。
当同时满足以上公式一和公式二的条件时,可以确定为空壳公司,即为正样本。其中,a可以取值为0.5、1、2、3、4或5,也可以取0.5-5中任一其他值,可以根据具体情况进行设定。b可以取值为20、25、30、35或40,也可以取20-40中任一其他值,可以根据具体情况进行设定。M可以取值为150、180、200、220或250,也可以为150-250中任一其他值,可以根据具体情况进行设定。
并且,从第一正样本集中选取出s个正样本作为第二正样本集,要求满足以下条件:s个正样本的特征分布与n个正样本的特征分布基本上保持一致,从而可以基本上保证s个正样本可以用来代表n个正样本。并且,s的数量要保证与n的数量为同一数量级,例如该s=0.1n、0.2n、0.5n或0.6n等,可以根据需要来从n个正样本中选取对应的基本上为同一数量级的正样本数量。
在步骤S400中,预设分类器中的分类算法例如可以为Adaboost算法、GBDT算法、Xgboost算法等。优选为GBDT算法,利用GBDT算法的预设分类器训练的准确率高、效率高,可以获得较好的概率分布以及精细的概率,且分类效果比较强大。
在步骤S500中,如图2所示,具体包括:
步骤S501,利用已经训练好的所述预设分类器对全量样本进行预测,获得全量样本中各样本为标签样本的概率值Pj,其中,Pj为第j个样本为标签样本的概率值;
步骤S502,根据概率值Pj以及利用已经训练好的所述预设分类器进行预测并计算获得的正样本为标签样本的平均概率值P+,获得第j个样本被标记的实际概率值Pj’;
步骤S503,将实际概率值Pj’与一预设概率值P0进行比较,在Pj’>P0时,确定该第j个样本为正样本,否则为负样本。
在步骤S501中,预设分类器可以利用GBDT算法(全称梯度提升决策树),GBDT算法是一个提升算法,在GBDT二分类算法中,第n次迭代中,新生成的学习器(CART树,用Tn来表示)都是根据的结果的残差(预测与实际情况的偏差)来进行拟合,得到的新拟合值。
在步骤S502中,平均概率值P+按照如下方法获取:利用已经训练好的所述预设分类器对所有标签样本进行预测,获得每个标签样本被标记的概率值Rj,其中,Rj为第j个标签样本被标记的概率值;按照公式P+=(R1+R2+…+Rj+…+Rs)/s,计算获得正样本为标签样本的平均概率值P+;
按照如下公式计算获得第j个样本被标记的实际概率值Pj’,
Pj’=Pj/P+。
在步骤S503中,通常P0为0.5、0.6、0.7或0.8等,也可以为大于等于0.5,小于1的任一其他值。
由此,可以预测出所有样本为空壳企业的概率。预测的结果可以是将所有企业按照实际概率值Pj’进行降序排列,越是排在前面的企业,从电力数据角度看为空壳企业的概率就越大。如果有需要可以进行批次选取。
同时,也可以将企业的空壳分类结果、空壳概率、以及相应的企业信息列为模型预测的结果清单表。
特别地,本发明还提供了一种空壳企业监测方法,如图3所示,包括如下步骤:
步骤S110,利用前述的空壳企业确定方法生成结果清单表,结果清单表中包括全量样本中的各样本为正样本的概率值、根据该概率值确定的分类结果以及关联出的对应的企业信息;
步骤S120,对结果清单表进行统计分析,生成空壳企业在不同行业以及不同地区的结果分析报告。
本发明的方案,使用国网大数据中心的数据中台,利用各省公司的用户企业用电数据,进行建模和分析,从而预测出大至国家电网经营范围内不同省、市、区域、不同行业的全量用户企业的空壳公司分布情况,小到某个具体企业为空壳公司的概率。本发明实施例的方案,使用国家电网公司独有的电力数据信息,通过条件筛选出可靠的正样本,并采用半监督学习的方法训练模型,用训练好的模型对企业进行预测,从很大程度上克服了监督学习和无监督学习所面临的难题,具有效率高、成本低、统计视角全面、可以得到概率信息等人工解读和传统统计学模型无法比拟的优势。
相应地,本发明还提供了一种空壳企业确定装置。本发明还提供了一种空壳企业监测装置,该空壳企业确定装置和/或空壳企业监测装置例如可以为一种服务器。参见图4,图4是本申请实施例提供的一种服务器结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或多个模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或多个电源1426,一个或多个有线或无线网络接口1450,一个或多个输入输出接口1458,和/或,一个或多个操作系统1441,例如WindowsServer TM,Mac OS XTM,Unix TM,Linux TM,Free BSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图4所示的服务器结构。
针对上文描述的空壳企业确定方法和/或空壳企业监测方法,本申请实施例还提供了一种用于空壳企业确定和/或空壳企业监测的终端设备,以使上述空壳企业确定方法和/或空壳企业监测方法在实际中实现以及应用。
参见图5,图5为本申请实施例提供的一种终端设备的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。
图5示出的是与本申请实施例提供的终端相关的部分结构的框图。参考图5,该终端包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(英文全称:wirelessfidelity,英文缩写:WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图5中示出的平板电脑结构并不构成对平板电脑的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图5对平板电脑的各个构成部件进行具体的介绍:
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而实现终端的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1580是终端的控制中心,利用各种接口和线路连接整个平板电脑的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行平板电脑的各种功能和处理数据,从而对平板电脑进行整体监控。可选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
在本申请实施例中,该终端所包括的存储器1520可以存储程序代码,并将所述程序代码传输给所述处理器。
该终端所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的车道限速确定方法。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行上述实施例提供的可靠负样本确定方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明常用理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
Claims (9)
1.一种空壳企业确定方法,其特征在于,包括如下步骤:
从全量样本中选取出m个样本作为训练样本集;
从所述训练样本集中按照一预设条件筛选出n个正样本作为第一正样本集,并从所述第一正样本集中选取出s个正样本作为第二正样本集,其中,所述预设条件为同时满足以下公式一和公式二的条件: 其中,Ii,n满足以下公式:Un满足以下公式:/>其中,Ei,n表示某个行业中第n个企业在所取的连续的12个月中第i个月的用电量,Li为该行业中所有企业在所取的连续的12个月中第i个月用电量的均值的最低水平临界值,M为常数,i为1-12中任一值;所述Li满足以下公式:/>其中,ei表示该行业中所有企业在所取的连续的12个月中第i个月的用电量的均值,其满足以下公式:/>其中,a和b均为常数;
对所述第二正样本集中所有正样本进行标记,并将已经标记的所述第二正样本集中所有正样本作为标签样本,将训练样本集中其他未标记的m-s个样本作为无标签样本;
利用所述训练样本集,且以是否为所述标签样本来训练预设分类器;
利用已经训练好的所述预设分类器对所述全量样本进行预测,从而获得所述全量样本中各样本为正样本的概率值以及根据该概率值确定的分类结果,所述分类结果包括确定为正样本和确定为负样本;
在所述分类结果是确定为正样本时,确定对应的样本为空壳企业。
2.根据权利要求1所述的空壳企业确定方法,其特征在于,利用已经训练好的所述预设分类器对所述全量样本进行预测,从而获得所述全量样本中各样本为正样本的概率值以及根据该概率值确定的分类结果,包括如下步骤:
利用已经训练好的所述预设分类器对所述全量样本进行预测,获得所述全量样本中各样本为所述标签样本的概率值Pj,其中,Pj为第j个样本为所述标签样本的概率值;
根据所述概率值Pj以及利用已经训练好的所述预设分类器进行预测并计算获得的正样本为所述标签样本的平均概率值P+,获得第j个样本被标记的实际概率值Pj’;
将所述实际概率值Pj’与一预设概率值P0进行比较,在Pj’>P0时,确定该第j个样本为正样本,否则为负样本。
3.根据权利要求2所述的空壳企业确定方法,其特征在于,所述平均概率值P+按照如下方法获取:
利用所述已经训练好的所述预设分类器对所有标签样本进行预测,获得每个标签样本被标记的概率值Rj,其中,Rj为第j个标签样本被标记的概率值;
按照公式P+=(R1+R2+…+Rj+…+Rs)/s,计算获得所述平均概率值P+;
根据所述概率值Pj以及利用所述已经训练好的所述预设分类器进行预测并计算获得的正样本为所述标签样本的平均概率值P+,获得第j个样本被标记的实际概率值Pj’的步骤中,按照公式Pj’=Pj/P+计算获得第j个样本被标记的实际概率值Pj’。
4.根据权利要求1-3中任一项所述的空壳企业确定方法,其特征在于,从全量样本中选取出m个样本作为第一训练样本集的步骤中,选择无放回随机抽样或分层随机抽样的方式从所述全量样本中选出所述第一训练样本集;
所述从所述第一训练样本集中按照一预设条件筛选出n个正样本作为第一正样本集的步骤中,所述预设条件为能够明确确定出是空壳公司的特征字段。
5.根据权利要求1-3中任一项所述的空壳企业确定方法,其特征在于,所述从所述第一正样本集中选取出s个正样本作为第二正样本集的步骤中,所述s个正样本的特征分布与所述n个正样本的特征分布基本上保持一致,以使所述第二正样本集对于所述第一正样本集具有代表性。
6.根据权利要求1所述的空壳企业确定方法,其特征在于,还包括如下步骤:
获取所述训练样本集中所有训练样本的大类特征,所述大类特征包括企业月用电量特征、企业行业特征、企业规模特征和企业的地理区域特征;
从每个所述大类特征中提取出至少一个具体特征;
对所有大类特征以及对应的具体特征进行数据处理,从而确定训练所述预设分类器所需的特征;
所述企业月用电量特征至少包括以下任一个或多个的特征:
En,max=max(E1,n,E2,n,…E12,n)
En,min=min(E1,n,E2,n,...E12,n)
其中,I为指示函数;
对所有大类特征以及对应的具体特征进行数据处理的步骤中,所述数据处理包括特征分析、数据溯源、数据质量核查、数据清洗、数据分类、数据计算和数据合并处理;
通过所述特征分析和所述数据溯源确定训练所述分类器所需的数据表以及该数据表中对应的字段信息;
所述数据质量核查包括对所述数据表中的关键字段进行总量统计、空值计算、异常值统计以及重复值统计;
所述数据清洗包括对经所述数据质量核查后的数据表进行初次去重、异常值标注、空值填充或删除、二次去重和异常值填充。
7.一种空壳企业确定装置,其特征在于,包括第一处理器以及第一存储器:
所述第一存储器用于存储第一程序代码,并将所述第一程序代码传输给所述第一处理器;
所述第一处理器用于根据所述第一程序代码中的指令执行权利要求1-6中任一项所述的空壳企业确定方法。
8.一种空壳企业监测方法,其特征在于,包括如下步骤:
利用如权利要求1-6中任一项所述的空壳企业确定方法生成结果清单表,所述结果清单表中包括全量样本中的各样本为正样本的概率值、根据该概率值确定的分类结果以及关联出的对应的企业信息;
对所述结果清单表进行统计分析,生成空壳企业在不同行业以及不同地区的结果分析报告。
9.一种空壳企业监测装置,其特征在于,包括第二处理器以及第二存储器:
所述第二存储器用于存储第二程序代码,并将所述第二程序代码传输给所述第二处理器;
所述第二处理器用于根据所述第二程序代码中的指令执行权利要求8所述的空壳企业监测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011513583.XA CN113159084B (zh) | 2020-12-18 | 2020-12-18 | 一种空壳企业确定方法及装置、空壳企业监测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011513583.XA CN113159084B (zh) | 2020-12-18 | 2020-12-18 | 一种空壳企业确定方法及装置、空壳企业监测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113159084A CN113159084A (zh) | 2021-07-23 |
CN113159084B true CN113159084B (zh) | 2024-04-19 |
Family
ID=76882637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011513583.XA Active CN113159084B (zh) | 2020-12-18 | 2020-12-18 | 一种空壳企业确定方法及装置、空壳企业监测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113159084B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106779346A (zh) * | 2016-12-01 | 2017-05-31 | 国家电网公司 | 一种月度用电量的预测方法 |
CN109657978A (zh) * | 2018-12-19 | 2019-04-19 | 重庆誉存大数据科技有限公司 | 一种风险识别方法和系统 |
WO2019100844A1 (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种机器学习模型的训练方法、装置以及电子设备 |
CN110532542A (zh) * | 2019-07-15 | 2019-12-03 | 西安交通大学 | 一种基于正例与未标注学习的发票虚开识别方法及系统 |
CN110909984A (zh) * | 2019-10-28 | 2020-03-24 | 苏宁金融科技(南京)有限公司 | 业务数据处理模型训练方法、业务数据处理方法及装置 |
WO2020085084A1 (ja) * | 2018-10-23 | 2020-04-30 | オムロン株式会社 | 制御システムおよび制御方法 |
CA3063580A1 (en) * | 2018-12-17 | 2020-06-17 | 10353744 Canada Ltd. | Classifier training method and apparatus, electronic device and computer readable medium |
CN111310814A (zh) * | 2020-02-07 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 利用不平衡正负样本对业务预测模型训练的方法及装置 |
CN111539845A (zh) * | 2020-04-21 | 2020-08-14 | 国网四川省电力公司电力科学研究院 | 一种基于用电模式隶属评分的企业环保管控响应研判方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934697A (zh) * | 2017-12-15 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 一种基于图结构模型的信用风险控制方法、装置以及设备 |
-
2020
- 2020-12-18 CN CN202011513583.XA patent/CN113159084B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106779346A (zh) * | 2016-12-01 | 2017-05-31 | 国家电网公司 | 一种月度用电量的预测方法 |
WO2019100844A1 (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种机器学习模型的训练方法、装置以及电子设备 |
WO2020085084A1 (ja) * | 2018-10-23 | 2020-04-30 | オムロン株式会社 | 制御システムおよび制御方法 |
CA3063580A1 (en) * | 2018-12-17 | 2020-06-17 | 10353744 Canada Ltd. | Classifier training method and apparatus, electronic device and computer readable medium |
CN109657978A (zh) * | 2018-12-19 | 2019-04-19 | 重庆誉存大数据科技有限公司 | 一种风险识别方法和系统 |
CN110532542A (zh) * | 2019-07-15 | 2019-12-03 | 西安交通大学 | 一种基于正例与未标注学习的发票虚开识别方法及系统 |
CN110909984A (zh) * | 2019-10-28 | 2020-03-24 | 苏宁金融科技(南京)有限公司 | 业务数据处理模型训练方法、业务数据处理方法及装置 |
CN111310814A (zh) * | 2020-02-07 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 利用不平衡正负样本对业务预测模型训练的方法及装置 |
CN111539845A (zh) * | 2020-04-21 | 2020-08-14 | 国网四川省电力公司电力科学研究院 | 一种基于用电模式隶属评分的企业环保管控响应研判方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113159084A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110995459B (zh) | 异常对象识别方法、装置、介质及电子设备 | |
CN107633030B (zh) | 基于数据模型的信用评估方法及装置 | |
CN106095942B (zh) | 强变量提取方法及装置 | |
CN110852881B (zh) | 风险账户识别方法、装置、电子设备及介质 | |
CN107016068A (zh) | 知识图谱构建方法及装置 | |
CN110705719A (zh) | 执行自动机器学习的方法和装置 | |
CN108805174A (zh) | 聚类方法及装置 | |
CN110688536A (zh) | 一种标签预测方法、装置、设备和存储介质 | |
CN111191825A (zh) | 用户违约预测方法、装置及电子设备 | |
CN116402512B (zh) | 一种基于人工智能的账户安全排查管理方法 | |
CN115081025A (zh) | 基于数字中台的敏感数据管理方法、装置及电子设备 | |
CN111210332A (zh) | 贷后管理策略生成方法、装置及电子设备 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN115632874A (zh) | 一种实体对象的威胁检测方法、装置、设备及存储介质 | |
US11943244B2 (en) | Anomaly detection over high-dimensional space | |
CN114092230A (zh) | 一种数据处理方法、装置、电子设备及计算机可读介质 | |
CN113159084B (zh) | 一种空壳企业确定方法及装置、空壳企业监测方法及装置 | |
CN112950359A (zh) | 一种用户识别方法和装置 | |
CN110119784B (zh) | 一种订单推荐方法及装置 | |
CN110019193A (zh) | 相似帐号识别方法、装置、设备、系统及可读介质 | |
CN115600226B (zh) | 一种仓单质押数据处理方法及装置 | |
CN115689713A (zh) | 异常风险数据处理方法、装置、计算机设备和存储介质 | |
CN115758462A (zh) | 信创环境下实现敏感数据识别的方法、装置、处理器及其计算机可读存储介质 | |
CN114820036A (zh) | 面向大数据和回归分析预测算法的充电市场分析系统 | |
CN112487262A (zh) | 一种数据处理的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |