一种企业异常监测方法、装置及介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种企业异常监测方法、装置及介质。
背景技术
在新的工商登记制度下,市场监管主体职责发生变化,监管对象呈现井喷式增长,监管理念也由事前监管向事中事后监管转变,市场监管方面发生了一系列变化,当前市场主体监管带来了较大的冲击。传统监管手段以拉网式、运动式、随机式检查为主,其人力需求大、耗时要求高以及随机性量太大以致把握不了检查的重点,这与当前政府的精简机构和简政放权的思路背道而驰,在人员编制不可能增加的情况下,难解决日益增长的企业数量和监管力量不足的根本性供需矛盾。这种监管方式在已不能适应商事登记改革后的监管需要,需要监管方法、手段由传统向信息化、科技化监管等方式转变。此外,监管中政府唱“独角戏”导致“监管失灵”的矛盾具有普遍性,社会参与监管严重滞后,造成企业监管和信用信息不透明,进一步增加企业监管的困难性。
传统的检查方式(随机检查、运动式、拉网式等)问题较为突出,主要原因是企业数量庞大,这些检查方式缺乏足够的人力物力资源以及部门之间数据和信息的不对称,在脱离了社会监管与参与的情况导致其运行异常。
传统技术缺陷归结如下:
1、市场主体规模庞大,难以把握重点检查对象。近年来,全国各地都在推动商事制度改革,营商环境不断优化,市场主体活力不断提升,各类市场主体实有户数和资金规模总量不断扩大。仅从广州工商部门统计数据显示,2015年,广州实有各类市场主体132.97万户,同比增长11.26%,市场主体规模庞大,市场主体新登记数量增长态势明显,无法对每个市场主体进行检查,难以把握重点监管对象,市场主体服务及监管工作带来新的压力,亟待创新市场主体服务与检查方式。
2、双随机抽查的靶向性不强。目前各地市场监督管理局通常都是由各基层所自行确定抽查领域、抽查比例、抽查对象等,抽查的重点不突出,抽查领域泛化,监管中发现问题较少,多数被抽查市场主体为非风险性的一般性市场主体,抽查业务多为原工商系统监管领域,对质监领域的特种设备监管、生产许可证监管、标准化和计量工作没有涉及,业务工作没有实现融合。
3、市场主体监管风险预判能力不强。通过常规检查手段很难定位日渐复杂的市场主体监管风险,即“不知道监管风险在哪里”,监管靶向性弱,存在监管被动、无方向等问题。
4、发现企业存在问题不够及时。传统的检查方式往往都是经过人员抽查之后,才发现企业的不正常,所以非常滞后,不够及时,更没有预测性。
发明内容
本发明针对背景技术的问题提供一种企业异常监测方法、装置及介质,保证行政部门对企业检查的准确性和及时性,能够预先检测到企业存在运行风险的可能性,解决现有技术“企业数量庞大、没有重点性、不够及时性”等缺陷。
为了实现上述目的,本发明提出一种企业异常监测方法,包括如下步骤:
S10、获取企业提供给市场监管部门的历史属性数据,对历史属性数据进行关联整合构建企业画像数据集;
S20、选择对监测结果有影响力的属性数据;
S30、根据所选择的属性数据与监测结果构建企业检查预测模型,并对其进行训练;
S40、采用已训练完成的企业检查预测模型根据目标企业的属性数据进行预测,获取目标企业的异常监测结果。
优选地,步骤S40之后还包括:S50、根据监测结果,市场监管部门对异常企业进一步检查。
优选地,步骤S20所述的选择对监测结果有影响力的属性数据,具体为:从原有的属性数据中删除影响预测结果小或共线变量。
优选地,所述的步骤S20,包括如下步骤:
S201、对企业画像数据集中的属性各复制一个副本,使得数据集中共有2倍量的属性;
S202、将所述2倍量的属性作为输入,运行随机森林算法;
S203、分别计算原属性和副本属性的重要性得分;
S204、在所有副本属性重要性得分中找到最大值;
S205、在原始属性中,将重要性得分低于和高于副本属性重要性得分最大值的属性分别进行标记;
S206、重复步骤S202至步骤S205,直至所有的原始属性均得到标记;
S207、删除所有的副本属性及标记得分低的属性,获得新的属性集。
优选地,所述的监测结果,包括“正常”和“异常”。
优选地,所述的企业检查预测模型采用前馈神经网络。
本发明还提出一种企业异常监测装置,包括:
处理器;
存储器,耦合至所述的处理器并存储有指令,所述的指令在由所述处理器执行实现所述的企业异常监测方法的步骤。
本发明还提出一种计算机可读取存储介质,所述计算机可读取存储介质存储有企业异常监测方法的应用程序,所述应用程序实现如所述的企业异常监测方法的步骤。
本发明提出一种企业异常监测方法、装置及介质,节约人力物力资源,避免消耗大量的时间进行“拉网式、运动式”抽查,打破监管信息的不对称性和高效性;有针对性地对特定行业进行风险预测,并且根据预测结果对相应的“异常”重点监管,做到重点突出,提高行政部门的工作效率;由于模型是依据客观的数据建立的,因此,不但可以有效地解决政府唱“独角戏”导致“监管失灵”的矛盾,而且可以解决因监管不够及时而导致的滞后性,保证监管的实时性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明第一优选实施例中企业异常监测方法流程图;
图2为本发明第二优选实施例中企业异常监测方法流程图;
图3为本发明第一优选实施例中步骤S20流程图;
图4为本发明第一优选实施例中企业异常监测装置结构图;
图5为本发明第一优选实施例中计算机存储介质结构图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提出一种企业异常监测方法;
本发明第一优选实施例中,如图1所示,包括如下步骤:
S10、获取企业提供给市场监管部门的历史属性数据,对历史属性数据进行关联整合构建企业画像数据集;
本发明实施例中,根据确定的分析对象从数据库中抽取数据信息,建立企业画像数据集,关联企业各个属性表并确定预测目标;具体如下:
从数据库中抽取企业的历史数据,构建企业画像,如表1所示:
表1
其中,“检查结果”是本发明的预测目标,由于检查结果的数据是不规范的,有情况如表2(简单分类型)和表3(文字描述型):
表2
表3
本发明建模中,以“检查结果”为目标,实际检查中“异常”的情况可能有多种(如证件未齐全、违反某法则等),但检查合格的情况只有一种(正常),本发明把“异常”的情况统一归结为“不正常”,然后把“抽查结果”表、“企业基本信息表”、“企业纳税金额”等有关企业数据表进行关联,使其关联后整合成一整表,构建企业画像,使模型转化为“二分类”预测问题。
关联前的数据表如表4、表5及表6:
表4抽查检查结果表
企业名称 |
注册号 |
统一信用代码 |
检查类型 |
检查结果 |
检查日期 |
|
|
|
|
|
|
表5企业基本信息表
企业名称 |
注册号 |
统一信用代码 |
企业类型 |
行业大类 |
认缴注册资金 |
实缴注册资金 |
登记机构 |
|
|
|
|
|
|
|
|
表6企业缴纳金额表
关联后的数据表如表7:
表7
S20、选择对监测结果有影响力的属性数据;
本发明实施例中,企业画像数据集含有大量的企业属性,甚至属性数目比企业数(行)还要多。这种情况需要对特征进行选择,即从原有的特征中删除影响预测结果不大或共线变量,保留那些对目标变量(因变量)解释好重要变量。这样一方面可以提高建模过程中的运算速度;另一方面对模型的解释性更直观,减低拟合模糊性;
S30、根据所选择的属性数据与监测结果构建企业检查预测模型,并对其进行训练;
本发明实施例中,所述的企业检查预测模型采用前馈神经网络;在企业画像数据集以“检查结果”为因变量,建立企业检查预测模型,深入研究各性能指标,调参优化参数;参数设置为:
隐藏层为3层,每层包含的神经元数hidden=c(10,15,20);
学习率(衰变率)learing_rate=O.2;
学习率变量learning_rate_scale=1;
动量momentum=0.5;
激活函数activationfun=’sigm’;
输入层丢弃率visible_dropout=0;
隐藏层丢弃率hidden_dropout=0.2;
初始权重w=0;
初始偏置b=O;
最大迭代次数matix=100000;
采用交叉熵作为损失函数。
S40、采用已训练完成的企业检查预测模型根据目标企业的属性数据进行预测,获取目标企业的异常监测结果。
本发明第二优选实施例中,在第一优选实施例的基础上进一步限定,如图2所示,步骤S40之后还包括:
S50、根据监测结果,市场监管部门对异常企业进一步检查;
本发明实施例中,模型首先对所有新企业数据信息进行预测,之后在基于预测结果上有针对性地对预测结果为“异常”的企业进行重点抽查。通过模型,有效地指导行政人员对异常企业进行重点检查,实现市场监管的智能化、精细化、及时性、重点性,大大节省人力资源,提高工作效率和质量。
本发明第三优选实施例中,在第一优选实施例的基础上进二步限定,如图3所示,所述的步骤S20,包括如下步骤:
S201、对企业画像数据集中的所有属性(假如有n个)各复制一个副本,使得数据集中共有2n个属性;
S202、把上述2n个新属性作为输入,运行随机森林算法;
S203、分别计算原属性和副本属性的重要性得分orig_attr(score)、cop_attr(score);
属性的重要性得分score计算方式为:
eve_score=OOB_accl-OOB_acc2 (3)
其中,eve_score为每个属性的得分;ave_score为属性的平均得分;OOB_accl与OOB_acc2分别为该属性在副本属性混合前后在每棵树的袋外样本数据(out-of-bag)的准确率;
S204、在所有副本属性重要性得分中找到最大值max(score);
S205、在原始属性中,把重要性得分低于max(score)的属性记为“拒绝”,重要性得分高于max(score)的属性记为“确认”;
S206、重复步骤S202至步骤S205,直至所有的原始属性均得到标记;
S207、删除标记“拒绝”的属性及所有的副本属性,获得新的属性集new_attr。
本发明还提出一种企业异常监测装置;
本发明第四优选实施例中,如图4所示,包括:
处理器;
存储器,耦合至所述的处理器并存储有指令,所述的指令在由所述处理器执行实现所述的企业异常监测方法的步骤,例如:
S10、获取企业提供给市场监管部门的历史属性数据,对历史属性数据进行关联整合构建企业画像数据集;
S20、选择对监测结果有影响力的属性数据;
S30、根据所选择的属性数据与监测结果构建企业检查预测模型,并对其进行训练;
S40、采用已训练完成的企业检查预测模型根据目标企业的属性数据进行预测,获取目标企业的异常监测结果。
本发明实施例中,具体的实施细节在上文中已经阐述,此处不再复述;
本发明实施例中,所述的企业异常监测装置内置处理器,可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器利用各种接口和线路连接取各个部件,通过运行或执行存储在存储器内的程序或者单元,以及调用存储在存储器内的数据,以执行企业异常监测的各种功能和处理数据;
存储器用于存储程序代码和各种数据,安装在企业异常监测装置中,并在运行过程中实现高速、自动地完成程序或数据的存取。所述存储器包括只读存储器(Read-OnlyMemory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
本发明还提出一种计算机可读取存储介质;
本发明第五优选实施例中,如图5所示,所述计算机可读取存储介质存储有企业异常监测方法的应用程序,所述应用程序实现如所述的企业异常监测方法的步骤,例如:
S10、获取企业提供给市场监管部门的历史属性数据,对历史属性数据进行关联整合构建企业画像数据集;
S20、选择对监测结果有影响力的属性数据;
S30、根据所选择的属性数据与监测结果构建企业检查预测模型,并对其进行训练;
S40、采用已训练完成的企业检查预测模型根据目标企业的属性数据进行预测,获取目标企业的异常监测结果。
本发明实施例中,具体的实施细节在上文中已经阐述,此处不再复述;
在本发明的实施方式的描述中,需要说明的是,流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读取介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读取介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。