CN110889283A

CN110889283A - 一种系统审批理由随意性检测方法及系统

Info

Publication number: CN110889283A
Application number: CN201911200342.7A
Authority: CN
Inventors: 马影; 梁淑云; 刘胜; 陶景龙; 王启凡; 魏国富; 徐�明; 殷钱安; 余贤喆; 周晓勇
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-03-17
Anticipated expiration: 2039-11-29
Also published as: CN110889283B

Abstract

本发明提供一种系统审批理由随意性检测方法及系统，包括以下步骤：S100.获取审批操作日志历史数据并解析，至少获得审批原因文本数据；S200.规则检测，根据预先规定的规则判断，检测出异常审批原因数据，遍历所有数据获得异常数据集合A；S300.文本分析，对审批原因文本数据进行分词、相似度得分计算、计算每条审批操作日志历史数据的平均分，遍历所有历史数据，获得异常审批原因数据集合B；S400.A∪B得到审批操作日志历。本发明从审核理由文本数据本身入手，结合规则判断和文本分词之间相似度得分计算，检测审核理由的随意性和合理性。本实施例采用两种检测方法，全面的将所有可能出现的异常情况考虑进来，检测精度高。

Description

一种系统审批理由随意性检测方法及系统

技术领域

本发明涉及数据安全技术领域，具体来说是一种系统审批理由随意性检测方法及系统。

背景技术

运营商业务系统业务办理工单审批以及4A金库审批都涉及到人工填写审批理由，由于系统审核机制的不完善，有些工作人员在填写通过或者不通过原因的时候通常缺乏认真负责的态度，使其填写的理由缺少语言的完整性和合理性。由于企业某些业务办理工单和4A金库涉及非常敏感且重要的内容，审批理由的随意填写，使得审核流程信息断层，更让企业面临数据安全隐患。

现有技术中，对于审批质量把控，一般都采用规则判断，其中规则人为根据经验设定，无法覆盖所有审批异常情况；再者就是通过人工查找，该方法耗时耗力，在数据量大的情况下，可操作性差。

发明内容

本发明所要解决的技术问题在于现有技术中对于工单审批这一环节中，审批理由存在不符合规范，但却无法全面而快速检测出所有不符合规范的审批数据。

本发明通过以下技术手段实现解决上述技术问题的：

一种系统审批理由随意性检测方法，包括以下步骤：

S100.数据采集，采集设定期限内的审批操作日志历史数据，对审批操作日志历史数据进行解析，至少获得审批原因文本数据；

S200.规则检测，基于审批原因文本数据构建文本特征数据，通过对文本特征数据的分析，结合预设规则和统计学原理，检测出异常审批原因数据，遍历所有审批操作日志历史数据，获得异常审批原因数据集合，记为集合A；

S300.文本分析，对审批原因文本数据进行分词，然后计算分词后的文本词语之间的相似度得分，再求得每条审批操作日志历史数据的平均分，若平均分较高，则认为该条审批操作日志历史数据为异常审批原因数据，遍历所有审批操作日志历史数据，获得异常审批原因数据集合，记作集合B；

S400.结果整合，A∪B得到审批操作日志历史数据中所有异常审批原因数据集，记作集合C。

本发明从审核理由文本数据本身入手，结合规则判断和文本分词之间相似度得分计算，检测审核理由的随意性和合理性。本实施例采用两种检测方法，全面的将所有可能出现的异常情况考虑进来，检测精度高。

优选的，所述步骤S100中采用python3的pandas和json包进行日志数据提取和解析，还获得申请人账号、审批人账号、申请时间、审批时间、审批结果、操作对象数据。

优选的，所述步骤S400之后还包括

步骤S500，审批人员追踪，根据步骤S400中的集合C，追溯审批审批人账户，从而追溯到审批人。

优选的，所述步骤S200中构建的文本特征数据包括“文本长度”、“文本中文个数”、“文本非中文和中文个数比例”；集合A中包括了采用“文本中文个数”和“文本非中文和中文个数比例”两种规则判断出的异常审批原因数据，其中

基于规则的“文本中文个数”判断具体为：根据经验判断，审批原因中中文个数小于设定值的，将被列为异常审批原因数据；

基于规则的“文本非中文和中文个数比例”判断具体为：使用箱形图对特征“文本非中文和中文个数比例”进行分析，计算该特征的外限，规定在上外限以外的值为异常审批原因数据。

优选的，所述步骤S300具体为：

S301.模型训练，首先获取语料，然后通过Hanlp汉语分词系统进行文档的分词，使用word2vec模型进行训练，得到目标模型；

S302.数据预处理，对审批原因文本数据进行清洗，仅保留中文部分，得到样本数据；然后对所有样本数据进行分词，得到分词后的审批原因样本数据

S303.相似度计算，针对步骤302中的样本数据，进行

1)用步骤S301中的目标模型计算某个样本数据中词语两两之间的相似度得分；

2)计算步骤1)中词语得分的平均值，作为该条审批原因文本数据的相似度得分；

3)循环步骤1)、2)，直到遍历所有审批原因文本数据。

相对应的，本发明还提供一种系统审批理由随意性检测系统，包括

数据采集模块，采集设定期限内的审批操作日志历史数据，对审批操作日志历史数据进行解析，至少获得审批原因文本数据；

规则检测模块，基于审批原因文本数据构建文本特征数据，通过对文本特征数据的分析，结合预设规则和统计学原理，检测出异常审批原因数据，遍历所有审批操作日志历史数据，获得异常审批原因数据集合，记为集合A；

文本分析模块，对审批原因文本数据进行分词，然后计算分词后的文本词语之间的相似度得分，再求得每条审批操作日志历史数据的平均分，若平均分较高，则认为该条审批操作日志历史数据为异常审批原因数据，遍历所有审批操作日志历史数据，获得异常审批原因数据集合，记作集合B；

结果整合模块，A∪B得到审批操作日志历史数据中所有异常审批原因数据集，记作集合C。

优选的，所述数据采集模块中采用python3的pandas和json包进行日志数据提取和解析，还获得申请人账号、审批人账号、申请时间、审批时间、审批结果、操作对象数据。

优选的，还包括审批人员追踪模块，根据所述集合C，追溯审批审批人账户，从而追溯审批人。

优选的，所述规则检测模块中构建的文本特征数据包括“文本长度”、“文本中文个数”、“文本非中文和中文个数比例”；集合A中包括了采用“文本中文个数”和“文本非中文和中文个数比例”两种规则判断出的异常审批原因数据，其中

优选的，所述文本分析模块具体处理过程为：

模型训练，首先获取语料，然后通过Hanlp汉语分词系统进行文档的分词，使用word2vec模型进行训练，得到目标模型；

数据预处理，对审批原因文本数据进行清洗，仅保留中文部分，得到样本数据；然后对所有样本数据进行分词，得到分词后的审批原因样本数据

相似度计算，针对所述样本数据，进行

1)用所述目标模型计算某个样本数据中词语两两之间的相似度得分；

3)循环步骤1)、2)，直到遍历所有审批原因文本数据。

本发明的优点在于：

另外，本发明在进行“文本非中文和中文个数比例”判断时，采用箱型图获得阈值，避免人为设定阈值对检测结果的影响，该方法实用性更强、更科学。

附图说明

图1为本发明实施例1一种系统审批理由随意性检测方法的流程框图；

图2为本发明实施例1一种系统审批理由随意性检测方法中。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例公开一种系统审批理由随意性检测方法，具体包括以下步骤

步骤1：样本数据采集

抽取当前日期两个月(统计期可调整)历史审批操作日志数据。一次审批行为在操作日志中产生一条审批日志数据，包含申请人账号、审批人账号、申请时间、审批时间、审批结果、审批原因、操作对象等。解析日志数据，本实例中使用python3的pandas 和json包进行日志数据提取和解析。

步骤2：规则检测

从“审批原因”文本数据入手构建文本特征，包括文本长度、文本中文个数、文本非中文和中文个数比例等。通过对文本特征数据的分析，结合规则判断，检测出随意、不合理的“审批原因”数据。

步骤201：基于规则的“文本中文个数”判断

根据经验判断，中文审批理由种中文的个数小于2则该“审批原因”必不合法。如在本发明的实例中，采集22646条样本数据，按照此规则判断，其中有108条不合法数据，记为集合A1，结果示例如下：

REASON(审批原因)
	#13966644184充
...
	#1
#111
	#用......................
#用...............

将该规则筛选出的不合法样本打上“随意”标签。

步骤202：基于规则的“文本非中文和中文个数比例”分析

使用箱形图对特征“文本非中文和中文个数比例”进行分析，计算该特征的外限，规定在上外限以外的值为异常，记为集合A2。

将A1∪A2得到集合A。

如图2所示，箱线图：是一种用作显示一组数据分散情况资料的统计图。主要包含六个数据节点，分别为上边缘，上四分位数Q3，中位数，下四分位数Q1，下边缘，还有异常值。其中：

四分位距：IQR＝Q3-Q1

内限：在Q3+1.5IQR和Q1－1.5IQR处画两条与中位线一样的线段，这两条线段为异常值截断点，称其为内限；

外限：在Q3+3IQR和Q1－3IQR处画两条线段，称其为外限。

异常值：处于内限以外位置的点表示的数据都是异常值，其中在内限与外限之间的异常值为温和的异常值(mild outliers)，在外限以外的为极端的异常值(extremeoutliers)。

本发明实例中，根据箱形图中显示的数据，计算“文本非中文和中文个数比例”的上外限为1，上外限以外的样本有246个，标上“随意”标签。

结果示例如表1：

表1

REASON(审批原因)
	#！！！！！！！！！！！！！！！！！！！！！！！！！！
#错7222002012/50
	#号码错误...........
#交错了.........

本发明实例中的箱形图1所示。

步骤3：文本分析

对“审批原因”进行数据清洗、分词，使用word2vec算法计算分词后的文本词语之间的相似度得分，再求得每个样本的平均分，同一文本中，若词语之间相似度较高，则说明语句内容不合理,认为人员在填写时比较“随意”，记为集合B。

这里相似度得分可以理解为统计语言模型中某种语言集合的可能性。统计语言模型把语言(词的序列)看作一个随机事件，并赋予相应的概率来描述其属于某种语言集合的可能性。给定一个词汇集合V，对于一个由V中的词构成的序列S＝<w1,···, wT>∈Vn，统计语言模型赋予这个序列一个概率P(S)，来衡量S符合自然语言的语法和语义规则的置信度。用一句简单的话说，语言模型就是计算一个句子的概率大小。

步骤301：模型训练

本实施例中模型训练语料来源为wiki百科，共2M大小，选用Hanlp汉语分词系统进行文档的分词，使用pythpn中Gensim模块的word2vec模型进行训练，得到目标模型。

本示例中得参数设置如下：

(1)min_count是对词进行过滤，频率小于min-count的单词则会被忽视，本实施例中默认值为5。

(2)size是输出词向量的维数，即神经网络的隐藏层的单元数。值太小会导致词映射因为冲突而影响结果，值太大则会耗内存并使算法计算变慢，大的size需要更多的训练数据,但是效果会更好，在本文中设置的size值为200维度。

(3)window是句子中当前词与目标词之间的最大距离，即为窗口。本文设置窗口移动的大小为5。

步骤302：样本数据预处理

对“审批原因”进行清洗，去除字母、数字、标点符号以及特殊字符，只保留中文部分，结果示例如：

['#551****882缴错帐户，现需冲正，请审批。']清洗后结果为['缴错帐户现需冲正请审批’]。

步骤303：计算词语之间相似度，并打分

1)从样本中选择一个样本i，该样本为分词后的文本列表；

2)调用训练好的模型model，计算样本i文本列表中词语两两之间的相似度得分；

3)求2)步骤对i样本中词语得分的平均值，作为样本i的相似度得分；

4)循环以上步骤，直到所有样本被遍历；

由以上步骤得到所有样本的相似度得分值。

对相似度得分值进行分析，求得“审批原因”是否随意、不合理的阈值。本发明依然采用箱形图原理对相似度得分进行分析，在本发明实例中，样本相似度得分箱形图的上外限为0.92。将相似度得分大于0.92的样本标为“随意”。示例如表2：

步骤4：结果整合

对步骤2和3中筛选出的“随意”样本取并集，A∪B作为最终结果，记为集合C。由于不同方法筛选出的结果可能存在重复，本发明实例中最终取得结果为349条不合理的样本数据。

步骤5：企业可根据集合C可以到日志中追溯到相关的操作人员和操作时间。

另外，本发明在进行“文本非中文和中文个数比例”判断时，采用箱型图获得阈值，避免人为设定阈值对检测结果的影响，该方法实用性更强、更科学

实施例2

与实施例1对应的，本实施例提供一种系统审批理由随意性检测系统，包括

审批人员追踪模块，根据所述集合C，追溯审批审批人账户，从而追溯审批人。

其中

数据采集模块中采用python3的pandas和json包进行日志数据提取和解析，还获得申请人账号、审批人账号、申请时间、审批时间、审批结果、操作对象数据。

规则检测模块中构建的文本特征数据包括“文本长度”、“文本中文个数”、“文本非中文和中文个数比例”；集合A中包括了采用“文本中文个数”和“文本非中文和中文个数比例”两种规则判断出的异常审批原因数据，其中

文本分析模块具体处理过程为：

相似度计算，针对所述样本数据，进行

3)循环步骤1)、2)，直到遍历所有审批原因文本数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种系统审批理由随意性检测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种系统审批理由随意性检测方法，其特征在于：所述步骤S100中采用python3的pandas和json包进行日志数据提取和解析，还获得申请人账号、审批人账号、申请时间、审批时间、审批结果、操作对象数据。

3.根据权利要求2所述的一种系统审批理由随意性检测方法，其特征在于：所述步骤S400之后还包括

4.根据权利要求1至3任一所述的一种系统审批理由随意性检测方法，其特征在于：所述步骤S200中构建的文本特征数据包括“文本长度”、“文本中文个数”、“文本非中文和中文个数比例”；集合A中包括了采用“文本中文个数”和“文本非中文和中文个数比例”两种规则判断出的异常审批原因数据，其中

5.根据权利要求1或2所述的一种系统审批理由随意性检测方法，其特征在于：所述步骤S300具体为：

S303.相似度计算，针对步骤302中的样本数据，进行

3)循环步骤1)、2)，直到遍历所有审批原因文本数据。

6.一种系统审批理由随意性检测系统，其特征在于：包括

7.根据权利要求6所述的一种系统审批理由随意性检测系统，其特征在于：所述数据采集模块中采用python3的pandas和json包进行日志数据提取和解析，还获得申请人账号、审批人账号、申请时间、审批时间、审批结果、操作对象数据。

8.根据权利要求7所述的一种系统审批理由随意性检测系统，其特征在于：还包括审批人员追踪模块，根据所述集合C，追溯审批审批人账户，从而追溯审批人。

9.根据权利要求6至8任一所述的一种系统审批理由随意性检测系统，其特征在于：所述规则检测模块中构建的文本特征数据包括“文本长度”、“文本中文个数”、“文本非中文和中文个数比例”；集合A中包括了采用“文本中文个数”和“文本非中文和中文个数比例”两种规则判断出的异常审批原因数据，其中

10.根据权利要求6或7所述的一种系统审批理由随意性检测方法，其特征在于：所述文本分析模块具体处理过程为：

相似度计算，针对步所述样本数据，进行

3)循环步骤1、2)，直到遍历所有审批原因文本数据。