CN110889283A - 一种系统审批理由随意性检测方法及系统 - Google Patents

一种系统审批理由随意性检测方法及系统 Download PDF

Info

Publication number
CN110889283A
CN110889283A CN201911200342.7A CN201911200342A CN110889283A CN 110889283 A CN110889283 A CN 110889283A CN 201911200342 A CN201911200342 A CN 201911200342A CN 110889283 A CN110889283 A CN 110889283A
Authority
CN
China
Prior art keywords
data
approval
examination
text
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911200342.7A
Other languages
English (en)
Other versions
CN110889283B (zh
Inventor
马影
梁淑云
刘胜
陶景龙
王启凡
魏国富
徐�明
殷钱安
余贤喆
周晓勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Data Security Solutions Co Ltd
Original Assignee
Information and Data Security Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Data Security Solutions Co Ltd filed Critical Information and Data Security Solutions Co Ltd
Priority to CN201911200342.7A priority Critical patent/CN110889283B/zh
Publication of CN110889283A publication Critical patent/CN110889283A/zh
Application granted granted Critical
Publication of CN110889283B publication Critical patent/CN110889283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6209Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种系统审批理由随意性检测方法及系统,包括以下步骤:S100.获取审批操作日志历史数据并解析,至少获得审批原因文本数据;S200.规则检测,根据预先规定的规则判断,检测出异常审批原因数据,遍历所有数据获得异常数据集合A;S300.文本分析,对审批原因文本数据进行分词、相似度得分计算、计算每条审批操作日志历史数据的平均分,遍历所有历史数据,获得异常审批原因数据集合B;S400.A∪B得到审批操作日志历。本发明从审核理由文本数据本身入手,结合规则判断和文本分词之间相似度得分计算,检测审核理由的随意性和合理性。本实施例采用两种检测方法,全面的将所有可能出现的异常情况考虑进来,检测精度高。

Description

一种系统审批理由随意性检测方法及系统
技术领域
本发明涉及数据安全技术领域,具体来说是一种系统审批理由随意性检测方法及系 统。
背景技术
运营商业务系统业务办理工单审批以及4A金库审批都涉及到人工填写审批理由,由于系统审核机制的不完善,有些工作人员在填写通过或者不通过原因的时候通常缺乏认真负责的态度,使其填写的理由缺少语言的完整性和合理性。由于企业某些业务办理 工单和4A金库涉及非常敏感且重要的内容,审批理由的随意填写,使得审核流程信息 断层,更让企业面临数据安全隐患。
现有技术中,对于审批质量把控,一般都采用规则判断,其中规则人为根据经验设定,无法覆盖所有审批异常情况;再者就是通过人工查找,该方法耗时耗力,在数据量 大的情况下,可操作性差。
发明内容
本发明所要解决的技术问题在于现有技术中对于工单审批这一环节中,审批理由存 在不符合规范,但却无法全面而快速检测出所有不符合规范的审批数据。
本发明通过以下技术手段实现解决上述技术问题的:
一种系统审批理由随意性检测方法,包括以下步骤:
S100.数据采集,采集设定期限内的审批操作日志历史数据,对审批操作日志历史数据进行解析,至少获得审批原因文本数据;
S200.规则检测,基于审批原因文本数据构建文本特征数据,通过对文本特征数据的分析,结合预设规则和统计学原理,检测出异常审批原因数据,遍历所有审批操作日 志历史数据,获得异常审批原因数据集合,记为集合A;
S300.文本分析,对审批原因文本数据进行分词,然后计算分词后的文本词语之间的相似度得分,再求得每条审批操作日志历史数据的平均分,若平均分较高,则认为该 条审批操作日志历史数据为异常审批原因数据,遍历所有审批操作日志历史数据,获得 异常审批原因数据集合,记作集合B;
S400.结果整合,A∪B得到审批操作日志历史数据中所有异常审批原因数据集,记作集合C。
本发明从审核理由文本数据本身入手,结合规则判断和文本分词之间相似度得分计 算,检测审核理由的随意性和合理性。本实施例采用两种检测方法,全面的将所有可能出现的异常情况考虑进来,检测精度高。
优选的,所述步骤S100中采用python3的pandas和json包进行日志数据提取和 解析,还获得申请人账号、审批人账号、申请时间、审批时间、审批结果、操作对象数 据。
优选的,所述步骤S400之后还包括
步骤S500,审批人员追踪,根据步骤S400中的集合C,追溯审批审批人账户,从 而追溯到审批人。
优选的,所述步骤S200中构建的文本特征数据包括“文本长度”、“文本中文个数”、“文本非中文和中文个数比例”;集合A中包括了采用“文本中文个数”和“文本非中 文和中文个数比例”两种规则判断出的异常审批原因数据,其中
基于规则的“文本中文个数”判断具体为:根据经验判断,审批原因中中文个数小于设定值的,将被列为异常审批原因数据;
基于规则的“文本非中文和中文个数比例”判断具体为:使用箱形图对特征“文本非中文和中文个数比例”进行分析,计算该特征的外限,规定在上外限以外的值为异常 审批原因数据。
优选的,所述步骤S300具体为:
S301.模型训练,首先获取语料,然后通过Hanlp汉语分词系统进行文档的分词,使用word2vec模型进行训练,得到目标模型;
S302.数据预处理,对审批原因文本数据进行清洗,仅保留中文部分,得到样本数据;然后对所有样本数据进行分词,得到分词后的审批原因样本数据
S303.相似度计算,针对步骤302中的样本数据,进行
1)用步骤S301中的目标模型计算某个样本数据中词语两两之间的相似度得分;
2)计算步骤1)中词语得分的平均值,作为该条审批原因文本数据的相似度得分;
3)循环步骤1)、2),直到遍历所有审批原因文本数据。
相对应的,本发明还提供一种系统审批理由随意性检测系统,包括
数据采集模块,采集设定期限内的审批操作日志历史数据,对审批操作日志历史数 据进行解析,至少获得审批原因文本数据;
规则检测模块,基于审批原因文本数据构建文本特征数据,通过对文本特征数据的 分析,结合预设规则和统计学原理,检测出异常审批原因数据,遍历所有审批操作日志历史数据,获得异常审批原因数据集合,记为集合A;
文本分析模块,对审批原因文本数据进行分词,然后计算分词后的文本词语之间的 相似度得分,再求得每条审批操作日志历史数据的平均分,若平均分较高,则认为该条审批操作日志历史数据为异常审批原因数据,遍历所有审批操作日志历史数据,获得异 常审批原因数据集合,记作集合B;
结果整合模块,A∪B得到审批操作日志历史数据中所有异常审批原因数据集,记作 集合C。
优选的,所述数据采集模块中采用python3的pandas和json包进行日志数据提取和解析,还获得申请人账号、审批人账号、申请时间、审批时间、审批结果、操作对象 数据。
优选的,还包括审批人员追踪模块,根据所述集合C,追溯审批审批人账户,从而追溯审批人。
优选的,所述规则检测模块中构建的文本特征数据包括“文本长度”、“文本中文个数”、“文本非中文和中文个数比例”;集合A中包括了采用“文本中文个数”和“文本 非中文和中文个数比例”两种规则判断出的异常审批原因数据,其中
基于规则的“文本中文个数”判断具体为:根据经验判断,审批原因中中文个数小于设定值的,将被列为异常审批原因数据;
基于规则的“文本非中文和中文个数比例”判断具体为:使用箱形图对特征“文本非中文和中文个数比例”进行分析,计算该特征的外限,规定在上外限以外的值为异常 审批原因数据。
优选的,所述文本分析模块具体处理过程为:
模型训练,首先获取语料,然后通过Hanlp汉语分词系统进行文档的分词,使用word2vec模型进行训练,得到目标模型;
数据预处理,对审批原因文本数据进行清洗,仅保留中文部分,得到样本数据;然后对所有样本数据进行分词,得到分词后的审批原因样本数据
相似度计算,针对所述样本数据,进行
1)用所述目标模型计算某个样本数据中词语两两之间的相似度得分;
2)计算步骤1)中词语得分的平均值,作为该条审批原因文本数据的相似度得分;
3)循环步骤1)、2),直到遍历所有审批原因文本数据。
本发明的优点在于:
本发明从审核理由文本数据本身入手,结合规则判断和文本分词之间相似度得分计 算,检测审核理由的随意性和合理性。本实施例采用两种检测方法,全面的将所有可能出现的异常情况考虑进来,检测精度高。
另外,本发明在进行“文本非中文和中文个数比例”判断时,采用箱型图获得阈值,避免人为设定阈值对检测结果的影响,该方法实用性更强、更科学。
附图说明
图1为本发明实施例1一种系统审批理由随意性检测方法的流程框图;
图2为本发明实施例1一种系统审批理由随意性检测方法中。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明 一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在 没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例公开一种系统审批理由随意性检测方法,具体包括以下步骤
步骤1:样本数据采集
抽取当前日期两个月(统计期可调整)历史审批操作日志数据。一次审批行为在操作日志中产生一条审批日志数据,包含申请人账号、审批人账号、申请时间、审批时间、 审批结果、审批原因、操作对象等。解析日志数据,本实例中使用python3的pandas 和json包进行日志数据提取和解析。
步骤2:规则检测
从“审批原因”文本数据入手构建文本特征,包括文本长度、文本中文个数、文本非中文和中文个数比例等。通过对文本特征数据的分析,结合规则判断,检测出随意、 不合理的“审批原因”数据。
步骤201:基于规则的“文本中文个数”判断
根据经验判断,中文审批理由种中文的个数小于2则该“审批原因”必不合法。如在本发明的实例中,采集22646条样本数据,按照此规则判断,其中有108条不合法数 据,记为集合A1,结果示例如下:
REASON(审批原因)
#13966644184充
...
#1
#111
#用......................
#用...............
将该规则筛选出的不合法样本打上“随意”标签。
步骤202:基于规则的“文本非中文和中文个数比例”分析
使用箱形图对特征“文本非中文和中文个数比例”进行分析,计算该特征的外限,规定在上外限以外的值为异常,记为集合A2。
将A1∪A2得到集合A。
如图2所示,箱线图:是一种用作显示一组数据分散情况资料的统计图。主要包含六个数据节点,分别为上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还 有异常值。其中:
四分位距:IQR=Q3-Q1
内限:在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;
外限:在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。
异常值:处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的 异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extremeoutliers)。
本发明实例中,根据箱形图中显示的数据,计算“文本非中文和中文个数比例”的上外限为1,上外限以外的样本有246个,标上“随意”标签。
结果示例如表1:
表1
REASON(审批原因)
#!!!!!!!!!!!!!!!!!!!!!!!!!!
#错7222002012/50
#号码错误...........
#交错了.........
本发明实例中的箱形图1所示。
步骤3:文本分析
对“审批原因”进行数据清洗、分词,使用word2vec算法计算分词后的文本词语 之间的相似度得分,再求得每个样本的平均分,同一文本中,若词语之间相似度较高, 则说明语句内容不合理,认为人员在填写时比较“随意”,记为集合B。
这里相似度得分可以理解为统计语言模型中某种语言集合的可能性。统计语言模型 把语言(词的序列)看作一个随机事件,并赋予相应的概率来描述其属于某种语言集合的可能性。给定一个词汇集合V,对于一个由V中的词构成的序列S=<w1,···, wT>∈Vn,统计语言模型赋予这个序列一个概率P(S),来衡量S符合自然语言的语 法和语义规则的置信度。用一句简单的话说,语言模型就是计算一个句子的概率大小。
步骤301:模型训练
本实施例中模型训练语料来源为wiki百科,共2M大小,选用Hanlp汉语分词系统进行文档的分词,使用pythpn中Gensim模块的word2vec模型进行训练,得到目标模 型。
本示例中得参数设置如下:
(1)min_count是对词进行过滤,频率小于min-count的单词则会被忽视,本实 施例中默认值为5。
(2)size是输出词向量的维数,即神经网络的隐藏层的单元数。值太小会导致 词映射因为冲突而影响结果,值太大则会耗内存并使算法计算变慢,大的size需要更 多的训练数据,但是效果会更好,在本文中设置的size值为200维度。
(3)window是句子中当前词与目标词之间的最大距离,即为窗口。本文设置窗口移动的大小为5。
步骤302:样本数据预处理
对“审批原因”进行清洗,去除字母、数字、标点符号以及特殊字符,只保留中文 部分,结果示例如:
['#551****882缴错帐户,现需冲正,请审批。']清洗后结果为['缴错帐户现需 冲正请审批’]。
步骤303:计算词语之间相似度,并打分
1)从样本中选择一个样本i,该样本为分词后的文本列表;
2)调用训练好的模型model,计算样本i文本列表中词语两两之间的相似度得分;
3)求2)步骤对i样本中词语得分的平均值,作为样本i的相似度得分;
4)循环以上步骤,直到所有样本被遍历;
由以上步骤得到所有样本的相似度得分值。
对相似度得分值进行分析,求得“审批原因”是否随意、不合理的阈值。本发明依然采用箱形图原理对相似度得分进行分析,在本发明实例中,样本相似度得分箱形图的 上外限为0.92。将相似度得分大于0.92的样本标为“随意”。示例如表2:
Figure BDA0002295718710000071
Figure BDA0002295718710000081
步骤4:结果整合
对步骤2和3中筛选出的“随意”样本取并集,A∪B作为最终结果,记为集合C。 由于不同方法筛选出的结果可能存在重复,本发明实例中最终取得结果为349条不合理 的样本数据。
步骤5:企业可根据集合C可以到日志中追溯到相关的操作人员和操作时间。
本发明从审核理由文本数据本身入手,结合规则判断和文本分词之间相似度得分计 算,检测审核理由的随意性和合理性。本实施例采用两种检测方法,全面的将所有可能出现的异常情况考虑进来,检测精度高。
另外,本发明在进行“文本非中文和中文个数比例”判断时,采用箱型图获得阈值,避免人为设定阈值对检测结果的影响,该方法实用性更强、更科学
实施例2
与实施例1对应的,本实施例提供一种系统审批理由随意性检测系统,包括
数据采集模块,采集设定期限内的审批操作日志历史数据,对审批操作日志历史数 据进行解析,至少获得审批原因文本数据;
规则检测模块,基于审批原因文本数据构建文本特征数据,通过对文本特征数据的 分析,结合预设规则和统计学原理,检测出异常审批原因数据,遍历所有审批操作日志历史数据,获得异常审批原因数据集合,记为集合A;
文本分析模块,对审批原因文本数据进行分词,然后计算分词后的文本词语之间的 相似度得分,再求得每条审批操作日志历史数据的平均分,若平均分较高,则认为该条审批操作日志历史数据为异常审批原因数据,遍历所有审批操作日志历史数据,获得异 常审批原因数据集合,记作集合B;
结果整合模块,A∪B得到审批操作日志历史数据中所有异常审批原因数据集,记作 集合C。
审批人员追踪模块,根据所述集合C,追溯审批审批人账户,从而追溯审批人。
其中
数据采集模块中采用python3的pandas和json包进行日志数据提取和解析,还获得申请人账号、审批人账号、申请时间、审批时间、审批结果、操作对象数据。
规则检测模块中构建的文本特征数据包括“文本长度”、“文本中文个数”、“文 本非中文和中文个数比例”;集合A中包括了采用“文本中文个数”和“文本非中文和 中文个数比例”两种规则判断出的异常审批原因数据,其中
基于规则的“文本中文个数”判断具体为:根据经验判断,审批原因中中文个数小于设定值的,将被列为异常审批原因数据;
基于规则的“文本非中文和中文个数比例”判断具体为:使用箱形图对特征“文本非中文和中文个数比例”进行分析,计算该特征的外限,规定在上外限以外的值为异常 审批原因数据。
文本分析模块具体处理过程为:
模型训练,首先获取语料,然后通过Hanlp汉语分词系统进行文档的分词,使用word2vec模型进行训练,得到目标模型;
数据预处理,对审批原因文本数据进行清洗,仅保留中文部分,得到样本数据;然后对所有样本数据进行分词,得到分词后的审批原因样本数据
相似度计算,针对所述样本数据,进行
1)用所述目标模型计算某个样本数据中词语两两之间的相似度得分;
2)计算步骤1)中词语得分的平均值,作为该条审批原因文本数据的相似度得分;
3)循环步骤1)、2),直到遍历所有审批原因文本数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对 本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或 者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种系统审批理由随意性检测方法,其特征在于:包括以下步骤:
S100.数据采集,采集设定期限内的审批操作日志历史数据,对审批操作日志历史数据进行解析,至少获得审批原因文本数据;
S200.规则检测,基于审批原因文本数据构建文本特征数据,通过对文本特征数据的分析,结合预设规则和统计学原理,检测出异常审批原因数据,遍历所有审批操作日志历史数据,获得异常审批原因数据集合,记为集合A;
S300.文本分析,对审批原因文本数据进行分词,然后计算分词后的文本词语之间的相似度得分,再求得每条审批操作日志历史数据的平均分,若平均分较高,则认为该条审批操作日志历史数据为异常审批原因数据,遍历所有审批操作日志历史数据,获得异常审批原因数据集合,记作集合B;
S400.结果整合,A∪B得到审批操作日志历史数据中所有异常审批原因数据集,记作集合C。
2.根据权利要求1所述的一种系统审批理由随意性检测方法,其特征在于:所述步骤S100中采用python3的pandas和json包进行日志数据提取和解析,还获得申请人账号、审批人账号、申请时间、审批时间、审批结果、操作对象数据。
3.根据权利要求2所述的一种系统审批理由随意性检测方法,其特征在于:所述步骤S400之后还包括
步骤S500,审批人员追踪,根据步骤S400中的集合C,追溯审批审批人账户,从而追溯到审批人。
4.根据权利要求1至3任一所述的一种系统审批理由随意性检测方法,其特征在于:所述步骤S200中构建的文本特征数据包括“文本长度”、“文本中文个数”、“文本非中文和中文个数比例”;集合A中包括了采用“文本中文个数”和“文本非中文和中文个数比例”两种规则判断出的异常审批原因数据,其中
基于规则的“文本中文个数”判断具体为:根据经验判断,审批原因中中文个数小于设定值的,将被列为异常审批原因数据;
基于规则的“文本非中文和中文个数比例”判断具体为:使用箱形图对特征“文本非中文和中文个数比例”进行分析,计算该特征的外限,规定在上外限以外的值为异常审批原因数据。
5.根据权利要求1或2所述的一种系统审批理由随意性检测方法,其特征在于:所述步骤S300具体为:
S301.模型训练,首先获取语料,然后通过Hanlp汉语分词系统进行文档的分词,使用word2vec模型进行训练,得到目标模型;
S302.数据预处理,对审批原因文本数据进行清洗,仅保留中文部分,得到样本数据;然后对所有样本数据进行分词,得到分词后的审批原因样本数据
S303.相似度计算,针对步骤302中的样本数据,进行
1)用步骤S301中的目标模型计算某个样本数据中词语两两之间的相似度得分;
2)计算步骤1)中词语得分的平均值,作为该条审批原因文本数据的相似度得分;
3)循环步骤1)、2),直到遍历所有审批原因文本数据。
6.一种系统审批理由随意性检测系统,其特征在于:包括
数据采集模块,采集设定期限内的审批操作日志历史数据,对审批操作日志历史数据进行解析,至少获得审批原因文本数据;
规则检测模块,基于审批原因文本数据构建文本特征数据,通过对文本特征数据的分析,结合预设规则和统计学原理,检测出异常审批原因数据,遍历所有审批操作日志历史数据,获得异常审批原因数据集合,记为集合A;
文本分析模块,对审批原因文本数据进行分词,然后计算分词后的文本词语之间的相似度得分,再求得每条审批操作日志历史数据的平均分,若平均分较高,则认为该条审批操作日志历史数据为异常审批原因数据,遍历所有审批操作日志历史数据,获得异常审批原因数据集合,记作集合B;
结果整合模块,A∪B得到审批操作日志历史数据中所有异常审批原因数据集,记作集合C。
7.根据权利要求6所述的一种系统审批理由随意性检测系统,其特征在于:所述数据采集模块中采用python3的pandas和json包进行日志数据提取和解析,还获得申请人账号、审批人账号、申请时间、审批时间、审批结果、操作对象数据。
8.根据权利要求7所述的一种系统审批理由随意性检测系统,其特征在于:还包括审批人员追踪模块,根据所述集合C,追溯审批审批人账户,从而追溯审批人。
9.根据权利要求6至8任一所述的一种系统审批理由随意性检测系统,其特征在于:所述规则检测模块中构建的文本特征数据包括“文本长度”、“文本中文个数”、“文本非中文和中文个数比例”;集合A中包括了采用“文本中文个数”和“文本非中文和中文个数比例”两种规则判断出的异常审批原因数据,其中
基于规则的“文本中文个数”判断具体为:根据经验判断,审批原因中中文个数小于设定值的,将被列为异常审批原因数据;
基于规则的“文本非中文和中文个数比例”判断具体为:使用箱形图对特征“文本非中文和中文个数比例”进行分析,计算该特征的外限,规定在上外限以外的值为异常审批原因数据。
10.根据权利要求6或7所述的一种系统审批理由随意性检测方法,其特征在于:所述文本分析模块具体处理过程为:
模型训练,首先获取语料,然后通过Hanlp汉语分词系统进行文档的分词,使用word2vec模型进行训练,得到目标模型;
数据预处理,对审批原因文本数据进行清洗,仅保留中文部分,得到样本数据;然后对所有样本数据进行分词,得到分词后的审批原因样本数据
相似度计算,针对步所述样本数据,进行
1)用所述目标模型计算某个样本数据中词语两两之间的相似度得分;
2)计算步骤1)中词语得分的平均值,作为该条审批原因文本数据的相似度得分;
3)循环步骤1、2),直到遍历所有审批原因文本数据。
CN201911200342.7A 2019-11-29 2019-11-29 一种系统审批理由随意性检测方法及系统 Active CN110889283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911200342.7A CN110889283B (zh) 2019-11-29 2019-11-29 一种系统审批理由随意性检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911200342.7A CN110889283B (zh) 2019-11-29 2019-11-29 一种系统审批理由随意性检测方法及系统

Publications (2)

Publication Number Publication Date
CN110889283A true CN110889283A (zh) 2020-03-17
CN110889283B CN110889283B (zh) 2023-07-11

Family

ID=69749488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911200342.7A Active CN110889283B (zh) 2019-11-29 2019-11-29 一种系统审批理由随意性检测方法及系统

Country Status (1)

Country Link
CN (1) CN110889283B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987190A (zh) * 2021-11-16 2022-01-28 全球能源互联网研究院有限公司 一种数据质量校验规则提取方法及系统
WO2023098623A1 (zh) * 2021-12-03 2023-06-08 北京字跳网络技术有限公司 信息处理方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709345A (zh) * 2015-11-17 2017-05-24 武汉安天信息技术有限责任公司 基于深度学习方法推断恶意代码规则的方法、系统及设备
CN107861950A (zh) * 2017-11-28 2018-03-30 北京潘达互娱科技有限公司 异常文本的检测方法和装置
CN108090228A (zh) * 2018-01-09 2018-05-29 上海创图网络科技股份有限公司 一种通过文化云平台进行互动的方法及装置
US20180270261A1 (en) * 2017-03-17 2018-09-20 Target Brands, Inc. Word embeddings for anomaly classification from event logs
CN108614814A (zh) * 2018-04-20 2018-10-02 广东工业大学 一种评价信息的抽取方法、装置及设备
CN110189095A (zh) * 2019-04-28 2019-08-30 苏宁易购集团股份有限公司 一种工单审批的自动化处理方法及系统
CN110400129A (zh) * 2019-07-29 2019-11-01 政采云有限公司 一种事项审批的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709345A (zh) * 2015-11-17 2017-05-24 武汉安天信息技术有限责任公司 基于深度学习方法推断恶意代码规则的方法、系统及设备
US20180270261A1 (en) * 2017-03-17 2018-09-20 Target Brands, Inc. Word embeddings for anomaly classification from event logs
CN107861950A (zh) * 2017-11-28 2018-03-30 北京潘达互娱科技有限公司 异常文本的检测方法和装置
CN108090228A (zh) * 2018-01-09 2018-05-29 上海创图网络科技股份有限公司 一种通过文化云平台进行互动的方法及装置
CN108614814A (zh) * 2018-04-20 2018-10-02 广东工业大学 一种评价信息的抽取方法、装置及设备
CN110189095A (zh) * 2019-04-28 2019-08-30 苏宁易购集团股份有限公司 一种工单审批的自动化处理方法及系统
CN110400129A (zh) * 2019-07-29 2019-11-01 政采云有限公司 一种事项审批的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李海林等: "基于分类词典的文本相似性度量方法", 《智能系统学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987190A (zh) * 2021-11-16 2022-01-28 全球能源互联网研究院有限公司 一种数据质量校验规则提取方法及系统
CN113987190B (zh) * 2021-11-16 2023-02-28 国网智能电网研究院有限公司 一种数据质量校验规则提取方法及系统
WO2023098623A1 (zh) * 2021-12-03 2023-06-08 北京字跳网络技术有限公司 信息处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN110889283B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN110597964B (zh) 一种双录质检语义分析方法、装置及双录质检系统
WO2021068843A1 (zh) 一种情绪识别方法及装置、电子设备和可读存储介质
CN108376151A (zh) 问题分类方法、装置、计算机设备和存储介质
US20210117619A1 (en) Cyberbullying detection method and system
CN113468296B (zh) 可配置业务逻辑的模型自迭代式智能客服质检系统与方法
CN108550054B (zh) 一种内容质量评估方法、装置、设备和介质
CN109710766B (zh) 一种工单数据的投诉倾向分析预警方法及装置
CN113132368B (zh) 聊天数据的审核方法、装置及计算机设备
CN111078978A (zh) 一种基于网站文本内容的网贷网站实体识别方法及系统
CN110889283A (zh) 一种系统审批理由随意性检测方法及系统
CN112287100A (zh) 文本识别方法、拼写纠错方法及语音识别方法
CN112612890A (zh) 轨道车辆的故障识别方法及装置
CN107766560B (zh) 客服服务流程的评价方法和系统
CN113961424A (zh) 分布式系统的故障预测方法以及故障预测装置
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
US20190179895A1 (en) Intelligent content detection
Nini Corpus analysis in forensic linguistics
CN107992473B (zh) 基于逐点互信息技术的诈骗信息特征词提取方法及系统
CN112527866A (zh) 基于文本摘要情感挖掘的股票趋势预测方法和系统
CN110502745B (zh) 文本信息评价方法、装置、计算机设备和存储介质
CN111368838A (zh) 一种举报截图的识别方法及装置
CN114722954A (zh) 一种针对评价信息的内容异常处理方法和装置
CN115331675A (zh) 一种处理用户语音的方法及装置
CN114708117A (zh) 融合先验知识的用电安全检查评级方法、装置及设备
CN110795537B (zh) 一种确定目标商品的改进策略的方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant