CN115129808A

CN115129808A - 一种食药环热线类事件犯罪线索筛查方法及系统

Info

Publication number: CN115129808A
Application number: CN202210450556.5A
Authority: CN
Inventors: 甄沐华; 陈鹏; 范子杨; 王者
Original assignee: PEOPLE'S PUBLIC SECURITY UNIVERSITY OF CHINA
Current assignee: PEOPLE'S PUBLIC SECURITY UNIVERSITY OF CHINA
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-09-30

Abstract

本发明涉及一种食药环热线类事件犯罪线索筛查方法，属于线索筛查领域，所述方法基于词库构建步骤，通过利用中文数据关键信息抽取及词向量模型近似度匹配等自然语言处理方法，对关键词词汇信息进行识别提取以及扩展，对基本词集进行词义近似匹配，建立较为完整全面的犯罪线索专业词库，进而进行犯罪线索筛查。采用本发明公开的一种食药环热线类事件犯罪线索筛查方法，能够实现对数据中犯罪线索的科学、有效筛查，提升食药环业务部门的工作效率。

Description

一种食药环热线类事件犯罪线索筛查方法及系统

技术领域

本发明属于线索筛查领域，具体涉及一种食药环热线类事件犯罪线索筛查方法及系统。

背景技术

利用信息化处理技术处理特定业务使得特定部门提高了工作效率与打击特定行为的准确率。在此背景之下，特定部门对民生类特定行为事件接报和处理不再仅限于传统的自接特定行为事件接报，还能够通过网络舆情监测、第三方数据合作来实现。

对于中文文本事件关键信息的提取流程大多首先通过人工标记与挑选或者基于传统权重计算方法去衡量与选择，其次基于参考词林对事件关键信息进行迭代识别，最后通过语义近似匹配等相关算法进行事件关键词的扩充，如刘耕等采用基于广义的jaccard系数方法来计算得到敏感词的相关联词汇。关键词词库的构建可根据应用场景的不同来构建，构建的方法往往是基于各专业领域数据集，采用文本关键词提取方法，融合词频、词长、词语位置、近义词等影响因素建立词库。夏松等针对微博类社交平台短文本的特点设计LBCP抽词算法并结合语义近似匹配扩充种子词集来得到网络谣言敏感词库；刘亚桥等提出用TF-IDF训练结果词集及人工摄影情感基础词集对Word2Vec训练结果集进行领域重要程度修正，产生摄影领域情感词集；谭敏博通过对谷类作物病害相关数据建立Mysql数据库并以词频抽取法谷类作物病害特征数据表，实现对谷类作物病害特征属性识别的精准查询和个性化推送；侯丽采用N-Gram及各种过滤规则结合的术语识别公众日志数据，能较好地识别发现健康类词集；C.Quan等从情感类别符号、情绪强度、情感词、程度词、否定词、连词、修辞等识别情感种子词，从而完成情感词典的构建；F.Peng等利用线性链条件随机场(CRFs)来对不同结构的中文文本分词，进一步使用基于概率的检测方法进行新词识别检测；周强提出了一种多资源融合自动构建汉语谓词组合范畴语法(CCG)词库的方法，根据不同句法语义分布特征，融合形成CCG原型范畴表示，通过与资源信息的谓词匹配并完全重合后形成核心词库；K.J.Chen等通过统计信息以及语法语义上下文等信息进行新词识别；彭云等基于商品评论文本，从词义理解、句法分析等角度获得词语间语义关系，提出基于语义关系约束的主题模型SRC-LDA实现主题词的提取。

鉴于中文文本分析时需要解决不可避免的语义问题，在构造词库时，不能仅仅以基本词集作为未成型的专业词库，而仍然需要对基本词集进行词义近似匹配，扩充后得到较为完整的专业词库。词汇扩展与关键字扩展相似，通过词义近似或语义近似展开。H.Chen等以词典作未近似语义信息的词扩展集；S.Yu等通过调用嵌入在Web浏览器中的分析器来获取DOM结构以及视觉相关信息(所有视觉信息都来自HTML元素和属性)进行查询扩展；J.M.Pnote和W.B.Croft提出了将统计语言模型和信息检索相结合，使用词频和文档频率按综合频率对词信息进行排序；T.Pedersen和A.Kulkarni通过聚类实现类似的词的识别并应用于语义扩展；P.D.Turney等通过计算倾向性基准词与目标词汇间相似度的方法识别词汇语义倾向性；A.Neviarouskaya等通过同义词和反义词的关系、上下文语义关系、推导关系以及与已知的词汇单位复合来进行情感词典的扩展。

而信息化处理技术当前在食药环领域特定行为打击和民生热点监测监管的应用尚处于起步阶段。目前，我国食药环特定行为事件数据主要来源于市民热线的投诉举报类信息，处理方法也仅处于人工筛查阶段。食药环特定部门使用信息化处理技术尚存在情报来源不广泛，处理数据效率低，数据利用率低等问题。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种食药环热线类事件犯罪线索筛查方法及系统，所述方法基于词库构建步骤，能够对食药环数据犯罪关键信息进行抽取、对犯罪线索进行筛查与推送。

为达到以上目的，本发明采用的技术方案是：

第一方面，一种食药环热线类事件犯罪线索筛查方法，所述方法包括步骤：

S1、根据食药环事件全量语料库，建立犯罪线索专业词库；

S2、将待筛查数据的关键信息与犯罪线索专业词库中的数据进行匹配，匹配度超过预设阈值的，判定为犯罪线索。

进一步,步骤S1包括子步骤：

S11、对食药环事件全量语料库进行打标预处理；

S12、结合经验知识从词汇集抽取可表达疑似犯罪语义的关键词汇构成种子词集；

S13、对种子词集利用词向量模型进行扩展得到完备的专业词库，对种子词集进行扩展包括构建同类词集以及构建替代词集两方面。

进一步,步骤S11包括子步骤：

S111、搜集代表疑似犯罪语义的词汇，建立经验知识词集；

S112、参考所述经验知识词集对所述食药环事件全量语料库进行文本预处理。

进一步,步骤S112包括子步骤：

对所述食药环事件全量语料库进行中文分词、去除停用词、去除干扰词以及去除重复数据处理；

参考所述经验知识词集对所述食药环事件全量语料库中代表疑似犯罪语义的词汇进行打标处理，并对所述词汇的词性进行标注。

进一步,步骤S12包括子步骤：

S121、根据经过预处理的所述食药环事件全量语料库进行词向量模型训练；

S122、通过所述词向量模型从训练好的词向量文件中获取经验知识词集词向量；

S123、利用经验知识词集词向量在已知犯罪线索数据中查找相似度大于预设阈值的词汇作为种子词集。

进一步,步骤S13中构建同类词集包括子步骤：

S131、对所述种子词集中以短语句式呈现的词汇进行分词处理，并对切分后的词汇划分词性；

S132、根据分词后的种子词集在全量语料词向量中将相似度大于预设阈值的词汇作为同类词集。

进一步,步骤S13中构建替代词集包括利用步骤S123中所述种子词集的词向量，结合近义词查找工具产生种子词集的替代词集。

进一步,对于单条待筛查数据，首先进行单词集中词汇碰撞匹配，其次计算单词集与所述单条待筛查数据的相似度加权值，再次计算三类共六个词集与该条数据的相似度加权值积分之和,最后与舆情领域公开敏感词集匹配词汇数积分得到结果。

进一步,步骤S2包括子步骤：

S21、对待筛查数据进行文本预处理；

S22、采用分层抽样方法计算所述种子词集的回溯值；

S23、计算匹配词集词汇与待筛查文本相似度；

S24、计算所述待筛查文本的积分值，将积分值高于预设积分阈值的待筛查数据判定为犯罪线索。

第二方面，一种食药环热线类事件犯罪线索筛查系统，所述系统采用如第一方面及其可选实施方式中所述的一种食药环热线类事件犯罪线索筛查方法实现食药环热线类事件犯罪线索筛查。

本发明的效果在于：本发明所公开的一种食药环热线类事件犯罪线索筛查方法及系统，所述方法基于词库构建步骤，通过利用中文数据关键信息抽取及词向量模型近似度匹配等自然语言处理方法，建立犯罪线索专业词库，进而进行犯罪线索筛查，能够实现对数据中犯罪线索的科学、有效筛查，提升食药环业务部门的工作效率。

附图说明

图1为本发明实施例示出的一种食药环热线类事件犯罪线索筛查方法中建立犯罪线索专业词库步骤的方法流程图；

图2为本发明实施例示出的一种食药环热线类事件犯罪线索筛查方法中构建种子词集步骤的方法流程图；

图3为本发明实施例示出的一种食药环热线类事件犯罪线索筛查方法中构建同类词集步骤的方法流程图；

图4为本发明实施例示出的一种食药环热线类事件犯罪线索筛查方法中构建替代词集步骤的方法流程图；

图5为本发明实施例示出的一种食药环热线类事件犯罪线索筛查方法中单条数据积分步骤的方法流程图；

图6为本发明实施例示出的一种食药环热线类事件犯罪线索筛查方法中计算单条数据下某词集相似度步骤的方法流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步描述。

实施例一

本发明实施例公开一种食药环热线类事件犯罪线索筛查方法,所述方法包括步骤：

S1、根据食药环事件全量语料库，建立犯罪线索专业词库。

如图1所示，步骤S1包括子步骤：

S11、对食药环事件全量语料库进行打标预处理；

S12、结合经验知识从词汇集抽取可表达犯罪语义的关键词汇构成种子词集；

S13、对种子词集利用词向量模型进行扩展得到完备的专业词库。

对种子词集进行扩展包括构建同类词集以及构建替代词集两方面。

其中，步骤S11所述全量语料库进行打标预处理包括子步骤：

S111、搜集代表疑似犯罪语义的词汇，建立经验知识词集。

食药环案件语料中一般以“地点”+“事件”+“处理结果”为信息构成。执法人员往往是通过查看“处理结果”中可代表疑似犯罪语义的词汇，如“已立案”、“勒令”以及“停业整顿”等，以做出判断为犯罪线索的依据。

本发明通过与执法人员对接沟通，以建立经验知识词集。需要注意的是，若业务部门具有一套犯罪线索筛查时可代表犯罪语义的词汇集合，则可将此词汇集合直接作为经验知识词集。

在具体的实施例中，经验知识词集可分为两类：代表意思疑似犯罪语义的词汇，例如“勒令”“取缔”“立案调查”等；以及代表明确排除犯罪语义的词汇，例如“恶意举报”“取消投诉”“重复投诉”等。需要注意的是，两类经验知识词集中的词汇数量应不小于15。

S112、参考经验知识词集对全量数据进行文本预处理。

对全量数据进行文本预处理，包括中文分词、去除停用词、去除干扰词以及去除重复数据等；与此同时参考经验知识词集对数据中代表疑似犯罪语义的词汇进行打标处理，包括对词汇及词性进行标注。

如图2所示，步骤S12所述构成种子词集包括子步骤：

S121、根据经过预处理的全量数据语料进行词向量模型训练。

在本实施例中，使用基于Python语言的自然语言处理工具Gensim库中词向量模型训练工具Word2Vec，以经过预处理的全量数据语料(reduse_corpus)作为训练语料库，得到训练好的词向量模型model_w2c_training，同时得到reduse_corpus中词汇的词向量并存储为文件corpus_embedding。

S122、获取经验知识词集词向量。

通过mode_w2v_training词向量模型，从corpus_embedding词向量文件中得到经验知识词集词向量。

食药环事件全量语料库中的数据包括已知犯罪线索数据、非犯罪线索数据以及其他未知数据(无标签数据)。

以经验知识词汇集为学习集，通过mode_w2v_training词向量模型，利用NMLSIM工具在已知犯罪线索数据中查找相似度大于0.6的词汇，经过人工鉴别后得到种子词集(seed_dic)。

需要注意的是，种子词集中句式呈现可为短语句式或独立词汇。例如，“已立案调查”为短语句式，可切分为“已”“立案”“调查”三个独立词汇，其中“已”和“调查”在非语境情况下单独理解不足以构成意思犯罪语义，进一步分析可知“已”为连词词性、表达时间语义，“调查”为动词词性、表达模糊犯罪语义视为中立词汇。以上两类词汇在全量语料中出现频次较高，为了避免上述词汇经过词频统计操作后造成后续积分影响，将在积分规则中对种子词集中的词汇作权重值设定。

在具体实施例中，根据经验知识集分类，种子词集也对应地分为两类：可代表意思疑似犯罪线索数据语义的词汇(userdic)，可代表明确非犯罪线索数据语义的词汇(0_userdic)，部分种子词集示例及积分权重值参照表1-3。

表1部分种子词集示例表

表2代表疑似犯罪线索数据语义词汇的部分种子词集示例及积分权重值表

表3代表明确非犯罪线索数据语义词汇的部分种子词集示例及积分权重值表

word	P<sub>(word)</sub>
		进行	0.998
不再	0.998
		反映	0.996
不	0.995
		当事人	0.994
考核	0.993
		正常	0.990
计入	0.988
		未	0.982
不计	0.980
		…	…

如图3所示，步骤S13所述对种子词集进行扩展包括构建同类词集，步骤构建同类词集包括子步骤：

S131、对种子词集中以短语句式呈现的词汇进行分词处理。

对种子词集中以短语句式呈现的词汇利用Jieba中文分词工具做分词处理(segseed)以方便后续词频统计，并对切分后的词汇划分词性。

S132、根据分词后种子词集将相似度大于预设阈值的词汇作为同类词集。

此步骤采用一种利用余弦距离计算词汇相似度方法(Cosin Similar)得到同类词集。通过步骤S122中全量语料词向量模型和词向量得到分词后种子词集的词向量(seg_seed_embedding)，将两种词向量输入余弦相似度计算模型。以分词后种子词集的词向量为遍历对象，在全量语料词向量中寻找相似度结果大于0.6的词汇，集合作为同类词集(similar)。

在具体实施例中，根据种子词集分类，同类词集也对应地分为两类：可代表疑似犯罪线索数据语义的种子词汇的同类词汇(userdic_similar)，可代表明确非犯罪线索数据语义的词汇的同类词汇(0_userdic_similar)，部分同类词集示例及积分权重值参照表4-6。

表4部分同类词集示例表

表5代表疑似犯罪线索数据语义词汇的部分同类词集示例及积分权重值表

表6代表明确非犯罪线索数据语义词汇的部分同类词集示例及积分权重值表

word	P<sub>(word)</sub>
		不计	1.000
考核	0.704
		记入	0.678
不记	0.739
		满意率	0.659
考核成绩	0.688
		酌情	0.638
纳入	1.000
		列入	0.750
列为	0.685
		…	…

如图4所示，步骤S13所述对种子词集进行扩展还包括构建替代词集，步骤构建替代词集包括子步骤：

利用步骤S122中种子词集的词向量，结合近义词查找工具Synonyms产生种子词集的替代词集(synonym)，如“劝诫”的替代词有：告诫、责备、训诫等，“取缔”的替代词有：严查、查禁、禁绝、严打等。

具体实施例中，根据种子词集分类，替代词集也对应地分为两类：可代表疑似犯罪线索数据语义的种子词汇的替代词汇(userdic_synonym)；可代表明确非犯罪线索数据语义的词汇的替代词汇(0_userdic_synoym)，部分替代词集示例及积分权重值参照表7-9。

表7部分替代词集示例表

表8代表疑似犯罪线索数据语义词汇的部分替代词集示例及积分权重值表

表9代表明确非犯罪线索数据语义的词汇的部分替代词集示例及积分权重值表

word	P<sub>(word)</sub>
		不	1.000
不能	0.786
		没有	0.764
不会	0.759
		绝不	0.723
计入	1.000
		扣除	0.775
算入	0.732
		扣减	0.645
剔除	0.608
		…	…

如图5所示，图5是单条数据积分流程图。步骤S2中犯罪线索筛查采用一种词频统计回溯权重、词汇相似度匹配结合的积分规则进行数据中疑似犯罪线索的筛查。对于单条待筛查数据(data)，首先进行单词集中词汇碰撞匹配(match(word,seg))，其次计算单词集与该条数据的相似度加权值(sim(one_dic,data))，再次计算三类共六个词集与该条数据的相似度加权值积分之和(sum(six_dic,data)),最后与舆情领域公开敏感词集匹配词汇数积分得到结果(result)。

三类共六个词集指2个种子词集，2个同类词集以及2个替代词集。

步骤S2包括子步骤：

S21、对待筛查数据进行文本预处理。

对待筛查数据进行文本预处理包括文本分词、去除停用词以及去除干扰词等。待筛查数据经过文本预处理后可用集合表示为

T＝{seg|seg₀,seg₁,…,seg_n,n∈N}。

S22、采用分层抽样方法计算种子词集回溯值。

针对种子词集中存在连词及中立词词性词汇存在情况，设定回溯值概念，即种子词集中词汇在全量数据匹配到犯罪线索数目。根据回溯值概念得到种子词集中词汇的回溯值。

具体实施例中，词集可表示为D＝{phrase|phrase₀,phrase₁,…,phrase_n,n∈N}，短语句式分词后表示为phrase_n＝{word|word₀,word₁,…,word_n,i∈N}，种子词汇回溯值为P_(word)＝n_(word)/N_(word)(其中P_(word)代表种子词汇回溯值，n_(word)代表种子词汇回溯数，N_(word)代表词频。)

需要注意的是，由于userdic中疑似犯罪语义多为短语表达，连词和中立词性的词汇在回溯数汇中占比高，但所在数据不一定表达为疑似犯罪语义，一些疑似或确定犯罪语义词汇则需要结合语境判断该条数据是否犯罪。例如，“取缔”一词为疑似犯罪语义，在语境中两种表达：“执法人员已对该店予以取缔”，“若该店仍不整改，将对其取缔”；“拍照”一词为中立语义，在语境中的两种表达：“未发现举报所述产品过期事实，执法人员已对产品拍照取证”，“该诊所未办理营业执照，执法人员已对涉事诊所拍照取证”。经验证，无论何种词性的词汇，userdic词集中词汇的回溯数体现出了犯罪线索数据在全量数据中仍然为少数占比这一特性。对于0_userdic词集，回溯数与词频成正比，也即n_(word)∝N_(word)，回溯值趋于稳定，多集中于区间[0.8,1]。分析可知，由于0_userdic中词确定非犯罪语义多为独立词汇表达，连词和中立词性的词汇在回溯数汇中占比低，所在数据大多表达为确定非犯罪语义。

S23、计算某词集词汇与待筛查文本相似度。

参阅图6，图6为积分流程图，图6为本发明所述单条数据下某词集(Dic)相似度计算N-S图。针对单条待筛查数据，SUM值为其积分总值，由各类型词集积分值构成。具体的，首先进行词汇与词汇之间匹配碰撞并输出以词集为基准的相似度，其次以词集词汇权重值与相似度做乘积得到该词汇的相似值，再次遵照以上做法遍历词集词汇相加各个词集词汇的相似值得到待筛查文本相似度加权积分。各类型词集积分值由对应的userdic类型和0_userdic两个两词集积分值构成。各个词集的积分值构成为：符合条件(相似度大于0.6)的单一词汇的相似度，权重值，匹配到相同词汇个数。除此之外，舆情领域公开敏感词集只做相同词汇计数积分处理。

S24、计算待筛查文本积分值，将积分值高于预设积分阈值的单条数据判定为犯罪线索。

以S表示文本相似度，userdic类词集设定积分权重系数总和为100分，种子词汇(seed)占比40％，同类词汇(similar)权重系数为30％，替代词汇(synonym)权重系数为30％；0_userdic类词汇设定积分权重统一为-1分，得到各类型词集的与单条待筛查数据的相似度，公式如下：

S_(seed)＝4S_{(seed_u)}+(-1)S_{(seed_0)}。。。。。。公式(1)

S_(similar)＝3S_{(similar_u)}+(-1)S_{(similar_0)}。。。。。。公式(2)

S_(synonym)＝3S_{(synonym_u)}+(-1)S_{(synonym_0)}。。。。。.公式(3)

结合公式(1)(2)(3)，单条数据data的积分值计算规则如下：SUM_(data)＝S_(seed)+S_(similar)+S_(synonym)+Counts_(internet)

其中，下标后缀”_u”和”_0”分别代表userdic类型词集和0_userdic类型词集，Counts_(internet)代表匹配过程中出现的舆情领域公开敏感词集中不重复计数的词汇数目。

通过以上步骤得到单条数据的积分值，积分值高的作为犯罪线索输出，推送至执法人员；积分值低的为正常食药环事件，存档备案。

实战中，对食药环事件数据的关注字段主要为“来电类别”、“问题描述”以及“办理情况”。执法办案人员会重点关注来电类别中的求助、投诉、举报类型数据。如上所述，公安业务部门获取的食药环数据是已由其他有关政府部门对数据中事件问题处理后的数据，执法人员通过查看各事件的“办理情况”字段以提取可能涉犯罪事件的关键信息。常见的关键信息有“立案调查”“取缔”“勒令”“情节严重”“调查属实”等。若“办理情况”数据中出现此类关键信息，执法人员则会对此条数据的“问题描述”“办理情况”字段内容通读查看，进一步判断是否为涉犯罪事件。本发明旨在利用自动化手段实现上述过程，也即通过提取涉犯罪事件的关键信息筛查可能涉犯罪事件数据。

通过上述实施例可以看出，本发明公开的一种食药环热线类事件犯罪线索筛查方法，所述方法基于词库构建步骤，通过利用中文数据关键信息抽取及词向量模型近似度匹配等自然语言处理方法，对关键词词汇信息进行识别提取以及扩展，对基本词集进行词义近似匹配，建立较为完整全面的犯罪线索专业词库，进而进行犯罪线索筛查。采用本发明公开的一种食药环热线类事件犯罪线索筛查方法，能够实现对数据中犯罪线索的科学、有效筛查，提升食药环业务部门的工作效率。

实施例二

本发明实施例公开一种食药环热线类事件犯罪线索筛查系统,所述系统采用如本发明实施例一中所述的一种食药环热线类事件犯罪线索筛查方法实现食药环热线类事件犯罪线索筛查。

本发明所述的方法及系统并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出其他的实施方式，同样属于本发明的技术创新范围。

Claims

1.一种食药环热线类事件犯罪线索筛查方法，所述方法包括步骤：

S1、根据食药环事件全量语料库，建立犯罪线索专业词库；

2.根据权利要求1所述的一种食药环热线类事件犯罪线索筛查方法，其特征在于，步骤S1包括子步骤：

S11、对食药环事件全量语料库进行打标预处理；

3.根据权利要求2所述的一种食药环热线类事件犯罪线索筛查方法，其特征在于，步骤S11包括子步骤：

S111、搜集代表疑似犯罪语义的词汇，建立经验知识词集；

4.根据权利要求3所述的一种食药环热线类事件犯罪线索筛查方法，其特征在于，步骤S112包括子步骤：

参考所述经验知识词集对所述食药环事件全量语料库中代表疑似犯罪语义的词汇进行打标预处理，并对所述词汇的词性进行标注。

5.根据权利要求2所述的一种食药环热线类事件犯罪线索筛查方法，其特征在于，步骤S12包括子步骤：

6.根据权利要求5所述的一种食药环热线类事件犯罪线索筛查方法，其特征在于，步骤S13中构建同类词集包括子步骤：

7.根据权利要求6所述的一种食药环热线类事件犯罪线索筛查方法，其特征在于，步骤S13中构建替代词集包括利用步骤S123中所述种子词集的词向量，结合近义词查找工具产生种子词集的替代词集。

8.根据权利要求7所述的一种食药环热线类事件犯罪线索筛查方法，其特征在于：对于单条待筛查数据，首先进行单词集中词汇碰撞匹配，其次计算单词集与所述单条待筛查数据的相似度加权值，再次计算三类共六个词集与所述单条待筛查数据的相似度加权值积分之和,最后与舆情领域公开敏感词集匹配词汇数积分得到结果。

9.根据权利要求8所述的一种食药环热线类事件犯罪线索筛查方法，其特征在于，步骤S2包括子步骤：

S21、对待筛查数据进行文本预处理；

S22、采用分层抽样方法计算所述种子词集的回溯值；

S23、计算匹配词集词汇与待筛查文本相似度；

10.一种食药环热线类事件犯罪线索筛查系统，其特征在于：所述系统采用如权利要求1-9中任一权利要求所述方法实现食药环热线类事件犯罪线索筛查。