CN106919700A - 基于并行化cep处理的语义驱动犯罪线索实时推荐方法 - Google Patents

基于并行化cep处理的语义驱动犯罪线索实时推荐方法 Download PDF

Info

Publication number
CN106919700A
CN106919700A CN201710135699.6A CN201710135699A CN106919700A CN 106919700 A CN106919700 A CN 106919700A CN 201710135699 A CN201710135699 A CN 201710135699A CN 106919700 A CN106919700 A CN 106919700A
Authority
CN
China
Prior art keywords
crime
total weight
weight value
real
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710135699.6A
Other languages
English (en)
Other versions
CN106919700B (zh
Inventor
马应龙
马建刚
丁婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN201710135699.6A priority Critical patent/CN106919700B/zh
Publication of CN106919700A publication Critical patent/CN106919700A/zh
Application granted granted Critical
Publication of CN106919700B publication Critical patent/CN106919700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了Web信息实时推荐领域中的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,包括:爬取指定深度的网页文本;提取爬取网页文本的正文,提取正文关键词;依据某一具体犯罪类别的术语构建语义树,将语义树与提取的关键词匹配;根据语义树编写计算总权值的CEP的事件模式;多个CEP引擎并行处理事件模式,同时对总权值进行归一化和降序排序,将排在前面的网页实时推荐给用户。本发明通过基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,能够使得推荐的结果更加准确同时能够适应大数据的场景。

Description

基于并行化CEP处理的语义驱动犯罪线索实时推荐方法
技术领域
本发明属于Web信息实时推荐领域,尤其涉及一种基于并行化CEP处理的语义驱动犯罪线索实时推荐方法。
背景技术
随着互联网的快速发展,网络的信息呈指数式增长,传统的信息推荐方法如协同过滤方法等,应对于海量数据和实时性要求比较高的时候,便凸显了自己的不足之处。网络技术的诞生和发展,也为案件侦查提供更加广阔的途径。依靠网络开展犯罪线索搜集将成为案件侦查的新方法。因此如何从海量的数据中快速的查找有价值的线索并实时地推荐给相关部门是案件侦查亟需解决的问题。
而现有的一些犯罪线索信息推荐方法主要是利用用户定义的关键词集合,根据文章提取的关键词与关键词集合进行匹配,算出其匹配的关键字的个数,根据个数的大小决定其推荐价值。传统的这种方法忽略了关键词词之间的语义关系且处理过程是集中式的。
发明内容
本发明结合上述背景技术中提到的问题,提出一种基于并行化CEP处理的语义驱动犯罪线索实时推荐方法。
为了实现上述目的,本发明提出的技术方案是基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,包括:
爬取指定深度的网页文本;
提取爬取网页文本的正文,提取正文关键词;
依据某一具体犯罪类别的术语构建语义树,将语义树与提取的关键词匹配;
根据语义树编写计算总权值的CEP的事件模式;
多个CEP引擎并行处理事件模式,同时对总权值进行归一化和降序排序,将排在前面的网页实时推荐给用户。
本发明提出的复杂事件处理技术保证了事件处理的实时性,并行化处理保证了海量数据的处理能力,同时在关键词匹配过程中加入关键词之间的语义关系,提高推荐的准确性。
附图说明
图1为基于并行化CEP处理的语义驱动犯罪线索实时推荐方法的流程图;
图2,3,4为职务犯罪的三大类别的犯罪语义树;
图5为总权值不小于0.3实验指标排序准确度的比较;
图6为总权值不小于0.3实验指标排序召回率的比较;
图7为总权值不小于0.3实验指标排序F-测量值的比较。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
实施例1
图1是基于并行化CEP处理的语义驱动犯罪线索实时推荐方法的流程图,图1中,发明提供的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法包括:
步骤1:分析法制网和中国法院网的要闻,民主法治网的反腐,中国廉政网的热点透视等指定网站的栏目结构,根据各网站栏目的URL编写爬虫程序。
步骤2:运行爬虫程序爬取各网站栏目的URL。在爬取过程中使用Jsoup解析技术抽取子链接,同时使用布隆过滤器对子链接进行URL重复性检测,若没重复,则执行步骤3,否则丢弃;
步骤3:对子链接进行爬取并使用Jsoup解析技术抽取出子链接所代表的网页文本中的标题,发布时间和正文等;
步骤4:使用Ansj技术对正文进行关键词提取,设置关键词的个数为80,并得到一个关键词集合,将关键词集合、标题、发布时间以及网页文本的URL一起存入Kafka消息系统;
步骤5:依据职务犯罪类别的术语的分类关系和相关关系,分类关系如职务犯罪分为三大类:贪污受贿罪,渎职罪和侵犯公民人身权利、民主权利罪,相关关系如贪污是贪污罪的特征。将职务犯罪的类别名,罪名和具体的特征放入职务犯罪词汇库,根据职务犯罪词汇库中的术语关系,手动构建三棵犯罪语义树,如图2,3,4所示,在树中,第一层结点和第二层结点为分类关系,第二层结点和叶子结点为相关关系;
步骤6:读取kafka中的消息,利用职务犯罪的三棵犯罪语义树与消息的关键词集合进行匹配。在匹配过程中,如果匹配上的某结点存在上层结点,则需将上层结点放入已匹配结点集合,直到上层结点为根节点,因此关键词的匹配先从犯罪语义树的叶子结点开始,从下往上。且在已匹配结点集合中,每个结点只出现一次,最后计算每层匹配的结点个数,并将结果再次存入kafka中。如已匹配的结点为贪污,则将贪污,贪污罪和贪污贿赂罪一起放到已匹配结点集合中,当再出现贪污罪或者贪污贿赂罪时,将不再放入已匹配结点集合;这样的语义关系有利于区分在某些情况下文本价值相等的问题,提高了推荐准确性。
步骤7:设结点所在层数为其权值,例如贪污出现在图2所示的树中的第三层,因此权值为3。网页文本的总权值便是每层匹配的结点个数与其权值的乘积之和。总权值的计算公式为:
Re表示总权值,wi表示每层结点对应的权值,li表示每层关键词匹配的个数。
根据步骤7中总权值的计算公式,进一步说明步骤6中的语义关系对推荐结果的影响。例如文本1出现的三个关键词结点为渎职罪、非法批准征用土地和徇私枉法,文本2出现的三个关键词结点为渎职罪、滥用职权和玩忽职守。根据图3所示的渎职罪犯罪语义树可知,文本1出现的渎职罪位于树的第一层,因此权值为1,第一层出现的关键词个数为1,非法批准征用土地和徇私枉法出现在树的第三层,因此权值为3,第三层出现的关键词个数为2,同样可以算出文本2第一层出现的关键词个数为1,第三层出现的关键词为2,在计算时若不加匹配结点对应的父节点,则两个文本根据权值计算公式得出的总权值为1×1+3×2=7,推荐的优先级相同。在加入匹配结点对应的父节点后,文本1出现的关键词结点为渎职罪、徇私舞弊罪、非法批准征用土地和徇私枉法,根据每层关键词所出现的个数和权值计算得出文本1的总权值为1×1+2×1+3×2=9,文本2出现的关键词结点为渎职罪、滥用职权罪、玩忽职守罪、滥用职权和玩忽职守,同样根据每层出现的关键词个数和权值计算得出文本2的总权值1×1+2×2+3×2=11,文本2的权值比文本1的权值大,文本2与职务犯罪越相关。
步骤8:根据总权值的计算公式,使用CEP引擎Esper的EPL(Event ProcessingLanguage,事件处理语言)编写计算总权值的事件模式,将CEP的处理逻辑封装在Storm的Bolt组件中,在Storm的拓扑中设置Bolt的并行度大于1,以达到并行化处理,同时Storm的Spout组件从kafka中读取数据发送给Bolt组件;
步骤9:为进行实验结果的对比,对每个网页文本计算出来的总权值进行归一化处理,归一化处理后的总权值在0~1之间,将总权值越高的网页优先推荐给用户,归一化处理的公式定义为:
网页文本集合的大小为n,Wmax表示的是网页文本集合中总权值最大的,Wmin表示的是网页文本集合中总权值最小的,Wi表示为每个网页文本的总权值,Wi'(1≤i≤n)则表示网页文本集合中每个总权值归一化处理后对应的值。
步骤10:对归一化后的结果进行降序排序,将排在前面的网页推荐给用户。在归一化后总权值不小于0.3的原则下,利用排序准确率R,排序召回率P和排序F-测量值F三个实验指标,对本发明提出的方法和传统方法的实验结果进行对比,计算公式分别如下所示:
排序准确率R为:
排序召回率P为:
排序F-测量值F为:
集合A表示排序结果中权值不小于0.3的文本数据的集合。集合B表示检索到的文本数据的集合,实际上可以通过计算和收集实验文本数据集中权值大于0的那些文本数据得到。集合C表示实验数据集中所有的文本数据。
图5,6,7分别为排序准确率,排序召回率和排序F-测量值的实验结果对比图。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,其特征在于,包括:
爬取指定深度的网页文本;
提取爬取网页文本的正文,提取正文关键词;
依据某一具体犯罪类别的术语构建语义树,将语义树与提取的关键词匹配;
根据语义树编写计算总权值的CEP的事件模式;
多个CEP引擎并行处理事件模式,同时对总权值进行归一化和降序排序,将排在前面的网页实时推荐给用户。
2.根据权利要求1所述的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,其特征在于,爬取指定深度的网页文本,包括:
分析指定网站的结构,根据种子URL编写爬虫程序;
运行爬虫程序爬取种子URL,在爬取过程中使用网页解析技术抽取子链接;
同时对子链接进行URL重复性检测,对重复的子链接丢弃。
3.根据权利要求1所述的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,其特征在于,提取爬取网页文本的正文,提取正文关键词,包括:
对网页的子链接进行爬取并使用网页解析技术抽取出子链接所代表的网页文本中的标题,发布时间和正文;
对正文使用关键词提取技术,得到一个关键词集合,将关键词集合、标题、发布时间以及网页文本的URL一起存入消息系统。
4.根据权利要求1所述的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,其特征在于,依据某一具体犯罪类别的术语构建语义树,将语义树与提取的关键词匹配,包括:
依据某一具体犯罪类别的术语的分类关系和相关关系,手动的将某一具体犯罪类别词汇库中的术语构建一棵犯罪的语义树;
语义树从下到上对提取到的消息系统中的关键词进行匹配,得到一个关于犯罪语义树中每层结点的匹配个数的集合。
5.根据权利要求1所述的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,其特征在于,根据语义树的树中每层结点的匹配个数以及权值的设置,编写计算总权值的CEP的事件模式。
6.根据权利要求5所述的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,其特征在于,设结点所在层数为其权值,网页文本的总权值便是每层匹配的结点个数与其权值的乘积之和,总权值的计算公式为:
Re = Σ i = 1 n w i l i
Re表示总权值,wi表示每层结点对应的权值,li表示每层关键词匹配的个数(Re的值越大则表示与某一具体犯罪类别的相关性越高)。
7.根据权利要求1所述的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,其特征在于,对总权值进行归一化和降序排序,包括:
对每个网页文本计算出来的总权值进行归一化处理,归一化处理后的总权值在0~1之间,将总权值越高的网页优先推荐给用户,归一化处理的公式定义为:
W i ′ = W i - W min W max - W min
网页文本集合的大小为n,Wmax表示的是网页文本集合中总权值最大的,Wmin表示的是网页文本集合中总权值最小的,Wi表示为每个网页文本的总权值,Wi'(1≤i≤n)则表示网页文本集合中每个总权值归一化处理后对应的值。
8.根据权利要求1所述的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,其特征在于,该方法还包括:
在将语义树与提取的关键词匹配过程中,如果匹配上的某结点存在上层结点,则需将上层结点放入已匹配结点集合,直到上层结点为根节点,因此关键词的匹配先从犯罪语义树的叶子结点开始,从下往上进行,且在已匹配结点集合中,每个结点只出现一次,最后计算每层匹配的结点个数,并将结果再次存入消息系统中。
CN201710135699.6A 2017-03-09 2017-03-09 基于并行化cep处理的语义驱动犯罪线索实时推荐方法 Active CN106919700B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710135699.6A CN106919700B (zh) 2017-03-09 2017-03-09 基于并行化cep处理的语义驱动犯罪线索实时推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710135699.6A CN106919700B (zh) 2017-03-09 2017-03-09 基于并行化cep处理的语义驱动犯罪线索实时推荐方法

Publications (2)

Publication Number Publication Date
CN106919700A true CN106919700A (zh) 2017-07-04
CN106919700B CN106919700B (zh) 2020-05-22

Family

ID=59462030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710135699.6A Active CN106919700B (zh) 2017-03-09 2017-03-09 基于并行化cep处理的语义驱动犯罪线索实时推荐方法

Country Status (1)

Country Link
CN (1) CN106919700B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268613A (zh) * 2021-04-30 2021-08-17 上海右云信息技术有限公司 一种用于获取侵权线索的方法、设备、介质及程序产品
CN116360954A (zh) * 2023-05-31 2023-06-30 北京百星电子系统有限公司 基于云边协同技术的工业物联网管控方法和管控系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446217A (zh) * 2010-10-05 2012-05-09 富士通株式会社 复合事件处理设备和复合事件处理方法
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN103593721A (zh) * 2012-08-13 2014-02-19 中国商用飞机有限责任公司 基于复杂事件处理的业务流程监控方法
US8775389B2 (en) * 2011-03-06 2014-07-08 International Business Machines Corporation Implementing continuous control monitoring for audit purposes using a complex event processing environment
CN105074698A (zh) * 2013-02-19 2015-11-18 甲骨文国际公司 并行地执行连续事件处理(cep)查询

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446217A (zh) * 2010-10-05 2012-05-09 富士通株式会社 复合事件处理设备和复合事件处理方法
US8775389B2 (en) * 2011-03-06 2014-07-08 International Business Machines Corporation Implementing continuous control monitoring for audit purposes using a complex event processing environment
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN103593721A (zh) * 2012-08-13 2014-02-19 中国商用飞机有限责任公司 基于复杂事件处理的业务流程监控方法
CN105074698A (zh) * 2013-02-19 2015-11-18 甲骨文国际公司 并行地执行连续事件处理(cep)查询

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
荆心: "多事件模式并行CEP处理研究", 《西安工业大学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268613A (zh) * 2021-04-30 2021-08-17 上海右云信息技术有限公司 一种用于获取侵权线索的方法、设备、介质及程序产品
CN113268613B (zh) * 2021-04-30 2024-04-09 上海右云信息技术有限公司 一种用于获取侵权线索的方法、设备、介质及程序产品
CN116360954A (zh) * 2023-05-31 2023-06-30 北京百星电子系统有限公司 基于云边协同技术的工业物联网管控方法和管控系统
CN116360954B (zh) * 2023-05-31 2023-12-29 中轻(贵州)工业互联网有限公司 基于云边协同技术的工业物联网管控方法和管控系统

Also Published As

Publication number Publication date
CN106919700B (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN110059311B (zh) 一种面向司法文本数据的关键词提取方法及系统
Lehmberg et al. The mannheim search join engine
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN102929873B (zh) 一种基于情境搜索提取搜索价值词的方法及装置
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN107103043A (zh) 一种文本聚类方法及系统
CN109960756B (zh) 新闻事件信息归纳方法
CN106960063A (zh) 一种针对招商引资领域的互联网情报抓取和推荐系统
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN110334178A (zh) 数据检索方法、装置、设备及可读存储介质
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及系统
CN104298715B (zh) 一种基于tf‑idf的多索引结果合并排序方法
CN102495892A (zh) 一种网页信息抽取方法
CN104035972B (zh) 一种基于微博的知识推荐方法与系统
He et al. Ranking opinionated blog posts using OpinionFinder
CN106919700A (zh) 基于并行化cep处理的语义驱动犯罪线索实时推荐方法
CN106355455A (zh) 一种从网购用户评论中抽取产品特征信息的方法
Bordea et al. Evaluation dataset and methodology for extracting application-specific taxonomies from the Wikipedia knowledge graph
Zhang et al. A system for extracting top-k lists from the web
CN106844516A (zh) 一种热点词的提取方法及系统
Xue et al. Cross-media topic detection associated with hot search queries
Xu et al. Research on Tibetan hot words, sensitive words tracking and public opinion classification
CN112115269A (zh) 一种基于爬虫的网页自动分类方法
c Neethu et al. Retrieval of images using data mining techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant