CN106919700B - 基于并行化cep处理的语义驱动犯罪线索实时推荐方法 - Google Patents
基于并行化cep处理的语义驱动犯罪线索实时推荐方法 Download PDFInfo
- Publication number
- CN106919700B CN106919700B CN201710135699.6A CN201710135699A CN106919700B CN 106919700 B CN106919700 B CN 106919700B CN 201710135699 A CN201710135699 A CN 201710135699A CN 106919700 B CN106919700 B CN 106919700B
- Authority
- CN
- China
- Prior art keywords
- total weight
- text
- semantic
- webpage
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了Web信息实时推荐领域中的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,包括:爬取指定深度的网页文本;提取爬取网页文本的正文,提取正文关键词;依据某一具体犯罪类别的术语构建语义树,将语义树与提取的关键词匹配;根据语义树编写计算总权值的CEP的事件模式;多个CEP引擎并行处理事件模式,同时对总权值进行归一化和降序排序,将排在前面的网页实时推荐给用户。本发明通过基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,能够使得推荐的结果更加准确同时能够适应大数据的场景。
Description
技术领域
本发明属于Web信息实时推荐领域,尤其涉及一种基于并行化CEP处理的语义驱动犯罪线索实时推荐方法。
背景技术
随着互联网的快速发展,网络的信息呈指数式增长,传统的信息推荐方法如协同过滤方法等,应对于海量数据和实时性要求比较高的时候,便凸显了自己的不足之处。网络技术的诞生和发展,也为案件侦查提供更加广阔的途径。依靠网络开展犯罪线索搜集将成为案件侦查的新方法。因此如何从海量的数据中快速的查找有价值的线索并实时地推荐给相关部门是案件侦查亟需解决的问题。
而现有的一些犯罪线索信息推荐方法主要是利用用户定义的关键词集合,根据文章提取的关键词与关键词集合进行匹配,算出其匹配的关键字的个数,根据个数的大小决定其推荐价值。传统的这种方法忽略了关键词词之间的语义关系且处理过程是集中式的。
发明内容
本发明结合上述背景技术中提到的问题,提出一种基于并行化CEP处理的语义驱动犯罪线索实时推荐方法。
为了实现上述目的,本发明提出的技术方案是基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,包括:
爬取指定深度的网页文本;
提取爬取网页文本的正文,提取正文关键词;
依据某一具体犯罪类别的术语构建语义树,将语义树与提取的关键词匹配;
根据语义树编写计算总权值的CEP的事件模式;
多个CEP引擎并行处理事件模式,同时对总权值进行归一化和降序排序,将排在前面的网页实时推荐给用户。
本发明提出的复杂事件处理技术保证了事件处理的实时性,并行化处理保证了海量数据的处理能力,同时在关键词匹配过程中加入关键词之间的语义关系,提高推荐的准确性。
附图说明
图1为基于并行化CEP处理的语义驱动犯罪线索实时推荐方法的流程图;
图2,3,4为职务犯罪的三大类别的犯罪语义树;
图5为总权值不小于0.3实验指标排序准确度的比较;
图6为总权值不小于0.3实验指标排序召回率的比较;
图7为总权值不小于0.3实验指标排序F-测量值的比较。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
实施例1
图1是基于并行化CEP处理的语义驱动犯罪线索实时推荐方法的流程图,图1中,发明提供的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法包括:
步骤1:分析法制网和中国法院网的要闻,民主法治网的反腐,中国廉政网的热点透视等指定网站的栏目结构,根据各网站栏目的URL编写爬虫程序。
步骤2:运行爬虫程序爬取各网站栏目的URL。在爬取过程中使用Jsoup解析技术抽取子链接,同时使用布隆过滤器对子链接进行URL重复性检测,若没重复,则执行步骤3,否则丢弃;
步骤3:对子链接进行爬取并使用Jsoup解析技术抽取出子链接所代表的网页文本中的标题,发布时间和正文等;
步骤4:使用Ansj技术对正文进行关键词提取,设置关键词的个数为80,并得到一个关键词集合,将关键词集合、标题、发布时间以及网页文本的URL一起存入Kafka消息系统;
步骤5:依据职务犯罪类别的术语的分类关系和相关关系,分类关系如职务犯罪分为三大类:贪污受贿罪,渎职罪和侵犯公民人身权利、民主权利罪,相关关系如贪污是贪污罪的特征。将职务犯罪的类别名,罪名和具体的特征放入职务犯罪词汇库,根据职务犯罪词汇库中的术语关系,手动构建三棵犯罪语义树,如图2,3,4所示,在树中,第一层结点和第二层结点为分类关系,第二层结点和叶子结点为相关关系;
步骤6:读取kafka中的消息,利用职务犯罪的三棵犯罪语义树与消息的关键词集合进行匹配。在匹配过程中,如果匹配上的某结点存在上层结点,则需将上层结点放入已匹配结点集合,直到上层结点为根节点,因此关键词的匹配先从犯罪语义树的叶子结点开始,从下往上。且在已匹配结点集合中,每个结点只出现一次,最后计算每层匹配的结点个数,并将结果再次存入kafka中。如已匹配的结点为贪污,则将贪污,贪污罪和贪污贿赂罪一起放到已匹配结点集合中,当再出现贪污罪或者贪污贿赂罪时,将不再放入已匹配结点集合;这样的语义关系有利于区分在某些情况下文本价值相等的问题,提高了推荐准确性。
步骤7:设结点所在层数为其权值,例如贪污出现在图2所示的树中的第三层,因此权值为3。网页文本的总权值便是每层匹配的结点个数与其权值的乘积之和。总权值的计算公式为:
Re表示总权值,wi表示每层结点对应的权值,li表示每层关键词匹配的个数。
根据步骤7中总权值的计算公式,进一步说明步骤6中的语义关系对推荐结果的影响。例如文本1出现的三个关键词结点为渎职罪、非法批准征用土地和徇私枉法,文本2出现的三个关键词结点为渎职罪、滥用职权和玩忽职守。根据图3所示的渎职罪犯罪语义树可知,文本1出现的渎职罪位于树的第一层,因此权值为1,第一层出现的关键词个数为1,非法批准征用土地和徇私枉法出现在树的第三层,因此权值为3,第三层出现的关键词个数为2,同样可以算出文本2第一层出现的关键词个数为1,第三层出现的关键词为2,在计算时若不加匹配结点对应的父节点,则两个文本根据权值计算公式得出的总权值为1×1+3×2=7,推荐的优先级相同。在加入匹配结点对应的父节点后,文本1出现的关键词结点为渎职罪、徇私舞弊罪、非法批准征用土地和徇私枉法,根据每层关键词所出现的个数和权值计算得出文本1的总权值为1×1+2×1+3×2=9,文本2出现的关键词结点为渎职罪、滥用职权罪、玩忽职守罪、滥用职权和玩忽职守,同样根据每层出现的关键词个数和权值计算得出文本2的总权值1×1+2×2+3×2=11,文本2的权值比文本1的权值大,文本2与职务犯罪越相关。
步骤8:根据总权值的计算公式,使用CEP引擎Esper的EPL(Event ProcessingLanguage,事件处理语言)编写计算总权值的事件模式,将CEP的处理逻辑封装在Storm的Bolt组件中,在Storm的拓扑中设置Bolt的并行度大于1,以达到并行化处理,同时Storm的Spout组件从kafka中读取数据发送给Bolt组件;
步骤9:为进行实验结果的对比,对每个网页文本计算出来的总权值进行归一化处理,归一化处理后的总权值在0~1之间,将总权值越高的网页优先推荐给用户,归一化处理的公式定义为:
网页文本集合的大小为n,Wmax表示的是网页文本集合中总权值最大的,Wmin表示的是网页文本集合中总权值最小的,Wi表示为每个网页文本的总权值,Wi'(1≤i≤n)则表示网页文本集合中每个总权值归一化处理后对应的值。
步骤10:对归一化后的结果进行降序排序,将排在前面的网页推荐给用户。在归一化后总权值不小于0.3的原则下,利用排序准确率R,排序召回率P和排序F-测量值F三个实验指标,对本发明提出的方法和传统方法的实验结果进行对比,计算公式分别如下所示:
排序准确率R为:
排序召回率P为:
排序F-测量值F为:
集合A表示排序结果中权值不小于0.3的文本数据的集合。集合B表示检索到的文本数据的集合,实际上可以通过计算和收集实验文本数据集中权值大于0的那些文本数据得到。集合C表示实验数据集中所有的文本数据。
图5,6,7分别为排序准确率,排序召回率和排序F-测量值的实验结果对比图。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (3)
1.基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,其特征在于,包括:
步骤1)爬取指定深度的网页文本,具体为:
步骤11)分析指定网站的结构,根据种子URL编写爬虫程序;
步骤12)运行爬虫程序爬取种子URL,在爬取过程中使用网页解析技术抽取子链接;
步骤13)同时对子链接进行URL重复性检测,对重复的子链接丢弃;
步骤2)提取爬取网页文本的正文,提取正文关键词,具体为:
步骤21)对网页的子链接进行爬取并使用网页解析技术抽取出子链接所代表的网页文本中的标题,发布时间和正文;
步骤22)对正文使用关键词提取技术,得到一个关键词集合,将关键词集合、标题、发布时间以及网页文本的URL一起存入消息系统;
步骤3)依据某一具体犯罪类别的术语构建语义树,将语义树与提取的关键词匹配,具体为:
步骤31)依据某一具体犯罪类别的术语的分类关系和相关关系,手动的将某一具体犯罪类别词汇库中的术语构建一棵犯罪的语义树;
步骤32)语义树从下到上对提取到的消息系统中的关键词进行匹配,得到一个关于犯罪语义树中每层结点的匹配个数的集合;
步骤4)根据语义树的树中每层结点的匹配个数以及权值的设置,编写计算总权值的CEP的事件模式,具体为:
设结点所在层数为其权值,网页文本的总权值便是每层匹配的结点个数与其权值的乘积之和,总权值的计算公式为:
Re表示总权值,wi表示i层结点对应的权值,li表示i层关键词匹配的个数,结点个数为n,Re的值越大则表示与某一具体犯罪类别的相关性越高;
步骤5)多个CEP引擎并行处理事件模式,同时对总权值进行归一化和降序排序,将排在前面的网页实时推荐给用户。
3.根据权利要求1所述的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,其特征在于,该方法还包括:
在将语义树与提取的关键词匹配过程中,如果匹配上的某结点存在上层结点,则需将上层结点放入已匹配结点集合,直到上层结点为根节点,因此关键词的匹配先从犯罪语义树的叶子结点开始,从下往上进行,且在已匹配结点集合中,每个结点只出现一次,最后计算每层匹配的结点个数,并将结果再次存入消息系统中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710135699.6A CN106919700B (zh) | 2017-03-09 | 2017-03-09 | 基于并行化cep处理的语义驱动犯罪线索实时推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710135699.6A CN106919700B (zh) | 2017-03-09 | 2017-03-09 | 基于并行化cep处理的语义驱动犯罪线索实时推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106919700A CN106919700A (zh) | 2017-07-04 |
CN106919700B true CN106919700B (zh) | 2020-05-22 |
Family
ID=59462030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710135699.6A Active CN106919700B (zh) | 2017-03-09 | 2017-03-09 | 基于并行化cep处理的语义驱动犯罪线索实时推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106919700B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268613B (zh) * | 2021-04-30 | 2024-04-09 | 上海右云信息技术有限公司 | 一种用于获取侵权线索的方法、设备、介质及程序产品 |
CN116360954B (zh) * | 2023-05-31 | 2023-12-29 | 中轻(贵州)工业互联网有限公司 | 基于云边协同技术的工业物联网管控方法和管控系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102446217A (zh) * | 2010-10-05 | 2012-05-09 | 富士通株式会社 | 复合事件处理设备和复合事件处理方法 |
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
CN103593721A (zh) * | 2012-08-13 | 2014-02-19 | 中国商用飞机有限责任公司 | 基于复杂事件处理的业务流程监控方法 |
US8775389B2 (en) * | 2011-03-06 | 2014-07-08 | International Business Machines Corporation | Implementing continuous control monitoring for audit purposes using a complex event processing environment |
CN105074698A (zh) * | 2013-02-19 | 2015-11-18 | 甲骨文国际公司 | 并行地执行连续事件处理(cep)查询 |
-
2017
- 2017-03-09 CN CN201710135699.6A patent/CN106919700B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102446217A (zh) * | 2010-10-05 | 2012-05-09 | 富士通株式会社 | 复合事件处理设备和复合事件处理方法 |
US8775389B2 (en) * | 2011-03-06 | 2014-07-08 | International Business Machines Corporation | Implementing continuous control monitoring for audit purposes using a complex event processing environment |
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
CN103593721A (zh) * | 2012-08-13 | 2014-02-19 | 中国商用飞机有限责任公司 | 基于复杂事件处理的业务流程监控方法 |
CN105074698A (zh) * | 2013-02-19 | 2015-11-18 | 甲骨文国际公司 | 并行地执行连续事件处理(cep)查询 |
Non-Patent Citations (1)
Title |
---|
多事件模式并行CEP处理研究;荆心;《西安工业大学学报》;20140930;正文第715-719页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106919700A (zh) | 2017-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102929873B (zh) | 一种基于情境搜索提取搜索价值词的方法及装置 | |
Jalal et al. | Text documents clustering using data mining techniques. | |
CN106202382B (zh) | 链接实体方法和系统 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
US9600533B2 (en) | Matching and recommending relevant videos and media to individual search engine results | |
Firan et al. | Bringing order to your photos: event-driven classification of flickr images based on social knowledge | |
US9846744B2 (en) | Media discovery and playlist generation | |
CN103823824B (zh) | 一种借助互联网自动构建文本分类语料库的方法及系统 | |
JP4944405B2 (ja) | 情報検索システムにおけるフレーズに基づくインデックス化方法 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
KR101252670B1 (ko) | 연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 | |
CN104035972B (zh) | 一种基于微博的知识推荐方法与系统 | |
CN103927309B (zh) | 一种对业务对象标注信息标签的方法及装置 | |
JP2006048686A (ja) | フレーズに基づく文書説明の生成方法 | |
JP2006048684A (ja) | 情報検索システムにおけるフレーズに基づく検索方法 | |
US20110307479A1 (en) | Automatic Extraction of Structured Web Content | |
Shani et al. | Mining recommendations from the web | |
CN110555154B (zh) | 一种面向主题的信息检索方法 | |
CN110532480A (zh) | 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法 | |
CN106649823A (zh) | 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法 | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
CN106919700B (zh) | 基于并行化cep处理的语义驱动犯罪线索实时推荐方法 | |
CN107807964B (zh) | 数字内容排序方法、装置和计算机可读存储介质 | |
Wu et al. | Searching online book documents and analyzing book citations | |
Wang et al. | Re-ranking search results using semantic similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |