CN111507110A - 一种突发事件检测方法、装置、设备及存储介质 - Google Patents
一种突发事件检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111507110A CN111507110A CN201910092796.0A CN201910092796A CN111507110A CN 111507110 A CN111507110 A CN 111507110A CN 201910092796 A CN201910092796 A CN 201910092796A CN 111507110 A CN111507110 A CN 111507110A
- Authority
- CN
- China
- Prior art keywords
- event
- trigger word
- graph
- key information
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 230000000875 corresponding effect Effects 0.000 claims description 55
- 239000012634 fragment Substances 0.000 claims description 24
- 238000001914 filtration Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 13
- 230000002596 correlated effect Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 206010042772 syncope Diseases 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 208000010496 Heart Arrest Diseases 0.000 description 2
- 206010049418 Sudden Cardiac Death Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 208000014221 sudden cardiac arrest Diseases 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种突发事件检测方法、装置、设备及存储介质,该方法包括:获取待检测事件的文本数据;提取文本数据中的关键信息,关键信息包括:关键词;根据关键信息生成触发词关系链;在预设的关键词库与触发词关系图的对应关系中,将与关键信息中的关键词对应的触发词关系图确定为目标触发词关系图;计算触发词关系链和目标触发词关系图的匹配度;若匹配度大于预设匹配阈值,则将待检测事件确定为突发事件。该方法可以缓解现有技术中存在的突发事件检测的效率低的问题,达到了提高突发事件检测效率的技术效果。
Description
技术领域
本申请涉及自然语言处理领域,尤其涉及一种突发事件检测方法、装置、设备及存储介质。
背景技术
随着移动互联技术的发展,微博、微信、脸书和推特等社交平台覆盖了大量的国内外用户。社交平台成为用户进行情感交流和表达观点的场所。由于用户在社交平台上发布与传播信息的门槛低、成本低,所以社会性的突发事件极易在社交平台上快速扩散,破坏社会的稳定性。
在实际应用中,现有技术依靠事件转发加速度和人工标注进行突发事件的检测,但是现有技术只有在事件扩散到一定程度的情况下,才能够检测到突发事件,在时间上具有延迟性,因此,存在突发事件检测的效率低的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种突发事件检测方法、装置、设备及存储介质。
第一方面,本申请实施例提供了一种突发事件检测方法,包括:
获取待检测事件的文本数据;
提取所述文本数据中的关键信息,所述关键信息包括:关键词;
根据所述关键信息生成触发词关系链;
在预设的关键词库与触发词关系图的对应关系中,将与所述关键信息中的关键词对应的触发词关系图确定为目标触发词关系图;
计算所述触发词关系链和所述目标触发词关系图的匹配度;
若所述匹配度大于预设匹配阈值,则将所述待检测事件确定为突发事件。
可选的,所述关键信息还包括:命名实体,所述根据所述关键信息生成触发词关系链,包括:
将所述关键信息中的关键词和命名实体组合成与所述文本数据对应的结构化文本;
根据所述结构化文本确定相互关联的至少两个事件片段;
按照所述事件片段发生的顺序,将相互关联的所述事件片段进行连接,得到事件片段链;
分别提取所述事件片段链中的每个事件片段的触发词;
按照所述事件片段发生的顺序,将与各个所述事件片段分别对应的触发词进行连接,得到所述触发词关系链。
可选的,所述计算所述触发词关系链和所述目标触发词关系图的匹配度,包括:
获取所述触发词关系链的结点总数;
将所述触发词关系链和所述目标触发词关系图进行匹配;
统计所述触发词关系链中、与所述目标触发词关系图相匹配的结点的数量,得到匹配结点数;
将所述匹配结点数除以所述结点总数,计算得到所述匹配度。
第二方面,本申请实施例提供了一种突发事件检测方法,包括:
获取多个新闻文本;
利用预设的关键词库与事件主题之间的对应关系,将多个所述新闻文本划分成多个新闻文本集合,每个所述新闻文本集合分别对应一个事件主题;
对于每个所述新闻文本集合,过滤掉所述新闻文本集合中不满足预设过滤条件的新闻文本,得到过滤后新闻文本集合;
分别提取所述过滤后新闻文本集合中的每个新闻文本中的结构化文本,得到结构化文本集合,所述结构化文本包括:关键词和命名实体;
根据所述结构化文本集合生成关键信息图,所述关键信息图中的结点为所述结构化文本集合中的事件片段;
提取所述关键信息图中的所述事件片段的时序关系和每个所述事件片段中的触发词,根据所述时序关系和多个所述触发词生成触发词关系图。
可选的,所述分别提取所述过滤后新闻文本集合中的每个新闻文本中的结构化文本,得到结构化文本集合,包括:
对于所述过滤后新闻文本集合中的每个新闻文本,提取所述新闻文本中的关键词和命名实体;
将提取到的所述关键词和所述命名实体组合成与所述新闻文本对应的结构化文本。
可选的,所述根据所述结构化文本集合生成关键信息图,包括:
对于所述结构化文本集合中的每个结构化文本,根据所述结构化文本确定相互关联的至少两个事件片段;
按照所述事件片段发生的顺序,将相互关联的所述事件片段进行连接,得到与所述结构化文本对应的事件片段链;
根据与所述结构化文本集合对应的多个所述事件片段链生成完整信息图,所述完整信息图中的结点为所述事件片段;
提取所述完整信息图中的稠密子图,得到所述关键信息图。
可选的,所述根据所述时序关系和多个所述触发词生成触发词关系图,包括:
根据所述事件片段的时序关系,连接从各个所述事件片段中分别提取到的所述触发词,得到所述触发词关系图。
第三方面,本申请实施例提供了一种突发事件检测装置,包括:获取模块、提取模块、生成模块、第一确定模块、计算模块和第二确定模块;
所述获取模块,用于获取待检测事件的文本数据;
所述提取模块,用于提取所述文本数据中的关键信息,所述关键信息包括:关键词;
所述生成模块,用于根据所述关键信息生成触发词关系链;
所述第一确定模块,用于在预设的关键词库与触发词关系图的对应关系中,将与所述关键信息中的关键词对应的触发词关系图确定为目标触发词关系图;
所述计算模块,用于计算所述触发词关系链和所述目标触发词关系图的匹配度;
所述第二确定模块,用于若所述匹配度大于预设匹配阈值,则将所述待检测事件确定为突发事件。
第四方面,本申请实施例提供了一种突发事件检测设备,包括:处理器、存储器、通信接口和总线;
所述处理器、所述存储器与所述通信接口通过所述总线完成相互间的通信;
所述通信接口用于外部设备之间的信息传输;
所述处理器用于调用所述存储器中的程序指令,以执行如第一方面和第二方面中任一项所述方法的步骤。
第五方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第一方面和第二方面中任一项所述方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供一种突发事件检测方法,该方法包括:获取待检测事件的文本数据;提取所述文本数据中的关键信息,所述关键信息包括:关键词;根据所述关键信息生成触发词关系链;在预设的关键词库与触发词关系图的对应关系中,将与所述关键信息中的关键词对应的触发词关系图确定为目标触发词关系图;计算所述触发词关系链和所述目标触发词关系图的匹配度;若所述匹配度大于预设匹配阈值,则将所述待检测事件确定为突发事件。该方法利用预设的关键词库与触发词关系图的对应关系,在待检测事件发生初期就可以快速准确的检测出待检测事件是否为突发事件,因此,可以缓解现有技术中存在的突发事件检测的效率低的问题,达到了提高突发事件检测效率的技术效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种突发事件检测方法的流程图;
图2为本申请实施例提供的触发词关系图的示意图;
图3为本申请实施例提供的完整信息图的示意图;
图4为本申请实施例提供的一种突发事件检测装置的结构示意图;
图5为本申请实施例提供的一种突发事件检测设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供一种突发事件检测方法、装置、设备及存储介质,可以缓解现有技术中存在的突发事件检测的效率低的问题,达到了提高突发事件检测效率的技术效果。
首先,对本申请实施例中的一种突发事件检测方法进行详细介绍,如图1所示,突发事件检测方法可以包括步骤S101至步骤S106:
S101,获取待检测事件的文本数据。
示例性的,待检测事件的文本数据可以为“XX省准大学生徐XX 在开学前夕被犯罪分子实施电信诈骗,在学费被骗后心脏骤停死亡”。
S102,提取所述文本数据中的关键信息,所述关键信息包括:关键词。
其中,关键信息可以包括:关键词和命名实体。
具体的,可以利用tfidf(term frequency–inverse document frequency,词频-逆文件频率)算法以及textrank算法,提取所述文本数据中的关键词。可以利用基于双向循环神经网络与条件随机场的模型来提取所述文本数据中的命名实体。
示例性的,文本数据“XX省准大学生徐XX在开学前夕被犯罪分子实施电信诈骗,在学费被骗后心脏骤停死亡”中的关键词可以为“电信诈骗”。文本数据“XX省准大学生徐XX在开学前夕被犯罪分子实施电信诈骗,在学费被骗后心脏骤停死亡”中的命名实体可以包括:“XX省”、“徐XX”、“犯罪分子”、“学费”和“心脏”等。
S103,根据所述关键信息生成触发词关系链。
示例性的,与文本数据“XX省准大学生徐XX在开学前夕被犯罪分子实施电信诈骗,在学费被骗后心脏骤停死亡”对应的触发词关系链可以为“诈骗”→“死亡”。
S104,在预设的关键词库与触发词关系图的对应关系中,将与所述关键信息中的关键词对应的触发词关系图确定为目标触发词关系图。
示例性的,预设的关键词库与触发词关系图的对应关系可以如表1 所示。
表1
其中,若从文本数据中提取到的关键词属于{B1,B2,B3,B4,B5},那么,可以将触发词关系图b确定为目标触发词关系图。
示例性的,触发词关系图可以如图2所示。一个触发词关系图可以包括多个结点,在如图2所示的触发词关系图中,“立案”就是一个结点。
S105,计算所述触发词关系链和所述目标触发词关系图的匹配度。
S106,若所述匹配度大于预设匹配阈值,则将所述待检测事件确定为突发事件。
其中,用户可以根据实际需求设置预设匹配阈值。
具体的,可以在java运行环境中实现突发事件检测方法。
其中,若将所述待检测事件确定为突发事件,则可以利用目标触发词关系图更细粒度地辅助剖析突发事件与衍生事件间的关联关系及内在规律,进而能够更好的预测下游的突发事件,早期检测到下游的突发事件。可以为政府及相关部门的舆情管控提供相应的决策支持,对维持社会稳定和促进经济增长具有重要的现实意义。
本申请实施例提供一种突发事件检测方法,该方法包括:获取待检测事件的文本数据;提取所述文本数据中的关键信息,所述关键信息包括:关键词;根据所述关键信息生成触发词关系链;在预设的关键词库与触发词关系图的对应关系中,将与所述关键信息中的关键词对应的触发词关系图确定为目标触发词关系图;计算所述触发词关系链和所述目标触发词关系图的匹配度;若所述匹配度大于预设匹配阈值,则将所述待检测事件确定为突发事件。该方法利用预设的关键词库与触发词关系图的对应关系,在待检测事件发生初期就可以快速准确的检测出待检测事件是否为突发事件,因此,可以缓解现有技术中存在的突发事件检测的效率低的问题,达到了提高突发事件检测效率的技术效果。
在本发明的又一实施例中,在前述步骤S101至步骤S106的实施例的基础上,步骤S103可以包括步骤S1031至步骤S1035:
S1031,将所述关键信息中的关键词和命名实体组合成与所述文本数据对应的结构化文本。
其中,可以基于句法依存关系、句子共现和语义角色抽取等方法将关键词与命名实体进行匹配,得到与所述文本数据对应的结构化文本。
示例性的,与文本数据“XX省准大学生徐XX在开学前夕被犯罪分子实施电信诈骗,在学费被骗后心脏骤停死亡”对应的结构化文本可以为“徐XX被诈骗,徐XX死亡”。
S1032,根据所述结构化文本确定相互关联的至少两个事件片段。
示例性的,可以根据结构化文本“徐XX被诈骗,徐XX死亡”确定相互关联的事件片段“徐XX被诈骗”和事件片段“徐XX死亡”。
S1033,按照所述事件片段发生的顺序,将相互关联的所述事件片段进行连接,得到事件片段链。
示例性的,按照事件片段“徐XX被诈骗”和事件片段“徐XX 死亡”发生的顺序,将事件片段“徐XX被诈骗”和事件片段“徐XX 死亡”进行连接,得到事件片段链,即“徐XX被诈骗”→“徐XX死亡”。
S1034,分别提取所述事件片段链中的每个事件片段的触发词。
示例性的,可以从事件片段“徐XX被诈骗”中提取到的触发词为“诈骗”。可以从事件片段“徐XX死亡”中提取到的触发词为“死亡”。
S1035,按照所述事件片段发生的顺序,将与各个所述事件片段分别对应的触发词进行连接,得到所述触发词关系链。
示例性的,可以得到与结构化文本“徐XX被诈骗,徐XX死亡”对应的触发词关系链:“诈骗”→“死亡”。
在本发明的又一实施例中,在前述步骤S101至步骤S106的实施例的基础上,步骤S105可以包括步骤S1051至步骤S1054:
S1051,获取所述触发词关系链的结点总数。
示例性的,触发词关系链:“诈骗”→“死亡”的结点总数为2。其中,“诈骗”为一个结点,“死亡”为一个结点。
S1052,将所述触发词关系链和所述目标触发词关系图进行匹配。
S1053,统计所述触发词关系链中、与所述目标触发词关系图相匹配的结点的数量,得到匹配结点数。
S1054,将所述匹配结点数除以所述结点总数,计算得到所述匹配度。
在本发明的又一实施例中,对本申请实施例中的一种突发事件检测方法进行详细介绍,突发事件检测方法可以包括步骤S201至步骤 S206:
S201,获取多个新闻文本。
示例性的,新闻文本可以为流式文本数据。
S202,利用预设的关键词库与事件主题之间的对应关系,将多个所述新闻文本划分成多个新闻文本集合,每个所述新闻文本集合分别对应一个事件主题。
示例性的,预设的关键词库与事件主题之间的对应关系可以如表2 所示。
表2
示例性的,对于任意一个新闻文本,若新闻文本中的关键词属于 {b1,b2,b3,b4,b5,b6,b7},那么将新闻文本放入与事件主题b对应的新闻文本集合中。
S203,对于每个所述新闻文本集合,过滤掉所述新闻文本集合中不满足预设过滤条件的新闻文本,得到过滤后新闻文本集合。
其中,预设过滤条件可以包括:领域相关过滤条件、文本质量过滤条件和文本源可信度过滤条件。若新闻文本满足领域相关过滤条件,则说明新闻文本是面向用户关心的特定应用领域。若新闻文本满足文本质量过滤条件,则说明新闻文本的文本长度和文本质量是合适的。若新闻文本满足文本源可信度过滤条件,则说明新闻文本的可信度较高,可以被使用。
具体的,对于每个新闻文本,若新闻文本同时满足领域相关过滤条件、文本质量过滤条件和文本源可信度过滤条件,则新闻文本可以被放入过滤后新闻文本集合。
在步骤S203中,过滤掉所述新闻文本集合中不满足预设过滤条件的新闻文本,得到过滤后新闻文本集合,这样既能够满足用户需求,又能够减小数据规模,可以避免计算资源和存储资源的浪费。同时,还可以保证过滤后新闻文本集合的真实性和准确性。
S204,分别提取所述过滤后新闻文本集合中的每个新闻文本中的结构化文本,得到结构化文本集合,所述结构化文本包括:关键词和命名实体。
S205,根据所述结构化文本集合生成关键信息图,所述关键信息图中的结点为所述结构化文本集合中的事件片段。
S206,提取所述关键信息图中的所述事件片段的时序关系和每个所述事件片段中的触发词,根据所述时序关系和多个所述触发词生成触发词关系图。
具体的,在步骤S206中,对于每个事件片段,首先,根据组合语义学提出的基础动词这一概念,从事件片段中抽取候选触发词,然后,从候选触发词中过滤掉同义的触发词,得到用于生成触发词关系图的触发词。
其中,所述根据所述时序关系和多个所述触发词生成触发词关系图,可以包括:根据所述事件片段的时序关系,连接从各个所述事件片段中分别提取到的所述触发词,得到所述触发词关系图。
具体的,若关键信息图为:“徐XX被诈骗”→“派出所报案”→“徐 XX死亡”,那么,可以得到对应的触发词关系图:“诈骗”→“报案”→“死亡”。
本申请实施例提供一种突发事件检测方法,该方法包括:获取多个新闻文本;利用预设的关键词库与事件主题之间的对应关系,将多个所述新闻文本划分成多个新闻文本集合,每个所述新闻文本集合分别对应一个事件主题;对于每个所述新闻文本集合,过滤掉所述新闻文本集合中不满足预设过滤条件的新闻文本,得到过滤后新闻文本集合;分别提取所述过滤后新闻文本集合中的每个新闻文本中的结构化文本,得到结构化文本集合,所述结构化文本包括:关键词和命名实体;根据所述结构化文本集合生成关键信息图,所述关键信息图中的结点为所述结构化文本集合中的事件片段;提取所述关键信息图中的所述事件片段的时序关系和每个所述事件片段中的触发词,根据所述时序关系和多个所述触发词生成触发词关系图。该方法可以生成与每个事件主题分别对应的触发词关系图,为检测突发事件提供了可能性,为检测突发事件提供了支持数据。
在本发明的又一实施例中,在前述步骤S201至步骤S206的实施例的基础上,步骤S204可以包括步骤S2041至步骤S2042:
S2041,对于所述过滤后新闻文本集合中的每个新闻文本,提取所述新闻文本中的关键词和命名实体。
具体的,可以利用tfidf(term frequency–inverse document frequency,词频-逆文件频率)算法以及textrank算法,提取所述新闻文本中的关键词。可以利用基于双向循环神经网络与条件随机场的模型来提取所述新闻文本中的命名实体。
S2042,将提取到的所述关键词和所述命名实体组合成与所述新闻文本对应的结构化文本。
其中,可以基于句法依存关系、句子共现和语义角色抽取等方法将关键词与命名实体进行匹配,得到与所述新闻文本对应的结构化文本。
在步骤S2042中,还可以根据得到的结构化文本对匹配模式进行更新。
在本发明的又一实施例中,在前述步骤S201至步骤S206的实施例的基础上,步骤S205可以包括步骤S2051至步骤S2054:
S2051,对于所述结构化文本集合中的每个结构化文本,根据所述结构化文本确定相互关联的至少两个事件片段。
示例性的,以结构化文本集合中包括三个结构化文本为例进行说明。三个结构化文本分别为:结构化文本A、结构化文本B和结构化文本C。结构化文本A可以为“徐XX接到电话,银行汇款,徐XX 被诈骗”,结构化文本B可以为“徐XX被诈骗,派出所报案,徐XX 昏厥”,结构化文本C可以为“徐XX被诈骗,派出所报案,徐XX昏厥,医院抢救,徐XX死亡”。
其中,根据结构化文本A可以确定事件片段“徐XX接到电话”、事件片段“银行汇款”和事件片段“徐XX被诈骗”。根据结构化文本 B可以确定事件片段“徐XX被诈骗”、事件片段“派出所报案”和事件片段“徐XX昏厥”。根据结构化文本C可以确定事件片段“徐XX 被诈骗”、事件片段“派出所报案”、事件片段“徐XX昏厥”、事件片段“医院抢救”和事件片段“徐XX死亡”。
S2052,按照所述事件片段发生的顺序,将相互关联的所述事件片段进行连接,得到与所述结构化文本对应的事件片段链。
其中,与结构化文本A对应的事件片段链可以为:“徐XX接到电话”→“银行汇款”→“徐XX被诈骗”。与结构化文本B对应的事件片段链可以为:“徐XX被诈骗”→“派出所报案”→“徐XX昏厥”。与结构化文本C对应的事件片段链可以为:“徐XX被诈骗”→“派出所报案”→“徐XX昏厥”→“医院抢救”→“徐XX死亡”。
S2053,根据与所述结构化文本集合对应的多个所述事件片段链生成完整信息图,所述完整信息图中的结点为所述事件片段。
其中,以结构化文本集合包括结构化文本A、结构化文本B和结构化文本C为例进行说明。
示例性的,与结构化文本集合对应的完整信息图可以如图3所示。完整信息图中的结点之间的边可以带有权重。在如图3所示的完整信息图中,结点“徐XX接到电话”与结点“银行汇款”之间的边为(1),结点“银行汇款”与结点“徐XX被诈骗”之间的边为(2),结点“徐XX被诈骗”与结点“派出所报案”之间的边为(3),结点“派出所报案”与结点“徐XX昏厥”之间的边为(4),结点“徐XX昏厥”与结点“医院抢救”之间的边为(5),结点“医院抢救”与结点“徐XX 死亡”之间的边为(6)。
其中,边(3)的权重值大于边(5)的权重值,这是由于结点“徐 XX被诈骗”与结点“派出所报案”同时出现的次数大于结点“徐XX 昏厥”与结点“医院抢救”同时出现的次数。
其中,在完整信息图中,若某一个结点出现的次数越多,那么与这个结点连接的边的权重值越大。
其中,在完整信息图中,还可以为每一个结点附上发生时间信息。那么用户就可以设置预设时间窗口,然后从完整信息图中获取与预设时间窗口对应的信息图。
S2054,提取所述完整信息图中的稠密子图,得到所述关键信息图。
其中,可以利用Louvain算法提取所述完整信息图中的稠密子图。同时,还可以为提取到的稠密子图进行命名。稠密子图中的边的权重值都比较大,也就是说,关键信息图中的结点出现的次数都比较多,是比较重要的事件。
本申请实施例中,最后得到的关键信息图能够根据领域特征表示多语句、多文档描述的复杂事件,能够完整的展现事件发生的核心脉络。
在本发明的又一实施例中,对本申请实施例中的一种突发事件检测装置进行详细介绍,如图4所示,突发事件检测装置可以包括:获取模块41、提取模块42、生成模块43、第一确定模块44、计算模块 45和第二确定模块46。
所述获取模块41,用于获取待检测事件的文本数据。
所述提取模块42,用于提取所述文本数据中的关键信息,所述关键信息包括:关键词。
所述生成模块43,用于根据所述关键信息生成触发词关系链。
所述第一确定模块44,用于在预设的关键词库与触发词关系图的对应关系中,将与所述关键信息中的关键词对应的触发词关系图确定为目标触发词关系图。
所述计算模块45,用于计算所述触发词关系链和所述目标触发词关系图的匹配度。
所述第二确定模块46,用于若所述匹配度大于预设匹配阈值,则将所述待检测事件确定为突发事件。
在本发明的又一实施例中,对本申请实施例中的一种突发事件检测设备进行详细介绍,如图5所示,突发事件检测设备包括:处理器501、存储器502、通信接口503和总线504。
所述处理器501、所述存储器502与所述通信接口503通过所述总线 504完成相互间的通信。
所述通信接口503用于外部设备之间的信息传输。
示例性的,外部设备可以为用户设备UE。
所述处理器501用于调用所述存储器502中的程序指令,以执行如上述任一项实施例所述的突发事件检测方法的步骤。
具体而言,所述处理器501用于执行所述突发事件检测程序,以实现以下步骤:获取待检测事件的文本数据;提取所述文本数据中的关键信息,所述关键信息包括:关键词;根据所述关键信息生成触发词关系链;在预设的关键词库与触发词关系图的对应关系中,将与所述关键信息中的关键词对应的触发词关系图确定为目标触发词关系图;计算所述触发词关系链和所述目标触发词关系图的匹配度;若所述匹配度大于预设匹配阈值,则将所述待检测事件确定为突发事件。
在本发明的又一实施例中,对本申请实施例中的一种计算机可读存储介质进行详细介绍,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上述任一项实施例所述突发事件检测方法的步骤。
其中,所述计算机可读存储介质可以存储有一个或者多个计算机指令。所述计算机可读存储介质可以包括易失性存储器,例如随机存取存储器;所述计算机可读存储介质也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;所述计算机可读存储介质还可以包括上述种类的存储器的组合。
具体而言,所述计算机指令使所述计算机执行以下步骤:获取待检测事件的文本数据;提取所述文本数据中的关键信息,所述关键信息包括:关键词;根据所述关键信息生成触发词关系链;在预设的关键词库与触发词关系图的对应关系中,将与所述关键信息中的关键词对应的触发词关系图确定为目标触发词关系图;计算所述触发词关系链和所述目标触发词关系图的匹配度;若所述匹配度大于预设匹配阈值,则将所述待检测事件确定为突发事件。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits,ASIC)、数字信号处理器(DigitalSignalProcessing,DSP)、数字信号处理设备 (DSPDevice,DSPD)、可编程逻辑设备(ProgrammableLogicDevice,PLD)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种突发事件检测方法,其特征在于,包括:
获取待检测事件的文本数据;
提取所述文本数据中的关键信息,所述关键信息包括:关键词;
根据所述关键信息生成触发词关系链;
在预设的关键词库与触发词关系图的对应关系中,将与所述关键信息中的关键词对应的触发词关系图确定为目标触发词关系图;
计算所述触发词关系链和所述目标触发词关系图的匹配度;
若所述匹配度大于预设匹配阈值,则将所述待检测事件确定为突发事件。
2.根据权利要求1所述的方法,其特征在于,所述关键信息还包括:命名实体,所述根据所述关键信息生成触发词关系链,包括:
将所述关键信息中的关键词和命名实体组合成与所述文本数据对应的结构化文本;
根据所述结构化文本确定相互关联的至少两个事件片段;
按照所述事件片段发生的顺序,将相互关联的所述事件片段进行连接,得到事件片段链;
分别提取所述事件片段链中的每个事件片段的触发词;
按照所述事件片段发生的顺序,将与各个所述事件片段分别对应的触发词进行连接,得到所述触发词关系链。
3.根据权利要求1所述的方法,其特征在于,所述计算所述触发词关系链和所述目标触发词关系图的匹配度,包括:
获取所述触发词关系链的结点总数;
将所述触发词关系链和所述目标触发词关系图进行匹配;
统计所述触发词关系链中、与所述目标触发词关系图相匹配的结点的数量,得到匹配结点数;
将所述匹配结点数除以所述结点总数,计算得到所述匹配度。
4.一种突发事件检测方法,其特征在于,包括:
获取多个新闻文本;
利用预设的关键词库与事件主题之间的对应关系,将多个所述新闻文本划分成多个新闻文本集合,每个所述新闻文本集合分别对应一个事件主题;
对于每个所述新闻文本集合,过滤掉所述新闻文本集合中不满足预设过滤条件的新闻文本,得到过滤后新闻文本集合;
分别提取所述过滤后新闻文本集合中的每个新闻文本中的结构化文本,得到结构化文本集合,所述结构化文本包括:关键词和命名实体;
根据所述结构化文本集合生成关键信息图,所述关键信息图中的结点为所述结构化文本集合中的事件片段;
提取所述关键信息图中的所述事件片段的时序关系和每个所述事件片段中的触发词,根据所述时序关系和多个所述触发词生成触发词关系图。
5.根据权利要求4所述的方法,其特征在于,所述分别提取所述过滤后新闻文本集合中的每个新闻文本中的结构化文本,得到结构化文本集合,包括:
对于所述过滤后新闻文本集合中的每个新闻文本,提取所述新闻文本中的关键词和命名实体;
将提取到的所述关键词和所述命名实体组合成与所述新闻文本对应的结构化文本。
6.根据权利要求4所述的方法,其特征在于,所述根据所述结构化文本集合生成关键信息图,包括:
对于所述结构化文本集合中的每个结构化文本,根据所述结构化文本确定相互关联的至少两个事件片段;
按照所述事件片段发生的顺序,将相互关联的所述事件片段进行连接,得到与所述结构化文本对应的事件片段链;
根据与所述结构化文本集合对应的多个所述事件片段链生成完整信息图,所述完整信息图中的结点为所述事件片段;
提取所述完整信息图中的稠密子图,得到所述关键信息图。
7.根据权利要求4所述的方法,其特征在于,所述根据所述时序关系和多个所述触发词生成触发词关系图,包括:
根据所述事件片段的时序关系,连接从各个所述事件片段中分别提取到的所述触发词,得到所述触发词关系图。
8.一种突发事件检测装置,其特征在于,包括:获取模块、提取模块、生成模块、第一确定模块、计算模块和第二确定模块;
所述获取模块,用于获取待检测事件的文本数据;
所述提取模块,用于提取所述文本数据中的关键信息,所述关键信息包括:关键词;
所述生成模块,用于根据所述关键信息生成触发词关系链;
所述第一确定模块,用于在预设的关键词库与触发词关系图的对应关系中,将与所述关键信息中的关键词对应的触发词关系图确定为目标触发词关系图;
所述计算模块,用于计算所述触发词关系链和所述目标触发词关系图的匹配度;
所述第二确定模块,用于若所述匹配度大于预设匹配阈值,则将所述待检测事件确定为突发事件。
9.一种突发事件检测设备,其特征在于,包括:处理器、存储器、通信接口和总线;
所述处理器、所述存储器与所述通信接口通过所述总线完成相互间的通信;
所述通信接口用于外部设备之间的信息传输;
所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910092796.0A CN111507110B (zh) | 2019-01-30 | 2019-01-30 | 一种突发事件检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910092796.0A CN111507110B (zh) | 2019-01-30 | 2019-01-30 | 一种突发事件检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111507110A true CN111507110A (zh) | 2020-08-07 |
CN111507110B CN111507110B (zh) | 2022-10-18 |
Family
ID=71863843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910092796.0A Active CN111507110B (zh) | 2019-01-30 | 2019-01-30 | 一种突发事件检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111507110B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182346A (zh) * | 2020-10-26 | 2021-01-05 | 上海蜜度信息技术有限公司 | 一种对突发事件的实体信息进行抽取的方法与设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050198056A1 (en) * | 2004-03-02 | 2005-09-08 | Microsoft Corporation | Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics |
CN106886567A (zh) * | 2017-01-12 | 2017-06-23 | 北京航空航天大学 | 基于语义扩展的微博突发事件检测方法及装置 |
CN107562822A (zh) * | 2017-08-18 | 2018-01-09 | 武汉红茶数据技术有限公司 | 一种舆情事件挖掘方法和系统 |
CN107729337A (zh) * | 2016-08-11 | 2018-02-23 | 北京国双科技有限公司 | 事件的监测方法和装置 |
-
2019
- 2019-01-30 CN CN201910092796.0A patent/CN111507110B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050198056A1 (en) * | 2004-03-02 | 2005-09-08 | Microsoft Corporation | Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics |
CN107729337A (zh) * | 2016-08-11 | 2018-02-23 | 北京国双科技有限公司 | 事件的监测方法和装置 |
CN106886567A (zh) * | 2017-01-12 | 2017-06-23 | 北京航空航天大学 | 基于语义扩展的微博突发事件检测方法及装置 |
CN107562822A (zh) * | 2017-08-18 | 2018-01-09 | 武汉红茶数据技术有限公司 | 一种舆情事件挖掘方法和系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182346A (zh) * | 2020-10-26 | 2021-01-05 | 上海蜜度信息技术有限公司 | 一种对突发事件的实体信息进行抽取的方法与设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111507110B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Detecting hate speech on twitter using a convolution-gru based deep neural network | |
Nouh et al. | Understanding the radical mind: Identifying signals to detect extremist content on twitter | |
Zhang et al. | Semantic NLP-based information extraction from construction regulatory documents for automated compliance checking | |
US20180293978A1 (en) | Performing semantic analyses of user-generated textual and voice content | |
Huang et al. | Detecting suicidal ideation in Chinese microblogs with psychological lexicons | |
CN103500175B (zh) | 一种基于情感分析在线检测微博热点事件的方法 | |
CN111160005B (zh) | 基于事件演化知识本体的事件预测方法、装置及终端设备 | |
CN106598944A (zh) | 一种民航安保舆情情感分析方法 | |
Sharma et al. | Nlp and machine learning techniques for detecting insulting comments on social networking platforms | |
CN111597803B (zh) | 一种要素提取方法、装置、电子设备及存储介质 | |
Ma et al. | Natural disaster topic extraction in sina microblogging based on graph analysis | |
Riadi | Detection of cyberbullying on social media using data mining techniques | |
CN111506734B (zh) | 一种事件演化知识图谱构建方法、装置、设备及存储介质 | |
CN103927297A (zh) | 基于证据理论的中文微博可信度评估方法 | |
Petroni et al. | An extensible event extraction system with cross-media event resolution | |
Fang et al. | Witness identification in twitter | |
CN102508830A (zh) | 从新闻文档中抽取社会网络的方法和系统 | |
Jones et al. | Using big data to study the impact of mass violence: Opportunities for the traumatic stress field | |
Roy et al. | Classification and summarization for informative tweets | |
CN114818724A (zh) | 一种社交媒体灾害有效信息检测模型的构建方法 | |
CN111507110B (zh) | 一种突发事件检测方法、装置、设备及存储介质 | |
Elyezjy et al. | Investigating crimes using text mining and network analysis | |
CN110750981A (zh) | 一种基于机器学习的高准确度网站敏感词检测方法 | |
Zhou et al. | Classification of microblogs for support emergency responses: Case study Yushu earthquake in China | |
CN113761192A (zh) | 文本处理方法、文本处理装置及文本处理设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |