CN108763272B - 一种事件信息分析方法、计算机可读存储介质及终端设备 - Google Patents
一种事件信息分析方法、计算机可读存储介质及终端设备 Download PDFInfo
- Publication number
- CN108763272B CN108763272B CN201810305412.4A CN201810305412A CN108763272B CN 108763272 B CN108763272 B CN 108763272B CN 201810305412 A CN201810305412 A CN 201810305412A CN 108763272 B CN108763272 B CN 108763272B
- Authority
- CN
- China
- Prior art keywords
- search result
- initial
- initial search
- expanded
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 45
- 230000006870 function Effects 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 abstract description 19
- 230000000875 corresponding effect Effects 0.000 description 34
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机技术领域,尤其涉及一种事件信息分析方法、计算机可读存储介质及终端设备。所述方法首先通过预设的网络搜索引擎获取与预设的初始关键词对应的初始搜索结果,并在所述初始搜索结果中筛选出扩展关键词,然后通过所述网络搜索引擎获取与所述扩展关键词对应的扩展搜索结果,再提取所述初始搜索结果和所述扩展搜索结果中的目标事件语句,最后通过预设的正则表达式对所述目标事件语句进行匹配,若匹配成功,则将所述目标事件语句中的所述匹配字段确定为与所述目标事件语句对应的事件主体。由于引入了扩展关键词,能够得到更为广阔的搜索结果,而且由于通过正则表达式的使用实现了对于事件主体的自动匹配,大大提升了分析效率。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种事件信息分析方法、计算机可读存储介质及终端设备。
背景技术
随着社会经济的不断发展,人们越来越意识到信息的重要性,能否快速准确地获取到信息,已成为影响企业成功与否的重要因素之一。其中,对互联网中的各种新闻事件进行分析整理是获取信息的一种有效途径,但是,仅仅通过简单的关键词搜索,得到的搜索结果往往较为局限,代表性不足,而且,在得到这些搜索结果之后,往往还需要进一步地分析其中的事件主体,例如,具体的公司、组织、机构等,但目前这种分析主要由专业人员通过人工分析完成的,分析效率较低。
发明内容
有鉴于此,本发明实施例提供了一种事件信息分析方法、计算机可读存储介质及终端设备,以解决现有的事件信息分析方法得到的搜索结果较为局限且分析效率较低的问题。
本发明实施例的第一方面提供了一种事件信息分析方法,可以包括:
通过预设的网络搜索引擎获取与预设的初始关键词对应的初始搜索结果;
在所述初始搜索结果中筛选出扩展关键词,所述扩展关键词为与所述初始关键词的相似度大于预设的相似度阈值的词语;
通过所述网络搜索引擎获取与所述扩展关键词对应的扩展搜索结果;
提取所述初始搜索结果和所述扩展搜索结果中的目标事件语句,所述目标事件语句为包含事件关键词和预设的匹配字段的语句,所述事件关键词为所述初始关键词或所述扩展关键词;
通过预设的正则表达式对所述目标事件语句进行匹配;
若匹配成功,则将所述目标事件语句中的所述匹配字段确定为与所述目标事件语句对应的事件主体。
本发明实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
通过预设的网络搜索引擎获取与预设的初始关键词对应的初始搜索结果;
在所述初始搜索结果中筛选出扩展关键词,所述扩展关键词为与所述初始关键词的相似度大于预设的相似度阈值的词语;
通过所述网络搜索引擎获取与所述扩展关键词对应的扩展搜索结果;
提取所述初始搜索结果和所述扩展搜索结果中的目标事件语句,所述目标事件语句为包含事件关键词和预设的匹配字段的语句,所述事件关键词为所述初始关键词或所述扩展关键词;
通过预设的正则表达式对所述目标事件语句进行匹配;
若匹配成功,则将所述目标事件语句中的所述匹配字段确定为与所述目标事件语句对应的事件主体。
本发明实施例的第三方面提供了一种事件信息分析终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
通过预设的网络搜索引擎获取与预设的初始关键词对应的初始搜索结果;
在所述初始搜索结果中筛选出扩展关键词,所述扩展关键词为与所述初始关键词的相似度大于预设的相似度阈值的词语;
通过所述网络搜索引擎获取与所述扩展关键词对应的扩展搜索结果;
提取所述初始搜索结果和所述扩展搜索结果中的目标事件语句,所述目标事件语句为包含事件关键词和预设的匹配字段的语句,所述事件关键词为所述初始关键词或所述扩展关键词;
通过预设的正则表达式对所述目标事件语句进行匹配;
若匹配成功,则将所述目标事件语句中的所述匹配字段确定为与所述目标事件语句对应的事件主体。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例首先通过预设的网络搜索引擎获取与预设的初始关键词对应的初始搜索结果,并在所述初始搜索结果中筛选出扩展关键词,然后通过所述网络搜索引擎获取与所述扩展关键词对应的扩展搜索结果,再提取所述初始搜索结果和所述扩展搜索结果中的目标事件语句,最后通过预设的正则表达式对所述目标事件语句进行匹配,若匹配成功,则将所述目标事件语句中的所述匹配字段确定为与所述目标事件语句对应的事件主体。由于在初始关键词的基础上,进一步引入了扩展关键词对其进行扩充,能够得到更为广阔的搜索结果,而且由于通过正则表达式的使用实现了对于事件主体的自动匹配,大大提升了分析效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种事件信息分析方法的一个实施例流程图;
图2为初始搜索结果存储过程的示意流程图;
图3为在初始搜索结果中筛选出扩展关键词的示意流程图;
图4为扩展搜索结果的选取过程的示意流程图;
图5为本发明实施例中一种事件信息分析装置的一个实施例结构图;
图6为本发明实施例中一种事件信息分析终端设备的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种事件信息分析方法的一个实施例可以包括:
步骤S101,通过预设的网络搜索引擎获取与预设的初始关键词对应的初始搜索结果。
在本实施例中,可以根据实际情况采用一个或者多个网络搜索引擎在互联网中进行自动搜索。在进行搜索时,可以指定搜索范围,仅在某些特定的网站下进行搜索,例如,若需要搜索财经方面的信息,则可将一个或者多个财经网站指定为搜索范围,只在该搜索范围内进行搜索,也可以不指定搜索范围,即在整个互联网中进行搜索。
所述初始关键词可以根据实际的分析领域确定,例如,在量化投资领域,投资者比较关心被投资者的债务情况,尤其是被投资者的债务违约情况,则可以采用“债务违约”作为所述初始关键词来进行搜索,得到相关的网页内容,也即所述初始搜索结果。
需要注意的是,搜索得到的所述初始搜索结果可能数量极为巨大,如果将这些内容全部存储下来,将会消耗巨大的存储资源。因此,本实施例中,预先设置了所述初始搜索结果的数目,将其记为PageNum,只保存在该数目以内的搜索结果。PageNum的取值可以根据预设的存储介质的存储容量来确定,两者成正相关的关系,即存储容量越大,PageNum的取值也越大,反之,存储容量越小,PageNum的取值也越小。
其中,具体的存储过程可以包括如图2所示的步骤:
步骤S1011,对所述初始搜索结果进行哈希运算,得到所述初始搜索结果的哈希值。
在本实施例中,可以采用对网页的完整内容进行哈希运算的方式,但这样的运算过程会消耗大量的时间,因此,为了简化起见,还可以采用仅对网页的摘要内容进行哈希运算的方式来加快运算速度,具体地:
首先,根据下式获取所述初始搜索结果的摘要内容:
SubContent=Head(PageContent)∪Tail(PageContent)
其中,PageContent为所述初始搜索结果中的网页正文,Head(PageContent)为所述初始搜索结果中的网页正文的前M个字符,Tail(PageContent)为所述初始搜索结果中的网页正文的后N个字符,M和N均为大于1的整数,SubContent为所述初始搜索结果的摘要内容。
然后,根据下式计算所述初始搜索结果的哈希值:
Key=Hash(SubContent)=Hash[Head(PageContent)∪Tail(PageContent)]
其中,Hash为预设的哈希函数,Key为所述初始搜索结果的哈希值。
步骤S1012,在预设的哈希值集合中查找所述初始搜索结果的哈希值。
所述哈希值集合用于记录已存储在预设的存储介质中的网页的哈希值,其中的每个哈希值的计算过程与步骤S1011中的类似,具体可参照步骤S1011中的内容,在此不再赘述。
若查找失败,也即在所述哈希值集合中未查找到所述初始搜索结果的哈希值,则执行步骤S1013,若查找成功,也即在所述哈希值集合中查找到所述初始搜索结果的哈希值,则执行步骤S1014。
步骤S1013,将所述初始搜索结果的哈希值添加入所述哈希值集合中,并将所述初始搜索结果存储在所述存储介质中。
若用HashList表示所述哈希值集合,则将所述初始搜索结果的哈希值添加入所述哈希值集合中的过程可表示为:
HashList=HashList∪Key。
步骤S1014,丢弃所述初始搜索结果。
若在所述哈希值集合中查找到所述初始搜索结果的哈希值,则说明在所述存储介质中已经存储了与所述初始搜索结果相同的内容,无需再次对其进行存储。
步骤S102,在所述初始搜索结果中筛选出扩展关键词。
所述扩展关键词为与所述初始关键词的相似度大于预设的相似度阈值的词语。
具体地,步骤S102可以包括如图3所示的步骤:
步骤S1021,分别计算所述初始搜索结果中的各个词语与所述初始关键词之间的字面重叠度。
例如,可以根据下式分别计算所述初始搜索结果中的各个词语与所述初始关键词之间的字面重叠度:
其中,w为所述初始搜索结果中的任一词语,为所述初始关键词,为w和w共同包含的字的个数,为w包含的字数和包含的字数的最大值,为w与之间的字面重叠度。
步骤S1022,分别计算所述初始搜索结果中的各个词语与所述初始关键词之间的搜索重叠度。
例如,可以根据下式分别计算所述初始搜索结果中的各个词语与所述初始关键词之间的搜索重叠度:
其中,为在所述初始搜索结果中w与共同出现的页面数,为在所述初始搜索结果中w出现的页面数和w出现的页面数的最大值,为w与之间的搜索重叠度。
步骤S1023,分别计算所述初始搜索结果中的各个词语与所述初始关键词之间的相似度。
例如,可以根据下式分别计算所述初始搜索结果中的各个词语与所述初始关键词之间的相似度:
其中,k1、k2均为预设的权重系数,且k1+k2=1,为w与之间的相似度。
步骤S1024,将与所述初始关键词的相似度大于所述相似度阈值的词语确定为所述扩展关键词。
例如,若所述初始关键词为“债务违约”,则通过上述过程,可确定其扩展关键词为“债务纠纷”、“债务诉讼”、“债务风暴”、“债务崩塌”、“债务预警”、“债务维权”等等类似的词语。
步骤S103,通过所述网络搜索引擎获取与所述扩展关键词对应的扩展搜索结果。
需要注意的是,搜索得到的所述扩展搜索结果可能数量极为巨大,如果将这些内容全部存储下来,将会消耗巨大的存储资源。因此,本实施例中,可以通过如图4所示的步骤仅选取部分的扩展搜索结果进行存储:
步骤S1031,分别计算各个所述扩展关键词的重要度分值。
例如,可以根据下式分别计算各个所述扩展关键词的重要度分值:
其中,ew为任一所述扩展关键词,freq(ew)为ew在所述初始搜索结果中出现的频次,Freq(ew)为ew在预设的样本语料库中出现的频次,这个频次是通过对在语言的实际使用中真实出现过的语言材料进行大规模统计而得到的,其取值是固定的,可以直接通过查表等方式获取,ExWord为由各个所述扩展关键词组成的集合,max[Freq(ExWord)]为各个所述扩展关键词在所述样本语料库中出现的频次的最大值,即:
max[Freq(ExWord)]=max[Freq(ew1),Freq(ew2),......,Freq(ews),......,Freq(ewS)]
ews为序号为s的所述扩展关键词,1≤s≤S,S为所述扩展关键词的数目,ln为自然对数函数,Score(ew)为ew的重要度分值。
由上述过程可知,某一扩展关键词的重要度分值与其在所述初始搜索结果中出现的频次正相关,与其在所述样本语料库中出现的频次负相关。也就是说,若某一扩展关键词在正常的语言使用中出现的频次越少,而其在所述初始搜索结果中出现的频次越多,则其重要度分值就越高。
步骤S1032,分别计算与各个所述扩展关键词对应的扩展搜索结果的截取数目。
例如,可以根据下式分别计算与各个所述扩展关键词对应的扩展搜索结果的截取数目:
其中,α为预设的比例系数,PageNum为预设的所述初始搜索结果的数目,ExPageNum(ew)为与ew对应的扩展搜索结果的截取数目。
步骤S1033,分别按照所述截取数目获取与各个所述扩展关键词对应的扩展搜索结果。
由以上过程可知,与各个所述扩展关键词对应的扩展搜索结果的截取数目是与其重要度分值正相关的,某一扩展关键词的重要度分值越高,则其扩展搜索结果的截取数目也越多。
步骤S104,提取所述初始搜索结果和所述扩展搜索结果中的目标事件语句。
所述目标事件语句为包含事件关键词和预设的匹配字段的语句,所述事件关键词为所述初始关键词或所述扩展关键词。
所述匹配字段即为候选的事件主体,具体地,所述匹配字段可以为具体的公司、组织、机构名称等。优选地,可以预先设置事件主体数据库,将可能涉及到的事件主体均保存在该事件主体数据库中。例如,可以从债券管理部门的数据库中提取出所有的债券发行信息,或者从其它第三方机构或者网络上获取这些债券发行信息,并确定出具体的发行者,将这些发行者保存在事件主体数据库中。
需要注意的是,该事件主体数据库中是在不断的更新中的,例如,当某个发行的债券已经全部如期履约,则该债券已无发生违约的可能性,若其对应的发行者也没有其它正在发行的债券,此时可以将其从事件主体数据库中删除,又如,若出现了新发行的债券,而其对应的发行者并未保存在事件主体数据库中,则可将该发行者新增入事件主体数据库中。
步骤S105,通过预设的正则表达式对所述目标事件语句进行匹配。
若匹配成功,则执行步骤S106。
步骤S106,将所述目标事件语句中的所述匹配字段确定为与所述目标事件语句对应的事件主体。
例如,可以采用如下的正则匹配表达式进行匹配:
“(.*)+keyword+(.*event_keyword)”
其中,event_keyword为所述事件关键词,keyword为所述匹配字段。
若某一所述目标事件语句为:
“公司A发生债务违约的公告”,则上述正则表达式与该目标事件语句匹配成功,那么就可以确定出事件主体为“公司A”,即发生债务违约的是“公司A”。
需要注意的是,以上进行的是肯定匹配,即确定某一匹配字段是事件主体,可选地,还可以进行否定匹配,即确定某一匹配字段不是事件主体。
例如,可以采用如下的正则匹配表达式进行否定匹配:
“(.*:|:)+keyword+(.*关于)”
若某一所述目标事件语句为:
“公司A:银行B关于本公司发生债务违约的公告”,则上述正则表达式与该目标事件语句匹配成功,那么就可以确定出“银行B”不是与所述目标事件语句对应的事件主体,即发生债务违约的不是“银行B”。
在以上关于债务违约事件的分析中,这种方式使得债务违约事件的提取更加准确高效,对于用户而言是种福利,特别是银行等投资机构,能达到快速预警的效果。
综上所述,本发明实施例首先通过预设的网络搜索引擎获取与预设的初始关键词对应的初始搜索结果,并在所述初始搜索结果中筛选出扩展关键词,然后通过所述网络搜索引擎获取与所述扩展关键词对应的扩展搜索结果,再提取所述初始搜索结果和所述扩展搜索结果中的目标事件语句,最后通过预设的正则表达式对所述目标事件语句进行匹配,若匹配成功,则将所述目标事件语句中的所述匹配字段确定为与所述目标事件语句对应的事件主体。由于在初始关键词的基础上,进一步引入了扩展关键词对其进行扩充,能够得到更为广阔的搜索结果,而且由于通过正则表达式的使用实现了对于事件主体的自动匹配,大大提升了分析效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种事件信息分析方法,图5示出了本发明实施例提供的一种事件信息分析装置的一个实施例结构图。
本实施例中,一种事件信息分析装置可以包括:
初始搜索模块501,用于通过预设的网络搜索引擎获取与预设的初始关键词对应的初始搜索结果;
扩展关键词筛选模块502,用于在所述初始搜索结果中筛选出扩展关键词,所述扩展关键词为与所述初始关键词的相似度大于预设的相似度阈值的词语;
扩展搜索模块503,用于通过所述网络搜索引擎获取与所述扩展关键词对应的扩展搜索结果;
目标事件语句提取模块504,用于提取所述初始搜索结果和所述扩展搜索结果中的目标事件语句,所述目标事件语句为包含事件关键词和预设的匹配字段的语句,所述事件关键词为所述初始关键词或所述扩展关键词;
正则匹配模块505,用于通过预设的正则表达式对所述目标事件语句进行匹配;
事件主体确定模块506,用于若匹配成功,则将所述目标事件语句中的所述匹配字段确定为与所述目标事件语句对应的事件主体。
进一步地,所述事件信息分析终端设备还可以包括:
哈希运算模块,用于对所述初始搜索结果进行哈希运算,得到所述初始搜索结果的哈希值;
哈希值查找模块,用于在预设的哈希值集合中查找所述初始搜索结果的哈希值,所述哈希值集合用于记录已存储在预设的存储介质中的网页的哈希值;
搜索结果存储模块,用于若在所述哈希值集合中未查找到所述初始搜索结果的哈希值,则将所述初始搜索结果的哈希值添加入所述哈希值集合中,并将所述初始搜索结果存储在所述存储介质中;
搜索结果丢弃模块,用于若在所述哈希值集合中查找到所述初始搜索结果的哈希值,则丢弃所述初始搜索结果。
进一步地,所述哈希运算模块可以包括:
摘要内容获取单元,用于根据下式获取所述初始搜索结果的摘要内容:
SubContent=Head(PageContent)∪Tail(PageContent)
其中,PageContent为所述初始搜索结果中的网页正文,Head(PageContent)为所述初始搜索结果中的网页正文的前M个字符,Tail(PageContent)为所述初始搜索结果中的网页正文的后N个字符,M和N均为大于1的整数,SubContent为所述初始搜索结果的摘要内容;
哈希值计算单元,用于根据下式计算所述初始搜索结果的哈希值:
Key=Hash(SubContent)=Hash[Head(PageContent)∪Tail(PageContent)]
其中,Hash为预设的哈希函数,Key为所述初始搜索结果的哈希值。
进一步地,所述扩展关键词筛选模块可以包括:
字面重叠度计算单元,用于根据下式分别计算所述初始搜索结果中的各个词语与所述初始关键词之间的字面重叠度:
其中,w为所述初始搜索结果中的任一词语,为所述初始关键词,为w和共同包含的字的个数,为w包含的字数和包含的字数的最大值,为w与之间的字面重叠度;
搜索重叠度计算单元,用于根据下式分别计算所述初始搜索结果中的各个词语与所述初始关键词之间的搜索重叠度:
其中,为在所述初始搜索结果中w与共同出现的页面数,为在所述初始搜索结果中w出现的页面数和出现的页面数的最大值,为w与之间的搜索重叠度;
相似度计算单元,用于根据下式分别计算所述初始搜索结果中的各个词语与所述初始关键词之间的相似度:
其中,k1、k2均为预设的权重系数,且k1+k2=1,为w与之间的相似度;
扩展关键词确定单元,用于将与所述初始关键词的相似度大于所述相似度阈值的词语确定为所述扩展关键词。
进一步地,所述扩展搜索模块可以包括:
重要度分值计算单元,用于根据下式分别计算各个所述扩展关键词的重要度分值:
其中,ew为任一所述扩展关键词,freq(ew)为ew在所述初始搜索结果中出现的频次,Freq(ew)为ew在预设的样本语料库中出现的频次,ExWord为由各个所述扩展关键词组成的集合,max[Freq(ExWord)]为各个所述扩展关键词在所述样本语料库中出现的频次的最大值,ln为自然对数函数,Score(ew)为ew的重要度分值;
截取数目计算单元,用于根据下式分别计算与各个所述扩展关键词对应的扩展搜索结果的截取数目:
其中,ews为序号为s的所述扩展关键词,1≤s≤S,S为所述扩展关键词的数目,α为预设的比例系数,PageNum为预设的所述初始搜索结果的数目,ExPageNum(ew)为与ew对应的扩展搜索结果的截取数目;
扩展搜索结果获取单元,用于分别按照所述截取数目获取与各个所述扩展关键词对应的扩展搜索结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图6示出了本发明实施例提供的一种事件信息分析终端设备的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本实施例中,所述事件信息分析终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该事件信息分析终端设备6可包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机可读指令62,例如执行上述的事件信息分析方法的计算机可读指令。所述处理器60执行所述计算机可读指令62时实现上述各个事件信息分析方法实施例中的步骤,例如图1所示的步骤S101至S106。或者,所述处理器60执行所述计算机可读指令62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块501至506的功能。
示例性的,所述计算机可读指令62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令62在所述事件信息分析终端设备6中的执行过程。
所述处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述事件信息分析终端设备6的内部存储单元,例如事件信息分析终端设备6的硬盘或内存。所述存储器61也可以是所述事件信息分析终端设备6的外部存储设备,例如所述事件信息分析终端设备6上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述事件信息分析终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机可读指令以及所述事件信息分析终端设备6所需的其它指令和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种事件信息分析方法,其特征在于,包括:
通过预设的网络搜索引擎获取与预设的初始关键词对应的初始搜索结果;
在所述初始搜索结果中筛选出扩展关键词,所述扩展关键词为与所述初始关键词的相似度大于预设的相似度阈值的词语;
通过所述网络搜索引擎获取与所述扩展关键词对应的扩展搜索结果;
提取所述初始搜索结果和所述扩展搜索结果中的目标事件语句,所述目标事件语句为包含事件关键词和预设的匹配字段的语句,所述事件关键词为所述初始关键词或所述扩展关键词;
通过预设的正则表达式对所述目标事件语句进行匹配;
若匹配成功,则将所述目标事件语句中的所述匹配字段确定为与所述目标事件语句对应的事件主体;
所述通过所述网络搜索引擎获取与所述扩展关键词对应的扩展搜索结果包括:
根据下式分别计算各个所述扩展关键词的重要度分值:
其中,ew为任一所述扩展关键词,freq(ew)为ew在所述初始搜索结果中出现的频次,Freq(ew)为ew在预设的样本语料库中出现的频次,ExWord为由各个所述扩展关键词组成的集合,max[Freq(ExWord)]为各个所述扩展关键词在所述样本语料库中出现的频次的最大值,ln为自然对数函数,Score(ew)为ew的重要度分值;
根据下式分别计算与各个所述扩展关键词对应的扩展搜索结果的截取数目:
其中,ews为序号为s的所述扩展关键词,1≤s≤S,S为所述扩展关键词的数目,α为预设的比例系数,PageNum为预设的所述初始搜索结果的数目,ExPageNum(ew)为与ew对应的扩展搜索结果的截取数目;
分别按照所述截取数目获取与各个所述扩展关键词对应的扩展搜索结果。
2.根据权利要求1所述的事件信息分析方法,其特征在于,在通过预设的网络搜索引擎获取与预设的初始关键词对应的初始搜索结果之后,还包括:
对所述初始搜索结果进行哈希运算,得到所述初始搜索结果的哈希值;
在预设的哈希值集合中查找所述初始搜索结果的哈希值,所述哈希值集合用于记录已存储在预设的存储介质中的网页的哈希值;
若在所述哈希值集合中未查找到所述初始搜索结果的哈希值,则将所述初始搜索结果的哈希值添加入所述哈希值集合中,并将所述初始搜索结果存储在所述存储介质中;
若在所述哈希值集合中查找到所述初始搜索结果的哈希值,则丢弃所述初始搜索结果。
3.根据权利要求2所述的事件信息分析方法,其特征在于,所述对所述初始搜索结果进行哈希运算,得到所述初始搜索结果的哈希值包括:
根据下式获取所述初始搜索结果的摘要内容:
SubContent=Head(PageContent)∪Tail(PageContent)
其中,PageContent为所述初始搜索结果中的网页正文,Head(PageContent)为所述初始搜索结果中的网页正文的前M个字符,Tail(PageContent)为所述初始搜索结果中的网页正文的后N个字符,M和N均为大于1的整数,SubContent为所述初始搜索结果的摘要内容;
根据下式计算所述初始搜索结果的哈希值:
Key=Hash(SubContent)=Hash[Head(PageContent)∪Tail(PageContent)]
其中,Hash为预设的哈希函数,Key为所述初始搜索结果的哈希值。
4.根据权利要求1所述的事件信息分析方法,其特征在于,所述在所述初始搜索结果中筛选出扩展关键词包括:
根据下式分别计算所述初始搜索结果中的各个词语与所述初始关键词之间的字面重叠度:
其中,w为所述初始搜索结果中的任一词语,为所述初始关键词,为w和共同包含的字的个数,为w包含的字数和包含的字数的最大值,为w与之间的字面重叠度;
根据下式分别计算所述初始搜索结果中的各个词语与所述初始关键词之间的搜索重叠度:
其中,为在所述初始搜索结果中w与共同出现的页面数,为在所述初始搜索结果中w出现的页面数和出现的页面数的最大值,为w与之间的搜索重叠度;
根据下式分别计算所述初始搜索结果中的各个词语与所述初始关键词之间的相似度:
其中,k1、k2均为预设的权重系数,且k1+k2=1,为w与之间的相似度;
将与所述初始关键词的相似度大于所述相似度阈值的词语确定为所述扩展关键词。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项所述的事件信息分析方法的步骤。
6.一种事件信息分析终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
通过预设的网络搜索引擎获取与预设的初始关键词对应的初始搜索结果;
在所述初始搜索结果中筛选出扩展关键词,所述扩展关键词为与所述初始关键词的相似度大于预设的相似度阈值的词语;
通过所述网络搜索引擎获取与所述扩展关键词对应的扩展搜索结果;
提取所述初始搜索结果和所述扩展搜索结果中的目标事件语句,所述目标事件语句为包含事件关键词和预设的匹配字段的语句,所述事件关键词为所述初始关键词或所述扩展关键词;
通过预设的正则表达式对所述目标事件语句进行匹配;
若匹配成功,则将所述目标事件语句中的所述匹配字段确定为与所述目标事件语句对应的事件主体;
所述通过所述网络搜索引擎获取与所述扩展关键词对应的扩展搜索结果包括:
根据下式分别计算各个所述扩展关键词的重要度分值:
其中,ew为任一所述扩展关键词,freq(ew)为ew在所述初始搜索结果中出现的频次,Freq(ew)为ew在预设的样本语料库中出现的频次,ExWord为由各个所述扩展关键词组成的集合,max[Freq(ExWord)]为各个所述扩展关键词在所述样本语料库中出现的频次的最大值,ln为自然对数函数,Score(ew)为ew的重要度分值;
根据下式分别计算与各个所述扩展关键词对应的扩展搜索结果的截取数目:
其中,ews为序号为s的所述扩展关键词,1≤s≤S,S为所述扩展关键词的数目,α为预设的比例系数,PageNum为预设的所述初始搜索结果的数目,ExPageNum(ew)为与ew对应的扩展搜索结果的截取数目;
分别按照所述截取数目获取与各个所述扩展关键词对应的扩展搜索结果。
7.根据权利要求6所述的事件信息分析终端设备,其特征在于,在通过预设的网络搜索引擎获取与预设的初始关键词对应的初始搜索结果之后,还包括:
对所述初始搜索结果进行哈希运算,得到所述初始搜索结果的哈希值;
在预设的哈希值集合中查找所述初始搜索结果的哈希值,所述哈希值集合用于记录已存储在预设的存储介质中的网页的哈希值;
若在所述哈希值集合中未查找到所述初始搜索结果的哈希值,则将所述初始搜索结果的哈希值添加入所述哈希值集合中,并将所述初始搜索结果存储在所述存储介质中;
若在所述哈希值集合中查找到所述初始搜索结果的哈希值,则丢弃所述初始搜索结果。
8.根据权利要求7所述的事件信息分析终端设备,其特征在于,所述对所述初始搜索结果进行哈希运算,得到所述初始搜索结果的哈希值包括:
根据下式获取所述初始搜索结果的摘要内容:
SubContent=Head(PageContent)∪Tail(PageContent)
其中,PageContent为所述初始搜索结果中的网页正文,Head(PageContent)为所述初始搜索结果中的网页正文的前M个字符,Tail(PageContent)为所述初始搜索结果中的网页正文的后N个字符,M和N均为大于1的整数,SubContent为所述初始搜索结果的摘要内容;
根据下式计算所述初始搜索结果的哈希值:
Key=Hash(SubContent)=Hash[Head(PageContent)∪Tail(PageContent)]
其中,Hash为预设的哈希函数,Key为所述初始搜索结果的哈希值。
9.根据权利要求6至8中任一项所述的事件信息分析终端设备,其特征在于,所述在所述初始搜索结果中筛选出扩展关键词包括:
根据下式分别计算所述初始搜索结果中的各个词语与所述初始关键词之间的字面重叠度:
其中,w为所述初始搜索结果中的任一词语,为所述初始关键词,为w和共同包含的字的个数,为w包含的字数和包含的字数的最大值,为w与之间的字面重叠度;
根据下式分别计算所述初始搜索结果中的各个词语与所述初始关键词之间的搜索重叠度:
其中,为在所述初始搜索结果中w与共同出现的页面数,为在所述初始搜索结果中w出现的页面数和出现的页面数的最大值,为w与之间的搜索重叠度;
根据下式分别计算所述初始搜索结果中的各个词语与所述初始关键词之间的相似度:
其中,k1、k2均为预设的权重系数,且k1+k2=1,为w与之间的相似度;
将与所述初始关键词的相似度大于所述相似度阈值的词语确定为所述扩展关键词。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810305412.4A CN108763272B (zh) | 2018-04-08 | 2018-04-08 | 一种事件信息分析方法、计算机可读存储介质及终端设备 |
PCT/CN2018/093346 WO2019196209A1 (zh) | 2018-04-08 | 2018-06-28 | 事件信息分析方法、可读存储介质、终端设备及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810305412.4A CN108763272B (zh) | 2018-04-08 | 2018-04-08 | 一种事件信息分析方法、计算机可读存储介质及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763272A CN108763272A (zh) | 2018-11-06 |
CN108763272B true CN108763272B (zh) | 2019-09-17 |
Family
ID=63981090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810305412.4A Active CN108763272B (zh) | 2018-04-08 | 2018-04-08 | 一种事件信息分析方法、计算机可读存储介质及终端设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108763272B (zh) |
WO (1) | WO2019196209A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763272B (zh) * | 2018-04-08 | 2019-09-17 | 平安科技(深圳)有限公司 | 一种事件信息分析方法、计算机可读存储介质及终端设备 |
CN110458296B (zh) * | 2019-08-02 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 目标事件的标记方法和装置、存储介质及电子装置 |
CN111177405A (zh) * | 2019-12-18 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 数据搜索匹配方法、装置、计算机设备和存储介质 |
CN111309299A (zh) * | 2020-01-15 | 2020-06-19 | 珠海格力智能装备有限公司 | 工业机器人语言处理方法、装置、存储介质和电子设备 |
CN113468321B (zh) * | 2021-09-01 | 2022-01-04 | 江苏金陵科技集团有限公司 | 一种基于大数据的事件聚合分析方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229624A (zh) * | 2016-03-23 | 2017-10-03 | 百度在线网络技术(北京)有限公司 | 一种页面提供方法和页面提供装置 |
CN107273404A (zh) * | 2017-04-26 | 2017-10-20 | 努比亚技术有限公司 | 搜索引擎的评估方法、装置及计算机可读存储介质 |
CN107590169A (zh) * | 2017-04-14 | 2018-01-16 | 南方科技大学 | 一种运营商网关数据的预处理方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170067918A (ko) * | 2015-12-08 | 2017-06-19 | 전자부품연구원 | 마인드맵 기반 키워드 검색 방법 및 이를 위한 장치 |
CN107330111A (zh) * | 2017-07-07 | 2017-11-07 | 长沙沃本智能科技有限公司 | 基于通用形式化本体的领域本体的检索方法及装置 |
CN108763272B (zh) * | 2018-04-08 | 2019-09-17 | 平安科技(深圳)有限公司 | 一种事件信息分析方法、计算机可读存储介质及终端设备 |
-
2018
- 2018-04-08 CN CN201810305412.4A patent/CN108763272B/zh active Active
- 2018-06-28 WO PCT/CN2018/093346 patent/WO2019196209A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229624A (zh) * | 2016-03-23 | 2017-10-03 | 百度在线网络技术(北京)有限公司 | 一种页面提供方法和页面提供装置 |
CN107590169A (zh) * | 2017-04-14 | 2018-01-16 | 南方科技大学 | 一种运营商网关数据的预处理方法及系统 |
CN107273404A (zh) * | 2017-04-26 | 2017-10-20 | 努比亚技术有限公司 | 搜索引擎的评估方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019196209A1 (zh) | 2019-10-17 |
CN108763272A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763272B (zh) | 一种事件信息分析方法、计算机可读存储介质及终端设备 | |
US11270076B2 (en) | Adaptive evaluation of meta-relationships in semantic graphs | |
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
US11544459B2 (en) | Method and apparatus for determining feature words and server | |
US9318027B2 (en) | Caching natural language questions and results in a question and answer system | |
WO2022095374A1 (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
WO2017166912A1 (zh) | 商品短文本核心词提取方法和装置 | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
US20160171095A1 (en) | Identifying and Displaying Relationships Between Candidate Answers | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
US9507867B2 (en) | Discovery engine | |
US9251133B2 (en) | Approximate named-entity extraction | |
CN105550168B (zh) | 一种确定对象的概念词的方法和装置 | |
CN109885813A (zh) | 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质 | |
CN110334343B (zh) | 一种合同中个人隐私信息抽取的方法和系统 | |
WO2015085805A1 (zh) | 一种确定图片簇描述文本核心词的方法及装置 | |
WO2019218452A1 (zh) | 热词分析方法、计算机可读存储介质、终端设备及装置 | |
CN107527289B (zh) | 一种投资组合行业配置方法、装置、服务器和存储介质 | |
WO2022105178A1 (zh) | 一种关键词提取的方法及相关装置 | |
TWM423854U (en) | Document analyzing apparatus | |
CN103092838B (zh) | 一种获取英文词的方法及装置 | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
Sailaja et al. | An overview of pre-processing text clustering methods | |
CN110717029A (zh) | 一种信息处理方法和系统 | |
TWI636370B (zh) | Establishing chart indexing method and computer program product by text information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |