CN110232160A - 兴趣点变迁事件检测方法、装置及存储介质 - Google Patents

兴趣点变迁事件检测方法、装置及存储介质 Download PDF

Info

Publication number
CN110232160A
CN110232160A CN201910537096.8A CN201910537096A CN110232160A CN 110232160 A CN110232160 A CN 110232160A CN 201910537096 A CN201910537096 A CN 201910537096A CN 110232160 A CN110232160 A CN 110232160A
Authority
CN
China
Prior art keywords
interest
point
sentence
transition event
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910537096.8A
Other languages
English (en)
Other versions
CN110232160B (zh
Inventor
潘禄
梁海金
陈玉光
彭卫华
罗雨
刘远圳
韩翠云
施茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910537096.8A priority Critical patent/CN110232160B/zh
Publication of CN110232160A publication Critical patent/CN110232160A/zh
Application granted granted Critical
Publication of CN110232160B publication Critical patent/CN110232160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提出一种兴趣点变迁事件检测方法、装置及计算机可读存储介质。其中兴趣点变迁事件检测方法包括:从社交信息中获取第一文本信息;利用触发词对所述第一文本信息进行过滤,得到第二文本信息;从所述第二文本信息中提取出兴趣点变迁事件;对所述兴趣点变迁事件进行排序,得到排序信息。本发明实施例得到所述兴趣点变迁事件的排序信息,使得后续上线操作能够根据排序信息进行处理,可保证后续兴趣点信息的上线时效性,同时也能够在资源有限的情况下尽量提高收益。

Description

兴趣点变迁事件检测方法、装置及存储介质
技术领域
本发明涉及信息技术领域,尤其涉及一种兴趣点变迁事件检测方法、装置及计算机可读存储介质。
背景技术
目前,地图POI(Point of Interest,兴趣点)相关情报的发现是通过从竞品上自动发现或人工搜索与POI相关的文章进行审核,也就是审核上线相关的事件,审核之后将上线情报展示给用户。例如,从作为竞品的地图上发现某个旅游景点暂时不开放。再如,用户在检索POI时,如“xx博物馆”,对于处于已经暂停营业、营业时间调整等状态的POI,可以通过强样式的方式提醒用户,尽量减少用户无效出行。通过这种方式可大大提升地图的用户体验。目前在建设兴趣点变迁事件的数据时,都是纯人工作业,人工从社交内容中搜集相关的素材以进行兴趣点变迁事件检测,这种做法效率低,应用规模小。
另一方面,对于检测到的兴趣点变迁事件需要实时进行相关处理。只有及时在地图上标示提醒才能避免用户的无效出行。目前针对检测到的兴趣点变迁事件没有使用高效合理的处理方式。尤其在检测到的兴趣点变迁事件较多的情况下,不能做到及时处理,处理效率较低。
发明内容
本发明实施例提供一种兴趣点变迁事件检测方法、装置、内容安全防火墙及计算机可读存储介质,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种兴趣点变迁事件检测方法,包括:
从社交信息中获取第一文本信息;
利用触发词对所述第一文本信息进行过滤,得到第二文本信息;
从所述第二文本信息中提取出兴趣点变迁事件;
对所述兴趣点变迁事件进行排序,得到排序信息。
在一种实施方式中,所述触发词包括与兴趣点相关的动词或动词短语;
利用触发词对所述第一文本信息进行过滤,得到第二文本信息,包括:从所述第一文本信息中过滤掉不包括触发词的文本信息,得到第二文本信息。
在一种实施方式中,从所述第二文本信息中提取出兴趣点变迁事件,包括:
对所述第二文本信息进行切句处理,得到待检测的句子;
从所述待检测的句子中提取出兴趣点变迁事件。
在一种实施方式中,从所述待检测的句子中提取出兴趣点变迁事件,包括:
利用神经网络模型判别所述待检测的句子是否属于变迁事件句,其中,所述变迁事件句是包含兴趣点变迁事件的所述待检测的句子;
从变迁事件句中提取出兴趣点变迁事件。
在一种实施方式中,利用神经网络模型判别所述待检测的句子是否属于变迁事件句之前,所述方法还包括:
从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合,其中,所述兴趣点信息包括兴趣点的名字、兴趣点在句子中的起始位置和兴趣点的得分;
利用神经网络模型判别所述待检测的句子是否属于变迁事件句,包括:利用神经网络模型对所述候选句子集合中的每个候选句子进行兴趣点变迁事件判别,得到每个候选句子包含兴趣点变迁事件的概率;根据所述概率判别所述待检测的句子是否属于变迁事件句。
在一种实施方式中,从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合之后,且利用神经网络模型判别所述待检测的句子是否属于变迁事件句之前,所述方法还包括利用以下方式中的至少一种对所述候选句子集合中的候选句子进行过滤处理:
对所述候选句子进行分词操作,根据所述分词操作的结果对所述兴趣点的名字进行边界检测,过滤掉所述兴趣点的名字与所述分词操作的结果不匹配的所述候选句子;
利用预先设置的第一区域名表与所述候选句子进行匹配,过滤掉所述兴趣点的名字为所述第一区域名表中的第一区域名的所述候选句子;
过滤掉所述兴趣点的得分低于预设的分数阈值的所述候选句子。
在一种实施方式中,从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合之后,所述方法还包括:
从所述候选句子集合中的每个候选句子中抽取兴趣点对应的事件时间和兴趣点归属的区域。
在一种实施方式中,利用神经网络模型判别所述待检测的句子是否属于变迁事件句之后,所述方法还包括利用以下方式中的至少一种对所述变迁事件句进行过滤处理:
过滤掉所述兴趣点的名字中包括所述触发词的所述变迁事件句;
过滤掉所述概率低于预设概率阈值的所述变迁事件句;
过滤掉所述事件时间距离所述第一文本信息发布时间大于预设时间阈值的所述变迁事件句;
利用第二区域名表与所述变迁事件句进行匹配,过滤掉所述兴趣点归属的区域包括所述第二区域名表中的第二区域名的所述变迁事件句,其中,所述第二区域名表是在预先设置的兴趣点变迁事件检测区域范围之外的区域;
确定所述变迁事件句中的所述兴趣点与所述触发词是否存在关联关系,过滤掉所述兴趣点与所述触发词不存在关联关系的所述变迁事件句。
在一种实施方式中,从所述第二文本信息中提取出兴趣点变迁事件之后,所述方法还包括:
对提取出的所述兴趣点变迁事件进行归一操作,以去掉重复提取的所述兴趣点变迁事件。
在一种实施方式中,对所述兴趣点变迁事件进行排序,得到排序信息,包括:
将在预设时间间隔内提取出的所述兴趣点变迁事件按照热度进行排序,得到所述兴趣点变迁事件的排序信息。
第二方面,本发明实施例提供了一种兴趣点变迁事件检测装置,包括:
获取单元,用于从社交信息中获取第一文本信息;
第一过滤单元,用于利用触发词对所述第一文本信息进行过滤,得到第二文本信息;
提取单元,用于从所述第二文本信息中提取出兴趣点变迁事件;
排序单元,用于对所述兴趣点变迁事件进行排序,得到排序信息。
在一种实施方式中,所述触发词包括与兴趣点相关的动词或动词短语;
所述第一过滤单元用于:从所述第一文本信息中过滤掉不包括触发词的文本信息,得到第二文本信息。
在一种实施方式中,所述提取单元包括:
切句子单元,用于对所述第二文本信息进行切句处理,得到待检测的句子;
第一提取子单元,用于从所述待检测的句子中提取出兴趣点变迁事件。
在一种实施方式中,所述第一提取子单元包括:
判别子单元,用于:利用神经网络模型判别所述待检测的句子是否属于变迁事件句,其中,所述变迁事件句是包含兴趣点变迁事件的所述待检测的句子;
第二提取子单元,用于从变迁事件句中提取出兴趣点变迁事件。
在一种实施方式中,所述提取单元还包括检测子单元,所述检测子单元用于:利用神经网络模型判别所述待检测的句子是否属于变迁事件句之前,从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合,其中,所述兴趣点信息包括兴趣点的名字、兴趣点在句子中的起始位置和兴趣点的得分;
所述判别子单元用于:利用神经网络模型对所述候选句子集合中的每个候选句子进行兴趣点变迁事件判别,得到每个候选句子包含兴趣点变迁事件的概率;根据所述概率判别所述待检测的句子是否包含兴趣点变迁事件。
在一种实施方式中,所述提取单元还包括第二过滤子单元,所述第二过滤子单元用于从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合之后,且利用神经网络模型判别所述待检测的句子是否属于变迁事件句之前,利用以下方式中的至少一种对所述候选句子集合中的候选句子进行过滤处理:
对所述候选句子进行分词操作,根据所述分词操作的结果对所述兴趣点的名字进行边界检测,过滤掉所述兴趣点的名字与所述分词操作的结果不匹配的所述候选句子;
利用预先设置的第一区域名表与所述候选句子进行匹配,过滤掉所述兴趣点的名字为所述第一区域名表中的第一区域名的所述候选句子;
过滤掉所述兴趣点的得分低于预设的分数阈值的所述候选句子。
在一种实施方式中,所述提取单元还包括抽取子单元,所述抽取子单元用于:从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合之后,从所述候选句子集合中的每个候选句子中抽取兴趣点对应的事件时间和兴趣点归属的区域。
在一种实施方式中,所述第一提取子单元还包括第三过滤子单元,所述第三过滤子单元用于在利用神经网络模型判别所述待检测的句子是否属于变迁事件句之后,利用以下方式中的至少一种对所述变迁事件句进行过滤处理:
过滤掉所述兴趣点的名字中包括所述触发词的所述变迁事件句;
过滤掉所述概率低于预设概率阈值的所述变迁事件句;
过滤掉所述事件时间距离所述第一文本信息发布时间大于预设时间阈值的所述变迁事件句;
利用第二区域名表与所述变迁事件句进行匹配,过滤掉所述兴趣点归属的区域包括所述第二区域名表中的第二区域名的所述变迁事件句,其中,所述第二区域名表是在预先设置的兴趣点变迁事件检测区域范围之外的区域;
确定所述变迁事件句中的所述兴趣点与所述触发词是否存在关联关系,过滤掉所述兴趣点与所述触发词不存在关联关系的所述变迁事件句。
在一种实施方式中,所述装置还包括归一处理单元,所述归一处理单元用于从所述第二文本信息中提取出兴趣点变迁事件之后,对提取出的所述兴趣点变迁事件进行归一操作,以去掉重复提取的所述兴趣点变迁事件。
在一种实施方式中,所述排序单元用于:
将在预设时间间隔内提取出的所述兴趣点变迁事件按照热度进行排序,得到所述兴趣点变迁事件的排序信息。
第三方面,本发明实施例提供了一种兴趣点变迁事件检测装置,所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述装置的结构中包括处理器和存储器,所述存储器用于存储支持所述装置执行上述兴趣点变迁事件检测方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述装置还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储兴趣点变迁事件检测装置所用的计算机软件指令,其包括用于执行上述兴趣点变迁事件检测方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:得到所述兴趣点变迁事件的排序信息,使得后续上线操作能够根据排序信息进行处理,可保证后续兴趣点信息的上线时效性,同时也能够在资源有限的情况下尽量提高收益。
上述技术方案中的另一个技术方案具有如下优点或有益效果:通过对所述变迁事件句进行过滤处理进一步提高了兴趣点变迁事件检测的准确度。
上述技术方案中的又一个技术方案具有如下优点或有益效果:通过从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合,以及对所述候选句子集合中的候选句子进行过滤处理,减少了后续步骤的计算量,提高了检测效率。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的兴趣点变迁事件检测方法的流程图。
图2示出根据本发明另一实施例的兴趣点变迁事件检测方法的流程图。
图3示出根据本发明又一实施例的兴趣点变迁事件检测方法的流程图。
图4示出根据本发明再一实施例的兴趣点变迁事件检测方法的流程图。
图5示出根据本发明再一实施例的兴趣点变迁事件检测方法的依存句法树示意图。
图6示出根据本发明再一实施例的兴趣点变迁事件检测方法的流程图。
图7示出根据本发明实施例的兴趣点变迁事件检测装置的结构框图。
图8示出根据本发明另一实施例的兴趣点变迁事件检测装置的结构框图。
图9示出根据本发明又一实施例的兴趣点变迁事件检测装置的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本发明实施例的兴趣点变迁事件检测方法的流程图。如图1所示,该兴趣点变迁事件检测方法包括:
步骤S110,从社交信息中获取第一文本信息;
步骤S120,利用触发词对所述第一文本信息进行过滤,得到第二文本信息;
步骤S130,从所述第二文本信息中提取出兴趣点变迁事件;
步骤S140,对所述兴趣点变迁事件进行排序,得到排序信息。
POI(兴趣点)是地图上具体的某个位置。在地理信息系统中,一个兴趣点可以是一栋房子、一个商铺、一个邮筒、一个公交站、一个旅游景点等。从文本信息中提取POI实体的过程称为POI提取。例如,可以从句子中提取POI实体。本发明实施例从社交信息中获取与兴趣点相关的信息,并且仅通过触发词实现信息召回。然后再从召回的信息中实施POI提取操作,并提取出兴趣点变迁事件,并且将兴趣点变迁事件排序。排序信息体现了各个兴趣点变迁事件的热度和重要程度,可对兴趣点变迁事件的后续处理提供重要的提示信息。
具体地,在步骤S110中,可从各类社交网站和资讯网站等社交渠道的社交信息中获取第一文本信息。例如,可从各类社交网站和资讯网站等数据源中获取文章或消息等。在以上示例中,从多个数据源中获取文章,对于不同的数据源可使用不同的处理方式对获取的文章进行处理。例如:在网站A中的文章或者消息的格式可能没有标点,只有回车符。对于这种情况的处理方式,可以用标点代替回车符。再如,网站B中的文章可能存在“#”等无关的符号和无关的信息,对于这种情况的处理方式,可以将无关的符号和无关的信息去掉。最终使来自多个数据源的第一文本信息的结构格式统一,便于系统处理。该统一格式中可包含文章标题、正文、发布时间字段等。
在一个示例中,步骤S120中的触发词可以是预先设置的若干个动词,例如“暂停营业”、“停业整顿”、“歇业改造”等。在步骤S120中,将不包括触发词的第一文本信息过滤掉,得到第二文本信息。例如对从社交信息中获取的文章进行过滤,将不包括触发词的文章过滤掉,从而得到的第二文本信息中的所有文章都是包括触发词的。然后执行步骤S130,在所述第二文本信息中获取与兴趣点相关的信息,并提取出兴趣点变迁事件。
在步骤S140中将兴趣点变迁事件排序。可根据排序信息对兴趣点变迁事件做后续处理,例如在地图上标示出兴趣点变迁事件。排序后的兴趣点变迁事件可提供给审核人员,排序信息可对兴趣点变迁事件的后续处理起到重要的提示和引导作用。例如,将兴趣点变迁事件按照POI热度进行排序,将排序信息提供给审核人员,使得审核人员可以优先处理热度高的兴趣点变迁事件,这样保证了热点POI上线时效性。
上述技术方案具有如下优点或有益效果:得到所述兴趣点变迁事件的排序信息,使得后续上线操作能够根据排序信息进行处理,可保证后续兴趣点信息的上线时效性,同时也能够在资源有限的情况下尽量提高收益。
在一种实施方式中,所述触发词包括与兴趣点相关的动词或动词短语;
利用触发词对所述第一文本信息进行过滤,得到第二文本信息,包括:从所述第一文本信息中过滤掉不包括触发词的文本信息,得到第二文本信息。
从社交信息中获取第一文本信息之后,可加载触发词表。其中,触发词表可以是经过人工筛选出的词汇表。触发词表中主要包括与兴趣点相关的一些动词或者动词短语。将这些动词或者动词短语作为触发词,如“装修停业”、“即将开业”等。在这种实施方式中,使用触发词对第一文本信息进行过滤,例如,如果文章标题或正文都不包触发词,则将该文章过滤掉;如果文章标题和正文中至少包含一个触发词,则将该文章保留。将第一文本信息经过过滤处理,得到第二文本信息。
本发明实施例仅通过包括动词的触发词从社交内容中召回事件句,提高了召回率。由于触发词是与兴趣点相关的一些动词或者动词短语,与城市列表或兴趣点列表相比,动词的集合会小得多,更容易做到穷举,因此提高了召回率。另一方面,由于同一个城市可能有不同的名字、有时会出现兴趣点的名字是一个新的地点、兴趣点改了名字等情况,所以如果通过城市名或兴趣点列表进行召回,会导致召回率低。另外,有些小的城市可能不在城市列表中,或热度不高的兴趣点可能不在兴趣点列表中,可能会导致无法召回。
图2示出根据本发明另一实施例的兴趣点变迁事件检测方法的流程图。如图2所示,在一种实施方式中,图1中的步骤S130,从所述第二文本信息中提取出兴趣点变迁事件,具体可包括:
步骤S310,对所述第二文本信息进行切句处理,得到待检测的句子;
步骤S320,从所述待检测的句子中提取出兴趣点变迁事件。
在步骤S310中,对经过上述方法过滤后保留下来的文章进行句子处理。例如,可将文章标题和正文拼接作为整体处理。一个示例性的处理步骤可包括使用特定的符号对文本进行切句,如可使用句号、分号、惊叹号等。进一步对每个句子进行处理还可包括:将超过一定长度的句子进行截断处理、去掉无关信息,如去掉括号内的内容。经过以上处理,得到待检测的句子。然后执行步骤S320,可从所述待检测的句子中提取出兴趣点变迁事件。
图3示出根据本发明又一实施例的兴趣点变迁事件检测方法的流程图。如图3所示,在一种实施方式中,图2中的步骤S320,从所述待检测的句子中提取出兴趣点变迁事件,具体可包括:
步骤S410,利用神经网络模型判别所述待检测的句子是否属于变迁事件句,其中,所述变迁事件句是包含兴趣点变迁事件的所述待检测的句子;
步骤S420,从变迁事件句中提取出兴趣点变迁事件。
在步骤S410中,利用神经网络模型判别所述待检测的句子是否包含兴趣点变迁事件,以确定所述待检测的句子是否属于变迁事件句。然后执行步骤S420,从变迁事件句中提取出兴趣点变迁事件。例如,“搬迁公司具有多年的搬迁经验,为您定制搬迁方案,24小时上门服务,价格透明。”这句话中虽然包括动词“搬迁”,但是这句话不是一个变迁事件句。可利用神经网络模型判别所述待检测的句子是否属于变迁事件句。
图4示出根据本发明再一实施例的兴趣点变迁事件检测方法的流程图。参见图3和图4,在一种实施方式中,图3中的步骤S410,利用神经网络模型判别所述待检测的句子是否属于变迁事件句之前,所述方法还包括:
步骤S510,从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合,其中,所述兴趣点信息包括兴趣点的名字、兴趣点在句子中的起始位置和兴趣点的得分;
图3中的步骤S410,利用神经网络模型判别所述待检测的句子是否属于变迁事件句,具体可包括步骤S520:利用神经网络模型对所述候选句子集合中的每个候选句子进行兴趣点变迁事件判别,得到每个候选句子包含兴趣点变迁事件的概率;根据所述概率判别所述待检测的句子是否属于变迁事件句。
在步骤S510中,可从句子中检测出所有的兴趣点,每个兴趣点对应的兴趣点信息包含兴趣点的名字、兴趣点在句子中的起始位置、兴趣点的得分。其中,兴趣点的得分体现了兴趣点对应的在图上的地点的置信度。可利用深度学习模型,如神经网络模型,从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合。在一个示例中,可以在神经网络模型中使用序列标注,以得到兴趣点的名字、兴趣点在句子中的起始位置和兴趣点的得分。
在步骤S510得到候选句子集合之后,可执行步骤S520对候选句子集合中的每个候选句子进行兴趣点变迁事件判别,得到每个候选句子包含兴趣点变迁事件的概率。
在一个示例中,利用神经网络模型进行兴趣点变迁事件判别,判别输入的句子是不是包含一个兴趣点变迁事件。例如:“故宫历史悠久,是中国古建筑物的重要代表,每年都有大批游客前往一览其雄伟。”这句话不是一个变迁事件,对应的输出的该句子包含兴趣点变迁事件的概率会很小。对于这种概率很小的情况,可判别该句子不属于变迁事件句。
参见图3和图4,在一种实施方式中,从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合(步骤S510)之后,且利用神经网络模型判别所述待检测的句子是否属于变迁事件句(图3中步骤S410)之前,或者在图4中步骤S520之前,所述方法还包括步骤S610:利用以下方式中的至少一种对所述候选句子集合中的候选句子进行过滤处理:
1.1)对所述候选句子进行分词操作,根据所述分词操作的结果对所述兴趣点的名字进行边界检测,过滤掉所述兴趣点的名字与所述分词操作的结果不匹配的所述候选句子;
1.2)利用预先设置的第一区域名表与所述候选句子进行匹配,过滤掉所述兴趣点的名字为所述第一区域名表中的第一区域名的所述候选句子;
1.3)过滤掉所述兴趣点的得分低于预设的分数阈值的所述候选句子。
在以上过滤方式1.1)中,可使用分词工具对候选句子进行分词操作,使用分词操作的结果对提取的兴趣点的名字进行边界检测。由于在步骤S510中检测兴趣点的名字,可能会出现划错边界的情况。例如在神经网络模型中使用序列标注检测出的兴趣点的名字可能会多出一个字或几个字。正确的检测结果是【S33济徐高速】,而错误的检测结果是【S33济徐高速汶上】。因为在使用序列标注的方法中,不考虑分词时边界划分是否合理,因此会存在一定的边界错误的情况,这种情况不符合正常句子分词的逻辑。针对这种情况,可在过滤方式1.1)中使用分词工具进行字符边界检测,利用分词检测的功能确定句子分词的边界。例如,利用分词操作的结果将【S33济徐高速】纠正为【S33济徐高速汶上】。
在以上过滤方式1.2)的一个示例中,第一区域名表可包括城市名表。可使用城市名表过滤掉兴趣点的名字仅包含国家、省、市等单个实体名字的兴趣点。例如,兴趣点的名字是“沈阳市”,则该兴趣点的名字是地图上的一个区域范围,不是地图上具体的某个位置。通常情况下,这种类型的兴趣点不会与一个具体的变迁事件相关联,因此可将包含这种类型的兴趣点的名字的候选句子过滤掉。
兴趣点的得分体现了兴趣点对应的在图上的地点的置信度。在以上过滤方式1.3)中,如果候选句子中包含兴趣点的得分较低的兴趣点,则将该候选句子过滤掉。
上述技术方案中的又一个技术方案具有如下优点或有益效果:通过从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合,以及对所述候选句子集合中的候选句子进行过滤处理,减少了后续步骤的计算量,提高了检测效率。
参见图4,在一种实施方式中,在步骤S510,从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合之后,所述方法还包括:
步骤S710,从所述候选句子集合中的每个候选句子中抽取兴趣点对应的事件时间和兴趣点归属的区域。
本发明实施例将兴趣点变迁事件的挖掘包括变迁事件句的挖掘与事件属性的挖掘。其中,事件属性可包括触发词、兴趣点、事件时间、归属的区域。例如,候选句子的表述为:“安康市博物馆于2017年12月29日建成开馆。”,则从该候选句子中可挖掘出的事件属性可包括:触发词为“建成开馆”、兴趣点为“安康市博物馆”、事件时间为“2017年12月29日”、归属的区域为“安康市”。
以上各个事件属性是本发明实施例中兴趣点变迁事件检测的最终结果,最后需要将该结果排序后提供给审核人员继续后续的处理操作。
图4中的步骤S710和步骤S610的执行顺序可以互换。先执行步骤S610对候选句子进行过滤处理后,再执行步骤S710抽取出事件属性,可减少数据的处理量,提高处理效率。
另外,图4中的步骤S710也可以和步骤S520的执行顺序可以互换。也就是说,步骤S710的抽取出事件属性的操作可以在判别所述待检测的句子是否属于变迁事件句(步骤S520)之后执行。可先判别所述待检测的句子是否属于变迁事件句,再从变迁事件句中抽取出事件属性,这种实施方式也可减少数据的处理量,提高处理效率。
在一个示例中,对于从当前候选句子中没有抽取出时间的,可使用距离当前候选句子最近的抽取出时间的句子的事件时间作为当前候选句子的事件时间。
在另一个示例中,可使用事件时间归一方法提取句子中描述的时间。归一的目的是去掉重复记录的事件,如果事件时间相同且兴趣点的名字相同则可认为是重复记录的事件。归一是将表达为两种不同描述的相同事件归一到一起。归一的方法可包括:1)计算两个句子的编辑距离,将编辑距离较小的两个句子归一到一起;2)利用神经网络模型判断不同描述的句子是否是相同事件;3)从提取的事件属性出发,判断是否一致,从而确定是否是相同事件。
在又一个示例中,除了从每个候选句子中抽取兴趣点归属的区域外,还可以针对整篇文章,将整篇文章中出现的所有兴趣点归属的区域组成归属区域集合。例如,可以将城市作为兴趣点归属的区域,根据城市名表匹配候选句子所在文章中的城市名,将文章中出现的所有城市集合作为候选城集合。
由于兴趣点变迁事件需要绑定到地图的一个具体位置上,因此需要获取兴趣点归属的区域。例如,如果兴趣点的名字为“万达广场”,由于多个城市都有万达广场,因此需要获取兴趣点所在的城市,才能将兴趣点变迁事件绑定到地图的一个具体位置上。
另外,兴趣点所在的城市不一定出现在当前候选句子中。例如当前候选句子的表述为“万达广场1号店今天暂停营业”,可知当前候选句子中没有出现兴趣点所在的城市。由此,可利用候选城集合确定兴趣点所在的城市。在一个示例中,可将当前候选句子中的兴趣点与候选城集合中的各个城市名进行匹配,对于各个匹配经过分析给出评分。例如当前候选句子中的兴趣点的名字是“故宫”,当前候选句子所在文章的候选城集合为{北京,苏州}。将“故宫”与{北京,苏州}进行匹配,得到“北京故宫”和“苏州故宫”。对以上两个匹配的评分结果是“北京故宫”的得分高,由此可确定兴趣点“故宫”所在的城市是北京。
参见图3和图4,在一种实施方式中,图3中步骤S410,利用神经网络模型判别所述待检测的句子是否属于变迁事件句之后,或者在图4中步骤S520之后,所述方法还包括步骤S810,利用以下方式中的至少一种对所述变迁事件句进行过滤处理:
2.1)过滤掉所述兴趣点的名字中包括所述触发词的所述变迁事件句;
2.2)过滤掉所述概率低于预设概率阈值的所述变迁事件句;
2.3)过滤掉所述事件时间距离所述第一文本信息发布时间大于预设时间阈值的所述变迁事件句;
2.4)利用第二区域名表与所述变迁事件句进行匹配,过滤掉所述兴趣点归属的区域包括所述第二区域名表中的第二区域名的所述变迁事件句,其中,所述第二区域名表是在预先设置的兴趣点变迁事件检测区域范围之外的区域;
2.5)确定所述变迁事件句中的所述兴趣点与所述触发词是否存在关联关系,过滤掉所述兴趣点与所述触发词不存在关联关系的所述变迁事件句。
在以上过滤方式2.1)中,过滤掉触发词被兴趣点的名字包含的变迁事件句。例如,兴趣点的名字为:“开心户外6月16号本溪关门山景区+小市一庄活动”、“紫剑旅游--10月9日本溪关门山景区赏枫叶一日活动”、“关门村农田灌溉堰渠项目正在施工”,以上兴趣点的名字中包含“关门”这个触发词。对于兴趣点的名字包含触发词的情况,被兴趣点的名字包含的触发词不表达事件动词的意思。因此在这种情况下,将所述变迁事件句过滤掉。
在以上过滤方式2.3)的示例中,可设置时间阈值为半年,过滤掉事件时间距离文章发布时间大于半年的变迁事件句。
在以上过滤方式2.4)的示例中,可使用国家名表作为第二区域名表。使用国家名表匹配变迁事件句,过滤掉包含国家名的变迁事件句。例如在某个国家范围内进行兴趣点变迁事件检测,则过滤掉除这个国家之外的其它国家的兴趣点名字。在一个示例中,如果在中国地图的范围内进行兴趣点变迁事件检测,如果兴趣点名字是“法国巴黎圣母院”,则可将该兴趣点名字所在的变迁事件句过滤掉。
在以上过滤方式2.5)中,对兴趣点和触发词进行关联。具体地,对包含一个以上的触发词或者多于一个兴趣点的句子,使用预设规则对触发词和兴趣点进行一对一关联。关联的预设规则或方法可包括:
2.5.1)位置关联,即将距离触发词比较近的兴趣点与该触发词进行关联。
2.5.2)依存距离,利用依存句法树将触发词和兴趣点进行一对一关联。
其中,依存句法是将句子分析成一棵依存句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。例如句子“会议宣布了首批资深院士名单。”的依存句法树如图5所示。从图5可以看出,词“宣布”支配“会议”、“了”和“名单”,故可以将这些支配词作为“宣布”的搭配词。
2.5.3)利用神经网络模型进行分类,将触发词和兴趣点进行一对一关联。
在以上过滤方式2.1)、2.4)、2.5)中,可利用步骤S510中得到的兴趣点在句子中的起始位置定位到兴趣点,进而对兴趣点进行的分析、匹配或关联等操作。
另外,在一种实施方式中,在上述步骤S610中对候选句子进行过滤处理的操作步骤也可移至步骤S810中执行。但先执行步骤S610,再执行后续的步骤S520和步骤S810,可以减少后续的步骤的计算量。
上述技术方案中的另一个技术方案具有如下优点或有益效果:通过对所述变迁事件句进行过滤处理进一步提高了兴趣点变迁事件检测的准确度。
参见图1至图4,在一种实施方式中,图1中的步骤S130,从所述第二文本信息中提取出兴趣点变迁事件之后,或者在图4中步骤S420之后,所述方法还包括:
步骤S910,对提取出的所述兴趣点变迁事件进行归一操作,以去掉重复提取的所述兴趣点变迁事件。
归一操作的目的是去掉历史重复或者预定时间内重复表达的事件,例如去掉当天重复表达的事件。这类重复表达在描述上可以完全不一样,例如“光明街便利店已倒闭”、“光明街便利店一夜破产”。
在一个示例中,可比较描述不同的兴趣点变迁事件的事件属性。事件属性可包括触发词、兴趣点、事件时间、归属的区域。如果两个描述不同的兴趣点变迁事件的以上事件属性都相同或等同,则可认为两个描述不同的兴趣点变迁事件是同一个事件。
在又一个示例中,可在一个兴趣点变迁事件的历史事件库中按时间顺序保存各个历史兴趣点变迁事件。新抽取出的兴趣点变迁事件与历史事件库中的事件进行比较计算。如果新抽取出的兴趣点变迁事件属于历史事件库中某个历史兴趣点变迁事件,则将该新抽取出的兴趣点变迁事件归一到该历史兴趣点变迁事件上,否则新建一个兴趣点变迁事件以存储新抽取出的兴趣点变迁事件。
在一种实施方式中,对所述兴趣点变迁事件进行排序,得到排序信息,包括:
将在预设时间间隔内提取出的所述兴趣点变迁事件按照热度进行排序,得到所述兴趣点变迁事件的排序信息。
在一个示例中,预设时间间隔可设置为每天或每小时。例如,对每日新增的兴趣点变迁事件,按照兴趣点的热度排序后提供给审核人员。可利用用户搜索地图query pv(query page view,查询页面浏览量)对每个POI进行排序。其中,查询页面浏览量的统计方法可包括:用户每一次对网站中的每个页面访问均被记录1次,根据用户对同一页面的多次刷新次数进行访问量累计。将每天产出的数据按照兴趣点的热度的顺序产出并提供给审核人员作业,可以对审核人员的作业起到提示和引导作用,引导审核人员优先处理热度高的兴趣点变迁事件。这样既保证了热点POI上线时效性,同时也能够在资源有限的情况下尽量提高收益。
对兴趣点变迁事件进行排序的方式可根据具体应用场景中的使用需求而定。具体而言,可依据应用要求的性能指标而确定排序的方式。例如,可根据事件时间进行排序、根据兴趣点的重要等级进行排序、根据触发词的重要等级进行排序、根据兴趣点归属的区域的重要等级进行排序等。在一种实施方式中,也可以给出根据多种方式进行排序后的兴趣点变迁事件的排序信息,以便在后续处理流程中根据这些排序信息进行合理安排具体的处理措施。
在一个示例中,对于时效性要求较高的情况下,可根据事件时间进行排序,根据排序信息可引导后续流程优先处理事件时间最接近当前时间点的兴趣点变迁事件,以满足系统对时效性的要求。事件时间如果距离当前时间点较远,可能该事件已经失去时效性,则相对来说可暂缓处理。
图6示出根据本发明再一实施例的兴趣点变迁事件检测方法的流程图。如图6所示,一个示例性的兴趣点变迁事件检测方法的流程如下:
步骤6.1)触发词过滤:从多个数据源获取多源文本,利用触发词表对多源文本进行过滤,将文章标题和正文至少包含一个触发词的文章保留。
步骤6.2)利用句子处理模块对过滤后的文本进行切句处理,从而得到待检测的句子。
步骤6.3)利用POI检测模块从待检测的句子中检测出所有的POI,每个POI包含POI的名字、在句子中的起始位置、POI的得分。包含POI的句子构成候选句子集合。进一步可对所述候选句子集合中的候选句子进行过滤处理。
步骤6.4)利用属性抽取模块对照城市名表抽取事件属性,所述事件属性可包括兴趣点对应的事件时间和兴趣点归属的城市。
步骤6.5)利用POI变迁事件判别模块对每个候选句子进行POI变迁事件判别,得到每个候选句子的POI变迁事件概率。根据所述概率判别每个候选句子是否属于变迁事件句。
步骤6.6)利用抽取结果过滤模块对所述变迁事件句进行过滤处理。具体处理方式可参见步骤S810中的描述,在此不再赘述。
步骤6.7)利用基于深度学习的事件归一方法对从变迁事件句中抽取出的POI变迁事件进行归一操作。
步骤6.8)基于用户行为的POI排序方法对POI进行排序。
图7示出根据本发明实施例的兴趣点变迁事件检测装置的结构框图。如图7所示,本发明实施例的兴趣点变迁事件检测装置包括:
获取单元100,用于从社交信息中获取第一文本信息;
第一过滤单元200,用于利用触发词对所述第一文本信息进行过滤,得到第二文本信息;
提取单元300,用于从所述第二文本信息中提取出兴趣点变迁事件;
排序单元400,用于对所述兴趣点变迁事件进行排序,得到排序信息。
在一种实施方式中,所述触发词包括与兴趣点相关的动词或动词短语;
所述第一过滤单元200用于:从所述第一文本信息中过滤掉不包括触发词的文本信息,得到第二文本信息。
图8示出根据本发明另一实施例的兴趣点变迁事件检测装置的结构框图。如图8所示,在一种实施方式中,所述提取单元300包括:
切句子单元310,用于对所述第二文本信息进行切句处理,得到待检测的句子;
第一提取子单元320,用于从所述待检测的句子中提取出兴趣点变迁事件。
在一种实施方式中,所述第一提取子单元320包括:
判别子单元321,用于:利用神经网络模型判别所述待检测的句子是否属于变迁事件句,其中,所述变迁事件句是包含兴趣点变迁事件的所述待检测的句子;
第二提取子单元323,用于从变迁事件句中提取出兴趣点变迁事件。
在一种实施方式中,所述提取单元300还包括检测子单元330,所述检测子单元330用于:利用神经网络模型判别所述待检测的句子是否属于变迁事件句之前,从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合,其中,所述兴趣点信息包括兴趣点的名字、兴趣点在句子中的起始位置和兴趣点的得分;
所述判别子单元321用于:利用神经网络模型对所述候选句子集合中的每个候选句子进行兴趣点变迁事件判别,得到每个候选句子包含兴趣点变迁事件的概率;根据所述概率判别所述待检测的句子是否包含兴趣点变迁事件。
在一种实施方式中,所述提取单元300还包括第二过滤子单元340,所述第二过滤子单元340用于从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合之后,且利用神经网络模型判别所述待检测的句子是否属于变迁事件句之前,利用以下方式中的至少一种对所述候选句子集合中的候选句子进行过滤处理:
对所述候选句子进行分词操作,根据所述分词操作的结果对所述兴趣点的名字进行边界检测,过滤掉所述兴趣点的名字与所述分词操作的结果不匹配的所述候选句子;
利用预先设置的第一区域名表与所述候选句子进行匹配,过滤掉所述兴趣点的名字为所述第一区域名表中的第一区域名的所述候选句子;
过滤掉所述兴趣点的得分低于预设的分数阈值的所述候选句子。
在一种实施方式中,所述提取单元300还包括抽取子单元350,所述抽取子单元350用于:从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合之后,从所述候选句子集合中的每个候选句子中抽取兴趣点对应的事件时间和兴趣点归属的区域。
在一种实施方式中,所述第一提取子单元320还包括第三过滤子单元322,所述第三过滤子单元322用于在利用神经网络模型判别所述待检测的句子是否属于变迁事件句之后,利用以下方式中的至少一种对所述变迁事件句进行过滤处理:
过滤掉所述兴趣点的名字中包括所述触发词的所述变迁事件句;
过滤掉所述概率低于预设概率阈值的所述变迁事件句;
过滤掉所述事件时间距离所述第一文本信息发布时间大于预设时间阈值的所述变迁事件句;
利用第二区域名表与所述变迁事件句进行匹配,过滤掉所述兴趣点归属的区域包括所述第二区域名表中的第二区域名的所述变迁事件句,其中,所述第二区域名表是在预先设置的兴趣点变迁事件检测区域范围之外的区域;
确定所述变迁事件句中的所述兴趣点与所述触发词是否存在关联关系,过滤掉所述兴趣点与所述触发词不存在关联关系的所述变迁事件句。
在一种实施方式中,所述装置还包括归一处理单元350,所述归一处理单元350用于从所述第二文本信息中提取出兴趣点变迁事件之后,对提取出的所述兴趣点变迁事件进行归一操作,以去掉重复提取的所述兴趣点变迁事件。
在一种实施方式中,所述排序单元400用于:
将在预设时间间隔内提取出的所述兴趣点变迁事件按照热度进行排序,得到所述兴趣点变迁事件的排序信息。
本发明实施例兴趣点变迁事件检测装置中的各单元的功能可以参见上述方法中的对应描述,在此不再赘述。
图9示出根据本发明又一实施例的兴趣点变迁事件检测装置的结构框图。如图9所示,该装置包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的兴趣点变迁事件检测方法。所述存储器910和处理器920的数量可以为一个或多个。
该装置还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (22)

1.一种兴趣点变迁事件检测方法,其特征在于,包括:
从社交信息中获取第一文本信息;
利用触发词对所述第一文本信息进行过滤,得到第二文本信息;
从所述第二文本信息中提取出兴趣点变迁事件;
对所述兴趣点变迁事件进行排序,得到排序信息。
2.根据权利要求1所述的方法,其特征在于,所述触发词包括与兴趣点相关的动词或动词短语;
利用触发词对所述第一文本信息进行过滤,得到第二文本信息,包括:从所述第一文本信息中过滤掉不包括触发词的文本信息,得到第二文本信息。
3.根据权利要求1所述的方法,其特征在于,从所述第二文本信息中提取出兴趣点变迁事件,包括:
对所述第二文本信息进行切句处理,得到待检测的句子;
从所述待检测的句子中提取出兴趣点变迁事件。
4.根据权利要求3所述的方法,其特征在于,从所述待检测的句子中提取出兴趣点变迁事件,包括:
利用神经网络模型判别所述待检测的句子是否属于变迁事件句,其中,所述变迁事件句是包含兴趣点变迁事件的所述待检测的句子;
从变迁事件句中提取出兴趣点变迁事件。
5.根据权利要求4所述的方法,其特征在于,利用神经网络模型判别所述待检测的句子是否属于变迁事件句之前,所述方法还包括:
从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合,其中,所述兴趣点信息包括兴趣点的名字、兴趣点在句子中的起始位置和兴趣点的得分;
利用神经网络模型判别所述待检测的句子是否属于变迁事件句,包括:利用神经网络模型对所述候选句子集合中的每个候选句子进行兴趣点变迁事件判别,得到每个候选句子包含兴趣点变迁事件的概率;根据所述概率判别所述待检测的句子是否属于变迁事件句。
6.根据权利要求5所述的方法,其特征在于,从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合之后,且利用神经网络模型判别所述待检测的句子是否属于变迁事件句之前,所述方法还包括利用以下方式中的至少一种对所述候选句子集合中的候选句子进行过滤处理:
对所述候选句子进行分词操作,根据所述分词操作的结果对所述兴趣点的名字进行边界检测,过滤掉所述兴趣点的名字与所述分词操作的结果不匹配的所述候选句子;
利用预先设置的第一区域名表与所述候选句子进行匹配,过滤掉所述兴趣点的名字为所述第一区域名表中的第一区域名的所述候选句子;
过滤掉所述兴趣点的得分低于预设的分数阈值的所述候选句子。
7.根据权利要求5所述的方法,其特征在于,从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合之后,所述方法还包括:
从所述候选句子集合中的每个候选句子中抽取兴趣点对应的事件时间和兴趣点归属的区域。
8.根据权利要求7所述的方法,其特征在于,利用神经网络模型判别所述待检测的句子是否属于变迁事件句之后,所述方法还包括利用以下方式中的至少一种对所述变迁事件句进行过滤处理:
过滤掉所述兴趣点的名字中包括所述触发词的所述变迁事件句;
过滤掉所述概率低于预设概率阈值的所述变迁事件句;
过滤掉所述事件时间距离所述第一文本信息发布时间大于预设时间阈值的所述变迁事件句;
利用第二区域名表与所述变迁事件句进行匹配,过滤掉所述兴趣点归属的区域包括所述第二区域名表中的第二区域名的所述变迁事件句,其中,所述第二区域名表是在预先设置的兴趣点变迁事件检测区域范围之外的区域;
确定所述变迁事件句中的所述兴趣点与所述触发词是否存在关联关系,过滤掉所述兴趣点与所述触发词不存在关联关系的所述变迁事件句。
9.根据权利要求1所述的方法,其特征在于,从所述第二文本信息中提取出兴趣点变迁事件之后,所述方法还包括:
对提取出的所述兴趣点变迁事件进行归一操作,以去掉重复提取的所述兴趣点变迁事件。
10.根据权利要求1-9中任一项所述的方法,其特征在于,对所述兴趣点变迁事件进行排序,得到排序信息,包括:
将在预设时间间隔内提取出的所述兴趣点变迁事件按照热度进行排序,得到所述兴趣点变迁事件的排序信息。
11.一种兴趣点变迁事件检测装置,其特征在于,包括:
获取单元,用于从社交信息中获取第一文本信息;
第一过滤单元,用于利用触发词对所述第一文本信息进行过滤,得到第二文本信息;
提取单元,用于从所述第二文本信息中提取出兴趣点变迁事件;
排序单元,用于对所述兴趣点变迁事件进行排序,得到排序信息。
12.根据权利要求11所述的装置,其特征在于,所述触发词包括与兴趣点相关的动词或动词短语;
所述第一过滤单元用于:从所述第一文本信息中过滤掉不包括触发词的文本信息,得到第二文本信息。
13.根据权利要求11所述的装置,其特征在于,所述提取单元包括:
切句子单元,用于对所述第二文本信息进行切句处理,得到待检测的句子;
第一提取子单元,用于从所述待检测的句子中提取出兴趣点变迁事件。
14.根据权利要求13所述的装置,其特征在于,所述第一提取子单元包括:
判别子单元,用于:利用神经网络模型判别所述待检测的句子是否属于变迁事件句,其中,所述变迁事件句是包含兴趣点变迁事件的所述待检测的句子;
第二提取子单元,用于从变迁事件句中提取出兴趣点变迁事件。
15.根据权利要求14所述的装置,其特征在于,
所述提取单元还包括检测子单元,所述检测子单元用于:利用神经网络模型判别所述待检测的句子是否属于变迁事件句之前,从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合,其中,所述兴趣点信息包括兴趣点的名字、兴趣点在句子中的起始位置和兴趣点的得分;
所述判别子单元用于:利用神经网络模型对所述候选句子集合中的每个候选句子进行兴趣点变迁事件判别,得到每个候选句子包含兴趣点变迁事件的概率;根据所述概率判别所述待检测的句子是否包含兴趣点变迁事件。
16.根据权利要求15所述的装置,其特征在于,所述提取单元还包括第二过滤子单元,所述第二过滤子单元用于从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合之后,且利用神经网络模型判别所述待检测的句子是否属于变迁事件句之前,利用以下方式中的至少一种对所述候选句子集合中的候选句子进行过滤处理:
对所述候选句子进行分词操作,根据所述分词操作的结果对所述兴趣点的名字进行边界检测,过滤掉所述兴趣点的名字与所述分词操作的结果不匹配的所述候选句子;
利用预先设置的第一区域名表与所述候选句子进行匹配,过滤掉所述兴趣点的名字为所述第一区域名表中的第一区域名的所述候选句子;
过滤掉所述兴趣点的得分低于预设的分数阈值的所述候选句子。
17.根据权利要求15所述的装置,其特征在于,所述提取单元还包括抽取子单元,所述抽取子单元用于:从所述待检测的句子中检测出兴趣点信息,得到包含兴趣点信息的候选句子集合之后,从所述候选句子集合中的每个候选句子中抽取兴趣点对应的事件时间和兴趣点归属的区域。
18.根据权利要求17所述的装置,其特征在于,所述第一提取子单元还包括第三过滤子单元,所述第三过滤子单元用于在利用神经网络模型判别所述待检测的句子是否属于变迁事件句之后,利用以下方式中的至少一种对所述变迁事件句进行过滤处理:
过滤掉所述兴趣点的名字中包括所述触发词的所述变迁事件句;
过滤掉所述概率低于预设概率阈值的所述变迁事件句;
过滤掉所述事件时间距离所述第一文本信息发布时间大于预设时间阈值的所述变迁事件句;
利用第二区域名表与所述变迁事件句进行匹配,过滤掉所述兴趣点归属的区域包括所述第二区域名表中的第二区域名的所述变迁事件句,其中,所述第二区域名表是在预先设置的兴趣点变迁事件检测区域范围之外的区域;
确定所述变迁事件句中的所述兴趣点与所述触发词是否存在关联关系,过滤掉所述兴趣点与所述触发词不存在关联关系的所述变迁事件句。
19.根据权利要求11所述的装置,其特征在于,所述装置还包括归一处理单元,所述归一处理单元用于从所述第二文本信息中提取出兴趣点变迁事件之后,对提取出的所述兴趣点变迁事件进行归一操作,以去掉重复提取的所述兴趣点变迁事件。
20.根据权利要求11-19中任一项所述的装置,其特征在于,所述排序单元用于:
将在预设时间间隔内提取出的所述兴趣点变迁事件按照热度进行排序,得到所述兴趣点变迁事件的排序信息。
21.一种兴趣点变迁事件检测装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至10中任一项所述的方法。
22.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至10中任一项所述的方法。
CN201910537096.8A 2019-06-20 2019-06-20 兴趣点变迁事件检测方法、装置及存储介质 Active CN110232160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910537096.8A CN110232160B (zh) 2019-06-20 2019-06-20 兴趣点变迁事件检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910537096.8A CN110232160B (zh) 2019-06-20 2019-06-20 兴趣点变迁事件检测方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110232160A true CN110232160A (zh) 2019-09-13
CN110232160B CN110232160B (zh) 2021-12-07

Family

ID=67856368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910537096.8A Active CN110232160B (zh) 2019-06-20 2019-06-20 兴趣点变迁事件检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110232160B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360590A (zh) * 2021-06-22 2021-09-07 北京百度网讯科技有限公司 兴趣点信息的更新方法、装置、电子设备及存储介质
EP3876109A4 (en) * 2020-01-08 2022-06-01 Baidu Online Network Technology (Beijing) Co., Ltd. METHOD AND DEVICE FOR SEARCHING ON ELECTRONIC BOARD, APPARATUS AND MEDIA

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271000A (zh) * 2008-04-30 2008-09-24 凯立德欣技术(深圳)有限公司 一种车载导航终端及其兴趣点显示方法
CN102737120A (zh) * 2012-06-01 2012-10-17 西安交通大学 一种个性化网络学习资源推荐方法
CN102956010A (zh) * 2011-08-17 2013-03-06 陈量 一种在互联网上根据公众利益诉求的表达提供针对性广告的方法和装置
KR20150044572A (ko) * 2013-10-17 2015-04-27 에스케이플래닛 주식회사 지오펜스 구축 시스템 및 방법
CN104598535A (zh) * 2014-12-29 2015-05-06 中国科学院计算机网络信息中心 一种基于最大熵的事件抽取方法
CN106951435A (zh) * 2017-02-08 2017-07-14 广州神马移动信息科技有限公司 新闻推荐方法、设备及可编程设备
US20180242112A1 (en) * 2017-02-21 2018-08-23 At&T Intellectual Property I, L.P. Velocity-weighted analysis of user equipment location data
CN109145219A (zh) * 2018-09-10 2019-01-04 百度在线网络技术(北京)有限公司 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN109325228A (zh) * 2018-09-19 2019-02-12 苏州大学 英文事件触发词抽取方法和系统
CN109710710A (zh) * 2018-12-13 2019-05-03 北京百度网讯科技有限公司 兴趣点的事件挖掘方法及其装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271000A (zh) * 2008-04-30 2008-09-24 凯立德欣技术(深圳)有限公司 一种车载导航终端及其兴趣点显示方法
CN102956010A (zh) * 2011-08-17 2013-03-06 陈量 一种在互联网上根据公众利益诉求的表达提供针对性广告的方法和装置
CN102737120A (zh) * 2012-06-01 2012-10-17 西安交通大学 一种个性化网络学习资源推荐方法
KR20150044572A (ko) * 2013-10-17 2015-04-27 에스케이플래닛 주식회사 지오펜스 구축 시스템 및 방법
CN104598535A (zh) * 2014-12-29 2015-05-06 中国科学院计算机网络信息中心 一种基于最大熵的事件抽取方法
CN106951435A (zh) * 2017-02-08 2017-07-14 广州神马移动信息科技有限公司 新闻推荐方法、设备及可编程设备
US20180242112A1 (en) * 2017-02-21 2018-08-23 At&T Intellectual Property I, L.P. Velocity-weighted analysis of user equipment location data
CN109145219A (zh) * 2018-09-10 2019-01-04 百度在线网络技术(北京)有限公司 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN109325228A (zh) * 2018-09-19 2019-02-12 苏州大学 英文事件触发词抽取方法和系统
CN109710710A (zh) * 2018-12-13 2019-05-03 北京百度网讯科技有限公司 兴趣点的事件挖掘方法及其装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AROTE,SHIRISH SURESH等: "A Modified Approach towards Personalized Travel Recommendation System using Sentiment Analysis", 《2018 INTERNATIONAL CONFERENCE ON ADVANCES IN COMMUNICATION AND COMPUTING TECHNOLOGY (ICACCT)》 *
王春华: "复杂事件处理在滑坡监测传感器数据集成研究中的应用", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3876109A4 (en) * 2020-01-08 2022-06-01 Baidu Online Network Technology (Beijing) Co., Ltd. METHOD AND DEVICE FOR SEARCHING ON ELECTRONIC BOARD, APPARATUS AND MEDIA
US11609961B2 (en) 2020-01-08 2023-03-21 Baidu Online Network Technology (Beijing) Co., Ltd. Search method and apparatus for an electronic map, device and medium
CN113360590A (zh) * 2021-06-22 2021-09-07 北京百度网讯科技有限公司 兴趣点信息的更新方法、装置、电子设备及存储介质
CN113360590B (zh) * 2021-06-22 2024-03-12 北京百度网讯科技有限公司 兴趣点信息的更新方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110232160B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN105354196B (zh) 信息推送方法和信息推送装置
Worrall et al. The identification of hydrological indices for the characterization of macroinvertebrate community response to flow regime variability
CN104573028A (zh) 实现智能问答的方法和系统
CN103279879A (zh) 一种在线二手汽车估价的方法
CN110019616A (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
CN110232160A (zh) 兴趣点变迁事件检测方法、装置及存储介质
CN109299469B (zh) 一种在长文本中识别复杂住址的方法
CN110188165A (zh) 合同模板获取方法、装置、存储介质和计算机设备
CN105786781A (zh) 一种基于主题模型的职位描述文本相似度计算方法
CN110321561A (zh) 一种关键词提取方法和装置
KR20150059208A (ko) 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법
CN111625748A (zh) 网站的导航栏信息提取方法、装置、电子设备及存储介质
CN109710710A (zh) 兴趣点的事件挖掘方法及其装置
CN110880142A (zh) 一种风险实体获取方法及装置
CN109871368A (zh) 数据库检测方法、装置、计算机装置及存储介质
CN107247791A (zh) 停车场地图数据生成方法、装置和机器可读存储介质
CN106776640A (zh) 一种股票资讯信息展示方法和装置
CN107103065A (zh) 基于用户行为的信息推荐方法及装置
CN104142952A (zh) 报表展示方法和装置
Mukhtar et al. Vocabulary of Quranic Concepts: A semi-automatically created terminology of Holy Quran
CN107451216A (zh) 标签的粒度属性识别方法及装置
KR101487871B1 (ko) 온라인 기반의 위기관리 대응 매뉴얼 자동 생성장치
CN109145302A (zh) 基于语义文本的大宗农产品投资者恐慌情绪测度方法
CN105786929A (zh) 一种信息监测方法及装置
KR100862565B1 (ko) 사용자 맞춤형 특허정보 데이터베이스 구축시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant