CN114003799A - 事件推荐方法、装置和设备 - Google Patents

事件推荐方法、装置和设备 Download PDF

Info

Publication number
CN114003799A
CN114003799A CN202010733487.XA CN202010733487A CN114003799A CN 114003799 A CN114003799 A CN 114003799A CN 202010733487 A CN202010733487 A CN 202010733487A CN 114003799 A CN114003799 A CN 114003799A
Authority
CN
China
Prior art keywords
event
natural language
similarity
events
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010733487.XA
Other languages
English (en)
Inventor
孙连生
沈伟
徐健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010733487.XA priority Critical patent/CN114003799A/zh
Publication of CN114003799A publication Critical patent/CN114003799A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种事件推荐方法,包括:获取自然语言文本;根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;获得针对事件的查询请求;根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。采用上述方法,以解决现有技术中存在的推荐速度慢以及推荐准确度不高的问题。

Description

事件推荐方法、装置和设备
技术领域
本申请涉及计算机技术领域,具体涉及一种事件推荐方法、装置、电子设备及存储设备。本申请还涉及另外一种事件推荐方法。
背景技术
每天有许多新闻事件发生,新闻事件之间经常会有很多相互关联的情况。比如,明星A结婚,类似发生的明星结婚事件有很多,如明星B结婚、明星C结婚等。当新闻事件发生时,会有大量的用户在搜索引擎中搜索相关事件。在用户看完当前新闻事件后,也希望获得推荐的当前新闻事件的关联事件。
现有技术中,关联事件的推荐,主要包括三种推荐方法:1、通过将具有类似兴趣的用户浏览过的事件推荐给当前用户;2、浏览了当前事件的用户,又浏览了其他的事件,此时可以将这些其他事件进行推荐;3、基于内容上的相似度来推荐类似内容的文章。
但是这些关联事件的推荐方法,存在着推荐速度慢以及推荐准确度不高的问题。
发明内容
本申请提供一种事件推荐方法、装置、电子设备及存储设备,以解决现有技术中存在的推荐速度慢以及推荐准确度不高的问题。
本申请提供一种事件推荐方法,包括:
获取自然语言文本;
根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;
获得针对事件的查询请求;
根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;
根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。
作为一种实施方式,所述根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱,包括:
根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度中的至少一种,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱。
作为一种实施方式,所述根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度中的至少一种,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱,包括:
根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度,以及各个相似度在相似度比较中所占的权重,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱。
作为一种实施方式,所述根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度,以及各个相似度在相似度比较中所占的权重,对所述自然语言文本进行聚类,包括:
根据自然语言文本中两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度,以及各个相似度在相似度比较中所占的权重,获得两个自然语言文本之间的相似度;
判断两个自然语言文本之间的相似度是否大于或等于预设的相似度阈值;
若是,则将两个自然语言文本聚类为一个类别。
作为一种实施方式,所述根据聚类的结果构建事件图谱,包括:
从聚类的结果中,获取指定聚类类别中的第一自然语言文本中的关键词;
根据所述第一自然语言文本中的关键词,获得每一个所述第一自然语言文本中均出现的公共关键词;
根据所述公共关键词,确定指定聚类类别对应的事件;
根据所述指定聚类类别对应的事件,构建事件图谱。
作为一种实施方式,所述根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件,包括:
获得查询请求中的关键词;
将所述查询请求中的关键词在所述事件图谱中进行查询,获得与所述关键词具有相同公共关键词的事件。
作为一种实施方式,所述根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户,包括:
根据事件图谱包含的事件与事件的关联关系,获得所述匹配的事件的候选关联事件;
对所述候选关联事件进行排序,将排序后的结果推荐给用户。
作为一种实施方式,所述根据事件图谱包含的事件与事件的关联关系,获得与所述匹配的事件的候选关联事件,包括:
获得所述匹配的事件的关键词;
根据事件图谱包含的事件与事件的关联关系在所述事件图谱中进行查询,获得与所述匹配的事件的关键词具有共同关键词的事件;
将所述事件作为所述匹配的事件的候选关联事件。
作为一种实施方式,所述对所述候选关联事件进行排序,将排序后的结果推荐给用户,包括:
获得候选关联事件的事件热度;
根据候选关联事件的事件热度,对所述候选关联事件进行排序,将排序后的结果推荐给用户。
作为一种实施方式,所述获得候选关联事件的事件热度,包括:
获得候选关联事件对应的聚类类别;
从所述候选关联事件对应的聚类类别中,获取自然语言文本的数量、自然语言文本的最早发生时间以及自然语言文本的最晚发生时间;
根据所述自然语言文本的数量、自然语言文本的最早发生时间以及自然语言文本的最晚发生时间中的至少一种,获得候选关联事件的事件热度。
本申请还提供一种事件推荐装置,包括:
文本获取单元,用于获取自然语言文本;
文本聚类单元,用于根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;
请求获得单元,用于获得针对事件的查询请求;
事件获得单元,用于根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;
事件推荐单元,用于根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。
作为一种实施方式,所述文本聚类单元具体用于:
根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度中的至少一种,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱。
作为一种实施方式,所述文本聚类单元具体用于:
根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度,以及各个相似度在相似度比较中所占的权重,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱。
作为一种实施方式,所述文本聚类单元具体用于:
根据自然语言文本中两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度,以及各个相似度在相似度比较中所占的权重,获得两个自然语言文本之间的相似度;
判断两个自然语言文本之间的相似度是否大于或等于预设的相似度阈值;
若是,则将两个自然语言文本聚类为一个类别。
作为一种实施方式,所述文本聚类单元具体用于:
从聚类的结果中,获取指定聚类类别中的第一自然语言文本中的关键词;
根据所述第一自然语言文本中的关键词,获得每一个所述第一自然语言文本中均出现的公共关键词;
根据所述公共关键词,确定指定聚类类别对应的事件;
根据所述指定聚类类别对应的事件,构建事件图谱。
作为一种实施方式,所述文本聚类单元具体用于:
获得查询请求中的关键词;
将所述查询请求中的关键词在所述事件图谱中进行查询,获得与所述关键词具有相同公共关键词的事件。
作为一种实施方式,所述事件推荐单元具体用于:
根据事件图谱包含的事件与事件的关联关系,获得所述匹配的事件的候选关联事件;
对所述候选关联事件进行排序,将排序后的结果推荐给用户。
作为一种实施方式,所述事件推荐单元具体用于:
获得所述匹配的事件的关键词;
根据事件图谱包含的事件与事件的关联关系在所述事件图谱中进行查询,获得与所述匹配的事件的关键词具有共同关键词的事件;
将所述事件作为所述匹配的事件的候选关联事件。
作为一种实施方式,所述事件推荐单元具体用于:
获得候选关联事件的事件热度;
根据候选关联事件的事件热度,对所述候选关联事件进行排序,将排序后的结果推荐给用户。
作为一种实施方式,所述事件推荐单元具体用于:
获得候选关联事件对应的聚类类别;
从所述候选关联事件对应的聚类类别中,获取自然语言文本的数量、自然语言文本的最早发生时间以及自然语言文本的最晚发生时间;
根据所述自然语言文本的数量、自然语言文本的最早发生时间以及自然语言文本的最晚发生时间中的至少一种,获得候选关联事件的事件热度。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储事件推荐方法的程序,该设备通电并通过所述处理器运行该事件推荐方法的程序后,执行下述步骤:
获取自然语言文本;
根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;
获得针对事件的查询请求;
根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;
根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。
本申请还提供一种存储设备,存储有事件推荐方法的程序,该程序被处理器运行,执行下述步骤:
获取自然语言文本;
根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;
获得针对事件的查询请求;
根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;
根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。
本申请提供一种事件推荐方法,包括:
获取互联网中的新闻网页;
根据所述新闻网页之间的相似度,对所述新闻网页进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;
获得针对事件的查询请求;
根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;
根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。
与现有技术相比,本申请具有以下优点:
本申请提供的事件推荐方法,获取自然语言文本;根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;获得针对事件的查询请求;根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。采用本申请提供的事件推荐方法,根据自然语言文本之间的相似度,对自然语言文本进行聚类并根据聚类的结果构建事件图谱,从自然语言文本得到事件构成的事件图谱,并根据事件图谱包含的事件与事件的关联关系,将匹配的事件的关联事件推荐给用户,从而提高了关联事件的推荐速度和推荐准确度。
附图说明
图1是本申请第一实施例涉及的应用场景的工作流程图。
图2是本申请第一实施例提供的一种事件推荐方法的流程图。
图3是本申请第一实施例涉及的一种事件推荐的示意图。
图4是本申请第二实施例涉及的一种事件推荐装置的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
为了使本领域的技术人员更好的理解本申请方案,首先对本申请的一个具体应用场景实施例进行详细描述。请参考图1,其为本申请的一个具体应用场景的工作流程图。例如体育明星A意外去世,成为互联网上的爆炸性事件。搜索引擎为了向用户高效并准确地推荐该事件的关联事件,可以采用如下步骤。首先,在数据侧,抓取互联网中体育明星A意外去世的相关网页,获取大量的相关新闻类文章。请参考图1的数据收录环节步骤。然后,根据所述相关新闻类文章之间的相似度,对所述相关新闻类文章进行聚类,并根据聚类的结果构建事件图谱。例如,可以计算体育明星A意外去世的新闻类文章之间的相似度,将新闻类文章之间的相似度大于阈值的新闻类文章进行聚类,获得多个聚类类别。例如,聚类类别可以为:体育明星A退役,体育明星A的MVP,明星B去世等。针对指定的聚类类别,获得对应的事件,例如所述事件可以是明星A退役事件,明星A的MVP事件,明星B去世事件等,进而利用这些事件构建事件图谱。请参考图1的事件图谱构建步骤,图1中的事件1可以是明星A去世事件,事件2可以是明星A的MVP事件,二者的关系是均为明星A的相关重大事件。接着,获得搜索引擎用户针对事件的查询请求,例如查询请求可以是“明星A去世”。请参考图1的用户查询步骤。进而,根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件,例如从所述事件图谱中获得与关键词“明星A”与“去世”相匹配的明星A去世事件。请参考图1的查询事件图谱步骤。最后,将所述匹配的事件的关联事件推荐给用户,例如将明星A的MVP事件作为关联事件推荐给客户。请参考图1的关联事件推荐步骤。
本申请第一实施例提供一种事件推荐方法,其执行主体为服务端或者客户端。以下结合图2进行说明。
如图2所示,在步骤S201中,获取自然语言文本。
所述自然语言文本可以是网络上的新闻类文章,也可以是其他的非结构化数据。
请参考图1,其为采用第一实施例提供的事件推荐方法的一个应用系统的工作流程图。图1中,可以在Web(互联网网页)中进行数据收录,获得自然语言文本。具体的,可以在网络中通过抓取互联网的新闻网页,获得新闻类文章。所述新闻类文章可以是如前所述体育明星A意外去世等热门新闻。
如图2所示,在步骤S202中,根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系。
所述根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱,包括:
根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度中的至少一种,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱。
所述根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度中的至少一种,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱,包括:
根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度,以及各个相似度在相似度比较中所占的权重,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱。
所述根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度,以及各个相似度在相似度比较中所占的权重,对所述自然语言文本进行聚类,包括:
根据自然语言文本中两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度,以及各个相似度在相似度比较中所占的权重,获得两个自然语言文本之间的相似度;
判断两个自然语言文本之间的相似度是否大于或等于预设的相似度阈值;
若是,则将两个自然语言文本聚类为一个类别。
自然语言文本之间的相似度,例如新闻文章之间的相似度,可以进行如下计算。
首先,利用如下标题相似度计算公式,获得任意两个自然语言文本之间的标题相似度。
sim(title)=f(title1,title2)
其中,f是计算title1(标题1)和title2(标题2)的相似度的函数,这里可以采用title1和title2之间的余弦相似度。
例如,利用上述标题相似度计算公式,可以计算出自然语言文本1的标题与自然语言文本2的标题之间的相似度为0.1,自然语言文本1的标题与自然语言文本3的标题之间的相似度为0.5,自然语言文本1的标题与自然语言文本4的标题之间的相似度为0.9。然后,利用如下段落相似度计算公式,获得任意两个自然语言文本之间的段落相似度。
sim(paragraph)=w1*f(p1,p1’)+...+wi*f(pi,pi’)+...+wn*f(pn,pn’)
其中,pi是代表第一个自然语言文本的第i个段落,pi’是代表第二个自然语言文本的第i个段落,f是计算pi和pi’两个段落的相似度函数,这里可以采用余弦相似度,wi是代表第i个段落相似度的权重值,wi可以人工设定。
例如,利用上述段落相似度计算公式,可以计算出自然语言文本1的段落与自然语言文本2的段落之间的相似度为0.2,自然语言文本1的段落与自然语言文本3的段落之间的相似度为0.6,自然语言文本1的段落与自然语言文本4的段落之间的相似度为0.96。
接着,利用如下关键词相似度计算公式,获得任意两个自然语言文本之间的关键词相似度。
sim(key_words)=f(key_words1,key_words2)
其中,key_words1和key_words2代表两个自然语言文本的关键词,两篇文章的关键词可以通过tf-idf(term frequency–inverse document frequency,词频-逆向文件频率)计算出来,f代表计算两个自然语言文本的关键词相似度的函数,可以采用余弦相似度进行计算。
例如,利用上述关键词相似度计算公式,可以计算出自然语言文本1的关键词与自然语言文本2的关键词之间的相似度为0.15,自然语言文本1的关键词与自然语言文本3的关键词之间的相似度为0.58,自然语言文本1的关键与自然语言文本4的关键词之间的相似度为0.92。最后,利用如下公式计算两个自然语言文本之间的相似度。
sim=w1*sim(title)+w2*sim(paragraph)+w3*sim(key_words)
其中,w1、w2和w3是分别标题相似度,段落相似度,关键词相似度的权重,可以为人工制定。
仍沿用上述例子,如果w1为0.2,w2为0.3,w3为0.5,则利用上述计算公式,可以计算出自然语言文本1与自然语言文本2的相似度为0.2*0.1+0.3*0.2+0.5*0.15=0.155,自然语言文本1与自然语言文本3相似度为0.2*0.5+0.3*0.6+0.5*0.58=0.57,自然语言文本1与自然语言文本4的相似度为0.2*0.9+0.3*0.96+0.5*0.92=0.928。
当两个自然语言文本之间的相似度(sim)大于预设的相似度阈值时判断两篇文章相似,将两篇文章聚到相同类别。
仍沿用上述例子,如果预设的相似度阈值为60%,自然语言文本1与自然语言文本4的相似度为0.928,大于预设的相似度阈值60%,,则可以将自然语言文本1与自然语言文本4聚到相同类别。
所述根据聚类的结果构建事件图谱,包括:
从聚类的结果中,获取指定聚类类别中的第一自然语言文本中的关键词;
根据所述第一自然语言文本中的关键词,获得每一个所述第一自然语言文本中均出现的公共关键词;
根据所述公共关键词,确定指定聚类类别对应的事件;
根据所述指定聚类类别对应的事件,构建事件图谱。
例如,在聚类完成后,从当前的聚类类别中获得每一个新闻类文章的关键词,然后从每一个新闻类文章的关键词中提炼出该聚类类别中每一个新闻类文章均出现的公共的关键词K1...Ki...Kn。将公共的关键词K1...Ki...Kn,作为该聚类类别的事件。进而,根据所述指定聚类类别对应的事件,构建事件图谱。
针对应用场景中的体育明星A意外去世事件而言,从包含该事件的聚类别别中获得每一个新闻类文章的关键词,然后从每一个新闻类文章的关键词中提炼出该聚类类别中每一个新闻类文章中均出现的公共的关键词如“体育明星A”、“去世”。由于“体育明星A”和“去世”在该聚类类别的所有新闻类文章中均出现,因此,可以将体育明星A去世作为该聚类类别对应的事件。
如图1中,事件1和事件2,以及事件1和事件2的关系,构成了事件图谱。例如,事件1可以为体育明星A去世,事件2可以为体育明星A获得最有价值运动员(MVP,most valuableplayer)称号的事件。事件1和事件2的关系为二者都是体育明星A的相关事件。
如图2所示,在步骤S203中,获得针对事件的查询请求。
所述事件的查询请求,可以是用户在搜索引擎中输入的搜索请求,例如搜索体育明星A去世。在图1中,本步骤对应用户查询。
如图2所示,在步骤S204中,根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件。
所述根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件,包括:
获得查询请求中的关键词;
将所述查询请求中的关键词在所述事件图谱中进行查询,获得与所述关键词具有相同公共关键词的事件。
如图1所示,首先进行用户查询的关键词识别,识别用户查询中的关键词为K1..Ki...Kn,可以与步骤S202中的自然语言文本的关键词识别采用同样的方法,即采用tf-idf进行识别。例如,用户查询中的关键词为“体育明星A”、“去世”。
如图1所示,接着执行事件图谱查询,识别用户查询的关键词K1..Ki...Kn,利用关键词查询事件聚类,当K1...Ki...Kn都与某一个聚类类别中的事件关键词完全匹配时,则找到用户查询对应的事件。例如,用户查询的关键词“体育明星A”、“去世”与聚类类别中的事件关键词“体育明星A”、“去世”完全匹配时,则找到用户查询对应的事件。
如图2所示,在步骤S205中,根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。
所述根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户,包括:
根据事件图谱包含的事件与事件的关联关系,获得所述匹配的事件的候选关联事件;
对所述候选关联事件进行排序,将排序后的结果推荐给用户。
所述根据事件图谱包含的事件与事件的关联关系,获得所述匹配的事件的候选关联事件,包括:
获得所述匹配的事件的关键词;
根据事件图谱包含的事件与事件的关联关系在所述事件图谱中进行查询,获得与所述匹配的事件的关键词具有共同关键词的事件;
将所述事件作为所述匹配的事件的候选关联事件。
所述对所述候选关联事件进行排序,将排序后的结果推荐给用户,包括:
获得候选关联事件的事件热度;
根据候选关联事件的事件热度,对所述候选关联事件进行排序,将排序后的结果推荐给用户。
所述获得候选关联事件的事件热度,包括:
获得候选关联事件对应的聚类类别;
从所述候选关联事件对应的聚类类别中,获取自然语言文本的数量、自然语言文本的最早发生时间以及自然语言文本的最晚发生时间;
根据所述自然语言文本的数量、自然语言文本的最早发生时间以及自然语言文本的最晚发生时间中的至少一种,获得候选关联事件的事件热度。
如图1所示,关联事件推荐,包括两个部分,即召回关联的候选事件以及事件排序和推荐。根据步骤S204中找到的事件E,通过E中的关键词K1..Ki...Kn,找到有共同关键词的事件E1...Ei...En,利用每个Ei的热度对候选Ei进行排序,将排序后的结果推荐给用户。例如,步骤204中找到的事件E1为体育明星A去世,事件E1的关键词为“体育明星A”、“去世”。事件E2的关键词为“体育明星A”、“MVP”。事件E1和事件E2之间有共同关键词“体育明星A”。事件E3的关键词为“体育明星B”、“去世”。事件E1和事件E3之间有共同关键词“去世”。则可以将事件E2、事件E3作为事件E1的关联的候选事件。
事件热度采用如下公式计算:
hot=sum(articles)/(end_time-start_time)
其中,sum(articles)代表该聚类类别中新闻类文章的数量,end_time代表聚类类别中发生最晚的一篇新闻类文章的时间,start_time代表聚类类别中发生最早的一篇新闻类文章的时间。例如,聚类类别中事件为体育明星A去世中,新闻类文章的数量为1000,start_time为2020年1月26日上午十点,end_time为2020年1月26日上午十一点,则hot=1000/(end_time-start_time)=1000/1=1000。类似地,事件E2的热度为900、事件E3的热度为800。
根据事件热度对于事件E2、事件E3作为事件E1的关联的候选事件进行排序,例如按照事件热度从大到小进行排序后的排序结果为:事件E2>事件E3。在排序完成后,将排序结果即事件E2,事件E3推荐给用户。
采用本申请第一实施例提供的事件推荐方法,事件爆发时,文章是实时聚类成事件的,可以很快通过事件和事件关联关系找到类似事件,并进行推荐,在速度和时效性方面是实时的。
另外,在推荐的内容上,产出了以事件维度的推荐,能够推荐类似发生的事件,供用户进行浏览,如图3所示,当明星A去世时,可以推荐明星A退役、明星A首次mvp、明星B去世等类似的多篇文章的新闻事件。
与本申请第一实施例提供的事件推荐方法相对应的,本申请第二实施例还提供了一种事件推荐装置。
如图4所示,所述事件推荐装置,包括:
文本获取单元401,用于获取自然语言文本;
文本聚类单元402,用于根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;
请求获得单元403,用于获得针对事件的查询请求;
事件获得单元404,用于根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;
事件推荐单元405,用于根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。
作为一种实施方式,所述文本聚类单元具体用于:
根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度中的至少一种,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱。
作为一种实施方式,所述文本聚类单元具体用于:
根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度,以及各个相似度在相似度比较中所占的权重,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱。
作为一种实施方式,所述文本聚类单元具体用于:
根据自然语言文本中两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度,以及各个相似度在相似度比较中所占的权重,获得两个自然语言文本之间的相似度;
判断两个自然语言文本之间的相似度是否大于或等于预设的相似度阈值;
若是,则将两个自然语言文本聚类为一个类别。
作为一种实施方式,所述文本聚类单元具体用于:
从聚类的结果中,获取指定聚类类别中的第一自然语言文本中的关键词;
根据所述第一自然语言文本中的关键词,获得每一个所述第一自然语言文本中均出现的公共关键词;
根据所述公共关键词,确定指定聚类类别对应的事件;
根据所述指定聚类类别对应的事件,构建事件图谱。
作为一种实施方式,所述文本聚类单元具体用于:
获得查询请求中的关键词;
将所述查询请求中的关键词在所述事件图谱中进行查询,获得与所述关键词具有相同公共关键词的事件。
作为一种实施方式,所述事件推荐单元具体用于:
根据事件图谱包含的事件与事件的关联关系,获得所述匹配的事件的候选关联事件;
对所述候选关联事件进行排序,将排序后的结果推荐给用户。
作为一种实施方式,所述事件推荐单元具体用于:
获得所述匹配的事件的关键词;
根据事件图谱包含的事件与事件的关联关系在所述事件图谱中进行查询,获得与所述匹配的事件的关键词具有共同关键词的事件;
将所述事件作为所述匹配的事件的候选关联事件。
作为一种实施方式,所述事件推荐单元具体用于:
获得候选关联事件的事件热度;
根据候选关联事件的事件热度,对所述候选关联事件进行排序,将排序后的结果推荐给用户。
作为一种实施方式,所述事件推荐单元具体用于:
获得候选关联事件对应的聚类类别;
从所述候选关联事件对应的聚类类别中,获取自然语言文本的数量、自然语言文本的最早发生时间以及自然语言文本的最晚发生时间;
根据所述自然语言文本的数量、自然语言文本的最早发生时间以及自然语言文本的最晚发生时间中的至少一种,获得候选关联事件的事件热度。
需要说明的是,对于本申请第二实施例提供的事件推荐装置的详细描述可以参考对本申请第一实施例的相关描述,此处不再赘述。
与本申请第一实施例提供的事件推荐方法相对应的,本申请第三实施例提供一种电子设备,包括:
处理器;以及
存储器,用于存储事件推荐方法的程序,该设备通电并通过所述处理器运行该事件推荐方法的程序后,执行下述步骤:
获取自然语言文本;
根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;
获得针对事件的查询请求;
根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;
根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。
需要说明的是,对于本申请第三实施例提供的电子设备的详细描述可以参考对本申请第一实施例的相关描述,此处不再赘述。
与本申请第一实施例提供的事件推荐方法相对应的,本申请第四实施例提供一种存储设备,存储有事件推荐方法的程序,该程序被处理器运行,执行下述步骤:
获取自然语言文本;
根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;
获得针对事件的查询请求;
根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;
根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。
需要说明的是,对于本申请第四实施例提供的存储设备的详细描述可以参考对本申请第一实施例的相关描述,此处不再赘述。
本申请第五实施例提供一种事件推荐方法,包括:
获取互联网中的新闻网页;
根据所述新闻网页之间的相似度,对所述新闻网页进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;
获得针对事件的查询请求;
根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;
根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。
需要说明的是,对于本申请第五实施例提供的事件推荐方法的详细描述可以参考对本申请第一实施例的相关描述,此处不再赘述。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、存储器映射输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (14)

1.一种事件推荐方法,其特征在于,包括:
获取自然语言文本;
根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;
获得针对事件的查询请求;
根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;
根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。
2.根据权利要求1所述的方法,其特征在于,所述根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱,包括:
根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度中的至少一种,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱。
3.根据权利要求2所述的方法,其特征在于,所述根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度中的至少一种,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱,包括:
根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度,以及各个相似度在相似度比较中所占的权重,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱。
4.根据权利要求3所述的方法,其特征在于,所述根据自然语言文本中任意两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度,以及各个相似度在相似度比较中所占的权重,对所述自然语言文本进行聚类,包括:
根据自然语言文本中两个自然语言文本的标题之间的相似度、段落之间的相似度、关键词之间的相似度,以及各个相似度在相似度比较中所占的权重,获得两个自然语言文本之间的相似度;
判断两个自然语言文本之间的相似度是否大于或等于预设的相似度阈值;
若是,则将两个自然语言文本聚类为一个类别。
5.根据权利要求1所述的方法,其特征在于,所述根据聚类的结果构建事件图谱,包括:
从聚类的结果中,获取指定聚类类别中的第一自然语言文本中的关键词;
根据所述第一自然语言文本中的关键词,获得每一个所述第一自然语言文本中均出现的公共关键词;
根据所述公共关键词,确定指定聚类类别对应的事件;
根据所述指定聚类类别对应的事件,构建事件图谱。
6.根据权利要求5所述的方法,其特征在于,所述根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件,包括:
获得查询请求中的关键词;
将所述查询请求中的关键词在所述事件图谱中进行查询,获得与所述关键词具有相同公共关键词的事件。
7.根据权利要求1所述的方法,其特征在于,所述根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户,包括:
根据事件图谱包含的事件与事件的关联关系,获得所述匹配的事件的候选关联事件;
对所述候选关联事件进行排序,将排序后的结果推荐给用户。
8.根据权利要求7所述的方法,其特征在于,所述根据事件图谱包含的事件与事件的关联关系,获得所述匹配的事件的候选关联事件,包括:
获得所述匹配的事件的关键词;
根据事件图谱包含的事件与事件的关联关系在所述事件图谱中进行查询,获得与所述匹配的事件的关键词具有共同关键词的事件;
将所述事件作为所述匹配的事件的候选关联事件。
9.根据权利要求7所述的方法,其特征在于,所述对所述候选关联事件进行排序,将排序后的结果推荐给用户,包括:
获得候选关联事件的事件热度;
根据候选关联事件的事件热度,对所述候选关联事件进行排序,将排序后的结果推荐给用户。
10.根据权利要求9所述的方法,其特征在于,所述获得候选关联事件的事件热度,包括:
获得候选关联事件对应的聚类类别;
从所述候选关联事件对应的聚类类别中,获取自然语言文本的数量、自然语言文本的最早发生时间以及自然语言文本的最晚发生时间;
根据所述自然语言文本的数量、自然语言文本的最早发生时间以及自然语言文本的最晚发生时间中的至少一种,获得候选关联事件的事件热度。
11.一种事件推荐装置,其特征在于,包括:
文本获取单元,用于获取自然语言文本;
文本聚类单元,用于根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;
请求获得单元,用于获得针对事件的查询请求;
事件获得单元,用于根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;
事件推荐单元,用于根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。
12.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储事件推荐方法的程序,该设备通电并通过所述处理器运行该事件推荐方法的程序后,执行下述步骤:
获取自然语言文本;
根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;
获得针对事件的查询请求;
根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;
根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。
13.一种存储设备,其特征在于,存储有事件推荐方法的程序,该程序被处理器运行,执行下述步骤:
获取自然语言文本;
根据所述自然语言文本之间的相似度,对所述自然语言文本进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;
获得针对事件的查询请求;
根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;
根据事件图谱包含的事件与事件的关联关系,将与所述关键词匹配的事件的关联事件推荐给用户。
14.一种事件推荐方法,其特征在于,包括:
获取互联网中的新闻网页;
根据所述新闻网页之间的相似度,对所述新闻网页进行聚类并根据聚类的结果构建事件图谱;所述事件图谱包含事件与事件的关联关系;
获得针对事件的查询请求;
根据所述查询请求中的关键词查询所述事件图谱,从所述事件图谱中获得与所述关键词匹配的事件;
根据事件图谱包含的事件与事件的关联关系,将所述匹配的事件的关联事件推荐给用户。
CN202010733487.XA 2020-07-27 2020-07-27 事件推荐方法、装置和设备 Pending CN114003799A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010733487.XA CN114003799A (zh) 2020-07-27 2020-07-27 事件推荐方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010733487.XA CN114003799A (zh) 2020-07-27 2020-07-27 事件推荐方法、装置和设备

Publications (1)

Publication Number Publication Date
CN114003799A true CN114003799A (zh) 2022-02-01

Family

ID=79920197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010733487.XA Pending CN114003799A (zh) 2020-07-27 2020-07-27 事件推荐方法、装置和设备

Country Status (1)

Country Link
CN (1) CN114003799A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561288A (zh) * 2023-07-12 2023-08-08 腾讯科技(深圳)有限公司 事件查询方法、装置、计算机设备、存储介质及程序产品
WO2023169159A1 (zh) * 2022-03-11 2023-09-14 华为云计算技术有限公司 一种事理图谱建立方法及相关装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023169159A1 (zh) * 2022-03-11 2023-09-14 华为云计算技术有限公司 一种事理图谱建立方法及相关装置
CN116561288A (zh) * 2023-07-12 2023-08-08 腾讯科技(深圳)有限公司 事件查询方法、装置、计算机设备、存储介质及程序产品
CN116561288B (zh) * 2023-07-12 2024-01-05 腾讯科技(深圳)有限公司 事件查询方法、装置、计算机设备、存储介质及程序产品

Similar Documents

Publication Publication Date Title
CN106383887B (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
US9053115B1 (en) Query image search
US8346815B2 (en) Dynamic image display area and image display within web search results
US8370358B2 (en) Tagging content with metadata pre-filtered by context
US9507804B2 (en) Similar search queries and images
US10592571B1 (en) Query modification based on non-textual resource context
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
US20220237247A1 (en) Selecting content objects for recommendation based on content object collections
KR20130142121A (ko) 검색 질의 입력에 대한 다중 모드 접근 방법
WO2015102869A1 (en) Rich content for query answers
US20130339369A1 (en) Search Method and Apparatus
US9916384B2 (en) Related entities
CN109952571B (zh) 基于上下文的图像搜索结果
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN114003799A (zh) 事件推荐方法、装置和设备
EP3706014A1 (en) Methods, apparatuses, devices, and storage media for content retrieval
US11086961B2 (en) Visual leaf page identification and processing
JP2019164438A (ja) レコメンド動画決定装置、レコメンド動画決定方法、およびプログラム
Jomsri A Combination Indexing for Image Social Bookmarking System to Improve Search Results.
CN114282536A (zh) 一种基于ai算法的智能推荐引擎系统
CN116561434A (zh) 一种数据检索推荐方法、装置、存储介质及设备
Jeong et al. Refining search results using a mining framework
CN110737851A (zh) 超链的语义化方法、装置、设备及计算机可读存储介质
Cerquitelli et al. Community-contributed media collections: Knowledge at our fingertips

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination