CN108334528A

CN108334528A - 一种信息推荐方法和装置

Info

Publication number: CN108334528A
Application number: CN201710121240.0A
Authority: CN
Inventors: 李潇; 张锋; 王策
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Yunnan Tengyun Information Industry Co.,Ltd.
Priority date: 2017-03-02
Filing date: 2017-03-02
Publication date: 2018-07-27
Anticipated expiration: 2037-03-02
Also published as: CN108334528B

Abstract

本发明实施例公开了一种信息推荐方法和装置；本发明实施例在接收到原始文本信息后，可以从原始文本信息中提取种子，然后，分别通过预设知识图谱和该种子的实体上位词来选择候选实体集合，并基于该候选实体集合确定推荐信息，以进行推荐；该方案可以大大增强结果的可控性，不仅可以提高候选实体的可用性，而且可以提高召回率，大大改善了推荐效果。

Description

一种信息推荐方法和装置

技术领域

本发明涉及通信技术领域，具体涉及一种信息推荐方法和装置。

背景技术

随着互联网技术的发展，以及终端的普及，网络信息推荐已经成为人们获取和分享资讯的一个重要途径。

在网络信息推荐技术中，相关信息，比如同义词、近义词、下位词、和/或上位词等信息的获取对推荐结果的精准性和全面性具有较大影响。在现有技术中，一般都会采用开放式实体(Entity)抽取技术来统计各类信息同现的概率，并采用互信息(MutualInformation)等指标，来确定各类信息之间的相关度，进而根据相关度来获取当前所需信息的相关信息，以进行推荐，从而达到提高推荐结果精准性和全面性的目的。其中，开放式实体抽取技术是文本信息抽取(Text Information Extraction)技术的一种，其主要目标是根据用户输入的特定语义类的若干实体(也称为“种子”或“种子词”)从网络中抽取同类型的实体，以及在开放性文本中找出该语义类包含的其他实体，例如，给出“中国、美国、俄罗斯”这三个种子，要求找出“国家”这个语义类的其他实体，诸如“德国、法国、日本…”等。

在对现有技术的研究和实践过程中，本发明的发明人发现，由于现有方案的相关信息主要是通过在开放式文本中统计实体同现的概率来得到的，因此，极易由于实体歧义等错误导致结果出错，不仅结果的可控性较差，而且召回率(R，Recall，也称为查全率)也较低，大大影响其推荐的效果。

发明内容

本发明实施例提供一种信息推荐方法和装置，可以增强结果的可控性，提高召回率，以改善推荐效果。

本发明实施例提供一种信息推荐方法，包括：

接收原始文本信息，从所述原始文本信息中提取种子；

根据预设知识图谱获取与所述种子具有预设关系的实体，得到第一关系实体集合；

获取与所述种子具有相同实体上位词的其他实体，得到第二关系实体集合；

将所述第一关系实体集合和第二关系实体集合的并集确定为候选实体集合；

基于所述候选实体集合确定推荐信息，并推荐所述推荐信息。

相应的，本发明实施例还提供一种信息推荐装置，包括：

接收单元，用于接收原始文本信息，从所述原始文本信息中提取种子；

第一获取单元，用于根据预设知识图谱获取与所述种子具有预设关系的实体，得到第一关系实体集合；

第二获取单元，用于获取与所述种子具有相同实体上位词的其他实体，得到第二关系实体集合；

确定单元，用于将所述第一关系实体集合和第二关系实体集合的并集确定为候选实体集合；

推荐单元，用于基于所述候选实体集合确定推荐信息，并推荐所述推荐信息。

本发明实施例在接收到原始文本信息后，可以从原始文本信息中提取种子，然后，分别通过预设知识图谱和该种子的实体上位词来选择候选实体集合，并基于该候选实体集合确定推荐信息，以进行推荐；由于知识图谱本身具有丰富的信息，且可以对该种子的扩展进行约束，所以，所选择出来的候选实体的可用度较高，而通过实体上位词扩展，又可以将一些与该种子没有直接关系或者关系很弱的实体找出来，因此，可以大大提高召回率，可见，该方案可以大大增强结果的可控性，不仅可以提高候选实体的可用性，而且可以提高召回率，有利于改善推荐效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的信息推荐方法的场景示意图；

图1b是本发明实施例提供的信息推荐方法的流程图；

图2a是本发明实施例提供的信息推荐方法的另一流程图；

图2b是本发明实施例提供的信息推荐方法中实体关系的示例图；

图3是本发明实施例提供的信息推荐装置的结构示意图；

图4是本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种信息推荐方法和装置。

其中，该信息推荐装置具体可以集成在服务器，比如网页服务器或搜索服务器等设备中。

例如，以该信息推荐装置集成在服务器中为例，参见图1a，当服务器接收到原始文本信息，比如接收到用户通过终端发送的原始文本信息后，可以从该原始文本信息中提取种子(即种子词，seed words)，根据预设知识图谱对该种子进行扩展，以及根据该种子的实体上位词(hypernym)进行扩展，以得到候选实体集合，然后，基于该候选实体集合确定推荐信息，比如，可以分别统计该候选实体集合中各候选实体与该种子的相关程度，以得到各候选实体的推荐分数，并将推荐分数大于设定值的候选实体确定为推荐信息，以推荐给该用户，等等。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

实施例一、

本实施例将从信息推荐装置的角度进行描述，该信息推荐装置具体可以集成在服务器等设备中。

一种信息推荐方法，包括：接收原始文本信息，从该原始文本信息中提取种子，根据预设知识图谱获取与该种子具有预设关系的实体，得到第一关系实体集合，获取与该种子具有相同实体上位词的其他实体，得到第二关系实体集合，将该第一关系实体集合和第二关系实体集合的并集确定为候选实体集合，基于该候选实体集合确定推荐信息，并推荐该推荐信息。

如图1b所示，该信息推荐方法的具体流程可以如下：

101、接收原始文本信息，从该原始文本信息中提取种子。

例如，具体可以接收用户通过终端发送的原始文本信息，或接收其他设备发送的原始文本信息，又或者，还可以从本地存储空间中获取原始文本信息，等等，然后，从该原始文本信息中提取种子。

其中，从原始文本信息中提取种子的方式可以有多种，比如，可以通过文本信息抽取技术，从该原始文本信息中提取种子，等等。所谓文本信息抽取，指的是从自然语言文本(在本发明实施例即为原始文本信息)中抽取指定类型的实体(Entity)、关系(Relation)、事件(Event)等事实信息，并形成结构化数据输出的文本处理技术，为了描述方便，在本发明实施例中，将从原始文本信息中所抽取到的指定类型的实体，称为种子词，简称种子。

102、根据预设知识图谱获取与该种子具有预设关系的实体，得到第一关系实体集合，例如，具体可以如下：

(1)将该种子映射到预设知识库中的实体上，其中，该知识库根据预设知识图谱建立而成。

比如，具体可以通过命名实体链接(NEL，Named Entity Linking)技术等方式将该种子映射到预设知识库中的相应的实体上。

其中，命名实体链接，简称实体链接(Entity Linking)，是把文档中给定的命名实体(即种子)链接到知识库中一个无歧义实体的过程，包括同义实体的合并、以及歧义实体的消歧等，在此不再赘述。

(2)获取该种子在该知识库中与其他实体的关系边数量，得到该种子与其他实体在该知识库中的关系度。

其中，关系边数量用于描述实体之间关联关系的远近，指的是在实体关系图中从实体A到实体B所需经过的关系边的数量，一般可以表示为度数，为了描述方便，在本发明实施例中，将该度数称为关系度。其中，关系边数量越少，则关系度(即度数)越低，而关系度越低，则表明一个实体越贴近本身，比如，如果一个实体走向本身，则其关系度(度数)为0，等等，在此不再赘述。

(3)从该预设知识库中提取关系度满足预设阈值的实体，得到第一关系实体集合。

其中，该预设阈值可以根据实际应用的需求进行设置，比如，一般可以将关系度为1度和2度的，称为关系“近”的实体，因此，可以从该预设知识库中提取关系度小于等于2度的实体，得到第一关系实体集合。

103、获取与该种子具有相同实体上位词的其他实体，得到第二关系实体集合；例如，具体可以如下：

(1)获取该种子的实体上位词。

实体上位词，即实体的上位词，指的是概念上外延更广的主题词，比如，“花”是“鲜花”的实体上位词，“植物”是“花”的实体上位词，等等。此外，还有一些实体虽然没有直接关系，但是却存在同一类概念，比如，阿里巴巴、百度、以及腾讯统称为“BAT”，红楼梦、水浒传、三国演义和西游记统称为“四大名著”，等等，其中，“BAT”即为阿里巴巴、百度、以及腾讯的实体上位词，而“四大名著”即为红楼梦、水浒传、三国演义和西游记的实体上位词，等等。

需说明的是，上位词是相对某主题词的，一个主题词所表达概念的任何一种属性、任何一种归类方式，都可以是它的实体上位词。例如，“鲜花快递”的上位词可以是“鲜花”、“快递”、“网上购物”、“鲜花礼仪”、“鲜花店”、“礼品公司”，等等。

(2)获取该实体上位词的实体下位词。

与实体上位词相对应，实体下位词指的是概念上内涵窄的主题词，比如，“鲜花”、“干花”和“塑料花”等是“花”的实体下位词，“鲜花”、“草”和“树”等是“植物”的实体下位词，等等。

(3)从该实体下位词中提取出该种子之外的其他实体，得到第二关系实体集合。

比如，以种子为“鲜花”，实体上位词为“花”为例，且“花”的实体下位词为“鲜花”、“干花”和“塑料花”等，则此时，可以将“鲜花”之外的其他实体，比如“干花”和“塑料花”等添加至第二关系实体集合中。

需说明的是，其中，步骤102和103的执行可以不分先后。

104、将该第一关系实体集合和第二关系实体集合的并集确定为候选实体集合。

例如，具体可以将该第一关系实体集合中的实体和第二关系实体集合中的实体合并在一起，得到候选实体集合。

其中，如果第一关系实体集合和第二关系实体集合中存在有相同的实体，则可以根据预设策略保留其中一个，比如，保留通过实体上位词扩展得到的实体(即第二关系实体集合中的实体)，等等。

105、基于该候选实体集合确定推荐信息，并推荐该推荐信息。

其中，基于该候选实体集合确定推荐信息的方式可以有多种，例如，可以分别统计该候选实体集合中各候选实体与该种子的相关程度，并基于该相关程度来进行推荐，具体如下：

(1)分别统计该候选实体集合中各候选实体与该种子的相关程度，以得到各候选实体的推荐分数，例如，具体可以如下：

A、分别统计该候选实体集合中各候选实体与该种子在开放文本中的相关程度，得到各候选实体的同现分数。

比如，可以获取预设时间范围内的开放文本，分别计算该候选实体集合中各候选实体与该种子在获取到的开放文本中的互信息，根据该互信息分别计算各候选实体的同现分数。

其中，互信息指的是信息论里一种有用的信息度量，用于表示信息之间的关系,是两个随机变量统计相关性的测度，即它可以反映两个事件集合之间的相关性，相关性越强，互信息取值(即互信息量)越大。比如，以用互信息作为种子和类别之问的测度为例，如果种子在某类别出现频率较高，或者属于该类别的话，则它们的互信息量较大。

其中，同现指的是同现语义网络，所谓语义网络，指的是是“语义组合系统”形式化的图解，也是智能计算机的“知识表示”。语义网络是由各级“语义单位”组成的，能清晰地表示全部的“语义组成合关系”和“语义标记依附”的有层次的网络，其可以反映开放文本中两个实体之间的相关程度，比如，如果两个实体频繁出现在同一个句子或篇章中，那么，就可以认为这两个实体是强相关的。

由于一些候选实体和该种子的关系很固定(成为常识)，例如，刘某和朱某(刘某的妻子)，因此，在开放文本里较难提及，所以，仅仅依靠计算同现语义网络是很难将其推荐出来的，所以，还需要通过其他的方式来确定该候选实体和该种子之间的关系，比如，可以通过知识图谱对这些重要关系设置较大的权重，使之可以将一些很重要，但是却较少提及的实体都推荐出来。即还可以执行步骤B，如下：

B、分别统计该候选实体集合中各候选实体与该种子在知识图谱中的关系权重，得到各候选实体的关系分数。

比如，具体可以获取该候选实体集合中各候选实体与该种子在知识图谱中的关系边、以及关系边的权重(简称为边权重)，根据该关系边和关系边的权重分别计算各候选实体的关系分数。

其中，关系边的权重可以根据实际应用的需求进行设置，例如，可以利用经验知识，对不同领域的不同关系进行针对性设置，譬如，对于科技领域的信息推荐，可以将所在职位、所属公司、以及公司股东等的关系边都设置为较大的权重，而对于体育领域的信息推荐，可以将所在球队、以及队友等的关系边都设置为较大的权重，等等。

其中，根据关系边和关系边的权重计算候选实体的关系分数的算法也可以根据实际应用的需求进行设置，比如，如果是1度关系，则其关系分数就是其设置的关系边的权重本身，而如果是多度关系，则其关系分数就是其对应的多个关系边的权重的乘积，等等，即，可以将候选实体与该种子在知识图谱中的关系边的乘积作为该候选实体的关系分数。

C、分别统计该候选实体集合中各候选实体的实体上位词与该种子的实体上位词的相关程度，得到各候选实体的相关分数。

例如，可以分别确定该候选实体集合中各候选实体的实体上位词集合与该种子的实体上位词集合的交集，以及分别确定该候选实体集合中各候选实体的实体上位词集合与该种子的实体上位词集合的并集，然后，根据确定的交集和并集计算各候选实体的相关分数。

比如，可以采集Jaccord coefficient(一种相似度算法)来计算各候选实体的相关分数，如下：

其中，A为候选实体的实体上位词集合，B为种子的实体上位词集合。

需说明的是，其中，步骤A、B和C的执行可以不分先后，可以依次执行，也可以并行执行，在此不再赘述。

D、根据该同现分数、关系分数和相关分数分别计算各候选实体的推荐分数。例如，具体可以如下：

若候选实体是通过知识图谱获取得到的，则将该同现分数和关系分数的和作为候选实体的推荐分数；

若候选实体是通过实体上位词获取得到的，则将该同现分数和相关分数的和作为候选实体的推荐分数。

(2)将推荐分数大于设定值的候选实体确定为推荐信息。

此后，便可以对该推荐信息进行推荐。

其中，该设定值可根据实际应用的需求进行设置，在此不再赘述。

由上可知，本实施例在接收到原始文本信息后，可以从原始文本信息中提取种子，然后，分别通过预设知识图谱和该种子的实体上位词来选择候选实体集合，并基于该候选实体集合确定推荐信息，以进行推荐；由于知识图谱本身具有丰富的信息，且可以对该种子的扩展进行约束，所以，所选择出来的候选实体的可用度较高，而通过实体上位词扩展，又可以将一些与该种子没有直接关系或者关系很弱的实体找出来，因此，可以大大提高召回率，可见，该方案可以大大增强结果的可控性，不仅可以提高候选实体的可用性，而且可以提高召回率，有利于改善推荐效果。

实施例二、

根据实施例一所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以信息推荐装置具体集成在服务器中为例进行说明。

如图2a所示，一种信息推荐方法，具体流程可以如下：

201、服务器接收原始文本信息。

例如，服务器具体可以接收用户通过终端发送的原始文本信息，或接收其他设备发送的原始文本信息，又或者，还可以从本地存储空间中获取原始文本信息，等等。

202、服务器从该原始文本信息中提取种子。

其中，从原始文本信息中提取种子的方式可以有多种，比如，可以通过文本信息抽取技术，从该原始文本信息中提取种子，等等。

203、服务器将该种子映射到预设知识库中的实体上，然后执行步骤204。

例如，服务器具体可以通过NEL技术等方式将该种子映射到预设知识库中的相应的实体上。

其中，该知识库根据预设知识图谱建立而成，可以保存在本地(即服务器)中，也可以保存在其他设备上，具体根据实际应用的需求而定。

可选的，该知识库可以由运维人员预先进行建立，并进行更新，或者，也可以由系统自行进行建立和实时更新，即在步骤“服务器将该种子映射到预设知识库中的实体上”之前，该信息推荐方法还可以包括：

根据预设知识图谱建立知识库。

204、服务器根据该种子与其他实体在该知识库中的关系度，从该知识库中获取第一关系实体集合，例如，具体可以如下：

服务器获取该种子在该知识库中与其他实体的关系边数量，得到该种子与其他实体在该知识库中的关系度，从该知识库中提取关系度满足预设阈值的实体，得到第一关系实体集合。

其中，该预设阈值可以根据实际应用的需求进行设置，比如可以从该预设知识库中提取关系度小于等于2度的实体，得到第一关系实体集合，等等。

比如，以种子为演员“刘A”为例，若“刘A”的妻子为“朱A”，搭档分别为“郭B”和“王E”，而且与“王E”共同充当了“F电影”的主演，其中，“王E”的妻子为“马E”，则这多个实体在知识库中的关系可参见图2b，其中，种子“刘A”与妻子“朱A”、搭档“郭B”、作品“F电影”、以及搭档“王E”的关系度均为“1度”，与作品“F电影”的另一个主演“王E”的关系度为“2度”(因为具有两个关系边)，与作品“F电影”的另一个主演“王E”的妻子“马E”的关系度为“3度”(因为具有三个关系边)，与搭档“王E”的妻子“马E”的关系度为“2度”(因为具有两个关系边)，所以，可以从该预设知识库中提取“朱A”、“郭B”、“F电影”、以及“王E”等实体，添加至种子“刘A”所对应的第一关系实体集合中，即此时第一关系实体集合中的实体可以包括：

朱A_妻子_1度；

郭B_搭档_1度；

F电影_主演_1度；

王E_搭档_1度；

马E_搭档|妻子_2度。

需说明的是，如果两个实体之间存在多个关系度，则可以以最小的关系度为准，比如，虽然“王E_主演|主演_2度”也在小于等于2度的范围内，但是，由于“刘A”与“王E”之间存在比2度更小的关系度，即“王E_搭档_1度”，因此，可以忽略“王E_主演|主演_2度”这一关系边。

205、服务器获取与该种子具有相同实体上位词的其他实体，得到第二关系实体集合。例如，具体可以如下：

服务器具体可以获取该种子的实体上位词，并获取该实体上位词的实体下位词，然后，从该实体下位词中提取出该种子之外的其他实体，得到第二关系实体集合。

比如，还是以种子为“刘A”，且“刘A”、“郭B”、“张C”和“黎D”四个人被统称为“四大天王”为例，由于“刘A”的实体上位词为“四大天王”，而“四大天王”的实体下位词为“刘A、郭B、张C和黎D”，因此，此时可以从“刘A”、“郭B”、“张C”和“黎D”这四个实体中提取出除“刘A”之外的其他实体，添加至“刘A”对应的第二关系实体集合中，即通过“实体上位词”方式进行扩展，第二关系实体集合中的实体可以包括：

郭B_四大天王；

张C_四大天王；

黎D_四大天王。

其中，步骤203与步骤205的执行可以不分先后。

206、服务器将该第一关系实体集合和第二关系实体集合的并集确定为候选实体集合。

例如，服务器具体可以将该第一关系实体集合中的实体和第二关系实体集合中的实体合并在一起，得到候选实体集合。

比如，还是以种子为“刘A”为例，则：

由步骤204可知，第一关系实体集合中的实体包括：朱A_妻子_1度、郭B_搭档_1度、F电影_主演_1度、王E_搭档_1度、以及马E_搭档|妻子_2度。

而由步骤205可知，第二关系实体集合中的实体包括：郭B_四大天王、张C_四大天王、以及黎D_四大天王。

由于郭B_搭档_1度与郭B_四大天王发生冲突，因此，可以根据预设策略保留其中一个实体，比如，保留由实体上位词扩展出来的实体：郭B_四大天王，所以，可以得到最终的候选实体集合为：

朱A_妻子_1度、F电影_主演_1度、王E_搭档_1度、马E_搭档|妻子_2度、郭B_四大天王、张C_四大天王、以及黎D_四大天王。

207、服务器分别统计该候选实体集合中各候选实体与该种子在开放文本中的相关程度，得到各候选实体的同现分数。

其中，互信息(互信息量)的计算公式可以如下：

其中，X和Y为两个随机变量，在本发明实施例中即分别为种子和候选实体。其中，p(x，y)为随机变量X和Y的联合分布，p(x)p(y)为随机变量X和Y的边际分布，如果对所有X,Y，若联合分布与边际分布的比值等于1，即是说他们独立的情况下，互信息I(X；Y)＝0，也就是说，这两个随机变量引入其中一个，并不能对另一个带来任何信息，如果X和Y的关系越密切，则互信息I(X；Y)的值越大，其中，I(X；Y)最大的值就是H(Y)，即X和Y完全相关。

需说明的是，在计算同现分数时，可以采用离线的方式进行计算，以提高处理效率。

208、服务器分别统计该候选实体集合中各候选实体与该种子在知识库中的关系权重，得到各候选实体的关系分数。

比如，具体可以获取该候选实体集合中各候选实体与该种子在知识库中的关系边、以及关系边的权重(简称为边权重)，根据该关系边和边权重分别计算各候选实体的关系分数。

其中，边权重可以根据实际应用的需求进行设置，例如，可以利用经验知识，对不同领域的不同关系进行针对性设置，譬如，对于科技领域的信息推荐，可以将所在职位、所属公司、以及公司股东等的关系边都设置为较大的权重，而对于体育领域的信息推荐，可以将所在球队、以及队友等的关系边都设置为较大的权重，等等。

其中，根据关系边和边权重计算候选实体的关系分数的算法也可以根据实际应用的需求进行设置，比如，如果是1度关系，则其关系分数就是其设置的边权重本身，而如果是多度关系，则其关系分数就是其对应的多个关系边的边权重的乘积，等等，即，可以将候选实体与该种子在知识图谱中的关系边的边权重的乘积作为该候选实体的关系分数。

例如，还是以种子为“刘A”为例，由步骤204可知，由知识库扩展出来的候选实体包括：朱A_妻子_1度、F电影_主演_1度、王E_搭档_1度、以及马E_搭档|妻子_2度，若朱A_妻子_1度的边权重为1，F电影_主演_1度的边权重为0.7，王E_搭档_1度的边权重为0.5，马E_搭档|妻子_2度的边权重为“0.5*1＝0.5”(即王E_搭档_1度的边权重与马E_妻子_1度的边权重的乘积)，则各候选实体的关系分数可以如表一所示，如下：

表一：

候选实体	关系分数
		朱A	1
F电影	0.5
		王E	0.7
马E	0.5*1＝0.5
		……	……

209、服务器分别统计该候选实体集合中各候选实体的实体上位词与该种子的实体上位词的相关程度，得到各候选实体的相关分数。

通过计算这些候选实体的相关分数，可以将那些没有直接关系或关系很弱，但却很重要的候选实体的权重进行提升，以增加推荐的可能性。

例如，根据种子“刘A”的实体上位词“四大天王”计算各候选实体的相关分数后，可以得到如下结果，参见表二：

表二：

候选实体	候选实体的相关分数
		郭B	1
张C	1
		黎D	1

需说明的是，其中，步骤207、208和209的执行可以不分先后，可以根据实际应用的需求依次执行，比如如图2a所示，或者，也可以并行执行，在此不再赘述。

210、服务器根据该同现分数、关系分数和相关分数分别计算各候选实体的推荐分数。例如，具体可以如下：

比如，以候选实体“朱A”、“郭B”、“张C”、“黎D”、“王E”、“F电影”、以及“马E”为例，则其推荐分数可以如表三所示：

表三：

候选实体	推荐分数
		朱A	1
郭B	1
		张C	1
黎D	1
		王E	0.5
F电影	0.7
		马E	0.5

211、服务器将推荐分数大于设定值的候选实体确定为推荐信息，并推荐该推荐信息。

例如，若该设定值为0.7，则此时，可以将候选实体“朱A”、“郭B”、“张C”、“黎D”、以及“F电影”确定为推荐信息，并推荐该推荐信息，比如，将给推荐信息发送给终端，等等。

由上可知，本实施例在接收到原始文本信息后，可以从原始文本信息中提取种子，然后，分别通过预设知识图谱和该种子的实体上位词来选择候选实体集合，并基于该候选实体集合分别为各候选实体计算推荐分数，以确定推荐信息，然后进行推荐；由于知识图谱本身具有丰富的信息，且可以对该种子的扩展进行约束，所以，所选择出来的候选实体的可用度较高，而通过实体上位词扩展，又可以将一些与该种子没有直接关系或者关系很弱的实体找出来，因此，可以大大提高召回率，此外，该方案还可以分别通过计算各候选实体的同现语义网络分数(即同现分数)、知识库中的关系权重、以及实体上位词的相关分数来确定候选实体的推荐分数，因此，相对于只考量其中某一因素的方案而言，可以大大提高推荐的精准性和召回率；可见，该方案可以大大增强结果的可控性，不仅可以提高候选实体的可用性，而且可以提高推荐的精准性和召回率，有利于改善推荐效果。

实施例三、

为了更好地实施以上方法，本发明实施例还提供一种信息推荐装置，如图3所示，该信息推荐装置可以包括接收单元301、第一获取单元302、第二获取单元303、确定单元304和推荐单元305，如下：

(1)接收单元301；

接收单元301，用于接收原始文本信息，从该原始文本信息中提取种子。

例如，接收单元301，具体可以用于接收用户通过终端发送的原始文本信息，或接收其他设备发送的原始文本信息，又或者，还可以从本地存储空间中获取原始文本信息，等等，然后，从该原始文本信息中提取种子。

其中，从原始文本信息中提取种子的方式可以有多种，比如，接收单元301可以通过文本信息抽取技术，从该原始文本信息中提取种子，等等。

(2)第一获取单元302；

第一获取单元302，用于根据预设知识图谱获取与该种子具有预设关系的实体，得到第一关系实体集合。

例如，该第一获取单元302，具体可以用于将该种子映射到预设知识库中的实体上，该知识库根据预设知识图谱建立而成，获取该种子在该知识库中与其他实体的关系边数量，得到该种子与其他实体在该知识库中的关系度，从该预设知识库中提取关系度满足预设阈值的实体，得到第一关系实体集合，具体可参见前面的方法实施例，在此不再赘述。

(3)第二获取单元303；

第二获取单元303，用于获取与该种子具有相同实体上位词的其他实体，得到第二关系实体集合。

例如，该第二获取单元303，具体可以用于获取该种子的实体上位词，获取该实体上位词的实体下位词，从该实体下位词中提取出该种子之外的其他实体，得到第二关系实体集合，具体可参见前面的方法实施例，在此不再赘述。

(4)确定单元304；

确定单元304，用于将该第一关系实体集合和第二关系实体集合的并集确定为候选实体集合。

例如，确定单元304，具体可以用于将该第一关系实体集合中的实体和第二关系实体集合中的实体合并在一起，得到候选实体集合。

(5)推荐单元305；

推荐单元305，用于基于该候选实体集合确定推荐信息，并推荐该推荐信息。

其中，基于该候选实体集合确定推荐信息的方式可以有多种，例如，可以分别统计该候选实体集合中各候选实体与该种子的相关程度，并基于该相关程度来进行推荐，即该推荐单元305可以包括统计子单元、确定子单元和推荐子单元，如下：

该统计子单元，用于分别统计该候选实体集合中各候选实体与该种子的相关程度，以得到各候选实体的推荐分数。

该确定子单元，用于将推荐分数大于设定值的候选实体确定为推荐信息。

该推荐子单元，用于推荐该推荐信息。

例如，该统计子单元，具体可以用于分别统计该候选实体集合中各候选实体与该种子在开放文本中的相关程度，得到各候选实体的同现分数；分别统计该候选实体集合中各候选实体与该种子在知识图谱中的关系权重，得到各候选实体的关系分数；分别统计该候选实体集合中各候选实体的实体上位词与该种子的实体上位词的相关程度，得到各候选实体的相关分数；根据该同现分数、关系分数和相关分数分别计算各候选实体的推荐分数。

其中，同现分数、关系分数和相关分数的计算分别可以如下：

A、同现分数：

该统计子单元，具体可以用于获取预设时间范围内的开放文本；分别计算该候选实体集合中各候选实体与该种子在获取到的开放文本中的互信息；根据该互信息分别计算各候选实体的同现分数。

B、关系分数：

该统计子单元，具体可以用于获取该候选实体集合中各候选实体与该种子在知识图谱中的关系边、以及关系边的权重；根据该关系边和关系边的权重分别计算各候选实体的关系分数。

C、相关分数：

该统计子单元，具体可以用于分别确定该候选实体集合中各候选实体的实体上位词集合与该种子的实体上位词集合的交集；分别确定该候选实体集合中各候选实体的实体上位词集合与该种子的实体上位词集合的并集；根据确定的交集和并集计算各候选实体的相关分数。

在得到同现分数、关系分数和相关分数之后，统计子单元便可以根据该同现分数、关系分数和相关分数分别计算各候选实体的推荐分数，即具体可以如下：

该统计子单元，具体可以用于若候选实体是通过知识图谱获取得到的，则将该同现分数和关系分数的和作为候选实体的推荐分数；若候选实体是通过实体上位词获取得到的，则将该同现分数和相关分数的和作为候选实体的推荐分数。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

该信息推荐装置具体可以集成在服务器等设备中。

由上可知，本实施例在接收到原始文本信息后，可以从原始文本信息中提取种子，然后，分别由第一获取单元302和第二获取单元303通过预设知识图谱和该种子的实体上位词来选择候选实体集合，并由确定单元304基于该候选实体集合确定推荐信息，然后，交由推荐都那样305进行推荐；由于知识图谱本身具有丰富的信息，且可以对该种子的扩展进行约束，所以，所选择出来的候选实体的可用度较高，而通过实体上位词扩展，又可以将一些与该种子没有直接关系或者关系很弱的实体找出来，因此，可以大大提高召回率，可见，该方案可以大大增强结果的可控性，不仅可以提高候选实体的可用性，而且可以提高召回率，有利于改善推荐效果。

实施例四、

本发明实施例还提供一种服务器，如图4所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

接收原始文本信息，从该原始文本信息中提取种子，根据预设知识图谱获取与该种子具有预设关系的实体，得到第一关系实体集合，获取与该种子具有相同实体上位词的其他实体，得到第二关系实体集合，将该第一关系实体集合和第二关系实体集合的并集确定为候选实体集合，基于该候选实体集合确定推荐信息，并推荐该推荐信息。

其中，第一关系实体集合和第二关系实体集合的确定方式分别可以如下：

将该种子映射到预设知识库(该知识库根据预设知识图谱建立而成)中的实体上，然后，获取该种子在该知识库中与其他实体的关系边数量，得到该种子与其他实体在该知识库中的关系度，从该预设知识库中提取关系度满足预设阈值的实体，得到第一关系实体集合。

获取该种子的实体上位词，获取该实体上位词的实体下位词，从该实体下位词中提取出该种子之外的其他实体，得到第二关系实体集合。

在得到第一关系实体集合和第二关系实体集合后，可以将该第一关系实体集合中的实体和第二关系实体集合中的实体合并在一起，得到候选实体集合。

可选的，基于该候选实体集合确定推荐信息的方式可以有多种，例如，可以分别统计该候选实体集合中各候选实体与该种子的相关程度，并基于该相关程度来进行推荐，等，即处理器401还可以运行存储在存储器402中的应用程序，从而实现以下功能：

分别统计该候选实体集合中各候选实体与该种子在开放文本中的相关程度，得到各候选实体的同现分数；

分别统计该候选实体集合中各候选实体与该种子在知识图谱中的关系权重，得到各候选实体的关系分数；

分别统计该候选实体集合中各候选实体的实体上位词与该种子的实体上位词的相关程度，得到各候选实体的相关分数；

根据该同现分数、关系分数和相关分数分别计算各候选实体的推荐分数；

将推荐分数大于设定值的候选实体确定为推荐信息。

以上各个操作的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的服务器在接收到原始文本信息后，可以从原始文本信息中提取种子，然后，分别通过预设知识图谱和该种子的实体上位词来选择候选实体集合，并基于该候选实体集合确定推荐信息，以进行推荐；由于知识图谱本身具有丰富的信息，且可以对该种子的扩展进行约束，所以，所选择出来的候选实体的可用度较高，而通过实体上位词扩展，又可以将一些与该种子没有直接关系或者关系很弱的实体找出来，因此，可以大大提高召回率，可见，该方案可以大大增强结果的可控性，不仅可以提高候选实体的可用性，而且可以提高召回率，有利于改善推荐效果。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

以上对本发明实施例所提供的一种信息推荐方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种信息推荐方法，其特征在于，包括：

接收原始文本信息，从所述原始文本信息中提取种子；

2.根据权利要求1所述的方法，其特征在于，所述根据预设知识图谱获取与所述种子具有预设关系的实体，得到第一关系实体集合，包括：

将所述种子映射到预设知识库中的实体上，所述知识库根据预设知识图谱建立而成；

获取所述种子在所述知识库中与其他实体的关系边数量，得到所述种子与其他实体在所述知识库中的关系度；

从所述预设知识库中提取关系度满足预设阈值的实体，得到第一关系实体集合。

3.根据权利要求1所述的方法，其特征在于，所述获取与所述种子具有相同实体上位词的其他实体，得到第二关系实体集合，包括：

获取所述种子的实体上位词；

获取所述实体上位词的实体下位词；

从所述实体下位词中提取出所述种子之外的其他实体，得到第二关系实体集合。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述基于所述候选实体集合确定推荐信息，包括：

分别统计所述候选实体集合中各候选实体与所述种子的相关程度，以得到各候选实体的推荐分数；

将推荐分数大于设定值的候选实体确定为推荐信息。

5.根据权利要求4所述的方法，其特征在于，所述分别统计所述候选实体集合中各候选实体与所述种子的相关程度，以得到各候选实体的推荐分数，包括：

分别统计所述候选实体集合中各候选实体与所述种子在开放文本中的相关程度，得到各候选实体的同现分数；

分别统计所述候选实体集合中各候选实体与所述种子在知识图谱中的关系权重，得到各候选实体的关系分数；

分别统计所述候选实体集合中各候选实体的实体上位词与所述种子的实体上位词的相关程度，得到各候选实体的相关分数；

根据所述同现分数、关系分数和相关分数分别计算各候选实体的推荐分数。

6.根据权利要求5所述的方法，其特征在于，所述分别统计所述候选实体集合中各候选实体与所述种子在开放文本中的相关程度，得到各候选实体的同现分数，包括：

获取预设时间范围内的开放文本；

分别计算所述候选实体集合中各候选实体与所述种子在获取到的开放文本中的互信息；

根据所述互信息分别计算各候选实体的同现分数。

7.根据权利要求5所述的方法，其特征在于，所述分别统计所述候选实体集合中各候选实体与所述种子在知识图谱中的关系权重，得到各候选实体的关系分数，包括：

获取所述候选实体集合中各候选实体与所述种子在知识图谱中的关系边、以及关系边的权重；

根据所述关系边和关系边的权重分别计算各候选实体的关系分数。

8.根据权利要求5所述的方法，其特征在于，所述分别统计所述候选实体集合中各候选实体的实体上位词与所述种子的实体上位词的相关程度，得到各候选实体的相关分数，包括：

分别确定所述候选实体集合中各候选实体的实体上位词集合与所述种子的实体上位词集合的交集；

分别确定所述候选实体集合中各候选实体的实体上位词集合与所述种子的实体上位词集合的并集；

根据确定的交集和并集计算各候选实体的相关分数。

9.根据权利要求5所述的方法，其特征在于，所述根据所述同现分数、关系分数和相关分数分别计算各候选实体的推荐分数，包括：

若候选实体是通过知识图谱获取得到的，则将所述同现分数和关系分数的和作为候选实体的推荐分数；

若候选实体是通过实体上位词获取得到的，则将所述同现分数和相关分数的和作为候选实体的推荐分数。

10.一种信息推荐装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述第一获取单元，具体用于：

12.根据权利要求10所述的装置，其特征在于，所述第二获取单元，具体用于：

获取所述种子的实体上位词；

获取所述实体上位词的实体下位词；

13.根据权利要求10至12任一项所述的装置，其特征在于，所述推荐单元包括统计子单元、确定子单元和推荐子单元；

所述统计子单元，用于分别统计所述候选实体集合中各候选实体与所述种子的相关程度，以得到各候选实体的推荐分数；

所述确定子单元，用于将推荐分数大于设定值的候选实体确定为推荐信息；

所述推荐子单元，用于推荐所述推荐信息。

14.根据权利要求13所述的装置，其特征在于，所述统计子单元，具体用于：

15.根据权利要求14所述的装置，其特征在于，所述统计子单元，具体用于：

获取预设时间范围内的开放文本；

根据所述互信息分别计算各候选实体的同现分数。

16.根据权利要求14所述的装置，其特征在于，所述统计子单元，具体用于：

17.根据权利要求14所述的装置，其特征在于，所述统计子单元，具体用于：

根据确定的交集和并集计算各候选实体的相关分数。

18.根据权利要求14所述的装置，其特征在于，所述统计子单元，具体用于：