CN109978645A

CN109978645A - 一种数据推荐方法和装置

Info

Publication number: CN109978645A
Application number: CN201711455204.4A
Authority: CN
Inventors: 李树前; 稂顾; 朱德伟; 李伟奇
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2019-07-05
Anticipated expiration: 2037-12-28
Also published as: CN109978645B

Abstract

本发明公开了一种数据推荐方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：生成与各待推荐数据的主题词对应的预设属性信息；根据所述预设属性信息，滤除所述主题词具有特定属性的待推荐数据；将除被滤除的待推荐数据以外剩余的待推荐数据推荐给用户。该实施方式能够避免推荐一些带有特定属性(例如负面情感属性)的数据。

Description

一种数据推荐方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据推荐方法和装置。

背景技术

现在电商领域商品推荐已经越来越重要，不仅是要通过用户偏好、最近使用的热度来推荐，而且衍生出各种推荐方式，现有的推荐方式都是基于user-based(基于用户)或者item-based(基于商品)的方式。

user-based推荐方式更多的考虑相同爱好的用户兴趣，推荐这些用户喜欢/访问过的item(一件商品)，推荐结果与用户当前的行为关系不大，更多的是用户的这些朋友访问过什么，属于圈子的社会化行为，推荐的item是相同爱好用户最喜欢的item，因此具备热点效应，即推荐某一圈子中用户访问最多的商品。同时，这一推荐方式也可以将圈子中用户刚刚访问的item推荐出来，具备很强的实时性，尤其是新引入的热点，可以很快的扩散，也能解决new-item(新增商品)的冷启动问题。

item-based主要考虑用户历史兴趣，推荐与用户历史喜欢的item相似的item，推荐结果与用户的当前行为有很大的关系，推荐的item与用户当前click(点击)的相似性，用户是可以理解的，即可解释性很强，推荐的item也不是热门的，很有可能是冷门(长尾)，但是推荐结果与用户的兴趣相关，这一推荐方式要求用户在该网站上的兴趣是长久和固定的，推荐的意义在于帮助用户找到与其兴趣相关的item。推荐item与用户关系不大，因此可以比较好地解决新加入用户的推荐问题。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

现有的技术很大程度上是根据用户的习惯和行为来推荐数据，而没有考虑所推荐数据的情感因素。

发明内容

有鉴于此，本发明实施例提供一种数据推荐方法和装置，能够避免推荐一些带有特定属性(例如负面情感属性)的数据。

为实现上述目的，根据本发明实施例的一个方面，提供了一种数据推荐方法。

一种数据推荐方法，包括：生成与各待推荐数据的主题词对应的预设属性信息；根据所述预设属性信息，滤除所述主题词具有特定属性的待推荐数据；将除被滤除的待推荐数据以外剩余的待推荐数据推荐给用户。

可选地，生成与各待推荐数据的主题词对应的预设属性信息的步骤，包括：从预设文档库中分别获取各待推荐数据的主题词对应的文档集，一主题词对应的文档集为包括该主题词的所有文档的集合；从所述文档集中提取预设属性词汇，以得到与各主题词相关的预设属性词汇，每一预设属性词汇对应一类别；对与每个主题词相关的各类别预设属性词汇评分，以得到与每个主题词相关的各类别预设属性分数；分别计算与每个主题词相关的各类别预设属性词汇的出现概率；根据与每个主题词相关的预设属性词汇的类别、所述各类别预设属性分数、所述各类别预设属性词汇的出现概率，生成与各待推荐数据的主题词对应的预设属性信息。

可选地，从所述文档集中提取预设属性词汇的步骤，包括：从所述文档集的各文档分别截取包括对应的主题词的第一预设长度文本，并提取所述第一预设长度文本中的预设属性词汇，以得到与所述对应的主题词相关的预设属性词汇。

可选地，每一类别预设属性词汇对应一预设属性强度分数，对与每个主题词相关的各类别预设属性词汇评分的步骤，包括：对于每个主题词，分别执行对与该主题词相关的各类别预设属性词汇评分的操作，其中：分别计算所述各类别预设属性词汇在该主题词对应文档集的各文档所述第一预设长度文本中的词频；根据所述词频和所述各类别预设属性词汇对应的所述预设属性强度分数，计算与该主题词相关的各类别预设属性词汇对应每一文档的得分；根据与该主题词相关的各类别预设属性词汇分别对应所有文档的平均得分，得到与该主题词相关的各类别预设属性分数。

可选地，每一类别预设属性词汇对应一预设属性强度分数，对与每个主题词相关的各类别预设属性词汇评分的步骤，包括：对于每个主题词，分别执行对与该主题词相关的各类别预设属性词汇评分的操作，其中：分别计算所述各类别预设属性词汇在该主题词对应文档集的各文档所述第一预设长度文本中的词频；分别对每一文档中所述各类别预设属性词汇的所述词频计算众数；对每一文档中所述众数排序，根据前N个众数对应的相应类别预设属性词汇在所述第一预设长度文本中的词频，以及所述相应类别预设属性词汇对应的所述预设属性强度分数，计算与该主题词相关的各类别预设属性词汇对应每一文档的得分，其中N为正整数；根据与该主题词相关的各类别预设属性词汇分别对应所有文档的平均得分，得到与该主题词相关的各类别预设属性分数。

可选地，分别计算与每个主题词相关的各类别预设属性词汇的出现概率的步骤，包括：从各主题词对应文档集的各文档截取分别包括对应的主题词的第二预设长度文本，统计所述第二预设长度文本中出现与所述对应的主题词相关的预设属性词汇的第一文档数量，以及出现分别与所述对应的主题词相关的每个类别预设属性词汇的第二文档数量；根据所述第一文档数量和所述第二文档数量，计算与每个主题词相关的各类别预设属性词汇的出现概率。

可选地，所述预设属性信息包括预设属性词汇类别标识、预设属性得分、预设属性概率，根据与每个主题词相关的预设属性词汇的类别、所述各类别预设属性分数、所述各类别预设属性词汇的出现概率，生成与各待推荐数据的主题词对应的预设属性信息的步骤，包括：分别对与每个主题词相关的各类别预设属性词汇的出现概率排序，以选出与每个主题词相关的所述出现概率最大的预设属性词汇类别；根据选出的与每个主题词相关的预设属性词汇类别的标识、该类别预设属性分数、该类别预设属性词汇的出现概率，对应生成与每个主题词对应的预设属性词汇类别标识、预设属性得分、预设属性概率，从而生成与各待推荐数据的主题词对应的预设属性信息。

可选地，根据所述预设属性信息，滤除所述主题词具有特定属性的待推荐数据的步骤，包括：将所述预设属性词汇类别标识对应预设的预设属性词汇类别，且所述预设属性得分大于第一阈值、所述预设属性概率大于第二阈值的预设属性信息对应的主题词识别为具有特定属性的的主题词；将所述具有特定属性的的主题词所在的待推荐数据滤除。

可选地，生成与各待推荐数据的主题词对应的预设属性信息的步骤之前，包括：对各待推荐数据分词以得到多个词，并从所述词中提取名词作为所述待推荐数据的主题词。

根据本发明实施例的另一方面，提供了一种数据推荐装置。

一种数据推荐装置，包括：生成模块，用于生成与各待推荐数据的主题词对应的预设属性信息；过滤模块，用于根据所述预设属性信息，滤除所述主题词具有特定属性的待推荐数据；推荐模块，用于将除被滤除的待推荐数据以外剩余的待推荐数据推荐给用户。

可选地，所述生成模块还用于：从预设文档库中分别获取各待推荐数据的主题词对应的文档集，一主题词对应的文档集为包括该主题词的所有文档的集合；从所述文档集中提取预设属性词汇，以得到与各主题词相关的预设属性词汇，每一预设属性词汇对应一类别；对与每个主题词相关的各类别预设属性词汇评分，以得到与每个主题词相关的各类别预设属性分数；分别计算与每个主题词相关的各类别预设属性词汇的出现概率；根据与每个主题词相关的预设属性词汇的类别、所述各类别预设属性分数、所述各类别预设属性词汇的出现概率，生成与各待推荐数据的主题词对应的预设属性信息。

可选地，所述生成模块包括提取子模块，用于：从所述文档集的各文档分别截取包括对应的主题词的第一预设长度文本，并提取所述第一预设长度文本中的预设属性词汇，以得到与所述对应的主题词相关的预设属性词汇。

可选地，每一类别预设属性词汇对应一预设属性强度分数，所述生成模块包括第一评分子模块，用于：对于每个主题词，分别执行对与该主题词相关的各类别预设属性词汇评分的操作，其中：分别计算所述各类别预设属性词汇在该主题词对应文档集的各文档所述第一预设长度文本中的词频；根据所述词频和所述各类别预设属性词汇对应的所述预设属性强度分数，计算与该主题词相关的各类别预设属性词汇对应每一文档的得分；根据与该主题词相关的各类别预设属性词汇分别对应所有文档的平均得分，得到与该主题词相关的各类别预设属性分数。

可选地，每一类别预设属性词汇对应一预设属性强度分数，所述生成模块包括第二评分子模块，用于：对于每个主题词，分别执行对与该主题词相关的各类别预设属性词汇评分的操作，其中：分别计算所述各类别预设属性词汇在该主题词对应文档集的各文档所述第一预设长度文本中的词频；分别对每一文档中所述各类别预设属性词汇预设属性词汇的所述词频计算众数；对每一文档中所述众数排序，根据前N个众数对应的相应类别预设属性词汇在所述第一预设长度文本中的词频，以及所述相应类别预设属性词汇对应的所述预设属性强度分数，计算与该主题词相关的各类别预设属性词汇对应每一文档的得分，其中N为正整数；根据与该主题词相关的各类别预设属性词汇分别对应所有文档的平均得分，得到与该主题词相关的各类别预设属性分数。

可选地，所述生成模块包括计算子模块，用于：从各主题词对应文档集的各文档截取分别包括对应的主题词的第二预设长度文本，统计所述第二预设长度文本中出现与所述对应的主题词相关的预设属性词汇的第一文档数量，以及出现分别与所述对应的主题词相关的每个类别预设属性词汇的第二文档数量；根据所述第一文档数量和所述第二文档数量，计算与每个主题词相关的各类别预设属性词汇的出现概率。

可选地，所述预设属性信息包括预设属性词汇类别标识、预设属性得分、预设属性概率，所述生成模块包括信息生成子模块，用于：分别对与每个主题词相关的各类别预设属性词汇的出现概率排序，以选出与每个主题词相关的所述出现概率最大的预设属性词汇类别；根据选出的与每个主题词相关的预设属性词汇类别的标识、该类别预设属性分数、该类别预设属性词汇的出现概率，对应生成与每个主题词对应的预设属性词汇类别标识、预设属性得分、预设属性概率，从而生成与各待推荐数据的主题词对应的预设属性信息。

可选地，所述过滤模块还用于：将所述预设属性词汇类别标识对应预设的预设属性词汇类别，且所述预设属性得分大于第一阈值、所述预设属性概率大于第二阈值的预设属性信息对应的主题词识别为具有特定属性的的主题词；将所述具有特定属性的的主题词所在的待推荐数据滤除。

可选地，还包括提取模块：对各待推荐数据分词以得到多个词，并从所述词中提取名词作为所述待推荐数据的主题词。

根据本发明实施例的又一方面，提供了一种电子设备。

一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发明提供的数据推荐方法。

根据本发明实施例的又一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明提供的数据推荐方法。

上述发明中的一个实施例具有如下优点或有益效果：生成与各待推荐数据的主题词对应的预设属性信息；根据预设属性信息，滤除主题词具有特定属性的待推荐数据；将除被滤除的待推荐数据以外剩余的待推荐数据推荐给用户。能够避免推荐一些带有特定属性(例如负面情感)的数据。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的数据推荐方法的主要步骤示意图；

图2是根据本发明实施例的数据推荐装置的主要模块示意图；

图3是本发明实施例可以应用于其中的示例性系统架构图；

图4是适于用来实现本发明实施例的服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本发明实施例通过生成与各待推荐数据的主题词对应的预设属性信息；根据预设属性信息，滤除主题词具有特定属性的待推荐数据；将除被滤除的待推荐数据以外剩余的待推荐数据推荐给用户。能够避免推荐一些带有特定属性(例如负面情感)的数据。

下面以预设属性信息为情感信息，特定属性为特定情感为例，介绍本发明实施例的数据推荐方法和装置，相应地，以下实施例中涉及的上述发明内容部分中的预设属性词汇相应为情感词，预设属性分数相应为情感分数，预设属性强度分数相应为情感强度分数，预设属性得分相应为情感得分，预设属性概率相应为情感概率。

图1是根据本发明实施例的数据推荐方法的主要步骤示意图。

如图1所示，本发明实施例的数据推荐方法主要包括如下的步骤S101至步骤S103。

步骤S101：生成与各待推荐数据的主题词对应的情感信息。

情感信息具体可以包括情感词类别标识、情感得分、情感概率。

步骤S101之前，可以对各待推荐数据分词以得到多个词，并从得到的词中提取名词作为待推荐数据的主题词。

以电商领域的商品数据推荐为例，待推荐数据可以是商品描述词。待推荐数据的主题词可以是商品描述词中的名词，即商品主题词(或商品名称)。

例如，商品描述词，例如“洋河蓝色经典海之蓝52度480ml口感绵柔浓香型”，“白事用花北京天津上海重庆西宁宜春抚州葬礼用花追悼鲜花丧事花圈花篮送”，“儿童自行车18/20/22寸适合5-16岁男女款中小学生山地单车蓝色单速+礼包18寸”等。

对各待推荐数据分词时可以采用中文‘结巴分词’等分词系统，“结巴分词”是一种开源分词系统，支持三种分词模式，即精确模式、全模式、搜索引擎模式。例如“白事用花北京天津上海重庆西宁宜春抚州葬礼用花追悼鲜花丧事花圈花篮送”，通过精确模式可以分词为“白事”、“葬礼”等，获取其中的名词，比如提取“花圈”等作为商品描述词中的主题词。

情感词类别标识可以通过预先标注确定。中文情感词典(即中文情感极性词典)数据是基于文本情感二元划分方法的一个中文词语数据库，它将11086个词语分为2810个积极属性词语和8276个消极属性词语。中文情感词典中的每个情感词对应各自的类别，例如激动、高兴、愉快、平和、轻微伤心、绝望等分为不同的等级(即类别)。可以依次对中文情感词典中的情感词按照情感词类别标注标识，可以为不同类别的情感词标注不同的情感词类别标识，也可以将多个类别的情感词标注为同一情感词类别标识，例如把难过类和绝望类标注为对应情感词类别标识1002。

下面详细介绍步骤S101的各具体步骤。

从预设文档库中分别获取各待推荐数据的主题词对应的文档集，一主题词对应的文档集为包括该主题词的所有文档的集合。

预设文档库可以是根据每次从待推荐数据中提取的主题词，通过定向搜索大量网络电子文档的方式而建立的文档库。具体地，可以通过通过网络爬虫，爬虫采用预置的网站(例如中文网站、电子书在线网站等)，定向搜索大量网络的文档，形成一个文档索引库，可以每天增量更新文档索引库，并根据文档的头部尾部生成一个hash(散列)来生成索引，如果后续搜索到的数据与索引相同，则不更新，如果不相同，则更新索引为之前生成的hash，最终形成一定数量的文档，例如10000篇文档。

例如，某一待推荐数据的主题词为“花圈”，假设预设文档库由10000篇文档构成，则从该10000篇文档中获取所有包括“花圈”一词的文档，假设获取到2000篇文档中包括“花圈”，则该2000篇文档组成“花圈”对应的文档集。

从各文档集中提取情感词，以得到与各文档集对应的主题词相关的情感词。具体可以从文档集的各文档分别截取包括对应的主题词的第一预设长度文本，并提取该第一预设长度文本中的情感词，以得到与文档集对应的主题词相关的情感词。

例如从获取的2000篇文档中提取与“花圈”相关的情感词，具体地，从该2000篇文档的每一文档中截取包括“花圈”的第一预设长度文本，例如截取1万字的文本，并提取该1万字文本中的情感词，以得到与“花圈”相关的情感词。其中在截取文本时，可以截取包括“花圈”的前后文本总计1万字，截取规则可以灵活设置，比如可以任意截取10000字，只要该10000字中包括至少一个“花圈”一词即可，而“花圈”一词在该10000字的文本中的位置也可以灵活设定，例如从出现“花圈”的位置之前截取1000字文本，该位置后面截取9000字文本等等。

对与每个主题词相关的各类别情感词评分，以得到与每个主题词相关的各类别情感分数。

每一类别情感词对应一情感强度分数。每个类别情感词的情感强度分数也可以通过预先标注确定。根据情感词汇的类别(激动、高兴、愉快、平和、轻微伤心、绝望等)，给予不同类别的情感词不同的情感强度分数，例如激动类：3分；绝望类：10分等。情感强度分数可以体现对应类别情感词的强烈程度。

通过依次对中文情感词典中的情感词按照情感词类别标注标识和情感强度分数，可以得到与情感词的类别对应的包括情感词类别标识和情感强度分数的向量，例如，激动类：(1001，3)，绝望类(1002，10)，其中，1001、1002代表不同的情感词类别标识；3、10代表情感强度分数。

在实施方式一中，对与每个主题词相关的各类别情感词评分的步骤，具体可以包括：对于每个主题词，分别执行对与该主题词相关的各类别情感词评分的操作，其中：分别计算各类别情感词在该主题词对应文档集的各文档第一预设长度文本中的词频，其中，一类别情感词在一文档中的第一预设长度文本中的词频，即该类别情感词在该文档中的第一预设长度文本中的出现次数或数量；根据所述词频和所述各类别情感词对应的情感强度分数，计算与该主题词相关的各类别情感词对应每一文档的得分，具体计算公式可以是：

一类别情感词对应一文档的得分Score1＝(X1/X2)*Y

其中，X1为该类别情感词在该文档第一预设长度文本中的词频，X2为所有类别情感词在该文档第一预设长度文本中的词频，Y为该类别情感词的对应的情感强度分数；

根据与该主题词相关的各类别情感词分别对应所有文档的平均得分，得到与该主题词相关的各类别情感分数，其中，如果文档集中某篇文档的第一预设长度文本中不包括任何情感词，则不考虑该篇文档，即，该所有文档指的是该主题词对应的文档集中在第一预设长度文档中有情感词出现的全部文档。例如，某一主题词对应的文档集有2000篇文档，其中第一预设长度文档中有情感词出现的文档数量为1500篇，而其余500篇文档第一预设长度文档中没有任何类别的情感词出现，则不考虑该500篇文档，而只根据与该主题词相关的各类别情感词分别对应1500篇文档的平均得分，得到与该主题词相关的各类别情感分数。

具体地，与一主题词相关的某一类别情感分数Score2计算公式如下：

其中，n为包括该主题词且在第一预设长度文本中出现情感词的文档数量，Xi为该类别情感分数对应文档i的得分。

对应情感属性类别(即情感词的类别)不复杂的情况，可以通过该实施方式一的评分方法对与每个主题词相关的各类别情感词评分。对应情感属性类别是否复杂可以根据自定义的与主题词相关的情感词类别的数量来判定，例如，自定义情感词类别大于三类即为情感数量类别复杂的情况，而小于或等于三类即为情感数量类别不复杂的情况。

情感属性类别(即情感词的类别)不复杂的情况下，结合上述主题词为“花圈”的举例，假设每篇文档包括与“花圈”一词相关的各类别情感词涉及绝望、激动两个类别。对与“花圈”一词相关的各类别情感词评分的过程具体可以为：分别执行对与“花圈”相关的各类别情感词评分的操作，其中：在包括“花圈”的2000篇文档中，分别计算各类别情感词在每篇文档中的1万字截取文本中的词频，如果某篇文档不包括任何类别的情感词，则无需考虑在内，假设在包括“花圈”的2000篇文档中，有1000篇文档的1万字截取文本(第一预设长度文本)中出现情感词，则对该1000篇文档的每篇文档分别计算与“花圈”相关的各类别情感词对应该文档的得分。

例如与“花圈”一词相关的各类别情感词涉及两个类别：绝望类和激动类，其中，绝望类和激动类情感词对应的情感强度分数分别为10分和3分。在文档1中，绝望类情感词的词频为P1，激动类情感词的词频为Q1；在文档2中，绝望类情感词的词频为P2，激动类情感词的词频为Q2；……；在文档1000中，绝望类情感词的词频为P1000，激动类情感词的词频为Q1000。则根据上述计算公式，

绝望类情感词对应文档1的得分为：(P1/(P1+Q1))*10；

激动类情感词对应文档1的得分为：(Q1/(P1+Q1))*3；

绝望类情感词对应文档2的得分为：(P2/(P2+Q2))*10；

激动类情感词对应文档2的得分为：(Q2/(P2+Q2))*3；

以此类推，绝望类情感词对应文档1000的得分为：(P1000/(P1000+Q1000))*10；

激动类情感词对应文档1000的得分为：(Q1000/(P1000+Q1000))*3；

从而，计算出与“花圈”相关的各类别情感词对应每一文档的得分。

在实施方式二中，对与每个主题词相关的各类别情感词评分的步骤，包括：对于每个主题词，分别执行对与该主题词相关的各类别情感词评分的操作，其中：分别计算各类别情感词在该主题词对应文档集的各文档第一预设长度文本中的词频；分别对每一文档中各类别情感词的所述词频计算众数；对每一文档中的计算出的众数排序，根据前N个众数对应的相应类别情感词在第一预设长度文本中的词频，以及相应类别情感词对应的情感强度分数，计算与该主题词相关的各类别情感词对应每一文档的得分，其中N为正整数，N值可以根据需要自行设定；根据与该主题词相关的各类别情感词分别对应所有文档的平均得分，得到与该主题词相关的各类别情感分数。其中，“所有文档”的定义与实施方式一相同，即指的是该主题词对应的文档集中在第一预设长度文档中有情感词出现的全部文档。

对应情感属性类别复杂的情况，可以通过该实施方式二的评分方法对与每个主题词相关的各类别情感词评分。

假设“花圈”对应的文档集为2000篇文档，其中有1000篇文档的1万字截取文本(第一预设长度文本)中出现情感词，且与“花圈”一词相关的各类别情感词涉及绝望、激动、高兴、愉快四个类别。对与“花圈”一词相关的各类别情感词评分的过程具体可以包括：分别计算与“花圈”相关的各类别情感词在文档1～文档1000的第一预设长度文本(例如1万字截取文本)中的词频，假设在文档1中，绝望类情感词的词频为P1，激动类情感词的词频为Q1，高兴类情感词的词频为R1，愉快类情感词的词频为T1；在文档2中，绝望类情感词的词频为P2，激动类情感词的词频为Q2，高兴类情感词的词频为R2，愉快类情感词的词频为T2；……；在文档1000中，绝望类情感词的词频为P1000，激动类情感词的词频为Q1000，高兴类情感词的词频为R1000，愉快类情感词的词频为T1000。对上述四个类别情感词在每一文档的第一预设长度文本中的词频分别计算众数，假设通过统计计算，得到各类别情感词在每篇文档的1万字截取文本中的词频的众数如下：

文档1：200个绝望类情感词，50个激动类情感词，10个高兴类情感词，2个愉快类情感词；

文档2：80个绝望类情感词，20个激动类情感词，5个高兴类情感词，5个愉快类情感词；

……

文档1000：80个绝望类情感词，50个激动类情感词，100个高兴类情感词，50个愉快类情感词；

对每篇文档的众数排序，以文档1为例，文档1中绝望类情感词排第一，激动类情感词排第二，高兴类情感词排第三，愉快类情感词排第四。可以设置取排列前两个位置的众数对应的相应类别情感词在第一预设长度文本中的词频，以文档1为例，即选取绝望类情感词和激动类情感词该两个类别的词频，并根据该两个类别的情感词对应的情感强度分数，计算与“花圈”相关的绝望类情感词和激动类情感词对应文档1的得分，即：

绝望类情感词对应文档1的得分为：(200/(200+50))*10＝8分；

激动类情感词对应文档1的得分为：(50/(200+50))*3＝0.6分；

按照同样方法，可以计算出1000篇文档的每篇文档中众数排名前两位的两类情感词对应该文档的得分。

根据与“花圈”相关的各类别情感词分别对应所有文档的平均得分，得到与“花圈”相关的各类别情感分数，具体计算方法与实施方式一中计算与一主题词相关的某一类别情感分数Score2的方法相同，需要说明的是，由于实施方式二是取每篇文档众数排名位置前两位的情感词类别，因此利用计算Score2的公式来计算时，如果某一类别情感词在一文档中众数排序不在前两位，则该类别情感词的相应词频将不考虑，例如文档1中高兴类情感词对应众数排序位于第三的位置(10个高兴类情感词)，在按照实施方式一的Score2计算公式计算高兴类情感词时对应所有文档的平均得分时，X1应为0，而不是10。

分别计算与每个主题词相关的各类别情感词的出现概率。具体可以从各主题词对应文档集的各文档截取分别包括对应的主题词的第二预设长度文本，统计第二预设长度文本中出现与对应的主题词相关的情感词的第一文档数量，以及出现分别与对应的主题词相关的每个类别情感词的第二文档数量；根据第一文档数量和第二文档数量，计算与每个主题词相关的各类别情感词的出现概率。

例如，从各文档截取分别包括“花圈”的第二预设长度文本，第二预设长度文本的具体长度可以自行设定，例如设定为2000字的文本。统计该2000字的文本中出现情感词的第一文档数量，例如总计2000篇包括“花圈”的文档中，有1000篇文档的第二预设长度文本中出现情感词，以及，该2000篇包括“花圈”的文档中，分别出现各类别情感词的第二文档数量，例如，其中有800篇文档的第二预设长度文本中出现绝望类情感词，500篇文档的第二预设长度文本中出现激动类情感词；根据第一文档数量和第二文档数量，计算各类别情感词的出现概率，即上述绝望类情感词的出现概率为：800/1000＝0.8，激动类情感词的出现概率为：500/1000＝0.5。

根据与每个主题词相关的情感词的类别、各类别情感分数、各类别情感词的出现概率，生成与各待推荐数据的主题词对应的情感信息。

具体地，分别对与每个主题词相关的各类别情感词的出现概率排序，以选出与每个主题词相关的所述出现概率最大的情感词类别；根据选出的与每个主题词相关的情感词类别的标识、该类别情感分数、该类别情感词的出现概率，对应生成与每个主题词对应的情感词类别标识、情感得分、情感概率，从而生成与各待推荐数据的主题词对应的情感信息。

例如，分别对与“花圈”相关的各类别情感词的出现概率排序，以选出其中出现概率最大的情感词类别，例如绝望类情感词的出现概率最大，则将绝望类情感词类别选出，保存该绝望类情感词类别的标识(例如为1002)、绝望类情感分数(例如10分)、绝望类情感词的出现概率(例如0.8)，并根据该绝望类情感词类别的标识、绝望类情感分数、绝望类情感词的出现概率对应生成与“花圈”对应的情感词类别标识、情感得分、情感概率，从而生成与“花圈”对应的情感信息，例如：(1002,10,0.8)，读取保存的花圈的商品标识，商品标识可为SKUID(库存量单位标识)，在商品库中每种商品会对应于一个或多个SKUID。可以通过四维数据来体现某个主题词(例如商品名)和与该主题词对应的情感信息的映射关系，四维数据的形式如：(商品SKUID，情感词类标识，情感得分，情感概率)，例如某花圈的商品SKUID为10002，与“花圈”对应的情感信息为(1002,10,0.8)，则四维数据为(10002,1002,10,0.8)。

通过上述方法，可以得到所有商品库的商品的四维数据，并放到Hbase缓存数据库中，以供显示时查询用。同时也会每天做动态计算更新。Hbase是一个面向列存储的分布式存储系统，它的优点在于可以实现高性能的并发读写操作，同时Hbase还会对数据进行透明的切分，使得存储本身具有了水平伸缩性。例如以SKUID为key(键)，则Hbase的多个列中存储了情感信息(1002,10,0.8)，再次推荐该SKUID时，直接在Hbase中查找SKUID对应的情感信息，就能查到多个列的值，速度非常快。

步骤S102：根据情感信息，滤除主题词具有特定情感的待推荐数据。

步骤S102具体可以包括：将情感词类别标识对应预设的情感词类别，且情感得分大于第一阈值、情感概率大于第二阈值的情感信息对应的主题词识别为具有特定情感的的主题词；将识别出的该具有特定情感的的主题词所在的待推荐数据滤除。

具体的，可以定义后台商品呈现系统，特定情感可以是负面情感，可以根据各种情感词类别标识、情感得分、情感概率来识别出具有特定情感的主题词。例如设置预设的情感词类别为绝望类，第一阈值设为8分，第二阈值设为0.7，将对应情感词类别为绝望类、情感得分大于8分、情感概率大于0.7的情感信息对应的商品主题词(例如商品名称)识别为负面情感的主题词，然后将这些识别出的负面情感的商品主题词所在商品描述词滤除。

例如，某花圈的商品的四维数据为(10002,1002,10,0.8)，则在后台显示给某些用户推荐商品列表时，动态的通过商品SKUID，在Hbase数据库中查询花圈商品的情感矩阵(即由花圈商品的四维数据形成的矩阵)，情感词类别标识指示为绝望类、情感得分、情感概率分别超过了设置的上述阈值，则直接过滤掉该商品的描述词，不予以显示给用户。

步骤S103：将除被滤除的待推荐数据以外剩余的待推荐数据推荐给用户。

例如被滤除的待推荐数据为负面情感的数据，则将除负面情感的数据之外的剩余的待推荐数据推荐给用户。

本发明实施例通过商品SKUID，情感词类标识，情感得分，情感概率的映射关系，使得在推荐商品时可以加入情感的因素，从而实现避免推荐一些带有负面情感的商品，例如，电商网站如果有上千万商品、上亿用户，使用本发明实施例的方案，可以不向用户推荐负面情感因素的商品，例如用户某一次购买了花圈，而不能经常给用户推荐花圈。

图2是根据本发明实施例的数据推荐装置的主要模块示意图。

本发明实施例的数据推荐装置200主要包括：生成模块201、过滤模块202、推荐模块203。

生成模块201用于生成与各待推荐数据的主题词对应的情感信息。

情感信息具体可以包括情感词类别标识、情感得分、情感概率。其中，情感词类别标识可以通过预先标注确定。中文情感词典(即中文情感极性词典)数据是基于文本情感二元划分方法的一个中文词语数据库，它将11086个词语分为2810个积极属性词语和8276个消极属性词语。中文情感词典中的每个情感词对应各自的类别，例如激动、高兴、愉快、平和、轻微伤心、绝望等分为不同的等级(即类别)。可以依次对中文情感词典中的情感词按照情感词类别标注标识，可以为不同类别的情感词标注不同的情感词类别标识，也可以将多个类别的情感词标注为同一情感词类别标识，例如把难过类和绝望类标注为对应情感词类别标识1002。

数据推荐装置200还可以包括提取模块，用于对各待推荐数据分词以得到多个词，并从得到的词中提取名词作为待推荐数据的主题词。

生成模块201具体用于：从预设文档库中分别获取各待推荐数据的主题词对应的文档集，一主题词对应的文档集为包括该主题词的所有文档的集合；从文档集中提取情感词，以得到与各主题词相关的情感词，每一情感词对应一类别；对与每个主题词相关的各类别情感词评分，以得到与每个主题词相关的各类别情感分数；分别计算与每个主题词相关的各类别情感词的出现概率；根据与每个主题词相关的情感词的类别、各类别情感分数、各类别情感词的出现概率，生成与各待推荐数据的主题词对应的情感信息。

生成模块201可包括提取子模块，用于：从文档集的各文档分别截取包括对应的主题词的第一预设长度文本，并提取第一预设长度文本中的情感词，以得到与对应的主题词相关的情感词。

每一类别情感词对应一情感强度分数。

在一个实施方式中，生成模块201可包括第一评分子模块，用于对于每个主题词，分别执行对与该主题词相关的各类别情感词评分的操作，其中：分别计算各类别情感词在该主题词对应文档集的各文档第一预设长度文本中的词频；根据所述词频和各类别情感词对应的情感强度分数，计算与该主题词相关的各类别情感词对应每一文档的得分；根据与该主题词相关的各类别情感词分别对应所有文档的平均得分，得到与该主题词相关的各类别情感分数。

在另一个实施方式中，生成模块201可包括第二评分子模块，用于：对于每个主题词，分别执行对与该主题词相关的各类别情感词评分的操作，其中：分别计算各类别情感词在该主题词对应文档集的各文档第一预设长度文本中的词频；分别对每一文档中各类别情感词的词频计算众数；对每一文档中所述众数排序，根据前N个众数对应的相应类别情感词在第一预设长度文本中的词频，以及相应类别情感词对应的情感强度分数，计算与该主题词相关的各类别情感词对应每一文档的得分，其中N为正整数；根据与该主题词相关的各类别情感词分别对应所有文档的平均得分，得到与该主题词相关的各类别情感分数。

生成模块201还可包括计算子模块，用于：从各主题词对应文档集的各文档截取分别包括对应的主题词的第二预设长度文本，统计第二预设长度文本中出现与对应的主题词相关的情感词的第一文档数量，以及出现分别与对应的主题词相关的每个类别情感词的第二文档数量；根据第一文档数量和第二文档数量，计算与每个主题词相关的各类别情感词的出现概率。

生成模块201还可包括信息生成子模块，用于：分别对与每个主题词相关的各类别情感词的出现概率排序，以选出与每个主题词相关的所述出现概率最大的情感词类别；根据选出的与每个主题词相关的情感词类别的标识、该类别情感分数、该类别情感词的出现概率，对应生成与每个主题词对应的情感词类别标识、情感得分、情感概率，从而生成与各待推荐数据的主题词对应的情感信息。

过滤模块202用于根据情感信息，滤除主题词具有特定情感的待推荐数据。

过滤模块202具体用于：将情感词类别标识对应预设的情感词类别，且情感得分大于第一阈值、情感概率大于第二阈值的情感信息对应的主题词识别为具有特定情感的的主题词；将具有特定情感的的主题词所在的待推荐数据滤除。

推荐模块203用于将除被滤除的待推荐数据以外剩余的待推荐数据推荐给用户。

另外，在本发明实施例中数据推荐装置的具体实施内容，在上面所述数据推荐方法中已经详细说明了，故在此重复内容不再说明。

图3示出了可以应用本发明实施例的数据推荐方法或数据推荐装置的示例性系统架构300。

如图3所示，系统架构300可以包括终端设备301、302、303，网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备301、302、303通过网络304与服务器305交互，以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器305可以是提供各种服务的服务器，例如对用户利用终端设备301、302、303所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的数据推荐方法一般由服务器305执行，相应地，数据推荐装置一般设置于服务器305中。

应该理解，图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图4，其示出了适于用来实现本申请实施例的服务器的计算机系统400的结构示意图。图4示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机系统400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本发明公开的实施例，上文参考主要步骤示意图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行主要步骤示意图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的主要步骤示意图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，主要步骤示意图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或主要步骤示意图中的每个方框、以及框图或主要步骤示意图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括生成模块201、过滤模块202、推荐模块203。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，生成模块201还可以被描述为“用于生成与各待推荐数据的主题词对应的情感信息的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：生成与各待推荐数据的主题词对应的情感信息；根据所述情感信息，滤除所述主题词具有特定情感的待推荐数据；将除被滤除的待推荐数据以外剩余的待推荐数据推荐给用户。

根据本发明实施例的技术方案，生成与各待推荐数据的主题词对应的情感信息；根据情感信息，滤除主题词具有特定情感的待推荐数据；将除被滤除的待推荐数据以外剩余的待推荐数据推荐给用户。能够避免推荐一些带有特定情感(例如负面情感)的数据。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据推荐方法，其特征在于，包括：

生成与各待推荐数据的主题词对应的预设属性信息；

根据所述预设属性信息，滤除所述主题词具有特定属性的待推荐数据；

将除被滤除的待推荐数据以外剩余的待推荐数据推荐给用户。

2.根据权利要求1所述的方法，其特征在于，生成与各待推荐数据的主题词对应的预设属性信息的步骤，包括：

从预设文档库中分别获取各待推荐数据的主题词对应的文档集，一主题词对应的文档集为包括该主题词的所有文档的集合；

从所述文档集中提取预设属性词汇，以得到与各主题词相关的预设属性词汇，每一预设属性词汇对应一类别；

对与每个主题词相关的各类别预设属性词汇评分，以得到与每个主题词相关的各类别预设属性分数；

分别计算与每个主题词相关的各类别预设属性词汇的出现概率；

根据与每个主题词相关的预设属性词汇的类别、所述各类别预设属性分数、所述各类别预设属性词汇的出现概率，生成与各待推荐数据的主题词对应的预设属性信息。

3.根据权利要求2所述的方法，其特征在于，从所述文档集中提取预设属性词汇的步骤，包括：

从所述文档集的各文档分别截取包括对应的主题词的第一预设长度文本，并提取所述第一预设长度文本中的预设属性词汇，以得到与所述对应的主题词相关的预设属性词汇。

4.根据权利要求3所述的方法，其特征在于，每一类别预设属性词汇对应一预设属性强度分数，

对与每个主题词相关的各类别预设属性词汇评分的步骤，包括：

对于每个主题词，分别执行对与该主题词相关的各类别预设属性词汇评分的操作，其中：

分别计算所述各类别预设属性词汇在该主题词对应文档集的各文档所述第一预设长度文本中的词频；

根据所述词频和所述各类别预设属性词汇对应的所述预设属性强度分数，计算与该主题词相关的各类别预设属性词汇对应每一文档的得分；

根据与该主题词相关的各类别预设属性词汇分别对应所有文档的平均得分，得到与该主题词相关的各类别预设属性分数。

5.根据权利要求3所述的方法，其特征在于，每一类别预设属性词汇对应一预设属性强度分数，

分别对每一文档中所述各类别预设属性词汇的所述词频计算众数；

对每一文档中所述众数排序，根据前N个众数对应的相应类别预设属性词汇在所述第一预设长度文本中的词频，以及所述相应类别预设属性词汇对应的所述预设属性强度分数，计算与该主题词相关的各类别预设属性词汇对应每一文档的得分，其中N为正整数；

6.根据权利要求2所述的方法，其特征在于，分别计算与每个主题词相关的各类别预设属性词汇的出现概率的步骤，包括：

从各主题词对应文档集的各文档截取分别包括对应的主题词的第二预设长度文本，统计所述第二预设长度文本中出现与所述对应的主题词相关的预设属性词汇的第一文档数量，以及出现分别与所述对应的主题词相关的每个类别预设属性词汇的第二文档数量；

根据所述第一文档数量和所述第二文档数量，计算与每个主题词相关的各类别预设属性词汇的出现概率。

7.根据权利要求2所述的方法，其特征在于，所述预设属性信息包括预设属性词汇类别标识、预设属性得分、预设属性概率，

根据与每个主题词相关的预设属性词汇的类别、所述各类别预设属性分数、所述各类别预设属性词汇的出现概率，生成与各待推荐数据的主题词对应的预设属性信息的步骤，包括：

分别对与每个主题词相关的各类别预设属性词汇的出现概率排序，以选出与每个主题词相关的所述出现概率最大的预设属性词汇类别；

根据选出的与每个主题词相关的预设属性词汇类别的标识、该类别预设属性分数、该类别预设属性词汇的出现概率，对应生成与每个主题词对应的预设属性词汇类别标识、预设属性得分、预设属性概率，从而生成与各待推荐数据的主题词对应的预设属性信息。

8.根据权利要求7所述的方法，其特征在于，根据所述预设属性信息，滤除所述主题词具有特定属性的待推荐数据的步骤，包括：

将所述预设属性词汇类别标识对应预设的预设属性词汇类别，且所述预设属性得分大于第一阈值、所述预设属性概率大于第二阈值的预设属性信息对应的主题词识别为具有特定属性的的主题词；

将所述具有特定属性的的主题词所在的待推荐数据滤除。

9.根据权利要求1所述的方法，其特征在于，生成与各待推荐数据的主题词对应的预设属性信息的步骤之前，包括：

对各待推荐数据分词以得到多个词，并从所述词中提取名词作为所述待推荐数据的主题词。

10.一种数据推荐装置，其特征在于，包括：

生成模块，用于生成与各待推荐数据的主题词对应的预设属性信息；

过滤模块，用于根据所述预设属性信息，滤除所述主题词具有特定属性的待推荐数据；

推荐模块，用于将除被滤除的待推荐数据以外剩余的待推荐数据推荐给用户。

11.根据权利要求10所述的装置，其特征在于，所述生成模块还用于：

12.根据权利要求11所述的装置，其特征在于，所述生成模块包括提取子模块，用于：

13.根据权利要求12所述的装置，其特征在于，每一类别预设属性词汇对应一预设属性强度分数，

所述生成模块包括第一评分子模块，用于：

14.根据权利要求12所述的装置，其特征在于，每一类别预设属性词汇对应一预设属性强度分数，

所述生成模块包括第二评分子模块，用于：

15.根据权利要求11所述的装置，其特征在于，所述生成模块包括计算子模块，用于：

16.根据权利要求11所述的装置，其特征在于，所述预设属性信息包括预设属性词汇类别标识、预设属性得分、预设属性概率，

所述生成模块包括信息生成子模块，用于：

17.根据权利要求16所述的装置，其特征在于，所述过滤模块还用于：

将所述具有特定属性的的主题词所在的待推荐数据滤除。

18.根据权利要求10所述的装置，其特征在于，还包括提取模块：

19.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

20.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。