CN112989208B

CN112989208B - 一种信息推荐方法、装置、电子设备及存储介质

Info

Publication number: CN112989208B
Application number: CN202110479314.4A
Authority: CN
Inventors: 陈程; 王贺; 石奕
Original assignee: Wuhan Zhuoer Digital Media Technology Co ltd
Current assignee: Wuhan Zhuoer Digital Media Technology Co ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-06
Anticipated expiration: 2041-04-30
Also published as: CN112989208A

Abstract

本申请公开了一种信息推荐方法、装置、电子设备及存储介质，其中，所述方法包括：确定多个用户中的每个用户对至少一个待推荐信息的兴趣度信息；基于所述兴趣度信息将所述多个用户划分为至少一个用户群；基于目标用户所属的用户群、所述目标用户的历史评价信息以及所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第二评分，确定所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分；其中，所述目标用户为所述多个用户中的一个用户；基于所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分确定目标待推荐信息。

Description

一种信息推荐方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种信息推荐方法、装置、电子设备及存储介质。

背景技术

随着互联网的发展，各类网站和应用等信息平台的便捷性使得用户能够随时随地发布以及和获取信息，这也导致了网站和应用等信息平台呈现出信息过载的状态。海量的信息对各类信息平台来说确实是一笔宝贵的财富，但同时信息过载也增加了信息平台对用户进行个性化信息推荐的难度，用户在使用信息平台的时候被形形色色的消息淹没，很可能就错过了真正感兴趣的信息；因此，如何针对信息平台的每个用户去个性化的推荐符合用户兴趣的信息，如何让用户真正感受到信息平台的人性化以及实用性是值得研究的问题。

发明内容

为解决上述技术问题，本申请实施例提供了一种信息推荐方法、装置、电子设备及存储介质。

本申请实施例提供了一种信息推荐方法，所述方法包括：

确定多个用户中的每个用户对至少一个待推荐信息的兴趣度信息；

基于所述兴趣度信息将所述多个用户划分为至少一个用户群；

基于目标用户所属的用户群、所述目标用户的历史评价信息以及所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第二评分，确定所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分；其中，所述目标用户为所述多个用户中的一个用户；

基于所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分确定目标待推荐信息。

本申请一可选实施方式中，所述确定多个用户中的每个用户对至少一个待推荐信息的兴趣度信息，包括：

基于文本数据得到所述至少一个待推荐信息的命名实体以及所述命名实体的关系；基于所述至少一个待推荐信息的命名实体以及所述命名实体的关系构建所述至少一个待推荐信息的知识图谱；

基于多个用户的历史数据以及所述知识图谱得到所述多个用户的兴趣度矩阵；所述兴趣度矩阵中的元素Sij代表用户i对待推荐信息j的兴趣值。

本申请一可选实施方式中，所述基于文本数据得到所述至少一个待推荐信息的命名实体以及所述命名实体的关系，包括：

对文本数据进行预处理，得到文本数据中的目标文本；

对所述目标文本进行分词处理，得到所述目标文本中包含的命名实体；

利用关系抽取算法抽取所述目标文本包含的命名实体的关系；

选取所述至少一个待推荐信息，从所述目标文本包含的命名实体以及所述目标文本包含的命名实体的关系中提取所述至少一个待推荐信息的命名实体和所述至少一个待推荐信息的命名实体的关系。

本申请一可选实施方式中，所述基于多个用户的历史数据以及所述知识图谱得到所述多个用户的兴趣度矩阵，包括：

基于多个用户的历史数据确定所述多个用户中每个用户的关键词权值，根据所述关键词权值确定出所述多个用户中每个用户的特征词集合；

将所述多个用户中的每个用户的特征词集合与所述至少一个待推荐信息中的各个待推荐信息的知识图谱进行匹配，基于匹配结果得到所述多个用户的兴趣度矩阵。

本申请一可选实施方式中，所述将所述多个用户中的每个用户的特征词集合与所述至少一个待推荐信息中的各个待推荐信息的知识图谱进行匹配，基于匹配结果得到所述多个用户的兴趣度矩阵，包括：

针对所述多个用户中的每个用户以及所述至少一个待推荐信息中的每个待推荐信息，若该用户的特征词集合中的特征词与该待推荐信息的知识图谱中的实体的相似度大于设定阈值，则将所述兴趣度矩阵中的对应数值设置为第一设定值，否则，则将所述兴趣度矩阵中的对应数值设定为第二设定值。

本申请一可选实施方式中，所述基于所述兴趣度信息将所述多个用户划分为至少一个用户，包括：

基于所述兴趣度矩阵对所述多个用户的兴趣进行聚类，基于聚类结果将所述多个用户划分为至少一个用户群；所述至少一个用户群中的每个用户群中的各个用户的兴趣度满足特定条件。

本申请一可选实施方式中，所述基于所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分确定目标待推荐信息之前，所述方法还包括：

确定目标用户对所述至少一个待推荐信息中的各个待推荐信息的第三评分；其中，针对至少一个待推荐信息中的每个待推荐信息，该待推荐信息对应的第三评分是根据目标用户对该待推荐信息的以下至少一种信息得到的：点击次数、浏览时间、评论次数。

所述基于所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分确定目标待推荐信息，包括：

针对所述至少一个待推荐信息中的每个待推荐信息，基于该推荐信息的第一评分和第三评分得到该推荐信息的第四评分；

基于各个待推荐信息的第四评分确定出目标待推荐信息。

本申请实施例还提供了一种信息推荐装置，所述装置包括：

第一确定单元，用于确定多个用户中的每个用户对至少一个待推荐信息的兴趣度信息；

划分单元，用于基于所述兴趣度信息将所述多个用户划分为至少一个用户群；

第二确定单元，用于基于目标用户所属的用户群、所述目标用户的历史评价信息以及所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第二评分，确定所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分；其中，所述目标用户为所述多个用户中的一个用户；

第三确定单元，用于基于所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分确定目标待推荐信息。

本申请一可选实施方式中，所述第一确定单元，具体用于：

对文本数据进行预处理，得到文本数据中的目标文本；

本申请一可选实施方式中，所述第一确定单元，具体用于：

本申请一可选实施方式中，所述划分单元，具体用于：

本申请一可选实施方式中，所述基于所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分确定目标待推荐信息之前，所述装置还包括：

第四确定单元，用于确定目标用户对所述至少一个待推荐信息中的各个待推荐信息的第三评分；其中，针对至少一个待推荐信息中的每个待推荐信息，该待推荐信息对应的第三评分是根据目标用户对该待推荐信息的以下至少一种信息得到的：点击次数、浏览时间、评论次数；

所述第三确定单元，具体用于：

基于各个待推荐信息的第四评分确定出目标待推荐信息。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，该存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，执行上述实施例所述的方法。

本申请实施例还提供了一种计算机可读存储介质，用于存储计算机程序，所述计算机程序使得计算机执行上述实施例所述的方法。

本申请实施例的技术方案，通过确定多个用户中的每个用户对至少一个待推荐信息的兴趣度信息；基于所述兴趣度信息将所述多个用户划分为至少一个用户群；基于目标用户所属的用户群、所述目标用户的历史评价信息以及所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第二评分，确定所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分；其中，所述目标用户为所述多个用户中的一个用户；基于所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分确定目标待推荐信息。如此，能够根据用户的兴趣更高效的帮用户找到其感兴趣的信息并进行感兴趣信息的推荐，降低了用户在信息平台获取信息的时间成本，让用户体验到信息平台的人性化，提高了信息平台对用户的吸引力。

附图说明

图1为本申请实施例提供的信息推荐方法的流程示意图；

图2为本申请实施例提供的信息推荐步骤示意图；

图3为本申请实施例提供的信息推荐装置的结构组成示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

目前，随着互联网技术的发展，用户能够在各种信息平台上进行信息的发布和浏览，为了提高用户对信息平台的兴趣和粘性，各种信息平台的开发人员研究了各种方法来对用户进行信息的推荐，以使得用户能够在使用信息平台时及时的接收到信息平台推荐的用户感兴趣的信息。

在一种方案中，针对微博这一信息平台，通过获取终端的第一状态感知数据；将该第一状态感知数据按照数据类别模型进行分类，并获得分类结果；根据预设的计算规则对分类结果进行计算，确定第一兴趣状态数据；根据微博推荐模型，确定该第一兴趣状态数据对应的微博产品，并向用户推荐微博产品。该方案通过针对每个用户建立数据类别模型和预设的微博推荐模型，实现向每个用户推送比较能满足用户需求的微博产品，使用户获得更好的体验。上述方案对于微博话题的推荐方法存在时间成本较大，微博话题推送不够高效等问题。

为了更高效和精准的在用户浏览信息平台时为用户推荐其感兴趣的信息，本申请实施例提供了一种信息推荐方法，可以理解的是，本申请实施例所推荐的信息可以是各种应用平台上的信息，信息的形式不限于文字、音频、视频等多种形式，本申请实施例的技术方案可以应用于各种信息平台上进行信息的推荐。

图1为本申请实施例提供的信息推荐方法的流程示意图，如图1所示，本申请实施提供的信息推荐方法包括以下步骤：

步骤101：确定多个用户中的每个用户对至少一个待推荐信息的兴趣度信息。

本申请实施例中，兴趣度兴趣能够反映多个用户中的每个用户对选取的至少一个待推荐信息中的各个待推荐信息感兴趣的程度。

本申请一可选实施方式中，步骤101可通过以下方式实现：

基于多个用户的历史数据以及所述知识图谱得到所述多个用户的兴趣度矩阵。

本申请实施例中，所述兴趣度矩阵中的元素Sij代表用户i对待推荐信息j的兴趣值。

文本数据可以为信息平台上的其他用户在信息平台上发布的信息，该文本数据可以是在一个信息平台上获取的，也可以是从多个信息平台上获取的。

作为一种具体的实现方式，对于基于基于文本数据得到所述至少一个待推荐信息的命名实体以及所述命名实体的关系这一步骤的具体实现方式可以为：

对文本数据进行预处理，得到文本数据中的目标文本；

具体的，在一种实施方式中，对文本数据进行预处理的具体方式为：去除指定无用的符号（文本可能存在很多空格，或者不想要的符号），使得让文本只保留汉字（去掉所有的符号，包括数字、标点、字母等），这里，只保留汉字的文本即为本申请实施例所述的目标文本。

在对目标文本进行分词处理时，若目标文本为汉字，具体可以选用汉语词法分析系统（ICTCLAS，Institute of Computing Technology, Chinese Lexical AnalysisSystem)对目标文本进行分词处理。ICTCLAS是一款处理中文文本的程序包，它可以完成文本分词、计算关键词、发现新词等文本处理任务。可以理解的是，本申请实施例还可以使用其它的分词工具来对目标文本进行分词处理。另外，本申请实施例中的目标文本还可以是英文或其它语言形式的文本，在目标文本为应为的情况下，可以选用专用的英文分词系统进行分词。

这里，在对目标文本进行分词处理的过程中需要同时对文本中的停用词进行过滤，例如，可以通过构建停用词表，将对目标文本进行分词后得到的文本中的词与停用词表进行比对，若目标文本进行分词后得到的分词结果中的某个词存在停用词，则将该词从分词得到的文本中删除；相反，若分词结果中的某个词没有匹配停用词表中的任意一个词，则该词保留，使用词语匹配的方式能够过滤目标文本中的停用词。

本申请实施例中，停用词表中包括的停用词类型包括但不限于以下类型：！、”、#、% 、&、 *、（、）、，、- 、-- 、/、 // 、@。

本申请实施例中，经过ICTCLAS分词系统的处理，可以得到目标文本中包含的以下三种类型的内容：命名实体、包含命名实体的字符串、无用字符串序列。例如：对于文本内容为“小明吃完饭###学习”的文本，其中的命名实体是小明，包含命名实体的字符串是小明吃完饭###学习，无用字符串是###。

本申请实施例中，在得到目标文本中的命名实体后，可以采用以下列举的几种关系抽取算法抽取文本数据中的命名实体的关系：基于规则的关系提取、弱监督关系提取、监督关系提取、模糊监督关系提取、无监督的关系提取。以下对以上几种关系抽取算法进行具体介绍。

1、基于规则的关系提取：

多个命名实体的关系可以通过手工模式的方式来提取，寻找三元组(X,α,Y)，X是实体，α是实体之间的单词。比如，“He is Chinese”的例子中，α=“is”，可以用正则表达式来提取。

该关系抽取方法的优点是人类可以创造出具有高准确率的模式可以为特定的领域定制；缺点是：人类模式的召回率仍然很低(语言种类太多)需要大量的人工工作来创建所有可能的规则必须为每个关系类型创建规则。

2、弱监督关系提取：

该关系抽取方法的思想是从一组手工编写的规则开始，通过迭代的方式从未标记的文本数据中自动找到新的规则。或者，可以从一个种子元组开始，用特定的关系描述实体。例如，seed={(ORG:IBM, LOC:Armonk)， (ORG:Microsoft, LOC:Redmond)}表示具有“based in”关系的实体。

3、有监督的关系提取：

进行监督关系提取的一种常见方法是训练一个层叠的二分类器(或常规的二分类器)来确定两个实体之间是否存在特定的关系。这些分类器将文本的相关特征作为输入，从而要求文本首先由其他NLP模型进行标注。典型的特征有：上下文单词、词性标注、实体间的依赖路径、NER标注、tokens、单词间的接近距离等。具体可以通过下面的方式训练和提取：

1）根据句子是否与特定关系类型相关或不相关来手动标注文本数据。例如“CEO”关系：“Apple CEO Steve Jobs said to Bill Gates.” 是相关的，“Bob, PieEnthusiast, said to Bill Gates.”是不相关的。

2）如果相关句子表达了这种关系，就对正样本/负样本进行手工的标注。“AppleCEO Steve Jobs said to Bill Gates.”，(Steve Jobs, CEO, Apple) 是正样本，(BillGates, CEO, Apple)是负样本。

3）学习一个二分类器来确定句子是否与关系类型相关。

4）在相关的句子上学习一个二分类器，判断句子是否表达了关系。

5）使用分类器检测新文本数据中的关系。

4、模糊监督的关系抽取方法：

模糊监督的关系抽取方法可具体包括如下步骤：

1）对于知识库中感兴趣的每个关系类型进行循环。

2）对于知识库中该关系的每个元组进行循环。

3）从未标记文本数据中选择可以匹配到这些元组的句子(元组的两个单词在句子中是共现的)，并假设这些句子是这种关系类型的正样本。

4）从这些句子中提取特征(如词性、上下文词等)。

5）训练一个有监督的分类器。

5、无监督的关系提取：

TextRunner是属于无监督关系提取方案的一种算法。其算法可以描述为：

1）在一个小语料库上训练一个自监督分类器。

对于每一个解析过的句子，找出所有名词短语(X, Y)，它们之间由一系列单词r连接起来。如果它们满足所有的约束条件，就将它们标注为正样本，否则就将它们标注为负样本。

将每个三元组(X、r、Y)映射到一个特征向量表示上(例如，对POS标注进行聚合、r中的停止词数量、NER标注等)。

训练二分类器来识别可靠的候选。

2）遍历整个语料库并提取可能的关系。

从语料库获取潜在的关系。

根据分类器的到的候选的置信度，保留/丢弃候选。

3）基于文本冗余度的关系排序评估。

规范化(忽略不必要的修饰词)和合并相同的关系。

计算关系中出现的不同句子的数量，并为每个关系分配概率。

OpenIE 5.0和Stanford OpenIE是这样做的两个开源系统。它们比TextRunner更现代(这里只是用它来演示范例)。可以从这样的系统输出许多不同的关系类型(在未指定用户感兴趣的关系类型的情况下)。

本申请实施例中，在得到目标文本包含的命名实体以及命名实体的关系后，可以选定至少一个待推荐信息，该至少一个待推荐信息中的每个待推荐信息可以是随机选取的或者根据信息平台的话题热点选取的。在选取出至少一个待推荐信息后，通过提取所述至少一个待推荐信息的命名实体，并将识别出的命名实体看成节点、抽取出的关系视为连接节点的边，进行知识图谱的构建，还可以通过可视化工具（如E-charts）绘制待推荐信息的知识图谱并进行知识图谱的可视化展示。

本申请一可选实施方式中，对于基于多个用户的历史数据以及所述知识图谱得到所述多个用户的兴趣度矩阵这一步骤的具体实现方式为：

这里，用户的历史数据可以为用户在当前应用的信息平台的历史数据（如历史发布数据、历史评论数据、历史点赞数据等），通过对用户的历史数据进行预处理以及分词处理后，可以利用词频-逆向文件频率算法（TF-IDF，Term Frequency–Inverse DocumentFrequency）进行用户历史数据的关键词权值的计算，并通过设置关键词权值阈值筛选出用户历史数据的特征词汇。这里，TF-IDF是一种用于信息检索与文本挖掘的加权技术。

本申请一可选实施方式中，针对所述多个用户中的每个用户以及所述至少一个待推荐信息中的每个待推荐信息，若该用户的特征词集合中的特征词与该待推荐信息的知识图谱中的实体的相似度大于设定阈值，则将所述兴趣度矩阵中的对应数值设置为第一设定值，否则，则将所述兴趣度矩阵中的对应数值设定为第二设定值。

这里，对于单个用户，该单个用户的兴趣度矩阵即为该用户的兴趣度向量。将当个用户的兴趣度向量定义为：

（1）

对于上述公式（1），s_m代表用户对待推荐信息m的兴趣度，若用户对话题m感兴趣，s_m取的值为1，如果该用户对话题m不感兴趣，s_m的取值为0，m表示至少一个待推荐信息中的话题m。

对于多个用户，多个用户的兴趣度矩阵定义如下：

（2）

上述公式（2）中，s_mn表示用户m对话题n的兴趣评分值，感兴趣用1表示，不感兴趣用0表示。这里，用户兴趣度矩阵中的数值1对应于本申请实施例中的第一设定值，数值0对应于本申请实施例中的第二设定值。可以理解的是，本申请实施例中的第一设定值和第二设定值并不仅限于数值1和数值0这两种表示方式。

本申请实施例中，针对所述多个用户中的每个用户以及所述至少一个待推荐信息中的每个待推荐信息，匹配的具体原则为，当用户词语特征词集合里的特征词和待推荐信息的知识图谱里的实体相同时，用户对待推荐信息的匹配度增加1。当用户对待推荐信息的匹配度高于阈值β（具体取值可根据需求设定，如0.65）时，就认为用户对该待推荐信息感兴趣。依次将该用户的特征词集合与每一个待推荐信息进行匹配，确定用户对每一个待推荐信息是否感兴趣，即可确定单个用户的用户兴趣度向量，再依次将其他用户的用户兴趣度向量确定后，就组成了多个用户的兴趣度矩阵。

步骤102：基于所述兴趣度信息将所述多个用户划分为至少一个用户群。

本申请一可选实施方式中，对于基于所述兴趣度信息将所述多个用户划分为至少一个用户这一步骤具体可通过以下方式实现：

具体的，根据兴趣度矩阵对用户按照兴趣度进行聚类的步骤如下：

步骤一：首先选取一个较低的距离Eps值，通过聚类算法（如具有噪声的基于密度的聚类方法（DBSCAN，Density-Based Spatial Clustering of Applications withNoise）聚类得到n个簇

和m个噪声点

，此时每一个簇中的点相关性很高。

步骤二：计算每个簇的中心点

，可以使用簇中所有点的平均值作为中心点，也可以直接使用步骤一中DBSCAN算法迭代完成后的每一个簇的最后一个数据点作为中心点。

步骤三：计算每一个噪声点和所有簇的中心点的距离

，选取其中最小的距离

，如果最小距离在一定的预设阈值

之内即

，则将该噪声点归为最小距离的簇，反之则丢弃。直到没有新对象加入簇C，处理完所有样本结束，最后将兴趣度相似的用户划分到相同的用户群。

本申请实施例中，通过将多个用户的兴趣度矩阵输入至DBSCAN算法模型中，即可将兴趣度相似的用户划分到同一用户群中。

步骤103：基于目标用户所属的用户群、所述目标用户的历史评价信息以及所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第二评分，确定所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分。

这里，所述目标用户为所述多个用户中的一个用户m。可以利用如下公式计算出目标用户m对某一待推荐信息的评分：

（3）

上述公式（3）中，P_m,n代表用户m对待推荐信息n的预测评分，该预测评分即为第一评分；

为小于1的常量；to(u,v)代表兴趣同一相似用户群中用户u和用户v的相似度；

代表用户m对其所有评价过的信息的平均评分；t_m,n是指用户m对话题n的评分。这里，P_m,n可具体为概率值，即P_m,n表示用户m对话题感兴趣的概率。

步骤104：基于所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分确定目标待推荐信息。

本申请一可选实施方式中，在执行上述步骤104之前，还可以先执行如下步骤：

确定目标用户对所述至少一个待推荐信息中的各个待推荐信息的第三评分；其中，针对至少一个待推荐信息中的每个待推荐信息，该待推荐信息对应的第三评分是根据目标用户对该待推荐信息的以下至少一种信息得到的：点击次数、浏览时间、评论次数；

相应的，对于所述基于所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分确定目标待推荐信息这一步骤可以具体为：

针对所述至少一个待推荐信息中的每个待推荐信息，基于该推荐信息的第一评分和第三评分得到该推荐信息的第四评分；基于各个待推荐信息的第四评分确定出目标待推荐信息。

具体的，本申请实施例中，除了利用第一评分直接确定出目标待推荐信息外，还可以结合待推荐信息的热度来确定出目标待推荐信息。

对于知识一个待推荐信息中的某一待推荐信息，该待推荐信息的热度对应的第三评分可利用以下公式确定：

（4）

上述公式（4）中，A_i代表用户点击待推荐信息的次数；B_i代表用户浏览待推荐信息的时间；C_i代表用户评论待推荐信息的次数；

均为小于1的常量。

结合第三评分和第一评分，利用公式（5），即可得到用户对待推荐信息的第四评分。

（5）

公式（5）中，

为小于1的常量。

本申请实施的技术方案，通过基于知识图谱的信息推荐方法帮助用户在每天产生众多信息的信息平台上最快的寻找到自己感兴趣的信息。推荐信息的知识图谱的建立，将推荐信息文本构建成相互联系的命名实体的网络，有利于获取用户的兴趣度矩阵，从而将用户进行聚类分析，为进行更好的信息推荐奠定了基础。经过推荐算法的信息推荐，能够更加及时高效的帮助用户找到自己感兴趣的话题，降低了用户获取信息的时间成本。

图2为本申请实施例提供的信息推荐推荐步骤示意图，该推荐步骤应用于微博平台，为微博用户进行信息推荐。

步骤201：对微博文本进行数据预处理。

使用基于Scrapy框架的爬虫所需分析微博用户所需的数据。因为网页内容主要由HTML语言编写而成，所以对于网页信息的处理工作主要是对HTML语言的解析。由于HTML语言由标签组成，通过重点对不同标签以及标签内容的提取，即可提取相关文本内容。对于微博文本而言，需要从抓取的元数据中提炼出相关的信息，如用户ID、微博内容、点赞数目、转发数目、评论数目等信息。而提炼的过程则使用正则匹配的方式来对网页信息进行提取。正则表达式主要用于文本进行搜索和编辑，通过使用模式匹配从字符串中提取子字符串。通过正则表达式去除1、@XXX类型（转发微博、提醒其他用户也会出现，属于噪音数据）；2、URL类型（URL不会包含任何有用的信息，只是链接到其他网站的一个入口，属于噪音数据）；3、表情符（新浪微博中的表情符通常是“[XX]”类型，属于噪音数据）等类型的数据。

步骤202：使用ICTCLAS开源工具进行分词处理。

ICTCLAS分词流程如下：

1、按照核心词典进行第一次切词；

2、在第一次切词的基础上，求解最大联合概率，称之为“二元切分词图”；

利用隐马尔可夫模型（HMM，Hidden Markov Model）识别未登录词，诸如：人名、翻译人名、地名、机构名等。

3、分词结果整理，词性标注。

ICTCLAS的词典包括六种：核心词典，二元词典，人名词典，翻译人名词典，地名词典，词性标注。其中，核心词典用于初始切词，二元词典记录了两个词联合出现的频数。

步骤203：基于Boostrapping微博关系抽取算法抽取命名实体关系。

实体是存在于现实世界中而且可以与其他物体区分开来的物体，是知识谱图中的概念或属性的语言学上的表示形式。实体抽取的目的是将需要的表示的概念，实体抽取出来，形成一个集合。对于微博话题文本通过概念抽取，将微博话题中重要的人名，事件，概念抽取出来，提取出微博话题的实体。

步骤204：待推荐话题的知识图谱的构建和可视化。

选取微博话题，提取出话题的命名实体，将识别出的命名实体看成节点，抽取出的关系视为连接节点的边，进行微博话题知识图谱的构建；通过E-charts绘制知识图谱进行可视化的展示。

步骤205：构建微博词语特征词集合。

将单个用户的微博历史数据文本预处理，然后进行ICTCLAS分词，通过TF-IDF进行关键词权值计算，并设置阈值筛选出特征词汇。

步骤206：构建多个用户的兴趣度矩阵。

通过微博话题知识图谱和用户微博词语特征词集合来确定用户兴趣度向量，将每一个用户的用户微博词语特征词集合和每个话题的微博话题知识图谱进行匹配，根据匹配的结果确定该用户对该话题的兴趣。匹配的原则是当用户词语特征词集合里的特征词和话题知识图谱里的实体相同时，匹配度增加1。当匹配度高于设定阈值β（取值可根据需求具体设定，如取值为0.65）时，就认为用户对该话题感兴趣。依次将该用户的微博词语特征词集合与每一个话题进行匹配，确定用户对每一个话题的是否感兴趣，从而确定单个用户的用户兴趣度向量，再依次将其他用户的用户兴趣度向量确定后，就组成了用户兴趣度矩阵。

步骤207：根据兴趣度矩阵对多个用户按照兴趣度进行聚类。

通过将用户兴趣度矩阵输入至DBSCAN算法模型中，得到兴趣相似用户群。

步骤208：进行微博话题推荐。

微博话题的推荐方式参考本申请实施例中列举的公式（4）或公式（5）确定用户对待推荐微博话题的评分，并根据评分的排序选取评分值最高的话题，将该评分值最高的话题推荐给微博用户。

图3为本申请实施例提供的信息推荐装置的结构组成示意图，如图3所示，本申请实施例提供的信息推荐装置包括：

第一确定单元301，用于确定多个用户中的每个用户对至少一个待推荐信息的兴趣度信息；

划分单元302，用于基于所述兴趣度信息将所述多个用户划分为至少一个用户群；

第二确定单元303，用于基于目标用户所属的用户群、所述目标用户的历史评价信息以及所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第二评分，确定所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分；其中，所述目标用户为所述多个用户中的一个用户；

第三确定单元304，用于基于所述目标用户对所述至少一个待推荐信息中的各个待推荐信息的第一评分确定目标待推荐信息。

本申请一可选实施方式中，所述第一确定单元301，具体用于：

对文本数据进行预处理，得到文本数据中的目标文本；

本申请一可选实施方式中，所述划分单元302，具体用于：

第四确定单元305，用于确定目标用户对所述至少一个待推荐信息中的各个待推荐信息的第三评分；其中，针对至少一个待推荐信息中的每个待推荐信息，该待推荐信息对应的第三评分是根据目标用户对该待推荐信息的以下至少一种信息得到的：点击次数、浏览时间、评论次数；

所述第三确定单元304，具体用于：

基于各个待推荐信息的第四评分确定出目标待推荐信息。

本领域技术人员应当理解，图3所示的信息推荐装置中的各单元的实现功能可参照前述信息推荐方法的相关描述而理解。图3所示的信息推荐装置中的各单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，该存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，执行上述实施例所述的信息推荐方法。

本申请实施例还提供了一种计算机可读存储介质，用于存储计算机程序，所述计算机程序使得计算机执行上述实施例所述的信息推荐方法。

本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种信息推荐方法，其特征在于，所述方法包括：

基于各个待推荐信息的第四评分确定出目标待推荐信息。

2.根据权利要求1所述的方法，其特征在于，所述确定多个用户中的每个用户对至少一个待推荐信息的兴趣度信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于文本数据得到所述至少一个待推荐信息的命名实体以及所述命名实体的关系，包括：

对文本数据进行预处理，得到文本数据中的目标文本；

4.根据权利要求2所述的方法，其特征在于，所述基于多个用户的历史数据以及所述知识图谱得到所述多个用户的兴趣度矩阵，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述多个用户中的每个用户的特征词集合与所述至少一个待推荐信息中的各个待推荐信息的知识图谱进行匹配，基于匹配结果得到所述多个用户的兴趣度矩阵，包括：

6.根据权利要求2至5中任一项所述的方法，其特征在于，所述基于所述兴趣度信息将所述多个用户划分为至少一个用户，包括：

7.一种信息推荐装置，其特征在于，所述装置包括：

第三确定单元，用于：针对所述至少一个待推荐信息中的每个待推荐信息，基于该推荐信息的第一评分和第三评分得到该推荐信息的第四评分；基于各个待推荐信息的第四评分确定出目标待推荐信息。

8.一种电子设备，其特征在于，包括：处理器和存储器，该存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，执行如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至6中任一项所述的方法。