CN109376309B

CN109376309B - 基于语义标签的文档推荐方法和装置

Info

Publication number: CN109376309B
Application number: CN201811621674.8A
Authority: CN
Inventors: 牛国成; 何伯磊; 刘呈祥; 肖欣延; 吕雅娟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2022-05-17
Anticipated expiration: 2038-12-28
Also published as: CN109376309A; US20200210468A1; US11216504B2

Abstract

本申请提出一种基于语义标签的文档推荐方法和装置，其中，方法包括：通过获取每一个文档对应的第一候选标签集合，对每一个文档对应的第一候选标签集合中的每个第一候选标签进行处理得到每一个文档对应的第二候选标签集合，接着对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合，并对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合，形成具有语义标签的文档库，根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。由此，本实施例中的语义标签都是无重复无歧义的，从而使文档推荐更加精准，提高用户使用体验。

Description

基于语义标签的文档推荐方法和装置

技术领域

本申请涉及推荐技术领域，尤其涉及一种基于语义标签的文档推荐方法和装置。

背景技术

随着互联网技术的不断发展，信息流服务已经逐步取代传统媒体成为用户获取信息的重要手段，但是，信息流承载着太多的信息，容易造成用户信息量过载，无法及时获取用户感兴趣的信息。

相关技术中，基于内容关注点的个性化推荐技术能够实现信息的精准推送，然而，上述方式中的标签并不是语义级别的，存在比较严重的歧义问题，导致推荐精度低等问题。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请提出一种基于语义标签的文档推荐方法和装置，用于解决现有技术中标签并不是语义级别的，存在比较严重的歧义，导致推荐精度低的技术问题。

为达上述目的，本申请第一方面实施例提出了一种基于语义标签的文档推荐方法，包括：

通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合；

对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合；

通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合；

通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合；

通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度，将语义匹配度大于预设匹配阈值对应的第四候选标签作为所述每一个文档的语义标签，形成具有语义标签的文档库；

获取用户历史行为信息，通过所述用户历史行为信息获取对应的历史语义标签，根据所述历史语义标签在所述具有语义标签的文档库中获取目标文档推荐给所述用户。

本申请实施例的基于语义标签的文档推荐方法，通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合，对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合，通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合，通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合，通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度，将语义匹配度大于预设匹配阈值对应的第四候选标签作为每一个文档的语义标签，形成具有语义标签的文档库，获取用户历史行为信息，通过用户历史行为信息获取对应的历史语义标签，根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。由此，本实施例中的语义标签都是无重复无歧义的，从而使文档推荐更加精准，提高用户使用体验。

为达上述目的，本申请第二方面实施例提出了一种基于语义标签的文档推荐装置，包括：

匹配模块，用于通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合；

第一扩展模块，用于对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合；

归一处理模块，用于通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合；

第二扩展模块，用于通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合；

第一处理模块，用于通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度，将语义匹配度大于预设匹配阈值对应的第四候选标签作为所述每一个文档的语义标签，形成具有语义标签的文档库；

推荐模块，用于获取用户历史行为信息，通过所述用户历史行为信息获取对应的历史语义标签，根据所述历史语义标签在所述具有语义标签的文档库中获取目标文档推荐给所述用户。

本申请实施例的基于语义标签的文档推荐装置，通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合，对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合，通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合，通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合，通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度，将语义匹配度大于预设匹配阈值对应的第四候选标签作为每一个文档的语义标签，形成具有语义标签的文档库，获取用户历史行为信息，通过用户历史行为信息获取对应的历史语义标签，根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。由此，本实施例中的语义标签都是无重复无歧义的，从而使文档推荐更加精准，提高用户使用体验。

为达上述目的，本申请第三方面实施例提出了一种计算机设备，包括：处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如第一方面实施例所述的基于语义标签的文档推荐方法。

为达上述目的，本申请第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例所述的基于语义标签的文档推荐方法。

为达上述目的，本申请第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，实现如第一方面实施例所述的基于语义标签的文档推荐方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种基于语义标签的文档推荐方法的流程示意图；

图2为本申请实施例的标签归一处理的示例图；

图3为本申请实施例的标签消歧处理的示例图；

图4为本申请实施例的建立语义匹配模型的示例图；

图5为本申请实施例所提供的一种基于语义标签的文档推荐装置的结构示意图；

图6为本申请实施例所提供的另一种基于语义标签的文档推荐装置的结构示意图；

图7为本申请实施例所提供的又一种基于语义标签的文档推荐装置的结构示意图；

图8为本申请实施例所提供的再一种基于语义标签的文档推荐装置的结构示意图；以及

图9为本申请实施例所提供的计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于语义标签的文档推荐方法和装置。

基于上述背景技术的描述，可以了解到基于关注点的文档推荐方法中的标签并不是语义级别的，存在比较严重的歧义问题，导致推荐精度低等问题，比如一篇讲“小米手机”的文章，打上了标签“小米”，一篇讲“小米”食物的文章，也打上了标签“小米”，“小米”这个标签本身不是语义标签，依靠这个标签给看过小米手机的人推荐小米食物的文章显然会造成用户体验不佳的问题；再比如一篇标签是“C罗”的文章和一篇标签是“克里斯蒂亚诺·罗纳尔多”的文章，其实是一个人，但由于标签不同造成两篇文章不能被同时推荐，使得推荐精度低。

因此，本申请实施例提出一种基于语义标签的文档推荐方法，其语义标签都是无重复无歧义的，从而使文档推荐更加精准，提高用户使用体验，比如将上述标签更改为小米_食物，小米_手机品牌；将“C罗”这个标签归一化成“克里斯蒂亚诺·罗纳尔多”这个统一的标签。具体描述如下：

图1为本申请实施例所提供的一种基于语义标签的文档推荐方法的流程示意图。

如图1所示，该基于语义标签的文档推荐方法可以包括以下步骤：

步骤101，通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合。

具体地，需要对多个文档进行语义标签计算，对多个文档打上语义标签，并基于语义标签进行文档推荐。

首先，首先使用预设关注点集合对需要被打上语义标签的每一个文档做全匹配和模糊匹配得到每一个文档对应的第一候选标签集合。

其中，需要预先获取关注点集合，作为一种可能实现方式，获取多个搜索语句，通过对多个搜索语句进行过滤处理，得到的事件、话题或者是实体性质的搜索语句作为预设关注点集合。

具体地，在搜索引擎中的搜索语句种类丰富，可以对其进行黄反过滤以及问句句型过滤之后，留下的具有事件、话题或者实体性质的搜索语句作为关注点集合全集。也就是说多个搜索语句中有很多黄反内容，不利于传播正能量的，可以直接过滤掉；然后有一些问句形式，譬如：为什么1+1＝2，问句不是事实、话题、实体类的关注点，也可以过滤掉等等。

举例而言，预设关注点集合有“豆腐、豆腐的做法、西红柿…”，那么对“豆腐加入这两样，鲜美入味还补钙，营养丰富易吸收，孩子要常吃”这篇文档进行全匹配和模糊匹配后，就可以得到的第一候选标签集合为：豆腐、豆腐的做法。

步骤102，对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合。

具体地，对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理，比如对出现在同一篇文章中的关注点进行相互预测，对每个第一候选标签做扩展和泛化，可以得到比较广泛的、有较强相关性但是在文章中没有明显出现的标签(譬如“延禧攻略”经过扩展后可以得到“宫廷剧”)，融合后得到每一个文档对应的第二候选标签集合。

步骤103，通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合。

其中，预先生成归一词典，作为一种可能实现方式，获取任意两个搜索语句对应的搜索结果的相似度，将相似度大于预设相似阈值的两个搜索语句作为候选归一语句，根据多个候选归一语句生成预设归一词典。

具体地，可以利用搜索引擎的用户的搜索语句(query)以及用户在搜索语句对应的搜索结果中选定的结果列表，以构建预设归一词典。比如图2所示，对于S201搜索语句集合中两个搜索语句(query)：query1和query2，S202如果各自得到的文章列表之间的相似度比较高(其中，相似度可以采用结果列表中词的tf-idf(term frequency–inversedocument frequency，信息检索数据挖掘的常用加权技术)构建向量或者word2vec(一群用来产生词向量的相关模型)词向量计算余弦距离等)，S203根据相似度与预设相似阈值的比较确定两个query其实指的是一个人事物，则进行归一处理。比如：搜索语句“英超”、“英格兰超级联赛”和“英超联赛”，得到的文章内容相似度比较高，可以认为是候选归一项，接着S204再经过人工校验后得到预设归一词典。

步骤104，通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合。

具体地，使用预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展，这个过程并非是消歧过程，而是将所有可能的语义标签进行罗列，得到每一个文档对应的第四候选标签集合。比如：第三候选标签里有“李娜”这个标签，如果“李娜”这个标签对应了10个语义标签(李娜_中国女子网球名将，李娜_青岛籍女演员等等)，会将所有的10个语义标签加入文档对应的第四候选标签集合中。

作为一种可能实现方式，在候选义项列表中查询与每一个文档对应的第三候选标签集合中的每个第三候选标签对应的义项，计算每一个文档分别与对应的义项的相似度，根据相似度大小选取目标义项对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展得到每一个文档对应的第四候选标签集合。

作为一种示例，利用百度百科的多义词条义项可以挖掘到待消歧的候选义项列表。比如：李娜的义项有李娜_中国女子网球名将，李娜_青岛籍女演员等等，每个消歧后的义项的解释页面有相关背景、参考资料、标签以及部分网文说明等等，利用这些内容可以给对应的义项构建显示特征词向量。比如：李娜_中国女子网球名将的显示特征词向量为：网球：0.8，比赛：0.5，运动:0.3等；李娜_青岛籍女演员的显示特征词向量为：主持：0.6，艺术：0.3，演员：0.2等。利用这些特征向量可以对一个打上“李娜”的文章进行相似度计算，得到真实的标签，具体如图3所示。

步骤105，通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度，将语义匹配度大于预设匹配阈值对应的第四候选标签作为每一个文档的语义标签，形成具有语义标签的文档库。

其中，预先建立匹配模型，作为一种可能实现方式，获取训练文本对应的语义标签，通过深度神经网络对训练文本和语义标签进行训练建立语义匹配模型。

具体地，主要通过训练好的语义匹配模型，对每一个文档对应的第四候选标签集合中的每个第四候选标签进行计算每个第四候选标签和文档的匹配程度，并按照得分进行排序，选取高置信的答案作为文档的语义标签。

具体地，建立语义匹配模型的问题，正样本是训练文本对应的语义标签，负样本随机负采样标签样本。可以使用深度神经网络(DNN)来对训练文本的语义和语义标签的语义进行建模，将两者分别表示成语义向量，并整体优化余弦相似度，建立语义匹配模型流程如图4所示，将训练文本doc和语义标签分别输入深度神经网络DNN进行建模，并整体优化Cosine loss余弦相似度。

由此，给每一个文档都打上对应的语义标签形成了具有语义标签的文档库。

步骤106，获取用户历史行为信息，通过用户历史行为信息获取对应的历史语义标签，根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。

具体地，用户历史行为信息可以是用户的点击、搜索等操作行为信息，通过对用户历史行为信息进行分析可以获取对应的历史语义标签，根据历史语义标签在具有语义标签的文档库中进行匹配，获取对应的目标文档推荐给用户。

本实施例的基于语义标签的文档推荐方法，通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合，对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合，通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合，通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合，通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度，将语义匹配度大于预设匹配阈值对应的第四候选标签作为每一个文档的语义标签，形成具有语义标签的文档库，获取用户历史行为信息，通过用户历史行为信息获取对应的历史语义标签，根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。由此，本实施例中的语义标签都是无重复无歧义的，从而使文档推荐更加精准，提高用户使用体验。

为了实现上述实施例，本申请还提出一种基于语义标签的文档推荐装置。

图5为本申请实施例所提供的一种基于语义标签的文档推荐装置的结构示意图。

如图5所示，该基于语义标签的文档推荐装置50可以包括：匹配模块501、第一扩展模块502、归一处理模块503、第二扩展模块504、第一处理模块505和推荐模块506。其中，

匹配模块501，用于通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合。

第一扩展模块502，用于对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合。

归一处理模块503，用于通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合。

第二扩展模块504，用于通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合。

第一处理模块505，用于通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和每一个文档之间的语义匹配度，将语义匹配度大于预设匹配阈值对应的第四候选标签作为每一个文档的语义标签，形成具有语义标签的文档库。

推荐模块506，用于获取用户历史行为信息，通过用户历史行为信息获取对应的历史语义标签，根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。

在本申请实施例一种可能的实现方式中，如图6所示，在如图5所示实施例的基础上，该基于语义标签的文档推荐装置50还包括：第一获取模块507和过滤模块508。

第一获取模块507，用于获取多个搜索语句。

过滤模块508，用于通过对多个搜索语句进行过滤处理，得到的事件、话题或者是实体性质的搜索语句作为预设关注点集合。

在本申请实施例一种可能的实现方式中，如图7所示，在如图5所示实施例的基础上，该基于语义标签的文档推荐装置50还包括：第二获取模块509、第二处理模块510和生成模块511。

第二获取模块509，用于获取任意两个搜索语句对应的搜索结果的相似度。

第二处理模块510，用于将相似度大于预设相似阈值的两个搜索语句作为候选归一语句。

生成模块511，用于根据多个候选归一语句生成预设归一词典。

在本申请实施例一种可能的实现方式中，在本申请实施例一种可能的实现方式中，第二扩展模块504，具体用于：在候选义项列表中查询与每一个文档对应的第三候选标签集合中的每个第三候选标签对应的义项，计算每一个文档分别与对应的义项的相似度，根据相似度大小选取目标义项对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展得到每一个文档对应的第四候选标签集合。

在本申请实施例一种可能的实现方式中，在本申请实施例一种可能的实现方式中，如图8所示，在如图5所示实施例的基础上，该基于语义标签的文档推荐装置50还包括：第三获取模块512和建立模块513。

其中，第三获取模块512，用于获取训练文本对应的语义标签。

建立模块513，用于通过深度神经网络对训练文本和语义标签进行训练建立语义匹配模型。

需要说明的是，前述对基于语义标签的文档推荐方法实施例的解释说明也适用于该实施例的基于语义标签的文档推荐装置，其实现原理类似，此处不再赘述。

通过为了实现上述实施例，本申请还提出一种计算机设备，包括：处理器和存储器。其中，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现如前述实施例所述的基于语义标签的文档推荐方法。

图9为本申请实施例所提供的计算机设备的结构示意图，示出了适于用来实现本申请实施方式的示例性计算机设备90的框图。图9显示的计算机设备90仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机设备90以通用计算机设备的形式表现。计算机设备90的组件可以包括但不限于：一个或者多个处理器或者处理单元906，系统存储器910，连接不同系统组件(包括系统存储器910和处理单元906)的总线908。

总线908表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备90典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备90访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器910可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)911和/或高速缓存存储器912。计算机设备90可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统913可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc ReadOnly Memory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线908相连。系统存储器910可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。

具有一组(至少一个)程序模块9140的程序/实用工具914，可以存储在例如系统存储器910中，这样的程序模块9140包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块9140通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备90也可以与一个或多个外部设备10(例如键盘、指向设备、显示器100等)通信，还可与一个或者多个使得用户能与该终端设备90交互的设备通信，和/或与使得该计算机设备90能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口902进行。并且，计算机设备90还可以通过网络适配器900与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器900通过总线908与计算机设备90的其它模块通信。应当明白，尽管图9中未示出，可以结合计算机设备90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元906通过运行存储在系统存储器910中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的基于语义标签的文档推荐方法。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如前述实施例所述的基于语义标签的文档推荐方法。

为了实现上述实施例，本申请还提出一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，实现如前述实施例所述的基于语义标签的文档推荐方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于语义标签的文档推荐方法，其特征在于，包括以下步骤：

通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合，包括：将所有可能的语义标签进行罗列，得到每一个文档对应的第四候选标签集合；

2.如权利要求1所述的方法，其特征在于，在所述通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合之前，还包括：

获取多个搜索语句；

通过对所述多个搜索语句进行过滤处理，得到的事件、话题或者是实体性质的搜索语句作为所述预设关注点集合。

3.如权利要求1所述的方法，其特征在于，在所述通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合之前，还包括：

获取任意两个搜索语句对应的搜索结果的相似度；

将相似度大于预设相似阈值的两个搜索语句作为候选归一语句；

根据多个所述候选归一语句生成所述预设归一词典。

4.如权利要求1所述的方法，其特征在于，通过预设消歧词典对每一个文档对应的所述第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合，包括：

在候选义项列表中查询与每一个文档对应的所述第三候选标签集合中的每个第三候选标签对应的义项；

计算每一个文档分别与对应的义项的相似度；

根据相似度大小选取目标义项对每一个文档对应的所述第三候选标签集合中的每个第三候选标签进行扩展得到每一个文档对应的第四候选标签集合。

5.如权利要求1所述的方法，其特征在于，还包括：

获取训练文本对应的语义标签；

通过深度神经网络对所述训练文本和所述语义标签进行训练建立所述语义匹配模型。

6.一种基于语义标签的文档推荐装置，其特征在于，包括：

第二扩展模块，用于通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合，包括：将所有可能的语义标签进行罗列，得到每一个文档对应的第四候选标签集合；

7.根据权利要求6所述的装置，其特征在于，还包括：

第一获取模块，用于获取多个搜索语句；

过滤模块，用于通过对所述多个搜索语句进行过滤处理，得到的事件、话题或者是实体性质的搜索语句作为所述预设关注点集合。

8.根据权利要求6所述的装置，其特征在于，提取模块，具体用于：

第二获取模块，用于获取任意两个搜索语句对应的搜索结果的相似度；

第二处理模块，用于将相似度大于预设相似阈值的两个搜索语句作为候选归一语句；

生成模块，用于根据多个所述候选归一语句生成所述预设归一词典。

9.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-5中任一项所述的基于语义标签的文档推荐方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的基于语义标签的文档推荐方法。