CN112905786A

CN112905786A - 一种标签推荐方法和装置

Info

Publication number: CN112905786A
Application number: CN201911229058.2A
Authority: CN
Inventors: 李函; 陈希
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2021-06-04

Abstract

本发明公开了一种标签推荐方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：计算标注样本集中文档的各关键词对各标签的倾向度以构建倾向度矩阵，从倾向度矩阵中提取与待标注文档的关键词对应的子矩阵，利用该子矩阵计算待标注文档对标注样本集中文档的各标签的整体倾向度，并根据待标注文档对标注样本集中文档的各标签的整体倾向度，对待标注文档推荐标签。该实施方式能够提高推荐准确度，推荐效果和可解释性好，得到理想的推荐结果，并能根据标注数据不断迭代，不断提高推荐效果，从而具有较强的可延续性。

Description

一种标签推荐方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种标签推荐方法和装置。

背景技术

随着内容营销的兴起，统一、标准、高质量的内容标签体系变得愈发重要，有效的内容标签体系在内容的推荐、分发中起着至关重要的作用，对业务侧的运营工作也能起到很好的支撑，但如何在已有的标签体系下，对内容打上合适的标签，同时兼顾效果、可解释性，却是一个值得思考的问题。

现有标签推荐方案分为两种：一种是通过将文档和标签词进行简单匹配或模糊匹配来标签推荐，例如文档中提到“羽绒服”，最后推荐“冬季”这个标签；另一种是通过word2vec(把词转化成向量表示的技术)、doc2vec(把句子/文档转化成向量表示的技术)技术将标签词和文档转为向量，通过计算余弦相似度来对文档推荐最相近标签。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

现有方案推荐准确度不高，推荐效果有限，难以得到比较好的推荐结果，可解释性比较差，且无法不断迭代、不断提高推荐效果，从而可延续性不强。

发明内容

有鉴于此，本发明实施例提供一种标签推荐方法和装置，能够提高推荐准确度，推荐效果和可解释性好，得到理想的推荐结果，并能根据标注数据不断迭代，不断提高推荐效果，从而具有较强的可延续性。

为实现上述目的，根据本发明实施例的一个方面，提供了一种标签推荐方法。

一种标签推荐方法，包括：利用倾向度计算模型，计算标注样本集中文档的各关键词对各标签的倾向度，并基于所述倾向度构建倾向度矩阵，其中，关键词对标签的倾向度体现该关键词与该标签的共现性；对待标注文档提取关键词，并从所述倾向度矩阵中提取与所述待标注文档的关键词对应的子矩阵；利用所述子矩阵，计算所述待标注文档对所述标注样本集中文档的各标签的整体倾向度；根据所述待标注文档对所述标注样本集中文档的各标签的整体倾向度，对所述待标注文档推荐标签。

可选地，对于所述标注样本集中文档的第一关键词和第一标签，所述第一关键词和所述第一标签分别表示所述标注样本集中文档的任一关键词和任一标签，利用所述倾向度计算模型，按照如下步骤计算所述第一关键词对所述第一标签的倾向度：计算所述标注样本集中包括所述第一关键词的文档数量，具有所述第一标签的文档数量，以及所述第一关键词和所述第一标签共现的文档数量；根据包括所述第一关键词的文档数量、具有所述第一标签的文档数量、所述第一关键词和所述第一标签共现的文档数量，计算所述第一关键词在所述标注样本集的文档出现的概率，所述第一标签在所述标注样本集的文档出现的概率，以及所述第一关键词与所述第一标签在所述标注样本集的文档共现的概率；将上述三种概率输入所述倾向度计算模型，计算得到所述第一关键词对所述第一标签的倾向度。

可选地，基于所述倾向度构建倾向度矩阵的步骤，包括：将所述各关键词对各标签的倾向度标准化，其中，对于所述标注样本集中文档的任意关键词和标签，标准化后的关键词对标签的倾向度等于：该关键词对该标签的倾向度与该关键词对所有标签的倾向度总和的比值；对标准化后的所述各关键词对各标签的倾向度进行信息增强，所述信息增强包括：按照预设规则增强关键词与标签相同情况下的所述标准化后的关键词对标签的倾向度；基于所述信息增强后的各倾向度构建所述倾向度矩阵。

可选地，还包括：在构建所述倾向度矩阵之前，将不符合预设条件的关键词与标签词对滤除；或者，在构建所述倾向度矩阵之后，将所述倾向度矩阵中与所述不符合预设条件的关键词与标签词对相对应的倾向度滤除。

可选地，所述倾向度矩阵的行对应所述标注样本集中文档的各关键词，所述倾向度矩阵的列对应所述标注样本集中文档的各标签；从所述倾向度矩阵中提取与所述待标注文档的关键词对应的子矩阵的步骤，包括：从所述倾向度矩阵中提取与目标关键词对应的各行，得到所述子矩阵，所述目标关键词是所述待标注文档的关键词集合中，与所述标注样本集中文档的关键词相同的关键词。

可选地，还包括：利用TF-IDF(词频-逆向文件频率)算法计算标注样本集中文档的各关键词的权重，其中，一关键词的权重等于该关键词的词频与逆向文件频率的乘积；利用所述子矩阵，计算所述待标注文档对所述标注样本集中文档的各标签的整体倾向度的步骤，包括：按照所述目标关键词的权重，对与所述子矩阵按列加权求和，得到所述待标注文档对所述标注样本集中文档的各标签的整体倾向度。

根据本发明实施例的另一方面，提供了一种标签推荐装置。

一种标签推荐装置，包括：倾向度矩阵构建模块，用于利用倾向度计算模型，计算标注样本集中文档的各关键词对各标签的倾向度，并基于所述倾向度构建倾向度矩阵，其中，关键词对标签的倾向度体现该关键词与该标签的共现性；子矩阵提取模块，用于对待标注文档提取关键词，并从所述倾向度矩阵中提取与所述待标注文档的关键词对应的子矩阵；整体倾向度计算模块，用于利用所述子矩阵，计算所述待标注文档对所述标注样本集中文档的各标签的整体倾向度；标签推荐模块，用于根据所述待标注文档对所述标注样本集中文档的各标签的整体倾向度，对所述待标注文档推荐标签。

可选地，所述倾向度矩阵构建模块包括倾向度计算子模块，用于：对于所述标注样本集中文档的第一关键词和第一标签，所述第一关键词和所述第一标签分别表示所述标注样本集中文档的任一关键词和任一标签，利用所述倾向度计算模型，按照如下步骤计算所述第一关键词对所述第一标签的倾向度：计算所述标注样本集中包括所述第一关键词的文档数量，具有所述第一标签的文档数量，以及所述第一关键词和所述第一标签共现的文档数量；根据包括所述第一关键词的文档数量、具有所述第一标签的文档数量、所述第一关键词和所述第一标签共现的文档数量，计算所述第一关键词在所述标注样本集的文档出现的概率，所述第一标签在所述标注样本集的文档出现的概率，以及所述第一关键词与所述第一标签在所述标注样本集的文档共现的概率；将上述三种概率输入所述倾向度计算模型，计算得到所述第一关键词对所述第一标签的倾向度。

可选地，所述倾向度矩阵构建模块包括倾向度矩阵构建子模块，用于：将所述各关键词对各标签的倾向度标准化，其中，对于所述标注样本集中文档的任意关键词和标签，标准化后的关键词对标签的倾向度等于：该关键词对该标签的倾向度与该关键词对所有标签的倾向度总和的比值；对标准化后的所述各关键词对各标签的倾向度进行信息增强，所述信息增强包括：按照预设规则增强关键词与标签相同情况下的所述标准化后的关键词对标签的倾向度；基于所述信息增强后的各倾向度构建所述倾向度矩阵。

可选地，还包括滤除模块，用于：在构建所述倾向度矩阵之前，将不符合预设条件的关键词与标签词对滤除；或者，在构建所述倾向度矩阵之后，将所述倾向度矩阵中与所述不符合预设条件的关键词与标签词对相对应的倾向度滤除。

可选地，所述倾向度矩阵的行对应所述标注样本集中文档的各关键词，所述倾向度矩阵的列对应所述标注样本集中文档的各标签；所述子矩阵提取模块包括子矩阵提取子模块，用于：从所述倾向度矩阵中提取与目标关键词对应的各行，得到所述子矩阵，所述目标关键词是所述待标注文档的关键词集合中，与所述标注样本集中文档的关键词相同的关键词。

可选地，还包括权重计算模块，用于：利用TF-IDF算法计算标注样本集中文档的各关键词的权重，其中，一关键词的权重等于该关键词的词频与逆向文件频率的乘积；所述整体倾向度计算模块还用于：按照所述目标关键词的权重，对与所述子矩阵按列加权求和，得到所述待标注文档对所述标注样本集中文档的各标签的整体倾向度。

根据本发明实施例的又一方面，提供了一种电子设备。

一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发明提供的标签推荐方法。

根据本发明实施例的又一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明提供的标签推荐方法。

上述发明中的一个实施例具有如下优点或有益效果：计算标注样本集中文档的各关键词对各标签的倾向度以构建倾向度矩阵，从倾向度矩阵中提取与待标注文档的关键词对应的子矩阵，利用该子矩阵计算待标注文档对标注样本集中文档的各标签的整体倾向度，并根据各整体倾向度对待标注文档推荐标签。能够提高推荐准确度，推荐效果和可解释性好，得到理想的推荐结果，并能根据标注数据不断迭代，不断提高推荐效果，从而具有较强的可延续性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明一个实施例的标签推荐方法的主要步骤示意图；

图2是根据本发明一个实施例的标签推荐流程示意图；

图3是根据本发明一个实施例的标签推荐装置的主要模块示意图；

图4是本发明实施例可以应用于其中的示例性系统架构图；

图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明一个实施例的标签推荐方法的主要步骤示意图。

如图1所示，本发明一个实施例的标签推荐方法主要包括如下的步骤S101至步骤S104。

步骤S101：利用倾向度计算模型，计算标注样本集中文档的各关键词对各标签的倾向度，并基于计算出的倾向度构建倾向度矩阵。

其中，关键词对标签的倾向度体现该关键词与该标签的共现性。

对于标注样本集中文档的第一关键词和第一标签，第一关键词和第一标签分别表示标注样本集中文档的任一关键词和任一标签，利用倾向度计算模型，可以按照如下步骤计算第一关键词对第一标签的倾向度(为了便于后续说明，以下以关键词k代表第一关键词，用标签t代表第一标签)：

计算标注样本集中包括关键词k的文档数量，具有标签t的文档数量，以及关键词k和标签t共现的文档数量；根据包括关键词k的文档数量、具有标签t的文档数量、关键词k和标签t共现的文档数量，计算关键词k在标注样本集的文档出现的概率，标签t在标注样本集的文档出现的概率，以及关键词k与标签t在标注样本集的文档共现的概率；将上述三种概率，即关键词k在标注样本集的文档出现的概率，标签t在标注样本集的文档出现的概率，以及关键词k与标签t在标注样本集的文档共现的概率，输入倾向度计算模型，计算得到关键词k对标签t的倾向度。

其中，关键词k和标签t共现的文档数量是指：包括关键词k且标注有标签t的文档的数量。

关键词k在标注样本集的文档出现的概率是指：标注样本集中包括关键词k的文档数量与标注样本集的文档总数量的比值。

标签t在标注样本集的文档出现的概率是指：标注样本集中标注有标签t的文档数量与标注样本集的文档总数量的比值。

关键词k与标签t在标注样本集的文档共现的概率是指：标注样本集中包括关键词k且标注有标签t的文档数量与标注样本集的文档总数量的比值。

本发明实施例的倾向度计算模型可以在互信息计算公式的基础上进行修改，定义如下的倾向度计算模型：

其中，I_co-occurency(k,t)表示关键词k对标签t的倾向度，p(X_k＝1)表示关键词k在标注样本集的文档出现的概率，p(X_t＝1)表示标签t在标注样本集的文档出现的概率，p(X_k＝1,X_t＝1)表示关键词k与标签t在标注样本集的文档共现的概率。I_co-occurency(k,t)用于度量关键词k和标签t的共现程度(或称倾向程度)，如果该值越大，表明文档若出现k关键词，文档越有可能标注上标签t，反之亦成立。

基于计算出的倾向度构建倾向度矩阵的步骤，具体可以包括：

将计算出的各关键词对各标签的倾向度标准化，其中，对于标注样本集中文档的任意关键词和标签，标准化后的关键词对标签的倾向度等于：该关键词对该标签的倾向度与该关键词对所有标签的倾向度总和的比值；对标准化后的各关键词对各标签的倾向度进行信息增强，信息增强包括：按照预设规则增强关键词与标签相同情况下的标准化后的关键词对标签的倾向度；基于信息增强后的各倾向度构建倾向度矩阵。

对于任意的关键词k₀和标签t₀，将关键词k₀对标签t₀的倾向度I_co-occurency(k₀,t₀)按照如下公式标准化，得到标准化后的关键词k₀对标签t₀的倾向度q(k₀,t₀)：

其中，T表示标注样本集的标签的集合，其中每个标签用t来表示，t∈T。q(k₀,t₀)的值越大，说明包含关键词k₀的文档越有可能标注标签t₀。∑_t∈TI_co-occurency(k₀,t)用于度量关键词k₀对所有标签的倾向程度之和。将I_co-occurency(k₀,t₀)标准化为q(k₀,t₀)，能将绝对倾向程度转为相对倾向程度，进而能够确定若文档出现关键词k₀，该文档更有可能标注哪个标签。

按照如下式的预设规则来对标准化后的关键词k₀对标签t₀的倾向度q(k₀,t₀)进行信息增强：

其中，m_ij表示第i个关键词对第j个标签词的信息增强后的倾向度，即对q(k₀,t₀)信息增强后的倾向度，i和j分别为关键词k₀和标签t₀的序号。α表示信息增强的强度，α＝0表示无信息增强，α＝1表示信息增强最大，只有当关键词和标签相同时，才具有一固定值的倾向性，否则为0，即回到了简单的匹配情况。通过增强关键词与标签相同情况下关键词对标签的倾向度，使其更贴合标签推荐的实际情况。

根据i、j在各个取值下得到的m_ij，即标注样本集的关键词集合K的关键词对标签集合T的标签的各信息增强后的倾向度，构建倾向度矩阵M：

M＝(m_ij)_len(K)len(T)

该倾向度矩阵的行对应标注样本集中文档的各关键词，倾向度矩阵的列对应标注样本集中文档的各标签。

作为一个可选实施方式，上述在构建倾向度矩阵之前，还可以先将不符合预设条件的关键词与标签词对滤除。不符合预设条件的关键词与标签词对可以包括关键词和标签的共现次数较小(小于预设阈值)的关键词-标签词对。

作为另一个可选实施方式，在上述构建倾向度矩阵之后，还可以将倾向度矩阵中与不符合预设条件的关键词与标签词对相对应的倾向度滤除，从而只保留有效的关键词-标签词倾向度信息。

通过过滤关键词与标签词对或相对应的倾向度，可以避免文档的关键词和标签词(即标签)间偶然的共现性带来的干扰，去除了倾向度矩阵中的噪音，并减少信息矩阵存储空间。

步骤S102：对待标注文档提取关键词，并从倾向度矩阵中提取与待标注文档的关键词对应的子矩阵。

从倾向度矩阵中提取与待标注文档的关键词对应的子矩阵的步骤，可以包括：从倾向度矩阵中提取与目标关键词对应的各行，得到子矩阵，目标关键词是待标注文档的关键词集合中与标注样本集中文档的关键词相同的关键词。

标注样本集的文档的文档数量众多，包括的关键词的数量也非常庞大，因此，通常情况下，待标注文档的各关键词均为标注样本集的关键词集合中的关键词。在特殊情况下，如果待标注文档的个别关键词不在标注样本集的关键词集合中，那么本发明实施例将不考虑这部分不在标注样本集的关键词集合中的关键词，而利用待标注文档的在标注样本集的关键词集合中的关键词来提取子矩阵。例如，某个待标注文档有200个关键词，其中195个关键词在标注样本集的关键词集合中，5个不在标注样本集的关键词集合中，那么根据该195个关键词从倾向度矩阵提取对应的行，得到子矩阵。

待标注文档集合记作D'，其中每个文档用d'来表示，d'∈D'。对文档d'提取关键词，得到K_d'，从倾向度矩阵M中选取关键词K_d'对应的行，组成子矩阵M₀：

步骤S103：利用与待标注文档的关键词对应的子矩阵，计算待标注文档对标注样本集中文档的各标签的整体倾向度。

标注样本集中文档的每个关键词都对应一个权重，该权重可以利用TF-IDF算法计算，具体地是将关键词对应的TF与IDF相乘，得到关键词的权重。TF为词频，表示关键词在各文档中出现的频率，对于任意的关键词k₀，其TF值

等于关键词k₀在标注样本集中出现的次数除以标注样本集中所有关键词数目。IDF是逆向文件频率，关键词k₀的IDF值

等于标注样本集中文档总数目除以其中包括关键词k₀的文档数目，再将得到的商取对数，即为

关键词k₀的权重等于

根据标注样本集中文档关键词的权重，即得到了目标关键词的权重。利用子矩阵，计算待标注文档对标注样本集中文档的各标签的整体倾向度的步骤，具体包括：按照目标关键词的权重，对与子矩阵按列加权求和，得到待标注文档对标注样本集中文档的各标签的整体倾向度。

利用子矩阵M₀计算待标注文档集合D'中文档d'对标注样本集中文档的各标签的整体倾向度，具体地，按照目标关键词的权重W_d'，对M₀按列进行加权求和，即：

得到文档d'对各标签的整体倾向度。

步骤S104：根据待标注文档对标注样本集中文档的各标签的整体倾向度，对待标注文档推荐标签。

具体可以对各整体倾向度按数值大小排序，将数值最大的预设数量的整体倾向度对应的标签作为待标注文档的推荐标签。例如计算出待标注文档集合D'中文档d'对1000个标签的整体倾向度，可以将预设数量设置为6，那么对该1000个整体倾向度按照数值大小排序，可以从小到大排序，也可从大到小排序。将其中数值最大的6个整体倾向度对应的标签作为文档d'的推荐标签。

在一个实施例中，在输出文档d'的推荐标签的同时，还可以输出目标关键词的权重W_d'以供相关人员参考。

本发明实施例先通过关键词提取技术获取文档关键信息，计算各关键信息对各标签的倾向情况，在关键词对标签的倾向基础上计算文档整体对各标签的倾向情况，并以此为依据对文档进行标签推荐。本发明实施例能有效利用标注数据，不断进行迭代，同时兼顾推荐标签的可解释性。

图2是根据本发明一个实施例的标签推荐流程示意图。

本发明一个实施例的标签推荐流程包括如下的步骤S201至步骤S205。

步骤S201：对标注样本集中文档提取关键词，并计算各关键词的权重。

标注样本集中文档集合记作D，样本个数(即文档总数量)记作N，其中每个文档用d表示，d∈D。标注样本集的标签集合记作T，其中每个标签用t来表示，t∈T。文档d对应的标签集合为T_d，∪_d∈DT_d＝T。

对文档d提取关键词集合，记作K_d，计算K_d中每个关键词的权重，得到权重集合W_d，K_d和W_d的元素个数相同，且一一对应。K＝∪_d∈DK_d为所有文档的关键词的集合。

其中，利用TF-IDF算法计算关键词的权重，对于任意的关键词k₀，其权重等于

为该关键词的词频，

为该关键词的逆向文件频率，

和

的具体计算方法在上文已经介绍，不再赘述。

步骤S202：构建倾向度矩阵。

互信息是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。本发明实施例在互信息计算公式的基础上进行修改，定义如下倾向度计算方法，来度量关键词对标签词(即标签)的倾向情况，该值越大，说明在其他情况不变的情况，若文档出现该关键词，该文档越有可能被标注该标签。

首先计算互信息计算公式里的正向相关部分，如下：

其中，

表示关键词k在标注样本集的文档出现的概率；

表示标签t在标注样本集的文档出现的概率；

表示关键词k与标签t在标注样本集的文档共现的概率；

c(X_k＝1)表示N篇标注文档中包括关键词k的文档数量，c(X_t＝1)表示N篇标注文档中标注标签t的文档数量，c(X_k＝1,X_t＝1)表示N篇标注文档包括关键词k且标注的标签中包括标签t的文档数量。

通过I_co-occurency(k,t)体现的关键词对标签的倾向度为绝对倾向程度，可以按照标准化思路对I_co-occurency(k,t)标准化，使其转换为相对倾向程度，转换公式如下：

经过对q(k₀,t₀)的信息增强，得到信息增强后的倾向度m_ij：

对于该q(k₀,t₀)和m_ij的计算公式由于上文已经说明，此处不再详细介绍。按照上述公式，计算得到关键词集合K的元素对标签集合T的元素间两两的倾向度m_ij，以构建倾向度矩阵M。

步骤S203：对待标注文档提取关键词，并从倾向度矩阵中提取与待标注文档的关键词对应的子矩阵。

例如倾向度矩阵M为：

其中M的行对应关键词，列对应标签，假设待标注文档集合D'中文档d'有两个关键词，对应M的第一行和第二行，那么子矩阵M₀为：

M的第一行和第二行对应的关键词的权重分别为w1和w2。

需要说明的是，上述只是以三行三列的倾向度矩阵M为例，以便于说明子矩阵的提取方法，根据本发明实施例在实际场景中得到的倾向度矩阵M的行列数是非常众多的，本领域技术人员可以按照上述方法来根据实际得到的倾向度矩阵M来提取出子矩阵M₀。

步骤S204：按照子矩阵每行对应的关键词的权重，对与子矩阵按列加权求和，得到待标注文档对标注样本集中文档的各标签的整体倾向度。

结合上述的三行三列的倾向度矩阵M，对提取出的子矩阵M₀按列加权求和，即得到文档d'对三个标签的整体倾向度J1、J2、J3：

J₁＝m₁₁×w1+m₂₁×w2

J₂＝m₁₂×w1+m₂₂×w2

J₃＝m₁₃×w1+m₂₃×w2

根据本实施例，在实际场景下，本领域技术人员可以按照上述计算整体倾向度的方法，计算出文档d'对各标签的整体倾向度J1，J2，J3，……，Jn(n为标签数目)。

步骤S205：将各整体倾向度从大到小排列，将排在前面的预设数量的整体倾向度对应的标签输出。

输出的标签即待标注文档的推荐标签。

本发明实施例适用于内容标签推荐的诸多场景，简单易行，基于标注数据进行关键词及标签词间倾向信息提取，且能根据标注数据不断迭代，较简单匹配法、余弦相似度法更为客观、公正，在推荐准确度上也有显著提高。另外，本发明实施例先分别计算文档关键词对各标签的倾向度，再通过加权求和得到对各标签的整体倾向度，这一思路与人工打标(标注标签)的思路较为相似，即先认知文档中的关键信息，再利用关键信息和待选标签的关系进行综合判断、打标，使得本发明实施例可解释性较好。并且，在推荐结果的解释层面，也可通过文档提取的关键词以及关键词和标签的倾向度大小进行理解。

图3是根据本发明一个实施例的标签推荐装置的主要模块示意图。

如图3所示，本发明一个实施例的标签推荐装置300主要包括：倾向度矩阵构建模块301、子矩阵提取模块302、整体倾向度计算模块303、标签推荐模块304。

倾向度矩阵构建模块301，用于利用倾向度计算模型，计算标注样本集中文档的各关键词对各标签的倾向度，并基于倾向度构建倾向度矩阵，其中，关键词对标签的倾向度体现该关键词与该标签的共现性。

倾向度矩阵构建模块301可以包括倾向度计算子模块，用于：对于标注样本集中文档的任一关键词(用关键词k表示，即第一关键词)和任一标签(用标签t表示，即第一标签)，利用倾向度计算模型，按照如下步骤计算关键词k对标签t的倾向度：计算标注样本集中包括关键词k的文档数量，具有标签t的文档数量，以及关键词k和标签t共现的文档数量；根据包括关键词k的文档数量、具有标签t的文档数量、关键词k和标签t共现的文档数量，计算关键词k在标注样本集的文档出现的概率，标签t在标注样本集的文档出现的概率，以及关键词k与标签t在标注样本集的文档共现的概率；将上述三种概率输入倾向度计算模型，计算得到关键词k对标签t的倾向度。

倾向度矩阵构建模块301还可以包括倾向度矩阵构建子模块，用于：将各关键词对各标签的倾向度标准化，其中，对于标注样本集中文档的任意关键词和标签，标准化后的关键词对标签的倾向度等于：该关键词对该标签的倾向度与该关键词对所有标签的倾向度总和的比值；对标准化后的各关键词对各标签的倾向度进行信息增强，信息增强包括：按照预设规则增强关键词与标签相同情况下的标准化后的关键词对标签的倾向度；基于信息增强后的各倾向度构建倾向度矩阵。

倾向度矩阵的行对应标注样本集中文档的各关键词，倾向度矩阵的列对应标注样本集中文档的各标签。

在一个实施例中，标签推荐装置300还可以包括滤除模块，用于在构建倾向度矩阵之前，将不符合预设条件的关键词与标签词对滤除；或者，在构建倾向度矩阵之后，将倾向度矩阵中与不符合预设条件的关键词与标签词对相对应的倾向度滤除。

子矩阵提取模块302，用于对待标注文档提取关键词，并从倾向度矩阵中提取与待标注文档的关键词对应的子矩阵。

子矩阵提取模块302可以包括子矩阵提取子模块，用于：从倾向度矩阵中提取与目标关键词对应的各行，得到子矩阵，目标关键词是待标注文档的关键词集合中，与标注样本集中文档的关键词相同的关键词。

整体倾向度计算模块303，用于利用与待标注文档的关键词对应的子矩阵，计算待标注文档对标注样本集中文档的各标签的整体倾向度。

标签推荐装置300还可以包括权重计算模块，用于：利用TF-IDF算法计算标注样本集中文档的各关键词的权重，其中，一关键词的权重等于该关键词的词频与逆向文件频率的乘积；

整体倾向度计算模块303具体可以用于：按照目标关键词的权重，对与子矩阵按列加权求和，得到待标注文档对标注样本集中文档的各标签的整体倾向度。

标签推荐模块304，用于根据待标注文档对标注样本集中文档的各标签的整体倾向度，对待标注文档推荐标签。

另外，在本发明实施例中所述标签推荐装置的具体实施内容，在上面所述标签推荐方法中已经详细说明了，故在此重复内容不再说明。

图4示出了可以应用本发明实施例的标签推荐方法或标签推荐装置的示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的标签推荐方法一般由服务器405执行，相应地，标签推荐装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。图5示出的终端设备或服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括倾向度矩阵构建模块、子矩阵提取模块、整体倾向度计算模块、标签推荐模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，倾向度矩阵构建模块还可以被描述为“用于利用倾向度计算模型，计算标注样本集中文档的各关键词对各标签的倾向度，并基于倾向度构建倾向度矩阵的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：利用倾向度计算模型，计算标注样本集中文档的各关键词对各标签的倾向度，并基于所述倾向度构建倾向度矩阵，其中，关键词对标签的倾向度体现该关键词与该标签的共现性；对待标注文档提取关键词，并从所述倾向度矩阵中提取与所述待标注文档的关键词对应的子矩阵；利用所述子矩阵，计算所述待标注文档对所述标注样本集中文档的各标签的整体倾向度；根据所述待标注文档对所述标注样本集中文档的各标签的整体倾向度，对所述待标注文档推荐标签。

根据本发明实施例的技术方案，计算标注样本集中文档的各关键词对各标签的倾向度以构建倾向度矩阵，从倾向度矩阵中提取与待标注文档的关键词对应的子矩阵，利用该子矩阵计算待标注文档对标注样本集中文档的各标签的整体倾向度，并将数值最大的预设数量的整体倾向度对应的标签作为待标注文档的推荐标签。能够提高推荐准确度，推荐效果和可解释性好，得到理想的推荐结果，并能根据标注数据不断迭代，不断提高推荐效果，从而具有较强的可延续性。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种标签推荐方法，其特征在于，包括：

利用倾向度计算模型，计算标注样本集中文档的各关键词对各标签的倾向度，并基于所述倾向度构建倾向度矩阵，其中，关键词对标签的倾向度体现该关键词与该标签的共现性；

对待标注文档提取关键词，并从所述倾向度矩阵中提取与所述待标注文档的关键词对应的子矩阵；

利用所述子矩阵，计算所述待标注文档对所述标注样本集中文档的各标签的整体倾向度；

根据所述待标注文档对所述标注样本集中文档的各标签的整体倾向度，对所述待标注文档推荐标签。

2.根据权利要求1所述的方法，其特征在于，对于所述标注样本集中文档的第一关键词和第一标签，所述第一关键词和所述第一标签分别表示所述标注样本集中文档的任一关键词和任一标签，利用所述倾向度计算模型，按照如下步骤计算所述第一关键词对所述第一标签的倾向度：

计算所述标注样本集中包括所述第一关键词的文档数量，具有所述第一标签的文档数量，以及所述第一关键词和所述第一标签共现的文档数量；

根据包括所述第一关键词的文档数量、具有所述第一标签的文档数量、所述第一关键词和所述第一标签共现的文档数量，计算所述第一关键词在所述标注样本集的文档出现的概率，所述第一标签在所述标注样本集的文档出现的概率，以及所述第一关键词与所述第一标签在所述标注样本集的文档共现的概率；

将上述三种概率输入所述倾向度计算模型，计算得到所述第一关键词对所述第一标签的倾向度。

3.根据权利要求1所述的方法，其特征在于，基于所述倾向度构建倾向度矩阵的步骤，包括：

将所述各关键词对各标签的倾向度标准化，其中，对于所述标注样本集中文档的任意关键词和标签，标准化后的关键词对标签的倾向度等于：该关键词对该标签的倾向度与该关键词对所有标签的倾向度总和的比值；

对标准化后的所述各关键词对各标签的倾向度进行信息增强，所述信息增强包括：按照预设规则增强关键词与标签相同情况下的所述标准化后的关键词对标签的倾向度；

基于所述信息增强后的各倾向度构建所述倾向度矩阵。

4.根据权利要求1所述的方法，其特征在于，还包括：

在构建所述倾向度矩阵之前，将不符合预设条件的关键词与标签词对滤除；

或者，在构建所述倾向度矩阵之后，将所述倾向度矩阵中与所述不符合预设条件的关键词与标签词对相对应的倾向度滤除。

5.根据权利要求1所述的方法，其特征在于，所述倾向度矩阵的行对应所述标注样本集中文档的各关键词，所述倾向度矩阵的列对应所述标注样本集中文档的各标签；

从所述倾向度矩阵中提取与所述待标注文档的关键词对应的子矩阵的步骤，包括：

从所述倾向度矩阵中提取与目标关键词对应的各行，得到所述子矩阵，所述目标关键词是所述待标注文档的关键词集合中，与所述标注样本集中文档的关键词相同的关键词。

6.根据权利要求5所述的方法，其特征在于，还包括：利用TF-IDF算法计算标注样本集中文档的各关键词的权重，其中，一关键词的权重等于该关键词的词频与逆向文件频率的乘积；

利用所述子矩阵，计算所述待标注文档对所述标注样本集中文档的各标签的整体倾向度的步骤，包括：

按照所述目标关键词的权重，对与所述子矩阵按列加权求和，得到所述待标注文档对所述标注样本集中文档的各标签的整体倾向度。

7.一种标签推荐装置，其特征在于，包括：

倾向度矩阵构建模块，用于利用倾向度计算模型，计算标注样本集中文档的各关键词对各标签的倾向度，并基于所述倾向度构建倾向度矩阵，其中，关键词对标签的倾向度体现该关键词与该标签的共现性；

子矩阵提取模块，用于对待标注文档提取关键词，并从所述倾向度矩阵中提取与所述待标注文档的关键词对应的子矩阵；

整体倾向度计算模块，用于利用所述子矩阵，计算所述待标注文档对所述标注样本集中文档的各标签的整体倾向度；

标签推荐模块，用于根据所述待标注文档对所述标注样本集中文档的各标签的整体倾向度，对所述待标注文档推荐标签。

8.根据权利要求7所述的装置，其特征在于，所述倾向度矩阵构建模块包括倾向度计算子模块，用于：

对于所述标注样本集中文档的第一关键词和第一标签，所述第一关键词和所述第一标签分别表示所述标注样本集中文档的任一关键词和任一标签，利用所述倾向度计算模型，按照如下步骤计算所述第一关键词对所述第一标签的倾向度：计算所述标注样本集中包括所述第一关键词的文档数量，具有所述第一标签的文档数量，以及所述第一关键词和所述第一标签共现的文档数量；根据包括所述第一关键词的文档数量、具有所述第一标签的文档数量、所述第一关键词和所述第一标签共现的文档数量，计算所述第一关键词在所述标注样本集的文档出现的概率，所述第一标签在所述标注样本集的文档出现的概率，以及所述第一关键词与所述第一标签在所述标注样本集的文档共现的概率；将上述三种概率输入所述倾向度计算模型，计算得到所述第一关键词对所述第一标签的倾向度。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。