CN113282807B

CN113282807B - 基于二部图的关键词扩展方法、装置、设备及介质

Info

Publication number: CN113282807B
Application number: CN202110727128.8A
Authority: CN
Inventors: 纪曾文
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-09-02
Anticipated expiration: 2041-06-29
Also published as: CN113282807A

Abstract

本发明公开了基于二部图的关键词扩展方法、装置、设备及介质，涉及人工智能技术，在服务器中可以基于每一条用户行为数据进行用户画像的构建，这样即可得到与每一用户行为数据对应的多个标签集，而且由所有用户对应的标签集组成一个历史用户标签集。在服务器中还能基于历史用户标签集绘制标签二部图，从而分析出各个用户标签之间的关联关系，从而基于标签二部图实现对标签的近似扩展。

Description

基于二部图的关键词扩展方法、装置、设备及介质

技术领域

本发明涉及人工智能的脸谱画像技术领域，尤其涉及一种基于二部图的关键词扩展方法、装置、设备及介质。

背景技术

兴趣标签扩展的应用场景为当用户的兴趣标签过少，不足以表征用户兴趣的时候，需要结合用户的过往行为和现有的兴趣标签，进行扩展，用来丰富用户的兴趣标签，从而增强推荐系统对用户推荐更加丰富的内容。

目前有一种实现方法是基于已有的语料，经word2vec算法训练，获得每个词的词向量，然后基于向量运算，获得每个词的相似词，然后在用户的兴趣标签中，对每个标签进行相似扩展，得到兴趣扩展标签集，但是这种方法完全依赖于在文本中的词与词的关系，没有考虑到用户行为的影响，导致扩展得到的用户标签准确度不高。

发明内容

本发明实施例提供了一种基于二部图的关键词扩展方法、装置、设备及介质，旨在解决现有技术中是获取每个兴趣标签在词向量上相似度大的近似词来扩展兴趣标签，完全依赖于在文本中的词与词的关系，没有考虑到用户行为的影响，导致扩展得到的用户标签准确度不高的问题。

第一方面，本发明实施例提供了一种基于二部图的关键词扩展方法，其包括：

接收多个用户端上传的用户行为数据，组成历史用户数据集；

对所述历史用户行为数据集中各条用户行为数据根据预设的标签转化策略进行标签转换，得到与各条用户行为数据分别对应的用户兴趣画像；

统计各用户兴趣画像中包括的用户标签，组成历史用户标签集；

对所述历史用户标签集中每一用户标签根据标签之间的关联关系对应构建用户标签二部图；

接收用户端上传的待扩展标签名称，在所述历史用户标签集中获取所述待扩展标签名称对应的目标用户标签；

获取所述目标用户标签对应的目标用户标签二部图，将所述目标用户标签二部图中边的权重值按降序进行排序，得目标边权重值排序结果；

获取所述目标边权重值排序结果中权重排名值未超出预设排名阈值的权重值组成目标权重值集，获取所述目标权重值集中各权重值对应的用户标签组成用户标签初始扩展结果；以及

将所述用户标签初始扩展结果中的用户标签进行去重，得到用户标签扩展结果，并将所述用户标签扩展结果发送至用户端。

第二方面，本发明实施例提供了一种基于二部图的关键词扩展装置，其包括：

历史用户数据获取单元，用于接收多个用户端上传的用户行为数据，组成历史用户数据集；

用户兴趣画像获取单元，用于对所述历史用户行为数据集中各条用户行为数据根据预设的标签转化策略进行标签转换，得到与各条用户行为数据分别对应的用户兴趣画像；

历史用户标签集获取单元，用于统计各用户兴趣画像中包括的用户标签，组成历史用户标签集；

二部图构建单元，用于对所述历史用户标签集中每一用户标签根据标签之间的关联关系对应构建用户标签二部图；

待扩展标签接收单元，用于接收用户端上传的待扩展标签名称，在所述历史用户标签集中获取所述待扩展标签名称对应的目标用户标签；

权重值排序单元，用于获取所述目标用户标签对应的目标用户标签二部图，将所述目标用户标签二部图中边的权重值按降序进行排序，得目标边权重值排序结果；

初始扩展结果获取单元，用于获取所述目标边权重值排序结果中权重排名值未超出预设排名阈值的权重值组成目标权重值集，获取所述目标权重值集中各权重值对应的用户标签组成用户标签初始扩展结果；以及

标签去重单元，用于将所述用户标签初始扩展结果中的用户标签进行去重，得到用户标签扩展结果，并将所述用户标签扩展结果发送至用户端。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于二部图的关键词扩展方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于二部图的关键词扩展方法。

本发明实施例提供了一种基于二部图的关键词扩展方法、装置、设备及介质，在服务器中可以基于每一条用户行为数据进行用户画像的构建，这样即可得到与每一用户行为数据对应的多个标签集，而且由所有用户对应的标签集组成一个历史用户标签集。在服务器中还能基于历史用户标签集绘制标签二部图，从而分析出各个用户标签之间的关联关系，从而基于标签二部图实现对标签的近似扩展。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于二部图的关键词扩展方法的应用场景示意图；

图2为本发明实施例提供的基于二部图的关键词扩展方法的流程示意图；

图2a为本发明实施例提供的基于二部图的关键词扩展方法中tag1的二部图的示意图；

图3为本发明实施例提供的基于二部图的关键词扩展装置的示意性框图；

图4为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的基于二部图的关键词扩展方法的应用场景示意图；图2为本发明实施例提供的基于二部图的关键词扩展方法的流程示意图，该基于二部图的关键词扩展方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S101～S108。

S101、接收多个用户端上传的用户行为数据，组成历史用户数据集。

在本实施例中，为了更清楚的理解本申请的技术方案，下面对所涉及的执行主体进行详细介绍。本申请以服务器为执行主体来描述技术方案。

服务器，其中存储有多个用户端上传的用户行为数据，每一条用户行为数据均包括多个字段因子取值(其中，必包括一项用于标识用户身份的用户唯一识别码)，每一个字段因子取值对应一个字段因子。在服务器中可以基于每一条用户行为数据进行用户画像的构建，这样即可得到与每一用户行为数据对应的多个标签集，而且由所有用户对应的标签集组成一个历史用户标签集。在服务器中还能基于历史用户标签集绘制标签二部图，从而分析出各个用户标签之间的关联关系，从而基于标签二部图实现对标签的近似扩展。

用户端，其为用户使用的智能手机、平板电脑等智能终端，用户可以在使用用户端中安装的应用程序时在获得用户授权的情况下上传用户行为数据，且每一条用户行为数据均包括多个字段因子取值，每一个字段因子取值对应一个字段因子。而且用户还可以操作用户端上传待扩展标签名称至服务器，以获取由服务器反馈的用户标签扩展结果。

其中，当服务器接收到了多个用户端上传的用户行为数据后，均存储于服务器中的同一数据表中，从而组成历史用户数据集。通过服务器收集大量的用户行为数据，能有更充分的数据量进行相似标签的分析。其中，所述历史用户数据集中的每一条用户行为数据均包括多个字段因子取值，每一个字段因子取值对应一个字段因子。

S102、对所述历史用户行为数据集中各条用户行为数据根据预设的标签转化策略进行标签转换，得到与各条用户行为数据分别对应的用户兴趣画像。

在本实施例中，当服务器中存储了历史用户行为数据集后，可以针对每一条用户行为数据进行用户兴趣画像的构建，从而更加进准的刻画每一用户。具体是在服务器中将各条用户行为数据根据预设的标签转化策略进行标签转换，得到与各条用户行为数据分别对应的用户兴趣画像。其中，每一条用户行为数据对应的用户兴趣画像中包括至少一个用户标签。

例如用户行为数据A中包括点击购物软件电器板块产品3次、本周日均慢跑半小时、本周累计听音乐7小时，这样根据预设的标签转化策略进行标签转换，得到与用户行为数据A对应的用户兴趣画像中包括至少三个标签，分别是“电子产品爱好者”、“运动新手”、“音乐中度爱好者”。

在一实施例中，以获取一条用户行为数据对应的用户兴趣画像为例，步骤S102包括：

获取用户行为数据中包括的字段因子；

获取与用户行为数据中每一字段因子对应的标签转化子策略；

将用户行为数据中每一字段因子对应的字段因子取值根据相应标签转化子策略进行标签转换，得到与用户行为数据中每一字段因子分别对应的用户标签并组成用户兴趣画像。

在本实施例中，为了更精准的刻画用户，可以选择将用户行为数据中每一字段因子取值转化为对应的用户标签，从而得到一个最为详细的用户兴趣画像。为了实现这一转换，需要针对用户行为数据中每一字段因子设置一个标签转化子策略，这样在服务器中能将用户行为数据中每一字段因子取值均能根据对应的标签转化子策略转化为用户标签。

具体实施时，还能根据预先设置的字段因子筛选策略获取每一用户行为数据中的核心字段因子，然后基于这些核心字段因子对应取值进行用户标签的转换，从而得到一个维度相对简化后的用户兴趣画像。

S103、统计各用户兴趣画像中包括的用户标签，组成历史用户标签集。

在本实施例中，当服务器中获取了所述历史用户行为数据集中各条用户行为数据对应的用户兴趣画像后，即可基于所有用户兴趣画像进行用户标签的统计，得到包括所有用户兴趣画像中各用户标签的历史用户标签集。基于这一标签汇总统计操作后，可以此为基础分析各用户标签之间的实际相似度。

S104、对所述历史用户标签集中每一用户标签根据标签之间的关联关系对应构建用户标签二部图。

在本实施例中，所述用户标签二部图中的节点对应一个用户标签，用户标签二部图中节点之间的连线对应边的权重值，用户标签二部图中具有连线的相邻节点包括部分相同用户。在基于历史用户数据集汇总获取了历史用户标签集后，可以每一用户标签为二部图的起始节点来构建用户标签二部图，例如先选定历史用户标签集中的用户标签tag1来绘制用户标签二部图，若历史用户标签集中的用户标签tag2和用户标签tag3与用户标签tag1具有共同用户(也就是3个标签各自对应的用户群中有相同用户)，这样即可针对用户标签tag1来绘制用户标签二部图，如下图2a。

首先因为历史用户标签集中的用户标签tag2与用户标签tag1具有共同用户，且用户标签tag3与用户标签tag1具有共同用户，可以先用双向的连接线来连接用户标签tag2对应的节点和用户标签tag1对应的节点，而且也用双向的连接线来连接用户标签tag3对应的节点和用户标签tag1对应的节点。

之后统计用户标签tag2和用户标签tag1之间的共同用户的总个数freq(tag1,tag2)，统计用户标签tag3和用户标签tag1之间的共同用户的总个数freq(tag1,tag3)；由weight(tag1,tag2)＝freq(tag1,tag2)/(freq(tag1,tag2)+freq(tag1,tag3))来计算用户标签tag2对应的节点和用户标签tag1对应的节点之间连接线对应的权重weight(tag1,tag2)。

也由weight(tag1,tag3)＝freq(tag1,tag3)/(freq(tag1,tag2)+freq(tag1,tag3))来计算用户标签tag3对应的节点和用户标签tag1对应的节点之间连接线对应的权重weight(tag1,tag3)。当完成了用户标签二部图的构建后，可以直观的看到每一用户标签对应有关联关系的标签，而且与各标签之间的关联关系的重要程度由变得权重值决定。

在一实施例中，步骤S104包括：

获取所述历史用户标签集中的第i号用户标签；其中，i的初始值为1，且i的取值范围是[1,N]，N为所述历史用户标签集中用户标签的总个数；

获取所述第i号用户标签对应的第i号用户唯一识别码集，并获取所述历史用户标签集中除第i号用户标签之外的其他用户标签所各自相应的用户唯一识别码集；

若确定有其他用户标签相应的用户唯一识别码集中与第i号用户唯一识别码集存在相同的用户唯一识别码，获取对应的其他用户标签组成第i号目标用户标签集；

构建第i号目标用户标签集中各用户标签所相应节点与所述第i号用户标签所相应节点之间的关联关系；

获取第i号用户唯一识别码集与第i号目标用户标签集中各用户标签分别对应的用户唯一识别码集之间的协同信息量比重，作为第i号目标用户标签集中各用户标签所相应节点与所述第i号用户标签所相应节点之间边的权重值；其中，获取第i号目标用户标签集中任意一个用户标签对应的用户唯一识别码集与所述第i号用户唯一识别码集之间的协同信息量比重时，是由第一共有用户频率与第二共有用户频率相除得到，其中在第i号目标用户标签集中对应选定的用户标签所相应用户唯一识别码集与第i号用户唯一识别码集之间共有用户总数的倒数为第一共有用户频率，第i号目标用户标签集中各用户标签分别对应的用户唯一识别码集与第i号用户唯一识别码集之间共有用户总数的倒数之和为第二共有用户频率；

根据第i号目标用户标签集中各用户标签所相应节点与所述第i号用户标签所相应节点之间边的权重值，以及第i号目标用户标签集中各用户标签所相应节点与所述第i号用户标签所相应节点之间的关联关系获取所述第i号用户标签对应的第i号用户标签二部图；

将i自增1更新i的取值；

若确定i未超出N，返回执行获取所述历史用户标签集中的第i号用户标签的步骤；

若确定i超出N，获取第1号用户标签二部图至第N号用户标签二部图并存储。

在本实施例中，是依次对所述历史用户标签集中每一个用户标签按照上述步骤获取对应的用户标签二部图，通过这一处理，可以深度挖掘出每一用户标签基于二部图得到的相似标签，可以用作后续标签扩展的参考。

S105、接收用户端上传的待扩展标签名称，在所述历史用户标签集中获取所述待扩展标签名称对应的目标用户标签。

在本实施例中，当用户需要针对某一用户标签进行扩展时，为了避免通过人工处理的方式来获取，可以将待扩展标签名称上传至服务器。当服务器接收到了所述待扩展标签名称后，可以先获取本地存储的历史用户标签集，然后在所述历史用户标签集中获取所述待扩展标签名称对应的目标用户标签。其中，在所述历史用户标签集中获取目标用户标签时，可以由多种方式实现，例如通过获取待扩展标签名称的最近似用户标签作为目标用户标签，或者是通过与获取待扩展标签名称完全相同的用户标签作为目标用户标签。以服务器中的所述历史用户标签集作为参考数据集，能有效地获取到相似用户标签来进行标签扩展。

在一实施例中，作为获取目标用户标签的第一具体实施例，步骤S105包括：

在所述历史用户标签集中获取具有所述待扩展标签名称的目标用户标签。

在本实施例中，第一种获取目标用户标签的方式是在所述历史用户标签集中以所述待扩展标签名称为检索条件进行检索，在所述历史用户标签集中获取到与所述待扩展标签名称具有完全相同名称的用户标签作为目标用户标签，之后基于该目标用户标签的近似标签进行扩展。

在一实施例中，作为获取目标用户标签的第二具体实施例，步骤S105包括：

在所述历史用户标签集中获取与所述待扩展标签名称之间的相似度值为最大值的用户标签，作为目标用户标签。

在本实施例中，第二种获取目标用户标签的方式是在所述历史用户标签集中以所述待扩展标签名称为检索条件进行检索，若所述历史用户标签集中的各用户标签与所述待扩展标签名称都不相同，此时可以获取与所述待扩展标签名称对应的语义向量，并获取所述历史用户标签集中的各用户标签对应的语义向量，通过计算所述待扩展标签名称对应的语义向量与各用户标签对应的语义向量之间的余弦相似度作为所述待扩展标签名称与各用户标签之间的相似度值，最后在所述历史用户标签集中获取与所述待扩展标签名称之间的相似度值为最大值的用户标签，作为目标用户标签，之后基于该目标用户标签的近似标签进行扩展。

S106、获取所述目标用户标签对应的目标用户标签二部图，将所述目标用户标签二部图中边的权重值按降序进行排序，得目标边权重值排序结果。

在本实施例中，当获取到了所述目标用户标签后，可以在服务器中检索获取对应的目标用户二部图，具体是直接以目标用户标签的名称为检索条件在用户标签二部图中包括的所有节点名称中检索，一旦定位到该目标节点则获取该目标节点对应的目标用户标签二部图。由于目标用户标签二部图中每一条连接线都代表两个用户标签之间的关联程度，也就是连接线所对应的边的权重值越大，表示这两个用户标签之前的关联程度越高，这样将所述目标用户标签二部图中边的权重值按降序进行排序，得目标边权重值排序结果。通过这一降序排序方式，可以得到各用户标签与目标用户标签之间的关联程度的大小排序，便于后续从其中筛选出重要的用户标签作为扩展标签使用。

S107、获取所述目标边权重值排序结果中权重排名值未超出预设排名阈值的权重值组成目标权重值集，获取所述目标权重值集中各权重值对应的用户标签组成用户标签初始扩展结果。

在本实施例中，例如预设排名阈值设置为K(更具体如K的取值为5,10或者20等数值)，在服务器中先获取所述目标边权重值排序结果中权重排名值未超出预设排名阈值的权重值组成目标权重值集后，最后再获取所述目标权重值集中各权重值对应的用户标签，从而得到了与所述目标用户标签对应的用户标签初始扩展结果。这一自动筛选过程，不仅处理过程较快，而且得到的处理结果也是准确的。

S108、将所述用户标签初始扩展结果中的用户标签进行去重，得到用户标签扩展结果，并将所述用户标签扩展结果发送至用户端。

在本实施例中，由于所述用户标签初始扩展结果中可能存在重复用户标签的情况，此时将其中重复的用户标签进行去重，得到用户标签扩展结果，并将所述用户标签扩展结果发送至用户端。通过这一方式，实现了基于用户标签二部图实现相似标签的扩展。

在一实施例中，步骤S108之后还包括：

获取所述用户标签扩展结果中各用户标签与待扩展标签名称之间的相似度值并按照降序顺序排序得到标签相似度排序结果，根据所述标签相似度排序结果对应获取用户标签扩展结果排序结果。

在本实施例中，为了进一步分析用户标签扩展结果中各用户标签与待扩展标签名称之间的相似度，可以将所述用户标签扩展结果中各用户标签与待扩展标签名称计算相似度然后再次排序，从而得到用户标签扩展结果排序结果。基于所得到的用户标签扩展结果排序结果，用户可以获取扩展标签中与待扩展标签名称在名称这一维度和存在共同用户这一维度上均近似的扩展结果。

在一实施例中，步骤S108之后还包括：

获取与所述用户标签扩展结果中各用户标签对应的推荐内容集并发送至用户端。

在本实施例中，在获取了所述用户标签扩展结果后，可以基于每一用户标签在服务器本地筛选对应的热门推荐内容集，并将这些热门推荐内容集推送至用户端进行查看，实现基于扩展用户标签的内容推荐。

该方法基于历史用户标签集绘制标签二部图，从而分析出各个用户标签之间的关联关系，从而基于标签二部图实现对标签的近似扩展。

本发明实施例还提供一种基于二部图的关键词扩展装置，该基于二部图的关键词扩展装置用于执行前述基于二部图的关键词扩展方法的任一实施例。具体地，请参阅图3，图3是本发明实施例提供的基于二部图的关键词扩展装置的示意性框图。该基于二部图的关键词扩展装置100可以配置于服务器中。

如图3所示，基于二部图的关键词扩展装置100包括：历史用户数据获取单元101、用户兴趣画像获取单元102、历史用户标签集获取单元103、二部图构建单元104、待扩展标签接收单元105、权重值排序单元106、初始扩展结果获取单元107、标签去重单元108。

历史用户数据获取单元101，用于接收多个用户端上传的用户行为数据，组成历史用户数据集。

在本实施例中，当服务器接收到了多个用户端上传的用户行为数据后，均存储于服务器中的同一数据表中，从而组成历史用户数据集。通过服务器收集大量的用户行为数据，能有更充分的数据量进行相似标签的分析。

用户兴趣画像获取单元102，用于对所述历史用户行为数据集中各条用户行为数据根据预设的标签转化策略进行标签转换，得到与各条用户行为数据分别对应的用户兴趣画像。

在本实施例中，当服务器中存储了历史用户行为数据集后，可以针对每一条用户行为数据进行用户兴趣画像的构建，从而更加进准的刻画每一用户。具体是在服务器中将各条用户行为数据根据预设的标签转化策略进行标签转换，得到与各条用户行为数据分别对应的用户兴趣画像。

在一实施例中，以获取一条用户行为数据对应的用户兴趣画像为例，用户兴趣画像获取单元102包括：

字段因子获取单元，用于获取用户行为数据中包括的字段因子；

标签转化子策略获取单元，用于获取与用户行为数据中每一字段因子对应的标签转化子策略；

标签转换单元，用于将用户行为数据中每一字段因子对应的字段因子取值根据相应标签转化子策略进行标签转换，得到与用户行为数据中每一字段因子分别对应的用户标签并组成用户兴趣画像。

历史用户标签集获取单元103，用于统计各用户兴趣画像中包括的用户标签，组成历史用户标签集。

二部图构建单元104，用于对所述历史用户标签集中每一用户标签根据标签之间的关联关系对应构建用户标签二部图。

在本实施例中，在基于历史用户数据集汇总获取了历史用户标签集后，可以每一用户标签为二部图的起始节点来构建用户标签二部图，例如先选定历史用户标签集中的用户标签tag1来绘制用户标签二部图，若历史用户标签集中的用户标签tag2和用户标签tag3与用户标签tag1具有共同用户(也就是3个标签各自对应的用户群中有相同用户)，这样即可针对用户标签tag1来绘制用户标签二部图，如下图2a。

在一实施例中，二部图构建单元104包括：

用户标签获取单元，用于获取所述历史用户标签集中的第i号用户标签；其中，i的初始值为1，且i的取值范围是[1,N]，N为所述历史用户标签集中用户标签的总个数；

用户唯一识别码集获取单元，用于获取所述第i号用户标签对应的第i号用户唯一识别码集，并获取所述历史用户标签集中除第i号用户标签之外的其他用户标签所各自相应的用户唯一识别码集；

目标用户标签集获取单元，用于若确定有其他用户标签相应的用户唯一识别码集中与第i号用户唯一识别码集存在相同的用户唯一识别码，获取对应的其他用户标签组成第i号目标用户标签集；

关联关系构建单元，用于构建第i号目标用户标签集中各用户标签所相应节点与所述第i号用户标签所相应节点之间的关联关系；

边权重值获取单元，用于获取第i号用户唯一识别码集与第i号目标用户标签集中各用户标签分别对应的用户唯一识别码集之间的协同信息量比重，作为第i号目标用户标签集中各用户标签所相应节点与所述第i号用户标签所相应节点之间边的权重值；其中，获取第i号目标用户标签集中任意一个用户标签对应的用户唯一识别码集与所述第i号用户唯一识别码集之间的协同信息量比重时，是由第一共有用户频率与第二共有用户频率相除得到，其中在第i号目标用户标签集中对应选定的用户标签所相应用户唯一识别码集与第i号用户唯一识别码集之间共有用户总数的倒数为第一共有用户频率，第i号目标用户标签集中各用户标签分别对应的用户唯一识别码集与第i号用户唯一识别码集之间共有用户总数的倒数之和为第二共有用户频率；

用户标签二部图获取单元，用于根据第i号目标用户标签集中各用户标签所相应节点与所述第i号用户标签所相应节点之间边的权重值，以及第i号目标用户标签集中各用户标签所相应节点与所述第i号用户标签所相应节点之间的关联关系获取所述第i号用户标签对应的第i号用户标签二部图；

序号值更新单元，用于将i自增1更新i的取值；

第一控制单元，用于若确定i未超出N，返回执行获取所述历史用户标签集中的第i号用户标签的步骤；

第二控制单元，用于若确定i超出N，获取第1号用户标签二部图至第N号用户标签二部图并存储。

待扩展标签接收单元105，用于接收用户端上传的待扩展标签名称，在所述历史用户标签集中获取所述待扩展标签名称对应的目标用户标签。

在一实施例中，作为获取目标用户标签的第一具体实施例，待扩展标签接收单元105还用于：

在一实施例中，作为获取目标用户标签的第二具体实施例，待扩展标签接收单元105还用于：

权重值排序单元106，用于获取所述目标用户标签对应的目标用户标签二部图，将所述目标用户标签二部图中边的权重值按降序进行排序，得目标边权重值排序结果。

初始扩展结果获取单元107，用于获取所述目标边权重值排序结果中权重排名值未超出预设排名阈值的权重值组成目标权重值集，获取所述目标权重值集中各权重值对应的用户标签组成用户标签初始扩展结果。

标签去重单元108，用于将所述用户标签初始扩展结果中的用户标签进行去重，得到用户标签扩展结果，并将所述用户标签扩展结果发送至用户端。

在一实施例中，基于二部图的关键词扩展装置100还包括：

排序结果获取单元，用于获取所述用户标签扩展结果中各用户标签与待扩展标签名称之间的相似度值并按照降序顺序排序得到标签相似度排序结果，根据所述标签相似度排序结果对应获取用户标签扩展结果排序结果。

在一实施例中，基于二部图的关键词扩展装置100还包括：

推荐内容获取单元，用于获取与所述用户标签扩展结果中各用户标签对应的推荐内容集并发送至用户端。

该装置实现了基于历史用户标签集绘制标签二部图，从而分析出各个用户标签之间的关联关系，从而基于标签二部图实现对标签的近似扩展。

上述基于二部图的关键词扩展装置可以实现为计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图4，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于二部图的关键词扩展方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于二部图的关键词扩展方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的基于二部图的关键词扩展方法。

本领域技术人员可以理解，图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图4所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的基于二部图的关键词扩展方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于二部图的关键词扩展方法，其特征在于，包括：

将所述用户标签初始扩展结果中的用户标签进行去重，得到用户标签扩展结果，并将所述用户标签扩展结果发送至用户端；

所述对所述历史用户行为数据集中各条用户行为数据根据预设的标签转化策略进行标签转换，得到与各条用户行为数据分别对应的用户兴趣画像，包括：

获取用户行为数据中包括的字段因子；

2.根据权利要求1所述的基于二部图的关键词扩展方法，其特征在于，所述对所述历史用户标签集中每一用户标签根据标签之间的关联关系对应构建用户标签二部图，包括：

将i自增1更新i的取值；

3.根据权利要求1所述的基于二部图的关键词扩展方法，其特征在于，所述接收用户端上传的待扩展标签名称，在所述历史用户标签集中获取所述待扩展标签名称对应的目标用户标签，包括：

4.根据权利要求1所述的基于二部图的关键词扩展方法，其特征在于，所述接收用户端上传的待扩展标签名称，在所述历史用户标签集中获取所述待扩展标签名称对应的目标用户标签，包括：

5.根据权利要求1所述的基于二部图的关键词扩展方法，其特征在于，所述将所述用户标签初始扩展结果中的用户标签进行去重，得到用户标签扩展结果，并将所述用户标签扩展结果发送至用户端之后，还包括：

6.根据权利要求1所述的基于二部图的关键词扩展方法，其特征在于，所述将所述用户标签初始扩展结果中的用户标签进行去重，得到用户标签扩展结果，并将所述用户标签扩展结果发送至用户端之后，还包括：

7.一种基于二部图的关键词扩展装置，其特征在于，包括：

标签去重单元，用于将所述用户标签初始扩展结果中的用户标签进行去重，得到用户标签扩展结果，并将所述用户标签扩展结果发送至用户端；

所述用户兴趣画像获取单元包括：

8.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于二部图的关键词扩展方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的基于二部图的关键词扩展方法。