CN111931061A

CN111931061A - 标签映射方法、装置、计算机设备及存储介质

Info

Publication number: CN111931061A
Application number: CN202010870420.0A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-11-13
Anticipated expiration: 2040-08-26
Also published as: CN111931061B

Abstract

本申请是关于一种标签映射方法、装置、计算机设备及存储介质，涉及网络推荐技术领域。所述方法包括：获取目标内容的内容文本和原始标签；对所述目标内容的内容文本以及所述目标内容的原始标签进行向量融合，获得所述目标内容的内容标签融合向量；将所述内容标签融合向量与各个候选标签的标签向量进行相似度计算；基于所述内容标签融合向量与所述各个候选标签的标签向量之间的相似度，从所述各个候选标签中获取所述目标内容对应的目标标签。本方案能够基于人工智能方式，结合目标内容的上下文和已有的标签进行标签映射，获得的目标标签能够更准确的指示目标内容，从而提高了对目标内容进行标签映射的准确性。

Description

标签映射方法、装置、计算机设备及存储介质

技术领域

本申请涉及网络推荐技术领域，特别涉及一种标签映射方法、装置、计算机设备及存储介质。

背景技术

内容推荐平台基于标签向用户推荐网络内容时，通常有向用户推送外部平台的网络内容的需求，这就需要在内容推荐平台中设置外部平台的网络内容的标签。

不同的内容推荐平台通常具有各自的标签体系，为了有效利用已有的标签。在相关技术中，在内容推荐平台中设置外部平台的网络内容的标签时，可以将外部平台的网络内容的标签，映射为当前内容推荐平台的标签体系中的标签。例如，对于一个外部平台的网络内容，获取该网络内容在外部平台中的原始标签，并计算该原始标签与当前内容推荐平台的标签体系中的各个标签之间的相关性，将其中相关性最高的标签映射为该网络内容对应在当前内容推荐平台中的标签。

然而，上述原始标签与当前内容推荐平台的标签体系中的标签之间通常存在一定的语义漂移，直接计算标签之间的相关性会导致标签映射不准确。

发明内容

本申请实施例提供了一种标签映射方法、装置、计算机设备及存储介质，可以在标签映射过程中引入目标内容的上下文信息，从而提高标签映射的准确性，该技术方案如下：

一方面，提供了一种标签映射方法，所述方法包括：

获取目标内容的内容文本；

获取所述目标内容的原始标签；

对所述目标内容的内容文本以及所述目标内容的原始标签进行向量融合，获得所述目标内容的内容标签融合向量；

将所述内容标签融合向量与各个候选标签的标签向量进行相似度计算；

基于所述内容标签融合向量与所述各个候选标签的标签向量之间的相似度，从所述各个候选标签中获取所述目标内容对应的目标标签。

一方面，提供了一种向量融合模型训练方法，所述方法包括：

将内容样本的内容文本以及所述内容样本的原始标签输入双塔模型中的第一模型分支，获得所述内容样本的内容标签融合向量样本；

将所述内容样本的样本标签输入所述双塔模型中的第二模型分支，获得所述样本标签的标签向量；所述样本标签属于各个候选标签；

将所述内容标签融合向量样本与所述样本标签的标签向量进行相似度计算；

根据所述内容标签融合向量样本与所述样本标签的标签向量之间的相似度，对所述第一模型分支和所述第二模型分支的参数进行更新；

响应于所述双塔模型训练结束，将所述第一模型分支获取为向量融合模型。

又一方面，提供了一种标签映射装置，所述装置包括：

文本获取模块，用于获取目标内容的内容文本；

原始标签获取模块，用于获取所述目标内容的原始标签；

向量融合模块，用于对所述目标内容的内容文本以及所述目标内容的原始标签进行向量融合，获得所述目标内容的内容标签融合向量；

第一相似度计算模块，用于将所述内容标签融合向量与各个候选标签的标签向量进行相似度计算；

目标标签获取模块，用于基于所述内容标签融合向量与所述各个候选标签的标签向量之间的相似度，从所述各个候选标签中获取所述目标内容对应的目标标签。

在一种可能的实现方式中，所述向量融合模块，用于将所述目标内容的内容文本以及所述目标内容的原始标签输入至向量融合模型，获得所述向量容和模型输出的所述内容标签融合向量；所述向量融合模型是以内容样本的内容文本以及所述内容样本的原始标签为输入，以所述内容样本的样本标签为目标进行训练获得的；所述样本标签是所述各个候选标签中的一个或多个。

在一种可能的实现方式中，所述向量融合模块，用于，

通过所述向量融合模型中的第一向量转化层，将所述目标内容的内容文本转化为文本向量；

通过所述向量融合模型中的第二向量转化层，将所述目标内容的原始标签转化为原始标签向量；

基于注意力机制的方式将所述文本向量和所述原始标签向量进行向量融合，获得所述内容标签融合向量。

在一种可能的实现方式中，所述向量融合模块，用于，

以所述文本向量为查询输入，基于注意力机制的方式获取所述原始标签向量的权重；

基于所述原始标签向量的权重，对所述原始标签向量进行加权求和，获得所述原始标签向量的加权和向量；

将所述文本向量以及所述加权和向量进行融合，获得所述内容标签融合向量。

在一种可能的实现方式中，所述目标标签获取模块，用于，

将所述各个候选标签按照对应的标签向量与所述内容标签融合向量之间的相似度从高到低的顺序排列；

将所述各个候选标签中，排列在前K位的候选标签获取为所述目标标签；K为大于或者等于1的整数。

在一种可能的实现方式中，所述文本获取模块，用于，

响应于所述目标内容是音视频内容，将所述音视频内容的标题获取为所述目标内容的内容文本；

响应于所述目标内容是图像内容，将所述图像内容的标题，以及所述图像内容的光学字符识别结果获取为所述目标内容的内容文本；

响应于所述目标内容是文本内容，将所述文本内容的标题，以及所述文本内容中的部分或全部文本，获取为所述目标内容的内容文本。

在一种可能的实现方式中，所述原始标签获取模块，用于，

从所述目标内容所属的内容平台中获取所述目标内容的原始标签；

或者，对所述内容文本进行关键词提取，获得所述目标内容的原始标签；

或者，从所述目标内容的属性信息中读取所述目标内容的原始标签。

在一种可能的实现方式中，所述装置还包括：

第一输入模块，用于将所述内容样本的内容文本以及所述内容样本的原始标签输入双塔模型中的第一模型分支，获得所述内容样本的内容标签融合向量样本；

第二输入模块，用于将所述内容样本的样本标签输入所述双塔模型中的第二模型分支，获得所述样本标签的标签向量；

第二相似度计算模块，用于将所述内容标签融合向量样本与所述样本标签的标签向量进行相似度计算；

参数更新模块，用于根据所述内容标签融合向量样本与所述样本标签的标签向量之间的相似度，对所述第一模型分支和所述第二模型分支的参数进行更新；

模型获取模块，用于响应于所述双塔模型训练结束，将所述第一模型分支获取为所述向量融合模型。

在一种可能的实现方式中，所述装置还包括：

标签获取模块，用于获取所述内容样本的至少两个标签，所述至少两个标签属于所述各个候选标签；

标签设置模块，用于将所述至少两个标签中的部分标签设置为所述内容样本的原始标签，并将所述至少两个标签中的其余部分标签设置为所述内容样本的样本标签。

在一种可能的实现方式中，所述标签设置模块，用于，

获取所述至少两个标签与所述内容样本的相关性；

将所述至少两个标签按照对应的相关性从大到小的顺序进行排列；

将所述至少两个标签中，排在前N位的标签设置为所述内容样本的原始标签，并将所述至少两个标签中的其余部分标签设置为所述内容样本的样本标签；其中，1≤N≤M，且N、M为整数；M为所述至少两个标签的数量。

在一种可能的实现方式中，所述装置还包括：

候选标签向量获取模块，用于响应于所述双塔模型训练结束，通过所述第二模型分支对所述各个候选标签进行向量转化，获得所述各个候选标签的标签向量。

又一方面，提供了一种向量融合模型训练装置，所述装置包括：

第一输入模块，用于将内容样本的内容文本以及所述内容样本的原始标签输入双塔模型中的第一模型分支，获得所述内容样本的内容标签融合向量样本；

第二输入模块，用于将所述内容样本的样本标签输入所述双塔模型中的第二模型分支，获得所述样本标签的标签向量；所述样本标签属于各个候选标签；

相似度计算模块，用于将所述内容标签融合向量样本与所述样本标签的标签向量进行相似度计算；

模型获取模块，用于响应于所述双塔模型训练结束，将所述第一模型分支获取为向量融合模型。

再一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的标签映射方法或者向量融合模型训练方法。

又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述标签映射方法或者向量融合模型训练方法。

又一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述标签映射方法或者向量融合模型训练方法。

本申请提供的技术方案可以包括以下有益效果：

与各个候选标签的标签向量进行匹配的内容标签融合向量中，同时包含了目标内容的内容文本的语义信息，以及目标内容的原始标签的语义信息，能够结合目标内容的上下文和已有的标签进行标签映射，获得的目标标签能够更准确的指示目标内容，从而提高了对目标内容进行标签映射的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请各个实施例涉及的一种内容推荐系统的系统构成图；

图2是根据一示例性实施例示出的一种标签映射方法的流程示意图；

图3是根据一示例性实施例示出的一种模型训练及标签映射的框架图；

图4是根据一示例性实施例示出的向量融合模型训练方法的流程示意图；

图5是根据一示例性实施例示出的模型训练及应用的框架图；

图6是根据一示例性实施例示出的模型训练及标签映射方法的流程示意图；

图7是图6所示实施例涉及的注意力函数的原理图；

图8是图6所示实施例涉及的基于注意力网络的计算流程架构图；

图9是根据一示例性实施例示出的内容推送系统的框架图；

图10是图9所示实施例涉及的模型训练及应用的框架图；

图11是根据一示例性实施例示出的一种标签映射装置的结构方框图；

图12是根据一示例性实施例示出的向量融合模型训练装置的结构方框图；

图13是根据一示例性实施例示出的一种计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在对本申请所示的各个实施例进行说明之前，首先对本申请涉及到的几个概念进行介绍：

1)人工智能(Artificial Intelligence，AI)

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)自然语言处理(Nature Language Processing，NLP)

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

3)机器学习(Machine Learning，ML)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习、自然语言处理等技术，以实现标签映射。

请参考图1，其示出了本申请各个实施例涉及的一种内容推荐系统的系统构成图。如图1所示，该系统包括服务器120、数据库140以及若干个终端160。

服务器120是一台服务器，或者由若干台服务器，或者是一个虚拟化平台，或者是一个云计算服务中心。

服务器120可以是为内容推荐类应用程序提供后台支持的服务器。服务器120可以由一个或多个功能单元组成。

可选的，在一种可能的实现方式中，如图1所示，服务器120可以包括接口单元120a、推荐单元120b。

接口单元120a用于与终端160中安装的内容推荐类应用程序进行信息交互，以获取终端160对应的内容上传请求、内容获取请求，以及，向终端160发送推送结果等等。

推荐单元120b用于根据网络内容的标签，以及用户画像，确定向用户推荐的网络内容。

上述数据库140可以是Redis数据库，或者，也可以是其它类型数据库。其中，数据库140用于存储各类数据，比如，各个网络内容、用户画像等等。

终端160可以是具有网络连接功能，且安装有上述服务器120对应的内容推荐类应用程序的终端设备，比如，终端160可以是智能手机、平板电脑、电子书阅读器、智能眼镜、智能手表、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑等等。可选的，该终端160还可能被称为用户设备、便携式终端、膝上型终端、台式终端等。

在本申请实施例中，上述内容推荐类应用程序可以包括任意提供内容推荐功能的应用程序，比如，包括且不限于视频播放应用程序、视频直播应用程序、新闻类应用程序、阅读类应用程序、音乐播放类应用程序、社交类应用程序、游戏类应用程序、通信类应用程序或者浏览器类应用程序等等。

终端160与服务器120之间通过通信网络相连。可选的，该通信网络是有线网络或无线网络。

可选的，该系统还可以包括管理设备(图1未示出)，该管理设备与服务器120之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

请参考图2，其是根据一示例性实施例示出的一种标签映射方法的流程示意图，该标签映射方法可以用于计算机设备。其中，该计算机设备可以是上述图1所示系统中的服务器120。如图2所示，该标签映射方法可以包括如下步骤：

步骤21，获取目标内容的内容文本。

在本申请实施例中，目标内容是内容推荐平台可推荐的任意形式的内容，比如，目标内容按照内容格式可以分为音视频内容、图像内容、文本内容等等，按照应用类型可以分为新闻、音乐、视频、文章、书籍等等。

在一种可能的实现方式中，目标内容是当前内容推荐平台之外的内容，比如，目标内容是当前内容推荐平台之外其它内容推荐平台中的内容。

步骤22，获取该目标内容的原始标签。

在一种可能的实现方式中，该目标内容的原始标签，是基于当前内容推荐平台的标签体系之外的其它标签体系构建的标签。

在另一种可能的实现方式中，该目标内容的原始标签是未按照任一标签体系构建的标签。

步骤23，对该目标内容的内容文本以及该目标内容的原始标签进行向量融合，获得该目标内容的内容标签融合向量。

在自然语言处理中，为了便于计算两个文本之间的相关性，通常需要将文本先转化为包含对应语义信息的向量，然后再进行相关性计算。

在本申请实施例中，在进行文本-向量的转化时，对目标内容的内容文本和原始标签进行融合，使得转化而来的内容标签融合向量中同时包含了目标内容的内容文本的语义信息，以及目标内容的原始标签的语义信息，从而在目标内容的原始标签中引入了目标内容的上下文信息。

步骤24，将该内容标签融合向量与各个候选标签的标签向量进行相似度计算。

步骤25，基于该内容标签融合向量与该各个候选标签的标签向量之间的相似度，从该各个候选标签中获取该目标内容对应的目标标签。

综上所述，在本申请实施例所示的方案中，由于与各个候选标签的标签向量进行匹配的内容标签融合向量中，同时包含了目标内容的内容文本的语义信息，以及目标内容的原始标签的语义信息，因此能够结合目标内容的上下文和已有的标签进行标签映射，获得的目标标签能够更准确的指示目标内容，从而提高了对目标内容进行标签映射的准确性。

在本申请实施例所示的方案中，将内容推荐平台之外的网络内容的标签映射到内容推荐平台自有的标签体系中，从而提高后续基于标签向用户推荐内容推荐平台之外的网络内容的准确性。上述方案的应用场景包括且不限于以下两种：

1、对于已经按照内容推荐平台之外的标签体系构建了原始标签的目标内容，进行内容标签的重构。

比如，对于内容推荐平台1，和内容推荐平台2；内容推荐平台1和内容推荐平台2具有各自的标签体系，其中，内容推荐平台1中的目标内容的原始标签是按照内容推荐平台1的标签体系构建的；内容推荐平台2可以按照上述图2所示的方案，将目标内容的原始标签映射为内容推荐平台2的标签体系中的目标标签，从而在内容推荐平台2中，对该目标内容的标签进行重构。

2、对于刚上传至内容推荐平台，尚未来得及构建标签的目标内容进行标签构建。

比如，对于内容推荐平台1，当终端在该内容推荐平台中首次上传目标内容时，内容推荐平台需要基于自己的标签体系，对该目标内容进行标签构建。在此过程中，内容推荐平台1可以按照上述图2所示的方案，首先通过简单的方式(比如简单的关键词提取方式)提取目标内容的原始标签，然后基于提取到的原始标签的目标内容的内容文本，将原始标签映射为内容推荐平台1的标签体系中的目标标签，从而辅助进行新内容的标签构建。

在本申请上述图2所示的方案中，对该目标内容的内容文本以及该目标内容的原始标签进行向量融合的步骤可以通过预先训练好的机器学习模型来实现。

比如，本申请实施例的方案包括模型训练阶段和标签映射阶段。图3是根据一示例性实施例示出的一种模型训练及标签映射的框架图。如图3所示，在模型训练阶段，模型训练设备310通过预先设置好的训练样本(包括内容样本、内容样本的原始标签以及内容样本的样本标签)，得到向量融合模型。在标签映射阶段，标签映射设备320基于该向量融合模型，对输入的目标内容的内容文本和原始标签进行融合，并基于融合结果进行标签映射。

其中，上述模型训练设备310和标签映射设备320可以是计算机设备，比如，该计算机设备可以是个人电脑、服务器等固定式计算机设备，或者，该计算机设备也可以是平板电脑、电子书阅读器等移动式计算机设备。

可选的，上述模型训练设备310和标签映射设备320可以是同一个设备，或者，模型训练设备310和标签映射设备320也可以是不同的设备。并且，当模型训练设备310和标签映射设备320是不同的设备时，模型训练设备310和标签映射设备320可以是同一类型的设备，比如模型训练设备310和标签映射设备320可以都是服务器；或者，模型训练设备310和标签映射设备320也可以是不同类型的设备，比如模型训练设备310可以是个人电脑或者个人工作站，而标签映射设备320可以是服务器等。本申请实施例对于模型训练设备310和标签映射设备320的具体类型不做限定。

请参考图4，其是根据一示例性实施例示出的一种向量融合模型训练方法的流程示意图，该向量融合模型训练方法可以用于计算机设备，比如上述图1所示的服务器120，或者上述图3所示的模型训练设备310中。如图4所示，该向量融合模型训练方法可以包括如下步骤：

步骤41，将内容样本的内容文本以及该内容样本的原始标签输入双塔模型中的第一模型分支，获得该内容样本的内容标签融合向量样本。

步骤42，将该内容样本的样本标签输入该双塔模型中的第二模型分支，获得该样本标签的标签向量；该样本标签属于各个候选标签。

步骤43，将该内容标签融合向量样本与该样本标签的标签向量进行相似度计算。

步骤44，根据该内容标签融合向量样本与该样本标签的标签向量之间的相似度，对该第一模型分支和该第二模型分支的参数进行更新。

步骤45，响应于该双塔模型训练结束，将该第一模型分支获取为向量融合模型。

综上所述，在本申请实施例所示的方案中，通过双塔模型来训练得到向量融合模型，后续基于该向量融合模型对目标内容进行标签映射时，与各个候选标签的标签向量进行匹配的内容标签融合向量中能够同时包含目标内容的内容文本的语义信息，以及目标内容的原始标签的语义信息，因此能够结合目标内容的上下文和已有的标签进行标签映射，获得的目标标签能够更准确的指示目标内容，从而提高了对目标内容进行标签映射的准确性。

请参考图5，其是根据一示例性实施例示出模型训练及应用的框架图。如图5所示，在模型训练设备51中，设置有双塔模型，该双塔模型包含第一模型分支511a、第二模型分支511b以及相似度计算组件511c；在模型训练阶段，训练样本包括两部分，一部分是样本内容的内容文本512a和样本内容的原始标签512b，另一部分是样本内容的样本标签512c；其中，512c属于指定的内容推荐平台的标签体系。在训练阶段，模型训练设备51将内容文本512a和原始标签512b输入至第一模型分支511a，得到内容标签融合向量样本513a；并将样本标签512c输入至第二模型分支511b，得到样本标签的标签向量513b；再将内容标签融合向量样本513a和样本标签的标签向量513b输入相似度计算组件511c，得到内容标签融合向量样本513a和样本标签的标签向量513b之间的相似度514，再根据相似度514对第一模型分支511a和第二模型分支511b中的参数进行更新；模型训练设备51迭代执行上述过程，直至双塔模型训练完成后，将第一模型分支511a作为向量融合模型521部署至标签映射设备52中。

如图5所示，在标签映射阶段，在标签映射设备52中，对于一个目标内容，标签映射设备52获取该目标内容的内容文本522a，以及该目标内容的原始标签522b；然后将内容文本522a以及原始标签522b输入至向量融合模型521中，得到内容标签融合向量523，然后将内容标签融合向量523与标签向量库中的各个候选标签的标签向量进行相似度计算，得到内容标签融合向量523与各个候选标签的标签向量之间的相似度524，再通过该相似度524，从各个候选标签中确定出目标标签525；其中，上述各个候选标签是指定的内容推荐平台的标签体系中的各个标签，该目标标签525，就是目标内容在指定的内容推荐平台的标签体系中的标签。

请参考图6，其是根据一示例性实施例示出的模型训练及标签映射方法的流程示意图。该方法可以由模型训练设备和标签映射设备执行，其中，该模型训练设备和标签映射设备可以实现为单个计算机设备，也可以分属于不同的计算机设备。如图6所示，该方法可以包括以下步骤：

步骤601，将内容样本的内容文本以及内容样本的原始标签输入双塔模型中的第一模型分支，获得该内容样本的内容标签融合向量样本。

在本申请实施例中，双塔模型包含两个模型分支，分别为第一模型分支以及第二模型分支，其中，第一模型分支用于对内容样本的内容文本以及内容样本的原始标签进行向量转化，第二模型分支用于对内容样本的内容标签进行向量转化。

在一种可能的实现方式中，第一模型分支包括第一向量转化层、第二向量转化层以及向量融合层，在将内容样本的内容文本以及内容样本的原始标签输入双塔模型中的第一模型分支，获得该内容样本的内容标签融合向量样本时，模型训练设备执行以下步骤：

S1，通过该第一模型分支中的第一向量转化层，将该内容样本的内容文本转化为文本向量样本。

在一种可能的实现方式中，该第一向量转化层中包含从文本到向量的第一编码网络，该第一编码网络用于对输入的内容文本进行编码，第一向量转化层基于第一编码网络的编码结果得到上述文本向量样本。

比如，第一模型分支对输入的内容文本进行分词处理，然后通过上述第一编码网络对每个分出的词进行编码，得到每个词的词向量；然后，第一模型分支通过一个或多个激活层，对编码得到的各个词的词向量进行合并，得到上述文本向量样本。

S2，通过该向量融合模型中的第二向量转化层，将该内容样本的原始标签转化为原始标签向量样本。

与上述第一向量转化层类似的，第二向量转化层中也包含从文本到向量的第二编码网络，该第二编码网络用于对输入的原始标签进行编码，第二向量转化层基于第二编码网络的编码结果得到上述原始标签向量样本。

比如，第一模型分支通过上述第二编码网络对输入的各个原始标签进行编码，得到每个原始标签的原始标签向量样本。

其中，上述第一编码网络和第二编码网络是同一个编码网络，或者，上述第一编码网络和第二编码网络是不同的编码网络。

当上述第一编码网络和第二编码网络是不同的编码网络时，第一编码网络的网络参数和第二编码网络的网络参数可以相同或者不同。

S3，基于注意力机制的方式将该文本向量样本和该原始标签向量样本进行向量融合，获得该内容标签融合向量样本。

在一种可能的实现方式中，第一模型分支通过包含注意力(Attention)函数的注意力网络，对文本向量样本和该原始标签向量样本进行向量融合。

其中，请参考图7，其示出了本申请实施例涉及的注意力函数的原理图，如图7所示，Attention函数的本质可以被描述为一个查询71(query，对应注意力网络中输入的该文本向量样本)得到一系列键-值对72(key-value)的映射，得到注意力结果73。

在一种可能的实现方式中，在基于注意力机制的方式将该文本向量样本和该原始标签向量样本进行向量融合，获得该内容标签融合向量样本时，模型训练设备以该文本向量为查询输入，基于注意力机制的方式获取该原始标签向量的权重；基于该原始标签向量的权重，对该原始标签向量进行加权求和，获得该原始标签向量的加权和向量；将该文本向量以及该加权和向量进行融合，获得该内容标签融合向量。

其中，请参考图8，其示出了本申请实施例涉及的基于注意力网络的计算流程架构图。如图8所示，上述注意力网络的计算主要分为三步:

S81，将查询输入query和每个键key进行相似度计算得到权重(即图中的s1至s4)，常用的相似度函数有点积，拼接，感知机等；

S82，使用一个激活函数(比如softmax函数)对这些权重进行归一化，得到归一化权重(即图中的a1至a4)；

S83，将权重和相应的值value进行加权求和得到加权和向量(weight sum)。

目前在NLP中，key和value常常是同一个，即key＝value。

注意力函数在NLP中可以看成是一种自动加权，其可以把两个想要联系起来的不同模块(向量)，通过加权的形式进行联系，得到上述输出的加权和向量。

步骤602，将该内容样本的样本标签输入该双塔模型中的第二模型分支，获得该样本标签的标签向量。

在一种可能的实现方式中，该第二模型分支中包含第三编码网络，该第三编码网络用于对输入的样本标签进行编码，第二模型分支基于第三编码网络的编码结果得到上述样本标签的标签向量。

在一种可能的实现方式中，模型训练设备获取该内容样本的至少两个标签，该至少两个标签属于该各个候选标签；将该至少两个标签中的部分标签设置为该内容样本的原始标签，并将该至少两个标签中的其余部分标签设置为该内容样本的样本标签。

在一种可能的实现方式中，模型训练设备将该至少两个标签中的部分标签设置为该内容样本的原始标签，并将该至少两个标签中的其余部分标签设置为该内容样本的样本标签时，获取该至少两个标签与该内容样本的相关性；将该至少两个标签按照对应的相关性从大到小的顺序进行排列；将该至少两个标签中，排在前N位的标签设置为该内容样本的原始标签，并将该至少两个标签中的其余部分标签设置为该内容样本的样本标签；其中，1≤N≤M，且N、M为整数；M为该至少两个标签的数量。

在本申请实施例中，在模型训练时使用目标平台已有的内容的标题和标签构造训练数据，其中，目标平台的标题放在左端(即第一模型分支)，将目标平台已有的内容的N个标签拆成两部分，其中，N-1个放在左端，剩下一个放在右端(即上述第二模型分支)。特征使用字、分词特征，能从目标平台的数据泛化到外部数据。

步骤603，将该内容标签融合向量样本与该样本标签的标签向量进行相似度计算。

在本申请实施例中，模型训练设备可以通过双塔模型中的匹配函数来计算内容标签融合向量样本与该样本标签的标签向量之间的相似度，其中，匹配函数可以包括且不限于余弦(cosine)函数以及点积(dot product)函数等。

步骤604，根据该内容标签融合向量样本与该样本标签的标签向量之间的相似度，对该第一模型分支和该第二模型分支的参数进行更新。

在本申请实施例中，模型训练设备对第一模型分支和该第二模型分支的参数进行更新时，其目标是使得后续计算出的内容标签融合向量样本与该样本标签的标签向量之间的相似度尽可能的高(或者差异性尽可能的小)。

比如，以上述匹配函数是点积函数为例，匹配函数的计算结果(即点积)表示内容标签融合向量样本与该样本标签的标签向量之间的空间角度，而优化目标是通过调整第一模型分支和该第二模型分支的参数，使得该点积尽可能的小。

步骤605，响应于该双塔模型训练结束，将该第一模型分支获取为该向量融合模型。

在本申请实施例中，当模型训练设备对双塔模型进行训练的迭代次数达到预定的次数阈值时，模型训练设备可以确定该双塔模型训练结束；或者，当模型训练设备确定该双塔模型训练至收敛(比如，准确性达到一定的准确性阈值，或者，参数更新前后的差值小于一定的差值阈值等等)，即可以确定该双塔模型训练结束。本申请实施例对于双塔模型训练结束的判定方式不做限定。

步骤606，响应于该双塔模型训练结束，通过该第二模型分支对该各个候选标签进行向量转化，获得该各个候选标签的标签向量。

在获得上述向量融合模型之后，即可以将该向量融合模型部署至标签映射设备中，以便标签映射设备通过该向量融合模型对目标内容的内容文本以及目标内容的原始标签进行向量融合，获得目标内容的内容标签融合向量。

步骤607，获取目标内容的内容文本，并获取该目标内容的原始标签。

在一种可能的实现方式中，上述获取目标内容的内容文本的方式，可以包括以下几种：

响应于该目标内容是音视频内容，将该音视频内容的标题获取为该目标内容的内容文本；

响应于该目标内容是图像内容，将该图像内容的标题，以及该图像内容的光学字符识别(Optical Character Recognition，OCR)结果获取为该目标内容的内容文本；

响应于该目标内容是文本内容，将该文本内容的标题，以及该文本内容中的部分或全部文本，获取为该目标内容的内容文本。

在一种可能的实现方式中，上述获取该目标内容的原始标签的方式，可以包括以下几种：

从该目标内容所属的内容平台中获取该目标内容的原始标签；

或者，对该内容文本进行关键词提取，获得该目标内容的原始标签；

或者，从该目标内容的属性信息中读取该目标内容的原始标签。

步骤608，将该目标内容的内容文本以及该目标内容的原始标签输入至向量融合模型，获得该向量容和模型输出的该内容标签融合向量。

在一种可能的实现方式中，将该目标内容的内容文本以及该目标内容的原始标签输入至向量融合模型，获得该向量容和模型输出的该内容标签融合向量，包括：

通过该向量融合模型中的第一向量转化层，将该目标内容的内容文本转化为文本向量；

通过该向量融合模型中的第二向量转化层，将该目标内容的原始标签转化为原始标签向量；

基于注意力机制的方式将该文本向量和该原始标签向量进行向量融合，获得该内容标签融合向量。

在一种可能的实现方式中，基于注意力机制的方式将该文本向量和该原始标签向量进行向量融合，获得该内容标签融合向量，包括：

以该文本向量为查询输入，基于注意力机制的方式获取该原始标签向量的权重；

基于该原始标签向量的权重，对该原始标签向量进行加权求和，获得该原始标签向量的加权和向量；

将该文本向量以及该加权和向量进行融合，获得该内容标签融合向量。

步骤609，将该内容标签融合向量与各个候选标签的标签向量进行相似度计算。

上述步骤608和步骤609的实现过程，与上述模型训练过程中第一模型分支的执行过程类似，此处不再赘述。

步骤610，基于该内容标签融合向量与该各个候选标签的标签向量之间的相似度，从该各个候选标签中获取该目标内容对应的目标标签。

在一种可能的实现方式中，基于该内容标签融合向量与该各个候选标签的标签向量之间的相似度，从该各个候选标签中获取该目标内容对应的目标标签，包括：

将该各个候选标签按照对应的标签向量与该内容标签融合向量之间的相似度从高到低的顺序排列；

将该各个候选标签中，排列在前K位的候选标签获取为该目标标签；K为大于或者等于1的整数。

请参考图9，其是根据一示例性实施例示出的内容推送系统的框架图。如图9所示，该系统框架包括以下部分：

一、内容生产端91和内容消费端92

(1)内容生产端91通常是专业生产内容(Professional Generated Content，PGC)或者用户原创内容(User Generate Content，UGC)等内容生产者，内容生产端91通过移动端或者后端接口，提供图文或者视频等内容，这些内容是推荐分发内容的主要内容来源；

(2)内容生产端91通过和上下行内容接口服务93的通讯，以上传内容，内容来源通常是一个轻量级发布端和编辑内容入口，视频内容发布通常是一个拍摄摄影端，拍摄过程当中本地视频内容可以选择搭配的音乐，滤镜模板和视频的美化功能等等；

(3)内容消费端92作为消费者，和上下行内容接口服务93通讯，通过推荐获取访问内容的索引信息，然后和内容存储服务97通讯，获取对应的内容，包括推荐得到内容，专题订阅的内容，内容存储服务97存储的是内容实体，比如视频源文件，图片源文件，而内容的元信息存储在内容数据库94；

(4)内容生产端91和内容消费端92将上传和下载过程当中用户播放的行为数据，卡顿，加载时间，播放点击等上报给后端用于统计分析；

(5)内容消费端92通常通过Feeds流方式浏览内容数据，外部渠道来源的各种数据也是通过内容消费端92经过上下行内容接口服务93进入平台体系。

二、上下行内容接口服务93

(1)上下行内容接口服务93和内容生产端91直接通讯，从前端提取内容文件，通常包括内容的标题，发布者，摘要，封面图，发布时间等等，然后将内容文件存入内容数据库94；

(2)上下行内容接口服务93将内容的元信息写入内容数据库94；

(3)上下行内容接口服务93将发布者提交的内容(包括外部渠道提供的内容)同步给调度中心服务95，进行后续的内容处理和流转。

三、内容数据库94

(1)内容数据库94是内容的核心数据库，所有生产者发布内容的元信息都保存在这个数据库当中，重点是内容本身的元信息比如标题，作者，封面图链接，分类，标签信息，文件大小，发布时间，码率，文件格式，视频格式，是否原创的标记或者首发，还包括人工审核过程中对内容的分类(包括一，二，三级别分类和标签信息，比如一篇讲解xx厂商手机的文章，一级分科是科技，二级分类是智能手机，三级分类是国内手机，标签信息是xx厂商，手机型号)；

(2)人工审核过程当中会读取内容数据库94当中的信息，同时人工审核的结果和状态也会回传进入内容数据库94；

(3)后续抽取标签时会从内容数据库94读取内容的元信息。

四、调度中心服务95

(1)调度中心服务95对内容处理主要包括机器处理和人工审核处理，这里机器处理的核心包括各种质量判断比如低质过滤，内容标签管理(比如分类，标签信息)，内容排重，处理结果会写入内容数据库94，完全重复的内容不会给人工进行重复的二次处理；

(2)调度中心服务95还负责内容流转的整个调度过程，通过上下行内容接口服务93接收入库的内容，然后从内容数据库94中获取内容的元信息；

(3)调度中心服务95调度人工审核系统和机器处理系统，控制调度的顺序和优先级；

(4)调度中心服务95通过人工审核系统内容被启用，然后通过内容出口分发服务911(通常是推荐引擎或者搜索引擎或者运营)直接的展示页面提供给终端的内容消费端92，也就是内容消费端92获得的内容索引信息；

(5)调度中心服务95和标签映射服务99通讯，完成外部平台内容的标签到目标平台的映射和转换。

五、人工审核系统96

(1)人工审核系统96是人工服务能力的载体，主要用于审核机器无法确定判断的内容；

(2)人工审核系统96通常还对于短视频和小视频的标签标注和二次确认。

六、内容存储服务97

(1)内容存储服务97存储内容的元信息之外的内容实体信息，比如视频源文件和图文内容的图片源文件；

(2)内容存储服务97在视频内容标签抽取的时候，为标签服务提供视频源文件包括源文件中间的抽帧内容。

七、外部内容预处理服务98

(1)外部内容预处理服务98通过NLP相关的技术从图文的文本和视频的标题短文本当中抽取关键词作为内容的标签信息；

(2)外部内容预处理服务98对内容标题(包括正文)进行分析，对于内外部标签进行向量化处理。

八、标签映射服务99

(1)标签映射服务99按照上述各个方法实施例描述的标签映射方法，对外部渠道内容的外部标签映射到目标平台对应的标签；

(2)标签映射服务99将标签映射模型服务化，供调度中心服务调用。

九、标签映射模型910

标签映射模型910按照上述图4或图6所示实施例描述的方法，采用双塔模型来建模，将平台外部标题(如果是图文内容，也可以是正文的文本内容分段)和外部平台的标签(也就是源标题和原始标签)，统一编码到左端(即第一模型分支)，目标平台的标签编码到右端(即第二模型分支)，利用深度语义匹配进行标签映射，以构建对应的标签映射模型，该标签映射模型包含上述的向量融合模型。

十、内容分发出口服务911

(1)内容分发出口服务911提供机器和人工处理链路内容输出的出口，调度中心服务处理后生成的内容池通过内容分发出口服务911进行分发；

(2)内容分发出口服务911分发的主要方式包括推荐算法分发和人工运营；

(3)内容分发出口服务911和内容消费端92直接通讯。

随着互联网快速发展的时代，内容生产的门槛降低，各种内容的发布量以指数级的速度增长。这些内容来源来自各种内容创作机构，比如自媒体和机构的PGC，UGC内容。比如，以公众号为基础依托的新闻、看点、资讯的信息流业务、通过算法分发以Feeds流展示的图文内容(包括图集和短视频)等内容，都获得了急速的发展。其中，各个来源的图文和短视频内容的入库峰值/日上传量已超过百万级别乃至千万级别。以短视频内容的分发流程为例，短视频内容从开始上传、到上传成功、再到成功进入用户消费的过程如下：

1)通过终端拍摄工具拍摄视频；

2)通过终端向平台上传视频；在视频上传的流程中，视频会经过重转码，以将视频文件进行规范化，平台保存视频的元信息，提升视频在各个平台播放兼容性；

3)视频会进行人工审核，人工审核的同时机器也会通过算法对内容进行一些辅助特征的获取，比如分类，标签等信息的获取；然后在机器算法处理的基础上进行人工标准化标注，对视频填充相关的信息，例如视频的标签，类别，明星信息；

4)视频审核通过后，会进入到视频平台的内容库，这个过程包括了机器算法模型对视频内容进行封面图截取，视频质量和清晰的评价和计算等；

5)通过运营将视频分发到外网或者推送到推荐引擎，基于用户的画像特征，通过推荐算法(比如协同推荐，矩阵分解，监督学习算法，基于深度学习的模型，梯度提升决策树模型)等进行推荐；

6)对于图文内容，在内容推荐前有一个重要环节，也是内容理解，即获取内容标签和分类，图文主要通过NLP自然语言处理来进行。对于任何一个资讯产品或者内容平台，建立一个完成且细致的标签体系都是必不可少的；

7)标签体系建立后，平台将内容抽象成标签，这也是内容存储、产品实现、用户个性化等实现的关键所在。当内容有了标签后，就可以按照不同标签组织和展示内容，如可以单独查看“娱乐”类文章，可以搜索某个人的相关文章；例如，可以在正文底部展示标签，吸引用户点击；可以通过标签计算相关新闻；可以根据用户阅读历史，计算用户的兴趣，然后根据用户兴趣向用户推相应标签的内容等等；标签体系构建的合理及效率，直接影响内容分发产品的效率。每个信息流产品都有自己特有的标签体系。图文内容通过NLP技术抽取分类和标签等实体信息已经比较成熟，但是视频内容的理解尤其是语义层面的理解，目前主要是通过人工打标记，或者机器辅助从视频标题当中识别一些标签来供人工标记参考，但是每个视频都需要人工来再次确认和选择标签信息，这个过程需要大量的人力，而且成本非常高，尤其是对一些特定领域的内容，需要有这方面专门经验的人。一个内容的标签越丰富，包含关键词信息也越多，越能够更明晰的帮助推荐系统对内容识别，从而更精准垂直的推荐给目标用户，进而能够获得更多的浏览量。而内容的来源是丰富多样，比如外部渠道内容有很多人工打的标签，但是标签体系在不同平台之间不一致，差异率很大，并且也不存在于召回和排序模型特征，导致外部视频分发效率较低，已有标签信息都没有被利用，因此需要将外部标签映射到已有的标签体系，加速内容分发效率。否则，推荐系统只得进行无目标“试探性”推荐，无法保障推荐的用户垂直精准度，自然难以获得良性反馈，导致视频分发冷启动无法完成或者效率非常低；同时如果直接引用外部的标签信息，内部之前通过标签沉淀的画像信息也没法直接发挥作用。而通过本申请上述各个实施例所示的方案，能够有效解决上述问题。

请参考图10，其示出了本申请实施例涉及的模型训练及应用的框架图。如图10所示，在模型训练设备1001中，设置有双塔模型，该双塔模型包含第一模型分支1011a、第二模型分支1011b以及相似度计算组件1011c；其中，第一模型分支1011a包括第一编码器、第二编码器、第一激活函数、第二激活函数、注意力网络以及第三激活函数。

其中，上述第一激活函数、第二激活函数和第三激活函数可以是ReLu函数。

训练样本包括两部分，一部分是样本内容的内容文本1012a和样本内容的原始标签1012b，另一部分是样本内容的样本标签1012c；其中，1012c属于指定的内容推荐平台的标签体系。

在训练阶段，模型训练设备1001将内容文本1012a和原始标签1012b输入至第一模型分支1011a，由第一模型分支1011a中的第一编码器对内容文本1012a进行向量化，并通过第一激活函数和第二激活函数处理后，作为查询输入至注意力网络。同时，第一模型分支1011a中的第二编码器对原始标签1012b进行向量化后，作为键值对输入至注意力网络。注意力网络将通过查询输入获取各个原始标签1012b的权重，并进行加权处理，输出加权和向量，然后再将加权和向量与注意力网络的查询输入进行拼接后输入第三激活函数，得到内容标签融合向量样本1013a。

模型训练设备1001还将样本标签1012c输入至第二模型分支1011b，通过第二模型分支1011b中的第三编码器进行编码，得到样本标签的标签向量1013b。

模型训练设备1001将内容标签融合向量样本1013a和样本标签的标签向量1013b输入相似度计算组件1011c，该相似度计算组件1011c可以是点积计算函数，得到内容标签融合向量样本1013a和样本标签的标签向量1013b之间的相似度1014，再根据相似度1014对第一模型分支1011a和第二模型分支1011b中的参数进行更新；模型训练设备1001迭代执行上述过程，直至双塔模型训练完成后，将第一模型分支1011a作为向量融合模型1021部署至标签映射设备1002中。此外，双塔模型训练完成后，模型训练设备1001还将各个候选标签输入至第二模型分支1011b进行向量化处理，得到各个候选标签的标签向量，并存储至标签映射设备1002中的标签向量库。

如图10所示，在标签映射阶段，在标签映射设备1002中，对于一个目标内容，标签映射设备1002获取该目标内容的内容文本1022a，以及该目标内容的原始标签1022b；然后将内容文本1022a以及原始标签1022b输入至向量融合模型1021中，得到内容标签融合向量1023，然后将内容标签融合向量1023与标签向量库中的各个候选标签的标签向量进行相似度计算，得到内容标签融合向量1023与各个候选标签的标签向量之间的相似性1024，再通过该相似性1024，从各个候选标签中确定出相似性处于TOP N的目标标签1025。

其中，上述图9所示框架中，丰富多角度的标签信息对内容冷启动和分发效果尤其重要。比如对于视频内容(包括短视频和小视频)，由于视频包含的文本内容过少(标题或者字幕识别或者OCR文本抽取，视频音转文本也可能会有一部分标签)，视频本身难以提取标签，尤其是丰富语义情感标签。传统的基于Tag2Tag的方式，由于没有考虑到上下文信息，如标题、类目，容易产生歧义，导致坏例的出现，以及导致效率的降低。

而上述图10所示的方案，利用双塔模型来建模，将平台外部标题(如果是图文内容，也可以是正文的文本内容分段)和外部平台的标签(也就是源标题和原始标签)，统一编码到左端，目标平台的标签编码到右端，利用深度语义匹配进行标签映射。

在预测时，先将目标平台的候选标签的标签向量部署到K最近邻(K-NearestNeighbor Index，KNN)服务中(候选标签就是一个短语词，编码方式可以是word2vector或者词袋模型等等)，然后对于外部内容和标签，用左端前馈网络生成内容表示，也就是文档向量，然后去KNN服务中召回最相关的候选标签，从而完成内容标签的映射处理。K最近邻分类算法是数据挖掘分类技术中常用的方法之一。所谓K最近邻，就是寻找K个最近的邻居的意思，对于每个样本都可以用它最接近的K个邻近值来代表。KNN算法的核心思想是：如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时，只与极少量的相邻样本有关。本申请所示的方案用来召回TOP N的相似标签，可以依据业务策略选择N为1或者2。同时，本申请所示的方案引入注意力网络来计算外部标签的重要程度，代替对外部标签平均池化层平均池化。

比如，外部视频，标题为：印度的自制椰子钓鱼装置，还真的有几把刷子！

外部标签为：捕鱼，实拍，印度；

内部标签为：印度人，印度教，巴基斯坦，捕鱼游戏，捕鱼技巧，印度经济，印度文化。

对于“印度教”“补鱼游戏”等内部标签，与外部标签存在语义漂移问题，导致内部标签与视频的上下文不相关。

通过本申请上述实施例所示的方案，结合外部视频的标题对外部标签进行映射，能够使得“捕鱼”的权重更大，更容易找到与核心标签相关的目标平台内部标签。

通过本申请提供的基于机器学习的信息流内容标签映射处理方法，能够极大丰富信息流内容标签扩展范围的来源和标签扩展的的效率，很大程度上降低标签标注的人力成本，尤其是视频标签标注的成本；同时能够让平台已有的标签体系保持未定和持续的进化，已经积累的用户画像信息能够继续复用召回更大范围的内容。其核心思路利用深度学习的双塔模型结合上下文语义层面的含义进行内容-标签(Context2Tag)建模，实现标签的语义迁移。通过本申请所示的方案，能够有效利用外部渠道内容已有的标签信息，减少人工标记的成本，相比于基于编辑距离，词向量，频繁项挖掘及知识图谱推理的标签映射方式，能够有更好的效率；同时，本申请所示的方案能够考虑上下文，解决标签映射语义漂移和语义信息考虑不充分的问题；同时充分利用已有的外部标签信息，自动映射处理将现有已经沉淀的标签和画像信息充分利用起来，能够有效提升运营的效率。

图11是根据一示例性实施例示出的一种标签映射装置的结构方框图。该标签映射装置可以实现图2或图6所示实施例提供的方法中，由标签映射设备执行的全部或者部分步骤。该标签映射装置可以包括：

文本获取模块1101，用于获取目标内容的内容文本；

原始标签获取模块1102，用于获取所述目标内容的原始标签；

向量融合模块1103，用于对所述目标内容的内容文本以及所述目标内容的原始标签进行向量融合，获得所述目标内容的内容标签融合向量；

第一相似度计算模块1104，用于将所述内容标签融合向量与各个候选标签的标签向量进行相似度计算；

目标标签获取模块1105，用于基于所述内容标签融合向量与所述各个候选标签的标签向量之间的相似度，从所述各个候选标签中获取所述目标内容对应的目标标签。

在一种可能的实现方式中，所述向量融合模块1103，用于将所述目标内容的内容文本以及所述目标内容的原始标签输入至向量融合模型，获得所述向量容和模型输出的所述内容标签融合向量；所述向量融合模型是以内容样本的内容文本以及所述内容样本的原始标签为输入，以所述内容样本的样本标签为目标进行训练获得的；所述样本标签是所述各个候选标签中的一个或多个。

在一种可能的实现方式中，所述向量融合模块1103，用于，

在一种可能的实现方式中，所述目标标签获取模块1105，用于，

在一种可能的实现方式中，所述文本获取模块1101，用于，

在一种可能的实现方式中，所述原始标签获取模块1102，用于，

在一种可能的实现方式中，所述装置还包括：

在一种可能的实现方式中，所述标签设置模块，用于，

获取所述至少两个标签与所述内容样本的相关性；

在一种可能的实现方式中，所述装置还包括：

图12是根据一示例性实施例示出的一种向量融合模型训练装置的结构方框图。该向量融合模型训练装置可以实现图4或图6所示实施例提供的方法中，由模型训练设备执行的全部或者部分步骤。该向量融合模型训练装置可以包括：

第一输入模块1201，用于将内容样本的内容文本以及所述内容样本的原始标签输入双塔模型中的第一模型分支，获得所述内容样本的内容标签融合向量样本；

第二输入模块1202，用于将所述内容样本的样本标签输入所述双塔模型中的第二模型分支，获得所述样本标签的标签向量；所述样本标签属于各个候选标签；

相似度计算模块1203，用于将所述内容标签融合向量样本与所述样本标签的标签向量进行相似度计算；

参数更新模块1204，用于根据所述内容标签融合向量样本与所述样本标签的标签向量之间的相似度，对所述第一模型分支和所述第二模型分支的参数进行更新；

模型获取模块1205，用于响应于所述双塔模型训练结束，将所述第一模型分支获取为向量融合模型。

图13是根据一示例性实施例示出的一种计算机设备的结构示意图。该计算机设备可以实现为上述各个方法实施例中的模型训练设备和/或对话推荐设备。所述计算机设备1300包括中央处理单元1301、包括随机存取存储器(Random Access Memory，RAM)1302和只读存储器(Read-Only Memory，ROM)1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、闪存或其他固态存储其技术，CD-ROM、或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1301通过执行该一个或一个以上程序来实现图2、图4或图6所示的方法的全部或者部分步骤。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法。例如，所述非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例所示的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种标签映射方法，其特征在于，所述方法包括：

获取目标内容的内容文本；

获取所述目标内容的原始标签；

2.根据权利要求1所述的方法，其特征在于，所述对所述目标内容的内容文本以及所述目标内容的原始标签进行向量融合，获得所述目标内容的内容标签融合向量，包括：

将所述目标内容的内容文本以及所述目标内容的原始标签输入至向量融合模型，获得所述向量容和模型输出的所述内容标签融合向量；所述向量融合模型是以内容样本的内容文本以及所述内容样本的原始标签为输入，以所述内容样本的样本标签为目标进行训练获得的；所述样本标签是所述各个候选标签中的一个或多个。

3.根据权利要求2所述的方法，其特征在于，所述将所述目标内容的内容文本以及所述目标内容的原始标签输入至向量融合模型，获得所述向量容和模型输出的所述内容标签融合向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于注意力机制的方式将所述文本向量和所述原始标签向量进行向量融合，获得所述内容标签融合向量，包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述基于所述内容标签融合向量与所述各个候选标签的标签向量之间的相似度，从所述各个候选标签中获取所述目标内容对应的目标标签，包括：

6.根据权利要求1至4任一所述的方法，其特征在于，所述获取目标内容的内容文本，包括：

7.根据权利要求1至4任一所述的方法，其特征在于，所述获取所述目标内容的原始标签，包括：

8.根据权利要求2至4任一所述的方法，其特征在于，所述对所述内容文本以及所述原始标签进行向量融合，获得所述目标内容的内容标签融合向量之前，还包括：

将所述内容样本的内容文本以及所述内容样本的原始标签输入双塔模型中的第一模型分支，获得所述内容样本的内容标签融合向量样本；

将所述内容样本的样本标签输入所述双塔模型中的第二模型分支，获得所述样本标签的标签向量；

响应于所述双塔模型训练结束，将所述第一模型分支获取为所述向量融合模型。

9.根据权利要求8所述的方法，其特征在于，所述对所述内容文本以及所述原始标签进行向量融合，获得所述目标内容的内容标签融合向量之前，还包括：

获取所述内容样本的至少两个标签，所述至少两个标签属于所述各个候选标签；

将所述至少两个标签中的部分标签设置为所述内容样本的原始标签，并将所述至少两个标签中的其余部分标签设置为所述内容样本的样本标签。

10.根据权利要求9所述的方法，其特征在于，所述将所述至少两个标签中的部分标签设置为所述内容样本的原始标签，并将所述至少两个标签中的其余部分标签设置为所述内容样本的样本标签，包括：

获取所述至少两个标签与所述内容样本的相关性；

11.根据权利要求8所述的方法，其特征在于，所述方法还包括：

响应于所述双塔模型训练结束，通过所述第二模型分支对所述各个候选标签进行向量转化，获得所述各个候选标签的标签向量。

12.一种向量融合模型训练方法，其特征在于，所述方法包括：

13.一种标签映射装置，其特征在于，所述装置包括：

文本获取模块，用于获取目标内容的内容文本；

原始标签获取模块，用于获取所述目标内容的原始标签；

14.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的标签映射方法；或者，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求12所述的向量融合模型训练方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一所述的标签映射方法；或者，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求12所述的向量融合模型训练方法。