CN114610905B

CN114610905B - 一种数据处理方法及相关装置

Info

Publication number: CN114610905B
Application number: CN202210289950.5A
Authority: CN
Inventors: 孙万祺; 李和瀚; 贺文嵩; 顾晓光
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2024-04-26
Anticipated expiration: 2042-03-23
Also published as: CN114610905A

Abstract

本申请实施例公开了一种数据处理方法及相关装置，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。其中该方法包括：基于训练媒体资源的标题文本，构建训练样本三元组；基于训练样本三元组，训练感受特征提取模型，该感受特征提取模型用于针对输入文本确定其对应的感受特征，感受特征用于反映输入文本为观看对象带来的直观感受；待感受特征提取模型满足训练结束条件后，获取感受特征提取模型针对各训练样本三元组中各训练标题文本确定的感受特征；对各训练标题文本各自的感受特征进行聚类处理得到多个感受特征聚类簇，确定每个感受特征聚类簇对应的感受标签。该方法有助于提高媒体资源在下游应用的投放效果。

Description

一种数据处理方法及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种数据处理方法及相关装置。

背景技术

目前，媒体资源管理系统主要根据媒体资源表达的内容，划分媒体资源所属的类别，为媒体资源配置对应的标签。例如，对于新闻系统而言，其会根据新闻资源表达的内容，确定该新闻资源属于时政新闻、娱乐新闻、体育新闻、社会新闻等新闻类型中的至少一种；并且还会根据该新闻资源表达的内容，为该新闻资源配置对应的标签，例如，对于属于娱乐新闻的新闻资源可以配置对应的人物标签，该人物标签对应的人物即为与该新闻资源相关的人物。

然而，经本申请发明人研究发现，基于通过上述方式确定的媒体资源所属的类别、以及为媒体资源配置的标签，将媒体资源投放到下游应用，往往难以取得较好的投放效果。例如，对于新闻推荐系统而言，基于通过上述方式确定的新闻资源所属的类别和新闻资源对应的标签，进行新闻资源的推荐，难以取得较好的新闻推荐效果。

发明内容

本申请实施例提供了一种数据处理方法及相关装置，从观看对象对媒体资源的直观感受这一维度出发，针对媒体资源提出了一种新的描述标签，即感受标签，以丰富对于媒体资源的描述方式，并借助该种描述方式提高媒体资源在下游应用的投放效果。

有鉴于此，本申请第一方面提供了一种数据处理方法，所述方法包括：

基于训练媒体资源的标题文本，构建训练样本三元组；所述训练样本三元组包括第一训练标题文本、第二训练标题文本和第三训练标题文本，所述第一训练标题文本与所述第二训练标题文本之间满足感受相似条件，所述第一训练标题文本与所述第三训练标题文本之间不满足所述感受相似条件，所述感受相似条件用于衡量标题文本为观看对象带来的直观感受是否相似；

基于所述训练样本三元组，训练感受特征提取模型；所述感受特征提取模型用于针对输入文本确定其对应的感受特征，所述感受特征用于反映所述输入文本为观看对象带来的直观感受；

待所述感受特征提取模型满足训练结束条件后，获取所述感受特征提取模型针对各所述训练样本三元组中各训练标题文本确定的感受特征；

对各训练样本三元组中各训练标题文本各自的感受特征进行聚类处理，得到多个感受特征聚类簇，确定每个所述感受特征聚类簇对应的感受标签。

本申请第二方面提供了一种数据处理装置，所述装置包括：

样本构建模块，用于基于训练媒体资源的标题文本，构建训练样本三元组；所述训练样本三元组包括第一训练标题文本、第二训练标题文本和第三训练标题文本，所述第一训练标题文本与所述第二训练标题文本之间满足感受相似条件，所述第一训练标题文本与所述第三训练标题文本之间不满足所述感受相似条件，所述感受相似条件用于衡量标题文本为观看对象带来的直观感受是否相似；

模型训练模块，用于基于所述训练样本三元组，训练感受特征提取模型；所述感受特征提取模型用于针对输入文本确定其对应的感受特征，所述感受特征用于反映所述输入文本为观看对象带来的直观感受；

特征获取模块，用于待所述感受特征提取模型满足训练结束条件后，获取所述感受特征提取模型针对各所述训练样本三元组中各训练标题文本确定的感受特征；

聚类模块，用于对各训练样本三元组中各训练标题文本各自的感受特征进行聚类处理，得到多个感受特征聚类簇，确定每个所述感受特征聚类簇对应的感受标签。

本申请第三方面提供了一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的数据处理方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的数据处理方法的步骤。

本申请第五方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的数据处理方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种数据处理方法，该方法针对媒体资源提出了一种新的描述标签，即感受标签，感受标签是从观看对象对于媒体资源的直观感受这一维度出发确定的；也就是说，本申请实施例根据观看对象对于媒体资源的直观感受，来为媒体资源配置对应的感受标签，从而在观看感受这一维度对媒体资源进行划分。具体的，在本申请实施例提供的方法中，先基于训练媒体资源的标题文本，构建训练样本三元组，该训练样本三元组中包括第一训练标题文本、第二训练标题文本和第三训练标题文本，第一训练标题文本与第二训练标题文本之间满足感受相似条件，第一训练标题文本与第三训练标题文本之间不满足所述感受相似条件，此处的感受相似条件用于衡量标题文本为观看对象带来的直观感受是否相似；然后，基于训练样本三元组，训练感受特征提取模型，该感受特征提取模型用于针对输入文本确定其对应的感受特征，此处的感受特征用于反映输入文本为观看对象带来的直观感受；待上述感受特征提取模型满足训练结束条件后，获取感受特征提取模型针对各训练样本三元组中各训练标题文本确定的感受特征；进而，对各训练样本三元组中各训练标题文本各自的感受特征进行聚类处理，得到多个感受特征聚类簇，并且确定每个感受特征聚类簇对应的感受标签。如此，通过上述方式确定可为媒体资源配置的感受标签，可以保证为媒体资源配置的感受标签能够较准确地反映该媒体资源为观看对象带来的直观感受；相应地，在向下游应用投放媒体资源的过程中，借助所配置的感受标签进行投放，可以极大程度地提高投放效果。

附图说明

图1为本申请实施例提供的的数据处理方法的应用场景示意图；

图2为本申请实施例提供的数据处理方法的流程示意图；

图3为本申请实施例提供的有监督的数据挖掘方式的实现原理示意图；

图4为本申请实施例提供的弱监督的数据挖掘方式的实现原理示意图；

图5为本申请实施例提供的一种感受特征提取模型的训练原理示意图；

图6为本申请实施例提供的另一种感受特征提取模型的训练原理示意图；

图7为本申请实施例提供的实验结果示意图；

图8为本申请实施例提供的一种测试机制的实现原理示意图；

图9为本申请实施例提供的基于肘部法则确定最佳的感受特征聚类簇个数的趋势图；

图10为本申请实施例提供的数据处理装置的结构示意图；

图11为本申请实施例提供的终端设备的结构示意图；

图12为本申请实施例提供的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，MLP)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的自然语言处理技术和机器学习技术，具体通过如下实施例进行说明：

为了丰富对于媒体资源的描述方式，以基于更丰富的描述方式投放媒体资源至下游应用，从而提高媒体资源在下游应用中的投放效果，本申请实施例提供了一种数据处理方法，该方法从观看对象对媒体资源的直观感受这一维度出发，提出了一种新的用于描述媒体资源的标签，即感受标签。

具体的，在本申请实施例提供的数据处理方法中，先基于训练媒体资源的标题文本，构建训练样本三元组，该训练样本三元组中包括第一训练标题文本、第二训练标题文本和第三训练标题文本，第一训练标题文本与第二训练标题文本之间满足感受相似条件，第一训练标题文本与第三训练标题文本之间不满足所述感受相似条件，此处的感受相似条件用于衡量标题文本为观看对象带来的直观感受是否相似；然后，基于训练样本三元组，训练感受特征提取模型，该感受特征提取模型用于针对输入文本确定其对应的感受特征，此处的感受特征用于反映输入文本为观看对象带来的直观感受；待上述感受特征提取模型满足训练结束条件后，获取感受特征提取模型针对各训练样本三元组中各训练标题文本确定的感受特征；进而，对各训练样本三元组中各训练标题文本各自的感受特征进行聚类处理，得到多个感受特征聚类簇，并且确定每个感受特征聚类簇对应的感受标签。

通过上述数据处理方法，可以确定可为媒体资源配置的感受标签，并且保证为媒体资源配置的感受标签能够较准确地反映该媒体资源为观看对象带来的直观感受。相应地，在向下游应用投放媒体资源的过程中，借助所配置的感受标签进行投放，可以极大程度地提高投放效果。

应理解，本申请实施例提供的数据处理方法可以由计算机设备执行，该计算机设备可以是用户终端或服务器。其中，用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。服务器具体可以为应用服务器或Web服务器，在实际部署时，可以为独立服务器，也可以为由多个物理服务器构成的集群服务器或云服务器。

此外，本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。并且，本申请实施例涉及的相关数据可以保存于区块链上。

为了便于理解本申请实施例提供的数据处理方法，下面以该数据处理方法的执行主体为服务器为例，对该数据处理方法的应用场景进行示例性介绍。

参见图1，图1为本申请实施例提供的数据处理方法的应用场景示意图。如图1所示，该应用场景包括服务器110和数据库120，服务器110可以通过网络从数据库120中调取数据，或者数据库120也可以集成在服务器110中。其中，服务器110用于执行本申请实施例提供的数据处理方法，以确定可为媒体资源配置的感受标签；数据库120用于存储训练媒体资源。

在实际应用中，服务器110可以从数据库120中获取训练媒体资源，并基于所获取的训练媒体资源构建训练样本三元组，所构建的训练样本三元组中包括第一训练标题文本、第二训练标题文本和第三训练标题文本，其中，第一训练标题文本与第二训练标题文本之间满足感受相似条件，第一训练标题文本与第三训练标题文本之间不满足该感受相似条件，此处的感受相似条件是用于衡量两个标题文本为观看对象带来的直观感受是否相似的条件。在本申请实施例中，服务器110可以通过无监督数据挖掘、有监督数据挖掘、弱监督数据挖掘中的至少一种数据挖掘方式，构建上述训练样本三元组。

然后，服务器110可以基于所构建的训练样本三元组，迭代训练感受特征提取模型。所训练的感受特征提取模型用于针对输入文本确定其对应的感受特征，该感受特征用于反映输入文本为观看对象带来的直观感受。

所训练的感受特征提取模型满足训练结束条件后，服务器110可以获取通过该感受特征提取模型(即满足训练结束条件的感受特征提取模型)针对各训练样本三元组中各训练标题文本确定的感受特征。进而，服务器110可以对各训练样本三元组中各训练标题文本各自的感受特征进行聚类处理，以得到多个感受特征聚类簇，并为每个感受特征聚类簇配置对应的感受标签，各个感受特征聚类簇各自对应的感受标签后续可作为划分媒体资源的基础。

应理解，图1所示的应用场景仅为示例，在实际应用中，本申请实施例提供的数据处理方法还可以应用于其它场景，在此不对本申请实施例提供的数据处理方法的应用场景做任何限定。

下面通过方法实施例对本申请提供的数据处理方法进行详细介绍。

参见图2，图2为本申请实施例提供的数据处理方法的流程示意图。为了便于描述，下述实施例仍以该数据处理方法的执行主体为服务器为例进行介绍。如图2所示，该数据处理方法包括以下步骤：

步骤201：基于训练媒体资源的标题文本，构建训练样本三元组；所述训练样本三元组包括第一训练标题文本、第二训练标题文本和第三训练标题文本，所述第一训练标题文本与所述第二训练标题文本之间满足感受相似条件，所述第一训练标题文本与所述第三训练标题文本之间不满足所述感受相似条件，所述感受相似条件用于衡量标题文本为观看对象带来的直观感受是否相似。

在本申请实施例中，服务器可以基于训练媒体资源的标题文本构建大量的训练样本三元组(Triplet)，以利用所构建的训练样本三元组作为训练样本，对感受特征提取模型进行训练。

需要说明的是，训练媒体资源具体可以是任意一种形式的媒体资源，如新闻资源、文章资源、视频资源等等，本申请在此不对该训练媒体资源的形式做任何限定。

需要说明的是，上述训练样本三元组包括第一训练标题文本、第二训练标题文本和第三训练标题文本，其中，第一训练标题文本为锚点文本(Anchor)，第二训练标题文本为与锚点文本相关的正例(Positive，Pos)，第三训练标题文本为与锚点文本相关的负例(Negative，Neg)。更具体的，第一训练标题文本与第二训练标题文本之间满足感受相似条件，即第一训练标题文本与第二训练标题文本为观看对象带来的直观感受相同或相似；第一训练标题文本与第三训练标题文本之间不满足感受相似条件，即第一训练标题文本与第三训练标题文本为观看对象带来的直观感受相差较大。上述感受相似条件是用于衡量两个标题文本为观看对象带来的直观感受是否相同或相似的条件。

需要说明的是，标题文本为观看对象带来的直观感受，可以理解为观看对象基于标题文本对该标题文本对应的媒体资源产生的第一感受，在本申请实施例中该直观感受又可以被称为体感画风。以媒体资源为新闻资源为例，观看对象在仔细查看新闻资源前，通常会根据新闻资源的标题对该新闻资源产生第一感受，该第一感受即为本申请实施例中标题文本为观看对象带来的直观感受。示例性的，上述直观感受可以包括但不限于：年轻化、轻松娱乐、情绪夸张、低调性、严肃正经、负能量、乡村风、等等。

应理解，在很多情况下，上述直观感受还可以是标题文本和媒体资源的封面图片共同为观看对象带来的，即，观看对象基于媒体资源的标题文本和封面图片，产生对于该媒体资源的第一感受。

在实际应用中，业务数据中通常没有明确的感受信号，即没有能够明确地反映观看对象对于媒体资源的第一感受的相关信息，因此，难以构建用于训练感受特征提取模型的训练样本。为了解决该问题，本申请实施例基于其它数据表现和指标进行语料挖掘，在此本申请实施例提出了无监督、有监督和弱监督三种数据挖掘方式，以构建用于训练感受特征提取模型的训练样本三元组。下面对无监督、有监督和弱监督这三种数据挖掘方式分别进行介绍。

服务器采用无监督的数据挖掘方式构建训练样本三元组时，会获取多个训练媒体资源组合；每个训练媒体资源组合包括两个训练媒体资源，这两个训练媒体资源各自的曝光情况满足曝光一致条件，并且这两个训练媒体资源各自的内容满足内容相似条件。然后，针对每个训练媒体资源组合，确定该训练媒体资源组合中包括的两个训练媒体资源各自的点击率之间的差距，并判断该差距是否满足点击率相似条件；若是，则确定该训练媒体资源组合为正训练媒体资源组合，若否，则确定该训练媒体资源组合为负训练媒体资源组合。进而，确定存在重合的训练媒体资源的正训练媒体资源组合和负训练媒体资源组合，根据该正训练媒体资源组合和该负训练媒体资源组合中各个训练媒体资源的标题文本，构建训练样本三元组。

对于内容相似的两个媒体资源，如果这两个媒体资源为观看对象带来的直观感受差别较大，那么将会在点击指标上产生较大的差异，反之，如果这两个媒体资源为观看对象带来的直观感受相同或者相似，那么在点击指标上不会产生较大的差异。本申请实施例基于该种理论假设，提出了无监督的数据挖掘方式。

在该种数据挖掘方式中，服务器可以从后台数据中挖掘曝光情况满足曝光一致条件、且内容满足内容相似条件的两个训练媒体资源，并利用这两个训练媒体资源组成训练媒体资源组合。此处的曝光一致条件例如可以是两个训练媒体资源发布后的预设时长内的曝光量之间的差异值小于预设的曝光量差异值阈值；即通过该曝光一致条件，限制训练媒体资源组合中的训练媒体资源曝光时长相同、且曝光量基本一致，在分发指标上尽量打平。此处的内容相似条件例如可以是两个训练媒体资源的标题文本的TF-IDF(termfrequency–inverse document frequency)相似度高于预设的相似度阈值，又例如可以是两个训练媒体资源的标签的交并比高于预设的交并比阈值，上述两种内容相似条件可以组合限制训练媒体资源组合中训练媒体资源的相似性；之所以利用该内容相似条件限制训练媒体资源组合中的训练媒体资源，是为了在媒体资源内容相似的情况下，使所训练的感受特征提取模型学习到感受特征的差异。

然后，针对每个训练媒体资源组合，服务器可以确定该训练媒体资源组合中包括的两个训练媒体资源各自的点击率之间的差距，应理解，此处训练媒体资源的点击率是指在曝光一致条件所限制的曝光时长内的点击率。进而，服务器可以判断两个训练媒体资源各自的点击率之间的差距是否满足点击率相似条件，此处的点击率相似条件例如可以是两个训练媒体资源各自的点击率之间的差值小于预设的点击率差值阈值，又例如可以是两个训练媒体资源各自的点击率之间的比值在预设的比值范围内。若某训练媒体资源组合中的两个训练媒体资源各自的点击率之间的差距满足点击率相似条件，则可以确定该训练媒体资源组合为正训练媒体资源组合，即确定该训练媒体资源组合中包括的两个训练媒体资源为观看对象带来的直观感受相同或相似。若某训练媒体资源组合中的两个训练媒体资源各自的点击率之间的差距不满足点击率相似条件，则可以确定该训练媒体资源组合为负训练媒体资源组合，即确定该训练媒体资源组合中包括的两个训练媒体资源为观看对象带来的直观感受相差较大。

进而，服务器可以从各正训练媒体资源组合和各负训练媒体资源组合中，挖掘存在重合的训练媒体资源的正训练媒体资源组合和负训练媒体资源组合，该重合的训练媒体资源是指正训练媒体资源组合和负训练媒体资源组合存在的相同的训练媒体资源。相应地，服务器可以利用该正训练媒体资源组合和负训练媒体资源组合中各训练媒体资源各自对应的标题文本，构建训练样本三元组，具体的，服务器可以将这两个训练媒体资源组合中重合的训练媒体资源的标题文本作为第一训练标题文本，将正训练媒体资源组合中另一个训练媒体资源的标题文本作为第二训练标题文本，将负训练媒体资源组合中另一个训练媒体资源的标题文本作为第三训练标题文本。

此外，为了保证通过上述无监督的数据挖掘方式构建的训练样本三元组中包括的标题文本的分布情况，与线上数据的分布情况相平衡，服务器还可以按照线上媒体资源的分布情况(以新闻资源为例，可以按照各类新闻资源的分布情况)，对各训练样本三元组中各标题文本对应的媒体资源进行平衡，以使各训练样本三元组中各标题文本各自对应的媒体资源的分布情况，与线上媒体资源的分布情况基本相同，从而有利于后续的模型训练。

服务器采用有监督的数据挖掘方式构建训练样本三元组时，可以通过感受分类模型，根据训练媒体资源，确定该训练媒体资源对应的预测感受类型、以及该预测感受类型的置信度，并确定该置信度作为该训练媒体资源对应的置信度。然后，确定所对应的置信度超过预设置信度阈值的训练媒体资源，作为目标训练媒体资源；利用各目标训练媒体资源组成目标训练媒体资源集合。进而，针对该目标训练媒体资源集合中的目标训练媒体资源，在该目标训练媒体资源集合中查找所对应的预测感受类型与该目标训练媒体资源相同的正目标训练媒体资源，以及查找所对应的预测感受类型与该目标训练媒体资源不同的负目标训练媒体资源；并根据该目标训练媒体资源、以及所查找到的正目标训练媒体资源和负目标训练媒体资源各自的标题文本，构建训练样本三元组。

图3为本申请实施例提供的有监督的数据挖掘方式的实现原理示意图。具体的，在该种数据挖掘方式中，服务器可以预先获取少量的标注训练样本，该标注训练样本中包括参考训练媒体资源及其对应的标注感受类型(可以是人工针对参考训练媒体资源标注的)。进而，利用所获取的标注训练样本训练感受分类模型，该感受分类模型可以针对媒体资源确定其对应的预测感受类型，并确定该预测感受类型对应的置信度(用于表征该预测感受类型的可靠程度)。

由于该感受分类模型是基于少量的标注训练样本训练得到的，因此，该感受分类模型的模型性能可能比较局限，无法针对各种媒体资源准确地预测其所属的感受类型。在该种情况下，服务器先可以利用该感受分类模型确定各训练媒体资源各自对应的预测感受类型，并且获得各训练媒体资源各自对应的置信度(即由感受分类模型确定的训练媒体资源对应的预测感受类型的置信度)。进而，服务器可以从各训练媒体资源中，选出所对应的置信度较高的训练媒体资源作为目标训练媒体资源，并利用所选出的目标训练媒体资源组成目标训练媒体资源集合，以基于该目标训练媒体资源集合选择用于训练感受特征提取模型的训练样本三元组；由于所对应的置信度较高的目标训练媒体资源对应的预测感受类型相对更可靠，因此，有利于服务器根据此类目标训练媒体资源对应的标题文本，构建更可靠的训练样本三元组。

具体构建训练样本三元组时，服务器可以针对目标训练媒体资源集合中的某个目标训练媒体资源，在该目标训练媒体资源集合中查找所对应的预测感受类型与该目标训练媒体资源相同的正目标训练媒体资源，即服务器需要在目标训练媒体资源集合中查找到与该目标训练媒体资源所属于同一预测感受类型的另一目标训练媒体资源，并将所查找到的该目标训练媒体资源作为该目标训练媒体资源对应的正目标训练媒体资源。针对该目标训练媒体资源，服务器还需要在目标训练媒体资源集合中查找所对应的预测感受类型与该目标训练媒体资源不同的负目标训练媒体资源，即服务器需要在目标训练媒体资源集合中查找与该目标训练媒体资源所属于不同预测感受类型的另一目标训练媒体资源，并将所查找到的该目标训练媒体资源作为该目标训练媒体资源对应的负目标训练媒体资源。进而，服务器可以利用该目标训练媒体资源、该正目标训练媒体资源和该负目标训练媒体资源各自的标题文本，构建训练样本三元组，即利用该目标训练媒体资源的标题文本作为第一训练标题文本，利用该正目标训练媒体资源的标题文本作为第二训练标题文本，利用该负目标训练媒体资源的标题文本作为第三训练标题文本。

服务器采用弱监督的数据挖掘方式构建训练样本三元组时，可以获取多个训练媒体资源组合；每个训练媒体资源组合包括两个训练媒体资源，并且这两个训练媒体资源各自的内容满足内容相似条件。然后，针对每个训练媒体资源组合，控制将该训练媒体资源组合包括的两个训练媒体资源曝光给同一对象群体；根据该对象群体中各对象各自对该训练媒体资源组合中各个训练媒体资源的点击情况，确定这两个训练媒体资源各自对应的点击对象群体；判断这两个训练媒体资源各自对应的点击对象群体之间的一致率是否超过预设一致率阈值，若是，则确定该训练媒体资源组合为正训练媒体资源组合，若否，则确定该训练媒体资源组合为负训练媒体资源组合。进而，确定存在重合的训练媒体资源的正训练媒体资源组合和负训练媒体资源组合，根据该正训练媒体资源组合和该负训练媒体资源组合中各个训练媒体资源的标题文本，构建训练样本三元组。

图4为本申请实施例提供的弱监督的数据挖掘方式的实现原理示意图。在该种数据挖掘方式中，服务器可以先获取多个训练媒体资源组合，每个训练媒体资源组合中包括两个训练媒体资源，并且这两个训练媒体资源各自的内容满足内容相似条件，此处的内容相似条件例如可以与上文中无监督的数据挖掘方式中的内容相似条件相同。

针对每个训练媒体资源组合，服务器可以控制将该训练媒体资源组合中包括的两个训练媒体资源曝光(为了区分，下文将其分别称为第一训练媒体资源和第二训练媒体资源)给同一对象群体，在该对象群体中，可能存在只点击第一训练媒体资源的对象，可能存在只点击第二训练媒体资源的对象，可能存在对于第一训练媒体资源和第二训练媒体资源均不点击的对象，还可能存在对于第一训练媒体资源和第二训练媒体资源均点击的对象。服务器在此需要根据该对象群体中各对象各自对于第一训练媒体资源和第二训练媒体资源的点击情况，确定第一训练媒体资源对应的点击对象群体、以及第二训练媒体资源对应的点击对象群体。进而，根据第一训练媒体资源对应的点击对象群体和第二训练媒体资源对应的点击对象群体之间的差异，来确定该第一训练媒体资源和该第二训练媒体资源为观看对象带来的直观感受是否相似。

具体的，服务器可以确定第一训练媒体资源对应的点击对象群体和第二训练媒体资源对应的点击对象群体之间的一致率，该一致率例如可以利用第一训练媒体资源对应的点击对象群体和第二训练媒体资源对应的点击对象群体之间的交并比来衡量。如果这两个点击对象群体之间的一致率超过预设的一致率阈值，则说明这两个点击对象群体较为一致，此时可以认为第一训练媒体资源和第二训练媒体资源为观看对象带来的直观感受一致，进而可以将包括该第一训练媒体资源和第二训练媒体资源的训练媒体资源组合作为正训练媒体资源组合。相反，如果两个点击对象群体之间的一致率为超过预设的一致率阈值，则说明这两个点击对象群体并不一致，此时可以认为第一训练媒体资源和第二训练媒体资源为观看对象带来的直观感受相差较大，进而可以将包括该第一训练媒体资源和第二训练媒体资源的训练媒体资源组合作为负训练媒体资源组合。

服务器通过上述方式确定出各正训练媒体资源组合和各负训练媒体资源组合之后，可以确定存在重合的训练媒体资源的正训练媒体资源组合和负训练媒体资源组合，进而，根据该正训练媒体资源组合和该负训练媒体资源组合中各训练媒体资源的标题文本，构建训练样本三元组。此处构建训练样本三元组的方式，与上文介绍的无监督的数据挖掘方式中构建训练样本三元组的方式相同，详细可参见上文的相关描述，此处不再赘述。

在实际应用中，服务器可以采用上述三种数据挖掘方式中的任意一种，也可以采用上述三种数据挖掘方式中任意两种的组合，还可以采用上述三种数据挖掘方式的组合，本申请对此不做任何限定。当同时采用三种数据挖掘方式的组合时，可以保证挖掘出的语料覆盖线上大盘数据的表现、标注数据特征和对象操作信息等特征，更有利于后续对于感受特征提取模型的训练。

应理解，在实际应用中，服务器也可以采用其它方式进行数据挖掘，以构建用于训练感受特征提取模型的训练样本三元组，本申请在此不对挖掘训练样本三元组的方式做任何限定。

可选的，服务器还可以对所构建的训练样本三元组进行无监督数据增强(Unsupervised Data Augmentation，UDA)处理，例如，针对训练样本三元组中第一训练标题文本进行数据增强处理，以得到另一第二训练标题文本，并利用该第一训练标题文本、该第二训练标题文本和该训练样本三元组中原本的第三训练标题文本，构建新的训练样本三元组。此处的数据增强处理例如可以是回译(即将第一训练标题文本翻译为外文，再翻译回来)，又例如可以是基于词语的TF-IDF对标题文本中的词语进行替换，再例如，若在模型训练过程中引入标题文本对应的训练媒体资源的封面图片，还可以基于RandAugment对训练媒体资源的封面图片进行数据增强处理，本申请在此不对数据增强处理的方式做任何限定。

经实验表明，对训练样本三元组进行UDA处理，对于后续的模型训练可以产生正向收益，具体实验结果可参见图7中(a)。

步骤202：基于所述训练样本三元组，训练感受特征提取模型；所述感受特征提取模型用于针对输入文本确定其对应的感受特征，所述感受特征用于反映所述输入文本为观看对象带来的直观感受。

服务器通过步骤201构建出大量的训练样本三元组后，可以进一步利用所构建的训练样本三元组训练感受特征提取模型。此处的感受特征提取模型是用于针对输入文本确定其对应的感受特征的模型，该感受特征用于反映输入文本为观看对象带来的直观感受，其具体可以表现为Embedding向量。

本申请实施例旨在构建一个感受的特征空间(即体感的特征空间)，其剥离了媒体资源本身的内容，提取媒体资源的感受Embedding，以作为下游应用的中间产物。在训练感受特征提取模型时，服务器可以利用训练样本三元组的损失值约束特征向量空间分布。

具体训练感受特征提取模型时，服务器可以通过该感受特征提取模型，确定训练样本三元组中第一训练标题文本、第二训练标题文本和第三训练标题文本各自对应的预测感受特征。然后，服务器可以确定第一训练标题文本和第二训练标题文本各自对应的预测感受特征之间的第一相似度，以及确定第一训练标题文本和第三训练标题文本对应的预测感受特征之间的第二相似度。进而，服务器可以根据第一相似度和第二相似度构建损失函数；并基于该损失函数，训练该感受特征提取模型。

图5为本申请实施例提供的感受特征提取模型的训练原理示意图。如图5所示，训练感受特征提取模型时，服务器可以将训练样本三元组中的第一训练标题文本Anchor、第二训练标题文本Pos和第三训练标题文本Neg分别输入感受特征提取模型，该感受特征提取模型可以相应地确定第一训练标题文本Anchor、第二训练标题文本Pos和第三训练标题文本Neg各自对应的预测感受特征，即Anchor emb、Pos emb和Neg emb。

进而，服务器可以计算Anchor emb和Pos emb之间的余弦距离，作为第一相似度dis_p，计算Anchor emb和Neg emb之间的余弦距离，作为第二相似度dis_n。并根据该第一相似度dis_p和第二相似度dis_n构建损失函数，例如，可以基于第一相似度dis_p与第二相似度dis_n之间的差值构建损失函数。进而，服务器可以基于该损失函数对所训练的感受特征模型的模型参数进行调整，以使第一相似度dis_p越来越小，使第二相似度dis_n越来越大，也即使得Anchor emb与Pos emb在感受特征的空间分布越来越相近，使得Anchor emb与Neg emb在感受特征的空间分布相差越来越多。

在实际应用中，感受特征提取模型中的编码器(Encoder)模块可以使用UniLM模型作为主体，当然，也可以使用其它模型结构作为主体，本申请对此不做任何限定。

在一种可能的实现方式中，服务器还可以结合训练媒体资源的封面图像特征和标题文本，共同训练该感受特征提取模型，以使该感受特征提取模型可以根据封面图像特征和标题文本确定媒体资源的感受特征，从而提高所确定的感受特征的准确性。

即，服务器可以通过感受特征提取模型，根据第一训练标题文本和第一图像特征，确定第一训练标题文本对应的预测感受特征；该第一图像特征是根据第一训练标题文本对应的第一训练媒体资源的封面图片确定的。通过感受特征提取模型，根据第二训练标题文本和第二图像特征，确定第二训练标题文本对应的预测感受特征；该第二图像特征是根据第二训练标题文本对应的第二训练媒体资源的封面图片确定的。通过感受特征提取模型，根据第三训练标题文本和第三图像特征，确定该第三训练标题文本对应的预测感受特征；该第三图像特征是根据第三训练标题文本对应的第三训练媒体资源的封面图片确定的。

仍以感受特征提取模型的Encoder模块使用UniLM模型作为主体为例，图6为本申请实施例提供的该种感受特征提取模型的训练原理示意图。如图6所示，针对训练样本三元组中的各个训练标题文本，服务器还可以获取各个训练标题文本各自对应的训练媒体资源的封面图片，并通过EfficientNet预训练模型提取各封面图片各自的图像特征。向所训练的感受特征提取模型输入数据时，服务器可以使用一个占位Token承载封面图片的图像特征，利用该图像特征替代Embedding Layer提取图像特征；对于标题文本的输入仍保持正常，即对标题文本进行拆分，按照标题文本中各字符的排列顺序构建对应的字符序列，输入该字符序列。经UniLM模型的处理，将获取该UniLM模型中间产出的Embedding作为与输入数据对应的感受特征。

在一种可能的实现方式中，服务器还可以结合训练媒体资源的分类类目和标题文本，共同训练该感受特征提取模型，以使该感受特征提取模型可以根据分类类目和标题文本确定媒体资源的感受特征，从而提高所确定的感受特征的准确性。

即，服务器可以通过感受特征提取模型，根据第一训练标题文本和第一类目特征，确定第一训练标题文本对应的预测感受特征；该第一类目特征是根据第一训练标题文本对应的第一训练媒体资源所属的类目确定的。通过感受特征提取模型，根据第二训练标题文本和第二类目特征，确定该第二训练标题文本对应的预测感受特征；该第二类目特征是根据第二训练标题文本对应的第二训练媒体资源所属的类目确定的。通过感受特征提取模型，根据第三训练标题文本和第三类目特征，确定该第三训练标题文本对应的预测感受特征；该第三类目特征是根据第三训练标题文本对应的第三训练媒体资源所属的类目确定的。

需要说明的是，感受特征提取模型所学习的感受特征是观看对象对于媒体资源的感受，在客户端上体现为看到媒体资源的标题和封面后产生的第一感受。但是仅凭借媒体资源的标题和封面图片，感受特征提取模型虽然能够学习到部分感受特征，但是容易将分类体系中毫无关系的媒体资源拉近，感受特征提取模型可能会学出很多的Badcase。本申请发明人考虑到先验特征(如媒体资源的分类类目)对感受特征来说也有一定的相关性，例如，娱乐资讯、游戏集锦等类目下的媒体资源给观看对象的直观感受大多是轻松娱乐和年轻化，因此，本申请实施例尝试在模型训练的过程中加入分类类目这一特征，所加入的分类类目可以是一级类目(粒度较粗)、二级类目(粒度较细)、或者的一级类目和二级类目的组合。

与在模型训练过程中引入封面图片的图像特征相类似，加入分类类目这一特征时，服务器可以在输入数据中设计用于承载分类类目的占位符，以使分类类目、标题文本和封面图片的图像特征同时输入所训练的感受特征提取模型。

经实验发现，加入二级类目对于模型训练而言会产生正向收益，而加入一级类目会产生负向收益。究其原因在于，一级类目相对感受特征粒度较大，例如，对于新闻资源而言，存在正能量新闻、负能量新闻、低调性新闻等等，本申请原本旨在将新闻资源为观看对象带来的第一感受区分开来，而加入一级类目的特征容易将不同直观感受的新闻资源重新混淆，因此所产生的收益是负向的。而二级类目粒度较小，例如游戏集锦、游戏解说等，其可以向上聚合成年轻化的感受，因此加入二级类目的特征可以带来正向收益。具体实现结果可参见图7中(b)。

可选的，为了提高模型训练效率，使得模型训练过程可以快速迭代，从而使得所训练的感受特征提取模型可以快速收敛，本申请实施例在训练感受特征提取模型的过程中，可以使用Online Hard Triplet策略。

即，在对于感受特征提取模型的每轮训练中，确定参与本轮训练的各训练样本三元组各自对应的损失值；该损失值是根据训练样本三元组中第一训练标题文本和第二训练标题文本各自对应的预测感受特征之间的相似度、以及第一训练标题文本和第三训练标题文本各自对应的预测感受特征之间的相似度确定的，此处的预测感受相似度是通过本轮训练的感受特征提取模型根据对应的训练标题文本确定的。进而，选择所对应的损失值超过预设损失值阈值的训练样本三元组，作为参与下一轮训练的训练样本三元组。

具体的，对于训练样本三元组中的第一训练标题文本Anchor、第二训练标题文本Pos和第三训练标题文本Neg，要求其在特征空间中满足如下公式：

L＝max(d(a,p)-d(a,n)+margin,0)

其中，L为训练样本三元组对应的损失值；d(a,p)为第一训练标题文本Anchor与第二训练标题文本Pos各自对应的预测感受特征之间的余弦距离，d(a,n)为第一训练标题文本Anchor与第三训练标题文本Neg各自对应的预测感受特征之间的余弦距离，margin为预设的距离阈值。此处训练标题文本对应的预测感受特征是通过本轮训练得到的感受特征提取模型确定的。

为了最小化L，则需要满足如下关系：

d(a,p)→0，d(a,n)>margin

在每轮对于感受特征提取模型的训练过程中，会有很多对于感受特征提取模型来说比较容易识别的训练样本三元组，其对应的损失值较小，甚至为0。此类比较容易识别的训练样本三元组，对于感受特征提取模型的训练并不会起到有效的帮助作用，因此，每完成一轮感受特征提取模型的训练，服务器可以对需要参与下一轮模型训练的训练样本三元组进行筛选，即选择所对应的损失值超过预设损失值阈值的训练样本三元组，作为参与下一轮模型训练的训练样本三元组，此类所对应的损失值超过预设损失值阈值的训练样本三元组属于比较难识别的训练样本三元组，这类训练样本三元组能够帮助感受特征提取模型更快地准确学习感受特征，从而提高模型训练效率。

步骤203：待所述感受特征提取模型满足训练结束条件后，获取所述感受特征提取模型针对各所述训练样本三元组中各训练标题文本确定的感受特征。

待所训练的感受特征提取模型满足训练结束条件后，服务器可以获取该满足训练结束条件的感受特征提取模型针对各训练样本三元组中各训练标题文本确定的感受特征。示例性的，若服务器完成某轮对于感受特征提取模型的训练后，检测到该感受特征提取模型满足训练结束条件，则可以获取在该轮训练中该感受特征提取模型针对各训练样本三元组中各训练标题文本确定的感受特征，对于未参与该轮训练的训练样本三元组，服务器还可以利用该满足训练结束条件的感受特征提取模型，对这些训练样本三元组中的训练标题文本进行处理，以得到这些训练样本三元组中各训练标题文本各自的感受特征。

在一种可能的实现方式中，服务器可以基于同一发布者发布的多个媒体资源，来测试所训练的感受特征提取模型是否满足训练结束条件。即，每完成一轮对于感受特征提取模型的训练，服务器可以对通过该感受特征提取模型针对各训练样本三元组中各训练标题文本确定的预测感受特征做聚类处理，得到多个参考感受特征聚类簇。并且，服务器可以获取同一发布者发布的多个媒体资源，作为测试媒体资源；针对每个测试媒体资源，服务器可以通过感受特征提取模型确定该测试媒体资源对应的预测感受特征，并根据该预测感受特征，将该测试媒体资源映射至对应的参考感受特征聚类簇。进而，根据各个测试媒体资源各自的映射结果，确定本轮模型训练对应的映射集中度；若该映射集中度满足第一预设集中条件，则确定该感受特征提取模型满足训练结束条件。

在实际应用中，一个内容垂直度较高的资源发布者，其发布的媒体资源的风格基本一致，相应地为观看对象带来的直观感受也基本一致。本申请实施例基于该理论基础，设计了一种对于感受特征提取模型的测试机制。图8为本申请实施例提供的该种测试机制的实现原理示意图。

如图8所示，每完成一轮对于感受特征提取模型的训练，服务器即可以利用本轮训练的感受特征提取模型针对各训练样本三元组中各训练标题文本确定的感受特征进行聚类处理，从而得到若干个参考感受特征聚类簇，如图8中的参考感受特征聚类簇1、参考感受特征聚类簇2、……、参考感受特征聚类簇k-1和参考感受特征聚类簇k。同时，服务器还可以获取同一发布者发布的多个媒体资源，作为测试媒体资源；针对每个测试媒体资源，服务器可以利用通过本轮模型训练得到的感受特征提取模型，根据该测试媒体资源的标题文本和封面图片的图像特征，确定该测试媒体资源对应的预测感受特征，并根据该测试媒体资源对应的预测感受特征，将该测试媒体资源映射至对应的参考感受特征聚类簇。

服务器通过上述操作，将同一发布者(CP)发布的多个测试媒体资源分别映射至对应的参考感受特征聚类簇后，可以根据这多个测试媒体资源各自的映射结果，确定映射集中度。此处的映射集中度例如可以使用头部占比来表示，计算该头部占比时，可以先确定映射有最多的测试媒体资源的参考感受特征聚类簇，进而利用被映射到该参考感受特征聚类簇中的测试媒体资源的数量除以该发布者发布的测试媒体资源的数量，得到该头部占比；应理解，头部占比越大，则表明该发布者发布的媒体资源为观看对象带来的直观感受越集中。此处的映射集中度又例如可以使用方差来表示，计算该方差时，可以统计映射至每个参考感受特征聚类簇中的测试媒体资源的数量，进而计算映射至各个参考感受特征聚类簇的测试媒体资源数量的方差；应理解，方差越小，则表明该发布者发布的媒体资源为观看对象带来的直观感受越集中。此处的映射集中度也可以综合考虑上述头部占比和方差来确定。

应理解，在实际应用中，服务器也可以从多个发布者处获取测试媒体资源，针对每个发布者，根据该发布者发布的测试媒体资源在参考感受特征聚类簇中的映射结果，确定该发布者对应的映射集中度，进而根据各个发布者各自对应的映射集中度，确定本轮模型训练对应的映射集中度。

若通过上述方式确定的本轮模型训练对应的映射集中度满足第一预设集中条件，如映射集中度高于预设的第一集中度阈值，则可以认为该感受特征提取模型当前的模型性能已达到预期的标准，此时可以确定该感受特征提取模型满足训练结束条件。

在另一种可能的实现方式中，若在构建训练样本三元组时采用了有监督的数据挖掘方式，则此时可以结合有监督的数据挖掘方式中的标注感受类型，测试所训练的感受特征提取模型是否满足训练结束条件。即，每完成一轮对于感受特征提取模型的训练，服务器可以对该感受特征提取模型针对各训练样本三元组中各训练标题文本确定的预测感受特征做聚类处理，得到多个参考感受特征聚类簇。此外，针对用于训练感受分类模型的每个参考训练媒体资源，服务器可以通过该感受特征提取模型确定该参考训练媒体资源对应的预测感受特征；并根据该参考训练媒体资源对应的预测感受特征，将该参考训练媒体资源映射至对应的参考感受特征聚类簇。进而，针对每种标注感受类型，服务器可以根据对应于该种标注感受类型的参考训练媒体资源的映射结果，确定该种标注感受类型的映射集中度。最终，服务器可以根据各种标注感受类型各自的映射集中度，确定本轮模型训练对应的映射集中度；若该映射集中度满足第二预设集中条件，则确定该感受特征提取模型满足训练结束条件。

在该种实现方式中，服务器可以结合有监督数据挖掘方式中的标注数据，对所训练的感受特征提取模型进行训练。具体的，每完成一轮对于感受特征提取模型的训练，服务器即可以利用本轮训练的感受特征提取模型针对各训练样本三元组中各训练标题文本确定的感受特征进行聚类处理，从而得到若干个参考感受特征聚类簇。

对于在有监督的数据挖掘方式中用于训练感受分类模型的标注训练样本，服务器可以针对每个标注训练样本中包括的参考训练媒体资源，通过在本轮训练中得到的感受特征提取模型，对该参考训练媒体资源的标题文本和封面图片的图像特征进行处理，得到该参考训练媒体资源对应的预测感受特征；并且，将该参考训练媒体资源对应的预测感受特征映射至对应的参考感受特征聚类簇。

确定出各参考训练媒体资源各自对应的预测感受特征后，服务器可以针对在有监督的数据挖掘方式中涉及的每种标注感受类型(即标注训练样本中包括的标注感受类型)，根据对应于该种标注感受类型的各参考训练媒体资源各自的映射结果，确定该标注感受类型的映射集中度。此处的映射集中度例如可以使用头部占比表示，计算该头部占比时，可以先确定映射有最多的参考训练媒体资源的参考感受特征聚类簇，进而利用被映射到该参考感受特征聚类簇中的参考训练媒体资源的数量除以该种标注感受类型对应的参考训练媒体资源的总数量，得到该头部占比；应理解，头部占比越大，则表明该标注特征类型下的参考训练媒体资源分布越集中。此处的映射集中度又例如可以使用方差来表示，计算该方差时，可以统计映射至每个参考感受特征聚类簇中的参考训练媒体资源的数量，进而计算该种标注感受类型下映射至各个参考感受特征聚类簇的参考训练媒体资源的数量的方差；应理解，方差越小，则表明该种标注感受类型下的参考训练媒体资源分布越集中。此处的映射集中度也可以综合考虑上述头部占比和方差来确定。

服务器确定出各种标注感受特征各自的映射集中度后，可以根据各种标注感受特征各自的映射集中度，计算本轮模型训练对应的映射集中度，例如，可以计算各种标注感受特征各自的映射集中度的均值，作为本轮模型训练对应的映射集中度。若所确定的本轮模型训练对应的映射集中度满足第二预设集中条件，如映射集中度高于预设的第二集中度阈值，则可以认为该感受特征提取模型当前的模型性能已达到预期的标准，此时可以确定该感受特征提取模型满足训练结束条件。

应理解，上述对于感受特征提取模型的测试方式仅为示例，在实际应用中，服务器也可以采用其它方式对感受特征提取模型进行测试，本申请在此不对该感受特征提取模型的测试方式做任何限定。

步骤204：对各训练样本三元组中各训练标题文本各自的感受特征进行聚类处理，得到多个感受特征聚类簇，确定每个所述感受特征聚类簇对应的感受标签。

服务器获取到满足训练结束条件的感受特征提取模型针对各训练样本三元组中各训练标题文本确定的感受特征后，服务器可以对所获取的各训练样本三元组中各训练标题文本的感受特征进行聚类处理，从而得到若干个感受特征聚类簇，进而，可以针对每个感受特征聚类簇配置对应的感受标签。

在一种可能的实现方式中，服务器可以采用Kmeans聚类算法，进行上述聚类处理。具体的，服务器可以先参考Kmeans算法的肘部法则，确定最佳的感受特征聚类簇个数，图9为基于肘部法则确定最佳的感受特征聚类簇个数的趋势图，其中，K为感受特征聚类簇的数目，SSE是所有点到聚类中心的距离综合，聚类算法越拟合真实分布，SSE越小。肘部法则是指当所选择的聚类簇的个数小于最佳的聚类簇个数时，随着K的增加，SSE会大幅减小，而当所选择的聚类簇的个数超过最佳的聚类簇的个数时，随着K的增加，SSE的下降趋势就不会那么明显。也就是说，最佳的聚类簇个数在SSE趋势图中会表现为一个拐点，本申请发明人经多次聚类实验(聚类数跨度为5)，最终确定最佳的感受特征聚类簇个数在100左右，因此本申请实施例可以选择100作为感受特征聚类簇的数目，基于该数目进行Kmeans聚类，得到100个感受特征聚类簇。

经实验测试，将各训练样本三元组中各训练标题文本聚类到100个类，在每个类中随机抽取30个训练媒体资源，对每个类进行感受一致性的评估。最终评估结果如图7中(c)所示，综合评估各类感受的一致性得到的一致率为92.01％。针对新闻资源进行上述感受特征聚类，可以将同属于娱乐新闻的新闻资源划分至轻松娱乐类感受和低调性娱乐类感受中，也可以将新闻资源划分为严肃类感受和负面类感受，这说明通过感受聚类学习到了比一级类目粒度更小的感受粒度；同时，感受聚类将同属于娱乐类的二级类目聚类到了一起，将同属于新闻类的二级类目聚类到的了一起，说明通过感受聚类学习到了比二级类目粒度更大的感受粒度；此外，感受聚类也学习到了人工未总结的感受类型。

应理解，在实际应用中，除了可以使用Kmeans聚类算法进行上述聚类处理外，也可以采用其它聚类算法进行上述聚类处理，本申请在此不对具体采用的聚类算法做任何限定。

服务器通过上述方式确定出各感受特征聚类簇各自对应的感受标签后，可以将所确定的感受标签应用到媒体资源的下游应用投放中。具体的，针对待投放的目标媒体资源，服务器可以通过感受特征提取模型确定该目标媒体资源对应的目标感受特征。然后，服务器可以确定目标感受特征所属的感受特征聚类簇，为该目标媒体资源配置感受特征聚类簇对应的感受标签；进而，服务器可以根据该目标媒体资源对应的感受标签，投放该目标媒体资源。

具体的，针对待投放至下游应用的目标媒体资源，服务器可以将该目标媒体资源的标题文本和封面图片的图像特征输入训练好的感受特征提取模型，该感受特征提取模型通过对输入的标题文本和图像特征进行分析处理后，将相应地输出该目标媒体资源对应的目标感受特征。进而，服务器可以根据该目标媒体资源对应的目标感受特征，将该目标感受特征映射至对应的感受特征聚类簇，并为该目标媒体资源配置该感受特征聚类簇对应的感受标签。最终，服务器可以基于该感受标签，将目标媒体资源投放至下游应用。

示例性的，将目标媒体资源投放至下游应用时，服务器可以根据各目标媒体资源各自对应的感受标签，控制针对同一对象推荐的目标媒体资源不可为该对象带来密集的相同的感受，例如，控制为同一对象推荐对应于不同的感受标签的目标媒体资源，且保证所推荐的各种感受标签下的目标媒体资源打散。

示例性的，将目标媒体资源投放至下游应用后，服务器可以确定目标对象对于目标媒体资源的查看情况，并根据对象所查看的目标媒体资源对应的感受标签，相应地确定对象对应的特征数据。需要说明的是，此处服务器获取对象对于目标媒体资源的查看情况，是在获得该对象授权允许的条件下进行的。

此外，上述目标媒体资源对应的体感标签还可以在推荐侧召回和排序时使用，以实现精准推荐。本申请在此不对体感标签在下游应用中的具体应用方式做任何限定。

针对上文描述的数据处理方法，本申请还提供了对应的数据处理装置，以使上述数据处理方法在实际中得以应用及实现。

参见图10，图10是与上文图2所示的数据处理方法对应的数据处理装置1000的结构示意图。如图10所示，该数据处理装置1000包括：

样本构建模块1001，用于基于训练媒体资源的标题文本，构建训练样本三元组；所述训练样本三元组包括第一训练标题文本、第二训练标题文本和第三训练标题文本，所述第一训练标题文本与所述第二训练标题文本之间满足感受相似条件，所述第一训练标题文本与所述第三训练标题文本之间不满足所述感受相似条件，所述感受相似条件用于衡量标题文本为观看对象带来的直观感受是否相似；

模型训练模块1002，用于基于所述训练样本三元组，训练感受特征提取模型；所述感受特征提取模型用于针对输入文本确定其对应的感受特征，所述感受特征用于反映所述输入文本为观看对象带来的直观感受；

特征获取模块1003，用于待所述感受特征提取模型满足训练结束条件后，获取所述感受特征提取模型针对各所述训练样本三元组中各训练标题文本确定的感受特征；

聚类模块1004，用于对各训练样本三元组中各训练标题文本各自的感受特征进行聚类处理，得到多个感受特征聚类簇，确定每个所述感受特征聚类簇对应的感受标签。

可选的，所述样本构建模块1001具体用于：

获取多个训练媒体资源组合；每个所述训练媒体资源组合包括两个训练媒体资源，所述两个训练媒体资源各自的曝光情况满足曝光一致条件，所述两个训练媒体资源各自的内容满足内容相似条件；

针对每个所述训练媒体资源组合，确定所述训练媒体资源组合中包括的两个训练媒体资源各自的点击率之间的差距，并判断所述差距是否满足点击率相似条件；若是，则确定所述训练媒体资源组合为正训练媒体资源组合，若否，则确定所述训练媒体资源组合为负训练媒体资源组合；

确定存在重合的训练媒体资源的正训练媒体资源组合和负训练媒体资源组合，根据所述正训练媒体资源组合和所述负训练媒体资源组合中各个训练媒体资源的标题文本，构建所述训练样本三元组。

可选的，所述样本构建模块1001具体用于：

通过感受分类模型，根据训练媒体资源，确定所述训练媒体资源对应的预测感受类型、以及所述预测感受类型的置信度，确定所述置信度作为所述训练媒体资源对应的置信度；所述感受分类模型是基于标注训练样本确定的，所述标注训练样本中包括参考训练媒体资源及其对应的标注感受类型；

确定所对应的置信度超过预设置信度阈值的训练媒体资源，作为目标训练媒体资源；利用各所述目标训练媒体资源组成目标训练媒体资源集合；

针对所述目标训练媒体资源集合中的目标训练媒体资源，在所述目标训练媒体资源集合中查找所对应的预测感受类型与所述目标训练媒体资源相同的正目标训练媒体资源，以及查找所对应的预测感受类型与所述目标训练媒体资源不同的负目标训练媒体资源；根据所述目标训练媒体资源、所述正目标训练媒体资源和所述负目标训练媒体资源各自的标题文本，构建所述训练样本三元组。

可选的，所述样本构建模块1001具体用于：

获取多个训练媒体资源组合；每个所述训练媒体资源组合包括两个训练媒体资源，所述两个训练媒体资源各自的内容满足内容相似条件；

针对每个所述训练媒体资源组合，控制将所述训练媒体资源组合包括的两个训练媒体资源曝光给同一对象群体；根据所述对象群体中各对象各自对所述训练媒体资源组合中各个训练媒体资源的点击情况，确定所述两个训练媒体资源各自对应的点击对象群体；判断所述两个训练媒体资源各自对应的点击对象群体之间的一致率是否超过预设一致率阈值，若是，则确定所述训练媒体资源组合为正训练媒体资源组合，若否，则确定所述训练媒体资源组合为负训练媒体资源组合；

可选的，所述模型训练模块1002具体用于：

通过所述感受特征提取模型，确定所述训练样本三元组中第一训练标题文本、第二训练标题文本和第三训练标题文本各自对应的预测感受特征；

确定所述第一训练标题文本和所述第二训练标题文本各自对应的预测感受特征之间的第一相似度，确定所述第一训练标题文本和所述第三训练标题文本对应的预测感受特征之间的第二相似度；

根据所述第一相似度和所述第二相似度，构建损失函数；基于所述损失函数，训练所述感受特征提取模型。

可选的，所述模型训练模块1002具体用于：

通过所述感受特征提取模型，根据所述第一训练标题文本和第一图像特征，确定所述第一训练标题文本对应的预测感受特征；所述第一图像特征是根据所述第一训练标题文本对应的第一训练媒体资源的封面图片确定的；

通过所述感受特征提取模型，根据所述第二训练标题文本和第二图像特征，确定所述第二训练标题文本对应的预测感受特征；所述第二图像特征是根据所述第二训练标题文本对应的第二训练媒体资源的封面图片确定的；

通过所述感受特征提取模型，根据所述第三训练标题文本和第三图像特征，确定所述第三训练标题文本对应的预测感受特征；所述第三图像特征是根据所述第三训练标题文本对应的第三训练媒体资源的封面图片确定的。

可选的，所述模型训练模块1002具体用于：

通过所述感受特征提取模型，根据所述第一训练标题文本和第一类目特征，确定所述第一训练标题文本对应的预测感受特征；所述第一类目特征是根据所述第一训练标题文本对应的第一训练媒体资源所属的类目确定的；

通过所述感受特征提取模型，根据所述第二训练标题文本和第二类目特征，确定所述第二训练标题文本对应的预测感受特征；所述第二类目特征是根据所述第二训练标题文本对应的第二训练媒体资源所属的类目确定的；

通过所述感受特征提取模型，根据所述第三训练标题文本和第三类目特征，确定所述第三训练标题文本对应的预测感受特征；所述第三类目特征是根据所述第三训练标题文本对应的第三训练媒体资源所属的类目确定的。

可选的，所述模型训练模块1002具体用于：

在对于所述感受特征提取模型的每轮训练中，确定参与本轮训练的各训练样本三元组各自对应的损失值；所述损失值是根据所述训练样本三元组中第一训练标题文本和第二训练标题文本各自对应的预测感受特征之间的相似度、以及第一训练标题文本和第三训练标题文本各自对应的预测感受特征之间的相似度确定的，所述预测感受相似度是通过本轮训练的所述感受特征提取模型根据对应的训练标题文本确定的；

选择所对应的损失值超过预设损失值阈值的训练样本三元组，作为参与下一轮训练的训练样本三元组。

可选的，所述模型训练模块1002还用于：

每完成一轮对于所述感受特征提取模型的训练，对所述感受特征提取模型针对各所述训练样本三元组中各训练标题文本确定的预测感受特征做聚类处理，得到多个参考感受特征聚类簇；

获取同一发布者发布的多个媒体资源，作为测试媒体资源；

针对每个所述测试媒体资源，通过所述感受特征提取模型确定所述测试媒体资源对应的预测感受特征；并根据所述预测感受特征，将所述测试媒体资源映射至对应的参考感受特征聚类簇；

根据各个所述测试媒体资源各自的映射结果，确定本轮模型训练对应的映射集中度；若所述映射集中度满足第一预设集中条件，则确定所述感受特征提取模型满足所述训练结束条件。

可选的，所述模型训练模块1002还用于：

针对每个所述参考训练媒体资源，通过所述感受特征提取模型确定所述参考训练媒体资源对应的预测感受特征；并根据所述参考训练媒体资源对应的预测感受特征，将所述参考训练媒体资源映射至对应的参考感受特征聚类簇；

针对每种所述标注感受类型，根据对应于所述标注感受类型的参考训练媒体资源的映射结果，确定所述标注感受类型的映射集中度；

根据各种所述标注感受类型各自的映射集中度，确定本轮模型训练对应的映射集中度；若所述映射集中度满足第二预设集中条件，则确定所述感受特征提取模型满足所述训练结束条件。

可选的，所述装置还包括：

感受特征提取模块，用于针对待投放的目标媒体资源，通过所述感受特征提取模型确定所述目标媒体资源对应的目标感受特征；

标签配置模块，用于确定所述目标感受特征所属的感受特征聚类簇，为所述目标媒体资源配置所述感受特征聚类簇对应的感受标签；

投放模块，用于根据所述目标媒体资源对应的感受标签，投放所述目标媒体资源。

通过上述数据处理装置，可以确定可为媒体资源配置的感受标签，并且保证为媒体资源配置的感受标签能够较准确地反映该媒体资源为观看对象带来的直观感受。相应地，在向下游应用投放媒体资源的过程中，借助所配置的感受标签进行投放，可以极大程度地提高投放效果。

本申请实施例还提供了一种用于实现上述数据处理方法的计算机设备，该计算机设备具体可以是终端设备或者服务器，下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。

参见图11，图11是本申请实施例提供的终端设备的结构示意图。如图11所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant，PDA)、销售终端(Point of Sales，POS)、车载电脑等任意终端设备，以终端为计算机为例：

图11示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图11，计算机包括：射频(Radio Frequency，RF)电路1110、存储器1120、输入单元1130(其中包括触控面板1131和其他输入设备1132)、显示单元1140(其中包括显示面板1141)、传感器1150、音频电路1160(其可以连接扬声器1161和传声器1162)、无线保真(wirelessfidelity，WiFi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解，图11中示出的计算机结构并不构成对计算机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1180是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行计算机的各种功能和处理数据。可选的，处理器1180可包括一个或多个处理单元；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

在本申请实施例中，该终端所包括的处理器1180还用于执行本申请实施例提供的数据处理方法的任意一种实现方式的步骤。

参见图12，图12为本申请实施例提供的一种服务器1200的结构示意图。该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器1200上执行存储介质1230中的一系列指令操作。

服务器1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。

其中，CPU 1222用于执行本申请实施例提供的数据处理方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种数据处理方法中的任意一种实施方式。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述各个实施例所述的一种数据处理方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

对各训练样本三元组中各训练标题文本各自的感受特征进行聚类处理，得到多个感受特征聚类簇，确定每个所述感受特征聚类簇对应的感受标签；

所述基于训练媒体资源的标题文本，构建训练样本三元组，包括：

获取多个训练媒体资源组合；每个所述训练媒体资源组合包括两个训练媒体资源，所述两个训练媒体资源各自的曝光情况满足曝光一致条件，所述两个训练媒体资源各自的内容满足内容相似条件；所述曝光一致条件为两个训练媒体资源发布后的预设时长内的曝光量之间的差异值小于预设的曝光量差异值阈值；所述内容相似条件用于在媒体资源内容相似的情况下使所述特征提取模型学习到感受特征的差异；

针对每个所述训练媒体资源组合，确定所述训练媒体资源组合中包括的两个训练媒体资源各自的点击率之间的差距，并判断所述差距是否满足点击率相似条件；若是，则确定所述训练媒体资源组合为正训练媒体资源组合，若否，则确定所述训练媒体资源组合为负训练媒体资源组合；所述两个训练媒体资源各自的点击率为所述曝光一致条件中所述预设时长内的点击率；所述正训练媒体资源组合中包括的两个训练媒体资源为观看对象带来的直观感受相同或相似；所述负训练媒体资源组合中包括的两个训练媒体资源为观看对象带来的直观感受不相似；

2.根据权利要求1所述的方法，其特征在于，所述基于训练媒体资源的标题文本，构建训练样本三元组，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于训练媒体资源的标题文本，构建训练样本三元组，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述训练样本三元组，训练感受特征提取模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过所述感受特征提取模型，确定所述训练样本三元组中第一训练标题文本、第二训练标题文本和第三训练标题文本各自对应的预测感受特征，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述通过所述感受特征提取模型，确定所述训练样本三元组中第一训练标题文本、第二训练标题文本和第三训练标题文本各自对应的预测感受特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述训练样本三元组，训练感受特征提取模型，包括：

8.根据权利要求1所述的方法，其特征在于，通过以下方式判断所述感受特征提取模型是否满足所述训练结束条件：

获取同一发布者发布的多个媒体资源，作为测试媒体资源；

9.根据权利要求2所述的方法，其特征在于，通过以下方式判断所述感受特征提取模型是否满足所述训练结束条件：

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

针对待投放的目标媒体资源，通过所述感受特征提取模型确定所述目标媒体资源对应的目标感受特征；

确定所述目标感受特征所属的感受特征聚类簇，为所述目标媒体资源配置所述感受特征聚类簇对应的感受标签；

根据所述目标媒体资源对应的感受标签，投放所述目标媒体资源。

11.一种数据处理装置，其特征在于，所述装置包括：

聚类模块，用于对各训练样本三元组中各训练标题文本各自的感受特征进行聚类处理，得到多个感受特征聚类簇，确定每个所述感受特征聚类簇对应的感受标签；

所述样本构建模块，具体用于：

12.根据权利要求11所述的装置，其特征在于，所述样本构建模块，具体用于：

13.根据权利要求11所述的装置，其特征在于，所述样本构建模块，具体用于：

14.根据权利要求11所述的装置，其特征在于，所述模型训练模块，具体用于：

15.根据权利要求14所述的装置，其特征在于，所述模型训练模块，具体用于：

16.根据权利要求14或15所述的装置，其特征在于，所述模型训练模块，具体用于：

17.根据权利要求11所述的装置，其特征在于，所述模型训练模块，具体用于：

18.根据权利要求11所述的装置，其特征在于，所述模型训练模块，还用于：

获取同一发布者发布的多个媒体资源，作为测试媒体资源；

19.根据权利要求12所述的装置，其特征在于，所述模型训练模块，还用于：

20.根据权利要求11所述的装置，其特征在于，所述装置还包括：

21.一种计算机设备，其特征在于，所述设备包括处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至10中任一项所述的数据处理方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至10中任一项所述的数据处理方法。

23.一种计算机程序产品，包括计算机程序或者指令，其特征在于，所述计算机程序或者所述指令被处理器执行时，实现权利要求1至10中任一项所述的数据处理方法。