CN113743430A

CN113743430A - 标签匹配度检测模型的建立方法及装置、存储介质及设备

Info

Publication number: CN113743430A
Application number: CN202010473848.1A
Authority: CN
Inventors: 朱鹏军; 李飞; 刘阳
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2021-12-03

Abstract

本公开提供一种标签匹配度检测模型的建立方法及装置、存储介质及电子设备；涉及机器学习领域。所述方法包括：获取用户特征数据及用户操作数据，其中，所述用户操作数据包括搜索数据及选择操作；基于所述搜索数据获取标签数据，并基于所述选择操作获取物品与所述标签数据之间的对应关系，其中，所述物品为所述搜索数据对应的搜索操作搜索到的物品；依据所述对应关系确定所述物品的正样本标签数据，并获取所述物品的的负样本标签数据；依据所述物品的正、负样本标签数据、物品信息、所述用户操作数据和所述用户特征数据得到训练数据，并基于所述训练数据，利用机器学习算法训练得到所述标签匹配度检测模型。本公开可以检测标签与物品的匹配度。

Description

标签匹配度检测模型的建立方法及装置、存储介质及设备

技术领域

本公开涉及机器学习领域，具体而言，涉及标签匹配度检测模型的建立方法、标签匹配度检测模型的建立装置、标签匹配度检测方法、标签匹配度检测装置、电子设备以及计算机可读存储介质。

背景技术

在很多情况下，为物品添加标签可以方便对物品进行统计、查找及交易等各项操作，而物品与标签之间的匹配程度对这些操作有着重要的影响。以电商平台为例，商家可以通过给商品添加标签的方式提高商品的曝光率和检索命中率。但只有当商品与其标签的匹配度较高时，基于用户的搜索操作召回的商品才会更符合用户的需求，提高用户对商品的点击转化率。

而在实际情况中，因人为等各种因素，物品与标签之间的匹配度也会受到影响。因此，需要采取一些手段进行匹配度的检测，但现有的人工审核或文本相似性判断等方法存在着效率低，主观性强、可操作性及准确度低等问题。

因此，需要提出一种标签匹配度检测模型的建立方法，通过该方法建立的模型可以更加准确地判断出物品与标签之间的匹配度，可以提高匹配度检测的速度，提高数据处理的效率，节约计算机及人力资源。

上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例提供一种标签匹配度检测模型的建立方法及装置、标签匹配度检测方法及装置、电子设备以及计算机可读存储介质，可以实现通过上述标签匹配度检测模型的建立方法所建立的模型更加准确地判断出物品与标签之间的匹配度，可以提高匹配度检测的速度，提高数据处理的效率，节约计算机及人力资源。

根据本公开的第一方面，提供一种标签匹配度检测模型的建立方法，包括：

获取用户特征数据及用户操作数据，其中，所述用户操作数据包括搜索数据及选择操作；

基于所述搜索数据获取标签数据，并基于所述选择操作获取物品与所述标签数据之间的对应关系，其中，所述物品为所述搜索数据对应的搜索操作搜索到的物品；

依据所述对应关系确定所述物品的正样本标签数据，并获取所述物品的的负样本标签数据；

依据所述物品的正、负样本标签数据、物品信息、所述用户操作数据和所述用户特征数据得到训练数据，并基于所述训练数据，利用机器学习算法训练得到所述标签匹配度检测模型。

在本公开的一种示例性实施例中，所述基于所述搜索数据获取标签数据，包括：

获取标签库中用于对所述物品进行类别区分的标签列表；

将所述搜索数据与所述标签列表中的标签进行文本匹配，并依据文本匹配的结果，获取与所述搜索数据对应的标签数据。

在本公开的一种示例性实施例中，所述基于所述选择操作获取物品与所述标签数据之间的对应关系，包括：

基于所述选择操作判断物品是否被选择，其中，所述物品为所述搜索数据对应的搜索操作搜索到的物品。

在本公开的一种示例性实施例中，所述依据所述对应关系确定所述物品的正样本标签数据，包括：

当所述物品被选择时，将所述标签数据作为所述物品的正样本标签数据。

在本公开的一种示例性实施例中，所述获取所述物品的的负样本标签数据，包括：

当所述物品被选择时，从所述标签库中提取多个除所述标签数据之外的标签作为所述物品的负样本标签数据。

在本公开的一种示例性实施例中，所述依据所述物品的正、负样本标签数据、物品信息、所述用户操作数据和所述用户特征数据得到训练数据，包括：

对所述物品的正、负样本标签数据、物品信息、所述用户操作数据和所述用户特征数据进行预处理，其中，所述预处理包括数据去重、缺失值补全及筛选；

对预处理后的所述物品的正、负样本标签数据、物品信息、所述用户操作数据和所述用户特征数据进行向量化处理，得到训练数据。

根据本公开的第二方面，提供一种标签匹配度检测方法，包括：

根据上述方法建立标签匹配度检测模型；

获取待测数据，并输入至所述标签匹配度检测模型，得到所述待测数据中物品与标签的匹配度，其中，所述待测数据包括所述标签、用户特征数据，所述物品的物品信息及用户操作数据。

在本公开的一种示例性实施例中，所述输入至所述标签匹配度检测模型，得到所述物品与所述标签的匹配度，包括：

将所述待测数据输入至所述标签匹配度检测模型，得到在所述待测数据对应的标签下，物体被选择的概率得分；

依据所述概率得分计算出所述物品与所述标签的匹配度。

根据本公开的第三方面，提供一种标签匹配度检测模型的建立装置，包括：

数据获取模块，用于获取用户特征数据及用户操作数据，其中，所述用户操作数据包括搜索数据及选择操作；

关系判断模块，用于基于所述搜索数据获取标签数据，并基于所述选择操作获取物品与所述标签数据之间的对应关系，其中，所述物品为所述搜索数据对应的搜索操作搜索到的物品；

数据处理模块，用于依据所述对应关系确定所述物品的正样本标签数据，并获取所述物品的的负样本标签数据；

模型训练模块，用于依据所述物品的正、负样本标签数据、物品信息、所述用户操作数据和所述用户特征数据得到训练数据，并基于所述训练数据，利用机器学习算法训练得到所述标签匹配度检测模型。

根据本公开的第四方面，提供一种标签匹配度检测装置，包括：

模型建立模块，用于根据上述方法建立标签匹配度检测模型；

匹配度检测模块，用于获取待测数据，并输入至所述标签匹配度检测模型，得到在所述待测数据中物品与标签的匹配度，其中，所述待测数据包括所述标签、用户特征数据，所述物品的物品信息及用户操作数据。

根据本公开的第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述方法。

根据本公开的第六方面，提供一种电子设备，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述方法。

本公开示例性实施例可以具有以下部分或全部有益效果：

在本公开示例实施方式所提供的标签匹配度检测模型的建立方法中，首先，获取用户特征数据及用户操作数据，其中，用户操作数据包括搜索数据及选择操作；接着，基于上述搜索数据获取标签数据，基于上述选择操作获取物品与标签数据之间的对应关系，其中，物品为上述搜索数据对应的搜索操作搜索到的物品；在获取到上述对应关系后，依据该对应关系确定物品的正样本标签数据，并获取物品的的负样本标签数据；最后，依据物品的正、负样本标签数据、物品信息、用户操作数据和用户特征数据得到训练数据，并基于训练数据，利用机器学习算法训练得到标签匹配度检测模型。一方面，本公开示例实施方式在进行模型训练时，采用了正负样本标签数据两个维度的特征数据，同时还利用了物品信息，用户特征数据及用户操作数据等多方面数据，可以提高所建立模型的准确度，更好地对物品及其标签之间的匹配度进行判断，提高对物品操作的准确度。另一方面，通过本公开示例实施方式提供的方法建立的模型可以实现对物品及物品标签的匹配度的检测，不需要人工进行审核，节省了人力成本。同时，也避免了由于人的主观认知给判断带来的偏差。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的一种标签匹配度检测模型的建立方法及装置的示例性系统架构的示意图；

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本公开的一个实施例的标签匹配度检测模型的建立方法的过程的流程图；

图4示意性示出了根据本公开的一个实施例的标签匹配度检测方法的过程的流程图；

图5示意性示出了根据本公开的一个实施例的标签匹配度检测模型的建立装置的框图；

图6示意性示出了根据本公开的一个实施例的标签匹配度检测装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种标签匹配度检测模型的建立方法及装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的标签匹配度检测模型的建立方法可以由终端设备101、102、103执行，相应地，标签匹配度检测模型的建立装置可以设置于终端设备101、102、103中。本公开实施例所提供的标签匹配度检测模型的建立方法也可以由服务器105执行，相应地，标签匹配度检测模型的建立装置可以设置于服务器105中。本公开实施例所提供的标签匹配度检测模型的建立方法还可以由终端设备101、102、103与服务器105共同执行，相应地，标签匹配度检测模型的建立装置可以设置于终端设备101、102、103与服务器105中，本示例性实施例中对此不做特殊限定。

例如，在本示例实施方式中，可以通过终端设备101、102、103获取用户特征数据及用户操作数据，其中，用户操作数据包括搜索数据及选择操作；接着，终端设备101、102、103可以通过网络104将获取到的数据发送至服务器105，服务器105基于搜索数据获取标签数据，基于选择操作获取物品与标签数据之间的对应关系，其中，物品为搜索数据对应的搜索操作搜索到的物品，并依据该对应关系确定物品的正样本标签数据，获取物品的的负样本标签数据；最后，服务器1依据物品的正、负样本标签数据、物品信息、用户操作数据和用户特征数据得到训练数据，并基于得到的训练数据，利用机器学习算法训练得到标签匹配度检测模型。

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

在很多情况下，为物品添加标签可以方便对物品进行统计、查找及交易等各项操作，而物品与标签之间的匹配程度对这些操作有着重要的影响。以电商平台为例，商家可以通过给商品添加标签的方式提高商品的曝光率和检索命中率。但只有当商品与其标签的匹配度较高时，基于用户的搜索操作召回的商品才会更符合用户的需求，提高选择转化率。

而在实际情况中，因人为等各种因素，物品与标签之间的匹配度也会受到影响。因此，需要采取一些手段进行匹配度的检测，为了实现该检测的目标，发明人尝试性地提出了以下两种方法：

第一种方法为人工审核，即审核人员依据自己对物品及标签库中各标签的理解，对物品的标签进行审核。以电商平台为例，这一方法实现如下：商家后台运营人员根据对商品及营销标签体系的理解，选择最合适的营销标签，例如，商品标题为“品牌A休闲裤男2019秋冬季厚款修身直筒小脚男裤韩版青年商务西裤弹力复古长裤子男1047卡其色31”的商品，商家可能会给商品打上的营销标签包括“韩版”、“商务休闲”、“复古风”、“机车风”等。审核人员根据自己的经验对这些标签进行审核，对于匹配度高的优质标签予以通过，对于劣质标签，则驳回。该方法在审核人员经验丰富的情况下，过审的物品标签准确度较高。但同时该方法也存在以下问题：(1)审核人员审核的速度和质量会受到精力的影响和限制，需要大量的人工消耗；(2)物品标签大多数情况下会动态更新，审核人员实时记忆营销标签库有效值并准确地进行判断的难度很大。

第二种方法基于短文本语义相似性判别、在线短文本聚类的判断等算法进行匹配度判断。该方法先将短文本转化为语义向量表示，进而计算两个短文本的相似性。但这种方法的主要问题体现在文本语义的复杂性上，判别结果并不准确。举例而言，基于短文本语义相似性判别方法主要基于文本的字或词的统计实现，受文本内在噪音的影响较大，若某些无关词在文本中多次重复出现，就会导致该文本向量表示的差别巨大，进而导致计算结果的截然不同；而基于在线短文聚类的方法，在聚类过程中，由于在线文本数量的多少很难控制，且相似度阈值需要随着聚合短文本数量动态而改变，其计算结果往往会有很大的不确定性和不可操作性。

为了解决上述方法中存在的问题，在本示例实施方式中，发明人提出了一种新的技术方案，以下对本公开实施例的技术方案进行详细阐述：

本示例实施方式首先提供了一种标签匹配度检测模型的建立方法，该标签匹配度检测模型的建立方法，如图3所示，具体包括以下步骤：

步骤S310：获取用户特征数据及用户操作数据，其中，所述用户操作数据包括搜索数据及选择操作；

步骤S320：基于所述搜索数据获取标签数据，并基于所述选择操作获取物品与所述标签数据之间的对应关系，其中，所述物品为所述搜索数据对应的搜索操作搜索到的物品；

步骤S330：依据所述对应关系确定所述物品的正样本标签数据，并获取所述物品的的负样本标签数据；

步骤S340：依据所述物品的正、负样本标签数据、物品信息、所述用户操作数据和所述用户特征数据得到训练数据，并基于所述训练数据，利用机器学习算法训练得到所述标签匹配度检测模型。

在公开示例实施方式所提供的标签匹配度检测模型的建立方法中，一方面，本公开示例实施方式在进行模型训练时，采用了正负样本标签数据两个维度的特征数据，同时还利用了物品信息，用户特征数据及用户操作数据等多方面数据，可以提高所建立模型的准确度，更好地对物品及其标签之间的匹配度进行判断，提高对物品操作的准确度。另一方面，通过本公开示例实施方式提供的方法建立的模型可以实现对物品及物品标签的匹配度的检测，不需要人工进行审核，节省了人力成本。同时，也避免了由于人的主观认知给判断带来的偏差。

下面，在另一实施例中，对上述步骤进行更加详细的说明。

在步骤S310中，获取用户特征数据及用户操作数据，其中，所述用户操作数据包括搜索数据及选择操作。

在本示例实施方式中，用户特征数据是用来描绘用户特征的数据，可以为用户属性数据，可以为用户在电商平台的电子交易数据，还可以为其他可以表征用户特征的数据，也可以是上述多种数据的组合，以电商平台为例，该用户特征可以包括用户的年龄、性别、购买力级别、所在城市等数据，本示例实施方式对比不做特殊限定。

在本示例实施方式中，用户操作数据是用户为达到某一目的所进行的一系列操作，该操作数据可以包括搜索数据及选择操作，还可以包括其他，如查看、删除等操作，本示例实施方式对此不做特殊限定。

其中，上述搜索数据为用户查询用品所使用的关键词，选择操作为用户在搜索数据对应的搜索操作搜索到的物品中，为选择自己所需的物品进行的选择操作，该选择操作可以为点击操作，也可以为重按操作，还可以为其他符合上述定义的操作，本示例实施方式对此不做特殊限定。

以电商平台为例对上述定义进行说明：用户为了实现购买某一商品的目的，可以进行一系列相应的操作，产生用户操作数据。例如，依据自己的购买需求在电商平台客户端进行搜索，用户搜索所使用的关键词便可以理解为搜索数据，而基于用户的搜素操作，电商平台会召回一些商品至客户端，用户选择查看其中符合自己需求的商品，则可以理解为选择操作。需要说明的是，上述场景只是一种示例性说明，本示例实施方式的保护范畴并不以此为限。

本示例实施方式所提供的标签匹配度检测模型的建立方法，可以通过终端设备获取上述用户特征数据及用户操作数据，以电商平台为例，该方法所需的用户特征数据及用户操作数据可以通过电商平台在终端设备中的应用客户端获取。此外，上述数据也可以用过其他渠道和方法获取，本示例实施方式对此不做特殊限定。

在步骤S320中，基于所述搜索数据获取标签数据，并基于所述选择操作获取物品与所述标签数据之间的对应关系，其中，所述物品为所述搜索数据对应的搜索操作搜索到的物品。

在本示例实施方式中，物品即为上述搜索数据对应的搜索操作得到的物品，标签数据即为该搜索数据中涉及到与物品相关的标签，通过该标签搜索得到上述物品。以电商平台为例，物品可以为用户搜索到的商品，搜索数据可以为用户输入的描述所需商品的相关特征的关键词，标签数据则可以为该搜索数据中提取出来的商品标签。例如，某一用户想购买一小清新风格的外套，则搜索数据可以为“小清新外套”，其中，“小清新”便可以理解为从上述搜索数据提取出来的标签数据。需要说明的是，上述场景只是一种示例性说明，本示例实施方式的保护范畴并不以此为限。

在本示例实施方式中，基于搜索数据获取标签数据这一过程的实现，举例而言，可以如下：获取标签库中用于对上述物品进行类别区分的标签列表；将上述搜索数据与该标签列表中的标签进行文本匹配，并依据文本匹配的结果，获取与搜索数据对应的标签数据。其中，文本匹配的方法可以为字典树，也可以为短文本相似性计算，还可以为其他可以实现文本匹配的方法，本示例实施方式对此不做特殊限定。

下面以电商平台为例，对上述基于搜索数据获取标签数据的过程进行进一步的说明：

首先，从电商平台的标签库中获取当前有效的标签列表，例如，该标签列表可以为['港风','英伦风','青春休闲','商务正装','商务休闲','欧美风','复古风','中国风','军旅工装','韩版','街头','朋克','嘻哈','日系','原创设计','基础大众','日韩风','原生态','小清新','休闲风','中性风’……,'运动休闲']；接着，将用户输入的搜索数据与该标签列表中的标签进行文本匹配，并提取文本匹配度最高的标签作为与搜索数据对应的标签数据，例如，若用户输入的搜索关键词为“小清新外套”，则标签列表中与该搜索数据文本匹配度最高的标签为“小清新”，故小清新即为用户搜索数据对应的标签数据。需要说明的是，上述场景只是一种示例性说明，本示例实施方式的保护范畴并不以此为限。

在本示例实施方式中，用户的搜索操作可以得到符合其搜索数据关键词特征的多个物品，用户可以从中选择符合自己要求的物品，用户的选择操作可以为点击操作，也可以为长按操作，还可以为其他可以实现相同功能的操作，本示例实施方式对此不做特殊限定。

在本示例实施方式中，基于上述用户的选择操作，可以获取搜索得到的物品与标签数据之间的对应关系，以选择操作为点击操作为例，该对应关系具体可以体现为，在上述标签数据下，搜索得到的物品是否被用户点击，以及点击的时间戳等信息。需要说明的是，上述场景只是一种示例性说明，本示例实施方式的保护范畴并不以此为限。

在步骤S330中，依据所述对应关系确定所述物品的正样本标签数据，并获取所述物品的的负样本标签数据。

在本示例实施方式中，通过步骤S320得到物品与标签数据的对应关系后，依据该对应关系，可以确定物品的正样本数据，该确定过程可以为：当物品被点击时，将标签数据作为该物品的正样本标签数据。

以电商平台为例，对上述确定物品的正样本数据的说明如下：假设用户输入的搜索数据为“小清新外套”，基于该搜索数据获取的标签数据为“小清新”，用户的搜索操作召回商品A到商品F共六件商品，若其中的商品A符合用户的要求，则用户会点击该商品A查看商品详情，此时，“小清新”这一标签数据即为商品A的正样本标签数据。需要说明的是，上述场景只是一种示例性说明，本示例实施方式的保护范畴并不以此为限。

在本示例实施方式中，在确定物品正样本数据的同时，还可以依据对应关系获取该物品的负样本数据，该过程可以为：当物品被点击时，从标签库中提取多个除标签数据之外的标签作为该物品的负样本标签数据。

其中，提取多个除标签数据之外的标签作为该物品的负样本标签数据可以通过随机采样完成，即依据训练的实际需求，按比例从标签库的标签列表中随机抽样多个除标签数据之外的标签，作为该物品的负样本标签。

以上述电商平台为例，对该过程说明如下：假设上述标签列表为['港风','英伦风','青春休闲','商务正装','商务休闲','欧美风','复古风','中国风','军旅工装','韩版','街头','朋克','嘻哈','日系','原创设计','基础大众','日韩风','原生态','小清新','休闲风','中性风’……,'运动休闲']，用户输入的搜索数据为“小清新外套”，基于该搜索数据获取的标签数据为“小清新”，用户的搜索操作召回商品A到商品F共六件商品，若其中的商品A符合用户的要求，则用户会点击该商品A查看商品详情，此时，标签列表中除“小清新”以外的标签，例如“商务正装”，“商务休闲”，“欧美风”，“复古风”等都可作为该商品A的负样本标签数据，可以从标签列表中采取随机抽样的方式按比例得到商品A的负样本标签数据。需要说明的是，上述场景只是一种示例性说明，本示例实施方式的保护范畴并不以此为限。

在步骤S340中，依据所述物品的正、负样本标签数据、物品信息、所述用户操作数据和所述用户特征数据得到训练数据，并基于所述训练数据，利用机器学习算法训练得到所述标签匹配度检测模型。

在本示例实施方式中，物品信息包括名称、标题、类别等多项可以表征物品特性的信息。以电商平台为例，上述物品信息即为商品信息，该商品信息可以包括商品标题、颜色、类目、是否自营等多项信息。需要说明的是，上述场景只是一种示例性说明，本示例实施方式的保护范畴并不以此为限。

在本示例实施方式中，依据步骤S330中得到的物品的正负样本标签数据、以及上述物品信息、用户操作数据和用户特征数据可以得到模型的训练数据。该过程可以为：对物品的正、负样本标签数据、物品信息、用户操作数据和用户特征数据进行预处理，其中，预处理包括数据去重、缺失值补全及筛选；对预处理后的数据进行向量化处理，得到训练数据。

下面以电商平台为例，对上述得到训练数据的过程进行详细的说明：

首先，将得到的商品的正负样本数据与商品信息、用户操作数据及用户特征数据进行数据对齐。以电商平台的标签库中的有效标签值列表为['港风','英伦风','青春休闲','商务正装','商务休闲','欧美风','复古风','中国风','军旅工装','韩版','街头','朋克','嘻哈','日系','原创设计','基础大众','日韩风','原生态','小清新','休闲风','中性风’……,'运动休闲']为例，通过表1及表2对该数据对齐过程进行说明：表1中，基于用户user_a的搜索数据，从上述有效标签值列表中匹配到的标签为“小清新”，且用户user_a通过点击操作查看了电商平台召回的商品中标题为name1和name2的商品，将上述商品信息，用户操作数据及用户特征数据依据商品ID、账户等字段进行对齐，得到如表1所示的搜索点击对齐数据。表2中，基于用户user_b的搜索数据，从上述有效标签值列表中匹配到的标签也为“小清新”，电商平台召回的商品标题为name3和name4的商品，但未被用户点击，将上述商品信息，用户操作数据及用户特征数据依据商品ID、账户等字段进行对齐，得到如表2所示的搜索曝光(未点击)数据。

表1

其中，商品ID为“123456”、“151256”的商品分别在2019-11-30 12:05、2019-11-3012:07两个时间点被用户user_a搜索到并点击。

表2

其中，商品ID为“56788”、“56799”的商品被用户user_b搜索到但未点击。

接着，对上述得到的对齐数据进行特征选择及预处理。首先，可以根据经验人工选择出商品标题、颜色、类目、是否自营、用户点击时间、搜索query、用户年龄、性别、购买力等级、城市等重要特征，举例而言，年龄20左右的男生可能喜欢“嘻哈”、“机车”等风格，所以年龄、性别等特征均属于重要特征。然后，对数据进行数据去重、缺失值补全等数据预处理工作，如果一个数据字段缺失太严重，就剔除该列特征。

在上述过程中，商品中标题为name1和name2的商品被用户点击，则可以将“小清新”作为商品name1和name2的正样本标签数据，接着从有效标签值列表中按比例随机选取若干除“小清新”之外的其他标签，如,“街头”,“朋克”,“嘻哈”等，作为其负样本标签数据，调整正负样本的比例。在一些情况下，未被点击的商品对应的搜索关键词中的标签也可以作为商品的负样本标签数据，如表2所示，“小清新”可以作为商品name3和name4的正样本标签。在确定商品的正负样本标签数据后，对预处理后的正、负样本标签数据、物品信息、用户操作数据和用户特征数据进行向量化处理，该向量化处理可以通过特征哈希取余的方法实现，并最终得到训练数据。

需要说明的是，上述场景只是一种示例性说明，本示例实施方式的保护范畴并不以此为限。

在本示例实施方式中，在得到上述训练数据后，基于训练数据，利用机器学习算法可以训练得到标签匹配度检测模型。举例而言，训练过程可以使用FTRL(Follow-the-regularized-Leader，一种近似在线学习算法)的损失函数进行参数更新，其思想是每次迭代找到让之前所有样本的损失函数之和最小的参数，损失函数如下所示：

上式共有四项组成，第一项是对损失函数的贡献的一个估计；第二、三项代表L1、L2正则项，其中，前者用于获得稀疏解，后者则可以使求解结果更加”平滑”；第四项是控制w在每次迭代中变化不要太大，σ_s表示设定的学习速率。其中，W是模型参数,λ1、λ2分别为L1、L2正则化系数。

需要说明的是，上述场景只是一种示例性说明，使用其他算法进行模型训练也属于本示例实施方式的保护范畴。

在通过上述S310至S340的步骤训练得到标签匹配度检测模型后，本示例实施方式还提供了一种标签匹配度检测方法，以通过上述标签匹配度检测方法对物品标签与物品的匹配度进行检测。具体流程如图4所示，包括以下流程：

步骤S410：根据上述步骤S310至S340所述的方法建立标签匹配度检测模型；

步骤S420：获取待测数据，并输入至所述标签匹配度检测模型，得到所述待测数据中物品与标签的匹配度，其中，所述待测数据包括所述标签、用户特征数据，所述物品的物品信息及用户操作数据。

下面，在另一实施例中，对上述步骤进行更加详细的说明。

在步骤S410中，根据上述步骤S310至S340所述的方法建立标签匹配度检测模型。这一建立过程在上文已经进行了详细的阐述，故在此不再赘述。

在步骤S420中，获取待测数据，并输入至所述标签匹配度检测模型，得到所述待测数据中物品与标签的匹配度，其中，所述待测数据包括所述标签、用户特征数据，所述物品的物品信息及用户操作数据。

在本示例实施方式中，待测数据为用于对物品及为该物品所添加的标签的匹配度进行检测的数据，可以包括物品信息、标签、用户特征数据及用户操作数据等相关数据。该待测数据可以为依据物品信息中的物品ID对上述数据进行数据对齐后得到的数据，也可以符合上述定义的其他形式的数据，本示例实施方式对此不做特殊限定。

以电商平台为例，当上述待测数据为依据物品信息中的物品ID对上述数据进行数据对齐后得到的数据时，该待测数据可以如表3所示：

表3

其中，不同与表1及表2中的标签为基于用户的搜索数据所提取，表3中的标签是由商家为商品添加的标签。表3中的记录为商品13579被搜索及点击的数据记录。

在本示例实施方式中，在获取到上述待测数据后，通过上述步骤S310至S340建立的标签匹配度检测模型可以得到上述待测数据中物品与标签的匹配度。该过程的实现可以如下：将待测数据输入至标签匹配度检测模型，得到在待测数据对应的标签下，物体被点击的概率得分；依据该概率得分计算出物品与标签的匹配度。

下面，以电商平台为例，对上述过程进行详细的说明：

将多个如表3所示的预测数据输入所建立的标签匹配度检测模型中，依据每一条待测数据进行预测，可以得到如表4所示的预测结果：

表4

	商品ID	打标营销标签	预测得分
				1	13579	小清新	0.32
2	13579	小清新	0.28
				3	13579	韩版	0.06
4	13579	韩版	0.04

在得到表4所示的预测结果后，由于结果数据中商品ID的不唯一性，将商品依据营销标签分组，并依据如下所示的公式，求出每组的匹配度均值作为最终的得分：

其中，k表示预测结果中，分组后某个商品营销标签的数据条数。S_i表示模型预测的每一条营销属性和商品的匹配度值。

通过上述公式对表4所示的预测结果进行进一步地计算，可以得到如表5所示的结果：

表5

	商品id	打标营销标签	score_avreage	score_max_sku	score_max_label
						1	13579	小清新	0.30	0.30	0.35
2	13579	韩版	0.05	0.30	0.12

其中，从商品维度(score_max_sku)来分析，ID为13579的商品，其得分最高的标签是小清新，得分为0.30，得分最低的标签是韩版，得分为0.05；从标签维度来分析(score_max_label)，在所有打小清新营销标签的商品数据中，最高得分为0.35。

因此，商品ID为13579的商品，当打上“小清新”的标签后，被点击的概率0.30，最可能会被用户搜索点击；当打上“韩版”的标签后，该商品被点击的概率为0.05，被搜索点击的可能性就很小；所以，由模型可以得出该商品与“小清新”这一标签的匹配度更高。

将本示例实施方式的模型建立及利用方法应用于电商平台，结合商品维度、用户维度、搜索点击等维度对商品和标签匹配度进行校验，规避了人为打标的主观性。同时，该方法提高了搜索推荐准确性、减少无效流量，提升了用户体验。

应当注意，上述应用场景只是一种示例性说明，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步地，本示例实施方式提供了一种标签匹配度检测模型的建立装置。参考图5所示，该标签匹配度检测模型的建立装置500可以包括数据获取模块510、关系判断模块520、数据处理模块530及模型训练模块540。

其中：

数据获取模块510可以用于获取用户特征数据及用户操作数据，其中，所述用户操作数据包括搜索数据及点击数据；

关系判断模块520可以用于基于所述搜索数据获取标签数据，并基于所述点击数据获取物品与所述标签数据之间的对应关系，其中，所述物品为所述搜索数据对应的搜索操作搜索到的物品；

数据处理模块530可以用于依据所述对应关系确定所述物品的正样本标签数据，并获取所述物品的的负样本标签数据；

模型训练模块540可以用于依据所述物品的正、负样本标签数据、物品信息、所述用户操作数据和所述用户特征数据得到训练数据，并基于所述训练数据，利用机器学习算法训练得到所述标签匹配度检测模型。

上述标签匹配度检测模型的建立装置中各模块或单元的具体细节已经在对应的标签匹配度检测模型的建立方法中进行了详细的描述，因此此处不再赘述。

对应地，针对上述标签匹配度检测方法，本示例实施方式还提供了一种标签匹配度检测装置。参考图6所示，该标签匹配度检测装置600可以包括模型建立模块610和类型声明模块620。其中：

模型建立模块610可以用于根据上述步骤S310至S340所述的方法建立标签匹配度检测模型；

匹配度检测模块620可以用于获取待测数据，并输入至所述标签匹配度检测模型，得到在所述待测数据中物品与标签的匹配度，其中，所述待测数据包括所述标签、用户特征数据，所述物品的物品信息及用户操作数据。

上述标签匹配度检测装置中各模块或单元的具体细节已经在对应的标签匹配度检测方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述方法。例如，所述电子设备可以实现如图3～图4所示的各个步骤等。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种标签匹配度检测模型的建立方法，其特征在于，包括：

依据所述对应关系确定所述物品的正样本标签数据，并获取所述物品的负样本标签数据；

2.根据权利要求1所述的标签匹配度检测模型的建立方法，其特征在于，所述基于所述搜索数据获取标签数据，包括：

获取标签库中用于对所述物品进行类别区分的标签列表；

3.根据权利要求1所述的标签匹配度检测模型的建立方法，其特征在于，所述基于所述选择操作获取物品与所述标签数据之间的对应关系，包括：

4.根据权利要求3所述的标签匹配度检测模型的建立方法，其特征在于，所述依据所述对应关系确定所述物品的正样本标签数据，包括：

5.根据权利要求3所述的标签匹配度检测模型的建立方法，其特征在于，所述获取所述物品的负样本标签数据，包括：

6.根据权利要求1所述的标签匹配度检测模型的建立方法，其特征在于，所述依据所述物品的正、负样本标签数据、物品信息、所述用户操作数据和所述用户特征数据得到训练数据，包括：

7.一种标签匹配度检测方法，其特征在于，包括：

根据权利要求1-6任一项所述的方法建立标签匹配度检测模型；

8.根据权利要求7所述的标签匹配度检测方法，其特征在于，所述输入至所述标签匹配度检测模型，得到所述物品与所述标签的匹配度，包括：

依据所述概率得分计算出所述物品与所述标签的匹配度。

9.一种标签匹配度检测模型的建立装置，其特征在于，包括：

数据处理模块，用于依据所述对应关系确定所述物品的正样本标签数据，并获取所述物品的负样本标签数据；

10.一种标签匹配度检测装置，其特征在于，包括：

模型建立模块，用于根据权利要求1-6任一项所述的方法建立标签匹配度检测模型；

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8任一项所述的方法。

12.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-8任一项所述的方法。