CN111767738A

CN111767738A - 一种标签校验方法、装置、设备和存储介质

Info

Publication number: CN111767738A
Application number: CN202010239481.7A
Authority: CN
Inventors: 李飞
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-10-13

Abstract

本发明实施例公开了一种标签校验方法、装置、设备和存储介质，该方法包括：获取目标物品信息和待校验的目标物品标签；确定与目标物品标签匹配的目标搜索关键词；将目标物品信息和目标搜索关键词输入至预设语义匹配模型中，其中，预设语义匹配模型预先基于样本物品的搜索曝光点击率进行训练获得；根据预设语义匹配模型的输出确定目标物品信息与目标搜索关键词之间的目标匹配度，并根据目标匹配度确定目标物品标签对应的校验结果。通过本发明实施例的技术方案，可以实现标签的自动校验，提高标签的校验准确性和校验效率。

Description

一种标签校验方法、装置、设备和存储介质

技术领域

本发明实施例涉及计算机技术，尤其涉及一种标签校验方法、装置、设备和存储介质。

背景技术

随着互联网技术的快速发展，可以通过对物品贴标签的方式进行大数据营销，从根本上改变传统的广告运营模式。由于物品标签是用户在发布物品信息时主动挂靠上的，从而需要校验物品标签挂靠的准确性，以确保对物品进行精准营销。

目前，通常是利用物品标签与物品信息进行字符串匹配的方式来校验物品标签是否与物品信息匹配，或者是后台运营人员在审核过程中进行人工校验。

然而，在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

通过字符串匹配的方式无法对物品标签与物品信息进行语义匹配，比如物品信息“韩版修身加绒加厚保暖男士休闲长裤运动裤秋冬新款时尚小脚裤商务直筒西裤男裤子”与物品标签“潮流时尚”的匹配度为0，但实际上两者相匹配，从而降低了校验准确性。人工校验方式虽然可以基于物品标签与物品信息的语义进行校验，但校验效率较低，并且增加了人力成本。

发明内容

本发明实施例提供了一种标签校验方法、装置、设备和存储介质，以实现标签的自动校验，提高标签的校验准确性和校验效率。

第一方面，本发明实施例提供了一种标签校验方法，包括：

获取目标物品信息和待校验的目标物品标签；

确定与所述目标物品标签匹配的目标搜索关键词；

将所述目标物品信息和所述目标搜索关键词输入至预设语义匹配模型中，其中，所述预设语义匹配模型预先基于样本物品的搜索曝光点击率进行训练获得；

根据所述预设语义匹配模型的输出确定所述目标物品信息与所述目标搜索关键词之间的目标匹配度，并根据所述目标匹配度确定所述目标物品标签对应的校验结果。

第二方面，本发明实施例还提供了一种标签校验装置，包括：

目标物品标签获取模块，用于获取目标物品信息和待校验的目标物品标签；

目标搜索关键词确定模块，用于确定与所述目标物品标签匹配的目标搜索关键词；

信息输入模块，用于将所述目标物品信息和所述目标搜索关键词输入至预设语义匹配模型中，其中，所述预设语义匹配模型预先基于样本物品的搜索曝光点击率进行训练获得；

校验结果确定模块，用于根据所述预设语义匹配模型的输出确定所述目标物品信息与所述目标搜索关键词之间的目标匹配度，并根据所述目标匹配度确定所述目标物品标签对应的校验结果。

第三方面，本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的标签校验方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的标签校验方法。

上述发明中的实施例具有如下优点或有益效果：

通过确定与待校验的目标物品标签匹配的目标搜索关键词，从而可以将物品标签与物品信息是否匹配的问题转换为：搜索关键词与物品信息是否匹配的问题。利用预先基于样本物品的搜索曝光点击率进行训练获得的预设语义匹配模型，可以同时对目标搜索关键词与目标物品信息进行语义匹配以及衡量出搜素曝光点击率的大小，使得预设语义匹配模型输出的目标匹配度可以同时反映出语义匹配程度以及用户基于目标搜索关键词搜索后对曝光的目标物品信息的点击概率，从而基于预设语义匹配模型输出的目标匹配度可以更加准确地确定出目标物品标签对应的校验结果，提高了标签校验准确性，并且无需人工参与，实现了标签的自动校验，提高了标签的校验效率。

附图说明

图1是本发明实施例一提供的一种标签校验方法的流程图；

图2是本发明实施例一所涉及的一种预设语义匹配模型的示例；

图3是本发明实施例一所涉及的另一种预设语义匹配模型的示例；

图4是本发明实施例二提供的一种标签校验方法的流程图；

图5是本发明实施例二所涉及的一种字典树的示例；

图6是本发明实施例三提供的一种标签校验装置的结构示意图；

图7是本发明实施例四提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种标签校验方法的流程图，本实施例可适用于对物品标签与物品信息是否匹配进行校验的情况，尤其是可以用于对电商平台中的物品所挂靠的标签进行校验的场景。该方法可以由标签校验装置来执行，该装置可以由软件和/或硬件的方式来实现，集成于具有数据功能的设备中。如图1所示，该方法具体包括以下步骤：

S110、获取目标物品信息和待校验的目标物品标签。

其中，物品标签是预先基于物品信息，生成的具有导购性质并以营销逻辑聚合的词汇，比如“时尚潮流”、“情人节”、“海贼王”等。目标物品标签可以是指目标物品所挂靠的待校验的物品标签。目标物品信息可以是指目标物品所具体的特征信息。例如，目标物品信息可以包括但不限于：目标物品标题信息、目标物品属性信息和目标物品类目信息中的至少一种。其中，目标物品标题信息可以是用于介绍目标物品的简略信息。目标物品属性信息可以是用于介绍目标物品的详细信息，比如目标物品属性信息可以包括目标物品型号、目标物品适合人群等。目标物品类目信息可以是指目标物品所属类目的信息，比如若目标物品为针织衫，则其对应的类目信息为上衣。

具体地，在校验物品标签与物品信息是否匹配时，可以获取目标物品对应的目标物品信息和待校验的目标物品标签。

S120、确定与目标物品标签匹配的目标搜索关键词。

其中，搜索关键词可以是指用户搜索物品时所输入的query搜索信息。目标搜索关键词可以是指与目标物品标签相匹配的搜索关键词。例如，若目标物品标签为“复古风”，某个搜索关键词为“男装复古风”，则可以确定与目标物品标签“复古风”相匹配的目标搜索关键词为“男装复古风”。本实施例中与目标物品标签匹配的目标搜索关键词的数量可以为一个或多个。

具体地，可以基于预设匹配方式，将搜索数据库中的每个搜索关键词与目标物品标签进行匹配，并将匹配成功的搜索关键词确定为目标搜索关键词。其中，预设匹配方式可以是但不限于编辑距离匹配方式和向量余弦距离匹配方式。例如，可以基于预设匹配方式，确定搜索数据库中的每个搜索关键词与目标物品标签之间的匹配相似度，并可以将匹配相似度大于预设相似度的各个搜索关键词确定为目标搜索关键词；也可以基于匹配相似度对各个搜索关键词进行降序排列，并将排列后的前预设数量的搜索关键词确定为目标搜索关键词。本实施例通过确定与目标物品标签匹配的目标搜索关键词，从而可以将物品标签与物品信息是否匹配的问题转换为：搜索关键词与物品信息是否匹配的问题，以便通过对搜索关键词与物品信息进行校验的方式，来校验物品标签与物品信息是否匹配。

S130、将目标物品信息和目标搜索关键词输入至预设语义匹配模型中，其中，预设语义匹配模型预先基于样本物品的搜索曝光点击率进行训练获得。

其中，搜索曝光点击率可以是指用户基于搜索关键词搜索后物品的被点击次数与被曝光次数的比值。被曝光次数可以是指搜索后展示物品信息的总展示次数。被点击次数可以是指搜索后用户点击所展示的物品信息的总点击次数。样本物品可以是预先基于物品的搜索曝光点击率筛选出的，用于训练预设语义匹配模型的物品。预设语义匹配模型可以是预先设置的，用于计算物品信息与搜索关键词之间的语义相似度的网络模型。预设语义匹配模型是预先将搜索曝光点击率作为学习目标进行训练获得的，使得预设语义匹配模型的输出结果可以同时反映出语义相似度和用户搜索后曝光点击率大小，从而可以基于语义相似度和用户点击行为，对物品信息与搜索关键词是否匹配进行校验，大大提高了校验准确性。示例性地，预设语义匹配模型可以是但不限于：DSSM(Deep Structured SemanticModels)深度结构化语义模型和CTR(Click-Through Rate)点击率预估模型。其中，DSSM深度结构化语义模型可以是但不限于基于LSTM(Long-Short-Term Memory)长短时记忆网络模型所构建的DSSM深度结构化语义模型，即LSTM-DSSM。CTR点击率预估模型可以是但不限于FTRL(Follow The Regularized Leader)在线优化模型。

具体地，将目标物品信息和目标搜索关键词输入至预先训练好的预设语义匹配模型中，使得预设语义匹配模型可以对目标物品信息与目标搜索关键词进行语义匹配，同时分析用户基于目标搜索关键词搜索后对曝光的目标物品信息的点击概率，从而获得目标物品信息与目标搜索关键词之间的目标匹配度，并进行输出。

S140、根据预设语义匹配模型的输出确定目标物品信息与目标搜索关键词之间的目标匹配度，并根据目标匹配度确定目标物品标签对应的校验结果。

其中，目标匹配度可以是指目标物品信息与目标搜索关键词之间的匹配相似度，其可以同时反映出语义匹配程度以及用户基于目标搜索关键词搜索后对曝光的目标物品信息的点击概率。例如，若目标匹配度越高，则表明语义匹配程度和基于目标搜索关键词搜索后的目标物品信息的曝光点击率均越高，即目标物品信息与目标搜索关键词越匹配。目标物品标签对应的校验结果可以是指目标物品标签与目标物品信息是否匹配的结果，其可以包括校验成功和校验失败两种结果。

具体地，可以根据预设语义匹配模型的输出获得目标物品信息与目标搜索关键词之间的目标匹配度。由于目标搜索关键词与目标物品标签相匹配，使得目标匹配度也可以用于表征目标物品信息与目标物品标签之间的匹配度，从而可以基于语义相似度和用户点击行为，对物品信息与物品标签是否匹配进行校验，大大提高了标签的校验准确性，并且整个校验过程无需人工参与，实现了标签的自动校验，提高了标签的校验效率。本实施例可以通过比较目标匹配度是否大于预设匹配度的方式确定目标物品标签对应的校验结果。例如，当目标匹配度大于预设匹配度时，目标物品标签对应的校验结果可以确定为：目标物品信息与目标物品标签相匹配，即校验成功，否则确定为目标物品信息与目标物品标签不匹配，即校验失败。

需要说明的是，预设语义匹配模型的模型内部也可以基于目标物品信息与目标搜索关键词之间的目标匹配度和预先训练出的预设匹配度，确定出目标物品标签对应的校验结果，并输出校验结果，从而基于预设语义匹配模型的输出可以直接获得目标物品标签对应的校验结果，进一步提高标签校验效率。

本实施例的技术方案，通过确定与待校验的目标物品标签匹配的目标搜索关键词，从而可以将物品标签与物品信息是否匹配的问题转换为：搜索关键词与物品信息是否匹配的问题。利用预先基于样本物品的搜索曝光点击率进行训练获得的预设语义匹配模型，可以同时对目标搜索关键词与目标物品信息进行语义匹配以及衡量出搜素曝光点击率的大小，使得预设语义匹配模型输出的目标匹配度可以同时反映出语义匹配程度以及用户基于目标搜索关键词搜索后对曝光的目标物品信息的点击概率，从而基于预设语义匹配模型输出的目标匹配度可以更加准确地确定出目标物品标签对应的校验结果，提高了标签校验准确性，并且无需人工参与，实现了标签的自动校验，提高了标签的校验效率。

在上述技术方案的基础上，图2给出了一种预设语义匹配模型的示例。如图2所示，预设语义匹配模型可以包括：词向量序列确定子模型、预设循环网络子模型和匹配度确定子模型。

其中，词向量序列确定子模型用于：对输入的目标物品信息和目标搜索关键词分别进行分词处理，并确定目标物品信息对应的第一词向量序列和目标搜索关键词对应的第二词向量序列，并将第一词向量序列和第二词向量序列输入至预设循环网络子模型中。其中，词向量序列确定子模型可以是指对文本进行语言处理，以便获得预预设循环网络子模型的可输入类型的数据，即获得第一词向量序列和第二词向量序列。例如，词向量序列确定子模型可以是但不限于VSM(Vector Space Model)向量空间模型、Word2vec模型和BERT(Bidirectional Encoder Representation from Transformers)双向编码器模型。本实施例中的目标物品信息和目标搜索关键词可能存在大量长尾词，比如大量数字、英文组合的物品货号、物品型号和物品容量等，使得分词无法穷尽，并且会损失有用信息，从而在目标物品信息和目标搜索关键词进行分词处理时，可以将目标物品信息和目标搜索关键词中的每个字均作为一个词，获得“字粒度”下的第一词向量序列和第二词向量序列，以便进一步提高校验准确性。

其中，预设循环网络子模型用于：对输入的第一词向量序列和第二词向量序列进行向量整合，确定目标物品信息对应的第一文本向量和目标搜索关键词对应的第二文本向量，并将第一文本向量和第二文本向量输入至匹配度确定子模型中。其中，预设循环网络子模型可以是基于深度学习的方式，对词向量序列进行向量整合的网络模型。例如，预设循环网络子模型可以是但不限于LSTM长短时记忆网络模型。

其中，匹配度确定子模型用于：对输入的第一文本向量和第二文本向量进行向量匹配，确定目标物品信息与目标搜索关键词之间的目标匹配度，并输出目标匹配度。其中，匹配度确定子模型可以是基于预设相似度计算方式，确定目标物品信息与目标搜索关键词之间的目标匹配度的模型。其中，预设相似度计算方式可以是但不限于向量余弦距离方式。

在上述技术方案的基础上，图3给出了另一种预设语义匹配模型的示例。如图3所示，预设语义匹配模型除了上述的词向量序列确定子模型、预设循环网络子模型和匹配度确定子模型之外，还可以包括：自注意力机制子模型。

其中，词向量序列确定子模型还用于：将第一词向量序列和第二词向量序列输入至自注意力机制子模型中，以使自注意力机制子模型可以获得第一词向量序列和第二词向量序列。

其中，自注意力机制子模型用于：对输入的第一词向量序列和第二词向量序列进行注意力权重计算，确定第一词向量序列中的每个第一词向量对应的第一注意力权重，以及第二词向量序列中的每个第二词向量对应的第二注意力权重，并将各个第一注意力权重和各个第二注意力权重输入至预设循环网络子模型中。其中，自注意力机制子模型可以是基于Self-attention自注意力机制，对每个词向量进行加权，以提高有用信息的关注度，降低无用信息的关注度的模型。第一注意力权重可以用于表征目标物品信息中的每个词用于信息匹配时的重要程度。第二注意力权重可以用于表征目标搜索关键词中的每个词用于信息匹配时的重要程度。

其中，预设循环网络子模型，具体用于：基于输入的各个第一注意力权重和各个第二注意力权重，对输入的第一词向量序列和第二词向量序列进行向量整合，确定目标物品信息对应的第一文本向量和目标搜索关键词对应的第二文本向量，并将第一文本向量和第二文本向量输入至匹配度确定子模型中。具体地，预设循环网络子模型可以基于每个第一注意力权重对相应的第一词向量进行加权处理，使得目标物品信息中的重要的第一词向量增大，非重要的第一词向量减小，以及基于每个第二注意力权重对相应的第二词向量进行加权处理，使得目标搜索关键词中的重要的第二词向量增大，非重要的第二词向量减小，从而根据加权处理后的第一词向量序列和第二词向量序列，可以生成更具有代表性的第一文本向量和第二文本向量，进而提高匹配的准确性。

在上述技术方案的基础上，在使用预设语义匹配模型之前，需要基于样本物品的搜索曝光点击率对预设语义匹配模型进行训练。例如，预设语义匹配模型的训练过程可以包括：基于物品的搜索曝光点击率，对物品数据库中的各个物品进行采样，获得多个样本数据，样本数据包括样本物品信息、样本搜索关键词和标准匹配度；将每个样本数据输入至预设语义匹配模型中，根据预设语义匹配模型的输出确定每个样本数据对应的输出匹配度；根据输出匹配度和相应的标准匹配度确定出训练误差；将训练误差达到收敛条件为训练目标，对预设语义匹配模型进行训练。

其中，样本搜索关键词可以是指与样品物品的样本物品标签相匹配的搜索关键词。标准匹配度可以用于表征样本物品标签对应的校验结果。例如，若样本物品标签与样本物品信息相匹配，则确定标准匹配度为1。若样本物品标签与样本物品信息不匹配，则确定标准匹配度为0。本实施例中的标准匹配度可以基于样本物品的搜索曝光点击率进行确定。样本数据可以包括正样本数据和负样本数据，其中，正样本数据中的标准匹配度可以为1，负样本数据中的标准匹配度为0。

具体地，可以基于物品数据库中的每个物品的搜索曝光点击率，从物品数据库中的各个物品中筛选出用于进行模型训练的样本物品，并获得每个样本物品对应的样品数据。可以将每个样本数据中的样本物品信息和样本搜索关键词输入至需要训练的预设语义匹配模型中，并获得预设语义匹配模型输出的输出匹配度。可以基于损失函数，根据输出匹配度和相应的标准匹配度确定出训练误差，比如可以将输出匹配度与相应的标准匹配度之间的差值确定为训练误差。基于该训练误差可以检测当前是否达到收敛条件，比如训练误差是否小于预设误差或训练误差变化是否趋于稳定，或者当前的迭代次数是否等于预设次数。若检测出当前达到收敛条件，比如训练误差小于预设误差或误差变化趋于稳定，或者当前的迭代次数等于预设次数，表明预设语义匹配模型训练完成，此时可以停止迭代训练。若检测出当前未达到收敛条件，则可以将训练误差反向传播至预设语义匹配模型中，调整预设语义匹配模型中的网络参数，直到达到收敛条件为止。

示例性地，基于物品的搜索曝光点击率，对物品数据库中的各个物品进行采样，获得多个样本数据，可以包括：确定物品数据库中的每个物品的搜索曝光点击率；将搜索曝光点击率大于第一预设阈值的物品数据确定为正样本数据，并确定正样本数据对应的标准匹配度为1；将搜索曝光点击率小于第二预设阈值的物品数据确定为负样本数据，并确定负样本数据对应的标准匹配度为0。

其中，第一预设阈值可以是预先设置的，高于平均搜索曝光点击率的数值，用于表征搜索关键词与物品信息相匹配时所对应的最小搜索曝光点击率。第二预设阈值可以是预先设置的，低于平均搜索曝光点击率的数值，用于表征搜索关键词与物品信息不匹配时所对应的最大搜索曝光点击率。

具体地，可以基于物品数据库中的每个物品的搜索日志，对每个物品的被曝光次数和被点击次数进行统计，并将被点击次数与被曝光次数的比值作为相应物品的搜索曝光点击率。若某个物品的搜索曝光点击率大于第一预设阈值，则将该物品的物品数据确定为正样本数据，并确定该正样本数据中的标准匹配度为1。若某个物品的搜索曝光点击率小于第二预设阈值，则将该物品的物品数据确定为负样本数据，并确定该负样本数据中的标准匹配度为0，从而可以基于样本物品的搜索曝光点击率对预设语义匹配模型进行训练。

需要说明的是，本实施例在确定负样本数据时，也可以在基于搜索关键词搜索后随机采样一部分的物品数据作为负样本数据，并且剔除搜索曝光点击率大于第一预设阈值的物品数据，以避免将搜索曝光点击率大于第一预设阈值的物品数据也作为负样本数据，从而可以保证样本分布的全局性，提高预设语义匹配模型的训练效果，进而提高标签校验的准确性。

实施例二

图4为本发明实施例二提供的一种标签校验方法的流程图，本实施例在上述实施例的基础上，对步骤“确定与目标物品标签匹配的目标搜索关键词”进行了优化。其中与上述实施例相同或相应的术语的解释在此不再赘述。

参见图2，本实施例提供的标签校验方法具体包括以下步骤：

S210、获取目标物品信息和待校验的目标物品标签。

S220、对目标物品标签进行相似标签扩充，确定目标物品标签对应的目标相似标签。

其中，目标相似标签可以是指与目标物品标签语义相似的标签，比如可以将目标物品标签的同义词和/或近义词作为目标相似标签。例如，若目标物品标签为“复古风”，则目标相似标签可以为“复古范”、“怀旧风”和“时尚复古”等。

具体地，目标物品标签通常由较少字符构成，比如2至5个中文字符构成，使得目标物品标签的信息量较少，从而需要通过对目标物品标签进行相似标签扩充的方式来增加目标物品标签的信息量，以进一步提高标签校验的准确性。

示例性地，S220可以包括：获取物品数据库中的各个物品信息和搜索数据库中的各个搜索关键词的分词结果；根据分词结果，确定与目标物品标签共现的各个相似词以及每个相似词对应的共现次数；根据各共现次数，从各个相似词中确定目标物品标签对应的目标相似标签。

具体地，可以基于分词词典，对物品数据库中的每个物品信息和搜索数据库中的每个搜索关键词进行分词处理，获得分词结果。将分析结果中的每个词与目标物品标签进行匹配，并统计出与目标物品标签出现在同一物品信息或者同一搜索关键词中的每个相似词所对应的共现次数。可以将共现次数大于预设次数的各个相似词确定为目标相似标签；也可以基于共现次数对各个相似词进行降序排列，并将排列后的前预设数量的相似词确定为目标相似标签，从而实现目标物品标签的相似标签扩充。本实施例还可以对基于共现次数确定出的目标相似标签进行人工审核筛选，并将筛选后的目标相似标签作为最终的目标相似标签，以进一步提高目标相似标签确定的准确性。

S230、将目标物品标签与搜索数据库中的各个搜索关键词进行匹配，确定与目标物品标签匹配的第一搜索关键词，以及将目标相似标签与搜索数据库中的各个搜索关键词进行匹配，确定与目标相似标签匹配的第二搜索关键词。

具体地，可以基于编辑距离或者向量余弦距离等匹配方式，将搜索数据库中的每个搜索关键词与目标物品标签进行匹配，并将匹配成功的搜索关键词确定为第一搜索关键词，以及将搜索数据库中的每个搜索关键词与目标相似标签进行匹配，并将匹配成功的搜索关键词确定为第二搜索关键词。

示例性地，S230可以包括：获取根据标签数据库中的各个物品标签创建的字典树，以及字典树中的每个节点对应的失败指针，其中失败指针用于在相应节点的字符匹配失败时跳转至所指向的节点；基于字典树和字典树中的失败指针，将搜索数据库中的各个搜索关键词与各个物品标签进行字符匹配，确定每个搜索关键词对应的匹配物品标签；根据每个搜索关键词对应的匹配物品标签，确定与目标物品标签匹配的第一搜索关键词，以及与目标相似标签匹配的第二搜索关键词。

具体地，可以基于AC(Aho-Corasick)自动机的多模式匹配方式，将目标物品标签和目标相似标签与搜索关键词进行快速对齐，提高了目标物品标签和目标相似标签的匹配效率。图5给出了一种字典树的示例。如图5所示，本实施例可以基于标签数据库中的各个物品标签创建出字典树Trie，并对字典树中的每个节点建立失败指针，以便在节点的字符匹配失败时跳转至该节点的失败指针所指向的节点继续进行匹配，从而可以利用字符串的公共前缀来减少查询时间，并尽量降低无用字符串的比较，相比于哈希树而言查询效率更高。通过基于字典数中的失败指针，可以将搜索数据库中的每个搜索关键词在该字典树中进行字符匹配，可以快速地确定出与每个搜索关键词相匹配的匹配物品标签，从而可以基于每个搜索关键词对应的匹配物品标签，确定出与目标物品标签匹配的第一搜索关键词以及与目标相似标签匹配的第二搜索关键词。例如，如图5所示，若搜索关键词为“男装复古风”，则在字典树中可以确定出该搜索关键词对应的匹配物品标签为“复古风”。若搜索关键词为“时尚休闲风”，则在字典树中可以确定出该搜索关键词对应的匹配物品标签为“休闲风”。当目标物品标签为“休闲风”，则可以确定与目标物品标签匹配的第一搜索关键词为“时尚休闲风”，从而提高了物品标签与搜索关键词的对齐效率。

S240、将第一搜索关键词和第二搜索关键词确定为目标搜索关键词。

具体地，通过将第一搜索关键词和第二搜索关键词均确定为目标搜索关键词，从而可以扩充目标搜索关键词的信息量，以便预设语义匹配模型可以将多个目标搜索关键词与目标物品信息进行语义匹配，进一步提高了匹配准确性，进而也提高了标签校验的准确性。

S250、将目标物品信息和目标搜索关键词输入至预设语义匹配模型中，其中，预设语义匹配模型预先基于样本物品的搜索曝光点击率进行训练获得。

S260、根据预设语义匹配模型的输出确定目标物品信息与目标搜索关键词之间的目标匹配度，并根据目标匹配度确定目标物品标签对应的校验结果。

本实施例的技术方案，通过对目标物品标签进行相似标签扩充，确定目标物品标签对应的目标相似标签，并将与目标物品标签匹配的第一搜索关键词以及与目标相似标签匹配的第二搜索关键词均确定为目标搜索关键词，从而可以扩充目标搜索关键词的信息量，以便预设语义匹配模型可以将多个目标搜索关键词与目标物品信息进行语义匹配，进一步提高了匹配准确性，进而也提高了标签校验的准确性。

以下是本发明实施例提供的标签校验装置的实施例，该装置与上述各实施例的标签校验方法属于同一个发明构思，在标签校验装置的实施例中未详尽描述的细节内容，可以参考上述标签校验方法的实施例。

实施例三

图6为本发明实施例三提供的一种标签校验装置的结构示意图，本实施例可适用于对物品标签与物品信息是否匹配进行校验的情况，该装置具体包括：目标物品标签获取模块310、目标搜索关键词确定模块320、信息输入模块330和校验结果确定模块340。

其中，目标物品标签获取模块310，用于获取目标物品信息和待校验的目标物品标签；目标搜索关键词确定模块320，用于确定与目标物品标签匹配的目标搜索关键词；信息输入模块330，用于将目标物品信息和目标搜索关键词输入至预设语义匹配模型中，其中，预设语义匹配模型预先基于样本物品的搜索曝光点击率进行训练获得；校验结果确定模块340，用于根据预设语义匹配模型的输出确定目标物品信息与目标搜索关键词之间的目标匹配度，并根据目标匹配度确定目标物品标签对应的校验结果。

可选地，目标搜索关键词确定模块320，包括：

目标相似标签确定单元，用于对目标物品标签进行相似标签扩充，确定目标物品标签对应的目标相似标签；

搜索关键词匹配单元，用于将目标物品标签与搜索数据库中的各个搜索关键词进行匹配，确定与目标物品标签匹配的第一搜索关键词，以及将目标相似标签与搜索数据库中的各个搜索关键词进行匹配，确定与目标相似标签匹配的第二搜索关键词；

目标搜索关键词确定单元，用于将第一搜索关键词和第二搜索关键词确定为目标搜索关键词。

可选地，目标相似标签确定单元，具体用于：

获取物品数据库中的各个物品信息和搜索数据库中的各个搜索关键词的分词结果；根据分词结果，确定与目标物品标签共现的各个相似词以及每个相似词对应的共现次数；根据各共现次数，从各个相似词中确定目标物品标签对应的目标相似标签。

可选地，搜索关键词匹配单元，具体用于：

获取根据标签数据库中的各个物品标签创建的字典树，以及字典树中的每个节点对应的失败指针，其中失败指针用于在相应节点的字符匹配失败时跳转至所指向的节点；基于字典树和字典树中的失败指针，将搜索数据库中的各个搜索关键词与各个物品标签进行字符匹配，确定每个搜索关键词对应的匹配物品标签；根据每个搜索关键词对应的匹配物品标签，确定与目标物品标签匹配的第一搜索关键词，以及与目标相似标签匹配的第二搜索关键词。

可选地，预设语义匹配模型包括：词向量序列确定子模型、预设循环网络子模型和匹配度确定子模型；其中，

词向量序列确定子模型用于：对输入的目标物品信息和目标搜索关键词分别进行分词处理，并确定目标物品信息对应的第一词向量序列和目标搜索关键词对应的第二词向量序列，并将第一词向量序列和第二词向量序列输入至预设循环网络子模型中；

预设循环网络子模型用于：对输入的第一词向量序列和第二词向量序列进行向量整合，确定目标物品信息对应的第一文本向量和目标搜索关键词对应的第二文本向量，并将第一文本向量和第二文本向量输入至匹配度确定子模型中；

匹配度确定子模型用于：对输入的第一文本向量和第二文本向量进行向量匹配，确定目标物品信息与目标搜索关键词之间的目标匹配度，并输出目标匹配度。

可选地，预设语义匹配模型还包括：自注意力机制子模型；

相应地，词向量序列确定子模型还用于：将第一词向量序列和第二词向量序列输入至自注意力机制子模型中；

自注意力机制子模型用于：对输入的第一词向量序列和第二词向量序列进行注意力权重计算，确定第一词向量序列中的每个第一词向量对应的第一注意力权重，以及第二词向量序列中的每个第二词向量对应的第二注意力权重，并将各个第一注意力权重和各个第二注意力权重输入至预设循环网络子模型中；

预设循环网络子模型，具体用于：基于输入的各个第一注意力权重和各个第二注意力权重，对输入的第一词向量序列和第二词向量序列进行向量整合，确定目标物品信息对应的第一文本向量和目标搜索关键词对应的第二文本向量，并将第一文本向量和第二文本向量输入至匹配度确定子模型中。

可选地，该装置还包括：

预设语义匹配模型训练模型，用于：基于物品的搜索曝光点击率，对物品数据库中的各个物品进行采样，获得多个样本数据，样本数据包括样本物品信息、样本搜索关键词和标准匹配度；将每个样本数据输入至预设语义匹配模型中，根据预设语义匹配模型的输出确定每个样本数据对应的输出匹配度；根据输出匹配度和相应的标准匹配度确定出训练误差；将训练误差达到收敛条件为训练目标，对预设语义匹配模型进行训练。

可选地，预设语义匹配模型训练模型，还用于：确定物品数据库中的每个物品的搜索曝光点击率；将搜索曝光点击率大于第一预设阈值的物品数据确定为正样本数据，并确定正样本数据对应的标准匹配度为1；将搜索曝光点击率小于第二预设阈值的物品数据确定为负样本数据，并确定负样本数据对应的标准匹配度为0。

可选地，目标物品信息包括：目标物品标题信息、目标物品属性信息和目标物品类目信息中的至少一种。

本发明实施例所提供的标签校验装置可执行本发明任意实施例所提供的标签校验方法，具备执行标签校验方法相应的功能模块和有益效果。

值得注意的是，上述标签校验装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例四

图7为本发明实施例四提供的一种设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性设备12的框图。图7显示的设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该设备12交互的设备通信，和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与设备12的其它模块通信。应当明白，尽管图中未示出，可以结合设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发实施例所提供的一种标签校验方法步骤，该方法包括：

获取目标物品信息和待校验的目标物品标签；

确定与目标物品标签匹配的目标搜索关键词；

将目标物品信息和目标搜索关键词输入至预设语义匹配模型中，其中，预设语义匹配模型预先基于样本物品的搜索曝光点击率进行训练获得；

根据预设语义匹配模型的输出确定目标物品信息与目标搜索关键词之间的目标匹配度，并根据目标匹配度确定目标物品标签对应的校验结果。

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供的保留库存量的确定方法的技术方案。

实施例五

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的一种标签校验方法步骤，该方法包括：

获取目标物品信息和待校验的目标物品标签；

确定与目标物品标签匹配的目标搜索关键词；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种标签校验方法，其特征在于，包括：

获取目标物品信息和待校验的目标物品标签；

确定与所述目标物品标签匹配的目标搜索关键词；

2.根据权利要求1所述的方法，其特征在于，确定与所述目标物品标签匹配的目标搜索关键词，包括：

对所述目标物品标签进行相似标签扩充，确定所述目标物品标签对应的目标相似标签；

将所述目标物品标签与搜索数据库中的各个搜索关键词进行匹配，确定与所述目标物品标签匹配的第一搜索关键词，以及将所述目标相似标签与搜索数据库中的各个搜索关键词进行匹配，确定与所述目标相似标签匹配的第二搜索关键词；

将所述第一搜索关键词和所述第二搜索关键词确定为目标搜索关键词。

3.根据权利要求2所述的方法，其特征在于，对所述目标物品标签进行相似标签扩充，确定所述目标物品标签对应的目标相似标签，包括：

获取物品数据库中的各个物品信息和搜索数据库中的各个搜索关键词的分词结果；

根据所述分词结果，确定与所述目标物品标签共现的各个相似词以及每个所述相似词对应的共现次数；

根据各所述共现次数，从各个所述相似词中确定所述目标物品标签对应的目标相似标签。

4.根据权利要求2所述的方法，其特征在于，将所述目标物品标签与搜索数据库中的各个搜索关键词进行匹配，确定与所述目标物品标签匹配的第一搜索关键词，以及将所述目标相似标签与搜索数据库中的各个搜索关键词进行匹配，确定与所述目标相似标签匹配的第二搜索关键词，包括：

获取根据标签数据库中的各个物品标签创建的字典树，以及所述字典树中的每个节点对应的失败指针，其中所述失败指针用于在相应节点的字符匹配失败时跳转至所指向的节点；

基于所述字典树和所述字典树中的失败指针，将搜索数据库中的各个搜索关键词与所述各个物品标签进行字符匹配，确定每个搜索关键词对应的匹配物品标签；

根据每个搜索关键词对应的匹配物品标签，确定与所述目标物品标签匹配的第一搜索关键词，以及与所述目标相似标签匹配的第二搜索关键词。

5.根据权利要求1所述的方法，其特征在于，所述预设语义匹配模型包括：词向量序列确定子模型、预设循环网络子模型和匹配度确定子模型；其中，

所述词向量序列确定子模型用于：对输入的所述目标物品信息和所述目标搜索关键词分别进行分词处理，并确定所述目标物品信息对应的第一词向量序列和所述目标搜索关键词对应的第二词向量序列，并将所述第一词向量序列和所述第二词向量序列输入至所述预设循环网络子模型中；

所述预设循环网络子模型用于：对输入的所述第一词向量序列和所述第二词向量序列进行向量整合，确定所述目标物品信息对应的第一文本向量和所述目标搜索关键词对应的第二文本向量，并将所述第一文本向量和所述第二文本向量输入至所述匹配度确定子模型中；

所述匹配度确定子模型用于：对输入的所述第一文本向量和所述第二文本向量进行向量匹配，确定所述目标物品信息与所述目标搜索关键词之间的目标匹配度，并输出所述目标匹配度。

6.根据权利要求5所述的方法，其特征在于，所述预设语义匹配模型还包括：自注意力机制子模型；

相应地，所述词向量序列确定子模型还用于：将所述第一词向量序列和所述第二词向量序列输入至所述自注意力机制子模型中；

所述自注意力机制子模型用于：对输入的所述第一词向量序列和所述第二词向量序列进行注意力权重计算，确定所述第一词向量序列中的每个第一词向量对应的第一注意力权重，以及所述第二词向量序列中的每个第二词向量对应的第二注意力权重，并将各个所述第一注意力权重和各个所述第二注意力权重输入至所述预设循环网络子模型中；

所述预设循环网络子模型，具体用于：基于输入的各个所述第一注意力权重和各个所述第二注意力权重，对输入的所述第一词向量序列和所述第二词向量序列进行向量整合，确定所述目标物品信息对应的第一文本向量和所述目标搜索关键词对应的第二文本向量，并将所述第一文本向量和所述第二文本向量输入至所述匹配度确定子模型中。

7.根据权利要求1-6任一所述的方法，其特征在于，所述预设语义匹配模型的训练过程包括：

基于物品的搜索曝光点击率，对物品数据库中的各个物品进行采样，获得多个样本数据，所述样本数据包括样本物品信息、样本搜索关键词和标准匹配度；

将每个所述样本数据输入至预设语义匹配模型中，根据所述预设语义匹配模型的输出确定每个所述样本数据对应的输出匹配度；

根据所述输出匹配度和相应的标准匹配度确定出训练误差；

将所述训练误差达到收敛条件为训练目标，对所述预设语义匹配模型进行训练。

8.根据权利要求7所述的方法，其特征在于，基于物品的搜索曝光点击率，对物品数据库中的各个物品进行采样，获得多个样本数据，包括：

确定物品数据库中的每个物品的搜索曝光点击率；

将所述搜索曝光点击率大于第一预设阈值的物品数据确定为正样本数据，并确定所述正样本数据对应的标准匹配度为1；

将所述搜索曝光点击率小于第二预设阈值的物品数据确定为负样本数据，并确定所述负样本数据对应的标准匹配度为0。

9.根据权利要求1-8任一所述的方法，其特征在于，所述目标物品信息包括：目标物品标题信息、目标物品属性信息和目标物品类目信息中的至少一种。

10.一种标签校验装置，其特征在于，包括：

11.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的标签校验方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的标签校验方法。