CN115860587A

CN115860587A - 基于图文匹配的拜访考核方法、装置、设备及存储介质

Info

Publication number: CN115860587A
Application number: CN202310186775.1A
Authority: CN
Inventors: 林木兴; 丁明; 陈应文; 王杰; 许洁斌
Original assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Current assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-03-28

Abstract

本发明公开了基于图文匹配的拜访考核方法、装置、设备及存储介质，所述方法包括：在获取待检测文本以及待检测店头图像后，将所述待检测文本以及待检测店头图像输入至店头图文匹配模型中，然后通过图像特征编码器和文本特征编码器，获取图像特征和文本特征，通过特征融合器，将图像特征以及文本特征进行图文对齐融合，最后通过二分类器，判断店头图像特征与文本特征是否匹配，若匹配，则确定所述业务员已进行拜访，否则，确定所述业务员未进行拜访。通过实施本发明，能够根据店头图文匹配模型，确定上传的店头图像是否与预先存储的店名匹配，提高考核系统中图店头图像和点头名称文匹配的效率。

Description

基于图文匹配的拜访考核方法、装置、设备及存储介质

技术领域

本发明涉及店头图文匹配领域，尤其涉及基于图文匹配的拜访考核方法、装置、设备及存储介质。

背景技术

在快消零售领域，为了更好的制定市场投放策略，零售商需要雇佣一批业务员经常对线下渠道的门店进行陈列拜访核查，以掌握商品在各终端门店的铺设及销售情况。零售商通过移动设备的定位及拍照功能，制定了新的业务员拜访考核方法，业务员拜访时打开移动设备的定位功能，并对待拜访门店的店面进行拍照上传系统，系统通过对比当前拍摄定位及图像来确定业务员是否真实到店拜访，然而现有的系统难以确定上传的店头照中的店名是否与预先存储的店名匹配，很难判断上传的店头照是否真实，人工审核虽然准确，但需要耗费大量人力且效率低，因此，如何提高考核系统中图店头图像和点头名称文匹配的效率，是一个亟需解决的问题。

发明内容

本发明提供了一种基于图文匹配的拜访考核方法、装置、设备及存储介质，能够提高考核系统中图店头图像和点头名称文匹配的效率；

本发明提供了一种基于图文匹配的拜访考核方法，包括：获取一业务员上传的待检测店头图像以及用于表征一门店名称的待检测文本；

将所述待检测文本以及待检测店头图像输入至店头图文匹配模型中，以使所述店头图文匹配模型根据所述待检测店头图像以及所述待检测文本，确定店头图像特征以及文本特征，并将所述店头图像特征以及文本特征进行匹配，生成匹配结果；

根据所述匹配结果，若店头图像特征与文本特征不匹配，则确定所述业务员未进行拜访；若店头图像特征与文本特征相匹配，则确定所述业务员已进行拜访；

其中，所述店头图文匹配模型，包括：图像特征编码器、文本特征编码器、特征融合器以及二分类器；

所述图像特征编码器，用于根据所述待检测店头图像，提取所述待检测店头图像的店头图像特征，并将所述店头图像特征传输至所述特征融合器；

所述文本特征编码器，用于根据所述待检测文本，提取所述待检测文本的文本特征，并将所述文本特征传输至所述特征融合器；

所述特征融合器，用于将所述店头图像特征以及文本特征进行图文对其融合，生成图文融合特征，并将所述图文融合特征传输至所述二分类器；

所述二分类器，用于根据所述图文融合特征，判断所述店头图像特征与所述文本特征是否匹配，并生成匹配结果。

进一步的，以图像特征和文本特征组成的店头图像-文本对特征为输入，以店头图像-文本对特征进行对比学习后的对比损失为输出，构建用于图像-文本对特征进行对比学习的第一预训练任务，生成第一损失函数；

以图像特征和文本特征组成的店头图像-文本对特征为输入，以店头图像-文本对特征的匹配度为输出，构建用于判断图文是否一致的第二预训练任务，生成第二损失函数；

以图像特征为输入，以文本为输出，构建用于文本生成的第三预训练任务，生成第三损失函数；

将所述第一损失函数、第二损失函数以及第三损失函数相加，生成总损失函数；

根据所述总损失函数，对所述店头图文匹配模型进行训练。

进一步的，所述文本特征编码器的生成包括：

获取若干店头图像；

对于每一店头图像，将店头图像中所对应的店头名称作为该图的文本语义进行标注；

基于标注后的若干店头图像，建立店头图像的文本语义库；

以所述文本语义库中若干店头图像的标注内容为输入，以文本特征为输出，对预设的全连接网络进行训练，将训练完成后的全连接网络作为文本特征编码器。

进一步的，在将所述待检测文本以及待检测店头图像输入至店头图文匹配模型中之前，还包括：

将所述待检测店头图像输入至预设的图像检索模型中，以使所述预设的图像检索模型根据所述待检测店头图像，确定所述待检测店头图像的店头图像特征，并将所述店头图像特征与预先存储的历史店头图像特征进行比对，生成特征相似度，并在所述特征相似度大于预设的第一阈值时，则保留所述待检测店头图像，在述特征相似度小于或等于预设的第一阈值时，将所述待检测店头图像剔除。

在上述方法项实施例的基础上，本发明对应提供了装置项实施例；

本发明提供了一种基于图文匹配的拜访考核装置，包括：图像获取模块、图文匹配模块、拜访判定模块；

所述图像获取模块，用于获取一业务员上传的待检测店头图像以及用于表征一门店名称的待检测文本；

所述图文匹配模块，用于将所述待检测文本以及待检测店头图像输入至店头图文匹配模型中，以使所述店头图文匹配模型根据所述待检测店头图像以及所述待检测文本，确定店头图像特征以及文本特征，并将所述店头图像特征以及文本特征进行匹配，生成匹配结果；

所述拜访判定模块，用于根据所述匹配结果，若店头图像特征与文本特征不匹配，则确定所述业务员未进行拜访；若店头图像特征与文本特征相匹配，则确定所述业务员已进行拜访；

根据所述总损失函数，对所述店头图文匹配模型进行训练。

进一步的，所述文本特征编码器的生成包括：

获取若干店头图像；

基于标注后的若干店头图像，建立店头图像的文本语义库；

进一步的，所述基于图文匹配的拜访考核装置，还包括：特征相似度模块；

所述特征相似度模块，用于在将所述待检测文本以及待检测店头图像输入至店头图文匹配模型中之前，将所述待检测店头图像输入至预设的图像检索模型中，以使所述预设的图像检索模型根据所述待检测店头图像，确定所述待检测店头图像的店头图像特征，并将所述店头图像特征与预先存储的历史店头图像特征进行比对，生成特征相似度，并在所述特征相似度大于预设的第一阈值时，则保留所述待检测店头图像，在述特征相似度小于或等于预设的第一阈值时，将所述待检测店头图像剔除。

在上述方法项实施例的基础上，本发明对应提供了一设备项实施例；

本发明提供了一种设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现本发明任意一项所述的基于图文匹配的拜访考核方法。

在上述方法项实施例的基础上，本发明对应提供了一存储介质项实施例；

本发明提供了一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行本发明任意一项所述的基于图文匹配的拜访考核方法。

本发明的实施例，具有如下有益效果：

本发明提供了一种基于图文匹配的拜访考核方法；所述方法，在获取待检测文本以及待检测店头图像后，将所述待检测文本以及待检测店头图像输入至店头图文匹配模型，在所述店头图文匹配模型中，通过图像特征编码器，获取待检测店头图像的店头图像特征，通过文本特征编码器获取所述待检测文本的文本特征，通过特征融合器，将所述店头图像特征以及文本特征进行图文对其融合，生成图文融合特征，通过二分类器，根据所述图文融合特征，判断所述店头图像特征与所述文本特征是否匹配，并生成匹配结果，若店头图像特征与文本特征不匹配，则确定所述业务员未进行拜访；若店头图像特征与文本特征相匹配，则确定所述业务员已进行拜访。通过实施本发明，能够根据店头图文匹配模型，确定上传的第一店头图片是否与预先存储的店名匹配，提高考核系统中图店头图像和点头名称文匹配的效率。

附图说明

图1是本发明一实施例提供的基于图文匹配的拜访考核方法步骤流程示意图；

图2是本发明一实施例提供的基于图文匹配的拜访考核方法总体流程示意图；

图3是本发明一实施例提供的一种店头图文匹配模型结构示意图；

图4是本发明一实施例提供的一种店头图文匹配模型的预训练示意图；

图5是本发明一实施例提供的一种基于图文匹配的拜访考核装置的结构示意图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一实施例提供的一种基于图文匹配的拜访考核方法，包括：

步骤S1：获取一业务员上传的待检测店头图像以及用于表征一门店名称的待检测文本；

步骤S2：将所述待检测文本以及待检测店头图像输入至店头图文匹配模型中，以使所述店头图文匹配模型根据所述待检测店头图像以及所述待检测文本，确定店头图像特征以及文本特征，并将所述店头图像特征以及文本特征进行匹配，生成匹配结果；

步骤S3：根据所述匹配结果，若店头图像特征与文本特征不匹配，则确定所述业务员未进行拜访；若店头图像特征与文本特征相匹配，则确定所述业务员已进行拜访；

对于步骤S1，在一个优选的实施例中，业务员线下拜访门店时，会对门店的正门进行拍照，并在系统中对应门店的位置上传拍照的图像；此时系统会获取到业务员拜访时上传的图像以及系统中对应门店的门店名，也就是所述的待检测店头图像以及检测文本；

在一个可选的实施例中，在将所述待检测文本以及待检测店头图像输入至店头图文匹配模型中之前，先将所述待检测店头图像输入至预设的图像检索模型中，以使所述预设的图像检索模型根据所述待检测店头图像，确定所述待检测店头图像的店头图像特征，并将所述店头图像特征与预先存储的历史店头图像特征进行比对，生成特征相似度，并在所述特征相似度大于预设的第一阈值时，则保留所述待检测店头图像，在述特征相似度小于或等于预设的第一阈值时，将所述待检测店头图像剔除。

具体的，如图2所示，首先基于采集的待检测店头图像，通过自监督学习的方法构建用于店头图片检索的通用图像检索模型；本实施例中采用Swin-Transformer 模型架构，并将模型中的有监督分类器，替换成基于对比学习的自监督分类器，最终将图像特征投影到1000维的球面空间；通过自监督学习的方式可以节约大量的标注成本，同时也可以达到有监督学习的效果；

建立好图像检索模型以后，将待检测店头图像输入到图像检索模型中，图像检索模型会获取待检测图像的图像特征，然后从预先存储的对应门店的历史图像中获取历史图像的图像特征，将两个图像特征投影到1000维的球面空间进行比对，根据两个图像特征之间的差异，最终会产生一个比对值，将比对值看作是相似度；在本实施例中，预设一个阈值k，取值为0.8；如果比对结果产生的相似度大于0.8，那么就说明业务员上传的待检测图像与历史图像中相似度较高，那么就可以保留这一待检测图像，继续做下一步检测；如果比对结果产生的相似度小于或者等于0.8，那么就说明业务员上传的待检测图像与历史图像不相符，直接过滤掉与历史不相似的噪音图像，被过滤掉的图像因为没有达到考核要求，所以能够判定该业务员的拜访考核不及格，判定所述业务员没有真实的进行线下拜访；

在一个优选的实施例中，如图3所示，在经过征提取模型之后，保留了通过相似度比较的待检测图像，然后将待检测文本以及待检测店头图像输入至店头图文匹配模型中；其中，所述店头图文匹配模型，包括：图像特征编码器、文本特征编码器、特征融合器以及二分类器；

所述二分类器，用于根据所述图文融合特征，判断所述店头图像特征与所述文本特征是否匹配，并生成匹配结果；

在一个可选的实施例中，文本特征编码器的生成包括：获取若干店头图像；

基于标注后的若干店头图像，建立店头图像的文本语义库；

具体的，建立用于店头图文匹配的文本语义库，基于采集的店头图片，通过过人工标注的方式将图片中所对应的主门店的店头名称作为该图的文本语义进行标注，从而建立关于店头图片的文本语义库；

构建基于店头图片的视觉语言预训练（VLP）模型，应用视觉和文本处理技术，构建语言建模预训练任务，训练VLP模型。具体包括：

采用VIT模型，作为VLP模型的图像特征编码器；

对于文本特征编码器，因为基于中文的BERT预训练模型其中文分词是以单个文字作分词的，这种分词在快消业务中效果不佳，所以，本实施例中基于建立的文本语义库，结合快消业务中店头名称的规则进行单个词语的分词方式，重新预训练BERT模型，将重新训练后的BERT模型作为VLP模型的文本特征编码器；

在一个可选的实施例中，以图像特征和文本特征组成的店头图像-文本对特征为输入，以店头图像-文本对特征进行对比学习后的对比损失为输出，构建用于图像-文本对特征进行对比学习的第一预训练任务，生成第一损失函数；

以图像特征和文本特征组成的店头图像-文本对特征为输入，以组成的店头图像-文本对特征的匹配度为输出，构建用于判断图文是否一致的第二预训练任务，生成第二损失函数；

根据所述总损失函数，对所述店头图文匹配模型进行训练；

具体的，设计三种不同的VLP预训练任务，分别是图像特征和文本特征进行对比学习（ITC），其输入是店头图像特征和店头文本特征组成的店头图像-文本对特征，输出是店头图像-文本对特征在对比学习后的对比损失，以区分正图文样本对与负图文样本对，鼓励正图文对具有相似的表示（即图文特征空间对齐）；判断图文是否一致（ITM），其输入是店头图像特征和店头文本特征，输出是店头图像特征和店头文本特征匹配度；文本生成任务（LM），其输入是店头图像特征，输出是生成的店头文本。然后通过三个任务的损失函数相加得到模型的总损失，即：总损失=ITC对比损失+ITM匹配损失+LM生成损失，将三个预训练任务基于总损失函数，以Transformer网络编解码方式统一进行训练，使模型能充分地利用收集到的图文多模态数据特征；获取总损失函数后，对设计好的店头照图文匹配模型进行微调，店头照图文匹配模型中的图像特征编码和文本特征编码模型与预训练好的VLP模型中的一致；

由于图像特征编码器和文本特征编码器都是基于Transformer模型构建的，因此特征对齐融合器也是基于Transformer模型构建的；

二分类器其本质是一个softmax层，用于对店头照的图文对齐特征进行二分类；也就是判断所述店头图像特征与所述文本特征是否匹配，若匹配则输出1，若不匹配输出0；

在一个可选的实施例中，如图4所示，设计店头图文匹配模型训练的负样本，主要包括两种，第一种是从当前图像的图文匹配文本对以外的图像文本中随机选取k个文本与当前图像组成新的图像文本对，作为负样本；另一种是对当前图像的对应文本中，基于单个词语的分词方式，对文本进行分词，然后随机将词序打乱后组合成新的文本作为图像对应的文本信息，作为负样本；获取负样本后，可以结合预训练好的模型对店头图文匹配模型进行有监督的端到端训练。

对于步骤S3，根据获取的匹配结果，若所述匹配结果为不匹配，则说明业务员上传的图像中，门店的店名与系统中对应的店门不一致，那么就能够判定所述业务员没有真实的对该门店进行拜访，本次拜访考核不及格；若所述匹配结果为匹配，则说明业务员上传的图像中门店的店名与系统中对应的店门一致，那么就能够判定所述业务员真实的拜访了门店，本次拜访考核通过；

在上述方法项实施例的基础上，本发明对应提供了装置项实施例。

如图5所示，本发明一实施例提供了一种基于图文匹配的拜访考核装置，包括：图像获取模块、图文匹配模块、拜访判定模块；

在一个优选的实施例中，以图像特征和文本特征组成的店头图像-文本对特征为输入，以店头图像-文本对特征进行对比学习后的对比损失为输出，构建用于图像-文本对特征进行对比学习的第一预训练任务，生成第一损失函数；

根据所述总损失函数，对所述店头图文匹配模型进行训练。

在一个优选的实施例中，基于图文匹配的拜访考核装置，所述文本特征编码器的生成包括：

获取若干店头图像；

基于标注后的若干店头图像，建立店头图像的文本语义库；

在一个优选的实施例中，基于图文匹配的拜访考核装置，还包括：特征相似度模块；

在上述方法项实施例的基础上，本发明对应提供了设备项实施例。

本发明另一实施例提供了一种设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序；所述处理器执行所述计算机程序时，实现本发明任意一实施例的基于图文匹配的拜访考核方法。

示例性的，在这一实施例中所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述设备中的执行过程；

所述设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述设备可包括，但不仅限于，处理器、存储器；

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述设备的控制中心，利用各种接口和线路连接整个设备的各个部分；

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart MediaCard, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在上述方法项实施例的基础上，本发明对应提供了存储介质项实施例。

本发明另一实施例提供了一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在的设备执行本发明任意一实施例的基于图文匹配的拜访考核方法。

在这一实施例中，上述存储介质为计算机可读存储介质，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

通过实施本发明上述各个实施例，可以通过获取业务员上传的店头图像与历史店头图像进行第一次对比，判断上传的店头图像与历史店头图像的相似度是否达到预设值，如果没有达到预设值，那么业务员拜访考核不通过，如果达到阈值，就接着判断店头图像中的店名和系统中的店门是否匹配，通过如果匹配说明该业务员此次的拜访考核通过，如果不匹配则说明拜访考核不通过；通过上述考核方法，能够提高考核系统中图店头图像和点头名称文匹配的效率。

上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护。

Claims

1.一种基于图文匹配的拜访考核方法，其特征在于，包括：

获取一业务员上传的待检测店头图像以及用于表征一门店名称的待检测文本；

2.如权利要求1所述的基于图文匹配的拜访考核方法，其特征在于，以图像特征和文本特征组成的店头图像-文本对特征为输入，以店头图像-文本对特征进行对比学习后的对比损失为输出，构建用于图像-文本对特征进行对比学习的第一预训练任务，生成第一损失函数；

根据所述总损失函数，对所述店头图文匹配模型进行训练。

3.如权利要求1所述的基于图文匹配的拜访考核方法，其特征在于，所述文本特征编码器的生成包括：

获取若干店头图像；

基于标注后的若干店头图像，建立店头图像的文本语义库；

4.如权利要求1所述的基于图文匹配的拜访考核方法，其特征在于，在将所述待检测文本以及待检测店头图像输入至店头图文匹配模型中之前，还包括：

5.一种基于图文匹配的拜访考核装置，其特征在于，包括：图像获取模块、图文匹配模块、拜访判定模块；

6.如权利要求5所述的一种基于图文匹配的拜访考核装置，其特征在于，以图像特征和文本特征组成的店头图像-文本对特征为输入，以店头图像-文本对特征进行对比学习后的对比损失为输出，构建用于图像-文本对特征进行对比学习的第一预训练任务，生成第一损失函数；

根据所述总损失函数，对所述店头图文匹配模型进行训练。

7.如权利要求5所述的一种基于图文匹配的拜访考核装置，其特征在于，所述文本特征编码器的生成包括：

获取若干店头图像；

基于标注后的若干店头图像，建立店头图像的文本语义库；

8.如权利要求5所述的一种基于图文匹配的拜访考核装置，其特征在于，还包括：特征相似度模块；

9.一种设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述的基于图文匹配的拜访考核方法。

10.一种存储介质，其特征在于，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如权利要求1至4中任意一项所述的基于图文匹配的拜访考核方法。