CN114219084B - 一种快消行业的访销陈列造假识别方法及装置 - Google Patents
一种快消行业的访销陈列造假识别方法及装置 Download PDFInfo
- Publication number
- CN114219084B CN114219084B CN202111513363.1A CN202111513363A CN114219084B CN 114219084 B CN114219084 B CN 114219084B CN 202111513363 A CN202111513363 A CN 202111513363A CN 114219084 B CN114219084 B CN 114219084B
- Authority
- CN
- China
- Prior art keywords
- data
- encoder
- source heterogeneous
- training
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请公开基于多源异构特征的无监督表示学习方法及装置,包括:提取和集成多源异构数据,设计并训练结构化数据特征的第一编码器,并利用第一编码器对结构化数据进行编码,得到第一编码结果;设计并训练非结构化数据特征的第二编码器,并利用第二编码器对非结构化数据进行编码,得到第二编码结果;对第一编码结果和第二编码结果进行处理得到描述实例的多源异构融合特征;基于多源异构融合特征,设计DNN网络,并训练得到多源异构融合特征投影到多维的空间的特征表示向量;利用特征表示向量进行实例间的相似度匹配,分类和聚类的任务。本申请基于无监督条件下,实现了实例级别的判别性表示学习;并且提供了更多的训练数据和更好的网络结构。
Description
技术领域
本申请涉及无监督表示学习和大数据分析技术领域,尤其涉及一种快消行业的访销陈列造假识别方法及装置。
背景技术
在实际生活中,学习一个复杂概念时,总想有一条捷径可以化繁为简。机器学习模型也不例外,如果有经过提炼的对于原始数据的更好表达,往往可以使得后续任务事倍功半。这也是表示学习的基本思路,即找到对于原始数据更好的表达,以方便后续任务(比如分类),这具有重要的现实意义。
大多数成功的表示学习模型都是通过监督学习来训练的,监督学习需要为特定的任务完全标注的大型数据集。然而,现实场景中,获取带标注的数据通常是非常昂贵的,甚至是不可行的。所以如何通过纯粹的判别性学习(无监督表示学习)来学习反映实例间明显相似性的有意义度量对于企业来说非常重要,这样不但可以节省企业为获取大量标注数据所耗费的昂贵成本,而且还可以提高工作效率。
另外,现有的表示学习研究中,不论是无监督表示学习,抑或是有监督表示学习,大部分都学习一个好的特征表示,以捕获类别之间的明显相似性,而不是实例,因为实例上的相似性计算成本大且困难。而且描述实例的特征来源多样且结构多样,面对多源异构的数据特征,如何将类特征表示学习推向实例特征表示的极端,进而通过判别性的无监督学习来学习实例级别的特征表示是当前表示学习的难点。
发明内容
本申请提供基于多源异构特征的无监督表示学习方法及装置,以解决现有技术中监督学习成本过高、实例相似性计算成本大且困难的问题。
为解决上述技术问题,本申请提出一种基于多源异构特征的无监督表示学习方法,包括:提取和集成多源异构数据,其中,多源异构数据包括结构化数据和非结构化数据;设计并训练结构化数据特征的第一编码器,并利用第一编码器对结构化数据进行编码,得到第一编码结果;设计并训练非结构化数据特征的第二编码器,并利用第二编码器对非结构化数据进行编码,得到第二编码结果;对第一编码结果和第二编码结果进行处理,得到用于描述实例的多源异构融合特征;基于多源异构融合特征,设计DNN网络,并训练得到多源异构融合特征投影到多维的空间的特征表示向量;利用特征表示向量进行实例间的相似度匹配,分类和聚类的任务。
可选地,设计并训练结构化数据特征的第一编码器,并利用第一编码器对结构化数据进行编码,得到第一编码结果,包括:对多源异构数据进行抽样,以抽样数据为训练集训练结构化特征的第一编码器;基于已训练的第一编码器,对多源异构数据中的结构化数据进行推理,得到编码后的第一编码结果。
可选地,设计并训练非结构化数据特征的第二编码器,并利用第二编码器对非结构化数据进行编码,得到第二编码结果,包括:对多源异构数据进行抽样,以抽样数据为训练集训练非结构化特征的第二编码器;基于已训练的第二编码器,对多源异构数据中的非结构化数据进行推理,得到编码后的第二编码结果。
可选地,基于多源异构融合特征,设计DNN网络,并训练得到多源异构融合特征投影到多维的空间的特征表示向量,包括:自定义用于表示学习的DNN网络;通过将网络中的softmax替换成非参数softmax,将无监督学习表述为实例级判别的方法,通过非参数方法将实例级别的判别描述为一个度量学习问题,其中实例之间的距离是直接从特征以非参数的方式计算出来的;对问题进行自适应处理,将多类分类问题转化为一组二值分类问题,通过噪声对比估计来近似softmax计算;基于多源异构融合特征训练DNN,以得到其最优的特征表示向量。
为解决上述技术问题,本申请提出一种基于多源异构特征的无监督表示学习装置,包括:提取模块,用于提取和集成多源异构数据,其中,多源异构数据包括结构化数据和非结构化数据;第一编码器模块,用于设计并训练结构化数据特征的第一编码器,并利用第一编码器对结构化数据进行编码,得到第一编码结果;第二编码器模块,用于设计并训练非结构化数据特征的第二编码器,并利用第二编码器对非结构化数据进行编码,得到第二编码结果;处理模块,用于对第一编码结果和第二编码结果进行处理,得到用于描述实例的多源异构融合特征;向量模块,用于基于多源异构融合特征,设计DNN网络,并训练得到多源异构融合特征投影到多维的空间的特征表示向量;任务模块,用于利用特征表示向量进行实例间的相似度匹配,分类和聚类的任务。
可选地,第一编码器模块还用于:对多源异构数据进行抽样,以抽样数据为训练集训练结构化特征的第一编码器;基于已训练的第一编码器,对多源异构数据中的结构化数据进行推理,得到编码后的第一编码结果。
可选地,第二编码器模块还用于:对多源异构数据进行抽样,以抽样数据为训练集训练非结构化特征的第二编码器;基于已训练的第二编码器,对多源异构数据中的非结构化数据进行推理,得到编码后的第二编码结果。
可选地,向量模块还用于:自定义用于表示学习的DNN网络;通过将网络中的softmax替换成非参数softmax,将无监督学习表述为实例级判别的方法,通过非参数方法将实例级别的判别描述为一个度量学习问题,其中实例之间的距离是直接从特征以非参数的方式计算出来的;对问题进行自适应处理,将多类分类问题转化为一组二值分类问题,通过噪声对比估计来近似softmax计算;基于多源异构融合特征训练DNN,以得到其最优的特征表示向量。
为解决上述技术问题,本申请提出一种电子设备,包括存储器和处理器,存储器连接处理器,存储器存储有计算机程序,计算机程序被处理器执行时实现上述的基于多源异构特征的无监督表示学习方法。
为解决上述技术问题,本申请提出一种计算机可读存储介质,存储有计算机程序,计算机程序被执行时实现上述的基于多源异构特征的无监督表示学习方法。
本申请与现有技术相比,具有如下优点和有益效果:
1、基于无监督条件下,实现了实例级别的判别性表示学习,而且在特定场景中性能与效果上都优于现有的方法,并且提供了更多的训练数据和更好的网络结构;
2、区别于现有的方法通常以单一化的数据特征进行实例特征表示学习的方式,本申请的方法考虑了关于实例的异构多源数据特征进行表示学习,基于多种来源和结构的特征对实例进行更全面的表示,并且得益于无监督属性,本方法更加高效,且节省了大量人力成本(标注成本)。
3、非参数softmax消除了在训练表示学习模型计算和存储梯度的需求,使得它对于大数据应用程序更具可伸缩性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请基于多源异构特征的无监督表示学习方法一实施例的流程示意图;
图2是本申请一实施例中结构化编码器的原理示意图;
图3是本申请一实施例中非结构化编码器的原理示意图;
图4是本申请一实施例中的特征表示学习DNN模型框架示意图;
图5是本申请一实施例的整体模型结构示意图;
图6是本申请基于多源异构特征的无监督表示学习装置一实施例的结构示意图;
图7是本申请电子设备一实施例的结构示意图;
图8是本申请计算机可读存储介质一实施例的结构示意图。
具体实施方式
为使本领域的技术人员更好地理解本申请的技术方案,下面结合附图和具体实施方式对本申请所提供基于多源异构特征的无监督表示学习方法及装置进一步详细描述。
本申请提出一种基于多源异构特征的无监督表示学习方法,请参阅图1,图1是本申请基于多源异构特征的无监督表示学习方法一实施例的流程示意图,在本实施例中,基于多源异构特征的无监督表示学习方法可以包括步骤S110~S160,各步骤具体如下:
S110:提取和集成多源异构数据,其中,多源异构数据包括结构化数据和非结构化数据。
S120:设计并训练结构化数据特征的第一编码器,并利用第一编码器对结构化数据进行编码,得到第一编码结果。
对多源异构数据进行抽样,以抽样数据为训练集训练结构化特征的第一编码器;基于已训练的第一编码器,对多源异构数据中的结构化数据进行推理,得到编码后的第一编码结果。
S130:设计并训练非结构化数据特征的第二编码器,并利用第二编码器对非结构化数据进行编码,得到第二编码结果。
对多源异构数据进行抽样,以抽样数据为训练集训练非结构化特征的第二编码器;基于已训练的第二编码器,对多源异构数据中的非结构化数据进行推理,得到编码后的第二编码结果。
S140:对第一编码结果和第二编码结果进行处理,得到用于描述实例的多源异构融合特征。
将步骤S120和步骤S130得到的两种编码器推理得到的总体数据编码结果进行连接(concatenate),得到用于描述实例的多源异构融合特征。
S150:基于多源异构融合特征,设计DNN网络,并训练得到多源异构融合特征投影到多维的空间的特征表示向量。
自定义用于表示学习的DNN网络;通过将网络中的softmax替换成非参数softmax,将无监督学习表述为实例级判别的方法,通过非参数方法将实例级别的判别描述为一个度量学习问题,其中实例之间的距离(相似性)是直接从特征以非参数的方式计算出来的。
为解决训练集中所有实例的相似性计算困难,对问题进行自适应处理,将多类分类问题转化为一组二值分类问题,通过噪声对比(NCE)估计来近似softmax计算。
基于多源异构融合特征训练DNN,以得到其最优的特征表示向量。在每个学习迭代过程中,维护了一个用于存储的特征记忆库V,通过随机梯度下降优化网络的表示形式fi和网络参数θ。然后在相应的实例条目fi→vi处将fi更新为V。
S160:利用特征表示向量进行实例间的相似度匹配,分类和聚类的任务。
步骤S150得到的多源异构融合特征表示向量库V就是模型学习到的总体数据中每个实例的最优特征表示结果,基于特征库V,可以进行实例间的相似度匹配,分类,聚类等任务,以解决现实许多业务场景问题。
本实施例通过不同结构的编码器分别对来源不同系统的结构化的特征数据与非结构化的图像特征数据两种异构的特征进行编码,然后将编码好的两种特征数据进行连接得到新的特征,输入到自定义的DNN网络,进行实例级判别学习以得到最优多源异构特征嵌入表示。
以某大型快消饮料企业为例说明本申请的多源异构特征的无监督表示学习方法,可应用于快消行业的访销陈列造假识别方法。请参阅图2-5,以该企业来源不同业务系统的数据,如来源零售系统的零售终端数据,来源于拜访管理系统的业务代表拜访行为数据,来源于AI识别系统的陈列图像数据和图像识别数据为算法模型学习基础数据,搭建算法模型,本方法可以应用于快销行业中包括且不限于饮料、食品、日化和酒类等行业领域。
对各个步骤进行具体说明:
(1)分别提取该企业的业务员拜访行为数据、零售终端数据、陈列图像数据和图像中SKU识别数据集,并将其集成汇总到一个库表中。
(2)设计结构化数据特征的第一编码器,本实施例中的结构化数据特征主要是陈列图像中SKU识别结果,包括SKU数量、类别、占比和层等信息,这些信息向量化后展现的是陈列图像中的SKU分布规律,设Xs为结构化数据特征向量化,其中n为训练样本数,假设Xs中的每个样本都存在一个专属的正态分布则从该分布中采样得到的zi都是样本的表示。这里采用变分自编码器,训练一个生成器X=g(Z),从分布采样出一个最优的zi以还原
(3)设计非结构化数据特征的第二编码器,本实施例中的非结构化数据主要是陈列图像,对于图像的特征提取目前有很多成熟的方法,这里采用的是目标检测中已预训练好特征提取骨干网络resnet101为陈列图像特征编码器,编码每张陈列图像将其投影到一个2048维的空间特征向量,从而省去了分结构化编码器的训练。
(4)将步骤(2)训练好的编码生成器X=g(Z)和步骤(3)图像特征编码器分别对总体数据中的的结构化部分预非结构化部分进行编码,得到的编码通过前融合的方式concatenate起来作为异构多源的融合特征。
(5)设计用于学习异构多源融合特征表示的DNN网络,具体如下:
(5-1)本实施例中的DNN为三层结构,第一层为输入层,维度与步骤(4)中的异构多源特征相同,中间两层为隐层,维度为分别为1024和256维,最后接一个非参数的softmax函数,计算实例间的相似性。本实施例中的实例为每个快消终端门店的陈列,后文均以实例指代。
(5-2)模型的目标是学习一个嵌入函数v=fθ(x),fθ是一个具有参数θ的深度神经网络,将异构多源融合特征x映射到特征v。这种嵌入会在融合特征空间上产生一个度量,即对于实例下xi和xj:dθ(xi,xj)=||fθ(xi)-fθ(xj)||。通过使用softmax准则来制定实例级分类目标,假设我们有n个实例融合特征x1,x2,...,xn及其嵌入表示v1,v2,...,vn,其中vi=fθ(xi),在传统的参数softmax公式下,对于嵌入表示v=fθ(x)的实例融合特征x,其被识别为第i个实例的概率为:
τ是控制分布集中程度的调节参数。
(5-4)概率p(i|v)的计算需要所有实例样本的融合特征的嵌入表示vj,为节省计算成本,模型训练时维护了一个用于存储的特征记忆库V,通过随机梯度下降优化网络的表示形式fi和网络参数θ。然后在相应的实例条目fi→vi处将fi更新为V,并通过NCE近似整个softmax的计算,将多类分类问题转化为一组二值分类问题,其中二值分类的任务是对数据样本和噪声样本进行区分。
(6)模型推理阶段,步骤(5)训练好DNN模型后,便得到了总体所有实例的每个实例融合特征的嵌入表示vj(模型训练时维护的记忆库V),将特征库V中每个实例融合特征的嵌入表示vj与对应的实例(终端陈列)进行索引关联,通过每个终端拜访的业务员对V进行分组,得到V′,分组的原因是业务场景需要以及缩小搜索空间,避免全库搜索;
(7)基于步骤(6)分组后V′,对每组中的实例嵌入表示进行实例特征表示的相似度计算,这里采用faiss框架计算特征向量间的相似度,预设的阈值q为0.95,用于过滤相似度低于q的终端陈列,若相似度大于q,则说明两终端陈列为疑似业务员造假的访销陈列。
本实施例方法的工作原理是:在快消行业的访销陈列管理中,普遍存在访销陈列造假行为,而目前唯一的筛查方法就是人工筛查,但人工核检的方式成本高且效益差,企业难以找到合适的度量方法进而快速有效且自动化的对这种造假行为进行有效筛查。本方法通过提供一种基于多源异构特征的无监督表示学习方法,通过对终端陈列的多源异构特征(零售终端数据,业务代表拜访行为数据,陈列图像数据和图像识别数据)中学习到其最优的特征表示,基于学习到的异构融合特征表示计算其相互之间的相似度,从而实现从大规模数据中自动化筛查出存在造假访销终端行为的访销记录,达到降本增效的目标。
基于上述的基于多源异构特征的无监督表示学习方法,本申请还提出一种基于多源异构特征的无监督表示学习装置,请参阅6,图6是本申请基于多源异构特征的无监督表示学习装置一实施例的结构示意图,在本实施例中,基于多源异构特征的无监督表示学习装置可以包括:
提取模块110,用于提取和集成多源异构数据,其中,多源异构数据包括结构化数据和非结构化数据;
第一编码器模块120,用于设计并训练结构化数据特征的第一编码器,并利用第一编码器对结构化数据进行编码,得到第一编码结果;
第二编码器模块130,用于设计并训练非结构化数据特征的第二编码器,并利用第二编码器对非结构化数据进行编码,得到第二编码结果;
处理模块140,用于对第一编码结果和第二编码结果进行处理,得到用于描述实例的多源异构融合特征;
向量模块150,用于基于多源异构融合特征,设计DNN网络,并训练得到多源异构融合特征投影到多维的空间的特征表示向量;
任务模块160,用于利用特征表示向量进行实例间的相似度匹配,分类和聚类的任务。
可选地,第一编码器模块120还用于:对多源异构数据进行抽样,以抽样数据为训练集训练结构化特征的第一编码器;基于已训练的第一编码器,对多源异构数据中的结构化数据进行推理,得到编码后的第一编码结果。
可选地,第二编码器模块130还用于:对多源异构数据进行抽样,以抽样数据为训练集训练非结构化特征的第二编码器;基于已训练的第二编码器,对多源异构数据中的非结构化数据进行推理,得到编码后的第二编码结果。
可选地,向量模块150还用于:自定义用于表示学习的DNN网络;通过将网络中的softmax替换成非参数softmax,将无监督学习表述为实例级判别的方法,通过非参数方法将实例级别的判别描述为一个度量学习问题,其中实例之间的距离是直接从特征以非参数的方式计算出来的;对问题进行自适应处理,将多类分类问题转化为一组二值分类问题,通过噪声对比估计来近似softmax计算;基于多源异构融合特征训练DNN,以得到其最优的特征表示向量。
基于上述的基于多源异构特征的无监督表示学习方法,本申请还提出一种电子设备,如图7所示,图7是本申请电子设备一实施例的结构示意图。电子设备200可以包括存储器21和处理器22,存储器21连接处理器22,存储器21中存储有计算机程序,计算机程序被处理器22执行时实现上述任一实施例的方法。其步骤和原理在上述方法已详细介绍,在此不再赘述。
在本实施例中,处理器22还可以称为CPU(central processing unit,中央处理单元)。处理器22可以是一种集成电路芯片,具有信号的处理能力。处理器22还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
基于上述的基于多源异构特征的无监督表示学习方法,本申请还提出一种计算机可读存储介质。请参阅图8,图8是本申请计算机可读存储介质一实施例的结构示意图。计算机可读存储介质300上存储有计算机程序31,计算机程序31被处理器执行时实现上述任一实施例的方法。其步骤和原理在上述方法已详细介绍,在此不再赘述。
进一步的,计算机可读存储介质300还可以是U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存储器(random access memory,RAM)、磁带或者光盘等各种可以存储程序代码的介质。
可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。文中所使用的步骤编号也仅是为了方便描述,不对作为对步骤执行先后顺序的限定。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种快消行业的访销陈列造假识别方法,其特征在于,该方法基于多源异构特征的无监督表示学习方法,包括:
提取业务员拜访行为数据、零售终端数据、陈列图像数据和图像中SKU识别数据集,集成多源异构数据,其中,所述多源异构数据包括结构化数据和非结构化数据;
设计并训练结构化数据特征的第一编码器,并利用所述第一编码器对所述结构化数据进行编码,得到第一编码结果;
设计并训练非结构化数据特征的第二编码器,并利用所述第二编码器对所述非结构化数据进行编码,得到第二编码结果;
对所述第一编码结果和第二编码结果进行处理,得到用于描述实例的多源异构融合特征;
基于所述多源异构融合特征,设计DNN网络,并训练得到所述多源异构融合特征投影到多维的空间的特征表示向量;
利用所述特征表示向量进行实例间的相似度匹配、分类和聚类的任务,若相似度大于预设的阈值q,则相应实例的两终端陈列为疑似业务员造假的访销陈列。
2.根据权利要求1所述的一种快消行业的访销陈列造假识别方法,其特征在于,所述设计并训练结构化数据特征的第一编码器,并利用所述第一编码器对所述结构化数据进行编码,得到第一编码结果,包括:
对所述多源异构数据进行抽样,以抽样数据为训练集训练结构化特征的第一编码器;
基于已训练的所述第一编码器,对所述多源异构数据中的结构化数据进行推理,得到编码后的第一编码结果。
3.根据权利要求1所述的一种快消行业的访销陈列造假识别方法,其特征在于,所述设计并训练非结构化数据特征的第二编码器,并利用所述第二编码器对所述非结构化数据进行编码,得到第二编码结果,包括:
对所述多源异构数据进行抽样,以抽样数据为训练集训练非结构化特征的第二编码器;
基于已训练的所述第二编码器,对所述多源异构数据中的非结构化数据进行推理,得到编码后的第二编码结果。
4.根据权利要求1所述的一种快消行业的访销陈列造假识别方法,其特征在于,所述基于所述多源异构融合特征,设计DNN网络,并训练得到所述多源异构融合特征投影到多维的空间的特征表示向量,包括:
自定义用于表示学习的DNN网络;
通过将网络中的softmax替换成非参数softmax,将无监督学习表述为实例级判别的方法,通过非参数方法将实例级别的判别描述为一个度量学习问题,其中实例之间的距离是直接从特征以非参数的方式计算出来的;
对问题进行自适应处理,将多类分类问题转化为一组二值分类问题,通过噪声对比估计来近似softmax计算;
基于多源异构融合特征训练DNN,以得到其最优的特征表示向量。
5.一种快消行业的访销陈列造假识别装置,其特征在于,该装置基于多源异构特征的无监督表示学习装置,包括:
提取模块,用于提取业务员拜访行为数据、零售终端数据、陈列图像数据和图像中SKU识别数据集,集成多源异构数据,其中,所述多源异构数据包括结构化数据和非结构化数据;
第一编码器模块,用于设计并训练结构化数据特征的第一编码器,并利用所述第一编码器对所述结构化数据进行编码,得到第一编码结果;
第二编码器模块,用于设计并训练非结构化数据特征的第二编码器,并利用所述第二编码器对所述非结构化数据进行编码,得到第二编码结果;
处理模块,用于对所述第一编码结果和第二编码结果进行处理,得到用于描述实例的多源异构融合特征;
向量模块,用于基于所述多源异构融合特征,设计DNN网络,并训练得到所述多源异构融合特征投影到多维的空间的特征表示向量;
任务模块,用于利用所述特征表示向量进行实例间的相似度匹配、分类和聚类的任务,若相似度大于预设的阈值q,则相应实例的两终端陈列为疑似业务员造假的访销陈列。
6.根据权利要求5所述的一种快消行业的访销陈列造假识别装置,其特征在于,所述第一编码器模块还用于:
对所述多源异构数据进行抽样,以抽样数据为训练集训练结构化特征的第一编码器;
基于已训练的所述第一编码器,对所述多源异构数据中的结构化数据进行推理,得到编码后的第一编码结果。
7.根据权利要求5所述的一种快消行业的访销陈列造假识别装置,其特征在于,所述第二编码器模块还用于:
对所述多源异构数据进行抽样,以抽样数据为训练集训练非结构化特征的第二编码器;
基于已训练的所述第二编码器,对所述多源异构数据中的非结构化数据进行推理,得到编码后的第二编码结果。
8.根据权利要求5所述的一种快消行业的访销陈列造假识别装置,其特征在于,所述向量模块还用于:
自定义用于表示学习的DNN网络;
通过将网络中的softmax替换成非参数softmax,将无监督学习表述为实例级判别的方法,通过非参数方法将实例级别的判别描述为一个度量学习问题,其中实例之间的距离是直接从特征以非参数的方式计算出来的;
对问题进行自适应处理,将多类分类问题转化为一组二值分类问题,通过噪声对比估计来近似softmax计算;
基于多源异构融合特征训练DNN,以得到其最优的特征表示向量。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器连接所述处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现权利要求1-4中任一项所述的一种快消行业的访销陈列造假识别方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被执行时实现权利要求1-4任一项所述的一种快消行业的访销陈列造假识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111513363.1A CN114219084B (zh) | 2021-12-06 | 2021-12-06 | 一种快消行业的访销陈列造假识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111513363.1A CN114219084B (zh) | 2021-12-06 | 2021-12-06 | 一种快消行业的访销陈列造假识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114219084A CN114219084A (zh) | 2022-03-22 |
CN114219084B true CN114219084B (zh) | 2022-08-23 |
Family
ID=80701125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111513363.1A Active CN114219084B (zh) | 2021-12-06 | 2021-12-06 | 一种快消行业的访销陈列造假识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114219084B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117668581B (zh) * | 2023-12-13 | 2024-09-03 | 北京知其安科技有限公司 | 一种多源数据的实体识别方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175851A (zh) * | 2019-02-28 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 一种作弊行为检测方法及装置 |
CN111199343A (zh) * | 2019-12-24 | 2020-05-26 | 上海大学 | 一种多模型融合的烟草市场监管异常数据挖掘方法 |
CN111881991A (zh) * | 2020-08-03 | 2020-11-03 | 联仁健康医疗大数据科技股份有限公司 | 一种识别欺诈的方法、装置及电子设备 |
CN112465030A (zh) * | 2020-11-28 | 2021-03-09 | 河南大学 | 一种基于两级迁移学习的多源异构信息融合故障诊断方法 |
CN113051452A (zh) * | 2021-04-12 | 2021-06-29 | 清华大学 | 运维数据特征选择方法和装置 |
CN113392894A (zh) * | 2021-06-09 | 2021-09-14 | 瓴域影诺(北京)科技有限公司 | 一种多组学数据的聚类分析方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050222929A1 (en) * | 2004-04-06 | 2005-10-06 | Pricewaterhousecoopers Llp | Systems and methods for investigation of financial reporting information |
US7853432B2 (en) * | 2007-10-02 | 2010-12-14 | The Regents Of The University Of Michigan | Method and apparatus for clustering and visualization of multicolor cytometry data |
-
2021
- 2021-12-06 CN CN202111513363.1A patent/CN114219084B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175851A (zh) * | 2019-02-28 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 一种作弊行为检测方法及装置 |
CN111199343A (zh) * | 2019-12-24 | 2020-05-26 | 上海大学 | 一种多模型融合的烟草市场监管异常数据挖掘方法 |
CN111881991A (zh) * | 2020-08-03 | 2020-11-03 | 联仁健康医疗大数据科技股份有限公司 | 一种识别欺诈的方法、装置及电子设备 |
CN112465030A (zh) * | 2020-11-28 | 2021-03-09 | 河南大学 | 一种基于两级迁移学习的多源异构信息融合故障诊断方法 |
CN113051452A (zh) * | 2021-04-12 | 2021-06-29 | 清华大学 | 运维数据特征选择方法和装置 |
CN113392894A (zh) * | 2021-06-09 | 2021-09-14 | 瓴域影诺(北京)科技有限公司 | 一种多组学数据的聚类分析方法和系统 |
Non-Patent Citations (1)
Title |
---|
基于Stacking的上市公司财务报告舞弊识别与预测模型研究;石惠;《中国优秀硕士学位论文全文数据库(电子期刊)》;20200731;第1-7页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114219084A (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113822494A (zh) | 风险预测方法、装置、设备及存储介质 | |
CN106445988A (zh) | 一种大数据的智能处理方法和系统 | |
WO2023011382A1 (zh) | 推荐方法、推荐模型训练方法及相关产品 | |
KR20190114166A (ko) | 오토인코더를 이용한 산업분류 시스템 및 방법 | |
CN111325237B (zh) | 一种基于注意力交互机制的图像识别方法 | |
CN111523421A (zh) | 基于深度学习融合各种交互信息的多人行为检测方法及系统 | |
CN111522979B (zh) | 图片排序推荐方法、装置、电子设备、存储介质 | |
CN113256007A (zh) | 一种面向多模态的新产品销量预测方法及装置 | |
CN114219084B (zh) | 一种快消行业的访销陈列造假识别方法及装置 | |
CN110413825B (zh) | 面向时尚电商的街拍推荐系统 | |
Jain | Convolutional neural network based advertisement classification models for online English newspapers | |
CN112989182A (zh) | 信息处理方法、装置、信息处理设备及存储介质 | |
CN111340139A (zh) | 一种图像内容复杂度的判别方法及装置 | |
CN116340635A (zh) | 物品推荐方法、模型训练方法、装置及设备 | |
CN116861226A (zh) | 一种数据处理的方法以及相关装置 | |
CN115116080A (zh) | 表格解析方法、装置、电子设备和存储介质 | |
Yawale et al. | Design of a high-density bio-inspired feature analysis deep learning model for sub-classification of natural & synthetic imagery | |
Qi et al. | Multigranularity semantic labeling of point clouds for the measurement of the rail tanker component with structure modeling | |
CN111177657B (zh) | 需求确定方法、系统、电子设备及存储介质 | |
Dong et al. | SiameseDenseU‐Net‐based Semantic Segmentation of Urban Remote Sensing Images | |
CN113239215A (zh) | 多媒体资源的分类方法、装置、电子设备及存储介质 | |
CN113822689A (zh) | 广告转化率预估方法及装置、存储介质、电子设备 | |
CN111784181A (zh) | 一种罪犯改造质量评估系统评估结果解释方法 | |
Aghasi et al. | A deep learning and image processing pipeline for object characterization in firm operations | |
CN113407727B (zh) | 基于法律知识图谱的定性量纪推荐方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |