CN113159095A - 一种训练模型的方法、图像检索的方法以及装置 - Google Patents
一种训练模型的方法、图像检索的方法以及装置 Download PDFInfo
- Publication number
- CN113159095A CN113159095A CN202110132038.4A CN202110132038A CN113159095A CN 113159095 A CN113159095 A CN 113159095A CN 202110132038 A CN202110132038 A CN 202110132038A CN 113159095 A CN113159095 A CN 113159095A
- Authority
- CN
- China
- Prior art keywords
- image
- loss value
- target
- text
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 211
- 238000000034 method Methods 0.000 title claims abstract description 135
- 239000013598 vector Substances 0.000 claims abstract description 102
- 230000008569 process Effects 0.000 claims abstract description 23
- 230000015654 memory Effects 0.000 claims description 51
- 238000004891 communication Methods 0.000 claims description 41
- 230000011218 segmentation Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 10
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000012512 characterization method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 9
- 238000000605 extraction Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000010438 heat treatment Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 7
- 241000209094 Oryza Species 0.000 description 6
- 235000007164 Oryza sativa Nutrition 0.000 description 6
- 101150041570 TOP1 gene Proteins 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 235000009566 rice Nutrition 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 229910052709 silver Inorganic materials 0.000 description 2
- 239000004332 silver Substances 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种训练模型的方法,涉及人工智能领域,包括:获取多个训练样本,每个训练样本包括图像和文本,文本用于描述图像中的目标对象。将多个训练样本输入目标模型中,以使目标模型执行下述流程,直至满足预设的停止条件:提取第一图像的图像特征和第一文本的文本特征。根据第一向量和第二向量之间的差异获取第一损失值。第一向量的维度和第二向量的维度相同,第一向量用于指示第一图像的图像特征,第二向量用于指示第一文本的文本特征。根据第一损失值更新目标模型。本申请提供的方案利用文本特征指导图像特征的学习,使通过目标模型提取的图像特征对图像的表征能力更好。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种训练模型的方法、图像检索的方法以及装置。
背景技术
人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制 的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、 方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能 的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就 是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工 智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
图像检索是计算机视觉中备受关注的问题之一,而产品的图像检索是图像检索中非常 重要的部分。产品的图像检索是指根据用户输入的产品图像,获取该产品图像的图像特征, 根据该图像特征从图像数据库中检索出对应的产品,并向用户展示。产品的图像检索技术 在电商行业中有广泛的应用,商业价值巨大。
产品图像检索要求返回的结果与查询图像对应的产品完全一致。然而,图像数据库中 可能包括大量外观相似的产品,这给产品图像检索带来了很大的挑战。此外,由于不同用 户拍摄产品时拍照角度、拍照环境存在差异,导致输入的产品图像和图像数据库中的产品 图像可能有很大差异。因此,如何提升产品图像检索的精度亟待解决。
发明内容
本申请实施例提供一种训练模型的方法,图像检索的方法以及装置。通过本申请实施 例提供的一种训练模型的方法获取的图像特征执行图像检索任务,可以有效提升图像检索 的精度、图像检索的速度、并且降低对图像数据库的存储性能的要求。
为达到上述目的,本申请实施例提供如下技术方案:
本申请第一方面提供一种训练模型的方法,可以包括:获取多个训练样本,每个训练 样本可以包括图像和文本,文本用于描述图像中的目标对象。其中目标对象可以是一个也 可以是多个。将多个训练样本输入目标模型中,以使目标模型执行下述流程,直至满足预 设的停止条件:提取第一图像的图像特征和第一文本的文本特征。选择不同的图像特征提 取模型提取各个训练样本中的图像的图像特征。比如可以采用Resnet50或者SEResnet50 提取图像特征,再比如,可以采用Efficient-NetB3模型提取图像特征。选择不同的本文 特征提取模型提取各个训练样本中的文本的文本特征比如,可以采用GPT模型提取文本特 征,再比如可以采用Bert模型提取文本特征。第一图像是多个训练样本中任意一个训练 样本中可以包括的图像,第一文本用于描述第一图像中的目标对象。根据第一向量和第二 向量之间的差异获取第一损失值,第一向量的维度和第二向量的维度相同,第一向量用于 指示第一图像的图像特征,第二向量用于指示第一文本的文本特征。根据第一损失值更新 目标模型。本申请提供的方案通过在同构空间内减少图像特征与文本特征的差异性。其中, 预设的停止条件可以理解为目标模型收敛了,或者达到预设数目的迭代轮次。由于模型的 训练过程是不断的降低损失值的过程,当通过损失值1更新目标模型时,损失值1不断减 小,则同一个产品的图像特征对应的向量和文本特征对应的向量之间的距离也会更靠近。 相比于只通过图像特征对目标模型进行训练,本申请提供的方案在目标模型的训练过程 中,融合了文本特征。通过本申请提供的方案训练后的目标模型提取的图像特征对图像的 表征能力更好。
在一种可能的实施方式中,该方法还可以包括:根据第一图像的图像特征,预测第一 图像中的目标对象的至少一个属性。根据至少一个属性和预设标签之间的差异获取第二损 失值,预设标签是对第一文本进行分词预处理后获取的。根据第一损失值更新目标模型, 可以包括:根据第一损失值和第二损失值更新目标模型。为了加深利用文本特征对目标模 型提取图像特征的指导,在预测图像中包括的目标对象的多个属性时,利用文本中的关键 词作为预设标签进行多分类监督。使目标模型根据图像特征对文本描述的目标对象进行属 性预测时,预测结果(至少一个属性)更接近预设标签。
在一种可能的实施方式中,该方法还可以包括:根据第一图像的图像特征,预测第一 图像中的目标对象属于对象集合中各个目标对象的第一概率,对象集合可以包括多个训练 样本中全部图像中可以包括的目标对象。根据第一文本的文本特征预测第一文本用于描述 对象集合中各个目标对象的第二概率。根据第一概率和第二概率之间的差异获取第三损失 值。根据第一损失值更新目标模型,可以包括:根据第一损失值、第二损失值以及第三损 失值更新目标模型。为了更进一步的提升目标模型的性能,进一步提升目标模型提取的图 像特征对图像的表征能力,还可以使根据图像特征预测的分类结果和根据文本特征预测的 分类结果更接近。其中,分类结果是指预测的产品属于对象集合中各个目标对象的概率。 其中,对象集合是指全部训练样本中全部图像中包括的目标对象。
在一种可能的实施方式中,该方法还可以包括:根据第一概率和第一预设值之间的差 异,获取第四损失值,第一预设值指示预设的第一图像中的目标对象属于对象集合中各个 目标对象的概率。根据第二概率和第二预设值之间的差异,获取第五损失值,第二预设值 指示预设的第一文本用于描述对象集合中各个目标对象的概率。第一损失值更新目标模 型,可以包括:根据第一损失值、第二损失值、第三损失值、第四损失值以及第五损失值 更新目标模型。为了更进一步的提升目标模型的性能,进一步提升目标模型提取的图像特 征对图像的表征能力,还可以使根据图像特征预测的分类结果与图像中真实包括的目标对 象的分类更接近,还可以使根据文本特征预测的分类结果描述的对象与图像中真实包括的 目标对象的分类更接近。
在一种可能的实施方式中,该方法还可以包括:根据第一图像的图像特征和第二图像 的图像特征之间的差异获取第六损失值,第二图像和第一图像从不同角度展示相同的目标 对象。根据第一损失值更新目标模型,可以包括:根据第一损失值、第二损失值、第三损 失值、第四损失值、第五损失值以及第六损失值更新目标模型。为了更进一步的提升目标 模型的性能,进一步提升目标模型提取的图像特征对图像的表征能力,还可以使同款产品 的图像特征更加靠近,不同款产品的图像特征更远离。
在一种可能的实施方式中,该方法还可以包括:获取第一向量和第三向量之间的第一 距离,获取第一向量和第四向量之间的第二距离,第三向量用于指示第二图像的图像特征, 第四向量用于指示第三图像的图像特征,第三图像和第一图像中可以包括的目标对象不 同。根据第一距离和第二距离之间的差值与预设阈值的差异获取第七损失值。根据第一损 失值更新目标模型,可以包括:根据第一损失值、第二损失值、第三损失值、第四损失值、 第五损失值、第六损失值以及第七损失值更新目标模型。为了更进一步的提升目标模型的 性能,进一步提升目标模型提取的图像特征对图像的表征能力,使不同产品的图像特征具 有足够的区分性。
在一种可能的实施方式中,获取多个训练样本,可以包括:获取产品的第一目标图像、 产品的文本标题、产品的第二目标图像,第一目标图像来自于产品的提供者,第二目标图 像来自产品的购买者。将第一目标图像作为分割模型的输入,以获取分割结果,分割结果 指示产品在第一目标图像中的轮廓。根据分割结果提取第三目标图像的目标区域,第三目 标图像是通过将第一目标图像输入生成器中获取的,其中生成器在训练过程中利用了来自 产品的提供者提供的图像,以及来自产品的购买者提供的图像。对目标区域进行随机仿射 变换,以获取变换后的目标区域。将变换后的目标区域与预设背景进行组合,以获取第四 目标图像。获取第一类型的训练样本、第二类型的训练样本以及第三类型的训练样本,每 个第一类型的训练样本可以包括第一目标图像和文本标题,每个第二类型的训练样本可以 包括第二目标图像和文本标题,每个第三类型的训练样本可以包括第四目标图像和文本标 题。在这种实施方式中,在买家秀缺失的情况下,通过卖家秀生成大量的买家秀数据,使 得训练后的目标模型对于复杂的买家秀图像风格具有一定的鲁棒性,并且在一定程度上能 够缓解用户拍摄视角大角度变化造成的检索难度。
在一种可能的实施方式中,该方法还可以包括:根据目标模型提取的多个图像特征, 对哈希模型进行多次训练,以获取训练后的哈希模型,其中,多次训练中的任意一次训练, 可以包括:获取每个图像特征对应的哈希特征。对多个哈希特征进行聚类处理,以获取多 个聚类数据集。从多个哈希特征中获取第一哈希特征,第一哈希特征是多个哈希特征中的 任意一个。根据各个聚类数据集的聚类中心和第一哈希特征的相似性,从多个聚类数据集 中获取第一聚类数据集,多个聚类数据中第一聚类数据集的聚类中心和第一哈希特征的相 似性最高。根据第一聚类数据集的聚类中心和第一哈希特征的差异获取第八损失值。根据 第八损失值更新哈希模型。为了在提升图像检索精度的同时,还可以提升图像检索的速度, 降低对图像数据库的存储能力的要求,本申请提供的方案提供了一种端到端的设计,对哈 希特征和倒排码本进行联合的优化。
在一种可能的实施方式中,根据第一损失值更新目标模型,可以包括:根据第一损失 值、第二损失值、第三损失值、第四损失值、第五损失值、第六损失值、第七损失值以及第八损失值更新目标模型。
在一种可能的实施方式中,多次训练中的任意一次训练,还可以包括:对目标哈希特 征施加第一约束和第二约束,以获取更新后的目标哈希特征,目标哈希特征是根据上一次 更新后的哈希模型获取的哈希特征,第一约束为哈希特征中的第三预设值和第四预设值的 数目是平均的,第二约束为目标矩阵的第一对角线上的元素为第四预设值,目标矩阵中除 第一对角线之外的其他元素为第三预设值,目标矩阵中第i行第j列的元素表示多个目标 元素的平均值,多个目标元素表示各个哈希特征的第i个维度的取值和各个哈希特征各自 的第j个维度的取值的乘积,i和j为正整数。对目标哈希特征中每一维度的取值和第二 均值进行比较,第二均值是第三预设值和第四预设值的平均值。每一维度的取值小于第二 均值时,根据哈希特征的每一维度的取值和第三预设值之间的差异获取第九损失值。每一 维度的取值不小于第二均值时,根据哈希特征的每一维度的取值和第四预设值之间的差异 获取第九损失值。根据第八损失值更新哈希模型,可以包括:根据第八损失值和第九损失 值更新哈希模型。
本申请第二方面提供一种图像检索的方法,可以包括:获取待检索图像。通过目标模 型提取待检索图像的图像特征。根据待检索图像的图像特征从图像数据库中获取预测图 像,预测图像的图像特征和待检索图像的图像特征的相似度达到阈值。其中,目标模型是 通过第一损失值更新初始目标模型后获取的模型。初始目标模型可以是预先获取的模型。 第一损失值是通过第一向量和第二向量之间的差异获取的,第一向量的维度和第二向量的 维度相同,第一向量用于指示第一图像的图像特征,第二向量用于指示第一文本的文本特 征,第一图像是多个训练样本中任意一个训练样本中可以包括的图像,第一文本用于描述 第一图像中的目标对象,每个训练样本可以包括图像和文本,文本用于描述图像中的目标 对象。
在一种可能的实施方式中,目标模型具体是通过第一损失值和第二损失值更新初始目 标模型后获取的模型,第二损失值是根据至少一个属性和预设标签之间的差异获取的,至 少一个属性是根据第一图像的图像特征,预测的第一图像中的目标对象的至少一个属性。
在一种可能的实施方式中,目标模型具体是通过第一损失值、第二损失值以及第三损 失值更新初始目标模型后获取的,第三损失值是根据第一概率和第二概率之间的差异获取 的,第一概率是根据第一图像的图像特征,预测第一图像中的目标对象属于对象集合中各 个目标对象的概率,第二概率是根据第一文本的文本特征预测第一文本用于描述对象集合 中各个目标对象的概率。
在一种可能的实施方式中,目标模型具体是通过第一损失值、第二损失值、第三损失 值、第四损失值以及第五损失值更新初始目标模型后模型的,第四损失值是根据第一概率 和第一预设值之间的差异获取的,第一预设值指示预设的第一图像中的目标对象属于对象 集合中各个目标对象的概率,第五损失值是根据第二概率和第二预设值之间的差异获取 的,第二预设值指示预设的第一文本用于描述对象集合中各个目标对象的概率。
在一种可能的实施方式中,目标模型具体是根据第一损失值、第二损失值、第三损失 值、第四损失值、第五损失值以及第六损失值更新初始目标模型后获取的,第六损失值是 根据第一图像的图像特征和第二图像的图像特征之间的差异获取的,第二图像和第一图像 从不同角度展示相同的目标对象。
在一种可能的实施方式中,目标模型具体是根据第一损失值、第二损失值、第三损失 值、第四损失值、第五损失值、第六损失值以及第七损失值更新初始目标模型后获取的,第七损失值是通过第一距离和第二距离之间的差值与预设阈值的差异获取的,第一距离是根据第一向量和第三向量之间的距离,第二距离是第一向量和第四向量之间的距离,第三向量用于指示第二图像的图像特征,第四向量用于指示第三图像的图像特征,第三图像和第一图像中可以包括的目标对象不同。
在一种可能的实施方式中,多个训练样本可以包括第一类型的训练样本、第二类型的 训练样本以及第三类型的训练样本,每个第一类型的训练样本可以包括第一目标图像和文 本标题,每个第二类型的训练样本可以包括第二目标图像和文本标题,每个第三类型的训 练样本可以包括第四目标图像和文本标题,第一目标图像来自于产品的提供者,第二目标 图像来自产品的购买者,文本标题是产品的文本标题,第四目标图像是将变换后的目标区 域与预设背景进行组合后获取的,变换后的目标区域是对目标区域进行随机仿射变换后获 取的,目标区域是根据分割结果提取第三目标图像后获取的,第三目标图像是通过将第一 目标图像输入生成器中获取的,其中生成器在训练过程中利用了来自产品的提供者提供的 图像,以及来自产品的购买者提供的图像,分割结果是将第一目标图像作为分割模型的输 入后获取的结果,分割结果指示产品在第一目标图像中的轮廓。
在一种可能的实施方式中,该方法还可以包括:将待检索图像的图像特征输入至哈希 模型中,以获取所待检索图像的哈希特征。根据待检索图像的图像特征从图像数据库中获 取预测图像,可以包括:根据所待检索图像的哈希特征从图像数据库中获取预测图像,其 中哈希模型是通过第八损失值更新初始哈希模型后获取的,初始哈希模型是预先获取的。 第八损失值是根据第一聚类数据集的聚类中心和第一哈希特征的差异获取的,第一聚类数 据集的聚类中心是多个聚类数据中各个聚类数据集的聚类中心中和第一哈希特征的相似 性最高的聚类中心,多个聚类数据集是对多个哈希特征进行聚类处理后获取的,第一哈希 特征是多个哈希特征中的任意一个。
在一种可能的实施方式中,目标模型具体是根据第一损失值、第二损失值、第三损失 值、第四损失值、第五损失值、第六损失值、第七损失值以及第八损失值更新初始目标模型后获取的。
本申请第三方面提供一种训练模型的装置,可以包括:存储器,用于存储计算机可读 指令。与存储器耦合的处理器,用于执行存储器中的计算机可读指令从而执行如第一方面 所描述的方法。
本申请第四方面提供一种图像检索的设备,可以包括:存储器,用于存储计算机可读 指令。与存储器耦合的处理器,用于执行存储器中的计算机可读指令从而执行如第二方面 所描述方法。
本申请第五方面提供一种芯片系统,芯片系统可以包括处理器和通信接口,处理器通 过通信接口获取程序指令,当程序指令被处理器执行时实现第一方面所描述方法。
本申请第六方面提供一种芯片系统,芯片系统可以包括处理器和通信接口,处理器通 过通信接口获取程序指令,当程序指令被处理器执行时实现第二方面所描述方法。
本申请第七方面提供一种计算机可读存储介质,可以包括程序,当其被处理单元所执 行时,执行如第一方面所描述方法。
本申请第八方面提供一种计算机可读存储介质,可以包括程序,当其被处理单元所执 行时,执行如第二方面所描述方法。
本申请第九方面一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计 算机执行如第一方面所描述方法。
本申请第十方面提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使 得计算机执行如第二方面所描述方法。
本申请提供的方案利用文本特征指导图像特征的学习,提升通过目标模型提取的图像 特征对图像的表征能力。此外,还可以通过对文本进行预处理获取关键词,在预测图像中 包括的目标对象的多个属性时,利用文本中的关键词作为预设标签进行多分类监督,进一 步提升图像特征的表征能力。通过提升图像特征的表征能力,使图像特征能够更准确的表 示图像的特征,有利于提升根据图像特征进行图像检索的精度。
附图说明
图1为本申请实施例提供的方案的一种应用场景示意图;
图2为本申请实施例提供的方案的一种应用场景示意图;
图3为本申请实施例提供的一种训练模型的方法的流程示意图;
图4为申请实施例提供的一种目标模型的执行流程示意图;
图5为申请实施例提供的获取均衡的训练样本集合的流程示意图;
图6为循环生成式对抗网络的结构示意图;
图7为申请实施例提供的另一种目标模型的执行流程示意图;
图8为申请实施例提供的另一种目标模型的执行流程示意图;
图9为申请实施例提供的另一种目标模型的执行流程示意图;
图10为本申请实施例提供的一种图像检索方法的流程示意图;
图11为本申请实施例提供的方案的一种应用场景示意图;
图12为本申请实施例提供的方案的一种应用场景示意图;
图13为本申请实施例提供的一种训练装置的框图;
图14为本申请实施例提供的一种执行设备的框图。
具体实施方式
本申请实施例提供了一种训练模型的方法、图像检索的方法以及装置。通过本申请实 施例提供的方案,可以提升图像检索的精度、图像检索的速度,降低对图像数据库存储空 间的要求。本申请提供的方案,尤其可以提升商品图像检索的精度、商品图像检索的速度, 以及降低对商品图像数据库存储空间的要求。
为了更好的理解本申请提供的方案,下面首先对本申请提供的方案可能适用的典型场 景进行介绍。
如图1所示,为本申请实施例提供的方案的一种应用场景示意图。本申请提供的方案 的一种典型的应用场景为通过拍照进行产品检索。当用户遇到心仪的产品时,可以通过手 机等终端设备对该产品进行拍照,终端设备可以根据获取到的图像执行图像检索任务,或 者终端设备和其他设备(比如云端服务器)共同执行图像检索任务后,可以向用户展示该 产品的同款产品的链接。用户可以对展示的至少一款同款产品进行挑选和购买。
以终端设备和云端服务器共同执行图像检索任务为例,对图像检索任务进行解释。终 端获取到产品的图像后,可以将该图像上传至云端服务器。云端服务器提取该图像的图像 特征后,根据提取的图像特征对图像数据库中存储的数据进行检索,以获取该产品的同款 产品,并将同款产品的链接发送至终端上。
目前,产品图像检索至少存在以下困境:
(一)检索精度难以提升
由于图像数据库中往往包括大量的相似产品,各个相似产品在外观上的差异很小,给 产品检索带来很大的挑战。比如,参照图2进行理解,假设图2中的a是用户输入的产品 图像。由于图2中的b展示的首饰和图2中的a展示的首饰在外观上十分相似,当执行了图像检索任务后,可能优先向用户展示图2中的b对应的产品。此外,用户拍摄的产品图 像与图像数据库中存储的产品的图像可能有很大的差异。比如针对于同一款产品,用户拍 摄的产品图像是图2中的a,图像数据库中存储的产品图像是图2中的c,由于二者之间 的差异,导致在执行图像检索任务时,检索精度低,难以根据图2中的a从图像数据库中 检索到图2中的c。其中差异可以理解为拍摄角度不同,拍摄环境不同等等。
(二)检索速度难以提升
对于一些大规模的图像检索系统,其中包括了大量的产品类目和产品图像。当需要从 这些大规模的图像检索系统中检索需要的图像中,往往需要耗费大量的时间。检索时间过 长,影响用户的体验,因此如何针提升图像检索的速度,特别是提升大规模的图像检索系 统的检索速度亟待解决。
(三)对图像数据库的存储能力要求高
提取的图像的图像特征一般是浮点型数据,为了降低对图像数据库的存储能力的要 求,可以对图像特征进行转换,比如将浮点型数据转换为二值哈希值。在一种可能的实现 方式中,可以通过对图像特征进行哈希处理,以获取哈希特征。图像数据库中存储的是各 个图像的哈希特征。通过这样的方式,可以在一定程度上降低对图像数据库的存储能力的 要求。然而,对图像特征进行哈希处理,导致图像的表示精度下降,这会带来误差。此外,为了加快检索速度、执行图像检索任务时需要利用倒排码本,而利用倒排码本会再次引入误差。具体的,对多个哈希特征进行聚类处理,以获取多个聚类数据集,多个聚类数据集 中的每一个聚类数据集都对应有一个聚类中心,可以将聚类中心理解为一个聚类数据集中包括的全部哈希特征的平均值。全部聚类数据集的全部聚类中心的集合称为倒排码本。在执行图像检索的任务时,获取图像的哈希特征,根据该图像的哈希特征从倒排码本中查找和该哈希特征相似度最高的一个或者多个聚类中心,获取该相似度最高的一个或者多个聚类中心对应的聚类数据集,从该聚类数据集中包括的哈希特征中查找输入图像中包括的同款产品。这种方式,在执行图像检索的任务时,只会对某一个或某几个聚类数据集中包括的哈希特征进行检索,对于其他聚类数据集中包括的哈希特征不再进行检索。如果输入图像中包括的同款产品在其他聚类数据中,通过这种方式将无法检索到同款产品。因此这种方式,虽然能够降低对图像数据库的存储能力的要求,但是也带来了很大的误差,导致检索精度的下降或者检索效率低。为了解决上述问题,本申请实施例提供了一种模型训练的方法,以及图像检索的方法。通过本申请提供的方案可以在提升检索的精度、检索的效率的同时,降低对图像数据库的存储能力的要求。
为了便于更好的理解本申请,下面具体阐述本申请所描述的技术方案的研究思路:
针对于上述提到的(一)中的检索精度难以提升的问题,一般是因为训练样本集合存 在数据不均衡的问题。具体的,来自用户提供的图像和来自产品提供者提供的图像是不均 衡的。举例说明,通常可以采用爬虫技术爬取购物类的网页,获取用户提供的图像和来自 产品提供者提供的图像。其中,本申请有时也将用户提供的图像称为来自产品购买者提供 的图像,或者称为买家秀,他们表示相同的意思。本申请有时也将产品提供者提供的图像 称为卖家秀,二者表示相同的意思。其中,一般可以通过爬取产品的评论区获取买家秀,在一些场景中,可能某些产品的评论区没有买家秀,或者买家秀与产品无关,导致针对于这些产品存在买家秀缺失的问题。基于这些问题,导致获取到的买家秀和卖家秀是不均衡的,由获取到的买家秀和卖家秀组成的训练样本集合则是不均衡的训练样本集合。通过不均衡的训练样本集合去训练模型,会使训练后的模型无法很好的提取图像特征。比如,训练数据集中没有足够数量的买家秀,导致模型在训练过程中,无法很好的学习买家秀图像特征的提取。当应用训练后的模型执行图像检索任务时,如果提取的买家秀的图像特征不理想,会影响检索的精度。所以为了能够提升图像检索的精度,应当尽量使训练样本集合是均衡的,换句话说,应当使训练样本集合中卖家秀和买家秀的数据是均衡的。此外,针 对上述提到的(一)中的检索精度难以提升的问题,还可能是因为相似产品过多。针对这 一问题,其中一种方式为对相似产品进行人工标注,使每个产品有更精准的标签或者属性。 然而这种方式,需要投入大量的人力和物力,获取训练样本的周期长,不利于图像检索系 统的快速上线。基于这些考虑,本申请提供的方案通过卖家秀生成买家秀,对生成的买家 秀根据本申请提供的方案进行进一步的处理,获取大量的接近真实买家秀的图像。通过这 种方式,有效的解决了训练样本集合中买家秀数据缺失或者买家秀和产品不匹配的问题, 使训练样本集合是均衡的。此外,本申请提供的方案,获取产品的文本描述,比如获取卖 家设置的产品的标题。通过在同构空间内减少同款产品的图像特征和文本特征的差异,达 到通过文本特征指导模型训练的目的,使模型提取的图像特征更理想,可以更好的表达产 品的特征。此外,本申请提供的方案不需要人工标注,本申请提供的方案可以利用产品的 文本描述获取关键词,通过关键词作为产品的标注。通过这些设计可以进一步提升图像检 索的精度。
针对于上述提到的(二)中的检索速度难以提升的问题以及(三)中的对图像数据库 的存储能力要求高的问题,可以通过(三)中提到的方式来解决。当通过哈希特征表示图像特征时,表示图像的单位所需要占据的存储空间更小了,进而可以提升检索速度,也会降低对图像数据库的存储能力的要求。其中表示图像的单位可以理解为包括图像特征和哈希特征。然而上文也提到了(三)中的方式会导致多次引入误差的问题,导致检索精度下 降的问题,所以本申请提供的方案是一种端到端的设计,对哈希特征和倒排码本进行联合 的优化。
基于上面的研究思路,下面对本申请提供的技术方案进行具体的介绍。
以下将从训练侧和应用侧两个方面对本申请提供的方案进行介绍,首先从训练侧对本 申请提供的方案进行介绍。
(一)模型的训练
参阅图3,为本申请实施例提供的一种训练模型的方法的流程示意图。
如图3所示,本申请实施例提供的一种训练模型的方法,可以包括以下步骤:
301、获取多个训练样本。
每个训练样本包括图像和文本,文本用于描述图像中的目标对象。换句话说,每个训 练样本中包括两种类型的数据,分别是图像数据和文本数据,并且文本数据用于描述图像 数据中的目标对象。其中目标对象可以是一个也可以是多个。此外,本申请中的目标对象 是产品。比如训练样本1中包括图像1和文本1,其中图像1中包括人和衣服,其中目标 对象是衣服,文本可以是“短款白色羽绒服2020年新款亮面洋气轻薄高端爆款”。再比 如,训练样本2中包括图像2和文本2,其中图像2中包括筷子、叉子、碗和盘子,其中 目标对象包括筷子、叉子、碗和盘子,文本可以是“轻奢金边骨瓷碗碟套装家用景德镇碗 筷组合餐具乔迁之礼”。
本申请提供的方案可以通过多种途径获取多个训练样本。比如,可以通过爬虫工具爬 取包括购物信息的互联网网页,以多个训练样本。再比如,可以通过已有的公开的数据集 获取多个训练样本。
302、将多个训练样本输入目标模型中,以使目标模型执行步骤3021至步骤3023。
3021、提取第一图像的图像特征和第一文本的文本特征。
第一图像是多个训练样本中任意一个训练样本中包括的图像,第一文本用于描述第一 图像中的目标对象。本领域的技术人员可以根据需求,选择不同的图像特征提取模型提取 各个训练样本中的图像的图像特征,比如可以采用Resnet50或者SEResnet50提取图像特 征。本领域的技术人员可以根据需求,选择不同的本文特征提取模型提取各个训练样本中 的文本的文本特征,比如可以采用GPT模型提取文本特征。在一个优选的实施方式中,可 以采用Efficient-NetB3模型提取各个训练样本中的图像的图像特征。在一个优选的实施 方式中,可以采用Bert模型提取各个训练样本中的文本的文本特征。
3022、根据第一向量和第二向量之间的差异获取损失值1。
将图像特征和文本特征转换为相同维度的向量。比如将第一图像的图像特征通过第一 向量进行表示,将第一文本的文本特征通过第二向量进行表示。即第一向量用于指示第一 图像的图像特征,第二向量用于指示第一文本的文本特征,第一向量的维度和第二向量的 维度相同。根据第一向量和第二向量之间的差异获取损失值1。示例性的,下面公式1-1 给出一种损失值1的计算公式:
其中,n表示训练样本的总数目,ui表示第i个样本中的图像特征对应的向量,vj表示第j个样本中的文本特征对应的向量,αi,j表示第i个样本中的图像特征对应的向量和第j个样本中的文本特征对应的向量之间的距离。
3023、根据损失值1更新目标模型。
本申请提供的方案通过在同构空间内减少图像特征与文本特征的差异性。由于模型的 训练过程是不断的降低损失值的过程,当通过损失值1更新目标模型时,损失值1不断减 小,则同一个产品的图像特征对应的向量和文本特征对应的向量之间的距离也会更靠近。 相比于只通过图像特征对目标模型进行训练,本申请提供的方案在目标模型的训练过程 中,融合了文本特征。通过本申请提供的方案训练后的目标模型提取的图像特征对图像的 表征能力更好。
为了更进一步的提升目标模型的性能,进一步提升目标模型提取的图像特征对图像的 表征能力,还可以使同款产品的图像特征更加靠近,不同款产品的图像特征更远离,同款 产品的文本特征更加靠近,不同款产品的文本特征更加远离。因此,在一个可能的实施方 式中,本申请提供的方案还可以引入损失值2和损失值3。其中,损失值2用于表示同款产品的图像特征之间的差异,损失值3用于表示同款产品的文本特征之间的差异。比如, 根据第一图像的图像特征和第二图像的图像特征之间的差异获取损失值2,第二图像和第 一图像从不同角度展示相同的目标对象,即第二图像和第一图像中包括的目标对象是同 款。其中不同角度可以理解为不同视角、不同属性等等。比如第一图像和第二图像中的目 标对象是同款体重秤,第一图像从俯视角度展示了该款体重秤,第二图像从侧视角度展示 了该款体重秤;假设该款体重秤包括银色和金色,第一图像展示了银色的该款体重秤,第 二图像展示了金色的该款体重秤。示例性的,损失2可以参照公式1-2进行理解,损失值 3可以参照公式1-3进行理解。
其中,n表示训练样本的总数目,ui表示第i个样本中的图像特征对应的向量,uj表示第i个样本中的图像特征对应的向量,βi,j表示第i个样本中的图像特征对应的向量和第j个样本中的图像特征对应的向量之间的距离。
其中,n表示训练样本的总数目,vi表示第i个样本中的文本特征对应的向量,vj表示第i个样本中的文本特征对应的向量,γi,j表示第i个样本中的文本特征对应的向量和第j个样本中的文本特征对应的向量之间的距离。
因此在图3对应的实施例的基础上,在一个可能的实施方式中,可以根据损失值1和 损失值2更新目标模型,则总的损失是J1和J2之和;在一个可能的实施方式中,可以根据损失值1、损失值2以及损失值3更新目标模型,则总的损失是J1、J2以及J3之和。
为了更进一步的提升目标模型的性能,进一步提升目标模型提取的图像特征对图像的 表征能力,还可以使根据图像特征预测的分类结果和根据文本特征预测的分类结果更接 近。其中,分类结果是指预测的产品属于对象集合中各个目标对象的概率。其中,对象集 合是指全部训练样本中全部图像中包括的目标对象。在一个可能的实施方式中,根据第一 图像的图像特征,预测第一图像中的目标对象属于对象集合中各个目标对象的第一概率, 对象集合包括多个训练样本中全部图像中包括的目标对象。根据第一文本的文本特征预测 第一文本用于描述对象集合中各个目标对象的第二概率。根据第一概率和第二概率之间的 差异获取损失值4。举例说明,假设训练样本包括训练样本1,训练样本2以及训练样本3, 其中,训练样本1包括图像1和文本1,训练样本2包括图像2和文本2,训练样本3包 括图像3和文本3。其中,图像1包括目标对象电饭煲,文本1为“B品牌电饭煲家用4L 智能大容量多功能饭锅3-4人”;图像2包括目标对象高压锅,文本2为“A品牌电压力 锅家用智能5L电高压锅多功能全自动”;图像3包括目标对象加热饭盒,文本3为“C品 牌加热电饭盒便当盒”。在这个例子中,对象集合包括全部图像中包括的目标对象,则对 象集合包括电饭煲、电压力锅以及加热饭盒。假设当前目标模型提取训练样本1中包括的 图像的图像特征和文本的文本特征,即提取图像1的图像特征和文本1的文本特征。假设 根据图像1的图像特征预测图像1中的目标对象属于电饭煲的概率是0.6,属于电压力锅 的概率是0.3,属于加热饭盒的概率是0.1;假设根据文本1的文本特征预测文本1描述 的目标对象属于电饭煲的概率是0.9,描述的目标对象属于电压力锅的概率是0.1,描述 的目标对象属于加热饭盒的概率是0。则使根据图像特征预测的分类结果和根据文本特征 预测的分类结果更接近,同时也是根据文本特征预测的分类结果和根据图像特征预测的分 类结果更接近。以使根据图像特征预测的分类结果和根据文本特征预测的分类结果更接近 为例进行说明,是使根据图像1的图像特征预测图像1中的目标对象属于电饭煲的概率, 接近根据文本1的文本特征预测文本1描述的目标对象属于电饭煲的概率,根据图像1的 图像特征预测图像1中的目标对象属于电压力锅的概率,接近根据文本1的文本特征预测 文本1描述的目标对象属于电压力锅的概率,根据图像1的图像特征预测图像1中的目标 对象属于加热饭盒的概率,接近根据文本1的文本特征预测文本1描述的目标对象属于加 热饭盒的概率。通过损失值4对目标模型进行更新后,下一次根据图像特征预测的分类结 果和根据文本特征预测的分类结果可能更接近。比如,通过多轮迭代训练之后,当前目标 模型提取第100个样本中包括的图像(为了区分,以下称为图像100)的图像特征(为了 区分,以下称为图像特征100)和文本的文本特征(为了区分,以下称为文本特征100), 由于已经经过了多轮迭代训练,根据图像特征预测的分类结果和根据文本特征预测的分类 结果可能更接近,则这一次的预测结果可能是根据图像特征100预测图像100中的目标对 象属于电饭煲的概率是0.9,属于电压力锅的概率是0,属于加热饭盒的概率是0;根据文 本特征100预测图像100中描述的目标对象象属于电饭煲的概率是0.9,属于电压力锅的 概率是0,属于加热饭盒的概率是0,在这个例子中,通过损失值4更新目标模型,进行 多次迭代训练,根据图像特征预测的分类结果和根据文本特征预测的分类结果已经相同。
在一个优选的实施方式中,本申请提供的方案可以使用双向的KL散度使根据图像特 征预测的分类结果和根据文本特征预测的分类结果更接近,示例性的,可以参照公式1-4 进行理损失值4。
其中,predimg表示根据图像特征预测的产品属于对象集合中一个目标对象的概率, ptext表示根据文本特征预测的描述的产品属于对象集合中该一个目标对象的概率。
因此,在图3对应的实施例的基础上,在一个可能的实施方式中,可以根据损失值1、 损失值4更新目标模型,则总的损失是J1和J4之和。需要说明的是,本申请提供的方案中任意两个可能的实施方式都可以进行结合,以下对此不再重复赘述。比如,在一个可能的实施方式中,可以根据损失值1、损失值2以及损失4更新目标模型,则总的损失是J1、 J2以及J4之和,在一个可能的实施方式中,可以根据损失值1、损失值2、损失值3以及 损失4更新目标模型,则总的损失是J1、J2、损失值3以及J4之和。
为了更进一步的提升目标模型的性能,进一步提升目标模型提取的图像特征对图像的 表征能力,还可以使根据图像特征预测的分类结果与图像中真实包括的目标对象的分类更 接近,还可以使根据文本特征预测的分类结果描述的对象与图像中真实包括的目标对象的 分类更接近。在一个可能的实施方式中,根据第一图像的图像特征,预测第一图像中的目 标对象属于对象集合中各个目标对象的第一概率,对象集合包括多个训练样本中全部图像 中包括的目标对象。根据第一文本的文本特征预测第一文本用于描述对象集合中各个目标 对象的第二概率。根据第一概率和第一预设值之间的差异,获取损失值5,第一预设值指 示预设的第一图像中的目标对象属于对象集合中各个目标对象的概率。根据第二概率和第 二预设值之间的差异,获取损失值6,第二预设值指示预设的第一文本用于描述对象集合 中各个目标对象的概率。举例说明,假设训练样本包括训练样本1,训练样本2以及训练 样本3,其中,训练样本1包括图像1和文本1,训练样本2包括图像2和文本2,训练样 本3包括图像3和文本3。其中,图像1包括目标对象A品牌第一款电饭煲,文本1为“A 品牌电饭煲家用智能迷你1.6L压力电饭锅单人小型宿舍”;图像2包括目标对象A品牌 的第二款电饭煲,文本2为“A品牌电饭煲4L家用智能多功能饭煲5人”;图像3包括目 标对象C品牌的一款电饭煲,文本3为“B品牌小饭煲1.6L电饭煲智能迷你电饭锅”。则 对象集合包括A品牌第一款电饭煲、A品牌的第二款电饭煲以及C品牌的一款电饭煲。假 设当前目标模型提取训练样本1中包括的图像的图像特征和文本的文本特征,即提取图像 1的图像特征和文本1的文本特征。假设根据图像1的图像特征预测图像1中的目标对象 属于A品牌第一款电饭煲是0.6,属于A品牌的第二款电饭煲的概率是0,属于C品牌的 一款电饭煲的概率是0.4;假设根据文本1的文本特征预测文本1中的目标对象属于A品 牌第一款电饭煲是0.7,属于A品牌的第二款电饭煲的概率是0,属于C品牌的一款电饭 煲的概率是0.3;由于图像1中真实包括的目标对象是A品牌的第一款电饭煲,则对于样 本1,则预设的图像1中的目标对象属于A品牌的第一款电饭煲的概率为1,属于A品牌 的第二款电饭煲的概率为0,属于C品牌的一款电饭煲的概率为0。在这次训练中根据0.6 和1之间的差异,0和0之间的差异,以及0.4和0之间的差异获取损失值5,在这次训 练中根据0.7和1之间的差异,0和0之间的差异,以及0.3和0之间的差异获取损失值6。通过损失值5和损失值6更新目标模型的目的在于,可以使经过多轮迭代训练之后, 根据图像特征预测的分类结果与图像中真实包括的目标对象的分类更接近,根据文本特征 预测的分类结果描述的对象与图像中真实包括的目标对象的分类更接近。比如,通过多轮 迭代训练之后,当前目标模型提取第100个样本中包括的图像(为了区分,以下称为图像 100)的图像特征(为了区分,以下称为图像特征100)和文本的文本特征(为了区分,以 下称为文本特征100)。假设图像100中真实包括的目标对象是A品牌的第一款电饭煲, 则对于第100个样本,预设的图像100中的目标对象属于A品牌的第一款电饭煲的概率为 1,属于A品牌的第二款电饭煲的概率为0,属于C品牌的一款电饭煲的概率为0。由于已 经经过了多轮迭代训练,根据图像特征预测的分类结果与图像中真实包括的目标对象的分 类更接近,根据文本特征预测的分类结果描述的对象与图像中真实包括的目标对象的分类 更接近。则这一次的预测结果可能是根据图像特征100预测图像100中的目标对象属于A 品牌的第一款电饭煲的概率为0.9,属于A品牌的第二款电饭煲的概率为0,属于C品牌 的一款电饭煲的概率为0.1。根据文本特征100预测描述的图像100中的目标对象属于A 品牌的第一款电饭煲的概率为0.9,属于A品牌的第二款电饭煲的概率为0,属于C品牌 的一款电饭煲的概率为0.1。在这个例子中,通过损失值5和损失值6更新目标模型,进 行多次迭代训练,根据图像特征预测的分类结果与图像中真实包括的目标对象的分类已经 很接近,根据文本特征预测的分类结果描述的对象与图像中真实包括的目标对象的分类也 已经很接近。其中损失值5和损失值6可以是交叉熵损失值或者其他类型的损失值。
因此,在一个可能的实施方式中,可以根据损失值1、损失5和损失值6更新目标模型,或者根据损失值1至损失值4中的多个损失值、损失值5以及损失值6更新目标模型, 比如根据损失值1只损失值6更新目标模型。
为了更进一步的提升目标模型的性能,进一步提升目标模型提取的图像特征对图像的 表征能力,还可以引入损失值7,使不同产品的图像特征具有足够的区分性。在一个可能 的实施方式中,获取第一向量和第三向量之间的第一距离,获取第一向量和第四向量之间 的第二距离,第三向量用于指示第二图像的图像特征,第四向量用于指示第三图像的图像 特征,第三图像和第一图像中包括的目标对象不同。本申请有时也将获取两个向量之间的 距离称为获取两个图像特征之间的距离,二者表示相同的意思,此外可以将图像特征看做 一个向量。根据第一距离和第二距离之间的差值与预设阈值的差异获取损失值7。举例说 明,假设同款商品两个不同图像a与p的特征距离(也是向量的距离)为d1,不同款商品的图像a与n的特征距离(也是向量的距离)为d2,根据损失值7更新模型的目的是使得 d2-d1>m,m是预设阈值,即同款商品的图像特征距离d1会更小,不同款商品的图像特征 距离d2会更大。示例性的,可以参照公式1-5进行理解损失值7J5:
在一个可能的实施方式中,可以根据损失值1和损失值7更新目标模型,或者根据损 失值1至损失6中多个损失值、损失值7更新目标模型,比根据损失值1至损失值7更新 目标模型。
为了加深利用文本特征对目标模型提取图像特征的指导,在预测图像中包括的目标对 象的多个属性时,利用文本中的关键词作为预设标签进行多分类监督。在一个可能的实施 方式中,根据第一图像的图像特征,预测第一图像中的目标对象的至少一个属性。根据至 少一个属性和预设标签之间的差异获取损失值8,预设标签是对第一文本进行分词预处理 后获取的。在一个可能的实施方式中,分词预处理包括分词操作和词频分析操作,具体的, 可以预先对各个训练样本中包括的各个文本进行分词处理,以获取多个备选关键词,再对 多个备选关键词进行词频分析操作,获取其中最能表示目标对象属性的备选关键词作为最 终的关键词,利用最终的关键词作为预设标签。举例说明,假设对文本“A品牌电饭煲家 用智能迷你1.6L压力电饭锅单人小型宿舍”进行分词处理后,获取备选关键词“A品牌”、 “电饭煲”、“家用”、“智能”、“迷你”、“1.6L”、“压力”、“电饭锅”、“单 人”、“小型”、“宿舍”。通过对这些备选关键词进行词频分析操作,可能从备选关键 词中筛选出最终关键词,假设最终关键词包括“A品牌”、“电饭煲”、“迷你”、“小 型”、“1.6L”、“电饭锅”。将这些最终关键词作为预设标签,根据图像特征对该文本 描述的目标对象进行属性预测时,预测结果(至少一个属性)应当尽量预测接近预设标签。 根据至少一个属性和预设标签之间的差异获取损失值8,根据损失值8对目标模型进行多 伦迭代训练后,可以使目标模型根据图像特征对文本描述的目标对象进行属性预测时,预 测结果(至少一个属性)更接近预设标签。
在一个可能的实施方式中,可以根据损失值1和损失值8对目标模型进行更新。在一 个可能的实施方式中,可以根据损失值1、损失值2和损失值8对目标模型进行更新。在一个可能的实施方式中,可以根据损失值1、损失值2、损失值3和损失值8对目标模型 进行更新。在一个可能的实施方式中。在一个可能的实施方式中,可以根据损失值1、损 失值2、损失值3、损失值4、以及损失值8对目标模型进行更新。在一个可能的实施方式 中,可以根据损失值1、损失值2、损失值3、损失值4、损失值5、损失值6以及损失值 8对目标模型进行更新。在一个可能的实施方式中,可以根据损失值1、损失值2、损失值 3、损失值4、损失值5、损失值6、损失值7以及损失值8对目标模型进行更新。
为了更好的理解本申请提供的方案,下面结合一个实施例对基于图3对应的实施例进 行优化的一个实施例进行梳理。如图4所示,为申请实施例提供的一种目标模型的执行流 程示意图。该目标模块可以包括两个特征提取模块,分别用于提取训练样本中图像的图像 特征以及训练样本中文本的文本特征。在同构空间内减少图像特征与文本特征的差异性, 参照损失值1进行理解。使同款产品的图像特征更加靠近,同款产品的文本特征更加靠近, 参照损失2和损失3进行理解。使根据图像特征预测的分类结果和根据文本特征预测的分 类结果更接近,参照损失值4进行理解。使根据图像特征预测的分类结果与图像中真实包 括的目标对象的分类更接近,使根据文本特征预测的分类结果描述的对象与图像中真实包 括的目标对象的分类更接近,参照损失值5和损失值6进行理解。使不同产品的图像特征 具有足够的区分性,参照损失值7进行理解。在预测图像中包括的目标对象的多个属性时, 利用文本中的关键词作为预设标签进行多分类监督根据至少一个属性和预设标签之间的 差异获取损失值8。根据上述损失值1至损失值8的总和获取总的损失值,根据总的损失 值更新目标模型。
由图3对应的实施例,以及基于图3对应的实施例进行优化的其他实施例可知,本申 请提供的方案利用文本特征指导图像特征的学习,提升通过目标模型提取的图像特征对图 像的表征能力。此外,还可以通过对文本进行预处理获取关键词,在预测图像中包括的目 标对象的多个属性时,利用文本中的关键词作为预设标签进行多分类监督,进一步提升图 像特征的表征能力。通过提升图像特征的表征能力,使图像特征能够更准确的表示图像的 特征,有利于提升根据图像特征进行图像检索的精度。
图3对应的实施例中介绍到本申请提供的方案可以通过多种途径获取多个训练样本。 其中,通过爬虫工具爬取包括购物信息的互联网网页,获取多个训练样本这种方案可能存 在噪声大的问题,还可能导致训练样本集合不均衡的问题。这些已经在研究思路中进行了 介绍,这里不再重复赘述。下面结合一个具体的实施例,对如何解决这些问题进行说明。
参阅图5,本申请实施例可以通过如下方法获取均衡的训练样本集合,具体的,如图 5所示,可以包括以下步骤:
501、获取产品的第一目标图像、产品的文本标题、产品的第二目标图像。
第一目标图像来自于产品的提供者,第二目标图像来自产品的购买者。换句话说,可 以将第一目标图像理解为产品的买家秀,将第二目标图像理解为卖家秀,产品的文本标题 可以理解卖家设置的产品的标题,比如“A品牌电饭煲家用智能迷你1.6L压力电饭锅单人 小型宿舍”。
502、将第一目标图像作为分割模型的输入,以获取分割结果。
通过对图像中每一个像素点进行前背景分类,确定每个点的类别,从而进行前景主体 区域划分。
本领域的技术人员可以根据需求选择不同的分割模型对第一目标图像进行分割处理, 以获取分割结果。在一个优选的实施方式中,该分割模型是Deeplab V3。分割结果可以指 示产品在第一目标图像中的轮廓。需要说明的是,由于卖家秀一般具有简单的背景,所有 采用通用的分割模型对卖家秀进行分割处理,就可以获取较好的分割效果。换句话说,本 申请中使用的分割模型不需要以大量真实的卖家秀作为训练数据,对分割模型进行训练, 本申请中使用的分割模型可以是通过其他类型的训练数据进行训练后得到的分割模型。
503、根据分割结果提取第三目标图像的目标区域,第三目标图像是根据第一目标图 像生成的。
根据第一目标图像可以生成第三目标图像。可以将第一目标图像看做源域数据中的一 个数据,将第三目标图像看做目标域数据中的一个数据,本领域的技术人员可以根据需求 采用不同的方式根据源域数据生成目标域数据。比如,在一个可能的实施方式中,参阅图 6,通过来自于产品的提供者提供的图像(源域数据)和来自产品的购买者提供的图像(目 标域数据)训练循环生成式对抗网络(cycle-generative adversarial network,cycle-GAN)。cycle-GAN由2个生成器(G,F)和2个判别器(DX,DY)组成。其中,生成器 G根据源域数据生成目标域数据,判别器DX要判别输入的是数据是真实的目标域数据,还 是根据生成的目标域数据。生成器F根据生成的目标域数据生成源域数据,判别器DY要 判别输入的数据是真实的源域数据,还是生成的源域数据。通过对抗训练,生成器G要尽 可能欺骗判别器DX,而生成器F要尽可能欺骗判别器DY,当判别器DX、DY不在有能力分 出真假时,可以认为训练完成,此时,将真实的源域数据输入生成器G,生成器G可以根 据输入的真实的源域数据生成目标域数据。在本申请提供的方案,将第一目标图像输入至 生成器G,生成器G可以根据第一目标图像生成第三目标图像。继续参阅图7,可以根据 目标对象的轮廓从第三目标图像中提取第三目标图像中的目标对象所在的区域。
504、对目标区域进行随机仿射变换,以获取变换后的目标区域。
为了增加生成的第三目标图像的多样性,可以对目标区域进行随机仿射变换。通过对 目标区域进行随机仿射变换,也可以获取更接近真实情况的买家秀。比如不同用户拍摄同 款产品的角度可能不同,拍摄环境可能不同,对目标区域进行随机仿射变换后,可以模拟 买家秀拍摄角度的差异。其中,对目标区域进行随机仿射变换可以理解为对目标区域进行 旋转、平移等操作。
505、将变换后的目标区域与预设背景进行组合,以获取第四目标图像。
其中,预设背景可以是从其他买家秀中提取的背景区域或者是随机收集的背景区域。 通过将预设背景区域和变换后的目标区域进行组合,以获取第四目标图像。
在一个可能的实施方式中,获取第一类型的训练样本、第二类型的训练样本以及第三 类型的训练样本,每个第一类型的训练样本包括第一目标图像和文本标题,每个第二类型 的训练样本第二目标图像和文本标题,每个第三类型的训练样本包括第四目标图像和文本 标题。
在一个可能的实施方式中,通过图5对应的实施例获取的训练样本也可以只包括图像 不包括文本。即每个第一类型的训练样本包括产品的购买者提供的图像,产品的提供者提 供的图像,以及根据图5所描述的方案根据产品的提供者提供的图像生成的图像。将这些 图像数据作为训练数据,去训练已有的图像特征提取模型,以执行后续的图像检索任务, 也可以提升图像的精度,将在下文通过实验数据进行说明。
通过图5对应的实施例的方案,在买家秀缺失的情况下,通过卖家秀生成大量的买家 秀数据,使得训练后的目标模型对于复杂的买家秀图像风格具有一定的鲁棒性,并且在一 定程度上能够缓解用户拍摄视角大角度变化造成的检索难度。
需要说明的是,图5对应的实施例可以作为一个单独的实施例,也可以和图3对应的 实施例进行结合。比如通过图5对应的实施例中获取的第一类型的训练样本、第二类型的 训练样本以及第三类型的训练样本作为图3对应的实施例中的多个训练样本。
此外,为了在提升图像检索精度的同时,还可以提升图像检索的速度,降低对图像数 据库的存储能力的要求,本申请提供的方案提供了一种端到端的设计,对哈希特征和倒排 码本进行联合的优化,以下结合一个具体的实施例对此进行说明。
参阅图7,为本申请实施例提供的一种训练模型的方法的流程示意图。
如图7所示,本申请实施例提供的一种训练模型的方法,可以包括以下步骤:
701、根据目标模型提取的多个图像特征,对哈希模型进行多次训练,以获取训练后 的哈希模型,其中,多次训练中的任意一次训练,包括步骤7011至步骤7015。
其中,目标模型可以参照图3对应的实施例中描述的目标模型进行理解,这里不再重 复赘述。
在一些可能的实施方式中,目标模型可能是已经训练好的目标模型,比如已经完成预 设次数的训练,或者目标模型已经收敛。在一些可能的实施方式中,目标模型也可能是还 没有训练好的目标模型。
7011、获取每个图像特征对应的哈希特征。
将目标模型提取的图像特征作为哈希模型的输入,以使哈希模型输出图像特征对应的 哈希特征。
7012、对多个哈希特征进行聚类处理,以获取多个聚类数据集。
比如根据多个哈希特征的大小将多个哈希特征划分为不同的组,使每一组包括的哈希 特征的大小是相近的。多个聚类数据集中的每一个聚类数据集都对应有一个聚类中心,可 以将聚类中心理解为一个聚类数据集中包括的全部哈希特征的平均值。全部聚类数据集的 全部聚类中心的集合称为倒排码本。
7013、从多个哈希特征中获取第一哈希特征,根据各个聚类数据集的聚类中心和第一 哈希特征的相似性,从多个聚类数据集中获取第一聚类数据集。
第一哈希特征是多个哈希特征中的任意一个。多个聚类数据中第一聚类数据集的聚类 中心和第一哈希特征的相似性最高。
7014、根据第一聚类数据集的聚类中心和第一哈希特征的差异获取损失值9。
7015、根据损失值9更新哈希模型。
为了同时优化倒排码本和哈希模型,本申请引入损失值9,对哈希模型进行迭代训练。 假设当前是对哈希模型进行第r次迭代训练,基于第r-1轮迭代获取的哈希模型对图像特 征进行哈希特征抽取,采用聚类的方式获取多个聚类数据集,根据该多个聚类数据集的聚 类中心的集合获得倒排码本C。计算各个聚类数据集的聚类中心,通过第i个样本的哈希特征和第一聚类数据集的聚类中心的差异获取损失值,通过该损失值更新哈希模型,以获取经过第r次迭代训练后获取的哈希模型。示例性的,可以参照公式1-6理解损失值9LC。
LC=||ui-ci*||2 (1-6)
其中,ui表示第i个样本的哈希特征,ci表示与ui最接近的聚类中心。
当哈希模型收敛了,或者训练次数到达预设数目时,可获得优化后的哈希特征模型和 倒排码本。本申请提供的方案将二者联合优化,端到端训练倒排码本和哈希特征。通过本 申请提供的方案,在执行图像检索的任务时,获取图像的哈希特征,根据该图像的哈希特 征从倒排码本中查找和该哈希特征相似度最高的聚类中心,获取该相似度最高的一个或者 多个聚类中心对应的聚类数据集,提升了从该聚类数据集中包括的哈希特征中查找输入图 像中包括的同款产品的概率,进而提升了图像检索的精度。
此外,步骤7011中提到将目标模型提取的图像特征作为哈希模型的输入,以使哈希 模型输出图像特征对应的哈希特征。在一个可能的实施方式中,通过对哈希模型的迭代训 练,以使图像特征通过二值化的向量(假设二值化的向量包括第三预设值和第四预设值) 进行表示,为了实现这一目的,本申请引入损失值10,可以参照公式1-7理解损失值10Lf。 图像数据库中存储的是各个图像的二值化的向量,可以在一定程度上降低对图像数据库的 存储能力的要求。此外,在一个可能的实施方式中应当使该二值化的向量中第三预设值和 第四预设值的数目是均衡的,以使二值化的向量可以表示更多的信息。这是因为二值化向 量全部都是第三预设值或者全部都是第四预设值时,表示的信息量少。为了实现这一目的, 本申请引入了第一约束,可以参照公式1-8理解第一约束Lb。此外,在一个可能的实施方 式中,还应当使二值化向量中的每个维度的取值是独立的,以使二值化的向量可以携带更 多的信息。为了实现这一目的,本申请引入了第二约束,可以参照公式1-9理解第二约束 Li。
结合上述分析,在一个可能的实施实施方式中,对哈希模型的任意一次训练,包括:
对目标哈希特征施加第一约束和第二约束,以获取更新后的目标哈希特征,目标哈希 特征是根据上一次更新后的哈希模型获取的哈希特征,第一约束为哈希特征中的第三预设 值和第四预设值的数目是平均的,第二约束为目标矩阵的第一对角线上的元素为第四预设 值,目标矩阵中除第一对角线之外的其他元素为第三预设值,目标矩阵中第i行第j列的 元素表示多个目标元素的平均值,多个目标元素表示各个哈希特征的第i个维度的取值和 各个哈希特征各自的第j个维度的取值的乘积。i和j为正整数。对目标哈希特征中每一 维度的取值和第二均值进行比较,第二均值是第三预设值和第四预设值的平均值。每一维 度的取值小于第二均值时,根据哈希特征的每一维度的取值和第三预设值之间的差异获取 损失值10。每一维度的取值不小于第二均值时,根据哈希特征的每一维度的取值和第四预 设值之间的差异获取损失值10。
其中,n表示训练样本的总数目,L表示哈希特征的长度(比如1024比特),也可以称为二值化向量的长度。a表示预设的参数,uij表示第i样本的哈希特征的第j个维度。
Lb=||UT1||1 (1-8)
其中,U表示哈希模型输出的哈希特征。
Li=||UTU-I||F (1-9)
其中,U表示哈希模型输出的哈希特征,I表示对角线上的元素为第四预设值,其余元 素为第三预设值的矩阵。其中,该对角线的一端是第一行第一列的元素,另一端是最后一 行最后一列的元素。
上文提到目标模型可能是已经训练好的目标模型,比如已经完成预设次数的训练,或 者目标模型已经收敛。目标模型也可能是还没有训练好的目标模型。在一种可能的实施方 式中,如果目标模型是已经训练好的目标模型,则根据损失值9和损失值10更新哈希模 型时,不再更新目标模型。在一种可能的实施方式中,如果目标模型还不是已经训练好的 目标模型,则根据损失值9和损失值10更新哈希模型时,还需要根据损失值9和损失值10更新目标模型。比如根据损失值1至损失值10更新目标模型。此外,通过损失值9和 损失值10更新哈希模型时,还可以通过损失值1至损失值8中的一个或者多个损失值一 起更新哈希模型。
需要说明的是,图7对应的实施例可以和其他实施例结合,也可以不和其他实施例进 行结合,作为一个单独的实施例。下面结合图8进行说明。参阅图8,为本申请实施例提供的一种训练模型的方法的流程示意图。在这种实施方式中,图7对应的实施例可以不和图3对应的实施例相结合,不利用文本特征指导图像特征的学习。在这种实施方式中,目 标模型的输入只包括图像,目标模型仅提取图像的图像特征。目标模型的输出的图像特征 作为哈希模型的输入,以使哈希模型将图像特征转换为预设维度的二值化向量。其中,根 据图像特征对哈希模型进行训练的过程中,还对倒排码本进行了联合的优化。关于如何同 时优化倒排码本和哈希模型,已经在上文图7对应的实施例进行了介绍,这里不再重复说 明,也可以结合图8进行理解。此外,在对哈希模型进行训练的过程中,还考虑了损失值 10、第一约束、第二约束,这里不再重复说明。在这种实施方式中,为了提升哈希模型提 取的图像的哈希特征对图像的表征能力,还可以使不同产品的哈希特征具有足够的区分 性,这里可以参照损失值7进行理解,即参照使不同的图像特征具有足够的区分性进行理 解,将损失值7的相关描述中的图像特征替换成哈希特征即可。此外,为了进一步提升目 标模型提取的哈希特征对图像的表征能力,还可以使根据哈希特征预测的分类结果与图像 中真实包括的目标对象的分类更接近,还可以使根据文本特征预测的分类结果描述的对象 与图像中真实包括的目标对象的分类更接近。这里可以参照损失值5和损失值6进行理解, 此处不再重复赘述,即将损失值5和损失值6中的相关描述中的图像特征替换成哈希特征 即可。
此外,各个实施例之间的组合方式可能有多种,下面结合图9进行说明。参阅图9,为本申请实施例提供的一种训练模型的方法的流程示意图。在这种实施方式中,图6对应的实施方式可以和图3对应的的实施例进行结合,以及和图5对应的实施例进行结合。如 图9所示,可以将根据图5所描述的方法获取的第一类型的训练样本、第二类型的训练样 本以及第三类型的训练样本作为目标模型的输入。在这种实施方式中,目标模型和哈希模 型可以同步训练,在一次迭代训练的过程中,目标模型可以提取训练样本的文本特征和图 像特征,并获取损失值1、损失值2、损失值3以及损失值4;目标模型提取的图像特征作 为哈希模型的输入,以使哈希模型将图像特征转换为预设维度的二值化向量(或者说哈希 特征)。此外,在对哈希模型进行训练的过程中,还考虑了损失值10、第一约束、第二约 束。在这种实施方式中,通过哈希特征获取分类损失和三元组损失,其中分类损失为了使 不同产品的哈希特征具有足够的区分性,这里可以参照损失值7进行理解,即参照使不同 的图像特征具有足够的区分性进行理解,将损失值7的相关描述中的图像特征替换成哈希 特征即可。三元组损失为了使根据哈希特征预测的分类结果与图像中真实包括的目标对象 的分类更接近,还可以使根据文本特征预测的分类结果描述的对象与图像中真实包括的目 标对象的分类更接近。这里可以参照损失值5和损失值6进行理解,此处不再重复赘述, 即将损失值5和损失值6中的相关描述中的图像特征替换成哈希特征即可。还可以利用文 本中的关键词作为预设标签进行多分类监督。在一个可能的实施方式中,根据第一图像的 哈希特征,预测第一图像中的目标对象的至少一个属性。根据至少一个属性和预设标签之 间的差异获取损失值,可以参照损失值8进行理解,将图像特征替换为哈希特征即可。
以上对如何训练模型进行了说明,下面对如何应用训练后的模型执行图像检索任务进 行说明。
(二)通过训练好的模型执行图像检索任务
参阅图10,为本申请实施例提供的一种图像检索方法的流程示意图。
如图10所示,本申请实施例提供的一种图像检索方法,可以包括以下步骤:
1001、获取待检索图像。
本申请提供的方案可以适用于通过拍照进行产品检索的场景。具体的,用户通过手机 等终端设备对该产品进行拍照,进行图像检索。本申请提供的方案可以通过终端设备获取 待检索的图像。
1002、通过目标模型提取待检索图像的图像特征。
通过图3所描述的模型训练方法训练得到的目标模型提取待检索图像的图像特征。其 中,目标模型的训练方法可以参照图3对应的实施例进行理解,这里不再重复赘述。
1003、根据待检索图像的图像特征从图像数据库中获取预测图像。
预测图像的图像特征和待检索图像的图像特征的相似度达到阈值。即检索的目的要获 取与待检索图像中包括的产品的同款产品或者相似产品,通过本申请实施例提供的方案, 可以使获取到的产品更多的是同款产品。图像数据库中存储了大量的图像特征或者哈希特 征。图像数据库中存储的图像特征或者哈希特征来自产品的提供者提供的图像。具体的, 将产品的提供者提供的图像输入至目标模型中,以获取各个产品的提供者提供的图像的图 像特征,图像数据库中保存各个产品的提供者提供的图像的图像特征。目标模型输出的图 像特征可以作为哈希模型的输入,以输出各个图像特征对应的哈希特征,则可以获取各个 产品的提供者提供的图像的哈希特征,图像数据库中包括各个产品的提供者提供的图像的 哈希特征。其中,哈希模型的训练过程已经上文进行了介绍,这里不再重复说明。当图像 数据库中保存的是图像的图像特征时,根据目标模型提取的待检索图像的图像特征从图像 数据库中获取预测图像。当图像数据库中保存的是图像的哈希特征时,还需要将目标模型 输出的图像特征输入至哈希模型中,以获取待检索图像的哈希特征,根据待检索图像的哈 希特征从图像数据库中获取预测图像。
通过本申请实施例提供的图像检索方法,可以有效提升图像检索的精度、图像检索的 速度。
通过本申请提供的方案执行图像检索任务,可以显著提升图像检索的精度、图像检索 的速度,在降低对图像数据库的存储能力的要求的基础上,不降低图像检索的精度。下面 结合几组实验数据对本申请提供的方案的性能进行展示。参照表1,实验过程,针对饰品 和玩具两个类型的产品进行测试。其中,产品数目代表测试数据集中包括的产品的总数目。 查询数量表示测试数据集中来自产品的购买者提供的图像的总数目,底裤数量表示测试数 据集中来自产品的提供者提供的图像的总数目。
表1:
表2为采用了本申请图5对应的方案获取的训练样本集合作为训练样本(只包括图像, 不包括文本的情况),对已有的图像提取模型进行训练后,执行图像检索任务后的Top1精度测试指标(Top1精度测试指标是指检索出的置信度最高的产品的精度)。由于通过卖家秀生成大量的买家秀数据,使得训练后的目标模型对于复杂的买家秀图像风格具有一定的鲁棒性,并且在一定程度上能够缓解用户拍摄视角大角度变化造成的检索难度。因此相比于传统方案,本申请提供的方案在饰品和玩具品类上的图像检索均有明显的精度提升,其中在饰品上提升显著,在饰品较大规模的测试集上有4.58%的精度提升。Top1指标越高,表示检索的精度越高,Top1精度指检索结果中置信度最高的结果和查询图像是否是同一款商品。如果一共10张查询图像,8张查询图像检索出的置信度最高的结果和查询图像是同款,那么Top1精度为8/10=80%。
表2
如图11所示,图11展示了通过传统方案进行图像检索任务后返回的同款产品的列表, 以及通过本方案进行图像检索任务后返回的同款产品的示意图。本申请提供的方案列表的 第一个产品(检索出的置信度最高的产品)即为输入产品的同款产品,而传统方案检索出 的置信度最高的产品并不是输入产品的同款产品。
表3展示了通过本申请提供的方案利用文本特征指导图像特征的学习后,在饰品和玩 具两个商品品类上的Top1精度测试指标增益;其中传统方法仅使用图像数据训练模型, 而本发明方法在模型训练过程中利用文本特征指导图像特征的学习。相比传统方法,利用 文本特征指导图像特征的学习后,在饰品和玩具品类上有明显的精度提升,其中在两个较 大规模测试集上分别提升了1.57%和0.53%。在这一基础上,本申请提供的方案还在饰品 上进一步测试了利用文本中的关键词作为预设标签进行多分类监督的方案,模型在饰品上 的精度有了更大的提升,相比传统方法最终提升了2.77%。
表3
如图12所示,在利用文本特征指导图像特征的学习之后,提升了模型在应对图像视 觉特征造成检索干扰时的鲁棒性,对于用户多变的拍摄条件有更好的适应性。例如,用户 在所要检索的玩具车上摆放了公仔,这对检索造成了非常大的干扰,如果只通过图像特征 进行检索,很容易检索出同样带有公仔的玩具车;而利用文本特征指导图像特征的学习之 后,有效地缓解了这一问题。
表4展示了通过本申请提供的哈希模型获取的哈希特征去执行图像检索任务,在9个 产品类目上的测试结果;本申请提供的方法将图像特征压缩了32倍(将1024维度32位浮点数的图像特征压缩至1024维度的二值哈希特征),而检索精度下降保持在2%以内, 在保证检索精度的同时大幅度减少了图像数据库的储存空间需求。同时在亿级产品底库检索任务中单张查询图像的检索时间在50ms左右,保证了图像检索的实时性。
表4
表5展示了本申请提供的方案在鞋子类产品的大规模测试,实现结果表明,本申请提供的方案在检 索精度、检索时间、对图像数据库存储性能的限制都比传统方案具有优势。
表5
mAP@10表示通过检索结果中前十个置信度最高的结果和查询图像是否是同一款商品 获取的精度。其中,倒排索引是一种利用了根据本申请提供的方案获取的倒排码本的一索 引方式。
以上对本申请实施例提供的一种训练模型的方法以及图像检索的方法进行了介绍,通 过本申请实施例提供的一种训练模型的方法获取的图像特征执行图像检索任务,可以有效 提升图像检索的精度、图像检索的速度、并且降低对图像数据库的存储性能的要求。
可以理解的是,可以通过训练装置执行上述训练模型的方法,通过执行设备执行上述 图像检索的方法。本申请有时也训练装置称为训练模型的装置,本申请有时也将执行设备 称为终端设备或者移动终端或者图像检索的设备。为了实现上述功能,训练装置和执行设 备包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识 到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,本申请能够以硬件或硬 件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式 来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应 用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
例如,可以通过图13中的训练装置来实现。图13所示为本申请实施例提供的训练装置 的硬件结构示意图。包括:通信接口1301和处理器1302,还可以包括存储器1303。
通信接口1301可以使用任何收发器一类的装置,用于与其他设备或通信网络通信,如 以太网,无线接入网(radio access network,RAN),无线局域网(wireless localarea networks,WLAN)等。
处理器1302包括但不限于中央处理器(central processing unit,CPU),网络处理 器(network processor,NP),专用集成电路(application-specific integratedcircuit, ASIC)或者可编程逻辑器件(programmable logic device,PLD)中的一个或多个。上述PLD 可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程 逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。处理器1302负责通信线路1304和通常的处理,还可以提供各种 功能,包括定时,外围接口,电压调节,电源管理以及其他控制功能。存储器1303可以用 于存储处理器1302在执行操作时所使用的数据。
存储器1303可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令 的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically er服务器able programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光 碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、 或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存 取的任何其他介质,但不限于此。存储器可以是独立存在,通过通信线路1304与处理器1302 相连接。存储器1303也可以和处理器1302集成在一起。如果存储器1303和处理器1302是相 互独立的器件,存储器1303和处理器1302相连,例如存储器1303和处理器1302可以通过通 信线路通信。通信接口1301和处理器1302可以通过通信线路通信,通信接口1301也可以与 处理器1302直连。
通信线路1304可以包括任意数量的互联的总线和桥,通信线路1304将包括由处理器 1302代表的一个或多个处理器1302和存储器1303代表的存储器的各种电路链接在一起。通 信线路1304还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在 一起,这些都是本领域所公知的,因此,本申请不再对其进行进一步描述。
在一个具体的实施方式中,该训练装置包括存储器和处理器,处理器获取存储器中存 储的指令,执行上述图3至图9中所描述的模型训练的方法。该训练装置还可以包括通信 接口,以通过通信接口和其他设备进行交互,比如通过通信接口获取训练样本。
在本申请实施例中,可以将通信接口视为接收模块或者发送模块或者收发模块,将处 理器视为处理模块,将存储器视为存储模块。
参见图14,是本申请实施例提供的一种执行设备的结构示意图。如图14所示,执行设备可以包括处理器1401、存储器1402、通信线路1403、通信接口1404,人工智能处理 器1405通过所述通信总线连接所述存储器1402和所述通信接口1404。
处理器1401可以是中央处理单元(central processing unit,CPU),该处理器1401 还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集 成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器1401可以是微处理器或者该处理器1401也可以是任 何常规的处理器等。
处理器1401还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的神经网络处理方法的各个步骤可以通过处理器1401中的硬件的集成逻辑电路或者软件形式的指令完成。
存储器1402可以是只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)或其他存储器。本申请实施例中,存储器1402用于存储数据以及各 种软件程序,例如本申请实施例中根据确定好的目标拆分路径对神经网络模型进行拆分的 程序等。
可选的,在本申请实施例中,所述存储器可以包括用于存储信息的物理装置,通常是 将信息数字化后再以利用电、磁或者光学等方法的媒体加以存储。本实施方式所述的存储 器又可以包括:利用电能方式存储信息的装置,如RAM、ROM等;利用磁能方式存储信息的装置,如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息 的装置,如CD或DVD。当然,还有其他方式的存储器,例如量子存储器、石墨烯存储器等 等。
通信接口1404使用例如但不限于收发器一类的收发装置,来实现执行设备与其他设 备或通信网络之间的通信。例如,可以通过通信接口1404接收其他设备发送的模型文件。
在一个具体的实施方式中,该执行设备包括存储器和处理器,处理器获取存储器中存 储的指令,执行上述图10中所描述的图像检索的方法。该训练装置还可以包括通信接口, 以通过通信接口和其他设备进行交互。
在本申请实施例中,可以将通信接口视为接收模块或者发送模块或者收发模块,将处 理器视为处理模块,将存储器视为存储模块。
应当理解,执行设备仅为本申请实施例提供的一个例子,并且,执行设备可具有比示 出的部件更多或更少的部件,可以组合两个或更多个部件,或者可具有部件的不同配置实 现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。 当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
应当理解,上述仅为本申请实施例提供的一个例子,并且,端侧设备可具有比示出的 部件更多或更少的部件,可以组合两个或更多个部件,或者可具有部件的不同配置实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。 当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
本申请实施例提供还提供一种芯片,该芯片包括:处理单元和通信单元,所述处理单 元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使芯片执行上述图3至图9中所描述的方法。或者以使芯片执行上述图10所描述的方法。可选地,所述存储单元为所述芯片内的 存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述 芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令 的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。具体地, 前述的处理单元或者处理器可以是中央处理器(central processing unit,CPU)、网络 处理器(neural-network processing unit,NPU)、图形处理器(graphics processing unit,GPU)、数字信号处理器(digital signal processor,DSP)、专用集成电路 (applicationspecific integrated circuit,ASIC)或现场可编程逻辑门阵列(field programmablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器 件、分立硬件组件等。通用处理器可以是微处理器或者也可以是任何常规的处理器等。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件 说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以 不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际 的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装 置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条 或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软 件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用 CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程 序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术 做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(read only memory,ROM)、随 机存取存储器(random access memory,RAM)、磁碟或者光盘等,包括若干指令用以使 得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施 例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。 当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用 于训练模型的程序,当其在计算机上运行时,使得计算机执行上述图3至图9中所描述的 方法。或者使得计算机执行上述图10中所描述的方法。
本申请实施例还提供一种数字处理芯片。该数字处理芯片中集成了用于实现上述处理 器,或者处理器的功能的电路和一个或者多个接口。当该数字处理芯片中集成了存储器时, 该数字处理芯片可以完成前述实施例中的任一个或多个实施例的方法步骤。当该数字处理 芯片中未集成存储器时,可以通过通信接口与外置的存储器连接。该数字处理芯片根据外 置的存储器中存储的程序代码来实现上述实施例中车辆执行的动作。
本申请实施例中还提供一种计算机程序产品,所述计算机程序产品包括一个或多个计 算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请 实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或 者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算 机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站 站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)) 或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心 进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一 个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介 质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态 硬盘SolidState Disk(SSD))等。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通 过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质 可以包括:ROM、RAM、磁盘或光盘等。
本申请的说明书和权利要求书及上述附图中的术语“第一”,“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种 关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情 况,另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,术语 “包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一 系列步骤或模块的过程,方法,系统,产品或设备不必限于清楚地列出的那些步骤或模块, 而是可包括没有清楚地列出的或对于这些过程,方法,产品或设备固有的其它步骤或模块。 在本申请中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示 的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要 实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。本申请中所 出现的模块的划分,是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例 如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外, 所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些端口,模块之间 的间接耦合或通信连接可以是电性或其他类似的形式,本申请中均不作限定。并且,作为 分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模 块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来 实现本申请方案的目的。
Claims (27)
1.一种训练模型的方法,其特征在于,包括:
获取多个训练样本,每个所述训练样本包括图像和文本,所述文本用于描述所述图像中的目标对象;
将所述多个训练样本输入目标模型中,以使所述目标模型执行下述流程,直至所述满足预设的停止条件:
提取第一图像的图像特征和第一文本的文本特征,所述第一图像是所述多个训练样本中任意一个所述训练样本中包括的图像,所述第一文本用于描述所述第一图像中的目标对象;
根据第一向量和第二向量之间的差异获取第一损失值,所述第一向量的维度和所述第二向量的维度相同,所述第一向量用于指示所述第一图像的图像特征,所述第二向量用于指示所述第一文本的文本特征;
所述根据所述第一损失值更新所述目标模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第一图像的图像特征,预测所述第一图像中的目标对象的至少一个属性;
根据所述至少一个属性和预设标签之间的差异获取第二损失值,所述预设标签是对所述第一文本进行分词预处理后获取的;
所述根据所述第一损失值更新所述目标模型,包括:
根据所述第一损失值和所述第二损失值更新所述目标模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述第一图像的图像特征,预测所述第一图像中的目标对象属于对象集合中各个目标对象的第一概率,所述对象集合包括所述多个训练样本中全部所述图像中包括的目标对象;
根据所述第一文本的文本特征预测所述第一文本用于描述对象集合中各个目标对象的第二概率;
根据所述第一概率和所述第二概率之间的差异获取第三损失值;
所述根据所述第一损失值更新所述目标模型,包括:
根据所述第一损失值、所述第二损失值以及所述第三损失值更新所述目标模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述第一概率和第一预设值之间的差异,获取第四损失值,所述第一预设值指示预设的所述第一图像中的目标对象属于对象集合中各个目标对象的概率;
根据所述第二概率和第二预设值之间的差异,获取第五损失值,所述第二预设值指示预设的所述第一文本用于描述对象集合中各个目标对象的概率;
所述根据所述第一损失值更新所述目标模型,包括:
根据所述第一损失值、所述第二损失值、所述第三损失值、所述第四损失值以及所述第五损失值更新所述目标模型。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述第一图像的图像特征和第二图像的图像特征之间的差异获取第六损失值,所述第二图像和所述第一图像从不同角度展示相同的目标对象;
所述根据所述第一损失值更新所述目标模型,包括:
根据所述第一损失值、所述第二损失值、所述第三损失值、所述第四损失值、所述第五损失值以及所述第六损失值更新所述目标模型。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取所述第一向量和第三向量之间的第一距离,获取所述第一向量和第四向量之间的第二距离,所述第三向量用于指示所述第二图像的图像特征,所述第四向量用于指示第三图像的图像特征,所述第三图像和所述第一图像中包括的目标对象不同;
根据所述第一距离和所述第二距离之间的差值与预设阈值的差异获取第七损失值;
所述根据所述第一损失值更新所述目标模型,包括:
根据所述第一损失值、所述第二损失值、所述第三损失值、所述第四损失值、所述第五损失值、所述第六损失值以及所述第七损失值更新所述目标模型。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述获取多个训练样本,包括:
获取产品的第一目标图像、所述产品的文本标题、所述产品的第二目标图像,所述第一目标图像来自于所述产品的提供者,所述第二目标图像来自所述产品的购买者;
将所述第一目标图像作为分割模型的输入,以获取分割结果,所述分割结果指示所述产品在所述第一目标图像中的轮廓;
根据所述分割结果提取第三目标图像的目标区域,所述第三目标图像是通过将所述第一目标图像输入生成器中获取的,其中所述生成器在训练过程中利用了来自所述产品的提供者提供的图像,以及来自所述产品的购买者提供的图像;
对所述目标区域进行随机仿射变换,以获取变换后的所述目标区域;
将所述变换后的目标区域与预设背景进行组合,以获取第四目标图像;
获取第一类型的训练样本、第二类型的训练样本以及第三类型的训练样本,每个所述第一类型的训练样本包括所述第一目标图像和所述文本标题,每个所述第二类型的训练样本包括所述第二目标图像和所述文本标题,每个所述第三类型的训练样本包括所述第四目标图像和所述文本标题。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:
根据所述目标模型提取的多个图像特征,对哈希模型进行多次训练,以获取训练后的所述哈希模型,其中,所述多次训练中的任意一次训练,包括:
获取每个所述图像特征对应的哈希特征;
对多个所述哈希特征进行聚类处理,以获取多个聚类数据集;
从多个所述哈希特征中获取第一哈希特征,所述第一哈希特征是所述多个哈希特征中的任意一个;
根据各个所述聚类数据集的聚类中心和所述第一哈希特征的相似性,从所述多个聚类数据集中获取第一聚类数据集,所述多个聚类数据中所述第一聚类数据集的聚类中心和所述第一哈希特征的相似性最高;
根据所述第一聚类数据集的聚类中心和所述第一哈希特征的差异获取第八损失值;
根据所述第八损失值更新所述哈希模型。
9.根据权利要求8所述的方法,其特征在于,所述根据所述第一损失值更新所述目标模型,包括:
根据所述第一损失值、所述第二损失值、所述第三损失值、所述第四损失值、所述第五损失值、所述第六损失值、所述第七损失值以及所述第八损失值更新所述目标模型。
10.根据权利要求8或9所述的方法,其特征在于,所述多次训练中的任意一次训练,还包括:
对目标哈希特征施加第一约束和第二约束,以获取更新后的所述目标哈希特征,所述目标哈希特征是根据上一次更新后的所述哈希模型获取的哈希特征,所述第一约束为所述哈希特征中的第三预设值和第四预设值的数目是平均的,所述第二约束为目标矩阵的第一对角线上的元素为所述第四预设值,所述目标矩阵中除所述第一对角线之外的其他元素为所述第三预设值,所述目标矩阵中第i行第j列的元素表示多个目标元素的平均值,所述多个目标元素表示各个所述哈希特征的第i个维度的取值和各个所述哈希特征各自的第j个维度的取值的乘积,所述i和所述j为正整数;
对所述目标哈希特征中每一维度的取值和第二均值进行比较,所述第二均值是所述第三预设值和所述第四预设值的平均值;
所述每一维度的取值小于所述第二均值时,根据所述哈希特征的每一维度的取值和所述第三预设值之间的差异获取第九损失值;
所述每一维度的取值不小于所述第二均值时,根据所述哈希特征的每一维度的取值和所述第四预设值之间的差异获取第九损失值;
所述根据所述第八损失值更新所述哈希模型,包括:
根据所述第八损失值和所述第九损失值更新所述哈希模型。
11.一种图像检索的方法,其特征在于,包括:
获取待检索图像;
通过目标模型提取所述待检索图像的图像特征;
根据所述待检索图像的图像特征从图像数据库中获取预测图像,所述预测图像的图像特征和所述待检索图像的图像特征的相似度达到阈值;
其中,所述目标模型是通过第一损失值更新初始目标模型后获取的模型,所述第一损失值是通过第一向量和第二向量之间的差异获取的,所述第一向量的维度和所述第二向量的维度相同,所述第一向量用于指示第一图像的图像特征,所述第二向量用于指示第一文本的文本特征,所述第一图像是多个训练样本中任意一个所述训练样本中包括的图像,所述第一文本用于描述所述第一图像中的目标对象,每个所述训练样本包括图像和文本,所述文本用于描述所述图像中的目标对象。
12.根据权利要求11所述的方法,其特征在于,所述目标模型具体是通过所述第一损失值和第二损失值更新所述初始目标模型后获取的模型,所述第二损失值是根据至少一个属性和预设标签之间的差异获取的,所述至少一个属性是根据所述第一图像的图像特征,预测的所述第一图像中的目标对象的至少一个属性。
13.根据权利要求12所述的方法,其特征在于,所述目标模型具体是通过所述第一损失值、所述第二损失值以及第三损失值更新所述初始目标模型后获取的,所述第三损失值是根据第一概率和第二概率之间的差异获取的,所述第一概率是根据所述第一图像的图像特征,预测所述第一图像中的目标对象属于对象集合中各个目标对象的概率,所述第二概率是根据所述第一文本的文本特征预测所述第一文本用于描述对象集合中各个目标对象的概率。
14.权利要求13所述的方法,其特征在于,所述目标模型具体是通过所述第一损失值、所述第二损失值、所述第三损失值、第四损失值以及第五损失值更新所述初始目标模型后模型的,所述第四损失值是根据所述第一概率和第一预设值之间的差异获取的,所述第一预设值指示预设的所述第一图像中的目标对象属于对象集合中各个目标对象的概率,所述第五损失值是根据所述第二概率和第二预设值之间的差异获取的,所述第二预设值指示预设的所述第一文本用于描述对象集合中各个目标对象的概率。
15.根据权利要求14所述的方法,其特征在于,所述目标模型具体是根据所述第一损失值、所述第二损失值、所述第三损失值、所述第四损失值、所述第五损失值以及第六损失值更新所述初始目标模型后获取的,所述第六损失值是根据所述第一图像的图像特征和第二图像的图像特征之间的差异获取的,所述第二图像和所述第一图像从不同角度展示相同的目标对象。
16.根据权利要求15所述的方法,其特征在于,所述目标模型具体是根据所述第一损失值、所述第二损失值、所述第三损失值、所述第四损失值、所述第五损失值、所述第六损失值以及第七损失值更新所述初始目标模型后获取的,所述第七损失值是通过第一距离和第二距离之间的差值与预设阈值的差异获取的,所述第一距离是根据所述第一向量和第三向量之间的距离,所述第二距离是所述第一向量和第四向量之间的距离,所述第三向量用于指示所述第二图像的图像特征,所述第四向量用于指示第三图像的图像特征,所述第三图像和所述第一图像中包括的目标对象不同。
17.根据权利要求11至16任一项所述的方法,其特征在于,所述多个训练样本包括第一类型的训练样本、第二类型的训练样本以及第三类型的训练样本,每个所述第一类型的训练样本包括所述第一目标图像和所述文本标题,每个所述第二类型的训练样本包括所述第二目标图像和所述文本标题,每个所述第三类型的训练样本包括所述第四目标图像和所述文本标题,所述第一目标图像来自于所述产品的提供者,所述第二目标图像来自所述产品的购买者,所述文本标题是所述产品的文本标题,所述第四目标图像是将变换后的目标区域与预设背景进行组合后获取的,所述变换后的目标区域是对所述目标区域进行随机仿射变换后获取的,所述目标区域是根据分割结果提取第三目标图像后获取的,所述第三目标图像是通过将所述第一目标图像输入生成器中获取的,其中所述生成器在训练过程中利用了来自所述产品的提供者提供的图像,以及来自所述产品的购买者提供的图像,所述分割结果是将所述第一目标图像作为分割模型的输入后获取的结果,所述分割结果指示所述产品在所述第一目标图像中的轮廓。
18.根据权利要求11至17任一项所述的方法,其特征在于,所述方法还包括:
将所述待检索图像的图像特征输入至哈希模型中,以获取所待检索图像的哈希特征;
所述根据所述待检索图像的图像特征从图像数据库中获取预测图像,包括:
根据所待检索图像的哈希特征从所述图像数据库中获取预测图像,其中所述哈希模型是通过第八损失值更新初始哈希模型后获取的,所述第八损失值是根据第一聚类数据集的聚类中心和第一哈希特征的差异获取的,所述第一聚类数据集的聚类中心是所述多个聚类数据中各个聚类数据集的聚类中心中和所述第一哈希特征的相似性最高的聚类中心,所述多个聚类数据集是对多个哈希特征进行聚类处理后获取的,所述第一哈希特征是所述多个哈希特征中的任意一个。
19.根据权利要求18所述的方法,其特征在于,所述目标模型具体是根据所述第一损失值、所述第二损失值、所述第三损失值、所述第四损失值、所述第五损失值、所述第六损失值、所述第七损失值以及所述第八损失值更新初始目标模型后获取的。
20.一种训练模型的装置,其特征在于,包括:
存储器,用于存储计算机可读指令;
与所述存储器耦合的处理器,用于执行所述存储器中的计算机可读指令从而执行如权利要求1至10任一项所描述的方法。
21.一种图像检索的设备,其特征在于,包括:
存储器,用于存储计算机可读指令;
与所述存储器耦合的处理器,用于执行所述存储器中的计算机可读指令从而执行如权利要求11至19任一项所描述的方法。
22.一种芯片系统,其特征在于,所述芯片系统包括处理器和通信接口,所述处理器通过所述通信接口获取程序指令,当所述程序指令被所述处理器执行时实现权利要求1至10中任一项所述的方法。
23.一种芯片系统,其特征在于,所述芯片系统包括处理器和通信接口,所述处理器通过所述通信接口获取程序指令,当所述程序指令被所述处理器执行时实现权利要求11至19中任一项所述的方法。
24.一种计算机可读存储介质,其特征在于,包括程序,当其被处理单元所执行时,执行如权利要求1至10中任一项所述的方法。
25.一种计算机可读存储介质,其特征在于,包括程序,当其被处理单元所执行时,执行如权利要求11至19中任一项所述的方法。
26.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得计算机执行如权利要求1至10中任一项所述的方法。
27.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得计算机执行如权利要求11至19中任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110132038.4A CN113159095B (zh) | 2021-01-30 | 2021-01-30 | 一种训练模型的方法、图像检索的方法以及装置 |
EP22745254.7A EP4273746A4 (en) | 2021-01-30 | 2022-01-26 | MODEL TRAINING METHOD AND APPARATUS, AND IMAGE RECOVERY METHOD AND APPARATUS |
PCT/CN2022/073923 WO2022161380A1 (zh) | 2021-01-30 | 2022-01-26 | 一种训练模型的方法、图像检索的方法以及装置 |
US18/361,011 US20230368505A1 (en) | 2021-01-30 | 2023-07-28 | Model training method, image retrieval method, and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110132038.4A CN113159095B (zh) | 2021-01-30 | 2021-01-30 | 一种训练模型的方法、图像检索的方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113159095A true CN113159095A (zh) | 2021-07-23 |
CN113159095B CN113159095B (zh) | 2024-04-30 |
Family
ID=76879104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110132038.4A Active CN113159095B (zh) | 2021-01-30 | 2021-01-30 | 一种训练模型的方法、图像检索的方法以及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230368505A1 (zh) |
EP (1) | EP4273746A4 (zh) |
CN (1) | CN113159095B (zh) |
WO (1) | WO2022161380A1 (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377437A (zh) * | 2021-08-11 | 2021-09-10 | 景网技术有限公司 | 一种智慧城市前端设备修复工作量分析方法和系统 |
CN113656373A (zh) * | 2021-08-16 | 2021-11-16 | 百度在线网络技术(北京)有限公司 | 构建检索数据库的方法、装置、设备以及存储介质 |
CN113792853A (zh) * | 2021-09-09 | 2021-12-14 | 北京百度网讯科技有限公司 | 字符生成模型的训练方法、字符生成方法、装置和设备 |
CN113962773A (zh) * | 2021-10-22 | 2022-01-21 | 广州华多网络科技有限公司 | 同款商品聚合方法及其装置、设备、介质、产品 |
WO2022161380A1 (zh) * | 2021-01-30 | 2022-08-04 | 华为技术有限公司 | 一种训练模型的方法、图像检索的方法以及装置 |
CN115050014A (zh) * | 2022-06-15 | 2022-09-13 | 河北农业大学 | 一种基于图像文本学习的小样本番茄病害识别系统及方法 |
CN115905608A (zh) * | 2022-11-15 | 2023-04-04 | 腾讯科技(深圳)有限公司 | 图像特征获取方法、装置、计算机设备、存储介质 |
CN116486421A (zh) * | 2023-04-28 | 2023-07-25 | 书行科技(北京)有限公司 | 图像翻译和检测方法、图像模型训练方法及相关产品 |
WO2023201975A1 (zh) * | 2022-04-19 | 2023-10-26 | 苏州浪潮智能科技有限公司 | 一种差异描述语句生成方法、装置、设备及介质 |
US11960455B2 (en) | 2021-08-16 | 2024-04-16 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for building database for retrieval, device and storage medium |
CN117992898A (zh) * | 2024-04-07 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 异常检测模型的训练方法、物体异常检测方法和装置 |
CN118015290A (zh) * | 2024-04-08 | 2024-05-10 | 浙江深象智能科技有限公司 | 图像特征处理方法、图像对比方法、模型训练方法及装置 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062180B (zh) * | 2022-08-15 | 2023-03-28 | 阿里巴巴(中国)有限公司 | 对象查询的方法、电子设备及存储介质 |
CN115410717B (zh) * | 2022-09-15 | 2024-05-21 | 北京京东拓先科技有限公司 | 模型训练方法、数据检索方法、影像数据检索方法和装置 |
CN115578584B (zh) * | 2022-09-30 | 2023-08-29 | 北京百度网讯科技有限公司 | 图像处理方法、图像处理模型的构建和训练方法 |
CN115686868B (zh) * | 2022-12-28 | 2023-04-07 | 中南大学 | 一种基于联邦哈希学习的面向跨节点多模态检索方法 |
CN116469111B (zh) * | 2023-06-08 | 2023-09-15 | 江西师范大学 | 一种文字生成模型训练方法及目标文字生成方法 |
CN116628507B (zh) * | 2023-07-20 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及可读存储介质 |
CN117056550B (zh) * | 2023-10-12 | 2024-02-23 | 中国科学技术大学 | 长尾图像检索方法、系统、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829848A (zh) * | 2018-06-20 | 2018-11-16 | 华中科技大学 | 一种图像检索方法和系统 |
CN110163267A (zh) * | 2019-05-09 | 2019-08-23 | 厦门美图之家科技有限公司 | 一种图像生成模型的训练方法和生成图像的方法 |
CN110209867A (zh) * | 2019-06-05 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 图像检索模型的训练方法、装置、设备及存储介质 |
CN111209415A (zh) * | 2020-01-10 | 2020-05-29 | 重庆邮电大学 | 基于大批量训练的图文跨模态哈希检索方法 |
US20200193269A1 (en) * | 2018-12-18 | 2020-06-18 | Samsung Electronics Co., Ltd. | Recognizer, object recognition method, learning apparatus, and learning method for domain adaptation |
CN111930980A (zh) * | 2020-08-21 | 2020-11-13 | 深圳市升幂科技有限公司 | 图像检索模型的训练方法及图像检索方法、装置、及介质 |
US20210012198A1 (en) * | 2018-05-31 | 2021-01-14 | Huawei Technologies Co., Ltd. | Method for training deep neural network and apparatus |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002095534A2 (en) * | 2001-05-18 | 2002-11-28 | Biowulf Technologies, Llc | Methods for feature selection in a learning machine |
CN108305296B (zh) * | 2017-08-30 | 2021-02-26 | 深圳市腾讯计算机系统有限公司 | 图像描述生成方法、模型训练方法、设备和存储介质 |
US12020147B2 (en) * | 2018-11-16 | 2024-06-25 | Royal Bank Of Canada | System and method for a convolutional neural network for multi-label classification with partial annotations |
CN110414432B (zh) * | 2019-07-29 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 对象识别模型的训练方法、对象识别方法及相应的装置 |
CN113159095B (zh) * | 2021-01-30 | 2024-04-30 | 华为技术有限公司 | 一种训练模型的方法、图像检索的方法以及装置 |
-
2021
- 2021-01-30 CN CN202110132038.4A patent/CN113159095B/zh active Active
-
2022
- 2022-01-26 WO PCT/CN2022/073923 patent/WO2022161380A1/zh active Application Filing
- 2022-01-26 EP EP22745254.7A patent/EP4273746A4/en active Pending
-
2023
- 2023-07-28 US US18/361,011 patent/US20230368505A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210012198A1 (en) * | 2018-05-31 | 2021-01-14 | Huawei Technologies Co., Ltd. | Method for training deep neural network and apparatus |
CN108829848A (zh) * | 2018-06-20 | 2018-11-16 | 华中科技大学 | 一种图像检索方法和系统 |
US20200193269A1 (en) * | 2018-12-18 | 2020-06-18 | Samsung Electronics Co., Ltd. | Recognizer, object recognition method, learning apparatus, and learning method for domain adaptation |
CN110163267A (zh) * | 2019-05-09 | 2019-08-23 | 厦门美图之家科技有限公司 | 一种图像生成模型的训练方法和生成图像的方法 |
CN110209867A (zh) * | 2019-06-05 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 图像检索模型的训练方法、装置、设备及存储介质 |
CN111209415A (zh) * | 2020-01-10 | 2020-05-29 | 重庆邮电大学 | 基于大批量训练的图文跨模态哈希检索方法 |
CN111930980A (zh) * | 2020-08-21 | 2020-11-13 | 深圳市升幂科技有限公司 | 图像检索模型的训练方法及图像检索方法、装置、及介质 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022161380A1 (zh) * | 2021-01-30 | 2022-08-04 | 华为技术有限公司 | 一种训练模型的方法、图像检索的方法以及装置 |
CN113377437B (zh) * | 2021-08-11 | 2021-11-09 | 景网技术有限公司 | 一种智慧城市前端设备修复工作量分析方法和系统 |
CN113377437A (zh) * | 2021-08-11 | 2021-09-10 | 景网技术有限公司 | 一种智慧城市前端设备修复工作量分析方法和系统 |
CN113656373A (zh) * | 2021-08-16 | 2021-11-16 | 百度在线网络技术(北京)有限公司 | 构建检索数据库的方法、装置、设备以及存储介质 |
US11960455B2 (en) | 2021-08-16 | 2024-04-16 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for building database for retrieval, device and storage medium |
CN113792853B (zh) * | 2021-09-09 | 2023-09-05 | 北京百度网讯科技有限公司 | 字符生成模型的训练方法、字符生成方法、装置和设备 |
CN113792853A (zh) * | 2021-09-09 | 2021-12-14 | 北京百度网讯科技有限公司 | 字符生成模型的训练方法、字符生成方法、装置和设备 |
CN113962773A (zh) * | 2021-10-22 | 2022-01-21 | 广州华多网络科技有限公司 | 同款商品聚合方法及其装置、设备、介质、产品 |
WO2023201975A1 (zh) * | 2022-04-19 | 2023-10-26 | 苏州浪潮智能科技有限公司 | 一种差异描述语句生成方法、装置、设备及介质 |
CN115050014A (zh) * | 2022-06-15 | 2022-09-13 | 河北农业大学 | 一种基于图像文本学习的小样本番茄病害识别系统及方法 |
CN115905608A (zh) * | 2022-11-15 | 2023-04-04 | 腾讯科技(深圳)有限公司 | 图像特征获取方法、装置、计算机设备、存储介质 |
CN116486421A (zh) * | 2023-04-28 | 2023-07-25 | 书行科技(北京)有限公司 | 图像翻译和检测方法、图像模型训练方法及相关产品 |
CN116486421B (zh) * | 2023-04-28 | 2024-03-22 | 书行科技(北京)有限公司 | 一种图像翻译模型的训练方法及相关产品 |
CN117992898A (zh) * | 2024-04-07 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 异常检测模型的训练方法、物体异常检测方法和装置 |
CN118015290A (zh) * | 2024-04-08 | 2024-05-10 | 浙江深象智能科技有限公司 | 图像特征处理方法、图像对比方法、模型训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
EP4273746A4 (en) | 2024-06-05 |
EP4273746A1 (en) | 2023-11-08 |
WO2022161380A1 (zh) | 2022-08-04 |
US20230368505A1 (en) | 2023-11-16 |
CN113159095B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113159095B (zh) | 一种训练模型的方法、图像检索的方法以及装置 | |
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
CN111444326B (zh) | 一种文本数据处理方法、装置、设备以及存储介质 | |
CN111460130B (zh) | 信息推荐方法、装置、设备和可读存储介质 | |
Wang et al. | Deep cascaded cross-modal correlation learning for fine-grained sketch-based image retrieval | |
CN108171257A (zh) | 细粒度图像识别模型训练及识别方法、装置及存储介质 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN115937655B (zh) | 多阶特征交互的目标检测模型及其构建方法、装置及应用 | |
CN107168992A (zh) | 基于人工智能的文章分类方法及装置、设备与可读介质 | |
CN109189943B (zh) | 一种能力知识抽取及能力知识图谱构建的方法 | |
CN108319888B (zh) | 视频类型的识别方法及装置、计算机终端 | |
Sridhar et al. | Fake news detection and analysis using multitask learning with BiLSTM CapsNet model | |
JP7393475B2 (ja) | 画像を検索するための方法、装置、システム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN110969023B (zh) | 文本相似度的确定方法及装置 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
CN114282055A (zh) | 视频特征提取方法、装置、设备及计算机存储介质 | |
CN115131698A (zh) | 视频属性确定方法、装置、设备及存储介质 | |
Soysal et al. | An introduction to zero-shot learning: An essential review | |
CN117494051A (zh) | 一种分类处理的方法、模型训练的方法以及相关装置 | |
Li et al. | Spatial-temporal dynamic hand gesture recognition via hybrid deep learning model | |
CN118069927A (zh) | 基于知识感知和用户多兴趣特征表示的新闻推荐方法及系统 | |
CN116205700A (zh) | 目标产品的推荐方法、装置、计算机设备和存储介质 | |
CN112883719A (zh) | 一种品类词识别方法、模型训练方法、装置及系统 | |
CN117933260A (zh) | 一种文本质量分析方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |