CN108288067B - 图像文本匹配模型的训练方法、双向搜索方法及相关装置 - Google Patents

图像文本匹配模型的训练方法、双向搜索方法及相关装置 Download PDF

Info

Publication number
CN108288067B
CN108288067B CN201710817344.5A CN201710817344A CN108288067B CN 108288067 B CN108288067 B CN 108288067B CN 201710817344 A CN201710817344 A CN 201710817344A CN 108288067 B CN108288067 B CN 108288067B
Authority
CN
China
Prior art keywords
image
text
sample
representation
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710817344.5A
Other languages
English (en)
Other versions
CN108288067A (zh
Inventor
马林
姜文浩
刘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910859507.5A priority Critical patent/CN110532571B/zh
Priority to CN201710817344.5A priority patent/CN108288067B/zh
Publication of CN108288067A publication Critical patent/CN108288067A/zh
Priority to EP18857317.4A priority patent/EP3683724A4/en
Priority to JP2019564942A priority patent/JP6887026B2/ja
Priority to KR1020197030955A priority patent/KR102235051B1/ko
Priority to PCT/CN2018/104565 priority patent/WO2019052403A1/zh
Priority to US16/579,411 priority patent/US11087166B2/en
Application granted granted Critical
Publication of CN108288067B publication Critical patent/CN108288067B/zh
Priority to US17/349,904 priority patent/US11699298B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/76Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries based on eigen-space representations, e.g. from pose or different illumination conditions; Shape manifolds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能技术领域,尤其涉及图像文本匹配模型的训练方法、双向搜索方法及相关装置。该训练方法包括:提取图像样本和文本样本的全局表示和局部表示,后训练预先构建的匹配模型,该匹配模型将图像样本和文本样本各自的全局表示和局部表示映射到指定语义空间,计算全局表示的相似度和局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定图像和文本的匹配度。本申请得到的匹配度是基于将图像的细节特征到全局特征都考量在内,得到的匹配度更加准确和全面。

Description

图像文本匹配模型的训练方法、双向搜索方法及相关装置
技术领域
本申请涉及人工智能技术领域,尤其涉及图像文本匹配模型的训练方法、搜索方法及相关装置。
背景技术
图像与文本的理解一直是人工智能中最为重要的研究方向之一。其中一个重要的研究就是发掘图像和文本的关联关系。例如网页新闻中新闻文本内容和新闻图像表达的是相同的主题思想。也即,图像和文本之间并非绝对独立存在的,图像和文本之间存在匹配关系。故此,如何找到与给定图像匹配的文本,或者找到与给定文本匹配的图像成为业内关注的话题。
发明人发现,相关技术中通常通过以下两种方法实现图像与文本的匹配:
方法一、提取图像和文本各自的全局表示,将全局表示映射到相同的语义空间,在该语义空间建立图像和文本的全局表示之间的匹配关系,进而实现图像和文本的匹配。其中,全局表示反映了图像的全局特性,用于描述图像的整体特征,全局表示例如是颜色特征、形状特征和纹理特征等
方法二、通过卷积神经网络得到图像的局部信息的局部表示。通过语法树信息得到文本的局部表示,进而学习图像与文本的局部表示的匹配关系。其中,局部表示反映了图像的局部表示,用于描述图像局部的细节特征。与全局表示相比,局部表示具有在图像中蕴含数量丰富,特征间相关度小,遮挡情况下不会因为部分特征的消失而影响其他特征的检测和匹配等的特点。
然而,以上两种方法中均采用单一方面的信息来进行图像和文本的匹配,即要么单独采用全局表示,要么单独采用局部表示。无论采用局部表示还是全局表示进行图像和文本的匹配,仅能从一个层面反映图像和文本之间的匹配度。对于内容丰富的图像,全局表示也许仅能够提取颜色特征、形状特征和纹理特征等,却无法展现局部表示的细节特征,故此能够反映的特征有限。而局部表示仅能从局部考量图像文本的匹配关系、无法体现出全局表示的特征。故此,以上两种方法都无法全面衡量图像和文本之间的匹配度。
发明内容
本申请实施例提供图像文本匹配模型的训练方法、搜索方法及相关装置,用以解决现有技术中存在的无法全面衡量图像和文本之间的匹配度等的问题。
第一方面,本申请实施例提供的一种图像文本匹配模型的训练方法,所述方法包括:
提取图像样本的全局表示和局部表示;以及,
提取文本样本的全局表示和局部表示;
根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
第二方面,本申请实施例提供一种图像文本双向搜索方法,所述方法包括:
接收参考样本,该参考样本为文本或图像;
提取该参考样本的全局表示和局部表示;
将参考样本的全局表示和局部输入给匹配模型,以使该匹配模型计算参考参考样本与相应素材的匹配度;其中,若参考样本为文本,则相应素材为图像;若参考样本为图像,则相应素材为文本;该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
选取匹配度大于指定匹配度的相应素材,作为与参考样本匹配的素材。
第三方面,本申请实施例提供一种图像文本匹配模型的训练装置,所述装置包括:
图像特征提取模块,用于提取图像样本的全局表示和局部表示;
文本特征提取模块,用于提取文本样本的全局表示和局部表示;
训练模块,用于根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
第四方面,本申请实施例提供一种图像文本双向搜索装置,所述装置包括:
参考样本接收模块,用于接收参考样本,该参考样本为文本或图像;
参考样本特征提取模块,用于提取该参考样本的全局表示和局部表示;
搜索模块,用于将参考样本的全局表示和局部输入给匹配模型,以使该匹配模型计算参考参考样本与相应素材的匹配度;其中,若参考样本为文本,则相应素材为图像;若参考样本为图像,则相应素材为文本;该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
选择模块,用于选取匹配度大于指定匹配度的相应素材,作为与参考样本匹配的素材。
第五方面,本申请实施例提供一种计算设备,包括存储器和处理器,其中,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的程序指令执行本申请实施例任一所述的图像文本匹配模型的训练方法。
第六方面、本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如如本申请实施例任一所述的图像文本匹配模型的训练方法。
第七方面,本申请实施例提供一种计算设备,包括存储器和处理器,其中,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如本申请实施例所述的图像文本双向搜索方法。
第八方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如本申请实施例所述的图像文本双向搜索方法。
本申请实施例中,得到的匹配度是基于图像和文本各自的全局表示和局部表示。将图像的细节特征到全局特征都考量在内,得到的匹配度更加准确和全面。故此,基于本申请实施例提供的匹配模型进行图像文本双向搜索时,搜索结果也会更加准确。
附图说明
图1所示为本申请实施例提供的应用场景示意图;
图2所示为本申请实施例一提供的图像文本匹配模型的训练方法的流程示意图;
图3所示为本申请实施例一提供的匹配模型的框图;
图4所示为本申请实施例一提供的计算图像特征的相似度的模型的框图;
图5所示为本申请实施例一提供的对图像信息的类别的示意图;
图6所示为本申请实施例一提取文本的全局表示的框图;
图7所示为本申请实施例二提供的图像文本匹配模型的训练方法的流程示意图;
图8所示为本申请实施例提供的图像文本双向搜索方法的流程示意图;
图9所示为本申请实施例提供的图像文本匹配模型的训练装置的结构示意图;
图10所示为本申请实施例提供的图像文本双向搜索装置的结构示意图;
图11为本申请实施例提供的计算设备的结构示意图。
具体实施方式
为了便于理解本申请实施例提供的技术方案,下面结合说明书附图对本申请实施例作进一步详细描述。
为了能够全面的对图像和文本进行匹配,得到更加准确的匹配度,本申请实施例中,根据以下方法训练图像文本匹配模型,具体的:
提取图像样本的全局表示和局部表示;以及,
提取文本样本的全局表示和局部表示;
根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据异构样本对之间的全局表示的相似度和局部表示的相似度,确定异构样本对的匹配度。具体实施时,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
这样,得到的匹配度是基于图像和文本各自的全局表示和局部表示。将图像的细节特征到全局特征都考量在内,得到的匹配度更加准确和全面。故此,基于本申请实施例提供的匹配模型进行图像文本双向搜索时,搜索结果也会更加准确。
例如,可以参考图1其为本申请实施例提供的图像文本双向搜索方法的应用场景示意图。该场景例如可以包括用户10、终端设备11和服务器12。其中,所述终端设备11中可安装有各种客户端,如用于社交的博客客户端、微信客户端,用于了解时事的新闻客户端等。终端设备11的客户端和服务器12建立通信连接后,终端设备11的客户端可以对图像和/或文本提取全局表示和局部表示后发送给服务器12。或者终端设备11的客户端将图像和/或文本发送给服务器12,由服务器12提取图像和/或文本的全局特征和文本特征。然后,服务器12根据图像的全局特征和文本特征,基于该匹配模型搜索与该图像匹配的文本,或服务器12根据文本的全局特征和文本特征,基于该匹配模型搜索与该图像匹配的文本。然后,服务器12将搜索结果反馈给终端设备11。
其中,终端设备11和服务器12可通过通信网络进行通信连接,该网络可以为局域网、广域网等。终端设备11可以为手机、平板电脑、笔记本电脑、个人计算机等,服务器12可以为任何能够支持相应的图像文本匹配模型的训练和双向搜索的服务器设备。
需要说明的是,本申请实施例提供的方案,适用于任何需要根据文本检索图像,和/或,需要根据图像检索文本的场景中。例如,可以适用于云端相册管理(例如根据给定文本搜索出匹配的图像),微信朋友圈,QQ空间,QQ众创空间,以及微信与QQ的聊天环境中的图像和/或文本的搜索。
实施例一
参照图2,为本申请实施例一提供的图像文本匹配模型的训练方法的流程图,包括以下步骤:
步骤201:提取图像样本的全局表示和局部表示。
步骤202:提取文本样本的全局表示和局部表示。
需要说明的是,步骤201和步骤202的执行顺序不受限。
步骤203:根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
如图3所示,为本申请实施例提供的图像文本匹配模型的一种框图:在图3中,针对输入的图像,采用局部图像CNN(Convolutional Neural Network,卷积神经网络)提取图像的局部表示(即图中的局部图像表示);并,采用全局图像CNN提取图像的全局表示(即图中的全局图像表示)。针对输入的文本,采用局部语句编码器提取文本的局部表示(即图中的局部语句表示),并采用全局语句编码器提取文本的全局表示(即图中的全局语句表示)。在提取了图像和文本的局部表示和全局表示后,局部深度匹配表示将图像和文本各自的局部表示映射到指定语义空间,并在该指定语义空间中确定图像和文本构成的异构样本对之间的局部表示的相似度;同理,全局深度匹配表示将图像和文本各自的全局表示映射到指定语义空间,并在该指定语义空间中确定图像和文本构成的异构样本对之间的全局表示的相似度。然后,通过模型集成,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
为便于理解,本申请实施例提供图像文本匹配模型的训练方法,通过以下内容做进一步说明。
1)、关于映射到指定语义空间:
在一个实施例中,为了能够准确的得到图像和文本之间的全局表示的相似度以及局部表示的相似度,本申请实施例中,将图像样本和文本样本各自的全局表示映射到指定语义空间,具体包括:
分别将图像样本和文本样本各自的全局表示通过至少两层全连接层进行全连接操作,映射到指定语义空间;
将图像样本和文本样本各自的局部表示映射到指定语义空间,具体包括:
分别将图像样本和文本样本的各自的局部表示通过至少两层全连接层进行全连接操作,映射到指定语义空间;
其中,全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度;或者,
该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。
本申请中,通过多个全连接层来准确的分析文本和图像各自的全局表示和局部表示,以便于将文本和图像的全局表示和局部表示映射到同一语义空间中。而且,全连接层的参数是根据预置目标函数确定的。通过预置目标函数能够实现根据实际情况,准确确定出异构文本对的相似度(该相似度为全局表示的相似度,或局部表示的相似度)。
此外,通过多个全连接层,可以对文本与图像描述进行多层的非线性变换,进而可以进一步挖掘图像与文本之间的直接匹配关系。
进一步的,若预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度,该预置目标函数可如公式(1)所示:
Figure GDA0002518514140000081
其中,
Figure GDA0002518514140000082
表示预置目标函数;
Figure GDA0002518514140000083
表示文本样本;
Figure GDA0002518514140000084
表示图像样本;当确定全局表示的相似度时,d()表示文本样本和图像样本的全局表示的相似度;当确定局部表示的相似度时,d()表示文本样本和图像样本的局部表示的相似度;λ1和λ2均表示预置系数;
Figure GDA0002518514140000091
表示语义关联的异构样本对的相似度;
Figure GDA0002518514140000092
Figure GDA0002518514140000093
均表示非语义关联的异构样本对的相似度;u1和u2均表示预设阈值。
进一步的,考虑到一般一个图像都会与多个样本语义关联。例如,一幅风景图像中天空有鸟飞过,水里有鱼儿游泳,那么对应的语义可以包括鸟儿在天空飞翔和鱼儿在水里游来游去。故此,为了提高匹配模型的准确性,需要使得与同一图像语义关联的文本之间的相似度,也要高于这些文本与其他图像具有语义关联关系的文本之间的相似度。预置目标函数在满足如公式(1)所述条件的基础上,需要同时要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。为达到该目的,同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的公式如公式(2)所示:
L(Si,Sl,Sj)=max(0,u3+d(Si,Sl)-d(Si,Sj)) (2)
其中,L(Si,Sl,Sj)表示要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数;Si,Sl表示同一图像样本语义关联的文本样本;Si,Sj表示不同图像样本关联的文本样本;当确定全局表示的相似度时,d()表示文本样本之间的的全局表示的相似度;当确定局部表示的相似度时,d()表示文本样本之间的局部表示的相似度;u3表示预设阈值。
当然,具体实施时,可以将公式(1)和公式(2)进行整合,得到如公式(3)或公式(4)所述形式的预置目标函数,得到的预置目标函数能够满足上述如公式(1)和公式(2)所述的要求:
Figure GDA0002518514140000094
Figure GDA0002518514140000095
需要说明的是,具体实施时,可以根据预置目标函数的要求设计具体的数学表达方式,本申请实施例对此不作限定。
根据预置目标函数的作用,可以训练如图4所示的深度匹配模型。图4中,左侧输入image embedding为用于表示图像的特征向量(该特征向量为全局表示或局部表示的特征向量),右侧输入sentence embending为用于表示文本的全局特征的特征向量(该特征向量表示全局表示或局部表示)。图像和文本的特征向量映射到同一指定语义空间后,计算特征向量之间的距离。例如,图4中,
Figure GDA0002518514140000101
Sm表示文本的特征向量,I1和In表示图像的特征向量。在该指定语义空间中,根据预置目标函数计算图像和文本之间的距离。若采用的特征向量为用于表示全局表示的特征向量,则计算的结果为全局表示之间的相似度,若采用的特征向量为表示局部表示的特征向量,则计算的结果为局部表示之间的相似度。
2)关于图像样本全局表示和局部表示的提取:
具体实施时可以采用现有技术的方法提取图像的全局表示,本申请实施例对此不作限定。例如采用图像的卷积神经网络的全连接层的特征表示图像的全局表示,如前述的CNN,这里的CNN可以选择但不限于VGG(Very Deep Convolutional Networks for Large-Scale Image Recognition,大规模图像识别的深度卷积网络),ResNet(ResidualNetworks,残差网络),Inception,Inception V3,Inception V4等。当然,也可以采用FCN(Fully Convolutional Networks for Semantic Segmentation,全卷积网络)等网络模型来提取图像的全局表示。
这里,对本申请实施例提供的提取图像样本的局部表示做进一步说明,具体可执行为:
将图像样本划分为指定数量的图像块,针对每个图像块,计算该图像块中包含指定类别的图像信息的概率;并,
选取指定数量的图像块中各指定类别的图像信息的最大概率;由各指定类别的图像信息的最大概率构成图像样本的局部表示。
例如,如图5所示,图5中Image CNN表示采用图像CNN提取图像块的特征。具体的CNN内部各层的设计可以根据现有技术实现。本申请的重点在于,对于给定的一幅图像,对其进行分块后,提取各图像块的特征。假设图像信息的类别共有5种,分别为人、草地、天空、狗和猫。若假设提取的图像块有4个,则针对每个图像块计算该图像块包括以上5种类别的图像信息的概率。然后,针对每种类别,从4个图像块的该类别的概率中选取最大概率。由各类别的最大概率构成图像样本的全局表示。
当然需要说明的是,具体实施时,也可以进一步针对每种类别,比较该类别的最大概率与对应概率阈值,来判断样本图像中是否至少有一个图像块包含该类别的图像信息。例如,对于人这一类别,其在4个图像块中最大概率为0.99,对应概率阈值为0.8,则说明4个图像块中至少有一个图像块包含人。
3)、关于文本样本全局表示和局部表示的提取:
本申请实施例中,为了能够更好的提取出文本样本的全局表示,包括以下步骤:
对文本样本进行分词;
针对每个分词,确定该分词的向量,其中,不同分词的向量长度相同;
将同一文本样本的分词的向量,输入给预先构建的用于提取文本的全局表示的神经网络,得到该文本样本的全局表示;其中,用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入,该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。
例如,具体实施时可用如下公式(5)表示卷积层的卷积操作:
Figure GDA0002518514140000111
其中,
Figure GDA0002518514140000112
在公式(5)中,r表示指定大小的视野域;l-1表示第l-1层卷积层(即上一层卷积层);l表示第l层卷积层(即下一层卷积层);Wl,f表示乘积矩阵;f表示第f个特征;i表示第i个位置信息;
Figure GDA0002518514140000113
表示第l层卷积层提取的特征对应i位置的f特征。
其中,池化层的操作可以用如下公式(6)表示:
Figure GDA0002518514140000121
其中,
Figure GDA0002518514140000122
表示池化层的输出;l+1表示池化层;
Figure GDA0002518514140000123
表示第l层提取的第M×i特征;M表示一个常数用于控制池化操作的大小。
例如如图6所示,例如输入的文本为“a young child run through a largefield of grass”,通过文本卷积神经网络(即图中的Sentence CNN)来提取文本的全局表示。具体的,该Sentence CNN中包括多个卷积层convolution来提取文本的特征,然后通过最大池化层(max-pooling)来对卷积层提取的特征进行整合降维,从而得到文本的全局表示。
这样,本申请实施例通过多个卷积层实现对文本样本特征的提取,然后通过池化层来过滤无用的特征信息。而其中,在使用多个卷积层进行卷积操作时,采用的是指定大小的视野域,由于该视野域中包括了多个分词的特征,所以相当于实现了文本样本的全局表示中学习了相邻分词之间的组织以及交互信息,使得最终提取的全局表示更加合理准确。
具体实施时,可以采用现有的word2vec工具将每个分词用一个定长的向量来表示。
此外,用于提取文本的全局表示的神经网络可以是卷积神经网络,也可以是RNN(Recurrent Neural Networks,循环神经网络)。
文本样本的局部表示可以采用现有技术的方法提取,可以更集中于每一个分词,譬如采用传统的TF-IDF(term frequency–inverse document frequency)表示,或者Fisher Vector作用于每一个分词的向量上,或者分词的向量的平均值。这样的表示更加集中于分词本身,而不是整体考虑每个分词跟分词之间的相关性,故此可以被认为是文本的局部表示。
下面,结合实施例二对本申请实施例中基于上述匹配模型的图像文本双向搜索方法做进一步说明。
实施例二
如图7所示,为本申请实施例中提供的图像文本匹配模型的训练方法的具体实施例的流程示意图,该方法包括以下步骤:
步骤701:基于全局图像表示CNN提取图像样本的全局表示。
步骤702:将图像样本划分为指定数量的图像块,基于局部图像CNN针对每个图像块,计算该图像块中包含指定类别的图像信息的概率;并,选取指定数量的图像块中各指定类别的图像信息的最大概率;由各指定类别的图像信息的最大概率构成图像样本的局部表示。
步骤703:对文本样本进行分词;针对每个分词,确定该分词的向量,其中,不同分词的向量长度相同;将同一文本样本的分词的向量,输入给预先构建的用于提取文本的全局表示的卷积神经网络,得到该文本样本的全局表示;其中,用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入,该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。
步骤704:提取文本样本的局部表示。
其中,步骤701-步骤704的执行顺序不受限。
步骤705:分别将图像样本和文本样本各自的全局表示通过至少两层全连接层进行全连接操作,映射到指定语义空间,并计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度,其中,全连接层的参数根据预置目标函数训练获得。
步骤706:分别将图像样本和文本样本的各自的局部表示通过至少两层全连接层进行全连接操作,映射到指定语义空间,计算异构样本对之间的局部表示的相似度,其中,全连接层的参数根据预置目标函数训练获得。
其中,步骤705和步骤706的执行顺序不受限。
此外,预置目标函数已在实施例一中说明,此处不再赘述。
步骤707:根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
本申请实施例中,通过图像块提取图像的局部表示,通过多个卷积层和池化层提取文本的全局表示,能够得到文本的分词之间的关联关系,使得提取的特征更加准确和全面。然后,通过预置目标函数使得语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度,从而使得最终相似度的计算更加符合实际需求,提高图像和文本匹配的准确性。
实施例三
如图8所示,为基于实施例一中的匹配模型的图像文本双向搜索方法的流程图,包括以下步骤:
步骤801:接收参考样本,该参考样本为文本或图像。
步骤802:提取该参考样本的全局表示和局部表示。
步骤803:将参考样本的全局表示和局部输入给匹配模型,以使该匹配模型计算参考参考样本与相应素材的匹配度;其中,若参考样本为文本,则相应素材为图像;若参考样本为图像,则相应素材为文本;该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度。
其中,可以建立素材库,计算参考样本与素材库中各相应素材的匹配度。具体计算匹配度的方法已在实施例一中说明,这里不再赘述。
步骤804:选取匹配度大于指定匹配度的相应素材,作为与参考样本匹配的素材。
本申请实施例实现了基于全局表示和局部表示的匹配模型来搜索参考样本的相应素材,使得最终得到的匹配结果更加准确。。例如搜索与文本匹配的图像,或者搜索与图像匹配的问题。
实施例四
基于与实施例一相同的发明构思,本申请实施例还提供一种图像文本匹配模型的训练装置,该装置的原理和有益效果与上述方法实施例中所述内容相似,在此不再赘述。
如图9所示,为该装置的结构示意图,所述装置包括:
图像特征提取模块901,用于提取图像样本的全局表示和局部表示;
文本特征提取模块902,用于提取文本样本的全局表示和局部表示;
训练模块903,用于根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
进一步的,训练模块,具体包括:
全局训练单元,用于分别将图像样本和文本样本各自的全局表示通过至少两层全连接层进行全连接操作,映射到指定语义空间;
局部训练单元,用于分别将图像样本和文本样本的各自的局部表示通过至少两层全连接层进行全连接操作,映射到指定语义空间;
其中,全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度;或者,
该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。
进一步的,若预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度,该预置目标函数为:
Figure GDA0002518514140000161
其中,
Figure GDA0002518514140000162
表示预置目标函数;
Figure GDA0002518514140000163
表示文本样本;
Figure GDA0002518514140000164
表示图像样本;当确定全局表示的相似度时,d()表示文本样本和图像样本的全局表示的相似度;当确定局部表示的相似度时,d()表示文本样本和图像样本的局部表示的相似度;λ1和λ2均表示预置系数;
Figure GDA0002518514140000165
表示语义关联的异构样本对的相似度;
Figure GDA0002518514140000166
Figure GDA0002518514140000167
均表示非语义关联的异构样本对的相似度;u1和u2均表示预设阈值。
进一步的,要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数为:
L(Si,Sl,Sj)=max(0,u3+d(Si,Sl)-d(Si,Sj))
其中,L(Si,Sl,Sj)表示要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数;Si,Sl表示同一图像样本语义关联的文本样本;Si,Sj表示不同图像样本关联的文本样本;当确定全局表示的相似度时,d()表示文本样本之间的的全局表示的相似度;当确定局部表示的相似度时,d()表示文本样本之间的局部表示的相似度;u3表示预设阈值。
进一步的,图像特征提取模块,具体用于将图像样本划分为指定数量的图像块,针对每个图像块,计算该图像块中包含指定类别的图像信息的概率;并,
选取指定数量的图像块中各指定类别的图像信息的最大概率;由各指定类别的图像信息的最大概率构成图像样本的局部表示。
进一步的,文本特征提取模块,具体用于对文本样本进行分词;
针对每个分词,确定该分词的向量,其中,不同分词的向量长度相同;
将同一文本样本的分词的向量,输入给预先构建的用于提取文本的全局表示的卷积神经网络,得到该文本样本的全局表示;其中,用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入,该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。
实施例五
基于与实施例二相同的发明构思,本申请实施例还提供一种图像文本双向搜索装置,该装置的原理和有益效果与上述方法实施例中所述内容相似,在此不再赘述。
如图10所示,为该装置的结构示意图,所述装置包括:
参考样本接收模块1001,用于接收参考样本,该参考样本为文本或图像;
参考样本特征提取模块1002,用于提取该参考样本的全局表示和局部表示;
搜索模块1003,用于将参考样本的全局表示和局部输入给匹配模型,以使该匹配模型计算参考参考样本与相应素材的匹配度;其中,若参考样本为文本,则相应素材为图像;若参考样本为图像,则相应素材为文本;该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
选择模块1004,用于选取匹配度大于指定匹配度的相应素材,作为与参考样本匹配的素材。
实施例六
本申请实施例五还提供了一种计算设备,该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等。如图11所示,该计算设备可以包括中央处理器(Center Processing Unit,CPU)1101、存储器1102、输入设备1103,输出设备1104等,输入设备可以包括键盘、鼠标、触摸屏等,输出设备可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本申请实施例中,存储器可以用于存储图像文本匹配模型的训练方法和/或图像文本双向搜索方法的程序指令。处理器通过调用存储器存储的程序指令,处理器用于按照获得的程序指令执行:提取图像样本的全局表示和局部表示;以及,提取文本样本的全局表示和局部表示;根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
或者,处理器通过调用存储器存储的程序指令,处理器用于按照获得的程序指令执行:接收参考样本,该参考样本为文本或图像;提取该参考样本的全局表示和局部表示;将参考样本的全局表示和局部输入给匹配模型,以使该匹配模型计算参考参考样本与相应素材的匹配度;其中,若参考样本为文本,则相应素材为图像;若参考样本为图像,则相应素材为文本;该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;选取匹配度大于指定匹配度的相应素材,作为与参考样本匹配的素材。
实施例七
本申请实施例六提供了一种计算机存储介质,用于储存为上述计算设备所用的计算机程序指令,其包含用于执行上述图像文本匹配模型的训练方法和/或图像文本双向搜索方法的程序。
所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (12)

1.一种图像文本匹配模型的训练方法,其特征在于,所述方法包括:
提取图像样本的全局表示和局部表示;以及,
提取文本样本的全局表示和局部表示;
根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度;
其中,通过全连接层将图像样本和文本样本各自的全局表示和局部表示映射到指定语义空间;全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度;或者,
该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度;
其中,提取图像样本的局部表示,具体包括:
将图像样本划分为指定数量的图像块,针对每个图像块,计算该图像块中包含指定类别的图像信息的概率;并,
选取指定数量的图像块中各指定类别的图像信息的最大概率;由各指定类别的图像信息的最大概率构成图像样本的局部表示。
2.根据权利要求1所述的方法,其特征在于,将图像样本和文本样本各自的全局表示映射到指定语义空间,具体包括:
分别将图像样本和文本样本各自的全局表示通过至少两层全连接层进行全连接操作,映射到指定语义空间;
将图像样本和文本样本各自的局部表示映射到指定语义空间,具体包括:
分别将图像样本和文本样本的各自的局部表示通过至少两层全连接层进行全连接操作,映射到指定语义空间。
3.根据权利要求2所述的方法,其特征在于,
若预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度,该预置目标函数为:
Figure FDA0002518514130000021
其中,
Figure FDA0002518514130000022
表示预置目标函数;
Figure FDA0002518514130000023
表示文本样本;
Figure FDA0002518514130000024
表示图像样本;当确定全局表示的相似度时,d()表示文本样本和图像样本的全局表示的相似度;当确定局部表示的相似度时,d()表示文本样本和图像样本的局部表示的相似度;λ1和λ2均表示预置系数;
Figure FDA0002518514130000025
表示语义关联的异构样本对的相似度;
Figure FDA0002518514130000026
Figure FDA0002518514130000027
均表示非语义关联的异构样本对的相似度;u1和u2均表示预设阈值。
4.根据权利要求2所述的方法,其特征在于,要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数为:
L(Si,Sl,Sj)=max(0,u3+d(Si,Sl)-d(Si,Sj))
其中,L(Si,Sl,Sj)表示要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数;Si,Sl表示同一图像样本语义关联的文本样本;Si,Sj表示不同图像样本关联的文本样本;当确定全局表示的相似度时,d()表示文本样本之间的全局表示的相似度;当确定局部表示的相似度时,d()表示文本样本之间的局部表示的相似度;u3表示预设阈值。
5.根据权利要求1所述的方法,其特征在于,提取文本样本的全局表示,具体包括:
对文本样本进行分词;
针对每个分词,确定该分词的向量,其中,不同分词的向量长度相同;
将同一文本样本的分词的向量,输入给预先构建的用于提取文本的全局表示的卷积神经网络,得到该文本样本的全局表示;其中,用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入,该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。
6.一种图像文本双向搜索方法,其特征在于,所述方法包括:
接收参考样本,该参考样本为文本或图像;
提取该参考样本的全局表示和局部表示;
将参考样本的全局表示和局部表示输入给匹配模型,以使该匹配模型计算参考样本与相应素材的匹配度;其中,若参考样本为文本,则相应素材为图像;若参考样本为图像,则相应素材为文本;该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
选取匹配度大于指定匹配度的相应素材,作为与参考样本匹配的素材;
其中,所述匹配模型通过全连接层将图像样本和文本样本各自的全局表示和局部表示映射到指定语义空间后,确定图像和文本之间的匹配度;全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度;或者,
该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度;
其中,当参考样本为图像时,提取参考样本的局部表示,具体包括:
将参考样本划分为指定数量的图像块,针对每个图像块,计算该图像块中包含指定类别的图像信息的概率;并,
选取指定数量的图像块中各指定类别的图像信息的最大概率;由各指定类别的图像信息的最大概率构成参考样本的局部表示。
7.一种图像文本匹配模型的训练装置,其特征在于,所述装置包括:
图像特征提取模块,用于提取图像样本的全局表示和局部表示;
文本特征提取模块,用于提取文本样本的全局表示和局部表示;
训练模块,用于根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度;
其中,通过全连接层将图像样本和文本样本各自的全局表示和局部表示映射到指定语义空间;全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度;或者,
该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度;
其中,图像特征提取模块,具体用于将图像样本划分为指定数量的图像块,针对每个图像块,计算该图像块中包含指定类别的图像信息的概率;并,
选取指定数量的图像块中各指定类别的图像信息的最大概率;由各指定类别的图像信息的最大概率构成图像样本的局部表示。
8.一种图像文本双向搜索装置,其特征在于,所述装置包括:
参考样本接收模块,用于接收参考样本,该参考样本为文本或图像;
参考样本特征提取模块,用于提取该参考样本的全局表示和局部表示;
搜索模块,用于将参考样本的全局表示和局部表示输入给匹配模型,以使该匹配模型计算参考样本与相应素材的匹配度;其中,若参考样本为文本,则相应素材为图像;若参考样本为图像,则相应素材为文本;该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
选择模块,用于选取匹配度大于指定匹配度的相应素材,作为与参考样本匹配的素材;
其中,所述匹配模型通过全连接层将图像样本和文本样本各自的全局表示和局部表示映射到指定语义空间后,确定图像和文本之间的匹配度;全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度;或者,
该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度;
其中,当参考样本为图像时,参考样本特征提取模块,具体用于将参考样本划分为指定数量的图像块,针对每个图像块,计算该图像块中包含指定类别的图像信息的概率;并,
选取指定数量的图像块中各指定类别的图像信息的最大概率;由各指定类别的图像信息的最大概率构成参考样本的局部表示。
9.一种计算设备,其特征在于,包括存储器和处理器,其中,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如权利要求1~5任一所述的图像文本匹配模型的训练方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如权利要求1~5任一所述的图像文本匹配模型的训练方法。
11.一种计算设备,其特征在于,包括存储器和处理器,其中,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如权利要求6所述的图像文本双向搜索方法。
12.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如权利要求6所述的图像文本双向搜索方法。
CN201710817344.5A 2017-09-12 2017-09-12 图像文本匹配模型的训练方法、双向搜索方法及相关装置 Active CN108288067B (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201910859507.5A CN110532571B (zh) 2017-09-12 2017-09-12 文本处理方法及相关装置
CN201710817344.5A CN108288067B (zh) 2017-09-12 2017-09-12 图像文本匹配模型的训练方法、双向搜索方法及相关装置
KR1020197030955A KR102235051B1 (ko) 2017-09-12 2018-09-07 이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치
JP2019564942A JP6887026B2 (ja) 2017-09-12 2018-09-07 画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置
EP18857317.4A EP3683724A4 (en) 2017-09-12 2018-09-07 LEARNING PROCESS FOR IMAGE-TEXT MATCHING MODEL, BIDIRECTIONAL SEARCH PROCESS, AND RELATED APPARATUS
PCT/CN2018/104565 WO2019052403A1 (zh) 2017-09-12 2018-09-07 图像文本匹配模型的训练方法、双向搜索方法及相关装置
US16/579,411 US11087166B2 (en) 2017-09-12 2019-09-23 Training method of image-text matching model, bi-directional search method, and relevant apparatus
US17/349,904 US11699298B2 (en) 2017-09-12 2021-06-16 Training method of image-text matching model, bi-directional search method, and relevant apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710817344.5A CN108288067B (zh) 2017-09-12 2017-09-12 图像文本匹配模型的训练方法、双向搜索方法及相关装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910859507.5A Division CN110532571B (zh) 2017-09-12 2017-09-12 文本处理方法及相关装置

Publications (2)

Publication Number Publication Date
CN108288067A CN108288067A (zh) 2018-07-17
CN108288067B true CN108288067B (zh) 2020-07-24

Family

ID=62831544

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910859507.5A Active CN110532571B (zh) 2017-09-12 2017-09-12 文本处理方法及相关装置
CN201710817344.5A Active CN108288067B (zh) 2017-09-12 2017-09-12 图像文本匹配模型的训练方法、双向搜索方法及相关装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910859507.5A Active CN110532571B (zh) 2017-09-12 2017-09-12 文本处理方法及相关装置

Country Status (6)

Country Link
US (2) US11087166B2 (zh)
EP (1) EP3683724A4 (zh)
JP (1) JP6887026B2 (zh)
KR (1) KR102235051B1 (zh)
CN (2) CN110532571B (zh)
WO (1) WO2019052403A1 (zh)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6333871B2 (ja) * 2016-02-25 2018-05-30 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
CN110532571B (zh) * 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
CN110147806B (zh) * 2018-10-08 2023-04-07 腾讯科技(深圳)有限公司 图像描述模型的训练方法、装置及存储介质
US11216512B2 (en) * 2018-10-08 2022-01-04 Fujitsu Limited Accessible machine learning backends
CN109858555B (zh) * 2019-02-12 2022-05-17 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、设备及可读存储介质
CN109933802B (zh) * 2019-03-25 2023-05-26 腾讯科技(深圳)有限公司 图文匹配方法、装置及存储介质
CN110111885B (zh) * 2019-05-09 2023-09-19 腾讯科技(深圳)有限公司 属性预测方法、装置、计算机设备及计算机可读存储介质
CN110209859B (zh) * 2019-05-10 2022-12-27 腾讯科技(深圳)有限公司 地点识别及其模型训练的方法和装置以及电子设备
CN110134965B (zh) * 2019-05-21 2023-08-18 北京百度网讯科技有限公司 用于信息处理的方法、装置、设备和计算机可读存储介质
CN110516085B (zh) 2019-07-11 2022-05-17 西安电子科技大学 基于双向注意力的图像文本互检索方法
CN110598739B (zh) * 2019-08-07 2023-06-23 广州视源电子科技股份有限公司 图文转换方法、设备、智能交互方法、设备及系统、客户端、服务器、机器、介质
CN110532414B (zh) * 2019-08-29 2022-06-21 深圳市商汤科技有限公司 一种图片检索方法及装置
CN112528624B (zh) * 2019-09-03 2024-05-14 阿里巴巴集团控股有限公司 文本处理方法、装置、搜索方法以及处理器
CN112529986B (zh) * 2019-09-19 2023-09-22 百度在线网络技术(北京)有限公司 图文相关性的计算模型建立方法、计算方法及装置
CN112580658B (zh) * 2019-09-29 2024-03-12 中国移动通信集团辽宁有限公司 图像语义描述方法、装置、计算设备及计算机存储介质
CN110825901B (zh) * 2019-11-11 2024-08-06 腾讯科技(北京)有限公司 基于人工智能的图文匹配方法、装置、设备及存储介质
CN111091010A (zh) * 2019-11-22 2020-05-01 京东方科技集团股份有限公司 相似度确定、网络训练、查找方法及装置和存储介质
WO2021098585A1 (en) * 2019-11-22 2021-05-27 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Image search based on combined local and global information
CN110991533B (zh) * 2019-12-03 2023-08-04 Oppo广东移动通信有限公司 图像识别方法、识别装置、终端设备及可读存储介质
CN113094550B (zh) * 2020-01-08 2023-10-24 百度在线网络技术(北京)有限公司 视频检索方法、装置、设备和介质
CN111309950A (zh) * 2020-01-18 2020-06-19 青柠知享科技(深圳)有限公司 电商交易信息交互方法、电商平台和可读存储介质
CN111309951A (zh) * 2020-01-23 2020-06-19 北京达佳互联信息技术有限公司 广告语获取方法及其装置、存储介质
CN111626058B (zh) * 2020-04-15 2023-05-30 井冈山大学 基于cr2神经网络的图像-文本双编码实现方法及系统
CN113535829B (zh) * 2020-04-17 2022-04-29 阿里巴巴集团控股有限公司 排序模型的训练方法、装置、电子设备及存储介质
CN111666969B (zh) * 2020-04-22 2021-11-23 北京百度网讯科技有限公司 计算图文相似度的方法、装置、电子设备和可读存储介质
CN111522986B (zh) * 2020-04-23 2023-10-10 北京百度网讯科技有限公司 图像检索方法、装置、设备和介质
CN111581418B (zh) * 2020-04-29 2023-04-28 山东科技大学 一种基于图像关联人物信息的目标人员搜索方法
CN111666753B (zh) * 2020-05-11 2023-04-18 清华大学深圳国际研究生院 基于全局和局部匹配的短文本匹配方法及系统
CN111639484A (zh) * 2020-05-15 2020-09-08 北京青牛技术股份有限公司 坐席通话内容的分析方法
CN111782808A (zh) * 2020-06-29 2020-10-16 北京市商汤科技开发有限公司 文档处理方法、装置、设备及计算机可读存储介质
CN112000803B (zh) * 2020-07-28 2024-05-14 北京小米松果电子有限公司 文本分类方法及装置、电子设备及计算机可读存储介质
CN112052352B (zh) * 2020-09-07 2024-04-30 北京达佳互联信息技术有限公司 视频排序方法、装置、服务器及存储介质
CN112347791B (zh) * 2020-11-06 2023-10-13 北京奇艺世纪科技有限公司 文本匹配模型的构建方法、系统、计算机设备及存储介质
CN112650867B (zh) * 2020-12-25 2024-09-24 北京中科闻歌科技股份有限公司 图片匹配方法、装置、电子设备以及存储介质
KR102311644B1 (ko) * 2021-01-29 2021-10-12 한국과학기술정보연구원 데이터분석장치 및 그 동작 방법
CN113392254A (zh) * 2021-03-29 2021-09-14 西安理工大学 一种基于上下文感知注意的图像文本检索方法
CN113221680B (zh) * 2021-04-26 2024-05-28 西北工业大学 基于文本动态引导视觉特征提炼的文本行人检索方法
CN113283497A (zh) * 2021-05-21 2021-08-20 广东博智林机器人有限公司 文本的匹配方法、装置、存储介质和处理器
CN113255667B (zh) * 2021-06-16 2021-10-08 北京世纪好未来教育科技有限公司 文本图像相似度评估方法、装置、电子设备及存储介质
CN113343664B (zh) * 2021-06-29 2023-08-08 京东科技信息技术有限公司 图像文本之间的匹配度的确定方法及装置
CN113283551B (zh) * 2021-07-22 2021-10-29 智者四海(北京)技术有限公司 多模态预训练模型的训练方法、训练装置及电子设备
CN113987115B (zh) * 2021-09-26 2024-10-15 华润数字科技(西安)有限公司 一种文本相似度计算方法、装置、设备及存储介质
CN115909374B (zh) * 2021-09-30 2024-06-18 腾讯科技(深圳)有限公司 一种信息识别方法、装置、设备及存储介质、程序产品
CN113947700A (zh) * 2021-10-18 2022-01-18 北京百度网讯科技有限公司 模型确定方法、装置、电子设备和存储器
CN113742556B (zh) * 2021-11-03 2022-02-08 南京理工大学 一种基于全局和局部对齐的多模态特征对齐方法
CN114154512A (zh) * 2021-12-09 2022-03-08 京东科技信息技术有限公司 小样本学习处理方法、装置、设备及存储介质
US12080050B2 (en) 2021-12-20 2024-09-03 KLA Corp. Machine learning using a global texture characteristic for semiconductor-based applications
CN114549874B (zh) * 2022-03-02 2024-03-08 北京百度网讯科技有限公司 多目标图文匹配模型的训练方法、图文检索方法及装置
CN114723969A (zh) * 2022-03-31 2022-07-08 福建农林大学 基于多尺度稀疏语义动态图的高质量特征匹配选择方法
CN114863135A (zh) * 2022-04-15 2022-08-05 同济大学 一种基于双流分层相似性推理的图像文本匹配方法
CN114782722B (zh) * 2022-04-29 2023-02-03 北京百度网讯科技有限公司 图文相似度的确定方法、装置及电子设备
CN114998607B (zh) * 2022-05-11 2023-01-31 北京医准智能科技有限公司 超声图像的特征提取方法、装置、电子设备及存储介质
CN114972910B (zh) * 2022-05-20 2023-05-23 北京百度网讯科技有限公司 图文识别模型的训练方法、装置、电子设备及存储介质
CN115017356A (zh) * 2022-06-01 2022-09-06 复旦大学 图像文本对的判断方法和装置
CN114896429B (zh) * 2022-07-12 2022-12-27 苏州浪潮智能科技有限公司 一种图文互检方法、系统、设备及计算机可读存储介质
US20240028949A1 (en) 2022-07-20 2024-01-25 Hitachi, Ltd. Reward feedback for learning control policies using natural language and vision data
JP7366204B1 (ja) 2022-07-21 2023-10-20 株式会社エクサウィザーズ 情報処理方法、コンピュータプログラム及び情報処理装置
CN115392389B (zh) * 2022-09-01 2023-08-29 北京百度网讯科技有限公司 跨模态信息匹配、处理方法、装置、电子设备及存储介质
CN115496140B (zh) * 2022-09-19 2023-07-25 北京邮电大学 一种多模态虚假新闻检测方法及系统
KR20240076861A (ko) * 2022-11-23 2024-05-31 한국전자기술연구원 영상-언어 정렬 모델에서 객체의 속성값을 이용한 이미지/텍스트 표현 벡터의 세분화된 표현 강화 방법
KR102594547B1 (ko) * 2022-11-28 2023-10-26 (주)위세아이텍 멀티모달 특성 기반의 이미지 검색 장치 및 방법
CN116308221B (zh) * 2023-05-25 2023-07-21 成都信通信息技术有限公司 一种基于人工智能的低碳奖章自动生成系统
CN117591901B (zh) * 2024-01-17 2024-05-03 合肥中科类脑智能技术有限公司 绝缘子破损检测方法、装置、存储介质和电子设备
CN118013069B (zh) * 2024-04-09 2024-07-23 杭州海康威视数字技术股份有限公司 一种图像检索方法、装置、存储介质和电子设备
CN118279925B (zh) * 2024-06-04 2024-07-30 鲁东大学 一种融合局部和全局语义的图像文本匹配算法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012939A (zh) * 2010-12-13 2011-04-13 中国人民解放军国防科学技术大学 综合颜色和局部不变特征匹配的动画场景自动标注方法
CN104036277A (zh) * 2014-06-03 2014-09-10 中国科学院电子学研究所 一种提取道路特征的方法和设备
CN104199826A (zh) * 2014-07-24 2014-12-10 北京大学 一种基于关联分析的异构媒体相似性计算方法和检索方法
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN106095829A (zh) * 2016-06-01 2016-11-09 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法
US9501724B1 (en) * 2015-06-09 2016-11-22 Adobe Systems Incorporated Font recognition and font similarity learning using a deep neural network

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4955060A (en) * 1987-07-02 1990-09-04 Nippon Sheet Glass Co., Ltd. Image recognition apparatus
US5491758A (en) * 1993-01-27 1996-02-13 International Business Machines Corporation Automatic handwriting recognition using both static and dynamic parameters
JP2011221794A (ja) * 2010-04-09 2011-11-04 Kddi Corp 画像選定装置
US8798362B2 (en) * 2011-08-15 2014-08-05 Hewlett-Packard Development Company, L.P. Clothing search in images
US9082035B2 (en) * 2011-08-29 2015-07-14 Qualcomm Incorporated Camera OCR with context information
CN102629275B (zh) * 2012-03-21 2014-04-02 复旦大学 面向跨媒体新闻检索的人脸-人名对齐方法及系统
CN103353875B (zh) * 2013-06-09 2016-12-28 华中科技大学 基于可视搜索的媒体交互方法及系统
WO2016004330A1 (en) * 2014-07-03 2016-01-07 Oim Squared Inc. Interactive content generation
CN104376105B (zh) * 2014-11-26 2017-08-25 北京航空航天大学 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法
CN104778242B (zh) * 2015-04-09 2018-07-13 复旦大学 基于图像动态分割的手绘草图图像检索方法及系统
US9836671B2 (en) * 2015-08-28 2017-12-05 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
CN106547744B (zh) * 2015-09-16 2020-11-06 杭州海康威视数字技术股份有限公司 一种图像检索方法及系统
JP6370281B2 (ja) * 2015-09-18 2018-08-08 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム
CN107683469A (zh) * 2015-12-30 2018-02-09 中国科学院深圳先进技术研究院 一种基于深度学习的产品分类方法及装置
US11934450B2 (en) * 2016-06-24 2024-03-19 Skusub LLC System and method for object matching using 3D imaging
CN106295631A (zh) * 2016-07-27 2017-01-04 新疆大学 一种图像维吾尔文单词识别方法及装置
CN106503055B (zh) * 2016-09-27 2019-06-04 天津大学 一种从结构化文本到图像描述的生成方法
CN107330100B (zh) * 2017-07-06 2020-04-03 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法
KR102466676B1 (ko) * 2017-08-16 2022-11-14 삼성전자주식회사 생체 센서의 성능 평가 방법, 생체 영상을 이용한 인증 방법 및 인증 방법을 적용한 전자 기기
CN110532571B (zh) * 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
US10740386B2 (en) * 2017-12-29 2020-08-11 MorphoTrak, LLC Multi-stage image matching techniques
KR102455468B1 (ko) * 2018-06-22 2022-10-19 한국전자통신연구원 객체의 3차원 모델을 복원하는 방법 및 장치
US20200293874A1 (en) * 2019-03-12 2020-09-17 Microsoft Technology Licensing, Llc Matching based intent understanding with transfer learning
US10949702B2 (en) * 2019-04-16 2021-03-16 Cognizant Technology Solutions India Pvt. Ltd. System and a method for semantic level image retrieval
CN110490946B (zh) * 2019-07-15 2023-07-04 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012939A (zh) * 2010-12-13 2011-04-13 中国人民解放军国防科学技术大学 综合颜色和局部不变特征匹配的动画场景自动标注方法
CN104036277A (zh) * 2014-06-03 2014-09-10 中国科学院电子学研究所 一种提取道路特征的方法和设备
CN104199826A (zh) * 2014-07-24 2014-12-10 北京大学 一种基于关联分析的异构媒体相似性计算方法和检索方法
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
US9501724B1 (en) * 2015-06-09 2016-11-22 Adobe Systems Incorporated Font recognition and font similarity learning using a deep neural network
CN106095829A (zh) * 2016-06-01 2016-11-09 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A new approach to cross-modal multimedia retrieval;Nikhil Rasiwasia;《Proceedings of the 18th ACM international conference on Multimedia》;20101029;第251-260页 *
基于深度学习与中心相关性度量算法的跨媒体检索方法研究;邹辉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215;全文 *

Also Published As

Publication number Publication date
US20200019807A1 (en) 2020-01-16
JP6887026B2 (ja) 2021-06-16
US20210312211A1 (en) 2021-10-07
KR20190129110A (ko) 2019-11-19
EP3683724A1 (en) 2020-07-22
JP2020522791A (ja) 2020-07-30
WO2019052403A1 (zh) 2019-03-21
CN110532571B (zh) 2022-11-18
EP3683724A4 (en) 2021-02-17
US11699298B2 (en) 2023-07-11
KR102235051B1 (ko) 2021-03-31
US11087166B2 (en) 2021-08-10
CN110532571A (zh) 2019-12-03
CN108288067A (zh) 2018-07-17

Similar Documents

Publication Publication Date Title
CN108288067B (zh) 图像文本匹配模型的训练方法、双向搜索方法及相关装置
US11093560B2 (en) Stacked cross-modal matching
US20190325342A1 (en) Embedding multimodal content in a common non-euclidean geometric space
US10621755B1 (en) Image file compression using dummy data for non-salient portions of images
US10459975B1 (en) Method and system for creating an automatic video summary
US10482146B2 (en) Systems and methods for automatic customization of content filtering
CN111353076A (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
US8527564B2 (en) Image object retrieval based on aggregation of visual annotations
KR20110033179A (ko) 이미지에 주석 달기
CN109145085B (zh) 语义相似度的计算方法及系统
CN114298122B (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
US10740385B1 (en) Identifying visual portions of visual media files responsive to search queries
CN115359383A (zh) 跨模态特征提取、检索以及模型的训练方法、装置及介质
WO2021136058A1 (zh) 一种处理视频的方法及装置
US10191921B1 (en) System for expanding image search using attributes and associations
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN114782722A (zh) 图文相似度的确定方法、装置及电子设备
CN112052350B (zh) 一种图片检索方法、装置、设备和计算机可读存储介质
CN117453859A (zh) 一种农业病虫害图文检索方法、系统及电子设备
Girdhar et al. Gibbs sampling strategies for semantic perception of streaming video data
CN116415624A (zh) 模型训练方法及装置、内容推荐方法及装置
CN112347289A (zh) 一种图像管理方法及终端
Ichimura et al. Analysis of tourist subjective data in smartphone based participatory sensing system by interactive growing hierarchical SOM
CN116051917B (zh) 一种训练图像量化模型的方法、检索图像的方法及装置
CN117892205B (zh) 多模态讽刺检测方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant