CN110532571B - 文本处理方法及相关装置 - Google Patents

文本处理方法及相关装置 Download PDF

Info

Publication number
CN110532571B
CN110532571B CN201910859507.5A CN201910859507A CN110532571B CN 110532571 B CN110532571 B CN 110532571B CN 201910859507 A CN201910859507 A CN 201910859507A CN 110532571 B CN110532571 B CN 110532571B
Authority
CN
China
Prior art keywords
text
sample
image
representation
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910859507.5A
Other languages
English (en)
Other versions
CN110532571A (zh
Inventor
马林
姜文浩
刘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910859507.5A priority Critical patent/CN110532571B/zh
Publication of CN110532571A publication Critical patent/CN110532571A/zh
Application granted granted Critical
Publication of CN110532571B publication Critical patent/CN110532571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/76Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries based on eigen-space representations, e.g. from pose or different illumination conditions; Shape manifolds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能技术领域,尤其涉及文本处理方法及相关装置。该方法包括:对文本样本进行分词;针对每个分词,确定该分词的向量,其中,不同分词的向量长度相同;将同一文本样本的分词的向量,输入给预先构建的用于提取文本的全局表示的卷积神经网络,得到该文本样本的全局表示;其中,用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入,该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。本申请得到的文本样本的全局表示是为了确定与其匹配的图像,从而进行文本样本与图像样本的匹配模型的训练。

Description

文本处理方法及相关装置
本申请是在2017.09.12提交中国专利局、申请号为201710817344.5且发明名称为“图像文本匹配模型的训练方法、双向搜索方法及相关装置”的分案申请。
技术领域
本申请涉及人工智能技术领域,尤其涉及文本处理方法及相关装置。
背景技术
图像与文本的理解一直是人工智能中最为重要的研究方向之一。其中一个重要的研究就是发掘图像和文本的关联关系。例如网页新闻中新闻文本内容和新闻图像表达的是相同的主题思想。也即,图像和文本之间并非绝对独立存在的,图像和文本之间存在匹配关系。故此,如何找到与给定图像匹配的文本,或者找到与给定文本匹配的图像成为业内关注的话题。
发明人发现,相关技术中通常通过以下两种方法实现图像与文本的匹配:
方法一、提取图像和文本各自的全局表示,将全局表示映射到相同的语义空间,在该语义空间建立图像和文本的全局表示之间的匹配关系,进而实现图像和文本的匹配。其中,全局表示反映了图像的全局特性,用于描述图像的整体特征,全局表示例如是颜色特征、形状特征和纹理特征等。
方法二、通过卷积神经网络得到图像的局部信息的局部表示。通过语法树信息得到文本的局部表示,进而学习图像与文本的局部表示的匹配关系。其中,局部表示反映了图像的局部表示,用于描述图像局部的细节特征。与全局表示相比,局部表示具有在图像中蕴含数量丰富,特征间相关度小,遮挡情况下不会因为部分特征的消失而影响其他特征的检测和匹配等的特点。
然而,以上两种方法中均采用单一方面的信息来进行图像和文本的匹配,即要么单独采用全局表示,要么单独采用局部表示。无论采用局部表示还是全局表示进行图像和文本的匹配,仅能从一个层面反映图像和文本之间的匹配度。对于内容丰富的图像,全局表示也许仅能够提取颜色特征、形状特征和纹理特征等,却无法展现局部表示的细节特征,故此能够反映的特征有限。而局部表示仅能从局部考量图像文本的匹配关系、无法体现出全局表示的特征。故此,以上两种方法都无法全面衡量图像和文本之间的匹配度。
发明内容
本申请实施例提供文本处理方法及相关装置,用以解决现有技术中存在的无法全面衡量图像和文本之间的匹配度的问题。
第一方面,本申请实施例提供的一种文本处理方法,所述方法包括:
对文本样本进行分词;
针对每个分词,确定该分词的向量,其中,不同分词的向量长度相同;
将同一文本样本的分词的向量,输入给预先构建的用于提取文本的全局表示的卷积神经网络,得到该文本样本的全局表示;其中,用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入,该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。
在一个实施例中,所述卷积层的卷积操作表示为:
Figure BDA0002199311220000021
其中,
Figure BDA0002199311220000022
r表示指定大小的视野域;l-1表示第l-1层卷积层(即上一层卷积层);l表示第l层卷积层(即下一层卷积层);Wl,f表示乘积矩阵;f表示第f个特征;i表示第i个位置信息;
Figure BDA0002199311220000023
表示第l层卷积层提取的特征对应i位置的f特征。
在一个实施例中,所述池化层的操作表示为:
Figure BDA0002199311220000031
其中,
Figure BDA0002199311220000032
表示池化层的输出;l+1表示池化层;
Figure BDA0002199311220000033
表示第l层提取的第M×i特征;M表示一个常数用于控制池化操作的大小。
在一个实施例中,所述方法还包括:
基于文本的全局表示,确定与所述文本样本匹配的图像。
在一个实施例中,还包括:
提取文本样本的局部表示;
提取图像样本的全局表示和局部表示;
根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
其中,该匹配模型将文本样本和图像样本各自的全局表示映射到指定语义空间,计算由文本样本和图像样本构成的异构样本对之间的全局表示的相似度;以及,将文本样本和图像样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
在一个实施例中,将文本样本和图像样本各自的全局表示映射到指定语义空间,具体包括:
分别将文本样本和图像样本各自的全局表示通过至少两层全连接层进行全连接操作,映射到指定语义空间;
将文本样本和图像样本各自的局部表示映射到指定语义空间,具体包括:
分别将文本样本和图像样本的各自的局部表示通过至少两层全连接层进行全连接操作,映射到指定语义空间;
其中,全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度;或者,
该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。
在一个实施例中,若预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度,该预置目标函数为:
Figure BDA0002199311220000041
其中,
Figure BDA0002199311220000042
表示预置目标函数;
Figure BDA0002199311220000043
表示文本样本;
Figure BDA0002199311220000044
表示图像样本;当确定全局表示的相似度时,d()表示文本样本和图像样本的全局表示的相似度;当确定局部表示的相似度时,d()表示文本样本和图像样本的局部表示的相似度;λ1和λ2均表示预置系数;
Figure BDA0002199311220000045
表示语义关联的异构样本对的相似度;
Figure BDA0002199311220000046
Figure BDA0002199311220000047
均表示非语义关联的异构样本对的相似度;u1和u2均表示预设阈值。
在一个实施例中,要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数为:
L(Si,Sl,Sj)=max(0,u3+d(Si,Sl)-d(Si,Sj))
其中,L(Si,Sl,Sj)表示要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数;Si,Sl表示同一图像样本语义关联的文本样本;Si,Sj表示不同图像样本关联的文本样本;当确定全局表示的相似度时,d()表示文本样本之间的的全局表示的相似度;当确定局部表示的相似度时,d()表示文本样本之间的局部表示的相似度;u3表示预设阈值。
在一个实施例中,提取图像样本的局部表示,具体包括:
将图像样本划分为指定数量的图像块,针对每个图像块,计算该图像块中包含指定类别的图像信息的概率;并,
选取指定数量的图像块中各指定类别的图像信息的最大概率;由各指定类别的图像信息的最大概率构成图像样本的局部表示。
在一个实施例中,基于文本的全局表示,确定与所述文本样本匹配的图像,包括:
接收参考样本,该参考样本为文本或图像;
提取该参考样本的全局表示和局部表示;
将参考样本的全局表示和局部输入给匹配模型,以使该匹配模型计算参考参考样本与相应素材的匹配度;其中,若参考样本为文本,则相应素材为图像;若参考样本为图像,则相应素材为文本;该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
选取匹配度大于指定匹配度的相应素材,作为与参考样本匹配的素材。
第二方面,本申请实施例提供一种文本处理装置,所述装置包括:
分词模块,用于对文本样本进行分词;
确定模块,用于针对每个分词,确定该分词的向量,其中,不同分词的向量长度相同;
全局表示提取模块,用于将同一文本样本的分词的向量,输入给预先构建的用于提取文本的全局表示的卷积神经网络,得到该文本样本的全局表示;其中,用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入,该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。
第三方面,本申请实施例提供一种计算设备,包括存储器和处理器,其中,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的程序指令执行本申请实施例任一所述的文本处理方法。
第四方面、本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如本申请实施例任一所述的文本处理方法。
本申请实施例中,得到的匹配度是基于图像和文本各自的全局表示和局部表示。将图像的细节特征到全局特征都考量在内,得到的匹配度更加准确和全面。故此,基于本申请实施例提供的匹配模型进行图像文本双向搜索时,搜索结果也会更加准确。
附图说明
图1所示为本申请实施例提供的应用场景示意图;
图2所示为本申请实施例一提供的文本处理方法的流程示意图;
图3所示为本申请实施例一提供的匹配模型的框图;
图4所示为本申请实施例一提供的计算图像特征的相似度的模型的框图;
图5所示为本申请实施例一提供的对图像信息的类别的示意图;
图6所示为本申请实施例一提取文本的全局表示的框图;
图7所示为本申请实施例二提供的文本处理方法的流程示意图;
图8所示为本申请实施例提供的图像文本双向搜索方法的流程示意图;
图9所示为本申请实施例提供的文本处理装置的结构示意图;
图10所示为本申请实施例提供的图像文本双向搜索装置的结构示意图;
图11为本申请实施例提供的计算设备的结构示意图。
具体实施方式
为了便于理解本申请实施例提供的技术方案,下面结合说明书附图对本申请实施例作进一步详细描述。
需要说明的是,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能等技术,具体通过如下实施例行说明:
为了能够全面的对图像和文本进行匹配,得到更加准确的匹配度,本申请实施例中,根据以下方法训练图像文本匹配模型,具体的:
提取图像样本的全局表示和局部表示;以及,
提取文本样本的全局表示和局部表示;
根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据异构样本对之间的全局表示的相似度和局部表示的相似度,确定异构样本对的匹配度。具体实施时,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
这样,得到的匹配度是基于图像和文本各自的全局表示和局部表示。将图像的细节特征到全局特征都考量在内,得到的匹配度更加准确和全面。故此,基于本申请实施例提供的匹配模型进行图像文本双向搜索时,搜索结果也会更加准确。
例如,可以参考图1其为本申请实施例提供的图像文本双向搜索方法的应用场景示意图。该场景例如可以包括用户10、终端设备11和服务器12。其中,所述终端设备11中可安装有各种客户端,如用于社交的博客客户端、微信客户端,用于了解时事的新闻客户端等。终端设备11的客户端和服务器12建立通信连接后,终端设备11的客户端可以对图像和/或文本提取全局表示和局部表示后发送给服务器12。或者终端设备11的客户端将图像和/或文本发送给服务器12,由服务器12提取图像和/或文本的全局特征和文本特征。然后,服务器12根据图像的全局特征和文本特征,基于该匹配模型搜索与该图像匹配的文本,或服务器12根据文本的全局特征和文本特征,基于该匹配模型搜索与该图像匹配的文本。然后,服务器12将搜索结果反馈给终端设备11。
其中,终端设备11和服务器12可通过通信网络进行通信连接,该网络可以为局域网、广域网等。终端设备11可以为手机、平板电脑、笔记本电脑、个人计算机等,服务器12可以为任何能够支持相应的图像文本匹配模型的训练和双向搜索的服务器设备。
需要说明的是,本申请实施例提供的方案,适用于任何需要根据文本检索图像,和/或,需要根据图像检索文本的场景中。例如,可以适用于云端相册管理(例如根据给定文本搜索出匹配的图像),微信朋友圈,QQ空间,QQ众创空间,以及微信与QQ的聊天环境中的图像和/或文本的搜索。
实施例一
参照图2,为本申请实施例一提供的图像文本匹配模型的训练方法的流程图,包括以下步骤:
步骤201:提取图像样本的全局表示和局部表示。
步骤202:提取文本样本的全局表示和局部表示。
需要说明的是,步骤201和步骤202的执行顺序不受限。
步骤203:根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
如图3所示,为本申请实施例提供的图像文本匹配模型的一种框图:在图3中,针对输入的图像,采用局部图像CNN(Convolutional Neural Network,卷积神经网络)提取图像的局部表示(即图中的局部图像表示);并,采用全局图像CNN提取图像的全局表示(即图中的全局图像表示)。针对输入的文本,采用局部语句编码器提取文本的局部表示(即图中的局部语句表示),并采用全局语句编码器提取文本的全局表示(即图中的全局语句表示)。在提取了图像和文本的局部表示和全局表示后,局部深度匹配表示将图像和文本各自的局部表示映射到指定语义空间,并在该指定语义空间中确定图像和文本构成的异构样本对之间的局部表示的相似度;同理,全局深度匹配表示将图像和文本各自的局部表示映射到指定语义空间,并在该指定语义空间中确定图像和文本构成的异构样本对之间的全局表示的相似度。然后,通过模型集成,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
为便于理解,本申请实施例提供图像文本匹配模型的训练方法,通过以下内容做进一步说明。
1)、关于映射到指定语义空间:
在一个实施例中,为了能够准确的得到图像和文本之间的全局表示的相似度以及局部表示的相似度,本申请实施例中,将图像样本和文本样本各自的全局表示映射到指定语义空间,具体包括:
分别将图像样本和文本样本各自的全局表示通过至少两层全连接层进行全连接操作,映射到指定语义空间;
将图像样本和文本样本各自的局部表示映射到指定语义空间,具体包括:
分别将图像样本和文本样本的各自的局部表示通过至少两层全连接层进行全连接操作,映射到指定语义空间;
其中,全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度;或者,
该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。
本申请中,通过多个全连接层来准确的分析文本和图像各自的全局表示和局部表示,以便于将文本和图像的全局表示和局部表示映射到同一语义空间中。而且,全连接层的参数是根据预置目标函数确定的。通过预置目标函数能够实现根据实际情况,准确确定出异构文本对的相似度(该相似度为全局表示的相似度,或局部表示的相似度)。
此外,通过多个全连接层,可以对文本与图像描述进行多层的非线性变换,进而可以进一步挖掘图像与文本之间的直接匹配关系。
进一步的,若预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度,该预置目标函数可如公式(1)所示:
Figure BDA0002199311220000111
其中,
Figure BDA0002199311220000112
表示预置目标函数;
Figure BDA0002199311220000113
表示文本样本;
Figure BDA0002199311220000114
表示图像样本;当确定全局表示的相似度时,d()表示文本样本和图像样本的全局表示的相似度;当确定局部表示的相似度时,d()表示文本样本和图像样本的局部表示的相似度;λ1和λ2均表示预置系数;
Figure BDA0002199311220000115
表示语义关联的异构样本对的相似度;
Figure BDA0002199311220000116
Figure BDA0002199311220000117
均表示非语义关联的异构样本对的相似度;u1和u2均表示预设阈值。
进一步的,考虑到一般一个图像都会与多个样本语义关联。例如,一幅风景图像中天空有鸟飞过,水里有鱼儿游泳,那么对应的语义可以包括鸟儿在天空飞翔和鱼儿在水里游来游去。故此,为了提高匹配模型的准确性,需要使得与同一图像语义关联的文本之间的相似度,也要高于这些文本与其他图像具有语义关联关系的文本之间的相似度。预置目标函数在满足如公式(1)所述条件的基础上,需要同时要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。为达到该目的,同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的公式如公式(2)所示:
L(Si,Sl,Sj)=max(0,u3+d(Si,Sl)-d(Si,Sj)) (2)
其中,L(Si,Sl,Sj)表示要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数;Si,Sl表示同一图像样本语义关联的文本样本;Si,Sj表示不同图像样本关联的文本样本;当确定全局表示的相似度时,d()表示文本样本之间的的全局表示的相似度;当确定局部表示的相似度时,d()表示文本样本之间的局部表示的相似度;u3表示预设阈值。
当然,具体实施时,可以将公式(1)和公式(2)进行整合,得到如公式(3)或公式(4)所述形式的预置目标函数,得到的预置目标函数能够满足上述如公式(1)和公式(2)所述的要求:
Figure BDA0002199311220000121
Figure BDA0002199311220000122
需要说明的是,具体实施时,可以根据预置目标函数的要求设计具体的数学表达方式,本申请实施例对此不作限定。
根据预置目标函数的作用,可以训练如图4所示的深度匹配模型。图4中,左侧输入image embedding为用于表示图像的特征向量(该特征向量为全局表示或局部表示的特征向量),右侧输入sentence embending为用于表示文本的全局特征的特征向量(该特征向量表示全局表示或局部表示)。图像和文本的特征向量映射到同一指定语义空间后,计算特征向量之间的距离。例如,图4中,
Figure BDA0002199311220000123
Sm表示文本的特征向量,I1和In表示图像的特征向量。在该指定语义空间中,根据预置目标函数计算图像和文本之间的距离。若采用的特征向量为用于表示全局表示的特征向量,则计算的结果为全局表示之间的相似度,若采用的特征向量为表示局部表示的特征向量,则计算的结果为局部表示之间的相似度。
2)关于图像样本全局表示和局部表示的提取:
具体实施时可以采用现有技术的方法提取图像的全局表示,本申请实施例对此不作限定。例如采用图像的卷积神经网络的全连接层的特征表示图像的全局表示,如前述的CNN,这里的CNN可以选择但不限于VGG(Very Deep Convolutional Networks for Large-Scale Image Recognition,大规模图像识别的深度卷积网络),ResNet(ResidualNetworks,残差网络),Inception,Inception V3,Inception V4等。当然,也可以采用FCN(Fully Convolutional Networks for Semantic Segmentation,全卷积网络)等网络模型来提取图像的全局表示。
这里,对本申请实施例提供的提取图像样本的局部表示做进一步说明,具体可执行为:
将图像样本划分为指定数量的图像块,针对每个图像块,计算该图像块中包含指定类别的图像信息的概率;并,
选取指定数量的图像块中各指定类别的图像信息的最大概率;由各指定类别的图像信息的最大概率构成图像样本的局部表示。
例如,如图5所示,图5中Image CNN表示采用图像CNN提取图像块的特征。具体的CNN内部各层的设计可以根据现有技术实现。本申请的重点在于,对于给定的一幅图像,对其进行分块后,提取各图像块的特征。假设图像信息的类别共有5种,分别为人、草地、天空、狗和猫。若假设提取的图像块有4个,则针对每个图像块计算该图像块包括以上5种类别的图像信息的概率。然后,针对每种类别,从4个图像块的该类别的概率中选取最大概率。由各类别的最大概率构成图像样本的全局表示。
当然需要说明的是,具体实施时,也可以进一步针对每种类别,比较该类别的最大概率与对应概率阈值,来判断样本图像中是否至少有一个图像块包含该类别的图像信息。例如,对于人这一类别,其在4个图像块中最大概率为0.99,对应概率阈值为0.8,则说明4个图像块中至少有一个图像块包含人。
3)、关于文本样本全局表示和局部表示的提取:
本申请实施例中,为了能够更好的提取出文本样本的全局表示,包括以下步骤:
对文本样本进行分词;
针对每个分词,确定该分词的向量,其中,不同分词的向量长度相同;
将同一文本样本的分词的向量,输入给预先构建的用于提取文本的全局表示的神经网络,得到该文本样本的全局表示;其中,用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入,该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。
例如,具体实施时可用如下公式(5)表示卷积层的卷积操作:
Figure BDA0002199311220000141
其中,
Figure BDA0002199311220000142
在公式(5)中,r表示指定大小的视野域;l-1表示第l-1层卷积层(即上一层卷积层);l表示第l层卷积层(即下一层卷积层);Wl,f表示乘积矩阵;f表示第f个特征;i表示第i个位置信息;
Figure BDA0002199311220000143
表示第l层卷积层提取的特征对应i位置的f特征。
其中,池化层的操作可以用如下公式(6)表示:
Figure BDA0002199311220000144
其中,
Figure BDA0002199311220000145
表示池化层的输出;l+1表示池化层;
Figure BDA0002199311220000146
表示第l层提取的第M×i特征;M表示一个常数用于控制池化操作的大小。
例如如图6所示,例如输入的文本为“a young child run through a largefield of grass”,通过文本卷积神经网络(即图中的Sentence CNN)来提取文本的全局表示。具体的,该Sentence CNN中包括多个卷积层convolution来提取文本的特征,然后通过最大池化层(max-pooling)来对卷积层提取的特征进行整合降维,从而得到文本的全局表示。
这样,本申请实施例通过多个卷积层实现对文本样本特征的提取,然后通过池化层来过滤无用的特征信息。而其中,在使用多个卷积层进行卷积操作时,采用的是指定大小的视野域,由于该视野域中包括了多个分词的特征,所以相当于实现了文本样本的全局表示中学习了相邻分词之间的组织以及交互信息,使得最终提取的全局表示更加合理准确。
具体实施时,可以采用现有的word2vec工具将每个分词用一个定长的向量来表示。
此外,用于提取文本的全局表示的神经网络可以是卷积神经网络,也可以是RNN(Recurrent Neural Networks,循环神经网络)。
文本样本的局部表示可以采用现有技术的方法提取,可以更集中于每一个分词,譬如采用传统的TF-IDF(term frequency–inverse document frequency)表示,或者Fisher Vector作用于每一个分词的向量上,或者分词的向量的平均值。这样的表示更加集中于分词本身,而不是整体考虑每个分词跟分词之间的相关性,故此可以被认为是文本的局部表示。
下面,结合实施例二对本申请实施例中基于上述匹配模型的图像文本双向搜索方法做进一步说明。
实施例二
如图7所示,为本申请实施例中提供的图像文本匹配模型的训练方法的具体实施例的流程示意图,该方法包括以下步骤:
步骤701:基于全局图像表示CNN提取图像样本的全局表示。
步骤702:将图像样本划分为指定数量的图像块,基于局部图像CNN针对每个图像块,计算该图像块中包含指定类别的图像信息的概率;并,选取指定数量的图像块中各指定类别的图像信息的最大概率;由各指定类别的图像信息的最大概率构成图像样本的局部表示。
步骤703:对文本样本进行分词;针对每个分词,确定该分词的向量,其中,不同分词的向量长度相同;将同一文本样本的分词的向量,输入给预先构建的用于提取文本的全局表示的卷积神经网络,得到该文本样本的全局表示;其中,用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入,该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。
步骤704:提取文本样本的局部表示。
其中,步骤701-步骤704的执行顺序不受限。
步骤705:分别将图像样本和文本样本各自的全局表示通过至少两层全连接层进行全连接操作,映射到指定语义空间,并计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度,其中,全连接层的参数根据预置目标函数训练获得。
步骤706:分别将图像样本和文本样本的各自的局部表示通过至少两层全连接层进行全连接操作,映射到指定语义空间,计算异构样本对之间的局部表示的相似度,其中,全连接层的参数根据预置目标函数训练获得。
其中,步骤705和步骤706的执行顺序不受限。
此外,预置目标函数已在实施例一中说明,此处不再赘述。
步骤707:根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
本申请实施例中,通过图像块提取图像的局部表示,通过多个卷积层和池化层提取文本的全局表示,能够得到文本的分词之间的关联关系,使得提取的特征更加准确和全面。然后,通过预置目标函数使得语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度,从而使得最终相似度的计算更加符合实际需求,提高图像和文本匹配的准确性。
实施例三
如图8所示,为基于实施例一中的匹配模型的图像文本双向搜索方法的流程图,包括以下步骤:
步骤801:接收参考样本,该参考样本为文本或图像。
步骤802:提取该参考样本的全局表示和局部表示。
步骤803:将参考样本的全局表示和局部输入给匹配模型,以使该匹配模型计算参考参考样本与相应素材的匹配度;其中,若参考样本为文本,则相应素材为图像;若参考样本为图像,则相应素材为文本;该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度。
其中,可以建立素材库,计算参考样本与素材库中各相应素材的匹配度。具体计算匹配度的方法已在实施例一中说明,这里不再赘述。
步骤804:选取匹配度大于指定匹配度的相应素材,作为与参考样本匹配的素材。
本申请实施例实现了基于全局表示和局部表示的匹配模型来搜索参考样本的相应素材,使得最终得到的匹配结果更加准确。。例如搜索与文本匹配的图像,或者搜索与图像匹配的问题。
实施例四
基于与实施例一相同的发明构思,本申请实施例还提供一种图像文本匹配模型的训练装置,该装置的原理和有益效果与上述方法实施例中所述内容相似,在此不再赘述。
如图9所示,为该装置的结构示意图,所述装置包括:
图像特征提取模块901,用于提取图像样本的全局表示和局部表示;
文本特征提取模块902,用于提取文本样本的全局表示和局部表示;
训练模块903,用于根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
进一步的,训练模块,具体包括:
全局训练单元,用于分别将图像样本和文本样本各自的全局表示通过至少两层全连接层进行全连接操作,映射到指定语义空间;
局部训练单元,用于分别将图像样本和文本样本的各自的局部表示通过至少两层全连接层进行全连接操作,映射到指定语义空间;
其中,全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度;或者,
该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。
进一步的,若预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度,该预置目标函数为:
Figure BDA0002199311220000181
其中,
Figure BDA0002199311220000182
表示预置目标函数;
Figure BDA0002199311220000183
表示文本样本;
Figure BDA0002199311220000184
表示图像样本;当确定全局表示的相似度时,d()表示文本样本和图像样本的全局表示的相似度;当确定局部表示的相似度时,d()表示文本样本和图像样本的局部表示的相似度;λ1和λ2均表示预置系数;
Figure BDA0002199311220000185
表示语义关联的异构样本对的相似度;
Figure BDA0002199311220000186
Figure BDA0002199311220000187
均表示非语义关联的异构样本对的相似度;u1和u2均表示预设阈值。
进一步的,要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数为:
L(Si,Sl,Sj)=max(0,u3+d(Si,Sl)-d(Si,Sj))
其中,L(Si,Sl,Sj)表示要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数;Si,Sl表示同一图像样本语义关联的文本样本;Si,Sj表示不同图像样本关联的文本样本;当确定全局表示的相似度时,d()表示文本样本之间的的全局表示的相似度;当确定局部表示的相似度时,d()表示文本样本之间的局部表示的相似度;u3表示预设阈值。
进一步的,图像特征提取模块,具体用于将图像样本划分为指定数量的图像块,针对每个图像块,计算该图像块中包含指定类别的图像信息的概率;并,
选取指定数量的图像块中各指定类别的图像信息的最大概率;由各指定类别的图像信息的最大概率构成图像样本的局部表示。
进一步的,文本特征提取模块,具体用于对文本样本进行分词;
针对每个分词,确定该分词的向量,其中,不同分词的向量长度相同;
将同一文本样本的分词的向量,输入给预先构建的用于提取文本的全局表示的卷积神经网络,得到该文本样本的全局表示;其中,用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入,该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。
实施例五
基于与实施例二相同的发明构思,本申请实施例还提供一种图像文本双向搜索装置,该装置的原理和有益效果与上述方法实施例中所述内容相似,在此不再赘述。
如图10所示,为该装置的结构示意图,所述装置包括:
参考样本接收模块1001,用于接收参考样本,该参考样本为文本或图像;
参考样本特征提取模块1002,用于提取该参考样本的全局表示和局部表示;
搜索模块1003,用于将参考样本的全局表示和局部输入给匹配模型,以使该匹配模型计算参考参考样本与相应素材的匹配度;其中,若参考样本为文本,则相应素材为图像;若参考样本为图像,则相应素材为文本;该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;
选择模块1004,用于选取匹配度大于指定匹配度的相应素材,作为与参考样本匹配的素材。
实施例六
本申请实施例五还提供了一种计算设备,该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等。如图11所示,该计算设备可以包括中央处理器(Center Processing Unit,CPU)1101、存储器1102、输入设备1103,输出设备1104等,输入设备可以包括键盘、鼠标、触摸屏等,输出设备可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本申请实施例中,存储器可以用于存储图像文本匹配模型的训练方法和/或图像文本双向搜索方法的程序指令。处理器通过调用存储器存储的程序指令,处理器用于按照获得的程序指令执行:提取图像样本的全局表示和局部表示;以及,提取文本样本的全局表示和局部表示;根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
或者,处理器通过调用存储器存储的程序指令,处理器用于按照获得的程序指令执行:接收参考样本,该参考样本为文本或图像;提取该参考样本的全局表示和局部表示;将参考样本的全局表示和局部输入给匹配模型,以使该匹配模型计算参考参考样本与相应素材的匹配度;其中,若参考样本为文本,则相应素材为图像;若参考样本为图像,则相应素材为文本;该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;选取匹配度大于指定匹配度的相应素材,作为与参考样本匹配的素材。
实施例七
本申请实施例六提供了一种计算机存储介质,用于储存为上述计算设备所用的计算机程序指令,其包含用于执行上述图像文本匹配模型的训练方法和/或图像文本双向搜索方法的程序。
所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (9)

1.一种文本处理方法,其特征在于,所述方法包括:
对文本样本进行分词,并针对每个分词,确定该分词的向量,其中,不同分词的向量长度相同;
将同一文本样本的分词的向量,输入给预先构建的用于提取文本的全局表示的卷积神经网络,得到该文本样本的全局表示;其中,用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入,该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征;
提取文本样本的局部表示;以及,
提取图像样本的全局表示和局部表示;
根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度;
其中,通过全连接层将图像样本和文本样本各自的全局表示和局部表示映射到指定语义空间;全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度;或者,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述卷积层的卷积操作表示为:
Figure FDA0003833932520000021
其中,
Figure FDA0003833932520000022
r表示指定大小的视野域;l-1表示第l-1层卷积层, 即上一层卷积层;l表示第l层卷积层, 即下一层卷积层;Wl,f表示乘积矩阵;f表示第f个特征;i表示第i个位置信息;
Figure FDA0003833932520000023
表示第l层卷积层提取的特征对应i位置的f特征。
3.根据权利要求1所述的方法,其特征在于,所述池化层的操作表示为:
Figure FDA0003833932520000024
其中,
Figure FDA0003833932520000025
表示池化层的输出;l+1表示池化层;
Figure FDA0003833932520000026
表示第l层提取的第M×i特征;M表示一个常数用于控制池化操作的大小。
4.根据权利要求1-3任一所述的方法,其特征在于,所述方法还包括:
基于文本的全局表示,确定与所述文本样本匹配的图像。
5.根据权利要求1所述的方法,其特征在于,提取图像样本的局部表示,具体包括:
将图像样本划分为指定数量的图像块,针对每个图像块,计算该图像块中包含指定类别的图像信息的概率;并,
选取指定数量的图像块中各指定类别的图像信息的最大概率;
由各指定类别的图像信息的最大概率构成图像样本的局部表示。
6.根据权利要求5所述的方法,其特征在于,还包括:
针对每种指定类别,比较该指定类别的最大概率与该指定类别对应的概率阈值;且,
若该指定类别的最大概率大于该指定类别对应的概率阈值,则确定所述指定数量的图像块中至少有一个图像块包含该指定类别的图像信息。
7.一种文本处理装置,其特征在于,所述装置包括:
分词模块,用于对文本样本进行分词;
确定模块,用于针对每个分词,确定该分词的向量,其中,不同分词的向量长度相同;
全局表示提取模块,用于将同一文本样本的分词的向量,输入给预先构建的用于提取文本的全局表示的卷积神经网络,得到该文本样本的全局表示;其中,用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入,该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征;
文本特征提取模块,用于提取文本样本的局部表示;
图像特征提取模块,用于提取图像样本的全局表示和局部表示;
训练模块,用于根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度;
其中,通过全连接层将图像样本和文本样本各自的全局表示和局部表示映射到指定语义空间;全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度;或者,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。
8.一种计算设备,其特征在于,包括存储器和处理器,其中,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如权利要求1~6任一所述的文本处理方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如权利要求1~6任一所述的文本处理方法。
CN201910859507.5A 2017-09-12 2017-09-12 文本处理方法及相关装置 Active CN110532571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910859507.5A CN110532571B (zh) 2017-09-12 2017-09-12 文本处理方法及相关装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910859507.5A CN110532571B (zh) 2017-09-12 2017-09-12 文本处理方法及相关装置
CN201710817344.5A CN108288067B (zh) 2017-09-12 2017-09-12 图像文本匹配模型的训练方法、双向搜索方法及相关装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201710817344.5A Division CN108288067B (zh) 2017-09-12 2017-09-12 图像文本匹配模型的训练方法、双向搜索方法及相关装置

Publications (2)

Publication Number Publication Date
CN110532571A CN110532571A (zh) 2019-12-03
CN110532571B true CN110532571B (zh) 2022-11-18

Family

ID=62831544

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910859507.5A Active CN110532571B (zh) 2017-09-12 2017-09-12 文本处理方法及相关装置
CN201710817344.5A Active CN108288067B (zh) 2017-09-12 2017-09-12 图像文本匹配模型的训练方法、双向搜索方法及相关装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201710817344.5A Active CN108288067B (zh) 2017-09-12 2017-09-12 图像文本匹配模型的训练方法、双向搜索方法及相关装置

Country Status (6)

Country Link
US (2) US11087166B2 (zh)
EP (1) EP3683724A4 (zh)
JP (1) JP6887026B2 (zh)
KR (1) KR102235051B1 (zh)
CN (2) CN110532571B (zh)
WO (1) WO2019052403A1 (zh)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6333871B2 (ja) * 2016-02-25 2018-05-30 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
CN110532571B (zh) 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
CN110147806B (zh) * 2018-10-08 2023-04-07 腾讯科技(深圳)有限公司 图像描述模型的训练方法、装置及存储介质
US11216512B2 (en) * 2018-10-08 2022-01-04 Fujitsu Limited Accessible machine learning backends
CN109858555B (zh) 2019-02-12 2022-05-17 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、设备及可读存储介质
CN109933802B (zh) * 2019-03-25 2023-05-26 腾讯科技(深圳)有限公司 图文匹配方法、装置及存储介质
CN110111885B (zh) * 2019-05-09 2023-09-19 腾讯科技(深圳)有限公司 属性预测方法、装置、计算机设备及计算机可读存储介质
CN110209859B (zh) * 2019-05-10 2022-12-27 腾讯科技(深圳)有限公司 地点识别及其模型训练的方法和装置以及电子设备
CN110134965B (zh) * 2019-05-21 2023-08-18 北京百度网讯科技有限公司 用于信息处理的方法、装置、设备和计算机可读存储介质
CN110516085B (zh) 2019-07-11 2022-05-17 西安电子科技大学 基于双向注意力的图像文本互检索方法
CN110598739B (zh) * 2019-08-07 2023-06-23 广州视源电子科技股份有限公司 图文转换方法、设备、智能交互方法、设备及系统、客户端、服务器、机器、介质
CN110532414B (zh) * 2019-08-29 2022-06-21 深圳市商汤科技有限公司 一种图片检索方法及装置
CN112528624B (zh) * 2019-09-03 2024-05-14 阿里巴巴集团控股有限公司 文本处理方法、装置、搜索方法以及处理器
CN112529986B (zh) * 2019-09-19 2023-09-22 百度在线网络技术(北京)有限公司 图文相关性的计算模型建立方法、计算方法及装置
CN112580658B (zh) * 2019-09-29 2024-03-12 中国移动通信集团辽宁有限公司 图像语义描述方法、装置、计算设备及计算机存储介质
CN110825901A (zh) * 2019-11-11 2020-02-21 腾讯科技(北京)有限公司 基于人工智能的图文匹配方法、装置、设备及存储介质
WO2021098585A1 (en) * 2019-11-22 2021-05-27 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Image search based on combined local and global information
CN111091010A (zh) * 2019-11-22 2020-05-01 京东方科技集团股份有限公司 相似度确定、网络训练、查找方法及装置和存储介质
CN110991533B (zh) * 2019-12-03 2023-08-04 Oppo广东移动通信有限公司 图像识别方法、识别装置、终端设备及可读存储介质
CN113094550B (zh) * 2020-01-08 2023-10-24 百度在线网络技术(北京)有限公司 视频检索方法、装置、设备和介质
CN111309950A (zh) * 2020-01-18 2020-06-19 青柠知享科技(深圳)有限公司 电商交易信息交互方法、电商平台和可读存储介质
CN111309951A (zh) * 2020-01-23 2020-06-19 北京达佳互联信息技术有限公司 广告语获取方法及其装置、存储介质
CN111626058B (zh) * 2020-04-15 2023-05-30 井冈山大学 基于cr2神经网络的图像-文本双编码实现方法及系统
CN113535829B (zh) * 2020-04-17 2022-04-29 阿里巴巴集团控股有限公司 排序模型的训练方法、装置、电子设备及存储介质
CN111666969B (zh) * 2020-04-22 2021-11-23 北京百度网讯科技有限公司 计算图文相似度的方法、装置、电子设备和可读存储介质
CN111522986B (zh) * 2020-04-23 2023-10-10 北京百度网讯科技有限公司 图像检索方法、装置、设备和介质
CN111581418B (zh) * 2020-04-29 2023-04-28 山东科技大学 一种基于图像关联人物信息的目标人员搜索方法
CN111666753B (zh) * 2020-05-11 2023-04-18 清华大学深圳国际研究生院 基于全局和局部匹配的短文本匹配方法及系统
CN111639484A (zh) * 2020-05-15 2020-09-08 北京青牛技术股份有限公司 坐席通话内容的分析方法
CN111782808A (zh) * 2020-06-29 2020-10-16 北京市商汤科技开发有限公司 文档处理方法、装置、设备及计算机可读存储介质
CN112000803B (zh) * 2020-07-28 2024-05-14 北京小米松果电子有限公司 文本分类方法及装置、电子设备及计算机可读存储介质
CN112052352B (zh) * 2020-09-07 2024-04-30 北京达佳互联信息技术有限公司 视频排序方法、装置、服务器及存储介质
CN112347791B (zh) * 2020-11-06 2023-10-13 北京奇艺世纪科技有限公司 文本匹配模型的构建方法、系统、计算机设备及存储介质
CN112650867A (zh) * 2020-12-25 2021-04-13 北京中科闻歌科技股份有限公司 图片匹配方法、装置、电子设备以及存储介质
KR102311644B1 (ko) * 2021-01-29 2021-10-12 한국과학기술정보연구원 데이터분석장치 및 그 동작 방법
CN113392254A (zh) * 2021-03-29 2021-09-14 西安理工大学 一种基于上下文感知注意的图像文本检索方法
CN113221680B (zh) * 2021-04-26 2024-05-28 西北工业大学 基于文本动态引导视觉特征提炼的文本行人检索方法
CN113283497A (zh) * 2021-05-21 2021-08-20 广东博智林机器人有限公司 文本的匹配方法、装置、存储介质和处理器
CN113255667B (zh) * 2021-06-16 2021-10-08 北京世纪好未来教育科技有限公司 文本图像相似度评估方法、装置、电子设备及存储介质
CN113343664B (zh) * 2021-06-29 2023-08-08 京东科技信息技术有限公司 图像文本之间的匹配度的确定方法及装置
CN113283551B (zh) * 2021-07-22 2021-10-29 智者四海(北京)技术有限公司 多模态预训练模型的训练方法、训练装置及电子设备
CN113987115A (zh) * 2021-09-26 2022-01-28 润联智慧科技(西安)有限公司 一种文本相似度计算方法、装置、设备及存储介质
CN115909374B (zh) * 2021-09-30 2024-06-18 腾讯科技(深圳)有限公司 一种信息识别方法、装置、设备及存储介质、程序产品
CN113947700A (zh) * 2021-10-18 2022-01-18 北京百度网讯科技有限公司 模型确定方法、装置、电子设备和存储器
CN113742556B (zh) * 2021-11-03 2022-02-08 南京理工大学 一种基于全局和局部对齐的多模态特征对齐方法
CN114154512A (zh) * 2021-12-09 2022-03-08 京东科技信息技术有限公司 小样本学习处理方法、装置、设备及存储介质
US20230196732A1 (en) * 2021-12-20 2023-06-22 Kla Corporation Machine learning using a global texture characteristic for semiconductor-based applications
CN114549874B (zh) * 2022-03-02 2024-03-08 北京百度网讯科技有限公司 多目标图文匹配模型的训练方法、图文检索方法及装置
CN114782722B (zh) * 2022-04-29 2023-02-03 北京百度网讯科技有限公司 图文相似度的确定方法、装置及电子设备
CN114998607B (zh) * 2022-05-11 2023-01-31 北京医准智能科技有限公司 超声图像的特征提取方法、装置、电子设备及存储介质
CN114972910B (zh) * 2022-05-20 2023-05-23 北京百度网讯科技有限公司 图文识别模型的训练方法、装置、电子设备及存储介质
CN114896429B (zh) * 2022-07-12 2022-12-27 苏州浪潮智能科技有限公司 一种图文互检方法、系统、设备及计算机可读存储介质
JP7366204B1 (ja) 2022-07-21 2023-10-20 株式会社エクサウィザーズ 情報処理方法、コンピュータプログラム及び情報処理装置
CN115392389B (zh) * 2022-09-01 2023-08-29 北京百度网讯科技有限公司 跨模态信息匹配、处理方法、装置、电子设备及存储介质
CN115496140B (zh) * 2022-09-19 2023-07-25 北京邮电大学 一种多模态虚假新闻检测方法及系统
KR20240076861A (ko) * 2022-11-23 2024-05-31 한국전자기술연구원 영상-언어 정렬 모델에서 객체의 속성값을 이용한 이미지/텍스트 표현 벡터의 세분화된 표현 강화 방법
KR102594547B1 (ko) * 2022-11-28 2023-10-26 (주)위세아이텍 멀티모달 특성 기반의 이미지 검색 장치 및 방법
CN116308221B (zh) * 2023-05-25 2023-07-21 成都信通信息技术有限公司 一种基于人工智能的低碳奖章自动生成系统
CN117591901B (zh) * 2024-01-17 2024-05-03 合肥中科类脑智能技术有限公司 绝缘子破损检测方法、装置、存储介质和电子设备
CN118013069A (zh) * 2024-04-09 2024-05-10 杭州海康威视数字技术股份有限公司 一种图像检索方法、装置、存储介质和电子设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011221794A (ja) * 2010-04-09 2011-11-04 Kddi Corp 画像選定装置
CN103353875A (zh) * 2013-06-09 2013-10-16 华中科技大学 基于可视搜索的媒体交互方法及系统
KR20140059834A (ko) * 2011-08-29 2014-05-16 퀄컴 인코포레이티드 콘텍스트 정보를 이용한 모바일 디바이스 상에서의 광학적 문자 인식
CN104376105A (zh) * 2014-11-26 2015-02-25 北京航空航天大学 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法
CN104778242A (zh) * 2015-04-09 2015-07-15 复旦大学 基于图像动态分割的手绘草图图像检索方法及系统
CN106095829A (zh) * 2016-06-01 2016-11-09 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法
CN106295631A (zh) * 2016-07-27 2017-01-04 新疆大学 一种图像维吾尔文单词识别方法及装置
CN106503055A (zh) * 2016-09-27 2017-03-15 天津大学 一种从结构化文本到图像描述的生成方法
JP2017059082A (ja) * 2015-09-18 2017-03-23 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム
WO2017113232A1 (zh) * 2015-12-30 2017-07-06 中国科学院深圳先进技术研究院 一种基于深度学习的产品分类方法及装置
CN107330100A (zh) * 2017-07-06 2017-11-07 北京大学深圳研究生院 基于多视图联合嵌入空间的图像‑文本双向检索方法
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4955060A (en) * 1987-07-02 1990-09-04 Nippon Sheet Glass Co., Ltd. Image recognition apparatus
US5491758A (en) * 1993-01-27 1996-02-13 International Business Machines Corporation Automatic handwriting recognition using both static and dynamic parameters
CN102012939B (zh) * 2010-12-13 2012-11-14 中国人民解放军国防科学技术大学 综合颜色和局部不变特征匹配的动画场景自动标注方法
US8798362B2 (en) * 2011-08-15 2014-08-05 Hewlett-Packard Development Company, L.P. Clothing search in images
CN102629275B (zh) * 2012-03-21 2014-04-02 复旦大学 面向跨媒体新闻检索的人脸-人名对齐方法及系统
CN104036277A (zh) * 2014-06-03 2014-09-10 中国科学院电子学研究所 一种提取道路特征的方法和设备
US9177225B1 (en) * 2014-07-03 2015-11-03 Oim Squared Inc. Interactive content generation
CN104199826B (zh) * 2014-07-24 2017-06-30 北京大学 一种基于关联分析的异构媒体相似性计算方法和检索方法
CN104834747B (zh) * 2015-05-25 2018-04-27 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
US9501724B1 (en) * 2015-06-09 2016-11-22 Adobe Systems Incorporated Font recognition and font similarity learning using a deep neural network
US9836671B2 (en) * 2015-08-28 2017-12-05 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
CN106547744B (zh) * 2015-09-16 2020-11-06 杭州海康威视数字技术股份有限公司 一种图像检索方法及系统
US11934450B2 (en) * 2016-06-24 2024-03-19 Skusub LLC System and method for object matching using 3D imaging
KR102466676B1 (ko) * 2017-08-16 2022-11-14 삼성전자주식회사 생체 센서의 성능 평가 방법, 생체 영상을 이용한 인증 방법 및 인증 방법을 적용한 전자 기기
CN110532571B (zh) * 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
US10740386B2 (en) * 2017-12-29 2020-08-11 MorphoTrak, LLC Multi-stage image matching techniques
KR102455468B1 (ko) * 2018-06-22 2022-10-19 한국전자통신연구원 객체의 3차원 모델을 복원하는 방법 및 장치
US20200293874A1 (en) * 2019-03-12 2020-09-17 Microsoft Technology Licensing, Llc Matching based intent understanding with transfer learning
US10949702B2 (en) * 2019-04-16 2021-03-16 Cognizant Technology Solutions India Pvt. Ltd. System and a method for semantic level image retrieval

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011221794A (ja) * 2010-04-09 2011-11-04 Kddi Corp 画像選定装置
KR20140059834A (ko) * 2011-08-29 2014-05-16 퀄컴 인코포레이티드 콘텍스트 정보를 이용한 모바일 디바이스 상에서의 광학적 문자 인식
CN103353875A (zh) * 2013-06-09 2013-10-16 华中科技大学 基于可视搜索的媒体交互方法及系统
CN104376105A (zh) * 2014-11-26 2015-02-25 北京航空航天大学 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法
CN104778242A (zh) * 2015-04-09 2015-07-15 复旦大学 基于图像动态分割的手绘草图图像检索方法及系统
JP2017059082A (ja) * 2015-09-18 2017-03-23 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム
WO2017113232A1 (zh) * 2015-12-30 2017-07-06 中国科学院深圳先进技术研究院 一种基于深度学习的产品分类方法及装置
CN106095829A (zh) * 2016-06-01 2016-11-09 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法
CN106295631A (zh) * 2016-07-27 2017-01-04 新疆大学 一种图像维吾尔文单词识别方法及装置
CN106503055A (zh) * 2016-09-27 2017-03-15 天津大学 一种从结构化文本到图像描述的生成方法
CN107330100A (zh) * 2017-07-06 2017-11-07 北京大学深圳研究生院 基于多视图联合嵌入空间的图像‑文本双向检索方法
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Deep Fragment Embeddings for Bidirectional Image Sentence Mapping;Andrej Karpathy等;《arXiv》;20140622;1-9 *
Image caption with global-local attention;Linghui Li等;《AAAI17》;20170204;4133-4139 *
image-sentence multimodal embedding with Instructive objectives;Jianhao Wang等;《NIPS2016》;20161210;1-8 *
Multimodal Convolutional Neural Networks for Matching Image and Sentence;Lin Ma等;《arXiv》;20150829;1-11 *
基于特征关联融合的图像检索方法;刘润杰等;《济南大学学报(自然科学版)》;20150930;327-332 *

Also Published As

Publication number Publication date
KR102235051B1 (ko) 2021-03-31
CN108288067B (zh) 2020-07-24
JP2020522791A (ja) 2020-07-30
KR20190129110A (ko) 2019-11-19
JP6887026B2 (ja) 2021-06-16
CN110532571A (zh) 2019-12-03
EP3683724A1 (en) 2020-07-22
US11087166B2 (en) 2021-08-10
US11699298B2 (en) 2023-07-11
CN108288067A (zh) 2018-07-17
WO2019052403A1 (zh) 2019-03-21
US20200019807A1 (en) 2020-01-16
US20210312211A1 (en) 2021-10-07
EP3683724A4 (en) 2021-02-17

Similar Documents

Publication Publication Date Title
CN110532571B (zh) 文本处理方法及相关装置
US11093560B2 (en) Stacked cross-modal matching
WO2022007823A1 (zh) 一种文本数据处理方法及装置
US10133729B2 (en) Semantically-relevant discovery of solutions
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111898374B (zh) 文本识别方法、装置、存储介质和电子设备
CN111125422A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN111783903B (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN114298122B (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN112148831B (zh) 图文混合检索方法、装置、存储介质、计算机设备
CN111930894A (zh) 长文本匹配方法及装置、存储介质、电子设备
CN113806582B (zh) 图像检索方法、装置、电子设备和存储介质
CN115455171B (zh) 文本视频的互检索以及模型训练方法、装置、设备及介质
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
WO2021136058A1 (zh) 一种处理视频的方法及装置
CN113761220A (zh) 信息获取方法、装置、设备及存储介质
CN112749558A (zh) 一种目标内容获取方法、装置、计算机设备和存储介质
CN114782722A (zh) 图文相似度的确定方法、装置及电子设备
CN112052350B (zh) 一种图片检索方法、装置、设备和计算机可读存储介质
CN116561272A (zh) 开放域视觉语言问答方法、装置、电子设备及存储介质
CN115129908A (zh) 一种模型优化方法、装置、设备、存储介质及程序产品
Bahrami et al. Image concept detection in imbalanced datasets with ensemble of convolutional neural networks
CN113704528A (zh) 聚类中心确定方法、装置和设备及计算机存储介质
Prawira et al. Original Research Article Lost item identification model development using similarity prediction method with CNN ResNet algorithm
Prawira et al. Lost item identification model development using similarity prediction method with CNN ResNet algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant