CN112926671B - 一种图像文本匹配的方法、装置、电子设备和存储介质 - Google Patents

一种图像文本匹配的方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112926671B
CN112926671B CN202110273781.1A CN202110273781A CN112926671B CN 112926671 B CN112926671 B CN 112926671B CN 202110273781 A CN202110273781 A CN 202110273781A CN 112926671 B CN112926671 B CN 112926671B
Authority
CN
China
Prior art keywords
text
image
features
memory unit
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110273781.1A
Other languages
English (en)
Other versions
CN112926671A (zh
Inventor
宁学成
刘青松
梁家恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202110273781.1A priority Critical patent/CN112926671B/zh
Publication of CN112926671A publication Critical patent/CN112926671A/zh
Application granted granted Critical
Publication of CN112926671B publication Critical patent/CN112926671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种图像文本匹配的方法、装置、电子设备和存储介质,该方法包括:获取图像特征和文本特征;对图像特征进行图像增强处理生成两个含噪声的图像特征;对文本特征进行文本增强处理生成两个含噪声的文本特征;对两个含噪声的图像特征进行加入噪声的图像记忆单元处理;对两个含噪声的文本特征进行加入噪声的文本记忆单元处理;对图像记忆单元和文本记忆单元分别进行约束。本申请实施例通过关键记忆约束使得加入噪声的图像和文本记忆之间的语义一致性,高于不同图像和文本产生的其他记忆,从而提高了匹配效果;并且通过两种不同噪声的加入和对比学习,使得图像文本输入在受到干扰时依然能取得良好的匹配效果,提高了匹配的鲁棒性。

Description

一种图像文本匹配的方法、装置、电子设备和存储介质
技术领域
本发明涉及图像文本匹配技术领域,具体涉及一种图像文本匹配的方法、装置、电子设备和存储介质。
背景技术
目前,图像文本匹配模型,一般由特征提取和特征检索两个主要模块构成。特征提取模型,通常采用卷积神经网络提取图像特征,采用词向量模型和循环神经网络提取文本特征,并将两个特征映射到同一个多模态空间中;特征检索模型,通常采用距离度量函数来衡量查询向量和多模态空间中其他特征向量之间的距离,从而根据距离分数生成一个检索排序表。但是上述匹配过程中容易受到多义词或局部相似图像的干扰,降低图像文本的匹配效果;并且受到文本或图像噪声扰动时,检索效果会大幅降低。
发明内容
本发明提供一种图像文本匹配的方法、装置、电子设备和存储介质,能够解决上述,降低图像文本的匹配效果的技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明实施例提供了一种图像文本匹配的方法,包括:
获取图像特征和文本特征;
对所述图像特征进行图像增强处理生成两个含噪声的图像特征;
对所述文本特征进行文本增强处理生成两个含噪声的文本特征;
对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理;
对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理;
对所述图像记忆单元和文本记忆单元分别进行约束。
在一些实施例中,所述对所述图像特征进行图像增强处理生成两个含噪声的图像特征采用色彩变换和随机剪裁的方法;
所述对所述文本特征进行文本增强处理生成两个含噪声的文本特征采用随机交换文本词向量位置和随机消除文本序列中一个词向量用0代替两种方式。
在一些实施例中,所述对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理采用多头自注意力机制的方法;
所述对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理采用多头自注意力机制的方法。
在一些实施例中,对所述图像记忆单元和文本记忆单元分别进行约束采用NT-XENT Loss。
第二方面,本发明实施例提供了一种图像文本匹配的装置,包括:
获取模块:用于获取图像特征和文本特征;
图像增强处理模块:用于对所述图像特征进行图像增强处理生成两个含噪声的图像特征;
文本增强处理模块:对所述文本特征进行文本增强处理生成两个含噪声的文本特征;
加入噪声的图像记忆单元处理模块:用于对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理;
加入噪声的文本记忆单元处理模块:用于对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理;
约束模块:用于对所述图像记忆单元和文本记忆单元分别进行约束。
在一些实施例中,上述装置中,
所述图像增强处理模块采用色彩变换和随机剪裁的方法所述对所述图像特征进行图像增强处理生成两个含噪声的图像特征;
所述文本增强处理模块采用随机交换文本词向量位置和随机消除文本序列中一个词向量用0代替两种方式对所述对所述文本特征进行文本增强处理生成两个含噪声的文本特征。
在一些实施例中,上述装置中,
所述加入噪声的图像记忆单元处理模块对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理采用多头自注意力机制的方法;
所述加入噪声的文本记忆单元处理模块对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理采用多头自注意力机制的方法。
在一些实施例中,上述装置中,
所述约束模块对所述图像记忆单元和文本记忆单元分别进行约束采用NT-XENTLoss。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述图像文本匹配的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述图像文本匹配的方法。
本发明的有益效果是:通过获取图像特征和文本特征;对图像特征进行图像增强处理生成两个含噪声的图像特征;对文本特征进行文本增强处理生成两个含噪声的文本特征;对两个含噪声的图像特征进行加入噪声的图像记忆单元处理;对两个含噪声的文本特征进行加入噪声的文本记忆单元处理;对图像记忆单元和文本记忆单元分别进行约束。本申请实施例中使得同一图像产生的加入不同噪声的记忆同样能和其他图像产生的记忆区分开,使得同一文本产生的加入不同噪声的记忆同样能和其他文本产生的记忆区分开,通过关键记忆约束使得加入噪声的图像和文本记忆之间的语义一致性,高于不同图像和文本产生的其他记忆,从而提高了匹配效果;并且通过两种不同噪声的加入和对比学习,使得图像文本输入在受到干扰时依然能取得良好的匹配效果,提高了匹配的鲁棒性。
附图说明
图1为本发明实施例提供的一种图像文本匹配的方法;
图2为本发明实施例提供的一种图像文本匹配的装置;
图3为本发明实施例提供的一种电子设备的示意性框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的一种图像文本匹配的方法。
第一方面,本发明实施例提供了一种图像文本匹配的方法,包括如下四个步骤:
S101:获取图像特征和文本特征。
具体的,本申请实施例中,采用卷积神经网络获取图像特征,采用词向量模型和循环神经网络获取文本特征。
S102:对所述图像特征进行图像增强处理生成两个含噪声的图像特征。
对所述文本特征进行文本增强处理生成两个含噪声的文本特征。
具体的,本申请实施例中,采用色彩变换和随机剪裁对图像特征进行图像增强,生成两个含噪声的图像特征。采用随机交换文本词向量位置和随机消除文本序列中一个词向量用0代替两种方式对文本特征进行增强,生成两个含噪声的文本特征。
S103:对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理。
对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理。
具体的,本申请实施例中,采用多头自注意力机制生成加入噪声的图像记忆单元(vi,vj)。采用多头自注意力机制生成加入噪声的图像记忆单元(vi,vj)。
S104:对所述图像记忆单元和文本记忆单元分别进行约束。
分别采用NT-XENT Loss对图像记忆(vi,vj)单元和文本记忆(ui,uj)单元进行约束,使得同一图像产生的加入不同噪声的记忆同样能和其他图像产生的记忆区分开,使得同一文本产生的加入不同噪声的记忆同样能和其他文本产生的记忆区分开,公式描述如下:
综上,本申请实施例中上述方法使得同一图像产生的加入不同噪声的记忆同样能和其他图像产生的记忆区分开,使得同一文本产生的加入不同噪声的记忆同样能和其他文本产生的记忆区分开,通过关键记忆约束使得加入噪声的图像和文本记忆之间的语义一致性,高于不同图像和文本产生的其他记忆,从而提高了匹配效果;并且通过两种不同噪声的加入和对比学习,使得图像文本输入在受到干扰时依然能取得良好的匹配效果,提高了匹配的鲁棒性。
在一些实施例中,所述对所述图像特征进行图像增强处理生成两个含噪声的图像特征采用色彩变换和随机剪裁的方法。
所述对所述文本特征进行文本增强处理生成两个含噪声的文本特征采用随机交换文本词向量位置和随机消除文本序列中一个词向量用0代替两种方式。
在一些实施例中,所述对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理采用多头自注意力机制的方法。
所述对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理采用多头自注意力机制的方法。
在一些实施例中,对所述图像记忆单元和文本记忆单元分别进行约束采用NT-XENT Loss。
图2为本发明实施例提供的一种图像文本匹配的装置。
第二方面,结合图2,本发明实施例提供了一种图像文本匹配的装置20,包括获取模块201、图像增强处理模块202、文本增强处理模块203、加入噪声的图像记忆单元处理模块204、加入噪声的文本记忆单元处理模块205和约束模块206。
获取模块201:用于获取图像特征和文本特征。
具体的,本申请实施例中,采用卷积神经网络获取图像特征,采用词向量模型和循环神经网络获取文本特征。
图像增强处理模块202:用于对所述图像特征进行图像增强处理生成两个含噪声的图像特征。
文本增强处理模块203:对所述文本特征进行文本增强处理生成两个含噪声的文本特征。
具体的,本申请实施例中,采用色彩变换和随机剪裁对图像特征进行图像增强,生成两个含噪声的图像特征。采用随机交换文本词向量位置和随机消除文本序列中一个词向量用0代替两种方式对文本特征进行增强,生成两个含噪声的文本特征。
加入噪声的图像记忆单元处理模块204:用于对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理。
加入噪声的文本记忆单元处理模块205:用于对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理。
具体的,本申请实施例中,采用多头自注意力机制生成加入噪声的图像记忆单元(vi,vj)。
约束模块206:用于对所述图像记忆单元和文本记忆单元分别进行约束。
分别采用NT-XENT Loss对图像记忆(vi,vj)单元和文本记忆(ui,uj)单元进行约束,使得同一图像产生的加入不同噪声的记忆同样能和其他图像产生的记忆区分开,使得同一文本产生的加入不同噪声的记忆同样能和其他文本产生的记忆区分开,公式描述如下:
本申请实施例中上述装置使得同一图像产生的加入不同噪声的记忆同样能和其他图像产生的记忆区分开,使得同一文本产生的加入不同噪声的记忆同样能和其他文本产生的记忆区分开,通过关键记忆约束使得加入噪声的图像和文本记忆之间的语义一致性,高于不同图像和文本产生的其他记忆,从而提高了匹配效果;并且通过两种不同噪声的加入和对比学习,使得图像文本输入在受到干扰时依然能取得良好的匹配效果,提高了匹配的鲁棒性。
在一些实施例中,上述装置中,
所述图像增强处理模块采用色彩变换和随机剪裁的方法所述对所述图像特征进行图像增强处理生成两个含噪声的图像特征。
所述文本增强处理模块采用随机交换文本词向量位置和随机消除文本序列中一个词向量用0代替两种方式对所述对所述文本特征进行文本增强处理生成两个含噪声的文本特征。
在一些实施例中,上述装置中,
所述加入噪声的图像记忆单元处理模块对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理采用多头自注意力机制的方法。
所述加入噪声的文本记忆单元处理模块对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理采用多头自注意力机制的方法。
在一些实施例中,上述装置中,
所述约束模块对所述图像记忆单元和文本记忆单元分别进行约束采用NT-XENTLoss。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述图像文本匹配的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述图像文本匹配的方法。
图3是本公开实施例提供的一种电子设备的示意性框图。
如图3所示,电子设备包括:至少一个处理器301、至少一个存储器302和至少一个通信接口303。电子设备中的各个组件通过总线系统304耦合在一起。通信接口303,用于与外部设备之间的信息传输。可理解,总线系统304用于实现这些组件之间的连接通信。总线系统304除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图3中将各种总线都标为总线系统304。
可以理解,本实施例中的存储器302可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器302存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本申请实施例提供的图像文本匹配的方法中任一方法的程序可以包含在应用程序中。
在本申请实施例中,处理器301通过调用存储器302存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器301用于执行本申请实施例提供的图像文本匹配的方法各实施例的步骤。
获取图像特征和文本特征;
对所述图像特征进行图像增强处理生成两个含噪声的图像特征;
对所述文本特征进行文本增强处理生成两个含噪声的文本特征;
对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理;
对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理;
对所述图像记忆单元和文本记忆单元分别进行约束。
本申请实施例提供的图像文本匹配的方法中任一方法可以应用于处理器301中,或者由处理器301实现。处理器301可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例提供的图像文本匹配的方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器302,处理器301读取存储器302中的信息,结合其硬件完成方法的步骤。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种图像文本匹配的方法,其特征在于,包括:
获取图像特征和文本特征;
对所述图像特征进行图像增强处理生成两个含噪声的图像特征;
对所述文本特征进行文本增强处理生成两个含噪声的文本特征;
对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理;
对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理;
对所述图像记忆单元和文本记忆单元分别进行约束,通过关键记忆约束使得加入噪声的图像和文本记忆之间的语义一致;
所述对所述图像特征进行图像增强处理生成两个含噪声的图像特征采用色彩变换和随机剪裁的方法;
所述对所述文本特征进行文本增强处理生成两个含噪声的文本特征采用随机交换文本词向量位置和随机消除文本序列中一个词向量用0代替两种方式。
2.根据权利要求1所述的图像文本匹配的方法,其特征在于,
所述对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理采用多头自注意力机制的方法;
所述对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理采用多头自注意力机制的方法。
3.根据权利要求1所述的图像文本匹配的方法,其特征在于,
对所述图像记忆单元和文本记忆单元分别进行约束采用NT-XENT Loss。
4.一种图像文本匹配的装置,其特征在于,包括:
获取模块:用于获取图像特征和文本特征;
图像增强处理模块:用于对所述图像特征进行图像增强处理生成两个含噪声的图像特征;
文本增强处理模块:对所述文本特征进行文本增强处理生成两个含噪声的文本特征;
加入噪声的图像记忆单元处理模块:用于对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理;
加入噪声的文本记忆单元处理模块:用于对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理;
约束模块:用于对所述图像记忆单元和文本记忆单元分别进行约束,通过关键记忆约束使得加入噪声的图像和文本记忆之间的语义一致;
所述对所述图像特征进行图像增强处理生成两个含噪声的图像特征采用色彩变换和随机剪裁的方法;
所述对所述文本特征进行文本增强处理生成两个含噪声的文本特征采用随机交换文本词向量位置和随机消除文本序列中一个词向量用0代替两种方式。
5.根据权利要求4所述的图像文本匹配的装置,其特征在于,
所述加入噪声的图像记忆单元处理模块对所述两个含噪声的图像特征进行加入噪声的图像记忆单元处理采用多头自注意力机制的方法;
所述加入噪声的文本记忆单元处理模块对所述两个含噪声的文本特征进行加入噪声的文本记忆单元处理采用多头自注意力机制的方法。
6.根据权利要求4所述的图像文本匹配的装置,其特征在于,
所述约束模块对所述图像记忆单元和文本记忆单元分别进行约束采用NT-XENT Loss。
7.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至3任一项所述图像文本匹配的方法。
8.一种计算机可读存储介质,其特征在于,计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至3任一项所述图像文本匹配的方法。
CN202110273781.1A 2021-03-12 2021-03-12 一种图像文本匹配的方法、装置、电子设备和存储介质 Active CN112926671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110273781.1A CN112926671B (zh) 2021-03-12 2021-03-12 一种图像文本匹配的方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110273781.1A CN112926671B (zh) 2021-03-12 2021-03-12 一种图像文本匹配的方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112926671A CN112926671A (zh) 2021-06-08
CN112926671B true CN112926671B (zh) 2024-04-19

Family

ID=76174917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110273781.1A Active CN112926671B (zh) 2021-03-12 2021-03-12 一种图像文本匹配的方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112926671B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543714A (zh) * 2018-10-16 2019-03-29 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
CN109543159A (zh) * 2018-11-12 2019-03-29 南京德磐信息科技有限公司 一种文本生成图像方法及装置
CN110147457A (zh) * 2019-02-28 2019-08-20 腾讯科技(深圳)有限公司 图文匹配方法、装置、存储介质及设备
US10489682B1 (en) * 2017-12-21 2019-11-26 Automation Anywhere, Inc. Optical character recognition employing deep learning with machine generated training data
CN110599557A (zh) * 2017-08-30 2019-12-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN112328782A (zh) * 2020-11-04 2021-02-05 福州大学 一种融合图像过滤器的多模态摘要生成方法
CN112348911A (zh) * 2020-10-28 2021-02-09 山东师范大学 基于语义约束的堆叠文本生成细粒度图像方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599557A (zh) * 2017-08-30 2019-12-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
US10489682B1 (en) * 2017-12-21 2019-11-26 Automation Anywhere, Inc. Optical character recognition employing deep learning with machine generated training data
CN109543714A (zh) * 2018-10-16 2019-03-29 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
CN109543159A (zh) * 2018-11-12 2019-03-29 南京德磐信息科技有限公司 一种文本生成图像方法及装置
CN110147457A (zh) * 2019-02-28 2019-08-20 腾讯科技(深圳)有限公司 图文匹配方法、装置、存储介质及设备
CN112348911A (zh) * 2020-10-28 2021-02-09 山东师范大学 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN112328782A (zh) * 2020-11-04 2021-02-05 福州大学 一种融合图像过滤器的多模态摘要生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于高阶累积量的文本图像去噪算法;毕晓君;赵文;;应用科技(第10期);全文 *

Also Published As

Publication number Publication date
CN112926671A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN110781923B (zh) 特征提取方法及装置
CN111160548A (zh) 计算装置以及计算方法
US20210216871A1 (en) Fast Convolution over Sparse and Quantization Neural Network
US20070271207A1 (en) Determining Compliance Rates for Probabilistic Requests
US9189373B2 (en) Automated top down process to minimize test configurations for multi-feature products
US20180300466A1 (en) Method and appapratus for controlling electronic device, and electrode device
CN110019865B (zh) 海量图片处理方法、装置、电子设备及存储介质
CN111081266A (zh) 一种训练生成对抗网络、语音增强方法及系统
CN105210038A (zh) 核亲和性位掩码变换
CN112926671B (zh) 一种图像文本匹配的方法、装置、电子设备和存储介质
US8726101B2 (en) Apparatus and method for tracing memory access information
US8539446B2 (en) Reduced interoperability validation sets for multi-feature products
CN115797643A (zh) 一种图像去噪方法、装置、系统、边缘设备及存储介质
DE102020119183A1 (de) System und Verfahren zum Identifizieren und Dekodieren von Reed-Muller-Codes in Polarcodes
CN116934573A (zh) 数据读写方法、存储介质及电子设备
CN111931148A (zh) 图像处理方法、装置和电子设备
CN113239852B (zh) 一种基于隐私保护的隐私图像处理方法、装置及设备
CN113327217B (zh) 一种卷积处理方法、装置、计算机设备及存储介质
CN114140737A (zh) 视频重复片段的检测方法、设备及存储介质
US20160350155A1 (en) Synthesizing inputs to preserve functionality
CN110569663A (zh) 一种教育数据共享的方法、装置、系统和存储介质
CN115062673B (zh) 图像处理方法、装置、电子设备及存储介质
Vanegue Heap models for exploit systems
CN113378572B (zh) 一种命名实体识别方法、装置、电子设备和存储介质
US10580112B2 (en) Scalable and area efficient conversion of linear image data into multi-dimensional image data for multimedia applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant