CN114550156A - 图像处理方法及装置 - Google Patents

图像处理方法及装置 Download PDF

Info

Publication number
CN114550156A
CN114550156A CN202210150893.2A CN202210150893A CN114550156A CN 114550156 A CN114550156 A CN 114550156A CN 202210150893 A CN202210150893 A CN 202210150893A CN 114550156 A CN114550156 A CN 114550156A
Authority
CN
China
Prior art keywords
image
feature vector
vector
text
image feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210150893.2A
Other languages
English (en)
Inventor
胡玉琛
咸静
王洪彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210150893.2A priority Critical patent/CN114550156A/zh
Publication of CN114550156A publication Critical patent/CN114550156A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/70Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in livestock or poultry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本说明书实施例提供了图像处理方法及装置,其中,一种图像处理方法包括:获取针对参与保障项目的豢养物进行保障申请提交的凭证图像。将所述凭证图像输入卷积神经网络进行图像特征提取获得图像特征向量。以及,对所述凭证图像进行字符识别获得文本特征信息。基于权重向量对和所述图像特征向量确定图像特征向量对。以及,对所述文本特征信息进行编码处理获得文本特征向量,并将所述图像特征向量与所述文本特征向量进行融合获得融合特征向量。将所述图像特征向量对和所述融合特征向量输入注意力模型进行图像标签识别,获得标签识别结果。

Description

图像处理方法及装置
技术领域
本文件涉及数据处理技术领域,尤其涉及一种图像处理方法及装置。
背景技术
随着社会发展节奏的加快,作为社会发展参与者的每个人面临的工作压力、生活压力也越来越大,为充实自己的生活又不会给自己的生活带来太大的负担,越来越多的人喜欢养宠物,在饲养宠物的同时让自己变得充实,也对自己的身心健康起到了很大的帮助,尤其是对于一些子女在外地的奋斗的独居老人,有宠物的陪伴会让老人的生活更加开心,并且对于一些训练有素的宠物,在老人发生一些意外,例如生病的时候,宠物还会起到报警的作用,宠物对于主人来说相当于家庭的一份子,是非常重要的存在,因此产生了很多面向宠物的服务,比如宠物保险等。
发明内容
本说明书一个或多个实施例提供了一种图像处理方法,包括:获取针对参与保障项目的豢养物进行保障申请提交的凭证图像。将所述凭证图像输入卷积神经网络进行图像特征提取获得图像特征向量。以及,对所述凭证图像进行字符识别获得文本特征信息。基于权重向量对和所述图像特征向量确定图像特征向量对。以及,对所述文本特征信息进行编码处理获得文本特征向量,并将所述图像特征向量与所述文本特征向量进行融合获得融合特征向量。将所述图像特征向量对和所述融合特征向量输入注意力模型进行图像标签识别,获得标签识别结果。
本说明书一个或多个实施例提供了一种图像处理装置,凭证图像获取模块,被配置为获取针对参与保障项目的豢养物进行保障申请提交的凭证图像。特征提取模块,被配置为将所述凭证图像输入卷积神经网络进行图像特征提取获得图像特征向量,以及,对所述凭证图像进行字符识别获得文本特征信息。特征向量融合模块,被配置为基于权重向量对和所述图像特征向量确定图像特征向量对,以及,对所述文本特征信息进行编码处理获得文本特征向量,并将所述图像特征向量与所述文本特征向量进行融合获得融合特征向量。图像标签识别模块,被配置为将所述图像特征向量对和所述融合特征向量输入注意力模型进行图像标签识别,获得标签识别结果。
本说明书一个或多个实施例提供了一种图像处理设备,包括:处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器:获取针对参与保障项目的豢养物进行保障申请提交的凭证图像。将所述凭证图像输入卷积神经网络进行图像特征提取获得图像特征向量。以及,对所述凭证图像进行字符识别获得文本特征信息。基于权重向量对和所述图像特征向量确定图像特征向量对。以及,对所述文本特征信息进行编码处理获得文本特征向量,并将所述图像特征向量与所述文本特征向量进行融合获得融合特征向量。将所述图像特征向量对和所述融合特征向量输入注意力模型进行图像标签识别,获得标签识别结果。
本说明书一个或多个实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:获取针对参与保障项目的豢养物进行保障申请提交的凭证图像。将所述凭证图像输入卷积神经网络进行图像特征提取获得图像特征向量。以及,对所述凭证图像进行字符识别获得文本特征信息。基于权重向量对和所述图像特征向量确定图像特征向量对。以及,对所述文本特征信息进行编码处理获得文本特征向量,并将所述图像特征向量与所述文本特征向量进行融合获得融合特征向量。将所述图像特征向量对和所述融合特征向量输入注意力模型进行图像标签识别,获得标签识别结果。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1为本说明书一个或多个实施例提供的一种图像处理方法处理流程图;
图2为本说明书一个或多个实施例提供的一种图像处理过程的示意图;
图3为本说明书一个或多个实施例提供的一种特征向量融合处理过程的示意图;
图4为本说明书一个或多个实施例提供的一种应用于宠物保障申请场景的图像处理方法处理流程图;
图5为本说明书一个或多个实施例提供的一种图像处理装置示意图;
图6为本说明书一个或多个实施例提供的一种图像处理设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
本说明书提供的一种图像处理方法实施例:
参照图1,本实施例提供的图像处理方法,所述方法具体包括步骤S102至步骤S108。
步骤S102,获取针对参与保障项目的豢养物进行保障申请提交的凭证图像。
本申请提供的图像处理方法,在针对豢养物提出的保障申请提交的凭证图像进行标签识别的过程中,通过卷积神经网络提取凭证图像的图像特征,并通过字符识别提取凭证图像的文本特征信息,从而在提取获得凭证图像的图像特征向量和文本特征信息编码后获得文本特征向量的基础上,通过将图像特征向量与文本特征向量进行融合的方式,来提升特征的健壮性以及凭证图像的文本特征与图像特征的相关性,并在此基础上将图像特征向量对和融合特征向量输入注意力模型进行图像标签识别,通过注意力模型结合图像特征和文本特征进行标签识别,提升了图像标签识别的全面性和准确性,同时也提升了图像标签识别对于凭证图像的鲁棒性。
本实施例所述豢养物,包括在情感层面为用户提升愉悦感的宠物(犬类宠物、猫类宠物、两栖类宠物等),还包括用户出于经济目的豢养的动物(比如,家禽、牲畜等),此外,还包括出于社会公益或者环境保护目的豢养的动物(比如,动物保护区豢养的保护动物、社会公益组织出于社会公益目的豢养的流浪动物等)。
所述保障项目,是指以豢养物为保障对象,针对豢养物提供相关保障服务的项目,比如针对豢养物提供健康保障服务的健康保障项目。所述凭证图像是指用于提出保障申请的豢养物相关图像。比如,在豢养物成为健康保障项目保障对象之后,在保障期限内可针对豢养物生病治疗所支出的资源提出保障申请,以向保障项目申请赔付豢养物生病治疗所支出的资源。
本实施例中,在针对参与所述保障项目的豢养物进行保障申请的过程中,通过提交该豢养物的相应凭证图像进行保障申请,在此,获取针对参与所述保障项目的豢养物进行保障申请提交的凭证图像。具体的,所述凭证图像可以是富文本图像,从而能够充分结合富文本图像中的文本特征和图像特征的基础上,更加准确的确定凭证图像的图像标签。
步骤S104,将所述凭证图像输入卷积神经网络进行图像特征提取获得图像特征向量,以及,对所述凭证图像进行字符识别获得文本特征信息。
本实施例中,从图像和文本两个模态出发对所述凭证图像进行特征提取,从而在图像和文本两个模态对所述凭证图像进行标签识别,具体在图像模态提取所述凭证图像的图像特征的过程中,通过将所述凭证图像输入卷积神经网络进行图像特征提取,获得所述卷积神经网络输出的所述图像特征向量;其中,所述卷积神经网络可以是VGG(VisualGeometry Group)、ResNet、DenseNet或者EfficientNet等形式的卷积神经网络;在文本模态提取所述凭证图像的文本特征的过程中,通过OCR(Optical Character Recognition,光学字符识别)技术识别所述凭证图像中的文本特征,获得所述文本特征信息。
如图2所示,一方面,将宠物进行诊疗的诊疗凭证图像输入CNN(ConvolutionalNeural Networks,卷积神经网络)进行图像特征提取(即诊疗影像特征提取),输出图像特征向量;另一方面,通过OCR(Optical Character Recognition,光学字符识别)技术识别诊疗凭证图像中的文本特征(即诊疗文字),输出文本特征信息。
步骤S106,基于权重向量对和所述图像特征向量确定图像特征向量对,以及,对所述文本特征信息进行编码处理获得文本特征向量,并将所述图像特征向量与所述文本特征向量进行融合获得融合特征向量。
本实施例所述权重向量对,是指用于表示图像标签类型的权重的两个向量组成的向量对,即第一权重向量和第二权重向量组成的权重向量对,其中,第一权重向量用于结合图像特征向量确定输入注意力模型的其中一个输入参数(注意力模型中Key对应的输入参数),第二权重向量用于结合图像特征向量确定输入注意力模型的另一个输入参数(注意力模型中Value对应的输入参数),该第一权重向量和第二权重向量为可学习向量,第一权重向量和第二权重向量的初始数值可预先指定,在训练或者应用过程中调整第一权重向量和第二权重向量的权重数值。
具体实施时,基于上述通过所述卷积神经网络对所述凭证图像进行特征提取获得的所述图像特征向量,此处,结合所述图像特征向量和所述权重向量对确定后续用于输入注意力模型进行图像标签识别的图像特征向量对,具体的,本实施例提供的一种可选实施方式中,基于权重向量对和所述图像特征向量确定图像特征向量对,包括:基于所述第一权重向量和所述图像特征向量计算第一图像特征向量,并基于所述第二权重向量和所述图像特征向量计算第二图像特征向量。
此外,基于上述通过字符识别获得所述凭证图像的文本特征信息,在此,通过对所述文本特征信息编码的方式进行向量化转化,具体的,本实施例提供的一种可选实施方式中,所述对所述文本特征信息进行编码处理获得文本特征向量,具体包括:将所述文本特征信息输入文本编码器进行编码处理,输出所述文本特征向量。如图2所示,将文本特征信息输入Text Encoder进行编码处理,输出文本特征向量。
具体执行过程中,在对所述文本特征信息进行编码处理获得所述文本特征向量之后,通过将所述图像特征向量与所述文本特征向量进行融合的方式,提升文本特征的特征健壮性以及文本特征与图像特征的相关性,本实施例提供的一种可选实施方式中,采用如下方式将所述图像特征向量与所述文本特征向量进行融合获得融合特征向量,包括:
(1)对所述图像特征向量和所述文本特征向量进行向量对齐处理,并将获得的标准图像特征向量与标准文本特征向量进行向量拼接,获得拼接向量。
其中,通过对所述图像特征向量和所述文本特征向量进行对齐处理,使所述图像特征向量能够与所述文本特征向量进行拼接,从而通过拼接的方式将图像特征向量所携带的图像特征融合到文本特征向量中,以此来提升文本特征的特征健壮性,以及同一凭证图像中文本特征与图像特征的相关性,本实施例提供的一种可选实施方式中,通过向量变换的方式对所述图像特征向量与所述文本特征向量进行对齐处理,具体的,对所述图像特征向量和所述文本特征向量进行向量对齐处理,包括:对所述图像特征向量进行向量变换,并对变换获得的图像特征向量进行卷积处理获得所述标准图像特征向量;对所述文本特征向量进行向量变换,并对变换获得的文本特征向量进行所述卷积处理获得所述标准文本特征向量。需要说明的是,所述标准图像特征向量和所述标准文本特征向量,是指向量维数相等且相互之间能够进行向量运算的图像向量和文本向量。
(2)对所述拼接向量进行向量对齐处理获得的标准拼接向量进行关键特征提取,获得关键特征向量。
上述将所述标准图像特征向量与所述标准文本特征向量进行向量拼接获得的所述拼接向量,与所述标准文本特征向量的向量维数不相等,为使所述拼接向量能够与所述标准文本特征向量保持相等的向量维数,本实施例提供的一种可选实施方式中,采用如下方式对所述拼接向量进行向量对齐处理:
对所述拼接向量进行所述卷积处理,并对卷积处理获得的拼接向量进行归一化处理,获得归一化向量;
通过激活函数对所述归一化向量进行激活处理,获得所述标准拼接向量。
本实施例通过对所述拼接向量进行卷积处理的方式,使所述拼接向量能够与标准文本特征向量保持相等的向量维数,并通过对卷积处理后的拼接向量进行归一化处理和激活处理的方式,增加拼接向量的非线性,使拼接向量所携带的特征更加丰富。
此外,针对所述标准拼接向量进行关键特征提取,以此来提升拼接向量的特征显著性,并通过卷积处理的方式,使提取的关键特征构建的基准关键特征向量能够与标准文本特征向量对齐,进一步通过归一化处理和激活处理的方式,增加基准关键特征向量的非线性,从而使最终获得的关键特征向量所携带的特征更加丰富。具体的,本实施例提供的一种可选实施方式中,具体采用如下方式对所述拼接向量进行关键特征提取:
提取所述标准拼接向量的各维度的特征值最大的特征作为关键特征,并基于提取的关键特征构建基准关键特征向量;
对所述基准关键特征向量进行所述卷积处理,并对卷积处理获得的基准关键特征向量进行归一化处理,获得归一化关键特征向量;
通过激活函数对所述归一化关键特征向量进行激活处理,并将激活处理获得的特征向量作为所述关键特征向量。
(3)基于所述关键特征向量和所述标准拼接向量计算所述融合特征向量。
本实施例通过将上述获得的关键特征向量与标准拼接向量进行融合的方式,来提升融合图像特征的标准拼接向量的特征显著性和特征丰富性,具体的,本实施例提供的一种可选实施方式,基于所述关键特征向量和所述标准拼接向量计算所述融合特征向量,采用如下方式实现:将所述关键特征向量与所述标准拼接向量进行点乘,获得乘积向量;将所述乘积向量与所述标准拼接向量进行向量求和,获得所述融合特征向量。
例如,图2所示的特征融合模型(Feature Alignment)的特征向量融合处理过程参见图3所示,在该特征融合模型中,首先,分别采用reshape()方法对输入的图像特征向量和文本特征向量进行向量变换,向量变换后获得的图像特征向量和文本特征向量进行1×1的卷积处理(Conv),获得标准图像特征向量和标准文本特征向量;
其次,通过concat()方法将标准图像特征向量和标准文本特征向量拼接为一个拼接向量,并对拼接向量进行卷积处理(Conv)、采用BN(Batch Normalization)对卷积处理结果进行归一化处理,以及调用激活函数Relu()对归一化结果进行激活处理,获得标准拼接向量;
然后,通过maxpool提取标准拼接向量每个特征维度的最大特征值,并根据提取的特征值构建最大特征向量,对最大特征向量进行1×1的卷积处理(Conv)、采用BN(BatchNormalization)对卷积处理结果进行归一化处理,以及调用激活函数Relu()对归一化结果进行激活处理,获得标准最大特征向量;
最后,将标准拼接向量与标准最大特征向量进行点乘,并将点乘结果与标准拼接向量进行求和获得融合特征向量并输出。
步骤S108,将所述图像特征向量对和所述融合特征向量输入注意力模型进行图像标签识别,获得标签识别结果。
本实施例中,在将所述图像特征向量对和所述融合特征向量输入所述注意力模型进行注意力计算,通过注意力计算的结果来确定图像标签类型,也即进行图像标签识别,在上述基于所述第一权重向量和所述图像特征向量计算获得所述第一图像特征向量,以及基于所述第二权重向量和所述图像特征向量计算获得所述第二图像特征向量的基础上,将所述第一图像特征向量、所述第二图像特征向量和所述融合特征向量输入所述注意力模型进行图像标签识别,获得标签识别结果。可选的,所述注意力模型在进行图像标签识别(注意力计算)的过程中,将所述第一图像特征向量作为Key、所述第二图像特征向量作为Value以及所述融合特征向量作为Query进行图像标签识别(注意力计算)。如图2所示,将第一图像特征向量、第二图像特征向量和融合特征向量输入Transformer Decoder进行注意力计算。
基于此,本实施例提供的一种可选实施方式中,所述注意力模型具体采用如下方式进行图像标签识别(注意力计算):采用相似度算法计算所述融合特征向量与所述第一图像特征向量的相似度;将所述相似度作为权重计算与所述第一图像特征向量配对的第二图像特征向量的加权和,获得注意力数值。
具体的,所述注意力模型采用上述方式进行图像标签识别(注意力计算)获得所述标签识别结果之后,从所述标签识别结果中包含的注意力数值出发确定所述凭证图像的一个或者多个图像标签类型,本实施例提供的一种可选实施方式中,具体采用如下方式确定所述凭证图像的图像标签类型:
判断所述标签识别结果包含的注意力数值序列中各注意力数值是否大于各注意力数值对应的标签类型的标签阈值;
若是,将所述注意力序列中注意力数值大于对应的标签类型的标签阈值的目标注意力数值对应的标签类型确定为所述凭证图像的图像标签类型;
若否,不作处理即可。
下述以本实施例提供的一种图像处理方法在宠物保障申请场景的应用为例,对本实施例提供的图像处理方法进行进一步说明,参见图4,应用于宠物保障申请场景的图像处理方法,具体包括下述步骤。
步骤S402,获取针对参与宠物保障项目的宠物进行保障申请提交的宠物诊疗图像。
步骤S404,将宠物诊疗图像输入卷积神经网络进行图像特征提取获得诊疗图像向量。
步骤S406,基于权重向量对和诊疗图像向量确定诊疗图像向量对。
步骤S408,采用OCR对宠物诊疗图像进行字符识别获得宠物诊疗信息。
步骤S410,将宠物诊疗信息输入文本编码器进行编码处理获得的诊疗文本向量。
步骤S412,将诊疗文本向量和诊疗图像向量输入特征融合模型进行特征向量融合,获得诊疗融合向量。
其中,特征向量融合包括:对诊疗图像向量和诊疗文本向量进行向量对齐处理,并将获得的标准诊疗图像向量与标准诊疗文本向量进行向量拼接,获得拼接向量,对拼接向量进行向量对齐处理获得的标准拼接向量进行关键特征提取,获得关键特征向量,基于关键特征向量和标准拼接向量计算融合向量。
步骤S414,将诊疗图像向量对和诊疗融合向量输入注意力模型进行图像标签识别,获得标签识别结果。
步骤S416,判断标签识别结果包含的注意力数值序列中各注意力数值是否大于各注意力数值对应的标签类型的标签阈值;
若是,执行步骤S418,将注意力序列中注意力数值大于对应的标签类型的标签阈值的目标注意力数值对应的标签类型确定为宠物诊疗图像的图像标签类型;
若否,不作处理即可。
本说明书提供的一种图像处理装置实施例如下:
在上述的实施例中,提供了一种图像处理方法,与之相对应的,还提供了一种运行于服务客户端的图像处理装置,下面结合附图进行说明。
参照图5,其示出了本实施例提供的一种图像处理装置示意图。
由于装置实施例对应于方法实施例,所以描述得比较简单,相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例提供一种图像处理装置,包括:
凭证图像获取模块502,被配置为获取针对参与保障项目的豢养物进行保障申请提交的凭证图像;
特征提取模块504,被配置为将所述凭证图像输入卷积神经网络进行图像特征提取获得图像特征向量,以及,对所述凭证图像进行字符识别获得文本特征信息;
特征向量融合模块506,被配置为基于权重向量对和所述图像特征向量确定图像特征向量对,以及,对所述文本特征信息进行编码处理获得文本特征向量,并将所述图像特征向量与所述文本特征向量进行融合获得融合特征向量;
图像标签识别模块508,被配置为将所述图像特征向量对和所述融合特征向量输入注意力模型进行图像标签识别,获得标签识别结果。
本说明书提供的一种图像处理设备实施例如下:
对应上述描述的一种图像处理方法,基于相同的技术构思,本说明书一个或多个实施例还提供一种图像处理设备,该图像处理设备用于执行上述提供的图像处理方法,图6为本说明书一个或多个实施例提供的一种图像处理设备的结构示意图。
本实施例提供的一种图像处理设备,包括:
如图6所示,图像处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器601和存储器602,存储器602中可以存储有一个或一个以上存储应用程序或数据。其中,存储器602可以是短暂存储或持久存储。存储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括图像处理设备中的一系列计算机可执行指令。更进一步地,处理器601可以设置为与存储器602通信,在图像处理设备上执行存储器602中的一系列计算机可执行指令。图像处理设备还可以包括一个或一个以上电源603,一个或一个以上有线或无线网络接口604,一个或一个以上输入/输出接口605,一个或一个以上键盘606等。
在一个具体的实施例中,图像处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对图像处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取针对参与保障项目的豢养物进行保障申请提交的凭证图像;
将所述凭证图像输入卷积神经网络进行图像特征提取获得图像特征向量,以及,对所述凭证图像进行字符识别获得文本特征信息;
基于权重向量对和所述图像特征向量确定图像特征向量对,以及,对所述文本特征信息进行编码处理获得文本特征向量,并将所述图像特征向量与所述文本特征向量进行融合获得融合特征向量;
将所述图像特征向量对和所述融合特征向量输入注意力模型进行图像标签识别,获得标签识别结果。
本说明书提供的一种存储介质实施例如下:
对应上述描述的一种图像处理方法,基于相同的技术构思,本说明书一个或多个实施例还提供一种存储介质。
本实施例提供的存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:
获取针对参与保障项目的豢养物进行保障申请提交的凭证图像;
将所述凭证图像输入卷积神经网络进行图像特征提取获得图像特征向量,以及,对所述凭证图像进行字符识别获得文本特征信息;
基于权重向量对和所述图像特征向量确定图像特征向量对,以及,对所述文本特征信息进行编码处理获得文本特征向量,并将所述图像特征向量与所述文本特征向量进行融合获得融合特征向量;
将所述图像特征向量对和所述融合特征向量输入注意力模型进行图像标签识别,获得标签识别结果。
需要说明的是,本说明书中关于存储介质的实施例与本说明书中关于图像处理方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应方法的实施,重复之处不再赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪30年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本文件的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本文件的权利要求范围之内。

Claims (14)

1.一种图像处理方法,包括:
获取针对参与保障项目的豢养物进行保障申请提交的凭证图像;
将所述凭证图像输入卷积神经网络进行图像特征提取获得图像特征向量,以及,对所述凭证图像进行字符识别获得文本特征信息;
基于权重向量对和所述图像特征向量确定图像特征向量对,以及,对所述文本特征信息进行编码处理获得文本特征向量,并将所述图像特征向量与所述文本特征向量进行融合获得融合特征向量;
将所述图像特征向量对和所述融合特征向量输入注意力模型进行图像标签识别,获得标签识别结果。
2.根据权利要求1所述的图像处理方法,所述将所述图像特征向量与所述文本特征向量进行融合获得融合特征向量,包括:
对所述图像特征向量和所述文本特征向量进行向量对齐处理,并将获得的标准图像特征向量与标准文本特征向量进行向量拼接,获得拼接向量;
对所述拼接向量进行向量对齐处理获得的标准拼接向量进行关键特征提取,获得关键特征向量;
基于所述关键特征向量和所述标准拼接向量计算所述融合特征向量。
3.根据权利要求2所述的图像处理方法,所述对所述图像特征向量和所述文本特征向量进行向量对齐处理,包括:
对所述图像特征向量进行向量变换,并对变换获得的图像特征向量进行卷积处理获得所述标准图像特征向量;
对所述文本特征向量进行向量变换,并对变换获得的文本特征向量进行所述卷积处理获得所述标准文本特征向量。
4.根据权利要求3所述的图像处理方法,所述拼接向量进行的向量对齐处理,包括:
对所述拼接向量进行所述卷积处理,并对卷积处理获得的拼接向量进行归一化处理,获得归一化向量;
通过激活函数对所述归一化向量进行激活处理,获得所述标准拼接向量。
5.根据权利要求3所述的图像处理方法,所述关键特征提取,包括:
提取所述标准拼接向量的各维度的特征值最大的特征作为关键特征,并基于提取的关键特征构建基准关键特征向量;
对所述基准关键特征向量进行所述卷积处理,并对卷积处理获得的基准关键特征向量进行归一化处理,获得归一化关键特征向量;
通过激活函数对所述归一化关键特征向量进行激活处理,并将激活处理获得的特征向量作为所述关键特征向量。
6.根据权利要求2所述的图像处理方法,所述基于所述关键特征向量和所述标准拼接向量计算所述融合特征向量,包括:
将所述关键特征向量与所述标准拼接向量进行点乘,获得乘积向量;
将所述乘积向量与所述标准拼接向量进行向量求和,获得所述融合特征向量。
7.根据权利要求1所述的图像处理方法,所述对所述文本特征信息进行编码处理获得文本特征向量,包括:
将所述文本特征信息输入文本编码器进行编码处理,输出所述文本特征向量。
8.根据权利要求1所述的图像处理方法,所述权重向量对由第一权重向量和第二权重向量组成;
所述基于权重向量对和所述图像特征向量确定图像特征向量对,包括:
基于所述第一权重向量和所述图像特征向量计算第一图像特征向量,并基于所述第二权重向量和所述图像特征向量计算第二图像特征向量。
9.根据权利要求8所述的图像处理方法,所述注意力模型将所述第一图像特征向量作为Key、所述第二图像特征向量作为Value以及所述融合特征向量作为Query进行图像标签识别。
10.根据权利要求9所述的图像处理方法,所述图像标签识别,包括:
采用相似度算法计算所述融合特征向量与所述第一图像特征向量的相似度;
将所述相似度作为权重计算与所述第一图像特征向量配对的第二图像特征向量的加权和,获得注意力数值。
11.根据权利要求10所述的图像处理方法,所述将所述图像特征向量对和所述融合特征向量输入注意力模型进行图像标签识别,获得标签识别结果步骤执行之后,还包括:
判断所述标签识别结果包含的注意力数值序列中各注意力数值是否大于各注意力数值对应的标签类型的标签阈值;
若是,将所述注意力序列中注意力数值大于对应的标签类型的标签阈值的目标注意力数值对应的标签类型确定为所述凭证图像的图像标签类型。
12.一种图像处理装置,包括:
凭证图像获取模块,被配置为获取针对参与保障项目的豢养物进行保障申请提交的凭证图像;
特征提取模块,被配置为将所述凭证图像输入卷积神经网络进行图像特征提取获得图像特征向量,以及,对所述凭证图像进行字符识别获得文本特征信息;
特征向量融合模块,被配置为基于权重向量对和所述图像特征向量确定图像特征向量对,以及,对所述文本特征信息进行编码处理获得文本特征向量,并将所述图像特征向量与所述文本特征向量进行融合获得融合特征向量;
图像标签识别模块,被配置为将所述图像特征向量对和所述融合特征向量输入注意力模型进行图像标签识别,获得标签识别结果。
13.一种图像处理设备,包括:
处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器:
获取针对参与保障项目的豢养物进行保障申请提交的凭证图像;
将所述凭证图像输入卷积神经网络进行图像特征提取获得图像特征向量,以及,对所述凭证图像进行字符识别获得文本特征信息;
基于权重向量对和所述图像特征向量确定图像特征向量对,以及,对所述文本特征信息进行编码处理获得文本特征向量,并将所述图像特征向量与所述文本特征向量进行融合获得融合特征向量;
将所述图像特征向量对和所述融合特征向量输入注意力模型进行图像标签识别,获得标签识别结果。
14.一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:
获取针对参与保障项目的豢养物进行保障申请提交的凭证图像;
将所述凭证图像输入卷积神经网络进行图像特征提取获得图像特征向量,以及,对所述凭证图像进行字符识别获得文本特征信息;
基于权重向量对和所述图像特征向量确定图像特征向量对,以及,对所述文本特征信息进行编码处理获得文本特征向量,并将所述图像特征向量与所述文本特征向量进行融合获得融合特征向量;
将所述图像特征向量对和所述融合特征向量输入注意力模型进行图像标签识别,获得标签识别结果。
CN202210150893.2A 2022-02-18 2022-02-18 图像处理方法及装置 Pending CN114550156A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210150893.2A CN114550156A (zh) 2022-02-18 2022-02-18 图像处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210150893.2A CN114550156A (zh) 2022-02-18 2022-02-18 图像处理方法及装置

Publications (1)

Publication Number Publication Date
CN114550156A true CN114550156A (zh) 2022-05-27

Family

ID=81674983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210150893.2A Pending CN114550156A (zh) 2022-02-18 2022-02-18 图像处理方法及装置

Country Status (1)

Country Link
CN (1) CN114550156A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152817A (zh) * 2022-12-30 2023-05-23 北京百度网讯科技有限公司 信息处理方法、装置、设备、介质和程序产品

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610091A (zh) * 2017-07-31 2018-01-19 阿里巴巴集团控股有限公司 车险图像处理方法、装置、服务器及系统
CN109543714A (zh) * 2018-10-16 2019-03-29 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
WO2019233421A1 (zh) * 2018-06-04 2019-12-12 京东数字科技控股有限公司 图像处理方法及装置、电子设备、存储介质
CN111563551A (zh) * 2020-04-30 2020-08-21 支付宝(杭州)信息技术有限公司 一种多模态信息融合方法、装置及电子设备
CN111783756A (zh) * 2019-04-03 2020-10-16 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
US20210012145A1 (en) * 2019-07-11 2021-01-14 Comscore, Inc. System and method for multi-modal image classification
CN113377958A (zh) * 2021-07-07 2021-09-10 北京百度网讯科技有限公司 一种文档分类方法、装置、电子设备以及存储介质
WO2021232589A1 (zh) * 2020-05-21 2021-11-25 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
US20220027611A1 (en) * 2021-03-03 2022-01-27 Beijing Baidu Netcom Science Technology Co., Ltd. Image classification method, electronic device and storage medium

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610091A (zh) * 2017-07-31 2018-01-19 阿里巴巴集团控股有限公司 车险图像处理方法、装置、服务器及系统
WO2019233421A1 (zh) * 2018-06-04 2019-12-12 京东数字科技控股有限公司 图像处理方法及装置、电子设备、存储介质
CN109543714A (zh) * 2018-10-16 2019-03-29 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
CN111783756A (zh) * 2019-04-03 2020-10-16 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
US20210012145A1 (en) * 2019-07-11 2021-01-14 Comscore, Inc. System and method for multi-modal image classification
CN111563551A (zh) * 2020-04-30 2020-08-21 支付宝(杭州)信息技术有限公司 一种多模态信息融合方法、装置及电子设备
WO2021232589A1 (zh) * 2020-05-21 2021-11-25 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
US20220027611A1 (en) * 2021-03-03 2022-01-27 Beijing Baidu Netcom Science Technology Co., Ltd. Image classification method, electronic device and storage medium
CN113377958A (zh) * 2021-07-07 2021-09-10 北京百度网讯科技有限公司 一种文档分类方法、装置、电子设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄友文;游亚东;赵朋;: "融合卷积注意力机制的图像描述生成模型", 计算机应用, no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152817A (zh) * 2022-12-30 2023-05-23 北京百度网讯科技有限公司 信息处理方法、装置、设备、介质和程序产品
CN116152817B (zh) * 2022-12-30 2024-01-02 北京百度网讯科技有限公司 信息处理方法、装置、设备、介质和程序产品

Similar Documents

Publication Publication Date Title
US11657230B2 (en) Referring image segmentation
Sangineto et al. We are not all equal: Personalizing models for facial expression analysis with transductive parameter transfer
Huang et al. Bird image retrieval and recognition using a deep learning platform
CN111027327A (zh) 机器阅读理解方法、设备、存储介质及装置
CN110705528B (zh) 身份编码方法及装置、豢养物身份编码方法及装置
Gómez et al. Multimodal grid features and cell pointers for scene text visual question answering
CN114550156A (zh) 图像处理方法及装置
CN113887325A (zh) 一种模型训练方法、表情识别方法以及装置
CN111611350A (zh) 基于健康知识的应答方法、装置及电子设备
Khurram et al. Dense-captionnet: a sentence generation architecture for fine-grained description of image semantics
Bhattacharya A survey on: facial expression recognition using various deep learning techniques
CN114639109A (zh) 一种图像处理方法、装置、电子设备和存储介质
CN117315249A (zh) 指代图像分割模型训练和分割方法、系统、设备及介质
CN116344060A (zh) 用于表示时序医疗信息的方法及装置
Dong et al. A Deep learning based patient care application for skin cancer detection
CN115169333A (zh) 文本的实体识别方法、装置、设备、存储介质及程序产品
Karczmarek et al. Chain code-based local descriptor for face recognition
Etter et al. Project SEARCH (Scanning EARs for Child Health): validating an ear biometric tool for patient identification in Zambia
Kulkarni et al. Unconstrained Facial Recognition using Supervised Deep Learning on Video
CN113687893A (zh) 远程协助处理方法及装置
JP2021093158A (ja) ニューラルネットワークを利用して新たな化学構造を生成する装置及びその方法
Li et al. Subject independent facial expression recognition: Cross-connection and spatial pyramid pooling convolutional neural network
CN111291645A (zh) 身份识别方法及装置
CN117035052B (zh) 一种无数据知识蒸馏的方法、装置和存储介质
CN110334681B (zh) 基于区块链的指静脉身份识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination