CN116385789A - 图像处理方法、训练方法、装置、电子设备及存储介质 - Google Patents
图像处理方法、训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116385789A CN116385789A CN202310368589.XA CN202310368589A CN116385789A CN 116385789 A CN116385789 A CN 116385789A CN 202310368589 A CN202310368589 A CN 202310368589A CN 116385789 A CN116385789 A CN 116385789A
- Authority
- CN
- China
- Prior art keywords
- processing
- image
- task
- sample
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 41
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 567
- 238000000034 method Methods 0.000 claims abstract description 69
- 230000007246 mechanism Effects 0.000 claims abstract description 35
- 238000001514 detection method Methods 0.000 claims description 127
- 238000013136 deep learning model Methods 0.000 claims description 45
- 238000000605 extraction Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 22
- 238000010586 diagram Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 8
- 210000000746 body region Anatomy 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种图像处理方法、训练方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域。该图像处理方法的具体实现方案为:提取待处理图像的图像特征;根据待处理图像的图像处理任务,确定特征分布图和处理路径,特征分布图表征与图像处理任务对应的感兴趣区域的分布概率,处理路径表征用于处理待处理图像的处理模式;基于注意力机制,根据图像特征和特征分布图,得到感兴趣区域的图像特征;以及按照处理路径,对感兴趣区域的图像特征进行特征处理,得到与图像处理任务相对应的处理结果。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域。具体地,涉及一种图像处理方法、训练方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的发展,人工智能技术也得以发展。人工智能技术可以包括计算机视觉技术、语音识别技术、自然语言处理技术、机器学习、深度学习、大数据处理技术及知识图谱技术等。
根据不同领域的实际需求,人工智能技术需要同时处理多种不同类型的任务,例如:检测任务、识别任务等。
发明内容
本公开提供了一种图像处理的方法、装置、电子设备以及存储介质。
根据本公开的一方面,提供了一种图像处理方法,包括:提取待处理图像的图像特征;根据待处理图像的图像处理任务,确定特征分布图和处理路径,特征分布图表征与图像处理任务对应的感兴趣区域的分布概率,处理路径表征用于处理待处理图像的处理模式;基于注意力机制,根据图像特征和特征分布图,得到感兴趣区域的图像特征;以及按照处理路径,对感兴趣区域的图像特征进行特征处理,得到与图像处理任务相对应的处理结果。
根据本公开的另一方面,提供了一种深度学习模型的训练装置,包括:提取样本图像的样本图像特征;根据样本图像的预定处理任务,确定样本图像的样本特征分布图和样本处理路径,其中,样本特征分布图表征与样本图像处理任务对应的样本感兴趣区域的分布概率,样本处理路径表征用于处理样本图像的处理模式;基于注意力机制,根据样本图像特征和样本特征分布图,得到样本感兴趣区域的样本图像特征;按照样本处理路径,对样本感兴趣区域的样本图像特征进行特征处理,得到与预定任务相对应的样本处理结果;基于目标损失函数,根据样本处理结果和样本标签,得到损失值,样本标签表征与预定处理任务对应的标签;基于损失值,调整初始模型的模型参数,得到经训练的深度学习模型。
根据本公开的另一方面,提供了一种图像处理装置,包括:第一提取模块、第一确定模块、第一获得模块和第一处理模块。第一提取模块,用于提取待处理图像的图像特征。第一确定模块,用于根据待处理图像的图像处理任务,确定特征分布图和处理路径,特征分布图表征与图像处理任务对应的感兴趣区域的分布概率,处理路径表征用于处理待处理图像的处理模式。第一获得模块,用于基于注意力机制,根据图像特征和特征分布图,得到感兴趣区域的图像特征。第一处理模块,用于按照处理路径,对感兴趣区域的图像特征进行特征处理,得到与图像处理任务相对应的处理结果。
根据本公开的另一方面,提供了一种深度学习模型训练装置,包括:第二提取模块、第二确定模块、第二获得模块、第二处理模块、损失计算模块和调整模块。第二提取模块,用于提取样本图像的样本图像特征。第二确定模块,用于根据样本图像的预定处理任务,确定样本图像的样本特征分布图和样本处理路径,其中,样本特征分布图表征与样本图像处理任务对应的样本感兴趣区域的分布概率,样本处理路径表征用于处理样本图像的处理模式。第二获得模块,用于基于注意力机制,根据样本图像特征和样本特征分布图,得到样本感兴趣区域的样本图像特征。第二处理模块,用于按照样本处理路径,对样本感兴趣区域的样本图像特征进行特征处理,得到与预定任务相对应的样本处理结果。损失计算模块,用于基于目标损失函数,根据样本处理结果和样本标签,得到损失值,样本标签表征与预定处理任务对应的标签。调整模块,用于基于损失值,调整初始模型的模型参数,得到经训练的深度学习模型。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被所述至少一个处理器执行的指令,上述指令被至少一个处理器执行,以使所述至少一个处理器能够执行如上的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使所述计算机执行如上的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如上的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的可以应用图像处理方法或深度学习模型的训练方法及装置的示例性系统架构;
图2示意性示出了根据本公开实施例的图像处理方法的流程图;
图3示意性示出了根据本公开实施例的对于待处理图像执行任务Ta和任务Tb的图像处理方法的示意图;
图4示意性示出了根据本公开实施例的对于含有表格的图像执行表格结构识别任务和文本识别任务的图像处理方法的示意图;
图5示意性示出了根据本公开实施例的深度学习模型的训练方法流程图;
图6示意性示出了根据本公开实施例的深度学习模型的训练方法示意图;
图7示意性示出了根据本公开实施例的图像处理装置的框图;
图8示意性示出了根据本公开实施例的深度学习模型的训练装置的框图;以及
图9示意性示出了根据本公开实施例的适于实现图像处理方法或深度学习模型的训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在计算机视觉技术领域中,通常是针对每一种类型的图像处理任务,利用样本图像训练得到一个模型。当面对包括两种以上任务类型的图像处理任务时,可以分别利用训练好的单一任务的模型依次处理待识别的图像,得到每一种任务类型的图像识别结果。
例如:在表格图像识别任务中包括以下三种类型的图像处理任务:表格结构识别任务、文本检测任务和文本识别任务。基于上述方式,需要分别设计表格结构识别模型、文本检测模型和文本识别模型的建模方案和训练方案。然后,分别按照每一种模型的建模方案构建初始模型。再利用不同的样本图像,按照每一种模型的训练方案对初始模型进行训练,依次得到训练好的表格结构识别模型、文本检测模型和文本识别模型。
然而,每一种模型从构建初始模型到模型训练的过程都是相互独立的,不同的处理任务之间彼此没有任何关联。不仅对样本图像的利用率较低,而且三个模型占用资源空间较多,且模型推理时间较长。
由此,本公开实施例提供了一种不同类型的图像处理任务可以共享相同的模型结构的图像处理方法,使得不同的图像处理任务可以共享模型参数,以节约资源空间、降低模型推理时长。
图1示意性示出了根据本公开实施例的可以应用图像处理方法及装置的示例性系统架构。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用图像处理方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的图像处理方法及装置。
如图1所示,根据该实施例的系统架构100可以包括特征提取模块101、解码模块102、公共处理模块103、特有处理模块104。解码模块102中可以包括针对不同任务的感兴趣区域,例如:任务Ta的感兴趣区域110、任务Tb的感兴趣区域111、任务Tc的感兴趣区域112。公共处理模块103可以包括分类模块103_1、定位模块103_2和识别模块103_3。特有处理模块104可以包括任务Ta的特有处理模块104_1、任务Tb的特有处理模块104_2、任务Tc的特有处理模块104_3。
根据本公开的实施例,对待处理图像进行图像处理的任务是任务Ta。将待处理图像输入特征提取模块101,输出图像特征。解码模块102基于任务Ta确定任务Ta的感兴趣区域110,并根据图像特征和任务Ta的感兴趣区域110得到任务Ta的感兴趣区域的图像特征113。
根据本公开的实施例,基于任务Ta可以确定待处理图像的处理路径包括:目标类别检测过程、目标位置检测过程和任务Ta的特有处理过程。因此,将任务Ta的感兴趣区域的图像特征113输入分类模块103_1进行目标类别检测处理,得到分类结果114_1。将任务Ta的感兴趣区域的图像特征113输入定位模块103_2进行目标位置检测处理,得到定位结果114_2。将任务Ta的感兴趣区域的图像特征113输入任务Ta的特有处理模块104_1,得到任务Ta的特有处理结果114_3。
需要说明的是,本公开实施例所提供的图像处理方法一般可以由终端设备执行。相应地,本公开实施例所提供的图像处理装置也可以设置于终端设备中。
备选地,本公开实施例所提供的图像处理方法一般也可以由服务器10执行。相应地,本公开实施例所提供的图像处理装置一般可以设置于服务器中。本公开实施例所提供的图像处理方法也可以由不同于服务器105且能够与终端设备和/或服务器通信的服务器或服务器集群执行。相应地,本公开实施例所提供的图像处理装置也可以设置于不同于服务器且能够与终端设备和/或服务器通信的服务器或服务器集群中。
需要说明的是,本公开实施例所提供的深度学习模型的训练方法一般可以由服务器执行。相应地,本公开实施例所提供的深度学习模型的训练装置一般可以设置于服务器中。本公开实施例所提供的深度学习模型的训练方法也可以由不同于服务器且能够与终端设备和/或服务器通信的服务器或服务器集群执行。相应地,本公开实施例所提供的深度学习模型的训练装置也可以设置于不同于服务器且能够与终端设备和/或服务器通信的服务器或服务器集群中。
备选地,本公开实施例所提供的深度学习模型的训练方法一般也可以由终端设备执行。相应地,本公开实施例所提供的深度学习模型的训练装置也可以设置于终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
图2示意性示出了根据本公开实施例的图像处理方法的流程图。
如图2所示,该方法200包括操作S210~S240。
在操作S210,提取待处理图像的图像特征。
在操作S220,根据待处理图像的图像处理任务,确定特征分布图和处理路径。
在操作S230,基于注意力机制,根据图像特征和特征分布图,得到感兴趣区域的图像特征。
在操作S240,按照处理路径,对感兴趣区域的图像特征进行特征处理,得到与图像处理任务相对应的处理结果。
根据本公开的实施例,待处理图像可以指需要进行单一任务处理的图像,也可以指需要进行多任务处理的图像。图像处理任务可以包括图像识别任务和检测任务。图像处理任务可以包括以下至少两种类型的图像处理任务:类别识别任务、位置识别任务、文本识别任务、关系识别任务等。类别识别任务可以包括对图像中的目标对象的属性类别的识别,例如:标识牌识别、障碍物识别、建筑物识别、车辆识别等。位置识别任务可以包括对图像中的目标对象的位置坐标的识别,例如:标识牌的位置、障碍物的位置、建筑物的位置、车辆的位置等。文本识别任务可以包括对图像中的目标文本的内容识别,例如:标示牌中的文字内容、车牌中的文字内容等。
根据本公开的实施例,特征分布图表征与图像处理任务对应的感兴趣区域的分布概率,处理路径表征用于处理待处理图像的处理模式。特征分布图中分布概率较高的区域表示与图像处理任务对应的感兴趣区域。感兴趣区域(ROI,region of interest)是指在图像处理中,从被处理的图像中以方框、圆形、椭圆形、不规则多边形等方式勾勒出的需要处理的区域。
例如:图像处理任务可以是标识牌识别任务。与标识牌识别任务对应的感兴趣区域可以是待处理图像中的标识牌的显示区域。感兴趣区域的图像特征可以是待处理图像中标识牌的显示区域的前景特征。
根据本公开的实施例,注意力机制可以用于实现以高权重去聚焦重要信息,低权重去忽略非重要信息,并能通过共享重要信息与其他信息进行信息交换,从而实现重要信息的传递。在本公开实施例中,基于注意力机制可以提取待处理图像的图像特征自身、感兴趣区域的图像特征与待处理图像的图像特征彼此之间的信息,可以得到与图像处理任务对应的感兴趣区域的图像特征,实现了基于不同的图像处理任务针对性地提取图像特征。
根据本公开的实施例,处理路径表征用于处理待处理图像的处理模式。每一种类型的处理任务可以对应一种处理路径。
例如:图像处理任务可以是标识牌识别任务,在标识牌识别任务中可以包括对标识牌的类别检测任务、对标识牌的位置检测任务和对标识牌的内容的文本识别任务。因此,在标识牌识别任务中,对待处理图像的处理路径可以包括三条,分别是:标识牌的类别检测路径、标识牌的位置检测路径和标识牌的文本识别路径。
根据本公开的实施例,在与每一种类型的处理任务对应的处理路径中,可以通过配置不同的功能算子以实现对待处理图像的处理。例如:在标识牌的文本识别路径中,可以配置文本检测算子和文本识别算子,以实现对标识牌中文本的检测和识别。
根据本公开的实施例,操作S210~S240可以由电子设备执行。电子设备可以包括服务器或终端设备。
根据本公开的实施例,通过根据待处理图像的图像处理任务,确定特征分布图和处理路径。并基于注意力机制,根据特征分布图和图像特征,得到与图像处理任务对应的感兴趣区域的图像特征。并按照与图像处理任务对应的处理路径,对感兴趣区域的图像特征进行处理,得到处理结果。因此,实现了基于图像处理任务针对性地提取感兴趣区域的图像特征以及对感兴趣区域的图像特征进行针对性地处理,减少了图像处理过程的耗时,提高图像处理效率。
根据本公开的实施例,上述操作S230可以包括如下操作:根据特征分布图,确定与图像处理任务对应的感兴趣区域。基于注意力机制,根据感兴趣区域从图像特征中得到感兴趣区域的图像特征。
根据本公开的实施例,在不同的图像处理任务中,需要关注的图像区域是不同的,即感兴趣区域是不同的。例如:在标识牌识别任务中,感兴趣区域可以是标示牌图像中的标识牌的显示区域、承载标识牌的建筑物的显示区域、标识牌周围的建筑物、障碍物或车辆的显示区域。在表格识别任务中,感兴趣区域可以是表格图像中每一行单元格的显示区域、每一列单元格的显示区域、每个单元格的内容显示区域。
根据本公开的实施例,与图像处理任务对应的感兴趣区域可以是多个,因此,可以按照与图像处理任务对应的多个感兴趣区域,同步从待处理图像的图像特征中提取多个感兴趣区域地图像特征。
例如:在表格结构识别任务中,多个感兴趣区域的图像特征可以包括:每一行单元格的图像特征、每一列单元格的图像特征、每一个单元格的边的图像特征、每一个单元格的角点的图像特征、每一个单元格的边与角点的连接关系的图像特征等。
根据本公开的实施例,基于注意力机制,根据感兴趣区域从图像特征中得到感兴趣区域的图像特征,可以包括如下操作:基于自注意力机制,从图像特征中提取前景特征。基于交叉注意力机制,根据感兴趣区域从前景特征中提取感兴趣区域的图像特征。
例如:待处理图像可以包括表格和表格底纹。在识别表格结构时,表格部分的图像特征属于需要重点关注的前景特征,表格底纹部分的图像特征属于不需要重点关注的背景特征。可以基于自注意力机制,从图像特征中得到表格部分的前景特征。
例如:感兴趣区域可以是表格图像中每一行单元格的显示区域、每一列单元格的显示区域、每一个单元格的显示区域,可以基于交叉注意力机制,根据感兴趣区域从表格部分的前景特征中提取每一行单元格的图像特征、每一列单元格的图像特征、每一个单元格的边的图像特征、每一个单元格的角点的图像特征、每一个单元格的边与角点的连接关系的图像特征等。
根据本公开的实施例,先基于自注意力机制提取前景特征,前景特征中耦合了全局信息。再基于交叉注意力机制,从前景特征提取感兴趣区域的图像特征,实现了对与图像处理任务对应的感兴趣区域的图像特征的针对性提取,提高了特征提取的精度。
在计算机视觉技术领域,不同的图像处理任务可以对应不同的处理路径。例如:在标识牌识别任务中,可以对待处理的标识牌图像依次进行标识牌类别检测,标识牌位置检测和标识牌内容识别。在车辆识别任务中,可以对待识别的车辆图像依次进行车辆类别检测、车辆位置检测。
通过对比上述两个图像处理任务的处理路径可以看出,虽然标识牌识别任务和车辆识别任务是两种不同的图像处理任务,但是,在处理路径中均包括对目标对象的类别检测路径和位置检测路径。
因此,可以将图像处理任务与其他处理任务之间具有相同处理目标的处理路径作为公共处理路径。例如:类别检测路径和位置检测路径。可以将图像处理任务与其他处理任务之间具有不同处理目标的处理路径作为特有处理路径。例如:对于标识牌识别任务,对标识牌内容的识别路径可以作为标识牌识别任务的特有处理路径。
根据本公开的实施例,上述操作S240可以包括如下操作:按照公共处理路径对感兴趣区域的图像特征进行处理,得到第一处理结果。按照特有处理路径对感兴趣区域的图像特征进行处理,得到第二处理结果。根据第一处理结果和第二处理结果,得到处理结果。
根据本公开的实施例,图像处理任务可以是标识牌识别任务,公共处理路径可以是类别检测路径和位置检测路径。特有处理路径可以是标识牌内容的识别路径。
例如:可以按照类别检测路径对标识牌图像的类别感兴趣区域的特征进行处理,得到类别检测结果。可以按照位置检测路径对标识牌图像的位置感兴趣区域的特征进行处理,得到位置检测结果。第一处理结果可以包括类别检测结果和位置检测结果。
例如:可以按照标识牌内容的识别路径对标识牌图像的内容感兴趣区域的特征进行处理,得到文本识别结果。第二处理结果可以是文本识别结果。
根据本公开的实施例,通过配置公共处理路径和特有处理路径,可以实现利用公共处理路径处理不同图像处理任务中处理目标彼此相同的特征,利用特有处理路径处理与图像处理任务对应的特有处理目标的特征。由此,实现了不同图像处理任务可以共享公共处理路径的模型参数,有效节约了资源空间。
根据本公开的实施例,按照公共处理路径对感兴趣区域的图像特征进行处理,得到第一处理结果,可以包括如下操作:根据公共处理路径的特征处理类型,从感兴趣区域的图像特征中得到第一图像特征。按照公共处理路径对第一图像特征进行处理,得到第一处理结果。
根据本公开的实施例,公共处理路径的特征处理类型表征与公共处理路径的处理目标相对应的特征类型。
例如:公共处理路径可以是类别检测路径,与类别检测路径对应的特征类型可以是属于类别类型,则第一图像特征可以是用于表征目标对象类别的特征。公共处理路径还可以是位置检测路径,与位置检测路径对应的特征类型可以是属于位置类型,则第一图像特征可以是用于表征目标对象位置的特征。公共处理路径还可以是文本识别路径,与文本识别路径对应的特征类型可以是文本类型,则第一图像特征可以是用于表征目标内容的文本特征。
根据本公开的实施例,公共处理路径可以包括类别检测路径。按照公共处理路径对感兴趣区域的图像特征进行处理,得到第一处理结果,可以包括如下操作:从感兴趣区域的图像特征中得到待处理图像的类别特征。对待处理图像的类别特征进行处理,得到类别检测结果。
例如:待处理图像可以是车辆图像,图像处理任务可以是车辆识别任务。从感兴趣区域的图像特征中得到的待处理图像的类别特征可以包括:车头区域的类别特征、车身区域的类别特征和车尾区域的类别特征。对车头区域的类别特征进行处理,得到的类别检测结果可以是该区域为车头。对车身区域的类别特征进行处理,得到的类别检测结果可以是该区域为车身。对车尾区域的类别特征进行处理,得到的类别检测结果可以是该区域为车尾。
根据本公开的实施例,公共处理路径可以包括位置检测路径。按照公共处理路径对感兴趣区域的图像特征进行处理,得到第一处理结果,可以包括如下操作:从感兴趣区域的图像特征中得到待处理图像的位置特征。对待处理图像的图像特征进行处理,得到位置检测结果。
例如:待处理图像可以是车辆图像,图像处理任务可以是车辆识别任务。从感兴趣区域的图像特征中得到的待处理图像的位置特征可以包括:车头区域的位置特征、车身区域的位置特征和车尾区域的位置特征。对车头区域的位置特征进行处理,得到的位置检测结果可以是车头区域的位置坐标信息。对车身区域的位置特征进行处理,得到的位置检测结果可以是车身区域的位置坐标信息。对车尾区域的位置特征进行处理,得到的位置检测结果可以是车尾区域的位置坐标信息。
根据本公开的实施例,公共处理路径可以包括文本识别路径。按照公共处理路径对感兴趣区域的图像特征进行处理,得到第一处理结果,可以包括如下操作:从感兴趣区域的图像特征中得到待处理图像的文本特征。对待处理图像的文本特征进行处理,得到文本识别结果。
例如:待处理图像可以是车辆图像,图像处理任务可以是车辆识别任务。从感兴趣区域的图像特征中得到的带处理图像的文本特征可以是车牌的文本特征。对车牌的文本特征进行文本特征进行处理,得到的文本识别结果可以是车牌的文本内容信息。
根据本公开的实施例,通过构建公共处理路径,实现了通过建立统一的模型对不同图像处理任务进行处理,并且不同的图像处理任务中的相同路径可以共用模型参数,节约了模型占用的资源空间。
根据本公开的实施例,按照特有处理路径对感兴趣区域的图像特征进行处理,得到第二处理结果,可以包括如下操作:根据特有处理路径的特征处理类型,从感兴趣区域的图像特征中得到第二图像特征。按照特有处理路径对第二图像特征进行处理,得到第二处理结果。
根据本公开的实施例,特有处理路径的特征处理类型表征与特有处理路径的处理目标相对应的特征类型。
根据本公开的实施例,对于表格识别任务,感兴趣区域的图像特征包括边特征、角点特征和边与角点的连接关系特征,公共处理路径可以包括类别检测路径和位置检测路径,特有处理路径可以包括连接关系检测路径。例如:对于表格识别任务,特有处理路径可以是对表格中的边与角点的连接关系的处理路径。第二图像特征可以是边与角点的连接关系特征,通过对边与角点的连接关系特征进行处理,得到的第二处理结果可以是边与角点的连接关系。
下面参考图3~图4,结合具体实施例对根据本公开实施例上述的图像处理方法做进一步说明。
图3示意性示出了根据本公开实施例的对于待处理图像执行任务Ta和任务Tb的图像处理方法的示意图。
如图3所示,在实施例300中,待识别图像通过主干网络301提取图像特征。编码解码模块302利用任务Ta的特征分布图,从图像特征中提取任务Ta的感兴趣区域的图像特征。任务Ta的感兴趣区域的图像特征可以包括特征Fa305、位置特征306和类别特征307。编码解码模块302利用任务Tb的特征分布图,从图像特征中提取任务Tb的感兴趣区域的图像特征。任务Tb的感兴趣区域的图像特征可以包括文本特征308。
根据本公开的实施例,利用特征Fa的检测模块309对特征Fa305进行处理,可以得到特征Fa的检测结果。利用位置检测模块310对位置特征306进行处理,可以得到位置检测结果。利用类别检测模块311对类别特征307进行处理,可以得到类别检测结果。利用文本识别模块312对文本特征308进行处理,可以得到文本识别结果。
根据本公开的实施例,按照处理路径对感兴趣区域的图像特征进行处理,得到处理结果,可以包括如下操作:按照类别检测路径对边特征进行处理,得到边类别信息。按照位置检测路径对角点特征进行处理,得到角点位置信息。按照连接关系检测路径对边与角点的连接关系特征进行处理,得到边与角点的连接关系信息。根据边类别信息、角点位置信息和边与角点的连接关系信息,得到待处理图像的表格识别结果。
单元格是组成表格的最小单位,是指表格中行与列的交叉部分。单元格一般是四边形,四边形的四个顶点是单元格的角点,四边形的边是单元格的边框线。
根据本公开的实施例,按照类别检测路径对边特征进行处理,得到边类别信息。例如:通过对表格的边特征进行处理,得到边的类别检测结果。边的类别可以包括:属于表格的单元格边框线的正边和不属于表格的单元格边框线的负边。
根据本公开的实施例,按照位置检测路径对角点特征进行处理,得到角点位置信息。例如:通过对表格的角点特征进行处理,得到角点的位置坐标信息。
根据本公开的实施例,按照连接关系检测路径对边与角点的连接关系特征进行处理,可以得到边与角点的连接关系信息。边与角点的连接关系信息可以包括:角点与两条正边连接,角点与三条正边连接,角点与负边连接。
图4示意性示出了根据本公开实施例的对于含有表格的图像执行表格结构识别任务和文本识别任务的图像处理方法的示意图。
如图4所示,在实施例400中,对含有表格的图像401的进行特征提取,得到图像特征402。根据图像特征402和表格结构任务的特征分布图403可以得到边特征405、角点特征406和边与角点的连接关系特征407。根据文本识别任务的特征分布图404和图像特征402,可以得到文本特征408。
根据本公开的实施例,对边特征405进行类别检测,得到边类别信息。对角点特征406进行位置检测,得到角点位置信息。对边与角点的连接关系特征407进行检测,得到边与角点的连接关系的信息。对文本特征408进行处理,得到文本信息412。
根据本公开的实施例,通过对不同处理任务进行统一建模,可以实现基于一个模型实现多种不同类型的图像处理任务,有效缩短了复杂图像处理图像的模型推理时长,提高了图像处理效率。
图5示意性示出了根据本公开实施例的深度学习模型的训练方法流程图。
如图5所示,该训练方法500可以包括操作S510~S560。
在操作S510,提取样本图像的样本图像特征。
在操作S520,根据样本图像的预定处理任务,确定样本图像的样本特征分布图和样本处理路径,其中,样本特征分布图表征与样本图像处理任务对应的样本感兴趣区域的分布概率,样本处理路径表征用于处理样本图像的处理模式。
在操作S530,基于注意力机制,根据样本图像特征和样本特征分布图,得到样本感兴趣区域的样本图像特征。
在操作S540,按照样本处理路径,对样本感兴趣区域的样本图像特征进行特征处理,得到与预定任务相对应的样本处理结果。
在操作S550,基于目标损失函数,根据样本处理结果和样本标签,得到损失值,样本标签表征与预定处理任务对应的标签。
在操作S560,基于损失值,调整初始模型的模型参数,得到经训练的深度学习模型。
根据本公开的实施例,预定处理任务的定义范围与前文所述的图像处理任务的定义范围相同。样本特征分布图与前文所述的特征分布图的定义范围相同。样本处理路径与前文所述的处理路径的定义范围相同。在此不作赘述。
根据本公开的实施例,预定处理任务可以包括多个任务类型的处理任务。例如:目标检测任务、文本识别任务、表格结构识别任务等。
根据本公开的实施例,针对每一个任务类型的处理任务,依次利用初始模型对该任务类型的样本图像进行处理,得到样本图像的处理结果。
例如:预定处理任务可以是目标检测任务,利用目标检测任务的特征分布图和样本图像的样本图像特征,可以得到样本感兴趣区域的样本图像特征。样本处理路径可以包括目标对象的类别检测路径和目标对象的位置检测路径。按照目标对象的类别检测路径对样本感兴趣区域的类别特征进行处理,得到目标对象的类别检测结果。按照目标对象的位置检测路径对样本感兴趣区域的位置特征进行处理,得到目标对象的位置检测结果。
根据本公开的实施例,对于目标检测任务,样本图像的标签可以包括目标对象的类别标签和目标对象的位置标签。
根据本公开的实施例,目标损失函数可以是交叉熵损失函数。利用交叉熵损失函数可以计算目标对象的类别检测结果和目标对象的类别标签之间的类别损失值,以及目标对象的位置检测结果和目标对象的位置标签之间的位置损失值。
根据本公开的实施例,可以基于类别损失值和位置损失值之和作为目标检测任务的损失值,调整初始模型的模型参数。
根据本公开的实施例,由于样本图像的特征分布图和样本处理路径均是与处理任务相对应的,可以实现不同的图像处理任务共用模型参数,得到不同的图像处理任务的处理结果,提高模型训练效率。
根据本公开的实施例,样本图像的处理结果中可以包括多种任务类型的处理结果。基于目标损失函数,根据样本处理结果和样本标签,得到损失值,可以包括如下操作:根据任务类型,对样本处理结果和样本标签进行分类,得到与每一个任务类型对应的目标样本处理结果和目标样本标签。基于与每一个任务类型对应的损失函数,通过对目标样本处理结果和目标样本标签进行处理,得到与每一个任务类型对应的损失值,得到与多个任务类型对应的损失值。
根据本公开的实施例,可以利用初始模型对相同的样本图像执行不同任务类型的图像处理任务。也可以利用初始模型对与任务类型对应的样本图像执行图像处理任务。
例如:基于目标检测任务的损失函数,可以根据目标检测任务的处理结果和目标检测任务的样本标签,得到目标检测任务的损失值。基于文本识别任务的损失函数,可以根据文本识别任务的处理结果和文本识别任务的样本标签,得到文本识别任务的损失值。
根据本公开的实施例,基于损失值,调整初始模型的模型参数,得到经训练的深度学习模型,可以包括如下操作:基于与每一个任务类型对应的损失值,调整初始模型的模型参数,直至与每一个任务类型对应的损失值均达到第一收敛条件,得到经训练的深度学习模型。
根据本公开的实施例,第一收敛条件可以包括针对每一个任务类型的损失值的多个收敛条件。多个收敛条件可以相同,也可以不相同。第一收敛条件可以是第一阈值。
例如:利用初始模型对含有目标对象的样本图像执行目标检测任务,得到目标检测任务的处理结果。并基于目标检测任务的损失函数,根据目标检测任务的处理结果和目标检测任务的样本标签得到目标检测任务的损失值。通过调整初始模型的模型参数,直至目标检测任务的损失值小于或等于第一阈值,得到中间模型。然后,利用中间模型对含有文本的样本图像执行文本识别任务,得到文本识别任务的处理结果。并基于文本识别任务的损失函数,根据文本识别任务的处理结果和文本识别任务的样本标签得到文本识别任务的损失值。通过调整中间模型的模型参数,直至文本识别任务的损失值小于或等于第一阈值。依次类推,直至完成全部的预定处理任务,得到经训练的深度学习模型。
根据本公开的实施例,基于不同任务类型的损失值,依次对初始模型进行模型参数的调整处理,可以确保经训练的深度学习模型的处理精度能够满足每一种任务类型的处理需求。
由于不同任务类型的处理任务的处理过程存在差异,每一次调整模型参数直至达到第一收敛条件的时长可以是不同的。针对每一种任务类型的处理任务的损失值依次调整模型参数,使得经训练的深度学习模型可以满足每一种任务类型的处理需求,可能导致训练周期较长。
由此,可以基于多个任务类型对应的损失值之和,调整初始模型的模型参数,直至多个任务类型对应的损失值之和达到第二收敛条件,得到经训练的深度学习模型。
根据本公开的实施例,第二收敛条件也可以是收敛阈值。
图6示意性示出了根据本公开实施例的深度学习模型的训练方法的示意图。
如图6所示,在实施例600中,利用初始模型604对样本图像Pa601按照任务Ta进行处理,得到输出结果Sa605。利用初始模型604对样本图像Pb602按照任务Tb进行处理,得到输出结果Sb606。利用初始模型604对样本图像Pc603按照任务Tc进行处理,得到输出结果Sc607。根据输出结果Sa605和样本图像Pa601的标签,得到损失值La6081。根据输出结果Sb606和样本图像Pb602的标签,得到损失值Lb6082。根据输出结果Sc607和样本图像Pc603的标签,得到损失值Lc6083。
根据本公开的实施例,可以基于损失值La6081、损失值Lb6082和损失值Lc6083调整初始模型参数,得到经训练的深度学习模型。
根据本公开的实施例,可以基于实际应用需求,确定每一个任务类型的权重。然后,根据与每一个任务类型对应的权重和与每一个任务类型对应的损失值,得到多个任务类型对应的损失值之和。最后,基于多个任务类型对应的损失值之和,调整初始模型的模型参数,直至多个任务类型对应的损失值之和达到第二收敛条件,得到经训练的深度学习模型。
根据本公开的实施例,每一个任务类型的权重可以根据实际应用需求进行配置。在完成一轮迭代训练之后,基于每一个任务类型对应的权重和与每一个任务类型对应的损失值,得到多个任务类型对应的损失值之和。
例如:目标检测任务的权重可以是0.8,文本识别任务的权重可以是0.2。在完成一轮迭代训练的情况下,根据目标检测任务的处理结果和目标检测任务的样本标签得到的目标检测任务的损失值可以是2。根据文本识别任务的处理结果和文本识别任务的样本标签得到的文本识别任务的损失值可以是1。由此,多个任务类型的损失值之和可以是1.8。
根据本公开的实施例,由于在完成一轮迭代训练的情况下,可以得到多个任务类型的损失值。并基于多个任务类型对应的损失值之和,调整初始模型的模型参数,从而缩短模型训练的周期,提高模型训练的效率。
图7示意性示出了根据本公开实施例的图像处理装置的框图。
如图7所示,该图像处理装置700可以包括第一提取模块710、第一确定模块720、第一获得模块730和第一处理模块740。
第一提取模块710,用于提取待处理图像的图像特征。在一些实施例中,第一提取模块710可以用于执行前文所述的操作S210,在此不做赘述。
第一确定模块720,用于根据待处理图像的图像处理任务,确定特征分布图和处理路径,特征分布图表征与图像处理任务对应的感兴趣区域的分布概率,处理路径表征用于处理待处理图像的处理模式。在一些实施例中,第一确定模块720可以用于执行前文所述的操作S220,在此不做赘述。
第一获得模块730,用于基于注意力机制,根据图像特征和特征分布图,得到感兴趣区域的图像特征。在一些实施例中,第一获得模块730可以用于执行前文所述的操作S230,在此不做赘述。
第一处理模块740,用于按照处理路径,对感兴趣区域的图像特征进行特征处理,得到与图像处理任务相对应的处理结果。在一些实施例中,第一获得模块740可以用于执行前文所述的操作S240,在此不做赘述。
根据本公开的实施例,第一获得模块可以包括:第一确定子模块和第一获得子模块。第一确定子模块,用于根据特征分布图,确定与图像处理任务对应的感兴趣区域。第一获得子模块,用于基于注意力机制,根据感兴趣区域从图像特征中得到感兴趣区域的图像特征。
根据本公开的实施例,第一获得子模块可以包括:第一提取单元和第二提取单元。第一提取单元,用于基于自注意力机制,从图像特征中提取前景特征。第二提取单元,用于基于交叉注意力机制,根据感兴趣区域从前景特征中提取感兴趣区域的图像特征。
根据本公开的实施例,第一处理模块可以包括:第一处理子模块、第二处理子模块和第二获得子模块。第一处理子模块,用于按照公共处理路径对感兴趣区域的图像特征进行处理,得到第一处理结果。第二处理子模块,用于按照特有处理路径对感兴趣区域的图像特征进行处理,得到第二处理结果。第二获得子模块,用于根据第一处理结果和第二处理结果,得到处理结果。
根据本公开的实施例,第一处理子模块可以包括:第一获得单元和第一处理单元。第一获得单元,用于根据公共处理路径的特征处理类型,从感兴趣区域的图像特征中得到第一图像特征。第一处理单元,用于按照公共处理路径对第一图像特征进行处理,得到第一处理结果。
根据本公开的实施例,公共处理路径可以包括类别检测路径。第一处理子模块可以包括:第二获得单元和第二处理单元。第二获得单元,用于从感兴趣区域的图像特征中得到待处理图像的类别特征。第二处理单元,用于对待处理图像的类别特征进行处理,得到类别检测结果。
根据本公开的实施例,公共处理路径可以包括位置检测路径。第一处理子模块可以包括第三获得单元和第三处理单元。第三获得单元,用于从感兴趣区域的图像特征中得到待处理图像的位置特征。第三处理单元,用于对待处理图像的图像特征进行处理,得到位置检测结果。
根据本公开的实施例,公共处理路径可以包括文本识别路径。第一处理子模块可以包括:第四获得单元和第四处理单元。第四获得单元,用于从感兴趣区域的图像特征中得到待处理图像的文本特征。第四处理单元,用于对待处理图像的文本特征进行处理,得到文本识别结果。
根据本公开的实施例,第二处理子模块可以包括第五获得单元和第五处理单元。第五获得单元,用于根据特有处理路径的特征处理类型,从感兴趣区域的图像特征中得到第二图像特征。第五处理单元,用于按照特有处理路径对第二图像特征进行处理,得到第二处理结果。
根据本公开的实施例,感兴趣区域的图像特征包括边特征、角点特征和边与角点的连接关系特征,公共处理路径包括类别检测路径和位置检测路径,特有处理路径包括连接关系检测路径。第一处理模块可以包括第一检测单元、第二检测单元、第三检测单元和第六获得单元。
根据本公开的实施例,第一检测单元,用于按照类别检测路径对边特征进行处理,得到边类别信息。第二检测单元,用于按照位置检测路径对角点特征进行处理,得到角点位置信息。第三检测单元,用于按照连接关系检测路径对边与角点的连接关系特征进行处理,得到边与角点的连接关系信息。第六获得单元,用于根据边类别信息、角点位置信息和边与角点的连接关系信息,得到待处理图像的表格识别结果。
图8示意性示出了根据本公开实施例的深度学习模型的训练装置的框图。
如图8所示,在深度学习模型的训练装置800中可以包括第二提取模块810、第二确定模块820、第二获得模块830、第二处理模块840、损失计算模块850和调整模块860。
第二提取模块810,用于提取样本图像的样本图像特征。在一些实施例中,第二提取模块810可以用于执行前文所述的操作S510。
第二确定模块820,用于根据样本图像的预定处理任务,确定样本图像的样本特征分布图和样本处理路径,其中,样本特征分布图表征与样本图像处理任务对应的样本感兴趣区域的分布概率,样本处理路径表征用于处理样本图像的处理模式。在一些实施例中,第二确定模块820可以用于执行前文所述的操作S520。
第二获得模块830,用于基于注意力机制,根据样本图像特征和样本特征分布图,得到样本感兴趣区域的样本图像特征。在一些实施例中,第二获得模块830可以用于执行前文所述的操作S530。
第二处理模块840,用于按照样本处理路径,对样本感兴趣区域的样本图像特征进行特征处理,得到与预定任务相对应的样本处理结果。在一些实施例中,第二获得模块840可以用于执行前文所述的操作S540。
损失计算模块850,用于基于目标损失函数,根据样本处理结果和样本标签,得到损失值,样本标签表征与预定处理任务对应的标签。在一些实施例中,损失计算模块850可以用于执行前文所述的操作S550。
调整模块860,用于基于损失值,调整初始模型的模型参数,得到经训练的深度学习模型。在一些实施例中,调整模块860可以用于执行前文所述的操作S560。
根据本公开的实施例,预定处理任务可以包括多个任务类型的处理任务,损失计算模块可以包括:分类子模块和损失计算子模块。分类子模块,用于根据任务类型,对样本处理结果和样本标签进行分类,得到与每一个任务类型对应的目标样本处理结果和目标样本标签。损失计算子模块,用于基于与每一个任务类型对应的损失函数,通过对目标样本处理结果和目标样本标签进行处理,得到与每一个任务类型对应的损失值,得到与多个任务类型对应的损失值。
根据本公开的实施例,损失值可以包括与多个任务类型对应的损失值,调整模块可以包括:第一调整子模块。第一调整子模块,用于基于与每一个任务类型对应的损失值,调整初始模型的模型参数,直至与每一个任务类型对应的损失值均达到第一收敛条件,得到经训练的深度学习模型。
根据本公开的实施例,损失值可以包括与多个任务类型对应的损失值,调整模块可以包括:第二调整子模块。第二调整子模块,用于基于多个任务类型对应的损失值之和,调整初始模型的模型参数,直至多个任务类型对应的损失值之和达到第二收敛条件,得到经训练的深度学习模型。
根据本公开的实施例,调整模块还可以包括:第二确定子模块和第三获得子模块。第二确定子模块,用于确定与每一个任务类型对应的权重。第三获得子模块,用于根据与每一个任务类型对应的权重和与每一个任务类型对应的损失值,得到多个任务类型对应的损失值之和。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的方法。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如图像处理方法或深度学习模型的训练方法。例如,在一些实施例中,图像处理方法或深度学习模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的图像处理方法或深度学习模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像处理方法或深度学习模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (33)
1.一种图像处理方法,包括:
提取待处理图像的图像特征;
根据待处理图像的图像处理任务,确定特征分布图和处理路径,所述特征分布图表征与所述图像处理任务对应的感兴趣区域的分布概率,所述处理路径表征用于处理所述待处理图像的处理模式;
基于注意力机制,根据所述图像特征和所述特征分布图,得到所述感兴趣区域的图像特征;以及
按照所述处理路径,对所述感兴趣区域的图像特征进行特征处理,得到与所述图像处理任务相对应的处理结果。
2.根据权利要求1所述的方法,其中,所述基于注意力机制,根据所述图像特征和所述特征分布图,得到所述感兴趣区域的图像特征,包括:
根据所述特征分布图,确定与所述图像处理任务对应的感兴趣区域;以及
基于所述注意力机制,根据所述感兴趣区域从所述图像特征中得到所述感兴趣区域的图像特征。
3.根据权利要求2所述的方法,其中,所述基于注意力机制,根据所述感兴趣区域从所述图像特征中得到所述感兴趣区域的图像特征,包括:
基于自注意力机制,从所述图像特征中提取前景特征;以及
基于交叉注意力机制,根据所述感兴趣区域从所述前景特征中提取所述感兴趣区域的图像特征。
4.根据权利要求1所述的方法,其中,所述处理路径包括公共处理路径和特有处理路径,所述公共处理路径表征所述图像处理任务与其他处理任务之间具有相同处理目标的处理路径,所述特有处理路径表征所述图像处理任务与其他处理任务之间具有不同处理目标的处理路径;
所述按照所述处理路径,对所述感兴趣区域的图像特征进行特征处理,得到与所述图像处理任务相对应的处理结果,包括:
按照所述公共处理路径对所述感兴趣区域的图像特征进行处理,得到第一处理结果;
按照所述特有处理路径对所述感兴趣区域的图像特征进行处理,得到第二处理结果;以及
根据所述第一处理结果和所述第二处理结果,得到所述处理结果。
5.根据权利要求4所述的方法,其中,所述按照所述公共处理路径对所述感兴趣区域的图像特征进行处理,得到第一处理结果,包括:
根据所述公共处理路径的特征处理类型,从所述感兴趣区域的图像特征中得到第一图像特征;以及
按照所述公共处理路径对所述第一图像特征进行处理,得到所述第一处理结果。
6.根据权利要求4或5所述的方法,其中,所述公共处理路径包括类别检测路径,所述按照所述公共处理路径对所述感兴趣区域的图像特征进行处理,得到第一处理结果,包括:
从所述感兴趣区域的图像特征中得到所述待处理图像的类别特征;以及
对所述待处理图像的类别特征进行处理,得到类别检测结果。
7.根据权利要求4或5所述的方法,其中,所述公共处理路径包括位置检测路径,所述按照所述公共处理路径对所述感兴趣区域的图像特征进行处理,得到第一处理结果,包括:
从所述感兴趣区域的图像特征中得到所述待处理图像的位置特征;以及
对所述待处理图像的图像特征进行处理,得到位置检测结果。
8.根据权利要求4或5所述的方法,其中,所述公共处理路径包括文本识别路径,所述按照所述公共处理路径对所述感兴趣区域的图像特征进行处理,得到第一处理结果,包括:
从所述感兴趣区域的图像特征中得到所述待处理图像的文本特征;以及
对所述待处理图像的文本特征进行处理,得到文本识别结果。
9.根据权利要求4所述的方法,其中,所述按照所述特有处理路径对所述感兴趣区域的图像特征进行处理,得到第二处理结果,包括:
根据所述特有处理路径的特征处理类型,从所述感兴趣区域的图像特征中得到第二图像特征;以及
按照所述特有处理路径对所述第二图像特征进行处理,得到所述第二处理结果。
10.根据权利要求4所述的方法,其中,所述感兴趣区域的图像特征包括边特征、角点特征和边与角点的连接关系特征,所述公共处理路径包括类别检测路径和位置检测路径,所述特有处理路径包括连接关系检测路径;所述按照所述处理路径对所述感兴趣区域的图像特征进行处理,得到处理结果,包括:
按照所述类别检测路径对所述边特征进行处理,得到边类别信息;
按照所述位置检测路径对所述角点特征进行处理,得到角点位置信息;
按照连接关系检测路径对所述边与角点的连接关系特征进行处理,得到所述边与角点的连接关系信息;以及
根据所述边类别信息、所述角点位置信息和所述边与角点的连接关系信息,得到所述待处理图像的表格识别结果。
11.一种深度学习模型的训练方法,包括:
提取样本图像的样本图像特征;
根据样本图像的预定处理任务,确定样本图像的样本特征分布图和样本处理路径,其中,所述样本特征分布图表征与所述样本图像处理任务对应的样本感兴趣区域的分布概率,所述样本处理路径表征用于处理所述样本图像的处理模式;
基于注意力机制,根据所述样本图像特征和所述样本特征分布图,得到所述样本感兴趣区域的样本图像特征;
按照所述样本处理路径,对所述样本感兴趣区域的样本图像特征进行特征处理,得到与所述预定任务相对应的样本处理结果;
基于目标损失函数,根据所述样本处理结果和样本标签,得到损失值,所述样本标签表征与所述预定处理任务对应的标签;
基于所述损失值,调整初始模型的模型参数,得到经训练的深度学习模型。
12.根据权利要求11所述的方法,其中,所述预定处理任务包括多个任务类型的处理任务,所述基于目标损失函数,根据所述样本处理结果和样本标签,得到损失值,包括:
根据任务类型,对所述样本处理结果和所述样本标签进行分类,得到与每一个任务类型对应的目标样本处理结果和目标样本标签;以及
基于与每一个任务类型对应的损失函数,通过对所述目标样本处理结果和目标样本标签进行处理,得到与每一个任务类型对应的损失值,得到与所述多个任务类型对应的损失值。
13.根据权利要求11所述的方法,其中,所述损失值包括与多个任务类型对应的损失值,所述基于所述损失值,调整初始模型的模型参数,得到经训练的深度学习模型,包括:
基于与每一个任务类型对应的损失值,调整所述初始模型的模型参数,直至与每一个任务类型对应的损失值均达到第一收敛条件,得到所述经训练的深度学习模型。
14.根据权利要求11所述的方法,其中,所述损失值包括与多个任务类型对应的损失值,所述基于所述损失值,调整初始模型的模型参数,得到经训练的深度学习模型,包括:
基于所述多个任务类型对应的损失值之和,调整所述初始模型的模型参数,直至所述多个任务类型对应的损失值之和达到第二收敛条件,得到所述经训练的深度学习模型。
15.根据权利要求14所述的方法,还包括:
确定与每一个任务类型对应的权重;
根据所述与每一个任务类型对应的权重和所述与每一个任务类型对应的损失值,得到所述多个任务类型对应的损失值之和。
16.一种图像处理装置,包括:
第一提取模块,用于提取待处理图像的图像特征;
第一确定模块,用于根据待处理图像的图像处理任务,确定特征分布图和处理路径,所述特征分布图表征与所述图像处理任务对应的感兴趣区域的分布概率,所述处理路径表征用于处理所述待处理图像的处理模式;
第一获得模块,用于基于注意力机制,根据所述图像特征和所述特征分布图,得到所述感兴趣区域的图像特征;以及
第一处理模块,用于按照所述处理路径,对所述感兴趣区域的图像特征进行特征处理,得到与所述图像处理任务相对应的处理结果。
17.根据权利要求16所述的装置,其中,所述第一获得模块包括:
第一确定子模块,用于根据所述特征分布图,确定与所述图像处理任务对应的感兴趣区域;以及
第一获得子模块,用于基于所述注意力机制,根据所述感兴趣区域从所述图像特征中得到所述感兴趣区域的图像特征。
18.根据权利要求16所述的装置,其中,所述第一获得子模块包括:
第一提取单元,用于基于自注意力机制,从所述图像特征中提取前景特征;以及
第二提取单元,用于基于交叉注意力机制,根据所述感兴趣区域从所述前景特征中提取所述感兴趣区域的图像特征。
19.根据权利要求16所述的装置,其中,所述处理路径包括公共处理路径和特有处理路径,所述公共处理路径表征所述图像处理任务与其他处理任务之间具有相同处理目标的处理路径,所述特有处理路径表征所述图像处理任务与其他处理任务之间具有不同处理目标的处理路径;所述第一处理模块包括:
第一处理子模块,用于按照所述公共处理路径对所述感兴趣区域的图像特征进行处理,得到第一处理结果;
第二处理子模块,用于按照所述特有处理路径对所述感兴趣区域的图像特征进行处理,得到第二处理结果;以及
第二获得子模块,用于根据所述第一处理结果和所述第二处理结果,得到所述处理结果。
20.根据权利要求19所述的装置,其中,所述第一处理子模块包括:
第一获得单元,用于根据所述公共处理路径的特征处理类型,从所述感兴趣区域的图像特征中得到第一图像特征;以及
第一处理单元,用于按照所述公共处理路径对所述第一图像特征进行处理,得到所述第一处理结果。
21.根据权利要求19或20所述的装置,其中,所述公共处理路径包括类别检测路径,所述第一处理子模块包括:
第二获得单元,用于从所述感兴趣区域的图像特征中得到所述待处理图像的类别特征;以及
第二处理单元,用于对所述待处理图像的类别特征进行处理,得到类别检测结果。
22.根据权利要求19或20所述的装置,其中,所述公共处理路径包括位置检测路径,所述第一处理子模块包括:
第三获得单元,用于从所述感兴趣区域的图像特征中得到所述待处理图像的位置特征;以及
第三处理单元,用于对所述待处理图像的图像特征进行处理,得到位置检测结果。
23.根据权利要求19或20所述的装置,其中,所述公共处理路径包括文本识别路径,所述第一处理子模块包括:
第四获得单元,用于从所述感兴趣区域的图像特征中得到所述待处理图像的文本特征;以及
第四处理单元,用于对所述待处理图像的文本特征进行处理,得到文本识别结果。
24.根据权利要求19所述的装置,其中,所述第二处理子模块包括:
第五获得单元,用于根据所述特有处理路径的特征处理类型,从所述感兴趣区域的图像特征中得到第二图像特征;以及
第五处理单元,用于按照所述特有处理路径对所述第二图像特征进行处理,得到所述第二处理结果。
25.根据权利要求19所述的装置,其中,所述所述感兴趣区域的图像特征包括边特征、角点特征和边与角点的连接关系特征,所述公共处理路径包括类别检测路径和位置检测路径,所述特有处理路径包括连接关系检测路径;所述第一处理模块包括:
第一检测单元,用于按照所述类别检测路径对所述边特征进行处理,得到边类别信息;
第二检测单元,用于按照所述位置检测路径对所述角点特征进行处理,得到角点位置信息;
第三检测单元,用于按照连接关系检测路径对所述边与角点的连接关系特征进行处理,得到所述边与角点的连接关系信息;以及
第六获得单元,用于根据所述边类别信息、所述角点位置信息和所述边与角点的连接关系信息,得到所述待处理图像的表格识别结果。
26.一种深度学习模型的训练装置,包括:
第二提取模块,用于提取样本图像的样本图像特征;
第二确定模块,用于根据样本图像的预定处理任务,确定样本图像的样本特征分布图和样本处理路径,其中,所述样本特征分布图表征与所述样本图像处理任务对应的样本感兴趣区域的分布概率,所述样本处理路径表征用于处理所述样本图像的处理模式;
第二获得模块,用于基于注意力机制,根据所述样本图像特征和所述样本特征分布图,得到所述样本感兴趣区域的样本图像特征;
第二处理模块,用于按照所述样本处理路径,对所述样本感兴趣区域的样本图像特征进行特征处理,得到与所述预定任务相对应的样本处理结果;
损失计算模块,用于基于目标损失函数,根据所述样本处理结果和样本标签,得到损失值,所述样本标签表征与所述预定处理任务对应的标签;
调整模块,用于基于所述损失值,调整初始模型的模型参数,得到经训练的深度学习模型。
27.根据权利要求26所述的装置,其中,所述预定处理任务包括多个任务类型的处理任务,所述损失计算模块包括:
分类子模块,用于根据任务类型,对所述样本处理结果和所述样本标签进行分类,得到与每一个任务类型对应的目标样本处理结果和目标样本标签;以及
损失计算子模块,用于基于与每一个任务类型对应的损失函数,通过对所述目标样本处理结果和目标样本标签进行处理,得到与每一个任务类型对应的损失值,得到与所述多个任务类型对应的损失值。
28.根据权利要求26所述的装置,其中,所述损失值包括与多个任务类型对应的损失值,所述调整模块包括:
第一调整子模块,用于基于与每一个任务类型对应的损失值,调整所述初始模型的模型参数,直至与每一个任务类型对应的损失值均达到第一收敛条件,得到所述经训练的深度学习模型。
29.根据权利要求26所述的装置,其中,所述损失值包括与多个任务类型对应的损失值,所述调整模块包括:
第二调整子模块,用于基于所述多个任务类型对应的损失值之和,调整所述初始模型的模型参数,直至所述多个任务类型对应的损失值之和达到第二收敛条件,得到所述经训练的深度学习模型。
30.根据权利要求29所述的装置,其中,所述调整模块还包括:
第二确定子模块,用于确定与每一个任务类型对应的权重;
第三获得子模块,用于根据所述与每一个任务类型对应的权重和所述与每一个任务类型对应的损失值,得到所述多个任务类型对应的损失值之和。
31.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-15中任一项所述的方法。
32.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-15中任一项所述的方法。
33.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310368589.XA CN116385789B (zh) | 2023-04-07 | 2023-04-07 | 图像处理方法、训练方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310368589.XA CN116385789B (zh) | 2023-04-07 | 2023-04-07 | 图像处理方法、训练方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116385789A true CN116385789A (zh) | 2023-07-04 |
CN116385789B CN116385789B (zh) | 2024-01-23 |
Family
ID=86970707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310368589.XA Active CN116385789B (zh) | 2023-04-07 | 2023-04-07 | 图像处理方法、训练方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116385789B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116580286A (zh) * | 2023-07-12 | 2023-08-11 | 宁德时代新能源科技股份有限公司 | 图像标注方法、装置、设备和存储介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108513711A (zh) * | 2016-12-28 | 2018-09-07 | 索尼半导体解决方案公司 | 图像处理装置、图像处理方法和图像处理系统 |
WO2019162204A1 (en) * | 2018-02-23 | 2019-08-29 | Asml Netherlands B.V. | Deep learning for semantic segmentation of pattern |
WO2021135816A1 (zh) * | 2019-12-30 | 2021-07-08 | 华为技术有限公司 | 识别图像中文本的方法、装置和系统 |
CN113361572A (zh) * | 2021-05-25 | 2021-09-07 | 北京百度网讯科技有限公司 | 图像处理模型的训练方法、装置、电子设备以及存储介质 |
CN113836985A (zh) * | 2020-06-24 | 2021-12-24 | 富士通株式会社 | 图像处理装置、图像处理方法和计算机可读存储介质 |
US20220027657A1 (en) * | 2020-07-24 | 2022-01-27 | Beihang University | Image object detection method, device, electronic device and computer readable medium |
CN114299089A (zh) * | 2021-12-27 | 2022-04-08 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN114332680A (zh) * | 2021-12-08 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 图像处理、视频搜索方法、装置、计算机设备和存储介质 |
CN114386531A (zh) * | 2022-01-25 | 2022-04-22 | 山东力聚机器人科技股份有限公司 | 基于双级注意力的图像识别方法及装置 |
KR20220050106A (ko) * | 2021-06-09 | 2022-04-22 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 이미지 화질 향상 방법, 장치, 기기 및 매체 |
CN114429633A (zh) * | 2022-01-28 | 2022-05-03 | 北京百度网讯科技有限公司 | 文本识别方法、模型的训练方法、装置、电子设备及介质 |
CN114494158A (zh) * | 2022-01-07 | 2022-05-13 | 华为技术有限公司 | 一种图像处理方法、一种车道线检测方法及相关设备 |
CN114581965A (zh) * | 2022-03-04 | 2022-06-03 | 长春工业大学 | 指静脉识别模型训练方法及识别方法、系统和终端 |
CN114663670A (zh) * | 2022-03-25 | 2022-06-24 | 腾讯科技(上海)有限公司 | 一种图像检测方法、装置、电子设备及存储介质 |
US20220375602A1 (en) * | 2021-05-24 | 2022-11-24 | Nantomics, Llc | Deep Learning Models for Region-of-Interest Determination |
CN115631183A (zh) * | 2022-11-07 | 2023-01-20 | 华东理工大学 | 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质 |
WO2023015941A1 (zh) * | 2021-08-13 | 2023-02-16 | 北京百度网讯科技有限公司 | 文本检测模型的训练方法和检测文本方法、装置和设备 |
-
2023
- 2023-04-07 CN CN202310368589.XA patent/CN116385789B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108513711A (zh) * | 2016-12-28 | 2018-09-07 | 索尼半导体解决方案公司 | 图像处理装置、图像处理方法和图像处理系统 |
WO2019162204A1 (en) * | 2018-02-23 | 2019-08-29 | Asml Netherlands B.V. | Deep learning for semantic segmentation of pattern |
WO2021135816A1 (zh) * | 2019-12-30 | 2021-07-08 | 华为技术有限公司 | 识别图像中文本的方法、装置和系统 |
CN113836985A (zh) * | 2020-06-24 | 2021-12-24 | 富士通株式会社 | 图像处理装置、图像处理方法和计算机可读存储介质 |
US20220027657A1 (en) * | 2020-07-24 | 2022-01-27 | Beihang University | Image object detection method, device, electronic device and computer readable medium |
US20220375602A1 (en) * | 2021-05-24 | 2022-11-24 | Nantomics, Llc | Deep Learning Models for Region-of-Interest Determination |
CN113361572A (zh) * | 2021-05-25 | 2021-09-07 | 北京百度网讯科技有限公司 | 图像处理模型的训练方法、装置、电子设备以及存储介质 |
KR20220050106A (ko) * | 2021-06-09 | 2022-04-22 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 이미지 화질 향상 방법, 장치, 기기 및 매체 |
WO2023015941A1 (zh) * | 2021-08-13 | 2023-02-16 | 北京百度网讯科技有限公司 | 文本检测模型的训练方法和检测文本方法、装置和设备 |
CN114332680A (zh) * | 2021-12-08 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 图像处理、视频搜索方法、装置、计算机设备和存储介质 |
CN114299089A (zh) * | 2021-12-27 | 2022-04-08 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN114494158A (zh) * | 2022-01-07 | 2022-05-13 | 华为技术有限公司 | 一种图像处理方法、一种车道线检测方法及相关设备 |
CN114386531A (zh) * | 2022-01-25 | 2022-04-22 | 山东力聚机器人科技股份有限公司 | 基于双级注意力的图像识别方法及装置 |
CN114429633A (zh) * | 2022-01-28 | 2022-05-03 | 北京百度网讯科技有限公司 | 文本识别方法、模型的训练方法、装置、电子设备及介质 |
CN114581965A (zh) * | 2022-03-04 | 2022-06-03 | 长春工业大学 | 指静脉识别模型训练方法及识别方法、系统和终端 |
CN114663670A (zh) * | 2022-03-25 | 2022-06-24 | 腾讯科技(上海)有限公司 | 一种图像检测方法、装置、电子设备及存储介质 |
CN115631183A (zh) * | 2022-11-07 | 2023-01-20 | 华东理工大学 | 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116580286A (zh) * | 2023-07-12 | 2023-08-11 | 宁德时代新能源科技股份有限公司 | 图像标注方法、装置、设备和存储介质 |
CN116580286B (zh) * | 2023-07-12 | 2023-11-03 | 宁德时代新能源科技股份有限公司 | 图像标注方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116385789B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114550177B (zh) | 图像处理的方法、文本识别方法及装置 | |
CN112966742A (zh) | 模型训练方法、目标检测方法、装置和电子设备 | |
US11861919B2 (en) | Text recognition method and device, and electronic device | |
CN116385789B (zh) | 图像处理方法、训练方法、装置、电子设备及存储介质 | |
CN113657483A (zh) | 模型训练方法、目标检测方法、装置、设备以及存储介质 | |
CN115358392A (zh) | 深度学习网络的训练方法、文本检测方法及装置 | |
CN114511743B (zh) | 检测模型训练、目标检测方法、装置、设备、介质及产品 | |
US20230245429A1 (en) | Method and apparatus for training lane line detection model, electronic device and storage medium | |
CN113837194B (zh) | 图像处理方法、图像处理装置、电子设备以及存储介质 | |
CN112508005B (zh) | 用于处理图像的方法、装置、设备以及存储介质 | |
CN113378857A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN113378958A (zh) | 自动标注方法、装置、设备、存储介质及计算机程序产品 | |
CN116259064B (zh) | 表格结构识别方法、表格结构识别模型的训练方法及装置 | |
CN114187488B (zh) | 图像处理方法、装置、设备、介质 | |
CN113591709B (zh) | 动作识别方法、装置、设备、介质和产品 | |
CN113936158A (zh) | 一种标签匹配方法及装置 | |
CN114612971A (zh) | 人脸检测方法、模型训练方法、电子设备及程序产品 | |
CN114093006A (zh) | 活体人脸检测模型的训练方法、装置、设备以及存储介质 | |
CN116258769B (zh) | 一种定位校验方法、装置、电子设备和存储介质 | |
CN114092874B (zh) | 目标检测模型的训练方法、目标检测方法及其相关设备 | |
CN113360688B (zh) | 信息库的构建方法、装置及系统 | |
CN113361524B (zh) | 图像处理方法及装置 | |
CN114677564B (zh) | 训练样本的生成方法、深度学习模型的训练方法和装置 | |
CN114299522B (zh) | 图像识别方法装置、设备和存储介质 | |
CN112966606B (zh) | 图像识别方法、相关装置及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |