CN113947764A - 一种图像处理方法、装置、设备及存储介质 - Google Patents
一种图像处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113947764A CN113947764A CN202111472516.2A CN202111472516A CN113947764A CN 113947764 A CN113947764 A CN 113947764A CN 202111472516 A CN202111472516 A CN 202111472516A CN 113947764 A CN113947764 A CN 113947764A
- Authority
- CN
- China
- Prior art keywords
- traffic sign
- target
- image
- sign
- traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种图像处理方法、装置、设备及存储介质,可应用于地图领域、车载场景、人工智能、辅助驾驶等各种场景,该方法包括:对交通标志牌图像进行图像特征提取,获得主体交通标志和至少一个待识别交通标志各自对应的目标图像特征。从主体交通标志和至少一个待识别交通标志中,获取包含文本信息的目标交通标志。对目标交通标志进行文本语义特征提取,获得目标语义特征。通过结合图像维度的目标图像特征和文本维度的目标语义特征,确定至少一个待识别交通标志各自与主体交通标志之间的目标关联关系,有效提高了识别交通标志之间的关联关系的准确性,进而提高地图数据更新的准确性,同时,该方案适用于各种类型的交通标志,通用性更强。
Description
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种图像处理方法、装置、设备及存储介质。
背景技术
随着互联网技术和智能设备的发展,多种多样的地图软件不断普及。为保证地图软件的准确性,地图中与交通标志牌相关的信息非常必要。
相关技术下,通过模型提取交通标志牌图像的图像特征,并基于图像特征预测交通标志牌图像中的交通标志之间的关联关系。
然而,当交通标志中包含文本信息时,比如,前方学校提醒标志中包括文本信息“前方学校”,此时,采用上述方法获得交通标志之间的关联关系的准确性较低。
发明内容
本申请实施例提供了一种图像处理方法、装置、设备及存储介质,用于提高识别交通标志牌图像中交通标志之间的关联关系的准确性。
一方面,本申请实施例提供了一种图像处理方法,该方法包括:
获取交通标志牌图像,所述交通标志牌图像中包括主体交通标志和至少一个待识别交通标志;
对所述交通标志牌图像进行图像特征提取,获得所述主体交通标志和所述至少一个待识别交通标志各自对应的目标图像特征;
从所述主体交通标志和至少一个待识别交通标志中,获取包含文本信息的至少一个目标交通标志,并分别对所述至少一个目标交通标志进行文本语义特征提取,获得所述至少一个目标交通标志各自对应的目标语义特征;
基于获得的各个目标图像特征以及各个目标语义特征,确定所述至少一个待识别交通标志各自与所述主体交通标志之间的目标关联关系。
一方面,本申请实施例提供了一种图像处理的装置,该装置包括:
获取模块,用于获取交通标志牌图像,所述交通标志牌图像中包括主体交通标志和至少一个待识别交通标志;
图像特征提取模块,用于对所述交通标志牌图像进行图像特征提取,获得所述主体交通标志和所述至少一个待识别交通标志各自对应的目标图像特征;
语义特征提取模块,用于从所述主体交通标志和至少一个待识别交通标志中,获取包含文本信息的至少一个目标交通标志,并分别对所述至少一个目标交通标志进行文本语义特征提取,获得所述至少一个目标交通标志各自对应的目标语义特征;
推理模块,用于基于获得的各个目标图像特征以及各个目标语义特征,确定所述至少一个待识别交通标志各自与所述主体交通标志之间的目标关联关系。
可选地,所述图像特征提取模块具体用于:
对所述交通标志牌图像进行图像特征提取,获得所述交通标志牌图像的原始图像特征;
从所述原始图像特征中,获取所述主体交通标志和所述至少一个待识别交通标志各自对应的子图像特征;
将获得的各个子图像特征调整为相同尺寸,获得所述主体交通标志和所述至少一个待识别交通标志各自对应的目标图像特征。
可选地,所述图像特征提取模块具体用于:
针对所述各个子图像特征,分别执行以下步骤:
按照预设划分比例,将一个子图像特征划分为多个相同尺寸的候选区域;
对每个候选区域包含的多个采样点进行插值处理,获得每个候选区域对应的多个采样像素值,并将所述多个采样像素值中的最大采样像素值,作为每个候选区域的目标像素值;
基于多个候选区域对应的目标像素值,获得所述一个子图像特征对应的调整图像特征;
基于所述各个子图像特征对应的调整图像特征,获得所述主体交通标志和所述至少一个待识别交通标志各自对应的目标图像特征。
可选地,所述语义特征提取模块具体用于:
针对所述至少一个目标交通标志,分别执行以下步骤:
对一个目标交通标志进行文本图像特征编码,获得目标编码特征;
将所述目标编码特征的尺寸,调整为所述目标图像特征对应的尺寸,获得所述一个目标交通标志对应的目标语义特征。
可选地,所述推理模块具体用于:
将获得的各个目标图像特征以及各个目标语义特征融合,获得综合特征;
基于所述综合特征,确定所述至少一个待识别交通标志分别与所述主体交通标志之间的目标关联关系。
可选地,所述推理模块具体用于:
采用多个自注意力机制,提取所述综合特征对应的多种子空间关系;
将所述多种子空间关系在通道维度上拼接,获得多头注意力特征;
基于所述多头注意力特征,确定所述至少一个待识别交通标志各自与所述主体交通标志之间的目标关联关系。
可选地,还包括更新模块;
所述更新模块具体用于:
针对所述至少一个待识别交通标志,分别执行以下步骤:
若一个待识别交通标志与所述主体交通标志之间的目标关联关系为附属关系,则将所述一个待识别交通标志,确定为所述主体交通标志的附属交通标志;
若所述一个待识别交通标志与所述主体交通标志之间的目标关联关系为非附属关系,则将所述一个待识别交通标志,确定为所述主体交通标志的非附属交通标志。
可选地,所述更新模块还用于:
若所述至少一个待识别交通标志中,包括所述主体交通标志的至少一个附属交通标志,则基于所述主体交通标志和所述至少一个附属交通标志,确定所述交通标志牌图像包含的第一交通信息;
采用所述第一交通信息,更新地图数据中相应交通标志牌的特征信息。
可选地,所述更新模块还用于:
若所述至少一个待识别交通标志中,包括所述主体交通标志的至少一个非附属交通标志,则分别确定所述至少一个非附属交通标志各自对应的第二交通信息;
采用所述第一交通信息和获得的各个第二交通信息,更新地图数据中相应交通标志牌的特征信息。
一方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述图像处理方法的步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述图像处理方法的步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述图像处理方法的步骤。
本申请实施例中,提取交通标志牌图像中主体交通标志和至少一个待识别交通标志各自在图像维度的目标图像特征。针对包含文本信息的目标交通标志,通过对目标交通标志进行语义理解,提取更能表征目标交通标志含义的目标语义特征,故结合图像维度的目标图像特征和文本维度的目标语义特征,识别交通标志之间的关联关系时,可以有效提高对交通标志中关键信息的理解程度,从而提高识别交通标志之间的关联关系的准确性。同时,该方案针对包含文本信息和不包含文本信息的交通标志均能获得好的识别效果,通用性更强。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1a为本申请实施例提供的一种交通标志牌图像的示意图一;
图1b为本申请实施例提供的一种系统架构的结构示意图;
图2为本申请实施例提供的一种交通标志牌图像的示意图二;
图3为本申请实施例提供的一种关系推理模型的网络结构示意图一;
图4为本申请实施例提供的一种模型训练方法的流程示意图;
图5为本申请实施例提供的一种图像处理方法的流程示意图;
图6a为本申请实施例提供的一种交通标志牌图像的示意图三;
图6b为本申请实施例提供的一种交通标志牌图像的示意图四;
图6c为本申请实施例提供的一种交通标志牌图像的示意图五;
图7a为本申请实施例提供的一种交通标志牌图像的示意图六;
图7b为本申请实施例提供的一种交通标志牌图像的示意图七;
图8为本申请实施例提供的一种关系推理模型的网络结构示意图二;
图9为本申请实施例提供的一种关系推理模型的网络结构示意图三;
图10为本申请实施例提供的一种文本图像识别模型的网络结构示意图;
图11为本申请实施例提供的一种关系推理网络的网络结构示意图;
图12为本申请实施例提供的一种自注意力机制的流程示意图;
图13为本申请实施例提供的一种关系推理模型的网络结构示意图四;
图14为本申请实施例提供的一种图像处理装置的结构示意图;
图15为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了方便理解,下面对本发明实施例中涉及的名词进行解释。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。比如,本申请实施例中采用自然语言处理技术,对包含文本信息的待识别交通标志进行语义理解,获得待识别交通标志的语义特征,然后结合待识别交通标志的语义特征和待识别交通标志的图像特征,确定待识别交通标志与主体交通标志的关联关系。
文本图像:以文本为目标的图像。
文本图像识别:通过算法识别文本图像上的文字。
卷积神经网络:包含卷积计算且具有深度结构的前馈神经网络。
主干网络:用于特征提取的多层卷积神经网络。
边缘补零:输入特征的边缘区域用0来填充,从而保证输出尺度。
特征对齐:不同尺寸的特征图转化为统一尺寸的特征图。
注意力机制:机器学习模型中嵌入的一种特殊结构,用来自动学习和计算输入数据对输出数据的贡献大小。
ROI:Region Of Interest,感兴趣区域。图像处理中,从被处理的图像中以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域。
下面对本申请实施例的设计思想进行介绍。
为保证地图软件的准确性,地图中与交通标志牌相关的信息非常必要。相关技术下,通过模型提取交通标志牌图像的图像特征,并基于图像特征预测交通标志牌图像中的交通标志之间的关联关系。
然而,当交通标志中包含文本信息时,比如,参见图1a,前方学校提醒标志中包括文本信息“前方学校”。此时,采用上述方法获得交通标志之间的关联关系的准确性较低。
通过分析发现,当交通标志包含的文本信息时,文本信息中文字的不同排列顺序或组合对应着不同的含义。若仅仅提取交通标志的图像特征,则容易忽略文本信息所表达的语义,从而影响对交通标志的理解,进而影响识别交通标志之间的关联关系的效果。
鉴于此,本申请实施例提供了一种图像处理方法,该方法包括:
获取交通标志牌图像,其中,交通标志牌图像中包括主体交通标志和至少一个待识别交通标志。然后对交通标志牌图像进行图像特征提取,获得主体交通标志和至少一个待识别交通标志各自对应的目标图像特征。再从主体交通标志和至少一个待识别交通标志中,获取包含文本信息的至少一个目标交通标志,并分别对至少一个目标交通标志进行文本语义特征提取,获得至少一个目标交通标志各自对应的目标语义特征。之后再基于获得的各个目标图像特征以及各个目标语义特征,确定至少一个待识别交通标志各自与主体交通标志之间的目标关联关系。
本申请实施例中,提取交通标志牌图像中主体交通标志和至少一个待识别交通标志各自在图像维度的目标图像特征。针对包含文本信息的目标交通标志,通过对目标交通标志进行语义理解,提取更能表征目标交通标志含义的目标语义特征,故结合图像维度的目标图像特征和文本维度的目标语义特征,识别交通标志之间的关联关系时,可以有效提高对交通标志中关键信息的理解程度,从而提高识别交通标志之间的关联关系的准确性。同时,该方案针对包含文本信息和不包含文本信息的交通标志均能获得好的识别效果,通用性更强。
参考图1b,其为本申请实施例适用的一种系统架构图。该架构至少包括终端设备101以及服务器102。终端设备101的数量可以是一个或多个,服务器102的数量也可以是一个或多个,本申请对终端设备101和服务器102的数量不做具体限定。
终端设备101中可以安装有目标应用,其中,目标应用可以是客户端应用、网页版应用、小程序应用等。在实际应用中,目标应用可以是任意具备图像处理功能的应用。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、智能音箱、智能手表、智能车载设备等,但并不局限于此。本申请实施例可应用于各种场景,包括但不限于地图领域、车载场景、云技术、人工智能、智慧交通、辅助驾驶。
服务器102可以是目标应用的后台服务器,为目标应用提供相应的服务,服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101与服务器102可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例中的图像处理方法可以是终端设备101执行,也可以是服务器102执行,也可以由终端设备101与服务器102交互执行。
以服务器102执行图像处理方法举例来说:
终端设备101采集交通标志牌图像,交通标志牌图像中包括主体交通标志和至少一个待识别交通标志。终端设备101将交通标志牌图像发送至服务器102。服务器102对交通标志牌图像进行图像特征提取,获得主体交通标志和至少一个待识别交通标志各自对应的目标图像特征。从主体交通标志和至少一个待识别交通标志中,获取包含文本信息的至少一个目标交通标志,并分别对至少一个目标交通标志进行文本语义特征提取,获得至少一个目标交通标志各自对应的目标语义特征。之后再基于获得的各个目标图像特征以及各个目标语义特征,确定至少一个待识别交通标志各自与主体交通标志之间的目标关联关系。
在实际应用中,本申请实施例中的图像处理方法适用于任意需要确定图像中各个目标对象之间的关联关系的场景,下面以确定交通标志牌图像中交通标志之间的关联关系举例来说:
参见图2,为本申请实施例提供的一种交通标志牌图像。交通标志牌图像中包括限速标志201、注意儿童标志202、禁止鸣笛标志203、前方学校提醒标志204,其中,限速标志201为交通标志牌图像中的主体交通标志,注意儿童标志202、禁止鸣笛标志203、前方学校提醒标志204均为待识别交通标志。
对交通标志牌图像进行图像特征提取,获得限速标志201、注意儿童标志202、禁止鸣笛标志203、前方学校提醒标志204各自对应的目标图像特征。从限速标志201、注意儿童标志202、禁止鸣笛标志203、前方学校提醒标志204中,确定包含文本信息的目标交通标志为限速标志201和前方学校提醒标志204。分别对限速标志201和前方学校提醒标志204进行文本语义特征提取,获得限速标志201和前方学校提醒标志204各自对应的目标语义特征。
基于获得的各个目标图像特征以及各个目标语义特征,确定注意儿童标志202和前方学校提醒标志204为限速标志201的附属交通标志,以及确定禁止鸣笛标志203不是限速标志201的附属交通标志。之后采用获得的注意儿童标志202、禁止鸣笛标志203、前方学校提醒标志204与限速标志201之间的关联关系,更新地图数据中相应交通标志牌的特征信息。
本申请实施例中,为了提升识别交通标志之间的目标关联关系的准确性,可以采用神经网络模型来提取目标图像特征和目标语义特征,并基于获得的目标图像特征和目标语义特征,确定交通标志之间的目标关联关系。下面,以一种可能的神经网络模型为例对本申请实施例的技术方案进行介绍。
参见图3所示,为本申请实施例提供的关系推理模型的网络结构示意图,其中,该关系推理模型包括图像特征提取网络、语义理解网络和关系推理网络。
图像特征提取网络用于提取待识别图像中包含的主体交通标志和至少一个待识别交通标志各自对应的目标图像特征,并将获得各个目标图像特征输入关系推理网络,本申请实施例中,待识别图像为交通标志牌图像。
语义理解网络用于对主体交通标志和至少一个待识别交通标志中,包含文本信息的至少一个目标交通标志进行文本语义特征提取,获得至少一个目标交通标志各自对应的目标语义特征,并将获得各个目标语义特征输入关系推理网络。
关系推理网络用于基于各个目标图像特征以及各个目标语义特征,确定至少一个待识别交通标志各自与主体交通标志之间的目标关联关系。由于各个网络所执行的过程将在后续详细进行介绍,因而在此先不过多进行介绍。
在关系推理模型投入使用之前,首先需要对该模型进行训练,因此,下面先对关系推理模型的训练过程进行介绍。请参见图4,为关系推理模型的训练流程示意图。
步骤401:获取多个训练样本图像。
本申请实施例中,每个训练样本图像可以包括一个主体交通标志和至少一个其他交通标志,预先对每个训练样本图像中的主体交通标志和其他交通标志对应的感兴趣区域进行标注。例如,可以采用矩形在训练样本图像中标记出主体交通标志和其他交通标志对应的感兴趣区域。
另外,预先标注其他交通标志是否为主体交通标志的附属交通标志的关联关系真实值。比如,采用0和1标注其他交通标志是否为主体交通标志的附属交通标志的关联关系真实值。当其他交通标志为主体交通标志的附属交通标志时,将关联关系真实值标注为1;当其他交通标志不是主体交通标志的附属交通标志时,将关联关系真实值标注为0。当然,也可以采用其他可能的值来进行标注,本申请实施例对此并不进行限制。
步骤402:利用关系推理模型确定训练样本图像中的各个其他交通标志分别与主体交通标志的关联关系预测值;
具体地,关联关系预测值包括1和0,其中,1表示其他交通标志为主体交通标志的附属交通标志,0表示其他交通标志不是主体交通标志的附属交通标志。当然,也可以采用其他可能的值来进行表示关联关系预测值,本申请实施例对此并不进行限制。
步骤403:根据获得的各个关联关系预测值以及训练样本图像中标注的关联关系真实值,确定关系推理模型的损失值。
一般而言,当获得的关联关系预测值与标注的关联关系真实值之间的差异程度越小,例如关联关系真实值为1时,而关系推理模型获得的关联关系预测值为0.95,或者,关联关系真实值为0时,而关系推理模型获得的关联关系预测值为0.02,那么关系推理模型的损失值越小,说明关系推理模型预测的关联关系预测值更为接近关联关系真实值,因此其准确程度是更高的。
步骤404:根据损失值确定关系推理模型是否收敛。
步骤405:当确定关系推理模型未收敛时,根据损失值对关系推理模型进行模型参数的调整。
步骤406:当确定关系推理模型收敛时,结束训练,输出已训练的关系推理模型。
本申请实施例中,当损失值小于设定的损失阈值时,则表明关系推理模型的准确度能够达到要求,因而可以确定关系推理模型收敛,相反的,当损失值不小于设定的损失阈值时,则表明关系推理模型的准确度未能达到要求,那么还需要进一步的对关系推理模型进行参数调整,并通过参数调整后的关系推理模型进行后续的训练流程,即重复进行步骤402~404的过程。需要说明的是,本申请实施例中结束模型训练的条件并不仅限于判断关系推理模型是否收敛,还可以是判断迭代训练次数是否达到预设阈值,若是,则结束训练。对此,本申请不做具体限定。
本申请实施例中,在训练获得关系推理模型之后,则可以利用已训练的关系推理模型对交通标志牌图像进行处理,请参见图5,包括以下步骤:
步骤S501,获取交通标志牌图像。
具体地,交通标志牌图像中包括主体交通标志和至少一个待识别交通标志。主体交通标志是根据业务需求设定的。交通标志牌图像中的交通标志可以采用交通标志牌图像中交通标志对应的感兴趣区域表征,也可以采用交通标志牌图像中交通标志外部轮廓以内的区域表征。
举例来说,参见图6a,为本申请实施例提供的一种交通标志牌图像,交通标志牌图像中包括注意儿童标志。
参见图6b,可以采用交通标志牌图像中标记的感兴趣区域601表征注意儿童标志。参见图6c,也可以采用注意儿童标志的外部轮廓以内的区域602表征注意儿童标志。
通过图像采集设备采集交通标志牌图像之后,可以通过神经网络模型确定出交通标志牌图像中主体交通标志对应的感兴趣区域,以及至少一个待识别交通标志各自对应的感兴趣区域;也可以通过人工方式在交通标志牌图像中标记出主体交通标志对应的感兴趣区域,以及至少一个待识别交通标志各自对应的感兴趣区域。
参见图7a,为本申请实施例提供的一种交通标志牌图像。交通标志牌图像中包括车辆慢行标志、前方施工标志、禁止鸣笛标志。
对交通标志牌图像进行识别,获得车辆慢行标志对应的第一感兴趣区域701、前方施工标志对应的第二感兴趣区域702和禁止鸣笛标志对应的第三感兴趣区域703,识别结果具体如图7b所示。
步骤S502,对交通标志牌图像进行图像特征提取,获得主体交通标志和至少一个待识别交通标志各自对应的目标图像特征。
具体地,将交通标志牌图像调整为预设尺寸,并对边缘进行补零后输入图像特征提取网络,图像特征提取网络对交通标志牌图像进行图像特征提取,获得主体交通标志和至少一个待识别交通标志各自对应的目标图像特征。图像特征提取网络可以是残差网络(Residual Network,简称Resnet)、卷积神经网络(Convolutional Neural Networks,简称CNN)等。
步骤S503,从主体交通标志和至少一个待识别交通标志中,获取包含文本信息的至少一个目标交通标志,并分别对至少一个目标交通标志进行文本语义特征提取,获得至少一个目标交通标志各自对应的目标语义特征。
具体地,通过神经网络模型或人工方式从主体交通标志和至少一个待识别交通标志中,确定包含文本信息的至少一个目标交通标志。然后将至少一个目标交通标志在交通标志牌图像中各自对应的感兴趣区域,输入语义理解网络。语义理解网络对至少一个目标交通标志各自对应的感兴趣区域进行特征编码,获得至少一个目标交通标志各自对应的目标语义特征。
参见图2,为本申请实施例提供的一种交通标志牌图像。交通标志牌图像中包括限速标志201、注意儿童标志202、禁止鸣笛标志203、前方学校提醒标志204。
对交通标志牌图像进行识别,获得包含文本信息的目标交通标志为限速标志201和前方学校提醒标志204,则将限速标志201和前方学校提醒标志204输入语义理解网络。语义理解网络分别对限速标志201和前方学校提醒标志204进行特征编码,获得限速标志201和前方学校提醒标志204各自对应的目标语义特征。
步骤S504,基于获得的各个目标图像特征以及各个目标语义特征,确定至少一个待识别交通标志各自与主体交通标志之间的目标关联关系。
具体地,将获得的各个目标图像特征以及各个目标语义特征输入关系推理网络,关系推理网络采用注意力机制,对各个目标图像特征以及各个目标语义特征进行处理,输出至少一个待识别交通标志各自与主体交通标志之间的目标关联关系,其中,目标关联关系包括附属关系和非附属关系。
针对每个待识别交通标志,当待识别交通标志对应的输出通道输出的目标关联关系值为1时,确定待识别交通标志与主体交通标志之间的目标关联关系为附属关系,并将待识别交通标志确定为主体交通标志的附属交通标志。
当待识别交通标志对应的输出通道输出的目标关联关系值为0时,确定待识别交通标志与主体交通标志之间的目标关联关系为非附属关系,并将待识别交通标志确定为主体交通标志的非附属交通标志。需要说明的是,本申请实施例中的目标关联关系并不仅限于附属关系和非附属关系,还可以是其他关联关系,对此,本申请不做具体限定。
本申请实施例中,提取交通标志牌图像中主体交通标志和至少一个待识别交通标志各自在图像维度的目标图像特征。针对包含文本信息的目标交通标志,通过对目标交通标志进行语义理解,提取更能表征目标交通标志含义的目标语义特征,故结合图像维度的目标图像特征和文本维度的目标语义特征,识别交通标志之间的关联关系时,可以有效提高对交通标志中关键信息的理解程度,从而提高识别交通标志之间的关联关系的准确性。同时,该方案针对包含文本信息和不包含文本信息的交通标志均能获得好的识别效果,通用性更强。
一种可能的实施方式,若至少一个待识别交通标志中,包括主体交通标志的至少一个附属交通标志,则基于主体交通标志和至少一个附属交通标志,确定交通标志牌图像包含的第一交通信息,然后采用第一交通信息,更新地图数据中相应交通标志牌的特征信息。
具体地,基于主体交通标志和至少一个附属交通标志组合确定第一交通信息。将第一交通信息,作为交通标志牌图像对应的交通标志牌的特征信息添加至地图数据中。
举例来说,设定交通标志牌图像中包括主体交通标志“禁止左转标志”,附属交通标志“货车标志”,基于主体交通标志和附属交通标志确定的第一交通信息为“禁止货车左转”。将“禁止货车左转”,作为相应交通标志牌的特征信息添加至地图数据中。
一种可能的实施方式,若至少一个待识别交通标志中,包括主体交通标志的至少一个非附属交通标志,则分别确定至少一个非附属交通标志各自对应的第二交通信息。然后采用第一交通信息和获得的各个第二交通信息,更新地图数据中相应交通标志牌的特征信息。
具体地,从每个非附属交通标志中,识别出每个非附属交通标志对应的第二交通信息,将第一交通信息和获得的各个第二交通信息,作为交通标志牌图像对应的交通标志牌的特征信息添加至地图数据中。
举例来说,设定交通标志牌图像中包括主体交通标志“禁止左转标志”,附属交通标志“货车标志”,以及非附属交通标志“禁止鸣笛标志”。基于主体交通标志和附属交通标志确定的第一交通信息为“禁止货车左转”。基于非附属交通标志确定的第二交通信息为“禁止鸣笛”。
将“禁止货车左转”和“禁止鸣笛”,作为相应交通标志牌的特征信息添加至地图数据中。
本申请实施例中,针对具有丰富含义的文本图像,结合目标语义特征和目标图像特征两个维度的特征,推理交通标志之间的关联关系,更好地解决了文本图像的语义理解问题,从而提高识别交通标志的关联关系的准确性。通过识别交通标志之间的关联关系,可以获得更加丰富的交通信息,从而提高了地图数据更新的有效性。
可选地,参见图8,为本申请实施例提供的关系推理模型的网络结构示意图,其中,该关系推理模型包括图像特征提取网络、语义理解网络和关系推理网络,图像特征提取网络包括主干网络和特征对齐模块。
采用主干网络对待识别图像进行图像特征提取,获得待识别图像的原始图像特征,其中,待识别图像为交通标志牌图像。采用特征对齐模块从原始图像特征中,获取主体交通标志和至少一个待识别交通标志各自对应的子图像特征。将获得的各个子图像特征调整为相同尺寸,获得主体交通标志和至少一个待识别交通标志各自对应的目标图像特征。
具体地,主干网络可以是Resnet50网络、CNN网络等。对交通标志牌图像进行缩放处理和边缘补零后,输入主干网络。主干网络对交通标志牌图像进程卷积处理和降采样处理之后,获得原始图像特征。
特征对齐模块为主干网络和关系推理网络的连接模块。特征对齐模块从原始图像特征中,获取主体交通标志和至少一个待识别交通标志各自对应的子图像特征,子图像特征也指交通标志在原始图像特征中对应的感兴趣区域。
由于各个子图像特征的尺寸可能是不相同的,为了便于后续关系推理网络进行关联关系推理,本申请实施例中,对各个子图像特征进行特征对齐,将各个子图像特征调整为相同尺寸。具体地,针对各个子图像特征,分别执行以下步骤:
按照预设划分比例,将一个子图像特征划分为多个相同尺寸的候选区域,然后对每个候选区域包含的多个采样点进行插值处理,获得每个候选区域对应的多个采样像素值,并将多个采样像素值中的最大采样像素值,作为每个候选区域的目标像素值。之后再基于多个候选区域对应的目标像素值,获得该子图像特征对应的调整图像特征。基于各个子图像特征各自对应的调整图像特征,获得主体交通标志和至少一个待识别交通标志各自对应的目标图像特征。
具体实施中,主体交通标志或一个待识别交通标志与一个子图像特征对应,将一个子图像特征对应的调整图像特征,作为相应的主体交通标志或一个待识别交通标志的目标图像特征。按照相同的预设划分比例,将每个子图像特征划分为多个相同尺寸的候选区域,从而保证了后续获得的主体交通标志和至少一个待识别交通标志各自对应的目标图像特征的尺寸相同。
本申请实施例中,采用主干网络提取交通标志牌图像的原始图像特征,采用特征对齐模块对原始图像特征中主体交通标志和至少一个待识别交通标志各自对应的子图像特征进行特征对齐,使得输入关系推理网络的目标图像特征为同一尺寸的图像特征,便于关系推理网络后续进行交通标志之间的关联关系的推理,从而提高识别关联关系的效率。
可选地,在图3所示的关系推理模型中,语义理解网络的结构如图9所示,包括图像数据输入层和图像特征编码层。
图像数据输入层的主要功能是数据增广、转灰度图像、数据归一化、边缘补零。针对每个目标交通标志,图像特征编码层采用轻量型卷积神经网络(比如,MobileNet V1),使用以逐点卷积和深度卷积为主要结构的深度可分离卷积方式,对目标交通标志进行文本图像特征编码,获得目标编码特征。再将目标编码特征的尺寸,调整为目标图像特征对应的尺寸,获得该目标交通标志对应的目标语义特征。
具体实施中,语义理解网络再投入使用之前,可以与图像特征提取网络和关系推理网络联合进行训练,详细训练过程为前文描述的步骤401~406的过程,也可以单独语义理解网络,下面具体介绍单独训练语义理解网络的过程。
参见图10所示,为本申请实施例提供的文本图像识别模型的网络结构示意图,文本图像识别模型包括语义理解网络和文本解码层,其中,语义理解网络包括图像数据输入层和图像特征编码层。文本解码层用于基于注意力机制的循环神经网络,结合上下文内容和位置信息解码输出文本信息。
在训练文本图像识别模型时,以包含文本信息的文本图像作为训练样本图像,并预先在训练样本图像中标记出真实文本信息。利用文本图像识别模型确定训练样本图像中的预测文本信息。根据获得的真实文本信息以及预测文本信息,确定文本图像识别模型的损失值。根据损失值确定文本图像识别模型是否收敛。当确定文本图像识别模型未收敛时,根据损失值对文本图像识别模型进行模型参数的调整,并执行下一次迭代训练。当确定文本图像识别模型收敛时,结束训练,获得已训练的文本图像识别模型。
在获得已训练的文本图像识别模型之后,采用文本图像识别模型中的语义理解网络对目标交通标志进行文本图像特征编码,获得目标编码特征。再将目标编码特征的尺寸,调整为目标图像特征对应的尺寸,获得该目标交通标志对应的目标语义特征。
本申请实施例中,采用图像特征编码层对目标交通标志进行文本图像特征编码,获得目标编码特征。将目标编码特征的尺寸,调整为目标图像特征对应的尺寸,获得目标交通标志对应的目标语义特征,使得输入关系推理网络的目标语义特征和目标图像特征为同一尺寸的特征,便于关系推理网络后续进行交通标志之间的关联关系的推理。同时,关系推理网络基于目标语义特征和目标图像特征两个维度的特征,推理交通标志之间的关联关系,使得在交通标志包含文本信息时也可以得到好的推理效果,从而提高识别关联关系的准确性。
可选地,在上述步骤S504中,关系推理网络至少采用以下方式确定待识别交通标志与主体交通标志之间的目标关联关系:
关系推理网络将获得的各个目标图像特征以及各个目标语义特征融合,获得综合特征。然后基于综合特征,确定至少一个待识别交通标志分别与主体交通标志之间的目标关联关系。
具体地,将获得的相同尺寸的目标图像特征和目标语义特征进行融合,获得综合特征,并采用reshape函数将综合特征转化为特定尺寸(比如1×36大小)。再将综合特征输入关系推理网络,关系推理网络采用注意力机制,基于综合特征确定至少一个待识别交通标志,分别与主体交通标志之间的目标关联关系。
本申请实施例中,关系推理网络基于目标语义特征和目标图像特征两个维度的特征,推理交通标志之间的关联关系,使得在交通标志包含文本信息时也可以得到好的推理效果。采用注意力机制推导待识别交通标志与主体交通标志之间的关联关系,提高了模型对图像的理解能力,从而提高识别关联关系的准确性。
一种可能的实施方式,关系推理网络采用多头注意力机制,推导待识别交通标志与主体交通标志之间的目标关联关系。
具体地,采用多头自注意力机制,提取综合特征对应的多种子空间关系,然后将多种子空间关系在通道维度上拼接,获得多头注意力特征。再基于多头注意力特征,确定至少一个待识别交通标志各自与主体交通标志之间的目标关联关系。
举例来说,参见图11,为本申请实施例提供的关系推理网络的网络结构示意图,包括多头自注意力机制、合并(concat)层、第二全连接层,其中,每头自注意力机制包括三个第一全连接层和一个自注意力机制层。
针对每头自注意力机制,将综合特征分别输入三个第一全连接层,三个第一全连接层分别输出Query向量、Key向量和Value向量。然后将Query向量、Key向量和Value向量输入自注意力机制层。
参见图12,为本申请实施例提供的自注意力机制层的处理过程,包括以下步骤:对Query向量和Key向量进行矩阵乘处理,获得矩阵乘结果。然后对矩阵乘结果进行缩放处理、掩膜(Mask)处理和采用softmax函数进行归一化处理,获得融合结果,其中,掩膜(Mask)处理为可选的处理步骤。再将融合结果与Value向量进行矩阵乘处理,获得综合特征对应的一种子空间关系。
将多头自注意力机制输出的多种子空间关系输入合并层,合并层将多种子空间关系在通道维度上拼接,获得多头注意力特征。将多头注意力特征输入第二全连接层,获得至少一个待识别交通标志各自与主体交通标志之间的目标关联关系。
当待识别交通标志对应的输出通道输出的目标关联关系值为1时,确定待识别交通标志与主体交通标志之间的目标关联关系为附属关系,并将待识别交通标志标记为主体交通标志的附属交通标志。当待识别交通标志对应的输出通道输出的目标关联关系值为0时,确定待识别交通标志与主体交通标志之间的目标关联关系为非附属关系,并将待识别交通标志标记为主体交通标志的非附属交通标志。
本申请实施例中,采用多头注意力机制,提取综合特征对应的多种子空间关系,然后将多种子空间关系在通道维度上拼接,可以获得更加完整全面的多头注意力特征,故采用多头注意力特征推导至少一个待识别交通标志各自与主体交通标志之间的目标关联关系,可以有效提高了模型对图像的理解能力,从而提高识别关联关系的准确性。
为了更好地解释本申请实施例,下面结合具体实施场景介绍本申请实施例提供的一种图像处理方法,该方法的流程可以由图1b所示的服务器执行。该方法涉及的关系推理模型的结构如图13所示,关系推理模型包括主干网络、特征对齐模块、语义理解网络和关系推理网络,其中,主干网络可以是Resnet50网络,语义理解网络包括图像数据输入层和图像特征编码层。
将图2所示的交通标志牌图像的长边缩放为224,短边等比例缩放,不足的边缘补零,最终以224×224的交通标志牌图像作为主干网络的输入。主干网络对交通标志牌图像进行卷积和降采样处理后,获得原始图像特征,其中,原始图像特征的尺寸为56×56。
特征对齐模块从原始图像特征中,获取限速标志201、注意儿童标志202、禁止鸣笛标志203、前方学校提醒标志204各自对应的子图像特征,然后采用roi-align对齐方式,对各个子图像特征进行特征对齐,获得各个交通标志对应的目标图像特征,其中,目标图像特征的尺寸为6×6。
对图2所示的交通标志牌图像进行识别,获得包含文本信息的目标交通标志为限速标志201和前方学校提醒标志204,则将限速标志201和前方学校提醒标志204输入语义理解网络。
语义理解网络中的图像数据输入层分别将限速标志201和前方学校提醒标志204转化为288×32的图像后输入图像特征编码层。图像特征编码层采用轻量型卷积神经网络(比如,MobileNet V1),使用以逐点卷积和深度卷积为主要结构的深度可分离卷积方式,分别对限速标志201和前方学校提醒标志204进行文本图像特征编码,获得限速标志201和前方学校提醒标志204各自对应的目标编码特征,其中,目标编码特征的尺寸为18×2。再采用reshape函数,将获得的目标编码特征的尺寸调整为6×6,获得限速标志201和前方学校提醒标志204各自对应的目标语义特征。
将限速标志201、注意儿童标志202、禁止鸣笛标志203、前方学校提醒标志204各自对应的目标图像特征,以及限速标志201和前方学校提醒标志204各自对应的目标语义特征输入关系推理网络。
关系推理网络采用reshape函数,将获得的各个目标图像特征和目标语义特征,融合为综合特征,其中,综合特征的尺寸为1×36。采用多头自注意力机制,提取综合特征对应的多种子空间关系,然后将多种子空间关系在通道维度上拼接,获得多头注意力特征。再基于多头注意力特征,确定注意儿童标志202、禁止鸣笛标志203、前方学校提醒标志204各自对应的输出通道输出的目标关联关系值。
其中,注意儿童标志202和前方学校提醒标志204,各自对应的输出通道输出的目标关联关系值为1,则确定注意儿童标志202和前方学校提醒标志204为限速标志201的附属交通标志。禁止鸣笛标志203对应的输出通道输出的目标关联关系值为0,则确定禁止鸣笛标志203为限速标志201的非附属交通标志。
本申请实施例中,提取交通标志牌图像中的主体交通标志和至少一个待识别交通标志各自在图像维度的目标图像特征。针对包含文本信息的目标交通标志,通过对目标交通标志进行语义理解,提取更能表征目标交通标志含义的目标语义特征,故结合图像维度的目标图像特征和文本维度的目标语义特征,识别交通标志之间的关联关系时,可以有效提高对交通标志中关键信息的理解程度,从而提高识别交通标志之间的关联关系的准确性,进而提高地图数据更新的准确性。同时,该方案针对包含文本信息和不包含文本信息的交通标志均能获得好的识别效果,通用性更强。
基于相同的技术构思,本申请实施例提供了一种图像处理装置的结构示意图,如图14所示,该装置1400包括:
获取模块1401,用于获取交通标志牌图像,所述交通标志牌图像中包括主体交通标志和至少一个待识别交通标志;
图像特征提取模块1402,用于对所述交通标志牌图像进行图像特征提取,获得所述主体交通标志和所述至少一个待识别交通标志各自对应的目标图像特征;
语义特征提取模块1403,用于从所述主体交通标志和至少一个待识别交通标志中,获取包含文本信息的至少一个目标交通标志,并分别对所述至少一个目标交通标志进行文本语义特征提取,获得所述至少一个目标交通标志各自对应的目标语义特征;
推理模块1404,用于基于获得的各个目标图像特征以及各个目标语义特征,确定所述至少一个待识别交通标志各自与所述主体交通标志之间的目标关联关系。
可选地,所述图像特征提取模块1402具体用于:
对所述交通标志牌图像进行图像特征提取,获得所述交通标志牌图像的原始图像特征;
从所述原始图像特征中,获取所述主体交通标志和所述至少一个待识别交通标志各自对应的子图像特征;
将获得的各个子图像特征调整为相同尺寸,获得所述主体交通标志和所述至少一个待识别交通标志各自对应的目标图像特征。
可选地,所述图像特征提取模块1402具体用于:
针对所述各个子图像特征,分别执行以下步骤:
按照预设划分比例,将一个子图像特征划分为多个相同尺寸的候选区域;
对每个候选区域包含的多个采样点进行插值处理,获得每个候选区域对应的多个采样像素值,并将所述多个采样像素值中的最大采样像素值,作为每个候选区域的目标像素值;
基于多个候选区域对应的目标像素值,获得所述一个子图像特征对应的调整图像特征;
基于所述各个子图像特征对应的调整图像特征,获得所述主体交通标志和所述至少一个待识别交通标志各自对应的目标图像特征。
可选地,所述语义特征提取模块1403具体用于:
针对所述至少一个目标交通标志,分别执行以下步骤:
对一个目标交通标志进行文本图像特征编码,获得目标编码特征;
将所述目标编码特征的尺寸,调整为所述目标图像特征对应的尺寸,获得所述一个目标交通标志对应的目标语义特征。
可选地,所述推理模块1404具体用于:
将获得的各个目标图像特征以及各个目标语义特征融合,获得综合特征;
基于所述综合特征,确定所述至少一个待识别交通标志分别与所述主体交通标志之间的目标关联关系。
可选地,所述推理模块1404具体用于:
采用多个自注意力机制,提取所述综合特征对应的多种子空间关系;
将所述多种子空间关系在通道维度上拼接,获得多头注意力特征;
基于所述多头注意力特征,确定所述至少一个待识别交通标志各自与所述主体交通标志之间的目标关联关系。
可选地,还包括更新模块1405;
所述更新模块1405具体用于:
针对所述至少一个待识别交通标志,分别执行以下步骤:
若一个待识别交通标志与所述主体交通标志之间的目标关联关系为附属关系,则将所述一个待识别交通标志,确定为所述主体交通标志的附属交通标志;
若所述一个待识别交通标志与所述主体交通标志之间的目标关联关系为非附属关系,则将所述一个待识别交通标志,确定为所述主体交通标志的非附属交通标志。
可选地,所述更新模块1405还用于:
若所述至少一个待识别交通标志中,包括所述主体交通标志的至少一个附属交通标志,则基于所述主体交通标志和所述至少一个附属交通标志,确定所述交通标志牌图像包含的第一交通信息;
采用所述第一交通信息,更新地图数据中相应交通标志牌的特征信息。
可选地,所述更新模块1405还用于:
若所述至少一个待识别交通标志中,包括所述主体交通标志的至少一个非附属交通标志,则分别确定所述至少一个非附属交通标志各自对应的第二交通信息;
采用所述第一交通信息和获得的各个第二交通信息,更新地图数据中相应交通标志牌的特征信息。
本申请实施例中,提取交通标志牌图像中的主体交通标志和至少一个待识别交通标志各自在图像维度的目标图像特征。针对包含文本信息的目标交通标志,通过对目标交通标志进行语义理解,提取更能表征目标交通标志含义的目标语义特征,故结合图像维度的目标图像特征和文本维度的目标语义特征,识别交通标志之间的关联关系时,可以有效提高对交通标志中关键信息的理解程度,从而提高识别交通标志之间的关联关系的准确性,进而提高地图数据更新的准确性。同时,该方案针对包含文本信息和不包含文本信息的交通标志均能获得好的识别效果,通用性更强。
基于相同的技术构思,本申请实施例提供了一种计算机设备,该计算机设备可以是图1b所示的终端设备和/或服务器,如图15所示,包括至少一个处理器1501,以及与至少一个处理器连接的存储器1502,本申请实施例中不限定处理器1501与存储器1502之间的具体连接介质,图15中处理器1501和存储器1502之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器1502存储有可被至少一个处理器1501执行的指令,至少一个处理器1501通过执行存储器1502存储的指令,可以执行上述图像处理方法的步骤。
其中,处理器1501是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器1502内的指令以及调用存储在存储器1502内的数据,从而对图像进行处理。可选的,处理器1501可包括一个或多个处理单元,处理器1501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1501中。在一些实施例中,处理器1501和存储器1502可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器1501可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器1502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1502可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器1502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1502还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于同一发明构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行上述图像处理方法的步骤。
基于同一发明构思,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机设备执行时,使所述计算机设备执行上述图像处理方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (13)
1.一种图像处理方法,其特征在于,包括:
获取交通标志牌图像,所述交通标志牌图像中包括主体交通标志和至少一个待识别交通标志;
对所述交通标志牌图像进行图像特征提取,获得所述主体交通标志和所述至少一个待识别交通标志各自对应的目标图像特征;
从所述主体交通标志和至少一个待识别交通标志中,获取包含文本信息的至少一个目标交通标志,并分别对所述至少一个目标交通标志进行文本语义特征提取,获得所述至少一个目标交通标志各自对应的目标语义特征;
基于获得的各个目标图像特征以及各个目标语义特征,确定所述至少一个待识别交通标志各自与所述主体交通标志之间的目标关联关系。
2.如权利要求1所述的方法,其特征在于,所述对所述交通标志牌图像进行图像特征提取,获得所述主体交通标志和所述至少一个待识别交通标志各自对应的目标图像特征,包括:
对所述交通标志牌图像进行图像特征提取,获得所述交通标志牌图像的原始图像特征;
从所述原始图像特征中,获取所述主体交通标志和所述至少一个待识别交通标志各自对应的子图像特征;
将获得的各个子图像特征调整为相同尺寸,获得所述主体交通标志和所述至少一个待识别交通标志各自对应的目标图像特征。
3.如权利要求2所述的方法,其特征在于,所述将获得的各个子图像特征调整为相同尺寸,获得所述主体交通标志和所述至少一个待识别交通标志各自对应的目标图像特征,包括:
针对所述各个子图像特征,分别执行以下步骤:
按照预设划分比例,将一个子图像特征划分为多个相同尺寸的候选区域;
对每个候选区域包含的多个采样点进行插值处理,获得每个候选区域对应的多个采样像素值,并将所述多个采样像素值中的最大采样像素值,作为每个候选区域的目标像素值;
基于多个候选区域对应的目标像素值,获得所述一个子图像特征对应的调整图像特征;
基于所述各个子图像特征对应的调整图像特征,获得所述主体交通标志和所述至少一个待识别交通标志各自对应的目标图像特征。
4.如权利要求1所述的方法,其特征在于,所述分别对所述至少一个目标交通标志进行文本语义特征提取,获得所述至少一个目标交通标志各自对应的目标语义特征,包括:
针对所述至少一个目标交通标志,分别执行以下步骤:
对一个目标交通标志进行文本图像特征编码,获得目标编码特征;
将所述目标编码特征的尺寸,调整为所述目标图像特征对应的尺寸,获得所述一个目标交通标志对应的目标语义特征。
5.如权利要求1所述的方法,其特征在于,所述基于获得的各个目标图像特征以及各个目标语义特征,确定所述至少一个待识别交通标志分别与所述主体交通标志之间的目标关联关系,包括:
将获得的各个目标图像特征以及各个目标语义特征融合,获得综合特征;
基于所述综合特征,确定所述至少一个待识别交通标志分别与所述主体交通标志之间的目标关联关系。
6.如权利要求5所述的方法,其特征在于,所述基于所述综合特征,确定所述至少一个待识别交通标志分别与所述主体交通标志之间的目标关联关系,包括:
采用多个自注意力机制,提取所述综合特征对应的多种子空间关系;
将所述多种子空间关系在通道维度上拼接,获得多头注意力特征;
基于所述多头注意力特征,确定所述至少一个待识别交通标志各自与所述主体交通标志之间的目标关联关系。
7.如权利要求1所述的方法,其特征在于,所述基于获得的各个目标图像特征以及各个目标语义特征,确定所述至少一个待识别交通标志各自与所述主体交通标志之间的目标关联关系之后,还包括:
针对所述至少一个待识别交通标志,分别执行以下步骤:
若一个待识别交通标志与所述主体交通标志之间的目标关联关系为附属关系,则将所述一个待识别交通标志,确定为所述主体交通标志的附属交通标志;
若所述一个待识别交通标志与所述主体交通标志之间的目标关联关系为非附属关系,则将所述一个待识别交通标志,确定为所述主体交通标志的非附属交通标志。
8.如权利要7所述的方法,其特征在于,还包括:
若所述至少一个待识别交通标志中,包括所述主体交通标志的至少一个附属交通标志,则基于所述主体交通标志和所述至少一个附属交通标志,确定所述交通标志牌图像包含的第一交通信息;
采用所述第一交通信息,更新地图数据中相应交通标志牌的特征信息。
9.如权利要8所述的方法,其特征在于,所述采用所述第一交通信息,更新地图数据中相应交通标志牌的特征信息,包括:
若所述至少一个待识别交通标志中,包括所述主体交通标志的至少一个非附属交通标志,则分别确定所述至少一个非附属交通标志各自对应的第二交通信息;
采用所述第一交通信息和获得的各个第二交通信息,更新地图数据中相应交通标志牌的特征信息。
10.一种图像处理装置,其特征在于,包括:
获取模块,用于获取交通标志牌图像,所述交通标志牌图像中包括主体交通标志和至少一个待识别交通标志;
图像特征提取模块,用于对所述交通标志牌图像进行图像特征提取,获得所述主体交通标志和所述至少一个待识别交通标志各自对应的目标图像特征;
语义特征提取模块,用于从所述主体交通标志和至少一个待识别交通标志中,获取包含文本信息的至少一个目标交通标志,并分别对所述至少一个目标交通标志进行文本语义特征提取,获得所述至少一个目标交通标志各自对应的目标语义特征;
推理模块,用于基于获得的各个目标图像特征以及各个目标语义特征,确定所述至少一个待识别交通标志各自与所述主体交通标志之间的目标关联关系。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~9任一权利要求所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~9任一所述方法的步骤。
13.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机设备执行时,使所述计算机设备执行权利要求1-9任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111472516.2A CN113947764B (zh) | 2021-12-06 | 2021-12-06 | 一种图像处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111472516.2A CN113947764B (zh) | 2021-12-06 | 2021-12-06 | 一种图像处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113947764A true CN113947764A (zh) | 2022-01-18 |
CN113947764B CN113947764B (zh) | 2022-03-08 |
Family
ID=79338890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111472516.2A Active CN113947764B (zh) | 2021-12-06 | 2021-12-06 | 一种图像处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113947764B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708726A (zh) * | 2022-03-18 | 2022-07-05 | 北京百度网讯科技有限公司 | 交通限制的处理方法、装置、设备以及存储介质 |
CN114863412A (zh) * | 2022-04-28 | 2022-08-05 | 北京百度网讯科技有限公司 | 一种路段交限信息的处理方法、装置、设备和介质 |
CN115905608A (zh) * | 2022-11-15 | 2023-04-04 | 腾讯科技(深圳)有限公司 | 图像特征获取方法、装置、计算机设备、存储介质 |
CN116665157A (zh) * | 2023-08-01 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 道路图像处理方法、装置、计算机设备和存储介质 |
CN116682096A (zh) * | 2023-08-03 | 2023-09-01 | 腾讯科技(深圳)有限公司 | 信息添加方法、装置、计算机设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013017125A1 (de) * | 2011-08-04 | 2013-02-07 | Conti Temic Microelectronic Gmbh | Verfahren zur erkennung von verkehrszeichen |
WO2018111297A1 (en) * | 2016-12-16 | 2018-06-21 | Hitachi Automotive Systems, Ltd. | Road detection using traffic sign information |
CN110348396A (zh) * | 2019-07-15 | 2019-10-18 | 南京信息工程大学 | 一种基于深度学习的道路上方文字交通标志识别方法及装置 |
CN110501018A (zh) * | 2019-08-13 | 2019-11-26 | 广东星舆科技有限公司 | 一种服务于高精度地图生产的交通标志牌信息采集方法 |
CN111753592A (zh) * | 2019-03-29 | 2020-10-09 | 长沙智能驾驶研究院有限公司 | 交通标志识别方法、装置、计算机设备和存储介质 |
CN112052778A (zh) * | 2020-09-01 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种交通标志识别方法以及相关装置 |
US20200400440A1 (en) * | 2019-06-18 | 2020-12-24 | Here Global B.V. | System and methods for generating updated map data |
DE102020124666A1 (de) * | 2019-09-23 | 2021-03-25 | Mitac Digital Technology Corporation | Verfahren, system und computerprogrammprodukt zur bereitstellung von fahrassistenz |
CN112560670A (zh) * | 2020-12-15 | 2021-03-26 | 武汉大学 | 一种基于深度学习的交通标志符号与文本的检测识别方法及装置 |
WO2021135816A1 (zh) * | 2019-12-30 | 2021-07-08 | 华为技术有限公司 | 识别图像中文本的方法、装置和系统 |
CN113221756A (zh) * | 2021-05-14 | 2021-08-06 | 腾讯科技(深圳)有限公司 | 交通标志检测方法及相关设备 |
-
2021
- 2021-12-06 CN CN202111472516.2A patent/CN113947764B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013017125A1 (de) * | 2011-08-04 | 2013-02-07 | Conti Temic Microelectronic Gmbh | Verfahren zur erkennung von verkehrszeichen |
WO2018111297A1 (en) * | 2016-12-16 | 2018-06-21 | Hitachi Automotive Systems, Ltd. | Road detection using traffic sign information |
CN111753592A (zh) * | 2019-03-29 | 2020-10-09 | 长沙智能驾驶研究院有限公司 | 交通标志识别方法、装置、计算机设备和存储介质 |
US20200400440A1 (en) * | 2019-06-18 | 2020-12-24 | Here Global B.V. | System and methods for generating updated map data |
CN110348396A (zh) * | 2019-07-15 | 2019-10-18 | 南京信息工程大学 | 一种基于深度学习的道路上方文字交通标志识别方法及装置 |
CN110501018A (zh) * | 2019-08-13 | 2019-11-26 | 广东星舆科技有限公司 | 一种服务于高精度地图生产的交通标志牌信息采集方法 |
DE102020124666A1 (de) * | 2019-09-23 | 2021-03-25 | Mitac Digital Technology Corporation | Verfahren, system und computerprogrammprodukt zur bereitstellung von fahrassistenz |
US20210089796A1 (en) * | 2019-09-23 | 2021-03-25 | Mitac Digital Technology Corporation | Method, system and computer program product for providing driving assistance |
WO2021135816A1 (zh) * | 2019-12-30 | 2021-07-08 | 华为技术有限公司 | 识别图像中文本的方法、装置和系统 |
CN112052778A (zh) * | 2020-09-01 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种交通标志识别方法以及相关装置 |
CN112560670A (zh) * | 2020-12-15 | 2021-03-26 | 武汉大学 | 一种基于深度学习的交通标志符号与文本的检测识别方法及装置 |
CN113221756A (zh) * | 2021-05-14 | 2021-08-06 | 腾讯科技(深圳)有限公司 | 交通标志检测方法及相关设备 |
Non-Patent Citations (2)
Title |
---|
GUSTAVO HENRIQUE DE OLIVEIRA ET AL: "Automatic Detection and Recognition of Text-Based Traffic Signs from images", 《IEEE LATIN AMERICA TRANSACTIONS》 * |
李振毛: "自然场景下的矩形交通标志检测与文本提取算法研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708726A (zh) * | 2022-03-18 | 2022-07-05 | 北京百度网讯科技有限公司 | 交通限制的处理方法、装置、设备以及存储介质 |
CN114708726B (zh) * | 2022-03-18 | 2023-12-01 | 北京百度网讯科技有限公司 | 交通限制的处理方法、装置、设备以及存储介质 |
CN114863412A (zh) * | 2022-04-28 | 2022-08-05 | 北京百度网讯科技有限公司 | 一种路段交限信息的处理方法、装置、设备和介质 |
CN115905608A (zh) * | 2022-11-15 | 2023-04-04 | 腾讯科技(深圳)有限公司 | 图像特征获取方法、装置、计算机设备、存储介质 |
CN116665157A (zh) * | 2023-08-01 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 道路图像处理方法、装置、计算机设备和存储介质 |
CN116665157B (zh) * | 2023-08-01 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 道路图像处理方法、装置、计算机设备和存储介质 |
CN116682096A (zh) * | 2023-08-03 | 2023-09-01 | 腾讯科技(深圳)有限公司 | 信息添加方法、装置、计算机设备及存储介质 |
CN116682096B (zh) * | 2023-08-03 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 信息添加方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113947764B (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113947764B (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN110414432B (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
CN111782838B (zh) | 图像问答方法、装置、计算机设备和介质 | |
CN110866140A (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
CN111401216B (zh) | 图像处理、模型训练方法、装置、计算机设备和存储介质 | |
CN112084331A (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN114663670A (zh) | 一种图像检测方法、装置、电子设备及存储介质 | |
CN113761153A (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
CN114418030A (zh) | 图像分类方法、图像分类模型的训练方法及装置 | |
CN112085120B (zh) | 多媒体数据的处理方法、装置、电子设备及存储介质 | |
CN115223020A (zh) | 图像处理方法、装置、电子设备以及可读存储介质 | |
CN111325766A (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
CN113762039A (zh) | 一种交通标志牌的信息匹配方法及相关装置 | |
CN117011635A (zh) | 模型训练方法、图像数据处理方法、装置及计算机设备 | |
CN113793341A (zh) | 一种自动驾驶场景语义分割方法、电子设备及可读介质 | |
Shin et al. | Loop closure detection in simultaneous localization and mapping using learning based local patch descriptor | |
CN115115058A (zh) | 模型训练方法、装置、设备及介质 | |
CN115861605A (zh) | 一种图像数据处理方法、计算机设备以及可读存储介质 | |
Shi et al. | AdaFI-FCN: an adaptive feature integration fully convolutional network for predicting driver’s visual attention | |
CN116563840B (zh) | 基于弱监督跨模态对比学习的场景文本检测与识别方法 | |
CN116501908B (zh) | 一种基于特征融合可学习图注意力网络的图像检索方法 | |
CN116612466B (zh) | 基于人工智能的内容识别方法、装置、设备及介质 | |
CN117372828A (zh) | 多媒体信息的标签生成方法、装置、存储介质和电子设备 | |
CN116958013A (zh) | 图像中对象数量的估计方法、装置、介质、设备及产品 | |
CN116977770A (zh) | 图像分类模型的构建方法、图像分类方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |