CN113762039A - 一种交通标志牌的信息匹配方法及相关装置 - Google Patents
一种交通标志牌的信息匹配方法及相关装置 Download PDFInfo
- Publication number
- CN113762039A CN113762039A CN202110473889.5A CN202110473889A CN113762039A CN 113762039 A CN113762039 A CN 113762039A CN 202110473889 A CN202110473889 A CN 202110473889A CN 113762039 A CN113762039 A CN 113762039A
- Authority
- CN
- China
- Prior art keywords
- information
- traffic sign
- matching
- text
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本申请公开一种交通标志牌的信息匹配方法及相关装置,可应用的领域包括但不限于地图、导航、自动驾驶、智慧交通的领域。获取包括文本信息和交通标志牌的目标图像,通过信息匹配模型对目标图像进行处理得到文本信息与交通标志牌之间的匹配结果。该信息匹配模型是以目标图像作为输入,以文本信息与交通标志牌之间的匹配结果作为输出的端到端的神经网络,即该信息匹配模型是通过端到端的训练方式,对整个神经网络的参数进行整体训练优化得到的模型,其整体检测性能更好,实现了检测与匹配部分的联合优化,利用该信息匹配模型进行交通标志牌的信息匹配,能够保证匹配结果的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种交通标志牌的信息匹配方法及相关装置。
背景技术
在地图应用过程(包括不限于导航应用、自动驾驶、智慧交通、地图数据生产等场景)中,需要对交通标志牌进行精准识别。在一些情况下,交通标志牌需要和说明性、补充性的文本(如:附属信息)结合,才能准确、完整表达其含义。在进行识别时,所获取的图像中往往会有多个交通标志牌和多个文本信息,在此情况下,需要确定文本信息与交通标志牌之间的匹配关系,例如:哪些文本信息附属于哪些标志牌,或者说哪些文本信息与哪些标志牌组合,共同表达完整的信息。
如何准确地确定文本信息与交通标志牌之间的匹配关系是亟需解决的技术问题。
发明内容
为了解决上述技术问题,本申请提供了一种交通标志牌的信息匹配方法及相关装置。
第一方面,本申请实施例提供一种交通标志牌的信息匹配方法,所述方法包括:
获取采集得到的目标图像,所述目标图像中包括文本信息和交通标志牌;
通过信息匹配模型,对所述目标图像进行处理得到所述目标图像中文本信息与交通标志牌之间的匹配结果,所述信息匹配模型为端到端的神经网络,所述神经网络以目标图像作为输入,以文本信息与交通标志牌之间的匹配结果作为输出。
第二方面,本申请实施例提供一种交通标志牌的信息匹配装置,所述装置包括获取单元和匹配单元:
所述获取单元,用于获取采集得到的目标图像,所述目标图像中包括文本信息和交通标志牌;
所述匹配单元,用于通过信息匹配模型,对所述目标图像进行处理得到所述目标图像中文本信息与交通标志牌之间的匹配结果,所述信息匹配模型为端到端的神经网络,所述神经网络以目标图像作为输入,以文本信息与交通标志牌之间的匹配结果作为输出。
第三方面,本申请实施例提供一种用于交通标志牌的信息匹配设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的方法。
由上述技术方案可以看出,本申请实施例在进行交通标志牌的信息匹配时,首先获取采集得到的目标图像,该目标图像中包括文本信息和交通标志牌。然后,将该目标图像输入至信息匹配模型,通过信息匹配模型,对该目标图像进行处理得到该目标图像中文本信息与交通标志牌之间的匹配结果。其中,该信息匹配模型是以目标图像作为输入,以文本信息与交通标志牌之间的匹配结果作为输出的端到端的神经网络,即该信息匹配模型是通过端到端的训练方式,对整个神经网络的参数进行整体训练优化而得到的模型,该信息匹配模型其整体检测性能更好,因此,本申请实施例利用该信息匹配模型进行交通标志牌的信息匹配,能够保证匹配结果的准确性,提高信息匹配的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术成员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种交通标志牌示例图;
图2为本申请实施例提供的一种交通标志牌的信息匹配的架构流程图;
图3为本申请实施例提供一种交通标志牌的信息匹配方法的场景架构图;
图4为本申请实施例提供的一种交通标志牌的信息匹配方法的流程图;
图5为本申请实施例提供的一种交通标志牌和文本信息示例图;
图6为本申请实施例提供的另一种交通标志牌和文本信息示例图;
图7为本申请实施例提供的一种根据目标图像得到附属关系图的示例图;
图8为本申请实施例提供的一种信息匹配模型的架构示意图;
图9为本申请实施例提供的一种检测网络的架构示意图;
图10为本申请实施例提供的一种基于信息匹配模型进行信息匹配的流程图;
图11a为本申请实施例提供的一种关系匹配网络进行匹配的架构流程图;
图11b为本申请实施例提供的基于RoIAlign裁剪出2×2的特征图的示例图;
图12为本申请实施例提供的一种训练信息匹配模型的流程图;
图13为本申请实施例提供的一种交通标志牌的信息匹配装置的结构图;
图14为本申请实施例提供的一种终端的结构图;
图15为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
首先,对本申请实施例涉及到的名词进行解释:
交通标志牌:道路场景中能够独立传达某种道路指示信息的牌子,“交通标志牌”的简称可以是“标志牌”、“标牌”等。如图1所示,交通标志牌1可以独立表示当前路段“限速110公里/小时”,交通标志牌2可以独立表示当前路段“限速100公里/小时”。
附属信息:位于交通标志牌附近、对交通标志牌进行补充说明的文本信息,例如时间段、道路名、车辆类型等信息内容。如图1所示,文本信息1是交通标志牌1的附属信息,文本信息1进一步补充说明“限速110公里/小时”是仅仅针对于“7座及以下小客车”。文本信息2是交通标志牌2的附属信息,表明“其他车型”在该路段则是“限速100公里/小时”。
交通标志牌的信息匹配:将目标图像中出现多个交通标志牌和多个文本信息进行匹配组合。目标图像中往往会同时出现多个交通标志牌和多个文本信息,交通标志牌的信息匹配可以是确定每个文本信息是否是附属信息以及每个文本信息属于哪一个交通标志牌的附属信息。如图1所示,该目标图像中同时存在两个交通标志牌和两个文本信息,交通标志牌的信息匹配需要能够确定文本信息1是交通标志牌1的附属信息,文本信息2是交通标志牌2的附属信息。
在一个或多个实施例中,为了实现信息匹配,通过两种检测器分别对目标图像中的文本和交通标志牌进行检测。然后再将分别得到的检测结果(例如文本检测结果和交通标志牌检测结果)和目标图像再次送入匹配模型确定某个文本是否为交通标志牌的附属信息。参见图2所示,图2中灰色方框、虚线方框、黑色方框分别对应两种检测器和匹配模型这三种模型的方法流程。从图2中可以看出,两种检测器和匹配模型是相互独立训练得到的三种模型,三者分别是以不同训练目标进行训练的,并非是以统一训练目标优化调整模型的参数,容易造成误差积累,在某些场景下,会导致信息匹配的准确率较低。并且在该流程中,每种模型都需要进行一次特征提取,存在处理效率低的缺陷。
为了解决上述技术问题,在一个或多个实施例中,将文本信息检测、交通标志牌检测和交通标志牌与文本信息的匹配整合到一个模型(即信息匹配模型),采用端到端的信息匹配模型,不仅提升了算法的简洁性、鲁棒性,也使得检测任务和匹配任务可以相互促进、相互提高,从而实现检测与匹配部分的联合优化。本申请实施例利用该信息匹配模型进行交通标志牌的信息匹配,能够保证匹配结果的准确性以及信息匹配的效率。
本申请实施例提供的方法可以应用的领域包括但不限于地图、导航、自动驾驶、智慧交通的领域。以地图领域为例,可以用于地图数据自动化生产,通过该方法得到文本信息和交通标志牌之间的匹配结果,从而将该匹配结果提供给地图数据自动化生产服务使用,以便自动化地生产出更准确的道路数据,降低人工作业成本。
需要说明的是,本申请实施例提供的方法可以涉及人工智能,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
例如,涉及人工智能软件技术中的计算机视觉技术,计算机视觉(ComputerVision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请主要涉及图像语义理解技术,例如根据目标图像提取图像语义特征。
又如,涉及人工智能中的自然语言处理技术,自然语言处理(Nature LanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请例如可以涉及自然语言处理中的语义理解,从而检测出文本信息,得到文本检测结果。
又如,涉及人工智能中的机器学习,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。本申请主要通过机器学习/深度学习训练信息匹配模型。
参见图3,图3为本申请实施例提供的交通标志牌的信息匹配方法的应用场景示意图。该应用场景中包括终端301和服务器302。服务器302可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端301可以是具有图像采集功能的电子设备,例如行车记录仪、车载摄像头、车载电脑、智能手机、平板电脑、笔记本电脑等,但并不局限于此。终端301以及服务器302可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
其中,终端301可以是作为采集目标图像的设备,终端301可以将采集得到的目标图像上传至服务器302,以便服务器302执行本申请实施例提供的交通标志牌的信息匹配方法。其中,终端301采集目标图像可以通过目标图像众包实现,即将目标图像的采集任务外包给社会各类公司或个人,让他们通过终端301对特定地点的目标图像进行拍摄上传。
服务器302获取到包括文本信息和交通标志牌的目标图像后,可以通过信息匹配模型,对目标图像进行处理得到目标图像中文本信息与交通标志牌之间的匹配结果。例如图3所示,图3所示的目标图像中的文本信息包括文本信息1和文本信息2,交通标志牌包括交通标志牌1和交通标志牌2,通过该信息匹配模型可以实现交通标志牌与文本信息的匹配,得到匹配结果,该匹配结果表明文本信息1与交通标志牌1具有附属关系,文本信息2与交通标志牌2具有附属关系,即文本信息1是交通标志牌1的附属信息,文本信息2是交通标志牌2的附属信息。
由于该信息匹配模型为以目标图像作为输入,以文本信息与交通标志牌之间的匹配结果作为输出的端到端的神经网络,即该信息匹配模型是通过端到端的训练方式,对整个神经网络的参数进行整体训练优化而得到的模型,其整体检测性能更好,可以实现检测与匹配部分的联合优化,因此,本申请实施例利用该信息匹配模型进行交通标志牌的信息匹配,能够保证匹配结果的准确性,提高信息匹配的效率。
当然,在本实施例中,也可以将采集得到的目标图像发送给特定终端,由终端执行本申请实施例提供的方法,或者也可以由终端和服务器配合执行本申请实施例提供的方法,本实施例对此不做限定。
接下来,将结合附图以服务器是执行主体为例,对本申请实施例提供的网络地址转换方法进行详细介绍。
参见图4,图4示出了交通标志牌的信息匹配方法的流程图,所述方法包括:
S401、获取采集得到的目标图像。
其中,目标图像可以通过目标图像众包实现,即将目标图像的采集任务外包给社会各类公司或个人,社会各类公司或个人可以通过具有图像采集功能的终端对特定地点的道路进行拍摄得到目标图像,从而将采集得到的目标图像上传至服务器。
目标图像中包括文本信息和交通标志牌,由于目标图像中可能包括多个交通标志牌和多个文本信息,故需要确定哪个文本信息是哪个交通标志牌的附属信息,得到匹配结果,以便后续对匹配结果进行使用,例如应用到地图数据自动化生产中。
通常情况下,交通标志牌可以与其对应的附属信息一同出现,也可以不具有对应的附属信息(即该交通标志牌无需文本信息对其进行补充说明),当然也可以仅出现文本信息(即该文本信息不作为任何交通标志牌的附属信息)。另外,本实施例对文本信息与交通标志牌的位置关系不做限定,文本信息可以在交通标志牌的下方、左侧、右侧、上方等任意位置。
参见图5所示,文本信息“小客车”在交通标志牌(该交通标志牌可以参见图5中虚线框501所示)的左侧,文本信息“大型车”在交通标志牌(该交通标志牌可以参见图5中虚线框502所示)的左侧;而图1中文本信息1在交通标志牌1的下方,文本信息2在交通标志牌2的下方;另外,在图5中,文本信息“大型车靠右”单独存在,不作为图5中所示交通标志牌的附属信息。
参见图6所示,文本信息“1.5t以上货车”的上方有“禁止驶入”(参见图6中虚线框所示)和“限速20”(参见图6中实线框所示)两个交通标志牌,通过分析可知,该文本信息是“禁止驶入”这一交通标志牌的附属信息,表示“1.5t以上货车禁止驶入”,而“限速20”这一交通标志牌单独存在,不具有附属信息。
S402、通过信息匹配模型,对所述目标图像进行处理得到所述目标图像中文本信息与交通标志牌之间的匹配结果。
服务器将所获取到的目标图像输入至预先训练得到的信息匹配模型,信息匹配模型对该目标图像进行处理得到该目标图像中文本信息与交通标志牌之间的匹配结果。该匹配结果可以反映目标图像中哪个文本信息是哪个交通标志牌的附属信息。
需要说明的是,本实施例所使用的信息匹配模型为端到端的神经网络,该神经网络以目标图像作为输入,以文本信息与交通标志牌之间的匹配结果作为输出。即服务器将获取的目标图像输入至该信息匹配模型后,该信息匹配模型即可相应地输出匹配结果。
可以理解的是,匹配结果可以通过多种形式表示,一种方式可以是直接通过文字表示哪个文本信息是哪个交通标志牌的附属信息,例如“文本信息1是交通标志牌1的附属信息”,“文本信息2是交通标志牌2的附属信息”。另一种方式可以是通过附属关系图表示匹配结果,参见图7所示,图7左侧的图中表示检测得到了目标图像中的交通标志牌包括交通标志牌1、交通标志牌2和交通标志牌3,文本信息包括文本信息1、文本信息2和文本信息3,通过信息匹配模型得到的附属关系图如图7中右图所示。该附属关系图中第i行第j列表示文本信息i是否为交通标志牌j的附属信息,若是则用1表示,若否则用0表示。故根据该附属关系图可以确定文本信息1是交通标志牌1的附属信息,文本信息2是交通标志牌2的附属信息。但文本信息3不是任一个交通标志牌的附属信息,交通标志牌3也不具有任何一个文本信息作为附属信息,则文本信息3和交通标志牌3可能出现误检的情况,但是由于该信息匹配模型没有将这两个可能是误检的检测结果匹配在一起,从而避免了误检造成的信息匹配错误。
需要说明的是,在本实施中,参见图7所示的例子,目标图像中包括多个交通标志牌和多个文本信息,该多个交通标志牌和多个文本信息构成多对待判定是否具有附属关系的交通标志牌和文本信息。本申请实施例所使用的信息匹配模型可以一次性对目标图像中存在的所有可能的附属关系进行推理判断,可以大大提高信息匹配的效率。
在本申请实施例中,在得到匹配结果后,可以将具有附属关系的文本信息和交通标志牌提供给地图数据自动化生产服务使用,以便自动化地生产出更准确的道路数据,降低人工作业成本。
由上述技术方案可以看出,本申请实施例在进行交通标志牌的信息匹配时,首先获取采集得到的目标图像,该目标图像中包括文本信息和交通标志牌。然后,将该目标图像输入至信息匹配模型,通过信息匹配模型,对该目标图像进行处理得到该目标图像中文本信息与交通标志牌之间的匹配结果。其中,该信息匹配模型是以目标图像作为输入,以文本信息与交通标志牌之间的匹配结果作为输出的端到端的神经网络,即该信息匹配模型是通过端到端的训练方式,对整个神经网络的参数进行整体训练优化而得到的模型,该信息匹配模型其整体检测性能更好,因此,本申请实施例利用该信息匹配模型进行交通标志牌的信息匹配,能够保证匹配结果的准确性,提高信息匹配的效率。
如上文所述,本申请实施例提供的交通标志牌的信息匹配方法需要基于信息匹配模型,根据获取的目标图像,确定出匹配结果。为了便于进一步理解本申请实施例提供的交通标志牌的信息匹配方法的具体实现过程,下面结合附图对上述信息匹配模型进行具体介绍。
参见图8,图8为本申请实施例提供的信息匹配模型的架构示意图。如图8所示,该信息匹配模型包括特征提取网络801、检测网络802和关系匹配网络803。
其中,特征提取网络801是以目标图像为输入,以图像语义特征为输出的第一神经网络。
特征提取网络801作为信息匹配模型中的第一神经网络负责对输入至信息匹配模型中的目标图像进行特征提取,得到图像语义特征,并将提取的图像语义特征输出至信息匹配模型中的第二神经网络。
特征提取网络801使用深度卷积神经网络来提取目标图像不同尺度、不同语义维度上的丰富特征。特征提取网络801可以包含卷积层、池化层、归一化层和激活层。卷积层使用不同尺寸的卷积核,例如3×3、5×5、7×7等尺寸,依次对目标图像中的各个位置进行计算,来提取到目标图像中基本的纹理特征。池化层能够通过池化操作降低特征的分辨率,将低级语义特征映射为高级语义特征。归一化层则是对每一个卷积层的输出进行归一化,从而使得每一层的输出都能够满足正态分布,能够同时加速模型收敛和提高模型准确率。激活层则是对特征进行非线性映射,将简单特征向更高维度空间上变化,提高模型的表达能力。目标图像依次经过特征提取网络801中的卷积层、池化层、归一化层和激活层,得到最终的图像语义特征。
特征提取网络801最终输出的图像语义特征(如图9中白色方块所示)的维度为(N,C,W,H),其中N为每一批处理的目标图像的数目,C为特征通道数目,W和H分别为图像语义特征对应的特征图的宽和高。
可以理解的是,在本申请实施例中,还可以采用其他结构的卷积神经网络提取图像语义特征,上述特征提取网络801的结构仅是一种示例。在一些可能的实现方式中,为了提高信息匹配的准确性,可以先提高特征提取的准确性,故本申请实施例进一步对特征提取网络801进行改进,为特征提取网络801设计了更加复杂的主干网络,例如设计了res2net、hrnet等更复杂的主干网络,从而在利用特征提取网络801提取图像语义特征时,提高特征提取的准确性,进而提高信息匹配的准确性。
在另一些可能的实现方式中,为了提高信息匹配的效率,可以先提高特征提取的效率,故本申请实施例进一步对特征提取网络801进行改进,为特征提取网络801设计了更加轻量级的主干网络,以加快特征提取效率,进而提高信息匹配效率。例如设计了可以使用moblienet、sufflenet等轻量级的主干网络来加快算法运行速度。在此不对作为特征提取网络801的卷积神经网络的结构做任何限定。
检测网络802是以特征提取网络801的输出为输入,以文本检测结果和交通标志牌检测结果的第二神经网络。其中,文本检测结果中包括指示文本信息在目标图像中位置的文本位置信息,交通标志牌检测结果中包括指示交通标志牌在所述目标图像中位置的标志牌位置信息。
也就是说,检测网络802为信息匹配模型中的第二神经网络,负责根据特征提取网络801输出的图像语义特征进行检测,确定文本检测结果和交通标志牌检测结果,即确定出目标图像中包括的交通标志牌及对应的位置,以及包括的文本信息及对应的位置。
在一些情况下,由于交通标志牌和文本信息的外观形态、语义信息相差较大,使用同一个检测网络同时对这两类目标进行检测可能效果较差。因此,为了提高检测准确性,本申请实施例设计了两个不同的分支来完成检测任务。如图9所示,此时检测网络802包括文本信息检测分支8021和交通标志牌检测分支8022。
其中,文本信息检测分支8021是以特征提取网络801的输出为输入,以文本检测结果为输出的第四神经网络。文本信息检测分支8021为检测网络802中的第四神经网络,负责根据特征提取网络801输出的图像语义特征确定文本检测结果。
交通标志牌检测分支8022是以特征提取网络801的输出为输入,以交通标志牌检测结果为输出的第五神经网络。交通标志牌检测分支8022为检测网络802中的第五神经网络,负责根据特征提取网络801输出的图像语义特征确定文本交通标志牌检测结果。
关系匹配网络803是以检测网络802的输出为输入,以目标图像中文本信息与交通标志牌之间的匹配结果为输出的第三神经网络。
关系匹配网络803作为信息匹配模型中的第三神经网络负责对检测网络802输出的文本检测结果和交通标志牌检测结果进行匹配,得到匹配结果,从而确定目标图像中哪个文本信息是哪个交通标志牌的附属信息。
在一些情况下,关系匹配网络803还以特征提取网络801的输出为输入,即特征提取网络801输出的图像语义特征可以输入至关系匹配网络803,以便关系匹配网络803可以同时根据图像语义特征、文本检测结果和交通标志牌检测结果确定匹配结果。
上述信息匹配模型包括特征提取网络、检测网络和关系匹配网络,相应的,利用该信息匹配模型进行信息匹配时,根据输入的目标图像,可以依次经过信息匹配模型包括特征提取网络、检测网络和关系匹配网络一步到位地确定出匹配结果。
基于图8所示的信息匹配模型信息匹配时,图4所示的交通标志牌的信息匹配方法的具体实现可以参见图10,图10为基于图8所示的信息匹配模型进行信息匹配的流程图,所述方法包括:
S1001、获取目标图像。
S1001与图4对应实施例中的S401的具体实现相类似,此处不再赘述,详见S401的相关描述。
S1002、通过所述特征提取网络对所述目标图像进行特征提取得到图像语义特征。
获取到目标图像后,将目标图像输入至信息匹配模型的特征提取网络中。特征提取网络利用其中包括的卷积神经网络模型对目标图像进行特征提取得到图像语义特征。进而,将得到的图像语义特征输入至信息匹配模型的检测网络。
S1003、根据所述图像语义特征,通过所述检测网络确定文本检测结果和交通标志牌检测结果。
检测网络根据输入的图像语义特征确定文本检测结果和交通标志牌检测结果,进而将文本检测结果和交通标志牌检测结果输入至关系匹配网络。
需要说明的是,在一些情况下,为了实现文本检测结果和交通标志牌检测结果的可视化,可以将检测结果进一步解析为检测框,例如可以将文本检测结果通过目标图像中的第一检测框表示,例如图9中虚线矩形框所示;将交通标志牌检测结果通过目标图像中的第二检测框表示,例如图9中灰色实线矩形框所示。
若检测网络如9所示,包括文本信息检测分支和交通标志牌检测分支,由于图9中两个不同的分支分别用于检测不同的目标(文本信息或交通标志牌),而这两个不同目标的外观形态、语义信息相差较大,故为了准确的检测出哪些是文本信息哪些是交通标志牌,可以使得所检测目标的特征更加显著,即在检测文本信息时使文本信息的特征更加显著,在检测交通标志牌时使交通标志牌的特征更加显著。
在一种可能的实现方式中,S1003的实现方式可以是通过文本信息检测分支对图像语义特征进行特征变换得到第一语义特征,第一语义特征中文本信息的特征的显著性高于图像语义特征中文本信息的特征的显著性,从而使得文本信息的特征更加显著。然后根据第一语义特征,通过文本信息检测分支得到文本检测结果,由于此时文本信息的特征更加显著,则有利于文本信息的检测,使得得到的文本检测结果更加准确。通过交通标志牌检测分支对图像语义特征进行特征变换得到第二语义特征,第二语义特征中交通标志牌的特征的显著性高于图像语义特征中交通标志牌的特征的显著性,从而使得交通标志牌的特征更加显著。然后,根据第二语义特征,通过交通标志牌检测分支得到交通标志牌检测结果。由于此时交通标志牌的特征更加显著,则有利于交通标志牌的检测,使得得到的交通标志牌检测结果更加准确。
参见图9所示,图9中白色方块代表特征提取网络输出的图像语义特征,该图像语义特征为交通标志牌检测分支和文本信息检测分支所共享。以交通标志牌检测分支8022为例,该交通标志牌检测分支会对图像语义特征(白色立方体)进行进一步的特征提取与特征变换,使得交通标志牌的特征更加显著,从而得到更加有利于交通标志牌检测的第二语义特征(浅灰色立方体)。之后,使用1×1卷积对特征维度进行变换,输出交通标志牌检测结果(右侧上方的灰色实线矩形框),其中包括的标志牌位置信息表示该点到上下左右四个边界框的距离。同理,文本信息检测分支8021根据图像语义特征得到第一语义特征(深灰色立方体),使得文本信息的特征更加显著,从而可以对目标图像中的文本信息的位置进行准确预测,得到文本检测结果。
在一些情况下,为了表示检测结果的可信程度,以便后续可以选择可信程度较高的检测结果进一步进行后续匹配,提高匹配效率,文本检测结果中还包括文本检测结果对应的第一置信度得分,交通标志牌检测结果中还包括交通标志牌检测结果对应的第二置信度得分。第一置信度得分用于表示文本检测结果的可信程度,第二置信度得分用于表示交通标志牌检测结果的可信程度,以便在匹配之前排除一些不可信的检测结果,提高匹配效率。
此时,文本检测结果对应的通道数为5,分别表示该点到上下左右四个边界框的距离以及第一置信度得分,交通标志牌检测结果对应的通道数为5,分别表示该点到上下左右四个边界框的距离以及第二置信度得分。
下面结合文本信息检测分支和交通标志牌检测分支的具体网络结构对检测网络的检测过程进行介绍。其中交通标志牌检测分支的网络结构包括四个3×3卷积和一个1×1卷积构成。4个3×3卷积对共享的图像语义特征进行进一步的非线性变换,使得交通标志牌的特征更加显著和突出。1×1卷积作为输出层,将通道维度降到5个通道,最终输出的维度为(N,5,W,H)。这里的5个通道分别表示该点到上下左右四个边界框的距离以及第二置信度得分。
文本信息检测分支的网络结构和交通标志牌检测分支的网络结构类似,包括进行文本特征增强的3×3卷积和用于维度变换的1×1卷积。另外,与可枚举的交通标志牌的样式相比,文本信息的样式变化各异。所以,在4个3×3普通卷积之后,其网络结构中还增加了4个3×3可形变卷积。可形变卷积能够基于学习确定卷积的形变参数,扩大卷积的感受野(Receptive Field),从而使得文本信息检测分支的特征提取能力更加强大,从而保障文本信息检测的效果。
此外,由于交通标志牌和文本信息的形状分布不同,交通标志牌的长宽大都比较接近,而文本信息大都是“长条”形状的。因此,在训练的时候,为了使得两个检测分支同时达到最优的检测效果,可以在两个检测分支使用不同的先验框(先验框一般用于预先设定好目标例如交通标志牌或文本信息的长和高,以帮助预测),具体先验框的形状可在训练数据上进行聚类得到。通过这样的设计,不仅能够加速模型的收敛,还能够让两个检测分支都得到充分的训练,同时达到最优的训练效果。
S1004、根据所述文本检测结果中的所述文本位置信息和所述交通标志牌检测结果中的所述标志牌位置信息,通过所述关系匹配网络确定所述目标图像中所述文本信息与所述交通标志牌之间的匹配结果。
在将文本检测结果和交通标志牌检测结果输入关系匹配网络后,关系匹配网络可以根据文本检测结果中的文本位置信息和交通标志牌检测结果中的标志牌位置信息确定目标图像中文本信息与交通标志牌之间的匹配结果。
在一些情况下,若关系匹配网络还以特征提取网络的输出为输入,则在确定匹配结果时,可以综合运用位置信息和图像语义特征作为附属关系的推理判断依据。具体地,确定匹配结果的一种可能实现方式可以是确定标志牌位置信息对应的标志牌位置编码和文本位置信息对应的文本位置编码,然后将标志牌位置编码、文本位置编码和图像语义特征进行融合,得到融合特征,从而根据融合特征确定目标图像中文本信息和与通标志牌之间的匹配结果。
参见图11a所示,关系匹配网络的输入分为两部分,一部分是检测网络输出的文本检测结果和交通标志牌检测结果,一部分是特征提取网络输出的图像语义特征。关系匹配网络首先是将标志牌位置信息和文本位置信息进行Position Embedding,也就是位置编码,从而更好地提取出不同检测框之间的空间位置信息,同时也能够更加方便地与图像语义特征进行融合。其中,标志牌位置信息和文本位置信息都可以采用[x1,y1,x2,y2]这种坐标形式表示。
具体位置编码的方式如下:先生成一个和目标图像尺度一样的二维数组,其初始值全为0。对于某个交通标志牌对应的标志牌位置信息或者文本信息对应的文本位置信息[x1,y1,x2,y2],将(x1,y1)到(x2,y2)这两点所围成的矩形区域内的点的值全置为1。这样就得到了一张可以表征这个交通标志牌或者文本信息位置的0-1二值图,作为标志牌位置编码或文本位置编码。需要进行位置编码的标志牌位置信息和文本位置信息有多少个,则可以得到多少张这样的二值图,将得到的二值图沿着通道维度堆叠起来。最后,将其通过双线性差值缩放到特定尺度,以便和图像语义特征进行融合。其中该特定尺度可以是与图像语义特征的尺度相同,例如7×7的尺度。在本实施例中,位置编码最终的输出维度可以为K×1×7×7,K可以表示所需要进行匹配的检测框(包括第一检测框或第二检测框)数目。
本申请充分利用了位置信息和图像语义特征,在进行信息匹配过程中综合运用了空间约束和语义约束来有效提高信息匹配的准确率。
在一些情况下,由于特征提取网络输出的图像语义特征是全图的特征,该图像语义特征可能包括很多无关的甚至可能造成干扰的背景特征。因此,本申请实施例基于检测网络输出的文本检测结果和交通标志牌检测结果,将感兴趣区域(region of interest,RoI)的特征裁剪出来。为此,在本申请实施例中,得到融合特征的一种可能的实现方式可以是根据标志牌位置信息和文本位置信息确定感兴趣区域,从图像语义特征中裁剪得到感兴趣区域对应的感兴趣语义特征,进而将感兴趣语义特征与对应的标志牌位置编码或文本位置编码进行融合,得到融合特征。该感兴趣语义特征可以包括交通标志牌对应的感兴趣语义特征和文本信息对应的感兴趣语义特征,也就是说,将根据标志牌位置信息裁剪得到的感兴趣语义特征(即交通标志牌对应的感兴趣语义特征)与对应的标志牌位置编码进行融合,将根据文本位置信息裁剪得到的感兴趣语义特征(即文本信息对应的感兴趣语义特征)与对应的文本位置编码进行融合,从而得到融合特征。其中,若通过第一检测框表示文本检测结果,第二检测框表示交通标志牌检测结果,则感兴趣区域可以是第一检测框和第二检测框围起来的区域。
具体来说,本申请实施例可以基于RoIAlign来完成这一“剪裁”操作。RoIAlign能够将不同大小的特征统一映射到一个固定的维度,例如7×7,以便进行后续的附属关系推理。
下面以使用RoIAlign裁剪出2×2的感兴趣语义特征为例论述其具体操作:
如图11b所示,黑色实线矩形框表示目标(例如交通标志牌或文本信息)在图像语义特征对应的特征图上的位置。若希望从图像语义特征对应的特征图上将感兴趣语义特征剪裁出来,得到2×2大小的感兴趣语义特征对应的特征图,那么可以将黑色实线矩形框等分为1,2,3,4四个区域。然后针对每个区域分别计算出一个值来代表该区域,这四个值便组成了所需的2×2特征图。其中,每个区域的值可以为该区域内均匀分布的四个采样点(如图11b中的黑色点)的值的平均数。
然后再将RoIAlign剪裁得到的感兴趣语义特征与标志牌位置特征或文本位置特征堆叠起来,将两个不同维度的特征充分融合,得到融合特征。从而在后续可以基于大量数据自适应地学习每个维度特征对于最终决策的贡献度,最后输出一个附属关系图。
需要说明的是,为了得到融合特征,本申请实施例提供的关系匹配网络可以包括两个1×1卷积、两个3×3卷积、全局池化层、两个全连接层。
具体的,进行融合的两个特征可以是前述得到的K×1×7×7维的位置编码和图像语义特征(例如感兴趣语义特征),图像语义特征的维度可以是K×C×7×7维。由于位置编码的通道数维度只有1维,相对于图像语义特征的维度而言较小,容易使得位置编码所表示的位置信息被图像语义特征所淹没。同时,先前的位置编码只考虑目标在目标图像中的绝对位置,没有考虑目标间的相对位置。因此,本申请实施例使用关系匹配网络中的两个1×1卷积将位置编码的通道数从1维先提高到C/2维,再提高到C维,从而得到既编码了绝对位置又编码了相对位置的特征,维度也变为K×C×7×7。
然后分别使用两个3×3卷积先对K×C×7×7维的位置编码和K×C×7×7维的图像语义特征的进一步变换,将变换后的两个特征再堆叠到一块,变为K×2C×7×7维,之后交替使用3×3卷积和1×1卷积将堆叠在一起的特征继续做非线性变换和信息融合。然后使用全局池化层,将K×2C×7×7特征变换位K×2C×1×1即K×2C维。之后使用两个全连接层继续融合图像语义特征和位置编码,最后输出K×K维的融合特征。
需要说明的是,若文本检测结果中还包括文本检测结果对应的第一置信度得分,交通标志牌检测结果中还包括交通标志牌检测结果对应的第二置信度得分,为了避免对一些误检测结果进行匹配,以减少计算量,提高匹配效率,则S1004的一种可能的实现方式可以是根据第一置信度得分选取M个文本检测结果,以及根据第二置信度得分选取N个交通标志牌检测结果输入附属关系匹配网络,通过关系匹配网络输出附属关系图,附属关系图用于表示M个文本检测结果对应的文本信息与N个交通标志牌检测结果对应的交通标志牌之间的匹配结果。其中,M和N可以相等,也可以不相等,本实施例对此不做限定。图7以M=N=3为例进行介绍。
其中,选取方式可以包括多种,一种方式可以是将第一置信度得分按照从大到小的顺序排列,选择前M个文本检测结果,以及将第二置信度得分按照从大到小的顺序排列,选择前N个交通标志牌检测结果。另一种方式可以是,将第一置信度得分按照从小到大的顺序排列,选择后M个文本检测结果,以及将第二置信度得分按照从小到大的顺序排列,选择后N个交通标志牌检测结果。在一些情况下,还可以是选取第一置信度得分大于第一阈值的M个文本检测结果,选取第二置信度得分大于第二阈值的N个交通标志牌检测结果。本实施例对选取方式不做限定。
本实施例从所有检测结果中选取置信度得分较高的检测结果继续进行匹配,从而无需对每个检测结果都进行计算,减少计算量,提高匹配效率。
可以理解的是,上述信息匹配模型能否准确地确定出匹配结果,依赖于该信息匹配模型的模型性能,而信息匹配模型的模型性能的好坏取决于对该信息匹配模型的训练过程。
下面结合图12对训练信息匹配模型的过程进行介绍,参见图12,所述方法包括:
S1201、构建信息初始匹配模型,其中,所述信息初始匹配模型包括初始特征提取网络、初始检测网络和初始关系匹配网络。
以构建的信息初始匹配模型为训练基础,对该信息初始匹配模型进行训练。可以理解的是,该信息初始匹配模型与信息匹配模型的结构相类似,包括初始特征提取网络、初始检测网络和初始关系匹配网络。
S1202、获取训练样本集中的训练样本,所述训练样本包括训练图像以及文本信息与交通标志牌之间的真实匹配结果。
训练信息初始匹配模型时,需要获取训练样本集中的训练样本,利用该训练样本对已构建的信息初始匹配模型进行训练。
由于信息匹配模型的输入为目标图像,输出为匹配结果,因此,利用训练样本对信息初始匹配模型进行训练时,需要获取与信息匹配模型相同的输入和输出,即所获取的训练样本中需要包括训练图像以及文本信息与交通标志牌之间的真实匹配结果,由此保证利用该训练样本训练得到的信息匹配模型,能够满足实际应用中的信息匹配模型的输入需求以及输出需求。
S1203、将所述训练图像输入所述信息初始匹配模型中,依次经过所述初始特征提取网络、所述初始检测网络和所述初始关系匹配网络的处理,获得所述初始关系匹配网络的输出内容,所述输出内容包括所述文本信息与所述交通标志牌之间的预测匹配结果。
将训练图像输入至信息初始匹配模型中,利用信息初始匹配模型中初始特征提取网络提取图像语义特征,并将图像语义特征输入至初始检测网络。初始检测网络根据图像语义特征预测文本检测结果和交通标志牌检测结果,并将文本检测结果和交通标志牌检测结果输入至初始关系匹配网络。初始关系匹配网络根据文本检测结果和交通标志牌检测结果进行匹配,得到预测匹配结果。
S1204、根据所述预测匹配结果和所述真实匹配结果构建损失函数。
S1205、根据所述损失函数调整所述信息初始匹配模型的模型参数,根据满足训练条件时所调整的模型参数和所述信息初始匹配模型的网络结构,确定所述信息匹配模型。
根据信息初始匹配模型输出的预测匹配结果和真实匹配结果之间的误差构建损失函数,进而可以根据该损失函数,对信息初始匹配模型中的模型参数进行调整,从而实现对信息初始匹配模型的优化。当信息初始匹配模型满足训练条件时,即可根据当前信息初始匹配模型的模型参数以及信息初始匹配模型的网络结构,确定信息匹配模型。
在调整模型参数时,可以将损失函数所表示的损失在初始特征提取网络、初始检测网络和初始关系匹配网络中进行反向传播,根据损失调整初始特征提取网络、初始检测网络和初始关系匹配网络的权重和模型参数,直至满足训练条件为止,实现得到信息匹配模型,从而实现初始检测网络和初始关系匹配网络的联合优化。
本申请将交通标志牌-文本信息检测和信息匹配两个任务整合到一起,通过特征复用降低了算法的复杂度。并且通过联合优化,使交通标志牌-文本信息的检测、匹配效率与匹配准确率得到大大提高,地图自动化生产的成本能够有效降低,生产质量可以得到显著提高。
接下来,将结合实际应用场景对本申请实施例提供的交通标志牌的信息匹配方法进行介绍。在该场景中可以通过车辆的行车记录仪采集目标图像,并将采集得到的目标图像上传至服务器。服务器在获取到目标图像后,可以将目标图像输入至信息匹配模型,通过信息匹配模型中的特征提取网络从目标图像中提取图像语义特征,并将图像语义特征输入至检测网络。检测网络中的交通标志牌检测分支根据图像语义特征确定交通标志牌检测结果,并将交通标志牌检测结果输入至关系匹配网络;检测网络中的文本信息检测分支根据图像语义特征确定文本检测结果,并将文本检测结果输入至关系匹配网络。同时,特征提取网络将图像语义特征输入至关系匹配网络,关系匹配网络根据图像语义特征、文本检测结果中的文本位置信息和交通标志牌检测结果中的标志牌位置信息确定匹配结果。该匹配结果可以反映出哪个文本信息是哪个交通标志牌的附属信息,进而将具有附属关系的文本信息和交通标志牌提供给地图数据自动化生产服务使用。
基于图4对应实施例提供的交通标志牌的信息匹配方法,本申请实施例还提供一种交通标志牌的信息匹配装置,参见图13,所述装置1300包括获取单元1301和匹配单元1302:
所述获取单元1301,用于获取采集得到的目标图像,所述目标图像中包括文本信息和交通标志牌;
所述匹配单元1302,用于通过信息匹配模型,对所述目标图像进行处理得到所述目标图像中文本信息与交通标志牌之间的匹配结果,所述信息匹配模型为端到端的神经网络,所述神经网络以目标图像作为输入,以文本信息与交通标志牌之间的匹配结果作为输出。
在一种可能的实现方式中,所述信息匹配模型包括特征提取网络、检测网络和关系匹配网络;
其中,所述特征提取网络是以目标图像为输入,以图像语义特征为输出的第一神经网络;
所述检测网络是以所述特征提取网络的输出为输入,以文本检测结果和交通标志牌检测结果为输出的第二神经网络,所述文本检测结果中包括指示文本信息在所述目标图像中位置的文本位置信息,所述交通标志牌检测结果中包括指示交通标志牌在所述目标图像中位置的标志牌位置信息;
所述关系匹配网络是以所述检测网络的输出为输入,以目标图像中文本信息与交通标志牌之间的匹配结果为输出的第三神经网络。
在一种可能的实现方式中,所述匹配单元1302用于:
通过所述特征提取网络对所述目标图像进行特征提取得到图像语义特征;
根据所述图像语义特征,通过所述检测网络确定文本检测结果和交通标志牌检测结果;
根据所述文本检测结果中的所述文本位置信息和所述交通标志牌检测结果中的所述标志牌位置信息,通过所述附属关系匹配网络确定所述目标图像中所述文本信息与所述交通标志牌之间的匹配结果。
在一种可能的实现方式中,若所述附属关系匹配网络还以所述特征提取网络的输出为输入,所述匹配单元1302用于:
确定所述标志牌位置信息对应的标志牌位置编码和所述文本位置信息对应的文本位置编码;
将所述标志牌位置编码、所述文本位置编码和所述图像语义特征进行融合,得到融合特征;
根据所述融合特征确定所述目标图像中文本信息与交通标志牌之间的匹配结果。
在一种可能的实现方式中,所述匹配单元1302用于:
根据所述标志牌位置信息和所述文本位置信息确定感兴趣区域;
从所述图像语义特征中裁剪得到所述感兴趣区域对应的感兴趣语义特征;
将所述感兴趣语义特征与对应的所述标志牌位置编码或所述文本位置编码进行融合,得到所述融合特征。
在一种可能的实现方式中,所述检测网络包括文本信息检测分支和交通标志牌检测分支;
其中,所述文本信息检测分支是以所述特征提取网络的输出为输入,以所述文本检测结果为输出的第四神经网络;
所述交通标志牌检测分支是以所述特征提取网络的输出为输入,以所述交通标志牌检测结果为输出的第五神经网络。
在一种可能的实现方式中,所述匹配单元1302用于:
通过所述文本信息检测分支对所述图像语义特征进行特征变换得到第一语义特征,所述第一语义特征中所述文本信息的特征的显著性高于所述图像语义特征中所述文本信息的特征的显著性;
根据所述第一语义特征,通过所述文本信息检测分支得到所述文本检测结果;
通过所述交通标志牌检测分支对所述图像语义特征进行特征变换得到第二语义特征,所述第二语义特征中所述交通标志牌的特征的显著性高于所述图像语义特征中所述交通标志牌的特征的显著性;
根据所述第二语义特征,通过所述交通标志牌检测分支得到所述交通标志牌检测结果。
在一种可能的实现方式中,所述文本检测结果通过所述目标图像中的第一检测框表示,所述交通标志牌检测结果通过所述目标图像中的第二检测框表示。
在一种可能的实现方式中,所述文本检测结果中还包括所述文本检测结果对应的第一置信度得分,所述交通标志牌检测结果中还包括所述交通标志牌检测结果对应的第二置信度得分,所述匹配单元1302用于:
根据所述第一置信度得分选取M个文本检测结果,以及根据所述第二置信度得分选取N个交通标志牌检测结果输入所述关系匹配网络;
通过所述关系匹配网络输出附属关系图,所述附属关系图用于表示所述M个文本检测结果对应的文本信息与所述N个交通标志牌检测结果对应的交通标志牌之间的匹配结果。
在一种可能的实现方式中,所述装置还包括训练单元:
所述训练单元,用于:
构建信息初始匹配模型,其中,所述信息初始匹配模型包括初始特征提取网络、初始检测网络和初始关系匹配网络;
获取训练样本集中的训练样本,所述训练样本包括训练图像以及文本信息与交通标志牌之间的真实匹配结果;
将所述训练图像输入所述信息初始匹配模型中,依次经过所述初始特征提取网络、所述初始检测网络和所述初始关系匹配网络的处理,获得所述初始关系匹配网络的输出内容,所述输出内容包括所述文本信息与所述交通标志牌之间的预测匹配结果;
根据所述预测匹配结果和所述真实匹配结果构建损失函数;
根据所述损失函数调整所述信息初始匹配模型的模型参数,根据满足训练条件时所调整的模型参数和所述信息初始匹配模型的网络结构,确定所述信息匹配模型。
在一种可能的实现方式中,所述训练单元,用于:
将所述损失函数所表示的损失在所述初始特征提取网络、所述初始检测网络和所述初始关系匹配网络中进行反向传播,根据所述损失调整所述初始特征提取网络、所述初始检测网络和所述初始关系匹配网络的权重和模型参数,直至满足所述训练条件为止,得到所述信息匹配模型。
本申请实施例还提供了一种用于交通标志牌的信息匹配设备,该设备可以是终端,以终端为智能手机为例:
图14示出的是与本申请实施例提供的终端相关的智能手机的部分结构的框图。参考图14,智能手机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(英文全称:wireless fidelity,英文缩写:WiFi)模块1470、处理器1480、以及电源1490等部件。输入单元1430可包括触控面板1431以及其他输入设备1432,显示单元1440可包括显示面板1441,音频电路1460可以包括扬声器1461和传声器1462。本领域技术人员可以理解,图14中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器1420可用于存储软件程序以及模块,处理器1480通过运行存储在存储器1420的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1480是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器1420内的软件程序和/或模块,以及调用存储在存储器1420内的数据,执行智能手机的各种功能和处理数据,从而对智能手机进行整体监控。可选的,处理器1480可包括一个或多个处理单元;优选的,处理器1480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1480中。
在本实施例中,由所述终端中的处理器1480所执行的步骤可以基于图14所示的结构实现。
该设备还可以包括服务器,请参见图15所示,图15为本申请实施例提供的服务器1500的结构图,服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)1522(例如,一个或一个以上处理器)和存储器1532,一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中,存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1522可以设置为与存储介质1530通信,在服务器1500上执行存储介质1530中的一系列指令操作。
服务器1500还可以包括一个或一个以上电源1526,一个或一个以上有线或无线网络接口1550,一个或一个以上输入输出接口1558,和/或,一个或一个以上操作系统1541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在本实施例中,所述服务器1500中的中央处理器1522可以执行以下步骤:
获取采集得到的目标图像,所述目标图像中包括文本信息和交通标志牌;
通过信息匹配模型,对所述目标图像进行处理得到所述目标图像中文本信息与交通标志牌之间的匹配结果,所述信息匹配模型为端到端的神经网络,所述神经网络以目标图像作为输入,以文本信息与交通标志牌之间的匹配结果作为输出。
根据本申请的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行前述各个实施例所述的交通标志牌的信息匹配方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术成员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (14)
1.一种交通标志牌的信息匹配方法,其特征在于,所述方法包括:
获取采集得到的目标图像,所述目标图像中包括文本信息和交通标志牌;
通过信息匹配模型,对所述目标图像进行处理得到所述目标图像中文本信息与交通标志牌之间的匹配结果,所述信息匹配模型为端到端的神经网络,所述神经网络以目标图像作为输入,以文本信息与交通标志牌之间的匹配结果作为输出。
2.根据权利要求1所述的方法,其特征在于,所述信息匹配模型包括特征提取网络、检测网络和关系匹配网络;
其中,所述特征提取网络是以目标图像为输入,以图像语义特征为输出的第一神经网络;
所述检测网络是以所述特征提取网络的输出为输入,以文本检测结果和交通标志牌检测结果为输出的第二神经网络,所述文本检测结果中包括指示文本信息在所述目标图像中位置的文本位置信息,所述交通标志牌检测结果中包括指示交通标志牌在所述目标图像中位置的标志牌位置信息;
所述关系匹配网络是以所述检测网络的输出为输入,以所述目标图像中文本信息与交通标志牌之间的匹配结果为输出的第三神经网络。
3.根据权利要求2所述的方法,其特征在于,所述通过信息匹配模型,对所述目标图像进行处理得到所述目标图像中文本信息与交通标志牌之间的匹配结果,包括:
通过所述特征提取网络对所述目标图像进行特征提取得到图像语义特征;
根据所述图像语义特征,通过所述检测网络确定文本检测结果和交通标志牌检测结果;
根据所述文本检测结果中的所述文本位置信息和所述交通标志牌检测结果中的所述标志牌位置信息,通过所述关系匹配网络确定所述目标图像中所述文本信息与所述交通标志牌之间的匹配结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述文本检测结果中的所述文本位置信息和所述交通标志牌检测结果中的所述标志牌位置信息,通过所述关系匹配网络确定所述目标图像中所述文本信息与所述交通标志牌之间的匹配结果,包括:
确定所述标志牌位置信息对应的标志牌位置编码和所述文本位置信息对应的文本位置编码;
将所述标志牌位置编码、所述文本位置编码和所述图像语义特征进行融合,得到融合特征;
根据所述融合特征确定所述目标图像中所述文本信息与所述交通标志牌之间的匹配结果。
5.根据权利要求4所述的方法,其特征在于,所述将所述标志牌位置编码、所述文本位置编码和所述图像语义特征进行融合,得到融合特征,包括:
根据所述标志牌位置信息和所述文本位置信息确定感兴趣区域;
从所述图像语义特征中裁剪得到所述感兴趣区域对应的感兴趣语义特征;
将所述感兴趣语义特征与对应的所述标志牌位置编码或所述文本位置编码进行融合,得到所述融合特征。
6.根据权利要求3所述的方法,其特征在于,所述检测网络包括文本信息检测分支和交通标志牌检测分支;
其中,所述文本信息检测分支是以所述特征提取网络的输出为输入,以所述文本检测结果为输出的第四神经网络;
所述交通标志牌检测分支是以所述特征提取网络的输出为输入,以所述交通标志牌检测结果为输出的第五神经网络。
7.根据权利要求6所述的方法,其特征在于,所述根据所述图像语义特征,通过所述检测网络确定文本检测结果和交通标志牌检测结果,包括:
通过所述文本信息检测分支对所述图像语义特征进行特征变换得到第一语义特征,所述第一语义特征中所述文本信息的特征的显著性高于所述图像语义特征中所述文本信息的特征的显著性;
根据所述第一语义特征,通过所述文本信息检测分支得到所述文本检测结果;
通过所述交通标志牌检测分支对所述图像语义特征进行特征变换得到第二语义特征,所述第二语义特征中所述交通标志牌的特征的显著性高于所述图像语义特征中所述交通标志牌的特征的显著性;
根据所述第二语义特征,通过所述交通标志牌检测分支得到所述交通标志牌检测结果。
8.根据权利要求2-7任一项所述的方法,其特征在于,所述文本检测结果通过所述目标图像中的第一检测框表示,所述交通标志牌检测结果通过所述目标图像中的第二检测框表示。
9.根据权利要求3-7任一项所述的方法,其特征在于,所述文本检测结果中还包括所述文本检测结果对应的第一置信度得分,所述交通标志牌检测结果中还包括所述交通标志牌检测结果对应的第二置信度得分,所述根据所述文本检测结果中的所述文本位置信息和所述交通标志牌检测结果中的所述标志牌位置信息,通过所述关系匹配网络确定所述目标图像中所述文本信息与所述交通标志牌之间的匹配结果,包括:
根据所述第一置信度得分选取M个文本检测结果,以及根据所述第二置信度得分选取N个交通标志牌检测结果输入所述关系匹配网络;
通过所述关系匹配网络输出附属关系图,所述附属关系图用于表示所述M个文本检测结果对应的文本信息与所述N个交通标志牌检测结果对应的交通标志牌之间的匹配结果。
10.根据权利要求2-7任一项所述的方法,其特征在于,所述方法还包括:
构建信息初始匹配模型,其中,所述信息初始匹配模型包括初始特征提取网络、初始检测网络和初始关系匹配网络;
获取训练样本集中的训练样本,所述训练样本包括训练图像以及文本信息与交通标志牌之间的真实匹配结果;
将所述训练图像输入所述信息初始匹配模型中,依次经过所述初始特征提取网络、所述初始检测网络和所述初始关系匹配网络的处理,获得所述初始关系匹配网络的输出内容,所述输出内容包括所述文本信息与所述交通标志牌之间的预测匹配结果;
根据所述预测匹配结果和所述真实匹配结果构建损失函数;
根据所述损失函数调整所述信息初始匹配模型的模型参数,根据满足训练条件时所调整的模型参数和所述信息初始匹配模型的网络结构,确定所述信息匹配模型。
11.根据权利要求10所述的方法,其特征在于,所述根据所述损失函数调整所述信息初始匹配模型的模型参数,根据满足训练条件时所调整的模型参数和所述信息初始匹配模型的网络结构,确定所述信息匹配模型,包括:
将所述损失函数所表示的损失在所述初始特征提取网络、所述初始检测网络和所述初始关系匹配网络中进行反向传播,根据所述损失调整所述初始特征提取网络、所述初始检测网络和所述初始关系匹配网络的权重和模型参数,直至满足所述训练条件为止,得到所述信息匹配模型。
12.一种交通标志牌的信息匹配装置,其特征在于,所述装置包括获取单元和匹配单元:
所述获取单元,用于获取采集得到的目标图像,所述目标图像中包括文本信息和交通标志牌;
所述匹配单元,用于通过信息匹配模型,对所述目标图像进行处理得到所述目标图像中文本信息与交通标志牌之间的匹配结果,所述信息匹配模型为端到端的神经网络,所述神经网络以目标图像作为输入,以文本信息与交通标志牌之间的匹配结果作为输出。
13.一种用于交通标志牌的信息匹配设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-11中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110473889.5A CN113762039A (zh) | 2021-04-29 | 2021-04-29 | 一种交通标志牌的信息匹配方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110473889.5A CN113762039A (zh) | 2021-04-29 | 2021-04-29 | 一种交通标志牌的信息匹配方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113762039A true CN113762039A (zh) | 2021-12-07 |
Family
ID=78786957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110473889.5A Pending CN113762039A (zh) | 2021-04-29 | 2021-04-29 | 一种交通标志牌的信息匹配方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113762039A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665157A (zh) * | 2023-08-01 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 道路图像处理方法、装置、计算机设备和存储介质 |
CN116682096A (zh) * | 2023-08-03 | 2023-09-01 | 腾讯科技(深圳)有限公司 | 信息添加方法、装置、计算机设备及存储介质 |
-
2021
- 2021-04-29 CN CN202110473889.5A patent/CN113762039A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665157A (zh) * | 2023-08-01 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 道路图像处理方法、装置、计算机设备和存储介质 |
CN116665157B (zh) * | 2023-08-01 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 道路图像处理方法、装置、计算机设备和存储介质 |
CN116682096A (zh) * | 2023-08-03 | 2023-09-01 | 腾讯科技(深圳)有限公司 | 信息添加方法、装置、计算机设备及存储介质 |
CN116682096B (zh) * | 2023-08-03 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 信息添加方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112766244B (zh) | 目标对象检测方法、装置、计算机设备和存储介质 | |
WO2021190451A1 (zh) | 训练图像处理模型的方法和装置 | |
CN110472531B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN112434721A (zh) | 一种基于小样本学习的图像分类方法、系统、存储介质及终端 | |
CN113449700B (zh) | 视频分类模型的训练、视频分类方法、装置、设备及介质 | |
CN115457531A (zh) | 用于识别文本的方法和装置 | |
CN111950570B (zh) | 目标图像提取方法、神经网络训练方法及装置 | |
CN113762039A (zh) | 一种交通标志牌的信息匹配方法及相关装置 | |
CN111967515A (zh) | 图像信息提取方法、训练方法及装置、介质和电子设备 | |
CN113822951A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN114581710A (zh) | 图像识别方法、装置、设备、可读存储介质及程序产品 | |
CN114612902A (zh) | 图像语义分割方法、装置、设备、存储介质及程序产品 | |
CN113569607A (zh) | 动作识别方法、装置、设备以及存储介质 | |
CN114495916B (zh) | 背景音乐的插入时间点确定方法、装置、设备和存储介质 | |
CN113298817A (zh) | 一种准确率高的遥感图像语义分割方法 | |
CN114092920B (zh) | 一种模型训练的方法、图像分类的方法、装置及存储介质 | |
CN114943937A (zh) | 行人重识别方法、装置、存储介质及电子设备 | |
CN115273032A (zh) | 交通标志识别方法、装置、设备及介质 | |
CN114385662A (zh) | 路网更新方法、装置、存储介质及电子设备 | |
CN114764870A (zh) | 对象定位模型处理、对象定位方法、装置及计算机设备 | |
CN113411550B (zh) | 视频上色方法、装置、设备及存储介质 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN112115900B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
CN115131291A (zh) | 对象计数模型的训练方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |