CN114120287A - 数据处理方法、装置、计算机设备和存储介质 - Google Patents

数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114120287A
CN114120287A CN202111470750.1A CN202111470750A CN114120287A CN 114120287 A CN114120287 A CN 114120287A CN 202111470750 A CN202111470750 A CN 202111470750A CN 114120287 A CN114120287 A CN 114120287A
Authority
CN
China
Prior art keywords
road
recognition result
recognition
text
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111470750.1A
Other languages
English (en)
Inventor
吴陈铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111470750.1A priority Critical patent/CN114120287A/zh
Publication of CN114120287A publication Critical patent/CN114120287A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请公开了一种数据处理方法、装置、计算机设备和存储介质,该方法可应用于无人驾驶领域,该方法包括:获取目标图像;目标图像是对目标位置处的交通指示对象进行拍摄得到;对目标图像进行文本识别,得到识别结果集;识别结果集中包含至少一个候选文本及每个候选文本分别对应的识别置信度;若识别结果集中所有候选文本的识别置信度均小于置信度阈值,则获取与目标位置相关联的道路数据;根据道路数据更新识别结果集,并从更新后的识别结果集中确定目标图像的文本识别结果。采用本申请,可提高所确定的文本识别结果的准确性。

Description

数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据处理的领域,尤其涉及一种数据处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机网络的不断发展,无人驾驶的技术也越发成熟。其中,无人驾驶的过程中就涉及到行驶过程中对交通道路牌进行拍摄,继而识别所拍摄的交通道路牌中的道路信息,以根据识别得到的道路信息进行导航行驶。
现有应用中,通常是通过识别算法直接识别拍摄的交通道路牌中的道路信息,而若是该识别算法的识别准确度较低,则会直接导致识别得到的道路信息不准确。
发明内容
本申请提供了一种数据处理方法、装置、计算机设备和存储介质,可提高所获取到的文本识别结果的准确性。
本申请一方面提供了一种数据处理方法,该方法包括:
获取目标图像;目标图像是对目标位置处的交通指示对象进行拍摄得到;
对目标图像进行文本识别,得到识别结果集;识别结果集中包含至少一个候选文本及每个候选文本分别对应的识别置信度;
若识别结果集中所有候选文本的识别置信度均小于置信度阈值,则获取与目标位置相关联的道路数据;
根据道路数据更新识别结果集,并从更新后的识别结果集中确定目标图像的文本识别结果。
本申请一方面提供了一种数据处理装置,该装置包括:
图像获取模块,用于获取目标图像;目标图像是对目标位置处的交通指示对象进行拍摄得到;
识别模块,用于对目标图像进行文本识别,得到识别结果集;识别结果集中包含至少一个候选文本及每个候选文本分别对应的识别置信度;
道路获取模块,用于若识别结果集中所有候选文本的识别置信度均小于置信度阈值,则获取与目标位置相关联的道路数据;
确定模块,用于根据道路数据更新识别结果集,并从更新后的识别结果集中确定目标图像的文本识别结果。
可选的,识别模块对目标图像进行文本识别,得到识别结果集的方式,包括:
调用文本识别网络对目标图像进行文本识别,得到概率分布矩阵;概率分布矩阵包含所识别的多个字符识别位置处分别针对字符库中每个字符的识别概率;
对概率分布矩阵进行解码处理,得到识别结果集;识别结果集中任一个候选文本包含解码得到的至少一个字符。
可选的,更新后的识别结果集中包含道路数据和至少一个候选文本;
确定模块从更新后的识别结果集中确定目标图像的文本识别结果的方式,包括:
将更新后的识别结果集中至少一个候选文本和道路数据均确定为候选识别结果;
根据概率分布矩阵计算每个候选识别结果的后验概率;
将更新后的识别结果集中具有最大后验概率的候选识别结果确定为文本识别结果。
可选的,识别模块对概率识别矩阵进行解码,得到识别结果集的方式,包括:
在概率分布矩阵中分别提取每个字符位置处具有最大识别概率的字符,作为每个字符位置处的解码字符;
根据每个字符位置处的解码字符生成识别结果集。
可选的,图像获取模块获取目标图像的方式,包括:
获取行驶对象发送的道路拍摄图像;
识别道路拍摄图像中的交通指示对象,并从道路拍摄图像中获取交通指示对象的图像;
从交通指示对象的图像中获取目标图像。
可选的,图像获取模块从交通指示对象的图像中获取目标图像的方式,包括:
调用文本识别网络对交通指示对象的图像进行文本检测,并在交通指示对象的图像中生成文本检测框;
根据文本检测框从交通指示对象的图像中提取得到目标图像。
可选的,上述装置还用于:
获取行驶对象在拍摄得到道路拍摄图像时的定位数据;
根据定位数据确定交通指示对象所在的目标位置。
可选的,上述装置还用于:
根据目标图像的文本识别结果和行驶对象的定位数据生成道路导航数据;
将道路导航数据返回给行驶对象,以使行驶对象根据道路导航数据进行行驶。
可选的,道路获取模块获取与目标位置相关联的道路数据的方式,包括:
获取目标位置所在道路的第一道路名;
将与目标位置所在道路具有拓扑连接关系的道路确定为拓扑连接道路,并获取拓扑连接道路的第二道路名;
将第一道路名和第二道路名确定为与目标位置相关联的道路数据。
可选的,道路获取模块获取与目标位置相关联的道路数据的方式,包括:
根据目标位置确定道路搜索区域;
将道路搜索区域内的道路的道路名确定为道路数据。
可选的,上述装置还用于:
将识别结果集中具有最大识别置信度的候选文本,确定为待定识别结果;
若待定识别结果的识别置信度大于或等于置信度阈值,则将待定识别结果确定为目标图像的文本识别结果。
本申请一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请中一方面中的方法。
本申请一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时使该处理器执行上述一方面中的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面等各种可选方式中提供的方法。
本申请获取目标图像;目标图像是对目标位置处的交通指示对象进行拍摄得到;对目标图像进行文本识别,得到识别结果集;识别结果集中包含至少一个候选文本及每个候选文本分别对应的识别置信度;若识别结果集中所有候选文本的识别置信度均小于置信度阈值,则获取与目标位置相关联的道路数据;根据道路数据更新识别结果集,并从更新后的识别结果集中确定目标图像的文本识别结果。由此可见,本申请提出的方法首先可以获取针对目标图像的识别结果集,若是该识别结果集不准确(如该识别结果集中所有候选文本的识别置信度都小于置信度阈值),则可以获取与交通指示对象所在的目标位置相关联的道路数据,将该道路数据作为更多的选择,通过结合上该道路数据和识别结果集来最终确定目标图像的文本识别结果,提高了所获取到的目标图像的文本识别结果的准确性。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种网络架构的结构示意图;
图2是本申请提供的一种文本识别的场景示意图;
图3是本申请提供的一种数据处理方法的流程示意图;
图4是本申请提供的一种获取目标图像的场景示意图;
图5a-图5b是本申请提供的一种获取道路数据的场景示意图;
图6是本申请提供的一种获取文本识别结果的场景示意图;
图7是本申请提供的一种获取识别结果的流程示意图;
图8是本申请提供的一种数据处理装置的结构示意图;
图9是本申请提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请涉及到人工智能相关技术。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请中主要涉及到了人工智能中的机器学习。其中,机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请中所涉及到的机器学习主要指,如何通过所训练的文本识别网络来确定针对目标图像的文本识别结果,具体可以参见下述图3对应的实施例中的描述。
请参见图1,图1是本申请提供的一种网络架构的结构示意图。如图1所示,网络架构可以包括服务器200和终端设备集群,终端设备集群可以包括一个或者多个终端设备,这里将不对终端设备的数量进行限制。如图1所示,多个终端设备具体可以包括终端设备100a、终端设备101a、终端设备102a、…、终端设备103a;如图1所示,终端设备100a、终端设备101a、终端设备102a、…、终端设备103a均可以与服务器200进行网络连接,以便于每个终端设备可以通过网络连接与服务器200之间进行数据交互。
如图1所示的服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、车载终端等智能终端。下面以终端设备100a与服务器200之间的通信为例,进行本申请实施例的具体描述。
请一并参见图2,图2是本申请提供的一种文本识别的场景示意图。终端设备100a可以是用于采集交通指示对象的图像的设备,终端设备100a可以是行驶对象中的车载设备,行驶对象可以是无人驾驶车辆。
因此,首先,行驶对象可以对当前所行驶的道路进行拍摄,即可得到当前的道路拍摄图像,该道路拍摄图像中可以包括拍摄下来的交通指示牌(即下述交通指示对象),行驶对象可以将所拍摄的道路拍摄图像通过终端设备100a发送给服务器200。
进而,服务器200可以从获取到的道路拍摄图像中获取交通指示牌的图像(即交通指示对象的图像),进而,服务器200可以对该交通指示牌的图像进行文本识别,即可得到识别结果集(例如,服务器200可以从交通指示牌的图像中获取文本图像,该文本图像可以是下述目标图像,进而再对目标图像进行文本识别,以得到识别结果集,具体可以参见下述图3对应实施例中的相关描述),该识别结果集中可以包括所识别的一个或者多个候选文本。
若是该识别结果集中所识别的候选文本都不准确,则服务器200还可以获取与交通指示牌的位置(即下述目标位置)相关联的道路数据,进而服务器200可以通过该道路数据以及识别结果集再一起得到针对所拍摄的交通指示牌的文本识别结果,该文本识别结果可以是所识别的交通指示牌的图像中的道路名。服务器200可以将该文本识别结果给到行驶对象(如发送给终端设备100a),使得行驶对象可以通过该文本识别结果在当前位置生成相应的道路导航数据,进而通过该道路导航数据进行行驶,该道路导航数据就可以用于指示行驶对象当前要行驶的道路,该道路可以是交通指示牌中的道路名所指示的道路。
采用本申请所提供的方法,当所生成的识别结果集不准确时,可以引入与交通指示牌的位置相关联的道路数据一起来得到针对交通指示牌的图像最终的文本识别结果,使得所获取到的文本识别结果更加准确。
请参见图3,图3是本申请提供的一种数据处理方法的流程示意图。本申请实施例中的执行主体可以是一个计算机设备或者多个计算机设备所构成的计算机设备集群。该计算机设备可以是服务器,也可以终端设备。因此,本申请实施例中的执行主体可以是服务器,也可以是终端设备,还可以是由服务器和终端设备共同构成。此处,以本申请中的执行主体为服务器为例进行说明。如图3所示,该方法可以包括:
步骤S101,获取目标图像;目标图像是对目标位置处的交通指示对象进行拍摄得到。
可选的,服务器可以获取到目标图像,该目标图像是对目标位置处的交通指示对象进行拍摄得到。该交通指示对象可以是交通道路牌,该交通道路牌中可以包含目标位置处的一个或者多个道路名。目标位置可以是交通指示对象所在的地理位置。
可选的,服务器获取目标图像的过程可以是:服务器可以获取到行驶对象发送的道路拍摄图像,该道路拍摄图像可以是行驶对象在行驶过程中所拍摄的图像,该道路拍摄图像中可以包括所拍摄的交通指示对象。其中,行驶对象可以是自动驾驶(如无人驾驶)的交通工具,如该交通工具可以是自动驾驶的车辆等,因此,行驶对象可以具有摄像装置以及终端(如车载终端),道路拍摄图像可以是行驶对象通过摄像装置所拍摄得到的,行驶对象可以通过所具有的终端将道路拍摄图像发送给服务器。
因此,服务器可以识别道路拍摄图像中的交通指示对象,并可以根据所识别到的交通指示对象从道路拍摄图像中裁剪下交通指示对象的图像,该交通指示对象的图像就是道路拍摄图像中交通指示对象所在的局部图像。
其中,服务器可以通过一个训练好的用于识别交通指示对象的网络来识别道路拍摄图像中的交通指示对象。该训练好的用于识别交通指示对象的网络可以是通过样本图像(包括样本交通指示对象)进行训练得到,该样本图像标注有所具有的样本交通指示对象所在的位置框。
在获取到道路拍摄图像中交通指示对象的图像之后,服务器可以从该交通指示对象的图像中获取目标图像,该目标图像可以是包含文本的图像,该文本可以是中文或者英文等,请参见下述内容描述。
服务器可以获取到文本识别网络(该文本识别网络可以是卷积神经网络),该文本识别网络可以是训练好的用于对图像中的文本进行识别的网络,该文本识别网络可以是采用OCR(光学字符识别检测算法)来进行文本识别的,该OCR算法又可以是通过CTC算法实现的。
因此,服务器可以调用该文本识别网络对交通指示对象的图像进行文本检测,以在交通指示对象的图像中生成文本检测框,进而,服务器可以根据该文本检测框从交通指示对象的图像中提取得到目标图像,如从交通指示对象的图像中裁剪下该文本检测框所框住的图像,文本检测框所框住的图像就是目标图像。
更多的,由于交通指示对象中可以包含一个或者多个道路名(即一个或者多个文本数据,一个道路名是一个文本数据),因此,交通指示对象的图像中一个道路名可以具有一个文本检测框,一个文本检测框对应一个目标图像,因此目标图像也可以有一个或者多个。一个目标图像可以理解为是交通指示对象的图像的一个子图,可以有多个子图,即有多个目标图像。
请参见图4,图4是本申请提供的一种获取目标图像的场景示意图。首先,服务器可以从道路拍摄图像中获取到交通指示对象的图像,进而,服务器可以对交通指示对象的图像进行文本检测,就可以在交通指示对象的图像中生成文本检测框。如图4所示,此处,检测到的文本检测框可以包括文本检测框1、文本检测框2、文本检测框3、文本检测框4、文本检测框5、文本检测框6。
其中,文本检测框1框住了交通指示对象中的道路名“望海路”,文本检测框2框住了交通指示对象中的道路名“光明路”,文本检测框3框住了交通指示对象中的道路名“中心路”,文本检测框4框住了交通指示对象中的道路名“公园路”,文本检测框5框住了交通指示对象中的道路名“海月路”,文本检测框6框住了交通指示对象中的道路名“春熙路”。
因此,可以通过文本检测框从交通指示对象的图像中获取(如裁剪)到多个目标图像,如图4所示,该多个目标图像可以包括交通指示对象的图像中道路名“望海路”对应的部分图像(即目标图像1)、交通指示对象的图像中道路名“光明路”对应的部分图像(即目标图像2)、交通指示对象的图像中道路名“中心路”对应的部分图像(即目标图像3)、交通指示对象的图像中道路名“公园路”对应的部分图像(即目标图像4)、交通指示对象的图像中道路名“海月路”对应的部分图像(即目标图像5)、交通指示对象的图像中道路名“春熙路”对应的部分图像(即目标图像6)。
而由于对每个目标图像进行文本识别的过程都是相互独立且相同的,因此,本申请以对一个目标图像(下述统称为目标图像)进行文本识别的过程为例进行说明。
此外,服务器还可以获取到行驶对象在拍摄得到道路拍摄图像时的定位数据,该定位数据指示了行驶对象在拍摄得到道路拍摄图像时行驶对象所在的地理位置,该地理位置可以是通过经纬度进行表示的。
因此,服务器可以通过行驶对象的该定位数据来计算得到道路拍摄图像中的交通指示对象所在的目标位置。例如,通过道路拍摄图像中交通指示对象所在的位置以及拍摄角度可以推算出行驶对象与交通指示对象之间的距离、以及交通指示对象针对行驶对象的方位,进而以行驶对象所在的位置为基准,并通过交通指示对象的方位以及与行驶对象之间的距离即可推算出交通指示对象的目标位置。
其中,通过行驶对象的定位数据以及道路拍摄图像来推算出交通指示对象实际所在的目标位置的算法可以根据实际应用场景决定,对此不做限制。
步骤S102,对目标图像进行文本识别,得到识别结果集;识别结果集中包含至少一个候选文本及每个候选文本分别对应的识别置信度。
可选的,服务器可以调用上述文本识别网络对目标图像进行文本识别,即可得到识别结果集,该识别结果集中可以包含至少一个候选文本,该候选文本即为对目标图像进行文本识别所识别到的文本,在识别得到候选文本时,文本识别网络还可以生成针对候选文本的识别置信度,该识别置信度表征了文本识别网络所识别得到的候选文本的可信度,一个候选文本具有一个识别置信度。一个候选文本的识别置信度越低,表明所识别的该候选文本的可信度越低,反之,一个候选文本的识别置信度越高,表明所识别的该候选文本的可信度越高。
其中,服务器调用文本识别网络对目标图像进行文本识别,以得到识别结果集的过程可以参见下述内容描述。
首先,服务器可以调用上述文本识别网络对目标图像进行文本识别,得到概率分布矩阵(可以称之为后验概率矩阵P)。该过程可以是:文本识别网络可以包括卷积神经网络和Bi-LSTM(双向长短期记忆网络),服务器首先可以调用文本识别网络中的卷积神经网络生成目标图像的特征图,进而可以将该目标图像的特征图输入Bi-LSTM,该Bi-LSTM可以通过所输入的目标图像的特征图进行文本特征的提取,进而可以得到文本的特征图,该文本的特征图也就是文本识别网络所学习到的目标图像中的文本的特征,因此,文本识别网络通过该文本的特征图即可生成目标图像的概率分布矩阵,该概率分布矩阵可以包括文本识别网络所识别的多个字符识别位置处分别针对字符库中每个字符的识别概率。字符库可以是预先设置的包含若干字符的库,该字符库根据实际应用场景确定,对此不做限制。
其中,该多个字符识别位置的数量可以是文本识别网络中所设置的最大字符长度,如等于30,因此,文本识别网络可以对目标图像进行文本识别,以得到在每个字符位置处针对每个字符的识别概率,一个字符在一个字符位置处的识别概率就表示该字符位置处的字符是该字符的概率,该字符可以是实际的字符(即某个字,如“人”字或者“民”字或者“路”字等),或者,该字符也可以是空白字符(即空白占位符),该空白字符表示对应字符位置上没有字符。
例如,概率分布矩阵的维度可以是D*T,其中,D表示特征向量长度,D可以等于字符库中字符的个数,T表示最大时间长度,该时间长度是文本识别网络中的时间概念,该时间长度可以具有多个时刻,一个时刻就对应一个字符位置,即T可以表示字符位置的个数。可选的,该概率分布矩阵还可以表示为数组或者序列的形式进行使用。
进而,服务器可以对上述概率分布矩阵进行解码处理,解码处理过程中可以对各个字符位置上所识别的重复字符以及空白字符进行相应的处理,就可以得到识别结果集。其中,服务器对概率分布矩阵进行解码处理的方式可以是采用贪心搜索(Greedy Search)算法、集束搜索(Beam Search)算法或者前缀集束搜索(Prefix Beam Search)算法中的任一种解码算法进行解码。
识别结果集中可以包含至少一个候选文本,一个候选文本可以包含解码得到的至少一个字符,该至少一个候选文本就是通过对概率分布矩阵进行解码后所生成的多个文本(即识别得到的多个文本),识别结果集中候选文本的具体数量可以根据所采用的解码算法确定,例如,若是采用贪心搜索(Greedy Search)算法进行解码,则解码得到的识别结果集中可以包含1个候选文本,再例如,若是采用集束搜索(Beam Search)算法进行解码,则解码得到的识别结果集中可以包含3个候选文本。
例如,若是通过贪心搜索(Greedy Search)算法对概率分布矩阵进行解码,则该过程可以是:服务器可以在概率分布矩阵中提取每个字符位置处具有最大识别概率的字符,作为每个字符位置处的解码字符。
举个例子,若字符库中包括字符1、字符2和字符3,多个字符位置包括字符位置w,字符位置w处针对字符1的识别概率是0.5,字符位置w处针对字符2的识别概率是0.3,字符位置w处针对字符3的识别概率是0.1,由于字符位置w处字符1的识别概率是最大的,因此,可以将字符1作为字符位置w处的解码字符。
进而通过每个字符位置处的解码字符可以生成一个字符串,该字符串就依次包括各个字符位置处的解码字符,通过对该字符串中重复的字符以及空白字符进行相应的处理(如对重复字符进行去重以及对空白字符进行删除等操作),就可以生成对应的候选文本,在生成相应的候选文本后,文本识别网络还可以生成(可以理解为评估)针对所所生成的候选文本的识别置信度,该识别置信度的范围是可以0~1。
步骤S103,若识别结果集中所有候选文本的识别置信度均小于置信度阈值,则获取与目标位置相关联的道路数据。
可选的,若识别结果集中所有候选文本的识别置信度都小于置信度阈值,则服务器可以获取与交通指示对象所在的目标位置相关联的道路数据,其中,置信度阈值可以根据实际应用场景进行设置,对此不作限制,该置信度阈值就是能够被接受的最低置信度。其中,获取与目标位置相关联的道路数据的方式可以参见下述内容描述。
可选的,获取与目标位置相关联的道路数据一种方式可以是:
服务器可以获取目标位置所在道路的道路名(即道路标识),可以将该道路名称之为第一道路名,如该道路名可以是“人民路”,表明目标位置在人民路,也就是交通指示对象在人民路。
服务器还可以获取与目标位置所在道路具有拓扑连接关系的道路,可以将该道路称之为拓扑连接道路,与目标位置所在道路具有拓扑连接关系的道路可以是与目标位置所在道路相互连接的道路,如目标位置所在的道路处是分岔路口,该分岔路口包含3条道路,该3条道路其中一条就是目标位置所在的道路,因此,该3条道路中除目标位置所在的道路之外的2条道路就可以作为拓扑连接道路。
因此,服务器还可以获取到拓扑连接道路的道路名,可以将该道路名称之为第二道路名,如该第二道路名可以是“春熙路”,表明拓扑连接道路就是春熙路。
服务器可以将上述获取到的第一道路名和第二道路名作为与目标位置相关联的道路数据,即与目标位置相关联的道路数据可以包括上述第一道路名和第二道路名。第一道路名可以是1个,第二道路名可以有多个,拓扑连接道路可以有多条,一条拓扑连接道路可以有一个第二道路名。
或者,可选的,获取与目标位置相关联的道路数据的一种方式还可以是:
服务器可以根据目标位置来确定道路搜索区域,目标位置可以是该道路搜索区域的中心位置。例如,可以以目标位置为圆心,以r为半径,得到一个圆形区域,进而就可以将该圆形区域作为道路搜索区域。半径r可以根据实际应用场景进行设置,对此不作限制。
进而,服务器可以获取该道路搜索区域内的所有道路,并将获取到的该道路搜索区域内的道路的道路名作为道路数据。
通过上述过程,即可获取到与目标位置相关联的道路数据,该道路数据可以包括与目标位置相临近的多个道路的道路名,即该道路数据可以包括多个道路名,该道路名可以是任意语种的文本。
请参见图5a-图5b,图5a-图5b是本申请提供的一种获取道路数据的场景示意图。如图5a所示,本申请获取道路数据的一种方式可以是:服务器可以将以目标位置为圆心,并且以r为半径的圆形区域作为道路搜索区域,进而将该道路搜索区域中的道路的道路名作为与目标位置相关联的道路数据。
如图5b所示,本申请获取道路数据的一种方式可以是:目标位置所在的道路(即交通指示对象所在的道路)可以是道路3,与道路3具有拓扑连接关系的道路(即拓扑连接道路)可以包括道路1、道路2和道路4,因此,服务器可以将道路1、道路2、道路3和道路4的道路名作为与目标位置相关联的道路数据。
此外,可以将识别结果集中具有最大置信度的候选文本,作为待定识别结果。例如,若识别结果集中的候选文本包括候选文本1、候选文本2和候选文本3,并且,候选文本1的识别置信度是0.1,候选文本2的识别置信度是0.3,候选文本3的识别置信度是0.5,那么,候选文本3具有最大的识别置信度,可以将候选文本3作为待定识别结果。
因此,若待定识别结果的识别置信度大于或者等于上述置信度阈值,则可以直接将待定识别结果作为针对目标图像所识别的最终的文本识别结果,即此种情况下,目标图像的文本识别结果就是识别结果集中具有最大识别置信度的候选文本。
步骤S104,根据道路数据更新识别结果集,并从更新后的识别结果集中确定目标图像的文本识别结果。
可选的,服务器可以根据道路数据更新识别结果集,例如,服务器可以将道路数据添加到识别结果集中,即可得到更新后的识别结果集,更新后的识别结果集中就包括多个候选文本以及道路数据(即若干个道路名)。
进而,服务器可以从更新后的识别结果集中得到针对目标图像所识别的最终的文本识别结果,该过程可以是:
服务器可以将更新后的识别结果集中的至少一个候选文本以及道路数据均作为候选识别结果,即一个候选文本是一个候选识别结果,道路数据所包含的一个道路名也是一个候选识别结果,若候选文本有3个,道路数据包含5个道路名,则候选识别结果就有8个,每个候选识别结果都是文本数据。
因此,服务器可以根据上述文本识别网络所生成的概率分布矩阵来生成每个候选识别结果的后验概率,其中,可以采用CTC(Connectionist temporal classification,一种神经网络的时序分类算法)算法以通过概率分布矩阵来计算各个候选识别结果的后验概率(可以称之为CTC概率)。
其中,一个候选识别结果的后验概率就是通过概率分布矩阵中各个字符位置针对各个字符的概率可以推算出该候选识别结果的所有路径的概率之和,该后验概率也就是通过文本识别网络所生成的概率分布矩阵反向验证计算的目标图像的文本识别结果为对应候选识别结果的概率,该后验概率也就是在假设知道针对目标图像的文本识别结果(如任意一个候选识别结果)的条件下,通过概率分布矩阵对该文本识别结果进行反向验证所得到的概率,该后验概率也属于一种条件概率。
此处,可以理解为,是通过候选识别结果去计算文本识别网络的CTC loss(即识别损失),后验概率越小,表明对应识别损失越大,后验概率越大,表明对应识别损失越小。
因此,为了使得文本识别网络的识别损失最小,则可以选取所有候选识别结果中具有最大后验概率的候选识别结果作为对目标图像所识别的最终的文本识别结果。例如,存在候选识别结果1、候选识别结果2和候选识别结果3,候选识别结果1的后验概率是0.3,候选识别结果2的后验概率是0.5,候选识别结果3的后验概率是0.7,那么,候选识别结果3具有最大的后验概率,可以将候选识别结果3作为目标图像最终的文本识别结果。
请参见图6,图6是本申请提供的一种获取文本识别结果的场景示意图。如图6所示,服务器可以将交通指示对象的图像输入文本识别网络,通过文本识别网络可以生成识别结果集(以一个目标图像的识别结果集为例进行说明),该识别结果集中可以包括文本识别网络所生成的多个候选文本,若是该识别结果集不准确(即该识别结果集中的所有候选文本的识别置信度都小于置信度阈值),则服务器可以根据交通指示对象所在的目标位置获取相关联的道路数据,进而服务器就可以在该道路数据以及识别结果集中选取针对交通指示对象的图像中对应目标图像的文本识别结果。
可以理解的是,由于通过一个交通指示对象的图像可以得到多个目标图像,因此,某些目标图像的文本识别结果可以是对应识别结果集中识别置信度最大的候选文本(此时识别结果集中最大的识别置信度大于或者等于置信度阈值),某些目标图像的文本识别结果可以是对应后验概率最大的候选识别结果(此时识别结果集中最大的识别置信度小于置信度阈值),具体根据实际应用场景确定。通过各个目标图像的文本识别结果,就能得到针对交通指示对象的图像最终的文本识别结果,即交通指示对象的图像最终的文本识别结果(可以称之为道路识别结果)包括所有目标图像的文本识别结果。
本申请通过在文本识别网络失效或者算法不准确的时候(即所有候选文本的识别置信度都小于置信度阈值时),引入与目标位置相关联的道路数据作为一个先验(即先验信息)参与OCR的解码过程,提供更多的选择(即引入道路数据所包含的若干候选识别结果)来确定目标图像的文本识别结果,使得最终所确定的目标图像的文本识别结果可以更加准确,换句话说,采用本申请所提供的方法,可以在OCR解码阶段引入交通数据的先验信息(即道路数据),在无需引入语言模型训练(即无需重新对文本识别网络进行训练)的情况下提高现有交通牌文字识别的准确率。
因此,本申请对自动化场景还原与重建、自动驾驶车辆环境感知等领域具有重要的作用,该发明能够解决当因数据质量较差(如交通指示对象的图像中交通指示对象有遮挡)或算法不够稳定时算法失效的情况,使得识别的结果(即文本识别结果)更加准确和有效。
可选的,此处描述通过CTC计算任意一个候选识别结果的后验概率的过程,一个候选识别结果可以包含若干个字符,一个字表示一个字符,该过程可以参见下述内容描述。
可以将任意一个候选识别结果记为候选识别结果e,概率分布矩阵记为P,可选的,可以通过前向后向算法来快速计算候选识别结果e的后验概率,如下:
首先,服务器可以依据递推关系计算前向变量α(t,u),如下述公式(1)和公式(2)所示:
Figure BDA0003391977610000151
Figure BDA0003391977610000152
其中,假设最大时间长度是上述T,即字符位置有T个(也就是有T个时刻),那么t的取值范围可以是1~T,u表示概率分布矩阵的行数,表示词典的序号(即字符的序号,用于标识对应的字符),t表示概率分布矩阵的列数,表示时刻t。blank表示空白字符,u-1表示第u行的前一行,t-1表示时刻t的前一个时刻。由于CTC算法的特性,需要空白字符来进行输出结果的对齐,因此,e′可以表示在候选识别结果e所包含的各个字符之间插入空白字符后所得到的字符序列,例如,若候选识别结果e为[字符1,字符2,字符3],则e′可以是[空白字符,字符1,空白字符,字符2,空白字符,字符3,空白字符]。因此,可以理解的是,e′u表示e′中第u个字符,e′u-2表示e′中第u-2个字符。
Figure BDA0003391977610000153
表示在时刻t输出e′中第u个字符的概率(可以理解为是概率分布矩阵中时刻t对应的字符位置处e′的第u个字符的识别概率)。
其次,服务器可以依据递推关系计算后向变量β(t,u),如下述公式(3)和公式(4)所示:
Figure BDA0003391977610000161
Figure BDA0003391977610000162
同理,假设最大时间长度是上述T,即字符位置有T个(也就是有T个时刻),那么t的取值范围可以是1~T,u表示概率分布矩阵的行数,表示词典的序号(即字符的序号,用于标识对应的字符),t表示概率分布矩阵的列数,表示时刻t。blank表示空白字符,u+1表示第u行的后一行,t+1表示时刻t的后一个时刻。e′可以表示在候选识别结果e所包含的各个字符之间插入空白字符后所得到的字符序列,因此,可以理解的是,e′i表示e′中第i个字符,e′u+2表示e′中第u+2个字符。
Figure BDA0003391977610000163
表示在时刻t输出e′中第u个字符的概率(可以理解为是概率分布矩阵中时刻t对应的字符位置处e′的第u个字符的识别概率)。
因此,候选识别结果e的后验概率p(e/Ic)如下述公式(5)所示:
Figure BDA0003391977610000164
其中,|e′|表示e′中字符的总个数,Ic表示子图,即Ic表示目标图像。
更多的,在获取到针对目标图像的文本识别结果之后,服务器也就获取到了行驶对象当前所拍摄的交通指示对象(即交通指示牌)中所指示的道路名,该道路名所指示的道路也就是在当前道路可以行驶或者驶向的道路。
可选的,服务器还可以根据该文本识别结果以及行驶对象的定位数据生成道路导航数据。例如,首先服务器可以获取行驶对象要行驶至的终点位置,并可以根据定位数据确定行驶对象当前的地理位置,还可以根据文本识别结果确定当前可以行驶或者驶向的道路,因此,所生成的道路导航数据就可以用于指示行驶对象在当前的地理位置要行驶的道路,以通过所行驶的道路前往终点位置。因此,服务器可以将所生成的道路导航数据返回给行驶对象,使得行驶对象可以根据该道路导航数据进行行驶。
可选的,上述获取针对目标图像的文本识别结果的过程以及获取道路导航数据的过程也可以是由行驶对象通过所具有的终端(如车载终端)自行获取的,或者也可以是由服务器再给到行驶对象的,对此不做限制。
本申请获取目标图像;目标图像是对目标位置处的交通指示对象进行拍摄得到;对目标图像进行文本识别,得到识别结果集;识别结果集中包含至少一个候选文本及每个候选文本分别对应的识别置信度;若识别结果集中所有候选文本的识别置信度均小于置信度阈值,则获取与目标位置相关联的道路数据;根据道路数据更新识别结果集,并从更新后的识别结果集中确定目标图像的文本识别结果。由此可见,本申请提出的方法首先可以获取针对目标图像的识别结果集,若是该识别结果集不准确(如该识别结果集中所有候选文本的识别置信度都小于置信度阈值),则可以获取与交通指示对象所在的目标位置相关联的道路数据,将该道路数据作为更多的选择,通过结合上该道路数据和识别结果集来最终确定目标图像的文本识别结果,提高了所获取到的目标图像的文本识别结果的准确性。
请参见图7,图7是本申请提供的一种获取识别结果的流程示意图。s1:服务器可以对检测到的交通牌文本进行OCR识别,该检测到的交通牌文本可以指上述目标图像,该目标图像是检测到的包含文本的图像,但还需进一步识别该目标图像中所包含的文本的具体内容,通过对检测到的交通牌文本进行OCR识别,可以得到上述识别结果集。
s2:服务器可以根据交通牌地理位置信息(即上述与交通指示对象所在的目标位置相关联的道路数据)以及已识别文本信息(即识别结果集中的候选文本)生成对应的候选集合,该候选集合就包括该道路数据和候选文本,即该候选集合包括上述所有候选识别结果。
s3:对于置信度较低的OCR识别结果(即所包含的所有识别置信度都小于置信度阈值的识别结果集),可以计算对应候选集合中具有最大后验概率的候选结果(即具有最大后验概率的候选识别结果)。
s4:服务器可以将原本的识别结果(如识别结果集中具有最大识别置信度的候选文本)替换成所计算得到的具有最大后验概率的候选识别结果,将该候选识别结果作为最终的识别结果(即文本识别结果)进行输出。
本申请通过在识别结果集不准确时,将原本检测出的识别结果(如识别结果集中具有最大识别置信度的候选文本)替换为后验概率最大的候选识别结果,可以在无需重复对文本识别网络进行训练的情况下,大大提高最终所获取到的文本识别结果的准确性。
请参见图8,图8是本申请提供的一种数据处理装置的结构示意图。该数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件,该数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示,该数据处理装置1可以包括:;
图像获取模块11,用于获取目标图像;目标图像是对目标位置处的交通指示对象进行拍摄得到;
识别模块12,用于对目标图像进行文本识别,得到识别结果集;识别结果集中包含至少一个候选文本及每个候选文本分别对应的识别置信度;
道路获取模块13,用于若识别结果集中所有候选文本的识别置信度均小于置信度阈值,则获取与目标位置相关联的道路数据;
确定模块14,用于根据道路数据更新识别结果集,并从更新后的识别结果集中确定目标图像的文本识别结果。
可选的,识别模块12对目标图像进行文本识别,得到识别结果集的方式,包括:
调用文本识别网络对目标图像进行文本识别,得到概率分布矩阵;概率分布矩阵包含所识别的多个字符识别位置处分别针对字符库中每个字符的识别概率;
对概率分布矩阵进行解码处理,得到识别结果集;识别结果集中任一个候选文本包含解码得到的至少一个字符。
可选的,更新后的识别结果集中包含道路数据和至少一个候选文本;
确定模块14从更新后的识别结果集中确定目标图像的文本识别结果的方式,包括:
将更新后的识别结果集中至少一个候选文本和道路数据均确定为候选识别结果;
根据概率分布矩阵计算每个候选识别结果的后验概率;
将更新后的识别结果集中具有最大后验概率的候选识别结果确定为文本识别结果。
可选的,识别模块12对概率识别矩阵进行解码,得到识别结果集的方式,包括:
在概率分布矩阵中分别提取每个字符位置处具有最大识别概率的字符,作为每个字符位置处的解码字符;
根据每个字符位置处的解码字符生成识别结果集。
可选的,图像获取模块11获取目标图像的方式,包括:
获取行驶对象发送的道路拍摄图像;
识别道路拍摄图像中的交通指示对象,并从道路拍摄图像中获取交通指示对象的图像;
从交通指示对象的图像中获取目标图像。
可选的,图像获取模块11从交通指示对象的图像中获取目标图像的方式,包括:
调用文本识别网络对交通指示对象的图像进行文本检测,并在交通指示对象的图像中生成文本检测框;
根据文本检测框从交通指示对象的图像中提取得到目标图像。
可选的,上述装置1还用于:
获取行驶对象在拍摄得到道路拍摄图像时的定位数据;
根据定位数据确定交通指示对象所在的目标位置。
可选的,上述装置1还用于:
根据目标图像的文本识别结果和行驶对象的定位数据生成道路导航数据;
将道路导航数据返回给行驶对象,以使行驶对象根据道路导航数据进行行驶。
可选的,道路获取模块13获取与目标位置相关联的道路数据的方式,包括:
获取目标位置所在道路的第一道路名;
将与目标位置所在道路具有拓扑连接关系的道路确定为拓扑连接道路,并获取拓扑连接道路的第二道路名;
将第一道路名和第二道路名确定为与目标位置相关联的道路数据。
可选的,道路获取模块13获取与目标位置相关联的道路数据的方式,包括:
根据目标位置确定道路搜索区域;
将道路搜索区域内的道路的道路名确定为道路数据。
可选的,上述装置1还用于:
将识别结果集中具有最大识别置信度的候选文本,确定为待定识别结果;
若待定识别结果的识别置信度大于或等于置信度阈值,则将待定识别结果确定为目标图像的文本识别结果。
根据本申请的一个实施例,图3所示的数据处理方法所涉及的步骤可由图8所示的数据处理装置1中的各个模块来执行。例如,图3中所示的步骤S101可由图8中的图像获取模块11来执行,图3中所示的步骤S102可由图8中的识别模块12来执行;图3中所示的步骤S103可由图8中的道路获取模块13来执行,图3中所示的步骤S104可由图8中的确定模块14来执行。
本申请获取目标图像;目标图像是对目标位置处的交通指示对象进行拍摄得到;对目标图像进行文本识别,得到识别结果集;识别结果集中包含至少一个候选文本及每个候选文本分别对应的识别置信度;若识别结果集中所有候选文本的识别置信度均小于置信度阈值,则获取与目标位置相关联的道路数据;根据道路数据更新识别结果集,并从更新后的识别结果集中确定目标图像的文本识别结果。由此可见,本申请提出的装置首先可以获取针对目标图像的识别结果集,若是该识别结果集不准确(如该识别结果集中所有候选文本的识别置信度都小于置信度阈值),则可以获取与交通指示对象所在的目标位置相关联的道路数据,将该道路数据作为更多的选择,通过结合上该道路数据和识别结果集来最终确定目标图像的文本识别结果,提高了所获取到的目标图像的文本识别结果的准确性。
根据本申请的一个实施例,图8所示的数据处理装置1中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,数据处理装置1也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图8中所示的数据处理装置1,以及来实现本申请实施例的数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
请参见图9,图9是本申请提供的一种计算机设备的结构示意图。如图9所示,计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图9所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取目标图像;目标图像是对目标位置处的交通指示对象进行拍摄得到;
对目标图像进行文本识别,得到识别结果集;识别结果集中包含至少一个候选文本及每个候选文本分别对应的识别置信度;
若识别结果集中所有候选文本的识别置信度均小于置信度阈值,则获取与目标位置相关联的道路数据;
根据道路数据更新识别结果集,并从更新后的识别结果集中确定目标图像的文本识别结果。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
调用文本识别网络对目标图像进行文本识别,得到概率分布矩阵;概率分布矩阵包含所识别的多个字符识别位置处分别针对字符库中每个字符的识别概率;
对概率分布矩阵进行解码处理,得到识别结果集;识别结果集中任一个候选文本包含解码得到的至少一个字符。
可选的,更新后的识别结果集中包含道路数据和至少一个候选文本;
处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
将更新后的识别结果集中至少一个候选文本和道路数据均确定为候选识别结果;
根据概率分布矩阵计算每个候选识别结果的后验概率;
将更新后的识别结果集中具有最大后验概率的候选识别结果确定为文本识别结果。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
在概率分布矩阵中分别提取每个字符位置处具有最大识别概率的字符,作为每个字符位置处的解码字符;
根据每个字符位置处的解码字符生成识别结果集。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取行驶对象发送的道路拍摄图像;
识别道路拍摄图像中的交通指示对象,并从道路拍摄图像中获取交通指示对象的图像;
从交通指示对象的图像中获取目标图像。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
调用文本识别网络对交通指示对象的图像进行文本检测,并在交通指示对象的图像中生成文本检测框;
根据文本检测框从交通指示对象的图像中提取得到目标图像。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取行驶对象在拍摄得到道路拍摄图像时的定位数据;
根据定位数据确定交通指示对象所在的目标位置。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
根据目标图像的文本识别结果和行驶对象的定位数据生成道路导航数据;
将道路导航数据返回给行驶对象,以使行驶对象根据道路导航数据进行行驶。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取目标位置所在道路的第一道路名;
将与目标位置所在道路具有拓扑连接关系的道路确定为拓扑连接道路,并获取拓扑连接道路的第二道路名;
将第一道路名和第二道路名确定为与目标位置相关联的道路数据。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
根据目标位置确定道路搜索区域;
将道路搜索区域内的道路的道路名确定为道路数据。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
将识别结果集中具有最大识别置信度的候选文本,确定为待定识别结果;
若待定识别结果的识别置信度大于或等于置信度阈值,则将待定识别结果确定为目标图像的文本识别结果。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3对应实施例中对上述数据处理方法的描述,也可执行前文图8所对应实施例中对上述数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
作为示例,上述程序指令可被部署在一个计算机设备上执行,或者被部署位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前文图3对应实施例中对上述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种数据处理方法,其特征在于,所述方法包括:
获取目标图像;所述目标图像是对目标位置处的交通指示对象进行拍摄得到;
对所述目标图像进行文本识别,得到识别结果集;所述识别结果集中包含至少一个候选文本及每个候选文本分别对应的识别置信度;
若所述识别结果集中所有候选文本的识别置信度均小于置信度阈值,则获取与所述目标位置相关联的道路数据;
根据所述道路数据更新所述识别结果集,并从更新后的所述识别结果集中确定所述目标图像的文本识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标图像进行文本识别,得到识别结果集,包括:
调用文本识别网络对所述目标图像进行文本识别,得到概率分布矩阵;所述概率分布矩阵包含所识别的多个字符识别位置处分别针对字符库中每个字符的识别概率;
对所述概率分布矩阵进行解码处理,得到所述识别结果集;所述识别结果集中任一个候选文本包含解码得到的至少一个字符。
3.根据权利要求2所述的方法,其特征在于,更新后的所述识别结果集中包含所述道路数据和所述至少一个候选文本;
所述从更新后的所述识别结果集中确定所述目标图像的文本识别结果,包括:
将更新后的所述识别结果集中所述至少一个候选文本和所述道路数据均确定为候选识别结果;
根据所述概率分布矩阵计算每个候选识别结果的后验概率;
将更新后的所述识别结果集中具有最大后验概率的候选识别结果确定为所述文本识别结果。
4.根据权利要求2所述的方法,其特征在于,所述对所述概率识别矩阵进行解码,得到所述识别结果集,包括:
在所述概率分布矩阵中分别提取每个字符位置处具有最大识别概率的字符,作为所述每个字符位置处的解码字符;
根据所述每个字符位置处的解码字符生成所述识别结果集。
5.根据权利要求1所述的方法,其特征在于,所述获取目标图像,包括:
获取行驶对象发送的道路拍摄图像;
识别所述道路拍摄图像中的所述交通指示对象,并从所述道路拍摄图像中获取所述交通指示对象的图像;
从所述交通指示对象的图像中获取所述目标图像。
6.根据权利要求5所述的方法,其特征在于,所述从所述交通指示对象的图像中获取所述目标图像,包括:
调用文本识别网络对所述交通指示对象的图像进行文本检测,并在所述交通指示对象的图像中生成文本检测框;
根据所述文本检测框从所述交通指示对象的图像中提取得到所述目标图像。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取所述行驶对象在拍摄得到所述道路拍摄图像时的定位数据;
根据所述定位数据确定所述交通指示对象所在的所述目标位置。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述目标图像的所述文本识别结果和所述行驶对象的所述定位数据生成道路导航数据;
将所述道路导航数据返回给所述行驶对象,以使所述行驶对象根据所述道路导航数据进行行驶。
9.根据权利要求1所述的方法,其特征在于,所述获取与所述目标位置相关联的道路数据,包括:
获取所述目标位置所在道路的第一道路名;
将与所述目标位置所在道路具有拓扑连接关系的道路确定为拓扑连接道路,并获取所述拓扑连接道路的第二道路名;
将所述第一道路名和第二道路名确定为与所述目标位置相关联的所述道路数据。
10.根据权利要求1所述的方法,其特征在于,所述获取与所述目标位置相关联的道路数据,包括:
根据所述目标位置确定道路搜索区域;
将所述道路搜索区域内的道路的道路名确定为所述道路数据。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述识别结果集中具有最大识别置信度的候选文本,确定为待定识别结果;
若所述待定识别结果的识别置信度大于或等于所述置信度阈值,则将所述待定识别结果确定为所述目标图像的文本识别结果。
12.一种数据处理装置,其特征在于,所述装置包括:
图像获取模块,用于获取目标图像;所述目标图像是对目标位置处的交通指示对象进行拍摄得到;
识别模块,用于对所述目标图像进行文本识别,得到识别结果集;所述识别结果集中包含至少一个候选文本及每个候选文本分别对应的识别置信度;
道路获取模块,用于若所述识别结果集中所有候选文本的识别置信度均小于置信度阈值,则获取与所述目标位置相关联的道路数据;
确定模块,用于根据所述道路数据更新所述识别结果集,并从更新后的所述识别结果集中确定所述目标图像的文本识别结果。
13.一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现权利要求1-11任一项所述方法的步骤。
14.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-11中任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适用于由处理器加载并执行权利要求1-11任一项所述的方法。
CN202111470750.1A 2021-12-03 2021-12-03 数据处理方法、装置、计算机设备和存储介质 Pending CN114120287A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111470750.1A CN114120287A (zh) 2021-12-03 2021-12-03 数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111470750.1A CN114120287A (zh) 2021-12-03 2021-12-03 数据处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN114120287A true CN114120287A (zh) 2022-03-01

Family

ID=80366756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111470750.1A Pending CN114120287A (zh) 2021-12-03 2021-12-03 数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114120287A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627443A (zh) * 2022-03-14 2022-06-14 小米汽车科技有限公司 目标检测方法、装置、存储介质、电子设备及车辆

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627443A (zh) * 2022-03-14 2022-06-14 小米汽车科技有限公司 目标检测方法、装置、存储介质、电子设备及车辆

Similar Documents

Publication Publication Date Title
CN112712069B (zh) 一种判题方法、装置、电子设备及存储介质
CN113780243B (zh) 行人图像识别模型的训练方法、装置、设备以及存储介质
CN109740479A (zh) 一种车辆重识别方法、装置、设备及可读存储介质
CN114596566B (zh) 文本识别方法及相关装置
CN111680753A (zh) 一种数据标注方法、装置、电子设备及存储介质
CN114418021B (zh) 模型优化方法、装置及计算机程序产品
CN114429636B (zh) 图像扫描识别方法、装置及电子设备
CN114219971A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN114120287A (zh) 数据处理方法、装置、计算机设备和存储介质
CN112906648A (zh) 一种地块中对象的分类方法、装置及电子设备
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN114998570B (zh) 一种对象检测框的确定方法、装置、存储介质及电子装置
CN112529116B (zh) 场景元素融合处理方法、装置和设备及计算机存储介质
CN115830618A (zh) 一种文本识别方法、装置、计算机设备及存储介质
CN113313720B (zh) 对象分割方法和装置
CN115512340A (zh) 基于图片的意图检测方法及装置
CN112102398B (zh) 一种定位方法、装置、设备及存储介质
CN114676705A (zh) 一种对话关系处理方法、计算机及可读存储介质
CN116563840B (zh) 基于弱监督跨模态对比学习的场景文本检测与识别方法
CN116612466B (zh) 基于人工智能的内容识别方法、装置、设备及介质
CN116958176B (zh) 图像分割方法、装置、计算机设备及介质
CN117892140B (zh) 视觉问答及其模型训练方法、装置、电子设备、存储介质
CN116385818B (zh) 云检测模型的训练方法、装置及设备
CN116050498A (zh) 网络训练方法、装置、电子设备及存储介质
CN116778568A (zh) 行为识别方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40065991

Country of ref document: HK