CN115205868B - 一种图像校验方法 - Google Patents
一种图像校验方法 Download PDFInfo
- Publication number
- CN115205868B CN115205868B CN202210725472.8A CN202210725472A CN115205868B CN 115205868 B CN115205868 B CN 115205868B CN 202210725472 A CN202210725472 A CN 202210725472A CN 115205868 B CN115205868 B CN 115205868B
- Authority
- CN
- China
- Prior art keywords
- image
- electronic device
- display
- channel
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18105—Extraction of features or characteristics of the image related to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3688—Test management for test execution, e.g. scheduling of test suites
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本申请提供了一种图像校验方法。该方法可应用于手机、笔记本电脑等电子设备上。实施该方法的电子设备可以通过图像结构检测,确定待校验图像是否为OCR不支持的四通道图像。对于利用透明层存储字符信息的四通道图像,上述电子设备可以通过修改字符区域RGB值的方法,将透明层中携带的字符信息映射到RGB层,从而将四通道图像转化为三通道图像,然后继续使用OCR获取待校验图像中的字符和显示格式,判断待校验图像是否显示正确。同时,电子设备还可利用增强图像对比度、进行超分辨率重建的方法,提升待校验图像的画面质量,进而提升OCR识别效果,提升图像校验准确性。
Description
技术领域
本申请涉及终端领域,尤其涉及一种图像校验方法。
背景技术
在当前所使用的UI测试方法中,检验UI界面中的图像(待校验图像)是否正确显示,通常是通过比较上述图像与基准图像(预设的需要显示的图像)的相似度是否满足相似度阈值,来确定是否正确显示。然而,在不同类型的电子设备上,同一基准图像的实际显示尺寸和分辨率通常不同,且一般图像较小。这时,上述基于相似度的校验方法的准确率较低,从而使得校验的可靠性降低。
发明内容
本申请提供了一种图像校验方法。实施该方法,电子设备可以通过字符识别技术提取待校验图像中的字符和字符的显示格式,然后基于上述字符和字符的显示格式确定待校验图像是否是期望显示图像,从而避免像素点通道数量、电子设备的屏幕的色域、图像尺寸、分辨率等方面的差异导致的图像不匹配的问题,提升图像校验可靠性。
第一方面,本申请提供了一种图像校验方法。该方法可应用于第一电子设备。该方法包括:获取第一图像和第一显示要求,第一图像是第二电子设备在指定显示区域显示的图像,第一显示要求为第二电子设备期望在指定显示区域显示的图像的显示要求;利用字符识别技术获取第一图像中的第一显示信息;当第一显示信息符合第一显示要求时,确定第一图像显示正确。
实施第一方面提供的方法,第一电子设备可以获取用于描述期望显示的图像的显示要求。第一电子设备通过字符识别技术,例如OCR提取待校验图像,即第一图像,中的显示信息。当待校验图像中的显示信息与预设的显示要求匹配时,第一电子设备可以待校验图像显示正确。这样,第一电子设备可以避免色域、图像尺寸、分辨率等方面的差异导致的图像不相似的问题,确定待校验图像是否显示正确。
结合第一方面提供的方法,在一些实施例中,第一显示信息包括:图像中的字符和字符的显示格式,字符显示格式包括指示字符对齐方式的基准线、行距、边距、字体中的一个或多个。
实施上述方法,第一电子设备可以通过图像中的字符和字符的显示格式确定待校验图像是否与期望显示的图像匹配,进而确定待校验图像是否显示正确。
结合第一方面提供的方法,在一些实施例中,利用字符识别技术获取第一图像中的第一显示信息,包括:利用字符识别技术获取第一图像的字符和字符行的显示位置;利用显示位置确定基准线。
实施上述方法,第一电子设备可以通过字符识别技术获取第一图像的字符和字符行的显示位置。这样,基于上述字符行的显示位置,第一电子设备可以进一步确定字符的显示格式,例如基准线、行距等。
结合第一方面提供的方法,在一些实施例中,字符行的显示位置通过字符行的左上角角标、左下角角标、右上角角标、右下角角标表示,利用显示位置确定基准线,包括:利用左上角角标、左下角角标、右上角角标、右下角角标确定基准线。
结合第一方面提供的方法,在一些实施例中,该方法还包括:确认第一图像为四通道RGBA类型的图像;将RGBA类型的第一图像转化为对应的三通道RGB类型的图像;利用字符识别技术获取第一图像中的第一显示信息,具体为:利用字符识别技术获取转化后的第一图像中的第一显示信息。
实施上述方法,如果第一电子设备使用的字符识别技术无法识别的RGBA类型的图像,同时待校验图像又刚好是RGBA类型的图像时,第一电子设备可将上述识别的RGBA类型的待校验图像转化对应的RGB图像,然后处理上述RGB图像,获取图像中的显示信息,进而判断上述待校验图像是否是期望显示的图像。
结合第一方面提供的方法,在一些实施例中,将RGBA类型的第一图像转化为对应的三通道RGB类型的图像,包括:根据RGBA类型第一图像中各像素点的A通道的颜色值,确定第一图像中构成字符的像素点集合;修改像素点集合中各像素点的RGB通道的颜色值;修改后的第一图像中RGB三通道构成的图像为第一图像对应的RGB类型的图像。
实施上述方法,第一电子设备可根据RGBA类型的图像中的像素点的A通道颜色值确定待校验图像中的构成字符的像素点集合,即字符区域。然后,第一电子设备可修改字符区域内像素点的RGB通道的颜色值,将A通道层中携带的字符信息映射到RGB层,进而得到对应的RGB图像。
结合第一方面提供的方法,在一些实施例中,A通道的颜色值的取值范围为0至1的浮点数,第一图像中构成字符的像素点的A通道的颜色值为0或1。
结合第一方面提供的方法,在一些实施例中,RGB通道的颜色值的取值范围为0至255的整型数,修改像素点集合中各像素点的RGB通道的颜色值,包括:将像素点集合中各像素点的RGB通道的颜色值修改为0或255。
这样,第一电子设备可以尽可能的得到字符区域与非字符区域对比度较大的RGB图像,进而有利于字符识别技术识别图像中的字符。
结合第一方面提供的方法,在一些实施例中,将像素点集合中各像素点的RGB通道的颜色值修改为0或255,包括:当一个像素点的一个通道的颜色值小于127时,将通道的颜色值修改为255;当一个像素点的一个通道的颜色值大于127时,将通道的颜色值修改为0。
结合第一方面提供的方法,在一些实施例中,在利用字符识别技术获取第一图像中的第一显示信息之前,该方法还包括:利用超分辨率重建模型增加第一图像的分辨率。
实施上述方法,对于分辨率较小的待校验图像,第一电子设备增大其分辨率,从而进一步提升字符识别效果。
结合第一方面提供的方法,在一些实施例中,在利用字符识别技术获取第一图像中的第一显示信息之前,该方法还包括:增强第一图像的对比度。
实施上述方法,第一电子设备可以增强待校验图像的对比度,从而进一步提升字符识别效果。特别对于原本就是RGB类型的待校验图像(未修改过RGB通道的颜色值),该图像中的字符区域与非字符区域的对比度更容易出现较低的情况,从而导致图像中的字符的显示效果较弱,不利于区分并提取字符。这时,增强待校验图像的对比度可以极大地提升字符识别效果。
结合第一方面提供的方法,在一些实施例中,该方法还包括:当第一显示信息不符合第一显示要求时,对第一图像中的字符进行膨胀和/或腐蚀处理;利用字符识别技术获取膨胀和/或腐蚀的第一图像中的第二显示信息;当第二显示信息符合第一显示要求时,确定第一图像显示正确。
实施上述方法,第一电子设备可以通过两次字符识别得到的结果,确定待校验图像是否显示正确,进而进一步提升校验结果的准确性可可靠性。
结合第一方面提供的方法,在一些实施例中,在修改像素点集合中各像素点的RGB通道的颜色值之前,该方法还包括:确定像素点集合之外的像素点的RGB通道的颜色值是否相同;当不相同时,根据第一图像的图像来源确定第一图像处理,执行第一图像处理统一像素点集合之外的像素点的RGB通道的颜色值。
实施上述方法,对于图像结构较为复杂的待校验图像,第一电子设备也能将其转化为仅区分字符区域与非字符区域的RGB图像。
第二方面,本申请提供了一种电子设备,该电子设备包括一个或多个处理器和一个或多个存储器;其中,一个或多个存储器与一个或多个处理器耦合,一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当一个或多个处理器执行计算机指令时,使得电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
第三方面,本申请实施例提供了一种芯片系统,该芯片系统应用于电子设备,该芯片系统包括一个或多个处理器,该处理器用于调用计算机指令以使得该电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
第四方面,本申请提供一种计算机可读存储介质,包括指令,当上述指令在电子设备上运行时,使得上述电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
第五方面,本申请提供一种包含指令的计算机程序产品,当上述计算机程序产品在电子设备上运行时,使得上述电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
可以理解地,上述第二方面提供的电子设备、第三方面提供的芯片系统、第四方面提供的计算机存储介质、第五方面提供的计算机程序产品均用于执行本申请所提供的方法。因此,其所能达到的有益效果可参考对应方法中的有益效果,此处不再赘述。
附图说明
图1是本申请实施例提供的一组相似的基准图像;
图2A是本申请实施例提供的手机上显示通话界面的示意图;
图2B是本申请实施例提供的智能手表上显示通话界面的示意图;
图3是本申请实施例提供的一种图像校验方法的流程图;
图4A是本申请实施例提供的一种将四通道图像转化为三通道图像流程图;
图4B是本申请实施例提供的一种待校验图像的结构示意图;
图4C是本申请实施例提供的将透明层的字符区域映射到RGB层的示意图;
图5A是本申请实施例提供的利用超分辨率重建拓展待校验图像分辨率的示意图;
图5B是本申请实施例提供的通过OCR输出的字符位置确定字符基准线的示意图;
图6是本申请实施例提供的对待校验图像进行膨胀/腐蚀处理的示意图;
图7是本申请实施例提供的另一种将四通道图像转化为三通道图像的流程图;
图8A-图8B是本申请实施例提供的一组RGB层像素点颜色值不统一的待校验图像;
图9是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
本申请以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。
基准图像是指期望在目标电子设备(记为电子设备100)中显示的图像。待校验图像是指电子设备100实际显示出来的图像。基准图像库中通常会包括一组或多组相似的基准图像。一组相似的基准图像中的一个图像,通常对应于一个大场景下的多个细化场景中的一个细化场景。电子设备100需要根据具体的细化场景确定当前应该显示的基准图像。这时,出于各种外部因素的影响,电子设备100容易发生误显示的问题,即显示的图像(待校验图像)与期望显示的基准图像不匹配。
例如,图1示例性示出了基准图像库中一组相似的基准图像。这组相似的基准图像是通话场景中电子设备100需要显示的图像。其中,基准图像(a)包括字符“Voz4G”。在“Voz4G”通话场景下,电子设备100应当显示基准图像(a)。在基准图像(a)中,“Voz4G”采用的是左对齐的显示格式(基准线为Y1,也可称为左对齐基准线)。在另一些场景中,针对不同运营商的定制需求,在“Voz4G”通话场景下,电子设备100也可能需要显示居中对齐(基准线Y2,也可称为居中对齐基准线)的基准图像(b)。此外,在“HD”通话场景下,电子设备100应当显示基准图像(c);在“VoLTE”通话场景下,电子设备100应当显示基准图像(d)。当然,基准图像库还可能包括其他的适用于其他通话场景和/或符合其他运营商定制需求的基准图像,它们还可使用其他的基准线,这里不再一一例举。
然而,出于各种外部因素的影响,电子设备100可能在需要显示基准图像(a)时显示了基准图像(b),甚至基准图像(c),从而引发误显示。上述实际显示的基准图像(b)或者(c)即待校验图像。图像校验的目的就是发现上述误显示的问题,并及时调整。
在一些实施例中,电子设备200可以获取电子设备100当前实际显示的图像(待校验图像),计算上述待校验图像与期望显示的基准图像的相似度,然后通过相似度是否满足相似度阈值判断电子设备100是否显示正确,即没有发生误显示。
电子设备200与电子设备100可以为相同的电子设备,也可以为不同的电子设备。例如,被检测的电子设备100可以为手机,同时该手机上可预置上述图像校验方法对应的程序代码。这时,上述手机同样可以作为执行检测动作的电子设备200。或者,被检测的电子设备100可以为手机,执行检测动作的电子设备200可以为安装有上述图像校验方法对应的程序代码的笔记本电脑。这时,上述笔记本电脑可以检测上述手机上的UI界面是否显示正确。
不限于手机,电子设备100(或电子设备200)还可以是平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,PDA)、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备,本申请实施例对该电子设备的具体类型不作特殊限制。其中,优选的,电子设备200为手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑等高集成度终端设备。
然而,由于电子设备100的设备类型的差异以及所使用的硬件模块(例如显示器)的不同,不同的电子设备100显示同一基准图像的实际显示效果也不同。上述显示效果包括颜色、尺寸、分辨率等方面的效果。
例如,图2A示例性示出了手机显示通话界面的示意图。图2A中包括控件201。控件201指示了当前使用的通话服务的类型,例如“Voz4G”。图2B示例性示出了智能手表显示通话界面的示意图。图2B中包括控件202。控件202同样也指示当前使用的“Voz4G”的通话服务。如图2A和图2B所示,由于手机与智能手表显示屏尺寸的差异,相应地,手机与智能手表上显示的控件的尺寸也不相同。手机上显示的控件201往往大于智能手表上显示的控件202。尺寸的限制同时也使得智能手表上显示的控件202的分辨率小于手机上显示的控件201。
在一些示例中,手机和智能手表的色域不同。其中,智能手表的色域范围可能相比手机的色域范围低。因此,在色彩显示上,智能手表可能不支持显示一些颜色。这时图2A中的控件201与图2B中的控件202的颜色还存在一定的差异。
基于上述颜色、尺寸、分辨率等方面的区别,即便电子设备100没有发生误显示,电子设备100上实际显示的待校验图像与期望显示的基准图像的相似性也存在较大差异。因此,通过比较待校验图像与期望显示的基准图像的相似度来确定上述待校验图像与上述基准图像是否一致的方法的成功率较低,从而降低图像校验结果的可靠性。
为了提升图像校验结果的可靠性,本申请实施例提供了一种图像校验方法:利用字符识别技术对电子设备100显示的待校验图像进行字符提取,确定待校验图像中的字符和字符的显示格式。然后通过对比上述字符和显示格式与期望显示的基准图像中的字符和显示格式,电子设备200可以确定电子设备100是否发生误显示。
可选的,上述字符识别技术可以为光学字符识别(optical characterrecognition,OCR)。当然,不限于OCR,上述字符识别技术还可以是基于人工神经网络(CNN)等建立的字符识别模型。本申请实施例对此不作限定。
其中,受到手机等电子设备中图像显示特性(RGBA四通道图像)的限制,大多数的字符识别技术无法对控件上的图像(待校验图像)进行字符识别。因此,在本申请提供的图像校验方法中,在使用字符识别技术提取字符之前,电子设备200可对待校验图像进行结构检测,即识别待校验图像是否包括透明层(A通道构成的图层),并通过透明层初步确定待校验图像中的字符区域,进而将RGBA四通道图像转化为RGB三通道图像,以使得上述字符识别技术可以识别待校验图像中的字符。
此外,由于控件上的图像的尺寸和清晰度的显示,大多数的字符识别技术的识别准确度也较低。为了避免待校验图像过小,分辨率过低,影响字符识别技术识别结果,在本申请提供的图像校验方法中,在使用字符识别技术提取字符之前,电子设备200还可对待校验图像进行超分辨率重建,以增大待校验图像,提升字符识别技术的识别准确率。
本申请实施例具体以OCR为例介绍本申请实施例提供的一种图像校验方法。图3示例性示出了电子设备200实施本申请提供的图像校验方法的流程图。
S301:确定待校验图像和待校验图像对应的显示要求。
显示要求是一组描述电子设备100期望显示的基准图像的字符和显示格式的数据集合。其中,显示格式包括但不限于基准线。可选的,在其他实施例中,上述显示要求还可包括字体、行距、边距(上边距、下边距、左边距、右边距中的一个或多个)等,这里不再一一例举。通过比较检测待校验图像的字符和显示格式(基准线)是否满足上述显示要求,电子设备200可确定待校验图像是否显示正确,即是否发生误显示。
示例性的,当电子设备200期望显示的基准图像为图1中基准图像(b)时,电子设备200可确定基准图像(b)对应的显示要求为:字符“Voz4G”;基准线:Y2。当电子设备100出现误显示时:期望显示图1中基准图像(b),而实际显示了基准图像(a),待校验图像的内容和格式(“Voz4G”、Y1)就不符合基准图像(b)的显示要求(“Voz4G”、Y2)。这时,电子设备200可确认待校验图像显示错误(误显示),进而,电子设备200可以报错,以提醒开发人员纠正上述错误。
电子设备200可以通过图像抓取工具从待校验的电子设备100上获取待校验图像。上述图像抓取工具例如安卓系统提供的UiAutomator。一个待校验图像对应UI界面上一个控件,例如图2A中的控件201。一个控件是一个viewnode节点对象,且各个控件有唯一指示该控件身份的标识(ID)。UiAutomator可确定UI界面上的viewnode,并依据控件标识对指定控件的viewnode节点的图像进行截取,从而获取待校验图像。
电子设备200可从预设的表格中,获取对应的显示要求。例如,电子设备200上预设有表1。表1记录了不同通话场景(不同运营商)下viewnode节点对象的显示要求。
表1
运营商标识 | 显示要求 |
A | “Voz4G”、Y2 |
B | “HD”、Y2 |
…… | …… |
电子设备200在获取到待校验图像之后,可根据电子设备100的运营商标识,确定该运营商定制的显示要求,即确定期望显示的基准图像的类型。上述运营商标识例如公众陆地移动网(Public Land Mobile Network,PLMN)。例如,在确认电子设备100的运营商标识为A之后,电子设备200可根据表1中的对应关系,确定运营商A的显示要求:“Voz4G”、Y2,即期望显示图1中的基准图像(b)。
可以理解的,在其他的测试场景中,相似的一组基准图像的细化适用场景的区分也可能在于电子设备100的类型,或操作系统的版本等。这时,表1可相应地记录上述电子设备类型、操作系统版本与显示要求的对应关系。电子设备200可根据电子设备类型、操作系统版本确定待校验图像的显示要求。
S302:确认待校验图像是否为三通道图像。
在获取到待校验图像和显示要求之后,首先,电子设备200可确定待校验图像是四通道图像或三通道图像。四通道图像是指通过RGBA四通道控制像素点颜色值的图像。三通道图像即通过RGB三通道控制像素点颜色值的图像。
OCR支持处理的图像为三通道图像。当待校验图像通常为四通道图像时,OCR则会因为不支持读取四通道图像,导致四通道的待校验图像发生内容丢失,进而影响OCR进行字符识别与提取。
因此,为了避免上述问题,在本申请实施例中,在获取到待校验图像和基准图像之后,电子设备200可首先对待校验图像进行结构性检测,识别待校验图像是否包括透明层(A通道层)。当待校验图像包括透明层时,电子设备200可确定上述待校验图像为四通道图像;反之,电子设备200可确定上述待校验图像为三通道图像。
具体的,电子设备200在获取到待校验图像之后,电子设备200即可获取该待校验图像的各个像素点的各通道值,例如R通道值、G通道值、B通道值。当读取到A通道值时,电子设备200可确定待校验图像包括A通道层,即透明层。这时,电子设备200可确定待校验图像为四通道图像。
四通道图像不是OCR支持处理的图像。这时,电子设备200需要将上述四通道图像转化为三通道图像,然后才能继续使用OCR进行字符提取。三通道图像是OCR支持处理的图像。这时,电子设备200可以直接将上述待校验图像输入OCR模型,使用OCR进行字符提取。
S303:将四通道图像转化为三通道图像。
当确定待校验图像为四通道图像时,电子设备200需要将上述四通道图像转化为三通道图像,以便于后续可以使用OCR识别并提取图像中的字符。
图4A示例性示出了电子设备200将四通道图像转化为三通道图像流程图。如图4A所示,首先,S401:电子设备200可首先通过透明层的颜色值确定待校验图像中构成字符的像素点集合,即确定带校验图像中的字符区域。然后,S402:电子设备200可变更上述字符区域中各个像素点的RGB值,这样,电子设备200可将透明层的字符区域映射到了RGB层,从而实现将四通道图像携带的字符信息保留到三通道图像中。这时,四通道图像即转化为三通道图像。
在一些实施例中,待校验图像中的字符是通过透明层部分像素点透明来实现的。图4B示例性示出了通过透明层部分像素点透明来显示字符的待校验图像的结构示意图。下面结合图4B具体介绍电子200将四通道图像转化为三通道图像的具体过程。
如图4B所示,待校验图像X为一个四通道图像(RGBA)。该四通道的待校验图像X可视为一个RGB三通道数据全部一致的图像(L1)和一个A通道部分透明的图像(L2)。其中,L2中像素点的A通道值为0可表示全透明,A通道值为1可表示不透明,A通道值为0~1之间的浮点数可表示半透明。L1和L2的组合构成了上述待校验图像。
如图4B中L2所示,组成区域41(“Voz4G”)的像素点的A通道值可以为0,区域41之外的像素点(区域42)的A通道值可以为0.5。这样,将L1和L2叠加起来,便可得到待校验图像X。A通道值为0(全透明)的像素点对应的颜色值即RGB三通道对应的颜色值,例如黑色。A通道值不为0(不透明或半透明)的像素点对应的颜色值为RGBA对应的颜色值,例如在黑色的基础上进行半透明处理得到的灰色。
电子设备200可以通过透明层中各像素点的A通道值,确定待校验图像中的字符区域。例如,电子设备200可以确认A=0的像素点所构成的区域41为字符区域,区域41之外的区域(区域42)为非字符区域。
在定位字符区域之后,电子设备200可修改上述字符区域对应的像素点的RGB值,从而将透明层的字符区域映射到了RGB层。
图4C示例性示出了将透明层的字符区域映射到了RGB层的示意图。待校验图像X上字符区域的像素点的颜色值可以为(255,255,255,0);非字符区域的像素点的颜色值可以为(255,255,255,0.5)。
以待校验图像X上字符区域的一个像素点P1为例,该像素点的颜色值可以为P1=(255,255,255,0)。其中,前三个数值分别对应R值、G值、B值;最后一个数值对应A值。因此,如图4C所示,像素点P1在RGB层所表现出来的颜色为黑色。然后,因为像素点P1的A=0(透明)。因此,像素点P1最后所表现出来的颜色仍然为黑色。
以待校验图像X上非字符区域的一个像素点P2为例,该像素点的颜色值可以为P2=(255,255,255,0.5)。如图4C所示,像素点P1在RGB层所表现出来的颜色为黑色。然后,因为像素点P1的A=0.5(半透明)。因此,像素点P1最后所表现出来的颜色为灰色。
在四通道图像中,RGB层的颜色值通常是一致的。因此,只支持处理三通道的OCR在读取四通道图像时,只会读取四通道图像的RGB层数据,于是丢失图像中的字符信息。鉴于此,在本申请实施例中,在通过透明层的颜色值定位字符区域之后,电子设备200可修改组成上述字符区域的像素点的RGB值,使得待校验图像X的RGB层不是统一的颜色值,从而保存字符信息。
具体的,在确定像素点P1在字符区域41内之后,电子设备200可以修改像素点P1的RGB值,使修改后的像素点P1的RGB值不同于修改前的RGB值。
优选的,电子设备200可以将P1的RGB值修改为原RGB值的最大差异值。具体的,一个通道的取值范围为0~255。当一个通道的颜色值小于等于127时,电子设备200可以将该通道的颜色值修改为255。此时,颜色值255可称为小于等于127的颜色值的最大差异值。当一个通道的颜色值大于127时,电子设备200可以将该通道的颜色值修改为0。这时,颜色值0可称为大于127的颜色值的最大差异值。
可选的,电子设备200还可依据其他的预设规则修改字符区域41内像素点的RGB值,使其与非字符区域内像素点的RGB值区分开来,即可,这里不再一一例举。
因此,在本申请实施例中,P1的RGB值可被修改为(0,0,0)。非字符区域42的像素点(例如P2)的RGB值不会被修改,因此,他们的RGB值仍然为(255,255,255)。
这时,待校验图像的RGB层的颜色值就不是完全一致的了:字符区域(0,0,0),非字符区域(255,255,255)。修改后的RGB层即保存了原来透明层携带的字符信息。修改后的RGB层(L1)即四通道待校验图像X对应的三通道待校验图像。这时,在OCR读取四通道图像时,即便OCR只读取RGB通道上的颜色值,也不会丢失原待校验图像的字符信息。
在另一些实施例中,待校验图像中的字符是通过A通道层(A=1)不透明来实现的。这时,电子设备200可通过确定透明层A=1的像素点所构成的图像区域为字符区域。然后,同样的,电子设备200可以修改A=1的像素点的RGB值,从而将四通道图像转为三通道图像。
S304:增强待校验图像的对比度。
可选的,电子设备200可对待校验图像进行增强对比度的处理,以凸显图像中的字符信息,进一步提升OCR的识别效果。
其中,若初始的待校验图像为四通道图像,则电子设备200可在上述四通道图像转化为三通道图像之后,对转化后的三通道图像进行增强对比度的处理(S303、S304);若初始的待校验图像为三通道图像,则电子设备200可直接对上述三通道图像进行增强对比度的处理(S302、S304)。特别的,当初始的待校验图像为三通道图像时,该图像中的字符区域与非字符区域的对比度更容易出现较低的情况,从而导致图像中的字符的显示效果较弱,不利于区分并提取字符。这时,提升图像对比度可以增强字符的显示效果,进而提升字符提取的准确度。
具体的,电子设备200中可预设有最低对比度。当待校验图像的对比度小于上述最低对比度时,电子设备200可进一步修改待校验图像的RGB值,以提升待校验图像的对比度,从而提升OCR的识别效果。
例如,在一些实施例中,待校验图像的非字符区域的RGB颜色值可能为(80,50,200),字符区域可以为(80,50,255)。上述非字符区域与字符区域的RGB颜色值十分接近(对比度低于最低对比度),OCR可能将其识别为渐变的背景效果,从而影响字符提取。这时,电子设备可以依据最低对比度修改上述待校验图像的字符区域的RGB颜色值,和/或非字符区域的RGB颜色值,增强上述图像的对比度,使其满足最低对比度的要求,从而提升OCR识别效果。例如,电子设备200可将上述非字符区域的RGB颜色值修改为(80,50,0)。
这样,通过增强对比度,图像中的字符区域与非字符区域的区分更加明显,更利于OCR提取图像中的字符。
S305:对三通道待校验图像进行超分辨率重建。
参考图2A-图2B的介绍,本申请实施例中的待校验图像往往是UI界面中某一图标、按钮等控件所述使用的图像,因此,他们的尺寸和分辨率都是较小的,会影响OCR的识别效果。因此,在利用OCR对三通道的待校验图像进行字符识别之前,电子设备200可先使用超分辨率重建的方法处理较小的待校验图像,增大其尺寸和分辨率,以提升OCR的识别准确率。
具体的,电子设备200可将上述待校验图像输入超分辨率重建模型,同时,电子设备200可设定输出的待校验图像的分辨率(预设分辨率)。在接收到待校验图像之后,超分辨率重建模型可首先按照上述预设分辨率对待校验图像进行放大。这时,放大后的图像中还遗留有大量空白的像素点。然后,超分辨率重建模型可对上述空白像素点进行填补。可选的,超分辨率重建模型可使用最近邻插值法、双线性插值法(bilinear),双三次差值法(bicubic)等差值算法,对空白像素点进行填补。这样,超分辨率重建模型可得到尺寸更大的分辨率更高的待校验图像。
例如,参考图5A,假设待校验图像的分辨率为64*64。电子设备200在将上述待校验图像输入超分辨率重建模型时,可以设定输出的图像的分辨率,例如128*128。在经过放大填补之后,超分辨率重建模型可得到128*128的待校验图像。增大分辨率的128*128的待校验图像有利于提升OCR识别准确率。
可选的,电子设备200也可先进行超分辨率重建,然后再增强待校验图像的对比度。
S306:利用OCR确定待校验图像中的字符和字符所在的位置。
在完成超分辨率重建之后,电子设备200可将提升分辨率之后的待校验图像输入OCR模型中。经过OCR模型的处理,电子设备200可确定待校验图像中的字符以及字符所在的位置。基于字符所在的位置,电子设备200可以确定字符的显示格式。
其中,OCR模型是按字符行输出的该字符行的位置。一个字符行的位置是通过4个角标表示的。这4个角标分别为:左上角角标、左下角角标、右上角角标、右下角角标。比较两行字符的角标,电子设备200可确定待校验图像中字符的基准线。
如图5B所示,首先,OCR可以确定图像中的两个字符行:“Voz”和“4G”,并输出各字符行的角标:“Voz”的角标P1、P2、P3、P4;“4G”的角标P5、P6、P7、P8。进一步的,通过左上角角标、右上角角标(或左下角角标、右下角角标),电子设备200可确定各字符行的中点,例如“Voz”的中点C1、“4G”的中点C2。
然后,电子设备200可基于上述角标和中点确定“Voz”和“4G”的基准线。具体的,电子设备200可计算两字符行左上角角标之间的水平距离、右上角角标之间的水平距离、以及中点之间的水平距离。水平距离最近的角标或中点对应的基准线即待校验图像中字符的基准线。
例如,电子设备200根据P1、P5可确定“Voz”和“4G”的左上角角标之间的水平距离X1,根据P3、P7可确定“Voz”和“4G”的右上角角标之间的水平距离X2、根据C1、C2可确定“Voz”和“4G”的中点之间的水平距离X3。此时,由于水平距离X3的距离最小,电子设备200可确定C1、C2对应的基准线(居中对齐基准线)为待校验图像中“Voz4G”的基准线。当X3=0时,C1、C2构成的垂线即C1、C2对应的基准线。当X3≠0时,优选的,C1、C2的中点所在的垂线可称为C1、C2对应的基准线。当X1的距离最小时,电子设备200可确定P1所在的基准线(左对齐基准线)为待校验图像中“Voz4G”的基准线。当X2的距离最小时,电子设备200可确定P3所在的基准线(右对齐基准线)为待校验图像中“Voz4G”的基准线。
同理,根据上述角标和中点,电子设备200还可确定字符行之间的行距、边距等显示格式,这里不在一一介绍。在一些示例中,电子设备200可以通过预设的字体识别技术确定待校验图像中所使用的字体类型。在一些示例中,电子设备200所使用的字符识别技术可同时识别字符和字符的字体类型,这时,电子设备200可以无需单独使用另外的字体识别技术确定待校验图像中所使用的字体类型。
结合图4B-图4C所示的待校验图像X,经过OCR处理,电子设备200可确定待校验图像X中的字符“Voz4G”,以及“Voz4G”的居中对齐基准线:Y2。
S307:对比待校验图像与对应的显示要求,确认是否匹配。
在确定待校验图像的字符和显示格式之后,电子设备200可对比确定上述待校验图像的字符、显示格式与确定的显示要求是否一致。例如,在确定待校验图像X中的字符为“Voz4G”,基准线为Y2之后,电子设备200可将上述字符、基准线与S301中确定显示要求(“Voz4G”、Y2)比较。
当待校验图像的字符、显示格式与显示要求一致时,电子设备200可确定待校验图像显示正确。反之,当待校验图像的字符、显示格式与显示要求不一致时,电子设备200可确定待校验图像显示错误,即发生误显示。这时,电子设备200可向检测人员输出误显示提示,从而提醒检测人员更换正确的图像。
S308:对待校验图像进行膨胀和/或腐蚀处理。
进一步的,为了避免单个模型的偏差对结果的影响,当待校验图像的字符、显示格式与显示要求不一致时,电子设备200还可对待校验图像进行膨胀和腐蚀处理,然后再次利用OCR确定待校验图像中的字符和字符的显示格式。如果待校验图像的字符、显示格式仍然与显示要求不一致,则电子设备200才确定待校验图像显示错误;反之,如果一致,则电子设备200可确定待校验图像显示正确。
对图像进行膨胀处理是指在图像的边缘添加像素值,使得整体的像素值扩张,进而达到图像的膨胀效果。如图6所示,电子设备200可对待校验图像X中的字符进行膨胀处理,得到字符更加显著的待校验图像。腐蚀处理可视为膨胀处理的逆处理。从视觉感受上看,经过膨胀处理后的字符更加饱满,反之,经过腐蚀处理的字符更加纤细。
图6所示的膨胀和腐蚀处理均是针对图像中的字符进行的。当然,电子设备200还可对非字符区域的像素点进行膨胀和/或腐蚀处理。这时,当对非字符区域的像素点进行膨胀处理时,处理后的图像中的字符反而更加纤细;当对非字符区域的像素点进行腐蚀处理时,处理后的图像中的字符更加饱满。
实施图3所示的方法,电子设备200可以通过图像结构检测,确定待校验图像是否为OCR支持的三通道图像。当待校验图像为三通道图像时,电子设备200可以直接使用OCR获取待校验图像中的字符及字符的显示格式,然后判断待校验图像是否显示正确。当待校验图像为四通道图像时,电子设备200可以通过修改字符区域RGB值的方法,将透明层中携带的字符信息映射到RGB层,从而将四通道图像转化为三通道图像,然后继续使用OCR获取待校验图像中的字符和显示格式,判断待校验图像是否显示正确。
其中,为了避免待校验图像分辨率较小降低OCR识别准确率,电子设备200还可以在使用OCR获取待校验图像中的字符和显示格式之前,对待校验图像进行超分辨率重建,以增大待校验图像分辨率,提升OCR识别准确率,进而提升校验结果的可靠性。
在一些实施例中,电子设备200获取到的待校验图像往往不是纯色背景与字符的组合。这时,电子设备200需要经过更复杂的处理才能将四通道图像转化为三通道图像。
图7示例性示出了另一种将四通道图像转化为三通道图像的流程图。
首先,S701:电子设备200可根据透明层中各像素点的颜色值(A值),确定待校验图像的字符区域和非字符区域,具体参考S401的介绍,这里不再赘述。
然后,S702:电子设备200可检测非字符区域中像素点的颜色值是否统一。如图8A所示,在一些待校验图像中,图像中的字符是描边字符。这时,RGB层的像素点的颜色值不是一致的:描边字符的边缘像素点的颜色值和其他像素点的颜色值不相同。如图8B所示,在另一些待校验图像中,图像中的背景还可能是渐变颜色的或其他多个颜色构成,这时,RGB层的像素点的颜色值也不是一致的。
当非字符区域中像素点的颜色值是统一的时,S703:电子设备200可根据非字符区域中像素点的颜色值修改字符区域中的像素点的RGB颜色值,使之转化为三通道的待校验图像,具体参考S402的介绍,这里也不再赘述。
当非字符区域中像素点的颜色值不是统一的时,S704:电子设备200可确定用于统一非字符区域中像素点颜色值的特殊处理,并实施上述特殊处理,统一非字符区域中像素点颜色值。
具体的,电子设备200可设置有表2。表2可用于记录待校验图像的来源与特殊处理的对应关系,以便于电子设备200可根据待校验图像的来源确定对应的特殊处理。
表2
图像来源 | 特殊处理 |
通话界面控件X | 描边屏蔽 |
主界面控件Y | 渐变背景屏蔽 |
主界面控件Z | 多余图形裁除 |
…… | …… |
UiAutomator在抓取待校验图像时,可以记录该待校验图像的获取位置,即该待检验图像的图像来源。在确定非字符区域中像素点的颜色值不统一时,电子设备200可确定该待校验图像的图像来源,然后根据表2所示的对应关系,确定对应的特殊处理。
例如,当确定待校验图像的图像来源为“通话界面控件X”时,电子设备200可确定对该待校验图像进行“描边屏蔽”处理,以统一RGB层非字符区域的颜色值。例如,电子设备200可确定RGB层中的描边区域,并将上述描边区域内的像素点的RGB通道的颜色值与其他像素点统一。然后,电子设备200再根据透明层将字符区域内像素点的RGB值修改为(0,0,0)的最大差异值(255,255,255)。这样,电子设备200也可以得到仅区分字符区域与非字符区域的三通道图像。
经过特殊处理,对于图像结构较为复杂的待校验图像,电子设备200也能将其转化为仅区分字符区域与非字符区域的三通道图像,提升OCR提取的准确率。
在本申请实施例中:
电子设备200可称为第一电子设备,电子设备100可称为第二电子设备;
在S301中,电子设备200获取的待校验图像,例如图4B所示的待校验图像X,可称为第一图像;电子设备200获取的显示要求,例如(“Voz4G”、Y2),可称为第一显示要求;
如图2A,控件201对应的显示区域可称为指定显示区域;
在S306中,电子设备200从待校验图像X中提出的字符及字符的显示格式,例如“Voz4G”、Y2,可称为第一显示信息;在S308中,在经过膨胀和/或腐蚀处理之后,从待校验图像X中提出的字符及字符的显示格式,可称为第二显示信息;
如表2所示的,用于统一非字符区域的RGB层颜色值的处理,例如描边屏蔽、渐变背景屏蔽、多余图形裁除等可称为第一图像处理。
图9示出了电子设备的硬件结构示意图。上述电子设备包括电子设备100和电子设备200。特别的,当执行校验的电子设备200与被校验的电子设备100为同一电子设备时,电子设备200即电子设备100。
电子设备可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备的具体限定。在本申请另一些实施例中,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备的结构限定。在本申请另一些实施例中,电子设备也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。
电子设备的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(globalnavigation satellite system,GLONASS),北斗卫星导航系统(beidou navigationsatellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
在本申请实施例中,当执行校验的电子设备200与被校验的电子设备100为不同的电子设备时,电子设备200与电子设备100之间可建立有无线通信连接。电子设备200可基于上述无线通信连接从电子设备100上获取待校验图像。
电子设备通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD)。显示面板还可以采用有机发光二极管(organic light-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode,AMOLED),柔性发光二极管(flex light-emitting diode,FLED),miniled,microled,micro-oled,量子点发光二极管(quantum dot light emitting diodes,QLED)等制造。在一些实施例中,电子设备可以包括1个或N个显示屏194,N为大于1的正整数。
在本申请实施例中,电子设备100可通过GPU,显示屏194,以及应用处理器提供的显示功能显示待校验图像。电子设备200可通过GPU提供的图形渲染能力对待校验图像进行处理,从而确定待校验图像是否显示正确。此外,电子设备200可以通过GPU,显示屏194,以及应用处理器提供的显示功能输出校验结果。
电子设备可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备可以支持一种或多种视频编解码器。这样,电子设备可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
内部存储器121可以包括一个或多个随机存取存储器(random access memory,RAM)和一个或多个非易失性存储器(non-volatile memory,NVM)。
随机存取存储器可以包括静态随机存储器(static random-access memory,SRAM)、动态随机存储器(dynamic random access memory,DRAM)、同步动态随机存储器(synchronous dynamic random access memory,SDRAM)、双倍资料率同步动态随机存取存储器(double data rate synchronous dynamic random access memory,DDR SDRAM,例如第五代DDR SDRAM一般称为DDR5 SDRAM)等。非易失性存储器可以包括磁盘存储器件、快闪存储器(flash memory)。
快闪存储器按照运作原理划分可以包括NOR FLASH、NAND FLASH、3D NAND FLASH等,按照存储单元电位阶数划分可以包括单阶存储单元(single-level cell,SLC)、多阶存储单元(multi-level cell,MLC)、三阶储存单元(triple-level cell,TLC)、四阶储存单元(quad-level cell,QLC)等,按照存储规范划分可以包括通用闪存存储(英文:universalflash storage,UFS)、嵌入式多媒体存储卡(embedded multi media Card,eMMC)等。
随机存取存储器可以由处理器110直接进行读写,可以用于存储操作系统或其他正在运行中的程序的可执行程序(例如机器指令),还可以用于存储用户及应用程序的数据等。非易失性存储器也可以存储可执行程序和存储用户及应用程序的数据等,可以提前加载到随机存取存储器中,用于处理器110直接进行读写。
在本申请实施例中,电子设备200的非易失性存储器中可存储本申请提供的图像校验方法的可执行代码。在实施上述图像校验方法时,电子设备200可将上述非易失性存储器中存储的可执行代码加载到随机存取存储器。
外部存储器接口120可以用于连接外部的非易失性存储器,实现扩展电子设备的存储能力。外部的非易失性存储器通过外部存储器接口120与处理器110通信,实现数据存储功能。
电子设备可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。耳机接口170D用于连接有线耳机。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。陀螺仪传感器180B可以用于确定电子设备的运动姿态。气压传感器180C用于测量气压。加速度传感器180E可检测电子设备在各个方向上(一般为三轴)加速度的大小。磁传感器180D包括霍尔传感器。电子设备可以利用磁传感器180D检测翻盖皮套的开合。距离传感器180F,用于测量距离。电子设备可以通过红外或激光测量距离。接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。电子设备使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备附近有物体。当检测到不充分的反射光时,电子设备可以确定电子设备附近没有物体。环境光传感器180L用于感知环境光亮度。电子设备可以根据感知的环境光亮度自适应调节显示屏194亮度。指纹传感器180H用于采集指纹。电子设备可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。温度传感器180J用于检测温度。
触摸传感器180K,也称“触控器件”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备可以接收按键输入,产生与电子设备的用户设置以及功能控制有关的键信号输入。马达191可以产生振动提示。指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备的接触和分离。
本申请的说明书和权利要求书及附图中的术语“用户界面(user interface,UI)”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。应用程序的用户界面是通过java、可扩展标记语言(extensible markup language,XML)等特定计算机语言编写的源代码,界面源代码在终端设备上经过解析,渲染,最终呈现为用户可以识别的内容,比如图片、文字、按钮等控件。控件(control)也称为部件(widget),是用户界面的基本元素,典型的控件有工具栏(toolbar)、菜单栏(menu bar)、文本框(text box)、按钮(button)、滚动条(scrollbar)、图片和文本。界面中的控件的属性和内容是通过标签或者节点来定义的,比如XML通过<Textview>、<ImgView>、<VideoView>等节点来规定界面所包含的控件。一个节点对应界面中一个控件或属性,节点经过解析和渲染之后呈现为用户可视的内容。此外,很多应用程序,比如混合应用(hybrid application)的界面中通常还包含有网页。网页,也称为页面,可以理解为内嵌在应用程序界面中的一个特殊的控件,网页是通过特定计算机语言编写的源代码,例如超文本标记语言(hyper text markup language,GTML),层叠样式表(cascading style sheets,CSS),java脚本(JavaScript,JS)等,网页源代码可以由浏览器或与浏览器功能类似的网页显示组件加载和显示为用户可识别的内容。网页所包含的具体内容也是通过网页源代码中的标签或者节点来定义的,比如GTML通过<p>、<img>、<video>、<canvas>来定义网页的元素和属性。
用户界面常用的表现形式是图形用户界面(graphic user interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。还应当理解,本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。上述实施例中所用,根据上下文,术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地,根据上下文,短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
Claims (14)
1.一种图像校验方法,应用于第一电子设备,其特征在于,所述方法包括:
获取第一图像和第一显示要求,所述第一图像是第二电子设备在指定显示区域显示的图像,所述第一显示要求为所述第二电子设备期望在所述指定显示区域显示的图像的显示要求;
确认所述第一图像为四通道RGBA类型的图像;将RGBA类型的所述第一图像转化为对应的三通道RGB类型的图像;
利用字符识别技术获取所述转化后的所述第一图像中的第一显示信息;
当所述第一显示信息符合所述第一显示要求时,确定所述第一图像显示正确。
2.根据权利要求1所述的方法,其特征在于,所述第一显示信息包括:图像中的字符和字符的显示格式,字符显示格式包括指示字符对齐方式的基准线、行距、边距、字体中的一个或多个。
3.根据权利要求2所述的方法,其特征在于,所述利用字符识别技术获取所述第一图像中的第一显示信息,包括:
利用字符识别技术获取所述第一图像的字符和字符行的显示位置;
利用所述显示位置确定所述基准线。
4.根据权利要求3所述的方法,其特征在于,字符行的显示位置通过所述字符行的左上角角标、左下角角标、右上角角标、右下角角标表示,所述利用所述显示位置确定所述基准线,包括:利用所述左上角角标、左下角角标、右上角角标、右下角角标确定所述基准线。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述将RGBA类型的所述第一图像转化为对应的三通道RGB类型的图像,包括:
根据RGBA类型所述第一图像中各像素点的A通道的颜色值,确定所述第一图像中构成字符的像素点集合;修改所述像素点集合中各像素点的RGB通道的颜色值;
修改后的第一图像中RGB三通道构成的图像为所述第一图像对应的RGB类型的图像。
6.根据权利要求5所述的方法,其特征在于,A通道的颜色值的取值范围为0至1的浮点数,所述第一图像中构成字符的像素点的A通道的颜色值为0或1。
7.根据权利要求5所述的方法,其特征在于,RGB通道的颜色值的取值范围为0至255的整型数,所述修改所述像素点集合中各像素点的RGB通道的颜色值,包括:将所述像素点集合中各像素点的RGB通道的颜色值修改为0或255。
8.根据权利要求7所述的方法,其特征在于,所述将所述像素点集合中各像素点的RGB通道的颜色值修改为0或255,包括:
当一个像素点的一个通道的颜色值小于127时,将所述通道的颜色值修改为255;
当一个像素点的一个通道的颜色值大于127时,将所述通道的颜色值修改为0。
9.根据权利要求1-4中任一项所述的方法,其特征在于,在利用字符识别技术获取所述第一图像中的第一显示信息之前,所述方法还包括:
利用超分辨率重建模型增加所述第一图像的分辨率。
10.根据权利要求1-4中任一项所述的方法,其特征在于,在利用字符识别技术获取所述第一图像中的第一显示信息之前,所述方法还包括:增强所述第一图像的对比度。
11.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
当所述第一显示信息不符合所述第一显示要求时,对所述第一图像中的字符进行膨胀和/或腐蚀处理;
利用字符识别技术获取所述膨胀和/或腐蚀的第一图像中的第二显示信息;
当所述第二显示信息符合所述第一显示要求时,确定所述第一图像显示正确。
12.根据权利要求5所述的方法,其特征在于,在修改所述像素点集合中各像素点的RGB通道的颜色值之前,所述方法还包括:
确定所述像素点集合之外的像素点的RGB通道的颜色值是否相同;
当不相同时,根据所述第一图像的图像来源确定第一图像处理,执行所述第一图像处理统一所述像素点集合之外的像素点的RGB通道的颜色值。
13.一种电子设备,其特征在于,包括一个或多个处理器和一个或多个存储器;其中,所述一个或多个存储器与所述一个或多个处理器耦合,所述一个或多个存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述一个或多个处理器执行所述计算机指令时,使得执行如权利要求1-12任一项所述的方法。
14.一种计算机可读存储介质,包括指令,其特征在于,当所述指令在电子设备上运行时,使得执行如权利要求1-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210725472.8A CN115205868B (zh) | 2022-06-24 | 2022-06-24 | 一种图像校验方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210725472.8A CN115205868B (zh) | 2022-06-24 | 2022-06-24 | 一种图像校验方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115205868A CN115205868A (zh) | 2022-10-18 |
CN115205868B true CN115205868B (zh) | 2023-05-05 |
Family
ID=83579136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210725472.8A Active CN115205868B (zh) | 2022-06-24 | 2022-06-24 | 一种图像校验方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205868B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10089523B2 (en) * | 2016-10-05 | 2018-10-02 | Intuit Inc. | Automating creation of accurate OCR training data using specialized UI application |
CN111639648B (zh) * | 2020-05-26 | 2023-09-19 | 浙江大华技术股份有限公司 | 证件识别方法、装置、计算设备和存储介质 |
CN112101367A (zh) * | 2020-09-15 | 2020-12-18 | 杭州睿琪软件有限公司 | 文本识别方法、图像识别分类方法、文档识别处理方法 |
CN113989823B (zh) * | 2021-09-14 | 2022-10-18 | 北京左医科技有限公司 | 基于ocr坐标的图片表格还原方法及系统 |
-
2022
- 2022-06-24 CN CN202210725472.8A patent/CN115205868B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115205868A (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115473957B (zh) | 一种图像处理方法和电子设备 | |
CN110706310B (zh) | 一种图文融合方法、装置及电子设备 | |
CN114140365B (zh) | 基于事件帧的特征点匹配方法及电子设备 | |
CN118103809A (zh) | 页面显示方法、电子设备及计算机可读存储介质 | |
CN116048933A (zh) | 一种流畅度检测方法 | |
CN110286975B (zh) | 一种前景元素的显示方法和电子设备 | |
CN117274109B (zh) | 图像处理方法、降噪模型训练方法及电子设备 | |
CN115145436B (zh) | 一种图标处理方法及电子设备 | |
WO2022022406A1 (zh) | 一种灭屏显示的方法和电子设备 | |
CN116483734B (zh) | 一种基于编译器的插桩方法、系统及相关电子设备 | |
CN116467221B (zh) | 一种基于解释器的插桩方法、系统及相关电子设备 | |
CN115205868B (zh) | 一种图像校验方法 | |
CN114222187B (zh) | 视频编辑方法和电子设备 | |
EP4209996A1 (en) | Target tracking method and electronic device | |
CN116700477A (zh) | 一种显示方法和电子设备 | |
CN115879436B (zh) | 一种电子图书质检方法 | |
CN116343247B (zh) | 表格图像矫正方法、装置和设备 | |
CN116522400B (zh) | 图像处理方法和终端设备 | |
CN115802144B (zh) | 视频拍摄方法及相关设备 | |
CN114942741B (zh) | 数据传输方法及电子设备 | |
CN116453131B (zh) | 文档图像矫正方法、电子设备及存储介质 | |
CN116193275B (zh) | 视频处理方法及相关设备 | |
CN116993619B (zh) | 图像处理方法及相关设备 | |
CN113986406B (zh) | 生成涂鸦图案的方法、装置、电子设备及存储介质 | |
CN117132984A (zh) | 一种文本识别方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |