CN115187986A - 文本识别方法、装置、电子设备及存储介质 - Google Patents
文本识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115187986A CN115187986A CN202210701481.3A CN202210701481A CN115187986A CN 115187986 A CN115187986 A CN 115187986A CN 202210701481 A CN202210701481 A CN 202210701481A CN 115187986 A CN115187986 A CN 115187986A
- Authority
- CN
- China
- Prior art keywords
- image
- processed
- area
- text
- text recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
- G06V30/245—Font recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本申请实施例公开了一种文本识别方法、装置、电子设备及存储介质。方法包括:电子设备通过获取待处理图像,并确定待处理图像中是否存在复杂字符;若待处理图像中存在复杂字符,则对复杂字符在待处理图像中对应的区域进行标记,得到标记区域;确定待处理图像中除标记区域以外的目标区域;确定目标区域内的图像为第一图像,并对第一图像进行文本识别,得到第一识别结果;确定标记区域内的图像为第二图像,并对第二图像进行文本识别,得到第二识别结果。本申请实施例中能够对非复杂字符文本进行优先识别,能够提高文本识别的识别效率。
Description
技术领域
本申请涉及图像处理技术领域,具体涉及一种文本识别方法、装置、电子设备及存储介质。
背景技术
在现有技术中,为了提高办公效率,从而产生了OCR(Optical CharacterRecognition,光学字符识别)识别技术,当扫描设备扫描到图像之后,电脑等识别设备能够对图像进行识别,从而得到识别文本。
但是,一些图像内容中会包含如数学式、化学式等多种类型的复杂字符,而识别设备识别在识别复杂字符的时候,往往会耗费较多的时长,识别效率低下。
发明内容
本申请实施例提供一种文本识别方法、装置、电子设备及存储介质。该文本识别方法能够对非复杂字符文本进行优先识别,能够提高文本识别的识别效率。
第一方面,本申请实施例提供了一种文本识别方法,包括:
获取待处理图像,并确定待处理图像中是否存在复杂字符;
若待处理图像中存在复杂字符,则对复杂字符在待处理图像中对应的区域进行标记,得到标记区域;
确定待处理图像中除标记区域以外的目标区域;
确定目标区域内的图像为第一图像,并对第一图像进行文本识别,得到第一识别结果;
确定标记区域内的图像为第二图像,并对第二图像进行文本识别,得到第二识别结果。
第二方面,本申请实施例提供了一种文本识别装置,包括:
获取模块,用于获取待处理图像,并确定待处理图像中是否存在复杂字符;
标记模块,用于若待处理图像中存在复杂字符,则对复杂字符在待处理图像中对应的区域进行标记,得到标记区域;
确定模块,用于确定待处理图像中除标记区域以外的目标区域;
第一识别模块,用于确定目标区域内的图像为第一图像,并对第一图像进行文本识别,得到第一识别结果;
第二识别模块,用于确定标记区域内的图像为第二图像,并对第二图像进行文本识别,得到第二识别结果。
第三方面,本申请实施例提供了一种电子设备,包括:存储有可执行程序代码的存储器、与存储器耦合的处理器;处理器调用存储器中存储的可执行程序代码,执行本申请实施例提供的文本识别方法中的步骤。
第四方面,本申请实施例提供了一种存储介质,存储介质存储有多条指令,指令适于处理器进行加载,以本申请实施例提供的文本识别方法中的步骤。
本申请实施例中,电子设备通过获取待处理图像,并确定待处理图像中是否存在复杂字符;若待处理图像中存在复杂字符,则对复杂字符在待处理图像中对应的区域进行标记,得到标记区域;确定待处理图像中除标记区域以外的目标区域;确定目标区域内的图像为第一图像,并对第一图像进行文本识别,得到第一识别结果;确定标记区域内的图像为第二图像,并对第二图像进行文本识别,得到第二识别结果。本申请实施例中能够对非复杂字符文本进行优先识别,能够提高文本识别的识别效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的文本识别方法的第一流程示意图。
图2是本申请实施例提供的文本识别方法的第二流程示意图。
图3是本申请实施例提供的文本识别装置的结构示意图。
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在相关技术中,在文本识别的过程中,往往是对整页图像进行识别,从而获取其中的文本内容。
但是,在整页图像中包含了一些插画、图片、图标等不需要识别的内容,如果对整页内不需要识别内容进行了识别,则会导致识别出的文件中出现排版错乱、文字错乱等现象。
为了解决该技术问题,本申请实施例提供了一种文本识别方法、装置、电子设备及存储介质。该文本识别方法可以对准确的确定出待处理图像中需要识别的内容,然后对需要识别的内容进行识别。
请参阅图1,图1是本申请实施例提供的文本识别方法的第一流程示意图。该文本识别方法可以包括以下步骤:
110、获取待处理图像,并确定待处理图像中是否存在复杂字符。
在一些实施方式中,在电子设备获取到待处理图像之后,电子设备可以将待处理图像分割为多个子图像,然后将每一子图像和文本数据库进行对比,以确定每一子图像中是否存在复杂字符。
具体的,电子设备可以在每一子图像中确定出至少一个目标字符,将至少一个目标字符和文本数据库进行匹配,若至少一个目标字符中任一目标字符在文本数据库中未匹配成功,则确定至少一个目标字符对应的子图像存在复杂字符。
例如,电子设备可以先确定出待处理图像的面积大小,然后根据面积大小确定出待处理图像可以分割的子图像的目标数量,最后根据目标数量对待处理图像进行分割,从而得到多个子图像。
其中,当待处理图像的面积越大,则可以分割的子图像对应的目标数量越多。当待处理图像的面积越小,则可以分割的子图像对应的目标数量越少。
当待处理图像分割出多个子图像之后,电子设备可以对每一子图像和文本数据库进行匹配,从而确定其中是否有复杂字符。
比如,当电子设备选定某一张子图像之后,获取该子图像中的至少一个目标字符,比如随机从该子图像中选取至少一个字符为目标字符。然后将该至少一个目标字符和文本数据库匹配,该文本数据库可以是全部存储非复杂字符的数据库,比如该文本数据库中存储的有汉字、英文字母等。
如果目标字符中有任何一个没有和文本数据库匹配成功,则说明该子图像中包含了复杂字符。如果该子图像中的所有目标字符均和文本数据库匹配成功,则说明该子图像中不包含复杂字符。
需要说明的是,复杂字符可以是数学公式、化学式、特殊标记符、手绘字符等多种字符,这些字符均存在不容易被识别出的特征,或者是识别出这些字符需要花费较长的时间和较大的计算量。
120、若待处理图像中存在复杂字符,则对复杂字符在待处理图像中对应的区域进行标记,得到标记区域。
在一些实施方式中,如果待处理图像中存在了复杂字符,电子设备可以确定复杂字符对应的覆盖范围,并获取覆盖范围对应的位置信息,然后根据位置信息确定复杂字符对应的区域进行标记,得到标记区域。
比如,电子设备可以设定一定形状的覆盖范围,比如圆形、椭圆形、矩形等形状。然后确定出复杂字符对应的最小覆盖范围,该最小覆盖范围可以是预设的形状,比如矩形。
然后获取最小覆盖范围的位置信息,该位置信息可以是该最小覆盖范围的边缘位置信息,比如最小覆盖范围的形状为矩形,则获取该矩形的边缘位置信息。
电子设备可以对该待处理图像建立平面坐标系,然后在该平面坐标系内获取复杂字符对应的覆盖范围的位置信息。针对于每一子图像,电子设备可以在每一子图像内确定复杂字符的覆盖范围的位置信息。
在电子设备获取到复杂字符的覆盖范围的位置信息之后,可以根据该位置信息进行标记,从而得到标记区域,标记区域在平面坐标系内有对应的为坐标覆盖范围。
130、确定待处理图像中除标记区域以外的目标区域。
在一些实施方式中,电子设备在确定出标记区域之后,可以将标记区域之外的其他包含文本内容的区域确定为目标区域,需要说明的是,目标区域内包含了非复杂字符的文本内容。
140、确定目标区域内的图像为第一图像,并对第一图像进行文本识别,得到第一识别结果。
该目标区域内的图像为第一图像,然后对第一图像进行文本识别,从而得到第一识别结果。
在一些实施方式中,电子设备可以将第一图像分割为多个第一子图像,然后同时对多个第一子图像进行文本识别,得到第一识别结果。
可以理解的是,当电子设备将第一图像分割为多个子图像之后,每个子图像中的文本内容相对整个第一图像较少,这样电子设备就可以同时对多个子图像同时识别,这样每个子图像被识别的速度就会加快。从而节省了文本识别的时长。
150、确定标记区域内的图像为第二图像,并对第二图像进行文本识别,得到第二识别结果。
将标记区域内的图像确定为第二图像。第二图像中包含了复杂字符对应的文本内容。
在一些实施方式中,电子设备可以获取复杂字符对应的文本识别模型,然后将第二图像输入至文本识别模型中,以得到第二识别结果。该文本识别模型能够对复杂文本进行准确识别或者预测的功能。
在获取复杂字符对应的文本识别模型之前,电子设备可以获取基础模型,然后获取多种数学式、化学式、特殊符号、手写符号等多种预设复杂字符,然后将预设复杂字符输入至基础模型中,从而对基础模型进行训练,直至基础模型收敛为止,或者直至基础模型能够对所有的预设复杂字符进行准确的识别为止,则基础模型训练完成,得到了用于对复杂字符进行识别的文本识别模型。
在一些实施方式中,由于在训练的过程中采用了手写符号作为预设复杂字符对基础模型进行训练,则基础模型具备一定的对文本内容的复杂字符进行预测的功能。
在一些实施方式中,当确定出标记区域之后,电子设备将标记区域内的图像确定为第二图像,当文本识别模型中输入第二图像之后,文本识别模型可以对第二图像中的复杂字符进行准确识别或者预测作用。
在本申请实施例中,通过先对不包含复杂字符的文本内容进行识别,能够提高文本识别的识别效率,避免了电子设备花费较多时间单独对复杂字符进行识别。
然后通过复杂字符对应的文本识别模型对复杂字符对应的第二图像进行识别,进一步提高了文本识别的效率。
本申请实施例中,电子设备通过获取待处理图像,并确定待处理图像中是否存在复杂字符;若待处理图像中存在复杂字符,则对复杂字符在待处理图像中对应的区域进行标记,得到标记区域;确定待处理图像中除标记区域以外的目标区域;确定目标区域内的图像为第一图像,并对第一图像进行文本识别,得到第一识别结果;确定标记区域内的图像为第二图像,并对第二图像进行文本识别,得到第二识别结果。本申请实施例中能够对非复杂字符文本进行优先识别,能够提高文本识别的识别效率。
为了更加了解本申请实施例中提供的文本识别方法,请继续参阅图2,图2是本申请实施例提供的文本识别方法的第二流程示意图。该文本识别方法可以包括以下步骤:
201、获取原始图像,对原始图像的图像参数、方向信息进行校正,得到待处理图像。
在一些实施方式中,在电子设备得到原始图像后,可以对原始图像进行预处理,从而得到预处理图像,预处理图像更加有利于文本识别。原始图像可以是银行业务单、文档、照片等不同类型的图像。
原始图像可以是不同格式类型的图像,比如原始图像可以为pdf格式、peg格式等不同格式的图像。
在一些实施方式中,电子设备可以获取原始图像的文件格式,并将原始图像的文件格式转换为预设文件格式,得到待处理原始图像;然后对待处理原始图像进行预处理,得到预处理图像。
比如,原始图像为pdf格式的图像,可以先将原始图像转换为jpg格式的图像,该jpg格式的图像就是待处理原始图像。
然后,电子设备可以对待处理原始图像的图像方向和图像参数进行调整,得到待处理图像。
具体的,电子设备可以先将待处理原始图像的图像方向调整为预设方向,得到第一处理图像。比如,电子设备可以对待处理原始图像进行旋转,从而使得待处理原始图像的方向为预设方向,得到第一处理图像。
其中,图像参数可以包括亮度和对比度,电子设备可以对第一处理图像的亮度和/或对比度进行调节,得到待处理图像。比如,当第一处理图像的亮度过亮或者过暗时,不利于电子设备的文本识别,此时可以将第一处理图像的亮度调整为预设的正常亮度,从而得到更加有利于文本识别的待处理图像。
又比如,当第一处理图像中的文本不够清晰时,可以通过调节对比度来进一步来突出文本和背景之间的区别。例如,第一处理图像中的背景为白色,文本为黑色,则可以通过调节对比度,使得背景中的白色更白,黑色更黑。从而得到更加有利于文本识别的待处理图像。
需要说明的是,在本申请实施例中,可以采用单一的方式来对第一处理图像进行调节,比如只采用亮度调节。还可以采用多种方式来对第一处理图像进行调节,比如采用对比度和亮度来共同调节图像。
图像参数除了对比度和亮度,图像参数中还可以包括其他参数,例如锐化程度、色温、颜色等等。电子设备均可以采用多种图像参数来对第一处理图像进行调节,从而得到待处理图像。
202、将待处理图像分割为多个子图像。
电子设备可以先确定出待处理图像的面积大小,然后根据面积大小确定出待处理图像可以分割的子图像的目标数量,最后根据目标数量对待处理图像进行分割,从而得到多个子图像。
其中,当待处理图像的面积越大,则可以分割的子图像对应的目标数量越多。当待处理图像的面积越小,则可以分割的子图像对应的目标数量越少。
203、将每一子图像和文本数据库进行对比,以确定每一子图像中是否存在复杂字符。
电子设备可以在每一子图像中确定出至少一个目标字符,将至少一个目标字符和文本数据库进行匹配,若至少一个目标字符中任一目标字符在文本数据库中未匹配成功,则确定至少一个目标字符对应的子图像存在复杂字符。
比如,当电子设备选定某一张子图像之后,获取该子图像中的至少一个目标字符,比如随机从该子图像中选取至少一个字符为目标字符。然后将该至少一个目标字符和文本数据库匹配,该文本数据库可以是全部存储非复杂字符的数据库,比如该文本数据库中存储的有汉字、英文字母等。
如果目标字符中有任何一个没有和文本数据库匹配成功,则说明该子图像中包含了复杂字符。如果该子图像中的所有目标字符均和文本数据库匹配成功,则说明该子图像中不包含复杂字符。
204、若待处理图像中存在复杂字符,确定复杂字符对应的覆盖范围,并获取覆盖范围对应的位置信息。
比如,电子设备可以设定一定形状的覆盖范围,比如圆形、椭圆形、矩形等形状。然后确定出复杂字符对应的最小覆盖范围,该最小覆盖范围可以是预设的形状,比如矩形。
然后获取最小覆盖范围的位置信息,该位置信息可以是该最小覆盖范围的边缘位置信息,比如最小覆盖范围的形状为矩形,则获取该矩形的边缘位置信息。
电子设备可以对该待处理图像建立平面坐标系,然后在该平面坐标系内获取复杂字符对应的覆盖范围的位置信息。针对于每一子图像,电子设备可以在每一子图像内确定复杂字符的覆盖范围的位置信息。
205、根据位置信息确定复杂字符对应的区域进行标记,得到标记区域。
在电子设备获取到复杂字符的覆盖范围的位置信息之后,可以根据该位置信息进行标记,从而得到标记区域,标记区域在平面坐标系内有对应的为坐标覆盖范围。
或者,电子设备可以直接根据位置信息在复杂字符对应的覆盖范围内设置对应的颜色,比如设置成黄色,以区别于其他区域。
206、确定待处理图像中除标记区域以外的目标区域,并对目标区域对应的第一图像进行文本识别,得到第一识别结果。
在一些实施方式中,电子设备在确定出标记区域之后,可以将标记区域之外的其他包含文本内容的区域确定为目标区域,该目标区域内的图像为第一图像,然后对第一图像进行文本识别,从而得到第一识别结果。
在一些实施方式中,电子设备可以将第一图像分割为多个第一子图像,然后同时对多个第一子图像进行文本识别,得到第一识别结果。
可以理解的是,当电子设备将第一图像分割为多个子图像之后,每个子图像中的文本内容相对整个第一图像较少,这样电子设备就可以同时对多个子图像同时识别,这样每个子图像被识别的速度就会加快。从而节省了文本识别的时长。
207、获取复杂字符对应的文本识别模型。
在获取复杂字符对应的文本识别模型之前,电子设备可以获取基础模型,然后获取多种数学式、化学式、特殊符号、手写符号等多种预设复杂字符,然后将预设复杂字符输入至基础模型中,从而对基础模型进行训练,直至基础模型收敛为止,或者直至基础模型能够对所有的预设复杂字符进行准确的识别为止,则基础模型训练完成,得到了用于对复杂字符进行识别的文本识别模型。
在一些实施方式中,由于在训练的过程中采用了手写符号作为预设复杂字符对基础模型进行训练,则基础模型具备一定的对文本内容的复杂字符进行预测的功能。
208、将第二图像输入至文本识别模型中,以得到第二识别结果。
在一些实施方式中,当确定出标记区域之后,电子设备将标记区域内的图像确定为第二图像,当文本识别模型中输入第二图像之后,文本识别模型可以对第二图像中的复杂字符进行准确识别或者预测作用。
在本申请实施例中,通过先对不包含复杂字符的文本内容进行识别,能够提高文本识别的识别效率,避免了电子设备花费较多时间单独对复杂字符进行识别。
然后通过复杂字符对应的文本识别模型对复杂字符对应的第二图像进行识别,进一步提高了文本识别的效率。
在本申请实施例中,电子设备通过获取原始图像,对原始图像的图像参数、方向信息进行校正,得到待处理图像。然后将待处理图像分割为多个子图像,将每一子图像和文本数据库进行对比,以确定每一子图像中是否存在复杂字符。
若待处理图像中存在复杂字符,确定复杂字符对应的覆盖范围,并获取覆盖范围对应的位置信息。根据位置信息确定复杂字符对应的区域进行标记,得到标记区域。最后确定待处理图像中除标记区域以外的目标区域,并对目标区域对应的第一图像进行文本识别,得到第一识别结果。获取复杂字符对应的文本识别模型,将第二图像输入至文本识别模型中,以得到第二识别结果。
本申请实施例中,通过优先对不包含复杂字符的区域的图像进行文本识别,从而减少了对整个图像进行文本识别的时长,从而提高了文本识别时的识别效率。
相应的,本申请实施例还提供了一种文本识别装置,如图3所示,图3是本申请实施例提供的文本识别装置的结构示意图。该文本识别装置300可以包括:
获取模块310,用于获取待处理图像,并确定待处理图像中是否存在复杂字符。
获取模块310,还用于获取原始图像;对原始图像的图像参数、方向信息进行校正,得到待处理图像。
获取模块310,还用于将待处理图像分割为多个子图像;将每一子图像和文本数据库进行对比,以确定每一子图像中是否存在复杂字符。
获取模块310,还用于在每一子图像中确定出至少一个目标字符;将至少一个目标字符和文本数据库进行匹配,若至少一个目标字符中任一目标字符在文本数据库中未匹配成功,则确定至少一个目标字符对应的子图像存在复杂字符。
标记模块320,用于若待处理图像中存在复杂字符,则对复杂字符对应的区域进行标记,得到标记区域。
标记模块320,还用于确定复杂字符对应的覆盖范围,并获取覆盖范围对应的位置信息;根据位置信息确定复杂字符对应的区域进行标记,得到标记区域。
确定模块330,用于确定待处理图像中除标记区域以外的目标区域。
第一识别模块340,用于确定目标区域内的图像为第一图像,并对第一图像进行文本识别,得到第一识别结果。
第一识别模块340,还用于将第一图像分割为多个第一子图像;同时对多个第一子图像进行文本识别,得到第一识别结果。
第二识别模块350,用于确定标记区域内的图像为第二图像,并对第二图像进行文本识别,得到第二识别结果。
第二识别模块350,还用于获取复杂字符对应的文本识别模型;将第二图像输入至文本识别模型中,以得到第二识别结果。
本申请实施例中,电子设备通过获取待处理图像,并确定待处理图像中是否存在复杂字符;若待处理图像中存在复杂字符,则对复杂字符在待处理图像中对应的区域进行标记,得到标记区域;确定待处理图像中除标记区域以外的目标区域;确定目标区域内的图像为第一图像,并对第一图像进行文本识别,得到第一识别结果;确定标记区域内的图像为第二图像,并对第二图像进行文本识别,得到第二识别结果。本申请实施例中能够对非复杂字符文本进行优先识别,能够提高文本识别的识别效率。
相应的,本申请实施例还提供一种电子设备,如图4所示,该电子设备400可以包括有一个或一个以上计算机可读存储介质的存储器401、输入单元402、显示单元403、传感器404、包括有一个或者一个以上处理核心的处理器405、以及电源406等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
存储器401可用于存储软件程序以及模块,处理器405通过运行存储在存储器401的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器401可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器401可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器401还可以包括存储器控制器,以提供处理器405和输入单元402对存储器401的访问。
输入单元402可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元402可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器405,并能接收处理器405发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元402还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元403可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元403可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid CrystalDisplay)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器405以确定触摸事件的类型,随后处理器405根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
电子设备还可包括至少一种传感器404,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在电子设备移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
处理器405是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器401内的软件程序和/或模块,以及调用存储在存储器401内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器405可包括一个或多个处理核心;优选的,处理器405可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器405中。
电子设备还包括给各个部件供电的电源406(比如电池),优选的,电源可以通过电源管理系统与处理器405逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源406还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备中的处理器405会加载存储器401上存储的计算机程序,处理器405通过加载计算机程序,从而实现各种功能:
获取待处理图像,并确定待处理图像中是否存在复杂字符;
若待处理图像中存在复杂字符,则对复杂字符在待处理图像中对应的区域进行标记,得到标记区域;
确定待处理图像中除标记区域以外的目标区域;
确定目标区域内的图像为第一图像,并对第一图像进行文本识别,得到第一识别结果;
确定标记区域内的图像为第二图像,并对第二图像进行文本识别,得到第二识别结果。
本申请实施例中,电子设备通过获取待处理图像,并确定待处理图像中是否存在复杂字符;若待处理图像中存在复杂字符,则对复杂字符在待处理图像中对应的区域进行标记,得到标记区域;确定待处理图像中除标记区域以外的目标区域;确定目标区域内的图像为第一图像,并对第一图像进行文本识别,得到第一识别结果;确定标记区域内的图像为第二图像,并对第二图像进行文本识别,得到第二识别结果。本申请实施例中能够对非复杂字符文本进行优先识别,能够提高文本识别的识别效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种文本识别方法中的步骤。例如,该指令可以执行如下步骤:
获取待处理图像,并确定待处理图像中是否存在复杂字符;
若待处理图像中存在复杂字符,则对复杂字符在待处理图像中对应的区域进行标记,得到标记区域;
确定待处理图像中除标记区域以外的目标区域;
确定目标区域内的图像为第一图像,并对第一图像进行文本识别,得到第一识别结果;
确定标记区域内的图像为第二图像,并对第二图像进行文本识别,得到第二识别结果。
本申请实施例中,电子设备通过获取待处理图像,并确定待处理图像中是否存在复杂字符;若待处理图像中存在复杂字符,则对复杂字符在待处理图像中对应的区域进行标记,得到标记区域;确定待处理图像中除标记区域以外的目标区域;确定目标区域内的图像为第一图像,并对第一图像进行文本识别,得到第一识别结果;确定标记区域内的图像为第二图像,并对第二图像进行文本识别,得到第二识别结果。本申请实施例中能够对非复杂字符文本进行优先识别,能够提高文本识别的识别效率。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种文本识别方法中的步骤,因此,可以实现本申请实施例所提供的任一种文本识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种文本识别方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种文本识别方法,其特征在于,包括:
获取待处理图像,并确定所述待处理图像中是否存在复杂字符;
若所述待处理图像中存在复杂字符,则对所述复杂字符在所述待处理图像中对应的区域进行标记,得到标记区域;
确定所述待处理图像中除所述标记区域以外的目标区域;
确定所述目标区域内的图像为第一图像,并对所述第一图像进行文本识别,得到第一识别结果;
确定所述标记区域内的图像为第二图像,并对所述第二图像进行文本识别,得到第二识别结果。
2.根据权利要求1所述的文本识别方法,其特征在于,所述获取待处理图像,并确定所述待处理图像中是否存在复杂字符,包括:
将所述待处理图像分割为多个子图像;
将每一所述子图像和文本数据库进行对比,以确定每一所述子图像中是否存在复杂字符。
3.根据权利要求2所述的文本识别方法,其特征在于,所述将每一所述子图像和文本数据库进行对比,以确定每一所述子图像中是否存在复杂字符,包括:
在每一所述子图像中确定出至少一个目标字符;
将所述至少一个目标字符和所述文本数据库进行匹配,若所述至少一个目标字符中任一所述目标字符在所述文本数据库中未匹配成功,则确定所述至少一个目标字符对应的所述子图像存在复杂字符。
4.根据权利要求1所述的文本识别方法,其特征在于,所述对所述复杂字符在所述待处理图像中对应的区域进行标记,得到标记区域,包括:
确定所述复杂字符对应的覆盖范围,并获取所述覆盖范围对应的位置信息;
在所述待处理图像中,根据所述位置信息确定所述复杂字符对应的区域进行标记,得到所述标记区域。
5.根据权利要求1至4任一项所述的文本识别方法,其特征在于,所述获取待处理图像,包括:
获取原始图像;
对所述原始图像的图像参数、方向信息进行校正,得到所述待处理图像。
6.根据权利要求1至4任一项所述的文本识别方法,其特征在于,所述对所述第一图像进行文本识别,得到第一识别结果,包括:
将所述第一图像分割为多个第一子图像;
同时对多个所述第一子图像进行文本识别,得到所述第一识别结果。
7.根据权利要求1至4任一项所述的文本识别方法,其特征在于,所述对所述第二图像进行文本识别,得到第二识别结果,包括:
获取所述复杂字符对应的文本识别模型;
将所述第二图像输入至所述文本识别模型中,以得到所述第二识别结果。
8.一种文本识别装置,其特征在于,包括:
获取模块,用于获取待处理图像,并确定所述待处理图像中是否存在复杂字符;
标记模块,用于若所述待处理图像中存在复杂字符,则对所述复杂字符在所述待处理图像中对应的区域进行标记,得到标记区域;
确定模块,用于确定所述待处理图像中除所述标记区域以外的目标区域;
第一识别模块,用于确定所述目标区域内的图像为第一图像,并对所述第一图像进行文本识别,得到第一识别结果;
第二识别模块,用于确定所述标记区域内的图像为第二图像,并对所述第二图像进行文本识别,得到第二识别结果。
9.一种电子设备,其特征在于,包括:
存储有可执行程序代码的存储器、与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1至7任一项所述的文本识别方法中的步骤。
10.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的文本识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210701481.3A CN115187986A (zh) | 2022-06-20 | 2022-06-20 | 文本识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210701481.3A CN115187986A (zh) | 2022-06-20 | 2022-06-20 | 文本识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115187986A true CN115187986A (zh) | 2022-10-14 |
Family
ID=83515101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210701481.3A Pending CN115187986A (zh) | 2022-06-20 | 2022-06-20 | 文本识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115187986A (zh) |
-
2022
- 2022-06-20 CN CN202210701481.3A patent/CN115187986A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5458161B1 (ja) | 電子機器および方法 | |
CN109684980B (zh) | 自动阅卷方法及装置 | |
US20150242114A1 (en) | Electronic device, method and computer program product | |
US9378427B2 (en) | Displaying handwritten strokes on a device according to a determined stroke direction matching the present direction of inclination of the device | |
CN107395871B (zh) | 一种开启应用的方法、装置、存储介质及终端 | |
US9207808B2 (en) | Image processing apparatus, image processing method and storage medium | |
US20120212440A1 (en) | Input motion analysis method and information processing device | |
US20130212511A1 (en) | Apparatus and method for guiding handwriting input for handwriting recognition | |
JP2011221604A (ja) | 手書きデータ管理システム及び手書きデータ管理プログラム並びに手書きデータ管理方法 | |
KR20190021146A (ko) | 디스플레이에 표시된 텍스트를 번역하는 방법 및 장치 | |
CN111353458B (zh) | 文本框标注方法、装置和存储介质 | |
US8581910B2 (en) | Input display apparatus, input display method, and recording medium | |
US20230394721A1 (en) | Information processing apparatus, program, and system | |
US9183276B2 (en) | Electronic device and method for searching handwritten document | |
KR102468082B1 (ko) | 필기 입력에 대한 보정 방법, 이를 위한 전자 장치 및 저장 매체 | |
US8948514B2 (en) | Electronic device and method for processing handwritten document | |
US9940536B2 (en) | Electronic apparatus and method | |
US20150067593A1 (en) | Methods and Systems for Interacting with a Digital Marking Surface | |
CN115188001A (zh) | 手写文本的识别方法、装置、电子设备及存储介质 | |
CN115187988A (zh) | 区域文本识别方法、装置、电子设备及存储介质 | |
CN115187987A (zh) | 特殊区域外文本识别方法、装置、电子设备及存储介质 | |
CN115188003A (zh) | 基于模型的文本识别方法、装置、电子设备及存储介质 | |
JP6156740B2 (ja) | 情報表示装置及び入力情報補正プログラム並びに入力情報補正方法 | |
WO2019134606A1 (zh) | 终端的控制方法、装置、存储介质及电子设备 | |
JP2014052718A (ja) | 情報処理システム、プログラムおよび情報処理システムの処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |