CN116246290A - 字符识别方法、装置、存储介质以及终端 - Google Patents

字符识别方法、装置、存储介质以及终端 Download PDF

Info

Publication number
CN116246290A
CN116246290A CN202310197164.7A CN202310197164A CN116246290A CN 116246290 A CN116246290 A CN 116246290A CN 202310197164 A CN202310197164 A CN 202310197164A CN 116246290 A CN116246290 A CN 116246290A
Authority
CN
China
Prior art keywords
information
cell
character
picture
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310197164.7A
Other languages
English (en)
Inventor
陈�峰
陈景东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202310197164.7A priority Critical patent/CN116246290A/zh
Publication of CN116246290A publication Critical patent/CN116246290A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

本说明书实施例公开了一种字符识别方法、装置、存储介质以及终端,涉及图像处理技术领域。由于在待识别图片中提前绘制了辅助字符识别的第一表格,第一表格中的单元格之间的位置关系也就代表了待识别图片中字符的表格格式,因此基于待识别图片的字符信息以及第一表格的表格信息,可以快速、准确生成待识别图片中表格格式字符对应的表格文件。

Description

字符识别方法、装置、存储介质以及终端
技术领域
本说明书涉及图像处理技术领域,尤其涉及一种字符识别方法、装置、存储介质以及终端。
背景技术
随着科学技术的发展,人们在日常生活中常常会遇到需要对图片中的字符进行识别的情况,因此关于字符识别方法也成为图像处理领域技术人员研究的重点之一。
在对图片中的字符进行识别的过程中,当图片为表格格式图片,那么对图片中表格格式字符的提取要求也更高,因此需要提供更加快速、准确提取出图片中表格格式字符对应的表格文件的方案。
发明内容
本说明书实施例提供一种字符识别方法、装置、存储介质以及终端,可以快速、准确提取出图片中表格格式字符对应的表格文件。
第一方面,本说明书实施例提供一种字符识别方法,所述方法包括:
获取待识别图片,在所述待识别图片中绘制第一表格;
识别所述待识别图片的字符信息以及所述第一表格的表格信息;
基于所述字符信息以及所述表格信息,生成所述待识别图片的表格文件。
在一种可能的实现方式中,所述在所述待识别图片中绘制第一表格,包括:
响应表格生成指令,基于所述表格生成指令中的表格参数在所述待识别图片中绘制第一表格。
在一种可能的实现方式中,所述基于所述表格生成指令中的表格参数在所述待识别图片中绘制第一表格,包括:
获取所述表格生成指令中携带的预设表格行数以及预设表格列数;
基于所述预设表格行数以及所述预设表格列数在所述待识别图片中预设位置处绘制第一表格,所述第一表格包括所述预设表格行数的行以及所述预设表格列数的列。
在一种可能的实现方式中,所述基于所述预设表格行数以及所述预设表格列数在所述待识别图片中预设位置处绘制第一表格之后,还包括:
响应于针对所述第一表格的表格调节指令,对所述第一表格中的行间距和/或列间距进行调整。
在一种可能的实现方式中,所述基于所述字符信息以及所述表格信息,生成所述待识别图片的表格文件,包括:
基于所述表格信息绘制第二表格,所述第二表格的行列数与所述第一表格的行数以及列数相同;
基于所述字符信息以及所述表格信息,对所述第二表格中的第二单元格进行字符填充,生成所述待识别图片的表格文件。
在一种可能的实现方式中,所述字符信息包括所述第一表格中各第一单元格包括的字符的字符内容信息以及字符坐标信息,所述第一表格的表格信息包括所述第一表格中各第一单元格的第一单元格布局信息以及第一单元格坐标信息。
在一种可能的实现方式中,所述基于所述字符信息以及所述表格信息,对所述第二表格中的第二单元格进行字符填充,包括:
根据所述第二表格中各第二单元格的第二单元格布局信息、所述第一表格中各第一单元格的第一单元格布局信息以及第一单元格坐标信息,确定各第二单元格对应的目标第一单元格布局信息的目标第一单元格坐标信息;
根据各第二单元格对应的目标第一单元格坐标信息、所述第一表格中各第一单元格包括的字符的字符内容信息以及字符坐标信息,确定各第二单元格对应的目标字符坐标信息的目标字符内容信息;
根据各第二单元格对应的目标字符内容信息对所述第二表格中的第二单元格进行字符填充。
在一种可能的实现方式中,所述根据各第二单元格对应的目标第一单元格坐标信息、所述第一表格中各第一单元格包括的字符的字符内容信息以及字符坐标信息,确定各第二单元格对应的目标字符坐标信息的目标字符内容信息,包括:
将各第二单元格对应的目标第一单元格坐标信息与所述第一表格中各第一单元格包括的字符的字符坐标信息进行比较,将坐标范围落入各第二单元格对应的目标第一单元格坐标信息对应的坐标范围内的字符坐标信息,确定为各第二单元格对应的目标字符坐标信息;
根据所述第一表格中各第一单元格包括的字符的字符内容信息,确定各第二单元格对应的目标字符坐标信息的目标字符内容信息。
在一种可能的实现方式中,所述字符坐标信息为包围字符的字符框的对顶角的坐标信息,所述第一单元格坐标信息为第一单元格的对顶角的坐标信息。
第二方面,本说明书实施例提供一种字符识别装置,所述装置包括:
表格绘制模块,用于获取待识别图片,在所述待识别图片中绘制第一表格;
识别模块,用于识别所述待识别图片的字符信息以及所述第一表格的表格信息;
填充模块,用于基于所述字符信息以及所述表格信息,生成所述待识别图片的表格文件。
第三方面,本说明书实施例提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或所述处理器执行上述的方法的步骤。
第四方面,本说明书实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法的步骤。
第五方面,本说明书实施例提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序适于由处理器加载并执行上述的方法的步骤。
本说明书实施例一些实施例提供的技术方案带来的有益效果至少包括:
本说明书实施例提供一种字符识别方法,首先获取待识别图片,在待识别图片中绘制第一表格;然后识别待识别图片的字符信息以及第一表格的表格信息;最后基于字符信息以及表格信息,生成待识别图片的表格文件。由于在待识别图片中提前绘制了辅助字符识别的第一表格,第一表格中的单元格之间的位置关系也就代表了待识别图片中字符的表格格式,因此基于待识别图片的字符信息以及第一表格的表格信息,可以快速、准确生成待识别图片中表格格式字符对应的表格文件。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一示例性实施例提供的一种表格格式图片的示意图;
图2为本说明书实施例提供的一种字符识别方法的示例性系统架构图;
图3为本说明书一示例性实施例提供的一种字符识别方法的流程示意图;
图4为本说明书一示例性实施例提供的一种表格文件的生成示意图;
图5为本说明书一示例性实施例提供的一种字符识别方法的流程示意图;
图6为本说明书一示例性实施例提供的一种字符识别装置的结构示意图;
图7为本说明书一示例性实施例提供的一种终端的结构示意图。
具体实施方式
为使得本说明书实施例的特征和优点能够更加的明显和易懂,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书实施例一部分实施例,而非全部实施例。基于本说明书实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书实施例保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
在一些应用场景中,需要识别、提取出纸质文档或者图片中的字符内容,进而对字符内容进行进一步的处理,特别是对于一些字符为表格格式字符的表格格式图片,其中,字符的表格格式也代表了字符之间的关系,因此在对表格格式图片中字符的识别过程中,不仅需要识别出表格格式图片中字符内容,还需要识别表格格式图片中字符的表格格式,以生成表格格式字符对应的表格文件。
请参阅图1,图1为本说明书一示例性实施例提供的一种表格格式图片的示意图。
如图1所示,图片100为表格格式图片,其中图片100中并没有表格线,但是图片100中的字符110是以表格格式的形式进行布局的,也即图片100中的字符110为表格格式字符,此时不仅需要识别出图片100中的字符110对应的字符内容,还需要识别出字符110对应的表格格式,以便于根据字符110的字符内容以及表格格式生成包括有字符内容的表格文件。
例如,在某保险理算平台中,用户理赔时会上传就医材料文件,在保险理赔过程中,需要识别、提取出用户上传材料中的重要就医数据,例如,就医数据通常会包括药品以及药品数量等信息,并且药品以及药品数量等信息之间存在对应关系,而这些信息大多是以表格格式的形式布局的,这些信息以及这些信息之间的对应关系代表了用户的病情程度以及治疗过程,那么应当尽量减少对这些信息以及这些信息之间的对应关系的识别错误概率,因此在基于就医数据通过智能核赔算法辅助核身人员判断理赔结果的过程中,不仅需要准确识别出就医数据对应的字符内容,还需要准确识别出就医数据对应的字符内容之间的对应关系,也即需要准确识别出就医数据对应的字符这些信息以及这些信息的表格格式布局,进而准确生成包括就医数据对应的字符这些信息以及这些信息的表格文件。
光学字符识别(OCR,optical character recognition)技术是指电子设备针对印刷体字符,采用光学的方式将纸质文档或者图片中各种形状的字符转换成为计算机文字,供文字处理软件进一步编辑加工的技术。在上述场景中,由于用户上传材料文件时通常是通过手持手机进行拍摄的,因为拍摄角度和材料文件的位置原因,导致得到的拍摄图片中的材料文件通常是扭曲或者歪斜的,那么材料文件中的字符通常也是扭曲或者歪斜的,材料文件中的字符的表格格式也会发生扭曲或者歪斜,例如,材料文件中的字符会发生行错位或者列错位,如果直接通过OCR技术对材料文件进行识别,会导致材料文件中的字符的表格格式识别错误,例如,可能会将不同行的字符识别为同一行的字符,或者将同一行的字符识别为不同行的字符。通常对于上述扭曲或者歪斜的表格格式图片,以往是通过人工识别出表格格式图片中字符的表格格式布局,进而将表格格式图片中字符的字符内容填入表格,但是这种字符识别方式较为费时费力。
基于上述需要,本说明书实施例提供一种字符识别方法,在待识别图片中提前绘制了辅助字符识别的第一表格,第一表格中的单元格之间的位置关系也就代表了待识别图片中字符的表格格式,因此基于待识别图片的字符信息以及第一表格的表格信息,可以快速、准确生成待识别图片中表格格式字符对应的表格文件。
请参阅图2,图2为本说明书实施例提供的一种字符识别方法的示例性系统架构图。
如图2所示,系统架构可以包括终端201、网络202和服务器203。网络202用于在终端201和服务器203之间提供通信链路的介质。网络202可以包括各种类型的有线通信链路或无线通信链路,例如:有线通信链路包括光纤、双绞线或同轴电缆的,无线通信链路包括蓝牙通信链路、无线保真(Wireless-Fidelity,Wi-Fi)通信链路或微波通信链路等。
终端201可以通过网络202与服务器203交互,以接收来自服务器203的消息或向服务器203发送消息,或者终端201可以通过网络202与服务器203交互,进而接收其他用户向服务器203发送的消息或者数据。终端201可以是硬件,也可以是软件。当终端201为硬件时,可以是各种电子设备,包括但不限于智能手表、智能手机、平板电脑、膝上型便携式计算机和台式计算机等。当终端201为软件时,可以是安装在上述所列举的电子设备中,其可以实现呈多个软件或软件模块(例如:用来提供分布式服务),也可以实现成单个软件或软件模块,在此不作具体限定。
在本说明书实施例中,终端201可以首先获取待识别图片,在待识别图片中绘制第一表格;然后识别待识别图片的字符信息以及第一表格的表格信息;最后基于字符信息以及表格信息,生成待识别图片的表格文件。
服务器203可以是提供各种服务的场景服务器。需要说明的是,服务器203可以是硬件,也可以是软件。当服务器203为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器203为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。
或者,该系统架构还可以不包括服务器203,换言之,服务器203可以为本说明书实施例中可选的设备,即本说明书实施例提供的方法可以应用于仅包括终端201的系统结构中,本说明书实施例对此不做限定。
应理解,图2中的终端、网络以及服务器的数目仅是示意性的,根据实现需要,可以是任意数量的终端、网络以及服务器。
请参阅图3,图3为本说明书一示例性实施例提供的一种字符识别方法的流程示意图。
本说明书一示例性实施例的执行主体可以是执行字符识别方法的终端,可以是字符识别方法的终端中的处理器,还可以是执行字符识别方法的终端中的字符识别服务。为方便描述,下面以执行主体是终端中的处理器为例,介绍字符识别方法的具体执行过程。
如图3所示,该字符识别方法包括:
S302、获取待识别图片,在待识别图片中绘制第一表格。
当表格格式图片中的字符对应的表格格式发生扭曲或者歪斜,如果直接通过OCR技术对表格格式图片进行识别,会导致表格格式图片中的字符的表格格式识别错误,这是由于OCR技术仅仅可以对表格格式图片中排列规整的字符的表格格式进行识别,一种可行的思路是,在待识别图片中提前绘制了辅助字符识别的第一表格,第一表格中的单元格之间的位置关系也就代表了待识别图片中字符的表格格式,因此基于待识别图片的字符信息以及第一表格的表格信息,可以快速、准确生成待识别图片中表格格式字符对应的表格文件。
在本说明书实施例中,字符识别方法主要对表格格式图片中的字符的字符内容以及表格格式进行识别,表格格式图片中没有表格线,但是表格格式图片中的字符是以表格格式的形式进行布局的,因此在需要对待识别图片进行字符识别时,可以先判断待识别图片是否为表格格式图片,若待识别图片是表格格式图片,则处理器获取待识别图片,以便于进行后续步骤。
可选地,在判断待识别图片是否为表格格式图片的过程中,可以通过样本表格格式图片对预设模型进行训练得到图片识别模型,以通过图片识别模型判断待识别图片是否为表格格式图片;或者还可以通过人工筛选的方式判断图片是否为表格格式图片。
在获取到待识别图片之后,可以在待识别图片中绘制第一表格,其中,绘制第一表格的方式可以不做限定,可以是根据用户针对待识别图片发出的指令在待识别图片中绘制第一表格,也即用户可以在观察到待识别图片中的字符对应的表格格式发生扭曲或者歪斜之后,可以根据表格格式发生扭曲或者歪斜的具体情况,绘制第一表格并调整第一表格中第一单元格的行间距情况;也可以通过算法或者训练好的模型对待识别图片中字符内容的位置进行分析,以确定待识别图片中的字符对应的表格格式发生扭曲或者歪斜的位置,自动进绘制第一表格并调整第一表格中第一单元格的行间距情况。
在本说明书实施例中,绘制完成之后的第一表格中包括多个第一单元格,一个第一单元格内可以包括待识别图片中的一个或者多个字符,由于在绘制第一表格的过程中,可以对第一表格中的第一单元格的行间距进行调整,以使得每个第一单元格可以包括不同的字符,并且第一表格中第一单元格的布局与待识别图片中字符的原始表格格式的布局相同,因此第一表格中第一单元格之间的位置对应关系也就代表了待识别图片中字符之间的原始位置对应关系。
S304、识别待识别图片的字符信息以及第一表格的表格信息。
在待识别图片中绘制第一表格之后,可以基于OCR识别技术对待识别图片进行字符识别,由于待识别图片中既存在字符又存在第一表格,因此可以识别出待识别图片中的字符信息以及第一表格的表格信息,其中,字符信息也即待识别图片中字符的相关信息,表格信息也即第一表格中第一单元格的相关信息。
S306、基于字符信息以及表格信息,生成待识别图片的表格文件。
由于字符信息中可以包括待识别图片中字符的字符内容,而表格信息中可以包括第一表格中第一单元格的布局,而第一单元格内可以包括待识别图片中的一个或者多个字符,因此待识别图片中字符的字符内容与第一表格中第一单元格存在对应关系,也即第一表格中第一单元格之间的位置对应关系也就代表了待识别图片中字符之间的原始位置对应关系,那么在识别出待识别图片的字符信息以及第一表格的表格信息之后,可以基于待识别图片中字符的字符内容与第一表格中第一单元格之间的对应关系,以及表格信息中第一表格中第一单元格的布局,将待识别图片中字符的字符内容填写至空白表格中,以生成待识别图片的表格文件。
由于表格文件的第一单元格中不仅包括了待识别图片中字符的字符内容,而且表格文件中第一单元格的布局与待识别图片中字符的原始布局相同,也就实现了对待识别图片的字符内容的识别,同时也实现了对待识别图片中字符的表格格式的识别。
请参阅图4,图4为本说明书一示例性实施例提供的一种表格文件的生成示意图。
如图4所示,待识别图片400为表格格式图片,待识别图片400中的字符对应的表格格式发生了扭曲或者歪斜,例如,字符401和字符402原本应该在同一行中,但是在待识别图片400中字符401和字符402的位置发生了错位,使得401和字符402不在同一水平位置上,通过常规的字符识别技术很容易将401和字符402误识别不同行的字符。
那么可以在待识别图片400中绘制第一表格410,以使得第一表格410中第一单元格的布局与待识别图片400中字符的原始表格格式的布局相同,并识别待识别图片400的字符信息以及第一表格410的表格信息,最后基于字符信息以及表格信息,生成待识别图片400的表格文件420,正在表格文件420中,字符401处于第一单元格403中,字符402处于第一单元格404中,第一单元格403与第一单元格404为同一行的单元格,因此实现字符401和字符402处于同一行的表格布局。
本说明书实施例提供一种字符识别方法,首先获取待识别图片,在待识别图片中绘制第一表格;然后识别待识别图片的字符信息以及第一表格的表格信息;最后基于字符信息以及表格信息,生成待识别图片的表格文件。由于在待识别图片中提前绘制了辅助字符识别的第一表格,第一表格中的单元格之间的位置关系也就代表了待识别图片中字符的表格格式,因此基于待识别图片的字符信息以及第一表格的表格信息,可以快速、准确生成待识别图片中表格格式字符对应的表格文件。
请参阅图5,图5为本说明书一示例性实施例提供的一种字符识别方法的流程示意图。
如图5所示,该字符识别方法包括:
S502、获取待识别图片,响应表格生成指令,基于表格生成指令中的表格参数在待识别图片中绘制第一表格。
在说明书实施例中,在待识别图片中绘制第一表格的过程中,具体可以是根据用户针对待识别图片发出的指令在待识别图片中绘制第一表格,也即用户可以在观察到待识别图片中的字符对应的表格格式发生扭曲或者歪斜之后,可以根据表格格式发生扭曲或者歪斜的具体情况,绘制第一表格。
具体地,在获取待识别图片之后,可以监测用户是否针对待识别图片输入了表格生成指令,其中,用户输入表格生成指令的方式可以不做限定,例如,用户可以通过键盘等工具直接输入表格生成指令,也可以通过鼠标等工具在相关显示界面中点击表格生成的虚拟按钮,以输入表格生成指令,还可以通过语音等方式输入表格生成指令,本说明书实施例对输入表格生成指令的方式不做限定。
进一步的,在生成表格的过程中,需要使用到代表表格属性的表格参数,因此用户在输入表格生成指令的过程中,还可以输入需要生成表格的表格参数,以使得表格生成指令中携带有表格参数。
当监测到用户针对待识别图片输入表格生成指令之后,可以响应该表格生成指令,并基于该表格生成指令中的表格参数在待识别图片中绘制第一表格,那么第一表格的表格属性与表格生成指令中的表格参数对应。
可选地,表格的主要参数为表格中的行数以及列数,因此在待识别图片中绘制第一表格的过程中,可以先获取表格生成指令中携带的预设表格行数以及预设表格列数,预设表格行数以及预设表格列数也即待生成的第一表格中的行数以及列数,然后基于预设表格行数以及预设表格列数在待识别图片中预设位置处绘制第一表格,以使得第一表格包括预设表格行数的行以及预设表格列数的列,其中预设位置不做限定,可以是待识别图片中的任一位置处。
由于第一表格本身具有默认的行间距以及列间距,那么在待识别图片中绘制第一表格之后,用户可以观察第一表格中第一单元格之间的位置对应关系与待识别图片中字符之间的原始位置对应关系是否是对应的,如果对应,则用户可以不对第一表格进行修改,直接确定第一表格为待识别图片的最终辅助识别表格;如果不对应,则用户可以针对第一表格输入表格调节指令,对第一表格中任一行或者多行的行间距进行调整,和/或对第一表格中任一一列或者列的列间距进行调整,以使得第一表格中第一单元格之间的位置对应关系与待识别图片中字符之间的原始位置对应关系对应,也即通过第一表格将待识别图片中字符的表格格式固定下来。
那么处理器可以接收并响应该表格调节指令,对第一表格中的行间距和/或列间距进行调整,也即基于表格调节指令中的行间距参数,对第一表格中任一行或者多行的行间距进行调整,基于表格调节指令中的列间距参数,对第一表格中任一列或者多列的列间距进行调整。
S504、识别待识别图片的字符信息以及第一表格的表格信息。
可选地,在识别待识别图片的字符信息的过程中,可以对待识别图片中字符的字符内容以及字符位置进行识别,具体地,可以先根据第一表格中各第一单元格布局对待识别图片进行划分,以使得每一个单元格包括待识别图片的一部分,那么对待识别图片中字符的字符内容以及字符位置进行识别,也即分别对每一个单元格包括的待识别图片中的字符的字符内容以及字符位置进行识别,进而得到第一表格中各第一单元格包括的字符的字符内容信息以及字符坐标信息,其中,字符坐标信息可以是每一个字符的坐标信息,也可以是多个字符组成的字符块的整体坐标信息。
进一步地,在识别第一表格的表格信息的过程中,可以对第一表格中第一单元格的布局以及第一单元格的位置进行识别,其中,第一单元格的布局也即第一单元格具体在第一表格中的具体行以及具体列,对第一单元格的位置进行识别与对待识别图片中字符字符位置进行识别的过程中是基于同一坐标系完成,进而得到第一表格的表格信息包括第一表格中各第一单元格的第一单元格布局信息以及第一单元格坐标信息。
S506、基于表格信息绘制第二表格,第二表格的行列数与第一表格的行数以及列数相同。
由于最终要生成待识别图片的表格文件,因此首先需要重新生成一个空白的第二表格,以便于将待识别图片中的字符填充至第二表格中,进而得到待识别图片的表格文件。
可选地,由于表格信息中可以包括第一表格中各第一单元格的第一单元格布局信息,因此可以基于表格信息绘制第二表格,以使得第二表格的行列数与第一表格的行数以及列数相同。
S508、基于字符信息以及表格信息,对第二表格中的第二单元格进行字符填充,生成待识别图片的表格文件。
由于第二表格的行列数与第一表格的行数以及列数相同,也即第二表格中第二单元格的布局与第一表格中的第一单元格的布局相同,又因为第一表格中第一单元格之间的位置对应关系与待识别图片中字符之间的原始位置对应关系对应,那么可以使得第二表格中第二单元格之间的位置对应关系与待识别图片中字符之间的原始位置对应关系对应,因此可以字符信息以及表格信息,对第二表格中的空白第二单元格进行字符填充,以生成待识别图片的表格文件。
具体地,在基于字符信息以及表格信息,对第二表格中的第二单元格进行字符填充的过程中,可以首先获取第二表格中各第二单元格的第二单元格布局信息,以及根据第二表格中各第二单元格的第二单元格布局信息、第一表格中各第一单元格的第一单元格布局信息,确定各第二单元格对应的目标第一单元格布局信息,也即确定将第一表格中的第一单元格与第二表格中的第二单元格进行对应,进而可以根据第一单元格坐标信息,确定各第二单元格对应的目标第一单元格布局信息的目标第一单元格坐标信息;然后根据各第二单元格对应的目标第一单元格坐标信息、第一表格中各第一单元格包括的字符的字符内容信息,确定各第二单元格对应的目标字符坐标信息,也即确定需要天填充到各第二单元格中的字符的坐标,进而可以根据字符坐标信息,确定各第二单元格对应的目标字符坐标信息的目标字符内容信息;最后根据各第二单元格对应的目标字符内容信息对第二表格中的第二单元格进行字符填充。
可选地,在根据各第二单元格对应的目标第一单元格坐标信息、第一表格中各第一单元格包括的字符的字符内容信息以及字符坐标信息,确定各第二单元格对应的目标字符坐标信息的目标字符内容信息的过程中,可以将各第二单元格对应的目标第一单元格坐标信息与第一表格中各第一单元格包括的字符的字符坐标信息进行比较,具体是,可以比较各第二单元格对应的目标第一单元格坐标信息对应的坐标范围与各第一单元格包括的字符的字符坐标信息对应的坐标范围进行比较,进而将坐标范围落入各第二单元格对应的目标第一单元格坐标信息对应的坐标范围内的字符坐标信息,确定为各第二单元格对应的目标字符坐标信息。其中,为了减少记录字符坐标信息以及第一单元格坐标信息的数据存储量,同时也可以保证坐标比较精度,可以在识别字符坐标信息以及第一单元格坐标信息的过程中,仅仅识别包围字符的字符框的对顶角的坐标信息,以及识别第一单元格的对顶角的坐标信息,以使得字符坐标信息为包围字符的字符框的对顶角的坐标信息,第一单元格坐标信息为第一单元格的对顶角的坐标信息。
在本说明书实施例中,通过根据用户输入的指令来生成以及调整第一表格,以使得第一表格中第一单元格的布局与待识别图片中字符的原始位置布局相同,那么基于待识别图片的字符信息以及第一表格的表格信息生成待识别图片的表格文件后,表格文件中单元格的格式与待识别图片中字符的格式也是相同,实现了快速、准确生成待识别图片中表格格式字符对应的表格文件。
请参阅图6,图6为本说明书一示例性实施例提供的一种字符识别装置的结构示意图。
如图6所示,字符识别装置600包括:
表格绘制模块610,用于获取待识别图片,在待识别图片中绘制第一表格;
识别模块620,用于识别待识别图片的字符信息以及第一表格的表格信息;
填充模块630,用于基于字符信息以及表格信息,生成待识别图片的表格文件。
可选地,表格绘制模块610,还用于响应表格生成指令,基于表格生成指令中的表格参数在待识别图片中绘制第一表格。
可选地,表格绘制模块610,还用于获取表格生成指令中携带的预设表格行数以及预设表格列数;基于预设表格行数以及预设表格列数在待识别图片中预设位置处绘制第一表格,第一表格包括预设表格行数的行以及预设表格列数的列。
可选地,表格绘制模块610,还用于响应于针对第一表格的表格调节指令,对第一表格中的行间距和/或列间距进行调整。
可选地,填充模块630,还用于基于表格信息绘制第二表格,第二表格的行列数与第一表格的行数以及列数相同;基于字符信息以及表格信息,对第二表格中的第二单元格进行字符填充,生成待识别图片的表格文件。
可选地,字符信息包括第一表格中各第一单元格包括的字符的字符内容信息以及字符坐标信息,第一表格的表格信息包括第一表格中各第一单元格的第一单元格布局信息以及第一单元格坐标信息。
可选地,填充模块630,还用于根据第二表格中各第二单元格的第二单元格布局信息、第一表格中各第一单元格的第一单元格布局信息以及第一单元格坐标信息,确定各第二单元格对应的目标第一单元格布局信息的目标第一单元格坐标信息;根据各第二单元格对应的目标第一单元格坐标信息、第一表格中各第一单元格包括的字符的字符内容信息以及字符坐标信息,确定各第二单元格对应的目标字符坐标信息的目标字符内容信息;根据各第二单元格对应的目标字符内容信息对第二表格中的第二单元格进行字符填充。
可选地,填充模块630,还用于将各第二单元格对应的目标第一单元格坐标信息与第一表格中各第一单元格包括的字符的字符坐标信息进行比较,将坐标范围落入各第二单元格对应的目标第一单元格坐标信息对应的坐标范围内的字符坐标信息,确定为各第二单元格对应的目标字符坐标信息;根据第一表格中各第一单元格包括的字符的字符内容信息,确定各第二单元格对应的目标字符坐标信息的目标字符内容信息。
可选地,字符坐标信息为包围字符的字符框的对顶角的坐标信息,第一单元格坐标信息为第一单元格的对顶角的坐标信息。
在本说明书实施例中,一种字符识别装置包括:表格绘制模块,用于获取待识别图片,在待识别图片中绘制第一表格;识别模块,用于识别待识别图片的字符信息以及第一表格的表格信息;填充模块,用于基于字符信息以及表格信息,生成待识别图片的表格文件。由于在待识别图片中提前绘制了辅助字符识别的第一表格,第一表格中的单元格之间的位置关系也就代表了待识别图片中字符的表格格式,因此基于待识别图片的字符信息以及第一表格的表格信息,可以快速、准确生成待识别图片中表格格式字符对应的表格文件。
本说明书一个或多个实施例还提供了一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行如上述实施例中的任一项的方法的步骤。
本说明书一个或多个实施例还提供了一种包含指令的计算机程序产品,当计算机程序产品在计算机或处理器上运行时,使得计算机或处理器执行如上述实施例中的任一项的方法的步骤。
进一步地,请参见图7,图7为本说明书一示例性实施例提供的一种终端的结构示意图。如图7所示,终端700可以包括:至少一个处理器701,至少一个网络接口704,用户接口703,存储器705,至少一个通信总线702。
其中,通信总线702用于实现这些组件之间的连接通信。
其中,用户接口703可以包括显示屏(Display)、摄像头(Camera),可选用户接口703还可以包括标准的有线接口、无线接口。
其中,网络接口704可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器701可以包括一个或者多个处理核心。处理器701利用各种接口和线路连接整个终端700内的各个部分,通过运行或执行存储在存储器705内的指令、程序、代码集或指令集,以及调用存储在存储器705内的数据,执行终端700的各种功能和处理数据。可选的,处理器701可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器701可集成处理器(Central ProcessingUnit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器701中,单独通过一块芯片进行实现。
其中,存储器705可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器705包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器705可用于存储指令、程序、代码、代码集或指令集。存储器705可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器705可选的还可以是至少一个位于远离前述处理器701的存储装置。如图7所示,作为一种计算机存储介质的存储器705中可以包括操作系统、网络通信模块、用户接口模块以及字符识别程序。
在图7所示的终端700中,用户接口703主要用于为用户提供输入的接口,获取用户输入的数据;而处理器701可以用于调用存储器705中存储的字符识别程序,并具体执行以下操作:
获取待识别图片,在待识别图片中绘制第一表格;
识别待识别图片的字符信息以及第一表格的表格信息;
基于字符信息以及表格信息,生成待识别图片的表格文件。
在一种可能的实现方式中,在待识别图片中绘制第一表格,包括:
响应表格生成指令,基于表格生成指令中的表格参数在待识别图片中绘制第一表格。
在一种可能的实现方式中,基于表格生成指令中的表格参数在待识别图片中绘制第一表格,包括:
获取表格生成指令中携带的预设表格行数以及预设表格列数;
基于预设表格行数以及预设表格列数在待识别图片中预设位置处绘制第一表格,第一表格包括预设表格行数的行以及预设表格列数的列。
在一种可能的实现方式中,基于预设表格行数以及预设表格列数在待识别图片中预设位置处绘制第一表格之后,还包括:
响应于针对第一表格的表格调节指令,对第一表格中的行间距和/或列间距进行调整。
在一种可能的实现方式中,基于字符信息以及表格信息,生成待识别图片的表格文件,包括:
基于表格信息绘制第二表格,第二表格的行列数与第一表格的行数以及列数相同;
基于字符信息以及表格信息,对第二表格中的第二单元格进行字符填充,生成待识别图片的表格文件。
在一种可能的实现方式中,字符信息包括第一表格中各第一单元格包括的字符的字符内容信息以及字符坐标信息,第一表格的表格信息包括第一表格中各第一单元格的第一单元格布局信息以及第一单元格坐标信息。
在一种可能的实现方式中,基于字符信息以及表格信息,对第二表格中的第二单元格进行字符填充,包括:
根据第二表格中各第二单元格的第二单元格布局信息、第一表格中各第一单元格的第一单元格布局信息以及第一单元格坐标信息,确定各第二单元格对应的目标第一单元格布局信息的目标第一单元格坐标信息;
根据各第二单元格对应的目标第一单元格坐标信息、第一表格中各第一单元格包括的字符的字符内容信息以及字符坐标信息,确定各第二单元格对应的目标字符坐标信息的目标字符内容信息;
根据各第二单元格对应的目标字符内容信息对第二表格中的第二单元格进行字符填充。
在一种可能的实现方式中,根据各第二单元格对应的目标第一单元格坐标信息、第一表格中各第一单元格包括的字符的字符内容信息以及字符坐标信息,确定各第二单元格对应的目标字符坐标信息的目标字符内容信息,包括:
将各第二单元格对应的目标第一单元格坐标信息与第一表格中各第一单元格包括的字符的字符坐标信息进行比较,将坐标范围落入各第二单元格对应的目标第一单元格坐标信息对应的坐标范围内的字符坐标信息,确定为各第二单元格对应的目标字符坐标信息;
根据第一表格中各第一单元格包括的字符的字符内容信息,确定各第二单元格对应的目标字符坐标信息的目标字符内容信息。
在一种可能的实现方式中,字符坐标信息为包围字符的字符框的对顶角的坐标信息,第一单元格坐标信息为第一单元格的对顶角的坐标信息。
在本说明书实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本说明书实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本说明书实施例所提供的一种字符识别方法、装置、存储介质以及终端的描述,对于本领域的技术人员,依据本说明书实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书实施例内容不应理解为对本说明书实施例的限制。

Claims (13)

1.一种字符识别方法,所述方法包括:
获取待识别图片,在所述待识别图片中绘制第一表格;
识别所述待识别图片的字符信息以及所述第一表格的表格信息;
基于所述字符信息以及所述表格信息,生成所述待识别图片的表格文件。
2.根据权利要求1所述的方法,所述在所述待识别图片中绘制第一表格,包括:
响应表格生成指令,基于所述表格生成指令中的表格参数在所述待识别图片中绘制第一表格。
3.根据权利要求2所述的方法,所述基于所述表格生成指令中的表格参数在所述待识别图片中绘制第一表格,包括:
获取所述表格生成指令中携带的预设表格行数以及预设表格列数;
基于所述预设表格行数以及所述预设表格列数在所述待识别图片中预设位置处绘制第一表格,所述第一表格包括所述预设表格行数的行以及所述预设表格列数的列。
4.根据权利要求3所述的方法,所述基于所述预设表格行数以及所述预设表格列数在所述待识别图片中预设位置处绘制第一表格之后,还包括:
响应于针对所述第一表格的表格调节指令,对所述第一表格中的行间距和/或列间距进行调整。
5.根据权利要求1所述的方法,所述基于所述字符信息以及所述表格信息,生成所述待识别图片的表格文件,包括:
基于所述表格信息绘制第二表格,所述第二表格的行列数与所述第一表格的行数以及列数相同;
基于所述字符信息以及所述表格信息,对所述第二表格中的第二单元格进行字符填充,生成所述待识别图片的表格文件。
6.根据权利要求5所述的方法,所述字符信息包括所述第一表格中各第一单元格包括的字符的字符内容信息以及字符坐标信息,所述第一表格的表格信息包括所述第一表格中各第一单元格的第一单元格布局信息以及第一单元格坐标信息。
7.根据权利要求6所述的方法,所述基于所述字符信息以及所述表格信息,对所述第二表格中的第二单元格进行字符填充,包括:
根据所述第二表格中各第二单元格的第二单元格布局信息、所述第一表格中各第一单元格的第一单元格布局信息以及第一单元格坐标信息,确定各第二单元格对应的目标第一单元格布局信息的目标第一单元格坐标信息;
根据各第二单元格对应的目标第一单元格坐标信息、所述第一表格中各第一单元格包括的字符的字符内容信息以及字符坐标信息,确定各第二单元格对应的目标字符坐标信息的目标字符内容信息;
根据各第二单元格对应的目标字符内容信息对所述第二表格中的第二单元格进行字符填充。
8.根据权利要求7所述的方法,所述根据各第二单元格对应的目标第一单元格坐标信息、所述第一表格中各第一单元格包括的字符的字符内容信息以及字符坐标信息,确定各第二单元格对应的目标字符坐标信息的目标字符内容信息,包括:
将各第二单元格对应的目标第一单元格坐标信息与所述第一表格中各第一单元格包括的字符的字符坐标信息进行比较,将坐标范围落入各第二单元格对应的目标第一单元格坐标信息对应的坐标范围内的字符坐标信息,确定为各第二单元格对应的目标字符坐标信息;
根据所述第一表格中各第一单元格包括的字符的字符内容信息,确定各第二单元格对应的目标字符坐标信息的目标字符内容信息。
9.根据权利要求6所述的方法,所述字符坐标信息为包围字符的字符框的对顶角的坐标信息,所述第一单元格坐标信息为第一单元格的对顶角的坐标信息。
10.一种字符识别装置,所述装置包括:
表格绘制模块,用于获取待识别图片,在所述待识别图片中绘制第一表格;
识别模块,用于识别所述待识别图片的字符信息以及所述第一表格的表格信息;
填充模块,用于基于所述字符信息以及所述表格信息,生成所述待识别图片的表格文件。
11.一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或所述处理器执行如权利要求1~9任一项所述方法的步骤。
12.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~9任意一项的所述方法的步骤。
13.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1~9任一项所述方法的步骤。
CN202310197164.7A 2023-02-23 2023-02-23 字符识别方法、装置、存储介质以及终端 Pending CN116246290A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310197164.7A CN116246290A (zh) 2023-02-23 2023-02-23 字符识别方法、装置、存储介质以及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310197164.7A CN116246290A (zh) 2023-02-23 2023-02-23 字符识别方法、装置、存储介质以及终端

Publications (1)

Publication Number Publication Date
CN116246290A true CN116246290A (zh) 2023-06-09

Family

ID=86634756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310197164.7A Pending CN116246290A (zh) 2023-02-23 2023-02-23 字符识别方法、装置、存储介质以及终端

Country Status (1)

Country Link
CN (1) CN116246290A (zh)

Similar Documents

Publication Publication Date Title
CN114155543A (zh) 神经网络训练方法、文档图像理解方法、装置和设备
US10452747B2 (en) Dynamically formatting scalable vector graphics
CN111832449A (zh) 工程图纸的显示方法及相关装置
CN111240669B (zh) 界面生成方法、装置、电子设备及计算机存储介质
CN113343958B (zh) 一种文本识别方法、装置、设备及介质
CN110990010A (zh) 一种软件界面代码的生成方法及装置
CN113268303A (zh) 界面元素配置方法、装置、存储介质及电子设备
CN111368744A (zh) 图片中非结构化表格识别方法及装置
WO2021023085A1 (zh) 水印添加方法、水印识别方法、装置和电子设备
CN107122104B (zh) 数据显示方法及装置
CN114937270A (zh) 古籍文字处理方法、装置及计算机可读存储介质
KR102073644B1 (ko) 이미지에 포함된 텍스트 인식장치, 텍스트 인식방법 및 텍스트 인식방법을 실행하기 위한 프로그램을 기록한 기록매체
CN113313066A (zh) 图像识别方法、装置、存储介质以及终端
US20190266220A1 (en) Information processing apparatus and non-transitory computer readable medium
CN113051235A (zh) 文档加载方法、装置、终端和存储介质
CN108681531B (zh) 文档输入的控制方法及装置
JP6924544B2 (ja) 漫画データ表示システム、方法及びプログラム
CN116246290A (zh) 字符识别方法、装置、存储介质以及终端
CN116052195A (zh) 文档解析方法、装置、终端设备和计算机可读存储介质
CN113038184B (zh) 数据处理方法、装置、设备及存储介质
JP7029557B1 (ja) 判定装置、判定方法および判定プログラム
CN111062377B (zh) 一种题号检测方法、系统、存储介质及电子设备
CN112950167A (zh) 设计服务匹配方法、装置、设备及存储介质
CN111399722A (zh) 邮件签名的生成方法、装置、终端及存储介质
CN106599809B (zh) 答案信息录入方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination