CN115527222A - 文字识别方法、装置、设备及存储介质 - Google Patents

文字识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115527222A
CN115527222A CN202211366983.1A CN202211366983A CN115527222A CN 115527222 A CN115527222 A CN 115527222A CN 202211366983 A CN202211366983 A CN 202211366983A CN 115527222 A CN115527222 A CN 115527222A
Authority
CN
China
Prior art keywords
file
area
information
template
file area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211366983.1A
Other languages
English (en)
Inventor
吕勇
姜纪林
刘宁
黄智勇
沈晓明
翟羽佳
曹衍麒
孙嘉明
孙前方
王晓鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Winning Health Technology Group Co Ltd
Original Assignee
Winning Health Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Winning Health Technology Group Co Ltd filed Critical Winning Health Technology Group Co Ltd
Priority to CN202211366983.1A priority Critical patent/CN115527222A/zh
Publication of CN115527222A publication Critical patent/CN115527222A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

本申请提供了一种文字识别方法、装置、设备及存储介质,其中,该方法包括获取待识别非电子文件对应的初始电子文件的标识,并从预设的模板库中查找初始电子文件对应的模板文件,从而对初始电子文件进行切割和二值化处理,得到初始电子文件中多个文件区域、各文件区域的信息以及元素像素数据,根据初始电子文件中各文件区域的信息、元素像素数据以及预设的标准库,确定各文件区域中的文字,最后根据各文件区域中的文字以及文件区域的信息,得到非电子文件对应的文件信息。通过模板文件对初始电子文件进行切割,可以提高文件切割的效率。通过将元素像素数据与预设的标准库进行比对,确定各区域中的文字,可以提高文字识别的准确率和结果的可信度。

Description

文字识别方法、装置、设备及存储介质
技术领域
本申请涉及文字识别技术领域,具体而言,涉及一种文字识别方法、装置、设备及存储介质。
背景技术
OCR(optical character recognition)文字识别是指电子设备检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。
随着各行各业信息的电子化,针对表单、发票等的文字准确识别成为了人们关注的重点,OCR技术使得表单、发票等的识别成为可能。
但是直接采用现有的OCR识别技术进行表单识别,需要适应不同的表单格式,存在准确率和效率较低的问题。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种文字识别方法、装置、设备及存储介质,以解决现有技术中文字识别准确率和效率较低的问题。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请一实施例提供了一种文字识别方法,所述方法包括:
获取待识别非电子文件对应的初始电子文件的标识,并根据所述初始电子文件的标识从预设的模板库中查找所述初始电子文件对应的模板文件,所述模板文件中记录有多个模板区域以及所述模板区域的坐标;
根据所述模板文件对所述初始电子文件进行切割和二值化处理,得到所述初始电子文件中的多个文件区域、各文件区域的信息以及各文件区域中的元素像素数据,各所述文件区域的信息包括:元素名称、元素标签、元素尺寸、元素位置、元素类型;
根据所述初始电子文件中各文件区域的信息、各文件区域中的元素像素数据以及预设的标准库,确定各文件区域中的文字,所述标准库中存储有多个文字以及文字的像素坐标;
根据各文件区域中的文字以及所述文件区域的信息,得到所述非电子文件对应的文件信息。
可选的,所述根据所述模板文件对所述初始电子文件进行切割和二值化处理,得到所述初始电子文件中的多个文件区域、各文件区域的信息以及各文件区域中的元素像素数据,包括:
根据所述模板文件对所述初始电子文件进行切割,得到多个文件区域以及各文件区域的信息;
对各所述文件区域进行二值化处理,得到所述文件区域中的元素像素数据。
可选的,所述根据所述模板文件对所述进行切割,得到多个文件区域以及各文件区域的信息,包括:
根据所述模板文件中各模板区域的坐标,确定所述初始电子文件中与所述模板区域一一对应的各文件区域的坐标;
按照所述文件区域的坐标,对所述初始电子文件进行切割,得到各所述文件区域,并将与所述文件区域对应的模板区域的信息作为所述文件区域的信息。
可选的,所述根据所述初始电子文件中各文件区域的信息、各文件区域中的元素像素数据以及预设的标准库,确定各文件区域中的文字,包括:
将所述各文件区域的信息标注至所述文件区域中的元素像素数据;
根据所述文件区域中的元素像素数据以及所述预设的标准库,确定所述文件区域中的文字。
可选的,根据所述文件区域中的元素像素数据以及所述预设的标准库,确定所述文件区域中的文字,包括:
从所述标准库中查找与所述元素像素数据匹配度满足预设条件的至少一个待选文字;
根据各待选文字与所述元素像素数据的匹配度,确定目标待选文字;
将所述目标待选文字作为所述元素像素数据所指示的文字。
可选的,根据各文件区域中的文字以及所述文件区域的信息,得到所述非电子文件对应的文件信息,包括:
根据所述文件区域的信息以及所述模板文件,生成可编辑模板文件;
将所述文件区域中的文字写入所述可编辑模板中对应的位置,得到所述可编辑电子文件。
可选的,根据各文件区域中的文字以及所述文件区域的信息,得到所述非电子文件对应的文件信息,包括:
将所述文件区域的信息以及所述文件区域中的文字存储至数据库表中;
根据所述数据库表中存储的数据,得到所述非电子文件对应的文件信息。
第二方面,本申请另一实施例提供了一种文字识别装置,所述装置包括:
获取模块,用于:获取待识别非电子文件对应的初始电子文件的标识,并根据所述初始电子文件的标识从预设的模板库中查找所述初始电子文件对应的模板文件,所述模板文件中记录有多个模板区域以及所述模板区域的坐标;
处理模块,用于:根据所述模板文件对所述初始电子文件进行切割和二值化处理,得到所述初始电子文件中的多个文件区域、各文件区域的信息以及各文件区域中的元素像素数据,各所述文件区域的信息包括:元素名称、元素标签、元素尺寸、元素位置、元素类型;
确定模块,用于:根据所述初始电子文件中各文件区域的信息、各文件区域中的元素像素数据以及预设的标准库,确定各文件区域中的文字,所述标准库中存储有多个文字以及文字的像素坐标;
文件信息确定模块,用于:根据各文件区域中的文字以及所述文件区域的信息,得到所述非电子文件对应的文件信息。
可选的,所述处理模块还用于:
根据所述模板文件对所述初始电子文件进行切割,得到多个文件区域以及各文件区域的信息;
对各所述文件区域进行二值化处理,得到所述文件区域中的元素像素数据。
可选的,所述处理模块还用于:
根据所述模板文件中各模板区域的坐标,确定所述初始电子文件中与所述模板区域一一对应的各文件区域的坐标;
按照所述文件区域的坐标,对所述初始电子文件进行切割,得到各所述文件区域,并将与所述文件区域对应的模板区域的信息作为所述文件区域的信息。
可选的,所述确定模块还用于:
将所述各文件区域的信息标注至所述文件区域中的元素像素数据;
根据所述文件区域中的元素像素数据以及所述预设的标准库,确定所述文件区域中的文字。
可选的,所述确定模块还用于:
从所述标准库中查找与所述元素像素数据匹配度满足预设条件的至少一个待选文字;
根据各待选文字与所述元素像素数据的匹配度,确定目标待选文字;
将所述目标待选文字作为所述元素像素数据所指示的文字。
可选的,所述文件信息确定模块还用于:
根据所述文件区域的信息以及所述模板文件,生成可编辑模板文件;
将所述文件区域中的文字写入所述可编辑模板中对应的位置,得到所述可编辑电子文件。
可选的,所述文件信息确定模块还用于:
将所述文件区域的信息以及所述文件区域中的文字存储至数据库表中;
根据所述数据库表中存储的数据,得到所述非电子文件对应的文件信息。
第三方面,本申请另一实施例提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述文字识别方法的步骤。
第四方面,本申请另一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述文字识别方法的步骤。
本申请的有益效果是:通过模板文件对初始电子文件进行切割,电子设备只需要保存切割后文件中各区域的数据,而不需要重新保存初始电子文件的文件格式,可以提高文件切割的效率,实现对非电子文件的批量化处理,并且通过模板文件确定初始电子文件中文件区域的信息,并结合识别出的文字得到非电子文件对应的文件信息,针对不同的表单格式就可以采用预设的不同的模板文件进行识别,从而在文字识别时提高电子设备对不同表单类型的适应能力。通过将元素像素数据与预设的标准库进行比对,确定各区域中的文字,可以提高文字识别的准确率和结果的可信度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种应用场景的示意图;
图2示出了本申请实施例提供的一种文字识别方法的流程图;
图3示出了本申请实施例提供的一种得到元素像素数据方法的流程图;
图4示出了本申请实施例提供的一种双峰直方图的示意图;
图5示出了本申请实施例提供的一种切割初始电子文件方法的流程图;
图6示出了本申请实施例提供的一种确定文字方法的流程图;
图7示出了本申请实施例提供的一种确定目标待选文字方法的流程图;
图8示出了本申请实施例提供的一种得到可编辑电子文件方法的流程图;
图9示出了本申请实施例提供的一种确定文件信息方法的流程图;
图10示出了本申请实施例提供的一种文字识别装置的结构示意图;
图11示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
目前虽然OCR文字识别技术已经取得了长足的进步与发展,但是针对特殊场景下的文字识别依然存在效率和准确率较低的问题,例如在医疗行业中,经常需要识别各种格式不同的表单,且表单中可能包括很多专业词汇和专有写法,此时如果采用现有的OCR识别技术进行表单识别,不仅效率低,还会出现识别准确率较低的问题。
基于上述问题,本申请提出一种文字识别方法,执行主体例如可以是电子设备,如图1所示,是本申请给出的一种应用场景示意图,用户在对非电子文件,例如纸质文件扫描后,可以得到图片或PDF(Portable Document Format)格式文件,将得到的图片或PDF文件输入电子设备,电子设备采用本申请的文字识别方法,可以得到可编辑的文件信息,并将可编辑的文件信息存入数据库或在前端界面进行显示。
接下来结合图2对本申请的文字识别方法进行说明,如图2所示,该方法包括:
S201:获取待识别非电子文件对应的初始电子文件的标识,并根据初始电子文件的标识从预设的模板库中查找初始电子文件对应的模板文件,模板文件中记录有多个模板区域以及模板区域的坐标。
可选的,待识别非电子文件例如可以是纸质文件,电子设备可以对待识别非电子文件进行扫描,得到初始电子文件。
可选的,初始电子文件可以是待识别电子文件扫描得到的图片或PDF文件,初始电子文件的标识例如可以是表单文件的表名称。
作为另一种可能的实施方式,电子设备也可以直接接收图片或PDF文件作为初始电子文件。
可选的,预设的模板库中可以包括多种表单类型,模板文件可以是表征表单格式的只包括基础数据的表单。示例性的,当模板文件为医嘱执行单时,模板文件的基础数据例如可以包括:表头、内容、表尾、开始时间、结束时间、操作人、患者姓名、药品名称、数量等。
可选的,模板区域可以是电子设备根据模板中表格线的坐标分割的多个子区域,模板文件中可以记载多个模板区域及各个模板区域的坐标。
示例性的,电子设备可以根据表单中分割线的坐标将一行或指定的几行作为一个模板区域,并记录各模板区域的坐标。
S202:根据模板文件对初始电子文件进行切割和二值化处理,得到初始电子文件中的多个文件区域、各文件区域的信息以及各文件区域中的元素像素数据,各文件区域的信息包括:元素名称、元素标签、元素尺寸、元素位置、元素类型。
可选的,根据模板文件对初始电子文件进行切割,可以是按照模板区域对初始电子文件进行切割,得到初始电子文件切割后的多个文件区域,其中,文件区域可以与模板区域一一对应,或是文件区域可以是模板区域中的一部分。
示例性的,假设初始电子文件为医嘱执行单,需要进行文字识别的区域可以是整个表单,也可以是表单中的部分区域,此时电子设备可以根据模板文件对表单进行切割,切割后的文件区域可以只包括需要进行文字识别的区域。
可选的,文件区域的信息可以是各文件区域中的基础数据及其属性,例如元素名称、元素标签、元素尺寸、元素位置、元素类型等,示例性的,文件区域的信息可以如下表1所示。
表1文件区域信息示例
元素名称 元素标签 元素尺寸 元素位置 元素类型
发票号 Lable (58,63) (61,0) Header
可选的,各文件区域中的元素像素数据可以是文件区域中文字的像素的坐标化表示。电子设备可以在扫描文字时将文字的像素点用相对坐标进行表示。
S203:根据初始电子文件中各文件区域的信息、各文件区域中的元素像素数据以及预设的标准库,确定各文件区域中的文字,标准库中存储有多个文字以及文字的像素坐标。
可选的,预设的标准库中可以包括标准字库像素坐标值,存储有多个文字和文字对应的像素坐标值。
可选的,上述S202步骤中将文件区域中的元素像素数据的表示方法可以与预设的标准库中像素坐标值的表示方法相同,以提高元素像素数据的匹配效率。
示例性的,在预设的标准库中,“了”的像素坐标值例如可以是:(0:20,1:21,2:22,3:23,4:24,5:25,6:26,7:27),电子设备可以根据扫描得到的元素像素数据和预设标准库中的像素坐标值进行比对,并确定该元素像素数据对应的文字。
可选的,电子设备可以对文件区域中的每个文字依次进行比对,从而确定文件区域中的文字信息。
S204:根据各文件区域中的文字以及文件区域的信息,得到非电子文件对应的文件信息。
可选的,非电子文件对应的文件信息可以是非电子文件中的数据的电子化表示,示例性的,表单图片对应的文件信息可以是图片中表单的电子化表示,例如表格或是其他可以转化为表格的电子化存储格式的文件。
在本申请实施例中,获取待识别非电子文件对应的初始电子文件的标识,并根据初始电子文件的标识从预设的模板库中查找初始电子文件对应的模板文件,从而根据模板文件对初始电子文件进行切割和二值化处理,得到初始电子文件中多个文件区域、各文件区域的信息以及各文件区域中的元素像素数据,根据初始电子文件中各文件区域的信息、各文件区域中的元素像素数据以及预设的标准库,确定各文件区域中的文字,最后根据各文件区域中的文字以及文件区域的信息,得到非电子文件对应的文件信息。
通过模板文件对初始电子文件进行切割,电子设备只需要保存切割后文件中各区域的数据,而不需要重新保存初始电子文件的文件格式,可以提高文件切割的效率,实现对非电子文件的批量化处理,并且通过模板文件确定初始电子文件中文件区域的信息,并结合识别出的文字得到非电子文件对应的文件信息,针对不同的表单格式就可以采用预设的不同的模板文件进行识别,从而在文字识别时提高电子设备对不同表单类型的适应能力。通过将元素像素数据与预设的标准库进行比对,确定各区域中的文字,可以提高文字识别的准确率和结果的可信度。
本申请的文字识别方法可以将不可编辑的文件,例如图片、PDF文件等识别转化为可编辑的、结构化的电子文件,可以方便进行数据调阅和数据关联比对,提高了数据使用的交互性。
接下来结合图3,对上述根据模板文件对初始电子文件进行切割和二值化处理,得到初始电子文件中的多个文件区域、各文件区域的信息以及各文件区域中的元素像素数据的步骤进行说明,如图3所示,上述S202步骤包括:
S301:根据模板文件对初始电子文件进行切割,得到多个文件区域以及各文件区域的信息。
可选的,电子设备可以根据模板文件中的模板区域对初始电子文件进行切割,得到初始电子文件的多个子区域作为文件区域,并确定各文件区域中的信息。
S302:对各文件区域进行二值化处理,得到文件区域中的元素像素数据。
示例性的,对各文件区域进行二值化处理,得到文件区域中的元素像素数据的方法可以是:对各文件区域坐标化,并对各文件区域中的文字扫描,形成像素点,并在坐标上进行标注。
二值化的处理方法例如可以是直方图谷点门限法,对一幅图像进行直方图分析,可发现直方图呈多峰分布,利用前景和背景不同的灰度值,取前景和背景之间的谷点作阈值,将他们二值化区分,如下式(1):
Figure BDA0003922368840000101
以上公式中TH即为阈值。f(x,y),g(x,y)分别表示原始图像中的点和二值化后图像中的点的值。原图像灰度均值m与方差s之差即为阈值,如图4所示,给出了一种双峰直方图,其中T为阈值。
直方图可以帮助分析图像中的灰度变化,进而帮助确定最优二值化的灰度阈值(threshold level)。如果物体与背景的灰度值对比明显,此时灰度直方图就会包含双峰(bimodal histogram),即直方图中一般会有两个峰值,分别为图像的前景和背景。前景使得某个灰度区间的灰度值的数量急剧增加,就会产生一个峰值,同理背景会使另一个灰度区间的灰度值的数量急剧增加,就产生另外一个峰值,两峰间的谷底对应于物体边缘附近相对较少数目的像素点。这两个峰值之间的最小值一般就是最优二值化的分界点,通过这个分界点可以把前景和背景很好地分割开来。
在本申请实施例中,通过对初始电子文件进行切割和二值化处理,可以得到多个文件区域、各文件区域的信息以及文件区域中文字的像素坐标化表示,方便后续对文字做进一步精确识别与匹配,从而提高文字识别的准确率。
以下是对上述根据模板文件对进行切割,得到多个文件区域以及各文件区域的信息的步骤说明,如图5所示,上述S301步骤包括:
S501:根据模板文件中各模板区域的坐标,确定初始电子文件中与模板区域一一对应的各文件区域的坐标。
可选的,模板文件中各模板区域可以与初始电子文件中各文件区域一一对应,因此,根据模板区域的坐标可以确定文件区域的坐标。
示例性的,模板区域的坐标例如可以是区域分割线的坐标。
S502:按照文件区域的坐标,对初始电子文件进行切割,得到各文件区域,并将与文件区域对应的模板区域的信息作为文件区域的信息。
可选的,按照文件区域的坐标,对初始电子文件进行切割,可以是按照文件区域的分割线的坐标切割电子文件,得到多个文件区域,模板区域中可以包括每个区域的信息,例如元素名称、元素标签、元素类型等,电子设备可以将模板区域中的信息作为文件区域的信息。
示例性的,电子设备在扫描初始电子文件时,可以采用与模板文件相同的坐标系建立规则,对初始电子文件建立坐标系,并将初始电子文件上的所有点赋予坐标,例如在初始电子文件和模板文件上选取预设的特征点,并根据特征点建立坐标系,示例性的,特征点例如可以是表单的四个顶点,由于模板文件和初始电子文件的格式相同,建立坐标系的规则也相同,因此,初始电子文件与模板文件中表格分割线的坐标也相同,根据初始电子文件和模板文件中相同的分割线坐标就可以实现对初始电子文件的切割。
在本申请实施例中,电子设备根据模板文件对初始电子文件进行切割,得到多个文件区域和文件区域中的信息,通过模板文件直接获得文件区域中的基础信息,可以使得表单文字识别更标准化。
以下是对上述根据初始电子文件中各文件区域的信息、各文件区域中的元素像素数据以及预设的标准库,确定各文件区域中的文字的步骤说明,如图6所示,上述S203步骤包括:
S601:将各文件区域的信息标注至文件区域中的元素像素数据。
可选的,电子设备可以将各文件区域的信息标注至文件区域中的元素像素数据中,即将文件区域的信息与元素像素数据关联起来,示例性的,可以对元素类型、元素标签等文件区域的信息与元素像素数据建立映射关系,或生成文件区域的信息与元素像素数据的键值对,以实现文件区域的信息与元素像素数据的关联。
S602:根据文件区域中的元素像素数据以及预设的标准库,确定文件区域中的文字。
可选的,电子设备将文件区域中元素像素数据的像素坐标值与预设的标准库进行比对,可以确定文件区域中的文字。
在本申请实施例中,通过将文件区域的信息标注在元素像素数据上,可以方便电子设备根据元素像素数据区分该元素像素数据所属的文件区域。通过将文件区域中的元素像素数据的像素坐标值与预设的标准库进行比对,可以提高文字识别的精确度。
以下是对上述根据文件区域中的元素像素数据以及预设的标准库,确定文件区域中的文字的步骤说明,如图7所示,上述S602步骤包括:
S701:从标准库中查找与元素像素数据匹配度满足预设条件的至少一个待选文字。
示例性的,电子设备可以从标准库中查找与元素像素数据匹配度最高的一个或几个文字作为待选文字。
假设“3”的像素坐标值为(0:20,1:21,2:22,3:23,4:24,5:25),电子设备进行查找后,确定的与该像素坐标值匹配度满足预设条件的包括以下3种:
“3”:(0:20,1:21,2:22,3:23,4:24,5:25);
“了”:(0:20,1:21,2:22,3:23,4:24,5:25,6:26,7:27);
“E”:(1:21,0:20,3:22,2:22,3:23,4:24,5:25,6:26,7:27);
则待选文字就可以包括:“3”、“了”和“E”。
S702:根据各待选文字与元素像素数据的匹配度,确定目标待选文字。
可选的,根据各待选文字与元素像素数据的匹配度,确定目标待选文字的方法例如可以是采用协同过滤算法,根据待选文字中像素点的权重与元素像素数据的匹配度,得到推荐指数最高的待选文字,作为目标待选文字。
示例性的,协同过滤算法的计算表示可以如下式(2)所示:
Figure BDA0003922368840000131
其中A为基准权重,B是像素点包含、大于、等于的权重,根据上式(1)对待选文字进行打分,可以得到推荐指数最高的文字作为目标待选文字。
S703:将目标待选文字作为元素像素数据所指示的文字。
可选的,电子设备可以对文字区域中的每个文字进行上述S701-S702步骤,从而确定文字区域中的所有文字。
在本申请实施例中,电子设备通过将文件区域中的元素像素数据与预设的标准库进行比对,从而确定文件区域中的文字,可以提高文字识别的准确率。
以下是对上述根据各文件区域中的文字以及文件区域的信息,得到非电子文件对应的文件信息的步骤说明,作为一种可能的实施方式,如图8所示,上述S204步骤包括:
S801:根据文件区域的信息以及模板文件,生成可编辑模板文件。
可选的,电子设备可以根据各文件区域携带的标识确定文件区域对应的模板文件,并根据模板文件以及文件区域的信息,生成可编辑模板文件。
可选的,可编辑模板文件的格式可以与模板文件格式相同,也可以与模板文件中的部分区域相同。
需要说明的是,需要进行文字识别的区域可以是初始电子文件中的部分区域,例如在一个发票表单中,用户可能只需要获取其中的发票代码、操作人等信息,其他信息可能不需要提取,因此电子设备可以只对其中的发票代码和操作人信息进行提取,根据文件区域的信息和模板文件提取出的模板区域的信息,生成可编辑模板文件,可编辑模板文件中可以只包括发票代码、操作人。
作为另一种可能的应用场景,电子设备可以同时对多个初始电子文件进行处理,得到多个初始电子文件分别对应的多个文件区域,各文件区域中可以包括标识,用于指示该文件区域所对应的初始电子文件,电子设备可以根据标识确定属于同一电子文件的文件区域,并对这些文件区域执行本步骤,以得到可编辑模板文件。
S802:将文件区域中的文字写入可编辑模板中对应的位置,得到可编辑电子文件。
可选的,电子设备可以将文件区域中所有识别出的文字写入与可编辑模板坐标相同的位置中,得到可编辑电子文件。
在本申请实施例中,电子设备根据文件区域的信息和模板文件直接生成可编辑电子文件,可以将可编辑电子文件直接保存在数据库中,以方便用户的调用。
作为另一种可能的实施方式,上述S204步骤中,根据各文件区域中的文字以及文件区域的信息,得到非电子文件对应的文件信息,如图9所示,包括:
S901:将文件区域的信息以及文件区域中的文字存储至数据库表中。
可选的,电子设备可以将文件区域的信息以及文件区域中的文字存储到结构化数据表中,示例性的,电子设备可以将文件区域的信息和文件区域中的文字组合成键值对,生成JSON报文,并将报文发送给数据库进行存储,报文中可以包括其所对应的文字区域的标识。
示例性的,报文的格式可以如下所示:
{"Table":[
{"name":"医院名称","lable":"Lable","size":"(58,63)","height":"(61,0)",region:"Header"}
{"name":"序号","lable":"Lable","size":"(50,40)","height":"(0,20)",region:"Header"}
{"name":"","DBText":"Lable","size":"(50,40)","height":"(0,20)",region:"Detail"}
]}
其中,一个文件区域可以对应一个报文。
S902:根据数据库表中存储的数据,得到非电子文件对应的文件信息。
可选的,电子设备可以从数据库中读取JSON报文,确定该报文对应的模板,并对报文中的节点进行解析,将解析内容按照模板中的格式在图形界面上以表单的形式进行展示。
值得注意的是,用户还可以在图形界面上对显示的表单进行调整,例如调整显示的位置、区域等,用户调整后,如果需要进行保存,电子设备可以根据调整后的表单重新生成报文数据,并用新的报文数据在数据库中覆盖原本的报文数据。
本申请实施例中,生成非电子文件对应的文件信息后,电子设备可以将其存入结构化的数据库表中,以供用户进行调阅和查看,示例性的,可以对发票进行文字识别以得到发票中的发票数据,并根据发票数据与数据库存储的其他发票数据进行关联比对,以实现发票的查询、核销等。
基于同一发明构思,本申请实施例中还提供了与文字识别方法对应的文字识别装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述文字识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图10所示,为本申请实施例提供的一种文字识别装置的示意图,所述装置包括:获取模块1001、处理模块1002、确定模块1003和文件信息确定模块1004,其中:
获取模块1001,用于:获取待识别非电子文件对应的初始电子文件的标识,并根据初始电子文件的标识从预设的模板库中查找初始电子文件对应的模板文件,模板文件中记录有多个模板区域以及模板区域的坐标;
处理模块1002,用于:根据模板文件对初始电子文件进行切割和二值化处理,得到初始电子文件中的多个文件区域、各文件区域的信息以及各文件区域中的元素像素数据,各文件区域的信息包括:元素名称、元素标签、元素尺寸、元素位置、元素类型;
确定模块1003,用于:根据初始电子文件中各文件区域的信息、各文件区域中的元素像素数据以及预设的标准库,确定各文件区域中的文字,标准库中存储有多个文字以及文字的像素坐标;
文件信息确定模块1004,用于:根据各文件区域中的文字以及文件区域的信息,得到非电子文件对应的文件信息。
可选的,处理模块1002还用于:
根据模板文件对初始电子文件进行切割,得到多个文件区域以及各文件区域的信息;
对各文件区域进行二值化处理,得到文件区域中的元素像素数据。
可选的,处理模块1002还用于:
根据模板文件中各模板区域的坐标,确定初始电子文件中与模板区域一一对应的各文件区域的坐标;
按照文件区域的坐标,对初始电子文件进行切割,得到各文件区域,并将与文件区域对应的模板区域的信息作为文件区域的信息。
可选的,确定模块1003还用于:
将各文件区域的信息标注至文件区域中的元素像素数据;
根据文件区域中的元素像素数据以及预设的标准库,确定文件区域中的文字。
可选的,确定模块1003还用于:
从标准库中查找与元素像素数据匹配度满足预设条件的至少一个待选文字;
根据各待选文字与元素像素数据的匹配度,确定目标待选文字;
将目标待选文字作为元素像素数据所指示的文字。
可选的,文件信息确定模块1004还用于:
根据文件区域的信息以及模板文件,生成可编辑模板文件;
将文件区域中的文字写入可编辑模板中对应的位置,得到可编辑电子文件。
可选的,文件信息确定模块1004还用于:
将文件区域的信息以及文件区域中的文字存储至数据库表中;
根据数据库表中存储的数据,得到非电子文件对应的文件信息。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本申请实施例通过模板文件对初始电子文件进行切割,电子设备只需要保存切割后文件中各区域的数据,而不需要重新保存初始电子文件的文件格式,可以提高文件切割的效率,实现对非电子文件的批量化处理,并且通过模板文件确定初始电子文件中文件区域的信息,并结合识别出的文字得到非电子文件对应的文件信息,针对不同的表单格式就可以采用预设的不同的模板文件进行识别,从而在文字识别时提高电子设备对不同表单类型的适应能力。通过将元素像素数据与预设的标准库进行比对,确定各区域中的文字,可以提高文字识别的准确率和结果的可信度。
本申请实施例还提供了一种电子设备,如图11所示,为本申请实施例提供的电子设备结构示意图,包括:处理器1101、存储器1102和总线。所述存储器1102存储有所述处理器1101可执行的机器可读指令(比如,图10中的装置中获取模块1001、处理模块1002、确定模块1003和文件信息确定模块1004对应的执行指令等),当计算机设备运行时,所述处理器1101与所述存储器1102之间通过总线通信,所述机器可读指令被所述处理器1101执行时执行上述文字识别方法的处理。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述文字识别方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种文字识别方法,其特征在于,包括:
获取待识别非电子文件对应的初始电子文件的标识,并根据所述初始电子文件的标识从预设的模板库中查找所述初始电子文件对应的模板文件,所述模板文件中记录有多个模板区域以及所述模板区域的坐标;
根据所述模板文件对所述初始电子文件进行切割和二值化处理,得到所述初始电子文件中的多个文件区域、各文件区域的信息以及各文件区域中的元素像素数据,各所述文件区域的信息包括:元素名称、元素标签、元素尺寸、元素位置、元素类型;
根据所述初始电子文件中各文件区域的信息、各文件区域中的元素像素数据以及预设的标准库,确定各文件区域中的文字,所述标准库中存储有多个文字以及文字的像素坐标;
根据各文件区域中的文字以及所述文件区域的信息,得到所述非电子文件对应的文件信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述模板文件对所述初始电子文件进行切割和二值化处理,得到所述初始电子文件中的多个文件区域、各文件区域的信息以及各文件区域中的元素像素数据,包括:
根据所述模板文件对所述初始电子文件进行切割,得到多个文件区域以及各文件区域的信息;
对各所述文件区域进行二值化处理,得到所述文件区域中的元素像素数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述模板文件对所述进行切割,得到多个文件区域以及各文件区域的信息,包括:
根据所述模板文件中各模板区域的坐标,确定所述初始电子文件中与所述模板区域一一对应的各文件区域的坐标;
按照所述文件区域的坐标,对所述初始电子文件进行切割,得到各所述文件区域,并将与所述文件区域对应的模板区域的信息作为所述文件区域的信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述初始电子文件中各文件区域的信息、各文件区域中的元素像素数据以及预设的标准库,确定各文件区域中的文字,包括:
将所述各文件区域的信息标注至所述文件区域中的元素像素数据;
根据所述文件区域中的元素像素数据以及所述预设的标准库,确定所述文件区域中的文字。
5.根据权利要求4所述的方法,其特征在于,根据所述文件区域中的元素像素数据以及所述预设的标准库,确定所述文件区域中的文字,包括:
从所述标准库中查找与所述元素像素数据匹配度满足预设条件的至少一个待选文字;
根据各待选文字与所述元素像素数据的匹配度,确定目标待选文字;
将所述目标待选文字作为所述元素像素数据所指示的文字。
6.根据权利要求4所述的方法,其特征在于,根据各文件区域中的文字以及所述文件区域的信息,得到所述非电子文件对应的文件信息,包括:
根据所述文件区域的信息以及所述模板文件,生成可编辑模板文件;
将所述文件区域中的文字写入所述可编辑模板中对应的位置,得到可编辑电子文件。
7.根据权利要求4所述的方法,其特征在于,根据各文件区域中的文字以及所述文件区域的信息,得到所述非电子文件对应的文件信息,包括:
将所述文件区域的信息以及所述文件区域中的文字存储至数据库表中;
根据所述数据库表中存储的数据,得到所述非电子文件对应的文件信息。
8.一种文字识别装置,其特征在于,包括:
获取模块,用于:获取待识别非电子文件对应的初始电子文件的标识,并根据所述初始电子文件的标识从预设的模板库中查找所述初始电子文件对应的模板文件,所述模板文件中记录有多个模板区域以及所述模板区域的坐标;
处理模块,用于:根据所述模板文件对所述初始电子文件进行切割和二值化处理,得到所述初始电子文件中的多个文件区域、各文件区域的信息以及各文件区域中的元素像素数据,各所述文件区域的信息包括:元素名称、元素标签、元素尺寸、元素位置、元素类型;
确定模块,用于:根据所述初始电子文件中各文件区域的信息、各文件区域中的元素像素数据以及预设的标准库,确定各文件区域中的文字,所述标准库中存储有多个文字以及文字的像素坐标;
文件信息确定模块,用于:根据各文件区域中的文字以及所述文件区域的信息,得到所述非电子文件对应的文件信息。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行时执行如权利要求1至7任一所述的文字识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的文字识别方法的步骤。
CN202211366983.1A 2022-11-02 2022-11-02 文字识别方法、装置、设备及存储介质 Pending CN115527222A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211366983.1A CN115527222A (zh) 2022-11-02 2022-11-02 文字识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211366983.1A CN115527222A (zh) 2022-11-02 2022-11-02 文字识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115527222A true CN115527222A (zh) 2022-12-27

Family

ID=84702728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211366983.1A Pending CN115527222A (zh) 2022-11-02 2022-11-02 文字识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115527222A (zh)

Similar Documents

Publication Publication Date Title
CN110569832B (zh) 基于深度学习注意力机制的文本实时定位识别方法
US6909805B2 (en) Detecting and utilizing add-on information from a scanned document image
AU2020279921B2 (en) Representative document hierarchy generation
KR100311633B1 (ko) 문서화상으로부터의타이틀추출장치및방법
JP2713622B2 (ja) 表形式文書読取装置
US20090041361A1 (en) Character recognition apparatus, character recognition method, and computer product
WO2000052645A1 (fr) Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document
CN110807454B (zh) 基于图像分割的文字定位方法、装置、设备及存储介质
CN113780229A (zh) 文本识别方法及装置
CN113221632A (zh) 文档图片识别方法、装置以及计算机设备
CN114663897A (zh) 表格提取方法与表格提取系统
CN112949471A (zh) 基于国产cpu的电子公文识别复现方法及系统
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN116958996A (zh) Ocr信息提取方法、系统及设备
CN109101973B (zh) 文字识别方法、电子设备、存储介质
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN115527222A (zh) 文字识别方法、装置、设备及存储介质
CN113486171B (zh) 一种图像处理方法及装置、电子设备
CN115050025A (zh) 基于公式识别的知识点抽取方法及装置
CN112836632B (zh) 自定义模板文字识别的实现方法及系统
CN113836971B (zh) 一种图像型扫描件识别后的视觉信息重现方法、系统及存储介质
JP2011248415A (ja) 画像処理装置及び画像処理プログラム
CN115376152A (zh) 一种流程图的查重方法
KR100957508B1 (ko) 광학 문자 인식 시스템 및 방법
JP2001034763A (ja) 文書画像処理装置、その文書タイトル抽出方法及び文書タグ情報付与方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination