CN112507909A

CN112507909A - 基于ocr识别的单证数据提取方法、装置、设备及介质

Info

Publication number: CN112507909A
Application number: CN202011478079.0A
Authority: CN
Inventors: 庄志强; 施光辉; 吴思琪; 马泽未; 李承影; 夏永财
Original assignee: Code Flag Ai Shanghai Co ltd
Current assignee: Code Flag Ai Shanghai Co ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-16
Anticipated expiration: 2040-12-15
Also published as: CN112507909B

Abstract

本发明涉及表单数据处理领域，公开了一种基于OCR识别的单证数据提取方法、装置、设备及介质，其方法包括：通过OCR识别程序处理单证文档，生成包含若干字符块及其字符坐标信息的XML数据，一个字符块对应一个字符坐标信息；根据字符坐标信息将处于同一行的字符块组成字符组；通过预设的分词算法从字符组提取关键词，生成词块，词块包括若干字符块；根据词块内各个字符块对应的字符坐标信息确定词块的词块坐标信息；通过预设除错合并程序处理词块和词块坐标信息，生成结构化单证数据。本发明可以提高单证文档的识别精度，减少识别错误。

Description

基于OCR识别的单证数据提取方法、装置、设备及介质

技术领域

本发明涉及表单数据处理领域，尤其涉及一种基于OCR识别的单证数据提取方法、装置、设备及介质。

背景技术

OCR识别(optical character recognition，光学字符识别)是一种常用的字符识别工具，可以从图像文件中提取出文字信息。经过数十年的发展，OCR识别对一般文档的识别精度较高，基本满足使用需求。但对于单证文档，OCR识别的识别精度有限，错误率高。

发明内容

基于此，有必要针对上述技术问题，提供一种基于OCR识别的单证数据提取方法、装置、设备及存储介质，以提高单证文档的识别精度，减少单证识别错误。

一种基于OCR识别的单证数据提取方法，包括：

通过OCR识别程序处理单证文档，生成包含若干字符块及其字符坐标信息的XML数据，一个字符块对应一个字符坐标信息；

根据所述字符坐标信息将处于同一行的字符块组成字符组；

通过预设的分词算法从所述字符组提取关键词，生成词块，所述词块包括若干字符块；

根据所述词块内各个字符块对应的字符坐标信息确定所述词块的词块坐标信息；

通过预设除错合并程序处理所述词块和所述词块坐标信息，生成结构化单证数据。

一种基于OCR识别的单证数据提取装置，包括：

识别模块，用于通过OCR识别程序处理单证文档，生成包含若干字符块及其字符坐标信息的XML数据，一个字符块对应一个字符坐标信息；

字符组模块，用于根据所述字符坐标信息将处于同一行的字符块组成字符组；

分词模块，用于通过预设的分词算法从所述字符组提取关键词，生成词块，所述词块包括若干字符块；

词块坐标模块，用于根据所述词块内各个字符块对应的字符坐标信息确定所述词块的词块坐标信息；

合成单证模块，用于通过预设除错合并程序处理所述词块和所述词块坐标信息，生成结构化单证数据。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述基于OCR识别的单证数据提取方法。

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如上述基于OCR识别的单证数据提取方法。

上述基于OCR识别的单证数据提取方法、装置、计算机设备及存储介质，可以提高单证文档的识别精度，减少单证识别错误。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于OCR识别的单证数据提取方法的一应用环境示意图；

图2是本发明一实施例中基于OCR识别的单证数据提取方法的一流程示意图；

图3是本发明一实施例中处理前的单证文档；

图4是本发明一实施例中最终生成的结构化单证数据；

图5是本发明一实施例中基于OCR识别的单证数据提取装置的一结构示意图；

图6是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供的基于OCR识别的单证数据提取方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种基于OCR识别的单证数据提取方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤S10-S50。

S10、通过OCR识别程序处理单证文档，生成包含若干字符块及其字符坐标信息的XML数据，一个字符块对应一个字符坐标信息。

可理解地，OCR识别程序是一种常用的字符识别工具，可以从图像文件中提取出文字信息。在此处，使用的是经特别设置的OCR识别程序。该OCR识别程序对单证文档进行识别后，可以输出格式为XML(Extensible Markup Language，可扩展标记语言)的文件，即为XML数据。单证文档可以是图片或者其他格式。

XML数据包括若干字符块及其字符坐标信息，一个字符块对应一个字符坐标信息。在一示例中，字符块及其字符坐标信息可表示为：

在一字符块中，line属性存放字符坐标信息，用于标注字符块在单证文档(图片)中的位置。在line属性中，各个标签的含义如下：l＝left,t＝top,r＝right,b＝bottom，即l标签用于标识字符块的左坐标，t标签用于标识字符块的上坐标，r标签用于标识字符块的右坐标，b标签用于标识字符块的下(底)坐标。formatting属性存放字符格式信息，用于标注字符“阿”的格式。在formatting属性中，fs为字体大小，ff为字体。该字符块为字符“阿”的块(block)。单证文档中的每一个字符(可以是汉字、英文、数字或标点符号)经OCR识别程序处理后，在XML数据中单独成为一个字符块。

S20、根据所述字符坐标信息将处于同一行的字符块组成字符组。

可理解地，可以基于字符坐标信息将处于同一行的字符块组成字符组。处于同一行的字符块，其t标签和b标签分别处于相同的区间。例如，字符块1的t标签为428，b标签为465；字符块2的t标签为427，b标签为464，t标签在某一行的t区间为[420,430]，b标签在某一行的b区间为[460,470]，字符块1和字符块2的t标签均处于t区间，字符块1和字符块2的b标签均处于b区间，因而，字符块1和字符块2处于同一行，可以加入同一个字符组。XML数据中的所有字符块可以组成若干个字符组。

S30、通过预设的分词算法从所述字符组提取关键词，生成词块，所述词块包括若干字符块。

可理解地，预设的分词算法可以基于实际需要在现有的分词算法中选取。在一示例中，预设的分词算法可以是Trie字典树(又称，单词查找树)。Trie字典树是一种树形结构，是一种哈希树的变种。Trie字典树利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较。

预设的分词算法可以基于关键词的出现频次判断处于相邻位置的字符块是否可以组成关键词，以生成词块。可以预先设置词汇库，如词汇库存储若干关键词，如国家名称、货币名词、港口名字等。在一示例中，生成的词块为“上海”，该词块包括两个字符块“上”和“海”。

S40、根据所述词块内各个字符块对应的字符坐标信息确定所述词块的词块坐标信息。

可理解地，词块坐标信息指的是词块在页面的位置。可以基于词块内各个字符块对应的字符坐标信息确定词块坐标信息。词块坐标信息的l标签为处于最左边的字符块的l标签，r标签为处于最右边的字符块的r标签，l标签为处于最左边的字符块的l标签，l标签为处于最左边的字符块的l标签。

S50、通过预设除错合并程序处理所述词块和所述词块坐标信息，生成结构化单证数据。

可理解地，OCR识别程序的识别结果经常出现一些识别错误，而预设除错合并程序可以是基于识别错误设置的除错工具。预设除错合并程序可以包括除错程序和合并程序。除错程序可以消除因excel文本溢出或其他原因生成的重叠字符块。例如，除错程序可以将多个重叠的“的”字处理为一个。合并程序可以对各个字符组的位置进行调整，使一些相邻的字符组的行距相等。

经预设除错合并程序处理后，可以生成结构化单证数据。在一示例中，如图3和图4所示，图3为处理前的单证文档，图4为最终生成的结构化单证数据。

可选的，步骤S10，即所述通过OCR识别程序处理单证文档，生成包含若干块及其坐标的XML数据之前，还包括：

S11、获取初始单证文档；

S12、根据预设转换规则转换所述初始单证文档，生成所述单证文档，所述单证文档为预设尺寸的图片数据。

可理解地，初始单证文档指的是记录单证信息的原始文档，可以是图片格式，也可是pdf格式。

预设转换规则用于统一单证文档的规范，提高单证文档的识别正确率。预设尺寸可以有多种规范。如可以根据一些常见单证的大小设置对应的规范。初始单证文档将转换为与其尺寸匹配的图片。

可选的，步骤S50，即所述预设除错合并程序包括除错程序和合并程序，所述通过预设除错合并程序处理所述词块和所述词块坐标信息，生成结构化单证数据，包括：

S501、通过所述除错程序消除所述词块中的错误重叠字符块，生成修改后的词块；

S502、通过所述合并程序调整所述修改后的词块对应的词块坐标信息，使相邻行的词块之间的间距保持一致；

S503、根据所述调整后的词块坐标信息和修改后的词块生成结构化单证数据。

可理解地，可以基于OCR识别程序经常性出现的识别错误设置除错程序。除错程序可以消除因excel文本溢出或其他原因生成的重叠字符块。例如，除错程序可以将多个重叠的“的”字处理为一个。又如，除错程序还可以修正词块中的错别字、错别标点。

合并程序可以对各个字符组的位置进行调整。例如，可以删除一些空行，调整相邻行的行距，使相邻行的词块的词块之间的间距保持一致。

经除错和合并后，可以生成结构化单证数据。结构化单证数据可以导入海关的档案系统进行存档。在图4的示例中，为最终生成的结构化单证数据。

可选的，所述预设的分词算法为Trie字典树算法。

可理解地，预设的分词算法可以是Trie字典树(又称，单词查找树)。Trie字典树是一种树形结构，是一种哈希树的变种。Trie字典树利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较。

通过Trie字典树算法，可以将字符组拆分为若干个词块。

可选的，所述词块坐标信息包括l标签、t标签、b标签和t标签；

步骤S40，即所述根据所述词块内各个字符块对应的字符坐标信息确定所述词块的词块坐标信息，包括：

基于各个字符块对应的字符坐标信息中l标签的最小值确定所述词块坐标信息的l标签；

基于各个字符块对应的字符坐标信息中r标签的最大值确定所述词块坐标信息的r标签；

基于各个字符块对应的字符坐标信息中b标签的平均值确定所述词块坐标信息的b标签；

基于各个字符块对应的字符坐标信息中t标签的平均值确定所述词块坐标信息的t标签。

可理解地，词块坐标信息为词块中所有字符块在页面所处的位置。词块坐标信息的l标签可以是最左边字符块的l标签，即为各个字符块对应的字符坐标信息中l标签的最小值。词块坐标信息的r标签可以是最右边字符块的r标签，即为各个字符块对应的字符坐标信息中r标签的最大值。而词块坐标信息的b标签和t标签均为对应的字符坐标信息的平均值。通过计算各个词块坐标信息，可以根据需要调整词块之间的位置，使最终生成的结构化单证数据更加整齐。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于OCR识别的单证数据提取装置，该基于OCR识别的单证数据提取装置与上述实施例中基于OCR识别的单证数据提取方法一一对应。如图5所示，该基于OCR识别的单证数据提取装置包括识别模块10、字符组模块20、分词模块30、词块坐标模块40和合成单证模块50。各功能模块详细说明如下：

识别模块10，用于通过OCR识别程序处理单证文档，生成包含若干字符块及其字符坐标信息的XML数据，一个字符块对应一个字符坐标信息；

字符组模块20，用于根据所述字符坐标信息将处于同一行的字符块组成字符组；

分词模块30，用于通过预设的分词算法从所述字符组提取关键词，生成词块，所述词块包括若干字符块；

词块坐标模块40，用于根据所述词块内各个字符块对应的字符坐标信息确定所述词块的词块坐标信息；

合成单证模块50，用于通过预设除错合并程序处理所述词块和所述词块坐标信息，生成结构化单证数据。

可选的，基于OCR识别的单证数据提取装置还包括：

获取初始文档模块，用于获取初始单证文档；

格式转换模块，用于根据预设转换规则转换所述初始单证文档，生成所述单证文档，所述单证文档为预设尺寸的图片数据。

可选的，合成单证模块50包括：

除错单元，用于通过所述除错程序消除所述词块中的错误重叠字符块，生成修改后的词块；

合并单元，用于通过所述合并程序调整所述修改后的词块对应的词块坐标信息，使相邻行的词块之间的间距保持一致；

生成单元，用于根据所述调整后的词块坐标信息和修改后的词块生成结构化单证数据。

可选的，所述预设的分词算法为Trie字典树算法。

可选的，所述词块坐标信息包括l标签、t标签、b标签和t标签；词块坐标模块40包括：

确定词块l标签单元，用于基于各个字符块对应的字符坐标信息中l标签的最小值确定所述词块坐标信息的l标签；

确定词块r标签单元，用于基于各个字符块对应的字符坐标信息中r标签的最大值确定所述词块坐标信息的r标签；

确定词块b标签单元，用于基于各个字符块对应的字符坐标信息中b标签的平均值确定所述词块坐标信息的b标签；

确定词块t标签单元，用于基于各个字符块对应的字符坐标信息中t标签的平均值确定所述词块坐标信息的t标签。

关于基于OCR识别的单证数据提取装置的具体限定可以参见上文中对于基于OCR识别的单证数据提取方法的限定，在此不再赘述。上述基于OCR识别的单证数据提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储基于OCR识别的单证数据提取方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种基于OCR识别的单证数据提取方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

根据所述字符坐标信息将处于同一行的字符块组成字符组；

在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：

根据所述字符坐标信息将处于同一行的字符块组成字符组；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于OCR识别的单证数据提取方法，其特征在于，包括：

根据所述字符坐标信息将处于同一行的字符块组成字符组；

2.如权利要求1所述的基于OCR识别的单证数据提取方法，其特征在于，所述通过OCR识别程序处理单证文档，生成包含若干块及其坐标的XML数据之前，还包括：

获取初始单证文档；

根据预设转换规则转换所述初始单证文档，生成所述单证文档，所述单证文档为预设尺寸的图片数据。

3.如权利要求1所述的基于OCR识别的单证数据提取方法，其特征在于，所述预设除错合并程序包括除错程序和合并程序，所述通过预设除错合并程序处理所述词块和所述词块坐标信息，生成结构化单证数据，包括：

通过所述除错程序消除所述词块中的错误重叠字符块，生成修改后的词块；

通过所述合并程序调整所述修改后的词块对应的词块坐标信息，使相邻行的词块之间的间距保持一致；

根据所述调整后的词块坐标信息和修改后的词块生成结构化单证数据。

4.如权利要求1所述的基于OCR识别的单证数据提取方法，其特征在于，所述预设的分词算法为Trie字典树算法。

5.如权利要求1所述的基于OCR识别的单证数据提取方法，其特征在于，所述词块坐标信息包括l标签、t标签、b标签和t标签；

所述根据所述词块内各个字符块对应的字符坐标信息确定所述词块的词块坐标信息，包括：

6.一种基于OCR识别的单证数据提取装置，其特征在于，包括：

7.如权利要求6所述的基于OCR识别的单证数据提取装置，其特征在于，还包括：

获取初始文档模块，用于获取初始单证文档；

8.如权利要求6所述的基于OCR识别的单证数据提取装置，其特征在于，所述合成单证模块包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述基于OCR识别的单证数据提取方法。

10.一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至5中任一项所述基于OCR识别的单证数据提取方法。