CN110956022A

CN110956022A - 一种单据文档的处理方法及其系统

Info

Publication number: CN110956022A
Application number: CN201911229764.7A
Authority: CN
Inventors: 陈小二; 高君凯; 王营; 陈登虎; 张秋萍; 盛杨; 周鑫; 薄帅; 段志超
Original assignee: Qingdao Yingzhi Technology Co ltd
Current assignee: Qingdao Yingzhi Technology Co ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-04-03

Abstract

本申请公开了一种单据文档的处理方法及其系统，其中单据文档的处理方法具体包括以下步骤：获取单据文档，对文档进行预处理；对预处理后的文档进行区域分割，形成文字区域块；识别文字区域块中的属性，根据该属性对文字区域块中的文字进行解析；根据解析后的文字，得到识别后的最终数据。本申请能够针对于pdf、word、excel等电子格式的文档，按照自然语言的区域，提取文字信息，通过对文字信息的分析与处理，将数据转化成为一种格式化信息。本发明可以减少识别过程中的人工参与，提高识别准确率。

Description

一种单据文档的处理方法及其系统

技术领域

本申请涉及文字处理领域，具体地，涉及一种单据文档的处理方法及其系统。

背景技术

在物流运输环节，特别是国际进出口物流业务中，业务过程中产生大量的单据(如客户委托单、回执单等)，这些文档大部分以pdf、word、excel为主，占到文档格式的90％以上。由于行业特点和一些历史的原因，来自全球各地的空运及海运单据的类型非常多，行业内对客户单据没有统一格式标准，格式复杂多变，甚至单个客户要求有固定格式的单据。针对小一些的物流公司，可能有几十上百中格式的物流文档；中型和大型的物流公司的客户可能有上万个，每天需要处理上万份文档的流转，需要处理的文档的格式之多，录入工作程序繁琐，需要消耗大量的人力。同时人工处理容易出错，出错后排查错误的过程异常艰辛。

综上，在物流各个环节中，产生的单据样式之多，处理过程之繁琐，难以通过模板配置的方式来识别。因此，我们需要一种文档识别的方法去获取文档中的数据，并将数据转化格式化的结构以供进一步处理。目前，现行的传统方法主要有基于OCR的图像文字识别技术以及基于规则模板配置的文字识别，但是现有方法中的基于模板配置的方式会消耗大量的人力去配置模板，但是有些文档格式不固定，同一种格式的多个文档会有细微的差别，导致一种模板不能兼顾到多个文档。并且，还会过多的依赖人工的纠偏，对识别结果进行人工纠偏对人员的要求比较高，难以发现识别的问题。

发明内容

本申请的目的在于提供一种单据文档的处理方法及其系统，能够根据单据文档中的数据，进行快速识别，提高识别的准确率。

为达到上述目的，本申请提供了一种单据文档的处理方法，其特征在于，具体包括以下步骤：获取单据文档，对文档进行预处理；对预处理后的文档进行区域分割，形成文字区域块；识别文字区域块中的属性，根据该属性对文字区域块中的文字进行解析；根据解析后的文字，得到识别后的最终数据。

如上的，其中，若获取的文档为word或excel格式，则预处理为将word或excel格式转换为pdf格式后进行区域分割；若获取的文档为pdf格式，则直接进行区域分割，形成文字区域块。

如上的，其中，形成文字区域块具体包括如下子步骤：在分割的若干个小区域块中选取基准区域块；判断基准区域块四周的区域块中是否存在数据；将存在数据的区域块与基准区域块进行生长合并。

如上的，其中，以基准区域块为准，查找与其相邻的指定数量的小区域块内是否存在数据，若区域块A1的相邻各区域块中存在数据，则进行区域块的生长合并。

如上的，其中，若区域块A1的右侧区域块A2中存在数据，则将区域块A2与A1进行合并，若区域块A2的右侧区域块A3中存在数据，则将区域块A3与A2进行合并，依次完成基础区域块与相邻的指定数量的区域块的生长合并，将合并后的区域定义为文字区域块。

如上的，其中，获取文字区域块中的属性具体为：获取文字区域块中的文字，根据文字信息进行分词，根据文本信息中单词的单词向量，从而得到此文本区域块的属性。

如上的，其中，根据文字区域块中的属性查找系统内对应的解析规则，根据解析的文字得到最后的识别数据。

如上的，其中，若识别出文字区域块的内容为2X40HQ，则解析规则表示为：.*\d+X\d{2}[A-Z]{2}.*，其中.*\d+，表示取出数字，X表示匹配X字符，\d{2}表示匹配两位数字，[A-Z]{2}.*中，[A-Z]表示匹配所有的大写英文字母，{2}.*表示匹配两位以上的英文字母。

一种单据文档处理系统，具体包括：预处理单元、文字区域块形成单元、解析单元、识别单元；其中预处理单元，用于对单据文档进行预处理；文字区域块形成单元，用于对预处理后的文档进行区域分割，形成文字区域块；解析单元，用于识别文字区域块中的属性，根据该属性对文字区域块中的文字进行解析；识别单元，用于根据解析后的文字，得到识别后的最终数据。

如上的，其中，文字区域块形成单元具体包括选取模块、判断模块、生长合并模块；其中选取模块，用于在若干个小区域块中选取基准区域块；判断模块，用于判断基准区域块四周的区域块中是否存在数据；生长合并模块，用于将存在数据的区域块与基准区域块进行生长合并。

本申请具有以下有益效果：

(1)本申请提供的单据文档的处理方法及其系统能够根据单据文档中的数据，进行快速识别，提高识别的准确率。

(2)本申请提供的单据文档的处理方法及其系统能够针对于pdf、word、excel格式的文档，按照自然语言的区域，提取文字信息，通过对文字信息的分析与处理，将数据转化成为一种格式化结构信息。本发明可以减少识别过程中的人工参与，提高识别准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的单据文档的处理方法流程图；

图2是根据本申请实施例提供的单据文档处理系统的内部结构图；

图3是根据本申请实施例提供的单据文档处理系统的内部子模块结构图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请涉及一种文档处理的方法及其系统。根据本申请，针对于pdf、word以及excel格式的文档，按照自然语言的区域，提取文字信息，通过对文字信息的分析与处理，将数据转化成为一种格式化结构信息，可以减少识别过程中的人工参与，提高识别准确率。

如图1所示，本申请提供的单据文档的处理方法流程图，具体包括以下步骤：

步骤S110：获取单据文档，对文档进行预处理。

进一步地，文档的格式包括pdf、word、excel三种格式，其中在对文档进行预处理之前，还包括，判断文档格式。

若获取的文档为word或excel格式，则预处理为将word或excel格式转换为pdf格式，并执行步骤S120。

若获取的文档为pdf格式，则执行步骤S120。

步骤S120：对预处理后的文档进行区域分割，形成文字区域块。

具体地，若为pdf格式的文档，则进行区域分割后形成若干个小区域块。

其中区域的分割采用区域生长算法，形成文字区域块具体包括如下子步骤：

步骤D1：在分割的若干个小区域块中选取基准区域块。

其中基准区域块为能够识别出任意一个区域，或是文档中左上角的第一个区域块，将基准区域块定义为A1。

步骤D2：判断基准区域块四周的区域块中是否存在数据。

具体地，以基准区域块为准，查找与其相邻的指定数量的小区域块内是否存在数据，若区域块A1的相邻各区域块中存在数据，则执行步骤D3，否则继续查找区域块。

优选地，可查找与基准区域块相邻的8个小区域块中是否存在数据。该指定数量可根据文本的内容的不同进行不同的设置，具体数值在此不进行限定。

步骤D3：将存在数据的区域块与基准区域块进行生长合并。

示例性地，若区域块A1的右侧区域块A2中存在数据，则将区域块A2与A1进行合并，若区域块A2的右侧区域块A3中存在数据，则将区域块A3与A2进行合并，若区域块A2的下方区域块A4中存在数据，则将区域块A4与区域块A2进行合并，依次完成基础区域块与相邻的指定数量的区域块的生长合并，并将合并后的区域定义为文字区域块。其中文字区域块的数量为多个。

步骤S130：识别文字区域块中的属性，根据该属性对文字区域块中的文字进行解析。

其中，在本实施例中属性即为该文字区域块的内容，可根据相邻文字区域块中的属性进行其他文字区域块属性的判断。

进一步地，获取文字区域块中的属性具体为，获取文字区域块中的文字，根据文字信息进行分词，根据文本信息中单词的单词向量，从而得到此文本区域块的属性。根据该文本区域块的属性即能够得到其他相邻的文字区域块的属性。

优选地，相邻区域块可理解为单据中同一行各相邻的文字区域块。

示例性地，若识别出某一文字区域块的属性为收货人标识，则与其相邻的同一行的文字区域块的属性均为收货人。

示例性地，若识别出某一文字区域块的属性为发货人标识，则与其相邻的同一行的文字区域块的属性均为发货人。

若识别出某一文字区域块的属性为箱型箱量标识，则与其相邻的同一行的文字区域块的属性均为箱型箱量标识。

具体地，根据预存在系统中的解析规则进行文字区域块中，文字的解析处理。

其中解析规则为预先设置的。随着区域块中内容的不同，对应的解析规则也不同，解析规则的指定可参考现有技术中解析文本的规则进行制定。因此将单据中能够用到的内容以及对应的规则均存储在系统中，若识别出与系统存储的相同的文本内容，则可根据该内容对应的解析规则进行解析。

例如：若文字区域块的属性为发货人标识，则其对应解析规则A，若文字区域块的属性为收货人标识，则其对应解析规则B，若文字区域块的属性为箱型箱量标识，则其对应解析规则C。以文字区域块的属性为箱型箱量标识为例，其对应的解析规则C可以是正则表达式。

示例性地，若识别出文字区域块的内容为2X40HQ(箱型箱量标识)，则可根据系统中对应的解析规则，解析规则表达式为：.*\d+X\d{2}[A-Z]{2}.*。

其中.*\d+，表示取出数字，X表示匹配X字符，\d{2}表示匹配两位数字，[A-Z]{2}.*中，[A-Z]表示匹配所有的大写英文字母，{2}.*表示匹配两位以上的英文字母。

步骤S140：根据解析后的文字，得到识别后的最终数据。

通过对单据中的2X40HQ进行解析，因此可得到单据中与文字对应的最终数据，即箱量为2，箱型为40HQ。

本申请还提供了单据文档处理系统，如图2所示，单据文档处理系统其中包括了预处理单元201、文字区域块形成单元202、解析单元203、识别单元204。

其中预处理单元201用于对单据文档进行预处理。

文字区域块形成单元202与预处理单元201连接，用于对预处理后的文档进行区域分割，形成文字区域块。

具体地，如图3所示，文字区域块形成单元202具体包括选取模块301、判断模块302、生长合并模块303。

其中选取模块301，用于在若干个小区域块中选取基准区域块。

判断模块302与选取模块301连接，用于判断基准区域块四周的区域块中是否存在数据。

生长合并模块303与判断模块302连接，用于将存在数据的区域块与基准区域块进行生长合并。

解析单元203与文字区域块形成单元202连接，用于识别文字区域块中的属性，根据该属性对文字区域块中的文字进行解析。

识别单元204与解析单元203连接，用于根据解析后的文字，得到识别后的最终数据。

本申请具有以下有益效果：

虽然当前申请参考的示例被描述，其只是为了解释的目的而不是对本申请的限制，对实施方式的改变，增加和/或删除可以被做出而不脱离本申请的范围。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种单据文档的处理方法，其特征在于，具体包括以下步骤：

获取单据文档，对文档进行预处理；

对预处理后的文档进行区域分割，形成文字区域块；

识别文字区域块中的属性，根据该属性对文字区域块中的文字进行解析；

根据解析后的文字，得到识别后的最终数据。

2.如权利要求1所述的单据文档的处理方法，其特征在于，若获取的文档为word或excel格式，则预处理为将word或excel格式转换为pdf格式后进行区域分割；

若获取的文档为pdf格式，则直接进行区域分割，形成文字区域块。

3.如权利要求1所述的单据文档的处理方法，其特征在于，形成文字区域块具体包括如下子步骤：

在分割的若干个小区域块中选取基准区域块；

判断基准区域块四周的区域块中是否存在数据；

将存在数据的区域块与基准区域块进行生长合并。

4.如权利要求1所述的单据文档的处理方法，其特征在于，以基准区域块为准，查找与其相邻的指定数量的小区域块内是否存在数据，若区域块A1的相邻各区域块中存在数据，则进行区域块的生长合并。

5.如权利要求4所述的单据文档的处理方法，其特征在于，若区域块A1的右侧区域块A2中存在数据，则将区域块A2与A1进行合并，若区域块A2的右侧区域块A3中存在数据，则将区域块A3与A2进行合并，依次完成基础区域块与相邻的指定数量的区域块的生长合并，将合并后的区域定义为文字区域块。

6.如权利要求1所述的单据文档的处理方法，其特征在于，获取文字区域块中的属性具体为：获取文字区域块中的文字，根据文字信息进行分词，根据文本信息中单词的单词向量，从而得到此文本区域块的属性。

7.如权利要求1所述的单据文档的处理方法，其特征在于，根据文字区域块中的属性查找系统内对应的解析规则，根据解析的文字得到最后的识别数据。

8.如权利要求7所述的单据文档的处理方法，其特征在于，若识别出文字区域块的内容为2X40HQ，则解析规则表示为：.*\d+X\d{2}[A-Z]{2}.*，

9.一种单据文档处理系统，其特征在于，具体包括：预处理单元、文字区域块形成单元、解析单元、识别单元；

其中预处理单元，用于对单据文档进行预处理；

文字区域块形成单元，用于对预处理后的文档进行区域分割，形成文字区域块；

解析单元，用于识别文字区域块中的属性，根据该属性对文字区域块中的文字进行解析；

识别单元，用于根据解析后的文字，得到识别后的最终数据。

10.如权利要求9所述的单据文档处理系统，其特征在于，文字区域块形成单元具体包括选取模块、判断模块、生长合并模块；

其中选取模块，用于在若干个小区域块中选取基准区域块；

判断模块，用于判断基准区域块四周的区域块中是否存在数据；

生长合并模块，用于将存在数据的区域块与基准区域块进行生长合并。