CN108960054A

CN108960054A - 一种基于图文识别的通关数据生成系统及方法

Info

Publication number: CN108960054A
Application number: CN201810530827.1A
Authority: CN
Inventors: 马万杰
Original assignee: Kunshan Shuangye Software Technology Co Ltd
Current assignee: Kunshan Shuangye Software Technology Co Ltd
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-12-07

Abstract

本发明公开了一种基于图文识别的通关数据生成系统及方法，包括：转化模块，用于将上传文件的页面转化为高清图像；选择模块，用于框选高清图像的内容，并将选中的内容传递至识别模块；识别模块，用于将内容识别为可编辑的文字信息，并将文字信息传递至模板界面；模板界面，其具有在同一显示页面的文字界面和表格界面，模板界面用于将文字信息排列在文字界面，并将文字信息分别填充到表格界面的对应栏位，以得到表格信息。本发明能够利用图文识别技术，将文档内容识别并排列整理成可编辑的文字信息，并在同一个显示页面利用这些文字信息填充表格，从而提高了口岸通关资料和文档的整理效率，避免了信息的多次移动和填充。

Description

一种基于图文识别的通关数据生成系统及方法

技术领域

本发明涉及数据信息处理领域，特别涉及一种基于图文识别的通关数据生成系统及方法。

背景技术

当前随着计算机技术的越发深入，很多的工作领域都已经越来越接近脱纸化作业，其形式多数是以各种类型的文档例如excel、word、pdf等保存在电脑中，以便于在进行复查和审核时再次使用，或者作为凭据留存。

但目前作为文档留存使用的文件在二次利用上会出现数据冗杂的现象。往往使用者为了得到想要的信息需要花费很多时间进行查找和整理，将信息罗列成集才能方便使用。这些还只是在于数据的罗列和收集，目前各企业都不乏使用管理软件和ERP系统，作为数据的存留媒介。当我们从文件到系统存留的过程中又会要求我们根据所使用到的系统，需要对所收集到的信息进行再次分析，把信息填到对应的位置中去，这样实际上并不能很好的利用留存信息来提高效率。

发明内容

本发明要解决的技术问题是提供了一种基于图文识别的通关数据生成系统及方法，以提高口岸通关资料和文档的整理效率。

为了解决上述技术问题，本发明的技术方案为：

一种基于图文识别的通关数据生成系统，包括：

转化模块，用于将上传文件的页面转化为高清图像；

选择模块，用于框选所述高清图像的内容，并将选中的所述内容传递至识别模块；

识别模块，用于将所述内容识别为可编辑的文字信息，并将所述文字信息传递至模板界面；

模板界面，其具有在同一显示页面的文字界面和表格界面，所述模板界面用于将所述文字信息排列在所述文字界面，并将所述文字信息分别填充到所述表格界面的对应栏位，以得到表格信息。

优选的，所述文字界面和所述表格界面均具有文档编辑和文档保存功能。

优选的，所述选择模块能够缩放、旋转所述高清图像，以全文框选或者多次局部框选所述高清图像的内容。

优选的，所述选择模块将选中的所述内容转化为字符串传递至所述识别模块。

根据本发明的另一个方面，本发明的技术方案还可以为一种基于图文识别的通关数据生成方法，包括以下步骤：

S1：转化上传文件的页面为高清图像；

S2：框选所述高清图像的内容，并传递所述内容至识别模块；

S3：识别所述内容为可编辑的文字信息，并传递所述所述文字信息至模板界面，所述模板界面具有在同一显示页面的文字界面和表格界面；

S4：在所述文字界面排列所述文字信息；

S5：将所述文字信息分别填充到所述表格界面的对应栏位，以得到表格信息。

优选的，在S4和S5，所述文字界面和所述表格界面均能够分别编辑或保存所述文字信息和所述表格信息。

优选的，在S2，框选所述高清图像的内容的具体步骤为：

缩放或者旋转所述高清图像，以全文框选或者多次局部框选所述高清图像的内容。

优选的，在S2，传递所述内容至所述识别模块的具体步骤为：

将选中的所述内容转化为字符串；

传递所述字符串值所述识别模块。

与现有技术相比，本发明的有益效果在于：利用图文识别技术，将文档内容识别并排列整理成可编辑的文字信息，并在同一个显示页面利用这些文字信息填充表格，从而提高了口岸通关资料和文档的整理效率，避免了信息的多次移动和填充。因此，本发明直接从文件中提取出了关键信息，并且在系统中直接操作，简化了客户的操作步骤，也省去了客户需要在多个地方将信息对照系统进行填写的繁琐操作。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1为本发明基于图文识别的通关数据生成系统中转化模块、选择模块以及识别模块的简单示意图；

图2为本发明基于图文识别的通关数据生成系统中模板界面的简单示意图；

图3为本发明基于图文识别的通关数据生成方法的流程示意图。

其中图中各符号所表示的含义如下：

1-转化模块；2-功能单元；3-识别模块；4-文字界面；5-表格界面；601-文字信息编辑栏；602-表格信息编辑栏。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，对于各种形式的文档，例如excel、word、pdf、邮件、扫描件等，本发明能够通过后台系统将文件上传至转化模块1，然后将上传文件的每一个页面分别转化为高清图像。然后，用户利用与转化模块1相关联的选择模块，框选呈现的高清图像的内容。框选的方式可以通过图1中的功能单元2，从而实现选择模块的缩放、旋转高清图像的功能，以全文框选或者多次局部框选所述高清图像的内容。其中，如果一个高清图像中的内容过多，多次局部框选能够提高识别的准确率。在本实施例中的图像处理的技术可以是CANVAS。

选择模块能够将选中的所述内容转化为base64字符串传递至识别模块3。首先，选择模块能够将选中的所述内容转化为base64字符串传递至后台系统，然后再将base64字符串传递至于后台系统关联的识别模块3。识别模块3能够将识别结果(即可编辑的文字信息)返回至后台系统，再由后台系统进行处理。在本实施例中，识别模块3的技术可以是百度OCR技术，后台系统与百度OCR开放的接口相连接。

如图2所示，模板界面具有在同一显示页面的文字界面4和表格界面5。文字界面4和表格界面5相邻且相互独立。而且，文字界面4和所述表格界面5均具有文档编辑和文档保存功能，在文字界面4具有文字信息编辑栏601，在表格界面5具有表格信息编辑栏602，从而编辑和保存文字信息和表格信息。后台系统能够将接收的文字信息排列在文字界面4，或者模板界面能够从后台系统中提取文字信息排列在文字界面4。用户能够将文字界面4的文字信息复制黏贴或者选中拖动到表格界面5的对应栏位，从而填充表格，得到表格信息。

结合上述图1和图2的通关数据生成系统，如图3所示，根据本发明的另一个方面，本发明的技术方案还可以为一种基于图文识别的通关数据生成方法，包括以下步骤：

S1：转化上传文件的页面为高清图像；

S4：在所述文字界面排列所述文字信息；

在S4和S5，为了保证信息处理的自由性和方便性，所述文字界面和所述表格界面均能够分别编辑或保存所述文字信息和所述表格信息。信息能够存储至后台系统的存储单元，以便于下次需要时直接从后台系统提取信息。

而在S2，框选所述高清图像的内容的具体步骤为：缩放或者旋转所述高清图像，以全文框选或者多次局部框选所述高清图像的内容，从而提高选择高清图像内容的便捷性。而且，在S2，传递所述内容至所述识别模块的具体步骤为：将选中的所述内容转化为字符串；传递所述字符串值所述识别模块。

综上，本发明能够利用图文识别技术，将文档内容识别并排列整理成可编辑的文字信息，并在同一个显示页面利用这些文字信息填充表格，从而提高了口岸通关资料和文档的整理效率，避免了信息的多次移动和填充。因此，本发明直接从文件中提取出了关键信息，并且在系统中直接操作，简化了客户的操作步骤，也省去了客户需要在多个地方将信息对照系统进行填写的繁琐操作。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于图文识别的通关数据生成系统，其特征在于，包括：

转化模块，用于将上传文件的页面转化为高清图像；

2.根据权利要求1所述的一种基于图文识别的通关数据生成系统，其特征在于，所述文字界面和所述表格界面均具有文档编辑和文档保存功能。

3.根据权利要求1所述的一种基于图文识别的通关数据生成系统，其特征在于，所述选择模块能够缩放、旋转所述高清图像，以全文框选或者多次局部框选所述高清图像的内容。

4.根据权利要求3所述的一种基于图文识别的通关数据生成系统，其特征在于，所述选择模块将选中的所述内容转化为字符串传递至所述识别模块。

5.一种基于图文识别的通关数据生成方法，其特征在于，包括以下步骤：

S1：转化上传文件的页面为高清图像；

S4：在所述文字界面排列所述文字信息；

6.根据权利要求5所述的一种基于图文识别的通关数据生成方法，其特征在于，在S4和S5，所述文字界面和所述表格界面均能够分别编辑或保存所述文字信息和所述表格信息。

7.根据权利要求5所述的一种基于图文识别的通关数据生成方法，其特征在于，在S2，框选所述高清图像的内容的具体步骤为：

8.根据权利要求7所述的一种基于图文识别的通关数据生成方法，其特征在于，在S2，传递所述内容至所述识别模块的具体步骤为：

将选中的所述内容转化为字符串；

传递所述字符串值所述识别模块。