CN112686262A

CN112686262A - 一种基于图像识别技术的手册提取结构化数据并快速归档的方法

Info

Publication number: CN112686262A
Application number: CN202011583402.0A
Authority: CN
Inventors: 赖国伟; 胡建敏
Original assignee: Guangzhou Doctor Information Technology Research Institute Co ltd
Current assignee: Guangzhou Doctor Information Technology Research Institute Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-20
Anticipated expiration: 2040-12-28
Also published as: CN112686262B

Abstract

本发明提供一种基于图像识别技术的手册提取结构化数据并快速归档的方法，包括S1)、在系统中预先构建需要采集构建的数据源的字段，从而使在数据源中的数据能够与系统字段对应上；S2)、利用数据采集设备采集数据源；S3)、利用在线框选要采集识别的字段，通过人工智能图片识别算法将所选字段映射到相应列表中；S4)、将数据保存入库。本发明实现数据源快速转完成电子文档的功能；本发明通过机器学习，能够自主的识现生僻字的统一训练，可以随时替换与完善词库；本发明能够自主的框选识别，大大提高灵活度。

Description

一种基于图像识别技术的手册提取结构化数据并快速归档的方法

技术领域

本发明涉及手册归档技术领域，尤其是一种基于图像识别技术的手册提取结构化数据并快速归档的方法。

背景技术

在信息化、数字化的当代，越来越多的人是基于pc电脑、手机、平板等数码设备阅读来自各个方面的信息，反而对书籍、报刊等传统的纸制的信息源的依赖逐渐降低。

从而导致在过去堆积的相当大量的纸制文献急需要转换当下的数字化存储，并使之能够便于查阅与管理。

但在纸制存储转换成为数字存储的过程中是一条枯燥的个过程。因而在这一过程中急需一种能够快速把结构化的数据快速的转换为了电子化的解决方案。使之能够节约人力成本，与管理成本。

现有的技术大部门都只是对图片文案进行识别，但并没有专门的系统化的对识别出来的数据进行归档与管理，在现在技术的条件下并不能做到识别出来就完成归档。

发明内容

针对现有技术的不足，本发明提供一种基于图像识别技术的手册提取结构化数据并快速归档的方法，本发明能够快速的准确的把识别出来的数据存档并归档，从而快速的完成大批量的重复录入工作。最终达到节约人力成本，时间成本。

本发明的技术方案为：一种基于图像识别技术的手册提取结构化数据并快速归档的方法，所述的方法包括步骤：

S1)、在系统中预先构建需要采集构建的数据源的字段，从而使在数据源中的数据能够与系统字段对应上；

S2)、利用数据采集设备采集数据源；

S3)、利用在线框选要采集识别的字段，通过人工智能图片识别算法将所选字段映射到相应列表中；

S4)、将数据保存入库。

进一步的，步骤S3)中，所述的图像文字识别包括以下步骤：

S301)、利用detection检测存在的文字区域，得到proposal；

S302)、识别proposal中的议定，利用对字符进行分割后单独识别；

S303)、通过机器学习，完成字库内词语义的建模；

S304)、通过字库模型，完成文字的匹配；

S305)、输出完整的语句。

进一步的，步骤S301)中，所述的对文字存在区域的detection方法采用one-stage或two-stage方法。

进一步的，步骤S301)中，所述的two-stage方法为faster rcnn，one-stage方法用yolo系列方法。

进一步的，步骤S303)中，所述的机器学习采用的算法为回归算法、算法类似性、贝叶斯方法算法中的一种或几种。

进一步的，步骤S3)中，在图像识别后还包括图像截取步骤。

进一步的，所述的图像截取包括以下步骤：

S321)、基于jcrop传入坐标；

S422)、调用如下算法完成图像的截取，具体如下：

a、图像区块提取与表达

利用n1n1个卷积核c*f1*f1c*f1*f1去卷积图像，其输出的结果为：

F1＝max(0,W1*Y+B1)；

其中，卷积核的大小f1f1设置为9，c是图像通道，W1为滤波器、Y为内差值的图像、B1为图值偏差；

b、非线性映射

使用n2n2个卷积核，其输出结果为：

F2(Y)＝max(0,W-2*F1(Y)+B2)；

其中，f2f2的大小设置为1；

c、重建

F(Y)＝W3*F2(Y)+B3；

其中，使用的卷积核的大小为5，W为滤波器、B2、B3均为图值偏差，图片计算完成后输出图片。

S423)、图片计算完成后输出图片。

本发明的有益效果为：

1、本发明实现数据源快速转完成电子文档的功能；

2、本发明通过机器学习，能够自主的识现生僻字的统一训练，可以随时替换与完善词库；

3、本发明能够自主的框选识别，大大提高灵活度。

附图说明

图1为本发明实施例数据源映射的关系图；

图2为本发明实施例在线框选要采集识别的字段的示意图；

图3为本发明实施例在线截取文字的示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

实施例1

如图1所示，本实施例提供一种基于图像识别技术的手册提取结构化数据并快速归档的方法，所述的方法包括步骤：

例如，从高校中获取到了大量的研究成果或项目的书籍，需要将书籍上的结构化数据放库，需要预先在系统中构建好对应的字段，即把想从数据源中获取的数据与系统做好对应关系；构建的关系如图1所示。

图1某高校的项目研究成果，如想快速的把左边图片的对应字段快还导入数据库，需要构建一对一的关系，目的是保证对应的参数会指定对应到指定的字段上。

为实现上述功能，本实施例采用图片上传、图片旋转，上传图片进行旋转等功能，在实际过程中会用到以下技术spring boot、vuejs、java反射、mysql、jquery、jcorp等若干技术配合。

S2)、利用数据采集设备采集数据源，本实施例中使用的数据源主要是图片，并且本实施例可以采用扫描仪器或其他采集设备进行数据源采集，如相机，或手机。

S3)、利用在线框选要采集识别的字段，通过人工智能图片识别算法将所选字段映射到相应列表中，如图2和图3所示，若要快速的把左边项目标题【高机能激光3D打印机装备开发】准确地应到右边的【项目名称】，即可先点击项目名称(会变成蓝色)然后在左图中用鼠标框选想识别的内容后双击，通过人工智能图片识别算法即可直接对框选中的图象进行识别。

上述步骤中，主要包括图像文字识别ORC、图像截取JCROP和数据映射保存。

其中，所述的图像文字识别包括以下步骤：

S301)、利用detection检测存在的文字区域，得到proposal；

S303)、通过机器学习，完成字库内词语义的建模；

S304)、通过字库模型，完成文字的匹配；

S305)、输出完整的语句。

作为优选的，本实施例的步骤S301)中，所述的对文字存在区域的detection方法采用one-stage或two-stage方法。

作为优选的，本实施例的步骤S301)中，所述的two-stage方法为faster rcnn，one-stage方法用yolo系列方法。

作为优选的，本实施例的，步骤S303)中，所述的机器学习采用的算法为回归算法、算法类似性、贝叶斯方法算法中的一种或几种。

其中，所述的图像截取包括以下步骤：

S321)、基于jcrop传入坐标；

S422)、调用如下算法完成图像的截取，具体如下：

a、图像区块提取与表达

利用n1n1个卷积核c*f1*f1c*f1*f1去卷积图像，其输出的结果为：

F1＝max(0,W1*Y+B1)；

b、非线性映射

使用n2n2个卷积核，其输出结果为：

F2(Y)＝max(0,W-2*F1(Y)+B2)；

其中，f2f2的大小设置为1；

c、重建

F(Y)＝W3*F2(Y)+B3；

其中，使用的卷积核的大小为5，W1为滤波器、Y为内差值的图像、B1为图值偏差；

S423)、图片计算完成后输出图片。

S4)、将数据保存入库。

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于图像识别技术的手册提取结构化数据并快速归档的方法，其特征特征，所述的方法包括步骤：

S2)、利用数据采集设备采集数据源；

S4)、将数据保存入库。

2.根据权利要求1所述的一种基于图像识别技术的手册提取结构化数据并快速归档的方法，其特征在于：步骤S3)中，所述的图像文字识别包括以下步骤：

S301)、利用detection检测存在的文字区域，得到proposal；

S303)、通过机器学习，完成字库内词语义的建模；

S304)、通过字库模型，完成文字的匹配；

S305)、输出完整的语句。

3.根据权利要求2所述的一种基于图像识别技术的手册提取结构化数据并快速归档的方法，其特征在于：步骤S301)中，所述的对文字存在区域的detection方法采用one-stage或two-stage方法。

4.根据权利要求3所述的一种基于图像识别技术的手册提取结构化数据并快速归档的方法，其特征在于：步骤S301)中，所述的two-stage方法为faster rcnn，one-stage方法用yolo系列方法。

5.根据权利要求2所述的一种基于图像识别技术的手册提取结构化数据并快速归档的方法，其特征在于：步骤S303)中，所述的机器学习采用的算法为回归算法、算法类似性、贝叶斯方法算法中的一种或几种。

6.根据权利要求2所述的一种基于图像识别技术的手册提取结构化数据并快速归档的方法，其特征在于：步骤S3)中，在图像识别后还包括图像截取步骤。

7.根据权利要求6所述的一种基于图像识别技术的手册提取结构化数据并快速归档的方法，其特征在于：所述的图像截取包括以下步骤：

S321)、基于jcrop传入坐标；

S422)、调用如下算法完成图像的截取，具体如下：

a、图像区块提取与表达

利用n1n1个卷积核c*f1*f1c*f1*f1去卷积图像，其输出的结果为：

F1＝max(0,W1*Y+B1)；

b、非线性映射

使用n2n2个卷积核，其输出结果为：

F2(Y)＝max(0,W-2*F1(Y)+B2)；

其中，f2f2的大小设置为1；

c、重建

F(Y)＝W3*F2(Y)+B3；

其中，使用的卷积核的大小为5，W为滤波器、B2、B3均为图值偏差，图片计算完成后输出图片；

S423)、图片计算完成后输出图片。