CN115761781A

CN115761781A - 一种用于工程电子档案笔记图像数据识别系统

Info

Publication number: CN115761781A
Application number: CN202310014829.6A
Authority: CN
Inventors: 肖斌
Original assignee: Jiangsu Dinoni Information Technology Co ltd
Current assignee: Jiangsu Dinoni Information Technology Co ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-03-07
Anticipated expiration: 2043-01-06
Also published as: CN115761781B

Abstract

本发明公开了一种用于工程电子档案笔记图像数据识别系统，其原理框架包括笔记采集模块、笔记图像处理模块、图像类型检测模块、笔记分类储存模块和文本生成模块，所述笔记采集模块用于通过安装在书写笔上的拍摄模块对书写区进行拍照，同时通过定位模块对书写路径数据进行感应，通过设置的文本识别子模块中包括图像识别概率单元和书写路径识别概率单元，分别对每个字体单元与标准字体的图像相关度、笔尖笔画特征和笔画数据特征的笔画相似度进行计算，计算结果代入文本识别度降序排列，得到最大的文本识别度，最大的文本识别度对应的字体单元即为对应的文本，这样相对于单一的文字图像识别有效的提高了文本数据的识别正确率。

Description

一种用于工程电子档案笔记图像数据识别系统

技术领域

本发明涉及图像数据识别领域，特别涉及一种用于工程电子档案笔记图像数据识别系统。

背景技术

图像数据识别将图像处理得到的图像进行数据特征提取和分类，识别方法中基本的也是常用的方法有统计法(或决策理论法)、句法(或结构)方法、神经网络法、模板匹配法和几何变换法，统计法是对研究的图像进行大量的统计分析，找出其中的规律并提取反映图像本质特点的特征来进行图像识别的，它以数学上的决策理论为基础，建立统计学识别模型，因而是一种分类误差最小的方法。常用的图像统计模型有贝叶斯(Bayes)模型和马尔柯夫(Markow)随机场(MRF)模型，但是，较为常用的贝叶斯决策规则虽然从理论上解决了最优分类器的设计问题,其应用却在很大程度受到了更为困难的概率密度估计问题的限制，同时,正是因为统计方法基于严格的数学基础,而忽略了被识别图像的空间结构关系，当图像非常复杂、类别数很多时，将导致特征数量的激增,给特征提取造成困难,也使分类难以实现，尤其是当被识别图像(如指纹、染色体等)的主要特征是结构特征时，用统计法就很难进行识别，在进行工程设计和工程监管的过程中，经常需要将工程纸质填写文件在填写时实时转换为线上识别文本，这样就需要对工程纸质填写文档数据进行实时采集并进行实时转换，而现有技术通常通过摄影的方式对工程纸质填写文档进行采集然后并转化成标准文字进行填写，现有技术将摄像头装在笔中进行摄像，但是摄像过程中由于笔不断的移动导致图片严重模糊，无法快速对图片中的文字因子进行有效识别，同时在识别后字迹被统一格式化，这样就无法对笔迹进行快速识别，这样难以快速找到书写文本的对应填写工程人员，不便于进行错误文本的快速追责和冒充笔迹的快速查找，本发明是为了解决这一问题，提出一种用于工程电子档案笔记图像数据识别系统。

发明内容

本发明的主要目的在于提供一种用于工程电子档案笔记图像数据识别系统，能够有效解决背景技术中的问题：在进行工程设计和工程监管的过程中，经常需要将工程纸质填写文件在填写时实时转换为线上识别文本，这样就需要对工程纸质填写文档数据进行实时采集并进行实时转换，而现有技术通常通过摄影的方式对工程纸质填写文档进行采集然后并转化成标准文字进行填写，现有技术将摄像头装在笔中进行摄像，但是摄像过程中由于笔不断的移动导致图片严重模糊，无法快速对图片中的文字因子进行有效识别，同时在识别后字迹被统一格式化，这样就无法对笔迹进行快速识别，这样难以快速找到书写文本的对应填写工程人员，不便于进行错误文本的快速追责和冒充笔迹的快速查找。

为实现上述目的，本发明采取的技术方案为：

一种用于工程电子档案笔记图像数据识别系统，其原理框架包括笔记采集模块、笔记图像处理模块、图像类型检测模块、笔记分类储存模块和文本生成模块，所述笔记采集模块用于通过安装在书写笔上的拍摄模块对书写区进行拍照，同时通过定位模块对书写路径数据进行感应，对书写路径数据进行提取，所述笔记图像处理模块用于对采集的照片中的文本图像进行采集，并对文本图像进行清晰化对比处理，所述图像类型检测模块用于对采集的照片中的图像中的文本图像进行字迹和笔记识别，所述笔记分类储存模块用于对笔记按照字迹和内容进行分隔同时进行分类储存，所述文本生成模块用于通过字迹和分类的内容进行识别文本的生成。

本发明进一步的改进在于，所述笔记采集模块包括照片采集子模块和书写路径采集子模块，所述照片采集子模块用于通过安装在书写笔上的拍摄模块对书写区进行拍照，获得其拍摄图像数据

，所述书写路径采集子模块用于通过定位模块对书写路径数据进行感应，对书写路径数据进行提取

，所述笔记图像处理模板包括投屏显示子模块、文本识别子模块和清晰化对比处理子模块，所述投屏显示子模块用于对采集的图像进行提取显示，所述文本识别子模块用于识别模糊图像中的文字数据信息，所述清晰化对比处理子模块用于对识别模糊图像中的文字数据信息进行清晰化对比处理，所述图像类型检测模块包括笔记提取子模块、笔迹检测子模块和笔记分类子模块，所述笔记提取子模块用于对清晰化对比处理后的笔记数据进行数据的提取，所述笔迹检测子模块用于对笔记中的不同笔迹进行检测，所述笔记分类子模块用于对数据根据不同笔迹情况进行分类，所述笔记分类储存模块用于对笔记数据按照笔迹的分类情况进行分类储存，所述文本生成模块用于生成按照笔迹分类的文本。

本发明进一步的改进在于，所述文本识别子模块中包括图像识别概率单元和书写路径识别概率单元，所述图像识别概率单元中包括图像识别概率策略，所述图像识别概率策略包括以下具体步骤：1）将图像按照字体之间的间隔分割为若干个字体单元，将若干个字体单元图像标准化转换为数据特征

，同时将标准字体图像标准化转化为标准数据特征

；2）将图像点特征数据和标准数据导入相关度计算公式中，计算图像点特征数据和标准数据的相关度

，所述图像特征数据和标准数据的相关度

的计算公式为：

，其中

为标准数据特征

中的第i项，而

为与

对应的数据特征

的项，得到每个字体单元与标准字体的相关度即为图像识别概率。

本发明进一步的改进在于，所述书写路径识别概率单元中包括书写路径识别概率计算策略，所述书写路径识别概率计算策略包括以下步骤：1）将图像按照字体之间的间隔分割为若干个字体单元，计算其字体单元在书写时的笔尖笔画特征

，同时将标准字体图像转化为笔画数据特征

；2）将笔尖笔画特征和笔画数据特征带入笔画相似度计算公式中计算笔画相似度，所述笔画相似度的计算公式为：

，其中若对应的

时代入

，若对应的

时则代入

。

本发明进一步的改进在于，所述文本识别子模块中包括文本识别策略，所述文本识别策略包括以下具体步骤：将该字体单元对应的标准字体的图像相关度和笔画相似度导入文本识别度的计算公式中计算文本识别度

，对文本识别度降序排列，得到最大的文本识别度，最大的文本识别度对应的字体单元即为对应的文本，将文本储存。

本发明进一步的改进在于，所述笔记分类储存模块中储存有工程人员的笔迹笔画数据信息

，其中n表示字迹个数，所述笔记分类子模块中包括笔记按照笔迹分类策略，所述笔记按照笔迹分类策略的具体步骤如下：1）将工程人员的笔迹笔画数据信息

、字体单元在书写时的笔尖笔画特征

代入笔迹核对公式

中，其中若对应的

时代入

，若对应的

时则代入

，将对应的字体单元找到对应的最大的笔迹核对系数，此笔迹核对系数对应的工程人员即为该对应字体单元的书写人员，进行笔迹核对，以将对应的书写文本与对应的填写工程人员进行针对性分类，以快速找到书写文本的对应填写工程人员，便于进行错误文本的快速追责和冒充笔迹的快速查找。

本发明进一步的改进在于，其流程框架包括以下具体步骤：101）提取目标图像中的图像信息的图像特征数据，并提取书写路径特征数据；102）将采集的图像特征数据导入识别分类器中，提取其中的文字数据特征；103）对文字数据特征进行提取，并结合书写路径特征数据，对笔记信息数据进行数据提取校对；104）对文字数据特征进行清晰化识别处理，同时对识别处理后的文字数据进行按照笔迹分类；105）将分类后的笔记分类数据进行分别提取，转化为可读文本。

与现有技术相比，本发明具有如下有益效果：1）通过设置的文本识别子模块中包括图像识别概率单元和书写路径识别概率单元，分别对每个字体单元与标准字体的图像相关度、笔尖笔画特征和笔画数据特征的笔画相似度进行计算，计算结果代入文本识别度降序排列，得到最大的文本识别度，最大的文本识别度对应的字体单元即为对应的文本，这样相对于单一的文字图像识别有效的提高了文本数据的识别正确率，保证了文本录入的效率；

2）将工程人员的笔迹笔画数据信息、字体单元在书写时的笔尖笔画数据特征代入笔迹核对公式中，将对应的字体单元找到对应的最大的笔迹核对系数，此笔迹核对系数对应的工程人员即为该对应字体单元的书写人员，进行笔迹核对，以将对应的书写文本与对应的填写工程人员进行针对性分类，以快速找到书写文本的对应填写工程人员，便于进行错误文本的快速追责，和冒充笔迹的快速查找。

附图说明

图1为本发明一种用于工程电子档案笔记图像数据识别系统的原理构架示意图。

图2为本发明一种用于工程电子档案笔记图像数据识别系统的流程框架的示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“一号”、“二号”、“三号”仅用于描述目的，而不能理解为指示或暗示相对重要性。下面结合具体实施方式，进一步阐述本发明。

实施例1

本实施例通过设置的文本识别子模块中包括图像识别概率单元和书写路径识别概率单元，分别对每个字体单元与标准字体的图像相关度、笔尖笔画特征和笔画数据特征的笔画相似度进行计算，计算结果代入文本识别度降序排列，得到最大的文本识别度，最大的文本识别度对应的字体单元即为对应的文本，这样相对于单一的文字图像识别有效的提高了文本数据的识别正确率，保证了文本录入的效率，解决在进行工程设计和工程监管的过程中，经常需要将工程纸质填写文件在填写时实时转换为线上识别文本，这样就需要对工程纸质填写文档数据进行实时采集并进行实时转换，而现有技术通常通过摄影的方式对工程纸质填写文档进行采集然后并转化成标准文字进行填写，现有技术将摄像头装在笔中进行摄像，但是摄像过程中由于笔不断的移动导致图片严重模糊，无法快速对图片中的文字因子进行有效识别的问题，具体方案为，如图1-图2所示，一种用于工程电子档案笔记图像数据识别系统，其原理框架包括笔记采集模块、笔记图像处理模块、图像类型检测模块和笔记分类储存模块文本生成模块，笔记采集模块用于通过安装在书写笔上的拍摄模块对书写区进行拍照，同时通过定位模块对书写路径数据进行感应，对书写路径数据进行提取，笔记图像处理模块用于对采集的照片中的文本图像进行采集，并对文本图像进行清晰化对比处理，图像类型检测模块用于对采集的照片中的图像中的文本图像进行字迹和笔记识别，笔记分类储存模块用于对笔记按照字迹和内容进行分隔同时进行分类储存，该原理框架还包括文本生成模块，文本生成模块用于通过字迹和分类的内容进行识别文本的生成。

在本实施例中，笔记采集模块包括照片采集子模块和书写路径采集子模块，照片采集子模块用于通过安装在书写笔上的拍摄模块对书写区进行拍照，获得其拍摄图像数据

，书写路径采集子模块用于通过定位模块对书写路径数据进行感应，对书写路径数据进行提取

，笔记图像处理模板包括投屏显示子模块、文本识别子模块和清晰化对比处理子模块，投屏显示子模块用于对采集的图像进行提取显示，文本识别子模块用于识别模糊图像中的文字数据信息，清晰化对比处理子模块用于对识别模糊图像中的文字数据信息进行清晰化对比处理，图像类型检测模块包括笔记提取子模块、笔迹检测子模块和笔记分类子模块，笔记提取子模块用于对清晰化对比处理后的笔记数据进行数据的提取，笔迹检测子模块用于对笔记中的不同笔迹进行检测，笔记分类子模块用于对数据根据不同笔迹情况进行分类，笔记分类储存模块用于对笔记数据按照笔迹的分类情况进行分类储存。

在本实施例中，文本识别子模块中包括图像识别概率单元和书写路径识别概率单元，图像识别概率单元中包括图像识别概率策略，图像识别概率策略包括以下具体步骤：1）将图像按照字体之间的间隔分割为若干个字体单元，将若干个字体单元图像标准化转换为数据特征

，同时将标准字体图像标准化转化为标准数据特征

，图像特征数据和标准数据的相关度

的计算公式为：

，其中

为标准数据特征

中的第i项，而

为与

对应的数据特征

的项，得到每个字体单元与标准字体的相关度即为图像识别概率；

在本实施例中，书写路径识别概率单元中包括书写路径识别概率计算策略，书写路径识别概率计算策略包括以下步骤：1）将图像按照字体之间的间隔分割为若干个字体单元，计算其字体单元在书写时的笔尖笔画特征

，同时将标准字体图像转化为笔画数据特征

；2）将笔尖笔画特征和笔画数据特征带入笔画相似度计算公式中计算笔画相似度，笔画相似度的计算公式为：

，其中若对应的

时代入

，若对应的

时则代入

；

在本实施例中，文本识别子模块中包括文本识别策略，文本识别策略包括以下具体步骤：将该字体单元对应的标准字体的图像相关度和笔画相似度导入文本识别度的计算公式中计算文本识别度

通过本实施例能够实现：通过设置的文本识别子模块中包括图像识别概率单元和书写路径识别概率单元，分别对每个字体单元与标准字体的图像相关度、笔尖笔画特征和笔画数据特征的笔画相似度进行计算，计算结果代入文本识别度降序排列，得到最大的文本识别度，最大的文本识别度对应的字体单元即为对应的文本，这样相对于单一的文字图像识别有效的提高了文本数据的识别正确率，保证了文本录入的效率，解决在进行工程设计和工程监管的过程中，经常需要将工程纸质填写文件在填写时实时转换为线上识别文本，这样就需要对工程纸质填写文档数据进行实时采集并进行实时转换，而现有技术通常通过摄影的方式对工程纸质填写文档进行采集然后并转化成标准文字进行填写，现有技术将摄像头装在笔中进行摄像，但是摄像过程中由于笔不断的移动导致图片严重模糊，无法快速对图片中的文字因子进行有效识别的问题。

实施例2

实施例2在实施例1的基础上添加将工程人员的笔迹笔画数据信息、字体单元在书写时的笔尖笔画数据特征代入笔迹核对公式中，将对应的字体单元找到对应的最大的笔迹核对系数，此笔迹核对系数对应的工程人员即为该对应字体单元的书写人员，进行笔迹核对，以将对应的书写文本与对应的填写工程人员进行针对性分类，以快速找到书写文本的对应填写工程人员，便于进行错误文本的快速追责，和冒充笔迹的快速查找，具体方案为，如图1-图2所示，一种用于工程电子档案笔记图像数据识别系统，其原理框架包括笔记采集模块、笔记图像处理模块、图像类型检测模块、笔记分类储存模块和文本生成模块，笔记采集模块用于通过安装在书写笔上的拍摄模块对书写区进行拍照，同时通过定位模块对书写路径数据进行感应，对书写路径数据进行提取，笔记图像处理模块用于对采集的照片中的文本图像进行采集，并对文本图像进行清晰化对比处理，图像类型检测模块用于对采集的照片中的图像中的文本图像进行字迹和笔记识别，笔记分类储存模块用于对笔记按照字迹和内容进行分隔同时进行分类储存，文本生成模块用于通过字迹和分类的内容进行识别文本的生成；

，笔记图像处理模板包括投屏显示子模块、文本识别子模块和清晰化对比处理子模块，投屏显示子模块用于对采集的图像进行提取显示，文本识别子模块用于识别模糊图像中的文字数据信息，清晰化对比处理子模块用于对识别模糊图像中的文字数据信息进行清晰化对比处理，图像类型检测模块包括笔记提取子模块、笔迹检测子模块和笔记分类子模块，笔记提取子模块用于对清晰化对比处理后的笔记数据进行数据的提取，笔迹检测子模块用于对笔记中的不同笔迹进行检测，笔记分类子模块用于对数据根据不同笔迹情况进行分类，笔记分类储存模块用于对笔记数据按照笔迹的分类情况进行分类储存，文本生成模块用于生成按照笔迹分类的文本。

，同时将标准字体图像标准化转化为标准数据特征

，图像特征数据和标准数据的相关度

的计算公式为：

，其中

为标准数据特征

中的第i项，而

为与

对应的数据特征

，同时将标准字体图像转化为笔画数据特征

，其中若对应的

时代入

，若对应的

时则代入

。

在本实施例中，笔记分类储存模块中储存有工程人员的笔迹笔画数据信息

，其中n表示字迹个数，笔记分类子模块中包括笔记按照笔迹分类策略，笔记按照笔迹分类策略的具体步骤如下：1）将工程人员的笔迹笔画数据信息

、字体单元在书写时的笔尖笔画特征

代入笔迹核对公式

中，其中若对应的

时代入

，若对应的

时则代入

在本实施例中，其流程框架包括以下具体步骤：101）提取目标图像中的图像信息的图像特征数据，并提取书写路径特征数据；102）将采集的图像特征数据导入识别分类器中，提取其中的文字数据特征；103）对文字数据特征进行提取，并结合书写路径特征数据，对笔记信息数据进行数据提取校对；104）对文字数据特征进行清晰化识别处理，同时对识别处理后的文字数据进行按照笔迹分类；105）将分类后的笔记分类数据进行分别提取，转化为可读文本。

通过本实施例能够实现：将工程人员的笔迹笔画数据信息、字体单元在书写时的笔尖笔画数据特征代入笔迹核对公式中，将对应的字体单元找到对应的最大的笔迹核对系数，此笔迹核对系数对应的工程人员即为该对应字体单元的书写人员，进行笔迹核对，以将对应的书写文本与对应的填写工程人员进行针对性分类，以快速找到书写文本的对应填写工程人员，便于进行错误文本的快速追责，和冒充笔迹的快速查找，解决了在识别后字迹被统一格式化，这样就无法对笔迹进行快速识别，这样难以快速找到书写文本的对应填写工程人员，不便于进行错误文本的快速追责和冒充笔迹的快速查找的问题。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种用于工程电子档案笔记图像数据识别系统，其特征在于：其原理框架包括笔记采集模块、笔记图像处理模块、图像类型检测模块和笔记分类储存模块文本生成模块，所述笔记采集模块用于通过安装在书写笔上的拍摄模块对书写区进行拍照，同时通过定位模块对书写路径数据进行感应，对书写路径数据进行提取，所述笔记图像处理模块用于对采集的照片中的文本图像进行采集，并对文本图像进行清晰化对比处理，所述图像类型检测模块用于对采集的照片中的图像中的文本图像进行字迹和笔记识别，所述笔记分类储存模块用于对笔记按照字迹和内容进行分隔同时进行分类储存。

2.根据权利要求1所述的一种用于工程电子档案笔记图像数据识别系统，其特征在于：所述笔记采集模块包括照片采集子模块和书写路径采集子模块，所述照片采集子模块用于通过安装在书写笔上的拍摄模块对书写区进行拍照，获得其拍摄图像数据

，所述笔记图像处理模板包括投屏显示子模块、文本识别子模块和清晰化对比处理子模块，所述投屏显示子模块用于对采集的图像进行提取显示，所述文本识别子模块用于识别模糊图像中的文字数据信息，所述清晰化对比处理子模块用于对识别模糊图像中的文字数据信息进行清晰化对比处理，所述图像类型检测模块包括笔记提取子模块、笔迹检测子模块和笔记分类子模块，所述笔记提取子模块用于对清晰化对比处理后的笔记数据进行数据的提取，所述笔迹检测子模块用于对笔记中的不同笔迹进行检测，所述笔记分类子模块用于对数据根据不同笔迹情况进行分类，所述笔记分类储存模块用于对笔记数据按照笔迹的分类情况进行分类储存。

3.根据权利要求2所述的一种用于工程电子档案笔记图像数据识别系统，其特征在于：所述文本识别子模块中包括图像识别概率单元和书写路径识别概率单元，所述图像识别概率单元中包括图像识别概率策略，所述图像识别概率策略包括以下具体步骤：1）将图像按照字体之间的间隔分割为若干个字体单元，将若干个字体单元图像标准化转换为数据特征

，同时将标准字体图像标准化转化为标准数据特征

，所述图像特征数据和标准数据的相关度

的计算公式为：

，其中

为标准数据特征

中的第i项，而

为与

对应的数据特征

4.根据权利要求3所述的一种用于工程电子档案笔记图像数据识别系统，其特征在于：所述书写路径识别概率单元中包括书写路径识别概率计算策略，所述书写路径识别概率计算策略包括以下步骤：1）将图像按照字体之间的间隔分割为若干个字体单元，计算其字体单元在书写时的笔尖笔画特征

，同时将标准字体图像转化为笔画数据特征

，其中若对应的

时代入

，若对应的

时则代入

。

5.根据权利要求4所述的一种用于工程电子档案笔记图像数据识别系统，其特征在于：所述文本识别子模块中包括文本识别策略，所述文本识别策略包括以下具体步骤：将该字体单元对应的标准字体的图像相关度和笔画相似度导入文本识别度的计算公式中计算文本识别度

6.根据权利要求5所述的一种用于工程电子档案笔记图像数据识别系统，其特征在于：所述笔记分类储存模块中储存有工程人员的笔迹笔画数据信息

、字体单元在书写时的笔尖笔画特征

代入笔迹核对公式

中，其中若对应的

时代入

，若对应的

时则代入

7.根据权利要求6所述的一种用于工程电子档案笔记图像数据识别系统，其特征在于：其流程框架包括以下具体步骤：101）提取目标图像中的图像信息的图像特征数据，并提取书写路径特征数据；102）将采集的图像特征数据导入识别分类器中，提取其中的文字数据特征；103）对文字数据特征进行提取，并结合书写路径特征数据，对笔记信息数据进行数据提取校对；104）对文字数据特征进行清晰化识别处理，同时对识别处理后的文字数据进行按照笔迹分类；105）将分类后的笔记分类数据进行分别提取，转化为可读文本。

8.根据权利要求7所述的一种用于工程电子档案笔记图像数据识别系统，其特征在于：所述原理框架还包括文本生成模块，所述文本生成模块用于通过字迹和分类的内容进行识别文本的生成。