CN114842483A - 基于神经网络和模板匹配的标准文件信息提取方法及系统 - Google Patents
基于神经网络和模板匹配的标准文件信息提取方法及系统 Download PDFInfo
- Publication number
- CN114842483A CN114842483A CN202210732053.7A CN202210732053A CN114842483A CN 114842483 A CN114842483 A CN 114842483A CN 202210732053 A CN202210732053 A CN 202210732053A CN 114842483 A CN114842483 A CN 114842483A
- Authority
- CN
- China
- Prior art keywords
- file
- data
- term
- information
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 17
- 238000000605 extraction Methods 0.000 title claims description 10
- 238000000034 method Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 12
- 230000007704 transition Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000003491 array Methods 0.000 claims description 3
- 229910002056 binary alloy Inorganic materials 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 4
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19013—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及计算机和标准化领域,本发明的基于神经网络和模板匹配的标准文件信息提取方法及系统,包括:S1.获取目标识别图片,将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本;S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配,将某一指标同类信息归类后用一个数组存储;S3.将归类后的数组结构化,形成结构化数据并存储;S4.根据所述规则模板和结构化的文本数据,将结构化后的文本数据使用一个表格组件显示。本方案将不可编辑的pdf文件数字化从而形成计算机可处理的结构化数据,实现了标准文件处理的信息化,极大减少了人工录入成本提高了效率。
Description
技术领域
本发明涉及计算机和标准化领域,具体涉及一种将不可编辑的pdf格式标准文件数字化以及提取其中关键指标信息的方法和系统。
背景技术
国家标准指导文件简称标准文件,是规定各项技术实施标准、确定各项产品生产规格的指导性文件。标准文件大多是不可编辑的pdf格式,虽然防止了文件内容被篡改但也带来了文件内容提取的不便。以往标准文件的录入主要依靠人力手工录入,处理效率低、工作内容繁琐、信息化程度低等缺点亟待解决。当前,计算机技术特别是人工智能技术蓬勃发展,引领新一轮产业革命。其中光学字符识别技术可以将图片中文字识别成文本,为标准文件的处理引入信息化技术提供了技术保障。
发明内容
针对上述问题,本发明提供了基于神经网络和模板匹配的标准文件信息提取方法及系统,将标准文件数字化为可编辑的结构化数据,实现了管理人员快捷提取标准文件关键指标信息的目的。
本发明提供如下技术方案:基于神经网络和模板匹配的标准文件信息提取方法,包括如下步骤:
S1.获取目标识别图片,将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本,其中关键指标信息包括指标中文名、指标英文名、指标定义信息;
S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配,将某一指标同类信息归类后用一个数组存储;
S3.将归类后的数组结构化,将结果数据组按照术语标题、术语中文名、术语英文名、术语分类,形成结构化数据并存储;
S4.根据所述规则模板和结构化的文本数据,将结构化后的文本数据使用一个表格组件显示,所述表格组件包括数据显示、数据编辑、新建/删除数据、导出为excel格式文件功能,所述excel文件导出模块,将导出目标文件和标准文件的结构化数据上传至指标信息管理系统。
所述的目标为pdf文件,将目标pdf文件拆分成多页图片,得到多张可选目标图片,图片为png格式或jpg格式。将pdf文件按页拆分为若干个子文件;将若干个子文件转为png格式高清图片。选取若干若干感兴趣图片输入到预设ocr模型中识别图片中文字,所述文字包括待提取指标信息和冗余文字。
在步骤S1中,将每一帧目标图片输入到预设ocr模型中得到该目标图片中的所有文字,遍历识别后的每一行文字,将两两位置余弦夹角小于设定阈值的文字归为同一行,两向量余弦夹角计算公式为:
图片只应包含待识别文本,对于与本次识别无关的文字、表格均不应包含在内;若某一指标一张图无法完全包括全部内容则应将超出部分单独识别;对于表格结构重建所截图部分只应包含表格,对于多个表格如果一张图能完全覆盖那么可以放在一张图中,如果不能覆盖则必须分多次提取。
文字识别具体步骤包括:
S11.图像归一化,固定图像宽度不变,将高度缩放为32像素,其中图像的缩放计算公式为:
S12.获取特征图,使用卷积神经网络将图像处理成512通道数的特征图;
S13.将特征图转为维度为512的特征向量;
S14.将特征输入到BiLSTM模型中,对每一个特征向量预测出相应标签分布向量;
S15.使用条件随机场(Conditional Random Field,CRF)模型得到最优字符序列输出,其中对于所有可能概率中的最佳标签序列由viterbi算法计算,过程如下,
(1)初始化
(2)递推,对t = 2,3,...T
(3)终止
(4)最优路径回溯,对t=T-1,T-2,...1,有
初始状态概率向量是一个n*1的向量,向量的每一列值表示初始时每个可能状态概率大小;
步骤S2中,遍历识别结果的每一行,根据预设定的规则模板匹配如果该行与规则匹配,则将该行加入数组,指标类型包括:规范性技术要素、规范性一般要素、资料性要素、必备要素、可选要素。
指标归类,采用预设规则模板对文本行检测,如果某行文本能够匹配指标标题模板则认定是某类指标开始部分,将其存到到数组中;如果不与标题模板匹配则认定是某类属于其余部分同样将其放到数组中;当所有文本行被处理后某一指标的所有信息包括指标标题、指标名称、指标定义信息已被归类到同一数组中。
指标信息结构化,按照预设的指标标题规则、指标中文名规则、指标英文名规则分别提取出相应字段;将其余文本全部记作指标定义,如此就实现了指标的结构化。对于其余指标采用相同方法处理直至所有指标处理完毕。
导出为excel格式文件时,将数组转为excel文件所需sheet格式,将sheet转换成Blod二进制流,进行加密传输,加密时:
S41.以二进制方式读取文件流;
S42.长度填充,使得比特长在模512下为448,即填充后的二进制位数为512的某一倍数减64;
S43.文件信息填充,步骤S2中空余的64比特位用于记录文件信息;
S44.初始化MD缓存区,使用128比特长的缓存区存储中间结果和最终哈希值;
S46.获取加密后的结果,结果是加密后的二进制文件。
基于神经网络和模板匹配的标准文件信息提取系统,包括:
文件读取模块,从若干待选文件中选择感兴趣文件读取到字节数组中;
文字识别模块,将选中文件输入到预设ocr模型中识别出图片中关键信息,所述关键信息包括术语标题、术语英文名、术语中文名、术语定义;
位置归一化模块,将识别出的文本按照位置信息归类,对于某一文本框将右上角和右下角两点位置求得一向量,对于任意两向量如果夹角余弦值小于指定阈值则认为在同一行并将其存放到同一字符数组中;将文字按照位置归类,在同一行上的文字归为同一类;
指标分类模块,依次读取识别识别文字的每一行,若某行与预设术语开始部分规则模板匹配则认定为术语开始部分,将其加入到数组;如果不匹配则认定为术语其余部分将其与该术语开始部分合并;
指标结构化模块,遍历分类后的数组,如果该行文本能够匹配预设的若干术语提取规则将其定义为关键字段并提取;如果某一数组成员与术语中文名、术语英文名相匹配分别提取为术语中文名、术语英文名字段;对于既不是术语标题也不是术语中英名称的部分将其归类为术语定义;
数据显示模块,设置表格数据tableData,设置表格各列以及各列数据;设置表格高度以及表格边框,将结构化后的数据以表格形式显示,另外,对于识别并处理后的数据可能出现字符识别错误或归类错误,本模块实现了结果重编辑功能将错误更正;
文件导出模块,确认无误的结果通过本模块导出为excel或json文件,导出的文件可以二次编辑、复制、打印;创建浏览器超链接标签并将链接指向导出数据;模拟点击超链接实现导出;
表格识别模块,将包含表格的图片文件输入到ocr模型中得到可编辑的excel表格。
通过上述描述可以看出,本方案获取目标文件;将文件切片并转换成图片格式;选取感兴趣图片输入到预设ocr模型中得到图片中文本;将所得文本处理,包括文本位置归一化、文本替换,使得原文件中在同一行的文字数字化后仍在同一行;文本结构化,生成包括术语中文名、术语英文名、术语定义的结构化数据;数据导出,将所得结构化数据导出为excel文件;数据加密与上传,将标准文件以及数字化的指标文件上传至文件管理平台实现了标准文件处理的数字化,将传统手工录入改造成信息化处理。本发明提供的方法和系统使用简单识别精准可明显提高指标录入的效率,可以部署在笔记本电脑、平板电脑以及手机上,在这些设备上使用都是合理的。
附图说明
图1为本发明具体实施方式的流程图。
图2为本发明具体实施方式系统的示意图。
具体实施方式
下面将结合本发明具体实施方式中的附图,对本发明具体实施方式中的技术方案进行清楚、完整地描述,显然,所描述的具体实施方式仅仅是本发明一种具体实施方式,而不是全部的具体实施方式。基于本发明中的具体实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式,都属于本发明保护的范围。
通过附图1和2可以看出,本发明基于神经网络和模板匹配的标准文件信息提取方法,其包括如下步骤:S1.获取目标识别图片,将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本,其中关键指标信息包括指标中文名、指标英文名、指标定义信息;
所述的目标为pdf文件,将目标pdf文件拆分成多页图片,得到多张可选目标图片,图片为png格式或jpg格式。将pdf文件按页拆分为若干个子文件;将若干个子文件转为png格式高清图片。
将每一帧目标图片输入到预设ocr模型中得到该目标图片中的所有文字,遍历识别后的每一行文字,将两两位置余弦夹角小于设定阈值的文字归为同一行,两向量余弦夹角计算公式为:
图片包含待识别文本,与识别无关的文字、表格均不应包含在内;若某一指标一张图无法完全包括全部内容则应将超出部分单独识别;对于表格结构重建所截图部分只应包含表格,对于多个表格如果一张图能完全覆盖那么可以放在一张图中,如果不能覆盖则必须分多次提取。
基于连接预选框网络的文本检测模型(Detecting Text in Natural Image withConnectionist Text Proposal Network,DTPN)高校场景文字识别模型(An Efficientand Accurate Scene Text)识别文本位置及内容;表格结构预测模型识别表格结构;ocr识别模型采用crnn网络输入为一包含文字的图像,输出为图片中文字。文字识别具体步骤包括:
S11.图像归一化,固定图像宽度不变,将高度缩放为32像素,其中图像的缩放计算公式为:
S12.获取特征图,使用卷积神经网络将图像处理成512通道数的特征图;
S13.将特征图转为维度为512的特征向量;
S14.将特征输入到BiLSTM模型中,对每一个特征向量预测出相应标签分布向量;
S15.使用条件随机场模型得到最优字符序列输出,其中对于所有可能概率中的最佳标签序列由viterbi算法计算,过程如下,
(1)初始化
(2)递推,对t= 2,3,...T
(3)终止
(4)最优路径回溯,对t=T-1,T-2,...1,有
初始状态概率向量是一个n*1的向量,向量的每一列值表示初始时每个可能状态概率大小;
max—最大值函数,对一组序列取其中最大值部分;
S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配,将某一指标同类信息归类后用一个数组存储;
步骤S2中,遍历识别结果的每一行,根据预设定的规则模板匹配如果该行与规则匹配,则将该行加入数组,指标类型包括:规范性技术要素、规范性一般要素、资料性要素、必备要素、可选要素。
S3.将归类后的数组结构化,将结果数据组按照术语标题、术语中文名、术语英文名、术语分类,形成结构化数据并存储;S4.根据所述规则模板和结构化的文本数据,将结构化后的文本数据使用一个表格组件显示,所述表格组件包括数据显示、数据编辑、新建/删除数据、导出为excel格式文件功能。将导出目标文件和标准文件的结构化数据上传至指标信息管理系统。标准文件管理平台存放该加密文件的方式包括:在接收到加密文件后,采用预设的解密算法对该文件解密,得到解密后的文件。数据的显示包括web表格组件,组件具有全选/部分选中、添加/删除一行、编辑数据功能。对该表格叙述是功能性的,不局限于某一具体组件。
导出为excel格式文件时,将数组转为excel文件所需sheet格式,将sheet转换成Blod二进制流,进行加密传输,加密算法可包括多种,不限于下面一种,加密时:
S41.以二进制方式读取文件流;
S42.长度填充,使得比特长在模512下为448,即填充后的二进制位数为512的某一倍数减64;
S43.文件信息填充,步骤S2中空余的64比特位用于记录文件信息;
S44.初始化MD缓存区,使用128比特长的缓存区存储中间结果和最终哈希值;
S46.获取加密后的结果,结果是加密后的二进制文件。
对于某一指标信息标题可能是二级标题或三级标题,此时应根据预设置选择合适规则模板识别具体指标。对于标题与术语名不在同一行时,检验规则模板匹配结果长度是否某行输入文本长度相等,若相等即为术语开始部分;若不相等为术语其余部分。标题与术语名不在同一行时按照需要分两种情况:提取二级标题和一级标题,分别选择相应规则模板如果内容匹配规则模板则提取为术语开始部分。将结构化的数据显示并提供数据编辑、数据添加/删除功能,数据的显示包括一web表格组件,组件具有全选/部分选中、添加/删除一行、编辑数据功能。对该表格叙述是功能性的,不局限于某一具体组件。
基于神经网络和模板匹配的标准文件信息提取系统,包括:
文件读取模块,从若干待选文件中选择感兴趣文件读取到字节数组中;
文字识别模块,将选中文件输入到预设ocr模型中识别出图片中关键信息,所述关键信息包括术语标题、术语英文名、术语中文名、术语定义;
位置归一化模块,将识别出的文本按照位置信息归类,对于某一文本框将右上角和右下角两点位置求得一向量,对于任意两向量如果夹角余弦值小于指定阈值则认为在同一行并将其存放到同一字符数组中;
指标分类模块,依次读取识别识别文字的每一行,若某行与预设术语开始部分规则模板匹配则认定为术语开始部分,将其加入到数组;如果不匹配则认定为术语其余部分将其与该术语开始部分合并;
指标结构化模块,遍历分类后的数组,如果该行文本能够匹配预设的若干术语提取规则将其定义为关键字段并提取;
数据显示模块,设置表格数据tableData,设置表格各列以及各列数据;设置表格高度以及表格边框,将结构化后的数据以表格形式显示,另外,对于识别并处理后的数据可能出现字符识别错误或归类错误,本模块实现了结果重编辑功能将错误更正;
文件导出模块,确认无误的结果通过本模块导出为excel或json文件,导出的文件可以二次编辑、复制、打印;
表格识别模块,将包含表格的图片文件输入到ocr模型中得到可编辑的excel表格。
本发明的方案获取目标文件;将文件切片并转换成图片格式;选取感兴趣图片输入到预设ocr模型中得到图片中文本;将所得文本处理,包括文本位置归一化、文本替换,使得原文件中在同一行的文字数字化后仍在同一行;文本结构化,生成包括术语中文名、术语英文名、术语定义的结构化数据;数据导出,将所得结构化数据导出为excel文件;数据加密与上传,将标准文件以及数字化的指标文件上传至文件管理平台。
尽管已经示出和描述了本发明的具体实施方式,对于本领域的普通技术人员而言,可以理解在不脱离发明的原理和精神的情况下可以对这些具体实施方式进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.基于神经网络和模板匹配的标准文件信息提取方法,其特征在于包括如下步骤:
S1.获取目标识别图片,将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本,其中关键指标信息包括指标中文名、指标英文名、指标定义信息;
S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配,将某一指标同类信息归类后用一个数组存储;
S3.将归类后的数组结构化,将结果数据组按照术语标题、术语中文名、术语英文名、术语分类,形成结构化数据并存储;
S4.根据所述规则模板和结构化的文本数据,将结构化后的文本数据使用一个表格组件显示,所述表格组件包括数据显示、数据编辑、新建/删除数据、导出为excel格式文件功能。
2.根据权利要求1所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
所述的目标为pdf文件,将目标pdf文件拆分成多页图片,得到多张可选目标图片,图片为png格式或jpg格式。
3.根据权利要求2所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
将pdf文件按页拆分为若干个子文件;将若干个子文件转为png格式高清图片。
5.根据权利要求4所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
图片包含待识别文本,与识别无关的文字、表格均不应包含在内;若某一指标一张图无法完全包括全部内容则应将超出部分单独识别;对于表格结构重建所截图部分只应包含表格,对于多个表格如果一张图能完全覆盖那么可以放在一张图中,如果不能覆盖则必须分多次提取。
6.根据权利要求2或5所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
文字识别具体步骤包括:
S11.图像归一化,固定图像宽度不变,将高度缩放为32像素,其中图像的缩放计算公式为:
S12.获取特征图,使用卷积神经网络将图像处理成512通道数的特征图;
S13.将特征图转为维度为512的特征向量;
S14.将特征输入到BiLSTM模型中,对每一个特征向量预测出相应标签分布向量;
S15.使用条件随机场模型得到最优字符序列输出,其中对于所有可能概率中的最佳标签序列由viterbi算法计算,过程如下,
(1)初始化
(2)递推,对t = 2,3,...T
(3)终止
(4)最优路径回溯,对t=T-1,T-2,...1,有
初始状态概率向量是一个n*1的向量,向量的每一列值表示初始时每个可能状态概率大小;
7.根据权利要求1所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
步骤S2中,遍历识别结果的每一行,根据预设定的规则模板匹配如果该行与规则匹配,则将该行加入数组,指标类型包括:规范性技术要素、规范性一般要素、资料性要素、必备要素、可选要素。
8.根据权利要求1所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
导出为excel格式文件时,将数组转为excel文件所需sheet格式,将sheet转换成Blod二进制流,进行加密传输,加密时:
S41.以二进制方式读取文件流;
S42.长度填充,使得比特长在模512下为448,即填充后的二进制位数为512的某一倍数减64;
S43.文件信息填充,步骤S2中空余的64比特位用于记录文件信息;
S44.初始化MD缓存区,使用128比特长的缓存区存储中间结果和最终哈希值;
S46.获取加密后的结果,结果是加密后的二进制文件。
9.基于神经网络和模板匹配的标准文件信息提取系统,其特征在于包括:
文件读取模块,从若干待选文件中选择感兴趣文件读取到字节数组中;
文字识别模块,将选中文件输入到预设ocr模型中识别出图片中关键信息,所述关键信息包括术语标题、术语英文名、术语中文名、术语定义;
位置归一化模块,将识别出的文本按照位置信息归类,对于某一文本框将右上角和右下角两点位置求得一向量,对于任意两向量如果夹角余弦值小于指定阈值则认为在同一行并将其存放到同一字符数组中;
指标分类模块,依次读取识别识别文字的每一行,若某行与预设术语开始部分规则模板匹配则认定为术语开始部分,将其加入到数组;如果不匹配则认定为术语其余部分将其与该术语开始部分合并;
指标结构化模块,遍历分类后的数组,如果该行文本能够匹配预设的若干术语提取规则将其定义为关键字段并提取;
数据显示模块,设置表格数据tableData,设置表格各列以及各列数据;设置表格高度以及表格边框,将结构化后的数据以表格形式显示,另外,对于识别并处理后的数据可能出现字符识别错误或归类错误,本模块实现了结果重编辑功能将错误更正;
文件导出模块,确认无误的结果通过本模块导出为excel或json文件,导出的文件可以二次编辑、复制、打印;
表格识别模块,将包含表格的图片文件输入到ocr模型中得到可编辑的excel表格。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210732053.7A CN114842483B (zh) | 2022-06-27 | 2022-06-27 | 基于神经网络和模板匹配的标准文件信息提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210732053.7A CN114842483B (zh) | 2022-06-27 | 2022-06-27 | 基于神经网络和模板匹配的标准文件信息提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114842483A true CN114842483A (zh) | 2022-08-02 |
CN114842483B CN114842483B (zh) | 2023-11-28 |
Family
ID=82574823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210732053.7A Active CN114842483B (zh) | 2022-06-27 | 2022-06-27 | 基于神经网络和模板匹配的标准文件信息提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842483B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098706A (zh) * | 2022-08-25 | 2022-09-23 | 中电太极(集团)有限公司 | 一种网络信息提取方法及装置 |
CN115188013A (zh) * | 2022-09-14 | 2022-10-14 | 泰豪信息技术有限公司 | 一种判决书的风险防控方法、系统、存储介质及设备 |
CN115775391A (zh) * | 2022-11-08 | 2023-03-10 | 北京博望华科科技有限公司 | 一种企业财务信息处理方法、系统及计算机储存介质 |
CN115859380A (zh) * | 2023-02-28 | 2023-03-28 | 深圳市大恒数据安全科技有限责任公司 | 一种电子数据固证关联方法 |
CN116628128A (zh) * | 2023-07-13 | 2023-08-22 | 湖南九立供应链有限公司 | 一种供应链数据标准化方法、装置、设备及其存储介质 |
CN117094304A (zh) * | 2023-10-18 | 2023-11-21 | 湖北华中电力科技开发有限责任公司 | 一种应用于电网领域技术标准制修订的提示方法和系统 |
CN118210879A (zh) * | 2024-05-20 | 2024-06-18 | 北京译图智讯科技有限公司 | 一种基于大语言模型的关键信息抽取方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101959831B1 (ko) * | 2017-09-26 | 2019-03-19 | 아주대학교산학협력단 | 이미지 인식 처리 장치 및 방법 |
CN109766898A (zh) * | 2018-12-26 | 2019-05-17 | 平安科技(深圳)有限公司 | 图像文字识别方法、装置、计算机设备及存储介质 |
WO2019104879A1 (zh) * | 2017-11-30 | 2019-06-06 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
CN110399798A (zh) * | 2019-06-25 | 2019-11-01 | 朱跃飞 | 一种基于深度学习的离散图片文件信息提取系统及方法 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
WO2021151270A1 (zh) * | 2020-05-20 | 2021-08-05 | 平安科技(深圳)有限公司 | 图像结构化数据提取方法、装置、设备及存储介质 |
CN114328845A (zh) * | 2022-03-15 | 2022-04-12 | 北京译图智讯科技有限公司 | 一种文档图像关键信息自动结构化方法及系统 |
-
2022
- 2022-06-27 CN CN202210732053.7A patent/CN114842483B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101959831B1 (ko) * | 2017-09-26 | 2019-03-19 | 아주대학교산학협력단 | 이미지 인식 처리 장치 및 방법 |
WO2019104879A1 (zh) * | 2017-11-30 | 2019-06-06 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
CN109766898A (zh) * | 2018-12-26 | 2019-05-17 | 平安科技(深圳)有限公司 | 图像文字识别方法、装置、计算机设备及存储介质 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN110399798A (zh) * | 2019-06-25 | 2019-11-01 | 朱跃飞 | 一种基于深度学习的离散图片文件信息提取系统及方法 |
WO2021151270A1 (zh) * | 2020-05-20 | 2021-08-05 | 平安科技(深圳)有限公司 | 图像结构化数据提取方法、装置、设备及存储介质 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
CN114328845A (zh) * | 2022-03-15 | 2022-04-12 | 北京译图智讯科技有限公司 | 一种文档图像关键信息自动结构化方法及系统 |
Non-Patent Citations (4)
Title |
---|
杨恒杰;闫铮;邬宗玲;方定邦;段放;: "基于循环神经网络的图像特定文本抽取方法", 激光与光电子学进展, no. 24 * |
林金朝;蔡元奇;庞宇;杨鹏;张焱杰;: "基于空间变换密集卷积网络的图片敏感文字识别", 计算机系统应用, no. 01 * |
王逸铭;于永洲;孙光峤;: "基于神经网络模型的扫描电镜图像字符识别方法", 制造业自动化, no. 07 * |
黄胜;王博博;朱菁;: "基于文档结构与深度学习的金融公告信息抽取", 计算机工程与设计, no. 01 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098706A (zh) * | 2022-08-25 | 2022-09-23 | 中电太极(集团)有限公司 | 一种网络信息提取方法及装置 |
CN115188013A (zh) * | 2022-09-14 | 2022-10-14 | 泰豪信息技术有限公司 | 一种判决书的风险防控方法、系统、存储介质及设备 |
CN115775391A (zh) * | 2022-11-08 | 2023-03-10 | 北京博望华科科技有限公司 | 一种企业财务信息处理方法、系统及计算机储存介质 |
CN115859380A (zh) * | 2023-02-28 | 2023-03-28 | 深圳市大恒数据安全科技有限责任公司 | 一种电子数据固证关联方法 |
CN116628128A (zh) * | 2023-07-13 | 2023-08-22 | 湖南九立供应链有限公司 | 一种供应链数据标准化方法、装置、设备及其存储介质 |
CN116628128B (zh) * | 2023-07-13 | 2023-10-03 | 湖南九立供应链有限公司 | 一种供应链数据标准化方法、装置、设备及其存储介质 |
CN117094304A (zh) * | 2023-10-18 | 2023-11-21 | 湖北华中电力科技开发有限责任公司 | 一种应用于电网领域技术标准制修订的提示方法和系统 |
CN117094304B (zh) * | 2023-10-18 | 2024-01-23 | 湖北华中电力科技开发有限责任公司 | 一种应用于电网领域技术标准制修订的提示方法和系统 |
CN118210879A (zh) * | 2024-05-20 | 2024-06-18 | 北京译图智讯科技有限公司 | 一种基于大语言模型的关键信息抽取方法及系统 |
CN118210879B (zh) * | 2024-05-20 | 2024-07-16 | 北京译图智讯科技有限公司 | 一种基于大语言模型的关键信息抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114842483B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114842483B (zh) | 基于神经网络和模板匹配的标准文件信息提取方法及系统 | |
Matsui et al. | Sketch-based manga retrieval using manga109 dataset | |
EP1580666A2 (en) | Method and apparatus for populating electronic forms from scanned documents | |
US20150169995A1 (en) | Method and apparatus for finding differences in documents | |
CN113378710B (zh) | 图像文件的版面分析方法、装置、计算机设备和存储介质 | |
CN111651636A (zh) | 视频相似片段搜索方法及装置 | |
CN113901006B (zh) | 大规模基因测序数据存储与查询系统 | |
JP4227432B2 (ja) | 画像処理方法 | |
WO2007023993A1 (en) | Data organization and access for mixed media document system | |
Haque et al. | Byte embeddings for file fragment classification | |
JP2005151127A5 (zh) | ||
US11995889B2 (en) | Cognitive generation of HTML pages based on video content | |
CN113887191A (zh) | 文章的相似性检测方法及装置 | |
CN117709317A (zh) | 报表文件的处理方法、装置及电子设备 | |
CN116932499B (zh) | 一种dwg格式文件批量修改标注的方法 | |
CN116484833A (zh) | 文档解析方法及装置 | |
CN114692573A (zh) | 文本结构化处理方法、装置、计算机设备、介质和产品 | |
Suryawanshi | Image Recognition: Detection of nearly duplicate images | |
CN115858860A (zh) | 一种视频检测方法、装置、电子设备和存储介质 | |
Sayyafzadeh et al. | Forensic Analysis of Contents in Thumbnails Using Transfer Learning | |
JP2006134042A (ja) | 画像処理システム | |
JP4677750B2 (ja) | 文書属性取得方法および装置並びにプログラムを記録した記録媒体 | |
JP2004334340A (ja) | 画像処理方法及び装置 | |
CN116318985B (zh) | 一种基于大数据的计算机网络安全预警系统及方法 | |
JP2005208872A (ja) | 画像処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |