CN114120332A - 基于人工智能的文档自动校核方法 - Google Patents

基于人工智能的文档自动校核方法 Download PDF

Info

Publication number
CN114120332A
CN114120332A CN202111364682.0A CN202111364682A CN114120332A CN 114120332 A CN114120332 A CN 114120332A CN 202111364682 A CN202111364682 A CN 202111364682A CN 114120332 A CN114120332 A CN 114120332A
Authority
CN
China
Prior art keywords
document
intelligent
artificial intelligence
extracting
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111364682.0A
Other languages
English (en)
Inventor
陈淑婷
李雅洁
马婉贞
曹源
明涛
胡新苗
舒斐
胡美慧
张腾
郭江涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Xinjiang Electric Power CorporationInformation & Telecommunication Co ltd
State Grid Corp of China SGCC
Original Assignee
State Grid Xinjiang Electric Power CorporationInformation & Telecommunication Co ltd
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Xinjiang Electric Power CorporationInformation & Telecommunication Co ltd, State Grid Corp of China SGCC filed Critical State Grid Xinjiang Electric Power CorporationInformation & Telecommunication Co ltd
Priority to CN202111364682.0A priority Critical patent/CN114120332A/zh
Publication of CN114120332A publication Critical patent/CN114120332A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及文档校核技术领域,是一种基于人工智能的文档自动校核方法,其包括以下步骤:第一步:开放场景下的文本检测与识别;第二步:结构化信息的智能提取;第三步:高效智能文书校对;第四步:文档主题结构及关键内容提取。本发明利用公司内部的前期沉淀文档数据,借助前沿的机器学习及文字智能识别技术,编制预制基础审核规则,构建智能文档审阅模型,实现文字识别,智能化信息提取,智能文书格式文字校对,关键内容识别提取等新型智能化文档处理功能,确保日常内部文件文档编写规范统一,有效识别文字错误、前后不一致等文档错误问题,实现智能办公,提升文件文档处理效率、降低工作成本、有效提高横向协同和上下联动工作质效。

Description

基于人工智能的文档自动校核方法
技术领域
本发明涉及文档校核技术领域,是一种基于人工智能的文档自动校核方法。
背景技术
随着机器学习及文字智能识别技术的飞速提升,为支撑服务能源互联网建设,加强横向协同、上下联动,进一步落实数字化转型要求,日常办公效率急需提高。以电网为例,一是常用公文已达14类,文件格式不一,审核要点各不相同,每部门均需设置文书岗位完成日常公文审核流转工作;二是项目文件众多,仅电网数字化类项目分五个子类,每类项目所含项目资料16-19种,文件体量较大,检查工作繁重。三是各类检查工作不断开展,日常文档自查工作繁重,而各类检查问题不断,返工现象频发,效率低下。
发明内容
本发明提供了一种基于人工智能的文档自动校核方法,克服了上述现有技术之不足,其能提升文件文档处理效率、降低工作成本、防范工作风险。
本发明的技术方案是通过以下措施来实现的:一种基于人工智能的文档自动校核方法,包括以下步骤:第一步:开放场景下的文本检测与识别;第二步:结构化信息的智能提取;第三步:高效智能文书校对;第四步:文档主题结构及关键内容提取。
下面是对上述发明技术方案的进一步优化或/和改进:
上述第一步包括:1-1:加密文件解密、图像方向校正、格式转换、灰度化和二值化相关操作;1-2:预处理的去噪图片通过卷积层提取待识别图像的特征图;1-3:将特征图按列切分成若干块;1-4:每块通过循环层和softmax函数处理并列出元素对应字符的预测概率;1-5:将预测结果与类标近似软对齐,最终得到完整识别结果。
上述第二步包括:2-1:使用语义分割模型U-Net实现表格类区域检测;2-2:根据对象文档的特点,使用注意力机制为关键区域内的像素点的特征分配更多的权重;2-3:使用序列标注模型来实现图像页面分割,将表格类区域内的行列数据分割开来,检测出文字区域;2-4:利用图像特征提取与文本生成模型实现文字识别。
上述第三步包括:3-1:用基于神经网络机器翻译的模型,应用Word Embedding提取词向量;3-2:应用Transformer和Copy Net网络对词向量进行优化;3-3:采用Bi-LSTM以及Bi-GRU模型,从正序和逆序双向获取输入序列的语义信息;3-4:使用CRF层和Softmax函数对网络的输出进行解码,对输入序列中的汉字逐个预测正字。
上述第四步包括:4-1:用图神经网络对文本信息特征提取,以解决短文本结构不规范、不规律和词之间的存在关联复杂信息的问题;4-2:结合自注意机制针对词的位置特征和语境特征编码,来捕获丰富的上下文依赖信息;4-3:采用一种线性解码方案,以生成可解释的关键词。
本发明利用公司内部的前期沉淀文档数据,借助前沿的机器学习及文字智能识别技术,编制预制基础审核规则,构建智能文档审阅模型,实现文字识别,智能化信息提取,智能文书格式文字校对,关键内容识别提取等新型智能化文档处理功能,确保日常内部文件文档编写规范统一,有效识别文字错误、前后不一致等文档错误问题,实现智能办公,提升文件文档处理效率、降低工作成本、防范工作风险,有效提高横向协同和上下联动工作质效。
附图说明
图1是本发明提供的整体框架图。
图2是本发明的提供的开放场景下的文本检测与识别模块流程图。
图3是本发明提供的结构化信息的智能提取模块流程图。
图4是本发明提供的高效智能文书校对模块流程图。
图5是本发明提供的文档主题结构及关键内容提取模块流程图。
具体实施方式
本发明不受下述实施例的限制,可根据本发明的技术方案与实际情况来确定具体的实施方式。
下面结合实施例及附图对本发明作进一步描述:
如附图1所示:本发明包含开放场景下的文本检测与识别,结构化信息的智能提取,高效智能文书校对,文档主题结构及关键内容提取四个模块。模型具体实施方式如下:
开放场景下的文本检测与识别模块利用神经网络技术为卷积循环神经网络(CRNN),网络的输入为传统算法预处理的去噪图片,输出是数字化文本信息,整体流程图如图2,详细步骤如下:
(1)通过传统算法实现单元格定位来进行数据预处理。其中包括:加密文件解密、图像方向校正、格式转换、灰度化和二值化等相关操作;
(2)预处理的去噪图片通过卷积层提取待识别图像的特征图;
(3)将特征图按列切分成若干块;
(4)每块通过循环层和softmax函数处理并列出元素对应字符的预测概率;
(5)将预测结果与类标近似软对齐,最终得到完整识别结果。
结构化信息的智能提取根据对象文档的特点利用基于深度学习的模型将信息提取任务拆分成三类主要形式:表格类区域检测、文字检测、文字识别。整体流程图如图3,详细步骤如下:
(1)使用语义分割模型U-Net实现表格类区域检测;
(2)根据对象文档的特点,使用注意力机制为关键区域内的像素点的特征分配更多的权重;
(3)使用序列标注模型来实现图像页面分割,将表格类区域内的行列数据分割开来,检测出文字区域;
(4)利用图像特征提取与文本生成模型实现文字识别。
高效智能文书校对模块基于各字段间的内在逻辑和关联关系,自动甄别置信度较低的字段信息,并根据校验逻辑对可能出错的信息进行智能检测及纠正,并探索文书行文风格识别,确保文档前后一致性及行文规范性。整体流程图如图4,详细步骤如下:
(1)采用基于神经网络机器翻译的模型,应用Word Embedding提取词向量;
(2)应用Transformer和Copy Net网络对词向量进行优化;
(3)采用Bi-LSTM以及Bi-GRU模型,从正序和逆序双向获取输入序列的语义信息;
(4)使用CRF层和Softmax函数对网络的输出进行解码,对输入序列中的汉字逐个预测正字。
文档主题结构及关键内容提取:设计一种基于图到序列学习模型的自适应短文本关键词生成算法模型,围绕文本关键内容提取中的噪声词问题,改进基于统计的文本关键内容提取方法,并将改进后的关键内容提取方法应用于文本分类的特征降维和特征项权值计算中,从而实现对海量的文本资源进行关键词标注,进而进行归纳整理,实现文本资源的高效管理和便捷使用。整体流程图如图5,详细步骤如下:
(1)采用图神经网络对文本信息特征提取,以解决短文本结构不规范、不规律和词之间的存在关联复杂信息的问题;
(2)结合自注意机制针对词的位置特征和语境特征编码,来捕获丰富的上下文依赖信息;
(3)采用一种线性解码方案,以生成可解释的关键词。
本发明具有以下特点:1、利用智能识别技术,通过电子信息输入终端输入图形图像信息,将图像信息中的印刷体文字通过相应的转换形成一定的字符,并与字符数据库进行比对,最终将标准的文本信息输出,实现文字识别。2、依托公司内部海量文档及票据信息的积累,打造典型文档及票据信息的识别提取自动化解决方案,自动检测、识别、提取文档或票据的结构化信息,并根据实际应用需求输出结构化文本,由计算机替代人完成信息提取工作,降低信息提取成本、优化业务处理效率。3、基于文档的主题结构及关键词,利用一种基于图到序列学习模型的自适应短文本关键词生成算法模型,基于各字段间的内在逻辑和关联关系,自动甄别置信度较低的字段信息,并根据校验逻辑对可能出错的信息进行智能检测及纠正,并探索文书行文风格识别,确保文档前后一致性及行文规范性,实现高效智能文书校对。4、该模型采用图神经网络作为对文本信息特征提取的编码框架,以解决短文本结构不规范、不规律和词之间的存在关联复杂信息的问题。同时,结合自注意机制针对词的位置特征和语境特征编码,来捕获丰富的上下文依赖信息。最后采用一种线性解码方案,以生成可解释的关键词,提取文档主题结构。
以上技术特征构成了本发明的最佳实施例,其具有较强的适应性和实施效果,可根据实际需要增减非必要的技术特征,来满足不同情况的需求。

Claims (5)

1.一种基于人工智能的文档自动校核方法,其特征在于包括以下步骤:第一步:开放场景下的文本检测与识别;第二步:结构化信息的智能提取;第三步:高效智能文书校对;第四步:文档主题结构及关键内容提取。
2.根据权利要求1所述的基于人工智能的文档自动校核方法,其特征在于第一步包括:1-1:加密文件解密、图像方向校正、格式转换、灰度化和二值化相关操作;1-2:预处理的去噪图片通过卷积层提取待识别图像的特征图;1-3:将特征图按列切分成若干块;1-4:每块通过循环层和softmax函数处理并列出元素对应字符的预测概率;1-5:将预测结果与类标近似软对齐,最终得到完整识别结果。
3.根据权利要求2所述的基于人工智能的文档自动校核方法,其特征在于第二步包括:2-1:使用语义分割模型U-Net实现表格类区域检测;2-2:根据对象文档的特点,使用注意力机制为关键区域内的像素点的特征分配更多的权重;2-3:使用序列标注模型来实现图像页面分割,将表格类区域内的行列数据分割开来,检测出文字区域;2-4:利用图像特征提取与文本生成模型实现文字识别。
4.根据权利要求3所述的基于人工智能的文档自动校核方法,其特征在于第三步包括:3-1:用基于神经网络机器翻译的模型,应用Word Embedding提取词向量;3-2:应用Transformer和Copy Net网络对词向量进行优化;3-3:采用Bi-LSTM以及Bi-GRU模型,从正序和逆序双向获取输入序列的语义信息;3-4:使用CRF层和Softmax函数对网络的输出进行解码,对输入序列中的汉字逐个预测正字。
5.根据权利要求4所述的基于人工智能的文档自动校核方法,其特征在于第四步包括:4-1:用图神经网络对文本信息特征提取,以解决短文本结构不规范、不规律和词之间的存在关联复杂信息的问题;4-2:结合自注意机制针对词的位置特征和语境特征编码,来捕获丰富的上下文依赖信息;4-3:采用一种线性解码方案,以生成可解释的关键词。
CN202111364682.0A 2021-11-17 2021-11-17 基于人工智能的文档自动校核方法 Pending CN114120332A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111364682.0A CN114120332A (zh) 2021-11-17 2021-11-17 基于人工智能的文档自动校核方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111364682.0A CN114120332A (zh) 2021-11-17 2021-11-17 基于人工智能的文档自动校核方法

Publications (1)

Publication Number Publication Date
CN114120332A true CN114120332A (zh) 2022-03-01

Family

ID=80397118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111364682.0A Pending CN114120332A (zh) 2021-11-17 2021-11-17 基于人工智能的文档自动校核方法

Country Status (1)

Country Link
CN (1) CN114120332A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116483780A (zh) * 2023-05-17 2023-07-25 丹东青谊文化传播有限公司 一种文化艺术交流活动组织策划用宣传系统
CN116595587A (zh) * 2023-07-14 2023-08-15 江西通友科技有限公司 一种基于保密业务的文档隐写方法及文档管理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116483780A (zh) * 2023-05-17 2023-07-25 丹东青谊文化传播有限公司 一种文化艺术交流活动组织策划用宣传系统
CN116595587A (zh) * 2023-07-14 2023-08-15 江西通友科技有限公司 一种基于保密业务的文档隐写方法及文档管理方法
CN116595587B (zh) * 2023-07-14 2023-09-22 江西通友科技有限公司 一种基于保密业务的文档隐写方法及文档管理方法

Similar Documents

Publication Publication Date Title
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
CN110399798B (zh) 一种基于深度学习的离散图片文件信息提取系统及方法
US20180101726A1 (en) Systems and Methods for Optical Character Recognition for Low-Resolution Documents
CN114120332A (zh) 基于人工智能的文档自动校核方法
CN108287911B (zh) 一种基于约束化远程监督的关系抽取方法
Seethalakshmi et al. Optical character recognition for printed Tamil text using Unicode
CN112418812A (zh) 分布式全链路自动化智能通关系统、方法及存储介质
CN111539414B (zh) 一种ocr图像字符识别和字符校正的方法及系统
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN115953788A (zh) 基于ocr和nlp技术的绿色金融属性智能认定方法及系统
CN112949455A (zh) 一种增值税发票识别系统及方法
CN116028595A (zh) 一种基于非结构化文档内容的自动识别方法
Thammarak et al. Automated data digitization system for vehicle registration certificates using google cloud vision API
CN112529513A (zh) 一种智能验印方法及系统
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
CN113177478B (zh) 一种基于迁移学习的短视频语义标注方法
CN115713775A (zh) 一种从文档中提取表格的方法、系统和计算机设备
CN116403233A (zh) 一种基于数字化档案图像定位及识别方法
Rakshit et al. A Novel Pipeline for Improving Optical Character Recognition through Post-processing Using Natural Language Processing
CN112149523B (zh) 基于深度学习和并查集算法识别并抽取图片的方法及装置
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN109739981B (zh) 一种pdf文件类别判定方法及文字提取方法
CN1452098A (zh) 文档分类系统及其实现程序
CN116912845B (zh) 一种基于nlp与ai的智能内容识别与分析方法及装置
Pegu et al. Table Structure Recognition Using CoDec Encoder-Decoder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination