CN114120332A

CN114120332A - 基于人工智能的文档自动校核方法

Info

Publication number: CN114120332A
Application number: CN202111364682.0A
Authority: CN
Inventors: 陈淑婷; 李雅洁; 马婉贞; 曹源; 明涛; 胡新苗; 舒斐; 胡美慧; 张腾; 郭江涛
Original assignee: State Grid Xinjiang Electric Power CorporationInformation & Telecommunication Co ltd; State Grid Corp of China SGCC
Current assignee: State Grid Xinjiang Electric Power CorporationInformation & Telecommunication Co ltd; State Grid Corp of China SGCC
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-03-01

Abstract

本发明涉及文档校核技术领域，是一种基于人工智能的文档自动校核方法，其包括以下步骤：第一步:开放场景下的文本检测与识别；第二步:结构化信息的智能提取；第三步:高效智能文书校对；第四步:文档主题结构及关键内容提取。本发明利用公司内部的前期沉淀文档数据，借助前沿的机器学习及文字智能识别技术，编制预制基础审核规则，构建智能文档审阅模型，实现文字识别，智能化信息提取，智能文书格式文字校对，关键内容识别提取等新型智能化文档处理功能，确保日常内部文件文档编写规范统一，有效识别文字错误、前后不一致等文档错误问题，实现智能办公，提升文件文档处理效率、降低工作成本、有效提高横向协同和上下联动工作质效。

Description

基于人工智能的文档自动校核方法

技术领域

本发明涉及文档校核技术领域，是一种基于人工智能的文档自动校核方法。

背景技术

随着机器学习及文字智能识别技术的飞速提升，为支撑服务能源互联网建设，加强横向协同、上下联动，进一步落实数字化转型要求，日常办公效率急需提高。以电网为例，一是常用公文已达14类，文件格式不一，审核要点各不相同，每部门均需设置文书岗位完成日常公文审核流转工作；二是项目文件众多，仅电网数字化类项目分五个子类，每类项目所含项目资料16-19种，文件体量较大，检查工作繁重。三是各类检查工作不断开展，日常文档自查工作繁重，而各类检查问题不断，返工现象频发，效率低下。

发明内容

本发明提供了一种基于人工智能的文档自动校核方法，克服了上述现有技术之不足，其能提升文件文档处理效率、降低工作成本、防范工作风险。

本发明的技术方案是通过以下措施来实现的：一种基于人工智能的文档自动校核方法，包括以下步骤：第一步：开放场景下的文本检测与识别；第二步：结构化信息的智能提取；第三步：高效智能文书校对；第四步：文档主题结构及关键内容提取。

下面是对上述发明技术方案的进一步优化或/和改进：

上述第一步包括：1-1：加密文件解密、图像方向校正、格式转换、灰度化和二值化相关操作；1-2：预处理的去噪图片通过卷积层提取待识别图像的特征图；1-3：将特征图按列切分成若干块；1-4：每块通过循环层和softmax函数处理并列出元素对应字符的预测概率；1-5：将预测结果与类标近似软对齐，最终得到完整识别结果。

上述第二步包括：2-1：使用语义分割模型U-Net实现表格类区域检测；2-2：根据对象文档的特点,使用注意力机制为关键区域内的像素点的特征分配更多的权重；2-3：使用序列标注模型来实现图像页面分割，将表格类区域内的行列数据分割开来，检测出文字区域；2-4：利用图像特征提取与文本生成模型实现文字识别。

上述第三步包括：3-1：用基于神经网络机器翻译的模型，应用Word Embedding提取词向量；3-2：应用Transformer和Copy Net网络对词向量进行优化；3-3：采用Bi-LSTM以及Bi-GRU模型，从正序和逆序双向获取输入序列的语义信息；3-4：使用CRF层和Softmax函数对网络的输出进行解码，对输入序列中的汉字逐个预测正字。

上述第四步包括：4-1：用图神经网络对文本信息特征提取，以解决短文本结构不规范、不规律和词之间的存在关联复杂信息的问题；4-2：结合自注意机制针对词的位置特征和语境特征编码，来捕获丰富的上下文依赖信息；4-3：采用一种线性解码方案，以生成可解释的关键词。

本发明利用公司内部的前期沉淀文档数据，借助前沿的机器学习及文字智能识别技术，编制预制基础审核规则，构建智能文档审阅模型，实现文字识别，智能化信息提取，智能文书格式文字校对，关键内容识别提取等新型智能化文档处理功能，确保日常内部文件文档编写规范统一，有效识别文字错误、前后不一致等文档错误问题，实现智能办公，提升文件文档处理效率、降低工作成本、防范工作风险，有效提高横向协同和上下联动工作质效。

附图说明

图1是本发明提供的整体框架图。

图2是本发明的提供的开放场景下的文本检测与识别模块流程图。

图3是本发明提供的结构化信息的智能提取模块流程图。

图4是本发明提供的高效智能文书校对模块流程图。

图5是本发明提供的文档主题结构及关键内容提取模块流程图。

具体实施方式

本发明不受下述实施例的限制，可根据本发明的技术方案与实际情况来确定具体的实施方式。

下面结合实施例及附图对本发明作进一步描述：

如附图1所示：本发明包含开放场景下的文本检测与识别，结构化信息的智能提取，高效智能文书校对，文档主题结构及关键内容提取四个模块。模型具体实施方式如下：

开放场景下的文本检测与识别模块利用神经网络技术为卷积循环神经网络(CRNN)，网络的输入为传统算法预处理的去噪图片，输出是数字化文本信息，整体流程图如图2，详细步骤如下：

（1）通过传统算法实现单元格定位来进行数据预处理。其中包括：加密文件解密、图像方向校正、格式转换、灰度化和二值化等相关操作；

（2）预处理的去噪图片通过卷积层提取待识别图像的特征图；

（3）将特征图按列切分成若干块；

（4）每块通过循环层和softmax函数处理并列出元素对应字符的预测概率；

（5）将预测结果与类标近似软对齐，最终得到完整识别结果。

结构化信息的智能提取根据对象文档的特点利用基于深度学习的模型将信息提取任务拆分成三类主要形式：表格类区域检测、文字检测、文字识别。整体流程图如图3，详细步骤如下：

（1）使用语义分割模型U-Net实现表格类区域检测；

（2）根据对象文档的特点,使用注意力机制为关键区域内的像素点的特征分配更多的权重；

（3）使用序列标注模型来实现图像页面分割，将表格类区域内的行列数据分割开来，检测出文字区域；

（4）利用图像特征提取与文本生成模型实现文字识别。

高效智能文书校对模块基于各字段间的内在逻辑和关联关系，自动甄别置信度较低的字段信息，并根据校验逻辑对可能出错的信息进行智能检测及纠正，并探索文书行文风格识别，确保文档前后一致性及行文规范性。整体流程图如图4，详细步骤如下：

（1）采用基于神经网络机器翻译的模型，应用Word Embedding提取词向量；

（2）应用Transformer和Copy Net网络对词向量进行优化；

（3）采用Bi-LSTM以及Bi-GRU模型，从正序和逆序双向获取输入序列的语义信息；

（4）使用CRF层和Softmax函数对网络的输出进行解码，对输入序列中的汉字逐个预测正字。

文档主题结构及关键内容提取：设计一种基于图到序列学习模型的自适应短文本关键词生成算法模型，围绕文本关键内容提取中的噪声词问题，改进基于统计的文本关键内容提取方法，并将改进后的关键内容提取方法应用于文本分类的特征降维和特征项权值计算中，从而实现对海量的文本资源进行关键词标注，进而进行归纳整理，实现文本资源的高效管理和便捷使用。整体流程图如图5，详细步骤如下：

（1）采用图神经网络对文本信息特征提取，以解决短文本结构不规范、不规律和词之间的存在关联复杂信息的问题；

（2）结合自注意机制针对词的位置特征和语境特征编码，来捕获丰富的上下文依赖信息；

（3）采用一种线性解码方案，以生成可解释的关键词。

本发明具有以下特点：1、利用智能识别技术，通过电子信息输入终端输入图形图像信息,将图像信息中的印刷体文字通过相应的转换形成一定的字符,并与字符数据库进行比对,最终将标准的文本信息输出，实现文字识别。2、依托公司内部海量文档及票据信息的积累，打造典型文档及票据信息的识别提取自动化解决方案，自动检测、识别、提取文档或票据的结构化信息，并根据实际应用需求输出结构化文本，由计算机替代人完成信息提取工作，降低信息提取成本、优化业务处理效率。3、基于文档的主题结构及关键词，利用一种基于图到序列学习模型的自适应短文本关键词生成算法模型,基于各字段间的内在逻辑和关联关系，自动甄别置信度较低的字段信息，并根据校验逻辑对可能出错的信息进行智能检测及纠正，并探索文书行文风格识别，确保文档前后一致性及行文规范性,实现高效智能文书校对。4、该模型采用图神经网络作为对文本信息特征提取的编码框架，以解决短文本结构不规范、不规律和词之间的存在关联复杂信息的问题。同时，结合自注意机制针对词的位置特征和语境特征编码，来捕获丰富的上下文依赖信息。最后采用一种线性解码方案，以生成可解释的关键词，提取文档主题结构。

以上技术特征构成了本发明的最佳实施例，其具有较强的适应性和实施效果，可根据实际需要增减非必要的技术特征，来满足不同情况的需求。

Claims

1.一种基于人工智能的文档自动校核方法，其特征在于包括以下步骤：第一步:开放场景下的文本检测与识别；第二步:结构化信息的智能提取；第三步:高效智能文书校对；第四步:文档主题结构及关键内容提取。

2.根据权利要求1所述的基于人工智能的文档自动校核方法，其特征在于第一步包括：1-1：加密文件解密、图像方向校正、格式转换、灰度化和二值化相关操作；1-2：预处理的去噪图片通过卷积层提取待识别图像的特征图；1-3：将特征图按列切分成若干块；1-4：每块通过循环层和softmax函数处理并列出元素对应字符的预测概率；1-5：将预测结果与类标近似软对齐，最终得到完整识别结果。

3.根据权利要求2所述的基于人工智能的文档自动校核方法，其特征在于第二步包括：2-1：使用语义分割模型U-Net实现表格类区域检测；2-2：根据对象文档的特点,使用注意力机制为关键区域内的像素点的特征分配更多的权重；2-3：使用序列标注模型来实现图像页面分割，将表格类区域内的行列数据分割开来，检测出文字区域；2-4：利用图像特征提取与文本生成模型实现文字识别。

4.根据权利要求3所述的基于人工智能的文档自动校核方法，其特征在于第三步包括：3-1：用基于神经网络机器翻译的模型，应用Word Embedding提取词向量；3-2：应用Transformer和Copy Net网络对词向量进行优化；3-3：采用Bi-LSTM以及Bi-GRU模型，从正序和逆序双向获取输入序列的语义信息；3-4：使用CRF层和Softmax函数对网络的输出进行解码，对输入序列中的汉字逐个预测正字。

5.根据权利要求4所述的基于人工智能的文档自动校核方法，其特征在于第四步包括：4-1：用图神经网络对文本信息特征提取，以解决短文本结构不规范、不规律和词之间的存在关联复杂信息的问题；4-2：结合自注意机制针对词的位置特征和语境特征编码，来捕获丰富的上下文依赖信息；4-3：采用一种线性解码方案，以生成可解释的关键词。