CN114970554B

CN114970554B - 一种基于自然语言处理的文档校验方法

Info

Publication number: CN114970554B
Application number: CN202210918737.6A
Authority: CN
Inventors: 黄晓明; 赵欣; 董元龙; 林明晖; 李杨; 丁靖; 高晓辉; 方昕; 余乘龙; 陈凌; 岳衡
Original assignee: Ningbo Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Ningbo Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-10-21
Anticipated expiration: 2042-08-02
Also published as: CN114970554A

Abstract

本发明公开了一种基于自然语言处理的文档校验方法，涉及数据处理技术领域，主要包括步骤：通过查找预设字向量表的方式对各文字段信息进行拆分以获得位置信息、初步预测下的字向量信息以及当前文字段信息整体的文本信息；组合前后文本信息，并通过比较前后文本信息中字向量信息以及相应位置信息的拟合度获取前后文本信息的相似度信息；获取修正后目标文档的语句信息并语义标注；通过识别语义标注进行目标文档内容获取；通过自然语言处理对文档内容进行分析，并根据分析结果提取出其中含有预设违规语料的文档内容并标注。本发明通过上下文对目标文本信息进行双向预测，从而可以获得更为准确语句信息，提高了自然语言处理的校验准确率。

Description

一种基于自然语言处理的文档校验方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于自然语言处理的文档校验方法。

背景技术

数字化转型是各行各业近年来的主要发展方向，其能提高行业发展与运行中的质量、效率和效益。在服务类行业中，常常有各种服务类技术规范对该行业进行行业标准约束，由于这些技术规范没有统一的模板，格式、文档规范上存在的差异，造成提报方工作效率低。同时，由于技术规范的校验欠缺智能化手段，目前主要依靠专业人员手动校验，造成工作量大、校验效率低。因此，如何将对服务类技术规范的校验进行数字化转换，提高校验效率，推动行业标准的正向改进，就是本发明亟待解决的技术问题。

发明内容

为了实现服务类技术规范文档审查的数字化转型，提高校验效率，本发明提出了一种基于自然语言处理的文档校验方法，包括步骤：

S1：获取目标文档的图像扫描信息并提取出其中多个文字段信息；

S2：通过查找预设字向量表的方式对各文字段信息进行拆分以获得位置信息、初步预测下的字向量信息以及当前文字段信息整体的文本信息；

S3：获取当前文本信息任意组合下的前后文本信息，并通过比较前后文本信息中字向量信息以及相应位置信息的拟合度获取前后文本信息的相似度信息；

S4：根据相似度信息对当前文字段信息进行预测修正，并获取修正后目标文档的语句信息；

S5：通过对语句信息进行语义标注，并通过识别语义标注进行目标文档内容获取；

S6：通过自然语言处理对文档内容进行分析，并根据分析结果提取出其中含有预设违规语料的文档内容并标注。

进一步地，所述S1步骤具体包括步骤：

S11：获取目标文档的图像扫描信息，并对图像扫描信息进行信息分类划分；

S12：根据分类划分出的文本图块进行文字段信息识别。

进一步地，所述图像扫描信息的信息分类划分通过卷积循环神经网络实现，所述卷积循环神经网络中包括卷积层、全连接层和池化层，卷积层均采用预设大小的卷积核，其中：

通过卷积层对图像扫描信息进行逐层特征提取，并通过全连接层进行各层特征融合，根据融合后的特征，通过池化层获得信息分类划分结果。

进一步地，所述S3步骤中，当前文本信息任意组合下的前后文本信息，指拼接当前文本信息以及与当前文本信息相邻或非相邻的前后任意文本信息，并获得拼接后组成的前后文本信息。

进一步地，所述S3步骤中，通过将字向量信息根据相应位置信息映射到预设维度空间中，根据前后文本信息在预设维度区间中字向量信息的拟合度获得相似度信息。

进一步地，所述S5步骤中，对语句信息进行语义标注具体步骤为：

通过分析语句信息与目标语料库中数据的语义相似度进行语义标注。

进一步地，所述语义相似度是通过长短期神经网络分别获取语句信息与目标语料库中数据的特征向量，并根据特征向量之间的相关度计算获取，具体计算公式为：

式中r为获取语句信息与目标语料库中数据的相关度，n为特征向量中样本的数量，i为常数，X为语句信息的特征向量，Y为目标语料库中数据的特征向量，

为X的标准分数，

为X的样本平均值，

为X的样本标准差，

为Y的标准分数，

为Y的样本平均值，

为Y的样本标准差。

进一步地，所述S1步骤之前还包括步骤：

S0：根据目标文档的技术分类选用相应分类的目标语料库，并根据校验要求加入预设违规语料。

与现有技术相比，本发明至少含有以下有益效果：

（1）本发明所述的一种基于自然语言处理的文档校验方法，通过上下文对目标文本信息进行双向预测，从而可以获得更为准确语句信息，这有利于后续语义标准的准确性，帮助计算机更为准确的理解文档内容，提高校验准确率；

（2）通过文档校验的数字化转型，大大降低了该工作对于专业技能人员的依赖，降低了人力成本，避免了人的主观性判断，同时提高了效率；

（3）采用算法模型实现目标文档的校验，因此可以根据实际需求的更迭进行算法模型的自主迭代，并在训练数据积累的基础上，能够不断提高识别准确率。

附图说明

图1为一种基于自然语言处理的文档校验方法的步骤图；

图2为特征向量相关度分析网络结构示意图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

实施例一

为了实现技术规范文档校验的数字化转型，提高技术规范文档的校验效率，本发明提出通过自然语言处理（NLP）方式来对文档进行校验，具体地，如图1所示，本发明提出了一种基于自然语言处理的文档校验方法，包括步骤：

S0：根据目标文档的技术分类选用相应分类的目标语料库，并根据校验要求加入预设违规语料；

在对目标文档进行校验前，我们需要先根据目标文档的技术分类选用相应分类的目标语料库。其中语料库是自然语言处理过程中的关键环节，作为自然语言处理某些统计模型建立的基础，需要收集部分文本，即语料，而大量经过筛选、加工和标注处理之后的语料就组成了语料库，而根据不同的技术分类，还设有相对应的语料库。通过语料库的运用，可以帮助计算机对文章进行基于相似度的内容识别和提取。

当然，对图像扫描信息中文字段信息识别的准确与否，势必也会影响后续的校验精度。为了获得更好的文字段信息识别效果，在S1步骤中，具体包括如下步骤：

S12：根据分类划分出的文本图块进行文字段信息识别。

其中，在对图像扫描信息中不同类型内容进行分类以便于提取文字段信息时，为了在提高分类的准确性的同时简化算法结构，本发明在对图像扫描信息进行处理时，先是通过第一预设数量（具体数量根据实际精度需求通过实验获得）的卷积层进行图像特征信息的提取，需要注意的是，在这里，所有卷积层的卷积和都采用同样大小的小卷积核（也即是3×3大小），这样就使得每一个卷积层与前一层都能保持相同的宽和高，避免了由于卷积核大小不一致导致的通道适配操作，简化了算法结构，同时又能通过层深的增加提高分类划分的准确性。而在获得逐层图像特征信息后，就可以通过第二预设数量的全连接层进行图像特征融合，最后通过池化层对融合后的特征信息进行降采样处理，从而得到更为准确的分类划分结果。

而在完成信息分类划分后，就可以根据划分出的文本图块进行文字段信息的提取，通常可以采用目标检测算法进行功能实现，本发明在此处选用的是YOLO3算法进行文字段信息的识别（也可通过其它目标检测算法进行功能实现）。

其中，YOLO算法属于目标检测算法中的一种，其优化了检测速度，提升了预测精度，尤其是加强了对小物体的识别能力，适用于文本识别及检测，该算法主要用于图片文字识别中，YOLO将输入图像分成S×S个格子，若某个物体其中心位置的坐标落入到某个格子，那么这个格子就负责检测出这个物体。

而YOLOV3则是在YOLO基础上的优化一种新的联合训练方法，能够允许同时使用目标检测数据集和分类数据集，由于借鉴了残差网络结构，可以形成更深的网络层次，以及多尺度的检测，提升了mAP及小物体检测效果，在精确度相当的情况下，YOLOV3的速度是其它模型的3至4倍。

而在提取到文字段信息后，就需要通过对文字段信息内容的预测进行语义标注，以便于计算机根据语义标注对文档内容的自然语言处理，因此，文字段信息内容预测的准确度很大程度上决定了后续自然语言处理的质量。为此，本发明在此处设计了一种文字段信息内容预测的方法，也即是步骤S2至步骤S4，具体如下。

考虑到一个文档在上下文的内容上往往具有关联性，很多词汇或者语句段在内容及排列组合上具有很高的相似度，因此，本发明提出先将提取出的多个文字段信息拆分为单个文字集，从预设字向量表（根据不同的字设置有不同的向量信息）中查找出各文字初步预测下的字向量信息，并根据各文字在文字段信息中的位置进行位置信息设定，根据各文字的字向量信息和位置信息的组合获得各文字段信息整体的文本信息。

而后，通过将当前文本信息（也即是当前需要组合的目标文本信息）与该文本信息之前或之后、相邻或非相邻的任意文本信息进行拼接，从而组成具有前后排列顺序的前后文本信息，并根据各文字的位置信息将字向量信息映射至预设维度大小的空间中，从而就可以根据前后文本信息在预设维度区间中字向量信息的拟合度获得相似度信息。具体的，可以通过移动当前组合下前后文本信息中目标文本信息的位置，从而避免由于具有相似性词组或语段由于在文本信息中不同位置导致的拟合度估算偏差。根据相似度信息即可对某一词组或语段中初步预测失误的文字进行修正，并获得修正后的语句信息。同时，在对前后文本信息进行修正的过程中，也是对该模型进行自训练的过程，这就导致随着修正的前后文本信息的数量增多，模型的预测精确度和效率也会随之上升。

在获得全部文字段信息的语句信息的基础上，我们就需要对其进行语义标注，以便于计算机根据语义标注进行文档内容识别。在这里，本发明先是通过两个长短期神经网络分别提取语句信息与目标语料库中数据的特征向量（包含有n个特征样本），根据特征向量之间的相关度计算获取语义相似度，具体计算公式为：

为X的标准分数，

为X的样本平均值，

为X的样本标准差，

为Y的标准分数，

为Y的样本平均值，

为Y的样本标准差。

具体地，如图2所示，在计算句子语义相似度的时候，数据都是以句子对的形式输入到长短期神经网络中。简单来说，衡量两个输入的相似程度。两个长短期神经网络都有一个输入（输入1：we are friend，在计算机中假设以编码x1、x2、x3表示，并提取出特征L1、L2和L3，输入2：her aunt is fine，在计算机中假设以编码x4、x5、x6、x7表示，并提取出特征L4、L5、L6和L7），将两个输入分别输入至两个长短期神经网络（LSTM A和LSTM B），并将这两个长短期神经网络最后的一个隐态输出作为最终输出的特征向量，这两个神经网络分别将输入映射到新的空间，形成输入并在新的空间中表示，而后通过Loss（其值与r呈反相关性性，也即是r值越高，Loss越低）的计算，评价两个输入的相似度。Loss值低即代表两者语义相近，从而赋予语句信息该语义标注。

通过该计算，由于是基于特征向量之间相关度进行的相似度计算，充分考虑到组成语句的多个不同特征样本对于语义相似度的影响，因此能够获得更为准确的语义相似度计算结果，也更适用于长句下的语义相似度分析。同时，在一优选实施例中，为了进一步提高计算精度，根据不同样本对于语义相似度的不同影响权重，亦可通过权重系数的增加提高语义相似度估算精度。

而根据语义标注好的文档，计算机即可实现文档内容的获取，并根据文档内容进行自然语言处理。需要了解的是，自然语言处理的流程基本是由词法分析到句法分析，再到语义分析，最后到篇章分析与语用分析的流程。

词法分析是将整句分解为由词汇组成的词串，并对词汇进行词性标注。句法分析依照词法分析的结果对句子的句法规则和结构进行分析。语义分析在句法分析基础上依照句子结构和粉刺结果对整句含义进行解释。篇章分析和语用分析基于段落或整篇文章的上下文分析对单个句子含义的影响。

可以看出，词法分析是整个自然语言处理的基础。对于中文词法分析，第一步进行分词，第二步进行词性标注。在此过程中，常用的分词方法包括三类：第一类是基于词典分配的分词方法，输入句子按照一定方式或规律以词单位和词典词匹配；第二类是句法语义理解的分词方法，通过逆向工程方式，对句子结构和语义进行理解降低歧义后进行分词；第三类是基于统计学原理，依靠统计概率大小判定词汇优先匹配级别，这类方法一般与词典匹配分词方法配合使用。

在常用的分词模型中，对于特征的处理只限于较短距离的相关字符，而考虑到技术文档中长句的存在，就需要利用长距离字符进行歧义消除。为解决这一问题，本发明想到通过神经网络分词算法来解决这一问题。而自然语言处理中，最常用的神经网络为循环神经网络，它在处理变长输入和序列输入问题中有着巨大的优势。长短期神经网络作为循环神经网络变种中的一种，在一定程度上解决了循环神经网络在训练过程中梯度消失和梯度爆炸的问题。而双向循环神经网络分别从句子的开头和结尾开始对输入进行处理，将上下文信息进行编码，提升了预测效果。因此，本发明选用双向循环神经网络BiLSTM，相比于上述其它模型，可以更好的根据上下文信息进行编码，并在最终增加CRF层，以得到全局最优解。

需要注意的是，上文所述的算法和模型都需要经过大量数据进行训练，目的在于避免过拟合。深度神经网络具有较多参数，因此如果没有用足够的数据去训练，它们往往会记住整个训练集，这就会导致训练的效果很好，但在测试集上的效果就会及比较差。因此，在训练前还需要对数据进行预处理，包括特征提取，语义泛化和特征转换。

综上所述，本发明所述的一种基于自然语言处理的文档校验方法，通过上下文对目标文本信息进行双向预测，从而可以获得更为准确语句信息，这有利于后续语义标准的准确性，帮助计算机更为准确的理解文档内容，提高校验准确率。

通过文档校验的数字化转型，大大降低了该工作对于专业技能人员的依赖，降低了人力成本，避免了人的主观性判断，同时提高了效率。采用算法模型实现目标文档的校验，因此可以根据实际需求的更迭进行算法模型的自主迭代，并在训练数据积累的基础上，能够不断提高识别准确率。

需要说明，本发明实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”、“一”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

Claims

1.一种基于自然语言处理的文档校验方法，其特征在于，包括步骤：

S3：获取当前文本信息与该文本信息之前或之后、相邻或非相邻的任意文本信息拼接下的前后文本信息，并通过比较前后文本信息中字向量信息以及相应位置信息的拟合度获取前后文本信息的相似度信息；

S4：根据相似度信息对当前文字段信息中初步预测失误的文字进行修正，并获取修正后目标文档的语句信息；

2.如权利要求1所述的一种基于自然语言处理的文档校验方法，其特征在于，所述S1步骤具体包括步骤：

S12：根据分类划分出的文本图块进行文字段信息识别。

3.如权利要求2所述的一种基于自然语言处理的文档校验方法，其特征在于，所述图像扫描信息的信息分类划分通过卷积循环神经网络实现，所述卷积循环神经网络中包括卷积层、全连接层和池化层，卷积层均采用预设大小的卷积核，其中：

4.如权利要求1所述的一种基于自然语言处理的文档校验方法，其特征在于，所述S3步骤中，当前文本信息任意组合下的前后文本信息，指拼接当前文本信息以及与当前文本信息相邻或非相邻的前后任意文本信息，并获得拼接后组成的前后文本信息。

5.如权利要求1所述的一种基于自然语言处理的文档校验方法，其特征在于，所述S3步骤中，通过将字向量信息根据相应位置信息映射到预设维度空间中，根据前后文本信息在预设维度区间中字向量信息的拟合度获得相似度信息。

6.如权利要求1所述的一种基于自然语言处理的文档校验方法，其特征在于，所述S5步骤中，对语句信息进行语义标注具体步骤为：

7.如权利要求6所述的一种基于自然语言处理的文档校验方法，其特征在于，所述语义相似度是通过长短期神经网络分别获取语句信息与目标语料库中数据的特征向量，并根据特征向量之间的相关度计算获取，具体计算公式为：

式中r为获取语句信息与目标语料库中数据的相关度，n为特征向量中样本的数量，i为常数，X为语句信息的特征向量，X_i为第i个语句信息的特征向量，Y为目标语料库中数据的特征向量，Y_i为第i个目标语料库中数据的特征向量，

为X的标准分数，

为X的样本平均值，

为X的样本标准差，

为Y的标准分数，

为Y的样本平均值，

为Y的样本标准差。

8.如权利要求6所述的一种基于自然语言处理的文档校验方法，其特征在于，所述S1步骤之前还包括步骤：