CN117494701B

CN117494701B - 基于改进的自然语言处理的数据审核方法

Info

Publication number: CN117494701B
Application number: CN202311500814.7A
Authority: CN
Inventors: 周汝琴; 陈雄; 谢鲲; 王维忠; 吴鹏程; 董世聪
Original assignee: Yuhang District Data Resources Management Bureau
Current assignee: Yuhang District Data Resources Management Bureau
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-04-30
Anticipated expiration: 2043-11-10
Also published as: CN117494701A

Abstract

本发明公开了一种基于改进的自然语言处理的数据审核方法，以形成在所搭建的三维空间下的不同平面坐标系中的点位阵列为媒介，通过计算待审核报告与报告模板形成在三维空间的同个平面坐标系下的相应点位之间的横轴坐标值的第一距离和第二距离，实现了对待审核报告中是否存在目录名称缺失的并行审核；通过计算待审核报告与报告模板形成在三维空间的不同平面坐标系下的相应点位之间的第三距离和第四距离，实现了对待审核报告中的目录名称排序是否出错的并行审核；并行审核无需复杂的语义分析，提升了审核效率。另外，将现有的后置审核改变为部分前置审核，采用不同策略对不同平面坐标系下的点位阵列进行内容正确性的并行审核，也提升了审核效率。

Description

基于改进的自然语言处理的数据审核方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于改进的自然语言处理的数据审核方法。

背景技术

各种报告通常具有规范的格式要求，比如某信息化项目可行性研究报告，需要包括项目名称、项目申报单位、编制单位、编制时间、总论、项目建设现状、项目需求分析、项目方案、经济性和财务合规性、软硬件设计、主要设备材料清册、提现结算书、附录等一级目录，总论等一级目录下又包括相应的二级目录。人们在编制报告时通常会产生一些不合规的数据，比如目录名称缺失等报告内容不完整的问题，又比如目录名称排序出错、相应目录下内容错误、内容不清晰等报告内容不正确的问题。

对于目录名称缺失的问题，现有方法通常采用NLP(自然语言处理)技术，对报告中的文本内容进行语义分析，从而提取出关键信息，比如提取出各级目录的名称，然后与报告模板中的目录名称进行一一匹配，以识别出哪些目录名称缺失。但对文本内容的语义分析是一个复杂的过程，从语义分析结果中抽取出哪些是目录名称的关键信息也不容易，当报告内容和目录数据庞大时，通过语义提取关键信息的过程更为复杂。

对于目录名称排序出错的问题，现有方法首先采用NLP技术，对提取到的关键信息做进一步的语义分析，以从关键信息中进一步识别出目录名称，然后使用另外的算法明确所识别的各目录名称在报告中出现的顺序，最后与报告模板中的各目录名称的预设顺序进行一一比对，从而判断哪些目录名称排序出错。显然，对于目录名称排序是否出错的审核同样需要语义分析的过程，且审核算法更加复杂，当待审核报告中的目录数庞大时，同对目录名称是否缺失的审核一样，效率非常低下。更显不足的是，上述无论是对目录名称是否缺失还是对目录名称排序是否出错的审核，均无法实现对单个待审核报告中的不同区域的并行审核，特别在批量审核多份报告时，极大影响审核效率。

而对于内容错误、内容不清晰等报告内容不正确的问题，现有方法通常结合NLP、OCR(光学字符识别)等多项技术对报告中的文本、表格、图形等进行整体的审核，审核方法通常为：按顺序对报告中的内容进行整体审核，比如按顺序识别到纯文本时，采用NLP技术进行审核，按顺序识别到图、表时，采用OCR技术进行审核。按顺序识别的方式无法根据审核对象的数据复杂度或数据类型对单个待审核报告中的不同内容进行并行的数据审核，导致对报告内容正确性的审核效率同样低下，当需要同时对多个报告进行批量的该项审核时，审核效率低下的问题更为明显。

所以综上，在对待审核报告执行目录名称是否缺失、目录名称排序是否出错、报告内容是否错误、不清晰等数据合规性审核时，如何降低算法复杂度，实现对单个待审核报告中的不同区域的内容的并行审核，提高报告合规性审核效率，以适于批量的报告审核场景，成为本领域亟待解决的技术问题。

发明内容

本发明以实现对单份待审核报告中的不同区域的数据合规性的并行审核，以提高机器对具有庞大目录数的单份报告或多份报告的批量的数据合规性审核的效率为目的，提供了一种基于改进的自然语言处理的数据审核方法。

为达此目的，本发明采用以下技术方案：

提供一种基于改进的自然语言处理的数据审核方法，步骤包括：

S1，用户在输入文本过程中，系统将满足点位转换条件的文本行转换为三维空间下的相应平面坐标系下的点位，形成待审核报告的点位阵列；

S2，接收到审核指令后，所述系统以所述待审核报告和报告模板分别形成在三维空间的所述点位阵列、参考点位阵列为媒介，对所述待审核报告进行数据合规性审核，并输出审核结果；

审核包括对所述待审核报告中是否存在目录名称缺失的第一并行审核和目录名称排序是否出错的第二并行审核，其中，所述第一并行审核通过计算所述待审核报告与所述报告模板在同个平面坐标系下的所述点位阵列与所述参考点位阵列中的相应点位间的第一距离和第二距离实现；

所述第二并行审核通过计算所述待审核报告与所述报告模板在不同的平面坐标系下的所述点位阵列与所述参考点位阵列中的相应点位间的第三距离和第四距离实现。

作为优选，所述点位转换条件为：用户在同一行中输入的文本字数少于字数阈值；

对所述待审核报告形成在同个所述三维空间的不同的所述平面坐标系下的所述点位阵列，采用相同或不同的策略对所述点位阵列中的点位间的文本段落进行内容正确性的并行审核。

作为优选，步骤S1中，所述点位的点位特征包括输入在所述点位的对应行的行数、对应行中的文本字数、每个文本词、按输入顺序先后排序的当前点位与下一点位分别对应的第一行和第二行之间的行间特征，

所述行间特征包括第一行间特征或第二行间特征，所述第一行间特征为所述第一行和所述第二行的行间仅有纯文本的文本段落数；所述第二行间特征为所述行间包含的图表数。

作为优选，步骤S1中，形成所述点位阵列的方法包括步骤：

A1，赋予满足所述点位转换条件的文本行相对应的点位唯一编码，赋予的所述点位唯一编码为识别到满足所述点位转换条件的所述文本行的识别顺序号；

A2，判断所述第一行和所述第二行之间的所述行间特征是否包括所述第二行间特征，

若是，则在所述三维空间的第一平面坐标系下绘制出所述当前点位；

若否，则在同个所述三维空间的第二平面坐标系下绘制出所述当前点位。

作为优选，在所述三维空间中绘制点位的方法为：

以所述点位唯一编码和所述文本行的行数分别为所述当前点位在相应平面坐标系下的横轴和纵轴坐标值，在相应平面坐标系下绘制出所述点位，分别绘制在第一平面坐标系和第二平面坐标系下的各点位对应形成为第一点位阵列和第二点位阵列。

作为优选，步骤S2中，所述第一并行审核的方法包括步骤：

B1，构建所述待审核报告与所述报告模板的并行审核数据组；

B2，对步骤B1构建的所述并行审核数据组中的不同数据组中包含的点位阵列和参考点位阵列间的点位进行并行的目录名称相似度匹配，并在针对所述报告模板形成的所述参考点位阵列中对相似度匹配成功的第二点位做第一标记；

B3，判断所述参考点位阵列中是否存在未做所述第一标记的所述第二点位，

若是，则通过计算所述第一距离和所述第二距离在所述待审核报告中标注出疑似目录名称缺失的位置；

若否，则判定所述待审核报告中未缺失目录名称，并终止对目录名称是否缺失的审核流程。

作为优选，步骤B3中的“若是”判定下，在所述待审核报告中标注出疑似目录名称缺失的位置的方法包括步骤：

B31，在所述点位阵列中过滤掉目录名称相似度未匹配成功的各第一点位；

B32，识别出所述参考点位阵列中未做所述第一标记的每个所述第二点位的第二横轴坐标值；

B33，计算经步骤B31过滤后的所述点位阵列中的每个所述第一点位的第一横轴坐标值与所述第二横轴坐标值的差值，并将值为正的差值作为所述第一距离，将值为负的差值作为所述第二距离；

B34，将计算到值最小的所述第一距离和值最大的所述第二距离的两个所述第一点位分别表征的第一目录名称和第二目录名称之间的文本，做缺失具有所述第二横轴坐标值的所述第二点位表征的第三目录名称的第二标记。

作为优选，步骤B1中，构建所述并行审核数据组的方法为：

将所述待审核报告和所述报告模板分别形成在三维空间的同个平面坐标系下的所述点位阵列和所述参考点位阵列构成为所述并行审核数据组；

所述并行审核数据组包括第一数据组和第二数据组，其中，所述待审核报告和所述报告模板分别形成在所述第一平面坐标系下的第一点位阵列和第一参考点位阵列构成所述第一数据组，分别形成在所述第二平面坐标系下的第二点位阵列和第二参考点位阵列构成所述第二数据组。

作为优选，步骤S2中，所述第二并行审核的方法包括步骤：

C1，构建经步骤B31的第一点位过滤后的所述第一数据组和所述第二数据组分别对应的第一目录名称对应表和第二目录名称对应表；

C2，构建所述第二目录名称对应表中的第一列和所述第一目录名称对应表中的第一列分别对应的第三距离排序列表、第四距离排序列表；

C3，构建所述第二目录名称对应表中的第二列和所述第一目录名称对应表中的第二列分别对应的第二校验列表和第一校验列表；

C4，构建所述第二校验列表和所述第一校验列表分别对应的第一参照距离列表和第二参照距离列表；

C5，对所述第三距离列表中与所述第一参照距离列表中具有相同排序号但目录名称不同的元素做目录名称排序出错的第三标记，并对所述第四距离列表中与所述第二参照距离列表中具有相同排序号但目录名称不相同的元素同样做所述第三标记。

作为优选，步骤C1中，目录名称对应表中的第一列为经步骤B31的第一点位过滤后的点位阵列中剩余的各第一点位，第二列为报告模板形成在与所述点位阵列相同的平面坐标系下的参考点位阵列中的各第二点位；

步骤C2中，所述第三距离排序列表中的第三距离为所述第二目录名称对应表中的第一列中的每个元素的第一点位唯一编码与在所述第一目录名称对应表的第二列中任选的一作为第一参照的第二点位的第二点位唯一编码的差值绝对值；所述第四距离排序列表中的第四距离为所述第一目录名称对应表中的第一列中的每个元素的第一点位唯一编码与在所述第二目录名称对应表的第二列中任选的一作为第二参照的第二点位的第二点位唯一编码的差值绝对值。

作为优选，步骤C3中，从所述第二目录名称对应表的第二列中抽取出与该表的第一列中的目录名称对应的每个元素，构成所述第二校验列表；从所述第一目录名称对应表中的第二列中抽取出与该表的第一列中的目录名称对应的每个元素，构成所述第一校验列表；

步骤C4中，计算所述第二校验列表中的每个元素与所述第一参照的第一参照距离，并按第一参照距离由大到小形成为所述第一参照距离列表；计算所述第一校验列表中的每个元素与所述第二参照的第二参照距离，并按照具有由大到小排列形成为所述第二参照距离列表。

本发明具有以下有益效果：

1、对于目录名称是否缺失的机器审核，由原先的完全后置审核改变为部分前置审核。现有技术中，机器对完成的报告采用NLP等技术对报告中是否存在目录名称缺失进行审核，而本申请中，在用户形成报告的过程中将识别到的疑似目录名称(满足点位转换条件的文本行)转换为三维空间的相应平面坐标系下的点位，后续机器在执行对目录名称是否缺失的后置审核流程时，只要从排布在点位阵列中的表征疑似目录名称的各点位中识别出真实目录名称，并判断识别到的真实目录名称的数量与报告模板中的目录名称的数量是否相同即可，机器对于目录名称是否缺失的审核工作部分前置到用户形成报告的过程中，审核效率因此首先得到提升。

2、机器识别疑似目录名称采用的是判断点位转换条件是否满足的方式，而点位转换条件为：用户在同一行输入的文本字数少于字数阈值，机器对于疑似目录名称的识别原理非常简单，不需要现有方案中采用NLP等技术进行语义分析并提取关键信息的过程，且有利于点位阵列的快速构建。

3、对目录名称是否缺失的机器后置审核，采用的是：对待审核报告和报告模板分别构建在同个三维空间的同个平面坐标系下的相应点位之间的目录名称进行相似度匹配的方法，同样不需要对待审核报告进行语义分析并提取关键信息以识别各目录名称的过程，且利用三维空间的不同平面坐标系对待审核报告中的不同区域作了分类，实现了对形成在不同平面坐标系下的点位阵列的目录名称是否缺失的并行审核。

根据点位进行并行筛选能够提高后置审核效率的理论依据是：报告模板的参考点位阵列是事先形成的。在进行数据合规性审核时，不需要在线重新生成参考点位阵列。假设机器对待审核报告生成的点位阵列包括形成在三维空间的xy轴平面坐标系下的第一点位阵列和形成在该三维空间的yz轴平面坐标系下的第二点位阵列，事先对报告模板生成的参考点位阵列同样包括形成在三维空间的xy轴平面坐标系下的第一参考点位阵列和形成在该空间的yz轴平面坐标系下的第二参考点位阵列，机器在对目录名称是否缺失的后置审核中，首先以第一点位阵列、第一参考点位阵列构成的第一数据组以及以第二点位阵列、第二参考点位阵列构成的第二数据组为并行审核对象，对每个数据组中的点位阵列和参考点位阵列中的点位进行目录名称的匹配，并根据成功匹配的点位数量是否与报告模板的参考点位阵列中的点位数量相同，即可判定目录名称是否有缺失，判定方法简单、高效。

4、通过在参考点位阵列中标记匹配成功的点位，并根据未标记的点位在所在平面坐标系下的横轴坐标值计算第一距离和第二距离，可以快速定位当前审核的报告中目录名称的疑似缺失位置。

5、通过事前构建点位阵列，并采用计算第三距离和第四距离的方式，不仅实现了对单个待审核报告的不同区域的目录名称排序是否出错的并行审核，且在机器不记忆不同数据组的不同点位阵列间的点位识别顺序关系的前提下，实现了对不同点位阵列间的点位表征的目录名称排序是否出错的直接识别。

6、通过对待审核报告的不同区域在同个三维空间的不同平面坐标系下构建分别对应的点位阵列，点位阵列构建在哪个平面坐标系下考虑了点位间的行间特征，这些行间特征与对行间的内容采用怎样的策略进行内容正确性的审核直接相关，通过构建不同平面坐标系下的点位阵列，使得对待审核报告中具有不同数据类型的不同区域内容的正确性的并行审核成为可能。

7、在进行内容正确性审核时，无论是采用NLP或OCR等技术，均基于事先构建的点位阵列采取并行审核的方式，相当于对现有的NLP等技术作了改进，在执行NLP等技术前，点位阵列构建的过程，不仅使得对单份待审核报告的不同区域内容的数据合规性的并行审核成为可能，还大幅提升了审核效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的基于改进的自然语言处理的数据审核方法的实现步骤图；

图2是针对待审核报告或报告模板构建在三维空间的不同平面坐标系下的点位阵列的示例图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明实施例提供的基于改进的自然语言处理的数据审核方法，如图1所示，包括如下步骤：

这里需要说明的是，待审核报告的点位阵列是在用户输入文本形成报告的过程中逐步构建的，并非是在报告形成后再对待审核报告生成点位阵列，这样做的目的是，系统一旦接收到对待审核报告的数据合规性审核的指令，可以直接获取待审核报告已经形成在三维空间的不同平面坐标系下的点位阵列，并直接调取事先针对报告模板在三维空间下形成的参考点位阵列，并根据待审核报告的点位阵列和报告模板的参考点位阵列快速进入数据合规性审核，能够加速数据审核过程，提高审核效率。

不同于传统方案采用NLP等技术对待审核报告中文本进行语义分析并提取关键信息进行数据审核的方法，本发明根据点位阵列对报告中各类型数据进行合规性审核，不需要借助NLP等技术进行语义分析并提取关键信息的过程，且仅采用点位转换条件是否满足的判断来识别用户在该行输入的文本(文本行)是否疑似为目录名称，并在后续的数据合规性审核中，通过在三维空间的不同平面坐标系构建表征这些疑似目录名称的相应点位，并基于这些点位来审核报告中是否出现目录名称缺失、目录名称排序出错、文本内容是否错误、是否不清晰等，审核算法相比较现有的借助NLP、OCR等算法进行数据合规性审核的方式更为简单，且实现了对同个待审核报告中的不同类型数据是否合规的并行审核，审核效率也大幅提升，更适于对报告的批量审核的场景。

更具优势的是，本发明中，点位转换条件为：用户在同一行中输入的文本字数少于字数阈值，对于文本行字数是否少于阈值的判断算法，技术非常成熟，识别也非常简单，不需要复杂的NLP自然语言处理的过程，更不需要借助OCR等识别手段，本发明利用该点位转换条件能够在虚拟的三维空间快速构建起待审核报告在不同平面坐标系下的点位阵列。

以下对本发明利用点位转换条件构建待审核报告在三维空间的不同平面坐标系下的点位阵列的方法进行具体阐述：

步骤S1中，系统针对满足文本转换条件的文本行转换得到的点位的点位特征包括输入在该点位的对应行的行数(文本行在报告中的哪一行)、对应行中的文本字数、每个文本词、按输入顺序先后排序的当前点位和下一点位分别对应的第一行和第二行之间的行间特征；

这里需要解释的是，假设用户输入了一份“信息化项目可行性研究报告”，用户先后输入了如下内容：

项目名称：A项目

项目申报单位：B公司

编制单位：

XX年XX月XX日

1.总论

1.1主要依据

1.2主要原则

……

上述内容中，用户输入的第一行是：项目名称：A项目，输入的第二行是：项目申报单位：B公司，则“项目名称：A项目”对应的点位的文本行的行数为“1”，文本字数点位特征为“7”，代表该点位表征的文本行中的“项”“目”“名”“称”“A”“项”“目”共7个字，文本词特征为：“项”“目”“名”“称”“A”“项”“目”；

点位的行间特征包括第一行间特征和/或第二行间特征，其中第一行间特征为第一行和第二行的行间仅有纯文本的文本段落数，第二行间特征为行间包含的图表数。比如，以上述内容中的“项目名称：A项目”为第一行，以“项目申报单位：B公司”为第二行，则该第一行和该第二行的第一行间特征为“0”(表示第一行和第二行之间没有纯文本段落)，第二行间特征也为“0”(表示第一行和第二行之间没有包含图标的文本段落)。但假设该第一行与该第二行之间的其他行还有具有3个段落的纯文本内容，则该第一行与第二行之间的第一行间特征为“3”；若该第一行与该第二行之间的其他行具有2个图表，则该第一行和该第二行之间的第二行间特征为“2”。当第一行和第二行既有文本又有图表时，为了降低后续数据合规性审核的复杂度，以第二行间特征作为该点位的行间特征。

形成待审核报告的点位阵列的方法具体包括如下步骤：

A1，赋予满足点位转换条件的文本行相对应的点位唯一编码，赋予的该点位唯一编码优选为机器识别到满足点位转换条件的该文本行的识别顺序号；

比如，假设机器用于输入文本形成待审核报告的过程中，首先识别到的满足点位转换条件的文本行为上述的“项目名称：A项目”，则赋予该文本相对应的点位唯一编码为识别顺序号“①”；

A2，判断第一行和第二行之间的行间特征是否包括第二行间特征，

若是，则在三维空间的第一平面坐标系下绘制出该当前点位；

若否，则在同个三维空间的第二平面坐标系下绘制出该点前点位。

这里需要强调的是，在三维空间的不同平面坐标系绘制相应点位的目的是后续在数据合规审核中对各类型的数据合规性问题(包括目录名称缺失、目录名称排序出错、文本错误、文本不清晰等)以每个平面坐标系为并行审核的单元，实现对数据合规性的并行审核，以加快审核速度，特别是能够适应对具有庞大数量的报告的批量数据合规性审核。

在三维空间中绘制点位的方法为：

将具有第一行间特征的当前点位绘制在三维空间的第一平面坐标系(比如绘制在如图2中所示的yz轴平面坐标系)，将具有第二行间特征的当前点位绘制在三维空间的第二平面坐标系(比如绘制在图2中所示的xz轴平面坐标系)，

以点位唯一编码和文本行的行数分别为当前点位在相应平面坐标系下的横轴和纵轴坐标值，在相应平面坐标系下绘制出点位，分别绘制在第一平面坐标系和第二平面坐标系下的各点位对应形成为第一点位阵列和第二点位阵列。

这里需要说明的是，三维空间具有3个平面坐标系，为了进一步增加对待审核报告的数据合规性审核的效率，还可以在图2中所示的xy轴平面坐标系下绘制第三点位阵列，第三点位阵列中的点位比如为：在当前点位和当前点位的下一点位之间具有的纯文本段落数大于预设的段落数阈值时，将小于该段落数阈值的当前点位绘制在xy轴平面坐标系中，而将大于等于该段落数阈值的当前点位绘制在yz轴平面坐标系中。这样后续在进行数据合规性审核过程中，可以针对3个平面坐标系中的点位进行并行的数据合规性审核，审核速度更快。但本实施例中，以具有第一点位阵列和第二点位阵列2个点位阵列为例对并行审核的方法进行阐述。另外需要说明的是，三维空间仅有3个平面坐标系，当需要构建更多地点位阵列时，还可以用线条方式代替，即点位阵列中的点位仅具有横轴坐标或纵轴坐标，为一维空间下的点位，横轴坐标值或纵轴坐标值均为点位唯一编码即识别顺序号。

对于报告模板，事先在三维空间的第一平面坐标系下形成有第一参考点位阵列，在第二平面坐标系下形成有第二参考点位阵列，2个参考点位阵列的形成方法与形成待审核报告的点位阵列的方法相同，不再赘述。需要说明的是，在形成参考点位阵列时，哪些表征目录名称的参考点位形成在第一参考点位阵列，哪些形成在第二参考点位阵列是事先确定的，比如报告模板中的“附录”这一目录名称下，通常需要附上相关的图、表，则将表征“附录”这一目录名称的参考点位绘制在xz轴平面坐标系的第二参考点位阵列中。而报告模板中的“业务功能需求”这一目录名称一般不要求绘制图、表，只需要纯文本说明，则将表征“业务功能需求”这一目录名称的参考点位绘制在yz轴平面坐标系的第一参考点位阵列中。

形成待审核报告在相应平面坐标系下的点位阵列后，本实施例提供的基于改进的自然语言处理的数据审核方法转入步骤：

S2，接收到审核指令后，系统以待审核报告和报告模板分别形成在三维空间的点位阵列、参考点位阵列为媒介，对待审核报告进行数据合规性审核，并输出审核结果，

审核包括对待审核报告中是否存在目录名称缺失的第一并行审核和目录名称排序是否出错的第二并行审核，其中，第一并行审核通过计算待审核报告与报告模板在同个平面坐标系下的点位阵列与参考点位阵列中的相应点位间的第一距离和第二距离实现；

第二并行审核通过计算待审核报告与报告模板在不同的平面坐标系下的点位阵列与参考点位阵列中的相应点位间的第三距离和第四距离实现。

以下对第一并行审核方法和第二并行审核方法进行具体阐述。

第一并行审核方法具体包括如下步骤：

B1，构建待审核报告与报告模板的并行审核数据组，构建方法为：

将待审核报告和报告模板分别形成在三维空间的同个平面坐标系下的点位阵列和参考点位阵列构成为并行审核数据组；

例如，待审核报告在如图2中所示的yz轴平面坐标系(第一平面坐标系)下形成有第一点位阵列，在图2中所示的xz轴平面坐标系(第二平面坐标系)下形成有第二点位阵列。而报告模板在三维空间的yz轴平面坐标系形成有第一参考点位阵列，在xz轴平面坐标系形成有第二参考点位阵列，则将待审核报告的第一点位阵列和报告模板的第一参考点位阵列构成为第一数据组，将第二点位阵列和第二参考点位阵列构成为第二数据组，第一数据组和第二数据组为机器审核目录是否缺失的并行审核对象。

B2，对步骤B1构建的并行审核数据组中的不同数据组中包含的点位阵列和参考点位阵列之间的点位进行并行的目录名称相似度匹配，并在针对报告模板形成的参考点位阵列中对相似度匹配成功的第二点位做第一标记；

具体而言，对构成并行审核数据组的第一数据组和第二数据组进行并行的目录名称相似度匹配。例如，在对第一数据组中的第一点位阵列和第一参考点位阵列间的点位进行目录名称的相似度匹配时，假设定义第一点位阵列中的点位为第一点位，第一参考点位阵列中的点位为第二点位，则在第一点位和第二点位的目录名称相似度匹配成功时，在第一参考点位阵列中对相似度匹配成功的第二点位做第一标记(该标记表示该第二点位目录名称相似度匹配成功)。

这里需要说明的是，对点位阵列和参考点位阵列间的点位进行目录名称相似度匹配的方法采用的是现有的匹配算法，阵列中的每个点位的点位特征包括每个文本词，可以通过对每个文本词的相似度匹配综合得到目录名称的匹配结果。比如某个第一点位表征的文本行的文本词包括“项目名称：A公司”，某个第二点位表征的目录名称为“项目名称：”，假设相似度匹配成功的条件设置为：第一点位表征的文本行中完全覆盖第二点位表征的目录名称的词，且第一点位表征文本行的文本词数小于第二点位表征的目录名称的词数+词数增加阈值，若该第一点位表征的文本行中的词特征正好落入该条件，则判定目录名称相似度匹配成功。

B3，判断参考点位阵列中是否存在未做第一标记的第二点位，

若否，则判定所述待审核报告中未缺失目录名称，并终止对目录是否缺失的审核流程。

在待审核报告中标注出疑似目录名称缺失的位置的方法具体包括如下步骤：

B31，在点位阵列中过滤掉目录名称相似度未匹配成功的各第一点位；

B32，识别出参考点位阵列中未做第一标记的每个第二点位的第二横轴坐标值；

B33，计算经步骤B31过滤后的点位阵列中的每个第一点位的第一横轴坐标值与第二横轴坐标值的差值，并将值为正的差值作为第一距离，将值为负的差值作为第二距离；

举例而言，下表1中的第二列中的元素表示参考点位阵列，第一列中的元素表示点位阵列。假设，第二列中的元素“Y8”未做第一标记，表示第一列中疑似缺乏“Y8”对应的目录名称，则计算第一列中的每个元素(第一点位)的横轴坐标值(第一横轴坐标值)与“Y8”的第二横轴坐标值的差值，并将值为正的差值作为第一距离，将值为负的差值作为第二距离。

B34，将计算到值最小的第一距离和值最大的第二距离的两个第一点位分别表征的第一目录名称和第二目录名称之间的文本，做缺失具有第二横轴坐标值的第二点位表征的第三目录名称的第二标记。

举例而言，假设下表1中的“X6”与“Y8”的第一距离的值最小，“X7”与“Y8”的第二距离的值最大，则对“X7”、“X8”这两个目录名称之间出现的文本内容做第二标记。这里需要说明的是，若是只计算到第一距离或只计算到第二距离，则对计算第一距离或第二距离的第一点位表征的目录名称做第二标记即可。

第二并行审核的方法则具体包括如下步骤：

C1，构建经步骤B31的第一点位过滤后的第一数据组和第二数据组分别对应的第一目录名称对应表和第二目录名称对应表，构建方法结合下表1解释如下：

表1

X1	Y1
		X2	Y2
X3	Y3
		X4	Y4
X5	Y5
		X6	Y6
X7	Y7
			Y8

上表1比如为经步骤B31的第一点位过滤后的第一数据组对应的第一目录名称对应表。表1中的第一列为经步骤B31的第一点位过滤后的第一数据组中的第一点位阵列中剩余的各第一点位，第二列为第一数据组中的报告模板形成在相应平面坐标系(第一点位阵列形成的同个平面坐标系)下的第一参考点位阵列中的各第二点位。表1中，同一行的元素的目录名称对应，比如“X1”和“Y1”的目录名称均为“项目名称”。但第一列和第二列中的同一行的两个元素的点位唯一编码可能不同，即目录名称的识别顺序可能不同，比如，表1的第一列中的“X5”的点位唯一编码即识别顺序可能为“③”，而第二列中的“Y5”的识别顺序为“⑤”。造成目录名称对应的同行不同列的识别顺序号不同的原因有二：一是第一列中的点位表征的目录名称排序本身出错，二是构建点位阵列时引入了噪声点位，比如将“项目名称的含义是一个项目的名称”这一满足点位转换条件的但实际并非是“项目名称”这一目录名称所在的文本行构建为对应的点位，并赋予该点位相对应的点位唯一编码，导致后续识别正确的目录名称的点位的点位唯一编码的值都累加了“1”。

现有技术中，有许多方法可以解决噪声点位引入后产生的目录名称排序识别出错的问题，比如结合目录名称比对和目录名称排序比对的方式。举例而言，对于目录名称A1、B1、C1，机器识别到的点位唯一编码即识别顺序分别为②、③、④，而报告模板中目录名称A2、B2、C2的点位唯一编码为①、②、③，则机器首先比对A1、B1、C1是否分别与A2、B2、C2的目录名称对应，若是，即A1＝A2，B1＝B2，C1＝C2，则将错误赋予“项目名称的含义是一个项目的名称”的点位排序编码由“①”置“0”，重新赋予A1、B1、C1分别相对应的识别顺序号为①、②、③。

但上述现有方法存在如下问题：

1、首先需要通过NLP等技术通过语义分析识别出待审核报告中的目录名称，同时需要对报告模板进行目录名称识别顺序的确定，在待审核报告内容数据庞大时，NLP的语义分析过程非常耗时，且当需要对数量庞大的待审核报告进行批量审核时，这个问题更加突出；

2、目录名称排序是否出错的比对对象为待审核报告和报告模板两个整体，无法实现对单个待审核报告中的不同区域的目录名称排序是否出错的并行审核，进而难以提升对单个待审核报告的目录名称排序合规性的审核效率；

3、点位唯一编码重新赋予的方式需要识别错误赋予的对象，在错误赋予的对象较多时，对于错误赋予对象的识别又是新增的工作，会极大影响数据合规性审核的效率。

为了解决上述问题，本发明通过事前构建点位阵列，并采用计算第三距离和第四距离的方式，不仅实现了对单个待审核报告的不同区域的目录名称排序是否出错的并行审核，且不需要对错误赋予对象进行二次识别并纠正错误赋予的点位唯一编码，实现了对不同点位阵列间的点位表征的目录名称排序是否出错的直接识别。

另外，需要强调的是，通过点位阵列的事前构建，不需要NLP等语义分析过程，审核算法简单、高效，适于对批量报告以及对单个报告的不同区域的目录名称排序合规性的并行审核。将点位阵列的构建前置在待审核报告形成过程中，需要进行数据合规性审核时，直接调取事先构建的点位阵列即可，进一步提升了数据合规性的审核效率。

在完成对第一数据组和第二数据组分别对应的第一目录名称对应表和第二目录名称对应表的构建后，第二并行审核的方法转入步骤：

C2，以第一目录名称对应表中的第二列中的任意一个元素的第二点位唯一编码为第一参照，计算第二目录名称对应表中的第一列中的每个元素的第一点位唯一编码与第一参照的第三距离，并根据距离由大到小形成第三距离排序列表；

并以第二目录名称对应表中的第二列中的任意一个元素的第二点位唯一编码为第二参照，计算第一目录名称对应表中的第一列中的每个元素的第一点位唯一编码与第二参照的第四距离，并根据距离由大到小形成第四距离排序列表；

以下以上表1和下表2为例，对第三距离和第四距离的计算方法进行具体说明：

表2

X9	Y9
		X10	Y10
X11	Y11
			Y12

上表2假设表示为第二目录名称对应表，第一列中的X9、X10、X11为第二数据组中的第二点位阵列中的第一点位；第二列中的Y9-Y12是第二数据组中的第二参考点位阵列中的第二点位。

计算第三距离的方法为：

例如，从表1中的第二列任意提取出比如“Y6”作为第一参照，然后计算表2表示的第二目录名称对应表中的第一列中的每个元素即X9、X10、X11中的每个的第一点位唯一编码(点位表征的文本行的识别顺序号)与“Y6”的点位唯一编码的值的差值绝对值作为第三距离；

第四距离与第三距离的计算方法原理相同，比如为：从表2中的第二列任意提取出比如“Y12”作为第二参照，然后计算表1表示的第一目录名称对应表中的每个元素的第一点位唯一编码与“Y12”的点位唯一编码的值的差值绝对值作为第四距离。

完成对第三距离排序列表和第四距离排序列表的构建后，第二并行审核的方法转入步骤：

C3，从第二目录名称对应表的第二列中抽取出与该表的第一列中的目录名称对应的每个元素，构成第二校验列表，

并从第一目录名称对应表的第二列中抽取出与该表的第一列中的目录名称对应的每个元素，构成第一校验列表；

举例而言，上表2中，第二列的Y9-Y11与该表的第一列中X9-X11的目录名称对应，则将Y9-Y11构成为第二校验列表；上表1中，第二列的Y1-Y7与该表的第一列中的X1-X7的目录名称对应，则将Y1-Y7构成为第一校验列表；

C4，计算第二校验列表中的每个元素与第一参照的第一参照距离，并计算第一校验列表中的每个元素与第二参照的第二参照距离，并按照参照距离由大到小，分别形成为第一参照距离列表和第二参照距离列表；

举例而言，对于由表2中的Y9-Y11构成的第二校验列表，计算该列表中的每个元素与表1中的比如作为第一参照“Y6”的第一参照距离，并计算由表1中的Y1-Y7构成的第一校验列表中的每个元素与表2中的比如作为第二参照的“Y12”的第二参照距离；

C5，判断第三距离列表和第一参照距离列表中具有相同排序号的的元素的目录名称是否相同，

若是，则判定第三距离列表中的该元素对应的目录名称排序正确；

若否，则判定第三距离列表中的该元素对应的目录名称排序出错，并对该元素做目录名称排序出错的第三标记；

并同时判断所述第四距离列表和所述第二参照距离列表中具有相同排序号的元素的目录名称是否相同，

若是，则判定所述第四距离列表中的该元素对应的目录名称排序正确；

若否，则判定所述第四距离列表中的该元素对应的目录名称排序出错，并对该元素做目录名称排序出错的所述第三标记。

举例而言，假设由表2中的Y9-Y11构成的第二校验列表，并以表1中的“Y6”为第一参照，且若按第一参照距离由大到小排列，则第一参照距离列表如下表3所示：

表3

Y11
	Y10
Y9

又假设由表1中的Y1-Y7构成的第一校验列表，表2中的“Y12”为第一参照，且若同样按第二参照距离由大到小排列，则第二参照距离列表如下表4所示：

表4

/>

假设第三距离列表中的“X9”与第一参照距离列表中的“Y11”的排序号相同，但由于“X9”与“Y11”对应的目录名称不相同，则判定“X9”对应的目录名称出错并对“X9”做目录名称排序出错的第三标记。

最后，在对待审核报告中的不同区域的文本内容正确性的审核中，对待审核报告形成在同个三维空间的不同的平面坐标系下的点位阵列，采用相同或不同的策略对点位阵列中的点位间的文本段落进行内容正确性审核。比如对于构建在第一平面坐标系下的第一点位阵列中的点位(比如点位间为纯文本段落)，则采用NLP算法进行内容正确性审核，而对于构建在第二平面坐标系下的第二点位阵列中的点位(比如点位间可能包含图、表)，则采用NLP结合OCR识别算法进行内容正确性审核。

综上，本发明以形成在所搭建的三维空间下的不同平面坐标系中的点位阵列为媒介，通过计算待审核报告与报告模板形成在三维空间的同个平面坐标系下的相应点位之间的横轴坐标值的第一距离和第二距离，实现了对待审核报告中的不同区域是否存在目录名称缺失的并行审核；通过计算待审核报告与报告模板形成在三维空间的不同平面坐标系下的相应点位之间的第三距离和第四距离，实现了对待审核报告中的不同区域的目录名称排序是否出错的并行审核；并行审核不需要复杂的语义分析过程，大幅提升了审核效率。另外，将现有方案的后置审核改变为部分前置审核，并采用不同策略对不同平面坐标系下的点位阵列进行内容正确性的并行审核，进一步提升了审核效率。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种基于改进的自然语言处理的数据审核方法，其特征在于，步骤包括：

2.根据权利要求1所述的基于改进的自然语言处理的数据审核方法，其特征在于，所述点位转换条件为：用户在同一行中输入的文本字数少于字数阈值；

对所述待审核报告形成在同个所述三维空间的不同平面坐标系下的所述点位阵列，采用相同或不同的策略对所述点位阵列中的点位间的文本段落进行内容正确性的并行审核；

步骤S1中，所述点位的点位特征包括输入在所述点位的对应行的行数、对应行中的文本字数、每个文本词、按输入顺序先后排序的当前点位与下一点位分别对应的第一行和第二行之间的行间特征，

3.根据权利要求1所述的基于改进的自然语言处理的数据审核方法，其特征在于，步骤S1中，形成所述点位阵列的方法包括步骤：

A2，判断所识别的当前点位对应的第一行和当前点位的下一点位对应的第二行之间的行间特征是否包括所述第二行间特征，

4.根据权利要求3所述的基于改进的自然语言处理的数据审核方法，其特征在于，在所述三维空间中绘制点位的方法为：

5.根据权利要求1-4任意一项所述的基于改进的自然语言处理的数据审核方法，其特征在于，步骤S2中，所述第一并行审核的方法包括步骤：

6.根据权利要求5所述的基于改进的自然语言处理的数据审核方法，其特征在于，步骤B3中的“若是”判定下，在所述待审核报告中标注出疑似目录名称缺失的位置的方法包括步骤：

7.根据权利要求6所述的基于改进的自然语言处理的数据审核方法，其特征在于，步骤B1中，构建所述并行审核数据组的方法为：

所述并行审核数据组包括第一数据组和第二数据组，其中，所述待审核报告和所述报告模板分别形成在第一平面坐标系下的第一点位阵列和第一参考点位阵列构成所述第一数据组，分别形成在第二平面坐标系下的第二点位阵列和第二参考点位阵列构成所述第二数据组。

8.根据权利要求7所述的基于改进的自然语言处理的数据审核方法，其特征在于，步骤S2中，所述第二并行审核的方法包括步骤：

9.根据权利要求8所述的基于改进的自然语言处理的数据审核方法，其特征在于，步骤C1中，目录名称对应表中的第一列为经步骤B31的第一点位过滤后的点位阵列中剩余的各第一点位，第二列为报告模板形成在与所述点位阵列相同的平面坐标系下的参考点位阵列中的各第二点位；

10.根据权利要求8或9所述的基于改进的自然语言处理的数据审核方法，其特征在于，步骤C3中，从所述第二目录名称对应表的第二列中抽取出与该表的第一列中的目录名称对应的每个元素，构成所述第二校验列表；从所述第一目录名称对应表中的第二列中抽取出与该表的第一列中的目录名称对应的每个元素，构成所述第一校验列表；

步骤C4中，计算所述第二校验列表中的每个元素与第一参照的第一参照距离，并按第一参照距离由大到小形成为所述第一参照距离列表；计算所述第一校验列表中的每个元素与第二参照的第二参照距离，并按照具有由大到小排列形成为所述第二参照距离列表。