CN107908602A

CN107908602A - 一种文件检测方法及其装置

Info

Publication number: CN107908602A
Application number: CN201711344713.XA
Authority: CN
Inventors: 王爽; 郑锦光; 张梦迪; 吴珂皓; 张白驹; 社会芳
Original assignee: Beijing Wen Jie Internet Technology Co Ltd
Current assignee: Beijing Wen Jie Internet Technology Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-04-13

Abstract

一种文件检测方法，包括：S1：通过解析二进制指令，将PDF文件的内容解析为带标记的文本、表格和图片，同时记录文字的字体和字号信息，表格和图片的位置信息；S2：根据解析后的文档的字号大小得到相应章节的层级，根据层级的高低配置章节的层级根节点及子节点建立文档章节树；S3：根据监管机构要求披露的信息建立规则执行库；S4：根据监管机构要求披露的信息的章节建立根节点及子节点，并根据相应节点下的规则执行库的信息建立文档规则树；S5：将文档规则树与文档章节树进行匹配，对文本内容按照相应的规则树下的根节点及子节点的规则执行库进行比对；S6：输出文档中与规则执行库不符的内容。

Description

一种文件检测方法及其装置

技术领域

本发明涉及一种文件检测方法及其装置。

背景技术

随着市场经济的发展和金融体制改革的逐步深化，防范金融市场产生系统性风险已经逐渐成为市场参与各方的共识。由监管机构对市场进行监管则是防范风险的一种重要手段。

具体到债务市场，当非金融企业在进行债务融资工具时，必须按照监管机构的要求披露必要的经营信息。目前的处理流程是，非金融企业必须首先向监管机构提交各类信息披露文件，由监管机构的工作人员对各类文件进行审核，判断其是否满足了规定的披露要求。只有满足要求之后，才会进行下一步流程。

由于PDF格式的文档在不同的软硬件平台有一致的显示效果，企业提交的这些信息披露文件的格式一般都为PDF。除了格式之外，监管机构对信息披露文件的内容也有严格的要求，PDF的章节结构必须依照规定设计，对应章节的内容也必须覆盖到监管机构规定的披露内容。

随着企业的债务融资需求日益增长，监管机构的审核人员也必须随之增加。但是每个监管机构的人员是有上限的，为了解决这个矛盾，急需引入一种自动化方法来检查企业发行债券的申请文件是否合规，来协助工作人员审核文件，提高审核效率。

发明内容

为克服现有技术问题，本发明提供一种文件检测方法及其装置。

一种文件检测方法，包括：

S1：通过解析二进制指令，将PDF文件的内容解析为带标记的文本、表格和图片，同时记录文字的字体和字号信息，表格和图片的位置信息；

S2：根据解析后的文档的字号大小得到相应章节的层级，根据章节层级的高低，建立文档章节树；

S3：根据监管机构要求披露的信息建立规则执行库；

S4：根据监管机构要求披露的信息的章节建立根节点及子节点，并根据相应节点下的规则执行库的信息建立文档规则树；

S5：将文档规则树与文档章节树进行匹配，对文本内容按照相应的规则树下的根节点及子节点的规则执行库进行比对；

S6：输出文档中与规则执行库不符的内容。

优选的是，解析二进制指令时通过PDF文件内的指令流解析出相应的文本、表格和图片。

优选的是，解析二进制指令时根据PDF文件的线条位置解析相应的表格结构并将表格的内容存储为二维数组同时记录表格在文档中的位置。

优选的是，解析二进制指令时将PDF文件内的图片单独存储，并在相应的文档上标记引用相应图片的指令。

优选的是，在文档规则树与文档章节树进行匹配时，首先检测根节点是否匹配，然后检测子节点是否匹配；

所述子节点下包括该子节点的下一级子节点时，将下一级的子节点作为输入信息与文档规则树进行匹配。

优选的是，I1在对比时，输入两个同级别节点，其中一个为文档章节树节点，另一个为

规则树节点；

I2判断文档章节树节点和规则树节点是否匹配，如果匹配，标记章节树节点为匹配节点；如果不匹配，标记章节树的节点为不匹配节点；

I3如果文档章节树节点和规则树节点有子节点，则该子节点仍为同级别节点，将所有子节点成对依次作为输入，转入步骤I1；如果没有，进入步骤I4；

I4输出检查结果。

本发明同时提供一种文件检测装置，包括：

文件解析单元，所述文件解析单元通过解析二进制指令，将PDF文件的内容解析为带标记的文本、表格和图片，同时记录文字的字体和字号信息，表格和图片的位置信息；

文档章节树配置单元，所述文档章节树配置单元用于根据解析后的文档的字号大小得到相应章节的层级，根据层级的高低配置章节的层级根节点及子节点，建立文档章节树；

规则执行库单元，所述规则执行库单元根据监管机构要求披露的信息建立；

文档规则树单元，所述文档规则树单元根据监管机构要求披露的信息的章节建立根节点及子节点，并根据相应节点下的规则执行库的信息建立文档规则树；

比较单元，所述比较单元用于将文档规则树与文档章节树进行匹配，对文本内容按照相应的规则树下的根节点及子节点的规则执行库进行比对；

输出单元，所述输出单元用于输出文档中与规则执行库单元不符的内容。

优选的是，所述文件解析单元在解析二进制指令时：

通过PDF文件内的指令流解析出相应的文本、表格和图片；

根据PDF文件的线条位置解析相应的表格结构并将表格的内容存储为二维数组同时记录表格在文档中的位置；

将PDF文件内的图片单独存储，并在相应的文档上标记引用相应图片的指令。

优选的是，所述比较单元在进行文档规则树与文档章节树匹配时，首先检测根节点是否匹配，然后检测子节点是否匹配。

优选的是，所述子节点下包括该子节点的下一级子节点时，将下一级的子节点的第一个节点作为输入信息与文档规则树进行匹配。

本发明的有益效果：

本发明提供的文件检测方法及其装置通过将PDF文件转换为二进制指令的形式，同时根据字号将文件转换呈具有相应层级的文档章节树，并将监管机构要求披露的信息也转换为文档规则树的形式，通过对比各个层级的根节点及子节点的相应下的相应内容，提高审核的工作效率。

附图说明

图1为本发明的文件检测方法的流程示意图。

具体实施方式

如图1所示，一种文件检测方法，

包括：

除了一些基本的文件元信息，PDF内部最主要的元素是指令流(operatorstream)，PDF中的文本、表格、图片信息都是用指令在指定位置画出来的，因此这一步的工作就是解析出各类指令；

解析出文本：从PDF指令中恢复出文本信息，除此之外还要记录文本的字体、字号等信息；

解析出表格：PDF内部并没有表格的概念，表格实际上是某些指令在指定位置绘制线条，另外一些指令在线条之间的位置绘制文本，最终形成了视觉上的表格效果，在解析表格时要利用线条的位置关系，恢复出表格结构，将表格存储为二维数组，并在文本位置做出标记；

解析出图片：PDF内部的所有图片数据都存储在一个单独的区域，文档中某处出现的图片，实际上使用指令引用图片存储的位置，因此需要将图片单独存储，并在对应的文本位置做出标记；

此步骤的主要目的在于根据文本内容的特点将文本解析为按章节级别存储的章节树，根据文本的字号信息以及监管机构规定的章节结构，识别出文档的所有标题，并标记标题级别，然后根据章节标题信息建立章节树；

具体过程例如：监管机构规定债券申请书的第三章必须描述企业的基本情况，那么，可以首先在文件中全文搜索类似于“第三章企业基本情况”这样的文本，对于所有找到的文本，再根据文本的字号大小来确认其到底是否为正确的标题(反之先搜索字号后搜索标题亦可)。如果字号比正文的字号大，那么判定为正确的标题，否则视为错误的判例。

用类似的方法，可以找到所有的章节标题结构，并根据标题之间的位置关系，确定其标题层级，比如说对于“第三章企业基本情况”下找到“第一节基本信息”，那么“第一节基本信息”这个标题层级就会比“第三章企业基本情况”低一级。则“第三章企业基本情况”为根节点，“第一节基本信息”为子节点；

同时依次向下搜索，将根节点下的同一字号标题配置为该根节点的子节点，在同一字号的标题搜索完成后向下继续搜索下一级的比该字号小(或大)一级的子节点，依次类推。例如“第三章企业基本情况”为根节点时，面有五个小标题，则这五个小标题均为“第三章企业基本情况”的子节点，然后再搜索这五个小标题下的各自的子节点，此时“第三章企业基本情况”的子节点可以理解为下一级的根节点，直到搜索到正文字号为止。

如此类推，直到找出所有的章节标题信息在找齐了所有的章节标题之后，可以根据章节标题的层级信息，建立章节树。

具体来说，建立树的根节点，设定其层级为0，将所有层级为1的章节添加为根节点的子节点。再对第一个层级为1的节点进行处理，将属于其的所有的层级为2的子节点增加为子节点。按照这种方式依次处理，直到在上一步提取的所有的章节标题处理完毕。

S3：根据监管机构要求披露的信息建立规则执行库；

规则执行库主要包括表达式以及表达式下的层级关系；

监管机构发布的信息披露要求一般为自然语言文本，比如：“第二章应描述企业基本信息，第二章第一节应描述企业实际控制人或控股股东”。这种规则是给人类理解的，计算机无法直接处理。

为了让计算机理解这些规则，需要将自然语言文本转换为正则表达式。比如对于“本章应描述企业基本信息”，可以转换为正则表达式：“第二章.*基本信息”。只有当标题中包含“第二章”和“基本信息”时，该正则表达式才返回真值，否则为假。

在将信息披露要求转换为正则表达式时，还要同时记录每条规则的层级关系信息。比如第X章这类规则属于一级规则，而第X章第Y节这类规则属于二级规则。此外，还要记录一级规则和二级规则的隶属关系，比如第二章第一节这条规则隶属于第二章这条规则。

假设根节点为最高级，则首先将所有的一级规则设置为根节点的子节点，然后按照隶属关系，逐个添加二级规则为对应一级规则的子节点。之后再按照隶属关系，添加三级规则为二级规则的子节点。

如此类推，直到所有节点处理完毕。最终，得到文档规则树。

首先说明一些定义：

根节点：为树的最高级节点，每棵树都只有一个根节点。

子节点：A节点隶属于B节点，且A节点的等级别B节点低一级，那么称A为B的子节点。

具体的步骤如下：

(1)在对比时，输入两个同级别节点，其中一个为文档章节树节点，另一个为规则树节点(在初次输入时，可以选择两棵树的根节点作为输入)。

(2)判断这两个节点是否匹配，如果匹配，标记章节树节点为匹配节点；如果不匹配，标记章节树的节点为不匹配节点。

(3)如果这两个节点有子节点，由于这两个节点的子节点仍为同级别节点，那么将二者的所有子节点成对作为输入，转入步骤(1)；如果没有，进入步骤(4)。

(4)输出检查结果

S6：输出文档中与规则执行库不符的内容。

本发明同时提供一种文件检测装置，

包括：

文档章节树配置单元，所述文档章节树配置单元用于根据解析后的文档的字号大小得到相应章节的层级，根据层级的高低配置章节的层级根节点及子节点建立文档章节树；

所述文件解析单元在解析二进制指令时：

通过PDF文件内的指令流解析出相应的文本、表格和图片；

根据PDF文件的线条位置解析相应的表格结构并将表格的内容存储为二维数组同时记录相应的文档位置；

所述比较单元在进行文档规则树与文档章节树匹配时，首先检测根节点是否匹配，然后检测子节点是否匹配。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种文件检测方法，其特征在于：

包括：

S3：根据监管机构要求披露的信息建立规则执行库；

S6：输出文档中与规则执行库不符的内容。

2.根据权利要求1所述的文件检测方法，其特征在于：

解析二进制指令时通过PDF文件内的指令流解析出相应的文本、表格和图片。

3.根据权利要求2所述的文件检测方法，其特征在于：

解析二进制指令时根据PDF文件的线条位置解析相应的表格结构并将表格的内容存储为二维数组同时记录表格在文档中的位置。

4.根据权利要求1所述的文件检测方法，其特征在于：

解析二进制指令时将PDF文件内的图片单独存储，并在相应的文档上标记引用相应图片的指令。

5.根据权利要求1所述的文件检测方法，其特征在于：

在文档规则树与文档章节树进行匹配时，首先检测根节点是否匹配，然后检测子节点是否匹配；

6.根据权利要求1所述的文件检测方法，其特征在于：

I1在对比时，输入两个同级别节点，其中一个为文档章节树节点，另一个为规则树节点；

I4输出检查结果。

7.一种文件检测装置，其特征在于：

包括：

8.根据权利要求7所述的文件检测装置，其特征在于：

所述文件解析单元在解析二进制指令时：

通过PDF文件内的指令流解析出相应的文本、表格和图片；

9.根据权利要求7所述的文件检测装置，其特征在于：

10.根据权利要求7所述的文件检测装置，其特征在于：

所述子节点下包括该子节点的下一级子节点时，将下一级的子节点的第一个节点作为输入信息与文档规则树进行匹配。