CN107368472B

CN107368472B - 一种可迭代优化的文档分析结果的保存方法

Info

Publication number: CN107368472B
Application number: CN201710616485.0A
Authority: CN
Inventors: 林鹰; 罗康; 张鑫阳
Original assignee: Colasoft Co ltd
Current assignee: Kelai Network Technology Co.,Ltd.
Priority date: 2017-07-26
Filing date: 2017-07-26
Publication date: 2021-01-05
Anticipated expiration: 2037-07-26
Also published as: CN107368472A

Abstract

本发明公开了一种可迭代优化的文档分析结果的保存方法。所述方法包括读取原始文档，将原始文档存放到指定目录下的步骤；计算各段单元的ID、MD5值并存储到一个XML文件中的步骤；机器分析步骤；将分析结果按段落ID进行标记的步骤；人工初步验证的步骤。本发明提供了到段落级别的索引能力，并且存储了机器和人工分析结果，能提供更精细的处理能力，并且大大简化了工作量。

Description

一种可迭代优化的文档分析结果的保存方法

技术领域

本发明文本处理技术领域，尤其涉及一种可迭代优化的文档分析结果的保存方法。

背景技术

通过计算机分析PDF,DOC,HTML等非纯文本格式的文档时，在进行分析前还需要很多额外步骤来提取出纯文本信息，比如进行编码转换、字体识别等，然后再对这些纯文本的信息加以分析。将这些原始文档转成XML等包含纯文本以及关联信息的文档可以有效减少这个额外步骤的工作量，将各种文本格式加以统一。但经过提取后的XML文档相比原始文档，很多时候存在一些信息上的损失，因此对原始文档也需要加以保留。

随着文本处理方式的改变，从原始文档提取生成的XML文档也会有所不同，当处理过的文档数量非常大时，减少重新分析的工作量能够有效减少处理时间，从而提升效率。

此外，由于现有技术进行自然语言处理的准确率还有待提升，很多时候需要对机器分析的结果人工加以修订，这些修订结果也有必要加以保存。

发明内容

为解决上述问题，本发明提供了一种可迭代优化的文档分析结果的保存方法，包括如下步骤：

步骤一：读取原始文档，获取原始文档的ID,将原始文档存放到指定目录下。

步骤二：对原始文档根据当前分段算法进行分段，每段为一个段落单元，并记录当前段落单元的状态信息。

所述状态信息主要包括：是否是正文、是否是表格、是否是列表项、是否是无效段落。实际分析时，可以只对正文段落进行机器分析和人工修订。

步骤三：计算每个段落单元的ID、MD5值、当前所采用分段算法的版本号，将各个段落单元的文本内容、ID、MD5值存储到一个XML文件中，所述XML文件与原始文档保存在相同指定目录下，且名称均为原始文档的ID号。

步骤四：按照预定的分析方式并对各个段落单元进行机器分析。

步骤五：提取各个段落单元的分析结果，每个分析结果为一个分析单元，并按段落ID进行标记。

步骤六：将标记后的分析结果存放到XML文件中。

步骤七：按照预定的人工修订方式对分析结果加以初步验证，并将验证结果记录在XML文件的相应分析单元中。

进一步的，步骤一中，先使用MD5的前若干位信息第一层文件夹，使用MD5作为子文件夹名，在该子文件夹下存放原始文档和存储分析结果的XML文件，所述原始文档和XML文件的名称均为原始文档的ID。

进一步的，所述方法还包括进行段落单元信息更新监测的流程，具体为：循环检测原始文档中每个段落的MD5和检测分段算法版本号，确认两者是否发生变化，如果MD5发生了变化，则执行步骤三至七，如果MD5没有发生变化而分段算法版本发生了变化，则对现在各个段落单元的文本内容与之前的进行比较，如果具有不匹配的情况则执行步骤三至七，否则不进行任何操作。

进一步的，段落单元信息更新监测的流程中，如果引起段落单元更新的原因是原始文档中的部分段落单元被删除或者合并，则删除或者合并对应的分析结果单元。

进一步的，所述方法中还包括对预定的分析方式更新监测的流程，具体为：循环监测预定的分析方式是否发生变化，如果发生变化则执行步骤四至步骤六，否则不处理。

进一步的，对预定的分析方式更新监测的流程中，还需要执行步骤七。

进一步的，其特征在于，所述方法还包括对预定的人工修订方式更新监测的流程，具体为：循环监测预定的人工修订方式是否发生变化，如果发生变化则执行步骤七，否则不执行。

进一步的，步骤三中，所述XML文件与原始文档保存在同一个文件夹里。

本发明的有益效果为：

1.结合了原始文档和格式化语料的优点，能有效减少需要直接解析原始文档的次数，同时又不会带来原始信息的损失；

2.相比于直接保留从原始文档中提取的纯文本信息，本发明提供了到段落级别的索引能力，并且存储了机器和人工分析结果，能提供更精细的处理能力，并且大大简化了工作量。

3.原文文本单元和分析结果分开，通过段落ID关联，并可通过MD5值确认是否修订。

4.具有机器分析方式更新及人工修订方式更新监测流程，保障了分析结果及验证结果的实时更新。

附图说明

图1为本发明所述方法流程示意图。

具体实施方式

本发明所述一种可迭代优化的文档分析结果的保存方法包括如下步骤：

步骤一：读取原始文档，获取原始文档的ID（原始文档的ID一般是URL或者全局唯一的序号）,将原始文档存放到指定目录下。

本步骤中，优选利用原始文档自身的信息进行指定目录的建立。更优选的，是利用原始文档的内容计算出MD5值，利用MD5值的信息建立目录，以获得识别标识。

更具体的，本实施例是计算原始文档的MD5值，使用MD5的前若干位信息第一层文件夹（本实施例是利用的前五位），使用MD5作为子文件夹名，在该子文件夹下存放原始文档和存储分析结果的XML文件，所述原始文档和XML文件的名称均为原始文档的ID，只是后缀名不同。这样，即使两个文档具有相同的MD5值，也能以各自独有的ID进行检索。

步骤二：对原始文档进行分段，每段为一个段落单元。

本步骤还需要记录各个段落单元的状态信息，包括：是否是正文、是否是表格、是否是列表项、是否是无效段落（如页码，页眉页脚的公司信息等）。

步骤三：计算每个段落单元的ID、MD5值、当前所采用分段算法的版本号，将各个段落单元的文本内容、ID、MD5值存储到一个XML文件中，所述XML文件与原始文档保存在相同指定目录下。

段落单元的ID是其标识，MD5的作用是用于快捷的发现段落单元的内容是否有变化，当前分段算法版本也是检验段落单元是否发生变化的指标。

一般来说，段落单元的ID是从1开始的。

本发明对预定的分析方式并不做限定，实际使用过程中可使用任何以一种现有的机器分析方法。机器分析结果是用属性值说明其内容，可以是文本摘要、段落分类等多种形式。实际操作过程中，可以只对是正文的段落单元进行分析。

步骤六：将分析结果存放到分XML文件中，所述XML文件中还存储有原始文档各个段落单元的文本内容、ID、MD5，所述XML文件与原始文档保存在同一个文件夹里。

人工修订结果用属性值说明其内容。

上述流程的有益效果为：

2.相比于直接保留从原始文档中提取的纯文本信息，上述流程提供了到段落级别的索引能力，并且存储了机器分析和人工分析结果，能提供更精细的处理能力，并且大大简化了工作量。

更优选的，本发明还提供了进行段落单元信息更新监测的流程，具体为：循环计算原始文档中每个段落的MD5和检测分段算法版本号，确认两者是否发生变化，如果MD5发生了变化，则执行步骤三至七，如果MD5没有发生变化而分段算法版本发生了变化，则对现在各个段落单元的文本内容与之前的进行比较，如果具有不匹配的情况则执行步骤三至七，否则不进行任何操作。

MD5变化的原因会有多种，如文本内容发生变化、段落单元发生变化。如果引起段落单元更新的原因是原始文档中的部分段落单元被删除或者合并，则删除或者合并之前的分析结果单元即可。

更优选的，本发明还提供了预定的分析方式更新监测的流程，具体为：循环监测预定的分析方式是否发生变化，如果发生变化则执行步骤四至步骤六，否则不处理。如果机器分析方式发生变化会引起人工修订方式的变化，则还需要执行步骤七。例如，一个段落原本分类为“文学”，但后来把“文学”这个分类扩大为“诗歌”，“散文”，“小说”等，这个时候就需要把原来的文学分类加以扩充，显见人工修订的内容会发生变化。又如，一个段落原本机器分类为“文学”，人工分类为“艺术”，后来改进了机器分类的方式，新的机器分类结果为“艺术”，这时的人工修订内容不需要修改。

优选的，本发明还提供了对预定的人工修订方式更新监测的流程，具体为：循环监测预定的人工修订方式是否发生变化，如果发生变化则执行步骤七，否则不执行。人工修订方式的变化只需要修改分析单元中的人工修订部分。

Claims

1.一种可迭代优化的文档分析结果的保存方法，其特征在于，包括如下步骤：

步骤一：读取原始文档，获取原始文档的ID，将原始文档存放到指定目录下；步骤一中，指定目录的建立方式为：计算原始文档的MD5值，使用MD5的前若干位信息建立第一层文件夹，使用MD5值作为子文件夹名，在该子文件夹下存放原始文档和存储分析结果的XML文件，所述原始文档和XML文件的名称均为原始文档的ID；

步骤二：对原始文档进行分段，每段为一个段落单元；

步骤三：计算每个段落单元的ID、MD5值、当前所采用分段算法的版本号，将各个段落单元的文本内容、ID、MD5值存储到一个XML文件中，所述XML文件与原始文档保存在相同指定目录下；

步骤四：按照预定的分析方式并对各个段落单元进行机器分析；

步骤五：提取各个段落单元的分析结果，每个分析结果为一个分析单元，并按段落ID进行标记；

步骤六：将标记后的分析结果存放到XML文件中；

2.如权利要求1所述的可迭代优化的文档分析结果的保存方法，其特征在于，步骤二中，还需要记录各个段落单元的状态信息。

3.如权利要求2所述的可迭代优化的文档分析结果的保存方法，其特征在于，步骤二中，当前段落单元的状态信息包括：是否是正文、是否是表格、是否是列表项、是否是无效段落。

4.如权利要求3所述的可迭代优化的文档分析结果的保存方法，其特征在于，步骤四中，只对属于正文的段落单元进行机器分析。

5.如权利要求1所述的可迭代优化的文档分析结果的保存方法，其特征在于，所述方法还包括进行段落单元信息更新监测的流程，具体为：循环监测原始文档中每个段落的MD5和检测分段算法版本号是否发生变化，如果MD5发生了变化，则执行步骤三至七，如果MD5没有发生变化而分段算法版本发生了变化，则对现在各个段落单元的文本内容与之前的进行比较，如果具有不匹配的情况则执行步骤三至七，否则不进行任何操作。

6.如权利要求5所述的可迭代优化的文档分析结果的保存方法，其特征在于，段落单元信息更新监测的流程中，如果引起段落单元更新的原因是原始文档中的部分段落单元被删除或者合并，则删除或者合并之前的分析结果单元。

7.如权利要求1所述的可迭代优化的文档分析结果的保存方法，其特征在于，所述方法中还包括对预定的分析方式更新监测的流程，具体为：循环监测预定的分析方式是否发生变化，如果发生变化则执行步骤四至步骤六，否则不处理。

8.如权利要求7所述的可迭代优化的文档分析结果的保存方法，其特征在于，对预定的分析方式更新监测的流程中，还需要执行步骤七。

9.如权利要求1所述的可迭代优化的文档分析结果的保存方法，其特征在于，所述方法还包括对预定的人工修订方式更新监测的流程，具体为：循环监测预定的人工修订方式是否发生变化，如果发生变化则执行步骤七，否则不执行。