CN110728117A

CN110728117A - 基于机器学习和自然语言处理的段落自动识别方法及系统

Info

Publication number: CN110728117A
Application number: CN201910796555.4A
Authority: CN
Inventors: 岳小龙; 陈运文; 高翔; 李瀚清; 纪达麒; 杨慧宇
Original assignee: Daerguan Information Technology (shanghai) Co Ltd
Current assignee: Daerguan Information Technology (shanghai) Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2020-01-24

Abstract

本发明公开了一种基于机器学习和自然语言处理的段落自动识别方法及系统，所述方法包括以下步骤：获取学习样本；提取学习样本的位置特征、字体特征、语义特征；将学习样本的位置特征、字体特征、语义特征输入机器学习模型进行训练，生成段落识别模型；提取待识别文档的位置特征、字体特征、语义特征；将待识别文档的文本数据及其位置特征、字体特征、语义特征输入段落识别模型，得到段落信息。本发明使用机器学习算法和自然语言处理技术，使机器学习模型自动学习海量文档的结构信息，通过训练好的机器学习模型自动识别出新文档的段落信息，段落识别的准确度高。

Description

基于机器学习和自然语言处理的段落自动识别方法及系统

技术领域

本发明涉及文本处理技术领域，尤其涉及一种基于机器学习和自然语言处理的段落自动识别方法及系统。

背景技术

文档解析是一项非常基础的工作，许多文字处理和解析领域在拿到文档之后，首先要做的就是文档解析工作。大部分PDF、扫描件等文档本身不含有文档结构信息，如何快速而准确的将文章结构解析出来，对后续的文字处理非常关键。

现有的方法大多是根据文章的位置信息来判断段落特征，比如如果某行文字前面空2格，则识别成段落的开始，如果这行后面空多格则识别成段落的结尾。

这类方法可以快速的解决问题，但在实际使用中可能会有以下几个问题：

1、通用性比较差：文档根据文档用途、文档领域往往会呈现不同的位置特征。

2、维护成本高：文档段落识别系统搭建完成后，一旦文档的结构产生变化，需要人工分析结构，之后将新的结构信息放入到系统中，新的结构信息要同时兼顾旧文档和新文档。

3、天然的自我矛盾：文档的位置本身可能存在矛盾，比如段落中间行文字后面没有空格，段落的结尾行也可能会出现没有空格。

发明内容

有鉴于此，本发明提供了一种基于机器学习和自然语言处理的段落自动识别方法及系统，用以解决上述背景技术中存在的问题。

一种基于机器学习和自然语言处理的段落自动识别方法，包括以下步骤：

S1，获取学习样本；

S2，提取学习样本的位置特征、字体特征、语义特征；

S3，将学习样本的位置特征、字体特征、语义特征输入机器学习模型进行训练，生成段落识别模型；

S4，提取待识别文档的位置特征、字体特征、语义特征；

S5，将待识别文档的文本数据及其位置特征、字体特征、语义特征输入段落识别模型，得到段落信息。

优选地，所述学习样本为带有结构信息的文档；

所述步骤S2中提取学习样本的位置特征、字体特征、语义特征的具体步骤为：

S21，对学习样本的文档结构进行解码，统计并保存学习样本的段落信息；

S22，将学习样本的文档格式转换成不含结构信息的格式，并统计所有字的位置信息和字号信息；

S23，根据位置信息计算学习样本的位置特征；

S24，根据字号信息计算学习样本的字体特征；

S25，利用自然语言处理技术对学习样本进行分词，根据每个字在文档中的语义将学习样本的文本数据转换为语义向量。

优选地，所述位置特征包括文档中每行第一个字的行、列坐标，每行最后一个字的行、列坐标。

优选地，所述步骤S24中根据字号信息计算学习样本的字体特征的具体步骤为：

根据学习样本中每个字的字号信息计算每个字的宽度和高度，根据计算结果，统计得到文档中每行文字的宽度中位数和高度中位数。

优选地，所述步骤S3和步骤S4之间还包括步骤：

获取测试样本并提取测试样本的位置特征、字体特征和语义特征；

将测试样本的位置特征、字体特征和语义特征输入段落识别模型，判断段落识别模型输出的段落信息是否准确，若不准确，将该测试样本放入学习样本中，重复步骤S3，使机器学习模型继续学习该测试样本的特征，重新生成新的段落识别模型。

优选地，当学习样本为专用文档时，机器学习模型采用梯度提升决策树机器学习模型；

当学习样本为通用文档时，机器学习模型采用随机森林分类模型。

优选地，所述待识别文档为不含结构信息的通用文档。

一种基于机器学习和自然语言处理的段落自动识别系统，包括文档结构解码模块、文档格式转换模块、特征提取模块、机器学习模块和段落识别模块；

所述文档结构解码模块用于解码学习样本或测试样本的文档结构，并保存其段落信息；

所述文档格式转换模块用于转换学习样本或测试样本的文档格式并统计文档中所有字的位置信息和字号信息；

所述特征提取模块用于提取待识别文档、或格式转换后的学习样本或测试样本的位置特征、字体特征和语义特征；

所述机器学习模块用于对学习样本和测试样本的位置特征、字体特征和语义特征进行学习，生成段落识别模型；

所述段落识别模块用于将待识别文档输入段落识别模型，获取待识别文档的段落信息。

优选地，所述特征提取模块包括位置特征计算模块、字体特征计算模块和自然语言处理模块，

所述位置特征计算模块用于计算待识别文档、或格式转换后的学习样本或测试样本的位置特征；

所述字体特征计算模块用于计算待识别文档、或格式转换后的学习样本或测试样本的字体特征；

所述自然语言处理模块用于获取待识别文档、或格式转换后的学习样本或测试样本的语义特征。

本发明的有益效果是：

1、本发明利用机器学习算法来实现文档段落的自动识别，当有新的不同类型的文档出现时，只需机器学习模型重新学习该文档的特征即可，不需要人工标注训练样本，也不需要针对新的文档类型人工修改系统，通用性强。

2、机器学习模型在学习段落特征时，使用了样本的位置特征、字体特征和语义特征这三个维度，学习多个维度特征，可以更加丰富、全面的解析文本，从而提高段落识别的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明方法的流程图。

图2是构建段落识别模型的流程图。

图3是本发明系统的原理框图。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面通过具体的实施例并结合附图对本申请做进一步的详细描述。

本申请的基于机器学习和自然语言处理的段落自动识别方法，用于对不含结构信息的通用文档的段落进行自动识别。

本发明使用机器学习算法和自然语言处理技术，将带有文档结构的文档输入机器学习模型中，使机器学习模型自动学习海量文档的结构信息，通过训练好的机器学习模型自动识别出新文档的段落信息，段落识别的准确度高。

本申请的基于机器学习和自然语言处理的段落自动识别方法，具体包括以下步骤：

S1，获取学习样本，所述学习样本为带有结构信息的文档。为了提高本发明的通用性，在获取学习样本时，应尽量获取各个领域的文档作为学习样本。

S2，提取学习样本的位置特征、字体特征和语义特征。

具体地，首先，对学习样本(如doc/docx文件)的文档结构进行解码，以行为单位，统计哪些行为一个段落，并保存学习样本的段落信息；

其次，将学习样本的文档格式转换成不含结构信息的格式(如将doc文件转换为pdf/jpg文件)，并统计所有字的位置信息和字号信息；

然后，根据统计得到的位置信息计算学习样本的位置特征，所述位置特征包括文档中每行第一个字的行、列坐标，每行最后一个字的行、列坐标；

然后，根据统计得到的字号信息计算学习样本的字体特征：根据学习样本中每个字的字号信息计算每个字的宽度和高度，根据计算结果，统计得到文档中每行文字的宽度中位数和高度中位数；

最后，利用自然语言处理技术对格式转换后的学习样本进行分词，根据每个字在文档中的语义将学习样本的文本数据转换为语义向量。

S3，将学习样本的位置特征、字体特征、语义特征输入机器学习模型进行训练，生成段落识别模型。

获取测试样本(新的需要段落识别的文档)并按上述S2中的方法提取测试样本的位置特征、字体特征和语义特征；然后，将测试样本的位置特征、字体特征和语义特征输入段落识别模型，判断段落识别模型输出的段落信息是否准确，若不准确，将该测试样本放入学习样本中，重复步骤S3，使机器学习模型继续学习该测试样本的特征，重新生成新的段落识别模型。

本实施例中，当学习样本为专用文档时，机器学习模型采用梯度提升决策树机器学习模型；

S4，提取待识别文档的位置特征、字体特征、语义特征。

本实施例中，待识别文档为不含结构信息的通用文档。

提取待识别文档的位置特征、字体特征和语义特征的方法与学习样本类似，即首先统计出待识别文档中每个字的位置信息和字号信息；然后，根据位置信息计算出文档中每行第一个字的行、列坐标，每行最后一个字的行、列坐标，得到其位置特征；然后，根据字号信息计算文档中每个字的宽度和高度并统计出每行文字的宽度中位数和高度中位数，得到其字体特征；最后，利用自然语言处理技术对待识别文档进行分词，根据每个字在文档中的语义将待识别文档数据转换为语义向量。

本申请的基于机器学习和自然语言处理的段落自动识别系统，包括文档结构解码模块、文档格式转换模块、特征提取模块、机器学习模块和段落识别模块，所述特征提取模块由位置特征计算模块、字体特征计算模块和自然语言处理模块构成。

所述文档结构解码模块用于解码学习样本或测试样本的文档结构，并保存其段落信息。

所述文档格式转换模块用于转换学习样本或测试样本的文档格式并统计出文档中所有字的位置信息和字号信息。

所述位置特征计算模块用于计算待识别文档、或格式转换后的学习样本或测试样本的位置特征。

所述字体特征计算模块用于计算待识别文档、或格式转换后的学习样本或测试样本的字体特征。

所述机器学习模块用于对学习样本和测试样本的位置特征、字体特征和语义特征进行学习，生成段落识别模型。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于机器学习和自然语言处理的段落自动识别方法，其特征在于，包括以下步骤：

S1，获取学习样本；

S2，提取学习样本的位置特征、字体特征、语义特征；

S4，提取待识别文档的位置特征、字体特征、语义特征；

2.根据权利要求1所述的基于机器学习和自然语言处理的段落自动识别方法，其特征在于，所述学习样本为带有结构信息的文档；

S23，根据位置信息计算学习样本的位置特征；

S24，根据字号信息计算学习样本的字体特征；

3.根据权利要求2所述的基于机器学习和自然语言处理的段落自动识别方法，其特征在于，所述位置特征包括文档中每行第一个字的行、列坐标，每行最后一个字的行、列坐标。

4.根据权利要求2所述的基于机器学习和自然语言处理的段落自动识别方法，其特征在于，所述步骤S24中根据字号信息计算学习样本的字体特征的具体步骤为：

5.根据权利要求1所述的基于机器学习和自然语言处理的段落自动识别方法，其特征在于，所述步骤S3和步骤S4之间还包括步骤：

6.根据权利要求1所述的基于机器学习和自然语言处理的段落自动识别方法，其特征在于，当学习样本为专用文档时，机器学习模型采用梯度提升决策树机器学习模型；

7.根据权利要求1所述的基于机器学习和自然语言处理的段落自动识别方法，其特征在于，所述待识别文档为不含结构信息的通用文档。

8.一种基于机器学习和自然语言处理的段落自动识别系统，其特征在于，包括文档结构解码模块、文档格式转换模块、特征提取模块、机器学习模块和段落识别模块；

9.根据权利要求8所述的基于机器学习和自然语言处理的段落自动识别系统，其特征在于，所述特征提取模块包括位置特征计算模块、字体特征计算模块和自然语言处理模块，