CN111401004B

CN111401004B - 一种基于机器学习的文章断句方法

Info

Publication number: CN111401004B
Application number: CN202010232911.2A
Authority: CN
Inventors: 李鑫; 沈伟; 鲍琦
Original assignee: Suzhou Machine Digital Core Micro Technology Co ltd
Current assignee: Hefei Jiqian Quantum Technology Co ltd
Priority date: 2020-03-28
Filing date: 2020-03-28
Publication date: 2023-12-22
Anticipated expiration: 2040-03-28
Also published as: CN111401004A

Abstract

本发明提出的一种基于机器学习的文章断句方法，首先获取文本中的分隔符号，提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记；将文本的特征标记输入预设的切分模型，通过切分模型从特征标记中筛选有效分隔符合并输出；然后根据有效分割符号获得文本断句结果。本发明中，切分模型的输入为特征标记，特征标记的提取简化了切分模型对待断句文本的前期处理，使得切分模型的输入更加简洁并具有针对性，从而提高了断句效率。本发明向开发者和科研人员提供了相应的工具对化学专业领域的文档进行分句以保证数据处理后续步骤的顺利运行。

Description

一种基于机器学习的文章断句方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于机器学习的文章断句方法。

背景技术

随着统计分析在化学研究中越来越多的应用，化学科研数据的采集整理愈加重要，化学科研数据及相关信息主要存储于文本文件中，从文本文件中将科研数据相关信息提取出来就需要应用自然语言处理的相关技术。分句(句子边界检测)将完整的长文本信息切分成单个句子，是很多自然语言处理任务数据处理的优先步骤。分句阶段的误差将直接传递到后续的数据处理步骤中并被逐渐放大,所以为了自然语言处理的一些下游任务在化学信息学的成功实施,例如信息抽取,抽取相关化学物质的属性，实验性质以及应用信息.优秀的分句工具必不可少。

发明内容

基于背景技术存在的技术问题，本发明提出了一种基于机器学习的文章断句方法。

本发明提出的一种基于机器学习的文章断句方法，首先获取文本中的分隔符号，提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记；将文本的特征标记输入预设的切分模型，通过切分模型从特征标记中筛选有效分隔符合并输出；然后根据有效分割符号获得文本断句结果。

优选的，特征标记的获取方法具体包括：

读取文本，以标示句子结尾的符号作为句子结尾符号，使用正则找到文本中出现句子结尾符号的位置作为句子边界位置；

通过分词工具对各句子结尾符号相邻两侧语句进行切分，获得各句子结尾符号相邻两侧的词语作为边界邻近词语；

组合句子边界位置和对应的边界邻近词语形成特征标记。

优选的，寻找句子边界位置时，首先对文本中用于标示句子结尾的符号进行统一。

优选的，通过二元平均感知器对文本进行学习，以获取边界邻近词语。

优选的，切分模型的训练方式包括：首先获得文本样本，并将文本样本人工标注断句结果；提取各文本样本的特征标记，然后抽取部分文本样本作为训练样本，根据训练样本对应的人工标注和特征标记训练切分模型；再将另一部分文本样本作为修正样本，将修正样本的特征标记输入切分模型获取模型断句结果，再通过修正样本对应的人工标注和模型断句结果的对比，对切分模型进行验证；然后对切分模型进行循环训练，直至验证通过。

本发明提出的一种基于机器学习的文章断句方法，通过切分模型实现文本断句。切分模型通过机器学习训练获得，如此，保证了断句的准确度和效率。

本发明中，切分模型的输入为特征标记，特征标记的提取简化了切分模型对待断句文本的前期处理，使得切分模型的输入更加简洁并具有针对性，从而提高了断句效率。

本发明向开发者和科研人员提供了相应的工具对化学专业领域的文档进行分句以保证数据处理后续步骤的顺利运行。

附图说明

图1为本发明提出的一种基于机器学习的文章断句方法流程图；

图2为特征标记的获取方法流程图。

具体实施方式

参照图1，本发明提出的一种基于机器学习的文章断句方法，首先获取文本中的分隔符号，提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记；将文本的特征标记输入预设的切分模型，通过切分模型从特征标记中筛选有效分隔符合并输出；然后根据有效分割符号获得文本断句结果。具体的，本实施方式可用于纯文本或者PDF格式的文本。

本实施方式中，切分模型通过机器学习训练获得，如此，通过切分模型对文本进行断句，保证了断句的准确度和效率。

具体的，本实施方式中，切分模型的训练方式包括：首先获得文本样本，并将文本样本人工标注断句结果；提取各文本样本的特征标记，然后抽取部分文本样本作为训练样本，根据训练样本对应的人工标注和特征标记训练切分模型；再将另一部分文本样本作为修正样本，将修正样本的特征标记输入切分模型获取模型断句结果，再通过修正样本对应的人工标注和模型断句结果的对比，对切分模型进行验证；然后对切分模型进行循环训练，直至验证通过。

具体的，本实施方式中，通过修正样本对应的人工标注和模型断句结果的重合率对切分模型进行验证，如果重合率达到要求，则固定切分模型；反之，则更新训练样本和修正样本，对切分模型进行循环训练。

具体实施时，本实施方式中，考虑普通词语和领域内专业词汇特点，可以根据具体内容训练专用模型来进行分句处理。考虑不同专业领域文本特点的差异可以使用针对领域内文本分句的模型训练以提高对特定领域文本分句的准确度。模型一旦训练完成就可以存储于特定位置以备循环使用。

本实施方式中，为了提高切分模型的断句效率，断句对象采用完成分句的纯文本文件，然后通过文本预处理提取文本中的特征标记作为切分模型的输入。

具体的，参照图2，本实施方式中，对文本进行处理时，特征标记的获取方法具体包括以下步骤：

步骤一、读取文本，以标示句子结尾的符号作为句子结尾符号，使用正则找到文本中出现句子结尾符号的位置作为句子边界位置。

本实施方式中，寻找句子边界位置时，首先对文本中用于标示句子结尾的符号进行统一。具体实施时，可在获取文本后，首先将用于标示句子结尾的符号统一为“.”，然后对文本进行分句。

步骤二、通过分词工具对各句子结尾符号相邻两侧语句进行切分，获得各句子结尾符号相邻两侧的词语作为边界邻近词语。具体实施时，本步骤中，通过二元平均感知器对文本进行学习，以获取边界邻近词语。

步骤三、组合句子边界位置和对应的边界邻近词语形成特征标记。具体的，特征标记可记作(P，L，R)，其中，P为句子边界位置，L为P左侧词语，R为P右侧词语。

具体的，本实施方式中，在进行文章断句时，可将文本中提取的特征标记队列化输入切分模型，也可将特征标记逐一输入切分模型。切分模型对各特征标记进行单独识别，通过遍历所有特征标记，完成文章断句。

以上所述，仅为本发明涉及的较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于机器学习的文章断句方法，其特征在于，首先获取文本中的分隔符号，提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记；将文本的特征标记输入预设的切分模型，通过切分模型从特征标记中筛选有效分隔符合并输出；然后根据有效分割符号获得文本断句结果；

特征标记的获取方法具体包括：读取文本，以标示句子结尾的符号作为句子结尾符号，使用正则找到文本中出现句子结尾符号的位置作为句子边界位置；通过分词工具对各句子结尾符号相邻两侧语句进行切分，获得各句子结尾符号相邻两侧的词语作为边界邻近词语；组合句子边界位置和对应的边界邻近词语形成特征标记；

寻找句子边界位置时，首先对文本中用于标示句子结尾的符号进行统一；

通过二元平均感知器对文本进行学习，以获取边界邻近词语；

切分模型的训练方式包括：首先获得文本样本，并将文本样本人工标注断句结果；提取各文本样本的特征标记，然后抽取部分文本样本作为训练样本，根据训练样本对应的人工标注和特征标记训练切分模型；再将另一部分文本样本作为修正样本，将修正样本的特征标记输入切分模型获取模型断句结果，再通过修正样本对应的人工标注和模型断句结果的对比，对切分模型进行验证；然后对切分模型进行循环训练，直至验证通过。