CN112487134A

CN112487134A - 一种基于极简摘要策略的科技文本问题方法抽取的方法

Info

Publication number: CN112487134A
Application number: CN202011441092.9A
Authority: CN
Inventors: 陆伟; 李鹏程; 张国标; 程齐凯
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-12

Abstract

本发明涉及计算机技术，具体涉及一种基于极简摘要策略的科技文本问题方法抽取的方法，包括获取科技文档数据集；对非结构化文本进行预处理，获取训练语料标签；利用BERT预训练模型对预处理后的文本进行向量化表征；采用Transformer模型搭建seq2seq架构的深度神经网络作为编码器、解码器，生成限定内容与样式的极简摘要；应用词性分析和句法分析算法抽取所生成极简摘要中的问题方法词。该方法包括数据爬取、自然语言处理和深度学习，能够实现大规模的科技文本自动化处理，并从中抽取出具有对应关系的问题词与方法词。

Description

一种基于极简摘要策略的科技文本问题方法抽取的方法

技术领域

本发明属于计算机技术领域，尤其涉及一种基于极简摘要策略的科技文本问题方法抽取的方法。

背景技术

可获取数字图书资源的日益激增，使得信息精准检索和知识快速获取愈发困难。为方便文献的索引和知识的获取，现有符号系统制定了类目繁多的分类标引框架以提高检索效率。然而，以文献为粒度单元的检索策略，无法满足读者们细粒度、导向性的知识获取需求。研究表明，科研人员的信息获取行为往往基于目标和任务驱动,更为关注文献中的问题、方法或结果等特定内容。因此，在理解文本语义信息的基础上实现词汇粒度层面的问题方法抽取，具有重要的理论意义和实践价值。

现有的问题方法抽取研究，多将信息抽取问题转换为机器可解的标签判定问题或分类问题，通过判别词汇或词组是否属于特定类别完成问题方法词的识别。然而，‘人工标注语料+机器学习算法’模式下的问题方法抽取依赖于大规模、高质量的标注语料，训练数据的获取高成本使得模型在性能提升上颇受掣肘。其次，对于涉及多问题、多方法的科技文本，现有方法难以判别问题与方法间的对应关系。

发明内容

针对背景技术存在的问题，本发明提供一种采用极简摘要策略进行科技文本中的问题方法抽取的方法。

为解决上述技术问题，本发明采用如下技术方案：一种基于极简摘要策略的科技文本问题方法抽取的方法，包括以下步骤：

S1.输入科技文档，对非结构化文本进行预处理，得到语料标签；

S2.对预处理后的文本进行多粒度向量化表征；

S3.搭建seq2seq架构的神经网络模型，生成限定内容与样式的极简摘要；

S4.从S3生成的极简摘要中抽取问题词与方法词。

在上述的基于极简摘要策略的科技文本问题方法抽取的方法中，S1的具体实施包括：

S1.1.使用正则表达式去除非结构化文本中的特殊字符；

S1.2.使用NLTK工具包对非结构化文本进行句子切分；

S1.3.归约科技文本中对于问题方法的描述范式，构建字符串匹配模板集，从目标文档中获取训练语料标签。

在上述的基于极简摘要策略的科技文本问题方法抽取的方法中，S2的具体实施包括：使用BERT预训练模型对S1预处理后的文本进行向量化表征，得到含文本语义信息的特征向量。

在上述的基于极简摘要策略的科技文本问题方法抽取的方法中，S3的具体实施包括：

S3.1.采用Transformers模型搭建seq2seq架构的神经网络模型作为编码器，对S2所得特征向量进行编码，生成语义编码向量；

S3.2.将S3.1所得语义编码向量输入多头注意力网络层，输出中间状态向量；

S3.3.采用Transformers模型搭建seq2seq架构的神经网络模型作为解码器，对S3.2所得中间状态向量进行解码操作，生成限定内容与样式的极简摘要。

在上述的基于极简摘要策略的科技文本问题方法抽取的方法中，S4的具体实施包括：使用句法分析和词性分析从S3生成的极简摘要中抽取出问题词和方法词。

与现有技术相比，本发明的有益效果是：采用极简摘要策略实现科技文本中问题与方法的抽取，实现了标注语料的获取和问题方法配对。本发明方法包括数据爬取、自然语言处理和深度学习，能够实现大规模的科技文本自动化处理，并从中抽取出具有对应关系的问题词与方法词。

附图说明

图1为本发明一个实施例一种采用极简摘要策略进行科技文本中的问题方法抽取的方法流程图。

具体实施方式

下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合具体实施例对本发明作进一步说明，但不作为本发明的限定。

本实施例采用极简摘要策略进行科技文本中的问题方法抽取，应用seq2seq架构的神经网络模型，对每一篇目标文本生成样式特定且内容为问题方法描述的极简摘要，最终借助句法分析等算法完成问题词与方法词的抽取。其中，通过归约科技文本中对于问题方法的描述范式，构建相应的字符串匹配模板集，从目标文档中获取模型的训练标签，解决语料的标注问题。通过限定所生成极简摘要的输出样式，进而约束问题与方法之间的对应关系。

本实施例是通过以下技术方案来实现的，一种基于极简摘要策略的科技文本问题方法抽取的方法，包括：

步骤1、输入科技文档，对非结构化文本进行预处理；

步骤2、对文本进行多粒度向量化表征；

步骤3、搭建seq2seq架构的神经网络模型，输入步骤2所得特征向量，生成限定内容与样式的极简摘要；

步骤4、使用句法分析从步骤3生成的极简摘要中抽取出问题词和方法词。

其中，在步骤1中，对结构化的科技文本进行预处理操作，具体过程包括：

步骤11、使用正则表达等规则对文本进行清洗，除去特殊字符；

步骤12、使用NLTK工具对文本进行句子切分；

步骤13、归约科技文本中对于问题方法的描述范式，构建字符串匹配模板集，从目标文档中获取训练语料的标签。

在步骤2中，使用BERT预训练模型对步骤1中文本的预处理结果进行向量化表征，得到富含文本语义信息的特征向量。

其中，在步骤3中，使用Transformer模型搭建seq2seq架构的深度神经网络，输出限定内容与样式的极简摘要，具体过程包括：

步骤31、应用Transformer作为神经网络模型的编码器，对步骤2所得的特征向量进行编码操作，生成语义编码向量；

步骤32、将步骤31的语义编码向量输入多头注意力网络层，输出中间状态向量；

步骤33、应用Transformer作为神经网络模型的解码器，对S32所述的中间状态向量进行解码操作，生成限定内容与样式的极简摘要。

步骤4中，使用句法分析和词性分析从步骤33所得极简摘要中抽取出问题词和方法词。

具体实施时，一种基于极简摘要策略的科技文本问题方法抽取的方法，以基金项目文档，期刊文献，专利文本，会议资料四种数据源为例阐述融合多种数据源，生成学科主题演化过程的方法，包括以下步骤：

一、输入科技文档，对非结构化文本进行预处理，得到语料标签，具体过程包括：

⑴、输入学术论文、科学专著、基金文档、专利文本、会议报告；

⑵、对非结构化文本预处理，使用正则表达式去除文本中的特殊字符，应用NLTK工具包进行分句；

⑶、归约科技文本对于问题方法的描述范式，构建字符串匹配模板集并在目标文档中匹配出对应句子，作为模型训练的语料标签。

二、使用BERT预训练模型对步骤⑵中文本的预处理结果进行向量化表征，得到富含文本语义信息的特征向量。

三、搭建seq2seq架构的神经网络模型，输入步骤二所述特征向量，生成限定内容与样式的极简摘要，具体过程包括：

①搭建seq2seq架构的神经网络模型，应用Transformers模型作为其编码器、解码器；

②在编码器与解码器中添加多头注意力层。

③将步骤二所得特征向量输入神经网络模型，经编码、attention计算和解码后，得到样式特征且内容为问题方法描述的极简摘要。

四、使用句法分析和词性分析从步骤③所得极简摘要中抽取出问题词和方法词。

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于极简摘要策略的科技文本问题方法抽取的方法，其特征是，包括以下步骤：

S2.对预处理后的文本进行多粒度向量化表征；

S4.从S3生成的极简摘要中抽取问题词与方法词。

2.如权利要求1所述的基于极简摘要策略的科技文本问题方法抽取的方法，其特征是，S1的具体实施包括：

S1.1.使用正则表达式去除非结构化文本中的特殊字符；

S1.2.使用NLTK工具包对非结构化文本进行句子切分；

3.如权利要求1所述的基于极简摘要策略的科技文本问题方法抽取的方法，其特征是，S2的具体实施包括：使用BERT预训练模型对S1预处理后的文本进行向量化表征，得到含文本语义信息的特征向量。

4.如权利要求3所述的基于极简摘要策略的科技文本问题方法抽取的方法，其特征是，S3的具体实施包括：

5.如权利要求1所述的基于极简摘要策略的科技文本问题方法抽取的方法，其特征是，S4的具体实施包括：使用句法分析和词性分析从S3生成的极简摘要中抽取出问题词和方法词。