CN110287478B

CN110287478B - 一种基于自然语言处理技术的机器写作系统

Info

Publication number: CN110287478B
Application number: CN201910400862.6A
Authority: CN
Inventors: 梁守志; 熊晓明; 郑欣
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2023-05-23
Anticipated expiration: 2039-05-15
Also published as: CN110287478A

Abstract

本发明公开了一种基于自然语言处理技术的机器写作系统，包括预处理模块、数据装载模块、语言模型和主模块，其中：所述预处理模块主要对文本数据进行预处理，包括词汇分割和词汇编号过程；所述数据装载模块主要工作是将预处理过的文本数据进行进一步封装处理，包括数据类型转换和批量数据产生步骤；经过封装后的每个批次的数据可输入到语言模型进行训练；所述语言模型主要用于学习文本数据中的语言规律，并产生下一个预测词的编码；所述主模块的主要工作是综合上述各个模块的功能，设计损失函数和优化方法，并完成模型的训练工作；本发明具有使用的技术少且简单、专用性强、维护成本低等优点。

Description

一种基于自然语言处理技术的机器写作系统

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于自然语言处理技术的机器写作系统。

背景技术

自2017年DeepMind的优秀作品AlphaGo以4:1的巨大优势击败韩国职业围棋九段选手李世石，人工智能一词便迅速火爆全球。一时间，各种依托人工智能技术的成果不断涌现，如图像识别、语音识别、机器写作等；以至于，2017年被华尔街时报，福布斯和财富杂志称为“AI(人工智能)元年”，人工智能正在离我们的生活越来越近，相信将来会给我们的生活带来更多的便利。

机器写作，顾名思义就是让机器像人类一样会写文章，当中涉及到很多技术难题，如机器如何学会认字、如何判断一句话的情感、如何写出符合人类认知习惯的好文章等；国内最具代表性的是百度智能写作机器人，其整体是基于大数据分析、内容理解和自然语言生成等技术得以实现，其基本创作流程主要分为数据采集、数据分析、自动写稿、审核签发等环节；其中自动写稿部分通常还包括文档规划、围观规划和表层实现三个阶段，分别解决稿件写什么、怎么写以及如何润色呈现的问题；但是，从整体来看，百度智能写作机器人存在使用的技术繁多且复杂、专用性不强、维护成本高等问题。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于词汇分割、词向量编码、Long Short Term Memory(LSTM)模型、神经网络等技术的基于自然语言处理技术的机器写作系统。

本发明的目的通过下述技术方案实现：

一种基于自然语言处理技术的机器写作系统，包括预处理模块、数据装载模块、语言模型和主模块，其中：

所述预处理模块主要对文本数据进行预处理，包括词汇分割和词汇编号过程；

所述数据装载模块主要工作是将预处理过的文本数据进行进一步封装处理，包括数据类型转换和批量数据产生步骤；经过封装后的每个批次的数据可输入到语言模型进行训练；

所述语言模型主要用于学习文本数据中的语言规律，并产生下一个预测词的编码；

所述主模块的主要工作是综合上述各个模块的功能，设计损失函数和优化方法，并完成模型的训练工作。

优选地，所述预处理模块中，主要的工作是将文本数据中的文字分割出来并对每个文字进行初步编号；具体就是使用条件表达式从中滤除掉无意义的标点符号、空格符、回车符，并对分割出来的词汇按顺序进行编号，在此过程中会产生两个字典，分别是(word_to_id)词汇到编号字典和(id_to_word)编号到词汇字典，这两个字典在后续的模块中将会被使用。

优选地，所述数据装载模块中，主要的任务是将在预处理模块中产生的词汇编码序列由原来的一维数组转换成二维数组形式，并分批次产生张量数据；具体来说就是将预处理模块产生的词汇编码序列先由原来的一维数组转换为二维数组，然后在迭代过程中，每次从二维数组中读取固定数量的行向量并转化为张量类型，提供给下一个模块使用，每次取的数据量称为一个批次。

优选地，所述语言模型主要包含两个部分，LSTM模型和FCN网络；LSTM网络主要负责处理词向量序列的长依赖关系，能够有效防止因长依赖关系造成的梯度消失和梯度爆炸问题，并对词向量序列进行建模，学习词向量序列中的语言规律；FCN网络主要是对LSTM模型的输出进行进一步处理，产生下一个预测词的编码，以便跟真实词的编码进行对比，并计算预测词和真实词的误差，也称为损失，然后利用反向转播(Backpropagation，BP)算法对整个网络的参数值进行更新。

优选地，所述主模块中，主要的操作就是综合各个模块的功能，设计损失函数(loss function)并选择合适的优化算法(Optimization Algorithm)，对网络进行训练和优化；具体来说，就是选择交叉熵函数作为损失函数，选择Adam算法为优化算法，然后迭代地训练语言模型，训练完成后，将模型数据保存到本地文件，以供测试阶段使用。

本发明与现有技术相比具有以下的有益效果：

(1)本发明的词汇分割方式简单、灵活、高效；

(2)本发明的词向量编码方式简单、高效；

(3)本发明使用小量级数据，训练周期短；

(4)本发明使用同种风格的文本数据集进行训练，系统的专用性强，效果好；

(5)本发明可同时训练多个针对不同风格文本的模型，测试时可随意切换模型，灵活性高。

附图说明

图1为本发明的结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，一种基于自然语言处理技术的机器写作系统，包括预处理模块、数据装载模块、语言模型和主模块，其中：

所述预处理模块中，主要的工作是将文本数据中的文字分割出来并对每个文字进行初步编号；具体就是使用条件表达式从中滤除掉无意义的标点符号、空格符、回车符，并对分割出来的词汇按顺序进行编号，在此过程中会产生两个字典，分别是(word_to_id)词汇到编号字典和(id_to_word)编号到词汇字典，这两个字典在后续的模块中将会被使用。

所述数据装载模块中，主要的任务是将在预处理模块中产生的词汇编码序列由原来的一维数组转换成二维数组形式，并分批次产生张量数据；具体来说就是将预处理模块产生的词汇编码序列先由原来的一维数组转换为二维数组，然后在迭代过程中，每次从二维数组中读取固定数量的行向量并转化为张量类型，提供给下一个模块使用，每次取的数据量称为一个批次。

所述语言模型主要包含两个部分，LSTM模型和FCN网络；LSTM网络主要负责处理词向量序列的长依赖关系，能够有效防止因长依赖关系造成的梯度消失和梯度爆炸问题，并对词向量序列进行建模，学习词向量序列中的语言规律；FCN网络主要是对LSTM模型的输出进行进一步处理，产生下一个预测词的编码，以便跟真实词的编码进行对比，并计算预测词和真实词的误差，也称为损失，然后利用反向转播(Back propagation，BP)算法对整个网络的参数值进行更新。

所述主模块中，主要的操作就是综合各个模块的功能，设计损失函数(lossfunction)并选择合适的优化算法(Optimization Algorithm)，对网络进行训练和优化；具体来说，就是选择交叉熵函数作为损失函数，选择Adam算法为优化算法，然后迭代地训练语言模型，训练完成后，将模型数据保存到本地文件，以供测试阶段使用。

分模块的处理流程使得各部分的功能既相对独立又紧密联系，方便在调试过程中，单独调试各个模块，而不会相互影响，这使得调试和维护变得非常简单和方便。

本发明一种基于自然语言处理技术的机器写作系统，其使用条件表达式筛选出文本文档中的文字并去除标点符号和无意义的空格符、回车符等；接着利用词向量编码技术对筛选出来的每个词编码成固定长度的向量；紧接着将编码好的词向量按批次输入LSTM模型进行训练，并将LSTM模型的输出传入全连接神经网络(Fully Connected Network，FCN)进行预测词的生成；训练完成后，可将模型保存到本地文件夹，需要使用时仅需加载模型参数即可进行文章写作工作。本发明的主要创新点在于：(1)使用条件表达式筛选和分割词；(2)采用随机词典构建词向量；(3)采用LSTM模型+FCN网络作为语言模型；(4)使用专用数据集进行训练，模型专用性强，准确率高。

本发明的词汇分割方式简单、灵活、高效；词向量编码方式简单、高效；使用小量级数据，训练周期短；使用同种风格的文本数据集进行训练，系统的专用性强，效果好；可同时训练多个针对不同风格文本的模型，测试时可随意切换模型，灵活性高；具有使用的技术少且简单、专用性强、维护成本低等优点。

上述为本发明较佳的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于自然语言处理技术的机器写作系统，其特征在于，包括预处理模块、数据装载模块、语言模型和主模块，其中：

所述预处理模块对文本数据进行预处理，包括词汇分割和词汇编号过程；

所述数据装载模块的工作是将预处理过的文本数据进行进一步封装处理，包括数据类型转换和批量数据产生步骤；经过封装后的每个批次的数据可输入到语言模型进行训练；

所述语言模型用于学习文本数据中的语言规律，并产生下一个预测词的编码；

所述主模块的工作是综合各个模块的功能，设计损失函数和优化方法，并完成模型的训练工作；

所述预处理模块的工作是将文本数据中的文字分割出来并对每个文字进行初步编号；具体就是使用条件表达式从中滤除掉无意义的标点符号、空格符、回车符，并对分割出来的词汇按顺序进行编号，在此过程中会产生两个字典，分别是词汇到编号字典和编号到词汇字典，这两个字典在后续的模块中将会被使用；

所述数据装载模块的任务是将在预处理模块中产生的词汇编码序列由原来的一维数组转换成二维数组形式，并分批次产生张量数据；具体来说就是将预处理模块产生的词汇编码序列先由原来的一维数组转换为二维数组，然后在迭代过程中，每次从二维数组中读取固定数量的行向量并转化为张量类型，提供给下一个模块使用，每次取的数据量称为一个批次；

所述语言模型包含两个部分，LSTM模型和FCN网络；LSTM网络负责处理词向量序列的长依赖关系，能够有效防止因长依赖关系造成的梯度消失和梯度爆炸问题，并对词向量序列进行建模，学习词向量序列中的语言规律；FCN网络是对LSTM模型的输出进行进一步处理，产生下一个预测词的编码，以便跟真实词的编码进行对比，并计算预测词和真实词的误差，也称为损失，然后利用反向转播算法对整个网络的参数值进行更新。

2.根据权利要求1所述的基于自然语言处理技术的机器写作系统，其特征在于，所述主模块的操作就是综合各个模块的功能，设计损失函数并选择合适的优化算法，对网络进行训练和优化；具体来说，就是选择交叉熵函数作为损失函数，选择Adam算法为优化算法，然后迭代地训练语言模型，训练完成后，将模型数据保存到本地文件，以供测试阶段使用。