CN110287478B - 一种基于自然语言处理技术的机器写作系统 - Google Patents

一种基于自然语言处理技术的机器写作系统 Download PDF

Info

Publication number
CN110287478B
CN110287478B CN201910400862.6A CN201910400862A CN110287478B CN 110287478 B CN110287478 B CN 110287478B CN 201910400862 A CN201910400862 A CN 201910400862A CN 110287478 B CN110287478 B CN 110287478B
Authority
CN
China
Prior art keywords
data
module
word
model
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910400862.6A
Other languages
English (en)
Other versions
CN110287478A (zh
Inventor
梁守志
熊晓明
郑欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910400862.6A priority Critical patent/CN110287478B/zh
Publication of CN110287478A publication Critical patent/CN110287478A/zh
Application granted granted Critical
Publication of CN110287478B publication Critical patent/CN110287478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自然语言处理技术的机器写作系统,包括预处理模块、数据装载模块、语言模型和主模块,其中:所述预处理模块主要对文本数据进行预处理,包括词汇分割和词汇编号过程;所述数据装载模块主要工作是将预处理过的文本数据进行进一步封装处理,包括数据类型转换和批量数据产生步骤;经过封装后的每个批次的数据可输入到语言模型进行训练;所述语言模型主要用于学习文本数据中的语言规律,并产生下一个预测词的编码;所述主模块的主要工作是综合上述各个模块的功能,设计损失函数和优化方法,并完成模型的训练工作;本发明具有使用的技术少且简单、专用性强、维护成本低等优点。

Description

一种基于自然语言处理技术的机器写作系统
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于自然语言处理技术的机器写作系统。
背景技术
自2017年DeepMind的优秀作品AlphaGo以4:1的巨大优势击败韩国职业围棋九段选手李世石,人工智能一词便迅速火爆全球。一时间,各种依托人工智能技术的成果不断涌现,如图像识别、语音识别、机器写作等;以至于,2017年被华尔街时报,福布斯和财富杂志称为“AI(人工智能)元年”,人工智能正在离我们的生活越来越近,相信将来会给我们的生活带来更多的便利。
机器写作,顾名思义就是让机器像人类一样会写文章,当中涉及到很多技术难题,如机器如何学会认字、如何判断一句话的情感、如何写出符合人类认知习惯的好文章等;国内最具代表性的是百度智能写作机器人,其整体是基于大数据分析、内容理解和自然语言生成等技术得以实现,其基本创作流程主要分为数据采集、数据分析、自动写稿、审核签发等环节;其中自动写稿部分通常还包括文档规划、围观规划和表层实现三个阶段,分别解决稿件写什么、怎么写以及如何润色呈现的问题;但是,从整体来看,百度智能写作机器人存在使用的技术繁多且复杂、专用性不强、维护成本高等问题。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于词汇分割、词向量编码、Long Short Term Memory(LSTM)模型、神经网络等技术的基于自然语言处理技术的机器写作系统。
本发明的目的通过下述技术方案实现:
一种基于自然语言处理技术的机器写作系统,包括预处理模块、数据装载模块、语言模型和主模块,其中:
所述预处理模块主要对文本数据进行预处理,包括词汇分割和词汇编号过程;
所述数据装载模块主要工作是将预处理过的文本数据进行进一步封装处理,包括数据类型转换和批量数据产生步骤;经过封装后的每个批次的数据可输入到语言模型进行训练;
所述语言模型主要用于学习文本数据中的语言规律,并产生下一个预测词的编码;
所述主模块的主要工作是综合上述各个模块的功能,设计损失函数和优化方法,并完成模型的训练工作。
优选地,所述预处理模块中,主要的工作是将文本数据中的文字分割出来并对每个文字进行初步编号;具体就是使用条件表达式从中滤除掉无意义的标点符号、空格符、回车符,并对分割出来的词汇按顺序进行编号,在此过程中会产生两个字典,分别是(word_to_id)词汇到编号字典和(id_to_word)编号到词汇字典,这两个字典在后续的模块中将会被使用。
优选地,所述数据装载模块中,主要的任务是将在预处理模块中产生的词汇编码序列由原来的一维数组转换成二维数组形式,并分批次产生张量数据;具体来说就是将预处理模块产生的词汇编码序列先由原来的一维数组转换为二维数组,然后在迭代过程中,每次从二维数组中读取固定数量的行向量并转化为张量类型,提供给下一个模块使用,每次取的数据量称为一个批次。
优选地,所述语言模型主要包含两个部分,LSTM模型和FCN网络;LSTM网络主要负责处理词向量序列的长依赖关系,能够有效防止因长依赖关系造成的梯度消失和梯度爆炸问题,并对词向量序列进行建模,学习词向量序列中的语言规律;FCN网络主要是对LSTM模型的输出进行进一步处理,产生下一个预测词的编码,以便跟真实词的编码进行对比,并计算预测词和真实词的误差,也称为损失,然后利用反向转播(Backpropagation,BP)算法对整个网络的参数值进行更新。
优选地,所述主模块中,主要的操作就是综合各个模块的功能,设计损失函数(loss function)并选择合适的优化算法(Optimization Algorithm),对网络进行训练和优化;具体来说,就是选择交叉熵函数作为损失函数,选择Adam算法为优化算法,然后迭代地训练语言模型,训练完成后,将模型数据保存到本地文件,以供测试阶段使用。
本发明与现有技术相比具有以下的有益效果:
(1)本发明的词汇分割方式简单、灵活、高效;
(2)本发明的词向量编码方式简单、高效;
(3)本发明使用小量级数据,训练周期短;
(4)本发明使用同种风格的文本数据集进行训练,系统的专用性强,效果好;
(5)本发明可同时训练多个针对不同风格文本的模型,测试时可随意切换模型,灵活性高。
附图说明
图1为本发明的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,一种基于自然语言处理技术的机器写作系统,包括预处理模块、数据装载模块、语言模型和主模块,其中:
所述预处理模块主要对文本数据进行预处理,包括词汇分割和词汇编号过程;
所述预处理模块中,主要的工作是将文本数据中的文字分割出来并对每个文字进行初步编号;具体就是使用条件表达式从中滤除掉无意义的标点符号、空格符、回车符,并对分割出来的词汇按顺序进行编号,在此过程中会产生两个字典,分别是(word_to_id)词汇到编号字典和(id_to_word)编号到词汇字典,这两个字典在后续的模块中将会被使用。
所述数据装载模块主要工作是将预处理过的文本数据进行进一步封装处理,包括数据类型转换和批量数据产生步骤;经过封装后的每个批次的数据可输入到语言模型进行训练;
所述数据装载模块中,主要的任务是将在预处理模块中产生的词汇编码序列由原来的一维数组转换成二维数组形式,并分批次产生张量数据;具体来说就是将预处理模块产生的词汇编码序列先由原来的一维数组转换为二维数组,然后在迭代过程中,每次从二维数组中读取固定数量的行向量并转化为张量类型,提供给下一个模块使用,每次取的数据量称为一个批次。
所述语言模型主要用于学习文本数据中的语言规律,并产生下一个预测词的编码;
所述语言模型主要包含两个部分,LSTM模型和FCN网络;LSTM网络主要负责处理词向量序列的长依赖关系,能够有效防止因长依赖关系造成的梯度消失和梯度爆炸问题,并对词向量序列进行建模,学习词向量序列中的语言规律;FCN网络主要是对LSTM模型的输出进行进一步处理,产生下一个预测词的编码,以便跟真实词的编码进行对比,并计算预测词和真实词的误差,也称为损失,然后利用反向转播(Back propagation,BP)算法对整个网络的参数值进行更新。
所述主模块的主要工作是综合上述各个模块的功能,设计损失函数和优化方法,并完成模型的训练工作。
所述主模块中,主要的操作就是综合各个模块的功能,设计损失函数(lossfunction)并选择合适的优化算法(Optimization Algorithm),对网络进行训练和优化;具体来说,就是选择交叉熵函数作为损失函数,选择Adam算法为优化算法,然后迭代地训练语言模型,训练完成后,将模型数据保存到本地文件,以供测试阶段使用。
分模块的处理流程使得各部分的功能既相对独立又紧密联系,方便在调试过程中,单独调试各个模块,而不会相互影响,这使得调试和维护变得非常简单和方便。
本发明一种基于自然语言处理技术的机器写作系统,其使用条件表达式筛选出文本文档中的文字并去除标点符号和无意义的空格符、回车符等;接着利用词向量编码技术对筛选出来的每个词编码成固定长度的向量;紧接着将编码好的词向量按批次输入LSTM模型进行训练,并将LSTM模型的输出传入全连接神经网络(Fully Connected Network,FCN)进行预测词的生成;训练完成后,可将模型保存到本地文件夹,需要使用时仅需加载模型参数即可进行文章写作工作。本发明的主要创新点在于:(1)使用条件表达式筛选和分割词;(2)采用随机词典构建词向量;(3)采用LSTM模型+FCN网络作为语言模型;(4)使用专用数据集进行训练,模型专用性强,准确率高。
本发明的词汇分割方式简单、灵活、高效;词向量编码方式简单、高效;使用小量级数据,训练周期短;使用同种风格的文本数据集进行训练,系统的专用性强,效果好;可同时训练多个针对不同风格文本的模型,测试时可随意切换模型,灵活性高;具有使用的技术少且简单、专用性强、维护成本低等优点。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (2)

1.一种基于自然语言处理技术的机器写作系统,其特征在于,包括预处理模块、数据装载模块、语言模型和主模块,其中:
所述预处理模块对文本数据进行预处理,包括词汇分割和词汇编号过程;
所述数据装载模块的工作是将预处理过的文本数据进行进一步封装处理,包括数据类型转换和批量数据产生步骤;经过封装后的每个批次的数据可输入到语言模型进行训练;
所述语言模型用于学习文本数据中的语言规律,并产生下一个预测词的编码;
所述主模块的工作是综合各个模块的功能,设计损失函数和优化方法,并完成模型的训练工作;
所述预处理模块的工作是将文本数据中的文字分割出来并对每个文字进行初步编号;具体就是使用条件表达式从中滤除掉无意义的标点符号、空格符、回车符,并对分割出来的词汇按顺序进行编号,在此过程中会产生两个字典,分别是词汇到编号字典和编号到词汇字典,这两个字典在后续的模块中将会被使用;
所述数据装载模块的任务是将在预处理模块中产生的词汇编码序列由原来的一维数组转换成二维数组形式,并分批次产生张量数据;具体来说就是将预处理模块产生的词汇编码序列先由原来的一维数组转换为二维数组,然后在迭代过程中,每次从二维数组中读取固定数量的行向量并转化为张量类型,提供给下一个模块使用,每次取的数据量称为一个批次;
所述语言模型包含两个部分,LSTM模型和FCN网络;LSTM网络负责处理词向量序列的长依赖关系,能够有效防止因长依赖关系造成的梯度消失和梯度爆炸问题,并对词向量序列进行建模,学习词向量序列中的语言规律;FCN网络是对LSTM模型的输出进行进一步处理,产生下一个预测词的编码,以便跟真实词的编码进行对比,并计算预测词和真实词的误差,也称为损失,然后利用反向转播算法对整个网络的参数值进行更新。
2.根据权利要求1所述的基于自然语言处理技术的机器写作系统,其特征在于,所述主模块的操作就是综合各个模块的功能,设计损失函数并选择合适的优化算法,对网络进行训练和优化;具体来说,就是选择交叉熵函数作为损失函数,选择Adam算法为优化算法,然后迭代地训练语言模型,训练完成后,将模型数据保存到本地文件,以供测试阶段使用。
CN201910400862.6A 2019-05-15 2019-05-15 一种基于自然语言处理技术的机器写作系统 Active CN110287478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910400862.6A CN110287478B (zh) 2019-05-15 2019-05-15 一种基于自然语言处理技术的机器写作系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910400862.6A CN110287478B (zh) 2019-05-15 2019-05-15 一种基于自然语言处理技术的机器写作系统

Publications (2)

Publication Number Publication Date
CN110287478A CN110287478A (zh) 2019-09-27
CN110287478B true CN110287478B (zh) 2023-05-23

Family

ID=68002428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910400862.6A Active CN110287478B (zh) 2019-05-15 2019-05-15 一种基于自然语言处理技术的机器写作系统

Country Status (1)

Country Link
CN (1) CN110287478B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792543A (zh) * 2021-09-14 2021-12-14 安徽咪鼠科技有限公司 一种写作方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874761A (zh) * 2018-05-31 2018-11-23 阿里巴巴集团控股有限公司 一种智能写作方法和装置
CN109299211A (zh) * 2018-09-21 2019-02-01 广州大学 一种基于Char-RNN模型的文本自动生成方法
CN109522411A (zh) * 2018-11-12 2019-03-26 南京德磐信息科技有限公司 一种基于神经网络的写作辅助方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874761A (zh) * 2018-05-31 2018-11-23 阿里巴巴集团控股有限公司 一种智能写作方法和装置
CN109299211A (zh) * 2018-09-21 2019-02-01 广州大学 一种基于Char-RNN模型的文本自动生成方法
CN109522411A (zh) * 2018-11-12 2019-03-26 南京德磐信息科技有限公司 一种基于神经网络的写作辅助方法

Also Published As

Publication number Publication date
CN110287478A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN111199727B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN109948152A (zh) 一种基于lstm的中文文本语法纠错模型方法
CN106599933A (zh) 一种基于联合深度学习模型的文本情感分类方法
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN109241330A (zh) 用于识别音频中的关键短语的方法、装置、设备和介质
CN109683946B (zh) 一种基于代码克隆技术的用户评论推荐方法
CN111382574B (zh) 一种虚拟现实与增强现实场景下结合句法的语义解析系统
CN111860981B (zh) 一种基于lstm深度学习的企业国民行业类别预测方法及系统
CN109815486A (zh) 自然语言生成方法、装置、设备及可读存储介质
CN112463424A (zh) 一种基于图的端到端程序修复方法
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN110287478B (zh) 一种基于自然语言处理技术的机器写作系统
CN114254645A (zh) 一种人工智能辅助写作系统
Han et al. A-BPS: automatic business process discovery service using ordered neurons LSTM
CN108763198A (zh) 一种生成式的学术论文中相关工作的自动产生方法
CN112036179A (zh) 基于文本分类与语义框架的电力预案信息抽取方法
CA3166556A1 (en) Method and device for generating target advertorial based on deep learning
CN116483314A (zh) 一种自动化智能活动图生成方法
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
CN115495085A (zh) 一种基于深度学习细粒度代码模板的生成方法及装置
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法
CN112464673B (zh) 融合义原信息的语言含义理解方法
CN113239166B (zh) 一种基于语义知识增强的自动化人机互动方法
CN114168720A (zh) 一种基于深度学习的自然语言数据查询方法和存储设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant