CN107784099A

CN107784099A - 一种自动生成中文新闻摘要的方法

Info

Publication number: CN107784099A
Application number: CN201711000116.5A
Authority: CN
Inventors: 尹青山; 段成德; 于治楼
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2017-10-24
Filing date: 2017-10-24
Publication date: 2018-03-09

Abstract

本发明公开一种自动生成中文新闻摘要的方法，涉及数据深度处理领域；对中文新闻进行预处理，构建语料库，使用word2vec向量化，并使用seq2seq+attention模型对新闻文本训练，使用ROUGE评价并生产摘要。使新闻信息以自动摘要的方式对新闻的主要内容进行抽取，形成简短的容易理解的摘要形式，帮助人们从海量的新闻文本中找到有价值的信息。

Description

一种自动生成中文新闻摘要的方法

技术领域

本发明公开一种自动生成中文新闻摘要的方法，涉及数据深度处理领域。

背景技术

随着互联网的普及、以及信息获取途径的增加，每天都会不断涌现海量新闻信息。若筛选新闻信息使用整篇文本阅读的方式，十分费时费力。

本发明公开了一种自动生成中文新闻摘要的方法，对中文新闻进行预处理，构建语料库，使用word2vec向量化，并使用seq2seq+ attention模型对新闻文本训练，使用ROUGE评价并生产摘要。使新闻信息以自动摘要的方式对新闻的主要内容进行抽取，形成简短的容易理解的摘要形式，帮助人们从海量的新闻文本中找到有价值的信息。

Seq2Seq 于 2013年、2014 年被多位学者共同提出，在机器翻译任务中取得了非常显著的效果，随后提出的 attention 模型更是将 Seq2Seq推上了神坛，利用Seq2Seq+attention 的组合可以训练出应用良好的模型。除了应用在机器翻译任务中，其他文本生成任务也可以基于 Seq2Seq 模型来做。

word2vec是google 推出的开源工具。简单的说，它在给定的语料库上训练一个模型，然后会输出所有出现在语料库上的单词的向量表示，这个向量称为"word embedding"。基于这个向量表示，可以计算词与词之间的关系，例如相似性等。

发明内容

本发明针对现有技术的问题，提供一种自动生成中文新闻摘要的方法，使用自动摘要的方式将新闻的主要内容进行抽取，形成简短的容易理解的摘要形式，帮助人们从海量的新闻文本中找到有价值的信息。

本发明提出的具体方案是：

一种自动生成中文新闻摘要的方法：

对新闻文本进行预处理，构建中文新闻语料库；

使用中文新闻语料库对需生成摘要的新闻文本进行处理，再使用word2vec对处理后的新闻文本进行训练，将文本转换为向量的形式；

将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型，使用ROUGE评价并生成摘要。

所述的方法中使用中文新闻语料库对需生成摘要的新闻文本进行分词并将汉字转换为数字序列，标记<EOS>表示句子结尾。

所述的方法将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型,其中decoder使用RNN-based模型，encoder使用CNN-based + attention模型。

所述的方法对新闻文本进行去除停用词及标点的预处理，构建中文新闻语料库。

所述的方法中按照新闻文本中常用词语及其同义词构建中文常用词语语料库，按照新闻文本中近期网络较热门词语及短语构建中文热门词语语料库。

本发明的有益之处是：

本发明提供一种自动生成中文新闻摘要的方法：

对新闻文本进行预处理，构建中文新闻语料库；使用中文新闻语料库对需生成摘要的新闻文本进行预处理，再使用word2vec对处理后的新闻文本进行训练，将文本转换为向量的形式；将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型，使用ROUGE评价并生成摘要；

利用本发明方法对中文新闻进行预处理，构建语料库，使用word2vec向量化，并使用seq2seq+ attention模型对新闻文本训练，使用ROUGE评价并生产摘要，使新闻信息以自动摘要的方式对新闻的主要内容进行抽取，形成简短的容易理解的摘要形式，帮助人们从海量的新闻文本中找到有价值的信息。

附图说明

图1是Seq2Seq 模型图。

图2是本发明方法流程示意图。

具体实施方式

本发明提供一种自动生成中文新闻摘要的方法：

对新闻文本进行预处理，构建中文新闻语料库；使用中文新闻语料库对需生成摘要的新闻文本进行预处理，再使用word2vec对处理后的新闻文本进行训练，将文本转换为向量的形式；将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型，使用ROUGE评价并生成摘要。

结合附图及具体实施方案，对本发明做进一步说明。

利用本发明方法，具体步骤为：

使用python的jieba函数库对中文新闻文本进行分词并去除停用词，标点等；

按照新闻文本中常用词语及其同义词构建中文常用词语语料库，按照新闻文本中近期网络较热门词语及短语构建中文热门词语语料库等等；

使用上述中文新闻语料库对需生成摘要的新闻文本进行分词并将汉字转换为数字序列，标记<EOS>表示句子结尾；

处理大量新闻文本，使用word2vec对处理后的新闻文本进行训练，将文本转换为向量的形式；

将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型,其中decoder使用RNN-based模型，encoder使用CNN-based + attention模型；

使用ROUGE对生成的摘要进行评价，

生成摘要。

利用上述本发明方法可对大量中文新闻生产摘要，使新闻信息以自动摘要的方式对新闻的主要内容进行抽取，形成简短的容易理解的摘要形式，帮助人们从海量的新闻文本中找到有价值的信息。

Claims

1.一种自动生成中文新闻摘要的方法，其特征是

对新闻文本进行预处理，构建中文新闻语料库；

2.根据权利要求1所述的方法，其特征是使用中文新闻语料库对需生成摘要的新闻文本进行分词并将汉字转换为数字序列，标记<EOS>表示句子结尾。

3.根据权利要求1或2所述的方法，其特征是将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型,其中decoder使用RNN-based模型，encoder使用CNN-based + attention模型。

4.根据权利要求3所述的方法，其特征是对新闻文本进行去除停用词及标点的预处理，构建中文新闻语料库。

5.根据权利要求1或4所述的方法，其特征是按照新闻文本中常用词语及其同义词构建中文常用词语语料库，按照新闻文本中近期网络较热门词语及短语构建中文热门词语语料库。