CN107784099A - 一种自动生成中文新闻摘要的方法 - Google Patents
一种自动生成中文新闻摘要的方法 Download PDFInfo
- Publication number
- CN107784099A CN107784099A CN201711000116.5A CN201711000116A CN107784099A CN 107784099 A CN107784099 A CN 107784099A CN 201711000116 A CN201711000116 A CN 201711000116A CN 107784099 A CN107784099 A CN 107784099A
- Authority
- CN
- China
- Prior art keywords
- newsletter archive
- chinese
- news
- trained
- need
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种自动生成中文新闻摘要的方法,涉及数据深度处理领域;对中文新闻进行预处理,构建语料库,使用word2vec向量化,并使用seq2seq+attention模型对新闻文本训练,使用ROUGE评价并生产摘要。使新闻信息以自动摘要的方式对新闻的主要内容进行抽取,形成简短的容易理解的摘要形式,帮助人们从海量的新闻文本中找到有价值的信息。
Description
技术领域
本发明公开一种自动生成中文新闻摘要的方法,涉及数据深度处理领域。
背景技术
随着互联网的普及、以及信息获取途径的增加,每天都会不断涌现海量新闻信息。若筛选新闻信息使用整篇文本阅读的方式,十分费时费力。
本发明公开了一种自动生成中文新闻摘要的方法,对中文新闻进行预处理,构建语料库,使用word2vec向量化,并使用seq2seq+ attention模型对新闻文本训练,使用ROUGE评价并生产摘要。使新闻信息以自动摘要的方式对新闻的主要内容进行抽取,形成简短的容易理解的摘要形式,帮助人们从海量的新闻文本中找到有价值的信息。
Seq2Seq 于 2013年、2014 年被多位学者共同提出,在机器翻译任务中取得了非常显著的效果,随后提出的 attention 模型更是将 Seq2Seq推上了神坛,利用Seq2Seq+attention 的组合可以训练出应用良好的模型。除了应用在机器翻译任务中,其他文本生成任务也可以基于 Seq2Seq 模型来做。
word2vec是google 推出的开源工具。简单的说,它在给定的语料库上训练一个模型,然后会输出所有出现在语料库上的单词的向量表示,这个向量称为"word embedding"。基于这个向量表示,可以计算词与词之间的关系,例如相似性等。
发明内容
本发明针对现有技术的问题,提供一种自动生成中文新闻摘要的方法,使用自动摘要的方式将新闻的主要内容进行抽取,形成简短的容易理解的摘要形式,帮助人们从海量的新闻文本中找到有价值的信息。
本发明提出的具体方案是:
一种自动生成中文新闻摘要的方法:
对新闻文本进行预处理,构建中文新闻语料库;
使用中文新闻语料库对需生成摘要的新闻文本进行处理,再使用word2vec对处理后的新闻文本进行训练,将文本转换为向量的形式;
将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型,使用ROUGE评价并生成摘要。
所述的方法中使用中文新闻语料库对需生成摘要的新闻文本进行分词并将汉字转换为数字序列,标记<EOS>表示句子结尾。
所述的方法将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型,其中decoder使用RNN-based模型,encoder使用CNN-based + attention模型。
所述的方法对新闻文本进行去除停用词及标点的预处理,构建中文新闻语料库。
所述的方法中按照新闻文本中常用词语及其同义词构建中文常用词语语料库,按照新闻文本中近期网络较热门词语及短语构建中文热门词语语料库。
本发明的有益之处是:
本发明提供一种自动生成中文新闻摘要的方法:
对新闻文本进行预处理,构建中文新闻语料库;使用中文新闻语料库对需生成摘要的新闻文本进行预处理,再使用word2vec对处理后的新闻文本进行训练,将文本转换为向量的形式;将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型,使用ROUGE评价并生成摘要;
利用本发明方法对中文新闻进行预处理,构建语料库,使用word2vec向量化,并使用seq2seq+ attention模型对新闻文本训练,使用ROUGE评价并生产摘要,使新闻信息以自动摘要的方式对新闻的主要内容进行抽取,形成简短的容易理解的摘要形式,帮助人们从海量的新闻文本中找到有价值的信息。
附图说明
图1是Seq2Seq 模型图。
图2是本发明方法流程示意图。
具体实施方式
本发明提供一种自动生成中文新闻摘要的方法:
对新闻文本进行预处理,构建中文新闻语料库;使用中文新闻语料库对需生成摘要的新闻文本进行预处理,再使用word2vec对处理后的新闻文本进行训练,将文本转换为向量的形式;将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型,使用ROUGE评价并生成摘要。
结合附图及具体实施方案,对本发明做进一步说明。
利用本发明方法,具体步骤为:
使用python的jieba函数库对中文新闻文本进行分词并去除停用词,标点等;
按照新闻文本中常用词语及其同义词构建中文常用词语语料库,按照新闻文本中近期网络较热门词语及短语构建中文热门词语语料库等等;
使用上述中文新闻语料库对需生成摘要的新闻文本进行分词并将汉字转换为数字序列,标记<EOS>表示句子结尾;
处理大量新闻文本,使用word2vec对处理后的新闻文本进行训练,将文本转换为向量的形式;
将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型,其中decoder使用RNN-based模型,encoder使用CNN-based + attention模型;
使用ROUGE对生成的摘要进行评价,
生成摘要。
利用上述本发明方法可对大量中文新闻生产摘要,使新闻信息以自动摘要的方式对新闻的主要内容进行抽取,形成简短的容易理解的摘要形式,帮助人们从海量的新闻文本中找到有价值的信息。
Claims (5)
1.一种自动生成中文新闻摘要的方法,其特征是
对新闻文本进行预处理,构建中文新闻语料库;
使用中文新闻语料库对需生成摘要的新闻文本进行处理,再使用word2vec对处理后的新闻文本进行训练,将文本转换为向量的形式;
将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型,使用ROUGE评价并生成摘要。
2.根据权利要求1所述的方法,其特征是使用中文新闻语料库对需生成摘要的新闻文本进行分词并将汉字转换为数字序列,标记<EOS>表示句子结尾。
3.根据权利要求1或2所述的方法,其特征是将文本向量输入seq2seq模型对需生成摘要的新闻文本进行训练建立模型,其中decoder使用RNN-based模型,encoder使用CNN-based + attention模型。
4.根据权利要求3所述的方法,其特征是对新闻文本进行去除停用词及标点的预处理,构建中文新闻语料库。
5.根据权利要求1或4所述的方法,其特征是按照新闻文本中常用词语及其同义词构建中文常用词语语料库,按照新闻文本中近期网络较热门词语及短语构建中文热门词语语料库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711000116.5A CN107784099A (zh) | 2017-10-24 | 2017-10-24 | 一种自动生成中文新闻摘要的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711000116.5A CN107784099A (zh) | 2017-10-24 | 2017-10-24 | 一种自动生成中文新闻摘要的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107784099A true CN107784099A (zh) | 2018-03-09 |
Family
ID=61434873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711000116.5A Pending CN107784099A (zh) | 2017-10-24 | 2017-10-24 | 一种自动生成中文新闻摘要的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107784099A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763211A (zh) * | 2018-05-23 | 2018-11-06 | 中国科学院自动化研究所 | 融合蕴含知识的自动文摘方法及系统 |
CN109062937A (zh) * | 2018-06-15 | 2018-12-21 | 北京百度网讯科技有限公司 | 训练描述文本生成模型的方法、生成描述文本的方法及装置 |
CN109766432A (zh) * | 2018-07-12 | 2019-05-17 | 中国科学院信息工程研究所 | 一种基于生成对抗网络的中文摘要生成方法和装置 |
CN110019814A (zh) * | 2018-07-09 | 2019-07-16 | 暨南大学 | 一种基于数据挖掘与深度学习的新闻信息聚合方法 |
CN110413768A (zh) * | 2019-08-06 | 2019-11-05 | 成都信息工程大学 | 一种文章题目自动生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016180270A1 (zh) * | 2015-05-08 | 2016-11-17 | 广州市动景计算机科技有限公司 | 网页分类方法和装置、计算设备以及机器可读存储介质 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106919646A (zh) * | 2017-01-18 | 2017-07-04 | 南京云思创智信息科技有限公司 | 中文文本摘要生成系统及方法 |
-
2017
- 2017-10-24 CN CN201711000116.5A patent/CN107784099A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016180270A1 (zh) * | 2015-05-08 | 2016-11-17 | 广州市动景计算机科技有限公司 | 网页分类方法和装置、计算设备以及机器可读存储介质 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106919646A (zh) * | 2017-01-18 | 2017-07-04 | 南京云思创智信息科技有限公司 | 中文文本摘要生成系统及方法 |
Non-Patent Citations (1)
Title |
---|
不会停的蜗牛: "如何自动生成文本摘要", 《HTTPS://WWW.JIANSHU.COM/P/ABC7E13ABC21》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763211A (zh) * | 2018-05-23 | 2018-11-06 | 中国科学院自动化研究所 | 融合蕴含知识的自动文摘方法及系统 |
CN108763211B (zh) * | 2018-05-23 | 2020-07-31 | 中国科学院自动化研究所 | 融合蕴含知识的自动文摘方法及系统 |
CN109062937A (zh) * | 2018-06-15 | 2018-12-21 | 北京百度网讯科技有限公司 | 训练描述文本生成模型的方法、生成描述文本的方法及装置 |
US11157698B2 (en) | 2018-06-15 | 2021-10-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method of training a descriptive text generating model, and method and apparatus for generating descriptive text |
CN110019814A (zh) * | 2018-07-09 | 2019-07-16 | 暨南大学 | 一种基于数据挖掘与深度学习的新闻信息聚合方法 |
CN110019814B (zh) * | 2018-07-09 | 2021-07-27 | 暨南大学 | 一种基于数据挖掘与深度学习的新闻信息聚合方法 |
CN109766432A (zh) * | 2018-07-12 | 2019-05-17 | 中国科学院信息工程研究所 | 一种基于生成对抗网络的中文摘要生成方法和装置 |
CN109766432B (zh) * | 2018-07-12 | 2021-03-30 | 中国科学院信息工程研究所 | 一种基于生成对抗网络的中文摘要生成方法和装置 |
CN110413768A (zh) * | 2019-08-06 | 2019-11-05 | 成都信息工程大学 | 一种文章题目自动生成方法 |
CN110413768B (zh) * | 2019-08-06 | 2022-05-03 | 成都信息工程大学 | 一种文章题目自动生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107784099A (zh) | 一种自动生成中文新闻摘要的方法 | |
CN111382580B (zh) | 一种面向神经机器翻译的编码器-解码器框架预训练方法 | |
CN104408078B (zh) | 一种基于关键词的中英双语平行语料库构建方法 | |
CN107463553B (zh) | 针对初等数学题目的文本语义抽取、表示与建模方法和系统 | |
CN108804608B (zh) | 一种基于层次attention的微博谣言立场检测方法 | |
JP2006510095A5 (zh) | ||
CN112183058B (zh) | 基于bert句子向量输入的诗词生成方法及装置 | |
CN105225657A (zh) | 多音字标注模板生成方法和装置 | |
Amin et al. | CMS-Intelligent machine translation with adaptation and AI | |
Baxodirovna | ARTISTIC STYLE OF THE WORKS OF ERNEST SETON-THOMPSON | |
Jakubicek et al. | Practical post-editing lexicography with lexonomy and sketch engine | |
CN107967243A (zh) | 一种支持用户自主断句的处理方法 | |
CN108345589A (zh) | 一种全原文参考的在线翻译方法 | |
Arauz et al. | EcoLexiCat: A terminology-enhanced translation tool for texts on the environment | |
CN109344389A (zh) | 一种汉盲对照双语语料库的构建方法和系统 | |
Wassie et al. | A word sense disambiguation model for amharic words using semi-supervised learning paradigm | |
CN103268314A (zh) | 一种获取泰文断句规则的方法及装置 | |
Shah et al. | Designing XML tag based Sindhi language corpus | |
Dimitrova et al. | Bulgarian-Slovak Parallel Corpus | |
Anto et al. | Text to speech synthesis system for English to Malayalam translation | |
Miyagawa et al. | Building Okinawan Lexicon Resource for Language Reclamation/Revitalization and Natural Language Processing Tasks such as Universal Dependencies Treebanking | |
Hill et al. | Introduction (to special issue on Tibetan natural language processing) | |
Ranaivoarison | The Malagasy language in the digital age | |
Lee et al. | Comprehension Analysis on the Discourse Marker Function of English-ly Type Epistemic Stance Adverbials | |
Nowakowski et al. | A proposal for a unified corpus of the Ainu language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180309 |