CN110990385A - 一套基于Sequence2Sequence的自动生成新闻标题的软件 - Google Patents

一套基于Sequence2Sequence的自动生成新闻标题的软件 Download PDF

Info

Publication number
CN110990385A
CN110990385A CN201911176058.0A CN201911176058A CN110990385A CN 110990385 A CN110990385 A CN 110990385A CN 201911176058 A CN201911176058 A CN 201911176058A CN 110990385 A CN110990385 A CN 110990385A
Authority
CN
China
Prior art keywords
model
news
encoder
decoder
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911176058.0A
Other languages
English (en)
Inventor
何正方
欧阳欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming Information Port Media Co Ltd
Original Assignee
Kunming Information Port Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming Information Port Media Co Ltd filed Critical Kunming Information Port Media Co Ltd
Priority to CN201911176058.0A priority Critical patent/CN110990385A/zh
Publication of CN110990385A publication Critical patent/CN110990385A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明专利公开了一套基于Sequence2Sequence的自动生成新闻标题的软件。软件包括模型训练和模型使用两部分。总体而言无论是模型训练还是模型使用,都需要数据清洗和分类。每个分类单独训练,并且每个分类训练好的模型需要单独保存,在新闻标题推理的过程中,首先需要将新闻分类,然后用对应的模型进行推理。简单来说Sequence2Sequence的基本结构主要由编码器(Encoder)和解码器(Decoder)组成,编码和解码都由神经网络实现。编码器负责将输入的原文本编码成一个向量(context),该向量是原文本的一个表征,包含了文本背景。而解码器负责从这个向量提取重要信息、加工剪辑,生成新闻标题。传统的Seq2Seq模型对输入序列X缺乏区分度,因此,本发明专利引入了Attention Mechanism来解决这个问题。

Description

一套基于Sequence2Sequence的自动生成新闻标题的软件
技术领域
本发明专利属于自然语言处理领域,具体是一套基于Sequence2Sequence的自动生成新闻标题的软件。
背景技术
随着近几年文本信息的爆发式增长,人们每天能接触到海量的文本信息,如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动生成新闻标题则提供了一个高效的解决方案。
尽管对自动生成新闻标题有庞大的需求,这个领域的发展却比较缓慢。对计算机而言,生成新闻标题是一件很有挑战性的任务。从一篇新闻生成一份合格摘要,要求计算机在阅读新闻后理解其内容,并根据轻重缓急对内容进行取舍,裁剪和拼接内容,最后生成流畅的标题。因此,自动生成新闻标题需要依靠自然语言处理/理解的相关理论,是近几年来的重要研究方向之一。
自动生成新闻标题通常可分为两类,分别是抽取式和生成式。抽取式新闻标题判断原文本中重要的句子,抽取这些句子成为一个标题。而生成式方法则应用先进的自然语言处理的算法,通过转述、同义替换、句子缩写等技术,生成更凝练简洁的新闻标题。比起抽取式,生成式更接近人归纳新闻标题的过程。历史上,抽取式的效果通常优于生成式。伴随深度神经网络的兴起和研究,基于神经网络的生成式新闻标题得到快速发展,并取得了不错的成绩。
总的来说,本发明专利提供了一套基于神经网络的生成时新闻标题的软件,具体来说是Sequence2Sequence模型。包括:数据收集、清洗,模型构建、训练,部署上线。
发明内容
本发明专利的目的在于提供一套基于Sequence2Sequence的自动生成新闻标题的软件。
软件包括模型训练和模型使用两部分。总体而言无论是模型训练还是模型使用,都需要数据清洗和分类。每个分类单独训练,并且每个分类训练好的模型需要单独保存,在新闻标题推理的过程中,首先需要将新闻分类,然后用对应的模型进行推理。
简单来说Sequence2Sequence的基本结构主要由编码器(Encoder)和解码器(Decoder)组成,编码和解码都由神经网络实现。编码器负责将输入的原文本编码成一个向量(Context),该向量是原文本的一个表征,包含了文本背景。而解码器负责从这个向量提取重要信息、加工剪辑,生成新闻标题。传统的 Sequence2Sequence模型对输入序列X缺乏区分度,因此,本发明专利引入了 AttentionMechanism来解决这个问题。
在整个输入编码和解码的过程中,使用梯度优化算法以及最大似然条件概率为损失函数去进行模型的训练和优化,模型训练引入词嵌入、桶和填充。标题推理采用BeamSearch(束搜索)解码。
附图说明
图1软件架构图;
图2总体模型;
图3循环神经网络;
图4Sequence2Sequence模型;
图5Attention Mechanism;
图中:1-新闻和标题数据收集,2-数据清洗,3-新闻分类,4-构建模型,5- 训练模型,6-保存模型,7-部署模型,8-生成模型。
具体实施方式
下面结合附图对本发明专利作进一步的说明,但不以任何方式对本发明专利加以限制,基于本发明专利教导所作的任何变换或替换,均属于本发明专利的保护范围。
软件架构如附图1所示,总体而言软件分为模型训练和模型使用两部分组成。首先需要说明的是无论是那部分都需要数据清洗和分类,下面对这两部分做详细说明。
在模型训练部分,首先就是数据收集,为了能够将生成的新闻标题错误率减到最低,我们对如何收集数据做以下约定:
①、数据需要按新闻细类别收集,每个类别数据量约5-10万条;
②、数据可以人工收集或者采用爬虫从物联网上的主流媒体爬取数据。
收集的数据的格式如下:
Figure RE-GDA0002386537450000031
当数据收集完成后,为了减少无效字符,提高训练的效率,本专利按照如下两点对数据进行清洗。
①、为了减少词典的长度,所以需要去掉无效字符:
去掉括号内的表情,如【微笑】、【笑哭】
替换日期为DATE,如****年**月**日、****年**月、**月**日
替换链接为URL
替换数字为#
②、为了减少无效填充,需要限制长度:
Lengthtext∈(25,250)
Lengthlabel∈(8,35)
正文的长度规定为25到250字,标题长度规定为8到35字
接下来按照附图2构建模型,生成式神经网络模型的基本结构主要由编码器(Encoder)和解码器(Decoder)组成,编码和解码都由神经网络实现。
编码器负责将输入的原文本编码成一个向量(Context),该向量是原文本的一个表征,包含了文本背景。而解码器负责从这个向量提取重要信息、加工剪辑,生成新闻标题。这套架构称作Sequence-to-Sequence(以下简称Seq2Seq),被广泛应用于存在输入序列和输出序列的场景。
Seq2Seq架构中的编码器和解码器通常由循环神经网络(RNN)实现,RNN 如附图3所示。RNN被称为循环神经网络,是因为它的输出不仅依赖于输入,还依赖上一时刻输出。
如附图3所示,t时刻的输出h不仅依赖t时刻的输入x,还依赖t-1时刻的输出,而t-1的输出又依赖t-1的输入和t-2输出,如此循环,时序上的依赖使 RNN在理论上能在某时刻输出时,考虑到所有过去时刻的输入信息,特别适合时序数据,如文本、语音等。因此,基于RNN实现Seq2Seq架构处理文本任务是一个自然的想法。
典型的基于RNN的Seq2Seq架构如附图4所示,图中展示的是一个用于自动对话的模型,它的编码器和解码器分别由两个RNN组成。图中的向量z编码了输入文本信息(Howare you?),解码器获得这个向量依次解码生成目标文本 (I am fine?)。上述模型也可以自然地用于自动新闻标题任务,这时的输入为新闻文本,输出为新闻标题。
传统的Seq2Seq模型对输入序列X缺乏区分度,因此,本发明专利引入了AttentionMechanism来解决这个问题,模型结构如附图5所示。
在该模型中,定义了一个条件概率:
P(yi|y1,...,yi-1,x)=g(yi-1,si,ci)
其中,si是Decoder中RNN在i时刻的隐状态,如图所示,其计算公式为:
si=f(si-1,yi-1,ci)
这里的背景向量ci的计算方式,与传统的Seq2Seq模型直接累加的计算方式不一样,这里的ci是一个权重化(Weighted)之后的值,其表达式如下所示:
Figure RE-GDA0002386537450000051
其中,i表示Encoder端的第i个词,hj表示Encoder端的第j和词的隐向量, aij表示Encoder端的第j个词与Decoder端的第i个词之间的权值,表示源端第 j个词对目标端第i个词的影响程度,aij的计算公式如下公式所示:
Figure RE-GDA0002386537450000052
eij=a(si-1,hj)
在公式中,aij是一个Softmax模型输出,概率值的和为1。eij表示一个对齐模型,用于衡量Encoder端的位置j个词,对于Decoder端的位置i个词的对齐程度(影响程度),换句话说:Decoder端生成位置i的词时,有多少程度受Encoder 端的位置j的词影响。对齐模型eij的计算方式有很多种,不同的计算方式,代表不同的Attention模型,最简单且最常用的的对齐模型是DotProduct乘积矩阵,即把Target端的输出隐状态ht与Source端的输出隐状态进行矩阵乘。常见的对齐计算方式如下:
Figure RE-GDA0002386537450000061
其中,score得分表示源端与目标单单词对齐程度。常见的对齐关系计算方式有Dot Product、General和Concat三种方式。
当模型构建好后,本专利按照如下的约定训练训练模型。
①、词嵌入
本专利引入词嵌入解决矩阵稀疏性问题,将输入文本映射为300维的向量。首先根据词频统计选取出现频率最高的词汇为ENCODER和DECODER各定义一个词汇表,在本文中设置为60000,没在词汇表中的词都转换成一个“Unknown”字符,然后在训练期间学习词嵌入的权重。
②、桶和填充
本专利应用桶Bucket机制,核心的思想是把输入序列的句子按照长度的相似程度分到不同的固定长度的Bucket里面,长度不够的都添加PAD字符。我们在TensorFlow中使用Bucket的原因主要是为了工程实现的效率,在本文中设置为Bucket:
Buckets=[(20,10),(50,20),(70,20),(100,20),(200,30)]
③、将新闻和标题同时输入到Seq2Seq模型中,其中新闻对应Encoder,标题对应Decoder。整个输入编码和解码的过程中,使用梯度优化算法以及最大似然条件概率为损失函数去进行模型的训练和优化:
Figure RE-GDA0002386537450000062
其中θ为模型的参数,N为训练集的样本个数,(yn,xn)是相应的输出和输入的序列。
在训练模型时(以及已经训练完时),可以得到之前模型没见过的源文章的摘要。这个过程称为推理。在推理时,我们只能访问源句子,执行解码有很多种方法。本专利采用Beam Search(束搜索)解码,Beam Search在做摘要时总是将一小部分顶级候选词留在周围,从而在搜索空间更好地探索所有可能的词汇。Beam的大小称为宽度,在本文中设置为12。
接下来就需要编写脚本,将保存好的模型部署到线上,通过HTTP的POST 方式,将新闻文本发送到服务器,然后通过推理生成新闻标题,并将生成的标题返回。

Claims (7)

1.一套基于Sequence2Sequence的自动生成新闻标题的软件特征在于:软件包括模型训练和模型使用两部分。
2.无论是模型训练还是模型使用,都需要数据清洗和分类。每个分类单独训练,并且每个分类训练好的模型需要单独保存,在新闻标题推理的过程中,首先需要将新闻分类,然后用对应的模型进行推理。
3.数据需要按新闻细类别收集,每个类别数据量约5-10万条,数据包括新闻内容和新闻标题。只要数据具有内容和摘要的数据收集,无论数量多少都在本专利的保护范畴。
4.数据清洗包括去掉无效字符,替换如期、链接、数字为指定字符,同时需要将新闻内容和标题做长度限制,标题的长度小于内容的长度,无论长度的限制的多少都在本专利的保护范畴。
5.模型为Sequence2Sequence和Attention Mechanism。Sequence2Sequence的基本结构主要由编码器(Encoder)和解码器(Decoder)组成,编码和解码都由神经网络实现。编码器负责将输入的原文本编码成一个向量(context),该向量是原文本的一个表征,包含了文本背景。而解码器负责从这个向量提取重要信息、加工剪辑,生成新闻标题。同时,本发明专利引入了Attention Mechanism来提高对输入序列X缺乏区分度。
6.模型训练引入词嵌入、桶和填充,无论词嵌入的维度为多少都在本专利的保护范畴。
7.标题推理采用Beam Search(束搜索)解码,无论Beam的宽度设置为多少都在本专利的保护范畴。
CN201911176058.0A 2019-11-26 2019-11-26 一套基于Sequence2Sequence的自动生成新闻标题的软件 Pending CN110990385A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911176058.0A CN110990385A (zh) 2019-11-26 2019-11-26 一套基于Sequence2Sequence的自动生成新闻标题的软件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911176058.0A CN110990385A (zh) 2019-11-26 2019-11-26 一套基于Sequence2Sequence的自动生成新闻标题的软件

Publications (1)

Publication Number Publication Date
CN110990385A true CN110990385A (zh) 2020-04-10

Family

ID=70087250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911176058.0A Pending CN110990385A (zh) 2019-11-26 2019-11-26 一套基于Sequence2Sequence的自动生成新闻标题的软件

Country Status (1)

Country Link
CN (1) CN110990385A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116483990A (zh) * 2023-04-24 2023-07-25 重庆邮电大学 一种基于大数据的互联网新闻内容自动生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992764A (zh) * 2017-12-29 2019-07-09 阿里巴巴集团控股有限公司 一种文案生成方法及装置
CN110032729A (zh) * 2019-02-13 2019-07-19 北京航空航天大学 一种基于神经图灵机的自动摘要生成方法
CN110297870A (zh) * 2019-05-30 2019-10-01 南京邮电大学 一种金融领域中文新闻标题情感分类方法
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统
CN111241816A (zh) * 2020-01-22 2020-06-05 北京工业大学 一种新闻标题自动生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992764A (zh) * 2017-12-29 2019-07-09 阿里巴巴集团控股有限公司 一种文案生成方法及装置
CN110032729A (zh) * 2019-02-13 2019-07-19 北京航空航天大学 一种基于神经图灵机的自动摘要生成方法
CN110297870A (zh) * 2019-05-30 2019-10-01 南京邮电大学 一种金融领域中文新闻标题情感分类方法
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统
CN111241816A (zh) * 2020-01-22 2020-06-05 北京工业大学 一种新闻标题自动生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李慧等: "《结合注意力机制的新闻标题生成模型》", 《山西大学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116483990A (zh) * 2023-04-24 2023-07-25 重庆邮电大学 一种基于大数据的互联网新闻内容自动生成方法

Similar Documents

Publication Publication Date Title
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN110532554A (zh) 一种中文摘要生成方法、系统及存储介质
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN115952291B (zh) 基于多头自注意力及lstm的金融舆情分类方法及系统
CN111061882A (zh) 一种知识图谱构建方法
CN112215013A (zh) 一种基于深度学习的克隆代码语义检测方法
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
Chen et al. Extractive text-image summarization using multi-modal RNN
CN113268974A (zh) 多音字发音标注方法、装置、设备及存储介质
CN112287672A (zh) 文本意图识别方法及装置、电子设备、存储介质
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN112528653B (zh) 短文本实体识别方法和系统
CN109766523A (zh) 词性标注方法和标注系统
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN117272142A (zh) 一种日志异常检测方法、系统及电子设备
Anjum et al. Exploring Humor in Natural Language Processing: A Comprehensive Review of JOKER Tasks at CLEF Symposium 2023.
Mercan et al. Abstractive text summarization for resumes with cutting edge NLP transformers and LSTM
CN117933258A (zh) 一种命名实体识别方法和系统
Azizah et al. Performance Analysis of Transformer Based Models (BERT, ALBERT, and RoBERTa) in Fake News Detection
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN110990385A (zh) 一套基于Sequence2Sequence的自动生成新闻标题的软件
KR20210146671A (ko) 고객 상담 기록 분석 방법
CN115687939B (zh) 一种基于多任务学习的Mask文本匹配方法及介质
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200410

WD01 Invention patent application deemed withdrawn after publication