CN110362674B - 一种基于卷积神经网络的微博新闻摘要抽取式生成方法 - Google Patents
一种基于卷积神经网络的微博新闻摘要抽取式生成方法 Download PDFInfo
- Publication number
- CN110362674B CN110362674B CN201910650915.XA CN201910650915A CN110362674B CN 110362674 B CN110362674 B CN 110362674B CN 201910650915 A CN201910650915 A CN 201910650915A CN 110362674 B CN110362674 B CN 110362674B
- Authority
- CN
- China
- Prior art keywords
- abstract
- data set
- text
- content
- news
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于卷积神经网络的微博新闻摘要抽取式生成方法,涉及自然语言处理领域,包括以下步骤:利用数据采集模块抓取微博网站内容作为初始新闻数据集Q;对新闻数据集Q进行处理,得到数据集Q′;构建卷积神经网络对处理后的新闻数据集Q′进行事件元素抽取,得到摘要内容S;利用文本相似度算法和最大边缘相关模型对摘要内容S进一步处理,得到抽取后的摘要文本summary。该方法可以方便新闻工作人员等利用生成的摘要内容进一步快速分析、检索,采用了文本相似度算法去除语义重复内容,并采用了最大边缘相关模型,用以权衡抽取内容的相关性和多样性,得到更加全面、准确的内容摘要。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于卷积神经网络的微博新闻摘要抽取式生成方法。
背景技术
文本自动生成是自然语言处理领域的一个重要研究方向。文本自动生成技术也有着广泛的应用前景,可应用于智能问答、机器翻译等人机交互操作中;另外,文本自动生成系统也可用于实现新闻稿件的自动撰写、图书馆的检索等。
在自然语言处理和人工智能领域,文本自动生成技术已经有了若干有影响力的成果和应用,例如美联社自2014年7月开始已采用新闻写作软件自动撰写新闻稿件来报道公司业绩,这大大减少了记者的工作量。
文本自动生成技术中关键的技术便是文本摘要生成,通过自动分析给定的文档或文档集,摘取其中的要点信息,最终输出一篇短小的摘要。目前的文本摘要方法主要分为两种方法:生成式和抽取式。抽取式主要基于句子抽取,也就是以原文中的句子作为单位进行评估与抽取。第二种是生成式,生成式方法通常需要利用自然语言理解技术对文本进行语法、语义分析,对信息进行融合,利用自然语言生成技术生成新的摘要句子。
现有的技术文献中,发明专利CN201610232659.9提出的基于深度神经网络的摘要生成系统,以及发明专利CN 201811416029.2中提出的基于深度学习和注意力机制的摘要生成系统,均属于生成式。这种生成式的摘要生成方法由于自然语言理解与自然语言生成本身都没有得到很好的解决,生成的摘要中包含了部分关键字,往往无法组成正确的语序,其性能还尽如人意。
发明内容
本发明的目的在于提供一种基于卷积神经网络的微博新闻摘要抽取式生成方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于卷积神经网络的微博新闻摘要抽取式生成方法,包括以下步骤:
S1,利用数据采集模块抓取微博网站内容作为初始新闻数据集Q;
S2,对新闻数据集Q进行处理,得到数据集Q′;
S3,构建卷积神经网络对处理后的新闻数据集Q′进行事件元素抽取,得到摘要内容S;
S4,利用文本相似度算法和最大边缘相关模型对摘要内容S进一步处理,得到抽取后的摘要文本summary。
优选地,步骤S2中对新闻数据集Q进行处理的方式为过滤、同类合并去重,具体包括:
S21,遍历新闻数据集Q的所有样本,去除图片、视频、html标签,得到新闻数据集Qtmp;
优选地,步骤S3具体包括:
其中lj为样本切分后的文本单句cj的标签,lj∈{时间,地点,事件描述,起因,经过,结果},j=1,2,...,K,K为模型数据集单句总数;
S33,构建一个卷积神经网络,记为TextCNN,其中TextCNN网络结构为卷积层、最大池化层、2个全连接层、softmax层;
S35,利用步骤S34中划分好的训练集和验证集对步骤S33中得到的卷积神经网络TextCNN进行训练,得到训练好的网络模型Model;
S36,利用上述步骤S35得到模型Model对步骤S34中的测试集进行摘要抽取,得到仅包括时间、地点、事件描述、经过、起因、结果的文本单句集合,记为摘要内容S。
优选地,步骤S32具体包括:
2).提取词汇表V的Word2Vec特征,得到文本单句c1特征矩阵Fn×m:
其中fi为词汇表V1中第i个词的Word2Vec特征向量,m为特征向量维数,m取值为300;
3).利用步骤1)中得到的权值矩阵δ1和步骤2)得到的特征矩阵Fn×m,得到文本单句c1特征矩阵F':
优选地,步骤S4具体包括:
优选地,步骤S43具体包括:
(2).将上述步骤得到的候选摘要文本s添加到候选摘要集合summary中;
优选地,步骤(1)中采用的公式为:
优选地,步骤S1中的数据采集模块为实时爬虫模块。
本发明的有益效果是:
本发明提出的基于卷积神经网络的微博新闻摘要抽取式生成方法,具有以下优点:
1、本发明提出的基于卷积神经网络的微博新闻摘要抽取式生成方法,对微博新闻内容进行摘要抽取,摘要句子具有更好的可读性,方便新闻工作人员等利用生成的摘要内容进一步快速分析、检索。
2、本发明中的摘要抽取方法,采用了TF-IDF加权的Word2Vec词向量,进一步利用卷积神经网络综合考虑句子的多种特征进行句子重要性的分类,完成对包含新闻六大元素的内容的提取,包括时间、地点、事件描述、经过、起因、结果等六大元素,并进一步完成摘要生成。
3、本发明采用了文本相似度算法去除语义重复内容,并采用了最大边缘相关模型,用以权衡抽取内容的相关性和多样性,得到更加全面、准确的内容摘要。
附图说明
图1是本发明实施例1中摘要抽取式生成方法流程图;
图2是本发明实施例1中卷积神经网络示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
实施例1
本实施例提供一种基于卷积神经网络的微博新闻摘要抽取式生成方法,如图1所示,包括以下步骤:
S1,利用实时爬虫模块抓取微博网站内容作为初始新闻数据集,记为新闻数据集Q={q1,q2,...,qN},其中,qi为新闻数据集中第i个样本,i=1,2,...,N,N为新闻数据集样本总数;
S2,对新闻数据集Q进行过滤、同类合并去重,得到数据集Q′,具体的步骤为:
S21,遍历新闻数据集Q的所有样本,去除图片、视频、html标签,得到新闻数据集Qtmp;
S3,构建卷积神经网络对处理后的新闻数据集Q′进行事件元素抽取,得到摘要内容S,具体步骤如下:
其中lj为样本切分后的文本单句cj的标签,lj∈{时间,地点,事件描述,起因,经过,结果},j=1,2,...,K,K为模型数据集单句总数;
2).提取词汇表V的Word2Vec特征,得到文本单句c1特征矩阵Fn×m:
其中fi为词汇表V1中第i个词的Word2Vec特征向量,m为特征向量维数,m取值为300;
3).利用步骤1)中得到的权值矩阵δ1和步骤2)得到的特征矩阵Fn×m,得到文本单句c1特征矩阵F':
S33,构建一个卷积神经网络,如图2所示,记为TextCNN,其中TextCNN网络结构为卷积层、最大池化层、2个全连接层、softmax层;
本实施例中的卷积层中卷积核共256个,卷积核尺寸为5,激活函数为Relu函数,全连接层神经元为128个,学习率0.001,随机失活率为0.5;
S35,利用步骤S34中划分好的训练集和验证集对步骤S33中得到的卷积神经网络TextCNN进行训练,得到训练好的网络模型Model;
S36,利用上述步骤S35得到模型Model对步骤S34中的测试集进行摘要抽取,得到仅包括时间、地点、事件描述、经过、起因、结果的文本单句集合,记为摘要内容S。
S4,利用文本相似度算法和最大边缘相关模型对摘要内容S进一步处理,得到抽取后的摘要文本summary,步骤S4具体包括:
步骤S43具体包括:
(2).将上述步骤得到的候选摘要文本s添加到候选摘要集合summary中;
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
1、本发明提出的基于卷积神经网络的微博新闻摘要抽取式生成方法,对微博新闻内容进行摘要抽取,摘要句子具有更好的可读性,方便新闻工作人员等利用生成的摘要内容进一步快速分析、检索。
2、本发明中的摘要抽取方法,采用了TF-IDF加权的Word2Vec词向量,进一步利用卷积神经网络综合考虑句子的多种特征进行句子重要性的分类,完成对包含新闻六大元素的内容的提取,包括时间、地点、事件描述、经过、起因、结果六大元素,并进一步完成摘要生成。
3、本发明采用了文本相似度算法去除语义重复内容,并采用了最大边缘相关模型,用以权衡抽取内容的相关性和多样性,得到更加全面、准确的内容摘要。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (2)
1.一种基于卷积神经网络的微博新闻摘要抽取式生成方法,其特征在于,包括以下步骤:
S1,利用数据采集模块抓取微博网站内容作为初始新闻数据集Q;
S2,对新闻数据集Q进行处理,得到数据集Q′;
S3,构建卷积神经网络对处理后的新闻数据集Q′进行事件元素抽取,得到摘要内容S;
S4,利用文本相似度算法和最大边缘相关模型对摘要内容S进一步处理,得到抽取后的摘要文本summary;
步骤S2中对新闻数据集Q进行处理的方式为过滤、同类合并去重,具体包括:
S21,遍历新闻数据集Q的所有样本,去除图片、视频、html标签,得到新闻数据集Qtmp;
步骤S3具体包括:
其中lj为样本切分后的文本单句cj的标签,lj∈{时间,地点,事件描述,起因,经过,结果},j=1,2,...,K,K为模型数据集单句总数;
S33,构建一个卷积神经网络,记为TextCNN,其中TextCNN网络结构为卷积层、最大池化层、2个全连接层、softmax层;
S35,利用步骤S34中划分好的训练集和验证集对步骤S33中得到的卷积神经网络TextCNN进行训练,得到训练好的网络模型Model;
S36,利用上述步骤S35得到模型Model对步骤S34中的测试集进行摘要抽取,得到仅包括时间、地点、事件描述、经过、起因、结果的文本单句集合,记为摘要内容S;
步骤S32具体包括:
2).提取词汇表V的Word2Vec特征,得到文本单句c1特征矩阵Fn×m:
其中fi为词汇表V1中第i个词的Word2Vec特征向量,m为特征向量维数,m取值为300;
3).利用步骤1)中得到的权值矩阵δ1和步骤2)得到的特征矩阵Fn×m,得到文本单句c1特征矩阵F':
步骤S4具体包括:
步骤S43具体包括:
(2).将上述步骤得到的候选摘要文本s添加到候选摘要集合summary中;
步骤(1)中采用的公式为:
2.根据权利要求1所述的基于卷积神经网络的微博新闻摘要抽取式生成方法,其特征在于,步骤S1中的数据采集模块为实时爬虫模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910650915.XA CN110362674B (zh) | 2019-07-18 | 2019-07-18 | 一种基于卷积神经网络的微博新闻摘要抽取式生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910650915.XA CN110362674B (zh) | 2019-07-18 | 2019-07-18 | 一种基于卷积神经网络的微博新闻摘要抽取式生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110362674A CN110362674A (zh) | 2019-10-22 |
CN110362674B true CN110362674B (zh) | 2020-08-04 |
Family
ID=68221249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910650915.XA Active CN110362674B (zh) | 2019-07-18 | 2019-07-18 | 一种基于卷积神经网络的微博新闻摘要抽取式生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110362674B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110933518B (zh) * | 2019-12-11 | 2020-10-02 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
CN111191413B (zh) * | 2019-12-30 | 2021-11-12 | 北京航空航天大学 | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 |
CN111274776B (zh) * | 2020-01-21 | 2020-12-15 | 中国搜索信息科技股份有限公司 | 一种基于关键词的文章生成方法 |
CN111507090A (zh) * | 2020-02-27 | 2020-08-07 | 平安科技(深圳)有限公司 | 摘要提取方法、装置、设备及计算机可读存储介质 |
CN111639176B (zh) * | 2020-05-29 | 2022-07-01 | 厦门大学 | 一种基于一致性监测的实时事件摘要方法 |
CN111859887A (zh) * | 2020-07-21 | 2020-10-30 | 北京北斗天巡科技有限公司 | 一种基于深度学习的科技新闻自动写作系统 |
TR202022040A1 (tr) * | 2020-12-28 | 2022-07-21 | Sestek Ses Ve Iletisim Bilgisayar Tek San Tic A S | Konu siniflandirmaya duyarli bi̇r meti̇n özetleme başarimi ölçme yöntemi̇ ve bu yöntemi̇ kullanan bi̇r özetleme si̇stemi̇ |
CN112883716B (zh) * | 2021-02-03 | 2022-05-03 | 重庆邮电大学 | 基于主题相关性的推特摘要生成方法 |
CN112906382B (zh) * | 2021-02-05 | 2022-06-21 | 山东省计算中心(国家超级计算济南中心) | 基于图神经网络的政策文本多标签标注方法及系统 |
CN112989031B (zh) * | 2021-04-28 | 2021-08-03 | 成都索贝视频云计算有限公司 | 基于深度学习的广播电视新闻事件要素抽取方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834735B (zh) * | 2015-05-18 | 2018-01-23 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN106055658A (zh) * | 2016-06-02 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 一种针对Twitter文本事件抽取的方法 |
US10706349B2 (en) * | 2017-05-25 | 2020-07-07 | Texas Instruments Incorporated | Secure convolutional neural networks (CNN) accelerator |
CN109977219B (zh) * | 2019-03-19 | 2021-04-09 | 国家计算机网络与信息安全管理中心 | 基于启发式规则的文本摘要自动生成方法及装置 |
-
2019
- 2019-07-18 CN CN201910650915.XA patent/CN110362674B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110362674A (zh) | 2019-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110362674B (zh) | 一种基于卷积神经网络的微博新闻摘要抽取式生成方法 | |
CN110413986B (zh) | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 | |
CN111914558B (zh) | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
Bisandu et al. | Clustering news articles using efficient similarity measure and N-grams | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN108268875B (zh) | 一种基于数据平滑的图像语义自动标注方法及装置 | |
CN107480200A (zh) | 基于词标签的词语标注方法、装置、服务器及存储介质 | |
Zhu et al. | Webpage understanding: an integrated approach | |
CN115718792A (zh) | 一种基于自然语义处理和深度学习的敏感信息提取方法 | |
Hu et al. | Unsupervised software repositories mining and its application to code search | |
CN112131453A (zh) | 一种基于bert的网络不良短文本检测方法、装置及存储介质 | |
CN114861082A (zh) | 一种基于多维度语义表示的攻击性评论检测方法 | |
CN111597423B (zh) | 一种文本分类模型可解释性方法的性能评价方法及装置 | |
CN112685549B (zh) | 融入篇章语义的涉案新闻要素实体识别方法及系统 | |
CN114492425A (zh) | 采用一套领域标签体系将多维度数据打通的方法 | |
Thilagavathi et al. | Document clustering in forensic investigation by hybrid approach | |
CN115017404A (zh) | 基于压缩空间句子选择的目标新闻话题摘要方法 | |
CN110019814B (zh) | 一种基于数据挖掘与深度学习的新闻信息聚合方法 | |
CN113326371A (zh) | 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法 | |
Zeng et al. | Fake news detection by using common latent semantics matching method | |
Jadhav et al. | Unstructured big data information extraction techniques survey: Privacy preservation perspective | |
Souvannavong et al. | Latent semantic indexing for semantic content detection of video shots | |
Labanan et al. | A Study on the Usability of Text Analysis on Web Artifacts for Digital Forensic Investigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |