CN110362674B - 一种基于卷积神经网络的微博新闻摘要抽取式生成方法 - Google Patents

一种基于卷积神经网络的微博新闻摘要抽取式生成方法 Download PDF

Info

Publication number
CN110362674B
CN110362674B CN201910650915.XA CN201910650915A CN110362674B CN 110362674 B CN110362674 B CN 110362674B CN 201910650915 A CN201910650915 A CN 201910650915A CN 110362674 B CN110362674 B CN 110362674B
Authority
CN
China
Prior art keywords
abstract
data set
text
content
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910650915.XA
Other languages
English (en)
Other versions
CN110362674A (zh
Inventor
滕辉
刘肖萌
龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinaso Information Technology Co ltd
Original Assignee
Chinaso Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinaso Information Technology Co ltd filed Critical Chinaso Information Technology Co ltd
Priority to CN201910650915.XA priority Critical patent/CN110362674B/zh
Publication of CN110362674A publication Critical patent/CN110362674A/zh
Application granted granted Critical
Publication of CN110362674B publication Critical patent/CN110362674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于卷积神经网络的微博新闻摘要抽取式生成方法,涉及自然语言处理领域,包括以下步骤:利用数据采集模块抓取微博网站内容作为初始新闻数据集Q;对新闻数据集Q进行处理,得到数据集Q′;构建卷积神经网络对处理后的新闻数据集Q′进行事件元素抽取,得到摘要内容S;利用文本相似度算法和最大边缘相关模型对摘要内容S进一步处理,得到抽取后的摘要文本summary。该方法可以方便新闻工作人员等利用生成的摘要内容进一步快速分析、检索,采用了文本相似度算法去除语义重复内容,并采用了最大边缘相关模型,用以权衡抽取内容的相关性和多样性,得到更加全面、准确的内容摘要。

Description

一种基于卷积神经网络的微博新闻摘要抽取式生成方法
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于卷积神经网络的微博新闻摘要抽取式生成方法。
背景技术
文本自动生成是自然语言处理领域的一个重要研究方向。文本自动生成技术也有着广泛的应用前景,可应用于智能问答、机器翻译等人机交互操作中;另外,文本自动生成系统也可用于实现新闻稿件的自动撰写、图书馆的检索等。
在自然语言处理和人工智能领域,文本自动生成技术已经有了若干有影响力的成果和应用,例如美联社自2014年7月开始已采用新闻写作软件自动撰写新闻稿件来报道公司业绩,这大大减少了记者的工作量。
文本自动生成技术中关键的技术便是文本摘要生成,通过自动分析给定的文档或文档集,摘取其中的要点信息,最终输出一篇短小的摘要。目前的文本摘要方法主要分为两种方法:生成式和抽取式。抽取式主要基于句子抽取,也就是以原文中的句子作为单位进行评估与抽取。第二种是生成式,生成式方法通常需要利用自然语言理解技术对文本进行语法、语义分析,对信息进行融合,利用自然语言生成技术生成新的摘要句子。
现有的技术文献中,发明专利CN201610232659.9提出的基于深度神经网络的摘要生成系统,以及发明专利CN 201811416029.2中提出的基于深度学习和注意力机制的摘要生成系统,均属于生成式。这种生成式的摘要生成方法由于自然语言理解与自然语言生成本身都没有得到很好的解决,生成的摘要中包含了部分关键字,往往无法组成正确的语序,其性能还尽如人意。
发明内容
本发明的目的在于提供一种基于卷积神经网络的微博新闻摘要抽取式生成方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于卷积神经网络的微博新闻摘要抽取式生成方法,包括以下步骤:
S1,利用数据采集模块抓取微博网站内容作为初始新闻数据集Q;
S2,对新闻数据集Q进行处理,得到数据集Q′;
S3,构建卷积神经网络对处理后的新闻数据集Q′进行事件元素抽取,得到摘要内容S;
S4,利用文本相似度算法和最大边缘相关模型对摘要内容S进一步处理,得到抽取后的摘要文本summary。
优选地,步骤S2中对新闻数据集Q进行处理的方式为过滤、同类合并去重,具体包括:
S21,遍历新闻数据集Q的所有样本,去除图片、视频、html标签,得到新闻数据集Qtmp
S22,遍历步骤S21中新闻数据集Qtmp的所有样本,提取样本的时间、地点,记为时间地点标记矩阵
Figure BDA0002135177680000021
t为时间值,loc为地点值,i=1,2,...,N,N为新闻数据集Qtmp样本总数;
S23,遍历上述步骤S22中得到的标记矩阵
Figure BDA0002135177680000022
将新闻数据集Qtmp中对应的具有相同标记向量的样本合并,得到新闻数据集Q'={q'1,q'2,...,q'M},M为样本总数。
优选地,步骤S3具体包括:
S31,遍历新闻数据集Q'的所有样本,对样本进行单句切分、人工标注,得到模型数据集
Figure BDA0002135177680000023
Figure BDA0002135177680000031
其中lj为样本切分后的文本单句cj的标签,lj∈{时间,地点,事件描述,起因,经过,结果},j=1,2,...,K,K为模型数据集单句总数;
S32,提取模型数据集
Figure BDA0002135177680000032
中的文本单句的特征向量,得到新闻数据集特征矩阵
Figure BDA0002135177680000033
S33,构建一个卷积神经网络,记为TextCNN,其中TextCNN网络结构为卷积层、最大池化层、2个全连接层、softmax层;
S34,将上述模型数据集特征
Figure BDA0002135177680000034
按照比例4:2:1随机划分为训练集、测试集、验证集;
S35,利用步骤S34中划分好的训练集和验证集对步骤S33中得到的卷积神经网络TextCNN进行训练,得到训练好的网络模型Model;
S36,利用上述步骤S35得到模型Model对步骤S34中的测试集进行摘要抽取,得到仅包括时间、地点、事件描述、经过、起因、结果的文本单句集合,记为摘要内容S。
优选地,步骤S32具体包括:
1).提取模型数据集
Figure BDA0002135177680000035
中的文本单句c1的TF-IDF特征,得到权值矩阵δ1
Figure BDA0002135177680000036
其中,δi为文本单句c1的TF-IDF特征值,TF-IDF特征值对应的词汇表为
Figure BDA0002135177680000041
n为文本单句c1的词汇总数;
2).提取词汇表V的Word2Vec特征,得到文本单句c1特征矩阵Fn×m
Figure BDA0002135177680000042
其中fi为词汇表V1中第i个词的Word2Vec特征向量,m为特征向量维数,m取值为300;
3).利用步骤1)中得到的权值矩阵δ1和步骤2)得到的特征矩阵Fn×m,得到文本单句c1特征矩阵F':
Figure BDA0002135177680000043
4).对上述步骤得到的特征矩阵F'按行进行归一化,得到归一化后的特征矩阵
Figure BDA0002135177680000044
5).遍历模型数据集
Figure BDA0002135177680000045
中的所有文本单句,重复上述步骤(1)~(4),得到模型数据集特征
Figure BDA0002135177680000046
li为模型数据集
Figure BDA0002135177680000047
中第i个标签,K为模型数据集单句总数。
优选地,步骤S4具体包括:
S41,遍历摘要内容S中的所有文本单句,计算文本单句之间的余弦相似度值
Figure BDA0002135177680000048
S42,过滤掉摘要内容S中余弦相似度值
Figure BDA0002135177680000049
的句子,得到无重复的摘要内容
Figure BDA00021351776800000410
S43,利用最大边缘相关模型对摘要内容
Figure BDA0002135177680000051
进行处理,得到抽取后的摘要文本。
优选地,步骤S43具体包括:
(1).遍历摘要内容
Figure BDA0002135177680000052
中的文本单句,采用公式得到候选摘要文本s:
(2).将上述步骤得到的候选摘要文本s添加到候选摘要集合summary中;
(3).重复步骤(1)~(2)C次,得到候选摘要集合summary,即为抽取后的摘要文本,其中,C为正整数且
Figure BDA0002135177680000053
中句子总数。
优选地,步骤(1)中采用的公式为:
Figure BDA0002135177680000054
其中,λ取值为0.9,
Figure BDA0002135177680000055
表示摘要内容
Figure BDA0002135177680000056
第i句与整个摘要内容
Figure BDA0002135177680000057
的余弦相似度;
Figure BDA0002135177680000058
表示为摘要内容
Figure BDA0002135177680000059
第i句与已经成为候选摘要集合summary的余弦相似度,设summary初始值设为空。
优选地,步骤S1中的数据采集模块为实时爬虫模块。
本发明的有益效果是:
本发明提出的基于卷积神经网络的微博新闻摘要抽取式生成方法,具有以下优点:
1、本发明提出的基于卷积神经网络的微博新闻摘要抽取式生成方法,对微博新闻内容进行摘要抽取,摘要句子具有更好的可读性,方便新闻工作人员等利用生成的摘要内容进一步快速分析、检索。
2、本发明中的摘要抽取方法,采用了TF-IDF加权的Word2Vec词向量,进一步利用卷积神经网络综合考虑句子的多种特征进行句子重要性的分类,完成对包含新闻六大元素的内容的提取,包括时间、地点、事件描述、经过、起因、结果等六大元素,并进一步完成摘要生成。
3、本发明采用了文本相似度算法去除语义重复内容,并采用了最大边缘相关模型,用以权衡抽取内容的相关性和多样性,得到更加全面、准确的内容摘要。
附图说明
图1是本发明实施例1中摘要抽取式生成方法流程图;
图2是本发明实施例1中卷积神经网络示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
实施例1
本实施例提供一种基于卷积神经网络的微博新闻摘要抽取式生成方法,如图1所示,包括以下步骤:
S1,利用实时爬虫模块抓取微博网站内容作为初始新闻数据集,记为新闻数据集Q={q1,q2,...,qN},其中,qi为新闻数据集中第i个样本,i=1,2,...,N,N为新闻数据集样本总数;
S2,对新闻数据集Q进行过滤、同类合并去重,得到数据集Q′,具体的步骤为:
S21,遍历新闻数据集Q的所有样本,去除图片、视频、html标签,得到新闻数据集Qtmp
S22,遍历步骤S21中新闻数据集Qtmp的所有样本,提取样本的时间、地点,记为时间地点标记矩阵
Figure BDA0002135177680000061
t为时间值,loc为地点值,i=1,2,...,N,N为新闻数据集Qtmp样本总数;
S23,遍历上述步骤S22中得到的标记矩阵
Figure BDA0002135177680000071
将新闻数据集Qtmp中对应的具有相同标记向量的样本合并,得到新闻数据集Q'={q'1,q'2,...,q'M},M为样本总数。
S3,构建卷积神经网络对处理后的新闻数据集Q′进行事件元素抽取,得到摘要内容S,具体步骤如下:
S31,遍历新闻数据集Q'的所有样本,对样本进行单句切分、人工标注,得到模型数据集
Figure BDA0002135177680000072
Figure BDA0002135177680000073
其中lj为样本切分后的文本单句cj的标签,lj∈{时间,地点,事件描述,起因,经过,结果},j=1,2,...,K,K为模型数据集单句总数;
S32,提取模型数据集
Figure BDA0002135177680000074
中的文本单句的特征向量,得到新闻数据集特征矩阵
Figure BDA0002135177680000075
1).提取模型数据集
Figure BDA0002135177680000076
中的文本单句c1的TF-IDF特征,得到权值矩阵δ1
Figure BDA0002135177680000077
其中,δi为文本单句c1的TF-IDF特征值,TF-IDF特征值对应的词汇表为
Figure BDA0002135177680000078
n为文本单句c1的词汇总数;
2).提取词汇表V的Word2Vec特征,得到文本单句c1特征矩阵Fn×m
Figure BDA0002135177680000081
其中fi为词汇表V1中第i个词的Word2Vec特征向量,m为特征向量维数,m取值为300;
3).利用步骤1)中得到的权值矩阵δ1和步骤2)得到的特征矩阵Fn×m,得到文本单句c1特征矩阵F':
Figure BDA0002135177680000082
4).对上述步骤得到的特征矩阵F'按行进行归一化,得到归一化后的特征矩阵
Figure BDA0002135177680000083
5).遍历模型数据集
Figure BDA0002135177680000084
中的所有文本单句,重复上述步骤(1)~(4),得到模型数据集特征
Figure BDA0002135177680000085
li为模型数据集
Figure BDA0002135177680000086
中第i个标签,K为模型数据集单句总数。
S33,构建一个卷积神经网络,如图2所示,记为TextCNN,其中TextCNN网络结构为卷积层、最大池化层、2个全连接层、softmax层;
本实施例中的卷积层中卷积核共256个,卷积核尺寸为5,激活函数为Relu函数,全连接层神经元为128个,学习率0.001,随机失活率为0.5;
S34,将上述模型数据集特征
Figure BDA0002135177680000087
按照比例4:2:1随机划分为训练集、测试集、验证集;
S35,利用步骤S34中划分好的训练集和验证集对步骤S33中得到的卷积神经网络TextCNN进行训练,得到训练好的网络模型Model;
S36,利用上述步骤S35得到模型Model对步骤S34中的测试集进行摘要抽取,得到仅包括时间、地点、事件描述、经过、起因、结果的文本单句集合,记为摘要内容S。
S4,利用文本相似度算法和最大边缘相关模型对摘要内容S进一步处理,得到抽取后的摘要文本summary,步骤S4具体包括:
S41,遍历摘要内容S中的所有文本单句,计算文本单句之间的余弦相似度值
Figure BDA0002135177680000091
S42,过滤掉摘要内容S中余弦相似度值
Figure BDA0002135177680000092
的句子,得到无重复的摘要内容
Figure BDA0002135177680000093
S43,利用最大边缘相关模型对上述步骤得到的摘要内容
Figure BDA0002135177680000094
进行处理,得到抽取后的摘要文本。
步骤S43具体包括:
(1).遍历摘要内容
Figure BDA0002135177680000095
中的文本单句,采用如下公式得到候选摘要文本s;
Figure BDA0002135177680000096
其中,λ取值为0.9,
Figure BDA0002135177680000097
表示摘要内容
Figure BDA0002135177680000098
第i句与整个摘要内容
Figure BDA0002135177680000099
的余弦相似度;
Figure BDA00021351776800000910
表示为摘要内容
Figure BDA00021351776800000911
第i句与已经成为候选摘要集合summary的余弦相似度,设summary初始值设为空。
(2).将上述步骤得到的候选摘要文本s添加到候选摘要集合summary中;
(3).重复步骤(1)~(2)C次,得到候选摘要集合summary,即为抽取后的摘要文本,其中,C为正整数且
Figure BDA00021351776800000912
中句子总数。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
1、本发明提出的基于卷积神经网络的微博新闻摘要抽取式生成方法,对微博新闻内容进行摘要抽取,摘要句子具有更好的可读性,方便新闻工作人员等利用生成的摘要内容进一步快速分析、检索。
2、本发明中的摘要抽取方法,采用了TF-IDF加权的Word2Vec词向量,进一步利用卷积神经网络综合考虑句子的多种特征进行句子重要性的分类,完成对包含新闻六大元素的内容的提取,包括时间、地点、事件描述、经过、起因、结果六大元素,并进一步完成摘要生成。
3、本发明采用了文本相似度算法去除语义重复内容,并采用了最大边缘相关模型,用以权衡抽取内容的相关性和多样性,得到更加全面、准确的内容摘要。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (2)

1.一种基于卷积神经网络的微博新闻摘要抽取式生成方法,其特征在于,包括以下步骤:
S1,利用数据采集模块抓取微博网站内容作为初始新闻数据集Q;
S2,对新闻数据集Q进行处理,得到数据集Q′;
S3,构建卷积神经网络对处理后的新闻数据集Q′进行事件元素抽取,得到摘要内容S;
S4,利用文本相似度算法和最大边缘相关模型对摘要内容S进一步处理,得到抽取后的摘要文本summary;
步骤S2中对新闻数据集Q进行处理的方式为过滤、同类合并去重,具体包括:
S21,遍历新闻数据集Q的所有样本,去除图片、视频、html标签,得到新闻数据集Qtmp
S22,遍历步骤S21中新闻数据集Qtmp的所有样本,提取样本的时间、地点,记为时间地点标记矩阵
Figure FDA0002509529480000011
t为时间值,loc为地点值,i=1,2,...,N,N为新闻数据集Qtmp样本总数;
S23,遍历上述步骤S22中得到的标记矩阵
Figure FDA0002509529480000012
将新闻数据集Qtmp中对应的具有相同标记向量的样本合并,得到新闻数据集Q'={q′1,q'2,...,q'M},M为样本总数;
步骤S3具体包括:
S31,遍历新闻数据集Q'的所有样本,对样本进行单句切分、人工标注,得到模型数据集
Figure FDA0002509529480000013
Figure FDA0002509529480000014
其中lj为样本切分后的文本单句cj的标签,lj∈{时间,地点,事件描述,起因,经过,结果},j=1,2,...,K,K为模型数据集单句总数;
S32,提取模型数据集
Figure FDA0002509529480000021
中的文本单句的特征向量,得到新闻数据集特征矩阵
Figure FDA0002509529480000022
S33,构建一个卷积神经网络,记为TextCNN,其中TextCNN网络结构为卷积层、最大池化层、2个全连接层、softmax层;
S34,将上述模型数据集特征
Figure FDA0002509529480000023
按照比例4:2:1随机划分为训练集、测试集、验证集;
S35,利用步骤S34中划分好的训练集和验证集对步骤S33中得到的卷积神经网络TextCNN进行训练,得到训练好的网络模型Model;
S36,利用上述步骤S35得到模型Model对步骤S34中的测试集进行摘要抽取,得到仅包括时间、地点、事件描述、经过、起因、结果的文本单句集合,记为摘要内容S;
步骤S32具体包括:
1).提取模型数据集
Figure FDA0002509529480000024
中的文本单句c1的TF-IDF特征,得到权值矩阵δ1
Figure FDA0002509529480000025
其中,δi为文本单句c1的TF-IDF特征值,TF-IDF特征值对应的词汇表为
Figure FDA0002509529480000026
n为文本单句c1的词汇总数;
2).提取词汇表V的Word2Vec特征,得到文本单句c1特征矩阵Fn×m
Figure FDA0002509529480000031
其中fi为词汇表V1中第i个词的Word2Vec特征向量,m为特征向量维数,m取值为300;
3).利用步骤1)中得到的权值矩阵δ1和步骤2)得到的特征矩阵Fn×m,得到文本单句c1特征矩阵F':
Figure FDA0002509529480000032
4).对上述步骤得到的特征矩阵F'按行进行归一化,得到归一化后的特征矩阵
Figure FDA0002509529480000033
5).遍历模型数据集
Figure FDA0002509529480000034
中的所有文本单句,重复上述步骤1)~4),得到模型数据集特征
Figure FDA0002509529480000035
li为模型数据集
Figure FDA0002509529480000036
中第i个标签,K为模型数据集单句总数;
步骤S4具体包括:
S41,遍历摘要内容S中的所有文本单句,计算文本单句之间的余弦相似度值
Figure FDA0002509529480000037
S42,过滤掉摘要内容S中余弦相似度值
Figure FDA0002509529480000038
的句子,得到无重复的摘要内容
Figure FDA0002509529480000039
S43,利用最大边缘相关模型对摘要内容
Figure FDA00025095294800000310
进行处理,得到抽取后的摘要文本;
步骤S43具体包括:
(1).遍历摘要内容
Figure FDA00025095294800000311
中的文本单句,采用公式得到候选摘要文本s:
(2).将上述步骤得到的候选摘要文本s添加到候选摘要集合summary中;
(3).重复步骤(1)~(2)C次,得到候选摘要集合summary,即为抽取后的摘要文本,其中,C为正整数且
Figure FDA0002509529480000041
中句子总数;
步骤(1)中采用的公式为:
Figure FDA0002509529480000042
其中,λ取值为0.9,
Figure FDA0002509529480000043
表示摘要内容
Figure FDA0002509529480000044
第i句与整个摘要内容
Figure FDA0002509529480000045
的余弦相似度;
Figure FDA0002509529480000046
表示为摘要内容
Figure FDA0002509529480000047
第i句与已经成为候选摘要集合summary的余弦相似度,设summary初始值设为空。
2.根据权利要求1所述的基于卷积神经网络的微博新闻摘要抽取式生成方法,其特征在于,步骤S1中的数据采集模块为实时爬虫模块。
CN201910650915.XA 2019-07-18 2019-07-18 一种基于卷积神经网络的微博新闻摘要抽取式生成方法 Active CN110362674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910650915.XA CN110362674B (zh) 2019-07-18 2019-07-18 一种基于卷积神经网络的微博新闻摘要抽取式生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910650915.XA CN110362674B (zh) 2019-07-18 2019-07-18 一种基于卷积神经网络的微博新闻摘要抽取式生成方法

Publications (2)

Publication Number Publication Date
CN110362674A CN110362674A (zh) 2019-10-22
CN110362674B true CN110362674B (zh) 2020-08-04

Family

ID=68221249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910650915.XA Active CN110362674B (zh) 2019-07-18 2019-07-18 一种基于卷积神经网络的微博新闻摘要抽取式生成方法

Country Status (1)

Country Link
CN (1) CN110362674B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110933518B (zh) * 2019-12-11 2020-10-02 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
CN111191413B (zh) * 2019-12-30 2021-11-12 北京航空航天大学 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
CN111274776B (zh) * 2020-01-21 2020-12-15 中国搜索信息科技股份有限公司 一种基于关键词的文章生成方法
CN111507090A (zh) * 2020-02-27 2020-08-07 平安科技(深圳)有限公司 摘要提取方法、装置、设备及计算机可读存储介质
CN111639176B (zh) * 2020-05-29 2022-07-01 厦门大学 一种基于一致性监测的实时事件摘要方法
CN111859887A (zh) * 2020-07-21 2020-10-30 北京北斗天巡科技有限公司 一种基于深度学习的科技新闻自动写作系统
TR202022040A1 (tr) * 2020-12-28 2022-07-21 Sestek Ses Ve Iletisim Bilgisayar Tek San Tic A S Konu siniflandirmaya duyarli bi̇r meti̇n özetleme başarimi ölçme yöntemi̇ ve bu yöntemi̇ kullanan bi̇r özetleme si̇stemi̇
CN112883716B (zh) * 2021-02-03 2022-05-03 重庆邮电大学 基于主题相关性的推特摘要生成方法
CN112906382B (zh) * 2021-02-05 2022-06-21 山东省计算中心(国家超级计算济南中心) 基于图神经网络的政策文本多标签标注方法及系统
CN112989031B (zh) * 2021-04-28 2021-08-03 成都索贝视频云计算有限公司 基于深度学习的广播电视新闻事件要素抽取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834735B (zh) * 2015-05-18 2018-01-23 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN106055658A (zh) * 2016-06-02 2016-10-26 中国人民解放军国防科学技术大学 一种针对Twitter文本事件抽取的方法
US10706349B2 (en) * 2017-05-25 2020-07-07 Texas Instruments Incorporated Secure convolutional neural networks (CNN) accelerator
CN109977219B (zh) * 2019-03-19 2021-04-09 国家计算机网络与信息安全管理中心 基于启发式规则的文本摘要自动生成方法及装置

Also Published As

Publication number Publication date
CN110362674A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN110362674B (zh) 一种基于卷积神经网络的微博新闻摘要抽取式生成方法
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN111914558B (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
Bisandu et al. Clustering news articles using efficient similarity measure and N-grams
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN108268875B (zh) 一种基于数据平滑的图像语义自动标注方法及装置
CN107480200A (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
Zhu et al. Webpage understanding: an integrated approach
CN115718792A (zh) 一种基于自然语义处理和深度学习的敏感信息提取方法
Hu et al. Unsupervised software repositories mining and its application to code search
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
CN111597423B (zh) 一种文本分类模型可解释性方法的性能评价方法及装置
CN112685549B (zh) 融入篇章语义的涉案新闻要素实体识别方法及系统
CN114492425A (zh) 采用一套领域标签体系将多维度数据打通的方法
Thilagavathi et al. Document clustering in forensic investigation by hybrid approach
CN115017404A (zh) 基于压缩空间句子选择的目标新闻话题摘要方法
CN110019814B (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法
CN113326371A (zh) 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法
Zeng et al. Fake news detection by using common latent semantics matching method
Jadhav et al. Unstructured big data information extraction techniques survey: Privacy preservation perspective
Souvannavong et al. Latent semantic indexing for semantic content detection of video shots
Labanan et al. A Study on the Usability of Text Analysis on Web Artifacts for Digital Forensic Investigation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant