CN111597327B - 一种面向舆情分析的无监督式多文档文摘生成方法 - Google Patents
一种面向舆情分析的无监督式多文档文摘生成方法 Download PDFInfo
- Publication number
- CN111597327B CN111597327B CN202010323594.5A CN202010323594A CN111597327B CN 111597327 B CN111597327 B CN 111597327B CN 202010323594 A CN202010323594 A CN 202010323594A CN 111597327 B CN111597327 B CN 111597327B
- Authority
- CN
- China
- Prior art keywords
- news
- abstract
- document
- public opinion
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 65
- 239000013598 vector Substances 0.000 claims description 42
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000002457 bidirectional effect Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 10
- 239000000463 material Substances 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 8
- 239000013604 expression vector Substances 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000001413 cellular effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 3
- 230000009193 crawling Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 235000014510 cooky Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向舆情分析的无监督式多文档文摘生成方法。步骤1:实时采集网络舆情新闻,根据网络热点进行新闻集合自动划分;步骤2:对集合内每个舆情新闻进行无监督式的抽取单文档文摘;步骤3:对集合内的所有抽取的单文档文摘进行分析,得到无监督式的多文档文摘。本发明解决现有多文档文摘方法效果较低、生成式文摘实用性较差、中文舆情文摘训练语料匮乏的问题,以实现对舆情新闻的监控。
Description
技术领域
本发明属于文档文摘无监督生成技术领域,尤其涉及一种面向舆情分析的无监督式多文档文摘生成方法。
背景技术
自动文摘是自然语言处理领域最重要的技术之一,其研究目的是利用计算机自动地从文本或者文本集合中抽取或生成能准确复述原文意思的精炼、连贯的短文。用户只需要阅读文摘结果便可以了解文档的主要信息,省去大量检索和阅读大篇幅文档的时间,从而提供人们的阅读效率。
按照不同的划分标准,可以将自动文摘技术划分成不同类别,主要有以下三种划分方式:
1.根据是否需要语料库,可以划分为无监督文摘和有监督文摘。无监督的摘要方法又细分为基于经验式规则、基于主题、基于图、基于整数线性规划等方法;有监督方法又细分为基于分类、回归、序列标注以及端到端的神经网络等方法。
2.根据文摘与原文的关系,划分为抽取式文摘和生成式文摘。抽取式文摘是指从原始文档中抽取重要结构单元(句子、短语等),这种方法一般需要定义规则或特征集合,根据特征对原文句子进行打分排序,选择得分高的句子作为文摘句;生成式文摘是指基于理解文档的角度生成摘要,摘要中的句子或词可以未在原始文档中出现过。生成式文摘更接近人自身写的摘要,但是需要用到自然语言理解和文本生成技术,例如句子压缩、改写、融合等等,有一定技术难度。
3.根据处理文档的数量,可以划分为单文档文摘与多文档文摘。单文档文摘对一篇文档进行处理,产生该文档的文摘;多文档文摘将多篇相同主题的文档聚集在一起,对文档集进行处理,形成该文档簇的文本摘要,多文档相对单文档而言,由于信息来源于不同文本,文摘连贯性的问题更加严重。
发明内容
本发明提供一种面向舆情分析的无监督式多文档文摘生成方法,解决现有多文档文摘方法效果较低、生成式文摘实用性较差、中文舆情文摘训练语料匮乏的问题,以实现对舆情新闻的监控。
本发明通过以下技术方案实现:
一种面向舆情分析的无监督式多文档文摘生成方法,所述生成方法包括以下步骤:
步骤1:实时采集网络舆情新闻,根据网络热点进行新闻集合自动划分;从互联网中获取到热点,将该热点作为查询语句,利用搜索引擎收集与该热点相关的新闻,因此建立热点-新闻,一个热点对多个新闻的关系,从而划分出新闻集合;
步骤2:对集合内每个舆情新闻进行无监督式的抽取单文档文摘;利用深度学习技术在大规模自然语言文本中训练语言模型,并将文本转化成以句子为单位的有向图结构,从有向图中抽取按照中心度打分,将有向图中各节点降序排列,取前k个句子作为抽取式摘要输出作为文摘句;
步骤3:对集合内的所有抽取的单文档文摘进行分析,得到无监督式的多文档文摘;无监督式的多文档文摘生成为利用自编码器构建端到端的神经网络模型,并引入源端重构损失函数和目标端相似度损失函数,共同作为模型的优化目标,使得源端能够生成重构多文档集合的分布式表示向量,目标端能够生成与多文档集合相似性高的文摘句。
进一步的,所述深度学习技术为基于Bert的预训练语言模型,所述预训练语言模型通过以下步骤建立:
步骤2.01:使用Transformer编码器,在大规模领域无关网络语料中训练双向语言模型,所述双向语言模型采用自注意力机制捕获每个单词所属句子的上下文特征,能够同时学习覆盖词预测与连续句预测两个任务;
步骤2.02:使用网络舆情新闻这一特定领域语料,对预训练双向语言模型进行微调,使双向语言模型能够学习并适应特定领域语料的构词特征、语法特征,最终得到舆情新闻相关的预训练语言模型;
步骤2.03:针对文本摘要特点,作出句子级分布式假设,采取自监督学习的方式拟合,对舆情新闻相关的预训练语言模型进行参数微调。
进一步的,所述步骤2.3中作出句子级分布式假设,采取自监督学习的方式拟合,具体过程为:舆情新闻中第i个句子用si表示,将句子si-1和句子si+1作为句子si的正例,将语料中的其他句子作为负例,针对句子si,双向语言模型的学习目标如下:
其中,vs和v′s是两个不同参数化Bert编码器的向量表示,σ是sigmoid函数,P(s)是句子空间的均匀分布函数,该目标函数T是为了将语料库中的其他句子与上下文句子区分开。
进一步的,所述文本转化成以句子为单位的有向图结构,从有向图中抽取最重要的结点作为文摘句,具体过程为:
步骤2.11:利用微调后的舆情新闻相关的预训练语言模型,将舆情新闻文本映射为高维分布式表示向量,
步骤2.12:将自然语言文本定义为有向图结构,所述有向图中各节点间相似度计算公式为:
其中,E表示规范化后的相似度矩阵,通过强调不同相似度得分之前的相对贡献来消除相似度得分的绝对值影响,β∈[0,1],表示控制节点相似度得分归为0的阈值;
利用有向图各节点邻边权重信息汇总计算节点的中心度打分,所述中心度计算公式为:
centrality(si)=λ1∑j<ieij+λ2∑j>ieij (5)
其中,λ1、λ2是两个不同的权重,分别表示前向权重、后向权重;
按照中心度打分,将有向图中各节点降序排列,取前k个句子作为抽取式摘要输出。
进一步的,所述用自编码器构建端到端的神经网络模型,具体过程如下:
步骤3.1:利用长短时间记忆网络作为编码器,对文档集合内各舆情新闻抽取式文摘编码,得到句子级分布式表示,所述编码的计算公式为:
φE(x)=[h,c]
zi=φE(xi)
其中,xi表示第i个舆情新闻抽取式文摘,h和c分别表示长短时间记忆网络的隐状态与细胞状态,φE(x)是隐状态h和细胞状态c的级联表示,zi表示第i个舆情新闻抽取式文摘的分布式向量;
步骤3.2:利用另一个参数非共享的长短时间记忆网络作为解码器,解码器的输入是编码器输出的分布式向量,利用该向量解码出一段自然语言文本序列,解码器的计算公式与编码器相同,模型以源端重构损失函数为目标,使编码器与解码器同时捕获源端文本语义信息;
文档集合D包含k篇舆情新闻抽取式文摘{x1,x2,…,xk},自编码器学习输出向量组{z1,z2,...,zk},对向量组求平均得到文档集合D的压缩表示向量利用参数共享的解码器φD得到生成式多文档文摘s,并使用参数共享的编码器φE对文摘s重新编码;
步骤3.3:模型以目标端相似度损失函数为目标,使文摘s编码后的向量zs,与源端文档集合各舆情新闻文本编码后的向量更相近,减少模型编码解码过程中的语义信息丢失。
进一步的,所述源端重构损失函数计算公式为:
其中,losscross_entropy表示交叉熵损失函数;φD(φE(xi)表示第i个舆情新闻抽取式文摘先经过编码器,再经过解码器的输出结果;lossrec表示源端重构损失函数,由舆情新闻文档集合各舆情新闻抽取式文摘的交叉熵累加和计算得到。
进一步的,所述目标端相似度损失函数计算公式为:
其中,dcos表示向量余弦相似度;hi表示第i个舆情新闻抽取式文摘经过长短时间记忆网络输出的隐状态;hs表示多文档文摘句s经过共享参数的编码器得到的隐状态;losssim表示目标端相似度损失函数,由舆情新闻文档集合各舆情新闻抽取式文摘隐状态的余弦相似度平均值计算得到。
本发明的有益效果是:
1.本发明提出针对新闻文本的无监督抽取式单文档文摘方法,将基于神经网络的预训练语言模型与基于图的算法相结合,对每篇舆情新闻单独处理,得到每篇舆情新闻的核心语句。此方法提出句子分布式假设,在预训练语言模型中引入相对位置信息,并根据新闻文本的行文特点,采用有向图的自动文摘算法对舆情新闻文本进行分析。
2.本发明提出针对热点相关舆情新闻集合的无监督生成式多文档文摘方法,将自编码器应用于多文档文摘方法,引入源端重构损失函数与目标端相似度损失函数,共同作为模型的优化目标。本发明采用贪心策略在解码端逐字生成,能够得到实用性较强、通顺较高的多文档文摘,
3.本发明突破单文档文摘与多文档文摘的局限,将单文档文摘作为多文档文摘的前序任务,有效降低多文档文摘的计算复杂度,减少模型解码时的搜索空间。
4.本发明提出的一系列自动文摘方法,均不需要“原文本-摘要”数据对,适应中文舆情文摘训练语料匮乏的环境,此方法充分利用网络舆情新闻文本规模大的特点,避免既耗时又耗力的人工标注方式。
附图说明
图1本发明的流程示意图。
图2本发明的语料库构建流程图。
图3本发明的无监督式抽取单文档文摘流程图。
图4本发明的无监督式抽取单文档文摘结果样例。
图5本发明的无监督式生成多文档文摘模型示意图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种面向舆情分析的无监督式多文档文摘生成方法,所述生成方法包括以下步骤:
步骤1:实时采集网络舆情新闻,根据网络热点进行新闻集合自动划分;
步骤2:对集合内每个舆情新闻进行无监督式的抽取单文档文摘;
步骤3:对集合内的所有抽取的单文档文摘进行分析,得到无监督式的多文档文摘。
进一步的,所述步骤1中根据网络热点进行新闻集合自动划分具体为,从互联网中获取到热点,比如微博热点,百度热点,微信热点等等,将该热点作为查询语句,利用搜索引擎收集与该热点相关的新闻,因此建立热点-新闻,一个热点对多个新闻的关系,从而划分出新闻集合。
结合图2说明步骤3的语料库构建流程。本发明采用的网络爬虫模块主要由代理池服务、Cookies池服务、爬虫服务三部分组成。为了保证整个系统的可扩充性和可维护性,网络爬虫的各个服务均集成于Scrapy框架,并且提供了增量爬取功能,方便后续文摘算法调用。通过该网络爬虫模块,可以获取来自各大新闻媒体、门户网站发布的舆情新闻,每篇舆情新闻均对应于一条网络实时热点。
因此,将网络实时热点作为键值,将相关舆情新闻划分为同一集合,即可构建出舆情新闻多文档文摘语料库。此外,按照舆情新闻的不同来源,需要设计并实现不同的清洗策略,将清洗后的数据作为舆情新闻原文本,方便后续的自然语言处理技术。
进一步的,所述步骤2中无监督式的抽取单文档文摘,利用深度学习技术在大规模自然语言文本中训练语言模型,并将文本转化成以句子为单位的有向图结构,从有向图中抽取最重要的结点作为文摘句。
进一步的,所述深度学习技术为基于Bert的预训练语言模型,其中,Bert表示基于Transformer的双向编码器特征,而Transformer表示利用注意力机制捕获句子上下文语义特征的编码器,所述预训练语言模型通过以下步骤建立:
步骤2.01:使用Transformer编码器,在大规模领域无关网络语料中训练双向语言模型,所述双向语言模型采用自注意力机制捕获每个单词所属句子的上下文特征,能够同时学习覆盖词预测与连续句预测两个任务;
步骤2.02:使用网络舆情新闻这一特定领域语料(不同于领域无关文本,该语料仅包含舆情相关新闻,如“杭州保姆纵火案”相关报道文章,这类语料通常包含特定的描述用词,大部分与司法相关),对预训练双向语言模型进行微调(微调为将舆情新闻这一特定领域语料,输入到步骤2.01构建的双向语言模型中,该模型利用“覆盖词预测”与“连续句预测”两个子任务,进一步学习到舆情新闻文本语法特征、语义特征,通过优化两个子任务的损失函数,将模型参数以较低学习率调整到适应舆情新闻文本的最优值),使双向语言模型能够学习并适应特定领域语料的构词特征、语法特征,最终得到舆情新闻相关的预训练语言模型;在步骤2.01使用大规模语料训练的基础上,步骤2.02只需要使用小规模舆情新闻语料调整参数即可,降低数据获取成本,并提高模型收敛速度
步骤2.03:针对文本摘要特点,作出句子级分布式假设,采取自监督学习的方式拟合,对舆情新闻相关的预训练语言模型进行参数微调(参数微调为基于句子级分布式假设,重构舆情新闻语料,将该预料输入到步骤2.02优化的舆情新闻领域双向语言模型中,该模型通过优化损失函数,将模型参数以较低学习率调整到符合句子级分布式假设的最优值),句子级分布式假设借鉴word2vec的思想,设定上下文窗口,认为当前句子只与窗口内的句子的相关,以此构建正样本,利用负采样构建负样本。步骤2.02虽然能够学习到符合舆情新闻用词方式的语言模型,但没有针对本发明中自动文摘这一任务有任何优化,因此执行步骤2.03,利用句子级分布式假设使模型向符合文摘任务特点的方向优化,如“新闻中第一句话或最后一句话往往是整篇文章的概括性语句。
进一步的,所述步骤2.3中作出句子级分布式假设,采取自监督学习的方式拟合,具体过程为:舆情新闻中第i个句子用si表示,将句子si-1和句子si+1作为句子si的正例,将语料中的其他句子作为负例,针对句子si,双向语言模型的学习目标如下:
其中,vs和v′s是两个不同参数化Bert编码器的向量表示,σ是sigmoid函数,P(s)是句子空间的均匀分布函数,该目标函数T是为了将语料库中的其他句子与上下文句子区分开。在新闻文本中,句子间的相对位置信息对文摘句的抽取有积极影响,考虑到上述因素,本实施方式借鉴词袋模型word2vec的优点,将模型接收的输入数据粒度设置为句子级别,利用自监督学习能够有效捕获当前句子与相邻句子的相关性,并充分挖掘舆情新闻原文中句子间的相对位置信息。
进一步的,所述步骤3中,无监督式的多文档文摘生成为利用自编码器构建端到端的神经网络模型,并引入源端重构损失函数和目标端相似度损失函数,共同作为模型的优化目标,使得源端能够生成重构多文档集合的分布式表示向量,目标端能够生成与多文档集合相似性高的文摘句。
进一步的,所述用自编码器构建端到端的神经网络模型,具体过程如下:
步骤3.1:利用长短时间记忆网络作为编码器,对文档集合内各舆情新闻抽取式文摘编码,得到句子级分布式表示,所述编码的计算公式为:
φE(x)=[h,c]
zi=φE(xi)
其中,xi表示第i个舆情新闻抽取式文摘,h和c分别表示长短时间记忆网络的隐状态与细胞状态,φE(x)是隐状态h和细胞状态c的级联表示,zi表示第i个舆情新闻抽取式文摘的分布式向量;
步骤3.2:利用另一个参数非共享的长短时间记忆网络作为解码器,解码器的输入是编码器输出的分布式向量,利用该向量解码出一段自然语言文本序列,解码器的计算公式与编码器相同,模型以源端重构损失函数为目标,使编码器与解码器同时捕获源端文本语义信息;
文档集合D包含k篇舆情新闻抽取式文摘{x1,x2,...,xk},自编码器学习输出向量组{z1,z2,...,zk},对向量组求平均得到文档集合D的压缩表示向量利用参数共享的解码器φD得到生成式多文档文摘s,并使用参数共享的编码器φE对文摘s重新编码;
步骤3.3:模型以目标端相似度损失函数为目标,使文摘s编码后的向量zs,与源端文档集合各舆情新闻文本编码后的向量更相近,减少模型编码解码过程中的语义信息丢失。
模型总损失函数由源端重构损失函数与标端相似度损失函数组成。
进一步的,所述源端重构损失函数计算公式为:
其中,losscross_entropy表示交叉熵损失函数;φD(φE(xi)表示第i个舆情新闻抽取式文摘先经过编码器,再经过解码器的输出结果;lossrec表示源端重构损失函数,由舆情新闻文档集合各舆情新闻抽取式文摘的交叉熵累加和计算得到。
进一步的,所述目标端相似度损失函数计算公式为:
其中,dcos表示向量余弦相似度;hi表示第i个舆情新闻抽取式文摘经过长短时间记忆网络输出的隐状态;hs表示多文档文摘句s经过共享参数的编码器得到的隐状态;losssim表示目标端相似度损失函数,由舆情新闻文档集合各舆情新闻抽取式文摘隐状态的余弦相似度平均值计算得到。
本发明针对现有多文档文摘方法效果较低、生成式文摘实用性较差、中文舆情文摘训练语料匮乏的问题,通过采用基于深度学习的无监督算法,利用大规模网络舆情新闻进行训练,有效适应中文监督语料匮乏的场景,与传统生成式多文档文摘算法相比,本方法的实用性更强、算法效率更高。
实施例2
一种面向舆情分析的无监督式多文档文摘生成方法,所述生成方法包括以下步骤:
步骤1:实时采集网络舆情新闻,根据网络热点进行新闻集合自动划分;
步骤2:对集合内每个舆情新闻进行无监督式的抽取单文档文摘;
步骤3:对集合内的所有抽取的单文档文摘进行分析,得到无监督式的多文档文摘。
本步骤的目的在步骤二所输出的多篇单文档文摘基础上,生成一篇语句通顺、冗余度低、包含文档集合核心内容的文本摘要。无监督、生成式、多文档,这三个特点与舆情分析的需求相契合,因此采用监督生成式多文档文摘方法对舆情新闻集合进行分析。
进一步的,所述步骤1中根据网络热点进行新闻集合自动划分具体为,从互联网中获取到热点,比如微博热点,百度热点,微信热点等等,将该热点作为查询语句,利用搜索引擎收集与该热点相关的新闻,因此建立热点-新闻,一个热点对多个新闻的关系,从而划分出新闻集合。
结合图2说明步骤3的语料库构建流程;本发明采用的网络爬虫模块主要由代理池服务、Cookies池服务、爬虫服务三部分组成。为了保证整个系统的可扩充性和可维护性,网络爬虫的各个服务均集成于Scrapy框架,并且提供了增量爬取功能,方便后续文摘算法调用;通过该网络爬虫模块,可以获取来自各大新闻媒体、门户网站发布的舆情新闻,每篇舆情新闻均对应于一条网络实时热点。
因此,将网络实时热点作为键值,将相关舆情新闻划分为同一集合,即可构建出舆情新闻多文档文摘语料库;此外,按照舆情新闻的不同来源,需要设计并实现不同的清洗策略,将清洗后的数据作为舆情新闻原文本,方便后续的自然语言处理技术。
进一步的,所述步骤2中无监督式的抽取单文档文摘,利用深度学习技术在大规模自然语言文本中训练语言模型,并将文本转化成以句子为单位的有向图结构,从有向图中抽取最重要的结点作为文摘句。
进一步的,所述文本转化成以句子为单位的有向图结构,从有向图中抽取最重要的结点作为文摘句,具体过程为:
步骤2.11:利用微调后的舆情新闻相关的预训练语言模型,将舆情新闻文本映射为高维分布式表示向量,从而实现对单文档舆情新闻中的每个句子进行编码;考虑到句子先后顺序对句子重要度的影响,
步骤2.12:将自然语言文本定义为有向图结构,所述有向图中各节点间相似度计算公式为:
其中,E表示规范化后的相似度矩阵,通过强调不同相似度得分之前的相对贡献来消除相似度得分的绝对值影响,β∈[0,1],表示控制节点相似度得分归为0的阈值;
利用有向图各节点邻边权重信息汇总计算节点的中心度打分,所述中心度计算公式为:
centrality(si)=λ1∑j<ieijtλ2∑j>ieij (5)
其中,λ1、λ2是两个不同的权重,分别表示前向权重、后向权重;权重用来表示出现于句子si位置之前的句子与出现于句子si位置之后的句子对句子si的影响程度;
按照中心度打分,将有向图中各节点降序排列,取前k个句子作为抽取式摘要输出。
进一步的,所述步骤3中,无监督式的多文档文摘生成为利用自编码器构建端到端的神经网络模型,并引入源端重构损失函数和目标端相似度损失函数,共同作为模型的优化目标,使得源端能够生成重构多文档集合的分布式表示向量,目标端能够生成与多文档集合相似性高的文摘句。
进一步的,所述用自编码器构建端到端的神经网络模型,具体过程如下:
步骤3.1:利用长短时间记忆网络作为编码器,对文档集合内各舆情新闻抽取式文摘编码,得到句子级分布式表示,所述编码的计算公式为:
φE(x)=[h,c]
zi=φE(xi)
其中,xi表示第i个舆情新闻抽取式文摘,h和c分别表示长短时间记忆网络的隐状态与细胞状态,φE(x)是隐状态h和细胞状态c的级联表示,zi表示第i个舆情新闻抽取式文摘的分布式向量;
步骤3.2:利用另一个参数非共享的长短时间记忆网络作为解码器,解码器的输入是编码器输出的分布式向量,利用该向量解码出一段自然语言文本序列,解码器的计算公式与编码器相同,模型以源端重构损失函数为目标,使编码器与解码器同时捕获源端文本语义信息;
文档集合D包含k篇舆情新闻抽取式文摘{x1,x2,…,xk},自编码器学习输出向量组{z1,z2,...,zk},对向量组求平均得到文档集合D的压缩表示向量利用参数共享的解码器φD得到生成式多文档文摘s,并使用参数共享的编码器φE对文摘s重新编码;
步骤3.3:模型以目标端相似度损失函数为目标,使文摘s编码后的向量zs,与源端文档集合各舆情新闻文本编码后的向量更相近,减少模型编码解码过程中的语义信息丢失。
模型总损失函数由源端重构损失函数与标端相似度损失函数组成。
进一步的,所述源端重构损失函数计算公式为:
其中,losscross_entropy表示交叉熵损失函数;φD(φE(xi)表示第i个舆情新闻抽取式文摘先经过编码器,再经过解码器的输出结果;lossrec表示源端重构损失函数,由舆情新闻文档集合各舆情新闻抽取式文摘的交叉熵累加和计算得到。
进一步的,所述目标端相似度损失函数计算公式为:
其中,dcos表示向量余弦相似度;hi表示第i个舆情新闻抽取式文摘经过长短时间记忆网络输出的隐状态;hs表示多文档文摘句s经过共享参数的编码器得到的隐状态;losssim表示目标端相似度损失函数,由舆情新闻文档集合各舆情新闻抽取式文摘隐状态的余弦相似度平均值计算得到。
实施例3
本实施例与实施例2不同的是,所述步骤2中采取无监督的算法模型,不需要人工标注数据,避免标注数据人力时间成本的消耗,将步骤一获取的数据直接作为训练语料库,能够充分挖掘网络的爬取的大规模语料库的数据潜能;
本步骤采取抽取式的文摘方法,从新闻原文中识别与文章核心主旨相关性强的一系列句子,这样做的好处是能够得到行文通顺的文本摘要,召回率比较高,因为单文档文摘的结果之后要输送到步骤三中,如果采取生成式的文摘方法,容易得到语句不通顺的输出,会产生错误传播,影响方法整体性能;
本步骤采取单文档的文摘方法,是为后续多文档文摘任务考虑,由于舆情新闻的文本长度较长,如果采取端到端的神经网络模型。在编码端需要同时对多篇文档的原文进行压缩与融合,极大增加了模型解码的难度。因此采用管道式的方法,先对每篇舆情新闻单文档进行自动文摘,在对文档集合中每篇舆情新闻的单文档文摘做多文档文摘生成,将每个文档输入从一篇原文缩小为一到二个句子,降低模型编码的建模难度。
实施例4
本实施例与实施例1不同的是,所述步骤3的目的在步骤二所输出的多篇单文档文摘基础上,生成一篇语句通顺、冗余度低、包含文档集合核心内容的文本摘要。无监督、生成式、多文档,这三个特点与舆情分析的需求相契合,因此采用监督生成式多文档文摘方法对舆情新闻集合进行分析。
Claims (5)
1.一种面向舆情分析的无监督式多文档文摘生成方法,其特征在于,所述生成方法包括以下步骤:
步骤1:实时采集网络舆情新闻,根据网络热点进行新闻集合自动划分;从互联网中获取到热点,将该热点作为查询语句,利用搜索引擎收集与该热点相关的新闻,因此建立热点-新闻,一个热点对多个新闻的关系,从而划分出新闻集合;
步骤2:对集合内每个舆情新闻进行无监督式的抽取单文档文摘;利用深度学习技术在大规模自然语言文本中训练语言模型,并将文本转化成以句子为单位的有向图结构,从有向图中抽取按照中心度打分,将有向图中各节点降序排列,取前k个句子作为抽取式摘要输出作为文摘句;
步骤3:对集合内的所有抽取的单文档文摘进行分析,得到无监督式的多文档文摘;无监督式的多文档文摘生成为利用自编码器构建端到端的神经网络模型,并引入源端重构损失函数和目标端相似度损失函数,共同作为模型的优化目标,使得源端能够生成重构多文档集合的分布式表示向量,目标端能够生成与多文档集合相似性高的文摘句。
2.根据权利要求1所述一种面向舆情分析的无监督式多文档文摘生成方法,其特征在于,所述深度学习技术为基于Bert的预训练语言模型,所述预训练语言模型通过以下步骤建立:
步骤2.01:使用Transformer编码器,在大规模领域无关网络语料中训练双向语言模型,所述双向语言模型采用自注意力机制捕获每个单词所属句子的上下文特征,能够同时学习覆盖词预测与连续句预测两个任务;
步骤2.02:使用网络舆情新闻这一特定领域语料,对预训练双向语言模型进行微调,使双向语言模型能够学习并适应特定领域语料的构词特征、语法特征,最终得到舆情新闻相关的预训练语言模型;
步骤2.03:针对文本摘要特点,作出句子级分布式假设,采取自监督学习的方式拟合,对舆情新闻相关的预训练语言模型进行参数微调。
4.根据权利要求1所述一种面向舆情分析的无监督式多文档文摘生成方法,其特征在于,所述文本转化成以句子为单位的有向图结构,从有向图中抽取最重要的结点作为文摘句,具体过程为:
步骤2.11:利用微调后的舆情新闻相关的预训练语言模型,将舆情新闻文本映射为高维分布式表示向量,
步骤2.12:将自然语言文本定义为有向图结构,所述有向图中各节点间相似度计算公式为:
其中,E表示规范化后的相似度矩阵,通过强调不同相似度得分之前的相对贡献来消除相似度得分的绝对值影响,β∈[0,1],表示控制节点相似度得分归为0的阈值;
利用有向图各节点邻边权重信息汇总计算节点的中心度打分,所述中心度计算公式为:
centrality(si)=λ1∑j<ieij+λ2∑j>ieij (5)
其中,λ1、λ2是两个不同的权重,分别表示前向权重、后向权重。
5.根据权利要求1所述一种面向舆情分析的无监督式多文档文摘生成方法,其特征在于,所述用自编码器构建端到端的神经网络模型,具体过程如下:
步骤3.1:利用长短时间记忆网络作为编码器,对文档集合内各舆情新闻抽取式文摘编码,得到句子级分布式表示,所述编码的计算公式为:
φE(x)=[h,c]
zi=φE(xi)
其中,xi表示第i个舆情新闻抽取式文摘,h和c分别表示长短时间记忆网络的隐状态与细胞状态,φE(x)是隐状态h和细胞状态c的级联表示,zi表示第i个舆情新闻抽取式文摘的分布式向量;
步骤3.2:利用另一个参数非共享的长短时间记忆网络作为解码器,解码器的输入是编码器输出的分布式向量,利用该向量解码出一段自然语言文本序列,解码器的计算公式与编码器相同,模型以源端重构损失函数为目标,使编码器与解码器同时捕获源端文本语义信息;
文档集合D包含k篇舆情新闻抽取式文摘{x1,x2,…,xk},自编码器学习输出向量组{z1,z2,…,zk},对向量组求平均得到文档集合D的压缩表示向量利用参数共享的解码器φD得到生成式多文档文摘s,并使用参数共享的编码器φE对文摘s重新编码;
步骤3.3:模型以目标端相似度损失函数为目标,使文摘s编码后的向量zs,与源端文档集合各舆情新闻文本编码后的向量更相近,减少模型编码解码过程中的语义信息丢失;
所述源端重构损失函数计算公式为:
其中,losscross_entropy表示交叉熵损失函数;φD(φE(xi))表示第i个舆情新闻抽取式文摘先经过编码器,再经过解码器的输出结果;lossrec表示源端重构损失函数,由舆情新闻文档集合各舆情新闻抽取式文摘的交叉熵累加和计算得到;
所述目标端相似度损失函数计算公式为:
其中,dcos表示向量余弦相似度;hi表示第i个舆情新闻抽取式文摘经过长短时间记忆网络输出的隐状态;hs表示多文档文摘句s经过共享参数的编码器得到的隐状态;losssim表示目标端相似度损失函数,由舆情新闻文档集合各舆情新闻抽取式文摘隐状态的余弦相似度平均值计算得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010323594.5A CN111597327B (zh) | 2020-04-22 | 2020-04-22 | 一种面向舆情分析的无监督式多文档文摘生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010323594.5A CN111597327B (zh) | 2020-04-22 | 2020-04-22 | 一种面向舆情分析的无监督式多文档文摘生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597327A CN111597327A (zh) | 2020-08-28 |
CN111597327B true CN111597327B (zh) | 2023-04-07 |
Family
ID=72181660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010323594.5A Active CN111597327B (zh) | 2020-04-22 | 2020-04-22 | 一种面向舆情分析的无监督式多文档文摘生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597327B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183083A (zh) * | 2020-08-31 | 2021-01-05 | 杭州远传新业科技有限公司 | 文摘自动生成方法、装置、电子设备及存储介质 |
CN112052329A (zh) * | 2020-09-02 | 2020-12-08 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及可读存储介质 |
CN114154461A (zh) * | 2020-09-08 | 2022-03-08 | 第四范式(北京)技术有限公司 | 一种文本数据的处理方法、装置及系统 |
CN112101819B (zh) * | 2020-10-28 | 2024-08-23 | 平安国际智慧城市科技股份有限公司 | 食品风险预测方法、装置、设备及存储介质 |
CN112732944A (zh) * | 2021-01-30 | 2021-04-30 | 吉林大学 | 一种文本检索的新方法 |
CN113408272B (zh) | 2021-06-30 | 2023-08-18 | 北京百度网讯科技有限公司 | 摘要生成模型的训练方法、装置、设备和存储介质 |
CN114969304B (zh) * | 2022-05-09 | 2024-08-23 | 昆明理工大学 | 基于要素图注意力的案件舆情多文档生成式摘要方法 |
CN114880461B (zh) * | 2022-06-02 | 2024-10-15 | 大连理工大学 | 一种结合对比学习和预训练技术的中文新闻文本摘要方法 |
CN116976290B (zh) * | 2023-06-19 | 2024-03-19 | 珠海盈米基金销售有限公司 | 一种基于自回归模型的多场景资讯摘要生成方法以及装置 |
CN118035435B (zh) * | 2024-04-15 | 2024-06-11 | 南京信息工程大学 | 一种新闻摘要生成方法及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101008941A (zh) * | 2007-01-10 | 2007-08-01 | 复旦大学 | 多文档自动摘要的逐次主轴筛选法 |
CN107977420A (zh) * | 2017-11-23 | 2018-05-01 | 广东工业大学 | 一种演进式文档的摘要提取方法、装置及可读存储介质 |
CN110909152A (zh) * | 2019-10-21 | 2020-03-24 | 昆明理工大学 | 一种融合主题信息的司法舆情文本摘要方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2496567A1 (en) * | 2002-09-16 | 2004-03-25 | The Trustees Of Columbia University In The City Of New York | System and method for document collection, grouping and summarization |
US9881082B2 (en) * | 2016-06-20 | 2018-01-30 | International Business Machines Corporation | System and method for automatic, unsupervised contextualized content summarization of single and multiple documents |
CN108959312B (zh) * | 2017-05-23 | 2021-01-29 | 华为技术有限公司 | 一种多文档摘要生成的方法、装置和终端 |
CN109829161B (zh) * | 2019-01-30 | 2023-08-04 | 延边大学 | 一种多语种自动摘要的方法 |
CN110334188A (zh) * | 2019-07-11 | 2019-10-15 | 中国传媒大学 | 一种多文档摘要生成方法和系统 |
CN110489541B (zh) * | 2019-07-26 | 2021-02-05 | 昆明理工大学 | 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法 |
-
2020
- 2020-04-22 CN CN202010323594.5A patent/CN111597327B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101008941A (zh) * | 2007-01-10 | 2007-08-01 | 复旦大学 | 多文档自动摘要的逐次主轴筛选法 |
CN107977420A (zh) * | 2017-11-23 | 2018-05-01 | 广东工业大学 | 一种演进式文档的摘要提取方法、装置及可读存储介质 |
CN110909152A (zh) * | 2019-10-21 | 2020-03-24 | 昆明理工大学 | 一种融合主题信息的司法舆情文本摘要方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111597327A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111597327B (zh) | 一种面向舆情分析的无监督式多文档文摘生成方法 | |
CN109325112B (zh) | 一种基于emoji的跨语言情感分析方法和装置 | |
Xia et al. | Distantly supervised lifelong learning for large-scale social media sentiment analysis | |
WO2018218705A1 (zh) | 一种基于神经网络概率消歧的网络文本命名实体识别方法 | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
Li et al. | Text compression-aided transformer encoding | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN114880461B (zh) | 一种结合对比学习和预训练技术的中文新闻文本摘要方法 | |
CN111723295B (zh) | 一种内容分发方法、装置和存储介质 | |
CN110059324A (zh) | 基于依存信息监督的神经网络机器翻译方法及装置 | |
Zhao et al. | CFSRE: Context-aware based on frame-semantics for distantly supervised relation extraction | |
Zhu et al. | Robust spoken language understanding with unsupervised asr-error adaptation | |
Dhivyaa et al. | Transliteration based generative pre-trained transformer 2 model for Tamil text summarization | |
CN115329073A (zh) | 一种基于注意力机制的方面级文本情感分析方法及系统 | |
CN113988012B (zh) | 融合社交上下文与多粒度关系的无监督社交媒体摘要方法 | |
Sun et al. | GPTSee: Enhancing Moment Retrieval and Highlight Detection via Description-Based Similarity Features | |
CN116958997B (zh) | 一种基于异质图神经网络的图文摘要方法及系统 | |
Wang et al. | Multimodal transformer with adaptive modality weighting for multimodal sentiment analysis | |
CN112527866A (zh) | 基于文本摘要情感挖掘的股票趋势预测方法和系统 | |
Ma et al. | Global and local interaction matching model for knowledge-grounded response selection in retrieval-based chatbots | |
Fan et al. | Combining BERT with Bi-LSTM for emotion-cause pair extraction | |
Du et al. | Research on event extraction method based on a lite bert and conditional random field model | |
Xu et al. | Causal event extraction using causal event element-oriented neural network | |
Wu et al. | Sentiment analysis of barrage text based on albert-att-bilstm model | |
CN118227744B (zh) | 一种虚假新闻检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |