CN113032550A

CN113032550A - 一种基于预训练语言模型的观点摘要评价系统

Info

Publication number: CN113032550A
Application number: CN202110331685.8A
Authority: CN
Inventors: 蒋涵; 王雨滨; 吕松昊; 卫志华
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-06-25
Anticipated expiration: 2041-03-29
Also published as: CN113032550B

Abstract

一种基于预训练语言模型的观点摘要评价系统，包括预处理模块、观点摘要模块与算法评价模块。预处理模块包括分句处理和主观性分析，对原生语料通过分句和长度限制过滤后，借助预训练语言模型进行主观性分析以保留主观性较强的句子；观点摘要模块使用特定预训练语言模型生成语义向量并进行谱聚类，结合效果指标与少数舍弃策略获取若干个包含不同潜在主流观点的聚类簇，并从每个聚类中心附近抽取作为最终主流观点的主观句，通过语义修正以缓解口吻差异带来的阅读问题；算法评价模块借助主流观点数据集，对生成观点的主题召回率、正负极性进行自动评价，对算法生成观点与参考观点的对应程度进行人工评价，综合上述指标对摘要算法的效果给出合理评估。

Description

一种基于预训练语言模型的观点摘要评价系统

技术领域

本发明属于自然语言处理领域。

背景技术

得益于信息技术的蓬勃发展以及新冠疫情影响下人们对网络社交软件日益增长的需求，诸如论坛、视频会议等软件将逐渐成为人们日常工作生活中的重要部分，由此将带来讨论记录型语料规模的显著增加。另一方面，蓬勃的互联网技术使得人们每天能接触到大量不同领域的信息，造成了信息过载的问题，人们为了从海量信息中获取关键内容所需的时间成本大幅提升。同时，现代快节奏生活和时间的碎片化也进一步激发人们对快速捕捉关键信息、随时了解热点话题的需求。讨论记录型语料作为人们日常生活中表达立场、阐述观点的语句集合，不可避免地具有用语口语化、语法不规范、观点多而杂等特点。如何运用自然语言处理技术，从讨论记录中获取主要观点并以摘要的方式呈现，是互联网+时代下进行舆情分析、快速获取热点话题关键信息的一个重要课题。

传统的摘要技术往往将语料中的句子转化成语义单元序列，通过提取抽象语义和序列信息对词句进行表征。这种算法在针对用语规范的语料，如新闻报道、正式会议讲话、科技文献时有着不错的表现，然而面对口语化严重的讨论记录型语料，容易表现出以下不足：

1)讨论记录型语料包含大量的个人亲历和客观事实阐述，这些内容无法直接体现主要观点，而传统的摘要技术难以将这些语句和其它语句加以区分；2)讨论记录型语料包含观点多而杂，传统的摘要技术难以真正获取其中的主要观点；3)讨论记录型语料口语化严重，传统摘要技术得出的结果可能有明显的语句不通和歧义，摘要结果难以阅读；4)传统摘要相对单一的评价标准不适用于讨论记录型语料的摘要，而目前尚未有一种针对此类语料摘要的评价标准。因此，目前亟待发明一种能够有效筛选出讨论记录型语料中的强主观性语句，获取其中的主流观点并生成摘要的新型自动摘要算法及其相应的评价标准。

发明内容

在正处于并可能长期处于新冠疫情影响下的互联网+时代，网络会议、论坛等社交工具的使用热度将在未来一段时间内持续增长。如何从生命周期较短、体量庞大的讨论记录中及时获取主要观点和情感倾向，是进行舆情调查等工作的关键问题。随着自然语言处理领域预训练模型的快速发展和连续突破，基于预训练语言模型与讨论记录特征，设计自动摘要算法及算法评价标准成为解决该问题的可行途径。

现有自动摘要算法将文本中的句子建模成语义单元序列，提取抽象的语义和序列信息对词、句进行表征，将自动摘要任务转化成序列任务。这种方法应用面广泛，在新闻标题生成、科技文献摘要生成、搜索结果片段选取、评论摘要生成等应用场景下发挥均较出色，但仍具有一定局限性：对大型语言模型进行预训练成本较高，需要特定的训练数据；待摘要的文本多为上下文关联较为紧凑、长度中等偏短的连贯文本，对其他类型的语料摘要能力较差。

讨论记录的特点有时效性短、数据量大、上下文关联不一定紧密，以及围绕一个主题展开，但同时包含多种观点主旨与情感倾向等。并且，与现有的多文档摘要任务中的多文档比较，讨论记录的结构化程度更弱，即少有或没有以长度相近的单篇文档为基本单元的内部结构；口吻或文体不统一，口语与书面、议论与记叙等并存；包含的情感信息更为复杂多变。因此本申请提出一种基于预训练语言模型的观点摘要算法及其评价标准，以便新语料的挖掘。

为此，给出技术方案：

一种基于预训练语言模型的观点摘要评价系统，其特征在于，主要组件包括预处理模块、观点摘要模块与算法评价模块。预处理模块从原生讨论记录语料中获取所有长度在一定范围内的主观句，即表达观点、评价、情感、信念、推测、判断、指控或立场的句子，以快速地初步缩小信息规模；模块包括分句处理和主观性分析，首先通过分句等处理获取长度适中、单句包含至多一种观点或情感的句子集合，并滤去可能存在的非文本信息等，主观性分析借助预训练语言模型对集合中句子进行二分类以实现保留主观句目的。观点摘要模块从同一话题下的全部主观句中提取若干主流观点；模块首先使用特定预训练语言模型进行指定方向的语义挖掘，获取主观句表征即语义向量，并对语义向量进行谱聚类，结合效果指标与少数舍弃策略获取一定数量的聚类簇，每个聚类簇代表一个潜在的主流观点，再从类簇中心抽取作为最终主流观点的主观句，进行语义修正以缓解口吻差异带来的阅读问题。算法评价模块提出了一种结合自动与人工评价，适用于观点摘要算法的三段式评价标准；模块借助自行标注的主流观点数据集，通过对生成观点的主题召回率、正负极性进行自动评价，对算法生成观点与参考观点的一一对应程度进行人工评价，并综合上述评价标准，对主流观点自动摘要算法的效果给出合理评估。

本发明对时下热度逐渐升高的讨论记录型语料进行全面观察，充分掌握其特点与和现有语料的差异，并结合自然语言处理领域前沿的预训练语言模型设计自动摘要算法，算法中对摘要任务的具体操作和要求进行了适应性改动；最后提出一种配套的观点摘要算法评价标准，拓展了观点挖掘、舆情调查领域的理论方法，有利于相关工作的深入推进。

有益效果

1)本发明针对讨论记录型语料包含口语化严重、陈述客观事实等不适合作为摘要的语句这一问题，通过人工标注的训练语料和预训练语言模型，构建主观性分析模型，筛选出主观性强的句子，对语料中的关键信息进行初步挖掘并快捷缩小了语料规模，显著提升了后续观点挖掘、自动摘要等步骤的效果并缩短了计算时间，为解决语料用语不规范、口语化严重、事实陈述多等问题提供新的方法。

2)本发明针对讨论记录型语料的自动摘要任务，提出了综合考虑主题召回率、正负观点极性和与参考观点对应程度这三个指标的评价标准，解决了传统自动摘要算法评价标准单一，不适用于讨论记录型语料的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1本发明的整体框架示意图

图2预处理模块结构示意图

图3观点摘要模块结构示意图

具体实施方式

以下将配合附图及实施例来详细说明本发明的实施方式，藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

本发明公开了一种基于预训练语言模型的讨论记录自动摘要系统，对所有讨论者围绕同一话题展开的讨论记录进行摘要，生成若干主流观点。本发明定义同一话题u下，讨论记录中的主观句集合为C_u＝{c_u,1,c_u,2,...,c_u,k}。本发明定义使用预训练语言模型计算得到C_u中各主观句的语义向量为V_u＝{v_u,1,v_u,2,...,v_u,k}，例如句子c_u,1的语义向量表示为d维的向量v_u,1∈R^d。对于任意话题u在聚类模块中，产生的第m个聚类簇，定义簇中主观句集合为

相应的语义向量集合为

摘要模块中，算法最终生成的主流观点(下称“生成观点”)集合为

数据集中人工标注整理得到的主流观点(下称“参考观点”)集合为

其中p,q示观点数量。

第一部分、预处理模块

1.1分句处理子模块

1)对原始语料采用分句操作：对于同一话题的所有讨论通过标点符号的方式进行分句，每一句中基本保留了讨论者较完整的语义表述，并将不同讨论分句得到的句子集合合并成关于同一话题的整个句子集合。

2)对分句进行预处理：由于不能保证分句后句子的长度和特殊符号的出现次数以及是否出现乱码情况，因此需要对分句后的句子进行预处理，将长度控制在200字以内以适应后续的主观性分析模型，并保证汉字的占比超过某一特定比例以排除乱码的情况。

1.2主观性分析子模块

1)主观性数据的判定标准：对于某一条句子，需要通过语义层面的深入理解以判断是否带有主观性，基本判定标准如下：包含“认为”、“觉得”、“希望”等表示主观态度的词汇或蕴含道理与总结性评价的句子都被列入主观性数据的范畴；而包含例子或事实的描述性句子以及过于口语化的句子都被排除出主观性数据的范畴。按照上述标准对已有的实验数据外的讨论数据进行二分类标注，将最终结果作为主观性分析的训练语料。

2)主观性分析模型构建：本发明利用上述训练语料结合BERT预训练模型构建主观性分析模型，将实验语料的句子集合放入训练好的模型中进行预测，即可得到对于每一条句子的主观性预测概率，通过只选取主观性较强的句子对整个集合进行过滤，最终得到用于后续步骤的主观性语料，其中话题u的主观句集合为C_u＝{c_u,1,c_u,2,...,c_u,k}。这些讨论语句能够带有很强的观点特征，与本发明的摘要目标有着很强的相关性；并且由于过滤了大部分无关语料以缩小语料规模，能够加快后续步骤的计算时间。

第二部分、观点摘要模块

2.1语义向量构建子模块

对于话题u下的主观句集合C_u＝{c_u,1,c_u,2,...,c_u,k}，首先获取集合C_u中的最长句子长度，将集合中所有句子重复延长至同一长度，多余部分从单侧截断，以最小化句子长度差异对后续向量计算与聚类效果的影响；然后使用特定的预训练语言模型，如在Sentence-BERT架构下微调BERT得到的多语言语义挖掘模型distiluse-base-multilingual-cased-v2计算主观句的语义表征，得到语义向量集合V_u＝{v_u,1,v_u,2,...,v_u,k}，以提取主观句中的语义与情感信息。

2.2基于谱聚类的语义向量聚类子模块

在完成对所有句子的语义向量构建后，本发明利用谱聚类根据语义向量对句子进行谱聚类，挖掘句子集合中不同态度的数目以及占比情况，以此反应群体对于该话题的总体观点趋向。谱聚类是一种广泛使用的聚类算法，比起传统的K-Means算法，谱聚类对数据分布的适应性更强，聚类效果也很优秀，由于是从图论中演化出来的算法，这与讨论语句间构成的网状语义结构十分类似，能够很有效地捕捉观点间的语义相似性，以此提高聚类效果。

1)最优超参数选取：本发明对于某一个话题下的集合，通过调整谱聚类超参数的方式获得效果最优的聚类模型，其中谱聚类的主要超参数有聚类个数n_cluster以及核系数gamma，由于需要保证聚类个数充足且不能过多，因此选择在3至6之间进行调整(最终获得的聚类数目可能会小于该值)，而核系数通过初步尝试，基本确定在0.005至0.3之间进行调整。轮廓系数是一种对聚类效果是否合理、有效的度量，主要结合了簇内的凝聚度和簇间的分离度，具体对于其中的一个向量i来说，它的轮廓系数为

其中a(i)表示向量i到同一簇内其他点不相似程度的平均值，b(i)表示向量i到其他簇的平均不相似程度的最小值,所有点的轮廓系数的平均值即为该聚类结果总的轮廓系数，可见轮廓系数的值是介于[-1,1]，越趋近于1代表内聚度和分离度都相对较优。本发明对使用不同超参数得到的聚类结果通过轮廓系数进行评估，以找到效果最优时的超参数组合。

2)聚类模型构建与少数舍弃策略：在选取最优超参数完毕之后就是最终谱聚类模型的构建，由于本发明的摘要目标主要面向主流观点，因此在生成聚类结果后，需要舍弃那些句子数量占比较小的聚类簇，以使保留下来的聚类簇表示的观点取向基本属于主流观点的范畴且不丢失过多原讨论句子集合中的信息。例话题u的第r个句子集合表示为

则经过少数舍弃策略,最终能够得到同一话题下代表不同观点的主观句类簇，其中话题u的第m个主观句类簇表示为

对应的向量集合为

且满足

2.3确定首选摘要子模块

本发明针对上述生成的句子集合与向量集合，利用欧式距离计算所有向量与所在类的聚类中心的距离并排序，找出每个类中距离最近的向量所对应的句子作为该类的首选摘要，并另选除此之外的若干距离最近的向量对应的句子作为候选摘要，其中话题u的第m个集合的聚类中心

的计算公式为

由于最终观点的字数过多可能会影响阅读效果，因此需要避免出现首选摘要过长的情况，此时应在候选摘要中选择符合字数限制的句子作为替代后的首选摘要。最终得到的首选摘要应满足

存在于原句子集合中，即未对原句进行任何修改。

2.4对首选摘要进行语义修正以获得主流观点子模块

由于首选摘要往往会出现口语化或语义不符合最终观点摘要模板的情况，因此本发明在原句的基础上对首选摘要进行语义修正，去除口语化等问题，以适用于摘要模板并生成主流观点。该过程基于对人们语言习惯的规律进行的挖掘，从讨论句中得到真正包含观点的语句，而剔除一些与观点提出无关紧要的短语，例如“总而言之”、“有一说一”、“不得不说”等；除此之外，句子中的人称代词同样也需要进行改动，例如将“我”替换成“自己”；省略句和感叹句等同样也要进行修改，在修改标点符号的基础上还需要对语气词进行过滤，以使观点的陈述更加正式。

第三部分、算法评价模块

3.1对主题召回率进行自动评价子模块

最基本地，为考察算法生成摘要即各主流观点对讨论记录中关键语义信息的召回程度，参考传统摘要评价方式ROUGE进行主题召回率计算。定义话题u的生成观点集合为

参考观点集合为

其中p,q示观点数量。生成观点集合X_u对参考观点集合Y_u的n元主题召回率为Recall_n(u)，利用如下公式进行计算：

其中

为生成观点集合X_u对参考观点

的n元主题召回率，计算方式如下：

上式中分子是X_u与

中能够匹配的n-gram个数，分母是

中的n-gram个数。

θ_r为完整度系数，理论上，当生成观点集合对各参考观点的主题召回率之和一定时，各参考观点中包含的关键语义信息被均等地提取的情况下，摘要效果优于部分参考观点中包含的关键语义信息被更充分地提取，而另一部分被忽略的情况。因此，

随i的变动程度越小，即方差越小，完整度系数θ_r的值越大，计算方式如下：

3.2对正负极性进行自动评价子模块

接下来，为考察算法生成的主流观点体现的总体情感倾向是否正确，通过计算、比对生成观点与参考观点的正负极性比例进行评估。定义话题u下生成观点集合X_u的正负极性分数为Polar(u)，利用如下公式进行计算：

其中

为话题u下经情感分类，被标记为正类的生成观点数；

为正参考观点数。

3.3对观点匹配程度进行人工评价子模块

最后，为考察生成观点和参考观点的一一对应程度，本发明借助人工评价进行打分。定义话题u下生成观点集合X_u与参考观点集合Y_u的观点匹配分数为Match(u)。理论上，能够匹配上，即被评判为相似的生成-参考观点组越多，匹配分数越高；所有观点全部匹配上时，话题的参考观点数量越多，代表对该话题进行观点摘要难度越大，匹配分数越高；此外，对于重复或多义的生成观点，应在计分时体现一定减益。

因此，按照生成观点的主次即类簇大小降序排列，评分者依次将每个生成观点与当前未匹配且最相似的参考观点进行匹配，获取若干匹配观点组(x,y)与每组观点的相似性分数Scr_u(x,y)，则Match(u)可利用如下公式进行计算：

其中θ_m为奖励系数，当所有观点均匹配上时，话题的参考观点数量q越多，θ_m越大，计算公式如下：

相似性分数Scr_u(x,y)由评分者通过比对观点得出，为尽可能统一标准，拟定评分规则为：搭边即有部分关键词相似，0.3分；生成观点包含参考观点的部分语义，0.6分；参考观点包含生成观点的部分语义，0.7分；语义重合或高度相似，1.0分。

3.4最终评分子模块

上述三项分数Recall_n(u),Polar(u),Match(u)均小于1，实际应用中，可按需进行加权平均获取最终评分Score(u)，计算公式如下：

其中α_r,n,α_p,α_m为系数。

上述说明展示并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

创新点

创新点一：构建主观性分析模型

讨论记录是人们对各种问题的相对自由随性的回答，语句较口语化，同时多借助个人经历、联想、比喻等阐发自己的看法，即包含大量不直接表达观点的语句。这些语句在后续的语义挖掘和自动摘要过程中会极大地影响模型效果，使其无法得到准确的语义和观点。本发明通过人工标注，自行构建大体量的主观性分析语料集，并结合预训练模型，构建主观性分析模型，该模型能够预测输入语句是主观性语句的概率。通过模型对实验语料的预测结果，筛选出直接表达观点的、主观性较强的句子，得到主观性语料。主观性语料带有强烈的观点特征，更适合进行后续任务，同时在语料规模上明显缩小，减少了后续步骤的计算时间。

创新点二：综合三种指标的评测标准

传统的摘要算法评测标准往往只考虑摘要结果在某一指标上的表现，而讨论记录型语料一般包含多个观点，且观点之间语义差异较大，传统的评测标准难以体现摘要结果的真实表现。考虑到此类摘要的关键在于准确获取原始语料中的主流观点，本发明提出了一种针对讨论记录型语料的全新评价标准，通过结合主流观点语料集，利用三个指标综合评价自动摘要的效果。该评价标准借助人工标注的主流观点数据集，对生成观点在主题召回率、正负极性两个指标上的表现进行自动评价，再人工评价生成观点与参考观点的对应程度，最后综合考虑生成观点在以上三个指标上的表现，得出一个较为综合全面的评价结果。

Claims

1.一种基于预训练语言模型的观点摘要评价系统，其特征在于，包括预处理模块、观点摘要模块和算法评价模块；预处理模块包括分句处理和主观性分析，首先通过分句处理获取长度适中、单句包含至多一种观点或情感的句子集合，并筛去可能存在的非文本信息，主观性分析借助预训练语言模型对集合中句子进行二分类，以实现保留主观句目的；观点摘要模块，首先使用特定预训练语言模型进行指定方向的语义挖掘，获取主观句表征即语义向量，并对语义向量进行谱聚类，结合效果指标与少数舍弃策略获取若干聚类簇，每个聚类簇代表一个潜在的主流观点群，再从类簇中心抽取作为最终主流观点的主观句并进行语义修正；算法评价模块，结合自动与人工评价，适用于观点摘要算法的三段式评价标准，借助自行标注的主流观点数据集，通过对生成观点的主题召回率、正负极性进行自动评价，对算法生成观点与参考观点的一一对应程度进行人工评价，最后综合上述评价标准评估主流观点自动摘要算法的效果。

2.如权利要求1所述的一种基于预训练语言模型的观点摘要评价系统，其特征在于，预处理模块中进行主观性分析时，对微调预训练模型使用的语料进行标注，标注过程中对于“主观性数据”的判定标准为：

对于某一条句子，需要通过语义层面的深入理解以判断是否带有主观性，包含“认为”、“觉得”、“希望”表示主观态度的词汇或表达观点、评价、情感、信念、推测、判断、指控或立场的句子，都被列入主观性数据的范畴，而包含例子或事实的描述性句子，以及过于口语化的句子，都被排除出主观性数据的范畴；然后使用训练数据构建主观性分析模型。

3.如权利要求2所述的一种基于预训练语言模型的观点摘要评价系统，其特征在于，构建主观性分析模型，具体包括：

使用语料对预训练语言模型BERT进行微调后，即得到主观性分析模型，将分句处理所得句子集合输入主观性分析模型中进行预测，得到每条句子的主观性预测概率，通过设定概率阈值对整个句子集合进行过滤，保留的讨论语句具备较强主观性，在后续步骤中用于主流观点提取。

4.如权利要求1所述的一种基于预训练语言模型的观点摘要评价系统，其特征在于，观点摘要模块中构建语义向量：

对于同一话题下的主观句集合，首先获取集合中的最长句子长度，将集合中所有句子重复延长至同一长度，多余部分从单侧截断，以最小化句子长度差异对后续向量计算与聚类效果的影响；然后使用在Sentence-BERT架构下对预训练模型BERT进行微调，得到的多语言语义挖掘模型distiluse-base-multilingual-cased-v2计算主观句的语义表征，得到语义向量集合，以提取主观句中的语义与情感信息。

5.如权利要求1所述的一种基于预训练语言模型的观点摘要评价系统，其特征在于，算法评价模块的具体实施方式包括：

1)对主题召回率进行自动评价，最基本地，为考察算法生成摘要即各主流观点对讨论记录中关键语义信息的召回程度，参考传统摘要评价方式ROUGE进行主题召回率计算，定义话题u的生成观点集合为

参考观点集合为

其中p，q示观点数量。生成观点集合X_u对参考观点集合Y_u的n元主题召回率为Recall_n(u)，利用如下公式进行计算：

其中

为生成观点集合X_u对参考观点

的n元主题召回率，计算方式如下：

上式中分子是X_u与

中能够匹配的n-gram个数，分母是

中的n-gram个数；

θ_r为完整度系数，理论上，当生成观点集合对各参考观点的主题召回率之和一定时，各参考观点中包含的关键语义信息被均等地提取的情况下，摘要效果优于部分参考观点中包含的关键语义信息被更充分地提取，而另一部分被忽略的情况，因此，

2)对正负极性进行自动评价，为考察算法生成的主流观点体现的总体情感倾向是否正确，通过计算、比对生成观点与参考观点的正负极性比例进行评估，定义话题u下生成观点集合X_u的正负极性分数为Polar(u)，利用如下公式进行计算：

其中

为话题u下经情感分类，被标记为正类的生成观点数，

为正参考观点数；

3)对观点匹配程度进行人工评价，为考察生成观点和参考观点的一一对应程度，本发明借助人工评价进行打分，定义话题u下生成观点集合X_u与参考观点集合Y_u的观点匹配分数为Match(u)；

理论上，能够匹配上，即被评判为相似的生成-参考观点组越多，匹配分数越高；所有观点全部匹配上时，话题的参考观点数量越多，代表对该话题进行观点摘要难度越大，匹配分数越高；此外，对于重复或多义的生成观点，应在计分时体现一定减益；

因此，按照生成观点的主次即类簇大小降序排列，评分者依次将每个生成观点与当前未匹配且最相似的参考观点进行匹配，获取若干匹配观点组(x，y)与每组观点的相似性分数Scr_u(x，y)，则Match(u)可利用如下公式进行计算：

相似性分数Scr_u(x，y)由评分者通过比对观点得出，为尽可能统一标准，拟定评分规则为：搭边即有部分关键词相似，0.3分；生成观点包含参考观点的部分语义，0.6分；参考观点包含生成观点的部分语义，0.7分；语义重合或高度相似，1.0分；

4)最终评分，上述三项分数Recall_n(u)，Polar(u)，Match(u)均小于1，实际应用中，可按需进行加权平均获取最终评分Score(u)，计算公式如下：

Score(u)＝∑_nα_r，nRecall_n(u)+α_pPolar(u)+α_mMatch(u)。

其中α_r，n，α_p，α_m为系数。