CN112131452A

CN112131452A - 一种基于gpt-2模型的网络舆情引导方法及装置

Info

Publication number: CN112131452A
Application number: CN202010891856.8A
Authority: CN
Inventors: 朱国胜; 吴善超
Original assignee: Hubei University; CERNET Corp
Current assignee: Hubei University
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-25

Abstract

一种基于GPT‑2模型的网络舆情引导方法及装置，包括：GPT‑2中文网络舆情模型训练模块，用于将网络社交平台中的网络舆情进行去噪处理后输入模型训练模块中，得到一个可以根据指定网络舆情主题预测产生指定数量舆情文本的神经网络模型；引导性网络舆情文本生成模块，用于调用GPT‑2中文网络舆情模型，生成指定数量舆情文本；引导性网络舆情文本投放模块，根据用户填写的舆情平台将生成的引导性网络舆情文本进行舆情发布，从而对于现有热点舆情产生引导；网络舆情引导效果统计模块，用于对引导效果进行评估，从而得出当前引导的效果，同时依据效果来变更引导舆情的发布。所述方法能够自动化生成引导性舆情文本内容，并自动投放到舆情平台上，从而引导舆情。

Description

一种基于GPT-2模型的网络舆情引导方法及装置

技术领域

本发明涉及信息处理技术领域，具体涉及一种基于GPT-2模型的网络舆情引导方法及装置。

背景技术

随着软硬件的高速发展，互联网已经是每个人最重要的信息来源和社交场所。社交应用等新型社会媒体为信息的在线传播提供了极为迅捷的传播途径。因此，用户通过高速发展的互联网创造了大量的信息，其中在某些社会事件的发生、发展、变化过程中，产生的社会态度，称之为舆情。舆情包括了用户间的传播行为，评价行为，时序行为等等特征。当这些数据及用户活动的主体位于互联网时，所有的数据都以流量的形式传递。此时，社会舆论在网络空间体现为网络舆情。

伴随互联网的高速发展，区域网络舆情的不可预知性和混乱性大大增加，对网民，尤其是区域用户产生了大量负面影响和错误信息。区域管理者及有关部门如果能在短时间内获得区域网络舆情预警并辅以正面引导，则可避免一系列负面事件，并有效降低后续事件处理成本。

国内的网络舆情的分析和研究方面，有越来越多的企业将目光投向舆情监测系统的开发，包括：方正集团开发的智思服务平台，用于对全网舆情进行分析监控，同时根据舆情的载体来源将舆情划归到不同部门，主要服务于政府，百度集团开发的基于百度搜索引擎的百度舆情系统服务于政企提供了舆情监测、热点及风险事件监控、商机感知等模块，其通过对搜索引擎为入口的舆情进行采集分析相较于其余系统有着先天优势，对于数据的敏感性更加精准同类型的还有新浪集团开发的新浪舆情通平台，采集分析用户的微博内容得到第一手舆情信息，并能很好的和其本身的产品结合。

对于国外网络舆情课题的状况，在2002年美国就已经开始了相关研究，同年主题监测追踪系统被开发应用。该系统主要面向传统新闻媒体，捕捉它们的产出数据,将其分为未知主题和已知主题，分别对其进行识别与跟踪，涉及信息检测、数据采集等技术。

国内外对于舆情监测系统进行了一系列的研究工作，偏重与舆情信息的分析处理，情感倾向的预警监测。研究主体集中在数据的抽取、结构化存储和文本分析上。但是，并没有将目光聚焦在舆情倾向监测之后的引导工作。对于舆情引导的研究基本集中在监测之后的消息警告上，之后的正面引导一般对于严重的负面舆情会由舆情对应的事件产生机构/组织投入人手精力进行引导，对于较轻微的甚至交由时间，让其余的热点舆情慢慢覆盖当前的负面舆情。

综上所述，需要提供一种能够自动化生成引导性舆情文本内容并能自动投放的网络舆情引导方法和装置。

发明内容

本发明的目的是：为了解决上述问题，本发明提出了一种基于GPT-2模型的网络舆情引导方法及装置。

为了解决上述问题，本发明所采用的技术方案是：

一种基于GPT-2模型的网络舆情引导方法，其特征在于，包括：

GPT-2中文网络舆情模型的训练：将网络社交平台中的话题的主题信息和评论信息进行去噪处理后输入指定的模型训练模块中，得到一个能够根据指定中文网络舆情主题预测产生指定数量舆情文本的神经网络模型，即GPT-2中文网络舆情模型；

引导性网络舆情文本的生成：通过调用GPT-2中文网络舆情模型，生成指定数量的引导性网络舆情文本，并将引导性网络舆情文本予以存储，供引导性网络舆情文本投放环节使用；

引导性网络舆情文本的投放：根据用户填写的各个重要舆情平台的身份密钥调用或模拟对应舆情平台的舆情发布功能，将生成的引导性网络舆情文本进行舆情发布，从而对现有热点舆情产生引导；

网络舆情引导效果的统计：对引导效果进行评估，从而得出当前引导的效果，同时依据效果来变更引导舆情的发布。

进一步的，所述GPT-2中文网络舆情模型的训练包括：

优化的中文GPT-2预训练模型：基于原始GPT-2模型采用经过整理标注的中文数据集预训练模型；

训练数据自动化标注：通过对网络舆情特征数据的信息提取，设立符合GPT-2模型输入的标注规则；

中文网络舆情模型自动化训练：将经过自动化标注的舆情数据输入中文网络舆情模型自动化训练。

进一步的，所述引导性网络舆情文本的生成包括：

网络舆情主题指定：可供输入的网络舆情主题指定，将指定的内容输送至下一个中文网络舆情文本生成模型进行调用；

中文网络舆情文本生成模型调用：将网络舆情主题指定的舆情主题输入到中文网络舆情文本生成模型，并指定模型生成文本数量，并将生成舆情文本送至网络舆情文本存储环节；

中文网络舆情文本存储：将舆情文本输入存储到数据库中，并供引导性网络舆情文本投放环节使用。

进一步的，所述引导性网络舆情文本的投放包括：

网络舆情投放平台及账户指定：接收网络舆情投放平台的选择并存储需要用于投放舆情的该平台账户；

网络舆情文本投放：调用指定舆情投放平台接口或模拟调用投放平台舆情发布的方法，将舆情通过指定的平台账户投放出去。

进一步的，所述网络舆情引导效果的统计包括：

网络舆情投放前及投放后舆情正面及负面倾向比例记录：在引导性网络舆情文本投放模块运行前和运行后统计当时舆情正面及负面倾向比例。

本发明还提供一种基于GPT-2模型的网络舆情引导装置，其特征在于，包括：

GPT-2中文网络舆情模型训练模块，用于将网络社交平台中的话题的主题信息和评论信息进行去噪处理后输入指定的模型训练模块中，得到一个可以根据指定中文网络舆情主题预测产生指定数量舆情文本的神经网络模型，供引导性网络舆情文本生成模块调用；

引导性网络舆情文本生成模块，用于调用GPT-2中文网络舆情模型，生成指定数量舆情文本，并将舆情文本予以存储并发送到引导性网络舆情文本投放模块；

引导性网络舆情文本投放模块，用于根据用户填写的各个重要舆情平台的身份密钥调用或模拟对应舆情平台的舆情发布功能，将生成的引导性网络舆情文本进行舆情发布，从而对于现有热点舆情产生引导；

网络舆情引导效果统计模块，用于对引导效果进行评估，从而得出当前引导的效果，同时依据效果来变更引导舆情的发布。

进一步的，所述GPT-2中文网络舆情模型训练模块包括：

优化的中文GPT-2预训练模型单元，基于原始GPT-2模型采用经过整理标注的中文数据集预训练模型；

训练数据自动化标注单元，通过对网络舆情特征数据的信息提取，设立符合GPT-2模型输入的标注规则；

中文网络舆情模型自动化训练单元，将经过自动化标注的舆情数据输入中文网络舆情模型自动化训练。

进一步的，所述引导性网络舆情文本生成模块包括：

网络舆情主题指定单元，可供输入的网络舆情主题指定，将指定的内容输送至下一个中文网络舆情文本生成模型调用单元；

中文网络舆情文本生成模型调用单元，将网络舆情主题指定单元的舆情主题输入到中文网络舆情文本生成模型，并指定模型生成文本数量，并将生成舆情文本输入到网络舆情文本存储单元；

中文网络舆情文本存储单元，用于将舆情文本输入存储到数据库中，并供引导性网络舆情文本投放模块使用。

进一步的，所述引导性网络舆情文本投放模块包括：

网络舆情投放平台及账户指定单元，用于接收网络舆情投放平台的选择并存储需要用于投放舆情的该平台账户；

网络舆情文本投放单元，用于调用指定舆情投放平台接口或模拟调用投放平台舆情发布的方法，将舆情通过指定的平台账户投放出去。

进一步的，所述网络舆情引导效果统计模块包括：

网络舆情投放前及投放后舆情正面及负面倾向比例记录单元，用于在引导性网络舆情文本投放模块运行前和运行后统计当时舆情正面及负面倾向比例。

本发明提供的上述技术方案的有益效果至少包括：本发明通过基于GPT-2的中文舆情模型生成符合指定舆情主题的舆情文本数据集，并投放到指定的平台上，从而引导该舆情平台的负面舆情。

其中，设置了GPT-2中文网络舆情模型训练模块，借助GPT-2预训练模型的高可用性，从而得到了符合中文网络舆情文本特点的预训练模型。

其中，设置了引导性网络舆情文本生成模块，从而系统的将GPT-2中文网络舆情模型训练模块应用在文本生成中，高效批量产生引导性网络舆情文本。

其中，设置了引导性网络舆情文本投放模块，将引导性网络舆情文本生成模块产出的引导性舆情文本快速投放到负面舆情较大的舆情平台，从而在根本上达到了舆情正面引导的作用。

其中，设置了网络舆情引导效果统计模块，可以有效的将每一次舆情引导的工作过程进行分析统计，将引导效果作为GPT-2中文网络舆情模型训练模块的训练参数，循环加强模型的准确性，同时达到了对每次舆情引导过程溯源留存的功能。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明实施例公开的一种基于GPT-2模型的网络舆情引导方法的示意图；

图2是本发明实施例公开的一种基于GPT-2模型的网络舆情引导方法的结构示意图；

图3是本发明实施例公开的一种基于GPT-2模型的网络舆情引导方法的优化的中文GPT-2预训练模型训练流程图；

图4是本发明实施例公开的一种基于GPT-2模型的网络舆情引导方法的优化的中文GPT-2预训练模型标注示例图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本申请的实施方式，提出一种基于GPT-2模型的网络舆情引导方法及装置，如图1所示，包括：

GPT-2中文网络舆情模型训练模块M1，用于将网络社交平台中的话题的主题信息和评论信息进行去噪处理后输入指定的模型训练模块中，得到一个可以根据指定中文网络舆情主题预测产生指定数量舆情文本的神经网络模型，供引导性网络舆情文本生成模块调用；

引导性网络舆情文本生成模块M2，用于调用GPT-2中文网络舆情模型，生成指定数量舆情文本，并将舆情文本予以存储并发送到引导性网络舆情文本投放模块；

引导性网络舆情文本投放模块M3，用于根据用户填写的各个重要舆情平台的身份密钥调用或模拟对应舆情平台的舆情发布功能，将生成的引导性网络舆情文本进行舆情发布，从而对于现有热点舆情产生引导；

网络舆情引导效果统计模块M4，用于对引导效果进行评估，从而得出当前引导的效果，同时依据效果来变更引导舆情的发布。

其中，如图2所述，M1模块包括：

优化的中文GPT-2预训练模型单元，基于原始GPT-2模型采用经过整理标注的中文数据集预训练模型。

对于舆情文本的生成随着AI技术的发展，越来越多的无监督预训练模型诞生：2019年2月OpenAI团队正式发表GPT-2预训练模型。在问答、阅读理解、自动摘要、翻译等其他语言任务中，无需对GPT-2模型做任何微调，只需以正确的方式增强模型，就能取得令人惊艳的结果。

GPT-2优于在特定领域(如维基百科、新闻或书籍)上训练的其它语言模型，而且还不需要使用这些特定领域的训练数据。在知识问答、阅读理解、自动摘要和翻译等任务上，GPT-2可以从原始文本开始学习，无需特定任务的训练数据。GPT-2的模型能够从各种各样的提示生成样本数据，这些数据在感觉上已经接近了人类的回答。

GPT-2中文舆情预训练模型认为可以用无监督的预训练模型去做有监督任务。

本申请通过对GPT-2的研究，使用大量中文文本(主要包括清华大学自然语言处理与社会人文计算实验室发布的THUCNews数据集和搜狗实验室开发中文文本数据集)参照GPT-2模型训练过程训练了优化的中文GPT-2预训练模型。中文GPT-2舆情预训练模型的流程如图3所示，整理舆情训练数据集之后，将数据输入到GPT-2转换块中，转换快是一个自回归的解码块集，该解码块基于TransFormer框架构建，同时将已经输出标签的训练数据作为下一轮数据输入。

训练数据自动化标注单元，通过对网络舆情特征数据的信息提取，设立符合GPT-2模型输入的标注规则，将每个新闻文本的主题和新闻文本内容分别标注，由于本模型最终生成的语料为舆情语料，不适宜过长。因此将文本内容，依照句子和词语长度进行划分，便于后续训练处理。同时本申请对所有数据集做了如下的归一化处理：

1)编码处理：由于所采用的数据集部分内容较早，使用Unicode字符串作为UTF-8的字节序列，因此归一化为UTF-8格式文本；

2)去噪处理：本申请观察发现，部分数据集的文本存在断开的标点符号、中英文缩写、错词错字。本申请开发了一个可逆的去噪处理工具，以枚举的逻辑对每个噪声点进行了标记去除，并此过程可逆以防出现不可预知的大量文本去除情况。

如图4所示，是一个标注示例。

中文网络舆情模型自动化训练单元，将经过自动化标注的舆情数据输入中文网络舆情模型自动化训练，包括以下步骤：

1)对本申请采用的数据集进行自回归训练任务，将所有的n个文本数据视为(x₁，x₂，...，x_n)，将每个文本内容都认为是可变长度的符号序列(s₁，s₂，...，s_m)。本申请选用的是中文新闻文本数据集，因此具有自然的语言顺序。随后对每个s进行联合概率分布的计算，即得到每个文本内容出现的联合概率分布，同时联合概率可以拆分为多个条件概率的乘积，如下公式。

2)在训练过程中，允许对p(x)以及形如p(s_n-k，...，s_n|s₁，s₂，...，s_n-k-1)的所有条件概率设置可以追溯的取样和估计值。

其中，M2模块包括：

网络舆情主题指定单元，可供输入的网络舆情主题指定，将指定的内容输送至下一个中文网络舆情文本生成模型调用单元，将指定的舆情主题进行记录，该主题本身其实就相当于M1模块中的训练数据，将该值作为下一个单元的输入即可。

中文网络舆情文本生成模型调用单元，将网络舆情主题指定单元的舆情主题输入到中文网络舆情文本生成模型，并指定模型生成文本数量，并将生成舆情文本输入到网络舆情文本存储单元。在本单元中将网络舆情主题指定单元指定的舆情文本和生成舆情文本的数量值，输入中文网络舆情模型中，模型输出预测的对于数量的中文舆情文本。

中文网络舆情文本存储单元，用于将舆情文本输入存储到数据库中，并供引导性网络舆情文本投放模块使用，如表1所示，是数据库的存储字段设计。

表1

其中，M3模块包括：

网络舆情投放平台及账户指定单元，用于接收网络舆情投放平台的选择并存储需要用于投放舆情的该平台账户。

网络舆情文本投放单元，用于调用指定舆情投放平台接口或模拟调用投放平台舆情发布的方法，将舆情通过指定的平台账户投放出去。在本次实施过程中，使用新浪微博作为舆情投放平台，使用申请人微博账户作为投放账户，本次实施过程中，通过调用新浪微博的开放API接口，获取申请人账户的授权token：webim_unReadCount＝％7B％xxxxxx.使用该token调用新浪微博的开放API中的发布微博功能，从而将M2模块生成的舆情文本发布到舆情平台。

其中，M4模块包括：

网络舆情投放前及投放后舆情正面及负面倾向比例记录单元，用于在引导性网络舆情文本投放模块运行前和运行后统计当时舆情正面及负面倾向比例，本实施过程中，使用新浪微博的微舆情平台作为正面及负面倾向来源数据平台，在实施M3模块之前，将M2模块中指定的舆情主题作为搜索值，得到舆情引导前的正面及负面倾向比例。但M3模块实施之后，再次搜索M2模块实施过程中指定的舆情主题，得到了投放后的舆情正面及负面倾向比例记录。

本实施例采用精确率(P)作为实验的评价标准，其计算如下，其中T_p为模型正确生成文本个数，F_p为模型生成的不相关的文本的个数。

M2指定的舆情主题为A，指定模型生成了100组数据，每组数据共10条文本，最终实验结果如表2所示。

表2

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种基于GPT-2模型的网络舆情引导方法，其特征在于，包括：

2.如权利要求1所述的一种基于GPT-2模型的网络舆情引导方法，其特征在于，所述GPT-2中文网络舆情模型的训练包括：

3.如权利要求1所述的一种基于GPT-2模型的网络舆情引导方法，其特征在于，所述引导性网络舆情文本的生成包括：

4.如权利要求1所述的一种基于GPT-2模型的网络舆情引导方法，其特征在于，所述引导性网络舆情文本的投放包括：

5.如权利要求1所述的一种基于GPT-2模型的网络舆情引导方法，其特征在于，所述网络舆情引导效果的统计包括：

6.一种基于GPT-2模型的网络舆情引导装置，其特征在于，包括：

7.如权利要求6所述的一种基于GPT-2模型的网络舆情引导装置，其特征在于，所述GPT-2中文网络舆情模型训练模块包括：

8.如权利要求6所述的一种基于GPT-2模型的网络舆情引导装置，其特征在于，所述引导性网络舆情文本生成模块包括：

9.如权利要求6所述的一种基于GPT-2模型的网络舆情引导装置，其特征在于，所述引导性网络舆情文本投放模块包括：

10.如权利要求6所述的一种基于GPT-2模型的网络舆情引导装置，其特征在于，所述网络舆情引导效果统计模块包括：