CN113434688A

CN113434688A - 用于舆情分类模型训练的数据处理方法和装置

Info

Publication number: CN113434688A
Application number: CN202110964669.2A
Authority: CN
Inventors: 吴云朝; 杜向阳
Original assignee: Nanjing Aegis Information Technology Co ltd
Current assignee: Nanjing Aegis Information Technology Co ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-09-24
Anticipated expiration: 2041-08-23
Also published as: CN113434688B

Abstract

本申请公开了一种用于舆情分类模型训练的数据处理方法和装置。该方法包括：通过对训练数据进行识别，通过已标注的训练数据对预先建立的舆情分类模型进行训练，获得过程舆情分类模型，通过过程舆情分类模型对未标注的训练数据进行预测识别，获得训练分类结果数据，根据训练分类结果数据进行筛选处理，获得目标训练数据，通过目标训练数据训练预先建立的舆情分类模型，得到目标舆情分类模型，解决了现有技术中训练舆情分类模型的效率较低的技术问题，提高舆情分类模型的训练效率。

Description

用于舆情分类模型训练的数据处理方法和装置

技术领域

本申请涉及计算机领域，具体而言，涉及一种用于舆情分类模型训练的数据处理方法和装置。

背景技术

舆情是“舆论情况”的简称，是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。

随着信息技术的不断发展，互联网成为信息传播的主要途径，互联网使社会舆情呈现源头多元化、传播扁平化、观点评价多样化、热点形成迅速化的特点，由于法院还是法律执行的完成节点，较易在涉法舆情中成为舆情热点部门，社交媒体中往往存在很多针对法院的言论，这些言论中有些过于偏激，如果法院不及时处理往往会给法院的工作造成不利影响。

通过训练舆情分类模型实现对网略舆情的实时监控，实现模型的效果通过训练数据集要对模型进行训练，互联网上舆情更新非常迅速，为了提高模型的效果，需要不断更新模型训练数据集以对舆情分类模型进行训练，现有技术中主要中的模型训练数据集大多是人工进行标注获得，耗费大量人力资源，且效率较低。

因此，现有技术中存在训练舆情分类模型的效率较低的技术问题。

发明内容

本申请的主要目的在于提供一种用于舆情分类模型训练的数据处理方法和装置，以提高舆情分类模型的训练效率。

为了实现上述目的，本申请提出一种用于舆情分类模型训练的数据处理方法。

根据本申请的第二方面，提出了一种用于舆情分类模型训练的数据处理装置。

根据本申请的第三方面，提出了一种计算机可读存储介质。

根据本申请的第四方面，提出一种电子设备。

有鉴于此，根据本申请的第一方面，提出了一种用于舆情分类模型训练的数据处理方法，包括：获取训练数据，其中，所述训练数据为训练舆情分类模型所需的舆情数据；

基于预设标注规则，对所述训练数据进行标注处理，获得目标训练数据；

基于所述目标训练数据，对预先建立的舆情分类模型进行训练处理，获得目标舆情分类模型。

进一步地，基于预设标注规则，对所述训练数据进行标注处理，获得目标训练数据，包括：

识别所述训练数据，获得第一训练数据，其中，所述第一训练数据为已标注的舆情数据；

基于第一训练数据，对所述预先建立的舆情分类模型进行训练，获得过程舆情分类模型；

识别所述训练数据，获得第二训练数据，其中，所述第二训练数据为未标注的舆情数据；

基于所述过程舆情分类模型，对所述第二训练数据进行舆情分类处理，获得训练分类结果数据；

对所述训练分类结果数据进行筛选处理，获得目标训练数据。

进一步地，基于第一训练数据，对所述预先建立的舆情分类模型进行训练，获得过程舆情分类模型，包括：

基于交叉构建规则，对所述第一训练数据执行交叉构建操作，获得多个子训练数据；

基于所述多个子训练数据，对所述预先建立的舆情分类模型进行训练，获得所述多个过程舆情分类模型，其中，所述过程舆情分类模型与所述子训练数据一一对应。

进一步地，对所述训练分类结果数据进行筛选处理，获得目标训练数据，包括：

若所述训练分类结果数据满足第一预设条件，更新所述第一训练数据，获得第一过程训练数据，其中，所述第一过程训练数据包括所述第一训练数据和所述训练分类结果数据；

基于所述第一过程训练数据，对预先建立的舆情分类模型进行模型训练迭代操作，获得迭代分类标注结果数据；

若所述迭代分类标注结果数据满足第二预设条件，获得目标训练数据，其中，所述目标训练数据包括满足所述第二预设条件的迭代分类标注结果数据和所述第一训练数据。

进一步地，基于所述目标训练数据，对预先建立的舆情分类模型进行训练处理，获得目标舆情分类模型之后，还包括：

获取待处理舆情数据，其中，所述待处理舆情数据为所述舆情分类模型应用过程中待处理的舆情数据；

对所述待处理舆情数据进行预处理操作，获得输入舆情数据；

基于所述目标舆情分类模型，对所述输入舆情数据进行处理，获得分类结果数据；

对所述分类结果数据进行筛选，输出舆情提示信息。

进一步地，对所述分类结果数据进行筛选，输出舆情提示信息之后，还包括：

若所述分类结果数据满足第一预设条件，获得第一结果数据；

若所述第一结果数据满足预设数据集更新条件时，获得更新训练数据，其中，所述更新训练数据为达到预设数据集更新的多个第一结果数据；

基于所述更新训练数据与所述训练数据，对预先建立的舆情分类模型进行模型训练，获得更新舆情分类模型。

根据本申请的第二方面，提出了一种用于舆情分类模型训练的数据处理装置，包括：

数据获取模块，用于获取训练数据，其中，所述训练数据为训练舆情分类模型所需的舆情数据；

数据处理模块，基于预设标注规则，对所述训练数据进行标注处理，获得目标训练数据；

模型训练模块，基于所述目标训练数据，对预先建立的舆情分类模型进行训练处理，获得目标舆情分类模型。

进一步地，数据处理模块，包括：

第一数据处理模块，用于识别所述训练数据，获得第一训练数据，其中，所述第一训练数据为已标注的舆情数据；

第二数据处理模块，用于识别所述训练数据，获得第二训练数据，其中，所述第二训练数据为未标注的舆情数据；

数据筛选模块，用于对所述训练分类结果数据进行筛选处理，获得目标训练数据。

根据本申请的第三方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行上述的用于舆情分类模型训练的数据处理方法。

根据本申请的第四方面，提出了一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行上述的用于舆情分类模型训练的数据处理方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

在本申请中，综上所述，在本申请中，通过对训练数据进行识别，获得第一训练数据，第一训练数据为已标注的舆情数据，通过第一训练数据对预先建立的舆情分类模型进行训练，获得过程舆情分类模型，通过过程舆情分类模型对第二训练数据进行预测识别，第二训练数据为未被标注的舆情数据，获得训练分类结果数据，根据训练分类结果数据进行筛选处理，获得目标训练数据，通过目标训练数据训练预先建立的舆情分类模型，得到目标舆情分类模型，解决了现有技术中训练舆情分类模型的效率较低的技术问题，提高舆情分类模型的训练效率，通过舆情分类模型的迭代训练，提高模型识别的准确度。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请提供的一种用于舆情分类模型训练的数据处理方法的流程示意图；

图2为本申请提供的一种用于舆情分类模型训练的数据处理方法的流程示意图；

图3、4、5为本申请中基于Roberta-wwm的法院舆情分类模型结构示意图；

图6为本申请提供的一种用于舆情分类模型训练的数据处理装置的结构示意图；

图7为本申请提供的另一种用于舆情分类模型训练的数据处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，“连接”可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

图1为本申请提供的一种用于舆情分类模型训练的数据处理方法的流程示意图，如图1所示，该方法包括以下步骤：

S101：获取训练数据，其中，所述训练数据为训练舆情分类模型所需的舆情数据；

S102：基于预设标注规则，对所述训练数据进行标注处理，获得目标训练数据；

图2为本申请提供的一种用于舆情分类模型训练的数据处理方法的流程示意图，如图2所示，该方法包括以下步骤：

S201：识别所述训练数据，获得第一训练数据，其中，所述第一训练数据为已标注的舆情数据；

S202：基于第一训练数据，对所述预先建立的舆情分类模型进行训练，获得过程舆情分类模型；

第一训练数据用K-fold（K折）的方法切分成K个子数据集，其中，K可以人为设定，如，K为10，将数据集划分成10个不相交子集D=[d1,d2,d3,d4,d5,d6,d7,d8,d9,d10]，每个数据集中的数据个数相同且不重复，取其中9个子集并合并作为最终的数据集之一D1=[d1,d2,d3,d4,d5,d6,d7,d8,d9]，重复上述操作依次在10个子数据集中取9个作为最终的数据集之一，保证每次采样的分布不同，最终我们可以得到10个子数据集D1，D2，D3，D4，D5，D6，D7，D8，D9，D10。

其中，舆情分类模型是以Roberta-wwm构建的预训练模型，其中， Roberta和wwm是相对于预训练模型bert的改进模型；

如图3、4、5所示，为基于Roberta-wwm的法院舆情分类模型结构示意图，

其中，将该舆情文本中匹配到的法院机构词按照字拆分为

，将预处理后的舆情文本按照字拆分为

，将该舆情文本中匹配到的法院行业词按照字拆分为

其中的[CLS]为 BERT设计的一个辅助做分类任务的特殊标记符号，[SEP]是BERT设计的一个分隔符，用来连接两端文本。

表示字的输入嵌入。

表示模型经过学习后第 i个字的上下文语境嵌入，T _[CLS]表示模型经过学习后[CLS]标记符的语境向量，根据BERT的模型设计，该向量的维度为768维，输入线性层，该线性层的神经元的数量是1。线性层的输出在经过sigmoid激活函数后得到标签的概率值，若大于预先设定的阈值则为负面，反之为非负面，本申请中设置阈值为0.5，若得到标签的概率值大于0.5则为负面标签，反之为非负面标签。

本申请中还采用了Focal-loss优化损失函数，Focal-loss为了解决正负样本比例严重失衡的问题。避免训练数据存在正负样本比例失衡导致模型训练效果较差的问题。

S203：识别所述训练数据，获得第二训练数据，其中，所述第二训练数据为未标注的舆情数据；

对第二训练数据进行预处理，通过预设法院关键词库，识别第二训练数据中的法院关键词，关键词库中包括法院机构词数据库与法院行业词数据库，法院机构词如广东高院、深圳中院等，法院行业词如开庭、审理、案卷等，获得预处理后的第二训练数据。

S204：基于所述过程舆情分类模型，对所述第二训练数据进行舆情分类处理，获得训练分类结果数据；

其中训练获得多个过程舆情分类模型，将第二训练数据中的某条训练数据分别用多个过程舆情分类模型进行识别，获得多个过程舆情分类模型识别后得到的训练分类结果数据。

S205：对所述训练分类结果数据进行筛选处理，获得目标训练数据。

若第二训练数据中的某一条训练数据被N个过程舆情分类模型识别且标签置信度满足预设条件，其中N为正整数且小于K，N可以根据人为设定，如K=10，N=8，某一条训练数据用10个过程舆情分类模型进行分类标注，若该条训练数据同时被8个过程舆情分类模型识别标签且标签执行度大于预设条件将该条训练数据及分类标注结果数据作为新的数据更新至第一训练数据，获得第一过程训练数据，第一过程训练数据包括第一训练数据和训练分类结果数据。如：某一条训练数据经10个过程舆情分类模型识别，同时被其中8个模型识别输出结果大于0.8，则该条训练数据为负面舆情且置信度满足预设条件，若某一条训练数据经10个过程舆情分类模型识别，同时被其中8个模型识别输出结果小于0.2，则该条训练数据为正面舆情且置信度满足预设条件。将满足第一预设条件的训练数据更新至第一训练数据，获得第一过程训练数据，其中，第一过程训练数据包括第一训练数据和训练分类结果数据。

迭代分类标注结果数据中包括每次循环获得的通过过程分类模型标注的舆情数据，当每次循环所产生的满足预设条件的分类标注结果数据占比满足第二预设条件时，停止上述迭代过程，获得目标舆情语料数据集。其中，通过人工标注部分训练舆情数据，通过在线学习不断产生新数据更新、迭代、优化模型，通过不断更新目标训练数据，实现舆情分类模型的不断训练、迭代、优化，解决了现有技术中训练舆情分类模型由于人工标注导致模型训练效率较低的技术问题。

S103：基于所述目标训练数据，对预先建立的舆情分类模型进行训练处理，获得目标舆情分类模型。

在获得目标舆情分类模型之后，所述目标舆情分类模型应用过程包括：

获取待处理舆情数据，其中，所述待处理舆情数据为所述舆情分类模型应用过程中待处理的舆情数据；对所述待处理舆情数据进行预处理操作，获得输入舆情数据；基于所述目标舆情分类模型，对所述输入舆情数据进行处理，获得分类结果数据；对所述分类结果数据进行筛选，输出舆情提示信息。

在输出舆情提示信息后，还包括以下步骤：

互联网上舆情是海量的，模型应用过程中识别较多舆情数据，本申请中通过对分类结果进行识别，将模型预测结果置信度满足第一预设条件，即模型预测置信度满足预设条件的舆情数据更新至更新训练数据，将模型预测结果置信度不满足第一预设条件的舆情数据经人工审核后更新至更新训练数据，若所述更新训练数据满足数据集更新条件时，基于更新训练数据基于上述模型训练过程重新训练舆情分类模型，获得更新舆情分类模型。通过定期更新训练数据，获得更新舆情分类模型，可以使舆情分类模型不断学习新词，降低舆情分类模型迭代的难度。

图6为本申请提供的一种用于舆情分类模型训练的数据处理装置，如图6所示，该装置包括：

数据获取模块61，用于获取训练数据，其中，所述训练数据为训练舆情分类模型所需的舆情数据；

数据处理模块62，基于预设标注规则，对所述训练数据进行标注处理，获得目标训练数据；

模型训练模块63，基于所述目标训练数据，对预先建立的舆情分类模型进行训练处理，获得目标舆情分类模型。

图7为本申请提供的一种用于舆情分类模型训练的数据处理装置，如图7所示，该装置包括：

第一数据处理模块71，用于识别所述训练数据，获得第一训练数据，其中，所述第一训练数据为已标注的舆情数据；

第二数据处理模块72，用于识别所述训练数据，获得第二训练数据，其中，所述第二训练数据为未标注的舆情数据；

数据筛选模块73，用于对所述训练分类结果数据进行筛选处理，获得目标训练数据。

关于上述实施例中各单元的执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

综上所述，在本申请中，通过对训练数据进行识别，获得第一训练数据，第一训练数据为已标注的舆情数据，通过第一训练数据对预先建立的舆情分类模型进行训练，获得过程舆情分类模型，通过过程舆情分类模型对第二训练数据进行预测识别，第二训练数据为未被标注的舆情数据，获得训练分类结果数据，根据训练分类结果数据进行筛选处理，获得目标训练数据，通过目标训练数据训练预先建立的舆情分类模型，得到目标舆情分类模型，解决了现有技术中训练舆情分类模型的效率较低的技术问题，提高舆情分类模型的训练效率，通过舆情分类模型的迭代训练，提高模型识别的准确度。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

显然，本领域的技术人员应该明白，上述的本申请的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于舆情分类模型训练的数据处理方法，其特征在于，包括：

获取训练数据，其中，所述训练数据为训练舆情分类模型所需的舆情数据；

基于所述目标训练数据，对预先建立的舆情分类模型进行训练处理，获得目标舆情分类模型；

其中，基于预设标注规则，对所述训练数据进行标注处理，获得目标训练数据，包括：

对所述训练分类结果数据进行筛选处理，获得目标训练数据；

其中，基于第一训练数据，对所述预先建立的舆情分类模型进行训练，获得过程舆情分类模型，包括：

2.根据权利要求1所述的数据处理方法，其特征在于，对所述训练分类结果数据进行筛选处理，获得目标训练数据，包括：

3.根据权利要求1所述的数据处理方法，其特征在于，基于所述目标训练数据，对预先建立的舆情分类模型进行训练处理，获得目标舆情分类模型之后，还包括：

对所述分类结果数据进行筛选，输出舆情提示信息。

4.根据权利要求3所述的数据处理方法，其特征在于，对所述分类结果数据进行筛选，输出舆情提示信息之后，还包括：

5.一种用于舆情分类模型训练的数据处理装置，其特征在于，包括：

模型训练模块，基于所述目标训练数据，对预先建立的舆情分类模型进行训练处理，获得目标舆情分类模型；

数据处理模块，包括：

数据筛选模块，用于对所述训练分类结果数据进行筛选处理，获得目标训练数据；

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-4任意一项所述的用于舆情分类模型训练的数据处理方法。

7.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-4任意一项所述的用于舆情分类模型训练的数据处理方法。