CN115587909A

CN115587909A - 一种基于生成式对抗网络的司法文本数据扩增方法

Info

Publication number: CN115587909A
Application number: CN202110764875.9A
Authority: CN
Inventors: 何铁科; 郑滔; 刘嘉; 邢玉; 袁为; 钱雨波
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2023-01-10

Abstract

一种基于生成式对抗网络的司法文本数据扩增方法，将生成式对抗网络进行改进，使其适用于文本数据的生成，并将其应用于司法文本的数据扩增中，以获得更为丰富的训练文本数据。主要分为三个步骤，第一个步骤为对抗生成网络模型的搭建，将传统的生成式对抗网络进行改进，使其可以应用于文本的生成；第二个步骤是文本的预处理，进行分词及词向量的应用等操作；最后一个步骤为司法文本数据的生成，将司法文本数据预处理后输入对抗生成网络中，进行司法文本数据的生成。本发明可以基于生成式对抗网络进行司法文本的生成，可应用于深度学习的数据扩增中，生成一批与原数据具有相同分布的训练及测试数据，可以更有效地使用现有数据，缓解神经网络泛化能力差的情况，从而促进司法领域深度学习模型的发展。

Description

一种基于生成式对抗网络的司法文本数据扩增方法

技术领域

本发明属于深度学习领域，使用深度学习的方法对司法文本进行数据扩增，并且涉及到生成式对抗网络方面的技术。

背景技术

随着大数据与人工智能技术的不断发展，我国在智慧法院建设方面不断开拓，处于世界领先地位。近年来，全国法院深入推进智慧法院建设，不断完善智慧服务、智慧审判、智慧执行、智慧管理，推动诉讼服务和审判辅助智能化。在审判辅助智能化的建设中，将深度学习模型应用于审判辅助决策中成为审判辅助智能化推进的重要技术。因此，使得审判辅助深度学习模型的准确率提升对智慧法院的建设具有很强的意义。

有效地训练深度神经网络需要大量数据。在低数据状态下，参数不确定，学习网络的泛化能力很差。利用数据扩增的手段可以生成一批与原数据具有相同分布的训练及测试数据，可以更有效地使用现有数据，缓解神经网络泛化能力差的情况。

针对司法领域中数据样本不够丰富，数据获取成本高昂的问题，本发明基于司法领域知识和数据扩增技术，改进现有的生成式对抗网络(GAN)及其他相关技术，生成丰富的司法数据。

生成式对抗网络(GAN)是2014年提出的将对抗网络作为图像生成的一种方法。GAN在计算机视觉方面非常成功，已将其应用于从图像字幕到图像超分辨率的各种任务。由于文本是离散的，渐变不能从鉴别器传播到生成器，因此GAN应用于文本非常困难。为了克服涉及生成器的离散文本输出的优化困难，本发明为了克服文本的离散性，利用自动编码器(AE)将句子编码为平滑的句子表示形式。然后训练生成器网络以在学习的潜在空间中生成其自己的句子表示。然后，将生成器生成的每个句子向量传递给AE解码器，由AE解码器将其解码为最接近的句子。

发明内容

本发明的目的在于通过数据扩增技术，对司法文本数据进行数据扩增，提高司法深度学习模型训练中的数据量，如图1。

为了达到以上的目的，本发明提供了一种基于生成式对抗网络的数据扩增方法，主要分为以下三个步骤：

1)对抗生成网络模型的搭建。本发明利用自动编码器组件来学习密集的低维文本表示。生成器网络在该潜在变量空间中生成向量，这些向量可以被解码器解码为有效语句。与一般的生成对抗网络相同，本发明对判别器网络进行了训练，对真实和生成的句子进行分类。生成器通过生成更真实的句子表示来欺骗判别器，从而获得表现形式与真实文本相似的句子。

2)司法文本数据预处理。本发明在对司法文本进行生成前，需要对司法文本进行规范化的预处理流程，包括对中文分词的处理、对数字及未知词语的特殊化处理、词向量的应用等。

3)司法文本数据的生成。在文本数据预处理完成后，将文本数据输入对抗生成网络中即可进行司法文本数据的生成。

本发明的有益效果是：本方法为司法文本数据的扩增提供了新方法。现有数据扩增方法多为对文本进行切割拼接，及同义词替换等操作，本方法利用生成式对抗网络对文本数据进行扩增，可以为司法深度学习模型提供大量训练数据，有效提升深度学习模型精度，缓解神经网络泛化能力差的情况。

附图说明

图1为本发明的整体流程图

图2为生成式对抗网络的框架图

图3为自动编码器原理图

图4为GAN原理图

具体实施方式

为了更清晰的了解本发明的技术内容，我们将在下文中详细介绍框架中每个步骤的具体流程和操作细节。本发明的生成式对抗网络框架图见图2。

1.对抗生成网络模型的搭建。分为以下三个步骤

1)自动编码器的构建。自动编码器(autoencoder)是神经网络的一种，该网络可以看作由两部分组成：一个编码器函数和一个生成重构的解码器。其原理图见图3。传统上，自动编码器被用于降维或特征学习。本发明利用自动编码器组件来学习密集的低维文本表示。自动编码器旨在通过使用编码器网络将有关每个句子的信息压缩为有限向量来学习文本的低维表示。解码器网络的任务是从向量重建输入表示。我们将长短时记忆(LSTM)网络用于编码器和解码器。在句子重建过程中，解码器将编码器的潜在表示和先前的隐藏状态作为输入，生成概率分布，用于在该时间步选择单词。我们使用贪婪采样的自动编码器，在每个时间步选择最高概率的单词。

2)生成式对抗网络的搭建。在生成式对抗网络的搭建中，通常的做法是使用标准的全连接网络对生成器和鉴别器进行建模。其原理图见图4。然而随着神经网络层级深度的增加，随机初始化的全连接层更难训练。为了减轻与这些网络相关的梯度不稳定性，我们分别使用ResNet架构搭建生成器和鉴别器。为了提高训练效率，我们采用了改进的Wasserstein GAN网络，该网络是对原始WassersteinGAN的修改，该网络的训练目标为以下公式，其中，f_w为判别器，g为生成器。

3)生成文本的解码。在生成器训练结束后，可生成低维向量，与原始文本经过编码后的低维向量分布相似。为了使生成的低维向量恢复高维的文本表示形式，需要利用解码器对生成的向量进行解码，恢复为可读的文本表示形式。

2.司法文本数据预处理。分为以下三个步骤

1)分词处理。本方法采用中文分词器jieba的精确分词模式对文本进行了分词处理。由于本方法是为了生成与原始文本数据表现形式相似的文本，为了方便阅读，没有去除标点符号与停用词。若在后续训练过程中需要去除停用词，也可在这一步设置。

2)对数字及未知词语的特殊化处理。本方法对数字进行了标准化处理，将所有数字替换为特殊标记‘_NUM_’。将不在词典中的词语替换为特殊标记‘_UNK_’。

3)词向量的应用。在文本输入前，需要将词语的one-hot向量转化为中文词向量。词向量指将词语转化成一种分布式表示，分布式表示将词表示成一个定长的连续的稠密向量，使词语具有更强的语义特征。本方法使用的词向量为fasttext预训练的300维中文词向量。

3.司法文本数据的生成。本方法按标签类别对原有的司法文本数据分类，按类别分别生成。首先将文本数据进行预处理，其次将文本数据输入对抗生成网络中，对鉴别器与生成器进行训练，使鉴别器的鉴别能力不断增强，使生成器生成的文本不断接近原始数据的数据分布。训练完成后，获取生成器生成的向量，利用解码器进行解码，便可得到生成的司法文本数据。

Claims

1.一种基于生成式对抗网络的司法文本数据扩增方法，其特征在于将生成式对抗网络进行改进，使其适用于文本数据的生成，并将其应用于司法文本的数据扩增中，以获得更为丰富的训练文本数据。完整的步骤如下所示：

1)司法数据的预处理。对原有文本分词，进行对数字及未知词语的特殊化处理，并将预训练的词向量应用于文本。

2)自动编码器的构建。利用自动编码器组件来学习密集的低维文本表示。

3)生成式对抗网络的搭建。生成器网络在潜在变量空间中生成向量，这些向量可以被步骤2)中得到的解码器解码为有效语句。对判别器网络进行训练，对真实和生成的句子进行分类。生成器通过生成更真实的句子表示来欺骗判别器，从而获得表现形式与真实文本相似的句子。

4)司法文本数据的生成。根据步骤1)得到的数据集，将其作为步骤2)3)构建的生成网络模型的输入，调整模型参数，训练得到生成模型。训练完成后，获取生成器生成的向量，利用解码器进行解码，便可得到生成的司法文本数据。

2.根据权利要求1所述的一种基于生成式对抗网络的司法文本数据扩增方法，其特征在于，在步骤1)中，采用中文分词器jieba的精确分词模式对文本进行了分词处理，对数字进行了标准化处理，将所有数字替换为特殊标记‘_NUM_’。将不在词典中的词语替换为特殊标记‘_UNK_’。使用的词向量为fasttext预训练的300维中文词向量。

3.根据权利要求1所述的一种基于生成式对抗网络的司法文本数据扩增方法，其特征在于，在步骤2)中，将长短时记忆(LSTM)网络用于编码器和解码器。在句子重建过程中，解码器将编码器的潜在表示和先前的隐藏状态作为输入，生成概率分布，用于在该时间步选择单词。使用贪婪采样的自动编码器，在每个时间步选择最高概率的单词。

4.根据权利要求1所述的一种基于生成式对抗网络的司法文本数据扩增方法，其特征在于，在步骤3)中，为了减轻与这些网络相关的梯度不稳定性，分别使用ResNet架构搭建生成器和鉴别器。为了提高训练效率，采用了改进的Wasserstein GAN网络。

5.根据权利要求1所述的一种基于生成式对抗网络的司法文本数据扩增方法，其特征在于，在步骤4)中，按标签类别对原有的司法文本数据分类，按类别分别生成。首先将文本数据按照步骤1)进行预处理，其次将文本数据输入步骤2)3)构建的对抗生成网络中，对鉴别器与生成器进行训练，使鉴别器的鉴别能力不断增强，使生成器生成的文本不断接近原始数据的数据分布。训练完成后，获取生成器生成的向量，利用解码器进行解码，便可得到生成的司法文本数据。