CN115587909A - 一种基于生成式对抗网络的司法文本数据扩增方法 - Google Patents
一种基于生成式对抗网络的司法文本数据扩增方法 Download PDFInfo
- Publication number
- CN115587909A CN115587909A CN202110764875.9A CN202110764875A CN115587909A CN 115587909 A CN115587909 A CN 115587909A CN 202110764875 A CN202110764875 A CN 202110764875A CN 115587909 A CN115587909 A CN 115587909A
- Authority
- CN
- China
- Prior art keywords
- network
- text data
- judicial
- data
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000003321 amplification Effects 0.000 title claims abstract description 16
- 238000003199 nucleic acid amplification method Methods 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 2
- 238000013434 data augmentation Methods 0.000 claims 1
- 238000005070 sampling Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 238000013136 deep learning model Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000011161 development Methods 0.000 abstract description 2
- 230000018109 developmental process Effects 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 abstract description 2
- 230000001737 promoting effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 206010063385 Intellectualisation Diseases 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Technology Law (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
一种基于生成式对抗网络的司法文本数据扩增方法,将生成式对抗网络进行改进,使其适用于文本数据的生成,并将其应用于司法文本的数据扩增中,以获得更为丰富的训练文本数据。主要分为三个步骤,第一个步骤为对抗生成网络模型的搭建,将传统的生成式对抗网络进行改进,使其可以应用于文本的生成;第二个步骤是文本的预处理,进行分词及词向量的应用等操作;最后一个步骤为司法文本数据的生成,将司法文本数据预处理后输入对抗生成网络中,进行司法文本数据的生成。本发明可以基于生成式对抗网络进行司法文本的生成,可应用于深度学习的数据扩增中,生成一批与原数据具有相同分布的训练及测试数据,可以更有效地使用现有数据,缓解神经网络泛化能力差的情况,从而促进司法领域深度学习模型的发展。
Description
技术领域
本发明属于深度学习领域,使用深度学习的方法对司法文本进行数据扩增,并且涉及到生成式对抗网络方面的技术。
背景技术
随着大数据与人工智能技术的不断发展,我国在智慧法院建设方面不断开拓,处于世界领先地位。近年来,全国法院深入推进智慧法院建设,不断完善智慧服务、智慧审判、智慧执行、智慧管理,推动诉讼服务和审判辅助智能化。在审判辅助智能化的建设中,将深度学习模型应用于审判辅助决策中成为审判辅助智能化推进的重要技术。因此,使得审判辅助深度学习模型的准确率提升对智慧法院的建设具有很强的意义。
有效地训练深度神经网络需要大量数据。在低数据状态下,参数不确定,学习网络的泛化能力很差。利用数据扩增的手段可以生成一批与原数据具有相同分布的训练及测试数据,可以更有效地使用现有数据,缓解神经网络泛化能力差的情况。
针对司法领域中数据样本不够丰富,数据获取成本高昂的问题,本发明基于司法领域知识和数据扩增技术,改进现有的生成式对抗网络(GAN)及其他相关技术,生成丰富的司法数据。
生成式对抗网络(GAN)是2014年提出的将对抗网络作为图像生成的一种方法。GAN在计算机视觉方面非常成功,已将其应用于从图像字幕到图像超分辨率的各种任务。由于文本是离散的,渐变不能从鉴别器传播到生成器,因此GAN应用于文本非常困难。为了克服涉及生成器的离散文本输出的优化困难,本发明为了克服文本的离散性,利用自动编码器(AE)将句子编码为平滑的句子表示形式。然后训练生成器网络以在学习的潜在空间中生成其自己的句子表示。然后,将生成器生成的每个句子向量传递给AE解码器,由AE解码器将其解码为最接近的句子。
发明内容
本发明的目的在于通过数据扩增技术,对司法文本数据进行数据扩增,提高司法深度学习模型训练中的数据量,如图1。
为了达到以上的目的,本发明提供了一种基于生成式对抗网络的数据扩增方法,主要分为以下三个步骤:
1)对抗生成网络模型的搭建。本发明利用自动编码器组件来学习密集的低维文本表示。生成器网络在该潜在变量空间中生成向量,这些向量可以被解码器解码为有效语句。与一般的生成对抗网络相同,本发明对判别器网络进行了训练,对真实和生成的句子进行分类。生成器通过生成更真实的句子表示来欺骗判别器,从而获得表现形式与真实文本相似的句子。
2)司法文本数据预处理。本发明在对司法文本进行生成前,需要对司法文本进行规范化的预处理流程,包括对中文分词的处理、对数字及未知词语的特殊化处理、词向量的应用等。
3)司法文本数据的生成。在文本数据预处理完成后,将文本数据输入对抗生成网络中即可进行司法文本数据的生成。
本发明的有益效果是:本方法为司法文本数据的扩增提供了新方法。现有数据扩增方法多为对文本进行切割拼接,及同义词替换等操作,本方法利用生成式对抗网络对文本数据进行扩增,可以为司法深度学习模型提供大量训练数据,有效提升深度学习模型精度,缓解神经网络泛化能力差的情况。
附图说明
图1为本发明的整体流程图
图2为生成式对抗网络的框架图
图3为自动编码器原理图
图4为GAN原理图
具体实施方式
为了更清晰的了解本发明的技术内容,我们将在下文中详细介绍框架中每个步骤的具体流程和操作细节。本发明的生成式对抗网络框架图见图2。
1.对抗生成网络模型的搭建。分为以下三个步骤
1)自动编码器的构建。自动编码器(autoencoder)是神经网络的一种,该网络可以看作由两部分组成:一个编码器函数和一个生成重构的解码器。其原理图见图3。传统上,自动编码器被用于降维或特征学习。本发明利用自动编码器组件来学习密集的低维文本表示。自动编码器旨在通过使用编码器网络将有关每个句子的信息压缩为有限向量来学习文本的低维表示。解码器网络的任务是从向量重建输入表示。我们将长短时记忆(LSTM)网络用于编码器和解码器。在句子重建过程中,解码器将编码器的潜在表示和先前的隐藏状态作为输入,生成概率分布,用于在该时间步选择单词。我们使用贪婪采样的自动编码器,在每个时间步选择最高概率的单词。
2)生成式对抗网络的搭建。在生成式对抗网络的搭建中,通常的做法是使用标准的全连接网络对生成器和鉴别器进行建模。其原理图见图4。然而随着神经网络层级深度的增加,随机初始化的全连接层更难训练。为了减轻与这些网络相关的梯度不稳定性,我们分别使用ResNet架构搭建生成器和鉴别器。为了提高训练效率,我们采用了改进的Wasserstein GAN网络,该网络是对原始WassersteinGAN的修改,该网络的训练目标为以下公式,其中,fw为判别器,g为生成器。
3)生成文本的解码。在生成器训练结束后,可生成低维向量,与原始文本经过编码后的低维向量分布相似。为了使生成的低维向量恢复高维的文本表示形式,需要利用解码器对生成的向量进行解码,恢复为可读的文本表示形式。
2.司法文本数据预处理。分为以下三个步骤
1)分词处理。本方法采用中文分词器jieba的精确分词模式对文本进行了分词处理。由于本方法是为了生成与原始文本数据表现形式相似的文本,为了方便阅读,没有去除标点符号与停用词。若在后续训练过程中需要去除停用词,也可在这一步设置。
2)对数字及未知词语的特殊化处理。本方法对数字进行了标准化处理,将所有数字替换为特殊标记‘_NUM_’。将不在词典中的词语替换为特殊标记‘_UNK_’。
3)词向量的应用。在文本输入前,需要将词语的one-hot向量转化为中文词向量。词向量指将词语转化成一种分布式表示,分布式表示将词表示成一个定长的连续的稠密向量,使词语具有更强的语义特征。本方法使用的词向量为fasttext预训练的300维中文词向量。
3.司法文本数据的生成。本方法按标签类别对原有的司法文本数据分类,按类别分别生成。首先将文本数据进行预处理,其次将文本数据输入对抗生成网络中,对鉴别器与生成器进行训练,使鉴别器的鉴别能力不断增强,使生成器生成的文本不断接近原始数据的数据分布。训练完成后,获取生成器生成的向量,利用解码器进行解码,便可得到生成的司法文本数据。
Claims (5)
1.一种基于生成式对抗网络的司法文本数据扩增方法,其特征在于将生成式对抗网络进行改进,使其适用于文本数据的生成,并将其应用于司法文本的数据扩增中,以获得更为丰富的训练文本数据。完整的步骤如下所示:
1)司法数据的预处理。对原有文本分词,进行对数字及未知词语的特殊化处理,并将预训练的词向量应用于文本。
2)自动编码器的构建。利用自动编码器组件来学习密集的低维文本表示。
3)生成式对抗网络的搭建。生成器网络在潜在变量空间中生成向量,这些向量可以被步骤2)中得到的解码器解码为有效语句。对判别器网络进行训练,对真实和生成的句子进行分类。生成器通过生成更真实的句子表示来欺骗判别器,从而获得表现形式与真实文本相似的句子。
4)司法文本数据的生成。根据步骤1)得到的数据集,将其作为步骤2)3)构建的生成网络模型的输入,调整模型参数,训练得到生成模型。训练完成后,获取生成器生成的向量,利用解码器进行解码,便可得到生成的司法文本数据。
2.根据权利要求1所述的一种基于生成式对抗网络的司法文本数据扩增方法,其特征在于,在步骤1)中,采用中文分词器jieba的精确分词模式对文本进行了分词处理,对数字进行了标准化处理,将所有数字替换为特殊标记‘_NUM_’。将不在词典中的词语替换为特殊标记‘_UNK_’。使用的词向量为fasttext预训练的300维中文词向量。
3.根据权利要求1所述的一种基于生成式对抗网络的司法文本数据扩增方法,其特征在于,在步骤2)中,将长短时记忆(LSTM)网络用于编码器和解码器。在句子重建过程中,解码器将编码器的潜在表示和先前的隐藏状态作为输入,生成概率分布,用于在该时间步选择单词。使用贪婪采样的自动编码器,在每个时间步选择最高概率的单词。
4.根据权利要求1所述的一种基于生成式对抗网络的司法文本数据扩增方法,其特征在于,在步骤3)中,为了减轻与这些网络相关的梯度不稳定性,分别使用ResNet架构搭建生成器和鉴别器。为了提高训练效率,采用了改进的Wasserstein GAN网络。
5.根据权利要求1所述的一种基于生成式对抗网络的司法文本数据扩增方法,其特征在于,在步骤4)中,按标签类别对原有的司法文本数据分类,按类别分别生成。首先将文本数据按照步骤1)进行预处理,其次将文本数据输入步骤2)3)构建的对抗生成网络中,对鉴别器与生成器进行训练,使鉴别器的鉴别能力不断增强,使生成器生成的文本不断接近原始数据的数据分布。训练完成后,获取生成器生成的向量,利用解码器进行解码,便可得到生成的司法文本数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110764875.9A CN115587909A (zh) | 2021-07-06 | 2021-07-06 | 一种基于生成式对抗网络的司法文本数据扩增方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110764875.9A CN115587909A (zh) | 2021-07-06 | 2021-07-06 | 一种基于生成式对抗网络的司法文本数据扩增方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115587909A true CN115587909A (zh) | 2023-01-10 |
Family
ID=84772570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110764875.9A Pending CN115587909A (zh) | 2021-07-06 | 2021-07-06 | 一种基于生成式对抗网络的司法文本数据扩增方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115587909A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117933250A (zh) * | 2024-03-22 | 2024-04-26 | 南京泛美利机器人科技有限公司 | 一种基于改进生成对抗网络的新菜谱生成方法 |
-
2021
- 2021-07-06 CN CN202110764875.9A patent/CN115587909A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117933250A (zh) * | 2024-03-22 | 2024-04-26 | 南京泛美利机器人科技有限公司 | 一种基于改进生成对抗网络的新菜谱生成方法 |
CN117933250B (zh) * | 2024-03-22 | 2024-06-18 | 南京泛美利机器人科技有限公司 | 一种基于改进生成对抗网络的新菜谱生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598221B (zh) | 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 | |
CN111177366B (zh) | 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统 | |
CN110334361A (zh) | 一种面向小语种语言的神经机器翻译方法 | |
CN111209749A (zh) | 一种将深度学习应用于中文分词的方法 | |
CN112183058B (zh) | 基于bert句子向量输入的诗词生成方法及装置 | |
CN108829823A (zh) | 一种文本分类方法 | |
CN112417092A (zh) | 基于深度学习的智能化文本自动生成系统及其实现方法 | |
CN116306652A (zh) | 一种基于注意力机制和BiLSTM的中文命名实体识别模型 | |
CN117058266B (zh) | 一种基于骨架和轮廓的书法字生成方法 | |
CN116542817B (zh) | 一种智能数字人律师咨询方法及系统 | |
CN114444481B (zh) | 一种新闻评论的情感分析与生成方法 | |
CN113704434A (zh) | 知识库问答方法、电子设备及可读存储介质 | |
CN116483991A (zh) | 一种对话摘要生成方法及系统 | |
CN115587909A (zh) | 一种基于生成式对抗网络的司法文本数据扩增方法 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN117437461A (zh) | 一种面向开放世界的图像描述生成方法 | |
CN112395891A (zh) | 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法 | |
CN112307756A (zh) | 基于Bi-LSTM和字词融合的汉语分词方法 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN115455144A (zh) | 用于小样本意图识别的完型填空式的数据增强方法 | |
CN114358006A (zh) | 基于知识图谱的文本内容摘要生成方法 | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN111859924A (zh) | 一种基于word2vec模型构建词网的方法和装置 | |
CN116738359B (zh) | 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法 | |
CN118038497B (zh) | 一种基于sam的文本信息驱动的行人检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |