CN111985218A - 一种基于生成对抗网络的司法文书自动校对方法 - Google Patents

一种基于生成对抗网络的司法文书自动校对方法 Download PDF

Info

Publication number
CN111985218A
CN111985218A CN202010750319.1A CN202010750319A CN111985218A CN 111985218 A CN111985218 A CN 111985218A CN 202010750319 A CN202010750319 A CN 202010750319A CN 111985218 A CN111985218 A CN 111985218A
Authority
CN
China
Prior art keywords
sentence
generator
discriminator
error
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010750319.1A
Other languages
English (en)
Inventor
朱海麒
姜峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202010750319.1A priority Critical patent/CN111985218A/zh
Publication of CN111985218A publication Critical patent/CN111985218A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于生成对抗网络的司法文书自动校对方法。步骤1:生成器为一个参数化的随机策略,生成纠正司法文书句子的每一个时间步t;步骤2:智能体基于步骤1的随机策略采取动作;步骤3:步骤2的随机策略采取动作后,生成一个完整的纠正司法文书句子后,将完整的纠正司法文书句子和对应的源端错误句子一起作为判别器的输入;步骤4:判别器判断该“错误‑纠正”句对在多大程度上是人工标注;步骤5:根据步骤4判断输出具体的概率值作为奖励反馈给生成器;步骤6:更新步骤5中的生成器参数,以便获取的期望奖励最大化,实现司法文书自动校对。顺利的解决司法文书的语法错误纠正的问题。

Description

一种基于生成对抗网络的司法文书自动校对方法
技术领域
本发明属于计算机领域;具体涉及一种基于生成对抗网络的司法文书自动校对方法。
背景技术
随着司法领域内的信息化逐步完善,大量的司法类文书随之产生,面对海量的司法文书文本,由人工书写的司法文书必然会存在一些隐含的语法错误,这对传统的以人工为主的校对提出了严峻的挑战。对文本中隐含的语法错误进行纠错不光可以使得行文更为流畅且易于阅读,司法文书作为法律执行的载体,若存在语法错误或逻辑错误将会带来巨大的影响,而基于人工校对处理大量的文本显然是不现实的,这就使得文本纠错技术在近年来越来越受到关注。
近年来,语法错误纠正的研究逐步从词级别的闭式类语法错误的纠正(例如,冠词、介词、动词形式)扩展到短语、甚至句子级别的开放类语法错误(例如,词序、选词、搭配)的纠正。为了顺应这一趋势,在方法论上,研究人员不再仅着眼于局部上下文中的语法错误,使用统计学习分类器进行处理,而是在句子层面,将语法错误纠正看成是一个单语的翻译任务,即,将含语法错误的句子“翻译”成书写正确的句子。在这样的背景下,大量机器翻译中的方法被应用到语法错误纠正任务中,特别是,神经机器翻译,由于其出色的性能成为了主流。
尽管上述方法能取得超越统计学习分类器的纠错性能,但其仍然面临若干问题。第一,正如之前大量研究指出,极大似然估计有其固有缺陷,在训练阶段,模型损失大小完全取决于词粒度的预测表现,而在测试阶段,考虑到生成任务的特点,一般采用面向短语、或者句子级别预测表现的评价指标。第二,序列到序列模型面临着曝光偏差的问题,即,在预测时,由于模型当前时间步的输入来自上一时间步的输出,一旦模型在某一时间步未能输出正确的预测,那么模型之后的预测行为都将受其影响,且很难恢复到正确的轨迹。
发明内容
本发明提供一种基于生成对抗网络的司法文书自动校对方法,顺利的解决司法文书的语法错误纠正的问题。
本发明通过以下技术方案实现:
一种基于生成对抗网络的司法文书自动校对方法,所述生成对抗网络包括一个生成器和一个判别器,所述生成器为神经语法错误纠正模型,所述生成器采用序列到序列框架的编码器-解码器模型,所述判别器为基于卷积神经网络的二分类模型,所述判别器负责区分一个纠正句子是由人类书写还是由生成器生成,所述生成器和判别器一起协同训练,使得两者相互促进;
根据所述生成对抗网络的自动校对方法包括以下步骤:
步骤1:生成器为一个参数化的随机策略,生成纠正司法文书句子的每一个时间步t;
步骤2:智能体基于步骤1的随机策略采取动作;
步骤3:步骤2的随机策略采取动作后,生成一个完整的纠正司法文书句子后,将完整的纠正司法文书句子和对应的源端错误句子一起作为判别器的输入;
步骤4:判别器判断该“错误-纠正”句对在多大程度上是人工标注;
步骤5:根据步骤4判断输出具体的概率值作为奖励反馈给生成器;
步骤6:更新步骤5中的生成器参数,以便获取的期望奖励最大化,实现司法文书自动校对。
进一步的,所述步骤3具体为,给定源端错误句子x,判别器区分人类书写的纠正句子y和生成器生成的纠正句子y′,使用卷积神经网络作为判别器的基础组件,通过多层的卷积和池化操作,提取x和y之间的层次对应关系。
进一步的,所述提取x和y之间的层次对应关系具体包括以下步骤,
步骤3.1:通过将定源端错误句子x中的词向量和人类书写的纠正句子y中的词向量进行拼接,构造一个二维图像的输入表示;
步骤3.2:步骤3.1的图像的高度、宽度分别是定源端错误句子x的长度和人类书写的纠正句子y的长度。
进一步的,所述步骤3.2具体为,定源端错误句子x中的第i个词和人类书写的纠正句子y中的第j个词,则其对应输入的图像矩阵的第(i,j)位置,该位置的特征映射为:
zi,j=[xi,yj]
基于上述输入表示,在3x3的窗口中执行卷积操作,来捕获定源端错误句子x和人类书写的纠正句子y中片段的对应关系,计算公式为:
Figure BDA0002609798100000031
其中,σ为relu非线性激活函数,
Figure BDA0002609798100000032
为经过一次卷积后(i,j)位置上的映射,W(1,f)为权重矩阵,b(1,f)为偏置项:
Figure BDA0002609798100000033
在执行完卷积操作之后,继续执行池化操作,窗口大小设置为2x2,计算公式为:
Figure BDA0002609798100000034
其中,
Figure BDA0002609798100000035
表示经过池化后(i,j)位置上的映射;
重复多次上述卷积、池化操作,以便在不同抽象层次捕获定源端错误句子x和人类书写的纠正句子y中各片段的对应关系,最后,对特征图的像素点进行展平和拼接,使用一个全连接网络层进行分类,判别器输出0-1之间的概率值,指示句对(x,y)为人工标注的程度。
进一步的,所述步骤4具体为,给定错误-纠正平行语料(X,Y),要训练一个生成器G,G的参数用θ表示,给定源端错误句子x=(x1,x2,...,xm),xi∈X,X为源端词表,生成器生成纠正句子y′=(y′1,y′2,...,y′n),y′i∈Y′,Y′为目标端词表;
在时间步t,状态s定义为生成器,当前已经产生的前缀序列(y1,y2,...,yt-1),动作a定义为生成下一个词yt,采取某一动作a=yt,由当前状态s=y1:t-1转移到下一状态s′=y1:t的概率为1。
进一步的,所述步骤4具体为,训练判别器时,采用二分类交叉熵损失函数,正样本即为错误-纠正平行句对(x,y),负样本(x,y′)由语法错误纠正模型翻译平行句对(x,y)中的源端错误句子x构造得到;
给定源端输入句子,生成器的目标是从初始状态s0=(<BOS>)开始生成一个单词序列,并最大化最终的期望奖励,生成器的目标函数定义为:
Figure BDA0002609798100000041
其中,θ为生成器的参数,y1:T为生成器产生的纠正句子,x为输入的源端错误句子,
Figure BDA0002609798100000042
是动作-值函数,yT为生成器产生的纠正句子序列的最后一个位置,Gθ为当前的策略,其物理含义为,从状态y1:T-1开始,依据策略Gθ,采取动作yt能获取的期望奖励,使用判别器输出句对(x,y1:T)为人工标注的概率作为
Figure BDA0002609798100000043
的值:
Figure BDA0002609798100000044
其中,b(x,y1:T)是为降低奖励值估计的方差而引入的基线值。
进一步的,所述步骤6具体为,给定源端错误句子x,判别器只能对一个完整的纠正句子y给出反馈,而对于纠正句子的前缀序列y1:t-1
Figure BDA0002609798100000045
并没有明确的含义,为了估计对于纠正句子前缀序列y1:t-1的奖励值,依据当前的策略Gθ,采用蒙特卡洛搜索生成后续单词序列;
当采样到句子结束符<BOS>或者生成序列达到预先设置的最大长度时,本次搜索结束,重复N次蒙特卡洛搜索:
Figure BDA0002609798100000046
其中,Ti表示第i次蒙特卡洛搜索得到的序列的长度,MC为蒙特卡洛搜索,(y1:t,x)是当前状态,
Figure BDA0002609798100000047
是依据策略Gθ采样得到的单词序列,判别器为每一次执行蒙特卡洛搜索得到的纠正句子计算一个奖励值,并对这N个奖励值取平均,作为中间状态(y1:t,x)的奖励值;
Figure BDA0002609798100000051
定义为:
Figure BDA0002609798100000052
在对抗训练阶段,使用判别器作为奖励函数能迭代地提升生成器的性能,一旦生成器获得更新,则用其生成的更真实的纠正句子构造负样本,进一步训练判别器,判别器的损失函数定义为:
Figure BDA0002609798100000053
其中,
Figure BDA0002609798100000054
为数学符号,表示分布,D(x,y)为判别器的输出,min为最小化这个式子;
在更新完判别器的参数后,继续更新生成器的参数,目标函数J(θ)关于生成器参数的导数为:
Figure BDA0002609798100000055
其中,
Figure BDA0002609798100000056
为梯度下降;
通过以上推导过程,便可使用基于梯度的优化算法更新生成器参数:
Figure BDA0002609798100000057
其中,ah为在第h步的学习率,
Figure BDA0002609798100000058
为目标函数J(θ)关于生成器参数的导数。
本发明的有益效果是:
对本发明中隐含的语法错误进行纠错不光可以使得行文更为流畅且易于阅读,司法文书作为法律执行的载体,若存在语法错误或逻辑错误将会带来巨大的影响,而基于人工校对处理大量的文本显然是不现实的,这就使得文本纠错技术在近年来越来越受到关注。本发明对司法文书的自动校对方法展开详细的分析,并在此基础上完成了一种新的解决方案。
附图说明
附图1本发明对抗学习框架图。
附图2本发明判别器模型结构图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种基于生成对抗网络的司法文书自动校对方法,所述生成对抗网络包括一个生成器和一个判别器,所述生成器为神经语法错误纠正模型,所述生成器采用序列到序列框架的编码器-解码器模型,所述判别器为基于卷积神经网络的二分类模型,所述判别器负责区分一个纠正句子是由人类书写还是由生成器生成,所述生成器和判别器一起协同训练,使得两者相互促进;
根据所述生成对抗网络的自动校对方法包括以下步骤:
步骤1:生成器为一个参数化的随机策略,生成纠正司法文书句子的每一个时间步t;
步骤2:智能体基于步骤1的随机策略采取动作;
步骤3:步骤2的随机策略采取动作后,生成一个完整的纠正司法文书句子后,将完整的纠正司法文书句子和对应的源端错误句子一起作为判别器的输入;
步骤4:判别器判断该“错误-纠正”句对在多大程度上是人工标注;
步骤5:根据步骤4判断输出具体的概率值作为奖励反馈给生成器;
步骤6:更新步骤5中的生成器参数,以便获取的期望奖励最大化,实现司法文书自动校对。
进一步的,所述步骤3具体为,给定源端错误句子x,判别器区分人类书写的纠正句子y和生成器生成的纠正句子y′,使用卷积神经网络作为判别器的基础组件,通过多层的卷积和池化操作,提取x和y之间的层次对应关系。
进一步的,所述提取x和y之间的层次对应关系具体包括以下步骤,
步骤3.1:通过将定源端错误句子x中的词向量和人类书写的纠正句子y中的词向量进行拼接,构造一个二维图像的输入表示;
步骤3.2:步骤3.1的图像的高度、宽度分别是定源端错误句子x的长度和人类书写的纠正句子y的长度。
进一步的,所述步骤3.2具体为,定源端错误句子x中的第i个词和人类书写的纠正句子y中的第j个词,则其对应输入的图像矩阵的第(i,j)位置,该位置的特征映射为:
zi,j=[xi,yj]
基于上述输入表示,在3x3的窗口中执行卷积操作,来捕获定源端错误句子x和人类书写的纠正句子y中片段的对应关系,计算公式为:
Figure BDA0002609798100000071
其中,σ为relu非线性激活函数,
Figure BDA0002609798100000072
为经过一次卷积后(i,j)位置上的映射,W(1,f)为权重矩阵,b(1,f)为偏置项:
Figure BDA0002609798100000073
在执行完卷积操作之后,继续执行池化操作,窗口大小设置为2x2,计算公式为:
Figure BDA0002609798100000074
其中,
Figure BDA0002609798100000075
表示经过池化后(i,j)位置上的映射
重复多次上述卷积、池化操作,以便在不同抽象层次捕获定源端错误句子x和人类书写的纠正句子y中各片段的对应关系,最后,对特征图的像素点进行展平和拼接,使用一个全连接网络层进行分类,判别器输出0-1之间的概率值,指示句对(x,y)为人工标注的程度。
进一步的,所述步骤4具体为,给定错误-纠正平行语料(X,Y),要训练一个生成器G,G的参数用θ表示,给定源端错误句子x=(x1,x2,...,xm),xi∈X,X为源端词表,生成器生成纠正句子y′=(y′1,y′2,...,y′n),y′i∈Y′,Y′为目标端词表;
在时间步t,状态s定义为生成器,当前已经产生的前缀序列(y1,y2,...,yt-1),动作a定义为生成下一个词yt,将生成器看成是一个随机的策略模型,但其状态转移是确定性的,即,采取某一动作a=yt,由当前状态s=y1:t-1转移到下一状态s′=y1:t的概率为1。
进一步的,所述步骤4具体为,训练判别器时,采用二分类交叉熵损失函数,正样本即为错误-纠正平行句对(x,y),负样本(x,y′)由语法错误纠正模型翻译平行句对(x,y)中的源端错误句子x构造得到;
给定源端输入句子,生成器的目标是从初始状态s0=(<BOS>)开始生成一个单词序列,并最大化最终的期望奖励,生成器的目标函数定义为:
Figure BDA0002609798100000081
其中,θ为生成器的参数,y1:T为生成器产生的纠正句子,x为输入的源端错误句子,
Figure BDA0002609798100000082
是动作-值函数,yT为生成器产生的纠正句子序列的最后一个位置,Gθ为当前的策略,其物理含义为,从状态y1:T-1(已生成的纠正句子前缀)开始,依据策略Gθ,采取动作yt(选择下一个生成的单词为yt)能获取的期望奖励,使用判别器输出句对(x,y1:T)为人工标注的概率作为
Figure BDA0002609798100000083
的值:
Figure BDA0002609798100000084
其中,b(x,y1:T)是为降低奖励值估计的方差而引入的基线值。
将b(x,y1:T)设置为0.5。
进一步的,所述步骤6具体为,给定源端错误句子x,判别器只能对一个完整的纠正句子y给出反馈,而对于纠正句子的前缀序列y1:t-1
Figure BDA0002609798100000091
并没有明确的含义,为了估计对于纠正句子前缀序列y1:t-1的奖励值,依据当前的策略Gθ,采用蒙特卡洛搜索生成后续单词序列;
当采样到句子结束符<BOS>或者生成序列达到预先设置的最大长度时,本次搜索结束,考虑到搜索空间指数级地大,为降低奖励值估计得方差,重复N次蒙特卡洛搜索:
Figure BDA0002609798100000092
其中,Ti表示第i次蒙特卡洛搜索得到的序列的长度,MC为蒙特卡洛搜索,(y1:t,x)是当前状态,
Figure BDA0002609798100000093
是依据策略Gθ采样得到的单词序列,判别器为每一次执行蒙特卡洛搜索得到的纠正句子计算一个奖励值,并对这N个奖励值取平均,作为中间状态(y1:t,x)的奖励值;
Figure BDA0002609798100000094
定义为:
Figure BDA0002609798100000095
在对抗训练阶段,使用判别器作为奖励函数能迭代地提升生成器的性能,一旦生成器获得更新,则用其生成的更真实的纠正句子构造负样本,进一步训练判别器,判别器的损失函数定义为:
Figure BDA0002609798100000096
其中,
Figure BDA0002609798100000097
为数学符号,表示分布,D(x,y)为判别器的输出,min为最小化这个式子;
在更新完判别器的参数后,继续更新生成器的参数,目标函数J(θ)关于生成器参数的导数为:
Figure BDA0002609798100000101
其中,
Figure BDA0002609798100000102
为梯度下降;
通过以上推导过程,在第二个等式处使用了似然率技巧,在第三个等式处使用采样近似期望计算;之后,便可使用基于梯度的优化算法更新生成器参数:
Figure BDA0002609798100000103
其中,ah为在第h步的学习率,
Figure BDA0002609798100000104
为目标函数J(θ)关于生成器参数的导数。
首先,使用典型的极大似然估计,在“错误-纠正”平行语料(X,Y)上预训练生成器,接着,将(X,Y)作为正样本,用生成器“翻译”平行句对(X,Y)中的源端错误句子X来构造负样本(X,Y′),预训练判别器。之后,进入对抗训练阶段,在每一轮对抗训练中,生成器和判别器交替更新,具体的,在更新生成器时,首先,在全数据集上采样一个子集(Xbatch,Ybatch),然后,基于源端错误句子Xbatch,在生成器上采样得到Y′batch,接着,在Y′batch的每个时间步执行蒙特卡洛搜索,并利用当前判别器计算各自的奖励值,最后,使用策略梯度方法更新生成器参数,在更新判别器时,同样先采样一个子集(Xbatch,Ybatch)作为判别器训练的正样本,接着,使用当前的生成器构造负样本(Xbatch,Y′batch),仍然以交叉熵损失训练判别器。
尽管生成对抗网络在包括计算机视觉在内的多个领域取得了巨大的成功,但是其存在的训练不稳定问题也是一直被人诟病,在早期的实验中,我们发现,执行上述对抗训练算法后得到的生成器,性能甚至远低于仅执行预训练得到的生成器,我们认为,造成这一现象的原因是,在对抗训练阶段,生成器只能通过判别器的反馈间接地获取到平行句对(X,Y)中目标端纠正句子Y的信息,而使用策略梯度更新参数时,将完全根据判别器输出的奖励值,鼓励或者抑制生成器生成某一序列的行为(若生成器生成的序列成功欺骗了判别器,从而获取到较高的奖励值,那么,将朝着鼓励生成器生成“高仿”序列的方向更新参数,反之,则抑制)。这样的训练策略是脆弱的,一旦生成器在某些训练样本上偶然失效,以至于判别器近乎完美地将其生成的纠正句子与人工标注的纠正句子区分开来,那么生成器立即就“迷失”了。根据判别器反馈的奖励值(此时,接近于0),生成器知道自己生成了质量很差的序列,但问题在于,它不知道更新参数的正确方向。考虑到生成的序列有指数多种可能,生成器很难保证每次都生成成功欺骗判别器的序列。因此,一旦因生成了低质量的序列而仅获取微弱的奖励,生成器很容易在错误的道路上越走越远。
为了克服上述问题,我们在每次使用策略梯度方法更新生成器参数后,继续使用“错误-纠正”平行句对来训练生成器,以便生成器能直接获取到人工标注的纠正句子的信号。此时,不使用判别器计算奖励,而是启发式地直接设置为1,这一过程就好比存在一个教师对生成器的行为进行干预,强迫其输出“标准答案”。不难发现,这一修改本质上就是对生成器进行一次标准的极大似然估计训练。我们发现,在对抗训练中加入这一步骤,能极大地提升训练的稳定性,使用策略梯度方法,当生成器因输出低劣的纠正句子而迷失时,极大似然估计训练,能及时地将它拉回正确的轨道。表1中给出了对抗学习算法的完整流程。
表1对抗学习框架中的训练算法
Figure BDA0002609798100000111
Figure BDA0002609798100000121
实施例2
使用在实验过程中,本发明使用四种训练语料,其中三种为大规模的公开数据集,一种为我们自己制作的小规模司法文书数据集。NLPCC 2018GEC训练集、HSK平行语料以及司法文书数据集用于训练纠错模型,中文维基百科语料用于训练词向量和统计语言模型。
NLPCC 2018GEC训练集来自于NLPCC 2018GEC共享任务评测,是目前公开的最大规模平行语料,源自于Lang-8网站,Lang-8是一个多语言学习平台,由大量原生语言人士挑选学习者撰写的文章进行修改。经过处理后保留完整平行句对1206531个训练样本。
HSK(汉语水平考试的拼音缩写)语料来自北京语言大学(BLCU)的“HSK动态作文语料库”,该语料库是BLCU崔希亮教授主持的一个国家汉办科研项目,“HSK动态作文语料库”是母语非汉语的外国人参加高等汉语水平考试作文考试的答卷语料库,收集了1992-2005年的部分外国考生的作文答卷。语料库1.0版收入语料10740篇,约400万字,后经修改补充,语料库1.1版语料总数达到11569篇,共计424万字。该平行语料质量较高,且已经过预处理操作,共计156870个平行句对。
此外,在大规模自然语言训练样本的基础上,我们又根据网上可以采集到的司法文书数据,自行标记了小规模司法文书平行句对34150个平行句对。我们将其按照3:1的比例划分为训练数据及测试数据。
我们选择了不同的数据融合模型进行训练模型,得到了不同的实验效果,并得出结论,NLPCC+HSK+司法数据融合模式可以使模型效果达到最佳,故后续实验中,我们均使用NLPCC+HSK+司法数据的数据融合模式作为训练数据,使用司法数据中划分出来的司法测试数据作为测试数据。
表2对抗训练实验训练数据与测试数据统计信息&评价指标
Figure BDA0002609798100000131
判别器预训练设置
判别器的输入为(x,y),x为源端错误句子,y为目标端纠正句子,判别器需要区分y是由语法错误纠正模型生成还是由人类书写。预训练判别器的正样本即为原始的“错误-纠正”平行句对(X,Y),使用预训练好的生成器“翻译”X,以此构造负样本(X,Y′)。
实验中,设置词向量的维度为300,在输入层之后,堆叠了两次卷积和池化操作,卷积窗口大小设置为3×3,池化窗口大小设置为2×2,使用最大池化,其中,第一个卷积层使用128个特征映射,第二个卷积层使用256个特征映射,分类时,使用一个三层的全连接网络,隐含层的维度设置为128,使用softmax保证最终的输出为一个合法的概率分布。
和生成器保持一致,将平行语料中源端和目标端出现最频繁的前30000个BPE子词单元构成词表,对于同时出现在源端词表和目标端词表的词,不共享Embedding,我们使用预训练词向量初始化判别器Embedding层的参数,预训练词表使用fastText工具在wiki百科语料上训练得到,训练判别器时,使用Adam优化算法,初始学习率设置为0.001,为防止过拟合,在判别器的Embedding层、全连接神经网络的输入层、隐含层施加dropout,dropout率设置为0.8,此外,对全连接神经网络的参数施加L2正则,权值衰减的系数设置为0.001,为保证相对平滑的参数更新,使用梯度剪裁(gradient clipping)方法,阈值设置为1。训练时,batch大小设置为128,输入的源端错误句子和目标端纠正句子的最大长度设置为50,超过该长度的部分直接截断,使用早停(early stopping)机制,当模型在开发集上的结果连续3个epoch均未提升时,结束训练。
对抗训练设置对抗学习阶段,训练生成器的频次和训练判别器的频次保持一比一。训练生成器时,在生成的纠正句子中每一个时间步执行20次蒙特卡洛搜索以估计奖励值,为进一步降低估计的方差,设置基线值为0.5,更新参数时,使用rmsprop优化算法,初始学习率设置为0.0003,batch大小设置为128。训练判别器时,在训练语料中随机采样5000条“错误-纠正”平行句对(Xbatch,Ybatch)作为正样本,使用当前的生成器“翻译”源端错误句子X,进而构造负样本(Xbatch,Y′batch),使用这10000条样本训练判别器,各类设置和预训练时保持一致。
表3对抗学习框架实验结果
Figure BDA0002609798100000141
其中,Transformerbase为baseline模型。TransformerGAN是经过对抗训练后的生成器的结果。TransformerGAN_MA额外使用了Moving Average技术来降低奖励值估计的方差。TransformerWGAN使用改进的WGAN训练框架。

Claims (7)

1.一种基于生成对抗网络的司法文书自动校对方法,其特征在于,所述生成对抗网络包括一个生成器和一个判别器,所述生成器为神经语法错误纠正模型,所述生成器采用序列到序列框架的编码器-解码器模型,所述判别器为基于卷积神经网络的二分类模型,所述判别器负责区分一个纠正句子是由人类书写还是由生成器生成,所述生成器和判别器一起协同训练,使得两者相互促进;
根据所述生成对抗网络的自动校对方法包括以下步骤:
步骤1:生成器为一个参数化的随机策略,生成纠正司法文书句子的每一个时间步t;
步骤2:智能体基于步骤1的随机策略采取动作;
步骤3:步骤2的随机策略采取动作后,生成一个完整的纠正司法文书句子后,将完整的纠正司法文书句子和对应的源端错误句子一起作为判别器的输入;
步骤4:判别器判断该“错误-纠正”句对在多大程度上是人工标注;
步骤5:根据步骤4判断输出具体的概率值作为奖励反馈给生成器;
步骤6:更新步骤5中的生成器参数,以便获取的期望奖励最大化,实现司法文书自动校对。
2.根据权利要求1所述一种基于生成对抗网络的司法文书自动校对方法,其特征在于,所述步骤3具体为,给定源端错误句子x,判别器区分人类书写的纠正句子y和生成器生成的纠正句子y′,使用卷积神经网络作为判别器的基础组件,通过多层的卷积和池化操作,提取x和y之间的层次对应关系。
3.根据权利要求2所述一种基于生成对抗网络的司法文书自动校对方法,其特征在于,所述提取x和y之间的层次对应关系具体包括以下步骤,
步骤3.1:通过将定源端错误句子x中的词向量和人类书写的纠正句子y中的词向量进行拼接,构造一个二维图像的输入表示;
步骤3.2:步骤3.1的图像的高度、宽度分别是定源端错误句子x的长度和人类书写的纠正句子y的长度。
4.根据权利要求3所述一种基于生成对抗网络的司法文书自动校对方法,其特征在于,所述步骤3.2具体为,定源端错误句子x中的第i个词和人类书写的纠正句子y中的第j个词,则其对应输入的图像矩阵的第(i,j)位置,该位置的特征映射为:
zi,j=[xi,yj]
基于上述输入表示,在3x3的窗口中执行卷积操作,来捕获定源端错误句子x和人类书写的纠正句子y中片段的对应关系,计算公式为:
Figure FDA0002609798090000021
其中,σ为relu非线性激活函数,
Figure FDA0002609798090000022
为经过一次卷积后(i,j)位置上的映射,W(1,f)为权重矩阵,b(1,f)为偏置项:
Figure FDA0002609798090000023
在执行完卷积操作之后,继续执行池化操作,窗口大小设置为2x2,计算公式为:
Figure FDA0002609798090000024
其中,
Figure FDA0002609798090000025
表示经过池化后(i,j)位置上的映射;
重复多次上述卷积、池化操作,以便在不同抽象层次捕获定源端错误句子x和人类书写的纠正句子y中各片段的对应关系,最后,对特征图的像素点进行展平和拼接,使用一个全连接网络层进行分类,判别器输出0-1之间的概率值,指示句对(x,y)为人工标注的程度。
5.根据权利要求1所述一种基于生成对抗网络的司法文书自动校对方法,其特征在于,所述步骤4具体为,给定错误-纠正平行语料(X,Y),要训练一个生成器G,G的参数用θ表示,给定源端错误句子x=(x1,x2,...,xm),xi∈X,X为源端词表,生成器生成纠正句子y′=(y′1,y′2,...,y′n),y′i∈Y′,Y′为目标端词表;
在时间步t,状态s定义为生成器,当前已经产生的前缀序列(y1,y2,...,yt-1),动作a定义为生成下一个词yt,采取某一动作a=yt,由当前状态s=y1:t-1转移到下一状态s′=y1:t的概率为1。
6.根据权利要求5所述一种基于生成对抗网络的司法文书自动校对方法,其特征在于,所述步骤4具体为,训练判别器时,采用二分类交叉熵损失函数,正样本即为错误-纠正平行句对(x,y),负样本(x,y′)由语法错误纠正模型翻译平行句对(x,y)中的源端错误句子x构造得到;
给定源端输入句子,生成器的目标是从初始状态s0=(<BOS>)开始生成一个单词序列,并最大化最终的期望奖励,生成器的目标函数定义为:
Figure FDA0002609798090000031
其中,θ为生成器的参数,y1:T为生成器产生的纠正句子,x为输入的源端错误句子,
Figure FDA0002609798090000032
是动作-值函数,yT为生成器产生的纠正句子序列的最后一个位置,Gθ为当前的策略,其物理含义为,从状态y1:T-1开始,依据策略Gθ,采取动作yt能获取的期望奖励,使用判别器输出句对(x,y1:T)为人工标注的概率作为
Figure FDA0002609798090000033
的值:
Figure FDA0002609798090000034
其中,b(x,y1:T)是为降低奖励值估计的方差而引入的基线值。
7.根据权利要求1所述一种基于生成对抗网络的司法文书自动校对方法,其特征在于,所述步骤6具体为,给定源端错误句子x,判别器只能对一个完整的纠正句子y给出反馈,而对于纠正句子的前缀序列y1:t-1
Figure FDA0002609798090000035
并没有明确的含义,为了估计对于纠正句子前缀序列y1:t-1的奖励值,依据当前的策略Gθ,采用蒙特卡洛搜索生成后续单词序列;
当采样到句子结束符<BOS>或者生成序列达到预先设置的最大长度时,本次搜索结束,重复N次蒙特卡洛搜索:
Figure FDA0002609798090000036
其中,Ti表示第i次蒙特卡洛搜索得到的序列的长度,MC为蒙特卡洛搜索,(y1:t,x)是当前状态,
Figure FDA0002609798090000041
是依据策略Gθ采样得到的单词序列,判别器为每一次执行蒙特卡洛搜索得到的纠正句子计算一个奖励值,并对这N个奖励值取平均,作为中间状态(y1:t,x)的奖励值;
Figure FDA0002609798090000042
定义为:
Figure FDA0002609798090000043
在对抗训练阶段,使用判别器作为奖励函数能迭代地提升生成器的性能,一旦生成器获得更新,则用其生成的更真实的纠正句子构造负样本,进一步训练判别器,判别器的损失函数定义为:
Figure FDA0002609798090000044
其中,D(x,y)为判别器的输出;
在更新完判别器的参数后,继续更新生成器的参数,目标函数J(θ)关于生成器参数的导数为:
Figure FDA0002609798090000045
其中,
Figure FDA0002609798090000046
为梯度下降;
通过以上推导过程,便可使用基于梯度的优化算法更新生成器参数:
Figure FDA0002609798090000047
其中,ah为在第h步的学习率,
Figure FDA0002609798090000048
为目标函数J(θ)关于生成器参数的导数。
CN202010750319.1A 2020-07-30 2020-07-30 一种基于生成对抗网络的司法文书自动校对方法 Pending CN111985218A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010750319.1A CN111985218A (zh) 2020-07-30 2020-07-30 一种基于生成对抗网络的司法文书自动校对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010750319.1A CN111985218A (zh) 2020-07-30 2020-07-30 一种基于生成对抗网络的司法文书自动校对方法

Publications (1)

Publication Number Publication Date
CN111985218A true CN111985218A (zh) 2020-11-24

Family

ID=73444835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010750319.1A Pending CN111985218A (zh) 2020-07-30 2020-07-30 一种基于生成对抗网络的司法文书自动校对方法

Country Status (1)

Country Link
CN (1) CN111985218A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784611A (zh) * 2021-01-21 2021-05-11 阿里巴巴集团控股有限公司 数据处理方法、装置及计算机存储介质
CN112818669A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于生成对抗网络的语法错误纠正方法
CN114493781A (zh) * 2022-01-25 2022-05-13 工银科技有限公司 用户行为预测方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309512A (zh) * 2019-07-05 2019-10-08 北京邮电大学 一种基于生成对抗网络的中文语法错误更正方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309512A (zh) * 2019-07-05 2019-10-08 北京邮电大学 一种基于生成对抗网络的中文语法错误更正方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓俊锋: "基于神经机器翻译方法的英语语法错误纠正研究", 《中国优秀博硕士学位论文全文数据库(硕士)哲学与人文科学辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784611A (zh) * 2021-01-21 2021-05-11 阿里巴巴集团控股有限公司 数据处理方法、装置及计算机存储介质
CN112818669A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于生成对抗网络的语法错误纠正方法
CN114493781A (zh) * 2022-01-25 2022-05-13 工银科技有限公司 用户行为预测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107273355B (zh) 一种基于字词联合训练的中文词向量生成方法
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
Logeswaran et al. Sentence ordering and coherence modeling using recurrent neural networks
Komninos et al. Dependency based embeddings for sentence classification tasks
CN108920445B (zh) 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
US20190087417A1 (en) System and method for translating chat messages
CN107515855B (zh) 一种结合表情符的微博情感分析方法和系统
CN111985218A (zh) 一种基于生成对抗网络的司法文书自动校对方法
CN107133211A (zh) 一种基于注意力机制的作文评分方法
CN108132932B (zh) 带有复制机制的神经机器翻译方法
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
Almuhareb et al. Arabic word segmentation with long short-term memory neural networks and word embedding
Fu et al. A CNN-LSTM network with attention approach for learning universal sentence representation in embedded system
Cheng et al. Research on automatic error correction method in English writing based on deep neural network
CN113673259B (zh) 基于数据增强的低资源神经机器翻译方法及系统
Lyu et al. Deep learning for textual entailment recognition
Zhuang et al. Out-of-vocabulary word embedding learning based on reading comprehension mechanism
Zeng Intelligent test algorithm for English writing using English semantic and neural networks
Ma Application of convolutional neural network based on deep learning in college english translation teaching management
Wang [Retracted] The Performance of Artificial Intelligence Translation App in Japanese Language Education Guided by Deep Learning
Wu et al. Analyzing the Application of Multimedia Technology Assisted English Grammar Teaching in Colleges
CN112085985B (zh) 一种面向英语考试翻译题目的学生答案自动评分方法
Almansor et al. Translating dialectal Arabic as low resource language using word embedding
Li [Retracted] An English Writing Grammar Error Correction Technology Based on Similarity Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201124

RJ01 Rejection of invention patent application after publication