CN112347738A

CN112347738A - 基于裁判文书的双向编码器表征量模型优化方法和装置

Info

Publication number: CN112347738A
Application number: CN202011217507.4A
Authority: CN
Inventors: 阎守卫
Original assignee: Ping An Zhitong Consulting Co Ltd Shanghai Branch
Current assignee: Ping An Zhitong Consulting Co Ltd Shanghai Branch
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-02-09
Anticipated expiration: 2040-11-04
Also published as: CN112347738B

Abstract

本申请涉及人工智能，提供了一种基于裁判文书的双向编码器表征量模型优化方法和装置。所述方法包括：根据初始双向编码器表征量模型，确定出与法律裁判文书数据对应的初始预训练模型。获取根据法律裁判文书数据确定的预设个数的案由类别，并为各案由类别添加对应的类别标签。基于类别标签从法律裁判文书数据中提取出对应的训练数据集，并对训练数据集进行数据预处理。基于预处理后的训练数据集，对确定出的初始预训练模型的特定超参数进行优化训练，得到优化后的双向编码器表征量模型。采用本方法实现了根据优化后的双向编码器表征量模型对法律裁判文书的自然语言表征，提升双向编码器表征量模型在裁判文书所属的法律知识领域的应用效果。

Description

基于裁判文书的双向编码器表征量模型优化方法和装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于裁判文书的双向编码器表征量模型优化方法和装置。

背景技术

随着人工智能技术的发展，以及自然语言处理技术在人们工作和生活中的推广应用，作为自然语言处理领域的重大应用BERT模型，其应用也日益广泛。其中，BERT模型表示来自变换器的双向编码器表征量(Bidirectional Encoder Representations fromTransformers)模型，旨在通过联合调节所有层中的上下文来预先训练深度双向表示，其基于大规模语料训练的预训练模型为模型的下游任务，比如句对分类、单句分类以及序列标注等，提供了强大的支撑。

然而，由于已有的BERT模型是基于维基百科语料库进行训练得到，尽管语料库规模较大且知识范围广泛，但针对不同应用场景下的知识邻域时，由于不同应用场景的数据特征存在较大区别，原有的语料库无法较好地覆盖不同知识领域的各数据知识。因此，对于BERT模型在不同应用场景下的实际应用，仍需对其进行进一步训练。

目前针对BERT模型预训练的成本代价较大，大多模型使用方无法结合其应用知识领域特征数据对BERT模型进行重新预训练，仅可对模型进行微调，但对模型进行微调时仍存在数据质量较低、及任务选择不够合理等问题，导致得到的模型在相应知识领域进行应用时效果较差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升双向编码器表征量模型在法律知识领域的应用效果的基于裁判文书的双向编码器表征量模型优化方法和装置。

一种基于裁判文书的双向编码器表征量模型优化方法，所述方法包括：

根据初始双向编码器表征量模型，确定出与法律裁判文书数据对应的初始预训练模型；

获取根据所述法律裁判文书数据确定的预设个数的案由类别，并为各所述案由类别添加对应的类别标签；

基于类别标签从法律裁判文书数据中提取出对应的训练数据集，并对训练数据集进行数据预处理；

基于预处理后的训练数据集，对确定出的初始预训练模型的特定超参数进行优化训练，得到优化后的双向编码器表征量模型。

在其中一个实施例中，所述方法还包括：

根据优化后的双向编码器表征量模型，对已有的法律裁决文书数据进行分类处理，得到预设个数的案由类别下的各法律裁决文书数据的分布概率。

在其中一个实施例中，在所述根据初始双向编码器表征量模型，确定出与法律裁判文书数据对应的初始预训练模型之前，还包括：

获取预设的待输入的文字序列；

将所述待输入的文字序列经由词表，转换成与所述待输入的文字序列对应的数字序列；

获取与原始神经网络模型连接的多个嵌入层；

将所述数字序列输入各所述嵌入层，得到各所述嵌入层的输出数据；

对各所述嵌入层的输出数据进行求和，得到输出数据序列；

根据所述输出数据序列，对多层所述原始神经网络模型进行训练，构建得到初始双向编码器表征量模型。

在其中一个实施例中，所述基于类别标签从法律裁判文书数据中提取出对应的训练数据集，并对训练数据集进行数据预处理，包括：

基于所述类别标签对所述法律裁判文书数据进行分类处理，得到与不同类别标签对应的案由类别下的法律裁判文书数据，得到由不同类别标签对应的法律裁判文书数据组成的初始数据集；

对所述初始数据集进行数据预处理，得到对应的训练数据集；

将所述训练数据集存储至字符分隔值文件中；其中，所述字符分隔值文件设置有特殊字段以及与所述特殊字段对应的案由数据。

在其中一个实施例中，所述对所述初始数据集进行数据预处理，得到对应的训练数据集，包括：

获取针对所述初始数据集预设的数据长度阈值；

根据所述数据长度阈值对所述初始数据集进行长度对齐，得到长度一致的初始数据集；

对所述初始数据集中的各案由类别对应的类别标签进行向量化处理，得到与不同类别标签对应的标签向量；

获取各标签向量对应的法律裁判文书数据，对各标签向量对应的法律裁判文书数据进行数据清洗，删除所述法律裁判文书数据中的特殊字符、乱码字符以及超文本标记语言标记标签，得到对应的训练数据集。

在其中一个实施例中，所述方法还包括：

根据预设比例将所述法律裁判文书数据划分为训练数据集、验证数据集以及测试数据集；其中，所述训练数据集用于对所述初始预训练模型进行训练；所述验证数据集，用于在训练过程中对所述初始预训练模型的泛化能力进行验证，并确定是否存在欠拟合或过拟合；所述测试数据集用于对所述优化后的双向编码器表征量模型进行指标测试。

一种基于裁判文书的双向编码器表征量模型优化装置，所述装置包括：

初始预训练模型确定模块，用于根据初始双向编码器表征量模型，确定出与法律裁判文书数据对应的初始预训练模型；

类别标签添加模块，用于获取根据所述法律裁判文书数据确定的预设个数的案由类别，并为各所述案由类别添加对应的类别标签；

训练数据集确定模块，用于基于类别标签从法律裁判文书数据中提取出对应的训练数据集，并对训练数据集进行数据预处理；

双向编码器表征量模型优化模块，用于基于预处理后的训练数据集，对确定出的初始预训练模型的特定超参数进行优化训练，得到优化后的双向编码器表征量模型。

在其中一个实施例中，所述装置还包括：

分布概率确定模块，用于根据优化后的双向编码器表征量模型，对已有的法律裁决文书数据进行分类处理，得到预设个数的案由类别下的各法律裁决文书数据的分布概率。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于裁判文书的双向编码器表征量模型优化方法和装置中，根据初始双向编码器表征量模型，确定出与法律裁判文书数据对应的初始预训练模型；获取根据所述法律裁判文书数据确定的预设个数的案由类别，并为各所述案由类别添加对应的类别标签；基于类别标签从法律裁判文书数据中提取出对应的训练数据集，并对训练数据集进行数据预处理；基于预处理后的训练数据集，对确定出的初始预训练模型的特定超参数进行优化训练，得到优化后的双向编码器表征量模型。实现了采用对双向编码器表征量模进行优化的方式，进而根据优化后的双向编码器表征量模型更好地对法律领域的裁判文书对应的自然语言进行表征，对法律领域的模型下游分类任务提供良好支撑，提升双向编码器表征量模型在裁判文书所属的法律知识领域的应用效果。

附图说明

图1为一个实施例中基于裁判文书的双向编码器表征量模型优化方法的应用场景图；

图2为一个实施例中基于裁判文书的双向编码器表征量模型优化方法的流程示意图；

图3为一个实施例中优化后的双向编码器表征量模型的架构示意图；

图4为另一个实施例中基于裁判文书的双向编码器表征量模型优化方法的流程示意图；

图5为一个实施例中初始双向编码器表征量模型的构建过程示意图；

图6为一个实施例中初始双向编码器表征量模型的输入表示示意图；

图7为一个实施例中生成训练数据集的流程示意图；

图8为一个实施例中基于裁判文书的双向编码器表征量模型优化装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于裁判文书的双向编码器表征量模型优化方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。根据初始双向编码器表征量模型，确定出与法律裁判文书数据对应的初始预训练模型，其中，法律裁判文书数据可存储于终端102所在本地存储中，也可在检测到相应的模型优化指令时，从服务器104的云端存储中获取，并发送只终端102。获取根据法律裁判文书数据确定的预设个数的案由类别，并为各案由类别添加对应的类别标签，进而基于类别标签从法律裁判文书数据中提取出对应的训练数据集，并对训练数据集进行数据预处理。基于预处理后的训练数据集，对确定出的初始预训练模型的特定超参数进行优化训练，得到优化后的双向编码器表征量模型。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于裁判文书的双向编码器表征量模型优化方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤S202，根据初始双向编码器表征量模型，确定出与法律裁判文书数据对应的初始预训练模型。

其中，初始双向编码器表征量模型，是基于原始神经网络模型即原始transformer模型，进一步构建得到的多层双向transformer编码器。双向编码器表征量模型要求有一个固定的序列长度，比如128。如果不够就在后面进行填充，否则就截取掉多余的词，从而保证输入是一个固定长度的词序列。第一个词是特殊的[CLS]，用于编码整个句子其它词的语义。其中，裁判文书具有权威性、语言规范性、用词准确性、数据完整性以及综合质量高的特点。

具体地，通过从初始双向编码器表征量模型中已有的预训练模型中选定BERT-Base,Chinese:Chinese Simplified and Traditional(使用简体和繁体中文训练的中文字符模型)作为初始预训练模型，该预训练模型基于大规模中文语料训练，具有良好的中文语言表征，对该些预训练模型进行优化训练，可实现对初始双向编码器表征向量模型的参数训练和优化。其中，预训练好的双向编码器表征量模型提供了强大的包含上下文依赖关系的句子表示，可以用来处理多种自然语言处理任务，包括意图识别和词槽填充任务等。

步骤S204，获取根据法律裁判文书数据确定的预设个数的案由类别，并为各案由类别添加对应的类别标签。

具体地，通过从数据库中选取出预设数量的法律裁判文书数据，并从法律裁判文书数据中选取出预设个数的案由类别，其中，预设数量符合模型训练规模大小，预设个数可以设置为10。

进一步地，选定案由的规则在于案由字段数据完整以及特殊字段“本院查明”字段完整，根据案由选定原则，筛选得到案由类别包括民间借贷纠纷、机动车交通事故责任纠纷、金融合同借款纠纷、信用卡纠纷、房屋买卖纠纷、劳务合同纠纷、租赁合同纠纷、追偿权、著作权权属侵权纠纷以及保险纠纷。通过对各案由类别添加相应的类别标签，针对预设个数的案由类别设置的类别标签包括第一标签、第二标签、…以及第十标签，根据各类别标签，可分别识别出不同法律裁判文书数据所属的案由类别。

步骤S206，基于类别标签从法律裁判文书数据中提取出对应的训练数据集，并对训练数据集进行数据预处理。

具体地，根据所确定出的多个类别标签，对法律裁判文书数据进行分类，得到与不同类别标签对应的案由类别所包括的法律裁判文书数据。进而根据不同类别标签对应的法律裁判文书数据，得到由不同类别标签对应的法律裁判文书数据组成的初始数据集，通过对初始数据集进行数据预处理，得到对应的训练数据集，并将训练数据集存储至字符分隔值文件中。

其中，字符分隔值文件设置有特殊字段以及与特殊字段对应的案由数据。其中，对初始数据集进行数据预处理的方式包括：数据清洗，删除法律裁判文书数据中HTML标签、特殊字符以及乱码等。

在一个实施例中，对初始数据集进行数据预处理，还包括：

根据预设比例将法律裁判文书数据划分为训练数据集、验证数据集以及测试数据集；其中，训练数据集用于对初始预训练模型进行训练；验证数据集，用于在训练过程中对初始预训练模型的泛化能力进行验证，并确定是否存在欠拟合或过拟合；测试数据集用于对优化后的双向编码器表征量模型进行指标测试。

其中，预设比例为训练集：验证集：测试集＝7：2：1，即按照7：2：1的比例，将法律裁判文书数据划分为训练数据集、验证数据集以及测试数据集。

步骤S208，基于预处理后的训练数据集，对确定出的初始预训练模型的特定超参数进行优化训练，得到优化后的双向编码器表征量模型。

具体地，根据预处理后的训练数据集，对确定出的初始预训练模型的特定超参数进行优化训练，其中，特定超参数包括：batch(批次)：64，即批次设置为64个，max_len(最大输入序列长度)：256，即最大输入序列长度设置为256，epoch(训练次数)：5，即需进行5次训练迭代。

进一步地，对确定出的初始预训练模型的特定超参数进行优化训练，得到优化后的双向编码器表征量模型，基于图3所示的优化后的双向编码器表征量模型的架构实现，参照图3，训练过程包括：

利用模型架构中的model_2(表征训练层),bidirectional_1(lstm)(序列分类层)、dense_1层(输出层)，对所有参数进行训练，包括：

1)根据表征训练层对输入层的表征进行训练；

2)根据序列分类层对上一层的输出序列进行分类；

3)根据输出层得到最后的输出结果，输出结果包括10个案由类别的概率分布。

其中，input_1(第一输入层)与input_2(第二输入层)分别与BERT模型的embeddings层(嵌入层)以及segments层(句子层)对应，model_2(表征训练层)中所有子层均设置为可训练。bidirectional_1(lstm_1)层(序列分类层)是128个单元的双向长短期记忆网络层，双向长短期记忆网络层用于执行初始双向编码器表征量模型的下游任务，即分类任务。而dense_1层(输出层)为用可用于多分类任务激活的全连接层，输出结果为10个案由类别的概率分布。

在一个实施例中，在得到优化后的双向编码器表征量模型之后，还包括：

具体地，对优化后的双向编码器表征量模型进行应用，将已有的数据库中的法律裁决文书数据，确定为应用数据集，将应用数据集输入优化后的双向编码器表征量模型中，实现对已有的数据库中的法律裁决文书数据的分类处理，进而得到所确定出的预设个数(可以是10个)案由类别的下各法律裁决文书在数据库中所有法律裁决文书数据中的分布概率。

上述基于裁判文书的双向编码器表征量模型优化方法中，根据初始双向编码器表征量模型，确定出与法律裁判文书数据对应的初始预训练模型；获取根据法律裁判文书数据确定的预设个数的案由类别，并为各案由类别添加对应的类别标签；基于类别标签从法律裁判文书数据中提取出对应的训练数据集，并对训练数据集进行数据预处理；基于预处理后的训练数据集，对确定出的初始预训练模型的特定超参数进行优化训练，得到优化后的双向编码器表征量模型。实现了采用对双向编码器表征量模进行优化的方式，进而根据优化后的双向编码器表征量模型更好地对法律领域的裁判文书对应的自然语言进行表征，对法律领域的模型下游分类任务提供良好支撑，提升双向编码器表征量模型在裁判文书所属的法律知识领域的应用效果。

在一个实施例中，如图4所示，提供了一种基于裁判文书的双向编码器表征量模型优化方法，具体包括以下步骤：

步骤S402，获取预设的待输入的文字序列。

具体地，如图5所示，图5提供了初始双向编码器表征量模型的构建过程，参照图5，E1、E2……En等表示嵌入层(embedding层)的输出，trm表示多层原始神经网络模型，即ransformer模型，T1、T2……Tn用于表示进行针对不同嵌入层输出的数据进行微调。

步骤S404，将待输入的文字序列经由词表，转换成与待输入的文字序列对应的数字序列。

具体地，通过获取预设的词表，词表中包括文字与数字间的映射对应关系等，通过将待输入的文字序列经由词表，可转换成与待输入的文字序列对应的数字序列。

步骤S406，获取与原始神经网络模型连接的多个嵌入层。

具体地，如图6所示，图6提供了初始双向编码器表征量模型的输入表示，参照图6，首先，预先设置有2个结构不同的句子作为待输入的文字序列，需要在输入的第一个句子的开头增加一个特殊的词Token[CLS]，在句子的最后一个字后增加一个另一个特殊的词token[SEP]，用以表示第一个句子结束。同样地，在另一个句子的最后一个字后面也会增加一个特殊的词token[SEP]，用于表示第二个句子结束。

进一步地，与原始神经网络模型连接的嵌入层包括词嵌入层(token Embedding)、位置嵌入层(position Embedding)以及句子嵌入层(Segment Embedding)，其中，嵌入(embedding)用于表示把一个东西映射为多维空间的一个点，即一个矢量。词嵌入层表示把词映射为一个词的矢量，位置嵌入层表示把位置信息映射为位置空间的一个点，同样为一个矢量。同理，句子嵌入层通过把句子信息映射为句子的矢量，句子信息可表示选取的词是属于哪个句子的，不同的句子通过【SEP】进行分割。举例来说，位置嵌入和词嵌入类似，把一个位置映射成一个低维稠密的向量。而句子的嵌入向量只有两个取值，要么是属于第一个句子要么属于第二个句子，每个句子都对应一个嵌入向量。

步骤S408，将数字序列输入各嵌入层，得到各嵌入层的输出数据。

具体地，通过将数字序列输入词嵌入层、位置嵌入层以及句子嵌入层，得到不同嵌入层的输出数据。其中，词嵌入层可把数字序列中各数字映射为一个对应的矢量，位置嵌入层表示把位置信息映射为位置空间的一个点，同样为一个矢量，句子嵌入层通过把句子信息映射为句子的矢量，确定输入的数字序列属于哪个句子。

步骤S410，对各嵌入层的输出数据进行求和，得到输出数据序列。

具体地，通过对词嵌入层、位置嵌入层以及句子嵌入层的输出数据进行求和，可得到与数字序列对应的输出数据序列。

步骤S412，根据输出数据序列，对多层原始神经网络模型进行训练，构建得到初始双向编码器表征量模型。

具体地，通过获取与数字序列对应的输出数据序列，并将所获取的输出数据序列作为多层原始神经网络模型的训练数据，并根据训练数据对多层原始神经网络模型进行训练，构建得到初始双向编码器表征量模型。

上述基于裁判文书的双向编码器表征量模型优化方法中，通过将获取的待输入的文字序列经由词表，转换成与待输入的文字序列对应的数字序列。通过获取与原始神经网络模型连接的多个嵌入层，并将数字序列输入各嵌入层，得到各嵌入层的输出数据，进而对各嵌入层的输出数据进行求和，得到输出数据序列。根据输出数据序列，对多层原始神经网络模型进行训练，构建得到初始双向编码器表征量模型。该方法实现了根据待输入文字序列对原始的多层神经网络模型的训练，得到可用于确定出预训练模型的初始双向编码器表征量模型，进而根据所确定的预训练模型实现模型的优化，提升模型在法律知识领域的应用效果。

在一个实施例中，如图7所示，生成训练数据集的步骤，具体包括：

步骤S702，获取针对初始数据集预设的数据长度阈值。

具体地，通过获取针对初始数据集预设的数据长度阈值，其中，预设的数据长度阈值可以为256，即初始数据集包括的数据长度小于等于256。

步骤S704，根据数据长度阈值对初始数据集进行长度对齐，得到长度一致的初始数据集。

具体地，根据所获取的数据长度阈值，对初始数据集内各数据进行长度对齐操作处理，长度小于数据长度阈值256的，均在数据后采用常数值0进行补齐。

步骤S706，对初始数据集中的各案由类别对应的类别标签进行向量化处理，得到与不同类别标签对应的标签向量。

具体地，通过对初始数据集中各个案由类别对应的类别标签进行向量化处理，将各类别标签转换成one-hot向量，即多分类标签向量，进而得到与不同类别标签对应的标签向量。其中，one-hot向量表示为一项属性的特征向量，即同一时间只有一个激活点(不为0)，该向量只有一个特征是不为0的，其他都是0。

步骤S708，获取各标签向量对应的法律裁判文书数据，对各标签向量对应的法律裁判文书数据进行数据清洗，删除法律裁判文书数据中的特殊字符、乱码字符以及超文本标记语言标记标签，得到对应的训练数据集。

具体地，通过获取各标签向量对应的法律裁判文书数据，其中，标签向量包括与10个类别标签对应的10个对应的标签向量，通过对各标签向量对应的法律裁判文书数据进行数据清洗，包括删除法律裁判文书数据中的特殊字符、乱码字符以及超文本标记语言标记标签等，得到对应的训练数据集。

本实施例中，通过获取针对初始数据集预设的数据长度阈值，并根据数据长度阈值对初始数据集进行长度对齐，得到长度一致的初始数据集，进而对初始数据集中的各案由类别对应的类别标签进行向量化处理，得到与不同类别标签对应的标签向量。通过获取各标签向量对应的法律裁判文书数据，对各标签向量对应的法律裁判文书数据进行数据清洗，删除法律裁判文书数据中的特殊字符、乱码字符以及超文本标记语言标记标签，得到对应的训练数据集。实现了对初始数据集的预先处理，避免后续训练过程中出现无效数据或空白数据等，导致模型优化训练中断的问题，进而提升模型优化训练效率。

应该理解的是，虽然图2、图4以及图7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图4以及图7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种基于裁判文书的双向编码器表征量模型优化装置，包括：初始预训练模型确定模块802、类别标签添加模块804、训练数据集确定模块806以及双向编码器表征量模型优化模块808，其中：

初始预训练模型确定模块802，用于根据初始双向编码器表征量模型，确定出与法律裁判文书数据对应的初始预训练模型；

类别标签添加模块804，用于获取根据法律裁判文书数据确定的预设个数的案由类别，并为各案由类别添加对应的类别标签；

训练数据集确定模块806，用于基于类别标签从法律裁判文书数据中提取出对应的训练数据集，并对训练数据集进行数据预处理；

双向编码器表征量模型优化模块808，用于基于预处理后的训练数据集，对确定出的初始预训练模型的特定超参数进行优化训练，得到优化后的双向编码器表征量模型。

上述基于裁判文书的双向编码器表征量模型优化装置中，根据初始双向编码器表征量模型，确定出与法律裁判文书数据对应的初始预训练模型；获取根据法律裁判文书数据确定的预设个数的案由类别，并为各案由类别添加对应的类别标签；基于类别标签从法律裁判文书数据中提取出对应的训练数据集，并对训练数据集进行数据预处理；基于预处理后的训练数据集，对确定出的初始预训练模型的特定超参数进行优化训练，得到优化后的双向编码器表征量模型。实现了采用对双向编码器表征量模进行优化的方式，进而根据优化后的双向编码器表征量模型更好地对法律领域的裁判文书对应的自然语言进行表征，对法律领域的模型下游分类任务提供良好支撑，提升双向编码器表征量模型在裁判文书所属的法律知识领域的应用效果。

在一个实施例，提供了一种基于裁判文书的双向编码器表征量模型优化装置，还包括：文字序列获取模块、数字序列生成模块、嵌入层获取模块、输出数据生成模块、输出数据序列生成模块以及初始双向编码器表征量模型构建模块，其中：

文字序列获取模块，用于获取预设的待输入的文字序列。

数字序列生成模块，用于将待输入的文字序列经由词表，转换成与待输入的文字序列对应的数字序列。

嵌入层获取模块，用于获取与原始神经网络模型连接的多个嵌入层。

输出数据生成模块，用于将数字序列输入各嵌入层，得到各嵌入层的输出数据。

输出数据序列生成模块，用于对各嵌入层的输出数据进行求和，得到输出数据序列。

初始双向编码器表征量模型构建模块，用于根据输出数据序列，对多层原始神经网络模型进行训练，构建得到初始双向编码器表征量模型。

上述基于裁判文书的双向编码器表征量模型优化装置中，通过将获取的待输入的文字序列经由词表，转换成与待输入的文字序列对应的数字序列。通过获取与原始神经网络模型连接的多个嵌入层，并将数字序列输入各嵌入层，得到各嵌入层的输出数据，进而对各嵌入层的输出数据进行求和，得到输出数据序列。根据输出数据序列，对多层原始神经网络模型进行训练，构建得到初始双向编码器表征量模型。该方法实现了根据待输入文字序列对原始的多层神经网络模型的训练，得到可用于确定出预训练模型的初始双向编码器表征量模型，进而根据所确定的预训练模型实现模型的优化，提升模型在法律知识领域的应用效果。

在一个实施例中，训练数据集确定模块还用于：

获取针对初始数据集预设的数据长度阈值；根据数据长度阈值对初始数据集进行长度对齐，得到长度一致的初始数据集；对初始数据集中的各案由类别对应的类别标签进行向量化处理，得到与不同类别标签对应的标签向量；获取各标签向量对应的法律裁判文书数据，对各标签向量对应的法律裁判文书数据进行数据清洗，删除法律裁判文书数据中的特殊字符、乱码字符以及超文本标记语言标记标签，得到对应的训练数据集。

在一个实施例中，提供了一种基于裁判文书的双向编码器表征量模型优化装置，还包括：

在一个实施例中，训练数据集确定模块还用于：

基于类别标签对法律裁判文书数据进行分类处理，得到与不同类别标签对应的案由类别下的法律裁判文书数据，得到由不同类别标签对应的法律裁判文书数据组成的初始数据集；对初始数据集进行数据预处理，得到对应的训练数据集；将训练数据集存储至字符分隔值文件中；其中，字符分隔值文件设置有特殊字段以及与特殊字段对应的案由数据。

在一个实施例中，训练数据集确定模块还用于：

关于基于裁判文书的双向编码器表征量模型优化装置的具体限定可以参见上文中对于基于裁判文书的双向编码器表征量模型优化方法的限定，在此不再赘述。上述基于裁判文书的双向编码器表征量模型优化装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统和计算机程序。该内存储器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于裁判文书的双向编码器表征量模型优化方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取根据法律裁判文书数据确定的预设个数的案由类别，并为各案由类别添加对应的类别标签；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取预设的待输入的文字序列；

将待输入的文字序列经由词表，转换成与待输入的文字序列对应的数字序列；

获取与原始神经网络模型连接的多个嵌入层；

将数字序列输入各嵌入层，得到各嵌入层的输出数据；

对各嵌入层的输出数据进行求和，得到输出数据序列；

根据输出数据序列，对多层原始神经网络模型进行训练，构建得到初始双向编码器表征量模型。

基于类别标签对法律裁判文书数据进行分类处理，得到与不同类别标签对应的案由类别下的法律裁判文书数据，得到由不同类别标签对应的法律裁判文书数据组成的初始数据集；

对初始数据集进行数据预处理，得到对应的训练数据集；

将训练数据集存储至字符分隔值文件中；其中，字符分隔值文件设置有特殊字段以及与特殊字段对应的案由数据。

获取针对初始数据集预设的数据长度阈值；

根据数据长度阈值对初始数据集进行长度对齐，得到长度一致的初始数据集；

对初始数据集中的各案由类别对应的类别标签进行向量化处理，得到与不同类别标签对应的标签向量；

获取各标签向量对应的法律裁判文书数据，对各标签向量对应的法律裁判文书数据进行数据清洗，删除法律裁判文书数据中的特殊字符、乱码字符以及超文本标记语言标记标签，得到对应的训练数据集。

在一个实施例中，提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取预设的待输入的文字序列；

获取与原始神经网络模型连接的多个嵌入层；

将数字序列输入各嵌入层，得到各嵌入层的输出数据；

对各嵌入层的输出数据进行求和，得到输出数据序列；

对初始数据集进行数据预处理，得到对应的训练数据集；

获取针对初始数据集预设的数据长度阈值；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于裁判文书的双向编码器表征量模型优化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，在所述根据初始双向编码器表征量模型，确定出与法律裁判文书数据对应的初始预训练模型之前，还包括：

获取预设的待输入的文字序列；

获取与原始神经网络模型连接的多个嵌入层；

对各所述嵌入层的输出数据进行求和，得到输出数据序列；

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述基于类别标签从法律裁判文书数据中提取出对应的训练数据集，并对训练数据集进行数据预处理，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述初始数据集进行数据预处理，得到对应的训练数据集，包括：

获取针对所述初始数据集预设的数据长度阈值；

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

7.一种基于裁判文书的双向编码器表征量模型优化装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。