CN111898757A

CN111898757A - 数值数据的获取系统、神经网络全连接模型及训练方法

Info

Publication number: CN111898757A
Application number: CN202011045408.2A
Authority: CN
Inventors: 郁思俊; 杜向阳
Original assignee: Beijing Qingdun Information Technology Co ltd
Current assignee: Beijing Qingdun Information Technology Co ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2020-11-06

Abstract

本发明提供了数值数据的获取系统、神经网络全连接模型及训练方法，其特征在于，包括：提取训练数据中的数值信息；对所述数值信息进行预设类别的标注，得到标注序列；将所述标注序列输入至特征序列矩阵输出模型，得到特征序列矩阵；基于所述特征序列矩阵，神经网络全连接模型进行多次所述反向迭代训练。通过本发明提供的训练方法，能够得到具有数值语义分析能力的神经网络全连接模型，利用神经网络全连接模型能够获准确地取法律文本中特定的数值信息，提高了在法律领域中新文本中的数值提取能力。

Description

数值数据的获取系统、神经网络全连接模型及训练方法

技术领域

本发明涉及自然语言分析处理技术领域，特别涉及数值数据的获取系统、神经网络全连接模型及训练方法。

背景技术

在法律领域中，非常关注法律文本中的特定数值信息，比如标的数值信息、酒驾酒精量数值信息等，将这些信息提取出来，对于后续的分析应用具有非常高的价值。现在普遍使用的数值抽取方法是编写正则表达式的方法，即通过编写模板，将文本中与模板匹配的字符串找出来，但是，数值信息描述方式变化多样，无用数字带来的干扰，且用语言文字表达的数值形式多样化，使用正则表达式解决以上困难需要编写至少成百上千的模板，工作量巨大，而且泛化适应能力非常弱，耗时耗力，因此，使用正则表达式进行数值信息抽取应用效果受到局限。因此，需要研发新的数值数据的获取系统、神经网络全连接模型及训练方法。

发明内容

（一）发明目的

本发明的目的是提供一种能基于法律文本中的数值语义，且获取特定的数值信息的数值数据的获取系统、神经网络全连接模型及训练方法。

（二）技术方案

为解决上述问题，根据本发明的第一方面，提供一种神经网络全连接模型的训练方法，包括：提取训练数据中的数值信息；对所述数值信息进行预设类别的标注，以得到标注序列；将所述标注序列输入至特征序列矩阵输出模型，得到特征序列矩阵；神经网络全连接模型进行多次所述反向迭代训练。

进一步地，所述神经网络全连接模型进行多次所述反向迭代训练前，所述神经网络全连接模型将所述特征序列矩阵进行形式变换，得到变换后的特征序列矩阵。

进一步地，所述神经网络全连接模型进行多次所述反向迭代训练包括：将所述变换后的特征序列矩阵输入至所述神经网络全连接模型的CRF模型层；将所述CRF模型层的输出结果通过softmax激活函数进行概率映射；将概率映射结果和实际标签数据进行交叉熵损失比对。

进一步地，所述特征序列矩阵包括与所述标注序列每个字符对应的字向量编码。

进一步地，对所述数值信息进行半监督式BIO标注。

根据本发明的另一个方面，提供一种神经网络全连接模型，由前述第一方面的技术方案中任一项所述的训练方法训练后得到。

根据本发明的另一个方面，提供一种用于法律领域的数值数据获取方法，包括：前述技术方案中所述的神经网络全连接模型从目标数据中提取数值信息；对提取到的所述数值信息进行数值表达形式统一化和数值单位统一化，得到统一化数值信息；将符合匹配规则的所述统一化数值信息之间进行匹配，以获取数值数据。

进一步地，所述对提取到的所述数值信息进行数值表达形式统一化和数值单位统一化包括：将所述数值信息中的数值化信息转化为相同的表达形式；将所述数值信息中不同表达形式的量纲转化为相同表达形式的量纲。

进一步地，所述将符合匹配规则的所述统一化数值信息之间进行匹配，以获取数值数据包括：基于预设的所述统一化数值信息类别的对应关系，对符合对应关系的所述统一化数值信息之间进行匹配。

根据本发明的另一个方面，提供一种数值数据的获取系统，包括：提取模块，利用前述技术方案中所述的神经网络全连接模型从目标数据中提取数值信息；统一化模块，对提取到的所述数值信息进行数值表达形式统一化和数值单位统一化，得到统一化数值信息；匹配模块，将符合匹配规则的所述统一化数值信息之间进行匹配，以获取数值数据。

（三）有益效果

本发明的上述技术方案具有如下有益的技术效果：

通过本发明提供的训练方法，能够得到具有数值语义分析能力的神经网络全连接模型，利用神经网络全连接模型能够获准确地取法律文本中特定的数值信息，提高了在法律领域中新文本中的数值提取能力，相对于现有技术，本发明提供的获取方法具有更强的适应性以及鲁棒性；另外，本发明可以通过半监督学习的方式，对训练数据进行自标注训练，从而减轻了大量的人力财力。

附图说明

图1是本发明实提供的神经网络全连接模型训练方法流程示意图；

图2是本发明实提供的一种数值数据的获取系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在附图中示出了根据本发明实施例的层结构示意图。这些图并非是按比例绘制的，其中为了清楚的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

以下将参照附图更详细地描述本发明。在各个附图中，相同的元件采用类似的附图标记来表示。为了清楚起见，附图中的各个部分没有按比例绘制。

为便于方面理解本发明的技术方案，现对本发明中的相关名词进行解释：

BIO标注法，将文本数据进行字符级别的分类标签标注法，包括若多个字构成一个词，则开头的字符标注为B，非开头字符标注为I，单个非词字符标注为O。

Bert预训练语言模型，一种深度学习语言模型，在序列问题中能学习到序列中的特征信息，从而进行一系列下游任务。

CRF:条件随机场，全称为conditional random field，一种概率图模型，用于约束输出序列的合理性。

数值语义是指这些具有不同含义的数字信息，将其附上单位以及所属类别，即可表达法律文本实际生产中可用的数值信息，这些数值信息具有不同的含义；数值信息、单位符号和数值信息所属领域类别构成了数值语义。

法律领域中数值信息统一具有以下几个特点：

1、相同的数字，却有不同含义。例如：“酒精含量150mg/ml，造成损失100万元。”

2、单位不同，带来的数值总和不同。例如：“欠款本金10万元，利息5000元，需还总额多少”

3、会存在众多其他不相干数字信息干扰。

图1是本发明实提供的神经网络全连接模型训练方法流程示意图。

在本发明第一实施例中，如图1所示，提供了一种神经网络全连接模型的训练方法，主要包括：提取训练数据中的数值信息；对数值信息进行预设类别的标注，以得到标注序列；将标注序列输入至特征序列矩阵输出模型，得到特征序列矩阵；基于特征序列矩阵，神经网络全连接模型进行多次反向迭代训练。

示例性实施例中，获取需要分析的法律原始文本数据作为训练数据；例如法律判决文书，审判通知书等。

通过提取数值信息，对数值信息进行类别标注后，对其进行多次的反向迭代训练，使神经网络全连接模型具有分析数值语义的能力。

一些实施例中，反向迭代训练前，神经网络全连接模型将特征序列矩阵进行形式变换，得到变换后的特征序列矩阵。

示例性实施例中，神经网络全连接模型将特征序列矩阵进行形式变换包括线性变换，矩阵的每个元素都参与的线性变化，从数学公式上可以理解为：Y=WxA+B；其中，Y为最终输出向量，A为特征序列矩阵，W和B是通过训练求得的变换参数。神经网络全连接模型将特征序列矩阵进行形式变换也可以包括非线性变换，即利用非线性函数的特性进行变换，例如，Y=tanH(Wx+B)。

一些实施例中，基于特征序列矩阵，神经网络全连接模型进行多次反向迭代训练包括：将变换后的特征序列矩阵输入至神经网络全连接模型的CRF模型层；将CRF模型层的输出结果通过softmax激活函数进行概率映射；将概率映射结果和实际标签数据进行交叉熵损失比对。

一些实施例中，特征序列矩阵包括与标注序列每个字符对应的字向量编码。

需要说明的是，字向量编码具有一定的语义信息，对某一字符来说，其字向量信息由前后范围内一定的其他字符影响。

一些实施例中，提取训练数据中的数值信息；对数值信息进行半监督式BIO标注。

半监督式是通过部分训练数据得到的预测模型，对新数据进行机器标注，通过人为校验修正之后，继续投入训练过程中，从而减少人力以及扩充训练数据量的效果。

一个具体的示例性实施例中，提取法律原始文本中的数值信息，预设设定提取法律领域的数值类别后，将提取待的数值信息，进行BIO标注法进行标注，得到标注序列；例如，提取法律判决文书中的标的数值信息，人为规定标的类别为“money”，在“本院判决被告赔偿原告精神损失费1000元”这一描述中，将“1000元”这五个字符“1，0，0，0，元”分别认为标注成“B_MONEY，I_MONEY，I_MONEY，I_MONEY，I_MONEY”，其余字符标注为“O”。

将标注序列输入至特征序列矩阵输出模型，得到与标注序列中每个字符对应的字向量编码。该字向量编码具有一定的语义信息，对某一字符来说，其字向量信息由前后范围内一定的其他字符影响；例如，将通过自定义的BIO标注规则标注好的法律领域训练数据传入Bert模型，得到与之对应的特征序列。

通过神经网络的全连接模型将特征序列矩阵输出模型得到的特征序列矩阵进行线性变换，将变换后特征序列矩阵的入至神经网络全连接模型的CRF模型层，最终通过softmax函数映射到每个字符预测所属标签的概率值，从而可以和真实标签进行误差计算，当误差为最小值时，或趋近于0时，结束训练，从而实现整个提取模型的反向求导迭代训练；例如，将Bert模型的输出矩阵序列输入到神经网络全连接层，得到单轮序列每个字符所属标签类别的概率值，然后与真实标签进行误差计算，在多次误差计算中，当误差的最小值为0.1时，选择误差为0.1时的模型，得到训练后的模型，进行后续步骤。

将通训练后的模型得到的一组序列输入到CRF模型层，用于可约束该组预测序列合理有效性，即控制生成序列的合理性；例如，将神经网络全连接层得到的输出序列传入CRF层，约束不合理序列，防止其生成，根据BIO标注法，序列“B，O，O，O，”、“B，O，I，O”这类都是不合理序列，从而保证最终输出结果的合理性以及模型健壮性，从而得到最终最优的序列预测模型，即提取模型。

根据本发明的另一个方面，提供一种神经网络全连接模型，由前述第一方面的技术方案中任一项的训练方法训练后得到。

训练后得到神经网络全连接模型具备数值语义的分析能力，基于数值语义的分析能力，可以法律文本中提取特定的数值数据。

根据本发明的另一个方面，提供一种用于法律领域的数值数据获取方法，包括：前述技术方案中的神经网络全连接模型从目标数据中提取数值信息；对提取到的数值信息进行数值表达形式统一化和数值单位统一化，得到统一化数值信息；将符合匹配规则的统一化数值信息之间进行匹配，以获取数值数据。

一些实施例中，对提取到的数值信息进行数值表达形式统一化和数值单位统一化包括：将数值信息中的数值化信息转化为相同的表达形式；将数值信息中不同表达形式的量纲转化为相同表达形式的量纲。

数值的语言表达形式包含如下几种情况：

（1）常规阿拉伯数字表达，例如：123，3457；

（2）中文形式的数字表达，例如：一百三十四万；

（3）带符号阿拉伯数字表达，例如：100000万元。

所以，需要对数值表达形式一致化以及数值单位纠正补全，即通过提取模型提取出来的数值信息通过信息匹配（文字匹配）的方式进行细致的结构。在提取模型提最终输出的信息中，会存在数值口语化、书写化、量纲不统一等信息，通过文字匹配方式，将多样的数值化信息进行数字化，将量纲单位进行统一，从而做到结构化数值信息；例如，通过提取模型将数值信息抽取出来，会得到诸如“1000美元”、“一千元”、“1000$”此类的结果，然后信息匹配，将这些不同的信息统一成相同表达形式以及相同量纲的形式，例如，可以统一为1000$的形式。

其中，信息匹配包括金额匹配、刑期匹配、酒精含量匹配等法律领域特有数值匹配方式；若提取模型提取的数值信息不存在单位描述，则根据数值语义，对其进行补全，并且可以将量纲设置成可选择的形式，用户可以自行选择所得结果的结构化数值信息。

一些实施例中，将符合匹配规则的统一化数值信息之间进行匹配，以获取数值数据包括：基于预设的统一化数值信息类别的对应关系，对符合对应关系的统一化数值信息之间进行匹配。

统一化数值信息并不是可以直接使用的，有些统一化数值信息之间具有逻辑关系；例如，在法律领域中，本金和利息会被同时抽取出来，但这两个值之间的加和才是最终有价值的数据。因此，需要对统一化数值信息进行匹配，具体的，通过不同类别的统一化数值信息间预设的关系，根据预设关系相对应的预设匹配方式，对统一化数值信息进行匹配，在法律领域中根据数值信息所属类别的不同，预设匹配关系包括但不限定：加和、相减、是否包含等关系。例如，在“本院最终判决被告支付原告本金1000元，利息100元”这一描述中，我们需要将总价结构化，得到的统一化数值信息是“本金-1000元”和“利息-100元”，通过预设匹配关系得知本金和利息相加才是总额，故最终的输出结果会是“1100元”，这才是我们最终需要得到的合理值，即特定的数值数据。

在不同的数值信息所属类别中，数值数据的匹配和应用是不同的。

若数值信息所属类别是酒精含量类别，通过对数值信息进行数值表达统一化和数值单位统一化之后，可以得到具体的酒精度含量，根据酒驾和醉驾的酒精度含量指标，可以直接判断是酒驾还是醉驾。

若数值信息所属类别是犯罪金额类别，其中，犯罪金额存在多个类别：贪污、盗窃和抢劫等。提起模块提起数值信息时候，会将各个类别的犯罪金额各自划分为总额和非总额两个部分。例如，识别出贪污类总额金额，则直接作为贪污总额返回，若提取出多个非总额部分，则多个非总额求和作为贪污金额输出。

若数值信息所属类别是交通事故数量类别。预先将交通事故分为轻微事故、一般事故、重大事故和特大事故四大类，在对交通事故数量的数值信息提取中，会提取出对应类别的交通事故数量，若最终只需要交通事故数量总数量，则将识别出来的多类交通事故数量求和输出。

图2是本发明实提供的一种数值数据的获取系统结构示意图。

根据本发明的另一个方面，如图2所示，提供一种数值数据的获取系统，包括：提取模块，利用前述技术方案中的神经网络全连接模型从目标数据中提取数值信息；统一化模块，对提取到的数值信息进行数值表达形式统一化和数值单位统一化，得到统一化数值信息；匹配模块，将符合匹配规则的统一化数值信息之间进行匹配，以获取数值数据。

一种数值数据的获取系统与前述技术方案中一种数值数据的获取方法相对应，固不在赘述。

本发明的上述技术方案具有如下有益的技术效果：

以上参照本发明的实施例对本发明予以了说明。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。本发明的范围由所附权利要求及其等价物限定。不脱离本发明的范围，本领域技术人员可以做出多种替换和修改，这些替换和修改都应落在本发明的范围之内。

Claims

1.一种神经网络全连接模型的训练方法，其特征在于，包括：

提取训练数据中的数值信息；

对所述数值信息进行预设类别的标注，以得到标注序列；

将所述标注序列输入至特征序列矩阵输出模型，得到特征序列矩阵；

神经网络全连接模型进行多次反向迭代训练。

2.根据权利要求1所述的训练方法，其特征在于，所述神经网络全连接模型进行多次反向迭代训练前，还包括：

所述神经网络全连接模型将所述特征序列矩阵进行形式变换，得到变换后的特征序列矩阵。

3.根据权利要求2所述的训练方法，其特征在于，所述神经网络全连接模型进行多次反向迭代训练包括：

将变换后的所述特征序列矩阵输入至所述神经网络全连接模型的CRF模型层；

将所述CRF模型层的输出结果通过softmax激活函数进行概率映射；

将概率映射结果和实际标签数据进行交叉熵损失比对。

4.根据权利要求1所述的训练方法，其特征在于，

所述特征序列矩阵包括与所述标注序列每个字符对应的字向量编码。

5.根据权利要求1所述的训练方法，其特征在于，

对所述数值信息进行半监督式BIO标注。

6.一种神经网络全连接模型，其特征在于，

由权利要求1-5任一项所述的训练方法训练后得到。

7.一种用于法律领域的数值数据获取方法，其特征在于，包括：

利用权利要求6所述的神经网络全连接模型从目标数据中提取数值信息；

对提取到的所述数值信息进行数值表达形式统一化和数值单位统一化，得到统一化数值信息；

将符合匹配规则的所述统一化数值信息之间进行匹配，以获取数值数据。

8.根据权利要求7所述的获取方法，其特征在于，所述对提取到的所述数值信息进行数值表达形式统一化和数值单位统一化包括：

将所述数值信息中的数值化信息转化为相同的表达形式；

将所述数值信息中不同表达形式的量纲转化为相同表达形式的量纲。

9.根据权利要求7所述的获取方法，其特征在于，所述将符合匹配规则的所述统一化数值信息之间进行匹配，以获取数值数据包括：

基于预设的所述统一化数值信息类别的对应关系，对符合对应关系的所述统一化数值信息之间进行匹配。

10.一种数值数据的获取系统，其特征在于，包括：

提取模块，利用权利要求6所述的神经网络全连接模型从目标数据中提取数值信息；

统一化模块，对提取到的所述数值信息进行数值表达形式统一化和数值单位统一化，得到统一化数值信息；

匹配模块，将符合匹配规则的所述统一化数值信息之间进行匹配，以获取数值数据。