CN111460830B

CN111460830B - 一种司法文本中经济事件的抽取方法及系统

Info

Publication number: CN111460830B
Application number: CN202010164540.9A
Authority: CN
Inventors: 林友芳; 万怀宇; 韩升; 武志昊; 王晶; 张硕
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2022-04-12
Anticipated expiration: 2040-03-11
Also published as: CN111460830A

Abstract

本发明提供了一种司法文本中经济事件的抽取方法，用以解决现有技术中司法文本中事件抽取效率低下的问题。所述经济事件抽取方法首先对预选的司法文本数据集进行数据预处理，得到向量化表示的学习数据和文本全局特征，对第一深度学习模型进行训练，得到文本序列对应的实体类别序列；再根据学习数据和实体类别序列，将文本全局特征与文本序列特征进行融合，训练第二深度学习模型，利用第二深度学习模型进行经济事件抽取。本发明围绕深度学习模型，通过融合文本全局特征和文本序列特征，有效地对司法文本中的经济事件进行抽取，准确率高；同时具有较强的泛化以及自学习能力，可用于司法文本摘要、当事人经济事件追踪，减轻相关法务人员的工作压力。

Description

一种司法文本中经济事件的抽取方法及系统

技术领域

本发明属于智慧司法数据处理领域，具体涉及一种司法文本中经济事件的抽取方法及系统。

背景技术

随着计算机的普及和发展，智能化过程已推进到生活及工作的各个领域，智慧司法的建设离不开司法信息化。在司法的信息化进程中，充分利用各级人民法院储存着的大量的司法文本、案件卷宗信息，将客观发生的事件从长篇幅、非结构化的司法文本中抽取出来，有助于司法人员快速理清案件事实；同时，所抽取出的半结构化事件集，可以进一步为司法文本摘要、当事人资产画像等任务提供辅助，推进智慧司法建设。现有技术中，司法文本经济事件抽取，多由司法工作人员手动整理，尚不存在成熟的经济事件抽取模型，阻碍了司法效率地进一步提升。

发明内容

本发明实施例的目的是提高司法文本经济事件的抽取效率，推进智慧司法建设。为了实现上述目的，本发明实施例提供了一种司法文本中经济事件的抽取方法及系统，融合司法文本的全局信息和序列信息，通过反向传播训练进行学习迭代，设计并实现用于司法文本序列标注的深度学习策略，实现司法文本中经济事件的自动抽取，提高事件抽取效率及准确率。

本发明实施例所采用的技术方案如下：

第一方面，本发明实施例提供了一种司法文本中经济事件的抽取方法，所述抽取方法包括如下步骤：

步骤S1，对预选的司法文本数据集进行数据预处理，得到向量化表示的学习数据和文本全局特征；

步骤S2，以所述学习数据为训练材料对第一深度学习模型进行训练，学习得到文本序列对应的实体类别序列；

步骤S3，根据所述学习数据和实体类别序列，训练第二深度学习模型，学习得到文本序列特征，并在训练过程中将所述文本序列特征与所述文本全局特征进行融合，以融合后的特征作为训练材料完成对第二深度学习模型的训练；

步骤S4，将待处理的司法文本输入训练完成的第二深度学习模型，对司法文本进行经济事件抽取。

作为本发明的一个优选实施例，所述方法还包括：

步骤S5，将步骤S4中待处理的司法文本，完成抽取后，加入到步骤S1中预选的司法文本数据集中，返回步骤S1。

作为本发明的一个优选实施例，所述步骤S1中的数据预处理，包括如下步骤：

步骤S11，对所述司法文本数据集中的司法文本进行分句、分词，得到每个句子的字段；

步骤S12，将整体司法文本和所述字段进行向量化表示，得到深度学习模型的学习数据。

作为本发明的一个优选实施例，所述步骤S2中，由随机初始化方式得到实体类别序列的向量化表示。

作为本发明的一个优选实施例，所述第二深度学习模型，采用结合TransformerEncoder序列特征学习与注意力机制特征融合的深度学习事件抽取模型。

作为本发明的一个优选实施例，所述步骤S3进一步包括如下步骤：

步骤S31，向第二深度学习模型中输入所述学习数据捕捉文本序列特征；

步骤S32，融合文本序列特征与文本全局特征；

步骤S33，针对融合后的向量序列，进行触发词类别标注，判断事件类别，得到触发词类别序列；

步骤S34，将所述触发词类别序列拼接在所述融合后的向量序列之后，对拼接后的向量序列进行论元类别标注；

步骤S35，采用所述预选司法文本数据集的论元类别标注结果，对第二深度学习模型进行迭代训练。

作为本发明的一个优选实施例，

将所述输入的字段向量序列记为x＝{x₁，x₂，x₃，...，x_n}，其中n为文本序列的长度，x_k代表序列中第k个字段的输出向量；将文本全局向量表示为V_D；

所述步骤S32进一步包括如下步骤：

步骤S321，计算每个字段对文本全局向量VD的依赖权重α_i，权重范围为[0，1]，公式为：

式(1)中，W₁，W₂，b是模型需要学习的参数，d是词向量的维度；

步骤S322，通过将全局向量V_D乘以依赖权重，并与原字段向量相拼接，得到新的字段表示序列x′＝[x′₁，x′₂，...，x′_n]，其中：

x′_i＝[α_i·V_D，x_i]，i∈[1，n] (2)

完成文本序列特征与全局特征的融合。

第二方面，本发明实施例还提供了一种司法文本中经济事件抽取系统，所述经济事件抽取系统包括：数据存储服务器、数据预处理模块、第一深度学习模型模块、第二深度学习模型模块；其中，

所述数据存储服务器同时与所述数据预处理模块、第一深度学习模型模块和第二深度学习模型模块相连，用于存储预选的司法文本数据集及待处理的司法文本；

所述数据预处理模块，还与第一深度学习模型模块、第一深度学习模块相连，用于对预选的司法文本数据集进行数据预处理，得到向量化表示的学习数据，并将学习数据发送给所述第一深度学习模型模块，将文本全局特征发送给所述第二深度学习模块；

所述第一深度学习模型模块还与第二深度学习模型模块相连，用于根据所述学习数据完成对第一深度学习模型的训练，学习得到文本序列对应的实体类别序列，并将所述实体类别序列发送给所述第二深度学习模型模块；

所述第二深度学习模型模块，用于根据所述学习数据和实体类别序列，训练第二深度学习模型，学习得到文本序列特征；并在训练过程中将所述文本序列特征所述文本全局特征进行融合，以融合后的特征作为训练材料完成对第二深度学习模型的训练，并用于通过训练完成的第二深度学习模型对待处理的司法文本进行经济事件抽取。

作为本发明的一个优选实施例，所述第二深度学习模型模块，将文本全局特征与文本序列特征进行融合，进一步通过执行以下步骤实现特征融合：

步骤S321，计算每个字段对全局文本向量V_D的依赖权重α_i，权重范围为[0，1]，公式为：

x′_i＝[α_i·V_D，x_i]，i∈[1，n] (2)

完成文本序列特征与文本全局特征的融合。

作为本发明的一个优选实施例，所述第二深度学习模型模块还用于对待处理的司法文本完成抽取后，将所述司法文本返回至数据存储模块的预选司法文本数据集中。

本发明具有如下有益效果：

本发明实施例所提供的司法文本中经济事件的抽取方法及系统，融合序列信息与全局信息，通过反向传播训练进行学习迭代，对司法文本中的经济事件进行自动抽取，事件抽取准确度高；辅助法务人员的日常工作，提高了法务人员的工作效率，减轻了相关法务人员的工作压力；同时，具有较强的泛化及自学习能力，具有一定的普适性，为司法文本摘要、司法智能问答、当事人财产画像等任务提供辅助，也对当事人经济事件追踪起到积极作用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的司法文本中经济事件抽取方法流程图；

图2为本发明实施例的司法文本中经济事件抽取系统结构示意图；

图3为本发明实施例所述司法文本中经济事件抽取系统操作原理示意图。

具体实施方式

下面将结合附图通过参考示范性实施例，对本发明技术问题、技术方案和优点进行详细阐明。以下所述示范性实施例仅用于解释本发明，而不能解释为对本发明的限制。本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非在这里进行定义，否则不会用理想化或过于正式的含义来解释。

本发明提供了一种司法文本中经济事件的抽取方法及系统，充分融合司法文本的全局信息以及当前序列信息，设计并实现用于司法文本序列标注的深度学习策略，明显提高法务人员的工作效率。

下面结合附图，通过具体的实施例对本发明的实施方式作进一步解释说明，且各个实施例并不构成对本发明实施方式的限定。

第一实施例

本实施例提供了一种司法文本中经济事件的抽取方法，所述抽取方法将司法文本的文本全局特征与文本序列特征进行融合，从而提高经济事件抽取的效率及准确率。图1所示为所述司法文本中经济事件的抽取方法流程图。如图1所示，所述抽取方法包括如下步骤：

步骤S3，根据所述学习数据和实体类别序列，训练第二深度学习模型，学习得到文本序列特征；并在训练过程中将所述文本序列特征所述文本全局特征进行融合，以融合后的特征作为训练材料完成对第二深度学习模型的训练；

还可以包括：

其中，在步骤S1中，所述预选的司法文本数据集，为进行事件抽取的法院中的历史数据。例如，国内某中级人民法院审理的2018年司法财产保全相关的2,899桩案件相关的7,599篇司法文本，包含“保全裁定书”、“解除裁定书”、“撤回保全申请”、“审理报告”。

所述数据预处理，进一步包括如下步骤：

步骤S11，对所述司法文本数据集中的司法文本进行分句、分词，得到每个句子的字段。

本实施例中所述事件抽取，通过深度学习模型来完成，输入深度学习模型的数据，是标准化、形式化的。因此，本步骤中首先对模型训练需要输入的数据进行标准化、形式化。司法文本以段落的形式出现，而经济事件抽取模型的输入对象通常为单个句子，使用分词工具自动对司法文本进行分句、分词操作，得到每个句子的相应字段。

步骤S12，将整体司法文本和所述字段进行向量化表示，得到深度学习模型的学习数据和文本全局特征。

本步骤中，使用Doc2Vec算法对整体司法文本进行向量化表示，使用Word2Vec算法对分词之后的每一个字段进行向量化表示，得到字段向量。将每个句子中的所有字段向量化表示后，所构成的字段向量序列，蕴含着能表达语句完整含义的语义信息。

与文本对应的实体，包括：整体司法文本、句子、字段。相应地，实体序列，包括整体司法文本序列、句子序列和字段序列。其中，字段序列，蕴含着能表达语句完整含义的语义信息，句子序列蕴含着能表达司法文本完整含义的语义信息，文本序列则蕴含着能表达整个事件完整含义的语义信息。本实施例中所采用的深度学习模型以句子为对象，输入的是表达语句含义的字段序列。

所述步骤S2中，实体类别信息，可以作为文本信息的有效补充信息，为事件抽取任务提供辅助，对提升事件抽效果产生积极作用。通过使用BiLSTM+CRF的深度学习模型，学习得到文本序列对应的实体类别序列，为下一步地事件抽取提供额外数据/信息。所述实体类别的向量表示由Xavier随机初始化方式得到。

在步骤S3中，所述第二深度学习模型，优选地，采用结合Transformer Encoder序列特征学习与注意力机制特征融合的深度学习事件抽取模型。

所述步骤S3进一步包括如下步骤：

步骤S31，向第二深度学习模型中输入所述学习数据捕捉文本序列特征。

本步骤中，将所述字段向量序列输入到第二深度学习模型中，充分挖掘所述字段向量序列中蕴含的语义信息，得到与输入的字段向量序列具有相同维度的输出向量序列，记为x＝{x₁，x₂，x₃，...，x_n}。其中n为所述字段向量序列的长度，x_k代表所述字段向量序列中第k个字段的输出向量。

步骤S32，融合文本序列特征与文本全局特征。

本步骤中，基于注意力机制，对全局信息与文本向量进行融合。文本全局向量表示为V_D，所述文本全局向量表示与文本序列的向量表示x融合具体步骤如下：

式(1)中，W₁，W₂，b是模型需要学习的参数，d是词向量的维度。通过公式(1)，模型可以计算得到文本序列中每个字段对文本全局向量的依赖权重α_i。权重值越高，代表该字段对于全局背景信息的依赖程度越高。

步骤S322，将全局向量V_D乘以依赖权重，并与原字段向量相拼接，得到新的字段表示序列x′＝[x′₁，x′₂，...，x′_n]，其中

x′_i＝[α_i·V_D，x_i]，i∈[1，n] (2)

至此，完成文本序列特征与文本全局特征的融合，得到融合后的向量序列。

步骤S33，针对融合后的向量序列，进行触发词类别标注，判断事件类别，得到触发词类别序列。

使用两层全连接神经网络与CRF方法结合的方式，对融合后的文本向量序列进行降维以及序列标注，得到触发词标注的结果。触发词类别标注的结果采用Word2Vec算法进行计算，得到触发词类别序列。

步骤S34，将所述触发词类别序列拼接在所述融合后的向量序列之后，对拼接后的向量序列进行论元类别标注。

本步骤中，所述对拼接后的向量序列中的论元类别进行标注，即提取经济事件要素，所述要素至少包括人物、时间、地点。

优选地，所述步骤S33和步骤S34中的触发词类别标注与论元类别标注采用相同的抽取模型结构。

在所述步骤S5中，随着司法数据库的不断扩大，可以用于模型训练的数据不断增多，为增强经济事件抽取的效果，定期利用新的全量数据，对经济事件抽取模型进行继续训练，更新模型参数。

由以上技术方案可以看出，本实施例的司法文本中经济事件的抽取方法，围绕深度学习模型，对预选定的司法文本数据集进行数据处理得到文本向量化表示及命名实体识别，利用已有数据，通过多轮迭代，训练模型参数，利用训练得到的深度学习模型，通过融合文本全局信息以及文本序列信息，对司法文本中的经济事件进行抽取；依据新录入数据，定期进行模型再训练，以更新模型参数。本发明实施例的经济事件抽取方法，有效地对司法文本中的经济事件进行抽取，准确率高；同时具有较强的泛化以及自学习能力，可以在司法文本摘要、当事人经济事件追踪等方面起到积极作用，减轻相关法务人员的工作压力。

第二实施例

本实施例提供了一种司法文本中经济事件的抽取系统。图2所示为所述司法文本中经济事件抽取系统结构示意图。如图2所示，所述经济事件抽取系统包括：数据存储服务器101、数据预处理模块102、第一深度学习模型模块103、第二深度学习模型模块104。

其中，所述数据存储服务器101同时与所述数据预处理模块102、第一深度学习模型模块103和第二深度学习模型模块104相连，用于存储预选的司法文本数据集及待处理的司法文本；所述数据存储服务器为ROM、RAM、DVD、云等数据存储介质或媒介。

所述数据预处理模块102，还与第一深度学习模型模块103和第二深度学习模型104相连，用于对预选的司法文本数据集进行数据预处理，得到向量化表示的学习数据和文本全局特征，并将学习数据发送给所述第一深度学习模型模块103，将文本全局特征发送给所述第二深度学习模块104。

所述第一深度学习模型模块103，还与第二深度学习模型模块104相连，用于根据所述学习数据完成对第一深度学习模型的训练，学习得到文本序列对应的实体类别序列，并将所述实体类别序列发送给所述第二深度学习模型模块104。

所述第二深度学习模型模块104，用于根据所述学习数据和实体类别序列，训练第二深度学习模型，学习得到文本序列特征；并在训练过程中将所述文本序列特征所述文本全局特征进行融合，以融合后的特征作为训练材料完成对第二深度学习模型的训练，并用于通过训练完成的第二深度学习模型对待处理的司法文本进行经济事件抽取。特别地，所述第二深度学习模型模块104还用于对待处理的司法文本完成抽取后，将所述司法文本返回至数据存储模块的预选司法文本数据集中。

所述数据预处理模块102、第一深度学习模型模块103和第二深度学习模型模块104通过CPU、可编程逻辑控制器PLC等实现。图3所示为本实施例所述司法文本中经济时间抽取系统操作原理示意图。如图3所示，通过对预选的司法文本的预处理，得到司法文本的文本全局特征(即文本全局向量表示)和文本中所有此的词向量(即词嵌入)。采用得到的词向量数据对第一深度学习模型进行训练，得到实体类别向量。将所属实体类别向量拼接在所述词向量之后，得到拼接后的新词向量。将所述新词向量与文本全局向量表示作为第二深度学习模型的输入，对第二深度学习模型进行训练。在训练过程中，第二深度学习模型将对所述新词向量进行计算，得到文本序列特征，并将所述文本全局特征与所述文本序列特征进行融合，对融合后的特征向量进行触发词类别标注、论元类别标注。最后，采用训练完成的第二深度学习模型，对待处理的司法文本进行经济事件的抽取。

本实施例所述司法文本中经济事件的抽取系统，与第一实施例的司法文本中经济事件抽取方法是对应的，在第一实施例中对司法文本中经济事件抽取方法的技术特征的描述和限定，同样适用于本实施例的司法文本的经济事件抽取系统，在此不再赘述。

以上所述是本发明的优选实施方式，应当指出，本发明并不受限于以上所公开的示范性实施例，说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，在本发明揭露的技术范围做出的若干改进和润饰、可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种司法文本中经济事件的抽取方法，其特征在于，所述抽取方法包括如下步骤：

步骤S3，根据所述学习数据和实体类别序列，训练第二深度学习模型，学习得到文本序列特征，并在训练过程中将所述文本序列特征与所述文本全局特征进行融合，以融合后的特征作为训练材料完成对第二深度学习模型的训练；具体包括：

步骤S32，融合文本序列特征与文本全局特征；将所述输入的字段向量序列记为x＝{x₁,x₂，x₃,…,x_n}，其中n为文本序列的长度，x_i代表序列中第i个字段的输出向量；将文本全局向量表示为V_D，执行如下步骤：

步骤S321，计算每个字段对全局文本向量V_D的依赖权重α_i，权重范围为[0,1]，公式为：

步骤S322，通过将全局向量V_D乘以依赖权重，并与原字段向量相拼接，得到新的字段表示序列x′＝[x′₁,x′₂,…,x′_n]，其中：

x′_i＝[α_i·V_D,x_i],i∈[1,n] (2)

完成文本序列特征与全局特征的融合，得到融合后的向量序列；

步骤S35，采用所述预选司法文本数据集的论元类别标注结果，对第二深度学习模型进行迭代训练；

2.根据权利要求1所述的经济事件抽取方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的经济事件抽取方法，其特征在于，所述步骤S1中的数据预处理，包括如下步骤：

4.根据权利要求1或2所述的经济事件抽取方法，其特征在于，所述步骤S2中，实体类别序列的向量表示由随机初始化得到。

5.根据权利要求1或2所述的经济事件抽取方法，其特征在于，所述第二深度学习模型，采用结合TransformerEncoder序列特征学习与注意力机制特征融合的深度学习事件抽取模型。

6.一种司法文本中经济事件抽取系统，其特征在于，所述经济事件抽取系统包括：数据存储服务器、数据预处理模块、第一深度学习模型模块、第二深度学习模型模块；其中，

所述数据预处理模块，还与第一深度学习模型模块、第一深度学习模块相连，用于对预选的司法文本数据集进行数据预处理，得到向量化表示的学习数据，并将学习数据发送给所述第一深度学习模型模块，将文本全局特征发送给所述第二深度学习模型模块；

所述第二深度学习模型模块，用于根据所述学习数据和实体类别序列，训练第二深度学习模型，学习得到文本序列特征；并在训练过程中将所述文本序列特征所述文本全局特征进行融合，以融合后的特征作为训练材料完成对第二深度学习模型的训练，并用于通过训练完成的第二深度学习模型对待处理的司法文本进行经济事件抽取；进一步用于将文本全局特征与文本序列特征进行融合，并通过执行以下步骤实现特征融合：

将输入的字段向量序列记为x＝{x₁,x₂,x₃,…,x_n}，其中n为文本序列的长度，x_i代表序列中第i个字段的输出向量；将文本全局向量表示为V_D；

x′_i＝[α_i·V_D,x_i],i∈[1,n] (2)

完成文本序列特征与全局特征的融合，得到融合后的向量序列。

7.根据权利要求6所述的司法文本中经济事件抽取系统，其特征在于，所述第二深度学习模型模块还用于对待处理的司法文本完成抽取后，将所述司法文本返回至数据存储模块的预选司法文本数据集中。