CN112733507B

CN112733507B - 一种自动生成法律文本标记事件的方法

Info

Publication number: CN112733507B
Application number: CN202110058260.4A
Authority: CN
Inventors: 兰莉; 周振东
Original assignee: Jiangsu Netmarch Technologies Co ltd
Current assignee: Jiangsu Netmarch Technologies Co ltd
Priority date: 2021-01-16
Filing date: 2021-01-16
Publication date: 2023-06-09
Anticipated expiration: 2041-01-16
Also published as: CN112733507A

Abstract

本发明公开了一种自动生成法律文本标记事件的方法，其包括输入初始的法律文本数据进行预处理，识别事件的触发词、事件的参数、事件类型；根据识别的事件参数与事件类型，使用GPT模型获取新的事件参数；根据识别的触发词与事件类型，通过BERT模型生成新的触发词；根据新的触发词与新的事件参数，生成新的法律文本标记事件；对新的法律文本标记事件进行评价；从评价完成的法律文本标记事件中选出评价符合标准的法律文本标记事件。通过替换参数和触发词的方法来生成新的标记事件，仅需要较少的初始法律文本数据即可自动生成大量的事件，避免了由于事件量不足造成的模型精确度不高的情况。

Description

一种自动生成法律文本标记事件的方法

技术领域

本发明涉及用于法律文本处理领域，尤其涉及一种自动生成法律文本标记事件的方法。

背景技术

在法律文本事件抽取的模型训练中，为了训练出一个质量较为精确的模型，需要大量的已经标注好的事件数据集让模型进行机器学习，以此加强模型在事件抽取中的精确性。

以往使用的标注法律事件数据集，通常依赖于人为标注的法律事件，不仅需要耗费大量的时间与人力物力，标注的法律事件数量也不大。

本发明提供一种自动生成法律文本标记事件的方法解决上述人为标准的问题。

发明内容

为克服上述问题，本发明目的在于，提供一种自动生成法律文本标记事件的方法，以解决人为标注事件数据量不足，标注事件标注不一致的问题。

为实现上述目的，本发明提供如下技术方案：一种自动生成法律文本标记事件的方法，其包括输入初始的法律文本数据进行预处理，识别事件的触发词、事件的参数、事件类型；根据识别的事件参数与事件类型，使用GPT模型获取新的事件参数；根据识别的触发词与事件类型，通过BERT模型生成新的触发词；根据新的触发词与新的事件参数，生成新的法律文本标记事件；对新的法律文本标记事件进行评价；从评价完成的法律文本标记事件中选出评价符合标准的法律文本标记事件。

针对新的法律文本标记事件进行评价，其步骤包括：

(1)获取生成标记事件的合理性R(S′)，具体满足：

其中，R(S')表示新生成标记事件S′的合理性分数，S′表示重写过的句子，P(t)表示重写事件参数t的概率，A(S')表示在句子S′中调整过后的新的事件参数；

(2)获取生成的标记事件和原有的标记事件之间的偏差度D(S′)，具体满足：

其中，D(S')表示重写过的句子与原有句子之间的偏差度，D表示原有的数据集，B(S)生成标记事件句子的元素集合的特征向量化处理，B(S’)表示原有标记事件句子的元素集合的特征向量化处理，||表示对向量化后的文本进行取模操作；

(3)根据所述生成标记事件的合理性与偏差度计算最终标记事件的评价分数，评价分数Q(S′)满足：Q(S′)＝1-((1-λ)R(S′)+λD(S′))其中，Q(S')为新生成标记事件S'的评价分数，μ、λ为自定义的平衡调节参，数。

与现有技术相比，本发明一种自动生成法律文本标记事件的方法的有益效果在于，根据初始定义的事件类型生成相同类型的标记事件，确保了事件类型的一致性，避免了人工标注事件所带来的不一致性。通过替换参数和触发词的方法来生成新的标记事件，仅需要较少的初始法律文本数据即可自动生成大量的事件，避免了由于事件量不足造成的模型精确度不高的情况。能够自动生成标记事件，与传统的人工标记事件方法相比，减少了大量的人力与时间，能够高效的为模型提供可靠的训练数据集。

附图说明

图1为本发明自动生成法律文本标记事件的方法的流程示意图；

具体实施方式

为使本发明的目的、技术方案和优点更加清晰明白，下面结合本发明实施例并参照附图，对本发明实施例中的技术方案进行清楚、完整地进一步描述说明，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。应当理解，此处所描述的实施例只是示例性的，而并非用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免出现不必要地混淆本发明的概念的情况。

请参阅图1，为一种自动生成法律文本标记事件的方法的流程图。

本发明为一种自动生成法律文本标记事件的方法，其步骤包括：

步骤S101，输入初始的法律文本数据进行预处理，识别事件的触发词、事件的参数、事件类型；

根据输入的初始法律文本数据，识别能够表示特定类型事件发生的触发词；根据输入的初始法律文本数据，识别表示人物、时间、地点的词语作为事件的参数；根据输入的初始法律文本数据，识别该文本中的事件属于何种事件类型。

步骤S102，根据识别的事件参数与事件类型，使用GPT模型获取新的事件参数；

具体的，上述S102步骤中获取新的事件参数，具体满足下述条件：

其中，a表示事件的参数向量，β表示使用GPT模型生成的嵌入，t表示识别的事件参数。

步骤S103，根据识别的触发词与事件类型，通过BERT模型生成新的触发词；

具体的，获取初始法律文本事件的触发词与事件类型，将其作为输入数据输入至BERT模型中。BERT模型根据输入的数据生成能够表示同一种事件发生的词语作为新的触发词。

其中，所述新的触发词为与初始法律文本数据中触发词意思相近，符合识别的触发词上下文语境，能够表示同一种事件发生的词语。

步骤S104，根据新的触发词与新的事件参数，生成新的法律文本标记事件；

具体的，使用新的事件参数替换初始法律文本数据中识别的事件参数，使用新的触发词替换初始法律文本数据中识别的触发词，根据语义上下文对新的触发词进行调整，使新的触发词符合上下文的语境，用调整过的新的触发词替换初始法律文本数据中的触发词。

步骤S105，对新的法律文本标记事件进行评价；

步骤S106，从评价完成的法律文本标记事件中选出评价符合标准的法律文本标记事件。

具体的，根据人为设定的标准线选出生成标记事件中评价高于标准线的法律文本标记事件加入生成的数据集中。

本发明将事件参数与事件触发词分开，并用不同的方法生成新的事件参数与事件触发词，由于在事件抽取中，事件参数与事件触发词扮演的角色不一样，不能简单的使用同一计算方法，这会导致最终生成的结果失去可靠性。因此本发明对获取新的事件参数和生成新的事件触发词各自使用不同计算方式，使最终的结果更加准确。

BERT模型根据输入的数据生成能够表示同一种事件发生的词语作为新的触发词，其中，所述新的触发词为与初始法律文本数据中触发词意思相近，符合识别的触发词上下文语境，能够表示同一种事件发生的词语。

上述步骤S105中，针对新的法律文本标记事件进行评价，其步骤包括：

(1)获取生成标记事件的合理性R(S′)，具体满足：

其中，D(S’)表示重写过的句子与原有句子之间的偏差度，D表示原有的数据集，B(S)生成标记事件句子的元素集合的特征向量化处理，B(S’)表示原有标记事件句子的元素集合的特征向量化处理，||表示对向量化后的文本进行取模操作。

(3)根据所述生成标记事件的合理性与偏差度计算最终标记事件的评价分数，评价分数Q(S′)满足：Q(S′)＝1-((1-λ)R(S′)+λD(S′))其中，λ为自定义的调节参数。

根据初始定义的事件类型生成相同类型的标记事件，确保了事件类型的一致性，避免了人工标注事件所带来的不一致性。通过替换参数和触发词的方法来生成新的标记事件，仅需要较少的初始法律文本数据即可自动生成大量的事件，避免了由于事件量不足造成的模型精确度不高的情况。能够自动生成标记事件，与传统的人工标记事件方法相比，减少了大量的人力与时间，能够高效的为模型提供可靠的训练数据集。

以上的具体实施方式仅为本创作的较佳实施例，并不用以限制本创作，凡在本创作的精神及原则之内所做的任何修改、等同替换、改进等，均应包含在本创作的保护范围之内。

Claims

1.一种自动生成法律文本标记事件的方法，其特征在于，其步骤包括：

步骤S102，根据识别的事件参数与事件类型，使用GPT模型获取新的事件参数，获取新的事件参数，具体满足下述条件：

其中，a表示事件的参数向量，β表示使用GPT模型生成的嵌入，t表示识别的事件参数；

步骤S103，根据识别的触发词与事件类型，通过BERT模型根据输入的数据生成能够表示同一种事件发生的词语作为新的触发词，其中，所述新的触发词为与初始法律文本数据中触发词意思相近，符合识别的触发词上下文语境，能够表示同一种事件发生的词语；

步骤S105，对新的法律文本标记事件进行评价；

2.如权利要求1所述的自动生成法律文本标记事件的方法，其特征在于，上述步骤S105中，针对新的法律文本标记事件进行评价，其步骤包括：

(1)获取生成标记事件的合理性R(S′)，具体满足：

(3)根据所述生成标记事件的合理性与偏差度计算最终标记事件的评价分数，评价分数Q(S′)满足：Q(S′)＝1-((1-λ)R(S′)+λD(S′))，其中，Q(S')为新生成标记事件S'的评价分数，μ、λ为自定义的平衡调节参数。