CN112733507B - 一种自动生成法律文本标记事件的方法 - Google Patents

一种自动生成法律文本标记事件的方法 Download PDF

Info

Publication number
CN112733507B
CN112733507B CN202110058260.4A CN202110058260A CN112733507B CN 112733507 B CN112733507 B CN 112733507B CN 202110058260 A CN202110058260 A CN 202110058260A CN 112733507 B CN112733507 B CN 112733507B
Authority
CN
China
Prior art keywords
event
new
legal text
parameters
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110058260.4A
Other languages
English (en)
Other versions
CN112733507A (zh
Inventor
兰莉
周振东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Netmarch Technologies Co ltd
Original Assignee
Jiangsu Netmarch Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Netmarch Technologies Co ltd filed Critical Jiangsu Netmarch Technologies Co ltd
Priority to CN202110058260.4A priority Critical patent/CN112733507B/zh
Publication of CN112733507A publication Critical patent/CN112733507A/zh
Application granted granted Critical
Publication of CN112733507B publication Critical patent/CN112733507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种自动生成法律文本标记事件的方法,其包括输入初始的法律文本数据进行预处理,识别事件的触发词、事件的参数、事件类型;根据识别的事件参数与事件类型,使用GPT模型获取新的事件参数;根据识别的触发词与事件类型,通过BERT模型生成新的触发词;根据新的触发词与新的事件参数,生成新的法律文本标记事件;对新的法律文本标记事件进行评价;从评价完成的法律文本标记事件中选出评价符合标准的法律文本标记事件。通过替换参数和触发词的方法来生成新的标记事件,仅需要较少的初始法律文本数据即可自动生成大量的事件,避免了由于事件量不足造成的模型精确度不高的情况。

Description

一种自动生成法律文本标记事件的方法
技术领域
本发明涉及用于法律文本处理领域,尤其涉及一种自动生成法律文本标记事件的方法。
背景技术
在法律文本事件抽取的模型训练中,为了训练出一个质量较为精确的模型,需要大量的已经标注好的事件数据集让模型进行机器学习,以此加强模型在事件抽取中的精确性。
以往使用的标注法律事件数据集,通常依赖于人为标注的法律事件,不仅需要耗费大量的时间与人力物力,标注的法律事件数量也不大。
本发明提供一种自动生成法律文本标记事件的方法解决上述人为标准的问题。
发明内容
为克服上述问题,本发明目的在于,提供一种自动生成法律文本标记事件的方法,以解决人为标注事件数据量不足,标注事件标注不一致的问题。
为实现上述目的,本发明提供如下技术方案:一种自动生成法律文本标记事件的方法,其包括输入初始的法律文本数据进行预处理,识别事件的触发词、事件的参数、事件类型;根据识别的事件参数与事件类型,使用GPT模型获取新的事件参数;根据识别的触发词与事件类型,通过BERT模型生成新的触发词;根据新的触发词与新的事件参数,生成新的法律文本标记事件;对新的法律文本标记事件进行评价;从评价完成的法律文本标记事件中选出评价符合标准的法律文本标记事件。
针对新的法律文本标记事件进行评价,其步骤包括:
(1)获取生成标记事件的合理性R(S′),具体满足:
Figure GDA0004222512470000011
其中,R(S')表示新生成标记事件S′的合理性分数,S′表示重写过的句子,P(t)表示重写事件参数t的概率,A(S')表示在句子S′中调整过后的新的事件参数;
(2)获取生成的标记事件和原有的标记事件之间的偏差度D(S′),具体满足:
Figure GDA0004222512470000021
其中,D(S')表示重写过的句子与原有句子之间的偏差度,D表示原有的数据集,B(S)生成标记事件句子的元素集合的特征向量化处理,B(S’)表示原有标记事件句子的元素集合的特征向量化处理,||表示对向量化后的文本进行取模操作;
(3)根据所述生成标记事件的合理性与偏差度计算最终标记事件的评价分数,评价分数Q(S′)满足:Q(S′)=1-((1-λ)R(S′)+λD(S′))其中,Q(S')为新生成标记事件S'的评价分数,μ、λ为自定义的平衡调节参,数。
与现有技术相比,本发明一种自动生成法律文本标记事件的方法的有益效果在于,根据初始定义的事件类型生成相同类型的标记事件,确保了事件类型的一致性,避免了人工标注事件所带来的不一致性。通过替换参数和触发词的方法来生成新的标记事件,仅需要较少的初始法律文本数据即可自动生成大量的事件,避免了由于事件量不足造成的模型精确度不高的情况。能够自动生成标记事件,与传统的人工标记事件方法相比,减少了大量的人力与时间,能够高效的为模型提供可靠的训练数据集。
附图说明
图1为本发明自动生成法律文本标记事件的方法的流程示意图;
具体实施方式
为使本发明的目的、技术方案和优点更加清晰明白,下面结合本发明实施例并参照附图,对本发明实施例中的技术方案进行清楚、完整地进一步描述说明,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。应当理解,此处所描述的实施例只是示例性的,而并非用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免出现不必要地混淆本发明的概念的情况。
请参阅图1,为一种自动生成法律文本标记事件的方法的流程图。
本发明为一种自动生成法律文本标记事件的方法,其步骤包括:
步骤S101,输入初始的法律文本数据进行预处理,识别事件的触发词、事件的参数、事件类型;
根据输入的初始法律文本数据,识别能够表示特定类型事件发生的触发词;根据输入的初始法律文本数据,识别表示人物、时间、地点的词语作为事件的参数;根据输入的初始法律文本数据,识别该文本中的事件属于何种事件类型。
步骤S102,根据识别的事件参数与事件类型,使用GPT模型获取新的事件参数;
具体的,上述S102步骤中获取新的事件参数,具体满足下述条件:
Figure GDA0004222512470000031
其中,a表示事件的参数向量,β表示使用GPT模型生成的嵌入,t表示识别的事件参数。
步骤S103,根据识别的触发词与事件类型,通过BERT模型生成新的触发词;
具体的,获取初始法律文本事件的触发词与事件类型,将其作为输入数据输入至BERT模型中。BERT模型根据输入的数据生成能够表示同一种事件发生的词语作为新的触发词。
其中,所述新的触发词为与初始法律文本数据中触发词意思相近,符合识别的触发词上下文语境,能够表示同一种事件发生的词语。
步骤S104,根据新的触发词与新的事件参数,生成新的法律文本标记事件;
具体的,使用新的事件参数替换初始法律文本数据中识别的事件参数,使用新的触发词替换初始法律文本数据中识别的触发词,根据语义上下文对新的触发词进行调整,使新的触发词符合上下文的语境,用调整过的新的触发词替换初始法律文本数据中的触发词。
步骤S105,对新的法律文本标记事件进行评价;
步骤S106,从评价完成的法律文本标记事件中选出评价符合标准的法律文本标记事件。
具体的,根据人为设定的标准线选出生成标记事件中评价高于标准线的法律文本标记事件加入生成的数据集中。
本发明将事件参数与事件触发词分开,并用不同的方法生成新的事件参数与事件触发词,由于在事件抽取中,事件参数与事件触发词扮演的角色不一样,不能简单的使用同一计算方法,这会导致最终生成的结果失去可靠性。因此本发明对获取新的事件参数和生成新的事件触发词各自使用不同计算方式,使最终的结果更加准确。
BERT模型根据输入的数据生成能够表示同一种事件发生的词语作为新的触发词,其中,所述新的触发词为与初始法律文本数据中触发词意思相近,符合识别的触发词上下文语境,能够表示同一种事件发生的词语。
上述步骤S105中,针对新的法律文本标记事件进行评价,其步骤包括:
(1)获取生成标记事件的合理性R(S′),具体满足:
Figure GDA0004222512470000041
其中,R(S')表示新生成标记事件S′的合理性分数,S′表示重写过的句子,P(t)表示重写事件参数t的概率,A(S')表示在句子S′中调整过后的新的事件参数;
(2)获取生成的标记事件和原有的标记事件之间的偏差度D(S′),具体满足:
Figure GDA0004222512470000042
其中,D(S’)表示重写过的句子与原有句子之间的偏差度,D表示原有的数据集,B(S)生成标记事件句子的元素集合的特征向量化处理,B(S’)表示原有标记事件句子的元素集合的特征向量化处理,||表示对向量化后的文本进行取模操作。
(3)根据所述生成标记事件的合理性与偏差度计算最终标记事件的评价分数,评价分数Q(S′)满足:Q(S′)=1-((1-λ)R(S′)+λD(S′))其中,λ为自定义的调节参数。
根据初始定义的事件类型生成相同类型的标记事件,确保了事件类型的一致性,避免了人工标注事件所带来的不一致性。通过替换参数和触发词的方法来生成新的标记事件,仅需要较少的初始法律文本数据即可自动生成大量的事件,避免了由于事件量不足造成的模型精确度不高的情况。能够自动生成标记事件,与传统的人工标记事件方法相比,减少了大量的人力与时间,能够高效的为模型提供可靠的训练数据集。
以上的具体实施方式仅为本创作的较佳实施例,并不用以限制本创作,凡在本创作的精神及原则之内所做的任何修改、等同替换、改进等,均应包含在本创作的保护范围之内。

Claims (2)

1.一种自动生成法律文本标记事件的方法,其特征在于,其步骤包括:
步骤S101,输入初始的法律文本数据进行预处理,识别事件的触发词、事件的参数、事件类型;
步骤S102,根据识别的事件参数与事件类型,使用GPT模型获取新的事件参数,获取新的事件参数,具体满足下述条件:
Figure FDA0004215379700000011
其中,a表示事件的参数向量,β表示使用GPT模型生成的嵌入,t表示识别的事件参数;
步骤S103,根据识别的触发词与事件类型,通过BERT模型根据输入的数据生成能够表示同一种事件发生的词语作为新的触发词,其中,所述新的触发词为与初始法律文本数据中触发词意思相近,符合识别的触发词上下文语境,能够表示同一种事件发生的词语;
步骤S104,根据新的触发词与新的事件参数,生成新的法律文本标记事件;
步骤S105,对新的法律文本标记事件进行评价;
步骤S106,从评价完成的法律文本标记事件中选出评价符合标准的法律文本标记事件。
2.如权利要求1所述的自动生成法律文本标记事件的方法,其特征在于,上述步骤S105中,针对新的法律文本标记事件进行评价,其步骤包括:
(1)获取生成标记事件的合理性R(S′),具体满足:
Figure FDA0004215379700000012
其中,R(S')表示新生成标记事件S′的合理性分数,S′表示重写过的句子,P(t)表示重写事件参数t的概率,A(S')表示在句子S′中调整过后的新的事件参数;
(2)获取生成的标记事件和原有的标记事件之间的偏差度D(S′),具体满足:
Figure FDA0004215379700000021
其中,D(S')表示重写过的句子与原有句子之间的偏差度,D表示原有的数据集,B(S)生成标记事件句子的元素集合的特征向量化处理,B(S’)表示原有标记事件句子的元素集合的特征向量化处理,||表示对向量化后的文本进行取模操作;
(3)根据所述生成标记事件的合理性与偏差度计算最终标记事件的评价分数,评价分数Q(S′)满足:Q(S′)=1-((1-λ)R(S′)+λD(S′)),其中,Q(S')为新生成标记事件S'的评价分数,μ、λ为自定义的平衡调节参数。
CN202110058260.4A 2021-01-16 2021-01-16 一种自动生成法律文本标记事件的方法 Active CN112733507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110058260.4A CN112733507B (zh) 2021-01-16 2021-01-16 一种自动生成法律文本标记事件的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110058260.4A CN112733507B (zh) 2021-01-16 2021-01-16 一种自动生成法律文本标记事件的方法

Publications (2)

Publication Number Publication Date
CN112733507A CN112733507A (zh) 2021-04-30
CN112733507B true CN112733507B (zh) 2023-06-09

Family

ID=75591760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110058260.4A Active CN112733507B (zh) 2021-01-16 2021-01-16 一种自动生成法律文本标记事件的方法

Country Status (1)

Country Link
CN (1) CN112733507B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117311697B (zh) * 2023-11-28 2024-02-27 浙江城市数字技术有限公司 基于aigc大语言模型自反馈式创建流程的方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110826340A (zh) * 2019-11-06 2020-02-21 广东三维家信息科技有限公司 评价文本生成方法、装置及电子设备
CN110956018A (zh) * 2019-11-22 2020-04-03 腾讯科技(深圳)有限公司 文本处理模型的训练方法、文本处理方法、装置及存储介质
CN111597803A (zh) * 2020-05-14 2020-08-28 鼎富智能科技有限公司 一种要素提取方法、装置、电子设备及存储介质
CN111723564A (zh) * 2020-05-27 2020-09-29 西安交通大学 一种针对随案电子卷宗的事件抽取及处理方法
CN111967268A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3081242A1 (en) * 2019-05-22 2020-11-22 Royal Bank Of Canada System and method for controllable machine text generation architecture

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110826340A (zh) * 2019-11-06 2020-02-21 广东三维家信息科技有限公司 评价文本生成方法、装置及电子设备
CN110956018A (zh) * 2019-11-22 2020-04-03 腾讯科技(深圳)有限公司 文本处理模型的训练方法、文本处理方法、装置及存储介质
CN111597803A (zh) * 2020-05-14 2020-08-28 鼎富智能科技有限公司 一种要素提取方法、装置、电子设备及存储介质
CN111723564A (zh) * 2020-05-27 2020-09-29 西安交通大学 一种针对随案电子卷宗的事件抽取及处理方法
CN111967268A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112733507A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN109359293B (zh) 基于神经网络的蒙古文命名实体识别方法及其识别系统
CN106897559B (zh) 一种面向多数据源的症状体征类实体识别方法及装置
CN107622054B (zh) 文本数据的纠错方法及装置
CN112036550B (zh) 基于人工智能的客户意图识别方法、装置、计算机设备
CN110532573A (zh) 一种翻译方法和系统
CN111182162A (zh) 基于人工智能的电话质检方法、装置、设备和存储介质
CN111324708A (zh) 一种基于人机交互的自然语言处理系统
CN109446221A (zh) 一种基于语义分析的交互式数据探查方法
CN111581345A (zh) 一种文档级别的事件抽取方法和装置
CN114168716A (zh) 基于深度学习的工程造价自动抽取和分析方法及装置
CN110287482A (zh) 半自动化分词语料标注训练装置
CN110264996B (zh) 语音标注质量确定方法、装置、设备及计算机可读介质
CN112733507B (zh) 一种自动生成法律文本标记事件的方法
CN113268561B (zh) 一种基于多任务联合训练的问题生成方法
CN109670148A (zh) 基于语音识别的催收辅助方法、装置、设备和存储介质
CN107993636B (zh) 基于递归神经网络的乐谱建模与生成方法
CN112784585A (zh) 金融公告的摘要提取方法与摘要提取终端
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN116166789A (zh) 一种方法命名精准推荐和审查方法
CN114564942B (zh) 一种用于监管领域的文本纠错方法、存储介质和装置
CN112287005B (zh) 一种数据处理方法、装置、服务器及介质
CN112733517B (zh) 需求模板符合性检查的方法、电子设备及存储介质
CN116956838A (zh) 工程量清单的项目确定方法及确定装置
CN110955768B (zh) 一种基于句法分析的问答系统答案生成方法
CN112651223B (zh) 一种基于ner和nlu的骚扰信息判断方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant