CN113869049B - 基于法律咨询问题的具有法律属性的事实抽取方法及装置 - Google Patents

基于法律咨询问题的具有法律属性的事实抽取方法及装置 Download PDF

Info

Publication number
CN113869049B
CN113869049B CN202111468395.4A CN202111468395A CN113869049B CN 113869049 B CN113869049 B CN 113869049B CN 202111468395 A CN202111468395 A CN 202111468395A CN 113869049 B CN113869049 B CN 113869049B
Authority
CN
China
Prior art keywords
legal
model
attributes
training
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111468395.4A
Other languages
English (en)
Other versions
CN113869049A (zh
Inventor
杨晓雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202111468395.4A priority Critical patent/CN113869049B/zh
Publication of CN113869049A publication Critical patent/CN113869049A/zh
Application granted granted Critical
Publication of CN113869049B publication Critical patent/CN113869049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Technology Law (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于法律咨询问题的具有法律属性的事实抽取方法及装置,该方法包括:获取用户的原始咨询问题;对所述原始咨询问题进行分句处理,获得原子句集合;将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型,抽取出原始咨询问题中的具有法律属性的事实;其中,所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型。本发明可以基于法律咨询问题进行具有法律属性的事实抽取,准确率高。

Description

基于法律咨询问题的具有法律属性的事实抽取方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于法律咨询问题的具有法律属性的事实抽取方法及装置。
背景技术
当前法律专业知识和服务资源供给无法满足广大民众的庞大需求,急需智能式的法律问答系统来解决现实法律服务资源紧缺的问题。
构建法律问答系统时,需要准确抽取出具有法律属性的事实,基于此智能分析出下一个对用户的提问,在获得用户回答后,继续抽取出具有法律属性的事实,而目前缺乏一种高效的具有法律属性的事实抽取方法。
发明内容
本发明实施例提出一种基于法律咨询问题的具有法律属性的事实抽取方法,用以基于法律咨询问题进行具有法律属性的事实抽取,准确率高,该方法包括:
获取用户的原始咨询问题;
对所述原始咨询问题进行分句处理,获得原子句集合;
将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型,抽取出原始咨询问题中的具有法律属性的事实;
其中,所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型。
本发明实施例提出一种基于法律咨询问题的具有法律属性的事实抽取装置,用以基于法律咨询问题进行具有法律属性的事实抽取,准确率高,该装置包括:
原始咨询问题获取模块,用于获取用户的原始咨询问题;
分句处理模块,用于对所述原始咨询问题进行分句处理,获得原子句集合;
具有法律属性的事实抽取模块,用于将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型,抽取出原始咨询问题中的具有法律属性的事实;
其中,所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型。
本发明实施例还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于法律咨询问题的具有法律属性的事实抽取方法。
本发明实施例还提出了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述基于法律咨询问题的具有法律属性的事实抽取方法的计算机程序。
在本发明实施例中,获取用户的原始咨询问题;对所述原始咨询问题进行分句处理,获得原子句集合;将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型,抽取出原始咨询问题中的具有法律属性的事实;其中,所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型。在上述过程中,提出了采用具有法律属性的事实抽取模型进行具有法律属性的事实抽取,其中,具有法律属性的事实抽取模块包括二阶段BERT预训练模型和解码模型,相比于不经过预训练模型的具有法律属性的事实抽取过程,本发明实施例提出的方法抽取的具有法律属性的事实准确度更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取方法的流程图;
图2为本发明实施例中二阶段BERT预训练模型的训练流程图;
图3为本发明实施例中解码模型的训练流程图;
图4为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取装置的示意图一;
图5为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取装置的示意图二;
图6为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取装置的示意图三;
图7为本发明实施例中计算机设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
在本说明书的描述中,所使用的“包含”、“包括”、“具有”、“含有”等,均为开放性的用语,即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
图1为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取方法的流程图,如图1所示,该方法包括:
步骤101,获取用户的原始咨询问题;
步骤102,对所述原始咨询问题进行分句处理,获得原子句集合;
步骤103,将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型,抽取出原始咨询问题中的具有法律属性的事实;
其中,所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型。
在本发明实施例中,在上述过程中,提出了采用具有法律属性的事实抽取模型进行具有法律属性的事实抽取,其中,具有法律属性的事实抽取模块包括二阶段BERT预训练模型和解码模型,相比于不经过预训练模型的具有法律属性的事实抽取过程,本发明实施例提出的方法抽取的具有法律属性的事实准确度更高。
在步骤101中,获取用户的原始咨询问题。
例如,用户输入的原始咨询问题如下:
你好,男的具有A1的行为,我想离婚,现有一个三周半的女儿,我想争取到孩子。
这就是一个原始咨询问题,可以通过对话框的方式接收用户的输入。
在步骤102中,对所述原始咨询问题进行分句处理,获得原子句集合。
分句处理是指将原始咨询问题所涉及的法律知识中的每个句子分解为多个易于理解的简单的短句的过程。
在步骤103中,将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型,抽取出原始咨询问题中的具有法律属性的事实;
其中,所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型。
图2为本发明实施例中二阶段BERT预训练模型的训练流程图,在一实施例中,所述二阶段BERT预训练模型的训练步骤如下:
步骤201,以通用领域文本为输入,执行MLM预训练任务,执行NSP任务,获得一阶段BERT预训练模型;
步骤202,以多个用户的原始咨询问题的历史数据集为输入,在一阶段BERT预训练模型的基础上,采用修改版的Masked language model执行MLM任务,执行NSP任务,获得训练好的二阶段BERT预训练模型。
在上述实施例中,通用领域文本知识不止包括法律知识的所有社会知识的数据库的集合,多个用户的原始咨询问题的历史数据集是指互联网等各个数据来源的海量用户咨询的问题。
BERT模型结构是一个多层的双向transformer结构的Encoder部分。
BERT预训练是采用多任务的方式,包括遮蔽语言模型(MLM)和下一个句子预测(NSP)。
任务1:Masked Language Model(MLM)预训练任务
所谓MLM预训练任务是指在训练的时候随即从输入预料上遮蔽(Mask)掉一些词,然后通过上下文预测该词。正如传统的语言模型算法和RNN匹配那样,MLM的这个性质和Transformer的结构是非常匹配的。
任务2:Next Sentence Prediction(NSP)任务
Next Sentence Prediction(NSP)的任务是判断句子B是否是句子A的下文。如果是的话输出“IsNext”,否则输出“NotNext”。训练数据的生成方式是从平行语料中随机抽取的连续两句话,其中50%保留抽取的两句话,它们符合IsNext关系,另外50%的第二句话是随机从预料中提取的,它们的关系是NotNext的。
可见,传统的BERT预训练模型采用的是Masked language model的训练方式,对于一个文本:
Figure 645232DEST_PATH_IMAGE001
在训练阶段每个单词
Figure 743638DEST_PATH_IMAGE002
都独立地有20%的概率被破坏,得到一个含有噪音的版本。而训练的目标是采用Transformer结构将其恢复:
Figure 136835DEST_PATH_IMAGE003
该方法在法律文本上的表现较差,原因是BERT预训练模型通常在常规的新闻和网页数据上进行预训练,所学到的通用领域的语言表征与法律领域的语言表征有较大差距。为了减小表征差距,在法律文本上取得更好的效果,本发明实施例提出采用二阶段预训练方式优化,即采用步骤201和步骤202来获得二阶段BERT预训练模型。
在步骤201中,以通用领域文本为输入,通过执行上述的MLM预训练任务和NSP任务,获得一阶段BERT预训练模型,其中,为了提高训练精度,通用领域文本量越大越好,例如可以使用100G的通用领域文本进行训练。
在步骤202中,首先,将原子句中的具有法律属性的事实拆解为:
实体A.属性B=取值C
修改版的Masked language model中,被Mask的概率为:
Figure 258375DEST_PATH_IMAGE004
其中
Figure 159335DEST_PATH_IMAGE005
为系数,
Figure 581089DEST_PATH_IMAGE006
为词
Figure 909302DEST_PATH_IMAGE002
被抹去的概率,
Figure 49296DEST_PATH_IMAGE007
为通用词被抹去的概率;
Figure 753947DEST_PATH_IMAGE008
Figure 561366DEST_PATH_IMAGE009
Figure 60481DEST_PATH_IMAGE010
为实体,属性和取值的标签的集合。
通过上述修改,预训练模型会更加关注与标注相关的关键词,从而达到更好的泛化效果。
这里用到了与一阶段训练MLM类似的想法,有一定的概率将文本中某个词与进行“抹去”,并通过模型预测该位置的词语。一阶段训练MLM是等概率抹去词语,这里对于数据法律领域的词语,增加其被抹去的概率。比如,通用词是15%概率,
Figure 891033DEST_PATH_IMAGE002
是25%概率抹去。
步骤104,将所述中间输出输入至预先训练好的解码模型中,抽取出原始咨询问题中的具有法律属性的事实。
在一实施例中,所述解码模型包括基于Dynamic Convolution的三层Decoder结构。
需要说明的是,最初的Transformer结构被用于机器翻译,是6层Encoder+6层Decoder结构。而本发明实施例提出的Decoder结构为3层Decoder(L=3,hidden=512, FFN=1024),模型轻便,占用内存小,计算效率高。
图3为本发明实施例中解码模型的训练流程图,在一实施例中,所述解码模型的训练步骤如下:
步骤301,获取多个用户的原始咨询问题的历史数据的数据集;
步骤302,对数据集中每个历史数据进行具有法律属性的事实抽取,获得三元组标识的具有法律属性的事实;
步骤303,对所述三元组表示的具有法律属性的事实中的每个元素进行三元组标签的标注,获得数据集的标签;
步骤304,基于所述数据集的标签,训练所述解码模型,获得训练好的解码模型。
在一实施例中,所述三元组包括实体、属性和取值。
在这里,需要进行三元组标签的标注。标注的目标是通过建模和训练能够让解码模型完成诸如如下句子的事实抽取,从而理解相关具有法律属性的事实:
男方具有行为A;
女方有怀孕;
子女倾向男方抚养。
其中,A1是A的法定的日常体现形式。通常的标注方式是将上述句子简单建模为上述的多标签分类问题,采用神经网络对其进行多标签独立预测。比如,将上述句子表示的整段文本表示为向量形式
Figure 912559DEST_PATH_IMAGE011
,通过该向量来建立多分类模型,从而判断用户所描述的提问中是否存在某个具有法律属性的事实,可表示为:
Figure 308905DEST_PATH_IMAGE012
其中L为所有可能的标签。这种表达方式的局限有两个:
第一,任意两个标签,l i l j 之间关于h条件独立,不能很好建模标签之间的关系。但本发明实施例需要的标签,如“子女倾向男方抚养”与“子女倾向女方抚养”是负相关的(因为这两个条件矛盾,通常情况下不会出现在一个用户的同一个提问中)。
第二,产生的L集合达到数百个,分布稀疏,对样本较少的标签准确率并不高。需要很大的标注量才能达到可用的效果。尤其是对少数长尾的事实,可能在上万个用户提问中,都不会存在一个正样本。
基于此,本发明实施例提出创新的标签标注方式,如前述,原子句中的具有法律属性的事实可拆解为:
实体A.属性B=取值C
可以通过此方法大幅降低标签的数量,将原有标签数量:
Figure 182183DEST_PATH_IMAGE013
降低为:
Figure 562349DEST_PATH_IMAGE014
其中
Figure 77644DEST_PATH_IMAGE008
Figure 390814DEST_PATH_IMAGE009
Figure 231731DEST_PATH_IMAGE015
为实体,属性和取值的标签的集合。
如:[男方].[行为A]=[1],则代表男方具有行为A的事实。
这样就完成了标签的标注。
在一实施例中,基于所述数据集的标签,训练所述解码模型,获得训练好的解码模型,包括:
将所述数据集的标签构成一个序列;
对所述序列采用自回归和Beam search的方法进行概率解码,以训练出解码模型的参数,获得训练好的解码模型。
上述序列可记为
Figure 36876DEST_PATH_IMAGE016
其中,
Figure 887020DEST_PATH_IMAGE017
在一实施例中,对所述序列采用自回归和Beam search的方法进行概率解码时,概率解码的输出为合法三元组。
在概率解码时,最可能的预测可表示为:
Figure 461221DEST_PATH_IMAGE018
其中,解码时保证所有的取值范围仅枚举合法三元组的组合,丢弃不合法的组合。得到的概率最大组合,即为模型预测的具有法律属性的事实。
例如,女方.怀孕=1表示“女方怀孕”,(实体、属性、取值)=(女方、怀孕、1)为合法三元组,但有些三元组的组合不存在,如:“男方.怀孕=1”对应的三元组为不合法三元组。
综上所述,在本发明实施例提出的方法中,获取用户的原始咨询问题;对所述原始咨询问题进行分句处理,获得原子句集合;将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型,抽取出原始咨询问题中的具有法律属性的事实;其中,所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型。在上述过程中,提出了采用具有法律属性的事实抽取模型进行具有法律属性的事实抽取,其中,具有法律属性的事实抽取模块包括二阶段BERT预训练模型和解码模型,相比于不经过预训练模型的具有法律属性的事实抽取过程,本发明实施例提出的方法抽取的具有法律属性的事实准确度更高。另外,创新的标签标注方式降低了标签数量,提高了训练效率。二阶段BERT预训练模型的训练精度更高,进一步提高了准确度。
本发明实施例还提出一种基于法律咨询问题的具有法律属性的事实抽取装置,其原理与基于法律咨询问题的具有法律属性的事实抽取方法类似,这里不再赘述。
图4为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取装置的示意图一,包括:
原始咨询问题获取模块401,用于获取用户的原始咨询问题;
分句处理模块402,用于对所述原始咨询问题进行分句处理,获得原子句集合;
具有法律属性的事实抽取模块403,用于具有法律属性的事实抽取模块,用于将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型,抽取出原始咨询问题中的具有法律属性的事实;
其中,所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型。
图5为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取装置的示意图二,在一实施例中,所述装置还包括二阶段BERT预训练模型训练模块501,用于:采用如下步骤训练所述二阶段BERT预训练模型:
以通用领域文本为输入,执行MLM预训练任务,执行NSP任务,获得一阶段BERT预训练模型;
以多个用户的原始咨询问题的历史数据集为输入,在一阶段BERT预训练模型的基础上,采用修改版的Masked language model执行MLM任务,执行NSP任务,获得训练好的二阶段BERT预训练模型。
在一实施例中,所述解码模型包括基于Dynamic Convolution的三层Decoder结构。
图6为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取装置的示意图三,在一实施例中,所述装置还包括解码模型训练模块601,用于:采用如下步骤训练所述解码模型:
获取多个用户的原始咨询问题的历史数据的数据集;
对数据集中每个历史数据进行具有法律属性的事实抽取,获得三元组标识的具有法律属性的事实;
对所述三元组表示的具有法律属性的事实中的每个元素进行三元组标签的标注,获得数据集的标签;
基于所述数据集的标签,训练所述解码模型,获得训练好的解码模型。
在一实施例中,解码模型训练模块601还用于:将所述数据集的标签构成一个序列;
对所述序列采用自回归和Beam search的方法进行概率解码,以训练出解码模型的参数,获得训练好的解码模型。
在一实施例中,所述三元组包括实体、属性和取值。
在一实施例中,解码模型训练模块601还用于:对所述序列采用自回归和Beamsearch的方法进行概率解码时,概率解码的输出为合法三元组。
综上所述,在本发明实施例提出的装置中,原始咨询问题获取模块,用于获取用户的原始咨询问题;分句处理模块,用于对所述原始咨询问题进行分句处理,获得原子句集合;具有法律属性的事实抽取模块,用于将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型,抽取出原始咨询问题中的具有法律属性的事实;其中,所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型。在上述过程中,提出了采用具有法律属性的事实抽取模型进行具有法律属性的事实抽取,其中,具有法律属性的事实抽取模块包括二阶段BERT预训练模型和解码模型,相比于不经过预训练模型的具有法律属性的事实抽取过程,本发明实施例提出的方法抽取的具有法律属性的事实准确度更高。另外,创新的标签标注方式降低了标签数量,提高了训练效率。二阶段BERT预训练模型的训练精度更高,进一步提高了准确度。
本申请的实施例还提供一种计算机设备,图7为本发明实施例中计算机设备的示意图,该计算机设备能够实现上述实施例中的基于法律咨询问题的具有法律属性的事实抽取方法中全部步骤,所述计算机设备具体包括如下内容:
处理器(processor) 701、存储器(memory) 702、通信接口(CommunicationsInterface) 703和通信总线704;
其中,所述处理器701、存储器702、通信接口703通过所述通信总线704完成相互间的通信;所述通信接口703用于实现服务器端设备、检测设备以及用户端设备等相关设备之间的信息传输;
所述处理器701用于调用所述存储器702中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的基于法律咨询问题的具有法律属性的事实抽取方法中的全部步骤。
本申请的实施例还提供一种计算机可读存储介质,能够实现上述实施例中的基于法律咨询问题的具有法律属性的事实抽取方法中全部步骤,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的基于法律咨询问题的具有法律属性的事实抽取方法的全部步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于法律咨询问题的具有法律属性的事实抽取方法,其特征在于,包括:
获取用户的原始咨询问题;
对所述原始咨询问题进行分句处理,获得原子句集合;
将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型,抽取出原始咨询问题中的具有法律属性的事实;
其中,所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型;
所述二阶段BERT预训练模型的训练步骤如下:以通用领域文本为输入,执行MLM预训练任务,执行NSP任务,获得一阶段BERT预训练模型;以多个用户的原始咨询问题的历史数据集为输入,在一阶段BERT预训练模型的基础上,采用修改版的Masked language model执行MLM任务,执行NSP任务,获得训练好的二阶段BERT预训练模型;
修改版的Masked language model中,被Mask的概率为:
Figure DEST_PATH_IMAGE002
其中
Figure DEST_PATH_IMAGE004
为系数,
Figure DEST_PATH_IMAGE006
为词
Figure DEST_PATH_IMAGE008
被抹去的概率,
Figure DEST_PATH_IMAGE010
为通用词被抹去的概率;
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016
分别为实体、属性和取值的标签的集合;实体、属性和取值是由原子句中的具有法律属性的事实拆解出的;
所述解码模型的训练步骤如下:获取多个用户的原始咨询问题的历史数据的数据集;对数据集中每个历史数据进行具有法律属性的事实抽取,获得三元组标识的具有法律属性的事实;对所述三元组表示的具有法律属性的事实中的每个元素进行三元组标签的标注,获得数据集的标签;基于所述数据集的标签,训练所述解码模型,获得训练好的解码模型;
所述三元组包括实体、属性和取值。
2. 如权利要求1所述的基于法律咨询问题的具有法律属性的事实抽取方法,其特征在于,所述解码模型包括基于Dynamic Convolution的三层Decoder结构。
3.如权利要求1所述的基于法律咨询问题的具有法律属性的事实抽取方法,其特征在于,基于所述数据集的标签,训练所述解码模型,获得训练好的解码模型,包括:
将所述数据集的标签构成一个序列;
对所述序列采用自回归和Beam search的方法进行概率解码,以训练出解码模型的参数,获得训练好的解码模型。
4. 如权利要求3所述的基于法律咨询问题的具有法律属性的事实抽取方法,其特征在于,对所述序列采用自回归和Beam search的方法进行概率解码时,概率解码的输出为合法三元组。
5.一种基于法律咨询问题的具有法律属性的事实抽取装置,其特征在于,包括:
原始咨询问题获取模块,用于获取用户的原始咨询问题;
分句处理模块,用于对所述原始咨询问题进行分句处理,获得原子句集合;
具有法律属性的事实抽取模块,用于将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型,抽取出原始咨询问题中的具有法律属性的事实;
其中,所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型;
所述二阶段BERT预训练模型的训练步骤如下:以通用领域文本为输入,执行MLM预训练任务,执行NSP任务,获得一阶段BERT预训练模型;以多个用户的原始咨询问题的历史数据集为输入,在一阶段BERT预训练模型的基础上,采用修改版的Masked language model执行MLM任务,执行NSP任务,获得训练好的二阶段BERT预训练模型;
修改版的Masked language model中,被Mask的概率为:
Figure DEST_PATH_IMAGE017
其中
Figure 392071DEST_PATH_IMAGE004
为系数,
Figure 840370DEST_PATH_IMAGE006
为词
Figure 416845DEST_PATH_IMAGE008
被抹去的概率,
Figure 343212DEST_PATH_IMAGE010
为通用词被抹去的概率;
Figure 688743DEST_PATH_IMAGE012
Figure 776785DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE018
分别为实体、属性和取值的标签的集合;实体、属性和取值是由原子句中的具有法律属性的事实拆解出的;
所述解码模型的训练步骤如下:获取多个用户的原始咨询问题的历史数据的数据集;对数据集中每个历史数据进行具有法律属性的事实抽取,获得三元组标识的具有法律属性的事实;对所述三元组表示的具有法律属性的事实中的每个元素进行三元组标签的标注,获得数据集的标签;基于所述数据集的标签,训练所述解码模型,获得训练好的解码模型;
所述三元组包括实体、属性和取值。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至4任一项所述方法的计算机程序。
CN202111468395.4A 2021-12-03 2021-12-03 基于法律咨询问题的具有法律属性的事实抽取方法及装置 Active CN113869049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111468395.4A CN113869049B (zh) 2021-12-03 2021-12-03 基于法律咨询问题的具有法律属性的事实抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111468395.4A CN113869049B (zh) 2021-12-03 2021-12-03 基于法律咨询问题的具有法律属性的事实抽取方法及装置

Publications (2)

Publication Number Publication Date
CN113869049A CN113869049A (zh) 2021-12-31
CN113869049B true CN113869049B (zh) 2022-03-04

Family

ID=78985819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111468395.4A Active CN113869049B (zh) 2021-12-03 2021-12-03 基于法律咨询问题的具有法律属性的事实抽取方法及装置

Country Status (1)

Country Link
CN (1) CN113869049B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369396A (zh) * 2020-02-29 2020-07-03 重庆百事得大牛机器人有限公司 用于法律咨询机器人的法律事实采集系统及方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395422A (zh) * 2019-08-12 2021-02-23 北京国双科技有限公司 文本信息提取方法及装置
CN111079431A (zh) * 2019-10-31 2020-04-28 北京航天云路有限公司 一种基于迁移学习的实体关系联合抽取方法
US11573957B2 (en) * 2019-12-09 2023-02-07 Salesforce.Com, Inc. Natural language processing engine for translating questions into executable database queries
CN110765257B (zh) * 2019-12-30 2020-03-31 杭州识度科技有限公司 一种知识图谱驱动型的法律智能咨询系统
CN113535967B (zh) * 2020-04-17 2022-02-22 复旦大学 中文通用概念图谱纠错装置
CN111625649A (zh) * 2020-05-28 2020-09-04 北京字节跳动网络技术有限公司 文本处理方法、装置、电子设备及介质
CN111402092B (zh) * 2020-06-08 2020-09-15 杭州识度科技有限公司 一种基于多层次语义解析的法律法规检索系统
CN111967224A (zh) * 2020-08-18 2020-11-20 深圳市欢太科技有限公司 对话文本的处理方法、装置、电子设备及存储介质
CN112784604A (zh) * 2021-02-08 2021-05-11 哈尔滨工业大学 一种基于实体边界网络的实体链接方法
CN113051929A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于细粒度语义信息增强的实体关系抽取的方法
CN113051930B (zh) * 2021-03-25 2023-04-14 华润数字科技有限公司 基于Bert模型的意图识别方法、装置及相关设备
CN113553850A (zh) * 2021-03-30 2021-10-26 电子科技大学 一种基于有序结构编码指针网络解码的实体关系抽取方法
CN113641830B (zh) * 2021-07-19 2024-03-29 北京百度网讯科技有限公司 模型预训练方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN113869049A (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
CN107967261B (zh) 智能客服中交互式问句语义理解方法
CN110377759B (zh) 事件关系图谱构建方法及装置
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN111386524A (zh) 促进特定于域和客户端的应用程序接口推荐
WO2017198031A1 (zh) 解析语义的方法和装置
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN111344695A (zh) 促进特定于域和客户端的应用程序接口推荐
Stewart et al. Seq2kg: an end-to-end neural model for domain agnostic knowledge graph (not text graph) construction from text
CN112418320A (zh) 一种企业关联关系识别方法、装置及存储介质
CN113886555B (zh) 法律咨询服务方法及装置
CN115759254A (zh) 基于知识增强生成式语言模型的问答方法、系统及介质
US20190034410A1 (en) Unsupervised Template Extraction
CN113869049B (zh) 基于法律咨询问题的具有法律属性的事实抽取方法及装置
Samih et al. Enhanced sentiment analysis based on improved word embeddings and XGboost.
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
CN110245226A (zh) 企业行业分类方法及其装置
CN112926341A (zh) 文本数据处理方法、装置
CN111966798A (zh) 一种基于多轮K-means算法的意图识别方法、装置和电子设备
CN117033626A (zh) 一种文本审核方法、装置、设备及存储介质
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN116796288A (zh) 一种面向工业文档的多模态信息提炼方法和系统
CN116450827A (zh) 一种基于大规模语言模型的事件模板归纳方法和系统
KR102466559B1 (ko) 동적 텍스트 소스를 활용한 ai 기반 의사결정지원 시스템
CN111625623B (zh) 文本主题提取方法、装置、计算机设备、介质和程序产品
CN114443818A (zh) 一种对话式知识库问答实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant