CN115760495A - 一种实现法律案例自动标签化的方法及装置 - Google Patents
一种实现法律案例自动标签化的方法及装置 Download PDFInfo
- Publication number
- CN115760495A CN115760495A CN202211254308.XA CN202211254308A CN115760495A CN 115760495 A CN115760495 A CN 115760495A CN 202211254308 A CN202211254308 A CN 202211254308A CN 115760495 A CN115760495 A CN 115760495A
- Authority
- CN
- China
- Prior art keywords
- label
- legal
- case
- cases
- semantic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种实现法律案例自动标签化的方法及装置。该方法包括:获取待处理的法律案例;基于预设的标签正则表达式模型提取出所述法律案例的语义信息,基于所述语义信息与案例标签变量库中的多种标签进行匹配,获得所述语义信息对应的标签内容;基于所述标签内容确定所述法律案例的标签,构建所述标签与所述法律案例之间的关联关系;其中,所述标签正则表达式模型是基于样本法律案例以及所述样本法律案例正则提取得到的标签内容进行训练调优得到的。本申请提供的实现法律案例自动标签化的方法,能够提高对法律案例进行标签化的效率,节约了人力成本,从而有效提升了用户使用体验。
Description
技术领域
本申请涉及大数据技术领域,尤其涉及一种实现法律案例自动标签化的方法、装置、存储介质及电子设备。
背景技术
案例库技术是一种将已知的知识和方法以案例的形式进行记录、存储、检索和使用的技术。在农业、工业和服务业各个领域都可以有比较广泛的应用。人工智能是在大数据技术的基础上,经过反复训练进化而成的处理数据的智慧体系,因此数据自动化分类、归纳是互联网+、大数据时代的大势所趋。其中,法律案例库为法官、律师及有关法律工作者提供了检索案例的便利。将法律案例库中的法律案例通过人工智能手段快速打上标签,能够为法律案例库中的案例分门别类,使得海量裁判文书入库时有自己的标签,为后续法律案例库检索以及类案推送等提供基础和便利,具有较高的现实意义。然而,现有技术中,随着法律案例的越来越多,通过人工方式为法律案例设置标签已越来越困难,其效率和准确度较低。因此,如何提供一种更为有效的实现法律案例自动标签化的方案以提高法律案例库自动标签化的效率成为亟待解决的难题。
发明内容
本申请提供一种实现法律案例自动标签化的方法,用以解决现有技术中法律案例库标签化的实现过程效率较低,适应性较差的缺陷。
本申请提供一种实现法律案例自动标签化的方法,包括:
获取待处理的法律案例;
基于预设的标签正则表达式模型提取出所述法律案例的语义信息,基于所述语义信息与案例标签变量库中的多种标签进行匹配,获得所述语义信息对应的标签内容;基于所述标签内容确定所述法律案例的标签,构建所述标签与所述法律案例之间的关联关系;其中,所述标签正则表达式模型是基于样本法律案例以及所述样本法律案例正则提取得到的标签内容进行训练调优得到的。
进一步的,在获取待处理的法律案例之前,还包括:
确定包含多个样本法律案例的法律案例库;
确定包含多种标签的案例标签变量库;
根据所述案例标签变量库中的前置条件标签,分别从所述法律案例库中获取预设数量的样本法律案例,并提取所述样本法律案例的实际标签内容;基于所述实际标签内容以及初始的标签正则表达式模型正则提取的标签内容对所述初始的标签正则表达式模型进行训练调优,得到所述标签正则表达式模型。
进一步的,所述基于所述语义信息与案例标签变量库中的多种标签进行匹配,获得所述语义信息对应的标签内容,具体包括:
基于所述语义信息分别与所述案例标签变量库中预设的前置条件标签、全文通用标签、高级检索标签、段落标签进行匹配,以分别确定所述语义信息对应的标签内容。
进一步的,在构建所述标签与所述法律案例之间的关联关系之后,还包括:将构建对应关系之后的所述法律案例存储到法律案例库。
进一步的,确定包含多种标签的案例标签变量库,具体包括:
通过标签正则表达式模型对所述法律案例库中的样本法律案例进行标签内容提取,通过与所述样本法律案例的语义信息的对应关系给所述样本法律案例打上相应的标签,基于所述标签形成案例标签变量库;其中,所述标签包括:前置条件标签、全文通用标签、高级检索标签以及段落标签。
进一步的,基于所述标签内容确定所述法律案例的标签,构建所述标签与所述法律案例之间的关联关系,具体包括:
基于所述标签内容确定所述法律案例分别对应的前置条件标签、全文通用标签、高级检索标签以及段落标签,并基于所述前置条件标签、所述全文通用标签、所述高级检索标签以及所述段落标签分别建立与所述法律案例的实际内容之间的关联关系。
本申请还提供一种实现法律案例自动标签化的装置,包括:
法律案例采集单元,用于获取待处理的法律案例;
案例标签关联单元,用于基于预设的标签正则表达式模型提取出所述法律案例的语义信息,基于所述语义信息与案例标签变量库中的多种标签进行匹配,获得所述语义信息对应的标签内容;基于所述标签内容确定所述法律案例的标签,构建所述标签与所述法律案例之间的关联关系;其中,所述标签正则表达式模型是基于样本法律案例以及所述样本法律案例正则提取得到的标签内容进行训练调优得到的。
进一步的,在获取待处理的法律案例之前,还包括:正则表达式模型训练调优单元,具体用于:
确定包含多个样本法律案例的法律案例库;
确定包含多种标签的案例标签变量库;
根据所述案例标签变量库中的前置条件标签,分别从所述法律案例库中获取预设数量的样本法律案例,并提取所述样本法律案例的实际标签内容;基于所述实际标签内容以及初始的标签正则表达式模型正则提取的标签内容对所述初始的标签正则表达式模型进行训练调优,得到所述标签正则表达式模型。
进一步的,所述案例标签关联单元,具体用于:
基于所述语义信息分别与所述案例标签变量库中预设的前置条件标签、全文通用标签、高级检索标签、段落标签进行匹配,以分别确定所述语义信息对应的标签内容。
进一步的,在构建所述标签与所述法律案例之间的关联关系之后,还包括:法律案例存储单元,用于将构建对应关系之后的所述法律案例存储到法律案例库。
进一步的,确定包含多种标签的案例标签变量库,具体包括:
通过标签正则表达式模型对所述法律案例库中的样本法律案例进行标签内容提取,通过与所述样本法律案例的语义信息的对应关系给所述样本法律案例打上相应的标签,基于所述标签形成案例标签变量库;其中,所述标签包括:前置条件标签、全文通用标签、高级检索标签以及段落标签。
进一步的,所述案例标签关联单元,具体用于:
基于所述标签内容确定所述法律案例分别对应的前置条件标签、全文通用标签、高级检索标签以及段落标签,并基于所述前置条件标签、所述全文通用标签、所述高级检索标签以及所述段落标签分别建立与所述法律案例的实际内容之间的关联关系。
本申请还提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行实现如上述任一种所述实现法律案例自动标签化的方法。
本申请还提供一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行实现如上述任一种所述实现法律案例自动标签化的方法。
本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述实现法律案例自动标签化的方法。
本申请提供的实现法律案例自动标签化的方法,通过获取待处理的法律案例,基于预设的标签正则表达式模型提取出所述法律案例的语义信息,并基于所述语义信息与案例标签变量库中的多种标签进行匹配,获得所述语义信息对应的标签内容;最后,基于所述标签内容确定所述法律案例的标签,构建所述标签与所述法律案例之间的关联关系;其能够提高对法律案例进行标签化的效率,节约了人力成本,从而有效提升了用户使用体验。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的实现法律案例自动标签化的方法的流程示意图;
图2是本申请提供的实现法律案例自动标签化的方法的具体应用流程图;
图3是本申请提供的实现法律案例自动标签化的装置的结构示意图;
图4是本申请提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书、权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面基于本申请所述的实现法律案例自动标签化的方法,对其实施例进行详细描述。如图1所示,其为本申请提供的实现法律案例自动标签化的方法的流程示意图,具体实现过程包括以下步骤:
步骤101:获取待处理的法律案例。
其中,所述待处理的法律案例是指待存入法律案例库的裁判文书。
需要说明的是,在获取待处理的法律案例之前,需要预先确定包含多个样本法律案例的法律案例库以及确定包含多种标签的案例标签变量库;然后,根据所述案例标签变量库中的前置条件标签,分别从所述法律案例库中获取预设数量的样本法律案例,并提取所述样本法律案例的实际标签内容;基于所述实际标签内容以及初始的标签正则表达式模型正则提取的标签内容对所述初始的标签正则表达式模型进行训练调优,得到修改优化正则之后的所述标签正则表达式模型。
在本发明实施过程中,可预先通过收集法律案例,将其作为样本法律案例导入预设的案例库,以确定包含多个样本法律案例的法律案例库。所述确定包含多种标签的案例标签变量库,对应的实现过程包括:通过标签正则表达式模型对所述法律案例库中的样本法律案例进行标签内容提取,通过与所述样本法律案例的语义信息的对应关系给所述样本法律案例打上相应的标签,基于所述标签形成案例标签变量库;其中,所述标签包括但不限于:前置条件标签、全文通用标签、高级检索标签以及段落标签。
其中,前置条件标签是指需要前置识别的标签,即在裁判文书入库前需要前置分类的标签,以便于后续标签的识别,其对应的案例内容标签包括案件类别标签、案例来源标签、文书性质标签以及审理程序标签等。具体的,所述案件类别标签对应的样本法律案例的语义信息或者文本数据可以是“民事”、所述案例来源标签对应的样本法律案例的语义信息或者文本数据可以是“指导性案例”、所述文书性质标签对应的样本法律案例的语义信息或者文本数据可以是“判决书”、所述审理程序标签对应的样本法律案例的语义信息或者文本数据可以是“一审”,当然在此不做具体限定。
所述全文通用标签是指法律案例库全文标签,即按照法律标准名称,以及在精准检索时需要使用的标签。其对应的案例内容标签包括案件类别标签、案由标签、案件来源标签、法院层级标签、审理法院名称标签、审理程序标签、审判年份标签、适用程序标签等。具体的,所述案由标签对应的样本法律案例的语义信息或者文本数据可以是“金融借款合同纠纷”,所述审理法院名称标签对应的样本法律案例的语义信息或者文本数据可以是“A法院”等字,在此不再一一赘述。
需要说明的是,所述全文通用标签有层级之分,一级标签为固定标签,比如案件类别标签、案由标签、案件来源标签、法院层级标签、审理法院名称标签、审理程序标签、审判年份标签、适用程序标签等;二级、三级、四级标签为规则识别标签,比如一级标签案件来源标签对应的二级标签可为指导性案例、参阅案例、典型案例、普通案例等;二级标签参阅案例对应的三级标签可为D市法院发布的参阅案例、E市法院发布的参阅案例。另外,一级标签审理程序标签对应的二级标签可为一审、二审、执行等;一级标签适用程序标签对应的二级标签可为普通程序、简易程序等。在实施过程中,可通过正则匹配到该规则识别标签,再归于一级标签下。
全文通用标签的匹配方法有以下几种:可通过底层正则数据识别到要素值后,返回相应的全文通用标签的名称,比如一级标签为审理程序标签,要素值为“初”字,返回标签名称为“一审”;也可通过底层正则数据识别到要素值,与法律案例库的底层数据匹配,比如一级标签为案由标签,要素值为起诉理由相关字段,返回标签名称为“信息网络买卖合同纠纷”,底层数据为案由树;通过法律案例库的底层数据的案由树,比如案由树中有“信息网络买卖合同纠纷”,与裁判文书中“xxx与xxx公司信息网络买卖合同纠纷民事一审案件民事判决书”中的“信息网络买卖合同纠纷”匹配,将该法律案例纳入此案由标签下。
所述高级检索标签是法律案例库中为了用户能够更加精准地检索到想要的案例设置的,主要是每个法律案例都有所不同的标签内容,提取到的标签的值存入库中,后续可用于检索关联案例以及类案检索。其对应的案例内容标签包括律所、裁判日期、案号、法律依据、当事人等。其中,律所对应的法律案例中的文本数据或者语义信息可为S律所,裁判日期对应的法律案例中的文本数据或者语义信息可为xxxx年xx月xx日,案号对应的法律案例中的文本数据或者语义信息可为xx号,法律依据对应的法律案例中的文本数据或者语义信息可为xx法条,当事人对应的法律案例中的文本数据或语义信息可为具体名字。高级检索标签匹配方法包括:通过底层正则数据识别到要素值后,返回要素值存入库中,比如案例内容标签为当事人,要素值为具体名字。
所述段落标签是将裁判文书按照内容部分打上标签,方便用户迅速定位到想要浏览的部分。段落标签匹配方法:通过底层正则数据识别到该段落部分后,在裁判文书该段落部分的开头打上标签。
步骤102:基于预设的标签正则表达式模型提取出所述法律案例的语义信息,基于所述语义信息与案例标签变量库中的多种标签进行匹配,获得所述语义信息对应的标签内容;基于所述标签内容确定所述法律案例的标签,构建所述标签与所述法律案例之间的关联关系。其中,所述标签正则表达式模型是基于样本法律案例以及所述样本法律案例正则提取得到的标签内容进行训练调优得到的。
在本发明实施例中,可基于修改优化正则之后的所述标签正则表达式模型(即正则表达式,又称规则表达式)提取出所述法律案例的语义信息;然后,基于所述语义信息分别与所述案例标签变量库中预设的前置条件标签、全文通用标签、高级检索标签、段落标签进行匹配,以分别确定所述语义信息对应的标签内容。基于所述标签内容确定所述法律案例分别对应的前置条件标签、全文通用标签、高级检索标签以及段落标签,并基于所述前置条件标签、所述全文通用标签、所述高级检索标签以及所述段落标签分别建立与所述法律案例的实际内容之间的关联关系。在构建所述标签与所述法律案例之间的关联关系之后,还包括:将构建对应关系之后的所述法律案例存储到法律案例库。进一步的,可获取用户输入的检索请求,基于所述标签对法律案例库存储的构建完成对应关系之后的所述法律案例进行检索,获得相应的法律案例内容反馈。其中,所述正则表达式是一种字符串匹配的模式,模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
具体的,将案例标签变量库和正则表达式输入到基于现有深度学习算法设计的计算机程序中,然后导入法律案例,通过该计算机程序存储的正则表达式识别该法律案例中的内容,提取标签的语义信息,进行测试,将测试结果进行核对,修改并优化正则表达式,以提高提取标签内容的准确率。比如根据前置标签:案件类别、案例来源、文书性质、审理程序这四个类型,各选取200份裁判文书作为样本法律案例进行正则提取标签内容(即标签的语义信息)的训练,并根据训练结果修改优化正则,以达到更加准确的提取标签内容。
经过标签与语义信息的对应,将打上标签的法律案例纳入法律案例库,实现标签与法律案例的对应。比如,将采集的法律案例的通过预设的标签正则表达式模型提出来的语义信息(标签的语义信息)同案例标签变量库中的标签进行匹配,并将匹配的结果作为该法律案例的标签,将法律案例打上所对应的标签后,存入法律案例库。
需要说明的是,所述标签正则表达式模型包含多个预设的用于从法律案例中提取标签的语义内容的正在表达式。所述标签的语义内容即为所述正在表达式的提取值,比如xx区法院,此时案例标签变量库中相匹配的标签可以是“法院名称”。所述正在表达式是运用Java语言编写的正则表达式规则,其可以表现为多种形式,能够捕获文本的内容即可,在此不做具体限定。
本发明通过正则提取标签内容对应实现全文通用标签与法律案例的联动,为纳入案例库的裁判文书都打上了标签,实现了全文通用标签与法律案例的联动,通过点击标签,即可弹出与对应该全文通用标签的法律案例的内容。除此之外,本发明还通过段落标签自动分段,基于段落标签识别,将识别到的法律案例的段落打上段落标签,将识别到的段落标签归整到法律案例全文对应位置,实现了段落标签与该法律案例的段落的联动。另外,本发明实现高级检索标签输入检索与法律案例对应,具体的,基于高级标签识别,法律案例在纳入法律案例库时已将识别到的高级检索标签存入法律案例库中,在高级检索界面中输入检索关键词,与法律案例库中的标签识别语义信息对应,实现高级检索案例弹出。通过构建所述标签与所述法律案例之间的关联关系,为建立案例库搜索引擎、类案检索、类案推送提供了基础。例如,将法律案例打上全文通用标签、段落标签、高级检索标签纳入法律案例库后,可以为后续的法律案例精准检索、类案检索以及类案智能推送提供基础。
本发明法律案例库标签自动化是依托深度学习和正则训练,将法律案例库中的裁判文书利用标签分类、分段的方法。简单的法律案例库可以用传统关系型数据库模型进行存储,而法律案例库自动标签化可以通过标签语义信息与裁判文书的内容对应,自动将法律案例与标签相匹配,将法律案例打上标签进行存储,以便于实现标签与法律案例的联动。对于使用法律案例库的用户而言,可以快速精准地检索到想要的裁判文书是评判一个案例库优劣的标准,自动标签化可以为快速精准检索提供坚实的基础。
本申请提供的实现法律案例自动标签化的方法,通过获取待处理的法律案例,基于预设的标签正则表达式模型提取出所述法律案例的语义信息,并基于所述语义信息与案例标签变量库中的多种标签进行匹配,获得所述语义信息对应的标签内容;最后,基于所述标签内容确定所述法律案例的标签,构建所述标签与所述法律案例之间的关联关系;其能够提高对法律案例进行标签化的效率,节约了人力成本,从而有效提升了用户使用体验。
下面对本申请提供的实现法律案例自动标签化的装置进行描述,下文描述的实现法律案例自动标签化的装置与上文描述的实现法律案例自动标签化的方法可相互对应参照。
参考图3所示,其为本申请提供的实现法律案例自动标签化的装置的结构示意图。
本申请所述的实现法律案例自动标签化的装置,具体包括如下部分:
法律案例采集单元301,用于获取待处理的法律案例;
案例标签关联单元302,用于基于预设的标签正则表达式模型提取出所述法律案例的语义信息,基于所述语义信息与案例标签变量库中的多种标签进行匹配,获得所述语义信息对应的标签内容;基于所述标签内容确定所述法律案例的标签,构建所述标签与所述法律案例之间的关联关系;其中,所述标签正则表达式模型是基于样本法律案例以及所述样本法律案例正则提取得到的标签内容进行训练调优得到的。
进一步的,在获取待处理的法律案例之前,还包括:正则表达式模型训练调优单元,具体用于:
确定包含多个样本法律案例的法律案例库;
确定包含多种标签的案例标签变量库;
根据所述案例标签变量库中的前置条件标签,分别从所述法律案例库中获取预设数量的样本法律案例,并提取所述样本法律案例的实际标签内容;基于所述实际标签内容以及初始的标签正则表达式模型正则提取的标签内容对所述初始的标签正则表达式模型进行训练调优,得到所述标签正则表达式模型。
进一步的,所述案例标签关联单元,具体用于:
基于所述语义信息分别与所述案例标签变量库中预设的前置条件标签、全文通用标签、高级检索标签、段落标签进行匹配,以分别确定所述语义信息对应的标签内容。
进一步的,在构建所述标签与所述法律案例之间的关联关系之后,还包括:法律案例存储单元,用于将构建对应关系之后的所述法律案例存储到法律案例库。
进一步的,确定包含多种标签的案例标签变量库,具体包括:
通过标签正则表达式模型对所述法律案例库中的样本法律案例进行标签内容提取,通过与所述样本法律案例的语义信息的对应关系给所述样本法律案例打上相应的标签,基于所述标签形成案例标签变量库;其中,所述标签包括:前置条件标签、全文通用标签、高级检索标签以及段落标签。
进一步的,所述案例标签关联单元,具体用于:
基于所述标签内容确定所述法律案例分别对应的前置条件标签、全文通用标签、高级检索标签以及段落标签,并基于所述前置条件标签、所述全文通用标签、所述高级检索标签以及所述段落标签分别建立与所述法律案例的实际内容之间的关联关系。
本申请提供的实现法律案例自动标签化的装置,通过获取待处理的法律案例,基于预设的标签正则表达式模型提取出所述法律案例的语义信息,并基于所述语义信息与案例标签变量库中的多种标签进行匹配,获得所述语义信息对应的标签内容;最后,基于所述标签内容确定所述法律案例的标签,构建所述标签与所述法律案例之间的关联关系;其能够提高对法律案例进行标签化的效率,节约了人力成本,从而有效提升了用户使用体验。
图4示例了一种电子设备的实体结构示意图。如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)404、存储器(memory)402和通信总线403,其中,处理器401,通信接口404,存储器402通过通信总线403完成相互间的通信。处理器401可以调用存储器402中的逻辑指令,以执行实现法律案例自动标签化的方法,该方法包括:获取待处理的法律案例;基于预设的标签正则表达式模型提取出所述法律案例的语义信息,基于所述语义信息与案例标签变量库中的多种标签进行匹配,获得所述语义信息对应的标签内容;基于所述标签内容确定所述法律案例的标签,构建所述标签与所述法律案例之间的关联关系;其中,所述标签正则表达式模型是基于样本法律案例以及所述样本法律案例正则提取得到的标签内容进行训练调优得到的。
此外,上述的存储器402中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在计算机可读的存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的实现法律案例自动标签化的方法,该方法包括:获取待处理的法律案例;基于预设的标签正则表达式模型提取出所述法律案例的语义信息,基于所述语义信息与案例标签变量库中的多种标签进行匹配,获得所述语义信息对应的标签内容;基于所述标签内容确定所述法律案例的标签,构建所述标签与所述法律案例之间的关联关系;其中,所述标签正则表达式模型是基于样本法律案例以及所述样本法律案例正则提取得到的标签内容进行训练调优得到的。
又一方面,本申请还提供一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述各方法提供的实现法律案例自动标签化的方法,该方法包括:获取待处理的法律案例;基于预设的标签正则表达式模型提取出所述法律案例的语义信息,基于所述语义信息与案例标签变量库中的多种标签进行匹配,获得所述语义信息对应的标签内容;基于所述标签内容确定所述法律案例的标签,构建所述标签与所述法律案例之间的关联关系;其中,所述标签正则表达式模型是基于样本法律案例以及所述样本法律案例正则提取得到的标签内容进行训练调优得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种实现法律案例自动标签化的方法,其特征在于,包括:
获取待处理的法律案例;
基于预设的标签正则表达式模型提取出所述法律案例的语义信息,基于所述语义信息与案例标签变量库中的多种标签进行匹配,获得所述语义信息对应的标签内容;基于所述标签内容确定所述法律案例的标签,构建所述标签与所述法律案例之间的关联关系;
其中,所述标签正则表达式模型是基于样本法律案例以及所述样本法律案例正则提取得到的标签内容进行训练调优得到的。
2.根据权利要求1所述的实现法律案例自动标签化的方法,其特征在于,在获取待处理的法律案例之前,还包括:
确定包含多个样本法律案例的法律案例库;
确定包含多种标签的案例标签变量库;
根据所述案例标签变量库中的前置条件标签,分别从所述法律案例库中获取预设数量的样本法律案例,并提取所述样本法律案例的实际标签内容;基于所述实际标签内容以及初始的标签正则表达式模型正则提取的标签内容对所述初始的标签正则表达式模型进行训练调优,得到所述标签正则表达式模型。
3.根据权利要求1所述的实现法律案例自动标签化的方法,其特征在于,所述基于所述语义信息与案例标签变量库中的多种标签进行匹配,获得所述语义信息对应的标签内容,具体包括:
基于所述语义信息分别与所述案例标签变量库中预设的前置条件标签、全文通用标签、高级检索标签、段落标签进行匹配,以分别确定所述语义信息对应的标签内容。
4.根据权利要求1所述的实现法律案例自动标签化的方法,其特征在于,在构建所述标签与所述法律案例之间的关联关系之后,还包括:将构建对应关系之后的所述法律案例存储到法律案例库。
5.根据权利要求2所述的实现法律案例自动标签化的方法,其特征在于,确定包含多种标签的案例标签变量库,具体包括:
通过标签正则表达式模型对所述法律案例库中的样本法律案例进行标签内容提取,通过与所述样本法律案例的语义信息的对应关系给所述样本法律案例打上相应的标签,基于所述标签形成案例标签变量库;其中,所述标签包括:前置条件标签、全文通用标签、高级检索标签以及段落标签。
6.根据权利要求1所述的实现法律案例自动标签化的方法,其特征在于,基于所述标签内容确定所述法律案例的标签,构建所述标签与所述法律案例之间的关联关系,具体包括:
基于所述标签内容确定所述法律案例分别对应的前置条件标签、全文通用标签、高级检索标签以及段落标签,并基于所述前置条件标签、所述全文通用标签、所述高级检索标签以及所述段落标签分别建立与所述法律案例的实际内容之间的关联关系。
7.一种实现法律案例自动标签化的装置,其特征在于,包括:
法律案例采集单元,用于获取待处理的法律案例;
案例标签关联单元,用于基于预设的标签正则表达式模型提取出所述法律案例的语义信息,基于所述语义信息与案例标签变量库中的多种标签进行匹配,获得所述语义信息对应的标签内容;基于所述标签内容确定所述法律案例的标签,构建所述标签与所述法律案例之间的关联关系;其中,所述标签正则表达式模型是基于样本法律案例以及所述样本法律案例正则提取得到的标签内容进行训练调优得到的。
8.根据权利要求7所述的实现法律案例自动标签化的装置,其特征在于,在获取待处理的法律案例之前,还包括:正则表达式模型训练调优单元,具体用于:
确定包含多个样本法律案例的法律案例库;
确定包含多种标签的案例标签变量库;
根据所述案例标签变量库中的前置条件标签,分别从所述法律案例库中获取预设数量的样本法律案例,并提取所述样本法律案例的实际标签内容;基于所述实际标签内容以及初始的标签正则表达式模型正则提取的标签内容对所述初始的标签正则表达式模型进行训练调优,得到所述标签正则表达式模型。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至6中任一项所述的实现法律案例自动标签化的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至6中任一项所述的实现法律案例自动标签化的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211254308.XA CN115760495A (zh) | 2022-10-13 | 2022-10-13 | 一种实现法律案例自动标签化的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211254308.XA CN115760495A (zh) | 2022-10-13 | 2022-10-13 | 一种实现法律案例自动标签化的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115760495A true CN115760495A (zh) | 2023-03-07 |
Family
ID=85351421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211254308.XA Pending CN115760495A (zh) | 2022-10-13 | 2022-10-13 | 一种实现法律案例自动标签化的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115760495A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033584A (zh) * | 2023-07-31 | 2023-11-10 | 北京华夏电通科技股份有限公司 | 类案文本确定方法、装置及电子设备 |
-
2022
- 2022-10-13 CN CN202211254308.XA patent/CN115760495A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033584A (zh) * | 2023-07-31 | 2023-11-10 | 北京华夏电通科技股份有限公司 | 类案文本确定方法、装置及电子设备 |
CN117033584B (zh) * | 2023-07-31 | 2024-04-02 | 北京华夏电通科技股份有限公司 | 类案文本确定方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7933843B1 (en) | Media-based computational influencer network analysis | |
Kuhn et al. | Semantic clustering: Identifying topics in source code | |
CN109947952B (zh) | 基于英语知识图谱的检索方法、装置、设备及存储介质 | |
CN107085583B (zh) | 一种基于内容的电子文档管理方法及装置 | |
Sharma et al. | Using a taxonomy for knowledge audits: some field experiences | |
CN112182248A (zh) | 一种电价的关键政策的统计方法 | |
Cheng et al. | A similarity integration method based information retrieval and word embedding in bug localization | |
CN117726166A (zh) | 基于大语言模型的人工智能企业客户风险信息分析评估方法和系统 | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 | |
CN115760495A (zh) | 一种实现法律案例自动标签化的方法及装置 | |
CN111325019A (zh) | 词库的更新方法及装置、电子设备 | |
TWI793432B (zh) | 工程專案文件管理方法與系統 | |
CN111881695A (zh) | 一种审计知识的检索方法及装置 | |
CN111401047A (zh) | 法律文书的争议焦点生成方法、装置及计算机设备 | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
CN115017319A (zh) | 一种基于深度神经网络的建设工程合同纠纷法条识别方法 | |
CN110688453B (zh) | 基于资讯分类的场景应用方法、系统、介质及设备 | |
CN111625722B (zh) | 一种基于深度学习的人才推荐方法、系统及存储介质 | |
CN114417010A (zh) | 面向实时工作流的知识图谱构建方法、装置和存储介质 | |
Algosaibi et al. | Using the semantics inherent in sitemaps to learn ontologies | |
CN113722421A (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
CN110209814B (zh) | 一种利用领域建模从百科知识网站抽取知识主题的方法 | |
CN117251605B (zh) | 基于深度学习的多源数据查询方法及系统 | |
Alajlan et al. | Ontology Learning from Twitter Data. | |
Gaur | Data mining and visualization on legal documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |