CN112100321B - 一种基于网络表示学习的相似案例推荐方法 - Google Patents

一种基于网络表示学习的相似案例推荐方法 Download PDF

Info

Publication number
CN112100321B
CN112100321B CN202010760699.7A CN202010760699A CN112100321B CN 112100321 B CN112100321 B CN 112100321B CN 202010760699 A CN202010760699 A CN 202010760699A CN 112100321 B CN112100321 B CN 112100321B
Authority
CN
China
Prior art keywords
legal
network
document
similar
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010760699.7A
Other languages
English (en)
Other versions
CN112100321A (zh
Inventor
毕胜
黄焱晖
漆桂林
陈佳敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010760699.7A priority Critical patent/CN112100321B/zh
Publication of CN112100321A publication Critical patent/CN112100321A/zh
Application granted granted Critical
Publication of CN112100321B publication Critical patent/CN112100321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于网络表示学习的相似案例推荐方法,主要用于给定法律文书的情况下在庞大的法律文书数据库中找出该法律文书最相似的10篇法律文书。本发明以互联网上的法律文书作为起点,利用爬虫技术爬取大量的法律文书,利用正则表达式对法律文书进行初步处理;利用爬虫技术爬取大量的法律实体,并通过bert计算法律实体与法律实体之间的相似度,达到阈值的法律实体之间构建相似实体关系,利用法律实体和法律文书构建法律知识网络,并将构建完成的网络输入到网络表示学习模型中,得到法律文书的向量值,利用余弦相似度计算得到该法律文书最相似的10篇文书。

Description

一种基于网络表示学习的相似案例推荐方法
技术领域
本发明属于网络表示学习领域,涉及一种基于网络表示学习的相似案例推荐方法。
背景技术
随着我国司法制度的日趋完善,以及中国裁判文书网等法律文书公示网的建立,大量的 法律文书涌现在互联网上。类案发现是根据用户当前查看的文书,给出当前文书的相似文书。 从以往的案例中找到相似的案例可以确保相似的情况得到相似的判断结果。类案发现也是司 法大数据和智慧司法的典型应用模块,是我国依法治国的极大助力。类案发现在法律文件的 司法实践中非常重要。对于法官,这是为了确保相同情况得到类似处理以确保公正,对于律 师来说,可以借助于先前的案例更好地为当事人辩护。但是,衡量文书之间的相似性是一项 重大挑战,需要解决当前文书描述与先前文书描述之间的相关性问题。事实上,法律文书通 常很长而且结构复杂,此外,单个法律文书可能包括许多不同的法律问题。这些复杂性给衡 量文书之间的相似性带来很大挑战。因此,两个法律文书之间的相似性测量过程的自动化具 有重要的意义。
网络结构数据可以自然地表达物体和物体间的联系,在我们的日常生活与工作中无处不 在。举例来说,如社交网络:新浪微博,Facebook等;互联网上成千上万页面构成了网页链 接的网络;国家城市间的运输交通构成了物流网络。由此可见,信息网络是我们生产生活中 常见的一种信息载体和形式。信息社会中很多网络节点拥有丰富的文本等外部信息,形成典 型的复杂信息网络。基于复杂信息网络的广泛存在,对这类网络信息进行研究与分析具有非 常高的学术价值和潜在应用价值。
欧美法系的业界学者利用网络形式的法律文书的引用网络来完成类案发现的任务,但是 考虑到欧美法系的法律文书的引用网络的特殊性-网络稀疏,80%的文书从未被引用过。本文 基于大陆法系的法律文书来构建类案发现系统,法律文书之间不存在引用关系,所以本文结 合法律知识构建网络。本文的法律知识是指法律实体和法律文书中的案件要素。法律知识能 够从法律专业的角度去刻画一篇法律文书,对于从专业的角度去衡量法律文书的相似性,进 而发现相似案例具有重要的作用。利用网络能够充分表达结点与结点之间的关系,构建法律 文书和法律实体的稠密网络,利用网络表示学习,更好地用法律实体表示法律文书,同时结 合法律文书中的案件要素三元组,利用图表示学习约束法律文书的表示,并结合类案发现模 块,文书表示和类案发现模块交替学习。
并将最终完成的类案发现模块来推送相似案例。
发明内容
针对以上问题,本发明提供一种基于网络表示学习的相似案例推荐方法,该方法通过 网络表示学习来使得法律文书向量化,在文书库中寻找相似文书的方法。本发明从互联网 中爬取法律文书和法律实体,并将法律文书中含有的法律实体链接到法律实体库中,并利 用网络表示学习方法求得法律文书的向量表示,计算余弦相似度得到相似法律文书,本专 利提供一种基于网络表示学习的相似案例推荐方法,该方法包括如下步骤:
1)从网络中爬取海量法律文书和法律实体;
2)利用正则表达式对法律文书进行初步处理,选择有价值的段落,将段落中的实体链 接到构建的法律实体集合中;
具体为通过字符串匹配,通过匹配法律实体名在法律文书中是否出现过,链接法律文 书中的法律实体到法律实体库中;
3)利用bert预训练模型,计算法律实体与法律实体之间的相似度,将满足阈值的法律 实体之间构建相似法律实体关系;
4)将构建完成的法律实体与法律文书网络和法律实体与法律实体之间的相似网络输入 到LINE网络表示学习模型中,利用skip-gram的损失函数计算得到法律文书和法律实体的 向量表;
具体为对于法律文书和法律实体之间的网络,利用网络表示学习模型LINE,并将法律 文书作为中心点,法律实体作为邻居结点,利用skip-gram的损失函数进行训练,对于法律 文书和法律文书之间的网络,同样利用LINE模型进行训练,但是损失函数采用一阶损失 函数进行训练,对于两个网络进行联合训练,最终得到法律文书的向量表示;
5)计算法律文书之间的余弦相似度,对于每一篇文书找出最相似的文书。
作为本发明进一步改进,所述步骤3)中,
对于每一个法律实体,将法律实体名输入到bert的模型中,bert的模型是由编码层和解 码层构成;
Bert的编码层由多个编码器构成,前一个编码器的输出作为下一个编码器的输入,最 后一个编码器的输出作为解码器的输入,其中编码器是由自注意力层和前馈神经网络层构 成,自注意力层的公式如下所示:
Figure RE-GDA0002762076250000021
将每一个法律实体名的输入到bert模型中,并取出对应的向量值,并两两计算余弦相 似度,设置阈值为0.9,将大于0.9的边构建相似实体关系的边。
作为本发明进一步改进,所述步骤4)中,将构建好的网络输入到两个拼接的LINE模 型中,利用法律文书和法律实体之间的链接关系,以及法律实体之间相似关系,来约束法 律文书的向量表示。
作为本发明进一步改进,所述步骤5)中最相似的文书为10篇。
本发明与现有技术相比,具有以下优点:
相比于其他的相似案例推荐方法,本方法考虑到了专业的法律知识(即法律实体)对于法律文书的影响,其他的相似案例推荐方法对于文本的处理仅仅停留在普通的文本字面的处理上,缺少了专业法律知识的辅助,这样得到的相似文书仅仅停留在字面上的 相似从专业角度来看并不相似。
经过实验分析证明,本方法提出的基于网络表示学习的相似案例推荐方法对于提高 寻找相似案例的效率起到了改进作用,提高了法律从业者的工作效率。
附图说明
图1是本发明的基本过程示意图;
图2是层次体系结构构建算法图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明提供一种基于网络表示学习的相似案例推荐方法,该方法通过网络表示学习 来使得法律文书向量化,在文书库中寻找相似文书的方法。本发明从互联网中爬取法律文书和法律实体,并将法律文书中含有的法律实体链接到法律实体库中,并利用网络表 示学习方法求得法律文书的向量表示,计算余弦相似度得到相似法律文书。
本发明的基于网络表示学习的相似案例推荐方法,其中基本过程示意图如图1所示, 层次体系结构构建算法图如图2所示,包括以下几个步骤:
1)利用爬虫技术,从万维网中获取法律文书和法律实体,详细步骤如下:
(1)本方法以中国裁判文书网的法律文书作为文书的数据来源。
(2)本方法以法帮网的法律百科作为法律实体的数据来源。
2)利用正则表达式处理法律文书,对法律文书进行切分,提取出法律文书中相对重 要的段落。
(1)法律文书中含有重要信息的段落如下所示:
2016年9月17日至12月22日,被告人陈某某先后窜至信阳市平桥区、浉河区、羊 山新区、上天梯管理区及罗山县21个超市,冒充超市老板朋友的熟人,以要购买烟酒先 拿走烟稍后拿酒时再付账为幌子,分别骗取被害人李某1、张某1、张某2、陈某、李某2、熊某2、徐某1、齐某、王某1、曹某、吴某、徐某2、刘某、张某3、杨某、郑某、 张某4、胡某、张某5、张某6、王某22-4条不等的中华或芙蓉王等牌香烟,价值共计18710 元。李某2被骗的两条硬中华和一条芙蓉王烟,价值共计980元已被追回;王某2的两 条硬中华和一条云烟,价值共计910元已被追回。2016年12月22日1时许,陈某某在 信阳市羊山新区楚王城青龙街销赃时被民警抓获。
上述事实,被告人陈某某在开庭审理过程中亦无异议,且有户籍信息、刑事判决书、 扣押、发还物品清单、抓获经过、发破案经过,价格认定结论书,视频资料,辨认笔录 及指认现场照片,证人谢某、熊某1的证言,被害人李某1、张某2、张某1等21人的 陈述等证据证实,足以认定。
本院认为,被告人陈某某以非法占有为目的,虚构事实,隐瞒真相,多次骗取他人财物18710元,数额较大,其行为构成诈骗罪,应依法惩处。平桥区人民检察院指控被 告人犯罪的事实清楚,证据确实、充分,罪名成立。被告人当庭自愿认罪,可酌情从轻 处理。陈某某系被判处有期徒刑以上刑罚,在刑罚执行完毕以后,五年以内再犯应当判 处有期徒刑以上刑罚之罪,系累犯,应当从重处罚。依照《中华人民共和国刑法》第二 百六十六条、第六十四条、第六十五条第一款之规定,判决如下:
一、被告人陈某某犯诈骗罪,判处有期徒刑一年零六个月,并处罚金10000元。二、责令被告人陈某某退赔被害人李某1、张某1等19人损失共计16820元。限判决生效后 三十日内履行完毕。如不服本判决,可在接到判决书的第二日起十日内,通过本院或者 直接向河南省信阳市中级人民法院提出上诉。书面上诉的,应当提交上诉状正本一份, 副本二份。
(2)本方法爬取到的法律实体,示例如下:农业部规范性文件管理规定,人民检察院刑事诉讼规则,饲料和饲料添加剂管理条例,继承法,婚姻法……盗窃罪,诈骗罪。
(3)通过字符串匹配的方式,将实体名到上述法律文书段落中进行匹配,发现含有以下实体:刑事判决,从重处罚,占有,户籍,中级人民法院,罚金,犯罪,出生,诈 骗罪,人民检察院,检察院,有期徒刑,被告人,行为,被害人,审理,销赃,上诉状, 罪名,被告,证人,开庭审理,提起公诉,民法,刑罚执行,合议庭,起诉书,人民法 院,副本,诉状,再犯,逮捕,刑法,辨认,笔录,开庭,起诉,执行,盗窃罪,刑事 判决书,公诉,刑罚,判决书,累犯,刑事拘留,拘留。
(4)将本篇法律文书,和含有的法律实体之间构建一条边,对应的案由-盗窃罪这个 法律实体边的权重设为50。
3)对于法律实体库中的相似法律实体,将法律实体名作为特征输入到bert模型中, 得到法律实体名的向量,利用余弦相似度计算得到相似值,大于0.9实体的作为相似实体, 构建得到的结果如下,以下挑选三个示例:
中级人民法院这个法律实体的相似实体有以下几个:高级人民法院,最高人民法院,基 层人民法院,人民法院,人民检察院,中级人民法院的职权,人民法院院长,地方各级人民法院, 专门人民法院,最高人民检察院,高级人民法院的职权,地方各级人民检察院,专门人民检察 院,初级法院,人民检察院刑事诉讼规则,人民检察院刑事诉讼规则,人民法院司法建议书,中 国海事法院,最高人民法院的职权,基层人民法院的职权
逮捕这个法律实体的相似实体如下:逮捕证,逮捕程序,拘留,羁押,捕获法,非法逮捕,查 封,拘役,逮捕条件,侦查,累犯,执行刑,绑架罪,定罪,搜查证,特赦令,调查权,逮捕决定,报案
诈骗罪这个法律实体的相似实体如下:金融诈骗罪,集资诈骗罪,盗窃罪,集资诈骗,伪 证罪,绑架罪,敲诈勒索罪,洗钱罪,行贿罪,抢劫罪,票据诈骗罪,保险诈骗罪,欺诈,贷款诈骗罪, 合同诈骗罪,保险诈骗,贿赂犯罪,电信诈骗,传销犯罪,信用证诈骗罪……
4)将构建的法律文书和法律实体的网络,以及法律实体与法律实体的网络输入到本 方法提出的模型中,两个网络联合训练,得到法律文书的最终向量,本方法上述提及的法律文书的计算得到向量为:-0.0019268341……-0.06554951-0.011837956。
5)将上述文书的向量和其他文书的向量计算,得到最相似的10篇文书。
有益效果:本发明与现有技术相比,具有以下优点:
相比于其他的相似案例推荐的方法,本方法考虑到了专业的法律知识(即法律实体) 对于法律文书的影响,其他的相似案例推荐方法对于文本的处理仅仅停留在普通的文本 字面的处理上,缺少了专业法律知识的辅助,这样得到的相似文书仅仅停留在字面上的相似从专业角度来看并不相似。
经过实验分析证明,本方法提出的基于网络表示学习的相似案例推荐方法对于提高 寻找相似案例的效率起到了改进作用,提高了法律从业者的工作效率。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制, 而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (4)

1.一种基于网络表示学习的相似案例推荐方法,其特征在于,该方法包括如下步骤:
1)从网络中爬取海量法律文书和法律实体;
2)利用正则表达式对法律文书进行初步处理,选择有价值的段落,将段落中的实体链接到构建的法律实体集合中;
具体为利用字符串匹配技术,通过匹配法律实体名在法律文书中是否出现过,链接法律文书中的法律实体到法律实体库中;
3)利用bert预训练模型,计算法律实体与法律实体之间的相似度,将满足阈值的法律实体之间构建相似法律实体关系;
4)将构建完成的法律实体与法律文书网络和法律实体与法律实体之间的相似网络输入到LINE网络表示学习模型中,利用skip-gram的损失函数计算得到法律文书和法律实体的向量表;
具体为对于法律文书和法律实体之间的网络,利用网络表示学习模型LINE,并将法律文书作为中心点,法律实体作为邻居结点,利用skip-gram的损失函数进行训练,对于法律文书和法律文书之间的网络,同样利用LINE模型进行训练,但是损失函数采用一阶损失函数进行训练,对于两个网络进行联合训练,最终得到法律文书的向量表示;
5)计算法律文书之间的余弦相似度,对于每一篇文书找出最相似的文书。
2.根据权利要求1中所述一种基于网络表示学习的相似案例推荐方法,其特征在于;所述步骤3)中,
对于每一个法律实体,将法律实体名输入到bert的模型中,bert的模型是由编码层和解码层构成;
Bert的编码层由多个编码器构成,前一个编码器的输出作为下一个编码器的输入,最后一个编码器的输出作为解码器的输入,其中编码器是由自注意力层和前馈神经网络层构成,自注意力层的公式如下所示:
Figure FDA0002613005470000011
将每一个法律实体名的输入到bert模型中,并取出对应的向量值,并两两计算余弦相似度,设置阈值为0.9,将大于0.9的边构建相似实体关系的边。
3.根据权利要求1中所述一种基于网络表示学习的相似案例推荐方法,其特征在于;所述步骤4)中,将构建好的网络输入到两个拼接的LINE模型中,利用法律文书和法律实体之间的链接关系,以及法律实体之间相似关系,来约束法律文书的向量表示。
4.根据权利要求1中所述一种基于网络表示学习的相似案例推荐方法,其特征在于;所述步骤5)中最相似的文书为10篇。
CN202010760699.7A 2020-07-31 2020-07-31 一种基于网络表示学习的相似案例推荐方法 Active CN112100321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010760699.7A CN112100321B (zh) 2020-07-31 2020-07-31 一种基于网络表示学习的相似案例推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010760699.7A CN112100321B (zh) 2020-07-31 2020-07-31 一种基于网络表示学习的相似案例推荐方法

Publications (2)

Publication Number Publication Date
CN112100321A CN112100321A (zh) 2020-12-18
CN112100321B true CN112100321B (zh) 2022-11-15

Family

ID=73750019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010760699.7A Active CN112100321B (zh) 2020-07-31 2020-07-31 一种基于网络表示学习的相似案例推荐方法

Country Status (1)

Country Link
CN (1) CN112100321B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112950414B (zh) * 2021-02-25 2023-04-18 华东师范大学 一种基于解耦法律要素的法律文本表示方法
CN113569554B (zh) * 2021-09-24 2021-12-28 北京明略软件系统有限公司 一种数据库中实体对匹配方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818138B (zh) * 2017-09-28 2020-05-19 银江股份有限公司 一种案件法律条例推荐方法及系统
CN110309393B (zh) * 2019-03-28 2023-06-20 平安科技(深圳)有限公司 数据处理方法、装置、设备及可读存储介质
CN110879842A (zh) * 2019-10-15 2020-03-13 东南大学 一种基于信息抽取的法律知识图谱构建方法

Also Published As

Publication number Publication date
CN112100321A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
US12039074B2 (en) Methods, personal data analysis system for sensitive personal information detection, linking and purposes of personal data usage prediction
Kang et al. Self-surveillance privacy
CN112100321B (zh) 一种基于网络表示学习的相似案例推荐方法
CN110532480B (zh) 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
CN110633316A (zh) 一种多场景融合双随机市场监管方法
Leiser Bias, journalistic endeavours, and the risks of artificial intelligence
Brandão et al. The strength of co-authorship ties through different topological properties
Mihna et al. Using information technology for comprehensive analysis and prediction in forensic evidence
Naudé et al. A machine learning approach to detecting fraudulent job types
Kalluri et al. The surveillance AI pipeline
Bhattacharjee et al. PRIVEE: A visual analytic workflow for proactive privacy risk inspection of open data
Ngige et al. A dataset for predicting Supreme Court judgments in Nigeria
Sidorenko et al. Digital economy and anti-corruption: New digital models
Dalal et al. Identifying ransomware actors in the bitcoin network
CN115080709A (zh) 文本识别方法、装置、非易失性存储介质及计算机设备
Krysovatyy et al. Classification Method of Fictitious Enterprises Based on Gaussian Naive Bayes
CN117370539A (zh) 一种基于知识库和大模型的法律条文信息推荐系统
Tundis et al. Limits in the data for detecting criminals on social media
CN115017917B (zh) 基于多头注意力机制的裁判文书争议焦点识别方法
Elliot et al. Data environment analysis and the key variable mapping system
Shoakhmedova et al. Methods of determining fake content using artificial intelligence
Abdo et al. Mining Forensic Medicine Data for Crime Prediction
Chaity et al. Prediction of impacts and outbreak of COVID-19 on the society using distinct machine learning algorithms
Vydra et al. Big data ethics: A life cycle perspective
Kondo et al. Masked prediction and interdependence network of the law using data from large-scale Japanese court judgments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Bi Sheng

Inventor after: Huang Yanhui

Inventor after: Lu Gui Lin

Inventor after: Chen Jiamin

Inventor before: Huang Yanhui

Inventor before: Bi Sheng

Inventor before: Lu Gui Lin

Inventor before: Chen Jiamin

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant