CN109977237B - 一种面向法律领域的动态法律事件图谱构建方法 - Google Patents

一种面向法律领域的动态法律事件图谱构建方法 Download PDF

Info

Publication number
CN109977237B
CN109977237B CN201910447871.0A CN201910447871A CN109977237B CN 109977237 B CN109977237 B CN 109977237B CN 201910447871 A CN201910447871 A CN 201910447871A CN 109977237 B CN109977237 B CN 109977237B
Authority
CN
China
Prior art keywords
law
event
legal
probability
occurrence diagram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910447871.0A
Other languages
English (en)
Other versions
CN109977237A (zh
Inventor
王义真
杜向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Shield Mdt Infotech Ltd
Original Assignee
Nanjing Shield Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Shield Mdt Infotech Ltd filed Critical Nanjing Shield Mdt Infotech Ltd
Priority to CN201910447871.0A priority Critical patent/CN109977237B/zh
Publication of CN109977237A publication Critical patent/CN109977237A/zh
Application granted granted Critical
Publication of CN109977237B publication Critical patent/CN109977237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种面向法律领域的动态法律事件图谱构建方法,本发明利用自然语言处理技术构建了面向法律领域的动态法律事件图谱,本发明在法律领域尚未出现动态法律事件图谱构建方法;与现有技术相比,本发明中的动态法律事件图谱的最小单元是法律事件而不是实体,所构建的图谱是由法律事件和法律事件间关系组成;与传统的事件抽取相比,本发明所构建的动态法律事件图谱中知识是动态化、可计算化、可推理,而不是简单的抽取事件。本发明构建了面向法律领域的动态法律事件图谱,结合了传统知识图谱知识抽取的技术和事件挖掘技术构建了图谱,然后通过对法律事件图谱中的法律事件要素以及法律事件间的关系分别建模进行法律事件图谱计量。

Description

一种面向法律领域的动态法律事件图谱构建方法
技术领域
本发明主要涉及自然语言处理领域,特别是涉及一种面向法律领域的动态法律事件图谱构建方法。
背景技术
随着我国法制建设逐步完备,行政法规日趋完善,公民法律意识不断增强。越来越多法律文本、裁判文书的公开化、数字化、信息化,积累了大量法律领域的文本信息。通过构建司法领域的法律文本语料库,并使用自然语言处理技术进行挖掘出用户关心的在特定场景、特定情节、特定时间范围和特定区域内发生的,有至少一个角色且发生的动作不少于一个的事情,称之为事件。与通用事件不同的是,法律事件强调的是不依权利主体的主观意志为转移的法律事实和客观现象,构建的基础是法律事件。
目前,对于法律知识图谱的构建方法有很多,但在法律事件图谱构建方面并没有相似的专利。在中国专利CN107122444A通过对审判文书自动构建法律知识图谱,最终形成主题词-主题关系-主题词,主题词-相近关系-相近词三元组结构。在中国专利CN108073673A构建的是以实体为基础的知识图谱。在事件图谱构建技术中,目前的主流方法是利用事件抽取技术从语料充抽取与事件相关的信息,最终得到一个庞大的事件库,如面向长文本的主题事件抽取,面向短文本的元事件抽取。事件抽取的数据源较为单一,停留在浅层语义,为考虑高层次和更复杂语义层的关联和交互,尤其是在法律领域,更加无法满足法律事件的“要素—证据”关联、犯罪构成查询、类案研判参考和案件偏离推理等实际需求。运用人工智能和大数据处理技术构建的动态法律事件图谱可以实现:(1)整合分散的数据库、基础信息,打通法律数据壁垒。(2)强化原有事件推理、归纳、比较、区别等能力,增强事件动态化能力,改善信息的浏览、检索效率(3)创立新型“法律智库”为法律科学决策提供支持。
但是,以下方法具有以下三个方面的缺点,一是,通常面向法律的法律知识图谱中的描述和刻画的知识是相对静态的知识,缺乏对事物动态特征的描述,这显然不符合事实。法律数据的增加与更新表明知识图谱本来就是动态。动态知识图汇聚海量信息,快速构建弹性可扩展知识,可实时敏捷、灵活、智能自适应的构建知识图谱;二是,现有事件抽取的技术关注的是事件本身的抽取,如元事件和主题事件抽取。缺乏对事件间的关联挖掘分析。利用多源数据来挖掘事件和事件件的演化的分析研究不够深入,概率事件模型在法律领域的检测和追踪的应用不够完善;三是,法律知识图谱和事件抽取并不能够完整地描述法律事件以及法律事件之间的关联,需要重新定义法律事件,结合动态知识图谱和事件抽取技术,重新构建动态法律事件图谱。
基于以上三个方面的缺点,这三个方面的缺点主要有三个方面的原因,一是数据原因,大数据时代,法律数据呈现出数量大、速率快、多样化、不稳定等特点,大数据正在挑战传统法学研究方式,正在向法学领域渗透。法律大数据及其应用的迅速发展,已经引起了法律界的关注,法律人已经开始从不同的视角对这场大变革进行思考和议论。法律大数据的研究与应用将成为法学研究的一个新领域,加上法律领域缺乏大规模高质量的标注数据,人工标注数据耗时费力,成本高昂,所以法律领域的标注数据亟待解决;二是技术原因,在通用知识图谱的构建方面,已有相对成熟的技术和知识图谱产品。而在垂直知识图谱的构建方面,现有垂直知识图谱常采用手工构建方式,缺乏一套统一的垂直知识图谱构建方法。在事件抽取方面,从篇章级别的文本中去抽取一个结构化的事件,通常由多个句子描述一个事件,一个事件的多个元素分布在不同的句子中,不确定性加大,难度加大;三是,法律认知体系,法律认知体系是建立在法律专家知识和生活常识的基础上,将法律当做一种“看得见”并“用着顺手”的工具,并将其转化为计算机可以理解的知识。生活常识往往是零散的、不成体系的,法律常识的固化需要借助于法律知识体系的构建。法律知识的庞杂性和专业性用来对生活中的法律事件进行解释、推理。
上述现有技术上述现有的技术在知识图谱构建上仅仅是构建法律领域的相对静态的知识,并不完全符合实际的需求,多数法律需求存储的是组成事件的概念及其之间的关系、事件及其之间的关系。所以,在事件的角度能更好的描述法律市场的需求。事件的颗粒度要大于知识图谱中实体的颗粒度,知识图谱中实体的所反映的概念难以描绘出事件的动态变化。从知识描述从层面上看,传统知识图谱所描述的世界是不具备动态属性,描述的是一种非黑即白的事实性、客观性事实。而法律领域面临的是一种随着外部知识变化而动态调整的问题。传统知识图谱善于回答是什么的事实性定义问题,能够在已知知识基础上推理和校验新知识。这些从根本上仍然属于“静态”的知识,无法回答“为什么”、“怎么办”、”怎么处理”等“动态”问题。传统知识图谱可以看做是一个庞大的、相对静态的知识库,让计算机学会运用知识,学会思考知识,学会理解知识就需要构建动态法律事件图谱,实现真正的机器智能化,在解决法律领域相关问题时具有重要意义。
因此,本发明提供了一种面向法律领域的动态法律事件图谱构建方法,以解决上述背景技术中提出的问题。
发明内容
本发明的目的在于提供一种面向法律领域的动态法律事件图谱构建方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种面向法律领域的动态法律事件图谱构建方法,其包括以下步骤:
(1)定义动态法律事件图谱;
(2)法律语料收集与整理;
(3)动态法律事件图谱中事件抽取模型;
(4)动态法律事件图谱中事件关系抽取模型;
(5)动态法律事件图谱中概率图事件模型;
(6)动态法律事件图谱知识更新;
其中,步骤(3)中,动态法律事件图谱中事件抽取模型包括两个子步骤:(i)法律事件的识别与抽取;(ii)法律事件参数的抽取;
在所述步骤(5)中,其包括两个子步骤:(a)法律事件间的概率量度;(b)法律事件内要素概率量度。
进一步,作为优选,在所述步骤(1)中,动态法律事件图谱是以法律事件为基础,通过一定方式表示事件以及事件链的关系,用以做法律行为的预测、推演和表示;其中,一个完整的法律事件可以表示为:事件名、法律场景、法律意图、法律构成要件、锚词、类别和法律依据。
进一步,作为优选,在所述步骤(2)中,在对法律语料收集与整理时,法律领域的语料按照来源区分有:法律法规、裁判文书、问答语料和法律资讯;构建动态法律事件图谱要综合大规模的语料去挖掘法律事件及事件间关联;多源法律语料的处理要严格遵从法律的严谨性、全面性和准确性;从数据质量的角度来看,法律法规和裁判文书的质量要相对高于其他语料,在融合多源数据时需要以法律法规和裁判文书为基准。
进一步,作为优选,在所述步骤(3)中,为准确地识别事件和参数,需要捕获上下文特征,上下文特征至少包括语法特征和句法特征,采用结合法律专家事件规则模板和动态神经网络模型进行事件的抽取和参数的抽取。
进一步,作为优选,在所述步骤(4)中,动态法律事件图谱中的事件关系有:因果关系、时序关系、反转关系、条件关系和上下级事件关系;正确定义法律事件之间的关系是动态法律事件图谱事件关系抽取的前提,用事件关系将法律事件形成结构化的信息存储起来;将事件关系抽取看作是分类任务,在法律专家标注一定规模语料后结合专家规则和分类学习算法来做法律事件之间的关系识别。
进一步,作为优选,在所述步骤(5)中,采用动态法律事件概率图模型,在事件挖掘的基础上融合法律专家规则和法律知识图谱,借鉴点互信息的算法,建立事件之间的关联关系的有向无环图,通过对概率转移矩阵的计算实现事件间的概率度量,通过改变事件要素编码方式进行法律要素的编码,最终所构建的动态法律事件图谱不仅实现了检测和跟踪法律事件的发展规律,也建立了突发事件监测与预警机制。
进一步,作为优选,在所述步骤(5)中,在法律事件间的概率量度步骤中,采用以下方法:
在法律范式的指标下,假设法律事件有n种状态,那么n种状态构成的完备空间记为E,E={E1,E2,···,En},法律事件X在时间t所处的状态记为Ei,事件X在时间t状态的概率记为πi(t),用Пt表示事件在时刻t的状态概率空间,即Πt=(π1(t),π2(t),...,πn(t)),其中t=1,2,...;时间t=m的状态为Ei,时间t=m+1的状态为Ej的概率记pij,则有一次转移概率pij=P{Ej|Ei}=P{Xm+1=Ej|Xm=Ei},显然在k次转移之后得到pij(k)=P{Ej|Ei}=P{Xm+k=Ej|Xm=Ei},k=1,2,...,一次转移的概率矩阵记为显然得到经过k次转移概率的概率矩阵为经过k次转移矩阵等于一次转移的k次方,记为通过就事件间的概率转移矩阵得到事件转移的概率。
进一步,作为优选,在所述步骤(5)中的法律事件内要素概率量度中,采用以下方法:
给定法律事件X、目标要素xg以及候选要素集合{x1,x2,…,xh…,xq},g≠h,则有X={x1,x2,…,xh…,xq};
对指定的X集合中的要素进行排序,得到X={x1',x2',...,xq'},排名越靠前则候选要素与目标要素的关联越大;
整个法律事件内要素概率量度分为几个过程:首先,对于给定的目标要素以及候选要素集合中的每个要素进行特征抽取以及上下文信息的抽取,其次,使用自编码器对上述抽取到的特征进行特征化表示学习,然后通过多通道编码器进行编码;最后,计算目标要素和候选要素集合进行相似计算并排序;在抽取上下文信息的过程中,将要素当做由若干个词语有序的集合,结合特征工程的思想抽取要素的特征。
进一步,作为优选,在所述步骤(5)中,在多通道编码器中,将要素排序的过程转化成分类问题,要素对(x,y)作为多通道编码器的输入,在嵌入层编码时,借鉴PMI思想,考虑多通道编码器输入要素的相关性;点互信息的计算公式为:
其中x1和x2分别代表两个要素,p(x1)和p(x2)分别代表语料中x1和x2出现的概率,p(x1,x2)两者共现的概率;
对于每对要素对,期望得到vx1 T·vx2≈pmi(x1,x2),其中x1和x2分别代表两个要素,vx1、vx2分别是x1和x2对应的向量;
考虑实际语料的情况,如使用ppmi(x1,x2)=max(pmi(x1,x2),0)、拉普拉斯平滑做处理;将嵌入层的优化目标变成:
其中w和w'∈Rn且w、w’为两个词向量;
在进行多通道编码时,选用卷积神经网络模型进行多通道编码,最后将卷积神经网络模型训练得到的副产物向量用作法律要素的编码器,法律要素经由编码编码成向量,使用相似度计算模型来做给定目标要素和候选要素之间的排序。
进一步,作为优选,在所述步骤(6)中,采用网络爬虫或者直接下载的方式定期同步法律网站上的数据以及以社交媒体网站上的与法律相关的热门事件以及各大搜索引擎的热门词为候选法律事件。
与现有技术相比,本发明的有益效果是:
本发明的利用自然语言处理技术构建了面向法律领域的动态法律事件图谱,本发明与现有技术相比,具有以下优点:
目前,在法律领域尚未出现动态法律事件图谱构建方法;与法律领域的法律知识图谱相比,本发明中的动态法律事件图谱的最小单元是法律事件而不是实体,所构建的图谱是由法律事件和法律事件间关系组成;与传统的事件抽取相比,本发明所构建的动态法律事件图谱中知识是动态化、可计算化、可推理,而不是简单的抽取事件库;本发明构建了面向法律领域的动态法律事件图谱,结合了传统知识图谱知识抽取的技术和事件挖掘技术构建了图谱,然后通过对法律事件图谱中的法律事件要素以及法律事件间的关系分别建模进行法律事件图谱计量。
附图说明
图1为一种面向法律领域的动态法律事件图谱构建方法的流程结构示意图;
具体实施方式
请参阅图1,本发明实施例中,一种面向法律领域的动态法律事件图谱构建方法,该方法用于构建面向法律领域的动态法律事件图谱,本发明需要法律专家知识对法律事件做严格定义,然后利用知识图谱技术和事件抽取技术,结合概率图模型从多法律数据源的角度构建事件图谱。
本发明的一种面向法律领域的动态法律事件图谱构建方法,包括以下步骤:
(1)动态法律事件图谱定义:
法律事件,狭义上是指是法律领域的一种法律事实,不依权利主体的主观意志为转移的法律事实和客观现象;广义上的法律事件,是指正在或者已经发生在特定场景、特定情节、特定时间范围和特定区域内发生的,有至少一个角色且发生的动作不少于一个的法律事实。本发明的动态法律事件图谱是以法律事件为基础,通过一定方式表示事件以及事件链的关系,用以做法律行为的预测、推演、表示等。一个完整的法律事件可以表示为<事件名,法律场景,法律意图,法律构成要件,锚词,类别,法律依据>。以疲劳驾驶法律事件为例,完整的法律事件可表示为:(<事件名:疲劳驾驶>、<法律场景:道路交通>、<法律意图:违章>、<法律构成要件:[<主体:驾驶人>、<客体:道路交通安全>、<主观方面:过失>、<客观方面:疲劳驾驶>]>、<锚词:[连续开车、未停车休息]>、<类别:行政执法>、<法律依据:[《中华人民共和国道路交通安全法》第二十二条、《中华人民共和国道路交通安全法实施条例》第六十二条第七款]>)。
(2)法律语料收集与整理:
法律领域的语料按照来源区分有:法律法规、裁判文书、问答语料、法律资讯等,构建动态法律事件图谱需要综合大规模的语料去挖掘法律事件及事件间关联,多源法律语料的处理要严格遵从法律的严谨性、全面性和准确性,从数据质量的角度来看,法律法规和裁判文书的质量要相对高于其他语料,所以在融合多源数据的时候需要以法律法规和裁判文书为基准。
(3)动态法律事件图谱中事件抽取模型:
法律事件的抽取模型可以划分为两个步骤:(1)法律事件的识别与抽取;(2)法律事件参数的抽取。
为了更准确地识别事件和参数,通常捕获上下文特征,例如语法特征,句法特征等,目的是理解事实是如何联系在一起的。但是这种方法在句子级别的事件抽取比较有效,在处理跨句子的时候就很难找到直接的依赖路径。采用结合法律专家事件规则模板(如:正则匹配规则)和动态神经网络模型(如:CRF+LSTM事件抽取模型,其中CRF为条件随机场(Conditional Random Field,CRF);LSTM为长短时记忆网络(Long Short Term MemoryNetwork,LSTM))进行事件的抽取和参数的抽取。
(4)动态法律事件图谱中事件关系抽取模型:
动态法律事件图谱中的事件关系有:因果关系、时序关系、反转关系、条件关系和上下级事件关系;正确定义法律事件之间的关系是动态法律事件图谱事件关系抽取的前提,用事件关系将法律事件形成结构化的信息存储起来;将事件关系抽取看作是分类任务,在法律专家标注一定规模语料后结合专家规则和分类学习算法来做法律事件之间的关系识别、
(5)动态法律事件图谱中概率图事件模型:
本发明采用动态法律事件概率图模型(Dynamic Probability Maps Model ofLegal Events,DP2MLE),在事件挖掘的基础上融合了法律专家规则和法律知识图谱,借鉴PageRank、PMI等算法的思想,建立事件之间的关联关系的有向无环图,通过对概率转移矩阵的计算实现事件间的概率度量,通过改变事件要素编码方式进行法律要素的编码。最终所构建的动态法律事件图谱不仅实现了检测和跟踪法律事件的发展规律,也建立了突发事件监测与预警机制。
(5.1)法律事件间的概率量度:
在法律范式的指标下,假设法律事件有n种状态,那么n种状态构成的完备空间记为E,E={E1,E2,···,En},法律事件X在时间t所处的状态记为Ei,事件X在时间t状态的概率记为πi(t),用Пt表示事件在时刻t的状态概率空间,即Πt=(π1(t),π2(t),...,πn(t)),其中t=1,2,...;时间t=m的状态为Ei,时间t=m+1的状态为Ej的概率记pij,则有一次转移概率pij=P{Ej|Ei}=P{Xm+1=Ej|Xm=Ei},显然在k次转移之后得到pij(k)=P{Ej|Ei}=P{Xm+k=Ej|Xm=Ei},k=1,2,...,一次转移的概率矩阵记为显然得到经过k次转移概率的概率矩阵为经过k次转移矩阵等于一次转移的k次方,记为通过就事件间的概率转移矩阵得到事件转移的概率。
(5.2)法律事件内要素概率量度
给定法律事件X、目标要素xg以及候选要素集合{x1,x2,…,xh…,xq},g≠h,则有X={x1,x2,…,xh…,xq};对指定的X集合中的要素进行排序,得到X={x1',x2',...,xq'},排名越靠前则候选要素与目标要素的关联越大;如果所示整个算法大概分为几个过程:首先,对于给定的目标要素以及候选要素集合中的每个要素进行特征抽取以及上下文信息的抽取,其次,使用自编码器对上述抽取到的特征进行特征化表示学习,然后通过多通道编码器进行编码;最后,计算目标要素和候选要素集合进行相似计算并排序。
在抽取上下文信息的过程中,可将要素当做由若干个词语有序的集合,结合特征工程的思想抽取要素的特征。
在多通道编码器中,将要素排序的过程转化成分类问题,那么要素对(x,y)作为多通道编码器的输入,在embedding layer(嵌入层)编码时,借鉴PMI思想,考虑多通道编码器输入要素的相关性。点互信息的计算公式为:
其中x1和x2分别代表两个要素,p(x1)和p(x2)分别代表语料中x1和x2出现的概率,p(x1,x2)两者共现的概率。对于每对要素对,期望得到vx1 T·vx2≈pmi(x1,x2),其中x1和x2分别代表两个要素,vx1、vx2分别是x1和x2对应的向量。考虑实际语料的情况,如使用ppmi(x1,x2)=max(pmi(x1,x2),0)、拉普拉斯平滑等做处理。将embedding layer的优化目标变成:
其中w和w'∈Rn且w、w’为两个词向量;
可选用可替换的神经网络模型(如:卷积神经网络)进行多通道编码。最后将模型训练得到的副产物向量用作法律要素的编码器,法律要素经由编码编码成向量,因此可以使用相似度计算模型来做给定目标要素和候选要素之间的排序。
(6)动态法律事件图谱知识更新:
动态法律事件图谱的动态更新是保证事件图谱中的知识尽可能的更新。数据源的更新是知识更新的基础,一方面采用网络爬虫或者直接下载的方式定期同步法律网站上的数据。另一方面以社交媒体网站上的与法律相关的热门事件以及各大搜索引擎的热门词为候选法律事件。
本发明的关键点是利用自然语言处理技术构建了面向法律领域的动态法律事件图谱。本发明在法律领域尚未出现动态法律事件图谱构建方法;与法律领域的法律知识图谱相比,本发明中的动态法律事件图谱的最小单元是法律事件而不是实体,所构建的图谱是由法律事件和法律事件间关系组成;与传统的事件抽取相比,本发明所构建的动态法律事件图谱中知识是动态化、可计算化、可推理,而不是简单的抽取事件库。本发明的优点是构建了面向法律领域的动态法律事件图谱,结合了传统知识图谱知识抽取的技术和事件挖掘技术构建了图谱,然后通过对法律事件图谱中的法律事件要素以及法律事件间的关系分别建模进行法律事件图谱计量。
以上所述的,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种面向法律领域的动态法律事件图谱构建方法,其包括以下步骤:
(1)定义动态法律事件图谱;
(2)法律语料收集与整理;
(3)构建动态法律事件图谱中事件抽取模型;
(4)构建动态法律事件图谱中事件关系抽取模型;
(5)构建动态法律事件图谱中概率图事件模型;
(6)动态法律事件图谱知识更新;
其中,步骤(3)中,动态法律事件图谱中事件抽取模型包括两个子步骤:(i)法律事件的识别与抽取;(ii)法律事件参数的抽取;
在所述步骤(5)中,其包括两个子步骤:(a)法律事件间的概率量度;(b)法律事件内要素概率量度;
在所述步骤(5)中,在法律事件间的概率量度步骤中,采用以下方法:
在法律范式的指标下,假设法律事件有n种状态,那么n种状态构成的完备空间记为E,法律事件X在时间t所处的状态记为E i ,事件X在时间t状态的概率记为,用П t 表示事件在时刻t的状态概率空间,即,其中t= 1,2,...;时间t=m的状态为E i ,时间t=m+1的状态为E j的概率记p ij ,则有一次转移概率,显然在k次转移之后得到,一次转移的概率矩阵记为,显然得到经过k次转移概率的概率矩阵为,经过k次转移矩阵等于一次转移的k次方,记为,通过就事件间的概率转移矩阵得到事件转移的概率;
在所述步骤(5)中的法律事件内要素概率量度中,采用以下方法:
给定法律事件X、目标要素xg以及候选要素集合,则有
对指定的X集合中的要素进行排序,得到,排名越靠前则候选要素与目标要素的关联越大;
整个法律事件内要素概率量度分为几个过程:首先,对于给定的目标要素以及候选要素集合中的每个要素进行特征抽取以及上下文信息的抽取,其次,使用自编码器对上述抽取到的特征进行特征化表示学习,然后通过多通道编码器进行编码;最后,计算目标要素和候选要素集合进行相似计算并排序;在抽取上下文信息的过程中,将要素当做由若干个词语有序的集合,结合特征工程的思想抽取要素的特征。
2.根据权利要求1所述的一种面向法律领域的动态法律事件图谱构建方法,其特征在于,在所述步骤(1)中,动态法律事件图谱是以法律事件为基础,通过一定方式表示事件以及事件链的关系,用以做法律行为的预测、推演和表示;其中,一个完整的法律事件表示为:事件名、法律场景、法律意图、法律构成要件、锚词、类别和法律依据。
3.根据权利要求2所述的一种面向法律领域的动态法律事件图谱构建方法,其特征在于,在所述步骤(2)中,在对法律语料收集与整理时,法律领域的语料按照来源区分有:法律法规、裁判文书和问答语料;构建动态法律事件图谱要综合大规模的语料去挖掘法律事件及事件间关联;多源法律语料的处理要严格遵从法律的严谨性、全面性和准确性;从数据质量的角度来看,法律法规和裁判文书的质量要相对高于其他语料,在融合多源数据时需要以具有法律效力的法律法规和裁判文书为基准。
4.根据权利要求3所述的一种面向法律领域的动态法律事件图谱构建方法,其特征在于,在所述步骤(3)中,为准确地识别事件和参数,需要捕获上下文特征,上下文特征至少包括语法特征和句法特征,采用结合法律专家事件规则模板和动态神经网络模型进行事件的抽取和参数的抽取。
5.根据权利要求4所述的一种面向法律领域的动态法律事件图谱构建方法,其特征在于,在所述步骤(4)中,动态法律事件图谱中的事件关系有:因果关系、时序关系、反转关系、条件关系和上下级事件关系;正确定义法律事件之间的关系是动态法律事件图谱事件关系抽取的前提,用事件关系将法律事件形成结构化的信息存储起来;将事件关系抽取看作是分类任务,在法律专家标注一定规模语料后结合专家规则和分类学习算法来做法律事件之间的关系识别。
6.根据权利要求5所述的一种面向法律领域的动态法律事件图谱构建方法,其特征在于,在所述步骤(5)中,采用动态法律事件概率图模型,在事件挖掘的基础上融合法律专家规则和法律知识图谱,借鉴点互信息的算法,建立事件之间的关联关系的有向无环图,通过对概率转移矩阵的计算实现事件间的概率度量,通过改变事件要素编码方式进行法律要素的编码,最终所构建的动态法律事件图谱不仅实现了检测和跟踪法律事件的发展规律,也建立了突发事件监测与预警机制。
7.根据权利要求6所述的一种面向法律领域的动态法律事件图谱构建方法,其特征在于,在所述步骤(5)中,在多通道编码器中,将要素排序的过程转化成分类问题,要素对(x, y)作为多通道编码器的输入,在嵌入层编码时,借鉴PMI思想,考虑多通道编码器输入要素的相关性;点互信息的计算公式为:
,其中x 1 x 2 分别代表两个要素,p(x 1 )p(x 2 )分别代表语料中x 1 x 2 出现的概率,p(x 1 ,x 2 )两者共现的概率;
对于每对要素对,期望得到v x1、 v x2 分别是x 1 x 2 对应的向量;
考虑实际语料的情况,使用或拉普拉斯平滑做处理;将嵌入层的优化目标变成:
,其中ww’ 为两个词向量;
在进行多通道编码时,选用卷积神经网络模型进行多通道编码,最后将卷积神经网络模型训练得到的副产物向量用作法律要素的编码器,法律要素经由编码编码成向量,使用相似度计算模型来做给定目标要素和候选要素之间的排序。
8.根据权利要求1所述的一种面向法律领域的动态法律事件图谱构建方法,其特征在于,在所述步骤(6)中,采用网络爬虫或者直接下载的方式定期同步法律网站上的数据以及以社交媒体网站上的与法律相关的热门事件以及各大搜索引擎的热门词为候选法律事件。
CN201910447871.0A 2019-05-27 2019-05-27 一种面向法律领域的动态法律事件图谱构建方法 Active CN109977237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910447871.0A CN109977237B (zh) 2019-05-27 2019-05-27 一种面向法律领域的动态法律事件图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910447871.0A CN109977237B (zh) 2019-05-27 2019-05-27 一种面向法律领域的动态法律事件图谱构建方法

Publications (2)

Publication Number Publication Date
CN109977237A CN109977237A (zh) 2019-07-05
CN109977237B true CN109977237B (zh) 2019-09-10

Family

ID=67073947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910447871.0A Active CN109977237B (zh) 2019-05-27 2019-05-27 一种面向法律领域的动态法律事件图谱构建方法

Country Status (1)

Country Link
CN (1) CN109977237B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489568B (zh) * 2019-08-26 2021-07-23 北京三快在线科技有限公司 生成事件图的方法、装置、存储介质和电子设备
CN110968700B (zh) * 2019-11-01 2023-04-07 数地工场(南京)科技有限公司 融合多类事理与实体知识的领域事件图谱构建方法和装置
CN110956254B (zh) * 2019-11-12 2022-04-05 浙江工业大学 一种基于动态知识表示学习的案件推理方法
CN110866057A (zh) * 2019-11-12 2020-03-06 北京明略软件系统有限公司 一种实现数据处理的方法、装置、计算机存储介质及终端
CN111026880B (zh) * 2019-12-08 2021-06-08 大连理工大学 基于联合学习的司法知识图谱构建方法
CN110765256B (zh) * 2019-12-24 2020-07-07 杭州实在智能科技有限公司 一种在线法律咨询自动回复的生成方法与设备
CN111145052A (zh) * 2019-12-26 2020-05-12 北京法意科技有限公司 司法文书的结构化分析方法及系统
CN111241299A (zh) * 2020-01-09 2020-06-05 重庆理工大学 一种法律咨询的知识图谱自动构建方法及其检索系统
CN111475612A (zh) * 2020-03-02 2020-07-31 深圳壹账通智能科技有限公司 预警事件图谱的构建方法、装置、设备及存储介质
CN111383102B (zh) * 2020-03-27 2023-10-24 北京明略软件系统有限公司 金融信贷风险识别方法、模型构建方法和装置
CN111797232B (zh) * 2020-06-11 2021-06-18 南京擎盾信息科技有限公司 法律事件图谱构建方法、法律事件推理方法、装置和电子设备
CN111797230B (zh) * 2020-06-11 2021-07-13 南京擎盾信息科技有限公司 法律三阶层论自动推理方法、装置和电子设备
CN111797231B (zh) * 2020-06-11 2021-08-20 南京擎盾信息科技有限公司 基于三阶层论法律推理命题表示方法、法律事件推理方法和电子设备
CN111797233B (zh) * 2020-06-12 2021-04-30 南京擎盾信息科技有限公司 基于垂直领域的事件链结构识别的方法和装置
CN111897960B (zh) * 2020-07-17 2021-05-18 南京擎盾信息科技有限公司 动态法律事件间的推理方法、装置、设备和存储介质
CN111897959A (zh) * 2020-07-17 2020-11-06 南京擎盾信息科技有限公司 动态法律事件内的推理方法、装置、设备和存储介质
CN112132710B (zh) * 2020-09-23 2023-02-03 平安国际智慧城市科技股份有限公司 法律要素处理方法、装置、电子设备及存储介质
CN112463941A (zh) * 2020-12-04 2021-03-09 南京擎盾信息科技有限公司 基于事件链的多轮问答方法及装置
CN112559766B (zh) * 2020-12-08 2022-08-26 杭州互仲网络科技有限公司 一种法律知识图谱构建系统
CN112632225B (zh) * 2020-12-29 2022-08-30 天津汇智星源信息技术有限公司 基于案事件知识图谱的语义搜索方法、装置和电子设备
CN112948552B (zh) * 2021-02-26 2023-06-02 北京信息科技大学 一种事理图谱在线扩展方法及装置
CN112784578B (zh) * 2021-03-16 2022-07-19 北京华宇元典信息服务有限公司 法律要素提取方法、装置和电子设备
CN113204649A (zh) * 2021-05-11 2021-08-03 西安交通大学 基于实体关系联合抽取的法律知识图谱构建方法及设备
CN113779190B (zh) * 2021-07-20 2023-08-18 中国科学院自动化研究所 事件因果关系识别方法、装置、电子设备与存储介质
CN115203440B (zh) * 2022-09-16 2023-02-03 北京大数据先进技术研究院 面向时空动向数据的事件图谱构建方法、装置及电子设备
CN116205584B (zh) * 2022-11-21 2023-08-22 中国民航科学技术研究院 一种基于统一时空编码的民航事件关联方法
CN115878815B (zh) * 2022-11-29 2023-07-18 深圳擎盾信息科技有限公司 法律文书的判决结果预测方法、装置及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020038230A1 (en) * 2000-09-25 2002-03-28 Li-Wen Chen User interface and method for analyzing customer behavior based upon event attributes
CN107908671B (zh) * 2017-10-25 2022-02-01 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及系统
CN108038091B (zh) * 2017-10-30 2021-12-14 上海思贤信息技术股份有限公司 一种基于图的裁判文书案件相似计算与检索方法及系统
CN108763333B (zh) * 2018-05-11 2022-05-17 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN109726293B (zh) * 2018-11-14 2020-12-01 数据地平线(广州)科技有限公司 一种因果事件图谱构建方法、系统、装置及存储介质
CN109614603A (zh) * 2018-12-12 2019-04-12 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN109710942B (zh) * 2018-12-28 2022-11-18 零犀(北京)科技有限公司 图谱的构建方法及装置、电子设备

Also Published As

Publication number Publication date
CN109977237A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109977237B (zh) 一种面向法律领域的动态法律事件图谱构建方法
CN104318340B (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
Bang et al. Explaining a black-box by using a deep variational information bottleneck approach
Varis et al. Learning Bayesian decision analysis by doing: lessons from environmental and natural resources management
CN105512209A (zh) 一种基于特征自动学习的生物医学事件触发词识别方法
CN102737120A (zh) 一种个性化网络学习资源推荐方法
Wang et al. Learning performance prediction via convolutional GRU and explainable neural networks in e-learning environments
CN110188346A (zh) 一种基于信息抽取的网络安全法案件智能研判方法
CN110321563A (zh) 基于混合监督模型的文本情感分析方法
CN115455130B (zh) 一种社交媒体数据与移动轨迹数据的融合方法
CN111753054A (zh) 一种基于图神经网络的机器阅读推断方法
CN112148890A (zh) 基于网络群体智能的教学知识点图谱系统
CN110795565A (zh) 基于语义识别的别名挖掘方法、装置、介质及电子设备
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
Cui et al. Deep integration of health information service system and data mining analysis technology
CN111582576A (zh) 一种基于多尺度特征融合和门控单元的预测系统及方法
Lobry et al. Visual question answering from remote sensing images
Roy et al. A review of surrogate models and their ensembles to develop saltwater intrusion management strategies in coastal aquifers
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
Tang et al. Predictive modelling of student behaviour using granular large-scale action data
Zhang A model of based on Z-number and fuzzy analytic hierarchy process
Elwakil Knowledge discovery based simulation system in construction
CN113779249B (zh) 跨领域文本情感分类方法、装置、存储介质以及电子设备
Yu et al. Integrating domain knowledge and graph convolutional neural networks to support river network selection
CN114595693A (zh) 一种基于深度学习的文本情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant