CN113626618B - 基于跨篇章事件提取的案件串联方法、装置及相关组件 - Google Patents
基于跨篇章事件提取的案件串联方法、装置及相关组件 Download PDFInfo
- Publication number
- CN113626618B CN113626618B CN202111188257.0A CN202111188257A CN113626618B CN 113626618 B CN113626618 B CN 113626618B CN 202111188257 A CN202111188257 A CN 202111188257A CN 113626618 B CN113626618 B CN 113626618B
- Authority
- CN
- China
- Prior art keywords
- case
- event
- meta
- series
- events
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000000605 extraction Methods 0.000 title claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 230000000875 corresponding effect Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 239000013598 vector Substances 0.000 description 17
- 230000008569 process Effects 0.000 description 11
- 238000012552 review Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 210000003462 vein Anatomy 0.000 description 3
- 244000062793 Sorghum vulgare Species 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 235000019713 millet Nutrition 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 241001178520 Stomatepia mongo Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000192 social effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Library & Information Science (AREA)
- Technology Law (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于跨篇章事件提取的案件串联方法、装置及相关组件。该方法包括:从数据库中收集文本集合,所述文本集合包括多篇文档;对所述文本集合进行文档解析,并输出结构化的案件元数据;提取所述案件元数据中的事件要素,以获取案件的元事件;根据多种串联策略判断所述案件的元事件是否为同一事件,根据各所述串联策略的权重对各所述串联策略的判断结果进行权重投票,确定所述案件的元事件是否为同一事件;将同一事件对应的文档基于时间序列进行串联,形成案件的事件集并输出。该方法可以从海量文档中找到司法事件的来龙去脉,辅助法律人员进行案件梳理、了解案情脉络,大大的提高了法律人员的案件梳理效率和梳理效果。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基于跨篇章事件提取的案件串联方法、装置及相关组件。
背景技术
目前,人们对司法的倚重程度不断增强,舆论、宣传媒体不断宣传诉讼“维权”的社会成效,大大激发了公民的维权意识,促使更多人在发生纠纷后选择到法院诉讼,进而导致各类案件大幅增加。
其中,针对法律文本的分析,大多是以篇章为单位,仅从篇章中抽取要素,进行案件的梳理。然而,对于司法案件来说,其是由多个案件环节组成,其环节包括开庭,初审,二审,终审等,而同一司法事件的不同案件环节均可能产生一篇法律文档。法律人员需要对其中一个司法事件进行梳理分析时,难于从海量的文档中找到司法事件的来龙去脉,从而使得法律人员对案件的梳理效率较差。
发明内容
本发明的目的是提供一种基于跨篇章事件提取的案件串联方法、装置及相关组件,旨在解决从大量案件中进行案件检索串联困难的问题。
为解决上述技术问题,本发明的目的是通过以下技术方案实现的:提供一种基于跨篇章事件提取的案件串联方法,其包括:
从数据库中收集文本集合,所述文本集合包括多篇文档;
对所述文本集合进行文档解析,并输出结构化的案件元数据;
提取所述案件元数据中的事件要素,以获取案件的元事件;
根据多种串联策略判断所述案件的元事件是否为同一事件,根据各所述串联策略的权重对各所述串联策略的判断结果进行权重投票,确定所述案件的元事件是否为同一事件;
将同一事件对应的文档基于时间序列进行串联,形成案件的事件集并输出。
另外,本发明要解决的技术问题是还在于提供一种基于跨篇章事件提取的案件串联装置,其包括:
收集单元,用于从数据库中收集文本集合,所述文本集合包括多篇文档;
解析单元,用于对所述文本集合进行文档解析,并输出结构化的案件元数据;
提取单元,用于提取所述案件元数据中的事件要素,以获取案件的元事件;
判断单元,用于根据多种串联策略判断所述案件的元事件是否为同一事件,根据各所述串联策略的权重对各所述串联策略的判断结果进行权重投票,确定所述案件的元事件是否为同一事件;
串联单元,用于将同一事件对应的文档基于时间序列进行串联,形成案件的事件集并输出。
另外,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于跨篇章事件提取的案件串联方法。
另外,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于跨篇章事件提取的案件串联方法。
本发明实施例公开了一种基于跨篇章事件提取的案件串联方法、装置及相关组件,其中,方法包括:从数据库中收集文本集合,所述文本集合包括多篇文档;对所述文本集合进行文档解析,并输出结构化的案件元数据;提取所述案件元数据中的事件要素,以获取案件的元事件;根据多种串联策略判断所述案件的元事件是否为同一事件,根据各所述串联策略的权重对各所述串联策略的判断结果进行权重投票,确定所述案件的元事件是否为同一事件;将同一事件对应的文档基于时间序列进行串联,形成案件的事件集并输出。该方法可以从海量文档中找到司法事件的来龙去脉,辅助法律人员进行案件梳理、了解案情脉络,大大的提高了法律人员的案件梳理效率和梳理效果。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于跨篇章事件提取的案件串联方法的流程示意图;
图2为本发明实施例提供的基于跨篇章事件提取的案件串联装置的示意性框图;
图3为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的基于跨篇章事件提取的案件串联方法的流程示意图;
如图1所示,该方法包括步骤S101~S105。
S101、从数据库中收集文本集合,所述文本集合包括多篇文档;
S102、对所述文本集合进行文档解析,并输出结构化的案件元数据;
S103、提取所述案件元数据中的事件要素,以获取案件的元事件;
S104、根据多种串联策略判断所述案件的元事件是否为同一事件,根据各所述串联策略的权重对各所述串联策略的判断结果进行权重投票,确定所述案件的元事件是否为同一事件;
S105、将同一事件对应的文档基于时间序列进行串联,形成案件的事件集并输出。
在本实施例中,可以从Mysql、Mongo、Oracle数据库中收集关于司法案件的文本集合,其中该文本集合包括多篇文档,例如文本集合中具有带有企业A内容的文档、带有事件B内容的文档,以司法案件为例,一个文档在环节上可能属于开庭环节、保全环节、一审环节、二审环节、再审环节、执行环节的一种或多种环节组合,在时间维度上来说,这是一个有向的链表结构,即一个司法事件必须先经过开庭后,才会到达下一环节;从法律事件来说,要经过开庭、一审和执行等环节。
在本申请实施例中,收集到的文本集合中的文档是无序的,需要将同一个司法案件的文档进行排序,以助于法律人员及时找到对应的文档,具体的,先对文本集合进行文档解析,使得文档中的内容被解析出来,然后提取出文档中的事件要素,获得案件的元事件,最后利用多种串联策略对案件的元事件进行判断,以确定两个文档是否属于同一司法事件,由于每一串联策略的侧重点不同,单一的串联策略做出的判断可能会出现错误,所以根据各所述串联策略的权重对各所述串联策略的判断结果进行权重投票,根据权重投票结果来判断两个文档是否为同一事件,有效的提高了同一事件的判断精确率;在判断出多个文档为同一事件后,将多个文档基于时间序列进行串联,形成案件的事件集并输出,例如判断为同一事件的多个文档按下司法程序过程进行串联排列:开庭文档、保全文档、一审文档、二审文档、再审文档、执行文档,使得法律人员对司法事件的过程一目了然,进而快速找到自己需要的文档。
本申请实施例提供的方法可以从海量文档中找到司法事件的来龙去脉,辅助法律人员进行案件梳理、了解案情脉络,提高了法律人员的案件梳理效率和梳理效果;同时,在金融行业中,帮助金融从业人员在对企业进行风险建模时避免对同一个风险事件进行重复统计,提高建模精度。
具体一实施例中,所述步骤S102包括:
S201、对所述文本集合进行文档解析,获取文档类型;
S202、对于文档类型为富文本格式的文档,使用版面识别的方法进行文字识别;对于文档类型为图片格式的文档,使用OCR识别的方法进行文字识别;
S203、利用规则引擎对文字识别后的文档中的要素候选句进行定位并输出,并提取所述文档中元数据。
在本实施例中,对于富文本格式的文档例如pdf,利用版面识别的方法即对文档版面内的图像、文本、表格信息和位置信息进行分析和理解。对于纯图片的法律影像,使用OCR识别的方法,其中,OCR识别是一种人工智能的识别技术,能够将图像中的文字特征进行识别,具体的,先对整个图像中的特征进行提取,然后对目标区域的字符进行分割和分类。在本实施例中,通过OCR方法和版面识别的方法对文档进行文字识别转换,为规则引擎在不同的格式下进行抽取提供前置条件,其中,规则引擎是指通过规则的组合,在文本中定位要素候选句并进行输出,从而减轻模型的处理压力,如果文档本身就是结构化数据,如xml,则不需要使用版面识别和OCR识别的方法,而可以直接通过规则引擎提取文档中的元数据,在本实施例中,元数据是指描述数据属性的信息,方便进行回查,例如支持对文本进行高亮。
具体一实施例中,所述步骤S103包括:
S301、采用实体识别、实体消歧、实体对齐和关系抽取的方式提取所述案件元数据中的事件要素,所述事件要素包括必要元素、关键元素以及辅助性元素,其中,所述必要元素包括原告、被告、案号以及案由,所述关键元素为引用案号,所述辅助性元素包括涉案金额、执行金额、委托律师、案件环节、法院属地。
在本实施例中,事件要素例如原告、被告、案由、案号、引用案号、涉案金额、执行金额、委托律师、案件环节、法院属地等,其中,除了必要元素和关键元素,其他事件要素均可以构成辅助性元素,在实际使用过程中,除必要元素外,文档中可以不出现其他元素。
在具体一实施例中,实体识别用于识别文档中的涉案角色,例如在“本院对原告魏一诉被告李二、刘三、X有限公司民间借贷纠纷一案已审理终结。”的文档中,识别出“魏一”为原告,“李二”、“刘三”和“X有限公司”为被告。
由于实体识别过程中,各实体之间存在嵌套实体以及角色反转的关系,例如一审原告在反诉案件中成为被告,因此需要在将原告通过实体识别为被告的同时,也需要识别当事人标签以便于为后续的串联策略提供输入,其中,嵌套实体是指多个实体嵌套在一起,例如“失窃物品”实体“王某某的一台手机”,该实体还包括了受害人实体“王某某”;为了较好的解决嵌套实体以及角色反转问题,本申请实施例中还提供识别嵌套实体的神经网络模型预测方法。
具体的,先将关键词和依附词之间的词性关系与关键词进行向量拼接,输出一个拼接向量,然后通过前向LSTM层和后向LSTM层对拼接向量进行特征提取,然后使用两个不同的多层感知器对提取到的特征进行降维,由于LSTM层的输出状态会携带较多的信息,这部分信息有些是不必要的,如果特征带有这部分信息进行训练会降低训练速度并且还有过拟合的风险,所以通过两个独立的多层感知器对LSTM层的输出重新编码,分别得到文档的关键词向量和词性关系向量,其中多层感知器得到的文档的关键词向量和词性关系向量表示通常更小,能够去除多余的信息,进而有效的解决过拟合问题。再将文档中所有的关键词向量进行拼接,以及将文档中所有的词性关系向量进行拼接,然后在拼接后的词性关系向量上额外拼接一个单位向量,利用一个中间矩阵对拼接后的关键词向量和词性关系向量进行仿射变化,每个词以关键词向量的身份与以词性关系向量的身份的每个词进行点积,得到分数矩阵,根据分数矩阵可以判断实体的头尾与类别,从而解决实体相互嵌套的问题以及角色反转的前置依赖问题。
在本实施例中,实体消歧用于将文档中出现的命名实体映射到一个已知的无歧义的结构化知识库中的方法,例如将小米有效公司和小米农作物进行区分;实体对齐是指在判断两个或者多个不同信息来源的实体是否为指向真实世界中同一个对象,例如在法律文本中可能同时出现公司全称和公司简称,所以需要将公司简称与公司全称的对齐;关系抽取,也被称为三元组抽取,用于抽取实体之间的关系,例如在涉案金额中,需要了解支付方、收益方以及金额大小,如“张三赔偿李四贷款4000元”,则抽取出[<张三,payer>,<李四,receiver>,<4000元,amount>]。
在一具体实施例中,所述步骤S104包括:
S401、基于所述案件的元事件,获取两篇文档的引用案号要素与案号要素,并采用所述引用案号要素与案号要素进行模糊匹配,根据匹配结果判断所述案件的元事件是否为同一事件。
在本实施例中,步骤S401即为案号引用策略,该策略的精度是较高的,例如M文档中明确提到引用N文档的信息,采用步骤S301提取到的引用案号要素和案号要素进行模糊匹配,判断MN是否为同一事件,例如M文档:责令你公司按照已经发生法律效力的XX市XX区人民法院【(201X1)川010 X1民初408 X1号】法律文书所确定的内容向申请执行人履行义务,N文档的案号为【(201 X1)川010 X1民初408 X1号】。由此可知,文档M引用了文档N的案号,因此直接判断文档M和文档N中的案件的元事件为同一事件,通过这样方式,能够快速的从海量的司法事件中找到为同一事件的文档。
但是在这个过程中,虽然案号引用策略的精度是较高的,但是召回率不高,所以会漏掉很多数据即漏掉很多与该文档为同一事件的文档,其中,召回率又称为查全率,就是在实际为正样本中,被预测为正样本所占的百分比,即所有正例中,有多少正确地判断为正。
所以在本申请实施例中,步骤S104还包括:
S402、对所述案件的元事件进行hash计算,得到相应的散列值,将所述散列值与预设的海明距离进行对比,根据对比结果判断所述案件的元事件是否为同一事件。
在本实施例中,步骤S402即为要素一致策略,其中,hash计算即哈希计算,由于案件的元事件中字符长短不一,通过哈希算法将任意长度的文本输入变换成固定长度的输出,即散列值,其中在哈希计算过程中,必要元素的权重设计的较高,辅助性元素的权重设计的较低;在本实施例中,海明距离即为两个码字的对应比特取值不同的比特数,例如“美国”通过hash算法计算为 10101,“51区”通过hash算法计算为 00110,则两者的海明距离为3,将求得的海明距离与预设的海明距离进行对比,即能判断出案件的元事件是否为同一事件。
同时在本实施例中,步骤S104还包括:
S403、使用TF-IDF或预训练语言模型将所述案件的元事件进行向量化操作,计算向量化后的所述案件的元事件的余弦相似度,将计算得到的所述余弦相似度与预设的余弦相似度阈值进行比较,根据比较结果判断所述案件的元事件是否为同一事件。
在本实施例中,步骤S403即文本相似度策略,首先分别生成两个文档中案件的元事件的词向量,然后计算两个词向量的余弦相似度,计算得到的值越大表示越相似,而本申请通过预先设置余弦相似度的阈值,将计算得到的值与预先设置余弦相似度的阈值进行比较,进而判断出两个文档的案件的元事件是否为同一事件。在实际使用过程中,文本相似度策略多用于短文本,短文本中事件要素一般比较少,如A:张三,李四,现在通知你等人来领取一审判决书;B:张三,李四,现在通知你等人来领取二审判决书,其中A的事件要素为:“张三”、“李四”和“一审”;B的事件要素为:“张三”、“李四”和“二审”。
在具体一实施例中,所述步骤S104包括:
S404、根据各所述串联策略的权重对各所述串联策略的判断结果进行权重投票,并计算权重投票结果;
S405、将所述权重投票结果与预设的阈值进行比较,若权重投票结果大于预设的阈值,则判定属于同一事件,其中,所述预设的阈值与F值正相关;
其中,F的计算公式如下:
其中,所述P为预测结果中的真实结果的数量/预测结果的总数,所述R为预测结果中的真实结果的数量/真实结果的数量。
在本实施例中,为判断是否为同一事件,共使用了案号引用策略、要素一致策略和文本相识度策略,其中,案号引用策略的精度是最高的,也是最可信的,但是该策略的召回率不高,而通过要素一致策略和文本相似度策略牺牲小部分精确率,继而大幅度提高召回率,在本申请实施例权重投票时,案号引用策略的权重最大,要素一致策略的权重其次,文本相似度策略的权重最小,从而在召回率和精确率之间达到一个较好的平衡;通过计算出的权重投票结果与预设的阈值进行比较,进而判断两个文档是否属于同一事件,该方法有效的提高找到同一事件的文档的效率,且具有较好的精确率和召回率。
本发明实施例还提供一种基于跨篇章事件提取的案件串联装置,该基于跨篇章事件提取的案件串联装置用于执行前述基于跨篇章事件提取的案件串联方法的任一实施例。具体地,请参阅图2,图2是本发明实施例提供的基于跨篇章事件提取的案件串联装置的示意性框图。
如图2所示,基于跨篇章事件提取的案件串联装置500,包括:
收集单元501,用于从数据库中收集文本集合,所述文本集合包括多篇文档;
解析单元502,用于对所述文本集合进行文档解析,并输出结构化的案件元数据;
提取单元503,用于提取所述案件元数据中的事件要素,以获取案件的元事件;
判断单元504,用于根据多种串联策略判断所述案件的元事件是否为同一事件,根据各所述串联策略的权重对各所述串联策略的判断结果进行权重投票,确定所述案件的元事件是否为同一事件;
串联单元505,用于将同一事件对应的文档基于时间序列进行串联,形成案件的事件集并输出。
该装置可以从海量文档中找到司法事件的来龙去脉,辅助法律人员进行案件梳理、了解案情脉络,提高了法律人员的案件梳理效率和梳理效果;同时,在金融行业中,帮助金融从业人员在对企业进行风险建模时避免对同一个风险事件进行重复统计,提高建模精度。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述基于跨篇章事件提取的案件串联装置可以实现为计算机程序的形式,该计算机程序可以在如图3所示的计算机设备上运行。
请参阅图3,图3是本发明实施例提供的计算机设备的示意性框图。该计算机设备1100是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图3,该计算机设备1100包括通过系统总线1101连接的处理器1102、存储器和网络接口1105,其中,存储器可以包括非易失性存储介质1103和内存储器1104。
该非易失性存储介质1103可存储操作系统11031和计算机程序11032。该计算机程序11032被执行时,可使得处理器1102执行基于跨篇章事件提取的案件串联方法。
该处理器1102用于提供计算和控制能力,支撑整个计算机设备1100的运行。
该内存储器1104为非易失性存储介质1103中的计算机程序11032的运行提供环境,该计算机程序11032被处理器1102执行时,可使得处理器1102执行基于跨篇章事件提取的案件串联方法。
该网络接口1105用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图3中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备1100的限定,具体的计算机设备1100可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域技术人员可以理解,图3中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图3所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器1102可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器1102还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例的基于跨篇章事件提取的案件串联方法。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (7)
1.一种基于跨篇章事件提取的案件串联方法,其特征在于,包括:
从数据库中收集文本集合,所述文本集合包括多篇文档;
对所述文本集合进行文档解析,并输出结构化的案件元数据;
提取所述案件元数据中的事件要素,以获取案件的元事件;
根据多种串联策略判断所述案件的元事件是否为同一事件,根据各所述串联策略的权重对各所述串联策略的判断结果进行权重投票,确定所述案件的元事件是否为同一事件;
其中,所述根据多种串联策略判断所述案件的元事件是否为同一事件,包括:
基于所述案件的元事件,获取两篇文档的引用案号要素与案号要素,并采用所述引用案号要素与案号要素进行模糊匹配,根据匹配结果判断所述案件的元事件是否为同一事件;
对所述案件的元事件进行hash计算,得到相应的散列值,将所述散列值与预设的海明距离进行对比,根据对比结果判断所述案件的元事件是否为同一事件;
使用TF-IDF或预训练语言模型将所述案件的元事件进行向量化操作,计算向量化后的所述案件的元事件的余弦相似度,将计算得到的所述余弦相似度与预设的余弦相似度阈值进行比较,根据比较结果判断所述案件的元事件是否为同一事件;
其中,所述根据各所述串联策略的权重对各所述串联策略的判断结果进行权重投票,确定所述案件的元事件是否为同一事件,包括:
根据各所述串联策略的权重对各所述串联策略的判断结果进行权重投票,并计算权重投票结果;
将所述权重投票结果与预设的阈值进行比较,若权重投票结果大于预设的阈值,则判定属于同一事件;
将同一事件对应的文档基于时间序列进行串联,形成案件的事件集并输出。
2.根据权利要求1所述的基于跨篇章事件提取的案件串联方法,其特征在于,所述对所述文本集合进行文档解析,并输出结构化的案件元数据,包括:
对所述文本集合进行文档解析,获取文档类型;
对于文档类型为富文本格式的文档,使用版面识别的方法进行文字识别;对于文档类型为图片格式的文档,使用OCR识别的方法进行文字识别;
利用规则引擎对文字识别后的文档中的要素候选句进行定位并输出,并提取所述文档中元数据。
3.根据权利要求1所述的基于跨篇章事件提取的案件串联方法,其特征在于,所述提取所述案件元数据中的事件要素,以获取案件的元事件,包括:
采用实体识别、实体消歧、实体对齐和关系抽取的方式提取所述案件元数据中的事件要素,所述事件要素包括必要元素、关键元素以及辅助性元素,其中,所述必要元素包括原告、被告、案号以及案由,所述关键元素为引用案号,所述辅助性元素包括涉案金额、执行金额、委托律师、案件环节、法院属地。
5.一种基于跨篇章事件提取的案件串联装置,其特征在于,包括:
收集单元,用于从数据库中收集文本集合,所述文本集合包括多篇文档;
解析单元,用于对所述文本集合进行文档解析,并输出结构化的案件元数据;
提取单元,用于提取所述案件元数据中的事件要素,以获取案件的元事件;
判断单元,用于根据多种串联策略判断所述案件的元事件是否为同一事件,根据各所述串联策略的权重对各所述串联策略的判断结果进行权重投票,确定所述案件的元事件是否为同一事件;
串联单元,用于将同一事件对应的文档基于时间序列进行串联,形成案件的事件集并输出;
其中,所述判断单元,包括:
模糊匹配单元,用于基于所述案件的元事件,获取两篇文档的引用案号要素与案号要素,并采用所述引用案号要素与案号要素进行模糊匹配,根据匹配结果判断所述案件的元事件是否为同一事件;
距离匹配单元,用于对所述案件的元事件进行hash计算,得到相应的散列值,将所述散列值与预设的海明距离进行对比,根据对比结果判断所述案件的元事件是否为同一事件;
余弦相似度匹配单元,用于使用TF-IDF或预训练语言模型将所述案件的元事件进行向量化操作,计算向量化后的所述案件的元事件的余弦相似度,将计算得到的所述余弦相似度与预设的余弦相似度阈值进行比较,根据比较结果判断所述案件的元事件是否为同一事件;
投票单元,用于根据各所述串联策略的权重对各所述串联策略的判断结果进行权重投票,并计算权重投票结果;
判定单元,用于将所述权重投票结果与预设的阈值进行比较,若权重投票结果大于预设的阈值,则判定属于同一事件。
6.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的基于跨篇章事件提取的案件串联方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至4任一项所述的基于跨篇章事件提取的案件串联方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111188257.0A CN113626618B (zh) | 2021-10-12 | 2021-10-12 | 基于跨篇章事件提取的案件串联方法、装置及相关组件 |
PCT/CN2021/124647 WO2023060634A1 (zh) | 2021-10-12 | 2021-10-19 | 基于跨篇章事件提取的案件串联方法、装置及相关组件 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111188257.0A CN113626618B (zh) | 2021-10-12 | 2021-10-12 | 基于跨篇章事件提取的案件串联方法、装置及相关组件 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113626618A CN113626618A (zh) | 2021-11-09 |
CN113626618B true CN113626618B (zh) | 2022-02-15 |
Family
ID=78391155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111188257.0A Active CN113626618B (zh) | 2021-10-12 | 2021-10-12 | 基于跨篇章事件提取的案件串联方法、装置及相关组件 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113626618B (zh) |
WO (1) | WO2023060634A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114356992A (zh) * | 2021-12-31 | 2022-04-15 | 泰华智慧产业集团股份有限公司 | 用于智能化城市管理的疑似重复案件判断方法及系统 |
CN117453856B (zh) * | 2023-10-19 | 2024-05-07 | 中国司法大数据研究院有限公司 | 一种基于多源数据融合的历审案件串联的提取方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021351A (zh) * | 2016-05-10 | 2016-10-12 | 深圳职业技术学院 | 针对新闻事件的聚合提取方法及装置 |
CN111639494A (zh) * | 2020-04-20 | 2020-09-08 | 北京大学 | 案件事理关系确定方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008134850A (ja) * | 2006-11-28 | 2008-06-12 | Canon Inc | メタデータ入力支援方法、メタデータ入力支援装置、及びコンピュータプログラム |
US10108697B1 (en) * | 2013-06-17 | 2018-10-23 | The Boeing Company | Event matching by analysis of text characteristics (e-match) |
US9424524B2 (en) * | 2013-12-02 | 2016-08-23 | Qbase, LLC | Extracting facts from unstructured text |
CN110941645B (zh) * | 2018-09-21 | 2023-04-07 | 北京国双科技有限公司 | 一种自动判定串案的方法、装置、存储介质及处理器 |
CN109949185A (zh) * | 2019-03-15 | 2019-06-28 | 南京邮电大学 | 基于事件树分析的司法案件判别系统和方法 |
-
2021
- 2021-10-12 CN CN202111188257.0A patent/CN113626618B/zh active Active
- 2021-10-19 WO PCT/CN2021/124647 patent/WO2023060634A1/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021351A (zh) * | 2016-05-10 | 2016-10-12 | 深圳职业技术学院 | 针对新闻事件的聚合提取方法及装置 |
CN111639494A (zh) * | 2020-04-20 | 2020-09-08 | 北京大学 | 案件事理关系确定方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2023060634A1 (zh) | 2023-04-20 |
CN113626618A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019109918A1 (zh) | 摘要文本生成方法、计算机可读存储介质和计算机设备 | |
CN113626618B (zh) | 基于跨篇章事件提取的案件串联方法、装置及相关组件 | |
CN111899089A (zh) | 基于知识图谱的企业风险预警方法及系统 | |
CN111158641B (zh) | 基于语义分析和文本挖掘的事务类功能点自动识别方法 | |
US11609959B2 (en) | System and methods for generating an enhanced output of relevant content to facilitate content analysis | |
TWI745777B (zh) | 資料歸檔方法、裝置、電腦裝置及存儲媒體 | |
CN111651552B (zh) | 结构化信息确定方法、装置和电子设备 | |
CN113486158B (zh) | 基于案情比对的类案检索方法、装置、设备及存储介质 | |
Braz et al. | Document classification using a Bi-LSTM to unclog Brazil's supreme court | |
CN110569350A (zh) | 法条推荐方法、设备和存储介质 | |
US20240193522A1 (en) | Citation and policy based document classification | |
CN112149387A (zh) | 财务数据的可视化方法、装置、计算机设备及存储介质 | |
CN113868391A (zh) | 基于知识图谱的法律文书生成方法、装置、设备及介质 | |
CN115358201A (zh) | 一种期货领域的投研报告处理方法和系统 | |
Wang et al. | Cyber threat intelligence entity extraction based on deep learning and field knowledge engineering | |
Wang et al. | Weighted graph convolution over dependency trees for nontaxonomic relation extraction on public opinion information | |
Zhang et al. | A text mining based method for policy recommendation | |
Song et al. | AI-enabled legacy data integration with privacy protection: a case study on regional cloud arbitration court | |
Quemy | European court of human right open data project | |
Ha et al. | Contract Metadata Identification in Czech Scanned Documents. | |
Vatsal et al. | Classification of US Supreme Court cases using BERT-based techniques | |
Chen et al. | Research on knowledge graph modeling method for financial audit of power grid enterprises | |
CN113919338A (zh) | 处理文本数据的方法及设备 | |
CN111507105A (zh) | 一种基于语义相似性分析的技术文件相似性排查方法 | |
CN117573956B (zh) | 元数据管理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |