CN108132941B - 法律文献的关联关系的处理方法和装置 - Google Patents

法律文献的关联关系的处理方法和装置 Download PDF

Info

Publication number
CN108132941B
CN108132941B CN201611088244.5A CN201611088244A CN108132941B CN 108132941 B CN108132941 B CN 108132941B CN 201611088244 A CN201611088244 A CN 201611088244A CN 108132941 B CN108132941 B CN 108132941B
Authority
CN
China
Prior art keywords
legal
legal document
document
candidate set
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611088244.5A
Other languages
English (en)
Other versions
CN108132941A (zh
Inventor
石鹏
赵健
李轶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611088244.5A priority Critical patent/CN108132941B/zh
Publication of CN108132941A publication Critical patent/CN108132941A/zh
Application granted granted Critical
Publication of CN108132941B publication Critical patent/CN108132941B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种法律文献的关联关系的处理方法和装置。其中,该方法包括:对待处理的第一法律文献的标题进行处理,得到第一关键词;查找与第一关键词匹配的法律文献,得到与第一法律文献相关联的第二法律文献;根据第一法律文献和第二法律文献,生成第一法律文献和第二法律文献的关联关系。本发明解决了现有的法律文献的关联关系是通过人工查找相关联的法律文献,然后进行筛选标定得到,导致处理效率低的技术问题。

Description

法律文献的关联关系的处理方法和装置
技术领域
本发明涉及法律文件领域,具体而言,涉及一种法律文献的关联关系的处理方法和装置。
背景技术
用户在查看法律文献的时候,可以通过法律文献的关联关系看出法律文献的每一变更,以及每个时间节点适用的法律文献,同时可以根据沿革关系的时间节点,结合案件的审判时间,选择适用的法律文献的版本。
但是,现有的法律文献的关联关系仅仅通过人工寻找法律文献及其相关联的修改文献,再进行筛选标定得到,不仅费时费力,而且效率极低。而且当一部法律文献同时修改多部法律文献,而后续又有针对该法律文献的修改案的时候,容易发生关联关系混乱的情况。
针对现有的法律文献的关联关系是通过人工查找相关联的法律文献,然后进行筛选标定得到,导致处理效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种法律文献的关联关系的处理方法和装置,以至少解决现有的法律文献的关联关系是通过人工查找相关联的法律文献,然后进行筛选标定得到,导致处理效率低的技术问题。
根据本发明实施例的一个方面,提供了一种法律文献的关联关系的处理方法,包括:对待处理的第一法律文献的标题进行处理,得到第一关键词;找与第一关键词匹配的法律文献,得到与第一法律文献相关联的第二法律文献;根据第一法律文献和第二法律文献,生成第一法律文献和第二法律文献的关联关系。
根据本发明实施例的另一方面,还提供了一种法律文献的关联关系的处理装置,包括:第一处理模块,用于对待处理的第一法律文献的标题进行处理,得到第一关键词;查找模块,用于查找与第一关键词匹配的法律文献,得到与第一法律文献相关联的第二法律文献;生成模块,用于根据第一法律文献和第二法律文献,生成第一法律文献和第二法律文献的关联关系。
在本发明实施例中,可以对待处理的第一法律文献的标题进行处理,得到第一关键词,查找与第一关键词匹配的法律文献,得到与第一法律文献相关联的第二法律文献,根据第一法律文献和第二法律文献,生成第一法律文献和第二法律文献的关联关系。容易注意到的是,可以分析第一法律文献的标题,进行关键词提取,并通过关键词进行匹配过滤,生成法律文献的关联关系,无需人工进行查询和标定,提高了处理效率,从而解决了现有的法律文献的关联关系是通过人工查找相关联的法律文献,然后进行筛选标定得到,导致处理效率低技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种法律文献的关联关系的处理方法的流程图;
图2是根据本发明实施例的一种可选的法律文献的关联关系的处理方法的流程图;
图3是根据本发明实施例的一种法律文献的关联关系的处理装置的示意图;
图4是根据本发明实施例的一种可选的法律文献的关联关系的处理装置的示意图;
图5是根据本发明实施例的一种可选的法律文献的关联关系的处理装置的示意图;
图6是根据本发明实施例的一种可选的法律文献的关联关系的处理装置的示意图;
图7是根据本发明实施例的一种可选的法律文献的关联关系的处理装置的示意图;
图8是根据本发明实施例的一种可选的法律文献的关联关系的处理装置的示意图;以及
图9是根据本发明实施例的一种可选的法律文献的关联关系的处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
法律沿革关系,即法律从发布到每一次修改的关系,通过沿革关系可以对一部法律从发布到最新的修改的过程一目了然,同时也可以看出其发布的时间节点以及修改关系。用户查看法律的时候,可以通过法律沿革关系看出法律的每一次的变更,以及每个时间节点适用的法律,同时可以根据沿革关系的时间节点,结合案件的审判时间,选择适用的法律版本。
实施例1
根据本发明实施例,提供了一种法律文献的关联关系的处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种法律文献的关联关系的处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,对待处理的第一法律文献的标题进行处理,得到第一关键词。
步骤S104,查找与第一关键词匹配的法律文献,得到与第一法律文献相关联的第二法律文献。
步骤S106,根据第一法律文献和第二法律文献,生成第一法律文献和第二法律文献的关联关系。
具体的,上述的第一法律文献和第二法律文献的关联关系可以是第一法律文献的法律沿革关系。
在一种可选的方案中,当需要生成某一部法律文献(即上述的第一法律文献)的法律沿革关系时,可以对该第一法律文献的标题进行分词处理,提取第一关键词,例如,对于中华人民共和国证券法,提取出的第一关键词可以是证券法。然后以提取到的第一关键词为主要入口,查找与该第一关键词相关联的法律文献,得到第二法律文献,然后根据第一法律文献和第二法律文献,可以生成第一法律文献的法律沿革关系。
通过本发明上述实施例,可以对待处理的第一法律文献的标题进行处理,得到第一关键词,查找与第一关键词匹配的法律文献,得到与第一法律文献相关联的第二法律文献,根据第一法律文献和第二法律文献,生成第一法律文献和第二法律文献的关联关系。容易注意到的是,可以分析第一法律文献的标题,进行关键词提取,并通过关键词进行匹配过滤,生成法律文献的关联关系,无需人工进行查询和标定,提高了处理效率,从而解决了现有的法律文献的关联关系是通过人工查找相关联的法律文献,然后进行筛选标定得到,导致处理效率低技术问题。
可选地,在本发明上述实施例中,查找与第一关键词匹配的法律文献,得到与第一法律文献相关联的第二法律文献,包括:
根据第一关键词匹配,查询得到第三法律文献,其中,第三法律文献为标题中包含第一关键词的法律文献。
具体的,由于仅仅通过关键词查找到的法律文献并不一定是沿革关系需要的法律文献,部分解释性法律文献并不属于沿革关系范围,因此,需要对法律文献进行部分关键字过滤,得到相关性较高的法律文献。上述的第三法律文献即为未经过过滤的法律文献。
对第一法律文献的标题进行分词处理,得到多个词语。
将第三法律文献的标题与每个词语进行匹配,得到匹配结果,其中,匹配结果用于表征与第三法律文献的标题匹配成功的词语的数量。
如果匹配结果满足第一预设条件,则将第三法律文献存入第一候选集合。
具体的,上述的第一预设条件可以是匹配成功的词语的数量大于总词语数量的80%,例如,总词语数量为N时,第一预设条件可以是大于N*80%。上述的第一候选集合可以是匹配候选集合,即匹配相似度较高的法律文献的集合。
如果匹配结果满足第二预设条件,则将第三法律文献存入第二候选集合。
具体的,上述的第二预设条件可以是匹配成功的词语的数量在总词语数量的50%-80%范围内,例如,总词语数量为N时,第二预设条件可以是小于等于N*80%,且大于等于N*50%。上述的第一候选集合可以是疑似匹配候选集合,即匹配相似度较低的法律文献的集合。
在一种可选的方案中,可以通过关键词查找相关联的第三法律文献,使用关键词匹配,将第一法律文献的名称进行分词处理,得到多个词语,例如,可以得到N个词语,然后将查找到的要进行匹配的第三法律文献的标题和这N个词语分别进行匹配,如果匹配结果大于N*0.8,则可以认为第三法律文献是高度相似匹配的法律文献,并将该第三法律文献存入匹配候选集合中;如果匹配结果小于等于N*0.8,且大于等于N*0.5,则认为该第三法律文献有可能是相似匹配的法律文献,并该第三法律文献存入疑似匹配候选集合中;如果匹配结果小于N*0.5,则认为该第三法律文献是无关法律文献。
可选地,在本发明上述实施例中,在将第三法律文献存入第一候选集合之后,上述方法还包括:
将第一候选集合中的每个法律文献的标题与第二关键词进行匹配,其中,第二关键词为与法律文献的关联关系无关的词语。
具体的,上述的第二关键词可以是对法律文献的解释或者修改决定,并不属于沿革关系范畴的词语,例如,可以是解释,决定等。
如果第一候选集合中的任意一个法律文献的标题与第二关键词不匹配,则确定第一候选集合中的任意一个法律文献为第二法律文献。
在一种可选的方案中,对于对高度相似匹配的法律文献可以进行关键词剔除,即第一候选集合中的法律文献,可以将第一候选集合中的每个法律文献的标题与第二关键词进行匹配,如果第一候选集合中的任意一个法律文献的标题与第二关键词不匹配,即法律文献的标题中不包含解释,决定等关键词,则可以保留该法律文献;如果第一候选集合中的任意一个法律文献的标题与第二关键词匹配,即法律文献的标题中包含解释,决定等关键词的法律文献,则进行剔除处理,将该法律文献从第一候选集合中删除。
可选地,在本发明上述实施例中,在将第三法律文献存入第二候选集合之后,上述方法还包括:
利用预设解析程序对第二候选集合中的每个法律文献进行法条解析,得到第二候选集合中的每个法律文献的多个法律条款。
具体的,上述的预设解析程序可以是Gridsum Law Dissector法规解析程序。
判断第二候选集合中的每个法律文献的多个法律条款中是否存在与预设词语和第一关键词相匹配的法律条款。
具体的,上述的预设词语可以是对法律文献进行修改、删除、增加等描述的词语,例如,可以是对《中华人民共和国证券法》进行修改。
如果第二候选集合中的任意一个法律文献的多个法律条款中存在与预设词语和第一关键词相匹配的法律条款,则确定第二候选集合中的任意一个法律文献为第二法律文献。
在一种可选的方案中,对于相似匹配的法律文献,即第二候选集合中的法律文献,可以通过Gridsum Law Dissector法规解析程序对法律文献进行法条解析,得到该法律文献的每个法律条款,然后可以对每个法律条款进行判断,判断是否存在与预设词语和第一关键词相匹配的法律条款,即是否存在类似于对《中华人民共和国证券法》进行修改等描述的法律条款,如果存在,则确定该法律文献是与第一法律文献相关联的法律文献,即该法律文献为第二法律文献;如果不存在,则确定该法律文献不是与第一法律文献相关联的法律文献,即该法律文献是无关法律文献。
通过上述步骤,可以利用预设解析程序对第二候选集合中的每个法律文献进行法条解析,得到第二候选集合中的每个法律文献的多个法律条款,判断第二候选集合中的每个法律文献的多个法律条款中是否存在与预设词语和第一关键词相匹配的法律条款,如果第二候选集合中的任意一个法律文献的多个法律条款中存在与预设词语和第一关键词相匹配的法律条款,则确定第二候选集合中的任意一个法律文献为第二法律文献,从而可以对标题不相关的法律文献进行法律条款的关系匹配,得到与第一法律文献相关联的第二法律文献,提高查找相关法律文献的准确度。
可选地,在本发明上述实施例中,在查找与第一关键词匹配的法律文献,得到与第一法律文献相关联的第二法律文献的同时,上述方法还包括:
获取第四法律文献,其中,第四法律文献为与多部法律文献相关联的法律文献。
具体的,上述的第四法律文献可以是同时修改多部法律文献的法律文献,即第四法律文献中包含对多部法律文献进行修改的内容。
利用预设解析程序对第四法律文献进行法条解析,得到第四法律文献的多个法律条款。
判断第四法律文献的多个法律条款中是否存在与预设词语和第一关键词相匹配的法律条款。
如果第四法律文献的多个法律条款中存在与预设词语和第一关键词相匹配的法律条款,则确定第四法律文献为第二法律文献。
在一种可选的方案中,针对部分同时修改多部法律的第四法律文献可以进行标题和法条解析,例如,第四法律文献可以是全国人大常委会关于修改《中华人民共和国文物保护法》等十二部法律的决定(2013),该法律通过标题无法判断是否与证券法相关,因此可以使用Gridsum Law Dissector法规解析程序对第四法律文献进行解析。经过解析,得到第四法律文献的每一个法律条款,然后通过“修改”,“删除”,“增加”等预设词语,结合从第一法律文献的标题提取到的关键词,判断第四法律文献是否为与第一法律文献相关联的法律文献,如果第四法律文献的法律条款中存在与预设词语和第一关键词相匹配的法律文献,则说明第四法律文献是与第一法律文献相关联的法律文献,即第四法律文献为第二法律文献;如果第四法律文献的法律条款中不存在与预设词语和第一关键词相匹配的法律文献,则说明第四法律文献不是与第一法律文献相关联的法律文献,即第四法律文献是无关法律文献。
通过上述步骤,可以获取第四法律文献,利用预设解析程序对第四法律文献进行法条解析,得到第四法律文献的多个法律条款,判断第四法律文献的多个法律条款中是否存在与预设词语和第一关键词相匹配的法律条款,如果第四法律文献的多个法律条款中存在与预设词语和第一关键词相匹配的法律条款,则确定第四法律文献为第二法律文献,从而实现对同时对多部法律文献进行修改的法律文献进行额外处理的目的,提高查找相关法律文献的准确度。
可选地,在本发明上述实施例中,对待处理的第一法律文献的标题进行处理,得到第一关键词,包括:
利用预设分词器,对第一法律文献的标题进行分词处理,得到第一关键词。
具体的,上述的预设分词器可以是Gridsum司法专业词库分词器。
在一种可选的方案中,当需要生成某一部法律的法律沿革关系时,可以使用Gridsum司法专业词库分词器对法律名称进行分词处理从而得到关键词语。
可选地,在本发明上述实施例中,根据第一法律文献和第二法律文献,生成第一法律文献和第二法律文献的关联关系,包括:
根据预设关联关系,设置第一法律文献和第二法律文献的关联信息,生成第一法律文献和第二法律文献的关联关系,其中,预设关联关系至少包括如下之一:发布日期和生效日期。
具体的,上述的预设关联关系可以是法律文献的生效日期或者是法律文献的发布日期。
在一种可选的方案中,可以将相关联的第一法律文献和第二法律文献依据生效日期或者发布日期排序,设置关联信息,生成该第一法律文献的沿革关系。
图2是根据本发明实施例的一种可选的法律文献的关联关系的处理方法的流程图,下面结合图2对本发明一种优选的实施例进行详细说明,如图2所示,该方法包括如下步骤:
步骤S21,标题解析。
可选的,使用Gridsum司法专业词库分词器对法律名称进行分词处理从而得到关键词语。
步骤S22,关键词匹配。
可选的,以关键词为主要入口,查找与此相关联的法律。
步骤S23,判断是否为相关数据。
可选的,该部分查找相关联法律的时候,使用关键字匹配,将法律名称进行分词处理,设得到了N个词语,将要与之匹配的法律和这N个词语分别进行匹配,当匹配结果大于N*0.8的时候,认为该法律是高度相似匹配,存入匹配候选集合中,并进入步骤S25;当匹配结果大于等于N*0.5的时候,认为该法律有可能是相似匹配的,存入疑似匹配候选集合中,并进入步骤S25;当匹配结果小于N*0.5的时候,认为该法律是无关法律,并进入步骤S210。
步骤S24,同时对多部法律修改的法律。
可选的,可以针对部分同时修改多部法律的法律进行标题和法条解析。
步骤S25,判断标题是否相关。
可选的,当匹配结果大于N*0.8的时候,认为该法律标题相关,进入步骤S28;当匹配结果大于等于N*0.5的时候,认为该法律标题不相关,进入步骤S26。
步骤S26,法条解析。
可选的,如果该法律标题不相关,则可以使用Gridsum Law Dissector法规解析程序进行解析,经过解析,得到法律的每一个法条。
步骤S27,判断法条是否相关。
可选的,通过“修改”,“删除”,“增加”等词语,结合法律的题目,进行法条级别的判断,判断法条是否相关,如果法条相关,认为该法律为相关联的法律,进入步骤S28;如果法条不相关,认为该法律为无关法律,进入步骤S210。
步骤S28,关系处理。
步骤S29,生成沿革关系。
可选的,可以将相关联的法律依据生效日期或者发布日期排序,设置关联信息,生成该法律的沿革关系。
步骤S210,非相关数据。
可选的,如果于关键词匹配度较低,或者与法条不相关,则认为该法律为无关法律。
通过上述步骤S21至步骤S210,可以在生成法律沿革关系的过程中,不需要人为标定,通过关键词,法规标题初次匹配,借用Gridsum Law Dissector法规解析程序进行法条级别精确匹配,以此生成法律沿革关系,通过该方法可以解析标题不相关的法规沿革关系。
实施例2
根据本发明实施例,提供了一种法律文献的关联关系的处理装置的装置实施例。
图3是根据本发明实施例的一种法律文献的关联关系的处理装置的示意图,如图3所示,该装置包括:
第一处理模块31,用于对待处理的第一法律文献的标题进行处理,得到第一关键词。
查找模块33,用于查找与第一关键词匹配的法律文献,得到与第一法律文献相关联的第二法律文献。
生成模块35,用于根据第一法律文献和第二法律文献,生成第一法律文献和第二法律文献的关联关系。
具体的,上述的第一法律文献和第二法律文献的关联关系可以是第一法律文献的法律沿革关系。
在一种可选的方案中,当需要生成某一部法律文献(即上述的第一法律文献)的法律沿革关系时,可以对该第一法律文献的标题进行分词处理,提取第一关键词,例如,对于中华人民共和国证券法,提取出的第一关键词可以是证券法。然后以提取到的第一关键词为主要入口,查找与该第一关键词相关联的法律文献,得到第二法律文献,然后根据第一法律文献和第二法律文献,可以生成第一法律文献的法律沿革关系。
通过本发明上述实施例,可以对待处理的第一法律文献的标题进行处理,得到第一关键词,查找与第一关键词匹配的法律文献,得到与第一法律文献相关联的第二法律文献,根据第一法律文献和第二法律文献,生成第一法律文献和第二法律文献的关联关系。容易注意到的是,可以分析第一法律文献的标题,进行关键词提取,并通过关键词进行匹配过滤,生成法律文献的关联关系,无需人工进行查询和标定,提高了处理效率,从而解决了现有的法律文献的关联关系是通过人工查找相关联的法律文献,然后进行筛选标定得到,导致处理效率低技术问题。
可选地,在本发明上述实施例中,如图4所示,上述查找模块33包括:
查找子模块41,用于根据第一关键词匹配,查找得到第三法律文献,其中,第三法律文献为标题中包含第一关键词的法律文献。
具体的,由于仅仅通过关键词查找到的法律文献并不一定是沿革关系需要的法律文献,部分解释性法律文献并不属于沿革关系范围,因此,需要对法律文献进行部分关键字过滤,得到相关性较高的法律文献。上述的第三法律文献即为未经过过滤的法律文献。
第一处理子模块43,用于对第一法律文献的标题进行分词处理,得到多个词语。
匹配子模块,用于将第三法律文献的标题与每个词语进行匹配,得到匹配结果,其中,匹配结果用于表征与第三法律文献的标题匹配成功的词语的数量。
第一存储子模块45,用于如果匹配结果满足第一预设条件,则将第三法律文献存入第一候选集合。
具体的,上述的第一预设条件可以是匹配成功的词语的数量大于总词语数量的80%,例如,总词语数量为N时,第一预设条件可以是大于N*80%。上述的第一候选集合可以是匹配候选集合,即匹配相似度较高的法律文献的集合。
第二存储子模块47,用于如果匹配结果满足第二预设条件,则将第三法律文献存入第二候选集合。
具体的,上述的第二预设条件可以是匹配成功的词语的数量在总词语数量的50%-80%范围内,例如,总词语数量为N时,第二预设条件可以是小于等于N*80%,且大于等于N*50%。上述的第一候选集合可以是疑似匹配候选集合,即匹配相似度较低的法律文献的集合。
在一种可选的方案中,可以通过关键词查找相关联的第三法律文献,使用关键词匹配,将第一法律文献的名称进行分词处理,得到多个词语,例如,可以得到N个词语,然后将查找到的要进行匹配的第三法律文献的标题和这N个词语分别进行匹配,如果匹配结果大于N*0.8,则可以认为第三法律文献是高度相似匹配的法律文献,并将该第三法律文献存入匹配候选集合中;如果匹配结果小于等于N*0.8,且大于等于N*0.5,则认为该第三法律文献有可能是相似匹配的法律文献,并该第三法律文献存入疑似匹配候选集合中;如果匹配结果小于N*0.5,则认为该第三法律文献是无关法律文献。
可选地,在本发明上述实施例中,如图5所示,上述装置还包括:
匹配模块51,用于将第一候选集合中的每个法律文献的标题与第二关键词进行匹配,其中,第二关键词为与法律文献的关联关系无关的词语。
具体的,上述的第二关键词可以是对法律文献的解释或者修改决定,并不属于沿革关系范畴的词语,例如,可以是解释,决定等。
第一确定模块53,用于如果第一候选集合中的任意一个法律文献的标题与第二关键词不匹配,则确定第一候选集合中的任意一个法律文献为第二法律文献。
在一种可选的方案中,对于对高度相似匹配的法律文献可以进行关键词剔除,即第一候选集合中的法律文献,可以将第一候选集合中的每个法律文献的标题与第二关键词进行匹配,如果第一候选集合中的任意一个法律文献的标题与第二关键词不匹配,即法律文献的标题中不包含解释,决定等关键词,则可以保留该法律文献;如果第一候选集合中的任意一个法律文献的标题与第二关键词匹配,即法律文献的标题中包含解释,决定等关键词的法律文献,则进行剔除处理,将该法律文献从第一候选集合中删除。
可选地,在本发明上述实施例中,如图6所示,上述装置还包括:
第二处理模块61,用于利用预设解析程序对第二候选集合中的每个法律文献进行法条解析,得到第二候选集合中的每个法律文献的多个法律条款。
具体的,上述的预设解析程序可以是Gridsum Law Dissector法规解析程序。
第一判断模块63,用于判断第二候选集合中的每个法律文献的多个法律条款中是否存在与预设词语和第一关键词相匹配的法律条款。
具体的,上述的预设词语可以是对法律文献进行修改、删除、增加等描述的词语,例如,可以是对《中华人民共和国证券法》进行修改。
第二确定模块65,用于如果第二候选集合中的任意一个法律文献的多个法律条款中存在与预设词语和第一关键词相匹配的法律条款,则确定第二候选集合中的任意一个法律文献为第二法律文献。
在一种可选的方案中,对于相似匹配的法律文献,即第二候选集合中的法律文献,可以通过Gridsum Law Dissector法规解析程序对法律文献进行法条解析,得到该法律文献的每个法律条款,然后可以对每个法律条款进行判断,判断是否存在与预设词语和第一关键词相匹配的法律条款,即是否存在类似于对《中华人民共和国证券法》进行修改等描述的法律条款,如果存在,则确定该法律文献是与第一法律文献相关联的法律文献,即该法律文献为第二法律文献;如果不存在,则确定该法律文献不是与第一法律文献相关联的法律文献,即该法律文献是无关法律文献。
通过上述方案,可以利用预设解析程序对第二候选集合中的每个法律文献进行法条解析,得到第二候选集合中的每个法律文献的多个法律条款,判断第二候选集合中的每个法律文献的多个法律条款中是否存在与预设词语和第一关键词相匹配的法律条款,如果第二候选集合中的任意一个法律文献的多个法律条款中存在与预设词语和第一关键词相匹配的法律条款,则确定第二候选集合中的任意一个法律文献为第二法律文献,从而可以对标题不相关的法律文献进行法律条款的关系匹配,得到与第一法律文献相关联的第二法律文献,提高查找相关法律文献的准确度。
可选地,在本发明上述实施例中,如图7所示,上述装置还包括:
获取模块71,用于获取第四法律文献,其中,第四法律文献为与多部法律文献相关联的法律文献。
具体的,上述的第四法律文献可以是同时修改多部法律文献的法律文献,即第四法律文献中包含对多部法律文献进行修改的内容。
第三处理模块73,用于利用预设解析程序对第四法律文献进行法条解析,得到第四法律文献的多个法律条款。
第二判断模块75,用于判断第四法律文献的多个法律条款中是否存在与预设词语和第一关键词相匹配的法律条款。
第三确定模块77,用于如果第四法律文献的多个法律条款中存在与预设词语和第一关键词相匹配的法律条款,则确定第四法律文献为第二法律文献。
在一种可选的方案中,针对部分同时修改多部法律的第四法律文献可以进行标题和法条解析,例如,第四法律文献可以是全国人大常委会关于修改《中华人民共和国文物保护法》等十二部法律的决定(2013),该法律通过标题无法判断是否与证券法相关,因此可以使用Gridsum Law Dissector法规解析程序对第四法律文献进行解析。经过解析,得到第四法律文献的每一个法律条款,然后通过“修改”,“删除”,“增加”等预设词语,结合从第一法律文献的标题提取到的关键词,判断第四法律文献是否为与第一法律文献相关联的法律文献,如果第四法律文献的法律条款中存在与预设词语和第一关键词相匹配的法律文献,则说明第四法律文献是与第一法律文献相关联的法律文献,即第四法律文献为第二法律文献;如果第四法律文献的法律条款中不存在与预设词语和第一关键词相匹配的法律文献,则说明第四法律文献不是与第一法律文献相关联的法律文献,即第四法律文献是无关法律文献。
通过上述方案,可以获取第四法律文献,利用预设解析程序对第四法律文献进行法条解析,得到第四法律文献的多个法律条款,判断第四法律文献的多个法律条款中是否存在与预设词语和第一关键词相匹配的法律条款,如果第四法律文献的多个法律条款中存在与预设词语和第一关键词相匹配的法律条款,则确定第四法律文献为第二法律文献,从而实现对同时对多部法律文献进行修改的法律文献进行额外处理的目的,提高查找相关法律文献的准确度。
可选地,在本发明上述实施例中,如图8所示,上述第一处理模块31包括:
第二处理子模块81,用于利用预设分词器,对第一法律文献的标题进行分词处理,得到第一关键词。
具体的,上述的预设分词器可以是Gridsum司法专业词库分词器。
在一种可选的方案中,当需要生成某一部法律的法律沿革关系时,可以使用Gridsum司法专业词库分词器对法律名称进行分词处理从而得到关键词语。
可选地,在本发明上述实施例中,如图9所示,上述生成模块35包括:
生成子模块91,用于根据预设关联关系,设置第一法律文献和第二法律文献的关联信息,生成第一法律文献和第二法律文献的关联关系,其中,预设关联关系至少包括如下之一:发布日期和生效日期。
具体的,上述的预设关联关系可以是法律文献的生效日期或者是法律文献的发布日期。
在一种可选的方案中,可以将相关联的第一法律文献和第二法律文献依据生效日期或者发布日期排序,设置关联信息,生成该第一法律文献的沿革关系。
所述法律文献的关联关系的处理装置包括处理器和存储器,上述第一处理模块、查找模块和生成模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。上述第二法律文献、关联关系都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数解析文本内容。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:对待处理的第一法律文献的标题进行处理,得到第一关键词;查找与第一关键词匹配的法律文献,得到与第一法律文献相关联的第二法律文献;根据第一法律文献和第二法律文献,生成第一法律文献和第二法律文献的关联关系。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种法律文献的关联关系的处理方法,其特征在于,包括:
对待处理的第一法律文献的标题进行处理,得到第一关键词;
查找与所述第一关键词匹配的法律文献,得到与所述第一法律文献相关联的第二法律文献;
根据所述第一法律文献和所述第二法律文献,生成所述第一法律文献和所述第二法律文献的关联关系,其中,所述关联关系是所述第一法律文献的法律沿革关系;
其中,查找与所述第一关键词匹配的法律文献,得到与所述第一法律文献相关联的第二法律文献,包括:
根据第一关键词,查找得到第三法律文献,其中,所述第三法律文献为标题中包含所述第一关键词的法律文献;
对所述第一法律文献的标题进行分词处理,得到多个词语;
将所述第三法律文献的标题与每个所述词语进行匹配,得到匹配结果,其中,所述匹配结果用于表征与所述第三法律文献的标题匹配成功的词语的数量;
如果所述匹配结果满足第一预设条件,则将所述第三法律文献存入第一候选集合,其中,所述第一预设条件为所述匹配成功的词语的数量大于所述多个词语的总数量与预设值的乘积,基于所述第一候选集合中的每个法律文献的标题,确定所述第一候选集合中的所述第二法律文献;
如果所述匹配结果满足第二预设条件,则将所述第三法律文献存入第二候选集合,其中,所述第二预设条件为所述匹配成功的词语的数量处于所述多个词语的总数量的预设范围内,所述预设范围的最大值等于所述预设值,基于所述第二候选集合中的每个法律文献的多个法律条款,确定所述第二候选集合中的所述第二法律文献。
2.根据权利要求1所述的方法,其特征在于,在将所述第三法律文献存入第一候选集合之后,所述方法还包括:
将所述第一候选集合中的每个法律文献的标题与第二关键词进行匹配,其中,所述第二关键词为与法律文献的关联关系无关的词语;
如果所述第一候选集合中的任意一个法律文献的标题与所述第二关键词不匹配,则确定所述第一候选集合中的所述任意一个法律文献为所述第二法律文献。
3.根据权利要求1所述的方法,其特征在于,在将所述第三法律文献存入第二候选集合之后,所述方法还包括:
利用预设解析程序对所述第二候选集合中的每个法律文献进行法条解析,得到所述第二候选集合中的每个法律文献的多个法律条款;
判断所述第二候选集合中的所述每个法律文献的多个法律条款中是否存在与预设词语和所述第一关键词相匹配的法律条款;
如果所述第二候选集合中的任意一个法律文献的多个法律条款中存在与所述预设词语和所述第一关键词相匹配的法律条款,则确定所述第二候选集合中的所述任意一个法律文献为所述第二法律文献。
4.根据权利要求1所述的方法,其特征在于,在查找与所述第一关键词匹配的法律文献,得到与所述第一法律文献相关联的第二法律文献的同时,所述方法还包括:
获取第四法律文献,其中,所述第四法律文献为与多部法律文献相关联的法律文献;
利用预设解析程序对所述第四法律文献进行法条解析,得到所述第四法律文献的多个法律条款;
判断所述第四法律文献的多个法律条款中是否存在与预设词语和所述第一关键词相匹配的法律条款;
如果所述第四法律文献的多个法律条款中存在与所述预设词语和所述第一关键词相匹配的法律条款,则确定所述第四法律文献为所述第二法律文献。
5.根据权利要求1所述的方法,其特征在于,对待处理的第一法律文献的标题进行处理,得到第一关键词,包括:
利用预设分词器,对所述第一法律文献的标题进行分词处理,得到所述第一关键词。
6.根据权利要求1所述的方法,其特征在于,根据所述第一法律文献和所述第二法律文献,生成所述第一法律文献和所述第二法律文献的关联关系,包括:
根据预设关联关系,设置所述第一法律文献和所述第二法律文献的关联信息,生成所述第一法律文献和所述第二法律文献的关联关系,其中,所述预设关联关系至少包括如下之一:发布日期和生效日期。
7.一种法律文献的关联关系的处理装置,其特征在于,包括:
第一处理模块,用于对待处理的第一法律文献的标题进行处理,得到第一关键词;
查找模块,用于查找与所述第一关键词匹配的法律文献,得到与所述第一法律文献相关联的第二法律文献;
生成模块,用于根据所述第一法律文献和所述第二法律文献,生成所述第一法律文献和所述第二法律文献的关联关系,其中,所述关联关系是所述第一法律文献的法律沿革关系;
其中,所述查找模块包括:
查找子模块,用于根据所述第一关键词,查找得到第三法律文献,其中,所述第三法律文献为标题中包含所述第一关键词的法律文献;
第一处理子模块,用于对所述第一法律文献的标题进行分词处理,得到多个词语;
匹配子模块,用于将所述第三法律文献的标题与每个所述词语进行匹配,得到匹配结果,其中,所述匹配结果用于表征与所述第三法律文献的标题匹配成功的词语的数量;
第一存储子模块,用于如果所述匹配结果满足第一预设条件,则将所述第三法律文献存入第一候选集合,其中,所述第一预设条件为所述匹配成功的词语的数量大于所述多个词语的总数量与预设值的乘积,基于所述第一候选集合中的每个法律文献的标题,确定所述第一候选集合中的所述第二法律文献;
第二存储子模块,用于如果所述匹配结果满足第二预设条件,则将所述第三法律文献存入第二候选集合,其中,所述第二预设条件为所述匹配成功的词语的数量处于所述多个词语的总数量的预设范围内,所述预设范围的最大值等于所述预设值,基于所述第二候选集合中的每个法律文献的多个法律条款,确定所述第二候选集合中的所述第二法律文献。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
匹配模块,用于将所述第一候选集合中的每个法律文献的标题与第二关键词进行匹配,其中,所述第二关键词为与法律文献的关联关系无关的词语;
第一确定模块,用于如果所述第一候选集合中的任意一个法律文献的标题与所述第二关键词不匹配,则确定所述第一候选集合中的所述任意一个法律文献为所述第二法律文献。
CN201611088244.5A 2016-11-30 2016-11-30 法律文献的关联关系的处理方法和装置 Active CN108132941B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611088244.5A CN108132941B (zh) 2016-11-30 2016-11-30 法律文献的关联关系的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611088244.5A CN108132941B (zh) 2016-11-30 2016-11-30 法律文献的关联关系的处理方法和装置

Publications (2)

Publication Number Publication Date
CN108132941A CN108132941A (zh) 2018-06-08
CN108132941B true CN108132941B (zh) 2021-03-26

Family

ID=62388033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611088244.5A Active CN108132941B (zh) 2016-11-30 2016-11-30 法律文献的关联关系的处理方法和装置

Country Status (1)

Country Link
CN (1) CN108132941B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614453A (zh) * 2018-12-14 2019-04-12 杭州法询信息科技有限公司 一种法规信息的数据存储、查询方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577462A (zh) * 2012-08-02 2014-02-12 北京百度网讯科技有限公司 一种文档分类方法及装置
CN104008171A (zh) * 2014-06-03 2014-08-27 中国科学院计算技术研究所 一种法律数据库构建方法及法律检索服务方法
CN105447169A (zh) * 2015-12-07 2016-03-30 百度在线网络技术(北京)有限公司 文献归一方法、文献搜索方法及对应装置
CN105488151A (zh) * 2015-11-27 2016-04-13 小米科技有限责任公司 参考文档的推荐方法及装置
CN105677634A (zh) * 2015-07-18 2016-06-15 孙维国 一种从学术文献中提取语义相似且语法规范句子的方法
CN105930546A (zh) * 2016-07-08 2016-09-07 北京北大英华科技有限公司 文件关联显示方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007047464A2 (en) * 2005-10-14 2007-04-26 Uptodate Inc. Method and apparatus for identifying documents relevant to a search query

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577462A (zh) * 2012-08-02 2014-02-12 北京百度网讯科技有限公司 一种文档分类方法及装置
CN104008171A (zh) * 2014-06-03 2014-08-27 中国科学院计算技术研究所 一种法律数据库构建方法及法律检索服务方法
CN105677634A (zh) * 2015-07-18 2016-06-15 孙维国 一种从学术文献中提取语义相似且语法规范句子的方法
CN105488151A (zh) * 2015-11-27 2016-04-13 小米科技有限责任公司 参考文档的推荐方法及装置
CN105447169A (zh) * 2015-12-07 2016-03-30 百度在线网络技术(北京)有限公司 文献归一方法、文献搜索方法及对应装置
CN105930546A (zh) * 2016-07-08 2016-09-07 北京北大英华科技有限公司 文件关联显示方法

Also Published As

Publication number Publication date
CN108132941A (zh) 2018-06-08

Similar Documents

Publication Publication Date Title
CN103177075B (zh) 基于知识的实体检测和消歧
JP5540079B2 (ja) 知識ベース構築の方法および装置
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
CN106815207B (zh) 用于法律裁判文书的信息处理方法及装置
CN109145110B (zh) 标签查询方法和装置
CN103106199B (zh) 文本检索方法和装置
KR20070094944A (ko) 명백한 지리적 언급의 분류
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
US8352496B2 (en) Entity name matching
FI3972192T3 (fi) Menetelmä ja järjestelmä tietojenkalastelusivustojen kerroksittaiseksi havaitsemiseksi
KR101700820B1 (ko) 사용자 코멘트 기반 개인화 컨텐츠 검색 장치 및 방법
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN105095391A (zh) 利用分词程序识别机构名称的装置及方法
CN106611029B (zh) 提高网站站内搜索效率的方法和装置
CN104462396A (zh) 字符串处理方法和装置
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
US9521164B1 (en) Computerized system and method for detecting fraudulent or malicious enterprises
CN108132941B (zh) 法律文献的关联关系的处理方法和装置
CN106611022B (zh) 提高网站站内搜索效率的方法和装置
CN106649367B (zh) 检测关键词推广程度的方法和装置
US7853597B2 (en) Product line extraction
CN107577667B (zh) 一种实体词处理方法和装置
CN115292478A (zh) 一种推荐搜索内容的方法、装置、设备和存储介质
KR101614551B1 (ko) 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant