CN109446489A - 法律信息重复率检测系统及检测方法 - Google Patents

法律信息重复率检测系统及检测方法 Download PDF

Info

Publication number
CN109446489A
CN109446489A CN201811041205.9A CN201811041205A CN109446489A CN 109446489 A CN109446489 A CN 109446489A CN 201811041205 A CN201811041205 A CN 201811041205A CN 109446489 A CN109446489 A CN 109446489A
Authority
CN
China
Prior art keywords
module
legal documents
legal
filter
electrically connected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811041205.9A
Other languages
English (en)
Inventor
邓齐滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Finance University
Original Assignee
Harbin Finance University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Finance University filed Critical Harbin Finance University
Priority to CN201811041205.9A priority Critical patent/CN109446489A/zh
Publication of CN109446489A publication Critical patent/CN109446489A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

法律信息重复率检测系统及检测方法。目前都是通过链表机制来做是否重复的判断,判断的依据是法律文书对应的案号字段,这种处理方法在计算效率和重复率上均有明显不足。本发明组成包括:获取模块(1)、判断模块(6)、插入模块(8)和存储模块(10),所述的获取模块与所述的判断模块电连接,所述的判断模块与所述的插入模块电连接,所述的插入模块与所述的存储模块电连接,所述的判断模块包括生成模块(2)、第一映射模块(3)和过滤模块(4),所述的生成模块与所述的第一映射模块电连接,所述的第一映射模块与所述的过滤模块电连接。本发明用于法律信息重复率检测系统及检测方法。

Description

法律信息重复率检测系统及检测方法
技术领域:
本发明涉及法律查询领域,具体涉及一种法律信息重复率检测系统及检测方法。
背景技术:
当前国家推行司法公开制度,例如,法院作出判决后,都会将判决文书公开发布到网上。这其中既包括最高院的裁判文书网,也包括各地方法院的公开文书库,而集中文书库本身就包含各地方法院的公开文书库部分。
目前,相关技术中都是通过传统的链表机制来做是否重复的判断,判断的依据是法律文书对应的案号字段,这种处理方法在计算效率和重复率上均有明显不足。
发明内容:
本发明的目的是解决现有的链表机制处理方法在计算效率和重复率上均有明显不足的问题,提供一种重复率计算效率高,计算准确的法律信息重复率检测系统及检测方法。
上述的目的通过以下的技术方案实现:
一种法律信息重复率检测系统,其组成包括:获取模块、判断模块、插入模块和存储模块,所述的获取模块与所述的判断模块电连接,所述的判断模块与所述的插入模块电连接,所述的插入模块与所述的存储模块电连接;
所述的判断模块包括生成模块、第一映射模块和过滤模块,所述的生成模块与所述的第一映射模块电连接,所述的第一映射模块与所述的过滤模块电连接。
所述的法律信息重复率检测系统,所述的插入模块包括统计模块、第二映射模块和置位模块,所述的统计模块与所述的第二映射模块电连接,所述的第二映射模块与所述的置位模块电连接。
一种法律信息重复率检测系统的检测方法,该方法包括如下步骤:
(1)获取待检测的法律文书的案号及法律文书对应的法院信息;
(2)根据案号和法院信息,判断法律文书是否存在于过滤器中,过滤器用于检索一篇法律文书是否已经在一个法律文书集合中,在判断出所述法律文书不存在于所述过滤器中的情况下,确定文书库中不存在与所述法律文书重复的文书,将存在与法律文书集合中的法律文书进行重复判断三次;
(3)将所述法律文书对应的标识插入所述过滤器中并进行存储。
所述的法律信息重复率检测系统的检测方法,所述的步骤二的具体过程为:根据所述案号和所述法院信息,生成N个不同的随机数,判断所述布隆过滤器中与所述N个自然数对应的二进制位置是否全部为1,其中,若全部为1,则表示所述法律文书重复,若不全部为1,则表示所述法律文书不重复,将存在与法律文书集合中的法律文书进行重复判断三次,判断完成后进行筛选。
所述的法律信息重复率检测系统的检测方法,所述的步骤三的具体过程为:根据法律文书的案号及法律文书对应的法院信息,将生成的N个不同的随机数进行统计,将N个不同的随机数全部对应映射到预设数值范围内的N个自然数上,将布隆过滤器中与N个自然数对应的二进制位置全部置1,其中,N个自然数对应的二进制位置全部置1表示法律文书已插入布隆过滤器中,插入到布隆过滤器中的法律文书进行存储。
有益效果:
本发明通过过滤器过滤法律文书是否重复的目的,由于使用过滤器过滤,无需经过文书查找和比对阶段,从而实现了提高法律文书判重的计算效率低的技术效果。
本发明计算效率高,计算重复率准确度可达99%,计算准确率高,解决了链表机制来做法律文书是否重复的检测容易造成计算效率低的问题。
本发明布隆过滤器可以用于检索一个元素是否在一个集合中,将其应用于文书是否重复的判定流程,则可以检索一篇文书是否在一个法律文书库中,其优点在于控件效率和查询时间都远远超过一般的算法。
附图说明:
附图1是本发明的系统原理图;
图中:1、获取模块;2、生成模块;3、第一映射模块;4、过滤模块;5、统计模块;6、判断模块;7、第二映射模块;8、插入模块;9、置位模块;10、存储模块。
具体实施方式:
实施例1:
一种法律信息重复率检测系统,其组成包括:获取模块1、判断模块6、插入模块8和存储模块10,所述的获取模块与所述的判断模块电连接,所述的判断模块与所述的插入模块电连接,所述的插入模块与所述的存储模块电连接;
所述的判断模块包括生成模块2、第一映射模块3和过滤模块4,所述的生成模块与所述的第一映射模块电连接,所述的第一映射模块与所述的过滤模块电连接。
实施例2:
根据实施例1所述的法律信息重复率检测系统,所述的插入模块包括统计模块5、第二映射模块7和置位模块9,所述的统计模块与所述的第二映射模块电连接,所述的第二映射模块与所述的置位模块电连接。
实施例3:
一种实施例1-2所述的法律信息重复率检测系统的检测方法,该方法包括如下步骤:
(1)获取待检测的法律文书的案号及法律文书对应的法院信息;
(2)根据案号和法院信息,判断法律文书是否存在于过滤器中,过滤器用于检索一篇法律文书是否已经在一个法律文书集合中,在判断出所述法律文书不存在于所述过滤器中的情况下,确定文书库中不存在与所述法律文书重复的文书,将存在与法律文书集合中的法律文书进行重复判断三次;
(3)将所述法律文书对应的标识插入所述过滤器中并进行存储。
实施例4:
根据实施例3所述的法律信息重复率检测系统的检测方法,所述的步骤二的具体过程为:根据所述案号和所述法院信息,生成N个不同的随机数,判断所述布隆过滤器中与所述N个自然数对应的二进制位置是否全部为1,其中,若全部为1,则表示所述法律文书重复,若不全部为1,则表示所述法律文书不重复,将存在与法律文书集合中的法律文书进行重复判断三次,判断完成后进行筛选。
实施例5:
根据实施例3所述的法律信息重复率检测系统的检测方法,所述的步骤三的具体过程为:根据法律文书的案号及法律文书对应的法院信息,将生成的N个不同的随机数进行统计,将N个不同的随机数全部对应映射到预设数值范围内的N个自然数上,将布隆过滤器中与N个自然数对应的二进制位置全部置1,其中,N个自然数对应的二进制位置全部置1表示法律文书已插入布隆过滤器中,插入到布隆过滤器中的法律文书进行存储。
获取法律文书的方式可以包括通过网络爬虫等方式。此处,法律文书可以包括但不限于判决文书,裁定文书,诉讼文书等。在获取某一篇法律文书之后,可以先确定该文书的案号,再根据该案号判断该文书是否已经存在于过滤器中,即是否已经插入该过滤器中了,由于法院等司法机关立案或者作出任何判决、裁定决定后,为了便于登记和识别,都会给相应的文书分配一个案号,因此,将案号作为文书的标识,并使得过滤器基于该标识进行重复检索,可以确定某一篇文书是否已经在一个法律文书集合中了。若否,则确定文书库中还没有与本次获取的文书重复的文书,因此,可以将本次获取的文书入库;若是,则确定文书库中已经有与本次获取的文书重复的文书了,而如果再将本次获取的这篇文书入库,则必然会导致文书库存在重复文书,不仅占用大量空间,而且会导致数据冗余,甚至导致后续数据查询出错,因此,在这种情况下,是不希望再次将该文书入库的。
与基于链表机制判重的技术方案相比,使用过滤器进行过滤,进而对文书进行判重处理,无需逐一查找已经存储的文书,也无需与找到的文书进行一一比对,提高了工作效率,节约了工作时间,达到了快速、高效地判断文书是否重复的目的。

Claims (5)

1.一种法律信息重复率检测系统,其组成包括:获取模块、判断模块、插入模块和存储模块,其特征是:所述的获取模块与所述的判断模块电连接,所述的判断模块与所述的插入模块电连接,所述的插入模块与所述的存储模块电连接;
所述的判断模块包括生成模块、第一映射模块和过滤模块,所述的生成模块与所述的第一映射模块电连接,所述的第一映射模块与所述的过滤模块电连接。
2.根据权利要求1所述的法律信息重复率检测系统,其特征是:所述的插入模块包括统计模块、第二映射模块和置位模块,所述的统计模块与所述的第二映射模块电连接,所述的第二映射模块与所述的置位模块电连接。
3.一种权利要求1-2所述的法律信息重复率检测系统的检测方法,其特征是:该方法包括如下步骤:
(1)获取待检测的法律文书的案号及法律文书对应的法院信息;
(2)根据案号和法院信息,判断法律文书是否存在于过滤器中,过滤器用于检索一篇法律文书是否已经在一个法律文书集合中,在判断出所述法律文书不存在于所述过滤器中的情况下,确定文书库中不存在与所述法律文书重复的文书,将存在与法律文书集合中的法律文书进行重复判断三次;
(3)将所述法律文书对应的标识插入所述过滤器中并进行存储。
4.根据权利要求3所述的法律信息重复率检测系统的检测方法,其特征是:所述的步骤二的具体过程为:根据所述案号和所述法院信息,生成N个不同的随机数,判断所述布隆过滤器中与所述N个自然数对应的二进制位置是否全部为1,其中,若全部为1,则表示所述法律文书重复,若不全部为1,则表示所述法律文书不重复,将存在与法律文书集合中的法律文书进行重复判断三次,判断完成后进行筛选。
5.根据权利要求3所述的法律信息重复率检测系统的检测方法,其特征是:所述的步骤三的具体过程为:根据法律文书的案号及法律文书对应的法院信息,将生成的N个不同的随机数进行统计,将N个不同的随机数全部对应映射到预设数值范围内的N个自然数上,将布隆过滤器中与N个自然数对应的二进制位置全部置1,其中,N个自然数对应的二进制位置全部置1表示法律文书已插入布隆过滤器中,插入到布隆过滤器中的法律文书进行存储。
CN201811041205.9A 2018-09-11 2018-09-11 法律信息重复率检测系统及检测方法 Pending CN109446489A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811041205.9A CN109446489A (zh) 2018-09-11 2018-09-11 法律信息重复率检测系统及检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811041205.9A CN109446489A (zh) 2018-09-11 2018-09-11 法律信息重复率检测系统及检测方法

Publications (1)

Publication Number Publication Date
CN109446489A true CN109446489A (zh) 2019-03-08

Family

ID=65530371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811041205.9A Pending CN109446489A (zh) 2018-09-11 2018-09-11 法律信息重复率检测系统及检测方法

Country Status (1)

Country Link
CN (1) CN109446489A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134547A (zh) * 2019-04-28 2019-08-16 平安科技(深圳)有限公司 一种基于中间件的重复数据删除方法和相关装置
CN111429724A (zh) * 2020-04-23 2020-07-17 安徽大学 一种交通数据去重获取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784022A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 检测法律文书是否重复的方法及装置
CN108255877A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 裁判文书的存储方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784022A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 检测法律文书是否重复的方法及装置
CN108255877A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 裁判文书的存储方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134547A (zh) * 2019-04-28 2019-08-16 平安科技(深圳)有限公司 一种基于中间件的重复数据删除方法和相关装置
CN110134547B (zh) * 2019-04-28 2023-08-18 平安科技(深圳)有限公司 一种基于中间件的重复数据删除方法和相关装置
CN111429724A (zh) * 2020-04-23 2020-07-17 安徽大学 一种交通数据去重获取方法
CN111429724B (zh) * 2020-04-23 2022-02-15 安徽大学 一种交通数据去重获取方法

Similar Documents

Publication Publication Date Title
CN104331446B (zh) 一种基于内存映射的海量数据预处理方法
CN101882163A (zh) 一种基于匹配规则的模糊中文地址地理赋值方法
CN108062484A (zh) 一种基于数据敏感特征和数据库元数据的分类分级方法
CN103488709A (zh) 一种索引建立方法及系统、检索方法及系统
CN111651474B (zh) 一种自然语言至结构化查询语言的转换方法及系统
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN106326475A (zh) 一种高效的静态哈希表实现方法及系统
CN107291895B (zh) 一种快速的层次化文档查询方法
CN109254964A (zh) 地址标准化方法、装置、计算机设备和存储介质
CN104252507B (zh) 一种企业数据匹配方法和装置
CN101751475B (zh) 号段记录压缩方法及其装置
PT1288792E (pt) Método para indexar automaticamente documentos
CN102169491B (zh) 一种多数据集中重复记录动态检测方法
CN109446489A (zh) 法律信息重复率检测系统及检测方法
CN109800416A (zh) 一种电力设备名称识别方法
CN103336771A (zh) 基于滑动窗口的数据相似检测方法
CN107577744A (zh) 非标地址自动匹配模型、匹配方法以及模型建立方法
CN117556369B (zh) 一种动态生成的残差图卷积神经网络的窃电检测方法及系统
CN109783586B (zh) 基于聚类重采样的水军评论检测方法
CN106599238A (zh) 横向关联家系调查方法及系统
Li et al. A novel approach to remote sensing image retrieval with multi-feature VP-tree indexing and online feature selection
CN116010831A (zh) 一种基于潜在决策结果的组合聚类场景缩减方法及系统
CN105573984A (zh) 社会经济指标的识别方法及装置
CN110502441B (zh) 基于vba的dcs单体测试用例自动生成方法
CN107784022A (zh) 检测法律文书是否重复的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190308