CN109446489A - 法律信息重复率检测系统及检测方法 - Google Patents
法律信息重复率检测系统及检测方法 Download PDFInfo
- Publication number
- CN109446489A CN109446489A CN201811041205.9A CN201811041205A CN109446489A CN 109446489 A CN109446489 A CN 109446489A CN 201811041205 A CN201811041205 A CN 201811041205A CN 109446489 A CN109446489 A CN 109446489A
- Authority
- CN
- China
- Prior art keywords
- module
- legal documents
- legal
- filter
- electrically connected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 36
- 230000003252 repetitive effect Effects 0.000 title claims abstract description 26
- 238000013507 mapping Methods 0.000 claims abstract description 26
- 238000003780 insertion Methods 0.000 claims abstract description 15
- 230000037431 insertion Effects 0.000 claims abstract description 15
- 238000001914 filtration Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 17
- 239000004744 fabric Substances 0.000 claims 2
- 230000007812 deficiency Effects 0.000 abstract description 3
- 238000003672 processing method Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
法律信息重复率检测系统及检测方法。目前都是通过链表机制来做是否重复的判断,判断的依据是法律文书对应的案号字段,这种处理方法在计算效率和重复率上均有明显不足。本发明组成包括:获取模块(1)、判断模块(6)、插入模块(8)和存储模块(10),所述的获取模块与所述的判断模块电连接,所述的判断模块与所述的插入模块电连接,所述的插入模块与所述的存储模块电连接,所述的判断模块包括生成模块(2)、第一映射模块(3)和过滤模块(4),所述的生成模块与所述的第一映射模块电连接,所述的第一映射模块与所述的过滤模块电连接。本发明用于法律信息重复率检测系统及检测方法。
Description
技术领域:
本发明涉及法律查询领域,具体涉及一种法律信息重复率检测系统及检测方法。
背景技术:
当前国家推行司法公开制度,例如,法院作出判决后,都会将判决文书公开发布到网上。这其中既包括最高院的裁判文书网,也包括各地方法院的公开文书库,而集中文书库本身就包含各地方法院的公开文书库部分。
目前,相关技术中都是通过传统的链表机制来做是否重复的判断,判断的依据是法律文书对应的案号字段,这种处理方法在计算效率和重复率上均有明显不足。
发明内容:
本发明的目的是解决现有的链表机制处理方法在计算效率和重复率上均有明显不足的问题,提供一种重复率计算效率高,计算准确的法律信息重复率检测系统及检测方法。
上述的目的通过以下的技术方案实现:
一种法律信息重复率检测系统,其组成包括:获取模块、判断模块、插入模块和存储模块,所述的获取模块与所述的判断模块电连接,所述的判断模块与所述的插入模块电连接,所述的插入模块与所述的存储模块电连接;
所述的判断模块包括生成模块、第一映射模块和过滤模块,所述的生成模块与所述的第一映射模块电连接,所述的第一映射模块与所述的过滤模块电连接。
所述的法律信息重复率检测系统,所述的插入模块包括统计模块、第二映射模块和置位模块,所述的统计模块与所述的第二映射模块电连接,所述的第二映射模块与所述的置位模块电连接。
一种法律信息重复率检测系统的检测方法,该方法包括如下步骤:
(1)获取待检测的法律文书的案号及法律文书对应的法院信息;
(2)根据案号和法院信息,判断法律文书是否存在于过滤器中,过滤器用于检索一篇法律文书是否已经在一个法律文书集合中,在判断出所述法律文书不存在于所述过滤器中的情况下,确定文书库中不存在与所述法律文书重复的文书,将存在与法律文书集合中的法律文书进行重复判断三次;
(3)将所述法律文书对应的标识插入所述过滤器中并进行存储。
所述的法律信息重复率检测系统的检测方法,所述的步骤二的具体过程为:根据所述案号和所述法院信息,生成N个不同的随机数,判断所述布隆过滤器中与所述N个自然数对应的二进制位置是否全部为1,其中,若全部为1,则表示所述法律文书重复,若不全部为1,则表示所述法律文书不重复,将存在与法律文书集合中的法律文书进行重复判断三次,判断完成后进行筛选。
所述的法律信息重复率检测系统的检测方法,所述的步骤三的具体过程为:根据法律文书的案号及法律文书对应的法院信息,将生成的N个不同的随机数进行统计,将N个不同的随机数全部对应映射到预设数值范围内的N个自然数上,将布隆过滤器中与N个自然数对应的二进制位置全部置1,其中,N个自然数对应的二进制位置全部置1表示法律文书已插入布隆过滤器中,插入到布隆过滤器中的法律文书进行存储。
有益效果:
本发明通过过滤器过滤法律文书是否重复的目的,由于使用过滤器过滤,无需经过文书查找和比对阶段,从而实现了提高法律文书判重的计算效率低的技术效果。
本发明计算效率高,计算重复率准确度可达99%,计算准确率高,解决了链表机制来做法律文书是否重复的检测容易造成计算效率低的问题。
本发明布隆过滤器可以用于检索一个元素是否在一个集合中,将其应用于文书是否重复的判定流程,则可以检索一篇文书是否在一个法律文书库中,其优点在于控件效率和查询时间都远远超过一般的算法。
附图说明:
附图1是本发明的系统原理图;
图中:1、获取模块;2、生成模块;3、第一映射模块;4、过滤模块;5、统计模块;6、判断模块;7、第二映射模块;8、插入模块;9、置位模块;10、存储模块。
具体实施方式:
实施例1:
一种法律信息重复率检测系统,其组成包括:获取模块1、判断模块6、插入模块8和存储模块10,所述的获取模块与所述的判断模块电连接,所述的判断模块与所述的插入模块电连接,所述的插入模块与所述的存储模块电连接;
所述的判断模块包括生成模块2、第一映射模块3和过滤模块4,所述的生成模块与所述的第一映射模块电连接,所述的第一映射模块与所述的过滤模块电连接。
实施例2:
根据实施例1所述的法律信息重复率检测系统,所述的插入模块包括统计模块5、第二映射模块7和置位模块9,所述的统计模块与所述的第二映射模块电连接,所述的第二映射模块与所述的置位模块电连接。
实施例3:
一种实施例1-2所述的法律信息重复率检测系统的检测方法,该方法包括如下步骤:
(1)获取待检测的法律文书的案号及法律文书对应的法院信息;
(2)根据案号和法院信息,判断法律文书是否存在于过滤器中,过滤器用于检索一篇法律文书是否已经在一个法律文书集合中,在判断出所述法律文书不存在于所述过滤器中的情况下,确定文书库中不存在与所述法律文书重复的文书,将存在与法律文书集合中的法律文书进行重复判断三次;
(3)将所述法律文书对应的标识插入所述过滤器中并进行存储。
实施例4:
根据实施例3所述的法律信息重复率检测系统的检测方法,所述的步骤二的具体过程为:根据所述案号和所述法院信息,生成N个不同的随机数,判断所述布隆过滤器中与所述N个自然数对应的二进制位置是否全部为1,其中,若全部为1,则表示所述法律文书重复,若不全部为1,则表示所述法律文书不重复,将存在与法律文书集合中的法律文书进行重复判断三次,判断完成后进行筛选。
实施例5:
根据实施例3所述的法律信息重复率检测系统的检测方法,所述的步骤三的具体过程为:根据法律文书的案号及法律文书对应的法院信息,将生成的N个不同的随机数进行统计,将N个不同的随机数全部对应映射到预设数值范围内的N个自然数上,将布隆过滤器中与N个自然数对应的二进制位置全部置1,其中,N个自然数对应的二进制位置全部置1表示法律文书已插入布隆过滤器中,插入到布隆过滤器中的法律文书进行存储。
获取法律文书的方式可以包括通过网络爬虫等方式。此处,法律文书可以包括但不限于判决文书,裁定文书,诉讼文书等。在获取某一篇法律文书之后,可以先确定该文书的案号,再根据该案号判断该文书是否已经存在于过滤器中,即是否已经插入该过滤器中了,由于法院等司法机关立案或者作出任何判决、裁定决定后,为了便于登记和识别,都会给相应的文书分配一个案号,因此,将案号作为文书的标识,并使得过滤器基于该标识进行重复检索,可以确定某一篇文书是否已经在一个法律文书集合中了。若否,则确定文书库中还没有与本次获取的文书重复的文书,因此,可以将本次获取的文书入库;若是,则确定文书库中已经有与本次获取的文书重复的文书了,而如果再将本次获取的这篇文书入库,则必然会导致文书库存在重复文书,不仅占用大量空间,而且会导致数据冗余,甚至导致后续数据查询出错,因此,在这种情况下,是不希望再次将该文书入库的。
与基于链表机制判重的技术方案相比,使用过滤器进行过滤,进而对文书进行判重处理,无需逐一查找已经存储的文书,也无需与找到的文书进行一一比对,提高了工作效率,节约了工作时间,达到了快速、高效地判断文书是否重复的目的。
Claims (5)
1.一种法律信息重复率检测系统,其组成包括:获取模块、判断模块、插入模块和存储模块,其特征是:所述的获取模块与所述的判断模块电连接,所述的判断模块与所述的插入模块电连接,所述的插入模块与所述的存储模块电连接;
所述的判断模块包括生成模块、第一映射模块和过滤模块,所述的生成模块与所述的第一映射模块电连接,所述的第一映射模块与所述的过滤模块电连接。
2.根据权利要求1所述的法律信息重复率检测系统,其特征是:所述的插入模块包括统计模块、第二映射模块和置位模块,所述的统计模块与所述的第二映射模块电连接,所述的第二映射模块与所述的置位模块电连接。
3.一种权利要求1-2所述的法律信息重复率检测系统的检测方法,其特征是:该方法包括如下步骤:
(1)获取待检测的法律文书的案号及法律文书对应的法院信息;
(2)根据案号和法院信息,判断法律文书是否存在于过滤器中,过滤器用于检索一篇法律文书是否已经在一个法律文书集合中,在判断出所述法律文书不存在于所述过滤器中的情况下,确定文书库中不存在与所述法律文书重复的文书,将存在与法律文书集合中的法律文书进行重复判断三次;
(3)将所述法律文书对应的标识插入所述过滤器中并进行存储。
4.根据权利要求3所述的法律信息重复率检测系统的检测方法,其特征是:所述的步骤二的具体过程为:根据所述案号和所述法院信息,生成N个不同的随机数,判断所述布隆过滤器中与所述N个自然数对应的二进制位置是否全部为1,其中,若全部为1,则表示所述法律文书重复,若不全部为1,则表示所述法律文书不重复,将存在与法律文书集合中的法律文书进行重复判断三次,判断完成后进行筛选。
5.根据权利要求3所述的法律信息重复率检测系统的检测方法,其特征是:所述的步骤三的具体过程为:根据法律文书的案号及法律文书对应的法院信息,将生成的N个不同的随机数进行统计,将N个不同的随机数全部对应映射到预设数值范围内的N个自然数上,将布隆过滤器中与N个自然数对应的二进制位置全部置1,其中,N个自然数对应的二进制位置全部置1表示法律文书已插入布隆过滤器中,插入到布隆过滤器中的法律文书进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811041205.9A CN109446489A (zh) | 2018-09-11 | 2018-09-11 | 法律信息重复率检测系统及检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811041205.9A CN109446489A (zh) | 2018-09-11 | 2018-09-11 | 法律信息重复率检测系统及检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109446489A true CN109446489A (zh) | 2019-03-08 |
Family
ID=65530371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811041205.9A Pending CN109446489A (zh) | 2018-09-11 | 2018-09-11 | 法律信息重复率检测系统及检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446489A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134547A (zh) * | 2019-04-28 | 2019-08-16 | 平安科技(深圳)有限公司 | 一种基于中间件的重复数据删除方法和相关装置 |
CN111429724A (zh) * | 2020-04-23 | 2020-07-17 | 安徽大学 | 一种交通数据去重获取方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784022A (zh) * | 2016-08-31 | 2018-03-09 | 北京国双科技有限公司 | 检测法律文书是否重复的方法及装置 |
CN108255877A (zh) * | 2016-12-29 | 2018-07-06 | 北京国双科技有限公司 | 裁判文书的存储方法及装置 |
-
2018
- 2018-09-11 CN CN201811041205.9A patent/CN109446489A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784022A (zh) * | 2016-08-31 | 2018-03-09 | 北京国双科技有限公司 | 检测法律文书是否重复的方法及装置 |
CN108255877A (zh) * | 2016-12-29 | 2018-07-06 | 北京国双科技有限公司 | 裁判文书的存储方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134547A (zh) * | 2019-04-28 | 2019-08-16 | 平安科技(深圳)有限公司 | 一种基于中间件的重复数据删除方法和相关装置 |
CN110134547B (zh) * | 2019-04-28 | 2023-08-18 | 平安科技(深圳)有限公司 | 一种基于中间件的重复数据删除方法和相关装置 |
CN111429724A (zh) * | 2020-04-23 | 2020-07-17 | 安徽大学 | 一种交通数据去重获取方法 |
CN111429724B (zh) * | 2020-04-23 | 2022-02-15 | 安徽大学 | 一种交通数据去重获取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104331446B (zh) | 一种基于内存映射的海量数据预处理方法 | |
CN101882163A (zh) | 一种基于匹配规则的模糊中文地址地理赋值方法 | |
CN108062484A (zh) | 一种基于数据敏感特征和数据库元数据的分类分级方法 | |
CN103488709A (zh) | 一种索引建立方法及系统、检索方法及系统 | |
CN111651474B (zh) | 一种自然语言至结构化查询语言的转换方法及系统 | |
CN107463711A (zh) | 一种数据的标签匹配方法及装置 | |
CN106326475A (zh) | 一种高效的静态哈希表实现方法及系统 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN109254964A (zh) | 地址标准化方法、装置、计算机设备和存储介质 | |
CN104252507B (zh) | 一种企业数据匹配方法和装置 | |
CN101751475B (zh) | 号段记录压缩方法及其装置 | |
PT1288792E (pt) | Método para indexar automaticamente documentos | |
CN102169491B (zh) | 一种多数据集中重复记录动态检测方法 | |
CN109446489A (zh) | 法律信息重复率检测系统及检测方法 | |
CN109800416A (zh) | 一种电力设备名称识别方法 | |
CN103336771A (zh) | 基于滑动窗口的数据相似检测方法 | |
CN107577744A (zh) | 非标地址自动匹配模型、匹配方法以及模型建立方法 | |
CN117556369B (zh) | 一种动态生成的残差图卷积神经网络的窃电检测方法及系统 | |
CN109783586B (zh) | 基于聚类重采样的水军评论检测方法 | |
CN106599238A (zh) | 横向关联家系调查方法及系统 | |
Li et al. | A novel approach to remote sensing image retrieval with multi-feature VP-tree indexing and online feature selection | |
CN116010831A (zh) | 一种基于潜在决策结果的组合聚类场景缩减方法及系统 | |
CN105573984A (zh) | 社会经济指标的识别方法及装置 | |
CN110502441B (zh) | 基于vba的dcs单体测试用例自动生成方法 | |
CN107784022A (zh) | 检测法律文书是否重复的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190308 |