CN108073564B - 法院名称的统计方法及装置 - Google Patents
法院名称的统计方法及装置 Download PDFInfo
- Publication number
- CN108073564B CN108073564B CN201610987291.7A CN201610987291A CN108073564B CN 108073564 B CN108073564 B CN 108073564B CN 201610987291 A CN201610987291 A CN 201610987291A CN 108073564 B CN108073564 B CN 108073564B
- Authority
- CN
- China
- Prior art keywords
- court
- name
- standard
- court name
- names
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种法院名称的统计方法及装置。该方法包括:对目标裁判文书的内容进行解析,得到待处理的法院名称集合;通过法院名称数据库对待处理的法院名称集合进行区分,区分出待处理的法院名称集合中标准的法院名称和非标准的法院名称;分别对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称;以及根据待处理的法院名称集合中标准的法院名称和非标准的法院名称对应的标准的法院名称,对目标裁判文书中的法院名称进行统计。通过本申请,解决了相关技术中统计裁判文书中的法院名称的准确性较低的问题。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种法院名称的统计方法及装置。
背景技术
在裁判文书的内容中,法院名称是其中一个很重要的维度。在当前司法大数据的背景下,法院名称作为一个需要剖析的维度对司法数据的统计有着重大影响。
相关技术中统计法院名称的方法,是直接从裁判文书中进行解析获取进行统计。然而具有以下问题:(1)同一个法院在不同的文书中有不同的描述,比如:“河北省石家庄市中级人民法院”和“石家庄市中级人民法院”,两者描述的是一个法院,但是在进行维度剖析的时候会被作为两个法院进行统计;(2)法院名称改变,比如:“长清县人民法院”改名为“济南市长清区人民法院”,两者描述的也是同一个法院,但是在进行维度剖析的时候也会被作为两个法院进行统计;(3)文书本身对法院名称的描述有误,比如:“北京市第一中级人民法院”被描述为“北京市第一中级人法院”等,两者描述的也是同一个法院,但是在进行维度剖析的时候也会被作为两个法院进行统计。因此,导致统计裁判文书中的法院名称的准确性较低。
针对相关技术中统计裁判文书中的法院名称的准确性较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种法院名称的统计方法及装置,以解决相关技术中统计裁判文书中的法院名称的准确性较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种法院名称的统计方法。该方法包括:对目标裁判文书的内容进行解析,得到待处理的法院名称集合;通过法院名称数据库对待处理的法院名称集合进行区分,区分出待处理的法院名称集合中标准的法院名称和非标准的法院名称,其中,法院名称数据库包括多个标准的法院名称和多个标准的法院名称的代码,每个标准的法院名称的代码与每个标准的法院名称的代码存在对应关系;分别对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称;以及根据待处理的法院名称集合中标准的法院名称和非标准的法院名称对应的标准的法院名称,对目标裁判文书中的法院名称进行统计。
进一步地,分别对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称包括:按照预设规则对法院名称数据库中存储的标准的法院名称进行分词处理,得到第一区域标识类词语集合和第一法院名称标识类词语集合,其中,第一区域标识类词语集合中包括多个第一区域标识类词语,第一法院名称标识类词语集合中包括多个第一法院名称标识类词语,第一法院名称标识类词语与第一区域标识类词语之间存在对应关系;分别根据第一区域标识类词语集合和第一法院名称标识类词语集合对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称。
进一步地,分别根据第一区域标识类词语集合和第一法院名称标识类词语集合对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称包括:按照预设规则对待处理的法院名称集合中每个非标准的法院名称进行分词处理,得到第二区域标识类词语集合和第二法院名称标识类词语集合,其中,第二区域标识类词语集合中包括多个第二区域标识类词语,第二法院名称标识类词语集合中包括多个第二法院名称标识类词语,第二法院名称标识类词语与第二区域标识类词语之间存在对应关系;分别将第二法院名称标识类词语集合中每个第二法院名称标识类词语与第一法院名称标识类词语集合中每个第一法院名称标识类词语进行第一匹配操作;如果存在第二法院名称标识类词语与第一法院名称标识类词语匹配成功,则将匹配成功的第二法院名称标识类词语对应的第二区域标识类词语与匹配成功的第一法院名称标识类词语对应的第一区域标识类词语进行第二匹配操作;如果第二匹配操作成功,识别出第二区域标识类词语与第二法院名称标识类词语对应的非标准的法院名称为第一区域标识类词语与第一法院名称标识类词语对应的标准的法院名称。
进一步地,在分别将第二法院名称标识类词语集合中每个第二法院名称标识类词语与第一法院名称标识类词语集合中每个第一法院名称标识类词语进行第一匹配操作之后,该方法还包括:如果第一匹配操作失败,查找匹配失败原因;将查找出的匹配失败原因纪录在日志中;以及按照预设时间周期根据日志中纪录的匹配失败原因对法院名称数据库进行更新,其中,在匹配失败原因指示法院名称数据库中未记录非标准的法院名称时,向法院名称数据库中增添非标准的法院名称。
进一步地,在对目标裁判文书的内容进行解析,得到待处理的法院名称集合之前,该方法还包括:对与标准的法院名称的同义词进行规范化处理,统一为标准的法院名称,和/或,对与标准的法院名称的常见描述性错误的词进行规范化处理,统一为标准的法院名称。
为了实现上述目的,根据本申请的另一方面,提供了一种法院名称的统计装置。该装置包括:解析单元,用于对目标裁判文书的内容进行解析,得到待处理的法院名称集合;区分单元,用于通过法院名称数据库对待处理的法院名称集合进行区分,区分出待处理的法院名称集合中标准的法院名称和非标准的法院名称,其中,法院名称数据库包括多个标准的法院名称和多个标准的法院名称的代码,每个标准的法院名称的代码与每个标准的法院名称的代码存在对应关系;第一处理单元,用于分别对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称;以及统计单元,用于根据待处理的法院名称集合中标准的法院名称和非标准的法院名称对应的标准的法院名称,对目标裁判文书中的法院名称进行统计。
进一步地,第一处理单元还包括:第一处理模块,用于按照预设规则对法院名称数据库中存储的标准的法院名称进行分词处理,得到第一区域标识类词语集合和第一法院名称标识类词语集合,其中,第一区域标识类词语集合中包括多个第一区域标识类词语,第一法院名称标识类词语集合中包括多个第一法院名称标识类词语,第一法院名称标识类词语与第一区域标识类词语之间存在对应关系;第二处理模块,用于分别根据第一区域标识类词语集合和第一法院名称标识类词语集合对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称。
进一步地,第二处理模块还包括:第一处理子模块,用于按照预设规则对待处理的法院名称集合中每个非标准的法院名称进行分词处理,得到第二区域标识类词语集合和第二法院名称标识类词语集合,其中,第二区域标识类词语集合中包括多个第二区域标识类词语,第二法院名称标识类词语集合中包括多个第二法院名称标识类词语,第二法院名称标识类词语与第二区域标识类词语之间存在对应关系;第一匹配子模块,用于分别将第二法院名称标识类词语集合中每个第二法院名称标识类词语与第一法院名称标识类词语集合中每个第一法院名称标识类词语进行第一匹配操作;第二匹配子模块,用于在存在第二法院名称标识类词语与第一法院名称标识类词语匹配成功的情况下,则将匹配成功的第二法院名称标识类词语对应的第二区域标识类词语与匹配成功的第一法院名称标识类词语对应的第一区域标识类词语进行第二匹配操作;识别子模块,用于在第二匹配操作成功的情况下,识别出第二区域标识类词语与第二法院名称标识类词语对应的非标准的法院名称为第一区域标识类词语与第一法院名称标识类词语对应的标准的法院名称。
进一步地,该装置还包括:查找单元,用于在分别将第二法院名称标识类词语集合中每个第二法院名称标识类词语与第一法院名称标识类词语集合中每个第一法院名称标识类词语进行第一匹配操作之后,在第一匹配操作失败的情况下,查找匹配失败原因;记录单元,用于将查找出的匹配失败原因纪录在日志中;以及更新单元,用于按照预设时间周期根据日志中纪录的匹配失败原因对法院名称数据库进行更新,其中,在匹配失败原因指示法院名称数据库中未记录非标准的法院名称时,向法院名称数据库中增添非标准的法院名称。
进一步地,该装置还包括:第二处理单元,用于在对目标裁判文书的内容进行解析,得到待处理的法院名称集合之前,对与标准的法院名称的同义词进行规范化处理,统一为标准的法院名称,和/或,第三处理单元,用于对与标准的法院名称的常见描述性错误的词进行规范化处理,统一为标准的法院名称。
通过本申请,采用以下步骤:对目标裁判文书的内容进行解析,得到待处理的法院名称集合;通过法院名称数据库对待处理的法院名称集合进行区分,区分出待处理的法院名称集合中标准的法院名称和非标准的法院名称,其中,法院名称数据库包括多个标准的法院名称和多个标准的法院名称的代码,每个标准的法院名称的代码与每个标准的法院名称的代码存在对应关系;分别对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称;以及根据待处理的法院名称集合中标准的法院名称和非标准的法院名称对应的标准的法院名称,对目标裁判文书中的法院名称进行统计,解决了相关技术中统计裁判文书中的法院名称的准确性较低的问题。由于将非标准的法院名称识别为对应的标准的法院名称,进而达到了提高统计裁判文书中的法院名称的准确性的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的法院名称的统计方法的流程图;以及
图2是根据本申请实施例的法院名称的统计装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
标准的法院名称,例如,河北省石家庄市中级人民法院、北京市第一中级人民法院等等为标准的法院名称。
非标准的法院名称,例如,石家庄市中级人民法院、北京市第一中级人法院等等为非标准的法院名称。
根据本申请的实施例,提供了一种法院名称的统计方法。
图1是根据本申请实施例的法院名称的统计方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,对目标裁判文书的内容进行解析,得到待处理的法院名称集合。
由于一些业务需要,存在统计目标裁判文书中法院名称的需求时,对目标裁判文书的内容进行解析,得到多个待处理的法院名称,多个待处理的法院名称中包括标准的法院名称和非标准的法院名称,在本申请中将多个待处理的法院名称作为待处理的法院名称集合。
步骤S102,通过法院名称数据库对待处理的法院名称集合进行区分,区分出待处理的法院名称集合中标准的法院名称和非标准的法院名称,其中,法院名称数据库包括多个标准的法院名称和多个标准的法院名称的代码,每个标准的法院名称的代码与每个标准的法院名称的代码存在对应关系。
在本申请中的法院名称数据库是根据相关技术中所有的标准的法院名称和其对应的代码创建的数据库,例如,从“09法标”和“15各级法院代字表”中提取标准的法院名称和其代码,创建法院名称数据库。具体的,以“15各级法院代字表”为标准,“09法标”作为补充,即若“09法标”中存在“15各级法院代字表”中未统计的法院名称,则进行补充。如果“09法标”中不存在“15各级法院代字表”中未统计的法院名称,从其它资料中再寻找“15各级法院代字表”中未统计的法院名称和其代码。
由于多个待处理的法院名称中包括标准的法院名称和非标准的法院名称,通过法院名称数据库对待处理的法院名称集合进行区分,区分出待处理的法院名称集合中标准的法院名称和非标准的法院名称。在后续步骤中,将对待处理的法院名称集合中非标准的法院名称进行处理。
步骤S103,分别对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称。
为了提高统计裁判文书中的法院名称的准确性,在本申请中,将非标准的法院名称识别为对应的标准的法院名称。
可选地,在本申请实施例提供的法院名称的统计方法中,在对目标裁判文书的内容进行解析,得到待处理的法院名称集合之前,该方法还包括:对与标准的法院名称的同义词进行规范化处理,统一为标准的法院名称,和/或,对与标准的法院名称的常见描述性错误的词进行规范化处理,统一为标准的法院名称。
例如,对北京市第二中级人法院进行规范化处理,得到对应的标准的法院名称:北京市第二中级人民法院;对长清县人民法院进行规范化处理,得到对应的标准的法院名称:济南市长清区人民法院,将历史的非标准的法院名称词:北京市第二中级人法院、长清县人民法院等等和其对应的标准的法院名称都存储在法院名称数据库中,历史的非标准的法院名称词与其对应的标准的法院名称之间存在对应关系。也即,法院名称数据库中存储有标准的法院名称,还有历史的非标准的法院名称词。
可选地,在本申请实施例提供的法院名称的统计方法中,分别对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称包括:按照预设规则对法院名称数据库中存储的标准的法院名称进行分词处理,得到第一区域标识类词语集合和第一法院名称标识类词语集合,其中,第一区域标识类词语集合中包括多个第一区域标识类词语,第一法院名称标识类词语集合中包括多个第一法院名称标识类词语,第一法院名称标识类词语与第一区域标识类词语之间存在对应关系;分别根据第一区域标识类词语集合和第一法院名称标识类词语集合对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称。
具体地,按照预设规则对法院名称数据库中存储的标准的法院名称进行分词处理,得到第一区域标识类词语集合和第一法院名称标识类词语集合,第一区域标识类词语集合中存储的,“北京”、“石景山”、“海淀”、“省”、“市”、“区”、“县”等等表示区域标识类词语。第一法院名称标识类词语集合中存储的,“第一中级人民法院”、“第二中级人民法院”、“高级人民法院”等等表示法院名称标识类词语。需要说明的是,第一法院名称标识类词语与第一区域标识类词语之间存在对应关系。例如,按照预设规则对“北京市海淀区人民法院”进行分词处理后,得到第一区域标识类词语为“北京市海淀区”,第一区域标识类词语对应的第一法院名称标识类词语为“人民法院”。再例如,按照预设规则对“北京市第二中级人民法院”进行分词处理后,得到第一区域标识类词语为“北京市”,第一区域标识类词语对应的第一法院名称标识类词语为“第二中级人民法院”。分别根据分词处理后的第一区域标识类词语集合和第一法院名称标识类词语集合对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称。
可选地,在本申请实施例提供的法院名称的统计方法中,分别根据第一区域标识类词语集合和第一法院名称标识类词语集合对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称包括:按照预设规则对待处理的法院名称集合中每个非标准的法院名称进行分词处理,得到第二区域标识类词语集合和第二法院名称标识类词语集合,其中,第二区域标识类词语集合中包括多个第二区域标识类词语,第二法院名称标识类词语集合中包括多个第二法院名称标识类词语,第二法院名称标识类词语与第二区域标识类词语之间存在对应关系;分别将第二法院名称标识类词语集合中每个第二法院名称标识类词语与第一法院名称标识类词语集合中每个第一法院名称标识类词语进行第一匹配操作;如果存在第二法院名称标识类词语与第一法院名称标识类词语匹配成功,则将匹配成功的第二法院名称标识类词语对应的第二区域标识类词语与匹配成功的第一法院名称标识类词语对应的第一区域标识类词语进行第二匹配操作;如果第二匹配操作成功,识别出第二区域标识类词语与第二法院名称标识类词语对应的非标准的法院名称为第一区域标识类词语与第一法院名称标识类词语对应的标准的法院名称。
具体地,按照预设规则对待处理的法院名称集合中每个非标准的法院名称进行分词处理,得到第二区域标识类词语集合和第二法院名称标识类词语集合,第二区域标识类词语集合中存储的,“北京”、“石景山”、“海淀”、“省”、“市”、“区”、“县”等等表示区域标识类词语。需要说明的是,第二区域标识类词语集合中的区域标识类词语可以分为两类:一类是表示区域的词,比如“北京”、“石景山”、“海淀”等;二类是表示区域范围的词,比如“省”、“市”、“区”、“县”等。在匹配过程中用的是一类,二类是过滤掉的,不用于匹配。因此“长清区”和”长清”、“县”才能匹配。第二法院名称标识类词语集合中存储的,“第一中级人法院”、“中人民法院”、“高人法院”等等表示法院名称标识类词语。需要说明的是,第二法院名称标识类词语与第二区域标识类词语之间存在对应关系。例如,按照预设规则对非标准的法院名称“北京市海淀区人法院”进行分词处理后,得到第二区域标识类词语为“北京市海淀区”,第二区域标识类词语对应的第二法院名称标识类词语为“人法院”。再例如,按照预设规则对非标准的法院名称“北京市第二中级人法院”进行分词处理后,得到第二区域标识类词语为“北京”、“市”,第二区域标识类词语对应的第二法院名称标识类词语为“第二中级人法院”。
分别将第二法院名称标识类词语集合中每个第二法院名称标识类词语与第一法院名称标识类词语集合中每个第一法院名称标识类词语进行第一匹配操作;具体地,例如,待处理的法院名称集合中非标准的法院名称为:“长清县人民法院”(第二法院名称标识类词语为“人民法院”,第二法院名称标识类词语为“人民法院”对应的第二区域标识类词语“长清”、“县”),将第二法院名称标识类词语为“人民法院”与第一法院名称标识类词语集合中第一法院名称标识类词语进行第一匹配操作,如果,第二法院名称标识类词语为“人民法院”与第一法院名称标识类词语集合中第一法院名称标识类词语“人民法院”匹配成功,(本申请中的第一匹配操作为严格匹配,词和词的位置必须完全一致),再将第二法院名称标识类词语为“人民法院”对应的第二区域标识类词语”长清”、“县”与第一法院名称标识类词语集合中第一法院名称标识类词语“人民法院”对应的第一区域标识类词语进行第二匹配操作(本申请中的第二匹配操作为近似匹配,例如,“济南市长清县”可以近似匹配为“济南市长清区”),如果第二匹配操作成功,识别出第二区域标识类词语与第二法院名称标识类词语对应的“长清县人民法院”为第一区域标识类词语与第一法院名称标识类词语对应的“济南市长清区人民法院”,然后将“济南市长清区人民法院”对应的代码对“长清县人民法院”进行编码,得到“长清县人民法院”的代码,以便后续对法院名称进行统计。
再例如,在法院名称数据库中遍历分别进行匹配,匹配方式为:首先将法院名称标识类词语进行第一匹配,采用严格匹配,即词和词的位置必须严格匹配;然后匹配区域标识类词语,采用近似匹配方式进行第二匹配(逆序匹配),假设待处理的法院名称集合中的非标准的法院名称分词后得到区域标识类词语为A=[w1,w2,…,wn],法院名称数据库中的逆序词为B=[r1,r2,…,rm],若满足或 则表示匹配,否则不匹配。遍历法院名称数据库后,若找到匹配的标准法院名称,则用标准法院的代码对解析得到的待处理的法院名称集合中的非标准的法院名称进行编码,若未找到匹配的标准法院,则编码失败,写入日志进行记录,查看失败原因,对法院名称数据库进行相应扩展。
可选地,在本申请实施例提供的法院名称的统计方法中,在分别将第二法院名称标识类词语集合中每个第二法院名称标识类词语与第一法院名称标识类词语集合中每个第一法院名称标识类词语进行第一匹配操作之后,该方法还包括:如果第一匹配操作失败,查找匹配失败原因;将查找出的匹配失败原因纪录在日志中;以及按照预设时间周期根据日志中纪录的匹配失败原因对法院名称数据库进行更新,其中,在匹配失败原因指示法院名称数据库中未记录非标准的法院名称时,向法院名称数据库中增添非标准的法院名称。
例如,待处理的法院名称集合中非标准的法院名称为:“长清县人院”(第二法院名称标识类词语为“人院”,第二法院名称标识类词语为“人院”对应的第二区域标识类词语”长清”、“县”),将第二法院名称标识类词语为“人院”与第一法院名称标识类词语集合中第一法院名称标识类词语进行第一匹配操作,如果,匹配操作失败,查找出匹配失败原因为未记录“人院”时,向法院名称数据库中增添“人院”。
步骤S104,根据待处理的法院名称集合中标准的法院名称和非标准的法院名称对应的标准的法院名称,对目标裁判文书中的法院名称进行统计。
可选地,在本申请实施例提供的法院名称的统计方法中,根据待处理的法院名称集合中标准的法院名称和非标准的法院名称对应的标准的法院名称,对目标裁判文书中的法院名称进行统计包括:根据法院名称数据库中存储的多个标准的法院名称的代码获取待处理的法院名称集合中标准的法院名称对应的代码,得到待处理的法院名称集合中标准的法院名称的代码集合;获取非标准的法院名称对应的标准的法院名称的代码;根据待处理的法院名称集合中标准的法院名称的代码集合和非标准的法院名称对应的标准的法院名称的代码对目标裁判文书中的法院名称进行统计。
通过对解析得到的法院名称进行规范化编码,得到非标准的法院名称对应的标准的法院名称的代码,再根据对法院名称的编码结果(待处理的法院名称集合中标准的法院名称的代码集合和非标准的法院名称对应的标准的法院名称的代码,例如:标准的法院名称,北京市第一中级人民法院,其代码为:京01;非标准的法院名称,北京市第一中级人法院,其代码为:京01),对裁判文书中的法院名称进行统计,从而提高的准确性得到提高统计裁判文书中法院名称的准确性。
本申请实施例提供的法院名称的统计方法,通过对目标裁判文书的内容进行解析,得到待处理的法院名称集合;通过法院名称数据库对待处理的法院名称集合进行区分,区分出待处理的法院名称集合中标准的法院名称和非标准的法院名称,其中,法院名称数据库包括多个标准的法院名称和多个标准的法院名称的代码,每个标准的法院名称的代码与每个标准的法院名称的代码存在对应关系;分别对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称;以及根据待处理的法院名称集合中标准的法院名称和非标准的法院名称对应的标准的法院名称,对目标裁判文书中的法院名称进行统计,解决了相关技术中统计裁判文书中的法院名称的准确性较低的问题。由于将非标准的法院名称识别为对应的标准的法院名称,进而达到了提高统计裁判文书中的法院名称的准确性的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种法院名称的统计装置,需要说明的是,本申请实施例的法院名称的统计装置可以用于执行本申请实施例所提供的用于法院名称的统计方法。以下对本申请实施例提供的法院名称的统计装置进行介绍。
图2是根据本申请实施例的法院名称的统计装置的示意图。如图2所示,该装置包括:解析单元10、区分单元20、第一处理单元30和统计单元40。
具体地,解析单元10,用于对目标裁判文书的内容进行解析,得到待处理的法院名称集合。
区分单元20,用于通过法院名称数据库对待处理的法院名称集合进行区分,区分出待处理的法院名称集合中标准的法院名称和非标准的法院名称,其中,法院名称数据库包括多个标准的法院名称和多个标准的法院名称的代码,每个标准的法院名称的代码与每个标准的法院名称的代码存在对应关系。
第一处理单元30,用于分别对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称。
统计单元40,用于根据待处理的法院名称集合中标准的法院名称和非标准的法院名称对应的标准的法院名称,对目标裁判文书中的法院名称进行统计。
可选地,在本申请实施例提供的法院名称的统计装置中,第一处理单元30还包括:第一处理模块,用于按照预设规则对法院名称数据库中存储的标准的法院名称进行分词处理,得到第一区域标识类词语集合和第一法院名称标识类词语集合,其中,第一区域标识类词语集合中包括多个第一区域标识类词语,第一法院名称标识类词语集合中包括多个第一法院名称标识类词语,第一法院名称标识类词语与第一区域标识类词语之间存在对应关系;第二处理模块,用于分别根据第一区域标识类词语集合和第一法院名称标识类词语集合对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称。
可选地,在本申请实施例提供的法院名称的统计装置中,第二处理模块还包括:第一处理子模块,用于按照预设规则对待处理的法院名称集合中每个非标准的法院名称进行分词处理,得到第二区域标识类词语集合和第二法院名称标识类词语集合,其中,第二区域标识类词语集合中包括多个第二区域标识类词语,第二法院名称标识类词语集合中包括多个第二法院名称标识类词语,第二法院名称标识类词语与第二区域标识类词语之间存在对应关系;第一匹配子模块,用于分别将第二法院名称标识类词语集合中每个第二法院名称标识类词语与第一法院名称标识类词语集合中每个第一法院名称标识类词语进行第一匹配操作;第二匹配子模块,用于在存在第二法院名称标识类词语与第一法院名称标识类词语匹配成功的情况下,则将匹配成功的第二法院名称标识类词语对应的第二区域标识类词语与匹配成功的第一法院名称标识类词语对应的第一区域标识类词语进行第二匹配操作;识别子模块,用于在第二匹配操作成功的情况下,识别出第二区域标识类词语与第二法院名称标识类词语对应的非标准的法院名称为第一区域标识类词语与第一法院名称标识类词语对应的标准的法院名称。
可选地,在本申请实施例提供的法院名称的统计装置中,该装置还包括:查找单元,用于在分别将第二法院名称标识类词语集合中每个第二法院名称标识类词语与第一法院名称标识类词语集合中每个第一法院名称标识类词语进行第一匹配操作之后,在第一匹配操作失败的情况下,查找匹配失败原因;记录单元,用于将查找出的匹配失败原因纪录在日志中;以及更新单元,用于按照预设时间周期根据日志中纪录的匹配失败原因对法院名称数据库进行更新,其中,在匹配失败原因指示法院名称数据库中未记录非标准的法院名称时,向法院名称数据库中增添非标准的法院名称。
可选地,在本申请实施例提供的法院名称的统计装置中,该装置还包括:第二处理单元,用于在对目标裁判文书的内容进行解析,得到待处理的法院名称集合之前,对与标准的法院名称的同义词进行规范化处理,统一为标准的法院名称,和/或,第三处理单元,用于对与标准的法院名称的常见描述性错误的词进行规范化处理,统一为标准的法院名称。
本申请实施例提供的法院名称的统计装置,通过解析单元10对目标裁判文书的内容进行解析,得到待处理的法院名称集合;区分单元20通过法院名称数据库对待处理的法院名称集合进行区分,区分出待处理的法院名称集合中标准的法院名称和非标准的法院名称,其中,法院名称数据库包括多个标准的法院名称和多个标准的法院名称的代码,每个标准的法院名称的代码与每个标准的法院名称的代码存在对应关系;第一处理单元30分别对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称;以及统计单元40根据待处理的法院名称集合中标准的法院名称和非标准的法院名称对应的标准的法院名称,对目标裁判文书中的法院名称进行统计,解决了相关技术中统计裁判文书中的法院名称的准确性较低的问题,由于第一处理单元30将非标准的法院名称识别为对应的标准的法院名称,进而达到了提高统计裁判文书中的法院名称的准确性的效果。
所述法院名称的统计装置包括处理器和存储器,上述解析单元10、区分单元20、第一处理单元30和统计单元40等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。上述预设规则、预设时间周期都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数统计法院名称。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:对目标裁判文书的内容进行解析,得到待处理的法院名称集合;通过法院名称数据库对待处理的法院名称集合进行区分,区分出待处理的法院名称集合中标准的法院名称和非标准的法院名称,其中,法院名称数据库包括多个标准的法院名称和多个标准的法院名称的代码,每个标准的法院名称的代码与每个标准的法院名称的代码存在对应关系;分别对待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出非标准的法院名称对应的标准的法院名称;以及根据待处理的法院名称集合中标准的法院名称和非标准的法院名称对应的标准的法院名称,对目标裁判文书中的法院名称进行统计,解决了相关技术中统计裁判文书中的法院名称的准确性较低的问题。由于将非标准的法院名称识别为对应的标准的法院名称,进而达到了提高统计裁判文书中的法院名称的准确性的效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种法院名称的统计方法,其特征在于,包括:
对目标裁判文书的内容进行解析,得到待处理的法院名称集合;
通过法院名称数据库对所述待处理的法院名称集合进行区分,区分出所述待处理的法院名称集合中标准的法院名称和非标准的法院名称,其中,所述法院名称数据库包括多个标准的法院名称和多个标准的法院名称的代码,每个标准的法院名称的代码与每个标准的法院名称的代码存在对应关系;
分别对所述待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出所述非标准的法院名称对应的标准的法院名称;以及
根据所述待处理的法院名称集合中标准的法院名称和所述非标准的法院名称对应的标准的法院名称,对所述目标裁判文书中的法院名称进行统计;
其中,分别对所述待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出所述非标准的法院名称对应的标准的法院名称包括:
按照预设规则对所述法院名称数据库中存储的标准的法院名称进行分词处理,得到第一区域标识类词语集合和第一法院名称标识类词语集合,其中,所述第一区域标识类词语集合中包括多个第一区域标识类词语,所述第一法院名称标识类词语集合中包括多个第一法院名称标识类词语,所述第一法院名称标识类词语与所述第一区域标识类词语之间存在对应关系;
分别根据所述第一区域标识类词语集合和所述第一法院名称标识类词语集合对所述待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出所述非标准的法院名称对应的标准的法院名称。
2.根据权利要求1所述的方法,其特征在于,分别根据所述第一区域标识类词语集合和所述第一法院名称标识类词语集合对所述待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出所述非标准的法院名称对应的标准的法院名称包括:
按照所述预设规则对所述待处理的法院名称集合中每个非标准的法院名称进行分词处理,得到第二区域标识类词语集合和第二法院名称标识类词语集合,其中,所述第二区域标识类词语集合中包括多个第二区域标识类词语,所述第二法院名称标识类词语集合中包括多个第二法院名称标识类词语,所述第二法院名称标识类词语与所述第二区域标识类词语之间存在对应关系;
分别将所述第二法院名称标识类词语集合中每个第二法院名称标识类词语与所述第一法院名称标识类词语集合中每个第一法院名称标识类词语进行第一匹配操作;
如果存在第二法院名称标识类词语与第一法院名称标识类词语匹配成功,则将匹配成功的所述第二法院名称标识类词语对应的第二区域标识类词语与匹配成功的所述第一法院名称标识类词语对应的第一区域标识类词语进行第二匹配操作;
如果所述第二匹配操作成功,识别出所述第二区域标识类词语与所述第二法院名称标识类词语对应的非标准的法院名称为所述第一区域标识类词语与所述第一法院名称标识类词语对应的标准的法院名称。
3.根据权利要求2所述的方法,其特征在于,在分别将所述第二法院名称标识类词语集合中每个第二法院名称标识类词语与所述第一法院名称标识类词语集合中每个第一法院名称标识类词语进行第一匹配操作之后,所述方法还包括:
如果所述第一匹配操作失败,查找匹配失败原因;
将查找出的匹配失败原因纪录在日志中;以及
按照预设时间周期根据所述日志中纪录的匹配失败原因对所述法院名称数据库进行更新,其中,在匹配失败原因指示所述法院名称数据库中未记录非标准的法院名称时,向所述法院名称数据库中增添所述非标准的法院名称。
4.根据权利要求1所述的方法,其特征在于,在对目标裁判文书的内容进行解析,得到待处理的法院名称集合之前,所述方法还包括:
对与所述标准的法院名称的同义词进行规范化处理,统一为所述标准的法院名称;和/或,
对与所述标准的法院名称的常见描述性错误的词进行规范化处理,统一为所述标准的法院名称。
5.一种法院名称的统计装置,其特征在于,包括:
解析单元,用于对目标裁判文书的内容进行解析,得到待处理的法院名称集合;
区分单元,用于通过法院名称数据库对所述待处理的法院名称集合进行区分,区分出所述待处理的法院名称集合中标准的法院名称和非标准的法院名称,其中,所述法院名称数据库包括多个标准的法院名称和多个标准的法院名称的代码,每个标准的法院名称的代码与每个标准的法院名称的代码存在对应关系;
第一处理单元,用于分别对所述待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出所述非标准的法院名称对应的标准的法院名称;以及
统计单元,用于根据所述待处理的法院名称集合中标准的法院名称和所述非标准的法院名称对应的标准的法院名称,对所述目标裁判文书中的法院名称进行统计;
其中,所述第一处理单元还包括:
第一处理模块,用于按照预设规则对所述法院名称数据库中存储的标准的法院名称进行分词处理,得到第一区域标识类词语集合和第一法院名称标识类词语集合,其中,所述第一区域标识类词语集合中包括多个第一区域标识类词语,所述第一法院名称标识类词语集合中包括多个第一法院名称标识类词语,所述第一法院名称标识类词语与所述第一区域标识类词语之间存在对应关系;
第二处理模块,用于分别根据所述第一区域标识类词语集合和所述第一法院名称标识类词语集合对所述待处理的法院名称集合中每个非标准的法院名称进行识别处理,识别出所述非标准的法院名称对应的标准的法院名称。
6.根据权利要求5所述的装置,其特征在于,所述第二处理模块还包括:
第一处理子模块,用于按照所述预设规则对所述待处理的法院名称集合中每个非标准的法院名称进行分词处理,得到第二区域标识类词语集合和第二法院名称标识类词语集合,其中,所述第二区域标识类词语集合中包括多个第二区域标识类词语,所述第二法院名称标识类词语集合中包括多个第二法院名称标识类词语,所述第二法院名称标识类词语与所述第二区域标识类词语之间存在对应关系;
第一匹配子模块,用于分别将所述第二法院名称标识类词语集合中每个第二法院名称标识类词语与所述第一法院名称标识类词语集合中每个第一法院名称标识类词语进行第一匹配操作;
第二匹配子模块,用于在存在第二法院名称标识类词语与第一法院名称标识类词语匹配成功的情况下,则将匹配成功的所述第二法院名称标识类词语对应的第二区域标识类词语与匹配成功的所述第一法院名称标识类词语对应的第一区域标识类词语进行第二匹配操作;
识别子模块,用于在所述第二匹配操作成功的情况下,识别出所述第二区域标识类词语与所述第二法院名称标识类词语对应的非标准的法院名称为所述第一区域标识类词语与所述第一法院名称标识类词语对应的标准的法院名称。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
查找单元,用于在分别将所述第二法院名称标识类词语集合中每个第二法院名称标识类词语与所述第一法院名称标识类词语集合中每个第一法院名称标识类词语进行第一匹配操作之后,在所述第一匹配操作失败的情况下,查找匹配失败原因;
记录单元,用于将查找出的匹配失败原因纪录在日志中;以及
更新单元,用于按照预设时间周期根据所述日志中纪录的匹配失败原因对所述法院名称数据库进行更新,其中,在匹配失败原因指示所述法院名称数据库中未记录非标准的法院名称时,向所述法院名称数据库中增添所述非标准的法院名称。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第二处理单元,用于在对目标裁判文书的内容进行解析,得到待处理的法院名称集合之前,对与所述标准的法院名称的同义词进行规范化处理,统一为所述标准的法院名称;和/或,
第三处理单元,用于对与所述标准的法院名称的常见描述性错误的词进行规范化处理,统一为所述标准的法院名称。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610987291.7A CN108073564B (zh) | 2016-11-09 | 2016-11-09 | 法院名称的统计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610987291.7A CN108073564B (zh) | 2016-11-09 | 2016-11-09 | 法院名称的统计方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108073564A CN108073564A (zh) | 2018-05-25 |
CN108073564B true CN108073564B (zh) | 2021-05-14 |
Family
ID=62153988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610987291.7A Active CN108073564B (zh) | 2016-11-09 | 2016-11-09 | 法院名称的统计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108073564B (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3639126B2 (ja) * | 1998-01-22 | 2005-04-20 | 富士通株式会社 | 住所認識装置及び住所認識方法 |
US8347202B1 (en) * | 2007-03-14 | 2013-01-01 | Google Inc. | Determining geographic locations for place names in a fact repository |
CN101350012B (zh) * | 2007-07-18 | 2013-01-16 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN102880647A (zh) * | 2012-08-24 | 2013-01-16 | 北京百度网讯科技有限公司 | 一种机构别称的获取方法和装置 |
CN103559177A (zh) * | 2013-11-12 | 2014-02-05 | 金蝶软件(中国)有限公司 | 一种地名识别方法及装置 |
CN104899213B (zh) * | 2014-03-06 | 2018-06-05 | 阿里巴巴集团控股有限公司 | 一种解析组织机构名的方法和装置 |
JP6252315B2 (ja) * | 2014-03-31 | 2017-12-27 | 富士通株式会社 | 場所検知装置、場所検知プログラムおよび場所検知方法 |
CN105740257A (zh) * | 2014-12-09 | 2016-07-06 | 朗新科技股份有限公司 | 标准地名地址库建立方法及系统 |
-
2016
- 2016-11-09 CN CN201610987291.7A patent/CN108073564B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108073564A (zh) | 2018-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108664538B (zh) | 一种输变电设备疑似家族性缺陷的自动辨识方法及系统 | |
CN106815207B (zh) | 用于法律裁判文书的信息处理方法及装置 | |
CN108491388B (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
GB2513472A (en) | Resolving similar entities from a database | |
CN107577663B (zh) | 一种关键短语抽取方法和装置 | |
US20170154056A1 (en) | Matching image searching method, image searching method and devices | |
CN110110325B (zh) | 一种重复案件查找方法和装置、计算机可读存储介质 | |
CN107729337B (zh) | 事件的监测方法和装置 | |
CN112511546A (zh) | 基于日志分析的漏洞扫描方法、装置、设备和存储介质 | |
CN110389941B (zh) | 数据库校验方法、装置、设备及存储介质 | |
US20150347493A1 (en) | System and method for processing data | |
CN110647562A (zh) | 一种数据查询方法和装置、电子设备、存储介质 | |
CN111383732B (zh) | 一种基于互斥识别的药品审核方法、装置、计算机系统及可读存储介质 | |
US10782942B1 (en) | Rapid onboarding of data from diverse data sources into standardized objects with parser and unit test generation | |
CN104252446A (zh) | 计算装置、文件内容一致性验证系统及方法 | |
CN108073564B (zh) | 法院名称的统计方法及装置 | |
CN107122394B (zh) | 异常数据检测方法和装置 | |
CN111553156B (zh) | 一种关键词提取方法、装置及设备 | |
CN105843890B (zh) | 基于知识库面向大数据及普通数据的数据采集方法和系统 | |
CN108073589B (zh) | 网页页面元素的获取方法及装置 | |
CN104699669A (zh) | 一种文本字数统计的方法及装置 | |
CN111898378A (zh) | 政企客户的行业分类方法和装置、电子设备、存储介质 | |
CN108763209B (zh) | 一种特征提取和风险识别的方法、装置及设备 | |
CN110598194A (zh) | 一种非满格表格内容提取方法、装置及终端设备 | |
KR20190071780A (ko) | 바코드 식별을 위한 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |