CN106815207A - 用于法律裁判文书的信息处理方法及装置 - Google Patents

用于法律裁判文书的信息处理方法及装置 Download PDF

Info

Publication number
CN106815207A
CN106815207A CN201510869588.9A CN201510869588A CN106815207A CN 106815207 A CN106815207 A CN 106815207A CN 201510869588 A CN201510869588 A CN 201510869588A CN 106815207 A CN106815207 A CN 106815207A
Authority
CN
China
Prior art keywords
content
text
preset rules
target
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510869588.9A
Other languages
English (en)
Other versions
CN106815207B (zh
Inventor
胡斌
杜宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510869588.9A priority Critical patent/CN106815207B/zh
Publication of CN106815207A publication Critical patent/CN106815207A/zh
Application granted granted Critical
Publication of CN106815207B publication Critical patent/CN106815207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种用于法律裁判文书的信息处理方法及装置。该方法包括:获取法律裁判文书的目标文本内容;检测目标文本内容中是否存在与第一预设规则相匹配的文本内容;如果检测出目标文本内容中存在与第一预设规则相匹配的文本内容,则根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词;以及将至少一个目标关键词存储至同一个关键词集合。通过本申请,解决了相关技术中从法律裁判文书中提取出的关键词无法体现关键词之间的相关性的技术问题。

Description

用于法律裁判文书的信息处理方法及装置
技术领域
本申请涉及文本处理领域,具体而言,涉及一种用于法律裁判文书的信息处理方法及装置。
背景技术
刑事法务工作者在处理案件时,往往需要对案件所涉及的罪名、刑罚判处类型、刑罚处罚量、判决所依据的法条等进行综合考虑,以在实际工作中将其作为工作参考数据。这些参考数据的来源一般是人民法院已经判决并公开的大量案件,通过对案件做大数据分析统计得出的结果。
相关技术中,在对案件做大数据分析统计时,会临时遍历所有案件相关的法律裁判文书,以取得案件中包含的关键词。由于人民法院审查判决的刑事案件中涉及到的刑罚信息点多、信息量大、内容复杂、表示多样化,并且判决依据的法条种类也较多,例如,刑事案由罪名种类繁多,依据不同罪名判处的刑罚类型不同且量刑也不同。因此,在利用该方法对法律裁判文书数据集查询数据时,由于对全文逐字查找,对服务器造成了很大的压力,并且耗时很长;临时查找出的结果无法体现关键词之间的相关性(例如刑罚信息之间的相关性),不利于进行大数据统计分析。
针对相关技术中从法律裁判文书中提取出的关键词无法体现关键词之间的相关性的技术问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种用于法律裁判文书的信息处理方法及装置,以至少解决相关技术中从法律裁判文书中提取出的关键词无法体现关键词之间的相关性的技术问题。
根据本申请实施例的一个方面,提供了一种用于法律裁判文书的信息处理方法。该方法包括:获取法律裁判文书的目标文本内容;检测目标文本内容中是否存在与第一预设规则相匹配的文本内容;如果检测出目标文本内容中存在与第一预设规则相匹配的文本内容,则根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词;以及将至少一个目标关键词存储至同一个关键词集合。
进一步地,检测目标文本内容中是否存在与第一预设规则相匹配的文本内容包括:判断目标文本内容是否满足以下条件:存在至少一个第一预设特征关键词,并且至少一个第一预设特征关键词位于预设位置,其中,如果判断出目标文本内容中存在至少一个第一预设特征关键词,并且至少一个第一预设特征关键词位于预设位置,则确定目标文本内容中存在与第一预设规则相匹配的文本内容。
进一步地,第一预设规则包括多个预设子规则,检测目标文本内容中是否存在与第一预设规则相匹配的文本内容包括:依次检测目标文本内容中是否存在与多个预设子规则相匹配的文本内容;以及将第一个检测到的存在相匹配的文本内容的预设子规则作为目标子规则,根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词包括:根据目标子规则提取目标文本内容中的至少一个目标关键词。
进一步地,在检测出目标文本内容中存在与第一预设规则相匹配的文本内容的情况下,在根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词之前,该方法还包括:检测与第一预设规则相匹配的文本内容是否与第二预设规则相匹配,其中,如果检测出与第一预设规则相匹配的文本内容与第二预设规则相匹配,则根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词。
进一步地,检测与第一预设规则相匹配的文本内容是否与第二预设规则相匹配包括:检测与第一预设规则相匹配的文本内容中的第二预设特征关键词的词性是否为预设词性,其中,第二预设特征关键词是按照第三预设规则将与第一预设规则相匹配的文本内容进行拆分得到的关键词,其中,如果检测出与第一预设规则相匹配的文本内容中的第二预设特征关键词的词性为预设词性,则确定与第一预设规则相匹配的文本内容与第二预设规则相匹配。
进一步地,在将至少一个目标关键词存储至同一个关键词集合之前,该方法还包括:将至少一个目标关键词中的非阿拉伯数字形式的数字转换为阿拉伯数字形式,其中,将转换为阿拉伯数字形式的数字存储至同一个关键词集合。
根据本申请实施例的另一方面,还提供了一种用于法律裁判文书的信息处理装置。该装置包括:获取单元,用于获取法律裁判文书的目标文本内容;第一检测单元,用于检测目标文本内容中是否存在与第一预设规则相匹配的文本内容;提取单元,用于如果检测出目标文本内容中存在与第一预设规则相匹配的文本内容,则根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词;以及存储单元,用于将至少一个目标关键词存储至同一个关键词集合。
进一步地,第一检测单元包括:判断模块,用于判断目标文本内容是否满足以下条件:存在至少一个第一预设特征关键词,并且至少一个第一预设特征关键词位于预设位置,其中,如果判断出目标文本内容中存在至少一个第一预设特征关键词,并且至少一个第一预设特征关键词位于预设位置,则确定目标文本内容中存在与第一预设规则相匹配的文本内容。
进一步地,第一预设规则包括多个预设子规则,第一检测单元包括:检测模块,用于依次检测目标文本内容中是否存在与多个预设子规则相匹配的文本内容;以及确定模块,用于将第一个检测到的存在相匹配的文本内容的预设子规则作为目标子规则,提取单元包括:提取模块,用于根据目标子规则提取目标文本内容中的至少一个目标关键词。
进一步地,该装置还包括:第二检测单元,用于检测与第一预设规则相匹配的文本内容是否与第二预设规则相匹配,其中,如果检测出与第一预设规则相匹配的文本内容与第二预设规则相匹配,则根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词。
在本申请实施例中,采用包括以下步骤的方法:获取法律裁判文书的目标文本内容;检测目标文本内容中是否存在与第一预设规则相匹配的文本内容;如果检测出目标文本内容中存在与第一预设规则相匹配的文本内容,则根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词;以及将至少一个目标关键词存储至同一个关键词集合,解决了相关技术中从法律裁判文书中提取出的关键词无法体现关键词之间的相关性的技术问题,进而通过检测目标文本内容中是否存在与第一预设规则相匹配的文本内容,在目标文本内容中存在与第一预设规则相匹配的文本内容的情况下,根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词,并将至少一个目标关键词存储至同一个关键词集合,使得最终获取到的关键词集合代表了法律裁判文书中具有相关关系的一类关键词,从而实现了提取法律裁判文书中具有相关性的关键词的技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的用于法律裁判文书的信息处理方法的流程图;
图2是根据本申请第二实施例的用于法律裁判文书的信息处理方法的流程图;以及
图3是根据本申请实施例的用于法律裁判文书的信息处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种用于法律裁判文书的信息处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请第一实施例的用于法律裁判文书的信息处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取法律裁判文书的目标文本内容。
法律裁判文书中通常包括多个自然段落,每个自然段落具有一定的文本信息意义偏向。其中,可能某几个自然段落的文本信息意义偏向相同。在对法律裁判文书执行信息处理之前,可以按照文本信息意义偏向将法律裁判文书进行内容的划分,其中,同一种意义偏向的文本内容可以作为目标文本内容进行处理。例如,在法律裁判文书中包括描述原告、被告、刑罚等内容的一个或者多个自然段落。可将描述原告内容(或者被告内容、刑罚内容)的自然段落汇总,作为目标文本内容。通过该方式获取的目标文本内容代表了法律裁判文书中关于某意义偏向的全部文本内容,因此,对该目标文本内容进行相关信息的提取,将使提取到的信息更加完整、准确。
步骤S104,检测目标文本内容中是否存在与第一预设规则相匹配的文本内容。
第一预设规则为预先设定的用于执行文本匹配的规则,可以为正则规则,或者其他规则。第一预设规则是根据用户需求设置的匹配规则,对于不同类型的目标文本内容,可以设置不同的第一预设规则。例如,如果目标文本内容表征原告内容,用户想获取到原告的姓名及原告所触犯的法规,则可以设置第一预设规则为:*犯.*罪。通过对目标文本内容的全部内容进行遍历,可以检测目标文本内容中是否存在与第一预设规则相匹配的文本内容。
步骤S106,如果检测出目标文本内容中存在与第一预设规则相匹配的文本内容,则根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词。
如果检测出目标文本内容中存在与第一预设规则相匹配的文本内容,则根据第一预设规则对该内容进行信息提取。例如,目标文本内容表征刑罚内容,第一预设规则为:*犯.*罪,判.*刑。目标文本内容中包括“王某犯盗窃罪,判有期徒刑……”,则根据第一预设规则对该内容进行信息提取,可以得到目标关键词:王某、盗窃、有期徒刑。
步骤S108,将至少一个目标关键词存储至同一个关键词集合。
根据上述方法获取的至少一个目标关键词之间通常是具有逻辑关系的。例如,上述提取出的目标关键词“王某”、“盗窃”,其中,被告人名称为“王某”,其所犯的刑罚为“盗窃”罪。因此,将具有逻辑上的关联的至少一个目标关键词存储至同一个关键词集合,在后续的统计、分析过程中,可以很容易地得到具有相关关系的一组关键词(关键词集合),并且可以获知与其中任意一个目标关键词相关的其它目标关键词。
根据该实施例的用于法律裁判文书的信息处理方法,通过获取法律裁判文书的目标文本内容;检测目标文本内容中是否存在与第一预设规则相匹配的文本内容;如果检测出目标文本内容中存在与第一预设规则相匹配的文本内容,则根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词;以及将至少一个目标关键词存储至同一个关键词集合,解决了相关技术中从法律裁判文书中提取出的关键词无法体现关键词之间的相关性的技术问题,进而通过检测目标文本内容中是否存在与第一预设规则相匹配的文本内容,在目标文本内容中存在与第一预设规则相匹配的文本内容的情况下,根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词,并将至少一个目标关键词存储至同一个关键词集合,使得最终获取到的关键词集合代表了法律裁判文书中具有相关关系的一类关键词,从而实现了提取法律裁判文书中具有相关性的关键词的技术效果。
优选地,检测目标文本内容中是否存在与第一预设规则相匹配的文本内容包括:判断目标文本内容是否满足以下条件:存在至少一个第一预设特征关键词,并且至少一个第一预设特征关键词位于预设位置,其中,如果判断出目标文本内容中存在至少一个第一预设特征关键词,并且至少一个第一预设特征关键词位于预设位置,则确定目标文本内容中存在与第一预设规则相匹配的文本内容。
在该实施例中,将第一预设规则设定为待检测的文本中需要包括至少一个第一预设特征关键词,并且这些第一预设特征关键词位于预设位置处。例如,第一预设规则为:.*犯.*罪,判.*刑.*[月|年],其表示:某人犯某罪,判某种刑多少个月(或者年)。其中,该规则包括待检测文本中需要包括犯、罪、判、刑、年、月等关键词(至少一个第一预设特征关键词),并且犯、罪、判、刑、年、月等关键词具有逻辑上的位置关系(位于预设位置),例如,“犯”后面不是换行符,并且“犯”的位置在“罪”的位置之前,“犯”和“罪”的位置之间具有预设个数的字符。根据该方法,可以更加准确地获取用户需要的文本信息,并且具有较高的匹配效率。
可选地,第一预设规则包括多个预设子规则,检测目标文本内容中是否存在与第一预设规则相匹配的文本内容包括:依次检测目标文本内容中是否存在与多个预设子规则相匹配的文本内容;以及将第一个检测到的存在相匹配的文本内容的预设子规则作为目标子规则,根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词包括:根据目标子规则提取目标文本内容中的至少一个目标关键词。
通常情况下,可以针对法律裁判文书中不同的目标文本内容设定不同的第一预设规则,并且对于不同的提取需求也可设定不同的第一预设规则。例如,对于原告内容、被告内容、刑罚内容等可以分别设置不同的第一预设规则。对于原告内容中,根据用户不同的信息提取需求(如,提取原告姓名、性别、籍贯等;或者,提取原告年龄等),也可以设置不同的第一预设规则。另外,即使是针对同样类型的目标文本内容以及同样的用户需求,由于法律裁判文书的撰写者的表述方式的差异,不同的法律裁判文书中的该目标文本内容能够匹配到的第一预设规则也有可能是不同的。对于法律裁判文书的信息处理来说,尤其是对大量法律裁判文书的信息处理,可以预先将提炼出的尽可能多的第一预设规则存储在数据库中,按照不同文本内容的适用性对第一预设规则进行分类。在对某类文本内容进行信息处理时,逐一与其对应的一类第一预设规则进行匹配,直到匹配出某个规则为止(即匹配到目标子规则)。一类第一预设规则中的每个预设规则即为上述的预设子规则。
为了提高匹配的准确度,可选地,在检测出目标文本内容中存在与第一预设规则相匹配的文本内容的情况下,在根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词之前,该方法还包括:检测与第一预设规则相匹配的文本内容是否与第二预设规则相匹配,其中,如果检测出与第一预设规则相匹配的文本内容与第二预设规则相匹配,则根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词。
在该实施例中,在检测出目标文本内容中存在与第一预设规则相匹配的文本内容之后,可检测与第一预设规则相匹配的文本内容是否与第二预设规则相匹配。其中,第二预设规则为预先设定的对用户需求文本的进一步地限定。第二预设规则可以是与第一预设规则相对应设置的预设规则,为第一预设规则的进一步的限定。通过两个预设规则双重限定,可以在很大程度上提高匹配出的文本信息的准确性。
优选地,检测与第一预设规则相匹配的文本内容是否与第二预设规则相匹配包括:检测与第一预设规则相匹配的文本内容中的第二预设特征关键词的词性是否为预设词性,其中,第二预设特征关键词是按照第三预设规则将与第一预设规则相匹配的文本内容进行拆分得到的关键词,其中,如果检测出与第一预设规则相匹配的文本内容中的第二预设特征关键词的词性为预设词性,则确定与第一预设规则相匹配的文本内容与第二预设规则相匹配。
由于单纯地从字面上(包含第一预设特征关键词以及第一预设特征关键词位于预设位置)对文本内容进行识别,可能会导致识别出的文本内容并不是用户所需求的文本内容。例如,第一预设规则中的限定的某个关键词为动词,在对目标文本内容进行匹配时,却匹配到了一个以同一个关键词表示的名词。鉴于在中文文本中文字表达方式具有多样化,因此,仅依靠字面进行文本内容的匹配在有些情况下会出现匹配错误。因此,在该实施例中,第二预设规则对与第一预设规则相匹配的文本内容中的关键词的词性进行了限定。按照第三预设规则,将与第一预设规则相匹配的文本内容进行拆分,得到第二预设特征关键词。其中,第三预设规则可以为按照文本内容由前至后的次序,按照词性对文本进行拆分,得到多个关键词。通过进一步判断第二预设特征关键词的词性是否为预设词性,以及在判断出第二预设特征关键词的词性为预设词性时,确定与第一预设规则相匹配的文本内容与第二预设规则相匹配,有效提高了文本匹配的准确性。
例如,第一预设规则为:.*犯.*罪,判.*刑.*[月|年];与其相对应的第二预设规则为:人名+动词+法律名词+逗号+动词+法律名词+量词。假设目标文本内容中包括如下的描述:被告人黄磊犯盗窃罪,判处有期徒刑七个月。将目标文本内容与第一预设规则执行匹配处理,可以获知“被告人黄磊犯盗窃罪,判处有期徒刑七个月”满足第一预设规则。再将与第一预设规则相匹配的内容与第二预设规则执行匹配。其中,将与第一预设规则相匹配的内容进行拆分得到的第二预设特征关键词为:黄磊、犯、盗窃罪、逗号(,)、判处、有期徒刑、七个月。具体地,黄磊/人名+犯/动词+盗窃罪/法律名词+,/逗号+判处/动词+有期徒刑/法律名词+七个月/量词。可见,匹配成功。然后,根据第一预设规则,可以提取出:黄磊、盗窃罪、有期徒刑、七个月等目标关键词。对提取出的关键词可以进行结构化封装,并保存在数据库中,供检索、统计、聚类等使用。
再例如,第一预设规则为:违法所得人民币.*元[^,。?]*(|,)予以追缴;与其相对应的第二预设规则为:动词+名词+量词+逗号+动词+动词。
为了便于对关键词集合进行统一化地管理,可选地,在将至少一个目标关键词存储至同一个关键词集合之前,该方法还包括:将至少一个目标关键词中的非阿拉伯数字形式的数字转换为阿拉伯数字形式,其中,将转换为阿拉伯数字形式的数字存储至同一个关键词集合。例如,将字符串“七”转化成数值“7”。
图2是根据本申请第二实施例的用于法律裁判文书的信息处理方法的流程图,该实施例可以作为图1所示实施例的一种优选实施方式。如图2所示,该方法包括如下步骤:
步骤S202,提取法律裁判文书中的刑罚段落。
从法律裁判文书中提取出刑罚段落(也即描述刑罚的段落,将其作为目标文本内容)。提取过程,可以对人民法院公布的法律裁判文书进行分析,依据刑罚关键词从法律裁判文书全文中提取出满足条件的段落。例如,可匹配正则表达式:判决如下|裁定如下|有期徒刑|无期徒刑|死刑,将该正则表达式与法律裁判文书全文进行匹配,可输出刑罚段落。
步骤S204,刑罚信息规则匹配。
可以将刑罚段落做分词及词性分析,将分析后的结果与预设规则列表(包括多个第一预设规则,以及与其对应的第二预设规则)按先后顺序逐个执行匹配,直到匹配成功一个后退出,再将分析结果及匹配情况输出。上述过程,也即判断该刑罚段落中是否存在满足第一预设规则和第二预设规则的文本内容。
例如,刑罚段落具有以下描述:被告人黄磊犯盗窃罪,判处有期徒刑七个月。进行分词及词性分析后得到的结果为:(黄磊/人名+犯/动词+盗窃罪/法律名词+,/逗号+判处/动词+有期徒刑/法律名词+七个月/量词)。可见,其满足以下规则:第一预设规则:.*犯.*罪,判.*刑.*[月|年];以及第二预设规则:人名+动词+法律名词+逗号+动词+法律名词+量词。因此,预设规则匹配成功。
需要说明的是,如果在规则列表中没有一个预设规则(第一预设规则及与其对应的第二预设规则)匹配成功,则将此刑罚段落输出到失败记录里。后续可通过人工分析得到该段落中刑罚内容所对应的新的规则,并将其添加到规则列表中,用以完善规则列表。
步骤S206,提取刑罚段落中的刑罚数据。
根据上述已完成的预设规则的匹配,可以根据第一预设规则提取刑罚段落中相关的刑罚数据。例如,可以提取出上述刑罚段落中的:黄磊、盗窃罪、有期徒刑、七个月等刑罚关键词。或者,可以仅对其中包含的“盗窃罪”做提取。
步骤S208,对刑罚数据进行结构化存储。
将提取的将提取的数据做结构化封装,并在数据库中进行持久化存储,以供检索、统计、聚类等使用。可选地,在对刑罚数据进行结构化存储之前,可以将非阿拉伯数字形式的数字转化为阿拉伯数字形式,以便于后续对刑罚数据进行统一的管理。例如:将字符串“七”转化成数值“7”。
根据该实施例的用于法律裁判文书的信息处理方法,可实现对非结构化的法律裁判文书中刑罚数据的有效提取,进而得到文书中所包含的刑罚信息及信息之间相关性。另外,该实施例以结构化多维度数据形式对刑罚数据进行封装存储。通过上述预先处理的多维度的结构化数据,使得在大数据、云存储方面,能够快速响应刑罚数据的检索、统计、聚类等。
下面根据本申请实施例,提供了一种用于法律裁判文书的信息处理装置的装置实施例。
需要说明的是,根据本申请实施例的用于法律裁判文书的信息处理装置可以用于执行根据本申请实施例的用于法律裁判文书的信息处理方法,根据本申请实施例的用于法律裁判文书的信息处理方法也可以通过根据本申请实施例的用于法律裁判文书的信息处理装置来执行。
图3是根据本申请实施例的用于法律裁判文书的信息处理装置的示意图。如图3所示,该装置包括:获取单元20、第一检测单元40、提取单元60和存储单元80。
获取单元20,用于获取法律裁判文书的目标文本内容。
第一检测单元40,用于检测目标文本内容中是否存在与第一预设规则相匹配的文本内容。
提取单元60,用于如果检测出目标文本内容中存在与第一预设规则相匹配的文本内容,则根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词。
存储单元80,用于将至少一个目标关键词存储至同一个关键词集合。
根据该实施例的用于法律裁判文书的信息处理装置,通过获取单元20获取法律裁判文书的目标文本内容;第一检测单元40检测目标文本内容中是否存在与第一预设规则相匹配的文本内容;提取单元60在检测出目标文本内容中存在与第一预设规则相匹配的文本内容的情况下,则根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词;以及存储单元80将至少一个目标关键词存储至同一个关键词集合,解决了相关技术中从法律裁判文书中提取出的关键词无法体现关键词之间的相关性的技术问题,进而通过第一检测单元40检测目标文本内容中是否存在与第一预设规则相匹配的文本内容,在目标文本内容中存在与第一预设规则相匹配的文本内容的情况下,提取单元60根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词,存储单元80将至少一个目标关键词存储至同一个关键词集合,使得最终获取到的关键词集合代表了法律裁判文书中具有相关关系的一类关键词,从而实现了提取法律裁判文书中具有相关性的关键词的技术效果。
优选地,第一检测单元40包括:判断模块,用于判断目标文本内容是否满足以下条件:存在至少一个第一预设特征关键词,并且至少一个第一预设特征关键词位于预设位置,其中,如果判断出目标文本内容中存在至少一个第一预设特征关键词,并且至少一个第一预设特征关键词位于预设位置,则确定目标文本内容中存在与第一预设规则相匹配的文本内容。
可选地,第一预设规则包括多个预设子规则,第一检测单元40包括:检测模块,用于依次检测目标文本内容中是否存在与多个预设子规则相匹配的文本内容;以及确定模块,用于将第一个检测到的存在相匹配的文本内容的预设子规则作为目标子规则,提取单元60包括:提取模块,用于根据目标子规则提取目标文本内容中的至少一个目标关键词。
可选地,该装置还包括:第二检测单元,用于检测与第一预设规则相匹配的文本内容是否与第二预设规则相匹配,其中,如果检测出与第一预设规则相匹配的文本内容与第二预设规则相匹配,则根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词。
该法律裁判文书的信息处理装置包括处理器和存储器,上述获取单元、第一检测单元、提取单元、存储单元和第二检测单元单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来完成对法律裁判文书中各种信息的提取及结构化存储。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取法律裁判文书的目标文本内容;检测目标文本内容中是否存在与第一预设规则相匹配的文本内容;如果检测出目标文本内容中存在与第一预设规则相匹配的文本内容,则根据第一预设规则从与第一预设规则相匹配的文本内容中提取至少一个目标关键词;以及将至少一个目标关键词存储至同一个关键词集合。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种用于法律裁判文书的信息处理方法,其特征在于,包括:
获取法律裁判文书的目标文本内容;
检测所述目标文本内容中是否存在与第一预设规则相匹配的文本内容;
如果检测出所述目标文本内容中存在与所述第一预设规则相匹配的文本内容,则根据所述第一预设规则从与所述第一预设规则相匹配的文本内容中提取至少一个目标关键词;以及
将所述至少一个目标关键词存储至同一个关键词集合。
2.根据权利要求1所述的方法,其特征在于,检测所述目标文本内容中是否存在与第一预设规则相匹配的文本内容包括:
判断所述目标文本内容是否满足以下条件:存在至少一个第一预设特征关键词,并且所述至少一个第一预设特征关键词位于预设位置,
其中,如果判断出所述目标文本内容中存在所述至少一个第一预设特征关键词,并且所述至少一个第一预设特征关键词位于所述预设位置,则确定所述目标文本内容中存在与所述第一预设规则相匹配的文本内容。
3.根据权利要求1所述的方法,其特征在于,所述第一预设规则包括多个预设子规则,
检测所述目标文本内容中是否存在与第一预设规则相匹配的文本内容包括:依次检测所述目标文本内容中是否存在与所述多个预设子规则相匹配的文本内容;以及将第一个检测到的存在所述相匹配的文本内容的预设子规则作为目标子规则,
根据所述第一预设规则从与所述第一预设规则相匹配的文本内容中提取至少一个目标关键词包括:
根据所述目标子规则提取所述目标文本内容中的至少一个目标关键词。
4.根据权利要求1所述的方法,其特征在于,在检测出所述目标文本内容中存在与所述第一预设规则相匹配的文本内容的情况下,在根据所述第一预设规则从与所述第一预设规则相匹配的文本内容中提取至少一个目标关键词之前,所述方法还包括:
检测与所述第一预设规则相匹配的文本内容是否与第二预设规则相匹配,
其中,如果检测出与所述第一预设规则相匹配的文本内容与所述第二预设规则相匹配,则根据所述第一预设规则从与所述第一预设规则相匹配的文本内容中提取至少一个目标关键词。
5.根据权利要求3所述的方法,其特征在于,检测与所述第一预设规则相匹配的文本内容是否与第二预设规则相匹配包括:
检测与所述第一预设规则相匹配的文本内容中的第二预设特征关键词的词性是否为预设词性,其中,所述第二预设特征关键词是按照第三预设规则将与所述第一预设规则相匹配的文本内容进行拆分得到的关键词,
其中,如果检测出与所述第一预设规则相匹配的文本内容中的第二预设特征关键词的词性为所述预设词性,则确定与所述第一预设规则相匹配的文本内容与所述第二预设规则相匹配。
6.根据权利要求1所述的方法,其特征在于,在将所述至少一个目标关键词存储至同一个关键词集合之前,所述方法还包括:
将所述至少一个目标关键词中的非阿拉伯数字形式的数字转换为阿拉伯数字形式,其中,将转换为阿拉伯数字形式的所述数字存储至所述同一个关键词集合。
7.一种用于法律裁判文书的信息处理装置,其特征在于,包括:
获取单元,用于获取法律裁判文书的目标文本内容;
第一检测单元,用于检测所述目标文本内容中是否存在与第一预设规则相匹配的文本内容;
提取单元,用于如果检测出所述目标文本内容中存在与所述第一预设规则相匹配的文本内容,则根据所述第一预设规则从与所述第一预设规则相匹配的文本内容中提取至少一个目标关键词;以及
存储单元,用于将所述至少一个目标关键词存储至同一个关键词集合。
8.根据权利要求7所述的装置,其特征在于,所述第一检测单元包括:
判断模块,用于判断所述目标文本内容是否满足以下条件:存在至少一个第一预设特征关键词,并且所述至少一个第一预设特征关键词位于预设位置,
其中,如果判断出所述目标文本内容中存在所述至少一个第一预设特征关键词,并且所述至少一个第一预设特征关键词位于所述预设位置,则确定所述目标文本内容中存在与所述第一预设规则相匹配的文本内容。
9.根据权利要求7所述的装置,其特征在于,所述第一预设规则包括多个预设子规则,
所述第一检测单元包括:检测模块,用于依次检测所述目标文本内容中是否存在与所述多个预设子规则相匹配的文本内容;以及确定模块,用于将第一个检测到的存在所述相匹配的文本内容的预设子规则作为目标子规则,
所述提取单元包括:提取模块,用于根据所述目标子规则提取所述目标文本内容中的至少一个目标关键词。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二检测单元,用于检测与所述第一预设规则相匹配的文本内容是否与第二预设规则相匹配,
其中,如果检测出与所述第一预设规则相匹配的文本内容与所述第二预设规则相匹配,则根据所述第一预设规则从与所述第一预设规则相匹配的文本内容中提取至少一个目标关键词。
CN201510869588.9A 2015-12-01 2015-12-01 用于法律裁判文书的信息处理方法及装置 Active CN106815207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510869588.9A CN106815207B (zh) 2015-12-01 2015-12-01 用于法律裁判文书的信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510869588.9A CN106815207B (zh) 2015-12-01 2015-12-01 用于法律裁判文书的信息处理方法及装置

Publications (2)

Publication Number Publication Date
CN106815207A true CN106815207A (zh) 2017-06-09
CN106815207B CN106815207B (zh) 2020-08-11

Family

ID=59108030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510869588.9A Active CN106815207B (zh) 2015-12-01 2015-12-01 用于法律裁判文书的信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN106815207B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108345584A (zh) * 2018-01-04 2018-07-31 东南大学 一种基于规则的医患纠纷案件关键词提取方法
CN108549813A (zh) * 2018-03-02 2018-09-18 彭根 判别方法、装置及处理器和存储介质
CN109285094A (zh) * 2017-07-19 2019-01-29 北京国双科技有限公司 法律文书的处理方法及装置
CN109426905A (zh) * 2017-08-29 2019-03-05 北京国双科技有限公司 一种刑事文书量刑偏离的判定方法及装置
CN110019659A (zh) * 2017-07-31 2019-07-16 北京国双科技有限公司 裁判文书的检索方法及装置
CN110032721A (zh) * 2018-01-11 2019-07-19 北京国双科技有限公司 一种裁判文书推送方法及装置
CN111274354A (zh) * 2020-01-15 2020-06-12 中科鼎富(北京)科技发展有限公司 一种裁判文书结构化方法及装置
WO2020135247A1 (zh) * 2018-12-24 2020-07-02 北京国双科技有限公司 法律文书解析方法及装置
CN111798344A (zh) * 2020-07-01 2020-10-20 北京金堤科技有限公司 主体名称确定方法和装置、电子设备和存储介质
CN111950253A (zh) * 2020-08-28 2020-11-17 鼎富智能科技有限公司 用于裁判文书的证据信息提取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1367446A (zh) * 2001-01-22 2002-09-04 前程无忧网络信息技术(北京)有限公司上海分公司 汉语个人简历信息处理系统和方法
CN102930054A (zh) * 2012-11-19 2013-02-13 北京奇虎科技有限公司 数据搜索方法及系统
CN104899262A (zh) * 2015-05-22 2015-09-09 华中师范大学 一种支持用户自定义归类规则的信息归类方法
CN105069076A (zh) * 2015-07-31 2015-11-18 北京奇虎科技有限公司 确定官网首页中的地址信息的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1367446A (zh) * 2001-01-22 2002-09-04 前程无忧网络信息技术(北京)有限公司上海分公司 汉语个人简历信息处理系统和方法
CN102930054A (zh) * 2012-11-19 2013-02-13 北京奇虎科技有限公司 数据搜索方法及系统
CN104899262A (zh) * 2015-05-22 2015-09-09 华中师范大学 一种支持用户自定义归类规则的信息归类方法
CN105069076A (zh) * 2015-07-31 2015-11-18 北京奇虎科技有限公司 确定官网首页中的地址信息的方法及装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109285094B (zh) * 2017-07-19 2021-11-30 北京国双科技有限公司 法律文书的处理方法及装置
CN109285094A (zh) * 2017-07-19 2019-01-29 北京国双科技有限公司 法律文书的处理方法及装置
CN110019659A (zh) * 2017-07-31 2019-07-16 北京国双科技有限公司 裁判文书的检索方法及装置
CN109426905B (zh) * 2017-08-29 2022-03-18 北京国双科技有限公司 一种刑事文书量刑偏离的判定方法及装置
CN109426905A (zh) * 2017-08-29 2019-03-05 北京国双科技有限公司 一种刑事文书量刑偏离的判定方法及装置
CN108197163B (zh) * 2017-12-14 2021-08-10 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108345584A (zh) * 2018-01-04 2018-07-31 东南大学 一种基于规则的医患纠纷案件关键词提取方法
CN110032721A (zh) * 2018-01-11 2019-07-19 北京国双科技有限公司 一种裁判文书推送方法及装置
CN108549813A (zh) * 2018-03-02 2018-09-18 彭根 判别方法、装置及处理器和存储介质
CN111428466A (zh) * 2018-12-24 2020-07-17 北京国双科技有限公司 法律文书解析方法及装置
WO2020135247A1 (zh) * 2018-12-24 2020-07-02 北京国双科技有限公司 法律文书解析方法及装置
CN111428466B (zh) * 2018-12-24 2022-04-01 北京国双科技有限公司 法律文书解析方法及装置
CN111274354A (zh) * 2020-01-15 2020-06-12 中科鼎富(北京)科技发展有限公司 一种裁判文书结构化方法及装置
CN111274354B (zh) * 2020-01-15 2023-08-11 鼎富智能科技有限公司 一种裁判文书结构化方法及装置
CN111798344A (zh) * 2020-07-01 2020-10-20 北京金堤科技有限公司 主体名称确定方法和装置、电子设备和存储介质
CN111798344B (zh) * 2020-07-01 2023-09-22 北京金堤科技有限公司 主体名称确定方法和装置、电子设备和存储介质
CN111950253A (zh) * 2020-08-28 2020-11-17 鼎富智能科技有限公司 用于裁判文书的证据信息提取方法及装置
CN111950253B (zh) * 2020-08-28 2023-12-08 鼎富智能科技有限公司 用于裁判文书的证据信息提取方法及装置

Also Published As

Publication number Publication date
CN106815207B (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN106815207A (zh) 用于法律裁判文书的信息处理方法及装置
CN108519970B (zh) 文本中敏感信息的鉴定方法、电子装置及可读存储介质
CN108509482B (zh) 问题分类方法、装置、计算机设备和存储介质
CN106815208A (zh) 法律裁判文书的解析方法及装置
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN110738039B (zh) 一种案件辅助信息的提示方法、装置、存储介质和服务器
CN104133916B (zh) 搜索结果信息组织方法和装置
CN113282955B (zh) 隐私政策中隐私信息提取方法、系统、终端及介质
CN110727766A (zh) 敏感词的检测方法
CN112632989B (zh) 一种合同文本中风险信息的提示方法、装置及设备
CN106776609A (zh) 网站转载数量的统计方法及装置
CN111078839A (zh) 一种用于裁判文书的结构化处理方法及处理装置
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN115080704A (zh) 一种基于评分机制的计算机文件保密检查方法及系统
CN113392637B (zh) 基于tf-idf的主题词提取方法、装置、设备及存储介质
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
EP3752929A1 (en) Computer-implemented methods, computer-readable media, and systems for identifying causes of loss
CN115879110B (zh) 一种基于指纹穿透技术识别金融风险网站的系统
CN110955796B (zh) 一种基于笔录信息的案件特征信息提取方法及装置
CN112395866A (zh) 报关单数据匹配方法及装置
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
CN107704763A (zh) 多源异构漏洞情报去重方法、分级方法及装置
CN114817518B (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN106649367B (zh) 检测关键词推广程度的方法和装置
CN113888760B (zh) 基于软件应用的违规信息监控方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant