CN111325641B - 确定推荐量刑范围的方法和装置、电子设备、介质 - Google Patents

确定推荐量刑范围的方法和装置、电子设备、介质 Download PDF

Info

Publication number
CN111325641B
CN111325641B CN202010098908.6A CN202010098908A CN111325641B CN 111325641 B CN111325641 B CN 111325641B CN 202010098908 A CN202010098908 A CN 202010098908A CN 111325641 B CN111325641 B CN 111325641B
Authority
CN
China
Prior art keywords
analyzed
keyword
document
words
judge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010098908.6A
Other languages
English (en)
Other versions
CN111325641A (zh
Inventor
杨晨
杨天行
彭彬
张一麟
宋勋超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010098908.6A priority Critical patent/CN111325641B/zh
Publication of CN111325641A publication Critical patent/CN111325641A/zh
Application granted granted Critical
Publication of CN111325641B publication Critical patent/CN111325641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Human Resources & Organizations (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种确定推荐量刑范围的方法,其涉及辅助审判和法律行业知识图谱技术领域。该方法包括:确定待分析裁判文书中的至少部分词和至少部分词组为所述待分析裁判文书的关键词;根据所述待分析裁判文书的关键词确定所述待分析裁判文书的关键词特征;根据所述待分析裁判文书的关键词特征,确定推荐量刑范围。本公开还提供了一种确定推荐量刑范围的装置、电子设备、计算机可读介质。

Description

确定推荐量刑范围的方法和装置、电子设备、介质
技术领域
本公开实施例涉及辅助审判和法律行业知识图谱技术领域,特别涉及确定推荐量刑范围的方法和装置、电子设备、计算机可读介质。
背景技术
对于犯罪案件的量刑(即给出判决结果),是由审判人员根据经验进行的,但这样的方式人工成本大、效率低,且难免会有人为因素的影响,从而降低判决结果的准确性和可靠性。
另外,在法律行业的知识图谱中收录有大量的裁判文书,但对于新的未做给出判决结果的裁判文书,无法自动给出其可能的量刑范围(判决结果),影响了法律行业的知识图谱的完整性没有。
发明内容
本公开实施例提供一种确定推荐量刑范围的方法和装置、电子设备、计算机可读介质。
第一方面,本公开实施例提供一种确定推荐量刑范围的方法,其包括:
确定待分析裁判文书中的至少部分词和至少部分词组为所述待分析裁判文书的关键词;
根据所述待分析裁判文书的关键词确定所述待分析裁判文书的关键词特征;
根据所述待分析裁判文书的关键词特征,确定推荐量刑范围。
在一些实施例中,所述确定待分析裁判文书中的至少部分词和至少部分词组为所述待分析裁判文书的关键词包括:
对所述待分析裁判文书进行切词,得到所述待分析裁判文书中的多个词和各词的词性;
根据预设的词性关系确定所述待分析裁判文书中的多个词组,其中,每个所述词组由多个符合所述词性关系的词构成;
确定至少部分所述词和至少部分所述词组为所述待分析裁判文书的关键词。
在一些实施例中,所述根据预设的词性关系确定所述待分析裁判文书中的多个词组包括:
若所述待分析裁判文书中的多个连续的词分别具有预设的词性,则确定该多个词为所述待分析裁判文书中的一个词组。
在一些实施例中,所述确定待分析裁判文书中的至少部分词和至少部分词组为所述待分析裁判文书的关键词包括:
根据词和词组在所述待分析裁判文书中出现的次数,确定多个所述词和多个所述词组为所述待分析裁判文书的关键词。
在一些实施例中,所述确定待分析裁判文书中的至少部分词和至少部分词组为所述待分析裁判文书的关键词包括:
确定所述待分析裁判文书中的、不满足排除条件的多个词和多个词组为所述待分析裁判文书的关键词,其中,所述排除条件包括以下至少一项:所述词具有预设的词性,所述词为预设的排除词,所述词组为预设的排除词组。
在一些实施例中,所述待分析裁判文书的关键词特征为多维词向量,所述多维词向量包括多个元素,每个所述元素包括一个关键词及其权重,任意不同所述元素的所述关键词不相同,任意所述关键词的权重与该关键词的次数占比正相关,任意所述关键词的次数占比为该关键词在所述待分析裁判文书中的出现次数与所有关键词在所述待分析裁判文书中的总出现次数的比。
在一些实施例中,所述根据所述待分析裁判文书的关键词特征,确定推荐量刑范围包括:
从多个预设的基准关键词特征中确定与所述待分析裁判文书的关键词特征相似度最高的基准关键词特征,以该基准关键词特征对应的基准量刑范围为推荐量刑范围。
在一些实施例中,每个所述基准关键词特征为与所述待分析裁判文书具有相同案由的、判决结果处于该基准关键词特征对应的基准量刑范围内的现有裁判文书的关键词特征。
在一些实施例中,在所述根据所述待分析裁判文书的关键词特征,确定推荐量刑范围前,还包括:
获取与所述待分析裁判文书具有相同案由的多份现有裁判文书;
根据现有裁判文书的判决结果将现有裁判文书分为多组,其中,每组中所述现有裁判文书的判决结果均处于该组的基准量刑范围内,不同组的基准量刑范围无重叠;
确定每组中所有所述现有裁判文书的关键词特征,为该组的基准量刑范围对应的基准关键词特征。
第二方面,本公开实施例提供一种确定推荐量刑范围的装置,其包括:
关键词模块,配置为确定待分析裁判文书中的至少部分词和至少部分词组为所述待分析裁判文书的关键词;
特征模块,配置为根据所述待分析裁判文书的关键词确定所述待分析裁判文书的关键词特征;
量刑模块,配置为根据所述待分析裁判文书的关键词特征,确定推荐量刑范围。
在一些实施例中,所述关键词模块包括:
切词单元,配置为对所述待分析裁判文书进行切词,得到所述待分析裁判文书中的多个词和各词的词性;
词组单元,配置为根据预设的词性关系确定所述待分析裁判文书中的多个词组,其中,每个所述词组由多个符合所述词性关系的词构成;
关键词单元,配置为确定至少部分所述词和至少部分所述词组为所述待分析裁判文书的关键词。
在一些实施例中,所述词组单元配置为若所述待分析裁判文书中的多个连续的词分别具有预设的词性,则确定该多个词为所述待分析裁判文书中的一个词组
在一些实施例中,所述关键词模块配置为根据词和词组在所述待分析裁判文书中出现的次数,确定多个所述词和多个所述词组为所述待分析裁判文书的关键词。
在一些实施例中,所述关键词模块配置为确定所述待分析裁判文书中的、不满足排除条件的多个词和多个词组为所述待分析裁判文书的关键词,其中,所述排除条件包括以下至少一项:所述词具有预设的词性,所述词为预设的排除词,所述词组为预设的排除词组。
在一些实施例中,所述待分析裁判文书的关键词特征为多维词向量,所述多维词向量包括多个元素,每个所述元素包括一个关键词及其权重,任意不同所述元素的所述关键词不相同,任意所述关键词的权重与该关键词的次数占比正相关,任意所述关键词的次数占比为该关键词在所述待分析裁判文书中的出现次数与所有关键词在所述待分析裁判文书中的总出现次数的比。
在一些实施例中,所述量刑模块配置为从多个预设的基准关键词特征中确定与所述待分析裁判文书的关键词特征相似度最高的基准关键词特征,以该基准关键词特征对应的基准量刑范围为推荐量刑范围。
在一些实施例中,每个所述基准关键词特征为与所述待分析裁判文书具有相同案由的、判决结果处于该基准关键词特征对应的基准量刑范围内的现有裁判文书的关键词特征。
在一些实施例中,所述装置还包括基准模块,所述基准模块包括:
获取单元,配置为获取与所述待分析裁判文书具有相同案由的多份现有裁判文书;
分组单元,配置为根据现有裁判文书的判决结果将现有裁判文书分为多组,其中,每组中所述现有裁判文书的判决结果均处于该组的基准量刑范围内,不同组的基准量刑范围无重叠;
基准单元,配置为确定每组中所有所述现有裁判文书的关键词特征,为该组的基准量刑范围对应的基准关键词特征。
第三方面,本公开实施例提供一种电子设备,其包括:
一个或多个处理器;
存储器,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任意一种确定推荐量刑范围的方法;
一个或多个I/O接口,连接在所述处理器与存储器之间,配置为实现所述处理器与存储器的信息交互。
第四方面,本公开实施例提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任意一种确定推荐量刑范围的方法。
本公开实施例中,通过从待分析裁判文书中抽取的关键词(词和词组)确定出推荐的量刑范围,而关键词能够体现裁判文书描述的案情的实际情况,即本公开实施例是根据案情确定出推荐量刑范围,由此,该推荐量刑范围避免了人为因素的影响,准确性和可靠性较高,可更好的作为审判人员的参考和辅助。
尤其是,以上关键词还包括词组,在很多情况下,词组可更好的体现出案情的实际情况,且词组体现的意义并不简单的等于其中所有词体现的意义的叠加,从而通过在关键词中加入部分词组,可进一步保证推荐量刑范围的准确性和可靠性。
附图说明
附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其它特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为本公开实施例提供的一种确定推荐量刑范围的方法的流程图;
图2为本公开实施例提供的另一种确定推荐量刑范围的方法的流程图;
图3为本公开实施例提供的另一种确定推荐量刑范围的方法中部分步骤的流程图;
图4为本公开实施例提供的另一种确定推荐量刑范围的方法中部分步骤的流程图;
图5为本公开实施例提供的一种确定推荐量刑范围的装置的组成框图;
图6为本公开实施例提供的另一种确定推荐量刑范围的装置的组成框图;
图7为本公开实施例提供的一种电子设备的组成框图;
图8为本公开实施例提供的一种计算机可读介质的组成框图。
具体实施方式
为使本领域的技术人员更好地理解本公开的技术方案,下面结合附图对本公开提供的确定推荐量刑范围的方法和装置、电子设备、计算机可读介质进行详细描述。
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
在不冲突的情况下,本公开各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
第一方面,本公开实施例提供一种确定推荐量刑范围的方法。
本公开实施例的用于根据裁判文书中的案情描述(犯罪过程、侦察过程、审理过程等),给出对裁判文书的案件的推荐的量刑范围,以作为审判人员的参考和辅助,以及作为构建法律行业知识图谱的基础数据。
其中,裁判文书是指由法院给出的记录案件内容的文件,裁判文书中记录有案情描述(犯罪过程、侦察过程、审理过程等),还可以包括对案件的判决结果。
其中,判决结果是指针审判人员对裁判文书的案件作出的具体判决,例如无罪、拘役三个月、有期徒刑三年、无期徒刑、死刑等。
其中,量刑范围是指一定范围内的判决结果,其可以是一定范围内的刑期,例如有期徒刑三至十年;量刑范围也可以是一个确定的判决结果,例如无罪、无期徒刑等。
参照图1,本公开实施例的确定推荐量刑范围的方法包括以下步骤:
S101、确定待分析裁判文书中的至少部分词和至少部分词组为待分析裁判文书的关键词。
从需要给出推荐量刑范围的待分析裁判文书中,提取出多个关键词,这些关键词包括待分析裁判文书中的部分“词”,以及待分析裁判文书中的部分“词组”。
其中,“词”又称“词汇”,是指能够表示一定意义并被独立运用的最小的语言单位。
其中,“词组”又称短句、短语,是指在语句中能表示相对完整的意思的片段,每个“词组”必然由多个“词”构成。
S102、根据待分析裁判文书的关键词确定待分析裁判文书的关键词特征。
根据以上得到的关键词(待分析裁判文书中的词和词组),构建能表示待分析裁判文书的关键词的特性的关键词特征。
S103、根据待分析裁判文书的关键词特征,确定推荐量刑范围。
根据以上得到的关键词特征,确定针对待分析裁判文书的案件的推荐量刑范围,以作为审判人员的参考和辅助,以及作为构建法律行业知识图谱的基础数据。
其中,待分析裁判文书中可不包括判决结果,即待分析裁判文书中可仅记载有案情描述(犯罪过程、侦察过程、审理过程等),但尚未给出判决结果,从而推荐量刑范围可作为审判人员进行量刑(即给出判决结果)的参考,或作为构建法律行业知识图谱的基础数据。
或者,待分析裁判文书中也可包括判决结果,则可将推荐量刑范围与裁判文书中的判决结果进行比较,以辅助判断现有判决结果是否合理。
本公开实施例中,通过从待分析裁判文书中抽取的关键词(词和词组)确定出推荐的量刑范围,而关键词能够体现裁判文书描述的案情的实际情况,即本公开实施例是根据案情确定出推荐量刑范围,由此,该推荐量刑范围避免了人为因素的影响,准确性和可靠性较高,可更好的作为审判人员的参考和辅助。
尤其是,以上关键词还包括词组,在很多情况下,词组可更好的体现出案情的实际情况,且词组体现的意义并不简单的等于其中所有词体现的意义的叠加,从而通过在关键词中加入部分词组,可进一步保证推荐量刑范围的准确性和可靠性。
在一些实施例中,参照图2,确定待分析裁判文书中的至少部分词和至少部分词组为待分析裁判文书的关键词(S101)包括:
S1011、对待分析裁判文书进行切词,得到待分析裁判文书中的多个词和各词的词性。
通过切词工具对待分析裁判文书的文本进行切词,将待分析裁判文书的切分为多个“词”,并标注每个词的“词性”。
例如,文本“被告人持刀砍向受害人,致使受害人受轻伤”的切词结果如下:
其中,“标点”不能表示任何意义,故其不属于“词”,也不可能被选为关键词。
S1012、根据预设的词性关系确定待分析裁判文书中的多个词组。
其中,每个词组由多个符合词性关系的词构成。
分析以上切词得到的各词和词性,确定其中词性满足预先设定的词性关系的部分词组成词组。
例如,可确定以上“持刀砍”为一个词组。
应当理解,按照语言学的分类,待分析裁判文书中可能存在很多词组,但这些词组不一定都作为本公开实施例中用于选取关键词的词组。
应当理解,属于词组的词,可仍视为能用于确定关键词的“词”,例如可认为以上文本中同时包括词组“持刀砍”和词“刀”。或者,也可认为属于词组的词不再被作为关键词,即可认为以上文本中包括词组“持刀砍”,而不再包括词“刀”。
可见,词组相对于词,可更准确、更完整的体现待分析裁判文书的实际意义。
例如,文本“被告人虽然携带有刀,但并未使用”与文本“被告人持刀砍向受害人”中均包括词“刀”,但两段文本表示的意义是完全不同的,前者表示的情节显然比后者更轻。由此,若仅从二者都包括词“刀”的层面看,无法体现二者的区别;而若是从前者仅包括词“刀”,后者包括词组“持刀砍”的角度看,则可体现出后者表示必然使用了刀具,能更好的区分二者的实际意义。
而且,“词组”所表达的意义往往并不等于其中各“词”意义的叠加,故词组的效果并不能通过词体现。
例如文本“被告人持身份证带刀入住某酒店,计划要砍伤某房间的客人”,其中同样存在“持”、“刀”、“砍”三个词,但其并不表示被告人真的进行了“持刀砍”的动作,因此其中没有“持刀砍”的词组。
在一些实施例中,根据预设的词性关系确定多个词组(S011)包括:若待分析裁判文书中的多个连续的词分别具有预设的词性,则确定该多个词为待分析裁判文书中的一个词组。
预先设定一些“词性顺序的组合”,并判断切词得到的多个词中,是否有连续的多个词的词性分别与词性顺序的组合中相应位置的词性匹配,若有,则以该多个词作为词组。
例如,词性顺序的组合可包括“动词-名词-动词”的组合,以上词组“持刀砍”中各词的词性即符合该词性顺序的组合。
当然,以上词性顺序的组合的具体形式还可有很多,可根据需要预先设置。
例如,词性顺序的组合可包括“名词-副词-形容词”组合,以得到“影响特别恶劣”等词组。
再如,词性顺序的组合可包括“动词-介词-名词”组合,以得到“刺向受害人”等词组。
S1013、确定至少部分词和至少部分词组为待分析裁判文书的关键词。
从以上确定出的多个词和多个词组中,选择至少一部分为关键词。
在一些实施例中,参照图3,确定待分析裁判文书中的至少部分词和至少部分词组为待分析裁判文书的关键词(S101)包括:
S1014、根据词和词组在待分析裁判文书中出现的次数,确定多个词和多个词组为待分析裁判文书的关键词。
每个词或词组,均可能在待分析裁判文书中多次出现,即每个词或词组具有一定的“出现次数”,或者说“词频”,从而,可根据词或词组的出现次数(词频),确定哪些词和词组应作为关键词。
确定关键词的原则是选择高词频的词或词组为关键词,但根据出现次数确定关键词的具体方式可以是多样的。
例如,可确定出现次数最大(词频最高)的前预定个(如200个)词或词组作为关键词。
再如,由于通常词组的出现次数比词的出现次数更少,因此,也可给词组设置大于1的加权系数(如为3),并认为词组的加权出现次数等于其实际出现乘以加权系数,之后以加权出现次数最大的前预定个(如200个)词或词组作为关键词。
再如,也可在关键词中分别设定词和词组的个数,例如,确定出现次数最大的前预定个(如50个)词组,以及出现次数最大的前预定个(如150个)词作为关键词。
在一些实施例中,确定待分析裁判文书中的至少部分词和至少部分词组为待分析裁判文书的关键词(S101)包括:
S1015、确定待分析裁判文书中的、不满足排除条件的多个词和多个词组为待分析裁判文书的关键词。
其中,排除条件包括以下至少一项:词具有预设的词性,词为预设的排除词,词组为预设的排除词组。
可预先设定排除条件,并规定满足排除条件的词或词组不能作为关键词,以排除一些无意义的词或词组。
例如,排除条件可包括:
(1)词具有预设的词性,即可规定一些特定词性的词不能作为关键词,因为这些词往往不能表示实际意义,如代词(他、她、你等)、助词(的、地、得、而已等)等。
(2)词为预设的排除词,即可规定一些通常对量刑无实际意义的词不作能为关键词,如“法院”、“原告”、“被告”、“法律”。
(3)词组为预设的排除词组,即可规定一些通常对量刑无实际意义的词组不作能为关键词,如“本案件”、“双方当事人”等。
应当理解,以上“根据词和词组的出现次数确定关键词”,以及“确定不满足排除条件的词和词组为关键词”,可以是同时存在的,即可在不满足排除条件的词和词组中,根据出现次数确定多个关键词。
应当理解,以上“在不满足排除条件的词和词组中,根据出现次数确定多个关键词”的具体算法可以是多样的。
例如,可先除去待分析裁判文书中满足排除条件的词和词组,再统计剩余词和词组的出现次数;或者,也可先按照出现次数(包括加权出现次数)对词和词组进行排序,之后除去其中满足排除条件的词和词组,再从剩余的词和词组中选择关键词。
在一些实施例中,待分析裁判文书的关键词特征为多维词向量,多维词向量包括多个元素,每个元素包括一个关键词及其权重,任意不同元素的关键词不相同,任意关键词的权重与该关键词的次数占比正相关,任意关键词的次数占比为该关键词在待分析裁判文书中的出现次数与所有关键词在待分析裁判文书中的总出现次数的比。
关键词特征具体可以是多维词向量(如200维的词向量)的形式,多维词向量包括多个不重复的关键词,而每个关键词具有对应的权重。例如,多维词向量Vec可为如下形式:
Vec=(P(w1)*V(w1),P(w2)*V(w2),……,P(wn)*V(wn));
其中,V(wi)为第i个关键词,P(wi)为第i个关键词的权重,n为关键词总数(也就是多维词向量的维度数,如为200)。例如,一个多维词向量具体可为:
(0.0002*刀,0.00013*持刀砍,……,0.00022*轻伤)。
其中,每个关键词对应的权重与其次数占比正相关,而次数占比为该关键词的出现次数在所有关键词的总出现次数中的占比。例如,每个关键词对应的权重可以就是其次数占比,即第k个关键词的权重可通过如下公式计算:
其中,S(wi)为第i个关键词的出现次数。
当然,以上权重的也可以不直接等于次数占比,而是根据次数占比进行一定的修正(例如适当增大较小的次数占比,而适当降低较大的次数占比)。
依照次数占比确定关键词,一方面可体现出各关键词在待分析裁判文书中的出现次数,使关键词特征能更好的表示待分析裁判文书的内容;同时,又避免了待分析裁判文书的长度或数量对权重直接产生影响。
应当理解,关键词特征也可为其它的具体形式。
例如,关键词特征也可就是所有关键词的集合(可为去重的集合,也可为不去重的集合),而不包括权重。
总之,只要该关键词特征可体现出从待分析裁判文书中提取出的关键词的性质(当然也就是待分析裁判文书的内容),就是可行的。
在一些实施例中,参照图2,根据待分析裁判文书的关键词特征,确定推荐量刑范围(S103)包括:
S1031、从多个预设的基准关键词特征中确定与待分析裁判文书的关键词特征相似度最高的基准关键词特征,以该基准关键词特征对应的基准量刑范围为推荐量刑范围。
显然,对于同一个案由,判决结果是与其案情相关的,对应相同或相近判决结果的案情往往比较类似,而对应明显不同判决结果的案情往往差别较大;进而,对应同一个量刑范围的裁判文书中经常出现的词或词组往往也比较类似,而对应不同量刑范围的裁判文书中经常出现的词或词组往往也明显不同。
例如,在“故意伤害罪”的案由中,量刑范围为“三年以下有期徒刑”的裁判文书中经常出现“轻伤”、“外伤”、“自首”、“取得谅解”等词或词组;量刑范围为“三到十年有期徒刑”的裁判文书中经常出现“重伤”、“自首”、“取得谅解”、“伤残”等词或词组;量刑范围为“十年以上有期徒刑”的裁判文书中经常出现“死亡”、“抢救”、“自首”等词或词组;量刑范围为“无期徒刑”的裁判文书中经常出现“血迹”、“抢救无效”、“杀”、“刺”等词或词组;量刑范围为“死刑”的裁判文书中经常出现“血迹”、“死者”、“尸体”等词或词组。
也就是说,针对不同的量刑范围的裁判文书的关键词特征往往也是不同的,由此,可预先设置多个不同的基准量刑范围,并为每个基准量刑范围设置一定对应的基准关键词特征;之后,通过将待分析裁判文书的关键词特征与各基准关键词特征进行比较,即可确定待分析裁判文书的关键词特征与哪个基准关键词特征最相似(也就是确定待分析裁判文书的案情与哪个基准量刑范围的案情最接近),从而可以该基准关键词特征对应的基准量刑范围为推荐量刑范围。
应当理解,基准关键词特征应具有与将待分析裁判文书的关键词特征相同的形式,例如,待分析裁判文书的关键词特征为多维词向量时,基准关键词特征也可为基准多维词向量,且该基准多维词向量的维度数应与待分析裁判文书的多维词向量的维度数相同。
而比较待分析裁判文书的关键词特征与基准关键词特征的相似度的方式也是多样的,例如,当待分析裁判文书的关键词特征为多维词向量,基准关键词特征为基准多维词向量时,可通过计算待分析裁判文书的多维词向量与各基准多维词向量的余弦夹角cosθ,确定它们的相似度,具体计算公式可为:
其中,Vec(x)为待分析裁判文书的多维词向量,Vec(j)为第j种基准量刑范围对应的基准多维词向量。
应当理解,余弦夹角只是相似度计算的一种示例性方式,例如,也可通过欧式距离、杰卡德相似性等其它参数表示多维词向量间的相似度。
或者,当关键词特征为其它形式时,也可通过其它方式计算不同关键词特征的相似度。
应当理解,也可以通过其它的方式根据待分析裁判文书的关键词特征确定推荐量刑范围。
例如,可预先训练得到人工智能模型(本质上相当于分类模型),通过将待分析裁判文书的关键词特征输入人工智能模型,即可得到相应的推荐量刑范围(相当于分类结果)。
在一些实施例中,每个基准关键词特征为与待分析裁判文书具有相同案由的、判决结果处于该基准关键词特征对应的基准量刑范围内的现有裁判文书的关键词特征。
也就是说,以上每个基准关键词特征,可以是已经存在的、具有判决结果的、判决结果位于基准量刑范围内的现有裁判文书的关键词特征,这样的基准关键词特征能最好的体现实际裁判文书的内容。
应当理解,以上现有裁判文书的案由应当与待分析裁判文书的案由相同,即对于具有不同案由的待分析裁判文书,应当分别设置不同的对应的基准关键词特征;而当一份待分析裁判文书涉及多个案由时,每个案由应分别具有对应的基准关键词特征,并分别得到推荐量刑范围。
在一些实施例中,参照图2,在根据待分析裁判文书的关键词特征,确定推荐量刑范围(S101)前,还包括:
S1001、获取与待分析裁判文书具有相同案由的多份现有裁判文书。
预先获取具有相同案由的、具有判决结果的大量现有裁判文书,例如,从特定的法律数据库种获得针对同一案由的全部现有裁判文书。
S1002、根据现有裁判文书的判决结果将现有裁判文书分为多组。
其中,每组中现有裁判文书的判决结果均处于该组的基准量刑范围内,不同组的基准量刑范围无重叠。
预先确定多个多无重合的基准量刑范围,并根据现有裁判文书的判决结果,将现有裁判文书分入对应不同基准量刑范围的组中。
其中,不同的基准量刑范围可以是根据法律对某案由的不同情况(从轻、减轻、严重、特别严重等)规定的量刑范围确定的,例如,针对同一案由的多个基准量刑范围可为“无罪”、“三年以下有期徒刑”、“三到十年有期徒刑”、“十年以上有期徒刑”、“无期徒刑”、“死刑”等。
S1003、确定每组中所有现有裁判文书的关键词特征,为该组的基准量刑范围对应的基准关键词特征。
根据以上分组,每个基准量刑范围可对应一份或多份现有裁判文书,从而可分别根据每个基准量刑范围对应的全部现有裁判文书,分别确定出关键词特征,也就是确定出每个基准量刑范围对应的基准关键词特征,以用于后续确定推荐量刑范围的过程。
应当理解,以上根据每个基准量刑范围的现有裁判文书确定关键词特征的具体算法,应当是与根据待分析裁判文书确定待分析裁判文书的关键词特征的算法相同的(区别仅在于其中的待分析裁判文书变为现有裁判文书)。
应当理解,基准关键词特征也可通过其它方式得到,例如,可根据经验,人为设定针对不同基准量刑范围的基准关键词特征。
第二方面,参照图5,本公开实施例提供一种确定推荐量刑范围的装置,其包括:
关键词模块301,配置为确定待分析裁判文书中的至少部分词和至少部分词组为待分析裁判文书的关键词;
特征模块302,配置为根据待分析裁判文书的关键词确定待分析裁判文书的关键词特征;
量刑模块303,配置为根据待分析裁判文书的关键词特征,确定推荐量刑范围。
在一些实施例中,参照图6,关键词模块301包括:
切词单元3011,配置为对待分析裁判文书进行切词,得到待分析裁判文书中的多个词和各词的词性;
词组单元3012,配置为根据预设的词性关系确定待分析裁判文书中的多个词组,其中,每个词组由多个符合词性关系的词构成;
关键词单元3013,配置为确定至少部分词和至少部分词组为待分析裁判文书的关键词。
在一些实施例中,词组单元3012配置为若待分析裁判文书中的多个连续的词分别具有预设的词性,则确定该多个词为待分析裁判文书中的一个词组
在一些实施例中,关键词模块301配置为根据词和词组在待分析裁判文书中出现的次数,确定多个词和多个词组为待分析裁判文书的关键词。
在一些实施例中,关键词模块301配置为确定待分析裁判文书中的、不满足排除条件的多个词和多个词组为待分析裁判文书的关键词,其中,排除条件包括以下至少一项:词具有预设的词性,词为预设的排除词,词组为预设的排除词组。
在一些实施例中,待分析裁判文书的关键词特征为多维词向量,多维词向量包括多个元素,每个元素包括一个关键词及其权重,任意不同元素的关键词不相同,任意关键词的权重与该关键词的次数占比正相关,任意关键词的次数占比为该关键词在待分析裁判文书中的出现次数与所有关键词在待分析裁判文书中的总出现次数的比。
在一些实施例中,量刑模块303配置为从多个预设的基准关键词特征中确定与待分析裁判文书的关键词特征相似度最高的基准关键词特征,以该基准关键词特征对应的基准量刑范围为推荐量刑范围。
在一些实施例中,每个基准关键词特征为与待分析裁判文书具有相同案由的、判决结果处于该基准关键词特征对应的基准量刑范围内的现有裁判文书的关键词特征。
在一些实施例中,参照图6,装置还包括基准模块300,基准模块300包括:
获取单元3001,配置为获取与待分析裁判文书具有相同案由的多份现有裁判文书;
分组单元3002,配置为根据现有裁判文书的判决结果将现有裁判文书分为多组,其中,每组中现有裁判文书的判决结果均处于该组的基准量刑范围内,不同组的基准量刑范围无重叠;
基准单元3003,配置为确定每组中所有现有裁判文书的关键词特征,为该组的基准量刑范围对应的基准关键词特征。
第三方面,参照图7,本公开实施例提供一种电子设备,其包括:
一个或多个处理器501;
存储器502,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述任意一种确定推荐量刑范围的方法;
一个或多个I/O接口503,连接在处理器与存储器之间,配置为实现处理器与存储器的信息交互。
其中,处理器501为具有数据处理能力的器件,其包括但不限于中央处理器(CPU)等;存储器502为具有数据存储能力的器件,其包括但不限于随机存取存储器(RAM,更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH);I/O接口(读写接口)503连接在处理器501与存储器502间,能实现处理器501与存储器502的信息交互,其包括但不限于数据总线(Bus)等。
在一些实施例中,处理器501、存储器502和I/O接口503通过总线504相互连接,进而与计算设备的其它组件连接。
第四方面,参照图8,本公开实施例提供一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现上述任意一种确定推荐量刑范围的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其它实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。

Claims (18)

1.一种确定推荐量刑范围的方法,其包括:
确定待分析裁判文书中的至少部分词和至少部分词组为所述待分析裁判文书的关键词;
根据所述待分析裁判文书的关键词确定所述待分析裁判文书的关键词特征;
根据所述待分析裁判文书的关键词特征,确定推荐量刑范围;所述确定待分析裁判文书中的至少部分词和至少部分词组为所述待分析裁判文书的关键词包括:
对所述待分析裁判文书进行切词,得到所述待分析裁判文书中的多个词和各词的词性;
根据预设的词性关系确定所述待分析裁判文书中的多个词组,其中,每个所述词组由多个符合所述词性关系的词构成;
确定至少部分所述词和至少部分所述词组为所述待分析裁判文书的关键词。
2.根据权利要求1所述的方法,其中,所述根据预设的词性关系确定所述待分析裁判文书中的多个词组包括:
若所述待分析裁判文书中的多个连续的词分别具有预设的词性,则确定该多个词为所述待分析裁判文书中的一个词组。
3.根据权利要求1所述的方法,其中,所述确定待分析裁判文书中的至少部分词和至少部分词组为所述待分析裁判文书的关键词包括:
根据词和词组在所述待分析裁判文书中出现的次数,确定多个所述词和多个所述词组为所述待分析裁判文书的关键词。
4.根据权利要求1所述的方法,其中,所述确定待分析裁判文书中的至少部分词和至少部分词组为所述待分析裁判文书的关键词包括:
确定所述待分析裁判文书中的、不满足排除条件的多个词和多个词组为所述待分析裁判文书的关键词,其中,所述排除条件包括以下至少一项:所述词具有预设的词性,所述词为预设的排除词,所述词组为预设的排除词组。
5.根据权利要求1所述的方法,其中,
所述待分析裁判文书的关键词特征为多维词向量,所述多维词向量包括多个元素,每个所述元素包括一个关键词及其权重,任意不同所述元素的所述关键词不相同,任意所述关键词的权重与该关键词的次数占比正相关,任意所述关键词的次数占比为该关键词在所述待分析裁判文书中的出现次数与所有关键词在所述待分析裁判文书中的总出现次数的比。
6.根据权利要求1所述的方法,其中,所述根据所述待分析裁判文书的关键词特征,确定推荐量刑范围包括:
从多个预设的基准关键词特征中确定与所述待分析裁判文书的关键词特征相似度最高的基准关键词特征,以该基准关键词特征对应的基准量刑范围为推荐量刑范围。
7.根据权利要求6所述的方法,其中,
每个所述基准关键词特征为与所述待分析裁判文书具有相同案由的、判决结果处于该基准关键词特征对应的基准量刑范围内的现有裁判文书的关键词特征。
8.根据权利要求7所述的方法,其中,在所述根据所述待分析裁判文书的关键词特征,确定推荐量刑范围前,还包括:
获取与所述待分析裁判文书具有相同案由的多份现有裁判文书;
根据现有裁判文书的判决结果将现有裁判文书分为多组,其中,每组中所述现有裁判文书的判决结果均处于该组的基准量刑范围内,不同组的基准量刑范围无重叠;
确定每组中所有所述现有裁判文书的关键词特征,为该组的基准量刑范围对应的基准关键词特征。
9.一种确定推荐量刑范围的装置,其包括:
关键词模块,配置为确定待分析裁判文书中的至少部分词和至少部分词组为所述待分析裁判文书的关键词;
特征模块,配置为根据所述待分析裁判文书的关键词确定所述待分析裁判文书的关键词特征;
量刑模块,配置为根据所述待分析裁判文书的关键词特征,确定推荐量刑范围;所述关键词模块包括:
切词单元,配置为对所述待分析裁判文书进行切词,得到所述待分析裁判文书中的多个词和各词的词性;
词组单元,配置为根据预设的词性关系确定所述待分析裁判文书中的多个词组,其中,每个所述词组由多个符合所述词性关系的词构成;
关键词单元,配置为确定至少部分所述词和至少部分所述词组为所述待分析裁判文书的关键词。
10.根据权利要求9所述的装置,其中,
所述词组单元配置为若所述待分析裁判文书中的多个连续的词分别具有预设的词性,则确定该多个词为所述待分析裁判文书中的一个词组。
11.根据权利要求9所述的装置,其中,
所述关键词模块配置为根据词和词组在所述待分析裁判文书中出现的次数,确定多个所述词和多个所述词组为所述待分析裁判文书的关键词。
12.根据权利要求9所述的装置,其中,
所述关键词模块配置为确定所述待分析裁判文书中的、不满足排除条件的多个词和多个词组为所述待分析裁判文书的关键词,其中,所述排除条件包括以下至少一项:所述词具有预设的词性,所述词为预设的排除词,所述词组为预设的排除词组。
13.根据权利要求9所述的装置,其中,
所述待分析裁判文书的关键词特征为多维词向量,所述多维词向量包括多个元素,每个所述元素包括一个关键词及其权重,任意不同所述元素的所述关键词不相同,任意所述关键词的权重与该关键词的次数占比正相关,任意所述关键词的次数占比为该关键词在所述待分析裁判文书中的出现次数与所有关键词在所述待分析裁判文书中的总出现次数的比。
14.根据权利要求9所述的装置,其中,
所述量刑模块配置为从多个预设的基准关键词特征中确定与所述待分析裁判文书的关键词特征相似度最高的基准关键词特征,以该基准关键词特征对应的基准量刑范围为推荐量刑范围。
15.根据权利要求14所述的装置,其中,
每个所述基准关键词特征为与所述待分析裁判文书具有相同案由的、判决结果处于该基准关键词特征对应的基准量刑范围内的现有裁判文书的关键词特征。
16.根据权利要求15所述的装置,其中,还包括基准模块,所述基准模块包括:
获取单元,配置为获取与所述待分析裁判文书具有相同案由的多份现有裁判文书;
分组单元,配置为根据现有裁判文书的判决结果将现有裁判文书分为多组,其中,每组中所述现有裁判文书的判决结果均处于该组的基准量刑范围内,不同组的基准量刑范围无重叠;
基准单元,配置为确定每组中所有所述现有裁判文书的关键词特征,为该组的基准量刑范围对应的基准关键词特征。
17.一种电子设备,其包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1至8任意一项所述的确定推荐量刑范围的方法;
一个或多个I/O接口,连接在所述处理器与存储器之间,配置为实现所述处理器与存储器的信息交互。
18.一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1至8任意一项所述的确定推荐量刑范围的方法。
CN202010098908.6A 2020-02-18 2020-02-18 确定推荐量刑范围的方法和装置、电子设备、介质 Active CN111325641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010098908.6A CN111325641B (zh) 2020-02-18 2020-02-18 确定推荐量刑范围的方法和装置、电子设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010098908.6A CN111325641B (zh) 2020-02-18 2020-02-18 确定推荐量刑范围的方法和装置、电子设备、介质

Publications (2)

Publication Number Publication Date
CN111325641A CN111325641A (zh) 2020-06-23
CN111325641B true CN111325641B (zh) 2023-08-29

Family

ID=71172747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010098908.6A Active CN111325641B (zh) 2020-02-18 2020-02-18 确定推荐量刑范围的方法和装置、电子设备、介质

Country Status (1)

Country Link
CN (1) CN111325641B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107632968A (zh) * 2017-05-22 2018-01-26 南京大学 一种面向裁判文书的证据链关系模型的构建方法
CN108681551A (zh) * 2018-03-30 2018-10-19 北京智慧正安科技有限公司 文书对比方法、电子装置及计算机可读存储介质
CN109635273A (zh) * 2018-10-25 2019-04-16 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及存储介质
CN109740728A (zh) * 2018-12-10 2019-05-10 杭州世平信息科技有限公司 一种基于多种神经网络组合的量刑计算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107632968A (zh) * 2017-05-22 2018-01-26 南京大学 一种面向裁判文书的证据链关系模型的构建方法
CN108681551A (zh) * 2018-03-30 2018-10-19 北京智慧正安科技有限公司 文书对比方法、电子装置及计算机可读存储介质
CN109635273A (zh) * 2018-10-25 2019-04-16 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及存储介质
CN109740728A (zh) * 2018-12-10 2019-05-10 杭州世平信息科技有限公司 一种基于多种神经网络组合的量刑计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的智能量刑方法研究;阴玉涵;《中国优秀硕士学位论文全文数据库 社会科学I辑》(第2期);G118-230 *

Also Published As

Publication number Publication date
CN111325641A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
WO2018157805A1 (zh) 一种自动问答处理方法及自动问答系统
CN109299480B (zh) 基于上下文语境的术语翻译方法及装置
CN110781298B (zh) 药品分类方法、装置、计算机设备及存储介质
EP1462950B1 (en) Method for language modelling
CN109255013A (zh) 理赔决策方法、装置、计算机设备和存储介质
CN110334178A (zh) 数据检索方法、装置、设备及可读存储介质
JP6767042B2 (ja) シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム
CN105224682B (zh) 新词发现方法及装置
JP2009537901A (ja) 検索による注釈付与
KR101335540B1 (ko) 온톨로지 기반의 문서 분류 방법 및 장치
CN114911917B (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
CN112307190B (zh) 医学文献排序方法、装置、电子设备及存储介质
JP2011118872A (ja) 未登録語のカテゴリを決定する方法と装置
WO2015085805A1 (zh) 一种确定图片簇描述文本核心词的方法及装置
CN110929498A (zh) 一种短文本相似度的计算方法及装置、可读存储介质
CN108959314A (zh) 一种语义检索方法和装置
Blanco et al. Overview of NTCIR-13 Actionable Knowledge Graph (AKG) Task.
CN113722507B (zh) 基于知识图谱的住院费用预测方法、装置及计算机设备
CN116936135B (zh) 基于nlp技术的医疗大健康数据采集分析方法
CN111325641B (zh) 确定推荐量刑范围的方法和装置、电子设备、介质
CN113221658A (zh) 图像处理模型的训练方法、装置、电子设备及存储介质
CN111563361B (zh) 文本标签的提取方法及装置、存储介质
CN115687960B (zh) 一种面向开源安全情报的文本聚类方法
CN115221280A (zh) 一种基于航天质量知识库的知识检索方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant