CN115358896B - 以海量文书构建罪名演化网络的方法、装置、设备及介质 - Google Patents

以海量文书构建罪名演化网络的方法、装置、设备及介质 Download PDF

Info

Publication number
CN115358896B
CN115358896B CN202211283786.3A CN202211283786A CN115358896B CN 115358896 B CN115358896 B CN 115358896B CN 202211283786 A CN202211283786 A CN 202211283786A CN 115358896 B CN115358896 B CN 115358896B
Authority
CN
China
Prior art keywords
criminal
name
names
evolution
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211283786.3A
Other languages
English (en)
Other versions
CN115358896A (zh
Inventor
张伟
姚佳
何行知
唐怀都
张凤
朱娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Provincial Prison Administration
West China Hospital of Sichuan University
Original Assignee
Sichuan Provincial Prison Administration
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Provincial Prison Administration, West China Hospital of Sichuan University filed Critical Sichuan Provincial Prison Administration
Priority to CN202211283786.3A priority Critical patent/CN115358896B/zh
Publication of CN115358896A publication Critical patent/CN115358896A/zh
Application granted granted Critical
Publication of CN115358896B publication Critical patent/CN115358896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Probability & Statistics with Applications (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种以海量文书构建罪名演化网络的方法、装置、设备及介质,属于自然语言处理技术领域。其中方法包括:根据多个裁判文书获取罪名序列;根据罪名序列确定罪名转移概率;根据罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;将单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径进行罪名节点关联,得到罪名演化网络。这样,利用海量裁判文书,依托自然语言处理技术结构化提取数百万名罪犯的刑罚数据,并利用罪名转移概率来刻画罪名间演化的可能性,形成了一套罪名演化网络,便于分析罪名演化过程,提高罪名演化的分析效率。

Description

以海量文书构建罪名演化网络的方法、装置、设备及介质
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种以海量文书构建罪名演化网络的方法、装置、设备及介质。
背景技术
再犯罪又称重新犯罪,是指受过一定的刑罚处罚,刑罚执行完毕或者赦免以后,在法定期限内又犯法,再次被判处一定刑罚的罪犯。再犯罪一般具有报复、仇恨、补偿等心理特征,对社会危害性大。目前,缺少利用海量数据对罪名演化网络构建的方案。
发明内容
为了解决上述技术问题,本申请实施例提供了一种以海量文书构建罪名演化网络的方法、装置、设备及介质。
第一方面,本申请实施例提供了一种以海量文书构建罪名演化网络的方法,所述方法包括:
根据多个裁判文书获取罪名序列;
根据所述罪名序列确定罪名转移概率;
根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;
将所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径进行罪名节点关联,得到罪名演化网络。
在一实施方式中,所述根据所述罪名序列确定罪名转移概率,包括:
确定所述罪名序列中出现罪名
Figure P_221124164716314_314737001
的次数,确定所述罪名序列中先出现罪名
Figure P_221124164716345_345987002
、再出现罪名
Figure P_221124164716377_377225003
的罪名转移出现次数;
将所述罪名转移出现次数与所述罪名序列中出现罪名
Figure P_221124164716395_395267001
的次数的比值确定为罪名
Figure P_221124164716411_411397002
转移为罪名
Figure P_221124164716458_458286003
的罪名转移概率。
在一实施方式中,所述罪名转移概率包括单罪名重复违法概率,单罪名演变路径包括单罪名主演变路径和单罪名分支演变路径;
根据所述罪名转移概率确定单罪名演变路径,包括:
根据所述单罪名重复违法概率确定单罪名主演变路径;
根据所述罪名序列确定所述单罪名主演变路径的相邻主罪名节点之间的分支转移罪名概率;
根据所述分支转移罪名概率确定所述单罪名分支演变路径。
在一实施方式中,所述罪名转移概率包括罪名关联概率,所述根据所述罪名序列确定罪名转移概率,包括:
分别确定所述罪名序列中出现罪名
Figure P_221124164716489_489537001
的第一次数和出现罪名
Figure P_221124164716520_520799002
的第二次数;
确定在所述罪名序列中先出现罪名
Figure P_221124164716536_536423001
再出现罪名
Figure P_221124164716552_552058002
的第三次数,以及先出现罪名
Figure P_221124164716584_584229003
再出现罪名
Figure P_221124164716600_600376004
的第四次数;
计算所述第一次数和所述第二次数的第一和值,计算所述第三次数和所述第四次数的第二和值,将所述第一和值和所述第二和值的比值确定为所述罪名关联概率;
根据所述罪名转移概率确定罪名间无向演变路径,包括:
根据所述罪名关联概率确定所述罪名间无向演变路径。
在一实施方式中,所述罪名转移概率包括罪名间双向犯罪转移概率;
根据所述罪名转移概率确定罪名间单向演变路径,包括:
根据所述罪名间双向犯罪转移概率生成双向路径罪犯转移概率分布图;
根据所述双向路径罪犯转移概率分布图确定罪名间罪名转移主方向;
根据所述罪名间罪名转移主方向确定所述罪名间单向演变路径。
在一实施方式中,所述根据所述罪名间罪名转移主方向确定所述罪名间单向演变路径,包括:
根据所述罪名间罪名转移主方向确定罪名间初始单向演变路径;
从所述罪名间初始单向演变路径中确定罪名转移概率大于或等于预设转移概率阈值的目标犯罪转移路径;
根据所述目标犯罪转移路径确定多个起点罪名,对各所述起点罪名进行广度遍历,得到各所述起点罪名对应的罪名间单向演变路径。
在一实施方式中,所述根据多个裁判文书获取罪名序列,包括:
基于文书句式库对各所述裁判文书进行分段处理,形成标题段落、人员段落、正文段落、判决结果段落和落款段落,分别对所述标题段落、所述人员段落、所述正文段落、所述判决结果段落和所述落款段落进行指代消解处理,得到各个指代消解后段落;
基于罪名句式库和罪名知识库从各个所述指代消解后段落中提取非标准化关键信息;
基于罪名知识库对所述非标准化关键信息进行标准化处理及校验处理,得到结构化犯罪关键信息;
根据所述结构化犯罪关键信息生成所述罪名序列。
第二方面,本申请实施例提供了一种以海量文书构建罪名演化网络的装置,所述装置包括:
获取模块,用于根据多个裁判文书获取罪名序列;
第一确定模块,用于根据所述罪名序列确定罪名转移概率;
第二确定模块,用于根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;
生成模块,用于根据所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径生成罪名演化网络。
第三方面,本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的以海量文书构建罪名演化网络的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的以海量文书构建罪名演化网络的方法。
上述本申请提供的以海量文书构建罪名演化网络的方法、装置、设备及介质,根据多个裁判文书获取罪名序列;根据所述罪名序列确定罪名转移概率;根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;将所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径进行罪名节点关联,得到罪名演化网络。这样,利用海量裁判文书,依托自然语言处理技术结构化提取数百万名罪犯的刑罚数据,并利用罪名转移概率来刻画罪名间演化的可能性,形成了一套罪名演化网络,便于分析罪名演化过程,提高罪名演化的分析效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对本申请保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本申请实施例提供的以海量文书构建罪名演化网络的方法的一流程示意图;
图2示出了本申请实施例提供的以海量文书构建罪名演化网络的方法的另一流程示意图;
图3示出了本申请实施例提供的单罪名演变路径的一示例图;
图4示出了本申请实施例提供的罪名间无向演变路径的一示例图;
图5示出了本申请实施例提供的双向路径罪犯转移概率分布图的一示例图;
图6示出了本申请实施例提供的罪名间双向转移概率的一示例图;
图7示出了本申请实施例提供的罪名演化网络的一示例图;
图8示出了本申请实施例提供的以海量文书构建罪名演化网络的装置的一结构示意图。
图标:800-以海量文书构建罪名演化网络的装置,801-获取模块,802-第一确定模块,803-第二确定模块,804-生成模块。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在下文中,可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本申请的各种实施例中被清楚地限定。
实施例1
本公开实施例提供了一种以海量文书构建罪名演化网络的方法。
具体的,参见图1,以海量文书构建罪名演化网络的方法包括:
步骤S101,根据多个裁判文书获取罪名序列。
在本实施例中,可以基于海量裁判文书,利用知识库和信息提取的结构化数据处理方案,获取罪名序列。罪名序列可以包括多个罪名,同一个罪名可以进行违法编号等结构化处理。
在一实施方式中后,步骤S101包括:
基于文书句式库对各所述裁判文书进行分段处理,形成标题段落、人员段落、正文段落、判决结果段落和落款段落,分别对所述标题段落、所述人员段落、所述正文段落、所述判决结果段落和所述落款段落进行指代消解处理,得到各个指代消解后段落;
基于罪名句式库和罪名知识库从各个所述指代消解后段落中提取非标准化关键信息;
基于罪名知识库对所述非标准化关键信息进行标准化处理及校验处理,得到结构化犯罪关键信息;
根据所述结构化犯罪关键信息生成所述罪名序列。
请参阅图2,裁判文书可以为裁判文书网站公开的数据,裁判文书数据量较大,可以覆盖大量罪犯判决数据。举例来说,可以将2001-2020年之间的裁判文书案号含“刑”字共900多万裁判文书作为分析数据。通过裁判文书可以提取多个关键信息,关键信息可以为案号、裁判日期、姓名、别名、性别、生日、民族、文化、住址、籍贯、身体、党派、职业、历史罪名(处分时间、罪名、判决单位、刑罚手段、刑期)、当次罪名(判决时间、罪名、判决单位、刑罚手段、刑期)等。其中,在法律文书中,第一审刑事判决书的内容格式要求包括:被告人曾经受过刑事处分、劳动教养处分,或者又在以上限制自由的期间逃跑过的,可能构成累犯或者有法定从重、加重的情节,应写明其事由和时间。因此,罪犯的历史处分信息是应填尽填,裁判文书中的历史罪名与当次罪名可以支撑罪名演化网络构建。
具体的,可以针对已经获取的500万份一审裁判文书,利用自然语言处理技术对裁判文书进行关键信息结构化提取,并依托姓名、生日等已提取的关键信息对裁判文书进行罪犯罪名信息去重,共提取出600万条罪犯的文书信息;针对600万名罪犯犯罪数据,进行演化网络构建。
举例来说,参见表1,表1为文书结构化示例表,经过多次结构化处理,得到满足要求的结构化犯罪关键信息。
表1、文书结构化示例表
Figure P_221124164716631_631627001
请再次参见图2,对非结构化的裁判文件进行结构化处理的过程可以包括:首先各类句式库对文书进行分段化处理,利用正文起始句式、判决起始句式进行分段,形成标题、人员、正文、判决结果、落款五个段落;然后针对五个段落,在指代消解处理的基础上,利用对应的句式库及知识库进行信息提取,即通过人员称谓知识、人员信息句式、历史判断句式、判断结果句式,提取出罪犯对应字段的非标准化截取字段;再利用多个罪名知识库,对已提取字段进行标准化处理及合理性校验,即利用文书案号知识、罪名体系知识、刑罚手段知识进行数据标准合理性校验,保障文书数据提取的标准化、一致性,最终形成海量罪犯标准化罪名序列。
需要说明的是,指代消解处理是针对裁判文书中回指性的指代词,如同年、今年、被告人等指代词进行指代消解处理,将指定词替换为原文,保证裁判文书提取出的信息更为准确和可用。
具体的,基于罪名知识库对所述非标准化关键信息进行标准化处理及校验处理,包括:
对所述非标准化关键信息进行日期数字标准化、刑罚时长数字标准化、刑罚手段标准化、罪名标准化和刑罚手段标准化,起始刑期的合理性校验、刑期与罪名数量一致性校验。
在本实施例中,通过文书结构化操作,针对每名罪犯将形成自身的标准化罪名序列,主要包含罪犯所有的罪名序列:在什么时间被判了什么罪名,并被处以了什么刑罚手段,刑期是多长,在何时被释放。举例来说,经过结构化处理后,共解析出6027305人的标准化罪名序列,其中:4575497人仅有一次罪名,857185人有两次罪名,508855人有三到五次罪名,79949人有六到十次罪名,甚至5819人存在十次以上罪名。
在一实施方式中,构建各类罪名知识库,包括:
获取多类罪名种子词,基于各类罪名种子词进行相似词召回,从召回的相似词中确定相似度处于预设相似度范围的多个候选词;
通过词向量模型对各类所述罪名种子词进行多轮扩充,从各轮扩充后词语中筛选出属于多个所述候选词的目标词语,根据多个所述目标词语得到各类罪名种子词对应的罪名知识库;
构建所述罪名句式库,包括:
采用词正则式与词性正则式对多个所述裁判文书进行机器自动标注,得到机器自动标注结果;
根据所述机器自动标注结果对罪犯词正则式与罪犯词性正则式进行优化处理,根据优化后的词正则式和优化后词性正则式生成罪名句式库。
需要说明的是,各类罪名知识库包括人员称谓知识库、案号知识库、罪名知识库、刑罚知识库等,各类罪名知识库由不同的词/短语组成。不同知识库的构建细节有所差异,但是大致流程可归纳为:通过外部司法知识、专家知识及句式特性挖掘,形成特定知识库的罪名种子词,如人员称谓中的被告、原告等;在罪名种子词的扩充中,训练了两个大规模的词向量模型,分别可以为Directional skip-gram大规模预训练词向量模型,以及使用结巴分词器(paddle版本)对海量刑事裁判文书进行分词并训练的Word2Vec词向量模型,通过词向量可以将罪名种子词进行多轮扩充,如“被告”可以扩充到“原告方”、“被告方”、“上诉人”、“原审”、“被告一”等;不过,在每轮扩充后,可以利用人工筛选扩充后的罪名种子词表以保证词表的高准确性,当扩充后的词表在前100个词(Top100)中找不到对应的词,则停止词表扩充。
进一步补充说明的是,罪名句式库包括正文起始句式、判决起始句式、人员信息句式、历史罪名句式、判决结果句式等,各罪名类句式库建立在知识库的基础上,由词正则式与词性正则式两类正则表达式组成,正则表达式对待提取字段保留相应的匹配空位。其中词正则就是常规基于词的正则表达式;而词性正则式,则是建立在分词及词性标注的基础上,融合了词与词性的正则表达式。句式库的构建以迭代方式进行完善,每轮迭代中:首先依托句式库对随机100份文书进行机器自动标注,然后利用人工进行二次标注,最后优化罪名句式库以解决机器自动标注存在的错误。
步骤S102,根据所述罪名序列确定罪名转移概率。
在本实施例中,为衡量从某种罪名
Figure P_221124164716694_694143001
转移到另一种罪名
Figure P_221124164716709_709766002
的可能性,引入罪名转移概率,用
Figure P_221124164716741_741005003
表示。请在再次参阅图2,在获取海量罪名序列后,执行罪名转移概率生成的步骤。
在一实施方式中,步骤S102包括:
确定所述罪名序列中出现罪名
Figure P_221124164716772_772245001
的次数,确定所述罪名序列中先出现罪名
Figure P_221124164716790_790279002
、再出现罪名
Figure P_221124164716805_805982003
的罪名转移出现次数;
将所述罪名转移出现次数与所述罪名序列中出现罪名
Figure P_221124164716837_837675001
的次数的比值确定为罪名
Figure P_221124164716853_853364002
转移为罪名
Figure P_221124164716884_884558003
的罪名转移概率。
需要说明的是,同一人中多次出现
Figure P_221124164716900_900195001
或同一人中多次出现先出现罪名
Figure P_221124164716915_915798002
、再出现罪名
Figure P_221124164716947_947059003
的仅计算一次。为保证转移路径具备数据统计意义,在后续处理中,仅考虑转移概率大于0.1%、且序列出现次数大于100的转移路径。
示范性地,所述将所述罪名转移出现次数与所述罪名序列中出现罪名
Figure P_221124164716962_962670001
的次数的比值确定为罪名
Figure P_221124164716995_995903002
转移为罪名
Figure P_221124164717011_011503003
的罪名转移概率,包括:
根据如下公式计算所述罪名转移概率;
Figure P_221124164717042_042745001
其中,
Figure P_221124164717074_074012001
表示所述罪名序列中罪名
Figure P_221124164717089_089625002
的出现次数,
Figure P_221124164717120_120907003
表示所述罪名序列中先出现罪名
Figure P_221124164717136_136503004
再出现罪名
Figure P_221124164717167_167766005
的转移出现次数。
由于“盗窃罪”、“走私、贩卖、运输、制造毒品罪”、“吸毒罪”等容易反复的罪名演化中出现,需要将同一种罪名的多次违法进行区分,需将“罪名_违法序号”作为新的罪名。如某名罪犯的所有罪名及序号为“盗窃罪、吸毒罪、脱逃罪、盗窃罪、盗窃罪”,将该犯人的罪名修正为“盗窃罪_1、吸毒罪_1、脱逃罪_1、盗窃罪_2、盗窃罪_3”。其中,序号最长为9,即单种罪名达10次及以上的,违法序号均认定为9。下面对引入违法序号后计算罪名转移概率的具体过程进行说明。
在一实施方式中,所述罪名序列包括罪名及违法序号;步骤S102包括:
根据以下公式计算所述罪名转移概率:
Figure P_221124164717191_191650001
其中,
Figure P_221124164717239_239046002
表示违法序列m的罪名
Figure P_221124164717270_270290003
Figure P_221124164717301_301571004
表示违法序列n的罪名
Figure P_221124164717317_317188005
Figure P_221124164717554_554050006
表示所述罪名序列中违法序列n的罪名
Figure P_221124164717569_569617007
的出现次数,
Figure P_221124164717603_603307008
表示所述罪名序列中先出现违法序列n的罪名
Figure P_221124164717618_618919009
再出现违法序列m的罪名
Figure P_221124164717650_650191010
的罪名转移出现次数,当罪名
Figure P_221124164717681_681430011
与罪名
Figure P_221124164717697_697050012
相同时,m等于n加1的和值。
示范性的,罪名
Figure P_221124164717728_728297001
与罪名
Figure P_221124164717743_743941002
相同可以用
Figure P_221124164717775_775195003
表示,m等于n加1的和值可以用
Figure P_221124164717807_807923004
表示。
在本实施例中,在计算不同罪名的转移概率中,任意两个罪名间可以有两条转移路径,为了研究罪名间的关联度,需要对罪名转移概率进行公式优化,引入罪名关联概率
Figure P_221124164717823_823532001
在一实施方式中,所述罪名转移概率包括罪名关联概率,所述根据所述罪名序列确定罪名转移概率,包括:
分别确定所述罪名序列中出现罪名
Figure P_221124164717854_854760001
的第一次数和出现罪名
Figure P_221124164717886_886024002
的第二次数;
确定在所述罪名序列中先出现罪名
Figure P_221124164717901_901636001
再出现罪名
Figure P_221124164717932_932900002
的第三次数,以及先出现罪名
Figure P_221124164717948_948532003
再出现罪名
Figure P_221124164717981_981697004
的第四次数;
计算所述第一次数和所述第二次数的第一和值,计算所述第三次数和所述第四次数的第二和值,将所述第一和值和所述第二和值的比值确定为所述罪名关联概率。
具体的,可以根据以下公式计算罪名关联概率:
Figure P_221124164717997_997842001
其中,
Figure P_221124164718044_044727001
表示所述罪名序列中出现罪名
Figure P_221124164718060_060343002
的第一次数和出现罪名
Figure P_221124164718091_091592003
的第二次数的和值,
Figure P_221124164718107_107217004
表示所述罪名序列中先出现罪名
Figure P_221124164718138_138481005
再出现罪名
Figure P_221124164718154_154068006
的第三次数,
Figure P_221124164718186_186325007
表示所述罪名序列中先出现罪名
Figure P_221124164718202_202434008
再出现罪名
Figure P_221124164718233_233713009
的第四次数。
需要指出的是,同一人中多次出现罪名
Figure P_221124164718264_264927001
,仅计算一次。同一人中多次出现多次出现罪名
Figure P_221124164718280_280565002
,仅计算一次。同一人中多次出现先出现罪名
Figure P_221124164718311_311832003
再出现罪名
Figure P_221124164718327_327437004
的情况时,仅计算一次。同一人中多次出现先出现罪名
Figure P_221124164718358_358688005
再出现罪名
Figure P_221124164718374_374296006
的情况时,仅计算一次。以此,便可以刻画出任意两个罪名间的无向演变路径及概率值。
步骤S103,根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径。
在本实施例中,单罪名演变路径分为主演变路径及分支演变路径:通过计算单种罪名的重复违法概率,绘制出演变路径的主演变路径;在演变的主路径上,罪犯经常会出现其他罪名,通过计算出哪些罪名会以更高或更低的概率转移回原罪名,绘制出演变路径的分支演变路径。请再此参阅图2,在获取罪名转移概率后,获取罪名间无向演变路径、单罪名演变路径和罪名间单向演变路径。
在一实施方式中,所述罪名转移概率包括单罪名重复违法概率,单罪名演变路径包括单罪名主演变路径和单罪名分支演变路径;
根据所述罪名转移概率确定单罪名演变路径,包括:
根据所述单罪名重复违法概率确定单罪名主演变路径;
根据所述罪名序列确定所述单罪名主演变路径的相邻主罪名节点之间的分支转移罪名概率;
根据所述分支转移罪名概率确定所述单罪名分支演变路径。
请参阅图3,对于盗窃罪这一单罪名来看,盗窃罪_1和盗窃罪_2的单罪名重复违法概率为39.1%,盗窃罪_2和盗窃罪_3的单罪名重复违法概率为49.1%,盗窃罪_3和盗窃罪_4的单罪名重复违法概率为52.9%,在盗窃罪_1和盗窃罪_2之间还有其他分支演变路径,例如,由逃脱罪_1转移回盗窃罪_2的概率为58.3,由奸淫幼女罪_1转移回盗窃罪_2的概率为57.7%,由逃脱罪_1转移回盗窃罪_3的概率为63.1%,由收购销售赃物罪_1转移回盗窃罪_4的概率为49%。需要说明的是,在图3中还有其他支路演化路径可以转移回到盗窃罪_2、盗窃罪_3和盗窃罪_4,详情参见图3,在此不做一一说明。
在一实施方式中,所述罪名转移概率包括罪名关联概率,根据所述罪名转移概率确定罪名间无向演变路径,包括:
根据所述罪名关联概率确定所述罪名间无向演变路径。
请参阅图4,图4所示为罪名间的无向演变路径示意图,任意两个罪名间可以通过边连接,赌博罪与吸毒罪之间连接无向演变路径,故意杀人与吸毒罪之间连接无向演变路径,故意杀人罪与斗殴罪之间连接无向演变路径,斗殴罪与吸毒罪之间连接无向演变路径,吸毒罪与故意杀人罪之间连接无向演变路径,赌博罪与斗殴罪之间连接无向演变路径。需要说明的是,图4仅用作解释说明无向演变路径,在实际应用中,由于罪名复杂多变,任一两个罪名之间的无向演变路径也会更复杂,在此不做限制。
在本实施例中,在计算不同罪名之间的转移概率中,任意两个罪名间存在一条双向演变路径。但是,双向演变路径一定程度会加大演化分析的困难,所以可以在双向演变路径中找到更明确的主演变方向,将双向路径简化为单向路径。如“盗窃罪”转移为“抢夺罪”的概率为0.7%,“抢夺罪”转移为“盗窃罪”的概率为28%,即“抢夺罪”更易转移为“盗窃罪”,反之,若盗窃罪”转移为“抢夺罪”的概率为1%,“抢夺罪”转移为“盗窃罪”的概率为1%,两个方向的概率相同,则没有主演变方向。
为保证双向路径简化为单向路径是合理并且可行的,可以绘制双向演变路径的转移概率分布图,用于观察是否大多双向路径存在较为明显的方向性,即确定两个转移概率的差异是否比较大。
参见图5,图5所示为双向路径转移概率分布图,其横坐标是双向路径的转移概率较大值,纵坐标是双向路径的转移概率较小值,按照不同区间绘制双向路径转移概率的分布图,共有[0,0.1%) [0.1%-0.5%) [0.5%-1%) [1%-5%) [5%-10%) [10%-100%]六个区间。
其中,双向路径中转移概率较大值为:
Figure P_221124164718407_407515001
其中,双向路径中转移概率较小值为:
Figure P_221124164718438_438765001
在一实施方式中,所述罪名转移概率包括罪名间双向犯罪转移概率;
根据所述罪名转移概率确定罪名间单向演变路径,包括:
根据所述罪名间双向犯罪转移概率生成双向路径罪犯转移概率分布图;
根据所述双向路径罪犯转移概率分布图确定罪名间罪名转移主方向;
根据所述罪名间罪名转移主方向确定所述罪名间单向演变路径。
示范性的,参见图5,较大值位于1%-5%范围区间,且较小值1%-5%范围区间的双向转移概率有16个。举例来说,参见图6,聚众斗殴罪向赌博罪的转移概率为1.1%,赌博罪向聚众斗殴罪的转移概率为1.1%。抢劫罪向敲诈勒索罪的转移概率为1.3%,敲诈勒索罪向抢劫罪的转移概率为1.3%,除此之外,图6还示出了其他两个罪名之间的转移概率,详情参见图6。
在一实施方式中,所述根据所述罪名间罪名转移主方向确定所述罪名间单向演变路径,包括:
根据所述罪名间罪名转移主方向确定罪名间初始单向演变路径;
从所述罪名间初始单向演变路径中确定罪名转移概率大于或等于预设转移概率阈值的目标犯罪转移路径;
根据所述目标犯罪转移路径确定多个起点罪名,对各所述起点罪名进行广度遍历,得到各所述起点罪名对应的罪名间单向演变路径。
在本实施例中,在单向演变路径构建完成后,再通过转移概率阈值筛选出较为可信的路径后,能够分析出哪些罪名一般只作为路径起点,而哪些罪名一般只作为路径终点。同时,选择只作为路径起点的罪名,进行广度遍历,能够得到不同罪名的演变路径。
示范行的,起点罪名可以为持有使用假币罪、拐卖妇女儿童罪、非法侵入住宅罪、......、逃脱罪等,终点罪可以为传播性病罪、妨害公务罪、......、容留介绍卖淫罪等。举例来说,对起点罪名进行广度搜索,可以得到各个起点罪名对应的罪名间单向演变路径。例如,起点罪名为抢夺罪,经过广度搜索,其对应的罪名间单向演变路径为抢夺罪-盗窃罪-诈骗罪,对于其他起点罪名,也可以经过广度搜索,以确定其对应的罪名间单向演变路径,在此不做限制。
步骤S104,将所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径进行罪名节点关联,得到罪名演化网络。
在本实施例中,可以先根据单罪名演变路径生成单罪名网络,根据罪名间无向演变路径生成罪名间无向演变网络,根据罪名间单向演变路径生成罪名间单向演变网络,单罪名网络、罪名间无向演变网络和罪名间单向演变网络分别包括罪名节点以及连接两个罪名节点的边,将单罪名网络、罪名间无向演变网络和罪名间单向演变网络的节点进行关联,得到罪名演化网络。请再此参阅图2,罪名演化网络可以包括罪名间无向演变网络、单罪演变网络及罪名间单向演变网络。
示范性的,可以根据罪名演化网络生成可视化罪名演化图,可视化罪名演化图标注有罪名间单向转移概率、罪名间关联转移概率以及单罪名转移概率、罪名与违法序号的归属关系。
请参阅图7,图7所示为可视化罪名演化图,其中,盗窃罪_1、盗窃罪_2、盗窃罪_3、盗窃罪_4、盗窃罪_5均属于盗窃罪,从盗窃罪_1演变至盗窃罪_5的单罪名演变概率分别为演变概率P1、演变概率P2、演变概率P3、演变概率P4,盗窃罪向抢劫罪转变的单向演变概率P5,抢劫罪向盗窃罪转变的单向演变概率P6,盗窃罪与抢劫罪之间的罪名关联概率P7。
本实施例提供的以海量文书构建罪名演化网络的方法,根据多个裁判文书获取罪名序列;根据所述罪名序列确定罪名转移概率;根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;将所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径进行罪名节点关联,得到罪名演化网络。这样,利用海量裁判文书,依托自然语言处理技术结构化提取数百万名罪犯的刑罚数据,并利用罪名转移概率来刻画罪名间演化的可能性,形成了一套罪名演化网络,便于分析罪名演化过程,提高罪名演化的分析效率。
实施例2
此外,本公开实施例提供了一种以海量文书构建罪名演化网络的装置。
具体的,如图8所示,以海量文书构建罪名演化网络的装置800包括:
获取模块801,用于根据多个裁判文书获取罪名序列;
第一确定模块802,用于根据所述罪名序列确定罪名转移概率;
第二确定模块803,用于根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;
生成模块804,用于根据所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径生成罪名演化网络。
在一实施方式中,第一确定模块802,还用于确定所述罪名序列中出现罪名
Figure P_221124164718470_470033001
的次数,确定所述罪名序列中先出现罪名
Figure P_221124164718485_485634002
、再出现罪名
Figure P_221124164718516_516867003
的罪名转移出现次数;
将所述罪名转移出现次数与所述罪名序列中出现罪名
Figure P_221124164718532_532487001
的次数的比值确定为罪名
Figure P_221124164718563_563764002
转移为罪名
Figure P_221124164718580_580330003
的罪名转移概率。
在一实施方式中,所述罪名序列包括罪名及违法序号;第一确定模块802,还用于根据以下公式计算所述罪名转移概率:
Figure P_221124164718612_612107001
其中,
Figure P_221124164718643_643351002
表示违法序列m的罪名
Figure P_221124164718674_674602003
Figure P_221124164718690_690212004
表示违法序列n的罪名
Figure P_221124164718721_721495005
Figure P_221124164718737_737099006
表示所述罪名序列中违法序列n的罪名
Figure P_221124164718768_768391007
的出现次数,
Figure P_221124164718803_803493008
表示所述罪名序列中先出现违法序列n的罪名
Figure P_221124164718819_819144009
再出现违法序列m的罪名
Figure P_221124164718850_850385010
的罪名转移出现次数,当罪名
Figure P_221124164718866_866003011
与罪名
Figure P_221124164718897_897249012
相同时,m等于n加1的和值。
在一实施方式中,所述罪名转移概率包括单罪名重复违法概率,单罪名演变路径包括单罪名主演变路径和单罪名分支演变路径;第二确定模块803,还用于根据所述单罪名重复违法概率确定单罪名主演变路径;
根据所述罪名序列确定所述单罪名主演变路径的相邻主罪名节点之间的分支转移罪名概率;
根据所述分支转移罪名概率确定所述单罪名分支演变路径。
在一实施方式中,所述罪名转移概率包括罪名关联概率,第一确定模块802,还用于分别确定所述罪名序列中出现罪名
Figure P_221124164718928_928510001
的第一次数和出现罪名
Figure P_221124164718944_944132002
的第二次数;
确定在所述罪名序列中先出现罪名
Figure P_221124164718975_975379001
再出现罪名
Figure P_221124164718992_992434002
的第三次数,以及先出现罪名
Figure P_221124164719024_024209003
再出现罪名
Figure P_221124164719039_039845004
的第四次数;
计算所述第一次数和所述第二次数的第一和值,计算所述第三次数和所述第四次数的第二和值,将所述第一和值和所述第二和值的比值确定为所述罪名关联概率;
第二确定模块803,还用于根据所述罪名关联概率确定所述罪名间无向演变路径。
在一实施方式中,所述罪名转移概率包括罪名间双向犯罪转移概率;第二确定模块803,还用于根据所述罪名间双向犯罪转移概率生成双向路径罪犯转移概率分布图;
根据所述双向路径罪犯转移概率分布图确定罪名间罪名转移主方向;
根据所述罪名间罪名转移主方向确定所述罪名间单向演变路径。
在一实施方式中,第二确定模块803,还用于根据所述罪名间罪名转移主方向确定罪名间初始单向演变路径;
从所述罪名间初始单向演变路径中确定罪名转移概率大于或等于预设转移概率阈值的目标犯罪转移路径;
根据所述目标犯罪转移路径确定多个起点罪名,对各所述起点罪名进行广度遍历,得到各所述起点罪名对应的罪名间单向演变路径。
在一实施方式中,获取模块801,用于基于文书句式库对各所述裁判文书进行分段处理,形成标题段落、人员段落、正文段落、判决结果段落和落款段落,分别对所述标题段落、所述人员段落、所述正文段落、所述判决结果段落和所述落款段落进行指代消解处理,得到各个指代消解后段落;
基于罪名句式库和罪名知识库从各个所述指代消解后段落中提取非标准化关键信息;
基于罪名知识库对所述非标准化关键信息进行标准化处理及校验处理,得到结构化犯罪关键信息;
根据所述结构化犯罪关键信息生成所述罪名序列。
在一实施方式中,以海量文书构建罪名演化网络的装置800还包括:
第一构建模块,用于获取多类罪名种子词,基于各类罪名种子词进行相似词召回,从召回的相似词中确定相似度处于预设相似度范围的多个候选词;
通过词向量模型对各类所述罪名种子词进行多轮扩充,从各轮扩充后词语中筛选出属于多个所述候选词的目标词语,根据多个所述目标词语得到各类罪名种子词对应的罪名知识库;
第二构建模块,用于采用词正则式与词性正则式对多个所述裁判文书进行机器自动标注,得到机器自动标注结果;
根据所述机器自动标注结果对罪犯词正则式与罪犯词性正则式进行优化处理,根据优化后的词正则式和优化后词性正则式生成罪名句式库。
本实施例提供的以海量文书构建罪名演化网络的装置800可以实现实施例1所提供的以海量文书构建罪名演化网络的方法,为避免重复,在此不再赘述。
本实施例提供的以海量文书构建罪名演化网络的装置,根据多个裁判文书获取罪名序列;根据所述罪名序列确定罪名转移概率;根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;将所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径进行罪名节点关联,得到罪名演化网络。这样,利用海量裁判文书,依托自然语言处理技术结构化提取数百万名罪犯的刑罚数据,并利用罪名转移概率来刻画罪名间演化的可能性,形成了一套罪名演化网络,便于分析罪名演化过程,提高罪名演化的分析效率。
实施例3
此外,本公开实施例提供了一种电子设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行实施例1所提供的以海量文书构建罪名演化网络的方法。
本实施例提供的电子设备可以实现实施例1所提供的以海量文书构建罪名演化网络的方法,为避免重复,在此不再赘述。
实施例4
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现实施例1所提供的以海量文书构建罪名演化网络的方法。
在本实施例中,计算机可读存储介质可以为只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本实施例提供的计算机可读存储介质可以实现实施例1所提供的以海量文书构建罪名演化网络的方法,为避免重复,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (9)

1.一种以海量文书构建罪名演化网络的方法,其特征在于,所述方法包括:
根据多个裁判文书获取罪名序列;
根据所述罪名序列确定罪名转移概率;
根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;
将所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径进行罪名节点关联,得到罪名演化网络;
所述根据所述罪名序列确定罪名转移概率,包括:
确定所述罪名序列中出现罪名
Figure P_221124164712912_912375001
的次数,确定所述罪名序列中先出现罪名
Figure P_221124164712943_943641002
、再出现罪名
Figure P_221124164712959_959272003
的罪名转移出现次数;
将所述罪名转移出现次数与所述罪名序列中出现罪名
Figure P_221124164712992_992917001
的次数的比值确定为罪名
Figure P_221124164713009_009065002
转移为罪名
Figure P_221124164713040_040316003
的罪名转移概率。
2.根据权利要求1所述的方法,其特征在于,所述罪名转移概率包括单罪名重复违法概率,单罪名演变路径包括单罪名主演变路径和单罪名分支演变路径;
根据所述罪名转移概率确定单罪名演变路径,包括:
根据所述单罪名重复违法概率确定单罪名主演变路径;
根据所述罪名序列确定所述单罪名主演变路径的相邻主罪名节点之间的分支转移罪名概率;
根据所述分支转移罪名概率确定所述单罪名分支演变路径。
3.根据权利要求1所述的方法,其特征在于,所述罪名转移概率包括罪名关联概率,所述根据所述罪名序列确定罪名转移概率,包括:
分别确定所述罪名序列中出现罪名
Figure P_221124164713055_055948001
的第一次数和出现罪名
Figure P_221124164713087_087192002
的第二次数;
确定在所述罪名序列中先出现罪名
Figure P_221124164713102_102808001
再出现罪名
Figure P_221124164713118_118445002
的第三次数,以及先出现罪名
Figure P_221124164713149_149679003
再出现罪名
Figure P_221124164713165_165349004
的第四次数;
计算所述第一次数和所述第二次数的第一和值,计算所述第三次数和所述第四次数的第二和值,将所述第一和值和所述第二和值的比值确定为所述罪名关联概率;
根据所述罪名转移概率确定罪名间无向演变路径,包括:
根据所述罪名关联概率确定所述罪名间无向演变路径。
4.根据权利要求1所述的方法,其特征在于,所述罪名转移概率包括罪名间双向犯罪转移概率;
根据所述罪名转移概率确定罪名间单向演变路径,包括:
根据所述罪名间双向犯罪转移概率生成双向路径罪犯转移概率分布图;
根据所述双向路径罪犯转移概率分布图确定罪名间罪名转移主方向;
根据所述罪名间罪名转移主方向确定所述罪名间单向演变路径。
5.根据权利要求4所述的方法,其特征在于,所述根据所述罪名间罪名转移主方向确定所述罪名间单向演变路径,包括:
根据所述罪名间罪名转移主方向确定罪名间初始单向演变路径;
从所述罪名间初始单向演变路径中确定罪名转移概率大于或等于预设转移概率阈值的目标犯罪转移路径;
根据所述目标犯罪转移路径确定多个起点罪名,对各所述起点罪名进行广度遍历,得到各所述起点罪名对应的罪名间单向演变路径。
6.根据权利要求1所述的方法,其特征在于,所述根据多个裁判文书获取罪名序列,包括:
基于文书句式库对各所述裁判文书进行分段处理,形成标题段落、人员段落、正文段落、判决结果段落和落款段落,分别对所述标题段落、所述人员段落、所述正文段落、所述判决结果段落和所述落款段落进行指代消解处理,得到各个指代消解后段落;
基于罪名句式库和罪名知识库从各个所述指代消解后段落中提取非标准化关键信息;
基于罪名知识库对所述非标准化关键信息进行标准化处理及校验处理,得到结构化犯罪关键信息;
根据所述结构化犯罪关键信息生成所述罪名序列。
7.一种以海量文书构建罪名演化网络的装置,其特征在于,所述装置包括:
获取模块,用于根据多个裁判文书获取罪名序列;
第一确定模块,用于根据所述罪名序列确定罪名转移概率;
第二确定模块,用于根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;
生成模块,用于根据所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径生成罪名演化网络;
所述第一确定模块,还用于确定所述罪名序列中出现罪名
Figure P_221124164713181_181898001
的次数,确定所述罪名序列中先出现罪名
Figure P_221124164713213_213672002
、再出现罪名
Figure P_221124164713229_229317003
的罪名转移出现次数;
将所述罪名转移出现次数与所述罪名序列中出现罪名
Figure P_221124164713260_260545001
的次数的比值确定为罪名
Figure P_221124164713276_276185002
转移为罪名
Figure P_221124164713291_291792003
的罪名转移概率。
8.一种电子设备,其特征在于,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行权利要求1至6中任一项所述的以海量文书构建罪名演化网络的方法。
9.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至6中任一项所述的以海量文书构建罪名演化网络的方法。
CN202211283786.3A 2022-10-20 2022-10-20 以海量文书构建罪名演化网络的方法、装置、设备及介质 Active CN115358896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211283786.3A CN115358896B (zh) 2022-10-20 2022-10-20 以海量文书构建罪名演化网络的方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211283786.3A CN115358896B (zh) 2022-10-20 2022-10-20 以海量文书构建罪名演化网络的方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN115358896A CN115358896A (zh) 2022-11-18
CN115358896B true CN115358896B (zh) 2023-02-03

Family

ID=84008071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211283786.3A Active CN115358896B (zh) 2022-10-20 2022-10-20 以海量文书构建罪名演化网络的方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115358896B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205350A (zh) * 2023-01-12 2023-06-02 深圳市大数据研究院 基于法律文书的再犯人身危险性分析预测系统和方法
CN115982388B (zh) * 2023-03-06 2024-04-19 共道网络科技有限公司 案件质控图谱建立、案件文书质检方法、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968700A (zh) * 2019-11-01 2020-04-07 数地科技(北京)有限公司 一种融合多类事理与实体知识的领域事件图谱构建方法和装置
CN111222305A (zh) * 2019-12-17 2020-06-02 共道网络科技有限公司 一种信息结构化方法和装置
CN111797232A (zh) * 2020-06-11 2020-10-20 南京擎盾信息科技有限公司 法律事件图谱构建方法、法律事件推理方法、装置和电子设备
US11216426B1 (en) * 2018-06-14 2022-01-04 KnowPeds, LLC Efficient data scraping and deduplication system for registered sex offender queries
WO2022134794A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 新闻事件的舆情处理方法及装置、存储介质、计算机设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140081652A1 (en) * 2012-09-14 2014-03-20 Risk Management Solutions Llc Automated Healthcare Risk Management System Utilizing Real-time Predictive Models, Risk Adjusted Provider Cost Index, Edit Analytics, Strategy Management, Managed Learning Environment, Contact Management, Forensic GUI, Case Management And Reporting System For Preventing And Detecting Healthcare Fraud, Abuse, Waste And Errors
CN111428466B (zh) * 2018-12-24 2022-04-01 北京国双科技有限公司 法律文书解析方法及装置
CN111797230B (zh) * 2020-06-11 2021-07-13 南京擎盾信息科技有限公司 法律三阶层论自动推理方法、装置和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11216426B1 (en) * 2018-06-14 2022-01-04 KnowPeds, LLC Efficient data scraping and deduplication system for registered sex offender queries
CN110968700A (zh) * 2019-11-01 2020-04-07 数地科技(北京)有限公司 一种融合多类事理与实体知识的领域事件图谱构建方法和装置
CN111222305A (zh) * 2019-12-17 2020-06-02 共道网络科技有限公司 一种信息结构化方法和装置
CN111797232A (zh) * 2020-06-11 2020-10-20 南京擎盾信息科技有限公司 法律事件图谱构建方法、法律事件推理方法、装置和电子设备
WO2022134794A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 新闻事件的舆情处理方法及装置、存储介质、计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于事理图谱的辅助判案技术的研究与实现;郭佳;《中国优秀硕士学位论文全文数据库 社会科学I辑》;20220115(第01期);G120-23 *
犯罪行为演化图谱的自动构建方法研究;段锡辉;《软件工程》;20220505;第25卷(第5期);第10-14页 *

Also Published As

Publication number Publication date
CN115358896A (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN115358896B (zh) 以海量文书构建罪名演化网络的方法、装置、设备及介质
CN102667776B (zh) 用于处理信息流的信息的方法和系统
CN109740152B (zh) 文本类目的确定方法、装置、存储介质和计算机设备
US20090089279A1 (en) Method and Apparatus for Detecting Spam User Created Content
CN106062751A (zh) 对与数据类型有关的数据剖析操作的管理
CN109740642A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN107679213A (zh) 一种习题搜索方法、系统及终端设备
CN106326300A (zh) 信息处理方法以及信息处理设备
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
Hyland et al. Multilayer networks for text analysis with multiple data types
CN113515600A (zh) 一种基于元数据的空间分析自动计算方法
Gopal et al. Machine learning based classification of online news data for disaster management
CN113343012B (zh) 一种新闻配图方法、装置、设备及存储介质
CN111899822A (zh) 医疗机构数据库构建方法、查询方法、装置、设备和介质
CN105574091B (zh) 信息推送方法及装置
Martínez et al. Efficient model similarity estimation with robust hashing
He et al. Identifying genes and their interactions from pathway figures and text in biomedical articles
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质
CN116484025A (zh) 漏洞知识图谱构建方法、评估方法、设备及存储介质
KR100828560B1 (ko) 검색 대상과 연관된 단어를 추천하는 방법 및 상기 방법을수행하는 시스템
Moura et al. Integration of linked data sources for gazetteer expansion
CN109446318A (zh) 一种确定汽车维修文档主题的方法及相关设备
CN115345146A (zh) 一种文章检测的方法及装置
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant