CN107122451A - 一种法律文书案由分类器的自动构建方法 - Google Patents

一种法律文书案由分类器的自动构建方法 Download PDF

Info

Publication number
CN107122451A
CN107122451A CN201710281403.1A CN201710281403A CN107122451A CN 107122451 A CN107122451 A CN 107122451A CN 201710281403 A CN201710281403 A CN 201710281403A CN 107122451 A CN107122451 A CN 107122451A
Authority
CN
China
Prior art keywords
case
class
legal documents
sorted
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710281403.1A
Other languages
English (en)
Other versions
CN107122451B (zh
Inventor
金佩
张德政
贾麒
谢永红
齐宇馨
栗辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201710281403.1A priority Critical patent/CN107122451B/zh
Publication of CN107122451A publication Critical patent/CN107122451A/zh
Application granted granted Critical
Publication of CN107122451B publication Critical patent/CN107122451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种法律文书案由分类器的自动构建方法,分类效率高、准确率高。所述方法包括:获取多类案由的法律文书,确定每类案由的测试语料;对每类测试语料去停用词和分词;根据分词结果,确定每类案由的基本关键词;根据分词结果,对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表;输入待分类法律文书,对输入的所述待分类法律文书去停用词和分词、并进行词向量训练,根据所述待分类法律文书的词向量训练结果,计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。本发明涉及知识工程技术领域。

Description

一种法律文书案由分类器的自动构建方法
技术领域
本发明涉及知识工程技术领域,特别是指一种法律文书案由分类器的自动构建方法。
背景技术
近几年,我国最高人民法院为贯彻落实审判公开原则,设立了中国裁判文书网,规定除涉及国家秘密、个人隐私的、未成年人违法犯罪的、以调解方式结案的和其他不宜在互联网公布的裁判文书外,其余一律在网络上公布。这一政策为面向法律文书的自然语言处理技术带来了大量的研究资源。
在法律信息公开化的大时代背景下,在已有的海量法律文书中,让计算机获得学习能力和较准确的领域知识,有效利用这些海量的文本资源克服文本自然语言理解过程中的复杂性问题,实现文本分析,具有重要的理论价值和实际意义。
现有技术中,法律文书的案由提取,多为人工标记,效率低下;或是利用正则表达式进行匹配,准确率低。
发明内容
本发明要解决的技术问题是提供一种法律文书案由分类器的自动构建方法,以解决现有技术所存在的案由提取效率低下、准确率低的问题。
为解决上述技术问题,本发明实施例提供一种法律文书案由分类器的自动构建方法,包括:
获取多类案由的法律文书,构建案由基础语料库,根据构建的所述案由基础语料库,确定每类案由的测试语料;
对每类测试语料去停用词和分词;
根据分词结果,确定每类案由的基本关键词;
根据分词结果,对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表;
输入待分类法律文书,对输入的所述待分类法律文书去停用词和分词、并进行词向量训练,根据所述待分类法律文书的词向量训练结果,计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。
进一步地,所述法律文书包括:判决书和裁定书;
所述获取多类案由的法律文书,构建案由基础语料库,根据构建的所述案由基础语料库,确定每类案由的测试语料包括:
获取多类案由的法律文书,根据获取的所述多类案由的法律文书,构建案由基础语料库;
针对第i类案由,从构建的所述案由基础语料库中选取相应的判决书和裁定书进行合并,得到第i类案由的测试语料。
进一步地,在对每类测试语料去停用词和分词之前,所述方法还包括:
对每类测试语料进行结构划分,去掉文书头部、文书尾部以及当事人信息。
进一步地,所述对每类测试语料去停用词和分词包括:
根据预先自定义的去停用词词典和分词词典,利用Ansj分词器对去掉文书头部、文书尾部以及当事人信息的每类测试语料去停用词和分词;
对分词后得到的结果进行数据过滤。
进一步地,所述对分词后得到的结果进行数据过滤包括:
过滤掉分词后结果中的人名、地名、企业、法院。
进一步地,所述根据分词结果,对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表包括:
根据分词结果,应用词向量模型对第i类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的第i类案由的基本关键词,确定第i类案由的扩充关键词列表。
进一步地,所述根据分词结果,应用词向量模型对第i类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的第i类案由的基本关键词,确定第i类案由的扩充关键词列表包括:
应用词向量模型对第i类测试语料进行词向量训练,将第i类测试语料分词结果中的所有词语投影到向量空间中,得到第i类测试语料的词向量模型;
加载第i类测试语料的词向量模型,计算词向量模型中每个词语与第i类案由的基本关键词的语义相似度;
将计算得到的语义相似度由大到小进行排序,选取语义相似度最高且语义相似度均大于门限值的前N个词语,与确定的第i类案由的基本关键词,共同构成第i类案由的扩充关键词列表。
进一步地,所述根据分词结果,应用词向量模型对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表包括:
应用词向量模型对第i类测试语料进行词向量训练,将第i类测试语料分词结果中的所有词语投影到向量空间中,得到第i类测试语料的词向量模型;
加载第i类测试语料的词向量模型,计算词向量模型中每个词语与第i类案由的基本关键词的语义相似度;
将计算得到的语义相似度由小到大进行排序,选取语义相似度最高且语义相似度均大于门限值的后N个词语,与确定的第i类案由的基本关键词,共同构成第i类案由的扩充关键词列表。
进一步地,所述对输入的所述待分类法律文书去停用词和分词、并进行词向量训练,根据所述待分类法律文书的词向量训练结果,计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由包括:
对输入的所述待分类法律文书去停用词和分词;
根据分词结果,将所述待分类法律文书中的所有词投影到向量空间中,得到所述待分类法律文书的词向量模型,计算各类扩充关键词列表中的每个关键词与所述待分类法律文书的词向量模型中每个词语的语义相似度;
获取与每个关键词最接近的前M个词语的语义相似度进行求和,求和结果作为每个关键词与所述待分类法律文书的语义相似度;
将每类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。
进一步地,所述将每类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由包括:
将第i类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加,得到所述待分类法律文书与第i类案由的扩充关键词列表的语义相似度总和;
将得到的多个语义相似度总和进行比较,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。
本发明的上述技术方案的有益效果如下:
上述方案中,获取多类案由的法律文书,构建案由基础语料库,根据构建的所述案由基础语料库,确定每类案由的测试语料;对每类测试语料去停用词和分词;根据分词结果,确定每类案由的基本关键词;根据分词结果,对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表;输入待分类法律文书,对输入的所述待分类法律文书去停用词和分词、并进行词向量训练,根据所述待分类法律文书的词向量训练结果,计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。这样,通过词向量训练,完成对自然语言描述的法律文书的理解,从而高效、准确地自动确定待分类法律文书的案由,完成待分类法律文书的分类。
附图说明
图1为本发明实施例提供的法律文书案由分类器的自动构建方法的流程示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的案由提取效率低下、准确率低的问题,提供一种法律文书案由分类器的自动构建方法。
如图1所示,本发明实施例提供的法律文书案由分类器的自动构建方法,包括:
S101,获取多类案由的法律文书,构建案由基础语料库,根据构建的所述案由基础语料库,确定每类案由的测试语料;
S102,对每类测试语料去停用词和分词;
S103,根据分词结果,确定每类案由的基本关键词;
S104,根据分词结果,对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表;
S105,输入待分类法律文书,对输入的所述待分类法律文书去停用词和分词、并进行词向量训练,根据所述待分类法律文书的词向量训练结果,计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。
本发明实施例所述的法律文书案由分类器的自动构建方法,获取多类案由的法律文书,构建案由基础语料库,根据构建的所述案由基础语料库,确定每类案由的测试语料;对每类测试语料去停用词和分词;根据分词结果,确定每类案由的基本关键词;根据分词结果,对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表;输入待分类法律文书,对输入的所述待分类法律文书去停用词和分词、并进行词向量训练,根据所述待分类法律文书的词向量训练结果,计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。这样,通过词向量训练,完成对自然语言描述的法律文书的理解,从而高效、准确地自动确定待分类法律文书的案由,完成待分类法律文书的分类。
在前述法律文书案由分类器的自动构建方法的具体实施方式中,进一步地,所述法律文书包括:判决书和裁定书;
所述获取多类案由的法律文书,构建案由基础语料库,根据构建的所述案由基础语料库,确定每类案由的测试语料包括:
获取多类案由的法律文书,根据获取的所述多类案由的法律文书,构建案由基础语料库;
针对第i类案由,从构建的所述案由基础语料库中选取相应的判决书和裁定书进行合并,得到第i类案由的测试语料。
本实施例中,分析了《人民法院信息网络系统建设技术规范——案由代码》(2015年修订本),《人民法院信息网络系统建设技术规范——案由代码》(2015年修订本)中明确将所有案由划分为民事、刑事、行政、赔偿和执行五大类型,经分析判定其中民事和刑事两类最为常见。因此,本实施例从民事和刑事这两大类中选取了出现/发生频率最高的11类案由,并从网络中爬取这11类案由的法律文书,根据爬取的这11类案由的法律文书,构建案由基础语料库;针对每类案由,从构建的所述案由基础语料库中选取判决书和裁定书输出进行合并,形成11类案由的测试语料,具体的,针对第i类案由,从构建的所述案由基础语料库中选取相应的判决书和裁定书输出到同一文档中,得到第i类案由的测试语料。
本实施例中,所述案由基础语料库包括11类案由的所有形式的法律文书(判决书、裁定书、通知书等等),每篇文书为一条语料,所述案由基础语料库存储了每篇文书的全文、案由和文书形式。每类案由的测试语料包括:判决书、裁定书。
本实施例中,例如,分别从网上对每类案由爬取5000份法律文书,构建案由基础语料库。针对每类案由,从构建的案由基础语料库中选取判决书和裁定书合并为一份文档,形成11类案由的测试语料,形成的11类案由包括:财产保险合同纠纷、房屋买卖合同纠纷、交通事故责任纠纷、金融借款合同纠纷、民间借贷纠纷、劳动合同纠纷、信用卡纠纷、离婚纠纷、盗窃罪、故意伤害罪、危险驾驶罪;如表1所示。
表1 11类案由
序号 类型 案由名称/内容
1 民事 财产保险合同纠纷
2 民事 房屋买卖合同纠纷
3 民事 交通事故责任纠纷
4 民事 金融借款合同纠纷
5 民事 民间借贷纠纷
6 民事 劳动合同纠纷
7 民事 信用卡纠纷
8 民事 离婚纠纷
9 刑事 盗窃罪
10 刑事 故意伤害罪
11 刑事 危险驾驶罪
在前述法律文书案由分类器的自动构建方法的具体实施方式中,进一步地,在对每类测试语料去停用词和分词之前,所述方法还包括:
对每类测试语料进行结构划分,去掉文书头部、文书尾部以及当事人信息。
本实施例中,在对每类测试语料去停用词和分词之前,可以对每类测试语料进行结构划分,去掉文书头部、文书尾部以及当事人信息,只保留文书的案情陈述部分。
本实施例中,例如,对交通事故责任纠纷判决书进行结构划分后,得到的结构如下:
1.文书头部 审理法院、审理程序、案件类型、案由、案号、年份
2.当事人信息 原告、原告委托代理人、被告、被告委托代理人
3.审理经过 案由、受理日期、主要审判人员、适用程序、开庭方式等
4.原告诉称 事故发生时间、地点、主要交通工具、伤亡情况等
5.被告辩称 被告垫付费用、是否承认事实、被告请求
6.法院查明 事故认定时间、认定单编号、司法鉴定单位、日期等
7.法院观点 认定事实情况、受害人年龄、认定费用情况、依据法条等
8.判决结果 基本情况、被告赔偿情况、案件受理费、原告承担情况等
9.文书尾部 审判人员情况、裁判日期、书记员
去掉文书头部、文书尾部以及当事人信息后,得到的结果为:
3.审理经过 案由、受理日期、主要审判人员、适用程序、开庭方式等
4.原告诉称 事故发生时间、地点、主要交通工具、伤亡情况等
5.被告辩称 被告垫付费用、是否承认事实、被告请求
6.法院查明 事故认定时间、认定单编号、司法鉴定单位、日期等
7.法院观点 认定事实情况、受害人年龄、认定费用情况、依据法条等
8.判决结果 基本情况、被告赔偿情况、案件受理费、原告承担情况等
在前述法律文书案由分类器的自动构建方法的具体实施方式中,进一步地,所述对每类测试语料去停用词和分词包括:
根据预先自定义的去停用词词典和分词词典,利用Ansj分词器对去掉文书头部、文书尾部以及当事人信息的每类测试语料去停用词和分词;
对分词后得到的结果进行数据过滤。
本实施例中,根据预先自定义的去停用词词典StopWords.dic和分词词典LawDictionary.dic,利用Ansj分词器对去掉文书头部、文书尾部以及当事人信息的每类测试语料去停用词和分词。
本实施例中,由于分词结果中的人名、地名、企业、法院对于之后的词向量训练扩充关键词,会产生较大误差,因此需过滤掉分词结果中的人名、地名、企业、法院,具体的步骤包括:识别分词结果中的人名、地名、企业、法院,并将识别出的人名、地名、企业、法院过滤掉,从而获得高质量的测试语料,为下一步词向量训练做准备。
本实施例中,经过数据过滤得到的部分结果包括:
上诉人 机动车 交通事故 责任 纠纷 一案 不服 梅兴法 民事 判决 本院 提起上诉 本院 受理 依法 组成 合议庭 公开 开庭 进行 审理 上诉人 被上诉人 委托代理人 到庭 参加 诉讼 被上诉人 本院 传票 传唤 正当 理由 不到 参加 诉讼 缺席 审理本案 现已 审理 终结 原审 法院 审理 认为 本案 机动车 交通事故 引起 赔偿 纠纷事故 公安局 交通警察 大队 作出 交通事故 认定书 认定 被告 过错 行为 应当 承担此次 事故 全部 责任 原告 事故 承担 责任 交警部门 认定 事实 清楚 定责 准确 被告 没有 异议 予以 确认 对于 交通事故 赔偿 协议 交警部门 调取 证据 交通事故 赔偿 协议 委托书 可以 证实 原告 当时 确实 委托 被告 进行 协商 签订 交通事故 赔偿 协议 原审 认为 本案 没有 独立 请求权 该案 处理 结果 没有 法律 利害 关系 需要 本案 承担 民事 责任 被告 委托代理人 请求 追加 本案 第三 中华人民共和国 民事诉讼法 第五十六条 关于 第三 规定 不符 依法 不予 支持 认定 交通事故 赔偿 协议 是否 有效 两个 方面 进行判断 第一 委托人 委托 权限 进行 审查 如果 代理 权限 认定 协议 具有法律 效力 如果 没有 认定 没有 法律 效力 本案 原告 委托 委托书 写明代理人 代理 事项 权限 交通事故 赔偿权 委托书 写明 授权 事项 明确 一般理解 交通事故 赔偿 事项 协商 请求权 不应 理解 能够 被代理人 权利作出 放弃 交通事故 赔偿 协议 达成 内容 委托 行为 原告 很多 赔偿 权利 作出 放弃 委托 行为明显 没有 代理权 超越 代理权 依据 中华人民共和国 民法通则 第六十六条 规定 没有 代理权 超越 代理权 或者 代理权终止 行为 经过 被代理人 追认 被代理人 承担民事 责任 交通事故 赔偿协议 只有 代理人 签名 原告 签名 表明 原告 当时 协议 认可 庭审 不予认可 上述 角度 分析 协议 认定 原告 无效 第二 原审 认为 公民 从事民事 活动 始终 遵循 公平 原则 交通事故 赔偿 协议书 日期 协议 签订 签订 协议依据 前提 交警部门 初次 作出 事故 认定书 当时 认定 原告 主要 责任 被告 次要责任 事故 认定书 交警部门 撤销 作出 重新 认定 改变 认定 责任 划分。
本实施例中,数据过滤后,根据分词结果,对不同案由的核心词汇进行分析,根据分析结果,确定每类案由的基本关键词,各类案由及其基本关键词对应关系为:财产保险合同纠纷:财产;房屋买卖合同纠纷:房屋买卖;交通事故责任纠纷:交通;金融借款合同纠纷:金融;民间借贷纠纷:借贷;劳动合同纠纷:劳动;信用卡纠纷:信用卡;离婚纠纷:离婚;盗窃罪:盗窃;故意伤害罪:故意伤害;危险驾驶罪:危险驾驶。
本实施例中,根据分词结果,可以应用词向量(Word2Vec)模型对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的每案由的基本关键词,确定每类案由的扩充关键词列表,具体的步骤包括:
根据分词结果,应用词向量模型对第i类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的第i类案由的基本关键词,确定第i类案由的扩充关键词列表。
在前述法律文书案由分类器的自动构建方法的具体实施方式中,进一步地,所述根据分词结果,应用词向量模型对第i类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的第i类案由的基本关键词,确定第i类案由的扩充关键词列表包括:
应用词向量模型对第i类测试语料进行词向量训练,将第i类测试语料分词结果中的所有词语投影到向量空间中,得到第i类测试语料的词向量模型;
加载第i类测试语料的词向量模型,计算词向量模型中每个词语与第i类案由的基本关键词的语义相似度;
将计算得到的语义相似度由大到小进行排序,选取语义相似度最高且语义相似度均大于门限值的前N个词语,与确定的第i类案由的基本关键词,共同构成第i类案由的扩充关键词列表。
本实施例中,可以采用词向量模型中的跳跃式词共现(skip-gram)模型第i类测试语料进行词向量训练,将第i类测试语料分词结果中的每个词语投影到200维空间中,考虑一个词上下文的5个词语。采样的阈值为1e-3。学习速率alpha为0.025,设置若一个词语在文档中出现的次数小于5,就会丢弃。调用learnFile()和saveModel()方法对每一类测试语料进行学习,得到第i类测试语料的词向量模型。所述词向量是指根据词频、语义、上下文,将词语投影到向量空间中。语义越相似,上下文越相关,词语之间的距离越小。
本实施例中,再调用方法loadJavaModel(),加载第i类测试语料的词向量模型,利用distance(queryWord)方法,计算词向量模型中每个词语与第i类案由的基本关键词的语义相似度,并由大到小排序,选取相似度最高且大小均大于门限值(例如,0.8)的前N(例如,N=4)个关键词,与确定的第i类案由的基本关键词,共同构成第i类案由的扩充关键词列表。按照上述方法,得到的11类案由的扩充关键词以及其与相应的基本关键词的语义相似度值如下:
财产保险合同纠纷:
投保0.89881,房屋0.87934,项目0.85115,保单0.80163
房屋买卖合同纠纷:
合同纠纷0.88907,购买价0.87294,查询费0.85092,房产局0.84104
交通事故责任纠纷:
病历0.83821,伤0.82867,交警部门0.82586,时限0.81145
金融借款合同纠纷:
融资0.85911,签订0.84167,买卖合同0.84166,约定0.83492
民间借贷纠纷:
民间0.96597,约束力0.93308,鉴定中心0.88921,关系0.85373
劳动合同纠纷:
辞退0.91625,作为0.89294,普通0.86403,拒绝接受0.86290
信用卡纠纷:
中银0.90783,分期付款0.88978,家装0.88137,业务0.84064
离婚纠纷:
结婚0.95378,终结0.95196,破裂0.94161,愿意0.92451
盗窃罪:
多次0.90784,参与0.85958,数额0.83954,犯罪0.82755
故意伤害罪:
共同犯罪0.92732,殴斗0.92485,情节0.92474,结论书0.91245
危险驾驶罪:
指控0.95676,罪名0.95616,证人0.94833,机关0.94215
本实施例中,将确定的第i类案由的扩充关键词和基本关键词,共同构成第i类案由的扩充关键词列表,最终得到的扩充关键词列表为基本关键词与扩充关键词的集合,显示如下:
财产保险合同纠纷:[财产,投保,房屋,项目,保单]
房屋买卖合同纠纷:[房屋买卖,合同纠纷,购买价,查询费,房产局]
交通事故责任纠纷:[交通,病历,伤,交警部门,时限]
金融借款合同纠纷:[金融,融资,签订,买卖合同,约定]
民间借贷纠纷:[借贷,民间,约束力,鉴定中心,关系]
劳动合同纠纷:[劳动,辞退,作为,普通,拒绝接受]
信用卡纠纷:[信用卡,中银,分期付款,家装,业务]
离婚纠纷:[离婚,结婚,终结,破裂,愿意]
盗窃罪:[盗窃,多次,参与,数额,犯罪]
故意伤害罪:[故意伤害,共同犯罪,殴斗,情节,结论书]
危险驾驶罪:[危险驾驶,指控,罪名,证人,机关]。
在前述法律文书案由分类器的自动构建方法的具体实施方式中,进一步地,所述根据分词结果,应用词向量模型对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表包括:
应用词向量模型对第i类测试语料进行词向量训练,将第i类测试语料分词结果中的所有词语投影到向量空间中,得到第i类测试语料的词向量模型;
加载第i类测试语料的词向量模型,计算词向量模型中每个词语与第i类案由的基本关键词的语义相似度;
将计算得到的语义相似度由小到大进行排序,选取语义相似度最高且语义相似度均大于门限值的后N个词语,与确定的第i类案由的基本关键词,共同构成第i类案由的扩充关键词列表。
在前述法律文书案由分类器的自动构建方法的具体实施方式中,进一步地,所述对输入的所述待分类法律文书去停用词和分词、并进行词向量训练,根据所述待分类法律文书的词向量训练结果,计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由包括:
对输入的所述待分类法律文书去停用词和分词;
根据分词结果,将所述待分类法律文书中的所有词投影到向量空间中,得到所述待分类法律文书的词向量模型,计算各类扩充关键词列表中的每个关键词与所述待分类法律文书的词向量模型中每个词语的语义相似度;
获取与每个关键词最接近的前M个词语的语义相似度进行求和,求和结果作为每个关键词与所述待分类法律文书的语义相似度;
将每类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。
在前述法律文书案由分类器的自动构建方法的具体实施方式中,进一步地,所述将每类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由包括:
将第i类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加,得到所述待分类法律文书与第i类案由的扩充关键词列表的语义相似度总和;
将得到的多个语义相似度总和进行比较,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。
本实施例中,M的取值可以为4,所述待分类法律文书的词向量模型中每个词语与各个扩充关键词列表中每个关键词的语义相似度如下:
A1,财产保险合同纠纷扩充关键词列表(keylist)
财产:[出院0.88594,强行0.88548,不怕困难0.88543,抵赖0.88541,两年0.88404,上诉人0.88395,基础0.88391,手臂0.8836765,狡诈0.8836632,期间0.883564,歪曲事实0.8835521,打击0.8834512]
本实施例中,以出院0.88594为例,其中,出院是待分类法律文书的分词结果,也是所述待分类法律文书的词向量模型中的词语,088594是财产这个关键词与出院的语义相似度。
投保:[被上诉人0.99694,上诉人0.99684,儿子0.99674,一路0.99668,自己0.99648,方向0.99636,经人介绍0.99633,支公司0.99633,人为0.99627,照顾0.99624,自己0.99604]
房屋:[]
项目:[]
保单:[]
A2,房屋买卖合同纠纷keylist
房屋买卖:[]
合同纠纷:[]
购买价:[]
查询费:[]
房产局:[]
A3,交通事故责任纠纷keylist
交通:[行业0.89651,下降0.89627,百货大楼0.89616,没见0.89558,狡诈0.89505,医治0.89494,雇佣0.89494,南方0.89482,焦点0.89473,父亲0.89470,视力0.89455,陪护0.89435]
病历:[]
伤:[震荡0.99832,鉴定0.99825,视网膜0.99812,证据0.99728,鉴定中心0.99696,法医0.99547,事实0.99539,收入0.99538,相关0.99477,中山大学0.99474,资料0.99472,计算0.99427]
交警部门:[年度0.98927,家庭0.98920,实际0.98910,包括0.98910,南方0.98892,增加0.98884,上诉人0.98879,发生0.98879,司法0.98866,费用0.98855,护理人员0.98854,医疗机构0.98854]
时限:[]
A4,金融借款合同纠纷keylist
金融:[]
融资:[]
签订:[十日0.50968,几乎0.50120,身份证0.50087,交通事故0.50014,两家0.49854,根据0.49818,起至0.49788,合理0.49745,抚养人0.49714,争议0.49664,本次0.49652,情况0.49642,请求0.49517,住宿费0.49503,交警队0.49499,手臂0.49488]
买卖合同:[]
约定:[]
A5,民间借贷纠纷keylist
借贷:[]
民间:[]
约束力:[]
鉴定中心:[法医0.99852,震荡0.99818,证据0.99813,中山大学0.99787,视网膜0.99776,相关0.99763,南方0.99756,委托0.99749,资料0.99748,事实0.99748,有关0.99731,法院0.99713]
关系:[影响0.95669,意见0.95625,司法0.95621,客观0.95617,为由0.95614,法医0.95592,所有0.95590,有关0.95589,提出0.95573,原审0.95569,受理0.95565,身体0.95556,自己0.95555]
A6,劳动合同纠纷keylist
劳动:[上诉人0.99778,被上诉人0.99757,自己0.99725,要求0.99717,不道德0.99707,能力0.99701,支公司0.99689,一路0.99668,生活0.99667,兴田0.99661,强制保险0.99661]
辞退:[]
作为:[]
普通:[判决0.83883,十月0.83643,代理0.83337,一三年0.83286]
拒绝接受:[]
A7,信用卡纠纷keylist
信用卡:[]
中银:[]
分期付款:[]
家装:[]
业务:[]
A8,离婚纠纷keylist
离婚:[]
结婚:[]
终结:[不符0.30762,给付0.28182,第十七条0.26850,路费0.25692,两家0.25602,单据0.25397,大楼0.24847,提起0.24735,财产损失0.24725,查明0.24640,劳务0.24548,本次0.24535,传唤0.24525]
破裂:[]
愿意:[]
A9,盗窃罪keylist
盗窃:[]
多次:[当事人0.99034,举证责任0.99032,被上诉人0.99013,上诉人0.98981,自己0.98981,诉讼请求0.98967,费用0.98961,负有0.98955,爸爸0.98954,申请0.98944,挫伤0.98942,实际0.98933]
参与:[]
数额:[法律责任0.97552,部分0.97510,不予0.97415,法律0.97396,交通费0.97342,情况0.97339,依法0.97331,受害人0.97284,合理0.97252,中华人民共和国0.97160,超过0.97124,当事人0.97116]
犯罪:[]
A10,故意伤害罪keylist
故意伤害:[]
共同犯罪:[]
殴斗:[]
情节:[]
结论书:[]
A11,危险驾驶罪keylist
危险驾驶:[]
指控:[]
罪名:[]
证人:[]
机关:[]
取每个扩充关键词最相近的前四个关键词的分数,求总和,结果如下:
财产保险合同纠纷:总分为7.52946
财产:3.54226
投保:3.98720
房屋:0
项目:0
保单:0
房屋买卖合同纠纷:总分为0
房屋买卖:0
合同纠纷:0
购买价:0
查询费:0
房产局:0
交通事故责任纠纷:总分为11.53263
交通:3.58399
病历:0
伤:3.99197
交警部门:3.95667
时限:0
金融借款合同纠纷:总分为2.01189
金融:0
融资:0
签订:2.01189
买卖合同:0
约定:0
民间借贷纠纷,总分为7.81802
借贷:0
民间:0
约束力:0
鉴定中心:3.9927
关系:3.83532
劳动合同纠纷:总分为7.33126
劳动:3.98977
辞退:0
作为:0
普通:3.34149
拒绝接受:0
信用卡纠纷:总分为0
信用卡:0
中银:0
分期付款:0
家装:0
业务:0
离婚纠纷:总分为1.11486
离婚:0
结婚:0
终结:1.11486
破裂:0
愿意:0
盗窃罪:总分为7.85933
盗窃:0
多次:3.9606
参与:0
数额:3.89873
犯罪:0
故意伤害罪:总分为0
故意伤害:0
共同犯罪:0
殴斗:0
情节:0
结论书:0
危险驾驶罪:总分为0
危险驾驶:0
指控:0
罪名:0
证人:0
机关:0
本实施例中,假设M=4,以A1中的财产为例,因为出院,强行,不怕困难,抵赖这四个词语与财产的语义相似度值最大,因此,取出院,强行,不怕困难,抵赖这四个词语与财产的语义相似度进行相加,得到财产与所述待分类法律文书的语义相似度(3.54226)。
本实施例中,将每类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由;以财产保险合同纠纷为例,财产:3.54226;投保:3.98720;房屋:0;项目:0;保单:0;语义相似度相加后,得到的财产保险合同纠纷的语义相似度总分为7.52946。
本实施例中,按照上述方法,计算每类案由的语义相似度总分,对计算得到的各类语义相似度总和进行比较,比较结果如下:
交通事故责任纠纷>盗窃罪>民间借贷纠纷>财产保险合同纠纷>劳动合同纠纷>金融借款合同纠纷>离婚纠纷>房屋买卖合同纠纷=信用卡纠纷=故意伤害罪=危险驾驶罪
所以,可以将所述待分类法律文书的案由判定为“交通事故责任纠纷”,完成了对所述待分类法律文书的分类,实现法律文书案由分类器的自动构建。
需要说明的是,在本文中,诸如第i和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种法律文书案由分类器的自动构建方法,其特征在于,包括:
获取多类案由的法律文书,构建案由基础语料库,根据构建的所述案由基础语料库,确定每类案由的测试语料;
对每类测试语料去停用词和分词;
根据分词结果,确定每类案由的基本关键词;
根据分词结果,对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表;
输入待分类法律文书,对输入的所述待分类法律文书去停用词和分词、并进行词向量训练,根据所述待分类法律文书的词向量训练结果,计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。
2.根据权利要求1所述的法律文书案由分类器的自动构建方法,其特征在于,所述法律文书包括:判决书和裁定书;
所述获取多类案由的法律文书,构建案由基础语料库,根据构建的所述案由基础语料库,确定每类案由的测试语料包括:
获取多类案由的法律文书,根据获取的所述多类案由的法律文书,构建案由基础语料库;
针对第i类案由,从构建的所述案由基础语料库中选取相应的判决书和裁定书进行合并,得到第i类案由的测试语料。
3.根据权利要求1所述的法律文书案由分类器的自动构建方法,其特征在于,在对每类测试语料去停用词和分词之前,所述方法还包括:
对每类测试语料进行结构划分,去掉文书头部、文书尾部以及当事人信息。
4.根据权利要求3所述的法律文书案由分类器的自动构建方法,其特征在于,所述对每类测试语料去停用词和分词包括:
根据预先自定义的去停用词词典和分词词典,利用Ansj分词器对去掉文书头部、文书尾部以及当事人信息的每类测试语料去停用词和分词;
对分词后得到的结果进行数据过滤。
5.根据权利要求4所述的法律文书案由分类器的自动构建方法,其特征在于,所述对分词后得到的结果进行数据过滤包括:
过滤掉分词后结果中的人名、地名、企业、法院。
6.根据权利要求1所述的法律文书案由分类器的自动构建方法,其特征在于,所述根据分词结果,对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表包括:
根据分词结果,应用词向量模型对第i类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的第i类案由的基本关键词,确定第i类案由的扩充关键词列表。
7.根据权利要求6所述的法律文书案由分类器的自动构建方法,其特征在于,所述根据分词结果,应用词向量模型对第i类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的第i类案由的基本关键词,确定第i类案由的扩充关键词列表包括:
应用词向量模型对第i类测试语料进行词向量训练,将第i类测试语料分词结果中的所有词语投影到向量空间中,得到第i类测试语料的词向量模型;
加载第i类测试语料的词向量模型,计算词向量模型中每个词语与第i类案由的基本关键词的语义相似度;
将计算得到的语义相似度由大到小进行排序,选取语义相似度最高且语义相似度均大于门限值的前N个词语,与确定的第i类案由的基本关键词,共同构成第i类案由的扩充关键词列表。
8.根据权利要求1所述的法律文书案由分类器的自动构建方法,其特征在于,所述根据分词结果,应用词向量模型对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表包括:
应用词向量模型对第i类测试语料进行词向量训练,将第i类测试语料分词结果中的所有词语投影到向量空间中,得到第i类测试语料的词向量模型;
加载第i类测试语料的词向量模型,计算词向量模型中每个词语与第i类案由的基本关键词的语义相似度;
将计算得到的语义相似度由小到大进行排序,选取语义相似度最高且语义相似度均大于门限值的后N个词语,与确定的第i类案由的基本关键词,共同构成第i类案由的扩充关键词列表。
9.根据权利要求1所述的法律文书案由分类器的自动构建方法,其特征在于,所述对输入的所述待分类法律文书去停用词和分词、并进行词向量训练,根据所述待分类法律文书的词向量训练结果,计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由包括:
对输入的所述待分类法律文书去停用词和分词;
根据分词结果,将所述待分类法律文书中的所有词投影到向量空间中,得到所述待分类法律文书的词向量模型,计算各类扩充关键词列表中的每个关键词与所述待分类法律文书的词向量模型中每个词语的语义相似度;
获取与每个关键词最接近的前M个词语的语义相似度进行求和,求和结果作为每个关键词与所述待分类法律文书的语义相似度;
将每类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。
10.根据权利要求9所述的法律文书案由分类器的自动构建方法,其特征在于,所述将每类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由包括:
将第i类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加,得到所述待分类法律文书与第i类案由的扩充关键词列表的语义相似度总和;
将得到的多个语义相似度总和进行比较,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。
CN201710281403.1A 2017-04-26 2017-04-26 一种法律文书案由分类器的自动构建方法 Active CN107122451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710281403.1A CN107122451B (zh) 2017-04-26 2017-04-26 一种法律文书案由分类器的自动构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710281403.1A CN107122451B (zh) 2017-04-26 2017-04-26 一种法律文书案由分类器的自动构建方法

Publications (2)

Publication Number Publication Date
CN107122451A true CN107122451A (zh) 2017-09-01
CN107122451B CN107122451B (zh) 2020-01-21

Family

ID=59725725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710281403.1A Active CN107122451B (zh) 2017-04-26 2017-04-26 一种法律文书案由分类器的自动构建方法

Country Status (1)

Country Link
CN (1) CN107122451B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818138A (zh) * 2017-09-28 2018-03-20 银江股份有限公司 一种案件法律条例推荐方法及系统
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN109359175A (zh) * 2018-09-07 2019-02-19 平安科技(深圳)有限公司 电子装置、诉讼数据处理的方法及存储介质
CN109408630A (zh) * 2018-10-17 2019-03-01 杭州世平信息科技有限公司 一种根据犯罪事实的描述自动生成法院观点的方法
CN109447105A (zh) * 2018-09-10 2019-03-08 平安科技(深圳)有限公司 合同审核方法、装置、计算机设备和存储介质
CN109902172A (zh) * 2019-01-31 2019-06-18 深度好奇(北京)科技有限公司 案情文本分类方法、装置以及存储介质
CN110502634A (zh) * 2019-08-13 2019-11-26 宫辉 一种案由的判定和抓取方法及其系统
CN110968664A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 一种文书检索方法、装置、设备及介质
CN110968689A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 罪名及法条预测模型的训练方法以及罪名及法条预测方法
CN110990522A (zh) * 2018-09-30 2020-04-10 北京国双科技有限公司 一种法律文书的确定方法和系统
CN111177367A (zh) * 2019-11-11 2020-05-19 腾讯科技(深圳)有限公司 案件分类方法、分类模型训练方法及相关产品
CN111291570A (zh) * 2018-12-07 2020-06-16 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN111353307A (zh) * 2020-02-29 2020-06-30 重庆百事得大牛机器人有限公司 基于简单证据的法律意见书评估系统及方法
CN111681119A (zh) * 2020-06-01 2020-09-18 泰康保险集团股份有限公司 一种信息处理方法及装置
CN111798344A (zh) * 2020-07-01 2020-10-20 北京金堤科技有限公司 主体名称确定方法和装置、电子设备和存储介质
CN111833198A (zh) * 2020-07-20 2020-10-27 民生科技有限责任公司 一种智能处理保险条款的方法
CN112257410A (zh) * 2020-10-15 2021-01-22 江苏卓易信息科技股份有限公司 一种非平衡文本的相似度计算方法
CN113673243A (zh) * 2021-08-23 2021-11-19 上海浦东华宇信息技术有限公司 文本类型识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605702A (zh) * 2013-11-08 2014-02-26 北京邮电大学 一种基于词相似度的网络文本分类方法
CN103678275A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于主客观语义的双层次文本相似度计算方法
CN103778226A (zh) * 2014-01-23 2014-05-07 北京奇虎科技有限公司 构建语言信息识别模型的方法及语言信息识别装置
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678275A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于主客观语义的双层次文本相似度计算方法
CN103605702A (zh) * 2013-11-08 2014-02-26 北京邮电大学 一种基于词相似度的网络文本分类方法
CN103778226A (zh) * 2014-01-23 2014-05-07 北京奇虎科技有限公司 构建语言信息识别模型的方法及语言信息识别装置
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818138A (zh) * 2017-09-28 2018-03-20 银江股份有限公司 一种案件法律条例推荐方法及系统
CN107818138B (zh) * 2017-09-28 2020-05-19 银江股份有限公司 一种案件法律条例推荐方法及系统
CN108197163B (zh) * 2017-12-14 2021-08-10 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN109359175A (zh) * 2018-09-07 2019-02-19 平安科技(深圳)有限公司 电子装置、诉讼数据处理的方法及存储介质
CN109359175B (zh) * 2018-09-07 2023-04-07 平安科技(深圳)有限公司 电子装置、诉讼数据处理的方法及存储介质
CN109447105A (zh) * 2018-09-10 2019-03-08 平安科技(深圳)有限公司 合同审核方法、装置、计算机设备和存储介质
CN110990522A (zh) * 2018-09-30 2020-04-10 北京国双科技有限公司 一种法律文书的确定方法和系统
CN110968689A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 罪名及法条预测模型的训练方法以及罪名及法条预测方法
CN110968664A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 一种文书检索方法、装置、设备及介质
CN110990522B (zh) * 2018-09-30 2023-07-04 北京国双科技有限公司 一种法律文书的确定方法和系统
CN109408630B (zh) * 2018-10-17 2021-10-29 杭州世平信息科技有限公司 一种根据犯罪事实的描述自动生成法院观点的方法
CN109408630A (zh) * 2018-10-17 2019-03-01 杭州世平信息科技有限公司 一种根据犯罪事实的描述自动生成法院观点的方法
CN111291570A (zh) * 2018-12-07 2020-06-16 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN109902172B (zh) * 2019-01-31 2021-08-27 深度好奇(北京)科技有限公司 案情文本分类方法、装置以及存储介质
CN109902172A (zh) * 2019-01-31 2019-06-18 深度好奇(北京)科技有限公司 案情文本分类方法、装置以及存储介质
CN110502634A (zh) * 2019-08-13 2019-11-26 宫辉 一种案由的判定和抓取方法及其系统
CN111177367A (zh) * 2019-11-11 2020-05-19 腾讯科技(深圳)有限公司 案件分类方法、分类模型训练方法及相关产品
CN111353307A (zh) * 2020-02-29 2020-06-30 重庆百事得大牛机器人有限公司 基于简单证据的法律意见书评估系统及方法
CN111681119A (zh) * 2020-06-01 2020-09-18 泰康保险集团股份有限公司 一种信息处理方法及装置
CN111798344A (zh) * 2020-07-01 2020-10-20 北京金堤科技有限公司 主体名称确定方法和装置、电子设备和存储介质
CN111798344B (zh) * 2020-07-01 2023-09-22 北京金堤科技有限公司 主体名称确定方法和装置、电子设备和存储介质
CN111833198A (zh) * 2020-07-20 2020-10-27 民生科技有限责任公司 一种智能处理保险条款的方法
CN112257410A (zh) * 2020-10-15 2021-01-22 江苏卓易信息科技股份有限公司 一种非平衡文本的相似度计算方法
CN113673243A (zh) * 2021-08-23 2021-11-19 上海浦东华宇信息技术有限公司 文本类型识别方法及装置
CN113673243B (zh) * 2021-08-23 2022-04-22 上海浦东华宇信息技术有限公司 文本类型识别方法及装置

Also Published As

Publication number Publication date
CN107122451B (zh) 2020-01-21

Similar Documents

Publication Publication Date Title
CN107122451A (zh) 一种法律文书案由分类器的自动构建方法
Birckhead The new peonage
JP2017535000A (ja) 文書内の潜在的重要事実を自動識別するシステム及び方法
Kwon Defending Criminal (ized)" Aliens" After Padilla: Toward a More Holistic Public Immigration Defense in the Era of Crimmigration
Jost Disentitlement?: The threats facing our public health-care programs and a rights-based response
Davis Victim/witness noncooperation: A second look at a persistent phenomenon
Lee Private Civil Remedies: A Viable Tool for Guest Worker Empowerment
Murphy Forgiveness, reconciliation and responding to evil: A philosophical overview
Williams Distrust: The Rhetoric and Reality of Means-Testing
Mason Buying time for survivors of domestic violence: A proposal for implementing an exception to welfare time limits
Love et al. Pathways to reintegration: Criminal record reforms in 2019
Sobol Griffin v. Illinois: Justice Independent of Wealth?
Nagy Postapartheid justice: can cosmopolitanism and nation-building be reconciled?
Patterson Law in a scientific age
Thyer Is It Time for Arkansas to Consider Pretrial Reform?
Millemann et al. Releasing older prisoners
CK Taking Stock of the Digital Welfare State: Databases and Automated Welfare in India
Selden The Debt Paradox: In Debt but Society Owes You a Debt: An Exoneree's Path to Holistic Relief through the Bankruptcy System
Clisura None of Their Business: The Need for Another Alternative to New York's Bail Bond Business
Weaver Survey of Illinois law: Section 5.2 of the criminal identification act: The expungement and sealing of Illinois criminal records
Rubin Relief from a Criminal Conviction in North Carolina
Nworah et al. The cost of buying freedom: strategies for cash bail reform and eliminating systemic injustice
Singh An Overview of Artificial Intelligence and Law
Ojienda Legal Aid as a Human Right
Boland Crime Victim's Guide to Justice

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant