CN108334500A - 一种基于机器学习算法的裁判文书标注方法及装置 - Google Patents

一种基于机器学习算法的裁判文书标注方法及装置 Download PDF

Info

Publication number
CN108334500A
CN108334500A CN201810178639.7A CN201810178639A CN108334500A CN 108334500 A CN108334500 A CN 108334500A CN 201810178639 A CN201810178639 A CN 201810178639A CN 108334500 A CN108334500 A CN 108334500A
Authority
CN
China
Prior art keywords
judgement document
document
text
judgement
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810178639.7A
Other languages
English (en)
Other versions
CN108334500B (zh
Inventor
金耀辉
姜华
李慧
王永坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Sixian Data Technology Co.,Ltd.
Original Assignee
Shanghai Sixian Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sixian Information Technology Ltd By Share Ltd filed Critical Shanghai Sixian Information Technology Ltd By Share Ltd
Priority to CN201810178639.7A priority Critical patent/CN108334500B/zh
Publication of CN108334500A publication Critical patent/CN108334500A/zh
Application granted granted Critical
Publication of CN108334500B publication Critical patent/CN108334500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于机器学习算法的裁判文书标注方法及装置。该方法包括:采集待标注的裁判文书的文本集合;对所述文本集合中的文本进行结构分割;建立语义标签库;基于语义标签库对所述待标注的裁判文书进行人工标注;选取部分人工标注的裁判文书作为标准数据集合交由机器学习,训练和优化初步标注模型;选取剩余部分人工标注的裁判文书样本作为校验数据集合,用于完善所述语义标签库,并对所述初步标注模型进行迭代和优化,得到成熟的裁判文书标注模型;将目标待标注的裁判文书进行结构分割后输入所述成熟的裁判文书标注模型,得到标注结果。通过本发明,解决了相关技术中裁判文书法律要素提取不完整和案件信息提取准确度低的问题。

Description

一种基于机器学习算法的裁判文书标注方法及装置
技术领域
本发明涉及文本处理技术领域,尤其涉及一种基于机器学习算法的裁判文书标注方法及装置。
背景技术
裁判文书的内容通常比较长,有些案件的案情又比较复杂,对法官来说,迅速从推送的相似案例中抓取出案件关键信息点、理清案件司法逻辑是一个极大的挑战,费 时又费力,给法官审判工作带来压力。对于裁判文书,往往又需要去解析裁判文书的 类型、每个段落以及提取每个段落的维度信息等参数,做到及时地总结历史案件,发 现规律以提升审判效率、实现司法公正。同时,对人民法院下发的生效裁判文书进行 解析,也可以帮助用户获取更多有效的法律参考信息。但是,目前对裁判文书的内容 解析仍然采用人工解析的方式来获取。一般是人工通过语义加逻辑关联的方式去阅读 裁判文书的长篇内容,同时依靠模糊的经验提取在办案件所需的法律要素。基于诉讼 案件诉请、事实、证据、当事人信息等数据维度的多样性、信息量的复杂性,依靠人 工去解析裁判文书内容、提取案件要素,任务繁琐且工作量非常大。
借助于机器解析裁判文书的方法和装置,可以大大提高法律要素提取的效率与准确度。目前,对法律裁判文书的解析通常只是对裁判文书的全文进行模糊结构分割, 因此导致机器提取法律要素的结果过于粗糙,一般仅对包含某些固定关键词的相关内 容进行罗列,尤其是因涉及法律案件实体内容的解析方法缺少,导致裁判文书内容解 析效果差。
在中国专利CN106815206A提出了一种将文书每个自然段落依次与多个预设匹配规则集合执行匹配处理,得到对应自然段落并对文书段落内容进行解析的方法。虽然 该种方法可以高效解析裁判文书段落集合,但专利中并没有具体阐明针对文书内容及 法律要素提取的方法。该专利对于裁判文书的解析就像是通过一个“黑盒”,解析方法 缺乏可视性与可解释性,从而遭到形成司法专业人士对案件提取信息正确率的质疑。 司法裁判的专业度要求案件信息的提取具备可解释性,法官对提取信息的确信才能得 到保证。
在中国专利CN102982076A提出了基于语义标签库的多维度内容标注方法,通过建立语义标签库,配置可扩展的资源种类。该方法有一个突出的缺点是其建立的语义 标签多维度标注方法缺乏专业针对性。法律裁判文书的数据结构具有其专业背景的特 殊性和逻辑性,通过标签匹配案件要素的内容提取方式对标签库的建立要求极高,该 方法泛化方式整理标签、映射关键词、提取文书内容,造成裁判文书法律要素提取准 确度低。
在中国专利CN106815201A提出了一种涉及自然语言处理的判定裁判文书结果的方法及装置。该方法截取文书中法院认定态度部分并予以标识,在预设字符范围内查 找胜败诉关键词,通过关键词匹配法院认定态度。但该种方法忽略了裁判文书内容解 析的整体性,完整法律要素应包含诉讼请求、庭审事实、证据认定、法院态度等部分, 该方法仅对法院态度部分的文书内容进行提取,造成案件法律要素提取内容缺失,造 成案件对用户的参考价值降低。
在中国专利CN106815207A提出了一种目标文本内容与第一预设规则相匹配的文本内容解析方法,根据预设规则与目标文本相匹配的方式在裁判文书中提取至少一个 目标关键词。该方法仅考虑了运用关键词提取法律要素的方式,但缺点非常突出:未 对裁判文书进行结构分割,关键词的重复导致案件要素提取准确度降低;笼统采用案 件关键词替换法律要素的概念,缺乏裁判文书法律要素提取的专业度,不符合现实的 司法逻辑。
因此,本领域的技术人员致力于开发一种基于机器学习算法的裁判文书标注方法及装置,通过基于自然语言理解及语义分析的类型标注方法,对裁判文书进行标注, 以一种直观的方式表示出案件的完整法律要素和内在逻辑关系,从而解决了现有方法 中忽略法律专业知识和司法逻辑而导致的裁判文书法律要素提取不完整和案件信息提 取准确度低的问题。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何结合法律专业知识和司法逻辑,提取案件中的完整法律要素并提高信息提取的准确度,然后以一种直 观的方式表示出来。
为实现上述目的,本发明提供了一种基于机器学习算法的裁判文书标注方法,包括以下步骤:
步骤S101:采集待标注的裁判文书的文本集合;
步骤S102:基于预设正则集合,将所述文本集合中的各个文本进行结构分割;
步骤S103:将步骤S102处理过的所述文本集合分为标准数据集合和校验文书集合;
步骤S104:建立语义标签库,所述语义标签库包括通用标签、案由标签、同义词 标签;
步骤S105:基于所述语义标签库,人工标注所述标准数据集合中的各个文书,形成标准裁判文书标注样式;
步骤S106:将步骤S105处理过的所述标准数据集合分为训练集和测试集;
步骤S107:采用机器学习算法,将所述训练集交由机器学习,训练机器自动标注模型;
步骤S108:将所述测试集交由步骤S107输出的所述机器自动标注模型进行自动标注,根据标注结果的覆盖度和置信度不断调整所述机器学习算法,形成初步标注模 型;
步骤S109:使用所述初步标注模型对步骤103输出的所述校验文书集合进行自动标注;
步骤S110:对步骤S108输出的自动标注结果进行随机抽样,作为校验样本;
步骤S111:对所述校验样本进行人工校验,补充和完善所述语义标签库;同时调整算法,重复步骤S108至步骤S111,对所述初步标注模型进行迭代优化,最终得到 成熟的裁判文书标注模型;
步骤S112:将目标待标注的裁判文书重复步骤S102后输入所述成熟的裁判文书标注模型,按照所述语义标签库的标签映射和所述成熟的裁判文书标注模型匹配,得 到所述目标待标注的裁判文书的标注结果。
进一步地,步骤S101中,所述待标注的裁判文书的文本包含多个自然段落。
进一步地,步骤S102包括以下步骤:
步骤S201:将所述文本集合中的每个文本进行分行处理,得到每个文本对应的文书行集合;
步骤S202:根据预设正则集合和所述文书行集合中每个文书行对应的段落标识,将所述文本分割为“标题、头部、当事人情况、审理经过、原告诉请、被告辩称、证 据事实、判决理由、引用条文与判决正文、尾部”十个部分。
进一步地,步骤S103中,所述标准数据集合的选取方法为:由法律专业人士针对不同案由,各选取至少100篇裁判文书作为所述标准数据集合。
进一步地,步骤S104中,建立所述语义标签库的方法如下:
通过人工阅读裁判文书中的“引用条文和判决正文”部分,对表示法院态度的标签词进行归纳整理形成所述通用标签;
通过人工根据不同案由以及裁判文书对案件要素的论述,以动宾短语或名词词组的形式归纳整理,形成各个案由对应的所述案由标签,所述案由标签包括诉请标签、 事实标签、证据标签;
通过人工方式,对案件表述相似或相同的用语表达进行归纳整理,形成所述同义词标签。
进一步地,步骤S106中人工标注的方法为:人工阅读所述标准数据集合中各个文书,将所述文书的分割部分与所述语义标签库中的标签进行对应匹配并标注,形成标 准裁判文书标注样式。
进一步地,步骤107中所述机器学习算法采用以下任一项算法:随机森林算法、 支持向量机算法、逻辑回归算法、贝叶斯分类器和神经网络算法。
为实现上述目的,本发明还提供了一种基于机器学习算法的裁判文书标注装置,包括:
裁判文书分割模块,用于将待标注的裁判文书的文本进行结构分割;
标签库整理模块,用于建立语义标签库;
标准数据集模块,用于人工抽取裁判文书并标注,为机器学习提供数据样本;
标注模型模块,用于将所述数据样本通过机器学习算法训练和测试,得到裁判文书标注模型;
结果校验模块,用于完善所述语义标签库,迭代优化所述裁判文书标注模型。
进一步地,所述裁判文书标注装置还包括输入模块和输出模块;所述输入模块被配置为面向用户上传所述待标注的裁判文书的文本;所述裁判文书标注装置通过调用 所述裁判文书分割模块、标签库整理模块和标注模型模块,对用户上传的所述待标注 的裁判文书的文本输入所述裁判文书分割模块进行分割后,按照所述语义标签库中的 标签映射与所述裁判文书标注模型匹配,完成机器标注,并将标注完成的裁判文书的 文本通过所述输出模块进行显示。
进一步地,所述标注完成的裁判文书的文本中,所述语义标签库中不同类型的标签分别对应不同的颜色,以示区分。
与现有技术相比,本发明提供的技术方案具有以下优点:在充分考虑了裁判文书的专业知识基础上,对一篇裁判文书进行标注,以一种压缩但直观的方式表示出了案 件的完整法律要素和内在逻辑关系,既方便司法工作人员直观查看案件事实及裁判逻 辑,也可以通过标签词映射、关键词搜索的方式精确查找相似案例。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的标注方法流程图;
图2是本发明的一个较佳实施例的裁判文书标注示意图;
图3是本发明的一个较佳实施例的标注装置结构示意图。
具体实施方式
以下参考说明书附图介绍本发明的一个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非 仅限于文中提到的实施例。
如图1所示,本发明的一个较佳实施例的基于机器学习算法的裁判文书标注方法,包括以下步骤:
步骤S101:采集待标注的裁判文书的文本集合。
在步骤S101中采集的所述文本集合,用于基于机器学习算法的标注模型的训练和优化。其中,所述文本集合中的文本包含多个自然段落。
步骤S102:基于预设正则集合,将所述文本集合中的各个文本进行结构分割。
在一个法律裁判文书中,每个自然段落均具备特定的文本信息意义,将所述文本集合中的每个文本进行分行处理,得到每个文本对应的文书行集合;根据预设正则集 合和所述文书行集合中每个文书行对应的段落标识,将所述文本分割为“标题、头部、 当事人情况、审理经过、原告诉请、被告辩称、证据事实、判决理由、引用条文与判 决正文、尾部”十个部分。其中,所述预设正则集合是根据多篇裁判文书统计出的规 则组成的集合。
步骤S103:将步骤S102处理过的所述文本集合分为标准数据集合和校验文书集合。
所述标准数据集合用于初步标注模型的训练和优化,所述校验文书集合作为校验数据集合,用于校验初步标注模型。采集的裁判文书的结构和内容影响标注质量,因 此步骤S103中应选择文书结构完整、内容叙述规范且逻辑连贯的裁判文书作为人工标 注样本。所述标准数据集合中的裁判文书是由法律专业人士针对不同案由,各选取至 少100篇案情完整、结构清晰的高质量裁判文书组成的数据集合。选取完所述标准数 据集合后,步骤S102处理过的所述文本集合中剩余的部分作为所述校验文书集合。
步骤S104:建立语义标签库,所述语义标签库包括通用标签、案由标签、同义词 标签。
其中,所述通用标签是指所有案由都可使用的标签词,包括表示法院态度的标签,例如,裁判文书中“法院态度认定”部分中的“予以支持”、“不予采纳”等标签词。 人工通过阅读裁判文书中“引用条文与判决正文”,对表示法院态度的标签进行归纳整 理,从而形成案件裁判文书的通用标签库。所述案由标签是指根据不同的民事案由, 将案件划分为诉请、事实、证据三个维度,人工根据裁判文书对案件要素的描述,以 动宾短语或名词词组的形式归纳整理,形成各个案由对应的诉请标签、事实标签、证 据标签。例如,诉请标签的形式为“支付经济补偿金”、事实标签的形式为“严重违反 用人单位规章制度”、证据标签为“仲裁裁定书”。所述同义词标签是指对案件表述相 似或相近的用于表达,例如“赔偿金”同“赔偿费”,“付款”同“付费”,“契约”同 “合约”。
为了能直观的显示裁判文书中标注的不同标签,在机器自动标注完成后输出的结果中,对不同标签用不同颜色表示,以示区分。
需要说明的是,本发明提出的技术方案中,所述语义标签库并不仅限于本实施例中例举的通用标签、案由标签、同义词标签的各个词语,所述语义标签库根据具体实 施过程中会不断完善,所有符合所述通用标签、所述案由标签、所述同义词标签定义 的词语都被包括在所述语义标签库中。
步骤S105:基于所述语义标签库,人工标注所述标准数据集合中的各个文书,形成标准裁判文书标注样式。
根据S102步骤中对裁判文书分割的结果,对步骤S103中的标准数据集合中的各个文书分割模块添加对应的分类标签,并对添加分类标签后的各个文书分割模块进行 人工标注。例如在“原告诉请”部分用诉请标签词标注案件诉请,“证据事实、判决理 由”部分用事实标签词标注案件事实,用证据标签词标注案件证据,“引用条文和判决 正文”部分标注法院认定态度,并与“原告诉请”中的诉请标签进行对应匹配,形成 标准裁判文书标注样式。
采用人工方式对标准数据集合中的各个文本进行标注,可以很好的理解裁判文书中的自然语言及语义,由此生成的标准裁判文书标注样式提高了案件法律要素提取的 完整度和准确度。
步骤S106:将步骤S105处理过的所述标准数据集合分为训练集和测试集。
步骤S107:采用机器学习算法,将所述训练集交由机器学习,训练机器自动标注模型。
将所述训练集交由机器学习裁判文书标注方法,形成机器标注的裁判文书,训练机器自动标注模型。本实施例中,所述机器学习算法可以是随机森林算法、支持向量 机算法、逻辑回归算法、贝叶斯分类器和神经网络算法中的任一项。
步骤S108:将所述测试集交由步骤S107输出的所述机器自动标注模型进行自动标注,根据标注结果的覆盖度和置信度不断调整所述机器学习算法,形成初步标注模 型。
利用所述测试集对步骤S107输出的机器自动标注模型进行调整和优化。首先将步骤S107输出的机器自动标注模型对所述测试集中的裁判文书进行自动标注,然后将自 动标注结果与人工标注的标准裁判文书标注样式进行比较,计算自动标注结果的覆盖 度和置信度,不断调整算法,形成初步标注模型。
步骤S109:使用所述初步标注模型对步骤103输出的所述校验文书集合进行自动标注结果。
步骤S110:对步骤S108输出的自动标注结果进行随机抽样,作为校验样本;
步骤S111:对所述校验样本进行人工校验,补充和完善所述语义标签库;同时调整算法,重复步骤S108至步骤S111,对所述初步标注模型进行迭代优化,最终得到 成熟的裁判文书标注模型。
步骤S109、步骤S110、步骤S111是对步骤S108输出的所述初步标注模型进行 进一步的优化和调整,采用人工校验的方式,将所述校验文书集合输入步骤S108输出 的初步标注模型得到机器自动标注结果,然后抽取一部分所述标注结果作为校验样本, 对所述校验样本进行人工标注后再与机器自动标注结果比较,总结比较中发现的标签 问题和算法问题;根据标签问题补充和完善所述语义标签库,根据算法问题调整所述 初步标注模型,再重复执行步骤S108至步骤S111。通过反复的标注模型迭代和优化, 最终得到成熟的裁判文书标注模型。
步骤S112:将目标待标注的裁判文书重复步骤S102后输入所述成熟的裁判文书标注模型,按照所述语义标签库的标签映射和所述成熟的裁判文书标注模型匹配,得 到所述目标待标注的裁判文书的标注结果。
示例性的,以“(2016)沪0113民初4147号”判决书为例,进一步描述本发明提 供的基于机器学习算法的裁判文书标注方法中步骤S102、步骤S104、步骤S105、步 骤S107的技术效果。
步骤S102将裁判文书的结构分割为:
====================标题====================
====================头部====================
上海市宝山区人民法院民事判决书(2016)沪0113民初4147号
====================当事人情况====================
原告吕XX。被告上海XX房地产经纪有限公司。法定代表人尉XX,总经理。委 托代理人邵XX。
====================审理经过====================
原告吕XX与被告上海XX房地产经纪有限公司劳动合同纠纷一案,本院于2016 年2月26日受理后,依法由审判员沈XX适用简易程序公开开庭进行了审理。原告吕 XX、被告上海XX房地产经纪有限公司的委托代理人邵XX到庭参加诉讼。本案现已 审理终结。
====================原告诉请====================
原告吕XX诉称,原告于2013年3月22日进入被告处从事房地产销售工作,双 方签有劳动合同,约定工资由底薪人民币(以下币种均为人民币)3,000元/月和销售提成 组成。2015年7月31日原告离职,被告以未收到货款为由至今拖欠原告销售提成未 支付。销售提成是原告的正当收入,原告已经完成了全部销售工作,被告不应将经营 风险转嫁给原告。故原告起诉至法院,要求被告支付2013年8月1日至2015年7月 31日期间销售提成差额37,350元。
====================被告辩称====================
被告上海XX房地产经纪有限公司辩称,对原告的工作情况无异议,对于原告主 张的销售提成的金额亦无异议。被告与XX置业有限公司(以下简称“XX公司”)系合 作关系,原告负责XX公司旗下楼盘银泰城的销售工作,因XX公司拖欠被告货款, 现被告已经对其提起违约之诉。
====================证据事实====================
根据原、被告双方之间劳动合同的约定,原告应待被告回收货款后才能获得提成款,故要求驳回原告诉请。经审理查明,原告于2013年3月22日进入被告处从事房 地产销售工作,双方签有劳动合同和劳动合同变更协议,约定乙方(原告)的工资由基 本工资、佣金、津贴、补贴组成。其中基本工资为每月3,000元,其他因项目产生的 佣金、津贴及补贴的发放按照乙方所在营销项目确定的佣金、津贴及补贴的发放办法 执行。甲方(被告)通过银行转账的方式在每月15日支付乙方上个月的基本工资、固定 津贴,其他津贴及补贴,佣金在开发商支付甲方代理费后次月15日支付。又经查,2015 年7月31日原告离职,被告至今拖欠原告2013年8月1日至2015年7月31日期间 在银泰城项目中的销售提成差额37,350元。再经查,被告已经就要求XX公司支付销 售代理费事宜向浙江省海宁市人民法院提起诉讼,该案正在审理阶段。另经查,原告 于2015年10月27日申请仲裁,要求被告支付原告2013年8月1日至2015年7月 31日期间销售提成差额37,350元。仲裁对原告的申诉请求不予支持。原告不服仲裁裁 决,诉至法院。以上事实,有仲裁裁决书、劳动合同、变更协议、提成清单、传票、起诉状和双方当事人陈述等予以证明,经庭审质证,本院予以确认。
====================判决理由====================
本院认为,根据双方之间的劳动合同中关于“佣金在开发商支付甲方代理费后次月15日支付”的约定,可见双方对于提成款的支付约定了条件。原告称该约定转嫁了 企业的经营风险,明显增加了劳动者的义务,应当无效。对此本院认为,回款后支付 佣金是地产中介行业的通行做法,该约定中设定了佣金获得的时间成本有其合理性, 同时也是双方真实意思的表示,故双方均应按该条款履行。虽然在被告确定无法取得 代理费的情况下,劳动者无需承担最终的经营风险,但本案中被告也已经就XX公司 违约积极的提起了诉讼,原告应当对于第三方迟延回款承担相应的时间成本,故本院 对原告现要求被告支付2013年8月1日至2015年7月31日期间销售提成差额37,350 元的诉请,实难支持。
====================引用条文和判决正文====================
综上,根据《中华人民共和国劳动法》第七十八条之规定,判决如下:驳回原告 吕XX的诉讼请求。案件受理费减半收取5元,由原告吕XX负担。如不服本判决, 可在判决书送达之日起十五日内,向本院递交上诉状及副本,上诉于上海市第二中级 人民法院。
====================尾部====================
审判员沈XX二〇一六年六月十七日书记员李XX
图2显示了本实施例中裁判文书标注示意图,分为诉请标签、事实标签、证据标 签和法院态度四个部分,不同的标签采用不同的颜色表示。
步骤S104中,劳动争议案由的标签库包括:诉请标签有“支付工资、支付违法解 除劳动合同赔偿金、支付加班工资”等,事实标签有“签订劳动合同、违反用人单位 规章制度”等,证据标签有“劳动合同、仲裁裁决书、银行转账凭证”等,这些代表 案件信息的动宾词组或名词短语组成的词组集合构成裁判文书标注的语义标签库。如 图2所示,本示例是一个劳动争议案,诉请标签为“支付销售提成差额”,事实标签为 “签订劳动合同”、“约定销售提成”、“回款后佣金支付”、“行业通行做法”,证据标签 为“仲裁裁决书”、“劳动合同”、“变更协议”、“提成清单”、“传票”,法院态度为“不 予支持”。
步骤S105中,通过人工阅读的方式,对裁判文书的标注通常以不同的语句为单位,进行语义提炼,文书标注内容包括“诉请”、“事实”、“证据”、“法院态度”四个要素 类别,形成一套完整的案件标注形式,并形成文本内容和所述语义标签库的映射关系。
仍以“(2016)沪0113民初4147号”判决书为例,为叙述简洁,此处仅列举部分 人工标注内容。文书标注内容如下:
诉请部分:“【要求被告支付2013年8月1日至2015年7月31日期间销售提成差 额37,350元。|诉请|支付销售提成差额】”;
事实部分:“本院认为,根据双方之间的劳动合同中关于“佣金在开发商支付甲方代理费后次月15日支付”的约定,【可见双方对于提成款的支付约定了条件|事实|约定 销售提成】。原告称该约定转嫁了企业的经营风险,明显增加了劳动者的义务,应当无 效。对此本院认为,【回款后支付佣金是地产中介行业的通行做法|事实|回款后佣金支 付|行业通行做法】”;
证据部分:“【以上事实,有仲裁裁决书、劳动合同、变更协议、提成清单、传票、 起诉状和双方当事人陈述等予以证明,经庭审质证,本院予以确认。|证据|仲裁裁决书 |劳动合同|表更协议|提成清单|传票|起诉状|当事人陈述】”;
态度部分:“【判决如下:驳回原告吕XX的诉讼请求|态度|驳回|支付销售提成差额】”。
步骤S106中将人工标注的裁判文书样本集合分为测试集与训练集,在步骤S107中将所述语义标签库与裁判文书内容进行映射,并根据预设规则来进行匹配度关联, 由机器对裁判文书的具体内容打上对应标签,形成机器标注的裁判文书。
下面根据本发明的实施例,提供了一种基于机器学习算法的裁判文书标注装置。
需要说明的是,根据本发明实施例的裁判文书标注装置可以用于执行根据本发明实施例的裁判文书标注方法,根据本发明实施例的裁判文书标注方法也可以通过根据 本发明实施例的裁判文书标注装置来执行。
图3是根据本发明实施例的裁判文书标注装置结构示意图。如图3所示,该装置 包括裁判文书分割模块、标签库整理模块、标准数据集模块、标注模型模块、结果校 验模块、输入模块和输出模块。
所述裁判文书分割模块,用于将待标注的裁判文书的文本进行结构分割;所述待标注的裁判文书可以是用于训练标注模型的样本文书,也可以是用户需要标注的目标 裁判文书。
所述标签库整理模块,用于建立语义标签库,可以在使用过程中不断完善。
所述标准数据集模块,用于人工抽取裁判文书并标注,为机器学习提供数据样本。
所述标注模型模块,用于将所述数据样本通过机器学习算法训练和测试,得到裁判文书标注模型;
所述结果校验模块,用于完善所述语义标签库,迭代优化所述裁判文书标注模型。
所述输入模块被配置为面向用户上传所述待标注的裁判文书的文本;所述输出模块用于显示标注完成的裁判文书。
所述裁判文书标注装置通过调用所述裁判文书分割模块、标签库整理模块和标注模型模块,对用户上传的所述待标注的裁判文书的文本输入所述裁判文书分割模块进 行分割后,按照所述语义标签库中的标签映射与所述裁判文书标注模型匹配,完成机 器标注,并将标注完成的裁判文书的文本通过所述输出模块进行显示。
进一步地,所述标注完成的裁判文书的文本中,所述语义标签库中不同类型的标签分别对应不同的颜色,以示区分。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术 人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得 到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于机器学习算法的裁判文书标注方法,其特征在于,包括以下步骤:
步骤S101:采集待标注的裁判文书的文本集合;
步骤S102:基于预设正则集合,将所述文本集合中的各个文本进行结构分割;
步骤S103:将步骤S102处理过的所述文本集合分为标准数据集合和校验文书集合;
步骤S104:建立语义标签库,所述语义标签库包括通用标签、案由标签、同义词标签;
步骤S105:基于所述语义标签库,人工标注所述标准数据集合中的各个文书,形成标准裁判文书标注样式;
步骤S106:将步骤S105处理过的所述标准数据集合分为训练集和测试集;
步骤S107:采用机器学习算法,将所述训练集交由机器学习,训练机器自动标注模型;
步骤S108:将所述测试集交由步骤S107输出的所述机器自动标注模型进行自动标注,根据标注结果的覆盖度和置信度不断调整所述机器学习算法,形成初步标注模型;
步骤S109:使用所述初步标注模型对步骤103输出的所述校验文书集合进行自动标注;
步骤S110:对步骤S108输出的自动标注结果进行随机抽样,作为校验样本;
步骤S111:对所述校验样本进行人工校验,补充和完善所述语义标签库;同时调整算法,重复步骤S108至步骤S111,对所述初步标注模型进行迭代优化,最终得到成熟的裁判文书标注模型;
步骤S112:将目标待标注的裁判文书重复步骤S102后输入所述成熟的裁判文书标注模型,按照所述语义标签库的标签映射和所述成熟的裁判文书标注模型匹配,得到所述目标待标注的裁判文书的标注结果。
2.如权利要求1所述的基于机器学习算法的裁判文书标注方法,其特征在于,步骤S101中,所述待标注的裁判文书的文本包含多个自然段落。
3.如权利要求1所述的基于机器学习算法的裁判文书标注方法,其特征在于,步骤S102包括以下步骤:
步骤S201:将所述文本集合中的每个文本进行分行处理,得到每个文本对应的文书行集合;
步骤S202:根据预设正则集合和所述文书行集合中每个文书行对应的段落标识,将所述文本分割为“标题、头部、当事人情况、审理经过、原告诉请、被告辩称、证据事实、判决理由、引用条文与判决正文、尾部”十个部分。
4.如权利要求1所述的基于机器学习算法的裁判文书标注方法,其特征在于,步骤S103中,所述标准数据集合的选取方法为:由法律专业人士针对不同案由,各选取至少100篇裁判文书作为所述标准数据集合。
5.如权利要求1所述的基于机器学习算法的裁判文书标注方法,其特征在于,步骤S104中,建立所述语义标签库的方法如下:
通过人工阅读裁判文书中的“引用条文和判决正文”部分,对表示法院态度的标签词进行归纳整理形成所述通用标签;
通过人工根据不同案由以及裁判文书对案件要素的论述,以动宾短语或名词词组的形式归纳整理,形成各个案由对应的所述案由标签,所述案由标签包括诉请标签、事实标签、证据标签;
通过人工方式,对案件表述相似或相同的用语表达进行归纳整理,形成所述同义词标签。
6.如权利要求1所述的基于机器学习算法的裁判文书标注方法,其特征在于,步骤S106中人工标注的方法为:人工阅读所述标准数据集合中各个文书,将所述文书的分割部分与所述语义标签库中的标签进行对应匹配并标注,形成标准裁判文书标注样式。
7.如权利要求1所述的基于机器学习算法的裁判文书标注方法,其特征在于,步骤107中所述机器学习算法采用以下任一项算法:随机森林算法、支持向量机算法、逻辑回归算法、贝叶斯分类器和神经网络算法。
8.一种基于机器学习算法的裁判文书标注装置,其特征在于,所述裁判文书标注装置包括:
裁判文书分割模块,用于将待标注的裁判文书的文本进行结构分割;
标签库整理模块,用于建立语义标签库;
标准数据集模块,用于人工抽取裁判文书并标注,为机器学习提供数据样本;
标注模型模块,用于将所述数据样本通过机器学习算法训练和测试,得到裁判文书标注模型;
结果校验模块,用于完善所述语义标签库,迭代优化所述裁判文书标注模型。
9.如权利要求8所述的基于机器学习算法的裁判文书标注装置,其特征在于,所述裁判文书标注装置还包括输入模块和输出模块;所述输入模块被配置为面向用户上传所述待标注的裁判文书的文本;所述裁判文书标注装置通过调用所述裁判文书分割模块、标签库整理模块和标注模型模块,对用户上传的所述待标注的裁判文书的文本输入所述裁判文书分割模块进行分割后,按照所述语义标签库中的标签映射与所述裁判文书标注模型匹配,完成机器标注,并将标注完成的裁判文书的文本通过所述输出模块进行显示。
10.如权利要求9所述的基于机器学习算法的裁判文书标注装置,其特征在于,所述标注完成的裁判文书的文本中,所述语义标签库中不同类型的标签分别对应不同的颜色,以示区分。
CN201810178639.7A 2018-03-05 2018-03-05 一种基于机器学习算法的裁判文书标注方法及装置 Active CN108334500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810178639.7A CN108334500B (zh) 2018-03-05 2018-03-05 一种基于机器学习算法的裁判文书标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810178639.7A CN108334500B (zh) 2018-03-05 2018-03-05 一种基于机器学习算法的裁判文书标注方法及装置

Publications (2)

Publication Number Publication Date
CN108334500A true CN108334500A (zh) 2018-07-27
CN108334500B CN108334500B (zh) 2022-02-22

Family

ID=62930383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810178639.7A Active CN108334500B (zh) 2018-03-05 2018-03-05 一种基于机器学习算法的裁判文书标注方法及装置

Country Status (1)

Country Link
CN (1) CN108334500B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377000A (zh) * 2018-09-21 2019-02-22 安徽和信科技发展有限责任公司 一种人工智能技术的诉讼风险评估装置
CN109460468A (zh) * 2018-10-23 2019-03-12 出门问问信息科技有限公司 法律相关文本的归类方法、归类装置及相应的电子设备
CN109710756A (zh) * 2018-11-23 2019-05-03 京华信息科技股份有限公司 基于语义角色标注的文书体裁分类系统及方法
CN109949637A (zh) * 2019-03-13 2019-06-28 广东小天才科技有限公司 一种客观题目的自动解答方法和装置
CN110136513A (zh) * 2019-05-13 2019-08-16 上海乂学教育科技有限公司 英语听力解析系统
CN110321439A (zh) * 2019-07-10 2019-10-11 北京市律典通科技有限公司 一种电子标注管理方法及系统
CN110516257A (zh) * 2019-08-30 2019-11-29 贵州大学 一种基于边界识别与组合的裁判文书证据抽取方法
CN110717041A (zh) * 2019-09-19 2020-01-21 太极计算机股份有限公司 一种案件检索方法及系统
CN110750974A (zh) * 2019-09-20 2020-02-04 成都星云律例科技有限责任公司 一种裁判文书结构化处理方法及系统
CN110765418A (zh) * 2019-10-09 2020-02-07 清华大学 一种流域水沙研究模型的智能集合评估方法和系统
CN110781650A (zh) * 2020-01-02 2020-02-11 四川大学 一种基于深度学习的裁判文书自动生成方法及系统
CN110827177A (zh) * 2018-08-13 2020-02-21 北京国双科技有限公司 类案文书查找方法及装置
CN110837564A (zh) * 2019-09-25 2020-02-25 中央民族大学 多语言刑事判决书知识图谱的构建方法
WO2020052184A1 (zh) * 2018-09-10 2020-03-19 平安科技(深圳)有限公司 裁判文书处理方法、装置、计算机设备和存储介质
CN110956026A (zh) * 2019-11-28 2020-04-03 北京华宇元典信息服务有限公司 法律文书生成方法、生成装置和电子设备
CN111104798A (zh) * 2018-10-27 2020-05-05 北京智慧正安科技有限公司 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质
CN111126053A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 一种信息处理方法及相关设备
CN111198934A (zh) * 2018-10-31 2020-05-26 北京国双科技有限公司 一种信息处理方法及相关设备
CN111241274A (zh) * 2019-12-31 2020-06-05 航天信息股份有限公司 刑事法律文书处理方法和装置、存储介质和电子设备
CN111242307A (zh) * 2018-11-13 2020-06-05 北大方正集团有限公司 基于深度学习的裁判结果获取方法、装置及存储介质
CN111291152A (zh) * 2018-12-07 2020-06-16 北大方正集团有限公司 案例文书的推荐方法、装置、设备及存储介质
CN111291570A (zh) * 2018-12-07 2020-06-16 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN111553443A (zh) * 2020-05-14 2020-08-18 北京华宇元典信息服务有限公司 裁判文书处理模型的训练方法、训练装置和电子设备
CN111581447A (zh) * 2020-05-11 2020-08-25 吉林大学 一种裁判文书评查方法
CN111651270A (zh) * 2020-05-19 2020-09-11 南京擎盾信息科技有限公司 对法律数据完成多任务语义标注的可视化方法和装置
CN111651271A (zh) * 2020-05-19 2020-09-11 南京擎盾信息科技有限公司 基于法律数据的多任务学习语义标注方法和装置
CN111753537A (zh) * 2020-06-12 2020-10-09 鼎富智能科技有限公司 离婚纠纷裁判文书标签提取方法及装置
CN111783399A (zh) * 2020-06-24 2020-10-16 北京计算机技术及应用研究所 一种法律裁判文书信息抽取方法
CN111858938A (zh) * 2020-07-23 2020-10-30 鼎富智能科技有限公司 一种裁判文书标签的提取方法及装置
CN111931515A (zh) * 2020-08-10 2020-11-13 鼎富智能科技有限公司 基于合同纠纷判决书的合同条款效力分析方法及装置
CN111931479A (zh) * 2020-08-10 2020-11-13 鼎富智能科技有限公司 基于合同纠纷判决书的信息抽取方法及装置
CN112381679A (zh) * 2020-11-12 2021-02-19 四川大学 强可解释性和时空不变性的智能法条推荐系统
CN112434138A (zh) * 2021-01-28 2021-03-02 北京睿企信息科技有限公司 一种基于关键比对的证词矛盾提取方法及系统
CN112541345A (zh) * 2019-09-20 2021-03-23 北京国双科技有限公司 裁判文书的审查方法、装置、存储介质及设备
CN113239206A (zh) * 2021-06-18 2021-08-10 广东博维创远科技有限公司 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置
CN113673255A (zh) * 2021-08-25 2021-11-19 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN114092119A (zh) * 2021-11-29 2022-02-25 北京金堤科技有限公司 供应关系获取方法、装置、存储介质及电子设备
CN115952290A (zh) * 2023-03-09 2023-04-11 太极计算机股份有限公司 基于主动学习和半监督学习的案情特征标注方法、装置和设备
CN117114013A (zh) * 2023-10-12 2023-11-24 北京大学深圳研究生院 一种基于小样本的语义标注方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6868411B2 (en) * 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
CN107122444A (zh) * 2017-04-24 2017-09-01 北京科技大学 一种法律知识图谱自动构建方法
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法
CN107632968A (zh) * 2017-05-22 2018-01-26 南京大学 一种面向裁判文书的证据链关系模型的构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6868411B2 (en) * 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
CN107122444A (zh) * 2017-04-24 2017-09-01 北京科技大学 一种法律知识图谱自动构建方法
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN107632968A (zh) * 2017-05-22 2018-01-26 南京大学 一种面向裁判文书的证据链关系模型的构建方法
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827177A (zh) * 2018-08-13 2020-02-21 北京国双科技有限公司 类案文书查找方法及装置
WO2020052184A1 (zh) * 2018-09-10 2020-03-19 平安科技(深圳)有限公司 裁判文书处理方法、装置、计算机设备和存储介质
CN109377000A (zh) * 2018-09-21 2019-02-22 安徽和信科技发展有限责任公司 一种人工智能技术的诉讼风险评估装置
CN109460468A (zh) * 2018-10-23 2019-03-12 出门问问信息科技有限公司 法律相关文本的归类方法、归类装置及相应的电子设备
CN111104798A (zh) * 2018-10-27 2020-05-05 北京智慧正安科技有限公司 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质
CN111104798B (zh) * 2018-10-27 2023-04-21 北京智慧正安科技有限公司 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质
CN111198934A (zh) * 2018-10-31 2020-05-26 北京国双科技有限公司 一种信息处理方法及相关设备
CN111126053A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 一种信息处理方法及相关设备
CN111198934B (zh) * 2018-10-31 2023-12-26 北京国双科技有限公司 一种信息处理方法及相关设备
CN111126053B (zh) * 2018-10-31 2023-07-04 北京国双科技有限公司 一种信息处理方法及相关设备
CN111242307A (zh) * 2018-11-13 2020-06-05 北大方正集团有限公司 基于深度学习的裁判结果获取方法、装置及存储介质
CN109710756B (zh) * 2018-11-23 2023-07-07 京华信息科技股份有限公司 基于语义角色标注的文书体裁分类系统及方法
CN109710756A (zh) * 2018-11-23 2019-05-03 京华信息科技股份有限公司 基于语义角色标注的文书体裁分类系统及方法
CN111291152A (zh) * 2018-12-07 2020-06-16 北大方正集团有限公司 案例文书的推荐方法、装置、设备及存储介质
CN111291570A (zh) * 2018-12-07 2020-06-16 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN109949637A (zh) * 2019-03-13 2019-06-28 广东小天才科技有限公司 一种客观题目的自动解答方法和装置
CN110136513A (zh) * 2019-05-13 2019-08-16 上海乂学教育科技有限公司 英语听力解析系统
CN110321439A (zh) * 2019-07-10 2019-10-11 北京市律典通科技有限公司 一种电子标注管理方法及系统
CN110516257A (zh) * 2019-08-30 2019-11-29 贵州大学 一种基于边界识别与组合的裁判文书证据抽取方法
CN110717041B (zh) * 2019-09-19 2023-10-03 太极计算机股份有限公司 一种案件检索方法及系统
CN110717041A (zh) * 2019-09-19 2020-01-21 太极计算机股份有限公司 一种案件检索方法及系统
CN110750974A (zh) * 2019-09-20 2020-02-04 成都星云律例科技有限责任公司 一种裁判文书结构化处理方法及系统
CN112541345A (zh) * 2019-09-20 2021-03-23 北京国双科技有限公司 裁判文书的审查方法、装置、存储介质及设备
CN110837564B (zh) * 2019-09-25 2023-10-27 中央民族大学 多语言刑事判决书知识图谱的构建方法
CN110837564A (zh) * 2019-09-25 2020-02-25 中央民族大学 多语言刑事判决书知识图谱的构建方法
CN110765418A (zh) * 2019-10-09 2020-02-07 清华大学 一种流域水沙研究模型的智能集合评估方法和系统
CN110765418B (zh) * 2019-10-09 2021-07-20 清华大学 一种流域水沙研究模型的智能集合评估方法和系统
CN110956026A (zh) * 2019-11-28 2020-04-03 北京华宇元典信息服务有限公司 法律文书生成方法、生成装置和电子设备
CN111241274A (zh) * 2019-12-31 2020-06-05 航天信息股份有限公司 刑事法律文书处理方法和装置、存储介质和电子设备
CN111241274B (zh) * 2019-12-31 2023-11-28 航天信息股份有限公司 刑事法律文书处理方法和装置、存储介质和电子设备
CN110781650B (zh) * 2020-01-02 2020-04-14 四川大学 一种基于深度学习的裁判文书自动生成方法及系统
CN110781650A (zh) * 2020-01-02 2020-02-11 四川大学 一种基于深度学习的裁判文书自动生成方法及系统
CN111581447A (zh) * 2020-05-11 2020-08-25 吉林大学 一种裁判文书评查方法
CN111553443A (zh) * 2020-05-14 2020-08-18 北京华宇元典信息服务有限公司 裁判文书处理模型的训练方法、训练装置和电子设备
CN111651271A (zh) * 2020-05-19 2020-09-11 南京擎盾信息科技有限公司 基于法律数据的多任务学习语义标注方法和装置
CN111651271B (zh) * 2020-05-19 2021-07-20 南京擎盾信息科技有限公司 基于法律数据的多任务学习语义标注方法和装置
CN111651270A (zh) * 2020-05-19 2020-09-11 南京擎盾信息科技有限公司 对法律数据完成多任务语义标注的可视化方法和装置
CN111753537A (zh) * 2020-06-12 2020-10-09 鼎富智能科技有限公司 离婚纠纷裁判文书标签提取方法及装置
CN111783399A (zh) * 2020-06-24 2020-10-16 北京计算机技术及应用研究所 一种法律裁判文书信息抽取方法
CN111783399B (zh) * 2020-06-24 2023-10-20 北京计算机技术及应用研究所 一种法律裁判文书信息抽取方法
CN111858938A (zh) * 2020-07-23 2020-10-30 鼎富智能科技有限公司 一种裁判文书标签的提取方法及装置
CN111858938B (zh) * 2020-07-23 2024-05-24 鼎富智能科技有限公司 一种裁判文书标签的提取方法及装置
CN111931479A (zh) * 2020-08-10 2020-11-13 鼎富智能科技有限公司 基于合同纠纷判决书的信息抽取方法及装置
CN111931515A (zh) * 2020-08-10 2020-11-13 鼎富智能科技有限公司 基于合同纠纷判决书的合同条款效力分析方法及装置
CN112381679A (zh) * 2020-11-12 2021-02-19 四川大学 强可解释性和时空不变性的智能法条推荐系统
CN112434138A (zh) * 2021-01-28 2021-03-02 北京睿企信息科技有限公司 一种基于关键比对的证词矛盾提取方法及系统
CN113239206A (zh) * 2021-06-18 2021-08-10 广东博维创远科技有限公司 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置
CN113673255B (zh) * 2021-08-25 2023-06-30 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN113673255A (zh) * 2021-08-25 2021-11-19 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN114092119A (zh) * 2021-11-29 2022-02-25 北京金堤科技有限公司 供应关系获取方法、装置、存储介质及电子设备
CN115952290A (zh) * 2023-03-09 2023-04-11 太极计算机股份有限公司 基于主动学习和半监督学习的案情特征标注方法、装置和设备
CN117114013A (zh) * 2023-10-12 2023-11-24 北京大学深圳研究生院 一种基于小样本的语义标注方法及装置
CN117114013B (zh) * 2023-10-12 2024-02-02 北京大学深圳研究生院 一种基于小样本的语义标注方法及装置

Also Published As

Publication number Publication date
CN108334500B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
CN108334500A (zh) 一种基于机器学习算法的裁判文书标注方法及装置
CN103885934B (zh) 一种专利文献关键短语自动提取方法
CN108763483A (zh) 一种面向裁判文书的文本信息抽取方法
CN110750974B (zh) 一种裁判文书结构化处理方法及系统
WO2020052184A1 (zh) 裁判文书处理方法、装置、计算机设备和存储介质
CN112836046A (zh) 一种四险一金领域政策法规文本实体识别方法
CN110334217A (zh) 一种要素抽取方法、装置、设备及存储介质
CN109101551B (zh) 一种问答知识库的构建方法及装置
CN110610005A (zh) 基于深度学习的盗窃罪辅助量刑方法
CN110335180A (zh) 案件立案材料智能审查装置
CN113343706B (zh) 基于多模态特征和语义规则的文本抑郁倾向检测系统
CN110188714A (zh) 一种在聊天场景下实现财务管理的方法、系统及存储介质
CN114549241A (zh) 合同审查方法、装置、系统与计算机可读存储介质
CN108073988A (zh) 一种基于强化学习的法律认知方法、装置和介质
CN112365372B (zh) 一种面向裁判文书的质量检测及评估方法及系统
CN111160345A (zh) 一种企业合同智能生成系统及方法
CN107341157B (zh) 一种客服对话聚类方法和装置
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN106933802A (zh) 一种面向多数据源的社保类实体识别方法及装置
Nguyen et al. Subtree mining for relation extraction from Wikipedia
US11915157B2 (en) Computerized method of training a computer executed model for recognizing numerical quantities
CN116304023A (zh) 一种基于nlp技术的招投标要素抽取方法、系统及存储介质
CN109635289A (zh) 词条分类方法及审计信息抽取方法
CN114549177A (zh) 保函审查方法、装置、系统与计算机可读存储介质
CN111858938B (zh) 一种裁判文书标签的提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 330038 Room 606, commercial office building 2, plot jlh603-d03, Greenland International Expo City, 1388 Jiulong Avenue, Honggutan District, Nanchang City, Jiangxi Province

Patentee after: Jiangxi Sixian Data Technology Co.,Ltd.

Address before: 201207 room 301-20, building 1, No. 400, Fangchun Road, pilot Free Trade Zone, Pudong New Area, Shanghai

Patentee before: SHANGHAI SIXIAN INFORMATION TECHNOLOGY CO.,LTD.