CN114118089A - 一种基于裁判文书的企业司法诉讼关系的构建方法及系统 - Google Patents
一种基于裁判文书的企业司法诉讼关系的构建方法及系统 Download PDFInfo
- Publication number
- CN114118089A CN114118089A CN202111283821.7A CN202111283821A CN114118089A CN 114118089 A CN114118089 A CN 114118089A CN 202111283821 A CN202111283821 A CN 202111283821A CN 114118089 A CN114118089 A CN 114118089A
- Authority
- CN
- China
- Prior art keywords
- entity
- referee
- sentence
- document
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000007781 pre-processing Methods 0.000 claims abstract description 31
- 238000000605 extraction Methods 0.000 claims description 31
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 230000008030 elimination Effects 0.000 claims 1
- 238000003379 elimination reaction Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 5
- 238000004140 cleaning Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007710 freezing Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Technology Law (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种基于裁判文书的企业司法诉讼关系的构建方法,包括如下步骤。步骤S10:采集裁判文书并进行格式整理。步骤S20:对裁判文书进行数据预处理,并抽取裁判文书中的不同类型的实体信息;其中采用命名实体识别NER算法抽取当事人相关实体,采用字符串匹配算法抽取法院角色相关实体、金额相关实体、案件类型相关实体。步骤S30:将裁判文书中抽取出的各种类型的实体信息根据预定义的实体关系类型,构建反映司法诉讼关系的实体关系。本申请针对裁判文书的结构特点彻底全面地进行文本结构化分析处理,可以全面、完整、准确地构建出企业的司法诉讼关系。
Description
技术领域
本申请涉及一种文本结构化分析方法,尤其是涉及一种基于裁判文书的文本结构化分析方法,用于构建企业司法诉讼关系。
背景技术
裁判文书也称判决文书,记载了人民法院审理司法案件的过程和结果。随着我国司法数据的公开,越来越多的司法案件判决信息以网页的形式发布出来,各大法律数据库内的裁判文书都达到了千万级别。虽然公众可以通过互联网查询的形式阅读案件,但裁判文书仍以大段文本描述的形式进行组织,因此人们对于案件的检索、分析和利用都变得困难。裁判文书虽然具有一定的文书样式,但是对于判决文书中涉及的多种实体(例如案件类型、冻结金额、受理费、原告、被告、判决法院、法院等级、法院地点、案件类型等主要字段)及实体关系(例如原告-负责人、原告-委托代理人、姓名-角色-律师-律所等主要关系)的信息,仍然以自然行文的形式或以语义逻辑的关系包含在裁判文书中。如何获取裁判文书中的实体、以及由这些实体构成的司法诉讼关系,这项工作目前是通过人工阅读整理来完成的。但是人工整理不仅需要熟悉相关知识的专业人员,而且效率相对很低。在此环境下,利用计算机快速有效地挖掘和分析司法案件的信息抽取技术逐渐受到了广大研究者的关注,尤其是司法案件的文本结构化分析技术。
目前,通过信息抽取进行文本结构化的技术已经有了大量的研究工作,主要包括基于规则的方法、基于机器学习的方法等。但是对于裁判文书这种具有很强的领域性知识问题,无法直接将其他领域方法直接复制到裁判文书的信息抽取中。此外,目前针对裁判文书信息化抽取的研究相对较少。
裁判文书的结构化处理是对裁判案件数据分析的前提,不仅需要成熟的信息抽取技术,还需要制定司法领域专业的数据处理服务。因此其他领域的文本结构化方法、规则往往难以直接复制到裁判文书的结构化上。而现有的针对裁判文书的信息抽取仅仅抽取裁判文书中某一字段信息或某些字段信息,对裁判文书信息的抽取不够全面;并且现有的文本结构化抽取,往往只是将裁判文书中各信息字段抽取,并未构造实体诉讼关系。
发明内容
本申请所要解决的技术问题是提出一种基于裁判文书的企业司法诉讼关系的构建方法,自动化抽取裁判文书中的实体、构造企业司法诉讼关系。为此,本申请还要提出一种相应的基于裁判文书的企业司法诉讼关系的构建系统。
为解决上述技术问题,本申请提供了一种基于裁判文书的企业司法诉讼关系的构建方法,包括如下步骤。步骤S10:采集裁判文书并进行格式整理。步骤S20:对裁判文书进行数据预处理,并抽取裁判文书中的不同类型的实体信息;其中采用命名实体识别NER算法抽取当事人相关实体,采用字符串匹配算法抽取法院角色相关实体、金额相关实体、案件类型相关实体。步骤S30:将裁判文书中抽取出的各种类型的实体信息根据预定义的实体关系类型,构建反映司法诉讼关系的实体关系。上述方法针对裁判文书的结构特点进行文本结构化分析处理,彻底全面地提取当事人相关实体、法院角色相关实体、金额相关实体、案件类型相关实体信息,可以全面、完整、准确地构建出企业的司法诉讼关系。
进一步地,所述步骤S10中,所述格式整理包括正文提取、标点符号转换和数字转换;所述正文提取是指根据HTML网页文件的标签和正则表达式提取裁判文书正文;所述标点符号转换是指将标点符号、半角字符、全角字符进行检测并进行统一格式的转换;所述数字转换是指将裁判文书中的涉及的中文大写的数字全部转换为阿拉伯数字。这是一种示例性的优选实现方式。
进一步地,所述步骤S10中还包括对采集的裁判文书进行数据清洗,包括数据合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一种或多种。该可选步骤有助于提升所采集数据的准确性。
进一步地,所述步骤S20中预处理及抽取当事人相关实体包括如下步骤。步骤S21:制定当事人相关实体关键词词典,其中的关键词用来识别不同类型的当事人相关实体。步骤S22:对裁判文书进行段落划分;将裁判文书分为当事人段落、案件陈述段落、案件判决段落。步骤S23:对当事人段落进行句子分割。步骤S24:遍历所有句子,如果句子中出现当事人相关实体关键词词典中的关键词,则对该句子进行中文分词;否则忽略跳过该句子。步骤S25:对分词后的句子进行词性标注,标注的词性用于训练NER算法。步骤S26:对词性标注后的句子,利用训练好的NER算法提取文本中出现的人名和公司名。步骤S27:根据当事人相关实体关键词词典中的关键词在NER算法提取的人名和公司名中找到当事人相关实体的具体内容。这是一种示例性的优选实现方式。
进一步地,所述步骤S20中预处理及抽取法院角色相关实体包括如下步骤。步骤S41:制定法院角色相关实体关键词词典,其中的关键词用来识别不同类型的法院角色相关实体。步骤S42:对裁判文书进行段落划分;将裁判文书分为当事人段落、案件陈述段落、案件判决段落。步骤S43:对案件判决段落进行句子分割。步骤S45:遍历所有句子,如果句子中出现法院角色相关实体关键词词典中的关键词,则提取该关键词后续的字符串作为该关键词对应的法院角色相关实体的具体内容;否则忽略跳过该句子。这是一种示例性的优选实现方式。
可选地,所述步骤S43和步骤S45之间还包括:步骤S44:去除句子中的空格。这有助于提高抽取实体信息的准确性。
进一步地,所述步骤S20中预处理及抽取金额相关实体包括如下步骤。步骤S61:制定金额相关实体关键词词典,其中的关键词用来识别不同类型的金额相关实体。步骤S62:对裁判文书进行段落划分;将裁判文书分为当事人段落、案件陈述段落、案件判决段落。步骤S63:对案件判决段落进行句子分割。步骤S64:遍历所有句子,提取出各句子中出现的金额数字。步骤S65:如果某句子中含有金额数字,并且该句子或该句子的前一个句子中含有金额相关实体关键词词典中的关键词,则将该金额数字作为该关键词对应的金额相关实体的内容;如果某句子中含有金额数字,并且该句子和该句子的前一个句子中均没有金额相关实体关键词词典中的关键词,忽略跳过该句子;对于不含金额数字的句子,忽略跳过该句子。这是一种示例性的优选实现方式。
进一步地,所述步骤S65中,如在某个关键词所在句子或下一句子中出现金额调整关键词,则对金额进行相应的数值调整计算后作为对应的金额相关实体的内容。该步骤用来应对金额数字提取的一些特殊情况。
进一步地,所述步骤S20中预处理及抽取案件类型相关实体包括如下步骤。所述案件类型相关实体包括案件类型实体和文书类型实体。步骤S71:根据裁判文书的规范制定案件类型关键词词典、文书类型关键词词典,其中的关键词分别用来识别不同的案件类型、不同的文书类型。步骤S72:在裁判文书中搜索案件类型关键词词典中的关键词,获取案件类型;在裁判文书中搜索文书类型关键词词典中的关键词,获取文书类型。这是一种示例性的优选实现方式。
本申请还提供了一种基于裁判文书的企业司法诉讼关系的构建系统,包括采集整理模块、预处理抽取模块和实体关系构建模块。所述采集整理模块用于采集裁判文书并进行格式整理。所述预处理抽取模块用于对裁判文书进行数据预处理,并抽取裁判文书中的不同类型的实体信息;其中采用命名实体识别NER算法抽取当事人相关实体,采用字符串匹配算法抽取法院角色相关实体、金额相关实体、案件类型相关实体。所述实体提取模块用于将裁判文书中抽取出的各种类型的实体信息根据预定义的实体关系类型,构建反映司法诉讼关系的实体关系。上述系统针对裁判文书的结构特点进行文本结构化分析处理,可以全面、完整、准确地构建出企业的司法诉讼关系。
本申请取得的技术效果是基于自然语言处理和机器学习技术,实现对裁判文书自动化抽取实体和构建表征司法诉讼关系的实体关系,并制定了针对裁判文书的各种实体的关键词词典。
附图说明
图1是本申请提供的基于裁判文书的企业司法诉讼关系的构建方法的流程示意图。
图2是步骤S20的一个具体实施例(预处理及抽取当事人相关实体)的流程示意图。
图3是图2的一个实例的示意图。
图4是步骤S20的一个具体实施例(预处理及抽取法院角色相关实体)的流程示意图。
图5是图4的一个实例的示意图。
图6是步骤S20的一个具体实施例(预处理及抽取金额相关实体)的流程示意图。
图7是步骤S20的一个具体实施例(预处理及抽取案件类型相关实体)的流程示意图。
图8是本申请提供的基于裁判文书的企业司法诉讼关系的构建系统的结构示意图。
图中附图标记说明:10为采集整理模块;20为预处理抽取模块;30为实体关系构建模块。
具体实施方式
请参阅图1,本申请提出的基于裁判文书的企业司法诉讼关系的构建方法包括如下步骤。
步骤S10:采集裁判文书并进行格式整理,包括对HTML网页文件进行正文提取、标点符号和数字的转换。所述正文提取是指根据HTML网页文件的标签和正则表达式提取裁判文书正文,例如转为统一的文本格式。所述标点符号的转换是指将标点符号、半角字符、全角字符进行检测并进行统一格式的转换,例如标点符号全部转换为中文标点符号,半角字符全部转换为全角字符。所述数字的转换是指将裁判文书中的涉及的中文大写的数字全部转换为阿拉伯数字,例如,将“壹、贰、叁、肆、伍、陆、柒、捌、玖、零”分别转换为“1、2、3、4、5、6、7、8、9、0”。
步骤S20:对裁判文书进行数据预处理,并抽取裁判文书中的实体信息。这一步中,利用不同的抽取规则和抽取关键词抽取裁判文书中的不同类型的实体信息,包括抽取当事人相关实体、抽取法院角色相关实体、抽取金额相关实体、抽取案件类型相关实体。抽取不同的实体时,所涉及的预处理方式也是不同的。
第一,在裁判文书中预处理及抽取当事人相关实体。所述当事人相关实体包括原告实体、被告实体、上诉人实体、申请执行人实体等。抽取规则是根据当事人相关实体关键词词典在NER(Named Entity Recognition,命名实体识别)算法识别出的人名和企业名中抽取出当事人相关实体。
第二,在裁判文书中预处理及抽取法院角色相关实体。所述法院角色相关实体包括代理审判员实体、人民陪审员实体、审判员实体、审判长实体、书记员实体等。抽取规则是根据法院角色相关实体关键词词典利用字符串匹配算法抽取法院角色相关实体。
第三,在裁判文书中预处理及抽取金额相关实体。所述金额相关实体包含受理费金额实体、反诉费金额实体和最终案件裁判结果中所涉及的结案金额实体、冻结金额实体或者被解冻金额实体等。抽取规则是根据不同的金额相关实体的关键词利用字符串匹配算法抽取,例如结案金额实体、冻结金额实体分别有不同的关键词。
第四,在裁判文书中预处理及抽取案件类型相关实体。所述案件类型相关实体包括案件类型实体和文书类型实体。抽取规则是根据案件类型关键词词典、文书类型关键词词典在裁判文书的标题、案号中利用字符串匹配算法进行抽取。
上述“第一”、“第二”、“第三”、“第四”并不用于限定预处理及抽取实体信息的顺序,仅为描述方便。
步骤S30:构建裁判文书中的实体关系。这一步中,将裁判文书中抽取出的各种类型的实体信息根据预定义的实体关系类型,构建反映司法诉讼关系的实体关系,优选地以表格和/或图片的形式展示。常见的预定义的实体关系类型包括:原告-原告代理人;被告-被告代理人;原告-负责人;被告-负责人;法院名称-法院地点-法院级别;审判长-审判员-书记员;受理费-反诉费-案件标的;冻结行为-冻结金额-冻结描述;案号-案件类型-文书类型。例如,根据“原告-原告代理人”的实体关系类型,构建反映司法诉讼关系的实体关系为:{姓名:张三;角色:原告;原告代理人:李四;原告代理人律所:上海市李四律师事务所}。
优选地,在所述步骤S10之前,还包括对采集的裁判文书进行数据清洗(datacleaning)。所述数据清洗例如包括数据合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一种或多种。
请参阅图2,所述步骤S20中,在裁判文书中预处理及抽取当事人相关实体包括如下步骤。对应的一个实例如图3所示。
步骤S21:制定当事人相关实体关键词词典,其中的关键词用来识别不同类型的当事人相关实体。例如原告、被告、上诉人等关键词分别用来识别原告实体、被告实体、上诉人实体等不同类型的当事人相关实体。
步骤S22:对裁判文书进行段落划分。这是指根据裁判文书的文书结构及书写规律,将裁判文书按照逻辑关系分为三个段落:当事人段落、案件陈述段落、案件判决段落。
步骤S23:对当事人段落进行句子分割。所述句子分割也称子句划分,是指按照标点符号(如逗号、分号、句号等)以及HTML网页文件的分隔符(如\r、\n等)将每一段落进行分句处理,划分为一个个句子,也称子句。
步骤S24:遍历所有句子,如果句子中出现当事人相关实体关键词词典中的关键词,则对该句子进行中文分词。所述中文分词是指对每一个句子里的文本切分为一个个单独的词。例如对句子“北京是我们的首都”分词之后得到“北京”、“是”、“我们”、“的”、“首都”这几个词。如果句子中不含当事人相关实体关键词词典中的关键词,忽略跳过该句子。
步骤S25:对分词后的句子进行词性标注。这是指对分词结果中的每个词标注一个正确的词性,即标注每个词是名词、动词、形容词或其他词性。例如“北京”为表示地名的专有名词,“是”为动词,“我们”为代词,“的”为助词,“首都”为副词d。标注的词性作为NER算法的输入之一,用于训练NER算法。
步骤S26:利用训练好的NER算法提取词性标注后的句子中出现的人名和企业名。所述NER算法是指利用seq2seq2(Sequence to Sequence,序列到序列)模型进行命名实体识别,这是一种现有技术,在此不做赘述。例如从“申请执行人新疆XX机械设备有限公司于2014年5月4日向本院申请强制执行。”句子中通过NER算法识别出企业名“新疆XX机械设备有限公司”。
步骤S27:根据当事人相关实体关键词词典中的关键词在NER算法提取的人名和公司名中找到当事人相关实体的具体内容。例如“申请执行人实体”的具体内容就是“新疆XX机械设备有限公司”。
请参阅图4,所述步骤S20中,在裁判文书中预处理及抽取法院角色相关实体包括如下步骤。对应的一个实例如图5所示。
步骤S41:制定法院角色相关实体关键词词典,其中的关键词用来识别不同类型的法院角色相关实体。例如代理审判员、人民陪审员、审判员、审判长、书记员等关键词分别用来识别代理审判员实体、人民陪审员实体、审判员实体、审判长实体、书记员实体等不同类型的法院角色相关实体。
步骤S42:对裁判文书进行段落划分。这一步与步骤S22相同。
步骤S43:对案件判决段落进行句子分割。这一步与步骤S23类似。
步骤S44:去除句子中的空格。这一步是可选步骤。
步骤S45:遍历所有句子,如果句子中出现法院角色相关实体关键词词典中的关键词,则提取该关键词后续的字符串作为该关键词对应的法院角色相关实体的具体内容。如果句子中不含法院角色相关实体关键词词典中的关键词,忽略跳过该句子。
请参阅图6,所述步骤S20中,在裁判文书中预处理及抽取金额相关实体包括如下步骤。
步骤S61:制定金额相关实体关键词词典,其中的关键词用来识别不同类型的金额相关实体。例如受理费金额实体的关键词为“受理费”,冻结金额实体的关键词包括“冻结”、“查封”、“扣押”、“截留”等。
步骤S62:对裁判文书进行段落划分。这一步与步骤S22相同。
步骤S63:对案件判决段落进行句子分割。这一步与步骤S43相同。
步骤S64:遍历所有句子,利用正则表达式提取出各句子中出现的数字。如果数字后面出现“元”、“万元”、“角”等金额单位词,则认为其为金额数字。
步骤S65:如果某句子中含有金额数字,并且该句子或该句子的前一个句子中含有金额相关实体关键词词典中的关键词,则将该金额数字作为该关键词对应的金额相关实体的内容。如果某句子中含有金额数字,并且该句子和该句子的前一个句子中均没有金额相关实体关键词词典中的关键词,忽略跳过该句子。对于不含金额数字的句子,忽略跳过该句子。
这一步中需要注意某些金额实体的内容提取时的特殊情况。如果金额数字所在句子中、或者金额数字所在句子的后一个句子中含有金额调整关键词,则将该金额数字以金额调整关键词计算以后作为金额相关实体的内容。以受理费金额实体为例,需要判断受理费金额实体所在句子或下一句子中,是否存在“免收”、“减半收取”等金额调整关键词。如果存在金额调整关键词,则对金额进行相应的数值调整计算后作为对应的金额相关实体的内容。例如,“本案案件受理费300元,减半收取150元。”此时,受理费金额实体的关键词为“受理费”,内容为“150元”。
请参阅图7,所述步骤S20中,在裁判文书中预处理及抽取案件类型相关实体包括如下步骤。
步骤S71:根据裁判文书的规范制定案件类型关键词词典、文书类型关键词词典,其中的关键词分别用来识别不同的案件类型、不同的文书类型。所述案件类型关键词词典例如包括民事案件、刑事案件等关键词。所述文书类型关键词词典例如包括判决书、裁定书等关键词。
步骤S72:在裁判文书中根据字符串匹配算法搜索案件类型关键词词典中的关键词,获取案件类型。在裁判文书中根据关键词匹配算法搜索文书类型关键词词典中的关键词,获取文书类型。例如,裁判文书的标题中含有“民事”等关键词,可用于判断及获取案件类型相关实体。又如,裁判文书的案号中含有“民初”等关键词,可用于判断及获取案件类型相关实体。又如,裁判文书的标题中含有“裁定书”、“判决书”等关键词,可用于判断及获取文书类型相关实体。
请参阅图8,本申请提供的基于裁判文书的企业司法诉讼关系的构建系统包括采集整理模块10、预处理抽取模块20、实体关系构建模块30。所述采集整理模块10用于采集裁判文书并进行格式整理。所述预处理抽取模块20用于对裁判文书进行数据预处理,并抽取裁判文书中的实体信息。所述实体关系构建模块30用于构建裁判文书中的实体关系。
以上仅为本申请的优选实施例,并不用于限定本申请。对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于裁判文书的企业司法诉讼关系的构建方法,其特征是,包括如下步骤:
步骤S10:采集裁判文书并进行格式整理;
步骤S20:对裁判文书进行数据预处理,并抽取裁判文书中的不同类型的实体信息;其中采用命名实体识别NER算法抽取当事人相关实体,采用字符串匹配算法抽取法院角色相关实体、金额相关实体、案件类型相关实体;
步骤S30:将裁判文书中抽取出的各种类型的实体信息根据预定义的实体关系类型,构建反映司法诉讼关系的实体关系。
2.根据权利要求1所述的基于裁判文书的企业司法诉讼关系的构建方法,其特征是,所述步骤S10中,所述格式整理包括正文提取、标点符号转换和数字转换;所述正文提取是指根据HTML网页文件的标签和正则表达式提取裁判文书正文;所述标点符号转换是指将标点符号、半角字符、全角字符进行检测并进行统一格式的转换;所述数字转换是指将裁判文书中的涉及的中文大写的数字全部转换为阿拉伯数字。
3.根据权利要求1所述的基于裁判文书的企业司法诉讼关系的构建方法,其特征是,所述步骤S10还包括对采集的裁判文书进行数据清洗,包括数据合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一种或多种。
4.根据权利要求1所述的基于裁判文书的企业司法诉讼关系的构建方法,其特征是,所述步骤S20中预处理及抽取当事人相关实体包括如下步骤:
步骤S21:制定当事人相关实体关键词词典,其中的关键词用来识别不同类型的当事人相关实体;
步骤S22:对裁判文书进行段落划分;将裁判文书分为当事人段落、案件陈述段落、案件判决段落;
步骤S23:对当事人段落进行句子分割;
步骤S24:遍历所有句子,如果句子中出现当事人相关实体关键词词典中的关键词,则对该句子进行中文分词;否则忽略跳过该句子;
步骤S25:对分词后的句子进行词性标注,标注的词性用于训练NER算法;
步骤S26:对词性标注后的句子,利用训练好的NER算法提取文本中出现的人名和公司名;
步骤S27:根据当事人相关实体关键词词典中的关键词在NER算法提取的人名和公司名中找到当事人相关实体的具体内容。
5.根据权利要求1所述的基于裁判文书的企业司法诉讼关系的构建方法,其特征是,所述步骤S20中预处理及抽取法院角色相关实体包括如下步骤:
步骤S41:制定法院角色相关实体关键词词典,其中的关键词用来识别不同类型的法院角色相关实体;
步骤S42:对裁判文书进行段落划分;将裁判文书分为当事人段落、案件陈述段落、案件判决段落;
步骤S43:对案件判决段落进行句子分割;
步骤S45:遍历所有句子,如果句子中出现法院角色相关实体关键词词典中的关键词,则提取该关键词后续的字符串作为该关键词对应的法院角色相关实体的具体内容;否则忽略跳过该句子。
6.根据权利要求5所述的基于裁判文书的企业司法诉讼关系的构建方法,其特征是,所述步骤S43和步骤S45之间还包括:步骤S44:去除句子中的空格。
7.根据权利要求1所述的基于裁判文书的企业司法诉讼关系的构建方法,其特征是,所述步骤S20中预处理及抽取金额相关实体包括如下步骤:
步骤S61:制定金额相关实体关键词词典,其中的关键词用来识别不同类型的金额相关实体;
步骤S62:对裁判文书进行段落划分;将裁判文书分为当事人段落、案件陈述段落、案件判决段落;
步骤S63:对案件判决段落进行句子分割;
步骤S64:遍历所有句子,提取出各句子中出现的金额数字;
步骤S65:如果某句子中含有金额数字,并且该句子或该句子的前一个句子中含有金额相关实体关键词词典中的关键词,则将该金额数字作为该关键词对应的金额相关实体的内容;如果某句子中含有金额数字,并且该句子和该句子的前一个句子中均没有金额相关实体关键词词典中的关键词,忽略跳过该句子;对于不含金额数字的句子,忽略跳过该句子。
8.根据权利要求7所述的基于裁判文书的企业司法诉讼关系的构建方法,其特征是,所述步骤S65中,如在某个关键词所在句子或下一句子中出现金额调整关键词,则对金额进行相应的数值调整计算后作为对应的金额相关实体的内容。
9.根据权利要求1所述的基于裁判文书的企业司法诉讼关系的构建方法,其特征是,所述步骤S20中预处理及抽取案件类型相关实体包括如下步骤:所述案件类型相关实体包括案件类型实体和文书类型实体;
步骤S71:制定案件类型关键词词典、文书类型关键词词典,其中的关键词分别用来识别不同的案件类型、不同的文书类型;
步骤S72:在裁判文书中搜索案件类型关键词词典中的关键词,获取案件类型;在裁判文书中搜索文书类型关键词词典中的关键词,获取文书类型。
10.一种基于裁判文书的企业司法诉讼关系的构建系统,其特征是,包括采集整理模块、预处理抽取模块、实体提取模块和实体关系构建模块;
所述采集整理模块用于采集裁判文书并进行格式整理;
所述预处理抽取模块用于对裁判文书进行数据预处理,并抽取裁判文书中的不同类型的实体信息;其中采用命名实体识别NER算法抽取当事人相关实体,采用字符串匹配算法抽取法院角色相关实体、金额相关实体、案件类型相关实体;
所述实体关系构建模块用于将裁判文书中抽取出的各种类型的实体信息根据预定义的实体关系类型,构建反映司法诉讼关系的实体关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111283821.7A CN114118089A (zh) | 2021-11-01 | 2021-11-01 | 一种基于裁判文书的企业司法诉讼关系的构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111283821.7A CN114118089A (zh) | 2021-11-01 | 2021-11-01 | 一种基于裁判文书的企业司法诉讼关系的构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114118089A true CN114118089A (zh) | 2022-03-01 |
Family
ID=80380045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111283821.7A Pending CN114118089A (zh) | 2021-11-01 | 2021-11-01 | 一种基于裁判文书的企业司法诉讼关系的构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114118089A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116629258A (zh) * | 2023-07-24 | 2023-08-22 | 北明成功软件(山东)有限公司 | 基于复杂信息项数据的司法文书的结构化分析方法及系统 |
CN116796909A (zh) * | 2023-08-16 | 2023-09-22 | 浙江同信企业征信服务有限公司 | 一种司法诉讼风险预测方法、装置、设备及存储介质 |
-
2021
- 2021-11-01 CN CN202111283821.7A patent/CN114118089A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116629258A (zh) * | 2023-07-24 | 2023-08-22 | 北明成功软件(山东)有限公司 | 基于复杂信息项数据的司法文书的结构化分析方法及系统 |
CN116629258B (zh) * | 2023-07-24 | 2023-10-13 | 北明成功软件(山东)有限公司 | 基于复杂信息项数据的司法文书的结构化分析方法及系统 |
CN116796909A (zh) * | 2023-08-16 | 2023-09-22 | 浙江同信企业征信服务有限公司 | 一种司法诉讼风险预测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CA3098802C (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
Dozier et al. | Named entity recognition and resolution in legal text | |
CN110609998A (zh) | 一种电子文档信息的数据提取方法、电子设备及存储介质 | |
CN111259160B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN104572849A (zh) | 基于文本语义挖掘的标准化自动建档方法 | |
Saravanan et al. | Improving legal document summarization using graphical models | |
CN114118089A (zh) | 一种基于裁判文书的企业司法诉讼关系的构建方法及系统 | |
Vani et al. | Investigating the impact of combined similarity metrics and POS tagging in extrinsic text plagiarism detection system | |
CN112613315B (zh) | 一种文本知识自动抽取方法、装置、设备及存储介质 | |
CN113159969A (zh) | 一种金融长文本复核系统 | |
El-Haj et al. | Multilingual financial narrative processing: Analyzing annual reports in english, spanish, and portuguese | |
CN113157860A (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN112257442A (zh) | 一种基于扩充语料库神经网络的政策文件信息提取方法 | |
Hassel | Evaluation of automatic text summarization | |
CN111177401A (zh) | 一种电网自由文本知识抽取方法 | |
CN111191413A (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
Hamdi et al. | Machine learning vs deterministic rule-based system for document stream segmentation | |
CN113448918B (zh) | 一种企业科研成果管理方法及管理平台、设备、存储介质 | |
CN112488593B (zh) | 一种用于招标的辅助评标系统及方法 | |
Lopresti | Performance evaluation for text processing of noisy inputs | |
CN115908027A (zh) | 一种金融长文本复核系统的金融数据一致性审核模块 | |
McDonald et al. | Transforming Open-Source Documents to Terror Networks: The Arizona TerrorNet. | |
Thottempudi | A visual narrative of ramayana using extractive summarization topic modeling and named entity recognition | |
Peng | Research on Corpus Construction of Legal English Teaching Based on Data-Driven Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |