CN108197163A - 一种基于裁判文书的结构化处理方法 - Google Patents
一种基于裁判文书的结构化处理方法 Download PDFInfo
- Publication number
- CN108197163A CN108197163A CN201711338564.6A CN201711338564A CN108197163A CN 108197163 A CN108197163 A CN 108197163A CN 201711338564 A CN201711338564 A CN 201711338564A CN 108197163 A CN108197163 A CN 108197163A
- Authority
- CN
- China
- Prior art keywords
- word
- judgement document
- document
- text
- judgement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于裁判文书的结构化处理方法,本发明采用自然语言处理技术和高级机器学习技术,自动实现基于案由文本的关键词提取的案件类型分类,从而通过构建案件层次结构和设计的提取规则进行结构化处理,本发明通过相关词库的构建与扩展、裁判文书模块分割、设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进,并得到案例的类标签;根据不同案例类型创建不同层次框架,结合设计的提取规则,得到裁判文书的结构化处理。本发明可快递实现裁判文书的结构化处理。
Description
技术领域
本发明涉及文本数据结构化处理技术领域,尤其涉及一种基于裁判文书的结构化处理方法。
背景技术
随着司法改革的推进,我国司法改革的深度和宽度也在不断的扩展,民主、法治的思想也在慢慢的深入人心。其中,裁判文书的网上公开便是一个很好的例子,截止目前为止,互联网上公开的裁判文书达到三千多万篇,人们能够通过网络途径自由查阅和下载裁判文书,这意味着能更好的保障社会大众的知情权、参与权,提升法院司法公正的形象,树立司法权威。公开后的裁判文书信息,目前是主要以互联网网页的形式呈现,案件裁判文书虽然有一定的格式,但仍以大段文本的形式进行内容组织,对于裁判文书中的案号、原告、被告、判决法院、判决时间、案件分类等主要信息字段,是以自然行文的方式包含了在裁判文书中。如果需要更进一步挖掘和利用这些公开的裁判文书信息,就需要对案件的各个核心字段进行结构化处理,这通常由人工操作完成,即使熟练的人员日均处理案件结构化信息也就500条左右。对于如此规模的案件裁判文书信息数量,常见的人工加工处理明显在成本和效率两方面都存在不足。因此怎样利用信息加工的技术提升效率节约成本成了亟待解决的主要难题。
目前,在非结构化文本转化为结构化数据领域中已经存在大量的研究工作。专利CN106649844 A通过分词、词频统计后,再根据抽取所关注的目标领域,通过计算得出在输入文本中主题词与主题词所有左侧词共同出现的稳定性,通过训练设定阈值的方法得到输入文本主题相关的左侧主题词集合,最后过滤主题词,有效将海量非机构化文本数据转化为结构化或者半结构化数据。专利CN106844636 A利用深度学习算法对大量历史非结构化数据内容按照数据间的语义关系,采用时空分割、特征提取、对象识别等处理手段,实现非结构化数据项信息、情报的转化。专利CN 104899269 A公开了一种从病理报告文本数据的样本与指标的层次结构中提取出各个样本所对应的模板信息,采用计算指标名的TF值、IDF值和C_value值,筛选出满足相关阈值的指标名作为模板的成分,实现将非结构化的中文病理文本结构化。
裁判文书的结构化处理是对司法案件数据分析、深度挖掘的前提,不仅需要成熟的大数据挖掘技术,还需要制定司法专业领域的数据处理服务;目前主流常见的信息抽取技术方法分为统计和规则两种,基于统计的方法常常在某一特定领域内结构化处理结果准确率不高,指定的领域其行文特点相对特殊,无法直接移植到其他的领域。
发明内容
本发明为克服上述的不足之处,目的在于提供一种基于裁判文书的结构化处理方法,本发明采用自然语言处理技术和高级机器学习技术,自动实现基于案由文本的关键词提取的案件类型分类,从而通过构建案件层次结构和设计的提取规则进行结构化处理,本发明通过相关词库的构建与扩展、裁判文书模块分割、设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进,并得到案例的类标签;根据不同案例类型创建不同层次框架,结合设计的提取规则,得到裁判文书的结构化处理。
本发明是通过以下技术方案达到上述目的:一种基于裁判文书的结构化处理方法,包括如下步骤:
(1)获取并存储裁判文书信息,并对裁判文书信息进行数据清洗;
(2)基于裁判文书的文本特征进行相关词库的构建与扩展,包括裁判文书专业词库的构建、触发词表的构建与词语标注;
(3)根据裁判文书的书写结构特征,对裁判文书文档进行模块标注处理;
(4)利用常见的分隔标点和分隔词作为长句切分规则,采用正则表达式匹配规则对裁判文书中每个关键段落进行短句长句切分;
(5)根据裁判文书专用词库judgment.txt和停用词典stopword.txt对裁判文书进行处理,并结合触发词表的构建与词语标注将裁判文书数据表示为向量的形式;
(6)通过设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进,完成裁判文书聚类,并得到案例的类标签;
(7)创建基于裁判文书内容的层次结构,根据不同种类的裁判文书设计出相应的提取规则,并利用其得到裁判文书的结构化处理结果。
作为优选,所述步骤(1)具体为通过现有的中国裁判文书网站获取裁判文书信息,存储在数据库中;并对获取到的裁判文书信息进行数据清洗,将裁判文书内容为空或描述字段过少、重复的文本数据进行删除;将标点符号、半角全角、术语缩写、常见拼写错误进行检测并且修正;其中,在数据库中的存储格式为裁判文书序号、裁判文书内容两个字段;裁判文书序号是自然编号,无特殊意义;裁判文书内容字段为CLOB字段,存放整篇的文书内容。
作为优选,所述的相关词库的构建与扩展具体如下:
(2.1)裁判文书专业词库的构建:对裁判及法律相关的专业词汇进行总结、分类,以及词性标注,从而形成自定义裁判文书词库;
(2.2)触发词表的构建与词语标注:触发词指对抽取任务起到标志、识别作用,用于激活抽取任务的词汇;通过对大量裁判文书文本特征和表述规律的分析,为每个抽取任务建立其相应的触发词,分为六类:
1)作为触发词表示其右边可能是实体;
2)作为右触发词表示其左边可能是实体;
3)作为左边界表示该词有可能是实体词条的第一个成分;
4)作为右边界表示当前实体词条有可能到此结束;
5)作为内含词表示其往往作为实体内部成分;
6)当前词单独作为一个实体;
针对裁判文本数据中实体的结构和用字特征以及以上六类触发词信息,设计有7个标注符号:b、m、e、l、r、o、s;其中b,m,e分别表示实体左边界、内含词、右边界;l、r分别表示实体的左触发词和右触发词;s表示单词实体;o表示非实体词。
作为优选,所述对裁判文书文档进行模块标注处理具体为将裁判文书文档各模块的标注分别为:标题、案号、首部、事实、理由、裁判依据、裁判结果、尾部和落款。
作为优选,所述常见的分隔标点包括为逗号,句号,分号;分隔词为不影响核心语义的修饰词、副词,通常可作为一个词语的边界;所述短句长句的切分以标点符号为界,其中短句的切分以逗号及整理的分隔词词汇为界,长句的切分以分号、句号、段落标记为界。
作为优选,所述步骤(5)具体为:设总共有n篇裁判文书,di表示第i篇裁判文书,其数据集合表示为:Dn={d1,d2,...,di,...,dn},每篇裁判文书均进过模块块标注;根据裁判文书专用词库judgment.txt和停用词典stopword.txt进行分词处理,并结合触发词表与词语标注,将文本中出现的人名、机构名、文化程度、在职情况、地名、路段、日期的相关实体词使用其词语标注表示,最后得到裁判文书数据集合的语料库{w1,w2,...,wi,...,wN},其中wi表示语料库中的词语或者语料库中词语标注;则每篇裁判文书表示为三维向量的形式,设第i个裁判文书数据集表示为:di={(w1,p1,li),(w2,p2,li),...,(wN,pN,li)},N是中所有词语的数量,w表示语料库中词语或者是语料库中词语标注,p表示语料库中单词对应出现的次数,li表示裁判文书分块后各个模块标识。
作为优选,所述步骤(6)具体如下:
(6.1)聚簇数目k的确定:设第i个裁判文书为di,共有n条裁判文书,其数据集合可表示为Dn={d1,d2,...,dn},则将其聚类为k个类别;
(6.2)裁判文书的初始聚类:采用余弦计算裁判文书与每个聚类中心的距离,选择距离最小作为聚类依据,如下式所示:
dis(di)M=min(sim(di,mj))
其中,dis(di)M是裁判文书di距离第j个聚类中心的最小余弦距离,且m∈M;
(6.3)采用词语整体权重TW的增量作为第二次特征选择:经过初始聚类后通过计算每个特征词对整个文本集相似性的贡献来衡量该特征的重要性,整个文本集的相似度可以看做所有特征词t对整个文本集相似度权重的累加,如下所示:
特征词t的权重定义为:
其中,f(t,di)是特征词在文本di的权重,采用下式计算得到:
表示第di篇裁判文书中特征词tj的个数,表示第di篇裁判文书总的特征词个数;
其中,IDF的计算公式如下:
n表示总的裁判文书数量,n1为包含特征项t的文档数,n1=m+c,m为某一类中包含特征项t的文档数,c为除去该类外特征项t的文档数;
设L为一个正数,将所有特征词按照f(t,di)的计算公式和IDF的计算公式所得的得分降序排列,选择TopL个分值的最高特征词,将文本集的词条矩阵中包含这些特征词的文本去掉,并将这些特征词从总的特征集中去掉;若词条矩阵中仍有文本未被覆盖,在新的词条举证中重新计算剩余特征词的得分,并按降序排序,继续选择TopL个特征,直到所有文本都被选择到特征词;
(6.4)更新聚类中心:更新词语整体权重TW后,将每个类中得到的词语整体权重TW作为新的聚类中心;
(6.5)重复步骤(6.2)-(6.4),直到聚类中心不再变化;若不再变化,得到k个聚类和特征选择模型;
(6.6)案例的类标签的提取:聚类完成后,提取每个类别中词语整体权重比较高作为类的每个类别的关键词。
作为优选,所述步骤(6.1)具体步骤如下:
(6.1.1)使用文档频率DF进行第一步特征选择:文档频率DF是指在文本集中出现该词的文本数量;
(6.1.2)初始聚类中心的确定:
(6.1.2.1)设初始中心点集合M初始化为空集,即M={},对于数据文本集Dn={d1,d2,...,dn},计算di与dj两个文本集中某个模块的相似度si',如公式(I)所示,再计算di与dj两个文本集整体的相似度si,如公式(II)所示;
si=α1s'i1+α2s'i2+...+...αls'il (II)
其中公式(II)中,α1,α2,...,αl表示裁判文书各个模块的权重,s'i1,s'i2,...,s'il表示裁判文书各个模块对应相似度;公式(I)中,sim1(di,dj)表示裁判文书di与裁判文书dj中共现词的余弦相似度,sim2(di,dj)表示非共现词数目之间比值,用广义Jaccard系数表示sim2(di,dj),即当词语都出现,标记为1,都不出现标记为0,f1表示词语都出现的累计值,f00表示词语都不出现的累计值,其计算方法如公式(III)所示,α、β分别表示共现词语项与非共现词语对文本集整体相似度权重比,其中
根据公式(I)、(II)、(III),选择si值中最大的文本作为第一个聚类中心,且M=M∪{m1};
(6.1.2.2)从集合Dn中找到与m1相似度最小的点作为第二个类的聚类中心m2,使用余弦计算相似度,且M=M∪{m2};
(6.1.2.3)选择满足公式(IV)的点mi作为第i个中心点;
d(mi,q)=min(max{sim(d,q),q∈M},d∈Dn\M) (IV)
其中,d∈Dn\M表示d属于集合Dn和M的相对差集,是在集合Dn中,但不在集合M中的所有点,且mi∈Dn\M;sim(d,q)代表点d和q的余弦相似度;
(6.1.2.4)将计算所得的所有点mi并入中心点集M,M=M∪{m1};
(6.1.2.5)重复步骤(6.1.2.3)和(6.1.2.4),直到找到k个中心点,即M集合的个数为|M|=k。
作为优选,所述步骤(7)的提取规则包括案号及案件类型、审判法院的提取规则、法律角色基本信息的提取规则、案件详情、案发时间及案发地点的提取规则。
本发明的有益效果在于:(1)本发明不仅制定了司法领域相关的专业词汇,还针对裁判文本信息中实体的结构和用字特征,以及文书撰写特点构建特征词典,更加保证了信息抽取的正确性;(2)本发明根据裁判文书内部结构特征,对其进行模块分割处理,不仅可以更加精确地抽取相关信息,更加快信息抽取速度;(3)本发明针对裁判文书案件事实部分的文本数据特性,提出了确定聚簇数目K、初始聚类中心方法以及采用词语权重的增量作为第二特征选择来对kmeans聚类算法改进,从而获得案例的类标签,通过类标签进行分类处理;(4)本发明针对不同案由类型的裁判文书制定相应的层次框架,搜索专业领域特征;(5)本发明针对不同层次的信息,指定不同的抽取规则。
附图说明
图1是本发明的流程示意图;
图2是本发明实施例的裁判文书模块标注示意图;
图3是本发明实施例的judgment.txt示意图;
图4是本发明实施例的停用词典stopword.txt示意图;
图5是本发明实施例的裁判文书本体内容设计的层级结构图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:本实施例验证的数据是上海市某区人民法院刑事判决书以及民事判决书,由于涉及到个人隐私问题,则在下面的实施例说明中做了相关的脱敏处理。
一种基于裁判文书的结构化处理方法,流程如图1所示,其主要步骤如下:
步骤1:获取裁判文书信息及数据清洗:
通过现有的中国裁判文书网站获取裁判文书信息,并存储在数据库中,存储格式为裁判文书序号、裁判文书内容两个字段。其中裁判文书序号是自然编号,无特殊意义;裁判文书内容字段为CLOB字段,存放整篇的文书内容,本发明中主要对该字段中的结构化文档内容进行结构化处理。并将搜集到的数据进行数据清洗,将“裁判文书内容”为空或者字段过少、重复进行删除;将标点符号、半角全角、术语缩写、常见拼写错误进行检测并且修正。
步骤2:相关词库的构建与扩展:
步骤2.1裁判文书专业词库的构建
裁判文书中存在大量的人名、机构名、地名、路段、案件描述、犯罪类型及法律相关等专业词汇,仅仅依靠分词系统中的通用词典难以正确区分,分词的不准确又会造成数据的抽取的困难,因此需要建立一个裁判文书领域相关的专业词库,对裁判及法律相关的专业词汇进行总结、分类,以及词性标注;如机构名上海市浦东新区检察院。
步骤2.2触发词表的构建与词语标注
触发词指对抽取任务起到标志、识别作用,用于激活抽取任务的词汇,根据触发词的特性,定位抽取任务在文本中的大概位置,部分抽取任务还可以根据触发词直接定位抽取得到,在本发明中,通过对大量裁判文书文本特征和表述规律的分析,为每个抽取任务建立其相应的触发词,例如,裁判文书被告人的姓名前会有如“被告人”、“上诉人”、“辩护人”触发词等。如下所述:
①作为触发词表示其右边可能是实体。如“案值”、“高达”等词后往往是一个金额实体,用“amo”标识,表示货币金额;“被害人”、“被告人”、“上诉人”、“原告”等后面往往是一个人名实体,用“per”标识,表示人名;“暂住”、“住址”、“租住”等右边是一个住址实体,用“add”标识;在裁判文书后面的位置出现“根据”、“依照”、“依据”等词,右边往往是引用的法律条文、判决依据等法律相关实体,用“law”表示;另外表示年龄的单词一般有可能是在触发词左边或者右边出现,如“出生于****年**月**日”或者“****年**月**日生”,为了归一化,将出生年月按照系统当前日期换算为实际年龄,并且根据年龄段划分为未成年(指未满18周岁)、青年(满18周岁但未满30岁)、中年(满30周岁但未满45岁)、中老年人(满45岁但未满60岁)、老年人(满60周岁)等;
②作为右触发词表示其左边可能是实体。如“摧毁”,“打掉”,“抓获”等词左边多为机构名实体,用“org”标识;“人”,“籍”,“族”等词左边多为籍贯和民族的实体,分别用“nap”和“nat”标识;
③作为左边界表示该词有可能是实体词条的第一个成分,如“采取”、“利用”、“以”等词多做方式实体的左边界,用“mod”标识;
④作为右边界表示当前实体词条有可能到此结束。如“底”、“期间”,,“同年”、“同日”等多作为时间实体的右边界,“部门”、“办”、“处”等多作机构名实体的右边界等;
⑤作为内含词表示其往往作为实体内部成分。如“和”、“及”、“*”、“、”等词或符号多作方式、机构名或者人名等实体的内部成分。
⑥当前词单独作为一个实体,如“男”、“女”单独充当性别实体角色。
针对裁判文本数据中实体的结构和用字特征以及以上六类可利用的信息,可以设计7个标注符号:b、m、e、l、r、o、s。其中b,m,e分别表示实体左边界、内含词、右边界;l、r分别表示实体的左触发词和右触发词,他们不作为实体的内容,充当外部提示信息;s表示单词实体;o表示非实体词。
步骤3:裁判文书模块标注
通过与专业法官沟通及观察已经形成的裁判文书,发现每个段落都有其书写的规范和格式,因此根据裁判文书文本的书写结构特征,将其进行模块标注处理。根据每一段开头或者结尾部分及常用词表,对裁判文书文档进行模块标注处理。一般裁判文书的原告、被告及辩护人基本信息出现在文本的开始部分,中间部分一般描述与案件相关的内容,判决结果一般出现在文章靠后的部分,法律条文的引用也出现在文本后面等。因此,对裁判文书模块块标注后,就可以更加精确地找到相关结构化信息,也可以避免结构化处理的难度。各模块标注分别为:标题、案号、首部、事实、理由、裁判依据、裁判结果、尾部和落款等9大部分,如图2所示。
步骤4:对每个关键段落进行长句切分:
本发明中整理了常见的分隔标点和分隔词作为长句切分规则,采用正则表达式匹配规则对每个关键段落进行短句长句切分,初步保证切分后的短句不影响文本表达的含义。常见的分隔标点符号为逗号,句号,分号等,分隔词一般为不影响核心语义的修饰词、副词等,通常可以作为一个词语的边界。文本数据短句长句的切分以标点符号为界,其中短句的切分以“,”及整理的分隔词词汇为界,长句的切分以“;”、“。”、段落标记为界。
步骤5:文本数据预处理
中文是以字为单位,但单字通常难以表达清楚的意义,一般需要两个或两个以上的字体构成一个词才能描述一个具体意思。中文文本的分隔常是基于语句,没有具体的词边界,分词难度较大,容易出现错误分词,尤其是专业领域词汇,例如:“发卡银行”切分为“发卡/银行”,因此需要额外增加裁判文书相关词典,在本发明中的步骤2.1中已经详细说明裁判文书专业词库judgment.txt的构建;同时还需要进行停用词过滤,例如虚词、无意义的字序列片段以及常用的标点符号等,加入停用词典stopword.txt。
设总共有n篇裁判文书,di表示第i篇裁判文书,其数据集合表示为:Dn={d1,d2,...,di,...,dn},分别对每篇裁判文书进行步骤3的模块标注后,再根据其专业词典和停用词典进行分词处理,结合触发词表与词语标注,将文本中出现的人名、机构名、文化程度、在职情况、地名、路段、日期等相关的实体词使用其词语标注表示,最后得到裁判文书数据集合的语料库{w1,w2,...,wi,...,wN},其中wi表示语料库中的词语或者语料库中词语标注。则每篇裁判文书表示为三维向量的形式,设第i个裁判文书数据集表示为:di={(w1,p1,li),(w2,p2,li),...,(wN,pN,li)},N是中所有词语的数量,w表示语料库中词语或者是语料库中词语标注,p表示语料库中单词对应出现的次数,li表示裁判文书分块后各个模块标识。
(1)例如裁判文书的“案件事实”部分为:2014年2月23日18时30分许,被告人***酒后驾驶牌号为沪*****的某牌汽车沿本区沪南公路由东向西逆向行驶至进新环西路西约一千米处时,适逢前方有突发交通事故,陈必庆急刹车致其摔倒在地,后陈必庆与前方交通事故中一方当事人刘向发生争执,刘向当场报警。经检验,事发时被告人陈必庆每毫升血液中含有乙醇1.45毫克,属醉酒。
(2)词典包括单词、词频和词性(可省略),每行一个词,用空格隔开,部分司法与法律相关的词典judgment.txt如图3所示;
(3)矛盾调解部分停用词典stopword.txt如图4所示,每行一个词。
步骤6文本聚类:
裁判文书一般为民事裁判文书和刑事裁判文书,其中民事、刑事裁判文书又包括很多类别,如民事裁判文书又可分为人格权纠纷、婚姻家庭、继承纠纷、物权纠纷、合同无因管理、不当得利纠纷、知识产权与竞争纠纷、劳动争议与人事争议、侵权侵责等,而且每类案件的撰写特点也不同,因此需要根据“案件详情”进行聚类分析,将裁判文书分为小类进行处理。
本发明中采用通过设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进,从而实现裁判文书聚类。
聚类步骤如下所示:
(1)聚簇数目k的确定
刑事裁判文书共有8000条裁判文书数据,文本数据经过分词,去掉一些单词词频小于10且大于1000的单词,形成N维单词向量。
S1:使用文档频率DF进行第一步特征选择
对特征词统计词频和文档频率DF,过滤文档频率过低及过高的特征词,根据取值0.05%至1%中某一值,将出现频率低于该值的特征词过滤,同时过滤出现频率高于90%的特征词。
S2:初始聚类中心确定
①为避免将孤立点选为聚类中心风险,选择文本集中密度最大点作为初始聚类中心,例如:对于裁判文书集合,语料库为:{per1,per2,中年,青年,org,nap,sex,law,add,loc,危险,驾驶罪,离婚,性格不合,争吵不休,分家,金额}等。
例如:第di篇裁判文书“首部”与“事实”文本结构表示为:
首部l3:{2,3,1,1,2,2,2,0,0,2,1,1,0,0,0,0,0}
事实l4:{2,2,0,0,0,0,0,3,1,5,5,2,0,0,0,0,3};
第dj篇裁判文书“首部”与“事实”文本结构表示为:
首部l3:{2,2,1,0,1,1,1,0,3,1,1,2,1,2,2,0,0}
事实l4:{2,2,0,0,2,2,0,3,0,4,0,0,1,2,2,3,1};分别采用公式(I)、公式(II)、公式(III)计算得到di关于危险驾驶类的裁判文书与其他文本对象相似度最大,因此将其计算出的si作为第一个聚类中心m1。且M=M∪{m1}。
②从剩余的文本集合Dn中找出到与m1相似度最小的点作为第二个类的聚类中心m2,使用余弦计算相似度,且M=M∪{m2};
③后续的聚类中心也从数据集合Dn和M的相对差集中,选择条件满足公式(IV),并将计算结果所得到的所有点mi并入中心点集M,M=M∪{m1}
④迭代步3,当相似值达到一定收敛时,直到找到k个中心点,k的值为18,即M集合的个数为18。
(2)裁判文书的初始聚类
文本数据经过向量化为多维向量,采用余弦相似度作为聚类的度量标准,按照如下公式计算每个案例与各个类中心的距离,获得裁判文书所属类别。
dis(di)M=min(sim(di,mj))
(3)采用词语整体权重TW的增量作为第二次特征选择
经过初始聚类后,再通过计算每个特征词对整个文本集相似性的贡献来衡量该特征的重要性,整个文本集的相似度可以看做所有特征词t对整个文本集相似度权重的累加:
因此,特征词t的整体权重定义为:
其中,f(t,di)是特征词在文本di的权重,采用下式计算:
其中表示第di篇裁判文书中特征词tj的个数,表示第di篇裁判文书总的特征词个数。
由于TF-IDF中计算IDF时没有考虑特征项与类别的依存关系。如果特征项在较多文档中出现,但是集中出现在某个类内,说明该特征项的分类能力很强,应该有比较高的权重,然而由于由于IDF值小,计算得到的权重较小。因此可以增加那些频繁出现在一个类中的特征项的权重来改进原始的TF-IDF公式;
其中,n表示总的裁判文书数量,n1为包含特征项t的文档数,n1=m+c,m为某一类中包含特征项t的文档数,c为除去该类外特征项t的文档数。
设L为一个正数,将所有特征词按照f(t,di)的计算公式和IDF的计算公式所得的得分降序排列,首先选择TopL个分值的最高特征词,为了避免文本向量稀疏性,从文本集的词条矩阵中包含这些特征词的文本去掉,并将这些特征词从总的特征集中去掉。如果词条矩阵中仍有文本未被覆盖,在新的词条举证中重新计算剩余特征词的得分,并按降序排序,继续选择TopL个特征,直到所有文本都被选择到特征词。
每次迭代都更新TW值计算量相对较大,可迭代多次执行一次更新值,也可以设定一个聚类中心改变值的阈值,超过这个阈值时执行更新。
(4)更新聚类中心,将更新词语整体权重(TW)后,将每个类中得到的词语整体权重(TW)作为新的聚类中心;
(5)重复步骤(2)~(4),直到聚类中心不再变化,则不再变化,得到每个聚类和特征选择模型;
(6)类标签的提取,聚类完成后,提取每个类别中词语整体权重比较高作为每个类别的关键词,由于2个类别与其他类别存在重复现象,因此在实施例中已经合并,具体如下表1所示。
表1
步骤7:基于层次结构的裁判文本信息抽取规则设计:
根据步骤6所述,刑事裁判文书可以分为16小类,分别为盗窃与偷盗,敲诈勒索,扰乱市场经济秩序,侵害公民人身权利、民主权利案件,强迫猥亵、侮辱妇女,拐卖人口,伪造公文、证件、印章,毒品、赌博、吸毒,知识产权,危险驾驶,妨害公司、企业的管理,贪污受贿、渎职,走私,危害国家安全、公共安全和国家利益,侵犯财产,其他等;同时民事裁判文书分为25类别,分别为生命权、健康权、身体权纠纷,姓名权、肖像权、名誉权、隐私权、人身自由权纠纷,婚姻家庭财产纠纷,同居关系纠纷,抚养、赡养、收养纠纷,财产、遗产继承纠纷,财产损害赔偿纠纷,相邻关系纠纷,共有纠纷,用益物权纠纷,劳动合同与用人争议纠纷,无因管理纠纷,侵权责任纠纷,与公司、证券、报销、票据等有关民事纠纷,海事海商纠纷,知识产权与竞争纠纷等等。
基于裁判文书内容的层次结构构建:裁判文书经过文本聚类后,针对不同种类的裁判文书,设计相应的提取规则;如图5是按照裁判文书本体内容设计的层级结构图。
案号及案件类型、审判法院提取:
案号是指区分各级法院办理案件的类型和次序的简要标识,是登记案件时所分配的案件号码,案号的基本要素的编排规格为收案年度、法院代字、类型代字、所处诉讼程序、案件编号等五部分组成,因此按照案号内部特征来进行汉字序列的匹配和限定,其提取规则为:根据文本分块标注后,先找到括号,判断括号内是否存在四个数字,接着判断右括号后面是否有1到10个汉字,然后这些汉字是否包含“刑”、“民”、“商”、“行”、“执”等简称,接下来的字符包含“字”或“第”,后面接下来包含0到10个数字,最后以“号”结束。案件类型的提取已经包含在案号提取过程中。
审判法院主要由地名、法院级别、法院类别及法院后缀词汇构成,主要存在于裁判文书的标题中的第一行,根据其规范约束,法院名称出现在最前面,因此利用正则表达式可提取
法律角色基本信息提取:
我们首先要提取的是法律角色的信息,其中法律角色涉及到原告、被告及辩护律师,但是只有在明确原告和被告的前提下,才能区分出参与案件的律师属于原告律师还是被告律师。根据观察发现,一般辩护律师信息出现在原告或者被告。以下是原告信息的提取规则为:
1)原告姓名一般出现在文本开始部分,词汇的词向标注为人名,并且左提示词集合为{申请执行人、公诉机关、原告、上诉人、原告人、申诉人、申请再审查人}等;
2)性别描述一般出现在姓名之后,再采用正则表达式提取;
3)户籍所在地、居住地等后面搭配的词的词性都为地名,因此可以采用正则表达式和词性标注结合的方法提取
4)类似于身份证号码、文化程度、民族、工作单位、犯罪类型等均可以采用正则表达式和词性标注结合的方法提取;
提取步骤为:
S1读入1条分块处理的文本并对其进行预处理及词性标注;
S2根据常用词表查找相关词汇;
S3向后查找/向前查找,判断搭配词词性,并且是否满足预先设定的正则表达式要求,如果满足,抽取该词汇;
S4若否,抽取结果标记NULL,继续步骤S2,直到遍历完所有词性,并保存抽取结果;
S5读取下一条分块处理的文本,重复S1-S4的操作。
一条分块处理的文本可能出现多个原告信息,同一个原告信息也可能出现多次,因此,需要将抽取的结果进行去重处理。
被告身份信息、辩护律师信息的提取与原告身份信息提取规则基本相同;
案件详情、案发时间及案发地点提取:
案件详情是人民法院对诉讼案件所涉及的具体事件及原由进行具体描述,一般单独出现在某个段落文本中间部分。根据步骤5分块标注发现,案件详情一般出现在案件调查结果,均是以在“经审理查明”、“经本院审理”、“XXXX人民检察院指控”、“公诉机关指控”、“现已审理终结”等关键短语为开头或者结尾的段落里,然后再通过步骤7对案件详情进行关键短语的提取。
其中,案发时间信息包含在案件详情中,抽取步骤:
1)读取1条分块处理的文本并对其进行预处理及词性标注;
2)查找连续词性为数值,并且数值后面还有“年”、“月”、“日”;
3)如果含有“同年”、“同月”、“同日”等词,则向上文继续查找,重复2)步骤,找到后进入步骤4);
4)向后查找下文中是否含有实体词、触发词等组成的短语或者句子,如果是,抽取该时间,若否,抽取结果标记NULL,继续查找剩下的文本,继续步骤2)操作;
5)读取下一条分块处理的文本,重复步骤1)-步骤4)的操作。
6)保存抽取得到结果。
其中,案发地点抽取步骤:
1)读取1条分块处理的文本并对其进行预处理及词性标注;
2)查找连续词性为地名,向后查找下文中是否含有实体词、触发词等组成的短语或者句子,如果是,抽取该地名,若否,抽取结果标记NULL,继续查找剩下的文本,继续步骤2)操作;
3)读取下一条分块处理的文本,重复步骤1)-步骤3)的操作。
4)保存抽取得到结果。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。
Claims (9)
1.一种基于裁判文书的结构化处理方法,其特征在于,包括如下步骤:
(1)获取并存储裁判文书信息,并对裁判文书信息进行数据清洗;
(2)基于裁判文书的文本特征进行相关词库的构建与扩展,包括裁判文书专业词库的构建、触发词表的构建与词语标注;
(3)根据裁判文书的书写结构特征,对裁判文书文档进行模块标注处理;
(4)利用常见的分隔标点和分隔词作为长句切分规则,采用正则表达式匹配规则对裁判文书中每个关键段落进行短句长句切分;
(5)根据裁判文书专用词库judgment.txt和停用词典stopword.txt对裁判文书进行处理,并结合触发词表的构建与词语标注将裁判文书数据表示为向量的形式;
(6)通过设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进,完成裁判文书聚类,并得到案例的类标签;
(7)创建基于裁判文书内容的层次结构,根据不同种类的裁判文书设计出相应的提取规则,并利用其得到裁判文书的结构化处理结果。
2.根据权利要求1所述的一种基于裁判文书的结构化处理方法,其特征在于:所述步骤(1)具体为通过现有的中国裁判文书网站获取裁判文书信息,存储在数据库中;并对获取到的裁判文书信息进行数据清洗,将裁判文书内容为空或描述字段过少、重复的文本数据进行删除;将标点符号、半角全角、术语缩写、常见拼写错误进行检测并且修正;其中,在数据库中的存储格式为裁判文书序号、裁判文书内容两个字段;裁判文书序号是自然编号,无特殊意义;裁判文书内容字段为CLOB字段,存放整篇的文书内容。
3.根据权利要求1所述的一种基于裁判文书的结构化处理方法,其特征在于:所述的相关词库的构建与扩展具体如下:
(2.1)裁判文书专业词库的构建:对裁判及法律相关的专业词汇进行总结、分类,以及词性标注,从而形成自定义裁判文书词库;
(2.2)触发词表的构建与词语标注:触发词指对抽取任务起到标志、识别作用,用于激活抽取任务的词汇;通过对大量裁判文书文本特征和表述规律的分析,为每个抽取任务建立其相应的触发词,分为六类:
1)作为触发词表示其右边可能是实体;
2)作为右触发词表示其左边可能是实体;
3)作为左边界表示该词有可能是实体词条的第一个成分;
4)作为右边界表示当前实体词条有可能到此结束;
5)作为内含词表示其往往作为实体内部成分;
6)当前词单独作为一个实体;
针对裁判文本数据中实体的结构和用字特征以及以上六类触发词信息,设计有7个标注符号:b、m、e、l、r、o、s;其中b,m,e分别表示实体左边界、内含词、右边界;l、r分别表示实体的左触发词和右触发词;s表示单词实体;o表示非实体词。
4.根据权利要求1所述的一种基于裁判文书的结构化处理方法,其特征在于:所述对裁判文书文档进行模块标注处理具体为将裁判文书文档各模块的标注分别为:标题、案号、首部、事实、理由、裁判依据、裁判结果、尾部和落款。
5.根据权利要求1所述的一种基于裁判文书的结构化处理方法,其特征在于:所述常见的分隔标点包括为逗号,句号,分号;分隔词为不影响核心语义的修饰词、副词,通常可作为一个词语的边界;所述短句长句的切分以标点符号为界,其中短句的切分以逗号及整理的分隔词词汇为界,长句的切分以分号、句号、段落标记为界。
6.根据权利要求1所述的一种基于裁判文书的结构化处理方法,其特征在于:所述步骤(5)具体为:设总共有n篇裁判文书,di表示第i篇裁判文书,其数据集合表示为:Dn={d1,d2,...,di,...,dn},每篇裁判文书均进过模块块标注;根据裁判文书专用词库judgment.txt和停用词典stopword.txt进行分词处理,并结合触发词表与词语标注,将文本中出现的人名、机构名、文化程度、在职情况、地名、路段、日期的相关实体词使用其词语标注表示,最后得到裁判文书数据集合的语料库{w1,w2,...,wi,...,wN},其中wi表示语料库中的词语或者语料库中词语标注;则每篇裁判文书表示为三维向量的形式,设第i个裁判文书数据集表示为:di={(w1,p1,li),(w2,p2,li),...,(wN,pN,li)},N是中所有词语的数量,w表示语料库中词语或者是语料库中词语标注,p表示语料库中单词对应出现的次数,li表示裁判文书分块后各个模块标识。
7.根据权利要求6所述的一种基于裁判文书的结构化处理方法,其特征在于:所述步骤(6)具体如下:
(6.1)聚簇数目k的确定:设第i个裁判文书为di,共有n条裁判文书,其数据集合可表示为Dn={d1,d2,...,dn},则将其聚类为k个类别;
(6.2)裁判文书的初始聚类:采用余弦计算裁判文书与每个聚类中心的距离,选择距离最小作为聚类依据,如下式所示:
dis(di)M=min(sim(di,mj))
其中,dis(di)M是裁判文书di距离第j个聚类中心的最小余弦距离,且m∈M;
(6.3)采用词语整体权重TW的增量作为第二次特征选择:经过初始聚类后通过计算每个特征词对整个文本集相似性的贡献来衡量该特征的重要性,整个文本集的相似度可以看做所有特征词t对整个文本集相似度权重的累加,如下所示:
特征词t的权重定义为:
其中,f(t,di)是特征词在文本di的权重,采用下式计算得到:
表示第di篇裁判文书中特征词tj的个数,表示第di篇裁判文书总的特征词个数;
其中,IDF的计算公式如下:
n表示总的裁判文书数量,n1为包含特征项t的文档数,n1=m+c,m为某一类中包含特征项t的文档数,c为除去该类外特征项t的文档数;
设L为一个正数,将所有特征词按照f(t,di)的计算公式和IDF的计算公式所得的得分降序排列,选择TopL个分值的最高特征词,将文本集的词条矩阵中包含这些特征词的文本去掉,并将这些特征词从总的特征集中去掉;若词条矩阵中仍有文本未被覆盖,在新的词条举证中重新计算剩余特征词的得分,并按降序排序,继续选择TopL个特征,直到所有文本都被选择到特征词;
(6.4)更新聚类中心:更新词语整体权重TW后,将每个类中得到的词语整体权重TW作为新的聚类中心;
(6.5)重复步骤(6.2)-(6.4),直到聚类中心不再变化;若不再变化,得到k个聚类和特征选择模型;
(6.6)案例的类标签的提取:聚类完成后,提取每个类别中词语整体权重比较高作为类的每个类别的关键词。
8.根据权利要求7所述的一种基于裁判文书的结构化处理方法,其特征在于:所述步骤(6.1)具体步骤如下:
(6.1.1)使用文档频率DF进行第一步特征选择:文档频率DF是指在文本集中出现该词的文本数量;
(6.1.2)初始聚类中心的确定:
(6.1.2.1)设初始中心点集合M初始化为空集,即M={},对于数据文本集Dn={d1,d2,...,dn},计算di与dj两个文本集中某个模块的相似度si',如公式(I)所示,再计算di与dj两个文本集整体的相似度si,如公式(II)所示;
si=α1s'i1+α2s'i2+...+...αls'il (II)
其中公式(II)中,α1,α2,...,αl表示裁判文书各个模块的权重,s'i1,s'i2,...,s'il表示裁判文书各个模块对应相似度;公式(I)中,sim1(di,dj)表示裁判文书di与裁判文书dj中共现词的余弦相似度,sim2(di,dj)表示非共现词数目之间比值,用广义Jaccard系数表示sim2(di,dj),即当词语都出现,标记为1,都不出现标记为0,f1表示词语都出现的累计值,f00表示词语都不出现的累计值,其计算方法如公式(III)所示,α、β分别表示共现词语项与非共现词语对文本集整体相似度权重比,其中
根据公式(I)、(II)、(III),选择si值中最大的文本作为第一个聚类中心,且M=M∪{m1};
(6.1.2.2)从集合Dn中找到与m1相似度最小的点作为第二个类的聚类中心m2,使用余弦计算相似度,且M=M∪{m2};
(6.1.2.3)选择满足公式(IV)的点mi作为第i个中心点;
d(mi,q)=min(max{sim(d,q),q∈M},d∈Dn\M) (IV)
其中,d∈Dn\M表示d属于集合Dn和M的相对差集,是在集合Dn中,但不在集合M中的所有点,且mi∈Dn\M;sim(d,q)代表点d和q的余弦相似度;
(6.1.2.4)将计算所得的所有点mi并入中心点集M,M=M∪{m1};
(6.1.2.5)重复步骤(6.1.2.3)和(6.1.2.4),直到找到k个中心点,即M集合的个数为|M|=k。
9.根据权利要求1所述的一种基于裁判文书的结构化处理方法,其特征在于:所述步骤(7)的提取规则包括案号及案件类型、审判法院的提取规则、法律角色基本信息的提取规则、案件详情、案发时间及案发地点的提取规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711338564.6A CN108197163B (zh) | 2017-12-14 | 2017-12-14 | 一种基于裁判文书的结构化处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711338564.6A CN108197163B (zh) | 2017-12-14 | 2017-12-14 | 一种基于裁判文书的结构化处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108197163A true CN108197163A (zh) | 2018-06-22 |
CN108197163B CN108197163B (zh) | 2021-08-10 |
Family
ID=62574243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711338564.6A Active CN108197163B (zh) | 2017-12-14 | 2017-12-14 | 一种基于裁判文书的结构化处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108197163B (zh) |
Cited By (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033330A (zh) * | 2018-07-19 | 2018-12-18 | 北京车联天下信息技术有限公司 | 大数据清洗方法、装置和服务器 |
CN109145125A (zh) * | 2018-08-20 | 2019-01-04 | 长城计算机软件与系统有限公司 | 一种动态抽取信息的方法和系统、存储介质 |
CN109471950A (zh) * | 2018-11-19 | 2019-03-15 | 北京交通大学 | 腹部超声文本数据的结构化知识网络的构建方法 |
CN109508372A (zh) * | 2018-06-27 | 2019-03-22 | 华北电力大学 | 一种基于司法领域知识抽取的高效司法文档分类方法 |
CN109582950A (zh) * | 2018-09-25 | 2019-04-05 | 南京大学 | 一种裁判文书说理评估方法 |
CN109684628A (zh) * | 2018-11-23 | 2019-04-26 | 武汉烽火众智数字技术有限责任公司 | 基于案情语义分析的案件智能推送方法及系统 |
CN109740728A (zh) * | 2018-12-10 | 2019-05-10 | 杭州世平信息科技有限公司 | 一种基于多种神经网络组合的量刑计算方法 |
CN109902172A (zh) * | 2019-01-31 | 2019-06-18 | 深度好奇(北京)科技有限公司 | 案情文本分类方法、装置以及存储介质 |
CN109960727A (zh) * | 2019-02-28 | 2019-07-02 | 天津工业大学 | 针对非结构化文本的个人隐私信息自动检测方法及系统 |
CN109992761A (zh) * | 2019-03-22 | 2019-07-09 | 武汉工程大学 | 一种基于规则的自适应文本信息提取方法及软件存储器 |
CN110019655A (zh) * | 2017-07-21 | 2019-07-16 | 北京国双科技有限公司 | 先例案件获取方法及装置 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
CN110209721A (zh) * | 2019-06-04 | 2019-09-06 | 南方科技大学 | 判决文书调取方法、装置、服务器及存储介质 |
CN110321466A (zh) * | 2019-06-14 | 2019-10-11 | 广发证券股份有限公司 | 一种基于语义分析的证券资讯查重方法及系统 |
CN110472231A (zh) * | 2019-07-11 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 一种识别法律文书案由的方法和装置 |
CN110489748A (zh) * | 2019-08-05 | 2019-11-22 | 北京市律典通科技有限公司 | 法律要素推导方法、装置、电子设备及计算机可存储介质 |
CN110502634A (zh) * | 2019-08-13 | 2019-11-26 | 宫辉 | 一种案由的判定和抓取方法及其系统 |
CN110647504A (zh) * | 2018-06-25 | 2020-01-03 | 阿里巴巴集团控股有限公司 | 司法文书的检索方法及装置 |
CN110750974A (zh) * | 2019-09-20 | 2020-02-04 | 成都星云律例科技有限责任公司 | 一种裁判文书结构化处理方法及系统 |
CN110765266A (zh) * | 2019-09-20 | 2020-02-07 | 成都星云律例科技有限责任公司 | 一种裁判文书相似争议焦点合并方法及系统 |
CN110826316A (zh) * | 2019-11-06 | 2020-02-21 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
CN110837564A (zh) * | 2019-09-25 | 2020-02-25 | 中央民族大学 | 多语言刑事判决书知识图谱的构建方法 |
WO2020052184A1 (zh) * | 2018-09-10 | 2020-03-19 | 平安科技(深圳)有限公司 | 裁判文书处理方法、装置、计算机设备和存储介质 |
CN111008261A (zh) * | 2018-09-19 | 2020-04-14 | 北京国双科技有限公司 | 基于前置文书确定裁判文书的方法及装置 |
CN111078839A (zh) * | 2019-12-19 | 2020-04-28 | 广州佳都数据服务有限公司 | 一种用于裁判文书的结构化处理方法及处理装置 |
CN111145052A (zh) * | 2019-12-26 | 2020-05-12 | 北京法意科技有限公司 | 司法文书的结构化分析方法及系统 |
CN111144095A (zh) * | 2019-11-26 | 2020-05-12 | 方正璞华软件(武汉)股份有限公司 | 一种工伤案件裁决书的生成方法及装置 |
CN111198953A (zh) * | 2018-11-16 | 2020-05-26 | 北京智慧正安科技有限公司 | 基于案件文本信息推荐类案的方法、系统及计算机可读存储介质 |
CN111259631A (zh) * | 2020-01-15 | 2020-06-09 | 中科鼎富(北京)科技发展有限公司 | 一种裁判文书结构化方法及装置 |
CN111274354A (zh) * | 2020-01-15 | 2020-06-12 | 中科鼎富(北京)科技发展有限公司 | 一种裁判文书结构化方法及装置 |
CN111291570A (zh) * | 2018-12-07 | 2020-06-16 | 北京国双科技有限公司 | 一种实现司法文书中要素识别的方法及装置 |
CN111310446A (zh) * | 2020-01-15 | 2020-06-19 | 中科鼎富(北京)科技发展有限公司 | 裁判文书的信息抽取方法及装置 |
CN111339773A (zh) * | 2018-12-18 | 2020-06-26 | 富士通株式会社 | 信息处理方法、自然语言处理方法以及信息处理设备 |
CN111476034A (zh) * | 2020-04-07 | 2020-07-31 | 同方赛威讯信息技术有限公司 | 基于规则和模型结合的法律文书信息抽取方法及系统 |
CN111538832A (zh) * | 2019-02-02 | 2020-08-14 | 富士通株式会社 | 用于对文书进行事件标注的装置和方法及记录介质 |
CN111538839A (zh) * | 2020-05-25 | 2020-08-14 | 武汉烽火普天信息技术有限公司 | 一种基于杰卡德距离的实时文本聚类方法 |
CN111783449A (zh) * | 2020-06-24 | 2020-10-16 | 鼎富智能科技有限公司 | 一种裁判文书中判决结果的要素提取方法及装置 |
CN111858938A (zh) * | 2020-07-23 | 2020-10-30 | 鼎富智能科技有限公司 | 一种裁判文书标签的提取方法及装置 |
CN112035449A (zh) * | 2020-07-22 | 2020-12-04 | 大箴(杭州)科技有限公司 | 数据处理方法及装置、计算机设备、存储介质 |
CN112069307A (zh) * | 2020-08-25 | 2020-12-11 | 中国人民大学 | 一种法律法条引用信息抽取系统 |
WO2021017383A1 (zh) * | 2019-07-30 | 2021-02-04 | 北京国双科技有限公司 | 一种法律文书要素解析方法及系统 |
CN112632965A (zh) * | 2020-12-25 | 2021-04-09 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN112699218A (zh) * | 2020-12-30 | 2021-04-23 | 成都数之联科技有限公司 | 模型建立方法及系统及段落标签获得方法及介质 |
CN112784720A (zh) * | 2021-01-13 | 2021-05-11 | 浙江诺诺网络科技有限公司 | 基于银行回单的关键信息提取方法、装置、设备及介质 |
CN113191922A (zh) * | 2021-04-07 | 2021-07-30 | 北京律联东方文化传播有限公司 | 诉讼决策信息请求处理方法及装置 |
CN113554172A (zh) * | 2021-07-28 | 2021-10-26 | 北京法意科技有限公司 | 基于案例文本的裁判规则知识抽取方法及系统 |
CN113761928A (zh) * | 2021-09-09 | 2021-12-07 | 深圳市大数据研究院 | 一种基于词频打分算法获取法律文书案件地点的方法 |
CN114048308A (zh) * | 2021-11-03 | 2022-02-15 | 中国司法大数据研究院有限公司 | 一种类案检索报告生成的方法及装置 |
WO2022127057A1 (zh) * | 2020-12-17 | 2022-06-23 | 北京百度网讯科技有限公司 | 气象预警文本处理方法、相关装置及计算机程序产品 |
CN116629258A (zh) * | 2023-07-24 | 2023-08-22 | 北明成功软件(山东)有限公司 | 基于复杂信息项数据的司法文书的结构化分析方法及系统 |
CN117951747A (zh) * | 2024-03-26 | 2024-04-30 | 成都飞机工业(集团)有限责任公司 | 一种自适应脱敏方法、系统、设备及介质 |
CN118296308A (zh) * | 2024-06-05 | 2024-07-05 | 北京鼎泰智源科技有限公司 | 一种开庭公告数据处理系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004318408A (ja) * | 2003-04-15 | 2004-11-11 | Tokyo Electric Power Co Inc:The | テキスト主旨分析装置およびテキスト主旨分析プログラム |
US7779349B2 (en) * | 2000-09-26 | 2010-08-17 | International Business Machines Corporation | Method for adapting a K-means text clustering to emerging data |
CN106649726A (zh) * | 2016-12-23 | 2017-05-10 | 中山大学 | 一种社交网络中社团话题演化挖掘方法 |
CN106649849A (zh) * | 2016-12-30 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 文本信息库建立方法和装置、以及搜索方法、装置和系统 |
CN106815207A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 用于法律裁判文书的信息处理方法及装置 |
CN106991092A (zh) * | 2016-01-20 | 2017-07-28 | 阿里巴巴集团控股有限公司 | 基于大数据挖掘相似裁判文书的方法和设备 |
CN107122451A (zh) * | 2017-04-26 | 2017-09-01 | 北京科技大学 | 一种法律文书案由分类器的自动构建方法 |
-
2017
- 2017-12-14 CN CN201711338564.6A patent/CN108197163B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7779349B2 (en) * | 2000-09-26 | 2010-08-17 | International Business Machines Corporation | Method for adapting a K-means text clustering to emerging data |
JP2004318408A (ja) * | 2003-04-15 | 2004-11-11 | Tokyo Electric Power Co Inc:The | テキスト主旨分析装置およびテキスト主旨分析プログラム |
CN106815207A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 用于法律裁判文书的信息处理方法及装置 |
CN106991092A (zh) * | 2016-01-20 | 2017-07-28 | 阿里巴巴集团控股有限公司 | 基于大数据挖掘相似裁判文书的方法和设备 |
CN106649726A (zh) * | 2016-12-23 | 2017-05-10 | 中山大学 | 一种社交网络中社团话题演化挖掘方法 |
CN106649849A (zh) * | 2016-12-30 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 文本信息库建立方法和装置、以及搜索方法、装置和系统 |
CN107122451A (zh) * | 2017-04-26 | 2017-09-01 | 北京科技大学 | 一种法律文书案由分类器的自动构建方法 |
Non-Patent Citations (4)
Title |
---|
AMIR HAMZAH ET AL: "Opinion classification using Maximum Entropy and K-Means Clustering", 《2016 INTERNATIONAL CONFERENCE ON INFORMATION & COMMUNICATION TECHNOLOGY AND SYSTEMS (ICTS)》 * |
XIUGUO CHEN ET AL: "Weighted k-Means Algorithm Based Text Clustering", 《2009 INTERNATIONAL SYMPOSIUM ON INFORMATION ENGINEERING AND ELECTRONIC COMMERCE》 * |
徐嘉成: "基于k-means聚类和TF-IDF的新浪微博舆情分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
秦宏宇: "网络舆情热点发现相关技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019655A (zh) * | 2017-07-21 | 2019-07-16 | 北京国双科技有限公司 | 先例案件获取方法及装置 |
CN110647504B (zh) * | 2018-06-25 | 2023-03-21 | 阿里巴巴集团控股有限公司 | 司法文书的检索方法及装置 |
CN110647504A (zh) * | 2018-06-25 | 2020-01-03 | 阿里巴巴集团控股有限公司 | 司法文书的检索方法及装置 |
CN109508372B (zh) * | 2018-06-27 | 2023-05-09 | 华北电力大学 | 一种基于司法领域知识抽取的高效司法文档分类方法 |
CN109508372A (zh) * | 2018-06-27 | 2019-03-22 | 华北电力大学 | 一种基于司法领域知识抽取的高效司法文档分类方法 |
CN109033330A (zh) * | 2018-07-19 | 2018-12-18 | 北京车联天下信息技术有限公司 | 大数据清洗方法、装置和服务器 |
CN109145125A (zh) * | 2018-08-20 | 2019-01-04 | 长城计算机软件与系统有限公司 | 一种动态抽取信息的方法和系统、存储介质 |
WO2020052184A1 (zh) * | 2018-09-10 | 2020-03-19 | 平安科技(深圳)有限公司 | 裁判文书处理方法、装置、计算机设备和存储介质 |
CN111008261A (zh) * | 2018-09-19 | 2020-04-14 | 北京国双科技有限公司 | 基于前置文书确定裁判文书的方法及装置 |
CN111008261B (zh) * | 2018-09-19 | 2023-08-25 | 北京国双科技有限公司 | 基于前置文书确定裁判文书的方法及装置 |
CN109582950A (zh) * | 2018-09-25 | 2019-04-05 | 南京大学 | 一种裁判文书说理评估方法 |
CN111198953A (zh) * | 2018-11-16 | 2020-05-26 | 北京智慧正安科技有限公司 | 基于案件文本信息推荐类案的方法、系统及计算机可读存储介质 |
CN109471950A (zh) * | 2018-11-19 | 2019-03-15 | 北京交通大学 | 腹部超声文本数据的结构化知识网络的构建方法 |
CN109471950B (zh) * | 2018-11-19 | 2022-04-01 | 北京交通大学 | 腹部超声文本数据的结构化知识网络的构建方法 |
CN109684628A (zh) * | 2018-11-23 | 2019-04-26 | 武汉烽火众智数字技术有限责任公司 | 基于案情语义分析的案件智能推送方法及系统 |
CN111291570B (zh) * | 2018-12-07 | 2022-07-05 | 北京国双科技有限公司 | 一种实现司法文书中要素识别的方法及装置 |
CN111291570A (zh) * | 2018-12-07 | 2020-06-16 | 北京国双科技有限公司 | 一种实现司法文书中要素识别的方法及装置 |
CN109740728A (zh) * | 2018-12-10 | 2019-05-10 | 杭州世平信息科技有限公司 | 一种基于多种神经网络组合的量刑计算方法 |
CN111339773A (zh) * | 2018-12-18 | 2020-06-26 | 富士通株式会社 | 信息处理方法、自然语言处理方法以及信息处理设备 |
CN109902172B (zh) * | 2019-01-31 | 2021-08-27 | 深度好奇(北京)科技有限公司 | 案情文本分类方法、装置以及存储介质 |
CN109902172A (zh) * | 2019-01-31 | 2019-06-18 | 深度好奇(北京)科技有限公司 | 案情文本分类方法、装置以及存储介质 |
CN111538832A (zh) * | 2019-02-02 | 2020-08-14 | 富士通株式会社 | 用于对文书进行事件标注的装置和方法及记录介质 |
CN109960727A (zh) * | 2019-02-28 | 2019-07-02 | 天津工业大学 | 针对非结构化文本的个人隐私信息自动检测方法及系统 |
CN109992761A (zh) * | 2019-03-22 | 2019-07-09 | 武汉工程大学 | 一种基于规则的自适应文本信息提取方法及软件存储器 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
CN110209721A (zh) * | 2019-06-04 | 2019-09-06 | 南方科技大学 | 判决文书调取方法、装置、服务器及存储介质 |
CN110321466B (zh) * | 2019-06-14 | 2023-09-15 | 广发证券股份有限公司 | 一种基于语义分析的证券资讯查重方法及系统 |
CN110321466A (zh) * | 2019-06-14 | 2019-10-11 | 广发证券股份有限公司 | 一种基于语义分析的证券资讯查重方法及系统 |
CN110472231B (zh) * | 2019-07-11 | 2023-05-12 | 创新先进技术有限公司 | 一种识别法律文书案由的方法和装置 |
CN110472231A (zh) * | 2019-07-11 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 一种识别法律文书案由的方法和装置 |
WO2021017383A1 (zh) * | 2019-07-30 | 2021-02-04 | 北京国双科技有限公司 | 一种法律文书要素解析方法及系统 |
CN110489748A (zh) * | 2019-08-05 | 2019-11-22 | 北京市律典通科技有限公司 | 法律要素推导方法、装置、电子设备及计算机可存储介质 |
CN110502634A (zh) * | 2019-08-13 | 2019-11-26 | 宫辉 | 一种案由的判定和抓取方法及其系统 |
CN110750974A (zh) * | 2019-09-20 | 2020-02-04 | 成都星云律例科技有限责任公司 | 一种裁判文书结构化处理方法及系统 |
CN110765266B (zh) * | 2019-09-20 | 2022-07-22 | 成都星云律例科技有限责任公司 | 一种裁判文书相似争议焦点合并方法及系统 |
CN110765266A (zh) * | 2019-09-20 | 2020-02-07 | 成都星云律例科技有限责任公司 | 一种裁判文书相似争议焦点合并方法及系统 |
CN110837564A (zh) * | 2019-09-25 | 2020-02-25 | 中央民族大学 | 多语言刑事判决书知识图谱的构建方法 |
CN110837564B (zh) * | 2019-09-25 | 2023-10-27 | 中央民族大学 | 多语言刑事判决书知识图谱的构建方法 |
CN110826316B (zh) * | 2019-11-06 | 2021-08-10 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
CN110826316A (zh) * | 2019-11-06 | 2020-02-21 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
CN111144095A (zh) * | 2019-11-26 | 2020-05-12 | 方正璞华软件(武汉)股份有限公司 | 一种工伤案件裁决书的生成方法及装置 |
CN111144095B (zh) * | 2019-11-26 | 2024-04-05 | 方正璞华软件(武汉)股份有限公司 | 一种工伤案件裁决书的生成方法及装置 |
CN111078839A (zh) * | 2019-12-19 | 2020-04-28 | 广州佳都数据服务有限公司 | 一种用于裁判文书的结构化处理方法及处理装置 |
CN111145052A (zh) * | 2019-12-26 | 2020-05-12 | 北京法意科技有限公司 | 司法文书的结构化分析方法及系统 |
CN111310446A (zh) * | 2020-01-15 | 2020-06-19 | 中科鼎富(北京)科技发展有限公司 | 裁判文书的信息抽取方法及装置 |
CN111274354A (zh) * | 2020-01-15 | 2020-06-12 | 中科鼎富(北京)科技发展有限公司 | 一种裁判文书结构化方法及装置 |
CN111310446B (zh) * | 2020-01-15 | 2023-11-24 | 鼎富智能科技有限公司 | 裁判文书的信息抽取方法及装置 |
CN111259631B (zh) * | 2020-01-15 | 2023-08-25 | 鼎富智能科技有限公司 | 一种裁判文书结构化方法及装置 |
CN111259631A (zh) * | 2020-01-15 | 2020-06-09 | 中科鼎富(北京)科技发展有限公司 | 一种裁判文书结构化方法及装置 |
CN111274354B (zh) * | 2020-01-15 | 2023-08-11 | 鼎富智能科技有限公司 | 一种裁判文书结构化方法及装置 |
CN111476034B (zh) * | 2020-04-07 | 2023-05-12 | 同方赛威讯信息技术有限公司 | 基于规则和模型结合的法律文书信息抽取方法及系统 |
CN111476034A (zh) * | 2020-04-07 | 2020-07-31 | 同方赛威讯信息技术有限公司 | 基于规则和模型结合的法律文书信息抽取方法及系统 |
CN111538839A (zh) * | 2020-05-25 | 2020-08-14 | 武汉烽火普天信息技术有限公司 | 一种基于杰卡德距离的实时文本聚类方法 |
CN111783449B (zh) * | 2020-06-24 | 2023-09-22 | 鼎富智能科技有限公司 | 一种裁判文书中判决结果的要素提取方法及装置 |
CN111783449A (zh) * | 2020-06-24 | 2020-10-16 | 鼎富智能科技有限公司 | 一种裁判文书中判决结果的要素提取方法及装置 |
CN112035449A (zh) * | 2020-07-22 | 2020-12-04 | 大箴(杭州)科技有限公司 | 数据处理方法及装置、计算机设备、存储介质 |
CN111858938A (zh) * | 2020-07-23 | 2020-10-30 | 鼎富智能科技有限公司 | 一种裁判文书标签的提取方法及装置 |
CN111858938B (zh) * | 2020-07-23 | 2024-05-24 | 鼎富智能科技有限公司 | 一种裁判文书标签的提取方法及装置 |
CN112069307A (zh) * | 2020-08-25 | 2020-12-11 | 中国人民大学 | 一种法律法条引用信息抽取系统 |
WO2022127057A1 (zh) * | 2020-12-17 | 2022-06-23 | 北京百度网讯科技有限公司 | 气象预警文本处理方法、相关装置及计算机程序产品 |
CN112632965A (zh) * | 2020-12-25 | 2021-04-09 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN112632965B (zh) * | 2020-12-25 | 2024-05-03 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN112699218A (zh) * | 2020-12-30 | 2021-04-23 | 成都数之联科技有限公司 | 模型建立方法及系统及段落标签获得方法及介质 |
CN112784720A (zh) * | 2021-01-13 | 2021-05-11 | 浙江诺诺网络科技有限公司 | 基于银行回单的关键信息提取方法、装置、设备及介质 |
CN113191922A (zh) * | 2021-04-07 | 2021-07-30 | 北京律联东方文化传播有限公司 | 诉讼决策信息请求处理方法及装置 |
CN113554172A (zh) * | 2021-07-28 | 2021-10-26 | 北京法意科技有限公司 | 基于案例文本的裁判规则知识抽取方法及系统 |
CN113761928A (zh) * | 2021-09-09 | 2021-12-07 | 深圳市大数据研究院 | 一种基于词频打分算法获取法律文书案件地点的方法 |
CN114048308A (zh) * | 2021-11-03 | 2022-02-15 | 中国司法大数据研究院有限公司 | 一种类案检索报告生成的方法及装置 |
CN116629258B (zh) * | 2023-07-24 | 2023-10-13 | 北明成功软件(山东)有限公司 | 基于复杂信息项数据的司法文书的结构化分析方法及系统 |
CN116629258A (zh) * | 2023-07-24 | 2023-08-22 | 北明成功软件(山东)有限公司 | 基于复杂信息项数据的司法文书的结构化分析方法及系统 |
CN117951747A (zh) * | 2024-03-26 | 2024-04-30 | 成都飞机工业(集团)有限责任公司 | 一种自适应脱敏方法、系统、设备及介质 |
CN117951747B (zh) * | 2024-03-26 | 2024-07-12 | 成都飞机工业(集团)有限责任公司 | 一种自适应脱敏方法、系统、设备及介质 |
CN118296308A (zh) * | 2024-06-05 | 2024-07-05 | 北京鼎泰智源科技有限公司 | 一种开庭公告数据处理系统 |
CN118296308B (zh) * | 2024-06-05 | 2024-09-06 | 北京鼎泰智源科技有限公司 | 一种开庭公告数据处理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108197163B (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197163A (zh) | 一种基于裁判文书的结构化处理方法 | |
CN108073673B (zh) | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 | |
Zalizniak et al. | The catalogue of semantic shifts as a database for lexical semantic typology | |
Heintz et al. | Automatic extraction of linguistic metaphors with lda topic modeling | |
CN110059311A (zh) | 一种面向司法文本数据的关键词提取方法及系统 | |
CN108628824A (zh) | 一种基于中文电子病历的实体识别方法 | |
CN104536991B (zh) | 答案抽取方法及装置 | |
CN108763485A (zh) | 一种基于文本相似度的裁判文书的证据链关系模型构建方法 | |
Guha et al. | Removing the training wheels: A coreference dataset that entertains humans and challenges computers | |
CN108595548A (zh) | 一种基于马尔可夫逻辑网络的案件裁判结果预测方法 | |
CN113868387A (zh) | 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法 | |
CN112395862A (zh) | 一种基于数据挖掘的环境风险感知评价方法 | |
Houy et al. | Towards automated identification and analysis of argumentation structures in the decision corpus of the German Federal Constitutional Court | |
Elworthy | Question Answering Using a Large NLP System. | |
Calderon-Suarez et al. | Enhancing the detection of misogynistic content in social media by transferring knowledge from song phrases | |
Medelyan | Automatic keyphrase indexing with a domain-specific thesaurus | |
Reshef | Written Hebrew of the revival generation as a distinct phase in the evolution of Modern Hebrew | |
Rosario | Extraction of semantic relations from bioscience text | |
CN111209737A (zh) | 噪声文档的筛除方法及计算机可读存储介质 | |
Trpchevska et al. | Classification of Crimes Using Machine Learning Techniques for National Crime Data | |
Sotudeh et al. | Comparing discrimination powers of text and citation-based context types | |
RU2766821C1 (ru) | Способ автоматизированного извлечения смысловых компонентов из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода и устройство для его реализации | |
CN115659047B (zh) | 基于混合算法的医疗文献检索方法 | |
Wimalasena | Detecting Sinhala Language Based Racial and Religious Offensive Statements in Social Media | |
Biltawi | Neural Machine Understanding for Arabic Text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |