CN110059311A

CN110059311A - 一种面向司法文本数据的关键词提取方法及系统

Info

Publication number: CN110059311A
Application number: CN201910237329.2A
Authority: CN
Inventors: 张云云; 王开红; 丁锴; 陈涛; 蒋立靓; 胡慷; 沈晓宇; 陈寅峰
Original assignee: Enjoyor Co Ltd
Current assignee: Enjoyor Co Ltd
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2019-07-26
Anticipated expiration: 2039-03-27
Also published as: CN110059311B

Abstract

本发明涉及一种面向司法文本数据的关键词提取方法及系统，本发明首先以引入法律名称和司法相关专业性词汇表用于分词，并且进行人工复检来构建司法专业词汇标注表；然后通过将构建司法专业词汇标注词典和大规模的用户词典，进行分词，去除停用词等方法，获取词语；并且采集统计各类纠纷与案由的关键词搜索词汇，共同组成候选关键词；其次，加入标题词权重和词语全局性权重值方法修正候选关键词TF_IDF的权值，如果待提取的文档中未含有候选关键词，那么采用文档中每个词的TF_IDF归一化值作为TextRank算法初始权值输入，得到最终的词语权值。本发明可以较好地匹配司法文本数据，匹配性高，适用于大部分的司法文本数据；并且加快了提取速度，同时提取准确度高。

Description

一种面向司法文本数据的关键词提取方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种面向司法文本数据的关键词提取方法及系统。

背景技术

随着计算机技术和互联网技术的高速发展，各行业领域都逐步迈入了信息化的行列，因此，司法领域也走上了信息化建设的道路。据统计，中国裁判文书网上可查询5千多万份文书，且每天以3万左右的规模递增，另外还有各大司法所人民调解系统中的各类矛盾纠纷案例。然而，面对日益增长的海量司法文本数据，用户需要花费很多时间在阅读案件信息和关键词信息获取，例如，2018年12月新闻中报道的“634页法院一审判决书”，面对如此厚的判决书，等真正看完，上诉期都过期了。那么通过对司法文本数据中特征性较强的、便于作为分类/标识/统计的关键词进行提取，并做整理和语义抽取，可以为案件贴上相应维度的标签，在类案搜索推荐、相似案例统计等工作中很大程度上提高匹配的准确度和提升匹配的时间性能。

近年，在关键词提取方面已经做了大量的研究。如专利号CN201810007166.4提出了一种基于规则的医患纠纷案件关键词提取方法，主要依赖于关键词类别建立医患纠纷关键词提取规则模板，然后将案件模块化，定义各模块化的关键词集合，通过关键词提取规则生成关键词伪表达式进程提取；专利号CN201710605900.2提出了一种基于word2vec与词共现相结合的文本关键词抽取方法，主要是采用word2vec生成的词向量进行聚类，再结合词共现等基本特征提取文本关键词。

然而在上述的关键词提取方法，特别是针对司法文本数据的关键词方法中，都存在一定的局限性。主要原因是：(1)司法文本数据具有很多专业性词汇，不能直接使用分词工具，需要构建特定的司法专业词汇表；(2)不仅要考虑词汇的局部高频性，还要从全局出发，考虑词汇重要性；(3)适合大部分的司法文本数据，如所有的裁判文书、各类人民调解矛盾纠纷案例及协议书等。

发明内容

本发明为克服上述的不足之处，目的在于提供一种面向司法文本数据的关键词提取方法及系统，本发明首先以引入法律名称和司法相关专业性词汇表用于分词，并且进行人工复检来构建司法专业词汇标注表；然后通过将构建司法专业词汇标注词典和大规模的用户词典，进行分词，去除停用词等方法，获取词语；并且采集统计各类纠纷与案由的关键词搜索词汇，共同组成候选关键词；其次，加入标题词权重和词语全局性权重值方法修正候选关键词TF_IDF的权值，如果待提取的文档中未含有候选关键词，那么采用文档中每个词的TF_IDF归一化值作为TextRank算法初始权值输入，得到最终的词语权值。本发明可以较好地匹配司法文本数据，匹配性高，适用于大部分的司法文本数据；并且加快了提取速度，同时提取准确度高。

本发明是通过以下技术方案达到上述目的：一种面向司法文本数据的关键词提取方法，包括如下步骤：

(1)采集并预处理司法文本数据，对司法文本数据进行分词、停用词去除，获取词语；

(2)构建关键词词典，并设置关键词词典标注词初始权值w_initial；

(3)利用TF_IDF模型计算文档d_j中词语word_i的TF_IDF权重，作归一化处理得到TF_IDF权重归一化值tfidf_{ij_norm}；根据词语word_i在文档d_j中出现的位置计算标题词权值W_title(word_ij)；利用词语word_i在文档d_j中的出现范围计算全局性权值W_global(word_ij)；

(4)基于关键词初始权值w_initial、标题词权值W_title(word_ij)、全局性权重值W_global(word_ij)、TF_IDF权重归一化值tfidf_{ij_norm}计算得到词语word_i在文档d_j中的总体权值；

(5)计算文档d_j所有词语的权重，按照词语的权重大小进行降序排列，将权值排在前k为的词语作为文档d_j的关键词。

作为优选，所述分词采用司法专业词汇标注表，所述的司法专业词汇标注表通过提取法律相关名称词典和专业词库、组合常规词及人工复检的方法构建。

作为优选，所述步骤(2)的具体步骤如下：

(2.1)采集各司法网站的关键词搜索词汇，作为第一词典标注词，并设置该类词典标注词的权重w_initial1；

(2.2)统计步骤(1)获取的词语的词频，将词频在设定阈值范围内的词语作为第二词典标注词，并设置该类词典标注词的权重w_initial2；

(2.3)将第一词典标注词和第二词典标注词合并，构建关键词词典，如果有重复出现的词典标注词，取较大的权重作为对应词的初始权值w_initial。

作为优选，所述TF_IDF权重归一化值tfidf_{ij_norm}的计算方法如下：

1)设文档集合D,某个文档的词语表示为d_j＝{word₁,word₂,...,word_N}，N表示文档d_j中出现词语的个数，word_i是在文档中出现词语，利用TF_IDF方法计算给初始候选关键词的权重公式：

其中，tf_ij是指词语word_i在文档d_j中出现的频率；n_i,j是指词语word_i在文档d_j中出现的次数；∑_kn_k,j是指词语word_i在文档d_j中所有词语的出现次数总和，k表示文档d_j内的词语；idf_i是指词语word_i的逆向文档数，可用中文件数目除以包含该词语的文件的数目，即|D|表示全部文档的文件总数，|{j:word_i∈d_j}|表示包含词语word_i的文件数目(n_i,j≠0的文件数目)，θ为常量值；

2)将TF_IDF权重进行归一化处理，归一化的权值计算公式如下：

其中，tfidf_{ij_norm}为文档d_j中某词语word_i的TF_IDF权重进行归一化值；N表示文档d_j中出现词语的个数。

作为优选，所述步骤(3)中根据词语word_i在文档d_j中出现的位置计算标题词权值W_title(word_ij)，具体为，以num个词为单位，建立标题词权值计算公式如下所示：

其中，Title_j表示文档d_j标题词集合，docLen(d_j)表示文档d_j内词语的总数。

作为优选，所述步骤(3)中利用词语word_i在文档d_j中的出现范围计算全局性权值W_global(word_ij)，具体为，引入sigmoid函数衡量词语在司法文本数据中的全局重要程度，全局性权值计算公式如下所示：

其中，m表示词语出现过字段数量，m_total代表总字段数目，且t≥1。

作为优选，所述词语word_i在文档d_j中的总体权值计算方法为：首先将标题词权值W_title(word_ij)，全局性权值W_global(word_ij)、词的TF_IDF归一化值tfidf_{ij_norm}进行线性相加，然后再融合初始权值w_initial进行计算，即计算公式如下所示：

其中，α+β+γ＝1。

作为优选，所述方法还包括步骤(6)，若文档d_j中不含关键词词典标注词，则采用词语TF_IDF权重归一化值tfidf_{ij_norm}，输入TextRank算法构建图模型，得到词语权重值，对每个词语权重值进行倒序排列，得到排名前Top k个词语作为文本关键词。

作为优选，所述词语权重值计算方法具体如下：

原始的TextRank的无向图模型中，设置每个顶点的入度和出度都是相等的，将文档d_j看作是一个图结构，G＝(V,E),其中表示图中所有顶点的集合，表示每两个顶点之间所连接的边的集合；在该公式中说明中顶点指的是文档中的词语，则词语word_i的权值计算公式如下所示：

其中，word_i为对应给定顶点，In(V_i)是指向该点word_i的所有点的集合，Out(V_q)是从点word_i指出的所有word_q的集合，相应的是顶点word_i到顶点word_q边所连接赋值数，是指顶点word_i所指向它所有边的赋值数的总和；σ为阻尼系数；

文档d_j中词语的TF_IDF权重归一化值tfidf_{ij_norm}作为TextRank词语输入，融合公式(6)进行权值更新，最终计算公式如下所示：

一种面向司法文本数据的关键词提取系统，包括：数据采集模块、数据处理模块、分词处理模块、权重计算模块、关键词提取模块；所述的数据采集模块用于采集司法文本数据和关键词搜索词汇；数据处理模块对采集得到的司法文本数据和关键词搜索词汇表进行结构化处理、去重预处理操作；分词处理模块，用于对司法文本数据进行分词、停用词去除，并统计词频、词语位置；权重计算模块用于计算词语的各类权重值；关键词提取模块用于融合词语的各类权重值，获得最终的权重值，并提取关键词。

本发明的有益效果在于：(1)本发明加入法律名称和司法相关专业词汇表用于分词，并且通过人工复检的方法来构建司法专业词汇标注表，同时采集统计各类纠纷与案由的关键词搜索词汇表和根据文本语料分词结果统计的词语作为候选关键词；使得可以较好地匹配司法文本数据，匹配性高，适用于大部分的司法文本数据；(2)本发明采用动态加权的方式设置标题词的权重计算方式；引入词语全局权值，即通过引入sigmoid函数来衡量词语在整篇司法文本数据中的全局重要程度，这样可以避免因词语局部出现频率过高而导致关键词权值偏高的现象；针对待提取的文档中未含有候选关键词，则textrank算法进行关键词提取，并且采用每个词TF_IDF更新图模型中的权值，进行收敛，直到权值排序计算；加快了提取速度，同时提取准确度高。

附图说明

图1是本发明的方法流程示意图；

图2是本发明的tiidf权值更新TextRank算法流程示意图；

图3是本发明实施例中第一词典标注词示意图；

图4是本发明实施例中某篇裁判文书保留后的关键词示意图；

图5是本发明实施例中关键词筛选结果示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：一种面向司法文本数据的关键词提取系统，包括：数据采集模块、数据处理模块、分词处理模块、权重计算模块关键词提取模块；所述的数据采集模块用于采集司法文本数据和关键词搜索词汇；数据处理模块对采集得到的司法文本数据和关键词搜索词汇表进行结构化处理、去重预处理操作；分词处理模块，用于对司法文本数据进行分词、停用词去除，并统计词频、词语位置；权重计算模块用于计算词语的各类权重值；关键词提取模块用于融合词语的各类权重值，获得最终的权重值，并提取关键词。

本实施例验证数据是上海市人民调解协议书和全国范围内的民事裁判文书；如图1所示，一种面向司法文本数据的关键词提取方法包括如下步骤：

步骤1:司法文本数据采集、初级预处理：

采集大量的法律文书、人民调解数据、法律法规及其解释性规定等，并且存储在数据库中；对采集到的数据进行初级预处理，包括司法文本数据的结构化处理、删除重复数据和数据不一致的脏数据、去除重要字段缺少的数据等。

首先对采集到的数据进行结构化处理，例如根据其裁判文书的文本信息特点，利用相关正则表达式分为首部(包括标题、案号、法院名称等)、当事人基本信息、原被告律师信息、案情描述信息、本院认为、法院审理查明、判决信息、判决法律依据、结尾(包括审判日期、审判长/审判员等)；然后将结构化的数据进行去重，缺失重要字段的裁判文书去除，例如，将按照“案号”信息相同作为重复案件去重，案情描述信息属于重要字段，如果无此字段裁判文书去掉等。同时，人民调解协议书信息也根据其文本信息特点进行结构化处理。

步骤2:统计各类案由/纠纷的关键词搜索词汇表

从各大司法网站上搜集各类案由/纠纷的关键词搜索词汇表，去除重复关键词汇或者短语，作为第一词典标注词，并且设置该类词典标签的权重w_initial1；

本实施例中，从无讼、中国裁判文书、聚法、法信、12348等各大司法搜索引擎网站上爬取关键词，去除重复关键词汇或者短语，作为第一词典标注词，并且设置该类词典标签的权重w_initial1为0.8；

例如：输入案由得到，采集到第一词典标注词如图2所示：

步骤3:构建司法专业词汇标注表：

由于中文文本缺乏词边界，在抽取关键词之前需要先将文本进行分词，分词使用目前开源分词工具，如结巴分词，清华大学的thulac、IKAnalyzer等。这些分词工具库分词功能相同，对于多数简单规范的文本都能成功切分出常用词语以及一般专业性词语。但是，对于歧义词和专业性很强的司法词汇无法正确切词，例如“限制民事行为能力人”，“不应当结婚的疾病”，“住房公积金贷款”等。为正确切出这些词汇，需使用自定义司法相关的词汇表。表中词汇可使用法律相关名称词典和专业词库等方法提取，或者使用若干常规词进行组合来表示。然后，对切词结果进行人工复检，人工复检有两种方法，对照法条切分结果逐条检查和对照司法文本数据的切词结果的词频统计复检。两种方法的目的都是要将未切分正确的专业词汇补充到词汇表中。经过补充，形成最后的司法相关词汇表，可以将法规法条的专业词汇正确切分。在本次实施例子，大概使用了常用的1000多部法律相关名称词典和800万的腾讯分词词典，最终3000多条司法专业词汇标注表；

步骤4:对司法文本数据进行分词预处理：

对裁判文书、调解协议书、调解案例等司法文本数据进行分词、停用词去除等，并且统计词语的词频、词语位置。停用词去除包括去除文档中出现频率很高，但是对文章主题不具有代表性的词，还包括连词、虚词、标点符号、副词等，步骤如下：

(1)对文档的每个字段进行分词，如裁判文书的案件详情描述字段进行；

(2)对于每个句子，进行分词、词频tf、词位置标注处理，并过滤掉停用词、只保留指定词性的单词，如名词、动词、形容词。如图4所示为某一篇裁判文书保留后的词语；

(3)针对预处理的语料文本库，将去除停用词保留后的词语词频在一定阈值范围内，作为第二词典标注词，设置该类词典标签的权重w_initial2为0.6；

(4)将第一词典标注词和第二词典标注词合并，重复出现的词典标注词，取值大作为初始权值w_initial，可能是0.8或者0.6；

步骤5:计算词语的TF_IDF值：

TF_IDF模型是搜索引擎中被广泛使用的信息检索模型，筛选文本关键词的核心思想是：如果某个词在其他文本中出现较少，但是在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，即为关键词。将利用公式2进行计算词语在对应文档d_i中的tfidf_{ij_norm}归一化权值。其计算方法为：设文档集合D,某个文档的词语可表示为d_j＝{word₁,word₂,...,word_N}，N表示文档d_j中出现词语的个数，word_i是在文档中出现词语，利用TF_IDF方法计算给初始候选关键词的权重公式：

其中tf_ij指词语word_i在文档d_j中出现的频率；n_i,j是词语word_i在文档d_j中出现的次数；∑_kn_k,j是指词语word_i在文档d_j中所有词语的出现次数总和，k表示文档d_j内的词语，如word₁,word₂,...word_i,...,word_k；idf_i是指词语word_i的逆向文档数，可以用中文件数目除以包含该词语的文件的数目，即|D|表示全部文档的文件总数，|{j:word_i∈d_j}|表示包含词语word_i的文件数目(n_i,j≠0的文件数目)，如果词语word_i不在文档集合中，就会导致被除数为0，因此需要增加常量值θ，一般取值为1。

为了后续的方便计算，将TF_IDF权重进行归一化处理，归一化的权值计算公式如：

其中tfidf_{ij_norm}为文档d_j中某词语word_i的TF_IDF权重进行归一化值；t_i*f_j计算如公式(1)；N表示文档d_j中出现词语的个数。

步骤6：文档词语word_ij权值计算：

(1)标题词权值W_title(word_ij)计算：

步骤4中记录候选关键词的出现位置pos_ij，将候选关键词w_ij在每篇文档中出现的位置划分为：标题部分，正文部分(裁判文书的正文部分包括案情描述信息、本院认为、法院审理查明、判决信息及法律依据；调解协议书正文部分包括办案基本信息、纠纷事实、协议内容等)。对于调解协议书、短文本的裁判文书，标题词需要体现出文本的中心思想，用来点题；但是有些案情很长，描述内容特别多的裁判文书来说，标题中出现的词重要性体现较弱，因此本文考虑标题词权重时，采用动态加权，以num个词为单位，建立权值公式(3)所示：

其中Title_j表示文档d_j标题词集合，docLen(d_j)表示文档d_j内词语的总数；当即词为非标题词时，权重取值为0，当word_ij∈Title_j，该词为标题词时，为了保证标题词权重，设置其基准为1，且以num与当前文档长度取值商加上基准值。

例如：某某与某某的抚养费纠纷，那么“抚养费”作为标题词，其权值更重要，以400词语为单位，利用公式(3)计算标题词权值，计算权值为其他词语为非标题词时，权值取值为0。

(2)全局性权值W_global(word_ij)计算：

关键词是对文本主题、核心内容、中心思想的凝练，因此被提及的范围直接影响其对文本内容的表达能力。局部关键词往往会因为高频优势误入关键词行列，造成噪声干扰，降低了准确率，在词的权重中加入全局性权值，可以对全局性关键词和局部关键词进行区分，提高提取准确率。

由于sigmiod函数不是随着直线方式增长且具有比较好的收敛性，且在本专利中该函数中的变量取值为正数，则sigmoid函数取值保持在[0,1]。由于司法文本数据中，裁判文书的字段分为：首部(包括标题、案号、法院名称等)、当事人基本信息、原被告律师信息、案情描述信息、本院认为、法院审理查明、判决信息、判决法律依据、结尾(包括审判日期、审判长/审判员等)九个字段，但是首部、结尾、当事人基本信息、原被告律师信息等4项不包含。全局性权值W_global(word_ij)计算如所示：

其中，m表示词语出现过字段数量，且t≥1，m_total代表总字段数目。

例如，抚养费一词出现在裁判文书中案情描述信息、本院认为、法院审理查明、判决信息、判决法律依据等5个字段中，sigmoid函数计算结果为0.99334，那么该词的全局性权值s_i可利用公式(4)计算，计算结果为另外，公式(4)中的m_total代表总字段数目，但是对于裁判文书，设置为5；对于调解协议书，设置为2。

步骤7:文档词语word_ij的总体权值计算：

词语总体权值计算方法：根据标题词权值W_title(word_ij)，全局性权值W_global(word_ij)、词的TF_IDF归一化值tfidf_{ij_norm}进行线性相加，然后再融合初始权值w_initial进行计算，采用公式(5)计算，其中公式(5)中涉及到的α+β+γ＝1，按照实验结果设置为α＝0.5，β＝0.25，γ＝0.25；

当待提取关键词文档中不含词典标注词，则进入步骤9；否则进入步骤8进行权值排序和关键词筛选；

步骤8：权值排序及关键词筛选：

计算出所有词语权值后，依照权值大小降序排列，将排在前k位的词语作为算法提取到的词语依次输出。本发明中分析的实验结果是统一抽取5个关键词。

最终关键词筛选结果如图5所示；

步骤9：待提取关键词文档中不含词典标注词，则采用词语TF_IDF的归一化值tfidf_{ij_norm}，输入TextRank算法构建图模型，更新词的权重，提取关键词。

如果待提取关键词文档中不含词典标注词，那么词语总体权值计算就为0，则选取词语TF_IDF的归一化值tfidf_{ij_norm}的方法进行每个词的权重的统计计算，融合TextRank算法计算公式(6)，改进的权值更新公式(7)所示。

具体计算步骤如下：

1)预处理部分如步骤4中(1)(2)所述；

2)计算文档中词语的TF_IDF值及其归一化值tfidf_{ij_norm}，如步骤5中所述；

3)将每个词语的权重赋予文档中的对应词，再对每个文档进行TextRank处理，得到最终词语权重值，具体计算方法如公式(7)所示；

4)对每个词语权重值进行倒序排列，得到排名前Top k个词语作为文本关键词。

原始的TextRank的无向图模型中，设置每个顶点的入度和出度都是相等的，将文档d_j看作是一个图结构，G＝(V,E),其中表示图中所有顶点的集合，表示每两个顶点之间所连接的边的集合。在该公式中说明中顶点指的是文档中的词语，则词语word_i的权值计算公式如(6)：

其中，word_i为对应给定顶点，In(V_i)是指向该点word_i的所有点的集合，Out(V_q)是从点word_i指出的所有word_q的集合，相应的是顶点word_i到顶点word_q边所连接赋值数，是指顶点word_i所指向它所有边的赋值数的总和。σ为阻尼系数，根据经验一般取值为0.85。

那么文档d_j中词语word_i归一化值tfidf_{ij_norm}作为TextRank词语输入，融合公式(6)进行权值更新，最终计算公式如(7)所示：

最后，对更新后的词语权重进行倒序排列，得到排名前Top 5个词汇作为文本关键词。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种面向司法文本数据的关键词提取方法，其特征在于，包括如下步骤：

(4)基于关键词初始权值w_initial、标题词权值W_title(word_ij)、全局性权重值W_global(word_ij)、TF_IDF权重归一化值tfidf_{ij_norm}计算得到词语word_i在文档d_j中的总体权值

2.根据权利要求1所述的一种面向司法文本数据的关键词提取方法，其特征在于：所述分词采用司法专业词汇标注表，所述的司法专业词汇标注表通过提取法律相关名称词典和专业词库、组合常规词及人工复检的方法构建。

3.根据权利要求1所述的一种面向司法文本数据的关键词提取方法，其特征在于：所述步骤(2)的具体步骤如下：

4.根据权利要求1所述的一种面向司法文本数据的关键词提取方法，其特征在于：所述TF_IDF权重归一化值tfidf_{ij_norm}的计算方法如下：

5.根据权利要求1所述的一种面向司法文本数据的关键词提取方法，其特征在于：所述步骤(3)中根据词语word_i在文档d_j中出现的位置计算标题词权值W_title(word_ij)，具体为，以num个词为单位，建立标题词权值计算公式如下所示：

6.根据权利要求1所述的一种面向司法文本数据的关键词提取方法，其特征在于：所述步骤(3)中利用词语word_i在文档d_j中的出现范围计算全局性权值W_global(word_ij)，具体为，引入sigmoid函数衡量词语在司法文本数据中的全局重要程度，全局性权值计算公式如下所示：

7.根据权利要求1所述的一种面向司法文本数据的关键词提取方法，其特征在于：所述词语word_i在文档d_j中的总体权值计算方法为：首先将标题词权值W_title(word_ij)，全局性权值W_global(word_ij)、词的TF_IDF归一化值tfidf_{ij_norm}进行线性相加，然后再融合初始权值w_initial进行计算，即计算公式如下所示：

其中，α+β+γ＝1。

8.根据权利要求1所述的一种面向司法文本数据的关键词提取方法，其特征在于：所述方法还包括步骤(6)，若文档d_j中不含关键词词典标注词，则采用词语TF_IDF权重归一化值tfidf_{ij_norm}，输入TextRank算法构建图模型，得到词语权重值，对每个词语权重值进行倒序排列，得到排名前Top k个词语作为文本关键词。

9.根据权利要求8所述的一种面向司法文本数据的关键词提取方法，其特征在于：所述词语权重值计算方法具体如下：

文档d_j中词语wor_id的TF_IDF权重归一化值tfidf_{ij_norm}作为TextRank词语输入，融合公式(6)进行权值更新，最终计算公式如下所示：

10.一种面向司法文本数据的关键词提取系统，其特征在于包括：数据采集模块、数据处理模块、分词处理模块、权重计算模块、关键词提取模块；所述的数据采集模块用于采集司法文本数据和关键词搜索词汇；数据处理模块对采集得到的司法文本数据和关键词搜索词汇表进行结构化处理、去重预处理操作；分词处理模块，用于对司法文本数据进行分词、停用词去除，并统计词频、词语位置；权重计算模块用于计算词语的各类权重值；关键词提取模块用于融合词语的各类权重值，获得最终的权重值，并提取关键词。