CN110059311A - 一种面向司法文本数据的关键词提取方法及系统 - Google Patents
一种面向司法文本数据的关键词提取方法及系统 Download PDFInfo
- Publication number
- CN110059311A CN110059311A CN201910237329.2A CN201910237329A CN110059311A CN 110059311 A CN110059311 A CN 110059311A CN 201910237329 A CN201910237329 A CN 201910237329A CN 110059311 A CN110059311 A CN 110059311A
- Authority
- CN
- China
- Prior art keywords
- word
- weight
- document
- judicial
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种面向司法文本数据的关键词提取方法及系统,本发明首先以引入法律名称和司法相关专业性词汇表用于分词,并且进行人工复检来构建司法专业词汇标注表;然后通过将构建司法专业词汇标注词典和大规模的用户词典,进行分词,去除停用词等方法,获取词语;并且采集统计各类纠纷与案由的关键词搜索词汇,共同组成候选关键词;其次,加入标题词权重和词语全局性权重值方法修正候选关键词TF_IDF的权值,如果待提取的文档中未含有候选关键词,那么采用文档中每个词的TF_IDF归一化值作为TextRank算法初始权值输入,得到最终的词语权值。本发明可以较好地匹配司法文本数据,匹配性高,适用于大部分的司法文本数据;并且加快了提取速度,同时提取准确度高。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种面向司法文本数据的关键词提取方法及系统。
背景技术
随着计算机技术和互联网技术的高速发展,各行业领域都逐步迈入了信息化的行列,因此,司法领域也走上了信息化建设的道路。据统计,中国裁判文书网上可查询5千多万份文书,且每天以3万左右的规模递增,另外还有各大司法所人民调解系统中的各类矛盾纠纷案例。然而,面对日益增长的海量司法文本数据,用户需要花费很多时间在阅读案件信息和关键词信息获取,例如,2018年12月新闻中报道的“634页法院一审判决书”,面对如此厚的判决书,等真正看完,上诉期都过期了。那么通过对司法文本数据中特征性较强的、便于作为分类/标识/统计的关键词进行提取,并做整理和语义抽取,可以为案件贴上相应维度的标签,在类案搜索推荐、相似案例统计等工作中很大程度上提高匹配的准确度和提升匹配的时间性能。
近年,在关键词提取方面已经做了大量的研究。如专利号CN201810007166.4提出了一种基于规则的医患纠纷案件关键词提取方法,主要依赖于关键词类别建立医患纠纷关键词提取规则模板,然后将案件模块化,定义各模块化的关键词集合,通过关键词提取规则生成关键词伪表达式进程提取;专利号CN201710605900.2提出了一种基于word2vec与词共现相结合的文本关键词抽取方法,主要是采用word2vec生成的词向量进行聚类,再结合词共现等基本特征提取文本关键词。
然而在上述的关键词提取方法,特别是针对司法文本数据的关键词方法中,都存在一定的局限性。主要原因是:(1)司法文本数据具有很多专业性词汇,不能直接使用分词工具,需要构建特定的司法专业词汇表;(2)不仅要考虑词汇的局部高频性,还要从全局出发,考虑词汇重要性;(3)适合大部分的司法文本数据,如所有的裁判文书、各类人民调解矛盾纠纷案例及协议书等。
发明内容
本发明为克服上述的不足之处,目的在于提供一种面向司法文本数据的关键词提取方法及系统,本发明首先以引入法律名称和司法相关专业性词汇表用于分词,并且进行人工复检来构建司法专业词汇标注表;然后通过将构建司法专业词汇标注词典和大规模的用户词典,进行分词,去除停用词等方法,获取词语;并且采集统计各类纠纷与案由的关键词搜索词汇,共同组成候选关键词;其次,加入标题词权重和词语全局性权重值方法修正候选关键词TF_IDF的权值,如果待提取的文档中未含有候选关键词,那么采用文档中每个词的TF_IDF归一化值作为TextRank算法初始权值输入,得到最终的词语权值。本发明可以较好地匹配司法文本数据,匹配性高,适用于大部分的司法文本数据;并且加快了提取速度,同时提取准确度高。
本发明是通过以下技术方案达到上述目的:一种面向司法文本数据的关键词提取方法,包括如下步骤:
(1)采集并预处理司法文本数据,对司法文本数据进行分词、停用词去除,获取词语;
(2)构建关键词词典,并设置关键词词典标注词初始权值winitial;
(3)利用TF_IDF模型计算文档dj中词语wordi的TF_IDF权重,作归一化处理得到TF_IDF权重归一化值tfidfij_norm;根据词语wordi在文档dj中出现的位置计算标题词权值Wtitle(wordij);利用词语wordi在文档dj中的出现范围计算全局性权值Wglobal(wordij);
(4)基于关键词初始权值winitial、标题词权值Wtitle(wordij)、全局性权重值Wglobal(wordij)、TF_IDF权重归一化值tfidfij_norm计算得到词语wordi在文档dj中的总体权值;
(5)计算文档dj所有词语的权重,按照词语的权重大小进行降序排列,将权值排在前k为的词语作为文档dj的关键词。
作为优选,所述分词采用司法专业词汇标注表,所述的司法专业词汇标注表通过提取法律相关名称词典和专业词库、组合常规词及人工复检的方法构建。
作为优选,所述步骤(2)的具体步骤如下:
(2.1)采集各司法网站的关键词搜索词汇,作为第一词典标注词,并设置该类词典标注词的权重winitial1;
(2.2)统计步骤(1)获取的词语的词频,将词频在设定阈值范围内的词语作为第二词典标注词,并设置该类词典标注词的权重winitial2;
(2.3)将第一词典标注词和第二词典标注词合并,构建关键词词典,如果有重复出现的词典标注词,取较大的权重作为对应词的初始权值winitial。
作为优选,所述TF_IDF权重归一化值tfidfij_norm的计算方法如下:
1)设文档集合D,某个文档的词语表示为dj={word1,word2,...,wordN},N表示文档dj中出现词语的个数,wordi是在文档中出现词语,利用TF_IDF方法计算给初始候选关键词的权重公式:
其中,tfij是指词语wordi在文档dj中出现的频率;ni,j是指词语wordi在文档dj中出现的次数;∑knk,j是指词语wordi在文档dj中所有词语的出现次数总和,k表示文档dj内的词语;idfi是指词语wordi的逆向文档数,可用中文件数目除以包含该词语的文件的数目,即|D|表示全部文档的文件总数,|{j:wordi∈dj}|表示包含词语wordi的文件数目(ni,j≠0的文件数目),θ为常量值;
2)将TF_IDF权重进行归一化处理,归一化的权值计算公式如下:
其中,tfidfij_norm为文档dj中某词语wordi的TF_IDF权重进行归一化值;N表示文档dj中出现词语的个数。
作为优选,所述步骤(3)中根据词语wordi在文档dj中出现的位置计算标题词权值Wtitle(wordij),具体为,以num个词为单位,建立标题词权值计算公式如下所示:
其中,Titlej表示文档dj标题词集合,docLen(dj)表示文档dj内词语的总数。
作为优选,所述步骤(3)中利用词语wordi在文档dj中的出现范围计算全局性权值Wglobal(wordij),具体为,引入sigmoid函数衡量词语在司法文本数据中的全局重要程度,全局性权值计算公式如下所示:
其中,m表示词语出现过字段数量,mtotal代表总字段数目,且t≥1。
作为优选,所述词语wordi在文档dj中的总体权值计算方法为:首先将标题词权值Wtitle(wordij),全局性权值Wglobal(wordij)、词的TF_IDF归一化值tfidfij_norm进行线性相加,然后再融合初始权值winitial进行计算,即计算公式如下所示:
其中,α+β+γ=1。
作为优选,所述方法还包括步骤(6),若文档dj中不含关键词词典标注词,则采用词语TF_IDF权重归一化值tfidfij_norm,输入TextRank算法构建图模型,得到词语权重值,对每个词语权重值进行倒序排列,得到排名前Top k个词语作为文本关键词。
作为优选,所述词语权重值计算方法具体如下:
原始的TextRank的无向图模型中,设置每个顶点的入度和出度都是相等的,将文档dj看作是一个图结构,G=(V,E),其中表示图中所有顶点的集合,表示每两个顶点之间所连接的边的集合;在该公式中说明中顶点指的是文档中的词语,则词语wordi的权值计算公式如下所示:
其中,wordi为对应给定顶点,In(Vi)是指向该点wordi的所有点的集合,Out(Vq)是从点wordi指出的所有wordq的集合,相应的是顶点wordi到顶点wordq边所连接赋值数,是指顶点wordi所指向它所有边的赋值数的总和;σ为阻尼系数;
文档dj中词语的TF_IDF权重归一化值tfidfij_norm作为TextRank词语输入,融合公式(6)进行权值更新,最终计算公式如下所示:
一种面向司法文本数据的关键词提取系统,包括:数据采集模块、数据处理模块、分词处理模块、权重计算模块、关键词提取模块;所述的数据采集模块用于采集司法文本数据和关键词搜索词汇;数据处理模块对采集得到的司法文本数据和关键词搜索词汇表进行结构化处理、去重预处理操作;分词处理模块,用于对司法文本数据进行分词、停用词去除,并统计词频、词语位置;权重计算模块用于计算词语的各类权重值;关键词提取模块用于融合词语的各类权重值,获得最终的权重值,并提取关键词。
本发明的有益效果在于:(1)本发明加入法律名称和司法相关专业词汇表用于分词,并且通过人工复检的方法来构建司法专业词汇标注表,同时采集统计各类纠纷与案由的关键词搜索词汇表和根据文本语料分词结果统计的词语作为候选关键词;使得可以较好地匹配司法文本数据,匹配性高,适用于大部分的司法文本数据;(2)本发明采用动态加权的方式设置标题词的权重计算方式;引入词语全局权值,即通过引入sigmoid函数来衡量词语在整篇司法文本数据中的全局重要程度,这样可以避免因词语局部出现频率过高而导致关键词权值偏高的现象;针对待提取的文档中未含有候选关键词,则textrank算法进行关键词提取,并且采用每个词TF_IDF更新图模型中的权值,进行收敛,直到权值排序计算;加快了提取速度,同时提取准确度高。
附图说明
图1是本发明的方法流程示意图;
图2是本发明的tiidf权值更新TextRank算法流程示意图;
图3是本发明实施例中第一词典标注词示意图;
图4是本发明实施例中某篇裁判文书保留后的关键词示意图;
图5是本发明实施例中关键词筛选结果示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:一种面向司法文本数据的关键词提取系统,包括:数据采集模块、数据处理模块、分词处理模块、权重计算模块关键词提取模块;所述的数据采集模块用于采集司法文本数据和关键词搜索词汇;数据处理模块对采集得到的司法文本数据和关键词搜索词汇表进行结构化处理、去重预处理操作;分词处理模块,用于对司法文本数据进行分词、停用词去除,并统计词频、词语位置;权重计算模块用于计算词语的各类权重值;关键词提取模块用于融合词语的各类权重值,获得最终的权重值,并提取关键词。
本实施例验证数据是上海市人民调解协议书和全国范围内的民事裁判文书;如图1所示,一种面向司法文本数据的关键词提取方法包括如下步骤:
步骤1:司法文本数据采集、初级预处理:
采集大量的法律文书、人民调解数据、法律法规及其解释性规定等,并且存储在数据库中;对采集到的数据进行初级预处理,包括司法文本数据的结构化处理、删除重复数据和数据不一致的脏数据、去除重要字段缺少的数据等。
首先对采集到的数据进行结构化处理,例如根据其裁判文书的文本信息特点,利用相关正则表达式分为首部(包括标题、案号、法院名称等)、当事人基本信息、原被告律师信息、案情描述信息、本院认为、法院审理查明、判决信息、判决法律依据、结尾(包括审判日期、审判长/审判员等);然后将结构化的数据进行去重,缺失重要字段的裁判文书去除,例如,将按照“案号”信息相同作为重复案件去重,案情描述信息属于重要字段,如果无此字段裁判文书去掉等。同时,人民调解协议书信息也根据其文本信息特点进行结构化处理。
步骤2:统计各类案由/纠纷的关键词搜索词汇表
从各大司法网站上搜集各类案由/纠纷的关键词搜索词汇表,去除重复关键词汇或者短语,作为第一词典标注词,并且设置该类词典标签的权重winitial1;
本实施例中,从无讼、中国裁判文书、聚法、法信、12348等各大司法搜索引擎网站上爬取关键词,去除重复关键词汇或者短语,作为第一词典标注词,并且设置该类词典标签的权重winitial1为0.8;
例如:输入案由得到,采集到第一词典标注词如图2所示:
步骤3:构建司法专业词汇标注表:
由于中文文本缺乏词边界,在抽取关键词之前需要先将文本进行分词,分词使用目前开源分词工具,如结巴分词,清华大学的thulac、IKAnalyzer等。这些分词工具库分词功能相同,对于多数简单规范的文本都能成功切分出常用词语以及一般专业性词语。但是,对于歧义词和专业性很强的司法词汇无法正确切词,例如“限制民事行为能力人”,“不应当结婚的疾病”,“住房公积金贷款”等。为正确切出这些词汇,需使用自定义司法相关的词汇表。表中词汇可使用法律相关名称词典和专业词库等方法提取,或者使用若干常规词进行组合来表示。然后,对切词结果进行人工复检,人工复检有两种方法,对照法条切分结果逐条检查和对照司法文本数据的切词结果的词频统计复检。两种方法的目的都是要将未切分正确的专业词汇补充到词汇表中。经过补充,形成最后的司法相关词汇表,可以将法规法条的专业词汇正确切分。在本次实施例子,大概使用了常用的1000多部法律相关名称词典和800万的腾讯分词词典,最终3000多条司法专业词汇标注表;
步骤4:对司法文本数据进行分词预处理:
对裁判文书、调解协议书、调解案例等司法文本数据进行分词、停用词去除等,并且统计词语的词频、词语位置。停用词去除包括去除文档中出现频率很高,但是对文章主题不具有代表性的词,还包括连词、虚词、标点符号、副词等,步骤如下:
(1)对文档的每个字段进行分词,如裁判文书的案件详情描述字段进行;
(2)对于每个句子,进行分词、词频tf、词位置标注处理,并过滤掉停用词、只保留指定词性的单词,如名词、动词、形容词。如图4所示为某一篇裁判文书保留后的词语;
(3)针对预处理的语料文本库,将去除停用词保留后的词语词频在一定阈值范围内,作为第二词典标注词,设置该类词典标签的权重winitial2为0.6;
(4)将第一词典标注词和第二词典标注词合并,重复出现的词典标注词,取值大作为初始权值winitial,可能是0.8或者0.6;
步骤5:计算词语的TF_IDF值:
TF_IDF模型是搜索引擎中被广泛使用的信息检索模型,筛选文本关键词的核心思想是:如果某个词在其他文本中出现较少,但是在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,即为关键词。将利用公式2进行计算词语在对应文档di中的tfidfij_norm归一化权值。其计算方法为:设文档集合D,某个文档的词语可表示为dj={word1,word2,...,wordN},N表示文档dj中出现词语的个数,wordi是在文档中出现词语,利用TF_IDF方法计算给初始候选关键词的权重公式:
其中tfij指词语wordi在文档dj中出现的频率;ni,j是词语wordi在文档dj中出现的次数;∑knk,j是指词语wordi在文档dj中所有词语的出现次数总和,k表示文档dj内的词语,如word1,word2,...wordi,...,wordk;idfi是指词语wordi的逆向文档数,可以用中文件数目除以包含该词语的文件的数目,即|D|表示全部文档的文件总数,|{j:wordi∈dj}|表示包含词语wordi的文件数目(ni,j≠0的文件数目),如果词语wordi不在文档集合中,就会导致被除数为0,因此需要增加常量值θ,一般取值为1。
为了后续的方便计算,将TF_IDF权重进行归一化处理,归一化的权值计算公式如:
其中tfidfij_norm为文档dj中某词语wordi的TF_IDF权重进行归一化值;ti*fj计算如公式(1);N表示文档dj中出现词语的个数。
步骤6:文档词语wordij权值计算:
(1)标题词权值Wtitle(wordij)计算:
步骤4中记录候选关键词的出现位置posij,将候选关键词wij在每篇文档中出现的位置划分为:标题部分,正文部分(裁判文书的正文部分包括案情描述信息、本院认为、法院审理查明、判决信息及法律依据;调解协议书正文部分包括办案基本信息、纠纷事实、协议内容等)。对于调解协议书、短文本的裁判文书,标题词需要体现出文本的中心思想,用来点题;但是有些案情很长,描述内容特别多的裁判文书来说,标题中出现的词重要性体现较弱,因此本文考虑标题词权重时,采用动态加权,以num个词为单位,建立权值公式(3)所示:
其中Titlej表示文档dj标题词集合,docLen(dj)表示文档dj内词语的总数;当即词为非标题词时,权重取值为0,当wordij∈Titlej,该词为标题词时,为了保证标题词权重,设置其基准为1,且以num与当前文档长度取值商加上基准值。
例如:某某与某某的抚养费纠纷,那么“抚养费”作为标题词,其权值更重要,以400词语为单位,利用公式(3)计算标题词权值,计算权值为其他词语为非标题词时,权值取值为0。
(2)全局性权值Wglobal(wordij)计算:
关键词是对文本主题、核心内容、中心思想的凝练,因此被提及的范围直接影响其对文本内容的表达能力。局部关键词往往会因为高频优势误入关键词行列,造成噪声干扰,降低了准确率,在词的权重中加入全局性权值,可以对全局性关键词和局部关键词进行区分,提高提取准确率。
由于sigmiod函数不是随着直线方式增长且具有比较好的收敛性,且在本专利中该函数中的变量取值为正数,则sigmoid函数取值保持在[0,1]。由于司法文本数据中,裁判文书的字段分为:首部(包括标题、案号、法院名称等)、当事人基本信息、原被告律师信息、案情描述信息、本院认为、法院审理查明、判决信息、判决法律依据、结尾(包括审判日期、审判长/审判员等)九个字段,但是首部、结尾、当事人基本信息、原被告律师信息等4项不包含。全局性权值Wglobal(wordij)计算如所示:
其中,m表示词语出现过字段数量,且t≥1,mtotal代表总字段数目。
例如,抚养费一词出现在裁判文书中案情描述信息、本院认为、法院审理查明、判决信息、判决法律依据等5个字段中,sigmoid函数计算结果为0.99334,那么该词的全局性权值si可利用公式(4)计算,计算结果为另外,公式(4)中的mtotal代表总字段数目,但是对于裁判文书,设置为5;对于调解协议书,设置为2。
步骤7:文档词语wordij的总体权值计算:
词语总体权值计算方法:根据标题词权值Wtitle(wordij),全局性权值Wglobal(wordij)、词的TF_IDF归一化值tfidfij_norm进行线性相加,然后再融合初始权值winitial进行计算,采用公式(5)计算,其中公式(5)中涉及到的α+β+γ=1,按照实验结果设置为α=0.5,β=0.25,γ=0.25;
当待提取关键词文档中不含词典标注词,则进入步骤9;否则进入步骤8进行权值排序和关键词筛选;
步骤8:权值排序及关键词筛选:
计算出所有词语权值后,依照权值大小降序排列,将排在前k位的词语作为算法提取到的词语依次输出。本发明中分析的实验结果是统一抽取5个关键词。
最终关键词筛选结果如图5所示;
步骤9:待提取关键词文档中不含词典标注词,则采用词语TF_IDF的归一化值tfidfij_norm,输入TextRank算法构建图模型,更新词的权重,提取关键词。
如果待提取关键词文档中不含词典标注词,那么词语总体权值计算就为0,则选取词语TF_IDF的归一化值tfidfij_norm的方法进行每个词的权重的统计计算,融合TextRank算法计算公式(6),改进的权值更新公式(7)所示。
具体计算步骤如下:
1)预处理部分如步骤4中(1)(2)所述;
2)计算文档中词语的TF_IDF值及其归一化值tfidfij_norm,如步骤5中所述;
3)将每个词语的权重赋予文档中的对应词,再对每个文档进行TextRank处理,得到最终词语权重值,具体计算方法如公式(7)所示;
4)对每个词语权重值进行倒序排列,得到排名前Top k个词语作为文本关键词。
原始的TextRank的无向图模型中,设置每个顶点的入度和出度都是相等的,将文档dj看作是一个图结构,G=(V,E),其中表示图中所有顶点的集合,表示每两个顶点之间所连接的边的集合。在该公式中说明中顶点指的是文档中的词语,则词语wordi的权值计算公式如(6):
其中,wordi为对应给定顶点,In(Vi)是指向该点wordi的所有点的集合,Out(Vq)是从点wordi指出的所有wordq的集合,相应的是顶点wordi到顶点wordq边所连接赋值数,是指顶点wordi所指向它所有边的赋值数的总和。σ为阻尼系数,根据经验一般取值为0.85。
那么文档dj中词语wordi归一化值tfidfij_norm作为TextRank词语输入,融合公式(6)进行权值更新,最终计算公式如(7)所示:
最后,对更新后的词语权重进行倒序排列,得到排名前Top 5个词汇作为文本关键词。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。
Claims (10)
1.一种面向司法文本数据的关键词提取方法,其特征在于,包括如下步骤:
(1)采集并预处理司法文本数据,对司法文本数据进行分词、停用词去除,获取词语;
(2)构建关键词词典,并设置关键词词典标注词初始权值winitial;
(3)利用TF_IDF模型计算文档dj中词语wordi的TF_IDF权重,作归一化处理得到TF_IDF权重归一化值tfidfij_norm;根据词语wordi在文档dj中出现的位置计算标题词权值Wtitle(wordij);利用词语wordi在文档dj中的出现范围计算全局性权值Wglobal(wordij);
(4)基于关键词初始权值winitial、标题词权值Wtitle(wordij)、全局性权重值Wglobal(wordij)、TF_IDF权重归一化值tfidfij_norm计算得到词语wordi在文档dj中的总体权值
(5)计算文档dj所有词语的权重,按照词语的权重大小进行降序排列,将权值排在前k为的词语作为文档dj的关键词。
2.根据权利要求1所述的一种面向司法文本数据的关键词提取方法,其特征在于:所述分词采用司法专业词汇标注表,所述的司法专业词汇标注表通过提取法律相关名称词典和专业词库、组合常规词及人工复检的方法构建。
3.根据权利要求1所述的一种面向司法文本数据的关键词提取方法,其特征在于:所述步骤(2)的具体步骤如下:
(2.1)采集各司法网站的关键词搜索词汇,作为第一词典标注词,并设置该类词典标注词的权重winitial1;
(2.2)统计步骤(1)获取的词语的词频,将词频在设定阈值范围内的词语作为第二词典标注词,并设置该类词典标注词的权重winitial2;
(2.3)将第一词典标注词和第二词典标注词合并,构建关键词词典,如果有重复出现的词典标注词,取较大的权重作为对应词的初始权值winitial。
4.根据权利要求1所述的一种面向司法文本数据的关键词提取方法,其特征在于:所述TF_IDF权重归一化值tfidfij_norm的计算方法如下:
1)设文档集合D,某个文档的词语表示为dj={word1,word2,...,wordN},N表示文档dj中出现词语的个数,wordi是在文档中出现词语,利用TF_IDF方法计算给初始候选关键词的权重公式:
其中,tfij是指词语wordi在文档dj中出现的频率;ni,j是指词语wordi在文档dj中出现的次数;∑knk,j是指词语wordi在文档dj中所有词语的出现次数总和,k表示文档dj内的词语;idfi是指词语wordi的逆向文档数,可用中文件数目除以包含该词语的文件的数目,即|D|表示全部文档的文件总数,|{j:wordi∈dj}|表示包含词语wordi的文件数目(ni,j≠0的文件数目),θ为常量值;
2)将TF_IDF权重进行归一化处理,归一化的权值计算公式如下:
其中,tfidfij_norm为文档dj中某词语wordi的TF_IDF权重进行归一化值;N表示文档dj中出现词语的个数。
5.根据权利要求1所述的一种面向司法文本数据的关键词提取方法,其特征在于:所述步骤(3)中根据词语wordi在文档dj中出现的位置计算标题词权值Wtitle(wordij),具体为,以num个词为单位,建立标题词权值计算公式如下所示:
其中,Titlej表示文档dj标题词集合,docLen(dj)表示文档dj内词语的总数。
6.根据权利要求1所述的一种面向司法文本数据的关键词提取方法,其特征在于:所述步骤(3)中利用词语wordi在文档dj中的出现范围计算全局性权值Wglobal(wordij),具体为,引入sigmoid函数衡量词语在司法文本数据中的全局重要程度,全局性权值计算公式如下所示:
其中,m表示词语出现过字段数量,mtotal代表总字段数目,且t≥1。
7.根据权利要求1所述的一种面向司法文本数据的关键词提取方法,其特征在于:所述词语wordi在文档dj中的总体权值计算方法为:首先将标题词权值Wtitle(wordij),全局性权值Wglobal(wordij)、词的TF_IDF归一化值tfidfij_norm进行线性相加,然后再融合初始权值winitial进行计算,即计算公式如下所示:
其中,α+β+γ=1。
8.根据权利要求1所述的一种面向司法文本数据的关键词提取方法,其特征在于:所述方法还包括步骤(6),若文档dj中不含关键词词典标注词,则采用词语TF_IDF权重归一化值tfidfij_norm,输入TextRank算法构建图模型,得到词语权重值,对每个词语权重值进行倒序排列,得到排名前Top k个词语作为文本关键词。
9.根据权利要求8所述的一种面向司法文本数据的关键词提取方法,其特征在于:所述词语权重值计算方法具体如下:
原始的TextRank的无向图模型中,设置每个顶点的入度和出度都是相等的,将文档dj看作是一个图结构,G=(V,E),其中表示图中所有顶点的集合,表示每两个顶点之间所连接的边的集合;在该公式中说明中顶点指的是文档中的词语,则词语wordi的权值计算公式如下所示:
其中,wordi为对应给定顶点,In(Vi)是指向该点wordi的所有点的集合,Out(Vq)是从点wordi指出的所有wordq的集合,相应的是顶点wordi到顶点wordq边所连接赋值数,是指顶点wordi所指向它所有边的赋值数的总和;σ为阻尼系数;
文档dj中词语worid的TF_IDF权重归一化值tfidfij_norm作为TextRank词语输入,融合公式(6)进行权值更新,最终计算公式如下所示:
10.一种面向司法文本数据的关键词提取系统,其特征在于包括:数据采集模块、数据处理模块、分词处理模块、权重计算模块、关键词提取模块;所述的数据采集模块用于采集司法文本数据和关键词搜索词汇;数据处理模块对采集得到的司法文本数据和关键词搜索词汇表进行结构化处理、去重预处理操作;分词处理模块,用于对司法文本数据进行分词、停用词去除,并统计词频、词语位置;权重计算模块用于计算词语的各类权重值;关键词提取模块用于融合词语的各类权重值,获得最终的权重值,并提取关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910237329.2A CN110059311B (zh) | 2019-03-27 | 2019-03-27 | 一种面向司法文本数据的关键词提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910237329.2A CN110059311B (zh) | 2019-03-27 | 2019-03-27 | 一种面向司法文本数据的关键词提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110059311A true CN110059311A (zh) | 2019-07-26 |
CN110059311B CN110059311B (zh) | 2023-04-28 |
Family
ID=67317491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910237329.2A Active CN110059311B (zh) | 2019-03-27 | 2019-03-27 | 一种面向司法文本数据的关键词提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059311B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457699A (zh) * | 2019-08-06 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 一种停用词挖掘方法、装置、电子设备及存储介质 |
CN110674252A (zh) * | 2019-08-26 | 2020-01-10 | 银江股份有限公司 | 一种面向司法领域的高精度语义搜索系统 |
CN110837601A (zh) * | 2019-10-25 | 2020-02-25 | 杭州叙简科技股份有限公司 | 一种警情的自动分类与预测方法 |
CN110874530A (zh) * | 2019-10-30 | 2020-03-10 | 深圳价值在线信息科技股份有限公司 | 关键词提取方法、装置、终端设备及存储介质 |
CN111489030A (zh) * | 2020-04-09 | 2020-08-04 | 河北利至人力资源服务有限公司 | 一种基于文本分词的离职预测方法及系统 |
CN111597304A (zh) * | 2020-05-15 | 2020-08-28 | 上海财经大学 | 一种中文企业名实体精准识别二次匹配方法 |
CN111611399A (zh) * | 2020-04-15 | 2020-09-01 | 广发证券股份有限公司 | 一种基于自然语言处理的资讯事件图谱化系统及方法 |
CN111639189A (zh) * | 2020-04-29 | 2020-09-08 | 西北工业大学 | 一种基于文本内容特征的文本图构建方法 |
CN111753547A (zh) * | 2020-06-30 | 2020-10-09 | 上海观安信息技术股份有限公司 | 一种用于敏感数据泄露检测的关键词提取方法及系统 |
CN111753048A (zh) * | 2020-05-21 | 2020-10-09 | 高新兴科技集团股份有限公司 | 文档检索方法、装置、设备及存储介质 |
CN111798344A (zh) * | 2020-07-01 | 2020-10-20 | 北京金堤科技有限公司 | 主体名称确定方法和装置、电子设备和存储介质 |
CN112667919A (zh) * | 2020-12-28 | 2021-04-16 | 山东大学 | 一种基于文本数据的个性化社区矫正方案推荐系统及其工作方法 |
CN112989802A (zh) * | 2021-01-28 | 2021-06-18 | 北京信息科技大学 | 一种弹幕关键词提取方法、装置、设备及介质 |
CN112989761A (zh) * | 2021-05-20 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 文本分类方法及装置 |
CN113158659A (zh) * | 2021-02-08 | 2021-07-23 | 银江股份有限公司 | 一种基于司法文本的涉案财物计算方法 |
CN113191922A (zh) * | 2021-04-07 | 2021-07-30 | 北京律联东方文化传播有限公司 | 诉讼决策信息请求处理方法及装置 |
CN113222772A (zh) * | 2021-04-08 | 2021-08-06 | 合肥工业大学 | 本土人格词典构建方法、系统、存储介质以及电子设备 |
CN113377965A (zh) * | 2021-06-30 | 2021-09-10 | 中国农业银行股份有限公司 | 感知文本关键词的方法及相关装置 |
CN113420550A (zh) * | 2021-06-30 | 2021-09-21 | 中国农业银行股份有限公司 | 提取关键词的方法及装置 |
CN113761161A (zh) * | 2021-08-10 | 2021-12-07 | 紫金诚征信有限公司 | 文本关键词提取方法、装置、计算机设备和存储介质 |
CN113761928A (zh) * | 2021-09-09 | 2021-12-07 | 深圳市大数据研究院 | 一种基于词频打分算法获取法律文书案件地点的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064969A (zh) * | 2012-12-31 | 2013-04-24 | 武汉传神信息技术有限公司 | 自动建立关键词索引表的方法 |
WO2017084267A1 (zh) * | 2015-11-18 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种关键词提取方法和装置 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN108280114A (zh) * | 2017-07-28 | 2018-07-13 | 淮阴工学院 | 一种基于深度学习的用户文献阅读兴趣分析方法 |
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN109101477A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种企业领域分类及企业关键词筛选方法 |
-
2019
- 2019-03-27 CN CN201910237329.2A patent/CN110059311B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064969A (zh) * | 2012-12-31 | 2013-04-24 | 武汉传神信息技术有限公司 | 自动建立关键词索引表的方法 |
WO2017084267A1 (zh) * | 2015-11-18 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种关键词提取方法和装置 |
CN108280114A (zh) * | 2017-07-28 | 2018-07-13 | 淮阴工学院 | 一种基于深度学习的用户文献阅读兴趣分析方法 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN109101477A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种企业领域分类及企业关键词筛选方法 |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457699A (zh) * | 2019-08-06 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 一种停用词挖掘方法、装置、电子设备及存储介质 |
CN110457699B (zh) * | 2019-08-06 | 2023-07-04 | 腾讯科技(深圳)有限公司 | 一种停用词挖掘方法、装置、电子设备及存储介质 |
CN110674252A (zh) * | 2019-08-26 | 2020-01-10 | 银江股份有限公司 | 一种面向司法领域的高精度语义搜索系统 |
CN110837601A (zh) * | 2019-10-25 | 2020-02-25 | 杭州叙简科技股份有限公司 | 一种警情的自动分类与预测方法 |
CN110874530A (zh) * | 2019-10-30 | 2020-03-10 | 深圳价值在线信息科技股份有限公司 | 关键词提取方法、装置、终端设备及存储介质 |
CN110874530B (zh) * | 2019-10-30 | 2023-06-13 | 深圳价值在线信息科技股份有限公司 | 关键词提取方法、装置、终端设备及存储介质 |
CN111489030A (zh) * | 2020-04-09 | 2020-08-04 | 河北利至人力资源服务有限公司 | 一种基于文本分词的离职预测方法及系统 |
CN111489030B (zh) * | 2020-04-09 | 2021-10-15 | 河北利至人力资源服务有限公司 | 一种基于文本分词的离职预测方法及系统 |
CN111611399A (zh) * | 2020-04-15 | 2020-09-01 | 广发证券股份有限公司 | 一种基于自然语言处理的资讯事件图谱化系统及方法 |
CN111639189A (zh) * | 2020-04-29 | 2020-09-08 | 西北工业大学 | 一种基于文本内容特征的文本图构建方法 |
CN111639189B (zh) * | 2020-04-29 | 2023-03-21 | 西北工业大学 | 一种基于文本内容特征的文本图构建方法 |
CN111597304A (zh) * | 2020-05-15 | 2020-08-28 | 上海财经大学 | 一种中文企业名实体精准识别二次匹配方法 |
CN111597304B (zh) * | 2020-05-15 | 2023-04-07 | 上海财经大学 | 一种中文企业名实体精准识别二次匹配方法 |
CN111753048A (zh) * | 2020-05-21 | 2020-10-09 | 高新兴科技集团股份有限公司 | 文档检索方法、装置、设备及存储介质 |
CN111753048B (zh) * | 2020-05-21 | 2024-02-02 | 高新兴科技集团股份有限公司 | 文档检索方法、装置、设备及存储介质 |
CN111753547A (zh) * | 2020-06-30 | 2020-10-09 | 上海观安信息技术股份有限公司 | 一种用于敏感数据泄露检测的关键词提取方法及系统 |
CN111753547B (zh) * | 2020-06-30 | 2024-02-27 | 上海观安信息技术股份有限公司 | 一种用于敏感数据泄露检测的关键词提取方法及系统 |
CN111798344A (zh) * | 2020-07-01 | 2020-10-20 | 北京金堤科技有限公司 | 主体名称确定方法和装置、电子设备和存储介质 |
CN111798344B (zh) * | 2020-07-01 | 2023-09-22 | 北京金堤科技有限公司 | 主体名称确定方法和装置、电子设备和存储介质 |
CN112667919A (zh) * | 2020-12-28 | 2021-04-16 | 山东大学 | 一种基于文本数据的个性化社区矫正方案推荐系统及其工作方法 |
CN112989802B (zh) * | 2021-01-28 | 2023-06-20 | 北京信息科技大学 | 一种弹幕关键词提取方法、装置、设备及介质 |
CN112989802A (zh) * | 2021-01-28 | 2021-06-18 | 北京信息科技大学 | 一种弹幕关键词提取方法、装置、设备及介质 |
CN113158659B (zh) * | 2021-02-08 | 2024-03-08 | 银江技术股份有限公司 | 一种基于司法文本的涉案财物计算方法 |
CN113158659A (zh) * | 2021-02-08 | 2021-07-23 | 银江股份有限公司 | 一种基于司法文本的涉案财物计算方法 |
CN113191922A (zh) * | 2021-04-07 | 2021-07-30 | 北京律联东方文化传播有限公司 | 诉讼决策信息请求处理方法及装置 |
CN113222772B (zh) * | 2021-04-08 | 2023-10-31 | 合肥工业大学 | 本土人格词典构建方法、系统、存储介质以及电子设备 |
CN113222772A (zh) * | 2021-04-08 | 2021-08-06 | 合肥工业大学 | 本土人格词典构建方法、系统、存储介质以及电子设备 |
CN112989761A (zh) * | 2021-05-20 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 文本分类方法及装置 |
CN113377965B (zh) * | 2021-06-30 | 2024-02-23 | 中国农业银行股份有限公司 | 感知文本关键词的方法及相关装置 |
CN113420550A (zh) * | 2021-06-30 | 2021-09-21 | 中国农业银行股份有限公司 | 提取关键词的方法及装置 |
CN113420550B (zh) * | 2021-06-30 | 2024-03-01 | 中国农业银行股份有限公司 | 提取关键词的方法及装置 |
CN113377965A (zh) * | 2021-06-30 | 2021-09-10 | 中国农业银行股份有限公司 | 感知文本关键词的方法及相关装置 |
CN113761161A (zh) * | 2021-08-10 | 2021-12-07 | 紫金诚征信有限公司 | 文本关键词提取方法、装置、计算机设备和存储介质 |
CN113761928A (zh) * | 2021-09-09 | 2021-12-07 | 深圳市大数据研究院 | 一种基于词频打分算法获取法律文书案件地点的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110059311B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059311A (zh) | 一种面向司法文本数据的关键词提取方法及系统 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN106997382B (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
Sugathadasa et al. | Synergistic union of word2vec and lexicon for domain specific semantic similarity | |
CN109960756B (zh) | 新闻事件信息归纳方法 | |
CN108197117A (zh) | 一种基于文档主题结构与语义的中文文本关键词提取方法 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
US20110093257A1 (en) | Information retrieval through indentification of prominent notions | |
CN1687924A (zh) | 互联网人物信息搜索引擎的生成方法 | |
CN106682149A (zh) | 一种基于元搜索引擎的标签自动生成方法 | |
Chandra et al. | A statistical approach for automatic text summarization by extraction | |
Al-Taani et al. | An extractive graph-based Arabic text summarization approach | |
Ramprasath et al. | A survey on question answering system | |
CN109446313B (zh) | 一种基于自然语言分析的排序系统及方法 | |
Kanapala et al. | Passage-based text summarization for legal information retrieval | |
CN106126501B (zh) | 一种基于依存约束和知识的名词词义消歧方法和装置 | |
Chang et al. | A hybrid approach to automatic text summarization | |
CN107818078B (zh) | 汉语自然语言对话的语义关联与匹配方法 | |
KR101265467B1 (ko) | 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법 | |
Biswas et al. | Text summarization: a review | |
CN114443934A (zh) | 一种基于大数据的相关法律推荐方法 | |
Blair-Goldensohn et al. | A hybrid approach for answering definitional questions | |
Halterman | Extracting political events from text using syntax and semantics | |
MalarSelvi et al. | Analysis of Different Approaches for Automatic Text Summarization | |
Yu et al. | A study on cross-language text summarization using supervised methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Applicant after: Yinjiang Technology Co.,Ltd. Address before: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Applicant before: ENJOYOR Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |