CN108776653A - 一种基于PageRank和信息熵的裁判文书的文本分词方法 - Google Patents

一种基于PageRank和信息熵的裁判文书的文本分词方法 Download PDF

Info

Publication number
CN108776653A
CN108776653A CN201810534689.4A CN201810534689A CN108776653A CN 108776653 A CN108776653 A CN 108776653A CN 201810534689 A CN201810534689 A CN 201810534689A CN 108776653 A CN108776653 A CN 108776653A
Authority
CN
China
Prior art keywords
word
text
pagerank
comentropy
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810534689.4A
Other languages
English (en)
Inventor
葛季栋
李传艺
李振昊
雷妙妙
姚林霞
周筱羽
骆斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201810534689.4A priority Critical patent/CN108776653A/zh
Publication of CN108776653A publication Critical patent/CN108776653A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于PageRank和信息熵的裁判文书的文本分词方法,该发明属于自然语言处理领域中的中文分词技术,主要采用了改进的PageRank算法、信息熵、互信息以及关键词词典对中文文本进行分词。本发明针对法律领域的裁判文书,在PageRank算法基础上建立了分词方法,根据Rank向量切分候选词,并利用信息熵对候选词进行修正,再依据裁判文书的关键词词典做术语合并,最终输出分词结果,该方法能够较为准确地对裁判文书进行分词。本发明与现有方法相比,其显著优点是:不需要通过大量文本语料库进行统计或训练以建立大规模的词典,仅对输入文本进行统计,将输入文本作为现有语料库进行统计挖掘,最终结合裁判文书的关键词术语词典即可完成分词。

Description

一种基于PageRank和信息熵的裁判文书的文本分词方法
技术领域
本发明属于自然语言处理技术领域中的中文分词技术,是用于针对法律文书进行中文分词的技术。
背景技术
分词是指将已有的文本切分成为一个个分开的、单独的、有意义的单元。中文分词是指将一个连续的 汉字序列切分成单独的词,使之成为符合语义的、可读的词序列。汉语相比于英文,词与词之间没有明确 的分隔符作为切分的依据,因此,在分词方面,中文分词的难度要更高于其他语言。而分词算法产生的分 词结果,也将直接影响到上层的应用效果,如词性标注、关键词提取等。因此,如何使计算机理解中文文 本段,进行准确分词而为上层的文本处理应用提供支持就是中文分词最难以解决的问题。
目前,中文分词最常用的主要方法有:基于词典的字符串匹配方法、基于规则的分词方法和基于统计 的分词方法。
(1)基于词典的字符串匹配方法主要是通过扫描查找出输入文本中存在于词典里的词,并以此作为依 据进行分词。基于词典的匹配方法通过正向/逆向匹配词典,得到所有在词典中出现过的词,并依照最长/ 最短词匹配的原则,生成分词文本。但是这种方法较为依赖分词词典,必须对词典保持持续更新以获得较 好效果,同时词典的建立需要总结大量文本语料库,较为耗费时间。对于新词识别以及歧义的问题,该方 法并不能很好地解决。
(2)基于规则的方法是指总结语言的语法与语义,模拟人理解文本的过程进行分词。该方法在于判断 词性、语义,并按照建立好的规则库匹配得到符合语法语义的分词文本。但是这种方法需要大量语义学知 识,并以此为基础建立规则库。由于汉语的复杂性,且部分文本中语言的使用不严格遵循语法规则,因此 该方法对于汉语分词效果并不是特别理想。
(3)基于统计的分词方法是指统计词出现的频率、频次以及其它特征,以此作为依据进行分词。比较 著名的方法有隐形马尔科夫模型、条件随机场等。统计学方法通过统计词在语料库中的出现频率、字与字 之间的共现频率等作为是否能够成词的依据。近几年机器学习技术使得很多基于统计的机器学习方法取得 不错的效果,尤其是在歧义消除和新词发现方面。基于统计的分词方法不需要额外的词典,而是仅对语料 库中的字组进行统计。但是,该方法有时会抽取出一些频次高却无语义的词。而且,基于统计的机器学习 方法也需要准备大量人工标记的数据集以进行训练。
本发明结合了以上三种方法进行文本分词,主要实现方式为:基于规则对文本进行预处理;基于统计 学方法计算词的Rank值、信息熵、互信息进行分词;基于关键词词典对专业术语进行合并。
在法律方面,法律文书一般具有较高的结构性,裁判文书的撰写依照严格的格式要求进行。但是,在 法律文书中存在大量的地名、人名、机构名以及其它特殊名称,因此,如何对这些特殊词进行识别也是一 个难题。同时,由于法律文书中经常会用到一些专用的术语,例如“夫妻共同财产”、“人民陪审员”、“肇事 逃逸罪”等。这些术语由多个常用短词共同组合而成,传统的分词方法往往会将此类术语拆分成为“夫妻/ 共同/财产”、“人民/陪审员”、“肇事/逃逸罪”,而实际上这些词语并不应该在分词过程中被拆分。
发明内容
本发明要解决的技术问题是:提供一种基于PageRank的中文文书分词方法,该方法不仅能有效识别 文本之间的术语以及特殊词,而且不需要对模型以大规模语料库或数据集进行统计训练,所统计识别的范 围仅在于输入文本,仅需要针对小范围术语建立关键词词典即可提升领域术语识别的效果。
本发明的技术方案为:基于PageRank的中文文书分词方法,首先通过对输入文本进行预处理,提取 出标点符号、英文、数字以及特殊模式(日期、金额等),保留余下的中文字符序列;然后计算所有潜在 词的特征,主要有PageRank值、信息熵和互信息;最终根据潜在词的PageRank值选出候选词,根据信息 熵对候选词修正,再匹配关键词词典得到最终的分词序列。该方法引入PageRank算法使得分词工作不需 要依赖外部大量的语料,该分词方法整体流程如图1所示。包含以下步骤(如图10所示):
步骤(1)读取输入文本,以标点符号、数字以及英文字母作为分隔符进行切分,得到文本中的全部 汉字,再过滤去除词长只有1的字,得到一个字符串列表S;
步骤(2)对于S中的每一个字符串Si的长度不超过k(k=6)的子串Ssub(潜在词),计算Ssub在文本中 的频率,计算Ssub的左右信息熵Hl,Hr以及互信息I(Ssub);
步骤(3)调用PageRank计算过程:获得所有字符串Ssub间的包含关系矩阵A和初试Rank向量R并 迭代n(n=10)次计算出Rank得分;
步骤(4)将步骤(1)中提取出的分隔符,以及S中符合特殊模式的词(如日期、法律条目、金额等) 进行提前分割;
步骤(5)根据步骤(3)得到的Rank得分向量R对文书剩余文字部分进行切分,得到一个词列表W;
步骤(6)根据步骤(2)中计算的信息熵对步骤(5)得到的候选切分结果W进行修正,得到修正后 的分词列表Wr
步骤(7)读取已有的词典D,对于步骤(6)修正后的结果Wr中的每两个相邻词wi,wi+1,合并D中 存在的术语,得到术语合并后的词列表Wrd
步骤(8)根据Wrd和给定分隔符o,返回最终分词结果。
在以上的流程中,PageRank的计算过程步骤如下:
步骤(3.1)根据计算的互信息值建立潜在词的Rank列向量的初始值R0
步骤(3.2)遍历所有Ssub,建立所有潜在词之间的包含关系矩阵A,若存在Ssub1是Ssub2的子串,则 否则
步骤(3.3)迭代u(u=10)次计算所有潜在词的PageRank,迭代公式为:
R=c1AR+c2(RTA)T,(c1=1,c2=0.01)。
根据Rank得分切分出候选词的过程步骤如下:
步骤(5.1)首先,通过设立大小为t(t=5)的滑动窗口,在滑动窗口内取出最大PageRank值的词作为候 选词,直至滑动窗口滑至底部。分别正向和逆向切分,可以得到两个词列表Wf和Wb
步骤(5.2)比较Wf和Wb中不同的切分部分,对每一部分取出最大PageRank值的词作为候选词,并 继续对该词左右部分递归应用全局最大值切分直至所有剩余部分长度不大于2。
在步骤(2)中,需要计算潜在词的左右信息熵Hl和Hr以及互信息I(Ssub),具体的计算公式为:
其中X为某个潜在词,XL和XR分别为潜在词X的左右临近字集合,P(x)为字x在临近字集合中出现 的概率。
互信息的计算公式为:
其中w为某个潜在词,(X,Y)为w的划分集合,使得w=xy,P(x,y)为xy在文本中共现的频率,也就是 w出现的频率。
在步骤(3)中,本发明对PageRank算法进行了改进,以适用于文本分词。其中有向图模型的建立方 法如下:
将每一个候选词视为一个节点。对任意两个候选词s1,s2(s1≠s2),存在一条从s1到s2的链当且仅当s1是s2的子串(见图11)。如果某个候选词具有多个入链,则说明该候选词更容易被“引用”,也就更可能 是一个有意义的词。同时,考虑到多个短词组成的长词术语问题,若某一个候选词具有多个出链指向的分 别是Rank值高的短候选词,则这个长词也很有可能是有意义的术语。因此本发明中的PageRank算法加入 了短词对长词的Rank值反馈。对某个候选词的Rank值定义如下:
其中u代表某个候选词节点,Fu表示u指向的候选词集合,Bu表示指向u的候选词集合。Nu=|Fu|表示 u指向的候选词个数(也就是出链个数),Mu=|Bu|表示指向u的候选词个数(也就是入链个数),c1和c2是反馈系数。
在步骤(4)中预分割的过程中,首先以正则匹配的方式将标点符号、数字、英文字母以及日期金额 等模式预先提取出来,直接产生关于这些模式的匹配,并进行提前分割,不参与后续文书分词。其具体的 匹配模式与分割模式如下:
(1)标点符号单独分割。例如:判处拘役五个月/,/并处罚金2000元人民币;
(2)时间、金额小粒度分割。例如:二零一五年/十二月/二十四日,2015年/12月/24日,2000元/人 民币;
(3)法律条款条目按每个款项分割。例如:第一百四十五条/第三款,昆民初字/第4XXX号;
(4)其余英文字母与数字分割最长串。例如:车牌号/B12XXXX。
在步骤(6)中的修正过程中,主要合并独立的字以及分裂无意义的两字词。对于某个单个字c,记其 前候选词为p,后候选词为n,若能满足HL(pc)+HR(pc)>HL(p)+HR(p)或HL(cn)+HR(cn)>HL(n)+HR(n),则说明 合并c会使新词的信息熵增加,那么新词则有可能是应合并的词。此时根据左右信息熵最大的原则进行合 并。对于某个两字词c1c2,尝试将其分裂,并将c1,c2,分别作为单字应用单字合并原则。即若HL(pc1)+HR(pc1)> HL(p)+HR(p)或HL(c2n)+HR(c2n)>HL(n)+HR(n),则认为该两字词是无意义的,应该将其分裂合并到相邻词。
根据本发明内容,我们已经开发出了可视化分词系统“一种基于PageRank和信息熵的裁判文书的文本 分词系统”。该可视化分词系统能够从输入的法律文书中,计算出词特征,并可视化输出已分词完成的文 书。
本发明的有益效果是:该方法不仅能有效识别文本之间的术语以及特殊词,而且不需要对模型以大规 模语料库或数据集进行统计训练。由于引入了改进的PageRank算法,该方法在保证分词准确率的基础上, 仅需要专业关键词(不超过500KB)的帮助即可分词,大大减少了分词所需的准备资源。而且,若要移植 到除法律之外的领域分词,仅需要更换相应的关键词词典,具有较好的可扩展性。该方法第一次关注了少 语料甚至是无语料基础下的分词,着重于发掘分词输入文本本身的词语特征。
附图说明
图1为基于PageRank的文本分词方法的流程图。
图2为法律文书示例。
图3为实例过滤后的文本列表。
图4为实例“人民法院”的包含关系矩阵。
图5为实例预分割后的文本结果。
图6为句子“江苏省泰兴市人民法院”根据PageRank正向匹配的过程与结果。
图7为句子“江苏省泰兴市人民法院”正逆向切分结果匹配的过程。
图8为本发明实例中对输入文本的最终分词结果。
图9为根据实例的输入文本,运用工具展现的可视化分词结果。
图10为基于PageRank的文本分词方法流程
图11为入链出链关系
图12为“原告钱某某”的所有潜在词的信息熵和互信息值
具体实施方式
本发明主要是使用改进的PageRank算法建立潜在词之间包含关系的图模型,并以此计算所有潜在词 的Rank值以及结合了信息熵和互信息进行分词,本发明加入了关键词词典以更好地适配不同领域的术语。 该分词方法整体流程如图1所示。其具体实施步骤如下:
1.该方法的主要流程如图10上半部分所示。
步骤(1),读取输入文本,以标点符号、数字以及英文字母作为分隔符进行切分,得到文本中的全 部汉字,再过滤去除词长只有1的字,得到一个字符串列表S;
步骤(2),对于S中的每一个字符串Si的长度不超过k(k=6)的子串Ssub(潜在词),计算Ssub在文本 中的频率,计算Ssub的左右信息熵Hl,Hr以及互信息I(Ssub);
步骤(3),调用PageRank计算过程:获得所有字符串Ssub间的包含关系矩阵A和初试Rank向量R 并迭代n(n=10)次计算出Rank得分;
步骤(4),将步骤(1)中提取出的分隔符,以及S中符合特殊模式的词(如日期、法律条目、金额 等)进行提前分割;
步骤(5),根据步骤(3)得到的Rank得分向量R对文书剩余文字部分进行切分,得到一个词列表 W;
步骤(6),根据步骤(2)中计算的信息熵对步骤(5)得到的候选切分结果W进行修正,得到修正 后的分词列表Wr
步骤(7),读取已有的词典D,对于(6)修正后的结果Wr中的每两个相邻词wi,wi-1,合并D中存在 的术语,得到术语合并后的词列表Wrd
步骤(8),根据Wrd和给定分隔符o,返回最终分词结果。
2.该方法的PageRank计算过程如图10下半部分所示。
步骤(31),根据计算的互信息值建立潜在词的Rank列向量的初始值R0
步骤(3.2),遍历所有Ssub,建立所有潜在词之间的包含关系矩阵A,若存在Ssub1是Ssub2的子串,则 否则
步骤(3.3),迭代u(u=10)次计算所有潜在词的PageRank,迭代公式为:
R=c1AR+c2(RTA)T,(c1=1,c2=0.01)。
下面通过具体的实例来说明本发明的实施流程。
本发明的实例将以图2中的法律文书作为输入文本进行分词,为保护隐私,对其中涉及人名、案号、 日期等信息以″XX″替代。
对于该实例,我们将采用如下步骤实施该方法:
步骤(1),读取输入文本,以标点符号、数字以及英文字母作为分隔符进行切分,得到文本中的全 部汉字,再过滤去除词长只有1的字,得到一个字符串列表S(如图3)。
步骤(2),对于S中的每一个字符串Si的长度不超过k(k=6)的子串Ssub(潜在词),计算Ssub在文本 中的频率,计算Ssub的左右信息熵Hl,Hr以及互信息I(Ssub),如图12显示计算得到的部分结果。
步骤(3),调用PageRank计算过程:获得所有字符串Ssub间的包含关系矩阵A和初试Rank向量R 并迭代n(n=10)次计算出Rank得分,其具体过程如下:
步骤(3.1),根据计算的互信息值建立潜在词的Rank列向量的初始值R0
步骤(3.2)遍历所有Ssub,建立所有潜在词之间的包含关系矩阵A,若存在Ssub1是Ssub2的子串,则 否则为方便分析,如图4展示了以字符串“人民法院”为例的关系矩阵A;
步骤(3.3),迭代u(u=10)次计算所有潜在词的PageRank,迭代公式为:
R=c1AR+c2(RTA)T,(c1=1,c2=0.01)。
步骤(4),将步骤(1)中提取出的分隔符(包括空格),以及S中符合特殊模式的词(如日期、法 律条目、金额等)进行提前分割,得到如图5的结果。
步骤(5),根据步骤(3)得到的Rank得分向量R对文书剩余文字部分进行切分,得到一个词列表 W。其具体过程为:
步骤(5.1)正向逆向切分:首先,通过设立大小为t(t=5)的滑动窗口,在滑动窗口内取出最大PageRank 值的词作为候选词,直至滑动窗口滑至底部。可以得到正向和逆向两个词列表Wf和Wb
步骤(5.2)全局最大值切分:比较Wf和Wb中不同的切分部分,对每一部分取出最大PageRank值的 词作为候选词,并继续对该词左右部分递归应用全局最大值切分直至所有剩余部分长度不大于2。
为方便示意,图6和图7以句子“江苏省泰兴市人民法院”为例展示了切分过程。
步骤(6),根据步骤(2)中计算的信息熵对(5)得到的候选切分结果W进行修正,得到修正后的 分词列表Wr
步骤(7),读取已有的词典D,对于(6)修正后的结果Wr中的每两个相邻词wi,wi+1,合并D中存在 的术语,得到术语合并后的词列表Wrd
步骤(8),第8步,根据Wrd和给定分隔符o,返回最终分词结果,如图8所示。
以上步骤获得了分词完成的文本N,通过我们建立的基于PageRank和信息熵的裁判文书的文本分词 系统可以看到最终结果,如图9所示。

Claims (3)

1.基于PageRank的文本分词方法,其特征是基于PageRank算法计算文本的Rank值并结合词的信息熵、互信息以及法律领域常用术语组成的词典进行分词,它以待分词文本为输入,以用特定分隔符分隔的相应文本为输出结果;该方法具体包含以下步骤:
步骤(1)预处理:读取输入文本,以标点符号、数字以及英文字母作为分隔符进行切分,得到文本中的全部汉字,再过滤去除词长只有1的字,得到一个字符串列表S;
步骤(2)特征计算:对于S中的每一个字符串Si的长度不超过k(k=6)的子串Ssub(潜在词),计算Ssub在文本中的频率,计算Ssub的左右信息熵Hl,Hr以及互信息I(Ssub);
步骤(3)调用PageRank计算过程:获得所有字符串Ssub间的包含关系矩阵A和初试Rank向量R并迭代n(n=10)次计算出Rank得分;
步骤(4)文书提前分割:将步骤(1)中提取出的分隔符,以及S中符合特殊模式的词(如日期、法律条目、金额等)进行提前分割;
步骤(5)候选词切分:根据步骤(3)得到的Rank得分向量R对文书剩余文字部分进行切分,得到一个词列表W;
步骤(6)分词修正:根据步骤(2)中计算的信息熵对(5)得到的候选切分结果W进行修正,得到修正后的分词列表Wr
步骤(7)术语合并:读取已有的词典D,对于步骤(6)修正后的结果Wr中的每两个相邻词wi,wi+1,合并D中存在的术语,得到术语合并后的词列表Wrd
步骤(8)生成分词文本:根据Wrd和给定分隔符o,返回最终分词结果。
2.对步骤(3)具体细化,包括以下步骤:
步骤(3.1)根据(2)中计算的互信息值建立潜在词的Rank列向量的初始值R0
步骤(3.2)遍历所有Ssub,建立所有潜在词之间的包含关系矩阵A,若存在Ssub1是Ssub2的子串,则否则
步骤(3.3)迭代u(u=10)次计算所有潜在词的PageRank,迭代公式为:
R=c1AR+c2(RTA)T,(c1=1,c2=0.01)。
3.对步骤(5)具体细化,包括以下步骤:
步骤(5.1)正向逆向切分:首先,通过设立大小为t(t=5)的滑动窗口,在滑动窗口内取出最大PageRank值的词作为候选词,直至滑动窗口滑至底部。可以得到正向和逆向两个词列表Wf和Wb
步骤(5.2)全局最大值切分:比较Wf和Wb中不同的切分部分,对每一部分取出最大PageRank值的词作为候选词,并继续对该词左右部分递归应用全局最大值切分直至所有剩余部分长度不大于2。
CN201810534689.4A 2018-05-25 2018-05-25 一种基于PageRank和信息熵的裁判文书的文本分词方法 Pending CN108776653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810534689.4A CN108776653A (zh) 2018-05-25 2018-05-25 一种基于PageRank和信息熵的裁判文书的文本分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810534689.4A CN108776653A (zh) 2018-05-25 2018-05-25 一种基于PageRank和信息熵的裁判文书的文本分词方法

Publications (1)

Publication Number Publication Date
CN108776653A true CN108776653A (zh) 2018-11-09

Family

ID=64028128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810534689.4A Pending CN108776653A (zh) 2018-05-25 2018-05-25 一种基于PageRank和信息熵的裁判文书的文本分词方法

Country Status (1)

Country Link
CN (1) CN108776653A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710087A (zh) * 2018-12-28 2019-05-03 北京金山安全软件有限公司 输入法模型生成方法及装置
CN109766539A (zh) * 2018-11-30 2019-05-17 平安科技(深圳)有限公司 标准词库分词方法、装置、设备及计算机可读存储介质
CN110516124A (zh) * 2019-08-09 2019-11-29 济南浪潮数据技术有限公司 一种文件解析方法、装置和计算机可读存储介质
CN111353020A (zh) * 2020-02-27 2020-06-30 北京奇艺世纪科技有限公司 挖掘文本数据的方法、装置、计算机设备和存储介质
CN111444716A (zh) * 2020-03-30 2020-07-24 深圳市微购科技有限公司 标题分词方法、终端及计算机可读存储介质
CN113157929A (zh) * 2020-12-30 2021-07-23 龙马智芯(珠海横琴)科技有限公司 一种新词挖掘方法、装置、服务器及计算机可读存储介质
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113392189A (zh) * 2021-08-17 2021-09-14 东华理工大学南昌校区 基于自动分词的新闻文本处理方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002079872A2 (en) * 2001-02-16 2002-10-10 The Trustess Of Princeton University Methods of ab initio prediction of alpha helices, beta sheets, and polypeptide tertiary structures
CN101354712A (zh) * 2008-09-05 2009-01-28 北京大学 中文术语自动提取系统及方法
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN104063387A (zh) * 2013-03-19 2014-09-24 三星电子(中国)研发中心 在文本中抽取关键词的装置和方法
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
CN106649849A (zh) * 2016-12-30 2017-05-10 上海智臻智能网络科技股份有限公司 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN106815205A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 裁判文书的分段方法及装置
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN107329950A (zh) * 2017-06-13 2017-11-07 武汉工程大学 一种基于无词典的中文地址分词方法
CN107341188A (zh) * 2017-06-08 2017-11-10 广州市呼百应网络技术股份有限公司 基于语义分析的高效数据筛选方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002079872A2 (en) * 2001-02-16 2002-10-10 The Trustess Of Princeton University Methods of ab initio prediction of alpha helices, beta sheets, and polypeptide tertiary structures
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
CN101354712A (zh) * 2008-09-05 2009-01-28 北京大学 中文术语自动提取系统及方法
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN104063387A (zh) * 2013-03-19 2014-09-24 三星电子(中国)研发中心 在文本中抽取关键词的装置和方法
CN106815205A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 裁判文书的分段方法及装置
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
CN106649849A (zh) * 2016-12-30 2017-05-10 上海智臻智能网络科技股份有限公司 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN107341188A (zh) * 2017-06-08 2017-11-10 广州市呼百应网络技术股份有限公司 基于语义分析的高效数据筛选方法
CN107329950A (zh) * 2017-06-13 2017-11-07 武汉工程大学 一种基于无词典的中文地址分词方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SONGJIAN CHEN: "A Simple and Effective Unsupervised Word Segmentation Approach", 《PROCEEDINGS OF THE TWENTY-FIFTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
YING HONG等: "Study on Term Weight Calculation Based on Information Gain and Entropy", 《STUDY ON TERM WEIGHT CALCULATION BASED ON INFORMATION GAIN AND ENTROPY》 *
张立邦: "基于半监督学习的中文电子病历分词和名实体挖掘", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766539A (zh) * 2018-11-30 2019-05-17 平安科技(深圳)有限公司 标准词库分词方法、装置、设备及计算机可读存储介质
CN109710087A (zh) * 2018-12-28 2019-05-03 北京金山安全软件有限公司 输入法模型生成方法及装置
CN110516124A (zh) * 2019-08-09 2019-11-29 济南浪潮数据技术有限公司 一种文件解析方法、装置和计算机可读存储介质
CN110516124B (zh) * 2019-08-09 2022-04-22 济南浪潮数据技术有限公司 一种文件解析方法、装置和计算机可读存储介质
CN111353020A (zh) * 2020-02-27 2020-06-30 北京奇艺世纪科技有限公司 挖掘文本数据的方法、装置、计算机设备和存储介质
CN111353020B (zh) * 2020-02-27 2023-06-30 北京奇艺世纪科技有限公司 挖掘文本数据的方法、装置、计算机设备和存储介质
CN111444716A (zh) * 2020-03-30 2020-07-24 深圳市微购科技有限公司 标题分词方法、终端及计算机可读存储介质
CN113157929A (zh) * 2020-12-30 2021-07-23 龙马智芯(珠海横琴)科技有限公司 一种新词挖掘方法、装置、服务器及计算机可读存储介质
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113377965B (zh) * 2021-06-30 2024-02-23 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113392189A (zh) * 2021-08-17 2021-09-14 东华理工大学南昌校区 基于自动分词的新闻文本处理方法

Similar Documents

Publication Publication Date Title
CN108776653A (zh) 一种基于PageRank和信息熵的裁判文书的文本分词方法
CN110968699B (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN106649597B (zh) 一种基于图书内容的图书书后索引自动构建方法
CN105426360B (zh) 一种关键词抽取方法及装置
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN106484664A (zh) 一种短文本间相似度计算方法
CN107180025B (zh) 一种新词的识别方法及装置
CN108121829A (zh) 面向软件缺陷的领域知识图谱自动化构建方法
CN106776562A (zh) 一种关键词提取方法和提取系统
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN108363725B (zh) 一种用户评论观点提取和观点标签生成的方法
CN109543178A (zh) 一种司法文本标签体系构建方法及系统
JP5754019B2 (ja) 同義語抽出システム、方法およびプログラム
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN108845982A (zh) 一种基于词的关联特征的中文分词方法
EP3483747A1 (en) Preserving and processing ambiguity in natural language
CN106909611A (zh) 一种基于文本信息抽取的酒店自动匹配方法
CN110175585A (zh) 一种简答题自动批改系统及方法
CN104317783B (zh) 一种语义关系密切度的计算方法
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN112148886A (zh) 一种内容知识图谱的构建方法及系统
CN114997288A (zh) 一种设计资源关联方法
CN111737420A (zh) 一种基于争议焦点的类案检索方法及系统及装置及介质
CN108319584A (zh) 一种基于改进FP-Growth算法的微博类短文本的新词发现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181109

WD01 Invention patent application deemed withdrawn after publication