CN103970733B - 一种基于图结构的中文新词识别方法 - Google Patents

一种基于图结构的中文新词识别方法 Download PDF

Info

Publication number
CN103970733B
CN103970733B CN201410143875.7A CN201410143875A CN103970733B CN 103970733 B CN103970733 B CN 103970733B CN 201410143875 A CN201410143875 A CN 201410143875A CN 103970733 B CN103970733 B CN 103970733B
Authority
CN
China
Prior art keywords
neologisms
alternative
word
occurrence rate
backward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410143875.7A
Other languages
English (en)
Other versions
CN103970733A (zh
Inventor
陈海强
程军军
周欣
武嘉怡
陈薇
王腾蛟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
China Information Technology Security Evaluation Center
Original Assignee
Peking University
China Information Technology Security Evaluation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, China Information Technology Security Evaluation Center filed Critical Peking University
Priority to CN201410143875.7A priority Critical patent/CN103970733B/zh
Publication of CN103970733A publication Critical patent/CN103970733A/zh
Application granted granted Critical
Publication of CN103970733B publication Critical patent/CN103970733B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于图结构的中文新词识别方法,其步骤包括:1)根据词之间的邻接关系将文档集抽象成有权有向图;2)遍历所述有权有向图的所有点,基于共现率选出每一个点的备选新词;3)对所述备选新词进行路径拓展,找到共现率始终大于阈值的最大权值路径,从而得到完整的备选新词;4)根据信息熵对所述完整的备选新词进行过滤,得到最终的备选新词集合。本发明首次提出了将文档集抽象为图结构进行新词发现和识别的方法,将新词发现问题转化为在有向有权图上的最大权重路径寻找问题,很好地利用了图的特点,是一种时间复杂度较低、召回率和准确率都较高的新词发现和识别方法。

Description

一种基于图结构的中文新词识别方法
技术领域
本发明与自然语言处理相关,涉及中文信息处理领域,是一种利用共现率和信息熵的基于图的新词识别方法,能够对新的长词进行精确识别。
背景技术
根据商务印书馆出版的《现代汉语常用词表》,当今社会经常使用的词共有5万多个。但是随着社会的不断发展,尤其是互联网的快速发展,不断创造出现新的词语。一方面,这些词都伴随特殊事件的发生而诞生并爆发式流行,是大众讨论的热点词语,往往包含了大众对时事的态度,使得这些新词本身具有很重要的分析价值;另一方面,在中文信息处理领域,由于中文自身的特点,它不像英文那样在词与词之间有空格间隔,因此,中文自动分词是一项很重要的基础工作。但是这些新词无法被已有的中文分词系统应用,导致不准确的分词结果,进一步影响到基于分词结果的其他分析结果。这些原因使得新词发现和识别技术具有重要的意义。
新词发现方法主要有基于规则和基于统计两种方法。基于规则的方法主要根据新词的构词特征或外型特点建立规则库、专业词库或模式库,然后通过规则匹配发现新词。基于统计的方法则是利用统计策略提取出候选串,然后再利用其他语言信息排除不是新词的垃圾串。
目前与新词发现算法的相关成果较多。郑家恒,李文花在“基于构词法的网络新词自动识别初探”(山西大学学报:自然科学版,2002,25(2):115-119)中完全采用规则的方式识别新词。使用n元递增模型扫描文档提取候选字串,然后使用通用构词规则、特殊构词规则以及互斥字串规则对候选字串进行过滤与召回来获得新词。但是规则构造代价复杂并且受领域限制。Chen A在其文章“Chinese word segmentation using minimal linguisticknowledge”(Proceedings of the second SIGHAN workshop on Chinese languageprocessing-Volume17.Association for Computational Linguistics,2003:148-151)中使用构词规则来提取词头、词缀以及特殊字符的集合,用来识别专有名词和数字,但该方法只对简单命名实体识别有效。Peng F的“Chinese segmentation and new word detectionusing conditional random fields”(Proceedings of The20th InternationalConference on Computational Linguistics COLING2004)完全采用统计的方法,基于字符位置的标记方法训练CRF模型,将可信度高于阈值的词作为新词。这种方法过度依赖于训练集的标注,不适用于语言结构多变的网络数据。以上文献均是具有代表性的新词发现/识别算法,都从一定的角度完成了对新词发现的需求,但他们都不适合结构多变的网络数据,并且因为需要确定词的长度,所以无法识别长词。
发明内容
本发明针对新词发现和识别问题,克服上述现有相应方法存在的不足,提出一种时间复杂度较低、召回率和准确率都较高的新词发现方法,以辅助优化中文分词结果。
本方法将文档集抽象为有权有向图结构,通过遍历寻找图结构上的路径作为候选词,然后根据信息熵对候选词进行过滤得到新词。这种方法能够在词个数的近线性时间复杂度内识别出文档新词,而且能够准确识别新长词。本发明首次提出这种新词发现方法。
本发明的技术方案为:
一种基于图结构的中文新词识别方法,其步骤包括:
1)根据词之间的邻接关系将文档集抽象成有权有向图;
2)遍历所述有权有向图的所有点,基于共现率选出每一个点的备选新词;
3)对所述备选新词进行路径拓展,找到共现率始终大于阈值的最大权值路径,从而得到完整的备选新词;
4)根据信息熵对所述完整的备选新词进行过滤,得到最终的备选新词集合。
进一步地,在步骤1)之前对所述文档集进行分词预处理,如果有分词程序,则直接进行分词,否则默认将每一个字划分为一个词。
进一步地,在步骤3)之后调整图权重,根据生成的最大权重路径,将两个图中所有包含的点和边减去路径上的最小边权重,使已挖掘的新词权重降低,避免高频词掩盖低频新词的情况。
进一步地,在步骤3)之后进行备选新词词频过滤,过滤备选新词中词频小于阈值的新词,然后进行步骤4)所述根据信息熵进行的过滤。
进一步地,步骤4)在得到最终的备选新词集合后,按照词频对备选新词进行排序。
下面具体说明上述各步骤的实施方法:
a)将文档集抽象成有权有向图
构建两个空图:顺序图Glr和逆序图Grl;
遍历文档集,将文档集中每一个词抽象成词图中所有的点,然后根据词的出现频次对点进行赋值;
根据词的邻接关系构建词图中所有的边,根据自左向右的邻接关系构建顺序图,根据自右向左的邻接关系构建了逆序图,并根据关系出现的频次为边赋权。
b)遍历图的所有点,选出备选新词
对于每个点,尝试将其对应词作为新词起点,在Glr里找到该点,遍历它的所有出度,从中找到权重最大的一条边,计算最大顺序共现率:共现率=边权重/点权重。如果最大顺序共现率大于阈值Q,则将该边记录为顺序备选新词,并进行步骤4)的新词拓展。阈值Q的值根据用户需求设定,较大的Q表示更严格的筛选条件,拥有更高的准确率但召回率较低,反之亦然。Q的优选取值是0.5,即保证两个词连续出现的概率超过50%以上。
同样的,在Grl里找到该点,遍历它的所有入度,找到权重最大的一条边,计算最大逆序共现率。如果最大逆序共现率超过阈值Q,则将对应的边记录为逆序备选新词,并对该备选新词进行步骤4)的新词拓展。
c)新词拓展
对于备选新词,如果为顺序备选新词,则循环向前遍历Glr,计算该备选新词起始词的入度,找到权重最大的边,计算最大顺序共现率。如果最大顺序共现率超过阈值Q,则将新的到边加入备选新词,构成一条更长的路径,将整个路径作为备选新词,重复向前拓展,直到最大顺序共现率小于Q。然后循环向后遍历,找到该备选新词结束词的出度,计算最大顺序共现率,不断拓展直到共现率小于Q。最终得到的路径为完整的备选词,记录该备选词并执行步骤5)调整逆序图Grl和顺序图Glr的图权重。
同样的,对于逆序备选词,向前向后循环遍历Grl,直到最大逆向共现率低于Q,得到完整的逆序备选词,记录并执行步骤5)调整逆序图Grl和顺序图Glr的权重。
d)调整图权重。根据生成的最大权重路径,即备选新词,我们寻找并记录这条路径上的最小权重Wmin,将两个图中所有该路径包含的点和边减去该权重Wmin。调整权重后,已挖掘的新词权重降低,使得使用同一个词创造的不同新词能够被发现,避免出现高频新词被发现而低频新词不被发现的情况。
e)备选新词词频过滤。在对所有点都进行分析之后,过滤备选新词中词频小于阈值Qc的新词。Qc的值根据文档集大小及内容设定,对于内容近似的文档集可设定较高的阈值,优选取值在5到20之间。
f)遍历文档集,计算备选新词的信息熵,过滤所有信息熵小于预期Qe的备选新词。Qe的值根据文档集内容设定。
g)得到最终过滤后的备选新词集合,并按照词频对结果进行排序。
本发明首次提出了将文档集抽象为图结构进行新词发现和识别的方法,将新词发现问题转化为在有向有权图上的最大权重路径寻找问题,很好地利用了图的特点,能够准确的发现和识别长词。上述方法通过实验验证了其有效性。
附图说明
图1是本发明的中文新词识别方法的流程图;
图2是词图构建的流程图;
图3是备选词发现过程的流程图。
具体实施方式
下面通过具体实施例和附图,对本发明做进一步说明。
图1是本发明的基于图的新词识别方法的步骤流程图,具体包括如下步骤:
102是对文档集进行分词预处理,如果有分词程序,则直接进行分词,否则默认将每一个字划分为一个词;
104是对文档集进行词图抽象的过程,具体实施方法见图2;
106是对图的遍历,对每一个点进行备选新词的发现分析;
108是对每个点的备选新词发现过程,具体实施方法见图3;
110是对阶段性结果的汇总,将所有备选词进行整理。
112是根据统计值(指词频,通过判断是否小于Qc来进行过滤)和信息熵对备选新词进行过滤操作。
114得到新词发现列表,并对结果排序。
图2是词图构建的流程图,包括如下步骤:
202首先构建两个空图,顺序图和逆序图;
204遍历文档集中的每一个词;
206是判断是否已经完成遍历,如果完成则返回结束。
208是符号过滤,如果是符号则跳过,直接遍历下一个词。
210、212和214将每个词都抽象成了词图中所有的点,然后根据出现频次对点进行赋值。
216、218、220和222根据词的邻接关系构建了词图中所有的边,自左向右的邻接关系构建了顺序图,自右向左的邻接关系构建了逆序图,并根据关系出现的频次为边赋权。
具体的构建词图方法可以是:首先建立两个空图:顺序图Glr和逆序图Grl。然后,遍历文档集,遇到未出现过的词则对两个图Glr,Grl各生成一个点并记录权重为1,出现过的词则对应的点权重加1;如果该词B有左邻接词A,则在Glr生成一条A指向B的边E(A,B)并记录权重为1,若已经存在A指向B的边E(A,B),则直接将边E(A,B)的权重加1。同理在Grl生成一条权重为1的边E(B,A)或更新权重。
图3是对具体的点进行新词发现的流程图,包括如下步骤:
302、304和306是根据相邻词之间的顺序关系计算共现率,通过共现率判断两个词的结合是否紧密,如果共现率大于阈值,那么说明这两个词经常被连在一起使用,很有可能属于同一个词;
308和310是对已经认可的边进行路径拓展,包括向前拓展和向后拓展,找到共现率始终大于阈值的最长路径,保证新词的完整性,使得方法能够发现长词。
312至320是在逆序图上进行的相似工作,计算两个词的逆序共现率,最后生成一条最大权值路径作为备选新词。
322是对原图的权重进行更新,对于新词路径上的所有点和边,减去备选新词路径的最小权重,使得在备选新词发现之后能够再次发现包含同一个词的新词,避免高频词掩盖了低频新词的情况。
表1是在微博影评数据集上的各类新词发现/识别算法对比结果。该数据集包括网络评论新词(如伤不起、坑爹、给力等),人名(如黄渤、赵薇等),电影名(如致我们终将逝去的青春、厨子戏子痞子、中国合伙人等)等各种新词。基于规则的方法能够保证很高的准确率,但是召回率非常低,无法应用于构词多变的网络数据;基于统计的方法能够保证短词(四个字以内)的召回率与准确率,但无法挖掘到长词。本发明的方法利用图的特性,能够准确识别新长词,并保持短词的准确率与召回率在较高水平。
表1.各类新词识别方法的结果对比
基于规则 基于统计 基于图
短词准确率 95% 82% 85%
短词召回率 7% 86% 88%
长词准确率 0% 0% 100%
长词召回率 0% 0% 95%
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。

Claims (7)

1.一种基于图结构的中文新词识别方法,其步骤包括:
1)根据词之间的邻接关系将文档集抽象成有权有向图;
2)遍历所述有权有向图的所有点,基于共现率选出每一个点的备选新词;其中,共现率=边权重/点权重;所述选出每一个点的备选新词的方法为:
对于每个点,在顺序图里找到该点,遍历其所有出度,从中找到权重最大的一条边,计算最大顺序共现率,如果最大顺序共现率大于阈值Q,则将对应的边记录为顺序备选新词;
同样的,在逆序图里找到该点,遍历其所有入度,从中找到权重最大的一条边,计算最大逆序共现率,如果最大逆序共现率超过阈值Q,则将对应的边记录为逆序备选新词;
3)对所述备选新词进行路径拓展,找到共现率始终大于阈值的最大权值路径,从而得到完整的备选新词;
4)根据信息熵对所述完整的备选新词进行过滤,得到最终的备选新词集合。
2.如权利要求1所述的方法,其特征在于:在步骤1)之前对所述文档集进行分词预处理,如果有分词程序,则直接进行分词,否则默认将每一个字划分为一个词。
3.如权利要求1或2所述的方法,其特征在于,步骤1)将文档集抽象成有权有向图的方法为:
1.1)构建两个空图:顺序图和逆序图;
1.2)遍历文档集,将文档集中每一个词抽象成词图中所有的点,然后根据词的出现频次对点进行赋值;
1.3)根据词的邻接关系构建词图中所有的边,根据自左向右的邻接关系构建顺序图,根据自右向左的邻接关系构建了逆序图,并根据关系出现的频次为边赋权。
4.如权利要求1所述的方法,其特征在于,步骤3)进行路径拓展的方法为:
对于顺序备选新词,循环向前遍历顺序图,计算该备选新词起始词的入度,找到权重最大的边,计算最大顺序共现率;如果最大顺序共现率超过阈值Q,则将对应的边加入备选新词,构成一条更长的路径,将整个路径作为备选新词;重复向前拓展,直到最大顺序共现率小于Q;然后循环向后遍历,找到该备选新词结束词的出度,计算最大顺序共现率,不断拓展直到共现率小于Q;最终得到的路径为完整的顺序备选新词;
同样的,对于逆序备选新词,向前向后循环遍历逆序图,直到逆向共现率低于Q,得到完整的逆序备选词。
5.如权利要求1所述的方法,其特征在于:在步骤3)之后调整图权重,根据生成的最大权重路径,将两个图中所有包含的点和边减去路径上的最小边权重,使已挖掘的新词权重降低,避免高频词掩盖低频新词的情况。
6.如权利要求1所述的方法,其特征在于:在步骤3)之后进行备选新词词频过滤,过滤备选新词中词频小于设定的词频阈值的新词,然后进行步骤4)所述根据信息熵进行的过滤。
7.如权利要求1所述的方法,其特征在于:步骤4)在得到最终的备选新词集合后,按照词频对备选新词进行排序。
CN201410143875.7A 2014-04-10 2014-04-10 一种基于图结构的中文新词识别方法 Expired - Fee Related CN103970733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410143875.7A CN103970733B (zh) 2014-04-10 2014-04-10 一种基于图结构的中文新词识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410143875.7A CN103970733B (zh) 2014-04-10 2014-04-10 一种基于图结构的中文新词识别方法

Publications (2)

Publication Number Publication Date
CN103970733A CN103970733A (zh) 2014-08-06
CN103970733B true CN103970733B (zh) 2017-07-14

Family

ID=51240251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410143875.7A Expired - Fee Related CN103970733B (zh) 2014-04-10 2014-04-10 一种基于图结构的中文新词识别方法

Country Status (1)

Country Link
CN (1) CN103970733B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875040B (zh) * 2015-10-27 2020-08-18 上海智臻智能网络科技股份有限公司 词典更新方法及计算机可读存储介质
CN105740236B (zh) * 2016-01-29 2018-09-07 中国科学院自动化研究所 结合写作特征和序列特征的中文情感新词识别方法和系统
CN106202051B (zh) * 2016-07-19 2019-01-29 华南理工大学 基于有向有权图发现新词的方法
CN106610937A (zh) * 2016-09-19 2017-05-03 四川用联信息技术有限公司 一种基于信息论的中文自动分词算法
CN106598940A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 基于全局优化关键词质量的文本相似度求解算法
CN106598941A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 一种全局优化文本关键词质量的算法
US10831803B2 (en) * 2018-07-26 2020-11-10 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for true product word recognition
CN109522396B (zh) * 2018-10-22 2020-12-25 中国船舶工业综合技术经济研究院 一种面向国防科技领域的知识处理方法及系统
CN110807322B (zh) * 2019-09-19 2024-03-01 平安科技(深圳)有限公司 基于信息熵识别新词的方法、装置、服务器及存储介质
CN113157929A (zh) * 2020-12-30 2021-07-23 龙马智芯(珠海横琴)科技有限公司 一种新词挖掘方法、装置、服务器及计算机可读存储介质
CN115879515B (zh) * 2023-02-20 2023-05-12 江西财经大学 文档网络主题建模方法、变分邻域编码器、终端及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002056009A (ja) * 2000-05-29 2002-02-20 Fuji Xerox Co Ltd 文書分類方法および装置
CN102375842A (zh) * 2010-08-20 2012-03-14 姚尹雄 面向领域整体的关键词集的评价和提取方法
CN103593427A (zh) * 2013-11-07 2014-02-19 清华大学 新词搜索方法及系统
CN103678656A (zh) * 2013-12-23 2014-03-26 合肥工业大学 一种基于重复字串的微博新词非监督自动抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002056009A (ja) * 2000-05-29 2002-02-20 Fuji Xerox Co Ltd 文書分類方法および装置
CN102375842A (zh) * 2010-08-20 2012-03-14 姚尹雄 面向领域整体的关键词集的评价和提取方法
CN103593427A (zh) * 2013-11-07 2014-02-19 清华大学 新词搜索方法及系统
CN103678656A (zh) * 2013-12-23 2014-03-26 合肥工业大学 一种基于重复字串的微博新词非监督自动抽取方法

Also Published As

Publication number Publication date
CN103970733A (zh) 2014-08-06

Similar Documents

Publication Publication Date Title
CN103970733B (zh) 一种基于图结构的中文新词识别方法
CN110781317B (zh) 事件图谱的构建方法、装置及电子设备
CN106991092B (zh) 基于大数据挖掘相似裁判文书的方法和设备
CN109376963B (zh) 一种基于神经网络的刑事案件罪名法条联合预测方法
Li et al. Fine-grained location extraction from tweets with temporal awareness
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN107729468A (zh) 基于深度学习的答案抽取方法及系统
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN108875040A (zh) 词典更新方法及计算机可读存储介质
CN107748745B (zh) 一种企业名称关键字提取方法
CN104008166A (zh) 一种基于形态和语义相似度的对话短文本聚类方法
CN102722709A (zh) 一种垃圾图片识别方法和装置
WO2016177069A1 (zh) 一种管理方法、装置、垃圾短信监控系统及计算机存储介质
CN103984943A (zh) 一种基于贝叶斯概率框架的场景文本识别方法
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN110705292B (zh) 一种基于知识库和深度学习的实体名称提取方法
CN109271640A (zh) 文本信息的地域属性识别方法及装置、电子设备
CN109145287A (zh) 印尼语单词检错纠错方法及系统
CN103902733A (zh) 基于疑问词扩展的信息检索方法
CN110069769A (zh) 应用标签生成方法、装置及存储设备
CN103324641B (zh) 信息记录推荐方法和装置
CN107291685B (zh) 语义识别方法和语义识别系统
CN106874762A (zh) 基于api依赖关系图的安卓恶意代码检测方法
CN105224603A (zh) 训练语料获取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: BEIJING UNIV.

Effective date: 20150728

Owner name: CHINA INFORMATION TECHNOLOGY SECURITY EVALUATION C

Free format text: FORMER OWNER: BEIJING UNIV.

Effective date: 20150728

C41 Transfer of patent application or patent right or utility model
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Chen Haiqiang

Inventor after: Cheng Junjun

Inventor after: Zhou Xin

Inventor after: Wu Jiayi

Inventor after: Chen Wei

Inventor after: Wang Tengjiao

Inventor before: Wu Jiayi

Inventor before: Chen Wei

Inventor before: Wang Tengjiao

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: WU JIAYI CHEN WEI WANG TENGJIAO TO: CHEN HAIQIANG CHENG JUNJUN ZHOU XIN WU JIAYI CHEN WEI WANG TENGJIAO

TA01 Transfer of patent application right

Effective date of registration: 20150728

Address after: 100085 Building No. 8, No. 1 West Road, Beijing, Haidian District

Applicant after: China Information Technology Security Evaluation Center

Applicant after: Peking University

Address before: 100871 Haidian District the Summer Palace Road,, No. 5, Peking University

Applicant before: Peking University

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170714

Termination date: 20180410