CN112528640A - 一种基于异常子图检测的领域术语自动抽取方法 - Google Patents

一种基于异常子图检测的领域术语自动抽取方法 Download PDF

Info

Publication number
CN112528640A
CN112528640A CN202011450990.0A CN202011450990A CN112528640A CN 112528640 A CN112528640 A CN 112528640A CN 202011450990 A CN202011450990 A CN 202011450990A CN 112528640 A CN112528640 A CN 112528640A
Authority
CN
China
Prior art keywords
term
value
nodes
abnormal
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011450990.0A
Other languages
English (en)
Inventor
李存壮
武南南
王文俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011450990.0A priority Critical patent/CN112528640A/zh
Publication of CN112528640A publication Critical patent/CN112528640A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Abstract

本发明公开一种基于异常子图检测的领域术语自动抽取方法。首先,对文本数据进行预处理操作并进行词性标注;通过n‑gram方法和/或语法规则来选取所有可能的词语,并使用停用词和词频进行过滤;构建网络,将选出的候选术语集合作为节点构建网络;计算各种术语自动抽取方法中作为术语特征的属性值,并将其作为子图检测的特征值;计算图中节点的p值,p值衡量了节点作为术语的可能性;通过异常子图检测算法,抽取出其中包含异常节点的子图,子图要求尽可能多的包含异常节点,尽可能少的包含正常节点。

Description

一种基于异常子图检测的领域术语自动抽取方法
技术领域
本发明提出了一种领域术语自动抽取的算法,具体涉及到基于异常子图检测的术语自动识别方法,其属于计算机软件技术领域。
背景技术
移动互联网、社交媒体和大数据等技术的迅猛发展使得网络空间中的文本数据量成指数级上升。如何利用文本挖掘技术抽取出有价值的信息就成了如今计算机领域备受关注的问题。现有发展起来的很多模型和技术都以海量的文本资源作为数据基础,但是非结构化的文本数据由于表达方式灵活,可以用不同的形式和词汇表达相同的意思,对其进行利用是非常困难的。从大量文本中抽取相关领域术语是文本挖掘和信息抽取首要问题,也是本体构建,文本分类,情感分析,机器翻译,自动摘要,知识图谱等领域的基础问题。
大量学者对术语抽取相关领域进行了广泛的研究。在最开始术语的抽取工作依赖于术语专家和领域专家的知识,但是术语抽取比较繁重,工作量大再加上不同的领域往往需要不同领域专家的配合,故而效率比较低,这是人工抽取术语的阶段。
由于人工抽取领域的繁琐,术语自动抽取方法获得了学者的关注。传统的术语自动抽取方法主要分为基于语言学、基于统计学和两种方法混合的方法。然而单一的语言学方法准确率高,但依赖于特定的语言规则可移植性比较差。因此基于统计学或者基于混合方法的自动术语识别被提出以解决领域无关性和模型移植性的弊端。传统的术语识别方法只利用了语言学和词频的特征,其一般是通过语言学的知识提取出符合要求的候选术语,在经过词频进行进一步的排序。这种方法严重依赖语料库的质量,在语料库质量较差时很难有好的提取效果。此外术语自动抽取的学者又引入了外部知识、语义信息等技术来提高领域术语抽取的准确率。然而当前领域术语自动抽取方法在不同领域的性能表现有很大差异。在一个领域术语抽取的效果很好,在另一个领域的效果则差强人意。不同的术语抽取方法其选取的术语特征不同,有时候术语的提取还需要对多种特征进行融合以提高抽取准确率,但是不同维度的特征往往不能融合,这导致了方法在不同领域的差异。因此一种领域术语抽取方法往往不能对多种领域有同样稳定且有效的抽取效果。
本文提出了一种基于异常子图检测的自动术语识别方法,其能够利用不同维度的术语特征,对不同的领域都有较好的抽取效果,解决了术语自动抽取方法针对不同领域抽取效果不稳定的问题。
发明内容
本发明的目的在于克服现有方法的不足,提出了一种基于异常子图检测的领域术语自动抽取方法,以解决现有方法在术语抽取效果不稳定的问题。
本发明解决现有问题是通过以下技术方案实现的:
步骤1、对文本数据进行分句分词等预处理操作并进行词性标注,这里采用THULAC分词工具实现。
步骤2、通过n-gram方法和语法规则来选取所有可能的词语,并使用停用词和词频(经验阈值为3)进行过滤。
步骤3、构建网络,将步骤2中选出的候选术语集合作为节点构建网络,其中如果候选术语在文本中先后出现,则术语节点之间构建边。
步骤4计算各种术语自动抽取方法中作为术语特征的属性值,并将其作为子图检测的特征值。
步骤5、根据步骤4中的计算的特征值计算图中节点的p值,p值衡量了节点作为术语的可能性。
步骤6、通过异常子图检测算法,抽取出其中包含异常节点的子图,这个子图要求尽可能多的包含异常节点,尽可能少的包含正常节点。
更具体的,我们结合了异常子图检测和三种术语识别方法。其中三种术语识别方法的计算公式如下:
Figure BDA0002826875310000021
RIDF基于这样一个假设,即在领域术语上的观测到的IDF与由泊松分布建模的IDF之间的偏差比在普通词上要大。其中D是集合中的文档总数,DTF(V)是包含候选术语V的文档。TF(v)是候选术语的频率,ATF(V)是术语v出现的平均频率。
Figure BDA0002826875310000022
c-value是领域术语自动提取最流行的方法之一。其主要以词语频率作为识别术语的主要考量指标,其中|v|是一个术语的长度。s是术语的集合。
Figure BDA0002826875310000023
POSTRankDC算法,它首先用基本的领域术语自动抽取方法或者人工的方法提取200个评分最高的领域术语。然后,对之前提取的200个领域术语进行过滤。之后按平均标准化之后的点互信息排名。其中W是所选上下文词的集合;v是一个术语候选词。p(v,w)是在v的上下文中出现单词w的概率。P(V)和p(W)是术语v和单词w出现的概率。
其中,我们可以根据需要继续添加其他的术语特征来作为节点属性以计算p值。
Figure BDA0002826875310000031
其中,fd(V)指特征向量f(V)的第d个观测值,即第i个属性。上面定义的经验值pd(V)可以解释为所有节点中观测值值大于或等于节点V的fd(V)的比例。这里可以看出比节点v的属性大的节点越少,其p值越小,在异常子图检测中,p值越小代表这个值越异常。在这里I(.)如果为真则等于1,否则为0。
Figure BDA0002826875310000032
领域术语的经验p值被定义如上:从上面的公式可以看出,在术语识别方法中的候选项的值越大,p值越小,就越有可能是术语。本文提出的两阶段经验p值p(V)具有简单的统一理论性质。
利用上述方法,我们首先得到了校准的领域术语图G=(v,E,p)。
Figure BDA0002826875310000033
其中
Figure BDA0002826875310000034
是指G中的一个连通子图,α是置信水平,Nα(S)是置信水平p在α之下的节点的个数,N(S)代表连通子图的节点的个数。
Figure BDA0002826875310000035
Figure BDA0002826875310000036
Berk-jones(Bj)统计量和Higher Criticism(Hc)统计量是从图中检测异常子图的两个性能较好的函数。其中kl表示kullback-lieber散度,如下公式所示,这里a,b都在(0,1)之间。
KL(a,b)=alog(a/b)+(1-a)log((1-a)/log(1-b))
领域术语生成问题就被形式化成如下形式:
Figure BDA0002826875310000041
这里,pvmax)代表了节点中p值小于αmax的集合,经验值为0.15。
我们的目标就是优化上述函数使其最大化求出最大连通子图,连通子图上的代表候选领域术语的节点就是我们要提取的领域术语。
我们的目标是获取包含领域术语节点的子图,更具体的说,我们的目标是获取子图中包含的代表候选术语的节点。在这里我们可以以树的方式获取子图,从而减小获取子图的时间复杂度。
附图说明
图1为发明方法的流程图。
具体实施方式
本发明的原理优势和实施步骤结合上述算法描述和下面的实施例将更容易理解。
本发明解决现有问题是通过以下技术方案实现的:
步骤1、对文本数据进行分句分词等预处理操作并进行词性标注,这里采用THULAC分词工具实现。
步骤2、通过n-gram方法和语法规则来选取所有可能的词语,并使用停用词和词频(经验阈值为3)进行过滤。在这里根据领域的不同可以加上一些语言学规则进行过滤,例如“工具实现”中工具为名词,实现为动词,其一般不能组成一个有效的短语。
步骤3、构建网络,将步骤2中选出的候选术语集合作为节点构建网络,其中按照候选术语在文本中先后出现构建边,在这里由于之前已经使用频率进行了筛选,这里的边不再使用权重作为特征,固定为1。
步骤4计算各种术语自动抽取方法中作为术语特征的属性值,并将其作为子图检测的特征值。这里使用了三种普通的术语识别方法来计算:
RIDF方法基于这样一个假设,即在领域术语上的观测到的IDF与由泊松分布建模的IDF之间的偏差比在普通词要大,因此里面加入了偏差向。其中D是集合中的文档总数,DTF(V)是包含候选术语V的文档。TF(v)是候选术语的频率,ATF(V)是术语v出现的平均频率
Figure BDA0002826875310000042
c-value是领域术语自动提取最流行的方法之一。其主要以词语频率作为识别术语的主要考量指标,其中|v|是一个术语的长度。s是术语的集合。
Figure BDA0002826875310000051
POSTRankDC算法,它首先用基本的领域术语自动抽取方法或者人工的方法提取200个评分最高的领域术语。然后,对之前提取的200个领域术语进行过滤。之后按平均标准化之后的点互信息排名。其中W是所选上下文词的集合;v是一个术语候选词。p(v,w)是在v的上下文中出现单词w的概率。P(V)和p(W)是术语v和单词w出现的概率。
Figure BDA0002826875310000052
步骤5、根据步骤4中的计算的特征值计算图中节点的p值,这里p值衡量了节点作为术语的可能性。
步骤6、通过异常子图检测算法,抽取出其中包含异常节点的子图,这个子图要求尽可能多的包含异常节点,尽可能少的包含正常节点。
更具体的,我们结合了异常子图检测和三种术语识别方法。其中三种术语识别方法的计算公式如下:
其中,我们可以根据需要继续添加其他的术语特征来作为节点属性以计算p值。
Figure BDA0002826875310000053
其中fd(V)指特征向量f(V)的第d个观测值,即第i个属性。上面定义的经验值pd(V)可以解释为所有节点中观测值值大于或等于节点V的fd(V)的比例。这里可以看出比节点v的属性大的节点越少,其p值越小,在异常子图检测中,p值越小代表这个值越异常。在这里I(.)如果为真则等于1,否则为0。
Figure BDA0002826875310000054
领域术语的经验p值被定义如上:从上面的公式可以看出,在术语识别方法中的候选项的值越大,p值越小,就越有可能是术语。本文提出的两阶段经验p值p(V)具有简单的统一理论性质。
利用上述方法,我们首先得到了校准的领域术语图G=(v,E,p)。
Figure BDA0002826875310000061
其中
Figure BDA0002826875310000062
是指G中的一个连通子图,α是置信水平,Nα(S)是置信水平p在α之下的节点的个数,N(S)代表连通子图的节点的个数。
Figure BDA0002826875310000063
Figure BDA0002826875310000064
Berk-jones(Bj)统计量和Higher Criticism(Hc)统计量是从图中检测异常子图的两个性能较好的函数。其中kl表示kullback-lieber散度,如下公式所示,这里a,b都在(0,1)之间。
KL(a,b)=alog(a/b)+(1-a)log((1-a)/log(1-b))
领域术语生成问题就被形式化成如下形式:
Figure BDA0002826875310000065
这里,pvmax)代表了节点中p值小于αmax的集合,经验值为0.15。我们可以使用穷举的方法来计算出最优值。但是要想在一个图中找出上述的最优子图,时间复杂度会非常大,因此可以通过剪枝使用树遍历的方式来代替图的遍历。
优化上述函数使其最大化求出最大连通子图,连通子图上的代表候选领域术语的节点就是我们要提取的领域术语。

Claims (3)

1.一种基于异常子图检测的领域术语自动抽取方法,其特征在于,包括如下步骤:
步骤1:对文本数据进行预处理操作并进行词性标注;
步骤2:通过n-gram方法和/或语法规则来选取所有可能的词语,并使用停用词和词频进行过滤;
步骤3:构建网络,将步骤2中选出的候选术语集合作为节点构建网络;
步骤4:计算各种术语自动抽取方法中作为术语特征的属性值,并将其作为子图检测的特征值;
步骤5:根据步骤4中术语特征的属性值计算图中节点的p值,p值衡量了节点作为术语的可能性;
步骤6:通过异常子图检测算法,抽取出其中包含异常节点的子图,子图要求尽可能多的包含异常节点,尽可能少的包含正常节点。
2.根据权利要求1所述的一种基于异常子图检测的领域术语自动抽取方法,其特征在于,结合三种术语识别方法:
其中,三种术语识别方法的计算公式如下:
Figure FDA0002826875300000011
RIDF基于这样一个假设,即在领域术语上的观测到的IDF与由泊松分布建模的IDF之间的偏差比在普通词上要大;
其中D是集合中的文档总数,DTF(V)是包含候选术语V的文档;
TF(v)是候选术语的频率,ATF(V)是术语v出现的平均频率;
Figure FDA0002826875300000012
Cvalue是领域术语自动提取最流行的方法之一,其主要以词语频率作为识别术语的主要考量指标,其中|v|是一个术语的长度,s是术语的集合;
Figure FDA0002826875300000013
3.根据权利要求1所述的一种基于异常子图检测的领域术语自动抽取方法,其特征在于:异常子图检测:POSTRankDC算法,它首先用基本的领域术语自动抽取方法或者人工的方法提取200个评分最高的领域术语;然后,对之前提取的200个领域术语进行过滤;之后按平均标准化之后的点互信息排名;
其中W是所选上下文词的集合;v是一个术语候选词;p(v,w)是在v的上下文中出现单词w的概率;P(V)和p(W)是术语v和单词w出现的概率;
其中,我们可以根据需要继续添加其他的术语特征来作为节点属性以计算p值;
Figure FDA0002826875300000021
其中fd(V)指特征向量f(V)的第d个观测值,即第i个属性;
上面定义的经验值pd(V)可以解释为所有节点中观测值值大于或等于节点V的fd(V)的比例;这里可以看出比节点v的属性大的节点越少,其p值越小,在异常子图检测中,p值越小代表这个值越异常,在这里I(.)如果为真则等于1,否则为0;
Figure FDA0002826875300000022
领域术语的经验p值被定义如上:从上面的公式可以看出,在术语识别方法中的候选项的值越大,p值越小,就越有可能是术语;本文提出的两阶段经验p值p(V)具有简单的统一理论性质;
利用上述方法,我们首先得到了校准的领域术语图G=(v,E,p);
Figure FDA0002826875300000023
其中
Figure FDA0002826875300000027
是指G中的一个连通子图,α是置信水平,Nα(S)是置信水平p在α之下的节点的个数,N(S)代表连通子图的节点的个数;
Figure FDA0002826875300000024
Figure FDA0002826875300000025
Berk-jones(Bj)统计量和Higher Criticism(Hc)统计量是从图中检测异常子图的两个性能较好的函数;其中kl表示kullback-lieber散度,如下公式所示,这里a,b都在(0,1)之间;
KL(a,b)=alog(a/b)+(1-a)log((1-a)/log(1-b))
领域术语生成问题就被形式化成如下形式:
Figure FDA0002826875300000026
这里,pvmax)代表了节点中p值小于αmax的集合,经验值为0.15。
CN202011450990.0A 2020-12-09 2020-12-09 一种基于异常子图检测的领域术语自动抽取方法 Pending CN112528640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011450990.0A CN112528640A (zh) 2020-12-09 2020-12-09 一种基于异常子图检测的领域术语自动抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011450990.0A CN112528640A (zh) 2020-12-09 2020-12-09 一种基于异常子图检测的领域术语自动抽取方法

Publications (1)

Publication Number Publication Date
CN112528640A true CN112528640A (zh) 2021-03-19

Family

ID=74998737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011450990.0A Pending CN112528640A (zh) 2020-12-09 2020-12-09 一种基于异常子图检测的领域术语自动抽取方法

Country Status (1)

Country Link
CN (1) CN112528640A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966508A (zh) * 2021-04-05 2021-06-15 集智学园(北京)科技有限公司 一种通用自动术语提取方法
CN114401136A (zh) * 2022-01-14 2022-04-26 天津大学 一种针对多个属性网络的快速异常检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03116374A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 専門用語抽出システム
CN101719129A (zh) * 2009-12-31 2010-06-02 浙江大学 一种采用人工智能技术自动提取关键字的方法
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN106294320A (zh) * 2016-08-04 2017-01-04 武汉数为科技有限公司 一种面向学术论文的术语抽取方法及系统
CN108763333A (zh) * 2018-05-11 2018-11-06 北京航空航天大学 一种基于社会媒体的事件图谱构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03116374A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 専門用語抽出システム
CN101719129A (zh) * 2009-12-31 2010-06-02 浙江大学 一种采用人工智能技术自动提取关键字的方法
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN106294320A (zh) * 2016-08-04 2017-01-04 武汉数为科技有限公司 一种面向学术论文的术语抽取方法及系统
CN108763333A (zh) * 2018-05-11 2018-11-06 北京航空航天大学 一种基于社会媒体的事件图谱构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张雪: "自动术语抽取研究综述", 《软件学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966508A (zh) * 2021-04-05 2021-06-15 集智学园(北京)科技有限公司 一种通用自动术语提取方法
CN112966508B (zh) * 2021-04-05 2023-08-25 集智学园(北京)科技有限公司 一种通用自动术语提取方法
CN114401136A (zh) * 2022-01-14 2022-04-26 天津大学 一种针对多个属性网络的快速异常检测方法

Similar Documents

Publication Publication Date Title
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
TWI662425B (zh) 一種自動生成語義相近句子樣本的方法
EP3819785A1 (en) Feature word determining method, apparatus, and server
CN104881458B (zh) 一种网页主题的标注方法和装置
Mori et al. A machine learning approach to recipe text processing
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN107357777B (zh) 提取标签信息的方法和装置
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
CN111626042B (zh) 指代消解方法及装置
CN112528640A (zh) 一种基于异常子图检测的领域术语自动抽取方法
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN111444713B (zh) 新闻事件内实体关系抽取方法及装置
CN107239455B (zh) 核心词识别方法及装置
CN111310467B (zh) 一种在长文本中结合语义推断的主题提取方法及系统
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Ogrodniczuk et al. Rule-based coreference resolution module for Polish
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
Tofighi et al. Author's native language identification from web-based texts
Tohalino et al. Using virtual edges to extract keywords from texts modeled as complex networks
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
CN114444491A (zh) 新词识别方法和装置
JP2005202924A (ja) 対訳判断装置、方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210319