CN112528640A

CN112528640A - 一种基于异常子图检测的领域术语自动抽取方法

Info

Publication number: CN112528640A
Application number: CN202011450990.0A
Authority: CN
Inventors: 李存壮; 武南南; 王文俊
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-03-19

Abstract

本发明公开一种基于异常子图检测的领域术语自动抽取方法。首先，对文本数据进行预处理操作并进行词性标注；通过n‑gram方法和/或语法规则来选取所有可能的词语，并使用停用词和词频进行过滤；构建网络，将选出的候选术语集合作为节点构建网络；计算各种术语自动抽取方法中作为术语特征的属性值，并将其作为子图检测的特征值；计算图中节点的p值，p值衡量了节点作为术语的可能性；通过异常子图检测算法，抽取出其中包含异常节点的子图，子图要求尽可能多的包含异常节点，尽可能少的包含正常节点。

Description

一种基于异常子图检测的领域术语自动抽取方法

技术领域

本发明提出了一种领域术语自动抽取的算法，具体涉及到基于异常子图检测的术语自动识别方法，其属于计算机软件技术领域。

背景技术

移动互联网、社交媒体和大数据等技术的迅猛发展使得网络空间中的文本数据量成指数级上升。如何利用文本挖掘技术抽取出有价值的信息就成了如今计算机领域备受关注的问题。现有发展起来的很多模型和技术都以海量的文本资源作为数据基础，但是非结构化的文本数据由于表达方式灵活，可以用不同的形式和词汇表达相同的意思，对其进行利用是非常困难的。从大量文本中抽取相关领域术语是文本挖掘和信息抽取首要问题，也是本体构建，文本分类，情感分析，机器翻译，自动摘要，知识图谱等领域的基础问题。

大量学者对术语抽取相关领域进行了广泛的研究。在最开始术语的抽取工作依赖于术语专家和领域专家的知识，但是术语抽取比较繁重，工作量大再加上不同的领域往往需要不同领域专家的配合，故而效率比较低，这是人工抽取术语的阶段。

由于人工抽取领域的繁琐，术语自动抽取方法获得了学者的关注。传统的术语自动抽取方法主要分为基于语言学、基于统计学和两种方法混合的方法。然而单一的语言学方法准确率高，但依赖于特定的语言规则可移植性比较差。因此基于统计学或者基于混合方法的自动术语识别被提出以解决领域无关性和模型移植性的弊端。传统的术语识别方法只利用了语言学和词频的特征，其一般是通过语言学的知识提取出符合要求的候选术语，在经过词频进行进一步的排序。这种方法严重依赖语料库的质量，在语料库质量较差时很难有好的提取效果。此外术语自动抽取的学者又引入了外部知识、语义信息等技术来提高领域术语抽取的准确率。然而当前领域术语自动抽取方法在不同领域的性能表现有很大差异。在一个领域术语抽取的效果很好，在另一个领域的效果则差强人意。不同的术语抽取方法其选取的术语特征不同，有时候术语的提取还需要对多种特征进行融合以提高抽取准确率，但是不同维度的特征往往不能融合，这导致了方法在不同领域的差异。因此一种领域术语抽取方法往往不能对多种领域有同样稳定且有效的抽取效果。

本文提出了一种基于异常子图检测的自动术语识别方法，其能够利用不同维度的术语特征，对不同的领域都有较好的抽取效果，解决了术语自动抽取方法针对不同领域抽取效果不稳定的问题。

发明内容

本发明的目的在于克服现有方法的不足，提出了一种基于异常子图检测的领域术语自动抽取方法，以解决现有方法在术语抽取效果不稳定的问题。

本发明解决现有问题是通过以下技术方案实现的：

步骤1、对文本数据进行分句分词等预处理操作并进行词性标注，这里采用THULAC分词工具实现。

步骤2、通过n-gram方法和语法规则来选取所有可能的词语，并使用停用词和词频(经验阈值为3)进行过滤。

步骤3、构建网络，将步骤2中选出的候选术语集合作为节点构建网络，其中如果候选术语在文本中先后出现，则术语节点之间构建边。

步骤4计算各种术语自动抽取方法中作为术语特征的属性值，并将其作为子图检测的特征值。

步骤5、根据步骤4中的计算的特征值计算图中节点的p值，p值衡量了节点作为术语的可能性。

步骤6、通过异常子图检测算法，抽取出其中包含异常节点的子图，这个子图要求尽可能多的包含异常节点，尽可能少的包含正常节点。

更具体的，我们结合了异常子图检测和三种术语识别方法。其中三种术语识别方法的计算公式如下：

RIDF基于这样一个假设，即在领域术语上的观测到的IDF与由泊松分布建模的IDF之间的偏差比在普通词上要大。其中D是集合中的文档总数,DTF(V)是包含候选术语V的文档。TF(v)是候选术语的频率，ATF(V)是术语v出现的平均频率。

c-value是领域术语自动提取最流行的方法之一。其主要以词语频率作为识别术语的主要考量指标，其中|v|是一个术语的长度。s是术语的集合。

POSTRankDC算法，它首先用基本的领域术语自动抽取方法或者人工的方法提取200个评分最高的领域术语。然后，对之前提取的200个领域术语进行过滤。之后按平均标准化之后的点互信息排名。其中W是所选上下文词的集合；v是一个术语候选词。p(v，w)是在v的上下文中出现单词w的概率。P(V)和p(W)是术语v和单词w出现的概率。

其中，我们可以根据需要继续添加其他的术语特征来作为节点属性以计算p值。

其中，fd(V)指特征向量f(V)的第d个观测值，即第i个属性。上面定义的经验值pd(V)可以解释为所有节点中观测值值大于或等于节点V的fd(V)的比例。这里可以看出比节点v的属性大的节点越少，其p值越小，在异常子图检测中，p值越小代表这个值越异常。在这里I(.)如果为真则等于1，否则为0。

领域术语的经验p值被定义如上：从上面的公式可以看出，在术语识别方法中的候选项的值越大，p值越小，就越有可能是术语。本文提出的两阶段经验p值p(V)具有简单的统一理论性质。

利用上述方法，我们首先得到了校准的领域术语图G＝(v，E，p)。

其中

是指G中的一个连通子图，α是置信水平，Nα(S)是置信水平p在α之下的节点的个数，N(S)代表连通子图的节点的个数。

Berk-jones(Bj)统计量和Higher Criticism(Hc)统计量是从图中检测异常子图的两个性能较好的函数。其中kl表示kullback-lieber散度，如下公式所示，这里a,b都在(0,1)之间。

KL(a,b)＝alog(a/b)+(1-a)log((1-a)/log(1-b))

领域术语生成问题就被形式化成如下形式：

这里，p_v(α_max)代表了节点中p值小于α_max的集合，经验值为0.15。

我们的目标就是优化上述函数使其最大化求出最大连通子图，连通子图上的代表候选领域术语的节点就是我们要提取的领域术语。

我们的目标是获取包含领域术语节点的子图，更具体的说，我们的目标是获取子图中包含的代表候选术语的节点。在这里我们可以以树的方式获取子图，从而减小获取子图的时间复杂度。

附图说明

图1为发明方法的流程图。

具体实施方式

本发明的原理优势和实施步骤结合上述算法描述和下面的实施例将更容易理解。

本发明解决现有问题是通过以下技术方案实现的：

步骤2、通过n-gram方法和语法规则来选取所有可能的词语，并使用停用词和词频(经验阈值为3)进行过滤。在这里根据领域的不同可以加上一些语言学规则进行过滤，例如“工具实现”中工具为名词，实现为动词，其一般不能组成一个有效的短语。

步骤3、构建网络，将步骤2中选出的候选术语集合作为节点构建网络，其中按照候选术语在文本中先后出现构建边，在这里由于之前已经使用频率进行了筛选，这里的边不再使用权重作为特征，固定为1。

步骤4计算各种术语自动抽取方法中作为术语特征的属性值，并将其作为子图检测的特征值。这里使用了三种普通的术语识别方法来计算：

RIDF方法基于这样一个假设，即在领域术语上的观测到的IDF与由泊松分布建模的IDF之间的偏差比在普通词要大，因此里面加入了偏差向。其中D是集合中的文档总数,DTF(V)是包含候选术语V的文档。TF(v)是候选术语的频率，ATF(V)是术语v出现的平均频率

步骤5、根据步骤4中的计算的特征值计算图中节点的p值，这里p值衡量了节点作为术语的可能性。

其中fd(V)指特征向量f(V)的第d个观测值，即第i个属性。上面定义的经验值pd(V)可以解释为所有节点中观测值值大于或等于节点V的fd(V)的比例。这里可以看出比节点v的属性大的节点越少，其p值越小，在异常子图检测中，p值越小代表这个值越异常。在这里I(.)如果为真则等于1，否则为0。

其中

KL(a,b)＝alog(a/b)+(1-a)log((1-a)/log(1-b))

领域术语生成问题就被形式化成如下形式：

这里，p_v(α_max)代表了节点中p值小于α_max的集合，经验值为0.15。我们可以使用穷举的方法来计算出最优值。但是要想在一个图中找出上述的最优子图，时间复杂度会非常大，因此可以通过剪枝使用树遍历的方式来代替图的遍历。

优化上述函数使其最大化求出最大连通子图，连通子图上的代表候选领域术语的节点就是我们要提取的领域术语。

Claims

1.一种基于异常子图检测的领域术语自动抽取方法，其特征在于，包括如下步骤：

步骤1：对文本数据进行预处理操作并进行词性标注；

步骤2：通过n-gram方法和/或语法规则来选取所有可能的词语，并使用停用词和词频进行过滤；

步骤3：构建网络，将步骤2中选出的候选术语集合作为节点构建网络；

步骤4：计算各种术语自动抽取方法中作为术语特征的属性值，并将其作为子图检测的特征值；

步骤5：根据步骤4中术语特征的属性值计算图中节点的p值，p值衡量了节点作为术语的可能性；

步骤6：通过异常子图检测算法，抽取出其中包含异常节点的子图，子图要求尽可能多的包含异常节点，尽可能少的包含正常节点。

2.根据权利要求1所述的一种基于异常子图检测的领域术语自动抽取方法，其特征在于，结合三种术语识别方法：

其中，三种术语识别方法的计算公式如下：

RIDF基于这样一个假设，即在领域术语上的观测到的IDF与由泊松分布建模的IDF之间的偏差比在普通词上要大；

其中D是集合中的文档总数,DTF(V)是包含候选术语V的文档；

TF(v)是候选术语的频率，ATF(V)是术语v出现的平均频率；

Cvalue是领域术语自动提取最流行的方法之一，其主要以词语频率作为识别术语的主要考量指标，其中|v|是一个术语的长度，s是术语的集合；

3.根据权利要求1所述的一种基于异常子图检测的领域术语自动抽取方法，其特征在于：异常子图检测：POSTRankDC算法，它首先用基本的领域术语自动抽取方法或者人工的方法提取200个评分最高的领域术语；然后，对之前提取的200个领域术语进行过滤；之后按平均标准化之后的点互信息排名；

其中W是所选上下文词的集合；v是一个术语候选词；p(v，w)是在v的上下文中出现单词w的概率；P(V)和p(W)是术语v和单词w出现的概率；

其中，我们可以根据需要继续添加其他的术语特征来作为节点属性以计算p值；

其中fd(V)指特征向量f(V)的第d个观测值，即第i个属性；

上面定义的经验值pd(V)可以解释为所有节点中观测值值大于或等于节点V的fd(V)的比例；这里可以看出比节点v的属性大的节点越少，其p值越小，在异常子图检测中，p值越小代表这个值越异常，在这里I(.)如果为真则等于1，否则为0；

领域术语的经验p值被定义如上：从上面的公式可以看出，在术语识别方法中的候选项的值越大，p值越小，就越有可能是术语；本文提出的两阶段经验p值p(V)具有简单的统一理论性质；

利用上述方法，我们首先得到了校准的领域术语图G＝(v，E，p)；

其中

是指G中的一个连通子图，α是置信水平，Nα(S)是置信水平p在α之下的节点的个数，N(S)代表连通子图的节点的个数；

Berk-jones(Bj)统计量和Higher Criticism(Hc)统计量是从图中检测异常子图的两个性能较好的函数；其中kl表示kullback-lieber散度，如下公式所示，这里a,b都在(0,1)之间；

KL(a,b)＝alog(a/b)+(1-a)log((1-a)/log(1-b))

领域术语生成问题就被形式化成如下形式：