CN105677640A

CN105677640A - 一种面向开放文本的领域概念抽取方法

Info

Publication number: CN105677640A
Application number: CN201610011936.3A
Authority: CN
Inventors: 贾岩涛; 陈新蕾; 王元卓; 徐君; 程学旗
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2016-01-08
Filing date: 2016-01-08
Publication date: 2016-06-15

Abstract

本发明提供一种面向开放文本的领域概念抽取方法，包括：1)遍历开放文本集合，从每一篇开放文本中提取候选领域概念；对于每一候选领域概念，利用该候选领域概念的短语拆分结果、上下文信息和百科分类信息得到该候选领域概念所关联的词向量，将该词向量中的所有的词分别作为该候选领域概念所关联的领域标签；3)用步骤1)得出的所有候选领域概念构建候选领域概念集合A，用步骤2)得出的所有领域标签构建领域标签集合B；利用HITS算法进行迭代计算，得出各个候选领域概念的领域相关度；4)利用各个候选领域概念的所述领域相关度进行领域概念的判断。本发明能够提高准确率和召回率，能够更好地识别出那些重要的低频概念。

Description

一种面向开放文本的领域概念抽取方法

技术领域

本发明涉及领域知识库构建技术领域，具体地说，本发明涉及一种面向开放文本的领域概念抽取方法。

背景技术

世界已经入网络化的大数据时代。网络化的大数据数量巨大、形式复杂、密度低，如过要充分地挖掘其中蕴含的巨大价值，就需要以知识库的形式将这些数据组织起来。知识库分为普通知识库和领域知识库，领域知识库注重知识的深度，反映领域概念及其关系。领域概念是一种领域知识的表现形式，它是人类在认知过程中对于特定事物的抽象描述。开放文本的领域概念识别主要关注如何利用计算机实现自动或者半自动地从互联网上众多无结构文本中获取上述领域概念。目前，领域概念抽取及领域知识库技术在信息检索、文本分类、机器翻译等自然语言处理领域得到了广泛的应用。

目前，领域概念识别方法主要分为人工识别和自动识别两大类：

1.人工识别主要时依靠专家知识进行识别概念，或者同时依靠专家知识和从百科等其它来源所收集的相关信息来识别概念。这种方法需要对领域知识有一定了解的专家来进行数据处理，虽然可以确保知识的准确率，但所需要的时间和人工成本比较高，因此所能处理的开放文本规模有限，所构建的知识库与自动识别概念构建的知识库规模相差较大，无法适应当前以爆炸形式增长的大规模web数据。

2.自动概念识别主要是通过基于统计的方法对互联网开放文本数据中的概念、属性、关系等进行抽取与识别。自动概念识别方法可以分为传统的统计方法和基于机器学习的统计方法。传统的统计方法通过定义一些统计量及相应的评价指标对候选领域概念进行筛选，最终得到领域相关性较高的概念。基于机器学习的统计方法通过学习标注的语料获取规则，然后根据这些规则识别领域概念。然而，目前不论是基于传统的统计方法，还是基于机器学习的统计方法，其识别准确率和召回率都有待提高。

因此，当前迫切需要一种能够提高准确率和召回率的自动领域概念识别的解决方案。

发明内容

因此，本发明的任务是提供一种能够克服现有技术的上述缺陷的基站休眠解决方案。

本发明提供了一种面向开放文本的领域概念抽取方法，包括下列步骤：

1)遍历语料库中的所有开放文本，分别从每一篇开放文本中提取候选领域概念；

2)对于每一候选领域概念，利用该候选领域概念的短语拆分结果、上下文信息和百科分类信息得到该候选领域概念所关联的词向量，将该词向量中的所有的词分别作为该候选领域概念所关联的领域标签；

3)用步骤1)得出的所有候选领域概念构建候选领域概念集合A，用步骤2)得出的所有领域标签构建领域标签集合B；基于所述候选领域概念集合A中各个元素与领域标签集合B中各个元素的关联关系，利用HITS算法进行迭代计算，得出表征所述候选领域概念集合A中各个候选领域概念在该候选领域概念集合A中的重要程度的权值，将候选领域概念的权值作为该候选领域概念的领域相关度；

4)根据各个候选领域概念的特征判断其是否为领域概念，所述候选领域概念的特征包括该候选领域概念的所述领域相关度。

其中，所述步骤1)包括下列子步骤：

11)对开放文本的原始语料进行分词；

12)对于分词结果，通过进行句法分析得到其中名词或名词短语，并将所述名词和名词短语作为所述候选领域概念。

其中，所述步骤12)还包括：合并相同的名词和名词短语，统计各个名词和名词短语的出现频次作为相应候选领域概念的出现频次。

其中，所述步骤2)中，所述HITS算法为加权HITS算法。

其中，所述步骤3)包括下列子步骤：

31)基于预设的各个领域标签的权值的初始值，计算各个候选领域概念的领域相关度；

32)基于步骤31)所得出的各个候选领域概念的领域相关度，计算并更新各个领域标签的权值；

33)基于步骤32)所得出的各个领域标签的权值，计算并更新各个候选领域概念的领域相关度；

34)重复步骤32)和33)，直至所述领域相关度或所述领域标签的权值收敛。

其中，所述步骤31)和33)中，基于下述规则计算和更新所述领域相关度：候选领域概念的所述领域相关度为与该候选领域概念相关联的各个领域标签的权值的加权和；所述步骤32)中，基于下述规则计算和更新所述领域标签的权值：领域标签的权值为与该领域标签相关联的候选领域概念的领域相关度的加权和。

其中，所述步骤32)中，在计算各个领域标签的权值时，所述的各个候选领域概念的领域相关度的权重分别根据该候选领域概念的出现频次得出。

其中，所述步骤31)和33)中，在计算各个候选领域概念的领域相关度时，所述的各个领域标签的权重分别根据该领域标签的出现频次得出。

其中，所述步骤4)中，所述候选领域概念的特征还包括该候选领域概念的出现频次。

其中，所述步骤4)还包括：当所述候选领域概念的出现频次大于预设的出现频次阈值，且所述候选领域概念的领域相关度大于预设的领域相关度阈值时，判定该候选领域概念为正式的领域概念；否则，丢弃所述候选领域概念。

与现有技术相比，本发明具有下列技术效果：

1、本发明能够有效利用候选领域概念的字面特征和上下文特征来识别领域概念，从而提高了准确率和召回率。

2、本发明能够更好地识别出那些重要的低频概念。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1示出了本发明一个实施例的面向开放文本的领域概念抽取方法的整体流程；

图2示出了本发明一个实施例中从原始语料中提取候选领域概念的一个具体流程；

图3示出了本发明一个实施例中将候选领域概念扩展为词向量的具体流程；

图4示出了本发明一个实施例中计算每个候选领域概念的领域相关度的流程；

图5示出了本发明一个实施例中所构造的二部图的示例；

图6示出了本发明一个实施例中一个句法分析树的示例；

图7示出了本实施例中将一个候选领域概念进行扩展并最终得出该候选领域概念对应的词向量的示例。

具体实施方式

如前文所述，现有的面向开放文本的领域概念抽取方法的准确率和召回率都有待提高。发明人对此做了深入分析，发现：一方面，现有的领域概念抽取方案中，通常仅考虑候选领域概念本身的字面特征，未考虑其上下文特征，这样在领域概念抽取过程中就难以引入上下文信息所造成的影响，导致实际应用中表现较差。另一方面，现有的识别方案中，词频往往会被作为一种重要的识别依据，然而，在很多领域中一些重要的领域概念在开放文本中出现的频次并不高。这就导致在领域概念抽取时有可能忽略实际上很重要的低频领域概念。基于此，发明人一方面将候选领域概念的上下文特征引入，另一方面，针对低频领域概念做出优化，从而提出了一种基于词向量和加权HITS算法的面向开放文本的领域概念抽取方法。

图1示出了本发明一个实施例的面向开放文本的领域概念抽取方法的整体流程，包括下列步骤100～400：

步骤100：遍历原始语料库中的每一篇开放文本，对于每一篇开放文本，分别从其中提取候选领域概念。本实施例中，对于一篇开放文中，提取其中候选领域概念的方法是：对原始语料使用ICTCLAS进行分词，例如“发动机管理系统”拆分为“发动机”、“管理”、“系统”；使用Stanford句法分析工具进行句法分析得到可能构成领域概念的词语，合并与过滤这些词语得到最终的候选领域概念。其中，可能构成领域概念的词语包括：在分词和句法分析步骤中被判定为名词或名词短语的词语。

下面以“据山东广播电视台新闻中心《山东新闻联播》报道，济南二机床集团为一汽大众公司华东基地提供8100吨高速智能冲压线项目，今天在青岛签约。”这句话为例进行描述。图2示出了从原始语料中提取候选领域概念的一个具体流程，参考图2，该具体流程包括下述步骤101～103：

步骤101：使用ICTCLAS对原始语料进行分词。例如上述例子中的分词结果为：据/山东/广播/电视/台/新闻/中心/《/山东/新闻/联播/》/报道/，/济南/二/机床/集团/为/一汽/大众/公司/华东/基地/提供/8100/吨/高速/智能/冲压/线/项目/，/今天/在/青岛/签约/。

步骤102：使用Stanford句法分析工具进行句法分析，得出名词和名词短语。Stanford句法分析工具得到的名词短语长度较短，因此记录句法树中所有层上解析出的名词/名词短语作为候选，这样便可从非叶节点层获得长短语。例如对于“一汽大众公司”，由Stanford句法分析工具分析出“一汽”、“大众”、“公司”，可得到如图6所示的句法分析树。通过解析非叶节点层，就可以得到“一汽”、“大众”、“公司”、“一汽大众”、“一汽大众公司”五个候选领域概念。

步骤103：统计经过步骤102后所得到的候选领域概念，合并相同的名词或名词短语，得到最终的候选领域概念，同时统计该候选领域概念在当前开放文本中出现的次数，即出现频次。

步骤200：对于每一文本提取出的每一个候选领域概念，利用短语拆分结果、上下文信息、百科分类信息三种特征将步骤100所得的候选领域概念扩展为词向量。其中，步骤100可获得候选领域概念的短语拆分结果，利用Word2Vec工具可获取候选领域概念的上下文信息，百科分类信息则可以采用百度百科、互动百科、维基百科等百科类网站对候选领域概念的分类，即使用候选领域概念在百科类网站的所属分类来代表其百科分类信息。上述短语拆分结果、上下文信息、百科分类信息组合后即为该候选领域概念所关联的词向量。组成这个词向量的元素将被作为领域标签，参与下一步骤的数据处理。本步骤中，还进一步统计每个领域标签在词向量中的出现频次，即对于每一个领域标签，统计该领域标签在相应候选领域概念的短语拆分结果、上下文信息和百科分类信息等语料中出现的总频次。

图3示出了本发明一个实施例中的将候选领域概念扩展为词向量的具体流程。下面，结合图3，以候选领域概念:“一汽大众”为例，介绍将候选领域概念扩展为词向量的具体流程。

步骤201：对“一汽大众”进行字面扩展，得到“一汽”、“大众”。

步骤202：利用Word2Vec寻找语料库中“一汽大众”的上下文信息，例如得到“发动机”、“特价车”、“家用车”、“制动”。

步骤203：对步骤201和步骤202中得到的词，在百科中寻找它们所属的分类。例如“大众”的所属分类有“大众汽车”、“汽车制造公司”。由于分类信息过于稀疏，故需将得到的分类信息进一步分词，进一步得到“大众”、“汽车”、“制造公司”。

步骤204：将上述三个步骤得到的词组进行整合并加以词频(即出现频次)统计，得到最终的词向量。图7示出了本实施例中将一个候选领域概念进行扩展并最终得出该候选领域概念对应的词向量的示例。所得到的词向量中的各个词在后续的步骤300计算领域相关度时将作为领域标签使用。

步骤300：根据步骤100得到的候选领域概念以及步骤200所得到的词向量构造二部图，并使用加权HITS算法对候选领域概念的领域相关度根据公式进行迭代计算，得到各个候选领域概念的领域相关度。

图4示出了本发明一个实施例中计算每个候选领域概念的领域相关度的流程，包括下述步骤301～302：

步骤301：构造二部图G＝(V,E)。图5示出了本发明一个实施例中所构造的二部图的示例。参考图5，根据所有开放文本中抽取到的候选领域概念和领域标签集合构造二部图，其中，领域标签是步骤200所得的词向量中的词。在二部图中，候选领域概念指向其词向量中包含的领域标签，即每个候选领域概念映射至它的词向量所包含的所有领域标签。候选领域概念的集合记作子集A，领域标签的集合记作子集B。构造二部图G＝(V,E)，其中互不相交的子集(A,B)构成了V，E则代表从A到B的映射所组成的集合，上述映射在图中以边的形式表示，其中的每条边(i，j)所关联的两个顶点i和j分别属于子集A和B。从图5中可以看出，子集A和子集B之间具有多对多的映射关系。这种多对多的映射关系反映的是各个候选领域概念与各个领域标签的多对多关联关系。需要说明的是，一个候选领域概念可能在多个开放文本中出现，因此在步骤200中，字面相同的候选领域概念可能对应于不同的词向量。本实施例中，在构造二部图时，对应于不同词向量的候选领域概念，只要其字面相同，就认为是同一候选领域概念加入子集A中。

步骤302：基于HITS算法迭代计算二部图两部分中候选领域概念的领域相关度和领域标签的权值，直到收敛。其中，基于预设的各个领域标签的权值的初始值，计算各个候选领域概念的领域相关度；基于所得出的各个候选领域概念的领域相关度，计算并更新各个领域标签的权值；再基于当前所得出的各个领域标签的权值，计算并更新各个候选领域概念的领域相关度；不断重复，直至所述领域标签的权值收敛。此时，将当前的领域相关度作为左后的领域相关度。

HITS算法是对二部图进行处理的一种典型算法，它能够根据二部图中两个子集的多对多映射关系建立两个子集元素之间的关联模型，通过迭代计算，得出两个集合中各个元素的权值。一个元素的权值表征的是该元素在其所处子集中的重要程度，根据这个重要程度就可以对子集中的元素进行排序。HITS算法所建立的模型包括：基于子集B中各元素的权值以及子集B中各元素与子集A中各元素的关联关系，计算子集A中各元素的权值子模型；和基于子集A中各元素的权值以及子集A中各元素与子集B中各元素的关联关系，计算子集B中各元素的权值子模型。在利用HITS算法进行计算时，通常先设置子集A或B中各元素的权值的初始值，然后利用上述两个模型进行反复迭代计算，直至子集A和B中各元素的权值收敛，这些收敛值就是子集A和B中各元素的权值。本实施例中，实际上就是把子集A的权值作为候选领域概念的领域相关度，把子集B的权值作为领域标签的权值。这样，基于现有的HITS算法即可通过迭代计算得出子集A中各个元素的权值，也就是得出各个候选领域概念的领域相关度。容易看出，该领域相关度同时考虑到了对应候选领域概念的短语拆分结果、上下文信息以及百科分类信息的影响，能够更加准确地反映该候选领域概念的重要程度，因此能够帮助提高领域概念抽取的准确率和召回率。在现有技术中，HITS算法主要用于搜索引擎领域的链接分析、Web结构分析、社交网络分析、社区发现等技术方向，HITS算法的具体内容可以参考文献:KleinbergJM.Authoritativesourcesinahyperlinkedenvironment[J].JournaloftheACM(JACM),1999,46(5):604-632.。

进一步地，在一个优选实施例中，采用加权HITS算法计算候选领域概念的领域相关度R(C_i)和领域标签的权值R(T_j)，其中，候选领域概念C_i的领域相关度R(C_i)为与其相关联的所有领域标签权值与标签权重的乘积和，即候选领域概念C_i的领域相关度R(C_i)为与其相关联的所有领域标签权值的加权和，具体如公式(1)所示：

R (C_{i}) = Σ_{T_{j} &Element; V_{C_{i}}} w_{T_{j}} R (T_{j}) - - - (1)

其中为所有与候选领域概念C_i相关联的领域标签集合，R(T_j)为领域标签T_j的权值。T_j加以权重为领域标签T_j的权重，它根据领域标签的出现频次得出，以调和高低频领域相关度的差异。

领域标签权重的计算方式如公式(2)所示：

w_{T_{j}} = \frac{f r e q (T_{j})}{Σ_{C_{i} &Element; V_{a l l C}} f r e q (C_{i})} - - - (2)

其中freq(T_j)表示领域标签出现的频次，V_allC为所有候选领域概念的集合，公式(2)右侧的分母表示所有候选领域概念的总出现频次。

同理计算领域标签T_j的权值R(T_j)，计算方法如公式(3)所示：

R (T_{j}) = Σ_{C_{i} &Element; V_{T_{j}}} w_{C_{i}} R (C_{i}) - - - (3)

其中为所有关联到领域标签T_j的候选领域概念集合，R(C_i)为候选领域概念C_i的相关度。为候选领域概念C_i的权重。

候选领域概念权重的计算方式如公式(4)所示：

w_{C_{i}} = \frac{f r e q (C_{i})}{Σ_{C_{j} &Element; V_{a l l C}} f r e q (C_{j})} - - - (4)

其中freq(C_i)为候选领域概念C_i出现的频次，V_allC为所有候选领域概念的集合，公式(4)中右侧的分母表示所有候选领域概念的总出现频次。

总体来说，某候选领域概念的权重为其与所有候选领域概念出现频次和的比重。因此，通过上述公式(1)～(4)实质上是利用出现频次信息对传统的HITS算法进行了加权处理，因此本实施例的方法也可以称为加权HITS算法。这种加权HITS算法能够避免权值基于词向量的每个词单纯叠加，进而避免因多次迭代放大误差而导致的字数较多的领域概念的领域相关度被过度放大。

步骤400：根据步骤300所得的候选领域概念的领域相关度，或者结合步骤300所得的候选领域概念的领域相关度和候选领域概念的其它特征(例如出现频次)，得到最终的领域概念。

在一个实施例中，对于字符长度(即字数)小于10的候选领域概念，结合该候选领域概念出现的频次和所计算出的领域相关度进行筛选；对于字符长度大于等于10的候选领域概念，仅根据所计算出的领域相关度筛选，最终得出领域概念。

将领域相关度和领域概念出现频次相结合进行筛选的方法可以是阈值法。在具体实现上，可以预设一个领域相关度阈值和一个领域概念出现频次阈值，当候选领域概念的领域相关度超过领域相关度阈值且超过领域概念出现频次阈值时，判定该候选领域概念为正式的领域概念，否则，丢弃该候选领域概念。优选地，领域相关度的阈值为10^-6，领域概念出现频次阈值为10。需要说明的是，上述领域相关度阈值和领域概念出现频次阈值都可以根据实际情况进行调整，例如可以以已知的语料库为基础进行测试，尝试不同阈值并监测相应的准确率和召回率，最后选择出测试结果较佳的阈值。

本发明利用候选领域概念的字面和上下文特征，以及已有的知识库背景知识扩展词组，将其表示为词向量；提出加权HITS算法，利用词向量对重要的低频概念赋予更高的权重，继而提高其领域相关度。

为进一步验证本发明的技术效果，发明人使用包含29822篇文本的军事领域文本集合进行了测试。其中，采用基于互信息的领域概念抽取方法(MI)、基于领域相关性和一致性的领域概念抽取方法(DC)、作为对比。测试结果如下：相对于上述两种方法(MI/DC)，本发明的方法在低频领域概念的识别中，准确率分别提高了14.3％/11.9％，召回率分别提高了30.3％/14.0％。另外，在本发明中，与采用传统的HITS算法的方案相比，采用加权HITS算法的方案的召回率提高了9.4％。

最后应说明的是，以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其它的修改、变化、应用和实施例，并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims

1.一种面向开放文本的领域概念抽取方法，包括下列步骤：

1)遍历开放文本集合，分别从每一篇开放文本中提取候选领域概念；

2)对于所提取出的每一候选领域概念，利用该候选领域概念的短语拆分结果、上下文信息和百科分类信息得到该候选领域概念所关联的词向量，将该词向量中的所有的词分别作为该候选领域概念所关联的领域标签；

3)用步骤1)得出的所有候选领域概念构建候选领域概念集合A，用步骤2)得出的所有领域标签构建领域标签集合B；基于所述候选领域概念集合A中各个元素与领域标签集合B中各个元素的关联关系，利用HITS算法进行迭代计算，得出表征所述候选领域概念集合A中各个候选领域概念在该候选领域概念集合A中的重要程度的领域相关度；

2.根据权利要求1所述的面向开放文本的领域概念抽取方法，其特征在于，所述步骤1)包括下列子步骤：

11)对开放文本的原始语料进行分词；

12)对于分词结果，通过进行句法分析得到其中名词或名词短语作为所述候选领域概念。

3.根据权利要求2所述的面向开放文本的领域概念抽取方法，其特征在于，所述步骤12)还包括：合并相同的名词和名词短语，统计各个名词和名词短语的出现频次作为相应候选领域概念的出现频次。

4.根据权利要求3所述的面向开放文本的领域概念抽取方法，其特征在于，所述步骤2)中，所述HITS算法为加权HITS算法。

5.根据权利要求1所述的面向开放文本的领域概念抽取方法，其特征在于，所述步骤3)包括下列子步骤：

34)重复步骤32)和33)，直至所述领域相关度或者所述领域标签的权值收敛。

6.根据权利要求5所述的面向开放文本的领域概念抽取方法，其特征在于，所述步骤31)和33)中，基于下述规则计算和更新所述领域相关度：候选领域概念的所述领域相关度为与该候选领域概念相关联的所有领域标签的权值的加权和；所述步骤32)中，基于下述规则计算和更新所述领域标签的权值：领域标签的权值为与该领域标签相关联的所有候选领域概念的领域相关度的加权和。

7.根据权利要求6所述的面向开放文本的领域概念抽取方法，其特征在于，所述步骤32)中，在计算各个领域标签的权值时，所述的各个候选领域概念的领域相关度的权重分别根据该候选领域概念的出现频次得出。

8.根据权利要求6所述的面向开放文本的领域概念抽取方法，其特征在于，所述步骤31)和33)中，在计算各个候选领域概念的领域相关度时，所述的各个领域标签的权重分别根据该领域标签的出现频次得出。

9.根据权利要求1所述的面向开放文本的领域概念抽取方法，其特征在于，所述步骤4)中，所述候选领域概念的特征还包括该候选领域概念的出现频次。

10.根据权利要求9所述的面向开放文本的领域概念抽取方法，其特征在于，所述步骤4)还包括：当所述候选领域概念的出现频次大于预设的出现频次阈值，且所述候选领域概念的领域相关度大于预设的领域相关度阈值时，判定该候选领域概念为正式的领域概念；否则，丢弃所述候选领域概念。