CN106897264A

CN106897264A - 一种基于社团划分的无监督复合短语识别方法

Info

Publication number: CN106897264A
Application number: CN201710018100.0A
Authority: CN
Inventors: 柳厅文; 闫旸; 李全刚; 亚静; 王玉斌; 时金桥; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2017-01-10
Filing date: 2017-01-10
Publication date: 2017-06-27

Abstract

本发明涉及一种基于社团划分的无监督复合短语识别方法。该方法包括：1)采用词性标注工具对输入的语料进行词性标注和分词；2)生成科技复合短语的上下文模板，并通过所述上下文模板对分词后的语料进行科技复合短语的预提取；3)将预提取后的文本中的分词序列映射到有序的社团图结构，按照分词之间的权重将前后具有紧密联系的词语划分到一个社团分段中；4)计算各个社团分段的模块度，并求解不同社团分段的组合的模块度，将整个输入文本的模块度之和最大化；5)验证各社团分段是否包含科技复合短语的特征词，以实现科技复合短语的最终识别。本发明只需少量标注语料，便可以自动识别科技类复合短语，是一种高效的科技类复合短语识别方法。

Description

一种基于社团划分的无监督复合短语识别方法

技术领域

本发明属于信息技术领域，具体涉及一种基于社团划分的无监督复合短语识别方法。

背景技术

随着多科学研究的逐步深入，现今学术界和研究者发表大量的研究成果呈海量爆炸性增长。如何自动化收集、整合、分析这些工作成为了学术界和工业界关注的问题。包括论文、书籍、技术报告、专利的题目、科技项目名称等，这一类短语在这里统称为复合短语。如何高效的从各类网络语料中抽取需要的科技复合名词实体，是自动化进行学术信息抽取、知识产权保护、科技资源数据库在线建设与维护等诸多应用的基础。

传统意义上的命名实体作为是自然语言处理的基本任务抽取的对象，主要包括人名、地名、组织机构名、数字、计量单位等专有名词。这些命名实体具有长度相对稳定、结构规范、命名规则同意的有利特点，这使得传统的命名实体识别系统的F₁-measure往往能达到90％以上，几乎接近人类正常识别水平。而科技类名词短语不同于人名和地名。科技类名词往往内部结构复杂，内部包含嵌套的科技名词实体。而且科技类名词短语纷繁复杂，词语的出现与否本身具有极大的稀疏性，内部实体之间相互组合的冗余度低。这类词法结构导致识别该类命名实体的难度较大。这使得通过词语本身隐式马尔科夫输入的方法不可行。由于复合短语相对于普通的命名实体(人名、地名、机构名)词语本身词法组成更加复杂，传统的纯手工角色标注容易导致标注错误，而且传统方法依赖于手工标注数据，费事费力。

发明内容

本发明的目的在于提供无监督的复合短语自动识别方法，为解决科技类短语手工标注数据费时费力的困难以及传统的有监督方法效果较差的问题，针对科技类名词短语数据稀疏、冗余度低的特点，本发明提出了一种基于社团划分的无监督复合短语的高效识别方法。

本发明采用的技术方案如下：

一种基于社团划分的无监督复合短语识别方法，其步骤包括：

1)采用词性标注工具对输入的语料进行词性标注和分词；

2)生成科技复合短语的上下文模板，并通过所述上下文模板对分词后的语料进行科技复合短语的预提取；

3)将预提取后的文本中的分词序列映射到有序的社团图结构，然后按照分词之间的权重将前后具有紧密联系的词语划分到一个社团分段中；

4)计算各个社团分段的模块度，并求解不同社团分段的组合的模块度，将整个输入文本的模块度之和最大化；

5)验证各社团分段是否包含科技复合短语的特征词，以实现科技复合短语的最终识别。

进一步地，步骤2)根据科技复合短语的频繁上下文特性，采用基于LDA自动生成模板的方法来生成所述上下文模板。

进一步地，步骤3)所述分词之间的权重包括特殊符号权重、维基百科权重以及词性权重。

进一步地，步骤4)通过动态规划求解不同社团分段的组合的模块度。

进一步地，步骤5)采用最小集合覆盖的方法来产生特征词集合，进而利用特征词集合进行所述验证。

本发明的关键点包括两个方面：

(1)针对设置对科技类复合名词短语自身的特点，通过将输入序列映射到有序的社团图模型的，并通过模块度最大化的切分，将候选科技复合短语切分出来。

(2)根据复合短语特征词中富含特征词这一重要特性，采用了前一阶段的分段是否包含特征词来实现候选科技复合短语的最终识别。本发明采用了最小集合覆盖的思想，来产生特征词集合。

本发明的有益效果如下：

本发明提供了一种基于社团划分的无监督复合短语的识别方法，相比于传统的有监督方法，只需少量标注语料，便可以自动识别科技类复合短语。本发明便于在线部署应用，是一种高效的科技类复合短语识别方法。

附图说明

图1是命名实体识别处理流程图。

图2是单词图分割例子图。

图3是二元运算计算示意图。

图4是参数u在NSTPA语料上对查准率、查全率、F₁测度的影响曲线。

图5是参数u在WPATENT语料上对查准率、查全率、F₁测度的影响曲线。

图6是参数v在NSTPA语料上对查准率、查全率、F₁测度的影响曲线。

图7是参数v在WPATENT语料上对查准率、查全率、F₁测度的影响曲线。

图8是滑动窗口大小在NSTPA语料上对查准率、查全率、F₁测度的影响曲线。

图9是滑动窗口大小在WPATENT语料上对查准率、查全率、F₁测度的影响曲线。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步说明。

1.科技复合短语的特征

基于对复合短语的观察，发现有以下几个特性：

(1)频繁的上下文模型：复合短语，例如论文题目、专利名称、科技项目名等，出于宣传的需要，会经常与一些特性的句式结合。比如“XXX项目获得国家科技进步一等奖。”、“本单位论文XXX荣获NIPS最佳论文奖励”。诸如“项目获得”“论文荣获”等一类上下文模板，可以用作初步的模板抽取方法。

(2)多成分组成：复合短语往往由多个词语组成成分，例如：两系法杂交水稻研究与应用中，对其进行分词后，包含“两系法”、“杂交”、“水稻”、“研究”、“应用”这几个词语组成成分。

(3)维基百科成分：由于复合短语本身的领域特性，其内部成分往往是由维基百科条目组成。仍以科技复合短语“两系法杂交水稻研究与应用”为例，其中的“杂交”、“水稻”、“研究”、“应用”均为维基百科条目，由此可见，连续的维基百科条目可以作为从输入序列切分科技复合短语的一个重要依据。

(4)特殊组成词性：在科技复合短语中极少出现几类词性，例如系动词、人称代词、感叹词、语气词，输入序列的中若出现此类词性，则可作为依据，切分上下文输入词语序列。

根据以上几个原则，我们提出基于社团划分的原则：首先利用上下文模板对输入序列进行初步的提取，将命中的输入序列映射到一个有序的社团结构模型中。将前后具有紧密联系的词语划分到一个分段中，以将无关的成分与候选复合短语相分离。本发明所述“社团结构”是指网络中的社团结构，网络中的顶点可以分成组，组内顶点间的连接比较稠密，组间顶点的连接比较稀疏。

2.科技复合短语的识别流程

如图1，本方法模型主要分为四部分：第一部分首先采用词性标注工具对输入语料进行词性标注和分词。第二部分通过科技复合短语上下文模板进行预提取。第三部分将分词结果看作有序的社团，通过顺序划分计算各个社团划分的模块度，通过动态规划求解不同分段组合的模块度，将整个输入文本的模块度之和最大化。第四部分通过验证分段是否包含特征词，从而筛选出需要的复合短语。本算法通过整个流程如图1所示。

1)模板预提取

由之前所述科技复合短语的性质(1)，即频繁上下文特性，本发明提出一种基于LDA(Latent Dirichlet Allocation，一种无监督学习的主题概率生成模型)自动生成模板的模板生成方法。假设训练语料的规模为M，共有K个模板词，组成上下文模板，假设每条语料包含V个分词，将每一条语料看成是LDA模型的一篇文档，每一个模板词看作是一个主题。存在着两个分布的参数向量和分别针对每个文档-主题分布以及主题-单词分布。采用Gibbs采样((1)式)来确定每个词语对应的主题分布。通过抽样，获得每一个文档对应的该主题数目以及改主题下该词语的数目。并迭代更新以及

其中，Dir表示超参下的狄利克雷分布，表示主题的多项式分布向量，表示词语的多项式分布向量，z_i表示主题分布，w表示词语，表示文档m对应主题k的次数，表示词语t在主题k中出现的次数，α_k表示个文档-主题分布的超参数向量，β_t表示主题-单词分布超参数向量，k表示词语对应的模板主题，K表示模板词的数量，t表示主题下产生对应的模板词，V表示词典的大小。

2)基于社团划分的精确提取

经过模板预提取后，提取出的文本除了科技复合短语还有可能混杂其他无关成分，下一步需要做进一步精确的提取工作。我们在这里假定通过基本标点符号截取的输入分词序列前后由边相连，构成一个有序的社团图结构。在输入的一段文本中，各个词之间在语义上是关联的，所有的分词与关联构成一个图。从该分词的序列中提取并组合合适的内容如同对图进行了切分。将切分后语义权重高的分配到一个社团内，使得整个社团的模块度之和最大(如图2)。

我们这里定义整个输入序列对应的社团的模块度为：

其中

其中，S代表若个个连续分词组成的社团，A_ij代表点i到点j的边权重，k_i代表点i的权重之和，m代表整个网络的权值之和。γ(i)代表节点i所处的社团编号。δ(γ(i)，γ(j))代表克罗内克函数，当节点i与j在同一个社团时，δ(γ(i)，γ(j))＝1，当节点i与j不在同一个社团时，δ(γ(i)，γ(j))＝0。本发明在传统的克罗内克函数上增加了长度归一化因子|Seg(i,j)|，其代表节点i与j所在的社团分段的长度。

为了求解所有分段方案的中最优方案，我们提出基于动态规划的分段划分算法GenericSegVal(Generic compound entities SEGment and VALidation solutions)，对输入序列求解全局模块度最大化的划分方法。我们遍历每一个分割方案，而递归求解整体最优的划分方案。

该算法为动态规划算法，共有两个参数u和v，其中u为分段的最大长度，v为递推求解的候选集合大小。该算法描述如下：

输入：包含l个分词的文本t；分段的最大长度u；针对每个分段迭代计算候选集合大小v

输出：包含l个分词的文本t对应的最优的分段t＝s₁s₂...s_m

返回中Q(s_m)值最大的划分方案作为最优划分

上述算法用自然语言描述如下：

a)假设当前句子包含的分词数为n，算法从1到n-1之间逐个递归遍历切分得到的子分段之和，其中参数u是为了限制每个子分段中包含分词的最大数量；

b)算法从1到n-1之间存储之前划分的子分段的前v个最优划分，当算法进行下一次递归时，会在已经存储的最优划分方案中递归查找，以求解当前子分段的前v个最优划分；

c)递归进行这一过程，直到在句子分词的末尾，从而得到整个句子的前v个最优划分。

3)分词之间的边权重计算

通过对科技复合短语的分析，本发明将分词之间权重划分为特殊符号权重、维基百科权重以及词性权重。

我们定义分词之间的权重的计算公式为

A(w₁，w₂)＝(A_sm(w₁，w₂)+A_wt(w₁，w₂))×A_p2v(w₁，w₂)

其中，w₁、w₂代表两个分词，A_sm代表特殊符号权重，A_wt代表维基百科权重，A_p2v代表词性的word2vec权重。

特殊符号权重：科技复合短语、例如论文与专利题目等往往由特殊符号包围，基于此现象，位于特殊符号内的分词节点应当具有更高的权重。我们定义特殊符号权重为其中D_s(w₁，w₂)代表w₁与w₂之间间隔的分词个数，为表征w₁与w₂之间是否位于同一对特殊符号的布尔函数。

维基百科权重：由上述科技复合短语的维基百科特性可知，连续的维基百科条目为科技复合短语的可能性较大。这里定义维基百科权重为：

其中I(w)为表征w是否为维基百科条目的布尔函数，w表示位于w₁和w₂之间的分词，w₁和w₂表示本文中两个分词，|s|表示分段s中分词的个数，|s|表示分段s中分词的个数，s′表示位于词w₁与词w₂之间的分词组成的分段。

词性权重：由科技复合短语中特殊组合词性特性可知，部分词性极少出现在科技复合短语中。基于此观察，我们引入word2vec模型，我们将词性标注后的科技复合短语的输入序列作为训练word2vector的模型(简称pos2vec)。我们这里定义词性权重为。

这里在分子加1是为了保证A_p2v(w₁，w₂)恒为正。其中，S_c表示词w₁和w₂对应词性在隐式空间内的余弦相似度，p(ω₁),p(ω₂)表示词w₁和w₂对应的词性，表示词w₁和w₂对应词性在隐式空间的向量。

4)科技复合短语的验证

在切分后的候选科技复合短语实体中，需要对候选的集合进行判断。注意到科技类科技复合短语中包含一类特殊的高频词语、例如上述短语中的“技术”、“研究”和“应用”。我们将这一类词语称为科技复合短语的特征词。特征词集合规模过大会导致过匹配非复合短语。而特征词集合规模过小又会导致遗漏。为了解决上述问题，我们基于最小集合覆盖问题，进行特征词集合的生成。所谓最小集合覆盖，是指给定全集U，以及一个包含n个集合且这n个集合的并集为全集的集合S。集合覆盖问题是要找到S中最小的子集，使得他们的并集等于全集U，并且子集的规模最小。给定科技名词短语集合，记训练集为P＝{p₁，p₂，...，p_n}，其中p_i为第i条文本标题。通过对P进行分词处理后可以获取一个词典数据W＝{w₁，w₂，...，w_m}，其中w_i为词典中第i个单词。关系类型的特征词提取可以转化为在词典中寻找一个满足最小覆盖的子集S，使得S满足：

1.集合S能够覆盖集合P，即P的每条语料p_i中至少有一个单词在S中出现；

2.S中元素个数最小。由于求解最小集合覆盖问题是一个NP-hard问题。这里采用贪心算法求解特征词的覆盖问题。

将求解训练集P的最小覆盖单词集S问题记为WLAN(Words with the LeAstNumber)。我们通过以下方法求解特征词的最小覆盖集合。通过训练集P和词典W可以构造一个m×n维的二值矩阵M，若词典中第i个单词w_i在p_j中出现过则M_ij＝1，否则M_ij＝0。首先如图3，定义二元运算符计算结果为去掉矩阵中M第i行以及所有第j列中非0元素M_ij≠0，j∈[i，n]，组成的新矩阵。如图3所示，P＝{p₁，p₂，p₃}为三条同类型的标题语料，分词后得到含有4个单词的词典W＝{w₁，w₂，w₃，w₄}，构造矩阵M。如果选择单词w₂，则的计算结果为删除M的第2行和第1列中非0元素所在的列，得到矩阵M′。利用运算符以使用动态规划的方法来求得问题的最优解。本发明中采用贪心算法计算问题的近似最优解，计算过程如下：

构造布尔矩阵M，对训练语料中所有科技复合短语看作矩阵M的列向量，对于训练语料中所有科技复合短语中所有的分词构成矩阵M的列向量的行向量。若一个单词在某条科技复合短语中出现，则把其对应结果置为1。

矩阵M作为初始输入值，令单词集

选择M中1数量最多的一行，假设为第i行，计算S＝S∪w_i；

令并将其作为下一步输入；

重复上述两个步骤直到M为空矩阵为止，此时单词集S即所求的最小覆盖集，即得到了科技复合短语的特征词集合。然后利用该特征词集合，通过验证分段是否包含特征词，从而筛选出需要的复合短语。

3.本发明的效果

我们利用包含从2005年到2014年的获得国家科技进步奖(National Science andTechnology Progress Award between)的科技项目作为输入，爬取并选取1869条语料数据作为实验数据(以下简称为NSTPA)；另外在万方专利库中爬取5022条数据(以下简称WPATENT)。其中每一条语料包含一个或者多条复合短语。在其中本发明选取了681条数据(以下简称为681-NSTPA)，强前后共投入四名志愿者，花了两个月的时间，做了隐式马尔科夫模型的角色标注。训练集与测试集采用十折交叉验证的方法，另外，本发明从搜狗新闻语料中选取766条数据(以下简称为SOUGOU)，其中不包含任何科技复合短语。我们定义单条查全率(Recall Rate)、查准率(Precision Rate)如下：

这里，e_ij与分别代表正确的科技复合短语与提取出的科技复合短语，代表e_ij与的公共字串长度。如果e_ij与均为空，则我们定义Re(t_i)＝Pr(t_i)＝1；若e_ij非空而为空，Re(t_i)＝0，Rr(t_i)＝1；若非空而e_ij为空，Re(t_i)＝1，Pr(t_i)＝0。总体查全率和查准率定义为：

表1实验方法及数据集对比

方法及数据集	查全率	查准率	F1测度
				HMM on 681-NSTPA	48.83％	47.76％	48.29％
GenericSegVal on 681-NSTPA	72.40％	76.92％	74.59％
				GenericSegVal on NSTPA	71.6％	72.8％	72.2％
GenericSegVal on WPATENT	95.3％	94.1％	94.7％
				GenericSegVal on SOUGOU	100％	88.90％	94.13％

GenericSegVal的分割最大长度参数u设定为30，候选集合规模大小v设定为15，并假定前后所有的点在社团图中具有连接边。由表1可以看出，在681-NSTPA对比数据集上，本发明的基于图的最大权重划分的复合短语的识别方法(GenericSegVal)好于基于隐式马尔科夫的方法(HMM)，在完整的数据集NSTPA、WPATENT以及SOUGOU上，分别取得了71.6％的查全率、72.8％的查准率、72.2％的F1测度；95.3％的查全率、94.1％的查准率、94.7％的F1测度以及100％的查全率、88.90％的查准率、94.13％的F1测度。

4.本发明的实例

本发明的切分文本算法有两个参数，分段最大长度u、候选集合大小v。另外我们限定前后图中相连的点的个数在一个滑动窗口内。

图4是参数u在NSTPA语料上对查准率、查全率、F₁测度的影响曲线。图5是参数u在WPATENT语料上对查准率、查全率、F₁测度的影响曲线。图6是参数v在NSTPA语料上对查准率、查全率、F₁测度的影响曲线。图7是参数v在WPATENT语料上对查准率、查全率、F₁测度的影响曲线。图8是滑动窗口大小在NSTPA语料上对查准率、查全率、F₁测度的影响曲线。图9是滑动窗口大小在WPATENT语料上对查准率、查全率、F₁测度的影响曲线。

根据图4～图9可以发现以下规律：查全率、查准率、F1测度随着u增大而增大。随着u增大，查全率、查准率、F1测度增长速度减慢，随后停滞不前，这表明当u大于科技复合短语的长度是，对本发明的GenericSegVal算法性能影响不变，只会增加算法运行时间与内存开销。当v增长时，算法总体性能轻微增长,这表明是适当的迭代候选集合大小足以满足算法需要。当随着前后连接的滑动窗口规模的增大，算法性能急剧增加，但是窗口到达一定规模后，算法性能增长趋于停滞。这表明为了减小内存与时间消耗，适当缩减滑动窗口大小，不会明显降低算法的性能。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于社团划分的无监督复合短语识别方法，其步骤包括：

1)采用词性标注工具对输入的语料进行词性标注和分词；

2.如权利要求1所述的方法，其特征在于：步骤2)根据科技复合短语的频繁上下文特性，采用基于LDA自动生成模板的方法来生成所述上下文模板。

3.如权利要求1所述的方法，其特征在于：步骤3)所述分词之间的权重包括特殊符号权重、维基百科权重以及词性权重。

4.如权利要求3所述的方法，其特征在于，所述特殊符号权重为：

Q_{s m} (w_{1}, w_{2}) = e^{D_{e} (w_{1}, w_{2})} \times I_{s}^{s m} (w_{1}, w_{2}),

其中，D_s(w₁，w₂)代表分词w₁与w₂之间间隔的分词个数，为表征w₁与w₂之间是否位于同一对特殊符号的布尔函数。

5.如权利要求3所述的方法，其特征在于，所述维基百科权重为：

A_{w t} (w_{1}, w_{2}) = \frac{\underset{w &Element; s^{'}}{Σ} I (w)}{| s | - \underset{w &Element; s^{'}}{Σ} I (w) + 1} \times I (w_{1}) \times I (w_{2})

其中，I(w)为表征w是否为维基百科条目的布尔函数，w表示位于w₁和w₂之间的分词，w₁和w₂表示本文中两个分词，|s|表示分段s中分词的个数，|s|表示分段s中分词的个数，s′表示位于词w₁与词w₂之间的分词组成的分段。

6.如权利要求3所述的方法，其特征在于，所述词性权重为：

这里在分子加1是为了保证A_p2v(w₁，w₂)恒为正，其中，S_c表示词w₁和w₂对应词性在隐式空间内的余弦相似度，p(ω₁),p(ω₂)表示词w₁和w₂对应的词性，表示词w₁和w₂对应词性在隐式空间的向量。

7.如权利要求1所述的方法，其特征在于：步骤4)定义整个输入序列对应的社团的模块度为：

Q (S) = \frac{1}{2 m} Σ_{i, j &Element; S} (A_{i j} - \frac{k_{i} k_{j}}{2 m}) δ^{'} (γ (i), γ (j)),

δ^{'} (γ (i), γ (j)) = \frac{δ (γ (i), γ (j))}{| s e g (i, j) |},

其中，S代表若个个连续分词组成的社团，A_ij代表点i到点j的边权重，k_i代表点i的权重之和，m代表整个网络的权值之和；γ(i)代表节点i所处的社团编号，δ(γ(i)，γ(j))代表克罗内克函数，当节点i与j在同一个社团时，δ(γ(i)，γ(j))＝1，当节点i与j不在同一个社团时，δ(γ(i)，γ(j))＝0；|Seg(i,j)|为长度归一化因子，代表节点i与j所在的社团分段的长度。

8.如权利要求1所述的方法，其特征在于：步骤4)通过动态规划求解不同社团分段的组合的模块度。

9.如权利要求1所述的方法，其特征在于：步骤5)采用最小集合覆盖的方法来产生特征词集合，进而利用特征词集合进行所述验证。