CN103150382A

CN103150382A - 基于开放知识库的短文本语义概念自动化扩展方法及系统

Info

Publication number: CN103150382A
Application number: CN2013100819846A
Authority: CN
Inventors: 程学旗; 刘盛华; 肖永磊; 王元卓; 刘悦
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-03-14
Filing date: 2013-03-14
Publication date: 2013-06-12
Anticipated expiration: 2033-03-14
Also published as: CN103150382B

Abstract

本发明公开了一种基于开放知识库的短文本语义概念自动化扩展方法，所述方法将每条短文本生成的n-gram集合中的每个元素链接到开放知识库中与该元素最相关的概念，并且基于开放知识库的概念关系矩阵和所链接的概念，为该元素生成扩展的语义概念集合。该方法仅采用开放知识库文档中的锚文本信息而不采用文档的词项信息和目录信息来构建概念关系矩阵，这使得该矩阵的构造和计算方便，而且克服了目录信息粒度比较粗，歧义多的问题。而且在语义概念扩展阶段，采用基于上下文的语义相似度计算方法来进行语义概念扩展，同时考虑了短文本内容的上下文内容的一致性和概念在抽象语义层的相似性，提高了语义概念扩展的准确性。

Description

基于开放知识库的短文本语义概念自动化扩展方法及系统

技术领域

本发明属于互联网信息搜索与数据挖掘领域，尤其涉及对以社会化媒体短文本为主要内容的语义概念自动化扩展。

背景技术

在信息检索领域，语义扩展是公认的能够有效提高系统查全率的技术之一。其基本思想是利用与查询关键词相关的词语对查询进行修正，以找到更多相关的文档，提高查全率，然而，基于关键词的传统查询扩展方式常常带来很多语义理解的错误，如同义词问题，歧义问题等，在提高查全率的同时难以保证查准率。产生这种问题的根本原因有二方面：首先在现实生活中描述同样的对象或者事件的用词存在着多样性，如“东西”至少有五种含义，只有一种与用户的预期相关。其次，检索只是根据查询词的词形而不是词义进行匹配查找，这样会导致大量和查询词相关但是文档中又没有出现该查询词的信息丢失，如输入“体育新闻”后，只有那些明显出现“体育新闻”的文档才能够被检索到，但是像网球、田径等相关的新闻会被遗漏掉。为了解决这些问题，人们提出了基于概念的语义查询扩展，用概念来描述查询主旨，找到与查询语义相关的概念集合对查询进行扩展。按照概念的来源主要分为两类，一类是基于语义关系/语义结构的扩展方法，另一类是基于大规模语料库的扩展方法。

基于语义关系/语义结构的扩展方法通常依据已有的词典/本体，如WordNet(http://wordnet.princeton.edu/)、HowNet(http://www.keenage.com/)以及领域词典/本体，如医学领域的MeSH(http://www.nlm.nih.gov/mesh)等。这类方法都假定待扩展的词属于特定领域，而且基本上都是人工编辑，有很强的局限性。

基于语料库的扩展方法主要利用统计学习的方法进行语义扩展。主要思想源于语料库中共现性大的词语往往相关性也很大。通过互信息，主题模型等方法计算词语之间的语义相关度，然后选取语义最相关的几个词进行语义扩展。因为语料库既可以比较接近生活，又可以针对特定的领域，相对于基于语义关系/语义结构的方法更加灵活，更具扩展性。

随着Web2.0的发展，微博、照片分享网站Flicker、视频分享等社会化媒体已深入人们的日常生活，其中衍生出来的查询推荐、标签推荐、新闻推荐、问答、评论等应用产生了大量的网络短文本内容。这种社会化媒体上的短文本按其时间属性组织后形成文本消息流，包含着网民们的许多思想观念与倾向，对其进行深入的挖掘有重大的应用价值和学术意义。然而，文本消息的不完整性、奇异性、海量性和动态性导致文本消息流的话题发现、倾向性分析和热点信息挖掘十分困难。

以微博为例，微博作为新的Web2.0应用平台，已经得到快速的发展，并逐渐成为用户群最庞大，最活跃的网络媒体之一。Twitter自从创建以来，最近几年用户数量突飞猛进，已经成为最大的在线微博平台，拥有超过6500万的用户，每天超过2亿的微博信息(tweets)。2011年在中国也已经有14％的互联网用户开始使用微博，并呈逐年上升的趋势。微博传播迅速，极大的方便了人们的交流，但是由于人们对微博信息流的接受能力有限，往往不能即时有效的获取自己感兴趣的信息。微博快速产生的数量巨大的信息已经成为多种应用的重要信息源，比如新闻话题发现和追踪，广告投放等。不同于传统的长文本，微博具有以下特点：

1)微博里面用语大多随意，具有不规范性，噪声比较大。

2)微博长度的限制，使其具有天然的极稀疏性，很难提取出有效的内容特征。

以上特点对微博信息的挖掘带来了很大的挑战。针对微博内容的极稀疏性，将其链接到其它的知识库来扩展内容特征的研究，最近受到了越来越多的关注。Wikipedia(维基百科)作为一个互联网用户合作编辑的开放式的在线百科全书，具有较广的覆盖面和较高的准确度。由于其包含大量的文本语料库，内容组织结构化，不需要人工搭建等特点，比较适用于网络数据挖掘。很多研究工作通过利用Wikipedia的结构化信息来扩展微博或者短文本的内容，并结合机器学习的方法训练模型，取得了比较好的效果。参考文献1(P.Ferragina and U.Scaiella.Tagme：on-the-fly annotation ofshort textfragments(by wikipedia entities).In CIKM’10，2010)设计了一种在线的可以将短文本链接到语义相关的Wikipedia概念页面的系统，它采用了一种快速、有效的基于上下文的投票机制来进行语义消歧，在短文本和长文本上都获得了比较高的准确率，但是不能获得语义相近的更多概念集合，因为它的链接过程是基于字符匹配的，不能找到那些不匹配但语义相近的概念。参考文献2(Xianpei Han，Le Sun and Jun Zhao.Collective Entity Linking in Web Text：AGraph-Based Method.In SIGIR'11，2011)用图模型描述了Wikipedia中的概念之间关系，采用了随机游走算法(Random Walk)来找到语义相关的概念集合，虽然可以找到那些没有共现的语义相似度很高的概念，但图的节点数量巨大，计算效率成为一个瓶颈。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种基于开放知识库的短文本语义概念自动化扩展方法。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种基于开放知识库的短文本语义概念自动化扩展方法，包括：

步骤1)对短文本生成n-gram集合；

步骤2)对于所述n-gram集合中的元素执行下列操作：

将该元素链接到开放知识库中与该元素最相关的概念，以及

基于开放知识库的概念关系矩阵和所链接的概念，为该元素生成扩展的语义概念集合，

其中，所述开放知识库的概念关系矩阵的行为该开放知识库中的概念，列为该开放知识库中的文档，所述概念关系矩阵中元素的值为所在行的概念在所在列的文档中出现的总的次数。

上述方法中，所述步骤1)可包括：

利用短文本中包含的特殊符号和停用词作为分隔符，生成不包含特殊符号和停用词的短文本片段；

对每一个短文本片段分别产生n-gram；

合并每条短文本片段的n-gram，得到该条短文本的n-gram集合。

上述方法中，所述开放知识库可以为维基百科，所述该开放知识库中的概念为维基百科中的锚文本。

上述方法中，所述步骤2)中，所述n-gram集合中的元素可以为可链接的元素。

上述方法中，所述步骤2)还可包括从步骤1)所生成的n-gram集合中选择可链接的元素的步骤。

上述方法中，在所述步骤2中)将该元素链接到开放知识库中与该元素最相关的概念可包括：

将开放知识库中与该元素对应的所有概念作为该元素的候选概念集合；

计算该候选概念集合中每个概念与该元素之间的互信息；

选择与该元素之间的互信息最大的概念作为与该元素最相关的概念，从而将该元素链接到开放知识库中与该元素最相关的概念。

计算该候选概念集合中每个概念与该元素的上下文之间的相关性；

选择与该元素的上下文之间的相关性最大的概念作为与该元素最相关的概念，从而将该元素链接到开放知识库中与该元素最相关的概念；

其中，该候选概念集合中每个概念c_i与该元素的上下文之间的相关性以如下公式进行计算：

Score (c_{i}) = \frac{1}{| CT (t) |} Σ_{tm &Element; CT (t)} \log (1 + MI (tm, c_{i})),

其中，Score(c_i)表示候选概念

与t的上下文相关性大小，tm表示t的上下文集合CT(t)的一个n-gram，MI(tm，c_i)表示在开放知识库中tm和c_i之间的互信息。

上述方法中，在所述步骤2中)基于所述概念关系矩阵和所链接的概念，为该元素生成扩展的语义概念集合可包括：

2-a)，基于所述概念关系矩阵，获取概念之间的语义度相似度矩阵；

2-b)，根据概念之间的语义度相似度矩阵与所链接的概念，为该元素生成扩展的语义概念集合。

上述方法中，所述步骤2-a)可包括下列步骤：

步骤(2-a-1)假设以X表示所述概念关系矩阵，X为m×n矩阵，m为行数，表示概念的数目，n为列数，表示文档的数目，利用非负矩阵分解法将所述概念关系矩阵X分解为两个非负矩阵W和H，其中W是m×r的概念-主题矩阵，H是r×n的主题-文档矩阵，这里r为分解矩阵W的列数和H的行数，表示文档集合中主题的数目。

步骤(2-a-2)判断目标函数E(W，H)＝‖X-WH‖²是否小于给定的误差，如果小于，则计算概念之间的语义相似度矩阵S＝WW^T，其中该矩阵S中的每个元素S_ij表示概念i，j之间的语义相似度；否则，执行步骤(2-a-3)；

步骤(2-a-3)将作为新的H，将

作为新的W，返回步骤(2-a-2)继续执行，其中，

和表示矩阵元素之间的乘和除。

上述方法中，所述步骤2-b)可包括：从该元素所链接的概念在语义相似度矩阵S中对应的行向量的所有概念中，选择与所链接的概念语义相似度最大的k个概念，作为该元素的扩展的语义概念集合。

上述方法中，所述步骤2-b)可包括：从该元素所链接的概念在语义相似度矩阵S中对应的行向量的所有概念中，选择与该元素的上下文语义相关性最大的k个概念，作为该元素的扩展的语义概念集合；

其中，对任意的概念m_i∈s_m，s_m表示语义相似度矩阵S中所链接的概念对应的行向量，1≤i≤|s_m|，|s_m|表示向量s_m的维数，与该元素的上下文语义相关性SM(m_i，t)通过以下公式计算：

SM (m_{i,} t) = \frac{1}{| CT (t) |} \underset{t_{j} &Element; CT (t)}{Σ} IDF (t_{j}) \times \log (1 + MI (m_{i,} t_{j}))

其中，t标识该元素，CT(t)为t的上下文，t_j为CT(t)中的一个n-gram元素，MI(m_i，t_j)为在开放知识库中m_i和t_j之间的互信息，IDF(t_j)为t_j在开放知识库中的逆文档频率。

另一方面，本发明提供了一种基于开放知识库的短文本语义概念自动化扩展系统，所述系统包括：

用于为短文本生成n-gram集合的装置；

用于对于n-gram集合中的元素执行下列操作的装置：

将该元素链接到开放知识库中与该元素最相关的概念，以及

与现有技术相比，本发明的优点在于：

首先在数据准备阶段，仅采用开放知识库(例如Wikipedia)文档中的锚文本信息而不采用文档的词项信息和目录信息来构建概念关系矩阵，这使得该矩阵的构造和计算方便，而且克服了目录信息粒度比较粗，歧义多的问题。另外，在为短文本生成n-gram集合时，利用停用词、特殊符号作为短文本的天然分隔符，然后基于分隔的每一文本段产生n-gram，降低了n-gram集合的噪声。

其次在语义概念扩展阶段，采用基于上下文的语义相似度计算方法来进行语义概念扩展，同时考虑了短文本内容的上下文内容的一致性和概念在抽象语义层的相似性，提高了语义概念扩展的准确性。此外，通过在将n-gram元素链接到Wikipedia相关概念之间，从n-gram集合中过滤掉不需要进行链接的n-gram，有效提高了后续计算的效率和降低了短文本内容的噪声。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的基于开放知识库的短文本语义概念自动化扩展方法的流程示意图；

图2为根据本发明实施例的对于一条短文本产生n-gram集合的流程示意图；

图3为根据本发明实施例的从所产生的n-gram集合中选择可链接的n-gram的流程示意图；

图4为根据本发明实施例的基于NMF的矩阵分解示意图；

图5为现有方法与根据本发明一个实施例的语义扩展方法的性能对比示意图；

图6为现有方法与根据本发明又一个实施例的语义扩展方法的性能对比示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了更好地理解本发明，首先简单介绍一些相关的背景技术知识。

1，n-gram(n元文法)

该模型基于这样一种假设，第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关。在下文中，这个模型被用来提取出短文本的所有片段信息，相当于对短文本进行分词的作用。

为某个字符串片段生成的n-gram集合包含所有i-gram(1＜＝i＜＝n)产生的元素。生成n-gram的算法为：假设字符串片段S，长度为N，则对任意的n(1≤n≤N)，从字符串起始开始，逐个枚举长度为n的gram，每枚举一个n-gram，起始位置后移一位，一直到字符串终点。例如字符串片段”ABCDEFGH”，长度为8，假设n＝4，则所生成的n-gram集合包括：

1-gram：A；B；C；D；E；F；G；H

2-gram：AB；BC；CD；DE；EF；FG；GH

3-gram：ABC；BCD；CDE；DEF；EFG；FGH

4-gram：ABCD；BCDE；CDEF；DEFG；EFGH

在现有技术中，有很多n-gram产生器，例如Microsoft Web N-GramService，Stochastic Language Models(N-Gram)Specification等，使用这些服务都需要调用其提供的API接口。当然，本领域技术人员也可以根据实际系统需求，采用各种计算机语言来编写n-gram生成器。

2，logistic regression model(逻辑斯谛回归模型，简称为LR模型)

LR模型是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。假设具有p个独立变量的向量χ′＝(x₁，χ₂，....x_p)，设条件概率P(Y＝1|x)＝p为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为：

P (Y = 1 | x) = \frac{1}{{1 + e}^{- g (x)}}

其中g(x)＝λ₀+λ₁χ₁+λ₂χ₂+…+λ_px_p

这里Y是离散取值的，X＝<χ₁，χ₂...，x_p>其中每个变量都可以是离散或者连续取值。逻辑回归可用于概率预测，也可以用于分类，但是只能用于线性问题，各个特征之间不需要满足条件独立假设，但是每个特征的权重是独立计算的，现在的很多软件都实现了这个方法如SAS，Matlab等。

3.NMF(Non-negative matrix factorization，非负矩阵分解)

NMF就是将大矩阵分解成两个小矩阵，使得这两个小矩阵相乘后能够还原到大矩阵，非负表示分解的矩阵都不包含负值。NMF通过寻找低秩，非负分解那些都为非负值的矩阵。原始的大矩阵V被近似分解为低秩的两个小矩阵W和H，即V＝WH形式。在数学上，从计算的观点看，分解结果中存在负值是正确的，但负值元素在实际问题中往往是没有意义的。例如图像数据中不可能有负值的像素点；在文档统计中，负值也是无法解释的。NMF是一种新的矩阵分解算法，它克服了传统矩阵分解的很多问题，通过寻找上下文有意义的解决方法，提供解释数据的更深看法。

图1给出了根据本发明实施例的基于开放知识库的语义概念自动化扩展方法，为社会化短文本内容扩展语义概念特征，以提高对社会化短文本内容后续数据挖掘任务的性能。其中，开放知识库可以采用维基百科(Wikipedia)、百度百科等类型的语料。在该实施例中，以选取Wikipedia作为实验语料为例来对该方法进行描述。该方法包括：步骤1)为短文本生成n-gram集合；步骤2)对于n-gram集合中的元素执行下列操作：将其链接到Wikipedia中与其最相关的概念，并且基于Wikipedia概念关系矩阵和所链接的概念，为该元素生成扩展的语义概念集合。

鉴于社会化短文本内容的多样性，在本发明的实施例中，选择当下热门的应用-微博为例对该方法进行介绍，然而应理解，本文以微博为例，仅是出于示例说明的目的而非以任何方式进行限制。

现参考图1，更具体地，在步骤1)对某条短文本生成n-gram集合。优选地，可以利用停用词、特殊符号等作为短文本的天然分隔符，将短文本分成多个片段，然后基于分隔的每一个片段产生n-gram集合。这样，可以通过过滤特殊符号和停用词，避免生成无效n-gram，，低了生成的n-gram集合的噪声。

图2给出了根据本发明一个优选实施例的对一条短文本生成n-gram的流程示意图。以微博为例，为了降低最终生成的n-gram集合中噪声，首先对微博进行去噪，过滤掉特殊符号和停用词。这里的特殊符号包括标点符号和其它的非字母类的符号，如”#$％^&*”等；这里的停用词与现有的检索技术中的停用词意义相同，表示使用广泛，出现频率高但意义不大的词，如中文的”我”、”你”，英文的”i”、”what”等。例如，在去噪过程中，对于一条微博M，首先去除含有””标记信息和链接信息，然后提取出含有’#’的标签片段，并以此将微博分为两部分，对每一部分，按照特殊符号和停用词将微博进行分割成不包含特殊符号或者停用词的短文本片段，然后对每一个短文本片段分别产生n-gram，其中n的值最长为片段的长度，最小为1。

对于微博信息M，为了找出其中可以进行语义概念扩展的n-gram，首先提取出微博所有的n-gram集合(1≤n≤|M|)(|M|表示的是微博的长度)。根据研究表明，对于微博信息M的长度大于4的时候，当n取4时的情况下，精度不会明显下降并且计算效率也能提升很多，因此本文的n取的最大值是4。对于微博M，设M产生的所有可能的n-gram组成集合GS(M)，也就是说在本文中GS(M)中包含1-gram，2-gram，3-gram，4-gram产生的所有元素。

以如下微博信息为例：jaketapper：President Obama：″This Moment ofVolatility Has to be Turned into a Moment of Promise″；http://abcn.ws/fagcAz#Egypt

1)去除包含有””的词语信息和链接信息，处理后的文本为：PresidentObama：″This Moment of Volatility Has to be Turned into a Moment ofPromise″；#Egypt

2)提取含有“#”的标签信息，得到按照停用词和特殊符号分割的片段为：President Obama；Moment；Volatility；Turned；Moment；Promise；Egypt。

3)针对2)产生的每个片段，生成n-gram。其中只有President Obama片段长度为2，其生成的n-gram信息为：

1-gram：President；Obama

2-gram：President Obama

4)合并所生成的每个片段的n-gram，得到该短文本的n-gram集合。例如，对于该条微博M产生的n-gram集合GS(M)为{President；Obama；President Obama；Moment；Volatility；Turned；Moment；Promise；Egypt}。另外，对于该n-gram集合GS(M)中的任一元素k而言，该GS(M)中除该元素k之外的所有词的集合可以称为该元素k的上下文。例如，对于元素“Egypt”而言，该元素的上下文为{President；Obama；President Obama；Moment；Volatility；Turned；Moment；Promise}。

继续参考图1，在步骤2)，对于步骤1)生成的n-gram集合中的元素执行下列步骤：

步骤2-1)将其链接到Wikipedia中与其最相关的概念。

步骤2-2)基于Wikipedia概念关系矩阵和所链接的概念，为该元素生成扩展的语义概念集合。

优选地，在步骤2-1)之前，也就是在将所生成n-gram集合中的元素链接到Wikipedia中最相关概念之前，还可以包括对步骤1)所生成的n-gram集合进行过滤的步骤(可记为步骤2-0)，从所生成的n-gram集合中过滤掉不需要进行链接的n-gram，得到可链接的n-gram集合，这样可以有效提高后续计算的效率并降低短文本内容的噪声。因为在所生成的n-gram集合中并不是所有的n-gram都需要进行链接，这样会引入噪声和歧义。比如“And”在Wikipedia中可以作为加法器的概念，如果对其进行链接解释，会增加歧义。

在下文将结合附图和具体实施例分别对步骤2-0)、步骤2-1)、步骤2-2)进行更详细的介绍。在本文中，Wikipedia中的概念指的是Wikipedia中的锚文本，二者具有相同的意义。Wikipedia页面有很多的锚文本，锚文本又指向另一以它为标题的Wikipedia页面(有时也称为文档)。

在步骤2-0)，从步骤1)所生成的n-gram集合中选取可链接的n-gram，从而得到可链接的n-gram集合。图3给出了根据本发明一个实施例的从对短文本产生的n-gram集合中选择可链接的n-gram的方法的流程示意图。该方法采用logistic回归分析模型来对n-gram进行可链接性预测，从所生成的n-gram集合中选择可链接的n-gram，过滤掉不需要进行链接的n-gram。该方法首先对预测模型进行训练，然后利用训练好的预测模型来对n-gram的可链接性进行预测。下面仍然以微博为例来对该方法进行介绍。在本文中，微博语料库来自TREC2011，Wikipedia语料库来自Wikipedia2011年的数据集(包含约1400万的文档、约490万的概念)。在该实施例中，从TREC2011中随机选取2000条微博的n-gram进行标注，如果某个n-gram可以将其链接到Wikipedia相关的页面，即需要对这个n-gram进行概念链接和解释，则标注为1，否则标注为-1，这些标注好的数据集合被分为训练集合和测试集合。

首先，基于训练集和测试集对预测模型进行训练。在本实施例中采用了logistic回归分析模型作为预测模型，对于每一个n-gram：t，预测函数F(t)为：

F (t) = \frac{1}{{1 + e}^{- (λ_{1} P (t) + λ_{2} OCR (t) / AW + λ_{3} IDF (t))}}

其中，P(t)表示t在Wikipedia中出现在锚文本中的概率：

P (t) = \frac{LINK (t)}{OCR (t)};

AW为Wikipedia中总的词数目，OCR(t)与AW的比值表示t在Wikipedia中出现的概率；LINK(t)表示t在Wikipedia中的锚文本中出现的次数，OCR(t)表示t在Wikipedia中总的出现次数，当t含有多个词时，对任意的t_i∈t，OCR(t)＝∑OCR(t_i)-LINK(t)；

IDF(t)表示t在Wikipedia中的逆文档频率：

IDF (t) = \log (\frac{| c |}{LINK (t)}),

其中|C|为Wikipedia中所有的锚文本数量。

对于给定的t，函数F(t)＞ρ的时候，就确定t可以进行链接处理，反之就确定对t进行剪枝，ρ为指定的阈值，其取值范围是(0-1)，默认为0.5。

根据训练集和测试集中已经标注好的数据对F(t)模型进行训练，采用了k-折交叉验证(K-fold cross-validation)多次训练的方法选择最优预测模型。k-折交叉验证是指将样本集分为k份，其中k-1份作为训练数据集(即训练集)，而另外的1份作为验证数据集(即测试集)。用测试集来验证所得分类器或者回归的错误码率。一般需要循环k次，直到所有k份数据全部被选择一遍为止。在该实施例中，将标注好的样本数据分为7份，6份做训练集，1份做测试集，进行多次7折交叉验证即多次round，计算准确率并选择最优预测模型。

表2给出了在进行训练和预测是可能的结果。一个词被预测函数预测为可链接的有2种可能，第一是这个词标注为1即可链接，即为tp，第二是这个词标注为0即为不可链接，都被预测函数预测为1。一个词被预测函数预测为不可链接有2种可能，第一是这个词标注为0为不可链接，第二是这个词标注为1为可链接，都被预测函数预测为0.解释如下面一个下划线)，也就是，tp表示将样本中1预测为1，fp表示将-1预测成1，fn表示将-1预测成0，tn表示将1预测成0。

表2

	真	假
			可链接的	真阳性(true positive，tp)	假阳性(false positive，fp)
不可链接的	假阴性(false negatives，fn)	真阴性(true negatives，tn)

如表3所示的在所述训练集和测试集上进行上述交叉验证多次训练的方法的实验结果：

表3

round(次数)	precision(准确率)	recall(召回率)	f-measure(f值)
				1	0.8476	0.8435	0.8455
2	0.8756	0.8173	0.8454
				3	0.8215	0.8081	0.8147
4	0.7902	0.8347	0.8118
				5	0.8173	0.7993	0.8083

表3中round(次数)表示第几次试验，采用多次试验来选取最优的预测模型。

precision(准确率)＝tp/(tp+fp)，

recall(召回率)＝tp/(tp+fn)，

f - measure = \frac{2 \times precision \times recall}{precision + recall} .

当f值较大的时候表示预测函数性能较好。在得到最优的预测模型之后，利用该训练好的预测模型来对步骤1)所生成的n-gram集合中每个元素的可链接性进行预测

仍以上文给出的微博示例进行说明，基于该预测模型对上文示例的微博的n-gram集合中每个元素的可链接性进行预测，计算结果如下表所示：

T	P(t)	IDF(t)	OCR(t)/AW	F(t)＞ρ
					President	0.0095	501.43	0.00023	1
Obama	0.0075	657.41	0.00019	1

President Obama	0.0035	784.43	0.00009	1
					Moment	0.00052	341.95	0.000008	0
Volatility	0.00023	301.54	0.000014	0
					Promise	0.00058	227.18	0.000034	0
Egypt	0.0045	532.45	0.00009	1
					Turned	0.0015	437.67	0.000001	0

从上表看出，经预测，可链接的n-gram包括President；Obama；PresidentObama；Egypt。对于一个n-gram可链接，若其中的任意词项都可链接，则优先选择最长的n-gram进行链接。如上述实施例中，President、Obama和President Obama都可链接，但是优先选择President Obama作为需要链接的n-gram。

这样，在对经步骤1)生成的n-gram集合中的元素进行过滤之后，得到了可链接的n-gram集合。然后对该可链接的n-gram集合中的每个元素执行步骤2-1)和步骤2-2)，可以有效提高后续计算的效率并降低短文本内容的噪声。

继续参考图1，在步骤2-1)对于经步骤1)所生成的n-gram集合或经步骤2-0)所得到可链接的n-gram集合中的元素，在对其进行语义扩展时，需要将其链接到Wikipedia中对应的概念。但是，例如对于该微博M所产生的n-gram集合中的给定的元素t而言，可能在不同的上下文中存在不同的锚文本与之对应。比如Michal Jordan可以与Wikipedia中超过20种锚文本相对应。比如以下几个例子：

1)Michael Jordan(NBA Player)

2)Michael I.Jordan(Berkeley Professor)

3)Michael B.Jordan(American Actor)

这时候，对于该给定的元素t，会产生很多带有歧义的候选概念集合。因此，需要语义消歧，也就是从候选概念集合中选出与t最相关的概念，并将t链接到该最相关的概念。

在本发明的一个实施例中，可以基于互信息来选择与t最相关的概念。用LOC(t)表示t的所有候选概念集合，对于候选概念集合LOC(t)中的每个概念c，可以利用如下公式计算t和c之间的互信息MI(t，c)：

MI(t， c)＝H(t)÷H(c)-H(t，c)，

其中H(t，c)是联合熵，其计算方法为：

H(t，c)＝-p(t，c)logp(t，c)，其中p(t，c)表示t，c在同一个锚文本中共同出现的概率。

H(t)表示t的信息熵，其计算公式如下：H(t)＝-p(t)logp（t)

p(t)＝OCR(t)/AW，其中OCR(t)表示t在Wikipedia中所有页面总的出现次数，当t含有多个词时，对任意的t_i∈t，OCR(t)＝∑OCR(t_i)-LINK(t)，LINK(t)表示t在Wikipedia中的锚文本中出现的次数，AW为Wikipedia中总的词数目，OCR(t)与AW的比值P(t)表示t在Wikipedia中出现的概率。p(t，c)＝(OCR(t)∩OCR(c))/AW，其中OCR(c)表示c在Wikipedia中所有页面总的出现次数，OCR(t)∩OCR(c)为t和c在Wikipedia中共现的次数。

H(c)表示概念c的信息熵，计算方法同上即H(c)＝-p(c)logp(c)；p(c)＝OCR(c)/AW，当c含有多个词时，对任意的c_i∈c，OCR(c)＝∑OCR(t_i)-LINK(c)，LINK(c)表示c在Wikipedia中的锚文本中出现的次数，AW为Wikipedia中总的词数目，OCR(c)与AW的比值P(c)表示c出现的概率。

互信息MI(t，c)越大，表示t，c联系越紧密，越小表示它们之间的关系越独立。这样，可以从候选概念集合LOC(t)中选择与t之间互信息最大的概念c_i作为与t最相关的概念，从而t链接到c_i。

在本发明的又一个实施例中，采用了一种简单有效的基于上下文互信息的方法来决定该给定的元素t来链接到哪个锚文本(即概念)。对任意的候选概念c_i∈LOC(t)，LOC(t)是t的所有候选概念集合，选出与t上下文CT(t)相关性最大的概念

t的上下文CT(t)＝GS(M-t)，GS(M-t)表示对微博信息M产生的n-gram集合GS(M)中去除该元素t后的所有n-gram的集合。上下文相关性计算方法如下式：

Score (c_{i}) = \frac{1}{| CT (t) |} Σ_{tm &Element; CT (t)} \log (1 + MI (tm, c_{i})),

其中，Score(c_i)表示候选概念

与t的上下文相关性大小，tm表示t的上下文集合CT(t)的一个n-gram，MI(tm，c_i)表示在Wikipedia中tm和c_i之间的互信息。最终t链接到的概念c_i为max(Score(c_i)，c_i∈LOC(t))。

仍以上文提到的例子进行说明，假设需要进行链接的n-gram为President Obama和Egypt。当t为President Obama时，LOC(t)为{Presidencyof Barack Obama；Timeline of the Presidency of Barack Obama(2009)；Timeline of the Presidency of Barack Obama(2010)；Timeline of thePresidency of Barack Obama(2011)；Timeline of the Presidency of BarackObama(2012)}，上下文CT(t)为{Volatility；Turned；Moment；Promise；Egypt}，计算结果如表1所示：

表1

根据以上结果，n-gram：President Obama链接的概念是Presidency ofBarack Obama。

以上基于上下文互信息的方法在语义消歧阶段，利用了t的上下文信息GS(M-t)，通过计算上下文互信息和候选概念c_i在语义层上的相关性，提高了结果的准确性，与仅仅基于互信息的方法相比，基于上下文互信息的方法计算效率和准确度方法都有了提升。

在将n-gram集合中的某个元素链接到Wikipedia中对应的概念之后，就要根据所链接的概念进行语义概念扩展。语义概念的扩展主要是为了增加更多语义相关的概念集合，主要涉及概念之间的语义相似度计算和语义概念扩展。传统方法中利用基于共现或者互信息的方法计算概念之间的相似度，并利用n-gram在Wikipedia中对应的概念或者以概念为标题的页面内容作为扩展的语义内容特征，因为这些语义扩展方法通常是基于字符匹配或者共现的，不能找到与概念语义相关的更多概念信息，从而扩展的语义概念就很有限。比如对于Barack Obama，如果根据传统基于共现或者互信息的方法，则找不到与其语义相近的锚文本有President of the UnitedStates和U.S.Senator等。

现继续参考图1，在步骤2-2)，对于n-gram集合中的每个元素，在将其链接到Wikipedia中与其最相关的概念之后，基于Wikipedia概念关系矩阵和所链接的概念，为该元素生成扩展的语义概念集合。更具体地，步骤2-2)可以包括以下步骤：

2-2-1)基于Wikipedia概念关系矩阵，获取概念之间的语义度相似度矩阵；

2-2-2)根据概念之间的语义度相似度矩阵与所链接的概念，为该元素生成扩展的语义概念集合。

在步骤2-2-1)，基于Wikipedia概念关系矩阵，获取概念之间的语义度相似度矩阵。如上文所提到的Wikipedia中的概念指的是Wikipedia中的锚文本，二者具有相同的意义。Wikipedia页面有很多的锚文本，锚文本又指向另一以它为标题的Wikipedia页面(有时也称为文档)。该概念关系矩阵的行为Wikipedia中的锚文本(即概念)，该矩阵的列为Wikipedia中的文档，矩阵中元素的值为所在行的概念在所在列的文档出现的总的次数。

该Wikipedia概念关系矩阵可以利用文档-锚文本的关系来构建的。例如，利用下载好的Wikipedia语料中的大量网页作为原始数据集，并对其进行去噪过滤处理，过滤掉非概念页面。因为Wikipedia中除了包含概念页面，也包含其它类型的非概念页面，如标题含有”image”、”file”的文件页面等，经过过滤处理，一方面可以降低文档语料的规模，减小矩阵的维数，提高运算速度；另一方面可以去除无意义的概念，降低概念链接的噪声，提高精度。利用过滤后的文档数据集合构造概念关系矩阵，其中该矩阵的行为概念，该矩阵的列为文档，矩阵中元素的值为所在行的概念在所在列的文档出现的总的次数。

为了扩展更多的语义相关的概念，在本发明的一个实施例中，提供了一种基于NMF(非负矩阵分解)的方法来找到与概念语义相近的更多概念。该方法基于Wikipedia概念矩阵，利用概念的潜在语义空间信息计算概念之间的语义相似度。

假设待分解的Wikipedia概念矩阵X为m×n的概念-文档矩阵，m为概念集合的数目，n为文档集合的数目，则可以利用NMF算法分解得到2个非负矩阵W和H，其中W是m×r的概念-主题矩阵，H是r×n的主题-文档矩阵，这里r为分解矩阵W的列数和H的行数，表示文档集合中主题的数目。

在矩阵分解的迭代过程中，寻找非负的矩阵W和H，使得以下目标函数最小：

E(W，H)＝‖X-WH‖²

采用如下更新策略更新矩阵W和H：

在上述的算法中，

和表示矩阵元素之间的乘和除。

当目标函数E小于给定误差或达到指定的迭代次数的时候，停止迭代，得到最终的结果矩阵W和H。矩阵W表示概念-主题矩阵，每一行表示概念在主题空间的分布情况，矩阵W^T为W的转置表示主题-概念矩阵，则WW^T(矩阵W乘以它的转置)记为得到概念-概念之间的关系矩阵，即概念之间的语义相似度矩阵，矩阵分解模型如图4。矩阵W和H都是非负矩阵，目标函数为min(E(W，H)，W_ij≥O，H_ij≥0)。概念之间的语义相似度矩阵的计算公式如下：

S＝WW^T，其中该矩阵中的每个元素S_ij表示概念i，j之间的语义相似度。

在步骤2-2-2)，基于经计算得到的概念之间的语义相似度矩阵，对所链接的概念进行概念扩展。

在一个实施例中，可以根据经计算得到的概念之间的语义相似度矩阵S，选择与所链接的概念语义相似度最大的k个概念作为扩展的语义概念集合。

利用WW^T得到概念之间的语义相似度矩阵S之后可以选出语义相似度最大的k个语义近邻作为对该概念的扩展的语义概念集合。对于所链接的概念i，向量s_i表示概念i和其它所有概念的相似度大小的向量，s_ij表示概念i和j的语义相似度，通过选取出向量s_i的最大的k个值即为k个与概念i语义最相似的概念集合，也就是i的k个语义近邻。

在本发明的一个优选实施例中，还提供了一种基于上下文的语义概念扩展方法。在利用WW^T得到概念之间的语义相似度矩阵S之后，为了提高准确率，采用了基于上下文的方法来进行语义概念扩展。这是因为在求得概念跟概念之间的相似度矩阵之后，基于概念之间的语义相似度选取最大的k个语义概念近邻，并没有考虑上下文信息。而实际上有些相似度很高的锚文本并不能用来增加语义，还又可能会对微博的理解产生更多的歧义。因此，在该优选实施例中，在利用WW^T得到概念之间的语义相似度矩阵S之后，通过结合逆文档频率和互信息的方法来计算锚文本跟上下文的语义相关性。假设对于上述提到的n-gram集合中的给定元素t，其链接到Wikipedia中的锚文本为m，对任意的概念m_i∈s_m（s_m表示矩阵S中概念m对应的行向量，1≤i≤|s_m|，|s_m|表示向量s_m的维数)，上下文语义相关性SM(m_i，t)通过以下公式计算：

SM (m_{i,} t) = \frac{1}{| CT (t) |} \underset{t_{j} &Element; CT (t)}{Σ} IDF (t_{j}) \times \log (1 + MI (m_{i,} t_{j}))

其中，CT(t)为t的上下文集合，t_j为CT(t)中的一个n-gram元素，MI(m_i，t_j)为Wikipedia语料中m_i和t_j之间的互信息，IDF(t_j)为t_j在Wikipedia中的逆文档频率。

对于给定的k值，使得以下目标函数最大即为跟上下文最相关的k个锚文本集合，也就是扩展的语义概念集合。

Σ_{l = 1}^{k} SM (m_{i,} t)

实际上也就是从该元素t所链接的概念在语义相似度矩阵S中对应的行向量的所有概念中，选择与该元素的上下文语义相关性最大的k个概念，作为扩展的语义概念集合。

为了验证本发明的效果，发明人还进行了实验，与参考文献3(D.Milneand I.H.Witten.Learning to link with Wikipedia.In CIKM'08，2008)和参考文献4(C.Silvim.Large-scale named entity disambiguation based on Wikipedia data.InEMNLP'06，2006)中提出的计算概念相似度的方法进行了对比。

在参考文献3中，基于目录信息来计算概念相似度的方法(Cucerzan's)如下：

c为Wikipedia中的锚文本，g(c)是Wikipedia中这个锚文本所属于的目录集合的向量表示。采用了以下公式来计算锚文本之间的相似度。

R (c, c^{'}) = \frac{{g (c)}^{T} g (c^{'})}{\sqrt{{g (c)}^{T} g (c)} \sqrt{{g (c^{'})}^{T} g (c^{'})}}

在参考文献4，基于共现信息来计算概念相关度的方法(M&W's)如下：

c为Wikipedia中的锚文本，g(c)为包含c的Wikipedia的页面集合，A为所有的Wikipedia页面集合。

R (c, c^{'}) = \frac{\log | g (c) \cap g (c^{'}) | - \log (\max {| g (c) |, | g (c^{'}) |})}{\log A - \log (\min {| g (c) |, | g (c^{'}) |})}

本次实验采用的1000条tweet数据(每条tweet数据类似一条微博信息)是基于TREC2011数据集，从其中选取了300条tweet，对其产生的2691个n-gram进行了人工标注，用来训练和测试可链接剪枝中的LR模型，其余的700条用来做语义扩展。Wikipedia采用的是2011年的数据集，大概有1200万的网页，380万锚文本数据，选择了其中的2078篇页面作为此次实验的语料，共含有117227个锚文本。

图5给出的是本发明实施例中基于NMF但不基于上下文的概念相似度方法(在图5中记为“基于NMF”)与参考文献3和4的方法的结果对比示意图。图6给出的是本发明实施例中基于NMF且基于上下文的概念相似度方法(在图6中记为“基于NMF+上下文”)与参考文献3和4的方法的结果对比示意图。其中，纵轴表示的是准确率，横轴k表示的是针对某一个概念选择其语义近邻的集合大小。对于概念m，其k近邻概念集合SEM(m)，对于任意的概念m_i∈SEM(m)，若m_i和m语义相关，则r＝r+1(r初始为0)，准确率p＝r/k，对于给定的k，取多个概念m的准确率p的平均值作为结果。

从实验结果可以看到，与传统的方法相比，通过本发明的实施例提供的语义概念扩展方法在基于上下文和不基于上下文的情况下准确率上都有较明显的提升。

在本发明的又一个实施例中，还提供了一种基于开放知识库的短文本语义概念自动化扩展系统，所述系统包括用于为短文本生成n-gram集合的装置和语义扩展装置，所述语义扩展装置用于对于n-gram集合中的元素执行下列操作：

采用上文所述的方法将该元素链接到开放知识库中与该元素最相关的概念，以及

采用上文所述的方法基于开放知识库的概念关系矩阵和所链接的概念，为该元素生成扩展的语义概念集合。其中，所述开放知识库为维基百科，所述该开放知识库中的概念为维基百科中的锚文本。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

1.一种基于开放知识库的短文本语义概念自动化扩展方法，所述方法包括：

步骤1)对短文本生成n-gram集合；

步骤2)对于所述n-gram集合中的元素执行下列操作：

将该元素链接到开放知识库中与该元素最相关的概念，以及

2.根据权利要求1所述的方法，所述步骤1)包括：

对每一个短文本片段分别产生n-gram；

合并每条短文本片段的n-gram，得到该条短文本的n-gram集合。

3.根据权利要求1所述的方法，所述开放知识库为维基百科，所述该开放知识库中的概念为维基百科中的锚文本。

4.根据权利要求1所述的方法，所述步骤2)中，所述n-gram集合中的元素为可链接的元素。

5.根据权利要求4所述的方法，所述步骤2)还包括从步骤1)所生成的n-gram集合中选择可链接的元素的步骤。

6.根据权利要求1-5之一所述的方法，在所述步骤2中)将该元素链接到开放知识库中与该元素最相关的概念包括：

计算该候选概念集合中每个概念与该元素之间的互信息；

7.根据权利要求1-5之一所述的方法，在所述步骤2中)将该元素链接到开放知识库中与该元素最相关的概念包括：

Score (c_{i}) = \frac{1}{| CT (t) |} Σ_{tm &Element; CT (t)} \log (1 + MI (tm, c_{i})),

其中，t表示n-gram元素，Score(c_i)表示候选概念c_i与t的上下文相关性，CT(t)为t的上下文，其表示短文本去除t后生成的所有n-gram元素集合，tm表示CT(t)集合中的一个元素，MI(tm，c_i)表示tm和c_i在开放知识库中的互信息。

8.根据权利要求7所述的方法，在所述步骤2中)基于所述概念关系矩阵和所链接的概念，为该元素生成扩展的语义概念集合包括：

9.根据权利要求8所述的方法，所述步骤2-a)包括下列步骤：

步骤(2-a-2)判断目标函数E(W，H)＝||X-WH||²是否小于给定的误差，如果小于，则计算概念之间的语义相似度矩阵S＝WW^T，其中该矩阵S中的每个元素S_ij表示概念i，j之间的语义相似度；否则，执行步骤(2-a-3)；

步骤(2-a-3)将

作为新的H，将

作为新的W，返回步骤(2-a-2)继续执行，其中，

和

表示矩阵元素之间的乘和除。

10.根据权利要求9所述的方法，所述步骤2-b)包括：从该元素所链接的概念在语义相似度矩阵S中对应的行向量的所有概念中，选择与所链接的概念语义相似度最大的k个概念，作为该元素的扩展的语义概念集合。

11.根据权利要求9所述的方法，所述步骤2-b)包括：从该元素所链接的概念在语义相似度矩阵S中对应的行向量的所有概念中，选择与该元素的上下文语义相关性最大的k个概念，作为该元素的扩展的语义概念集合；

SM (m_{i}, t) = \frac{1}{| CT (t) |} \underset{t_{j} &Element; CT (t)}{Σ} IDF (t_{j}) \times \log (1 + MI (m_{i}, t_{j}))

其中，t标识该元素，CT(t)为t的上下文，t_j为CT(t)中的一个n-gram元素，MI(m_i，t_j)为m_i和t_j在开放知识库中的互信息，IDF(t_j)为t_j在开放知识库中的逆文档频率。

12.一种基于开放知识库的短文本语义概念自动化扩展系统，所述系统包括：

用于为短文本生成n-gram集合的装置；

用于对于n-gram集合中的元素执行下列操作的装置：

将该元素链接到开放知识库中与该元素最相关的概念，以及