CN103699522A

CN103699522A - 基于混合主题的文本标注方法及系统

Info

Publication number: CN103699522A
Application number: CN201310691189.9A
Authority: CN
Inventors: 王勇; 赵立军
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2013-12-13
Filing date: 2013-12-13
Publication date: 2014-04-02
Anticipated expiration: 2033-12-13
Also published as: CN103699522B

Abstract

本发明提供一种基于混合主题的文本标注方法及系统，其中方法包括：采用LDA算法对获取的概念文本进行学习，设定第一目标显式主题，对第一目标显式主题进行学习，获得第一目标显式主题-单词的概率分布；采用LDA算法对获取的资源文本进行学习，设定第二目标显式主题和目标隐含主题，对第二目标显式主题初始化的结果和目标隐含主题进行学习，获得的第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布；根据第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布，对待标注文本进行标注。利用本发明，通过显式主题和隐含主题的混合，能够低成本地解决领域本体的可扩展性问题，并提高文本标注的质量。

Description

基于混合主题的文本标注方法及系统

技术领域

本发明涉及文本标注技术领域，更为具体地，涉及一种基于混合主题的文本标注方法及系统。

背景技术

随着移动互联网和社交网络的推广，产生了大量的用户生成文本（UserGenerated Content，简称UGC），但是由于人们往往会使用不同的词语和表述方式表达类似的内容，因此，传统搜索引擎中广泛使用的基于词语的倒排索引来管理UGC内容的方法无法揭示UGC内在的相关性，无法对这些文本进行有效的维护、检索和推荐，所以，在语义层面理解文本的含义变得十分必要。

使用自然语言处理（(Natural Language Processing，简称NLP）技术可以对UGC进行深度的理解，但是由于人类自然语言的复杂性，精确的理解是不可能的，而且也往往是不必要的。事实上，如果能够对文本进行语义标注，构建起词到语义概念的映射，则即使只能对UGC进行浅层分析，系统也能够判断UGC在语义概念空间上的分布，从而为UGC的管理、搜索和推荐提供切实的基础。

解决语义标注问题的一种思路是通过领域专家建立一个领域本体，该领域本体包含本领域的概念、概念实例、以及概念实例之间的关系（如“is a”、“has a”）。我们可以根据领域本体中的概念（在本发明的后续说明中，如不做特殊说明，所说的概念均包含领域概念和概念的实例）的各种词语表述，来对文本进行语义概念标注，当一个词语对应于多个语义概念的时候，可以根据文本上下文中的其他词语进行语义消歧。

和上述思路不同，隐含主题分析方法是一种基于无监督学习的统计方法，在这种方法中，对于给定的文本集合，系统通过参数能够估计确定一些隐含主题（Topic），每个主题是一个单词表上的概率分布，每篇文本则可以表示为在多个主题上的概率分布，和词袋模型中的单词相比隐含主题的维度要低得多，因此可以有效地避免词一级的噪音。

但是，这两种思路都不是完美的，前者虽然能够对文本产生易于理解的和符合人类直觉的语义标注，但是需要巨大的人工编辑工作，这在很多环境下是根本不可能的；而后者虽然能够通过机器学习的方法自动地学习到潜在的主题，但是学习到的主题的含义往往难以解释，而且其粒度往往过大，并且缺乏控制粒度的方法。

因此，需要一种新的文本标注方法解决上述两种思路中出现的问题。

发明内容

鉴于上述问题，本发明的目的是提供一种基于混合主题的文本标注方法及系统，通过混合主题结合，以保证领域本体的准确性、降低企业的资源文本的不断增加所造成的成本提示、确保系统准确性以及文本语义标注质量。

本发明提供一种基于混合主题的文本标注方法，包括：

步骤一：采用LDA算法对获取的概念文本进行学习；

其中，在采用LDA算法对获取的概念文本进行学习的过程中，针对概念文本，设定第一目标显式主题，对设定的第一目标显式主题进行学习，获得概念文本中的单词在第一目标显式主题上的第一目标显式主题-单词的概率分布；并且，

设定的第一目标显式主题的数量与概念文本的数量相同；

步骤二：采用LDA算法对获取的资源文本进行学习；

其中，在采用LDA算法对获取的资源文本进行学习的过程中，针对资源文本，设定目标主题；其中，

目标主题包括第二目标显式主题和目标隐含主题，并且，设定的目标隐含主题的数量小于资源文本的数量；以及，

根据在概念文本学习中获得的第一目标显式主题-单词的概率分布对第二目标显式主题进行初始化；

对第二目标显式主题初始化的结果和目标隐含主题进行学习，获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布；

步骤三：根据在对资源文本进行学习的过程中获得的第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布，对待标注文本进行语义标注。

此外，优选的方案是，在对设定第一目标显式主题进行学习的过程中，

采用如下的公式获得所述第一目标显式主题-单词的概率分布：

其中，d为概念文本；w_i为概念文本中的当前单词；

z_i为当前单词w_i的主题分配；

z_-i为概念文本除去w_i之后其他所有单词的主题分配；

k是Topic的游标；t是单词的游标；

表示除掉单词w_i后文本m下出现主题k的数量；

表示除掉单词w_i后主题k下出现单词t的数量；

α_k是主题k的Dirichlet先验参数；β_t是单词t的Dirichlet先验参数。

此外，优选的方案是，在对所述待标注文本进行语义标注的过程中，对待标注文本分别进行显式主题和隐含主题标注；其中，

在对待标注文本进行显式主题标注时，根据在LDA算法学习中获得的第二目标显式主题-单词的概率分布，用第二目标显式主题的名称对待标注文本进行有名的语义标注；

在对待标注文本进行隐含主题标注时，根据在LDA算法学习中获得的目标隐含主题-单词的概率分布，用目标隐含主题的ID对待标注文本进行无名的语义标注。

另一方面，本发明还提供一种基于混合主题的文本标注系统，包括：

用于采用LDA算法对获取的概念文本进行学习，包括第一目标显式主题设定单元和第一目标显式主题学习单元；其中，

第一目标显式主题设定单元用于针对概念文本，设定第一目标显式主题，第一目标显式主题学习单元用于对设定的所述第一目标显式主题进行学习，获得概念文本中的单词在第一目标显式主题上的第一目标显式主题-单词的概率分布；并且，

第一目标显式主题设定单元设定的第一目标显式主题的数量与概念文本的数量相同；

资源文本学习单元，用于采用LDA算法对获取的资源文本进行学习，包括目标主题设定单元、初始化单元和学习单元；其中，

目标主题设定单元用于针对资源文本，设定目标主题；其中，

目标主题包括第二目标显式主题和目标隐含主题，并且，设定的目标隐含主题的数量小于资源文本的数量；

初始化单元用于根据在概念文本学习中获得的第一目标显式主题-单词的概率分布对第二目标显式主题进行初始化；

学习单元用于对第二目标显式主题初始化的结果和目标隐含主题进行学习，获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布；

文本标注单元，用于根据资源文本学习单元获得的第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布，对待标注文本进行语义标注。

此外，优选的方案是，在第一目标显式主题学习单元对设定第一目标显式主题进行学习的过程中，

采用如下的公式获得第一目标显式主题-单词的概率分布：

其中，d为概念文本；w_i为概念文本中的当前单词；

z_i为当前单词w_i的主题分配；

z_-i为概念文本中除去w_i之后其他所有单词的主题分配；

k是Topic的游标；t是单词的游标；

表示除掉单词w_i后文本m下出现主题k的数量；

表示除掉单词w_i后主题k下出现单词t的数量；

此外，优选的方案是，文本标注单元包括对待标注文本进行显式主题标注的显式主题标注单元和对待标注文本进行隐含主题标注的隐含主题标注单元；其中，

显式主题标注单元根据在LDA算法学习中获得的所述第二目标显式主题-单词的概率分布，用第二目标显式主题的名称对待标注文本进行有名的语义标注；

隐含主题标注单元根据在LDA算法学习中获得的目标隐含主题-单词的概率分布，用目标隐含主题的ID对待标注文本进行无名的语义标注。

从上面的技术方案可知，本发明提供的基于混合主题的文本标注方法及系统，通过显式主题和隐含主题相互结合，既能够享有通用领域本体的准确性，又能够以比较低的成本来不断适应企业的资源文本的不断增加，同时能够以比较高的准确性向系统的使用者提供高质量的语义标注服务。

为了实现上述以及相关目的，本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而，这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外，本发明旨在包括所有这些方面以及它们的等同物。

附图说明

通过参考以下结合附图的说明及权利要求书的内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的基于混合主题的系统概念结构示意图；

图2为根据本发明实施例的基于混合主题的文本标注方法流程图；

图3为根据本发明实施例的LDA算法对概念文本进行学习的流程图；

图4为根据本发明实施例的LDA算法对资源文本进行学习的流程图；

图5为根据本发明实施例的基于混合主题的文本标注系统逻辑框图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。

为了解决前述的问题，需要一种能够将两种方法同时包含在内的结合方式。这种结合应该满足下面几个要求：第一能够同时处理领域本体和资源文本；第二算法简单，最好是能够以黑盒的方式将利用传统的算法；第三系统要具有良好的可扩展性。

领域本体和主题分析相互结合的方式可能有多种，其中一种很容易设想的方式就是：使用某种概念抽取方法，从企业资源文本中抽取出概念文本，每个概念文本包含对某个领域概念的详细说明；然后，这些生成的概念文本和通用领域本体一起来构建领域概念集。但是这种方式中，从资源文本自动生成概念文本是一个尚未成熟的技术。

所以，本发明采用了一种更加简单的结合方法，在这种结合中，如图1所示，图1为根据本发明实施例的基于混合主题的系统概念结构示意图，首先，根据领域本体生成领域的概念文本，然后使用传统的潜在主题分析方法同时读取概念文本和企业内的资源文本，生成本领域的主题-单词分布，使用这个分布，就可以对用户文本进行语义标注。

从图1的结构图中，可以看出这个结构的最大的好处是：由于将领域本体和企业信息资源首先作为文本，所以可以利用成熟的隐含主题分析方法（如LDA算法）来对这些文本进行分析，这样就屏蔽了领域本体和企业信息资源文本的异构性，就可以无差别地在一个框架内来处理这两种不同的数据，这将大大降低系统构造的难度。

不过，这也会面临相应的问题，即：如果对于领域概念文本和企业信息资源文本不做任何差异处理，则只能得到“隐含主题”，由于“隐含主题”只是一个词汇表上的概率分布，它没有名称，并且和领域专家心目中的本体概念没有直接关系，因此，只能将文本标注为一些id，而不是人类可以理解的本体概念名称。

为了解决这个问题，在本发明构建主题-单词分布的过程中，定义文本包括概念文本和资源文本；其中，根据领域本体获取领域的概念文本；根据企业信息资产获取企业的资源文本。对于概念文本和资源文本采取不同的处理策略，不仅得到“隐含主题”，也能同时得到和领域本体概念紧密相关的“显式主题”，此后就可以同时利用“显式主题”和“隐含主题”进行更符合人类直觉的标注。

本发明中，提出的是一种同时包含显式主题和隐含主题的混合主题分析方法，这种混合主题分析方法是隐含主题分析方法的一个扩展。在这个扩展中，显式主题被作为一种特殊的隐含主题被引入到系统中，这样，每个文本被看成是在显式主题和隐含主题上的分布。

在本发明的混合主题分析方法中，对于给定的概念文本集C，当有|C|个概念文本时，就要生成|C|个显式主题，因此，每个显式主题k（1≤k≤|C|），都对应与一个领域概念文本Doc(k)，我们将每一个显式主题k看作是一个在单词表V上的多项式分布

其中

1≤w≤V。

在本发明中，显式主题具有名称这个属性，显式主题的名称就是对应的领域概念文本的文件名，另外，每个领域概念文本中包含了一个与该领域概念相关的单词的集合，只有对那些在概念文本中出现的词，才会出现在对应的显式主题-单词的概率分布中，即，对于每个不属于Doc(k)的单词w，

在本发明中定义的混合主题分析方法中，除了拥有由概念文本生成的显式主题之外，系统还能不断地从资源文本中学习新的隐含主题，这使得当资源文本中出现新的主题的时候，虽然无法揭示出这些主题对应的名称，但是能够揭示这些“隐含主题”的存在，以及单词在这些“隐含主题”上的分布。

因此，一般地，如果系统还具有|R|个资源文本，则生成μ|R|个隐含主题，μ是一个降维系数，根据资源文本中可能包含的主题的多少估测其值。隐含主题k的取值范围在|C|+1≤k≤|C|+μ|R|之间。这样，在混合主题分析方法中,文本d中的第i个单词w_i的条件概率是：

p (w_{i} | d) = Σ_{k = 1}^{| C |} p (w_{i} | z_{i} = k) p (z_{i} = k | d) + Σ_{k = | C | + 1}^{| C | + μ | R |} p (w_{i} | z_{i} = k) p (z_{i} = k | d)

上式的含义是，根据文本-主题概率分布

求得当前文本在各个显式主题

（1≤k≤|C|）和隐含主题（|C|+1≤k≤|C|+μ|R|）上的概率分布，然后在每个主题k上，根据该主题的主题-单词分布

可以求得在该主题下输出单词w_i的概率，对所有主题上的概率累计求和，就是当前文本的第i个位置上输出单词w_i的总概率，这个公式表明了混合主题中的文本、主题（主题包括显式主题和隐含主题）和单词之间的关系。

需要说明的是，LDA算法中的变量z_i，和

都是未知的隐含变量，需要根据观察到的文本集合中的词来学习估计的，一般采用approximateinference算法来学习LDA中的隐含变量。LDA原始论文作者Blei使用mean-field variational expectation maximisation算法，不过Griffiths使用的Gibbs Sampling更为简单易懂，本发明使用Gibbs Sampling来进行学习。

Gibbs Sampling是Markov-Chain Monte Carlo算法的一个特例。这个算法的运行方式是每次选取概率向量的一个维度，然后使用其他维度的变量值去估测当前维度的值，不断迭代，直到收敛输出待估计的参数。

在本发明中，使用二阶段学习算法，首先根据概念文本学习到|C|个显式主题，然后再根据资源文本，学习到|C|+μ|R|个主题，这些主题可能包含显式主题和隐含主题。

以下将结合附图对本发明的具体实施例进行详细描述。

图2示出了根据本发明实施例的基于混合主题的文本标注方法流程。

如图2所示，本发明提供的基于混合主题的文本标注方法包括：S210：采用LDA算法对获取的概念文本进行学习；其中，在采用LDA算法对获取的概念文本进行学习的过程中，针对概念文本，设定第一目标显式主题，对设定的第一目标显式主题进行学习，获得概念文本中的单词在第一目标显式主题上的第一目标显式主题-单词的概率分布；并且，设定的第一目标显式主题的数量与概念文本的数量相同。

具体地，在通过Gibbs Sampling算法对文本-主题概率分布

和主题-单词概率分布

进行学习过程中，根据|C|个概念文本，设定|C|个第一目标显式主题进行学习，学得第一目标显式主题-单词的概率分布

也就是说，在对概念文本进行学习的过程中，第一目标显式主题与概念文本数量相等。由于所学到的

恰好是当前概念文本在各个目标显式主题上的概率分布，如果根据

某篇概念文本m强烈地和某个显式主题k相关，则可以将概念文本m的名称作为该显式主题k的名称，使用该名称，可以对用户输入的任意文本进行有名的语义标注。

需要说明的是，在本发明中的估计

和

的过程中，相对于LDA中所使用的Gibbs采样算法，要另外增加一个限制条件，即：对文本中的单词w_i设定其所对应的显式主题或者隐含主题分配时，所设定的主题k，必须在其对应的概念文本Doc(k)中包含单词w_i。

为此，对于文本集中的每个位置i所对应的单词w_i，设置一个该单词在显式主题或隐含主题的概率分布

该分布为

的逆，表明单词w_i在每个主题k的概率，单词

则

表明w_i不可能属于显式主题k。

图3示出了根据本发明实施例的LDA算法对概念文本进行学习的流程，如图3所示，LDA算法对概念文本进行学习的具体流程如下：

S310：算法开始，根据概念文本初始化单词在显式主题上的概率分布

S320：每个概念文本的主题分布

和每个主题下单词的分布

都收敛？若是YES，那么执行S390，S390：算法结束；若NO，那么执行S330；

S330：m<|C|？若YES，那么执行S340；若NO，那么执行S320；

S340：有待处理单词？若YES，那么执行S350；若NO，那么执行S330；

S350：对于单词w_i，从

中根据概率随机挑出一个非0元素，给w_i分配主题z_i；

S360：更新每个主题z下出现单词t的数量

以及每个文本m下出现主题z的数量

S370：排除当前单词w_i的主题分配后，根据其他所有单词的主题分配z_-i重新估计当前单词在各个显式主题上的概率分布，使用如下的公式：

其中，d为概念文本；w_i为概念文本中的当前单词；z_i为当前单词w_i的主题分配；z_-i为概念文本中除去w_i之后其他所有单词的主题分配；k是Topic的游标；t是单词的游标；

表示除掉单词w_i后文本m下出现主题k的数量；

表示除掉单词w_i后主题k下出现单词t的数量；α_k是主题k的Dirichlet先验参数；β_t是单词t的Dirichlet先验参数。

S380：得到了更新后的

然后，根据

为单词w_i采样一个新的主题分配z_i。

然后在返回步骤S340，循环执行上述步骤S320至步骤S380，直至分布收敛结束。

S390：算法结束，输出待估计的参数

和最终每个单词的主题分配z也同时得出。

上述为LDA算法对概念文本进行学习详细流程，需要说明的是，在本发明中

在学习过程中只是检验是否收敛的方法，并不能起到其他实质性的作用，在本次算法结束的和上次算法的

一样时，表示分布收敛结束；学习的结果是获得第一目标显式主题-单词的概率分布，并且学习获得的结果将会用到第二阶段的学习中。

S220：采用LDA算法对获取的资源文本进行学习；其中，在采用LDA算法对获取的资源文本进行学习的过程中，针对资源文本，设定目标主题；其中，目标主题包括第二目标显式主题和目标隐含主题，并且，设定的目标隐含主题的数量小于资源文本的数量；以及，根据在概念文本学习中获得的第一目标显式主题-单词的概率分布对第二目标显式主题进行初始化；

对第二目标显式主题初始化的结果和目标隐含主题进行学习，获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布。

具体地，在LDA算法学习的第二阶段，也就是说，在采用LDA算法对获取的资源文本进行学习过程中，对于企业内部的资源文本集R，设定|C|+μ|R|个目标主题，获得同时包含显式主题和隐含主题在单词表上的显式主题-单词和隐含主题-单词的概率分布。其中μ是一个降维系数，根据资源文本中可能包含的主题的多少估测其值。也就是说，在针对资源文本，设定目标隐含主题进行学习的过程中，目标隐含主题的数量小于资源文本的数量。对于资源文本集中的每个位置i所对应的单词w_i,我们同样设置一个该单词在显式主题或隐含主题的概率分布

表明单词w_i在每个主题k的概率，当k为显式主题（1≤k≤|C|）且单词则

表明w_i不可能属于显式主题k，当k为隐含主题（|C|+1≤k≤|C|+μ|R|），则并没有上述限制，这意味着单词表中的每个单词都可以在潜在主题可以上有一个大于零的概率分布。

需要说明的是，对在概念文本学习中，设定目标主题；目标主题包括第二目标显式主题和目标隐含主题，设定的目标隐含主题的数量小于资源文本的数量，并且第二目标显式主题的数量与在学习的第一阶段中（LDA算法学习中）的第一目标显式主题的数量相同。

在对第二目标显式主题进行初始化的过程中，资源文本的引入，使得单词在显式主题上的概率分布发生变化，因此需要将在概念文本学习中获得的第一目标显式主题-单词的概率分布拷贝到第二目标显式主题中，然后对显式主题上的概率分布进行再学习。也就是说，在资源文本中第二目标显式主题的数量与在概念文本中第一目标显式主题的数量是一样的，名称也是相同的，不同的只有单词在显式主题的上的概率分布。

其中，由所有概念文本和所有资源文本中的单词构成了单词表，在资源文本学习中获得第二目标显式主题-单词的概率分布和目标隐含-单词的概率分布，也就是说，获得单词表中的单词在第二目标显式主题上的第二目标显式主题-单词的概率分布和单词表中的单词在隐含主题上的目标隐含主题-单词的概率分布。

图4示出了根据本发明实施例的LDA算法对资源文本进行学习的流程，如图4所示，LDA算法对资源文本进行学习的具体流程如下：

S410：算法开始，根据LDA算法对概念文本学习算法的主题分配z，以及通过LDA算法对概念文本学习得到的概念文本中的单词在第一目标显式主题上的概率分布

对资源文本中的第二目标显式主题进行初始化；对于新增的目标隐含主题来说，使用随机数进行初始化

最后设定m的初值为|C|；

S420：每个主题分布和每个主题下单词的分布

都收敛？若是YES，那么执行S490，S490：算法结束；若NO，那么执行S430；

S430：m＜|C|+|R|？若YES，那么执行S440；若NO，那么执行S420；

S440：有待处理单词？若YES，那么执行S450；若NO，那么执行S430；

S450：对于单词w_i，从

中根据概率随机挑出一个非0元素，给w_i分配主题z_i；

S460：更新每个主题z下出现单词t的数量

以及以及每个文本m下出现主题z的数量

S470：排除当前单词w_i的主题分配后，根据其他所有单词的主题分配z_-i重新估计当前单词在各个显式主题上的概率分布，使用如下的公式：

其中，d为资源文本；w_i为资源文本中的当前单词；z_i为当前单词w_i的主题分配；z_-i为资源文本中除去w_i之后其他所有单词的主题分配；k是Topic的游标；t是单词的游标；表示除掉单词w_i后文本m下出现主题k的数量；

S480：得到了更新后的

然后，根据

为单词w_i采样一个新的主题分配z_i。

然后在返回步骤S440，循环执行上述步骤S420至步骤S480，直至分布收敛结束。

S490：算法结束，输出待估计的参数

和

最终每个单词的主题分配z也同时得出。

需要说明的是，在上述的算法过程中，使用对概念文本学习到的z初始化z⁽⁰⁾，以及从概念文本学习到的单词在第一目标显式主题上的概率分布不断使用上述算法，对资源文本进行学习，则可以学习到同时包含显式主题（第二目标显式主题）和隐含主题（目标隐含主题）的主题-单词的概率分布

S230：根据在对资源文本进行学习的过程中获得的第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布，对待标注文本进行语义标注。

具体地，在对待标注文本进行语义标注的过程中，包括分别进行显式主题和隐含主题标注，首先，在对待标注文本进行显式主题标注时，根据在LDA算法学习中获得的第二目标显式主题-单词的概率分布，用第二目标显式主题的名称对待标注文本进行有名的语义标注。

然后，在对待标注文本进行隐含主题标注时，根据在LDA算法学习中获得的目标隐含主题-单词的概率分布，用目标隐含主题的ID对待标注文本进行无名的语义标注。

需要说明的是，对于用户提供的待标注文本，使用LDA算法，会得到待标注文本的

分布，这个概率分布揭示了待标注文本中主要讨论的显式主题和隐含主题，显式主题可以给出单词所对应的名称，隐含主题则只能标示出单词所对应的隐含主题的id，虽然对于人类读者来说，这个id是没有意义的，但是对于计算机来说，使用这个id，系统同样可以实现分类、搜索和推荐等应用。

与上述方法相对应，本发明还提供一种基于混合主题的文本标注系统，图5示出了根据本发明实施例的基于混合主题的文本标注系统逻辑结构。

如图5所示，本发明提供的基于混合主题的文本标注系统500包括：概念文本学习单元510、资源文本学习单元520和文本标注单元530。

概念文本学习单元510用于采用LDA算法对获取的概念文本进行学习，包括第一目标显式主题设定单元511和第一目标显式主题学习单元512。

其中，第一目标显式主题设定单元511用于针对概念文本，设定第一目标显式主题；第一目标显式主题学习单元512用于对设定的所述第一目标显式主题进行学习，获得概念文本中的单词在第一目标显式主题上的第一目标显式主题-单词的概率分布；并且，第一目标显式主题设定单元511设定的第一目标显式主题的数量与概念文本的数量相同。

资源文本学习单元520用于采用LDA算法对获取的资源文本进行学习，包括目标主题设定单元521、初始化单元522和学习单元523。

目标主题设定单元521用于针对资源文本，设定目标主题；其中，

目标主题包括第二目标显式主题和目标隐含主题，设定的目标隐含主题的数量小于资源文本的数量。

初始化单元522用于根据在概念文本学习中获得的第一目标显式主题-单词的概率分布对第二目标显式主题进行初始化。

学习单元523用于对第二目标显式主题初始化的结果和目标隐含主题进行学习，获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布。

文本标注单元530用于根据资源文本学习单元520获得的第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布，对待标注文本进行语义标注。

其中，在第一目标显式主题学习单元512对设定第一目标显式主题进行学习的过程中，

其中，d为概念文本；w_i为概念文本中的当前单词；

z_i为当前单词w_i的主题分配；

z_-i为概念文本中除去w_i之后其他所有单词的主题分配；

k是Topic的游标；t是单词的游标；

表示除掉单词w_i后文本m下出现主题k的数量；

表示除掉单词w_i后主题k下出现单词t的数量；

文本标注单元530包括显式主题标注单元531和隐含主题标注单元532，其中，显式主题标注单元531用于对待标注文本进行显式主题标注，隐含主题标注单元532用于对待标注文本进行隐含主题标注。

具体地，显式主题标注单元531根据在LDA算法学习中获得的所述第二目标显式主题-单词的概率分布，用第二目标显式主题的名称对待标注文本进行有名的语义标注。

隐含主题标注单元532根据在LDA算法学习中获得的目标隐含主题-单词的概率分布，用目标隐含主题的ID对待标注文本进行无名的语义标注。

示例

概念文本学习

在这个示例中，提供了四篇概念文本，然后经过分词等预处理，抽取出每个概念所包含的单词，分别如下所示：

firewall.txt:NetEye firewall NetEye Computer network security Firewall softwareNSD Neusoft software Virtual private network VPN Access control Networkaddress translation NAT High availability Application-level gateway ALGApplication firewall Quality of service QoS Open Shortest Path First OSPFRouting Information Protocol RIP Border Gateway Protocol BGP IPv6sFlow

unieap.txt:UniEAP UniEAP Enterprise application integration PSD Neusoftsoftware EEclipse Platform Spring Framework Hibernate HibernateFramework Apache Struts Struts Framework Jive Knowledge BaseFusionCharts FusionWidgets Ajax Controls based on Dojo Toolkit DojoFramework Kettle Enterprise application integration Integration Intel DCMServer Schneider Struxureware

realrec.txt:SaCa RealRec Recommender system TSD Neusoft software ClouderaManager CDH4Apache Hadoop Hdfs Mapreduce Zookeeper Hbase Oozie Huestorm kestrel piwik sqoop Apache Mahout Mahout hive msyql ApacheTomcat tomcat Java Apache Tomcat Cloudera Manager Cloudera CDH4Cloudera HDFS Distributed computing Cloudera Hbase Column-oriented DBMSDatabase management system Cloudera Zookeeper Apache Hive Data warehouseApache Software Foundation Apache sqoop hadoop Neo4j Apache Storm ApacheMahout piwik MySQL

snap.txt:SaCa SNAP SaCa Social networking services TSD Neusoftsoftware JEE Tomcat7MySQL5MongoDB2Apache Tomcat VMwareSpring Framework Memcached Distributed cache VMware Spring Data Dataaccess Neo4j Database management system MongoDB Apache MahoutApache Software Foundation Apache ServerMixApache ActiveMQ OracleMySQL

然后设定主题-单词的概率分布

训练中的学习算法中，目标显式主题的个数也为4，学得文本-显式主题的概率分布

如表1所示：

	C1	C2	C3	C4
					Firewall.txt	0.968085	0.010638	0.010638	0.010638
UniEAP.txt	0.011628	0.94186	0.011628	0.034884
					RealRec.txt	0.007246	0.007246	0.978261	0.007246

SNAP.txt

0.011628

0.05814

0.244186

0.686047

表1

从表1中可以看到，由于多个概念文本之间差异比较大，所以得到的显式主题和领域概念具有非常好的对应关系，因此可以将概念文本的名称作为显式主题的概念名称，比如，显式主题C1的名称为“Firewall”，C2的名称为“UniEAP”，通过对概念文本进行细粒度的学习，我们实现了隐含主题的显式化和概念化。

与此同时，得到显式主题-单词的概率分布

如下所示：

C1:

firewall0.05496453493833542

network0.05496453493833542

neteye0.03723403811454773

software0.03723403811454773

gateway0.03723403811454773

protocol0.03723403811454773

computer0.019503546878695488

security0.019503546878695488

nsd0.019503546878695488

neusoft0.019503546878695488

virtual0.019503546878695488

private0.019503546878695488

vpn0.019503546878695488

access0.019503546878695488

control0.019503546878695488

address0.019503546878695488

translation0.019503546878695488

nat0.019503546878695488

high0.019503546878695488

availability0.019503546878695488

C2:

framework0.09550561010837555

integration0.0580524317920208

neusoft0.03932584077119827

application0.03932584077119827

unieap0.03932584077119827

enterprise0.03932584077119827

hibernate0.03932584077119827

struts0.03932584077119827

dojo0.03932584077119827

software0.020599251613020897

psd0.020599251613020897

eeclipse0.020599251613020897

platform0.020599251613020897

apache0.020599251613020897

jive0.020599251613020897

knowledge0.020599251613020897

base0.020599251613020897

fusioncharts0.020599251613020897

fusionwidgets0.020599251613020897

ajax0.020599251613020897

C3:

apache0.14819005131721497

cloudera0.06900452077388763

mahout0.04638008773326874

system0.03506787121295929

tomcat0.03506787121295929

software0.02375565469264984

tsd0.02375565469264984

manager0.02375565469264984

cdh40.02375565469264984

hadoop0.02375565469264984

hdfs0.02375565469264984

zookeeper0.02375565469264984

hbase0.02375565469264984

storm0.02375565469264984

piwik0.02375565469264984

sqoop0.02375565469264984

hive0.02375565469264984

distributed0.02375565469264984

database0.02375565469264984

foundation0.02375565469264984

C4:

spring0.0748792216181755

software0.050724633038043976

saca0.050724633038043976

data0.050724633038043976

vmware0.050724633038043976

access0.026570048183202744

tomcat0.026570048183202744

management0.026570048183202744

neo4j0.026570048183202744

mysql0.026570048183202744

snap0.026570048183202744

social0.026570048183202744

networking0.026570048183202744

services0.026570048183202744

jee0.026570048183202744

tomcat70.026570048183202744

mysql50.026570048183202744

mongodb20.026570048183202744

memcached0.026570048183202744

cache0.026570048183202744

资源文本的学习

将一些企业的资源文本（doc1.txt,doc2.txt,doc3.txt）加入到文本集中，这些文本中使用了一些概念文本中不包含的概念，分别如下：

doc1.txt:Interoperable communications Vehicle telematics TSD MirrorLinkMobile phone Android(operating system)Android Telematics Video player(software)Global Positioning System GPS Touchscreen Computer monitorDisplay resolution Universal Mobile Telecommunications System3G Signal(electrical engineering)Sharity Colle System Virtual Network Computing VNCReal-time Transport Protocol RTP Bluetooth profile HFP

doc2.txt:3GNavi Navigation AVNC IS Prenatal diagnosis PND Map Compiler Fileformat Navigation function Stereoscopy3D Frequency Global Positioning SystemMatching(graph theory)Telephone number Route planning software StatisticsDatabase Windows CE WinCE Linux QNX Microcontroller MCU ARMarchitecture ARM9Atom(standard)Atom SuperH SH4User interface HMIMobile Application Part MAP Vice president VP Vector Product Format VPFProduct(business)Product Music Audio Memory management Systemsmanagement Computer icon Icon Input method

doc3.txt:ICDC Tobacco Data center Information technology Data analysis Dataexchange Operational data store ODS Master data management Data warehouseOnline analytical processing OLAP Data mart Data mining Analytic applicationsInformation security Operating system UNIX Microsoft Windows Database IBMDB2DB2Oracle Middleware Oracle WebLogic Server Weblogic IBM InfoSphereInfoSphere Computer terminal Enterprise portal

然后设定主题-单词的概率分布

训练中的学习算法中目标隐含主题的个数也为3，学得文本-混合主题的概率分布

如下表2所示：

	C1	C2	C3	C4	T1	T2	T3
								Firewall.txt	0.752577	0.010309	0.010309	0.010309	0.030928	0.030928	0.154639
UniEAP.txt	0.011236	0.910112	0.011236	0.033708	0.011236	0.011236	0.011236
								RealRec.txt	0.007092	0.007092	0.914894	0.021277	0.007092	0.007092	0.035461

SNAP.txt	0.011236	0.033708	0.370787	0.41573	0.033708	0.011236	0.123596
								Doc1.txt	0.033708	0.011236	0.011236	0.011236	0.168539	0.730337	0.033708
Doc2.txt	0.022556	0.007519	0.022556	0.007519	0.518797	0.368421	0.052632
								Doc3.txt	0.00885	0.044248	0.026549	0.00885	0.079646	0.044248	0.787611

表2

通过上述例子，可以看到：doc1.txt、doc2.txt以及doc3.txt和之前概念文本之间没有太大的交集，这些资源文本-主题都分布到了新学习到的主题T1、T2和T3上，不过，由于系统无法确认这些资源文本的主题概念，所以新学习到的主题都是隐含主题，尽管如此，通过隐含主题的引入，使得主题-单词分布更多地体现了企业内部的术语之间的相关性。

另外，更新后的主题-单词的概率分布

如下所示：

C1:

network0.0682196319103241

firewall0.05158069729804993

neteye0.03494176268577576

software0.03494176268577576

gateway0.03494176268577576

application0.03494176268577576

computer0.018302829936146736

private0.018302829936146736

vpn0.018302829936146736

control0.018302829936146736

address0.018302829936146736

translation0.018302829936146736

nat0.018302829936146736

high0.018302829936146736

availability0.018302829936146736

application-level0.018302829936146736

alg0.018302829936146736

quality0.018302829936146736

service0.018302829936146736

qos0.018302829936146736

C2:

framework0.07834101468324661

enterprise0.0476190485060215

integration0.0476190485060215

application0.032258063554763794

unieap0.032258063554763794

hibernate0.032258063554763794

struts0.032258063554763794

dojo0.032258063554763794

server0.032258063554763794

software0.016897082328796387

neusoft0.016897082328796387

psd0.016897082328796387

eeclipse0.016897082328796387

platform0.016897082328796387

apache0.016897082328796387

jive0.016897082328796387

knowledge0.016897082328796387

base0.016897082328796387

fusioncharts0.016897082328796387

fusionwidgets0.016897082328796387

C3:

apache0.12584054470062256

cloudera0.05859750136733055

software0.03938520699739456

mahout0.03938520699739456

tomcat0.03938520699739456

database0.03938520699739456

neusoft0.020172910764813423

system0.020172910764813423

tsd0.020172910764813423

manager0.020172910764813423

cdh40.020172910764813423

hadoop0.020172910764813423

hdfs0.020172910764813423

zookeeper0.020172910764813423

hbase0.020172910764813423

storm0.020172910764813423

piwik0.020172910764813423

sqoop0.020172910764813423

hive0.020172910764813423

distributed0.020172910764813423

C4:

spring0.07363420724868774

saca0.07363420724868774

vmware0.049881234765052795

access0.026128267869353294

snap0.026128267869353294

social0.026128267869353294

services0.026128267869353294

jee0.026128267869353294

tomcat70.026128267869353294

mysql50.026128267869353294

mongodb20.026128267869353294

memcached0.026128267869353294

cache0.026128267869353294

mongodb0.026128267869353294

activemq0.026128267869353294

neteye0.0023752970155328512

firewall0.0023752970155328512

computer0.0023752970155328512

network0.0023752970155328512

security0.0023752970155328512

T1:

system0.07380607724189758

management0.03039073757827282

mobile0.03039073757827282

navigation0.03039073757827282

map0.03039073757827282

format0.03039073757827282

windows0.03039073757827282

icon0.03039073757827282

software0.01591895893216133

nsd0.01591895893216133

interoperable0.01591895893216133

bluetooth0.01591895893216133

profile0.01591895893216133

diagnosis0.01591895893216133

pnd0.01591895893216133

telephone0.01591895893216133

number0.01591895893216133

route0.01591895893216133

planning0.01591895893216133

wince0.01591895893216133

T2:

computer0.025893958285450935

virtual0.025893958285450935

telematics0.025893958285450935

global0.025893958285450935

positioning0.025893958285450935

information0.013563502579927444

protocol0.013563502579927444

tsd0.013563502579927444

computing0.013563502579927444

communications0.013563502579927444

vehicle0.013563502579927444

mirrorlink0.013563502579927444

mobile0.013563502579927444

phone0.013563502579927444

android0.013563502579927444

video0.013563502579927444

player0.013563502579927444

gps0.013563502579927444

touchscreen0.013563502579927444

monitor0.013563502579927444

T3:

data0.1200951337814331

oracle0.0368608795106411

security0.024970272555947304

warehouse0.024970272555947304

ibm0.024970272555947304

db20.024970272555947304

weblogic0.024970272555947304

infosphere0.024970272555947304

computer0.013079667463898659

neusoft0.013079667463898659

access0.013079667463898659

open0.013079667463898659

routing0.013079667463898659

information0.013079667463898659

protocol0.013079667463898659

ipv60.013079667463898659

system0.013079667463898659

computing0.013079667463898659

management0.013079667463898659

networking0.013079667463898659

上述可以看到，由于新的资源文本的加入，原本属于某个显式主题的单词（如Security）可能不再只属于该显式主题（如C1），而是部分地转移到了其他的隐含主题（如T3）中，于此同时，“Firewall”这个概念文本（即概念Firewall）也从之前主要根据显式主题C1转化成为基于0.752577的显式主题C1和0.154639的隐含主题T3，这个过程反映了于显式主题相关性不大的单词逐渐被筛除的过程。

标注问题

对于用户提供的输入文本，使用LDA算法计算出文本-主题概率分布

这个分配分布揭示了文本在多大的概率上对应了显式主题或隐含主题，通过这种方式，解决了文本的标注（tagging）问题。

比如，对于下面已经除去停用单词的用户输入：neteye firewall computersecurity snap，使用LDA算法，得到如表3所示的文本-主题的概率分布

表3

如果采取阈值为0.01，则上述表3中输入被标示为：C1（0.411765）、C3（0.176471）和T3（0.176471），其中C1和C3为显式主题，C1的名称为：Firewall，C3的名称为SNAP，而T3为隐含主题。

通过上述实施方式可以看出，本发明提供的文本标注方法及系统，显式主题和隐含主题相互结合，既能够享有通用领域本体的准确性，又能够以比较低的成本来不断适应企业的资源文本的不断增加，同时能够以比较高的准确性向系统的使用者提供高质量的语义标注服务。

如上参照附图以示例的方式描述了根据本发明提出的文本标注方法及系统。但是，本领域技术人员应当理解，对于上述本发明所提出的文本标注方法及系统，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种基于混合主题的文本标注方法，包括：

步骤一：采用LDA算法对获取的概念文本进行学习；

其中，在采用LDA算法对获取的概念文本进行学习的过程中，针对所述概念文本，设定第一目标显式主题，对设定的所述第一目标显式主题进行学习，获得所述概念文本中的单词在所述第一目标显式主题上的第一目标显式主题-单词的概率分布；并且，

设定的所述第一目标显式主题的数量与所述概念文本的数量相同；

步骤二：采用LDA算法对获取的资源文本进行学习；

其中，在采用LDA算法对获取的资源文本进行学习的过程中，针对所述资源文本，设定目标主题；其中，

所述目标主题包括第二目标显式主题和目标隐含主题，并且，设定的所述目标隐含主题的数量小于所述资源文本的数量；以及，

根据在所述概念文本学习中获得的所述第一目标显式主题-单词的概率分布对所述第二目标显式主题进行初始化；

对所述第二目标显式主题初始化的结果和所述目标隐含主题进行学习，获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布；

步骤三：根据在对所述资源文本进行学习的过程中获得的所述第二目标显式主题-单词的概率分布和所述目标隐含主题-单词的概率分布，对待标注文本进行语义标注。

2.如权利要求1所述的基于混合主题的文本标注方法，其中，在对设定所述第一目标显式主题进行学习的过程中，

其中，d为所述概念文本；w_i为所述概念文本中的当前单词；

z_i为当前单词w_i的主题分配；

z_-i为所述概念文本中除去w_i之后其他所有单词的主题分配；

k是Topic的游标；t是单词的游标；

表示除掉单词w_i后文本m下出现主题k的数量；

表示除掉单词w_i后主题k下出现单词t的数量；

3.如权利要求1所述的基于混合主题的文本标注方法，其中，

在对所述待标注文本进行语义标注的过程中，对所述待标注文本分别进行显式主题和隐含主题标注；其中，

在对所述待标注文本进行显式主题标注时，根据在LDA算法学习中获得的所述第二目标显式主题-单词的概率分布，用所述第二目标显式主题的名称对所述待标注文本进行有名的语义标注；

在对所述待标注文本进行隐含主题标注时，根据在LDA算法学习中获得的所述目标隐含主题-单词的概率分布，用所述目标隐含主题的ID对所述待标注文本进行无名的语义标注。

4.一种基于混合主题的文本标注系统，包括：

概念文本学习单元，用于采用LDA算法对获取的概念文本进行学习，包括第一目标显式主题设定单元和第一目标显式主题学习单元；其中，

所述第一目标显式主题设定单元用于针对所述概念文本，设定第一目标显式主题，所述第一目标显式主题学习单元用于对设定的所述第一目标显式主题进行学习，获得所述概念文本中的单词在所述第一目标显式主题上的第一目标显式主题-单词的概率分布；并且，

所述第一目标显式主题设定单元设定的所述第一目标显式主题的数量与所述概念文本的数量相同；

所述目标主题设定单元用于针对所述资源文本，设定目标主题，所述目标主题包括第二目标显式主题和目标隐含主题，并且，设定的所述目标隐含主题的数量小于所述资源文本的数量；

所述初始化单元用于根据在所述概念文本学习中获得的所述第一目标显式主题-单词的概率分布对所述第二目标显式主题进行初始化；

所述学习单元用于对所述第二目标显式主题初始化的结果和所述目标隐含主题进行学习，获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布；

文本标注单元，用于根据所述资源文本学习单元获得的所述第二目标显式主题-单词的概率分布和所述目标隐含主题-单词的概率分布，对待标注文本进行语义标注。

5.如权利要求4所述的基于混合主题的文本标注系统，其中，

在所述第一目标显式主题学习单元对设定所述第一目标显式主题进行学习的过程中，

其中，d为所述概念文本；w_i为所述概念文本中的当前单词；

z_i为当前单词w_i的主题分配；

z_-i为所述概念文本中除去w_i之后其他所有单词的主题分配；

k是Topic的游标；t是单词的游标；

表示除掉单词w_i后文本m下出现主题k的数量；

表示除掉单词w_i后主题k下出现单词t的数量；

6.如权利要求4所述的基于混合主题的文本标注系统，其中，

所述文本标注单元包括对所述待标注文本进行显式主题标注的显式主题标注单元和对所述待标注文本进行隐含主题标注的隐含主题标注单元，其中，

所述显式主题标注单元根据在LDA算法学习中获得的所述第二目标显式主题-单词的概率分布，用所述第二目标显式主题的名称对所述待标注文本进行有名的语义标注；

所述隐含主题标注单元根据在LDA算法学习中获得的所述目标隐含主题-单词的概率分布，用所述目标隐含主题的ID对所述待标注文本进行无名的语义标注。