CN103699522A - 基于混合主题的文本标注方法及系统 - Google Patents

基于混合主题的文本标注方法及系统 Download PDF

Info

Publication number
CN103699522A
CN103699522A CN201310691189.9A CN201310691189A CN103699522A CN 103699522 A CN103699522 A CN 103699522A CN 201310691189 A CN201310691189 A CN 201310691189A CN 103699522 A CN103699522 A CN 103699522A
Authority
CN
China
Prior art keywords
theme
text
explicit
word
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310691189.9A
Other languages
English (en)
Other versions
CN103699522B (zh
Inventor
王勇
赵立军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201310691189.9A priority Critical patent/CN103699522B/zh
Publication of CN103699522A publication Critical patent/CN103699522A/zh
Application granted granted Critical
Publication of CN103699522B publication Critical patent/CN103699522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于混合主题的文本标注方法及系统,其中方法包括:采用LDA算法对获取的概念文本进行学习,设定第一目标显式主题,对第一目标显式主题进行学习,获得第一目标显式主题-单词的概率分布;采用LDA算法对获取的资源文本进行学习,设定第二目标显式主题和目标隐含主题,对第二目标显式主题初始化的结果和目标隐含主题进行学习,获得的第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布;根据第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布,对待标注文本进行标注。利用本发明,通过显式主题和隐含主题的混合,能够低成本地解决领域本体的可扩展性问题,并提高文本标注的质量。

Description

基于混合主题的文本标注方法及系统
技术领域
本发明涉及文本标注技术领域,更为具体地,涉及一种基于混合主题的文本标注方法及系统。
背景技术
随着移动互联网和社交网络的推广,产生了大量的用户生成文本(UserGenerated Content,简称UGC),但是由于人们往往会使用不同的词语和表述方式表达类似的内容,因此,传统搜索引擎中广泛使用的基于词语的倒排索引来管理UGC内容的方法无法揭示UGC内在的相关性,无法对这些文本进行有效的维护、检索和推荐,所以,在语义层面理解文本的含义变得十分必要。
使用自然语言处理((Natural Language Processing,简称NLP)技术可以对UGC进行深度的理解,但是由于人类自然语言的复杂性,精确的理解是不可能的,而且也往往是不必要的。事实上,如果能够对文本进行语义标注,构建起词到语义概念的映射,则即使只能对UGC进行浅层分析,系统也能够判断UGC在语义概念空间上的分布,从而为UGC的管理、搜索和推荐提供切实的基础。
解决语义标注问题的一种思路是通过领域专家建立一个领域本体,该领域本体包含本领域的概念、概念实例、以及概念实例之间的关系(如“is a”、“has a”)。我们可以根据领域本体中的概念(在本发明的后续说明中,如不做特殊说明,所说的概念均包含领域概念和概念的实例)的各种词语表述,来对文本进行语义概念标注,当一个词语对应于多个语义概念的时候,可以根据文本上下文中的其他词语进行语义消歧。
和上述思路不同,隐含主题分析方法是一种基于无监督学习的统计方法,在这种方法中,对于给定的文本集合,系统通过参数能够估计确定一些隐含主题(Topic),每个主题是一个单词表上的概率分布,每篇文本则可以表示为在多个主题上的概率分布,和词袋模型中的单词相比隐含主题的维度要低得多,因此可以有效地避免词一级的噪音。
但是,这两种思路都不是完美的,前者虽然能够对文本产生易于理解的和符合人类直觉的语义标注,但是需要巨大的人工编辑工作,这在很多环境下是根本不可能的;而后者虽然能够通过机器学习的方法自动地学习到潜在的主题,但是学习到的主题的含义往往难以解释,而且其粒度往往过大,并且缺乏控制粒度的方法。
因此,需要一种新的文本标注方法解决上述两种思路中出现的问题。
发明内容
鉴于上述问题,本发明的目的是提供一种基于混合主题的文本标注方法及系统,通过混合主题结合,以保证领域本体的准确性、降低企业的资源文本的不断增加所造成的成本提示、确保系统准确性以及文本语义标注质量。
本发明提供一种基于混合主题的文本标注方法,包括:
步骤一:采用LDA算法对获取的概念文本进行学习;
其中,在采用LDA算法对获取的概念文本进行学习的过程中,针对概念文本,设定第一目标显式主题,对设定的第一目标显式主题进行学习,获得概念文本中的单词在第一目标显式主题上的第一目标显式主题-单词的概率分布;并且,
设定的第一目标显式主题的数量与概念文本的数量相同;
步骤二:采用LDA算法对获取的资源文本进行学习;
其中,在采用LDA算法对获取的资源文本进行学习的过程中,针对资源文本,设定目标主题;其中,
目标主题包括第二目标显式主题和目标隐含主题,并且,设定的目标隐含主题的数量小于资源文本的数量;以及,
根据在概念文本学习中获得的第一目标显式主题-单词的概率分布对第二目标显式主题进行初始化;
对第二目标显式主题初始化的结果和目标隐含主题进行学习,获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布;
步骤三:根据在对资源文本进行学习的过程中获得的第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布,对待标注文本进行语义标注。
此外,优选的方案是,在对设定第一目标显式主题进行学习的过程中,
采用如下的公式获得所述第一目标显式主题-单词的概率分布:
其中,d为概念文本;wi为概念文本中的当前单词;
zi为当前单词wi的主题分配;
z-i为概念文本除去wi之后其他所有单词的主题分配;
k是Topic的游标;t是单词的游标;
Figure BDA0000437140530000032
表示除掉单词wi后文本m下出现主题k的数量;
Figure BDA0000437140530000033
表示除掉单词wi后主题k下出现单词t的数量;
αk是主题k的Dirichlet先验参数;βt是单词t的Dirichlet先验参数。
此外,优选的方案是,在对所述待标注文本进行语义标注的过程中,对待标注文本分别进行显式主题和隐含主题标注;其中,
在对待标注文本进行显式主题标注时,根据在LDA算法学习中获得的第二目标显式主题-单词的概率分布,用第二目标显式主题的名称对待标注文本进行有名的语义标注;
在对待标注文本进行隐含主题标注时,根据在LDA算法学习中获得的目标隐含主题-单词的概率分布,用目标隐含主题的ID对待标注文本进行无名的语义标注。
另一方面,本发明还提供一种基于混合主题的文本标注系统,包括:
用于采用LDA算法对获取的概念文本进行学习,包括第一目标显式主题设定单元和第一目标显式主题学习单元;其中,
第一目标显式主题设定单元用于针对概念文本,设定第一目标显式主题,第一目标显式主题学习单元用于对设定的所述第一目标显式主题进行学习,获得概念文本中的单词在第一目标显式主题上的第一目标显式主题-单词的概率分布;并且,
第一目标显式主题设定单元设定的第一目标显式主题的数量与概念文本的数量相同;
资源文本学习单元,用于采用LDA算法对获取的资源文本进行学习,包括目标主题设定单元、初始化单元和学习单元;其中,
目标主题设定单元用于针对资源文本,设定目标主题;其中,
目标主题包括第二目标显式主题和目标隐含主题,并且,设定的目标隐含主题的数量小于资源文本的数量;
初始化单元用于根据在概念文本学习中获得的第一目标显式主题-单词的概率分布对第二目标显式主题进行初始化;
学习单元用于对第二目标显式主题初始化的结果和目标隐含主题进行学习,获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布;
文本标注单元,用于根据资源文本学习单元获得的第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布,对待标注文本进行语义标注。
此外,优选的方案是,在第一目标显式主题学习单元对设定第一目标显式主题进行学习的过程中,
采用如下的公式获得第一目标显式主题-单词的概率分布:
Figure BDA0000437140530000041
其中,d为概念文本;wi为概念文本中的当前单词;
zi为当前单词wi的主题分配;
z-i为概念文本中除去wi之后其他所有单词的主题分配;
k是Topic的游标;t是单词的游标;
Figure BDA0000437140530000051
表示除掉单词wi后文本m下出现主题k的数量;
Figure BDA0000437140530000052
表示除掉单词wi后主题k下出现单词t的数量;
αk是主题k的Dirichlet先验参数;βt是单词t的Dirichlet先验参数。
此外,优选的方案是,文本标注单元包括对待标注文本进行显式主题标注的显式主题标注单元和对待标注文本进行隐含主题标注的隐含主题标注单元;其中,
显式主题标注单元根据在LDA算法学习中获得的所述第二目标显式主题-单词的概率分布,用第二目标显式主题的名称对待标注文本进行有名的语义标注;
隐含主题标注单元根据在LDA算法学习中获得的目标隐含主题-单词的概率分布,用目标隐含主题的ID对待标注文本进行无名的语义标注。
从上面的技术方案可知,本发明提供的基于混合主题的文本标注方法及系统,通过显式主题和隐含主题相互结合,既能够享有通用领域本体的准确性,又能够以比较低的成本来不断适应企业的资源文本的不断增加,同时能够以比较高的准确性向系统的使用者提供高质量的语义标注服务。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的基于混合主题的系统概念结构示意图;
图2为根据本发明实施例的基于混合主题的文本标注方法流程图;
图3为根据本发明实施例的LDA算法对概念文本进行学习的流程图;
图4为根据本发明实施例的LDA算法对资源文本进行学习的流程图;
图5为根据本发明实施例的基于混合主题的文本标注系统逻辑框图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。
为了解决前述的问题,需要一种能够将两种方法同时包含在内的结合方式。这种结合应该满足下面几个要求:第一能够同时处理领域本体和资源文本;第二算法简单,最好是能够以黑盒的方式将利用传统的算法;第三系统要具有良好的可扩展性。
领域本体和主题分析相互结合的方式可能有多种,其中一种很容易设想的方式就是:使用某种概念抽取方法,从企业资源文本中抽取出概念文本,每个概念文本包含对某个领域概念的详细说明;然后,这些生成的概念文本和通用领域本体一起来构建领域概念集。但是这种方式中,从资源文本自动生成概念文本是一个尚未成熟的技术。
所以,本发明采用了一种更加简单的结合方法,在这种结合中,如图1所示,图1为根据本发明实施例的基于混合主题的系统概念结构示意图,首先,根据领域本体生成领域的概念文本,然后使用传统的潜在主题分析方法同时读取概念文本和企业内的资源文本,生成本领域的主题-单词分布,使用这个分布,就可以对用户文本进行语义标注。
从图1的结构图中,可以看出这个结构的最大的好处是:由于将领域本体和企业信息资源首先作为文本,所以可以利用成熟的隐含主题分析方法(如LDA算法)来对这些文本进行分析,这样就屏蔽了领域本体和企业信息资源文本的异构性,就可以无差别地在一个框架内来处理这两种不同的数据,这将大大降低系统构造的难度。
不过,这也会面临相应的问题,即:如果对于领域概念文本和企业信息资源文本不做任何差异处理,则只能得到“隐含主题”,由于“隐含主题”只是一个词汇表上的概率分布,它没有名称,并且和领域专家心目中的本体概念没有直接关系,因此,只能将文本标注为一些id,而不是人类可以理解的本体概念名称。
为了解决这个问题,在本发明构建主题-单词分布的过程中,定义文本包括概念文本和资源文本;其中,根据领域本体获取领域的概念文本;根据企业信息资产获取企业的资源文本。对于概念文本和资源文本采取不同的处理策略,不仅得到“隐含主题”,也能同时得到和领域本体概念紧密相关的“显式主题”,此后就可以同时利用“显式主题”和“隐含主题”进行更符合人类直觉的标注。
本发明中,提出的是一种同时包含显式主题和隐含主题的混合主题分析方法,这种混合主题分析方法是隐含主题分析方法的一个扩展。在这个扩展中,显式主题被作为一种特殊的隐含主题被引入到系统中,这样,每个文本被看成是在显式主题和隐含主题上的分布。
在本发明的混合主题分析方法中,对于给定的概念文本集C,当有|C|个概念文本时,就要生成|C|个显式主题,因此,每个显式主题k(1≤k≤|C|),都对应与一个领域概念文本Doc(k),我们将每一个显式主题k看作是一个在单词表V上的多项式分布
Figure BDA0000437140530000071
其中
Figure BDA0000437140530000072
1≤w≤V。
在本发明中,显式主题具有名称这个属性,显式主题的名称就是对应的领域概念文本的文件名,另外,每个领域概念文本中包含了一个与该领域概念相关的单词的集合,只有对那些在概念文本中出现的词,才会出现在对应的显式主题-单词的概率分布中,即,对于每个不属于Doc(k)的单词w,
在本发明中定义的混合主题分析方法中,除了拥有由概念文本生成的显式主题之外,系统还能不断地从资源文本中学习新的隐含主题,这使得当资源文本中出现新的主题的时候,虽然无法揭示出这些主题对应的名称,但是能够揭示这些“隐含主题”的存在,以及单词在这些“隐含主题”上的分布。
因此,一般地,如果系统还具有|R|个资源文本,则生成μ|R|个隐含主题,μ是一个降维系数,根据资源文本中可能包含的主题的多少估测其值。隐含主题k的取值范围在|C|+1≤k≤|C|+μ|R|之间。这样,在混合主题分析方法中,文本d中的第i个单词wi的条件概率是:
p ( w i | d ) = Σ k = 1 | C | p ( w i | z i = k ) p ( z i = k | d ) + Σ k = | C | + 1 | C | + μ | R | p ( w i | z i = k ) p ( z i = k | d )
上式的含义是,根据文本-主题概率分布
Figure BDA0000437140530000082
求得当前文本在各个显式主题
(1≤k≤|C|)和隐含主题(|C|+1≤k≤|C|+μ|R|)上的概率分布,然后在每个主题k上,根据该主题的主题-单词分布
Figure BDA0000437140530000083
可以求得在该主题下输出单词wi的概率,对所有主题上的概率累计求和,就是当前文本的第i个位置上输出单词wi的总概率,这个公式表明了混合主题中的文本、主题(主题包括显式主题和隐含主题)和单词之间的关系。
需要说明的是,LDA算法中的变量zi
Figure BDA0000437140530000085
都是未知的隐含变量,需要根据观察到的文本集合中的词来学习估计的,一般采用approximateinference算法来学习LDA中的隐含变量。LDA原始论文作者Blei使用mean-field variational expectation maximisation算法,不过Griffiths使用的Gibbs Sampling更为简单易懂,本发明使用Gibbs Sampling来进行学习。
Gibbs Sampling是Markov-Chain Monte Carlo算法的一个特例。这个算法的运行方式是每次选取概率向量的一个维度,然后使用其他维度的变量值去估测当前维度的值,不断迭代,直到收敛输出待估计的参数。
在本发明中,使用二阶段学习算法,首先根据概念文本学习到|C|个显式主题,然后再根据资源文本,学习到|C|+μ|R|个主题,这些主题可能包含显式主题和隐含主题。
以下将结合附图对本发明的具体实施例进行详细描述。
图2示出了根据本发明实施例的基于混合主题的文本标注方法流程。
如图2所示,本发明提供的基于混合主题的文本标注方法包括:S210:采用LDA算法对获取的概念文本进行学习;其中,在采用LDA算法对获取的概念文本进行学习的过程中,针对概念文本,设定第一目标显式主题,对设定的第一目标显式主题进行学习,获得概念文本中的单词在第一目标显式主题上的第一目标显式主题-单词的概率分布;并且,设定的第一目标显式主题的数量与概念文本的数量相同。
具体地,在通过Gibbs Sampling算法对文本-主题概率分布
Figure BDA0000437140530000091
和主题-单词概率分布
Figure BDA0000437140530000092
进行学习过程中,根据|C|个概念文本,设定|C|个第一目标显式主题进行学习,学得第一目标显式主题-单词的概率分布
Figure BDA0000437140530000093
也就是说,在对概念文本进行学习的过程中,第一目标显式主题与概念文本数量相等。由于所学到的
Figure BDA0000437140530000094
恰好是当前概念文本在各个目标显式主题上的概率分布,如果根据
Figure BDA0000437140530000095
某篇概念文本m强烈地和某个显式主题k相关,则可以将概念文本m的名称作为该显式主题k的名称,使用该名称,可以对用户输入的任意文本进行有名的语义标注。
需要说明的是,在本发明中的估计
Figure BDA0000437140530000096
Figure BDA0000437140530000097
的过程中,相对于LDA中所使用的Gibbs采样算法,要另外增加一个限制条件,即:对文本中的单词wi设定其所对应的显式主题或者隐含主题分配时,所设定的主题k,必须在其对应的概念文本Doc(k)中包含单词wi
为此,对于文本集中的每个位置i所对应的单词wi,设置一个该单词在显式主题或隐含主题的概率分布
Figure BDA0000437140530000098
Figure BDA0000437140530000099
该分布为
Figure BDA00004371405300000910
的逆,表明单词wi在每个主题k的概率,单词
Figure BDA00004371405300000915
Figure BDA00004371405300000911
表明wi不可能属于显式主题k。
图3示出了根据本发明实施例的LDA算法对概念文本进行学习的流程,如图3所示,LDA算法对概念文本进行学习的具体流程如下:
S310:算法开始,根据概念文本初始化单词在显式主题上的概率分布
Figure BDA00004371405300000912
S320:每个概念文本的主题分布
Figure BDA00004371405300000913
和每个主题下单词的分布
Figure BDA00004371405300000914
都收敛?若是YES,那么执行S390,S390:算法结束;若NO,那么执行S330;
S330:m<|C|?若YES,那么执行S340;若NO,那么执行S320;
S340:有待处理单词?若YES,那么执行S350;若NO,那么执行S330;
S350:对于单词wi,从
Figure BDA0000437140530000101
中根据概率随机挑出一个非0元素,给wi分配主题zi
S360:更新每个主题z下出现单词t的数量
Figure BDA0000437140530000102
以及每个文本m下出现主题z的数量
Figure BDA0000437140530000103
S370:排除当前单词wi的主题分配后,根据其他所有单词的主题分配z-i重新估计当前单词在各个显式主题上的概率分布,使用如下的公式:
Figure BDA0000437140530000104
其中,d为概念文本;wi为概念文本中的当前单词;zi为当前单词wi的主题分配;z-i为概念文本中除去wi之后其他所有单词的主题分配;k是Topic的游标;t是单词的游标;
Figure BDA0000437140530000105
表示除掉单词wi后文本m下出现主题k的数量;
Figure BDA0000437140530000106
表示除掉单词wi后主题k下出现单词t的数量;αk是主题k的Dirichlet先验参数;βt是单词t的Dirichlet先验参数。
S380:得到了更新后的
Figure BDA0000437140530000107
然后,根据
Figure BDA0000437140530000108
为单词wi采样一个新的主题分配zi
然后在返回步骤S340,循环执行上述步骤S320至步骤S380,直至分布收敛结束。
S390:算法结束,输出待估计的参数
Figure BDA0000437140530000109
最终每个单词的主题分配z也同时得出。
上述为LDA算法对概念文本进行学习详细流程,需要说明的是,在本发明中
Figure BDA00004371405300001011
在学习过程中只是检验是否收敛的方法,并不能起到其他实质性的作用,在本次算法结束的和上次算法的
Figure BDA00004371405300001013
一样时,表示分布收敛结束;学习的结果是获得第一目标显式主题-单词的概率分布,并且学习获得的结果将会用到第二阶段的学习中。
S220:采用LDA算法对获取的资源文本进行学习;其中,在采用LDA算法对获取的资源文本进行学习的过程中,针对资源文本,设定目标主题;其中,目标主题包括第二目标显式主题和目标隐含主题,并且,设定的目标隐含主题的数量小于资源文本的数量;以及,根据在概念文本学习中获得的第一目标显式主题-单词的概率分布对第二目标显式主题进行初始化;
对第二目标显式主题初始化的结果和目标隐含主题进行学习,获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布。
具体地,在LDA算法学习的第二阶段,也就是说,在采用LDA算法对获取的资源文本进行学习过程中,对于企业内部的资源文本集R,设定|C|+μ|R|个目标主题,获得同时包含显式主题和隐含主题在单词表上的显式主题-单词和隐含主题-单词的概率分布。其中μ是一个降维系数,根据资源文本中可能包含的主题的多少估测其值。也就是说,在针对资源文本,设定目标隐含主题进行学习的过程中,目标隐含主题的数量小于资源文本的数量。对于资源文本集中的每个位置i所对应的单词wi,我们同样设置一个该单词在显式主题或隐含主题的概率分布
Figure BDA0000437140530000111
Figure BDA0000437140530000112
表明单词wi在每个主题k的概率,当k为显式主题(1≤k≤|C|)且单词
Figure BDA0000437140530000113
表明wi不可能属于显式主题k,当k为隐含主题(|C|+1≤k≤|C|+μ|R|),则并没有上述限制,这意味着单词表中的每个单词都可以在潜在主题可以上有一个大于零的概率分布。
需要说明的是,对在概念文本学习中,设定目标主题;目标主题包括第二目标显式主题和目标隐含主题,设定的目标隐含主题的数量小于资源文本的数量,并且第二目标显式主题的数量与在学习的第一阶段中(LDA算法学习中)的第一目标显式主题的数量相同。
在对第二目标显式主题进行初始化的过程中,资源文本的引入,使得单词在显式主题上的概率分布发生变化,因此需要将在概念文本学习中获得的第一目标显式主题-单词的概率分布拷贝到第二目标显式主题中,然后对显式主题上的概率分布进行再学习。也就是说,在资源文本中第二目标显式主题的数量与在概念文本中第一目标显式主题的数量是一样的,名称也是相同的,不同的只有单词在显式主题的上的概率分布。
其中,由所有概念文本和所有资源文本中的单词构成了单词表,在资源文本学习中获得第二目标显式主题-单词的概率分布和目标隐含-单词的概率分布,也就是说,获得单词表中的单词在第二目标显式主题上的第二目标显式主题-单词的概率分布和单词表中的单词在隐含主题上的目标隐含主题-单词的概率分布。
图4示出了根据本发明实施例的LDA算法对资源文本进行学习的流程,如图4所示,LDA算法对资源文本进行学习的具体流程如下:
S410:算法开始,根据LDA算法对概念文本学习算法的主题分配z,以及通过LDA算法对概念文本学习得到的概念文本中的单词在第一目标显式主题上的概率分布
Figure BDA0000437140530000121
对资源文本中的第二目标显式主题进行初始化;对于新增的目标隐含主题来说,使用随机数进行初始化
Figure BDA0000437140530000122
最后设定m的初值为|C|;
S420:每个主题分布和每个主题下单词的分布
Figure BDA0000437140530000124
都收敛?若是YES,那么执行S490,S490:算法结束;若NO,那么执行S430;
S430:m<|C|+|R|?若YES,那么执行S440;若NO,那么执行S420;
S440:有待处理单词?若YES,那么执行S450;若NO,那么执行S430;
S450:对于单词wi,从
Figure BDA0000437140530000125
中根据概率随机挑出一个非0元素,给wi分配主题zi
S460:更新每个主题z下出现单词t的数量
Figure BDA0000437140530000126
以及以及每个文本m下出现主题z的数量
Figure BDA0000437140530000127
S470:排除当前单词wi的主题分配后,根据其他所有单词的主题分配z-i重新估计当前单词在各个显式主题上的概率分布,使用如下的公式:
Figure BDA0000437140530000128
其中,d为资源文本;wi为资源文本中的当前单词;zi为当前单词wi的主题分配;z-i为资源文本中除去wi之后其他所有单词的主题分配;k是Topic的游标;t是单词的游标;表示除掉单词wi后文本m下出现主题k的数量;
Figure BDA0000437140530000132
表示除掉单词wi后主题k下出现单词t的数量;αk是主题k的Dirichlet先验参数;βt是单词t的Dirichlet先验参数。
S480:得到了更新后的
Figure BDA0000437140530000133
然后,根据
Figure BDA0000437140530000134
为单词wi采样一个新的主题分配zi
然后在返回步骤S440,循环执行上述步骤S420至步骤S480,直至分布收敛结束。
S490:算法结束,输出待估计的参数
Figure BDA0000437140530000135
Figure BDA0000437140530000136
最终每个单词的主题分配z也同时得出。
需要说明的是,在上述的算法过程中,使用对概念文本学习到的z初始化z(0),以及从概念文本学习到的单词在第一目标显式主题上的概率分布不断使用上述算法,对资源文本进行学习,则可以学习到同时包含显式主题(第二目标显式主题)和隐含主题(目标隐含主题)的主题-单词的概率分布
Figure BDA0000437140530000138
S230:根据在对资源文本进行学习的过程中获得的第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布,对待标注文本进行语义标注。
具体地,在对待标注文本进行语义标注的过程中,包括分别进行显式主题和隐含主题标注,首先,在对待标注文本进行显式主题标注时,根据在LDA算法学习中获得的第二目标显式主题-单词的概率分布,用第二目标显式主题的名称对待标注文本进行有名的语义标注。
然后,在对待标注文本进行隐含主题标注时,根据在LDA算法学习中获得的目标隐含主题-单词的概率分布,用目标隐含主题的ID对待标注文本进行无名的语义标注。
需要说明的是,对于用户提供的待标注文本,使用LDA算法,会得到待标注文本的
Figure BDA0000437140530000139
分布,这个概率分布揭示了待标注文本中主要讨论的显式主题和隐含主题,显式主题可以给出单词所对应的名称,隐含主题则只能标示出单词所对应的隐含主题的id,虽然对于人类读者来说,这个id是没有意义的,但是对于计算机来说,使用这个id,系统同样可以实现分类、搜索和推荐等应用。
与上述方法相对应,本发明还提供一种基于混合主题的文本标注系统,图5示出了根据本发明实施例的基于混合主题的文本标注系统逻辑结构。
如图5所示,本发明提供的基于混合主题的文本标注系统500包括:概念文本学习单元510、资源文本学习单元520和文本标注单元530。
概念文本学习单元510用于采用LDA算法对获取的概念文本进行学习,包括第一目标显式主题设定单元511和第一目标显式主题学习单元512。
其中,第一目标显式主题设定单元511用于针对概念文本,设定第一目标显式主题;第一目标显式主题学习单元512用于对设定的所述第一目标显式主题进行学习,获得概念文本中的单词在第一目标显式主题上的第一目标显式主题-单词的概率分布;并且,第一目标显式主题设定单元511设定的第一目标显式主题的数量与概念文本的数量相同。
资源文本学习单元520用于采用LDA算法对获取的资源文本进行学习,包括目标主题设定单元521、初始化单元522和学习单元523。
目标主题设定单元521用于针对资源文本,设定目标主题;其中,
目标主题包括第二目标显式主题和目标隐含主题,设定的目标隐含主题的数量小于资源文本的数量。
初始化单元522用于根据在概念文本学习中获得的第一目标显式主题-单词的概率分布对第二目标显式主题进行初始化。
学习单元523用于对第二目标显式主题初始化的结果和目标隐含主题进行学习,获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布。
文本标注单元530用于根据资源文本学习单元520获得的第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布,对待标注文本进行语义标注。
其中,在第一目标显式主题学习单元512对设定第一目标显式主题进行学习的过程中,
采用如下的公式获得所述第一目标显式主题-单词的概率分布:
Figure BDA0000437140530000151
其中,d为概念文本;wi为概念文本中的当前单词;
zi为当前单词wi的主题分配;
z-i为概念文本中除去wi之后其他所有单词的主题分配;
k是Topic的游标;t是单词的游标;
Figure BDA0000437140530000152
表示除掉单词wi后文本m下出现主题k的数量;
Figure BDA0000437140530000153
表示除掉单词wi后主题k下出现单词t的数量;
αk是主题k的Dirichlet先验参数;βt是单词t的Dirichlet先验参数。
文本标注单元530包括显式主题标注单元531和隐含主题标注单元532,其中,显式主题标注单元531用于对待标注文本进行显式主题标注,隐含主题标注单元532用于对待标注文本进行隐含主题标注。
具体地,显式主题标注单元531根据在LDA算法学习中获得的所述第二目标显式主题-单词的概率分布,用第二目标显式主题的名称对待标注文本进行有名的语义标注。
隐含主题标注单元532根据在LDA算法学习中获得的目标隐含主题-单词的概率分布,用目标隐含主题的ID对待标注文本进行无名的语义标注。
示例
概念文本学习
在这个示例中,提供了四篇概念文本,然后经过分词等预处理,抽取出每个概念所包含的单词,分别如下所示:
firewall.txt:NetEye firewall NetEye Computer network security Firewall softwareNSD Neusoft software Virtual private network VPN Access control Networkaddress translation NAT High availability Application-level gateway ALGApplication firewall Quality of service QoS Open Shortest Path First OSPFRouting Information Protocol RIP Border Gateway Protocol BGP IPv6sFlow
unieap.txt:UniEAP UniEAP Enterprise application integration PSD Neusoftsoftware EEclipse Platform Spring Framework Hibernate HibernateFramework Apache Struts Struts Framework Jive Knowledge BaseFusionCharts FusionWidgets Ajax Controls based on Dojo Toolkit DojoFramework Kettle Enterprise application integration Integration Intel DCMServer Schneider Struxureware
realrec.txt:SaCa RealRec Recommender system TSD Neusoft software ClouderaManager CDH4Apache Hadoop Hdfs Mapreduce Zookeeper Hbase Oozie Huestorm kestrel piwik sqoop Apache Mahout Mahout hive msyql ApacheTomcat tomcat Java Apache Tomcat Cloudera Manager Cloudera CDH4Cloudera HDFS Distributed computing Cloudera Hbase Column-oriented DBMSDatabase management system Cloudera Zookeeper Apache Hive Data warehouseApache Software Foundation Apache sqoop hadoop Neo4j Apache Storm ApacheMahout piwik MySQL
snap.txt:SaCa SNAP SaCa Social networking services TSD Neusoftsoftware JEE Tomcat7MySQL5MongoDB2Apache Tomcat VMwareSpring Framework Memcached Distributed cache VMware Spring Data Dataaccess Neo4j Database management system MongoDB Apache MahoutApache Software Foundation Apache ServerMixApache ActiveMQ OracleMySQL
然后设定主题-单词的概率分布
Figure BDA0000437140530000161
训练中的学习算法中,目标显式主题的个数也为4,学得文本-显式主题的概率分布
Figure BDA0000437140530000162
如表1所示:
C1 C2 C3 C4
Firewall.txt 0.968085 0.010638 0.010638 0.010638
UniEAP.txt 0.011628 0.94186 0.011628 0.034884
RealRec.txt 0.007246 0.007246 0.978261 0.007246
SNAP.txt 0.011628 0.05814 0.244186 0.686047
表1
从表1中可以看到,由于多个概念文本之间差异比较大,所以得到的显式主题和领域概念具有非常好的对应关系,因此可以将概念文本的名称作为显式主题的概念名称,比如,显式主题C1的名称为“Firewall”,C2的名称为“UniEAP”,通过对概念文本进行细粒度的学习,我们实现了隐含主题的显式化和概念化。
与此同时,得到显式主题-单词的概率分布
Figure BDA0000437140530000171
如下所示:
C1:
firewall0.05496453493833542
network0.05496453493833542
neteye0.03723403811454773
software0.03723403811454773
gateway0.03723403811454773
protocol0.03723403811454773
computer0.019503546878695488
security0.019503546878695488
nsd0.019503546878695488
neusoft0.019503546878695488
virtual0.019503546878695488
private0.019503546878695488
vpn0.019503546878695488
access0.019503546878695488
control0.019503546878695488
address0.019503546878695488
translation0.019503546878695488
nat0.019503546878695488
high0.019503546878695488
availability0.019503546878695488
C2:
framework0.09550561010837555
integration0.0580524317920208
neusoft0.03932584077119827
application0.03932584077119827
unieap0.03932584077119827
enterprise0.03932584077119827
hibernate0.03932584077119827
struts0.03932584077119827
dojo0.03932584077119827
software0.020599251613020897
psd0.020599251613020897
eeclipse0.020599251613020897
platform0.020599251613020897
apache0.020599251613020897
jive0.020599251613020897
knowledge0.020599251613020897
base0.020599251613020897
fusioncharts0.020599251613020897
fusionwidgets0.020599251613020897
ajax0.020599251613020897
C3:
apache0.14819005131721497
cloudera0.06900452077388763
mahout0.04638008773326874
system0.03506787121295929
tomcat0.03506787121295929
software0.02375565469264984
tsd0.02375565469264984
manager0.02375565469264984
cdh40.02375565469264984
hadoop0.02375565469264984
hdfs0.02375565469264984
zookeeper0.02375565469264984
hbase0.02375565469264984
storm0.02375565469264984
piwik0.02375565469264984
sqoop0.02375565469264984
hive0.02375565469264984
distributed0.02375565469264984
database0.02375565469264984
foundation0.02375565469264984
C4:
spring0.0748792216181755
software0.050724633038043976
saca0.050724633038043976
data0.050724633038043976
vmware0.050724633038043976
access0.026570048183202744
tomcat0.026570048183202744
management0.026570048183202744
neo4j0.026570048183202744
mysql0.026570048183202744
snap0.026570048183202744
social0.026570048183202744
networking0.026570048183202744
services0.026570048183202744
jee0.026570048183202744
tomcat70.026570048183202744
mysql50.026570048183202744
mongodb20.026570048183202744
memcached0.026570048183202744
cache0.026570048183202744
资源文本的学习
将一些企业的资源文本(doc1.txt,doc2.txt,doc3.txt)加入到文本集中,这些文本中使用了一些概念文本中不包含的概念,分别如下:
doc1.txt:Interoperable communications Vehicle telematics TSD MirrorLinkMobile phone Android(operating system)Android Telematics Video player(software)Global Positioning System GPS Touchscreen Computer monitorDisplay resolution Universal Mobile Telecommunications System3G Signal(electrical engineering)Sharity Colle System Virtual Network Computing VNCReal-time Transport Protocol RTP Bluetooth profile HFP
doc2.txt:3GNavi Navigation AVNC IS Prenatal diagnosis PND Map Compiler Fileformat Navigation function Stereoscopy3D Frequency Global Positioning SystemMatching(graph theory)Telephone number Route planning software StatisticsDatabase Windows CE WinCE Linux QNX Microcontroller MCU ARMarchitecture ARM9Atom(standard)Atom SuperH SH4User interface HMIMobile Application Part MAP Vice president VP Vector Product Format VPFProduct(business)Product Music Audio Memory management Systemsmanagement Computer icon Icon Input method
doc3.txt:ICDC Tobacco Data center Information technology Data analysis Dataexchange Operational data store ODS Master data management Data warehouseOnline analytical processing OLAP Data mart Data mining Analytic applicationsInformation security Operating system UNIX Microsoft Windows Database IBMDB2DB2Oracle Middleware Oracle WebLogic Server Weblogic IBM InfoSphereInfoSphere Computer terminal Enterprise portal
然后设定主题-单词的概率分布
Figure BDA0000437140530000211
训练中的学习算法中目标隐含主题的个数也为3,学得文本-混合主题的概率分布
Figure BDA0000437140530000212
如下表2所示:
C1 C2 C3 C4 T1 T2 T3
Firewall.txt 0.752577 0.010309 0.010309 0.010309 0.030928 0.030928 0.154639
UniEAP.txt 0.011236 0.910112 0.011236 0.033708 0.011236 0.011236 0.011236
RealRec.txt 0.007092 0.007092 0.914894 0.021277 0.007092 0.007092 0.035461
SNAP.txt 0.011236 0.033708 0.370787 0.41573 0.033708 0.011236 0.123596
Doc1.txt 0.033708 0.011236 0.011236 0.011236 0.168539 0.730337 0.033708
Doc2.txt 0.022556 0.007519 0.022556 0.007519 0.518797 0.368421 0.052632
Doc3.txt 0.00885 0.044248 0.026549 0.00885 0.079646 0.044248 0.787611
表2
通过上述例子,可以看到:doc1.txt、doc2.txt以及doc3.txt和之前概念文本之间没有太大的交集,这些资源文本-主题都分布到了新学习到的主题T1、T2和T3上,不过,由于系统无法确认这些资源文本的主题概念,所以新学习到的主题都是隐含主题,尽管如此,通过隐含主题的引入,使得主题-单词分布更多地体现了企业内部的术语之间的相关性。
另外,更新后的主题-单词的概率分布
Figure BDA0000437140530000221
如下所示:
C1:
network0.0682196319103241
firewall0.05158069729804993
neteye0.03494176268577576
software0.03494176268577576
gateway0.03494176268577576
application0.03494176268577576
computer0.018302829936146736
private0.018302829936146736
vpn0.018302829936146736
control0.018302829936146736
address0.018302829936146736
translation0.018302829936146736
nat0.018302829936146736
high0.018302829936146736
availability0.018302829936146736
application-level0.018302829936146736
alg0.018302829936146736
quality0.018302829936146736
service0.018302829936146736
qos0.018302829936146736
C2:
framework0.07834101468324661
enterprise0.0476190485060215
integration0.0476190485060215
application0.032258063554763794
unieap0.032258063554763794
hibernate0.032258063554763794
struts0.032258063554763794
dojo0.032258063554763794
server0.032258063554763794
software0.016897082328796387
neusoft0.016897082328796387
psd0.016897082328796387
eeclipse0.016897082328796387
platform0.016897082328796387
apache0.016897082328796387
jive0.016897082328796387
knowledge0.016897082328796387
base0.016897082328796387
fusioncharts0.016897082328796387
fusionwidgets0.016897082328796387
C3:
apache0.12584054470062256
cloudera0.05859750136733055
software0.03938520699739456
mahout0.03938520699739456
tomcat0.03938520699739456
database0.03938520699739456
neusoft0.020172910764813423
system0.020172910764813423
tsd0.020172910764813423
manager0.020172910764813423
cdh40.020172910764813423
hadoop0.020172910764813423
hdfs0.020172910764813423
zookeeper0.020172910764813423
hbase0.020172910764813423
storm0.020172910764813423
piwik0.020172910764813423
sqoop0.020172910764813423
hive0.020172910764813423
distributed0.020172910764813423
C4:
spring0.07363420724868774
saca0.07363420724868774
vmware0.049881234765052795
access0.026128267869353294
snap0.026128267869353294
social0.026128267869353294
services0.026128267869353294
jee0.026128267869353294
tomcat70.026128267869353294
mysql50.026128267869353294
mongodb20.026128267869353294
memcached0.026128267869353294
cache0.026128267869353294
mongodb0.026128267869353294
activemq0.026128267869353294
neteye0.0023752970155328512
firewall0.0023752970155328512
computer0.0023752970155328512
network0.0023752970155328512
security0.0023752970155328512
T1:
system0.07380607724189758
management0.03039073757827282
mobile0.03039073757827282
navigation0.03039073757827282
map0.03039073757827282
format0.03039073757827282
windows0.03039073757827282
icon0.03039073757827282
software0.01591895893216133
nsd0.01591895893216133
interoperable0.01591895893216133
bluetooth0.01591895893216133
profile0.01591895893216133
diagnosis0.01591895893216133
pnd0.01591895893216133
telephone0.01591895893216133
number0.01591895893216133
route0.01591895893216133
planning0.01591895893216133
wince0.01591895893216133
T2:
computer0.025893958285450935
virtual0.025893958285450935
telematics0.025893958285450935
global0.025893958285450935
positioning0.025893958285450935
information0.013563502579927444
protocol0.013563502579927444
tsd0.013563502579927444
computing0.013563502579927444
communications0.013563502579927444
vehicle0.013563502579927444
mirrorlink0.013563502579927444
mobile0.013563502579927444
phone0.013563502579927444
android0.013563502579927444
video0.013563502579927444
player0.013563502579927444
gps0.013563502579927444
touchscreen0.013563502579927444
monitor0.013563502579927444
T3:
data0.1200951337814331
oracle0.0368608795106411
security0.024970272555947304
warehouse0.024970272555947304
ibm0.024970272555947304
db20.024970272555947304
weblogic0.024970272555947304
infosphere0.024970272555947304
computer0.013079667463898659
neusoft0.013079667463898659
access0.013079667463898659
open0.013079667463898659
routing0.013079667463898659
information0.013079667463898659
protocol0.013079667463898659
ipv60.013079667463898659
system0.013079667463898659
computing0.013079667463898659
management0.013079667463898659
networking0.013079667463898659
上述可以看到,由于新的资源文本的加入,原本属于某个显式主题的单词(如Security)可能不再只属于该显式主题(如C1),而是部分地转移到了其他的隐含主题(如T3)中,于此同时,“Firewall”这个概念文本(即概念Firewall)也从之前主要根据显式主题C1转化成为基于0.752577的显式主题C1和0.154639的隐含主题T3,这个过程反映了于显式主题相关性不大的单词逐渐被筛除的过程。
标注问题
对于用户提供的输入文本,使用LDA算法计算出文本-主题概率分布
Figure BDA0000437140530000281
这个分配分布揭示了文本在多大的概率上对应了显式主题或隐含主题,通过这种方式,解决了文本的标注(tagging)问题。
比如,对于下面已经除去停用单词的用户输入:neteye firewall computersecurity snap,使用LDA算法,得到如表3所示的文本-主题的概率分布
Figure BDA0000437140530000291
Figure BDA0000437140530000292
表3
如果采取阈值为0.01,则上述表3中输入被标示为:C1(0.411765)、C3(0.176471)和T3(0.176471),其中C1和C3为显式主题,C1的名称为:Firewall,C3的名称为SNAP,而T3为隐含主题。
通过上述实施方式可以看出,本发明提供的文本标注方法及系统,显式主题和隐含主题相互结合,既能够享有通用领域本体的准确性,又能够以比较低的成本来不断适应企业的资源文本的不断增加,同时能够以比较高的准确性向系统的使用者提供高质量的语义标注服务。
如上参照附图以示例的方式描述了根据本发明提出的文本标注方法及系统。但是,本领域技术人员应当理解,对于上述本发明所提出的文本标注方法及系统,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (6)

1.一种基于混合主题的文本标注方法,包括:
步骤一:采用LDA算法对获取的概念文本进行学习;
其中,在采用LDA算法对获取的概念文本进行学习的过程中,针对所述概念文本,设定第一目标显式主题,对设定的所述第一目标显式主题进行学习,获得所述概念文本中的单词在所述第一目标显式主题上的第一目标显式主题-单词的概率分布;并且,
设定的所述第一目标显式主题的数量与所述概念文本的数量相同;
步骤二:采用LDA算法对获取的资源文本进行学习;
其中,在采用LDA算法对获取的资源文本进行学习的过程中,针对所述资源文本,设定目标主题;其中,
所述目标主题包括第二目标显式主题和目标隐含主题,并且,设定的所述目标隐含主题的数量小于所述资源文本的数量;以及,
根据在所述概念文本学习中获得的所述第一目标显式主题-单词的概率分布对所述第二目标显式主题进行初始化;
对所述第二目标显式主题初始化的结果和所述目标隐含主题进行学习,获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布;
步骤三:根据在对所述资源文本进行学习的过程中获得的所述第二目标显式主题-单词的概率分布和所述目标隐含主题-单词的概率分布,对待标注文本进行语义标注。
2.如权利要求1所述的基于混合主题的文本标注方法,其中,在对设定所述第一目标显式主题进行学习的过程中,
采用如下的公式获得所述第一目标显式主题-单词的概率分布:
Figure FDA0000437140520000011
其中,d为所述概念文本;wi为所述概念文本中的当前单词;
zi为当前单词wi的主题分配;
z-i为所述概念文本中除去wi之后其他所有单词的主题分配;
k是Topic的游标;t是单词的游标;
Figure FDA0000437140520000021
表示除掉单词wi后文本m下出现主题k的数量;
Figure FDA0000437140520000022
表示除掉单词wi后主题k下出现单词t的数量;
αk是主题k的Dirichlet先验参数;βt是单词t的Dirichlet先验参数。
3.如权利要求1所述的基于混合主题的文本标注方法,其中,
在对所述待标注文本进行语义标注的过程中,对所述待标注文本分别进行显式主题和隐含主题标注;其中,
在对所述待标注文本进行显式主题标注时,根据在LDA算法学习中获得的所述第二目标显式主题-单词的概率分布,用所述第二目标显式主题的名称对所述待标注文本进行有名的语义标注;
在对所述待标注文本进行隐含主题标注时,根据在LDA算法学习中获得的所述目标隐含主题-单词的概率分布,用所述目标隐含主题的ID对所述待标注文本进行无名的语义标注。
4.一种基于混合主题的文本标注系统,包括:
概念文本学习单元,用于采用LDA算法对获取的概念文本进行学习,包括第一目标显式主题设定单元和第一目标显式主题学习单元;其中,
所述第一目标显式主题设定单元用于针对所述概念文本,设定第一目标显式主题,所述第一目标显式主题学习单元用于对设定的所述第一目标显式主题进行学习,获得所述概念文本中的单词在所述第一目标显式主题上的第一目标显式主题-单词的概率分布;并且,
所述第一目标显式主题设定单元设定的所述第一目标显式主题的数量与所述概念文本的数量相同;
资源文本学习单元,用于采用LDA算法对获取的资源文本进行学习,包括目标主题设定单元、初始化单元和学习单元;其中,
所述目标主题设定单元用于针对所述资源文本,设定目标主题,所述目标主题包括第二目标显式主题和目标隐含主题,并且,设定的所述目标隐含主题的数量小于所述资源文本的数量;
所述初始化单元用于根据在所述概念文本学习中获得的所述第一目标显式主题-单词的概率分布对所述第二目标显式主题进行初始化;
所述学习单元用于对所述第二目标显式主题初始化的结果和所述目标隐含主题进行学习,获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布;
文本标注单元,用于根据所述资源文本学习单元获得的所述第二目标显式主题-单词的概率分布和所述目标隐含主题-单词的概率分布,对待标注文本进行语义标注。
5.如权利要求4所述的基于混合主题的文本标注系统,其中,
在所述第一目标显式主题学习单元对设定所述第一目标显式主题进行学习的过程中,
采用如下的公式获得所述第一目标显式主题-单词的概率分布:
Figure FDA0000437140520000031
其中,d为所述概念文本;wi为所述概念文本中的当前单词;
zi为当前单词wi的主题分配;
z-i为所述概念文本中除去wi之后其他所有单词的主题分配;
k是Topic的游标;t是单词的游标;
Figure FDA0000437140520000032
表示除掉单词wi后文本m下出现主题k的数量;
Figure FDA0000437140520000033
表示除掉单词wi后主题k下出现单词t的数量;
αk是主题k的Dirichlet先验参数;βt是单词t的Dirichlet先验参数。
6.如权利要求4所述的基于混合主题的文本标注系统,其中,
所述文本标注单元包括对所述待标注文本进行显式主题标注的显式主题标注单元和对所述待标注文本进行隐含主题标注的隐含主题标注单元,其中,
所述显式主题标注单元根据在LDA算法学习中获得的所述第二目标显式主题-单词的概率分布,用所述第二目标显式主题的名称对所述待标注文本进行有名的语义标注;
所述隐含主题标注单元根据在LDA算法学习中获得的所述目标隐含主题-单词的概率分布,用所述目标隐含主题的ID对所述待标注文本进行无名的语义标注。
CN201310691189.9A 2013-12-13 2013-12-13 基于混合主题的文本标注方法及系统 Active CN103699522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310691189.9A CN103699522B (zh) 2013-12-13 2013-12-13 基于混合主题的文本标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310691189.9A CN103699522B (zh) 2013-12-13 2013-12-13 基于混合主题的文本标注方法及系统

Publications (2)

Publication Number Publication Date
CN103699522A true CN103699522A (zh) 2014-04-02
CN103699522B CN103699522B (zh) 2016-06-22

Family

ID=50361053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310691189.9A Active CN103699522B (zh) 2013-12-13 2013-12-13 基于混合主题的文本标注方法及系统

Country Status (1)

Country Link
CN (1) CN103699522B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971268A (zh) * 2014-04-14 2014-08-06 百度在线网络技术(北京)有限公司 推广信息的处理方法及装置
CN108021546A (zh) * 2016-11-03 2018-05-11 北京嘀嘀无限科技发展有限公司 一种短文本特征扩展方法、装置及服务器
CN108763207A (zh) * 2018-05-22 2018-11-06 南京大学 一种lda主题模型优化采样方法
CN109284486A (zh) * 2018-08-14 2019-01-29 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040123233A1 (en) * 2002-12-23 2004-06-24 Cleary Daniel Joseph System and method for automatic tagging of ducuments
CN103207856A (zh) * 2013-04-03 2013-07-17 同济大学 一种本体概念及层次关系生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040123233A1 (en) * 2002-12-23 2004-06-24 Cleary Daniel Joseph System and method for automatic tagging of ducuments
CN103207856A (zh) * 2013-04-03 2013-07-17 同济大学 一种本体概念及层次关系生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI D等: "Modeling Topic and Community Structure in Social Tagging: the TTR-LDA-Community Model", 《JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE& TECHNOLOGY》, vol. 62, no. 9, 31 December 2011 (2011-12-31) *
王力等: "一种基于LDA模型的主题句抽取方法", 《计算机工程与应用》, vol. 49, no. 2, 24 October 2011 (2011-10-24) *
马慧芳等: "融合链接文本的增量联合主题模型", 《计算机应用研究》, vol. 29, no. 4, 30 April 2012 (2012-04-30) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971268A (zh) * 2014-04-14 2014-08-06 百度在线网络技术(北京)有限公司 推广信息的处理方法及装置
CN103971268B (zh) * 2014-04-14 2017-03-08 百度在线网络技术(北京)有限公司 推广信息的处理方法及装置
CN108021546A (zh) * 2016-11-03 2018-05-11 北京嘀嘀无限科技发展有限公司 一种短文本特征扩展方法、装置及服务器
CN108763207A (zh) * 2018-05-22 2018-11-06 南京大学 一种lda主题模型优化采样方法
CN109284486A (zh) * 2018-08-14 2019-01-29 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质
CN109284486B (zh) * 2018-08-14 2023-08-22 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质

Also Published As

Publication number Publication date
CN103699522B (zh) 2016-06-22

Similar Documents

Publication Publication Date Title
JP7170779B2 (ja) 自動的な意図のマイニング、分類、及び配置のための方法及びシステム
US11650970B2 (en) Extracting structure and semantics from tabular data
US11483319B2 (en) Security model
CN107391545B (zh) 一种对用户进行分类的方法、输入方法及装置
US10628521B2 (en) Scoring automatically generated language patterns for questions using synthetic events
US9536443B2 (en) Evaluating expert opinions in a question and answer system
CN106649345A (zh) 用于新闻的自动会话创建器
US10108661B2 (en) Using synthetic events to identify complex relation lookups
CN110929523B (zh) 共指解析和实体链接
US20230334241A1 (en) Syntactic and semantic autocorrect learning
CN103699522A (zh) 基于混合主题的文本标注方法及系统
US10102276B2 (en) Resolving textual numerical queries using natural language processing techniques
CN110457325B (zh) 用于输出信息的方法和装置
Zweig Are word-adjacency networks networks?
Osei-Bryson Overview on decision tree induction
US10776411B2 (en) Systematic browsing of automated conversation exchange program knowledge bases
US10229156B2 (en) Using priority scores for iterative precision reduction in structured lookups for questions
CN106383738B (zh) 任务处理方法和分布式计算框架
Jyothi et al. A study on big data modelling techniques
Yang et al. Social Media Analysis on Evaluating Organisational Performance a Railway Service Management Context
US9946765B2 (en) Building a domain knowledge and term identity using crowd sourcing
US20150058348A1 (en) Association of visual labels and event context in image data
US9910890B2 (en) Synthetic events to chain queries against structured data
Zhuo Consumer demand behavior mining and product recommendation based on online product review mining and fuzzy sets
Wang et al. Sparse multi-task learning for detecting influential nodes in an implicit diffusion network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant