CN104239300A

CN104239300A - 从文本中挖掘语义关键词的方法和设备

Info

Publication number: CN104239300A
Application number: CN201310223884.2A
Authority: CN
Inventors: 缪庆亮; 孟遥; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-06-06
Filing date: 2013-06-06
Publication date: 2014-12-24
Anticipated expiration: 2033-06-06
Also published as: CN104239300B

Abstract

本发明公开了从文本中挖掘语义关键词的方法和设备。根据本发明的方法包括：在文本中搜索已知词，以得到多个候选关键词；根据所述已知词的参考概率和/或上下文，计算所述多个候选关键词的候选概率，所述参考概率表明所述已知词作为锚文本的可能性，所述候选概率表明所述候选关键词作为语义关键词的可能性；以及根据所述多个候选关键词的候选概率，确定所述多个候选关键词是否为所述文本的语义关键词。

Description

从文本中挖掘语义关键词的方法和设备

技术领域

本发明一般地涉及自然语言处理领域。具体而言，本发明涉及一种从文本中挖掘语义关键词的方法和设备。

背景技术

文本是自然语言处理领域最常见的处理对象。面对海量的文本，直接利用文本本身进行操作显然并不实际，人们通常借助于代表文本的语义信息的语义关键词来帮助表示、索引、共享、检索、分类、聚类文本。

然而，文本的数量呈爆炸式增长，并且文本的种类繁多，相当一部分文本不具有固定的结构。故而，存在如何从海量、非结构化的文本中挖掘出语义关键词的问题。

因此，期望能够以较高的效率和准确度从文本中挖掘语义关键词。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的目的是针对现有技术的上述问题，提出了一种能够以较高的效率和准确度从文本中挖掘语义关键词的方法和设备。

为了实现上述目的，根据本发明的一个方面，提供了一种从文本中挖掘语义关键词的方法，该方法包括：在文本中搜索已知词，以得到多个候选关键词；根据所述已知词的参考概率和/或上下文，计算所述多个候选关键词的候选概率，所述参考概率表明所述已知词作为锚文本的可能性，所述候选概率表明所述候选关键词作为语义关键词的可能性；以及根据所述多个候选关键词的候选概率，确定所述多个候选关键词是否为所述文本的语义关键词。

根据本发明的另一个方面，提供了一种从文本中挖掘语义关键词的设备，该设备包括：候选关键词搜索装置，被配置为：在文本中搜索已知词，以得到多个候选关键词；候选概率计算装置，被配置为：根据所述已知词的参考概率和/或上下文，计算所述多个候选关键词的候选概率，所述参考概率表明所述已知词作为锚文本的可能性，所述候选概率表明所述候选关键词作为语义关键词的可能性；以及语义关键词确定装置，被配置为：根据所述多个候选关键词的候选概率，确定所述多个候选关键词是否为所述文本的语义关键词。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述方法。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中：

图1示出了根据本发明的第一实施例的已知词获取方法的流程图；

图2示出了根据本发明的第二实施例的已知词获取方法的流程图；

图3示出了根据本发明的第一实施例的挖掘文本语义关键词的方法的流程图；

图4示出了根据本发明的第二实施例的挖掘文本语义关键词的方法的流程图；

图5示出了根据本发明实施例的文本语义关键词挖掘设备的结构方框图；以及

图6示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。另外，还需要指出的是，在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。

本发明的基本思想是将锚文本认定为语料中的语义关键词，抽取这些已知的语义关键词（下文中简称为已知词）的上下文并统计其作为锚文本出现的频率来得到已知词的特征。利用已知词来定位待处理文本中的候选语义关键词。利用已知词的特征，即根据已知词和候选语义关键词的上下文相似度以及已知词作为锚文本的可能性，判断候选语义关键词是否为文本的语义关键词。在该判断过程中，还可考虑候选语义关键词之间的语义关系。具体地，基于候选语义关键词及其语义关系构建语义图，利用先验知识（还可额外利用文本的结构信息）向语义图中的部分节点赋予初始标签，通过标签传播方法，获得符合语义关系的取值相对稳定的标签，根据标签的取值，判断候选语义关键词是否为文本的语义关键词。

由于本发明的方法从已知的语义关键词出发，因此，首先介绍如何获得已知词及其特征。

下面将参照图1描述根据本发明的第一实施例的已知词获取方法的流程。

图1示出了根据本发明的第一实施例的已知词获取方法的流程图。如图1所示，根据本发明的已知词获取方法，包括如下步骤：获取多个包含锚文本的网页，所述锚文本是关联有到另一个网页的链接的词（步骤S1）；提取不是停止词的锚文本作为已知词（步骤S2）；以及对于每一个所述已知词，计算其在所述多个网页中作为锚文本出现的频率，作为其参考概率；获取与其相邻的多个词，作为其上下文（步骤S3）。

在网页中，存在锚文本。锚文本是词或词组（本文中，为描述方便，统称为词），并且作为锚文本的词关联有到另一个网页的链接。锚文本是比较常见的，凭借经验可知，锚文本一般都是网页中文本的语义关键词。因此，本文中假设网页中的锚文本除了停止词之外都是网页中文本的语义关键词。

在此假设下，可首先在步骤S1中，获取多个包含锚文本的网页，作为生语料。

包含锚文本的多个网页例如可以是维基百科（Wikipedia）的网页。对包含锚文本的多个网页进行适当的预处理，例如字符归一化（包括繁简体转换）、数字归一化等。

然后，在步骤S2中，提取不是停止词的锚文本作为已知词。

中文的停止词例如是“的”、“地”、“得”等。英文的停止词例如是“is”、“are”、“of”等。停止词本身并不包含语义信息，因此，不应作为已知词。但是已知词中可能包括停止词，如已知词“挪威的森林”中包含停止词“的”。“挪威的森林”是作为整体出现还是分为“挪威”、“的”、“森林”取决于提取锚文本时使用的分词方法。

下面，在步骤S3中，获得已知词的特征，也即参考频率和上下文。

具体地，对于每一个所提取出的已知词，计算其在上述多个网页中作为锚文本出现的频率，作为其参考概率。

例如，已知词的参考概率可以等于已知词在上述多个网页中作为锚文本出现的次数与已知词在上述多个网页中出现的次数之商。

另外，对于每一个所提取出的已知词，获取与其相邻的多个词，作为其上下文。与已知词相邻的词可以是已知词左边的K个词和/或右边的L个词。K和L的取值可以相等，并且可由本领域技术人员根据经验指定。通常，K和L的取值范围可以是[1,5]。

在某些情况下，可能可以直接指定已知词。例如，其它处理的输出结果可能是从语料中获得的很多语义关键词，或者语料中已经标注了语义关键词。在这种情况下，可以利用根据本发明的第二实施例的已知词获取方法获得已知词及其特征。

图2示出了根据本发明的第二实施例的已知词获取方法的流程图。如图2所示，根据本发明的已知词获取方法，包括如下步骤：获取多个给定的词，作为已知词（步骤S21）；利用搜索引擎，获取包含所述已知词的多个网页（步骤S22）；以及对于每一个所述已知词，计算其在所述多个网页中作为锚文本出现的频率，作为其参考概率，所述锚文本是关联有到另一个网页的链接的词；获取与其相邻的多个词，作为其上下文（步骤S23）。

在第二实施例中，从给定的已知词出发，通过搜索引擎，获得其中包含有已知词的网页，从而能够获得已知词的特征，即参考概率和上下文。

下面将参照图3描述根据本发明的第一实施例的从文本中挖掘语义关键词的方法的流程。

图3示出了根据本发明的第一实施例的挖掘文本语义关键词的方法的流程图。如图3所示，根据本发明的文本语义关键词的挖掘方法，包括如下步骤：在文本中搜索已知词，以得到多个候选关键词（步骤S31）；根据所述已知词的参考概率和/或上下文，计算所述多个候选关键词的候选概率，所述参考概率表明所述已知词作为锚文本的可能性，所述候选概率表明所述候选关键词作为语义关键词的可能性（步骤S32）；以及根据所述多个候选关键词的候选概率，确定所述多个候选关键词是否为所述文本的语义关键词（步骤S33）。

在步骤S31中，在文本中搜索已知词，以得到多个候选关键词。

上文提到，本发明假设锚文本以很大的概率是网页中的文本的关键词，从网页中提取出的已知词是被认为很有可能是语义关键词的词。

因此，对于待处理的文本，认为其中包含的已知词很可能是语义关键词，所以将其认作候选的语义关键词。

具体地，首先，对待处理的文本进行分词，以得到多个抽取词。这里的分词方法不受限制，只要是本领域内的任何适于文本所属语言的分词方法即可。

优选地，可以采用如下的切分方式分词，以获得尽量全面的分词结果。即，分别进行一元、二元、三元、……、n元分词，将获得的所有词组成集合A。n由本领域技术人员根据经验和需要指定，可取n=5。

然后，在集合A中搜索之前获得的已知词，如果存在已知词，则将其作为候选关键词。

即，选择多个抽取词中的已知词，作为候选关键词。

下面，要对候选关键词进行选取，判断哪些候选关键词是语义关键词。

在第一实施例中，主要参考已知词的特征来进行判断。

具体地，在步骤S32中，根据已知词的参考概率和/或上下文，计算多个候选关键词的候选概率，参考概率表明已知词作为锚文本的可能性，候选概率表明候选关键词作为语义关键词的可能性。

如前所述，已知词具有参考概率和上下文。已知词的参考概率表明已知词作为锚文本的可能性，也就是作为语义关键词的可能性。另一方面，已知词在被提取时保留了其上下文信息，可以理解，待处理的文本中已知词的上下文与训练语料中的已知词的上下文越接近，该已知词是待处理的文本中的语义关键词的可能性越大。因此，可以单独或综合使用这两方面的信息来判断待处理文本中的已知词到底是不是文本中的语义关键词。

在一种实现方式中，可直接将已知词的参考概率作为候选关键词的候选概率。

在另一种实现方式中，可计算上下文的相似度，并将所计算的上下文相似度作为候选关键词的候选概率。

具体地，首先，提取在文本中与候选关键词相邻的多个词，作为候选关键词的上下文。这里提取相邻词的方法和范围与之前提取已知词的相邻词的方法和范围优选相同，但也可以不同。

然后，计算候选关键词的上下文与候选关键词对应的已知词的上下文之间的上下文相似度。

上下文相似度的计算方法可以采用任何适当的字符串相似度计算方法。如可以计算特征空间中相应特征向量的余弦夹角作为相似度。

最后，可以根据上下文相似度，计算候选关键词的候选概率。例如，可以直接将上下文相似度作为候选关键词的候选概率。

在再一种实现方式中，可以计算已知词的参考概率与上下文相似度的线性组合，作为候选关键词的候选概率。线性组合的系数可以由本领域技术人员根据经验给出。

在步骤S33中，根据多个候选关键词的候选概率，确定多个候选关键词是否为文本的语义关键词。

简言之，候选关键词的候选概率越大，候选关键词越可能是文本的语义关键词。

因此，可由本领域技术人员根据经验或统计数据给定阈值T。

候选概率大于阈值T的候选关键词被确定为文本的语义关键词。

下面将参照图4描述根据本发明的第二实施例的从文本中挖掘语义关键词的方法的流程。

图4示出了根据本发明的第二实施例的挖掘文本语义关键词的方法的流程图。如图4所示，根据本发明的文本语义关键词的挖掘方法，包括如下步骤：在文本中搜索已知词，以得到多个候选关键词（步骤S41）；根据所述已知词的参考概率和/或上下文，计算所述多个候选关键词的候选概率，所述参考概率表明所述已知词作为锚文本的可能性，所述候选概率表明所述候选关键词作为语义关键词的可能性（步骤S42）；以及根据所述多个候选关键词的候选概率和所述多个候选关键词的语义关系，确定所述多个候选关键词是否为所述文本的语义关键词（步骤S43）。

第二实施例中的步骤S41、S42分别与第一实施例中的步骤S31、S32相同，在此不再赘述。

在步骤S43中，根据多个候选关键词的候选概率和多个候选关键词的语义关系，确定多个候选关键词是否为文本的语义关键词。

在第一实施例中，主要从已知词的角度来帮助判断候选关键词是否为语义关键词。在第二实施例中，还考察候选关键词的语义关系。

语义关系的强弱可以由关联度表示。因此，可以计算多个候选关键词之间的关联度，然后基于多个候选关键词之间的关联度，根据多个候选关键词的候选概率，判定多个候选关键词是否为文本的语义关键词。

首先，描述如何计算多个候选关键词之间的关联度。

在一种实施方式中，根据多个候选关键词在文本中的共现次数和出现次数，计算多个候选关键词之间的关联度。

具体地，通过下面的公式计算多个候选关键词之间的关联度。

r (b_{1}, b_{2}) = \frac{count (b_{1}, b_{2})}{count (b_{1}) + count (b_{2})}

其中，count(b₁,b₂)为候选关键词b1与b2共现的次数，count(b₁)为候选关键词b1出现的次数，count(b₂)为候选关键词b2出现的次数。

可以设计为候选关键词b1与b2出现在同一句中，即视为共现。也可以设计为候选关键词b1与b2出现在同一段中，即视为共现等。

显然，两个候选关键词共现的比例越高，这两个候选关键词的关联度越高。

此外，在另一种实施方式中，如果候选关键词是百科全书（如Wikipedia）中的概念,则可借助于指向其的页面，计算候选关键词的关联度。

具体地，对于作为百科全书中的概念的多个候选关键词，根据指向其的页面的相似度，计算多个候选关键词之间的关联度。

指向两个概念的页面越相似，这两个概念的关联度越大。可以利用这一点，来计算候选关键词之间的关联度。

例如，可以根据下面的公式来计算作为百科全书中的概念的多个候选关键词之间的关联度。

r (w, s) = \frac{\log (\max (| W |, | S |)) - \log (| W \cap S |)}{\log (| C |) - \log (\min (| W |, | S |))}

其中，W代表连接到页面w的所有页面的集合，S代表连接到页面s的所有页面的集合，W∩S代表同时连接到页面w和s的所有页面的集合。|W|指集合W的大小，即连接到页面w的页面的个数。|S|指集合S的大小，即连接到页面s的页面的个数。|W∩S|指集合W∩S的大小，即同时连接到页面w和s的页面的个数。max()表示取最大值，min()表示取最小值。Log()表示取对数。C是Wikipedia的所有页面的集合。|C|指集合C的大小，即Wikipedia的所有页面的个数。r(w,s)表示页面w对应的概念和页面s对应的概念的关联度。

此外，可以从语义结构角度直接设定关联度。

将出现在文本的主标题中的候选关键词称为主标题候选关键词，将出现在文本的子标题中的候选关键词称为子标题候选关键词。

应理解，主标题与子标题具有较强的语义关联。因此，可直接将主标题候选关键词与子标题候选关键词之间的关联度设定为1。

获得了候选关键词之间的关联度，就可以构建关键词语义关联网络。

在关键词语义关联网络中，节点是候选关键词，节点之间的边的权重是候选关键词之间的关联度。

这样，所构建的关键词语义关联网络中蕴藏了候选关键词之间的语义关联信息。

可以借助于这一语义关联网络，使用标签传播方法，确定候选关键词是否为文本的语义关键词。

具体地说，可以选择关键词语义关联网络中的部分节点，为其赋予标签，标签表明对应节点是语义关键词的可能性。

通过在关键词语义关联网络上重复进行标签传播，直至达到预定条件，可以获得关键词语义关联网络中的每个节点的标签。

此时，可根据所获得的标签，判断多个候选关键词是否为文本的语义关键词。

标签传播方法为本领域技术人员熟知的方法。标签传播停止的预定条件可以是标签取值相对稳定，也可以是重复的次数达到预定数量。

本发明的在利用标签传播方法时的改进之处在于：1）初始为之赋予标签的部分节点的选取，以及2）标签传播后的部分节点标签的恢复。

首先，介绍部分节点的选取。

在一种实施方式中，可以随机选择其候选概率大于第一阈值的第一候选关键词和/或其候选概率小于第二阈值的第二候选关键词，作为部分节点。

第一阈值和第二阈值可以由本领域技术人员根据经验指定，或根据实验获得。候选概率大于第一阈值的第一候选关键词被认为较可能是语义关键词，为其赋予表明其是语义关键词的标签，如1，候选概率小于第二阈值的第二候选关键词被认为较可能不是语义关键词，为其赋予表明其不是语义关键词的标签，如0。

如上所述，所构建的关键词语义关联网络中蕴藏了候选关键词之间的语义关联信息。事实上，还可以为关键词语义关联网络赋予语义结构信息。

也就是说，还可以根据文本的语义结构来构建关键词语义关联网络。具体地，将出现在文本的主标题中的主标题候选关键词作为根支撑节点，将出现在文本的子标题中的子标题候选关键词作为枝支撑节点，将从子标题下面的文本内容中抽取出的候选关键词作为枝支撑节点下的普通节点。

这样，在选取部分节点并为其赋予初始的标签时，可以针对关键词语义关联网络中的语义结构信息进行优化。

具体地说，可以选取全部根支撑节点和全部枝支撑节点作为部分节点。并且为根支撑节点和枝支撑节点赋予表明其是语义关键词的标签，例如1。

也就是说，认为标题中出现的候选关键词就是语义关键词。因此，在每次标签传播之后，将部分节点的标签恢复为初始为之设定的标签。这样，可以保证标题中出现的候选关键词的判断结果的正确性，并且有利于使标签朝着更正确的方向传播。

此外，在具体的实施例中，还可以进一步选择枝支撑节点下的普通节点作为部分节点。

例如，可以随机选择普通节点中其候选概率大于第一阈值的第一候选关键词和/或其候选概率小于第二阈值的第二候选关键词，作为部分节点。为第一候选关键词赋予表明其是语义关键词的标签，为第二候选关键词赋予表明其不是语义关键词的标签。

在优选的实施例中，为了使得标签传播得更好，还可以使得部分节点的分布比较均匀。例如，可平均选择每个枝支撑节点下的其候选概率大于第一阈值的第一候选关键词和/或其候选概率小于第二阈值的第二候选关键词，作为部分节点。为第一候选关键词赋予表明其是语义关键词的标签，为第二候选关键词赋予表明其不是语义关键词的标签。

经过上述步骤，可以获得关键词语义关联网络中的每个节点的标签。根据标签的数值，可以确定相应节点是否为文本的语义关键词。例如，可将标签的数值与预定的阈值Th比较，大于或等于阈值Th的标签对应的候选关键词被确定为文本的语义关键词，小于阈值Th的标签对应的候选关键词被确定为不是文本的语义关键词。

下面，将参照图5描述根据本发明实施例的文本语义关键词挖掘设备。

图5示出了根据本发明实施例的文本语义关键词挖掘设备的结构方框图。如图5所示，根据本发明的文本语义关键词挖掘设备500包括：候选关键词搜索装置51，被配置为：在文本中搜索已知词，以得到多个候选关键词；候选概率计算装置52，被配置为：根据所述已知词的参考概率和/或上下文，计算所述多个候选关键词的候选概率，所述参考概率表明所述已知词作为锚文本的可能性，所述候选概率表明所述候选关键词作为语义关键词的可能性；以及语义关键词确定装置53，被配置为：根据所述多个候选关键词的候选概率，确定所述多个候选关键词是否为所述文本的语义关键词。

在一个实施例中，文本语义关键词挖掘设备500还包括：已知词获取装置，被配置为：获得所述已知词及其参考概率和上下文。

在一个实施例中，已知词获取装置被进一步配置为：获取多个包含锚文本的网页，所述锚文本是关联有到另一个网页的链接的词；提取不是停止词的锚文本作为所述已知词；对于每一个所述已知词，计算其在所述多个网页中作为锚文本出现的频率，作为其参考概率，并获取与其相邻的多个词，作为其上下文。

在一个实施例中，已知词获取装置被进一步配置为：获取多个给定的词，作为所述已知词；利用搜索引擎，获取包含所述已知词的多个网页；对于每一个所述已知词，计算其在所述多个网页中作为锚文本出现的频率，作为其参考概率，所述锚文本是关联有到另一个网页的链接的词，并获取与其相邻的多个词，作为其上下文。

在一个实施例中，候选关键词搜索装置51被进一步配置为：对所述文本进行分词，以得到多个抽取词；选择所述多个抽取词中的所述已知词，作为所述候选关键词。

在一个实施例中，候选概率计算装置52被进一步配置为：提取在所述文本中与所述候选关键词相邻的多个词，作为所述候选关键词的上下文；计算所述候选关键词的上下文与所述候选关键词对应的已知词的上下文之间的上下文相似度；根据所述上下文相似度，计算所述候选关键词的候选概率。

在一个实施例中，语义关键词确定装置53被进一步配置为：将其候选概率大于预定阈值的候选关键词判定为所述语义关键词。

在一个实施例中，语义关键词确定装置53被进一步配置为：根据所述多个候选关键词的候选概率和所述多个候选关键词的语义关系，确定所述多个候选关键词是否为所述文本的语义关键词。

在一个实施例中，语义关键词确定装置53包括：关联度计算单元，被配置为：计算所述多个候选关键词之间的关联度，所述关联度表明语义关系的强弱；语义关键词判定单元，被配置为：基于所述多个候选关键词之间的关联度，根据所述多个候选关键词的候选概率，判定所述多个候选关键词是否为所述文本的语义关键词。

在一个实施例中，关联度计算单元被进一步配置为：根据所述多个候选关键词在所述文本中的共现次数和出现次数，计算所述多个候选关键词之间的关联度；或者对于作为百科全书中的概念的所述多个候选关键词，根据指向其的页面的相似度，计算所述多个候选关键词之间的关联度。

在一个实施例中，关联度计算单元被进一步配置为：对于作为出现在所述文本的主标题中的候选关键词的主标题候选关键词和作为出现在所述文本的子标题中的候选关键词的子标题候选关键词，将所述主标题候选关键词与所述子标题候选关键词之间的关联度设定为1。

在一个实施例中，语义关键词判定单元包括：构建子单元，被配置为：构建关键词语义关联网络，所述关键词语义关联网络的节点是所述多个候选关键词，所述节点之间的边的权重是所述多个候选关键词之间的关联度；部分节点选择子单元，被配置为：选择所述关键词语义关联网络中的部分节点，为其赋予标签，所述标签表明所述部分节点是所述语义关键词的可能性；标签传播子单元，被配置为：在所述关键词语义关联网络上重复进行标签传播，以获得所述关键词语义关联网络中的每个节点的标签；判断子单元，被配置为：根据所获得的标签，判断所述多个候选关键词是否为所述文本的语义关键词。

在一个实施例中，部分节点选择子单元被进一步配置为：随机选择其候选概率大于第一阈值的第一候选关键词和/或其候选概率小于第二阈值的第二候选关键词，作为所述部分节点；为所述第一候选关键词赋予表明其是语义关键词的标签，为所述第二候选关键词赋予表明其不是语义关键词的标签。

在一个实施例中，构建子单元被进一步配置为：还根据所述文本的语义结构来构建所述关键词语义关联网络，将出现在所述文本的主标题中的主标题候选关键词作为根支撑节点，将出现在所述文本的子标题中的子标题候选关键词作为枝支撑节点，将从所述子标题下面的文本内容中抽取出的候选关键词作为所述枝支撑节点下的普通节点。部分节点选择子单元被进一步配置为选择全部所述根支撑节点和全部所述枝支撑节点，并且为所述根支撑节点和所述枝支撑节点赋予表明其是语义关键词的标签。标签传播子单元被进一步配置为：在每次标签传播之后，将所述部分节点的标签恢复为初始为之设定的标签。

在一个实施例中，部分节点选择子单元被进一步配置为：随机选择所述普通节点中其候选概率大于第一阈值的第一候选关键词和/或其候选概率小于第二阈值的第二候选关键词，作为所述部分节点；为所述第一候选关键词赋予表明其是语义关键词的标签，为所述第二候选关键词赋予表明其不是语义关键词的标签。

在一个实施例中，部分节点选择子单元被进一步配置为：平均选择每个所述枝支撑节点下的其候选概率大于第一阈值的第一候选关键词和/或其候选概率小于第二阈值的第二候选关键词，作为所述部分节点；为所述第一候选关键词赋予表明其是语义关键词的标签，为所述第二候选关键词赋予表明其不是语义关键词的标签。

由于在根据本发明的文本语义关键词挖掘设备中所包括的各个装置和单元中的处理分别与上面描述的文本语义关键词挖掘方法中所包括的各个步骤中的处理类似，因此为了简洁起见，在此省略这些装置和单元的详细描述。

此外，这里尚需指出的是，上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机（例如图6所示的通用计算机600）安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在图6中，中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM603中，还根据需要存储当CPU601执行各种处理等等时所需的数据。CPU601、ROM602和RAM603经由总线604彼此连接。输入/输出接口605也连接到总线604。

下述部件连接到输入/输出接口605：输入部分606（包括键盘、鼠标等等）、输出部分607（包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等）、存储部分608（包括硬盘等）、通信部分609（包括网络接口卡比如LAN卡、调制解调器等）。通信部分609经由网络比如因特网执行通信处理。根据需要，驱动器610也可连接到输入/输出接口605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上，使得从中读出的计算机程序根据需要被安装到存储部分608中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘（包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM602、存储部分608中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

附记

1.一种从文本中挖掘语义关键词的方法，包括：

在文本中搜索已知词，以得到多个候选关键词；

根据所述已知词的参考概率和/或上下文，计算所述多个候选关键词的候选概率，所述参考概率表明所述已知词作为锚文本的可能性，所述候选概率表明所述候选关键词作为语义关键词的可能性；

根据所述多个候选关键词的候选概率，确定所述多个候选关键词是否为所述文本的语义关键词。

2.如附记1所述的方法，其中通过如下步骤获得所述已知词及其参考概率和上下文：

获取多个包含锚文本的网页，所述锚文本是关联有到另一个网页的链接的词；

提取不是停止词的锚文本作为所述已知词；

对于每一个所述已知词，

计算其在所述多个网页中作为锚文本出现的频率，作为其参考概率；

获取与其相邻的多个词，作为其上下文。

3.如附记1所述的方法，其中通过如下步骤获得所述已知词及其参考概率和上下文：

获取多个给定的词，作为所述已知词；

利用搜索引擎，获取包含所述已知词的多个网页；

对于每一个所述已知词，

计算其在所述多个网页中作为锚文本出现的频率，作为其参考概率，所述锚文本是关联有到另一个网页的链接的词；

获取与其相邻的多个词，作为其上下文。

4.如附记1所述的方法，其中所述搜索步骤包括：

对所述文本进行分词，以得到多个抽取词；

选择所述多个抽取词中的所述已知词，作为所述候选关键词。

5.如附记1所述的方法，其中根据所述已知词的上下文计算所述多个候选关键词的候选概率包括：

提取在所述文本中与所述候选关键词相邻的多个词，作为所述候选关键词的上下文；

计算所述候选关键词的上下文与所述候选关键词对应的已知词的上下文之间的上下文相似度；

根据所述上下文相似度，计算所述候选关键词的候选概率。

6.如附记1所述的方法，其中根据所述多个候选关键词的候选概率，确定所述多个候选关键词是否为所述文本的语义关键词包括：

将其候选概率大于预定阈值的候选关键词判定为所述语义关键词。

7.如附记1所述的方法，其中，还根据所述多个候选关键词的语义关系，确定所述多个候选关键词是否为所述文本的语义关键词。

8.如附记7所述的方法，其中所述确定步骤包括：

计算所述多个候选关键词之间的关联度，所述关联度表明语义关系的强弱；

基于所述多个候选关键词之间的关联度，根据所述多个候选关键词的候选概率，判定所述多个候选关键词是否为所述文本的语义关键词。

9.如附记8所述的方法，其中计算所述多个候选关键词之间的关联度包括：

根据所述多个候选关键词在所述文本中的共现次数和出现次数，计算所述多个候选关键词之间的关联度；或者

对于作为百科全书中的概念的所述多个候选关键词，根据指向其的页面的相似度，计算所述多个候选关键词之间的关联度。

10.如附记9所述的方法，其中计算所述多个候选关键词之间的关联度包括：

对于作为出现在所述文本的主标题中的候选关键词的主标题候选关键词和作为出现在所述文本的子标题中的候选关键词的子标题候选关键词，将所述主标题候选关键词与所述子标题候选关键词之间的关联度设定为1。

11.如附记8-10之一所述的方法，其中判定所述多个候选关键词是否为所述文本的语义关键词包括：

构建关键词语义关联网络，所述关键词语义关联网络的节点是所述多个候选关键词，所述节点之间的边的权重是所述多个候选关键词之间的关联度；

选择所述关键词语义关联网络中的部分节点，为其赋予标签，所述标签表明所述部分节点是所述语义关键词的可能性；

在所述关键词语义关联网络上重复进行标签传播，以获得所述关键词语义关联网络中的每个节点的标签；

根据所获得的标签，判断所述多个候选关键词是否为所述文本的语义关键词。

12.如附记11所述的方法，其中所述选择步骤包括：

随机选择其候选概率大于第一阈值的第一候选关键词和/或其候选概率小于第二阈值的第二候选关键词，作为所述部分节点；

为所述第一候选关键词赋予表明其是语义关键词的标签，为所述第二候选关键词赋予表明其不是语义关键词的标签。

13.如附记11所述的方法，其中还根据所述文本的语义结构来构建所述关键词语义关联网络，将出现在所述文本的主标题中的主标题候选关键词作为根支撑节点，将出现在所述文本的子标题中的子标题候选关键词作为枝支撑节点，将从所述子标题下面的文本内容中抽取出的候选关键词作为所述枝支撑节点下的普通节点；

所述部分节点包括全部所述根支撑节点和全部所述枝支撑节点，并且为所述根支撑节点和所述枝支撑节点赋予表明其是语义关键词的标签；

在每次标签传播之后，将所述部分节点的标签恢复为初始为之设定的标签。

14.如附记13所述的方法，其中

所述选择步骤还包括：

随机选择所述普通节点中其候选概率大于第一阈值的第一候选关键词和/或其候选概率小于第二阈值的第二候选关键词，作为所述部分节点；

15.如附记13所述的方法，其中

所述选择步骤还包括：

平均选择每个所述枝支撑节点下的其候选概率大于第一阈值的第一候选关键词和/或其候选概率小于第二阈值的第二候选关键词，作为所述部分节点；

16.一种从文本中挖掘语义关键词的设备，包括：

候选关键词搜索装置，被配置为：在文本中搜索已知词，以得到多个候选关键词；

候选概率计算装置，被配置为：根据所述已知词的参考概率和/或上下文，计算所述多个候选关键词的候选概率，所述参考概率表明所述已知词作为锚文本的可能性，所述候选概率表明所述候选关键词作为语义关键词的可能性；

语义关键词确定装置，被配置为：根据所述多个候选关键词的候选概率，确定所述多个候选关键词是否为所述文本的语义关键词。

17.如附记16所述的设备，其中所述语义关键词确定装置被进一步配置为：根据所述多个候选关键词的候选概率和所述多个候选关键词的语义关系，确定所述多个候选关键词是否为所述文本的语义关键词。

18.如附记17所述的设备，其中所述语义关键词确定装置包括：

关联度计算单元，被配置为：计算所述多个候选关键词之间的关联度，所述关联度表明语义关系的强弱；

语义关键词判定单元，被配置为：基于所述多个候选关键词之间的关联度，根据所述多个候选关键词的候选概率，判定所述多个候选关键词是否为所述文本的语义关键词。

19.如附记18所述的设备，其中所述语义关键词判定单元包括：

构建子单元，被配置为：构建关键词语义关联网络，所述关键词语义关联网络的节点是所述多个候选关键词，所述节点之间的边的权重是所述多个候选关键词之间的关联度；

部分节点选择子单元，被配置为：选择所述关键词语义关联网络中的部分节点，为其赋予标签，所述标签表明所述部分节点是所述语义关键词的可能性；

标签传播子单元，被配置为：在所述关键词语义关联网络上重复进行标签传播，以获得所述关键词语义关联网络中的每个节点的标签；

判断子单元，被配置为：根据所获得的标签，判断所述多个候选关键词是否为所述文本的语义关键词。

20.如附记19所述的设备，其中

所述构建子单元被进一步配置为：还根据所述文本的语义结构来构建所述关键词语义关联网络，将出现在所述文本的主标题中的主标题候选关键词作为根支撑节点，将出现在所述文本的子标题中的子标题候选关键词作为枝支撑节点，将从所述子标题下面的文本内容中抽取出的候选关键词作为所述枝支撑节点下的普通节点；

所述部分节点选择子单元被进一步配置为选择全部所述根支撑节点和全部所述枝支撑节点，并且为所述根支撑节点和所述枝支撑节点赋予表明其是语义关键词的标签；

所述标签传播子单元被进一步配置为：在每次标签传播之后，将所述部分节点的标签恢复为初始为之设定的标签。

Claims

1.一种从文本中挖掘语义关键词的方法，包括：

在文本中搜索已知词，以得到多个候选关键词；

根据所述已知词的参考概率和/或上下文，计算所述多个候选关键词的候选概率，所述参考概率表明所述已知词作为锚文本的可能性，所述候选概率表明所述候选关键词作为语义关键词的可能性；以及

2.如权利要求1所述的方法，其中根据所述已知词的上下文计算所述多个候选关键词的候选概率包括：

根据所述上下文相似度，计算所述候选关键词的候选概率。

3.如权利要求1所述的方法，其中根据所述多个候选关键词的候选概率，确定所述多个候选关键词是否为所述文本的语义关键词包括：

4.如权利要求1所述的方法，其中还根据所述多个候选关键词的语义关系，确定所述多个候选关键词是否为所述文本的语义关键词。

5.如权利要求4所述的方法，其中所述确定步骤包括：

6.如权利要求5所述的方法，其中计算所述多个候选关键词之间的关联度包括：

7.如权利要求5所述的方法，其中判定所述多个候选关键词是否为所述文本的语义关键词包括：

8.如权利要求7所述的方法，其中所述选择步骤包括：

9.如权利要求7所述的方法，其中还根据所述文本的语义结构来构建所述关键词语义关联网络，将出现在所述文本的主标题中的候选关键词作为根支撑节点，将出现在所述文本的子标题中的候选关键词作为枝支撑节点，将从所述子标题下面的文本内容中抽取出的候选关键词作为所述枝支撑节点下的普通节点；

10.一种从文本中挖掘语义关键词的设备，包括：

候选概率计算装置，被配置为：根据所述已知词的参考概率和/或上下文，计算所述多个候选关键词的候选概率，所述参考概率表明所述已知词作为锚文本的可能性，所述候选概率表明所述候选关键词作为语义关键词的可能性；以及