CN105138523A

CN105138523A - 在文本中确定语义关键词的方法和装置

Info

Publication number: CN105138523A
Application number: CN201410239148.0A
Authority: CN
Inventors: 缪庆亮; 孟遥
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-05-30
Filing date: 2014-05-30
Publication date: 2015-12-09

Abstract

本发明涉及一种在文本中确定语义关键词的方法和装置。该方法包括：在网络资源中进行挖掘，获得词或词组与词或词组作为语义关键词的概率的二元组集合；在文本中抽取样本集合，基于所获得的二元组集合在样本集合中获取正样本集合；将样本集合去除正样本集合后的集合中的每一个样本与正样本集合中的正样本进行比较，根据比较的相似度结果来获得负样本集合；从样本集合去除正样本集合后的集合中再去除负样本集合来获得未标注样本集合；基于正样本集合、负样本集合和未标注样本集合，利用分类算法来迭代训练语义关键词识别模型，基于语义关键词识别模型来获得语义关键词集合和/或非语义关键词集合。

Description

在文本中确定语义关键词的方法和装置

技术领域

本发明涉及信息处理领域，更具体地涉及一种在文本中确定语义关键词的方法和装置。

背景技术

随着文本信息快速增长，如何从海量、非结构化的文本内容中挖掘出能够表示文本语义信息的语义关键词是智能信息处理领域亟待解决的问题之一，利用文本的语义关键词能够更有效地进行文本信息的表示、索引、共享和检索，同时支持多种应用，如基于内容的广告词推荐系统、问答系统、查询词的精简、扩展系统以及辅助话题追踪系统等等。

因此，需要一种能够在文本中确定语义关键词的方法和装置。

发明内容

在下文中给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的一个主要目的在于，提供一种在文本中确定语义关键词的方法，包括：在网络资源中进行挖掘，获得词或词组与所述词或词组作为语义关键词的概率的二元组集合；在所述文本中抽取样本集合，基于所获得的所述二元组集合在所述样本集合中获取正样本集合；将所述样本集合去除所述正样本集合后的集合中的每一个样本与所述正样本集合中的正样本进行比较，根据比较的相似度结果来获得负样本集合；从所述样本集合去除所述正样本集合后的集合中再去除所述负样本集合来获得未标注样本集合；以及基于所述正样本集合、所述负样本集合和所述未标注样本集合，利用分类算法来迭代训练语义关键词识别模型，基于所述语义关键词识别模型来获得语义关键词集合和/或非语义关键词集合。

根据本发明的一个方面，提供了一种在文本中确定语义关键词的装置，包括：二元组集合挖掘单元，被配置为在网络资源中进行挖掘，获得词或词组与所述词或词组作为语义关键词的概率的二元组集合；正样本集合构建单元，被配置为在所述文本中抽取样本集合，基于所获得的所述二元组集合在所述样本集合中获取正样本集合；负样本集合构建单元，被配置为将所述样本集合去除所述正样本集合后的集合中的每一个样本与所述正样本集合中的正样本进行比较，根据比较的相似度结果来获得负样本集合；未标注样本集合构建单元，被配置为从所述样本集合去除所述正样本集合后的集合中再去除负样本集合来获得未标注样本集合；以及语义关键词确定单元，被配置为基于所述正样本集合、所述负样本集合和所述未标注样本集合，利用分类算法来迭代训练语义关键词识别模型，基于所述语义关键词识别模型来获得语义关键词集合和/或非语义关键词集合。

另外，本发明的实施例还提供了用于实现上述方法的计算机程序。

此外，本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述方法的计算机程序代码。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1示出了根据本发明的一个实施例的在文本中确定语义关键词的方法的流程图；

图2是示出图1中的步骤S104的一种示例性过程的流程图；

图3是示出图1中的步骤S106的一种示例性过程的流程图；

图4是示出图1中的步骤S106’的另一种示例性过程的流程图；

图5是示出图1中的步骤S110的一种示例性过程的流程图；

图6是示出根据本发明的一个实施例的在文本中确定语义关键词的装置600的示例性配置的框图；

图7是示出图6中的正样本集合构建单元604的一种示例性配置的框图；

图8是示出图6中的负样本集合构建单元606的一种示例性配置的框图；

图9是示出图6中的负样本集合构建单元606’的另一种示例性配置的框图；

图10是示出图6中的语义关键词确定单元610的一种示例性配置的框图；以及

图11是示出可以用于实施本发明的在文本中确定语义关键词的装置和方法的计算设备的示例性结构图。

具体实施方式

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

本发明提出一种基于机器学习的语义关键词挖掘方法，首先从网络资源(互联网网页、搜索引擎查询日志等)中挖掘关键词知识库，然后根据该知识库和给定文本构建训练样本集合，最后通过迭代训练获得语义关键词识别模型，并利用该模型从未标注样本中识别语义关键词。

下面结合附图详细说明根据本发明的一个实施例的在文本中确定语义关键词的方法。

图1示出了根据本发明的一个实施例的在文本中确定语义关键词的流程图。

首先，在步骤S102中，在网络资源中进行挖掘，获得词或词组与该词或词组作为语义关键词的概率的二元组集合。

其中，在网络资源中进行挖掘可以包括基于互联网网页的语义关键词挖掘和基于查询日志的语义关键词挖掘。下面分别详细说明这两种语义关键词挖掘方法。

(1)基于互联网网页的语义关键词挖掘方法

首先从web上获取网页集合C，在实际操作中可以选择例如Wikipedia(维基百科)作为网页集合C。接下来对网页集合中的网页进行字符归一化，包括繁简体转换、数字归一化等等。然后从网页集合C中挖掘出锚文本，并过滤掉是链接和停止词的锚文本，得到锚文本集合A，锚文本集合中的元素是词或者词组。由于锚文本往往为重要程度较高的词或词组，所以本发明假设可以利用互联网网页估计词或词组作为锚文本的概率来近似得到该词或词组作为语义关键词的概率。对于每个锚文本a∈A，统计该词或词组在网页集合C中作为锚文本出现的次数f₁，以及该词或词组在网页集合C中作为普通文本出现的次数f₂，通过下面的公式(1)计算该词或词组可能为语义关键词的概率p(a)。

p = \frac{f_{1}}{f_{1} + f_{2}} - - - (1)

在一个示例中，也可以利用搜索引擎搜索词或词组a，将搜索到a的总次数作为上式中的f₁+f₂。

通过以上步骤，可以获得二元组<a,p(a)>的集合，其中a为词或词组，p(a)为a可能为语义关键词的概率。

(2)基于查询日志的语义关键词挖掘方法

首先利用搜索引擎的查询日志，对查询日志中的查询词进行字符归一化，包括繁简体转换、数字归一化等等，然后从查询日志中滤掉是链接和停止词，构建查询日志中出现的词的集合Q。由于查询词往往为重要程度较高的词或词组，所以本发明假设可以利用查询日志估计查询词作为语义关键词的概率。遍历Q，统计出Q中词或词组q作为查询词在查询日志中出现的次数f₁，然后统计查询日志中所有词或词组出现的次数的总和其中t为查询日志中去除重复词之后的词或词组的总数。最后，通过下面的公式(2)计算该词或词组可能为语义关键词的概率p(q)。

p = \frac{f_{1}}{f_{2}} - - - (2)

通过以上步骤，可以获得如下二元组<q,p(q)>的集合，其中q为词或词组，p(q)为q可能为语义关键词的概率。

本领域技术人员可以理解，在网络资源中进行挖掘，获得词或词组与该词或词组作为语义关键词的概率的二元组集合的步骤可以只基于互联网网页进行挖掘、只基于查询日志进行挖掘、或者同时基于互联网网页和查询日志进行挖掘。

接下来，在步骤S104中，在给定文本中抽取样本集合，基于所获得的二元组集合在样本集合中获取正样本集合。

图2是示出图1中的步骤S104(即在给定文本中抽取样本集合，基于所获得的二元组集合在样本集合中获取正样本集合)的一种示例性过程的流程图。

如图2所示，在步骤S1042中，从文本中抽取n-gram(n元语法元素)组成样本集合NG。n的取值可以根据具体情况而定，一般n∈[1,5]。接着，在步骤S1044中，遍历NG中的每个词或词组w∈NG，如果w是所获得的二元组集合中的词或词组，则将w加入到候选语义关键词集合K中。从二元组集合中可以得到w可能为语义关键词的概率p(w)。通过以上步骤，可以获得如下二元组<w,p(w)>的集合，其中w为词或词组，p(w)为w可能为语义关键词的概率。在步骤S1046中，遍历候选语义关键词集合K中的每个词或词组w，根据p(w)进行从大到小排序，取前k个作为正样本，组成正样本集合P。正样本的个数k可以由用户指定，或者根据经验选择。

接下来，在步骤S106中，将样本集合去除正样本集合后的集合中的每一个样本与正样本集合中的正样本进行比较，根据比较的相似度结果来获得负样本集合。

图3是示出图1中的步骤S106(即将样本集合去除正样本集合后的集合中的每一个样本与正样本集合中的正样本进行比较，根据比较的相似度结果来获得负样本集合)的一种示例性过程的流程图。

如图3所示，在步骤S1062中，对样本集合中的每一个样本利用训练特征构建特征向量。

可选的训练特征包括但不限于下表1中的特征。可以利用每个样本的表1中所示的训练特征来构建该样本的特征向量。例如样本的特征向量可以表示为一个包括m个训练特征的m维特征向量v＝{f1,f2,f3,…,fm}。

表1训练特征表

在下文中，将样本集合NG去除正样本集合P后的集合称为未标注样本集合U，U＝NG-P。

在步骤S1064中，针对未标注样本集合U中的每一个样本分别执行如下计算：将样本的特征向量与正样本集合P中的每一个正样本的特征向量分别进行比较来计算相似度，对所获得的所有相似度结果求平均值，得到该样本的相似度平均值。

在步骤S1066中，将未标注样本集合U中的所有样本按照计算得到的相似度平均值从小到大的顺序进行排序，取前r个样本作为负样本集合，其中r为正整数，或者也可以取所得到的相似度平均值小于给定值的所有样本作为负样本集合。

图4是示出图1中的步骤S106’(即将样本集合去除正样本集合后的集合中的每一个样本与正样本集合中的正样本进行比较，根据比较的相似度结果来获得负样本集合)的另一种示例性过程的流程图。

如图4所示，步骤S1062’与图3中的步骤S1062相同，对样本集合中的每一个样本利用训练特征构建特征向量。

在步骤S1064’中，利用正样本集合P中的所有正样本构建正参考向量可以通过以下公式(3)得到:

\overset{&RightArrow;}{p} = \frac{1}{| P |} \underset{e &Element; P}{Σ} \frac{\overset{&RightArrow;}{v}}{| | \overset{&RightArrow;}{v} | |} - - - (3)

其中，e为P中的样本，ν为样本e的特征向量。

在步骤S1066’中，遍历集合U，针对U中的每个样本e的特征向量v'，计算v'与的相似度。

在一个实施例中，可以利用余弦相似度来计算相似度。

在步骤S1068’中，将集合U中的所有样本按照计算得到的相似度从小到大的顺序进行排序，取前s个样本作为负样本集合，其中s为正整数，或者也可以取相似度小于给定值的所有样本作为负样本集合。

例如，当相似度时，将样本e加入到负样本集合N中，并将样本e从U中去掉。

在步骤S108中，从样本集合去除正样本集合后的集合中再去除负样本集合来获得未标注样本集合；

通过以上步骤，我们获得了正样本集合P，负样本集合N和未标注样本集合U。

接下来，在步骤S110中，基于所获得的正样本集合、负样本集合和未标注样本集合，利用分类算法来迭代训练语义关键词识别模型，基于语义关键词识别模型来获得语义关键词集合和/或非语义关键词集合。

图5是示出图1中的步骤S110的一种示例性过程的流程图。

如图5所示，在步骤S1102中，使用正样本集合P和负样本集合N训练语义关键词识别模型。

本领域技术人员可以理解，可以使用例如SVM(支持向量机)算法、Bayes(朴素贝叶斯)算法等分类算法来迭代训练语义关键词识别模型。

在步骤S1104中，利用所得到的语义关键词识别模型对未标注样本集合U中的样本进行分类，将未标注样本集合U中被识别模型识别为正的样本加入到正样本集合P中和/或将未标注样本集合U中被语义关键词识别模型识别为负的样本加入到负样本集合N中。

优选地，在步骤S1104中，将未标注样本集合U中被识别模型识别为正的样本加入到正样本集合P中。

在步骤S1106中，从未标注样本集合U中去除被识别模型识别为正的样本和/或去除被识别模型识别为负的样本。

在步骤S1108中，使用修改后的正样本集合P、负样本集合N以及未标注样本集合U重复执行以上步骤S1102至步骤S1108，直至达到预定条件。

迭代收敛的预定条件可以为正样本的个数达到预定数目、负样本的个数达到预定数目、或者未标注样本集合中的数目不再发生变化。

优选地，当正样本的个数达到预定数目时，根据本发明一个实施例的在文本中确定语义关键词的方法完成。

图6是示出根据本发明的一个实施例的在文本中确定语义关键词的装置600的示例性配置的框图。

如图6所示，在文本中确定语义关键词的装置600包括：二元组集合挖掘单元602、正样本集合构建单元604、负样本集合构建单元606、未标注样本集合构建单元608、以及语义关键词确定单元610。

其中，二元组集合挖掘单元602被配置为在网络资源中进行挖掘，获得词或词组与该词或词组作为语义关键词的概率的二元组集合。

正样本集合构建单元604被配置为在文本中抽取样本集合，基于所获得的二元组集合在样本集合中获取正样本集合。

负样本集合构建单元606被配置为将样本集合去除正样本集合后的集合中的每一个样本与正样本集合中的正样本进行比较，根据比较的相似度结果来获得负样本集合。

未标注样本集合构建单元608被配置为从样本集合去除正样本集合后的集合中再去除负样本集合来获得未标注样本集合。

语义关键词确定单元610被配置为基于正样本集合、负样本集合和未标注样本集合，利用分类算法来迭代训练语义关键词识别模型，基于语义关键词识别模型来获得语义关键词集合和/或非语义关键词集合。

图7是示出图6中的正样本集合构建单元604的一种示例性配置的框图。

如图7所示，正样本集合构建单元604包括语法元素集合构建子单元6042、候选语义关键词集合构建子单元6044和正样本集合构建子单元6046。

其中，语法元素集合构建子单元6042被配置为在文本中抽取n元语法元素组成n元语法元素集合。

候选语义关键词集合构建子单元6044被配置为遍历n元语法元素集合，如果n元语法元素是所获得的二元组集合中的词或词组，则将该n元语法元素作为候选语义关键词加入到候选语义关键词集合中。

正样本集合构建子单元6046被配置为遍历候选语义关键词集合，将每个候选语义关键词按照其在二元组集合中的概率从大到小排序，取前k个候选语义关键词作为正样本集合，其中k为正整数。

图8是示出图6中的负样本集合构建单元606的一种示例性配置的框图。

如图8所示，负样本集合构建单元606包括：特征向量构建子单元6062、相似度平均值计算子单元6064、负样本集合构建子单元6066。

特征向量构建子单元6062被配置为对样本集合中的每一个样本利用训练特征构建特征向量。

相似度平均值计算子单元6064被配置为针对样本集合去除正样本集合后的集合中的每一个样本分别执行如下计算：将样本的特征向量与正样本集合中的每一个正样本的特征向量分别进行比较来计算相似度，对所获得的所有相似度结果求平均值，得到该样本的相似度平均值。

负样本集合构建子单元6066被配置为将所有样本按照计算得到的相似度平均值从小到大的顺序进行排序，取前r个样本作为负样本集合，其中r为正整数，或者取所得到的相似度平均值小于给定值的所有样本作为负样本集合。

图9是示出图6中的负样本集合构建单元606’的另一种示例性配置的框图。

如图9所示，负样本集合构建单元606’包括：特征向量构建子单元6062’、正参考向量构建子单元6064’、相似度计算子单元6066’、负样本集合构建子单元6068’。

特征向量构建子单元6062’被配置为对样本集合中的每一个样本利用训练特征构建特征向量。

正参考向量构建子单元6064’被配置为利用正样本集合中的所有正样本的特征向量构建正参考向量。

相似度计算子单元6066’被配置为将样本集合去除正样本集合后的集合中的每一个样本的特征向量与正参考向量进行比较来计算相似度。

负样本集合构建子单元6068’被配置为将所有样本按照计算得到的相似度从小到大的顺序进行排序，取前s个样本作为负样本集合，其中s为正整数，或者取相似度小于给定值的所有样本作为负样本集合。

图10是示出图6中的语义关键词确定单元610的一种示例性配置的框图。

如图10所示，语义关键词确定单元610包括：识别模型训练子单元6102、分类子单元6104、未标注样本集合修改子单元6106、循环控制子单元6108。

识别模型训练子单元6102被配置为使用正样本集合和负样本集合训练语义关键词识别模型。

分类子单元6104被配置为利用语义关键词识别模型对未标注样本集合中的样本进行分类，将未标注样本集合中被识别模型识别为正的样本加入到正样本集合中和/或将未标注样本集合中被语义关键词识别模型识别为负的样本加入到负样本集合中。

未标注样本集合修改子单元6106被配置为从未标注样本集合中去除被识别模型识别为正的样本和/或去除被识别模型识别为负的样本。

循环控制子单元6108使用修改后的正样本集合、负样本集合以及未标注样本集合重复执行以上步骤，直至达到预定条件。

关于在文本中确定语义关键词的装置600的各个部分的操作和功能的细节可以参照结合图1-5描述的本发明的在文本中确定语义关键词的方法的实施例，这里不再详细描述。

在此需要说明的是，图6-10所示的在文本中确定语义关键词的装置600及其组成单元的结构仅仅是示例性的，本领域技术人员可以根据需要对图6-10所示的结构框图进行修改。

本发明提出一种基于机器学习的语义关键词挖掘方法，利用互联网资源中先验知识和机器学习方法进行语义关键词挖掘，不需要人工标注数据。根据本发明的语义关键词确定方法，利用互联网资源中先验知识构建正样本集合，利用样本集合中的样本与正样本的相似度构建负样本集合，再使用迭代的语义关键词识别模型训练方法，从而可以从未标注样本中识别语义关键词和非语义关键词。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

在通过软件和/或固件实现本发明的实施例的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图11所示的通用计算机1100安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图11中，中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM1103中，也根据需要存储当CPU1101执行各种处理等等时所需的数据。CPU1101、ROM1102和RAM1103经由总线1104彼此链路。输入/输出接口1105也链路到总线1104。

下述部件链路到输入/输出接口1105：输入部分1106(包括键盘、鼠标等等)、输出部分1107(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分1108(包括硬盘等)、通信部分1109(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1109经由网络比如因特网执行通信处理。根据需要，驱动器1110也可链路到输入/输出接口1105。可拆卸介质1111比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1110上，使得从中读出的计算机程序根据需要被安装到存储部分1108中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1111安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图11所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM1102、存储部分1108中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。

本领域的普通技术人员应理解，在此所例举的是示例性的，本发明并不局限于此。

在本说明书中，“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开，以清楚地描述本发明。因此，不应将其视为具有任何限定性的含义。

作为一个示例，上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合，并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。

作为一个示例，在通过软件或固件实现的情况下，可以从存储介质或网络向具有专用硬件结构的计算机(例如图11所示的通用计算机1100)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用，与其他实施方式中的特征相组合，或替代其他实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

本发明及其优点，但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解，根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此，所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。

基于以上的说明，可知公开至少公开了以下技术方案：

附记1、一种在文本中确定语义关键词的方法，包括：

在网络资源中进行挖掘，获得词或词组与所述词或词组作为语义关键词的概率的二元组集合；

在所述文本中抽取样本集合，基于所获得的所述二元组集合在所述样本集合中获取正样本集合；

将所述样本集合去除所述正样本集合后的集合中的每一个样本与所述正样本集合中的正样本进行比较，根据比较的相似度结果来获得负样本集合；

从所述样本集合去除所述正样本集合后的集合中再去除所述负样本集合来获得未标注样本集合；以及

基于所述正样本集合、所述负样本集合和所述未标注样本集合，利用分类算法来迭代训练语义关键词识别模型，基于所述语义关键词识别模型来获得语义关键词集合和/或非语义关键词集合。

附记2、根据附记1所述的方法，其中，在网络资源中进行挖掘，获得词或词组与所述词或词组作为语义关键词的概率的二元组集合包括：在互联网网页中挖掘锚文本得到锚文本集合，根据锚文本集合中的词或词组在所述互联网网页中作为锚文本和普通文本分别出现的次数来计算该词或词组作为语义关键词的概率，和/或基于查询日志进行挖掘，根据挖掘出的词或词组作为查询词在查询日志中出现的次数和所述查询日志中所有的词或词组出现次数的总和来计算该词或词组作为语义关键词的概率。

附记3、根据附记1所述的方法，其中，在所述文本中抽取样本集合，根据所获得的所述二元组集合在所述样本集合中获取正样本集合的步骤包括：

在所述文本中抽取n元语法元素组成n元语法元素集合；

遍历所述n元语法元素集合，如果某个n元语法元素是所获得的二元组集合中的词或词组，则将该n元语法元素作为候选语义关键词加入到候选语义关键词集合中；以及

遍历所述候选语义关键词集合，将每个候选语义关键词按照其在所述二元组集合中的概率从大到小排序，取前k个候选语义关键词作为正样本集合，其中k为正整数。

附记4、根据附记1所述的方法，其中，将所述样本集合去除所述正样本集合后的集合中的每一个样本与正样本集合中的样本进行比较，根据比较的相似度结果来获得负样本集合包括：

对所述样本集合中的每一个样本利用训练特征构建特征向量；

针对所述样本集合去除所述正样本集合后的集合中的每一个样本分别执行如下计算：将样本的特征向量与正样本集合中的每一个正样本的特征向量分别进行比较来计算相似度，对所获得的所有相似度结果求平均值，得到该样本的相似度平均值；以及

将所有样本按照计算得到的相似度平均值从小到大的顺序进行排序，取前r个样本作为负样本集合，其中r为正整数，或者取所得到的相似度平均值小于给定值的所有样本作为负样本集合。

附记5、根据附记1所述的方法，其中，将所述样本集合去除所述正样本集合后的集合中的每一个样本与正样本集合中的正样本进行比较，根据比较的相似度结果来获得负样本集合包括：

利用所述正样本集合中的所有正样本的特征向量构建正参考向量；

将所述样本集合去除所述正样本集合后的集合中的每一个样本的特征向量与所述正参考向量进行比较来计算相似度；以及

将所有样本按照计算得到的相似度从小到大的顺序进行排序，取前s个样本作为负样本集合，其中s为正整数，或者取相似度小于给定值的所有样本作为负样本集合。

附记6、根据附记1所述的方法，其中，基于正样本集合、负样本集合和未标注样本集合，利用分类算法来迭代训练语义关键词识别模型，基于所述语义关键词识别模型来获得语义关键词集合和非语义关键词集合包括：

使用所述正样本集合和所述负样本集合训练语义关键词识别模型；

利用所述语义关键词识别模型对所述未标注样本集合中的样本进行分类，将所述未标注样本集合中被所述识别模型识别为正的样本加入到所述正样本集合中和/或将所述未标注样本集合中被所述语义关键词识别模型识别为负的样本加入到所述负样本集合中；

从所述未标注样本集合中去除被所述识别模型识别为正的样本和/或去除被所述识别模型识别为负的样本；以及

使用修改后的正样本集合、负样本集合以及未标注样本集合重复执行以上步骤，直至达到预定条件。

附记7、根据附记6所述的方法，其中所述预定条件为正样本的个数达到预定数目、负样本的个数达到预定数目、或者所述未标注样本集合中的数目不再发生变化。

附记8、根据附记4或5所述的方法，其中，利用余弦相似度来计算相似度。

附记9、根据附记4或5所述的方法所述的方法，其中，用于构建所述特征向量的特征训练包括：语言学特征、字母大小写特征、结构特征、统计特征、位置特征、长度特征和知识库特征。

附记10、一种在文本中确定语义关键词的装置，包括：

二元组集合挖掘单元，被配置为在网络资源中进行挖掘，获得词或词组与所述词或词组作为语义关键词的概率的二元组集合；

正样本集合构建单元，被配置为在所述文本中抽取样本集合，基于所获得的所述二元组集合在所述样本集合中获取正样本集合；

负样本集合构建单元，被配置为将所述样本集合去除所述正样本集合后的集合中的每一个样本与所述正样本集合中的正样本进行比较，根据比较的相似度结果来获得负样本集合；

未标注样本集合构建单元，被配置为从所述样本集合去除所述正样本集合后的集合中再去除负样本集合来获得未标注样本集合；以及

语义关键词确定单元，被配置为基于所述正样本集合、所述负样本集合和所述未标注样本集合，利用分类算法来迭代训练语义关键词识别模型，基于所述语义关键词识别模型来获得语义关键词集合和/或非语义关键词集合。

附记11、根据附记10所述的装置，其中，所述二元组集合挖掘单元被配置为：在互联网网页中挖掘锚文本得到锚文本集合，根据锚文本集合中的词或词组在所述互联网网页中作为锚文本和普通文本分别出现的次数来计算该词或词组作为语义关键词的概率，和/或基于查询日志进行挖掘，根据挖掘出的词或词组作为查询词在查询日志中出现的次数和所述查询日志中所有的词或词组出现次数的总和来计算该词或词组作为语义关键词的概率。

附记12、根据附记10所述的装置，其中，所述正样本集合构建单元包括：

语法元素集合构建子单元，被配置为在所述文本中抽取n元语法元素组成n元语法元素集合；

候选语义关键词集合构建子单元，被配置为遍历所述n元语法元素集合，如果某个n元语法元素是所获得的二元组集合中的词或词组，则将该n元语法元素作为候选语义关键词加入到候选语义关键词集合中；以及

正样本集合构建子单元，被配置为遍历所述候选语义关键词集合，将每个候选语义关键词按照其在所述二元组集合中的概率从大到小排序，取前k个候选语义关键词作为正样本集合，其中k为正整数。

附记13、根据附记10所述的装置，其中，所述负样本集合构建单元包括：

特征向量构建子单元，被配置为对所述样本集合中的每一个样本利用训练特征构建特征向量；

相似度平均值计算子单元，被配置为针对所述样本集合去除所述正样本集合后的集合中的每一个样本分别执行如下计算：将样本的特征向量与正样本集合中的每一个正样本的特征向量分别进行比较来计算相似度，对所获得的所有相似度结果求平均值，得到该样本的相似度平均值；以及

负样本集合构建子单元，被配置为将所有样本按照计算得到的相似度平均值从小到大的顺序进行排序，取前r个样本作为负样本集合，其中r为正整数，或者取所得到的相似度平均值小于给定值的所有样本作为负样本集合。

附记14、根据附记10所述的装置，其中，所述负样本集合构建单元包括：

正参考向量构建子单元，被配置为利用所述正样本集合中的所有正样本的特征向量构建正参考向量；

相似度计算子单元，被配置为将所述样本集合去除所述正样本集合后的集合中的每一个样本的特征向量与所述正参考向量进行比较来计算相似度；以及

负样本集合构建子单元，被配置为将所有样本按照计算得到的相似度从小到大的顺序进行排序，取前s个样本作为负样本集合，其中s为正整数，或者取相似度小于给定值的所有样本作为负样本集合。

附记15、根据附记10所述的装置，其中，所述语义关键词确定单元包括：

识别模型训练子单元，被配置为使用所述正样本集合和所述负样本集合训练语义关键词识别模型；

分类子单元，被配置为利用所述语义关键词识别模型对所述未标注样本集合中的样本进行分类，将所述未标注样本集合中被所述识别模型识别为正的样本加入到所述正样本集合中和/或将所述未标注样本集合中被所述语义关键词识别模型识别为负的样本加入到所述负样本集合中；

未标注样本集合修改子单元，被配置为从所述未标注样本集合中去除被所述识别模型识别为正的样本和/或去除被所述识别模型识别为负的样本；以及

循环控制子单元，使用修改后的正样本集合、负样本集合以及未标注样本集合重复执行以上步骤，直至达到预定条件。

附记16、根据附记15所述的装置，其中所述预定条件为正样本的个数达到预定数目、负样本的个数达到预定数目、或者所述未标注样本集合中的数目不再发生变化。

附记17、根据附记13或14所述的装置，其中，利用余弦相似度来计算相似度。

附记18、根据附记13或14所述的装置，其中，用于构建所述特征向量的特征训练包括：语言学特征、字母大小写特征、结构特征、统计特征、位置特征、长度特征和知识库特征。

Claims

1.一种在文本中确定语义关键词的方法，包括：

2.根据权利要求1所述的方法，其中，在网络资源中进行挖掘，获得词或词组与所述词或词组作为语义关键词的概率的二元组集合包括：在互联网网页中挖掘锚文本得到锚文本集合，根据锚文本集合中的词或词组在所述互联网网页中作为锚文本和普通文本分别出现的次数来计算该词或词组作为语义关键词的概率，和/或基于查询日志进行挖掘，根据挖掘出的词或词组作为查询词在查询日志中出现的次数和所述查询日志中所有的词或词组出现次数的总和来计算该词或词组作为语义关键词的概率。

3.根据权利要求1所述的方法，其中，在所述文本中抽取样本集合，根据所获得的所述二元组集合在所述样本集合中获取正样本集合的步骤包括：

在所述文本中抽取n元语法元素组成n元语法元素集合；

4.根据权利要求1所述的方法，其中，将所述样本集合去除所述正样本集合后的集合中的每一个样本与正样本集合中的样本进行比较，根据比较的相似度结果来获得负样本集合包括：

5.根据权利要求1所述的方法，其中，将所述样本集合去除所述正样本集合后的集合中的每一个样本与正样本集合中的正样本进行比较，根据比较的相似度结果来获得负样本集合包括：

6.根据权利要求1所述的方法，其中，基于正样本集合、负样本集合和未标注样本集合，利用分类算法来迭代训练语义关键词识别模型，基于所述语义关键词识别模型来获得语义关键词集合和非语义关键词集合包括：

7.根据权利要求6所述的方法，其中所述预定条件为正样本的个数达到预定数目、负样本的个数达到预定数目、或者所述未标注样本集合中的数目不再发生变化。

8.根据权利要求4或5所述的方法，其中，利用余弦相似度来计算相似度。

9.根据权利要求4或5所述的方法所述的方法，其中，用于构建所述特征向量的特征训练包括：语言学特征、字母大小写特征、结构特征、统计特征、位置特征、长度特征和知识库特征。

10.一种在文本中确定语义关键词的装置，包括：