CN103324692B

CN103324692B - 分类知识获取方法和装置

Info

Publication number: CN103324692B
Application number: CN201310219725.5A
Authority: CN
Inventors: 李戈; 金芝; 牟力立; 邢雪源
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2013-06-04
Filing date: 2013-06-04
Publication date: 2016-05-18
Anticipated expiration: 2033-06-04
Also published as: CN103324692A

Abstract

本发明提供一种分类知识获取方法和装置，通过获取原始种子术语的第一相关文本，从第一相关文本中获取第一关联词汇，对第一关联词汇进行搜索，获取第二相关文本，根据原始种子术语所属领域，对第二相关文本进行筛选，得到第二相关文本中匹配所述领域的第一子集，判断所述第一子集与所述原始种子术语的领域相关度是否达到预设值，相当于判断获取第二相关文本所用的第一关联词汇的领域相关性，基于判断结果获取原始种子术语的分类知识，从而保证了获取的分类知识的领域相关性，因此，解决了获取的分类知识领域偏离的问题，进而提高了获取的分类知识的有效率。

Description

分类知识获取方法和装置

技术领域

本发明涉及计算机技术，尤其涉及一种分类知识获取方法和装置。

背景技术

随着互联网技术的飞速发展，人们日益习惯从网络上获取所需信息。

现有技术中，人们通常通过输入一个种子术语，对种子术语进行搜索，获取种子术语相关文本，从相关文本中获取种子术语的分类知识，分类知识即第一关联词汇及第一关联词汇与种子术语的分类关系，再对第一关联词汇进行搜索，再获取第一关联词汇相关文本，再从第一关联词汇相关文本中获取种子术语的分类知识，即从第一关联词汇相关文本中获取的第二关联词汇及第二关联词汇与第一关联词汇的分类关系，通过多次迭代，获取种子术语更为丰富的分类知识。

然而，采用现有技术的方法，获取的分类知识会产生领域偏离的问题，造成获取的分类知识的有效率低。

发明内容

本发明提供一种分类知识获取方法和装置，以解决获取的分类知识领域偏离的问题，提高获取的分类知识的有效率。

本发明第一方面提供一种分类知识获取方法，包括：

对原始种子术语进行搜索，获取第一相关文本；

从所述第一相关文本中获取第一关联词汇；

对所述第一关联词汇进行搜索，获取第二相关文本；

根据所述原始种子术语所属领域，对所述第二相关文本进行筛选，得到所述第二相关文本中匹配所述领域的第一子集；

判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值，基于所述判断结果获取所述原始种子术语的分类知识。

本发明第二方面提供一种分类知识获取装置，包括：

第一获取模块，用于对原始种子术语进行搜索，获取第一相关文本；

第二获取模块，用于从所述第一相关文本中获取第一关联词汇；

第三获取模块，用于对所述第一关联词汇进行搜索，获取第二相关文本；

第四获取模块，用于根据所述原始种子术语所属领域，对所述第二相关文本进行筛选，得到所述第二相关文本中匹配所述领域的第一子集；

处理模块，用于判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值，基于所述判断结果获取所述原始种子术语的分类知识。

本发明提供的分类知识获取方法和装置，通过对原始种子术语进行搜索，获取第一相关文本，从第一相关文本中获取第一关联词汇，对第一关联词汇进行搜索，获取第二相关文本，根据原始种子术语所属领域，对第二相关文本进行筛选，得到第二相关文本中匹配所述领域的第一子集，判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值，基于所述判断结果获取所述原始种子术语的分类知识，由于第一子集是第二相关文本中与原始种子术语所属领域匹配的，判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值，相当于判断获取第二相关文本所用的第一关联词汇的领域相关性，基于判断结果获取原始种子术语的分类知识，从而保证了获取的分类知识的领域相关性，因此，解决了获取的分类知识领域偏离的问题，进而提高了获取的分类知识的有效率。

附图说明

图1为本发明分类知识获取方法实施例一的流程示意图；

图2为本发明分类知识获取装置实施例一的结构示意图。

具体实施方式

图1为本发明分类知识获取方法实施例一的流程示意图，本实施例的执行主体可以为手机、个人计算机（Personalcomputer，以下简称：PC）、平板电脑（PAD）等各种类型的终端设备，具体可以是各种终端设备中具有数据处理功能的模块，例如：中央处理器（CentralProcessingUnit，以下简称：CPU）等。如图1所示，本实施例的方法包括：

S101：对原始种子术语进行搜索，获取第一相关文本。

举例来说，如果要获取“程序设计语言”的分类知识，则原始种子术语为“程序设计语言”，接收输入的“程序设计语言”，根据“程序设计语言”进行搜索，该搜索可以是在互联网的某一搜索引擎上搜索，也可以是在一现有数据库中进行搜索，总之，根据“程序设计语言”可以获取到与“程序设计语言”的第一相关文本，该第一相关文本中可能包含0个文本、1个文本或多个文本，如果为0个文本，则采用其他的方式获取原始种子术语的分类知识，本发明中不考虑第一相关文本为0个的情况。

S102：从第一相关文本中获取第一关联词汇。

从第一相关文本中获取第一关联词汇，所述第一关联词汇为原始种子术语的一个上位术语或下位术语，例如，“程序设计语言是一种计算机编程语言”，则“计算机编程语言”为“程序设计语言”的上位术语，“程序设计语言”与“计算机编程语言”的分类关系为程序设计语言属于计算机编程语言的子类，“C语言是一种程序设计语言”，则“C语言”为“程序设计语言”的下位术语。“C语言”与“程序设计语言”的分类关系为C语言属于程序设计语言的子类。

具体地，从第一相关文本中获取第一关联词汇的一种实现方法可以为通过对第一相关文本进行词性分析，得到第一相关文本中的第一关联词汇，所述第一关联词汇的词性为名词。例如，“C语言是一种非常流行的程序设计语言”，经过分词、词性标注后，可以得到C语言是一种程序设计语言，则将“C语言”作为第一关联词汇。

当第一相关文本中包含多个文本时，可以获取到多个第一关联词汇。本实施例中，以一个第一关联词汇来进行举例说明。

S103：对第一关联词汇进行搜索，获取第二相关文本。

例如，在上述步骤中获取到第一关联词汇为“C语言”，则第二相关文本为与“C语言”相关的文本。

S104：根据原始种子术语所属领域，对第二相关文本进行筛选，得到第二相关文本中匹配所述领域的第一子集。

S105：判断第二子集与原始种子术语的领域相关度是否达到预设值，基于判断结果获取原始种子术语的分类知识。

原始种子术语的分类知识包括：第一关联词汇及第一关联词汇与原始种子术语的分类关系。也就是原始种子术语的上位术语或者下位术语，及上位术语或下位术语与原始种子术语的分类关系，下位术语与原始种子术语的分类关系为下位术语属于原始种子术语的子类，上位术语与原始种子术语的分类关系是原始种子术语上位术语的子类。

通过对原始种子术语进行搜索，获取第一相关文本，从第一相关文本中获取第一关联词汇，对第一关联词汇进行搜索，获取第二相关文本，根据原始种子术语所属领域，对第二相关文本进行筛选，得到第二相关文本中匹配所述领域的第一子集，判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值，由于第一子集是第二相关文本中与原始种子术语所属领域匹配的，判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值，相当于判断获取第二相关文本所用的第一关联词汇的领域相关性，基于判断结果，获取原始种子术语的分类知识，从而保证了获取的分类知识的领域相关性，因此，解决了获取的分类知识的领域偏离的问题，进而提高了获取的分类知识的有效率。

步骤S104与步骤S105具体的实现方式包括但不限于以下两种，总之是通过领域相关性缩小搜索结果范围，以提高获取的分类知识的有效率的方法都适用于本发明。

作为一种可行的实现方式，本步骤具体包括：

第一步：获取与原始种子术语所属领域相关的第一级文本训练集。

例如，“程序设计语言”所属领域为计算机，则获取与计算机相关的第一级文本训练集，第一级文本训练集均为计算机领域相关的文本。

第二步：采用第一级文本训练集对第二相关文本进行匹配，获取第二相关文本中与第一级文本训练集匹配的第一集合。

具体地匹配方法可以采用支持向量机（SupportVectorMachine，以下简称：SVM）算法进行匹配，也可以采用其他的匹配算法，本发明对此不作限制。

例如，第一级文本训练集为计算机相关的文本训练集，采用SVM算法对第一级文本训练集进行学习获得模型参数，根据所述模型参数对第二相关文本进行匹配，获取第二相关文本中与第一级文本训练集匹配的第一集合，可知该第一集合中的文本具有与第一文本训练集相同或相近的特征，从而可以确定第一集合中的文本为计算机领域的相关文本。

第三步：将第一集合作为第二相关文本中匹配所述领域的第一子集。

由第二步可知，第一子集为原始种子术语所属领域相关的文本的集合。

第四步：判断第一子集的元素数量除以第二相关文本中元素数量的比值是否大于预设值，若是，则确定获取第二相关文本所用的第一关联词汇为有效词汇，获取第一关联词汇及第一关联词汇与原始种子术语的分类关系作为原始种子术语的分类知识；若否，则确定获取第二相关文本所用的第一关联词汇为无效词汇，丢弃第一关联词汇。

例如，通过“程序设计语言”的第一关联词汇“计算机编程语言”获取的第二相关文本的数量为5个，5个文本中与计算机领域相关的文本的第一集合的文本的数量为4个，则比值为0.8，假设预设值为0.7，则确定“计算机编程语言”以及“程序设计语言属于计算机编程语言的子类”为获取的程序设计语言的分类知识。

在这种实现方式中，通过判断判断第一子集的元素数量除以第二相关文本中元素数量的比值是否大于预设值，相当于判断获取第二相关文本所用的第一关联词汇的领域相关性，基于第一子集的判断结果，获取原始种子术语的分类知识，从而保证了获取的分类知识的领域相关性，因此，解决了获取的分类知识领域偏离的问题，进而提高了获取的分类知识的有效率。。

为了进一步地提高获取的分类知识的有效率，也可以通过两级文本训练集对所述第二相关文本进行筛选，下面介绍另一种可行的实现方式，该种实现方式包括以下步骤：

第一步：获取与原始种子术语所属领域相关的第一级文本训练集和与所述原始种子术语所属子领域相关的第二级文本训练集。

例如，原始种子术语为“程序设计语言”，则所述领域为计算机，所属子领域为程序语言，或程序设计语言，则第一级文本训练集为计算机领域相关的文本，可以采用SVM算法对第一级文本训练集进行学习获得模型参数，第二级文本训练集为程序设计语言领域相关的，可以采用SVM算法对第一级文本训练集进行学习获得模型参数。

第二步：分别采用第一级文本训练集和第二级文本训练集对第二相关文本进行匹配，获取第二相关文本中与第一级文本训练集匹配的第一集合和与第二级文本训练集匹配的第二集合。

本步骤是从第二相关文本中获取与第一级文本训练集具有相同或相近特征的的第一集合，从第二相关文本中获取与第二级文本训练集具有相同或相近特征的第二集合，举例来说，第一集合即为计算机领域相关的集合，第二集合即为程序设计语言领域相关的集合。

第三步：将第一集合与第二集合的交集作为第二相关文本中匹配原始种子术语所属领域的第一子集。

第四步：判断第一子集的元素数量除以第一集合中元素数量的比值是否大于预设值；若是，则确定获取第二相关文本所用的第一关联词汇为有效词汇，获取第一关联词汇及第一关联词汇与原始种子术语的分类关系作为原始种子术语的分类知识；若否，则确定获取所述第二相关文本所用的第一关联词汇为无效词汇，丢弃所述第一关联词汇。

当第一子集的元素数量除以第一集合中元素数量的比值大于预设值，则说明获取第二相关文本的第一关联词汇的领域相关性高，基于该判断结果，获取原始种子术语的分类知识，使得获取的原始种子术语的分类知识的领域相关度更高，从而提高获取的分类知识的有效率。

当第一子集的元素数量除以第一集合中元素数量的比值小于等于预设值，则说明第一关联词汇的领域相关性不高，则丢弃该第一关联词汇。

该种实现方式中，通过两级分本分类器获取第一子集，判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值，基于该判断结果，获取原始种子术语的分类知识，使得获取的分类知识的领域相关度更高，并且能够进一步地提高获取的分类知识的有效率。

在上述实施例中，为了获得更为丰富的分类知识，还可以在获取原始种子术语的分类知识之后，确定分类知识中的第一关联词汇为第一级种子术语，对第一级种子术语进行搜索，获取第三相关文本，从第三相关文本中获取第二关联词汇；对第二关联词汇进行搜索，获取第四相关文本；根据原始种子术语所属领域，对第四相关文本进行筛选，得到所述第四相关文本中匹配所述领域的第二子集，判断第二子集与原始种子术语的领域相关度是否达到预设值，基于判断结果获取原始种子术语的分类知识。该过程为第一次迭代过程，与上述步骤S101-S104类似，此处不再赘述，第一次迭代过程获取的原始种子术语的分类知识包括第一关联词汇，原始种子术语与第一关联词汇的分类关系，第二关联词汇，第一关联词汇与第二关联词汇的分类关系。

由于在第一次迭代过程中，是以分类知识中的第一关联词汇作为第一级种子术语，而分类知识中的第一关联词汇是基于第一子集与所述原始种子术语的领域相关度是否达到预设值的判断结果获取的，是与原始种子术语领域相关的，避免了无效术语的再一次迭代造成领域偏离的问题，在第一迭代过程中，通过判断第二子集与原始种子术语的领域相关度是否达到预设值，基于判断结果获取所述原始种子术语的分类知识，确保了分类知识中的第二关联词汇和第二关联词汇与第一关联词汇的分类关系也是领域相关的，从而提高获取的分类知识的有效率。

当然，还可以将分类知识中的第二关联词汇作为第二级种子术语，进行第二次迭代，为了获取到更为丰富的分类知识，可以进行N次迭代，每次迭代的方法类似，相当于每一次迭代所采用的种子术语都是通过领域相关性筛选后的种子术语，都是与原始种子术语领域相关的，因此，确保了在多次迭代之后，也不会出现领域偏离的问题，并且，确保了每次迭代获取的分类知识的有效性。

图2为本发明分类知识获取装置实施例一的结构示意图，如图2所示，本实施例的装置包括第一获取模块201、第二获取模块202、第三获取模块203、第四获取模块204和处理模块205，其中，第一获取模块201用于获取原始种子术语的第一相关文本；第二获取模块202用于从第一相关文本中获取第一关联词汇；第三获取模块203用于对第一关联词汇进行搜索，获取第二相关文本；第四获取模块204用于根据原始种子术语所属领域，对第二相关文本进行筛选，得到第二相关文本中匹配领域的第一子集；处理模块205用于判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值，基于所述判断结果获取所述原始种子术语的分类知识。

在上述实施例中，第四获取模块204具体用于获取与原始种子术语所属领域相关的第一级文本训练集；采用第一级文本训练集对第二相关文本进行匹配，获取第二相关文本中与第一级文本训练集匹配的第一集合；将第一集合作为第二相关文本中匹配领域的第一子集；

处理模块205具体用于判断第一子集的元素数量除以第二相关文本中元素数量的比值是否大于预设值；若是，则确定获取第二相关文本所用的第一关联词汇为有效词汇，获取第一关联词汇及第一关联词汇与原始种子术语的分类关系作为原始种子术语的分类知识；若否，则确定获取第二相关文本所用的第一关联词汇为无效词汇，丢弃第一关联词汇。

在上述实施例中，第四获取模块204具体用于获取与原始种子术语所属领域相关的第一级文本训练集和与原始种子术语所属子领域相关的第二级文本训练集；分别采用第一级文本训练集和第二级文本训练集对第二相关文本进行匹配，获取第二相关文本中与第一级文本训练集匹配的第一集合和与第二级文本训练集匹配的第二集合；将第一集合和第二集合的交集作为第二相关文本中匹配领域的第一子集；

处理模块205具体用于判断第一子集的元素数量除以第一集合中元素数量的比值是否大于预设值；若是，则确定获取第二相关文本所用的第一关联词汇为有效词汇，获取第一关联词汇及第一关联词汇与原始种子术语的分类关系作为原始种子术语的分类知识；若否，则确定获取第二关联文本所用的第一关联词汇为无效词汇，丢弃第一关联词汇。

在上述实施例中，第一获取模块201还用于确定原始种子术语中的第一关联词汇为第一级种子术语，对第一级种子术语进行搜索，获取第三相关文本；

第二获取模块202还用于从第三相关文本中获取第二关联词汇；

第三获取模块203还用于对第二关联词汇进行搜索，获取第四相关文本；

第四获取模块204还用于根据原始种子术语所属领域，对第四相关文本进行筛选，得到第四相关文本中匹配领域的第二子集；

处理模块205还用于判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值，基于所述判断结果获取所述原始种子术语的分类知识。

本实施例的装置，可用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种分类知识获取方法，其特征在于，包括：

对原始种子术语进行搜索，获取第一相关文本；

从所述第一相关文本中获取第一关联词汇；

对所述第一关联词汇进行搜索，获取第二相关文本；

判断所述第一子集与所述原始种子术语的领域相关度是否达到预设值，基于所述判断结果获取所述原始种子术语的分类知识；

所述从所述第一相关文本中获取第一关联词汇包括：

对所述第一相关文本进行词性分析，得到所述第一相关文本中的第一关联词汇，所述第一关联词汇的词性为名词。

2.根据权利要求1所述的方法，其特征在于，所述根据所述原始种子术语所属领域，对所述第二相关文本进行筛选，得到所述第二相关文本中匹配所述领域的第一子集，包括：

获取与所述原始种子术语所属领域相关的第一级文本训练集；

采用所述第一级文本训练集对所述第二相关文本进行匹配，获取所述第二相关文本中与所述第一级文本训练集匹配的第一集合；

将所述第一集合作为所述第二相关文本中匹配所述领域的第一子集；

所述判断所述第一子集与所述原始种子术语的领域相关度是否达到预设值，基于所述判断结果获取所述原始种子术语的分类知识，包括：

判断所述第一子集的元素数量除以所述第二相关文本中元素数量的比值是否大于预设值；

若是，则确定获取所述第二相关文本所用的第一关联词汇为有效词汇，获取所述第一关联词汇及所述第一关联词汇与所述原始种子术语的分类关系作为所述原始种子术语的分类知识；

若否，则确定获取所述第二相关文本所用的第一关联词汇为无效词汇，丢弃所述第一关联词汇。

3.根据权利要求1所述的方法，其特征在于，所述根据所述原始种子术语所属领域，对所述第二相关文本进行筛选，得到所述第二相关文本中匹配所述领域的第一子集，包括：

获取与所述原始种子术语所属领域相关的第一级文本训练集和与所述原始种子术语所属子领域相关的第二级文本训练集；

分别采用所述第一级文本训练集和所述第二级文本训练集对所述第二相关文本进行匹配，获取所述第二相关文本中与所述第一级文本训练集匹配的第一集合和与所述第二级文本训练集匹配的第二集合；

将所述第一集合与所述第二集合的交集作为所述第二相关文本中匹配所述领域的第一子集；

判断所述第一子集的元素数量除以所述第一集合中元素数量的比值是否大于预设值；

4.根据权利要求2或3所述的方法，其特征在于，所述获取所述原始种子术语的分类知识之后，还包括：

确定所述分类知识中的第一关联词汇为第一级种子术语；

对所述第一级种子术语进行搜索，获取第三相关文本；

从所述第三相关文本中获取第二关联词汇；

对所述第二关联词汇进行搜索，获取第四相关文本；

根据所述原始种子术语所属领域，对所述第四相关文本进行筛选，得到所述第四相关文本中匹配所述领域的第二子集；

5.根据权利要求1-3中任一所述的方法，其特征在于，所述第一关联词汇有多个；所述对所述第一关联词汇进行搜索，获取第二相关文本，包括：

对所述多个第一关联词汇分别进行搜索，获取每个第一关联词汇对应的第二相关文本。

6.一种分类知识获取装置，其特征在于，包括：

处理模块，用于判断所述第一子集与所述原始种子术语的领域相关度是否达到预设值，基于所述判断结果获取所述原始种子术语的分类知识；

所述第二获取模块具体用于：

7.根据权利要求6所述的装置，其特征在于，所述第四获取模块具体用于获取与所述原始种子术语所属领域相关的第一级文本训练集；采用所述第一级文本训练集对所述第二相关文本进行匹配，获取所述第二相关文本中与所述第一级文本训练集匹配的第一集合；将所述第一集合作为所述第二相关文本中匹配所述领域的第一子集；

所述处理模块具体用于判断所述第一子集的元素数量除以所述第二相关文本中元素数量的比值是否大于预设值；若是，则确定获取所述第二相关文本所用的第一关联词汇为有效词汇，获取所述第一关联词汇及所述第一关联词汇与所述原始种子术语的分类关系作为所述原始种子术语的分类知识；若否，则确定获取所述第二相关文本所用的第一关联词汇为无效词汇，丢弃所述第一关联词汇。

8.根据权利要求6所述的装置，其特征在于，所述第四获取模块具体用于获取与所述原始种子术语所属领域相关的第一级文本训练集和与所述原始种子术语所属子领域相关的第二级文本训练集；分别采用所述第一级文本训练集和所述第二级文本训练集对所述第二相关文本进行匹配，获取所述第二相关文本中与所述第一级文本训练集匹配的第一集合和与所述第二级文本训练集匹配的第二集合；将所述第一集合和所述第二集合的交集作为第二相关文本中匹配所述领域的第一子集；

所述处理模块具体用于判断所述第一子集的元素数量除以所述第一集合中元素数量的比值是否大于预设值；若是，则确定获取所述第二相关文本所用的第一关联词汇为有效词汇，获取所述第一关联词汇及所述第一关联词汇与所述原始种子术语的分类关系作为所述原始种子术语的分类知识；若否，则确定获取所述第二相关文本所用的第一关联词汇为无效词汇，丢弃所述第一关联词汇。

9.根据权利要求7或8所述的装置，其特征在于，所述第一获取模块还用于确定所述原始种子术语中的第一关联词汇为第一级种子术语，对所述第一级种子术语进行搜索，获取第三相关文本；

所述第二获取模块，还用于从所述第三相关文本中获取第二关联词汇；

所述第三获取模块，还用于对所述第二关联词汇进行搜索，获取第四相关文本；

所述第四获取模块，还用于根据所述原始种子术语所属领域，对所述第四相关文本进行筛选，得到所述第四相关文本中匹配所述领域的第二子集；

所述处理模块，还用于判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值，基于所述判断结果获取所述原始种子术语的分类知识。