CN103324692B - 分类知识获取方法和装置 - Google Patents

分类知识获取方法和装置 Download PDF

Info

Publication number
CN103324692B
CN103324692B CN201310219725.5A CN201310219725A CN103324692B CN 103324692 B CN103324692 B CN 103324692B CN 201310219725 A CN201310219725 A CN 201310219725A CN 103324692 B CN103324692 B CN 103324692B
Authority
CN
China
Prior art keywords
text
vocabulary
seed term
primordial seed
related text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310219725.5A
Other languages
English (en)
Other versions
CN103324692A (zh
Inventor
李戈
金芝
牟力立
邢雪源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201310219725.5A priority Critical patent/CN103324692B/zh
Publication of CN103324692A publication Critical patent/CN103324692A/zh
Application granted granted Critical
Publication of CN103324692B publication Critical patent/CN103324692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种分类知识获取方法和装置,通过获取原始种子术语的第一相关文本,从第一相关文本中获取第一关联词汇,对第一关联词汇进行搜索,获取第二相关文本,根据原始种子术语所属领域,对第二相关文本进行筛选,得到第二相关文本中匹配所述领域的第一子集,判断所述第一子集与所述原始种子术语的领域相关度是否达到预设值,相当于判断获取第二相关文本所用的第一关联词汇的领域相关性,基于判断结果获取原始种子术语的分类知识,从而保证了获取的分类知识的领域相关性,因此,解决了获取的分类知识领域偏离的问题,进而提高了获取的分类知识的有效率。

Description

分类知识获取方法和装置
技术领域
本发明涉及计算机技术,尤其涉及一种分类知识获取方法和装置。
背景技术
随着互联网技术的飞速发展,人们日益习惯从网络上获取所需信息。
现有技术中,人们通常通过输入一个种子术语,对种子术语进行搜索,获取种子术语相关文本,从相关文本中获取种子术语的分类知识,分类知识即第一关联词汇及第一关联词汇与种子术语的分类关系,再对第一关联词汇进行搜索,再获取第一关联词汇相关文本,再从第一关联词汇相关文本中获取种子术语的分类知识,即从第一关联词汇相关文本中获取的第二关联词汇及第二关联词汇与第一关联词汇的分类关系,通过多次迭代,获取种子术语更为丰富的分类知识。
然而,采用现有技术的方法,获取的分类知识会产生领域偏离的问题,造成获取的分类知识的有效率低。
发明内容
本发明提供一种分类知识获取方法和装置,以解决获取的分类知识领域偏离的问题,提高获取的分类知识的有效率。
本发明第一方面提供一种分类知识获取方法,包括:
对原始种子术语进行搜索,获取第一相关文本;
从所述第一相关文本中获取第一关联词汇;
对所述第一关联词汇进行搜索,获取第二相关文本;
根据所述原始种子术语所属领域,对所述第二相关文本进行筛选,得到所述第二相关文本中匹配所述领域的第一子集;
判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值,基于所述判断结果获取所述原始种子术语的分类知识。
本发明第二方面提供一种分类知识获取装置,包括:
第一获取模块,用于对原始种子术语进行搜索,获取第一相关文本;
第二获取模块,用于从所述第一相关文本中获取第一关联词汇;
第三获取模块,用于对所述第一关联词汇进行搜索,获取第二相关文本;
第四获取模块,用于根据所述原始种子术语所属领域,对所述第二相关文本进行筛选,得到所述第二相关文本中匹配所述领域的第一子集;
处理模块,用于判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值,基于所述判断结果获取所述原始种子术语的分类知识。
本发明提供的分类知识获取方法和装置,通过对原始种子术语进行搜索,获取第一相关文本,从第一相关文本中获取第一关联词汇,对第一关联词汇进行搜索,获取第二相关文本,根据原始种子术语所属领域,对第二相关文本进行筛选,得到第二相关文本中匹配所述领域的第一子集,判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值,基于所述判断结果获取所述原始种子术语的分类知识,由于第一子集是第二相关文本中与原始种子术语所属领域匹配的,判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值,相当于判断获取第二相关文本所用的第一关联词汇的领域相关性,基于判断结果获取原始种子术语的分类知识,从而保证了获取的分类知识的领域相关性,因此,解决了获取的分类知识领域偏离的问题,进而提高了获取的分类知识的有效率。
附图说明
图1为本发明分类知识获取方法实施例一的流程示意图;
图2为本发明分类知识获取装置实施例一的结构示意图。
具体实施方式
图1为本发明分类知识获取方法实施例一的流程示意图,本实施例的执行主体可以为手机、个人计算机(Personalcomputer,以下简称:PC)、平板电脑(PAD)等各种类型的终端设备,具体可以是各种终端设备中具有数据处理功能的模块,例如:中央处理器(CentralProcessingUnit,以下简称:CPU)等。如图1所示,本实施例的方法包括:
S101:对原始种子术语进行搜索,获取第一相关文本。
举例来说,如果要获取“程序设计语言”的分类知识,则原始种子术语为“程序设计语言”,接收输入的“程序设计语言”,根据“程序设计语言”进行搜索,该搜索可以是在互联网的某一搜索引擎上搜索,也可以是在一现有数据库中进行搜索,总之,根据“程序设计语言”可以获取到与“程序设计语言”的第一相关文本,该第一相关文本中可能包含0个文本、1个文本或多个文本,如果为0个文本,则采用其他的方式获取原始种子术语的分类知识,本发明中不考虑第一相关文本为0个的情况。
S102:从第一相关文本中获取第一关联词汇。
从第一相关文本中获取第一关联词汇,所述第一关联词汇为原始种子术语的一个上位术语或下位术语,例如,“程序设计语言是一种计算机编程语言”,则“计算机编程语言”为“程序设计语言”的上位术语,“程序设计语言”与“计算机编程语言”的分类关系为程序设计语言属于计算机编程语言的子类,“C语言是一种程序设计语言”,则“C语言”为“程序设计语言”的下位术语。“C语言”与“程序设计语言”的分类关系为C语言属于程序设计语言的子类。
具体地,从第一相关文本中获取第一关联词汇的一种实现方法可以为通过对第一相关文本进行词性分析,得到第一相关文本中的第一关联词汇,所述第一关联词汇的词性为名词。例如,“C语言是一种非常流行的程序设计语言”,经过分词、词性标注后,可以得到C语言是一种程序设计语言,则将“C语言”作为第一关联词汇。
当第一相关文本中包含多个文本时,可以获取到多个第一关联词汇。本实施例中,以一个第一关联词汇来进行举例说明。
S103:对第一关联词汇进行搜索,获取第二相关文本。
例如,在上述步骤中获取到第一关联词汇为“C语言”,则第二相关文本为与“C语言”相关的文本。
S104:根据原始种子术语所属领域,对第二相关文本进行筛选,得到第二相关文本中匹配所述领域的第一子集。
S105:判断第二子集与原始种子术语的领域相关度是否达到预设值,基于判断结果获取原始种子术语的分类知识。
原始种子术语的分类知识包括:第一关联词汇及第一关联词汇与原始种子术语的分类关系。也就是原始种子术语的上位术语或者下位术语,及上位术语或下位术语与原始种子术语的分类关系,下位术语与原始种子术语的分类关系为下位术语属于原始种子术语的子类,上位术语与原始种子术语的分类关系是原始种子术语上位术语的子类。
通过对原始种子术语进行搜索,获取第一相关文本,从第一相关文本中获取第一关联词汇,对第一关联词汇进行搜索,获取第二相关文本,根据原始种子术语所属领域,对第二相关文本进行筛选,得到第二相关文本中匹配所述领域的第一子集,判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值,由于第一子集是第二相关文本中与原始种子术语所属领域匹配的,判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值,相当于判断获取第二相关文本所用的第一关联词汇的领域相关性,基于判断结果,获取原始种子术语的分类知识,从而保证了获取的分类知识的领域相关性,因此,解决了获取的分类知识的领域偏离的问题,进而提高了获取的分类知识的有效率。
步骤S104与步骤S105具体的实现方式包括但不限于以下两种,总之是通过领域相关性缩小搜索结果范围,以提高获取的分类知识的有效率的方法都适用于本发明。
作为一种可行的实现方式,本步骤具体包括:
第一步:获取与原始种子术语所属领域相关的第一级文本训练集。
例如,“程序设计语言”所属领域为计算机,则获取与计算机相关的第一级文本训练集,第一级文本训练集均为计算机领域相关的文本。
第二步:采用第一级文本训练集对第二相关文本进行匹配,获取第二相关文本中与第一级文本训练集匹配的第一集合。
具体地匹配方法可以采用支持向量机(SupportVectorMachine,以下简称:SVM)算法进行匹配,也可以采用其他的匹配算法,本发明对此不作限制。
例如,第一级文本训练集为计算机相关的文本训练集,采用SVM算法对第一级文本训练集进行学习获得模型参数,根据所述模型参数对第二相关文本进行匹配,获取第二相关文本中与第一级文本训练集匹配的第一集合,可知该第一集合中的文本具有与第一文本训练集相同或相近的特征,从而可以确定第一集合中的文本为计算机领域的相关文本。
第三步:将第一集合作为第二相关文本中匹配所述领域的第一子集。
由第二步可知,第一子集为原始种子术语所属领域相关的文本的集合。
第四步:判断第一子集的元素数量除以第二相关文本中元素数量的比值是否大于预设值,若是,则确定获取第二相关文本所用的第一关联词汇为有效词汇,获取第一关联词汇及第一关联词汇与原始种子术语的分类关系作为原始种子术语的分类知识;若否,则确定获取第二相关文本所用的第一关联词汇为无效词汇,丢弃第一关联词汇。
例如,通过“程序设计语言”的第一关联词汇“计算机编程语言”获取的第二相关文本的数量为5个,5个文本中与计算机领域相关的文本的第一集合的文本的数量为4个,则比值为0.8,假设预设值为0.7,则确定“计算机编程语言”以及“程序设计语言属于计算机编程语言的子类”为获取的程序设计语言的分类知识。
在这种实现方式中,通过判断判断第一子集的元素数量除以第二相关文本中元素数量的比值是否大于预设值,相当于判断获取第二相关文本所用的第一关联词汇的领域相关性,基于第一子集的判断结果,获取原始种子术语的分类知识,从而保证了获取的分类知识的领域相关性,因此,解决了获取的分类知识领域偏离的问题,进而提高了获取的分类知识的有效率。。
为了进一步地提高获取的分类知识的有效率,也可以通过两级文本训练集对所述第二相关文本进行筛选,下面介绍另一种可行的实现方式,该种实现方式包括以下步骤:
第一步:获取与原始种子术语所属领域相关的第一级文本训练集和与所述原始种子术语所属子领域相关的第二级文本训练集。
例如,原始种子术语为“程序设计语言”,则所述领域为计算机,所属子领域为程序语言,或程序设计语言,则第一级文本训练集为计算机领域相关的文本,可以采用SVM算法对第一级文本训练集进行学习获得模型参数,第二级文本训练集为程序设计语言领域相关的,可以采用SVM算法对第一级文本训练集进行学习获得模型参数。
第二步:分别采用第一级文本训练集和第二级文本训练集对第二相关文本进行匹配,获取第二相关文本中与第一级文本训练集匹配的第一集合和与第二级文本训练集匹配的第二集合。
本步骤是从第二相关文本中获取与第一级文本训练集具有相同或相近特征的的第一集合,从第二相关文本中获取与第二级文本训练集具有相同或相近特征的第二集合,举例来说,第一集合即为计算机领域相关的集合,第二集合即为程序设计语言领域相关的集合。
第三步:将第一集合与第二集合的交集作为第二相关文本中匹配原始种子术语所属领域的第一子集。
第四步:判断第一子集的元素数量除以第一集合中元素数量的比值是否大于预设值;若是,则确定获取第二相关文本所用的第一关联词汇为有效词汇,获取第一关联词汇及第一关联词汇与原始种子术语的分类关系作为原始种子术语的分类知识;若否,则确定获取所述第二相关文本所用的第一关联词汇为无效词汇,丢弃所述第一关联词汇。
当第一子集的元素数量除以第一集合中元素数量的比值大于预设值,则说明获取第二相关文本的第一关联词汇的领域相关性高,基于该判断结果,获取原始种子术语的分类知识,使得获取的原始种子术语的分类知识的领域相关度更高,从而提高获取的分类知识的有效率。
当第一子集的元素数量除以第一集合中元素数量的比值小于等于预设值,则说明第一关联词汇的领域相关性不高,则丢弃该第一关联词汇。
该种实现方式中,通过两级分本分类器获取第一子集,判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值,基于该判断结果,获取原始种子术语的分类知识,使得获取的分类知识的领域相关度更高,并且能够进一步地提高获取的分类知识的有效率。
在上述实施例中,为了获得更为丰富的分类知识,还可以在获取原始种子术语的分类知识之后,确定分类知识中的第一关联词汇为第一级种子术语,对第一级种子术语进行搜索,获取第三相关文本,从第三相关文本中获取第二关联词汇;对第二关联词汇进行搜索,获取第四相关文本;根据原始种子术语所属领域,对第四相关文本进行筛选,得到所述第四相关文本中匹配所述领域的第二子集,判断第二子集与原始种子术语的领域相关度是否达到预设值,基于判断结果获取原始种子术语的分类知识。该过程为第一次迭代过程,与上述步骤S101-S104类似,此处不再赘述,第一次迭代过程获取的原始种子术语的分类知识包括第一关联词汇,原始种子术语与第一关联词汇的分类关系,第二关联词汇,第一关联词汇与第二关联词汇的分类关系。
由于在第一次迭代过程中,是以分类知识中的第一关联词汇作为第一级种子术语,而分类知识中的第一关联词汇是基于第一子集与所述原始种子术语的领域相关度是否达到预设值的判断结果获取的,是与原始种子术语领域相关的,避免了无效术语的再一次迭代造成领域偏离的问题,在第一迭代过程中,通过判断第二子集与原始种子术语的领域相关度是否达到预设值,基于判断结果获取所述原始种子术语的分类知识,确保了分类知识中的第二关联词汇和第二关联词汇与第一关联词汇的分类关系也是领域相关的,从而提高获取的分类知识的有效率。
当然,还可以将分类知识中的第二关联词汇作为第二级种子术语,进行第二次迭代,为了获取到更为丰富的分类知识,可以进行N次迭代,每次迭代的方法类似,相当于每一次迭代所采用的种子术语都是通过领域相关性筛选后的种子术语,都是与原始种子术语领域相关的,因此,确保了在多次迭代之后,也不会出现领域偏离的问题,并且,确保了每次迭代获取的分类知识的有效性。
图2为本发明分类知识获取装置实施例一的结构示意图,如图2所示,本实施例的装置包括第一获取模块201、第二获取模块202、第三获取模块203、第四获取模块204和处理模块205,其中,第一获取模块201用于获取原始种子术语的第一相关文本;第二获取模块202用于从第一相关文本中获取第一关联词汇;第三获取模块203用于对第一关联词汇进行搜索,获取第二相关文本;第四获取模块204用于根据原始种子术语所属领域,对第二相关文本进行筛选,得到第二相关文本中匹配领域的第一子集;处理模块205用于判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值,基于所述判断结果获取所述原始种子术语的分类知识。
在上述实施例中,第四获取模块204具体用于获取与原始种子术语所属领域相关的第一级文本训练集;采用第一级文本训练集对第二相关文本进行匹配,获取第二相关文本中与第一级文本训练集匹配的第一集合;将第一集合作为第二相关文本中匹配领域的第一子集;
处理模块205具体用于判断第一子集的元素数量除以第二相关文本中元素数量的比值是否大于预设值;若是,则确定获取第二相关文本所用的第一关联词汇为有效词汇,获取第一关联词汇及第一关联词汇与原始种子术语的分类关系作为原始种子术语的分类知识;若否,则确定获取第二相关文本所用的第一关联词汇为无效词汇,丢弃第一关联词汇。
在上述实施例中,第四获取模块204具体用于获取与原始种子术语所属领域相关的第一级文本训练集和与原始种子术语所属子领域相关的第二级文本训练集;分别采用第一级文本训练集和第二级文本训练集对第二相关文本进行匹配,获取第二相关文本中与第一级文本训练集匹配的第一集合和与第二级文本训练集匹配的第二集合;将第一集合和第二集合的交集作为第二相关文本中匹配领域的第一子集;
处理模块205具体用于判断第一子集的元素数量除以第一集合中元素数量的比值是否大于预设值;若是,则确定获取第二相关文本所用的第一关联词汇为有效词汇,获取第一关联词汇及第一关联词汇与原始种子术语的分类关系作为原始种子术语的分类知识;若否,则确定获取第二关联文本所用的第一关联词汇为无效词汇,丢弃第一关联词汇。
在上述实施例中,第一获取模块201还用于确定原始种子术语中的第一关联词汇为第一级种子术语,对第一级种子术语进行搜索,获取第三相关文本;
第二获取模块202还用于从第三相关文本中获取第二关联词汇;
第三获取模块203还用于对第二关联词汇进行搜索,获取第四相关文本;
第四获取模块204还用于根据原始种子术语所属领域,对第四相关文本进行筛选,得到第四相关文本中匹配领域的第二子集;
处理模块205还用于判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值,基于所述判断结果获取所述原始种子术语的分类知识。
本实施例的装置,可用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种分类知识获取方法,其特征在于,包括:
对原始种子术语进行搜索,获取第一相关文本;
从所述第一相关文本中获取第一关联词汇;
对所述第一关联词汇进行搜索,获取第二相关文本;
根据所述原始种子术语所属领域,对所述第二相关文本进行筛选,得到所述第二相关文本中匹配所述领域的第一子集;
判断所述第一子集与所述原始种子术语的领域相关度是否达到预设值,基于所述判断结果获取所述原始种子术语的分类知识;
所述从所述第一相关文本中获取第一关联词汇包括:
对所述第一相关文本进行词性分析,得到所述第一相关文本中的第一关联词汇,所述第一关联词汇的词性为名词。
2.根据权利要求1所述的方法,其特征在于,所述根据所述原始种子术语所属领域,对所述第二相关文本进行筛选,得到所述第二相关文本中匹配所述领域的第一子集,包括:
获取与所述原始种子术语所属领域相关的第一级文本训练集;
采用所述第一级文本训练集对所述第二相关文本进行匹配,获取所述第二相关文本中与所述第一级文本训练集匹配的第一集合;
将所述第一集合作为所述第二相关文本中匹配所述领域的第一子集;
所述判断所述第一子集与所述原始种子术语的领域相关度是否达到预设值,基于所述判断结果获取所述原始种子术语的分类知识,包括:
判断所述第一子集的元素数量除以所述第二相关文本中元素数量的比值是否大于预设值;
若是,则确定获取所述第二相关文本所用的第一关联词汇为有效词汇,获取所述第一关联词汇及所述第一关联词汇与所述原始种子术语的分类关系作为所述原始种子术语的分类知识;
若否,则确定获取所述第二相关文本所用的第一关联词汇为无效词汇,丢弃所述第一关联词汇。
3.根据权利要求1所述的方法,其特征在于,所述根据所述原始种子术语所属领域,对所述第二相关文本进行筛选,得到所述第二相关文本中匹配所述领域的第一子集,包括:
获取与所述原始种子术语所属领域相关的第一级文本训练集和与所述原始种子术语所属子领域相关的第二级文本训练集;
分别采用所述第一级文本训练集和所述第二级文本训练集对所述第二相关文本进行匹配,获取所述第二相关文本中与所述第一级文本训练集匹配的第一集合和与所述第二级文本训练集匹配的第二集合;
将所述第一集合与所述第二集合的交集作为所述第二相关文本中匹配所述领域的第一子集;
所述判断所述第一子集与所述原始种子术语的领域相关度是否达到预设值,基于所述判断结果获取所述原始种子术语的分类知识,包括:
判断所述第一子集的元素数量除以所述第一集合中元素数量的比值是否大于预设值;
若是,则确定获取所述第二相关文本所用的第一关联词汇为有效词汇,获取所述第一关联词汇及所述第一关联词汇与所述原始种子术语的分类关系作为所述原始种子术语的分类知识;
若否,则确定获取所述第二相关文本所用的第一关联词汇为无效词汇,丢弃所述第一关联词汇。
4.根据权利要求2或3所述的方法,其特征在于,所述获取所述原始种子术语的分类知识之后,还包括:
确定所述分类知识中的第一关联词汇为第一级种子术语;
对所述第一级种子术语进行搜索,获取第三相关文本;
从所述第三相关文本中获取第二关联词汇;
对所述第二关联词汇进行搜索,获取第四相关文本;
根据所述原始种子术语所属领域,对所述第四相关文本进行筛选,得到所述第四相关文本中匹配所述领域的第二子集;
判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值,基于所述判断结果获取所述原始种子术语的分类知识。
5.根据权利要求1-3中任一所述的方法,其特征在于,所述第一关联词汇有多个;所述对所述第一关联词汇进行搜索,获取第二相关文本,包括:
对所述多个第一关联词汇分别进行搜索,获取每个第一关联词汇对应的第二相关文本。
6.一种分类知识获取装置,其特征在于,包括:
第一获取模块,用于对原始种子术语进行搜索,获取第一相关文本;
第二获取模块,用于从所述第一相关文本中获取第一关联词汇;
第三获取模块,用于对所述第一关联词汇进行搜索,获取第二相关文本;
第四获取模块,用于根据所述原始种子术语所属领域,对所述第二相关文本进行筛选,得到所述第二相关文本中匹配所述领域的第一子集;
处理模块,用于判断所述第一子集与所述原始种子术语的领域相关度是否达到预设值,基于所述判断结果获取所述原始种子术语的分类知识;
所述第二获取模块具体用于:
对所述第一相关文本进行词性分析,得到所述第一相关文本中的第一关联词汇,所述第一关联词汇的词性为名词。
7.根据权利要求6所述的装置,其特征在于,所述第四获取模块具体用于获取与所述原始种子术语所属领域相关的第一级文本训练集;采用所述第一级文本训练集对所述第二相关文本进行匹配,获取所述第二相关文本中与所述第一级文本训练集匹配的第一集合;将所述第一集合作为所述第二相关文本中匹配所述领域的第一子集;
所述处理模块具体用于判断所述第一子集的元素数量除以所述第二相关文本中元素数量的比值是否大于预设值;若是,则确定获取所述第二相关文本所用的第一关联词汇为有效词汇,获取所述第一关联词汇及所述第一关联词汇与所述原始种子术语的分类关系作为所述原始种子术语的分类知识;若否,则确定获取所述第二相关文本所用的第一关联词汇为无效词汇,丢弃所述第一关联词汇。
8.根据权利要求6所述的装置,其特征在于,所述第四获取模块具体用于获取与所述原始种子术语所属领域相关的第一级文本训练集和与所述原始种子术语所属子领域相关的第二级文本训练集;分别采用所述第一级文本训练集和所述第二级文本训练集对所述第二相关文本进行匹配,获取所述第二相关文本中与所述第一级文本训练集匹配的第一集合和与所述第二级文本训练集匹配的第二集合;将所述第一集合和所述第二集合的交集作为第二相关文本中匹配所述领域的第一子集;
所述处理模块具体用于判断所述第一子集的元素数量除以所述第一集合中元素数量的比值是否大于预设值;若是,则确定获取所述第二相关文本所用的第一关联词汇为有效词汇,获取所述第一关联词汇及所述第一关联词汇与所述原始种子术语的分类关系作为所述原始种子术语的分类知识;若否,则确定获取所述第二相关文本所用的第一关联词汇为无效词汇,丢弃所述第一关联词汇。
9.根据权利要求7或8所述的装置,其特征在于,所述第一获取模块还用于确定所述原始种子术语中的第一关联词汇为第一级种子术语,对所述第一级种子术语进行搜索,获取第三相关文本;
所述第二获取模块,还用于从所述第三相关文本中获取第二关联词汇;
所述第三获取模块,还用于对所述第二关联词汇进行搜索,获取第四相关文本;
所述第四获取模块,还用于根据所述原始种子术语所属领域,对所述第四相关文本进行筛选,得到所述第四相关文本中匹配所述领域的第二子集;
所述处理模块,还用于判断所述第二子集与所述原始种子术语的领域相关度是否达到预设值,基于所述判断结果获取所述原始种子术语的分类知识。
CN201310219725.5A 2013-06-04 2013-06-04 分类知识获取方法和装置 Active CN103324692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310219725.5A CN103324692B (zh) 2013-06-04 2013-06-04 分类知识获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310219725.5A CN103324692B (zh) 2013-06-04 2013-06-04 分类知识获取方法和装置

Publications (2)

Publication Number Publication Date
CN103324692A CN103324692A (zh) 2013-09-25
CN103324692B true CN103324692B (zh) 2016-05-18

Family

ID=49193435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310219725.5A Active CN103324692B (zh) 2013-06-04 2013-06-04 分类知识获取方法和装置

Country Status (1)

Country Link
CN (1) CN103324692B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274404B (zh) * 2020-02-12 2023-07-14 杭州量知数据科技有限公司 一种基于人机协同的小样本实体多领域分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN102439594A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于知识搜索的系统和方法
CN102646100A (zh) * 2011-02-21 2012-08-22 腾讯科技(深圳)有限公司 领域词获取方法及系统
CN103049455A (zh) * 2011-10-14 2013-04-17 中兴通讯股份有限公司 基于分级式搜索的呼叫中心服务方法及系统
CN103116573A (zh) * 2013-02-06 2013-05-22 北京理工大学 一种基于词汇注释的领域词典自动扩充方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8631002B2 (en) * 2010-12-09 2014-01-14 Microsoft Corporation Web-relevance based query classification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN102439594A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于知识搜索的系统和方法
CN102646100A (zh) * 2011-02-21 2012-08-22 腾讯科技(深圳)有限公司 领域词获取方法及系统
CN103049455A (zh) * 2011-10-14 2013-04-17 中兴通讯股份有限公司 基于分级式搜索的呼叫中心服务方法及系统
CN103116573A (zh) * 2013-02-06 2013-05-22 北京理工大学 一种基于词汇注释的领域词典自动扩充方法

Also Published As

Publication number Publication date
CN103324692A (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
AU2018355097B2 (en) Methods, systems, and computer program product for implementing an intelligent system with dynamic configurability
AU2018355096B2 (en) Methods, systems, and computer program product for implementing software applications with dynamic conditions and dynamic actions
US20190180195A1 (en) Systems and methods for training machine learning models using active learning
JP6936936B2 (ja) ウェイクアップモデルの最適化方法、装置、デバイス及び記憶媒体
CN111813905B (zh) 语料生成方法、装置、计算机设备及存储介质
Bollinger et al. Modeling metal flow systems: Agents vs. equations
Lyu et al. Crud-rag: A comprehensive chinese benchmark for retrieval-augmented generation of large language models
CN108446370B (zh) 语音数据统计方法和系统
CN103064866A (zh) 确定网络中的内容的关注度的方法和设备
CN103324692B (zh) 分类知识获取方法和装置
CN101523339A (zh) 包括用户外形及域展示的查询方法与装置
Zhang et al. Toward self-learning end-to-end task-oriented dialog systems
Li et al. Newsdialogues: Towards proactive news grounded conversation
Wolfram Modelling the stock market using Twitter
CN116186506A (zh) 基于bert预训练模型的可访问性问题报告的自动识别方法
YiFei [Retracted] Design of Network‐Assisted Teaching of Ideological and Political Courses for College Students Based on Android System
Lin et al. Spatial commonsense reasoning for machine reading comprehension
Śmiałek et al. Comprehensive system for systematic case-driven software reuse
Chen et al. An Efficient ROS Package Searching Approach Powered By Knowledge Graph.
Beekhuizen et al. The linking problem is a special case of a general problem none of us has solved: Commentary on Ambridge, Pine, and Lieven
Yue Dynamic database design of sports quality based on genetic data algorithm and artificial intelligence
CN106796615A (zh) 使用自下而上方法的并行处理
CN117095825B (zh) 一种基于多实例学习的人体免疫状态预测方法
CN114330512B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
Vaesen et al. Modelling the truth of scientific beliefs with cultural evolutionary theory

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant