CN102135961B - 一种领域特征词确定方法和装置 - Google Patents

一种领域特征词确定方法和装置 Download PDF

Info

Publication number
CN102135961B
CN102135961B CN 201010100319 CN201010100319A CN102135961B CN 102135961 B CN102135961 B CN 102135961B CN 201010100319 CN201010100319 CN 201010100319 CN 201010100319 A CN201010100319 A CN 201010100319A CN 102135961 B CN102135961 B CN 102135961B
Authority
CN
China
Prior art keywords
field
feature words
domain feature
word
weights
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010100319
Other languages
English (en)
Other versions
CN102135961A (zh
Inventor
于亮
张宇峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Original Assignee
Beijing Kingsoft Software Co Ltd
Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Software Co Ltd, Beijing Jinshan Digital Entertainment Technology Co Ltd filed Critical Beijing Kingsoft Software Co Ltd
Priority to CN 201010100319 priority Critical patent/CN102135961B/zh
Publication of CN102135961A publication Critical patent/CN102135961A/zh
Application granted granted Critical
Publication of CN102135961B publication Critical patent/CN102135961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种领域特征词确定方法和装置。本发明实施例所提供的方案,预先通过参数确定阶段获取第一领域和第二领域的差异度阈值,而后,利用搜索引擎得到提取领域特征词的语料,从该语料中得到待确定领域特征词,分别计算待确定领域特征词在第一领域和第二领域的权值,分别根据权值进行排序,并根据权值位置的不同计算每个待确定领域特征词的差异度;将待确定领域特征词的差异度与差异度阈值进行比较,并结合权值位置信息,确定第一领域或者第二领域的领域特征词。本发明实施例所提供的方法,基于搜索引擎,利用统计的方法实现了领域特征词的自动提取,提高了获取领域特征词的效率和真实性。

Description

一种领域特征词确定方法和装置
技术领域
本发明涉及信息识别领域,尤其涉及一种领域特征词确定方法和装置。
背景技术
领域特征词是能够代表领域信息的关键词。领域词识别是构建知识库的基础。领域词识别需要对领域进行判定,而对领域进行判断通常是通过统计该领域经常出现的一些特征词来进行的。因此,领域特征词的获取对于领域词的识别非常重要。
目前,领域特征词一般都是专家通过手工获取,局限性比较大,效率也比较低。
发明内容
有鉴于此,本发明实施例的目的是提供一种领域特征词确定方法和装置,从而快速高效地获取领域特征词。
为实现上述目的,本发明实施例提供了如下技术方案:
一种领域特征词确定方法,包括:
分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎对每个领域词进行搜索,根据搜索结果获得待确定领域特征词集合;
分别结合第一领域和第二领域的搜索结果计算待确定领域特征词集合中的每个词语在第一领域中的第一权值和在第二领域的第二权值。
分别按照所述第一权值和第二权值对所述词语进行排序,统计待确定领域特征词集合中同一个词语在两个领域的权值位置信息,并根据所述位置信息计算每个词语在这两个领域的差异度;
将所述每个词语的差异度与预先获取的第一领域与第二领域的差异度阈值进行比较,根据比较结果得到第一领域或者第二领域的领域特征词。
通过如下方法预先获取的差异度阈值:
分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎对每个领域词进行搜索,根据搜索结果获得待确定领域特征词集合;
从待确定领域特征词集合中为第一领域和第二领域各选一定数量的参考领域特征词,所述参考领域特征词分别从预先设置的第一领域和第二领域参考领域特征词集合中选取;
分别结合第一领域和第二领域的搜索结果计算每个参考领域特征词的权值,并按照权值对参考领域特征词进行排序;
根据同一个参考领域特征词在两个领域的权值所处的不同位置计算每个参考领域特征词的位置差异度;
根据参考领域特征词的差异度确定第一领域和第二领域的差异度阈值。
所述利用搜索引擎对每个领域词进行搜索,根据搜索结果获得待确定领域特征词集合包括:
利用搜索引擎对每个领域词进行搜索,获取搜索结果,根据搜索结果得到待分析的页面;
利用抽取程序,抽取出每个待分析页面的正文部分;
对每个待分析页面的正文进行分词,统计分词后得到的词语,形成待确定领域特征词集合。
将所述差异度与预先获取的差异度阈值进行比较,从差异度阈值之上的词语中得到领域特征词包括:
将所述差异度与预先获取的差异度阈值进行比较,选取差异度在差异度阈值以上的待选领域特征词;
结合所述待选领域特征词的在第一领域和第二领域的权值位置信息,从待选领域特征词中确定第一领域或第二领域的领域特征词。
所述权值位置信息为所述按照待确定领域特征词在第一领域或者第二领域的权值在相应的领域进行排序后,所述待确定领域特征词所处的位置。
一种领域特征词确定装置,包括:
第一获取单元,用于分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎对每个领域词进行搜索,根据搜索结果获取待确定领域特征词集合;
第一计算单元,用于分别结合第一领域和第二领域的搜索结果计算待确定领域特征词集合中的每个词语在第一领域中的第一权值和在第二领域的第二权值。
第二计算单元,用于分别按照所述第一权值和第二权值对所述词语进行排序,统计待确定领域特征词集合中同一个词语在两个领域的权值位置信息,并根据所述位置信息计算每个词语在这两个领域的差异度;
差异度阈值获取单元,用于预先获取第一领域与第二领域的差异度阈值;
第二获取单元,用于将所述每个词语的差异度与预先获取的第一领域与第二领域的差异度阈值进行比较,根据比较结果得到第一领域或者第二领域的领域特征词。
所述差异度阈值获取单元包括:
第一获取子单元,用于分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎对每个领域词进行搜索,根据搜索结果获取待确定领域特征词集合;
第一选取子单元,用于从待确定领域特征词集合中为第一领域和第二领域各选一定数量的参考领域特征词,所述参考领域特征词分别从预先设置的第一领域和第二领域参考领域特征词集合中选取;
权值计算子单元,用于分别结合第一领域和第二领域的搜索结果计算每个参考领域特征词的权值,并按照权值对参考领域特征词进行排序;
差异度计算子单元,用于根据同一个参考领域特征词在两个领域的权值所处的不同位置计算每个参考领域特征词的位置差异度;
差异度阈值确定子单元,用于根据参考领域特征词的差异度确定第一领域和第二领域的差异度阈值。
所述第一获取单元包括:
第二选取子单元,用于分别选取预设数量的第一领域和第二领域两个领域的领域词;
搜索子单元,用于利用搜索引擎对每个领域词进行搜索,获取搜索结果,根据搜索结果得到待分析的页面;
抽取子单元,用于利用抽取程序,抽取出每个待分析页面的正文部分;
分词子单元,用于对每个待分析页面的正文进行分词,统计分词后得到的词语,形成待确定领域特征词集合。
所述第一获取子单元包括:
选取模块,用于分别选取预设数量的第一领域和第二领域两个领域的领域词;
搜索模块,用于利用搜索引擎对每个领域词进行搜索,获取搜索结果,根据搜索结果得到待分析的页面;
抽取模块,用于利用抽取程序,抽取出每个待分析页面的正文部分;
分词模块,用于对每个待分析页面的正文进行分词,统计分词后得到的词语,形成待确定领域特征词集合。
所述第二获取单元包括:
比较子单元,用于将所述差异度与预先获取的差异度阈值进行比较,选取差异度在差异度阈值以上的待选领域特征词;
第三选取子单元,结合所述待选领域特征词的在第一领域和第二领域的权值位置信息,从待选领域特征词中确定第一领域或第二领域的领域特征词。
可见,在本发明实施例中,预先通过参数确定阶段获取第一领域和第二领域的差异度阈值,而后,利用搜索引擎分别对第一领域和第二领域的领域词进行搜索,得到提取领域特征词的语料,从该语料中得到待确定领域特征词,分别计算待确定领域特征词在第一领域和第二领域的权值,分别根据待确定领域特征词的权值进行排序,并根据待确定领域特征词在两个领域权值位置的不同计算每个待确定领域特征词的差异度;将待确定领域特征词的差异度与第一领域和第二领域的差异度阈值进行比较,并结合每个待确定领域特征词在每个领域权值位置信息,即可确定第一领域或者第二领域的领域特征词。本发明实施例所提供的方法,基于搜索引擎,通过统计的方法实现了领域特征词的自动提取,提高了获取领域特征词的效率和真实性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例所提供的方法流程图;
图2为本发明另一实施例所提供的方法的流程图;
图3为本发明又一实施例所提供的方法的流程图;
图4为本发明一实施例所提供的装置的结构示意图;
图5为本发明一实施例所提供的装置的中一单元的结构示意图;
图6为本发明一实施例所提供的装置中又一单元的结构示意图;
图7为本发明又一实施例所提供的装置中一单元的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明实施例所提供的方法,主要利用同一词语在不同类别文本中贡献度的不同来寻找能够代表一领域的领域特征词。
参见图1,本发明一实施例所提供的一种领域特征词确定方法,包括:
S101、分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎对每个领域词进行搜索,根据搜索结果获得待确定领域特征词集合;
具体地,利用搜索引擎对每个领域词进行搜索,根据搜索结果获得待确定领域特征词集合可以包括:
利用搜索引擎对每个领域词进行搜索,获取搜索结果,根据搜索结果得到待分析的页面;
利用抽取程序,抽取出每个待分析页面的正文部分;
对每个待分析页面的正文进行分词,统计分词后得到的词语,形成待确定领域特征词集合。
该待确定领域特征词集合即将所有待分析页面的正文部分分词处理后,对得到的所有的词语进行统计,由分词后的所有词语组成的一个综合词表。
S102、分别结合第一领域和第二领域的搜索结果计算待确定领域特征词集合中的每个词语在第一领域中的第一权值和在第二领域的第二权值。
无论一个待确定领域特征词最初来源于第一领域还是来源于第二领域,在计算每个待确定领域特征词时,需要计算每个词语在两个领域的权值。
S103、分别按照所述第一权值和第二权值对所述词语进行排序,统计待确定领域特征词集合中同一个词语在两个领域的权值位置信息,并根据所述位置信息计算每个词语在这两个领域的差异度;
所述权值位置信息为所述按照待确定领域特征词在第一领域或者第二领域的权值在相应的领域进行排序后,所述待确定领域特征词所处的位置。
实际应用中,可以分别用A、B两个权值表分别记录每个词语在两个领域的权值。例如用权值表A来记录待确定领域特征词在第一领域的权值,用权值表B来记录待确定领域特征词在第二领域的权值。按照权值的大小分别对权值表A和权值表B中的词语进行排序,每个词语在权值表中的位置即为该词语的权值位置信息。
根据每个词语的权值大小进行排序时,可以从大到小排列,将权值大的词语排在前面,权值小的词语排在后面;当然也可以从小到大排列,将权值小的词语排在前面,权值大的词语排在后面,本发明对此不做限定。
S104、将所述每个词语的差异度与预先获取的第一领域与第二领域的差异度阈值进行比较,根据比较结果得到第一领域或者第二领域特征词。
一般情况下,同一个待确定领域特征词,其在第一领域和第二领域的差异度越大,越有可能是某一个领域的领域特征词。具体是哪一个领域的领域特征词,还需要结合其待确定领域特征词在第一领域或者第二领域的权值位置信息来判定。例如,如果一个待确定领域特征词在第一领域的权值很大,在权值排序表的位置很靠前(该权值排序表按照权值从大到小排序),并且其在两个领域的权值位置差异度很大,超过了差异度阈值的话,那么这个待确定领域词就很有可能是第一领域的领域特征词。
本发明实施例所提供的方法包括两个阶段,第一阶段为参数确定阶段;第二个阶段为领域特征词确定阶段。
在参数确定阶段,主要是要确定用来进行对比的第一领域和第二领域的差异度阈值。差异度阈值是本发明实施例所提供的方法中用来判定同一个词能够作为第一领域和第二领域的领域特征词的参考标准。
下面结合图2,以景点名和菜名为例,详细介绍第一领域和第二领域的差异度阈值的确定方法。
S201、选取景点名和菜名两个领域的领域词各100个,利用搜索引擎获取其对应的搜索结果,根据搜索结果得到待分析的页面共200个;
本发明实施例中,第一领域为景点名,第二领域为菜名。所选取的景点名的领域词可以是一些景点的名称,例如:“颐和园”、“圆明园”、“长城”等等。所选取的菜名的领域词可以是一些菜品的名称,例如:“回锅肉”、“香菇油菜”、“鱼香肉丝”等等。
当确定了第一领域和第二领域的领域词之后,将这些领域词作为搜索词,通过搜索引擎进行搜索,例如,可以利用搜索引擎搜索“鱼香肉丝”,得到与“鱼香肉丝”对应的待分析页面。本发明实施例中,共得到200个待分析的页面,分别与200个领域词对应。
S202、利用抽取程序,抽取出每个待分析页面的正文部分。
S203、对每个待分析页面的正文进行分词,统计分词后得到的词语,形成一个综合词表。
S204、从词表中为景点名和菜名各选10个参考领域特征词。
该综合词表即待确定领域特征词集合。在参数确定阶段,该综合词表的作用是用来与预设的参考领域特征词集合进行对照,从参考领域特征词集合中选取出现在综合词表中的参考领域特征词。
所述参考领域特征词是为了确定第一领域和第二领域的差异度阈值预先设置的。参考领域特征词可以是每个领域非常典型的领域特征词。仍然以景点名和菜名为例。对于景点名来说,该领域的典型的领域特征词可以是“门票”、“位于”、“始建于”等等。对于菜名来说,该领域的典型领域特征词可以是“原料”、“美食”、“菜谱”等等。这些典型的领域特征词一般与领域词伴随出现,出现的频率极高。
为了能够确定第一领域和第二领域的差异度,预先针对每个领域设置了参考领域特征词集合。参考领域特征词集合中的领域特征词都是非常典型的能够体现领域特征的词,一般都无需经过进一步的判定就能够确定它一般伴随出现的领域。
本发明实施例中,可以分别结合景点名和菜名的参考领域特征词集合,对照词表,分别为景点名和菜名选取10个参考领域特征词。
S205、分别结合景点名和菜名的待分析页面正文计算每个参考领域特征词的权值,并按照权值对参考领域特征词进行排序。
本发明实施例中,共选出20个参考领域特征词,其中,10个属于景点名领域,10个属于菜名领域。对每一个参考领域特征词,无论它是属于景点名领域,还是属于菜名领域,都分别结合景点名和菜名计算每个参考领域特征词在两个领域的权值。例如,对于属于景点名领域的“门票”这一参考领域特征词,结合景点名领域的待分析页面计算出其在景点名领域的权值为0.79;同样对于“门票”这一参考领域特征词,结合菜名领域的待分析页面计算出其在菜名领域的权值为0.08。
计算出每个参考领域特征词在两个领域的权值后,在每个领域,按照权值为这20个参考领域特征词进行排序。
S206、根据同一个参考领域特征词在两个领域的权值所处的不同位置计算每个参考领域特征词的位置差异度。
仍然以这20个参考领域特征词为例,如“门票”这一参考领域特征词,以其在景点名领域的权值进行排序,排在第3位;而以其在菜名领域的权值进行排序,排在第18位,位置差异度就是要体现出同一个词语在不同领域所处的位置的差异的参数。
计算位置差异度时,可以通过同一个词语在两个领域的位置之差与词语总数的商来计算,例如(18-3)/20=0.75来表示。实际应用中,差异度的算还可以通过其他的方式计算,并能体现出这种差异即可。
S207、根据参考领域特征词的差异度确定差异度阈值。
对于本发明实施例中的20参考领域特征词,计算出每个参考领域特征词的差异度之后,对这20个参考领域特征词的差异度进行统计,如果有80%(即16个)的参考领域特征词的差异度的是在0.5以上,则可以将差异度阈值确定为0.5。当然,两个领域的差异度阈值实际上可以根据实际情况来确定,例如在另一实施例中,当然也可以根据有70%的参考特征领域词的差异度是在0.6以上,而将差异度阈值确定为0.6,本发明实施例所提供的方法不限定差异度阈值的具体值,只要能够体现出两个领域的差异即可。
进一步地,在确定了第一领域和第二领域的差异度阈值之后,还可以根据这些参考领域特征词在两个领域中的权值位置,确定相对位置阈值,比如,在景点名领域内,将综合词表中的所有词语按照权值从大到小进行排序,景点名领域中选取的10个参考领域特征词都排在前15位,则可以选取15作为位置阈值。那么,如果一个词语,在景点名和菜名领域的差异度大于这两个领域的差异度阈值,并且在景点名领域内按照权值排序,也位于前15位,那么就可以确定该词语为景点名领域的领域特征词。至此完成了第一阶段的工作,确定了第一领域和第二领域的差异度阈值,下面结合图3,说明如何利用差异度阈值确定属于第一领域或者第二领域的领域特征词。
S301、分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎获取其对应的搜索结果,根据搜索结果得到待分析的页面。
步骤S301与步骤S201类似,实际上是通过搜索引擎对第一领域(如景点名领域)和第二领域(如菜名领域)的领域词进行搜索,得到获取领域特征词的语料:待分析页面。
优选地,在第一领域和第二领域预设的领域词预设相同数量的领域词。
S302、利用抽取程序,抽取出每个待分析页面的正文部分。
S303、对每个待分析页面的正文进行分词,统计分词后得到的词语,形成一个综合词表。
该综合词表即待确定领域特征词集合。最终获得的领域特征词均来自综合词表。
S304、分别结合第一领域和第二领域的待分析页面正文计算综合词表中的每个词语在第一领域中的第一权值和在第二领域的第二权值。
S305、分别按照综合词表中每个词语的第一权值和第二权值对所述词语进行排序。
S306、统计综合词表中同一个词语在两个领域的权值位置信息,并根据所述位置信息计算每个词语在这两个领域的差异度。
S307、将所述差异度与预先获取的差异度阈值进行比较,从差异度阈值之上的词语中得到领域特征词。
在得到综合词表中每个词语在第一领域和第二领域的差异度之后,选取参数确定阶段得到的差异度阈值(例如,参数确定阶段,确定的差异度阈值为0.5)以上的词,并按照每个词在两个权值列表中的权值大小排序,结合位置阈值,得到领域特征词。比如:在综合词表中,差异度在0.5以上的词总共有25个,其中,有7个排在景点名领域的权值列表的前15(位置阈值)个,则选取这7个作为景点名领域的关键词。
本发明实施例所提供的方法不限定具体的权值计算方法和差异度计算方法,但是需要说明的是,确定领域特征值阶段所使用的权值计算方法和差异度计算方法需要与确定差异度阈值时所使用的权值计算方法以及差异度计算方法相同,只有这样才能保证根据预先确定的差异度阈值来选出的领域特征词是有效的。
本发明实施例所提供的方法,预先通过参数确定阶段获取第一领域和第二领域的差异度阈值,而后,利用搜索引擎分别对第一领域和第二领域的领域词进行搜索,得到提取领域特征词的语料,从该语料中得到待确定领域特征词,分别计算待确定领域特征词在第一领域和第二领域的权值,分别根据待确定领域特征词的权值进行排序,并根据待确定领域特征词在两个领域权值位置的不同计算每个待确定领域特征词的差异度;将待确定领域特征词的差异度与第一领域和第二领域的差异度阈值进行比较,并结合每个待确定领域特征词在每个领域权值位置信息,即可确定第一领域或者第二领域的领域特征词。本发明实施例所提供的方法,通过基于搜索引擎,通过统计的方法实现了领域特征词的自动提取,提高了获取领域特征词的效率和真实性。
参见图4,本发明一实施例还提供一种领域特征词确定装置,包括:
第一获取单元401,用于分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎对每个领域词进行搜索,根据搜索结果获取待确定领域特征词集合;
第一计算单元402,用于分别结合第一领域和第二领域的搜索结果计算待确定领域特征词集合中的每个词语在第一领域中的第一权值和在第二领域的第二权值。
第二计算单元403,用于分别按照所述第一权值和第二权值对所述词语进行排序,统计待确定领域特征词集合中同一个词语在两个领域的权值位置信息,并根据所述位置信息计算每个词语在这两个领域的差异度;
差异度阈值获取单元404,用于预先获取第一领域与第二领域的差异度阈值;
第二获取单元405,用于将所述每个词语的差异度与预先获取的第一领域与第二领域的差异度阈值进行比较,根据比较结果得到第一领域或者第二领域的领域特征词。
进一步地,参见图5,所述差异度阈值获取单元404包括:
第一获取子单元501,用于分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎对每个领域词进行搜索,根据搜索结果获取待确定领域特征词集合;
第一选取子单元502,用于从待确定领域特征词集合中为第一领域和第二领域各选一定数量的参考领域特征词,所述参考领域特征词分别从预先设置的第一领域和第二领域参考领域特征词集合中选取;
权值计算子单元503,用于分别结合第一领域和第二领域的搜索结果计算每个参考领域特征词的权值,并按照权值对参考领域特征词进行排序;
差异度计算子单元504,用于根据同一个参考领域特征词在两个领域的权值所处的不同位置计算每个参考领域特征词的位置差异度;
差异度阈值确定子单元505,用于根据参考领域特征词的差异度确定第一领域和第二领域的差异度阈值。
进一步地,所述第一获取子单元501包括:
选取模块,用于分别选取预设数量的第一领域和第二领域两个领域的领域词;
搜索模块,用于利用搜索引擎对每个领域词进行搜索,获取搜索结果,根据搜索结果得到待分析的页面;
抽取模块,用于利用抽取程序,抽取出每个待分析页面的正文部分;
分词模块,用于对每个待分析页面的正文进行分词,统计分词后得到的词语,形成待确定领域特征词集合。
参见图6,在本发明另一实施例中,图4所示的所述第一获取单元401可以包括:
第二选取子单元601,用于分别选取预设数量的第一领域和第二领域两个领域的领域词;
搜索子单元602,用于利用搜索引擎对每个领域词进行搜索,获取搜索结果,根据搜索结果得到待分析的页面;
抽取子单元603,用于利用抽取程序,抽取出每个待分析页面的正文部分;
分词子单元604,用于对每个待分析页面的正文进行分词,统计分词后得到的词语,形成待确定领域特征词集合。
可选地,参见图7,所述第二获取单元405包括:
比较子单元701,用于将所述差异度与预先获取的差异度阈值进行比较,选取差异度在差异度阈值以上的待选领域特征词;
第三选取子单元702,结合所述待选领域特征词的在第一领域和第二领域的权值位置信息,从待选领域特征词中确定第一领域或第二领域的领域特征词。
本发明实施例所提供的装置,预先通过参数确定阶段获取第一领域和第二领域的差异度阈值,而后,利用搜索引擎分别对第一领域和第二领域的领域词进行搜索,得到提取领域特征词的语料,从该语料中得到待确定领域特征词,分别计算待确定领域特征词在第一领域和第二领域的权值,分别根据待确定领域特征词的权值进行排序,并根据待确定领域特征词在两个领域权值位置的不同计算每个待确定领域特征词的差异度;将待确定领域特征词的差异度与第一领域和第二领域的差异度阈值进行比较,并结合每个待确定领域特征词在每个领域权值位置信息,即可确定第一领域或者第二领域的领域特征词。本发明实施例所提供的装置,基于搜索引擎实现,通过统计的方法实现了领域特征词的自动提取,提高了获取领域特征词的效率和真实性。
为了描述的方便,本发明实施例在描述装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发明有许多变形和变化而不脱离本发明的精神,希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。

Claims (7)

1.一种领域特征词确定方法,其特征在于,包括:
分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎对每个领域词进行搜索,根据搜索结果获得待确定领域特征词集合;
分别结合第一领域和第二领域的搜索结果计算待确定领域特征词集合中的每个词语在第一领域中的第一权值和在第二领域的第二权值;
分别按照所述第一权值和第二权值对所述词语进行排序,统计待确定领域特征词集合中同一个词语在两个领域的权值位置信息,并根据所述位置信息计算每个词语在这两个领域的差异度;
从待确定领域特征词集合中为第一领域和第二领域各选一定数量的参考领域特征词,所述参考领域特征词分别从预先设置的第一领域和第二领域参考领域特征词集合中选取;
分别结合第一领域和第二领域的搜索结果计算每个参考领域特征词的权值,并按照权值对参考领域特征词进行排序;
根据同一个参考领域特征词在两个领域的权值所处的不同位置计算每个参考领域特征词的位置差异度;
根据参考领域特征词的差异度确定第一领域和第二领域的差异度阈值;
将所述每个词语的差异度与第一领域与第二领域的差异度阈值进行比较,根据比较结果得到第一领域或者第二领域的领域特征词。
2.根据权利要求1所述的方法,其特征在于,所述利用搜索引擎对每个领域词进行搜索,根据搜索结果获得待确定领域特征词集合包括:
利用搜索引擎对每个领域词进行搜索,获取搜索结果,根据搜索结果得到待分析的页面;
利用抽取程序,抽取出每个待分析页面的正文部分;
对每个待分析页面的正文进行分词,统计分词后得到的词语,形成待确定领域特征词集合。
3.根据权利要求1所述的方法,其特征在于,将所述每个词语的差异度与第一领域与第二领域的差异度阈值进行比较,根据比较结果得到第一领域或者第二领域的领域特征词包括:
将所述差异度与预先获取的差异度阈值进行比较,选取差异度在差异度阈值以上的待选领域特征词;
结合所述待选领域特征词的在第一领域和第二领域的权值位置信息,从待选领域特征词中确定第一领域或第二领域的领域特征词。
4.根据权利要求1~3任意一项所述的方法,其特征在于,所述权值位置信息为按照待确定领域特征词在第一领域或者第二领域的权值在相应的领域进行排序后,所述待确定领域特征词所处的位置。
5.一种领域特征词确定装置,其特征在于,包括:
第一获取单元,用于分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎对每个领域词进行搜索,根据搜索结果获取待确定领域特征词集合;
第一计算单元,用于分别结合第一领域和第二领域的搜索结果计算待确定领域特征词集合中的每个词语在第一领域中的第一权值和在第二领域的第二权值;
第二计算单元,用于分别按照所述第一权值和第二权值对所述词语进行排序,统计待确定领域特征词集合中同一个词语在两个领域的权值位置信息,并根据所述位置信息计算每个词语在这两个领域的差异度;
差异度阈值获取单元,用于预先获取第一领域与第二领域的差异度阈值;
第一选取子单元,用于从待确定领域特征词集合中为第一领域和第二领域各选一定数量的参考领域特征词,所述参考领域特征词分别从预先设置的第一领域和第二领域参考领域特征词集合中选取;
权值计算子单元,用于分别结合第一领域和第二领域的搜索结果计算每个参考领域特征词的权值,并按照权值对参考领域特征词进行排序;
差异度计算子单元,用于根据同一个参考领域特征词在两个领域的权值所处的不同位置计算每个参考领域特征词的位置差异度;
差异度阈值确定子单元,用于根据参考领域特征词的差异度确定第一领域和第二领域的差异度阈值;
第二获取单元,用于将所述每个词语的差异度与第一领域与第二领域的差异度阈值进行比较,根据比较结果得到第一领域或者第二领域的领域特征词。
6.根据权利要求5所述的装置,其特征在于,所述第一获取单元包括:
第二选取子单元,用于分别选取预设数量的第一领域和第二领域两个领域的领域词;
搜索子单元,用于利用搜索引擎对每个领域词进行搜索,获取搜索结果,根据搜索结果得到待分析的页面;
抽取子单元,用于利用抽取程序,抽取出每个待分析页面的正文部分;
分词子单元,用于对每个待分析页面的正文进行分词,统计分词后得到的词语,形成待确定领域特征词集合。
7.根据权利要求5所述的装置,其特征在于,所述第二获取单元包括:
比较子单元,用于将所述差异度与预先获取的差异度阈值进行比较,选取差异度在差异度阈值以上的待选领域特征词;
第三选取子单元,结合所述待选领域特征词的在第一领域和第二领域的权值位置信息,从待选领域特征词中确定第一领域或第二领域的领域特征词。
CN 201010100319 2010-01-22 2010-01-22 一种领域特征词确定方法和装置 Active CN102135961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010100319 CN102135961B (zh) 2010-01-22 2010-01-22 一种领域特征词确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010100319 CN102135961B (zh) 2010-01-22 2010-01-22 一种领域特征词确定方法和装置

Publications (2)

Publication Number Publication Date
CN102135961A CN102135961A (zh) 2011-07-27
CN102135961B true CN102135961B (zh) 2013-03-20

Family

ID=44295749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010100319 Active CN102135961B (zh) 2010-01-22 2010-01-22 一种领域特征词确定方法和装置

Country Status (1)

Country Link
CN (1) CN102135961B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258053B (zh) * 2013-05-31 2018-01-26 深圳市宜搜科技发展有限公司 一种领域特征词的提取方法及系统
CN104239500B (zh) * 2014-09-10 2017-10-27 百度在线网络技术(北京)有限公司 保健食品关联知识库构建方法和装置
CN106709824B (zh) * 2016-12-15 2020-07-28 华南理工大学 一种基于网络文本语义分析的建筑评价方法
CN110502628A (zh) * 2019-08-26 2019-11-26 北京百度网讯科技有限公司 意图词的生成方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936887A (zh) * 2005-09-22 2007-03-28 国家计算机网络与信息安全管理中心 基于类别概念空间的自动文本分类方法
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936887A (zh) * 2005-09-22 2007-03-28 国家计算机网络与信息安全管理中心 基于类别概念空间的自动文本分类方法
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法

Also Published As

Publication number Publication date
CN102135961A (zh) 2011-07-27

Similar Documents

Publication Publication Date Title
CN102402619B (zh) 一种搜索方法和装置
CN102063469B (zh) 一种用于获取相关关键词信息的方法、装置和计算机设备
CN102012900A (zh) 信息检索方法和系统
CN104143001A (zh) 搜索词推荐方法及装置
CN103076892A (zh) 一种用于提供输入字符串所对应的输入候选项的方法与设备
CN102360358A (zh) 关键词推荐方法及系统
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN101788988B (zh) 信息抓取方法
CN102135961B (zh) 一种领域特征词确定方法和装置
CN103902597A (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
CN106897290B (zh) 一种建立关键词模型的方法及装置
CN105426759A (zh) Url的合法性识别方法及装置
US20180210897A1 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN103838754A (zh) 信息搜索装置及方法
CN102567290A (zh) 用于对待处理的短文本信息进行扩展的方法、装置和设备
CN103744887A (zh) 一种用于人物搜索的方法、装置和计算机设备
CN104361092A (zh) 搜索方法及装置
CN104915422A (zh) 基于浏览器的网页收藏方法和装置
CN105653548A (zh) 一种电子文档页面类型识别方法和系统
CN104679731A (zh) 提取页面中关键词的方法及装置
CN103810300A (zh) 用于非索引覆盖的数据查询方法和装置
CN106934679A (zh) 信息匹配方法及装置
CN106919593B (zh) 一种搜索的方法和装置
CN104408036A (zh) 关联话题的识别方法和装置
CN104462439A (zh) 事件的识别方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BEIJING KINGSOFT OFFICE SOFTWARE CO., LTD.

Free format text: FORMER OWNER: BEIJING JINSHAN SOFTWARE CO., LTD.

Effective date: 20140312

Free format text: FORMER OWNER: BEIJING JINSHAN DIGITAL ENTERTAINMENT SCIENCE AND TECHNOLOGY CO., LTD.

Effective date: 20140312

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140312

Address after: Kingsoft No. 33 building, 100085 Beijing city Haidian District Xiaoying Road

Patentee after: Beijing Kingsoft WPS Office Co., Ltd.

Address before: Kingsoft 33 Building No. 100085 Beijing Haidian District City 1 Xiaoying Road West

Patentee before: Beijing Jinshan Software Co., Ltd.

Patentee before: Beijing Jinshan Digital Entertainment Science and Technology Co., Ltd.

C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Kingsoft No. 33 building, 100085 Beijing city Haidian District Xiaoying Road

Patentee after: Beijing Kingsoft office software Limited by Share Ltd

Address before: Kingsoft No. 33 building, 100085 Beijing city Haidian District Xiaoying Road

Patentee before: Beijing Kingsoft WPS Office Co., Ltd.