CN103823847A - 一种关键词的扩充方法及装置 - Google Patents

一种关键词的扩充方法及装置 Download PDF

Info

Publication number
CN103823847A
CN103823847A CN201410042385.8A CN201410042385A CN103823847A CN 103823847 A CN103823847 A CN 103823847A CN 201410042385 A CN201410042385 A CN 201410042385A CN 103823847 A CN103823847 A CN 103823847A
Authority
CN
China
Prior art keywords
keyword
category
webpage
sample
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410042385.8A
Other languages
English (en)
Inventor
李鹏
罗峰
黄苏支
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IZP (BEIJING) TECHNOLOGIES Co Ltd
Original Assignee
IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IZP (BEIJING) TECHNOLOGIES Co Ltd filed Critical IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority to CN201410042385.8A priority Critical patent/CN103823847A/zh
Publication of CN103823847A publication Critical patent/CN103823847A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Abstract

本申请提供了一种关键词的扩充方法及装置,其中的方法具体包括:获取网页样本及对应的关键词;依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别;对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益;选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。本申请能够针对某一特定范畴进行关键词的扩充,得到具有确定性的扩充结果。

Description

一种关键词的扩充方法及装置
技术领域
本申请涉及互联网技术领域,特别是涉及一种关键词的扩充方法及装置。
背景技术
目前,随着互联网技术的发展,关键词技术在互联网领域的应用也变得愈加广泛,例如其可以应用于互联网营销、搜索引擎的优化排名等各种互联网领域。
以应用于互联网营销领域为例,如果能找到某一范畴内的关键词,就能在互联网上锁定对该范畴感兴趣的用户,从而可以针对锁定的用户进行精准营销。而关键词的扩充就是用于找到某一范畴内的关键词。例如,广告公司需要将某皮肤病的广告投放给互联网上特定的用户,为了锁定欲投放的特定用户,需要针对“皮肤病”这一范畴进行关键词的扩充,例如,扩充结果具体可以包括:“溢脂性皮炎、疥疮、脚气、手足癣”等关键词,当有用户在搜索引擎上搜索这些关键词时,可以认定该用户对“皮肤病”感兴趣,于是可以针对该用户投放上述皮肤病的广告。
现有关键词的扩充方法主要包括主题模型算法、simrank算法等。其中,主题模型的本质是一种基于文本概率建立的模型,给该模型一堆文档,并指定一个参数K,该模型会输出K组词,其中每组内的词为相似的、用于描述相同事物的词语,K越大,每一组词的数量就越大;simrank算法输出的结果包括一个词和一组跟该词相关的词。然而,主题模型算法、simrank算法均是无监督机器学习算法,其无法给出某组词所属的类别,因此不能针对某一特定范畴进行关键词的扩充,也即其扩充结果具有不确定性。
发明内容
本申请所要解决的技术问题是提供一种关键词的扩充方法及装置,能够针对某一特定范畴进行关键词的扩充,得到具有确定性的扩充结果。
为了解决上述问题,本申请公开了一种关键词的扩充方法,包括:
获取网页样本及对应的关键词;
依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别;
对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益;
选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。
优选的,所述对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益的步骤,包括:
分别统计所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目;
依据所述所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目,分别计算每个关键词在分类前后的信息熵;
以每个关键词在分类前后的信息熵的差值作为所述每个关键词的信息增益。
优选的,所述选取信息增益最大的若干关键词作为扩充得到的范畴内关键词的步骤,包括:
依据信息增益对所有关键词进行排序,并依据排序结果选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。
优选的,所述依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别的步骤,包括:
针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数是否达到预设次数,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别;或者
针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数相对于该网页样本所有关键词的数目的比例是否达到预设比例,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别。
优选的,所述获取网页样本及对应的关键词的步骤,包括:
通过网页爬虫在互联网上抓取网页和网页内容,对网页内容进行分析并依据分析结果提取相应的关键词;和/或
从运营商的流量中提取搜索结果跳转网页及对应的关键词;和/或
从搜索引擎服务器记录的搜索行为数据中提取搜索结果跳转网页及对应的关键词。
优选的,所述方法还包括:返回执行所述依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别的步骤;
所述依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别的步骤为,依据本次扩充前的范畴内已知关键词和本次扩充得到的范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别。
另一方面,本申请还公开了一种关键词的扩充装置,包括:
获取模块,用于获取网页样本及对应的关键词;
分类模块,用于依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别;
统计模块,用于对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益;及
选取模块,用于选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。
优选的,所述统计模块包括:
数目统计子模块,用于分别统计所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目;
信息熵计算子模块,用于依据所述所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目,分别计算每个关键词在分类前后的信息熵;及
差值计算子模块,用于以每个关键词在分类前后的信息熵的差值作为所述每个关键词的信息增益。
优选的,所述选取模块,具体用于依据信息增益对所有关键词进行排序,并依据排序结果选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。
优选的,所述分类模块包括:
第一分类子模块,用于针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数是否达到预设次数,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别;或者
第二分类子模块,用于针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数相对于该网页样本所有关键词的数目的比例是否达到预设比例,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别。
与现有技术相比,本申请具有以下优点:
本申请依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别,对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益,并选取信息增益最大的若干关键词作为扩充得到的范畴内关键词;
一方面,由于依据范畴内已知关键词进行关键词的扩充,相当于引导计算机针对该范畴进行扩词,故能够得到具有确定性的扩充结果;
另一方面,关键词的信息增益可用于衡量关键词分类能力的强弱,本申请选取的信息增益最大的若干关键词为网页中分类能力最强的关键词,而本申请实施例中,网页分类的目的是将网页分类为范畴类别或非范畴类别,因此,网页中分类能力最强的关键词也即为与范畴相关度最高的关键词;
总之,本申请能够针对特定范畴,从众多网页样本中选取出与该特定范畴相关度最高的关键词,相对于现有技术,能够针对某一特定范畴进行关键词的扩充,得到更具有确定性的扩充结果。
附图说明
图1是本申请一种关键词的扩充方法实施例1的流程图;
图2是本申请实施例一种对分类前后的网页样本进行统计的流程示例;
图3是本申请一种关键词的扩充方法实施例2的流程图;
图4是本申请一种关键词的扩充装置实施例的结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请一种关键词的扩充方法实施例1的流程图,具体可以包括:
步骤101、获取网页样本及对应的关键词;
本申请实施例可以针对各种特定范畴进行关键词的扩充,以将扩充得到关键词应用于互联网营销、搜索引擎的优化排名等各种互联网领域。
以应用于互联网营销领域为例,如果广告公司需要将某皮肤病的广告投放给互联网上特定的用户,为了锁定欲投放的特定用户,那么需要针对“皮肤病”这一范畴进行关键词的扩充;如果广告公司需要将银行理财广告投放给互联网上特定的用户,那么需要针对“金融理财”这一范畴进行关键词的扩充。
本申请可以提供如下获取网页样本及对应的关键词的技术方案:
技术方案A1
技术方案A1可以通过网页爬虫在互联网上抓取网页和网页内容,对网页内容进行分析并依据分析结果提取相应的关键词。
在实际应用中,可以选择与特定范畴相关的网站进行抓取,并且,可以首先对所抓取网页对应的网页正文进行分析,这里的网页正文具体可以包括去掉广告等多余信息的网页内容;然后依据网页正文对应的分析结果,提取所述网页正文中的特征内容;所述特征内容具体可以包括:标题、子标题、表格、摘要和加粗文字中的一项或多项;最后从所提取的特征内容中提取相应的关键词。
技术方案A2
技术方案A2可以从运营商的流量中提取搜索结果跳转网页及对应的关键词。
通常情况下用户在搜索引擎下搜索某个关键词并点击相应搜索结果以访问对应跳转网页的时候,会产生相关的网络报文,而这些网络报文会被携带在电信、联通等运营商的流量中;故技术方案A2可以通过分析这些网络报文以提取搜索结果跳转网页及对应的关键词。
技术方案A3
技术方案A3可以从搜索引擎服务器记录的搜索行为数据中提取搜索结果跳转网页及对应的关键词。
搜索引擎服务器记录的搜索行为数据中通常会包括用户在搜索引擎下搜索某个关键词并点击相应搜索结果以访问对应跳转网页的相应数据,故技术方案A3可以通过分析这些搜索行为数据以提取搜索结果跳转网页及对应的关键词。
在具体实施中,本领域技术人员可以根据实际需要,采用所述技术方案A1-A3中的一种或多种,或者,可以根据实际需求采用其它技术方案以获取网页样本及对应的关键词,如人工收集等等,本申请实施例对具体的获取网页样本及对应的关键词的方案不加以限制。
在实际应用中,可以方便维护和运算,可以依据所获取的网页样本及对应的关键词建立语料库,该语料库可以理解为所获取的网页样本及对应的关键词的集合。
在此提供一种语料库中每个网页样本及对应的关键词的存储格式示例:url(大分隔符)query1(小分隔符)frequent1(中分隔符)query2(小分隔符)frequent2(中分隔符)query3(小分隔符)frequent3(中分隔符)……,其中,url用于表示网页样本的统一资源定位符(Uniform Resource Locator),query1、query2、query3分别表示该网页样本对应的关键词,frequent1、frequent2、frequent3分别表示query1、query2、query3在该网页样本中出现的次数。
在此提供一种采用上述存储格式存储的某网页样本的信息的示例:http://www.haodf.com/jibing/pifubing/daifu.htm(\x01)湿疹(\x03)23(\x02)银屑病(\x03)32(\x02)痤疮(\x03)11;在实际中,可以在语料库对应的数据仓库中存放上千万行这样的信息。
步骤102、依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别;
本申请实施例针对特定范畴进行关键词的扩充,故需要给出一些范畴内已知关键词,在实际中可以通过各种方式获取所述范畴内已知关键词,在此给出一些获取所述范畴内已知关键词的示例:
方式一:人工获取;
方式二:首先采用现有的主题模型、simrank等算法收集一些相似的关键词,然后通过人工方式从所收集的关键词中筛选出所述范畴内已知关键词。
在具体实现中,所述依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别的步骤,具体可以包括:
子步骤B1、针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数是否达到预设次数,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别;或者
子步骤B2、针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数相对于该网页样本所有关键词的数目的比例是否达到预设比例,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别。
其中,本领域技术人员可以根据实际需求采用所述子步骤B1和子步骤B2中的任一;所述子步骤B1中的预设次数可以为一次、两次、三次、四次等;所述子步骤B2中的预设比例可以为1/4等数值,例如,某个url后面有8个关键词,那么所述范畴内已知关键词在该url对应网页中出现两次及两次以上就可以将该网页分类为范畴类别。总之,本领域技术人员可以灵活地利用范畴内已知关键词在所述网页样本的关键词中的出现频率对所述网页样本进行分类。
在本申请的一种应用示例中,可以对分类结果进行机器标注,例如,可以将范畴类别的网页样本标注为Y,同时将非范畴类别的网页样本标注为N等等。
由于较长的关键词在语料库中出现的频率过低,而且包含的语义过于丰富,不利于语料库中网页样本的分类,故在本申请的一种优选实施例中,在依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别的步骤之前,还可以首先对所有网页样本的关键词进行分词的步骤。
步骤103、对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益;
步骤104、选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。
本申请实施例在基于信息论知识进行关键词的扩充的过程中,可以将每个网页样本看作一个对象,将每个网页样本对应的每个关键词看作对象的属性。
由于步骤101获取了众多网页样本对象的集合,有的网页样本对象属于范畴类别,有的网页样本对象不属于范畴类别,也即,网页样本对象的集合在分类前是混乱的故需要较多的信息熵去描述,故需要依据网页样本的关键词属性进行分类。
而每个网页样本具有对应的至少一个关键词,这导致网页样本对象的集合中包括多个关键词,依据其中哪个关键词分类后导致对象的混乱度变得最小需要最少的信息熵去描述,则说明该关键词的分类能力最强。
在信息增益中,衡量标准是看属性能够为分类系统带来多少信息,带来的信息越多,该属性越重要,则该属性的分类能力越强;因此,本申请选取的信息增益最大的若干关键词为网页中分类能力最强的关键词。而本申请实施例中,网页分类的目的是将网页分类为范畴类别或非范畴类别,因此,网页中分类能力最强的关键词也即为与范畴相关度最高的关键词。总之,本申请能够针对特定范畴,从众多网页样本中选取出与该特定范畴相关度最高的关键词,相对于现有技术,能够针对某一特定范畴进行关键词的扩充,得到更具有确定性的扩充结果。
需要说明的是,已有技术中也存在计算信息增益的方案,然而已有技术中计算信息增益需要对对象集合进行人工分类,而本申请实施例中创造性地依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本自动分类为范畴类别或者非范畴类别,而所述网页样本和对应的关键词可以反映广大网民的上网行为,例如,用户在存在“如何治疗感冒”的信息需求时,会在搜索引擎的搜索框中输入“感冒”关键词进行搜索,搜索引擎会提供众多网页对应的搜索结果,如果用户点击了其中某网页,那么该网页及对应的关键词都会被收集到步骤101中,例如可以形成一条“url+query(query是关键词“感冒”,url是点击的网页,中间是分隔符)”的数据记录,该数据记录可以相当于搜索引擎和网民共同标记了该网页就是“感冒”有关的网页,本申请实施例正是利用众多的上述数据记录中的范畴内已知关键词对网页样本集合进行自动分类的。
在本申请的一种优选实施例中,所述对分类前后的网页样本进行统计,得到每个关键词的信息增益的步骤,具体可以包括:
子步骤C1、分别统计所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目;
参照图2,给出了本申请实施例一种对分类前后的网页样本进行统计的流程示例,该示例涉及语料库中存放有T个网页样本,其中每个网页样本的信息具体可以包括:url+query,其中,query可用于表示该url对应的至少一个关键词,其中,不同网页样本对应关键词的数目可以相同可以不同,且不同网页样本对应关键词可以相同可以不同,在实际中可针对所有网页样本中关键词进行统计,为方便起见,本文采用queryi表示所有网页样本中的第i个关键词;
图2所述示例中还依据分类结果对语料库中的T个网页样本进行了机器标注,其中,将范畴类别的网页样本标注为Y,将非范畴类别的网页样本标注为N,经统计可知,标注为Y的网页样本的数目为M,标注为N的网页样本的数目为T-M;
进一步,图2所述示例中还统计了queryi对应所有网页样本的数目Ni,也即T个网页样本中有Ni个网页样本包括有queryi,图2所述示例中还统计了queryi对应范畴类别网页样本的数目ni,也即,M个网页样本中有ni个网页样本包括有queryi.。
子步骤C2、依据所述所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目,分别计算每个关键词在分类前后的信息熵;
子步骤C3、以每个关键词在分类前后的信息熵的差值作为所述每个关键词的信息增益。
在具体实现中,本领域技术人员可以采用信息熵、基尼系数或者卡方检验等信息度量方法计算得到上述信息增益。
其中,信息熵是信息论中量度信息多少的一个物理量,它从量上反映具有确定概率的事件发生时所传递的信息,具体到本申请实施例,每个关键词的信息熵则用于表示属性能够为网页样本这个对象带来的信息。
换个说法,信息熵可用于表示对象集合所携带的信息量,也可以认为是对象集合的混乱度。网页样本对象的集合中包括多个关键词,依据其中哪个关键词分类后导致对象的混乱度变得最小则说明该关键词具有最强的分类能力,故在实际应用中,可以每个关键词在分类前后的信息熵的差值作为所述每个关键词的信息增益。
由于本申请涉及网页样本对象的两类分类,两类分类的信息熵公式可以为:
InfoQ(p)=-plog2(p)-(1-p)log2(1-p)    (1)
其中,p表示网页样本对象属于范畴类别的概率;
在使用公式(1)计算关键词query在分类前的信息熵时,p可以表示为M/T,故公式(1)可以表示为:
Inf o Q ( Query ) = Inf o Q ( M T ) - - - ( 2 )
在分类后,可以针对每个关键词queryi进行分类后的信息熵的计算,相应的计算公式可以表示为:
Inf o Q ( Query i ) = N i T × Inf o Q ( n i N i ) + T - N i T × Inf o Q ( M - n i T - N i ) - - - ( 3 )
每个关键词queryi在分类前后的信息熵的差值可以表示为:
Gain(Queryi)=InfoQ(Query)-InfoQ(Queryi)     (4)
对于基尼系数而言,也可以分别计算每个关键词在分类前后的基尼系数,并以二者的差值作为相应关键词的信息增益,由于基尼系数和卡方检验的原理与信息熵的原理类似,故在此不作赘述,相互参照即可。
在实际中,可以依据信息增益对所有关键词进行排序,然后依据排序结果选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。其中,需要选取的关键词的数量可由本领域技术人员依据范畴的实际情况来确定,例如,有些范畴的关键词比较多,故需要选取较多的关键词,而有些范畴的关键词比较少,故需要选取较少的关键词,等等。
综上,本申请实施例依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别,对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益,并选取信息增益最大的若干关键词作为扩充得到的范畴内关键词;一方面由于依据范畴内已知关键词进行关键词的扩充,相当于引导计算机针对该范畴进行扩词,故能够得到具有确定性的扩充结果;另一方面,关键词的信息增益可用于衡量关键词分类能力的强弱,本申请选取的信息增益最大的若干关键词为网页中分类能力最强的关键词,而本申请实施例中,网页分类的目的是将网页分类为范畴类别或非范畴类别,因此,网页中分类能力最强的关键词也即为与范畴相关度最高的关键词;总之,本申请能够针对特定范畴,从众多网页样本中选取出与该特定范畴相关度最高的关键词,相对于现有技术,能够针对某一特定范畴进行关键词的扩充,得到更具有确定性的扩充结果。
以特定范畴“皮肤病”为例,假设范畴内已知关键词为“皮炎”,故可以首先将数据记录中包含关键词“皮炎”的网页样本分类为范畴类别,以及将数据记录中不包含关键词“皮炎”的网页样本分类为非范畴类别,然后对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益,最后信息增益最大的若干关键词作为扩充得到的范畴内关键词,如“湿疹”、“银屑病”、“痤疮”等,达到关键词的扩充目的。
对于扩充得到的范畴内的关键词,如果将其应用于互联网营销领域,则可以根据范畴内的关键词在互联网上定位到对该范畴感兴趣的用户,并针对所定位的用户投放该范畴的广告;其中在定位时考虑的因素具体可以包括如下因素中的一种或多种:用户是否搜索或者点击范畴内的关键词,用户点击或搜索的总数和频率等等。
如果将范畴内的关键词应用于搜索引擎的优化排名领域,则网站运营商可以针对这些范畴内的关键词在搜索引擎上进行竞价排名。
参照图3,示出了本申请一种关键词的扩充方法实施例2的流程图,具体可以包括:
步骤301、获取网页样本及对应的关键词;
步骤302、依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别;
步骤303、对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益;
步骤304、选取信息增益最大的若干关键词作为扩充得到的范畴内关键词;
步骤305、将本次扩充得到的范畴内关键词传递给步骤302并返回执行步骤302,由步骤302依据本次扩充前的范畴内已知关键词和本次扩充得到的范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别。
相对于实施例1,实施例2可以针对特定范畴进行多次关键词的扩充,具体地,还可以将本次扩充得到的范畴内关键词传递给步骤302,并返回执行步骤302,由步骤302依据本次扩充前的范畴内已知关键词和本次扩充得到的范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别;其中,本次扩充前的范畴内已知关键词具体可以包括初始收集的范畴内已知关键词和每次扩充得到的范畴内已知关键词。实施例2能够将更多的范畴内已知关键词应用于关键词的扩充,且能够通过多次关键词的扩充得到更多的范畴内关键词。
在本申请的一种优选实施例中,在步骤304之后还可以判断是否停止关键词的扩充,相应的判断方法具体可以包括如下方法中的一种或多种:
判断本次扩充得到的范畴内关键词的数量是否达到了第一阈值,若是,则停止关键词的扩充,否则执行步骤305;和
判断扩充次数是否达到的第二阈值,若是,则停止关键词的扩充,否则执行步骤305。
其中,所述第一阈值和第二阈值可由本领域技术人员依据实际情况确定,本申请对具体的第一阈值和第二阈值不加以限制。
与前述方法实施例相应,本申请还提供了一种关键词的扩充装置实施例,参照图4所示的结构图,具体可以包括:
获取模块401,用于获取网页样本及对应的关键词;
分类模块402,用于依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别;
统计模块403,用于对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益;及
选取模块404,用于选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。
在本申请的一种优选实施例中,所述统计模块403具体可以包括:
数目统计子模块,用于分别统计所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目;
信息熵计算子模块,用于依据所述所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目,分别计算每个关键词在分类前后的信息熵;及
差值计算子模块,用于以每个关键词在分类前后的信息熵的差值作为所述每个关键词的信息增益。
在本申请实施例中,优选的是,所述选取模块404,可具体用于依据信息增益对所有关键词进行排序,并依据排序结果选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。
在本申请的另一种优选实施例中,所述分类模块402具体可以包括:
第一分类子模块,用于针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数是否达到预设次数,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别;或者
第二分类子模块,用于针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数相对于该网页样本所有关键词的数目的比例是否达到预设比例,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的一种关键词的扩充方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种关键词的扩充方法,其特征在于,包括:
获取网页样本及对应的关键词;
依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别;
对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益;
选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。
2.如权利要求1所述的方法,其特征在于,所述对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益的步骤,包括:
分别统计所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目;
依据所述所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目,分别计算每个关键词在分类前后的信息熵;
以每个关键词在分类前后的信息熵的差值作为所述每个关键词的信息增益。
3.如权利要求1所述的方法,其特征在于,所述选取信息增益最大的若干关键词作为扩充得到的范畴内关键词的步骤,包括:
依据信息增益对所有关键词进行排序,并依据排序结果选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。
4.如权利要求1或2或3所述的方法,其特征在于,所述依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别的步骤,包括:
针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数是否达到预设次数,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别;或者
针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数相对于该网页样本所有关键词的数目的比例是否达到预设比例,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别。
5.如权利要求1或2或3所述的方法,其特征在于,所述获取网页样本及对应的关键词的步骤,包括:
通过网页爬虫在互联网上抓取网页和网页内容,对网页内容进行分析并依据分析结果提取相应的关键词;和/或
从运营商的流量中提取搜索结果跳转网页及对应的关键词;和/或
从搜索引擎服务器记录的搜索行为数据中提取搜索结果跳转网页及对应的关键词。
6.如权利要求1或2或3所述的方法,其特征在于,还包括:返回执行所述依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别的步骤;
所述依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别的步骤为,依据本次扩充前的范畴内已知关键词和本次扩充得到的范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别。
7.一种关键词的扩充装置,其特征在于,包括:
获取模块,用于获取网页样本及对应的关键词;
分类模块,用于依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别;
统计模块,用于对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益;及
选取模块,用于选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。
8.如权利要求7所述的装置,其特征在于,所述统计模块包括:
数目统计子模块,用于分别统计所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目;
信息熵计算子模块,用于依据所述所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目,分别计算每个关键词在分类前后的信息熵;及
差值计算子模块,用于以每个关键词在分类前后的信息熵的差值作为所述每个关键词的信息增益。
9.如权利要求8所述的装置,其特征在于,所述选取模块,具体用于依据信息增益对所有关键词进行排序,并依据排序结果选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。
10.如权利要求7或8或9所述的装置,其特征在于,所述分类模块包括:
第一分类子模块,用于针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数是否达到预设次数,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别;或者
第二分类子模块,用于针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数相对于该网页样本所有关键词的数目的比例是否达到预设比例,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别。
CN201410042385.8A 2014-01-28 2014-01-28 一种关键词的扩充方法及装置 Pending CN103823847A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410042385.8A CN103823847A (zh) 2014-01-28 2014-01-28 一种关键词的扩充方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410042385.8A CN103823847A (zh) 2014-01-28 2014-01-28 一种关键词的扩充方法及装置

Publications (1)

Publication Number Publication Date
CN103823847A true CN103823847A (zh) 2014-05-28

Family

ID=50758911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410042385.8A Pending CN103823847A (zh) 2014-01-28 2014-01-28 一种关键词的扩充方法及装置

Country Status (1)

Country Link
CN (1) CN103823847A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255881A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 一种生成投放关键词的方法及装置
CN108363735A (zh) * 2018-01-18 2018-08-03 福建网龙计算机网络信息技术有限公司 一种广告电话识别的方法及终端
CN112860726A (zh) * 2021-02-07 2021-05-28 天云融创数据科技(北京)有限公司 结构化查询语句分类模型训练方法和装置
CN114281983A (zh) * 2021-04-05 2022-04-05 北京智慧星光信息技术有限公司 分层结构的文本分类方法、系统、电子设备和存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255881A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 一种生成投放关键词的方法及装置
CN108255881B (zh) * 2016-12-29 2022-02-11 北京国双科技有限公司 一种生成投放关键词的方法及装置
CN108363735A (zh) * 2018-01-18 2018-08-03 福建网龙计算机网络信息技术有限公司 一种广告电话识别的方法及终端
CN108363735B (zh) * 2018-01-18 2021-10-01 福建网龙计算机网络信息技术有限公司 一种广告电话识别的方法及终端
CN112860726A (zh) * 2021-02-07 2021-05-28 天云融创数据科技(北京)有限公司 结构化查询语句分类模型训练方法和装置
CN114281983A (zh) * 2021-04-05 2022-04-05 北京智慧星光信息技术有限公司 分层结构的文本分类方法、系统、电子设备和存储介质
CN114281983B (zh) * 2021-04-05 2024-04-12 北京智慧星光信息技术有限公司 分层结构的文本分类方法、系统、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN102708096B (zh) 一种基于语义的网络智能舆情监测系统及其工作方法
CN101819573B (zh) 一种自适应的网络舆情识别方法
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN103177090B (zh) 一种基于大数据的话题检测方法及装置
CN107577759A (zh) 用户评论自动推荐方法
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
CN102567494B (zh) 网站分类方法及装置
CN103324665A (zh) 一种基于微博的热点信息提取的方法和装置
Vosecky et al. Searching for quality microblog posts: Filtering and ranking based on content analysis and implicit links
CN101609450A (zh) 基于训练集的网页分类方法
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN101727454A (zh) 用于对象自动分类的方法和系统
CN103577416A (zh) 扩展查询方法及系统
CN103020212A (zh) 一种基于用户查询日志实时发现热点视频的方法和装置
KR20090000284A (ko) 관심주제에 대한 동향 및 성향 분석시스템
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
CN103544307A (zh) 一种不依赖文档库的多搜索引擎自动化对比评测方法
CN103116635A (zh) 面向领域的暗网资源采集方法和系统
CN103823847A (zh) 一种关键词的扩充方法及装置
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
Rajkumar et al. Users’ click and bookmark based personalization using modified agglomerative clustering for web search engine
KR102041915B1 (ko) 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법
CN109446424B (zh) 一种无效地址网页过滤方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140528

RJ01 Rejection of invention patent application after publication