CN111241431A - 一种网页分类方法和装置 - Google Patents

一种网页分类方法和装置 Download PDF

Info

Publication number
CN111241431A
CN111241431A CN201811438987.XA CN201811438987A CN111241431A CN 111241431 A CN111241431 A CN 111241431A CN 201811438987 A CN201811438987 A CN 201811438987A CN 111241431 A CN111241431 A CN 111241431A
Authority
CN
China
Prior art keywords
gram
classification
url
character strings
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811438987.XA
Other languages
English (en)
Inventor
曾庆维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
SF Tech Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN201811438987.XA priority Critical patent/CN111241431A/zh
Publication of CN111241431A publication Critical patent/CN111241431A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种网页分类方法和装置,该方法包括:根据已有分类的网页的URL中的N元字符串的权重值,计算N元字符串在已有分类中出现的次数或频度;其中,URL中作为分类依据的N元字符串具有第一权重值,其余不作为分类依据的N元字符串的权重值低于第一权重值;训练每个已有分类的N‑gram概率模型;从而,根据N‑gram概率模型确定待分类网页的URL的类型。本申请实施例提供的网页分类方法,能够根据网页都具有的URL进行分类,具有通用性,避免了网页内容为图片形式时,不能进行分类的技术问题。同时,还可以根据URL的不同字符串对分类的贡献不同,让高区分能力的字符串具有较高的权重,从而提高网页分类的准确性。

Description

一种网页分类方法和装置
技术领域
本发明一般涉及信息技术领域,具体涉及一种网页分类方法和装置。
背景技术
当今世界,随着互联网技术的快速普及和应用,网页信息资源不断地增加。为了更加方便管理,人们需要对网页信息资源进行分类。
目前,网页信息资源的分类仍然采用的是传统的文本分类方法,即从网页的正文、锚文本等内容中提取关键特征实现分类。但是,现在许多网页制作者为了防止别人盗取自己的成果,而将网页的内容以图片的形式呈现,这就导致传统的文本分类方法不能使用。同时,传统的文本分类方法还需要根据分类类别,不断地从大量网页中筛选出与该类别对应的网页,而不是根据网页的内容,判断该网页对应的类别,由此造成网络带宽和存储资源的巨大浪费。
然而,针对上述问题,现有技术中尚未提出有效的解决方案。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种网页分类方法和装置,能够根据网页的统一资源定位符(Uniform Resource Locator,URL),对网页进行准确地分类,可以应用于所有网页,具有通用性,从而避免当网页内容为图片形式时,不能进行分类的技术问题。
第一方面,本申请提供一种网页分类方法,包括:根据已有分类的网页的URL中的N元字符串的权重值,计算所述N元字符串在所述已有分类中出现的次数或频度;其中,所述URL中作为分类依据的N元字符串具有第一权重值,其余不作为分类依据的N元字符串的权重值低于所述第一权重值,N=(1,2,…,M),M为所述URL中有效字符串的数量;
训练每个已有分类的N-gram概率模型;
根据所述N-gram概率模型确定待分类网页的URL的类型。
第二方面,本申请提供一种网页分类装置,包括:计算模块,用于根据已有分类的网页的URL中的N元字符串的权重值,计算所述N元字符串在所述已有分类中出现的次数或频度;其中,所述URL中作为分类依据的N元字符串具有第一权重值,其余不作为分类依据的N元字符串的权重值低于所述第一权重值;,N=(1,2,…,M),M为所述URL中有效字符串的数量;
训练模块,用于训练每个已有分类的N-gram概率模型;
确定模块,用于根据所述N-gram概率模型确定待分类网页的URL的类型。
综上,本申请实施例提供的网页分类方法和装置,根据已有分类的网页的URL中的N元字符串的权重值,计算N元字符串在已有分类中出现的次数或频度;由于每个网页都有唯一的URL,且URL不能为图片形式,从而可以应用于所有网页,具有通用性;其中,URL中作为分类依据的N元字符串具有第一权重值,其余不作为分类依据的N元字符串的权重值低于第一权重值;由于URL中不同字符串对网页分类的贡献不同,让高区分能力的字符串具有较高的权重,从而能够提高网页分类的准确性;基于此,训练每个已有分类的N-gram概率模型;从而,根据N-gram概率模型确定待分类网页的URL的类型;如此,能够根据网页的URL,对网页进行准确地分类,从而避免当网页内容为图片形式时,不能进行网页分类的技术问题。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提供的一种网页分类方法的基本流程示意图;
图2为本申请实施例提供的一种网页分类方法的示例;
图3为本申请实施例提供的另一种网页分类方法的流程示意图;
图4为本申请实施例提供的又一种网页分类方法的流程示意图;
图5为本申请实施例提供的一种网页分类装置;
图6为本申请实施例提供的一种计算机系统。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请实施例提供一种网页分类方法,该方法应用于终端中。需要说明的是,本申请实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer,PC)、个人数字助理(Personal Digital Assistant,PDA)、平板电脑(Tablet Computer)、无线手持设备和手机等。
为了便于理解和说明,下面通过图1至图5详细的阐述本申请实施例提供的网页分类方法及装置。
请参考图1,其为本申请实施例提供的一种网页分类方法的基本流程示意图,该方法包括以下步骤:
S101,根据已有分类的网页的URL中的N元字符串的权重值,计算N元字符串在已有分类中出现的次数或频度。
其中,URL中作为分类依据的N元字符串具有第一权重值,其余不作为分类依据的N元字符串的权重值低于第一权重值,N=(1,2,…,M),M为URL中有效字符串的数量。
需要说明的是,统一资源定位符(Uniform Resource Locator,URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。URL的格式为:
Protocal://hostname[:port]/path[;parameters][?query][#fragment]
其中,Protocal表示传输协议,比如http,https等;hostname表示主机名,用于存放服务器域名系统的DNS主机或者IP地址,比如www.example.com;port表示端口地址;path表示路径,一般用字符“/”分隔;parameters用于指定特殊参数的可选项;query为可选项,用于给网页传递参数;fragment用于指定网络资源中的片段。
互联网上的每个网页都有一个唯一的URL,它包含文件的位置以及指示浏览器如何处理等信息,不能为图片形式。因此,即便当网页内容为图片形式,此时不能使用传统文本方法进行分类,但是仍可以根据网页的URL,对网页进行准确地分类,具有通用性。
为便于理解N元字符串的含义,以URL为http://sfecp.sf-express.co m/ECP/eip/Index/main.ht进行说明。
由于URL中会同时出现大写字母和小写字母,这就造成经过分词得到的字符串在训练集中没有,从而导致后续的网页分类不准确。因此,需要将URL做统一处理,比如转换为小写字母,即http://sfecp.sf-express.com/ecp/eip/index/main.ht。当然,也可以将URL转换为大写字母,本申请实施例对此不进行限定。
将URL处理成若干字符串的集合,得到的结果为http,sfecp,sf,
express,com,ecp,eip,index,main,ht。考虑到html,jsp和com等常见的web名词以及长度小于2的字符串对网页分类的贡献不大,属于无效字符串,因此将这类字符串剔除,那么切分结果为sfecp,express,ecp,eip,index,main。
当N=1时,N元字符串为sfecp,express,ecp,eip,index,main;
当N=2时,N元字符串为(sfecp,sf),(sf,express),(express,ecp),(ecp,eip),(eip,index),(index,main);
以此类推,当N=6时,N元字符串为(sfecp,express,ecp,eip,index,main)。
需要说明的是,并不是URL中包含的所有N元字符串都对网页分类有用,比如html,jsp和com等常见的web名词就对网页的分类没有帮助。因此,需要让URL中不同N元字符串具有不同的权重值,高区分能力的N元字符串可以作为分类依据,并具有高的权重值;而低区分能力的N元字符串则需要降低权重值。
举例说明,以N元字符串出现的次数为例,统计N元字符串在已有分类中出现的第一次数,比如为10次;将第一次数与赋予的权重值1.5做乘法运算,得到第二次数15次。使用第二次数进行后续计算,能够更好地将有助于分类的N元字符串突显出来,提高网页分类的准确性。
S102,训练每个已有分类的N-gram概率模型。
需要说明的是,N-gram概率模型是处理自然语言的一种语言模型,该模型基于马尔科夫假设,即第n个词的出现只与前面n-1个词相关,也就是P(wL|w1w2…wL-1)=P(wL|wL-n+1…wL-1),而与其它任何词都不相关,整个句子的概率就是各个词出现的概率的乘积。
当n=1时,表示一个词与前面的词无关,称为uni-gram;当n=2时,表示一个词与前面的1个词有关,称为bi-gram;当n=3时,表示一个词与前面2个词有关,称为tri-gram;同理,当一个词与前面n-1个词有关时,称为N-gram。
例如,对于句子G=w1w2…wL而言,它的概率可以表示为
Figure BDA0001883327820000051
其中,C(wi-n+1…wi-1wi)表示n元对wi-n+1…wi-1wi在训练集中出现的次数。
S103,根据N-gram概率模型确定待分类网页的URL的类型。
具体的,分别计算待分类网页的URL在每个分类中对应的N-gram概率值,将N-gram概率值最大的分类作为待分类网页的URL的类型。
为便于更好地理解上述S101~S103,现以一个具体的实现过程为例进行说明。如图2所示,其为本申请实施例提供的一种网页分类方法的示例。
需要说明的是,URL训练集中包括属于类别Y的所有URL,其中Y为大于或等于1的正整数。举例说明,类别1为视频类,类别2为新闻类,类别Y为游戏类,等等。
具体的,以处理属于类别1的所有URL为例进行说明。
A1,数据预处理可以通过如下方式实现:
获取类别1中网页的URL,即视频分类下的URL,比如URL为http://sfecp.sf-express.com/ecp/eip/index/main.ht;将URL进行分词,得到字符串,比如切分结果为http,sfecp,sf,express,com,ecp,eip,index,main,ht;由于http、com和ht为常见的web名词,对网页分类的贡献不大,因此将这类字符串剔除,那么切分结果为sfecp,sf,express,ecp,eip,index,main。
A2,训练类别1的N-gram概率模型可以通过如下方式实现:
B1,提取每个URL样本的N-gram数据,用于统计每个N元字符串出现的次数。
比如1-gram的计数结果为(sfecp:1,sf:1,express:1,ecp:1,eip:1,index:1,main:1);
2-gram的计数结果为((sfecp,sf):1,(sf,express):1,(express,ecp):1,(ecp,eip):1,(eip,index):1,(index,main):1);以此类推,7-gram的计数结果为((sfecp,sf,express,ecp,eip,index,main):1)。
举例说明,用URL的hostname和path构建N-gram模型,由于URL中不同部分的分类能力不同,因此对有助于分类的path部分赋予更高的权重,而对分类贡献不大的hostname部分赋予较低的权重。进而,改进后的N-gram计数方法为
count(word)=count(word in hostname)+count(path)×weight
其中,count表示字符串的数量,weight表示赋予的权重,weight>1。
以1-gram的计数结果为例,即(sfecp:1,sf:1,express:1,ecp:1,eip:1,index:1,main:1)。由于path部分的权重更高,可以设置为1.5;当然也可以设置为其它任意大于1的数,本申请实施例对此不进行限定。那么,赋予权重之后,得到的计数结果为(sfecp:1,sf:1,express:1,ecp:1,eip:1.5,index:1.5,main:1.5)。
B2,统计类别1中每个N元字符串出现的总次数,并计算每个N元字符串出现的概率的乘积。
根据对每个URL样本不同部分赋予权重之后得到的计数结果,进行总次数的统计。比如,1-gram的计数结果为(sfecp:100,sf:110,express:105,ecp:333,eip:350,index:330,main:360);
2-gram的计数结果为((sfecp,sf):123,(sf,express):332,(express,ecp):77,(ecp,eip):100,(eip,index):110,(index,main):105)。
根据N-gram概率模型,第n个词的出现只与前面n-1个词相关,而与其它任何词都不相关,整个句子的概率就是各个词出现的概率的乘积。比如,P(sf|sfecp)=#(sfecp,sf)/#(sfecp)=123/100=1.23,其中,#表示N元字符串出现的总次数。
B3,计算类别1中N-gram的各项概率值,训练N-gram概率模型。
需要说明的是,通过计算类别1中每个N元字符串出现的概率值,训练得到N-gram概率模型。比如,一元字符串sfecp出现的概率值为P(sfecp)=1,而P(sf|sfecp)=1.23,那么二元字符串(sfecp,sf)出现的概率值为P(sfecp,sf)=P(sfecp)×P(sf|sfecp)=1.23。
举例说明,假设URL训练集有3个分类,每个分类都已经训练出了1-gram,2-gram和3-gram的概率模型。当待分类网页的URL为http://a.B.c.com时,进行数据预处理之后,得到处理结果为(a,b,c)。
分别计算该待分类网页的URL在每个分类中对应的N-gram概率值,将N-gram概率值最大的分类作为待分类网页的URL的类型。比如1-gram为P(a,b,c)=P(a)P(b)P(c),在分类1中计算的结果为0.2,在在分类2中计算的结果为0.8,在分类3中计算的结果为0.5。可见,该待分类网页的URL属于分类2的概率最大。此时,可以将分类2作为该待分类网页的URL类型。当然,为了更加准确地进行分类,还可以继续计算2-gram和3-gram。
2-gram为P(a,b,c)=P(a)P(b|a)P(c|b),在分类1中计算的结果为0.3,在分类2中计算的结果为0.1,在分类3中计算的结果为0.2。可见,该待分类网页的URL属于分类1的概率最大。
3-gram为P(a,b,c)=P(a)P(b|a)P(c|ab),在分类1中计算的结果为0.1,在分类2中计算的结果为0.6,在分类3中计算的结果为0.3。可见,该待分类网页的URL属于分类2的概率最大。
通过对待分类网页的URL的1-gram,2-gram和3-gram概率值进行分析,得到分类2出现的次数最多。因此,最终确定该待分类网页的URL属于分类2。
需要说明的是,由于URL训练集是有限的,会导致待分类网页的URL中的N元字符串在训练集中没有出现过。根据最大似然估计,这些事件发生的概率应该为0。然而,这些事件发生的真实概率并不一定为0,所以如果N元字符串在类别1中没有出现,则采用平滑算法使N元字符串出现的概率不为0。其中,平滑算法可以包括但不限于Add-one平滑,Add-delta平滑和Good-turning平滑等。
本申请实施例提供的网页分类方法,根据已有分类的网页的URL中的N元字符串的权重值,计算N元字符串在已有分类中出现的次数或频度;由于每个网页都有唯一的URL,且URL不能为图片形式,从而可以应用于所有网页,具有通用性;其中,URL中作为分类依据的N元字符串具有第一权重值,其余不作为分类依据的N元字符串的权重值低于第一权重值;由于URL中不同字符串对网页分类的贡献不同,让高区分能力的字符串具有较高的权重,从而能够提高网页分类的准确性;基于此,训练每个已有分类的N-gram概率模型;从而,根据N-gram概率模型确定待分类网页的URL的类型;如此,能够根据网页的URL,对网页进行准确地分类,从而避免当网页内容为图片形式时,不能进行分类的技术问题。
基于前述实施例,本申请实施例提供的另一种网页分类方法的流程示意图,如图3所示,该方法包括以下步骤:
S301,将每个URL处理为若干字符串的集合。
S302,剔除集合中的无效字符串,以使得每个URL对应的字符串集合中包括M个有效字符串。
需要说明的是,通过将若干字符串集合中的无效字符串剔除,而保留有效字符串,能够有助于网页的分类,提高分类的准确性。
举例说明,将获取的URL转换成小写字母,使用非字母符号作为分隔符,从而把URL切分成若干字符串的集合。
比如,当URL为http://sfecp.sf-express.com/ecp/eip/index/main.ht时,得到的字符串的集合为http,sfecp,sf,express,com,ecp,eip,index,main,ht;当URL为https://slamdunk.sports.sina.com.cn/rank#type=confere nce时,得到的字符串的集合为https,slamdunk,sports,sina,com,cn,rank,type,conference。
把字符串集合中长度小于2的字符串和html,jsp和com等常见的web名词作为无效字符串剔除。
比如,当字符串的集合为http,sfecp,sf,express,com,ecp,eip,index,main,ht时,得到的有效字符串为sfecp,sf,express,ecp,eip,index,main;当字符串的集合为https,slamdunk,sports,sina,com,cn,rank,type,conference时,得到的有效字符串为slamdunk,sports,sina,rank,type,conference。
S303,根据已有分类的网页的URL中的N元字符串的权重值,计算N元字符串在已有分类中出现的次数。
其中,URL中作为分类依据的N元字符串具有第一权重值,其余不作为分类依据的N元字符串的权重值低于第一权重值,N=(1,2,…,M),M为URL中有效字符串的数量。
具体的,可以从导航网站上爬取网页的URL。其中,已有分类可以包括但不限于新闻类,财经类,视频类和游戏类等。
需要说明的是,很多网页的URL都是http://sfecp.sf-express.com/XX的形式,因此,通过把sfecp.sf-express.com部分的权值降低,而将XX部分的权值提高,有助于对网页的URL进行准确分类。
计算N元字符串在已有分类中出现的次数,通过下式计算:
C=C1×W1+C2×W2+…+Cn×Wn,n≥1
其中,W1>W2,W3,…,Wn
上式中的C为N元字符串在已有分类中出现的次数;C1为N元字符串在作为分类依据的URL字段中出现的次数;W1为第一权重值;C2,C3,…,Cn为N元字符串在不作为分类依据的URL字段中出现的次数;W2,W3,…,Wn为C2,C3,…,Cn分别对应的权重值。
举例说明,当有效字符串的计数结果为sfecp:1,sf:1,express:1,ecp:1,eip:1,index:1,main:1,其中N=1时,将URL中作为分类依据的1元字符串ecp,eip,index,main赋予第一权重值1.5,而对其余1元字符串sfecp,sf,express赋予权重值1,得到处理结果为sfecp:1,sf:1,express:1,ecp:1.5,eip:1.5,index:1.5,main:1.5。
S304,训练每个已有分类的N-gram概率模型。
具体的,根据每个已有分类的全部URL中的每个N元字符串的出现次数,计算每个N元字符串出现的概率,以获得每个已有分类的N-gram的各项概率值。
其中,N元字符串出现的概率通过下式计算:
P(G)=P(w1w2…wL)=P(w1)P(w2|w1)P(w3|w1w2)…P(wL|w1w2…wL-1),L≥1
其中,P(wL|w1w2…wL-1)=C(w1w2…wL-1wL)/C(w1w2…wL-1)
上式中的G为N元字符串;w1,w2,…,wL为N元字符串中的字符;C(w1w2…wL-1wL)为字符串w1w2…wL-1wL的出现次数;C(w1w2…wL-1)为字符串w1w2…wL-1的出现次数。
S305,根据N-gram概率模型,分别计算待分类网页的URL在每个分类中对应的N-gram概率值,将N-gram概率值最大的分类作为待分类网页的URL的类型。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本申请实施例提供的网页分类方法,能够根据网页都具有的URL,进行分类,具有通用性,避免了网页内容为图片形式时,不能进行分类的技术问题。同时,还可以根据URL的不同字符串对分类的贡献不同,让高区分能力的字符串具有较高的权重,从而提高网页分类的准确性。
基于前述实施例,本申请实施例提供的又一种网页分类方法的流程示意图,如图4所示,该方法包括以下步骤:
S401,将每个URL处理为若干字符串的集合。
S402,剔除集合中的无效字符串,以使得每个URL对应的字符串集合中包括M个有效字符串。
S403,根据已有分类的网页的URL中的N元字符串的权重值,计算N元字符串在已有分类中出现的频度。
其中,URL中作为分类依据的N元字符串具有第一权重值,其余不作为分类依据的N元字符串的权重值低于第一权重值,N=(1,2,…,M),M为URL中有效字符串的数量。
计算N元字符串在已有分类中出现的频度,通过下式计算:
S=(C/F)×log(Z1/Z2)
其中,S为N元字符串在已有分类中出现的频度;F为每个N元字符串在已有分类中出现次数的总和;Z1为已有分类的类型总数;Z2为包含N元字符串的全部已有分类的数量。
举例说明,假设已有分类包括新闻类、视频类和游戏类,1元字符串index在新闻类和视频类中都有,而新闻类中的index经过赋予权重值之后得到的次数为1.5,sfecp的次数为1,express的次数为1,那么F=1.5+1+1=3.5;由于已有分类为3,包含index的已有分类为2,即Z1=3,Z2=2,那么1元字符串index在新闻类中出现的频度S为0.076。
需要说明的是,TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF(Term Frequency)表示词频,IDF(InverseDocument Frequency)表示逆文本频率指数。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或者一个语料库的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
S404,训练每个已有分类的N-gram概率模型。
具体的,根据每个已有分类的全部URL中的每个N元字符串的出现频度,计算每个N元字符串出现的概率,以获得每个已有分类的N-gram的各项概率值。
其中,N元字符串出现的概率通过下式计算:
P(G)=P(w1w2…wL)=P(w1)P(w2|w1)P(w3|w1w2)…P(wL|w1w2…wL-1),L≥1
其中,P(wL|w1w2…wL-1)=[S(w1w2…wL-1wL)×log(Z1/Z3)]/[S(w1w2…wL-1)×log(Z1/Z4)]
上式中的G为N元字符串;w1,w2,…,wL为N元字符串中的字符;S(w1w2…wL-1wL)为字符串w1w2…wL-1wL的出现频度;S(w1w2…wL-1)为字符串w1w2…wL-1的出现频度;Z1为已有分类的类型总数;Z3为包含字符串w1w2…wL-1的全部已有分类的数量;Z4为包含字符串w1w2…wL-1wL的全部已有分类的数量。
S405,根据N-gram概率模型,分别计算待分类网页的URL在每个分类中对应的N-gram概率值,将N-gram概率值最大的分类作为待分类网页的URL的类型。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本申请实施例提供的网页分类方法,能够根据网页都具有的URL,进行分类,具有通用性,避免了网页内容为图片形式时,不能进行分类的技术问题。同时,还可以根据URL的不同字符串对网页分类的贡献不同,让高区分能力的字符串具有较高的权重,从而提高网页分类的准确性。
基于前述实施例,本申请实施例提供一种网页分类装置,该装置可以应用于图1~4对应的实施例提供的网页分类方法中。参照图5所示,该网页分类装置5包括:
计算模块51,用于根据已有分类的网页的URL中的N元字符串的权重值,计算N元字符串在已有分类中出现的次数或频度,其中,URL中作为分类依据的N元字符串具有第一权重值,其余不作为分类依据的N元字符串的权重值低于第一权重值,N=(1,2,…,M),M为URL中有效字符串的数量。
训练模块52,用于训练每个已有分类的N-gram概率模型。
确定模块53,用于根据N-gram概率模型确定待分类网页的URL的类型。
在本申请的其它实施例中,计算模块51用于将每个URL处理为若干字符串的集合;
剔除集合中的无效字符串,以使得每个URL对应的字符串集合中包括M个有效字符串。
在本申请的其它实施例中,计算模块51具体用于计算N元字符串在已有分类中出现的次数,通过下式计算:
C=C1×W1+C2×W2+…+Cn×Wn,n≥1
其中,W1>W2,W3,…,Wn
上式中的C为N元字符串在已有分类中出现的次数;C1为N元字符串在作为分类依据的URL字段中出现的次数;W1为第一权重值;C2,C3,…,Cn为N元字符串在不作为分类依据的URL字段中出现的次数;W2,W3,…,Wn为C2,C3,…,Cn分别对应的权重值。
在本申请的其它实施例中,计算模块51还用于计算N元字符串在已有分类中出现的频度,通过下式计算:
S=(C/F)×log(Z1/Z2)
其中,S为N元字符串在已有分类中出现的频度;F为每个N元字符串在已有分类中出现次数的总和;Z1为已有分类的类型总数;Z2为包含N元字符串的全部已有分类的数量。
在本申请的其它实施例中,训练模块52具体用于根据每个已有分类的全部URL中的每个N元字符串的出现次数或频度,计算每个N元字符串出现的概率,以获得每个已有分类的N-gram的各项概率值,通过下式计算:
P(G)=P(w1w2…wL)=P(w1)P(w2|w1)P(w3|w1w2)…P(wL|w1w2…wL-1),L≥1
其中,P(wL|w1w2…wL-1)=K(w1w2…wL-1wL)/K(w1w2…wL-1)
上式中的G为N元字符串;w1,w2,…,wL为N元字符串中的字符;K(w1w2…wL-1wL)为字符串w1w2…wL-1wL的出现次数或频度;K(w1w2…wL-1)为字符串w1w2…wL-1的出现次数或频度。
在本申请的其它实施例中,确定模块53具体用于根据N-gram概率模型,分别计算待分类网页的URL在每个分类中对应的N-gram概率值,将N-gram概率值最大的分类作为待分类网页的URL的类型。
在本申请的其它实施例中,确定模块53还用于若待分类网页的URL中的N元字符串在已有分类中没有出现,则采用平滑算法使N元字符串出现的概率不为0。
本申请实施例提供的网页分类装置,根据已有分类的网页的URL中的N元字符串的权重值,计算N元字符串在已有分类中出现的次数或频度;由于每个网页都有唯一的URL,且URL不能为图片形式,从而可以应用于所有网页,具有通用性;其中,URL中作为分类依据的N元字符串具有第一权重值,其余不作为分类依据的N元字符串的权重值低于第一权重值;由于URL中不同字符串对网页分类的贡献不同,让高区分能力的字符串具有较高的权重,从而能够提高网页分类的准确性;基于此,训练每个已有分类的N-gram概率模型;从而,根据N-gram概率模型确定待分类网页的URL的类型;如此,能够根据网页的URL,对网页进行准确地分类,从而避免当网页内容为图片形式时,不能进行分类的技术问题。
基于前述实施例,本申请实施例提供一种计算机系统。请参照图6所示,该计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有系统操作所需的各种程序和数据。CPU 601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本申请的实施例,上文参考流程图1~4描述的过程可以被实现为计算机软件程序。例如,本申请的实施例1包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序由CPU 601执行,以实现如下步骤:
根据已有分类的网页的URL中的N元字符串的权重值,计算N元字符串在已有分类中出现的次数或频度;其中,URL中作为分类依据的N元字符串具有第一权重值,其余不作为分类依据的N元字符串的权重值低于第一权重值,N=(1,2,…,M),M为URL中有效字符串的数量;
训练每个已有分类的N-gram概率模型;
根据N-gram概率模型确定待分类网页的URL的类型。
在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例网页分类的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括计算模块、训练模块及确定模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的终端中所包含的;也可以是单独存在,而未装配入该终端中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该终端执行时,使得该终端实现如上述实施例中的网页分类方法。
例如,终端可以实现如图1中所示的:S101,根据已有分类的网页的URL中的N元字符串的权重值,计算N元字符串在已有分类中出现的次数或频度;其中,URL中作为分类依据的N元字符串具有第一权重值,其余不作为分类依据的N元字符串的权重值低于第一权重值,N=(1,2,…,M),M为URL中有效字符串的数量;S102,训练每个已有分类的N-gram概率模型;S103,根据N-gram概率模型确定待分类网页的URL的类型。又如,终端可以实现如图3和图4中所示的各个步骤。
应当注意,尽管在上文详细描述中提及了用于动作执行的终端的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种网页分类方法,其特征在于,所述方法包括:
根据已有分类的网页的URL中的N元字符串的权重值,计算所述N元字符串在所述已有分类中出现的次数或频度;其中,所述URL中作为分类依据的N元字符串具有第一权重值,其余不作为分类依据的N元字符串的权重值低于所述第一权重值,N=(1,2,…,M),M为所述URL中有效字符串的数量;
训练每个已有分类的N-gram概率模型;
根据所述N-gram概率模型确定待分类网页的URL的类型。
2.根据权利要求1所述的一种网页分类方法,其特征在于,所述根据已有分类的网页的URL中的N元字符串的权重值,计算所述N元字符串在所述已有分类中出现的次数或频度之前,还包括:
将每个URL处理为若干字符串的集合;
剔除所述集合中的无效字符串,以使得每个URL对应的字符串集合中包括M个有效字符串。
3.根据权利要求1所述的一种网页分类方法,其特征在于,所述根据已有分类的网页的URL中的N元字符串的权重值,计算所述N元字符串在所述已有分类中出现的次数,通过下式计算:
C=C1×W1+C2×W2+…+Cn×Wn,n≥1
其中,W1>W2,W3,…,Wn
上式中的C为所述N元字符串在所述已有分类中出现的次数;C1为所述N元字符串在作为分类依据的URL字段中出现的次数;W1为所述第一权重值;C2,C3,…,Cn为所述N元字符串在不作为分类依据的URL字段中出现的次数;W2,W3,…,Wn为所述C2,C3,…,Cn分别对应的权重值。
4.根据权利要求3所述的一种网页分类方法,其特征在于,所述计算所述N元字符串在所述已有分类中出现的频度,通过下式计算:
S=(C/F)×log(Z1/Z2)
其中,S为所述N元字符串在所述已有分类中出现的频度;F为每个N元字符串在所述已有分类中出现次数的总和;Z1为已有分类的类型总数;Z2为包含所述N元字符串的全部已有分类的数量。
5.根据权利要求1-4任意一项所述的一种网页分类方法,其特征在于,所述训练每个已有分类的N-gram概率模型,包括:
根据每个已有分类的全部URL中的每个N元字符串的出现次数或频度,计算每个N元字符串出现的概率,以获得每个已有分类的N-gram的各项概率值,通过下式计算:
P(G)=P(w1w2…wL)=P(w1)P(w2|w1)P(w3|w1w2)…P(wL|w1w2…wL-1),L≥1
其中,P(wL|w1w2…wL-1)=K(w1w2…wL-1wL)/K(w1w2…wL-1)
上式中的G为所述N元字符串;w1,w2,…,wL为所述N元字符串中的字符;K(w1w2…wL-1wL)为字符串w1w2…wL-1wL的出现次数或频度;K(w1w2…wL-1)为字符串w1w2…wL-1的出现次数或频度。
6.根据权利要求1所述的一种网页分类方法,其特征在于,所述根据所述N-gram概率模型确定待分类网页的URL的类型,包括:
根据所述N-gram概率模型,分别计算所述待分类网页的URL在每个分类中对应的N-gram概率值,将所述N-gram概率值最大的分类作为所述待分类网页的URL的类型。
7.根据权利要求6所述的一种网页分类方法,其特征在于,所述方法还包括:
若所述待分类网页的URL中的N元字符串在所述已有分类中没有出现,则采用平滑算法使所述N元字符串出现的概率不为0。
8.一种网页分类装置,其特征在于,所述装置包括:
计算模块,用于根据已有分类的网页的URL中的N元字符串的权重值,计算所述N元字符串在所述已有分类中出现的次数或频度;其中,所述URL中作为分类依据的N元字符串具有第一权重值,其余不作为分类依据的N元字符串的权重值低于所述第一权重值,N=(1,2,…,M),M为所述URL中有效字符串的数量;
训练模块,用于训练每个已有分类的N-gram概率模型;
确定模块,用于根据所述N-gram概率模型确定待分类网页的URL的类型。
9.根据权利要求8所述的装置,其特征在于,所述计算模块用于将每个URL处理为若干字符串的集合;
剔除所述集合中的无效字符串,以使得每个URL对应的字符串集合中包括M个有效字符串。
10.根据权利要求8所述的装置,其特征在于,所述计算模块具体用于计算:
C=C1×W1+C2×W2+…+Cn×Wn,n≥1
其中,W1>W2,W3,…,Wn
上式中的C为所述N元字符串在所述已有分类中出现的次数;C1为所述N元字符串在作为分类依据的URL字段中出现的次数;W1为所述第一权重值;C2,C3,…,Cn为所述N元字符串在不作为分类依据的URL字段中出现的次数;W2,W3,…,Wn为所述C2,C3,…,Cn分别对应的权重值。
11.根据权利要求10所述的装置,其特征在于,所述计算模块还用于计算:
S=(C/F)×log(Z1/Z2)
其中,S为所述N元字符串在所述已有分类中出现的频度;F为每个N元字符串在所述已有分类中出现次数的总和;Z1为已有分类的类型总数;Z2为包含所述N元字符串的全部已有分类的数量。
12.根据权利要求8所述的装置,其特征在于,所述确定模块具体用于根据所述N-gram概率模型,分别计算所述待分类网页的URL在每个分类中对应的N-gram概率值,将所述N-gram概率值最大的分类作为所述待分类网页的URL的类型。
CN201811438987.XA 2018-11-28 2018-11-28 一种网页分类方法和装置 Pending CN111241431A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811438987.XA CN111241431A (zh) 2018-11-28 2018-11-28 一种网页分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811438987.XA CN111241431A (zh) 2018-11-28 2018-11-28 一种网页分类方法和装置

Publications (1)

Publication Number Publication Date
CN111241431A true CN111241431A (zh) 2020-06-05

Family

ID=70874057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811438987.XA Pending CN111241431A (zh) 2018-11-28 2018-11-28 一种网页分类方法和装置

Country Status (1)

Country Link
CN (1) CN111241431A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116743181A (zh) * 2023-08-09 2023-09-12 北京杏林康云信息科技股份有限公司 基于大数据的用药安全数据分类存储方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8078625B1 (en) * 2006-09-11 2011-12-13 Aol Inc. URL-based content categorization
CN103020067A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
CN105512143A (zh) * 2014-09-26 2016-04-20 中兴通讯股份有限公司 一种网页分类方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8078625B1 (en) * 2006-09-11 2011-12-13 Aol Inc. URL-based content categorization
CN103020067A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
CN105512143A (zh) * 2014-09-26 2016-04-20 中兴通讯股份有限公司 一种网页分类方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
骆聪等: "基于改进的n-gram模型的URL分类算法研究" *
黎斌: "面向URL的用户建模关键技术研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116743181A (zh) * 2023-08-09 2023-09-12 北京杏林康云信息科技股份有限公司 基于大数据的用药安全数据分类存储方法
CN116743181B (zh) * 2023-08-09 2023-10-31 北京杏林康云信息科技股份有限公司 基于大数据的用药安全数据分类存储方法

Similar Documents

Publication Publication Date Title
CN107491534B (zh) 信息处理方法和装置
CN108572990B (zh) 信息推送方法和装置
CN114385780B (zh) 程序接口信息推荐方法、装置、电子设备和可读介质
CN110737768A (zh) 基于深度学习的文本摘要自动生成方法及装置、存储介质
WO2007143914A1 (fr) Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web
CA3088695A1 (en) Method and system for decoding user intent from natural language queries
CN107885717B (zh) 一种关键词提取方法及装置
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
EP4174683A1 (en) Data evaluation method and apparatus, training method and apparatus, and electronic device and storage medium
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN111126073B (zh) 语义检索方法和装置
CN111241431A (zh) 一种网页分类方法和装置
CN112711943A (zh) 一种维吾尔文语种识别方法、装置及存储介质
CN111555960A (zh) 信息生成的方法
CN110895655A (zh) 提取文本核心短语的方法和装置
CN110704617B (zh) 新闻文本的分类方法、装置、电子设备和存储介质
CN113434695A (zh) 金融事件抽取方法、装置、电子设备及存储介质
CN111259273A (zh) 网页分类模型构建方法、分类方法及其装置
CN112528644A (zh) 实体挂载的方法、装置、设备以及存储介质
CN111310465B (zh) 平行语料获取方法、装置、电子设备、及存储介质
CN111737571A (zh) 搜索方法、装置和电子设备
CN114385781B (zh) 基于语句模型的接口文件推荐方法、装置、设备和介质
CN115329767B (zh) 抽取文本实体的方法、装置、电子设备及存储介质
CN114743012B (zh) 一种文本识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination