CN111259273A - 网页分类模型构建方法、分类方法及其装置 - Google Patents
网页分类模型构建方法、分类方法及其装置 Download PDFInfo
- Publication number
- CN111259273A CN111259273A CN201811455431.1A CN201811455431A CN111259273A CN 111259273 A CN111259273 A CN 111259273A CN 201811455431 A CN201811455431 A CN 201811455431A CN 111259273 A CN111259273 A CN 111259273A
- Authority
- CN
- China
- Prior art keywords
- gram
- webpage
- character string
- url
- probability value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000010276 construction Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000009193 crawling Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 244000089409 Erythrina poeppigiana Species 0.000 description 3
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了网页分类模型构建方法、分类方法及其装置,该方法包括获取至少一个网页类别的训练集,训练集包括与网页类别对应的至少一个网页的URL;对每个训练集中每个URL进行预处理,得到与每个URL对应的字符串集合,利用每个字符串集合分别训练与网页类别对应的N‑gram子模型,得到由N‑gram子模型组成的N‑gram分类模型。本申请实施例通过对所有网页类别的URL的字符串集合进行训练,得到每个类别对应的N‑gram分类模型,从而可以利用N‑gram分类模型对待分类网页的URL概率值进行预测,完成网页分类,提高了网页分类效率,避免了对待分类网页内容的爬取,降低了网络资源的耗费。
Description
技术领域
本申请一般涉及机器学习技术领域,具体涉及一种网页分类模型构建方法、分类方法及其装置。
背景技术
目前,在进行网页分类时,通常采用文本分类方法。即通过爬虫爬取网页正文、锚文本等,然后利用爬取到的特征,对网页进行分类。
在利用网页正文进行网页分类时,需要爬取所有待分类网页的正文,来完成网页的筛选及分类,从而浪费网络资源;并且,对于部分网页,设计者为了防止盗取别人盗用,将网页内容嵌入在图片中,使得爬虫无法获取到网页正文信息,从而无法完成网页的分类。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种网页分类模型构建方法、分类方法及其装置,以提高网页分类效率,降低网络资源的占用。
第一方面,本申请实施例提供一种网页分类模型构建方法,该方法包括:
获取至少一个网页类别的训练集,该训练集包括与该网页类别对应的至少一个网页的统一资源定位符URL;
对每个该训练集中每个该URL进行预处理,得到与每个该URL对应的字符串集合;
利用每个该字符串集合分别训练与该网页类别对应的N-gram子模型,得到由该N-gram子模型组成的N-gram分类模型,该N-gram子模型用于指示该字符串集合中N个该字符串按序组合的概率值集合,N取值为大于等于1的正整数。
第二方面,本申请实施例提供一种网页分类方法,该方法包括:
获取待分类网页的URL;
切分该URL,得到新的字符串集合,其中,该新的字符串集合可以不包括无效字符串;
将该新的字符串集合输入到如第一方面所述的N-gram分类模型中,得到每个该N-gram子模型输出的第二概率值集合;
分别按照该N-gram子模型计算该新的字符串集合的第三概率值;
基于该第三概率值来确定该待分类网页的类别;
其中,按照N-gram子模型计算该新的字符串集合的第三概率值,包括:
根据该新的字符串集合的个数选择该N-gram子模型;
利用选择的该N-gram子模型计算该新的字符串集合的该第三概率值。
第三方面,本申请实施例提供一种网页分类模型构建装置,该装置包括:
第一获取模块,用于获取至少一个网页类别的训练集,该训练集包括与该网页类别对应的至少一个网页的统一资源定位符URL;
第一处理模块,用于对每个该训练集中每个该URL进行预处理,得到与每个该URL对应的字符串集合;
训练模块,用于利用每个该字符串集合分别训练与该网页类别对应的N-gram子模型,得到由该N-gram子模型组成的N-gram分类模型,该N-gram子模型用于指示该字符串集合中N个该字符串按序组合的概率值集合,N取值为大于等于1的正整数。
第四方面,本申请实施例提供一种网页分类装置,该装置包括:
第二获取模块,用于获取待分类网页的URL;
第二处理模块,用于切分该URL,得到新的字符串集合,其中,该新的字符串集合可以不包括无效字符串;
输入模块,用于将该新的字符串集合输入到如第一方面所构建的N-gram分类模型中,得到每个该N-gram子模型输出的第二概率值集合;
计算模块,用于分别按照该N-gram子模型计算该新的字符串集合的第三概率值;
确定模块,用于基于该第三概率值来确定该待分类网页的类别;其中,计算模块具体用于:
根据该新的字符串集合的个数选择N-gram子模型输出结果的数量;
利用选择的该N-gram子模型计算该新的字符串集合的该第三概率值。
综上,本申请实施例提供的网页分类模型构建方法、分类方法及其装置,该分类模型构建方法通过获取所有网页类别的URL的训练集,并对所有的URL进行切分,得到字符串集合,进而对每个类别的字符串集合进行训练,实现网页分类模型的构建,得到每个类别对应的N-gram子模型组成的N-gram分类模型,从而可以利用N-gram分类模型对待分类网页的URL包含的字符串的概率值进行预测,完成网页分类,提高了分类效率,避免了对待分类网页内容的爬取,降低了网络资源的耗费。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例的提供的网页分类模型构建方法的流程示意图;
图2为本申请另一实施例的提供的网页分类模型构建方法的流程示意图;
图3为本申请实施例提供的网页分类方法的流程示意图;
图4为本申请另一实施例提供的网页分类方法的流程示意图;
图5为本申请再一实施例提供的网页分类方法的流程示意图;
图6为本申请实施例提供的网页分类模型构建装置的结构示意图;
图7为本申请实施例提供的网页分类装置的结构示意图;
图8为本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请实施例中涉及的统一资源定位符(Uniform Resource Locator,URL),是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址,每个网页都有一个唯一的URL。通常可以通过Java代码从网页中获取URL,也可以通过爬虫工具,例如JSON-handle、User-Agent Switcher等,从网页中自动提取URL。
URL的格式通常为:
Protocal://hostname[:port]/path[;parameters][?query][#fragment]
其中,Protocal表示传输协议,比如http,https等;hostname表示主机名,用于存放服务器域名系统的DNS主机或者IP地址,比如www.example.com;port表示端口地址;path表示路径,一般用字符“/”分隔;parameters用于指定特殊参数的可选项;query为可选项,用于给网页传递参数;fragment用于指定网络资源中的片段。
本申请实施例提供的网页分类模型及网页分类方法,基于上述URL的格式,即URL包含文件的位置以及指示浏览器如何处理等信息的字符串。因此,在网页分类过程中,可以不需要获取网页的正文,即可以根据网页的URL,对网页进行准确地分类。并且,也不会受限于网页正文的图片格式。
还可以理解,本申请实施例的网页分类模型的构建,涉及N-gram模型,是语言处理的一种模型,该模型假设一个句子中的第n个词的出现只与前面的n-1个词相关,而与其他词都不相关,则整个句子出现的概率就是各个词出现的概率的乘积。
例如,对于句子S=w1w2K wn,则该句子的概率可以表示为:
其中,C(wi-n+1K wi-1wi)表示n元对wi-n+1K wi-1wi在训练集中出现的次数。
进一步的,为了克服上述公式参数空间太大的问题,基于马尔科夫假设,得到了简化后的N-gram模型,即一个句子中下一个词出现仅仅依赖于它前面的n-1个词,也就是:
P(wL|w1w2KwL-1)=P(wL|wL-n+1K wL-1)。
简化的N-gram模型,当N=1时,表示一个词与前面的词都无关,为1-gram模型,当N=2时,表示一个词跟前面的1个词相关,为2-gram,当N=3时,表示一个词跟前面的2个词相关,为3-gram。
为了便于理解和说明,下面通过图1至图8详细解释本申请实施例提供的网页分类模型构建及网页的分类。
图1为本申请实施例提供的网页分类模型构建方法的流程示意图,如图1所示,该方法可以包括:
S110,获取至少一个网页类别的训练集。
具体的,可以将已存在的多个网页类别作为训练集,并获取每个网页类别中网页对应的URL,即使得每个训练集包括与网页类别对应的至少一个网页的统一资源定位符URL。
例如,已存在的网页类别有游戏类网页、新闻类网页及购物类网页,则可以获取对应的每个网页类别的URL,作为该类网页的训练集。
S120,对每个训练集中每个URL进行预处理。
具体的,在获取的训练集中对URL进行预处理时,可以采用如下方法:
S121,将URL进行大小写字母转换。
具体的,URL中的字符串有大写字母表示及小写字母表示,导致训练集中的字符串数量非常庞大,还可能造成对待分类网页的URL经过分词后得到的字符串在训练集中没有,使得网页分类不准确。为了降低计算的复杂度,可以将URL的大写字母转换成小写字母,或者将所有的小写字母转换为大写字母。
S122,将转换后的URL进行切分,得到字符串集合。
具体的,可以将得到的所有网页类别中的URL进行分词处理,以非字母符号作为分隔符,把URL切分成若干个字符串,得到字符串集合。
例如,对于URL:
http://sfecp.sf-express.com/ECP/eip/Index/main.ht。对其进行切分后,得到的字符串集合为:
http,sfecp,sf,express,com,ecp,eip,index,main,ht。
对于URL:
https://slamdunk.sports.sina.com.cn/rank#type=conference。
切分的结果为:https,slamdunk,sports,sina,com,cn,rank,type,conference。
S123,在字符串集合中删除无效字符串。
具体的,考虑到常见的web名词以及字符串长度小于2的字符串对网页分类的贡献不大,属于无效字符串,因此将这类字符串删除。无效字符串,如html,jsp和com等常见的web名词,或者如sf及ht等长度小于2的字符串。
例如,对于上述两个URL,删除无效字符串后的切分结果为sfecp,express,ecp,eip,index,main;slamdunk,sports,sina,cn,rank,type,conference。
可以理解,本申请的其他实施例中,为了减少处理程序,如对少量的训练集,可以不经过转换,直接对每个URL进行切分,即不执行S121。或者,在对RUL进行切分后,可以不对无效字符进行移除操作,即直接执行S130,不执行S123。
S130,利用每个字符串集合分别训练与网页类别对应的N-gram子模型,得到由该N-gram子模型组成的N-gram分类模型。
具体的,可以训练每个网页类别的字符串集合,生成每个网页类别的N-gram模型,包括每个网页类别的N-gram子模型,如1-gram子模型,2-gram子模型,3-gram子模型等。该N-gram子模型可用于指示该字符串集合中N个该字符串按序组合的概率值集合。
本申请提供的一种实施例,可以采用如图2所示的方法进行训练:
S131,统计每个字符串集合中N个字符串按序组合出现的次数。
具体的,在通过上述方法对每个网页类别中的URL进行预处理,得到包括该类别网页的所有RUL字符串集合后。首先可以针对N-gram模型,提取每个网页类别的N-gram数据,即基于N-gram模型假设,后一个字符串出现的概率仅仅依赖于前一个或多个字符串的出现概率。因此,可以提取两个、三个或多个相邻字符串的组合,即得到按序组合的所有字符串组合集,N的取值为大于等于1的正整数,提取相邻的两个字符串组合中,最后一个字符串出现的概率仅仅依赖于前一个字符串。
例如,对于上述得到切分结果,对应于1-gram,提取到的1-gram字符串组合数据为sfecp,sf,express,ecp,eip,index,main。
对应于2-gram,提取到的字符串组合为:(sfecp,sf),(sf,express),(express,ecp),(ecp,eip),(eip,index),(index,main)。
以此类推,可以得到7-gram的字符串组合为:(sfecp,sf,express,ecp,eip,index,main)。
进一步的,在提取到每个网页类别对应的不同字符串组合后,可以统计提取到的按序组合的字符串组合在该类网页的字符串集合中出现的次数。
例如,则对1-gram的字符串组合,统计结果为sfecp:100,sf:132,ecp:333,love:411。
对于2-gram的字符串组合,统计结果为:
(sfecp,sf):83,(sf,express):80、(express,ecp):100(ecp,eip):30(eip,index):123。
对于3-gram的字符串组合,统计结果为:
(sfecp,sf,express):83,
同样的,以此类推,可以得到3-gram等对应的字符串组合的统计结果。
S132,利用次数计算N个字符串按序组合出现的概率值集合。
具体的,可以基于上述提供的简化后的N-gram模型,即一个句子中下一个词出现仅仅依赖于它前面的n-1个词:
P(wL|w1w2K wL-1)=P(wL|wL-n+1K wL-1),
以计算每个字符串出现的概率值,即每个字符串在前一个或多个字符串出现的基础上出现的概率,得到每个网页类别对应的N个字符串按序组合出现的概率值集合,即每个网页类别的N-gram子模型。
例如,对于1-gram的字符串组合的统计结果为sfecp:100,sf:132,ecp:333,love:411,则可以计算得到:
P(sfecp)=C(sfecp)/(C(sfecp)+C(sf)+C(ecp)+C(love))=100/976=0.102
同样的,可以计算得到P(sf)、P(ecp)及P(love)。
对于2-gram,根据统计结果(sfecp,sf):83、(sf,express):80、(express,ecp):100(ecp,eip):30(eip,index):123,可以得到:
同样的,可以计算得到P(express|sf)、P(ecp|express)、P(eip|ecp)、P(index|eip)及P(main|index)。
对于3-gram,根据统计结果(sfecp,sf,express):50,可以得到:
同样的,可以计算得到P(ecp|sf,express)、P(eip|express,ecp)、P(index|ecp,eip)及P(main|eip,index)。
可以理解,通过上述计算方式,可以得到每个网页类别中的URL的所有字符串组合的概率,即每个网页类别对应的字符串集合中N个字符串按序组合的概率值集合,从而可以得到每个网页类别对应N-gram分类模型。N取不同的正整数,对应N-gram子模型。
本申请实施例提供的网页分类模型构建方法,通过获取多个网页类别的URL,并进行预处理,得到每个网页类别的训练集,进而可以训练得到每个网页类别的N-gram模型。
可以理解,本申请实施例提供的网页分类,在通过上述实施例构建得到每个网页类别的N-gram分类模型后,可以利用N-gram分类模型及待分类网页的URL对该待分类网页进行分类,具体分类方法如图3及图4所示。
图3为本申请实施例提供的网页分类方法的流程示意图,如图3所示,该方法可以包括:
S210,获取待分类网页的URL。
S220,切分该URL,得到新的字符串集合。
获取需要爬取的网页对应的URL,该URL可以为网页对应的链接地址。在获取URL之后,可以对获取的UR进行切分处理。
优选的,如图4所示,本申请另一实施例提供的网页分类方法中,还可以对切分后的字符串集合中删除无效字符串,以提高计算效率。即可以选择性的执行S221,在字符串集合中删除无效字符串,从而使得新的字符串集合不包括无效字符串。
例如,待分类网页的URL为http://abc.def.ghe.com,则对其进行预处理,即首先可以对该URL切分,即以非字母符号“://”及“.”作为分隔符切分,进而可以删除常见web名词及长度小于2的字符串,删除http及com的无效字符串,可以得到该待分类网页的URL的新的字符串集合为:
abc、def及ghe。
对应的,可以对应于N-gram子模型,提取得到不同按序组合的字符串组合:
1-gram:abc、def及ghe。
2-gram:(abc,def)及(def,ghe)。
3-gram:(abc,def,ghe)。
S230,将该新的字符串集合输入上述实施例中预先所构建的N-gram分类模型中,得到每个该N-gram子模型输出的第二概率值集合。
具体的,可以将执行了S221,即剔除了无效字符串后的字符串组合输入到对应的网页类别的N-gram子模型中,或者,可以直接将可能包括无效字符串的上述字符串组合输入到对应的网页类别的N-gram子模型中。假设预先训练得到有3个网页类别的N-gram分类模型,且每个网页类别的N-gram分类模型包括多个子模型。
例如,可以将abc、def及ghe分别输入到每个网页类别对应的1-gram子模型中。可以将(abc,def)及(def,ghe)分别输入到每个网页类别对应的2-gram子模型中;可以将(abc,def,ghe)分别输入到每个网页类别对应的3-gram子模型中,从而可以得到每个网页类别的1-gram子模型、2-gram子模型及3-gram子模型输出的第二概率值集合。
即第一网页类别的1-gram输出的P(abc)、P(def)及P(ghe);
第二网页类别的1-gram输出的P(abc)、P(def)及P(ghe);
第三网页类别的1-gram输出的P(abc)、P(def)及P(ghe);
第一网页类别的2-gram输出的P(def|abc)及P(ghe|def);
第二网页类别的2-gram输出的P(def|abc)及P(ghe|def);
第三网页类别的2-gram输出的P(def|abc)及P(ghe|def);
第一网页类别的3-gram输出的P(ghe|abc,def);
第二网页类别的3-gram输出的P(ghe|abc,def);
第三网页类别的3-gram输出的P(ghe|abc,def)。
可选的,实际中,为了使得每个子模型能够输出该URL的概率值,假如某个词的概率值为零时,需要做平滑处理,使得其不为零。即S235,如果新的字符串集合中N个字符串按序组合出现的次数为0,则采用平滑算法处理N个字符串按序组合对应的概率值,使得概率值大于零。
例如,第二网页类别中,字符串组合abc def没有出现,则该网页类别对应的2-gram输出的P(def|abc)为零,则导致第二网页类别中2-gram子模型,输出的P(abc,def,ghe)为零。显然,该结果与实际情况不符,则需要对该结果做平滑处理,使得输出概率值不为零。
S240,分别按照该N-gram子模型计算该新的字符串集合的第三概率值。
具体的,可以计算得到每个网页类别的N-gram子模型对应的新的字符串集合的第三概率值。
S241,根据新的字符串集合的个数选择N-gram子模型;
S242,利用选择的N-gram子模型计算新的字符串集合的第三概率值。
具体的,对于待分类网页的URL,可以根据实际情况选择网页类别的N-gram子模型,如上述http://abc.def.ghe.com,由于切分后的组合的字符串中,N的最大值为3,则选取的N-gram子模型可以为1-gram子模型、2-gram子模型及3-gram子模型。或者,在其他情况下,也可以仅仅选取2-gram子模型及3-gram子模型,本申请对此不做限制。
在选择了确定的N-gram子模型后,进而可以利用选择的N-gram子模型计算新的字符串集合的第三概率值。
例如,选择1-gram子模型、2-gram子模型及3-gram子模型,继续根据S230的计算结果,如第一网页类别的1-gram子模型输出的P(abc def ghe)=P(abc)P(def)P(ghe)=0.7,第二网页类别的1-gram子模型输出的P(abc def ghe)=0.8,第三网页类别的1-gram子模型输出的P(abc def ghe)=0.9。
如第一网页类别的2-gram子模型输出的P(abc def ghe)=P(abc)P(def|abc)P(ghe|def)=0.4,第二网页类别的2-gram子模型输出的P(abc def ghe)=0.6,第三网页类别的2-gram子模型输出的P(abc def ghe)=0.5。
如第一网页类别的3-gram子模型输出的P(abc def ghe)=P(abc)P(def|abc)P(ghe|abc,def)=0.5,第二网页类别的3-gram子模型输出的P(abc def ghe)=0.4,第三网页类别的3-gram子模型输出的P(abc def ghe)=0.6。
S250,基于该第三概率值来确定该待分类网页的类别。
具体的,如图4所示,可以通过以下的投票方式来确定该待分类网页的类别:
S251,确定第三概率值中的最大值对应的网页类别的个数。
S252,以个数中最大值对应的网页类别作为待分类网页的URL的类别。
具体的,首先可以统计待分类网页的URL的N-gram子模型最大概率值对应的网页类别的个数,如1-gram子模型及3-gram子模型的最大概率值对应第一类网页,即给第一类网页投票两次,2-gram子模型最大概率值对应第二类网页,即给第二类网页投票一次。则决定以个数最大值对应的第一类网页作为待分类网页的URL的类别。
例如,对于上述URL,则可以根据上述输出的结果,确定1-gram子模型输出的第三网页类别的概率最大,2-gram子模型输出的第二网页类别的概率值最大,3-gram子模型输出第三网页类别的概率值最大,综上,可以确定,概率值最大的第三网页类别为两次,则该待分网页属于类别三。
本申请实施例提供的网页分类方法,通过将待分类网页对应的URL切分处理后的字符串集合分别输入到预先训练得到的包括多个子模型的N-gram分类模型中,以输出每个子模型的预测结果,进而统计预测结果指示的网页类别,确定该待分类网页所属的类别,实现利用网页的URL对网页的分类,提高了分类效率,节省了网络资源。
如图5所示为本申请实施例的网页分类模型构建及分类的原理示意图,如图5所示,可以在训练得到分类模型后,可以将待分类网页的URL输入到得到的分类模型,以输出该网页的分类结果。
图6所示为本申请实施例提供的网页分类模型构建装置的结构示意图,如图6所示,该装置600可以包括:
第一获取模块610,用于获取至少一个网页类别的训练集,该训练集包括与该网页类别对应的至少一个网页的统一资源定位符URL;
第一处理模块620,用于对每个该训练集中每个该URL进行预处理,得到与每个该URL对应的字符串集合,该字符串的字符串长度大于等于2;
训练模块630,用于利用每个该字符串集合分别训练与该网页类别对应的N-gram子模型,得到由该N-gram子模型组成的N-gram分类模型,该N-gram子模型用于指示该字符串集合中N个该字符串按序组合的概率值集合,N取值为大于等于1的正整数。
优选的,本申请实施例提供的网页分类模型构建装置,该训练模块具体用于:
统计每个该字符串集合中N个该字符串按序组合出现的次数;
利用该次数计算该N个该字符串按序组合出现的概率值集合。
优选的,本申请实施例提供的网页分类模型构建装置,该第一处理模块,具体用于:
将该URL进行转换;
将转换后的URL进行切分,得到该字符串集合;
在该字符串集合中删除无效字符串。
图7所示为本申请实施例提供的网页分类装置的结构示意图,如图7所示,该装置700可以包括:
第二获取模块710,用于获取待分类网页的URL;
第二处理模块720,用于切分该URL,得到新的字符串集合,其中,新的字符串集合可以不包括无效字符串;
输入模块730,用于将该新的字符串集合输入到如上述实施例所构建的N-gram分类模型中,得到每个该N-gram子模型输出的第二概率值集合;
计算模块740,用于分别按照该N-gram子模型计算该新的字符串集合的第三概率值;
确定模块750,用于基于该第三概率值来确定该待分类网页的类别。
其中,该计算模块具体用于:
根据该新的字符串集合的个数选择该N-gram子模型输出结果的数量;利用选择的该N-gram子模型计算该新的字符串集合的该第三概率值。
优选的,本申请实施例提供的网页分类装置,该确定模块具体用于:
确定该第三概率值中的最大值对应的网页类别的个数;以该个数中最大值对应的该网页类别作为该待分类网页的URL的类别。
优选的,本申请实施例提供的网页分类装置,该装置还包括平滑模块760,用于如果该新的字符串集合中N个字符串按序组合出现的次数为0,则采用平滑算法处理该N个字符串按序组合对应的概率值,使得该概率值大于零。
可以理解,本申请实施例还提供一种服务器,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行所述程序时实现如上所述的网页分类模型构建及网页分类方法。
下面参考图8,其示出了适于用来实现本申请实施例的服务器的计算机系统800的结构示意图。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)808中的程序而执行各种适当的动作和处理。在RAM 808中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口808。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本申请公开的实施例,上文参考图1-图5描述的过程可以被实现为计算机软件程序。例如,本申请公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,该计算机程序包含用于执行图1的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种网页分类实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取模块、第一处理模块及训练模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,第一获取模块还可以被描述为“用于获取至少一个网页类别的训练集的模块”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,前述程序被一个或者一个以上的处理器用来执行描述于本申请的网页分类模型构建,具体执行:获取至少一个网页类别的训练集;对每个该训练集中每个该URL进行预处理,得到与每个该URL对应的字符串集合;利用每个该字符串集合分别训练与该网页类别对应的N-gram子模型,得到由该N-gram子模型组成的N-gram分类模型,该N-gram子模型用于指示该字符串集合中N个该字符串按序组合的概率值集合。
综上所述,本申请实施例提供的网页分类模型构建方法、分类方法及其装置,该分类模型构建方法通过获取所有网页类别的URL的训练集,并对所有的URL进行切分,得到字符串集合,进而对每个类别的字符串集合进行训练,实现网页分类模型的构建,得到每个类别对应的N-gram子模型组成的N-gram分类模型,从而可以利用N-gram分类模型对待分类网页的URL包含的字符串的概率值进行预测,完成网页分类,提高了分类效率,避免了对待分类网页内容的爬取,降低了网络资源的耗费。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种网页分类模型构建方法,其特征在于,包括:
获取至少一个网页类别的训练集,所述训练集包括与所述网页类别对应的至少一个网页的统一资源定位符URL;
对每个所述训练集中每个所述URL进行预处理,得到与每个所述URL对应的字符串集合;
利用每个所述字符串集合分别训练与所述网页类别对应的N-gram子模型,得到由所述N-gram子模型组成的N-gram分类模型,所述N-gram子模型用于指示所述字符串集合中N个所述字符串按序组合的概率值集合,N取值为大于等于1的正整数。
2.根据权利要求1所述的网页分类模型构建方法,其特征在于,所述利用每个所述字符串集合分别训练与所述网页类别对应的N-gram子模型,包括:
统计每个所述字符串集合中N个所述字符串按序组合出现的次数;
利用所述次数计算所述N个所述字符串按序组合出现的概率值集合。
3.根据权利要求1所述的网页分类模型构建方法,其特征在于,所述对所述训练集中每个所述URL进行预处理,包括:
将所述URL进行大小写字母转换;
将转换后的URL进行切分,得到所述字符串集合;
在所述字符串集合中删除无效字符串。
4.一种网页分类方法,其特征在于,包括:
获取待分类网页的URL;
切分所述URL,得到新的字符串集合,其中,所述新的字符串集合可以不包括无效字符串;
将所述新的字符串集合输入到如权利要求1-3任一项所构建的N-gram分类模型中,得到每个所述N-gram子模型输出的第二概率值集合;
分别按照所述N-gram子模型计算所述新的字符串集合的第三概率值;
基于所述第三概率值来确定所述待分类网页的类别;
其中,所述按照所述N-gram子模型计算所述新的字符串集合的第三概率值,包括:
根据所述新的字符串集合的个数选择所述N-gram子模型;
利用选择的所述N-gram子模型计算所述新的字符串集合的所述第三概率值。
5.根据权利要求4所述的网页分类方法,其特征在于,所述基于所述第三概率值来确定所述待分类网页的类别包括:
确定所述第三概率值中的最大值对应的网页类别的个数;
以所述个数中最大值对应的所述网页类别作为所述待分类网页的URL的类别。
6.根据权利要求5所述的网页分类方法,其特征在于,所述方法还包括:
如果所述新的字符串集合中N个字符串按序组合出现的次数为0,则采用平滑算法处理所述N个字符串按序组合对应的概率值,使得所述概率值大于零。
7.一种网页分类模型构建装置,其特征在于,包括:
第一获取模块,用于获取至少一个网页类别的训练集,所述训练集包括与所述网页类别对应的至少一个网页的统一资源定位符URL;
第一处理模块,用于对每个所述训练集中每个所述URL进行预处理,得到与每个所述URL对应的字符串集合;
训练模块,用于利用每个所述字符串集合分别训练与所述网页类别对应的N-gram子模型,得到由所述N-gram子模型组成的N-gram分类模型,所述N-gram子模型用于指示所述字符串集合中N个所述字符串按序组合的概率值集合,N取值为大于等于1的正整数。
8.根据权利要求7所述的网页分类模型构建装置,其特征在于,所述训练模块具体用于:
统计每个所述字符串集合中N个所述字符串按序组合出现的次数;
利用所述次数计算所述N个所述字符串按序组合出现的概率值集合。
9.根据权利要求7所述的网页分类模型构建装置,其特征在于,所述第一处理模块,具体用于:
将所述URL进行大小写字母转换;
将转换后的URL进行切分,得到所述字符串集合;
在所述字符串集合中删除无效字符串。
10.一种网页分类装置,其特征在于,包括:
第二获取模块,用于获取待分类网页的URL;
第二处理模块,用于切分所述URL,得到新的字符串集合,其中,所述新的字符串集合可以不包括无效字符串;
输入模块,用于将所述新的字符串集合输入到如权利要求1-3任一项中所构建的N-gram分类模型中,得到每个所述N-gram子模型输出的第二概率值集合;
计算模块,用于分别按照所述N-gram子模型计算所述新的字符串集合的第三概率值;
确定模块,用于基于所述第三概率值来确定所述待分类网页的类别;
其中,所述计算模块具体用于:
根据所述新的字符串集合的个数选择所述N-gram子模型输出结果的数量;
利用选择的所述N-gram子模型计算所述新的字符串集合的所述第三概率值。
11.根据权利要求10所述的网页分类装置,其特征在于,所述确定模块具体用于:
确定所述第三概率值中的最大值对应的网页类别的个数;
以所述个数中最大值对应的所述网页类别作为所述待分类网页的URL的类别。
12.根据权利要求10所述的网页分类装置,其特征在于,所述装置还包括:
平滑模块,用于如果所述新的字符串集合中N个字符串按序组合出现的次数为0,则采用平滑算法处理所述N个字符串按序组合对应的概率值,使得所述概率值大于零。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811455431.1A CN111259273A (zh) | 2018-11-30 | 2018-11-30 | 网页分类模型构建方法、分类方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811455431.1A CN111259273A (zh) | 2018-11-30 | 2018-11-30 | 网页分类模型构建方法、分类方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111259273A true CN111259273A (zh) | 2020-06-09 |
Family
ID=70948504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811455431.1A Pending CN111259273A (zh) | 2018-11-30 | 2018-11-30 | 网页分类模型构建方法、分类方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259273A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112642157A (zh) * | 2020-12-31 | 2021-04-13 | 广州华多网络科技有限公司 | 代理开发控制方法及其相应的装置、设备、介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8078625B1 (en) * | 2006-09-11 | 2011-12-13 | Aol Inc. | URL-based content categorization |
CN102930290A (zh) * | 2012-10-09 | 2013-02-13 | 中国科学院东北地理与农业生态研究所 | 集成分类器及该装置的分类方法 |
CN103020067A (zh) * | 2011-09-21 | 2013-04-03 | 北京百度网讯科技有限公司 | 一种确定网页类型的方法和装置 |
CN105512143A (zh) * | 2014-09-26 | 2016-04-20 | 中兴通讯股份有限公司 | 一种网页分类方法及装置 |
CN105718490A (zh) * | 2014-12-04 | 2016-06-29 | 阿里巴巴集团控股有限公司 | 一种用于更新分类模型的方法及装置 |
CN107437099A (zh) * | 2017-08-03 | 2017-12-05 | 哈尔滨工业大学 | 一种基于机器学习的特定服饰图像识别与检测方法 |
-
2018
- 2018-11-30 CN CN201811455431.1A patent/CN111259273A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8078625B1 (en) * | 2006-09-11 | 2011-12-13 | Aol Inc. | URL-based content categorization |
CN103020067A (zh) * | 2011-09-21 | 2013-04-03 | 北京百度网讯科技有限公司 | 一种确定网页类型的方法和装置 |
CN102930290A (zh) * | 2012-10-09 | 2013-02-13 | 中国科学院东北地理与农业生态研究所 | 集成分类器及该装置的分类方法 |
CN105512143A (zh) * | 2014-09-26 | 2016-04-20 | 中兴通讯股份有限公司 | 一种网页分类方法及装置 |
CN105718490A (zh) * | 2014-12-04 | 2016-06-29 | 阿里巴巴集团控股有限公司 | 一种用于更新分类模型的方法及装置 |
CN107437099A (zh) * | 2017-08-03 | 2017-12-05 | 哈尔滨工业大学 | 一种基于机器学习的特定服饰图像识别与检测方法 |
Non-Patent Citations (2)
Title |
---|
骆聪等: "基于改进的n-gram模型的URL分类算法研究", vol. 28, no. 09, pages 38 - 41 * |
黎斌: "面向URL 的用户建模关键技术研究", no. 2017, pages 138 - 4740 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112642157A (zh) * | 2020-12-31 | 2021-04-13 | 广州华多网络科技有限公司 | 代理开发控制方法及其相应的装置、设备、介质 |
CN112642157B (zh) * | 2020-12-31 | 2023-04-28 | 广州华多网络科技有限公司 | 代理开发控制方法及其相应的装置、设备、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491534B (zh) | 信息处理方法和装置 | |
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
EP3702928A1 (en) | Method for question answering service, question answering system and storage medium | |
CN110705301B (zh) | 实体关系抽取方法及装置、存储介质、电子设备 | |
CN107301170B (zh) | 基于人工智能的切分语句的方法和装置 | |
US20230386168A1 (en) | Pre-training method, image and text retrieval method for a vision and scene text aggregation model, electronic device, and storage medium | |
JP7335300B2 (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
CN114385780B (zh) | 程序接口信息推荐方法、装置、电子设备和可读介质 | |
CN112883731A (zh) | 内容分类方法和装置 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN111061877A (zh) | 文本主题提取方法和装置 | |
JP2023002690A (ja) | セマンティックス認識方法、装置、電子機器及び記憶媒体 | |
CN117271736A (zh) | 一种问答对的生成方法和系统、电子设备及存储介质 | |
CN113408507B (zh) | 基于履历文件的命名实体识别方法、装置和电子设备 | |
WO2023029350A1 (zh) | 基于点击行为预测的信息推送方法及装置 | |
CN113569559B (zh) | 短文本实体情感分析方法、系统、电子设备及存储介质 | |
CN112926341A (zh) | 文本数据处理方法、装置 | |
CN111259273A (zh) | 网页分类模型构建方法、分类方法及其装置 | |
CN106959945B (zh) | 基于人工智能的为新闻生成短标题的方法和装置 | |
CN112632962B (zh) | 人机交互系统中实现自然语言理解方法和装置 | |
CN110895655A (zh) | 提取文本核心短语的方法和装置 | |
CN115359323A (zh) | 图像的文本信息生成方法和深度学习模型的训练方法 | |
CN114970470A (zh) | 文案信息处理方法、装置、电子设备和计算机可读介质 | |
CN114490946A (zh) | 基于Xlnet模型的类案检索方法、系统及设备 | |
CN114299074A (zh) | 一种视频分割方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |