CN108897883A - 网站的页面主体的确定方法及装置 - Google Patents
网站的页面主体的确定方法及装置 Download PDFInfo
- Publication number
- CN108897883A CN108897883A CN201810737697.9A CN201810737697A CN108897883A CN 108897883 A CN108897883 A CN 108897883A CN 201810737697 A CN201810737697 A CN 201810737697A CN 108897883 A CN108897883 A CN 108897883A
- Authority
- CN
- China
- Prior art keywords
- predetermined character
- label substance
- target
- attribute value
- target labels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种网站的页面主体的确定方法及装置。其中,该方法包括:获取目标页面,其中,目标页面为待进行页面主体提取的页面;获取目标页面中满足预定条件的目标标签;确定目标标签的标签内容,得到标签内容集合;获取标签内容集合中每个标签内容的属性值,得到属性值集合;根据属性值集合中的属性值确定目标页面的页面主体。本发明解决了相关技术中提取网页文本的方式由于操作繁琐导致的网页文本提取的效率较低的技术问题。
Description
技术领域
本发明涉及计算机网络技术领域,具体而言,涉及一种网站的页面主体的确定方法及装置。
背景技术
现有技术中提供的用于提取网页文本内容的方案中,网页在浏览器中加载完毕后,将网页中的内容进行拆分,然后由浏览器中的匹配规则文件对网页内容进行定位,抽取出所需的字段内容并显示出来,从而用户可以看到文本筛选后的网页,使用户能够方便和专注的阅读。
然而,由于现有方案针对某一预定网页结构设置一个匹配规则文件,该匹配规则文件仅适用于预定结构下网页文本内容的提取,但是由于网络资源的更新速度非常快,网页结构会时常变动,已有的匹配规则文件将无法对变动后的网页进行文本提取,而重新生成新的匹配规则文件,再将新的匹配规则文件设置在浏览器中,又导致实现匹配的操作过于繁琐,工作量较大、效率低下。
针对上述相关技术中提取网页文本的方式由于操作繁琐导致的网页文本提取的效率较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网站的页面主体的确定方法及装置,以至少解决相关技术中提取网页文本的方式由于操作繁琐导致的网页文本提取的效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种网站的页面主体的确定方法,包括:获取目标页面,其中,所述目标页面为待进行页面主体提取的页面;获取所述目标页面中满足预定条件的目标标签;确定所述目标标签的标签内容,得到标签内容集合;获取所述标签内容集合中每个标签内容的属性值,得到属性值集合;根据所述属性值集合中的属性值确定所述目标页面的页面主体。
可选地,获取所述标签内容集合中每个标签内容的属性值包括:确定所述每个标签内容的预定字符数量和预定字符占比;根据所述每个标签内容的预定字符数量和所述预定字符占比确定所述每个标签内容的属性值。
可选地,根据所述每个标签内容的预定字符数量和所述预定字符占比确定所述每个标签内容的属性值包括:对所述每个标签内容的预定字符数量和预定字符占比进行归一化;根据归一化后的预定字符数量和预定字符占比确定所述每个标签内容的属性值。
可选地,对所述每个标签内容的预定字符数量和预定字符占比进行归一化包括:通过第一公式对所述每个标签内容的预定字符占比进行归一化,其中,所述第一公式为:Norinta(i)=(inta(i)-intaMu)/stdinta,其中,Norinta(i)表示归一化后的第i个目标标签的标签内容的预定字符占比,inta(i)表示归一化前的第i个目标标签的标签内容的预定字符占比,intaMu表示i个目标标签的标签内容的预定字符占比的均值,stdinta表示i个目标标签的标签内容的预定字符占比的方差,i为目标标签的数量,i为正整数;通过第二公式对所述每个标签内容的预定字符数量进行归一化,其中,所述第二公式为:NorCN(i)=(CN(i)-CNMu)/stdCN,其中,NorCN(i)表示归一化后的第i个目标标签的标签内容的预定字符数量,CN(i)表示归一化前的第i个目标标签的标签内容的预定字符数量,CNMu表示i个目标标签的标签内容的预定字符数量的均值,stdCN表示i个目标标签的标签内容的预定字符数量的方差。
可选地,获取所述标签内容集合中每个标签内容的属性值包括:通过第三公式确定所述标签内容集合中每个标签内容的属性值,其中,所述第三公式为:power(ki)=Norinta(i)*NorCN(i),其中,power(ki)表示第i个标签内容的属性值,Norinta(i)表示归一化后的第i个目标标签的标签内容的预定字符占比,NorCN(i)表示归一化后的第i个目标标签的标签内容的预定字符数量。
可选地,在根据所述属性值集合中的属性值确定所述目标页面的页面主体之前,上述网站的页面主体的确定方法还包括:确定目标页面的最低预定字符占比和最低预定字符数量;确定所述标签内容集合中标签内容满足预设条件的标签内容,得到目标标签内容集合,其中,所述预设条件包括:预定字符占比大于所述最低预定字符占比,预定字符数量大于所述最低预定字符数量;确定所述目标标签内容集合中每个目标标签内容的属性值;根据所述每个目标标签内容的属性值确定所述目标页面的页面主体。
可选地,根据所述每个目标标签内容的属性值确定所述目标页面的页面主体包括:确定所述每个目标标签内容的属性值中最大的属性值;确定所述最大的属性值对应的标签内容为所述目标页面的页面主体。
根据本发明实施例的另外一个方面,还提供了一种网站的页面主体的确定装置,包括:第一获取单元,用于获取目标页面,其中,所述目标页面为待进行页面主体提取的页面;第二获取单元,用于获取所述目标页面中满足预定条件的目标标签;第一确定单元,用于确定所述目标标签的标签内容,得到标签内容集合;第三获取单元,用于获取所述标签内容集合中每个标签内容的属性值,得到属性值集合;第二确定单元,用于根据所述属性值集合中的属性值确定所述目标页面的页面主体。
可选地,所述第三获取单元包括:第一确定子单元,用于确定所述每个标签内容的预定字符数量和预定字符占比;第二确定子单元,用于根据所述每个标签内容的预定字符数量和所述预定字符占比确定所述每个标签内容的属性值。
可选地,所述第二确定子单元包括:处理模块,用于对所述每个标签内容的预定字符数量和预定字符占比进行归一化;确定模块,用于根据归一化后的预定字符数量和预定字符占比确定所述每个标签内容的属性值。
可选地,所述处理模块包括:第一处理模块,用于通过第一公式对所述每个标签内容的预定字符占比进行归一化,其中,所述第一公式为:Norinta(i)=(inta(i)-intaMu)/stdinta,其中,Norinta(i)表示归一化后的第i个目标标签的标签内容的预定字符占比,inta(i)表示归一化前的第i个目标标签的标签内容的预定字符占比,intaMu表示i个目标标签的标签内容的预定字符占比的均值,stdinta表示i个目标标签的标签内容的预定字符占比的方差,i为目标标签的数量,i为正整数;第二处理模块,用于通过第二公式对所述每个标签内容的预定字符数量进行归一化,其中,所述第二公式为:NorCN(i)=(CN(i)-CNMu)/stdCN,其中,NorCN(i)表示归一化后的第i个目标标签的标签内容的预定字符数量,CN(i)表示归一化前的第i个目标标签的标签内容的预定字符数量,CNMu表示i个目标标签的标签内容的预定字符数量的均值,stdCN表示i个目标标签的标签内容的预定字符数量的方差。
可选地,所述第三获取单元包括:第三确定子单元,用于通过第三公式确定所述标签内容集合中每个标签内容的属性值,其中,所述第三公式为:power(ki)=Norinta(i)*NorCN(i),其中,power(ki)表示第i个标签内容的属性值,Norinta(i)表示归一化后的第i个目标标签的标签内容的预定字符占比,NorCN(i)表示归一化后的第i个目标标签的标签内容的预定字符数量。
可选地,上述网站的页面主体的确定方法还包括:第三确定单元,用于在根据所述属性值集合中的属性值确定所述目标页面的页面主体之前,确定目标页面的最低预定字符占比和最低预定字符数量;第四确定单元,用于确定所述标签内容集合中标签内容满足预设条件的标签内容,得到目标标签内容集合,其中,所述预设条件包括:预定字符占比大于所述最低预定字符占比,预定字符数量大于所述最低预定字符数量;第五确定单元,用于确定所述目标标签内容集合中每个目标标签内容的属性值;第六确定单元,用于根据所述每个目标标签内容的属性值确定所述目标页面的页面主体。
可选地,所述第六确定单元包括:第四确定子单元,用于确定所述每个目标标签内容的属性值中最大的属性值;第五确定子单元,用于确定所述最大的属性值对应的标签内容为所述目标页面的页面主体。
根据本发明实施例的另外一个方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述中任意一项所述的网站的页面主体的确定方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的网站的页面主体的确定方法。
在本发明实施例中,采用获取目标页面,其中,目标页面为待进行页面主体提取的页面;并获取目标页面中满足预定条件的目标标签;然后确定目标标签的标签内容,得到标签内容集合;以及获取标签内容集合中每个标签内容的属性值,得到属性值集合;进而根据属性值集合中的属性值确定目标页面的页面主体的方式,通过本发明实施例提供的网站的页面主体的确定方法可以实现根据需要进行提取主体文本的目标网页中存在预定文本类型内容的标签以及标签内容进行主体文本提取的目的,达到了简化主体文本提取的流程,增加了主体文本提取的适用性,提高了主体文本提取的效率的技术效果,进而解决了相关技术中提取网页文本的方式由于操作繁琐导致的网页文本提取的效率较低的技术问题,提升了用户体验。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的网站的页面主体的确定方法的流程图;
图2是根据本发明实施例的网站的页面主体的确定装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
对于一个单独的网页,往往最有价值的部分是网页的正文。然而就现在的大多数网站的网页而言,不仅包含正文,网页标签,其他的如广告、网页链接、插件等占据了网页相当一部分的内容。由于现实的需要,往往需要对网页的内容进行分析从而提取有价值的信息,因此,在用户需要获取一个网页的主要的信息时,可以对网页进行主体文本的提取。在用户想要进行网站主体文本的提取之前,首先会选择一个网站(例如,中文网站,外文网站等),然后利用爬虫工具从目标网站上获取目标网页,进而根据预定规则从预定网页获取目标网页的页面主体,从而有效地提高了用户的网页信息获取效率。需要说明的是,在本发明实例中提供的网站的页面主体的确定方法不仅仅适用于中文网站,经过一些预设条件的设置,也可以应用于其他的外文网站的页面主体的确定。下面对本发明实施例提供的网站的页面主体的确定方法进行详细说明。
实施例1
根据本发明实施例,提供了一种网站的页面主体的确定方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的网站的页面主体的确定方法的流程图,如图1所示,该网站的页面主体的确定方法包括如下步骤:
步骤S102,获取目标页面,其中,目标页面为待进行页面主体提取的页面。
例如,可以利用爬虫工具根据用户的需求从网站上爬取目标网页。其中,在本发明实施例中对爬虫工具的种类不做具体限定,可以为各种用于进行网页爬取的爬虫工具。
步骤S104,获取目标页面中满足预定条件的目标标签。
其中,这里的预设条件是存在预定类型内容,其中预定类型内容既可以为中文内容,也可以为外文。在目标网页中会存在多个标签(例如,head、body、div等),在这里需要获取的是存在预定类型内容的标签,也即是,目标标签。
步骤S106,确定目标标签的标签内容,得到标签内容集合。
在上述步骤S104中获取到目标标签之后,进而获取目标的标签内容,得到标签内容集合。
步骤S108,获取标签内容集合中每个标签内容的属性值,得到属性值集合。
步骤S110,根据属性值集合中的属性值确定目标页面的页面主体。
通过上述步骤,可以根据获取目标页面,其中,目标页面为待进行页面主体提取的页面;同时获取目标页面中满足预定条件的目标标签;并确定目标标签的标签内容,得到标签内容集合;进而获取标签内容集合中每个标签内容的属性值,得到属性值集合;以及根据属性值集合中的属性值确定目标页面的页面主体。相对于相关技术中用于提取网页文本内容的方案中,网页在浏览器加载完毕后,将网页中的内容拆分,然后由浏览器中的匹配规则文件对网页内容进行定位,抽取出所需要的字段内容并显示出来,适用性较低,在网页结构发生变动时,已有的匹配规则文件将无法对变动后的网页进行文本提取,需要将新的匹配规则文件设置在浏览器中,导致的网页文本提取的效率较低的弊端,通过本发明实施例提供的网站的页面主体的确定方法可以实现根据需要进行提取主体文本的目标网页中存在预定类型内容的标签以及标签内容进行主体文本提取的目的,达到了简化主体文本提取的流程,增加了主体文本提取的适用性,提高了主体文本提取的效率的技术效果,进而解决了相关技术中提取网页文本的方式由于操作繁琐导致的网页文本提取的效率较低的技术问题,提升了用户体验。
需要说明的是,在加载到一个目标网页之后,可能会跳转出来一些广告等其他的页面,在上述步骤S104获取目标页面中满足预定条件的目标标签之前,还需要将除了目标网页外的其他网页过滤掉。
作为本发明一个可选的实施例,获取标签内容集合中每个标签内容的属性值可以包括:确定每个标签内容的预定字符数量和预定字符占比;根据每个标签内容的预定字符数量和预定字符占比确定每个标签内容的属性值。其中,这里的属性值是用于判断目标网页是文本,还是数字文本以及图片文本等。需要说明的是,上述预定字符的属性与上述目标网页所在的网站的属性是相同的,也即是,如果上述目标网页对应的网站是中文网站,那么上述预定字符为中文字符;如果上述目标网页对应的网站为英文网站,那么上述预定字符为英文字符。
在上述实施例中,根据每个标签内容的预定字符数量和预定字符占比确定每个标签内容的属性值可以包括:对每个标签内容的预定字符数量和预定字符占比进行归一化;根据归一化后的预定字符数量和预定字符占比确定每个标签内容的属性值。
其中,对每个标签内容的预定字符数量和预定字符占比进行归一化可以包括:通过第一公式对每个标签内容的预定字符占比进行归一化,其中,第一公式为:Norinta(i)=(inta(i)-intaMu)/stdinta,其中,Norinta(i)表示归一化后的第i个目标标签的标签内容的预定字符占比,inta(i)表示归一化前的第i个目标标签的标签内容的预定字符占比,intaMu表示i个目标标签的标签内容的预定字符占比的均值,stdinta表示i个目标标签的标签内容的预定字符占比的方差,i为目标标签的数量,i为正整数;通过第二公式对每个标签内容的预定字符数量进行归一化,其中,第二公式为:NorCN(i)=(CN(i)-CNMu)/stdCN,其中,NorCN(i)表示归一化后的第i个目标标签的标签内容的预定字符数量,CN(i)表示归一化前的第i个目标标签的标签内容的预定字符数量,CNMu表示i个目标标签的标签内容的预定字符数量的均值,stdCN表示i个目标标签的标签内容的预定字符数量的方差。
在上述实施例中对每个标签内容的预定字符数量和预定字符占比进行归一化之后,获取标签内容集合中每个标签内容的属性值可以包括:通过第三公式确定标签内容集合中每个标签内容的属性值,其中,第三公式为:power(ki)=Norinta(i)*NorCN(i),其中,power(ki)表示第i个标签内容的属性值,Norinta(i)表示归一化后的第i个目标标签的标签内容的预定字符占比,NorCN(i)表示归一化后的第i个目标标签的标签内容的预定字符数量。
其中,为了提取的页面主体更加可靠,在根据属性值集合中的属性值确定目标页面的页面主体之前,上述网站的页面主体的确定方法还可以包括:确定目标页面的最低预定字符占比和最低预定字符数量;确定标签内容集合中标签内容满足预设条件的标签内容,得到目标标签内容集合,其中,预设条件包括:预定字符占比大于最低预定字符占比,预定字符数量大于最低预定字符数量;确定目标标签内容集合中每个目标标签内容的属性值;根据每个目标标签内容的属性值确定目标页面的页面主体。
例如,在获取目标网页之前,对最低预定字符占比alpha以及最低预定字符数量Beta进行初始化,其中,alpha,Beta可根据需要自行设置。
优选地,根据每个目标标签内容的属性值确定目标页面的页面主体可以包括:确定每个目标标签内容的属性值中最大的属性值;确定最大的属性值对应的标签内容为目标页面的页面主体。
下面对本发明一个优选的实施例进行详细说明。
首先,在获取目标网页之前,对最低预定字符占比alpha以及最低预定字符数量Beta进行初始化,其中,alpha,Beta可根据需要自行设置。接着利用爬虫工具获取目标网站html,根据html的树状结构提取每一个存在预定类型内容的标签(一般提取div标签),放入标签内容集合labellist={L(1),L(2),…..L(i),….L(num)}中,其中,num为标签数量。再分别计算每个标签中预定字符占比(inta)与存在的预定字符数量(Chinese Number)。
在上述实施例中,可令计数器ki=1,根据预定文本类型字符的编码,统计L(ki)中的预定字符数量CN(ki),与整个目标标签的标签内容的文本字符数量AN(ki),从而计算L(ki)的预定字符占比inta(ki)值,计算公式为:inta(ki)=CN(ki)/AN(ki)。
然后,可令计数器ki=ki+1,如果ki等于num,则说明已经得到目标标签中每个目标标签的标签内容的预定字符占比。
在确定已经得到目标标签中每个目标标签的标签内容的预定字符占比之后,可以根据每个目标标签的预定字符占比inta(ki)与预定字符数量CN(ki),计算每个目标标签的标签内容的属性值power(ki)。
其中,具体的计算方式为,先将每个目标标签的预定字符占比inta(ki)与预定字符数量CN(ki)进行归一化,具体地,可以通过第一公式对每个标签内容的预定字符占比进行归一化,其中,第一公式为:Norinta(i)=(inta(i)-intaMu)/stdinta,其中,Norinta(i)表示归一化后的第i个目标标签的标签内容的预定字符占比,inta(i)表示归一化前的第i个目标标签的标签内容的预定字符占比,intaMu表示i个目标标签的标签内容的预定字符占比的均值,stdinta表示i个目标标签的标签内容的预定字符占比的方差,i为目标标签的数量,i为正整数。
同时可以通过第二公式对每个标签内容的预定字符数量进行归一化,其中,第二公式为:NorCN(i)=(CN(i)-CNMu)/stdCN,其中,NorCN(i)表示归一化后的第i个目标标签的标签内容的预定字符数量,CN(i)表示归一化前的第i个目标标签的标签内容的预定字符数量,CNMu表示i个目标标签的标签内容的预定字符数量的均值,stdCN表示i个目标标签的标签内容的预定字符数量的方差。
最后,选择满足预定字符占比inta大于alpha,预定字符数量CN值大于Beta,并且power值最大的标签,提取里面的内容即为得到的目标网页的页面主体。
在本发明实施例中提供的网站的页面主体的确定方法可以通过设置最低预定字符占比alpha,最低预定字符数量Beta;然后获取目标网页中预定类型内容标签;再计算每个目标标签的预定字符占比,以及预定字符数量;进而根据得到预定字符占比,以及预定字符数量计算属性度值;最后,对每个目标标签的标签内容的属性值进行遍历得到目标网页的页面主体。
实施例2
根据本发明实施例还提供了一种网站的页面主体的确定装置,需要说明的是,本发明实施例的网站的页面主体的确定装置可以用于执行本发明实施例所提供的网站的页面主体的确定方法。以下对本发明实施例提供的网站的页面主体的确定装置进行介绍。
图2是根据本发明实施例的网站的页面主体的确定装置的示意图,如图2所示,该网站的页面主体的确定装置包括:第一获取单元21,第二获取单元23,第一确定单元25,第三获取单元27以及第二确定单元29。下面对该网站的页面主体的确定装置进行详细说明。
第一获取单元21,用于获取目标页面,其中,目标页面为待进行页面主体提取的页面。
第二获取单元23,与上述第一获取单元21连接,用于获取目标页面中满足预定条件的目标标签。
第一确定单元25,与上述第二获取单元23连接,用于确定目标标签的标签内容,得到标签内容集合。
第三获取单元27,与上述第一确定单元25连接,用于获取标签内容集合中每个标签内容的属性值,得到属性值集合。
第二确定单元29,与上述第三获取单元27连接,用于根据属性值集合中的属性值确定目标页面的页面主体。
在上述实施例中,可以利用第一获取单元获取目标页面,其中,目标页面为待进行页面主体提取的页面;然后利用与第一获取单元连接的第二获取单元获取目标页面中满足预定条件的目标标签;同时利用第一确定单元确定目标标签的标签内容,以得到标签内容集合;进而采用第三获取单元获取标签内容集合中每个标签内容的属性值,得到属性值集合;以及利用第二确定单元根据属性值集合中的属性值确定目标页面的页面主体。相对于相关技术中用于提取网页文本内容的方案中,网页在浏览器加载完毕后,将网页中的内容拆分,然后由浏览器中的匹配规则文件对网页内容进行定位,抽取出所需要的字段内容并显示出来,适用性较低,在网页结构发生变动时,已有的匹配规则文件将无法对变动后的网页进行文本提取,需要将新的匹配规则文件设置在浏览器中,导致的网页文本提取的效率较低的弊端,通过本发明实施例提供的网站的页面主体的确定装置可以实现根据需要进行提取主体文本的目标网页中存在预定类型内容的标签以及标签内容进行主体文本提取的目的,达到了简化主体文本提取的流程,增加了主体文本提取的适用性,提高了主体文本提取的效率的技术效果,进而解决了相关技术中提取网页文本的方式由于操作繁琐导致的网页文本提取的效率较低的技术问题,提升了用户体验。
作为本发明一个可选的实施例,上述第三获取单元可以包括:第一确定子单元,用于确定每个标签内容的预定字符数量和预定字符占比;第二确定子单元,用于根据每个标签内容的预定字符数量和预定字符占比确定每个标签内容的属性值。
作为本发明一个可选的实施例,上述第二确定子单元可以包括:处理模块,用于对每个标签内容的预定字符数量和预定字符占比进行归一化;确定模块,用于根据归一化后的预定字符数量和预定字符占比确定每个标签内容的属性值。
作为本发明一个可选的实施例,上述处理模块可以包括:第一处理模块,用于通过第一公式对每个标签内容的预定字符占比进行归一化,其中,第一公式为:Norinta(i)=(inta(i)-intaMu)/stdinta,其中,Norinta(i)表示归一化后的第i个目标标签的标签内容的预定字符占比,inta(i)表示归一化前的第i个目标标签的标签内容的预定字符占比,intaMu表示i个目标标签的标签内容的预定字符占比的均值,stdinta表示i个目标标签的标签内容的预定字符占比的方差,i为目标标签的数量,i为正整数;第二处理模块,用于通过第二公式对每个标签内容的预定字符数量进行归一化,其中,第二公式为:NorCN(i)=(CN(i)-CNMu)/stdCN,其中,NorCN(i)表示归一化后的第i个目标标签的标签内容的预定字符数量,CN(i)表示归一化前的第i个目标标签的标签内容的预定字符数量,CNMu表示i个目标标签的标签内容的预定字符数量的均值,stdCN表示i个目标标签的标签内容的预定字符数量的方差。
作为本发明一个可选的实施例,上述第三获取单元可以包括:第三确定子单元,用于通过第三公式确定标签内容集合中每个标签内容的属性值,其中,第三公式为:power(ki)=Norinta(i)*NorCN(i),其中,power(ki)表示第i个标签内容的属性值,Norinta(i)表示归一化后的第i个目标标签的标签内容的预定字符占比,NorCN(i)表示归一化后的第i个目标标签的标签内容的预定字符数量。
作为本发明一个可选的实施例,上述网站的页面主体的确定方法还可以包括:第三确定单元,用于在根据属性值集合中的属性值确定目标页面的页面主体之前,确定目标页面的最低预定字符占比和最低预定字符数量;第四确定单元,用于确定标签内容集合中标签内容满足预设条件的标签内容,得到目标标签内容集合,其中,预设条件包括:预定字符占比大于最低预定字符占比,预定字符数量大于最低预定字符数量;第五确定单元,用于确定目标标签内容集合中每个目标标签内容的属性值;第六确定单元,用于根据每个目标标签内容的属性值确定目标页面的页面主体。
作为本发明一个可选的实施例,上述第六确定单元可以包括:第四确定子单元,用于确定每个目标标签内容的属性值中最大的属性值;第五确定子单元,用于确定最大的属性值对应的标签内容为目标页面的页面主体。
上述网站的页面主体的确定装置包括处理器和存储器,上述第一获取单元21,第二获取单元23,第一确定单元25,第三获取单元27以及第二确定单元29等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数并根据属性值集合中的属性值确定目标页面的页面主体。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本发明实施例的另外一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,程序执行上述中任意一项的网站的页面主体的确定方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述中任意一项的网站的页面主体的确定方法。
在本发明实施例中还提供了一种设备,该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取目标页面,其中,目标页面为待进行页面主体提取的页面;获取目标页面中满足预定条件的目标标签;确定目标标签的标签内容,得到标签内容集合;获取标签内容集合中每个标签内容的属性值,得到属性值集合;根据属性值集合中的属性值确定目标页面的页面主体。
在本发明实施例中还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取目标页面,其中,目标页面为待进行页面主体提取的页面;获取目标页面中满足预定条件的目标标签;确定目标标签的标签内容,得到标签内容集合;获取标签内容集合中每个标签内容的属性值,得到属性值集合;根据属性值集合中的属性值确定目标页面的页面主体。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (16)
1.一种网站的页面主体的确定方法,其特征在于,包括:
获取目标页面,其中,所述目标页面为待进行页面主体提取的页面;
获取所述目标页面中满足预定条件的目标标签;
确定所述目标标签的标签内容,得到标签内容集合;
获取所述标签内容集合中每个标签内容的属性值,得到属性值集合;
根据所述属性值集合中的属性值确定所述目标页面的页面主体。
2.根据权利要求1所述的方法,其特征在于,获取所述标签内容集合中每个标签内容的属性值包括:
确定所述每个标签内容的预定字符数量和预定字符占比;
根据所述每个标签内容的所述预定字符数量和所述预定字符占比确定所述每个标签内容的属性值。
3.根据权利要求2所述的方法,其特征在于,根据所述每个标签内容的所述预定字符数量和所述预定字符占比确定所述每个标签内容的属性值包括:
对所述每个标签内容的预定字符数量和预定字符占比进行归一化;
根据归一化后的预定字符数量和预定字符占比确定所述每个标签内容的属性值。
4.根据权利要求3所述的方法,其特征在于,对所述每个标签内容的预定字符数量和预定字符占比进行归一化包括:
通过第一公式对所述每个标签内容的预定字符占比进行归一化,其中,所述第一公式为:Norinta(i)=(inta(i)-intaMu)/stdinta,其中,Norinta(i)表示归一化后的第i个目标标签的标签内容的预定字符占比,inta(i)表示归一化前的第i个目标标签的标签内容的预定字符占比,intaMu表示i个目标标签的标签内容的预定字符占比的均值,stdinta表示i个目标标签的标签内容的预定字符占比的方差,i为目标标签的数量,i为正整数;
通过第二公式对所述每个标签内容的预定字符数量进行归一化,其中,所述第二公式为:NorCN(i)=(CN(i)-CNMu)/stdCN,其中,NorCN(i)表示归一化后的第i个目标标签的标签内容的预定字符数量,CN(i)表示归一化前的第i个目标标签的标签内容的预定字符数量,CNMu表示i个目标标签的标签内容的预定字符数量的均值,stdCN表示i个目标标签的标签内容的预定字符数量的方差。
5.根据权利要求4所述的方法,其特征在于,获取所述标签内容集合中每个标签内容的属性值包括:
通过第三公式确定所述标签内容集合中每个标签内容的属性值,其中,所述第三公式为:power(ki)=Norinta(i)*NorCN(i),其中,power(ki)表示第i个标签内容的属性值,Norinta(i)表示归一化后的第i个目标标签的标签内容的预定字符占比,NorCN(i)表示归一化后的第i个目标标签的标签内容的预定字符数量。
6.根据权利要求5所述的方法,其特征在于,在根据所述属性值集合中的属性值确定所述目标页面的页面主体之前,还包括:
确定目标页面的最低预定字符占比和最低预定字符数量;
确定所述标签内容集合中标签内容满足预设条件的标签内容,得到目标标签内容集合,其中,所述预设条件包括:预定字符占比大于所述最低预定字符占比,预定字符数量大于所述最低预定字符数量;
确定所述目标标签内容集合中每个目标标签内容的属性值;
根据所述每个目标标签内容的属性值确定所述目标页面的页面主体。
7.根据权利要求6所述的方法,其特征在于,根据所述每个目标标签内容的属性值确定所述目标页面的页面主体包括:
确定所述每个目标标签内容的属性值中最大的属性值;
确定所述最大的属性值对应的标签内容为所述目标页面的页面主体。
8.一种网站的页面主体的确定装置,其特征在于,包括:
第一获取单元,用于获取目标页面,其中,所述目标页面为待进行页面主体提取的页面;
第二获取单元,用于获取所述目标页面中满足预定条件的目标标签;
第一确定单元,用于确定所述目标标签的标签内容,得到标签内容集合;
第三获取单元,用于获取所述标签内容集合中每个标签内容的属性值,得到属性值集合;
第二确定单元,用于根据所述属性值集合中的属性值确定所述目标页面的页面主体。
9.根据权利要求8所述的装置,其特征在于,所述第三获取单元包括:
第一确定子单元,用于确定所述每个标签内容的预定字符数量和预定字符占比;
第二确定子单元,用于根据所述每个标签内容的预定字符数量和所述预定字符占比确定所述每个标签内容的属性值。
10.根据权利要求9所述的装置,其特征在于,所述第二确定子单元包括:
处理模块,用于对所述每个标签内容的预定字符数量和预定字符占比进行归一化;
确定模块,用于根据归一化后的预定字符数量和预定字符占比确定所述每个标签内容的属性值。
11.根据权利要求10所述的装置,其特征在于,所述处理模块包括:
第一处理模块,用于通过第一公式对所述每个标签内容的预定字符占比进行归一化,其中,所述第一公式为:Norinta(i)=(inta(i)-intaMu)/stdinta,其中,Norinta(i)表示归一化后的第i个目标标签的标签内容的预定字符占比,inta(i)表示归一化前的第i个目标标签的标签内容的预定字符占比,intaMu表示i个目标标签的标签内容的预定字符占比的均值,stdinta表示i个目标标签的标签内容的预定字符占比的方差,i为目标标签的数量,i为正整数;
第二处理模块,用于通过第二公式对所述每个标签内容的预定字符数量进行归一化,其中,所述第二公式为:NorCN(i)=(CN(i)-CNMu)/stdCN,其中,NorCN(i)表示归一化后的第i个目标标签的标签内容的预定字符数量,CN(i)表示归一化前的第i个目标标签的标签内容的预定字符数量,CNMu表示i个目标标签的标签内容的预定字符数量的均值,stdCN表示i个目标标签的标签内容的预定字符数量的方差。
12.根据权利要求11所述的装置,其特征在于,所述第三获取单元包括:
第三确定子单元,用于通过第三公式确定所述标签内容集合中每个标签内容的属性值,其中,所述第三公式为:power(ki)=Norinta(i)*NorCN(i),其中,power(ki)表示第i个标签内容的属性值,Norinta(i)表示归一化后的第i个目标标签的标签内容的预定字符占比,NorCN(i)表示归一化后的第i个目标标签的标签内容的预定字符数量。
13.根据权利要求12所述的装置,其特征在于,还包括:
第三确定单元,用于在根据所述属性值集合中的属性值确定所述目标页面的页面主体之前,确定目标页面的最低预定字符占比和最低预定字符数量;
第四确定单元,用于确定所述标签内容集合中标签内容满足预设条件的标签内容,得到目标标签内容集合,其中,所述预设条件包括:预定字符占比大于所述最低预定字符占比,预定字符数量大于所述最低预定字符数量;
第五确定单元,用于确定所述目标标签内容集合中每个目标标签内容的属性值;
第六确定单元,用于根据所述每个目标标签内容的属性值确定所述目标页面的页面主体。
14.根据权利要求13所述的装置,其特征在于,所述第六确定单元包括:
第四确定子单元,用于确定所述每个目标标签内容的属性值中最大的属性值;
第五确定子单元,用于确定所述最大的属性值对应的标签内容为所述目标页面的页面主体。
15.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至7中任意一项所述的网站的页面主体的确定方法。
16.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的网站的页面主体的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810737697.9A CN108897883A (zh) | 2018-07-06 | 2018-07-06 | 网站的页面主体的确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810737697.9A CN108897883A (zh) | 2018-07-06 | 2018-07-06 | 网站的页面主体的确定方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108897883A true CN108897883A (zh) | 2018-11-27 |
Family
ID=64348465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810737697.9A Pending CN108897883A (zh) | 2018-07-06 | 2018-07-06 | 网站的页面主体的确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108897883A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060085468A1 (en) * | 2002-07-18 | 2006-04-20 | Xerox Corporation | Method for automatic wrapper repair |
CN103714176A (zh) * | 2014-01-08 | 2014-04-09 | 同济大学 | 基于最大文本密度的网页正文抽取方法 |
-
2018
- 2018-07-06 CN CN201810737697.9A patent/CN108897883A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060085468A1 (en) * | 2002-07-18 | 2006-04-20 | Xerox Corporation | Method for automatic wrapper repair |
CN103714176A (zh) * | 2014-01-08 | 2014-04-09 | 同济大学 | 基于最大文本密度的网页正文抽取方法 |
Non-Patent Citations (1)
Title |
---|
周品: "《MATLAB神经网络设计与应用》", 31 March 2013, 清华大学出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6494061B2 (ja) | 広告情報プッシュ方法、装置、システム、サーバ及びコンピュータ読取り可能な媒体 | |
CN105279224B (zh) | 信息推送方法及装置 | |
CN102929939B (zh) | 个性化信息的提供方法及装置 | |
CN107818105B (zh) | 应用程序的推荐方法及服务器 | |
JP6379093B2 (ja) | 製品識別子のラベル付けおよび製品のナビゲーション | |
JP6301958B2 (ja) | 検索語句を構成し、広告を配信し、製品情報を検索するための方法および装置 | |
CN108829764A (zh) | 推荐信息获取方法、装置、系统、服务器及存储介质 | |
US8856129B2 (en) | Flexible and scalable structured web data extraction | |
CN103678310B (zh) | 网页主题的分类方法及装置 | |
CN104239331B (zh) | 一种用于实现评论搜索引擎排序的方法和装置 | |
US20100057568A1 (en) | Method and Apparatus for Searching for Online Advertisement Resource | |
US20120117072A1 (en) | Automated Product Attribute Selection | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
TWI695277B (zh) | 自動化網站資料蒐集方法 | |
CN103927309B (zh) | 一种对业务对象标注信息标签的方法及装置 | |
CN108269122B (zh) | 广告的相似度处理方法和装置 | |
CN109325179A (zh) | 一种内容推广的方法及装置 | |
CN109242537A (zh) | 广告投放方法、装置、计算机设备及存储介质 | |
US20150199448A1 (en) | System and method for recommending fonts | |
CN107656918B (zh) | 获取目标用户的方法及装置 | |
CN103970800B (zh) | 网页相关关键词的抽取处理方法和系统 | |
CN102662972A (zh) | 一种面向视力残疾人网页内容无障碍访问的图片自动描述方法 | |
CN105931082B (zh) | 一种商品类目关键词提取方法和装置 | |
CN109359198A (zh) | 一种文本分类方法及装置 | |
CN106383857A (zh) | 一种信息处理方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181127 |
|
RJ01 | Rejection of invention patent application after publication |