CN108345599B - 网页类型确定方法、装置及计算机可读介质 - Google Patents
网页类型确定方法、装置及计算机可读介质 Download PDFInfo
- Publication number
- CN108345599B CN108345599B CN201710048977.4A CN201710048977A CN108345599B CN 108345599 B CN108345599 B CN 108345599B CN 201710048977 A CN201710048977 A CN 201710048977A CN 108345599 B CN108345599 B CN 108345599B
- Authority
- CN
- China
- Prior art keywords
- preset
- type
- webpage
- determining
- attribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000010586 diagram Methods 0.000 claims description 29
- 238000009826 distribution Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005272 metallurgy Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种网页类型确定方法、装置及计算机可读介质,涉及信息技术领域。本发明主要用于解决网页类型确定的准确率较低的问题。所述方法包括:获取待确定类型的特定网页归属于各个预置类型的概率值;从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型,并根据选择的预置类型的概率值,确定所述特定网页与所述选择的预置类型的特定相关度;根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型,其中,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,并且预置类型与预设归属相关度范围一一对应。本发明适用于网页类型的确定。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种网页类型确定方法、装置及计算机可读介质。
背景技术
随着信息技术的不断发展和互联网技术的不断普及,互联网已成为人们搜索和获取信息的重要手段。为了方便人们从海量的网络信息迅速和准确地获取感兴趣的信息,确定网页类型已变得越来越重要。例如,网页可以分为购物类的网页、旅游类的网页、游戏类的网页、教育类的网页、广告类的网页等。
目前,在确定网页类型时,首先根据网页归属于各个预置类型分别对应的概率值,确定所述网页的网页类型。然而,由于网页可能不归属于任何预置网页类别,且归属于同一类型的网页的概率值有大有小,若根据网页归属于各个预置类型分别对应的概率值,确定所述网页的网页类型,会造成在网页不归属于任何预置类型的情况下,仍为网页确定网页类型,造成网页的网页类型确定错误,从而导致网页的网页类型确定准确率较低。
发明内容
有鉴于此,本发明提供一种网页类型确定方法、装置及计算机可读介质,主要目的是解决网页类型确定准确率较低的问题。
为达到上述目的,本发明提供如下技术方案:
一方面,本发明提供一种网页类型确定方法,包括:
获取待确定类型的特定网页归属于各个预置类型的概率值;
从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型,并根据选择的预置类型所对应的概率值,确定所述特定网页与所述选择的预置类型的归属相关度;
根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型,其中,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,并且预置类型与预设归属相关度范围一一对应。
另一方面,本发明提供一种网页类型确定装置,包括:
获取单元,用于获取待确定类型的特定网页归属于各个预置类型的概率值;
选择单元,用于从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型;
第一确定单元,用于根据选择的预置类型所对应的概率值,确定所述特定网页与所述选择的预置类型的归属相关度;
第二确定单元,用于根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型,其中,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,并且预置类型与预设归属相关度范围一一对应。
再一方面,本发明提供一种计算机可读介质,存储有计算机可读指令,当所述计算机可读指令被处理单元处理时,执行:
获取待确定类型的特定网页归属于各个预置类型的概率值;
从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型,并根据选择的预置类型所对应的概率值,确定所述特定网页与所述选择的预置类型的归属相关度;
根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型,其中,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,并且预置类型与预设归属相关度范围一一对应。
本发明提供的一种网页类型确定方法、装置及计算机可读介质,与目前根据网页归属于各个预置类型的概率值,确定所述特定网页的网页类型相比,本发明通过从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型,能够实现根据概率值从各个预置类型中初步筛出与所述特定网页相关的预置类型。与此同时,由于概率值的大小并不能直接反映网页与预置类型的相关度大小,网页归属于预置类型的概率值高,网页与预置类型的相关度可能低,本发明通过根据选择的预置类型的概率值,确定所述特定网页与所述选择的预置类型的相关度,根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型,其中,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,并且预置类型与预设归属相关度范围一一对应,能够筛选出网页归属于选择的预置类型的概率值高,但所述网页与所述选择的预置类型的相关度低的错误情况,从而能够避免现有技术在网页不归属于任何预置类型的情况下,仍为网页确定网页类型的情况,以及能够避免网页类型确定错误的情况,进而能够提升网页类型确定准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种网页类型确定方法的流程图;
图2示出了本发明实施例提供的另一种网页类型确定方法的流程图;
图3示出了本发明实施例提供的一种网页类型确定装置的结构示意图;
图4示出了本发明实施例提供的另一种网页类型确定装置的结构示意图;
图5示出了本发明实施例提供的权重值序列对应的正态分布图;
图6示出了本发明实施例提供的权重值序列对应的正态分布图和直线的交叉图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种网页类型确定方法,如图1所示,所述方法包括:
101、获取待确定类型的特定网页归属于各个预置类型的概率值。
其中,所述特定网页可以为根据用户需求选定的一个网页。预置类型可以为服装、商品、软件、数码、广告等,在此不对预置类型进行限定。
对于本发明实施例,可以通过贝叶斯算法计算待确定类型的特定网页归属于各个预置类型的概率值,具体可以通过朴素贝叶斯算法计算待确定类型的特定网页归属于各个预置类型的概率值。
在此对通过朴素贝叶斯算法计算待确定类型的特定网页归属于各个预置类型分别对应的概率值的过程进行说明:
假设所述待确定类型的特定网页为x,各个预置类型的集合为{y1,y2...yn};
首先对所述待确定类型的特定网页进行去噪、分词、特征提取和增益等处理,得到所述待确定类型的特定网页对应的分类特征信息集合x={a1,a2,...,am};然后根据所述分类特征信息集合x={a1,a2,...,am}和预置分类器,计算所述待确定类型的特定网页归属于所述每个类型对应的概率值:P(yk|x),k=1、2...n。
对于各个预置类型的概率来说P(a1a2.......am)是相同的,只需要计算P(a1a2.......am|yk)P(yk)=P(a1|yk)P(a2|yk).......P(am|yk)P(yk)即可。
其中,所述预置分类器中保存有在预置训练样本集合中所述每个类型的概率值P(yk),以及所述每个类型下每个分类特征信息的概率值P(a1|yk)、P(a2|yk)…P(am|yk),所述预置训练样本集合包括所述每个分类特征信息、所述每个类型以及所述每个分类特征信息与所述每个类型的关联关系;所述预置训练样本集合为通过对样本网页进行去噪、分词、特征提取和增益等处理得到的,所述样本网页对应的预置类型为通过人工方式配置的。具体地,可以通过开源工具,如mahout工具,训练预置训练样本集合,得到预置分类器。
102、从各个预置类型中选择概率值符合预置规则的至少一个预置类型。
其中,预置规则可以为所述各个预置类型中概率值最大的预置类型,则从各个预置类型中选择的预置类型为概率值最大的预置类型;也可以为所述各个预置类型中概率值大于或者等于预置概率阈值的预置类型,所述预置概率阈值可以根据实际需求进行设置,本发明实施例不做限定。
例如,若预置规则为所述各个预置类型中概率值最大的预置类型,待
确定类型的网页x归属于预置类型y1的概率值为:P(y1|x);
待确定类型的网页x归属于预置类型y2的概率值为:P(y2|x);
……
待确定类型的网页x归属于预置类型yn的概率值为:P(yn|x);
在P(y1|x),P(y2|x)……P(yn|x)中P(yk|x)最大,即P(yn|x)=max{P(y1|x),P(y2|x),...,P(yn|x},则从所述各个预置类型中选择概率值符合预置规则的预置类型为yk。
103、根据选择的预置类型所对应的概率值,确定特定网页与选择的预置类型的归属相关度。
其中,所述选择的预置类型所对应的概率值为所述特定网页归属于所述选择预置类型的概率值。本发明实施例可以通过所述网页x归属于所述预置类型yk对应的权重值mk来衡量所述网页与所述预置类型yk的归属相关度。所述网页x归属于所述预置类型yk对应的权重值mk越大,所述网页与所述预置类型yk的归属相关度越大,所述权重值mk为网页x归属于所述预置类型yk对应的概率值与所述网页归属所述各个预置类型的概率值之和的比值,即:
104、根据确定的归属相关度和选择的预置类型所对应的预设归属相关度范围,确定特定网页的网页类型。
其中,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,并且预置类型与预设归属相关度范围一一对应。即网页归属于所述预置类的概率值越大,所述网页与所述预置类型的相关度越大。所述预设归属相关度范围可以根据实际需求进行设置,本发明实施例不做限定。具体地,根据对归属于所述预置类型的各个样本网页的权重值进行归一化的处理结果,确定所述预设归属相关度。通过根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型,能够避免将网页归属于的概率值高,但与所述网页的相关度低的预置类型确定为网页的网页类型,以及能够避免网页类型错分的情况,从而能够提高网页分类的准确率。
对于本发明实施例,步骤104具体可以为:从至少一个预设归属相关度范围中选择包含确定的归属相关度的预设归属相关度范围;将选择的预设归属相关度范围所对应的预置类型,确定为所述特定网页的网页类型。
例如,预置规则为所述各个预置类型中概率值大于或者等于预置概率阈值的预置类型,从所述各个预置类型中选择概率值符合预置规则的预置类型包括:y1、y2…、yk,并分别确定特定网页与预置类型y1、y2…、yk的归属相关度,若预置类型y1所对应的预设归属相关度范围内包含特定网页与预置类型y1的归属相关度,则将预置类型y1确定为所述特定网页的网页类型。
本发明实施例提供的一种网页类型确定方法,与目前根据网页归属于各个预置类型的概率值,确定所述特定网页的网页类型相比,本发明通过从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型,能够实现根据概率值从各个预置类型中初步筛出与所述特定网页相关的预置类型。与此同时,由于概率值的大小并不能直接反映网页与预置类型的相关度大小,网页归属于预置类型的概率值高,网页与预置类型的相关度可能低,本发明通过根据选择的预置类型的概率值,确定所述特定网页与所述选择的预置类型的归属相关度,并根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型,其中,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,并且预置类型与预设归属相关度范围一一对应,能够筛选出网页归属于选择的预置类型的概率值高,但所述网页与所述选择的预置类型的相关度低的错误情况,从而能够避免现有技术在网页不归属于任何预置类型的情况下,仍为网页确定网页类型的情况,以及能够避免网页类型确定错误的情况,进而能够提升网页类型确定准确率。
本发明实施例提供了另一种网页类型确定方法,如图2所示,所述方法包括:
201、获取待确定类型的特定网页归属于各个预置类型的概率值。
对于本发明实施例,获取待确定类型的特定网页归属于各个预置类型分别对应的概率值的方式,在步骤101中已详细地进行了描述,在此不进行赘述。
对于本发明实施例,步骤201之前,具体还可以包括:获取多个样本网页;从所述多个样本网页中获取归属于所述选择的预置类型的各个样本网页,并获取所述各个样本网页归属于所述选择的预置类型分别对应的权重值;根据所述权重值,确定所述预设权重阈值区间。通过获取所述各个样本网页归属于所述选择的预置类型分别对应的权重值,然后根据所述权重值,确定所述预设权重阈值区间,能够分析出网页归属于所述选择的预置类型的权重值的概率分布,找出将网页错误确定为选择的预置类型的权重值临界值,即当网页归属于所述选择的预置类型的权重值处于预设权重阈值区间时,说明网页归属于所述选择的预置类型的概率值越大,则网页与所述选择的预置类型的相关度越大。
需要说明的是,所述根据所述权重值,确定所述预设权重阈值区间具体包括:将所述权重值进行排序;根据所述排序后的权重值对应的正态分布图与直线之间的交叉点,确定所述预设权重阈值区间。
其中,所述正态分布图的横坐标为所述排序后的权重值对应的概率分位数;所述正态分布图的纵坐标为所述排序后的权重值;所述直线的斜率为所述排序后的权重值对应的标准差,所述直线的截距为所述排序后的权重值对应的均值。
例如,样本网页有网页A、B、…、Z,其中,归属于所述概率值最大的预置类型yk的网页有:网页A、B、…、N。
首先,获取网页A、B、…、N归属于所述概率值最大的预置类型yk的权重值分别为:m1、m2、…、mn,
P(yk|K)为网页K归属于所述概率值最大的预置类型yk的概率值,P(yi|K)为网页K归属于所述概率值最大的预置类型yi的概率值。
然后,根据m1、m2、…、mn,确定所述预设权重阈值区间。
在此对确定所述预设权重阈值区间的过程进行说明:
1、对m1、m2、…、mn进行排序,得到权重值序列M={m1,m2,...,mn},n>0;
2、绘制权重值序列对应的正态分布图,如图5。
其中,所述正态分布图的横坐标为所述排序后的权重值对应的概率分位数;所述正态分布图的纵坐标为所述排序后的权重值。
3、绘制权重值序列对应的直线。
4、根据所述权重值序列对应的正态分布图和所述权重值序列对应的直线的交叉图,图6,确定所述权重值序列对应的正态分布图和所述权重值序列对应的直线的两个交叉点。
5、根据所述两个交叉点,确定所述预设权重阈值区间(mmin,mmax)
202、从各个预置类型中选择概率值符合预置规则的至少一个预置类型。
其中,预置规则可以为所述各个预置类型中概率值最大的预置类型,也可以为所述各个预置类型中概率值大于或者等于预置概率阈值的预置类型,所述预置概率阈值可以根据实际需求进行设置,本发明实施例不做限定。
203、根据选择的预置类型所对应的概率值,确定特定网页与选择的预置类型的归属相关度。
对于本发明实施例,步骤203具体可以为:根据选择的预置类型所对应的概率值和所述各个预置类型的概率值,确定所述特定网页归属于所述选择的预置类型所对应的权重值,所述权重值用于衡量所述特定网页与选择的预置类型的归属相关度。其中,所述权重值用于衡量所述特定网页与选择的预置类型的归属相关度。
对于本发明实施例,所述根据选择的预置类型所对应的概率值和所述各个预置类型的概率值,确定所述特定网页归属于所述选择的预置类型所对应的权重值的步骤具体可以为:计算所述各个预置类型的概率值之和;将选择的预置类型对应的概率值与计算的概率值之和的比值,确定为所述特定网页归属于所述选择的预置类型对应的权重值。所述选择的预置类型可以为所述各个预置类型中概率值最大的预置类型。
需要说明的是,待确定类型的特定网页归属于概率值最大的预置类型对应的权重值的计算公式与每个样本网页归属于概率值最大的预置类型对应的权重值的计算公式相同,在此不进行赘述。
204、从至少一个预设归属相关度范围中选择包含确定的归属相关度的预设归属相关度范围。
其中,预置类型与预设归属相关度范围一一对应。对于本发明实施例,当通过特定网页归属于所述选择的预置类型所对应的权重值,衡量所述特定网页与选择的预置类型的归属相关度时,步骤204具体可以为:从至少一个预设权重阈值区间中,选择包含确定的权重值的预设权重阈值区间。所述预设权重阈值区间用于表示所述预设归属相关度范围。预设权重阈值区间中的权重值可以用于表示网页归属于网页类型对应的权重值越高,网页与所述网页类型的相关度越高。
需要说明的是,当待确定类型的网页归属于概率值最大的预置类型对应的权重值位于预设权重阈值区间时,说明所述网页归属于所述概率值最大的预置类型的权重值越大,概率值最大的预置类型与所述网页的相关度越高,通过从至少一个预设权重阈值区间中,选择包含确定的相关度的预设权重阈值区间,并将选择的预设权重阈值区间的预置类型,确定为所述特定网页的网页类型筛选了网页归属于选择的预置类型的概率值高,但所述网页与所述选择的预置类型的相关度低的错误情况,从而能够避免现有技术在网页不归属于任何预置类型的情况下,仍为网页确定网页类型的情况,以及能够避免网页类型确定错误的情况,进而能够提升网页类型确定准确率。
对于本发明实施例,所述方法还包括与步骤204并列的步骤:当不存在包含确定的归属相关度的预设归属相关度范围时,输出提示信息,所述提示信息用于提示网页的类型不归属于所述各个预置类型且类型未知。
其中,所述提示信息可以为文本提示信息、图片提示信息等,具体可以为提示所述网页的类型不归属于所述各个预置类型且类型未知的文本提示信息、提示所述提示网页的类型不归属于所述各个预置类型且类型未知的图片提示信息等。当不存在归属相关度处于预设归属相关度范围内的预置类型时,通过输出提示信息能够让用户及时获知无法确定网页的网页类型的情况,从而能够提升用户体验。
205、将选择的预设归属相关度范围所对应的预置类型,确定为所述特定网页的网页类型。
对于本发明实施例,当通过特定网页归属于所述选择的预置类型所对应的权重值,衡量所述特定网页与选择的预置类型的归属相关度时,步骤205具体可以为:将选择的预设权重阈值区间的预置类型,确定为所述特定网页的网页类型。
对于本发明实施例,具体的应用场景可以如下所示,但不限于此,包括:待确定类型的网页为网页1,对网页1进行去噪、分词、特征提取和增益等处理,得到所述网页1对应的分类特征信息集合,然后根据分类特征信息集合和朴素贝叶斯算法确定网页1归属的各个预置类型分别对应的概率值,如表1:
预置类型 | 概率值 | 预置类型 | 概率值 |
服装 | P<sub>1</sub>=0.0150117223970 | 商品 | P<sub>9</sub>=0.01448384406080 |
软件 | P<sub>2</sub>=0.0144832962342 | o2o | P<sub>10</sub>=0.01448186610908 |
广告 | P<sub>3</sub>=0.0144771566327 | 产妇 | P<sub>11</sub>=0.01447620176187 |
财政 | P<sub>4</sub>=0.0144761810956 | 办公用品 | P<sub>12</sub>=0.01447565029913 |
户外 | P<sub>5</sub>=0.0144752389867 | 宠物 | P<sub>13</sub>=0.01447516798748 |
结婚 | P<sub>6</sub>=0.0144738062071 | 化学冶金 | P<sub>14</sub>=0.01447363634665 |
物流 | P<sub>7</sub>=0.0144714187928 | 社交 | P<sub>15</sub>=0.01447070950642 |
军事 | P<sub>8</sub>=0.0144699279421 | 装饰 | P<sub>16</sub>=0.01446912695626 |
若预置规则为所述各个预置类型中概率值最大的预置类型,在上述预置类型中,所述网页1归属于服装类的概率值最大,则从上述预置类型中选择的预置类型为服装类。此时,根据所述网页1归属于服装类的概率值和所述网页归属于各个预置类型分别对应的概率值,计算网页1归属于服装类的权重值m,计算公式如下所示:
然后,确定网页1归属于服装类的权重值m是否位于预设权重阈值区间(mmin,mmax),若位于预设权重阈值区间,则将网页1的网页类型确定为服装类,由于所述预设权重阈值区间为对归属于服装类的各个样本对应的权重值进行归一化处理得到的,且归一化的处理结果为网页归属于服务装的权重值处于预设权重阈值内,说明网页归属于服务装的权重值越大,网页与服装类的相关度越高,因此与现有技术直接将网页1归属于各个预置类型中概率值最大的服装类,确定为所述网页的网页类型相比,本发明实施例通过计算网页1归属于服装类的概率与网页1归属于所有预置类型的概率的权重值,以及根据所述权重值确定网页1的网页类型,筛选出了网页1归于服装类的概率值高,但网页1与服装类相关低的错误情况,从而避免了现有技术在网页不归属于任何预置类型的情况下,仍将网页1的网页类型确定为服装类的错误情况,从而提升了网页类型确定准确率。
本发明实施例提供的另一种网页类型确定方法,与目前根据网页归属于各个预置类型的概率值,确定所述特定网页的网页类型相比,本发明通过从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型,能够实现根据概率值从各个预置类型中初步筛出与所述特定网页相关的预置类型。与此同时,由于概率值的大小并不能直接反映网页与预置类型的相关度大小,网页归属于预置类型的概率值高,网页与预置类型的相关度可能低,本发明通过根据选择的预置类型的概率值,确定所述特定网页与所述选择的预置类型的相关度,从至少一个预设归属相关度范围中,选择包含确定的归属相关度的预设归属相关度范围,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,且预置类型与预设归属相关度范围一一对应;并将选择的预设归属相关度范围所对应的预置类型,确定为所述特定网页的网页类型,能够筛选出网页归属于选择的预置类型的概率值高,但所述网页与所述选择的预置类型的相关度低的错误情况,从而能够避免现有技术在网页不归属于任何预置类型的情况下,仍为网页确定网页类型的情况,以及能够避免网页类型确定错误的情况,进而能够提升网页类型确定准确率。
进一步地,作为图1所示方法的具体实现,本发明实施例提供一种网页类型确定装置,如图3所示,所述装置可以包括:获取单元31、选择单元32、第一确定单元33、第二确定单元34。
所述获取单元31,可以用于获取待确定类型的特定网页归属于各个预置类型的概率值。
所述选择单元32,可以用于从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型。
所述第一确定单元33,可以用于根据选择的预置类型所对应的概率值,确定所述特定网页与所述选择的预置类型的归属相关度。
第二确定单元34,可以用于根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型,其中,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,并且预置类型与预设归属相关度范围一一对应。
需要说明的是,该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供的一种网页类型确定装置,与目前根据网页归属于各个预置类型的概率值,确定所述特定网页的网页类型相比,本发明通过从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型,能够实现根据概率值从各个预置类型中初步筛出与所述特定网页相关的预置类型。与此同时,由于概率值的大小并不能直接反映网页与预置类型的相关度大小,网页归属于预置类型的概率值高,网页与预置类型的相关度可能低,本发明通过根据选择的预置类型的概率值,确定所述特定网页与所述选择的预置类型的相关度,并根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型,其中,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,并且预置类型与预设归属相关度范围一一对应,能够筛选出网页归属于选择的预置类型的概率值高,但所述网页与所述选择的预置类型的相关度低的错误情况,从而能够避免现有技术在网页不归属于任何预置类型的情况下,仍为网页确定网页类型的情况,以及能够避免网页类型确定错误的情况,进而能够提升网页类型确定准确率。
进一步地,作为图2所示方法的具体实现,本发明实施例提供另一种网页类型确定装置,如图4所示,所述装置可以包括:获取单元41、选择单元42、第一确定单元43、第二确定单元44。
所述获取单元41,可以用于获取待确定类型的特定网页归属于各个预置类型的概率值。
所述选择单元42,可以用于从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型。
所述第一确定单元43,可以用于根据选择的预置类型所对应的概率值,确定所述特定网页与所述选择的预置类型的归属相关度。
第二确定单元44,用于根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型,其中,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,并且预置类型与预设归属相关度范围一一对应。
所述第二确定单元44包括:选择模块4401和第一确定模块4402。
所述选择模块4401,可以用于从至少一个预设归属相关度范围中选择包含确定的归属相关度的预设归属相关度范围。
所述第一确定模块4402,可以用于将选择的预设归属相关度范围所对应的预置类型,确定为所述特定网页的网页类型。
所述第一确定单元43,具体可以用于根据选择的预置类型所对应的概率值和所述各个预置类型分别对应的概率值,确定所述特定网页归属于所述选择的预置类型所对应的权重值,所述权重值用于衡量所述特定网页与选择的预置类型的归属相关度。
所述选择单元42,具体可以用于从至少一个预设权重阈值区间中,选择包含确定的权重值的预设权重阈值区间,所述预设权重阈值区间用于表示所述预设归属相关度范围。
所述第二确定单元44,具体可以用于将选择的预设权重阈值区间的预置类型,确定为所述特定网页的网页类型。
进一步地,为了确定所述网页归属于所述选择的预置类型所对应的权重值,所述第二确定单元44包括:计算模块4403和第二确定模块4404。
所述计算模块4403,可以用于计算所述各个预置类型的概率值之和。
所述第二确定模块4404,可以用于将选择的预置类型对应的概率值与所述计算模块计算的概率值之和的比值,确定为所述特定网页归属于所述选择的预置类型所对应的权重值。
进一步地,为了确定所述预设权重阈值区间,所述装置还包括:第三确定单元45。
所述获取单元41,还可以用于获取多个样本网页。
所述获取单元41,还可以用于从所述多个样本网页中获取归属于所述选择的预置类型的各个样本网页,并获取所述各个样本网页归属于所述选择的预置类型的权重值。
所述第三确定单元45,可以用于根据所述获取单元41获取的所述权重值,确定所述预设权重阈值区间。
进一步地,所述第三确定单元45包括:排序模块4501和第三确定模块4502。
所述排序模块4501,可以用于将所述获取单元41获取的所述权重值进行排序。
所述第三确定模块4502,可以用于根据所述排序模块4501排序后的权重值确定的正态分布图与直线之间的交叉点,确定所述预设权重阈值区间,其中,所述正态分布图的横坐标为所述排序后的权重值对应的概率分位数;所述正态分布图的纵坐标为所述排序后的权重值;所述直线的斜率为所述排序后的权重值对应的标准差,所述直线的截距为所述排序后的权重值对应的均值。
进一步地,所述装置还包括:输出单元46。
所述输出单元46,可以用于当不存在归属相关度处于预设归属相关度范围内的预置类型时,输出提示信息,所述提示信息用于提示所述特定网页不归属于所述各个预置类型且类型未知。
需要说明的是,该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供的另一种网页类型确定装置,与目前根据网页归属于各个预置类型的概率值,确定所述特定网页的网页类型相比,本发明通过从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型,能够实现根据概率值从各个预置类型中初步筛出与所述特定网页相关的预置类型。与此同时,由于概率值的大小并不能直接反映网页与预置类型的相关度大小,网页归属于预置类型的概率值高,网页与预置类型的相关度可能低,本发明通过根据选择的预置类型的概率值,确定所述特定网页与所述选择的预置类型的相关度,从至少一个预设归属相关度范围中,选择包含确定的归属相关度的预设归属相关度范围,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,且预置类型与预设归属相关度范围一一对应;并将选择的预设归属相关度范围所对应的预置类型,确定为所述特定网页的网页类型,能够筛选出网页归属于选择的预置类型的概率值高,但所述网页与所述选择的预置类型的相关度低的错误情况,从而能够避免现有技术在网页不归属于任何预置类型的情况下,仍为网页确定网页类型的情况,以及能够避免网页类型确定错误的情况,进而能够提升网页类型确定准确率。
进一步地,本发明实施提供一种计算机可读介质,存储有计算机可读指令,当所述计算机可读指令被处理单元处理时,执行:
获取待确定类型的特定网页归属于各个预置类型的概率值;
从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型,并根据选择的预置类型所对应的概率值,确定所述特定网页与所述选择的预置类型的归属相关度;
根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型,其中,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,并且预置类型与预设归属相关度范围一一对应。
本发明实施例提供的一种计算机可读介质,与目前根据网页归属于各个预置类型的概率值,确定所述特定网页的网页类型相比,本发明通过从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型,能够实现根据概率值从各个预置类型中初步筛出与所述特定网页相关的预置类型。与此同时,由于概率值的大小并不能直接反映网页与预置类型的相关度大小,网页归属于预置类型的概率值高,网页与预置类型的相关度可能低,本发明通过根据选择的预置类型的概率值,确定所述特定网页与所述选择的预置类型的相关度,从所述选择的预置类型所对应的预设归属相关度范围中,选择包含确定的归属相关度的预设归属相关度范围,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系;并将选择的预设归属相关度范围所对应的预置类型,确定为所述特定网页的网页类型,能够筛选出网页归属于选择的预置类型的概率值高,但所述网页与所述选择的预置类型的相关度低的错误情况,从而能够避免现有技术在网页不归属于任何预置类型的情况下,仍为网页确定网页类型的情况,以及能够避免网页类型确定错误的情况,进而能够提升网页类型确定准确率。
所述网页类型确定装置包括处理器和存储器,上述获取单元、选择单元、第一确定单元、第二确定单元及输出单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来网页类型确定准确率较低的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:
获取待确定类型的特定网页归属于各个预置类型的概率值;
从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型,并根据选择的预置类型所对应的概率值,确定所述特定网页与所述选择的预置类型的归属相关度;
根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型,其中,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,并且预置类型与预设归属相关度范围一一对应。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的图表中图形的显示方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (15)
1.一种网页类型确定方法,其特征在于,包括:
获取待确定类型的特定网页归属于各个预置类型的概率值;
从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型,并根据选择的预置类型所对应的概率值,确定所述特定网页与所述选择的预置类型的归属相关度;
根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型,其中,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,并且预置类型与预设归属相关度范围一一对应;
所述根据选择的预置类型所对应的概率值,确定所述特定网页与所述选择的预置类型的归属相关度,包括:
计算所述各个预置类型的概率值之和;
将选择的预置类型对应的概率值与计算的概率值之和的比值,确定为所述特定网页归属于所述选择的预置类型所对应的权重值,所述权重值用于衡量所述特定网页与选择的预置类型的归属相关度。
2.根据权利要求1所述的方法,其特征在于,所述根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型包括:
从至少一个预设归属相关度范围中选择包含确定的归属相关度的预设归属相关度范围;
将选择的预设归属相关度范围所对应的预置类型,确定为所述特定网页的网页类型。
3.根据权利要求2所述的方法,其特征在于,所述从至少一个预设归属相关度范围中选择包含确定的归属相关度的预设归属相关度范围包括:
从至少一个预设权重阈值区间中,选择包含确定的权重值的预设权重阈值区间,所述预设权重阈值区间用于表示所述预设归属相关度范围。
4.根据权利要求3所述的方法,其特征在于,所述将选择的预设归属相关度范围所对应的预置类型,确定为所述特定网页的网页类型包括:
将选择的预设权重阈值区间的预置类型,确定为所述特定网页的网页类型。
5.根据权利要求2所述的方法,其特征在于,所述获取待确定类型的特定网页归属于各个预置类型的概率值之前,所述方法还包括:
获取多个样本网页;
从所述多个样本网页中获取归属于所述选择的预置类型的各个样本网页,并获取所述各个样本网页归属于所述选择的预置类型的权重值;
根据所述权重值,确定所述预设权重阈值区间。
6.根据权利要求5所述的方法,其特征在于,所述根据所述权重值,确定所述预设权重阈值区间包括:
将所述权重值进行排序;
根据所述排序后的权重值确定的正态分布图与直线之间的交叉点,确定所述预设权重阈值区间,其中,所述正态分布图的横坐标为所述排序后的权重值对应的概率分位数;所述正态分布图的纵坐标为所述排序后的权重值;所述直线的斜率为所述排序后的权重值对应的标准差,所述直线的截距为所述排序后的权重值对应的均值。
7.根据权利要求1所述的方法,其特征在于,所述根据选择的预置类型所对应的概率值,确定所述特定网页与所述选择的预置类型的归属相关度之后,所述方法还包括:
当不存在包含确定的归属相关度的预设归属相关度范围时,输出提示信息,所述提示信息用于提示所述特定网页不归属于所述各个预置类型且类型未知。
8.一种网页类型确定装置,其特征在于,包括:
获取单元,用于获取待确定类型的特定网页归属于各个预置类型的概率值;
选择单元,用于从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型;
第一确定单元,用于根据选择的预置类型所对应的概率值,确定所述特定网页与所述选择的预置类型的归属相关度;
第二确定单元,用于根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型,其中,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,并且预置类型与预设归属相关度范围一一对应;
所述第一确定单元,用于计算所述各个预置类型的概率值之和;将选择的预置类型对应的概率值与计算的概率值之和的比值,确定为所述特定网页归属于所述选择的预置类型所对应的权重值,所述权重值用于衡量所述特定网页与选择的预置类型的归属相关度。
9.根据权利要求8所述的装置,其特征在于,所述第二确定单元包括:
选择模块,用于从至少一个预设归属相关度范围中选择包含确定的归属相关度的预设归属相关度范围;
第一确定模块,用于将选择的预设归属相关度范围所对应的预置类型,确定为所述特定网页的网页类型。
10.根据权利要求9所述的装置,其特征在于,
所述选择单元,具体用于从至少一个预设权重阈值区间中,选择包含确定的权重值的预设权重阈值区间,所述预设权重阈值区间用于表示所述预设归属相关度范围。
11.根据权利要求10所述的装置,其特征在于,
所述第二确定单元,具体用于将选择的预设权重阈值区间的预置类型,确定为所述特定网页的网页类型。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:第三确定单元,
所述获取单元,还用于获取多个样本网页;
所述获取单元,还用于从所述多个样本网页中获取归属于所述选择的预置类型的各个样本网页,并获取所述各个样本网页归属于所述选择的预置类型分别对应的权重值;
所述第三确定单元,用于根据所述获取单元获取的所述权重值,确定所述预设权重阈值区间。
13.根据权利要求12所述的装置,其特征在于,所述第三确定单元包括:
排序模块,用于将所述获取单元获取的所述权重值进行排序;
第三确定模块,用于根据所述排序模块排序后的权重值确定的正态分布图与直线之间的交叉点,确定所述预设权重阈值区间,其中,所述正态分布图的横坐标为所述排序后的权重值对应的概率分位数;所述正态分布图的纵坐标为所述排序后的权重值;所述直线的斜率为所述排序后的权重值对应的标准差,所述直线的截距为所述排序后的权重值对应的均值。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
输出单元,用于当不存在包含确定的归属相关度的预设归属相关度范围时,输出提示信息,所述提示信息用于提示特定网页不归属于所述各个预置类型且类型未知。
15.一种计算机可读介质,其特征在于,存储有计算机可读指令,当所述计算机可读指令被处理单元处理时,执行:
获取待确定类型的特定网页归属于各个预置类型的概率值;
从所述各个预置类型中选择概率值符合预置规则的至少一个预置类型,并根据选择的预置类型所对应的概率值,确定所述特定网页与所述选择的预置类型的归属相关度;
根据确定的归属相关度和所述选择的预置类型所对应的预设归属相关度范围,确定所述特定网页的网页类型,其中,所述预设归属相关度范围内的归属相关度与所述选择的预置类型所对应的概率值呈正相关关系,并且预置类型与预设归属相关度范围一一对应;
所述根据选择的预置类型所对应的概率值,确定所述特定网页与所述选择的预置类型的归属相关度,包括:
计算所述各个预置类型的概率值之和;
将选择的预置类型对应的概率值与计算的概率值之和的比值,确定为所述特定网页归属于所述选择的预置类型所对应的权重值,所述权重值用于衡量所述特定网页与选择的预置类型的归属相关度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710048977.4A CN108345599B (zh) | 2017-01-23 | 2017-01-23 | 网页类型确定方法、装置及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710048977.4A CN108345599B (zh) | 2017-01-23 | 2017-01-23 | 网页类型确定方法、装置及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108345599A CN108345599A (zh) | 2018-07-31 |
CN108345599B true CN108345599B (zh) | 2021-12-14 |
Family
ID=62974578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710048977.4A Active CN108345599B (zh) | 2017-01-23 | 2017-01-23 | 网页类型确定方法、装置及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108345599B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178714A (zh) * | 2006-12-20 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种网页分类方法及装置 |
CN102364467A (zh) * | 2011-09-29 | 2012-02-29 | 北京亿赞普网络技术有限公司 | 一种网络搜索方法和系统 |
CN102637172A (zh) * | 2011-02-10 | 2012-08-15 | 北京百度网讯科技有限公司 | 网页分块标注方法与系统 |
CN103020067A (zh) * | 2011-09-21 | 2013-04-03 | 北京百度网讯科技有限公司 | 一种确定网页类型的方法和装置 |
CN103309862A (zh) * | 2012-03-07 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 一种网页类型识别方法和系统 |
CN103577547A (zh) * | 2013-10-12 | 2014-02-12 | 优视科技有限公司 | 网页类型识别方法及装置 |
CN104346748A (zh) * | 2014-11-25 | 2015-02-11 | 新浪网技术(中国)有限公司 | 信息展示方法及装置 |
US9019548B2 (en) * | 2013-01-24 | 2015-04-28 | Hewlett-Packard Development Company, L.P. | Print intent type |
CN104834640A (zh) * | 2014-02-10 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 网页的识别方法及装置 |
CN105528374A (zh) * | 2014-10-21 | 2016-04-27 | 苏宁云商集团股份有限公司 | 一种电子商务中的商品推荐方法及其系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100268661A1 (en) * | 2009-04-20 | 2010-10-21 | 4-Tell, Inc | Recommendation Systems |
-
2017
- 2017-01-23 CN CN201710048977.4A patent/CN108345599B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178714A (zh) * | 2006-12-20 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种网页分类方法及装置 |
CN102637172A (zh) * | 2011-02-10 | 2012-08-15 | 北京百度网讯科技有限公司 | 网页分块标注方法与系统 |
CN103020067A (zh) * | 2011-09-21 | 2013-04-03 | 北京百度网讯科技有限公司 | 一种确定网页类型的方法和装置 |
CN102364467A (zh) * | 2011-09-29 | 2012-02-29 | 北京亿赞普网络技术有限公司 | 一种网络搜索方法和系统 |
CN103309862A (zh) * | 2012-03-07 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 一种网页类型识别方法和系统 |
US9019548B2 (en) * | 2013-01-24 | 2015-04-28 | Hewlett-Packard Development Company, L.P. | Print intent type |
CN103577547A (zh) * | 2013-10-12 | 2014-02-12 | 优视科技有限公司 | 网页类型识别方法及装置 |
CN104834640A (zh) * | 2014-02-10 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 网页的识别方法及装置 |
CN105528374A (zh) * | 2014-10-21 | 2016-04-27 | 苏宁云商集团股份有限公司 | 一种电子商务中的商品推荐方法及其系统 |
CN104346748A (zh) * | 2014-11-25 | 2015-02-11 | 新浪网技术(中国)有限公司 | 信息展示方法及装置 |
Non-Patent Citations (2)
Title |
---|
Measuring and modeling usage and reliability for statistical Web testing;C.Kallepalli 等;《IEEE Transactions on Software Engineering》;20011130;第27卷(第11期);1023-1036 * |
一种基于主题相关度的网页排序算法;吴炜 等;《微电子学与计算机》;20080905(第9期);221-224 * |
Also Published As
Publication number | Publication date |
---|---|
CN108345599A (zh) | 2018-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084374A (zh) | 构建基于pu学习的模型的方法、装置及预测方法、装置 | |
US20180365218A1 (en) | Text information clustering method and text information clustering system | |
CN110263821B (zh) | 交易特征生成模型的训练、交易特征的生成方法和装置 | |
CN106157083B (zh) | 挖掘潜在客户的方法和装置 | |
CA2781326C (en) | System, method and computer program product for parcel assessment | |
CN108959329B (zh) | 一种文本分类方法、装置、介质及设备 | |
CN110647683B (zh) | 一种信息推荐方法、装置 | |
CN108241867B (zh) | 一种分类方法及装置 | |
CN106709318A (zh) | 一种用户设备唯一性的识别方法、装置和计算设备 | |
CN109063120B (zh) | 一种基于聚类的协同过滤推荐方法和装置 | |
CN104915436A (zh) | 自适应多标签预测方法 | |
CN110363206B (zh) | 数据对象的聚类、数据处理及数据识别方法 | |
CN106886934B (zh) | 用于确定商家品类的方法、系统和装置 | |
CN105653693A (zh) | 一种个性化推荐方法及装置 | |
CN111784053A (zh) | 交易风险检测方法、设备及可读存储介质 | |
US9201967B1 (en) | Rule based product classification | |
CN113837836A (zh) | 模型推荐方法、装置、设备及存储介质 | |
CN108255880B (zh) | 数据处理方法及装置 | |
CN108345599B (zh) | 网页类型确定方法、装置及计算机可读介质 | |
CN104809236B (zh) | 一种基于微博的用户年龄分类方法及系统 | |
CN109559245B (zh) | 一种识别特定用户的方法及装置 | |
CN107357847B (zh) | 数据处理方法及其装置 | |
CN105512914A (zh) | 一种信息处理方法及电子设备 | |
CN114021716A (zh) | 一种模型训练的方法、系统及电子设备 | |
CN107403199A (zh) | 数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |