CN102243661B - 网站内容质量评估方法和装置 - Google Patents

网站内容质量评估方法和装置 Download PDF

Info

Publication number
CN102243661B
CN102243661B CN201110205726.5A CN201110205726A CN102243661B CN 102243661 B CN102243661 B CN 102243661B CN 201110205726 A CN201110205726 A CN 201110205726A CN 102243661 B CN102243661 B CN 102243661B
Authority
CN
China
Prior art keywords
characteristic
website
content quality
assessed
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110205726.5A
Other languages
English (en)
Other versions
CN102243661A (zh
Inventor
王利明
耿光刚
陈威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Internet Network Information Center
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201110205726.5A priority Critical patent/CN102243661B/zh
Publication of CN102243661A publication Critical patent/CN102243661A/zh
Priority to PCT/CN2011/083674 priority patent/WO2013010367A1/zh
Application granted granted Critical
Publication of CN102243661B publication Critical patent/CN102243661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种网站内容质量评估方法和装置,该网站内容质量评估方法包括:获取样本网站的第一特征集,根据第一特征集,生成第一特征空间,通过第一特征空间训练分类器,生成预测模型,其中第一特征集中包括至少两类特征;获取待评估网站的第二特征集,根据第二特征集,生成第二特征空间,其中第二特征集中特征的数量和类别与第一特征集相同;根据预测模型对第二特征空间进行预测,生成待评估网站的内容质量评估值。该网站内容质量评估装置包括预测模型模块、第二特征空间模块和评估模块。本发明提供的网站内容质量评估方法和装置,从多角度对网站内容质量进行评估,提高了网站内容质量评估的效果。

Description

网站内容质量评估方法和装置
技术领域
本发明涉及网站评估技术,尤其涉及一种网站内容质量评估方法和装置。
背景技术
互联网技术的突飞猛进推动了信息社会的不断发展,互联网内容的膨胀,给网络信息检索、内容归档等应用造成了巨大的困难,特别是随着搜索引擎作弊、钓鱼、木马等不良应用的泛滥,使得对网站内容质量评价变得越来越困难。PageRank是Google公司对网页(网站)重要性进行度量的方法,随着链接联盟、链接交换等互联网作弊形式的泛滥,PageRank已经很难反映真实的网站质量情况。
发明内容
本发明提供一种网站内容质量评估方法和装置,以提高网站内容质量评估的效果。
本发明提供一种网站内容质量评估方法,包括:
获取样本网站的第一特征集,根据所述第一特征集,生成第一特征空间,通过所述第一特征空间训练分类器,生成预测模型,其中所述第一特征集中包括至少两类特征;
获取待评估网站的第二特征集,根据所述第二特征集,生成第二特征空间,其中所述第二特征集中特征的数量和类别与所述第一特征集相同;
根据所述预测模型对所述第二特征空间进行预测,生成所述待评估网站的内容质量评估值。
如上所述的网站内容质量评估方法,其中,
所述特征的类别包括主机名特征、域名注册特征和第三方特征。
如上所述的网站内容质量评估方法,所述根据所述预测模型对所述第二特征空间进行预测,生成所述待评估网站的内容质量评估值包括:
根据所述预测模型对所述第二特征空间进行预测,生成各预设等级对应的后验概率;
根据所述预设等级和所述后验概率生成所述待评估网站的内容质量评估值。
如上所述的网站内容质量评估方法,所述根据所述预设等级和所述后验概率生成所述待评估网站的内容质量评估值包括:
应用以下公式生成所述内容质量评估值:
内容质量评估值=L1×P1+L2×P2+...+Lk×Pk;其中,
1≤k≤N,N为所述预设等级的数量;
P1~Pk为将所述各预设等级对应的后验概率从高到低进行排序后的前k个后验概率;
L1~Lk为所述前k个后验概率对应的预设等级的等级值。
如上所述的网站内容质量评估方法,其中,
所述分类器为决策树或贝叶斯分类器。
如上所述的网站内容质量评估方法,其中,
所述生成第一特征空间之后,所述通过所述第一特征空间训练分类器,生成预测模型之前,还包括:对所述第一特征空间进行归一化处理;
所述生成第二特征空间之后,所述根据所述预测模型对所述第二特征空间进行预测,生成所述待评估网站的内容质量评估值之前,还包括:对所述第二特征空间进行归一化处理。
本发明提供一种网站内容质量评估装置,包括:
预测模型模块,用于获取样本网站的第一特征集,根据所述第一特征集,生成第一特征空间,通过所述第一特征空间训练分类器,生成预测模型,其中所述第一特征集中包括至少两类特征;
第二特征空间模块,用于获取待评估网站的第二特征集,根据所述第二特征集,生成第二特征空间,其中所述第二特征集中特征的数量和类别与所述第一特征集相同;
评估模块,用于根据所述预测模型对所述第二特征空间进行预测,生成所述待评估网站的内容质量评估值。
如上所述的网站内容质量评估装置,其中,
所述特征的类别包括主机名特征、域名注册特征和第三方特征。
如上所述的网站内容质量评估装置,所述评估模块包括:
后验概率生成单元,用于根据所述预测模型对所述第二特征空间进行预测,生成各预设等级对应的后验概率;
内容质量评估值生成单元,用于根据所述预设等级和所述后验概率生成所述待评估网站的内容质量评估值。
如上所述的网站内容质量评估装置,还包括:
归一化处理模块,用于分别对所述第一特征空间和所述第二特征空间进行归一化处理。
由上述技术方案可知,本发明提供的网站内容质量评估方法核装置,通过获取样本网站的至少两类特征,通过该些特征形成的特征空间训练分类器,生成预测模型,再通过该预测模型对待评估网站进行内容质量的预测评估,实现了从多角度对网站内容质量进行评估,提高了网站内容质量评估的效果。
附图说明
图1为本发明实施例提供的网站内容质量评估方法流程图;
图2为本发明实施例提供的一种网站内容质量评估装置结构示意图;
图3为本发明实施例提供的另一种网站内容质量评估装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是,在附图或说明书中,相似或相同的元件皆使用相同的附图标记。
图1为本发明实施例提供的网站内容质量评估方法流程图,如图1所示,本实施例提供的网站内容质量评估方法包括:
步骤10、获取样本网站的第一特征集,根据第一特征集,生成第一特征空间,通过第一特征空间训练分类器,生成预测模型,其中第一特征集中包括至少两类特征;
样本网站具体可以为新浪、搜狐和网易等内容质量较高的网站,以及其他普通网站,样本网站的数量至少在百个数量级,数千个网站最好,需要人工预先给这些网站以评价,比如优、良、中、差等。第一特征集中包括至少两类特征,每类特征具体为多维的特征向量。根据第一特征集,生成第一特征空间,具体可以将第一特征集中的特征进行融合,形成融合向量,即特征空间。优选地,对第一特征集中的特征进行融合的方法可以采用线性融合。也可以采用其他方法根据第一特征集生成第一特征空间,不以本实施例为限。通过第一特征空间训练分类器,生成预测模型。
步骤20、获取待评估网站的第二特征集,根据第二特征集,生成第二特征空间,其中第二特征集中特征的数量和类别与第一特征集相同;
第二特征集中特征的数量和类别与第一特征集相同,生成待评估网站的第二特征空间与生成样本网站的第一特征空间采用相同的方法,以保证通过预测模型对待评估网站进行预测的准确性。
步骤30、根据预测模型对第二特征空间进行预测,生成待评估网站的内容质量评估值。
本实施例提供的网站内容质量评估方法,通过获取样本网站的至少两类特征,通过该些特征形成的特征空间训练分类器,生成预测模型,再通过该预测模型对待评估网站进行内容质量的预测评估,实现了从多角度对网站内容质量进行评估,提高了网站内容质量评估的效果。
在本实施例中,优选地,特征的类别可以包括主机名特征、域名注册特征和第三方特征,该些特征均为低维数的特征,有利于减少特征获取过程以及建模过程的计算量。
主机名特征具体可以包括以下维数信息:主机名的长度、主机对应域名的长度、主机中“.”的个数、主机中“-”的个数、主机对应的域名中“-”的个数、主机中数字的个数、主机对应的域名中数字的个数、主机中年份的个数、主机对应域名中年份的个数、主机中字母的个数和主机对应的域名中字母的个数等。主机名是网站的名片,很多的网站都希望在名片中展现网站的特色,特别是很多的作弊、钓鱼等不良应用更是会在主机名上做文章,所以将主机名的相关信息作为特征,能够反映网站的内容质量情况。而且主机名特征的维数低,处理简单,便于统计。
域名注册特征具体可以包括以下维数信息:域名的注册时间、更新时间、过期时间,域名的注册人、注册商,域名NS的个数等。域名的注册信息,可以反映域名注册时间长短,注册人、注册服务商是否真实可靠,以及解析主机是否可靠等。域名注册特征也从一定角度反映了网站的内容质量情况。
第三方特征具体可以包括以下维数信息:Alex索引主机内网页的数量、Google索引主机内网页的数量、Yahoo索引主机内网页的数量、GooglePageRank值、Yahoo给出的主机入链接数、DMOZ索引主机内网页的数量等。Google根据网站的链接情况给出PageRank值,Yahoo给出的指向该网站的网站数(即入链接),Alex给出一个网站的排名,DMOZ作为一个人工维护的目录会给出网站是否含有以及含有哪些重要资源等。该些网站给出的度量有的是基于网站内容,有的是基于DNS解析,有的是基于链接分析。这些都为网站内容的评价提供了不同的视角。
在本实施例中,步骤30、根据预测模型对第二特征空间进行预测,生成待评估网站的内容质量评估值,具体可以包括以下步骤:
步骤301、根据预测模型对第二特征空间进行预测,生成各预设等级对应的后验概率;
具体的,可以根据对网站的内容质量评估需要将内容质量划分为多个预设等级,如优、良、中、差四个等级,根据预测模型对第二特征空间进行预测,生成每个预设等级对应的后验概率。
步骤302、根据预设等级和后验概率生成待评估网站的内容质量评估值。
在本实施例中,优选地,步骤301、根据预设等级和后验概率生成待评估网站的内容质量评估值,具体可以包括:
应用以下公式生成内容质量评估值:
内容质量评估值=L1×P1+L2×P2+...+Lk×Pk
其中,1≤k≤N,N为预设等级的数量;
P1~Pk为将各预设等级对应的后验概率从高到低进行排序后的前k个后验概率;
L1~Lk为前k个后验概率对应的预设等级的等级值。
例如,网站的内容质量评估的满分为5,通过优、良、中、差四个预设等级对网站的内容质量进行评估,优级的等级值为5,良级的等级值为4,中级的等级值为3,差级的等级值为2。则通过预测模型对待评估网站的第二特征空间进行预测,生成的对应四个预设等级的后验概率分别为:0.2、0.4、0.3、0.1。将各预设等级对应的后验概率从高到低进行排序,选择排序后前k个预设等级,1≤k≤4。如果k=4,则内容质量评估值=L1×P1+L2×P2+...+L4×P4,即内容质量评估值=4×0.4+3×0.3+5×0.2+2×0.1=3.7。
在本实施例中,优选地,分类器为决策树或贝叶斯分类器。具体的,决策树可以采用C4.5决策树,并使用Bagging算法加强。
在本实施例中,生成第一特征空间之后,通过第一特征空间训练分类器,生成预测模型之前,还可以包括以下步骤:对第一特征空间进行归一化处理。具体可以为对第一特征空间的样本进行归一化处理。生成第二特征空间之后,根据预测模型对第二特征空间进行预测,生成待评估网站的内容质量评估值之前,还可以包括以下步骤:对第二特征空间进行归一化处理。具体可以为对第二特征空间的样本进行归一化处理。
分别对第一特征空间和第二特征空间进行归一化处理,具体可以采用0-1归一化处理,再通过经过归一化处理后的第一特征空间训练分类器,可以避免部分大值特征误导分类,进一步提高了网站内容评估的准确性。
图2为本发明实施例提供的一种网站内容质量评估装置结构示意图,如图2所示,本实施例提供的网站内容质量评估装置具体可以实现本发明任意实施例提供的网站内容质量评估方法,但并不以此为限。该网站内容质量评估装置包括预测模型模块11、第二特征空间模块12和评估模块13。预测模型模块11用于获取样本网站的第一特征集,根据第一特征集,生成第一特征空间,通过第一特征空间训练分类器,生成预测模型,其中第一特征集中包括至少两类特征。第二特征空间模块12用于获取待评估网站的第二特征集,根据第二特征集,生成第二特征空间,其中第二特征集中特征的数量和类别与第一特征集相同。评估模块13用于根据预测模型对第二特征空间进行预测,生成待评估网站的内容质量评估值。
本实施例提供的网站内容质量评估装置,通过预测模型模块11的设置,获取样本网站的至少两类特征,通过该些特征形成的特征空间训练分类器,生成预测模型,评估模块13再通过该预测模型对第二特征空间模块12生成的第二特征空间进行预测,对待评估网站进行内容质量的预测评估,实现了从多角度对网站内容质量进行评估,提高了网站内容质量评估的效果。
在本实施例中,优选地,特征的类别包括主机名特征、域名注册特征和第三方特征。
图3为本发明实施例提供的另一种网站内容质量评估装置结构示意图,如图3所示,在本实施例中,评估模块13具体可以包括后验概率生成单元131和内容质量评估值生成单元132。后验概率生成单元131用于根据预测模型对第二特征空间进行预测,生成各预设等级对应的后验概率。内容质量评估值生成单元132用于根据预设等级和后验概率生成待评估网站的内容质量评估值。
在本实施例中,网站内容质量评估装置还可以包括归一化处理模块14,归一化处理模块14用于分别对第一特征空间和第二特征空间进行归一化处理。
本发明实施例提供的网站内容质量评估方法和装置,通过获取样本网站的至少两类特征,通过该些特征形成的特征空间训练分类器,生成预测模型,再通过该预测模型对待评估网站进行内容质量的预测评估,实现了从多角度对网站内容质量进行评估,提高了网站内容质量评估的效果。而且有机结合主机名信息、域名注册信息和第三方信息,对网站内容质量进行评价,不仅解决了基于内容和链接分析特征的网站内容质量评价方法,提取特征维数高和新网站特征难以提取的问题,同时适用于跨语言网站质量评价。由于开销小,特别适合网站归档等应用。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种网站内容质量评估方法,其特征在于,包括: 
获取样本网站的第一特征集,根据所述第一特征集,生成第一特征空间,通过所述第一特征空间训练分类器,生成预测模型,其中所述第一特征集中包括至少两类特征; 
获取待评估网站的第二特征集,根据所述第二特征集,生成第二特征空间,其中所述第二特征集中特征的数量和类别与所述第一特征集相同; 
根据所述预测模型对所述第二特征空间进行预测,生成所述待评估网站的内容质量评估值; 
其中,所述根据所述预测模型对所述第二特征空间进行预测,生成所述待评估网站的内容质量评估值包括: 
根据所述预测模型对所述第二特征空间进行预测,生成各预设等级对应的后验概率; 
根据所述预设等级和所述后验概率生成所述待评估网站的内容质量评估值。 
2.根据权利要求1所述的网站内容质量评估方法,其特征在于: 
所述特征的类别包括主机名特征、域名注册特征和第三方特征,其中,所述第三方特征包括:Alex索引主机内网页的数量、谷歌Google索引主机内网页的数量、雅虎Yahoo索引主机内网页的数量、谷歌排名Google PageRank值、雅虎Yahoo给出的主机入链接数、开放目录项目DMOZ索引主机内网页的数量。 
3.根据权利要求1或2所述的网站内容质量评估方法,其特征在于,所述根据所述预设等级和所述后验概率生成所述待评估网站的内容质量评估值包括: 
应用以下公式生成所述内容质量评估值: 
内容质量评估值=L1×P1+L2×P2+…+Lk×Pk;其中, 
1≤k≤N,N为所述预设等级的数量; 
P1~Pk为将所述各预设等级对应的后验概率从高到低进行排序后的前k个 后验概率; 
L1~Lk为所述前k个后验概率对应的预设等级的等级值。 
4.根据权利要求1或2所述的网站内容质量评估方法,其特征在于: 
所述分类器为决策树或贝叶斯分类器。 
5.根据权利要求1所述的网站内容质量评估方法,其特征在于: 
所述生成第一特征空间之后,所述通过所述第一特征空间训练分类器,生成预测模型之前,还包括:对所述第一特征空间进行归一化处理; 
所述生成第二特征空间之后,所述根据所述预测模型对所述第二特征空间进行预测,生成所述待评估网站的内容质量评估值之前,还包括:对所述第二特征空间进行归一化处理。 
6.一种网站内容质量评估装置,其特征在于,包括: 
预测模型模块,用于获取样本网站的第一特征集,根据所述第一特征集,生成第一特征空间,通过所述第一特征空间训练分类器,生成预测模型,其中所述第一特征集中包括至少两类特征; 
第二特征空间模块,用于获取待评估网站的第二特征集,根据所述第二特征集,生成第二特征空间,其中所述第二特征集中特征的数量和类别与所述第一特征集相同; 
评估模块,用于根据所述预测模型对所述第二特征空间进行预测,生成所述待评估网站的内容质量评估值; 
所述评估模块包括: 
后验概率生成单元,用于根据所述预测模型对所述第二特征空间进行预测,生成各预设等级对应的后验概率; 
内容质量评估值生成单元,用于根据所述预设等级和所述后验概率生成所述待评估网站的内容质量评估值。
7.根据权利要求6所述的网站内容质量评估装置,其特征在于: 
所述特征的类别包括主机名特征、域名注册特征和第三方特征,其中,所述第三方特征包括:Alex索引主机内网页的数量、谷歌Google索引主机内 网页的数量、雅虎Yahoo索引主机内网页的数量、谷歌排名Google PageRank值、雅虎Yahoo给出的主机入链接数、开放目录项目DMOZ索引主机内网页的数量。 
8.根据权利要求6所述的网站内容质量评估装置,其特征在于,还包括: 
归一化处理模块,用于分别对所述第一特征空间和所述第二特征空间进行归一化处理。 
CN201110205726.5A 2011-07-21 2011-07-21 网站内容质量评估方法和装置 Active CN102243661B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110205726.5A CN102243661B (zh) 2011-07-21 2011-07-21 网站内容质量评估方法和装置
PCT/CN2011/083674 WO2013010367A1 (zh) 2011-07-21 2011-12-08 网站内容质量评估方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110205726.5A CN102243661B (zh) 2011-07-21 2011-07-21 网站内容质量评估方法和装置

Publications (2)

Publication Number Publication Date
CN102243661A CN102243661A (zh) 2011-11-16
CN102243661B true CN102243661B (zh) 2014-04-23

Family

ID=44961716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110205726.5A Active CN102243661B (zh) 2011-07-21 2011-07-21 网站内容质量评估方法和装置

Country Status (2)

Country Link
CN (1) CN102243661B (zh)
WO (1) WO2013010367A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243661B (zh) * 2011-07-21 2014-04-23 中国科学院计算机网络信息中心 网站内容质量评估方法和装置
CN103218356B (zh) * 2012-01-18 2017-12-08 深圳市世纪光速信息技术有限公司 一种面向开放平台的提问质量判定方法和系统
CN103544169B (zh) * 2012-07-12 2017-05-10 百度在线网络技术(北京)有限公司 页面调整方法及装置
CN103412918B (zh) * 2013-08-08 2016-07-06 南京邮电大学 一种基于服务质量和声誉的服务信任度评估方法
CN105589683B (zh) * 2014-10-22 2020-08-11 腾讯科技(深圳)有限公司 样本抽取方法和装置
CN106484696B (zh) * 2015-08-25 2019-05-28 北京中搜云商网络技术有限公司 一种改进搜索引擎质量的方法
CN108121741B (zh) * 2016-11-30 2021-12-28 百度在线网络技术(北京)有限公司 网站质量评估方法及装置
CN108270637B (zh) * 2016-12-30 2020-12-22 中国移动通信集团浙江有限公司 一种网站质量多层钻取系统和方法
CN109241475B (zh) * 2017-07-11 2022-01-14 周武增 一种智能化信息发布系统及方法
CN110472885A (zh) * 2019-08-22 2019-11-19 华南师范大学 一种网站评估系统及其工作方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101006702A (zh) * 2004-06-23 2007-07-25 高通股份有限公司 网络分组的高效分类
CN100543744C (zh) * 2006-12-12 2009-09-23 孙斌 对网页和网站评级的方法
CN101281519B (zh) * 2007-04-02 2015-04-01 北京奇虎科技有限公司 一种评价网络资源价值的方法及其在搜索引擎领域的应用
CN101226521A (zh) * 2008-02-18 2008-07-23 南京大学 一种用于多义性数据对象预测建模的机器学习方法
CN102096680A (zh) * 2009-12-15 2011-06-15 北京大学 信息有效性分析的方法和装置
CN101777060B (zh) * 2009-12-23 2012-05-23 中国科学院自动化研究所 基于网页视觉特征的网页分类方法及其系统
CN102243661B (zh) * 2011-07-21 2014-04-23 中国科学院计算机网络信息中心 网站内容质量评估方法和装置

Also Published As

Publication number Publication date
CN102243661A (zh) 2011-11-16
WO2013010367A1 (zh) 2013-01-24

Similar Documents

Publication Publication Date Title
CN102243661B (zh) 网站内容质量评估方法和装置
KR101284788B1 (ko) 신뢰도에 기반한 질의응답 장치 및 그 방법
Antonellis et al. Simrank++ query rewriting through link analysis of the clickgraph (poster)
TWI615724B (zh) 基於電子資訊的關鍵字提取的資訊推送、搜尋方法及裝置
CN102508859B (zh) 一种基于网页特征的广告分类方法及装置
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN102982153B (zh) 一种信息检索方法及其装置
US8630972B2 (en) Providing context for web articles
US20190012392A1 (en) Method and device for pushing information
CN106682150B (zh) 一种信息处理的方法及装置
US20080059486A1 (en) Intelligent data search engine
CN110602045B (zh) 一种基于特征融合和机器学习的恶意网页识别方法
CN102541999A (zh) 对象敏感的图像搜索
CN101727454A (zh) 用于对象自动分类的方法和系统
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN103186550A (zh) 一种视频的相关视频列表的生成方法及系统
CN103310343A (zh) 商品信息发布方法和装置
CN103310003A (zh) 一种基于点击日志的新广告点击率预测方法及系统
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN101630315B (zh) 一种快速检索方法及系统
CN105183784A (zh) 一种基于内容的垃圾网页检测方法及其检测装置
CN103544307A (zh) 一种不依赖文档库的多搜索引擎自动化对比评测方法
Smith Citations and links as a measure of effectiveness of online LIS journals
CN108021715A (zh) 基于语义结构特征分析的异构标签融合系统
Xu et al. A web page classification algorithm based on link information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210204

Address after: 100190 room 506, building 2, courtyard 4, South 4th Street, Zhongguancun, Haidian District, Beijing

Patentee after: CHINA INTERNET NETWORK INFORMATION CENTER

Address before: 100190 No. four, four South Street, Haidian District, Beijing, Zhongguancun

Patentee before: Computer Network Information Center, Chinese Academy of Sciences

TR01 Transfer of patent right