CN104834640A - 网页的识别方法及装置 - Google Patents

网页的识别方法及装置 Download PDF

Info

Publication number
CN104834640A
CN104834640A CN201410046966.9A CN201410046966A CN104834640A CN 104834640 A CN104834640 A CN 104834640A CN 201410046966 A CN201410046966 A CN 201410046966A CN 104834640 A CN104834640 A CN 104834640A
Authority
CN
China
Prior art keywords
webpage
identified
weight
web page
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410046966.9A
Other languages
English (en)
Inventor
黄钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410046966.9A priority Critical patent/CN104834640A/zh
Priority to PCT/CN2015/072281 priority patent/WO2015117560A1/en
Publication of CN104834640A publication Critical patent/CN104834640A/zh
Priority to US15/202,369 priority patent/US10452725B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种网页的识别方法,包括以下步骤:获取待识别的网页中每个分词的权重;根据所述待识别的网页中每个分词的权重,利用预先建立的逻辑回归模型,计算获得待识别的网页分别在预设的两个网页类别中的权重;将权重较大的网页类别作为所述待识别的网页的类别。本发明还公开一种网页的识别装置。本发明对网页的识别更加准确,尤其对于网页的关键词不容易区分的网页的识别,效果更加显著。

Description

网页的识别方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种网页的识别方法及装置。
背景技术
随着移动互联网的发展,人们使用移动终端可以便捷地访问互联网,可以获得各种信息。但是随着网页类别的众多,在访问网页的同时,往往会出现一些网络欺诈、色情等垃圾网页,给人们的使用带来了困扰。
目前的解决方法是通过预先建立一组与体现垃圾网页的特征的关键词库,然后将要识别的网页中的词汇与所述关键词库中的关键词进行匹配,若匹配的词汇个数达到一定的阈值时,则识别该网页为垃圾网页。
上述网页的识别方法中,由于网页内容的多样性,无法保证关键词库可以包含所有体现垃圾网页的特征的关键词,而且还可能对一些包含该关键词的安全网页进行误判,因此网页的识别效果不佳。
发明内容
本发明实施例的主要目的是提供一种网页的识别方法及装置,旨在解决现有技术的网页识别方法的识别效果不好的问题。
为达到以上目的,本发明实施例提供了一种一种网页的识别方法,包括以下步骤:
获取待识别的网页中每个分词的权重;
根据所述待识别的网页中每个分词的权重,利用预先建立的逻辑回归模型,计算获得待识别的网页分别在预设的两个网页类别中的权重;
将权重较大的网页类别作为所述待识别的网页的类别。
本发明实施例还提供了一种网页的识别装置,包括:
权重获取模块,用于获取待识别的网页中每个分词的权重;
计算模块,用于根据所述待识别的网页中每个分词的权重,利用预先建立的逻辑回归模型,计算获得待识别的网页分别在预设的两个网页类别中的权重;
类别确定模块,用于将权重较大的网页类别作为所述待识别的网页的类别。
本发明实施例通过预先建立的逻辑回归模型对待识别的网页进行识别,由于预先建立的逻辑回归模型是通过根据多个网页样本进行学习获得,因此,相对于现有技术的关键词的识别方法,本实施例对网页的识别更加准确,尤其对于网页的关键词不容易区分的网页的识别,效果更加显著。
附图说明
图1是本发明网页的识别方法一实施例的流程示意图;
图2是图1中获取待识别的网页中每个分词的权重的具体步骤的流程示意图;
图3是本发明网页的识别方法另一实施例的流程示意图;
图4是图3中获取待识别的网页中网页特征的权重一实施例的流程示例图;
图5是图3中获取待识别的网页中网页特征的权重另一实施例的流程示例图;
图6是本发明网页的识别装置一实施例的功能模块示意图;
图7是本发明网页的识别装置中权重获取模块一实施例的功能模块示意图;
图8是本发明网页的识别装置中权重获取模块另一实施例的功能模块示意图;
图9是本发明网页的识别装置所在的网络服务器的硬件架构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
以下结合说明书附图及具体实施例进一步说明本发明的技术方案。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种网页的识别方法,针对现有技术中的网页识别方法效率不高的问题,利用预先建立的逻辑回归模型以及朴素贝叶斯模型对网页进行识别,相对于现有技术,本发明的网页的识别方法使得网页的识别更加准确,识别效率也更高。
为了更好地理解本发明,在此先对预先建立的逻辑回归模型以及朴素贝叶斯模型进行相应的介绍。
逻辑回归模型为一种线性分类模型,能够将线性函数转换为0到1之间的概率值。本实施例中,该逻辑回归模型通过一批样本进行训练完成的,具体过程如下:
(1)标注一批网页样本作为样本集合,并确认每个网页样本的分类。
(2)对每个网页样本进行分词处理,获得每个网页样本的分词。为了使得分词准确,该分词处理所基于的词库由根据该网页样本的标题、页面导航中提取出来的词汇所组成。
(3)统计网页样本中每个分词的词频和逆文档频率,并计算每个分词在网页样本中的权重。词频是指一个词汇在一篇网页中出现的次数。逆文档频率又称为反文档频率,其通过文档频率计算获得。例如,某词汇在m篇文档中出现过,则该词汇的文档频率是m,逆文档频率则由公式log(N/(DF+0.01))计算获得,其中DF是文档频率,N是网页总数。
(4)根据每个分词在网页样本中的权重,对样本集合中的网页样本进行学习,得到逻辑回归模型。然后,利用该逻辑回归模型计算网页样本在预设的两个网页类别中的权重。
朴素贝叶斯模型为一种基于概率分布的分类模型,能够根据已标注的训练样本,生成模型。该模型可用来计算未知网页所属网页类别的概率,进而判断未知网页的网页类别。本实施例中,该朴素贝叶斯模型也是通过一批样本进行训练完成的,且要基于前面建立逻辑回归模型中所计算的网页样本在预设的两个网页类别中的权重。具体过程如下:
(5)获取每个网页样本的网页地址、标题等网页特征,并获取每个网页样本的网页地址、标题所述预设的两个网页类别的权重。
(6)根据每个网页样本的网页地址、标题所述预设的两个网页类别的权重、网页样本在预设的两个网页类别中的权重,对样本集合中的网页样本进行学习,得到朴素贝叶斯模型。
参照图1,该实施例的网页的识别方法包括以下步骤:
步骤S110、获取待识别的网页中每个分词的权重;
在获取到待识别的网页后,计算该网页中每个分词在网页中所占的比重。该比重可以根据每个分词在网页中出现的位置、在网页中出现的次数等等进行计算。
步骤S120、根据所述待识别的网页中每个分词的权重,利用预先建立的逻辑回归模型,计算获得待识别的网页分别在预设的两个网页类别中的权重;
本实施例中,该两个网页类别为成人类和非成人类。当然也可以为其他预设的网页类别。所述待识别的网页中每个分词的权重作为输入,利用预先建立的上述逻辑回归模型进行计算,将输出待识别的网页在预设的两个网页类别中的权重。
步骤S130、将权重较大的网页类别作为所述待识别的网页的类别。
由于本实施例中计算待识别的网页在预设的两个网页类别中的权重,所以待识别的网页不是成人类网页,就是非成人类网页。因此,待识别的网页在成人类的权重与待识别的网页在非成人类的权重之和为1。即将权重较大的网页类别作为待识别的网页的类别,也可以为:将权重大于0.5的网页类别作为待识别的网页的类别。
进一步地,参照图2,上述步骤S110包括:
步骤S111、获取待识别的网页;
该待识别的网页可以根据用户请求访问的网页地址,从服务器中获取待识别的网页的数据。
步骤S112、对所述待识别的网页进行分词处理;
为了分词的准确性,该待识别的网页进行分词处理所依据的词库由所预设的两个类别的网页中提取的普遍性词汇组成。例如上述建立逻辑回归模型时,由根据该网页样本的标题、页面导航中提取出来的词汇所组成的词库。
步骤S113、获取每个分词在所述待识别的网页中的词频和逆文档频率;
步骤S114、根据所述每个分词在待识别的网页中的词频和逆文档频率,计算获得所述待识别的网页中每个分词的权重。
将每个分词在待识别的网页中的词频和逆文档频率相乘,以获得每个分词在所述待识别的网页中的权重。
本发明实施例通过预先建立的逻辑回归模型对待识别的网页进行识别,由于预先建立的逻辑回归模型是通过根据多个网页样本进行学习获得,因此,相对于现有技术的关键词的识别方法,本实施例对网页的识别更加准确,尤其对于网页的关键词不容易区分的网页的识别,效果更加显著。
参照图3,本发明网页的识别方法的另一实施例中,在上述实施例的步骤S120之后还包括:
步骤S140、获取待识别的网页中网页特征的权重;
首先获取待识别的网页中各网页特征,例如网页的URL地址、网页标题等等。然后确定各个网页特征所属网页类别的权重。
步骤S150、根据所述待识别的网页中每个分词的权重以及所述待识别的网页中网页特征的权重,利用预先建立的朴素贝叶斯模型,计算获得待识别的网页分别在预设的两个网页类别中的概率;
步骤S160、将概率较大的网页类别作为所述待识别的网页的类别。
进一步地,参照图4,上述步骤S140包括:
步骤S141、获取待识别的网页中的网页地址;
步骤S142、判断所述网页地址中是否包含体现其中一个预设的网页类别的网页的特征信息;是则转入步骤S143,否则转入步骤S144;
步骤S143、将所述待识别的网页中网页地址特征的权重记为1;
步骤S144、将所述待识别的网页中网页地址特征的权重记为0。
进一步地,参照图5,上述步骤S140包括:
步骤S145、获取网页的页面标题;
步骤S146、判断所述页面标题中是否包含体现其中一个预设的网页类别的网页的特征信息;是则转入步骤S147,否则转入步骤S148;
步骤S147、将所述待识别的网页中页面标题特征的权重记为1;
步骤S148、将所述待识别的网页中页面标题特征的权重记为0。
上述体现其中一个预设的网页类别的网页的特征信息为与该预设的网页类别的网页对应的特征。例如,该预设的网页类别为成人网页类别时,则体现该网页类别的网页的特征信息则为与成人网页类别相应的关键词汇。
本实施例利用逻辑回归模型和朴素贝叶斯模型,共同对待识别的网页进行识别。由于朴素贝叶斯模型结合了网页的多个维度特征,所以本实施例进一步提高了网页的识别准确度。
本发明网页的识别方法可以用于对成人页面的识别,当识别到用户要访问的网页中包含成人页面时,则对其进行过滤。以下将利用预先建立的逻辑回归模型(LR模型)以及朴素贝叶斯模型(NB模型)对待识别的网页进行识别测试。其中该逻辑回归模型以及朴素贝叶斯模型所基于的样本集合中网页样本为2151条,成人页面980条,非成人页面1171条。测试结果如下表所示:
由上表可知,基于LR和NB的混合模型有着更高的准确率和召回率,识别效果更好。
对应地,参照图6,本发明实施例一种网页的识别装置包括:
权重获取模块110,用于获取待识别的网页中每个分词的权重;
计算模块120,用于根据所述待识别的网页中每个分词的权重,利用预先建立的逻辑回归模型,计算获得待识别的网页分别在预设的两个网页类别中的权重;
类别确定模块130,用于将权重较大的网页类别作为所述待识别的网页的类别。
本发明实施例通过预先建立的逻辑回归模型对待识别的网页进行识别,由于预先建立的逻辑回归模型是通过根据多个网页样本进行学习获得,因此,相对于现有技术的关键词的识别方法,本实施例对网页的识别更加准确,尤其对于网页的关键词不容易区分的网页的识别,效果更加显著。
进一步地,参照图7,上述权重获取模块110包括:
网页获取单元111,用于获取待识别的网页;
分词处理单元112,用于对所述待识别的网页进行分词处理;
分词频率获取单元113,用于获取每个分词在所述待识别的网页中的词频和逆文档频率;
权重计算单元114,用于根据所述每个分词在待识别的网页中的词频和逆文档频率,计算获得所述待识别的网页中每个分词的权重。
进一步地,上述权重获取模块110还用于:获取待识别的网页中网页特征的权重;
所述计算模块120还用于:根据所述待识别的网页中每个分词的权重以及所述待识别的网页中网页特征的权重,利用预先建立的朴素贝叶斯模型,计算获得待识别的网页分别在预设的两个网页类别中的概率;
所述类别确定模块130还用于:将概率较大的网页类别作为所述待识别的网页的类别。
本实施例利用逻辑回归模型和朴素贝叶斯模型,共同对待识别的网页进行识别。由于朴素贝叶斯模型结合了网页的多个维度特征,所以本实施例进一步提高了网页的识别准确度。
进一步地,参照图8,上述权重获取模块110还包括:
特征获取单元115,用于获取待识别的网页中的网页地址;
特征判断单元116,用于判断所述网页地址中是否包含体现其中一个预设的网页类别的网页的特征信息;
权重获得单元117,用于当所述网页地址中包含体现其中一个预设的网页类别的网页的特征信息时,将所述待识别的网页中网页地址特征的权重记为1;当所述网页地址中不包含体现其中一个预设的网页类别的网页的特征信息时,将所述待识别的网页中网页地址特征的权重记为0。
进一步地,上述特征获取单元115,用于获取网页的页面标题;
特征判断单元116,用于判断所述页面标题中是否包含体现其中一个预设的网页类别的网页的特征信息;
权重获得单元117,用于当所述页面标题中包含体现其中一个预设的网页类别的网页的特征信息时,将所述待识别的网页中页面标题特征的权重记为1;当所述页面标题中不包含体现其中一个预设的网页类别的网页的特征信息时,将所述待识别的网页中页面标题特征的权重记为0。
上述体现其中一个预设的网页类别的网页的特征信息为与该预设的网页类别的网页对应的特征。例如,该预设的网页类别为成人网页类别时,则体现该网页类别的网页的特征信息则为与成人网页类别相应的关键词汇。
参照图9,上述网页识别装置可以设置在浏览器客户端的后台程序中,也可以设置在网络服务器中。以网络服务器为例,该网络服务器包括处理器101、存储器102、通讯接口103。其中存储器102可用于存储软件程序以及数据,例如网页识别的应用程序以及进行网页识别所需的数据。该通讯接口103可用于网络服务器与用户终端通信。该通讯接口可包括有线接口和WIFI接口等等。处理器101则调用存储器102上的网页识别的应用程序以及进行网页识别所需的数据,并执行上述网页识别方法的操作,在此就不再赘述。
以上所述仅为本发明的优选实施例,并非因此限制其专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种网页的识别方法,其特征在于,包括以下步骤:
获取待识别的网页中每个分词的权重;
根据所述待识别的网页中每个分词的权重,利用预先建立的逻辑回归模型,计算获得待识别的网页分别在预设的两个网页类别中的权重;
将权重较大的网页类别作为所述待识别的网页的类别。
2.如权利要求1所述的网页的识别方法,其特征在于,所述获取待识别的网页中每个分词的权重包括:
获取待识别的网页;
对所述待识别的网页进行分词处理;
获取每个分词在所述待识别的网页中的词频和逆文档频率;
根据所述每个分词在待识别的网页中的词频和逆文档频率,计算获得所述待识别的网页中每个分词的权重。
3.如权利要求1或2所述的网页的识别方法,其特征在于,所述计算获得待识别的网页分别在预设的两个网页类别中的权重之后还包括:
获取待识别的网页中网页特征的权重;
根据所述待识别的网页中每个分词的权重以及所述待识别的网页中网页特征的权重,利用预先建立的朴素贝叶斯模型,计算获得待识别的网页分别在预设的两个网页类别中的概率;
将概率较大的网页类别作为所述待识别的网页的类别。
4.如权利要求3所述的网页的识别方法,其特征在于,所述获取待识别的网页中网页特征的权重包括:
获取待识别的网页中的网页地址;
判断所述网页地址中是否包含体现其中一个预设的网页类别的网页的特征信息;
当所述网页地址中包含体现其中一个预设的网页类别的网页的特征信息时,将所述待识别的网页中网页地址特征的权重记为1;
当所述网页地址中不包含体现其中一个预设的网页类别的网页的特征信息时,将所述待识别的网页中网页地址特征的权重记为0。
5.如权利要求3所述的网页的识别方法,其特征在于,所述获取待识别的网页中网页特征的权重包括:
获取网页的页面标题;
判断所述页面标题中是否包含体现其中一个预设的网页类别的网页的特征信息;
当所述页面标题中包含体现其中一个预设的网页类别的网页的特征信息时,将所述待识别的网页中页面标题特征的权重记为1;
当所述页面标题中不包含体现其中一个预设的网页类别的网页的特征信息时,将所述待识别的网页中页面标题特征的权重记为0。
6.一种网页的识别装置,其特征在于,包括:
权重获取模块,用于获取待识别的网页中每个分词的权重;
计算模块,用于根据所述待识别的网页中每个分词的权重,利用预先建立的逻辑回归模型,计算获得待识别的网页分别在预设的两个网页类别中的权重;
类别确定模块,用于将权重较大的网页类别作为所述待识别的网页的类别。
7.如权利要求6所述的网页的识别装置,其特征在于,所述权重获取模块包括:
网页获取单元,用于获取待识别的网页;
分词处理单元,用于对所述待识别的网页进行分词处理;
分词频率获取单元,用于获取每个分词在所述待识别的网页中的词频和逆文档频率;
权重计算单元,用于根据所述每个分词在待识别的网页中的词频和逆文档频率,计算获得所述待识别的网页中每个分词的权重。
8.如权利要求6或7所述的网页的识别装置,其特征在于,所述权重获取模块还用于:获取待识别的网页中网页特征的权重;
所述计算模块还用于:根据所述待识别的网页中每个分词的权重以及所述待识别的网页中网页特征的权重,利用预先建立的朴素贝叶斯模型,计算获得待识别的网页分别在预设的两个网页类别中的概率;
所述类别确定模块还用于:将概率较大的网页类别作为所述待识别的网页的类别。
9.如权利要求8所述的网页的识别装置,其特征在于,所述权重获取模块还包括:
特征获取单元,用于获取待识别的网页中的网页地址;
特征判断单元,用于判断所述网页地址中是否包含体现其中一个预设的网页类别的网页的特征信息;
权重获得单元,用于当所述网页地址中包含体现其中一个预设的网页类别的网页的特征信息时,将所述待识别的网页中网页地址特征的权重记为1;当所述网页地址中不包含体现其中一个预设的网页类别的网页的特征信息时,将所述待识别的网页中网页地址特征的权重记为0。
10.如权利要求8所述的网页的识别装置,其特征在于,所述权重获取模块还包括:
特征获取单元,用于获取网页的页面标题;
特征判断单元,用于判断所述页面标题中是否包含体现其中一个预设的网页类别的网页的特征信息;
权重获得单元,用于当所述页面标题中包含体现其中一个预设的网页类别的网页的特征信息时,将所述待识别的网页中页面标题特征的权重记为1;当所述页面标题中不包含体现其中一个预设的网页类别的网页的特征信息时,将所述待识别的网页中页面标题特征的权重记为0。
CN201410046966.9A 2014-02-10 2014-02-10 网页的识别方法及装置 Pending CN104834640A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201410046966.9A CN104834640A (zh) 2014-02-10 2014-02-10 网页的识别方法及装置
PCT/CN2015/072281 WO2015117560A1 (en) 2014-02-10 2015-02-05 Web page recognizing method and apparatus
US15/202,369 US10452725B2 (en) 2014-02-10 2016-07-05 Web page recognizing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410046966.9A CN104834640A (zh) 2014-02-10 2014-02-10 网页的识别方法及装置

Publications (1)

Publication Number Publication Date
CN104834640A true CN104834640A (zh) 2015-08-12

Family

ID=53777344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410046966.9A Pending CN104834640A (zh) 2014-02-10 2014-02-10 网页的识别方法及装置

Country Status (3)

Country Link
US (1) US10452725B2 (zh)
CN (1) CN104834640A (zh)
WO (1) WO2015117560A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468742A (zh) * 2015-11-25 2016-04-06 小米科技有限责任公司 恶意订单识别方法及装置
CN106484919A (zh) * 2016-11-15 2017-03-08 任子行网络技术股份有限公司 一种基于网页独立词的行业网站分类方法和系统
WO2017118427A1 (zh) * 2016-01-07 2017-07-13 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
WO2017166512A1 (zh) * 2016-03-31 2017-10-05 乐视控股(北京)有限公司 视频分类模型的训练方法和视频分类方法
CN108345599A (zh) * 2017-01-23 2018-07-31 阿里巴巴集团控股有限公司 网页类型确定方法、装置及计算机可读介质
CN115631495A (zh) * 2022-10-31 2023-01-20 福州果集信息科技有限公司 一种基于页面分析的spu获取方法及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797982B (zh) * 2016-08-31 2021-05-07 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
CN111339453A (zh) * 2018-12-19 2020-06-26 顺丰科技有限公司 导航页的判别方法和装置
CN109726323B (zh) * 2018-12-25 2023-06-02 四川巧夺天工信息安全智能设备有限公司 一种智能分类网页类型的方法
US10997405B1 (en) * 2019-11-04 2021-05-04 Change Healthcare Holdings Llc Method, apparatus, and computer program product for performing machine learning on unstructured documents
CN116502009B (zh) * 2023-06-25 2023-10-31 北京奇虎科技有限公司 网页过滤方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050165580A1 (en) * 2004-01-28 2005-07-28 Goodman Joshua T. Exponential priors for maximum entropy models
CN1790405A (zh) * 2005-12-31 2006-06-21 钱德沛 基于贝叶斯分类的中文垃圾邮件内容分类鉴别算法
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN103377243A (zh) * 2012-04-27 2013-10-30 腾讯科技(深圳)有限公司 一种对网页进行版式分类的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7974994B2 (en) * 2007-05-14 2011-07-05 Microsoft Corporation Sensitive webpage content detection
US7895205B2 (en) * 2008-03-04 2011-02-22 Microsoft Corporation Using core words to extract key phrases from documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050165580A1 (en) * 2004-01-28 2005-07-28 Goodman Joshua T. Exponential priors for maximum entropy models
CN1790405A (zh) * 2005-12-31 2006-06-21 钱德沛 基于贝叶斯分类的中文垃圾邮件内容分类鉴别算法
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN103377243A (zh) * 2012-04-27 2013-10-30 腾讯科技(深圳)有限公司 一种对网页进行版式分类的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王庆幸: "基于Logistic回归的中文垃圾邮件过滤方法", 《计算机科学》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468742A (zh) * 2015-11-25 2016-04-06 小米科技有限责任公司 恶意订单识别方法及装置
CN105468742B (zh) * 2015-11-25 2018-11-20 小米科技有限责任公司 恶意订单识别方法及装置
WO2017118427A1 (zh) * 2016-01-07 2017-07-13 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
WO2017166512A1 (zh) * 2016-03-31 2017-10-05 乐视控股(北京)有限公司 视频分类模型的训练方法和视频分类方法
CN106484919A (zh) * 2016-11-15 2017-03-08 任子行网络技术股份有限公司 一种基于网页独立词的行业网站分类方法和系统
CN108345599A (zh) * 2017-01-23 2018-07-31 阿里巴巴集团控股有限公司 网页类型确定方法、装置及计算机可读介质
CN108345599B (zh) * 2017-01-23 2021-12-14 阿里巴巴集团控股有限公司 网页类型确定方法、装置及计算机可读介质
CN115631495A (zh) * 2022-10-31 2023-01-20 福州果集信息科技有限公司 一种基于页面分析的spu获取方法及存储介质
CN115631495B (zh) * 2022-10-31 2023-08-22 福州果集信息科技有限公司 一种基于页面分析的spu获取方法及存储介质

Also Published As

Publication number Publication date
US20160314207A1 (en) 2016-10-27
US10452725B2 (en) 2019-10-22
WO2015117560A1 (en) 2015-08-13

Similar Documents

Publication Publication Date Title
CN104834640A (zh) 网页的识别方法及装置
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
JP5759228B2 (ja) 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法
CN103186574B (zh) 一种搜索结果的生成方法和装置
CN103927297B (zh) 基于证据理论的中文微博可信度评估方法
US20160078358A1 (en) Determining trustworthiness and compatibility of a person
US20150074146A1 (en) Method and system for discovering dynamic relations among entities
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN102739679A (zh) 一种基于url分类的钓鱼网站检测方法
CN104008109A (zh) 基于用户兴趣的Web信息推送服务系统
CN102790762A (zh) 基于url分类的钓鱼网站检测方法
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN103049470A (zh) 基于情感相关度的观点检索方法
CN105389389A (zh) 一种网络舆情传播态势媒体联动分析方法
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN109978020A (zh) 一种基于多维特征的社交网络账号马甲身份辨识方法
CN104636407A (zh) 参数取值训练及搜索请求处理方法和装置
CN103095849B (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
CN103744958B (zh) 一种基于分布式计算的网页分类方法
US10430473B2 (en) Deep mining of network resource references
CN103593478A (zh) 一种电子元器件的资源检索方法和装置
CN104636386A (zh) 信息监控方法及装置
CN105677664A (zh) 基于网络搜索的紧密度确定方法及装置
CN105468780A (zh) 一种微博文本中产品名实体的规范化方法及装置
CN105512270B (zh) 一种确定相关对象的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150812