CN103678422A - 网页分类方法和装置、网页分类器的训练方法和装置 - Google Patents
网页分类方法和装置、网页分类器的训练方法和装置 Download PDFInfo
- Publication number
- CN103678422A CN103678422A CN201210362603.7A CN201210362603A CN103678422A CN 103678422 A CN103678422 A CN 103678422A CN 201210362603 A CN201210362603 A CN 201210362603A CN 103678422 A CN103678422 A CN 103678422A
- Authority
- CN
- China
- Prior art keywords
- page
- search
- web page
- user
- searched key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种网页分类方法和装置、网页分类器的训练方法和装置,其中的网页分类方法具体包括:提取待分类网页的用户搜索行为特征;依据第一网页分类器判别该用户搜索行为特征所属的网页类别;其中,所述第一网页分类器为依据网页类别样本的用户搜索行为特征所构造的分类器。本发明能够提高网页分类的准确率和召回率。
Description
技术领域
本申请涉及互联网信息处理技术领域,特别是涉及一种网页分类方法和装置、一种网页分类器的训练方法和装置。
背景技术
随着互联网技术的普及和飞速发展,网络信息成爆炸性增长,一方面满足了用户对信息的需求,另一方面,如何根据网页内容把网页自动划分到不同的类别,以提高用户的体验,是目前面临的一个问题。
衡量网页分类方法的指标具体包括召回率和准确率等。其中,召回率,是正确分出类别的网页数量和所有网页中属于该类别的网页数量的比值,用于衡量网页分类方法是否具有通用性;准确率,是正确分出类别的网页数量除以所有分出类别的网页数量的比值,用于衡量网页分类方法是否准确。
现有技术常用的网页分类方法是:提取网页的文本内容和标签信息等网页内容特征,利用文本分类器对网页内容特征进行分类。其中的文本分类器是预先训练好的分类器,其使用分类算法对文本进行分类。
虽然网页内容特征的描述较为全面,但可能包含大量背景资料,这导致现有技术出现如下问题:
对于短文本的网页,现有技术能够提取的有效文本特征(代表网页唯一主题的有效特征)维度不足,且背景资料容易产生诸如广告、推荐信息、版权声明等与网页内容无关的噪声信息,更容易导致错误分类,从而引起准确率和召回率较低的问题。
对于长文本的网页,现有技术能够提取的网页内容特征的维数过高,而对于常用的分类算法,特征维度越高,意味着计算量越大,因此,高维的特征容易增加文本分类器的处理时间,从而降低了网页分类的速率;另一方面,只有代表网页唯一主题的有效特征才能够体现出网页所属的准确类别,而高维的特征很难集中体现出一个明确的主题或类别,往往体现出多个主题或类别,这样容易引起文本分类器的多峰分布以及最终的错误分类,从而引起准确率和召回率较低的问题。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提高网页分类的准确率和召回率。
发明内容
本申请所要解决的技术问题是提供一种网页分类方法和装置、一种网页分类器的训练方法和装置,能够提高网页分类的准确率和召回率。
为了解决上述问题,本申请公开了一种网页分类方法,包括:
提取待分类网页的用户搜索行为特征;
依据第一网页分类器判别该用户搜索行为特征所属的网页类别;其中,所述第一网页分类器为依据网页类别样本的用户搜索行为特征所构造的分类器。
优选的,所述提取待分类网页的用户搜索行为特征的步骤,进一步包括:
依据所述待分类网页的页面地址,在关系数据库中检索所述待分类网页对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;
所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
优选的,所述提取待分类网页的用户搜索行为特征的步骤,进一步包括:
依据所述待分类网页的页面地址,在用户访问行为数据中查询得到所述待分类网页对应的用户物理地址和搜索跳转信息;
所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址;
依据所述待分类网页对应的用户物理地址和搜索跳转信息,在所述用户搜索行为数据中查询得到所述待分类网页对应的搜索关键词,作为用户搜索行为特征;
所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。
优选的,通过如下步骤对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率:
通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;
所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面;
针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址;
建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
优选的,所述方法还包括:
提取待分类网页的网页内容特征;
对所述网页内容特征进行降维;
融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征;
依据第二网页分类器判别该融合特征所属的网页类别;其中,所述第二网页分类器为依据网页类别样本的融合特征所构造的分类器。
优选的,所述用户搜索行为特征为搜索关键词集合,所述网页内容特征为内容词汇集合;
所述融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征的步骤,进一步包括:
选取全部所述搜索关键词集合,以及,特定维数的部分所述内容词汇集合,组成融合特征;所述特定维数为第一预设维数与所述搜索关键词集合维数的差值;或者,
对所述搜索关键词集合和内容词汇集合的特征值进行归一化,依据归一化后的特征值对所述搜索关键词集合和内容词汇集合进行从高到低的合并排序,并选取排在前面的数目与第二预设维数相应的词汇,组成融合特征。
优选的,所述网页内容特征为内容词汇集合;
所述对所述网页内容特征进行降维的步骤,进一步包括:
依据分类影响因子,去除所述内容词汇集合中的噪声特征;所述分类影响因子具体可以包括规范因子、位置因子、标签因子、字体因子和词性因子中的一项或多项。
优选的,所述网页内容特征为内容词汇集合;
所述对所述网页内容特征进行降维的步骤,进一步包括:
依据词汇在网页文档中的词频,统计所述内容词汇集合中词汇在背景语料库中的背景语料权重;
选取背景语料权重大于预设阈值的词汇,组成降维后的内容词汇集合。
优选的,所述第一网页分类器为通过如下步骤构造的分类器:
获取网页类别样本;
提取所述网页类别样本的用户搜索行为特征;
依据所述用户搜索行为特征对所述网页类别样本进行训练,得到第一网页分类器。
另一方面,本申请还公开了一种网页分类器的训练方法,包括:
获取网页类别样本;
提取所述网页类别样本的用户搜索行为特征;
依据所述用户搜索行为特征对所述网页类别样本进行训练,得到第一网页分类器。
优选的,所述提取所述网页类别样本的用户搜索行为特征的步骤,进一步包括:
依据所述网页类别样本的页面地址,在关系数据库中检索所述网页类别样本对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;
所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
优选的,所述提取所述网页类别样本的用户搜索行为特征的步骤,进一步包括:
依据所述网页类别样本的页面地址,在用户访问行为数据中查询得到所述网页类别样本对应的用户物理地址和搜索跳转信息;
所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址;
依据所述网页类别样本对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到所述网页类别样本对应的搜索关键词,作为用户搜索行为特征;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。
优选的,通过如下步骤对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率:
通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;
所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面;
针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址;
建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
优选的,所述方法还包括:
提取所述网页类别样本的网页内容特征;
对所述网页内容特征进行降维;
融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征;
依据所述融合特征对所述网页类别样本进行训练,得到第二网页分类器。
优选的,所述用户搜索行为特征为搜索关键词集合,所述网页内容特征为内容词汇集合;
所述融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征的步骤,进一步包括:
选取全部所述搜索关键词集合,以及,特定维数的部分所述内容词汇集合,组成融合特征;所述特定维数为第一预设维数与所述搜索关键词集合维数的差值;或者,
对所述搜索关键词集合和内容词汇集合的特征值进行归一化,依据归一化后的特征值对所述搜索关键词集合和内容词汇集合进行从高到低的合并排序,并选取排在前面的数目与第二预设维数相应的词汇,组成融合特征。
优选的,所述网页内容特征为内容词汇集合;
所述对所述网页内容特征进行降维的步骤,进一步包括:
依据分类影响因子,去除所述内容词汇集合中的噪声特征;所述分类影响因子具体可以包括规范因子、位置因子、标签因子、字体因子和词性因子中的一项或多项。
优选的,所述网页内容特征为内容词汇集合;
所述对所述网页内容特征进行降维的步骤,进一步包括:
依据词汇在网页文档中的词频,统计所述内容词汇集合中词汇在背景语料库中的背景语料权重;
选取背景语料权重大于预设阈值的词汇,组成降维后的内容词汇集合。
另一方面,本申请还公开了一种网页分类装置,包括:
提取模块,用于提取待分类网页的用户搜索行为特征;
判别模块,用于依据第一网页分类器判别该用户搜索行为特征所属的网页类别;其中,所述第一网页分类器为依据网页类别样本的用户搜索行为特征所构造的分类器。
优选的,所述提取模块进一步包括:
检索子模块,用于依据所述待分类网页的页面地址,在所述关系数据库中检索所述待分类网页对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
优选的,所述提取模块进一步包括:
第一查询子模块,用于依据所述待分类网页的页面地址,在用户访问行为数据中查询得到所述待分类网页对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址;
第二查询子模块,用于依据所述待分类网页对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到所述待分类网页对应的搜索关键词,作为用户搜索行为特征;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。
在本申请的一种优选实施例中,所述装置还可以包括:用于对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率的关系频率分析模块;所述关系频率分析模块具体可以包括:
第一查询获取子模块,用于通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面;
第二查询获取子模块,用于针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址;
映射关系建立子模块,用于建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
另一方面,本申请还公开了一种网页分类器的训练装置,包括:
样本获取模块,用于获取网页类别样本;
特征提取模块,用于提取所述网页类别样本的用户搜索行为特征;
训练模块,用于依据所述用户搜索行为特征对所述网页类别样本进行训练,得到网页分类器。
与现有技术相比,本申请具有以下优点:
本申请实施例依据网页类别样本的用户搜索行为特征构造网页分类器;由于所述用户搜索行为特征中的搜索行为特征能够充分体现网页主题的网页特征,使得该网页分类器具有更为准确的网页主题描述能力和误差消除能力;并且,由于网页分类也是基于用户搜索行为特征来进行的,从而可以有效提高网页的准确率和召回率。
另外,受网页主题的限制,网页对应的搜索关键词的特征维数显著小于网页内容的特征维数,故本申请相对于现有技术,在分类算法实现的过程中,会明显的降低计算量,也即能够提高网页分类器的训练速度,以及,能够提高网页分类的速度。
附图说明
图1是本申请一种网页分类器的训练方法实施例1的流程图;
图2是本申请一种映射关系矩阵的示意图;
图3是本申请一种网页分类器的训练方法实施例2的流程图;
图4是本申请一种网页分类方法实施例1的流程图;
图5是本申请一种网页分类方法实施例2的流程图;
图6是本申请一种网页分类器的训练装置实施例的结构图;
图7是本申请一种网页分类装置实施例的结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
现有技术中,利用文本分类器对该网页内容特征进行分类。虽然网页内容特征的描述较为全面,但可能包含大量背景资料,这导致短文本的特征维数不足,长文本的特征维数过高;更重要的是,由于只有代表网页唯一主题的有效特征才能够体现出网页所属的准确类别,而无论网页内容特征的维数高低与否,均不能集中体现出对应网页的唯一主题,故现有技术存在准确率和召回率较低的问题。
并且,目前各应用中待分类网页的数量巨大,网页媒体的表示和存储格式复杂,网页主题的文本信息量(如短文本和长文本)也各不相同,这就给现有技术中文本分类器的训练和分类工作带来极大挑战;尤其对于长文本的网页,现有技术能够提取的网页内容特征的维数过高,这就增加了文本分类器的计算量和处理时间,从而降低了文本分类的速率。
如果采用能够充分体现网页主题的网页特征,则既能够给短文本的网页提供足够的特征维度,又能够避免长文本的网页出现的多峰分布问题,从而能够提高网页分类的准确率和召回率。
本申请发明人注意到了这一点,因此创造性地将能够充分体现网页主题的用户搜索行为特征应用到网页分类中。
在此通过对用户搜索行为和用户访问行为进行分析,来论述为什么用户搜索行为特征能够充分体现网页主题:
用户之所以会产生搜索行为,往往是在解决任务时遇到自己不熟悉的概念或者问题,由此才产生了对特定信息的需求,那么之后用户会在头脑中逐步形成秒速需求的搜索关键词,将搜索关键词提交给搜索引擎,然后对搜索引擎返回的搜索结果页面进行浏览;
由于存在对特定信息的需求,而搜索结果页面中会包括大量网页的超链接,故用户在搜索行为后也会产生与搜索行为相关的访问行为,例如,如果用户点击了搜索结果页面中的一个网页的超链接,则可以认为用户产生了访问行为;
综上,搜索关键词能够将用户引导至网页,故可以认为用户搜索关键词为用户在搜索过程中对所访问网页的主题内容的人工鉴别的反馈信息,其往往和网页主题具有非常强的相关性。
本申请的用户搜索行为特征通常包括有用户搜索关键词,虽然相对于现有技术中网页内容特征,用户搜索关键词对网页内容的描述能力不够全面,表达网页整体的思想和情感不够清晰;但由于用户搜索关键词为用户在搜索过程中对所访问网页的主题内容的人工鉴别的反馈信息,其往往和网页主题具有非常强的相关性;因此,相对于现有技术,本申请采用的用户搜索行为特征能够充分体现网页主题的网页特征,能够更好地体现网页主题的分类。
另外,受网页主题的限制,网页对应的搜索关键词的特征维数显著小于网页内容的特征维数,故本申请相对于现有技术,在分类算法实现的过程中,会明显的降低计算量,也即能够提高网页分类器的训练速度。
综上,本申请实施例依据网页类别样本的用户搜索行为特征构造网页分类器;由于所述用户搜索行为特征中的搜索关键词能够充分体现网页主题的网页特征,使得该网页分类器具有更为准确的网页主题描述能力和误差消除能力;并且,由于网页分类也是基于用户搜索行为特征来进行的,从而可以有效提高网页的准确率和召回率。
参照图1,示出了本申请一种网页分类器的训练方法实施例1的流程图,具体可以包括:
步骤101、获取网页类别样本;
在实际应用中,可以根据网页分类的实际需求,人工确定网页类别C={c1,c2,…cn},其中,C网页类别集合,c1,c2,…cn代表网页类别集合的元素。这些网页类别可以是宽泛的网页类别,如军事、经济、政治、新闻、科教、购物、财经、旅游、星座、学校网页类别等等,这些网页类别还可以是专业的网页类别,如奥运领域中的篮球、足球、排球、羽毛球、跳水、拳击等网页类别等等,本申请对具体的网页类别不加以限制。
在本申请的一种实施例中,可以通过聚类的方法处理网页以自动获得网页类别,本申请的聚类可以是将网页对象的集合分成由类似的对象组成的多个网页类别的过程。聚类方法有多种,如划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法等,每种具体实现要参见具体的聚类算法。
在此提供一种划分方法的示例,具体可以包括:
步骤A1、特征选择:提取网页特征,这里的特征可以是各种网页内容特征;
步骤A2、近邻测度:用于测量两个网页内容特征之间的相似程度;
步骤A3、聚类准则:依赖于具体特征的判断方法,如可以选取文本特征的余弦相似度作为聚类准则。
步骤A4、聚类算法:即具体的聚类算法,如birch(Balanced IterativeReducing and Clustering using Hierarchies)),K-MEANS(k-平均)等。
步骤A5、结果验证:验证聚类结果的正确性。
在确定网页类别后,可以网页数据的实际涵盖范围和分类的应用目标来收集各网页类别对应的样本,一般要求各网页类别之间数据规模分布均衡,并且各网页类别之间具有较好的可区分性。由于各网页类别对应的样本的收集,为本领域内的公知技术,故在此不作赘述。
步骤102、提取所述网页类别样本的用户搜索行为特征;
由于搜索关键词能够将用户引导至网页,故在面对用户所访问的一个网页或网页类别样本时,其用户搜索行为特征中就包括能将用户引导至该网页或网页类别样本的搜索关键词,以下针对如何提取一个网页或网页类别样本的户搜索行为特征进行说明。
本技术领域中,用于表征用户网络行为的主要数据(以下简称用户网络行为数据)来自网站的网络服务器中的日志文件集。这些日志文件包含了访问该网络站点的关于每个访问者超文本传输协议(简称HTTP)事务的执行记录,可以通过利用类似于网络数据包嗅探技术的这种技术从日志文件集中获取用于表征用户网络行为的历史数据。
具体而言,日志文件集中的用户行为数据主要包含用户搜索行为数据和用户访问行为数据。其中,所述用户搜索行为数据记录有用户的搜索关键词和相应的搜索结果页面,所述用户访问行为数据记录有用户的访问页面。具体的,有些网站的用户访问行为数据还会记录有用户物理地址和搜索跳转信息,有些网站的用户搜索行为数据还会记录有用户物理地址和搜索结果页面中网页的超链接信息;这里,用户物理地址主要可以包括用户IP((网络之间互连的协议,Internet Protocol)地址,搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,还会记录有搜索结果页面的信息(如页面地址等)。
这样,本申请可以通过对用户搜索行为数据和用户访问行为数据进行分析,提取一个网页或网页类别样本的用户搜索行为特征。具体而言,本申请可以提供如下提取所述网页类别样本的用户搜索行为特征的方案:
提取方案P1、
提取方案P1具体可以包括:
步骤B1、依据所述网页类别样本的页面地址,在用户访问行为数据中查询得到所述网页类别样本对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,还会记录有搜索结果页面的页面地址;
步骤B2、依据所述网页类别样本对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到所述网页类别样本对应的搜索关键词,作为用户搜索行为特征;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中具体可以包括依据搜索关键词得到的多个页面地址。
依据上面的介绍,用户访问行为数据的数据字段具体可以包括:用户访问页面地址、用户物理地址和搜索跳转信息,那么,步骤B1可以依据所述网页类别样本的页面地址,在用户访问行为数据中查询得到对应的用户物理地址和搜索跳转信息。
用户搜索行为数据的数据字段具体可以包括:搜索关键词、用户物理地址和搜索结果,其中,所述搜索结果中具体可以包括依据搜索关键词得到的多个页面地址。这样,依据所述网页类别样本对应的用户物理地址和搜索跳转信息,在所述用户搜索行为数据中查询时,可以将所述网页类别样本对应的用户物理地址与用户搜索行为数据的用户物理地址进行匹配,将所述网页类别样本对应的搜索跳转信息与用户搜索行为数据的搜索结果进行匹配,得到所述网页类别样本对应的搜索关键词。
在此举一个具体的例子,假设用户A在百度中输入“defy手机”进行搜索,并得到想要的搜索结果页面(页面地址为B),则用户搜索行为数据的数据字段具体可以包括:“defy手机”、用户A的IP地址和搜索结果中的多个页面地址;假设用户A点击了搜索结果页面中展现的某个页面地址C,并访问了相应的网页,则用户访问行为数据的数据字段具体可以包括:访问页面地址C、用户A的IP地址和搜索来源页面地址B;综上,本申请步骤B1和步骤B2可以针对访问页面地址C,提取得到相应的用户搜索行为特征“defy手机”。
本申请实施例中,采用用户物理地址主要是为了确保对同一用户的网络行为数据进行分析。
用户搜索行为特征具体可以包括搜索关键词和相应的特征值。需要说明的是,对于一个网页类别样本而言,其可能由不同用户的同一搜索关键词引导得到,此时,该同一搜索关键词的特征值应与用户数量相应;另外,一个网页类别样本也可能由不同的搜索关键词引导得到,则此种情况下,其用户搜索行为特征具体可以包括多个搜索关键词和相应的特征值。
提取方案P2、
由于一个网页类别样本可能由多个搜索关键词引导得到,且一个搜索关键词得到的搜索结果中可能包含有多个网页类别样本;这样,网页类别样本和搜索关键词存在多对多的映射关系。
并且,依据搜索行为和访问行为的频繁性,用户搜索行为数据和用户访问行为数据通常为海量数据,因此,提取方案P2预先对海量的用户搜索行为数据和用户访问行为数据进行分析,得到搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,并保存至关系数据库。
这样,提取方案2具体可以包括:依据所述网页类别样本的页面地址,在所述关系数据库中检索所述网页类别样本对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对所述用户搜索行为数据和用户访问行为数据进行分析得到。
在本申请的一种优选实施例中,可以通过如下步骤对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率:
步骤D1、通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,还会记录有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面;
步骤D2、针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中具体可以包括依据搜索关键词得到的多个页面地址;
步骤D3、建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
假设搜索跳转访问页面记为Pi{i=0,1,……M}。那么,搜索关键词记为Tj{j=0,1,……N},那么,在本申请的一种应用示例中,可以采用映射关系矩阵存储搜索关键词和搜索跳转访问页面之间的映射关系,矩阵元素Rij则表示相应的关系频率。参照图2,示出了本申请一种映射关系矩阵的示意图。
在依据图2所示映射关系矩阵中检索所述网页类别样本对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征的过程中,可以依据所述网页类别样本的页面地址检索映射关系矩阵的搜索跳转访问页面,假设检索得到搜索跳转访问页面Pi,那么Pi对应用户搜索行为特征可以表示为Fi={Ti1,Ti2,…,TiN},Fi的关系频率可以表示为Ri={Ri1,Ri2,…,RiN},其中,N为Pi对应搜索关键词的总数。
例如,用户A通过搜索关键词T1=“手机”和T2=“电脑”搜索,并在搜索结果页面返回后,点击搜索页面内的链接访问了网站P1=“http:∥nb.zol.com.cn/”,用户B通过搜索关键词T3=“笔记本”和T2=“电脑”搜索,同样通过点击返回结果页面内的链接访问了网站P1=“http:∥nb.zol.com.cn/”。那么,F1可以表示为F1={T1,T2,T3},其对应的关系频率可以表示为Ri={1,2,1}。
步骤103、依据所述用户搜索行为特征对所述网页类别样本进行训练,得到网页分类器。
在具体实现中,可以采用各种统计方法依据所述用户搜索行为特征对所述网页类别样本进行训练,得到网页分类器。例如,典型的统计方法具体可以包括SVM(支持向量机,support vector machine)方法,贝叶斯方法、神经网络方法、K近邻方法、决策树方法等等。
在此提供一种SVM的训练方法示例,假设SVM的分类线性方程为x·w+b=0,对分类线性方程进行归一化,使得对线性可分的样本集(xi,yi),i=1,...,n,x∈Rd,y∈{+1,-1},满足yi[(w·xi)+b]-1≥0,i=1,…,n,且使最小时,分类间隔2/||w||取最小值。
其中,xi表示网页类别样本,yi表示xi所属的网页类别,w表示用户搜索行为特征,分类间隔2/||w||取最小值表示最优分类面,x是待分类网页的用户搜索行为特征,n为网页类别的数量,Rd表示d维的实数向量集合。
可以利用拉格朗日(Lagrange)优化方法可以把上述最优分类面问题转化为其对偶问题,而在最优分类面中采用适当的内积函数K(xi,xj)就可以实现某一非线性变换后的线性分类,相应的分类函数为
另外如果网页分类器的网页类别大于2,可以针对SVM分类的两类特点,采用“一对一”的方法扩展到解决多分类的问题。对每一个分类的样本作为正样本,分别选取其余的(n-1个)样本作为负样本,构成不同类别构成的SVM子分类器,用训练样本训练后总共得到n(n-1)/2个子分类器。
参照图3,示出了本申请一种网页分类器的训练方法实施例2的流程图,具体可以包括:
步骤301、获取网页类别样本;
步骤302、提取所述网页类别样本的用户搜索行为特征;
步骤303、提取所述网页类别样本的网页内容特征;
步骤304、对所述网页内容特征进行降维;
步骤305、融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征;
步骤306、依据所述融合特征对所述网页类别样本进行训练,得到网页分类器。
相对于训练方法实施例1仅依据用户搜索行为特征训练得到网页分类器,训练方法实施例2可以依据融合特征训练得到网页分类器,由于所述融合特征为融合所述用户搜索行为特征和所述降维后的网页内容特征得到,故能够增加网页特征的维数,最终使得该网页分类器具有更为充足和准确的网页主题描述能力。
另外,针对网页长文本的特征维数过高的缺陷,训练方法实施例2对所述网页内容特征进行降维的步骤能够降低维数,故不会影响网页分类器的训练速度。
本申请可以提供如下对所述网页内容特征进行降维的方案:
降维方案1、
所述网页内容特征为内容词汇集合;
所述对所述网页内容特征进行降维的步骤,可以进一步包括:
依据分类影响因子,去除所述内容词汇集合中的噪声特征;所述分类影响因子具体可以包括规范因子、位置因子、标签因子、字体因子和词性因子中的一项或多项。
在本申请的一种应用示例中,可以通过如下步骤得到所述内容词汇集合:根据网页内容特征的获取初步结果,进行分词和词性标注等工作,得到标注词;过滤标注词中的停用词。
降维方案1采用影响因子表示对网页分类标识影响较小的特征。
所述规范因子可以包括繁简体转换、大小写转换、全角字符转半角字符、字符替换等重复特征对应的因子等,通过所述规范因子可以根据需求去除所述内容词汇集合中的重复特征。
所述位置因子可以表示词汇在网页文本内容中位置,如首段、首句、中间段、中间句、末尾段、末尾句等等,通常首段、首句、末尾段、末尾句比较重要需保留,故可以根据需求去除所述内容词汇集合中的中间段、中间句。
所述标签因子可以表示网页中具有标签属性的词汇,通常网页中具有标签属性的词汇为网页标题等,故可以保留。
所述字体因子可以表示网页文本内容中词汇的字体,由于加粗或倾斜字体等突出字体通常具有重要的语义,故可以保留突出字体的词汇,而根据需求去除普通字体的词汇。
所述词性因子表示网页文本内容中词汇的词性,通常的中文词性具体可以包括:名词、形容词、动词、连词、叹词、副词、语助词等等,而连词、叹词、副词、语助词一般不具有特殊的语义,故可以根据需求去除。
降维方案2、
所述网页内容特征为内容词汇集合;
所述对所述网页内容特征进行降维的步骤,可以进一步包括:
步骤E1、依据词汇在网页文档中的词频,统计所述内容词汇集合中词汇在背景语料库中的背景语料权重;
步骤E2、选取背景语料权重大于预设阈值的词汇,组成降维后的内容词汇集合。
通常,在提取网页内容特征的过程中,需要将一个网页类别样本转化为一个文档D,对文档D做分词后可以得到文档的词汇集合,也即本申请的内容词汇集合,假设记为T={t1,t2,…,tm}。
在实际应用中,可以在互联网网页中抽取具有具有一定代表性、能代表互联网网页内容的实际分布状况的N个网页文档,得到背景语料库。
对于网页形式的特殊文档,由于其结构特点和特征对于的类别信息,DF方法存在某个文档中低频词可能包含着重要的判断信息的缺点,故降维方案2在文档频度(DF,Document Frenquency)的基础上,依据背景语料库统计得到更为精确的背景语料权重,该背景语料权重可以直接作为网页内容特征的特征值。
本申请可以提供如下背景语料权重的计算公式:
其中,tfi表示ti在当前文档中的词频,N表示整个背景语料库的文档数,nni表示背景语料库中包含ti的文档数。
为降低特征维数,简化计算,以及防止过拟合等现象,降维方案2采用按照背景语料权重的大小对T中ti进行排序,选取权重值大于预设阈值的ti作为训练所需的特征,丢弃小于等于预设阈值的ti。其中,预设阈值可由本领域技术人员依据实际需求进行设定,本申请对具体的预设阈值不加以限制。
在本申请实施例中,具体的,所述用户搜索行为特征可以包括搜索关键词集合,所述网页内容特征可以包括内容词汇集合;也即二者均为词汇集合;
本申请可以提供如下融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征的方案:
融合方案1、
选取全部所述搜索关键词集合,以及,特定维数的部分所述内容词汇集合,组成融合特征;所述特定维数为第一预设维数与所述搜索关键词集合维数的差值。
融合方案1中,搜索关键词集合的优先级高于内容词汇集合的优先级。其中,第一预设维数用于表示训练网页分类器能够承受的最高特征维数,可由本领域技术人员根据实际情形设定。假设第一预设维数为MAX,那么可以优先选用搜索关键词集合F,若F的维数p小于MAX,则从所述内容词汇集合T中选取MAX-p个特征。
融合方案2、
融合方案2中搜索关键词集合的优先级等于内容词汇集合的优先级,其实现过程具体可以包括:对所述搜索关键词集合和内容词汇集合的特征值进行归一化,依据归一化后的特征值对所述搜索关键词集合和内容词汇集合进行从高到低的合并排序,并选取排在前面的数目与第二预设维数相应的词汇,组成融合特征。
对于搜索关键词集合,关系频率可以作为其特征值,对于内容词汇集合,背景语料权重可以作为其权值。二者的归一化均是将二者的特征值限定在一个区间范围内,假设为[0,1]区间,则搜索关键词集合中所有特征值的总和为1,以及,内容词汇集合中所有特征值的总和为1,这样,合并排序可以对二者所有的[0,1]区间内的特征值进行排序,并选取排在前面的数目与第二预设维数相应的词汇。这里的第二预设维数也用于表示训练网页分类器能够承受的最高特征维数,可由本领域技术人员根据实际情形设定。
对于训练方法实施例2而言,由于其与训练方法实施例1基本相似,所以描述的比较简单,相关之处参见训练方法实施例1的部分说明即可。
参照图4,示出了本申请一种网页分类方法实施例1的流程图,包括:
步骤401、提取待分类网页的用户搜索行为特征;
步骤402、依据第一网页分类器判别该用户搜索行为特征所属的网页类别;其中,所述第一网页分类器为依据网页类别样本的用户搜索行为特征所构造的分类器。
为了提高网页分类的准确率,分类方法实施例采用与训练方法实施例相同的提取方法得当待分类网页的用户搜索行为特征。
本申请可以提供如下提取待分类网页的用户搜索行为特征的方案:
提取方案G1、
提取方案G1的实现过程具体可以包括:依据所述待分类网页的页面地址,在所述关系数据库中检索所述待分类网页对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对所述用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
提取方案G2、
提取方案G2的实现过程具体可以包括:
步骤F1、依据所述待分类网页的页面地址,在用户访问行为数据中查询得到所述待分类网页对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址;
步骤F2、依据所述待分类网页对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到所述待分类网页对应的搜索关键词,作为用户搜索行为特征;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。
在本申请的一种优选实施例中,可以通过如下步骤对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率:
步骤H1、通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面;
步骤H2、针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址;
步骤H3、建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
例如,训练方法实施例采用SVM方法,最终得到待分类网页的第一网页分类器为其中,xi表示网页类别样本,yi表示xi所属的网页类别,x是待分类网页的用户搜索行为特征,n为网页类别的数量,为拉格朗日参数,b*是分类阈值,和b*均可通过多次实验训练得到。
假设第一网页分类器为两类分类器,也即上例中n=2,则若f(x)>0,则x属于第一类(即被标注为+1的正样本所属的网页类别),否则就不属于该类。
另外如果网页分类器的网页类别大于2,可以针对SVM分类的两类特点,采用“一对一”的方法扩展到解决多类分类的问题。对每一个分类的样本作为正样本,分别选取其余的(n-1个)样本作为负样本,构成不同类别构成的SVM子分类器,用训练样本训练后总共得到n(n-1)/2个子分类器。其中k为网页分类的总数。
因为同一个待分类网页的用户搜索行为特征要利用n(n-1)/2个SVM子分类器进行判别,最终得到判别结果,在此对判别过程进行说明:
在判别过程中,可以利用n(n-1)/2个SVM子分类器得到每个网页类别的得分;假设每个网页类别的出现次数初始值为0,那么,在进行分类i和分类j的SVM子分类器的预测时,如果属于i,则i类的出现次数加1。所有子分类器执行完毕后,产生一个各分类的产生次数的序列,各个网页类别的出现的次数,即可视为得分;
例如,三个网页类别C1、C2、C3,对应SVM子分类器C1-C2,C1-C3,C2-C3,如果分类器C1-C2预测结果为C1,分类器C1-C3结果为C2,分类器C2-C3结果为C1,那么每个三个网页类别C1、C2、C3的得分为{2,1,0},那么即可认为C1的得分最高,待分类网页属于C1类别。如果出现相同的得分,如{1,1,1},则可以从最高类别次数随机选择,或按既定的类别优先级选择一个即可。
参照图5,示出了本申请一种网页分类方法实施例2的流程图,包括:
步骤501、提取待分类网页的用户搜索行为特征;
步骤502、提取待分类网页的网页内容特征;
步骤503、对所述网页内容特征进行降维;
步骤504、融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征;
步骤505、依据第二网页分类器判别该融合特征所属的网页类别;其中,所述第二网页分类器为依据网页类别样本的融合特征所构造的分类器。
相对于网页分类方法实施例1依据第一网页分类器判别用户搜索行为特征所属的网页类别,网页分类方法实施例2可以依据第二网页分类器判别该融合特征所属的网页类别。由于所述第二网页分类器也是依据网页类别样本的融合特征所构造的分类器,而所述融合特征为融合所述用户搜索行为特征和所述降维后的网页内容特征得到,故第二网页分类器具有更为充足和准确的网页主题描述能力,因此,依据第二网页分类器判别该融合特征所属的网页类别,能够进一步提高网页分类的准确率和召回率。
在本申请的一种优选实施例中,所述用户搜索行为特征为搜索关键词集合,所述网页内容特征为内容词汇集合;
所述融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征的步骤,可以进一步包括:
步骤I1、选取全部所述搜索关键词集合,以及,特定维数的部分所述内容词汇集合,组成融合特征;所述特定维数为第一预设维数与所述搜索关键词集合维数的差值;或者,
步骤I2、对所述搜索关键词集合和内容词汇集合的特征值进行归一化,依据归一化后的特征值对所述搜索关键词集合和内容词汇集合进行从高到低的合并排序,并选取排在前面的数目与第二预设维数相应的词汇,组成融合特征。
在本申请的另一种优选实施例中,所述网页内容特征为内容词汇集合;
所述对所述网页内容特征进行降维的步骤,可以进一步包括:
依据分类影响因子,去除所述内容词汇集合中的噪声特征;所述分类影响因子具体可以包括规范因子、位置因子、标签因子、字体因子和词性因子中的一项或多项。
在本申请的再一种优选实施例中,所述网页内容特征为内容词汇集合;所述对所述网页内容特征进行降维的步骤,可以进一步包括:
步骤J1、依据词汇在网页文档中的词频,统计所述内容词汇集合中词汇在背景语料库中的背景语料权重;
步骤J2、选取背景语料权重大于预设阈值的词汇,组成降维后的内容词汇集合。
对于分类方法实施例而言,由于其与训练方法实施例基本相似,所以描述的比较简单,相关之处参见训练方法实施例的部分说明即可。
与前述训练方法相应,本申请还提供了一种网页分类器的训练装置实施例,参照图6所示的结构图,具体可以包括:
样本获取模块601,用于获取网页类别样本;
特征提取模块602,用于提取所述网页类别样本的用户搜索行为特征;
训练模块603,用于依据所述用户搜索行为特征对所述网页类别样本进行训练,得到网页分类器。
在本申请的一种优选实施例中,所述特征提取模块602可以进一步包括:
检索子模块,用于依据所述网页类别样本的页面地址,在所述关系数据库中检索所述网页类别样本对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对所述用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
在本申请的另一种优选实施例中,所述特征提取模块602可以进一步包括:
第一查询子模块,用于依据所述网页类别样本的页面地址,在用户访问行为数据中查询得到所述网页类别样本对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址;
第二查询子模块,用于依据所述网页类别样本对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到所述网页类别样本对应的搜索关键词,作为用户搜索行为特征;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。
在本申请的一种优选实施例中,所述装置还可以包括:用于对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率的关系频率分析模块;所述关系频率分析模块具体可以包括:
第一查询获取子模块,用于通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面;
第二查询获取子模块,用于针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址;
映射关系建立子模块,用于建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
在本申请的一种优选实施例中,所述装置还可以包括:
内容特征提取模块,提取所述网页类别样本的网页内容特征;
降维模块,用于对所述网页内容特征进行降维;
融合模块,用于融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征;
融合训练模块,用于依据所述融合特征对所述网页类别样本进行训练,得到网页分类器。
在本申请的一种优选实施例中,所述用户搜索行为特征为搜索关键词集合,所述网页内容特征为内容词汇集合;
则所述融合模块可以进一步包括:
选取融合子模块,用于选取全部所述搜索关键词集合,以及,特定维数的部分所述内容词汇集合,组成融合特征;所述特定维数为第一预设维数与所述搜索关键词集合维数的差值;或者,
合并排序融合子模块,用于对所述搜索关键词集合和内容词汇集合的特征值进行归一化,依据归一化后的特征值对所述搜索关键词集合和内容词汇集合进行从高到低的合并排序,并选取排在前面的数目与第二预设维数相应的词汇,组成融合特征。
在本申请的另一种优选实施例中,所述网页内容特征为内容词汇集合;
则所述降维模块可以进一步包括:
去噪降维子模块,用于依据分类影响因子,去除所述内容词汇集合中的噪声特征;所述分类影响因子具体可以包括规范因子、位置因子、标签因子、字体因子和词性因子中的一项或多项。
在本申请的另一种优选实施例中,所述网页内容特征为内容词汇集合;
则所述降维模块可以进一步包括:
统计子模块,用于依据词汇在网页文档中的词频,统计所述内容词汇集合中词汇在背景语料库中的背景语料权重;
选取子模块,用于选取背景语料权重大于预设阈值的词汇,组成降维后的内容词汇集合。
对于训练装置实施例而言,由于其与训练方法实施例基本相似,所以描述的比较简单,相关之处参见训练方法实施例的部分说明即可。
与前述分类方法实施例相应,本申请还公开了一种网页分类装置,参照图7所示的结构图,具体可以包括:
提取模块701,用于提取待分类网页的用户搜索行为特征;
判别模块702,用于依据第一网页分类器判别该用户搜索行为特征所属的网页类别;其中,所述第一网页分类器为依据网页类别样本的用户搜索行为特征所构造的分类器。
在本申请的一种优选实施例中,所述提取模块701可以进一步包括:
检索子模块,用于依据所述待分类网页的页面地址,在所述关系数据库中检索所述待分类网页对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对所述用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
在本申请的另一种优选实施例中,所述提取模块701可以进一步包括:
第一查询子模块,用于依据所述待分类网页的页面地址,在用户访问行为数据中查询得到所述待分类网页对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址;
第二查询子模块,用于依据所述待分类网页对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到所述待分类网页对应的搜索关键词,作为用户搜索行为特征;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。
在本申请的一种优选实施例中,所述装置还可以包括:用于对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率的关系频率分析模块;所述关系频率分析模块具体可以包括:
第一查询获取子模块,用于通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面;
第二查询获取子模块,用于针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址;
映射关系建立子模块,用于建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
在本申请的一种优选实施例中,所述装置还可以包括:
内容特征提取模块,用于提取待分类网页的网页内容特征;
降维模块,用于对所述网页内容特征进行降维;
特征融合模块,用于融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征;
融合特征判别模块,用于依据第二网页分类器判别该融合特征所属的网页类别;其中,所述第二网页分类器为依据网页类别样本的融合特征所构造的分类器。
在本申请的另一种优选实施例中,所述用户搜索行为特征为搜索关键词集合,所述网页内容特征为内容词汇集合;
则所述特征融合模块可以进一步包括:
第一特征融合子模块,用于选取全部所述搜索关键词集合,以及,特定维数的部分所述内容词汇集合,组成融合特征;所述特定维数为第一预设维数与所述搜索关键词集合维数的差值;或者,
第二特征融合子模块,用于对所述搜索关键词集合和内容词汇集合的特征值进行归一化,依据归一化后的特征值对所述搜索关键词集合和内容词汇集合进行从高到低的合并排序,并选取排在前面的数目与第二预设维数相应的词汇,组成融合特征。
在本申请的再一种优选实施例中,所述网页内容特征为内容词汇集合;
则所述降维模块可以进一步包括:
去噪子模块,用于依据分类影响因子,去除所述内容词汇集合中的噪声特征;所述分类影响因子具体可以包括规范因子、位置因子、标签因子、字体因子和词性因子中的一项或多项。
在本申请的一种优选实施例中,所述网页内容特征为内容词汇集合;
则所述降维模块可以进一步包括:
权重统计子模块,用于依据词汇在网页文档中的词频,统计所述内容词汇集合中词汇在背景语料库中的背景语料权重;
选取子模块,用于选取背景语料权重大于预设阈值的词汇,组成降维后的内容词汇集合。
对于分类装置实施例而言,由于其与分类方法实施例基本相似,所以描述的比较简单,相关之处参见分类方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本申请所提供的一种网页分类方法和装置、一种网页分类器的训练方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (21)
1.一种网页分类方法,其特征在于,包括:
提取待分类网页的用户搜索行为特征;
依据第一网页分类器判别该用户搜索行为特征所属的网页类别;其中,所述第一网页分类器为依据网页类别样本的用户搜索行为特征所构造的分类器。
2.如权利要求1所述的方法,其特征在于,所述提取待分类网页的用户搜索行为特征的步骤,进一步包括:
依据所述待分类网页的页面地址,在关系数据库中检索所述待分类网页对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;
所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
3.如权利要求1所述的方法,其特征在于,所述提取待分类网页的用户搜索行为特征的步骤,进一步包括:
依据所述待分类网页的页面地址,在用户访问行为数据中查询得到所述待分类网页对应的用户物理地址和搜索跳转信息;
所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址;
依据所述待分类网页对应的用户物理地址和搜索跳转信息,在所述用户搜索行为数据中查询得到所述待分类网页对应的搜索关键词,作为用户搜索行为特征;
所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。
4.如权利要求2所述的方法,其特征在于,通过如下步骤对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率:
通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;
所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面;
针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址;
建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
5.如权利要求1所述的方法,其特征在于,还包括:
提取待分类网页的网页内容特征;
对所述网页内容特征进行降维;
融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征;
依据第二网页分类器判别该融合特征所属的网页类别;其中,所述第二网页分类器为依据网页类别样本的融合特征所构造的分类器。
6.如权利要求5所述的方法,其特征在于,所述用户搜索行为特征为搜索关键词集合,所述网页内容特征为内容词汇集合;
所述融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征的步骤,进一步包括:
选取全部所述搜索关键词集合,以及,特定维数的部分所述内容词汇集合,组成融合特征;所述特定维数为第一预设维数与所述搜索关键词集合维数的差值;或者,
对所述搜索关键词集合和内容词汇集合的特征值进行归一化,依据归一化后的特征值对所述搜索关键词集合和内容词汇集合进行从高到低的合并排序,并选取排在前面的数目与第二预设维数相应的词汇,组成融合特征。
7.如权利要求5或6所述的方法,其特征在于,所述网页内容特征为内容词汇集合;
所述对所述网页内容特征进行降维的步骤,进一步包括:
依据分类影响因子,去除所述内容词汇集合中的噪声特征;所述分类影响因子具体可以包括规范因子、位置因子、标签因子、字体因子和词性因子中的一项或多项。
8.如权利要求5或6所述的方法,其特征在于,所述网页内容特征为内容词汇集合;
所述对所述网页内容特征进行降维的步骤,进一步包括:
依据词汇在网页文档中的词频,统计所述内容词汇集合中词汇在背景语料库中的背景语料权重;
选取背景语料权重大于预设阈值的词汇,组成降维后的内容词汇集合。
9.如权利要求1所述的方法,其特征在于,所述第一网页分类器为通过如下步骤构造的分类器:
获取网页类别样本;
提取所述网页类别样本的用户搜索行为特征;
依据所述用户搜索行为特征对所述网页类别样本进行训练,得到第一网页分类器。
10.一种网页分类器的训练方法,其特征在于,包括:
获取网页类别样本;
提取所述网页类别样本的用户搜索行为特征;
依据所述用户搜索行为特征对所述网页类别样本进行训练,得到第一网页分类器。
11.如权利要求10所述的方法,其特征在于,所述提取所述网页类别样本的用户搜索行为特征的步骤,进一步包括:
依据所述网页类别样本的页面地址,在关系数据库中检索所述网页类别样本对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;
所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
12.如权利要求10所述的方法,其特征在于,所述提取所述网页类别样本的用户搜索行为特征的步骤,进一步包括:
依据所述网页类别样本的页面地址,在用户访问行为数据中查询得到所述网页类别样本对应的用户物理地址和搜索跳转信息;
所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址;
依据所述网页类别样本对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到所述网页类别样本对应的搜索关键词,作为用户搜索行为特征;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。
13.如权利要求11所述的方法,其特征在于,通过如下步骤对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率:
通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;
所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面;
针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址;
建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
14.如权利要求10所述的方法,其特征在于,还包括:
提取所述网页类别样本的网页内容特征;
对所述网页内容特征进行降维;
融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征;
依据所述融合特征对所述网页类别样本进行训练,得到第二网页分类器。
15.如权利要求14所述的方法,其特征在于,所述用户搜索行为特征为搜索关键词集合,所述网页内容特征为内容词汇集合;
所述融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征的步骤,进一步包括:
选取全部所述搜索关键词集合,以及,特定维数的部分所述内容词汇集合,组成融合特征;所述特定维数为第一预设维数与所述搜索关键词集合维数的差值;或者,
对所述搜索关键词集合和内容词汇集合的特征值进行归一化,依据归一化后的特征值对所述搜索关键词集合和内容词汇集合进行从高到低的合并排序,并选取排在前面的数目与第二预设维数相应的词汇,组成融合特征。
16.如权利要求14所述的方法,其特征在于,所述网页内容特征为内容词汇集合;
所述对所述网页内容特征进行降维的步骤,进一步包括:
依据分类影响因子,去除所述内容词汇集合中的噪声特征;所述分类影响因子具体可以包括规范因子、位置因子、标签因子、字体因子和词性因子中的一项或多项。
17.如权利要求14所述的方法,其特征在于,所述网页内容特征为内容词汇集合;
所述对所述网页内容特征进行降维的步骤,进一步包括:
依据词汇在网页文档中的词频,统计所述内容词汇集合中词汇在背景语料库中的背景语料权重;
选取背景语料权重大于预设阈值的词汇,组成降维后的内容词汇集合。
18.一种网页分类装置,其特征在于,包括:
提取模块,用于提取待分类网页的用户搜索行为特征;
判别模块,用于依据第一网页分类器判别该用户搜索行为特征所属的网页类别;其中,所述第一网页分类器为依据网页类别样本的用户搜索行为特征所构造的分类器。
19.如权利要求18所述的装置,其特征在于,所述提取模块进一步包括:
检索子模块,用于依据所述待分类网页的页面地址,在所述关系数据库中检索所述待分类网页对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
20.如权利要求18所述的装置,其特征在于,所述提取模块进一步包括:
第一查询子模块,用于依据所述待分类网页的页面地址,在用户访问行为数据中查询得到所述待分类网页对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址;
第二查询子模块,用于依据所述待分类网页对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到所述待分类网页对应的搜索关键词,作为用户搜索行为特征;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。
在本申请的一种优选实施例中,所述装置还可以包括:用于对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率的关系频率分析模块;所述关系频率分析模块具体可以包括:
第一查询获取子模块,用于通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面;
第二查询获取子模块,用于针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址;
映射关系建立子模块,用于建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
21.一种网页分类器的训练装置,其特征在于,包括:
样本获取模块,用于获取网页类别样本;
特征提取模块,用于提取所述网页类别样本的用户搜索行为特征;
训练模块,用于依据所述用户搜索行为特征对所述网页类别样本进行训练,得到网页分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210362603.7A CN103678422A (zh) | 2012-09-25 | 2012-09-25 | 网页分类方法和装置、网页分类器的训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210362603.7A CN103678422A (zh) | 2012-09-25 | 2012-09-25 | 网页分类方法和装置、网页分类器的训练方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103678422A true CN103678422A (zh) | 2014-03-26 |
Family
ID=50316003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210362603.7A Pending CN103678422A (zh) | 2012-09-25 | 2012-09-25 | 网页分类方法和装置、网页分类器的训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103678422A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105162822A (zh) * | 2015-06-30 | 2015-12-16 | 浪潮(北京)电子信息产业有限公司 | 一种网站日志数据处理方法及装置 |
CN107038183A (zh) * | 2016-10-09 | 2017-08-11 | 北京百度网讯科技有限公司 | 网页标注方法及装置 |
CN107368580A (zh) * | 2017-07-21 | 2017-11-21 | 维沃移动通信有限公司 | 一种网页显示方法及移动终端 |
CN107800679A (zh) * | 2017-05-22 | 2018-03-13 | 湖南大学 | 假冒学术期刊网站的检测方法 |
WO2018086470A1 (zh) * | 2016-11-10 | 2018-05-17 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和服务器 |
CN108121736A (zh) * | 2016-11-30 | 2018-06-05 | 北京搜狗科技发展有限公司 | 一种主题词确定模型的建立方法、装置及电子设备 |
CN109241462A (zh) * | 2018-08-13 | 2019-01-18 | 中国联合网络通信集团有限公司 | 网页黑词处理方法、装置、设备及存储介质 |
CN109460784A (zh) * | 2018-10-22 | 2019-03-12 | 武汉极意网络科技有限公司 | 访问行为特征模型建立方法、设备、存储介质及装置 |
CN111046902A (zh) * | 2019-10-30 | 2020-04-21 | 平安科技(深圳)有限公司 | 基于聚类算法的分类方法、装置、计算机设备及存储介质 |
CN111797299A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 模型训练方法、网页分类方法、装置、存储介质及设备 |
CN113761378A (zh) * | 2021-09-14 | 2021-12-07 | 上海任意门科技有限公司 | 内容排序方法、计算设备和计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101038596A (zh) * | 2007-04-29 | 2007-09-19 | 北京搜狗科技发展有限公司 | 一种网站分类方法及系统 |
CN101211339A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 基于用户行为的智能网页分类器 |
CN101814083A (zh) * | 2010-01-08 | 2010-08-25 | 上海复歌信息科技有限公司 | 网页自动分类方法和系统 |
-
2012
- 2012-09-25 CN CN201210362603.7A patent/CN103678422A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101211339A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 基于用户行为的智能网页分类器 |
CN101038596A (zh) * | 2007-04-29 | 2007-09-19 | 北京搜狗科技发展有限公司 | 一种网站分类方法及系统 |
CN101814083A (zh) * | 2010-01-08 | 2010-08-25 | 上海复歌信息科技有限公司 | 网页自动分类方法和系统 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105162822A (zh) * | 2015-06-30 | 2015-12-16 | 浪潮(北京)电子信息产业有限公司 | 一种网站日志数据处理方法及装置 |
CN107038183A (zh) * | 2016-10-09 | 2017-08-11 | 北京百度网讯科技有限公司 | 网页标注方法及装置 |
CN107038183B (zh) * | 2016-10-09 | 2021-01-29 | 北京百度网讯科技有限公司 | 网页标注方法及装置 |
US10878004B2 (en) | 2016-11-10 | 2020-12-29 | Tencent Technology (Shenzhen) Company Limited | Keyword extraction method, apparatus and server |
WO2018086470A1 (zh) * | 2016-11-10 | 2018-05-17 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和服务器 |
CN108073568A (zh) * | 2016-11-10 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
CN108073568B (zh) * | 2016-11-10 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
CN108121736B (zh) * | 2016-11-30 | 2021-06-08 | 北京搜狗科技发展有限公司 | 一种主题词确定模型的建立方法、装置及电子设备 |
CN108121736A (zh) * | 2016-11-30 | 2018-06-05 | 北京搜狗科技发展有限公司 | 一种主题词确定模型的建立方法、装置及电子设备 |
CN107800679A (zh) * | 2017-05-22 | 2018-03-13 | 湖南大学 | 假冒学术期刊网站的检测方法 |
CN107368580B (zh) * | 2017-07-21 | 2019-11-05 | 维沃移动通信有限公司 | 一种网页显示方法及移动终端 |
CN107368580A (zh) * | 2017-07-21 | 2017-11-21 | 维沃移动通信有限公司 | 一种网页显示方法及移动终端 |
CN109241462A (zh) * | 2018-08-13 | 2019-01-18 | 中国联合网络通信集团有限公司 | 网页黑词处理方法、装置、设备及存储介质 |
CN109460784A (zh) * | 2018-10-22 | 2019-03-12 | 武汉极意网络科技有限公司 | 访问行为特征模型建立方法、设备、存储介质及装置 |
CN111797299A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 模型训练方法、网页分类方法、装置、存储介质及设备 |
CN111046902A (zh) * | 2019-10-30 | 2020-04-21 | 平安科技(深圳)有限公司 | 基于聚类算法的分类方法、装置、计算机设备及存储介质 |
CN111046902B (zh) * | 2019-10-30 | 2024-02-02 | 平安科技(深圳)有限公司 | 基于聚类算法的分类方法、装置、计算机设备及存储介质 |
CN113761378A (zh) * | 2021-09-14 | 2021-12-07 | 上海任意门科技有限公司 | 内容排序方法、计算设备和计算机可读存储介质 |
CN113761378B (zh) * | 2021-09-14 | 2022-04-08 | 上海任意门科技有限公司 | 内容排序方法、计算设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678422A (zh) | 网页分类方法和装置、网页分类器的训练方法和装置 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN101685455B (zh) | 数据检索的方法和系统 | |
KR101203345B1 (ko) | 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템 | |
EP2798540B1 (en) | Extracting search-focused key n-grams and/or phrases for relevance rankings in searches | |
US8156097B2 (en) | Two stage search | |
CN111143479A (zh) | 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法 | |
Wang et al. | Ptr: Phrase-based topical ranking for automatic keyphrase extraction in scientific publications | |
TWI695277B (zh) | 自動化網站資料蒐集方法 | |
CN101609450A (zh) | 基于训练集的网页分类方法 | |
CN108197117A (zh) | 一种基于文档主题结构与语义的中文文本关键词提取方法 | |
CN106484797B (zh) | 基于稀疏学习的突发事件摘要抽取方法 | |
CN102184262A (zh) | 基于web的文本分类挖掘系统及方法 | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
CN101673306B (zh) | 网页信息查询方法及其系统 | |
CN112861990A (zh) | 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质 | |
Alami et al. | Hybrid method for text summarization based on statistical and semantic treatment | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
KR101059557B1 (ko) | 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체 | |
KR20100023630A (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
Anoop et al. | A topic modeling guided approach for semantic knowledge discovery in e-commerce | |
Xiao | A Survey of Document Clustering Techniques & Comparison of LDA and moVMF | |
Osanyin et al. | A review on web page classification | |
Al-Anzi et al. | A micro-word based approach for arabic sentiment analysis | |
CN107818078B (zh) | 汉语自然语言对话的语义关联与匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20170822 |