CN103678320B

CN103678320B - 网络信息的挖掘方法和装置

Info

Publication number: CN103678320B
Application number: CN201210321780.0A
Authority: CN
Inventors: 杨小锐; 肖镜辉; 周晓波; 司天歌; 刘玉国
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2012-09-03
Filing date: 2012-09-03
Publication date: 2017-10-27
Anticipated expiration: 2032-09-03
Also published as: EP2893470A1; CN103678320A; US9411909B2; EP2893470A4; WO2014032614A1; US20150220660A1

Abstract

采用本发明提供了一种网络信息的挖掘方法和装置。所述方法包括：获取通过浏览器上传得到的浏览器数据；通过分类模型对上传的浏览器数据进行分类，得到所述浏览器数据所属的类别；获取与所述类别相关的网络信息，将所述获取的网络信息推送到所述浏览器。所述装置包括：数据获取模块，用于获取通过浏览器上传得到的浏览器数据；分类模块，用于通过分类模型对上传的浏览器数据进行分类，得到所述浏览器数据所属的类别；推送模块，用于获取与所述类别相关的网络信息，将所述获取的网络信息推送到所述浏览器。采用本发明提高了针对性。

Description

网络信息的挖掘方法和装置

技术领域

本发明涉及数据处理技术，特别是涉及一种网络信息的挖掘方法和装置。

背景技术

随着互联网的发展，通过互联网传播的网络信息呈爆炸性增长，用户从海量的网络信息中获取到期望的网络信息的难度越来越大，无法准确地提供需要的网络信息，因此，网络服务器常常会对当前热门的网络信息进行推送，以方便用户获取当前热门的网络信息。

例如，通常以导航页面的形式提供多种多样的网络信息，该网络信息可为热门网站。具体的，一些热门网站被罗列于导航页面中，用户可在导航页面对罗列的热门网站进行选择，进而实现热门网站的访问。

然而，在通过导航页面实现的网络信息推送形式中，每一次推送的网络信息都是相同的，不具备针对性，无法贴近每一用户所对应的网络信息获取意图。

发明内容

基于此，有必要针对无法贴近每一用户所对应的网络信息获取意图的问题，提供一种能提高针对性的网络信息的挖掘方法。

此外，还有必要提供一种能提高针对性的网络信息的挖掘装置。

一种网络信息的挖掘方法，包括如下步骤：

获取通过浏览器上传得到的浏览器数据；

通过分类模型对上传的浏览器数据进行分类，得到所述浏览器数据所属的类别；

获取与所述类别相关的网络信息，将所述获取的网络信息推送到所述浏览器。

一种网络信息的挖掘装置，包括：

数据获取模块，用于获取通过浏览器上传得到的浏览器数据；

分类模块，用于通过分类模型对上传的浏览器数据进行分类，得到所述浏览器数据所属的类别；

推送模块，用于获取与所述类别相关的网络信息，将所述获取的网络信息推送到所述浏览器。

上述网络信息的挖掘方法和装置，获取浏览器上传得到的浏览器数据，通过分类模型对上传的浏览器数据进行分类得到相应的类别，进而根据得到的类别获取相关的网络信息，进而将网络信息推送至浏览器，由于浏览器数据是用户在运行浏览器和触发各种操作时产生的，因此，浏览器数据能够反应出用户意图，进而使得基于浏览器数据为相应的用户提供符合该用户的网络信息获取意图的网络信息，从而提高了针对性。

附图说明

图1为一个实施例中网络信息的挖掘方法的流程图；

图2为另一个实施例中网络信息的挖掘方法的流程图；

图3为一个实施例中对存储的浏览器数据和类别进行开方检验得到该类别对应的特征，并通过特征得到该类别的特征集合以及相应的特征向量的方法流程图；

图4为一个实施例中在与类别相对应的浏览器数据中查找与类别的特征相匹配的词，并根据查找结果生成特征集合的特征向量的方法流程图；

图5为一个实施例中通过分类模型对上传的浏览器数据进行分类，得到浏览器数据所属的类别的方法流程图；

图6为另一个实施例中通过分类模型对上传的浏览器数据进行分类，得到浏览器数据所属的类别的方法流程图；

图7为一个实施例中网络信息的挖掘方法的应用示意图；

图8为一个实施例中网络信息的挖掘装置的结构示意图；

图9为另一个实施例中网络信息的挖掘装置的结构示意图；

图10为一个实施例中处理模块的结构示意图；

图11为一个实施例中向量生成单元的结构示意图；

图12为一个实施例中分类模块的结构示意图；

图13为另一个实施例中分类模块的结构示意图；

图14为另一个实施例中分类模块的结构示意图。

具体实施方式

如图1所示，在一个实施例中，一种网络信息的挖掘方法，包括如下步骤：

步骤S110，获取通过浏览器上传得到的浏览器数据。

本实施例中，浏览器数据是浏览器运行过程中产生的数据，记录了浏览历史记录、下载历史记录、缓存等信息，例如，浏览器数据可以是用户通过浏览器访问的网页以及该网页的网络地址。

浏览器在运行过程中收集产生的浏览器数据，并通过互联网络将收集到的浏览器数据上传到后台的网络服务器中，并存储。

步骤S130，通过分类模型对上传的浏览器数据进行分类，得到浏览器数据所属的类别。

本实施例中，分类模型用于对上传的各种浏览器数据进行分类，以得到浏览器数据所属的类别。例如，上传的浏览器数据为用户访问的篮球网页以及该网页的网络地址，则通过分类模型可以获知这一浏览器数据是属于体育这一类别的。在优选的实施例中，分类模型为朴素贝叶斯分类模型。

步骤S150，获取与该类别相关的网络信息，将获取的网络信息推送到浏览器。

本实施例中，在后台的网络服务器得到上传的浏览器数据所属的类别之后，将获取与该类别相关的网络信息，进而将获取的网络信息推送到浏览器中，以供用户通过浏览器进行浏览。由于网络信息是根据用户使用浏览器时产生的浏览器信息得到的，因此，浏览器数据反映了用户意图，进而根据浏览器数据所挖掘得到的网络信息将更为贴近用户意图，进而为每一用户提供符合网络信息获取意图的网络信息，提高了网络信息挖掘的针对性。

如图2所示，在另一个实施例中，上述步骤S130之前还包括如下步骤：

步骤S210，根据预设的类别信息对存储的浏览器数据进行扫描得到存储的浏览器数据对应的类别。

本实施例中，类别信息用于对浏览器上传并存储于网络服务器中的大量浏览器数据进行类别标记。具体的，类别信息包括关键词和该关键词所属的类别，对存储的浏览器数据进行扫描，判断存储的浏览器数据中是否存在类别信息中记录的关键词，若是，则根据这一关键词得到所属的类别，该类别即为扫描的浏览器数据所对应的类别。

对网络服务器中存储的大量浏览器数据均进行类别的标记，以得到浏览器数据和类别之间的映射和关系。

进一步的，在优选的实施例中，存储的浏览器数据中记录了访问的网络地址，上述步骤S210的具体过程为：获取浏览器数据中记录的网络地址，对获取的网络地址进行扫描，判断网络地址中是否存在类别信息中记录的关键词，若是，则根据这一关键词得到所属的类别，进而为浏览器数据标记该类别。

本实施例中，在网络地址中记录的信息已经能够实现浏览器数据的分类，例如，对于“game.qq.com”这一网络地址而言，其中的“game”字段即可说明相应的网页为游戏类的页面，因此，可通过包含了关键词“game”和类别“游戏”的类别信息得到“game.qq.com”这一网络地址所属的类别，进而通过该网络地址和类别信息快速、准确地完成网络服务器中海量浏览器数据的类别标记。

步骤S230，对存储的浏览器数据和类别进行开方检验得到该类别对应的特征，并通过特征得到该类别的特征集合以及相应的特征向量。

本实施例中，开方检验，即x²校验，用于考察类别与某一词的相关性，进而选取与该类别相关性大的词作为该类别所对应的特征，其中，特征为最能代表所属类别的词，例如，在“体育”这一类别中，特征可以是“篮球”。通过开方检验所得到的若干个特征组成了该类别的特征集合，并根据特征和属于该类别的浏览器数据得到该类别的特征集合所对应的特征向量。

在另一个实施例中，海量浏览器与网络服务器进行数据交互的过程中上传并存储于网络服务器中的浏览器数据是海量的，因此，在上述步骤S230之前还包括了对存储的浏览器数据进行分词处理得到若干个词，并去除得到的词中的停用词。

本实施例中，首先对浏览器数据进行分词处理，将浏览器数据表示为词的集合，进而去除特征集合中的停用词。具体的，停用词的去除可以通过预先设置的停用词表实现，即去除词的集合中与停用词表的词相一致的词。停用词包括英文字符、数字、数学字符、标点符号及单汉字等，例如，单汉字“的”和“了”这些没有实际意义的字。

如图3所示，在一个实施例中，上述步骤S230的具体过程为：

步骤S231，将每一类别和存储的浏览器数据中的词进行开方检验得到词和类别之间的开方值。

本实施例中，对每一类别，逐一计算该类别和存储的浏览器数据中的词之间的开方值。例如，存储的浏览器数据中包含了N个浏览器数据条目，其中， M个浏览器数据条目是与体育相关的，“篮球”这一词存在于某些浏览器数据条目中，类别“体育”和“篮球”之间开方检验具体过程为：在存储的浏览器数据中统计包含“篮球”且属于“体育”类别的浏览器数据条目的数量，记为A；统计包含“篮球”但不属性“体育”类别的浏览器数据条目的数量，记为B；统计不包含“篮球”但却属于“体育”类别的浏览器数据条目的数量，记为C；统计既不包含“篮球”也不属于“体育”类别的浏览器数据条目的数量，记为D，进而计算得到的类别“体育”和“篮球”之间开方值为

类似的，可通过上述过计算出每一个词和每一个类别之间的开方值。

步骤S233，判断开方值是否大于阈值，若是，则进入步骤S235，若否，则结束。

本实施例中，开方值表征了词与类别之间的相关性，对于每一个词而言，与某一类别的相关性越大，则说明通过该词越能够区分这一类别与其它类别。因此，预先设定阈值，判断计算得到的某一个词和某一类别之间的开方值是否大于阈值，若是，则将这一词作为该类别的特征，若否，则说明通过这一个词无法区分该类别与其它类别，无法作为该类别的特征。

步骤S235，将词作为类别的特征，并形成类别的特征集合。

本实施例中，在某一类别中，将与该类别的开方值大于阈值的若干个词作为该类别的特征，并构成该类别的特征集合。

步骤S237，在与类别相对应的浏览器数据中查找与类别的特征相匹配的词，并根据查找结果生成特征集合的特征向量。

本实施例中，网络服务器中存储的浏览器数据包括了若干浏览器数据条目，在得到每一类别所对应的特征集合之后，由于特征集合中的特征是根据网络服务器中存储的所有浏览器数据中词与类别之间的开方值选取的，而对于类别而言，每一类别只是包含了一定数量的浏览器数据条目，因此，在每一类别中，对应的浏览器数据条目中并不一定存在所有的特征，需要在类别所对应的浏览器数据条目中逐一对每一特征进行查找，以获知该特征是否存在于类别所对应的浏览器数据条目中，进而得到特征集合所对应的特征向量。

如图4所示，在一个实施例中，上述步骤S237的具体过程为：

步骤S2371，根据类别的特征在该类别对应的浏览器数据中进行查找，判断特征是否存在于类别对应的浏览器数据中，若是，则进入步骤S2373，若否，则进入步骤S2375。

本实施例中，在某一类别中，获取该类别对应的特征和浏览器数据，并在浏览器数据中对每一特征进行查找，判断是否存在于浏览器数据中，若是，则将该特征在特征向量中对应的元素设置为预设值，例如，该预设值可为1，若否，则将该特征中特征向量中对应的元素置零。

例如，对过开方检验得到某一类别的特征集合，即T＝{t₁,t₂,...,t_m}，其中，t₁、t₂…t_m为构成特征集合的特征，在与类别对应的浏览器数据查找每一特征，并判定特征t₂未出现于浏览器数据中，此时相应的特征向量为T_X＝{1,0,...,1}。

步骤S2373，将特征在特征向量中对应的元素设置为预设值。

在另一个实施例中，上述步骤S2373之后还包括：计算该类别对应的特征集合中每一特征所对应的权值，并将特征集合的特征向量中的预设值变换为特征对应的权值。

本实施例中，在上述设置特征所对应的元素的数值这一过程中，认为所有特征在浏览器数据分类过程中占据的地位，即重要性是一致的，但是，实际上，不同的特征对于区分该特征所对应的类别和其它类别所发挥的作用是各不相同的，对有的特征而言，仅仅通过这一特征即可实现分类，而有的特征需要与其它特征联合方可实现浏览器数据的分类，因此，应当计算每一特征所对应的权值，以进一步精确浏览器数据的分类。

具体的，通过TF-IDF算法以类别所对应的浏览器数据为整体计算出该类别中每一特征的tfidf值，为每一特征分配权值。tfidf值用于评估相应的特征对所在类别的浏览器数据的重要程度，并将随着这一特征在浏览器数据中出现的次数正比增加。

对类别中的每一特征计算tfidf值的具体过程为：首先通过公式计算得到该特征的词频tf_ij，词频指的是该特征在网络服务器存储的浏览器数据中的出现频率，其中，n_i,,j为该特征j在对应类别i的浏览器数据的出现次数，n_k,,j为特征j在类别k的浏览器数据的出现次数，K为总的类别个数；然后通过公式计算该特征的逆文档频率idf_i，即文档频率的倒数，文档频率是指出现该特征的浏览器数据所对应的类别个数与类别总数的比值，其中，D 为类别总数，|{j:t_i∈d_j}|为包含特征j的浏览器数据t_i所对应的类别个数，d_j为网络服务器中存储的所有浏览器数据；最后计算词频tf_ij和逆文档频率idf_i之间的乘积得到该特征的tfidf_i,j值，即tfidf_i,j＝tf_i,j×idf_i。

步骤S2375，将特征在特征向量中对应的元素设置为零。

步骤S250，对类别的特征集合进行概率计算得到特征集合中特征对应的后验概率。

本实施例中，根据朴素贝叶斯公式首先计算特征的先验概率和条件概率，进而通过先验概率和条件概率之间的乘积得到该特征的后验概率。具体的，先验概率可通过公式计算得到，其中，n_k为类别c_k对应的浏览器数据中浏览器数据条目数量，K为所有类别数量，k∈K；然后通过公式计算得到该特征x^(j)的条件概率，其中，n_jk为特征x^(j)在类别c_k所对应的浏览器数据中出现的次数，最后通过先验概率和条件概率之间的乘积得到该特征的后验概率。

步骤S270，通过类别、类别的特征集合、相应的特征向量以及特征集合中特征对应的后验概率构成分类模型。

本实施例中，对于每一类别，存储得到的特征集合、特征向量、特征集合中特征对应的后验概率，并与该类别相关联以构成分类模型，通过这一分类模型即可实现用户通过浏览器上传的浏览器数据的准确分类。

如图5所示，在一个实施例中，上述步骤S130的具体过程为：

步骤S131，计算上传的浏览器数据和特征集合之间的匹配度，并选取计算得到的匹配度中的最高匹配度。

本实施例中，匹配度用于表征上传的浏览器数据与某一类别的特征集合之间的相似程度，匹配度越高，则上传的浏览器数据属于该类别的可能性也就越高。

具体的，上述计算上传的浏览器数据和特征集合之间的匹配度的具体过程为：提取上传的浏览器数据中的词，将每一特征集合中的特征与提取的词逐一进行比对，得到每一特征集合中与提取的词相同的特征，进而根据得到的特征所对应的权值和后验概率计算得到上传的浏览器数据和特征集合之间的匹配度，进而选取最高匹配度。通过这一方式获取到与上传的浏览器数据最为相似的特征集合，不需要进行大量复杂的计算，对于海量上传的浏览器数据而言，大大地降低了资源负担。

例如，提取上传的浏览器数据中的若干个词，将提取得到的若干个词与每一特征集合中的特征进行逐一比对，以得到特征集合中与提取的词相同的特征，进而计算相同特征的权值和后验概率之间的乘积，并将特征集合中的多个相同特征计算得到的权值和后验概率之间的乘积再次相乘得到该特征集合与上传的浏览器数据之间的匹配度，提取计算得到的匹配度中的最高匹配度。

步骤S133，获取最高匹配度对应的特征集合，并根据特征集合得到相应的类别，该类别即为上传的浏览器数据所属的类别。

本实施例中，由于最高匹配度所对应的特征集合将是与上传的浏览器数据最为相似的，因此，该特征集合所在的类别即为上传的浏览器数据所属的类别。

在另一个实施例中，上述步骤S133之前还包括如下步骤：

判断最高匹配度是否大于匹配阈值，若是，则进入步骤S133，若否，则结束。

本实施例中，虽然最高匹配度表征了对应的特征集合是与上传的浏览器数据最为相似的，但是，并不能够屏蔽分类模型无法识别上传的浏览器数据所属类别的情况，因此在得到最高匹配度之后，将判断最高匹配度是否大于匹配阈值，若是，则说明这一最高阈值所对应的特征集合的类别为上传的浏览器数据所属类别，若否，则说明分类模型无法识别上传浏览器数据所属的类别，进而提高分类的准确性。

如图6所示，在另一个实施例中，上述判断最高匹配度是否大于匹配阈值的步骤之前还包括：

步骤S301，判断上传的浏览器数据中记录的网络地址是否存在于存储的浏览器数据中，若是，则进入步骤S303，若否，则进入步骤S305。

本实施例中，可根据实际的情况对匹配阈值进行灵活调整，以适应当前的分类过程。从上传的浏览器数据中提取记录的网络地址，进而判断该网络地址是否也记录于存储的浏览器数据中，若是，则说明分类模型可识别上传的浏览器数据的可能性非常高，因此可降低当前的匹配阈值，若否，则根据上传的浏览器数据中包含的特征个数来进行匹配阈值的调整，以使得匹配阈值能够适应各种不同的浏览器数据分类，进而提高分类的准确性。

步骤S303，降低预设的匹配阈值。

本实施例中，上述降低预设的匹配阈值可通过公式θ＝θ/10来实现。

步骤S305，统计浏览器数据中包含的特征个数，根据统计的个数调整匹配阈值。

本实施例中，无论上传的浏览器数据中记录的网络地址记录于存储的浏览器数据中，还是未记录于存储的浏览器数据中，均需要考虑上传的浏览器数据中所拥有的特征个数，以确定更为合理的匹配阈值，实现匹配阈值的动态调整。根据最高匹配度对应的特征集合，统计该特征集合中的特征出现于上传的浏览器数据的特征个数，并通过公式θ＝θ/l*m调整匹配阈值，其中，l为调整因子。

下面结合一个具体的实施例中来详细阐述上述网络信息的挖掘方法。该实施例中，如图7所示，在对上传的浏览器数据进行类别并推送网络信息之前，需要通过网络服务器中存储的海量浏览器数据经过S710至S770的步骤构建分类模型。

在步骤S710标记分类的过程中，获取网络服务器中存储的浏览器数据，基于类别信息进行扫描得到浏览器数据所属的类别，以进入步骤S730对浏览器数据进行预处理。

通过步骤S730对浏览器数据进行分词处理，并去除停用词，进而通过开方检验确定每一类别的特征，形成该类别所对应的特征集合，通过特征集合所对应的特征向量表示浏览器数据，从而进入步骤S750对浏览器数据进行模型训练。

在模型训练过程中，通过计算先验概率、条件概率、先验概率和条件概率之间的乘积以及特征权值这一系列的计算得到浏览器数据的分类模型，用于对新上传的浏览器数据进行类别预测，以得到与这一分类相关的网络信息。

在步骤S770的类别预测的过程中，获取浏览器上传的浏览器数据，并将获取的浏览器数据输入到分类模型中，以得到浏览器数据所属的类别。

如图8所示，在一个实施例中，一种网络信息的挖掘装置，包括数据获取模块110、分类模块130以及推送模块150。

数据获取模块110，用于获取通过浏览器上传得到的浏览器数据。

浏览器在运行过程中将收集产生的浏览器数据，并通过互联网络将收集到的浏览器数据上传到后台的网络服务器中，此时网络服务器中的数据获取模块 110将获取上传的浏览器数据并存储。

分类模块130，用于通过分类模型对上传的浏览器数据进行分类，得到浏览器数据所属的类别。

本实施例中，分类模型用于对上传的各种浏览器数据进行分类，以提到浏览器数据所属的类别。例如，上传的浏览器数据为用户访问的篮球网页以及该网页的网络地址，则分类模块130通过分类模型可以获知这一浏览器数据是属于体育这一类别的。在优选的实施例中，分类模型为朴素贝叶斯分类模型。

推送模块150，用于获取与类别相关的网络信息，将获取的网络信息推送到浏览器。

本实施例中，在后台的网络服务器得到上传的浏览器数据所属的类别之后，推送模块150将获取与该类别相关的网络信息，进而将获取的网络信息推送到浏览器中，以供用户通过浏览器进行浏览。由于网络信息是根据用户使用浏览器时产生的浏览器信息得到的，因此，浏览器数据将反映了用户意图，进而根据浏览器

数据所挖掘得到的网络信息将更为贴近用户意图，进而为每一用户提供符合网络信息获取意图的网络信息，提高了网络信息挖掘的针对性。

如图9所示，在另一个实施例中，上述网络信息的挖掘装置还包括扫描模块210、处理模块230、概率计算模块250以及模型构建模块270。

扫描模块210，用于根据预设的类别信息对存储的浏览器进行扫描得到存储的浏览器数据对应的类别。

本实施例中，类别信息用于对浏览器上传并存储于网络服务器中的大量浏览器数据进行类别标记。具体的，类别信息包括关键词和该关键词所属的类别，扫描模块210对存储的浏览器数据进行扫描，判断存储的浏览器数据中是否存在类别信息中记录的关键词，若是，则根据这一关键词得到所属的类别，该类别即为扫描的浏览器数据所对应的类别。

扫描模块210对网络服务器中存储的大量浏览器数据均进行类别的标记，以得到浏览器数据和类别之间的映射和关系。

进一步的，在优选的实施例中，存储的浏览器数据中记录了访问的网络地址，上述扫描模块210获取浏览器数据中记录的网络地址，对获取的网络地址进行扫描，判断网络地址中是否存在类别信息中记录的关键词，若是，则根据这一关键词得到所属的类别，进而为浏览器数据标记该类别。

本实施例中，在网络地址中记录的信息已经能够实现浏览器数据的分类，例如，对于“game.qq.com”这一网络地址而言，其中的“game”字段即可说明相应的网页为游戏类的页面，因此，扫描模块210可通过包含了关键词“game”和类别“游戏”的类别信息得到“game.qq.com”这一网络地址所属的类别，进而通过这网络地址和类别信息快速、准确地完成网络服务器中海量浏览器数据的类别标记。

处理模块230，用于对存储的浏览器数据和类别进行开方检验得到类别对应的特征，并通过特征得到类别的特征集合和相应的特征向量。

本实施例中，开方检验，即x²校验，用于考察类别与某一词的相关性，进而选取与该类别相关性大的词作为该类别所对应的特征，其中，特征为最能代表所属类别的词，例如，在“体育”这一类别中，特征可以是“篮球”。处理模块230通过开方检验所得到的若干个特征组成了该类别的特征集合，并根据特征和属于该类别的浏览器数据得到该类别的特征集合所对应的特征向量。

在另一个实施例中，海量浏览器与网络服务器进行数据交互的过程中上传并存储于网络服务器中的浏览器数据是海量的，因此，处理模块230还用于对存储的浏览器数据进行分词处理得到若干个词，并去除得到的词中的停用词。

本实施例中，处理模块230首先对浏览器数据进行分词处理，将浏览器数据表示为词的集合，进而去除特征集合中的停用词。具体的，停用词的去除可以通过预先设置的停用词表实现，即去除词的集合中与停用词表的词相一致的词。停用词包括英文字符、数字、数学字符、标点符号及单汉字等，例如，单汉字“的”和“了”这些没有实际意义的字。

如图10所示，在一个实施例中，上述处理模块230包括开方检验单元231、特征选取单元233以及向量生成单元235。

开方检验单元231，用于将每一类别和存储的浏览器数据中的词进行开方检验得到词和类别之间的开方值。

本实施例中，对每一类别，开方检验单元231逐一计算该类别和存储的浏览器数据中的词之间的开方值。例如，存储的浏览器数据中包含了N个浏览器数据条目，其中，M个浏览器数据条目是与体育相关的，“篮球”这一词存在于某些浏览器数据条目中，类别“体育”和“篮球”之间开方检验具体过程为：在存储的浏览器数据中统计包含“篮球”且属于“体育”类别的浏览器数据条目的数量，记为A；统计包含“篮球”但不属性“体育”类别的浏览器数据条目的数量，记为B；统计不包含“篮球”但却属于“体育”类别的浏览器数据条目的数量，记为C；统计既不包含“篮球”也不属于“体育”类别的浏览器数据条目的数量，记为D，进而计算得到的类别“体育”和“篮球”之间开方值为

类似的，开方检验单元231可通过上述过计算出每一个词和每一个类别之间的开方值。

特征选取单元233，用于判断开方值是否大于阈值，若是，则将该词作为类别的特征，并形成类别的特征集合。

本实施例中，开方值表征了词与类别之间的相关性，对于每一个词而言，与某一类别的相关性越大，则说明通过该词越能够区分这一类别与其它类别。因此，预先设定阈值，特征选取单元233判断计算得到的某一个词和某一类别之间的开方值是否大于阈值，若是，则将这一词作为该类别的特征，若否，则说明通过这一个词无法区分该类别与其它类别，无法作为该类别的特征。

向量生成单元235，用于在与类别相对应的浏览器数据中查找与类别的特征相匹配的词，并根据查找结果生成特征集合的特征向量。

本实施例中，在某一类别中，向量生成单元235将与该类别的开方值大于阈值的若干个词作为该类别的特征，并构成该类别的特征集合。

如图11所示，在一个实施例中，上述向量生成单元235包括查找单元2351 以及元素设置单元2355 。

查找单元2351，用于根据类别的特征在该类别对应的浏览器数据中进行查找，判断特征是否存在于类别对应的浏览器数据中，若是，则通知元素设置单元2355 将特征在特征向量中对应的元素设置为预设值，若否，则通知元素设置单元2355将特征在特征向量中对应的元素设置为零。

本实施例中，在某一类别中，本实施例中，在某一类别中，获取该类别对应的特征和浏览器数据，并在浏览器数据中对每一特征进行查找，判断是否存在于浏览器数据中，若是，则通知元素设置单元2355将该特征在特征向量中对应的元素设置为预设值，例如，该预设值可为1，若否，则通知元素设置单元 2355将该特征中特征向量中对应的元素置零。

例如，对过开方检验得到某一类别的特征集合，即T＝{t₁,t₂,...,t_m}，其中，t₁、t₂…t_m为构成特征集合的特征，查找单元2351在与类别对应的浏览器数据查找每一特征，并判定特征t₂未出现于浏览器数据中，此时相应的特征向量为 T_X＝{1,0,...,1}。获取该类别对应的特征和浏览器数据，并在浏览器数据中对每一特征进行查找，判断是否存在于浏览器数据中，若是，则通知元素设置单元2355 将该特征在特征向量中对应的元素设置为预设值，例如，该预设值可为1，若否，则通知元素设置单元2355将该特征中特征向量中对应的元素置零。

在另一个实施例中，上述向量生成单元235还包括权值计算单元，该权值计算单元用于计算类别对应的特征集合中每一特征所对应的权值，并将特征集合中的特征向量变换为特征对应的权值。

具体的，向量生成单元235通过TF-IDF算法以类别所对应的浏览器数据为整体计算出该类别中每一特征的tfidf值，为每一特征分配权值。tfidf值用于评估相应的特征对所在类别的浏览器数据的重要程度，并将随着这一特征在浏览器数据中出现的次数正比增加。

向量生成单元235首先通过公式计算得到该特征的词频tf_ij，词频指的是该特征在网络服务器存储的浏览器数据中的出现频率，其中，n_i,,j为该特征j在对应类别i的浏览器数据的出现次数，n_k,,j为特征j在类别k的浏览器数据的出现次数，K为总的类别个数；然后通过公式计算该特征的逆文档频率idf_i，即文档频率的倒数，文档频率是指出现该特征的浏览器数据所对应的类别个数与类别总数的比值，其中，D为类别总数，|{j:t_i∈d_j}|为包含特征j的浏览器数据t_i所对应的类别个数，d_j为网络服务器中存储的所有浏览器数据；最后计算词频tf_ij和逆文档频率idf_i之间的乘积得到该特征的tfidf_i,j值，即tfidf_i,j＝tf_i,j×idf_i。

概率计算模块250，用于对类别的特征集合进行概率计算得到特征集合中特征对应的后验概率。

本实施例中，概率计算模块250根据朴素贝叶斯公式首先计算特征的先验概率和条件概率，进而通过先验概率和条件概率之间的乘积得到该特征的后验概率。具体的，先验概率可通过公式计算得到，其中，n_k为类别c_k对应的浏览器数据中浏览器数据条目数量，K为所有类别数量，k∈K；然后通过公式计算得到该特征x^(j)的条件概率，其中，n_jk为特征x^(j)在类别c_k所对应的浏览器数据中出现的次数，最后通过先验概率和条件概率之间的乘积得到该特征的后验概率。

模型构建模块270，用于通过类别、该类别的特征集合、相应的特征向量以及特征集合中特征对应的后验概率构建分类模型。

本实施例中，对于每一类别，模型构建模块270存储得到的特征集合、特征向量、特征集合中特征对应的后验概率，并与该类别相关联以构成分类模型，通过这一分类模型即可实现用户通过浏览器上传的浏览器数据的准确分类。

如图12所示，在一个实施例中，上述分类模块130包括匹配单元131以及类别获取单元133。

匹配单元131，用于计算上传的浏览器数据和特征集合之间的匹配度，并选取计算得到的匹配度中的最高匹配度。

匹配单元131提取上传的浏览器数据中的词，将每一特征集合中的特征与提取的词逐一进行比对，得到每一特征集合中与提取的词相同的特征，进而根据得到的特征所对应的权值和后验概率计算得到上传的浏览器数据和特征集合之间的匹配度，进而选取最高匹配度。通过这一方式获取到与上传的浏览器数据最为相似的特征集合，不需要进行大量复杂的计算，对于海量上传的浏览器数据而言，大大地降低了资源负担。

例如，匹配单元131提取上传的浏览器数据中的若干个词，将提取得到的若干个词与每一特征集合中的特征进行逐一比对，以得到特征集合中与提取的词相同的特征，进而计算相同特征的权值和后验概率之间的乘积，并将特征集合中的多个相同特征计算得到的权值和后验概率之间的乘积再次相乘得到该特征集合与上传的浏览器数据之间的匹配度，提取计算得到的匹配度中的最高匹配度。

类别获取单元133，用于获取最高匹配度对应的特征集合，并根据特征集合得到相应的类别，该类别即为上传的浏览器数据所属的类别。

如图13所示，在另一个实施例中，上述分类模块还包括阈值判断单元135。

阈值判断单元135，用于判断最高匹配度是否大于匹配阈值，若是，则通知类别获取模块133，若否，则停止执行。

本实施例中，虽然最高匹配度表征了对应的特征集合是与上传的浏览器数据最为相似的，但是，并不能够屏蔽分类模型无法识别上传的浏览器数据所属类别的情况，因此在得到最高匹配度之后，阈值判断单元135将判断最高匹配度是否大于匹配阈值，若是，则说明这一最高阈值所对应的特征集合的类别为上传的浏览器数据所属类别，若否，则说明分类模型无法识别上传浏览器数据所属的类别，进而提高分类的准确性。

如图14所示，在另一个实施例中，上述分类模块130还包括数据判断单元 137以及阈值调整单元139。

数据判断单元137，用于判断上传的浏览器数据中记录的网络地址是否存在于存储的浏览器数据中，若是，则通知阈值调整单元139降低预设的匹配阈值，若否，则通知阈值调整单元139统计浏览器数据中包含的特征个数，根据统计的个数调整匹配阈值。

本实施例中，可根据实际的情况对匹配阈值进行灵活调整，以适应当前的分类过程。数据判断单元137从上传的浏览器数据中提取记录的网络地址，进而判断该网络地址是否也记录于存储的浏览器数据中，若是，则说明分类模型可识别上传的浏览器数据的可能性非常高，因此可通知阈值调整单元139降低当前的匹配阈值，若否，则通知阈值调整单元139根据上传的浏览器数据中包含的特征个数来进行匹配阈值的调整，以使得匹配阈值能够适应各种不同的浏览器数据分类，进而提高分类的准确性。

进一步的，阈值调整单元139降低预设的匹配阈值可通过公式θ＝θ/10来实现。

无论上传的浏览器数据中记录的网络地址记录于存储的浏览器数据中，还是未记录于存储的浏览器数据中，均需要考虑上传的浏览器数据中所拥有的特征个数，以确定更为合理的匹配阈值，实现匹配阈值的动态调整。阈值调整单元139根据最高匹配度对应的特征集合，统计该特征集合中的特征出现于上传的浏览器数据的特征个数，并通过公式θ＝θ/l*m调整匹配阈值，其中，l为调整因子。

上述网络信息的挖掘装置设置与浏览器进行数据交互的网络服务器中，实现浏览器上传的浏览器数据的分类。

上述网络信息的挖掘方法和装置，获取浏览器上传得到的浏览器数据，通过分类模型对上传的浏览器数据进行分类得到相应的类别，进而根据得到的类别获取相关的网络信息，进而将网络信息的推送至浏览器，由于浏览器数据是用户在运行浏览器和触发各种操作时产生的，因此，浏览器数据能够反应出用户意图，进而使得基于浏览器数据为相应的用户提供符合该用户的网络信息获取意图的网络信息，从而提高了针对性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory， ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种网络信息的挖掘方法，包括如下步骤：

获取通过浏览器上传得到的浏览器数据，浏览器数据为浏览器运行过程中产生的数据；

获取与所述类别相关的网络信息，将所述获取的网络信息推送到所述浏览器；

所述通过分类模型对上传的浏览器数据进行分类，得到所述浏览器数据所属的类别的步骤之前还包括：

根据预设的类别信息对存储的浏览器数据进行扫描得到所述存储的浏览器数据对应的类别；

对存储的浏览器数据和类别进行开方检验得到所述类别对应的特征，并通过所述特征得到所述类别的特征集合，并在与类别相对应的浏览器数据中查找与类别的特征相匹配的词，根据查找结果得到特征集合的特征向量；

对所述类别的特征集合进行概率计算得到所述特征集合中特征对应的后验概率；

通过所述类别、所述类别的特征集合、相应的特征向量以及所述特征集合中特征对应的后验概率构建分类模型；

通过分类模型对上传的浏览器数据进行分类，得到所述浏览器数据所属的类别的方式包括：

通过分类模型比对所述浏览器数据与特征集合，获得所述浏览器数据与该特征集合相同的特征在该特征集合的特征向量中的元素值；

计算各相同的特征在该特征集合的特征向量中的元素值与该特征集合的后验概率的乘积，获得所述浏览器数据与该特征集合的匹配度；

通过所述浏览器数据与分类模型中的各特征集合的匹配度，得到所述浏览器数据所属的类别。

2.根据权利要求1所述的网络信息的挖掘方法，其特征在于，所述对存储的浏览器数据和类别进行开方检验得到所述类别对应的特征，并通过所述特征得到所述类别的特征集合以及相应的特征向量的步骤为：

将每一类别和所述存储的浏览器数据中的词进行开方检验得到所述词和所述类别之间的开方值；

判断所述开方值是否大于阈值，若是，则将所述词作为所述类别的特征，并形成所述类别的特征集合；

在与所述类别相对应的浏览器数据中查找与所述类别的特征相匹配的词，并根据查找结果生成所述特征集合的特征向量。

3.根据权利要求2所述的网络信息的挖掘方法，其特征在于，所述在与所述类别相对应的浏览器数据中查找与所述类别的特征相同的词，并根据查找结果生成所述特征集合的特征向量的具体过程为：

根据所述类别的特征在所述类别对应的浏览器数据中进行查找，判断所述特征是否存在于所述类别对应的浏览器数据中，若是，则

将所述特征在特征向量中对应的元素设置为预设值；

若否，则将所述特征在特征向量中对应的元素设置为零。

4.根据权利要求3所述的网络信息的挖掘方法，其特征在于，所述将所述特征向量中对应的元素设置为预设值的步骤之后还包括：

计算所述类别对应的特征集合中每一特征所对应的权值，并将所述特征集合的特征向量中的预设值变换为特征对应的权值。

5.根据权利要求1所述的网络信息的挖掘方法，其特征在于，所述通过所述浏览器数据与分类模型中的各特征集合的匹配度，得到所述浏览器数据所属的类别的步骤包括：

选取所述计算得到的匹配度中的最高匹配度；

获取所述最高匹配度对应的特征集合，并根据所述特征集合得到相应的类别，所述类别即为所述上传的浏览器数据所属的类别。

6.根据权利要求5所述的网络信息的挖掘方法，其特征在于，所述获取所述最高匹配度对应的特征集合，并根据所述特征集合得到相应的类别，所述类别即为所述上传的浏览器数据所属的类别的步骤之前还包括：

判断所述最高匹配度是否大于匹配阈值，若是则进入所述获取所述最高匹配度对应的特征集合，并根据所述特征集合得到相应的类别，所述类别即为所述上传的浏览器数据所属的类别的步骤。

7.根据权利要求6所述的网络信息的挖掘方法，其特征在于，所述判断所述最高匹配度是大于匹配阈值的步骤之前还包括：

判断所述上传的浏览器数据中记录的网络地址是否存在于存储的浏览器数据中，若是，则降低预设的匹配阈值；

统计所述浏览器数据中包含的特征个数，根据所述统计的个数调整匹配阈值。

8.一种网络信息的挖掘装置，其特征在于，包括：

数据获取模块，用于获取通过浏览器上传得到的浏览器数据，浏览器数据为浏览器运行过程中产生的数据；

推送模块，用于获取与所述类别相关的网络信息，将所述获取的网络信息推送到所述浏览器；

还包括：

扫描模块，用于根据预设的类别信息对存储的浏览器进行扫描得到所述存储的浏览器数据对应的类别；

处理模块，用于对存储的浏览器数据和类别进行开方检验得到所述类别对应的特征，并通过所述特征得到所述类别的特征集合和相应的特征向量；

概率计算模块，用于对所述类别的特征集合进行概率计算得到所述特征集合中特征对应的后验概率；

模型构建模块，用于通过所述类别、所述类别的特征集合、相应的特征向量以及所述特征集合中特征对应的后验概率构建分类模型；

所述分类模块包括：

匹配单元，用于通过分类模型比对所述浏览器数据与特征集合，获得所述浏览器数据与该特征集合相同的特征在该特征集合的特征向量中的元素值；计算各相同的特征在该特征集合的特征向量中的元素值与该特征集合的后验概率的乘积，获得所述浏览器数据与该特征集合的匹配度；

类别获取单元，用于通过所述浏览器数据与分类模型中的各特征集合的匹配度，得到所述浏览器数据所属的类别。

9.根据权利要求8所述的网络信息的挖掘装置，其特征在于，所述处理模块包括：

开方检验单元，用于将每一类别和所述存储的浏览器数据中的词进行开方检验得到所述词和所述类别之间的开方值；

特征选取单元，用于判断所述开方值是否大于阈值，若是，则将所述词作为所述类别的特征，并形成所述类别的特征集合；

向量生成单元，用于在与所述类别相对应的浏览器数据中查找与所述类别的特征相匹配的词，并根据查找结果生成所述特征集合的特征向量。

10.根据权利要求9所述的网络信息的挖掘装置，其特征在于，所述向量生成单元包括：

查找单元，用于根据所述类别的特征在所述类别对应的浏览器数据中进行查找，判断所述特征是否存在于所述类别对应的浏览器数据中，若是，则通知元素设置单元将所述特征在特征向量中对应的元素设置为预设值，若否，则通知所述元素设置单元将所述特征在特征向量中对应的元素设置为零。

11.根据权利要求10所述的网络信息的挖掘装置，其特征在于，所述向量生成单元还包括：

权值计算单元，用于计算所述类别对应的特征集合中每一特征所对应的权值，并将所述特征集合的特征向量中的预设值变换为特征对应的权值。

12.根据权利要求8所述的网络信息的挖掘装置，其特征在于：

所述匹配单元，还选取所述计算得到的匹配度中的最高匹配度；

所述类别获取单元，获取所述最高匹配度对应的特征集合，并根据所述特征集合得到相应的类别，所述类别即为所述上传的浏览器数据所属的类别。

13.根据权利要求12所述的网络信息的挖掘装置，其特征在于，所述分类模块还包括：

阈值判断单元，用于判断所述最高匹配度是否大于匹配阈值，若是，则通知所述类别获取单元。

14.根据权利要求13所述的网络信息的挖掘装置，其特征在于，所述分类模块还包括：

数据判断单元，用于判断所述上传的浏览器数据中记录的网络地址是否存在于存储的浏览器数据中，若是，则通知阈值调整单元降低预设的匹配阈值；

所述阈值调整单元还用于统计所述浏览器数据中包含的特征个数，根据所述统计的个数调整匹配阈值。