CN102937951B - 建立ip地址分类模型的方法、对用户分类的方法及装置 - Google Patents

建立ip地址分类模型的方法、对用户分类的方法及装置 Download PDF

Info

Publication number
CN102937951B
CN102937951B CN201110232269.9A CN201110232269A CN102937951B CN 102937951 B CN102937951 B CN 102937951B CN 201110232269 A CN201110232269 A CN 201110232269A CN 102937951 B CN102937951 B CN 102937951B
Authority
CN
China
Prior art keywords
user
cookie
inquiry
address
under
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110232269.9A
Other languages
English (en)
Other versions
CN102937951A (zh
Inventor
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110232269.9A priority Critical patent/CN102937951B/zh
Publication of CN102937951A publication Critical patent/CN102937951A/zh
Application granted granted Critical
Publication of CN102937951B publication Critical patent/CN102937951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种建立IP地址分类模型的方法、对用户分类的方法及装置,其中所述建立IP地址分类模型的方法包括:A.获取用户搜索日志;B.统计搜索日志中每个IP地址下的cookie数量;C.对cookie数量大于或等于设定的第一阈值的IP地址下的cookie和查询抽取特征;D.利用抽取的特征进行模型训练,以得到包含IP地址与用户类型之间对应关系的IP地址分类模型。通过使用上述模型,可以实现对搜索引擎用户的有效分类,使搜索引擎系统能够针对不同类型的用户采用不同的计算方式,节约系统资源。

Description

建立IP地址分类模型的方法、对用户分类的方法及装置
【技术领域】
本发明涉及搜索引擎领域,特别涉及一种建立IP地址分类模型的方法、对用户分类的方法及装置。
【背景技术】
随着互联网的广泛使用,搜索引擎越来越成为人们生活当中不可或缺的工具,与普通的软件应用系统或其他的网络应用系统相比,搜索引擎系统有个重要的特点,即它的用户群体来源广泛,通常用户并不需要在系统中注册并留下自己的个性化信息就可以使用搜索引擎,因此,对搜索引擎系统而言,对用户进行分类就显得比较困难,由于无法对用户进行有效地分类,也就限制了搜索引擎系统针对不同的用户实现不同的结果呈现形式,或针对不同的用户采用不同的计算方式以减少系统的开销。
【发明内容】
本发明所要解决的技术问题是提供一种建立IP地址分类模型的方法、对用户分类的方法及装置,以解决现有技术中由于无法对搜索引擎用户进行有效分类导致的搜索结果呈现方式单一或搜索引擎系统资源浪费的缺陷。
本发明为解决技术问题而采用的技术方案是提供一种建立IP地址分类模型的方法,包括:A.获取用户搜索日志;B.统计所述搜索日志中每个IP地址下的cookie数量;C.对cookie数量大于或等于设定的第一阈值的IP地址下的cookie和查询抽取特征;D.利用抽取的特征进行模型训练,以得到包含IP地址与用户类型之间对应关系的IP地址分类模型。
根据本发明之一优选实施例,该方法还包括:将cookie数量小于设定的第一阈值的IP地址确定为家庭用户类别的IP地址。
根据本发明之一优选实施例,所述步骤C中,对cookie抽取的特征包括周末使用时间与工作日使用时间相对比例、日间使用时间与夜间使用时间的相对比例、或直接访问服务器次数与间接访问服务器次数的相对比例。
根据本发明之一优选实施例,所述步骤C中,对查询抽取的特征是通过信息增益的方法得到的。
本发明还提供了一种对用户分类的方法,包括:a.获取当前用户的IP地址;b.采用前文所述方法建立的IP地址分类模型,得到与所述当前用户的IP地址一致的用户类型作为所述当前用户的用户类型。
根据本发明之一优选实施例,所述方法进一步包括:c.当所述当前用户的IP地址的类型为家庭类或小区类时,判断所述当前用户的cookie是否已识别,如果是,则确定所述当前用户的细分用户类型为与所述cookie对应的用户类型,否则执行识别cookie的步骤;所述识别cookie的步骤包括:d.根据查询分类模型对所述cookie下的每个会话所处周期内的查询进行分类,以得到所述查询对应的用户类型作为每个会话对应的用户类型,其中所述查询分类模型是包含查询与用户类型之间对应关系的分类模型;e.确定所述cookie下属于每类用户的会话的比例,当存在大于设定的第二阈值的比例时,将所述cookie对应的用户类型识别为该比例的会话对应的用户类型,且所述当前用户的细分用户类型为与所述cookie对应的用户类型。
根据本发明之一优选实施例,所述步骤c中,当在设定的第三阈值的时间内,所述cookie对应的用户类型均被识别为同一用户类型时,判断所述cookie为已识别。
根据本发明之一优选实施例,所述查询分类模型是通过下列方式获得的:从注册用户搜索日志中挖掘所有线下查询;统计每个线下查询被每类用户搜索的比例,并将所述比例作为每个线下查询隶属于每类用户的隶属分值;将每个线下查询进行分词处理得到分词结果,并通过用所述分词结果拟合对应的隶属分值对最大熵模型进行训练,得到包含查询与用户类型之间对应关系的查询分类模型。
本发明还提供了一种建立IP地址分类模型的装置,其特征在于,所述装置包括:接收单元,用于获取用户搜索日志;统计单元,用于统计所述搜索日志中每个IP地址下的cookie数量;特征抽取单元,用于对cookie数量大于或等于设定的第一阈值的IP地址下的cookie和查询抽取特征;训练单元,用于利用抽取的特征进行模型训练,以得到包含IP地址与用户类型之间对应关系的分类模型。
根据本发明之一优选实施例,所述训练单元还用于将cookie数量小于设定的第一阈值的IP地址确定为家庭用户类别的IP地址。
根据本发明之一优选实施例,所述特征抽取单元对cookie抽取的特征包括周末使用时间与工作日使用时间相对比例、日间使用时间与夜间使用时间的相对比例、或直接访问服务器次数与间接访问服务器次数的相对比例。
根据本发明之一优选实施例,所述特征抽取单元对查询抽取的特征是通过信息增益的方法得到的。
本发明还提供了一种对用户分类的装置,其特征在于,所述装置包括:检测单元,用于获取当前用户的IP地址;分类单元,用于采用前文所述装置建立的IP地址分类模型得到与所述当前用户的IP地址一致的用户类型作为所述当前用户的用户类型。
根据本发明之一优选实施例,所述装置进一步包括:判断单元,用于当所述当前用户的IP地址的类型为家庭类或小区类时,判断所述当前用户的cookie是否已识别,如果是,则确定所述当前用户的细分用户类型为与所述cookie对应的用户类型,否则触发cookie识别单元;所述cookie识别单元具体包括:查询分类子单元,用于受到所述判断单元的触发后,根据查询分类模型对所述cookie下的每个会话所处周期内的查询进行分类,以得到所述查询对应的用户类型作为每个会话对应的用户类型,其中所述查询分类模型是包含查询与用户类型之间对应关系的分类模型;识别子单元,用于确定所述cookie下属于每类用户的会话的比例,当存在大于设定的第二阈值的比例时,将所述cookie对应的用户类型识别为该比例的会话对应的用户类型,且所述当前用户的细分用户类型为与所述cookie对应的用户类型。
根据本发明之一优选实施例,当在设定的第三阈值的时间内,所述cookie对应的用户类型均被识别为同一用户类型时,所述判断单元判断所述cookie为已识别。
根据本发明之一优选实施例,所述装置进一步包括查询分类模型生成单元;所述查询分类模型生成单元具体包括:挖掘子单元,用于从所述注册用户搜索日志中挖掘所有线下查询;统计子单元,用于统计每个线下查询被每类用户搜索的比例,并将所述比例作为每个线下查询隶属于每类用户的隶属分值;训练子单元,用于将每个线下查询进行分词处理得到分词结果,并通过用所述分词结果拟合对应的隶属分值对最大熵模型进行训练,得到包含查询与用户类型之间对应关系的所述查询分类模型。
由以上技术方案可以看出,通过对搜索引擎用户的访问行为特征,即cookie特征和搜索引擎用户访问时的语义特征,即查询特征进行分析,本发明可以实现对搜索引擎用户的有效分类,从而使搜索引擎系统在面对不同用户时,能够实现有针对性的结果呈现方式,并可针对不同类型的用户采用不同的计算方式,节约系统资源。
【附图说明】
图1为本发明实施例中建立IP地址分类模型的方法的流程示意图;
图2为本发明实施例中对用户分类的方法的流程示意图;
图3为本发明实施例中建立查询分类模型的方法的流程示意图;
图4为本发明实施例中训练和使用查询分类模型的示意图;
图5为本发明实施例中建立IP地址分类模型的装置的结构示意框图;
图6为本发明实施例中对用户分类的装置的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明实施例中建立IP地址分类模型的方法的流程示意图。如图1所示,所述方法包括:
步骤101:获取用户搜索日志。
步骤102:统计搜索日志中每个IP地址下的cookie数量。
步骤103:对cookie数量大于或等于设定的第一阈值的IP地址下的cookie和查询抽取特征。
步骤104:利用抽取的特征进行模型训练,以得到包含IP地址与用户类型之间对应关系的IP地址分类模型。
下面具体介绍上述步骤。
在步骤101中,用户搜索日志是一个记录着与用户有关的各种信息的文本,其内容包括用户的IP(Internet Protocol)地址、在该IP地址下的cookie信息、用户的历史行为记录、用户历史行为发生的时间等等信息。cookie获取用户搜索日志是进行后续处理的前提。
在步骤102中,统计搜索日志中每个IP地址下的cookie的数量。
如果某个IP地址下cookie的数量小于设定的第一阈值,则在后续的步骤104中可将该IP确定为家庭用户类别的IP地址。cookie是一个记录了在同一台电脑上发生的各种行为的文件,如果一个IP地址下有多个cookie文件,则说明这个IP地址很可能是网关的IP地址,对应该IP地址下有多台电脑。而作为家庭用户,其IP地址下通常不会有太多数量的电脑,因此可以为每个IP地址下的cookie数量设置一个阈值,同一个IP地址下的cookie数量小于这个阈值时,说明这个IP地址应该是非网关IP地址,因此可以确认为家庭用户类别的IP地址。
在步骤103中,对cookie数量大于或等于设定的第一阈值的IP地址,也就是认为是网关IP的IP地址下的cookie和查询(query)抽取特征,以方便在后续步骤用于训练分类模型。
对cookie抽取的特征包括:周末使用时间与工作日使用时间相对比例、日间使用时间与夜间使用时间的相对比例、直接访问服务器次数与间接访问服务器次数的相对比例。其中,周末使用时间与工作日使用时间相对比例,指的是在cookie上记录的用户在周末访问了搜索服务器的时间与在工作日访问了搜索服务器的时间的相对比例,日间使用时间与夜间使用时间的相对比例指的是白天工作时间(即上班时间)里访问了搜索服务器的时间与除工作时间以外的时间(即下班时间)里访问了搜索服务器的时间的相对比例,直接访问服务器指的是用户是通过主动输入搜索服务器地址的方式访问了搜索服务器,而间接访问服务器指的是用户是通过其他网站跳转的方式访问了搜索服务器。
对查询(query)抽取的特征是通过信息增益的方法得到的。所谓信息增益是指期望信息或者信息熵的有效减少量,根据它能够确定在什么样的层次上选择什么样的变量来分类。由于采用信息增益的方法选取特征是现有技术,在此不再赘述。通过信息增益的方法,可以从查询中抽取出最能体现类别差异的词语,作为后续训练分类模型的特征。
在步骤104中,可以利用步骤103中抽取的各种特征,通过机器学习算法对分类模型进行训练,以得到包含IP地址与用户类型之间对应关系的IP地址分类模型。例如可以采用SVM(support vector machine支持向量机)的方法来训练分类模型。
下面对SVM方法进行简单的介绍。
SVM的分类原理可概括为:寻找一个分类超平面,使得训练样本中的两类样本点能被分开,并且距离该平面尽可能地远;而对线性不可分的问题,通过核函数将低维输入空间的数据映射到高维空间,从而将原低维空间的线性不可分问题转化为高维空间上的线性可分问题。
对于两类问题,给定样本集(xi,yi),xi∈Rd,yi={1,-1},i=1,2,...l,以及核函数K(xi,yj)=(Φ(xi)·Φ(xj)),其中Φ是非线性映射函数。SVM训练出的学习机器为:
f(x)=(w·Φ(x))+b,
其中w是权重,b是偏置。
由于核函数的选取已是SVM领域的公知技术,在此不做赘述。对本发明而言,样本集(xi,yi)中的xi是由IP地址下的各种特征(包括从cookie抽取的特征及从查询抽取的特征)组成的特征向量,yi表示分类中两类中的一类,而由于多类问题都可以转换为两类问题,因此本发明就可以通过SVM的方法训练出IP地址的分类模型。
例如,本发明中将IP地址分为学校类、公司类、小区类、网吧类,由于存在多类,可以先通过一对多的方式将多类变为两类,如学校类与其他类,其中其他类包括公司类、小区类、网吧类,这时yi就分别表示学校类和其他类,接着可以用同样的方式将公司类、小区类、网吧类区分开。
值得注意的是,本发明并不限定训练分类模型的方法,除了可以采用SVM的机器学习方法进行分类以外,本发明还可以用Bayes(贝叶斯)、KNN(k-Nearest Neighbor K-最近邻)等方法都可以得到相应的IP地址分类模型。
请参考图2,图2为本发明实施例中对用户分类的方法的流程示意图。如图2所示,所述方法包括:
步骤201:获取当前用户的IP地址。
步骤202:采用前文所述建立IP地址分类模型的方法建立的IP地址分类模型得到与当前用户的IP地址一致的用户类型作为当前用户的用户类型。
步骤203:当当前用户的IP地址类型为家庭类或小区类时,判断当前用户的cookie是否已识别,如果是,则确定当前用户的细分用户类型为与该cookie对应的用户类型,否则执行识别cookie的步骤。
识别cookie的步骤包括步骤204和步骤205:
步骤204:根据查询分类模型对cookie下的每个会话所处周期内的查询进行分类,以得到查询对应的用户类型作为每个会话对应的用户类型。
步骤205:确定cookie下属于每类用户的会话的比例,当存在大于设定的第二阈值的比例时,将该cookie识别为该比例的会话对应的用户类型,且当前用户的细分用户类型为与该cookie对应的用户类型。
下面对上述步骤进行详细说明。
在步骤201中,获取当前用户的IP地址。当前用户与搜索服务器建立连接后,就可以通过连接中的数据交换获取到当前用户的IP地址。
在步骤202中,将采用前文所述建立IP地址分类模型的方法建立的IP地址分类模型得到当前用户的用户类型。以前文所述的分类模型采用的分类体系包括家庭类、学校类、公司类、小区类和网吧类为例进行说明,当前用户的IP地址被分类模型分到学校类时,当前用户的用户类型就是学生;当前用户的IP地址被分类模型分到公司类时,当前用户的用户类型就是白领;当前用户的IP地址被分类模型分到网吧类时,当前用户的用户类型就是网民;当前用户的IP地址被分类模型分到家庭类或小区类时,当前用户的用户类型是学生或白领。
如果当前用户的IP地址的类型为家庭类或小区类,则本发明的方法可在步骤203中进一步判断当前用户的cookie是否已识别,如果是,则当前用户的细分用户类型为与该cookie对应的用户类型,否则执行后续识别cookie的步骤。以前文所举的分类体系为例,如果当前用户的IP地址的类型为家庭类或小区类,则当前用户的用户类型是学生或白领。这时,学生或白领的其中之一就是细分用户类型。例如cookie被识别为白领用户的cookie,则当前用户的细分用户类型就是白领类的用户。Cookie为已识别cookie的判断标准为:在设定的第三阈值的时间内该cookie对应的用户类型均被识别为同一用户类型。例如,在连续三天的时间里,同一个cookie都被识别为白领用户的cookie,那么就认为这个cookie已经被识别了。识别一个cookie为哪个用户类型的cookie,可以采用后续识别cookie的步骤,即步骤204和205中所说的方法,但是并不限于这种方法。
在步骤204中,将对当前用户的cookie下的每个会话(session)所处周期内的查询进行分类,以得到这些查询对应的用户类型作为每个会话对应的用户类型。对查询进行分类,需要通过查询分类模型进行,该分类模型是包含查询与用户类型之间对应关系的分类模型。
由于cookie是以电脑为单位进行记录的,如果一台机子被若干个用户使用,则该cookie上会记录这若干个用户的使用信息,而不会针对每个用户都产生一个cookie。而会话指的是一个用户与服务器进行交互的一段时间,它是针对一个用户而言的,如果能够得到cookie下所有会话的类型,则可以进一步判断cookie所属的用户类型,从而推理得出这个cookie对应的当前用户的细分用户类型。
会话所处的周期内,一个用户可能会与搜索服务器进行了若干次交互,发出了若干次查询请求,因此,分析一个会话下的查询所属的类别,就能够判断该会话的类型。例如,从查询中分析得知,一个会话下的查询有非常大的可能是白领用户发出的查询请求,那么这个查询所处的会话就会被判断为白领用户类型的会话。
在本发明中,对会话所处周期内的查询进行分析,是通过查询分类模型进行的。该查询分类模型,可以利用线下的历史数据,通过最大熵的思想进行构建。请参考图3,图3为本发明实施例中建立查询分类模型的方法的流程示意图。如图3所示,建立查询分类模型的方法包括:
步骤301:从注册用户搜索日志中挖掘所有线下查询。
注册用户是已知用户类型的用户,从这些用户的搜索日志中挖掘出所有线下查询,可以作为下一步分析的依据。
步骤302:统计每个线下查询被每类用户搜索的比例,并将该比例作为每个线下查询隶属于每类用户的隶属分值。
例如,“美国是否会打伊朗”这个查询,从注册用户搜索日志中,可以统计出白领用户搜索了10000次,而学生用户搜索了5000次,则“美国是否会打伊朗”这个查询隶属于白领用户的隶属分值就是10000/15000,隶属于学生用户的隶属分值就是5000/15000。隶属分值反应了一个已知查询隶属于某个类别的概率分布,可以作为已知事实作为后续模型训练中的约束条件。
步骤303:将每个线下查询进行分词处理得到分词结果,并通过用该分词结果拟合对应的隶属分值对最大熵模型进行训练,得到包含查询与用户类型之间对应关系的查询分类模型。
最大熵的思想,直观地说,就是拟合所有已知事实,保持对未知事件的未知状态。在本发明中,已知事实就是前文所述的隶属分值,用分词结果进行数据拟合的训练过程,就是在满足已知文本(即样本)的类别概率分布的条件下,求出一个文本随机变量的类别概率分布,这个文本随机变量的类别概率分布就可以用来预测一个未知类别的查询的类别了(因为查询本质上也是一个文本)。
请参考图4,图4为本发明实施例中训练和使用查询分类模型的示意图。假设用词代表特征,在模型训练过程阶段,线下查询经过分词后得到特征集,特征集中的文本特征就是所有的分词。通过特征选择算法与评测算法,可以从特征集中发现最能体现分类区别的特征词,这些特征词构成了特征子集,其中评测算法是用来评估选择的特征的质量的。在训练过程中,必须保证满足约束条件,在本发明中,也就是要满足线下查询的类别概率分布。在模型的使用过程阶段,也就是分类过程中,对未知类型的查询,在分词后,可以生成特征子集,该特征子集包含的特征词正是最能体现分类区别的词,通过已经训练好的分类模型,就可以得到分类结果了。
值得注意的是,在步骤303中,除了可以采用最大熵思想来建立模型之外,用其他的分类思想进行数据拟合也是可以的,本发明对此并不做限定。
请继续参考图2。在步骤204中判断了cookie下的每个会话对应的类型后,在步骤205中,就可以根据每个会话对应的类型进一步判断cookie的类型。采用的方法是:确定cookie下属于每类用户的会话的比例,当存在大于设定的第二阈值的比例时,就将该cookie识别为该比例的会话对应的用户类型。例如:cookie下属于白领类型的会话比例为2/3,而属于学生类型的会话比例为1/3,如果设定的阈值为50%,则该cookie就认为是白领类型用户的cookie,因此也认为当前用户就是白领类型的用户。
请参考图5,图5为本发明实施例中建立IP地址分类模型的装置的结构示意框图。如图5所示,所述装置包括:接收单元401、统计单元402、特征抽取单元403和训练单元404。
其中接收单元401,用于获取用户搜索日志。
用户搜索日志是一个记录着与用户有关的各种信息的文本,其内容包括用户的IP(Internet Protocol)地址、在该IP地址下的cookie信息、用户的历史行为记录、用户历史行为发生的时间等等信息。cookie获取用户搜索日志是进行后续处理的前提。
统计单元402,用于统计搜索日志中每个IP地址下的cookie数量。
cookie是一个记录了在同一台电脑上发生的各种行为的文件,如果一个IP地址下有多个cookie文件,则说明这个IP地址很可能是网关的IP地址,对应该IP地址下有多台电脑,而作为家庭用户,其IP地址下通常不会有太多数量的电脑,因此可以为每个IP地址下的cookie数量设置一个阈值,同一个IP地址下的cookie数量小于这个阈值时,说明这个IP地址应该是非网关IP地址,因此可以确认为家庭用户类别的IP地址。
特征抽取单元403,用于对cookie数量大于或等于设定的第一阈值的IP地址下的cookie和查询抽取特征。
对cookie数量大于或等于设定的第一阈值的IP地址,也就是认为是网关IP的IP地址下的cookie和查询(query)抽取特征,以方便在后续步骤用于训练分类模型。
对cookie抽取的特征包括:周末使用时间与工作日使用时间相对比例、日间使用时间与夜间使用时间的相对比例、直接访问服务器次数与间接访问服务器次数的相对比例。其中,周末使用时间与工作日使用时间相对比例,指的是在cookie上记录的用户在周末访问了搜索服务器的时间与在工作日访问了搜索服务器的时间的相对比例,日间使用时间与夜间使用时间的相对比例指的是白天工作时间(即上班时间)里访问了搜索服务器的时间与除工作时间以外的时间(即下班时间)里访问了搜索服务器的时间的相对比例,直接访问服务器指的是用户是通过主动输入搜索服务器地址的方式访问了搜索服务器,而间接访问服务器指的是用户是通过其他网站跳转的方式访问了搜索服务器。
对查询(query)抽取的特征是通过信息增益的方法得到的。所谓信息增益是指期望信息或者信息熵的有效减少量,根据它能够确定在什么样的层次上选择什么样的变量来分类。由于采用信息增益的方法选取特征是现有技术,在此不再赘述。通过信息增益的方法,可以从查询中抽取出最能体现类别差异的词语,作为后续训练分类模型的特征。
训练单元404,用于利用抽取的特征进行模型训练,以得到包含IP地址与用户类型之间对应关系的IP地址分类模型。另外,根据统计单元402的统计结果,将cookie的数量小于设定的第一阈值的IP地址确定为家庭用户类别的IP地址。
利用特征抽取单元403抽取的各种特征,通过机器学习算法对分类模型进行训练,就可以得到包含IP地址与用户类型之间对应关系的IP地址分类模型。例如可以采用SVM(support vector machine支持向量机)的方法来训练分类模型。
下面对SVM方法进行简单的介绍。
SVM的分类原理可概括为:寻找一个分类超平面,使得训练样本中的两类样本点能被分开,并且距离该平面尽可能地远;而对线性不可分的问题,通过核函数将低维输入空间的数据映射到高维空间,从而将原低维空间的线性不可分问题转化为高维空间上的线性可分问题。
对于两类问题,给定样本集(xi,yi),xi∈Rd,yi={1,-1},i=1,2,...l,以及核函数K(xi,yj)=(Φ(xi)·Φ(xj)),其中Φ是非线性映射函数。SVM训练出的学习机器为:
f(x)=(w·Φ(x))+b,
其中w是权重,b是偏置。
由于核函数的选取已是SVM领域的公知技术,在此不做赘述。对本发明而言,样本集(xi,yi)中的xi是由IP地址下的各种特征(包括从cookie抽取的特征及从查询抽取的特征)组成的特征向量,yi表示分类中两类中的一类,而由于多类问题都可以转换为两类问题,因此本发明就可以通过SVM的方法训练出IP地址的分类模型。例如,本发明中将IP地址分为学校类、公司类、小区类、网吧类,由于存在多类,可以先通过一对多的方式将多类变为两类,如学校类与其他类,其中其他类包括公司类、小区类、网吧类,这时yi就分别表示学校类和其他类,接着可以用同样的方式将公司类、小区类、网吧类区分开。
值得注意的是,本发明并不限定训练分类模型的方法,除了可以采用SVM的机器学习方法进行分类以外,本发明还可以用Bayes(贝叶斯)、KNN(k-Nearest Neighbor K-最近邻)等方法都可以得到相应的IP地址分类模型。
请参考图6,图6为本发明实施例中对用户分类的装置的结构示意框图。如图6所示,所述装置包括:检测单元501、分类单元502、判断单元503、cookie识别单元504和查询分类模型生成单元505。
其中检测单元501,用于获取当前用户的IP地址。当前用户与搜索服务器建立连接后,就可以通过连接中的数据交换获取到当前用户的IP地址。
分类单元502,用于采用前文所述建立IP地址分类模型的装置建立的IP地址分类模型得到与当前用户的IP地址一致的用户类型作为当前用户的用户类型。
以前文所述的分类模型采用的分类体系包括家庭类、学校类、公司类、小区类和网吧类为例进行说明,当前用户的IP地址被分类模型分到学校类时,当前用户的用户类型就是学生;当前用户的IP地址被分类模型分到公司类时,当前用户的用户类型就是白领;当前用户的IP地址被分类模型分到网吧类时,当前用户的用户类型就是网民;当前用户的IP地址被分类模型分到家庭类或小区类时,当前用户的用户类型是学生或白领。
判断单元503,用于当当前用户的IP地址类型为家庭类或小区类时,判断当前用户的cookie是否已识别,如果是,则确定当前用户的细分用户类型为与该cookie对应的用户类型,否则触发cookie识别单元504。
以前文所举的分类体系为例,如果当前用户的IP地址的类型为家庭类或小区类,则当前用户的用户类型是学生或白领。这时,学生或白领的其中之一就是细分用户类型。例如cookie被识别为白领用户的cookie,则当前用户的细分用户类型就是白领类的用户。Cookie为已识别cookie的判断标准为:在设定的第三阈值的时间内该cookie对应的用户类型均被识别为同一用户类型。例如,在连续三天的时间里,同一个cookie都被识别为白领用户的cookie,那么就认为这个cookie已经被识别了。
cookie识别单元504,用于识别当前用户的cookie对应的用户类型,并将该用户类型作为当前用户的细分用户类型。cookie识别单元504包括查询分类子单元5041和识别子单元5042。
查询分类子单元5041,用于根据查询分类模型对当前用户的cookie下的每个会话所处周期内的查询进行分类,以得到这些查询对应的用户类型作为每个会话对应的用户类型。对查询进行分类,需要通过一个查询分类模型进行,该分类模型是包含查询与用户类型之间对应关系的分类模型。
由于cookie是以电脑为单位进行记录的,如果一台机子被若干个用户使用,则该cookie上会记录这若干个用户的使用信息,而不会针对每个用户都产生一个cookie。而会话指的是一个用户与服务器进行交互的一段时间,它是针对一个用户而言的,如果能够得到cookie下所有会话的类型,则可以进一步判断cookie所属的用户类型,从而推理得出这个cookie对应的当前用户的细分用户类型。
会话所处的周期内,一个用户可能会与搜索服务器进行了若干次交互,发出了若干次查询请求,因此,分析一个会话下的查询所属的类别,就能够判断该会话的类型。例如,从查询中分析得知,一个会话下的查询有非常大的可能是白领用户发出的查询请求,那么这个查询所处的会话就会被判断为白领用户类型的会话。
在本发明中,对会话所处周期内的查询进行分析,是通过一个查询分类模型进行的。该查询分类模型,是通过查询分类模型生成单元505的处理得到的。
查询分类模型生成单元505,用于通过利用注册用户搜索日志中的数据进行模型训练,以得到查询分类模型。查询分类模型生成单元505包括:挖掘子单元5051、统计子单元5052、训练子单元5053。
其中挖掘子单元5051,用于从注册用户搜索日志中挖掘所有线下查询。注册用户是已知用户类型的用户,从这些用户的搜索日志中挖掘出所有线下查询,可以作为下一步分析的依据。
统计子单元5052,用于统计每个线下查询被每类用户搜索的比例,并将该比例作为每个线下查询隶属于每类用户的隶属分值。例如,“美国是否会打伊朗”这个查询,从注册用户搜索日志中,可以统计出白领用户搜索了10000次,而学生用户搜索了5000次,则“美国是否会打伊朗”这个查询隶属于白领用户的隶属分值就是10000/15000,隶属于学生用户的隶属分值就是5000/15000。隶属分值反应了一个已知查询隶属于某个类别的概率分布,可以作为已知事实作为后续模型训练中的约束条件。
训练子单元5053,用于将每个线下查询进行分词处理得到分词结果,并通过用该分词结果拟合对应的隶属分值对最大熵模型进行训练,得到包含查询与用户类型之间对应关系的查询分类模型。
最大熵的思想,直观地说,就是拟合所有已知事实,保持对未知事件的未知状态。在本发明中,已知事实就是前文所述的隶属分值,用分词结果进行数据拟合的训练过程,就是在满足已知文本(即样本)的类别概率分布的条件下,求出一个文本随机变量的类别概率分布,这个文本随机变量的类别概率分布就可以用来预测一个未知类别的查询的类别了(因为查询本质上也是一个文本)。
请参考图4,图4为本发明实施例中训练和使用分类模型的示意图。假设用词代表特征,在模型训练过程阶段,线下查询经过分词后得到特征集,特征集中的文本特征就是所有的分词。通过特征选择算法与评测算法,可以从特征集中发现最能体现分类区别的特征词,这些特征词构成了特征子集,其中评测算法是用来评估选择的特征的质量的。在训练过程中,必须保证满足约束条件,在本发明中,也就是要满足线下查询的类别概率分布。在模型的使用过程阶段,也就是分类过程中,对未知类型的查询,在分词后,可以生成特征子集,该特征子集包含的特征词正是最能体现分类区别的词,通过已经训练好的分类模型,就可以得到分类结果了。
请继续参考图6。
识别子单元5042,用于确定cookie下属于每类用户的会话的比例,当存在大于设定的第二阈值的比例时,将该cookie识别为该比例的会话对应的用户类型,且当前用户的细分用户类型为与该cookie对应的用户类型。
例如:cookie下属于白领类型的会话比例为2/3,而属于学生类型的会话比例为1/3,如果设定的阈值为50%,则该cookie就认为是白领类型用户的cookie,因此也认为当前用户就是白领类型的用户。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种建立IP地址分类模型的方法,其特征在于,所述方法包括:
A.获取用户搜索日志;
B.统计所述搜索日志中每个IP地址下的cookie数量;
C.对cookie数量大于或等于设定的第一阈值的IP地址下的cookie和查询抽取特征;
D.利用抽取的特征进行模型训练,以得到包含IP地址与用户类型之间对应关系的IP地址分类模型。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:将cookie数量小于设定的第一阈值的IP地址确定为家庭用户类别的IP地址。
3.根据权利要求1所述的方法,其特征在于,所述步骤C中,对cookie抽取的特征包括周末使用时间与工作日使用时间相对比例、日间使用时间与夜间使用时间的相对比例、或直接访问服务器次数与间接访问服务器次数的相对比例。
4.根据权利要求1所述的方法,其特征在于,所述步骤C中,对查询抽取的特征是通过信息增益的方法得到的。
5.一种对用户分类的方法,其特征在于,所述方法包括:
a.获取当前用户的IP地址;
b.采用权利要求1至4中任一权项所述方法建立的IP地址分类模型,得到与所述当前用户的IP地址一致的用户类型作为所述当前用户的用户类型。
6.根据权利要求5所述的方法,其特征在于,所述方法进一步包括:
c.当所述当前用户的IP地址的类型为家庭类或小区类时,判断所述当前用户的cookie是否已识别,如果是,则确定所述当前用户的细分用户类型为与所述cookie对应的用户类型,否则执行识别cookie的步骤;
所述识别cookie的步骤包括:
d.根据查询分类模型对所述cookie下的每个会话所处周期内的查询进行分类,以得到所述查询对应的用户类型作为每个会话对应的用户类型,其中所述查询分类模型是包含查询与用户类型之间对应关系的分类模型;
e.确定所述cookie下属于每类用户的会话的比例,当存在大于设定的第二阈值的比例时,将所述cookie对应的用户类型识别为该比例的会话对应的用户类型,且所述当前用户的细分用户类型为与所述cookie对应的用户类型。
7.根据权利要求6所述的方法,其特征在于,所述步骤c中,当在设定的第三阈值的时间内,所述cookie对应的用户类型均被识别为同一用户类型时,判断所述cookie为已识别。
8.根据权利要求6所述的方法,其特征在于,所述查询分类模型是通过下列方式获得的:
从注册用户搜索日志中挖掘所有线下查询;
统计每个线下查询被每类用户搜索的比例,并将所述比例作为每个线下查询隶属于每类用户的隶属分值;
将每个线下查询进行分词处理得到分词结果,并通过用所述分词结果拟合对应的隶属分值对最大熵模型进行训练,得到包含查询与用户类型之间对应关系的查询分类模型。
9.一种建立IP地址分类模型的装置,其特征在于,所述装置包括:
接收单元,用于获取用户搜索日志;
统计单元,用于统计所述搜索日志中每个IP地址下的cookie数量;
特征抽取单元,用于对cookie数量大于或等于设定的第一阈值的IP地址下的cookie和查询抽取特征;
训练单元,用于利用抽取的特征进行模型训练,以得到包含IP地址与用户类型之间对应关系的分类模型。
10.根据权利要求9所述的装置,其特征在于,所述训练单元还用于将cookie数量小于设定的第一阈值的IP地址确定为家庭用户类别的IP地址。
11.根据权利要求9所述的装置,其特征在于,所述特征抽取单元对cookie抽取的特征包括周末使用时间与工作日使用时间相对比例、日间使用时间与夜间使用时间的相对比例、或直接访问服务器次数与间接访问服务器次数的相对比例。
12.根据权利要求9所述的装置,其特征在于,所述特征抽取单元对查询抽取的特征是通过信息增益的方法得到的。
13.一种对用户分类的装置,其特征在于,所述装置包括:
检测单元,用于获取当前用户的IP地址;
分类单元,用于采用权利要求9至12中任一权项所述装置建立的IP地址分类模型得到与所述当前用户的IP地址一致的用户类型作为所述当前用户的用户类型。
14.根据权利要求13所述的装置,其特征在于,所述装置进一步包括:
判断单元,用于当所述当前用户的IP地址的类型为家庭类或小区类时,判断所述当前用户的cookie是否已识别,如果是,则确定所述当前用户的细分用户类型为与所述cookie对应的用户类型,否则触发cookie识别单元;
所述cookie识别单元具体包括:
查询分类子单元,用于受到所述判断单元的触发后,根据查询分类模型对所述cookie下的每个会话所处周期内的查询进行分类,以得到所述查询对应的用户类型作为每个会话对应的用户类型,其中所述查询分类模型是包含查询与用户类型之间对应关系的分类模型;
识别子单元,用于确定所述cookie下属于每类用户的会话的比例,当存在大于设定的第二阈值的比例时,将所述cookie对应的用户类型识别为该比例的会话对应的用户类型,且所述当前用户的细分用户类型为与所述cookie对应的用户类型。
15.根据权利要求14所述的装置,其特征在于,当在设定的第三阈值的时间内,所述cookie对应的用户类型均被识别为同一用户类型时,所述判断单元判断所述cookie为已识别。
16.根据权利要求14所述的装置,其特征在于,所述装置进一步包括查询分类模型生成单元;所述查询分类模型生成单元具体包括:
挖掘子单元,用于从注册用户搜索日志中挖掘所有线下查询;
统计子单元,用于统计每个线下查询被每类用户搜索的比例,并将所述比例作为每个线下查询隶属于每类用户的隶属分值;
训练子单元,用于将每个线下查询进行分词处理得到分词结果,并通过用所述分词结果拟合对应的隶属分值对最大熵模型进行训练,得到包含查询与用户类型之间对应关系的所述查询分类模型。
CN201110232269.9A 2011-08-15 2011-08-15 建立ip地址分类模型的方法、对用户分类的方法及装置 Active CN102937951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110232269.9A CN102937951B (zh) 2011-08-15 2011-08-15 建立ip地址分类模型的方法、对用户分类的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110232269.9A CN102937951B (zh) 2011-08-15 2011-08-15 建立ip地址分类模型的方法、对用户分类的方法及装置

Publications (2)

Publication Number Publication Date
CN102937951A CN102937951A (zh) 2013-02-20
CN102937951B true CN102937951B (zh) 2016-11-02

Family

ID=47696849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110232269.9A Active CN102937951B (zh) 2011-08-15 2011-08-15 建立ip地址分类模型的方法、对用户分类的方法及装置

Country Status (1)

Country Link
CN (1) CN102937951B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103812961B (zh) * 2013-11-01 2016-08-17 北京奇虎科技有限公司 识别指定类别ip地址的方法及设备、防御方法及系统
CN104639520B (zh) * 2013-11-15 2019-01-25 中国电信股份有限公司 上网地址类型自动控制方法、系统和radius服务器
CN104935445B (zh) * 2014-03-17 2019-09-27 腾讯科技(深圳)有限公司 获取上网环境信息的方法及装置
CN104217030B (zh) * 2014-09-28 2018-12-11 北京奇虎科技有限公司 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN104217031B (zh) * 2014-09-28 2019-08-02 北京奇虎科技有限公司 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN104361092A (zh) * 2014-11-18 2015-02-18 百度在线网络技术(北京)有限公司 搜索方法及装置
CN104750674B (zh) * 2015-02-17 2018-12-21 北京京东尚科信息技术有限公司 一种人机会话满意度预测方法及系统
CN106603734B (zh) * 2015-10-16 2019-08-02 任子行网络技术股份有限公司 Cdn服务ip检测方法和系统
CN106682926A (zh) * 2015-11-06 2017-05-17 北京奇虎科技有限公司 搜索广告的投放方法及装置
CN108062679A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 确定用户价值的方法及装置
CN107563429B (zh) * 2017-07-27 2020-11-10 国家计算机网络与信息安全管理中心 一种网络用户群体的分类方法及装置
CN110392122B (zh) * 2018-04-16 2021-12-07 腾讯大地通途(北京)科技有限公司 地址类型的确定方法和装置、存储介质、电子装置
CN110677309B (zh) * 2018-07-03 2021-12-14 百度在线网络技术(北京)有限公司 人群聚类方法及系统、终端以及计算机可读存储介质
CN111046307B (zh) * 2018-10-15 2023-05-30 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
US11218443B2 (en) 2019-07-25 2022-01-04 Coupang Corp. Dynamic IP address categorization systems and methods
CN111327721B (zh) * 2020-02-28 2023-01-10 加和(北京)信息科技有限公司 Ip地址定位方法及装置、存储介质及电子装置
CN112559479A (zh) * 2020-12-23 2021-03-26 北京明朝万达科技股份有限公司 日志数据处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040220914A1 (en) * 2003-05-02 2004-11-04 Dominic Cheung Content performance assessment optimization for search listings in wide area network searches
US20050071328A1 (en) * 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search
CN101055587A (zh) * 2007-05-25 2007-10-17 清华大学 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和系统
CN102135983A (zh) * 2011-01-17 2011-07-27 北京邮电大学 基于网络用户行为的群体划分方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040220914A1 (en) * 2003-05-02 2004-11-04 Dominic Cheung Content performance assessment optimization for search listings in wide area network searches
US20050071328A1 (en) * 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search
CN101055587A (zh) * 2007-05-25 2007-10-17 清华大学 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和系统
CN102135983A (zh) * 2011-01-17 2011-07-27 北京邮电大学 基于网络用户行为的群体划分方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于大规模日志分析的搜索引擎用户行为分析;余慧佳等;《中文信息学报(2007年)》;20070131;第21卷(第1期);109-114 *

Also Published As

Publication number Publication date
CN102937951A (zh) 2013-02-20

Similar Documents

Publication Publication Date Title
CN102937951B (zh) 建立ip地址分类模型的方法、对用户分类的方法及装置
CN110956547B (zh) 一种基于搜索引擎的实时识别欺诈团伙的方法及系统
CN106156127B (zh) 选择数据内容向终端推送的方法及装置
CN104462385B (zh) 一种基于用户兴趣模型的电影个性化相似度计算方法
CN109389180A (zh) 一款基于深度学习的电力设备图像识别方法及巡查机器人
CN106778876A (zh) 基于移动用户轨迹相似性的用户分类方法和系统
CN107767153B (zh) 一种数据处理方法及装置
CN103838754B (zh) 信息搜索装置及方法
CN103458042A (zh) 一种微博广告用户检测方法
Taghiyarrenani et al. Transfer learning based intrusion detection
CN106603734A (zh) Cdn服务ip检测方法和系统
CN103218431A (zh) 一种能识别网页信息自动采集的系统与方法
CN104040963A (zh) 用于使用字符串的频谱进行垃圾邮件检测的系统和方法
CN106528777A (zh) 跨屏用户标识归一的方法及其系统
CN107483451B (zh) 基于串并行结构网络安全数据处理方法及系统、社交网络
Zhong et al. Multiple-aspect attentional graph neural networks for online social network user localization
CN103778206A (zh) 一种网络服务资源的提供方法
CN108319672A (zh) 基于云计算的移动终端不良信息过滤方法及系统
CN108023868A (zh) 恶意资源地址检测方法和装置
CN105809573A (zh) 一种基于大数据分析的用电性质认证方法
CN105159898B (zh) 一种搜索的方法和装置
CN103684896A (zh) 基于域名解析特征的网站作弊检测方法
CN107958070B (zh) 一种基于用户偏好的个性化消息推送方法
CN110472057A (zh) 话题标签的生成方法及装置
CN111612531B (zh) 一种点击欺诈的检测方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant