CN107579834A - 一种家庭账号识别方法及装置 - Google Patents
一种家庭账号识别方法及装置 Download PDFInfo
- Publication number
- CN107579834A CN107579834A CN201710655303.0A CN201710655303A CN107579834A CN 107579834 A CN107579834 A CN 107579834A CN 201710655303 A CN201710655303 A CN 201710655303A CN 107579834 A CN107579834 A CN 107579834A
- Authority
- CN
- China
- Prior art keywords
- user account
- message
- setting
- dpi
- account
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供了一种家庭账号识别方法,涉及信息处理技术领域,该方法包括:根据第一设定时长内的各个DPI日志,确定通过设定应用发出报文的用户账号;所述DPI日志中包括与报文对应应用和应用的用户账号相关的应用信息;对于确定的用户账号中对应同一网络账号的各个用户账号,将所述各个用户账号中符合家庭聚类条件的用户账号确定为同一家庭的用户账号。本发明实施例根据分析报文应用层的DPI日志可以识别出属于同一家庭的用户账号,能够避免建筑环境等客观条件的限制,大大提高了识别家庭成员账号的准确性,且无需依赖第三方应用。
Description
技术领域
本发明涉及信息处理技术领域,特别是涉及一种家庭账号识别方法及装置。
背景技术
随着网络服务需求的不断增长,网络运营商逐渐开始提供针对不同用户群体的个性化服务,比如网络运营商可以针对不同的家庭提供不同流量的套餐等等。而在实际应用中,对同一家庭成员的用户账号进行识别,是网络运营商为不同的家庭提供个性化的服务的前提。
目前,根据家庭进行用户账号识别的方式主要有以下三种:在第一种方式中,运营服务器可以通过对不同用户账号的上网位置进行定位,从而将上网位置处于同一设定小范围内的用户账号确定为来自同一家庭的用户。在第二种方式中,运营服务器可以将使用同一IP(Internet Protocol,网络协议)地址的用户账号确定为来自同一家庭的用户。在第三种方式中,用户可以在第三方应用中手动添加同一家庭的用户账号,当第三方应用授权运营服务器获取数据时,运营服务器可以通过第三方应用获取来自同一家庭的用户账号。
发明人在应用上述技术的过程中发现,对于第一种方式,由于建筑环境复杂,且楼层分辨存在较大难度,因此运营服务器无法准确定位用户的上网位置,从而降低了识别家庭成员的准确率。对于第二种方式,由于IP地址在使用时随机分配,因此通过IP地址识别家庭成员的准确率较低。对于第三种方式,当第三方应用不对运营服务器进行授权时,运营服务器便无法确定哪些用户来自同一家庭,因此第三种方式对第三方应用具有较强的依赖性。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种家庭账号识别方法及装置。
根据本发明的第一方面,提供了一种家庭账号识别方法,所述方法包括:
根据第一设定时长内的各个DPI(Deep Packet Inspection,深度包检测)日志,确定通过设定应用发出报文的用户账号;所述DPI日志中包括与报文对应应用和应用的用户账号相关的应用信息;
对于确定的用户账号中对应同一网络账号的各个用户账号,将所述各个用户账号中符合家庭聚类条件的用户账号确定为同一家庭的用户账号。
可选地,所述对于确定的用户账号中对应同一网络账号的各个用户账号,将所述各个用户账号中符合家庭聚类条件的用户账号确定为同一家庭的用户账号,包括:
对于确定的用户账号中对应同一网络账号的各个用户账号,确定所述各个用户账号的出现次数和出现天数;
对于每个用户账号,根据所述用户账号的出现次数和出现天数,确定所述用户账号的权重;
将所述各个用户账号中权重大于设定权重阈值,或者权重最大的设定个数的用户账号确定为同一家庭的用户账号。
可选地,所述根据第一设定时长内的各个DPI日志,确定通过设定应用发出报文的用户账号,包括:
对于第一设定时长内的每个DPI日志,从所述DPI日志中提取报文的URL(UniformResoure Locator,统一资源定位器)和cookie(用户数据);
根据所述报文的URL,通过设定的匹配规则确定所述报文对应的应用;
当所述报文对应的应用为设定应用时,从所述报文的cookie中提取发出所述报文的用户账号。
可选地,所述根据所述报文的URL,通过设定的匹配规则确定所述报文对应的应用,包括:
利用至少一个已知应用的关键字符串对所述报文的URL进行匹配;
对于所述至少一个已知应用中的任一已知应用,当所述报文的URL包含所述已知应用的关键字符串时,将所述已知应用确定为所述报文对应的应用。
可选地,所述根据第一设定时长内的各个DPI日志,确定通过设定应用发出报文的用户账号,包括:
对于第二设定时长内的每个DPI日志,从所述DPI日志中提取通过设定应用发出报文的用户账号,并生成包括提取的用户账号的提取文件;
当经过的多个第二设定时长累计达到第一设定时长时,从所述第一设定时长内的多个提取文件中提取通过所述设定应用发出报文的用户账号。
根据本发明的第二方面,提供了一种家庭账号识别装置,所述装置包括:
第一确定模块,用于根据第一设定时长内的各个DPI日志,确定通过设定应用发出报文的用户账号;所述DPI日志中包括与报文对应应用和应用的用户账号相关的应用信息;
第二确定模块,用于对于确定的用户账号中对应同一网络账号的各个用户账号,将所述各个用户账号中符合家庭聚类条件的用户账号确定为同一家庭的用户账号。
可选地,所述第二确定模块包括:
第一确定子模块,用于对于确定的用户账号中对应同一网络账号的各个用户账号,确定所述各个用户账号的出现次数和出现天数;
第二确定子模块,用于对于每个用户账号,根据所述用户账号的出现次数和出现天数,确定所述用户账号的权重;
第三确定子模块,用于将所述各个用户账号中权重大于设定权重阈值,或者权重最大的设定个数的用户账号确定为同一家庭的用户账号。
可选地,所述第一确定模块包括:
第一提取子模块,用于对于第一设定时长内的每个DPI日志,从所述DPI日志中提取报文的统一资源定位器URL和用户数据cookie;
第四确定子模块,用于根据所述报文的URL,通过设定的匹配规则确定所述报文对应的应用;
第二提取子模块,用于当所述报文对应的应用为设定应用时,从所述报文的cookie中提取发出所述报文的用户账号。
可选地,所述第四确定子模块包括:
匹配单元,用于利用至少一个已知应用的关键字符串对所述报文的URL进行匹配;
确定单元,用于对于所述至少一个已知应用中的任一已知应用,当所述报文的URL包含所述已知应用的关键字符串时,将所述已知应用确定为所述报文对应的应用。
可选地,所述第一确定模块包括:
第三提取子模块,用于对于第二设定时长内的每个DPI日志,从所述DPI日志中提取通过设定应用发出报文的用户账号,并生成包括提取的用户账号的提取文件;
第四提取子模块,用于当经过的多个第二设定时长累计达到第一设定时长时,从所述第一设定时长内的多个提取文件中提取通过所述设定应用发出报文的用户账号。
本发明实施例包括以下优点:DPI服务器可以对报文进行应用层的分析得到DPI日志,并根据DPI日志确定报文对应的应用以及发出报文的用户账号,进而可以将同一网络账号下符合家庭聚类条件的各个用户账号确定为同一家庭的用户账号。本发明实施例根据分析报文应用层的DPI日志可以识别出属于同一家庭的用户账号,能够避免建筑环境等客观条件的限制,大大提高了识别家庭成员账号的准确性,且无需依赖第三方应用。
附图说明
图1是本发明实施例提供的一种家庭账号识别方法的流程图;
图2是本发明实施例提供的另一种家庭账号识别方法的流程图;
图3A是本发明实施例提供的一种家庭账号识别装置的框图;
图3B是本发明实施例提供的一种第二确定模块的框图;
图3C是本发明实施例提供的一种第一确定模块的框图;
图3D是本发明实施例提供的一种第四确定子模块的框图;
图3E是本发明实施例提供的另一种第一确定模块的框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
在对本发明实施例进行详细说明之前,先对本发明实施例中涉及的DPI技术进行介绍。普通的报文检测过程仅分析报文四层以下的内容,包括源地址、目的地址、源端口、目的端口和协议类型,而DPI检测过程在此基础上,增加了对报文应用层的分析,从而DPI服务器可以识别出各种应用和应用内容。因此,运营商的DPI服务器在接收到各终端发送的报文之后,可以对每个报文进行DPI检测,进而DPI服务器可以利用检测得到的应用层信息,识别出属于同一家庭的用户账号。
实施例一
参照图1,示出了一种家庭账号识别方法的流程图,该方法具体可以包括如下步骤:
步骤101:根据第一设定时长内的各个DPI日志,确定通过设定应用发出报文的用户账号;DPI日志中包括与报文对应应用和应用的用户账号相关的应用信息。
步骤102:对于确定的用户账号中对应同一网络账号的各个用户账号,将各个用户账号中符合家庭聚类条件的用户账号确定为同一家庭的用户账号。
可选地,对于确定的用户账号中对应同一网络账号的各个用户账号,将各个用户账号中符合家庭聚类条件的用户账号确定为同一家庭的用户账号,包括:
对于确定的用户账号中对应同一网络账号的各个用户账号,确定各个用户账号的出现次数和出现天数;
对于每个用户账号,根据用户账号的出现次数和出现天数,确定用户账号的权重;
将各个用户账号中权重大于设定权重阈值,或者权重最大的设定个数的用户账号确定为同一家庭的用户账号。
可选地,根据第一设定时长内的各个DPI日志,确定通过设定应用发出报文的用户账号,包括:
对于第一设定时长内的每个DPI日志,从DPI日志中提取报文的统一资源定位器URL和用户数据cookie;
根据报文的URL,通过设定的匹配规则确定报文对应的应用;
当报文对应的应用为设定应用时,从报文的cookie中提取发出报文的用户账号。
可选地,根据报文的URL,通过设定的匹配规则确定报文对应的应用,包括:
利用至少一个已知应用的关键字符串对报文的URL进行匹配;
对于至少一个已知应用中的任一已知应用,当报文的URL包含已知应用的关键字符串时,将已知应用确定为报文对应的应用。
可选地,根据第一设定时长内的各个DPI日志,确定通过设定应用发出报文的用户账号,包括:
对于第二设定时长内的每个DPI日志,从DPI日志中提取通过设定应用发出报文的用户账号,并生成包括提取的用户账号的提取文件;
当经过的多个第二设定时长累计达到第一设定时长时,从第一设定时长内的多个提取文件中提取通过设定应用发出报文的用户账号。
本发明实施例包括以下优点:DPI服务器可以对报文进行应用层的分析得到DPI日志,并根据DPI日志确定报文对应的应用以及发出报文的用户账号,进而可以将同一网络账号下符合家庭聚类条件的各个用户账号确定为同一家庭的用户账号。本发明实施例根据分析报文应用层的DPI日志可以识别出属于同一家庭的用户账号,能够避免建筑环境等客观条件的限制,大大提高了识别家庭成员账号的准确性,且无需依赖第三方应用。
实施例二
参照图2,示出了另一种家庭账号识别方法的流程图,该方法具体可以包括如下步骤:
步骤201:对于第一设定时长内的每个DPI日志,从DPI日志中提取报文的URL和cookie。
DPI服务器在接收到各终端发送的报文之后,可以对每个报文进行DPI检测,进而可以生成DPI日志,以便记录报文的DPI检测结果。DPI日志中可以包括与报文对应应用和应用的用户账号相关的应用信息,比如包括应用的特定主域名的URL,或者应用的用户账号相关的cookie等应用信息,这些信息均可以被DPI服务器记录于DPI日志中。
报文在应用层进行封装后可以包括多个字段,其中,各个字段下可以封装报文的各种信息,比如在URL字段下可以封装报文的URL,在cookie字段下可以封装报文的cookie等等,报文的每个字段在报文中的位置可以根据通信协议,报文类型等信息确定。比如,HTTP(Hyper Text Transfer Protocol,超文本传输协议)请求报文包括请求行、请求头部和请求正文三个部分,HTTP请求报文中的URL字段可以位于请求报文的请求行,HTTP请求报文中的cookie字段可以位于请求报文的请求头部。DPI服务器可以从应用层封装报文的URL字段中提取报文的URL,以及从应用层封装报文的cookie字段中提取报文的cookie,进而将报文的URL和cookie记录在DPI日志中。
在进行家庭账号识别时,DPI服务器可以从内存中读取第一设定时长内的每个DPI日志,并从每个DPI日志中提取报文的URL和cookie,其中,URL可以用于确定报文对应的应用,cookie可以用于确定通过该应用发出报文的用户账号。
比如,第一设定时长可以为30天,对于30天内的某个DPI日志,DPI服务器可以从该DPI日志中提取出报文的URL为“http://v.qq.com/g9csp7p.html?vid=g08pao”,以及提取出报文的cookie:QQ账号AAA、QQ签名“天气真好”、地理位置“北京”、上一条浏览视频名称“中华上下五千年”。
步骤202:根据报文的URL,通过设定的匹配规则确定报文对应的应用。
其中,本步骤的实现方式具体可以包括:利用至少一个已知应用的关键字符串对报文的URL进行匹配;对于至少一个已知应用中的任一已知应用,当报文的URL包含该已知应用的关键字符串时,将该已知应用确定为报文对应的应用。
在上述实现方式中,设定的匹配规则可以为DPI服务器的管理人员设置的至少一个正则表达式,每个正则表达式中可以包括一个已知应用的关键字符串,也即是表示该已知应用的字符串,比如表示QQ应用的关键字符串可以为“qq.com”,表示百度旗下应用的关键字符串可以为“baidu.com”等等。由于每个应用的关键字符串均不相同,从而DPI服务器可以通过设定的正则表达式,对报文的URL进行字符串匹配,从而确定报文所对应的应用。
比如,报文的URL可以为“http://v.qq.com/g9csp7p.html?vid=g08pao”,至少一个已知应用可以为QQ应用,QQ应用的关键字符串可以为“qq.com”,从而DPI服务器通过字符串匹配,可以确定该报文的URL“http://v.qq.com/g9csp7p.html?vid=g08pao”中包含QQ应用的关键字符串“qq.com”,进而可以确定该报文所对应的应用为QQ应用。
步骤203:当报文对应的应用为设定应用时,从报文的cookie中提取发出报文的用户账号。
当报文对应的应用为设定应用时,DPI服务器可以从报文的cookie中搜索发送报文的用户账号的关键字,进而从该关键字对应的数据中提取发出报文的用户账号。
例如,设定应用可以为QQ应用,当该报文对应的应用为QQ应用时,DPI服务器可以从该报文的cookie中搜索发送报文的用户账号的关键字“o_cookie”,进而从关键字“o_cookie”对应的数据中提取发出报文的QQ账号为AAA。
另外,通过设定应用发送的报文可以包括仅涉及发送报文的用户账号的第一类报文,比如用户账号的心跳报文、用户操作报文等等,当然,还可以包括既涉及发送报文的用户账号,又涉及其他用户账号的第二类报文,比如一个用户账号发送给其他用户账号的文字消息报文、语音消息报文等等,由于这两类报文均涉及发送报文的用户账号,且第一类报文的比例也相当大,因此,DPI服务器可以只从报文的cookie中提取发出报文的用户账号,从而避免遗漏用户账号相关的任何一类报文。
通常,一个用户一般会在不同应用中注册不同的用户账号,比如在QQ中注册QQ账号,在新浪应用中注册新浪账号等等,从而一个用户会同时拥有多个用户账号,而在绝大多数情况下,一个用户在一个应用中通常只注册一个用户账号,因此,在实际应用中,基于上述情况,DPI服务器的管理人员可以设定一个应用,从而DPI服务器可以仅对该设定应用的用户账号进行提取,如此,可以大大提高识别家庭成员的准确性。
再者,当已知应用为多个时,DPI服务器可以随机从多个已知应用中选择一个作为设定应用,或者可以是管理人员结合不同应用的普及率、不同应用的分析难度等信息,将多个已知应用中的某个应用设置为设定应用。当然,在实际应用中,当已知应用为一个时,DPI服务器还可以直接将该应用作为设定应用,从而当报文对应的应用为设定应用时,DPI服务器可以从报文的cookie中提取发出报文的用户账号。
至此,DPI服务器根据第一设定时长内的各个DPI日志,可以确定出通过设定应用发出报文的用户账号,进而可以根据确定出的用户账号进行家庭成员的识别。
另外,DPI服务器可以根据第一设定时长内的各个DPI日志,确定通过设定应用发出报文的用户账号,但是在实际应用中,由于DPI日志所记录的内容不仅限于报文的URL和cookie等应用层的信息,还可以包括源地址、目的地址、源端口、目的端口和协议类型等其他层的信息,因此,若第一设定时长设定的较长,比如30天、40天等等,则DPI服务器需要将较长时间内的大量DPI日志全部保存下来,如此,将会浪费DPI服务器的内存空间。基于上述情况,DPI服务器还可以通过下述方式确定通过设定应用发出报文的用户账号,包括:
对于第二设定时长内的每个DPI日志,从DPI日志中提取通过设定应用发出报文的用户账号,并生成包括提取的用户账号的提取文件;当经过的多个第二设定时长累计达到第一设定时长时,从第一设定时长内的多个提取文件中提取通过设定应用发出报文的用户账号。
其中,DPI服务器的管理人员可以将第二设定时长设置为比第一设定时长小的时长,比如,可以将第一设定时长设置为30天,将第二设定时长设置为1天,从而DPI服务器可以从较短时段内的各DPI日志中提取用户账号、网络账号等信息,并生成提取文件,以记录提取结果,然后当多个较短时段累计至一个较长时段时,DPI服务器可以根据每个较短时段的提取文件,确定较长时段内通过设定应用发出报文的用户账号。由于进行家庭账号识别所需的数据已经从DPI日志中提取出来,因此,DPI日志可以进行定期删除,从而可以避免大量DPI日志占用DPI服务器过多的存储空间。
步骤204:对于提取的用户账号中对应同一网络账号的各个用户账号,确定该各个用户账号的出现次数和出现天数。
其中,DPI服务器可以对提取的用户账号中对应同一网络账号的各个用户账号进行去重操作,并在去重的同时统计去重账号的出现次数,以及去重账号的出现天数,也即每个用户账号的初始出现次数可以为1,该用户账号去重一次则出现次数加1,每个用户账号的初始出现天数为可以0,出现不同的报文发送日期则出现天数加1。
需要说明的是,网络账号也即网络接入ID(Identification,身份证明),网络账号可以为ADSL账号(Asymmetric Digital Subscriber Line,非对称数字用户线路)、宽带账号等等。通常,一个家庭会注册一个网络账号,该家庭中的每个家庭成员都可以通过该网络账号上网,因此,可以认为不同的网络账号下的用户账号来自于不同的家庭,由此,DPI服务器在比较各用户账号的出现情况时,需要针对使用同一网络账号发送报文的用户账号。
例如,提取的QQ账号可以为AAA、BBB、CCC、DDD、EEE、FFF、GGG……,其中,QQ账号AAA、BBB和CCC均对应于同一网络账号123456,对QQ账号分别为AAA、BBB和CCC的报文进行去重操作后,DPI服务器可以确定QQ账号AAA的出现次数为28750,出现天数为25,QQ账号BBB的出现次数为39550,出现天数为27,以及QQ账号CCC的出现次数为15700,出现天数为4。
步骤205:对于每个用户账号,根据用户账号的出现次数和出现天数,确定用户账号的权重。
在实际应用中,由于使用同一网络账号上网的用户可能是同一家庭的家庭成员,也可能是该家庭的访客,比如用户AAA和用户BBB是一家人,用户CCC是访客,而对于访客来说,一般通过该家庭的网络账号上网的频率会比较低,但是,也可能出现访客在到访的时段内极为频繁地使用设定应用的情况,然而,即使出现上述情况,该访客通过该家庭的网络账号上网的天数也不会过多。因此,为了提高确定家庭账号的准确率,不仅需要考虑用户账号的出现次数,同时也要考虑用户账号的出现天数,DPI服务器可以根据用户账号的出现次数和出现天数,确定用户账号的权重。
具体地,对于每个用户账号,DPI服务器可以根据该用户账号的出现次数和出现天数,通过下述公式(1)确定该用户账号的权重;
其中,W为该用户账号的权重,Ft为该用户账号的出现次数,Fa为同一网络账号的各个用户账号的出现总次数,WF为出现次数权重,Dt为该用户账号的出现天数,Da为第一设定时长对应的总天数,WD为出现天数权重。
需要说明的是,出现次数权重和出现天数权重可以事先设定,比如出现次数权重可以设定为0.4,出现天数权重可以设定为0.6,另外,由于第一设定时长已经事先设定,因此第一设定时长对应的总天数也可以事先设定。
例如,出现次数权重WF可以设定为0.4,出现天数权重WD可以设定为0.6,第一设定时长对应的总天数Da可以事先设定为30天,对应同一网络账号123456的QQ账号AAA、BBB和CCC的出现总次数可以为84000,DPI服务器可以根据QQ账号AAA的出现次数28750和出现天数25,通过下述公式(2)确定QQ账号AAA的权重为0.637,根据QQ账号BBB的出现次数39550和出现天数27,通过下述公式(2)确定QQ账号BBB的权重为0.728,以及根据QQ账号CCC的出现次数15700和出现天数4,通过下述公式(2)确定QQ账号CCC的权重为0.155。
需要说明的是,本发明实施例仅以上述公式(1)或公式(2)作为确定用户账号权重的一种实现方式,上述公式(1)和公式(2)并不对本发明构成限定。
步骤206:将各个用户账号中权重大于设定权重阈值,或者权重最大的设定个数的用户账号确定为同一家庭的用户账号。
其中,DPI服务器的管理人员可以事先设定过滤用户账号的权重阈值,从而DPI服务器可以根据设定权重阈值来筛选出同一家庭的用户账号,或者,DPI服务器的管理人员可以事先设定过滤用户账号的个数,从而DPI服务器可以根据设定个数来筛选出同一家庭的用户账号,也即是筛选出符合家庭聚类条件的用户账号。
例如,设定权重阈值可以为0.350,对于对应同一网络账号123456的QQ账号AAA、BBB和CCC,DPI服务器可以将QQ账号AAA、BBB和CCC中权重大于设定权重阈值0.350的QQ账号AAA和BBB,确定为同一家庭的用户账号,或者,设定个数可以为2,DPI服务器可以将QQ账号AAA、BBB和CCC中权重最大的前两个QQ账号AAA和BBB,确定为同一家庭的用户账号。
DPI服务器确定出同一家庭的用户账号之后,可以将该家庭的用户账号与网络账号对应,从而运营商可以根据每个家庭的用户账号,确定该家庭的家庭成员人数,进而可以对该家庭的人员组成进一步进行分析,并通过网络账号为该家庭推送适合的个性化业务,比如流量套餐、电话办理业务等等。
需要说明的是,在本发明实施例中,属于同一家庭的家庭成员不仅限于具有血缘关系的家庭成员,考虑到推荐个性化网络业务的需求,在实际应用中,同一家庭的家庭成员也可以为同一住所的常住住户。
本发明实施例包括以下优点:DPI服务器可以对报文进行应用层的分析得到DPI日志,并根据DPI日志确定报文对应的应用以及发出报文的用户账号,进而可以将同一网络账号下符合家庭聚类条件的各个用户账号确定为同一家庭的用户账号。本发明实施例根据分析报文应用层的DPI日志可以识别出属于同一家庭的用户账号,能够避免建筑环境等客观条件的限制,大大提高了识别家庭成员账号的准确性,且无需依赖第三方应用。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例三
参照图3A,示出了一种家庭账号识别装置300的框图,该装置具体可以包括:
第一确定模块301,用于根据第一设定时长内的各个DPI日志,确定通过设定应用发出报文的用户账号;DPI日志中包括与报文对应应用和应用的用户账号相关的应用信息;
第二确定模块302,用于对于确定的用户账号中对应同一网络账号的各个用户账号,将各个用户账号中符合家庭聚类条件的用户账号确定为同一家庭的用户账号。
可选地,参照图3B,第二确定模块302包括:
第一确定子模块3021,用于对于确定的用户账号中对应同一网络账号的各个用户账号,确定各个用户账号的出现次数和出现天数;
第二确定子模块3022,用于对于每个用户账号,根据用户账号的出现次数和出现天数,确定用户账号的权重;
第三确定子模块3023,用于将各个用户账号中权重大于设定权重阈值,或者权重最大的设定个数的用户账号确定为同一家庭的用户账号。
可选地,参照图3C,第一确定模块301包括:
第一提取子模块3011,用于对于第一设定时长内的每个DPI日志,从DPI日志中提取报文的统一资源定位器URL和用户数据cookie;
第四确定子模块3012,用于根据报文的URL,通过设定的匹配规则确定报文对应的应用;
第二提取子模块3013,用于当报文对应的应用为设定应用时,从报文的cookie中提取发出报文的用户账号。
可选地,参照图3D,第四确定子模块3012包括:
匹配单元30121,用于利用至少一个已知应用的关键字符串对所述报文的URL进行匹配;
确定单元30122,用于对于所述至少一个已知应用中的任一已知应用,当所述报文的URL包含所述已知应用的关键字符串时,将所述已知应用确定为所述报文对应的应用。
可选地,参照图3E,第一确定模块301包括:
第三提取子模块3014,用于对于第二设定时长内的每个DPI日志,从DPI日志中提取通过设定应用发出报文的用户账号,并生成包括提取的用户账号的提取文件;
第四提取子模块3015,用于当经过的多个第二设定时长累计达到第一设定时长时,从第一设定时长内的多个提取文件中提取通过设定应用发出报文的用户账号。
本发明实施例包括以下优点:DPI服务器可以对报文进行应用层的分析得到DPI日志,并根据DPI日志确定报文对应的应用以及发出报文的用户账号,进而可以将同一网络账号下符合家庭聚类条件的各个用户账号确定为同一家庭的用户账号。本发明实施例根据分析报文应用层的DPI日志可以识别出属于同一家庭的用户账号,能够避免建筑环境等客观条件的限制,大大提高了识别家庭成员账号的准确性,且无需依赖第三方应用。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media),如调制的数据信号和载波。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种家庭账号识别方法和一种家庭账号识别装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种家庭账号识别方法,应用于深度包检测DPI服务器,其特征在于,所述方法包括:
根据第一设定时长内的各个DPI日志,确定通过设定应用发出报文的用户账号;所述DPI日志中包括与报文对应应用和应用的用户账号相关的应用信息;
对于确定的用户账号中对应同一网络账号的各个用户账号,将所述各个用户账号中符合家庭聚类条件的用户账号确定为同一家庭的用户账号。
2.根据权利要求1所述的方法,其特征在于,所述对于确定的用户账号中对应同一网络账号的各个用户账号,将所述各个用户账号中符合家庭聚类条件的用户账号确定为同一家庭的用户账号,包括:
对于确定的用户账号中对应同一网络账号的各个用户账号,确定所述各个用户账号的出现次数和出现天数;
对于每个用户账号,根据所述用户账号的出现次数和出现天数,确定所述用户账号的权重;
将所述各个用户账号中权重大于设定权重阈值,或者权重最大的设定个数的用户账号确定为同一家庭的用户账号。
3.根据权利要求1所述的方法,其特征在于,所述根据第一设定时长内的各个DPI日志,确定通过设定应用发出报文的用户账号,包括:
对于第一设定时长内的每个DPI日志,从所述DPI日志中提取报文的统一资源定位器URL和用户数据cookie;
根据所述报文的URL,通过设定的匹配规则确定所述报文对应的应用;
当所述报文对应的应用为设定应用时,从所述报文的cookie中提取发出所述报文的用户账号。
4.根据权利要求3所述的方法,其特征在于,所述根据所述报文的URL,通过设定的匹配规则确定所述报文对应的应用,包括:
利用至少一个已知应用的关键字符串对所述报文的URL进行匹配;
对于所述至少一个已知应用中的任一已知应用,当所述报文的URL包含所述已知应用的关键字符串时,将所述已知应用确定为所述报文对应的应用。
5.根据权利要求1所述的方法,其特征在于,所述根据第一设定时长内的各个DPI日志,确定通过设定应用发出报文的用户账号,包括:
对于第二设定时长内的每个DPI日志,从所述DPI日志中提取通过设定应用发出报文的用户账号,并生成包括提取的用户账号的提取文件;
当经过的多个第二设定时长累计达到第一设定时长时,从所述第一设定时长内的多个提取文件中提取通过所述设定应用发出报文的用户账号。
6.一种家庭账号识别装置,其特征在于,所述装置包括:
第一确定模块,用于根据第一设定时长内的各个DPI日志,确定通过设定应用发出报文的用户账号;所述DPI日志中包括与报文对应应用和应用的用户账号相关的应用信息;
第二确定模块,用于对于确定的用户账号中对应同一网络账号的各个用户账号,将所述各个用户账号中符合家庭聚类条件的用户账号确定为同一家庭的用户账号。
7.根据权利要求6所述的装置,其特征在于,所述第二确定模块包括:
第一确定子模块,用于对于确定的用户账号中对应同一网络账号的各个用户账号,确定所述各个用户账号的出现次数和出现天数;
第二确定子模块,用于对于每个用户账号,根据所述用户账号的出现次数和出现天数,确定所述用户账号的权重;
第三确定子模块,用于将所述各个用户账号中权重大于设定权重阈值,或者权重最大的设定个数的用户账号确定为同一家庭的用户账号。
8.根据权利要求6所述的装置,其特征在于,所述第一确定模块包括:
第一提取子模块,用于对于第一设定时长内的每个DPI日志,从所述DPI日志中提取报文的统一资源定位器URL和用户数据cookie;
第四确定子模块,用于根据所述报文的URL,通过设定的匹配规则确定所述报文对应的应用;
第二提取子模块,用于当所述报文对应的应用为设定应用时,从所述报文的cookie中提取发出所述报文的用户账号。
9.根据权利要求8所述的装置,其特征在于,所述第四确定子模块包括:
匹配单元,用于利用至少一个已知应用的关键字符串对所述报文的URL进行匹配;
确定单元,用于对于所述至少一个已知应用中的任一已知应用,当所述报文的URL包含所述已知应用的关键字符串时,将所述已知应用确定为所述报文对应的应用。
10.根据权利要求6所述的装置,其特征在于,所述第一确定模块包括:
第三提取子模块,用于对于第二设定时长内的每个DPI日志,从所述DPI日志中提取通过设定应用发出报文的用户账号,并生成包括提取的用户账号的提取文件;
第四提取子模块,用于当经过的多个第二设定时长累计达到第一设定时长时,从所述第一设定时长内的多个提取文件中提取通过所述设定应用发出报文的用户账号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710655303.0A CN107579834A (zh) | 2017-08-02 | 2017-08-02 | 一种家庭账号识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710655303.0A CN107579834A (zh) | 2017-08-02 | 2017-08-02 | 一种家庭账号识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107579834A true CN107579834A (zh) | 2018-01-12 |
Family
ID=61034221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710655303.0A Pending CN107579834A (zh) | 2017-08-02 | 2017-08-02 | 一种家庭账号识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107579834A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108462615A (zh) * | 2018-02-05 | 2018-08-28 | 百川通联(北京)网络技术有限公司 | 一种网络用户分组方法和装置 |
CN111988161A (zh) * | 2019-05-24 | 2020-11-24 | 中国电信股份有限公司 | 识别用户更新宽带网络的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102541886A (zh) * | 2010-12-20 | 2012-07-04 | 郝敬涛 | 一种识别用户群和用户之间关系的系统和方法 |
CN105450678A (zh) * | 2014-07-09 | 2016-03-30 | 阿里巴巴集团控股有限公司 | 一种信息确认方法及装置 |
CN106452816A (zh) * | 2015-08-11 | 2017-02-22 | 腾讯科技(北京)有限公司 | 一种信息处理方法、服务器及客户端 |
CN106549914A (zh) * | 2015-09-18 | 2017-03-29 | 北京秒针信息咨询有限公司 | 一种独立访问者的识别方法及装置 |
-
2017
- 2017-08-02 CN CN201710655303.0A patent/CN107579834A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102541886A (zh) * | 2010-12-20 | 2012-07-04 | 郝敬涛 | 一种识别用户群和用户之间关系的系统和方法 |
CN105450678A (zh) * | 2014-07-09 | 2016-03-30 | 阿里巴巴集团控股有限公司 | 一种信息确认方法及装置 |
CN106452816A (zh) * | 2015-08-11 | 2017-02-22 | 腾讯科技(北京)有限公司 | 一种信息处理方法、服务器及客户端 |
CN106549914A (zh) * | 2015-09-18 | 2017-03-29 | 北京秒针信息咨询有限公司 | 一种独立访问者的识别方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108462615A (zh) * | 2018-02-05 | 2018-08-28 | 百川通联(北京)网络技术有限公司 | 一种网络用户分组方法和装置 |
CN111988161A (zh) * | 2019-05-24 | 2020-11-24 | 中国电信股份有限公司 | 识别用户更新宽带网络的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103368917B (zh) | 一种网络虚拟用户的风险控制方法及系统 | |
CN109936512B (zh) | 流量分析方法、公共服务流量归属方法及相应的计算机系统 | |
CN106168971A (zh) | 信息订阅方法及装置 | |
US8843463B2 (en) | Providing content by using a social network | |
KR20190014098A (ko) | 일치하는 컨텐츠를 식별하는 시스템 및 방법 | |
US20160350675A1 (en) | Systems and methods to identify objectionable content | |
US10984452B2 (en) | User/group servicing based on deep network analysis | |
CN102546668B (zh) | 一种独立访问者的统计方法、装置及系统 | |
WO2011060377A1 (en) | Method and apparatus for real time identification and recording of artifacts | |
US20130066814A1 (en) | System and Method for Automated Classification of Web pages and Domains | |
CN103338260B (zh) | 网络审计中url日志的分布式分析系统及分析方法 | |
CN109104456A (zh) | 一种基于浏览器指纹的用户追踪与传播统计分析方法 | |
CN108462615A (zh) | 一种网络用户分组方法和装置 | |
CN106789242A (zh) | 一种基于手机客户端软件动态特征库的识别应用智能分析引擎 | |
CN106534164A (zh) | 计算机中基于网络空间用户标识的有效虚拟身份刻画方法 | |
CN106650760A (zh) | 基于流量分析识别用户行为对象的方法和装置 | |
CN114422211B (zh) | 基于图注意力网络的http恶意流量检测方法及装置 | |
CN105528352B (zh) | 建立移动通信用户与其网络账户信息的对应关系的方法 | |
CN107579834A (zh) | 一种家庭账号识别方法及装置 | |
CN105119764B (zh) | 用于流量监控的方法和装置 | |
US10902345B2 (en) | Predicting user posting behavior in social media applications | |
Lee et al. | High performance payload signature-based Internet traffic classification system | |
CN108011936A (zh) | 用于推送信息的方法和装置 | |
Gu et al. | A novel attack to track users based on the behavior patterns | |
US9430495B2 (en) | Identifying entries in a location store associated with a common physical location |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180112 |