CN107301192A - 一种终端识别方法和识别服务器 - Google Patents
一种终端识别方法和识别服务器 Download PDFInfo
- Publication number
- CN107301192A CN107301192A CN201610240811.8A CN201610240811A CN107301192A CN 107301192 A CN107301192 A CN 107301192A CN 201610240811 A CN201610240811 A CN 201610240811A CN 107301192 A CN107301192 A CN 107301192A
- Authority
- CN
- China
- Prior art keywords
- attribute
- tac
- tac codes
- codes
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种终端识别方法,包括:获取现网中的超文本传输协议HTTP访问日志,所述HTTP访问日志包括跟踪区域码TAC和用户代理UA信息;根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词;当所述HTTP访问日志的UA信息中存在所述关键词时,确定所述关键词为所述HTTP访问日志对应的终端类型标识。进一步的,本发明实施例还公开了一种识别服务器。
Description
技术领域
本发明涉及通信领域的设备识别技术,尤其涉及一种终端识别方法和识别服务器。
背景技术
随着蜂窝通信技术的发展,用户友好型移动终端类型越来越多,能够应用于移动终端的应用也越来越多,移动终端已经成为人们生活不可或缺的一部分。
由于移动终端的广泛应用,使得通信网络中进行传输的网页数据较多,但是不同的移动终端能够接收和处理的网页类型可能不同,使用不同移动终端的用户的使用习惯也不同,例如,有些使用诺基亚的用户喜欢浏览美食类网页,有些使用三星的用户喜欢浏览体育网页,还有些使用苹果的用户喜欢浏览娱乐网页。运营商为了精准的为使用不同类型移动终端的用户提供不同的服务,需要根据用户的浏览历史识别移动终端的类型。具体的,识别服务器可以从海量的超文本传输协议(Hyper Text Transfer Protocol,HTTP)请求报头的跟踪区域(Tracking area code,TAC)码中检索不同网页对应的移动终端类型。为了实现从UA信息中检索移动终端类型,标准组织制定了两种规范,一种是万维网联合会制定的CC/PP标准,另一种是利用开放移动联盟制定的CC/PP词典。根据这两种规范设置的移动终端的格式,可以被识别服务器识别。
但是,基于CC/PP标准规范检索移动终端信息的方法需要限定HTTP中携带移动终端类型的字节位置以及移动终端类型的书写方式,由于市场多样性,很多移动终端并不遵循CC/PP标准规范,使得终端识别的准确率较低。
发明内容
为解决上述技术问题,本发明实施例期望提供一种终端识别方法和识别服务器,能够提高终端识别的准确率。
本发明的技术方案是这样实现的:
一方面,本发明实施例提供一种终端识别方法,包括:
获取现网中的超文本传输协议HTTP访问日志,所述HTTP访问日志包括跟踪区域码TAC和用户代理UA信息;
根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词;
当所述HTTP访问日志的UA信息中存在所述关键词时,确定所述关键词为所述HTTP访问日志对应的终端类型标识。
可选的,在所述获取现网中的HTTP访问日志之前,所述方法包括:
从现网中采集多条HTTP访问日志,每条HTTP访问日志包括TAC码和UA信息,每个UA信息包括多个UA元素;
根据每条HTTP访问日志的TAC码和UA信息中UA元素,组成第一属性对集合,所述第一属性对集合包括多个属性对,每个属性对包括一个TAC码和与所述TAC码对应的UA信息中的一个UA元素;
根据所述第一属性对集合,获取每个TAC码的关键词,并建立TAC码和关键词的对应关系,TAC码的关键词为所述TAC码对应的UA信息中的一个UA元素。
可选的,所述根据所述第一属性对集合,获取每个TAC码的关键词包括:
计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的杰卡德Jacard系数;
选择每个TAC码对应的Jacard系数最大的属性对包括的UA元素作为对应TAC码的关键词。
可选的,在所述计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数之前,所述方法还包括:
根据预设词典,筛除所述第一属性对集合中与终端类型无关的UA元素对应的属性对,获取第二属性对集合;
所述计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数包括:
计算所述第二属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数。
可选的,在所述计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数之前,所述方法还包括:
计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的相关系数;
按照所述相关系数的由大到小,排列每个TAC码对应的属性对;
选择排列后每个TAC码对应的前预设数量个属性对组成第三属性对集合;
所述计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数包括:
计算所述第三属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数。
另一方面,本发明实施例提供一种识别服务器,包括:
第一获取单元,用于获取现网中的超文本传输协议HTTP访问日志,所述HTTP访问日志包括跟踪区域码TAC和用户代理UA信息;
第一确定单元,用于根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词;
第二确定单元,用于当所述HTTP访问日志的UA信息中存在所述关键词时,确定所述关键词为所述HTTP访问日志对应的终端类型标识。
可选的,所述服务器包括:
采集单元,用于从现网中采集多条HTTP访问日志,每条HTTP访问日志包括TAC码和UA信息,每个UA信息包括多个UA元素;
组成单元,用于根据每条HTTP访问日志的TAC码和UA信息中UA元素,组成第一属性对集合,所述第一属性对集合包括多个属性对,每个属性对包括一个TAC码和与所述TAC码对应的UA信息中的一个UA元素;
第二获取单元,用于根据所述第一属性对集合,获取每个TAC码的关键词,并建立TAC码和关键词的对应关系,TAC码的关键词为所述TAC码对应的UA信息中的一个UA元素。
可选的,所述第二获取单元具体用于:
计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的杰卡德Jacard系数;
选择每个TAC码对应的Jacard系数最大的属性对包括的UA元素作为对应TAC码的关键词。
可选的,所述服务器还包括:
筛选单元,用于根据预设词典,筛除所述第一属性对集合中与终端类型无关的UA元素对应的属性对,获取第二属性对集合;
所述第二获取单元具体用于:
计算所述第二属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数。
可选的,所述服务器还包括:
计算单元,用于计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的相关系数;
排列单元,用于按照所述相关系数的由大到小,排列每个TAC码对应的属性对;
选择单元,用于选择排列后每个TAC码对应的前预设数量个属性对组成第三属性对集合;
所述第二获取单元具体用于:
计算所述第三属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数。
本发明实施例提供了一种终端识别方法和识别服务器,所述终端识别方法包括:获取现网中的超文本传输协议HTTP访问日志,所述HTTP访问日志包括跟踪区域码TAC和用户代理UA信息;根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词;当所述HTTP访问日志的UA信息中存在所述关键词时,确定所述关键词为所述HTTP访问日志对应的终端类型标识。相较于现有技术,可以预先建立TAC码和关键词的对应关系,然后根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词,即使有的终端未按照标准使用TAC码,也能够根据TAC码的关键词确定HTTP访问日志对应的终端类型,提高了终端识别的准确率。
附图说明
图1为本发明实施例提供的一种终端识别方法的流程示意图1;
图2为本发明实施例提供的一种终端识别方法的流程示意图2;
图3为本发明实施例提供的一种HTTP访问日志的格式示意图;
图4为本发明实施例提供的一种识别服务器的结构示意图1;
图5为本发明实施例提供的一种识别服务器的结构示意图2;
图6为本发明实施例提供的一种识别服务器的结构示意图3;
图7为本发明实施例提供的一种识别服务器的结构示意图4。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例一
本发明实施例提供一种终端识别方法,应用于识别服务器,如图1所示,包括:
步骤101、获取现网中的超文本传输协议HTTP访问日志,所述HTTP访问日志包括跟踪区域码TAC和用户代理UA信息。
示例的,终端访问网络时,会产生很多HTTP访问日志,每条HTTP访问日志包括TAC码和用户代理(user agent,UA)信息,其中UA信息作为确定终端的协议字段,包含了关于浏览器标识,终端类型标识,操作系统标识及其他硬件软件信息的配置详情。所述终端可以是手机,POS机,平板电脑等能够浏览网页的设备,本发明实施例对此不做限定。
步骤102、根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词。
示例的,可以预先建立TAC码和关键词的对应关系,所述TAC码和关键词的对应关系反应了统计得出的现网中与每个TAC码最相关的关键词,由于每条HTTP访问日志中至少包括TAC码和终端类型标识,因此TAC码和关键词的对应关系表现了每个TAC码和与其最相关的终端类型标识之间的对应关系。当识别服务器从现网中随机采集一条HTTP访问日志后,可以首先获取该HTTP访问日志的TAC码,然后查询TAC码和关键词的对应关系,确定该TAC码对应的关键词。
步骤103、当所述HTTP访问日志的UA信息中存在所述关键词时,确定所述关键词为所述HTTP访问日志对应的终端类型标识。
实际应用中,一些厂商可能采用其他终端的TAC码作为自己产品的TAC码,这样就会导致同样的TAC码对应两个终端类型的情况,即根据TAC码和关键词的对应关系,确定出的TAC码对应的关键词不一定指示了该HTTP访问日志的终端类型,因此可以首先确定HTTP访问日志的UA信息中是否存在所述关键词,当HTTP访问日志的UA信息中存在所述关键词时,说明该HTTP访问日志的终端类型即为关键词指示的终端类型;当HTTP访问日志的UA信息中不存在所述关键词时,说明该HTTP访问日志的终端类型可能不是关键词指示的终端类型。
这样一来,可以预先建立TAC码和关键词的对应关系,然后根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词,即使有的终端未按照标准使用TAC码,也能够根据TAC码的关键词确定HTTP访问日志对应的终端类型,提高了终端识别的准确率。
进一步的,在所述获取现网中的HTTP访问日志之前,可以首先从现网中采集多条HTTP访问日志,每条HTTP访问日志包括TAC码和UA信息,每个UA信息包括多个UA元素,然后根据每条HTTP访问日志的TAC码和UA信息中UA元素,组成第一属性对集合,所述第一属性对集合包括多个属性对,每个属性对包括一个TAC码和与所述TAC码对应的UA信息中的一个UA元素;进而根据所述第一属性对集合,获取每个TAC码的关键词,并建立TAC码和关键词的对应关系,TAC码的关键词为所述TAC码对应的UA信息中的一个UA元素。
示例的,按照惯例,多个UA元素会按照其辨识应用的重要性的顺序来排列,而且各UA元素之间按照一些保留格式进行字符断词。因此,我们可以采用基于规则的启发式关键词提取方法来实现UA元素的提取,例如根据预设字符截取UA信息中的UA元素。在获取到多个TAC码以及每个TAC码对应的UA信息中的UA元素后,按照一个TAC码一个UA元素的格式组成属性对,假设识别服务器共获取到三条HTTP访问日志,第一条HTTP访问日志的TAC码为第一TAC码,UA信息中包括4个UA元素;第二条HTTP访问日志的TAC码为第二TAC码,UA信息中包括5个UA元素;第三条HTTP访问日志的TAC码为第三TAC码,UA信息中包括3个UA元素,第一条HTTP访问日志对应四个属性对,所述四个属性对为第一TAC码分别与4个UA元素组成的,第二条HTTP访问日志对应五个属性对,所述五个属性对为第二TAC码分别与5个UA元素组成的,第三条HTTP访问日志对应三个属性对,所述三个属性对为第三TAC码分别与3个UA元素组成的。此时第一属性对集合中共有4+5+3=12个属性对。
可选的,在根据所述第一属性对集合,获取每个TAC码的关键词时,可以首先计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的杰卡德Jacard系数,然后选择每个TAC码对应的Jacard系数最大的属性对包括的UA元素作为对应TAC码的关键词。
示例的,所述Jaccard系数又称为Jaccard相似性系数,用来比较样本集中的相似性和分散性的概率,等于样本集交集与样本集合集的比值,即J=|A∩B|/|A∪B|。当TAC码和UA元素完全无关时,其Jacard系数为最低值0,当两者是完全相同的概念时,其Jacard系数为最高值1。因此当TAC码和UA元素相关性越高,则Jacard系数会越高,并逼近于1。当选择每个TAC码对应的Jacard系数最大的属性对包括的UA元素作为对应TAC码的关键词时,说明该关键词是与该TAC码最相关的UA元素,该TAC码对应的每条HTTP访问日志的UA信息中可能都会出现该关键词,因此该关键词最可能是TAC码对应的每条HTTP访问日志的UA信息中的终端类型标识。
进一步的,在所述计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数之前,还可以根据预设词典,筛除所述第一属性对集合中与终端类型无关的UA元素对应的属性对,获取第二属性对集合,然后计算所述第二属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数。
示例的,由于识别服务器可能在现网中获取到海量的HTTP访问日志,因此第一属性对集合包括的属性对数量非常庞大,如果计算第一属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数,会造成非常大的计算量,因此可以预先进行筛选。可选的,由于UA信息中还可能出现一些与终端类型无关的UA元素,例如浏览器标识,终端操作系统标识,或者一些随机数字等,因此可以设置预设词典,所述预设词典中预先存储一些与终端类型无关的词汇。当获取到第一属性对集合后,可以首先根据预设词典,筛除所述第一属性对集合中与终端类型无关的UA元素对应的属性对,获取第二属性对集合,减少属性对的数量,然后计算第二属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数,由于属性对数量的减少,使得计算Jacard系数时的计算量减小,节约了计算资源。
进一步的,在所述计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数之前,还可以计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的相关系数,按照所述相关系数的由大到小,排列每个TAC码对应的属性对,然后选择排列后每个TAC码对应的前预设数量个属性对组成第三属性对集合,并计算所述第三属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数。
示例的,还可以通过计算相关系数的方法减小属性对的数量。具体的,可以预先计算第一属性对集合中每个属性对包括的TAC码和UA元素的相关系数,然后按照相关系数的由大到小选取每个TAC码前预设数量的属性对组成第三属性对集合,然后计算第三属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数,由于属性对数量的减少,使得计算Jacard系数时的计算量减小,节约了计算资源。
本发明实施例提供了一种终端识别方法,包括:获取现网中的超文本传输协议HTTP访问日志,所述HTTP访问日志包括跟踪区域码TAC和用户代理UA信息;根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词;当所述HTTP访问日志的UA信息中存在所述关键词时,确定所述关键词为所述HTTP访问日志对应的终端类型标识。相较于现有技术,可以预先建立TAC码和关键词的对应关系,然后根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词,即使有的终端未按照标准使用TAC码,也能够根据TAC码的关键词确定HTTP访问日志对应的终端类型,提高了终端识别的准确率。
实施例二
本发明实施例提供一种终端识别方法,应用于识别服务器,如图2所示,所述终端识别方法包括:
步骤201、获取每条HTTP访问日志包括的TAC码和UA信息。
示例的,终端访问网络时,会产生很多HTTP访问日志,每条HTTP访问日志包括TAC码和UA信息,其中UA信息作为确定终端的协议字段,包含了关于浏览器标识,终端类型标识,操作系统标识及其他硬件软件信息的配置详情。具体的,如图3所示,国际移动设备标识(International Mobile Equipment Identity,IMEI)的前八位为TAC码,所述TAC码可以反映终端类型;Browser表示浏览器标识;Model表示移动终端类型标识;Operating System表示终端的操作系统标识;UI Platform表示用户界面平台。由上述内容可知,HTTP访问日志中TAC码和Model都可以反映终端类型。如果按照TAC码识别终端类型,要求每个终端都要按照规范生成对应的TAC码,由于市场的多样化,很多终端厂家都不遵循国际规范,往往是选择任意的八位数作为TAC码,或者直接采用其他终端的TAC码作为本厂产品的TAC码,导致实际应用中终端类型识别不准确。如果根据Model识别终端类型,由于每条HTTP访问日志包括的内容较多,且Model出现的位置都不一样,因此很难进行定位识别。
步骤202、根据所述每条HTTP访问日志包括的TAC码和UA信息,获取第一属性对集合。
示例的,根据标准的宽泛指南,记录在HTTP请求中的UA信息是带有UA元素的产品标记列表。按照惯例,多个UA元素会按照其辨识应用的重要性的顺序来排列,而且各UA元素之间按照一些保留格式进行字符断词。因此,我们可以采用基于规则的启发式关键词提取方法来实现UA元素的提取。假设HTTP访问日志为“3557040223817613Nokia5320/UCWEB8.1.104/28/999”,该条HTTP访问日志包括的UA信息中各UA元素之间采用分隔符“/”隔开,因此可以按照分隔符“/”提取UA信息中的UA元素,该UA信息包括的UA元素为“Nokia5320”,“UCWEB8.1.104”,“28”,“999”。由该条HTTP访问日志的IMEI的前八位可知TAC码为“35570402”。根据TAC码“35570402”和四个UA元素“Nokia5320”,“UCWEB8.1.104”,“28”,“999”可以组成四个属性对,分别为<35570402,Nokia5320>,<35570402,UCWEB8.1.104>,<35570402,28>,<35570402,999>。对于获取到的每一条HTTP访问日志均按照上述方法进行处理,即可得到第一属性对集合。
步骤203、通过预设词典,筛除所述第一属性对集合中与终端类型无关的UA元素对应的属性对,获取第二属性对集合。
示例的,在海量网络数据环境中持续变化的应用和不可预测的行为可以产生丰富的UA信息,每条UA信息包括多个UA元素,并不是每个UA元素都与终端类型密切相关,其中有一些UA元素可能仅是一些网页数据,或者随机产生的数字,因此可以将与终端类型完全不相关的UA元素对应的属性对筛除。具体的,可以设置预设词典,所述预设词典包括与终端类型完全不相关的词汇,例如数字,无意义的代码,各个操作系统的名称等词汇。实际应用中,所述预设词典可以是初始化时根据经验设置的,也可以在应用的过程中根据具体情况添加或修改。根据该预设词典,可以将第一属性对集合中与终端类型完全不相关的UA元素对应的属性对筛除,得到第二属性对集合,减小了获取终端类型对应的关键词的计算量,进而节约了计算资源,节省了处理时间。
步骤204、计算第二属性对集合包括的每个属性对中TAC码和UA元素的相关系数。
示例的,假设第二属性对集合包括M个属性对,所述M个属性对包括的TAC码为P个,UA元素为Q个,则第二属性对集合的全域R可以表示为:
R={<r1(t),r1(k)>,…,<ri(t),ri(k)>,…,<rp(t),rp(k)>};
其中,所述r1(t)至rp(t)表示第二属性对集合包括的P个TAC码,分别采用t1至tp表示,r1(k)表示TAC码t1对应的多个UA元素组成的向量;ri(k)表示TAC码ti对应的多个UA元素组成的向量;同样的,rp(k)表示TAC码tp对应的多个UA元素组成的向量;所述i大于或等于1小于或等于p。TAC码ti对应的属性对可以表示为<ti,kj>;所述j大于或等于1,小于或等于Q。较佳的,可以采用概率方法来衡量关键词和设备类型之间的相关性。例如,以属性对<ti,kj>为例,可以将条件概率P(kj|ti)定义为kj和ti之间的相关系数,根据公式(1)计算P(kj|ti):
所述公式(1)为:
其中,可以根据公式(2)计算P(ti,kj),所述公式(2)为 根据公式(3)所述P(ti),所述公式(3)为
根据上述公式,可以依次计算出每个TAC码和与其对应的UA元素的相关系数。
步骤205、按照相关系数的由大到小,排列所述第二属性对集合中每个TAC码对应的属性对的顺序。
示例的,依次计算出TAC码t1和与其对应的多个UA元素之间的相关系数;TAC码t2和与其对应的多个UA元素之间的相关系数;直到计算出TAC码tp和与其对应的多个UA元素之间的相关系数。然后按照相关系数的由大到小,依次排列每个TAC码对应的属性对的顺序。例如,按照相关系数的由大到小,排列TAC码t1对应的属性对的顺序;按照相关系数的由大到小,排列TAC码t2对应的属性对的顺序;同样的,按照相关系数的由大到小,排列TAC码tp对应的属性对的顺序。
步骤206、获取排列后第二属性对集合中每个TAC码对应的前预设数量的属性对组成第三属性对集合。
示例的,若TAC码与某一个UA元素之间的相关系数较小,说明该UA元素可能不是UA信息表示终端类型的可选元素,可以将该UA元素和该TAC码对应的属性对删除。实际应用中,可以设置预设数量,然后获取按照相关系数的由大到小排列后的每个TAC码对应的前预设数量的属性对组成第三属性对集合。例如,假设预设数量为5,则可以依次获取TAC码t1的前5个的属性对,TAC码t2的前5个的属性对,同样的,可以获取TAC码tp的前5个的属性对,然后将获取得到的属性对组成第三属性对集合。
步骤207、获取第三属性对集合包括的所有TAC码组成TAC集合,TAC码对应的UA元素组成该TAC码的可选词集合。
示例的,第三属性对集合的全域W可以表示为:
W={<r1(t),r1(g)>,…,<ri(t),ri(g)>,…,<rp(t),rp(g)>};
其中,所述r1(t)至rp(t)表示第二属性对集合包括的P个TAC码,r1(g)表示TAC码t1对应的预设数量个UA元素组成的向量;ri(g)表示TAC码ti对应的预设数量个UA元素组成的向量;同样的,rp(g)表示TAC码tp对应的预设数量个UA元素组成的向量;所述i大于或等于1小于或等于p。
步骤208、计算TAC码与对应的每个UA元素之间的Jacard系数。
示例的,为了在每个TAC码对应的预设数量个UA元素中确定能够唯一代表TAC码的关键词,可以依次计算第三属性对集合中每个TAC码和与其对应的UA元素之间的Jacard系数。例如,假设预设数量为5,以属性对<ti,gz>为例,所述z大于或等于1,小于或等于5,可以根据公式(4)计算属性对<ti,gz>的Jacard系数Jacard_cof(ti,gz),所述公式(4)为:
其中,可以参考计算所述P(ti,kj)的公式(2)计算所述P(ti,gz);按照公式(3)计算所述P(ti);根据公式(5)计算所述P(gz),所述公式(5)为
当ti和gz完全无关时,Jacard_cof(ti,gz)为最低值0,当两者是完全相同的概念时,Jacard_cof(ti,gz)为最高值1。因此当ti和gz相关性越高,则Jacard_cof(ti,gz)会越高,并逼近于1。
按照上述方法依次计算每个TAC码和与其对应的5个UA元素之间的Jacard系数。
步骤209、获取与TAC码对应的Jacard系数最大的UA元素,作为该TAC码的关键词,并组成关键词对集合。
示例的,可以按照Jacard系数的由大到小排列TAC码对应的5个UA元素,然后选择排列后第一个UA元素作为该TAC码的关键词,由于该关键词与TAC码的Jacard系数最大,说明该关键词与TAC码的相关性最高,该关键词很可能是UA信息中反映终端类型的元素,比如终端类型标识。例如,以TAC码t1为例,可以按照Jacard系数的由大到小排列TAC码t1对应的5个UA元素的顺序,然后选择排列后第一个UA元素作为TAC码t1的关键词。由此可知,可以依次获取t1至tp每个TAC码的关键词,进而组成关键词对集合O,所述O={<t1,f1>,…,<ts,fs>,…,<tp,fp>},反应了已知的TAC码和关键词的对应关系;其中,f1为TAC码t1的关键词,fs为TAC码ts的关键词,同样的,fp为TAC码tp的关键词。
在实际应用中,获取到HTTP访问日志很多,计算中也可能出现不可预知的错误,很有可能出现获取到的关键词并非UA信息中的终端类型标识。因此可以通过不断采集现网HTTP访问日志,并利用上述方法进行多次计算,得到的集合O不断迭代,最终得到无限逼近于真实结果的关键词对集合O。
步骤210、确定关键词对集合中是否存在从现网获取到的任一HTTP访问日志的TAC码;当关键词对集合中存在所述HTTP访问日志的TAC码,执行步骤211;当关键词对集合中不存在所述HTTP访问日志的TAC码,执行步骤202。
示例的,当获取到关键词对集合O之后,由于集合O反应了TAC码和关键词的对应关系,因此可以根据关键词对集合O确定现网中HTTP访问日志对应的终端类型。但是现网中的HTTP访问日志的数量很多,难免出现一些新加入的终端在现网中的产生访问日志,新加入的终端可能使用新的TAC码,不一定会是之前统计到的TAC码,此时关键词对集合O中不存在该TAC码的关键词对,因此可以首先判断关键词对集合O中是否存在所述HTTP访问日志的TAC码。当HTTP访问日志的UA信息中不存在与其TAC码对应的关键词时,可以重新按照获取TAC码对应的关键词的方法,获取该TAC码对应的关键词。
步骤211、根据所述HTTP访问日志的TAC码和关键词对集合,识别所述HTTP访问日志的终端类型。
示例的,查找该HTTP访问日志的TAC码,然后根据该TAC码在关键词对集合O中查找对应的关键词对,该关键词对中的关键词即为该HTTP访问日志对应的终端类型标识。
需要说明的是,本发明实施例提供的终端识别方法步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本发明的保护范围之内,因此不再赘述。
本发明实施例提供了一种终端识别方法,相较于现有技术,可以预先建立TAC码和关键词的对应关系,然后根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词,即使有的终端未按照标准使用TAC码,也能够根据TAC码的关键词确定HTTP访问日志对应的终端类型,提高了终端识别的准确率。
实施例三
本发明实施例提供一种识别服务器40,如图4所示,包括:
第一获取单元401,用于获取现网中的超文本传输协议HTTP访问日志,所述HTTP访问日志包括跟踪区域码TAC和用户代理UA信息。
第一确定单元402,用于根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词。
第二确定单元403,用于当所述HTTP访问日志的UA信息中存在所述关键词时,确定所述关键词为所述HTTP访问日志对应的终端类型标识。
这样一来,可以预先建立TAC码和关键词的对应关系,然后根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词,即使有的终端未按照标准使用TAC码,也能够根据TAC码的关键词确定HTTP访问日志对应的终端类型,提高了终端识别的准确率。
可选的,如图5所示,所述服务器40包括:采集单元404,用于从现网中采集多条HTTP访问日志,每条HTTP访问日志包括TAC码和UA信息,每个UA信息包括多个UA元素;组成单元405,用于根据每条HTTP访问日志的TAC码和UA信息中UA元素,组成第一属性对集合,所述第一属性对集合包括多个属性对,每个属性对包括一个TAC码和与所述TAC码对应的UA信息中的一个UA元素;第二获取单元406,用于根据所述第一属性对集合,获取每个TAC码的关键词,并建立TAC码和关键词的对应关系,TAC码的关键词为所述TAC码对应的UA信息中的一个UA元素。
可选的,所述第二获取单元406具体用于:计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的杰卡德Jacard系数;选择每个TAC码对应的Jacard系数最大的属性对包括的UA元素作为对应TAC码的关键词。
可选的,如图6所示,所述服务器40还包括:筛选单元407,用于根据预设词典,筛除所述第一属性对集合中与终端类型无关的UA元素对应的属性对,获取第二属性对集合;所述第二获取单元406具体用于:计算所述第二属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数。
可选的,如图7所示,所述服务器40还包括:计算单元408,用于计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的相关系数;排列单元409,用于按照所述相关系数的由大到小,排列每个TAC码对应的属性对;选择单元410,用于选择排列后每个TAC码对应的前预设数量个属性对组成第三属性对集合;所述第二获取单元406具体用于:计算所述第三属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数。
需要说明的是,第一,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
第二,所述第一获取单元401、第一确定单元402、第二确定单元403、采集单元404、组成单元405、第二获取单元406、筛选单元407、计算单元408、排列单元409和选择单元410均可由位于识别服务器40中的中央处理器(Central Processing Unit,CPU)、微处理器(Micro Processor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)、或现场可编程门阵列(Field Programmable Gate Array,FPGA)等实现。
本发明实施例提供一种识别服务器,包括:第一获取单元,用于获取现网中的超文本传输协议HTTP访问日志,所述HTTP访问日志包括跟踪区域码TAC和用户代理UA信息。第一确定单元,用于根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词。第二确定单元,用于当所述HTTP访问日志的UA信息中存在所述关键词时,确定所述关键词为所述HTTP访问日志对应的终端类型标识。相较于现有技术,可以预先建立TAC码和关键词的对应关系,然后根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词,即使有的终端未按照标准使用TAC码,也能够根据TAC码的关键词确定HTTP访问日志对应的终端类型,提高了终端识别的准确率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (10)
1.一种终端识别方法,其特征在于,包括:
获取现网中的超文本传输协议HTTP访问日志,所述HTTP访问日志包括跟踪区域码TAC和用户代理UA信息;
根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词;
当所述HTTP访问日志的UA信息中存在所述关键词时,确定所述关键词为所述HTTP访问日志对应的终端类型标识。
2.根据权利要求1所述的方法,其特征在于,在所述获取现网中的HTTP访问日志之前,所述方法包括:
从现网中采集多条HTTP访问日志,每条HTTP访问日志包括TAC码和UA信息,每个UA信息包括多个UA元素;
根据每条HTTP访问日志的TAC码和UA信息中UA元素,组成第一属性对集合,所述第一属性对集合包括多个属性对,每个属性对包括一个TAC码和与所述TAC码对应的UA信息中的一个UA元素;
根据所述第一属性对集合,获取每个TAC码的关键词,并建立TAC码和关键词的对应关系,TAC码的关键词为所述TAC码对应的UA信息中的一个UA元素。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一属性对集合,获取每个TAC码的关键词包括:
计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的杰卡德Jacard系数;
选择每个TAC码对应的Jacard系数最大的属性对包括的UA元素作为对应TAC码的关键词。
4.根据权利要求3所述的方法,其特征在于,在所述计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数之前,所述方法还包括:
根据预设词典,筛除所述第一属性对集合中与终端类型无关的UA元素对应的属性对,获取第二属性对集合;
所述计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数包括:
计算所述第二属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数。
5.根据权利要求3所述的方法,其特征在于,在所述计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数之前,所述方法还包括:
计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的相关系数;
按照所述相关系数的由大到小,排列每个TAC码对应的属性对;
选择排列后每个TAC码对应的前预设数量个属性对组成第三属性对集合;
所述计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数包括:
计算所述第三属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数。
6.一种识别服务器,其特征在于,包括:
第一获取单元,用于获取现网中的超文本传输协议HTTP访问日志,所述HTTP访问日志包括跟踪区域码TAC和用户代理UA信息;
第一确定单元,用于根据TAC码和关键词的对应关系,确定所述HTTP访问日志的TAC码对应的关键词;
第二确定单元,用于当所述HTTP访问日志的UA信息中存在所述关键词时,确定所述关键词为所述HTTP访问日志对应的终端类型标识。
7.根据权利要求6所述的服务器,其特征在于,所述服务器包括:
采集单元,用于从现网中采集多条HTTP访问日志,每条HTTP访问日志包括TAC码和UA信息,每个UA信息包括多个UA元素;
组成单元,用于根据每条HTTP访问日志的TAC码和UA信息中UA元素,组成第一属性对集合,所述第一属性对集合包括多个属性对,每个属性对包括一个TAC码和与所述TAC码对应的UA信息中的一个UA元素;
第二获取单元,用于根据所述第一属性对集合,获取每个TAC码的关键词,并建立TAC码和关键词的对应关系,TAC码的关键词为所述TAC码对应的UA信息中的一个UA元素。
8.根据权利要求7所述的服务器,其特征在于,所述第二获取单元具体用于:
计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的杰卡德Jacard系数;
选择每个TAC码对应的Jacard系数最大的属性对包括的UA元素作为对应TAC码的关键词。
9.根据权利要求8所述的服务器,其特征在于,所述服务器还包括:
筛选单元,用于根据预设词典,筛除所述第一属性对集合中与终端类型无关的UA元素对应的属性对,获取第二属性对集合;
所述第二获取单元具体用于:
计算所述第二属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数。
10.根据权利要求8所述的服务器,其特征在于,所述服务器还包括:
计算单元,用于计算所述第一属性对集合中每个属性对包括的TAC码和UA元素的相关系数;
排列单元,用于按照所述相关系数的由大到小,排列每个TAC码对应的属性对;
选择单元,用于选择排列后每个TAC码对应的前预设数量个属性对组成第三属性对集合;
所述第二获取单元具体用于:
计算所述第三属性对集合中每个属性对包括的TAC码和UA元素的Jacard系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610240811.8A CN107301192A (zh) | 2016-04-14 | 2016-04-14 | 一种终端识别方法和识别服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610240811.8A CN107301192A (zh) | 2016-04-14 | 2016-04-14 | 一种终端识别方法和识别服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107301192A true CN107301192A (zh) | 2017-10-27 |
Family
ID=60136830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610240811.8A Pending CN107301192A (zh) | 2016-04-14 | 2016-04-14 | 一种终端识别方法和识别服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107301192A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107968997A (zh) * | 2017-11-17 | 2018-04-27 | 北京神州绿盟信息安全科技股份有限公司 | 一种移动终端识别方法、装置、网关设备及存储介质 |
CN109905293A (zh) * | 2019-03-12 | 2019-06-18 | 北京奇虎科技有限公司 | 一种终端设备识别方法、系统及存储介质 |
CN113076316A (zh) * | 2021-04-07 | 2021-07-06 | 恒安嘉新(北京)科技股份公司 | 一种信息关系映射的分析方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104283918A (zh) * | 2013-07-05 | 2015-01-14 | 中国移动通信集团浙江有限公司 | 一种无线局域网终端类型获取方法及系统 |
CN104602274A (zh) * | 2014-12-05 | 2015-05-06 | 珠海世纪鼎利通信科技股份有限公司 | 一种动态识别终端品牌和终端类型的方法及系统 |
EP2709391A3 (en) * | 2012-09-14 | 2016-12-21 | Netscout Systems Texas, LLC | Identification of communication devices in telecommunication networks |
-
2016
- 2016-04-14 CN CN201610240811.8A patent/CN107301192A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2709391A3 (en) * | 2012-09-14 | 2016-12-21 | Netscout Systems Texas, LLC | Identification of communication devices in telecommunication networks |
CN104283918A (zh) * | 2013-07-05 | 2015-01-14 | 中国移动通信集团浙江有限公司 | 一种无线局域网终端类型获取方法及系统 |
CN104602274A (zh) * | 2014-12-05 | 2015-05-06 | 珠海世纪鼎利通信科技股份有限公司 | 一种动态识别终端品牌和终端类型的方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107968997A (zh) * | 2017-11-17 | 2018-04-27 | 北京神州绿盟信息安全科技股份有限公司 | 一种移动终端识别方法、装置、网关设备及存储介质 |
CN109905293A (zh) * | 2019-03-12 | 2019-06-18 | 北京奇虎科技有限公司 | 一种终端设备识别方法、系统及存储介质 |
CN113076316A (zh) * | 2021-04-07 | 2021-07-06 | 恒安嘉新(北京)科技股份公司 | 一种信息关系映射的分析方法、装置、设备及存储介质 |
CN113076316B (zh) * | 2021-04-07 | 2023-12-19 | 恒安嘉新(北京)科技股份公司 | 一种信息关系映射的分析方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103189836B (zh) | 用于对图数据流中的对象分类的方法 | |
CN102663064B (zh) | 一种收藏夹数据的处理方法及装置 | |
US20080270549A1 (en) | Extracting link spam using random walks and spam seeds | |
CN103092826B (zh) | 一种根据用户的输入信息构建输入词条的方法与设备 | |
CN103064880B (zh) | 一种基于搜索信息向用户提供网站选择的方法、装置和系统 | |
CN105677787B (zh) | 信息搜索装置及信息搜索方法 | |
CN108763274A (zh) | 访问请求的识别方法、装置、电子设备及存储介质 | |
CN103226393A (zh) | 一种输入方法和设备 | |
CN107562939A (zh) | 垂直领域新闻推荐方法、装置及可读储存介质 | |
CN107690634A (zh) | 自动查询模式生成 | |
CN107368550A (zh) | 信息获取方法、装置、介质、电子设备、服务器及系统 | |
CN104361092A (zh) | 搜索方法及装置 | |
CN103955480B (zh) | 一种用于确定用户所对应的目标对象信息的方法与设备 | |
CN102142035A (zh) | 一种用于对多个文字信息记录进行排序的方法与设备 | |
CN107301192A (zh) | 一种终端识别方法和识别服务器 | |
CN104598604A (zh) | 一种网址导航应用于各种浏览器中的浏览方法 | |
CN106650610A (zh) | 一种人脸表情数据收集方法及装置 | |
CN103262079B (zh) | 检索装置及检索方法 | |
CN103544150A (zh) | 为移动终端浏览器提供推荐信息的方法及系统 | |
CN106933864A (zh) | 一种搜索引擎系统及其搜索方法 | |
CN108846708A (zh) | 用户购买行为预测方法、装置、设备及存储介质 | |
CN103064967B (zh) | 一种用于建立用户二元关系库的方法与设备 | |
CN106651410A (zh) | 一种应用管理方法及装置 | |
CN105094810B (zh) | 基于通用网关接口插件的数据处理方法和装置 | |
CN103365858B (zh) | 基于一查询序列由多个源设备获取搜索结果的方法与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171027 |
|
RJ01 | Rejection of invention patent application after publication |