CN109246163B - 终端信息识别方法及装置 - Google Patents
终端信息识别方法及装置 Download PDFInfo
- Publication number
- CN109246163B CN109246163B CN201710555890.6A CN201710555890A CN109246163B CN 109246163 B CN109246163 B CN 109246163B CN 201710555890 A CN201710555890 A CN 201710555890A CN 109246163 B CN109246163 B CN 109246163B
- Authority
- CN
- China
- Prior art keywords
- information
- terminal
- user agent
- matching
- cache
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
- H04L67/5682—Policies or rules for updating, deleting or replacing the stored data
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种终端信息识别方法及装置,涉及大数据技术领域。其中的终端信息识别方法包括:解析终端的上网数据,提取终端的用户代理UA信息;在缓存中对终端的UA信息进行匹配,缓存中存有不同终端的UA信息与不同终端信息的映射关系;若在缓存中匹配成功,则根据缓存中终端的UA信息与终端信息的映射关系,确定终端的终端信息。从而提高了用户终端信息的识别效率。
Description
技术领域
本发明涉及大数据技术领域,特别涉及一种终端信息识别方法及装置。
背景技术
随着网络带宽的提升,单个网络接入点能够接入和容纳越来越多的移动终端设备,如手机、平板电脑等等。这对基于用户上网行为特征挖掘分析、开展精准营销等工作带来挑战。
传统的终端信息识别技术,一般是利用用户上网数据中的UA(User Agent,用户代理)字段,结合人工积累和维护的UA知识库来提取用户终端信息,实现复杂网络环境下的用户识别和特征分析。
发明内容
本发明解决的一个技术问题是,如何提高用户终端信息的识别效率。
根据本发明实施例的一个方面,提供了一种终端信息识别方法,包括:解析终端的上网数据,提取终端的用户代理UA信息;在缓存中对终端的UA信息进行匹配,缓存中存有不同终端的UA信息与不同终端信息的映射关系;若在缓存中匹配成功,则根据缓存中终端的UA信息与终端信息的映射关系,确定终端的终端信息;若在缓存中匹配失败,则在UA知识库中对终端的UA信息进行匹配;若在UA知识库中匹配成功,则根据UA知识库的匹配结果确定终端的终端信息。
在一个实施例中,缓存中还存有不同终端的UA信息的成功匹配次数;按照成功匹配次数由高到低的顺序,将缓存中的不同UA信息与终端的UA信息进行匹配;若在缓存中匹配成功,则在缓存中更新终端的UA信息的成功匹配次数。
在一个实施例中,该方法还包括:当缓存中的数据超过预设值时,在缓存中将匹配成功的次数低于预设值的不同终端的UA信息与不同终端信息的映射关系删除,并在缓存中将匹配成功的次数低于预设值的不同终端的UA信息的成功匹配次数删除。
在一个实施例中,该方法还包括:若在UA知识库中匹配成功,则将终端的UA信息以及终端的终端信息之间的映射关系添加至缓存。
在一个实施例中,在UA知识库中对终端的UA信息进行匹配包括:将UA知识库按照UA关键信息进行分类;从终端的UA信息中提取终端的UA关键信息;在UA知识库中终端的UA关键信息的分类下,对终端的UA信息进行匹配。
在一个实施例中,UA知识库中还存有不同终端的UA信息的匹配优先级;按照匹配优先级由高到低的顺序,在UA知识库中对终端的UA信息进行匹配;若在UA知识库中匹配成功,则在知识库中更新终端的UA信息的匹配优先级。
在一个实施例中,该方法还包括:若在UA知识库中匹配失败,则在终端的UA信息中提取疑似终端信息,并利用搜索引擎和/或文本分析工具确定疑似终端信息对应的终端信息。
在一个实施例中,该方法还包括:将终端的UA信息与终端的终端信息添加至UA知识库。
根据本发明实施例的一个方面,提供了一种终端信息识别装置,包括:UA信息提取模块,用于解析终端的上网数据,提取终端的用户代理UA信息;第一匹配模块,用于在缓存中对终端的UA信息进行匹配,缓存中存有不同终端的UA信息与不同终端信息的映射关系;第一终端信息确定模块,用于若在缓存中匹配成功,则根据缓存中终端的UA信息与终端信息的映射关系,确定终端的终端信息。第二匹配模块,用于若在缓存中匹配失败,则在UA知识库中对终端的UA信息进行匹配;第二终端信息确定模块,用于若在UA知识库中匹配成功,则根据UA知识库的匹配结果确定终端的终端信息。
在一个实施例中,缓存中还存有不同终端的UA信息的成功匹配次数;第一匹配模块还用于:按照成功匹配次数由高到低的顺序,将缓存中的不同UA信息与终端的UA信息进行匹配;终端信息识别装置还包括匹配次数更新模块,用于若在缓存中匹配成功,则在缓存中更新终端的UA信息的成功匹配次数。
在一个实施例中,终端信息识别装置还包括:信息删除模块,用于当缓存中的数据超过预设值时,在缓存中将匹配成功的次数低于预设值的不同终端的UA信息与不同终端信息的映射关系删除,并在缓存中将匹配成功的次数低于预设值的不同终端的UA信息的成功匹配次数删除。
在一个实施例中,终端信息识别装置还包括:第一UA信息添加模块,用于若在UA知识库中匹配成功,则将终端的UA信息以及终端的终端信息添加至缓存。
在一个实施例中,第二匹配模块用于:将UA知识库按照UA关键信息进行分类;从终端的UA信息中提取终端的UA关键信息;在UA知识库中终端的UA关键信息的分类下,对终端的UA信息进行匹配。
在一个实施例中,UA知识库中还存有不同终端的UA信息的匹配优先级;第二匹配模块用于:按照匹配优先级由高到低的顺序,在UA知识库中对终端的UA信息进行匹配;终端信息识别装置还包括匹配优先级更新模块,用于若在UA知识库中匹配成功,则在知识库中更新终端的UA信息的匹配优先级。
在一个实施例中,终端信息识别装置还包括:疑似终端信息提取模块,用于若在UA知识库中匹配失败,则在终端的UA信息中提取疑似终端信息,并利用搜索引擎和/或文本分析工具确定疑似终端信息对应的终端信息。
在一个实施例中,终端信息识别装置还包括:第二UA信息添加模块,将终端的UA信息与终端的终端信息添加至UA知识库。
根据本发明实施例的又一个方面,提供了终端信息识别装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述的终端信息识别方法。
根据本发明实施例的再一个方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现前述的终端信息识别方法。
本发明能够提高终端信息的识别效率。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1示出本发明一个实施例的终端信息识别方法的流程示意图。
图2示出本发明另一个实施例的终端信息识别方法的流程示意图。
图3示出本发明又一个实施例的终端信息识别方法的流程示意图。
图4示出本发明一个实施例的终端信息识别装置的结构示意图。
图5示出本发明另一个实施例的终端信息识别装置的结构示意图。
图6示出本发明又一个实施例的终端信息识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
发明人研究发现,现有技术中单纯依赖UA知识库方式进行终端信息识别带来以下问题:首先,UA信息的数量巨大,单纯用UA知识库方式来识别,需要通过正则表达式从UA信息中进一步提取信息,并对进一步提取的信息通过逐个字符匹配的方式进行匹配,效率较低。其次,用户上网数据的分布会随时间和事件等因素发生变化,现有方法没有利用这种数据分布特征,导致识别效率不高。最后,UA知识库的积累和维护人工介入多,维护效率低,成本高。
针对上述问题,本发明提出一种改进的终端信息识别方法。
首先结合图1介绍本发明一个实施例的终端信息识别方法。
图1示出本发明一个实施例的终端信息识别方法的流程示意图。如图1所示,该实施例的终端信息识别方法包括:
步骤S100,解析终端的上网数据,提取该终端的用户代理UA信息。
例如,可以通过服务器截取终端上网过程中的HTTP协议包,并从URL字段中提取该终端的UA信息。
步骤S102,在缓存中对该终端的UA信息进行匹配,缓存中存有不同终端的UA信息与不同终端信息的映射关系。
终端信息具体可以为终端型号信息。当然,本领域技术人员应理解,这里的终端信息还可以包括终端屏幕大小、内存大小、操作系统版本、厂家等信息。缓存中保存UA信息与不同终端型号的映射关系,其初始状态为空,大小可定义。用户根据设备配置,如计算机内存大小,可以设置内存中UA缓存的大小。UA缓存的大小可以是UA信息条数,也可以是内存空间大小。还可以设置缓存监控心跳周期,以及缓存清理触发阈值。缓存清理触发阈值通常为百分比,如缓存空间使用率达到85%时触发缓存清理任务,也就是将命中次数低,或者超长时间没有更新的缓存内容进行删除,以腾出缓存空间添加新的UA信息进入缓存。
若在缓存中匹配成功,则执行步骤S104,根据缓存中该终端的UA信息与终端信息的映射关系,确定该终端的终端信息。
若在缓存中匹配失败,则执行步骤S106,在UA知识库中对该终端的UA信息进行匹配。
本领域技术人员应理解,在利用UA知识库进行UA信息匹配之前,可以实时加载UA知识库。
若在UA知识库中匹配成功,则执行步骤S108,根据UA知识库的匹配结果确定该终端的终端信息。
若在UA知识库中匹配失败,则执行步骤S110,在该终端的UA信息中提取疑似终端信息,并利用搜索引擎和/或文本分析工具确定疑似终端信息对应的终端信息。
上述实施例引入了无干预缓存机制。随着时尚潮流的变迁,用户所使用的终端和APP会不断更新换代。通过无干预缓存机制从用户使用的终端以及APP所携带的UA信息来提取用户的终端信息,能够结合时间分布特征,优先匹配当前主流、热门的UA信息,从而提高复杂网络环境下上网终端信息的识别效率、识别率、准确性以及自动化程度,减少计算资源开销,进而提高电信运营商海量数据分析的及时性,更好的支撑支数据分析决策。
下面结合图2介绍本发明另一个实施例的终端信息识别方法。
图2示出本发明另一个实施例的终端信息识别方法的流程示意图。如图2所示,该实施例的终端信息识别方法包括:
步骤S200,解析终端的上网数据,提取该终端的用户代理UA信息。
步骤S202,缓存中存有不同终端的UA信息与不同终端信息的映射关系,缓存中还存有不同终端的UA信息的成功匹配次数。按照成功匹配次数由高到低的顺序,将缓存中的不同UA信息与该终端的UA信息进行匹配。
若在缓存中匹配成功,则执行步骤S204,根据缓存中该终端的UA信息与终端信息的映射关系,确定该终端的终端信息,并在缓存中更新该终端的UA信息的成功匹配次数。
若在缓存中匹配失败,则执行步骤S206,UA知识库中还存有不同终端的UA信息的匹配优先级;按照匹配优先级由高到低的顺序,在UA知识库中对终端的UA信息进行匹配。
若在UA知识库中匹配成功,则执行步骤S208,根据UA知识库的匹配结果确定终端的终端信息,并在UA知识库中更新终端的UA信息的匹配优先级。
UA知识库中终端的UA信息的匹配优先级也可以通过匹配成功次数来计算。当累计匹配成功次数达到一定次数后,可以提升该UA信息的优先级一个或多个等级。
若在UA知识库中匹配失败,则执行步骤S210,在终端的UA信息中提取疑似终端信息,并利用搜索引擎和/或文本分析工具确定疑似终端信息对应的终端信息。
上述实施例中引入了优先级自动更新机制,能够减少缓存以及UA知识库的人工维护成本,进一步提高复杂网络环境下上网终端信息的识别效率、识别率、准确性以及自动化程度,减少计算资源开销,进而提高电信运营商海量数据分析的及时性,更好的支撑支数据分析决策。
下面结合图3介绍本发明又一个实施例的终端信息识别方法。
图3示出本发明又一个实施例的终端信息识别方法的流程示意图。如图3所示,该实施例的终端信息识别方法包括:
步骤S300,解析终端的上网数据,提取该终端的用户代理UA信息。
步骤S302,缓存中存有不同终端的UA信息与不同终端信息的映射关系,缓存中还存有不同终端的UA信息的成功匹配次数。按照成功匹配次数由高到低的顺序,将缓存中的不同UA信息与该终端的UA信息进行匹配。
当缓存中的数据超过预设值时,在缓存中将匹配成功的次数低于预设值的不同终端的UA信息与不同终端信息的映射关系删除,并在缓存中将匹配成功的次数低于预设值的不同终端的UA信息的成功匹配次数删除。
若在缓存中匹配成功,则执行步骤S304,根据缓存中该终端的UA信息与终端信息的映射关系,确定该终端的终端信息,并在缓存中更新该终端的UA信息的成功匹配次数。
可选的,在缓存中更新该终端的UA信息的成功匹配次数的同时,还可以将缓存中该终端的UA信息的成功匹配次数同步更新到UA知识库中,方便缓存所在设备重启时,从UA知识库中初始化到缓存。
若在缓存中匹配失败,则执行步骤S306,UA知识库中还存有不同终端的UA信息的匹配优先级;按照匹配优先级由高到低的顺序,在UA知识库中对终端的UA信息进行匹配。
具体可以包括:首先,将UA知识库按照UA关键信息进行分类;然后,从终端的UA信息中提取终端的UA关键信息;接下来,在UA知识库中终端的UA关键信息的分类下,对终端的UA信息进行匹配。下面列举三个从UA信息中提取UA关键信息的示例:
示例1:
UA信息:Dalvik/2.1.0(Linux;U;Android 5.1;HUAWEI TAG-AL00Build/HUAWEITAG-AL00)
UA关键信息:Dalvik Android。
示例2:
UA信息:WeChat/6.5.5.32CFNetwork/808.3Darwin/16.3.0
UA关键信息:WeChat。
示例3:
UA信息:Mozilla/5.0(Windows NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/56.0.2924.87Safari/537.36
UA关键信息:Mozilla Windows。
如上示例,从UA信息中提取UA关键信息,如app名称、操作系统类型等。根据这些UA关键信息信息对UA知识库进行分类分级管理。在匹配时,先按照相同规则获取待匹配UA的关键信息,然后据此关键信息在知识库中快速定位到所在分类及子分类,以此加快UA的匹配效率。这种分级管理机制能够进一步提高匹配效率。
若在UA知识库中匹配成功,则执行步骤S308,根据UA知识库的匹配结果确定终端的终端信息,并在知识库中更新终端的UA信息的匹配优先级。
步骤S309,将终端的UA信息以及终端的终端信息之间的映射关系添加至缓存。
若在UA知识库中匹配失败,则执行步骤S310,在终端的UA信息中提取疑似终端信息,并利用搜索引擎和/或文本分析工具确定疑似终端信息对应的终端信息。
例如,可以通过搜索引擎和/或文本解析等方法对疑似终端信息进行交叉解析,并根据概率确定该UA信息对应的终端信息。大部分比较正规的UA信息都有比较规范的格式。例如,对于UA信息Dalvik/2.1.0(Linux;U;Android 5.1;HUAWEI TAG-AL00Build/HUAWEITAG-AL00),可以通过正则表达式^[^/]+[/\\s*][^\\)]+\\(\\s*linux;\\s*U;\\s*Android\\s*[^;^\\s]*;\\s*([^\\s^/^;]+\\s+[^\\s^/^;]+\\s+build)/[^\\)]+\\)$提取这条UA中的疑似终端信息HUAWEI TAG-AL00Build/HUAWEITAG-AL00,并通过搜索引擎搜索该疑似信息,使用文本分析工具对这些查询结果进行提取和比较,从而得出该UA对应的终端型号信息。
然后,将提取出的疑似终端信息在搜索引擎中进行搜索,并爬取搜索结果。同时,对疑似终端信息进行前缀检查,例如SM对应三星,HUAWEI对应华为这样的前缀检查,与从搜索引擎中爬取的搜索结果中的品牌进行比对。如果前缀检查结果与搜索引擎中爬取的搜索结果一致,则确认终端信息。如果不完全一致,取前缀检查结果与搜索引擎中爬取的搜索结果中相对一致的信息,确认终端信息。
或者,在搜索引擎网站上查询疑似终端信息,进一步提取搜索引擎返回前N条(例如20以下的自然数)查询结果链接对应的网页标题(即title标签)信息,对网页标题信息进行分词以分出终端型号信息和终端品牌信息,然后对这些信息进行比较,并取出现概率较高的终端信息作为最终结果。
上述过程可通过程序自动实现。对未能交叉解析识别出的UA信息,可以进行人工识别。对交叉解析识别出的UA信息及终端信息,可以进行抽样稽核。
步骤S311,将终端的UA信息与终端的终端信息添加至UA知识库,以便实时加载更新后的UA知识库。
例如,可以根据人工识别和稽核结果,对UA知识库进行更新。
步骤S312,判断数据解析是否结束。若未结束,可以返回步骤S300,开始新的数据解析周期。
数据解析结束的条件主要包括:一,数据来源中断,此时设备处于闲置阶段,可以认为数据解析周期的结束;二,设备重启,意味着当前数据解析流程的结束。
上述实施例中引入多源交叉自动关联识别机制,能够更进一步提高复杂网络环境下上网终端信息的识别效率、识别率、准确性以及自动化程度,进而提高电信运营商海量数据分析的及时性,更好的支撑数据分析决策。同时,在无用户干预下情况下,缓存能够进行自我维护和更新管理等,在保证缓存命中效率的同时,确保不会出现缓存溢出等情况的发生。
下面结合图4介绍本发明一个实施例的终端信息识别装置。
图4示出本发明一个实施例的终端信息识别装置的结构示意图。如图4所示,本实施例的终端信息识别装置40包括:
UA信息提取模块402,用于解析终端的上网数据,提取终端的用户代理UA信息;
第一匹配模块404,用于在缓存中对终端的UA信息进行匹配,缓存中存有不同终端的UA信息与不同终端信息的映射关系;
第一终端信息确定模块406,用于若在缓存中匹配成功,则根据缓存中终端的UA信息与终端信息的映射关系,确定终端的终端信息。
第二匹配模块408,用于若在缓存中匹配失败,则在UA知识库中对终端的UA信息进行匹配;
第二终端信息确定模块410,用于若在UA知识库中匹配成功,则根据UA知识库的匹配结果确定终端的终端信息。
在一个实施例中,缓存中还存有不同终端的UA信息的成功匹配次数。
第一匹配模块404还用于:按照成功匹配次数由高到低的顺序,将缓存中的不同UA信息与终端的UA信息进行匹配。
终端信息识别装置40还包括匹配次数更新模块405,用于若在缓存中匹配成功,则在缓存中更新终端的UA信息的成功匹配次数。
在一个实施例中,终端信息识别装置40还包括:
信息删除模块407,用于当缓存中的数据超过预设值时,在缓存中将匹配成功的次数低于预设值的不同终端的UA信息与不同终端信息的映射关系删除,并在缓存中将匹配成功的次数低于预设值的不同终端的UA信息的成功匹配次数删除。
在一个实施例中,终端信息识别装置40还包括:
第一UA信息添加模块411,用于若在UA知识库中匹配成功,则将终端的UA信息以及终端的终端信息添加至缓存。
在一个实施例中,第二匹配模块408用于:
将UA知识库按照UA关键信息进行分类;
从终端的UA信息中提取终端的UA关键信息;
在UA知识库中终端的UA关键信息的分类下,对终端的UA信息进行匹配。
在一个实施例中,UA知识库中还存有不同终端的UA信息的匹配优先级。
第二匹配模块408用于:按照匹配优先级由高到低的顺序,在UA知识库中对终端的UA信息进行匹配。
终端信息识别装置40还包括匹配优先级更新模块409,用于若在UA知识库中匹配成功,则在知识库中更新终端的UA信息的匹配优先级。
在一个实施例中,终端信息识别装置40还包括:
疑似终端信息提取模块412,用于若在UA知识库中匹配失败,则在终端的UA信息中提取疑似终端信息,并利用搜索引擎和/或文本分析工具确定疑似终端信息对应的终端信息。
在一个实施例中,终端信息识别装置40还包括:
第二UA信息添加模块413,用于将终端的UA信息与终端的终端信息添加至UA知识库。
下面结合图5介绍本发明另一个实施例的终端信息识别装置。
图5示出本发明另一个实施例的终端信息识别装置的结构示意图。如图5所示,该实施例的终端信息识别装置50包括:存储器510以及耦接至该存储器510的处理器520,处理器520被配置为基于存储在存储器510中的指令,执行前述任意一个实施例中的终端信息识别方法。
其中,存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其它程序等。
图6示出了本发明又一个实施例的终端信息识别装置的结构示意图。如图6所示,该实施例的终端信息识别装置60包括:存储器510以及处理器520,还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630,640,650以及存储器510和处理器520之间例如可以通过总线650连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本发明还包括一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现前述任意一个实施例中的终端信息识别方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种终端信息识别方法,其特征在于,包括:
解析终端的上网数据,提取所述终端的用户代理信息;
在缓存中对所述终端的用户代理信息进行匹配,所述缓存中存有不同终端的用户代理信息与不同终端信息的映射关系;
若在缓存中匹配成功,则根据缓存中所述终端的用户代理信息与终端信息的映射关系,确定所述终端的终端信息;
若在缓存中匹配失败,则在用户代理知识库中对所述终端的用户代理信息进行匹配;
若在用户代理知识库中匹配成功,则根据用户代理知识库的匹配结果确定所述终端的终端信息;
若在用户代理知识库中匹配失败,则在所述终端的用户代理信息中提取疑似终端信息,并利用搜索引擎和/或文本分析工具确定所述疑似终端信息对应的终端信息;
其中,当所述缓存中的数据超过预设值时,在缓存中将匹配成功的次数低于预设值的不同终端的用户代理信息与不同终端信息的映射关系删除,并在缓存中将匹配成功的次数低于预设值的不同终端的用户代理信息的成功匹配次数删除;
所述在用户代理知识库中对所述终端的用户代理信息进行匹配包括:
将用户代理知识库按照用户代理关键信息进行分类;从所述终端的用户代理信息中提取所述终端的用户代理关键信息;在用户代理知识库中所述终端的用户代理关键信息的分类下,对所述终端的用户代理信息进行匹配;
所述用户代理知识库中还存有不同终端的用户代理信息的匹配优先级;按照匹配优先级由高到低的顺序,在用户代理知识库中对所述终端的用户代理信息进行匹配;若在用户代理知识库中匹配成功,则在知识库中更新所述终端的用户代理信息的匹配优先级。
2.如权利要求1所述的终端信息识别方法,其特征在于,
所述缓存中还存有不同终端的用户代理信息的成功匹配次数;
按照成功匹配次数由高到低的顺序,将缓存中的不同用户代理信息与所述终端的用户代理信息进行匹配;
若在缓存中匹配成功,则在缓存中更新所述终端的用户代理信息的成功匹配次数。
3.如权利要求1所述的终端信息识别方法,其特征在于,所述方法还包括:
若在用户代理知识库中匹配成功,则将所述终端的用户代理信息以及所述终端的终端信息之间的映射关系添加至缓存。
4.如权利要求1所述的终端信息识别方法,其特征在于,所述方法还包括:
将所述终端的用户代理信息与所述终端的终端信息添加至用户代理知识库。
5.一种终端信息识别装置,其特征在于,包括:
用户代理信息提取模块,用于解析终端的上网数据,提取所述终端的用户代理信息;
第一匹配模块,用于在缓存中对所述终端的用户代理信息进行匹配,所述缓存中存有不同终端的用户代理信息与不同终端信息的映射关系;
第一终端信息确定模块,用于若在缓存中匹配成功,则根据缓存中所述终端的用户代理信息与终端信息的映射关系,确定所述终端的终端信息;
第二匹配模块,用于若在缓存中匹配失败,则在用户代理知识库中对所述终端的用户代理信息进行匹配;
第二终端信息确定模块,用于若在用户代理知识库中匹配成功,则根据用户代理知识库的匹配结果确定所述终端的终端信息;
疑似终端信息提取模块,用于若在用户代理知识库中匹配失败,则在所述终端的用户代理信息中提取疑似终端信息,并利用搜索引擎和/或文本分析工具确定所述疑似终端信息对应的终端信息;
信息删除模块,用于当所述缓存中的数据超过预设值时,在缓存中将匹配成功的次数低于预设值的不同终端的用户代理信息与不同终端信息的映射关系删除,并在缓存中将匹配成功的次数低于预设值的不同终端的用户代理信息的成功匹配次数删除;
所述第二匹配模块用于:将用户代理知识库按照用户代理关键信息进行分类;从所述终端的用户代理信息中提取所述终端的用户代理关键信息;在用户代理知识库中所述终端的用户代理关键信息的分类下,对所述终端的用户代理信息进行匹配;
所述用户代理知识库中还存有不同终端的用户代理信息的匹配优先级;所述第二匹配模块用于:按照匹配优先级由高到低的顺序,在用户代理知识库中对所述终端的用户代理信息进行匹配;
所述终端信息识别装置还包括匹配优先级更新模块,用于若在用户代理知识库中匹配成功,则在知识库中更新所述终端的用户代理信息的匹配优先级。
6.如权利要求5所述的终端信息识别装置,其特征在于,所述缓存中还存有不同终端的用户代理信息的成功匹配次数;
所述第一匹配模块还用于:按照成功匹配次数由高到低的顺序,将缓存中的不同用户代理信息与所述终端的用户代理信息进行匹配;
所述终端信息识别装置还包括匹配次数更新模块,用于若在缓存中匹配成功,则在缓存中更新所述终端的用户代理信息的成功匹配次数。
7.如权利要求6所述的终端信息识别装置,其特征在于,所述终端信息识别装置还包括:
第一用户代理信息添加模块,用于若在用户代理知识库中匹配成功,则将所述终端的用户代理信息以及所述终端的终端信息添加至缓存。
8.如权利要求5所述的终端信息识别装置,其特征在于,所述终端信息识别装置还包括:
第二用户代理信息添加模块,将所述终端的用户代理信息与所述终端的终端信息添加至用户代理知识库。
9.一种终端信息识别装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至4中任一项所述的终端信息识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现权利要求1至4中任一项所述的终端信息识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710555890.6A CN109246163B (zh) | 2017-07-10 | 2017-07-10 | 终端信息识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710555890.6A CN109246163B (zh) | 2017-07-10 | 2017-07-10 | 终端信息识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109246163A CN109246163A (zh) | 2019-01-18 |
CN109246163B true CN109246163B (zh) | 2022-02-08 |
Family
ID=65082982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710555890.6A Active CN109246163B (zh) | 2017-07-10 | 2017-07-10 | 终端信息识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109246163B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933598A (zh) * | 2019-03-12 | 2019-06-25 | 北京奇虎科技有限公司 | 一种数据库处理方法、系统及存储介质 |
CN109905293B (zh) * | 2019-03-12 | 2021-06-08 | 北京奇虎科技有限公司 | 一种终端设备识别方法、系统及存储介质 |
CN109951354B (zh) * | 2019-03-12 | 2021-08-10 | 北京奇虎科技有限公司 | 一种终端设备识别方法、系统及存储介质 |
CN109885739B (zh) * | 2019-03-12 | 2021-11-19 | 成都全景智能科技有限公司 | 一种数据处理方法、系统及存储介质 |
CN109905292B (zh) * | 2019-03-12 | 2021-08-10 | 北京奇虎科技有限公司 | 一种终端设备识别方法、系统及存储介质 |
CN111147321B (zh) * | 2019-12-04 | 2021-12-24 | 成都全景智能科技有限公司 | 信息处理方法、装置、设备和计算机存储介质 |
CN111131178B (zh) * | 2019-12-04 | 2022-03-08 | 北京奇虎科技有限公司 | 终端设备识别方法、装置、设备和计算机存储介质 |
CN111181921B (zh) * | 2019-12-04 | 2022-11-04 | 北京奇虎科技有限公司 | 信息管理方法、装置、设备和计算机存储介质 |
CN112087744B (zh) * | 2020-08-21 | 2023-07-25 | 宜通世纪科技股份有限公司 | 一种识别终端型号的方法、系统、装置及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102333092A (zh) * | 2011-09-30 | 2012-01-25 | 北京亿赞普网络技术有限公司 | 一种网络用户识别的方法及其应用服务器 |
CN102577328A (zh) * | 2010-07-15 | 2012-07-11 | 莫维克网络公司 | 无线移动网络中的设备识别、缓存控制以及增强型cdn通信 |
CN102722585A (zh) * | 2012-06-08 | 2012-10-10 | 亿赞普(北京)科技有限公司 | 浏览器类型识别方法、装置及系统 |
CN102932775A (zh) * | 2012-11-16 | 2013-02-13 | 广州市通联技术发展有限公司 | 一种利用imei与ua结合进行终端识别的方法及装置 |
CN104283918A (zh) * | 2013-07-05 | 2015-01-14 | 中国移动通信集团浙江有限公司 | 一种无线局域网终端类型获取方法及系统 |
CN104602274A (zh) * | 2014-12-05 | 2015-05-06 | 珠海世纪鼎利通信科技股份有限公司 | 一种动态识别终端品牌和终端类型的方法及系统 |
CN105704177A (zh) * | 2014-11-26 | 2016-06-22 | 阿里巴巴集团控股有限公司 | 一种ua识别方法、装置 |
CN105706400A (zh) * | 2013-11-05 | 2016-06-22 | 思科技术公司 | 网络结构覆盖 |
CN106576051A (zh) * | 2014-08-20 | 2017-04-19 | 迈克菲股份有限公司 | 使用主机应用/程序到用户代理的映射的零日威胁检测 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7363354B2 (en) * | 2001-11-29 | 2008-04-22 | Nokia Corporation | System and method for identifying and accessing network services |
US8717608B2 (en) * | 2011-03-31 | 2014-05-06 | Brother Kogyo Kabushiki Kaisha | Terminal device and method generating print data based on one set of web-page information |
US9547727B2 (en) * | 2011-07-25 | 2017-01-17 | Scientiamobile, Inc. | System and method for using a device description repository |
JP5692186B2 (ja) * | 2012-08-10 | 2015-04-01 | コニカミノルタ株式会社 | 画像形成装置、ウェブページ取得方法およびウェブページ取得プログラム |
US9405813B1 (en) * | 2015-02-19 | 2016-08-02 | Vuclip | Media device knowledge base |
-
2017
- 2017-07-10 CN CN201710555890.6A patent/CN109246163B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102577328A (zh) * | 2010-07-15 | 2012-07-11 | 莫维克网络公司 | 无线移动网络中的设备识别、缓存控制以及增强型cdn通信 |
CN102333092A (zh) * | 2011-09-30 | 2012-01-25 | 北京亿赞普网络技术有限公司 | 一种网络用户识别的方法及其应用服务器 |
CN102722585A (zh) * | 2012-06-08 | 2012-10-10 | 亿赞普(北京)科技有限公司 | 浏览器类型识别方法、装置及系统 |
CN102932775A (zh) * | 2012-11-16 | 2013-02-13 | 广州市通联技术发展有限公司 | 一种利用imei与ua结合进行终端识别的方法及装置 |
CN104283918A (zh) * | 2013-07-05 | 2015-01-14 | 中国移动通信集团浙江有限公司 | 一种无线局域网终端类型获取方法及系统 |
CN105706400A (zh) * | 2013-11-05 | 2016-06-22 | 思科技术公司 | 网络结构覆盖 |
CN106576051A (zh) * | 2014-08-20 | 2017-04-19 | 迈克菲股份有限公司 | 使用主机应用/程序到用户代理的映射的零日威胁检测 |
CN105704177A (zh) * | 2014-11-26 | 2016-06-22 | 阿里巴巴集团控股有限公司 | 一种ua识别方法、装置 |
CN104602274A (zh) * | 2014-12-05 | 2015-05-06 | 珠海世纪鼎利通信科技股份有限公司 | 一种动态识别终端品牌和终端类型的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109246163A (zh) | 2019-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109246163B (zh) | 终端信息识别方法及装置 | |
CN110020422B (zh) | 特征词的确定方法、装置和服务器 | |
CN110245165B (zh) | 风险传导关联图谱优化方法、装置和计算机设备 | |
CN106844640B (zh) | 一种网页数据分析处理方法 | |
CN107257390B (zh) | 一种url地址的解析方法和系统 | |
CN106970993B (zh) | 挖掘模型更新方法和装置 | |
US10762437B2 (en) | Self-learning based crawling and rule-based data mining for automatic information extraction | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN106294219B (zh) | 一种设备识别、数据处理方法、装置及系统 | |
CN108536745B (zh) | 基于Shell的数据表提取方法、终端、设备及存储介质 | |
CN109146625B (zh) | 一种基于内容的多版本App更新评价方法及系统 | |
CN102984161A (zh) | 一种可信网站的识别方法和装置 | |
CN112394908A (zh) | 埋点页面自动生成的方法、装置、计算机设备及存储介质 | |
CN115033894B (zh) | 一种基于知识图谱的软件组件供应链安全检测方法及装置 | |
CN111666298A (zh) | 基于flink的用户服务类别检测方法、装置、计算机设备 | |
CN113568841A (zh) | 一种针对小程序的风险检测方法、装置及设备 | |
CN112148305A (zh) | 一种应用检测方法、装置、计算机设备和可读存储介质 | |
CN110990350B (zh) | 日志的解析方法及装置 | |
US9336316B2 (en) | Image URL-based junk detection | |
CN110147223B (zh) | 组件库的生成方法、装置及设备 | |
CN109634569B (zh) | 基于注解的流程实现方法、装置、设备及可读存储介质 | |
CN111062736A (zh) | 模型训练、线索排序方法、装置及设备 | |
CN102984162A (zh) | 可信网站的识别方法和收集系统 | |
CN112363814A (zh) | 任务调度方法、装置、计算机设备及存储介质 | |
CN113806647A (zh) | 识别开发框架的方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |