CN107395421B - 采集方法及系统 - Google Patents
采集方法及系统 Download PDFInfo
- Publication number
- CN107395421B CN107395421B CN201710622033.3A CN201710622033A CN107395421B CN 107395421 B CN107395421 B CN 107395421B CN 201710622033 A CN201710622033 A CN 201710622033A CN 107395421 B CN107395421 B CN 107395421B
- Authority
- CN
- China
- Prior art keywords
- information
- configuration information
- domain name
- characteristic value
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0813—Configuration setting characterised by the conditions triggering a change of settings
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/08—Testing, supervising or monitoring using real traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供了一种采集方法及系统,用于对虚拟身份信息进行采集,所述方法包括:获取包含预存样本信息的报文,提取与该报文中包含的样本信息对应的特征值及域名信息,并根据特征值及域名信息生成配置信息;根据生成的配置信息对预存的配置信息进行更新,得到更新后的配置信息并保存;获取包含更新后的配置信息中的特征值和域名信息的报文,从该报文中采集出与更新后的配置信息中的特征值对应的虚拟身份信息。该采集方案通过特征值的自主学习,以适应于因应用程序等升级而使特征值发生改变,从而对虚拟身份采集带来的影响,提高了虚拟身份采集的多样性及有效性,并提高了虚拟身份信息成功采集概率。
Description
技术领域
本发明涉及无线通信技术领域,具体而言,涉及一种采集方法及系统。
背景技术
WIFI采集终端,是通过抓取空中的WIFI报文,来获取所需要信息的一种监听设备,也叫WIFI探针或嗅探器。在WIFI采集终端中通常内置一个WIFI模块,设置为监听模式,在这种模式下该模块可以接收空中的WIFI报文来抓取例如电话号码等虚拟身份信息。针对这种信息的采集,目前通常的做法是直接抓取某类报文,搜索某个固定特征值,根据这个特征值提取出所需要的信息。这样做需要一个前提,就是必须先分析大量的报文,找出虚拟身份的特征值,然后把这些特征值写入固件程序中。由于采样毕竟是不全面的,没有人为操作,报文就不会产生出来,提取的特征值肯定是不全面的,而且随着版本的升级可能会导致特征值的变化,这样信息就再也采集不到了,导致成功采集到虚拟身份信息的概率较低。
发明内容
有鉴于此,本发明的目的在于提供一种采集方法及系统,以解决上述问题。
本发明较佳实施例提供一种采集方法,用于对虚拟身份信息进行采集,所述方法包括:
获取包含预存样本信息的报文,提取与所述报文中包含的样本信息对应的特征值及域名信息,并根据所述特征值及所述域名信息生成配置信息;
根据生成的所述配置信息对预存的配置信息进行更新,得到更新后的配置信息并保存;
获取包含更新后的配置信息中的特征值和域名信息的报文,从该报文中采集出与所述更新后的配置信息中的特征值对应的虚拟身份信息。
进一步地,所述方法还包括:
根据当前采集到的虚拟身份信息判断是否满足样本更新条件,若满足,则对所述预存样本信息进行更新,得到更新后的预存样本信息;
在存在更新后的预存样本信息时,所述获取包含预存样本信息的报文的步骤,包括:
获取包括更新后的预存样本信息的报文。
进一步地,所述根据当前采集到的虚拟身份信息判断是否满足样本更新条件的步骤,包括:
记录根据所述特征值采集到虚拟身份信息为样本信息时的时间点;
检测在预设时长内是否再次采集到该样本信息对应的虚拟身份信息,若在所述预设时长内未再次采集到该样本信息对应的虚拟身份信息,则判定该样本信息失效,满足样本更新条件。
进一步地,所述对所述预存样本信息进行更新的步骤,包括:
统计预设时长内采集到的虚拟身份信息,以及各虚拟身份信息的权值;
对各虚拟身份信息的权值进行比较,根据比较结果获得更新样本信息;
用所述更新样本信息替换已失效的样本信息以对所述预存样本信息进行更新。
进一步地,所述根据生成的所述配置信息对预存的配置信息进行更新,得到更新后的配置信息并保存的步骤,包括:
对生成的所述配置信息进行简化,得到简化后的配置信息;
将简化后的配置信息中的特征值及域名信息分别与所述预存配置信息中的特征值及域名信息进行匹配,并记录下匹配时间戳;
查找出所述预存配置信息中处于未匹配状态超过预设时长的特征值及域名信息,并将查找出的特征值和域名信息剔除;
将简化后的配置信息与剔除后的配置信息合并得到更新后的配置信息并保存。
进一步地,所述对生成的所述配置信息进行简化,得到简化后的配置信息的步骤,包括:
查找生成的配置信息中与预存配置信息中的特征值及域名信息相同的特征值及域名信息;
删除查找出的特征值及域名信息,得到简化后的配置信息。
进一步地,所述对生成的所述配置信息进行简化,得到简化后的配置信息的步骤,包括:
对生成的配置信息中的特征值及域名信息进行分类,得到多个类别;
提取出各类别中的特征值的公共部分以及各类别中的域名信息的公共部分作为简化后的配置信息。
进一步地,所述对生成的配置信息进行简化的步骤,包括:
查找出生成的配置信息中的所有特征值中与其他特征值不具有公共部分的特征值,以及所有域名信息中与其他域名信息不具有公共部分的域名信息作为简化后的配置信息。
本发明的另一较佳实施例还提供一种采集系统,用于对虚拟身份信息进行采集,所述采集系统包括:
获取模块,用于获取包含预存样本信息的报文,提取与所述报文中包含的样本信息对应的特征值及域名信息,并根据所述特征值及所述域名信息生成配置信息;
第一更新模块,用于根据生成的所述配置信息对预存的配置信息进行更新,得到更新后的配置信息并保存;
采集模块,用于获取包含更新后的配置信息中的特征值和域名信息的报文,从该报文中采集出与所述更新后的配置信息中的特征值对应的虚拟身份信息。
进一步地,所述采集系统还包括判断模块以及第二更新模块;
所述判断模块用于根据当前采集到的虚拟身份信息判断是否满足样本更新条件;
所述第二更新模块用于在满足样本更新条件时,对所述预存样本信息进行更新,得到更新后的预存样本信息;
在存在更新后的预存样本信息时,所述获取模块还用于获取包括更新后的预存样本信息的报文。
本发明实施例提供的采集方法及系统,用于对虚拟身份信息进行采集。通过提取包含预存样本信息的报文中的特征值,并根据提取出的特征值对预存配置信息中的特征值进行更新,以更新后的特征值去截获报文以获得相应的虚拟身份信息。该采集方案通过特征值的自主学习,以适应于因应用程序等升级而使特征值发生改变,从而对虚拟身份采集带来的影响。该采集方案提高了系统的可维护性,不需要持续人工抓包以分析特征值,通过特征值持续学习提高了虚拟身份采集的多样性及有效性,并提高了虚拟身份信息成功采集概率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明较佳实施例提供的采集方法的应用场景示意图。
图2为本发明较佳实施例提供的采集终端的示意性结构框图。
图3为本发明较佳实施例提供的采集方法的流程图。
图4为图3中步骤S102的子步骤的流程图。
图5为图4中步骤S1021的子步骤的流程图。
图6为图4中步骤S1021的子步骤的另一流程图。
图7为图3中步骤S104的子步骤的流程图。
图8为图3中步骤S105的子步骤的流程图。
图9为本发明较佳实施例提供的采集系统的功能模块框图。
图10为本发明较佳实施例提供的第一更新模块的功能模块框图。
图11为本发明较佳实施例提供的判断模块的功能模块框图。
图12为本发明较佳实施例提供的第二更新模块的功能模块框图。
图标:100-采集设备;110-采集系统;111-获取模块;112-第一更新模块;1121-简化单元;1122-匹配单元;1123-剔除单元;1124-合并单元;113-采集模块;114-判断模块;1141-记录单元;1142-检测单元;1143-判定单元;115-第二更新模块;1151-统计单元;1152-比较单元;1153-更新单元;120-处理器;130-存储器;200-移动终端。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
请参阅图1,为本发明较佳实施例提供的采集方法的应用场景示意图。该场景中包括能够建立通信连接的采集设备100及移动终端200,所述移动终端200能够通过WIFI连接无线AP后进行联网。所述采集设备100可监听空中无线报文,以获取到无线报文中的信息。所述移动终端200可以是智能手机、平板电脑、移动上网设备等。
在本实施例中,所需采集的信息可以包括但不限于移动终端200和无线AP热点的MAC地址、信号强度,移动终端200的电话号码、IMEI号、IMSI号,移动终端200的品牌、操作系统,运行的QQ号码、携程账号、淘宝账号等等。
请参阅图2,为本发明较佳实施例提供的采集设备100的示意性结构框图。所述采集设备100包括采集系统110、处理器120以及存储器130。其中,所述存储器130与所述处理器120之间直接或间接的电性连接,以实现数据的传输或交互。所述采集系统110包括至少一个可以软件或固件的形式存储于所述存储器130中或固化在所述采集设备100的操作系统中的软件功能模块。所述处理器120用于执行所述存储器130中存储的可执行模块,例如所述采集系统110包括的软件功能模块或计算机程序。
请参阅图3,为本发明较佳实施例提供的应用于上述采集设备100的采集方法的流程图。所应说明的是,本发明提供的方法不以图3及以下所述的具体顺序为限制。下面将对图3中示出的各步骤进行详细说明。
步骤S101,获取包含预存样本信息的报文,提取与所述报文中包含的样本信息对应的特征值及域名信息,并根据所述特征值及所述域名信息生成配置信息。
在本实施例中,所述的采集方法主要是针对例如QQ号、携程账号、淘宝账号等虚拟身份信息的采集。可选地,所述采集设备100中预存有样本信息,即预存样本信息。该预存样本信息为预先配置并保存的,例如可设置一些周围人的手机号、QQ号等各种所需提取的信息来作为预存样本信息。应当理解,该预存样本信息可以为一个样本信息集,可以包括多个样本信息。例如,在需要增加一个虚拟身份采集时,比如淘宝ID,则需要输入一与淘宝ID对应的样本信息。可直接在预存样本集中增加一个正在使用的真实淘宝ID账号,如pheobus。并且,在该预存样本集中还保存有虚拟身份信息类型和样本信息之间的关联。
在具体实施时,启动无线报文的采集线程以监听空中HTTP无线报文。在监听到的报文中搜索是否包含预存的样本信息集中的样本信息,例如是否包含pheobus。将包含预存样本信息的报文截取下来,以便后续作进一步地处理。若没有搜索到该样本信息,则进行其他样本信息的匹配,若都匹配不上则丢弃该段报文。
可选地,对截获到的报文进行分析处理,例如可根据URL编码和JSON格式分析报文内容,过滤出与pheobus样本信息对应的特征值,如_w_tb_nick。并且,提取出该报文中的域名信息,如a.taobao.com。并根据获得的特征值以及域名信息生成配置信息。需要说明的是,在本实施例中利用特征值及域名信息以共同生成配置信息,是由于域名信息可以起到判定虚拟身份信息类型的作用。增加域名信息可避免单独以特征值进行虚拟身份采集而导致采集到的虚拟身份信息错误的现象。利用特征值并结合域名信息以生成配置信息,可提高后续虚拟身份信息采集的准确性。
步骤S102,根据生成的所述配置信息对预存的配置信息进行更新,得到更新后的配置信息并保存。
在本实施例中,所述采集设备100中预存有配置信息,可根据生成的配置信息对预存的配置信息进行更新,以便后续以更新后的配置信息来采集对应的虚拟身份信息。
请参阅图4,可选地,在本实施例中,步骤S102可以包括步骤S1021、步骤S1022、步骤S1023和步骤S1024四个子步骤。
步骤S1021,对生成的所述配置信息进行简化,得到简化后的配置信息。
请参阅图5,在本实施例中,步骤S1021包括步骤S10211和步骤S10212两个子步骤。
步骤S10211,查找生成的配置信息中与预存配置信息中的特征值及域名信息相同的特征值及域名信息。
步骤S10212,删除查找出的特征值及域名信息,得到简化后的配置信息。
在本实施例中,为了尽量精简配置信息内容,则需要将生成的配置信息中已被预存的配置信息所覆盖的内容删除。可选地,将生成的配置信息中的特征值及域名信息分别与预存的配置信息中的特征值和域名信息进行对比和匹配,将生成的配置信息中的和预存的配置信息中的特征值和域名信息分别相同的特征值和域名信息查找出来,并且将查找出来的特征值和域名信息删除掉,以删除后的配置信息作为简化后的配置信息。
请参阅图6,在本实施例中,步骤S1021还可以包括步骤S10213和步骤S10214两个子步骤。
步骤S10213,对生成的配置信息中的特征值及域名信息进行分类,得到多个类别。
步骤S10214,提取出各类别中的特征值的公共部分以及各类别中的域名信息的公共部分作为简化后的配置信息。
在本实施例中,除了上述的对生成的配置信息的简化过程之外,还可以采用其他的简化过程。在本实施例中,为了尽量减少特征值和域名信息的类别,可对生成的配置信息中的特征值和域名信息进行分类,以得到多个类别。将各类别中的特征值及域名信息的公共部分提取出来,以将其作为简化后的配置信息。例如,对于域名信息,域名信息b.taobao.com和c.taobao.com均包含相同的部分taobao.com,则可以将该类域名信息进行简化,以taobao.com作为简化后的域名信息并进行保存。
应当理解,在本实施例中,上述的两种简化操作,即对已被预存的配置信息所覆盖的特征值及域名信息的删除操作,以及对生成的配置信息中的公共部分的提取操作,可以只包含其中一种简化操作,也可以同时包含两种简化操作,在本实施例中并不作具体限制。
可选地,在本实施例中,步骤S1021还可以包括以下子步骤。
查找出生成的配置信息中的所有特征值中与其他特征值不具有公共部分的特征值,以及所有域名信息中与其他域名信息不具有公共部分的域名信息作为简化后的配置信息。
在本实施例中,除了上述的对生成的配置信息的简化操作外,还需要考虑特征值多样性的保留。可选地,查找出生成的配置信息中的所有特征值中与其他特征值不具有公共部分的特征值,以及所有域名信息中与其他域名信息不具有公共部分的域名信息以作为简化后的配置信息。例如,生成的配置信息中的特征值tracknick,lgc,_nk等,和其他的特征值不具有公共部分,并且和预存的配置信息完全不同,则可以将上述的特征值保留下来,以作为简化后的配置信息,以便后续对预存的配置信息进行更新。
应当理解,上述的三种简化操作,即对已被预存的配置信息所覆盖的特征值及域名信息的删除操作、对生成的配置信息中的公共部分的提取操作,以及对不具备公共部分的特征值和域名信息的保留操作,可以包含其中一种简化操作,也可以同时包含其中两种简化操作或者是同时包含以上三种简化操作,在本实施例中并不作具体限制。
步骤S1022,将简化后的配置信息中的特征值及域名信息分别与所述预存配置信息中的特征值及域名信息进行匹配,并记录下匹配时间戳。
步骤S1023,查找出所述预存配置信息中处于未匹配状态超过预设时长的特征值及域名信息,并将查找出的特征值和域名信息剔除。
步骤S1024,将简化后的配置信息与剔除后的配置信息合并得到更新后的配置信息并保存。
在本实施例中,考虑到特征值和域名信息可能会因为版本升级的原因修改了以前的处理方式而导致该特征值或域名信息老化的现象,需要对现有特征值和域名信息的有效性进行定期检测,以避免不必要的系统消耗。可选地,在本实施例中,将简化的特征值和域名信息分别去匹配预存配置信息中的特征值和域名信息。若预存配置信息中的特征值和/域名信息能够被匹配上,则表示该特征值和/或域名信息被命中,并且记录下被命中的时间戳。
可选地,间隔预设时长,例如十天或二十天,检测各特征值及域名信息的命中情况,查找出上一次的命中时间戳距离当前超过该预设时长的特征值及域名信息。若某一特征值或域名信息在该预设时长内一直处于未命中状态,则表示该特征值或域名信息已老化,需要将该特征值或域名信息从预存配置信息中剔除掉。
在本实施例中,将简化后的配置信息中的特征值及域名信息与剔除老化后的特征值和/或域名信息的预存配置信息中的特征值和域名信息进行合并,以得到更新后的配置信息。
步骤S103,获取包含更新后的配置信息中的特征值和域名信息的报文,从该报文中采集出与所述更新后的配置信息中的特征值对应的虚拟身份信息。
在本实施例中,在配置信息中的特征值进行更新后,转至信息采集线程。在信息采集线程,在监听到的报文中搜索更新后的配置信息中的特征值及域名信息。将包含有更新后的配置信息中的特征值及域名信息的报文截获,并且根据截获下来的报文中的特征值提取出对应的虚拟身份信息。可选地,在本实施例中,所述采集设备100可将获得的虚拟身份信息上报至上层服务器,至此完成虚拟身份信息采集过程。
在本实施例中,所述采集方法还可以根据虚拟身份信息的采集命中情况来对预存样本信息进行更新。在本实施例中,所述采集方法还包括以下步骤:
步骤S104,根据当前采集到的虚拟身份信息判断是否满足样本更新条件,若满足,则执行以下步骤S105。
步骤S105,对所述预存样本信息进行更新,得到更新后的预存样本信息。
请参阅图7,在本实施例中,步骤S104包括步骤S1041和步骤S1042两个子步骤。
步骤S1041,记录根据所述特征值采集到虚拟身份信息为样本信息时的时间点。
步骤S1042,检测在预设时长内是否再次采集到该样本信息对应的虚拟身份信息,若在所述预设时长内未再次采集到该样本信息对应的虚拟身份信息,则判定该样本信息失效,满足样本更新条件。
在本实施例中,记录下根据某一特征值而采集到相应的虚拟身份信息的时间点,并获得该特征值相应的样本信息。间隔一预设时长,例如两天或三天,进行虚拟身份采集情况的检测。检测在该预设时长内是否再次采集到该样本信息对应的虚拟身份信息,若在该预设时长内并未再次采集到该样本信息对应的虚拟身份信息,则表明该样本信息已经失效,则需要对预存样本信息进行更新,以提高预存样本信息的命中率。
请参阅图8,在本实施例中,步骤S105包括步骤S1051、步骤S1052和步骤S1053三个子步骤。
步骤S1051,统计预设时长内采集到的虚拟身份信息,以及各虚拟身份信息的权值。
步骤S1052,对各虚拟身份信息的权值进行比较,根据比较结果获得更新样本信息。
步骤S1053,用所述更新样本信息替换已失效的样本信息以对所述预存样本信息进行更新。
在本实施例中,根据当前所能稳定采集到的虚拟身份信息的情况,来对预存样本信息进行更新。可选地,统计在预设时长内,例如一小时或两小时,采集到的虚拟身份信息以及各虚拟身份信息的权值。即在该预设时长内虚拟身份信息的被命中情况,某虚拟身份信息每被命中一次,则其权值加1。
将最终得到的各虚拟身份信息的权值进行比较,根据比较结果获得更新样本信息。例如,查找出权值排名前三的虚拟身份信息,将排名前三的虚拟身份信息作为更新样本信息。例如若采集到的某一种类的虚拟身份信息中,如淘宝账号,排名前三的分别是pheobus,zhangsan,lisi。则需要把这三个账号作为更新样本信息以对预存样本信息进行更新。
可选地,将通过上述步骤判定的所述预存样本信息中已失效的样本信息替换为获得的更新样本信息,以此来对预存样本信息进行更新,获得更新后的预存样本信息。在本实施例中,在对预存样本信息进行更新后,再根据该更新后的预存样本信息去截获报文,以获得包含该更新后的预存样本信息的报文。以更新后的样本信息进行后续特征值的学习,自此整个自主学习的闭环建立完成。
通过上述步骤,可以持续使用样本信息学习出来的有效特征值,来进行匹配以采集到虚拟身份信息。同时又能自主将采集到的虚拟身份信息反馈回来优化样本信息。如此形成了一个良性闭环,能够保证系统适用于多种复杂的报文情况,不再受移动终端200应用程序升级而对虚拟身份信息采集带来的影响。
请参阅图9,为本发明较佳实施例提供的采集系统110的功能性模块框图。所述采集系统110包括获取模块111、第一更新模块112、采集模块113、判断模块114以及第二更新模块115。
所述获取模块111用于获取包含预存样本信息的报文,提取与所述报文中包含的样本信息对应的特征值及域名信息,并根据所述特征值及所述域名信息生成配置信息。具体地,该获取模块111可用于执行图3中所示的步骤S101,具体的操作方法可参考步骤S101的详细描述。
所述第一更新模块112用于根据生成的所述配置信息对预存的配置信息进行更新,得到更新后的配置信息并保存。具体地,该第一更新模块112可用于执行图3中所示的步骤S102,具体的操作方法可参考步骤S102的详细描述。
所述采集模块113用于获取包含更新后的配置信息中的特征值和域名信息的报文,从该报文中采集出与所述更新后的配置信息中的特征值对应的虚拟身份信息。具体地,该采集模块113可用于执行图3中所示的步骤S103,具体的操作方法可参考步骤S103的详细描述。
所述判断模块114用于根据当前采集到的虚拟身份信息判断是否满足样本更新条件。具体地,该判断模块114可用于执行图3中所示的步骤S104,具体的操作方法可参考步骤S104的详细描述。
所述第二更新模块115用于在满足样本更新条件时,对所述预存样本信息进行更新,得到更新后的预存样本信息。具体地,该第二更新模块115可用于执行图3中所示的步骤S105,具体的操作方法可参考步骤S105的详细描述。
在存在更新后的预存样本信息时,所述获取模块111还用于获取包括更新后的预存样本信息的报文。
请参阅图10,在本实施例中,所述第一更新模块112包括简化单元1121、匹配单元1122、剔除单元1123以及合并单元1124。
所述简化单元1121用于对生成的所述配置信息进行简化,得到简化后的配置信息。具体地,该简化单元1121可用于执行图4中所示的步骤S1021,具体的操作方法可参考步骤S1021的详细描述。
所述匹配单元1122用于将简化后的配置信息中的特征值及域名信息分别与所述预存配置信息中的特征值及域名信息进行匹配,并记录下匹配时间戳。具体地,该匹配单元1122可用于执行图4中所示的步骤S1022,具体的操作方法可参考步骤S1022的详细描述。
所述剔除单元1123用于查找出所述预存配置信息中处于未匹配状态超过预设时长的特征值及域名信息,并将查找出的特征值和域名信息剔除。具体地,该剔除单元1123可用于执行图4中所示的步骤S1023,具体的操作方法可参考步骤S1023的详细描述。
所述合并单元1124用于将简化后的配置信息与剔除后的配置信息合并得到更新后的配置信息并保存。具体地,该合并单元1124可用于执行图4中所示的步骤S1024,具体的操作方法可参考步骤S1024的详细描述。
请参阅图11,在本实施例中,所述判断模块114包括记录单元1141、检测单元1142以及判定单元1143。
所述记录单元1141用于记录根据所述特征值采集到虚拟身份信息为样本信息时的时间点。具体地,该记录单元1141可用于执行图7中所示的步骤S1041,具体的操作方法可参考步骤S1041的详细描述。
所述检测单元1142用于检测在预设时长内是否再次采集到该样本信息对应的虚拟身份信息。所述判定单元1143用于在所述预设时长内未再次采集到该样本信息对应的虚拟身份信息时,判定该样本信息失效,满足样本更新条件。具体地,该检测单元1142和所述判定单元1143可共同用于执行图7中所示的步骤S1042,具体的操作方法可参考步骤S1042的详细描述。
请参阅图12,在本实施例中,所述第二更新模块115包括统计单元1151、比较单元1152以及更新单元1153。
所述统计单元1151用于统计预设时长内采集到的虚拟身份信息,以及各虚拟身份信息的权值。具体地,该统计单元1151可用于执行图8中所示的步骤S1051,具体的操作方法可参考步骤S1051的详细描述。
所述比较单元1152用于对各虚拟身份信息的权值进行比较,根据比较结果获得更新样本信息。具体地,该比较单元1152可用于执行图8中所示的步骤S1052,具体的操作方法可参考步骤S1052的详细描述。
所述更新单元1153用于用所述更新样本信息替换已失效的样本信息以对所述预存样本信息进行更新。具体地,该更新单元1153可用于执行图5中所示的步骤S1053,具体的操作方法可参考步骤S1053的详细描述。
综上所述,本发明提供的采集方法及系统,用于对虚拟身份信息进行采集,通过提取包含预存样本信息的报文中的特征值,并根据提取出的特征值对预存配置信息中的特征值进行更新,以更新后的特征值去截获报文以获得相应的虚拟身份信息。并且根据当前稳定采集到的虚拟身份信息对预存样本信息进行更新,以更新后的样本信息再次去截获报文。该采集方案引入特征值学习,通过持续学习的特征值以获得相应的虚拟身份信息,再以当前采集到的虚拟身份信息来生成更新样本信息,以此来对特征值的学习样本进行更新。形成了一个自主的良性循环系统,各类虚拟身份信息的特征值越来越完善,保证了尽可能多的采集到虚拟身份信息,并且还避免了因为应用程序版本升级而对虚拟身份信息采集带来的影响。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种采集方法,用于对虚拟身份信息进行采集,其特征在于,所述方法包括:
获取包含预存样本信息的报文,提取与所述报文中包含的样本信息对应的特征值及域名信息,并根据所述特征值及所述域名信息生成配置信息;
根据生成的所述配置信息对预存的配置信息进行更新,得到更新后的配置信息并保存;
获取包含更新后的配置信息中的特征值和域名信息的报文,从该报文中采集出与所述更新后的配置信息中的特征值对应的虚拟身份信息;
其中,所述根据生成的所述配置信息对预存的配置信息进行更新,得到更新后的配置信息并保存的步骤,包括:
对生成的所述配置信息进行简化,得到简化后的配置信息;
将简化后的配置信息中的特征值及域名信息分别与所述预存配置信息中的特征值及域名信息进行匹配,并记录下匹配时间戳;
查找出所述预存配置信息中处于未匹配状态超过预设时长的特征值及域名信息,并将查找出的特征值和域名信息剔除;
将简化后的配置信息与剔除后的配置信息合并得到更新后的配置信息并保存。
2.根据权利要求1所述的采集方法,其特征在于,所述方法还包括:
根据当前采集到的虚拟身份信息判断是否满足样本更新条件,若满足,则对所述预存样本信息进行更新,得到更新后的预存样本信息;
在存在更新后的预存样本信息时,所述获取包含预存样本信息的报文的步骤,包括:
获取包括更新后的预存样本信息的报文。
3.根据权利要求2所述的采集方法,其特征在于,所述根据当前采集到的虚拟身份信息判断是否满足样本更新条件的步骤,包括:
记录根据所述特征值采集到虚拟身份信息为样本信息时的时间点;
检测在预设时长内是否再次采集到该样本信息对应的虚拟身份信息,若在所述预设时长内未再次采集到该样本信息对应的虚拟身份信息,则判定该样本信息失效,满足样本更新条件。
4.根据权利要求3所述的采集方法,其特征在于,所述对所述预存样本信息进行更新的步骤,包括:
统计预设时长内采集到的虚拟身份信息,以及各虚拟身份信息的权值;
对各虚拟身份信息的权值进行比较,根据比较结果获得更新样本信息;
用所述更新样本信息替换已失效的样本信息以对所述预存样本信息进行更新。
5.根据权利要求1所述的采集方法,其特征在于,所述对生成的所述配置信息进行简化,得到简化后的配置信息的步骤,包括:
查找生成的配置信息中与预存配置信息中的特征值及域名信息相同的特征值及域名信息;
删除查找出的特征值及域名信息,得到简化后的配置信息。
6.根据权利要求1所述的采集方法,其特征在于,所述对生成的所述配置信息进行简化,得到简化后的配置信息的步骤,包括:
对生成的配置信息中的特征值及域名信息进行分类,得到多个类别;
提取出各类别中的特征值的公共部分以及各类别中的域名信息的公共部分作为简化后的配置信息。
7.根据权利要求1所述的采集方法,其特征在于,所述对生成的配置信息进行简化的步骤,包括:
查找出生成的配置信息中的所有特征值中与其他特征值不具有公共部分的特征值,以及所有域名信息中与其他域名信息不具有公共部分的域名信息作为简化后的配置信息。
8.一种采集系统,用于对虚拟身份信息进行采集,其特征在于,所述采集系统包括:
获取模块,用于获取包含预存样本信息的报文,提取与所述报文中包含的样本信息对应的特征值及域名信息,并根据所述特征值及所述域名信息生成配置信息;
第一更新模块,用于根据生成的所述配置信息对预存的配置信息进行更新,得到更新后的配置信息并保存;
采集模块,用于获取包含更新后的配置信息中的特征值和域名信息的报文,从该报文中采集出与所述更新后的配置信息中的特征值对应的虚拟身份信息;
其中,所述第一更新模块用于通过以下方式对预存的额配置信息进行更新:
对生成的所述配置信息进行简化,得到简化后的配置信息;
将简化后的配置信息中的特征值及域名信息分别与所述预存配置信息中的特征值及域名信息进行匹配,并记录下匹配时间戳;
查找出所述预存配置信息中处于未匹配状态超过预设时长的特征值及域名信息,并将查找出的特征值和域名信息剔除;
将简化后的配置信息与剔除后的配置信息合并得到更新后的配置信息并保存。
9.根据权利要求8所述的采集系统,其特征在于,所述采集系统还包括判断模块以及第二更新模块;
所述判断模块用于根据当前采集到的虚拟身份信息判断是否满足样本更新条件;
所述第二更新模块用于在满足样本更新条件时,对所述预存样本信息进行更新,得到更新后的预存样本信息;
在存在更新后的预存样本信息时,所述获取模块还用于获取包括更新后的预存样本信息的报文。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710622033.3A CN107395421B (zh) | 2017-07-27 | 2017-07-27 | 采集方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710622033.3A CN107395421B (zh) | 2017-07-27 | 2017-07-27 | 采集方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107395421A CN107395421A (zh) | 2017-11-24 |
CN107395421B true CN107395421B (zh) | 2020-09-01 |
Family
ID=60342537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710622033.3A Active CN107395421B (zh) | 2017-07-27 | 2017-07-27 | 采集方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107395421B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101741908A (zh) * | 2009-12-25 | 2010-06-16 | 青岛朗讯科技通讯设备有限公司 | 一种应用层协议特征的识别方法 |
CN101753316A (zh) * | 2008-12-02 | 2010-06-23 | 北京启明星辰信息技术股份有限公司 | 一种智能特征提取方法及系统 |
CN101964813A (zh) * | 2010-09-21 | 2011-02-02 | 北京网康科技有限公司 | 一种在gprs网络中检测终端信息的方法及系统 |
CN102567788A (zh) * | 2010-12-28 | 2012-07-11 | 中国移动通信集团重庆有限公司 | 一种通信业务欺诈行为的实时识别系统和方法 |
CN103905261A (zh) * | 2012-12-26 | 2014-07-02 | 中国电信股份有限公司 | 协议特征库在线更新方法及系统 |
CN106656655A (zh) * | 2016-10-31 | 2017-05-10 | 海纳信成(北京)信息技术有限公司 | 一种手机号码提取方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063645B (zh) * | 2014-07-01 | 2017-08-04 | 清华大学深圳研究生院 | 一种基于心电信号动态自更新样本的身份识别方法 |
CN104298751A (zh) * | 2014-10-14 | 2015-01-21 | 李小宜 | 互联网虚拟身份特征信息的获取方法及装置 |
CN105184932B (zh) * | 2015-10-08 | 2017-12-22 | 深圳市雨滴科技有限公司 | 一种通过智能门禁机进行人员识别的方法及装置 |
CN105657051B (zh) * | 2016-03-03 | 2020-03-24 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | P2p类应用的识别控制方法和系统 |
-
2017
- 2017-07-27 CN CN201710622033.3A patent/CN107395421B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101753316A (zh) * | 2008-12-02 | 2010-06-23 | 北京启明星辰信息技术股份有限公司 | 一种智能特征提取方法及系统 |
CN101741908A (zh) * | 2009-12-25 | 2010-06-16 | 青岛朗讯科技通讯设备有限公司 | 一种应用层协议特征的识别方法 |
CN101964813A (zh) * | 2010-09-21 | 2011-02-02 | 北京网康科技有限公司 | 一种在gprs网络中检测终端信息的方法及系统 |
CN102567788A (zh) * | 2010-12-28 | 2012-07-11 | 中国移动通信集团重庆有限公司 | 一种通信业务欺诈行为的实时识别系统和方法 |
CN103905261A (zh) * | 2012-12-26 | 2014-07-02 | 中国电信股份有限公司 | 协议特征库在线更新方法及系统 |
CN106656655A (zh) * | 2016-10-31 | 2017-05-10 | 海纳信成(北京)信息技术有限公司 | 一种手机号码提取方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107395421A (zh) | 2017-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109347827B (zh) | 网络攻击行为预测的方法、装置、设备及存储介质 | |
CN104270275B (zh) | 一种异常原因的辅助分析方法、服务器以及智能设备 | |
CN111078455A (zh) | 基于时间轴的异常行为序列关联处理方法以及装置、设备、存储介质 | |
KR20140054245A (ko) | 무선 자원 최적화 방법, 장치 및 시스템 | |
CN107273263A (zh) | 一种异常运行的分析方法、应用终端及监控服务器 | |
CN110210213B (zh) | 过滤恶意样本的方法及装置、存储介质、电子装置 | |
US9854208B2 (en) | System and method for detecting an object of interest | |
CN114077525A (zh) | 异常日志处理方法、装置、终端设备、云服务器及系统 | |
CN114450920B (zh) | 分布式安全检测系统、方法、设备及存储介质 | |
CN111049786A (zh) | 一种网络攻击的检测方法、装置、设备及存储介质 | |
CN112507087B (zh) | 终端设备识别方法、设备、存储介质及装置 | |
CN110149319A (zh) | Apt组织的追踪方法及装置、存储介质、电子装置 | |
CN109756467A (zh) | 一种钓鱼网站的识别方法及装置 | |
CN112565278A (zh) | 一种捕获攻击的方法及蜜罐系统 | |
JP2017060074A (ja) | ネットワーク分析装置、ネットワーク分析システム、及びネットワークの分析方法 | |
CN105515909A (zh) | 一种数据采集测试方法和装置 | |
Riadi et al. | Comparative analysis of forensic software on android-based michat using acpo and dfrws framework | |
CN107395421B (zh) | 采集方法及系统 | |
CN110324199B (zh) | 一种通用的协议解析框架的实现方法及装置 | |
CN110224975B (zh) | Apt信息的确定方法及装置、存储介质、电子装置 | |
CN117041070A (zh) | 一种网络空间测绘节点发现与归属判别方法和装置 | |
CN110188537A (zh) | 数据的分离存储方法及装置、存储介质、电子装置 | |
CN113268482B (zh) | 数据关联方法、装置和电子设备 | |
CN112395600B (zh) | 恶意行为的去误报方法、装置及设备 | |
CN111641756B (zh) | 诈骗识别方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |