CN108737203A - 一种集合提取的方法及装置 - Google Patents

一种集合提取的方法及装置 Download PDF

Info

Publication number
CN108737203A
CN108737203A CN201710239754.6A CN201710239754A CN108737203A CN 108737203 A CN108737203 A CN 108737203A CN 201710239754 A CN201710239754 A CN 201710239754A CN 108737203 A CN108737203 A CN 108737203A
Authority
CN
China
Prior art keywords
application program
host
host fields
fields
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710239754.6A
Other languages
English (en)
Other versions
CN108737203B (zh
Inventor
李广义
熊龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201710239754.6A priority Critical patent/CN108737203B/zh
Publication of CN108737203A publication Critical patent/CN108737203A/zh
Application granted granted Critical
Publication of CN108737203B publication Critical patent/CN108737203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例中公开了一种集合提取的方法及装置,该方法为分别提取每一个应用程序与网络侧交互的信息中包含的Host字段;分别设置每一个获取的Host字段与对应的应用程序之间的关联关系;基于关联关系,按照预设的规则,分别针对每一个应用程序对应的各个Host字段进行筛选处理;基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合,其中,一个应用程序对应的匹配集合中包含一个应用程序对应的各个Host字段。这样,可以去除大量冗余以及错误的Host字段,从而节省了匹配集合占用的存储资源,以及提高了应用程序与对应的匹配集合中包含的各个Host字段匹配的精准度。

Description

一种集合提取的方法及装置
技术领域
本申请涉及通信技术,尤其涉及一种集合提取的方法及装置。
背景技术
随着互联网技术的发展,智能终端(如,智能手机)越来越多地应用于上网,娱乐以及购物等活动。为了确定用户的网络行为,人们通常将智能终端与网络侧的设备(如,基站)进行交互的信息中包含的特征字段,与预设的匹配集合中包含的各个特征字段进行匹配,确定匹配成功时,获取对应上述特征字段对应的应用程序,从而判定用户对上述应用程序进行了操作。这样,运营商就可以根据用户的各种网络行为,对智能终端中的各种应用程序进行相应的推送以及管理等操作。
显然,为进行特征字段匹配,以确定用户的网络行为,就需要预先基于大量的样本信息,提取包含特征字段以及相应的应用程序的匹配样本。
现有技术下,对匹配集合进行提取,主要采用以下方式:
首先,人工下载待分析的各个应用程序,然后,人工触发各个下载的应用程序,并获取各个应用程序运行时传输的信息,作为信息样本集合,进一步地,人工获取信息样本集合中的各个信息包含的特征字段,最后,基于获取的各个特征字段以及相应的应用程序,获得匹配集合。
但是,采用这种方式,通过人工进行应用程序的下载以及各个应用程序对应的特征字段的获取,获取的特征字段中包含大量冗余以及错误的信息,以及由于应用程序的版本更新等原因导致应用程序对应的特征字段可能会频繁变动,因此,需要人工对各个应用程序的特征字段进行实时更新,显然,这会占用大量的系统资源,降低了应用程序与对应的匹配集合中包含的各个特征字段匹配的精准度。
发明内容
本申请实施例提供一种集合提取的方法及装置,用于在提取匹配集合时,去除大量冗余以及错误的Host字段,从而节省匹配集合占用的存储资源,筛选出每一个应用程序对应的准确的Host字段,提高应用程序与对应的匹配集合中包含的各个Host字段匹配的精准度。
本申请实施例提供的具体技术方案如下:
一种集合提取的方法,包括:
分别提取每一个应用程序与网络侧交互的信息中包含的Host字段;
分别设置每一个获取的Host字段与对应的应用程序之间的关联关系;
基于关联关系,按照预设的规则,分别针对每一个应用程序对应的各个Host字段进行筛选处理;
基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合,其中,一个应用程序对应的匹配集合中包含一个应用程序对应的各个Host字段。
较佳的,在分别提取每一个应用程序与网络侧交互的信息中包含的Host字段之前,进一步包括:
从本地配置文件中提取各个统一资源定位符URL;
分别下载获取的每一个URL对应的应用程序的安装文件;
基于获得的各个应用程序的安装文件,对各个应用程序进行安装以及运行;
获取各个应用程序在运行过程中与网络侧交互的信息。
较佳的,基于关联关系,按照预设的规则,分别针对每一个应用程序对应的各个Host字段进行筛选处理,具体包括:
基于关联关系,分别确定每一个应用程序对应的各个Host字段;
分别针对每一个应用程序对应的各个Host字段执行以下操作:
确定一个应用程序对应的各个Host字段中存在相同的Host字段时,对各个Host字段进行去重处理,获得字段去重集合;
获取预设的字段筛选集合,分别将字段去重集合中包含的每一个Host字段与字段筛选集合中包含的各个Host字段进行比对,获得字段去重集合中包含的各个Host字段对应的比对结果,其中,字段筛选集合中包含若干指定的参考应用程序对应的参考Host字段;
筛选出比对结果表征未比对成功的各个Host字段,其中,筛选出的各个Host字段未包含在字段筛选集合中。
较佳的,在基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合之后,进一步包括:
分别统计预设的时长内每一个Host字段对应的信息的总值;
筛选出总值高于预设的参考门限值的各个信息对应的Host字段;
将筛选出的各个Host字段作为参考Host字段,添加到字段筛选集合中。
较佳的,在基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合之后,进一步包括:
获取本地与网络侧交互的信息集合;
分别针对信息集合中包含的每一条信息执行以下操作:
按照预设的规则,提取一条信息中包含的Host字段;
分别将Host字段与获取的匹配集合中包含的每一个Host字段进行匹配,获得匹配结果;
确定匹配结果表征匹配成功时,确定与Host字段匹配成功
的匹配集合对应的应用程序,并基于应用程序确定用户的操作行为。
一种集合提取的装置,包括:
提取单元,用于分别提取每一个应用程序与网络侧交互的信息中包含的Host字段;
设置单元,用于分别设置每一个获取的Host字段与对应的应用程序之间的关联关系;
筛选单元,用于基于关联关系,按照预设的规则,分别针对每一个应用程序对应的各个Host字段进行筛选处理;
匹配单元,用于基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合,其中,一个应用程序对应的匹配集合中包含一个应用程序对应的各个Host字段。
较佳的,在分别提取每一个应用程序与网络侧交互的信息中包含的Host字段之前,提取单元还用于:
从本地配置文件中提取各个统一资源定位符URL;
分别下载获取的每一个URL对应的应用程序的安装文件;
基于获得的各个应用程序的安装文件,对各个应用程序进行安装以及运行;
获取各个应用程序在运行过程中与网络侧交互的信息。
较佳的,在基于关联关系,按照预设的规则,分别针对每一个应用程序对应的各个Host字段进行筛选处理时,筛选单元具体用于:
基于关联关系,分别确定每一个应用程序对应的各个Host字段;
分别针对每一个应用程序对应的各个Host字段执行以下操作:
确定一个应用程序对应的各个Host字段中存在相同的Host字段时,对各个Host字段进行去重处理,获得字段去重集合;
获取预设的字段筛选集合,分别将字段去重集合中包含的每一个Host字段与字段筛选集合中包含的各个Host字段进行比对,获得字段去重集合中包含的各个Host字段对应的比对结果,其中,字段筛选集合中包含若干指定的参考应用程序对应的参考Host字段;
筛选出比对结果表征未比对成功的各个Host字段,其中,筛选出的各个Host字段未包含在字段筛选集合中。
较佳的,在基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合之后,匹配单元还用用于:
分别统计预设的时长内每一个Host字段对应的信息的总值;
筛选出总值高于预设的参考门限值的各个信息对应的Host字段;
将筛选出的各个Host字段作为参考Host字段,添加到字段筛选集合中。
较佳的,在基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合之后,匹配单元还用于:
获取本地与网络侧交互的信息集合;
分别针对信息集合中包含的每一条信息执行以下操作:
按照预设的规则,提取一条信息中包含的Host字段;
分别将Host字段与获取的匹配集合中包含的每一个Host字段进行匹配,获得匹配结果;
确定匹配结果表征匹配成功时,确定与Host字段匹配成功的匹配集合对应的应用程序,并基于应用程序确定用户的操作行为。
本申请实施例中,分别提取每一个应用程序与网络侧交互的信息中包含的Host字段;分别设置每一个获取的Host字段与对应的应用程序之间的关联关系;基于关联关系,按照预设的规则,分别针对每一个应用程序对应的各个Host字段进行筛选处理;基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合,其中,一个应用程序对应的匹配集合中包含一个应用程序对应的各个Host字段。这样,可以通过对每一个应用程序对应的各个Host字段进行筛选处理,去除大量冗余以及错误的Host字段,从而节省了匹配集合占用的存储资源,以及筛选出每一个应用程序对应的准确的Host字段,进而提高了应用程序与对应的匹配集合中包含的各个Host字段匹配的精准度。
附图说明
图1为本申请实施例中集合提取的方法的流程图;
图2为本申请实施例中集合提取的装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了在提取匹配集合时,节约系统资源,提高应用程序与对应的匹配集合中包含的各个Host字段匹配的精准度,本申请实施例中,设计了一种集合提取的方法,该方法为,基于每一个应用程序与网络侧交互的信息,仅提取信息中包含的Host字段,并对获取的每一个应用程序对应的各个Host字段进行筛选处理,获得每一个应用程序对应的包含各个Host字段的匹配集合。
下面结合附图对本申请优选的实施方式进行详细说明。
参阅图1所示,本申请实施例中,对集合提取的具体流程如下:
步骤100:终端基于本地的配置文件,下载各个应用程序的安装文件。
具体的,首先,终端获取本地存储的包含若干应用程序的信息的配置文件,可选的,终端还可以从服务器中获取更新后的配置文件,从而获取包含各个应用程序最新信息的配置文件。
然后,终端在配置文件中,搜索指定的关键字,如,视频,音乐,以及社交等,分别确定每一个关键字对应的页码,以及在每一个关键字对应的页面中,提取相应的网络参数,并基于提取的各个网络参数,获得各个关键字对应的统一资源定位符(Uniform ResourceLocator,URL)。
最后,终端基于获取的各个URL,分别下载每一个URL对应的应用程序的安装文件。
例如,终端在配置文件中,搜索关键字“搜索引擎”,确定配置文件的第五页中包含关键字“搜索引擎”的相关信息,则终端在配置文件的第五页中提取文中的与“搜索引擎”相关的网络参数,分别为“www”,“sousuo”以及“com”,进一步地,终端将提取的各个网络参数进行拼接,获得URL为“https://www.sousuo.com/”。最后,终端通过获取的“https://www.sousuo.com/”下载搜索应用程序相应的安装文件。
步骤110:终端基于获取的各个应用程序的安装文件,对各个应用程序进行安装以及运行。
具体的,终端确定存在未安装的应用程序的安装文件时,基于获取的各个安装文件,对未安装的应用程序进行安装,并对安装后的各个应用程序进行启动,以及运行,以及触发各个应用程序与网络侧进行信息交互。
步骤120:终端获取各个应用程序在运行过程中与网络侧交互的信息。
具体的,终端获取各个应用程序在运行过程中与网络侧的设备(如,基站)交互的信息。
例如,终端获取本地的浏览器应用程序向服务器发送的请求信息。
又例如,终端获取服务器向本地的视频应用程序返回的视频信息。
步骤130:终端分别提取每一条信息中包含的Host字段。
具体的,以一条信息为例进行说明,终端提取一条信息中包含的Host字段可以采用以下方式:
首先,终端将获取的一条信息进行解码,获得信息中包含的端口信息,如TCP端口以及UDP端口等。
然后,终端基于获取的端口信息,对上述一条信息进行进一步解析,获得协议内容,如采用http协议传输的协议内容。
最后,终端确定获取的协议内容中包含Host字段时,提取Host字段。
其中,Host字段为服务器的域名,变动的频率较低,并且,每一个应用程序都对应一个固定的提供网络服务的服务器。
例如,社交应用程序对应的服务器为社交服务器,当用户A通过终端A的社交应用程序向用户B发出通讯信息时,终端A先将通讯信息发送至社交服务器,然后,社交服务器将该通讯信息发送至用户B所使用的终端B。
进一步地,终端提取Host字段后,可选的,还可以提取协议内容中包含的时间戳以及位置信息等。
上述过程中,仅以提取一条信息中的Host字段为例进行说明,基于同样的原理,还可以对其它信息中的Host字段进行提取,在此不再赘述。
这样,就可以通过获取的Host字段,时间戳,以及位置信息等,在后续的步骤中确定用户的详细的操作行为。
步骤140:终端分别设置每一个获取的Host字段与对应的应用程序之间的关联关系。
步骤150:终端基于获取的关联关系,分别确定每一个应用程序对应的Host字段,并按照预设规则,分别针对每一个应用程序对应的各个Host字段进行筛选处理。
具体的,仅以一个应用程序为例,终端对一个应用程序对应的各个Host字段进行筛选处理,可以采用以下预设规则:
首先,终端基于获取的关联关系,确定一个应用程序对应的各个Host字段,并确定各个Host字段中存在相同的Host字段时,对各个Host字段进行去重处理,获得字段去重集合。
这样,终端就可以通过去除冗余重复的Host字段的方式,减少获取的Host字段所占用的存储资源。
然后,由于各个应用程序之间存在互相调用的现象,如,旅游应用程序调用地图应用程序时,会向地图应用程序对应的地图服务器发送请求信息,上述请求信息中包含了地图服务器对应的Host字段“http://map.com/”,可见,地图服务器对应的Host字段,并不是旅游应用程序对应的固定提供网络服务的服务器的Host字段,因此,针对旅游应用程序提取相应的Host字段时,地图服务器对应的Host字段是一个起到干扰作用的Host字段,需要进行剔除。
为了达到去除干扰字段的目的,本发明实施例中,终端会预先获取包含若干指定的参考应用程序对应的参考Host字段,获得字段筛选集合。其中,指定的参考应用程序对应的参考Host字段为出现的频率较高,以及容易对其它应用程序造成干扰的Host字段,如,搜索引擎应用程序对应的Host字段“http://sousuo.com/”,地图应用程序对应的Host字段“http://map.com/”,以及定位应用程序对应的Host字段“http://gps.com/”。
进一步地,终端基于预设的字段筛选集合,分别将字段去重集合中包含的每一个Host字段与字段筛选集合中包含的各个Host字段进行比对,获得字段去重集合中包含的各个Host字段对应的比对结果,并筛选出比对结果表征未比对成功的各个Host字段,即筛选出未包含在字段筛选集合中的各个Host字段。
这样,终端就可以在将未包含在字段筛选集合中的各个Host字段进行保留,而将比对结果表征比对成功的各个Host字段,即出现的频率较高,以及容易对其它应用程序造成干扰的各个Host字段,进行剔除,从而提高每一个应用程序与Host字段匹配的准确度。
上述过程,仅以对一个应用程序对应的各个Host字段进行筛选处理为例进行说明,基于相同的原理,还可以对其它应用程序对应的各个Host字段进行筛选处理,分别获得每一个应用程序对应的筛选处理后的各个Host字段,在此不再赘述。
步骤160:终端基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合。
具体的,终端基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合。
进一步的,终端分别统计预设的时长内每一个Host字段对应的信息的总值,并筛选出总值高于预设的参考门限值的各个信息对应的Host字段,以及将筛选出的各个Host字段作为参考Host字段,添加到字段筛选集合中。
这样,就可以确定Host字段对应的信息的频率过高时,将Host字段作为参考Host字段,添加到字段筛选集合中,从而提高匹配集合提取的效率,以及降低应用程序与对应的Host字段匹配的出错率。
步骤170:终端基于获取的各个匹配集合,以及当前本地与网络侧交互的信息集合,确定用户的操作行为。
具体的,仅以终端获取的当前本地与网络侧交互的信息集合中包含的一条信息为例,终端确定用户的操作行为可以采用以下方式:
首先,终端提取一条信息中包含的Host字段。
然后,终端将上述Host字段分别与获取的匹配集合中包含的每一个Host字段进行匹配,获得匹配结果。
进一步地,终端确定匹配结果表征匹配成功时,确定与Host字段匹配成功的匹配集合对应的应用程序。
最后,终端基于上述应用程序,确定用户采用上述应用程序与网络侧进行了信息交互。
进一步地,终端基于上述一条信息中包含的时间戳,以及位置信息,可以确定用户在何时、何地,采用上述应用程序进行了何种操作,从而可以基于用户的详细的操作行为,向用户的各个应用程序推送相应的通知信息。
例如,测试终端获取当前本地与网络侧交互的信息集合中包含的信息a,其中,信息a为测试终端向网络侧发送的信息,并确定信息a中提取的Host字段“http://music.com/”,以及将Host字段“http://music.com/”与获取的各个匹配集合中包含的每一个Host字段进行匹配,确定“http://music.com/”与音乐应用程序对应的匹配集合匹配成功。
进一步地,测试终端确定匹配成功后,从信息a中提取时间戳、位置信息以及音频的标识信息,获取时间戳为“2015.02.14 10:00”,位置信息为“北京”,音频的标识信息为“歌曲11”则测试终端判定用户在2015.02.14 10:00时,在北京通过音乐应用程序查询或下载“歌曲11”。
下面采用一个具体的应用场景,对上述实施例进行进一步详细说明:
首先,终端获取本地存储的包含应用程序的信息的配置文件1,并从服务器中获取更新后的配置文件2,以及分别在配置文件1和配置文件2中搜索指定的关键字“音乐”和“视频”。
然后,终端确定配置文件1的第二页中包含关键字“音乐”的相关信息,则终端在配置文件1的第二页中提取文中的与“音乐”相关的网络参数,分别为“www”,“yinyue”以及“com”,并将提取的各个网络参数进行拼接,获得URL为“https://www.yinyue.com/”,以及通过获取的“https://www.yinyue.com/”下载音乐应用程序相应的安装文件。
接着,终端确定配置文件2的第二页中包含关键字“视频”的相关信息,则终端在配置文件2的第二页中提取文中的与“视频”相关的网络参数,分别为“www”,“shipin”以及“com”,并将提取的各个网络参数进行拼接,获得URL为“https://www.shipin.com/”,以及通过获取的“https://www.shipin.com/”下载视频应用程序相应的安装文件。
然后,终端基于音乐应用程序相应的安装文件,以及视频应用程序相应的安装文件,对音乐应用程序以及视频应用程序进行安装和运行,以及触发音乐应用程序和视频应用程序与网络侧进行信息交互。
接着,终端获取音乐应用程序向相应的服务器发送的请求信息1和请求信息x,以及视频应用程序向相应的服务器发送的请求信息2和请求信息xs,并分别提取请求信息1中包含的Host字段“https://www.music.com/”,请求信息x中包含的Host字段“https://www.music.com/”,以及请求信息2中包含的Host字段“https://www.sousuo.com/”和请求信息xs中包含的Host字段“https://www.video.com/”。
然后,终端确定音乐应用程序对应的Host字段为“https://www.music.com/”和“https://www.music.com/”,视频应用程序对应的Host字段为“https://www.sousuo.com/”和“https://www.video.com/”,并确定音乐应用程序对应的Host字段中存在相同的Host字段,保留一个Host字段“https://www.music.com/”视频应用程序对应的Host字段中不存在相同的Host字段,以及基于预设的字段筛选集合,确定“https://www.music.com/”和“https://www.video.com/”未包含在字段筛选集合中,“https://www.sousuo.com/”包含在字段筛选集合中,则去除“https://www.sousuo.com/”,筛选出“https://www.music.com/”和“https://www.video.com/”。
进一步的,终端建立音乐应用程序对应的包含“https://www.music.com/”的匹配集合,和视频应用程序对应的包含“https://www.video.com/”的匹配集合,并统计在10min内“https://www.music.com/”对应的信息的总值15高于预设的参考门限值6,则将“https://www.music.com/”作为参考Host字段,添加到字段筛选集合中,以及统计在10min内“https://www.video.com/”对应的信息的总值5低于预设的参考门限值6,则不将“https://www.music.com/”作为参考Host字段,添加到字段筛选集合中。
最后,终端获取当前本地与网络侧交互的信息集合中包含的信息b,其中,信息b为终端向网络侧发送的信息,并确定信息b中提取的Host字段“http://video.com/”,以及将Host字段“http://video.com/”与获取的各个匹配集合中包含的每一个Host字段进行匹配,确定“http://video.com/”与视频应用程序对应的匹配集合匹配成功。
进一步地,终端确定匹配成功后,从信息b中提取时间戳、位置信息以及视频的标识信息,获取时间戳为“2025.03.12 12:00”,位置信息为“上海”,视频的标识信息为“视频34”,则终端判定用户在2025.03.12 12:00时,在上海通过视频应用程序查询或下载“视频34”。
基于上述实施例,参阅图2所示,集合提取的装置的结构示意图,本申请实施例中实施例中,集合提取的装置具体包括:
提取单元20,用于分别提取每一个应用程序与网络侧交互的信息中包含的Host字段;
设置单元21,用于分别设置每一个获取的Host字段与对应的应用程序之间的关联关系;
筛选单元22,用于基于关联关系,按照预设的规则,分别针对每一个应用程序对应的各个Host字段进行筛选处理;
匹配单元23,用于基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合,其中,一个应用程序对应的匹配集合中包含一个应用程序对应的各个Host字段。
较佳的,在分别提取每一个应用程序与网络侧交互的信息中包含的Host字段之前,提取单元20还用于:
从本地配置文件中提取各个统一资源定位符URL;
分别下载获取的每一个URL对应的应用程序的安装文件;
基于获得的各个应用程序的安装文件,对各个应用程序进行安装以及运行;
获取各个应用程序在运行过程中与网络侧交互的信息。
较佳的,在基于关联关系,按照预设的规则,分别针对每一个应用程序对应的各个Host字段进行筛选处理时,筛选单元22具体用于:
基于关联关系,分别确定每一个应用程序对应的各个Host字段;
分别针对每一个应用程序对应的各个Host字段执行以下操作:
确定一个应用程序对应的各个Host字段中存在相同的Host字段时,对各个Host字段进行去重处理,获得字段去重集合;
获取预设的字段筛选集合,分别将字段去重集合中包含的每一个Host字段与字段筛选集合中包含的各个Host字段进行比对,获得字段去重集合中包含的各个Host字段对应的比对结果,其中,字段筛选集合中包含若干指定的参考应用程序对应的参考Host字段;
筛选出比对结果表征未比对成功的各个Host字段,其中,筛选出的
各个Host字段未包含在字段筛选集合中。
较佳的,在基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合之后,匹配单元23还用用于:
分别统计预设的时长内每一个Host字段对应的信息的总值;
筛选出总值高于预设的参考门限值的各个信息对应的Host字段;
将筛选出的各个Host字段作为参考Host字段,添加到字段筛选集合中。
较佳的,在基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合之后,匹配单元23还用于:
获取本地与网络侧交互的信息集合;
分别针对信息集合中包含的每一条信息执行以下操作:
按照预设的规则,提取一条信息中包含的Host字段;
分别将Host字段与获取的匹配集合中包含的每一个Host字段进行匹配,获得匹配结果;
确定匹配结果表征匹配成功时,确定与Host字段匹配成功的匹配集合对应的应用程序,并基于应用程序确定用户的操作行为。
本申请实施例中,分别提取每一个应用程序与网络侧交互的信息中包含的Host字段;分别设置每一个获取的Host字段与对应的应用程序之间的关联关系;基于关联关系,按照预设的规则,分别针对每一个应用程序对应的各个Host字段进行筛选处理;基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合,其中,一个应用程序对应的匹配集合中包含一个应用程序对应的各个Host字段。这样,可以通过对每一个应用程序对应的各个Host字段进行筛选处理,去除大量冗余以及错误的Host字段,从而节省了匹配集合占用的存储资源,以及筛选出每一个应用程序对应的准确的Host字段,进而提高了应用程序与对应的匹配集合中包含的各个Host字段匹配的精准度。
本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。

Claims (10)

1.一种集合提取的方法,其特征在于,包括:
分别提取每一个应用程序与网络侧交互的信息中包含的主机名Host字段;
分别设置每一个获取的Host字段与对应的应用程序之间的关联关系;
基于所述关联关系,按照预设的规则,分别针对每一个应用程序对应的各个Host字段进行筛选处理;
基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合,其中,一个应用程序对应的匹配集合中包含所述一个应用程序对应的各个Host字段。
2.如权利要求1所述的方法,其特征在于,在分别提取每一个应用程序与网络侧交互的信息中包含的Host字段之前,进一步包括:
从本地配置文件中提取各个统一资源定位符URL;
分别下载获取的每一个URL对应的应用程序的安装文件;
基于获得的各个应用程序的安装文件,对各个应用程序进行安装以及运行;
获取各个应用程序在运行过程中与网络侧交互的信息。
3.如权利要求1或2所述的方法,其特征在于,基于所述关联关系,按照预设的规则,分别针对每一个应用程序对应的各个Host字段进行筛选处理,具体包括:
基于所述关联关系,分别确定每一个应用程序对应的各个Host字段;
分别针对每一个应用程序对应的各个Host字段执行以下操作:
确定一个应用程序对应的各个Host字段中存在相同的Host字段时,对各个Host字段进行去重处理,获得字段去重集合;
获取预设的字段筛选集合,分别将所述字段去重集合中包含的每一个Host字段与所述字段筛选集合中包含的各个Host字段进行比对,获得所述字段去重集合中包含的各个Host字段对应的比对结果,其中,所述字段筛选集合中包含若干指定的参考应用程序对应的参考Host字段;
筛选出比对结果表征未比对成功的各个Host字段,其中,筛选出的各个Host字段未包含在所述字段筛选集合中。
4.如权利要求3所述的方法,其特征在于,在基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合之后,进一步包括:
分别统计预设的时长内每一个Host字段对应的信息的总值;
筛选出总值高于预设的参考门限值的各个信息对应的Host字段;
将筛选出的各个Host字段作为参考Host字段,添加到所述字段筛选集合中。
5.如权利要求1、2或4所述的方法,其特征在于,在基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合之后,进一步包括:
获取本地与网络侧交互的信息集合;
分别针对所述信息集合中包含的每一条信息执行以下操作:
按照所述预设的规则,提取一条信息中包含的Host字段;
分别将所述Host字段与获取的匹配集合中包含的每一个Host字段进行匹配,获得匹配结果;
确定所述匹配结果表征匹配成功时,确定与所述Host字段匹配成功的匹配集合对应的应用程序,并基于所述应用程序确定用户的操作行为。
6.一种集合提取的装置,其特征在于,包括:
提取单元,用于分别提取每一个应用程序与网络侧交互的信息中包含的主机名Host字段;
设置单元,用于分别设置每一个获取的Host字段与对应的应用程序之间的关联关系;
筛选单元,用于基于所述关联关系,按照预设的规则,分别针对每一个应用程序对应的各个Host字段进行筛选处理;
匹配单元,用于基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合,其中,一个应用程序对应的匹配集合中包含所述一个应用程序对应的各个Host字段。
7.如权利要求6所述的装置,其特征在于,在分别提取每一个应用程序与网络侧交互的信息中包含的Host字段之前,所述提取单元还用于:
从本地配置文件中提取各个统一资源定位符URL;
分别下载获取的每一个URL对应的应用程序的安装文件;
基于获得的各个应用程序的安装文件,对各个应用程序进行安装以及运行;
获取各个应用程序在运行过程中与网络侧交互的信息。
8.如权利要求6或7所述的装置,其特征在于,在基于所述关联关系,按照预设的规则,分别针对每一个应用程序对应的各个Host字段进行筛选处理时,所述筛选单元具体用于:
基于所述关联关系,分别确定每一个应用程序对应的各个Host字段;
分别针对每一个应用程序对应的各个Host字段执行以下操作:
确定一个应用程序对应的各个Host字段中存在相同的Host字段时,对各个Host字段进行去重处理,获得字段去重集合;
获取预设的字段筛选集合,分别将所述字段去重集合中包含的每一个Host字段与所述字段筛选集合中包含的各个Host字段进行比对,获得所述字段去重集合中包含的各个Host字段对应的比对结果,其中,所述字段筛选集合中包含若干指定的参考应用程序对应的参考Host字段;
筛选出比对结果表征未比对成功的各个Host字段,其中,筛选出的各个Host字段未包含在所述字段筛选集合中。
9.如权利要求8所述的装置,其特征在于,在基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合之后,所述匹配单元还用用于:
分别统计预设的时长内每一个Host字段对应的信息的总值;
筛选出总值高于预设的参考门限值的各个信息对应的Host字段;
将筛选出的各个Host字段作为参考Host字段,添加到所述字段筛选集合中。
10.如权利要求6、7或9所述的装置,其特征在于,在基于各个应用程序对应的筛选处理后的各个Host字段,分别建立每一个应用程序对应的匹配集合之后,所述匹配单元还用于:
获取本地与网络侧交互的信息集合;
分别针对所述信息集合中包含的每一条信息执行以下操作:
按照所述预设的规则,提取一条信息中包含的Host字段;
分别将所述Host字段与获取的匹配集合中包含的每一个Host字段进行匹配,获得匹配结果;
确定所述匹配结果表征匹配成功时,确定与所述Host字段匹配成功的匹配集合对应的应用程序,并基于所述应用程序确定用户的操作行为。
CN201710239754.6A 2017-04-13 2017-04-13 一种集合提取的方法及装置 Active CN108737203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710239754.6A CN108737203B (zh) 2017-04-13 2017-04-13 一种集合提取的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710239754.6A CN108737203B (zh) 2017-04-13 2017-04-13 一种集合提取的方法及装置

Publications (2)

Publication Number Publication Date
CN108737203A true CN108737203A (zh) 2018-11-02
CN108737203B CN108737203B (zh) 2020-07-17

Family

ID=63923672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710239754.6A Active CN108737203B (zh) 2017-04-13 2017-04-13 一种集合提取的方法及装置

Country Status (1)

Country Link
CN (1) CN108737203B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287699A (zh) * 2019-06-12 2019-09-27 杭州迪普科技股份有限公司 应用程序的特征提取方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140096554A (ko) * 2013-01-28 2014-08-06 주식회사 엘지유플러스 푸쉬 서비스 제공 방법, 그 장치 및 이를 위한 기록매체
CN104883376A (zh) * 2014-02-28 2015-09-02 华为技术有限公司 应用程序推荐方法及终端
CN105426486A (zh) * 2015-11-20 2016-03-23 天津大学 一种基于用户行为数据的手机app推送方法
CN106411944A (zh) * 2016-11-25 2017-02-15 锐捷网络股份有限公司 一种网络访问的管理方法及装置
CN106559281A (zh) * 2015-09-29 2017-04-05 中国电信股份有限公司 生成应用特征库的方法和装置、虚拟机、及终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140096554A (ko) * 2013-01-28 2014-08-06 주식회사 엘지유플러스 푸쉬 서비스 제공 방법, 그 장치 및 이를 위한 기록매체
CN104883376A (zh) * 2014-02-28 2015-09-02 华为技术有限公司 应用程序推荐方法及终端
CN106559281A (zh) * 2015-09-29 2017-04-05 中国电信股份有限公司 生成应用特征库的方法和装置、虚拟机、及终端
CN105426486A (zh) * 2015-11-20 2016-03-23 天津大学 一种基于用户行为数据的手机app推送方法
CN106411944A (zh) * 2016-11-25 2017-02-15 锐捷网络股份有限公司 一种网络访问的管理方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287699A (zh) * 2019-06-12 2019-09-27 杭州迪普科技股份有限公司 应用程序的特征提取方法和装置

Also Published As

Publication number Publication date
CN108737203B (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN107426059B (zh) Dpi设备特征库自动更新方法、系统、dpi设备及云端服务器
CN106301825B (zh) Dpi规则的生成方法及装置
CN113067743B (zh) 流规则提取方法、装置、系统及存储介质
RU2015156608A (ru) Сетевое устройство и способ управления процессом службы
CN104778178B (zh) 一种应用分类方法、装置、及业务服务器
CN102984161B (zh) 一种可信网站的识别方法和装置
CN113825129B (zh) 一种5g网络环境下工业互联网资产测绘方法
CN109640316A (zh) 目标用户终端识别方法、装置、设备及存储介质
CN110489324A (zh) 测试页面跳转的方法、装置、存储介质、电子装置
CN104427547A (zh) 业务和网络关联测试方法、装置及系统
CN109672735A (zh) 一种消息处理的方法、装置及设备
CN108206769A (zh) 过滤网络质量告警的方法、装置、设备和介质
CN103581881B (zh) 综合取号装置和网络侧获取用户手机号码的系统和方法
CN110020161A (zh) 数据处理方法、日志处理方法和终端
CN107172622A (zh) 伪基站短信的识别和分析方法、装置及系统
CN107360062B (zh) Dpi设备识别结果的验证方法、系统及dpi设备
CN109426826B (zh) 用户行为分析方法和装置
CN108737203A (zh) 一种集合提取的方法及装置
CN105848155B (zh) 一种终端非法刷机识别方法及装置
CN104077422B (zh) 下载apk的去重方法及装置
CN116302889A (zh) 功能模块的性能测试方法、装置和服务器
CN107995167B (zh) 一种设备识别方法及服务器
CN107454043A (zh) 一种网络攻击的监控方法及装置
CN108322912B (zh) 一种短信辨别的方法及装置
CN105591842A (zh) 一种获取移动终端操作系统版本的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant