CN106570043B - 一种终端后台运行程序的识别方法、装置及网络平台 - Google Patents

一种终端后台运行程序的识别方法、装置及网络平台 Download PDF

Info

Publication number
CN106570043B
CN106570043B CN201510670025.7A CN201510670025A CN106570043B CN 106570043 B CN106570043 B CN 106570043B CN 201510670025 A CN201510670025 A CN 201510670025A CN 106570043 B CN106570043 B CN 106570043B
Authority
CN
China
Prior art keywords
data
user
access address
running background
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510670025.7A
Other languages
English (en)
Other versions
CN106570043A (zh
Inventor
张军营
安久江
刘继华
许一波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Group Zhejiang Co Ltd
Priority to CN201510670025.7A priority Critical patent/CN106570043B/zh
Publication of CN106570043A publication Critical patent/CN106570043A/zh
Application granted granted Critical
Publication of CN106570043B publication Critical patent/CN106570043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种终端后台运行程序的识别方法、装置及网络平台,涉及通信领域,解决现有后台运行程序分析方法效率低下、准确率不高的问题,该方法包括:在后台数据库中获取用户访问记录相关的数据信息,并对所述数据信息进行筛选处理,其中所述数据信息中包含用户身份数据及访问地址数据;根据筛选后的数据信息,获取不同用户对同一访问地址进行访问的数据差异性,得到差异性分析结果;根据所述差异性分析结果,识别所述访问地址对应的应用程序是否为后台运行程序。本发明的方案可有效识别终端后台运行程序,提高了处理效率和准确性。

Description

一种终端后台运行程序的识别方法、装置及网络平台
技术领域
本发明涉及通信领域,特别涉及一种终端后台运行程序的识别方法、装置及网络平台。
背景技术
随着智能终端的大量普及,种类繁多的终端应用程序(APP,Application)随之而生,每个智能终端用户都会安装大量的APP来丰富自己的终端内容,而这些应用涵盖了浏览类、即时通讯类、视频类、音频类等等。每款应用都有自己独特的数据交互方式,而这些应用为了保持信息的及时更新和与服务器信息的定时交互,都会在手机后台保持一项或者几项进程,以保持和网络的数据交互。在启动的程序较多的情况下,手机后台运行的进程数量往往会占用大量的手机内存资源,这样一方面会导致手机运行速度的下降,另一方面这些程序也会由于和服务器的数据交互,占用一定的带宽资源,使得使用2G网络的终端本身由于网络制式原因下较低的速率进一步降低,影响用户的感知。
现在的通讯网,都有详细的指标来观测和指导优化网络,基于DO平台的海量数据,日常人工的分析手法效率低下,而我们除了运用常规的统计手段来分析和发现问题,并没有针对用户的会话数据进行深入的发掘和分析。因此,现有的后台运行程序分析方法效率低下、准确率不高,使后台运行程序过多产生的问题不能及时得到解决。
发明内容
本发明要解决的技术问题是提供一种终端后台运行程序的识别方法、装置及网络平台,解决现有后台运行程序分析方法效率低下、准确率不高,使后台运行程序过多导致的手机运行速度下降、影响用户感知不能及时得到解决的问题。
为解决上述技术问题,本发明的实施例提供一种终端后台运行程序的识别方法,包括:
在后台数据库中获取用户访问记录相关的数据信息,并对所述数据信息进行筛选处理,其中所述数据信息中包含用户身份数据及访问地址数据;
根据筛选后的数据信息,获取不同用户对同一访问地址进行访问的数据差异性,得到差异性分析结果;
根据所述差异性分析结果,识别所述访问地址对应的应用程序是否为后台运行程序。
其中,所述根据所述差异性分析结果,识别所述访问地址对应的应用程序是否为后台运行程序之后,所述识别方法还包括:
根据识别出的后台运行程序,获取后台运行程序对用户的影响信息,并在所述影响信息达到预设条件时将所述影响信息返回给用户。
其中,所述对所述数据信息进行筛选处理,包括:
对所述数据信息中访问地址不完整及访问地址数量小于第一预设值的数据进行清除。
其中,所述对所述数据信息进行筛选处理,包括:
对所述数据信息中属于同一类关键字的数据进行数据合并。
其中,所述根据筛选后的数据信息,获取不同用户对同一访问地址进行访问的数据差异性,包括:
根据筛选后的数据信息中每条访问记录的触发时间,对每个用户的访问记录在时间维度上进行分段线性处理,得到用户时间序列的基础数据;
根据所述用户时间序列的基础数据、用户身份数据及访问地址数据,生成用户时间序列矩阵;
根据所述用户时间序列矩阵,获取不同用户对同一访问地址进行访问的数据差异性。
其中,所述根据所述用户时间序列矩阵,获取不同用户对同一访问地址进行访问的数据差异性,包括:
根据所述用户时间序列矩阵,采用时间扭曲算法获取同一访问地址在不同用户时间序列上的数据差异性。
其中,所述根据所述差异性分析结果,识别所述访问地址对应的应用程序是否为后台运行程序,包括:
若所述差异性分析结果显示所述差异性的值小于第二预设值,则判定所述访问地址对应的应用程序为后台运行程序。
其中,所述根据所述用户时间序列矩阵,获取不同用户对同一访问地址进行访问的数据差异性之前,所述识别方法还包括:
按照预定准则对所述用户时间序列矩阵进行抽样处理。
其中,所述在后台数据库中获取用户访问记录相关的数据信息,包括:
在DO后台数据库中获取包含国际移动用户识别码IMSI、统一资源标示符URI、统一资源标示符路径URI_PATH及访问记录的触发时间的数据信息。
为解决上述技术问题,本发明的实施例还提供一种终端后台运行程序的识别装置,包括:
第一获取模块,用于在后台数据库中获取用户访问记录相关的数据信息,并对所述数据信息进行筛选处理,其中所述数据信息中包含用户身份数据及访问地址数据;
第二获取模块,用于根据筛选后的数据信息,获取不同用户对同一访问地址进行访问的数据差异性,得到差异性分析结果;
识别模块,用于根据所述差异性分析结果,识别所述访问地址对应的应用程序是否为后台运行程序。
其中,所述识别装置还包括:
第三获取模块,用于根据识别出的后台运行程序,获取后台运行程序对用户的影响信息,并在所述影响信息达到预设条件时将所述影响信息返回给用户。
其中,所述第一获取模块包括:
清除单元,用于对所述数据信息中访问地址不完整及访问地址数量小于第一预设值的数据进行清除。
其中,所述第一获取模块包括:
合并单元,用于对所述数据信息中属于同一类关键字的数据进行数据合并。
其中,所述第二获取模块包括:
分段单元,用于根据筛选后的数据信息中每条访问记录的触发时间,对每个用户的访问记录在时间维度上进行分段线性处理,得到用户时间序列的基础数据;
生成单元,用于根据所述用户时间序列的基础数据、用户身份数据及访问地址数据,生成用户时间序列矩阵;
第一获取单元,用于根据所述用户时间序列矩阵,获取不同用户对同一访问地址进行访问的数据差异性。
其中,所述第一获取单元包括:
第一获取子单元,用于根据所述用户时间序列矩阵,采用时间扭曲算法获取同一访问地址在不同用户时间序列上的数据差异性。
其中,所述识别模块包括:
判定单元,用于若所述差异性分析结果显示所述差异性的值小于第二预设值,则判定所述访问地址对应的应用程序为后台运行程序。
其中,所述识别装置还包括:
抽样模块,用于按照预定准则对所述用户时间序列矩阵进行抽样处理。
其中,所述第一获取模块包括:
第二获取单元,用于在DO后台数据库中获取包含国际移动用户识别码IMSI、统一资源标示符URI、统一资源标示符路径URI_PATH及访问记录的触发时间的数据信息。
为解决上述技术问题,本发明的实施例还提供一种网络平台,包括:如上所述的终端后台运行程序的识别装置。
本发明的上述技术方案的有益效果如下:
本发明实施例的终端后台运行程序的识别方法,首先在后台数据库中获取用户访问记录相关的数据信息,并对获取的数据信息进行筛选处理,减少数据的计算量,提高数据处理效率;然后根据筛选后的数据信息,获取不同用户对同一访问地址进行访问的数据差异性,得到差异性分析结果;最后根据差异性分析结果,识别访问地址对应的应用程序是否为后台运行程序。该终端后台运行程序的识别方法通过对用户访问数据进行深入的发掘和分析,可有效识别终端后台运行程序,提高了处理效率和准确性,有效解决了现有后台运行程序分析方法效率低下、准确率不高,使后台运行程序过多导致的手机运行速度下降、影响用户感知不能及时得到解决的问题。
附图说明
图1为本发明终端后台运行程序的识别方法流程图;
图2为本发明终端后台运行程序的识别方法具体实现的流程图;
图3为本发明终端后台运行程序的识别装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例的终端后台运行程序的识别方法,针对后台运行程序的识别和应对处理进行了有效的系统性分析,提高了识别的准确性和有效性,并将分析的目标首次由用户行为的影响转向为应用程序的影响,补充了网络优化工作中对终端领域分析的空白,且可实现全程的自动化处理,节省了人力资源。
如图1所示,本发明实施例的终端后台运行程序的识别方法,包括:
步骤101,在后台数据库中获取用户访问记录相关的数据信息,并对所述数据信息进行筛选处理,其中所述数据信息中包含用户身份数据及访问地址数据。
这里,终端(如手机)的应用程序APP每次对网络的访问都会在后台数据库(如DO后台数据库)中形成一条会话记录。这些应用程序对网络的访问有些是用户行为发起的,比如用户操作微信发出一条聊天信息或者使用浏览器访问某个网站,而有些应用程序对网络的访问是应用程序自动发起的,比如天气预报软件获取天气信息或者微博应用软件获取最新的博文信息等。我们通过在后台数据库中获取用户访问记录相关的数据信息,并根据应用程序自动与网络交互的规律性,可通过后续步骤有效识别出后台运行程序。
其中,如果终端开启大量的应用程序,终端与网络的交互会非常的频繁,而且交互的数据量也非常可观,这里通过对获取的数据信息进行筛选处理,可有效减少计算的数据量,提高数据的处理效率。
步骤102,根据筛选后的数据信息,获取不同用户对同一访问地址进行访问的数据差异性,得到差异性分析结果。
这里,E2E(End-to-End,终端到终端)后台运行程序是指某一类终端自行触发的程序,具体表现为终端或用户会自动周期性的向固定的SP(Service Provider,服务提供商)提交数据或发送请求。E2E后台运行程序具有周期性触发、访问地址固定及与终端密切相关的特点,对于后台运行程序的识别主要依据具有这些特点的程序行为。其中访问地址固定可通过建立和维护关键词(如URI、URI_PATH)的表数据来实现,这里主要研究周期性触发对后台运行程序的识别。
由于后台运行程序具有周期性触发的特点,因此后台运行程序受用户行为影响小,即后台运行程序对于不同用户的数据差异性小。这里通过研究不同用户对同一访问地址进行访问的数据差异性,可确定该访问地址对应的应用程序是否为后台应用程序。
步骤103,根据所述差异性分析结果,识别所述访问地址对应的应用程序是否为后台运行程序。
由上述分析可知,后台运行程序具有周期性触发、访问地址固定的特点,因此通过不同用户对同一访问地址进行访问的差异性分析结果,可准确识别出该访问地址对应的应用程序是否为后台应用程序。
本发明实施例的终端后台运行程序的识别方法,通过对用户访问数据进行深入的发掘和分析,可有效识别终端后台运行程序,提高了处理效率和准确性,有效解决了现有后台运行程序分析方法效率低下、准确率不高,使后台运行程序过多导致的手机运行速度下降、影响用户感知不能及时得到解决的问题。
优选的,上述步骤103之后,本发明实施例的识别方法还可以包括:
步骤104,根据识别出的后台运行程序,获取后台运行程序对用户的影响信息,并在所述影响信息达到预设条件时将所述影响信息返回给用户。
这里,根据识别出的后台运行程序可获取后台运行程序对用户的影响信息,如后台运行程序的流量占比、会话占比等。在后台运行程序对用户的影响信息达到预设条件时将影响信息返回给用户,如在影响信息显示后台运行程序占用终端大量资源并影响到用户使用速率时,通过主动关怀的方式将影响信息返回给用户,可提醒用户及时清理终端内存资源,并优化启动程序,能有效避免后台运行程序过多影响用户感知。
此时,通过准确识别后台运行程序,并将后台运行程序的影响信息返回给用户,可提醒用户及时关闭后台运行程序,避免了后台运行程序过多导致的手机运行速度下降、影响用户感知不能及时得到解决的问题。
优选的,上述步骤101中,所述在后台数据库中获取用户访问记录相关的数据信息的步骤可以包括:
步骤1011,在DO后台数据库中获取包含国际移动用户识别码IMSI、统一资源标示符URI、统一资源标示符路径URI_PATH及访问记录的触发时间的数据信息。
这里,可依据DO后台数据库的DSS2表,采用IMSI、URI、URI_PATH及访问记录的触发时间TS_START四个必要关键字获取用户访问记录相关的数据信息。其中,由于后台运行程序具有周期性触发、访问地址固定及与终端密切相关的特点,因此后台运行程序的TS_START非随机特性明显、URI和URI_PATH固定,且后台运行程序基于某个IMSI,此时,可根据这些数据的规律性识别出后台运行程序,提高了识别的准确性和计算效率。
进一步的,上述步骤1011具体可获取DO后台数据库的DSS2表中某个或某些时间段内的数据信息,后续根据这些时间段数据信息的规律性分析出后台运行程序。如可获取同一天内任意连续时间段或单一时间段的数据信息。其中,由于DSS2表的数据量很大,单小时业务记录数近一亿条,所以数据采取的时间段越多,计算量越大,所需的计算时间也就越长,具体可根据实际需要适当选取数据量。
由于DSS2表的数据量很大,因此需要在计算前进行数据清洗工作,排除不必要的会话记录,以求进一步降低数据的计算量和节省计算的时间。
优选的,上述步骤101中,所述对所述数据信息进行筛选处理的步骤可以包括:
步骤1012,对所述数据信息中访问地址不完整及访问地址数量小于第一预设值的数据进行清除。
这里,由于DO后台数据库对URI_PATH长地址的记录进行了字符数量的限制,将长度超过100字符数的URI_PATH记录统统截取为100字符,这部分URI_PATH记录的地址存在不完整的问题,记录结果存在误差,在计算过程中需要排除掉。另外对于每小时内单用户单地址访问数量过少的地址也可进行排除,这部分地址访问数量少,对结果的影响小,排除后可大大的减少运算量,极大的提高计算效率。
此时,通过对数据信息中访问地址不完整(如URI_PATH地址)及访问地址数量小于第一预设值的数据进行清除,在保证计算准确性的同时大大减少了计算量,有效提高了数据处理效率。
对于清洗后的数据,可对表内容进一步进行降维处理,以减少关键字的数量,减少计算量。
优选的,上述步骤101中,所述对所述数据信息进行筛选处理的步骤还可以包括:
步骤1013,对所述数据信息中属于同一类关键字的数据进行数据合并。
这里,如可将“URI”与“URI_PATH”进行数据合并,生成新的关键字段“URI_ALL”,这样在数据处理时,可减少一项同源数据的比较计算,提高了数据处理效率。
此时,通过对属于同一类关键字的数据进行合并,进一步降低了数据集合的维度,大大减少了计算量,提高了数据处理效率。
优选的,上述步骤102的步骤可以包括:
步骤1021,根据筛选后的数据信息中每条访问记录的触发时间,对每个用户的访问记录在时间维度上进行分段线性处理,得到用户时间序列的基础数据。
这里,根据每条访问记录的触发时间TS_START,对每个用户的访问记录在时间维度上进行分段线性处理,可得到用户时间序列的基础数据。具体可将每个用户的访问记录时间曲线分割为多段相邻的时间段,由于DO后台数据库里面时间格式精确度很高,为了便于计算,此处可精确到秒,再按照时间段的起点与终点计算访问记录的时间记录单元,此时间记录单元作为用户时间序列的基础数据。
步骤1022,根据所述用户时间序列的基础数据、用户身份数据及访问地址数据,生成用户时间序列矩阵。
这里,在完成时间维度的分段线性处理后,得到了时间序列的基础数据,结合用户身份数据与用户的访问地址数据,可生成用户时间序列的三维数据矩阵,为后续对用户时间序列的数据分析提供数据支持。
步骤1023,根据所述用户时间序列矩阵,获取不同用户对同一访问地址进行访问的数据差异性。
这里,用户时间序列矩阵以用户的访问地址数据为基础,针对不同用户的时间序列的比较分析,可得到不同用户对同一访问地址进行访问的数据差异性,最终可根据该数据差异性得出后台运行程序的相关地址链接。
此时,通过获取用户时间序列矩阵,可分析出不同用户对同一访问地址的时间序列的数据差异性,进而根据该数据差异性可得出后台运行程序的相关访问地址,具有识别效率高和准确性高的优点。
一般情况下,在时间序列数据相似性度量中,经常采用欧式(Euclideall)距离作为相似性计算的工具,采用该方式计算比较简单直观、效率较高,但是采用该方式当两个时间序列长度不同时无法进行相似度比较,另外,该方式对噪声比较敏感,虽然通过对举例公式的改进,可以克服幅值方向扰动的影响,但是对时间轴的形变鲁棒性较差。
为了克服采用欧式距离进行相似性度量的缺陷,优选的,上述步骤1023的步骤可以包括:
步骤10231,根据所述用户时间序列矩阵,采用时间扭曲算法获取同一访问地址在不同用户时间序列上的数据差异性。
这里,动态时间扭曲距离(Dynamic Time Warping,DTW)在时间序列相似性度量和周期发现等算法中经常被使用,具有对时间轴伸缩的处理能力,利用时间扭曲算法可比较不同长度时间序列的相似性,且对时间轴的扰动有较好的鲁棒性。
当然,对于时间序列长度相同的用户时间序列矩阵,也可采用欧式距离进行相似度计算。
优选的,上述步骤1023之前,所述识别方法还可以包括:
步骤1024,按照预定准则对所述用户时间序列矩阵进行抽样处理。
这里,经过筛选后的DO后台数据,单小时的会话记录也达到几千万条,而对每个地址的访问量多则几百万,少则几十万,在进行时间扭曲算法前,需要对会话记录进行抽样处理,以减少计算量。抽样处理必须要保证能够减少数据遗漏,同时也要能够节省计算时间,而且在每次抽样计算时,必须保证抽样准则的一致性。
此时,在对用户时间序列矩阵采用时间扭曲算法计算之前,首先对用户时间序列矩阵进行抽样处理,有效减少了计算量,提高了数据处理效率。
对完成抽样处理的数据应用时间扭曲算法进行计算,通过此算法可得出同一个访问地址在不同用户的时间序列上的差异性。在这里对比不同用户访问统一地址时间间隔的欧式距离,如果对比的两个用户在同一时间段内访问次数不同则需采用时间扭曲算法,得到时间间隔的欧式距离后计算各组欧式距离的方差,方差越小,则说明该程序访问该地址受用户行为影响越小,后台程序可能性越大,根据设置的判决标准输出。
具体的,上述步骤103的步骤可以包括:
步骤1031,若所述差异性分析结果显示所述差异性的值小于第二预设值,则判定所述访问地址对应的应用程序为后台运行程序。
这里,对同一访问地址在不同用户的时间序列上的差异性进行相似度分析,如果差异性分析结果显示差异性的值小于第二预设值,则判定该访问地址对应的应用程序为后台运行程序。此时,通过该方式可准确识别出后台运行程序,提高了识别的准确性。
下面对本发明终端后台运行程序的识别方法一具体实现实施例举例说明如下:
如图2所示,本发明实施例的终端后台运行程序的识别方法包括:
步骤201,在DO后台数据库中获取数据信息。具体在DSS2表中获取包含IMSI、URI、URI_PATH和TS_START关键字的数据信息。
步骤202,对获取的数据信息进行数据清除。具体对获取的数据信息中访问地址不完整及访问地址数量小于第一预设值的数据进行清除。
步骤203,对数据信息进行降维处理。具体对数据信息中属于同一类关键字的数据进行数据合并。
步骤204,根据数据信息,生成用户时间序列矩阵。具体根据数据信息中每条访问记录的触发时间,对每个用户的访问记录在时间维度上进行分段线性处理,得到用户时间序列的基础数据,然后根据用户时间序列的基础数据、用户身份数据及访问地址数据,生成用户时间序列矩阵。
步骤205,按照预定准则对用户时间序列矩阵进行抽样处理。
步骤206,对完成抽样处理的数据采用时间扭曲算法进行相似性计算,得到不同用户对同一访问地址进行访问的数据差异性分析结果。
步骤207,根据差异性结果识别后台运行程序。
步骤208,根据识别出的后台运行程序,获取后台运行程序对用户的影响信息,并在影响信息达到预设条件时将信息返回给用户。
本发明实施例的终端后台运行程序的识别方法,通过对用户访问数据进行深入的发掘和分析,可有效识别终端后台运行程序,提高了处理效率和准确性,有效解决了现有后台运行程序分析方法效率低下、准确率不高,使后台运行程序过多导致的手机运行速度下降、影响用户感知不能及时得到解决的问题。
下面对本发明实施例可能用到的算法详细说明如下:
1)时间序列
在DO后台的记录中,用户上网行为的记录以用户的IMSI、URI、URI_PATH和会话发起时间、结束时间等变量作为要素进行记录,并进行区分,我们对用户上网行为进行分析时,需要考虑这些变量的关系,并从中发掘我们需要的数据。对于手机后台程序的分析,最为重要的是会话发起的时间关系性,其具有强烈的时间周期性质,也是作为在海量数据中,发掘其规律的重要参考要素。
定义1-1(时间序列)设T为某个时间集,t∈T,xt为随机变量。对于该随机变量的全体{xt},t∈T,当T取离散集时,如T={1,2,…}或T={1,2,…,n},称{xt}是随机序列。由于随即序列{xt}的整数变量t一般代表等间隔的时间增长量,所以常称随机序列为时间序列。本发明实施例中可将用户每条会话记录的发起时间作为时间集的变量t,而用户在1个小时内的总体会话发起时间作为时间集T。
定义1-2(时间序列数据库)时间序列数据库(time series database)是一个记录集合其中每一个记录都有一个属性集合和时间值,rj={a1,a2,…,am,tj}。每一个属性是一个实际数值ai∈IR,或者是一个离散值ai∈IN,这些属性有可能与时间有关,也有可能与时间无关。若该属性与时间有关,就是动态属性;若该属性值与时间无关,就是静态属性。时间值tj是一个按照给定的分辨率变化的时间计量,比如说小时、天、月、年等。本发明实施例中可将用户IMSI记录作为记录集合每个IMSI用户都有属于自己的时间集T。
定义1-3(事件序列)给定一个事件类型的集合E,一个事件是一组(A,t),其中A∈E,是一个事件类型,t为整数,是事件发生的时间。事件类型可以由几种特征组成,为了方便,我们在这里只考虑一种特征的情况。一个发生在E上的事件序列S是一个三维变量(s,Ts,Te),其中,s=<(A1,t1),(A1,t1),…,(An,tn)>,是一个有序事件序列,Ai∈E(i=1,…,n),ti≤ti+1(i=1,…,n-1);Ts和Te是整数,Ts是起始时间,Te是结束时间。Ts≤ti≤Te(i=1,…,n)。事件序列中每个事件的发生都与时间有关。事件时间序列是指按照等时间间隔发生的事件构成的时间序列,无需时间标志。
单事件时间序列是指在一个时间点上只发生一个事件的事件时间序列。
多事件时间序列与单事件时间序列相对而言,指在一些或全部时间点上,每个时间点发生一个以上事件的事件时间序列。
本发明实施例中,对于DO会话记录,可将每条会话记录中的URI、URI_PATH、TS_START、IMSI等四个元素作为事件序列的集合,我们只关心会话的起始时间,这样可以减少集合的维度,同时也可以将URI和URI_PATH进行合并,进一步降低集合的维度,这样对于数据的计算量会大大的减少,提高运行效率。
2)欧氏距离
在时间序列数据相似性度量中,经常采用欧氏距离作为相似计算的工具,两个时间序列的欧氏距离定义为:
定义2-1(欧氏距离)假设X={x1,x2,…,xn}是目标时间序列,Y={y1,y2,…,yn}是需要进行相似测量的数据库中的一个时间序列,n是序列长度,则它们之间的欧氏距离为
欧氏距离又被称为欧氏范数,具有下述特征:
给定一个阈值ε,当两个时间序列X与Y之间的距离D(X,Y)≤ε时,我们就认为这两个时间序列是相似的。
该算法的缺点在于,当两个时间序列长度不同时无法进行相似性比较,另外,该算法对噪声比较敏感,虽然通过对该距离公式的改进,可以克服幅值方向扰动的影响,但是对时间轴的形变鲁棒性比较差。
本发明实施例的方法在进行后台程序分析时,任意两个用户的会话次数不一定相同,这样每个用户的时间集合可能都会有不同的长度,这对于使用欧式距离是无法进行计算的。
3)动态时间扭曲距离
动态时间扭曲距离DTW在时间序列相似性度量和周期发现等算法中经常被使用,具有对时间轴伸缩的处理能力。两个时间序列的动态时间扭曲距离定义为:
定义3-1(动态时间扭曲距离)假设有两个时间序列X和Y,它们的长度分别是n和m,分别表示如下:
X=x1,x2,…,xi,…,xn
Y=y1,y2,…,yi,…,ym
则这两个时间序列上任意两点之间的动态时间扭曲距离为:
γ(i,j)=d(xi,yj)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)} F3
对于这两个时间序列X和Y,可构建一个n×m阶的矩阵,其中第(i,j)个元素就是两个时间序列的点xi和yj之间的距离d(xi,yj),一种典型的情况是欧氏距离,即这两个元素之间的动态时间扭曲距离是一种累积距离,即γ(i,j)是从元素(x1,y1)到元素(xi,yj)之间的最小累积距离。该距离的计算过程如下:在动态时间扭曲算法中,不再满足两个序列上的各点的一一对应关系,为了找到两个序列之间的最短距离,需要设置一个扭曲路径W。扭曲路径W就是一个距离矩阵上某些元素构成的连续集,这个路径定义了时间序列X和Y之间的一个映射,沿着这条路径进行比较,可以得到这两个序列之问的最短距离。Wk=(i,j)k是扭曲路径W的第k个元素,因此可以得到一个路径集为:W=w1,w2,…,wk,…wK,其中max(m,n)≤K≤m+n-1,扭曲路径需要满足如下条件:
(1)边界条件:w1=(1,1),wk=(n,m),简单的说就是要求扭曲路径的起止元素为距离矩阵斜对角线上的两端元素。
(2)连续性:给定wk=(a,b),wk-1=(a`,b`),则要求a-a`≤1和b-b`≤1,即要求扭曲路径每一步的设定都是连续的。
(3)单调性:给定wk=(a,b),wk-1=(a`,b`),则要求a-a`≥0和b-b`≥0,即路径w通过点(i,j),同时必须至少通过点(i-1,j)、(i-1,j-1)和(i,j-1)中的一个,强制保证路径在时间轴上是单调增长。
很显然,在计算两个时间序列之间的距离时,满足上述条件的路径有很多,但是这里的扭曲路径要求满足一个最小的扭曲代价(warping cost):
基于动态最优的原则,在所有路径中发现欧氏距离最小路径,只需要对动态时间扭曲距离矩阵做一个局部搜索,即如果一个点(xi,yj)处于这个最优路径上,那么从(x1,y1)到(xi,yj)的主路径也是局部最优化的,也就是说,从点(x1,y1)到(xn,ym)的最佳路径可以由时间起始点(x1,y1)到终点(xn,ym)之间的局部最优解通过递归搜索获得。实际上,可以通过如公式F3所示的递归过程实现,其中的γ(i,j)是一个渐增的距离公式。
欧氏距离可以看作是DTW的一个特例,当n=m时,限制wk=(i,j)k,其中,i=j=k。该距离度量公式具有下列特性:
DTW算法之所以能够比较不同长度时间序列的相似性,以及对时间轴的扰动有较好的鲁棒性,是因为该算法具有动态扭曲的特性,即其中一个序列上的一个点可能会对应另一个序列上的多个点比较距离,相应的,可能会有一些点在距离比较中被完全忽略,在另一个序列上没有点与之对应比较距离。
对于DO后台数据中,用户们千差万别的会话记录的时间性关系的整理中,使用时间扭曲算法能够更有效的发掘出相似性,找到其中的规律。
4)分段线性表示
时间序列分段线性表示(Piecewise Linear Representation,PLR)就是将时间序列数据基于时间表示成多段相邻的近似直线,将长度为L的时间序列的n段PLR模型表示为S,yil、yir分别表示第i段的起始点和结束点的数值,ti表示第i段的结束时间,n表示整个时间序列划分的直线段数目,tn=L,其中,i=1,2,…,n。
S={(y1L,y1R,t1),(y2L,y2R,t2),…,(yiL,yiR,ti),…,(ynL,ynR,tn)}
分段线性表示是最常用的时间序列重新描述算法之一,该算法具有数据压缩率高,对噪声相对不敏感,且直观易懂的优点。
由于重新描述后的直线段数量远远小于时间序列长度,因此分段线性表示方法使得数据存储、变换和计算等更加高效。
本发明实施例的终端后台运行程序的识别方法,针对DO后台海量数据进行了数据发掘和分析,将数据发掘算法引入了网络优化工作;将手机后台程序识别分析的目标首次由用户行为的影响转向为手机应用程序的影响,补充了网络优化工作中对终端领域分析的空白;且通过时间序列算法的应用,提高了用户会话规律性分析的准确性。
本发明实施例的终端后台运行程序的识别方法,相比现有技术,更加注重用户数据业务使用感知的改善,利用数据挖掘算法提高了判断的准确性,且实现全程的自动化处理,节省了人力资源。
如图3所示,本发明的实施例还提供一种终端后台运行程序的识别装置,包括:
第一获取模块,用于在后台数据库中获取用户访问记录相关的数据信息,并对所述数据信息进行筛选处理,其中所述数据信息中包含用户身份数据及访问地址数据;
第二获取模块,用于根据筛选后的数据信息,获取不同用户对同一访问地址进行访问的数据差异性,得到差异性分析结果;
识别模块,用于根据所述差异性分析结果,识别所述访问地址对应的应用程序是否为后台运行程序。
本发明实施例的终端后台运行程序的识别装置,通过对用户访问数据进行深入的发掘和分析,可有效识别终端后台运行程序,提高了处理效率和准确性,有效解决了现有后台运行程序分析方法效率低下、准确率不高,使后台运行程序过多导致的手机运行速度下降、影响用户感知不能及时得到解决的问题。
优选的,所述识别装置还可以包括:
第三获取模块,用于根据识别出的后台运行程序,获取后台运行程序对用户的影响信息,并在所述影响信息达到预设条件时将所述影响信息返回给用户。
其中,所述第一获取模块可以包括:
清除单元,用于对所述数据信息中访问地址不完整及访问地址数量小于第一预设值的数据进行清除。
其中,所述第一获取模块可以包括:
合并单元,用于对所述数据信息中属于同一类关键字的数据进行数据合并。
其中,所述第二获取模块可以包括:
分段单元,用于根据筛选后的数据信息中每条访问记录的触发时间,对每个用户的访问记录在时间维度上进行分段线性处理,得到用户时间序列的基础数据;
生成单元,用于根据所述用户时间序列的基础数据、用户身份数据及访问地址数据,生成用户时间序列矩阵;
第一获取单元,用于根据所述用户时间序列矩阵,获取不同用户对同一访问地址进行访问的数据差异性。
其中,所述第一获取单元可以包括:
第一获取子单元,用于根据所述用户时间序列矩阵,采用时间扭曲算法获取同一访问地址在不同用户时间序列上的数据差异性。
其中,所述识别模块可以包括:
判定单元,用于若所述差异性分析结果显示所述差异性的值小于第二预设值,则判定所述访问地址对应的应用程序为后台运行程序。
其中,所述识别装置还可以包括:
抽样模块,用于按照预定准则对所述用户时间序列矩阵进行抽样处理。
其中,所述第一获取模块可以包括:
第二获取单元,用于在DO后台数据库中获取包含国际移动用户识别码IMSI、统一资源标示符URI、统一资源标示符路径URI_PATH及访问记录的触发时间的数据信息。
本发明实施例的终端后台运行程序的识别装置,通过对用户访问数据进行深入的发掘和分析,可有效识别终端后台运行程序,提高了处理效率和准确性,有效解决了现有后台运行程序分析方法效率低下、准确率不高,使后台运行程序过多导致的手机运行速度下降、影响用户感知不能及时得到解决的问题。
需要说明的是,该终端后台运行程序的识别装置是与上述终端后台运行程序的识别方法相对应的装置,其中上述方法实施例中所有实现方式均适用于该装置的实施例中,也能达到同样的技术效果。
由于本发明实施例的终端后台运行程序的识别装置应用于网络平台,因此,本发明实施例还提供了一种网络平台,包括:如上述实施例中所述的终端后台运行程序的识别装置。其中,上述终端后台运行程序的识别装置的所述实现实施例均适用于该网络平台的实施例中,也能达到相同的技术效果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (19)

1.一种终端后台运行程序的识别方法,其特征在于,包括:
在后台数据库中获取用户访问记录相关的数据信息,并对所述数据信息进行筛选处理,其中所述数据信息中包含用户身份数据及访问地址数据;
根据筛选后的数据信息,获取不同用户对同一访问地址进行访问的数据差异性,得到差异性分析结果;
根据所述差异性分析结果,识别所述访问地址对应的应用程序是否为后台运行程序。
2.根据权利要求1所述的识别方法,其特征在于,所述根据所述差异性分析结果,识别所述访问地址对应的应用程序是否为后台运行程序之后,所述识别方法还包括:
根据识别出的后台运行程序,获取后台运行程序对用户的影响信息,并在所述影响信息达到预设条件时将所述影响信息返回给用户。
3.根据权利要求1所述的识别方法,其特征在于,所述对所述数据信息进行筛选处理,包括:
对所述数据信息中访问地址不完整及访问地址数量小于第一预设值的数据进行清除。
4.根据权利要求1所述的识别方法,其特征在于,所述对所述数据信息进行筛选处理,包括:
对所述数据信息中属于同一类关键字的数据进行数据合并。
5.根据权利要求1所述的识别方法,其特征在于,所述根据筛选后的数据信息,获取不同用户对同一访问地址进行访问的数据差异性,包括:
根据筛选后的数据信息中每条访问记录的触发时间,对每个用户的访问记录在时间维度上进行分段线性处理,得到用户时间序列的基础数据;
根据所述用户时间序列的基础数据、用户身份数据及访问地址数据,生成用户时间序列矩阵;
根据所述用户时间序列矩阵,获取不同用户对同一访问地址进行访问的数据差异性。
6.根据权利要求5所述的识别方法,其特征在于,所述根据所述用户时间序列矩阵,获取不同用户对同一访问地址进行访问的数据差异性,包括:
根据所述用户时间序列矩阵,采用动态时间扭曲距离获取同一访问地址在不同用户时间序列上的数据差异性。
7.根据权利要求1所述的识别方法,其特征在于,所述根据所述差异性分析结果,识别所述访问地址对应的应用程序是否为后台运行程序,包括:
若所述差异性分析结果显示所述差异性的值小于第二预设值,则判定所述访问地址对应的应用程序为后台运行程序。
8.根据权利要求5所述的识别方法,其特征在于,所述根据所述用户时间序列矩阵,获取不同用户对同一访问地址进行访问的数据差异性之前,所述识别方法还包括:
按照预定准则对所述用户时间序列矩阵进行抽样处理。
9.根据权利要求1所述的识别方法,其特征在于,所述在后台数据库中获取用户访问记录相关的数据信息,包括:
在DO后台数据库中获取包含国际移动用户识别码IMSI、统一资源标示符URI、统一资源标示符路径URI_PATH及访问记录的触发时间的数据信息。
10.一种终端后台运行程序的识别装置,其特征在于,包括:
第一获取模块,用于在后台数据库中获取用户访问记录相关的数据信息,并对所述数据信息进行筛选处理,其中所述数据信息中包含用户身份数据及访问地址数据;
第二获取模块,用于根据筛选后的数据信息,获取不同用户对同一访问地址进行访问的数据差异性,得到差异性分析结果;
识别模块,用于根据所述差异性分析结果,识别所述访问地址对应的应用程序是否为后台运行程序。
11.根据权利要求10所述的识别装置,其特征在于,所述识别装置还包括:
第三获取模块,用于根据识别出的后台运行程序,获取后台运行程序对用户的影响信息,并在所述影响信息达到预设条件时将所述影响信息返回给用户。
12.根据权利要求10所述的识别装置,其特征在于,所述第一获取模块包括:
清除单元,用于对所述数据信息中访问地址不完整及访问地址数量小于第一预设值的数据进行清除。
13.根据权利要求10所述的识别装置,其特征在于,所述第一获取模块包括:
合并单元,用于对所述数据信息中属于同一类关键字的数据进行数据合并。
14.根据权利要求10所述的识别装置,其特征在于,所述第二获取模块包括:
分段单元,用于根据筛选后的数据信息中每条访问记录的触发时间,对每个用户的访问记录在时间维度上进行分段线性处理,得到用户时间序列的基础数据;
生成单元,用于根据所述用户时间序列的基础数据、用户身份数据及访问地址数据,生成用户时间序列矩阵;
第一获取单元,用于根据所述用户时间序列矩阵,获取不同用户对同一访问地址进行访问的数据差异性。
15.根据权利要求14所述的识别装置,其特征在于,所述第一获取单元包括:
第一获取子单元,用于根据所述用户时间序列矩阵,采用动态时间扭曲距离获取同一访问地址在不同用户时间序列上的数据差异性。
16.根据权利要求10所述的识别装置,其特征在于,所述识别模块包括:
判定单元,用于若所述差异性分析结果显示所述差异性的值小于第二预设值,则判定所述访问地址对应的应用程序为后台运行程序。
17.根据权利要求14所述的识别装置,其特征在于,所述识别装置还包括:
抽样模块,用于按照预定准则对所述用户时间序列矩阵进行抽样处理。
18.根据权利要求10所述的识别装置,其特征在于,所述第一获取模块包括:
第二获取单元,用于在DO后台数据库中获取包含国际移动用户识别码IMSI、统一资源标示符URI、统一资源标示符路径URI_PATH及访问记录的触发时间的数据信息。
19.一种网络平台,其特征在于,包括:如权利要求10-18任一项所述的终端后台运行程序的识别装置。
CN201510670025.7A 2015-10-13 2015-10-13 一种终端后台运行程序的识别方法、装置及网络平台 Active CN106570043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510670025.7A CN106570043B (zh) 2015-10-13 2015-10-13 一种终端后台运行程序的识别方法、装置及网络平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510670025.7A CN106570043B (zh) 2015-10-13 2015-10-13 一种终端后台运行程序的识别方法、装置及网络平台

Publications (2)

Publication Number Publication Date
CN106570043A CN106570043A (zh) 2017-04-19
CN106570043B true CN106570043B (zh) 2019-08-02

Family

ID=58508823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510670025.7A Active CN106570043B (zh) 2015-10-13 2015-10-13 一种终端后台运行程序的识别方法、装置及网络平台

Country Status (1)

Country Link
CN (1) CN106570043B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905476B (zh) * 2021-03-12 2023-08-11 网易(杭州)网络有限公司 测试的执行方法及装置、电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102981825A (zh) * 2012-10-31 2013-03-20 广东欧珀移动通信有限公司 一种移动终端后台数据的管理方法及系统
CN104298569A (zh) * 2014-09-30 2015-01-21 北京金山安全软件有限公司 应用程序运行异常的检测方法、装置和移动终端
CN104360852A (zh) * 2014-10-30 2015-02-18 北京数字天域科技股份有限公司 一种移动终端应用程序管理方法以及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10356579B2 (en) * 2013-03-15 2019-07-16 The Nielsen Company (Us), Llc Methods and apparatus to credit usage of mobile devices

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102981825A (zh) * 2012-10-31 2013-03-20 广东欧珀移动通信有限公司 一种移动终端后台数据的管理方法及系统
CN104298569A (zh) * 2014-09-30 2015-01-21 北京金山安全软件有限公司 应用程序运行异常的检测方法、装置和移动终端
CN104360852A (zh) * 2014-10-30 2015-02-18 北京数字天域科技股份有限公司 一种移动终端应用程序管理方法以及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Android后台监听机制的程序实现;戴茜等;《计算机光盘软件与应用》;20120801(第15期);第220-221页

Also Published As

Publication number Publication date
CN106570043A (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
De Choudhury et al. How does the data sampling strategy impact the discovery of information diffusion in social media?
US8244224B2 (en) Providing customized information to a user based on identifying a trend
CN106933724B (zh) 一种分布式信息追踪系统、信息处理方法及装置
CN103473036B (zh) 一种输入法皮肤推送方法及系统
US11816172B2 (en) Data processing method, server, and computer storage medium
CN110337059B (zh) 一种用户家庭关系的分析算法、服务器及网络系统
CN103377242A (zh) 用户行为分析方法、分析预测方法及电视节目推送系统
CN110647512B (zh) 一种数据存储和分析方法、装置、设备和可读介质
CN111597449B (zh) 用于搜索的候选词构建方法、装置、电子设备及可读介质
JafariAsbagh et al. Clustering memes in social media streams
CN109560989B (zh) 一种链路监控系统
CN111614690A (zh) 一种异常行为检测方法及装置
CN111382155B (zh) 一种数据仓库的数据处理方法、电子设备及介质
WO2012079835A1 (en) Method and system for carrying out predictive analysis relating to nodes of a communication network
CN113099475A (zh) 网络质量检测方法、装置、电子设备及可读存储介质
Sarmento et al. Social network analysis in streaming call graphs
CN106570043B (zh) 一种终端后台运行程序的识别方法、装置及网络平台
Jaffrès-Runser et al. Crowdsensing mobile content and context data: Lessons learned in the wild
Weiß Fully observed INAR (1) processes
CN109150819B (zh) 一种攻击识别方法及其识别系统
CN112486796B (zh) 一种采集车载智能终端信息的方法和装置
US11050834B1 (en) Method for automatically assigning visits to partially observable location data streams
CN113010795A (zh) 用户动态画像生成方法、系统、存储介质及电子设备
CN112579638B (zh) 行为标签信息的处理方法、装置、计算机设备及存储介质
CN117171432B (zh) 一种客户端app的数据推送方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant