CN112565060B - 基于qq文本流量分析目标通联对端的系统及其方法 - Google Patents
基于qq文本流量分析目标通联对端的系统及其方法 Download PDFInfo
- Publication number
- CN112565060B CN112565060B CN202011399034.4A CN202011399034A CN112565060B CN 112565060 B CN112565060 B CN 112565060B CN 202011399034 A CN202011399034 A CN 202011399034A CN 112565060 B CN112565060 B CN 112565060B
- Authority
- CN
- China
- Prior art keywords
- communication
- text
- flow
- numbers
- traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/04—Real-time or near real-time messaging, e.g. instant messaging [IM]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了基于QQ文本流量分析目标通联对端的系统及方法,属于数据挖掘技术领域,其方法包括:获取时间范围T内全网的QQ文本流量数据;针对每个发送流量di找到满足通联条件的所有接收流量作为di对应的候选通联流量集合Sdi;针对每个Sdi生成候选通联关系集合S;针对S根据发送端和接收端的QQ号码分组得到QQ号码之间的通联关系元组S’={qm,qn,Smn,Snm};遍历针对每一个通联关系元组,计算两个QQ号码qm和qn的文本通联权重w(qm,qn);遍历S’,将w(qm,qn)>wth的QQ号码qm和qn作为一组通联对象,保留Smn和Snm中的通联关系。该方法利用文本通联数据中的动作类型、时间、消息长度信息,挖掘出与每个QQ号码在时间维度和消息长度维度关联性高的QQ号码,得到更为准确的结果。
Description
技术领域
本发明属于数据挖掘技术领域,具体涉及基于QQ文本流量分析目标通联对端的系统及其方法。
背景技术
即时通信中蕴含的用户通联网络是社会网络分析领域备受关注的重要课题,而QQ是当前最流行的即时通信工具之一。
出于应用数据信息安全和用户隐私保护等目的,手机端QQ采用数据加密的方式进行客户端与服务端的数据通信保护,为QQ数据的分析、提取和利用带来难题。
构建通联关系的一般方法如基于报文格式和基于消息内容还原都因为信息加密传输导致无法进行内容还原及通信两端的用户信息还原。
发明内容
发明目的:针对已识别为QQ文本流量的数据,本发明提供了基于QQ文本流量分析目标通联对端的系统;本发明还提供基于QQ文本流量分析目标通联对端的方法,通过一种深度挖掘特征关联,进而得到目标通联对端流量的方法,该方法覆盖范围广,准确率高。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
基于QQ文本流量分析目标通联对端的系统,包括QQ文本流量数据获取模块、候选流量集计算模块、候选通联关系生成模块、通联关系四元组生成模块和目标通联对端确定模块,其中:
QQ文本流量数据获取模块,用于获取时间范围T内全网的QQ文本流量数据;
候选流量集计算模块,用于计算每条发送流量的候选接收流量集合;所述候选流量集为满足QQ文本通联条件的所有收发方流量;
候选通联关系生成模块,用于生成候选通联关系集合;
通联关系四元组生成模块,用于生成通联关系四元组集合;
目标通联对端确定模块,用于计算每一组收发方QQ号码的通联权重,将通联权重大于阈值的一组确定为通联对端。
进一步地,所述的QQ文本流量数据中包括QQ号码、时间、动作类型、应用类型、消息长度。
进一步地,所述的通联关系包含:发送端QQ号码,接收端QQ号码,发送时间,动作类型,应用类型;所述通联关系四元组包含收发方QQ号码以及双方所有的通联关系。
所述的基于QQ文本流量分析目标通联对端的系统的方法,包括如下步骤:
1)获取时间范围T内全网的QQ文本发送流量数据Ssend;
2)获取时间范围T内全网的QQ文本接收流量数据Sreceive;
3)遍历Ssend,对Ssend中的每一条发送流量记录di,遍历Sreceive,找到满足QQ文本通联条件的所有接收流量记录Sdi;
4)针对每一组(di,Sdi),遍历Sdi,di与Sdi中的每一条接收流量dj生成一条通联关系,得到通联关系集合S;
5)针对通联关系集合S根据发送端和接收端的QQ号码分组得到通联关系四元元组集合S’,元素为(qm,qn,Smn,Snm),其中qm和qn表示按自然序排序的收发方QQ号码,Smn表示qm作为发送端qn作为接收端的通联关系集合,Snm表示qm作为接收端qn作为发送端的通联关系集合;
6)对每一个通联元组(qm,qn,Smn,Snm),计算两个QQ号码qm和qn的文本通联权重w(qm,qn);遍历S’,将满足权重阈值条件的QQ号码qm和qn作为一组通联对象,保留Smn和Snm中的通联关系,并增加权重字段,取值为w(qm,qn)。
进一步地,所述的步骤1)和步骤2)中,流量数据的查询条件为:
查询条件为:①应用类型等于QQ;②动作类型等于文本发送;③时间符合范围。
进一步地,所述的步骤3)中,QQ文本通联条件为:①QQ号码不同;②时间差小于tth,tth为预先设定的时间差阈值;③满足长度关联条件;
其中,所述的长度关联条件为:
lth_min≤rl-sl≤lth_max
其中,sl为发送消息长度,rl为接收消息长度,lth_min和lth_max分别表示接收发送消息长度差阈值的下限和上限阈值。
进一步地,所述的步骤4)中,发送流量di和接收流量dj的QQ号码不同,且时间差小于tth,消息长度差在阈值范围Lth内;tth和Lth分别为预先设定的时间差阈值和长度差阈值范围。
进一步地,所述的步骤6)中,所述通联权重w(qm,qn)为:
w(qm,qn)=w1·isFriend(qm,qn)+w2·min(cmn,cnm)+w3·max(cmn,cnm)
其中,isFriend(qm,qn)取值0或1,表示通联双方qm和qn之间是否存在好友关系,cmn为Smn中通联关系的条数,cnm为Snm中通联关系的条数,w1、w2、w3分别表示是否好友维度、是否通联维度、通联条数维度的打分权重,w1、w2、w3是预先设好的值;
权重阈值条件为:w(qm,qn)>wth,wth为预设的权重阈值;
依次处理每一个通联元组,分析每一组QQ号码是否通联对端。
有益效果:与现有技术相比,本发明的基于QQ文本流量分析目标通联对端的系统,通过一种深度挖掘特征关联,进而得到目标通联对端流量的方法;本发明的基于QQ文本流量分析目标通联对端的方法,针对加密的手机QQ应用文本流量双方通联关系分析的解决方案,逆向分析通联客户端双方的特征,从消息长度的角度进行通联关系分析,得出具体行为的潜在通联双方,该方法能够得到准确的结果。本发明通过被动还原和逆向分析的方式,去分析出QQ文本用户的行为受方,通过长时间的积累,可以准确地描绘出用户的关系网。
附图说明
图1为实施例中基于QQ文本流量分析目标通联对端的方法的流程图;
图2为实施例中基于QQ文本流量分析目标通联对端的系统的组成图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1所示,本发明公开了基于QQ文本流量分析目标通联对端的方法,包括:
步骤1、获取时间范围T内全网的QQ文本流量数据,所述流量数据中包括QQ号码、时间、动作类型、应用类型、消息长度;
本实施例中,获取到五分钟内包括目标QQ号码流量在内的QQ文本流量数据,包含13万条发送流量和6万条接收流量,涉及到的QQ号码共5万个,其中发送流量中包含4万个QQ号码,接收流量中包含2万个QQ号码;
步骤2、针对每条发送流量di找到满足QQ文本通联条件的所有接收流量作为di对应的候选通联流量集合Sdi;
所述QQ文本通联条件为:发送流量di和接收流量dj的QQ号码不同,且时间差小于tth,消息长度差在阈值范围Lth内;tth和Lth分别为预先设定的时间差阈值和长度差阈值范围;
步骤3、针对每一组(di,Sdi),遍历Sdi,di与Sdi中的每一条接收流量dj生成一条通联关系,得到通联关系集合S,所述通联关系包含:发送端QQ号码,接收端QQ号码,发送时间,动作类型,应用类型;
步骤4、针对S根据发送端和接收端的QQ号码分组得到通联四元元组集合S’,元素为(qm,qn,Smn,Snm),其中qm和qn表示按自然序排序的收发方QQ号码,Smn表示qm作为发送端qn作为接收端的通联关系集合,Snm表示qm作为接收端qn作为发送端的通联关系集合;
步骤5、对每一个通联元组(qm,qn,Smn,Snm),计算两个QQ号码qm和qn的文本通联权重w(qm,qn);遍历S’,将满足w(qm,qn)>wth的QQ号码qm和qn作为一组通联对象,保留Smn和Snm中的通联关系,并增加权重字段,取值为w(qm,qn);wth为预设的权重阈值。
计算QQ号码qm和qn的文本通联权重w(qm,qn)包括:
w(qm,qn)=w1·isFriend(qm,qn)+w2·min(cmn,cnm)+w3·max(cmn,cnm)
其中,isFriend(qm,qn)取值0或1,表示通联双方qm和qn之间是否存在好友关系,cmn为Smn中通联关系的条数,cnm为Snm中通联关系的条数,w1、w2、w3分别表示是否好友维度、是否通联维度、通联条数维度的打分权重,是预先设好的值;
依次处理每一个通联元组,分析每一组QQ号码是否通联对端。
如图2所示,本实施例还公开了实现上述基于QQ文本流量分析目标通联对端方法的系统,包括:
QQ文本流量数据获取模块,用于获取时间范围T内全网的QQ文本流量数据,所述QQ文本流量数据中包括QQ号码、时间、动作类型、应用类型、消息长度;
候选流量集计算模块,用于计算每条发送流量的候选接收流量集合;所述候选流量集为满足QQ文本通联条件的所有收发方流量;
候选通联关系生成模块,用于生成候选通联关系集合;所述通联关系包含:发送端QQ号码,接收端QQ号码,发送时间,动作类型,应用类型;
通联关系四元组生成模块,用于生成通联关系四元组集合;所述通联关系四元组包含收发方QQ号码以及双方所有的通联关系;
目标通联对端确定模块,用于计算每一组收发方QQ号码的通联权重,将通联权重大于阈值的一组确定为通联对端。
Claims (7)
1.基于QQ文本流量分析目标通联对端的方法,通过基于QQ文本流量分析目标通联对端的系统实现,其特征在于:所述基于QQ文本流量分析目标通联对端的系统包括QQ文本流量数据获取模块、候选流量集计算模块、候选通联关系生成模块、通联关系四元组生成模块和目标通联对端确定模块,其中:
QQ文本流量数据获取模块,用于 获取时间范围T内全网的QQ文本流量数据;
候选流量集计算模块,用于计算每条发送流量的候选接收流量集合;所述候选流量集为满足QQ文本通联条件的所有收发方流量;
候选通联关系生成模块,用于生成候选通联关系集合;
通联关系四元组生成模块,用于生成通联关系四元组集合;
目标通联对端确定模块,用于计算每一组收发方QQ号码的通联权重,将通联权重大于阈值的一组确定为通联对端;
所述基于QQ文本流量分析目标通联对端的方法,包括如下步骤:
1)获取时间范围T内全网的QQ文本发送流量数据S send ;
2)获取时间范围T内全网的QQ文本接收流量数据S receive ;
3)遍历S send ,对S send 中的每一条发送流量记录d i ,遍历S receive ,找到满足QQ文本通联条件的所有接收流量记录S di ;
4)针对每一组(d i , S di ),遍历S di ,d i 与S di 中的每一条接收流量d j 生成一条通联关系,得到通联关系集合S;
5)针对通联关系集合S根据发送端和接收端的QQ号码分组得到通联关系四元组集合S’,元素为(q m ,q n ,S mn ,S nm ),其中q m 和q n 表示按自然序排序的收发方QQ号码,S mn 表示q m 作为发送端q n 作为接收端的通联关系集合,S nm 表示q m 作为接收端q n 作为发送端的通联关系集合;
6)对每一个通联元组(q m ,q n ,S mn ,S nm ),计算两个QQ号码q m 和q n 的文本通联权重w(q m ,q n );遍历S’,将满足权重阈值条件的QQ号码q m 和q n 作为一组通联对象,保留S mn 和S nm 中的通联关系,并增加权重字段,取值为w(q m ,q n )。
2.根据权利要求1中所述的基于QQ文本流量分析目标通联对端的方法,其特征在于:所述的QQ文本流量数据中包括QQ号码、时间、动作类型、应用类型、消息长度。
3.根据权利要求1中所述的基于QQ文本流量分析目标通联对端的方法,其特征在于:所述的通联关系包含:发送端QQ号码,接收端QQ号码,发送时间,动作类型,应用类型;所述通联关系四元组包含收发方QQ号码以及双方所有的通联关系。
4.根据权利要求1所述的基于QQ文本流量分析目标通联对端的方法,其特征在于:所述的步骤1)和步骤2)中,流量数据的查询条件为:
查询条件为:①应用类型等于QQ;②动作类型等于文本发送;③时间符合范围。
6.根据权利要求1所述的基于QQ文本流量分析目标通联对端的方法,其特征在于:所述的步骤4)中,发送流量d i 和接收流量d j 的QQ号码不同,且时间差小于t th ,消息长度差在阈值范围L th 内;t th 和L th 分别为预先设定的时间差阈值和长度差阈值范围。
7.根据权利要求1所述的基于QQ文本流量分析目标通联对端的方法,其特征在于:所述的步骤6)中,所述文本通联权重w(q m ,q n )为:
其中,isFriend(q m ,q n )取值0或1,表示通联双方q m 和q n 之间是否存在好友关系,c mn 为S mn 中通联关系的条数,c nm 为S nm 中通联关系的条数,w 1 、w 2 、w 3 分别表示是否好友维度、是否通联维度、通联条数维度的打分权重,w 1 、w 2 、w 3 是预先设好的值;
权重阈值条件为:w(q m ,q n )>w th ,w th 为预设的权重阈值;
依次处理每一个通联元组,分析每一组QQ号码是否通联对端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011399034.4A CN112565060B (zh) | 2020-12-04 | 2020-12-04 | 基于qq文本流量分析目标通联对端的系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011399034.4A CN112565060B (zh) | 2020-12-04 | 2020-12-04 | 基于qq文本流量分析目标通联对端的系统及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112565060A CN112565060A (zh) | 2021-03-26 |
CN112565060B true CN112565060B (zh) | 2022-06-10 |
Family
ID=75047757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011399034.4A Active CN112565060B (zh) | 2020-12-04 | 2020-12-04 | 基于qq文本流量分析目标通联对端的系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112565060B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102195899A (zh) * | 2011-05-30 | 2011-09-21 | 中国人民解放军总参谋部第五十四研究所 | 通信网络的信息挖掘方法与系统 |
CN111182530A (zh) * | 2019-12-27 | 2020-05-19 | 南京中新赛克科技有限责任公司 | 基于手机信令数据分析目标新手机号码的方法及系统 |
-
2020
- 2020-12-04 CN CN202011399034.4A patent/CN112565060B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102195899A (zh) * | 2011-05-30 | 2011-09-21 | 中国人民解放军总参谋部第五十四研究所 | 通信网络的信息挖掘方法与系统 |
CN111182530A (zh) * | 2019-12-27 | 2020-05-19 | 南京中新赛克科技有限责任公司 | 基于手机信令数据分析目标新手机号码的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112565060A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10218598B2 (en) | Automatic parsing of binary-based application protocols using network traffic | |
WO2018054342A1 (zh) | 一种网络数据流分类的方法及系统 | |
Niu et al. | A heuristic statistical testing based approach for encrypted network traffic identification | |
CN1842063A (zh) | 一种即时通信方法 | |
CN114189347B (zh) | 一种数据粒子化与网闸相结合的数据安全传输方法 | |
CN108390760B (zh) | 一种云数据传输中端到端的公钥关键字可搜索加密方法 | |
CN106487748B (zh) | 数据传输方法、装置及系统 | |
Parsons | Deep Packet Inspection in Perspective: Tracing its lineage and surveillance potentials | |
CN103745014A (zh) | 一种社交网络用户虚实映射方法和系统 | |
Shim et al. | Application traffic classification using payload size sequence signature | |
WO2020188524A1 (en) | System and method for de-anonymizing actions and messages on networks | |
Sun et al. | Privacy-preserving spatiotemporal matching for secure device-to-device communications | |
CN113254743B (zh) | 一种车联网中动态空间数据的安全语义感知搜索方法 | |
CN113872816B (zh) | 一种用于工业互联网的设备管理系统 | |
Rebollo-Monedero et al. | An information-theoretic privacy criterion for query forgery in information retrieval | |
CN115796276A (zh) | 一种基于联邦学习的决策树构建方法、装置及存储介质 | |
CN112565060B (zh) | 基于qq文本流量分析目标通联对端的系统及其方法 | |
JP2005244647A (ja) | コミュニティ形成装置 | |
CN110569413A (zh) | 一种社交网络中保护成员隐私的索引系统及方法 | |
Wang et al. | A Multimode Network Steganography for Covert Wireless Communication Based on BitTorrent | |
CN110737705A (zh) | 一种转发行为的数据获取系统 | |
CN115883152A (zh) | 基于联邦学习的网络流量攻击检测方法、系统及存储介质 | |
CN113364879B (zh) | 一种基于大数据的多层级资产在线拍卖信息流转系统及方法 | |
Zhang et al. | Data-driven caching with users' local differential privacy in information-centric networks | |
Ruppel et al. | Geocookie: A space-efficient representation of geographic location sets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |