CN115150297A - 一种基于移动互联网的数据过滤及内容评价方法和系统 - Google Patents
一种基于移动互联网的数据过滤及内容评价方法和系统 Download PDFInfo
- Publication number
- CN115150297A CN115150297A CN202210976981.8A CN202210976981A CN115150297A CN 115150297 A CN115150297 A CN 115150297A CN 202210976981 A CN202210976981 A CN 202210976981A CN 115150297 A CN115150297 A CN 115150297A
- Authority
- CN
- China
- Prior art keywords
- data
- flow
- content
- webpage
- sent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 39
- 238000011156 evaluation Methods 0.000 title claims abstract description 20
- 238000012544 monitoring process Methods 0.000 claims abstract description 28
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 230000002159 abnormal effect Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/06—Generation of reports
- H04L43/062—Generation of reports related to network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
- H04L63/0245—Filtering by information in the payload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提出了一种基于移动互联网的数据过滤及内容评价方法和系统,属于互联网内容发送技术领域,监控访问移动互联网的移动终端用户发送访问请求时发送的数据包;监测移动终端用户向真实服务器地址发送的网页访问请求时的流量数据,对流量数据进行分析,得出流量特征;将流量特征表示拼接起来作为每条请求流量数据的最终特征表示,输入到特征流量检测模型以进行数据流量正常与否的判断,并过滤不正常的数据流量;对正常的网页访问请求的内容进行相似度评价;根据相似度从大到小的顺序构造待发送网页队列,取队列前几位的待发送网页内容向移动终端用户进行发送。
Description
技术领域
本发明涉及互联网数据处理技术领域,具体为一种基于移动互联网的数据过滤及内容评价方法和系统。
背景技术
近年来,随着移动设备的成熟和普及,移动互联网呈现爆发式发展的趋势。各大公司和开发者都争相投入到移动开发的热潮。同时,移动应用的开发技术也随之有了迅速的发展。当前在手机等移动终端上应用搜索引擎通过移动网络进行搜索时,需要使用一定的数据流量。然而,在现在的条件下,网络服务提供商对使用者使用数据流量的收费较高,对于使用者而言负担比较大。更加重要的是,现有移动网络的网络性能指标往往不高,同时网络内容服务商提供的网络内容的数据量越来越大,使用网络搜索的客户端需要与服务器交换的数据包的数量逐渐增长,所以,使用现有的搜索服务,所使用的移动网络流量大,使用者需要等待搜索结果加载和显示的等待时间长。
同时由于移动终端用户数量庞大,要发送的消息内容的类型却有限,因此通常将一个优先信息发送到多个用户,而对于每个用户,由该用户获取的优先信息通常与该用户的实际需要不匹配。结果,在获取优先信息时,所有用户通常将选择丢弃所获取的优先信息。这不仅降低了信息搜索过程的有效性,而且还将进一步降低用户体验,从而还降低了用户的注意力。
例如现有技术中,专利文献CN114205151A公开了一种基于多特征融合学习的HTTP/2页面访问流量识别方法。该方法首先对目标HTTP/2站点在典型用户交互过程中产生的主页访问流量以及资源响应流量进行采集;对流量数据进行预处理后得到完整的TCP流;一方面使用自编码网络捕获主页访问流量的内容分布规则特征,另一方面使用递归神经网络识别资源响应流量的主体资源类别;进一步将内容分布规则特征和主体资源类别特征进行融合拼接,输入到卷积神经网络模型中,得到站点页面识别结果。该技术方案利用多条数据流作为指纹提取的基本单位,通过深度学习方法对不同类型数据流进行特征提取,并融合多特征对目标站点进行充分表征,识别精度虽高,但是前期缺少对访问流量数据的过滤,造成识别运算量过大,运算时间长。
再例如专利文献CN103607322A公开了一种网站流量数据分析方法及装置。根据分析请求获取访问流量数据和搜索引擎数据;从搜索引擎数据与搜索引擎数据中提取关键词属性;将关键词属性按照预设条件进行比对分析得到分析结果。该技术方案虽然解决了现有技术中对网站各项参数的分析不准确的问题,通过访问流量数据和搜索引擎数据之间的关系定量的对网站数据进行解读,但是该技术方案缺少信息过滤及匹配的过程,造成系统负荷较重,提高了组网复杂性。
发明内容
为了解决上述技术问题,本发明提出了一种基于移动互联网的数据过滤及内容评价方法,包括如下步骤:
S1,监控访问移动互联网的移动终端用户发送访问请求时发送的数据包;
S2,监测移动终端用户向真实服务器地址发送的网页访问请求时的流量数据,对流量数据进行分析,得出流量特征;
S3,将流量特征表示拼接起来作为每条请求流量数据的最终特征表示,输入到特征流量检测模型以进行数据流量正常与否的判断,并过滤不正常的数据流量;
S4,对正常的网页访问请求的内容进行相似度评价;具体包括:
S401、对正常的网页访问请求的内容进行平滑填充,使得请求的内容长度达到规定值;
S402、对标准长度的请求内容R进行分解:
R=T+Q+UL+D;
Q代表流量特征,UL代表网址,T代表请求内容的标题,D为标准长度的请求内容R中除Q、UL、T之外的其他内容;
将标准长度的请求内容R表示为2×2维的矩阵[R]:
S403、将待发送网页内容送入推荐单元,并将待发送网页内容按照步骤S401和S402进行分解,得到待发送网页内容矩阵;
S404、计算矩阵[R]与待发送网页内容矩阵i的相似度Si为:
其中,SiT表示两个矩阵间标题的相似度,SiQ表示两个矩阵间流量特征的相似度,SiUL表示两个矩阵间网址的相似度,SiD表示两个矩阵间其他内容的相似度;
S5,根据相似度从大到小的顺序构造待发送网页队列,取队列前几位的待发送网页内容向移动终端用户进行发送。
进一步地,所述步骤S1具体包括如下步骤:
S101、调用socket函数在监控单元设置套接口捕获数据包;
S102、调用ioctl函数,使建立连接的套接口能够捕获到数据包;
S103、从套接口循环地读取数据包;
S104、提取请求数据包中携带的真实服务器地址数据。
进一步地,所述步骤S2中,对流量数据进行分析得出流量特征,具体包括:
将目标节点i的流量数据hi与邻居节点j的流量数据hj线性变换后的特征表示拼接,然后由权重向量α进行参数化,并输入到非线性激活函数LReLU,则输出未归一化的注意力互相关系数ei,j:
ei,j=LReLU(α(hi||hj)) (1);
对每个目标节点i与其邻居节点j∈Ni分别计算注意力互相关系数αi,j,其中Ni为目标节点i的邻居节点集合;
对所述注意力互相关系数ei,j进行归一化操作:
其中,α为权重向量,αi,j为归一化值;
基于归一化值αi,j对邻居节点的流量数据进行加权线性组合从而得到新的节点的流量数据h′i表示:
其中,σ为平衡系数;
求解每个新的节点流量数据之间的差异来得到流量特征表示S′i,
其中,h′j表示邻居节点j作为目标节点时进行加权线性组合从而得到新的节点的流量数据,α′i,j表示基于新的节点的流量数据h′i和h′j计算得到的新归一化值,ε为线性系数。
进一步地,所述步骤S3中,所述特征流量检测模型表示为:
y=softmax((h′i||s′i)+b) (5);
其中,softmax为逻辑回归函数,b表示偏置项,y为特征流量检测模型的预测值;
利用交叉熵损失函数L优化特征流量检测模型,计算预测值y和真实值Y之间的差异,如下所示:
L=-(Y·log y+(1-Y)·log(1-y)) (6);
若L不大于阈值,则表示该特征流量所代表的网页访问请求正常,若L大于阈值,则表示该特征流量所代表的网页访问请求不正常,则将该流量数据过滤。
本发明还提出了一种基于移动互联网的数据过滤及内容评价系统,用于实现前述的数据过滤及内容评价方法,包括:数据包监控单元、流量数据获取单元、过滤单元、推荐单元;
所述数据包监控单元,用于监控访问移动互联网的移动终端用户发送访问请求时发送的数据包;
所述流量数据获取单元,用于监测移动终端用户向真实服务器地址发送的网页访问请求时的流量数据,对流量数据进行分析,得出流量特征;
所述过滤单元,用于将流量特征表示拼接起来作为每条请求流量数据的最终特征表示,输入到特征流量检测模型以进行数据流量正常与否的判断,并过滤不正常的数据流量;
所述推荐单元,用于对正常的网页访问请求的内容进行相似度评价,根据相似度从大到小的顺序构造待发送网页队列,取队列前几位的待发送网页内容向移动终端用户进行发送。
进一步地,所述推荐单元包括:特征提取模块、相似度计算模块、排序模块、发送模块;
所述特征提取模块,用于对正常的网页访问请求的内容进行平滑填充,使得请求的内容长度达到规定值,并对标准长度的请求内容进行分解,提取特征;
所述相似度计算模块,用于对送入推荐单元的待发送网页内容与访问请求的内容进行相似度计算;
所述排序模块,根据相似度从大到小的顺序构造待发送网页队列;
所述发送模块,取队列前几位的待发送网页内容向移动终端用户进行发送。
进一步地,所述数据过滤及内容评价系统还包括前端队列单元,负责接收移动终端用户的请求,把请求的消息放入前端消息队列缓存等待后端发送处理。
相比于现有技术,本发明具有如下有益技术效果:
1、通过调用socket函数和ioctl函数,实现准确循环地对访问移动互联网的移动终端用户发送的数据包的监控。
2、监测移动终端用户向真实服务器地址发送的网页访问请求时的流量数据,对采集到的流量数据进行格式归一化预处理,对预处理后的流量数据构建流量数据图,将流量特征表示拼接起来作为每条请求流量数据的最终特征表示,进行数据流量正常与否的判断,能够实现对不正常的数据流量的过滤。
3、对正常的网页访问请求的内容进行平滑填充,成为标准长度的请求内容,并对标准长度的请求内容进行分解,计算内容矩阵与待发送网页内容矩阵的相似度,根据相似度Si从大到小的顺序构造待发送网页队列,取队列前几位的待发送网页内容向移动终端用户进行发送。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于移动互联网的数据过滤及内容评价方法的流程图;
图2为本发明的流量数据图的一个实施例示意图;
图3为本发明的基于移动互联网的数据过滤及内容评价系统的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本发明的具体实施例附图中,为了更好、更清楚的描述系统中的各元件的工作原理,表现所述装置中各部分的连接关系,只是明显区分了各元件之间的相对位置关系,并不能构成对元件或结构内的信号传输方向、连接顺序及各部分结构大小、尺寸、形状的限定。
如图1所示,为本发明的基于移动互联网的数据过滤及内容评价方法的流程图,包括如下步骤:
S1,监控访问移动互联网的移动终端用户发送访问请求时发送的数据包。利用监控单元实现监控数据包的过程具体包括:
S101、调用socket函数在监控单元设置套接口捕获数据包。
socket函数是一种可用于根据指定的地址、数据类型和协议来分配套接口及其所用资源的函数,其表现为:socket(int af,int type,int protocol);
int af代表地址描述参数,仅支持AF_INET格式,即ARPA Internet地址格式。
int type:代表套接口类型的描述参数。
Int protocol:代表套接口所用的协议参数。如调用者不想指定套接口所用的协议参数,可用0代替,表示缺省。
如果socket函数调用成功,代表套接口类型的描述参数就作为socket函数的返回值,假如返回值为-1,就表明有错误发生,则重新分配套接口。
S102、调用ioctl函数,使建立连接的套接口能够捕获到数据包。
ioctl函数是设备驱动程序函数,用于对设备的I/O通道进行管理,在本实施例中,调用ioctl函数用于驱动建立连接的套接口,进行数据包捕获。
ioctl函数的表现为:ioctl(int fd,int cmd,…);
其中int fd是移动终端用户打开建立连接的套接口时使用open函数返回的文件标示;int cmd是移动终端用户对建立连接的套接口的控制命令参数;后面的省略号,代表其他需要补充的参数。
S103、从套接口循环地读取数据包。
套接口建立以后,建立数据帧的缓冲区,并把帧头结构的指针指向这一缓冲区的首地址,则可以从中循环地读取数据包。
S104、提取请求数据包中携带的真实服务器地址数据。
S2,监测移动终端用户向真实服务器地址发送的网页访问请求时的流量数据,对流量数据进行分析,得出流量特征。具体包括:
在进行流量数据监测的过程中,首先采集移动终端用户向真实服务器地址发送的网页访问请求时的流量数据。对采集到的流量数据进行格式归一化预处理,对预处理后的流量数据构建流量数据图。
该流量数据图以单条网页访问请求时的流量数据为节点,并在共享相同目的服务器地址与目的端口,或共享相同通信模式的节点之间连边,存在边相连的节点称为邻居节点。
考虑到能从单条流量数据中获取的消息非常有限,将邻居节点的特征通过流量数据图有权重地聚合到目标节点,将更加丰富的节点特征输入到流量数据图,从而实现了特征流量检测模型的构建,具体构建方法如下所示:
首先将目标节点i的流量数据hi与邻居节点j的流量数据hj线性变换后的特征表示拼接,然后由权重向量α进行参数化,并输入到非线性激活函数LReLU,则输出未归一化的注意力互相关系数ei,j:
ei,j=LReLU(α(hi||hj)) (1);
ei,j反映了邻居节点j对目标节点i的重要度,
对每个目标节点i与其邻居节点j∈Ni分别计算注意力互相关系数ei,j,其中Ni为目标节点i的邻居节点集合。
对该注意力互相关系数ei,j进行归一化操作,通过式(2)计算得到:
其中,α为权重向量,αi,j为归一化值。
在流量数据图的构建过程中,每个节点的表示由自身节点及其邻居节点来共同表示。基于归一化值αi,j对邻居节点进行加权线性组合从而得到新的节点的流量数据h′i表示:
其中,σ为平衡系数。
通过求解每个新的节点流量数据之间的差异来得到流量特征表示S′i,具体计算方法如下:
如图2所示为流量数据图的一个实施例示意图,h1、h2、……hi为h′i的邻居节点流量数据,h4、h5、……hj为h′j的邻居节点流量数据,S′i为新的节点流量数据h′i和h′j之间的差异,即流量特征表示。
S3,将流量特征表示拼接起来作为每条请求流量数据的最终特征表示,输入到特征流量检测模型以进行数据流量正常与否的判断,并过滤不正常的数据流量。
y=softmax((h′i||s′i)+b) (5);
其中,softmax为逻辑回归函数,b表示偏置项,y为特征流量检测模型的预测值。
利用交叉熵损失函数L优化特征流量检测模型,计算预测值y和真实值Y之间的差异,如下所示:
L=-(Y·logy+(1-Y)·log(1-y)) (6);
若L不大于阈值,则表示该特征流量所代表的网页访问请求正常,若L大于阈值,则表示该特征流量所代表的网页访问请求不正常,则将该流量数据过滤。
S4,对正常的网页访问请求的内容进行相似度评价,具体包括如下步骤:
S401、对正常的网页访问请求的内容进行平滑填充,使得请求的内容长度达到规定值。具体地,可使用流量特征Q、网址UL、请求内容的标题T等内容进行填充,若请求的内容中已经包括流量特征Q、网址UL、请求内容的标题T等内容,则可以采用空格进行填充。
S402、对标准长度的请求内容进行分解,提取特征。
对进行分解:
R=T+Q+UL+D;
Q代表流量特征,UL代表网址,T代表请求内容的标题,D为标准长度的请求内容R中除Q、UL、T之外的其他内容。
将标准长度的请求内容R表示为2×2维的矩阵[R],即:
当然,根据标准长度的请求内容R的分解方式的不同,可以扩展为n×n的矩阵。
S403、将待发送网页内容送入推荐单元,并将待发送网页内容按照步骤S401和S402进行分解,得到待发送网页内容矩阵。
S404、计算矩阵[R]与待发送网页内容矩阵i的相似度Si为:
其中,SiT表示两个矩阵间标题的相似度,SiQ表示两个矩阵间流量特征的相似度,SiUL表示两个矩阵间网址的相似度,SiD表示两个矩阵间其他内容的相似度。
S5,根据相似度Si从大到小的顺序构造待发送网页队列,取队列前几位的待发送网页内容向移动终端用户进行发送。
如图3所示,为本发明的基于移动互联网的数据过滤及内容评价系统的结构示意图。基于移动互联网的数据过滤及内容评价系统包括:数据包监控单元、流量数据获取单元、过滤单元、推荐单元。
数据包监控单元,用于监控访问移动互联网的移动终端用户发送访问请求时发送的数据包。
流量数据获取单元,用于监测移动终端用户向真实服务器地址发送的网页访问请求时的流量数据,对流量数据进行分析,得出流量特征。
过滤单元,用于将流量特征表示拼接起来作为每条请求流量数据的最终特征表示,输入到特征流量检测模型以进行数据流量正常与否的判断,并过滤不正常的数据流量。
推荐单元,用于对正常的网页访问请求的内容进行相似度评价,根据相似度Si从大到小的顺序构造待发送网页队列,取队列前几位的待发送网页内容向移动终端用户进行发送。
推荐单元包括:特征提取模块、相似度计算模块、排序模块、发送模块。
特征提取模块,用于对正常的网页访问请求的内容进行平滑填充,使得请求的内容长度达到规定值,并对标准长度的请求内容进行分解,提取特征。
相似度计算模块,用于对送入推荐单元的待发送网页内容与访问请求的内容进行相似度计算。
排序模块,根据相似度Si从大到小的顺序构造待发送网页队列。
发送模块,取队列前几位的待发送网页内容向移动终端用户进行发送。
基于移动互联网的数据过滤及内容评价系统因为要应对大量移动终端用户的发送请求,需要保证系统在高并发消息请求时的稳定性。考虑稳定性的要求和方便系统扩展升级,在优选实施例中,发送系统增加了前端队列单元,负责接收移动终端用户的请求。对于接收的众多请求,前端队列单元会把请求的消息放入前端消息队列,消息在前端消息队列中缓存等待后端发送处理。
前端消息队列是一种分布式应用间交换信息的技术,负责把业务消息缓存在内容或磁盘中。前端消息队列一般是系统间模块的通信纽带,有助于对众多消息内容分层解耦,方便扩展升级系统各部分,而不影响系统其他部分的正常运行。
通过前端消息队列还可以方便地实现系统中各模块功能业务的异步处理,前端业务消息可放入队列中缓存,不需要等待接收程序接收此消息,造成系统的阻塞。现在常见的消息队列方案有RabbitMQ,Redis,ZeroMQ等等。
在数据过滤及内容评价系统中,因为有的消息需要更即时地发送,有的则不要求及时性,所以需要对发送内容有优先级的设置。另一方面,为了对发送内容进行发送时刻的控制,可以控制发送内容在某个特定的时刻才发送给用户,即发送内容的定时发送功能。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (7)
1.一种基于移动互联网的数据过滤及内容评价方法,其特征在于,包括如下步骤:
S1,监控访问移动互联网的移动终端用户发送访问请求时发送的数据包;
S2,监测移动终端用户向真实服务器地址发送的网页访问请求时的流量数据,对流量数据进行分析,得出流量特征;
S3,将流量特征表示拼接起来作为每条请求流量数据的最终特征表示,输入到特征流量检测模型以进行数据流量正常与否的判断,并过滤不正常的数据流量;
S4,对正常的网页访问请求的内容进行相似度评价;具体包括:
S401、对正常的网页访问请求的内容进行平滑填充,使得请求的内容长度达到规定值;
S402、对标准长度的请求内容R进行分解:
R=T+Q+UL+D;
Q代表流量特征,UL代表网址,T代表请求内容的标题,D为标准长度的请求内容R中除Q、UL、T之外的其他内容;
将标准长度的请求内容R表示为2×2维的矩阵[R]:
S403、将待发送网页内容送入推荐单元,并将待发送网页内容按照步骤S401和S402进行分解,得到待发送网页内容矩阵;
S404、计算矩阵[R]与待发送网页内容矩阵i的相似度Si为:
其中,SiT表示两个矩阵间标题的相似度,SiQ表示两个矩阵间流量特征的相似度,SiUL表示两个矩阵间网址的相似度,SiD表示两个矩阵间其他内容的相似度;
S5,根据相似度从大到小的顺序构造待发送网页队列,取队列前几位的待发送网页内容向移动终端用户进行发送。
2.根据权利要求1所述的基于移动互联网的数据过滤及内容评价方法,其特征在于,所述步骤S1具体包括如下步骤:
S101、调用socket函数在监控单元设置套接口捕获数据包;
S102、调用ioctl函数,使建立连接的套接口能够捕获到数据包;
S103、从套接口循环地读取数据包;
S104、提取请求数据包中携带的真实服务器地址数据。
3.根据权利要求1所述的基于移动互联网的数据过滤及内容评价方法,其特征在于,所述步骤S2中,对流量数据进行分析得出流量特征,具体包括:
将目标节点i的流量数据hi与邻居节点j的流量数据hj线性变换后的特征表示拼接,输入到非线性激活函数LReLU中,输出未归一化的注意力互相关系数ei,j:
ei,j=LReLU(α(hi||hj)) (1);
对每个目标节点i与其邻居节点j∈Ni分别计算注意力互相关系数ei,j,其中Ni为目标节点i的邻居节点集合;
对所述注意力互相关系数ei,j进行归一化操作:
其中,α为权重向量,αi,j为归一化值;
基于归一化值αi,j对邻居节点的流量数据进行加权线性组合从而得到新的节点的流量数据h′i表示:
其中,σ为平衡系数;
求解每个新的节点流量数据之间的差异来得到流量特征表示S′i,
其中,h′i表示邻居节点j作为目标节点时进行加权线性组合从而得到新的节点的流量数据,α′i,j表示基于新的节点的流量数据h′i和h′j计算得到的新归一化值,ε为线性系数。
4.根据权利要求3所述的基于移动互联网的数据过滤及内容评价方法,其特征在于,所述步骤S3中,所述特征流量检测模型表示为:
y=softmax((h′i||S′i)+b) (5);
其中,softmax为逻辑回归函数,b表示偏置项,y为特征流量检测模型的预测值;
利用交叉熵损失函数L优化特征流量检测模型,计算预测值y和真实值Y之间的差异,如下所示:
L=-(Y·log y+(1-Y)·log(1-y)) (6);
若L不大于阈值,则表示该特征流量所代表的网页访问请求正常,若L大于阈值,则表示该特征流量所代表的网页访问请求不正常,则将该特征流量代表的流量数据过滤。
5.一种基于移动互联网的数据过滤及内容评价系统,用于实现所述权利要求1-4任意一项所述的数据过滤及内容评价方法,其特征在于,包括:数据包监控单元、流量数据获取单元、过滤单元、推荐单元;
所述数据包监控单元,用于监控访问移动互联网的移动终端用户发送访问请求时发送的数据包;
所述流量数据获取单元,用于监测移动终端用户向真实服务器地址发送的网页访问请求时的流量数据,对流量数据进行分析,得出流量特征;
所述过滤单元,用于将流量特征表示拼接起来作为每条请求流量数据的最终特征表示,输入到特征流量检测模型以进行数据流量正常与否的判断,并过滤不正常的数据流量;
所述推荐单元,用于对正常的网页访问请求的内容进行相似度评价,根据相似度从大到小的顺序构造待发送网页队列,取队列前几位的待发送网页内容向移动终端用户进行发送。
6.根据权利要求5所述的数据过滤及内容评价系统,其特征在于,所述推荐单元包括:特征提取模块、相似度计算模块、排序模块、发送模块;
所述特征提取模块,用于对正常的网页访问请求的内容进行平滑填充,使得请求的内容长度达到规定值,并对标准长度的请求内容进行分解,提取特征;
所述相似度计算模块,用于对送入推荐单元的待发送网页内容与访问请求的内容进行相似度计算;
所述排序模块,根据相似度从大到小的顺序构造待发送网页队列;
所述发送模块,取队列前几位的待发送网页内容向移动终端用户进行发送。
7.根据权利要求5所述的数据过滤及内容评价系统,其特征在于,所述数据过滤及内容评价系统还包括前端队列单元,负责接收移动终端用户的请求,把请求的消息放入前端消息队列缓存等待后端发送处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210976981.8A CN115150297B (zh) | 2022-08-15 | 2022-08-15 | 一种基于移动互联网的数据过滤及内容评价方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210976981.8A CN115150297B (zh) | 2022-08-15 | 2022-08-15 | 一种基于移动互联网的数据过滤及内容评价方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115150297A true CN115150297A (zh) | 2022-10-04 |
CN115150297B CN115150297B (zh) | 2023-05-19 |
Family
ID=83416131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210976981.8A Active CN115150297B (zh) | 2022-08-15 | 2022-08-15 | 一种基于移动互联网的数据过滤及内容评价方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115150297B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011060228A (ja) * | 2009-09-11 | 2011-03-24 | Qinghua Univ | 情報伝播を検知するウェブページ関係評価装置 |
US20140012840A1 (en) * | 2012-07-05 | 2014-01-09 | Alibaba Group Holding Limited | Generating search results |
CN103607322A (zh) * | 2013-11-19 | 2014-02-26 | 北京国双科技有限公司 | 网站流量数据分析方法及装置 |
WO2019169872A1 (zh) * | 2018-03-09 | 2019-09-12 | 北京百度网讯科技有限公司 | 搜索内容资源的方法、装置和服务器 |
CN111832647A (zh) * | 2020-07-10 | 2020-10-27 | 上海交通大学 | 异常流量检测系统及方法 |
WO2020240714A1 (ja) * | 2019-05-28 | 2020-12-03 | リンカーズ株式会社 | 検索システム、検索方法及び検索アプリケーションソフトウェア |
CN114205151A (zh) * | 2021-12-12 | 2022-03-18 | 南京理工大学 | 基于多特征融合学习的http/2页面访问流量识别方法 |
-
2022
- 2022-08-15 CN CN202210976981.8A patent/CN115150297B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011060228A (ja) * | 2009-09-11 | 2011-03-24 | Qinghua Univ | 情報伝播を検知するウェブページ関係評価装置 |
US20140012840A1 (en) * | 2012-07-05 | 2014-01-09 | Alibaba Group Holding Limited | Generating search results |
CN103607322A (zh) * | 2013-11-19 | 2014-02-26 | 北京国双科技有限公司 | 网站流量数据分析方法及装置 |
WO2019169872A1 (zh) * | 2018-03-09 | 2019-09-12 | 北京百度网讯科技有限公司 | 搜索内容资源的方法、装置和服务器 |
WO2020240714A1 (ja) * | 2019-05-28 | 2020-12-03 | リンカーズ株式会社 | 検索システム、検索方法及び検索アプリケーションソフトウェア |
CN111832647A (zh) * | 2020-07-10 | 2020-10-27 | 上海交通大学 | 异常流量检测系统及方法 |
CN114205151A (zh) * | 2021-12-12 | 2022-03-18 | 南京理工大学 | 基于多特征融合学习的http/2页面访问流量识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115150297B (zh) | 2023-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8495006B2 (en) | System analysis program, system analysis method, and system analysis apparatus | |
US8676965B2 (en) | Tracking high-level network transactions | |
US20180191811A1 (en) | Distributed server systems and data processing methods | |
CN114422211B (zh) | 基于图注意力网络的http恶意流量检测方法及装置 | |
CN103631787A (zh) | 网页类型识别方法以及网页类型识别装置 | |
CN113326946A (zh) | 更新应用识别模型的方法、装置及存储介质 | |
CN112486708A (zh) | 页面操作数据的处理方法和处理系统 | |
WO2024017283A1 (zh) | 一种模型训练系统、方法及相关设备 | |
CN115174131A (zh) | 基于异常流量识别的信息拦截方法、系统及云平台 | |
CN117171711B (zh) | 一种基于云平台的企业内外部数据融合共享方法及系统 | |
US8230002B2 (en) | Method and system for automatic setup in web-based applications | |
CN113453076B (zh) | 用户视频业务质量评估方法、装置、计算设备和存储介质 | |
CN116828087B (zh) | 基于区块链连接的信息安全系统 | |
CN109922083B (zh) | 一种网络协议流量控制系统 | |
CN108650274B (zh) | 一种网络入侵检测方法及系统 | |
CN115150297A (zh) | 一种基于移动互联网的数据过滤及内容评价方法和系统 | |
CN111314109A (zh) | 一种基于弱密钥的大规模物联网设备固件识别方法 | |
Dubin et al. | Video quality representation classification of encrypted http adaptive video streaming | |
CN115146142A (zh) | 一种基于互联网的多源数据筛选系统 | |
CN113542044A (zh) | 网络质量监测方法、装置及计算设备 | |
CN112738156A (zh) | 一种适用于智能网关的独立镜像管理方法 | |
JP2009288883A (ja) | ネットワーク・ノードを分類する情報処理装置、情報処理システム、情報処理方法およびプログラム | |
CN111614749B (zh) | 数据发送方法、装置、计算机设备和存储介质 | |
WO2021218531A1 (zh) | 一种数据处理方法和数据处理装置 | |
CN112948687B (zh) | 一种基于名片文件特征的节点消息推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230424 Address after: 518000 room 322, third floor, East plant, phase II, Wanli Industrial Park, No. 13, Shihua Road, Fubao community, Fubao street, Futian District, Shenzhen, Guangdong Province Applicant after: Yanzhan Technology (Shenzhen) Co.,Ltd. Address before: Room 1003, 10th Floor, Building 1, Greenland Building, Block IV-07, Canal Core Area, Tongzhou District, Beijing 100000 Applicant before: Beijing Bairunhong Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |