CN111211995A - 一种字符串匹配库获取网络流量业务分析方法及装置 - Google Patents

一种字符串匹配库获取网络流量业务分析方法及装置 Download PDF

Info

Publication number
CN111211995A
CN111211995A CN201911319178.1A CN201911319178A CN111211995A CN 111211995 A CN111211995 A CN 111211995A CN 201911319178 A CN201911319178 A CN 201911319178A CN 111211995 A CN111211995 A CN 111211995A
Authority
CN
China
Prior art keywords
character string
string
traffic
historical
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911319178.1A
Other languages
English (en)
Other versions
CN111211995B (zh
Inventor
齐凯
魏强
赵伟
李现强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haohan Data Technology Co ltd
Original Assignee
Haohan Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haohan Data Technology Co ltd filed Critical Haohan Data Technology Co ltd
Priority to CN201911319178.1A priority Critical patent/CN111211995B/zh
Publication of CN111211995A publication Critical patent/CN111211995A/zh
Application granted granted Critical
Publication of CN111211995B publication Critical patent/CN111211995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Abstract

本发明提供了一种字符串匹配库获取方法及装置,包括:获取互联网用户历史上网流量信息;分析每条用户历史上网流量信息,得出第一历史字符串集,所述第一历史字符串集包括第一历史字符串;将所述第一历史字符串集中相同的第一历史字符串合并,将合并的第一历史字符串使用流量相加,得出第二历史字符串集,所述第二历史字符串集包括第二历史字符串;对得出的第二历史字符串依据流量大小进行排名;分析所述第二历史字符串对应业务;将所述第二历史字符串对应业务标记在第二历史字符串上,生成第三历史字符串集;将第三历史字符串集作为字符串匹配库。本发明提供了一种网络流量业务分析方法及装置,用于快速识别出用户流量信息对应的具体业务。

Description

一种字符串匹配库获取网络流量业务分析方法及装置
技术领域
本发明涉及通信领域,尤其涉及一种字符串匹配库获取网络流量业务分析方法及装置。
背景技术
近年来,随着互联网的迅猛发展,越来越多的新型网络应用逐渐兴起,网络规模不断扩大,为了满足人们日常工作和生活的需求,网络组成也越来越复杂。网络流量业务分析是通信领域的重要分支。互联网流量的深入分析研究对于网络扩容和优化、网络安全、上层用户行为分析等具有重要意义。近年来,互联网的持续演进和发展给流网络流量业务分析带来新的问题和挑战。
时至今日,互联网流量业务识别分析的方法已比较成熟,但传统深度报文检测(DPI,Deep Packet Inspection)技术业务识别只识别用户使用什么应用程序(APP,Application),并不能具体识别用户使用APP的具体操作行为。例如传统DPI能识别出用户在观看爱奇艺视频,但对于用户具体的行为,如浏览片源、观看影片的类型、观看影片时的清晰度等这些详细信息,往往没有做具体识别。
因此,本领域亟需一种字符串匹配库获取网络流量业务分析方法及装置。
因此,有鉴于此,提出本发明。
发明内容
本发明的目的在于提供一种字符串匹配库获取网络流量业务分析方法及装置,以解决上述至少一个技术问题。
本发明一方面提供了一种字符串匹配库获取方法,包括:
获取互联网用户历史上网流量信息;
分析每条用户历史上网流量信息,删除所述每条用户历史上网流量信息中的默认值,得出第一历史字符串集,所述第一历史字符串集包括第一历史字符串;
将所述第一历史字符串集中相同的第一历史字符串合并为一条,将合并的第一历史字符串使用流量相加,得出第二历史字符串集,所述第二历史字符串集包括第二历史字符串;
对得出的第二历史字符串依据流量大小进行排名;
分析所述第二历史字符串对应业务;
将所述第二历史字符串对应业务标记在第二历史字符串上,生成第三历史字符串集;
将第三历史字符串集作为字符串匹配库。
采用上述方案,快速对所述互联网用户历史上网流量信息进行加工,提取出有效样本,减少样本数量,提高加工速度,减少需要分析对应业务时需要分析的样本数量,一方面提高了样本分析速度,提高工作效率,另一方面为后期在字符串匹配库匹配时需要检索的样本数量,通过对第二历史字符串依据流量大小进行排名,分析出流量占比,流量占比大的,被匹配到的概率大,再次提高后期在字符串匹配库匹配时的效率。
进一步地,所述删除所述每条用户历史上网流量信息中的默认值包括,删除所述每条用户历史上网流量信息中的用户个人信息,所述用户个人信息包括用户账户和密码。
采用上述方案,剔除所述用户流量信息中的用户个人信息,使说所述用户流量信息仅能提取出所述用户流量信息中的业务信息,提高所述第一流量字符串中的信息与业务对应的相关度,避免用户个人信息对业务分析的影响。
进一步地,所述第一历史字符串包括第一历史子字符,所述将所述第一历史字符串集中相同的第一历史字符串合并为一条包括,将所述第一历史子字符相同的第一历史字符串合并。
进一步地,所述将所述第一历史子字符相同的第一历史字符串合并包括,
分析所述第一历史字符串的第一历史子字符数量;
分析所述第一历史字符串的第一历史子字符类型;
分析所述第一历史字符串的第一历史子字符排列方法;
将第一历史字符串集中对以上三项均满足的第一历史字符串合并,生成第二历史字符串集,所述第二历史字符串包括合并和未合并的第一历史字符串。
采用上述方案,对合并的方法清楚简单,通过对子字符的分析,准确的将对应同一业务的第一历史字符串合并,一方面减少了合并难度,另一方面提升了合并准确性,避免将不同业务的第一历史字符串合并,造成系统错误。
优选地,所述对得出的第二历史字符串依据流量大小进行排名包括,依据第二历史字符串的流量,按照从大到小的方式将第二历史字符串进行排列。
采用上述方案,对于第二历史字符中占流量较多的在后期被检索到的概率较大,提高后期检索效率,提高工作效率。
进一步地,所述分析所述第二历史字符串对应业务包括,
获取所述第二历史字符串;
判断所述第二历史字符串是否为互联网协议(IP,Internet Protocol)形式域名,
若否,读取域名的备案信息库中信息或域名对应网页内容中信息,
若是,读取域名对应网页内容中信息;
通过备案信息库中信息或网页内容中信息,获取相应报文;
通过报文确定所述第二历史字符串对应业务。
采用上述方案,解决了对于IP形式域名难以识别的问题,对于非IP形式域名采取两种可行的方式分析域名对应业务,又通过报文确定对应业务,精确分析出各种形式域名对应的业务,精确可靠,提高业务分析准确度。
本发明另一方面提供了一种网络流量业务分析方法,包括:
接收用户流量信息;
分析用户流量信息,删除所述用户流量信息中的默认值,得出第一流量字符串;
判断字符串匹配库中是否存在与所述第一流量字符串匹配的第二流量字符串;
若是,接收与所述第一流量字符串匹配的第二流量字符串;
确定所述第二流量字符串对应业务;
确定所述第一流量字符串对应业务,确定所述用户流量信息对应业务;
若否,判断所述第一流量字符串是否为互联网协议(IP,Internet Protocol)形式域名;
若是,读取域名对应网页内容中信息;
若否,读取域名的备案信息库中信息或域名对应网页内容中信息,通过备案信息库中信息或网页内容中信息,获取相应报文;
通过报文确定所述第一流量字符串对应业务。
采用上述方案,将所述用户流量信息中的默认值去除,加强所述流量信息的识别度,是用户流量信息更加具体,通过与所述第二流量字符串进行匹配,通过已知的第二流量字符串,通过识别所述第二流量字符串对应的业务,可以快速识别出用户流量信息对应的具体业务,能够方便快捷识别用户具体业务,提高识别准确性。
进一步地,所述通过报文确定所述第一流量字符串对应业务还包括,记录所述第一流量字符串和所述第一流量字符串对应业务,并添加进所述字符串匹配库中。
采用上述方案,增大所述字符串匹配库容量,方便下一次匹配,提高工作效率。
优选地,所述删除所述用户流量信息中的默认值包括,删除所述用户流量信息中的用户个人信息,所述用户个人信息包括用户账户和密码。
采用上述方案,剔除所述用户流量信息中的用户个人信息,使说所述用户流量信息仅能提取出所述用户流量信息中的业务信息,提高所述第一流量字符串中的信息与业务对应的相关度,避免用户个人信息对业务分析的影响。
进一步地,所述第一流量字符串包括第一流量子字符,所述第二流量字符串包括第二流量子字符,所述判断字符串匹配库中是否存在与所述第一流量字符串匹配的第二流量字符串包括,将第一流量子字符与第二流量子字符相匹配。
优选地,所述将第一流量子字符与第二流量子字符相匹配包括:
分析所述第一流量字符串的第一流量子字符数量,筛选出所述字符串匹配库中,与所述第一流量子字符数量相同的第一候选流量字符串;
分析所述第一流量字符串的第一流量子字符类型,筛选出所述第一候选流量字符串中,与所述第一流量子字符类型相同的第二候选流量字符串;
分析所述第一流量子字符排列方法,筛选出所述第二候选流量字符串中,与所述第一流量子字符排列方法相同的第三候选流量字符串;
确定所述第三候选流量字符串为第二流量字符串。
采用上述方案,通过多次不同方式筛选,使筛选更加精确,在所述字符串匹配库中更精确地匹配出对应的字符串,一方面避免由于与匹配库中的字符串匹配错误导致最后业务分析的不准确,另一方面提高了匹配速度,减少了字符串匹配难度,提高匹配效率。
进一步地,所述确定所述第二流量字符串对应业务包括:
在所述字符串匹配库中检索出所述第二流量字符串;
接收所述第二流量字符串对应业务。
采用上述方案,快速准确的确定所述第二流量字符串对应业务,避免对所述第二流量字符串再次进行分析,极大的提高了对字符串匹配库获取应业务确定速度,提高工作效率。
本发明另一方面提供了一种字符串匹配库获取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
本发明另一方面提供了一种网络流量业务分析装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
综上所述,本发明具有以下有益效果:
1、本发明通过去除用户流量信息中的个人信息,加强所述流量信息的识别度,通过与所述字符串匹配库进行匹配,可以快速识别出用户流量信息对应的具体业务,能够方便快捷识别用户具体业务,提高识别准确性;
2、在所述字符串匹配库匹配时,通过子字符的对比,能更加精准的匹配到对应的第二流量字符串;
3、在字符串匹配库获取时,通过对历史字符串的合并和排序,能够减少最终样本数量,提高检索速度,分析出样本所占流量大小,对于占流量多的被检索到的概率更大,提高工作效率;
4、解决了对于IP形式域名难以识别的问题,对于非IP形式的域名,采取多种可行的方式分析域名对应业务,又通过报文确定对应业务,精确分析出各种形式域名对应的业务,精确可靠,提高业务分析准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明字符串匹配库获取方法一种实施方式的示意图;
图2为本发明分析所述第二历史字符串对应业务一种实施方式的示意图;
图3为本发明网络流量业务分析方法一种实施方式的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
发明中提到的术语进行说明:
(1)深度报文检测(DPI,Deep Packet Infection)
设备通过对网络的关键点处的流量和报文内容进行检测分析,可以根据事先定义的策略对检测流量进行过滤控制,能完成所在链路的业务精细化识别、业务流量流向分析、业务流量占比统计、业务占比整形、以及应用层拒绝服务攻击、对病毒、木马进行过滤和滥用个人对个人(P2P,peer-to-peer)的控制等功能。
(2)报文(message)
报文(message)是网络中交换与传输的数据单元,即站点一次性要发送的数据块,报文包含了将要发送的完整的数据信息,其长短很不一致,长度不限且可变。
(3)互联网协议(IP,Internet Protocol)
Internet Protocol简称IP,又译为网际协议或互联网协议,是用在TCP/IP协议簇中的网络层协议.
(4)统一资源定位系统(URL,uniform resource locator)
统一资源定位系统是因特网的万维网服务程序上用于指定信息位置的表示方法,它最初是由蒂姆伯纳斯李发明用来作为万维网的地址,现在它已经被万维网联盟编制为互联网标准RFC1738。
(5)用户代理
User Agent中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
(6)HTTP Referer
HTTP Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器该网页是从哪个页面链接过来的,服务器因此可以获得一些信息用于处理。
(7)Hadoop大数据平台
Hadoop是一款开源的大数据通用处理平台,气提供了分布式存储和分布式离线计算,适合大规模数据、流式数据(写一次,读多次),不适合低延时的访问、大量的小文件以及频繁修改的文件。
(8)spark语言编写程序
Spark是发源于美国加州大学伯克利分校AMPLab集群计算平台,立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式。
以下将通过实施例对本发明进行详细描述。
参考图1,本实施例提供了一种字符串匹配库获取方法,包括:
获取互联网用户历史上网流量信息;
分析每条用户历史上网流量信息,删除所述每条用户历史上网流量信息中的默认值,得出第一历史字符串集,所述第一历史字符串集包括第一历史字符串;
将所述第一历史字符串集中相同的第一历史字符串合并为一条,将合并的第一历史字符串使用流量相加,得出第二历史字符串集,所述第二历史字符串集包括第二历史字符串;
对得出的第二历史字符串依据流量大小进行排名;
分析所述第二历史字符串对应业务;
将所述第二历史字符串对应业务标记在第二历史字符串上,生成第三历史字符串集;
将第三历史字符串集作为字符串匹配库。
具体实施过程中,所述获取互联网用户历史上网流量信息包括,依托Hadoop大数据平台,使用spark语言编写程序,提取用户上网记录中的URL、UserAgent、流量等信息。
采用上述方案,快速对所述互联网用户历史上网流量信息进行加工,提取出有效样本,减少样本数量,提高加工速度,减少需要分析对应业务时需要分析的样本数量,一方面提高了样本分析速度,提高工作效率,另一方面为后期在字符串匹配库匹配时需要检索的样本数量,通过对第二历史字符串依据流量大小进行排名,分析出流量占比,流量占比大的,被匹配到的概率大,再次提高后期在字符串匹配库匹配时的效率。
具体实施过程中,所述删除所述每条用户历史上网流量信息中的默认值包括,删除所述每条用户历史上网流量信息中的用户个人信息,所述用户个人信息包括用户账户和密码。
具体实施过程中,所述用户历史上网流量信息可抽象为http://host/uri/?param1/=value1&param2=value2&……paramN,所述用户个人信息为http://host/uri/?param1/=value1&param2=value2&……paramN,中的value1、value2……valueN。
采用上述方案,剔除所述用户流量信息中的用户个人信息,使说所述用户流量信息仅能提取出所述用户流量信息中的业务信息,提高所述第一流量字符串中的信息与业务对应的相关度,避免用户个人信息对业务分析的影响。
在本实施例的一个优选实施方式中,所述第一历史字符串包括第一历史子字符,所述将所述第一历史字符串集中相同的第一历史字符串合并为一条包括,将所述第一历史子字符相同的第一历史字符串合并。
具体实施过程中,所述将所述第一历史子字符相同的第一历史字符串合并包括,
分析所述第一历史字符串的第一历史子字符数量;
分析所述第一历史字符串的第一历史子字符类型;
分析所述第一历史字符串的第一历史子字符排列方法;
将第一历史字符串集中对以上三项均满足的第一历史字符串合并,生成第二历史字符串集,所述第二历史字符串包括合并和未合并的第一历史字符串。
在本实施例的一个优选实施方式中,所述第一历史字符串集可以为
A:common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type;
B:common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type,Streamid;
C:Streamid,common.gif,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type;
D:common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type;
E:common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type;
合并后的第二历史字符串集为:
A:common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type;
B:common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type,Streamid;
C:Streamid,common.gif,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type;
D:common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type。
采用上述方案,对合并的方法清楚简单,通过对子字符的分析,准确的将对应同一业务的第一历史字符串合并,一方面减少了合并难度,另一方面提升了合并准确性,避免将不同业务的第一历史字符串合并,造成系统错误。
具体实施过程中,所述对得出的第二历史字符串依据流量大小进行排名包括,依据第二历史字符串的流量,按照从大到小的方式将第二历史字符串进行排列。
在本实施例的一个优选实施方式中,如果所述第一历史字符串A为10M、第一历史字符串为B为12M、第一历史字符串C为14M、第一历史字符串D为16M、第一历史字符串E为16M,则合并后的第二历史字符串集中第二历史字符串为:第二历史字符串A为10M、第二历史字符串为B为12M、第二历史字符串C为14M、第二历史字符串D为32M,排列顺序为:
D:common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type;
C:Streamid,common.gif,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type;
B:common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type,Streamid;
A:common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type。
采用上述方案,对于第二历史字符中占流量较多的在后期被检索到的概率较大,将占流量较多的字符串提前,能更快地被检索到,提高后期检索效率,提高工作效率。
参考图2,具体实施过程中,所述分析所述第二历史字符串对应业务包括,
获取所述第二历史字符串;
判断所述第二历史字符串是否为互联网协议(IP,Internet Protocol)形式域名,
若否,读取域名的备案信息库中信息或域名对应网页内容中信息,
若是,读取域名对应网页内容中信息;
通过备案信息库中信息或网页内容中信息,获取相应报文;
通过报文确定所述第二历史字符串对应业务。
具体实施过程中,所述读取域名的备案信息库中信息或域名对应网页内容中信息,和所述读取域名对应网页内容中信息可以以爬取的方式实现。
采用上述方案,解决了对于IP形式域名难以识别的问题,对于非IP形式域名采取两种可行的方式分析域名对应业务,又通过报文确定对应业务,精确分析出各种形式域名对应的业务,精确可靠,提高业务分析准确度。
具体实施过程中,所述将第三历史字符串可以为
/rest/n/clc/show,isp,mod,lon,country_code,kpn|快手视频
music.pa,uid,sid,ver,signver,ids,accttype|酷狗音乐
参考图3,本实施例提供了一种网络流量业务分析方法,以解决上述至少一个技术问题。
本发明提供了一种网络流量业务分析方法,包括:
接收用户流量信息;
分析用户流量信息,删除所述用户流量信息中的默认值,得出第一流量字符串;
判断字符串匹配库中是否存在与所述第一流量字符串匹配的第二流量字符串;
若是,接收与所述第一流量字符串匹配的第二流量字符串;
确定所述第二流量字符串对应业务;
确定所述第一流量字符串对应业务,确定所述用户流量信息对应业务;
若否,判断所述第一流量字符串是否为互联网协议(IP,Internet Protocol)形式域名;
若是,读取域名对应网页内容中信息;
若否,读取域名的备案信息库中信息或域名对应网页内容中信息;
通过备案信息库中信息或网页内容中信息,获取相应报文;
通过报文确定所述第一流量字符串对应业务。
采用上述方案,将所述用户流量信息中的默认值去除,加强所述流量信息的识别度,是用户流量信息更加具体,通过与所述第二流量字符串进行匹配,通过已知的第二流量字符串,通过识别所述第二流量字符串对应的业务,可以快速识别出用户流量信息对应的具体业务,能够方便快捷识别用户具体业务,提高识别准确性。
具体实施过程中,所述通过报文确定所述第一流量字符串对应业务还包括,记录所述第一流量字符串和所述第一流量字符串对应业务,并添加进所述字符串匹配库中。
采用上述方案,增大所述字符串匹配库容量,方便下一次匹配,提高工作效率。
具体实施过程中,所述用户流量信息可以是URL、User Agent和HTTP referer信息。
在本实施例的一个优选实施方式中,所述URL信息可以抽象为http://host/uri/?param1/=value1&param2=value2&……paramN。
具体实施过程中,所述URL信息可以是http://23.45.68.78/common.gif?streamid=545_116032409_3660388_1&streamuid=3660388&bitrate=53-56-54-55-53-55&fps=8-8-8-8-8-8&lostrate=0-0-0-0-0-0&delay=8-4-6-6-6-9&quality=3-3-3-3-3-3&type=mediaupqos&sdk_type=rtc。
采用上述方案,全方位读取用户流量信息,避免造成信息缺失导致增加业务分析难度。
具体实施过程中,所述删除所述用户流量信息中的默认值包括,删除所述用户流量信息中的用户个人信息,所述用户个人信息包括用户账户和密码。
在本实施例的一个优选实施方式中,当读取用户流量信息为http://23.45.68.78/common.gif?streamid=545_116032409_3660388_1&streamuid=3660388&bitrate=53-56-54-55-53-55&fps=8-8-8-8-8-8&lostrate=0-0-0-0-0-0&delay=8-4-6-6-6-9&quality=3-3-3-3-3-3&type=mediaupqos&sdk_type=rtc时,所述默认值为545_116032409_3660388_1,3660388,53-56-54-55-53-55,8-8-8-8-8-8,0-0-0-0-0-0,8-4-6-6-6-9,3-3-3-3-3-3,mediaupqos,rtc。
具体实施过程中,所述第一流量字符串由所述用户流量信息删除默认值得到,所述第一流量字符串可以是common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type。
具体实施过程中,所述用户流量信息中“?”前的为无效值,不计入所述第一流量字符串。
采用上述方案,剔除所述用户流量信息中的用户个人信息,使说所述用户流量信息仅能提取出所述用户流量信息中的业务信息,提高所述第一流量字符串中的信息与业务对应的相关度,避免用户个人信息对业务分析的影响。
具体实施过程中,所述第一流量字符串包括第一流量子字符,所述第二流量字符串包括第二流量子字符,所述判断字符串匹配库中是否存在与所述第一流量字符串匹配的第二流量字符串包括,将第一流量子字符与第二流量子字符相匹配,当所述第一流量字符串是common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type时,所述第一流量子字符包括common.gif、Streamid、streamuid、bitrate、fps、lostrate、delay、quality、type和sdk_type。
具体实施过程中,所述将第一流量子字符与第二流量子字符相匹配包括:
分析所述第一流量字符串的第一流量子字符数量,筛选出所述字符串匹配库中,与所述第一流量子字符数量相同的第一候选流量字符串;
分析所述第一流量字符串的第一流量子字符类型,筛选出所述第一候选流量字符串中,与所述第一流量子字符类型相同的第二候选流量字符串;
分析所述第一流量子字符排列方法,筛选出所述第二候选流量字符串中,与所述第一流量子字符排列方法相同的第三候选流量字符串;
确定所述第三候选流量字符串为第二流量字符串。
在本实施例的一个优选实施方式中,当所述第一流量字符串是common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type时所述第一流量子字符数量为10个;所述第一流量子字符类型为10种分别为common.gif、Streamid、streamuid、bitrate、fps、lostrate、delay、quality、type和sdk_type;当所述第二候选流量字符串为Streamid、common.gif、streamuid、bitrate、fps、lostrate、delay、quality、type和sdk_type时,不能作为所述第三候选流量字符串。
采用上述方案,通过多次不同方式筛选,使筛选更加精确,在所述字符串匹配库中更精确地匹配出对应的字符串,一方面避免由于与匹配库中的字符串匹配错误导致最后业务分析的不准确,另一方面提高了匹配速度,减少了字符串匹配难度,提高匹配效率。
具体实施过程中,所述确定所述第二流量字符串对应业务包括:
在所述字符串匹配库中检索出所述第二流量字符串;
接收所述第二流量字符串对应业务。
在本实施例的一个优选实施方式中,所述第二流量字符串可以为/rest/n/clc/show,isp,mod,lon,country_code,kpn|快手视频,所述第二流量字符串对应业务为快手视频。
采用上述方案,快速准确的确定所述第二流量字符串对应业务,避免对所述第二流量字符串再次进行分析,极大的提高了对字符串匹配库获取应业务确定速度,提高工作效率。
本发明的另一些实施例中提供了一种字符串匹配库获取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
本发明的另一些实施例中提供了一种网络流量业务分析装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种字符串匹配库获取方法,其特征在于,包括:
获取互联网用户历史上网流量信息;
分析每条用户历史上网流量信息,删除所述每条用户历史上网流量信息中的默认值,得出第一历史字符串集,所述第一历史字符串集包括第一历史字符串;
将所述第一历史字符串集中相同的第一历史字符串合并为一条,将合并的第一历史字符串使用流量相加,得出第二历史字符串集,所述第二历史字符串集包括第二历史字符串;
对得出的第二历史字符串依据流量大小进行排名;
分析所述第二历史字符串对应业务;
将所述第二历史字符串对应业务标记在第二历史字符串上,生成第三历史字符串集;
将第三历史字符串集作为字符串匹配库。
2.根据权利要求1所述的字符串匹配库获取方法,其特征在于,所述第一历史字符串包括第一历史子字符,所述将所述第一历史字符串集中相同的第一历史字符串合并为一条包括,将所述第一历史子字符相同的第一历史字符串合并。
3.根据权利要求2所述的字符串匹配库获取方法,其特征在于,所述将所述第一历史子字符相同的第一历史字符串合并包括,
分析所述第一历史字符串的第一历史子字符数量;
分析所述第一历史字符串的第一历史子字符类型;
分析所述第一历史字符串的第一历史子字符排列方法;
将第一历史字符串集中对所述第一历史子字符数量、第一历史子字符类型和第一历史子字符排列方法均满足的第一历史字符串合并,生成第二历史字符串集,所述第二历史字符串包括合并和未合并的第一历史字符串。
4.根据权利要求2或3所述的字符串匹配库获取方法,其特征在于,所述分析所述第二历史字符串对应业务包括,
获取所述第二历史字符串;
判断所述第二历史字符串是否为IP形式域名,
若否,读取域名的备案信息库中信息或域名对应网页内容中信息,
若是,读取域名对应网页内容中信息;
通过备案信息库中信息或网页内容中信息,获取相应报文;
通过报文确定所述第二历史字符串对应业务。
5.一种网络流量业务分析方法,其特征在于,包括:
接收用户流量信息;
分析用户流量信息,删除所述用户流量信息中的默认值,得出第一流量字符串;
判断字符串匹配库中是否存在与所述第一流量字符串匹配的第二流量字符串;
若是,接收与所述第一流量字符串匹配的第二流量字符串;
确定所述第二流量字符串对应业务;
确定所述第一流量字符串对应业务,确定所述用户流量信息对应业务;
若否,判断所述第一流量字符串是否为互联网协议形式域名;
若是,读取域名对应网页内容中信息;
若否,读取域名的备案信息库中信息或域名对应网页内容中信息,通过备案信息库中信息或网页内容中信息,获取相应报文;
通过报文确定所述第一流量字符串对应业务。
6.根据权利要求5所述的网络流量业务分析方法,其特征在于,所述第一流量字符串包括第一流量子字符,所述第二流量字符串包括第二流量子字符,所述判断字符串匹配库中是否存在与所述第一流量字符串匹配的第二流量字符串包括,将第一流量子字符与第二流量子字符相匹配。
7.根据权利要求6所述的网络流量业务分析方法,其特征在于,所述将第一流量子字符与第二流量子字符相匹配包括:
分析所述第一流量字符串的第一流量子字符数量,筛选出所述字符串匹配库中,与所述第一流量子字符数量相同的第一候选流量字符串;
分析所述第一流量字符串的第一流量子字符类型,筛选出所述第一候选流量字符串中,与所述第一流量子字符类型相同的第二候选流量字符串;
分析所述第一流量子字符排列方法,筛选出所述第二候选流量字符串中与所述第一流量子字符排列方法相同的第三候选流量字符串;
确定所述第三候选流量字符串为第二流量字符串。
8.根据权利要求7所述的网络流量业务分析方法,其特征在于,所述步骤确定所述第二流量字符串对应业务中包括:
在所述字符串匹配库中检索出所述第二流量字符串;
接收所述第二流量字符串对应业务。
9.一种网络流量业务分析装置,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1-5任一项的方法。
10.一种字符串匹配库获取装置,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求6-8任一项的方法。
CN201911319178.1A 2019-12-19 2019-12-19 一种字符串匹配库获取网络流量业务分析方法及装置 Active CN111211995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911319178.1A CN111211995B (zh) 2019-12-19 2019-12-19 一种字符串匹配库获取网络流量业务分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911319178.1A CN111211995B (zh) 2019-12-19 2019-12-19 一种字符串匹配库获取网络流量业务分析方法及装置

Publications (2)

Publication Number Publication Date
CN111211995A true CN111211995A (zh) 2020-05-29
CN111211995B CN111211995B (zh) 2022-03-08

Family

ID=70787092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911319178.1A Active CN111211995B (zh) 2019-12-19 2019-12-19 一种字符串匹配库获取网络流量业务分析方法及装置

Country Status (1)

Country Link
CN (1) CN111211995B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113382000A (zh) * 2021-06-09 2021-09-10 北京天融信网络安全技术有限公司 一种ua字符串的异常检测方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163221A (zh) * 2011-04-02 2011-08-24 华为技术有限公司 模式匹配方法和装置
US20140064080A1 (en) * 2012-08-30 2014-03-06 Patrick Stevens Apparatus and method for staged traffic classification among terminal and aggregation nodes of a broadband communications system
CN106550241A (zh) * 2016-11-11 2017-03-29 武汉烽火网络有限责任公司 视频业务识别系统及虚拟化部署方法
CN106789358A (zh) * 2017-02-15 2017-05-31 北京浩瀚深度信息技术股份有限公司 基于dpi的业务识别方法及系统
CN109272005A (zh) * 2017-07-17 2019-01-25 中国移动通信有限公司研究院 一种识别规则的生成方法、装置和深度包检测设备
CN109672586A (zh) * 2018-12-13 2019-04-23 宜通世纪科技股份有限公司 一种dpi业务流量识别方法、装置与计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163221A (zh) * 2011-04-02 2011-08-24 华为技术有限公司 模式匹配方法和装置
US20140064080A1 (en) * 2012-08-30 2014-03-06 Patrick Stevens Apparatus and method for staged traffic classification among terminal and aggregation nodes of a broadband communications system
CN106550241A (zh) * 2016-11-11 2017-03-29 武汉烽火网络有限责任公司 视频业务识别系统及虚拟化部署方法
CN106789358A (zh) * 2017-02-15 2017-05-31 北京浩瀚深度信息技术股份有限公司 基于dpi的业务识别方法及系统
CN109272005A (zh) * 2017-07-17 2019-01-25 中国移动通信有限公司研究院 一种识别规则的生成方法、装置和深度包检测设备
CN109672586A (zh) * 2018-12-13 2019-04-23 宜通世纪科技股份有限公司 一种dpi业务流量识别方法、装置与计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113382000A (zh) * 2021-06-09 2021-09-10 北京天融信网络安全技术有限公司 一种ua字符串的异常检测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111211995B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
US11232253B2 (en) Document capture using client-based delta encoding with server
US10447766B2 (en) Information sharing method and system
US8666985B2 (en) Hardware accelerated application-based pattern matching for real time classification and recording of network traffic
CN107257390B (zh) 一种url地址的解析方法和系统
JP6103325B2 (ja) ユーザ行動を取得するための方法、装置及びシステム
Sukumar et al. Review on modern Data Preprocessing techniques in Web usage mining (WUM)
CN109905873B (zh) 一种基于特征标识信息的网络账号关联方法
EP2569749A2 (en) Decreasing duplicates and loops in an activity record
US11792157B1 (en) Detection of DNS beaconing through time-to-live and transmission analyses
CN104023046B (zh) 移动终端识别方法和装置
CN103793508B (zh) 一种加载推荐信息、网址检测的方法、装置和系统
CN105159992A (zh) 一种应用程序的页面内容及网络行为的检测方法及装置
CN111211995B (zh) 一种字符串匹配库获取网络流量业务分析方法及装置
CN110245314A (zh) 一种网页指纹生成方法
CN114793204B (zh) 一种网络资产探测方法
Deepa et al. An efficient preprocessing methodology of log file for Web usage mining
Shu-yue et al. The study on the preprocessing in web log mining
US8909795B2 (en) Method for determining validity of command and system thereof
Mary et al. An efficient approach to perform pre-processing
CN112231700A (zh) 行为识别方法和装置、存储介质及电子设备
KR101005871B1 (ko) 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 복구방법
Su et al. Mobile traffic identification based on application's network signature
Guan et al. Design and implementation of network user behaviors analysis based on hadoop for big data
KR100989320B1 (ko) 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 고속검색방법 및 비-트리기반인덱싱로그 프로세서
US20130205015A1 (en) Method and Device for Analyzing Data Intercepted on an IP Network in order to Monitor the Activity of Users on a Website

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 218, 2nd Floor, Building A, No. 119 West Fourth Ring North Road, Haidian District, Beijing, 100000

Patentee after: HAOHAN DATA TECHNOLOGY CO.,LTD.

Address before: 102, building 14, 45 Beiwa Road, Haidian District, Beijing

Patentee before: HAOHAN DATA TECHNOLOGY CO.,LTD.