CN111211995A

CN111211995A - 一种字符串匹配库获取网络流量业务分析方法及装置

Info

Publication number: CN111211995A
Application number: CN201911319178.1A
Authority: CN
Inventors: 齐凯; 魏强; 赵伟; 李现强
Original assignee: Haohan Data Technology Co ltd
Current assignee: Haohan Data Technology Co ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-05-29
Anticipated expiration: 2039-12-19
Also published as: CN111211995B

Abstract

本发明提供了一种字符串匹配库获取方法及装置，包括：获取互联网用户历史上网流量信息；分析每条用户历史上网流量信息，得出第一历史字符串集，所述第一历史字符串集包括第一历史字符串；将所述第一历史字符串集中相同的第一历史字符串合并，将合并的第一历史字符串使用流量相加，得出第二历史字符串集，所述第二历史字符串集包括第二历史字符串；对得出的第二历史字符串依据流量大小进行排名；分析所述第二历史字符串对应业务；将所述第二历史字符串对应业务标记在第二历史字符串上，生成第三历史字符串集；将第三历史字符串集作为字符串匹配库。本发明提供了一种网络流量业务分析方法及装置，用于快速识别出用户流量信息对应的具体业务。

Description

一种字符串匹配库获取网络流量业务分析方法及装置

技术领域

本发明涉及通信领域，尤其涉及一种字符串匹配库获取网络流量业务分析方法及装置。

背景技术

近年来,随着互联网的迅猛发展,越来越多的新型网络应用逐渐兴起,网络规模不断扩大,为了满足人们日常工作和生活的需求，网络组成也越来越复杂。网络流量业务分析是通信领域的重要分支。互联网流量的深入分析研究对于网络扩容和优化、网络安全、上层用户行为分析等具有重要意义。近年来，互联网的持续演进和发展给流网络流量业务分析带来新的问题和挑战。

时至今日，互联网流量业务识别分析的方法已比较成熟，但传统深度报文检测(DPI，Deep Packet Inspection)技术业务识别只识别用户使用什么应用程序(APP，Application)，并不能具体识别用户使用APP的具体操作行为。例如传统DPI能识别出用户在观看爱奇艺视频，但对于用户具体的行为，如浏览片源、观看影片的类型、观看影片时的清晰度等这些详细信息，往往没有做具体识别。

因此，本领域亟需一种字符串匹配库获取网络流量业务分析方法及装置。

因此，有鉴于此，提出本发明。

发明内容

本发明的目的在于提供一种字符串匹配库获取网络流量业务分析方法及装置，以解决上述至少一个技术问题。

本发明一方面提供了一种字符串匹配库获取方法，包括：

获取互联网用户历史上网流量信息；

分析每条用户历史上网流量信息，删除所述每条用户历史上网流量信息中的默认值，得出第一历史字符串集，所述第一历史字符串集包括第一历史字符串；

将所述第一历史字符串集中相同的第一历史字符串合并为一条，将合并的第一历史字符串使用流量相加，得出第二历史字符串集，所述第二历史字符串集包括第二历史字符串；

对得出的第二历史字符串依据流量大小进行排名；

分析所述第二历史字符串对应业务；

将所述第二历史字符串对应业务标记在第二历史字符串上，生成第三历史字符串集；

将第三历史字符串集作为字符串匹配库。

采用上述方案，快速对所述互联网用户历史上网流量信息进行加工，提取出有效样本，减少样本数量，提高加工速度，减少需要分析对应业务时需要分析的样本数量，一方面提高了样本分析速度，提高工作效率，另一方面为后期在字符串匹配库匹配时需要检索的样本数量，通过对第二历史字符串依据流量大小进行排名，分析出流量占比，流量占比大的，被匹配到的概率大，再次提高后期在字符串匹配库匹配时的效率。

进一步地，所述删除所述每条用户历史上网流量信息中的默认值包括，删除所述每条用户历史上网流量信息中的用户个人信息，所述用户个人信息包括用户账户和密码。

采用上述方案，剔除所述用户流量信息中的用户个人信息，使说所述用户流量信息仅能提取出所述用户流量信息中的业务信息，提高所述第一流量字符串中的信息与业务对应的相关度，避免用户个人信息对业务分析的影响。

进一步地，所述第一历史字符串包括第一历史子字符，所述将所述第一历史字符串集中相同的第一历史字符串合并为一条包括，将所述第一历史子字符相同的第一历史字符串合并。

进一步地，所述将所述第一历史子字符相同的第一历史字符串合并包括，

分析所述第一历史字符串的第一历史子字符数量；

分析所述第一历史字符串的第一历史子字符类型；

分析所述第一历史字符串的第一历史子字符排列方法；

将第一历史字符串集中对以上三项均满足的第一历史字符串合并，生成第二历史字符串集，所述第二历史字符串包括合并和未合并的第一历史字符串。

采用上述方案，对合并的方法清楚简单，通过对子字符的分析，准确的将对应同一业务的第一历史字符串合并，一方面减少了合并难度，另一方面提升了合并准确性，避免将不同业务的第一历史字符串合并，造成系统错误。

优选地，所述对得出的第二历史字符串依据流量大小进行排名包括，依据第二历史字符串的流量，按照从大到小的方式将第二历史字符串进行排列。

采用上述方案，对于第二历史字符中占流量较多的在后期被检索到的概率较大，提高后期检索效率，提高工作效率。

进一步地，所述分析所述第二历史字符串对应业务包括，

获取所述第二历史字符串；

判断所述第二历史字符串是否为互联网协议(IP，Internet Protocol)形式域名，

若否，读取域名的备案信息库中信息或域名对应网页内容中信息，

若是，读取域名对应网页内容中信息；

通过备案信息库中信息或网页内容中信息,获取相应报文；

通过报文确定所述第二历史字符串对应业务。

采用上述方案，解决了对于IP形式域名难以识别的问题，对于非IP形式域名采取两种可行的方式分析域名对应业务，又通过报文确定对应业务，精确分析出各种形式域名对应的业务，精确可靠，提高业务分析准确度。

本发明另一方面提供了一种网络流量业务分析方法，包括：

接收用户流量信息；

分析用户流量信息，删除所述用户流量信息中的默认值，得出第一流量字符串；

判断字符串匹配库中是否存在与所述第一流量字符串匹配的第二流量字符串；

若是，接收与所述第一流量字符串匹配的第二流量字符串；

确定所述第二流量字符串对应业务；

确定所述第一流量字符串对应业务，确定所述用户流量信息对应业务；

若否，判断所述第一流量字符串是否为互联网协议(IP，Internet Protocol)形式域名；

若是，读取域名对应网页内容中信息；

若否，读取域名的备案信息库中信息或域名对应网页内容中信息，通过备案信息库中信息或网页内容中信息,获取相应报文；

通过报文确定所述第一流量字符串对应业务。

采用上述方案，将所述用户流量信息中的默认值去除，加强所述流量信息的识别度，是用户流量信息更加具体，通过与所述第二流量字符串进行匹配，通过已知的第二流量字符串，通过识别所述第二流量字符串对应的业务，可以快速识别出用户流量信息对应的具体业务，能够方便快捷识别用户具体业务，提高识别准确性。

进一步地，所述通过报文确定所述第一流量字符串对应业务还包括，记录所述第一流量字符串和所述第一流量字符串对应业务，并添加进所述字符串匹配库中。

采用上述方案，增大所述字符串匹配库容量，方便下一次匹配，提高工作效率。

优选地，所述删除所述用户流量信息中的默认值包括，删除所述用户流量信息中的用户个人信息，所述用户个人信息包括用户账户和密码。

进一步地，所述第一流量字符串包括第一流量子字符，所述第二流量字符串包括第二流量子字符，所述判断字符串匹配库中是否存在与所述第一流量字符串匹配的第二流量字符串包括，将第一流量子字符与第二流量子字符相匹配。

优选地，所述将第一流量子字符与第二流量子字符相匹配包括：

分析所述第一流量字符串的第一流量子字符数量，筛选出所述字符串匹配库中，与所述第一流量子字符数量相同的第一候选流量字符串；

分析所述第一流量字符串的第一流量子字符类型，筛选出所述第一候选流量字符串中，与所述第一流量子字符类型相同的第二候选流量字符串；

分析所述第一流量子字符排列方法，筛选出所述第二候选流量字符串中，与所述第一流量子字符排列方法相同的第三候选流量字符串；

确定所述第三候选流量字符串为第二流量字符串。

采用上述方案，通过多次不同方式筛选，使筛选更加精确，在所述字符串匹配库中更精确地匹配出对应的字符串，一方面避免由于与匹配库中的字符串匹配错误导致最后业务分析的不准确，另一方面提高了匹配速度，减少了字符串匹配难度，提高匹配效率。

进一步地，所述确定所述第二流量字符串对应业务包括：

在所述字符串匹配库中检索出所述第二流量字符串；

接收所述第二流量字符串对应业务。

采用上述方案，快速准确的确定所述第二流量字符串对应业务，避免对所述第二流量字符串再次进行分析，极大的提高了对字符串匹配库获取应业务确定速度，提高工作效率。

本发明另一方面提供了一种字符串匹配库获取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

本发明另一方面提供了一种网络流量业务分析装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

综上所述，本发明具有以下有益效果：

1、本发明通过去除用户流量信息中的个人信息，加强所述流量信息的识别度，通过与所述字符串匹配库进行匹配，可以快速识别出用户流量信息对应的具体业务，能够方便快捷识别用户具体业务，提高识别准确性；

2、在所述字符串匹配库匹配时，通过子字符的对比，能更加精准的匹配到对应的第二流量字符串；

3、在字符串匹配库获取时，通过对历史字符串的合并和排序，能够减少最终样本数量，提高检索速度，分析出样本所占流量大小，对于占流量多的被检索到的概率更大，提高工作效率；

4、解决了对于IP形式域名难以识别的问题，对于非IP形式的域名，采取多种可行的方式分析域名对应业务，又通过报文确定对应业务，精确分析出各种形式域名对应的业务，精确可靠，提高业务分析准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明字符串匹配库获取方法一种实施方式的示意图；

图2为本发明分析所述第二历史字符串对应业务一种实施方式的示意图；

图3为本发明网络流量业务分析方法一种实施方式的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

发明中提到的术语进行说明：

(1)深度报文检测(DPI，Deep Packet Infection)

设备通过对网络的关键点处的流量和报文内容进行检测分析，可以根据事先定义的策略对检测流量进行过滤控制，能完成所在链路的业务精细化识别、业务流量流向分析、业务流量占比统计、业务占比整形、以及应用层拒绝服务攻击、对病毒、木马进行过滤和滥用个人对个人(P2P，peer-to-peer)的控制等功能。

(2)报文(message)

报文(message)是网络中交换与传输的数据单元，即站点一次性要发送的数据块，报文包含了将要发送的完整的数据信息，其长短很不一致，长度不限且可变。

(3)互联网协议(IP，Internet Protocol)

Internet Protocol简称IP，又译为网际协议或互联网协议，是用在TCP/IP协议簇中的网络层协议.

(4)统一资源定位系统(URL，uniform resource locator)

统一资源定位系统是因特网的万维网服务程序上用于指定信息位置的表示方法，它最初是由蒂姆伯纳斯李发明用来作为万维网的地址，现在它已经被万维网联盟编制为互联网标准RFC1738。

(5)用户代理

User Agent中文名为用户代理，简称UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

(6)HTTP Referer

HTTP Referer是header的一部分，当浏览器向web服务器发送请求的时候，一般会带上Referer，告诉服务器该网页是从哪个页面链接过来的，服务器因此可以获得一些信息用于处理。

(7)Hadoop大数据平台

Hadoop是一款开源的大数据通用处理平台，气提供了分布式存储和分布式离线计算，适合大规模数据、流式数据(写一次，读多次)，不适合低延时的访问、大量的小文件以及频繁修改的文件。

(8)spark语言编写程序

Spark是发源于美国加州大学伯克利分校AMPLab集群计算平台，立足于内存计算，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式。

以下将通过实施例对本发明进行详细描述。

参考图1，本实施例提供了一种字符串匹配库获取方法，包括：

获取互联网用户历史上网流量信息；

对得出的第二历史字符串依据流量大小进行排名；

分析所述第二历史字符串对应业务；

将第三历史字符串集作为字符串匹配库。

具体实施过程中，所述获取互联网用户历史上网流量信息包括，依托Hadoop大数据平台，使用spark语言编写程序，提取用户上网记录中的URL、UserAgent、流量等信息。

具体实施过程中，所述删除所述每条用户历史上网流量信息中的默认值包括，删除所述每条用户历史上网流量信息中的用户个人信息，所述用户个人信息包括用户账户和密码。

具体实施过程中，所述用户历史上网流量信息可抽象为http：//host/uri/？param1/＝value1&param2＝value2&……paramN，所述用户个人信息为http：//host/uri/？param1/＝value1&param2＝value2&……paramN，中的value1、value2……valueN。

在本实施例的一个优选实施方式中，所述第一历史字符串包括第一历史子字符，所述将所述第一历史字符串集中相同的第一历史字符串合并为一条包括，将所述第一历史子字符相同的第一历史字符串合并。

具体实施过程中，所述将所述第一历史子字符相同的第一历史字符串合并包括，

分析所述第一历史字符串的第一历史子字符数量；

分析所述第一历史字符串的第一历史子字符类型；

分析所述第一历史字符串的第一历史子字符排列方法；

在本实施例的一个优选实施方式中，所述第一历史字符串集可以为

A：common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type；

B：common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type,Streamid；

C：Streamid,common.gif,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type；

D：common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type；

E：common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type；

合并后的第二历史字符串集为：

A：common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type；

D：common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type。

具体实施过程中，所述对得出的第二历史字符串依据流量大小进行排名包括，依据第二历史字符串的流量，按照从大到小的方式将第二历史字符串进行排列。

在本实施例的一个优选实施方式中，如果所述第一历史字符串A为10M、第一历史字符串为B为12M、第一历史字符串C为14M、第一历史字符串D为16M、第一历史字符串E为16M，则合并后的第二历史字符串集中第二历史字符串为：第二历史字符串A为10M、第二历史字符串为B为12M、第二历史字符串C为14M、第二历史字符串D为32M，排列顺序为：

A：common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type。

采用上述方案，对于第二历史字符中占流量较多的在后期被检索到的概率较大，将占流量较多的字符串提前，能更快地被检索到，提高后期检索效率，提高工作效率。

参考图2，具体实施过程中，所述分析所述第二历史字符串对应业务包括，

获取所述第二历史字符串；

若是，读取域名对应网页内容中信息；

通过备案信息库中信息或网页内容中信息,获取相应报文；

通过报文确定所述第二历史字符串对应业务。

具体实施过程中，所述读取域名的备案信息库中信息或域名对应网页内容中信息，和所述读取域名对应网页内容中信息可以以爬取的方式实现。

具体实施过程中，所述将第三历史字符串可以为

/rest/n/clc/show,isp,mod,lon,country_code,kpn|快手视频

music.pa,uid,sid,ver,signver,ids,accttype|酷狗音乐

参考图3，本实施例提供了一种网络流量业务分析方法，以解决上述至少一个技术问题。

本发明提供了一种网络流量业务分析方法，包括：

接收用户流量信息；

若是，接收与所述第一流量字符串匹配的第二流量字符串；

确定所述第二流量字符串对应业务；

若是，读取域名对应网页内容中信息；

若否，读取域名的备案信息库中信息或域名对应网页内容中信息；

通过备案信息库中信息或网页内容中信息,获取相应报文；

通过报文确定所述第一流量字符串对应业务。

具体实施过程中，所述通过报文确定所述第一流量字符串对应业务还包括，记录所述第一流量字符串和所述第一流量字符串对应业务，并添加进所述字符串匹配库中。

具体实施过程中，所述用户流量信息可以是URL、User Agent和HTTP referer信息。

在本实施例的一个优选实施方式中，所述URL信息可以抽象为http：//host/uri/？param1/＝value1&param2＝value2&……paramN。

具体实施过程中，所述URL信息可以是http://23.45.68.78/common.gif？streamid＝545_116032409_3660388_1&streamuid＝3660388&bitrate＝53-56-54-55-53-55&fps＝8-8-8-8-8-8&lostrate＝0-0-0-0-0-0&delay＝8-4-6-6-6-9&quality＝3-3-3-3-3-3&type＝mediaupqos&sdk_type＝rtc。

采用上述方案，全方位读取用户流量信息，避免造成信息缺失导致增加业务分析难度。

具体实施过程中，所述删除所述用户流量信息中的默认值包括，删除所述用户流量信息中的用户个人信息，所述用户个人信息包括用户账户和密码。

在本实施例的一个优选实施方式中，当读取用户流量信息为http://23.45.68.78/common.gif？streamid＝545_116032409_3660388_1&streamuid＝3660388&bitrate＝53-56-54-55-53-55&fps＝8-8-8-8-8-8&lostrate＝0-0-0-0-0-0&delay＝8-4-6-6-6-9&quality＝3-3-3-3-3-3&type＝mediaupqos&sdk_type＝rtc时，所述默认值为545_116032409_3660388_1，3660388，53-56-54-55-53-55，8-8-8-8-8-8，0-0-0-0-0-0，8-4-6-6-6-9，3-3-3-3-3-3，mediaupqos，rtc。

具体实施过程中，所述第一流量字符串由所述用户流量信息删除默认值得到，所述第一流量字符串可以是common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type。

具体实施过程中，所述用户流量信息中“？”前的为无效值，不计入所述第一流量字符串。

具体实施过程中，所述第一流量字符串包括第一流量子字符，所述第二流量字符串包括第二流量子字符，所述判断字符串匹配库中是否存在与所述第一流量字符串匹配的第二流量字符串包括，将第一流量子字符与第二流量子字符相匹配，当所述第一流量字符串是common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type时，所述第一流量子字符包括common.gif、Streamid、streamuid、bitrate、fps、lostrate、delay、quality、type和sdk_type。

具体实施过程中，所述将第一流量子字符与第二流量子字符相匹配包括：

确定所述第三候选流量字符串为第二流量字符串。

在本实施例的一个优选实施方式中，当所述第一流量字符串是common.gif,Streamid,streamuid,bitrate,fps,lostrate,delay,quality,type,sdk_type时所述第一流量子字符数量为10个；所述第一流量子字符类型为10种分别为common.gif、Streamid、streamuid、bitrate、fps、lostrate、delay、quality、type和sdk_type；当所述第二候选流量字符串为Streamid、common.gif、streamuid、bitrate、fps、lostrate、delay、quality、type和sdk_type时，不能作为所述第三候选流量字符串。

具体实施过程中，所述确定所述第二流量字符串对应业务包括：

在所述字符串匹配库中检索出所述第二流量字符串；

接收所述第二流量字符串对应业务。

在本实施例的一个优选实施方式中，所述第二流量字符串可以为/rest/n/clc/show,isp,mod,lon,country_code,kpn|快手视频，所述第二流量字符串对应业务为快手视频。

本发明的另一些实施例中提供了一种字符串匹配库获取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

本发明的另一些实施例中提供了一种网络流量业务分析装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应当理解，本申请实施例中，从权、各个实施例、特征可以互相组合结合，都能实现解决前述技术问题。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种字符串匹配库获取方法，其特征在于，包括：

获取互联网用户历史上网流量信息；

对得出的第二历史字符串依据流量大小进行排名；

分析所述第二历史字符串对应业务；

将第三历史字符串集作为字符串匹配库。

2.根据权利要求1所述的字符串匹配库获取方法，其特征在于，所述第一历史字符串包括第一历史子字符，所述将所述第一历史字符串集中相同的第一历史字符串合并为一条包括，将所述第一历史子字符相同的第一历史字符串合并。

3.根据权利要求2所述的字符串匹配库获取方法，其特征在于，所述将所述第一历史子字符相同的第一历史字符串合并包括，

分析所述第一历史字符串的第一历史子字符数量；

分析所述第一历史字符串的第一历史子字符类型；

分析所述第一历史字符串的第一历史子字符排列方法；

将第一历史字符串集中对所述第一历史子字符数量、第一历史子字符类型和第一历史子字符排列方法均满足的第一历史字符串合并，生成第二历史字符串集，所述第二历史字符串包括合并和未合并的第一历史字符串。

4.根据权利要求2或3所述的字符串匹配库获取方法，其特征在于，所述分析所述第二历史字符串对应业务包括，

获取所述第二历史字符串；

判断所述第二历史字符串是否为IP形式域名，

若是，读取域名对应网页内容中信息；

通过备案信息库中信息或网页内容中信息,获取相应报文；

通过报文确定所述第二历史字符串对应业务。

5.一种网络流量业务分析方法，其特征在于，包括：

接收用户流量信息；

若是，接收与所述第一流量字符串匹配的第二流量字符串；

确定所述第二流量字符串对应业务；

若否，判断所述第一流量字符串是否为互联网协议形式域名；

若是，读取域名对应网页内容中信息；

通过报文确定所述第一流量字符串对应业务。

6.根据权利要求5所述的网络流量业务分析方法，其特征在于，所述第一流量字符串包括第一流量子字符，所述第二流量字符串包括第二流量子字符，所述判断字符串匹配库中是否存在与所述第一流量字符串匹配的第二流量字符串包括，将第一流量子字符与第二流量子字符相匹配。

7.根据权利要求6所述的网络流量业务分析方法，其特征在于，所述将第一流量子字符与第二流量子字符相匹配包括：

分析所述第一流量子字符排列方法，筛选出所述第二候选流量字符串中与所述第一流量子字符排列方法相同的第三候选流量字符串；

确定所述第三候选流量字符串为第二流量字符串。

8.根据权利要求7所述的网络流量业务分析方法，其特征在于，所述步骤确定所述第二流量字符串对应业务中包括：

在所述字符串匹配库中检索出所述第二流量字符串；

接收所述第二流量字符串对应业务。

9.一种网络流量业务分析装置，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1-5任一项的方法。

10.一种字符串匹配库获取装置，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求6-8任一项的方法。