CN107608980A

CN107608980A - 基于dpi大数据分析的信息推送方法和系统

Info

Publication number: CN107608980A
Application number: CN201610539302.5A
Authority: CN
Inventors: 赵钧
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2016-07-11
Filing date: 2016-07-11
Publication date: 2018-01-19

Abstract

本发明公开了一种基于DPI大数据分析的信息推送方法和系统，涉及数字文本挖掘领域。其中的方法包括：基于DPI技术获取用户数据包；将用户数据包解析为网页文本；根据预定算法提取网页文本中多个关键词；计算包含关键词的网页和推送信息主题词的相似度；当相似度大于阈值时，向访问网页的用户推送与主题词相关的信息。即实现了用户访问网页中的关键词与推送信息主题词快速匹配，因此可以实现向用户精准推送信息。

Description

基于DPI大数据分析的信息推送方法和系统

技术领域

本发明涉及数字文本挖掘领域，尤其涉及一种基于DPI大数据分析的信息推送方法和系统。

背景技术

目前电信运营商实时广告营销是通过基于DPI(Deep Packet Inspection，深度包检测)技术获取用户上网URL(Uniform Resource Locator，统一资源定位符)地址，结合事先建立好的URL地址库中URL的分类信息(如新闻、购物等)，给用户打标签，再基于用户标签手工匹配营销主题实现。

但该方法存在以下问题，例如：(1)URL地址库中网址有限，只能覆盖互联网上的少量网址。(2)URL网页内容变化快，地址库更新难度大。(3)电信运营商建立的用户标签的精细度可能不能满足广告主需求，例如广告主希望对正在看的网页上有“联想”、“笔记本”、“HP”、“超极本”等内容的用户实时推送笔记本广告，而用户标签可能只有“购物”、“电脑”等类别。

发明内容

本发明要解决的一个技术问题是提供一种基于DPI大数据分析的信息推送方法和系统，进而实现向用户精准推送信息。

根据本发明一方面，提出一种基于DPI大数据分析的信息推送方法，包括：基于深度包检测DPI技术获取用户数据包；将用户数据包解析为网页文本；根据预定算法提取网页文本中多个关键词；计算包含关键词的网页和推送信息主题词的相似度；当相似度大于阈值时，向访问网页的用户推送与主题词相关的信息。

进一步地，根据预定算法提取网页文本中多个关键词包括：根据词频TF-逆向文件频率IDF算法计算网页文本中的词语的TF-IDF值；对TF-IDF值由大到小进行排序；获取前N个TF-IDF值对应的词语作为关键词。

进一步地，根据TF-IDF算法计算网页文本中的词语的TF-IDF值包括：预先基于DPI技术采集用户访问网页，生成URL-词频构成的语料库；根据语料库计算网页文本中的词语的IDF值；根据网页文本中的词语的IDF值获取网页文本中的词语的TF-IDF值。

进一步地，预先基于DPI技术采集用户访问网页，生成URL-词频构成的语料库包括：预先基于DPI技术采集用户访问网页；通过限制用户访问网页的大小、自定义停用词和/或将用户访问网页中出现次数小于阈值的词语剔除后，生成语料库。

进一步地，计算包含关键词的网页和推送信息主题词的相似度包括：根据TF-IDF算法计算语料库中包含推送信息主题词的网页中关键词的TF-IDF值；将计算出的包含每个推送信息主题词的网页中每个关键词的TF-IDF值相加作为包含关键词的网页和推送信息主题词的相似度。

根据本发明的另一方面，还提出一种基于DPI大数据分析的信息推送系统，包括：数据采集模块，用于基于DPI技术获取用户数据包；数据包解析模块，用于将用户数据包解析为网页文本；关键词提取模块，用于根据预定算法提取网页文本中多个关键词；相似度计算模块，用于计算包含关键词的网页和推送信息主题词的相似度；信息推送模块，用于当相似度大于阈值时，向访问网页的用户推送与主题词相关的信息。

进一步地，关键词提取模块用于根据词频-逆向文件频率TF-IDF算法计算网页文本中的词语的TF-IDF值；对TF-IDF值由大到小进行排序；获取前N个TF-IDF值对应的词语作为关键词。

进一步地，该系统还包括：语料库管理模块，用于预先基于DPI技术采集用户访问网页，生成URL-词频构成的语料库；关键词提取模块还用于根据语料库计算网页文本中的词语的IDF值；根据网页文本中的词语的IDF值获取网页文本中的词语的TF-IDF值。

进一步地，语料库管理模块还用于预先基于DPI技术采集用户访问网页；通过限制用户访问网页的大小、自定义停用词和/或将用户访问网页中出现次数小于阈值的词语剔除后，生成语料库。

进一步地，相似度计算模块用于根据TF-IDF算法计算语料库中包含推送信息主题词的网页中关键词的TF-IDF值；将计算出的包含每个推送信息主题词的网页中每个关键词的TF-IDF值相加作为包含关键词的网页和推送信息主题词的相似度。

与现有技术相比，本发明利用DPI技术获取用户上网数据包，并通过预定算法实时分析网页中词频特性，将用户访问网页中的关键词与推送信息主题词快速匹配，因此可以实现向用户精准推送信息。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同说明书一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明基于DPI大数据分析的信息推送方法的一个实施例的流程示意图。

图2为本发明基于DPI大数据分析的信息推送方法的另一个实施例的流程示意图。

图3为本发明基于DPI大数据分析的信息推送方法的再一个实施例的流程示意图。

图4为本发明基于DPI大数据分析的信息推送系统的一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1为本发明基于DPI大数据分析的信息推送方法的一个实施例的流程示意图。该方法包括以下步骤：

在步骤110，基于DPI技术获取用户数据包。例如，通过DPI技术实时获取网络流量中的HTTP协议数据包。为了提高效率，还可以利用分布式技术处理DPI采集的TTTP协议数据包。

在步骤120，将用户数据包解析为网页文本。

在步骤130，根据预定算法提取网页文本中多个关键词。例如，用户访问一个购物网页后，提取购物网页中的关键词，如手机、安卓、内存等等。

在步骤140，计算包含关键词的网页和推送信息主题词的相似度。例如，A用户访问的一个网页中的关键词是笔记本、联想；B用户访问的一个网页中的关键词为手机、安卓、内存。营销商想要推送苹果手机，则判断B用户访问的网页与营销商的主题词相似度要大于A用户访问的网页与营销商的主题词相似度。

在步骤150，当相似度大于阈值时，向访问该网页的用户推送与主题词相关的信息。例如，计算网页中每一个关键词与推送信息主题词的相似度，若一个网页中有N个关键词，推送信息主题词有M个，则计算M*N次相似度，并将M*N个相似度相加作为网页与推送信息主题词的相似度，当网页与推送信息主题词的相似度达到阈值时，将访问该网页的用户作为目标对象进行实时广告营销。

在该实施例中，利用DPI技术获取用户上网数据包，并通过预定算法实时分析网页中词频特性，将用户访问网页中的关键词与推送信息主题词快速匹配，因此可以实现向用户精准推送信息。

图2为本发明基于DPI大数据分析的信息推送方法的另一个实施例的流程示意图。该方法包括以下步骤：

在步骤210，通过DPI技术实时获取网络流量中的HTTP协议数据包。

在步骤220，将HTTP协议数据包解析为用户访问的网页文本。

在步骤230，利用TF-IDF(Term Frequency–Inverse Document Frequency，词频-逆向文件频率)算法，计算网页文本中的词语的TF-IDF值。

其中，TF-IDF为信息检索与数据挖掘的常用加权技术，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。词频TF计算公式为其中分子是该词在文件中的出现次数，而分母则是在文件中所有字词的出现次数之和，逆向文件频率IDF计算公式为其中|D|是语料库中的文件总数，|{j:t_i∈d_j}|包含词语t_i的文件数目(即n_i,j≠0的文件数目)如果该词语不在语料库中，就会导致被除数为零，因此一般情况下使用1+|{j:t_i∈d_j}|，最后计算tfidf_i,j＝tf_i,j×idf_i。传统TF-IDF技术主要用在提取文本中的特征词，将文本建模为词频向量，利用余弦等相似度方法计算文本之间的相似度，也有将TF-IDF用于计算共同购买商品评分的用户之间的相似性方面。

其中，在本发明中，TF＝词语在网页文本中的出现次数/网页文本中总词数，IDF＝语料库中URL数/(包含词语的URL数+1)，TF-IDF值＝TF*IDF，即本发明利用TF-IDF算法，统计网页文本中每个词语的重要程度。

在步骤240，对TF-IDF值由大到小进行排序。当然，也可以由小到大进行排序。

在步骤250，获取前N个TF-IDF值对应的词语作为关键词。即统计网页中最重要的几个关键词。为提高计算效率，可将用户访问的网页的关键词保存在缓存中，当针对不同广告主的主题词进行营销时，一定时间内可无需重复计算同一网页的TF值。

在步骤260，结合预料库，计算关键词和主题词的相似度，进而获知用户访问的网页与主题词的相似度。例如，广告主设定M个营销主题词，对每个主题词，将语料库中所有包含该主题词的文档逻辑上看成一个大的文档，也可以将主题词次数大于某个阈值的文档逻辑上看成一个大的文档。计算用户网页每个关键词相对于这个大文档的TF-IDF值，将M*N个值相加作为用户访问网页和广告主题之间的相似度。

在步骤270，判断相似度是否达到阈值，若达到阈值，则将访问该网页的用户作为目标对象进行实时信息推送。

为提高计算效率，对于同一主题词序列，可将已经筛选出的网址保存在数据库中，当不同用户访问该网址时，无需重复计算，直接将用户作为营销对象进行信息推送。

在该实施例中，基于DPI技术获取用户上网数据包，并通过TF-IDF算法实时分析网页中词频特性，将用户访问网页中的关键词与推送信息主题词快速匹配，因此可以实现向用户精准推送信息。将该方法应用于营销领域时，无需像现有技术一样采用基于用户标签的营销模式，无需更新维护URL地址库，营销主题词无需受预定义用户标签/URL网址分类限制，广告主可指定个性化的营销主题词，系统自动匹配生成营销名单，营销准确性还可通过调整相似度阈值控制。

图3为本发明基于DPI大数据分析的信息推送方法的再一个实施例的流程示意图。该方法包括以下步骤：

在步骤310，预先通过DPI技术随机采集一批用户访问网页，生成网址-词频构成的大数据语料库。例如，预料库中包含ID、URL、词语、频次信息，如表1所示：

ID	URL	词语	频次
				1	http://aaa.com	笔记本	5
2	http://aaa.com	内存	3
				3	http://bbb.com	游戏机	4
...	...	...	...

表1

语料库的数据随机采集自用户上网网页内容，在实际实施中也可限定用户类型，如采集不同标签的用户上网网页，让文本内容覆盖面更广，更具普遍性；还可以限定网页大小范围，避免内容过多的网页词频太多占用存储资源，影响后续TF-IDF计算性能，或过少的内容网页词频太少，影响后续TF-IDF计算准确性；也可采集已有公开的预料库或综合类网站的文章、评论等；还可以对存储到语料库中词频可以设定上下限，如小于某个值或大于某个值的词频不纳入语料库，以降低存储空间大小，提高计算准确性。

在实际实施中应让语料库尽量覆盖更多词语范围，因此数据量非常大，可引入Key-Value缓存、大数据存储等技术，提高语料库数据检索效率。

在步骤320，通过DPI实时采集HTTP协议用户上网数据包，组合并解析成网页文本。由于营销广告关注的是目标客户定位的准确性，覆盖率可以通过时间弥补，所以系统实时从DPI获取HTTP协议用户上网数据包时，并不需要每个用户每时每刻都处理，只需要根据自身系统性能，处理完一个再处理下一个数据包，丢弃中间来不及处理的数据包，不会出现排队问题。

在步骤330，利用分词技术将网页文本转换成词语列表，剔除停用词，结合语料库，计算每个单词的TF-IDF值，取最大的N个作为标识网页特征的关键词。

在步骤340，计算每个主题词与每个关键词的TF-IDF值。其中，TF＝语料库中包含营销主题词的URL中关键词出现总数/语料库中包含营销主题词的URL中总词语数；IDF＝log语料库中URL数/(包含关键词的URL数+1)；TF-IDF值＝TF*IDF。

例如，关键词“笔记本”、“中国”和营销主题词“联想”如表2所示：

表2

在步骤350，计算主题词与网页之间的相似度。即将步骤340计算出来的M*N个TF-IDF值之和作为主题词与网页的相似度值。包含关键词“笔记本”、“中国”的网页与主题词“联想”的相似度为0.215+0.094＝0.309。

在步骤360，当相似度大于阈值时，认为用户访问的网页与主题词相关，向访问该网页的用户推送信息。

在该实施例中，通过DPI实时采集HTTP协议用户上网数据包，组合并解析成网页文本，并结合语料库，通过一次TF-IDF计算，识别标识用户上网访问网页的关键词序列，通过二次TF-IDF计算，识别关键词序列和营销主题词序列之间的相似度，进而实现精准推送信息。

本发明与现有基于URL地址库给用户打标签进行营销的模式相比，没有预定义的标签分类限制，完全基于大数据实时分析计算进行营销主题词相似度匹配，目标用户定位更精准。另外本发明并未涉及广告效果的记录，实际实施时还可将匹配上的用户营销清单记录到数据库。

图4为本发明基于DPI大数据分析的信息推送系统的一个实施例的结构示意图。该系统包括数据采集模块410、数据包解析模块420、关键词提取模块430、相似度计算模块440和信息推送模块450。其中：

数据采集模块410用于基于DPI技术获取用户数据包。例如，通过DPI技术实时获取网络流量中的HTTP协议数据包。

数据包解析模块420用于将用户数据包解析为网页文本。

关键词提取模块430用于根据预定算法提取网页文本中多个关键词。例如，用户访问一个购物网页后，提取购物网页中的关键词，如手机、安卓、内存等等。

相似度计算模块440用于计算包含关键词的网页和推送信息主题词的相似度。例如，A用户访问的一个网页中的关键词是笔记本、联想；B用户访问的一个网页中的关键词为手机、安卓、内存。营销商想要推送苹果手机广告，则判断B用户访问的网页与营销商的主题词相似度要大于A用户访问的网页与营销商的主题词相似度。

信息推送模块450用于当相似度大于阈值时，向用户推送与主题词相关的信息。例如，计算网页中每一个关键词与推送信息主题词的相似度，若一个网页中有N个关键词，推送信息主题词有M个，则计算M*N次相似度，并将M*N个相似度相加作为网页与推送信息主题词的相似度，当网页与推送信息主题词的相似度达到阈值时，将访问该网页的用户作为目标对象进行实时广告营销。

在本发明的另一个实施例中，该系统还可以包括语料库管理模块460，语料库管理模块460用于预先基于DPI技术采集用户访问网页，生成URL-词频构成的语料库。例如，预料库中包含ID、URL、词语、频次信息等。如果语料库太大，还可以通过限制网页大小、自定义停用词以及将一个网页中出现次数小于阈值的词语剔除来降低语料库的大小。

关键词提取模块430用于利用TF-IDF算法，结合语料库计算网页文本中的词语的TF-IDF值，并对TF-IDF值由大到小进行排序；获取前N个TF-IDF值对应的词语作为关键词。其中：TF＝词语在网页文本中的出现次数/网页文本中总词数，IDF＝语料库中URL数/(包含词语的URL数+1)，TF-IDF值＝TF*IDF，即本发明利用TF-IDF算法，统计网页文本中每个词语的重要程度。

相似度计算模块440还用于计算每个主题词与每个关键词的TF-IDF值，并将计算出的包含每个推送信息主题词的网页中每个关键词的TF-IDF值相加作为包含关键词的网页和推送信息主题词的相似度。例如，如表2所示，包含关键词“笔记本”、“中国”的网页与主题词“联想”的相似度为0.215+0.094＝0.309。

信息推送模块450用于当相似度大于阈值时，认为用户访问的网页与主题词相关，向访问该网页的用户推送信息。

在该实施例中，通过DPI实时采集HTTP协议用户上网数据包，组合并解析成网页文本，并结合语料库，通过二次TF-IDF算法计算网页和主题词的相似度，进而实现精准推送信息。

至此，已经详细描述了本发明。为了避免遮蔽本发明的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本发明的方法以及装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种基于DPI大数据分析的信息推送方法，其特征在于，包括：

基于深度包检测DPI技术获取用户数据包；

将所述用户数据包解析为网页文本；

根据预定算法提取所述网页文本中多个关键词；

计算包含所述关键词的网页和推送信息主题词的相似度；

当所述相似度大于阈值时，向访问所述网页的用户推送与所述主题词相关的信息。

2.根据权利要求1所述的方法，其特征在于，所述根据预定算法提取所述网页文本中多个关键词包括：

根据词频TF-逆向文件频率IDF算法计算所述网页文本中的词语的TF-IDF值；

对所述TF-IDF值由大到小进行排序；

获取前N个TF-IDF值对应的词语作为关键词。

3.根据权利要求2所述的方法，其特征在于，所述根据TF-IDF算法计算所述网页文本中的词语的TF-IDF值包括：

预先基于DPI技术采集用户访问网页，生成URL-词频构成的语料库；

根据所述语料库计算所述网页文本中的词语的IDF值；

根据所述网页文本中的词语的IDF值获取所述网页文本中的词语的TF-IDF值。

4.根据权利要求3所述的方法，其特征在于，所述预先基于DPI技术采集用户访问网页，生成URL-词频构成的语料库包括：

预先基于DPI技术采集用户访问网页；

通过限制所述用户访问网页的大小、自定义停用词和/或将所述用户访问网页中出现次数小于阈值的词语剔除后，生成所述语料库。

5.根据权利要求3所述的方法，其特征在于，所述计算包含所述关键词的网页和推送信息主题词的相似度包括：

根据TF-IDF算法计算所述语料库中包含所述推送信息主题词的网页中所述关键词的TF-IDF值；

将计算出的包含每个推送信息主题词的网页中每个关键词的TF-IDF值相加作为包含所述关键词的网页和推送信息主题词的相似度。

6.一种基于DPI大数据分析的信息推送系统，其特征在于，包括：

数据采集模块，用于基于DPI技术获取用户数据包；

数据包解析模块，用于将所述用户数据包解析为网页文本；

关键词提取模块，用于根据预定算法提取所述网页文本中多个关键词；

相似度计算模块，用于计算包含所述关键词的网页和推送信息主题词的相似度；

信息推送模块，用于当所述相似度大于阈值时，向访问所述网页的用户推送与所述主题词相关的信息。

7.根据权利要求6所述的系统，其特征在于，所述关键词提取模块用于根据词频-逆向文件频率TF-IDF算法计算所述网页文本中的词语的TF-IDF值；对所述TF-IDF值由大到小进行排序；获取前N个TF-IDF值对应的词语作为关键词。

8.根据权利要求7所述的系统，其特征在于，还包括：

语料库管理模块，用于预先基于DPI技术采集用户访问网页，生成URL-词频构成的语料库；

所述关键词提取模块还用于根据所述语料库计算所述网页文本中的词语的IDF值；根据所述网页文本中的词语的IDF值获取所述网页文本中的词语的TF-IDF值。

9.根据权利要求8所述的系统，其特征在于，所述语料库管理模块还用于预先基于DPI技术采集用户访问网页；通过限制所述用户访问网页的大小、自定义停用词和/或将所述用户访问网页中出现次数小于阈值的词语剔除后，生成所述语料库。

10.根据权利要求8所述的系统，其特征在于，所述相似度计算模块用于根据TF-IDF算法计算所述语料库中包含所述推送信息主题词的网页中所述关键词的TF-IDF值；将计算出的包含每个推送信息主题词的网页中每个关键词的TF-IDF值相加作为包含所述关键词的网页和推送信息主题词的相似度。