CN109672586A - 一种dpi业务流量识别方法、装置与计算机可读存储介质 - Google Patents

一种dpi业务流量识别方法、装置与计算机可读存储介质 Download PDF

Info

Publication number
CN109672586A
CN109672586A CN201811524357.4A CN201811524357A CN109672586A CN 109672586 A CN109672586 A CN 109672586A CN 201811524357 A CN201811524357 A CN 201811524357A CN 109672586 A CN109672586 A CN 109672586A
Authority
CN
China
Prior art keywords
keyword
test
test business
business name
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811524357.4A
Other languages
English (en)
Inventor
林宇扬
梁峰
彭司宇
邢晓燕
罗宏贤
卢玉芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yitong Century Science And Technology Co Ltd
Original Assignee
Yitong Century Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yitong Century Science And Technology Co Ltd filed Critical Yitong Century Science And Technology Co Ltd
Priority to CN201811524357.4A priority Critical patent/CN109672586A/zh
Publication of CN109672586A publication Critical patent/CN109672586A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种DPI业务流量识别方法、装置与计算机可读存储介质,所述DPI业务流量识别方法通过获取测试业务包和测试业务包对应的测试业务名称,并对测试业务包进行解码,得到若干条CDR测试记录数据,接着通过预设的关键字联想算法对所述测试业务名称进行关键字提取,直接得到测试业务名称的关键字合集,在这过程无需进行人工分析和标记,然后根据关键字合集与测试业务包中的CDR测试记录数据进行自动匹配识别,获取测试业务相应的业务流量,有效地减少了业务流量的识别时间,能够快速识别新业务中的业务流量。

Description

一种DPI业务流量识别方法、装置与计算机可读存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种DPI业务流量识别方法、装置与计算机可读存储介质。
背景技术
DPI(Deep Packet Inspection,深度报文检测)技术是一种基于应用层的流量检测和控制技术,称为“深度包检测”。所谓“深度”是和普通的报文分析层次相比较而言的,普通报文检测仅分析IP包的4层以下的内容,包括源地址、目的地址、源端口、目的端口以及协议类型。而DPI除了对前面的层次分析外,还增加了应用层分析,识别各种应用及其内容。当IP数据包、TCP或UDP数据流通过基于DPI技术的带宽管理系统时,该系统通过深入读取IP包载荷的内容来对OSI七层协议中的应用层信息进行重组,从而得到整个应用程序的内容,然后按照系统定义的管理策略对流量进行整形操作。
现有的DPI业务流量识别在业务测试和规则提取上都需要依赖人工手动实现,上线周期长,无法快速响应新业务识别业务流量的需求。
发明内容
本发明的目的是提供一种DPI业务流量识别方法、装置与计算机可读存储介质,在业务测试和规则提取上无需进行人工分析和标记,能够快速有效地识别新业务中的业务流量。
本发明实施例提供了一种DPI业务流量识别方法,包括:
获取测试业务包和所述测试业务包对应的测试业务名称,并对所述测试业务包进行解码,得到若干条CDR测试记录数据;其中,任意一条CDR测试记录数据中包括URL字段、USER_AGENT字段和REFER_URI字段;
通过预设的关键字联想算法对所述测试业务名称进行关键字提取,获取所述测试业务名称对应的关键字合集;
将所述关键字合集与CDR测试记录数据中的URL字段、USER_AGENT字段和REFER_URI字段进行模糊匹配,将匹配成功的CDR测试记录数据标记为测试业务的业务流量。
优选地,所述通过预设的关键字联想算法对所述测试业务名称进行关键字提取,获取所述测试业务名称对应的关键字合集,具体包括:
通过预设的包名联想算法爬取所述测试业务名称的测试业务包名,并提取所述测试业务包名的包名关键字;
通过预设的中文联想算法获取所述测试业务名称的拼音测试业务名称,并提取所述拼音测试业务名称的拼音关键字;
通过预设的英文联想算法获取所述测试业务名称的英文测试业务名称,并提取所述英文测试业务名称的英文关键字;
通过预设的自然语言处理分词联想算法获取所述测试业务名称的测试业务名称分词,并提取所述测试业务名称分词的分词关键字;
将所述包名关键字、拼音关键字、英文关键字和分词关键字进行集合,得到所述测试业务名称的关键字合集。
优选地,所述通过预设的包名联想算法爬取所述测试业务名称的测试业务包名,并提取所述测试业务包名的包名关键字,具体包括:
通过NLP分词算法获取所述测试业务包名的包名分词列表;
剔除所述包名分词列表中的公用词和符号,得到所述包名关键字。
优选地,所述通过预设的中文联想算法获取所述测试业务名称的拼音测试业务名称,并提取所述拼音测试业务名称的拼音关键字,具体包括:
所述拼音关键字包括全拼拼音关键字和首字母拼音关键字;
判断所述拼音测试业务名称的长度,当所述长度等于1时,剔除所述全拼拼音关键字;当所述长度等于2时,对所述拼音测试业务名称进行特殊符号拼接处理,得到所述全拼拼音关键字;当所述长度大于2时,将所述拼音测试业务名称作为所述全拼拼音关键字;
提取所述拼音测试业务名称的首字母,得到组合字母,并判断所述组合字母的长度,当所述组合字母的长度等于1时,剔除所述首字母拼音关键字;当所述组合字母的长度等于2时,对所述组合字母进行特殊符号拼接处理,得到所述首字母拼音关键字;当所述组合字母的长度大于2时,将所述组合字母作为所述首字母拼音关键字。
优选地,所述预设的中文联想算法还包括:
对所述拼音测试业务名称进行URL编码处理得到URL编码数据,并将所述URL编码数据作为所述拼音关键字。
优选地,所述通过预设的英文联想算法获取所述测试业务名称的英文测试业务名称,并提取所述英文测试业务名称的英文关键字,具体包括:
判断所述英文测试业务名称的字符长度,当所述字符长度不大于2时,不保留所述英文关键字;当所述字符长度大于等于3且不大于4时,对所述英文测试业务名称进行特殊字符拼接处理,得到所述英文关键字;当所述字符长度大于4时,将所述英文测试业务名称作为所述英文关键字。
优选地,所述通过预设的自然语言处理分词联想算法获取所述测试业务名称的测试业务名称分词,并提取所述测试业务名称分词的分词关键字,具体包括:
所述分词关键字包括拼音分词关键字和英文分词关键字;
通过预设的中文联想算法获取所述测试业务名称分词的拼音测试业务名称分词,并提取所述拼音测试业务名称分词的拼音分词关键字;
通过预设的英文联想算法获取所述测试业务名称分词的英文测试业务名称分词,并提取所述英文测试业务名称分词的英文分词关键字。
本发明实施例还提供了一种DPI业务流量识别装置,包括:
CDR测试记录数据获取模块,用于获取测试业务包和所述测试业务包对应的测试业务名称,并对所述测试业务包进行解码,得到若干条CDR测试记录数据;其中,任意一条CDR测试记录数据中包括URL字段、USER_AGENT字段和REFER_URI字段;
关键字采集模块,用于通过预设的关键字联想算法对所述测试业务名称进行关键字提取,获取所述测试业务名称对应的关键字合集;
业务流量匹配模块,用于将所述关键字合集与CDR测试记录数据中的URL字段、USER_AGENT字段和REFER_URI字段进行模糊匹配,将匹配成功的CDR测试记录数据标记为测试业务的业务流量。
本发明实施例还提供了一种DPI业务流量识别装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的DPI业务流量识别方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的DPI业务流量识别方法。
相对于现有技术,本发明实施例提供的一种DPI业务流量识别方法的有益效果在于:所述DPI业务流量识别方法,包括:获取测试业务包和所述测试业务包对应的测试业务名称,并对所述测试业务包进行解码,得到若干条CDR测试记录数据;其中,任意一条CDR测试记录数据中包括URL字段、USER_AGENT字段和REFER_URI字段;通过预设的关键字联想算法对所述测试业务名称进行关键字提取,获取所述测试业务名称对应的关键字合集;将所述关键字合集与CDR测试记录数据中的URL字段、USER_AGENT字段和REFER_URI字段进行模糊匹配,将匹配成功的CDR测试记录数据标记为测试业务的业务流量。该方法通过预设的关键字联想算法对所述测试业务名称进行关键字提取,直接得到测试业务名称的关键字合集,无需进行人工分析和标记,并根据所述关键字合集与测试业务包中的CDR测试记录数据进行自动匹配识别,获取测试业务相应的业务流量,有效地减少了业务流量的识别时间,能够快速识别新业务中的业务流量。
附图说明
图1是本发明实施例提供的一种DPI业务流量识别方法的流程示意图;
图2是本发明实施例提供的一种DPI业务流量识别方法中获取拼音关键字的流程示意图;
图3是本发明实施例提供的一种DPI业务流量识别方法中获取英文关键字的流程示意图;
图4是本发明实施例提供的一种DPI业务流量识别方法中获取分词关键字的流程示意图;
图5是本发明实施例提供的一种DPI业务流量识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其是本发明实施例提供的一种DPI业务流量识别方法的流程示意图,所述DPI业务流量识别方法,包括:
S100:获取测试业务包和所述测试业务包对应的测试业务名称,并对所述测试业务包进行解码,得到若干条CDR测试记录数据;其中,任意一条CDR测试记录数据中包括URL字段、USER_AGENT字段和REFER_URI字段;
S200:通过预设的关键字联想算法对所述测试业务名称进行关键字提取,获取所述测试业务名称对应的关键字合集;
S300:将所述关键字合集与CDR测试记录数据中的URL字段、USER_AGENT字段和REFER_URI字段进行模糊匹配,将匹配成功的CDR测试记录数据标记为测试业务的业务流量。
在本实施例中,所述预设的关键字联想算法包括包名联想算法、中文联想算法、英文联想算法和自然语言处理分词联想算法;在识别所述测试业务包的业务流量时,所述测试业务包进行CDR(Call Detail Records,呼叫详细记录)解码时会存在多条不属于该测试业务包的CDR(Call Detail Records,呼叫详细记录)测试记录数据,所以需要对CDR(CallDetail Records,呼叫详细记录)测试记录数据进行一一识别匹配,当CDR(Call DetailRecords,呼叫详细记录)测试记录数据匹配成功后,才可以认为匹配成功的CDR(CallDetail Records,呼叫详细记录)测试记录数据为测试业务的业务流量。其中,在本实施例中,DPI业务流量识别方法通过预设的关键字联想算法对所述测试业务名称进行关键字提取,直接得到测试业务名称的关键字合集,无需进行人工分析和标记,降低了人工成本,并根据所述关键字合集与测试业务包中的CDR(Call Detail Records,呼叫详细记录)测试记录数据进行自动匹配识别,获取测试业务相应的业务流量,有效地减少了业务流量的识别时间,能够快速识别新业务中的业务流量。
在一种可选的实施例中,S200:通过预设的关键字联想算法对所述测试业务名称进行关键字提取,获取所述测试业务名称对应的关键字合集,具体包括:
通过预设的包名联想算法爬取所述测试业务名称的测试业务包名,并提取所述测试业务包名的包名关键字;
通过预设的中文联想算法获取所述测试业务名称的拼音测试业务名称,并提取所述拼音测试业务名称的拼音关键字;
通过预设的英文联想算法获取所述测试业务名称的英文测试业务名称,并提取所述英文测试业务名称的英文关键字;
通过预设的自然语言处理分词联想算法获取所述测试业务名称的测试业务名称分词,并提取所述测试业务名称分词的分词关键字;
将所述包名关键字、拼音关键字、英文关键字和分词关键字进行集合,得到所述测试业务名称的关键字合集。
在本实施例中,通过多维度提取与所述测试业务名称有关的关键字,可以更加全面地识别测试业务中的CDR测试记录数据,同时在关键字提取过程中,通过预设的关键字联想算法对所述测试业务名称进行提取,无需进行人工分析和标记,有效地减少了业务流量的识别时间,能够快速识别新业务中的业务流量。
在一种可选的实施例中,所述通过预设的包名联想算法爬取所述测试业务名称的测试业务包名,并提取所述测试业务包名的包名关键字,具体包括:
通过NLP分词算法获取所述测试业务包名的包名分词列表;
剔除所述包名分词列表中的公用词和符号,得到所述包名关键字。
在本实施例中,所述包名联想算法主要是根据所述测试业务名称,通过爬虫爬取测试业务在各大应用市场的包名,通过NLP分词算法获取所述测试业务包名的包名分词列表;剔除所述包名分词列表中公用词和符号后,便得到所述包名关键字;如王者荣耀包名为com.tencent.tmgp.sgame,剔除公用词com和tencent,关键字为tmgp和sgame;其中,公用词一般包括如Android,IOS等常出现在测试业务包名中,且不能唯一标识测试业务的词语。
通过NLP(Natural Language Processing,自然语言处理)分词算法获取所述测试业务包名的包名分词列表,具体步骤如下:
(1)加载字典,生成单词查找树;
(2)将所述测试业务包名切分成短语列表,对每个短语使用DAG(DirectedAcyclic Graph,有向无环图)进行查词典操作,生成若干种句子切分;
(3)根据句子切分中已经切分好的短语,查找该短语出现的频率,然后根据动态规划查找最大概率路径的方法,对句子切分从右往左反向计算最大概率,依次类推,最后得到最大概率路径以及最大概率的切分组合;
(4)对使用DAG(Directed Acyclic Graph,有向无环图)进行查词典操作后查不到到的短语,组合成一个新的片段短语,对这个新的片段短语使用HMM(Hidden Markovmodel,隐马尔科夫)模型进行分词,识别字典外的新词;
(5)输出所述测试业务包名的包名分词列表。
其中,所述单词查找树是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串等,所以经常被搜索引擎系统用于统计文本词频;同时单词查找树利用字符串的公共前缀进行查询可以减少查询时间,最大限度地减少无谓的字符串的比较,提高查询效率。
有向无环图是指一个有向图无法从某个顶点出发经过若干条边回到该顶点,则这个图是一个有向无环图;HMM模型指隐马尔可夫模型(Hidden Markov Model,HMM)是一个统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。
请参阅图2,其是本发明实施例提供的一种DPI业务流量识别方法中获取拼音关键字的流程示意图,所述通过预设的中文联想算法获取所述测试业务名称的拼音测试业务名称,并提取所述拼音测试业务名称的拼音关键字,具体包括:
所述拼音关键字包括全拼拼音关键字和首字母拼音关键字;
判断所述拼音测试业务名称的长度,当所述长度等于1时,剔除所述全拼拼音关键字;当所述长度等于2时,对所述拼音测试业务名称进行特殊符号拼接处理,得到所述全拼拼音关键字;当所述长度大于2时,将所述拼音测试业务名称作为所述全拼拼音关键字;
提取所述拼音测试业务名称的首字母,得到组合字母,并判断所述组合字母的长度,当所述组合字母的长度等于1时,剔除所述首字母拼音关键字;当所述组合字母的长度等于2时,对所述组合字母进行特殊符号拼接处理,得到所述首字母拼音关键字;当所述组合字母的长度大于2时,将所述组合字母作为所述首字母拼音关键字。
在本实施例中,所述中文联想算法主要是通过生成所述测试业务名称对应的拼音、以及拼音首字母缩写,分别称为拼音测试业务名称和字母组合,再将拼音测试业务名称和字母组合进行长度判断,提取相应的关键字;其中所述特殊符号包括空格、英文句号和左斜杠,由于这三个符号常伴随测试业务名称的关键字一起出现在所述URL字段、所述USERAGENT字段和所述REFER_URI字段中,所以当所述拼音测试业务名称的长度太短时,通过特殊符号拼接处理,能有效防止由于所述拼音测试业务名称过短,产生误匹配的情况。例如当所述拼音测试业务名称为“QQ”时,其长度为2,需要进行特殊符号拼接处理,拼接后生成3个拼音关键字,分别为“QQ”、“QQ.”、“QQ/”。
在一种可选的实施例中,所述预设的中文联想算法还包括:
对所述拼音测试业务名称进行URL编码处理得到URL编码数据,并将所述URL编码数据作为所述拼音关键字。
请参阅图3,其是本发明实施例提供的一种DPI业务流量识别方法中获取英文关键字的流程示意图,所述通过预设的英文联想算法获取所述测试业务名称的英文测试业务名称,并提取所述英文测试业务名称的英文关键字,具体包括:
判断所述英文测试业务名称的字符长度,当所述字符长度不大于2时,不保留所述英文关键字;当所述字符长度大于等于3且不大于4时,对所述英文测试业务名称进行特殊字符拼接处理,得到所述英文关键字;当所述字符长度大于4时,将所述英文测试业务名称作为所述英文关键字
在本实施例中,所述英文联想算法主要是通过对所述测试业务名称进行英文翻译和语义关联算法处理,生成测试业务名称的英文测试业务名称,再对所述英文测试业务名称进行长度判断,提取相应的关键字;其中所述特殊字符包括空格、英文句号和左斜杠,由于这三个字符常伴随测试业务名称的关键字一起出现在所述URL字段、所述USE RAGENT字段和所述REFER_URI字段中,所以当所述英文测试业务名称的字符长度太短时,通过特殊字符拼接处理,能有效防止由于所述英文测试业务名称过短,产生误匹配的情况。
请参阅图4,其是本发明实施例提供的一种DPI业务流量识别方法中获取分词关键字的流程示意图,所述通过预设的自然语言处理分词联想算法获取所述测试业务名称的测试业务名称分词,并提取所述测试业务名称分词的分词关键字,具体包括:
所述分词关键字包括拼音分词关键字和英文分词关键字;
通过预设的中文联想算法获取所述测试业务名称分词的拼音测试业务名称分词,并提取所述拼音测试业务名称分词的拼音分词关键字;
通过预设的英文联想算法获取所述测试业务名称分词的英文测试业务名称分词,并提取所述英文测试业务名称分词的英文分词关键字。
在本实施例中,所述自然语言处理分词联想算法实际就是NLP(Natural LanguageProcessing,自然语言处理)分词算法,具体步骤如下:
(1)加载字典,生成单词查找树;
(2)使用正则表达式获取所述测试业务名称对应的连续中文字符和英文字符,并将所述中文字符和所述英文字符切分成短语列表,对每个短语使用DAG(Directed AcyclicGraph,有向无环图)进行查词典操作,生成若干种句子切分;
(3)根据句子切分中已经切分好的短语,查找该短语出现的频率,然后根据动态规划查找最大概率路径的方法,对句子切分从右往左反向计算最大概率,依次类推,最后得到最大概率路径以及最大概率的切分组合;
(4)对使用DAG(Directed Acyclic Graph,有向无环图)进行查词典操作后查不到到的短语,组合成一个新的片段短语,对这个新的片段短语使用HMM(Hidden Markovmodel,隐马尔科夫)模型进行分词,识别字典外的新词;
(5)输出所述测试业务名称的分词列表。
其中,所述单词查找树是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串等,所以经常被搜索引擎系统用于统计文本词频;同时单词查找树利用字符串的公共前缀进行查询可以减少查询时间,最大限度地减少无谓的字符串的比较,提高查询效率。
有向无环图是指一个有向图无法从某个顶点出发经过若干条边回到该顶点,则这个图是一个有向无环图;HMM模型指隐马尔可夫模型(Hidden Markov Model,HMM)是一个统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。
请参阅图5,其是本发明实施例提供的一种DPI业务流量识别装置的结构示意图,所述DPI业务流量识别装置,包括:
CDR测试记录数据获取模块1,用于获取测试业务包和所述测试业务包对应的测试业务名称,并对所述测试业务包进行解码,得到若干条CDR测试记录数据;其中,任意一条CDR测试记录数据中包括URL字段、USER_AGENT字段和REFER_URI字段;
关键字采集模块2,用于通过预设的关键字联想算法对所述测试业务名称进行关键字提取,获取所述测试业务名称对应的关键字合集;
业务流量匹配模块3,用于将所述关键字合集与CDR测试记录数据中的URL字段、USER_AGENT字段和REFER_URI字段进行模糊匹配,将匹配成功的CDR测试记录数据标记为测试业务的业务流量。
在本实施例中,所述预设的关键字联想算法包括包名联想算法、中文联想算法、英文联想算法和自然语言处理分词联想算法;在识别所述测试业务包的业务流量时,所述测试业务包进行CDR解码时会存在多条不属于该测试业务包的CDR测试记录数据,所以需要对CDR测试记录数据进行一一识别匹配,当CDR测试记录数据匹配成功后,才可以认为匹配成功的CDR测试记录数据为测试业务的业务流量。其中,在本实施例中,DPI业务流量识别方法通过预设的关键字联想算法对所述测试业务名称进行关键字提取,直接得到测试业务名称的关键字合集,无需进行人工分析和标记,降低了人工成本,并根据所述关键字合集与测试业务包中的CDR测试记录数据进行自动匹配识别,获取测试业务相应的业务流量,有效地减少了业务流量的识别时间,能够快速识别新业务中的业务流量。
在一种可选的实施例中,关键字采集模块2包括:
包名关键字获取单元,通过预设的包名联想算法爬取所述测试业务名称的测试业务包名,并提取所述测试业务包名的包名关键字;
拼音关键字获取单元,通过预设的中文联想算法获取所述测试业务名称的拼音测试业务名称,并提取所述拼音测试业务名称的拼音关键字;
英文关键字获取单元,通过预设的英文联想算法获取所述测试业务名称的英文测试业务名称,并提取所述英文测试业务名称的英文关键字;
分词关键字获取单元,通过预设的自然语言处理分词联想算法获取所述测试业务名称的测试业务名称分词,并提取所述测试业务名称分词的分词关键字;
关键字合集获取单元,用于将所述包名关键字、拼音关键字、英文关键字和分词关键字进行集合,得到所述测试业务名称的关键字合集。
在本实施例中,通过多维度提取与所述测试业务名称有关的关键字,可以更加全面地识别测试业务中的CDR测试记录数据,同时在关键字提取过程中,通过预设的关键字联想算法对所述测试业务名称进行提取,无需进行人工分析和标记,有效地减少了业务流量的识别时间,能够快速识别新业务中的业务流量。
在一种可选的实施例中,包名关键字获取单元包括:
通过NLP分词算法获取所述测试业务包名的包名分词列表;
剔除所述包名分词列表中的公用词和符号,得到所述包名关键字。
在本实施例中,所述包名联想算法主要是根据所述测试业务名称,通过爬虫爬取测试业务在各大应用市场的包名,通过NLP分词算法获取所述测试业务包名的包名分词列表;剔除所述包名分词列表中公用词和符号后,便得到所述包名关键字;如王者荣耀包名为com.tencent.tmgp.sgame,剔除公用词com和tencent,关键字为tmgp和sgame;其中,公用词一般包括如Android,IOS等常出现在测试业务包名中,且不能唯一标识测试业务的词语。
通过NLP(Natural Language Processing,自然语言处理)分词算法获取所述测试业务包名的包名分词列表,具体步骤如下:
(1)加载字典,生成单词查找树;
(2)将所述测试业务包名切分成短语列表,对每个短语使用DAG(DirectedAcyclic Graph,有向无环图)进行查词典操作,生成若干种句子切分;
(3)根据句子切分中已经切分好的短语,查找该短语出现的频率,然后根据动态规划查找最大概率路径的方法,对句子切分从右往左反向计算最大概率,依次类推,最后得到最大概率路径以及最大概率的切分组合;
(4)对使用DAG(Directed Acyclic Graph,有向无环图)进行查词典操作后查不到到的短语,组合成一个新的片段短语,对这个新的片段短语使用HMM(Hidden Markovmodel,隐马尔科夫)模型进行分词,识别字典外的新词;
(5)输出所述测试业务包名的包名分词列表。
其中,所述单词查找树是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串等,所以经常被搜索引擎系统用于统计文本词频;同时单词查找树利用字符串的公共前缀进行查询可以减少查询时间,最大限度地减少无谓的字符串的比较,提高查询效率。
有向无环图是指一个有向图无法从某个顶点出发经过若干条边回到该顶点,则这个图是一个有向无环图;HMM模型指隐马尔可夫模型(Hidden Markov Model,HMM)是一个统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。
在一种可选的实施例中,拼音关键字获取单元包括:
判断所述拼音测试业务名称的长度,当所述长度等于1时,剔除所述全拼拼音关键字;当所述长度等于2时,对所述拼音测试业务名称进行特殊符号拼接处理,得到所述全拼拼音关键字;当所述长度大于2时,将所述拼音测试业务名称作为所述全拼拼音关键字;
提取所述拼音测试业务名称的首字母,得到组合字母,并判断所述组合字母的长度,当所述组合字母的长度等于1时,剔除所述首字母拼音关键字;当所述组合字母的长度等于2时,对所述组合字母进行特殊符号拼接处理,得到所述首字母拼音关键字;当所述组合字母的长度大于2时,将所述组合字母作为所述首字母拼音关键字。
在本实施例中,所述中文联想算法主要是通过生成所述测试业务名称对应的拼音、以及拼音首字母缩写,分别称为拼音测试业务名称和字母组合,再将拼音测试业务名称和字母组合进行长度判断,提取相应的关键字;其中所述特殊符号包括空格、英文句号和左斜杠,由于这三个符号常伴随测试业务名称的关键字一起出现在所述URL字段、所述USERAGENT字段和所述REFER_URI字段中,所以当所述拼音测试业务名称的长度太短时,通过特殊符号拼接处理,能有效防止由于所述拼音测试业务名称过短,产生误匹配的情况。例如当所述拼音测试业务名称为“QQ”时,其长度为2,需要进行特殊符号拼接处理,拼接后生成3个拼音关键字,分别为“QQ”、“QQ.”、“QQ/”。
在一种可选的实施例中,所述拼音关键字获取单元还包括:
对所述拼音测试业务名称进行URL编码处理得到URL编码数据,并将所述URL编码数据作为所述拼音关键字。
在一种可选的实施例中,英文关键字获取单元包括:
判断所述英文测试业务名称的字符长度,当所述字符长度不大于2时,不保留所述英文关键字;当所述字符长度大于等于3且不大于4时,对所述英文测试业务名称进行特殊字符拼接处理,得到所述英文关键字;当所述字符长度大于4时,将所述英文测试业务名称作为所述英文关键字
在本实施例中,所述英文联想算法主要是通过对所述测试业务名称进行英文翻译和语义关联算法处理,生成测试业务名称的英文测试业务名称,再对所述英文测试业务名称进行长度判断,提取相应的关键字;其中所述特殊字符包括空格、英文句号和左斜杠,由于这三个字符常伴随测试业务名称的关键字一起出现在所述URL字段、所述USE RAGENT字段和所述REFER_URI字段中,所以当所述英文测试业务名称的字符长度太短时,通过特殊字符拼接处理,能有效防止由于所述英文测试业务名称过短,产生误匹配的情况。
在一种可选的实施例中,分词关键字获取单元包括:
所述分词关键字包括拼音分词关键字和英文分词关键字;
通过预设的中文联想算法获取所述测试业务名称分词的拼音测试业务名称分词,并提取所述拼音测试业务名称分词的拼音分词关键字;
通过预设的英文联想算法获取所述测试业务名称分词的英文测试业务名称分词,并提取所述英文测试业务名称分词的英文分词关键字。
本发明实施例还提供了一种DPI业务流量识别装置,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的DPI业务流量识别方法。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述DPI业务流量识别方法中的执行过程。例如,所述计算机程序可以被分割成如图5所示的DPI业务流量识别装置的功能模块。
所述DPI业务流量识别装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述**装置/终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是DPI业务流量识别装置的示例,并不构成对DPI业务流量识别装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述DPI业务流量识别装置还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述DPI业务流量识别装置的控制中心,利用各种接口和线路连接整个DPI业务流量识别装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述DPI业务流量识别装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述DPI业务流量识别装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的DPI业务流量识别方法。
相对于现有技术,本发明实施例提供的一种DPI业务流量识别方法的有益效果在于:所述DPI业务流量识别方法,包括:获取测试业务包和所述测试业务包对应的测试业务名称,并对所述测试业务包进行解码,得到若干条CDR测试记录数据;其中,任意一条CDR测试记录数据中包括URL字段、USER_AGENT字段和REFER_URI字段;通过预设的关键字联想算法对所述测试业务名称进行关键字提取,获取所述测试业务名称对应的关键字合集;将所述关键字合集与CDR测试记录数据中的URL字段、USER_AGENT字段和REFER_URI字段进行模糊匹配,将匹配成功的CDR测试记录数据标记为测试业务的业务流量。该方法通过预设的关键字联想算法对所述测试业务名称进行关键字提取,直接得到测试业务名称的关键字合集,无需进行人工分析和标记,并根据所述关键字合集与测试业务包中的CDR测试记录数据进行自动匹配识别,获取测试业务相应的业务流量,有效地减少了业务流量的识别时间,能够快速识别新业务中的业务流量。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种DPI业务流量识别方法,其特征在于,包括:
获取测试业务包和所述测试业务包对应的测试业务名称,并对所述测试业务包进行解码,得到若干条CDR测试记录数据;其中,任意一条CDR测试记录数据中包括URL字段、USER_AGENT字段和REFER_URI字段;
通过预设的关键字联想算法对所述测试业务名称进行关键字提取,获取所述测试业务名称对应的关键字合集;
将所述关键字合集与CDR测试记录数据中的URL字段、USER_AGENT字段和REFER_URI字段进行模糊匹配,将匹配成功的CDR测试记录数据标记为测试业务的业务流量。
2.如权利要求1所述的DPI业务流量识别方法,其特征在于,所述通过预设的关键字联想算法对所述测试业务名称进行关键字提取,获取所述测试业务名称对应的关键字合集,具体包括:
通过预设的包名联想算法爬取所述测试业务名称的测试业务包名,并提取所述测试业务包名的包名关键字;
通过预设的中文联想算法获取所述测试业务名称的拼音测试业务名称,并提取所述拼音测试业务名称的拼音关键字;
通过预设的英文联想算法获取所述测试业务名称的英文测试业务名称,并提取所述英文测试业务名称的英文关键字;
通过预设的自然语言处理分词联想算法获取所述测试业务名称的测试业务名称分词,并提取所述测试业务名称分词的分词关键字;
将所述包名关键字、拼音关键字、英文关键字和分词关键字进行集合,得到所述测试业务名称的关键字合集。
3.如权利要求2所述的DPI业务流量识别方法,其特征在于,所述通过预设的包名联想算法爬取所述测试业务名称的测试业务包名,并提取所述测试业务包名的包名关键字,具体包括:
通过NLP分词算法获取所述测试业务包名的包名分词列表;
剔除所述包名分词列表中的公用词和符号,得到所述包名关键字。
4.如权利要求2所述的DPI业务流量识别方法,其特征在于,所述通过预设的中文联想算法获取所述测试业务名称的拼音测试业务名称,并提取所述拼音测试业务名称的拼音关键字,具体包括:
所述拼音关键字包括全拼拼音关键字和首字母拼音关键字;
判断所述拼音测试业务名称的长度,当所述长度等于1时,剔除所述全拼拼音关键字;当所述长度等于2时,对所述拼音测试业务名称进行特殊符号拼接处理,得到所述全拼拼音关键字;当所述长度大于2时,将所述拼音测试业务名称作为所述全拼拼音关键字;
提取所述拼音测试业务名称的首字母,得到组合字母,并判断所述组合字母的长度,当所述组合字母的长度等于1时,剔除所述首字母拼音关键字;当所述组合字母的长度等于2时,对所述组合字母进行特殊符号拼接处理,得到所述首字母拼音关键字;当所述组合字母的长度大于2时,将所述组合字母作为所述首字母拼音关键字。
5.如权利要求4所述的DPI业务流量识别方法,其特征在于,所述预设的中文联想算法还包括:
对所述拼音测试业务名称进行URL编码处理得到URL编码数据,并将所述URL编码数据作为所述拼音关键字。
6.如权利要求2所述的DPI业务流量识别方法,其特征在于,所述通过预设的英文联想算法获取所述测试业务名称的英文测试业务名称,并提取所述英文测试业务名称的英文关键字,具体包括:
判断所述英文测试业务名称的字符长度,当所述字符长度不大于2时,不保留所述英文关键字;当所述字符长度大于等于3且不大于4时,对所述英文测试业务名称进行特殊字符拼接处理,得到所述英文关键字;当所述字符长度大于4时,将所述英文测试业务名称作为所述英文关键字。
7.如权利要求2所述的DPI业务流量识别方法,其特征在于,所述通过预设的自然语言处理分词联想算法获取所述测试业务名称的测试业务名称分词,并提取所述测试业务名称分词的分词关键字,具体包括:
所述分词关键字包括拼音分词关键字和英文分词关键字;
通过预设的中文联想算法获取所述测试业务名称分词的拼音测试业务名称分词,并提取所述拼音测试业务名称分词的拼音分词关键字;
通过预设的英文联想算法获取所述测试业务名称分词的英文测试业务名称分词,并提取所述英文测试业务名称分词的英文分词关键字。
8.一种DPI业务流量识别装置,其特征在于,包括:
CDR测试记录数据获取模块,用于获取测试业务包和所述测试业务包对应的测试业务名称,并对所述测试业务包进行解码,得到若干条CDR测试记录数据;其中,任意一条CDR测试记录数据中包括URL字段、USER_AGENT字段和REFER_URI字段;
关键字采集模块,用于通过预设的关键字联想算法对所述测试业务名称进行关键字提取,获取所述测试业务名称对应的关键字合集;
业务流量匹配模块,用于将所述关键字合集与CDR测试记录数据中的URL字段、USER_AGENT字段和REFER_URI字段进行模糊匹配,将匹配成功的CDR测试记录数据标记为测试业务的业务流量。
9.一种DPI业务流量识别装置,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的DPI业务流量识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的DPI业务流量识别方法。
CN201811524357.4A 2018-12-13 2018-12-13 一种dpi业务流量识别方法、装置与计算机可读存储介质 Pending CN109672586A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811524357.4A CN109672586A (zh) 2018-12-13 2018-12-13 一种dpi业务流量识别方法、装置与计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811524357.4A CN109672586A (zh) 2018-12-13 2018-12-13 一种dpi业务流量识别方法、装置与计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109672586A true CN109672586A (zh) 2019-04-23

Family

ID=66145124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811524357.4A Pending CN109672586A (zh) 2018-12-13 2018-12-13 一种dpi业务流量识别方法、装置与计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109672586A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111211995A (zh) * 2019-12-19 2020-05-29 北京浩瀚深度信息技术股份有限公司 一种字符串匹配库获取网络流量业务分析方法及装置
CN112052413A (zh) * 2020-08-28 2020-12-08 上海谋乐网络科技有限公司 Url模糊匹配方法、装置和系统
CN114860575A (zh) * 2022-03-31 2022-08-05 中国电信股份有限公司 测试数据生成方法及装置、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101442489A (zh) * 2008-12-30 2009-05-27 北京畅讯信通科技有限公司 基于特征库的流量识别方法
CN101794307A (zh) * 2010-03-02 2010-08-04 光庭导航数据(武汉)有限公司 基于互联网分词思想的车载导航poi搜索引擎
US20140258489A1 (en) * 2013-03-11 2014-09-11 Blue Coat Systems, Inc. Collaborative application classification
US20160088001A1 (en) * 2014-09-22 2016-03-24 Alcatel-Lucent Usa Inc. Collaborative deep packet inspection systems and methods
CN106452948A (zh) * 2016-09-22 2017-02-22 恒安嘉新(北京)科技有限公司 一种网络流量的自动分类方法和系统
CN106982150A (zh) * 2017-03-27 2017-07-25 重庆邮电大学 一种基于Hadoop的移动互联网用户行为分析方法
CN107679122A (zh) * 2017-09-20 2018-02-09 福建网龙计算机网络信息技术有限公司 一种模糊搜索方法及终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101442489A (zh) * 2008-12-30 2009-05-27 北京畅讯信通科技有限公司 基于特征库的流量识别方法
CN101794307A (zh) * 2010-03-02 2010-08-04 光庭导航数据(武汉)有限公司 基于互联网分词思想的车载导航poi搜索引擎
US20140258489A1 (en) * 2013-03-11 2014-09-11 Blue Coat Systems, Inc. Collaborative application classification
US20160088001A1 (en) * 2014-09-22 2016-03-24 Alcatel-Lucent Usa Inc. Collaborative deep packet inspection systems and methods
CN106452948A (zh) * 2016-09-22 2017-02-22 恒安嘉新(北京)科技有限公司 一种网络流量的自动分类方法和系统
CN106982150A (zh) * 2017-03-27 2017-07-25 重庆邮电大学 一种基于Hadoop的移动互联网用户行为分析方法
CN107679122A (zh) * 2017-09-20 2018-02-09 福建网龙计算机网络信息技术有限公司 一种模糊搜索方法及终端

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111211995A (zh) * 2019-12-19 2020-05-29 北京浩瀚深度信息技术股份有限公司 一种字符串匹配库获取网络流量业务分析方法及装置
CN111211995B (zh) * 2019-12-19 2022-03-08 北京浩瀚深度信息技术股份有限公司 一种字符串匹配库获取网络流量业务分析方法及装置
CN112052413A (zh) * 2020-08-28 2020-12-08 上海谋乐网络科技有限公司 Url模糊匹配方法、装置和系统
CN112052413B (zh) * 2020-08-28 2024-02-13 上海谋乐网络科技有限公司 Url模糊匹配方法、装置和系统
CN114860575A (zh) * 2022-03-31 2022-08-05 中国电信股份有限公司 测试数据生成方法及装置、存储介质及电子设备
CN114860575B (zh) * 2022-03-31 2023-10-03 中国电信股份有限公司 测试数据生成方法及装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN106156365B (zh) 一种知识图谱的生成方法及装置
US10565244B2 (en) System and method for text categorization and sentiment analysis
CN110020422B (zh) 特征词的确定方法、装置和服务器
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN108171073B (zh) 一种基于代码层语义解析驱动的隐私数据识别方法
CN104850574B (zh) 一种面向文本信息的敏感词过滤方法
CN107544982B (zh) 文本信息处理方法、装置及终端
CN111738011A (zh) 违规文本的识别方法及装置、存储介质、电子装置
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN103593412B (zh) 一种基于树形结构问题的应答方法及系统
CN108345686A (zh) 一种基于搜索引擎技术的数据分析方法及系统
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN109672586A (zh) 一种dpi业务流量识别方法、装置与计算机可读存储介质
CN110516259B (zh) 一种技术关键词的识别方法、装置、计算机设备和存储介质
CN109582954A (zh) 用于输出信息的方法和装置
CN115544240B (zh) 文本类敏感信息识别方法、装置、电子设备和存储介质
CN113076735A (zh) 目标信息的获取方法、装置和服务器
CN110880142A (zh) 一种风险实体获取方法及装置
CN115238799A (zh) 基于ai随机森林恶意流量检测方法和系统
CN115189914A (zh) 网络流量的应用程序编程接口api识别方法和装置
CN107688594B (zh) 基于社交信息的风险事件的识别系统及方法
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
CN108268443A (zh) 确定话题点转移以及获取回复文本的方法、装置
CN111325562A (zh) 粮食安全追溯系统及方法
CN111783425A (zh) 基于句法分析模型的意图识别方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190423

RJ01 Rejection of invention patent application after publication