CN108154177A

CN108154177A - 业务识别方法、装置、终端设备及存储介质

Info

Publication number: CN108154177A
Application number: CN201711409689.3A
Authority: CN
Inventors: 梁勇华; 郑涛; 张渊; 戴晶华; 严俏艳; 张燕君
Original assignee: GUANGDONG EASTONE TECHNOLOGY Co Ltd
Current assignee: GUANGDONG EASTONE TECHNOLOGY Co Ltd
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2018-06-12
Anticipated expiration: 2037-12-20
Also published as: CN108154177B

Abstract

本发明公开了一种业务识别方法、装置、终端设备及存储介质，所述业务识别方法包括：获取待识别业务数据；根据预先设定的识别元素，提取所述待识别业务数据中对应识别元素的识别关键词；对所述识别关键词进行矩阵化处理，得到所述待识别业务数据矩阵；采用KNN算法建立业务识别模型，判断所述待识别业务数据所属的业务：计算所述待识别业务数据矩阵和预先建立的样本数据库中的每一条样本数据矩阵的哈曼顿距离；取曼哈顿距离最小的K条样本数据，所述K条样本数据中频数最高的业务则为所述待识别业务数据所属的业务。采用本发明实施例能够对业务进行自主识别，提高业务识别的效率，降低业务识别的成本。

Description

业务识别方法、装置、终端设备及存储介质

技术领域

本发明涉及移动互联网业务识别技术领域，尤其涉及一种业务识别方法、装置、终端设备以及存储介质。

背景技术

业务识别是移动互联网行业一项非常重要的课题，它是用户网络行为研究、运营商智能管道等课题的基础。

现有的移动互联网业务识别方法，均基于报文检测或深度包检测技术，其基本原理是测试分析已知业务数据报文的TCP/IP五元组、DNS、HOST等识别元素，建立识别元素的特征与业务的关联库，根据未知的网络数据包与关联库的匹配度，实现业务识别。但现有的业务识别技术需要进行大量的人工测试，以得到样本数据报文的识别元素的特征与业务的关联库，测试成本高，识别效率低。

发明内容

本发明实施例提供一种业务方法、装置、终端设备以及存储介质，能有效解决现有技术测试成本高，识别效率低的技术问题。

本发明一实施例提供一种业务识别方法，包括：

获取待识别业务数据；

根据预先设定的识别元素，提取所述待识别业务数据中对应识别元素的识别关键词；

对所述识别关键词进行矩阵化处理：以行代表待识别业务数据，以每一列代表一个样本关键词，根据所述待识别业务数据包含的识别关键词，对所述样本关键词所在的列进行取值，得到所述待识别业务数据矩阵A(X₁,X₂,…,X_n)；其中，所述样本关键词是从预先建立的样本数据库中的所有样本数据所对应的识别元素预先提取出来的。

采用KNN算法建立业务识别模型，判断所述待识别业务数据所属的业务：计算所述待识别业务数据矩阵A(X₁,X₂,…,X_n)和预先建立的样本数据库中的每一条样本数据矩阵B(Y₁,Y₂,…,Y_n)的哈曼顿距离:

dist(A,B)＝|X₁-Y₁|+|X₂-Y₂|+…+|X_n-Y_n|

取曼哈顿距离最小的K条样本数据，所述K条样本数据中频数最高的业务则为所述待识别业务数据所属的业务；

其中，所述X_n和Y_n分别表示所述待识别业务数据和所述每一条样本数据是否包含“样本关键词n”的取值，若包含“样本关键词n”，则取值为a，若不包含“样本关键词n”，则取值为b，且a≠b。

优选地，所述业务识别方法，还包括：

取所述待识别业务数据矩阵A(X₁,X₂,…,X_n)和与其最邻近的一条样本数据矩阵N(Z₁,Z₂,…,Z_n)；

计算识别结果的校验指数J：

J＝dist(A)+dist(N)-dist(A,N)

其中，dist(A)＝X₁+X₂+···+X_n；dist(N)＝Z₁+Z₂+···+Z_n；

dist(A,N)＝|X₁-Z₁|+|X₂-Z₂|+…+|X_n-Z_n|；

若校验指数J大于等于阈值T，则识别结果校验通过，完成识别；若J小于阈值T，则识别结果校验不通过，转入人工识别；

其中，所述阈值T为所述待识别业务数据和与其最邻近的一条样本数据包含共同样本关键词的个数的两倍。

优选地，所述识别元素包括TCP/IP五元组、HOST、URL、UserAgent、Referuri、Cookie、Request Method、Connection、Accept、Server和Content-Type中的一种或多种。

优选地，所述K取值为5，7，9或11。

与现有技术相比，本发明实施例公开的业务识别方法通过对待识别业务数据中对应识别元素的识别关键词进行矩阵化处理，然后通过KNN算法建立业务识别模型，判断所述待识别业务数据所属的业务，实现了业务的自主识别，提高了业务识别效率，降低业务识别成本。

本发明另一实施例对应提供了一种业务识别装置，包括：

数据获取模块，用于获取待识别业务数据；

关键词提取模块，用于根据预先设定的识别元素，提取所述待识别业务数据中对应识别元素的识别关键词；

矩阵化模块，用于对所述识别关键词进行矩阵化处理：以行代表所述待识别业务数据，以每一列代表一个样本关键词，根据所述待识别业务数据包含的识别关键词，对所述样本关键词所在的列进行取值，得到所述待识别业务数据矩阵A(X₁,X₂,…,X_n)；其中，所述样本关键词是从预先建立的样本数据库中的所有样本数据所对应的识别元素预先提取出来的；

KNN建模模块，用于采用KNN算法建立业务识别模型，判断所述待识别业务数据所属的业务：计算所述待识别业务数据矩阵A(X₁,X₂,…,X_n)和预先建立的样本数据库中的每一条样本数据矩阵B(Y₁,Y₂,…,Y_n)的哈曼顿距离:

dist(A,B)＝|X₁-Y₁|+|X₂-Y₂|+…+|X_n-Y_n|

优选地，所述业务识别装置还包括：

识别校验模块，用于取所述待识别业务数据矩阵A(X₁,X₂,…,X_n)和与其最邻近的一条样本数据矩阵N(Z₁,Z₂,…,Z_n)；

计算识别结果的校验指数J：

J＝dist(A)+dist(N)-dist(A,N)

其中，dist(A)＝X₁+X₂+···+X_n；dist(N)＝Z₁+Z₂+···+Z_n；

dist(A,N)＝|X₁-Z₁|+|X₂-Z₂|+…+|X_n-Z_n|；

若所述校验指数J大于等于阈值T，则识别结果校验通过，完成识别；若所述校验指数J小于阈值T，则识别结果校验不通过，转入人工识别；

与现有技术相比，本发明实施例公开的业务识别装置通过矩阵化模块对对待识别业务数据中对应识别元素的识别关键词进行矩阵化处理，然后通过KNN建模模块建立业务识别模型，判断所述待识别业务数据所属的业务，实现了业务的自主识别，提高了业务识别效率，降低业务识别成本。

本发明另一实施例提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述发明实施例所述的业务识别方法。

本发明另一实施例提供了一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行上述发明实施例所述的业务识别方法。

附图说明

图1是本发明第一实施例提供的一种业务识别方法的流程示意图。

图2是本发明第二实施例提供的一种业务识别方法的流程示意图。

图3是本发明第三实施例提供的一种业务识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明一实施例提供的一种业务识别方法的流程示意图，包括：

S101、获取待识别业务数据。

S102、根据预先设定的识别元素，提取所述待识别业务数据中对应识别元素的识别关键词。

本实施例在传统包检测的基础上，增加了大量应用层的识别元素；优选地，所述识别元素包括TCP/IP五元组、HOST、URL、UserAgent、Referuri、Cookie、Request Method、Connection、Accept、Server和Content-Type，但不限于此。

在本实施例中，提取所述待识别业务数据中对应识别元素的识别关键词包括对所述识别元素依次进行分词和剔除停用词处理，即以符号作为分隔符，剔除识别元素中的“http”、“www”、“com”、“cn”和无规律的长字符串等，剩下的若干字符串则为所述识别元素对应的识别关键词。

在本实施例中，一个识别元素可以对应多个识别关键词，但若某个识别元素中所含信息量不足时，经过分词和剔除停用词处理后则不会得到识别关键词。例如，所述待识别业务数据的所述识别元素为：“Host：news.ifeng.com；URL：http://news.ifeng.com/a/20171117/53328994_0.shtml；Request Method：GET”，经过分词和剔除停用词处理后得到的识别关键词为：“news”、“ifeng”、“shtml”、“GET”。

S103、对所述识别关键词进行矩阵化处理：以行代表所述待识别业务数据，以每一列代表一个样本关键词，根据所述待识别业务数据包含的识别关键词，对所述样本关键词所在的列进行取值，得到所述待识别业务数据矩阵A(X₁,X₂,…,X_n)；其中，所述样本关键词是从预先建立的样本数据库中的所有样本数据所对应的识别元素预先提取出来的。

在本实施例中，对于从预先建立的样本数据库中的所有样本数据所对应的识别元素预先提取出来的相同的样本关键词仅取用一次，即进行矩阵化处理时，所述矩阵的每一列所代表的样本关键词互不相同。

在本实施例中，将所述样本关键词分别记为“样本关键词1、样本关键词2，···，样本关键词n”，以行代表所述待识别业务数据，以每一列代表一个样本关键词；若所述待识别业务数据包含“样本关键词1”，则在所述“样本关键词1”所对应列取值为a，否则取值为b,且a≠b；依次按照上述方法，完成“样本关键词2”至“样本关键词n”的对应列的取值，得到所述待识别业务数据矩阵A(X₁,X₂,…,X_n)。所述的X_n则表示所述待识别业务数据是否包含“样本关键词n”的取值。

S104、采用KNN算法建立业务识别模型，判断所述待识别业务数据所属的业务：计算所述待识别业务数据矩阵A(X₁,X₂,…,X_n)和预先建立的样本数据库中的每一条样本数据矩阵B(Y₁,Y₂,…,Y_n)的哈曼顿距离:

dist(A,B)＝|X₁-Y₁|+|X₂-Y₂|+…+|X_n-Y_n|

其中，所述X_n和Y_n分别表示所述待识别业务数据和所述每一条样本数据是否包含“样本关键词n”的取值，若包含“样本关键词n”，则取值为a，若不包含“样本关键词n”，则取值为b,且a≠b。

在本实施例中，所述每一条样本数据矩阵B(Y₁,Y₂,…,Y_n)预先创建，即以行代表每一条样本数据，以每一列代表一个样本关键词；若所述每一条样本数据包含“样本关键词1”，则在所述“样本关键词1”所对应列取值为a，否则取值为b，且a≠b，依次完成所有样本关键词的对应列的取值即可。

在本实施例中，所述a和b为两个互不相等的自然数，所述a和b可分别取值为1和0，也可以分别取值为2和1，本发明实施例不进行具体限制。

所述KNN算法即为K最近邻分类算法，所谓K近邻即为K个最邻近的样本。KNN算法的核心思想是：属于同一类别的样本具有相似的特征，在特征空间中的分布具有同一性，因此对于一个未知类别的样本，可以依据与其最相邻的K个样本的类别进行分类。所述曼哈顿距离是一种衡量两个数值向量彼此相异度的度量标准，两点之间的曼哈顿距离是其坐标的绝对差之和。

在本实施例中，所述曼哈顿距离最小的K条样本数据即为待识别业务数据的K个最邻近，所述K条样本数据中频数最高的业务则为所述待识别业务数据所属的业务。

需要说明的是，所述KNN算法中的K通常根据数据情况和模型验证结果确定的不同的奇数，在本实施例中，所述K取值为5，7，9或11，但不限于此。

本发明实施例提供的一种业务识别方法通过对待识别业务数据中对应识别元素的识别关键词进行矩阵化处理，然后通过KNN算法建立业务识别模型，以识别所述待识别业务数据所属的业务，实现了业务的自主识别，提高了业务识别效率，降低业务识别成本。

请参阅图2，为本发明第二实施例提供的一种业务识别方法的流程示意图，本发明的第二实施例在第一实施例的基础上增加了如下步骤：

S205、取所述待识别业务数据矩阵A(X₁,X₂,…,X_n)和与其最邻近的一条样本数据矩阵N(Z₁,Z₂,…,Z_n)；

计算识别结果的校验指数J：

J＝dist(A)+dist(N)-dist(A,N)

其中，dist(A)＝X₁+X₂+···+X_n；dist(N)＝Z₁+Z₂+···+Z_n；

dist(A,N)＝|X₁-Z₁|+|X₂-Z₂|+…+|X_n-Z_n|；

在本实施例中，所述Z_n表示与所述待识别业务数据矩阵最邻近的一条样本数据是否包含“样本关键词n”的取值，若包含“样本关键词n”，则在“样本关键词n”所对应列取值为a，否则取值为b，且a≠b。

本发明实施例进一步基于曼哈顿距离计算识别结果的验证指数，验证待识别业务数据的业务识别结果，保证了业务识别结果的合理性和准确性。

参见图3，是本发明第三实施例提供的一种业务识别装置300的结构示意图，包括：

数据获取模块310，用于获取待识别业务数据。

关键词提取模块320，用于根据预先设定的识别元素，提取所述待识别业务数据中对应识别元素的识别关键词。

矩阵化模块330，用于对所述识别关键词进行矩阵化处理：以行代表所述待识别业务数据，以每一列代表一个样本关键词，根据所述待识别业务数据包含的识别关键词，对所述样本关键词所在的列进行取值，得到所述待识别业务数据矩阵A(X₁,X₂,…,X_n)；其中，所述样本关键词是从预先建立的样本数据库中的所有样本数据所对应的识别元素预先提取出来的。

KNN建模模块340，用于采用KNN算法建立业务识别模型，判断所述待识别业务数据所属的业务：计算所述待识别业务数据矩阵A(X₁,X₂,…,X_n)和预先建立的样本数据库中的每一条样本数据矩阵B(Y₁,Y₂,…,Y_n)的哈曼顿距离:

dist(A,B)＝|X₁-Y₁|+|X₂-Y₂|+…+|X_n-Y_n|

在本实施例中，所述识别元素包括TCP/IP五元组、HOST、URL、UserAgent、Referuri、Cookie、Request Method、Connection、Accept、Server和Content-Type，但不限于此。

在本实施例中，所述关键词提取模块320对所述识别元素依次进行分词和剔除停用词处理，即以符号作为分隔符，剔除识别元素中的“http”、“www”、“com”、“cn”和无规律的长字符串等，剩下的若干字符串则为所述识别元素对应的识别关键词。

在本实施例中，所述K取值为5，7，9或11，但不限于此。

优选地，所述业务识别装置300还包括：

计算识别结果的校验指数J：

J＝dist(A)+dist(N)-dist(A,N)

其中，dist(A)＝X₁+X₂+···+X_n；dist(N)＝Z₁+Z₂+···+Z_n；

dist(A,N)＝|X₁-Z₁|+|X₂-Z₂|+…+|X_n-Z_n|；

需要说明的是，所述a和b为两个互不相等的自然数，所述a和b可分别取值为1和0，也可以分别取值为2和1，本发明实施例不进行具体限制。

本发明实施例提供的一种业务识别装置通过矩阵化模块330对待识别业务数据中对应识别元素的识别关键词进行矩阵化处理，然后通过KNN算法建立业务识别模型，以识别所述待识别业务数据所属的业务，实现了业务的自主识别，提高了业务识别效率，降低业务识别成本；本发明实施例还通过识别校验模块，基于曼哈顿距离计算识别结果的验证指数，验证待识别业务数据的业务识别结果，保证了业务识别结果的合理性和准确性。

本发明第四实施例提供了一种终端设备，所述终端设备包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述任意实施例所述的业务识别方法。

本发明第五实施例提供了一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行上述任意实施例所述的业务识别方法。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种业务识别方法，其特征在于，包括：

获取待识别业务数据；

对所述识别关键词进行矩阵化处理：以行代表所述待识别业务数据，以每一列代表一个样本关键词，根据所述待识别业务数据包含的识别关键词，对所述样本关键词所在的列进行取值，得到所述待识别业务数据矩阵A(X₁，X₂，...，X_n)；其中，所述样本关键词是从预先建立的样本数据库中的所有样本数据所对应的识别元素预先提取出来；

采用KNN算法建立业务识别模型，判断所述待识别业务数据所属的业务：计算所述待识别业务数据矩阵A(X₁，X₂，...，X_n)和预先建立的样本数据库中的每一条样本数据矩阵B(Y₁，Y₂，...，Y_n)的哈曼顿距离：

dist(A，B)＝|X₁-Y₁|+|X₂-Y₂|+…+|X_n-Y_n|

2.根据权利要求1所述的业务识别方法，其特征在于，还包括：

取所述待识别业务数据矩阵A(X₁，X₂，...，X_n)和与其最邻近的一条样本数据矩阵N(Z₁，Z₂，...，Z_n)；

计算识别结果的校验指数J：

J＝dist(A)+dist(N)-dist(A，N)

其中，dist(A)＝X₁+X₂+…+X_n；dist(N)＝Z₁+Z₂+…+Z_n；

dist(A，N)＝|X₁-Z₁|+|X₂-Z₂|+…+|X_n-Z_n|；

3.根据权利要求1所述的业务识别方法，其特征在于：所述识别元素包括TCP/IP五元组、HOST、URL、UserAgent、Referuri、Cookie、Request Method、Connection、Accept、Server和Content-Type中的一种或多种。

4.根据权利要求1所述的业务识别方法，其特征在于：所述K取值为5，7，9或11。

5.一种业务识别装置，其特征在于，包括：

数据获取模块，用于获取待识别业务数据；

矩阵化模块，用于对所述识别关键词进行矩阵化处理：以行代表所述待识别业务数据，以每一列代表一个样本关键词，根据所述待识别业务数据包含的识别关键词，对所述样本关键词所在的列进行取值，得到所述待识别业务数据矩阵A(X₁，X₂，...，X_n)；其中，所述样本关键词是从预先建立的样本数据库中的所有样本数据所对应的识别元素预先提取出来的；

KNN建模模块，用于采用KNN算法建立业务识别模型，判断所述待识别业务数据所属的业务：计算所述待识别业务数据矩阵A(X₁，X₂，...，X_n)和预先建立的样本数据库中的每一条样本数据矩阵B(Y₁，Y₂，...，Y_n)的哈曼顿距离：

dist(A，B)＝|X₁-Y₁|+|X₂-Y₂|+…+|X_n-Y_n|

6.根据权利要求5所述的业务识别装置，其特征在于，还包括：

识别校验模块，用于取所述待识别业务数据矩阵A(X₁，X₂，...，X_n)和与其最邻近的一条样本数据矩阵N(Z₁，Z₂，...，Z_n)；

计算识别结果的校验指数J：

J＝dist(A)+dist(N)-dist(A，N)

其中，dist(A)＝X₁+X₂+…+X_n；dist(N)＝Z₁+Z₂+…+Z_n；

dist(A，N)＝|X₁-Z₁|+|X₂-Z₂|+…+|X_n-Z_n|；

7.一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述的业务识别方法。

8.一种存储介质，其特征在于，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如权利要求1至4中任意一项所述的业务识别方法。