CN113780338A

CN113780338A - 基于支持向量机的大数据分析中置信度评价方法、系统、设备及存储介质

Info

Publication number: CN113780338A
Application number: CN202110868718.2A
Authority: CN
Inventors: 李扬曦; 王佩; 刘科栋; 彭成维; 肖林焱; 王亚箭; 黄自强
Original assignee: NANJING SINOVATIO TECHNOLOGY CO LTD; National Computer Network and Information Security Management Center
Current assignee: NANJING SINOVATIO TECHNOLOGY CO LTD; National Computer Network and Information Security Management Center
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-12-10
Anticipated expiration: 2041-07-30
Also published as: CN113780338B

Abstract

本发明公开了一种基于支持向量机的大数据分析中置信度评价方法及系统，应用于互联网骚扰电话的分析领域，对骚扰电话进行评价；本方法基于支持向量机实现了自动分类的置信度评价，提出了海量数据分析领域中分类评价的解决方案，从而高效、直观对骚扰电话的分类。本方法提供对分析样本进行高效、准确的分类置信度评价。

Description

基于支持向量机的大数据分析中置信度评价方法、系统、设备及存储介质

技术领域

本发明应用于互联网骚扰电话的分析领域，涉及大数据处理、分析领域，结合机器学习改进方法，尤其是一种用于在大数据分析过程中，通过典型数据特征进行评价分类。

背景技术

近年来，随着移动互联网的高速发展，智能终端的普及率在逐年上升，互联网骚扰电话出现的频率也在急剧增加，网络环境的净化手段也在逐步提升，在海量数据的基础上，各类数据分析评价模型和分类模型也应运而生。

在传统的机器学习方法中，由于支持向量机-SVM有着良好的分类效果，而且具有良好的“鲁棒”性，基本不涉及大数定律，实现了高效的从训练样本到预测样本的“转导推理”。更重要的SVM在求解最终分类过程中，会输出向量点到最优超平面的距离，这就为我们的置信度评价方法提供了基础。

在大多数及机器学习算法都无法直接提供置信度评价方法，而无法达到量化直观的度量，更多的提供的是标签标记，已确定好分类结果，在这种情况下，就无法结合更多数据过滤算法，和对已确定的分类进行容错矫正。

在这样的背景下，需要一种方法，在现有机器学习算法下，更有效用于骚扰电话分析工程项目中。

发明内容

本发明所要解决的技术问题在于，如何能够实现了从简单的分类标签到量化、直观的置信度评价，用以达到快速、直观的对骚扰电话的分类效果。

为解决上述技术问题，本发明提供一种基于支持向量机的大数据分析中置信度评价方法，包括以下步骤：

步骤1，整理数据集特征：选取的数据集特征包括呼叫成功率、振铃造早释率、通话时长小于设定通话时长阈值的比例、被叫号码总共小于设定接通阈值次数接通占比、被叫号码地理位置离散度、区号号码，通过上述数据集特征确定特征向量；

步骤2，通过特征向量提取原始数据集，分为训练向量集和预测向量集；

步骤3，训练向量集应用拉格朗日函数，求解对偶问题；

步骤4：通过求解获得支持向量机超平面w^*.x_i+b^*＝±1，并确定超平面参数；其中w^*为向量参数，b^*为常量参数；x_i为向量点；

步骤5：确定最优分类超平面w^*.x_i+b^*＝0；

步骤6：预测向量函数

其中计算超平面(w^*，b^*)关于样本点(x_i，y_i)的几何间隔，获得几何间隔γ_i，其中x_i是向量点，y_i是分类标记，y_i取值为+1，-1；

针对预测向量中y_i取值为+1的部分向量，即该向量点x_i在超平面正的一侧，使用公式获得置信度：

且

γ_max大于0；此时

为向量点x_i在超平面正侧距离分类边界的距离；γ_max为超平面正侧距离分类边界的的最大距离；

步骤8：针对预测向量中y_i取值为-1的部分向量，即该向量点x_i在超平面负的一侧，使用公式获得置信度：

且

γ_min小于0；此时

是向量点xi在超平面负侧距离分类边界的距离；γ_min是超平面负侧距离分类边界的的最大距离；

步骤9：针对输出置信度Pi大于设定值的预测数据，标记为骚扰数据，置信度Pi小于设定值的预测数据标记为正常数据。

有益效果：本发明结合机器学习分类算法中计算置信度评价，从而高效、直观对骚扰电话的分类。从适用性上，不依赖现有数据分析平台，适用于各类编程语言；从功能性看，在海量数据分析中，缺少直接的分类算法置信度评价方法，本方法提供对分析样本进行高效、准确的分类置信度评价。

对应上述基于支持向量机的大数据分析中置信度评价方法，本发明还提供一种基于支持向量机的大数据分析中置信度评价系统，包括：

第一模块，用以整理数据集特征：选取的数据集特征包括呼叫成功率、振铃造早释率、通话时长小于10s的比例、被叫号码总共小于2次接通占比、被叫号码地理位置离散度、是否为001+区号号码等特征维度，通过上述数据集特征确定特征向量；

第二模块，用以通过特征向量提取原始数据集，分为训练向量集和预测向量集；

第三模块，用以对训练向量集应用拉格朗日函数，求解对偶问题；

第四模块：用以通过求解获得支持向量机超平面w^*.x_i+b^*＝±1，并确定超平面参数；其中w^*为向量参数，b^*为常量参数；x_i为向量点；

第五模块：用以确定最优分类超平面w^*.x_i+b^*＝0；

第六模块：用以预测向量函数

第七模块：用以针对预测向量中y_i取值为+1的部分向量，即该向量点x_i在超平面正的一侧，使用公式获得置信度：

且

γ_max大于0；此时

第八模块：用以针对预测向量中y_i取值为-1的部分向量，即该向量点x_i在超平面负的一侧，使用公式获得置信度：

且

γ_min小于0；此时

第九模块：针对输出置信度Pi大于设定值的预测数据，标记为骚扰数据；置信度Pi小于设定值的预测数据标记为正常数据。

附图说明

图1是本发明的通用置信度方法的流程实现示意图。

图2是本发明的数学实现置信度评价方法的几何间隔示意图。

具体实施方式

如图1及图2所示，为本实施例一种基于支持向量机的高可用置信度评价方法，包括如下步骤：

(1)对海量数据进行预处理，进行标准化数据输入。

(2)选取呼叫成功率，振铃造早释率，通话时长小于10s的比例，被叫号码总共只有1次接通占比，被叫号码地理位置离散度，是否为001+区号号码等特征维度，挑选机器学习特征维度，并形成特征向量，为后续模型训练做准备。

(3)确定分类标签，并将标签与特征向量进行关联，形成标签-特征向量。

(4)将标签-特征向量做输入，通过支持向量机算法进行模型训练，得到超平面分类模型，确定w^*.x_i+b^*＝0，并确定超平面参数,向量参数w^*，常量参数b^*。

(5)组织步骤(2)中的特征向量，生成预测数据向量集，并使用步骤(4)中参数w^*，b^*，通过函数

进行预测计算，输出预测结果。

(6)通过步骤(5)预测结果中，筛选出正侧几何间隔最大值、负侧几何间隔最小值。

(7)通过步骤(5)中生成的几何间隔预测结果进行逐条几何间隔计算。

(8)将步骤(6)和步骤(7)的结果作为输入，并通过置信度评价方法计算每个特征向量的置信度评价。

具体的，用以针对预测向量中y_i取值为+1的部分向量，即该向量点x_i在超平面正的一侧，使用公式获得置信度：

且

γ_max大于0；此时

γ_max针对每次训练样本动态更新。

用以针对预测向量中y_i取值为-1的部分向量，即该向量点x_i在超平面负的一侧，使用公式获得置信度：

且

γ_min小于0；此时

γ_min针对每次训练样本动态更新。

(9)针对输出置信度Pi大于50的预测数据，标记为骚扰数据，置信度Pi小于50的预测数据标记为正常数据，输出置信度评价到数据库中，并输出骚扰电话分类结果。

如图2所示，展示本发明的核心原理，其实施步骤如下：

1)选取呼叫成功率，振铃造早释率，通话时长小于10s的比例，被叫号码总共只有1次接通占比，被叫号码地理位置离散度，是否为001+区号号码等特征维度，挑选机器学习特征维度，并形成特征向量。

2)组织特征向量，生成预测数据向量集，并通过函数

进行预测计算，输出预测向量的几何间隔。

3)通过步骤2)预测结果中，筛选出正侧几何间隔最大值、负侧几何间隔最小值。

4)通过步骤2)中生成的几何间隔预测结果进行逐条几何间隔处理。

5)将步骤3)和步骤4)的结果作为输入，并通过置信度评价方法

和

计算每个特征向量的置信度评价。

6)输出置信度Pi大于50的预测数据，标记为骚扰，置信度Pi小于50的预测数据标记为正常,输出置信度评价到数据库中，并输出骚扰电话分类结果。

本发明还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述基于支持向量机的高可用置信度评价方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述基于支持向量机的高可用置信度评价方法的步骤。

对应上述提取网络设备指纹的方法，本发明还提供一种提取网络设备指纹的系统的技术方案，包括：

第一模块，用以整理数据集特征：选取的数据集特征包括呼叫成功率、振铃造早释率、通话时长小于设定通话时长阈值的比例、被叫号码总共小于设定接通阈值次数接通占比、被叫号码地理位置离散度、区号号码，通过上述数据集特征确定特征向量；

第五模块：用以确定最优分类超平面w^*.x_i+b^*＝0；

第六模块：用以预测向量函数

且

γ_max大于0；

且

γ_min小于0；

第九模块：输出置信度Pi大于50的预测数据，标记为骚扰数据，置信度Pi小于50的预测数据标记为正常数据，输出置信度评价到数据库中，并输出骚扰电话分类结果。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所提及方法和系统的前提下进行的改进，这些改进也应视为本发明的保护范围。

Claims

1.一种基于支持向量机的大数据分析中置信度评价方法，其特征在于，包括以下步骤：

步骤3，训练向量集应用拉格朗日函数，求解对偶问题；

步骤5：确定最优分类超平面w^*.x_i+b^*＝0；

步骤6：预测向量函数

步骤7：针对预测向量中y_i取值为+1的部分向量，即该向量点x_i在超平面正的一侧，使用公式获得置信度：

且

γ_max大于0；此时

且

γ_min小于0；此时

2.根据权利要求1所述的大数据分析中置信度评价方法，其特征在于，步骤1中，通话时长阈值为通话时长小于10s，设定接通阈值次数为2次，区号号码为是否为001+区号号码等特征维度。

3.根据权利要求1或2所述的大数据分析中置信度评价方法，其特征在于，用以对拨打电话是否为骚扰电话的评价。

4.一种基于支持向量机的大数据分析中置信度评价系统，其特征在于，包括：

第五模块：用以确定最优分类超平面w^*.x_i+b^*＝0；

第六模块：用以预测向量函数

且

γ_max大于0；此时

且

γ_min小于0；此时

5.根据权利要求4所述的大数据分析中置信度评价系统，其特征在于，第一模块中，通话时长阈值为通话时长小于10s，设定接通阈值次数为2次，区号号码为是否为001+区号号码等特征维度。

6.根据权利要求4或5所述的大数据分析中置信度评价系统，其特征在于，用以对拨打电话是否为骚扰电话的评价。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。