CN114117047A

CN114117047A - 一种基于c4.5算法对非法语音进行分类的方法及系统

Info

Publication number: CN114117047A
Application number: CN202111431407.6A
Authority: CN
Inventors: 齐庆庆; 丁正; 顾晓东; 韩慎勇; 庄承源; 张锡林; 杨威
Original assignee: Shanghai Xinfang Software Co ltd; Shanghai Cintel Intelligent System Co ltd
Current assignee: Shanghai Xinfang Software Co ltd; Shanghai Cintel Intelligent System Co ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-01

Abstract

本申请公开了一种基于C4.5算法对非法语音进行分类的方法及系统，本申请实施例对通信网络中的语音进行录音后转换为语音文本，采用数据特征工程方式对语音文本进行特征数据的提取；将从语音文本中提取的特征数据输入到基于C4.5算法的非法语音识别模型中，得到所述语音的识别结果，所述语音的识别结果包括所述语音是否为非法语音及非法语音的类别。这样，本申请实施例就可以准确识别出通信网络中的非法语音的类别。

Description

一种基于C4.5算法对非法语音进行分类的方法及系统

技术领域

本发明涉及计算机人工智能技术领域，特别涉及一种基于C4.5算法对非法语音进行分类的方法及系统。

背景技术

随着互联网时代的高速发展，人们生活也发生了巨大的变化。用户之间可以采用用户终端实现语音通话或短信交互，多种多样的应用也进入到人们的视野中。但也给我们生活带来便利的同时，也产生了很多潜在的危险，用户个人隐私在互联网中的泄露有可能被诈骗分子有机可乘，甚至导致了个人财产损失。近年来，电信诈骗成爆发式增长，诈骗手法层出不穷，诈骗中所使用的技术手段也不断升级。诈骗分子通过语音通话的方式对用户进行诈骗，给用户带来了很多损失。在这种情况下，需要对网络中的语音进行识别，从中识别出非法语音，并针对识别出的非法语音进行诸如屏蔽或提醒用户的相关处理，以减少或避免用户的损失。

因此，如何准确识别出通信网络中的非法语音，特别识别出通信网络中的非法语音的类别是一个亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供一种基于C4.5算法对非法语音进行分类的方法及系统，能够准确识别出通信网络中的非法语音的类别。

本申请实施例是这样实现的：

一种基于C4.5算法对非法语音进行分类的方法，所述方法包括：

对通信网络中的语音进行录音后转换为语音文本，采用数据特征工程方式对语音文本进行特征数据提取；

将从语音文本提取的特征数据输入到训练得到的基于C4.5算法的非法语音识别模型中，得到所述语音的识别结果，包括所述语音是否为非法语音及非法语音的类别。

较佳地，所述采用数据特征工程方式对语音文本进行特征数据提取包括：

对语音文本进行词语预处理及进行词语分词；

对语音文本中经过分词的词语进行词性标注、同义词标注、词语概念标注及词语角色标注；

根据语音文本的词语标注，从语音文本中选择词语特征，得到提取的特征数据。

较佳地，所述训练得到基于C4.5算法的非法语音识别模型包括：

从通信网络中的服务器中获取得到语音文本，该语音文本是将录音语音进行文本转换后得到的；

采用数据特征工程方式对语音文本进行特征数据的提取；

将从语音文本中提取的特征数据输入到基于C4.5算法的非法语音识别模型中进行训练；

对训练得到的基于C4.5算法的非法语音识别模型采用十折交叉验证方式进行指标评估，确定训练得到的基于C4.5算法的非法语音识别模型满足所设置的评估指标；

训练得到的基于C4.5算法的非法语音识别模型设置在通信网络中的网络侧，对通信网络中的语音进行非法语音的分类处理。

较佳地，所述从通信网络中的服务器中获取得到语音文本包括：

将录音语音进行文本转换后得到语音文本是由设置在通信网络中的语音转写服务器完成的，并加密存储到服务器指定的目录下；

从服务器指定的目录下获取得到加密存储的语音文本。

较佳地，所述采用数据特征工程方式对语音文本进行特征数据的提取包括：

语音文本进行词语预处理及进行词语分词；

根据语音文本的词语标注，从语音文本中选择词语特征，作为提取的特征数据。

较佳地，所述从语音文本中选择词语特征采用词频-逆向文件词频TF-IDF方式进行。

较佳地，所述将从语音文本中提取的特征数据输入到基于C4.5算法的非法语音识别模型中进行训练包括：

对各个特征数据进行信息增益率计算，得到各个特征数据的信息增益率值；

基于各个特征数据的信息增益率数值选择节点，递归创建决策树；

对得到的决策树进行剪枝处理后，得到语音文本的识别结果。

较佳地，所述对训练得到的基于C4.5算法的非法语音识别模型采用十折交叉验证方式进行指标评估包括：

将精准率、召回率或/和F1-score指标作为评估指标，进行指标评估。

一种基于C4.5算法对非法语音进行分类的系统，包括：获取单元、数据特征工程处理单元及识别单元，其中，

获取单元，用于对通信网络中的语音进行录音后转换为语音文本；

数据特征工程处理单元，用于采用数据特征工程方式对语音文本进行特征数据提取；

识别单元，用于将从语音文本提取的特征数据输入到训练得到的基于C4.5算法的非法语音识别模型中，得到所述语音的识别结果，包括所述语音是否为非法语音及非法语音的类别。

较佳地，所述数据特征工程处理单元，还用于对语音文本进行词语预处理及进行词语分词；对语音文本中经过分词的词语进行词性标注、同义词标注、词语概念标注及词语角色标注；根据语音文本的词语标注，从语音文本中选择词语特征，得到提取的特征数据。

如上所见，本申请实施例对通信网络中的语音进行录音后转换为语音文本，采用数据特征工程方式对语音文本进行特征数据的提取；将从语音文本中提取的特征数据输入到基于C4.5算法的非法语音识别模型中，得到所述语音的识别结果，所述语音的识别结果包括所述语音是否为非法语音及非法语音的类别。这样，本申请实施例就可以准确识别出通信网络中的非法语音的类别。

附图说明

图1为本申请实施例提供的一种基于C4.5算法对非法语音进行分类的方法流程图；

图2为本申请实施例提供的训练基于C4.5算法的非法语音识别模型的方法流程图；

图3为本申请实施例提供的一种基于C4.5算法对非法语音进行分类的系统结构示意图；

图4为本申请实施例具体例子提供的二叉树结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面以具体实施例对本申请的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

从背景技术可以看出，准确识别出通信网络中的非法语音，特别是准确识别出通信网络中的非法语音类别，是进行后续的针对识别出的非法语音进行诸如屏蔽或提醒用户的相关处理，以减少或避免用户的损失的前提条件。因此，本发明实施例对通信网络中的语音进行录音后转换为语音文本，采用数据特征工程方式对语音文本进行特征数据提取；将从语音文本中提取的特征数据输入到基于C4.5算法的非法语音识别模型中，得到所述语音的识别结果，所述语音的识别结果包括所述语音是否为非法语音及非法语音的类别。

本申请基于从通信网络中获取的已有录音语音的文本文件，采用数据特征工程方式处理文本文件后提取特征数据，并采用机器学习方式基于提取的特征数据训练得到非法语音识别模型，从而实现对通信网络中的录音语音进行非法语音识别及非法语音分类的自动化，本申请的方案既可以显著提高非法语音的分类准确性，又能降低工作人员对非法语音分类的识别工作量。

图1为本申请实施例提供的一种基于C4.5算法对非法语音进行分类的方法流程图，其具体步骤包括：

步骤101、对通信网络中的语音进行录音后转换为语音文本，采用数据特征工程方式对语音文本进行特征数据提取；

步骤102、将从语音文本提取的特征数据输入到训练得到的基于C4.5算法的非法语音识别模型中，得到所述语音的识别结果，包括所述语音是否为非法语音及非法语音的类别。

在该方法中，所述采用数据特征工程方式对语音文本进行特征数据提取包括：

对语音文本进行词语预处理及进行词语分词；

在该方法中，为了实现步骤102，需要对基于C4.5算法的非法语音识别模型进行训练，以得到训练好的非法语音识别模型。

图2为本申请实施例提供的训练基于C4.5算法的非法语音识别模型的方法流程图，其具体步骤包括：

步骤201、从通信网络中的服务器中获取得到语音文本，该语音文本是将录音语音进行文本转换后得到的；

在本步骤中，将获得的语音文本作为训练样本；

步骤202、采用数据特征工程方式对语音文本进行特征数据的提取；

步骤203、将从语音文本中提取的特征数据输入到基于C4.5算法的非法语音识别模型中进行训练；

步骤204、对训练得到的基于C4.5算法的非法语音识别模型采用十折交叉验证方式进行指标评估，确定训练得到的基于C4.5算法的非法语音识别模型满足所设置的评估指标；

在本步骤中，当所述非法语音识别模型训练结束后，结合业务及多种模型评估指标，评估所述非法语音识别模型的上线可行性，对满足业务要求的模型实施上线运行，实现自动化的非法语音分类；

步骤205、将训练得到的基于C4.5算法的非法语音识别模型设置在通信网络中的网络侧，对通信网络中的语音进行非法语音的分类处理。

在图2所述的方法中，对通信网络中的语音进行实时录音，得到录音文件及将录音文件转换为语音文本是由设置在通信网络中的语音转写服务器完成的。在这里，一般是对通信网络中的疑似非法语音拦截后处理。该语音文本还设置有标签数据，标识语音文本的是否为语音的疑似非法语音特征。

在图2所述的方法中，将语音文本存储在通信网络中的服务器下的指定目录下，存储结构为语音文本的本体内容及标签数据，0表示正常语音，1表示非法语音。

在该方法中，在步骤201中，为了保护用户的隐私权，服务器存储的语音文本采用加密方式进行存储。

在该方法中的步骤202，所述采用数据特征工程方式是用一系列的工程化的方式从原始数据中筛选出更好的特征数据，用以提升非法语音识别模型的训练效果。所述采用数据特征工程对语音文本进行特征数据提取包括：

对语音文本进行词语预处理及进行词语分词；

在这里，从语音文本中选择词语特征采用词频-逆向文件词频(TF-IDF)方式进行。

具体地说，数据特征工程方式是将原始数据转换为非法语音识别模型在训练时能够识别的特征数据，而这些特征又能很好的承载原始数据，且利用数据特征工程方式后的特征数据进行训练得到的非法语音识别模型的表现达到性能最优。数据特征工程方式的具体功能包括：

1、对词语分词；对语音文本中的词语采用分词工具进行分词，并去除其中的停用词；

2、词性标注：对分词后的词语的词性标注，词性标注的目的是为了后续进行特征数据过滤进行准备；

3、同义词标注：对意义相同及相近的词语标注，这对非法语音识别模型的预测及分类的准确性有重要意义；

4、词语概念标注：也称为概念的抽象，将不同的表达抽象为相同含义，如将意大利面与牛排抽象为西餐餐点；

5、选择词语特征：采用TF-IDF方式选择词语特征，TF即词频，是某词语出现的次数除以该文件总词语数得到的值，IDF即逆向文件词频，是总文件数目除以包含该词语文件的数目，再将得到的商取对数得到的值，而TF与IDF乘积用以评估每个词语对于一个文本集或一个词库重要程度。词语的重要性与它在文本中出现的次数成正比，与它在词库中出现的频率成反比。

TF-IDF方式采用的公式为：

tfidf_i,j＝df_i,j×idf_i (3)

其中，公式(1)中，分子n_i,j表示词语t_i在文本d_j中出现次数；其中t_i表示文本中词语数量，d_j表示文本个数；分母∑_kn_k,j表示文本d_j中所有词语的出现次数之和；tf_i,j表示词频；公式(2)中，分子|D|表示语料库中的文本总数；分母|{j：t_i∈d_i}|表示包含词语t_i的文本数目，其中t_i表示文本中词语数量，d_j表示文本个数，idf_i表示逆向文本频率。

在该方法中，所述非法语音识别模型基于C4.5算法，是因为该算法易于理解且运行速度快。C4.5是决策树算法的一种。决策树算法作为一种分类算法其主要的优点为：使得基于C4.5算法训练得到的非法语音识别模型具有可读性，计算量小，分类速度快。基于C4.5算法的非法语音识别模型的好处包括：能够处理缺失值；生成规则易于理解；该算法通过剪枝，能避免过拟合；生成的二叉树能清晰显示哪些字段比较重要。C4.5算法实际上是应用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5算法的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的特征数据进行分类。

在本申请实施例中，基于C4.5算法的非法语音识别模型的执行过程包括：

首先，对各个特征数据进行信息增益率计算，得到各个特征数据的信息增益率值。

其中，基于C4.5算法的非法语音识别模型采用的信息增益率公式为：

其中，D表示总体训练样本，a表示选择的特征数据，Gain(D,a)表示计算a特征数据的信息增益，IV(a)表示a特征数据的纯度，根据经验值取值。

其次，基于各个特征数据的信息增益率数值选择节点，递归创建决策树，也就是创建二叉树。

最后，对得到的决策树进行剪枝处理后，得到语音文本的识别结果。

决策树剪枝公式如下所示：

其中，e表示该节点的错误误差；N表示该节点有多少笔数据；E表示该节点预测错误笔数；

表示该节点的错误率；字母Z在该公式中取经验值0.69。

在训练了基于C4.5算法训练得到的非法语音识别模型之后，需要对训练得到的基于C4.5算法的非法语音识别模型进行指标评估。本申请实施例使用精准率、召回率及F1-score指标对基于C4.5算法训练得到的非法语音识别模型进行评估，其计算公式分别如下述的公式所示。

Precision(精准率)＝TP/(TP+FP) (6)

Recall(召回率)＝TP/(TP+FN) (7)

F1-score＝2*Precision*Recall/(Precision+Recall) (8)

其中，TP代表样本为正，预测结果为正的个数，FP代表样本为负，预测结果为正的个数，FN代表样本为正，预测结果为负的个数。

这样，就可以计算得到评估值是否满足所设置的评估指标，如果满足，就可以将基于C4.5算法训练得到的非法语音识别模型部署到通信网络中的网络侧中，如果不满足，则可以对基于C4.5算法训练得到的非法语音识别模型继续训练。

图3为本申请实施例提供的一种基于C4.5算法对非法语音进行分类的系统结构示意图，包括：获取单元、数据特征工程处理单元及识别单元，其中，

在该系统中，所述数据特征工程处理单元，还用于对语音文本进行词语预处理及进行词语分词；对语音文本中经过分词的词语进行词性标注、同义词标注、词语概念标注及词语角色标注；根据语音文本的词语标注，从语音文本中选择词语特征，得到提取的特征数据。

在该系统中，识别单元，还用于所述训练得到基于C4.5算法的非法语音识别模型包括：从通信网络中的服务器中获取得到语音文本，该语音文本是将录音语音进行文本转换后得到的；采用数据特征工程方式对语音文本进行特征数据的提取；将从语音文本中提取的特征数据输入到基于C4.5算法的非法语音识别模型中进行训练；对训练得到的基于C4.5算法的非法语音识别模型采用十折交叉验证方式进行指标评估，确定训练得到的基于C4.5算法的非法语音识别模型满足所设置的评估指标；训练得到的基于C4.5算法的非法语音识别模型设置在通信网络中的网络侧，对通信网络中的语音进行非法语音的分类处理。

举一个具体例子对本申请实施例进行详细说明。

在该例子中，基于C4.5算法的非法语音识别模型中设置了2个指标数据，分别表示为s1和s2，对应s1和s2分别设置指标数值为95和90。获取通信网络中的多个语音文本，采用数据特征工程方式对语音文本进行特征数据提取；将特征数据输入到基于C4.5算法的非法语音识别模型中进行计算；基于C4.5算法的非法语音识别模型计算得到特征数据的信息增益值，将信息增益值最大的特征数据作为分裂节点，该模型循环计算各个特征数据的信息增益值，生成得到了该模型中的二叉树，其中，树的每个叶节点是一条规则，通过这些规则判断该特征数据是否为非法语音文本。如果该特征数据的分类值是“1”则表示是非法语音，否则返回0表示正常语音。为避免该模型过拟合，还可以对生成的二叉树剪枝。

图4为本申请实施例具体例子提供的二叉树结构示意图，如图所示，根节点s1是最强分割点，其信息增益值最大，节点间连线为判断条件，叶子节点为输出是规则。该模型在实现分类过程中，树中每个节点作为判断条件，最底层叶子节点为规则。本棵树以s1(95)为根节点，s1>＝95，进入左子树，左分支判断s2(90)，s2>＝90，进入左子树，叶子节点为“1”，即判断该条特征数据为非法语音，若叶子节点输出为“0”，则该条特征数据为正常语音。采用上述方式对该模型进行训练好后，并部署到通信网络中运行，从而对获取的语音文本进行非法语音识别及非法语音类别的识别，输出得到判断结果。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本申请的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种基于C4.5算法对非法语音进行分类的方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述采用数据特征工程方式对语音文本进行特征数据提取包括：

对语音文本进行词语预处理及进行词语分词；

3.如权利要求1所述的方法，其特征在于，所述训练得到基于C4.5算法的非法语音识别模型包括：

采用数据特征工程方式对语音文本进行特征数据的提取；

4.如权利要求3所述的方法，其特征在于，所述从通信网络中的服务器中获取得到语音文本包括：

从服务器指定的目录下获取得到加密存储的语音文本。

5.如权利要求3所述的方法，其特征在于，所述采用数据特征工程方式对语音文本进行特征数据的提取包括：

语音文本进行词语预处理及进行词语分词；

6.如权利要求5所述的方法，其特征在于，所述从语音文本中选择词语特征采用词频-逆向文件词频TF-IDF方式进行。

7.如权利提要求3所述的方法，其特征在于，所述将从语音文本中提取的特征数据输入到基于C4.5算法的非法语音识别模型中进行训练包括：

8.如权利要求3所述的方法，其特征在于，所述对训练得到的基于C4.5算法的非法语音识别模型采用十折交叉验证方式进行指标评估包括：

9.一种基于C4.5算法对非法语音进行分类的系统，其特征在于，包括：获取单元、数据特征工程处理单元及识别单元，其中，

10.如权利要求9所述的系统，其特征在于，所述数据特征工程处理单元，还用于对语音文本进行词语预处理及进行词语分词；对语音文本中经过分词的词语进行词性标注、同义词标注、词语概念标注及词语角色标注；根据语音文本的词语标注，从语音文本中选择词语特征，得到提取的特征数据。