CN112837677A

CN112837677A - 一种有害音频检测方法及装置

Info

Publication number: CN112837677A
Application number: CN202011092241.5A
Authority: CN
Inventors: 张震; 石瑾; 李鹏; 夏静雯; 方磊
Original assignee: National Computer Network and Information Security Management Center; Iflytek Information Technology Co Ltd
Current assignee: National Computer Network and Information Security Management Center; Iflytek Information Technology Co Ltd
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-05-25

Abstract

本发明公开了一种有害音频检测方法及装置，该包括如下步骤：步骤SS1：输入语音数据进行连续语音关键词匹配，输出识别的文本内容，从关键词的角度检测待测音频中是否含有有害关键词；步骤SS2：基于步骤SS1获得的识别的文本内容，采用SVM分类器进行分类；步骤SS3：基于元学习进行有害音频分类网络，从文本意图的角度对待测样本进行分类；步骤SS4：对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合，获得待测音频最终被检测为有害音频的得分S。本发明通过解决正、反例样本数量失衡条件下的小样本训练的问题，最终提高有害音频检测的准确率。

Description

一种有害音频检测方法及装置

技术领域

本发明涉及一种有害音频检测方法及装置，属于人工智能技术领域，具体涉及音频数据的意图识别。

背景技术

有害音频主要为涉毒类的音频文件，涉毒类音频样本具有重要的情报价值，但样本十分稀疏，正例样本属于一类小样本条件下的语音分类任务。

有害音频发现是音频文件意图识别应用的一个子方向，其目的是要从固定电话、移动互联网所产生的数以万计的音频文件中，自动的识别出涉毒、涉暴、涉黄等包括有害信息的音频文件，本案主要讨论涉毒有害音频的自动发现问题。涉毒类音频文件意图会被刻意的伪装，与毒品有关的名词及采取的各类活动会借用其它词来替代，仅从字面上理解是很难与涉毒活动关联起来的。客观上造成了，这类正例样本不仅少而且难以收集。相对海量的音频文件，从统计意义上涉毒音频几乎可忽略不计，但从实际的情报价值来看，对于反毒破案其意义不言而喻。因此，这是一类正例样本极度稀缺、负例样本占主导的二分类问题。那么基于意图识别的涉毒音频发现技术包含两个关键技术难点：1)正例样本获取。如何从海量音频文件中获取正例样本是构建基于有监督学习的自动分类系统的关键。2)基于小样本智能学习的识别技术。如何构建适用于小样本的分类学习算法，同样是问题的关键。

目前主流的意图识别技术可以按技术路线分为两类：基于关键词匹配和规则文法的要素抽取技术方案和基于机器学习、深度学习的意图识别方案。

基于关键词匹配的意图识别技术，是通过精确关键词匹配来达到分类的目的的，但是对精确关键词匹配技术做了扩充，不仅仅通过单个关键词进行匹配，而且通过定义组合关键词，以及在组合关键词上进行多种模式的匹配来达到的。关键词策略对文本进行关键词匹配，首先对输入的文本句子进行分词，通过正向单关键词、正向组合关键词和负向组合关键词进行意图识别，然后将分类得分归一化，大致技术原理如图1所示。

基于规则文法的要素抽取技术基于设定的文法规则，通过将定义的分类目标进行分解，分解为多个小的目标点，分别针对每个目标任务定义多个文法，用来匹配输入，最后通过统计匹配上的不同类别下的目标点的情况来决策是否属于某个定义的意图分类类别，比如，一个输入文档，同时匹配上了“办卡、存取钱业务”中的多个文法，则很大程度是该输入文档中内容是涉及到银行业务相关内容，可以认为是属于银行客服这个类别，通过文法进行意图分类的整体过程如图2所示。

基于机器学习的意图识别算法有LDA-SVM分类算法。LDA(Latent DirichletAllocation)认为一篇文档(Document)可以由多个主题(Topic)混合组成，每个主题都是词汇上的概率分布，文章中的每个词都是由一个固定的主题生成的。支持向量机(SupportVector Machine,SVM)是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机，SVM还包括核技巧，这使它成为实质上的非线性分类器。SVM的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题，SVM的学习算法就是求解凸二次规划的最优化算法。LDA-SVM模型首先使用LDA对整个语料库进行建模，划分K个主题，提取每个主题的特征，得到每个文档的主题分布，即每个文档包含的每个主题的权重，此权重即可作为特征，然后使用SVM对LDA提取的特征进行建模，预测意图类别，最后将分类得分归一化。

深度学习的CNN网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性，最早用于图像，目前也被应用到NLP任务中，典型的CNN文本分类模型一共包括4层，结构如下：

a)输入层：如图所示，输入层是句子中的词语对应的词向量(word vector)依次(从上到下)排列的矩阵，假设句子有n个词，vector的维数为k，那么这个矩阵就是n×k的(在CNN中可以看作一副高度为n、宽度为k的图像)。这个矩阵的类型可以是静态的(static)，也可以是动态的(non static)。静态就是word vector是固定不变的，而动态则是在模型训练过程中，word vector也当作是可优化的参数。

b)卷积层：输入层通过卷积操作得到若干个Feature Map，卷积窗口的大小为h×k，其中h表示纵向词语的个数，而k表示word vector的维数。通过这样一个大型的卷积窗口，将得到若干个列数为1的Feature Map。

c)池化层：采用Max-Over-TimePooling的方法，这种方法从之前一维的FeatureMap中提取最大的值，因为最大值代表着最重要的信号。这种Pooling方式可以解决可变长度的句子输入问题，无论Feature Map中有多少个值，只需要提取其中的最大值，最终池化层的输出为各个Feature Map的最大值，即一个一维的向量。

d)全连接+Softmax：池化层的一维向量通过全连接的方式，连接一个Softmax层，Softmax层可根据任务的需要设置(通常反映着最终类别上的概率分布)。

LSTM网络可以很好地利用文本中的词序信息，文本中的n+1个词依次通过LSTM后，得到相应的n+1个隐层神经元向量，将这些隐层向量求mean pooling(平均池化)，即得到整个文本的分布式特征表示，然后紧接着是一个简单的逻辑回归层，得到一个类别分布概率。除了mean pooling，也可以使用max pooling(最大池化)，或者两者同时使用，并将两者得到的结果相拼接。

发明内容

本发明提出的意图分类系统构建过程由简单的关键词语匹配、传统的分类算法到基于深度学习的分类算法，层层递进，从零开始快速实现分类系统的构建。关键词匹配，根据专家经验确定与涉毒相关的关键词，利用关键词强制匹配，获取相关候选正例，经专家确认存入正例样本库。然后基于收集到的正例、反例样本训练意图分类系统。本发明的要解决的技术难点有以下两个。

(1)涉毒类音频文件意图会被刻意的伪装，与毒品有关的名词及采取的各类活动会借用其它词来替代，仅从字面上理解是很难与涉毒活动关联起来的，导致涉毒音频这类正例样本难以收集。相对海量的音频文件，涉毒音频的数量几乎可以忽略不计，而且需要大量有专业经验的Z察人员从海量音频数据中人工进行甄别、筛选，耗时长且工作量大，样本获取难度大。

(2)现有的技术方案是基于大批量的样本数据去训练分类系统，需要人工收集有害音频并对涉毒类的正例样本进行标注。基于第(1)个难点，涉毒类正例样本数量少且收集困难，无法满足当前技术方案下意图识别分类系统的训练条件。且有害音频识别属于以负例样本为主的二分类问题，正、反例样本数量不均衡，会进一步影响到模型的训练，导致模型训偏，有害音频会被错误地识别成无害音频。因为有害音频存在的数量少，即使被识别成无害音频对系统整体的错误率也不会有太大影响，但作为重点关注的有害音频存在着巨大的Z察价值，其识别错误的代价远高于无害音频，出现大量漏警时会严重降低系统的使用效果。

现有的基于关键词匹配的技术方案仅能对特定的关键词进行强制匹配，本案的应用场景为涉毒类有害音频的检测，这类音频文件意图会被刻意的伪装，与毒品有关的名词及采取的各类活动会借用其它词来替代，仅从字面上理解是很难与涉毒活动关联起来，因而关键词匹配技术不适用于这类应用场景。此外，基于SVM分类器或基于深度学习分类网络的训练，都离不开大量标注数据的支撑。且本案的应用场景为正、负样本比例失衡，且以负样本为主的二分类场景，现有的SVM分类器或是基于深度学习的分类网络会将大量的有害音频识别成无害音频，这就造成本就数量很少的有害音频更加难以被检测出来，分类系统的使用效果差。

本发明针对上述两个难点，提出一种从零开始快速搭建分类方法，提高有害音频识别准确率的解决方法。通过关键词匹配和SVM意图识别这两步达到收集正例样本的目的，然后基于元学习思路解决正、反例样本数量失衡条件下分类模型训练的问题，最终提高小样本条件下有害音频检测的准确率。

但由于有害音频出现次数很少，即使通过上述两步也无法收集到足够多的有害音频样本来使得分类模型更加鲁棒。因此，在上述两步收集到的有害音频正例样本的基础上，基于元学习算法理论，使用大数据量的意图分类网络参数更新过程，来指导小样本条件下的有害音频分类网络的学习，从而实现基于小样本有害音频分类网络的有监督学习，最终提升有害音频分类模型的准确率和鲁棒性。

此外，由于关键词匹配、SVM分类器、元学习分类网络分别从关键词和文本意图两个层面来判别当前音频是否属于有害音频，待测音频在不同模型上得分的高低，表征了待测音频在各个判别维度上属于有害音频的可能性的大小。在关键词匹配算法中得分越高，说明当前音频含有有害关键词概率越大；在SVM分类器和元学习分类网络模型上得分越高，说明当前音频在意图层面含有有害信息的概率越大。因此，最终采用这三个分类模型的融合得分作为待测音频是否为有害音频的判别依据。

本发明具体采用如下技术方案：一种有害音频检测方法，包括如下步骤：

步骤SS1：输入语音数据进行连续语音关键词匹配，输出识别的文本内容，从关键词的角度检测待测音频中是否含有有害关键词；

步骤SS2：基于步骤SS1获得的识别的文本内容，采用SVM分类器进行分类，；

步骤SS3：基于元学习进行有害音频分类网络，从文本意图的角度对待测样本进行分类；

步骤SS4：对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合，获得待测音频最终被检测为有害音频的得分S。

作为一种较佳的实施例，所述步骤SS1具体包括：输入一段语音数据，分别经声学模型识别和语言模型解码后，得到所有可能解码路径的词混淆网络，所述词混淆网络中每条路径的权重代表该条解码路径正确概率的大小；然后输出概率最大的解码路径，也即识别的文本内容；根据专家经验确定与涉毒相关的关键词，利用关键词强制匹配，获取相关候选正例，经专家确认存入正例样本库。

作为一种较佳的实施例，所述步骤SS2具体包括：对步骤SS1中确认的所有有害与无害的识别文本利用Bert模型抽取能表征文本意图特征的文本向量V＝{V₁,V₁,…,V_n}，然后基于支持向量机算法SVM训练一个二分类器，基于文本意图对有害与无害的文本内容进行分类，有害的文本集合记为V_T，无害的文本集合记为V_F。

作为一种较佳的实施例，所述步骤SS3具体包括：设计一个大数据量的意图分类网络称之为基分类器g(x；θ)，设计一个参数回归映射网络F(.)；给定大数据量的意图分类网络k-shot的标注样本，进行普通的分类训练，得到参数θ_k，其中k＝1,2,…,2ⁿ；参数回归映射网络作用：元学习当样本集增大时基分类器参数的映射关系f(θ_k)＝θ_k+1，训练的目标函数为：

通过构建元学习的目标函数，获取大数据量的意图分类网络参数更新过程，来指导小样本(V_T，V_F)条件下有害音频的分类网络的学习。

作为一种较佳的实施例，所述步骤SS4具体包括：设连续语音关键词匹配的关键词得分为S_ASR，SVM分类器得分为S_SVM，元学习分类网络的得分为S_meta，则待测音频最终被检测为有害音频的得分为：

S＝W₁S_ASR+W₂S_SVM+W₃S_meta

通过设定一个阈值范围，得分超过该范围的音频定性为有害音频，不超过该设定阈值的音频定性为无害音频，最终完成有害音频的检测。

本发明提出一种有害音频检测装置，包括：

关键词匹配模块，用于执行：输入语音数据进行连续语音关键词匹配，输出识别的文本内容，从关键词的角度检测待测音频中是否含有有害关键词；

SVM分类器，用于执行：基于关键词匹配模块获得的识别的文本内容，采用SVM分类器进行分类，；

元学习有害音频分类模块，用于执行：基于元学习进行有害音频分类网络，从文本意图的角度对待测样本进行分类；

得分融合模块，用于执行：对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合，获得待测音频最终被检测为有害音频的得分S。

作为一种较佳的实施例，所述关键词匹配模块具体包括：输入一段语音数据，分别经声学模型识别和语言模型解码后，得到所有可能解码路径的词混淆网络，所述词混淆网络中每条路径的权重代表该条解码路径正确概率的大小；然后输出概率最大的解码路径，也即识别的文本内容；根据专家经验确定与涉毒相关的关键词，利用关键词强制匹配，获取相关候选正例，经专家确认存入正例样本库。

作为一种较佳的实施例，所述SVM分类器包括：对关键词匹配模块中确认的所有有害与无害的识别文本利用Bert模型抽取能表征文本意图特征的文本向量V＝{V₁,V₁,…,V_n}，然后基于支持向量机算法SVM训练一个二分类器，基于文本意图对有害与无害的文本内容进行分类，有害的文本集合记为V_T，无害的文本集合记为V_F。

作为一种较佳的实施例，所述元学习有害音频分类模块包括：设计一个大数据量的意图分类网络称之为基分类器g(x；θ)，设计一个参数回归映射网络F(.)；给定大数据量的意图分类网络k-shot的标注样本，进行普通的分类训练，得到参数θ_k，其中k＝1,2,…,2ⁿ；参数回归映射网络作用：元学习当样本集增大时基分类器参数的映射关系f(θ_k)＝θ_k+1，训练的目标函数为：

作为一种较佳的实施例，所述得分融合模块包括：设连续语音关键词匹配的关键词得分为S_ASR，SVM分类器得分为S_SVM，元学习分类网络的得分为S_meta，则待测音频最终被检测为有害音频的得分为：

S＝W₁S_ASR+W₂S_SVM+W₃S_meta

本发明所达到的有益效果：本发明针对缺少有害音频正例样本的问题，首先使用连续语音关键词识别技术对海量音频内容进行转写识别，然后使用关键词匹配技术，从识别文本中检索出含有专家设定的目标关键词的音频内容交由专业人士确认，对检测到含有目标关键词且确认结果为有害音频的识别文本抽取Bert向量，用于训练有害音频的SVM分类器，从意图层面进一步区分有害音频与无害音频。关键词匹配技术和有害音频SVM分类器分别从关键词匹配和意图识别两个维度来识别有害音频，从而达到收集有害音频正例样本的目的。本发明的意图分类方法构建过程由简单的关键词语匹配、传统的分类算法到基于深度学习的分类算法，层层递进，从零开始快速实现分类系统的构建。关键词匹配，根据专家经验确定与涉毒相关的关键词，利用关键词强制匹配，获取相关候选正例，经专家确认存入正例样本库。然后基于Bert模型抽取正例的文本向量，用于搭建SVM分类器，从意图识别的角度进一步收集有害音频的正例样本。利用这两步收集的正例样本，利用元学习理论指导不平衡数据集下分类网络的训练，用于解决正、反例样本数量失衡条件下的小样本训练的问题，最终提高有害音频检测的准确率。

附图说明

图1是现有技术中的意图识别的示意图；

图2是现有技术通过文法进行意图分类的示意图；

图3是本发明的一种有害音频检测方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1：如图3所示，本发明提出一种有害音频检测方法，包括如下步骤：

可选的，所述步骤SS1具体包括：输入一段语音数据，分别经声学模型识别和语言模型解码后，得到所有可能解码路径的词混淆网络，所述词混淆网络中每条路径的权重代表该条解码路径正确概率的大小；然后输出概率最大的解码路径，也即识别的文本内容；根据专家经验确定与涉毒相关的关键词，利用关键词强制匹配，获取相关候选正例，经专家确认存入正例样本库。

可选的，所述步骤SS2具体包括：对步骤SS1中确认的所有有害与无害的识别文本利用Bert模型抽取能表征文本意图特征的文本向量V＝{V₁,V₁,…,V_n}，然后基于支持向量机算法SVM训练一个二分类器，基于文本意图对有害与无害的文本内容进行分类，有害的文本集合记为V_T，无害的文本集合记为V_F。

可选的，所述步骤SS3具体包括：设计一个大数据量的意图分类网络称之为基分类器g(x；θ)，设计一个参数回归映射网络F(.)；给定大数据量的意图分类网络k-shot的标注样本，进行普通的分类训练，得到参数θ_k，其中k＝1,2,…,2ⁿ；参数回归映射网络作用：元学习当样本集增大时基分类器参数的映射关系f(θ_k)＝θ_k+1，训练的目标函数为：

可选的，所述步骤SS4具体包括：设连续语音关键词匹配的关键词得分为S_ASR，SVM分类器得分为S_SVM，元学习分类网络的得分为S_meta，则待测音频最终被检测为有害音频的得分为：

S＝W₁S_ASR+W₂S_SVM+W₃S_meta

实施例2：本发明还提出一种有害音频检测装置，包括：

可选的，所述关键词匹配模块具体包括：输入一段语音数据，分别经声学模型识别和语言模型解码后，得到所有可能解码路径的词混淆网络，所述词混淆网络中每条路径的权重代表该条解码路径正确概率的大小；然后输出概率最大的解码路径，也即识别的文本内容；根据专家经验确定与涉毒相关的关键词，利用关键词强制匹配，获取相关候选正例，经专家确认存入正例样本库。

可选的，所述SVM分类器包括：对关键词匹配模块中确认的所有有害与无害的识别文本利用Bert模型抽取能表征文本意图特征的文本向量V＝{V₁,V₁,…,V_n}，然后基于支持向量机算法SVM训练一个二分类器，基于文本意图对有害与无害的文本内容进行分类，有害的文本集合记为V_T，无害的文本集合记为V_F。

可选的，所述元学习有害音频分类模块包括：设计一个大数据量的意图分类网络称之为基分类器g(x；θ)，设计一个参数回归映射网络F(.)；给定大数据量的意图分类网络k-shot的标注样本，进行普通的分类训练，得到参数θ_k，其中k＝1,2,…,2ⁿ；参数回归映射网络作用：元学习当样本集增大时基分类器参数的映射关系f(θ_k)＝θ_k+1，训练的目标函数为：

可选的，所述得分融合模块包括：设连续语音关键词匹配的关键词得分为S_ASR，SVM分类器得分为S_SVM，元学习分类网络的得分为S_meta，则待测音频最终被检测为有害音频的得分为：

S＝W₁S_ASR+W₂S_SVM+W₃S_meta

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种有害音频检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种有害音频检测方法，其特征在于，所述步骤SS1具体包括：输入一段语音数据，分别经声学模型识别和语言模型解码后，得到所有可能解码路径的词混淆网络，所述词混淆网络中每条路径的权重代表该条解码路径正确概率的大小；然后输出概率最大的解码路径，也即识别的文本内容；根据专家经验确定与涉毒相关的关键词，利用关键词强制匹配，获取相关候选正例，经专家确认存入正例样本库。

3.根据权利要求1所述的一种有害音频检测方法，其特征在于，所述步骤SS2具体包括：对步骤SS1中确认的所有有害与无害的识别文本利用Bert模型抽取能表征文本意图特征的文本向量V＝{V₁，V₁，...，V_n}，然后基于支持向量机算法SVM训练一个二分类器，基于文本意图对有害与无害的文本内容进行分类，有害的文本集合记为V_T，无害的文本集合记为V_F。

4.根据权利要求1所述的一种有害音频检测方法，其特征在于，所述步骤SS3具体包括：设计一个大数据量的意图分类网络称之为基分类器g(x；θ)，设计一个参数回归映射网络F(.)；给定大数据量的意图分类网络k-shot的标注样本，进行普通的分类训练，得到参数θ_k，其中k＝1，2，...，2ⁿ；参数回归映射网络作用：元学习当样本集增大时基分类器参数的映射关系f(θ_k)＝θ_k+1，训练的目标函数为：

5.根据权利要求1所述的一种有害音频检测方法，其特征在于，所述步骤SS4具体包括：设连续语音关键词匹配的关键词得分为S_ASR，SVM分类器得分为S_SVM，元学习分类网络的得分为S_meta，则待测音频最终被检测为有害音频的得分为：

S＝W₁S_ASR+W₂S_SVM+W₃S_meta

6.一种有害音频检测装置，其特征在于，包括：

7.根据权利要求6所述的一种有害音频检测装置，其特征在于，所述关键词匹配模块具体包括：输入一段语音数据，分别经声学模型识别和语言模型解码后，得到所有可能解码路径的词混淆网络，所述词混淆网络中每条路径的权重代表该条解码路径正确概率的大小；然后输出概率最大的解码路径，也即识别的文本内容；根据专家经验确定与涉毒相关的关键词，利用关键词强制匹配，获取相关候选正例，经专家确认存入正例样本库。

8.根据权利要求6所述的一种有害音频检测装置，其特征在于，所述SVM分类器包括：对关键词匹配模块中确认的所有有害与无害的识别文本利用Bert模型抽取能表征文本意图特征的文本向量V＝{V₁，V₁，...，V_n}，然后基于支持向量机算法SVM训练一个二分类器，基于文本意图对有害与无害的文本内容进行分类，有害的文本集合记为V_T，无害的文本集合记为V_F。

9.根据权利要求6所述的一种有害音频检测装置，其特征在于，所述元学习有害音频分类模块包括：设计一个大数据量的意图分类网络称之为基分类器g(x；θ)，设计一个参数回归映射网络F(.)；给定大数据量的意图分类网络k-shot的标注样本，进行普通的分类训练，得到参数θk，其中k＝1，2，...，2ⁿ；参数回归映射网络作用：元学习当样本集增大时基分类器参数的映射关系f(θ_k)＝θ_k+1，训练的目标函数为：

10.根据权利要求6所述的一种有害音频检测装置，其特征在于，所述得分融合模块包括：设连续语音关键词匹配的关键词得分为S_ASR，SVM分类器得分为S_SVM，元学习分类网络的得分为S_meta，则待测音频最终被检测为有害音频的得分为：

S＝W₁S_ASR+W₂S_SVM+W₃S_meta