CN105006230A

CN105006230A - 一种面向非特定人的语音敏感信息检测和过滤方法

Info

Publication number: CN105006230A
Application number: CN201510320065.9A
Authority: CN
Inventors: 苏兆品; 张国富; 岳峰; 齐美彬; 蒋建国; 胡东辉
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2015-06-10
Filing date: 2015-06-10
Publication date: 2015-10-28

Abstract

本发明公开了一种面向非特定人的语音敏感信息检测和过滤方法，可以实现对实时语音和语音文件的检测和过滤。首先采用改进的双门限端点检测算法对原始语音进行端点检测，提取语音的Mel频率倒谱系数特征，采用自学习的动态时间归整算法训练出合适的语音特征模板，存入数据库。然后采用改进的双门限端点检测算法对原始语音进行端点检测，提取MFCC特征，然后采用粗匹配与细匹配相结合的方法将提取的语音特征与敏感词特征模板数据库中的模板进行比对，从而检测出输入语音中的敏感词，并将检测出的敏感词进行过滤。

Description

一种面向非特定人的语音敏感信息检测和过滤方法

技术领域

本发明涉及多媒体内容安全技术，具体是一种面向非特定人的语音敏感信息检测和过滤方法。

背景技术

随着电信网络技术的发展，电话语音、网络音频为首的语音应用日渐成熟。但是，含有敏感信息、非法信息的语音传播不利于社会和谐稳定和和国家长治久安。如何从海量的语音数据中检测敏感信息已经成为亟待解决的问题。

传统的方法是采用人工聆听，这种方式仅适用于处理少量语音，而对海量语音信息进行人工检测时，其效率低下，往往耗费巨大的人力物力，却难以达到令人满意的检测准确率。随着语音识别技术的发展，人们首先将语音识别成文字，再采用文本过滤的方法检测出敏感词并对文字进行处理，然后返回到相应的语音帧将其过滤。虽然该方法采用计算机自动处理，避免了人力资源浪费，但是语音识别过程缓慢，很难应用于电视、广播等实时互动语音节目、语音聊天室等对实时性要求较高的场合。

综上，现有技术中，面向非特定人的语音敏感信息检测和过滤方法局限性大，漏检率、误检率高，很难满足实时性需求。

发明内容

本发明的目的是提供一种面向非特定人的语音敏感信息检测和过滤方法，以解决现有技术存在的问题。

为了达到上述目的，本发明所采用的技术方案为：

一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：首先对敏感词语音进行采集，提取语音特征，生成敏感词特征模板，创建敏感词特征模板数据库；

然后接收待处理的实时语音或语音文件，提取实时语音或语音文件的特征；

最后采用粗匹配与细匹配相结合的方法，将提取的待处理的实时语音或语音文件的语音特征与敏感词特征模板数据库中的模板进行比对，检测出实时语音或语音文件中的敏感词，并将检测出的敏感词进行过滤。

所述的一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：对敏感词语音进行语音特征提取的过程为：对敏感词语音进行信号处理，采用端点检测判断出语音信号的开始帧和结束帧，提取频域39维语音特征向量，提取的语音特征具有唯一性。

所述的一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：敏感词特征模板的生成过程为：采集多段非特定人的敏感词语音，提取语音特征，采用自学习机制迭代更新敏感词特征模板，直至敏感词特征模板不再变化为止。

所述的一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：所述对待处理的语音特征与敏感词特征模板数据库中的模板进行比对的过程为：提取待处理的实时语音或语音文件的语音特征后，先采用粗匹配方法确定是否存在敏感词，若存在，则采用细匹配方法确定敏感词的具体位置，以便于进行过滤处理；

粗匹配时，依次从敏感词特征模板数据库中的每个特征模板前五帧放入待处理语音帧头开始直接比对，若高于粗匹配阈值，则认为该处不存在该敏感词；若低于粗匹配阈值，则认为该处可能存在当前正在匹配的敏感词，并进入细匹配模式；

细匹配时，从当前语音帧开始，以当前敏感词为模板，继续粗匹配若干帧，寻找语音距离最小的帧号标记为敏感词开始，以该敏感词全部帧长为中心，并变长地计算与该敏感词的欧氏距离，判断其最小值是否高于细匹配阈值。若最小值高于细匹配阈值，则判断不存在该词；若最小值低于细匹配阈值，则判断存在该敏感词，而且敏感词的长度即为该语音距离所对应的帧长。

所述的一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：粗匹配时，敏感词特征模板数据库中的每个特征模板前五帧放入待处理语音帧头进行比对时，采用计算待处理语音帧的语音特征与敏感词特征模板之间的语音距离的方法，度量方法可以采用欧氏距离方法、曼哈顿距离方法。

所述的一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：粗匹配和细匹配阈值的选择是根据敏感信息检测的误判率和漏判率进行调整。

本发明中，首先建立敏感词特征模板数据库；当需要对实时语音或语音文件进行敏感词检测和过滤时，先对待处理的实时语音或语音文件提取具有唯一性的语音特征，然后与敏感词特征模板数据库中的特征进行匹配，检测出敏感词，并进行过滤。

采用本发明，对待处理的语音特征进行敏感词的依次匹配，采用多线程方法进行。

采用本发明，根据实际需要，建立不同规模的敏感词特征模板数据库。

采用本发明，根据敏感词检测方法的正确率，设置粗匹配和细匹配的阈值，并进行微调。

与已有技术相比，本发明有益效果体现在：

(1)本发明是基于语音特征实现敏感词的检测和过滤，保证了本发明是面向非特定人的，只与说话人说话的内容有关；

(2)本发明采用了自学习机制迭代生成敏感词特征模板的方法，保证了语音特征模板的准确性，提高敏感词检测的正确率。

(3)本发明采用了粗匹配和细匹配相结合的匹配方法，提高了敏感词检测的速度，保证了本发明实施的实时性。

(4)本发明可运用于电视、广播等语音直播互动节目、语音聊天室、大型网络游戏等场合中语音敏感词检测和过滤；也可运用于电视、广播、互联网等引进节目的敏感信息检测。

附图说明

图1为本发明进行敏感词检测和过滤的方法示意性流程图。

图2为本发明设计的敏感词特征模板生成方法示意图。

图3为本发明设计的敏感词匹配方法示意图。

具体实施方式

本发明构建敏感词特征模板数据库，并基于敏感词特征模板数据库实现对实时语音或语音文件中敏感词的检测和过滤。

参见图1，为本发明进行敏感词检测和过滤的方法示意性流程图。该方法通过特征模板训练模块构建敏感词特征模板数据库；然后通过检测和过滤模块实现对实时语音和语音文件中敏感词的检测和过滤。

本发明中的敏感词可以包括脏话等不文明词汇、涉及到国家安全等的涉密词汇等。

图1的流程包括以下步骤：

步骤101，接受敏感词语音输入，对其进行端点检测。根据语音的统计特性，语音段分为清音、浊音以及静音(含背景噪声)三种。但由于清音能量较小，采用短时能量检测会因为低于能量门限而被误判为静音。因此，在本发明中，利用短时能量检测浊音和静音，利用短时过零率检测静音和清音。

实现时，本步骤具体包括：对接受到的敏感词语音进行分帧，计算每帧的短时能量，确定短时能量的高门限值E_H和低门限值E_L；计算每帧的短时过零率，确定短时过零率的高门限值Z_H和低门限值Z_L；检测每一帧的短时能量和短时过零率，当某一帧的短时能量高于E_H而且短时平均过零率高于Z_H时，则该帧标记为语音开始帧；当某一帧的短时能量低于E_L而且短时过零率低于Z_L时，则该帧标记为语音结束帧。

上述端点检测步骤应用于敏感词的端点检测时，需要进行循环检测，找到一个语音文件的第一个开始帧和最后一个结束帧；同时，如果检测到的语音段长度小于一定的帧数，则认为语音段出错。

上述端点检测步骤中，短时能量的高门限值E_H和低门限值E_L，以及短时过零率的高门限值Z_H和低门限值Z_L可以根据场景进行设置，并经过实验进行微调。

例如，在本发明的一个实施实例中，设置E_H＝4，E_L＝1，Z_H＝4，Z_L＝2，经过多次实验微调为E_H＝4.2，E_L＝1.1，Z_H＝4，Z_L＝1.9。

步骤102，对端点检测后的语音进行特征提取，提取频域39维的MFCC语音特征向量，提取的语音特征具有唯一性。

步骤103，参见图2，用提取的语音特征不断更新敏感词特征模板，直至敏感词特征模板不再变化为止。

实现时，本步骤具体包括：采用动态时间规整方法将新提取的语音特征归整为与敏感词特征模板相同长度的特征；然后通过计算新语音帧与已有语音帧之间的最佳路径，找到已有语音每一帧所对应的新语音帧最后，对于每一对应帧，按照公式(1)更新每一帧的特征值，其中λ为已训练次数。

{\overset{&RightArrow;}{T}}_{i} = \frac{λ {\overset{&RightArrow;}{T}}_{i}}{λ + 1} + \frac{{\overset{&RightArrow;}{R}}_{k}}{λ + 1} - - - (1)

步骤104，将训练的敏感词特征模板存入到敏感词特征数据库中。

实现时，敏感词特征数据库表的字段可以包括敏感词序号、敏感词、敏感词特征模板等信息。

在本发明的实施例中，可以根据实际需要设置敏感词特征数据库中敏感词的数目。

在本发明的实施例中，可以敏感词特征数据库进行更新，从而保证敏感词汇的丰富、正确和实时性。

步骤105，接受实时语音或者语音文件的输入，对其进行端点检测。采用的方法与步骤101中的方法相同。

步骤106，对端点检测后的语音进行特征提取。采用的方法与步骤102中的方法相同。

步骤107，在提取的语音特征中通过匹配方法确定是否存在特征数据库中的敏感词(参见图3)。采用的方法是先采用粗匹配方法确定是否存在敏感词，若存在，则采用细匹配方法确定敏感词的具体位置，以便于敏感信息的过滤。

实现时，步骤107所述的粗匹配方法包括：依次从敏感词特征模板数据库中的每个特征模板前五帧放入待处理语音帧头开始直接比对(采用欧式距离作为语音距离的度量方法)，若高于粗匹配阈值，则认为该处不存在该敏感词；若低于粗匹配阈值，则认为该处可能存在当前正在匹配的敏感词，并进入细匹配模式。

实现时，步骤107所述的细匹配方法包括：从当前语音帧开始，以当前敏感词为模板，继续粗匹配若干帧，寻找语音距离最小的帧号标记为敏感词开始，以该敏感词全部帧长为中心，并变长地计算与该敏感词的DTW距离，判断其最小值是否高于细匹配阈值。若最小值高于细匹配阈值，则判断不存在该词；若最小值低于细匹配阈值，则判断存在该敏感词，而且敏感词的长度即为该语音距离所对应的帧长。

例如，在本发明的一个实施实例中，设置粗匹配阈值为3.0，细匹配阈值为1.25。

步骤108，对检测出的敏感信息进行过滤，采用的方法包括：对敏感信息进行静音，或者替换成“bibo”“didi”等其他声音。

根据本发明实施例的面向非特定人的语音敏感信息检测和过滤方法能够对任何语音信息中的敏感词汇进行自动检测，并过滤掉敏感词汇，从而确保健康、安全的沟通环境。相对已有的敏感词检测和过滤方法，本发明可以免除了大量的人力劳动，有效降低了成本，并且准确率高，实时性好，可以运用于电视、广播等语音直播互动节目、语音聊天室、大型网络游戏等场合中语音敏感词检测和过滤；也可运用于电视、广播、互联网等引进节目的敏感信息检测。

Claims

1.一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：首先对敏感词语音进行采集，提取语音特征，生成敏感词特征模板，创建敏感词特征模板数据库；

2.根据权利要求1所述的一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：对敏感词语音进行语音特征提取的过程为：对敏感词语音进行信号处理，采用端点检测判断出语音信号的开始帧和结束帧，提取频域39维语音特征向量，提取的语音特征具有唯一性。

3.根据权利要求1所述的一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：敏感词特征模板的生成过程为：采集多段非特定人的敏感词语音，提取语音特征，采用自学习机制迭代更新敏感词特征模板，直至敏感词特征模板不再变化为止。

4.根据权利要求1所述的一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：所述对待处理的语音特征与敏感词特征模板数据库中的模板进行比对的过程为：提取待处理的实时语音或语音文件的语音特征后，先采用粗匹配方法确定是否存在敏感词，若存在，则采用细匹配方法确定敏感词的具体位置，以便于进行过滤处理；

细匹配时，从当前语音帧开始，以当前敏感词为模板，继续粗匹配若干帧，寻找语音距离最小的帧号标记为敏感词开始，以该敏感词全部帧长为中心，并变长地计算与该敏感词的欧氏距离，判断其最小值是否高于细匹配阈值；若最小值高于细匹配阈值，则判断不存在该词；若最小值低于细匹配阈值，则判断存在该敏感词，而且敏感词的长度即为该语音距离所对应的帧长。

5.根据权利要求4所述的一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：粗匹配时，敏感词特征模板数据库中的每个特征模板前五帧放入待处理语音帧头进行比对时，采用计算待处理语音帧的语音特征与敏感词特征模板之间的语音距离的方法，度量方法可以采用欧氏距离方法、曼哈顿距离方法。

6.根据权利要求4所述的一种面向非特定人的语音敏感信息检测和过滤方法，其特征在于：粗匹配和细匹配阈值的选择是根据敏感信息检测的误判率和漏判率进行调整。