CN115512697A

CN115512697A - 语音敏感词的识别方法、装置、电子设备及存储介质

Info

Publication number: CN115512697A
Application number: CN202211216018.6A
Authority: CN
Inventors: 张小晶; 林荣荣; 梁志明; 支天波
Original assignee: Guizhou Xiaoai Robot Technology Co ltd
Current assignee: Guizhou Xiaoai Robot Technology Co ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-12-23

Abstract

本发明公开了一种语音敏感词的识别方法、装置、电子设备及存储介质。该方法包括：获取语音样本集，并在语言样本集的每个语音样本中识别多个敏感片段，并确定与各敏感片段分别对应的目标频次；确定与每个敏感片段分别对应的MFCC特征；按照目标频次，将与每个敏感片段分别对应的敏感MFCC特征输入至预先构建的语音敏感词决策树中，对语音敏感词决策树中的各项参数进行配置；获取与目标语音对应的目标MFCC特征，并将目标MFCC特征输入至完成配置的语音敏感词决策树中，获取对目标语音的敏感词识别结果。通过执行本技术方案，可以实现对语音中敏感词的识别，达到了提高语音敏感词识别的准确性的效果。

Description

语音敏感词的识别方法、装置、电子设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及语音敏感词的识别方法、装置、电子设备及存储介质。

背景技术

随着金融、电信以及医疗等行业的自助服务设备逐渐趋于智能化，语音识别技术已经成为在AI系统中主要的人机交互方式，例如智能电话客服因其可以完整的收集客户的意见与建议信息，同时节省了人力资源而被越来越多的人们使用。但是同时，由于语音信息的特殊性，语音信息中存在的敏感词，例如带有敏感倾向或不文明用语的词汇在一定程度上影响了语音识别信息的可读性等。

目前用于语音识别技术的敏感词的过滤方法，主要依赖于GSV-SVM (GlobalSecurity Verification-Support Vector Machine,高斯混合模型超矢量-支持向量机)识别方法，上述方法为一种基于子空间映射和得分规整的识别方法，在一定程度上可以对语音中的敏感词进行筛选及删除，得到敏感词过滤后的语音识别结果。

发明人在实现本发明的过程中，发现该方法有如下缺陷：现有技术在敏感词识别的程度上存在语言处理技术精度差，语音敏感词识别率低，敏感词筛选结果不稳定，不利于敏感词过滤后的语音识别结果正常输出的问题，且针对上述问题，目前尚未提出有效的解决方案。

发明内容

本发明提供了一种语音敏感词的识别方法、装置、电子设备及存储介质，以解决现有技术中语音敏感词识别精度差的问题。

第一方面，本发明实施例提供了一种语音敏感词的识别方法，该方法包括：

获取语音样本集，并在语言样本集的各语音样本中识别多个敏感片段，并确定与每个敏感片段分别对应的目标频次；

确定与每个敏感片段分别对应的敏感MFCC(Mel Frequency CepstrumCoefficient，梅尔倒谱系数)特征；

按照目标频次，将与每个敏感片段分别对应的敏感MFCC特征输入至预先构建的语音敏感词决策树中，对语音敏感词决策树中的各项参数进行配置；

获取与目标语音对应的目标MFCC特征，并将目标MFCC特征输入至完成配置的语音敏感词决策树中，获取对目标语音的敏感词识别结果。

第二方面，本发明实施例提供了一种语音敏感词的识别装置，该装置包括：

敏感片段识别模块，用于获取语音样本集，并在语言样本集的各语音样本中识别多个敏感片段，并确定与每个敏感片段分别对应的目标频次；

敏感MFCC特征确定模块，用于确定与每个敏感片段分别对应的敏感 MFCC特征；

语音敏感词决策树配置模块，用于按照目标频次，将与每个敏感片段分别对应的敏感MFCC特征输入至预先构建的语音敏感词决策树中，对语音敏感词决策树中的各项参数进行配置；

敏感词识别模块，用于获取与目标语音对应的目标MFCC特征，并将目标MFCC特征输入至完成配置的语音敏感词决策树中，获取对目标语音的敏感词识别结果。

第三方面，本发明实施例提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的语音敏感词的识别方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的语音敏感词的识别方法。

本发明实施例的技术方案，通过识别语音样本集中的敏感片段，分别确定每个敏感片段的目标频次与敏感MFCC，通过将敏感MFCC输入至语音敏感决策树进行参数配置，将目标MFCC特征输入至参数配置完成的语音敏感决策树中以获取对目标语音的敏感词识别结果的技术手段，解决了现有技术中语音敏感词识别精度差的问题，提高了语音敏感词识别的准确性。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是根据本发明实施例一提供的一种语音敏感词的识别方法的流程图；

图1b是根据本发明实施例一提供的一种敏感MFCC特征获取方法的流程图；

图1c是根据本发明实施例一提供的方法所构建的语音敏感决策树的示意图；

图2a是根据本发明实施例二所适用的语音敏感词的识别方法的流程图；

图2b是根据本发明实施例二所提供的方法得到的词素端点分割结果的示意图；

图2c是根据本发明实施例二所提供的方法得到的一种语音敏感词识别方法的敏感词识别的结果示意图；

图2d是根据本发明实施例二所提供的方法对比在GSV-SVM识别方法下的敏感词识别的结果示意图；

图2e是根据本发明实施例二所提供的方法对比在i-vector+PLDA识别方法下的敏感词识别的结果示意图；

图3是根据本发明实施例三提供的一种种语音敏感词的识别装置的结构示意图；

图4是是根据本发明实施例四提供的一种可以用来实施本发明的实施例的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1a为本发明实施例一提供了一种语音敏感词的识别方法的流程图，本实施例可适用于通过语音识别技术将语音中包含的敏感词进行过滤的情况，该方法可以由语音敏感词的识别装置来执行，该语音敏感词的识别装置可以采用硬件和/或软件的形式实现，该语音敏感词的识别装置可配置于搭载语言敏感词识别功能的终端或服务器中。如图1a所示，该方法包括：

S110、获取语音样本集，并在语言样本集的各语音样本中识别多个敏感片段，并确定与每个敏感片段分别对应的目标频次。

其中，所述语音样本集为包含敏感词的语音音频的合集。其中，所述语音样本中的敏感片段可以为包含有敏感词的语音片段。敏感片段可以为语音样本中的一个语音片段，或者也可以为对一个或者多个语音样本中的语音片段进行处理后得到的语音片段，或者还可以为敏感语音库包含有语音样本中的敏感词的敏感语音等，本实施例对此并不进行限制。

进一步的，所述敏感词可以包括：带有敏感倾向、不文明用语的词汇，或可根据用户端需要设定的特殊敏感词等。

其中，所述敏感片段的目标频次为包含相同敏感词的敏感片段在语音样本集中的出现次数。

在本实施例的一个具体的应用场景中，为了在电网知识问答系统中增加敏感词过滤的功能，可以首先收集该电网知识问答系统在一段时间内 (例如，2个月或者3个月等)处理的用户语音集合，并通过人为标注的方式，筛选出该用户语音集合中包括有敏感词的各项用户语音，并使用上述各项用户语音构建语音样本集。

进而，在该语音样本集中识别出的敏感片段，以及各敏感片段的出现次数，可以表达出该电网知识问答系统中的敏感词环境，进而基于每个敏感片段分别对应的目标频次，可以适应性的训练出与该电网知识问答系统相适配的敏感词识别模型。

可选的，在语言样本集的各语音样本中识别多个敏感片段，并确定与每个敏感片段分别对应的目标频次，可以包括：

将语音样本集的各语音样本与预先构建的敏感语音库中的各敏感语音进行匹配；

根据匹配结果获取语音样本集中包括的各敏感片段，并确定与每个敏感片段分别对应的目标频次。

其中，所述敏感语音库可以为包含带有敏感倾向、不文明用语、带有不健康色彩以及根据用户端需要设定的特殊敏感词的语音片段的合集；

在本实施例中，可以用语音匹配方法将语音样本集中的各语音样本与预先构建的敏感语音库中的各敏感语音进行匹配；具体的，从所述目标语音样本中提取待识别的目标语音信息，其中，待识别的语音样本包括设定时间段内的语音波形序列；将所述语音样本与预先构建的敏感语音库中的各敏感语音进行语音波形序列匹配，得到该语音样本与预先构建的敏感语音库中的各敏感语音的匹配度。

进而，通过统计与敏感语音库中同一敏感语音的匹配成功次数，可以确定出敏感片段的出现频次。在一个具体的例子中，如果语音样本集中的语音样本片段a、语音样本片段b以及语音样本片段c均对应敏感语音库中的同一敏感语音X，则可以根据语音样本片段a、语音样本片段b以及语音样本片段c统一确定出一个敏感片段Y，并确定该敏感片段Y的出现频次为3。

具体的，可以在语音样本片段a、语音样本片段b以及语音样本片段c 中随机获取一个语音样本片段作为敏感片段Y。或者，还可以将语音样本片段a、语音样本片段b以及语音样本片段c进行语音信号的加权处理后，共同生成敏感片段Y，还可以在语音样本片段a、语音样本片段b以及语音样本片段c中获取与敏感语音X的匹配度最高的一个语音样本片段作为敏感片段Y，或者，还可以直接将该敏感语音X作为敏感片段Y等，本实施例对此并不进行限制。

进一步的，在本事实例中，本步骤还可以具体包括：将语言样本集的各语音样本与预先构建的敏感语音库中的各敏感语音进行匹配；根据匹配结果获取语音样本集中包括的各敏感片段，获取每个敏感片段在目标语音样本中的出现频次；根据每个敏感片段的持续时长，计算与每个敏感片段分别对应的时长权重，并根据每个敏感片段的时长权重和出现频次，确定与每个敏感片段分别对应的目标频次。

S120、确定与每个敏感片段分别对应的敏感MFCC特征。

其中，确定与每个敏感片段分别对应的敏感MFCC特征，可以包括：

对当前处理的目标敏感片段进行预加重处理，得到加重敏感信号；

对加重敏感信号进行交叉分帧处理，得到多个音频帧，并对每个音频帧进行加窗处理，得到多个音频加窗帧；

对多个音频加窗帧进行MFCC特征的提取，得到与目标敏感片段对应的敏感MFCC特征；

考虑到随着语音信号速率的增加，语音信号在传输的过程中受损很大，为了在接收终端得到比较好的信号波形，减少噪声的影响获得准确信号，就需要对受损的信号进行预加重处理；其中，所述预加重处理包括分析口唇辐射效应，使获取的语音信号具有较小的高频部分；进一步的，所述口唇辐射效应在高频端较为显著，可以起到高通滤波器的作用，其能量大致为每倍频增加6dB；进一步的，预加重处理可以减少噪声影响获得准确信号，其计算方法为：y(m)＝x(m)-0.97*x(m-1)，其中，y(m)表示处理后的信号，x(m)表示原始信号。

其中，对加重敏感信号进行交叉分帧处理，可以减少加重敏感信号整体的非稳态，时变的影响；进一步的，本实施例将帧长的时间范围固定在 10ms至30ms，可认为此范围内的音频帧是稳定的；

容易理解的是，按照上述方式进行交叉分帧处理后，每一帧的开始个结束都会出现间断，因此分割的帧越多，音频帧与原始信号的误差就越大。本实施例通过对每个音频帧进行加窗处理，使成帧后的信号变的连续，且每一帧都会表现出周期函数的特性；进一步的，本实施例采用加汉明窗的形式对每个音频帧进行加窗处理。

其中，敏感MFCC特征即敏感片段对应组成的梅尔频率倒谱的系数，它衍生自音讯片段的倒频谱。进一步的，倒谱和梅尔频率倒谱的区别在于，梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示，可以在多个领域中使声音信号有更好的表示。

进一步的，敏感MFCC特征提取的步骤如图1b所示：

其中，将每个音频加窗帧s(i)作为独立的随机信号进行FFT傅里叶变换后，通过滤波器进行DCT离散余弦变换，获得最终的与目标敏感片段对应的敏感MFCC特征：

其中，C_n表示与目标敏感片段对应的敏感MFCC特征，M表示滤波器数量，n表示单帧语音信号，N为DCT傅里叶变换中所包含的频带复数的个数，i表示输出结果。

S130、按照目标频次，将与每个敏感片段分别对应的敏感MFCC特征输入至预先构建的语音敏感词决策树中，对语音敏感词决策树中的各项参数进行配置。

其中，本实施例所述构建语音敏感词决策树，以一组敏感词中敏感字的首字母为根节点，按该组敏感词中各敏感词中包含字母的先后顺序，依次将下一字母作为上一字母的节点，得到该组敏感词的语音敏感词决策树；进一步的，树形结构，是指各个元素之间具有分层关系的数据结构，常用一棵倒置的树来表示逻辑关系。其中，根节点是指树的最顶端的节点，子节点是指根节点往下细分的节点，叶子节点是指一棵树当中没有子节点的节点，简称“叶子”。本实施例通过预先构建的语音敏感词决策树，可以把敏感词中首字母相同的词组合成一个树形结构，第一个字符相同的不同词分属不同树形分支。

示例性的，如图1c所示，n表示敏感词数量，a表示单一敏感词，i、 j表示敏感词和敏感字，m表示敏感词长度，在计算过程中，使用k表示节点序号，输入敏感词a后，将敏感词特征集合F任意地分布到K个子集中，并且令每个子集之间的属性特征彼此不重合，每个特征子集便有 H＝n/K个属性特征，此时

(通常情况下，该项取值会小于6)，得到中文长度m，并获取其首字母，以此为依据进入相对应的子树查询并输出。

如图1c所示，对于“安眠药”这一组敏感词，识别得到中文长度m＝3, 以首字母“a”为根节点，分别以i-z字母作为根节点的n个子节点，再以“n”与“i”为i的子节点，重复以上步骤得到一个语音敏感词决策树；可以理解得是，在针对一个敏感词库中的若干敏感词构建得到多个语音敏感词决策树之后，将这多个语音敏感词决策树进行保存得到由语音敏感词决策树构成的新的敏感词库，即可方便使用本申请实施例提供的一种语音敏感词的识别方法进行敏感词检测，从而提高敏感词检测效率。进一步的，将敏感词组用树形结构表示的好处在于，可以减少对目标语音的检索或扫描次数，遍历一次目标语音，即可确定出其中所有的敏感词，所以能够提高敏感词检测效率。

进一步的，在本实施例中，本步骤还可以具体包括：按照目标频次，生成与每个敏感片段分别对应的多个重复敏感片段；将各重复敏感片段分别输入至预先构建的语音敏感词决策树中，对语音敏感词决策树中的各项参数进行配置。

S140、获取与目标语音对应的目标MFCC特征，并将目标MFCC特征输入至完成配置的语音敏感词决策树中，获取对目标语音的敏感词识别结果。

其中，在获取对目标语音的敏感词识别结果之后，还包括：

根据在目标语音中识别到的目标敏感语音片段的持续时长，在替换语音库中，获取与目标敏感语音片段匹配的替换语音；

使用替换语音替换所述目标语音中的目标敏感语音片段。

其中，目标语音的敏感词识别结果可根据预设的敏感度计算结果阈值进行判定；进一步的，当语音中词语的敏感度大于敏感度阈值，则该词语识别为目标语音的敏感词；当词语敏感度小于阈值，则该词语不为目标语音的敏感词。

其中，在获取对目标语音的敏感词识别结果之后，根据敏感度识别结果与敏感度计算结果，采用特殊字符代替敏感词。敏感度计算结果不同，转换的特殊字符也有所差异，本实施例具体的敏感词匹配字符如表1所示。

表1

本发明实施例的技术方案，通过识别语音样本集中的敏感片段，分别确定每个敏感片段的目标频次与敏感MFCC，通过将敏感MFCC输入至语音敏感决策树进行参数配置，将目标MFCC特征输入至参数配置完成的语音敏感决策树中以获取对目标语音的敏感词识别结果，解决了现有技术中语音敏感词识别精度差的问题，提高了语音敏感词识别的准确性。

此外，需要强调的是，本发明实施例的技术方案基于该语音敏感词的识别方法适用场景，收集实际的用户语音集合作为语音样本集，并基于该语音样本集统计该场景中易于出现的敏感片段，并统计各敏感片段的出现频次，基于上述信息，有选择的对语音敏感词决策树进行配置，进而可以有效提高音敏感词识别的准确性和适应性。

实施例二

图2为本发明实施例二提供的一种语音敏感词的识别方法的流程图，本实施例与上述实施例是上述实施例步骤的补充。具体的，在本实施例中，对获取与目标语音对应的目标MFCC特征，并将目标MFCC特征输入至完成配置的语音敏感词决策树中，获取对目标语音的敏感词识别结果进行补充，具体包括，在将目标MFCC特征输入至完成配置的语音敏感词决策树中之前，还包括：获取与目标语音信号匹配的信号持续时长，并计算信号持续时长和预设的误差系数的乘积，作为目标权重值；获取所述语音敏感词决策树中各树节点的节点权重的累加和，并计算所述累加和除以所述目标权重值的商值，作为动态权重系数。

相应的，如图2a所示，该方法包括：

S210、获取语音样本集，将语言样本集的各语音样本与预先构建的敏感语音库中的各敏感语音进行匹配。

S220、根据与同一敏感语音匹配的全部语音样本片段，确定出与敏感语音对应的敏感片段，并根据与该敏感语音匹配成功的次数，作为与该敏感语音匹配的敏感片段在目标语音样本中的出现频次。

S230、根据每个敏感片段的持续时长，计算与每个敏感片段分别对应的时长权重，并根据每个敏感片段的时长权重和出现频次，确定与每个敏感片段分别对应的目标频次。

容易理解的是，由于自然语言口语化的特殊性，不同的敏感词具有不同的敏感词长度，即在口语表达时具有不同的时长，敏感词长度较短的敏感词在口语化的表达中出现的频率更高，故在本实施例中设定敏感词长度较短的敏感词的时长权重较小，敏感词长度较长的敏感词的时长权重较大以平衡语音长度对敏感片段目标频次的影响。

S240、确定与每个敏感片段分别对应的敏感MFCC特征。

S250、按照目标频次，生成与每个敏感片段分别对应的多个重复敏感片段,将各重复敏感片段分别输入至预先构建的语音敏感词决策树中，对语音敏感词决策树中的各项参数进行配置。

具体的，如果一个敏感片段A的目标频次20，则对该敏感片段A进行复制，共得到20个重复敏感片段A’，并将这20个重复敏感片段A’分别输入至预先构建的语音敏感词决策树中。

其中，对语音敏感词决策树中的各项参数进行配置，可以是指对语音敏感词决策树中各树节点的节点权重进行配置，节点权重可以理解为各树节点的分叉概率。

示例性的，如图1c所示，将含有敏感词为“安眠药”的各重复敏感片段分别输入至预先构建的语音敏感词决策树中作为决策树根节点进行敏感词识别，若识别结果为“安眠药”，则说明敏感词识别结果是正确的，对该敏感词对应的语音敏感词决策树分支中各节点的参数进行正向的配置；若识别结果为非“安眠药”的其他结果，则说明敏感词识别结果是错误的，对该识别结果的语音敏感词决策树分支中各节点的参数进行反向的配置。通过上述方式，可以个性化的训练语音敏感词决策树，取到了提高语音敏感词识别的准确性的有益效果。

S260、获取与目标语音信号匹配的信号持续时长，并计算信号持续时长和预设的误差系数的乘积，作为目标权重值。

其中，该目标语音信号具体是指当前待进行敏感词识别的语音信号。可以理解的是，该目标语音信号为获取该语音样本集的实际应用场景中所获取到的信号。

其中，所述目标权重值为信号持续时长和预设的误差系数的乘积，可以用于平衡信号持续时长对敏感词智能识别的影响；进一步的，令信号持续时长为len，误差系数为s，则目标权重值k的计算公式为：k＝len×s。

S270、获取所述语音敏感词决策树中各树节点的节点权重的累加和，并计算所述累加和除以所述目标权重值的商值，作为动态权重系数。

其中，所述动态权重系数为累加和除以所述目标权重值的商值，累加值为语音敏感词决策树中各树节点的节点权重的累加和；进一步的，当决策树具有n个节点时，动态权重系数W的计算公式为：

其中，weight_i为语音敏感词决策树中第i个树节点的节点权重。

S280、使用所述动态权重系数，对完成配置的语音敏感词决策树中的各树节点的节点权重进行动态更新。

可以理解的是，目标语音信号的持续时长越长，k值越大，最终计算得到的W越小；目标语音信号的持续时间约短，k值越小，最终计算得到的W越大。相应的，可以对完成配置的语音敏感词决策树中的各树节点的节点权重分别乘以该动态权重系数，以使得该语音敏感词决策树可以基于该目标语音信号的持续时长，将语音敏感词决策树中的各树节点的节点权重进行粗粒度化处理，进而可以避免对敏感词的漏识别，从一定程度上提高了敏感词的识别准确性。通过上述步骤，可以个性化的训练语音敏感词决策树，取到了提高语音敏感词识别的准确性的有益效果。

S290、获取与目标语音对应的目标MFCC特征，并将目标MFCC特征输入至完成配置的语音敏感词决策树中，获取对目标语音的敏感词识别结果。

本发明实施例的技术方案在基于每个敏感片段的出现频次训练得到该语音敏感词决策树的基础上，进一步在每次语音信号的敏感词识别之前，基于输入语音信号的持续时长，对该语音敏感词决策树中各树节点的节点权重进行了动态更新，使得该语音敏感词决策树进一步可以对输入语音信号的长短进行适配，进一步提高了语音敏感词的识别精准度。

具体应用场景

为了更清楚的表述本发明实施例提供的技术方案，使用本发明实施例的计算方案进行了充分的实验验证，并与其他语音敏感词的识别方法的性能进行了比对验证。

为了保证文中设计的识别方法在实际应用中发挥良好性能，特进行实验，实验所需硬件配置如表2所示。

表2

实验过程中，选取3个数据集进行语音敏感词智能识别测试，每个数据集中包含200条语音信息。其中，第一个数据集是新闻类语音，单条语音长度约5min。第二个数据集是对话类语音，单条语音长度约1min。第三个数据集是评测电话类语音，单条语音长度约30s。针对上述数据集里语音的特征，优化语音分割算法，获取如图2b所示的词素端点分割结果。

采用智能处理系统软件，并结合自然语言处理技术，集中提取分割后语音样本的语音特征。实验中所需的敏感词库通过网络下载整理，共包含2000 个出现次数较多的敏感词。为了确保实验结果的科学性，在相同实验条件下，测试GSV-SVM识别方法、i-vector+PLDA(i-vector+Probabilistic Linear Discriminant Analysis，人声向量与信道补偿算法)识别方法的识别效果，将测试结果与文中设计方法的测试结果相比较，分析敏感词识别方法的性能。

以语音敏感词的识别率为指标，分析实验结果。三种方法针对不同样本集进行敏感词识别，本实施例方法测试结果如图2c所示，GSV-SVM识别方法测试结果如图2d所示,i-vector+PLDA识别方法测试结果如图2e所示。

图2c、2d与2e分别表示本实施例提供的语音敏感词的识别方法识别三种语音样本集的敏感词数量，其中测评电话类样本集的识别数量最高，三种样本集敏感词识别总量达到了81个。而GSV-SVM识别方法和 i-vector+PLDA两种识别方法，面对同样的语音样本集，GSV-SVM识别方法敏感词识别数量为61个、i-vector+PLDA识别方法敏感词识别数量为 40个，明显低于本实施例方法。

通过对上述识别结果进行计算，可以得出不同识别方法的识别率，如表3所示。

表3

根据表3可知，文中设计识别方法的平均识别率高达94.37％，与 GSV-SVM识别方法与i-vector+PLDA识别方法相比，识别率提升了4.84％、 15.24％。因此，本实施例提供的语音敏感词的识别方法在实践应用中，可以发挥更加良好的性能。

实施例三

图3为本发明实施例三提供的一种语音敏感词的识别装置的结构示意图。如图3所示，该装置包括：

敏感片段识别模块310，用于获取语音样本集，并在语言样本集的各语音样本中识别多个敏感片段，并确定与每个敏感片段分别对应的目标频次；

敏感MFCC特征确定模块320，用于确定与每个敏感片段分别对应的敏感MFCC特征；

语音敏感词决策树配置模块330，用于按照目标频次，将与每个敏感片段分别对应的敏感MFCC特征输入至预先构建的语音敏感词决策树中，对语音敏感词决策树中的各项参数进行配置；

敏感词识别模块340，用于获取与目标语音对应的目标MFCC特征，并将目标MFCC特征输入至完成配置的语音敏感词决策树中，获取对目标语音的敏感词识别结果。

在上述各实施例的基础上，敏感片段识别模块310包括：

片段识别单元，用于将语言样本集的各语音样本与预先构建的敏感语音库中的各敏感语音进行匹配。

目标频次确定单元，用于根据匹配结果获取语音样本集中包括的各敏感片段，并确定与每个敏感片段分别对应的目标频次。

在上述各实施例的基础上，目标频次确定单元，具体可以用于：

根据与该敏感语音匹配成功的次数，作为与该敏感语音匹配的敏感片段在目标语音样本中的出现频次；

根据每个敏感片段的持续时长，计算与每个敏感片段分别对应的时长权重，并根据每个敏感片段的时长权重和出现频次，确定与每个敏感片段分别对应的目标频次。

在上述各实施例的基础上，敏感MFCC特征确定模块320包括：

预加重单元，用于对当前处理的目标敏感片段进行预加重处理，得到加重敏感信号。

加窗单元，用于对加重敏感信号进行交叉分帧处理，得到多个音频帧，并对每个音频帧进行加窗处理，得到多个音频加窗帧。

特征提取单元，用于对多个音频加窗帧进行MFCC特征的提取，得到与目标敏感片段对应的敏感MFCC特征。

在上述各实施例的基础上，语音敏感词决策树配置模块330还可用于：

按照目标频次，生成与每个敏感片段分别对应的多个重复敏感片段；将各重复敏感片段分别输入至预先构建的语音敏感词决策树中，对语音敏感词决策树中的各项参数进行配置。

在上述各实施例的基础上，敏感词识别模块340包括：

权重系数计算单元，用于获取与目标语音信号匹配的信号持续时长，并计算信号持续时长和预设的误差系数的乘积，作为目标权重值；获取所述语音敏感词决策树中各树节点的节点权重的累加和，并计算所述累加和除以所述目标权重值的商值，作为动态权重系数。

动态更新单元，使用所述动态权重系数，对完成配置的语音敏感词决策树中的各树节点的节点权重进行动态更新。

在上述各实施例的基础上，还可以包括：

语音替换单元，用于根据在目标语音中识别到的目标敏感语音片段的持续时长，在替换语音库中，获取与目标敏感语音片段匹配的替换语音；使用替换语音替换所述目标语音中的目标敏感语音片段。

本发明实施例所提供的语音敏感词的识别装置可执行本发明任意实施例所提供的语音敏感词的识别方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等) 和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元 (GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如语音敏感词的识别方法。

也即：获取语音样本集，并在语言样本集的每个语音样本中识别多个敏感片段，并确定与每个敏感片段分别对应的目标频次；

确定与每个敏感片段分别对应的敏感MFCC特征特征；

在一些实施例中，语音敏感词的识别方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11 执行时，可以执行上文描述的语音敏感词的识别方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音敏感词的识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/ 或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种语音敏感词的识别方法，其特征在于，包括：

确定与每个敏感片段分别对应的敏感梅尔倒谱系数MFCC特征；

2.根据权利要求1所述的方法，其特征在于，在语言样本集的各语音样本中识别多个敏感片段，并确定与每个敏感片段分别对应的目标频次，包括：

将语言样本集的各语音样本与预先构建的敏感语音库中的各敏感语音进行匹配；

3.根据权利要求2所述的方法，其特征在于，根据匹配结果获取语音样本集中包括的各敏感片段，并确定与每个敏感片段分别对应的目标频次，包括：

根据与同一敏感语音匹配的全部语音样本片段，确定出与所述敏感语音对应的敏感片段；

4.根据权利要求1所述的方法，其特征在于，确定与每个敏感片段分别对应的敏感MFCC特征，包括：

对多个音频加窗帧进行MFCC特征的提取，得到与目标敏感片段对应的敏感MFCC特征。

5.根据权利要求1-4任一项所述的方法，其特征在于，按照目标频次，将与每个敏感片段分别对应的敏感MFCC特征输入至预先构建的语音敏感词决策树中，对语音敏感词决策树中的各项参数进行配置，包括：

按照目标频次，生成与每个敏感片段分别对应的多个重复敏感片段；

将各重复敏感片段分别输入至预先构建的语音敏感词决策树中，对语音敏感词决策树中的各项参数进行配置。

6.根据权利要求1-4任一项所述的方法，其特征在于，在将目标MFCC特征输入至完成配置的语音敏感词决策树中之前，还包括：

获取与目标语音信号匹配的信号持续时长，并计算信号持续时长和预设的误差系数的乘积，作为目标权重值；

获取所述语音敏感词决策树中各树节点的节点权重的累加和，并计算所述累加和除以所述目标权重值的商值，作为动态权重系数；

使用所述动态权重系数，对完成配置的语音敏感词决策树中的各树节点的节点权重进行动态更新。

7.根据权利要求1-4任一项所述的方法，其特征在于，在获取对目标语音的敏感词识别结果之后，还包括：

使用替换语音替换所述目标语音中的目标敏感语音片段。

8.一种语音敏感词的识别装置，其特征在于，包括：

敏感MFCC特征确定模块，用于确定与每个敏感片段分别对应的敏感梅尔倒谱系数MFCC特征；

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的语音敏感词的识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的语音敏感词的识别方法。