CN110853648A

CN110853648A - 一种不良语音检测方法、装置、电子设备及存储介质

Info

Publication number: CN110853648A
Application number: CN201911049156.8A
Authority: CN
Inventors: 徐波
Original assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Multi Benefit Network Co Ltd; Guangzhou Duoyi Network Co Ltd
Current assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Multi Benefit Network Co Ltd; Guangzhou Duoyi Network Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-28
Anticipated expiration: 2039-10-30
Also published as: CN110853648B

Abstract

本发明公开了一种不良语音检测方法、装置、电子设备即存储介质，其中方法包括：获取预设时长的待检测语音，并提取待检测语音的语音特征；根据待检测语音的语音特征和预先建立的神经网络模型，对待检测语音进行语音识别和基于注意力机制的不良发音识别，获得待检测语音的文字序号分布和发音分类结果；其中，神经网络模型包含预设的文字库，文字库中每一个文字均有对应的文字序号；根据文字序号分布和预设的不良关键词字典，检测待检测语音中是否存在不良关键词；若待检测语音中存在不良关键词，则判定待检测语音为不良语音；若待检测语音中不在不良关键词，则根据发音分类结果判断待检测语音是否为不良语音。本发明能够提高不良语音检测的准确度。

Description

一种不良语音检测方法、装置、电子设备及存储介质

技术领域

本发明涉及语音检测技术领域，尤其涉及一种不良语音检测方法、装置、电子设备及存储介质。

背景技术

随着科学技术的发展，语音交流成为当前网络社交、数媒传播等领域重要的交流方式。在输出语音之前，往往需要对输入的语音进行检测，对语音中的不良语音进行过滤，以维护正常、健康的语音交流环境。

现有技术中，对不良语音的检测，往往是将语音转换成文字后，根据文字内容来对语音的语义进行判断，检测出语音是否为不良语音。但是仅通过语音对应的文字内容检测不良语音，只能对具有对应文字的声音获取语义，往往丢失了语音中的语气信息，不能对具有不良暗示语气的语音进行检测，例如涉及暴力、涉黄等不具有具体对应文字的不良语音或者语音对应的文字携带有不良语气的不良语音，采用现有技术的方法并不能准确地检测出不良语音。

发明内容

本发明实施例所要解决的技术问题在于，提供一种不良语音检测方法、装置、电子设备及存储介质，能够提高不良语音检测的准确度。

为了解决上述技术问题，第一方面，本发明提供了一种不良语音检测方法，所述方法包括：

获取预设时长的待检测语音，并提取所述待检测语音的语音特征；

根据所述待检测语音的语音特征和预先建立的神经网络模型，对所述待检测语音进行语音识别和基于注意力机制的不良发音识别，获得所述待检测语音的文字序号分布和发音分类结果；其中，所述神经网络模型包含预设的文字库，所述文字库中每一个文字均对应有唯一的文字序号；

根据所述文字序号分布和预设的不良关键词字典，检测所述待检测语音中是否存在不良关键词；其中，所述不良关键词字典存储有预先收集的若干个不良关键词样本；

若所述待检测语音中存在不良关键词，则判定所述待检测语音为不良语音；

若所述待检测语音中不在不良关键词，则根据所述发音分类结果判断所述待检测语音是否为不良语音。

进一步的，所述待检测语音的语音特征为所述待检测语音的频谱特征，所述神经网络模型包括主干网络、语音识别网络和基于注意力机制建立的不良发音分类网络；则所述根据所述语音特征和预先建立的神经网络模型，对所述待检测语音进行语音识别和基于注意力机制的不良发音识别，获得所述待检测语音的文字序号分布和发音分类结果，具体包括：

根据所述主干网络和所述待检测语音的频谱特征，提取出所述待检测语音的序列特征；

将所述序列特征输入所述语音识别网络，获得所述待检测语音的所述文字序号分布；

将所述序列特征输入所述不良发音分类网络，获得所述待检测语音的发音分类结果。

进一步的，所述方法预先通过以下步骤训练获得所述神经网络模型：

获取若干条预设时长的训练语音，并获取每一所述训练语音对应的文字序号分布标记信息和不良语音分类结果标记信息；

提取每一所述训练语音的语音特征，并将每一所述训练语音的语音特征输入初始神经网络模型，获得每一所述训练语音对应的初始文字序号分布和初始发音分类结果；

根据每一所述训练语音对应的所述文字序号分布标记信息和所述初始文字序号分布，对所述语音识别网络的第一损失函数进行计算，获得第一损失结果；

根据每一所述训练语音对应的所述不良语音分类结果标记信息和所述初始发音分类结果，对所述不良发音分类网络的第二损失函数进行计算，获得第二损失结果；

根据若干条所述训练语音对应的所述第一损失结果和第二损失结果，对所述初始神经网络模型进行迭代更新，直至所述初始神经网络模型收敛，获得所述神经网络模型。

进一步的，所述第一损失函数为CTC损失函数，所述第二损失函数为交叉熵损失函数。

进一步的，所述获取预设时长的待检测语音具体包括：

获取原始语音，并对所述原始语音进行滤波处理，获得有声语音；

将所述有声语音按照预设时长进行划分，获得若干个语音序列；

对每一所述语音序列进行归一化处理，获得若干个预设时长的所述待检测语音。

进一步的，所述提取所述待检测语音的语音特征具体包括：

根据预设的窗函数，获得所述待检测语音的加窗语音信号；

将所述加窗语音信号进行傅里叶变换处理，获得所述待检测语音的频谱；

将所述频谱输入预设的梅尔滤波器，获得所述待检测语音的梅尔频谱；

根据预设的对数函数对所述待检测语音的所述梅尔频谱进行取对数，并对取对数后的梅尔频谱进行标准化处理，获得所述待检测语音的语音特征。

进一步的，所述不良发音分类网络包括注意力机制层和全连接层，则所述将所述序列特征输入所述不良发音分类网络，获得所述待检测语音的发音分类结果具体包括：

将所述序列特征输入所述不良发音分类网络的注意力机制层，获得所述待检测语音的特征向量；

将所述特征向量输入所述全连接层，获得所述待检测语音的发音分类结果。

为了解决相应的技术问题，第二方面，本发明还提供了一种不良语音检测装置，所述装置包括：

提取模块，用于获取预设时长的待检测语音，并提取所述待检测语音的语音特征；

获得模块，用于根据所述待检测语音的语音特征和预先建立的神经网络模型，对所述待检测语音进行语音识别和基于注意力机制的不良发音识别，获得所述待检测语音的文字序号分布和发音分类结果；其中，所述神经网络模型包含预设的文字库，所述文字库中每一个文字均对应有唯一的文字序号；

检测模块，用于根据所述文字序号分布和预设的不良关键词字典，检测所述待检测语音中是否存在不良关键词；

判定模块，用于若所述待检测语音中存在不良关键词，则判定所述待检测语音为不良语音；

判断模块，用于若所述待检测语音中不在不良关键词，则根据所述发音分类结果判断所述待检测语音是否为不良语音。

为了解决相应的技术问题，第三方面，本发明还提供了一种电子设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面中任意一项所述的不良语音检测方法。

为了解决相应的技术问题，第四方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面中任意一项所述的不良语音检测方法。

上述提供的不良语音检测方法、装置、电子设备及存储介质，除了能够获取待检测语音对应的文字信息外，还能根据待检测的发音特征获取的发音分类结果，并联合待检测语音的文字信息和发音分类结果检测出待检测语音是否为不良语音。相比于现有技术，本申请能够抓住待检测语音的文字信息和发音特征，识别出待检测语音的文字信息和各种语气信息，既能够检测出语音语义不良的不良语音，又能够检测出不具有具体语音文字的不良语音或者语音对应的文字携带有不良语气的不良语音，提高不良语音检测的准确度。同时，本申请通过语音识别的约束联合基于注意力机制的不良发音识别，能够提高不良语音的识别精度，进一步提高不良语音检测准确度。

附图说明

图1是本发明提供的一种不良语音检测方法的一个优选实施例的流程示意图；

图2是本发明提供的一种不良语音检测装置的一个优选实施例的结构示意图；

图3是本发明提供的一种电子设备的一个优选实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种不良语音检测方法，请参阅图1，图1是本发明提供的一种不良语音检测方法的一个优选实施例的流程示意图；具体的，所述方法包括：

S1、获取预设时长的待检测语音，并提取所述待检测语音的语音特征；

S2、根据所述待检测语音的语音特征和预先建立的神经网络模型，对所述待检测语音进行语音识别和基于注意力机制的不良发音识别，获得所述待检测语音的文字序号分布和发音分类结果；其中，所述神经网络模型包含预设的文字库，所述文字库中每一个文字均对应有唯一的文字序号；

S3、根据所述文字序号分布和预设的不良关键词字典，检测所述待检测语音中是否存在不良关键词；其中，所述不良关键词字典存储有预先收集的若干个不良关键词样本；

S4、若所述待检测语音中存在不良关键词，则判定所述待检测语音为不良语音；

S5、若所述待检测语音中不在不良关键词，则根据所述发音分类结果判断所述待检测语音是否为不良语音。

具体实施时，获取预设时长的待检测语音，提取待检测语音的语音特征；根据待检测语音的语音特征和神经网络模型，对待检测语音进行语音识别，获得待检测语音的文字序号分布，该文字序号分布为待检测语音中所有文字在文字库对应的文字序号按照时间顺序的依次排布获得的序号分布，例如待检测语音中依次包括文字“我爱祖国”，其中在文字库中“我”字的文字序号为10，“爱”字的文字序号为11，“祖”字的文字序号为12，“国”字的文字序号为13，则此待检测语音的文字序号分布为“10111213”，或者当文字库的文字较多时，可以在每一个文字之间增加间隔符号来区分每一个文字的文字序号，例如间隔符号为“*”，则此待检测语音的文字序号分布为“10*11*12*13”。还根据神经网络模型，对待检测语音进行基于注意力机制的不良发音识别，获得待检测语音的发音分类结果，发音分类结果是针对待检测语音的发音情况来获得的，而发音情况既包括了文字的发音，还包括各种语气等无具体对应文字的发音。

根据文字序号分布和预设的不良关键词字典，检测待检测语音中是否存在不良关键词。具体的，可以是将文字序号分布转换成语音文字后，将语音文字与不良关键词字典中存储的不良关键词样本进行匹配，有匹配成功的不良关键词样本，则说明待检测语音中存在不良关键词，未找到相匹配的不良关键词样本则说明待检测语音中不存在不良关键词。还可以是不良关键词字典中也存储有每一个不良关键词样本对应的文字序号分布样本，直接通过匹配待检测语音的文字序号分布和不良关键词样本的文字序号分布样本来检测待检测语音中是否存在不良关键词。

若待检测语音中存在不良关键词，说明不管待检测语音的语气是否正常，其语义已经是不良语义，待检测语音是明确含有不良语义的语音，则直接判定待检测语音为不良语音；

若待检测语音中不在不良关键词，只能说明待检测语音对应的文字内容正常，但是待检测语音还可能是存在不良语气的不良语音，则本申请进一步根据反映待检测语音发音情况的发音分类结果判断待检测语音是否为不良语音，具体的，若发音分类结果为不良发音类别，则判定待检测语音为不良语音，若发音分类结果为正常发音类别，则判定待检测语音不为不良语音。

检测出待检测语音是否为不良语音后，可采取一系列的处理，例如若检测出待检测语音为不良语音，则对不良语音进行消音过滤，还可以进一步提醒相应的用户或者管理后台；若检测出待检测语音不为不良语音，则正常输出相应的语音，或者根据用户的需求转换成文字供相应的用户查阅。

需要说明的是，基于注意力机制的不良发音识别中，能够通过注意力机制，调整获得待检测语音中不同时间段的语音区域的注意力分值，根据注意力分值可以获得最需要关注的语音段。注意力机制也被证明在时间序列数据的分类中具有很好的效果，可以提升分类结果的准确度，且注意力分值大的时间段能够将模型关注的区域可视化，在模型正式使用前，可以简便地判断出模型的有效性。例如若模型关注的区域与不良语音的训练语音的不良语音段重合，说明模型效果好、准确。

需要说明的是，文字库的每一文字对应的文字序号可以由数字、字符、大小写字母等任意一种或任意组合构成，只要每一文字的文字序号唯一对应，且能适用于本发明的技术方案即可，上述的实施例以文字序号由数字构成作为示意说明，并不是对本发明的文字序号的形式进行限定。

需要说明的是，本发明的不良发音识别是对待检测语音的发音特征的识别，发音特征能够包括文字原本的发音特征、在文字原本发音上附加各种语气形成的发音特征、以及各种不具有文字内容的发音特征，并不是对语音的语音文字识别。本申请的发音分类结果可分为不良发音类别和正常发音类别，还可以是具体细分的发音类别。

本发明提供的不良语音检测方法，除了能够获取待检测语音对应的文字信息外，还能根据待检测的发音特征获取的发音分类结果，并联合待检测语音的文字信息和发音分类结果检测出待检测语音是否为不良语音。相比于现有技术，本申请能够抓住待检测语音的文字信息和发音特征，识别出待检测语音的文字信息和各种语气信息，既能够检测出语音语义不良的不良语音，又能够检测出不具有具体语音文字的不良语音或者语音对应的文字携带有不良语气的不良语音，提高不良语音检测的准确度。同时，本申请通过语音识别的约束联合基于注意力机制的不良发音识别，能够提高不良语音的识别精度，进一步提高不良语音检测准确度。进一步的，本申请的语音识别并不是直接识别出待检测语音的不良关键词，而是获得待检测语音的全部语音文字的文字序号，能够获得待检测语音的全面的文字信息，保证所有语音文字均被提取出来，结合不良关键词字典再判断待检测语音中是否有不良关键词，与现有技术直接通过检测不良关键字的模型对语音中不良关键词进行检测判断的技术方案相比，本申请能够减少因为模型本申请的缺陷而未能检测出不良关键词的风险，减少误判；同时，由于本申请的神经网络模型获得文字序号分布，并不是获得不良关键词，本申请的不良关键词是根据不良关键词字典确定的，故当不良关键词更新时，本申请也不需要对神经网络模型进行重新训练，只需要对应对不良关键词字典进行更新即可，减低研发成本。

优选地，所述待检测语音的语音特征为所述待检测语音的频谱特征，所述神经网络模型包括主干网络、语音识别网络和基于注意力机制建立的不良发音分类网络；则所述根据所述语音特征和预先建立的神经网络模型，对所述待检测语音进行语音识别和基于注意力机制的不良发音识别，获得所述待检测语音的文字序号分布和发音分类结果，具体包括：

本申请的神经网络模型分为三个部分：主干网络、语音识别网络和不良发音分类网络，分别进行待检测语音的序列特征的提取、文字序号分布的获得、发音分类结果的获得。其中，语音识别网络和不良发音分类网络共享主干网络提取的序列特征。

可选的，主干网络包含多层一维卷积神经网络，每一层一维卷积神经网络包含标准化层和relu激活层，多层一维卷积神经网络的通道数从输入到输出，每次增加通道数时，以2倍的倍数增加，例如多层一维卷积神经网络的通道数从输入到输出依次为128、256、256、512、512、1024。可选的，语音识别网络包含两层的一维卷积神经网络，通道数分别为1024和文字库中文字的总数量。可选的，不良发音分类网络包含注意力机制层和全连接层，注意力机制层可以获得每一语音段的注意力分值，并根据注意力分值获得注意力关注语音段对应的特征向量，需要说明的是，注意力机制层的构建已有成熟的技术，故在此不再赘述。

优选地，所述方法预先通过以下步骤训练获得所述神经网络模型：

本发明提供的不良语音检测方法，通过若干个训练语音以及预先标记的每一训练语音对应的文字序号分布标记信息和不良语音分类结果标记信息，对语音识别网络的第一损失函数进行计算以获得第一损失结果，对不良发音分类网络的第二损失函数进行计算以获得第二损失结果；根据第一损失结果和第二损失结果反响传播更新神经网络模型的参数，根据若干个训练语音对应的第一损失结果和第二损失结果迭代更新若干次，直至初始神经网络模型收敛，即第一损失函数和第二损失函数均收敛，获得神经网络模型。

优选地，所述第一损失函数为CTC损失函数，所述第二损失函数为交叉熵损失函数。

需要说明的是，CTC(Connectionist Temporal Classification)损失函数是是指基于时间序列标注的一种损失函数。目前现有技术中已有构建CTC损失函数和交叉熵损失函数相应的方法，故在此不再赘述CTC损失函数和交叉熵损失函数的内容。

优选地，所述获取预设时长的待检测语音具体包括：

具体的，对应获取的原始语音，先通过滤波处理过滤掉无声音的语音信号，除去无声音的语音信号，获得有声语音，具体的可以设置一定的幅值阈值对原始语音进行过滤，以省去对无用的语音信号进行检测识别，加快不良语音的检测效率。获取有声语音后，将时长大于一定长度的有声语音进行切分，划分出若干个语音序列。对于每一个语音序列进行归一化处理，可选的，确定语音序列中所有信号的幅值中的最大幅值，将语音序列中所有信号的幅值除于该最大幅值，完成归一化，获得若干个预设时长的待检测语音。

优选地，所述提取所述待检测语音的语音特征具体包括：

根据预设的窗函数，获得所述待检测语音的加窗语音信号；

需要说明的是，对取对数后的梅尔频谱进行标准化处理，是确定取对数后的梅尔频谱的所有频率信号的幅值中的最大幅值，将取对数后的梅尔频谱中所有频率信号的幅值均除于该最大幅值，完成标准化处理，获得待检测语音的语音特征。

优选地，所述不良发音分类网络包括注意力机制层和全连接层，则所述将所述序列特征输入所述不良发音分类网络，获得所述待检测语音的发音分类结果具体包括：

不良发音分类网络包含注意力机制层和全连接层，注意力机制层可以获得每一语音段的注意力分值，并根据注意力分值获得注意力关注语音段对应的特征向量，需要说明的是，注意力机制层的构建已有成熟的技术，故在此不再赘述。

本发明提供的一种不良语音检测方法，具体实施时，获取预设时长的待检测语音，提取待检测语音的语音特征；根据待检测语音的语音特征和神经网络模型，对待检测语音进行语音识别，获得待检测语音的文字序号分布，该文字序号分布为待检测语音中所有文字在文字库对应的文字序号按照时间顺序的依次排布获得的序号分布；还根据神经网络模型，对待检测语音进行基于注意力机制的不良发音识别，获得待检测语音的发音分类结果，发音分类结果是针对待检测语音的发音情况来获得的，而发音情况既包括了文字的发音，还包括各种语气等无具体对应文字的发音。根据文字序号分布和预设的不良关键词字典，检测待检测语音中是否存在不良关键词。若待检测语音中存在不良关键词，说明不管待检测语音的语气是否正常，其语义已经是不良语义，待检测语音是明确含有不良语义的语音，则直接判定待检测语音为不良语音；若待检测语音中不在不良关键词，只能说明待检测语音对应的文字内容正常，但是待检测语音还可能是存在不良语气的不良语音，则本申请进一步根据反映待检测语音发音情况的发音分类结果判断待检测语音是否为不良语音，具体的，若发音分类结果为不良发音类别，则判定待检测语音为不良语音，若发音分类结果为正常发音类别，则判定待检测语音不为不良语音。

本发明提供的不良语音检测方法，除了能够获取待检测语音对应的文字信息外，还能根据待检测的发音特征获取的发音分类结果，并联合待检测语音的文字信息和发音分类结果检测出待检测语音是否为不良语音。相比于现有技术，本申请能够抓住待检测语音的文字信息和发音特征，识别出待检测语音的文字信息和各种语气信息，既能够检测出语音语义不良的不良语音，又能够检测出不具有具体语音文字的不良语音或者语音对应的文字携带有不良语气的不良语音，提高不良语音检测的准确度。同时，本申请通过语音识别的约束联合基于注意力机制的不良发音识别，能够提高不良语音的识别精度，进一步提高不良语音检测准确度。进一步的，本申请的语音识别并不是直接识别出待检测语音的不良关键词，而是获得待检测语音的全部语音文字的文字序号，能够获得待检测语音的全面的文字信息，保证所有语音文字均被提取出来，结合不良关键词字典再判断待检测语音中是否有不良关键词，与现有技术直接通过检测不良关键字的模型对语音中不良关键词进行检测判断的技术方案相比，本申请能够减少因为模型本申请的缺陷而未能检测出不良关键词的风险，减少误判；同时，由于本申请的神经网络模型获得文字序号分布，并不是获得不良关键词，本申请的不良关键词是根据不良关键词字典确定的，故当不良关键词更新时，本申请也不需要对神经网络模型进行重新训练，只需要对应对不良关键词字典进行更新即可，减低研发成本

本发明还提供了一种不良语音检测装置，请参阅图2，图2是本发明提供的一种不良语音检测装置的一个优选实施例的结构示意图；具体的，所述装置包括：

提取模块11，用于获取预设时长的待检测语音，并提取所述待检测语音的语音特征；

获得模块12，用于根据所述待检测语音的语音特征和预先建立的神经网络模型，对所述待检测语音进行语音识别和基于注意力机制的不良发音识别，获得所述待检测语音的文字序号分布和发音分类结果；其中，所述神经网络模型包含预设的文字库，所述文字库中每一个文字均对应有唯一的文字序号；

检测模块13，用于根据所述文字序号分布和预设的不良关键词字典，检测所述待检测语音中是否存在不良关键词；

判定模块14，用于若所述待检测语音中存在不良关键词，则判定所述待检测语音为不良语音；

判断模块15，用于若所述待检测语音中不在不良关键词，则根据所述发音分类结果判断所述待检测语音是否为不良语音。

优选地，所述待检测语音的语音特征为所述待检测语音的频谱特征，所述神经网络模型包括主干网络、语音识别网络和基于注意力机制建立的不良发音分类网络；则所述获得模块12具体包括：

序列特征获得单元，用于根据所述主干网络和所述待检测语音的频谱特征，提取出所述待检测语音的序列特征；

文字序号分布获得单元，用于将所述序列特征输入所述语音识别网络，获得所述待检测语音的所述文字序号分布；

发音分类结果获得单元，用于将所述序列特征输入所述不良发音分类网络，获得所述待检测语音的发音分类结果。

优选地，所述装置还包括用于训练获得所述神经网络模型的训练模块，所述训练模块具体用于：

优选地，当所述提取模块11用于获取预设时长的待检测语音时，所述提取模块11具体用于：

优选地，当所述提取模块11用于提取所述待检测语音的语音特征时，所述提取模块11具体用于：

根据预设的窗函数，获得所述待检测语音的加窗语音信号；

优选地，所述不良发音分类网络包括注意力机制层和全连接层，则发音分类结果获得单元具体用于：

本发明提供的一种不良语音检测装置，除了能够获取待检测语音对应的文字信息外，还能根据待检测的发音特征获取的发音分类结果，并联合待检测语音的文字信息和发音分类结果检测出待检测语音是否为不良语音。相比于现有技术，本申请能够抓住待检测语音的文字信息和发音特征，识别出待检测语音的文字信息和各种语气信息，既能够检测出语音语义不良的不良语音，又能够检测出不具有具体语音文字的不良语音或者语音对应的文字携带有不良语气的不良语音，提高不良语音检测的准确度。同时，本申请通过语音识别的约束联合基于注意力机制的不良发音识别，能够提高不良语音的识别精度，进一步提高不良语音检测准确度。进一步的，本申请的语音识别并不是直接识别出待检测语音的不良关键词，而是获得待检测语音的全部语音文字的文字序号，能够获得待检测语音的全面的文字信息，保证所有语音文字均被提取出来，结合不良关键词字典再判断待检测语音中是否有不良关键词，与现有技术直接通过检测不良关键字的模型对语音中不良关键词进行检测判断的技术方案相比，本申请能够减少因为模型本申请的缺陷而未能检测出不良关键词的风险，减少误判；同时，由于本申请的神经网络模型获得文字序号分布，并不是获得不良关键词，本申请的不良关键词是根据不良关键词字典确定的，故当不良关键词更新时，本申请也不需要对神经网络模型进行重新训练，只需要对应对不良关键词字典进行更新即可，减低研发成本

需要说明的是，本发明实施例提供的所述不良语音检测装置用于执行上述实施例所述的一种不良语音检测方法的步骤，两者的工作原理和有益效果一一对应，因而不再赘述。

本领域技术人员可以理解，所述不良语音检测装置的示意图仅仅是不良语音检测装置的示例，并不构成对一种不良语音检测装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述不良语音检测装置还可以包括输入输出设备、网络接入设备、总线等。

本发明还提供了一种电子设备，请参阅图3，图3是本发明提供的一种电子设备的一个优选实施例的结构示意图；具体的，所述电子设备包括处理器10、存储器20以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述实施例中提供的任意一项所述的不良语音检测方法。

具体的，该电子设备中的处理器、存储器均可以是一个或者多个，电子设备可以是语音检测器、电脑、手机、平板、服务器等可以进行声音检测的设备。

本实施例的电子设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述实施例提供的不良语音检测方法中的步骤，例如图1所示的步骤S1、获取预设时长的待检测语音，并提取所述待检测语音的语音特征。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能，例如实现提取模块11，用于获取预设时长的待检测语音，并提取所述待检测语音的语音特征。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元(如图3所示的计算机程序1、计算机程序2、······)，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电子设备中的执行过程。例如，所述计算机程序可以被分割成提取模块11、获得模块12、检测模块13、判定模块14和判断模块15，各模块具体功能如下：

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述电子设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例提供的不良语音检测方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述任一实施例提供的不良语音检测方法的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，上述电子设备可包括，但不仅限于，处理器、存储器，本领域技术人员可以理解，图3结构示意图仅仅是上述电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例中提供的任意一项所述的不良语音检测方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种不良语音检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的不良语音检测方法，其特征在于，所述待检测语音的语音特征为所述待检测语音的频谱特征，所述神经网络模型包括主干网络、语音识别网络和基于注意力机制建立的不良发音分类网络；则所述根据所述语音特征和预先建立的神经网络模型，对所述待检测语音进行语音识别和基于注意力机制的不良发音识别，获得所述待检测语音的文字序号分布和发音分类结果，具体包括：

3.如权利要求1所述的不良语音检测方法，其特征在于，所述方法预先通过以下步骤训练获得所述神经网络模型：

4.如权利要求3所述的不良语音检测方法，其特征在于，所述第一损失函数为CTC损失函数，所述第二损失函数为交叉熵损失函数。

5.如权利要求1所述的不良语音检测方法，其特征在于，所述获取预设时长的待检测语音具体包括：

6.如权利要求1所述的不良语音检测方法，其特征在于，所述提取所述待检测语音的语音特征具体包括：

根据预设的窗函数，获得所述待检测语音的加窗语音信号；

7.如权利要求2所述的不良语音检测方法，其特征在于，所述不良发音分类网络包括注意力机制层和全连接层，则所述将所述序列特征输入所述不良发音分类网络，获得所述待检测语音的发音分类结果具体包括：

8.一种不良语音检测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的不良语音检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的不良语音检测方法。