CN113112992A

CN113112992A - 一种语音识别方法、装置、存储介质和服务器

Info

Publication number: CN113112992A
Application number: CN201911348260.7A
Authority: CN
Inventors: 于乐; 张滨; 张峰; 江为强
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2021-07-13
Anticipated expiration: 2039-12-24
Also published as: CN113112992B

Abstract

本发明实施例提供了一种语音识别方法、装置、存储介质和服务器。本发明实施例提供的技术方案中，根据待识别语音，生成待识别音频指纹；判断待识别音频指纹是否与音频哈希表匹配成功；若判断出待识别音频指纹与音频哈希表匹配成功，将待识别语音识别为恶意语音；若判断出待识别音频指纹与音频哈希表匹配失败，从待识别语音中提取梅尔倒谱系数特征；对梅尔倒谱系数特征进行关键词分析，生成检索分数；判断检索分数是否大于预设阈值；若判断出检索分数大于预设阈值，则将待识别语音识别为恶意语音，从而可以高效识别恶意语音，提高了识别过程中的灵活性和处理速度。

Description

一种语音识别方法、装置、存储介质和服务器

【技术领域】

本发明涉及通信技术领域，尤其涉及一种语音识别方法、装置、存储介质和服务器。

【背景技术】

近年来，骚扰电话和诈骗电话已成为人们普遍诟病的社会化问题，目前对骚扰诈骗电话和诈骗电话的监控主要靠拨号分析和音频审核的方式为主，目前随着不法分子手段和规模的变化，原有的方法已经很难满足实际业务的需求，存在灵活性较差、处理速度较慢的问题。

【发明内容】

有鉴于此，本发明实施例提供了一种语音识别方法、装置、存储介质和服务器，可以高效识别恶意语音，提高识别过程中的灵活性和处理速度。

一方面，本发明实施例提供了一种语音识别方法，所述方法包括：

根据待识别语音，生成待识别音频指纹；

判断待识别音频指纹是否与音频哈希表匹配成功；

若判断出待识别音频指纹与音频哈希表匹配成功，将待识别语音识别为恶意语音；

若判断出待识别音频指纹与音频哈希表匹配失败，从待识别语音中提取梅尔倒谱系数特征；

对梅尔倒谱系数特征进行关键词分析，生成检索分数；

判断检索分数是否大于预设阈值；

若判断出检索分数大于预设阈值，则将待识别语音识别为恶意语音。

可选地，根据待识别语音，生成待识别音频指纹，具体包括：

从待识别语音中，提取多帧滤波器组特征；

将多帧滤波器组特征相连，生成待识别语音谱图；

将待识别语音谱图划分为指定分布的多个谱图区域，每个谱图区域包括横轴方向和纵轴方向，纵轴方向包括多个子带，每个子带具有子带能量；

按照谱图区域的横轴方向，计算出每个子带的平均子带能量；

根据平均子带能量，对谱图区域进行二进制编码，生成二进制编码值；

将待识别语音谱图的每个谱图区域的二进制编码值拼接成待识别音频指纹。

可选地，从待识别语音中，提取多帧滤波器组特征，具体包括：

将待识别语音进行分帧加窗处理，生成多帧时域信号；

通过快速傅里叶变换，将每帧时域信号变换成对应的频域信号；

通过梅尔滤波器组，根据频域信号，计算出频域信号的子带能量；

对子带能量取对数，生成滤波器组特征。

可选地，对梅尔倒谱系数特征进行关键词分析，生成检索分数，具体包括：

通过声学模型，根据梅尔倒谱系数特征，生成多个候选词格和每个候选词格对应的声学分数；

通过语言模型，根据多个候选词格，生成多个关键词和每个关键词对应的语言分数；

通过维特比算法，根据每个候选词格对应的声学分数和每个关键词对应的语言分数，生成最优分数；

获取最优分数对应的关键词；

将关键词输入动态规划算法模型，根据关键词在预先设置的恶意关键词库中进行检索，输出关键词对应的检索分数。

可选地，还包括：若判断出检索分数小于或等于预设阈值，则将待识别语音识别为正常语音。

可选地，在将待识别语音识别为恶意语音之后，还包括：

从恶意语音中，提取至少一个敏感词汇；

将敏感词汇添加入恶意关键词库。

可选地，在将待识别语音识别为恶意语音之后，还包括：

将恶意语音确定为待识别语音，继续执行根据待识别语音，生成待识别音频指纹的步骤；

将待识别音频指纹确定为音频哈希值；

将音频哈希值添加入音频哈希表。

另一方面，本发明实施例提供了一种语音识别装置，包括：

第一生成单元，用于根据待识别语音，生成待识别音频指纹；

第一判断单元，用于判断待识别音频指纹是否与音频哈希表匹配成功；

第一识别单元，用于若判断出待识别音频指纹与音频哈希表匹配成功，将待识别语音识别为恶意语音；

第一提取单元，用于若判断出待识别音频指纹与音频哈希表匹配失败，从待识别语音中提取梅尔倒谱系数特征；

第二生成单元，用于对梅尔倒谱系数特征进行关键词分析，生成检索分数；

第二判断单元，用于判断检索分数是否大于预设阈值；

第二识别单元，用于若判断出检索分数大于预设阈值，则将待识别语音识别为恶意语音。

另一方面，本发明实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的语音识别方法。

另一方面，本发明实施例提供了一种服务器，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于，所述程序指令被处理器加载并执行时实现上述的语音识别方法的步骤。

本发明实施例的方案中，根据待识别语音，生成待识别音频指纹；判断待识别音频指纹是否与音频哈希表匹配成功；若判断出待识别音频指纹与音频哈希表匹配成功，将待识别语音识别为恶意语音；若判断出待识别音频指纹与音频哈希表匹配失败，从待识别语音中提取梅尔倒谱系数特征；对梅尔倒谱系数特征进行关键词分析，生成检索分数；判断检索分数是否大于预设阈值；若判断出检索分数大于预设阈值，则将待识别语音识别为恶意语音，从而可以高效识别恶意语音，提高了识别过程中的灵活性和处理速度。

【附图说明】

图1为本发明实施例提供的一种语音识别方法的流程图；

图2为本发明实施例提供的又一种语音识别方法的流程图；

图3为本发明实施例提供的一种语音识别装置的结构示意图；

图4为本发明实施例提供的一种服务器的示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述设定阈值，但这些设定阈值不应限于这些术语。这些术语仅用来将设定阈值彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一设定阈值也可以被称为第二设定阈值，类似地，第二设定阈值也可以被称为第一设定阈值。

图1为本发明实施例提供的一种语音识别方法的流程图，如图1所示，该方法包括：

步骤102、根据待识别语音，生成待识别音频指纹。

步骤104、判断待识别音频指纹是否与音频哈希表匹配成功，若是，则执行步骤106；若否，则执行步骤108。

步骤106、将待识别语音识别为恶意语音，流程结束。

步骤108、从待识别语音中提取梅尔倒谱系数特征。

步骤110、对梅尔倒谱系数特征进行关键词分析，生成检索分数。

步骤112、判断检索分数是否大于预设阈值。

步骤114、若判断出检索分数大于预设阈值，则将待识别语音识别为恶意语音。

图2为本发明实施例提供的又一种语音识别方法的流程图,如图2所示，该方法包括：

步骤202、从待识别语音中，提取多帧滤波器组(Filter Bank，简称：FBANK)特征。

本实施例中，各步骤由服务器执行。

本实施例中，步骤202具体包括：

步骤202a、将待识别语音进行分帧加窗处理，生成多帧时域信号。

步骤202b、通过快速傅里叶变换，将每帧时域信号变换成对应的频域信号。

步骤202c、通过梅尔(Mel)滤波器组，根据频域信号，计算出频域信号的子带能量。

具体地，将频域信号输入Mel滤波器组，输出频域信号的子带能量。

步骤202d、对子带能量取对数，生成FBANK特征。

步骤204、将多帧FBANK特征相连，生成待识别语音谱图。

步骤206、将待识别语音谱图划分为指定分布的多个谱图区域，每个谱图区域包括横轴方向和纵轴方向，纵轴方向包括多个子带，每个子带具有子带能量。

本实施例中，每个谱图区域的横轴方向包括多帧语音信号，纵轴方向包括多个子带。可选地，每个谱图区域包括4帧语音信号*4个子带。

本实施例中，每个子带具有子带编号。例如，4个子带的编号依次为0号子带、1号子带、2号子带和3号子带。

本实施例中，指定分布包括在每个谱图区域之间在横轴方向上具有指定重叠率。可选地，指定重叠率为50％。

步骤208、按照谱图区域的横轴方向，计算出每个子带的平均子带能量。

具体地，按照横轴方向，计算出每个谱图区域的每个子带的子带能量的平均值，该平均值为每个子带的平均子带能量。

步骤210、根据平均子带能量，对谱图区域进行二进制编码，生成二进制编码值。

具体地，统计出平均子带能量的最大值；查询该最大值所在的子带编号；按照该最大值所在的子带编号对谱图区域进行二进制编码，生成二进制编码值。

例如，最大值所在的子带编号为0号子带，则进行二进制编码生成的二进制编码值为00；最大值所在的子带编号为1号子带，则进行二进制编码生成的二进制编码值为01；最大值所在的子带编号为2号子带，则进行二进制编码生成的二进制编码值为10；最大值所在的子带编号为3号子带，则进行二进制编码生成的二进制编码值为11。

步骤212、将待识别语音谱图的每个谱图区域的二进制编码值拼接成待识别音频指纹。

具体地，将二进制码值拼接成一长串二进制数据，该二进制数据为待识别音频指纹。

例如，二进制码值分别为11、10、01、00，将二进制码值进行拼接，得到的待识别音频指纹为11100100。

步骤214、判断待识别音频指纹是否与音频哈希表匹配成功，若是，则执行步骤216；若否，则执行步骤218。

本实施例中，音频哈希表中包括多个音频哈希值，音频哈希值包括恶意语音的音频指纹。

本实施例中，若待识别音频指纹与音频哈希表匹配成功，表明该待识别音频指纹对应的待识别语音为恶意语音继续执行步骤216；若待识别音频指纹与音频哈希表匹配失败，表明该待识别音频指纹不存在于现有的音频哈希表中，继续执行步骤218。

步骤216、将待识别语音识别为恶意语音，继续执行步骤234。

本实施例中，恶意语音包括诈骗语音或骚扰电话。

步骤218、从待识别语音中提取梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients，简称：MFCC)特征。

步骤220、通过声学模型，根据MFCC特征，生成多个候选词格和每个候选词格对应的声学分数。

具体地，将MFCC特征输入声学模型，输出多个候选词格和每个候选词格对应的声学分数。

进一步地，从多个候选词格中筛选出对应的声学分数最小的指定数量的候选词格。指定数量为20个。例如，从100个候选词格中筛选出对应的声学分数最小的20个候选词格。

步骤222、通过语言模型，根据多个候选词格，生成多个关键词和每个关键词对应的语言分数。

具体地，将多个候选词格输入语言模型，输出多个关键词和每个关键词对应的语言分数。

步骤224、通过维特比(Viterbi)算法，根据每个候选词格对应的声学分数和每个关键词对应的语言分数，生成最优分数。

具体地，将每个候选词格对应的声学分数和每个关键词对应的语言分数输入Viterbi算法，输出最优分数。

本实施例中，最优分数对应于对应的语言分数，语言分数对应于对应的关键词。

本实施例中，声学分数与语言分数相加，得出相加分数；将最大的相加分数确定为最优分数。

步骤226、获取最优分数对应的关键词。

本实施例中，根据最优分数查询出对应的语言分数；根据语言分数查询出对应的关键词。

步骤228、将关键词输入动态规划算法模型，根据关键词在预先设置的恶意关键词库中进行检索，输出关键词对应的检索分数。

本实施例中，根据关键词在预先设置的恶意关键词库中进行检索是在动态规划算法模型中执行的过程。

本实施例中，恶意关键词库中包括多个敏感词汇。

步骤230、判断检索分数是否大于预设阈值，若是，则执行步骤232；若否，则执行步骤238。

本实施例中，若检索分数大于预设阈值，表明待识别语音为恶意语音；若检索分数小于或等于预设阈值，表明待识别语音为正常语音。

可选地，预设阈值为30％。

步骤232、将待识别语音识别为恶意语音。

作为一种可选方案，将恶意语音确定为待识别语音之后，继续执行步骤202至步骤212；将待识别音频指纹确定为音频哈希值；将音频哈希值添加入音频哈希表。

步骤234、从恶意语音中，提取至少一个敏感词汇。

本实施例中，敏感词汇包括：贷款、回馈、银行卡账户、银行卡密码、转账、中奖、短信验证码中之一或其任意组合。

步骤236、将敏感词汇添加入恶意关键词库。

步骤238、将待识别语音识别为正常语音。

进一步地，对正常语音自动接入人工审核，人工判断正常语音是否仍为恶意语音，若人工判断出正常语音仍为恶意语音，则由服务器对该恶意语音执行步骤202至步骤212，将待识别音频指纹确定为音频哈希值；将音频哈希值添加入音频哈希表；从恶意语音中，提取至少一个敏感词汇；将敏感词汇添加入恶意关键词库，可以通过多次迭代优化语音识别的精度和准确率。

图3为本发明实施例提供的一种语音识别装置的结构示意图，该装置用于执行上述语音识别方法，如图3所示，该装置包括：第一生成单元11、第一判断单元12、第一识别单元13、第一提取单元14、第二生成单元15、第二判断单元16和第二识别单元17。

第一生成单元11用于根据待识别语音，生成待识别音频指纹；

第一判断单元12用于判断待识别音频指纹是否与音频哈希表匹配成功；

第一识别单元13用于若判断出待识别音频指纹与音频哈希表匹配成功，将待识别语音识别为恶意语音；

第一提取单元14用于若判断出待识别音频指纹与音频哈希表匹配失败，从待识别语音中提取梅尔倒谱系数特征；

第二生成单元15用于对梅尔倒谱系数特征进行关键词分析，生成检索分数；

第二判断单元16用于判断检索分数是否大于预设阈值；

第二识别单元17用于若判断出检索分数大于预设阈值，则将待识别语音识别为恶意语音。

本发明实施例中，第一生成单元11具体用于从待识别语音中，提取多帧滤波器组特征；将多帧滤波器组特征相连，生成待识别语音谱图；将待识别语音谱图划分为指定分布的多个谱图区域，每个谱图区域包括横轴方向和纵轴方向，纵轴方向包括多个子带，每个子带具有子带能量；按照谱图区域的横轴方向，计算出每个子带的平均子带能量；根据平均子带能量，对谱图区域进行二进制编码，生成二进制编码值；将待识别语音谱图的每个谱图区域的二进制编码值拼接成待识别音频指纹。

本发明实施例中，第一生成单元11具体还用于将待识别语音进行分帧加窗处理，生成多帧时域信号；通过快速傅里叶变换，将每帧时域信号变换成对应的频域信号；通过梅尔滤波器组，根据频域信号，计算出频域信号的子带能量；对子带能量取对数，生成滤波器组特征。

本发明实施例中，第二生成单元15具体用于通过声学模型，根据梅尔倒谱系数特征，生成多个候选词格和每个候选词格对应的声学分数；通过语言模型，根据多个候选词格，生成多个关键词和每个关键词对应的语言分数；通过维特比算法，根据每个候选词格对应的声学分数和每个关键词对应的语言分数，生成最优分数；获取最优分数对应的关键词；将关键词输入动态规划算法模型，根据关键词在预先设置的恶意关键词库中进行检索，输出关键词对应的检索分数。

本发明实施例中，所述装置还包括：第三识别单元18。

第三识别单元18用于若判断单元16判断出检索分数小于或等于预设阈值，则将待识别语音识别为正常语音。

本发明实施例中，所述装置还包括：第二提取单元19和第一添加单元20。

第二提取单元19用于从恶意语音中，提取至少一个敏感词汇。

第一添加单元20用于将敏感词汇添加入恶意关键词库。

本发明实施例中，所述装置还包括：第一确定单元21、第二确定单元22和第二添加单元23。

第一确定单元21用于将恶意语音确定为待识别语音，触发第一生成单元11执行根据待识别语音，生成待识别音频指纹的步骤。

第二确定单元22用于将待识别音频指纹确定为音频哈希值。

第二添加单元23用于将音频哈希值添加入音频哈希表。

本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述语音识别方法的实施例的各步骤，具体描述可参见上述语音识别方法的实施例。

本发明实施例提供了一种服务器，包括存储器和处理器，存储器用于存储包括程序指令的信息，处理器用于控制程序指令的执行，程序指令被处理器加载并执行时实现上述语音识别方法的实施例的各步骤，具体描述可参见上述语音识别方法的实施例。

图4为本发明实施例提供的一种服务器的示意图。如图4所示，该实施例的服务器30包括：处理器31、存储器32以及存储在存储32中并可在处理器31上运行的计算机程序33，该计算机程序33被处理器31执行时实现实施例中的应用于语音识别方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器31执行时实现实施例中应用于语音识别装置中各模型/单元的功能，为避免重复，此处不一一赘述。

服务器30包括，但不仅限于，处理器31、存储器32。本领域技术人员可以理解，图4仅仅是服务器30的示例，并不构成对服务器30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如服务器还可以包括输入输出设备、网络接入设备、总线等。

所称处理器31可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器32可以是服务器30的内部存储单元，例如服务器30的硬盘或内存。存储器32也可以是服务器30的外部存储设备，例如服务器30上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器32还可以既包括服务器30的内部存储单元也包括外部存储设备。存储器32用于存储计算机程序以及服务器所需的其他程序和数据。存储器32还可以用于暂时地存储已经输出或者将要输出的数据。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

根据待识别语音，生成待识别音频指纹；

判断所述待识别音频指纹是否与音频哈希表匹配成功；

若判断出所述待识别音频指纹与音频哈希表匹配成功，将所述待识别语音识别为恶意语音；

若判断出所述待识别音频指纹与音频哈希表匹配失败，从所述待识别语音中提取梅尔倒谱系数特征；

对所述梅尔倒谱系数特征进行关键词分析，生成检索分数；

判断所述检索分数是否大于预设阈值；

若判断出所述检索分数大于预设阈值，则将所述待识别语音识别为恶意语音。

2.根据权利要求1所述的语音识别方法，其特征在于，所述根据所述待识别语音，生成待识别音频指纹，具体包括：

从所述待识别语音中，提取多帧滤波器组特征；

将所述多帧滤波器组特征相连，生成待识别语音谱图；

将所述待识别语音谱图划分为指定分布的多个谱图区域，每个谱图区域包括横轴方向和纵轴方向，所述纵轴方向包括多个子带，每个子带具有子带能量；

按照所述谱图区域的横轴方向，计算出每个子带的平均子带能量；

根据所述平均子带能量，对所述谱图区域进行二进制编码，生成二进制编码值；

将所述待识别语音谱图的每个谱图区域的二进制编码值拼接成待识别音频指纹。

3.根据权利要求2所述的语音识别方法，其特征在于，所述从所述待识别语音中，提取多帧滤波器组特征，具体包括：

将所述待识别语音进行分帧加窗处理，生成多帧时域信号；

通过梅尔滤波器组，根据所述频域信号，计算出所述频域信号的子带能量；

对所述子带能量取对数，生成滤波器组特征。

4.根据权利要求1所述的语音识别方法，其特征在于，所述对所述梅尔倒谱系数特征进行关键词分析，生成检索分数，具体包括：

通过声学模型，根据所述梅尔倒谱系数特征，生成多个候选词格和每个候选词格对应的声学分数；

通过语言模型，根据所述多个候选词格，生成多个关键词和每个关键词对应的语言分数；

通过维特比算法，根据所述每个候选词格对应的声学分数和每个关键词对应的语言分数，生成最优分数；

获取所述最优分数对应的关键词；

将所述关键词输入动态规划算法模型，根据所述关键词在预先设置的恶意关键词库中进行检索，输出所述关键词对应的检索分数。

5.根据权利要求1所述的语音识别方法，其特征在于，还包括：若判断出所述检索分数小于或等于预设阈值，则将所述待识别语音识别为正常语音。

6.根据权利要求1所述的语音识别方法，其特征在于，在所述将所述待识别语音识别为恶意语音之后，还包括：

从所述恶意语音中，提取至少一个敏感词汇；

将所述敏感词汇添加入恶意关键词库。

7.根据权利要求1所述的语音识别方法，其特征在于，在所述将所述待识别语音识别为恶意语音之后，还包括：

将所述恶意语音确定为待识别语音，继续执行根据所述待识别语音，生成待识别音频指纹的步骤；

将所述待识别音频指纹确定为音频哈希值；

将所述音频哈希值添加入音频哈希表。

8.一种语音识别装置，其特征在于，所述装置包括：

第一判断单元，用于判断所述待识别音频指纹是否与音频哈希表匹配成功；

第一识别单元，用于若判断出所述待识别音频指纹与音频哈希表匹配成功，将所述待识别语音识别为恶意语音；

第一提取单元，用于若判断出所述待识别音频指纹与音频哈希表匹配失败，从所述待识别语音中提取梅尔倒谱系数特征；

第二生成单元，用于对所述梅尔倒谱系数特征进行关键词分析，生成检索分数；

第二判断单元，用于判断所述检索分数是否大于预设阈值；

第二识别单元，用于若判断出所述检索分数大于预设阈值，则将所述待识别语音识别为恶意语音。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的语音识别方法。

10.一种服务器，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于，所述程序指令被处理器加载并执行时实现权利要求1至7任意一项所述的语音识别方法的步骤。