CN112151070B

CN112151070B - 一种语音检测的方法、装置及电子设备

Info

Publication number: CN112151070B
Application number: CN201910562665.4A
Authority: CN
Inventors: 周洪伟
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2023-05-05
Anticipated expiration: 2039-06-26
Also published as: CN112151070A

Abstract

本申请实施例提供了一种电话语音检测的方法、装置及电子设备，包括：获取来电的电话语音信息；对所述电话语音信息进行检测，得到检测结果，其中，所述检测结果表示所述来电为正常电话或非正常电话；在所述检测结果表示所述来电为非正常电话时，对所述来电执行预设操作。实现了通过电话接通后对电话中语音信息的检测，对上述来电进行判断，若经判断来电为非正常电话，通过预设操作对该来电做进行进一步处理，从而方便用户对来电进行识别和管理。

Description

一种语音检测的方法、装置及电子设备

技术领域

本申请涉及语音管理的技术领域，特别是涉及一种语音检测的方法、装置及电子设备。

背景技术

目前，我国通讯产业的发展十分迅速，中国已成为全球用户最多的通讯大国，固定电话、手机等通讯工具也已经称为人们生活中的重要部分。然而，在我国通讯产业迅猛发展的同时，利用现代通讯技术和结算方式的便利进行骚扰甚至违法活动的事件也日益增多，各种骚扰电话等问题常常困扰着人们。尤其是对于一些儿童或者老年人，由于自身辨别能力不强，很容易受到影响。

一般常用的电话检测方法，在有来电呼入时，通过接收并存储来电号码，并将来电号码与事先存储的骚扰电话号码库中的号码或用户标记的号码进行对比。如果有相同号码，对所呼入的来电进行拒接，此方法能有效地避免骚扰电话的多次呼入。然而对于骚扰电话号码库中未储存或没有进行标记的号码，该方法尚不能进行有效分辨。

发明内容

本申请实施例的目的在于提供一种语音检测的方法、装置及电子设备，以实现对异常电话的有效检测。具体技术方案如下：

第一方面，本申请实施例提供了一种语音检测的方法，包括：

获取来电的电话语音信息；

对上述电话语音信息进行检测，得到检测结果，其中，上述检测结果表示上述来电为正常电话或非正常电话；

在上述检测结果表示上述来电为非正常电话时，对上述来电执行预设操作。

可选的，上述正常电话包括人工拨打电话，上述非正常电话包括非人工拨打电话，上述对上述电话语音信息进行检测，得到检测结果，包括：

对上述电话语音信息进行情感检测，得到情感检测结果，其中，上述情感检测结果表示上述来电为人工拨打电话或非人工拨打电话。

可选的，上述正常电话包括非骚扰电话，上述非正常电话包括骚扰电话，上述对上述电话语音信息进行检测，得到检测结果，包括：

将上述电话语音信息与预设语音模板进行匹配，得到模板检测结果，其中，上述模板检测结果表示上述来电为非骚扰电话或骚扰电话，上述预设语音模板为骚扰电话的语音内容模板。

将上述电话语音信息与预设声纹模板进行匹配，得到声纹检测结果，其中，上述声纹检测结果表示上述来电为非骚扰电话或骚扰电话，上述预设声纹模板为骚扰电话的声纹模板。

可选的，在上述对上述电话语音信息进行情感检测，得到情感检测结果之后，上述方法还包括：

在上述情感检测结果表示上述来电为非人工拨打电话时，播放指定语音输入提示，其中，上述指定语音输入提示用于提示来电方输入指定的语音内容；

获取上述来电方输入的语音内容，对上述语音内容进行语音识别，判断上述来电是否为非人工拨打电话。

可选的，上述获取上述来电方输入的语音内容，对上述语音内容进行语音识别，判断上述来电是否非人工拨打电话，包括：

获取上述来电方输入的语音内容；

对上述来电方输入的语音内容进行语音内容的识别；

将语音内容的识别结果与上述指定语音输入提示对应的内容进行匹配；

若匹配成功，则判定上述来电为人工拨打电话；

若匹配失败，则判定上述来电为非人工拨打电话。

可选的，上述对上述电话语音信息进行情感检测，得到情感检测结果，包括：

将上述语音信息转换为声谱图；

将上述声谱图输入卷积循环神经网络CRNN，通过CRNN获取上述声谱图的情感特征；

通过预设算法对上述情感特征进行分类，得到情感检测结果，其中，上述情感检测结果表示上述来电为人工拨打电话或非人工拨打电话。

第二方面，本申请实施例提供了一种语音检测的装置，包括：

语音输入模块，用于获取来电的电话语音信息；

来电检测模块，用于对上述电话语音信息进行检测，得到检测结果，其中，上述检测结果表示上述来电为正常电话或非正常电话；

预设操作模块，用于在上述检测结果表示上述来电为非正常电话时，对上述来电执行预设操作。

可选的，上述正常电话包括人工拨打电话，上述非正常电话包括非人工拨打电话，上述来电检测模块，包括：

情感检测子模块，用于对上述电话语音信息进行情感检测，得到情感检测结果，其中，上述情感检测结果表示上述来电为人工拨打电话或非人工拨打电话。

可选的，上述正常电话包括非骚扰电话，上述非正常电话包括骚扰电话，上述来电检测模块，包括：

模板匹配子模块，用于将上述电话语音信息与预设语音模板进行匹配，得到模板检测结果，其中，上述模板检测结果表示上述来电为非骚扰电话或骚扰电话，上述预设语音模板为骚扰电话的语音内容模板。

声纹识别子模块，用于将上述电话语音信息与预设声纹模板进行匹配，得到声纹检测结果，其中，上述声纹检测结果表示上述来电为非骚扰电话或骚扰电话，上述预设声纹模板为骚扰电话的声纹模板。

可选的，上述来电检测模块包括：

语音提示子模块，用于在上述情感检测结果表示上述来电为非人工拨打电话时，播放指定语音输入提示，其中，上述指定语音输入提示用于提示来电方输入指定的语音内容；

来电判断子模块，用于获取上述来电方输入的语音内容，对上述语音内容进行语音识别，判断上述来电是否为非人工拨打电话。

可选的，上述来电判断子模块包括：

语音内容单元，用于获取上述来电方输入的语音内容；

内容识别单元，用于对上述来电方输入的语音内容进行语音内容的识别；

内容匹配单元，用于将语音内容的识别结果与上述指定语音输入提示对应的内容进行匹配；

匹配成功单元，用于若匹配成功，则判定上述来电为人工拨打电话；

匹配失败单元，用于若匹配失败，则判定上述来电为非人工拨打电话。

可选的，上述情感检测子模块包括：

声谱图单元，用于将上述语音信息转换为声谱图；

情感特征单元，用于将上述声谱图输入卷积循环神经网络CRNN，通过CRNN获取上述声谱图的情感特征；

特征分类单元，用于通过预设算法对上述情感特征进行分类，得到情感检测结果，其中，上述情感检测结果表示上述来电为人工拨打电话或非人工拨打电话。

第三方面，本申请实施例提供了一种电子设备，包括处理器及存储器；

上述存储器，用于存放计算机程序；

上述处理器，用于执行上述存储器上所存放的程序时，实现上述任一语音检测的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现上述任一语音检测的方法。

本申请实施例提供的语音检测的方法、装置及电子设备，获取来电的电话语音信息；对上述电话语音信息进行检测，得到检测结果，其中，上述检测结果表示上述来电为正常电话或非正常电话；在上述检测结果表示上述来电为非正常电话时，对上述来电执行预设操作。实现了通过电话接通后对电话中语音信息的检测，对上述来电进行判断，若经判断来电为非正常电话，通过预设操作对该来电做进行进一步处理，从而方便用户对来电进行识别和管理。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的一种语音检测的方法的第一种流程图；

图2为本申请实施例的一种语音检测的方法的第二种流程图；

图3为本申请实施例的一种语音检测的方法的第三种流程图；

图4为本申请实施例的一种语音检测的装置的第一种结构图；

图5为本申请实施例的一种语音检测的装置的第二种结构图；

图6为本申请实施例的一种语音检测的装置的第三种结构图；

图7为本申请实施例的电子设备的一种示意图；

图8为本申请实施例的一种情感检测网络模型图；

图9为本申请实施例的一种语音识别流程框图；

图10为本申请实施例的一种声纹识别流程框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种语音检测的方法、装置、电子设备及存储介质，以下进行详细说明。

参见图1，图1为本申请实施例的一种语音检测的方法的第一种流程图，包括以下步骤：

步骤101，获取来电的电话语音信息。

本申请实施例的语音检测的方法针对的语音终端设备中的语音信息，因此可以通过语音终端设备执行，具体的，该语音终端设备可以为电话或者智能手机。

在本步骤之前还可以包括：获取来电信息，其中来电信息包括来电的号码和来电时间等。例如，当应用于智能手机时，在用户将电话接通后，通过智能手机中安装的软件获取来电方的电话号码等来电信息，并对所获得的信息进行监测和记录。具体获取和检测方法为现有技术此处不再赘述。

步骤102，对上述电话语音信息进行检测，得到检测结果，其中，上述检测结果表示上述来电为正常电话或非正常电话。

电话语音信息的检测可以包括：情感检测、语音内容检测、模板匹配及声纹检测中的一种或多种。其中：

对上述电话语音信息进行情感检测，得到情感检测结果，可选的，通过基于深度学习的神经网络模型对来电的分类进行判定。其中，上述情感检测结果表示上述来电为人工拨打电话或非人工拨打电话。在一种可能的实施方式中，将所述语音信息转换为声谱图；将所述声谱图输入卷积循环神经网络CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)，通过CRNN获取所述声谱图的情感特征；通过预设算法对所述情感特征进行分类，得到情感检测结果，其中，所述情感检测结果表示所述来电为人工拨打电话或非人工拨打电话。如图8所示，图8为本申请实施例的一种情感检测网络模型图，通过基于CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)网络结构的语音情感识别系统，前端通过捕捉声谱图信息，转换为情感特征，然后融入神经网络进行计算，最终通过归一化层Softmax层对来电进行分类判断。包括，卷积层convolution，池化层pooling，长短期记忆网络LSTM，最小池化层min-pooling，平均池化层average-pooling，最大池化层max-pooling，全连接层FC，归一化层Softmax，最终得到情感分类emotion class。例如，当获取一段语音后，将所获取的语音转换为声谱图输入CRNN网络，通过CRNN网络捕捉声谱图信息并转换为情感特征。其中convolution层用于提取声谱图中的信息，为充分捕捉声谱图中的信息，通过两层convolution层进行信息的捕捉；然后通过池化层进行下采样，可以进行特征降维，压缩数据和参数的数量，从而减小过拟合，提高上述模型的容错性；然后经LSTM层提取时间特征；max-pooling层用于提取情感特征的最大值，average-pooling层用于提取情感特征的平均值，min-pooling层用于提取情感特征的最小值，从而可以进行下采样，减小数据量，得到情感特征。然后通过FC全连接层，其中FC层为简单的多分类神经网络，然后经softmax层进行情感分类，从而判断所述电话为人工拨打的电话或非人工拨打的电话，并将人工拨打的电话判定为正常电话，非人工拨打的电话判定为非正常电话。

在上述情感检测结果表示上述来电为非正常电话时，播放指定语音输入提示，其中，上述指定语音输入提示用于提示来电方输入指定的语音内容；获取上述来电方输入的语音内容，对上述语音内容进行语音识别，判断上述来电是否为非正常电话。在一种可能的实施方式中，获取上述来电方输入的语音内容；对上述来电方输入的语音内容进行语音内容的识别。如图9所示，图9为本申请实施例的一种语音识别流程框图。包括：对声音信号进行预处理，将语音信号首尾端的静音切除，降低对后续步骤造成的干扰；对语音分帧，把声音切开成小段，每小段称为一帧，使用移动窗函数来实现，不是简单的切开，各帧之间一般是有交叠的，通常按25ms的帧长，帧移提取语音输入信号梅尔标度滤波器组特征，并对所得特征在时间维度上按照一定窗长进行拼接堆叠，作为后续检测模型的特征输入；进行特征提取，通过线性预测倒谱系数和MFCC(Mel Frequency Cepstrum Coefficient，Mel频率倒谱系数)，把每一帧波形变成一个包含声音信息的多维向量；通过对语音数据进行训练所获得的声学模型，输入是特征向量，输出为音素信息；通过字典，将字或者词与音素的对应，即中文就是拼音和汉字的对应，英文就是音标与单词的对应；通过对大量文本信息进行训练所得的语言模型，得到单个字或者词相互关联的概率；通过声学模型，字典，语言模型对提取特征后的音频数据进行文字输出。然后将语音内容的文字输出与上述指定语音输入提示对应的内容进行匹配；若匹配成功，则判定上述来电为正常电话；若匹配失败，则判定上述来电为非正常电话。

将上述电话语音信息与预设语音模板进行匹配，得到模板检测结果，其中，上述模板检测结果表示上述来电为非骚扰电话或骚扰电话，上述预设语音模板为骚扰电话的语音内容模板。在一种可能的实施方式中，将上述电话语音信息与预设语音模板进行匹配，可以包括：通过DTW(Dynamic Time Warping，动态时间归整)算法，截取当前来电的录音，并与预设语音模板库中存储的非正常语音模板进行匹配；若匹配则判定当前来电为非正常电话，若不匹配则判定当前来电为正常电话。

将上述电话语音信息与预设声纹模板进行匹配，得到声纹检测结果，其中，上述声纹检测结果表示上述来电为非骚扰电话或骚扰电话，上述预设声纹模板为骚扰电话的声纹模板。在一种可能的实施方式中，将来电的语音经过操作映射为测试特征，测试特征会与声纹模型进行相似度的计算，并得到置信度的得分；将该置信度的得分与人工设定的期望值进行比较，若高于该期望值，则认为测试语音对应的身份与来电身份匹配，反之则不匹配；若匹配则判定该来电为非正常来电，若不匹配则认为该来电为非正常来电。如图10所示，图10为本申请实施例的一种声纹识别流程框图，包括：提供小王、小张、小李的语音作为训练语音，利用该训练语音进行特征提取和模型训练，建立声纹模型；在验证阶段，将一段来电语音经过特征提取后，通过打分和判决，最终判定与声纹库中的小王声纹一直，则判断结果为该来电为小王的来电。

本申请实施例中不对上述各检测的顺序进行限定，可以根据具体的实施场景自行设定。

步骤103，在上述检测结果表示上述来电为非正常电话时，对上述来电执行预设操作。

预设操作可以根据实际要求进行设定，在一种可能的实施方式中，预设操作包括：提醒用户、挂断电话、上报电话号码、上报语音模板、上报声纹模板中的一种或多种。例如，当判断来电为非正常电话后，直接将来电挂断，并将来电的电话号码、语音内容和声纹等信息上报系统，或当判断来电为非正常电话后，只向用户发送语音或文字提醒，由用户选择是否对来电进行挂断等。而当判断来电为正常电话时，不进行上述预设操作。

可见，应用本申请实施例，用户可以通过电话接通后对电话中语音信息的检测，对上述来电进行判断，若经判断来电为非正常电话，可以通过预设操作对该来电做进行进一步处理，从而方便用户对来电进行识别和管理。

参见图2，图2为本申请实施例的一种语音检测的方法的第二种流程图，包括以下步骤：

步骤201，获取来电的电话语音信息。

本申请实施例的一种语音检测的方法可以通过语音终端设备执行，则获取来电的电话语音信息，可以包括，电话接通后,通过采集来电方的语音,并将模拟信号转换为数字信号。例如，当应用于智能手机时，在用户将电话接通后，通过智能手机中安装的软件获取来电方的语音信息，并对所获得的信息进行记录、检测和信号的转换。

步骤202，对上述电话语音信息进行情感检测，得到情感检测结果，其中，上述情感检测结果表示上述来电为正常电话或非正常电话。

对电话语音信息进行情感检测，可以包括对上述电话语音信息进行情感识别，即通过基于大数据和深度学习的情感识别技术，检测出说话人的情绪变化情况。可选的，将所述语音信息转换为声谱图；将所述声谱图输入CRNN(Convolutional Recurrent NeuralNetwork，卷积循环神经网络)，通过CRNN获取所述声谱图的情感特征；通过预设算法对所述情感特征进行分类，得到情感检测结果，其中，所述情感检测结果表示所述来电为人工拨打电话或非人工拨打电话。

步骤203，在上述情感检测结果表示上述来电为非正常电话时，播放指定语音输入提示，其中，上述指定语音输入提示用于提示来电方输入指定的语音内容。

步骤204，获取上述来电方输入的语音内容，对上述语音内容进行语音识别，判断上述来电是否为非正常电话。

当情感检测结果判定来电为非人工拨打的电话时，可以通过本步骤的语音识别来进行辅助判断。例如，系统随机播放一段语音，并要求来电方照着朗读。若该来电为非人工拨打的电话，限于当前智能发展阶段，很难做到可以应对这种临时的回答，即无法得到正确回应。如果对话没有得到正确回应，则可进一步确认为来电为非人工拨打电话则判定来电为非正常电话，若回应正确则判定来电为正常电话。

例如，获取来电方输入的语音内容后，对来电方输入的语音内容进行滤波、分帧等音频数据预处理工作，将需要分析的音频信号从原始语音内容中合适地提取出来，通过特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量。在声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分，而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率，最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。最后对所得到的文本表示进行分析，根据分析结果判断来电是否为人工拨打电话。

步骤205，将上述电话语音信息与预设语音模板进行匹配，得到模板检测结果，其中，上述模板检测结果表示上述来电为正常电话或非正常电话，上述预设语音模板为非正常电话的模板。

通过电话语音信息与预设语音模板进行匹配，可以对常见的广告或推销电话进行过滤。例如，电话接通后，当检测到电话语音信息与预设录音模板库中存储的非正常录音模板相匹配，比如“你好，这里是xxx服务公司，你的信用卡xxx”等非正常电话的录音模板，则判定当前来电为非正常电话，并对该来电执行挂断等预设操作，从而实现该类似非正常电话的过滤。

步骤206，将上述电话语音信息与预设声纹模板进行匹配，得到声纹检测结果，其中，上述声纹检测结果表示上述来电为正常电话或非正常电话，上述预设声纹模板为非正常电话的模板。

因为每个人的口腔、鼻腔与声道结构都存在唯一的差异性，可以对来电方的声纹进行识别。声纹识别，与人脸识别、指纹识别一样，可用来确认说话人的身份。当情感识别技术判断出来电是人工拨打的电话之后，可以通过提取来电方的声纹特征，并与声纹特征库中的非正常声纹特征进行匹配，进而判断当前来电方是否被标记。通过电话语音信息与预设声纹模板进行匹配可以对标记的特定人员的电话进行过滤。可选的，可以通过深度学习算法提取来电方声纹特征，然后与系统声纹特征库中已知的非正常声纹进行匹配，如果当前来电方声纹特征与系统声纹特征库中的某一非正常声纹相吻合，相吻合，则判定为非正常电话。例如，将某些进行推销的人员进行标记并将其声纹录入声纹库，当来电后，提取来电的声纹特征后与声纹库中的特征匹配，如来电的声纹特征与声纹库中的声纹相匹配，则可以认定来电为已被标记的推销人员所拨打，从而判定该来电为非正常电话。

通过声纹识别，可以有效防止骚扰电话等非正常电话，尤其是对于年老的长者或儿童等，由于其辨别能力不高，缺乏自主判断能力，很容易受影响，甚至上当受骗，通过声纹识别可以有效的对来电声纹进行识别，减少类似的骚扰电话。

步骤207，在上述检测结果表示上述来电为非正常电话时，对上述来电执行预设操作。

可见，应用本申请实施例，用户可以通过电话接通后对电话中语音信息的检测，通过情感检测技术判断来电是否是人工拨打的电话，对于非人工拨打的电话还可以通过语音识别进一步确认该来电是否为人工拨打的电话，对于非人工拨打的电话判定为非正常电话，对人工拨打的电话通过与非正常声纹识别进行匹配，以及与非正常录音模板进行匹配的方法，判断该来电是否为正常电话，并对非正常电话执行预设操作，从而方便用户对来电进行识别和管理。

参见图3，图3为本申请实施例的一种语音检测的方法的第三种流程图，包括以下步骤：

步骤301，获取来电的电话语音信息。

步骤302，对上述电话语音信息进行情感检测，得到情感检测结果，其中，上述情感检测结果表示上述来电为正常电话或非正常电话。

步骤303，在上述情感检测结果表示上述来电为非正常电话时，播放指定语音输入提示，其中，上述指定语音输入提示用于提示来电方输入指定的语音内容。

步骤304，获取上述来电方输入的语音内容，对上述语音内容进行语音识别，判断上述来电是否为非正常电话。

步骤305，将上述电话语音信息与预设声纹模板进行匹配，得到声纹检测结果，其中，上述声纹检测结果表示上述来电为正常电话或非正常电话，上述预设声纹模板为非正常电话的模板。

步骤306，将上述电话语音信息与预设语音模板进行匹配，得到模板检测结果，其中，上述模板检测结果表示上述来电为正常电话或非正常电话，上述预设语音模板为非正常电话的模板。

步骤307，在上述检测结果表示上述来电为非正常电话时，对上述来电执行预设操作。

参见图4，图4为本申请实施例的一种语音检测的装置的第一种结构图，包括：

语音输入模块401，用于获取来电的电话语音信息。

来电检测模块402，用于对上述电话语音信息进行检测，得到检测结果，其中，上述检测结果表示上述来电为正常电话或非正常电话。

预设操作模块403，用于在上述检测结果表示上述来电为非正常电话时，对上述来电执行预设操作。

参见图5，图5为本申请实施例的一种语音检测的装置的第二种结构图，包括：

语音输入模块401，用于获取来电的电话语音信息。

情感检测子模块501，用于对上述电话语音信息进行情感检测，得到情感检测结果，其中，上述情感检测结果表示上述来电为正常电话或非正常电话。

语音提示子模块502，用于在上述情感检测结果表示上述来电为非正常电话时，播放指定语音输入提示，其中，上述指定语音输入提示用于提示来电方输入指定的语音内容。

来电判断子模块503，用于获取上述来电方输入的语音内容，对上述语音内容进行语音识别，判断上述来电是否为非正常电话。

模板匹配子模块504，用于将上述电话语音信息与预设语音模板进行匹配，得到模板检测结果，其中，上述模板检测结果表示上述来电为正常电话或非正常电话，上述预设语音模板为非正常电话的模板。

声纹识别子模块505，用于将上述电话语音信息与预设声纹模板进行匹配，得到声纹检测结果，其中，上述声纹检测结果表示上述来电为正常电话或非正常电话，上述预设声纹模板为非正常电话的模板。

参见图6，图6为本申请实施例的一种语音检测的装置的第三种结构图，包括：

语音输入模块401，用于获取来电的电话语音信息。

本申请实施例还提供了一种电子设备，包括：处理器及存储器；

上述存储器，用于存放计算机程序。

上述处理器用于执行上述存储器存放的计算机程序时，实现如下步骤：

获取来电的电话语音信息；

可选的，参见图7，本申请实施例的电子设备还包括通信接口702和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信。

可选的，上述处理器用于执行上述存储器存放的计算机程序时，还能够实现上述任一语音检测的方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现如下步骤：

获取来电的电话语音信息；

可选的，上述计算机程序被处理器执行时，还能够实现上述任一语音检测的方法。

需要说明的是，在本文中，各个可选方案中的技术特征只要不矛盾均可组合来形成方案，这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上上述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种语音检测的方法，其特征在于，包括：

获取来电的电话语音信息；

对所述电话语音信息进行检测，得到检测结果，其中，所述检测结果表示所述来电为正常电话或非正常电话；

在所述检测结果表示所述来电为非正常电话时，对所述来电执行预设操作；

所述正常电话包括人工拨打电话，所述非正常电话包括非人工拨打电话，所述对所述电话语音信息进行检测，得到检测结果，包括：

对所述电话语音信息进行情感检测，得到情感检测结果，其中，所述情感检测结果表示所述来电为人工拨打电话或非人工拨打电话。

2.根据权利要求1所述的方法，其特征在于，所述正常电话包括非骚扰电话，所述非正常电话包括骚扰电话，所述对所述电话语音信息进行检测，得到检测结果，包括：

将所述电话语音信息与预设语音模板进行匹配，得到模板检测结果，其中，所述模板检测结果表示所述来电为非骚扰电话或骚扰电话，所述预设语音模板为骚扰电话的语音内容模板。

3.根据权利要求1所述的方法，其特征在于，所述正常电话包括非骚扰电话，所述非正常电话包括骚扰电话，所述对所述电话语音信息进行检测，得到检测结果，包括：

将所述电话语音信息与预设声纹模板进行匹配，得到声纹检测结果，其中，所述声纹检测结果表示所述来电为非骚扰电话或骚扰电话，所述预设声纹模板为骚扰电话的声纹模板。

4.根据权利要求1所述的方法，其特征在于，在所述对所述电话语音信息进行情感检测，得到情感检测结果之后，所述方法还包括：

在所述情感检测结果表示所述来电为非人工拨打电话时，播放指定语音输入提示，其中，所述指定语音输入提示用于提示来电方输入指定的语音内容；

获取所述来电方输入的语音内容，对所述语音内容进行语音识别，判断所述来电是否为非人工拨打电话。

5.根据权利要求4所述的方法，其特征在于，所述获取所述来电方输入的语音内容，对所述语音内容进行语音识别，判断所述来电是否非人工拨打电话，包括：

获取所述来电方输入的语音内容；

对所述来电方输入的语音内容进行语音内容的识别；

将语音内容的识别结果与所述指定语音输入提示对应的内容进行匹配；

若匹配成功，则判定所述来电为人工拨打电话；

若匹配失败，则判定所述来电为非人工拨打电话。

6.根据权利要求1所述的方法，其特征在于，所述对所述电话语音信息进行情感检测，得到情感检测结果，包括：

将所述语音信息转换为声谱图；

将所述声谱图输入卷积循环神经网络CRNN，通过CRNN获取所述声谱图的情感特征；

通过预设算法对所述情感特征进行分类，得到情感检测结果，其中，所述情感检测结果表示所述来电为人工拨打电话或非人工拨打电话。

7.一种语音检测的装置，其特征在于，包括：

语音输入模块，用于获取来电的电话语音信息；

来电检测模块，用于对所述电话语音信息进行检测，得到检测结果，其中，所述检测结果表示所述来电为正常电话或非正常电话；

预设操作模块，用于在所述检测结果表示所述来电为非正常电话时，对所述来电执行预设操作；

所述正常电话包括人工拨打电话，所述非正常电话包括非人工拨打电话，所述来电检测模块，包括：

情感检测子模块，用于对所述电话语音信息进行情感检测，得到情感检测结果，其中，所述情感检测结果表示所述来电为人工拨打电话或非人工拨打电话。

8.根据权利要求7所述的装置，其特征在于，所述正常电话包括非骚扰电话，所述非正常电话包括骚扰电话，所述来电检测模块，包括：

模板匹配子模块，用于将所述电话语音信息与预设语音模板进行匹配，得到模板检测结果，其中，所述模板检测结果表示所述来电为非骚扰电话或骚扰电话，所述预设语音模板为骚扰电话的语音内容模板。

9.根据权利要求7所述的装置，其特征在于，所述正常电话包括非骚扰电话，所述非正常电话包括骚扰电话，所述来电检测模块，包括：

声纹识别子模块，用于将所述电话语音信息与预设声纹模板进行匹配，得到声纹检测结果，其中，所述声纹检测结果表示所述来电为非骚扰电话或骚扰电话，所述预设声纹模板为骚扰电话的声纹模板。

10.根据权利要求7所述的装置，其特征在于，所述来电检测模块包括：

语音提示子模块，用于在所述情感检测结果表示所述来电为非人工拨打电话时，播放指定语音输入提示，其中，所述指定语音输入提示用于提示来电方输入指定的语音内容；

来电判断子模块，用于获取所述来电方输入的语音内容，对所述语音内容进行语音识别，判断所述来电是否为非人工拨打电话。

11.根据权利要求10所述的装置，其特征在于，所述来电判断子模块包括：

语音内容单元，用于获取所述来电方输入的语音内容；

内容识别单元，用于对所述来电方输入的语音内容进行语音内容的识别；

内容匹配单元，用于将语音内容的识别结果与所述指定语音输入提示对应的内容进行匹配；

匹配成功单元，用于若匹配成功，则判定所述来电为人工拨打电话；

匹配失败单元，用于若匹配失败，则判定所述来电为非人工拨打电话。

12.根据权利要求7所述的装置，其特征在于，所述情感检测子模块包括：

声谱图单元，用于将所述语音信息转换为声谱图；

情感特征单元，用于将所述声谱图输入卷积循环神经网络CRNN，通过CRNN获取所述声谱图的情感特征；

特征分类单元，用于通过预设算法对所述情感特征进行分类，得到情感检测结果，其中，所述情感检测结果表示所述来电为人工拨打电话或非人工拨打电话。

13.一种电子设备，其特征在于，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-6任一所述的语音检测的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的语音检测的方法。