CN109801638B

CN109801638B - 语音验证方法、装置、计算机设备及存储介质

Info

Publication number: CN109801638B
Application number: CN201910068827.9A
Authority: CN
Inventors: 黎立桂
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2023-10-13
Anticipated expiration: 2039-01-24
Also published as: CN109801638A; WO2020151317A1

Abstract

本发明实施例公开了一种语音验证方法、装置、计算机设备及存储介质，包括下述步骤：获取验证语音信息，其中，所述验证语音信息为验证用户在朗读验证信息时，目标终端采集到的语音内容；根据所述验证语音信息判断所述语音内容是否为预设的声音类别，其中，所述预设的声音类别为表征语音内容为人类声音的声音分类；当判断所述语音内容不属于所述预设的声音类别时，确定语音验证失败。通过对验证语音是否为真实人声进行校验，可以有效排除机器、AI、爬虫等恶意用户，防止此类恶意用户对网站、平台的攻击，保证验证用户有效性和真实性，提升语音验证的安全性。

Description

语音验证方法、装置、计算机设备及存储介质

技术领域

本发明涉及安全验证技术领域，特别是涉及一种语音验证方法、装置、计算机设备及存储介质。

背景技术

传统的语音验证系统接收到验证请求后直接呼叫用户客户端，通过语音播报的方式给用户客户端进行播报验证信息，用户获取验证信息后返回客户端进行验证信息的填写并校验。在语音验证的操作过程中，用户需要听取验证信息并记录验证信息信息，然后返回用户客户端进行验证信息的填写，本操作过程过于繁琐；同时，语音播报的验证信息一般只支持使用数字，验证信息的内容具备一定的局限性，因此，存在的一定的泄密风险；传统的语音验证系统存在着操作繁琐、泄密风险高等缺点。

在此基础上衍生出了基于语音识别的验证方式，现有的基于语音识别的验证技术中，用户根据动态验证信息对照生成语音内容，后台通过语音识别算法解析出用户音频内容，并与动态验证信息作对比验证准确性。这一技术的主要功能在于利用语音识别用户语义内容，代替原始的验证信息手动输入模式，简化验证信息步骤。但是该语音识别验证技术的有效性建立在用户真实性的前提下，无法识别出当前的语音内容是否为真实的人类发出还是由智能AI发出，存在语音内容被破译后，由智能AI模仿人类发出验证信息语音，因此无法保证该验证的安全性。

发明内容

本发明实施例能够提供一种有效保证验证用户真实性、提升验证系统安全性的语音验证方法、装置、计算机设备及存储介质。

为解决上述技术问题，本发明创造的实施例采用的一个技术方案是：提供一种语音验证方法，包括以下步骤：

获取验证语音信息，其中，所述验证语音信息为验证用户在朗读验证信息时，目标终端采集到的语音内容；

根据所述验证语音信息判断所述语音内容是否为预设的声音类别，其中，所述预设的声音类别为表征语音内容为人类声音的声音分类；

当判断所述语音内容不属于所述预设的声音类别时，确定语音验证失败。

可选地，所述根据所述验证语音信息判断所述语音内容是否为预设的声音类别的步骤，包括以下步骤：

解析所述验证语音信息得到特征数据，其中，所述特征数据为将语音信息处理得到的时域数据和频谱数据；

将所述特征数据输入到预设的人声判断模型中，其中，所述人声判断模型为已训练至收敛的，用于根据输入的特征数据判断语音信息是否为人声的神经网络模型；

根据所述人声判断模型的输出结果确定所述语音内容是否为预设的声音类别。

可选地，所述解析所述验证语音信息得到特征数据的步骤，包括以下步骤：

根据预设的第一处理规则对所述验证语音信息进行处理，得到时域数据，其中，所述第一处理规则为将语音信息解析为时域数据并提升其中的高频部分的语音信息处理规则；

根据预设的第二处理规则对所述时域数据进行处理，得到声音频谱，其中，所述第二处理规则为根据傅里叶变换将时域数据转换为频谱数据的数据处理规则；

定义所述时域数据和所述频谱数据为所述特征数据。

可选地，所述获取验证语音信息的步骤之前，包括以下步骤：

获取目标终端的验证请求；

根据所述验证请求在预设的验证数据库随机查找一个文本作为所述验证信息；

将所述验证信息发送至目标终端，触发预设的提醒指令，以引导验证用户根据所述验证信息进行语音验证。

可选地，所述根据所述验证语音信息判断所述语音内容是否为预设的声音类别的步骤之后，包括下述步骤：

当判断所述语音内容属于预设的声音类别时，根据预设的验证规则对所述语音信息进行验证，其中，所述验证规则为判断所述验证语音信息的内容与所述验证信息的相似度是否大于预设的相似度阈值的数据对比规则；

当所述验证语音信息符合所述验证规则时，确定语音验证通过；

当所述验证语音信息不符合所述验证规则时，确定语音验证失败。

可选地，所述当判断所述语音内容属于预设的声音类别时，根据预设的验证规则对所述语音信息进行验证的步骤，包括下述步骤：

根据所述验证语音信息生成验证文本，其中，所述验证文本为对所述验证语音信息进行内容识别后得到的与所述验证语音信息的内容相对应的文本信息；

根据所述验证文本确定文本相似度，其中，所述文本相似度为所述验证文本与所述验证信息之间的相似度信息；

验证所述文本相似度是否大于所述预设的相似度阈值。

可选地，所述根据所述验证语音信息生成验证文本的步骤，包括下述步骤：

将所述验证语音信息输入到预设的语音识别模型中，其中，所述语音识别模型为根据输入的语音信息转换得到与语音信息的内容相对应的文本的自然语言解析模型；

根据所述语音识别模型的输出结果确定所述验证文本。

为解决上述技术问题，本发明实施例还提供一种语音验证装置，包括：

获取模块，用于获取验证语音信息，其中，所述验证语音信息为验证用户在朗读验证信息时，目标终端采集到的语音内容；

处理模块，用于根据所述验证语音信息判断所述语音内容是否为预设的声音类别，其中，所述预设的声音类别为表征语音内容为人类声音的声音分类；

执行模块，用于当判断所述语音内容不属于所述预设的声音类别时，确定语音验证失败。

可选地，所述语音验证装置，还包括：

第一解析子模块，用于解析所述验证语音信息得到特征数据，其中，所述特征数据为将语音信息处理得到的时域数据和频谱数据；

第一输入子模块，用于将所述特征数据输入到预设的人声判断模型中，其中，所述人声判断模型为已训练至收敛的，用于根据输入的特征数据判断语音信息是否为人声的神经网络模型；

第一处理子模块，用于根据所述人声判断模型的输出结果确定所述语音内容是否为预设的声音类别。

可选地，所述语音验证装置，还包括：

第二处理子模块，用于根据预设的第一处理规则对所述验证语音信息进行处理，得到时域数据，其中，所述第一处理规则为将语音信息解析为时域数据并提升其中的高频部分的语音信息处理规则；

第三处理子模块，用于根据预设的第二处理规则对所述时域数据进行处理，得到声音频谱，其中，所述第二处理规则为根据傅里叶变换将时域数据转换为频谱数据的数据处理规则；

第一执行子模块，用于定义所述时域数据和所述频谱数据为所述特征数据。

可选地，所述语音验证装置，还包括：

第一获取子模块，用于获取目标终端的验证请求；

第一查找子模块，用于根据所述验证请求在预设的验证数据库随机查找一个文本作为所述验证信息；

第一发送子模块，用于将所述验证信息发送至目标终端，触发预设的提醒指令，以引导验证用户根据所述验证信息进行语音验证。

可选地，所述语音验证装置，还包括：

第二执行子模块，用于当判断所述语音内容属于预设的声音类别时，根据预设的验证规则对所述语音信息进行验证，其中，所述验证规则为判断所述验证语音信息的内容与所述验证信息的相似度是否大于预设的相似度阈值的数据对比规则；

第三执行子模块，用于当所述验证语音信息符合所述验证规则时，确定语音验证通过；

第四执行子模块，用于当所述验证语音信息不符合所述验证规则时，确定语音验证失败。

可选地，所述语音验证装置，还包括：

第四处理子模块，用于根据所述验证语音信息生成验证文本，其中，所述验证文本为对所述验证语音信息进行内容识别后得到的与所述验证语音信息的内容相对应的文本信息；

第五处理子模块，用于根据所述验证文本确定文本相似度，其中，所述文本相似度为所述验证文本与所述验证信息之间的相似度信息；

第一验证子模块，用于验证所述文本相似度是否大于所述预设的相似度阈值。

可选地，所述语音验证装置，还包括：

第二输入子模块，用于将所述验证语音信息输入到预设的语音识别模型中，其中，所述语音识别模型为根据输入的语音信息转换得到与语音信息的内容相对应的文本的自然语言解析模型；

第六处理子模块，用于根据所述语音识别模型的输出结果确定所述验证文本。

为解决上述技术问题，本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述语音验证方法的步骤。

为解决上述技术问题，本发明实施例还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述语音验证方法的步骤。

本发明实施例的有益效果是：与现有技术相比，本发明实施例的技术方案侧重于挖掘用户的生物学语音特征，此特征可以区分机器声模拟人声和真实人声的差别，基于该特征能够实现有效的鉴别真实用户。通过对验证语音是否为真实人声进行校验，可以有效排除机器、AI、爬虫等恶意用户，防止此类恶意用户对网站、平台的攻击，保证验证用户有效性和真实性，提升语音验证的安全性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例语音验证方法的基本流程示意图；

图2为本发明实施例确定语音内容是否为预设的声音类别的流程示意图；

图3为本发明实施例确定特征数据的流程示意图；

图4为本发明实施例获取验证信息的流程示意图；

图5为本发明实施例判断语音验证是否通过的流程示意图；

图6为本发明实施例对语音信息进去验证的流程示意图；

图7为本发明实施例根据语音信息确定验证文本的流程示意图；

图8为本发明实施例语音验证装置的基本结构框图；

图9为本发明实施例计算机设备基本结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunicationsService，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(PersonalDigitalAssistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(GlobalPositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(MobileInternetDevice，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

具体地请参阅图1，图1为本实施例语音验证方法的基本流程示意图。

如图1所示，一种语音验证方法，包括以下步骤：

S1100、获取验证语音信息，其中，所述验证语音信息为验证用户在朗读验证信息时，目标终端采集到的语音内容；

验证用户在请求验证之后，接收到终端的验证请求，将验证信息发送到终端处，并触发提示指令引导用户进行语音验证，采集用户录入的语验证语音。具体地，验证信息可以是随机生成的一个或多个词汇，或者是从预设的验证信息库中查找得到的随机词汇或者一个或多个文字进行组合，终端在接收到验证信息之后，将验证信息显示在屏幕中，同时发出提醒，提醒的方式可以是通过特定的语音播报或者显示特定的引导句式，例如“请朗读屏幕中的验证信息”，在引导验证用户进行验证之后，启动声音采集，采集的结束点根据用户声音的大小进行判断，例如当超过预设的时间(例如1秒，但不限于此)没有声音时，判断声音采集结束，将采集到的声音作为验证语音信息。

S1200、根据所述验证语音信息判断所述语音内容是否为预设的声音类别，其中，所述预设的声音类别为表征语音内容为人类声音的声音分类；

将验证语音信息进行解析，得到对应的特征数据，特征数据包括但不限于验证语音的时域数据和频谱数据。将特征数据输入到预设的人声判断模型中，人声判断模型为已训练至收敛的，用于根据输入的特征数据判断语音信息是否为人声的神经网络模型，根据人声判断模型的输出结果确定验证语音信息是否为人类声音。预设的声音类别为人声分类，当声音类别为人声分类时，即语音内容属于人声。

本实施例使用的人声判断模型在训练时，将人声特征数据作为正样本，语音合成技术合成的声音、动物声和杂音等非人声特征数据作为负样本，将Inception-v3神经网络的7x7卷积网络分解成两个一维的卷积(1x7,7x1)，3x3卷积网络也分解成两个一维的卷积(1x3,3x1)，训练Inception-v3神经网络模型。人声判断模型可以仅设置两种分类，即属于人声和不属于人声，或者可以设置超过两种的分类，例如人声、合成声、动物声和杂音等，但不限于此，根据实际应用场景的不同，分类的设置可以适当进行调整。

S1300、当判断所述语音内容不属于所述预设的声音类别时，确定语音验证失败；

根据人声判断模型的输出结果确定语音内容的分类，当声音类别为人类声音时，确定语音内容属于预设的声音类别，当声音类别不属于人类声音时，确定语音内容不属于预设的声音类别。当判断语音内容不属于预设的声音类别，即语音内容的声音类别不是人类声音时，此时可能是由智能AI或者爬虫等破译了验证信息之后利用模拟语音等方式企图绕过验证，当前验证用户为非正常用户，语音验证失败。

如图2所示，步骤S1200具体包括以下步骤：

S1210、解析所述验证语音信息得到特征数据，其中，所述特征数据为将语音信息处理得到的时域数据和频谱数据；

将获取到的验证语音信息解析成原始的时域数据，对原始的声音数据进行反混叠滤波、采样、A/D转换进行数字化，之后进行预加重，提升高频部分，滤掉其中不重要的信息以及背景噪音，并进行语音信号的端点检测，从而找出语音信号的始末，然后进行加窗分帧，通过短时傅里叶变换，将处理之后的时域数据转换为频哉信号，通过梅尔频谱变换，将频率转换成人耳能感知的线性关系，通过梅尔倒谱分析，采用DCT变换将直流信号分量和正弦信号分量分离，提取声音频谱特征作为频谱数据，将时域数据和频谱数据共同作为验证语音信息的特征数据。

S1220、将所述特征数据输入到预设的人声判断模型中，其中，所述人声判断模型为已训练至收敛的，用于根据输入的特征数据判断语音信息是否为人声的神经网络模型；

本实施例使用的人声判断模型在训练时，将人声特征数据作为正样本，语音合成技术合成的声音、动物声和杂音等非人声特征数据作为负样本，对神经网络模型进行训练。本实施例使用的神经网络模型可以是CNN卷积神经网络模型、VGG卷积神经网络模型或者Inception-v3神经网络模型，但不限于此。以Inception-v3神经网络为例，将Inception-v3神经网络的7x7卷积网络分解成两个一维的卷积(1x7,7x1)，3x3卷积网络也分解成两个一维的卷积(1x3,3x1)，训练Inception-v3神经网络模型。人声判断模型可以仅设置两种分类，即属于人声和不属于人声，或者可以设置超过两种的分类，例如人声、合成声、动物声和杂音等，但不限于此，根据实际应用场景的不同，分类的设置可以适当进行调整。

在确定了验证语音信息的特征数据之后，将特征数据输入到人声判断模型当中，然后获取人声判断模型的输出结果。

S1230、根据所述人声判断模型的输出结果确定所述语音内容是否为预设的声音类别；

预设的声音类别可以是人声分类，人声分类即用于表征语音内容属于人类发声的声音类别，在获取到人声判断模型的输出结果之后，根据人声判断模型的输出结果确定语音内容是否属于人声分类。

利用人声判断模型对验证语音进行判断的方法，可以快速并准确地判断验证语音是否属于人声，当获取到验证用户的验证语音存在异常时可以及时发现，在非正常用户进行验证时根据验证语音的分类结果进行拦截。

如图3所示，步骤S1210具体包括以下步骤：

S1211、根据预设的第一处理规则对所述验证语音信息进行处理，得到时域数据，其中，所述第一处理规则为将语音信息解析为时域数据并提升其中的高频部分的语音信息处理规则；

将获取到的验证语音信息解析成原始的时域数据，对原始的声音数据进行反混叠滤波、采样、A/D转换进行数字化，之后进行预加重，提升高频部分，滤掉其中不重要的信息以及背景噪音，同时消除发声过程中声带和嘴唇造成的效应，来补偿语音信号受到发音系统所压抑的高频部分，并且突显高频的共振峰。

S1212、根据预设的第二处理规则对所述时域数据进行处理，得到声音频谱，其中，所述第二处理规则为根据傅里叶变换将时域数据转换为频谱数据的数据处理规则；

进行语音信号的端点检测，找出语音信号的始末，然后进行加窗分帧。傅里叶变换要求输入的信号的平稳的，语音信号在宏观上是不平稳的，在微观上是平稳的，具有短时平稳性(10-30ms内可以认为语音信号近似不变)，这个就可以把语音信号分为一些短段来进行处理，每一个短段称为一帧，由于后续操作需要加窗，则在分帧的时候，截取的帧与帧之间相互重叠一部分，然后将截取的帧与预设的窗函数相乘，使原本没有周期性的语音信号呈现出周期函数的部分特征，然后对帧信号进行傅里叶变换，得到对应的频谱，通过梅尔频谱变换，将频率转换成人耳能感知的线性关系，通过梅尔倒谱分析，采用DCT变换将直流信号分量和正弦信号分量分离，提取声音频谱特征作为频谱数据。

S1213、定义所述时域数据和所述频谱数据为所述特征数据；

将对验证语音信息进行解析得到的时哉数据和频谱数据共同作为验证语音信息的特征数据。

通过对验证语音进行解析并处理得到时域数据和频谱数据的方法，可以有效地消除环境杂等不相关声音对验证语音的影响，并且同时从多个角度去表征验证语音的特征，使特征数据可以更加真实地反映验证语音，例后续的人声判断更加准确。

如图4所示，步骤S1100之前还包括以下步骤：

S1010、获取目标终端的验证请求；

目标终端需要进行语音验证时，向服务器发送验证请求，服务器端获取终端发送的验证请求。

S1020、根据所述验证请求在预设的验证数据库随机查找一个文本作为所述验证信息；

服务器中设置有验证数据库，验证数据库中包含有预设的大量文本(例如1000个)，文本可以是词汇或者随机的文字组合，在获取到目标终端的验证请求时，在验证数据库中随机查找一个文本作为本次语音验证的验证信息。在一些实施方式中，可以在验证数据库中随机查找多个文字或词汇进行随机组合生成验证信息，以使验证信息具备更高的随机性。

S1030、将所述验证信息发送至目标终端，触发预设的提醒指令，以引导验证用户根据所述验证信息进行语音验证；

当查找得到验证信息后，根据获取到的验证请求将验证信息发送到目标终端，终端在接收到验证信息之后，将验证信息显示在屏幕中，同时触发提醒指令，发出提醒，提醒的方式可以是通过特定的语音播报或者显示特定的引导句式，例如“请朗读屏幕中的验证信息”。在一些实施方式中，显示验证信息之前可以对验证信息进行预处理得到验证信息图片，例如模糊化，但不限于此，将预处理之后的验证信息图片展示给验证用户，引导其进行语音验证。

如图5所示，步骤S1200之后还包括下述步骤：

S1201、当判断所述语音内容属于预设的声音类别时，根据预设的验证规则对所述语音信息进行验证，其中，所述验证规则为判断所述验证语音信息的内容与所述验证信息的相似度是否大于预设的相似度阈值的数据对比规则；

判断语音内容属于预设的声音类别时，初步验证通过，对语音内容进行验证。将验证语音信息输入到自然语言解析模型中，识别其中的内容，输出与语音内容相对应的文本信息，将获取到的文本信息作为验证文本，与本次语音验证的验证信息进行对比，获取对比得到的相似度，判断相似度是否大于预设的相似度阈值，当相似度大于预设的阈值时，即符合验证规则，当相似度不大于预设的阈值时，不符合验证规则。

S1202、当所述验证语音信息符合所述验证规则时，确定语音验证通过；

当提取得到的验证文本与验证信息的相似度大于预设的相似度阈值时，确定验证语音信息符合验证规则，语音验证通过。

S1203、当所述验证语音信息不符合所述验证规则时，确定语音验证失败；

当提取得到的验证文本与验证信息的相似度小于或等于预设的相似度阈值时，确定验证语音信息不符合验证规则，语音验证失败。

通过建立验证规则，利用验证规则对用户进行验证的方式，防止恶意用户随意获得权限而对平台或网站造成破坏，利用语音验证的方式也可以有效的减少大部分爬虫或者智能AI绕过验证的可能性，提高用户的真实性。

如图6所示，步骤S1201具体包括下述步骤：

S1204、根据所述验证语音信息生成验证文本，其中，所述验证文本为对所述验证语音信息进行内容识别后得到的与所述验证语音信息的内容相对应的文本信息；

将语音信息输入到语音识别模型中，根据语音识别模型的输出结果确定验证文本，验证文本为与语音信息中的内容相对应的文本信息，即把语音信息转换为文本信息，本实施例中所使用的语音识别模型可以是现有的，通过识别语音信息中的内容生成对应的文本信息的模型，例如自然语音解析模型或者已经训练至收敛的神经网络模型，在此不作限定。

S1205、根据所述验证文本确定文本相似度，其中，所述文本相似度为所述验证文本与所述验证信息之间的相似度信息；

将验证文本与验证信息进行相似度对比，得到对应的文本相似度，具体地，将验证文本转化为Unicode字符或GBK\GB2312字符，并与验证信息的字符进行对比，判断其中的汉明距离，以汉明距离与验证信息的字符总数量的比值确定文本相似度。在一些实施方式中，可以将文本中的每一个词汇或单独的汉字按排序与验证信息中对应位置的词汇或汉字进行字符间的汉明距离对比，当得到的汉明距离大于零时，确定对应的词汇或汉字不对应，统计验证文本与验证信息间不对应的词汇数或汉字数，与验证信息的总字量计算得到比值，以该比值作为文本相似度。

由于汉字中存在大量的同音或近似音词汇或汉字，因此可以进行模糊对比，将获取得到的验证文本转化为拼音字符，与验证信息的拼音字符通过前述的多种方法中的一种得到文相似度。

S1206、验证所述文本相似度是否大于所述预设的相似度阈值；

系统中预设有相似度阈值，用于判断验证文本和验证信息的相似度是否符合验证规则，相似度阈值的取值可以根据实际情况进行调整，例如选用比较精确的相似度确定方法时，可以提高相似度阈值的取值，当选用比较粗略的相似度确定方法时，可以降低相似度阈值的取值。以文本相似度与相似度阈值的对比结果确定语音信息是否符合验证规则，当文本相似度大于相似度阈值时，确定语音信息符合验证规则，验证通过；当文本相似度小于或等于相似度阈值时，确定语音信息不符合验证规则，验证失败。

如图7所示，步骤S1204具体包括下述步骤：

S1207、将所述验证语音信息输入到预设的语音识别模型中，其中，所述语音识别模型为根据输入的语音信息转换得到与语音信息的内容相对应的文本的自然语言解析模型；

将语音信息输入到语音识别模型中，首先根据语音信息进行分段，分段的依据可以是讲话过程中的停顿，或者按照讲话的音节，将语音信息进行分段后得到分段语音，再将分段语音输入到语音识别模型中进行分词提取，提取得到零散的词语或音节，语音识别模型可以是现有的，将输入的语音信息转换得为文本的自然语言解析模型。

S1208、根据所述语音识别模型的输出结果确定所述验证文本；

将语音识别模型输出的词语或音节根据分段的先后顺序进行拼接，并且根据整句的语义进行同音词的替换调整，获得完整的句子作为文本信息。同音词调整的依据可以是预设的词语搭配关系，或者与预设的例句进行相似度匹配，根据匹配得到的相近句子中的词语进行替换。

通过利用语音模型提取语音信息中的内容并转化为文本，可以准确得获得对应的文本内容，在与验证信息进行对比时更加便捷，确定语音验证的准确性。

为解决上述技术问题，本发明实施例还提供一种语音验证装置。具体请参阅图8，图8为本实施语音验证装置的基本结构框图。

如图8所示，语音验证装置，包括：获取模块2100、处理模块2200和执行模块2300。其中，获取模块用于获取验证语音信息，其中，所述验证语音信息为验证用户在朗读验证信息时，目标终端采集到的语音内容；处理模块用于根据所述验证语音信息判断所述语音内容是否为预设的声音类别，其中，所述预设的声音类别为表征语音内容为人类声音的声音分类；执行模块用于当判断所述语音内容不属于所述预设的声音类别时，确定语音验证失败。

与现有技术相比，本发明实施例的技术方案侧重于挖掘用户的生物学语音特征，此特征可以区分机器声模拟人声和真实人声的差别，基于该特征能够实现有效的鉴别真实用户。通过对验证语音是否为真实人声校验，可以有效排除机器、AI、爬虫等恶意用户，防止此类恶意用户对网站、平台的攻击，保证验证用户有效性和真实性，提升语音验证的安全性。

在一些实施方式中，语音验证装置还包括：第一解析子模块、第一输入子模块、第一处理子模块。其中第一解析子模块用于解析所述验证语音信息得到特征数据，其中，所述特征数据为将语音信息处理得到的时域数据和频谱数据；第一输入子模块用于将所述特征数据输入到预设的人声判断模型中，其中，所述人声判断模型为已训练至收敛的，用于根据输入的特征数据判断语音信息是否为人声的神经网络模型；第一处理子模块用于根据所述人声判断模型的输出结果确定所述语音内容是否为预设的声音类别。

在一些实施方式中，语音验证装置还包括：第二处理子模块、第三处理子模块、第一执行子模块。其中，第二处理子模块用于根据预设的第一处理规则对所述验证语音信息进行处理，得到时域数据，其中，所述第一处理规则为将语音信息解析为时域数据并提升其中的高频部分的语音信息处理规则；第三处理子模块用于根据预设的第二处理规则对所述时域数据进行处理，得到声音频谱，其中，所述第二处理规则为根据傅里叶变换将时域数据转换为频谱数据的数据处理规则；第一执行子模块用于定义所述时域数据和所述频谱数据为所述特征数据。

在一些实施方式中，语音验证装置还包括：第一获取子模块、第一查找子模块、第一发送子模块。其中，第一获取子模块用于获取目标终端的验证请求；第一查找子模块用于根据所述验证请求在预设的验证数据库随机查找一个文本作为所述验证信息；第一发送子模块用于将所述验证信息发送至目标终端，触发预设的提醒指令，以引导验证用户根据所述验证信息进行语音验证。

在一些实施方式中，语音验证装置还包括：第二执行子模块、第三执行子模块、第四执行子模块。其中，第二执行子模块用于当判断所述语音内容属于预设的声音类别时，根据预设的验证规则对所述语音信息进行验证，其中，所述验证规则为判断所述验证语音信息的内容与所述验证信息的相似度是否大于预设的相似度阈值的数据对比规则；第三执行子模块用于当所述验证语音信息符合所述验证规则时，确定语音验证通过；第四执行子模块用于当所述验证语音信息不符合所述验证规则时，确定语音验证失败。

在一些实施方式中，语音验证装置还包括：第四处理子模块、第五处理子模块、第一验证子模块。其中，第四处理子模块用于根据所述验证语音信息生成验证文本，其中，所述验证文本为对所述验证语音信息进行内容识别后得到的与所述验证语音信息的内容相对应的文本信息；第五处理子模块用于根据所述验证文本确定文本相似度，其中，所述文本相似度为所述验证文本与所述验证信息之间的相似度信息；第一验证子模块用于验证所述文本相似度是否大于所述预设的相似度阈值。

在一些实施方式中，语音验证装置还包括：第二输入子模块、第六处理子模块。其中，第二输入子模块用于将所述验证语音信息输入到预设的语音识别模型中，其中，所述语音识别模型为根据输入的语音信息转换得到与语音信息的内容相对应的文本的自然语言解析模型；第六处理子模块用于根据所述语音识别模型的输出结果确定所述验证文本。

为解决上述技术问题，本发明实施例还提供一种计算机设备。具体请参阅图9，图9为本实施例计算机设备基本结构框图。

如图9所示，计算机设备的内部结构示意图。如图9所示，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种语音验证方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种语音验证方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图8中获取模块2100、处理模块2200和执行模块2300的具体功能，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有语音验证装置中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本发明还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述语音验证方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)等非易失性存储介质，或随机存储记忆体(RandomAccessMemory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音验证方法，其特征在于，包括以下步骤：

根据所述验证语音信息判断所述语音内容是否为预设的声音类别，其中，所述预设的声音类别为用于表征语音内容为人类声音的声音分类；

当判断所述语音内容不属于所述预设的声音类别时，确定语音验证失败；

其中，所述根据所述验证语音信息判断所述语音内容是否为预设的声音类别的步骤，包括以下步骤：

根据所述人声判断模型的输出结果确定所述语音内容是否为预设的声音类别；

所述解析所述验证语音信息得到特征数据的步骤，包括以下步骤：

根据预设的第二处理规则对所述时域数据进行处理，得到声音频谱，其中，所述第二处理规则为根据傅里叶变换将时域数据转换为频谱数据的数据处理规则；所述频谱数据为梅尔倒谱系数；

定义所述时域数据和所述频谱数据为所述特征数据。

2.如权利要求1所述的语音验证方法，其特征在于，所述获取验证语音信息的步骤之前，包括以下步骤：

获取目标终端的验证请求；

3.如权利要求1所述的语音验证方法，其特征在于，所述根据所述验证语音信息判断所述语音内容是否为预设的声音类别的步骤之后，包括下述步骤：

4.如权利要求3所述的语音验证方法，其特征在于，所述当判断所述语音内容属于预设的声音类别时，根据预设的验证规则对所述语音信息进行验证的步骤，包括下述步骤：

验证所述文本相似度是否大于所述预设的相似度阈值。

5.如权利要求4所述的语音验证方法，其特征在于，所述根据所述验证语音信息生成验证文本的步骤，包括下述步骤：

根据所述语音识别模型的输出结果确定所述验证文本。

6.一种语音验证装置，其特征在于，包括：

执行模块，用于当判断所述语音内容不属于所述预设的声音类别时，确定语音验证失败；

其中，所述处理模块具体用于：

定义所述时域数据和所述频谱数据为所述特征数据。

7.一种计算机设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述权利要求1-5任意一项所述的语音验证方法。

8.一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种语音验证方法，所述方法包括上述权利要求1-5任意一项所述的语音验证方法。