CN110992930A

CN110992930A - 声纹特征提取方法、装置、终端及可读存储介质

Info

Publication number: CN110992930A
Application number: CN201911247230.7A
Authority: CN
Inventors: 黄族良; 龙洪锋
Original assignee: Guangzhou Speakin Intelligent Technology Co ltd
Current assignee: Guangzhou Speakin Intelligent Technology Co ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-10

Abstract

本发明公开了一种声纹特征提取方法、装置、终端及可读存储介质，方法包括：获取目标人物按预设文本内容进行朗读的目标语音数据；若目标语音数据中的语音片段的音频能量值大于或等于预设能量值，且持续时长大于或等于预设时长，则剪切出语音片段；根据语音片段提取目标人物的声纹特征。这样，若目标语音数据中的语音片段的音频能量值满足预设能量值，且持续时长满足预设时长，则可以从符合条件的语音片段中提取出声纹特征，从而可以提取出高质量的声纹特征。

Description

声纹特征提取方法、装置、终端及可读存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种声纹特征提取方法、装置、终端及可读存储介质。

背景技术

随着智能识别技术的快速发展，越来越多的场景需要应用生物识别技术进行识别认证，例如，金融安全、国家安全、智能家居和行政司法等场景。而声纹识别技术是生物识别技术之一，具有安全、高效、便捷和用户无感知等特点。由于在某些应用场景中对基于声纹识别的识别认证准确度要求较高，例如，公安会对抓捕的犯罪嫌疑人进行声纹识别，将犯罪嫌疑人的声纹以及对应的身份信息上传至公安声纹库。

目前，公安在抓捕犯罪嫌疑人时，需要将犯罪嫌疑人的声纹特征上传给公安声纹库。因此，公安会让犯罪嫌疑人朗读文章或者资料等，且对犯罪嫌疑人进行录音，但公安声纹库对犯罪嫌疑人的录音大小是有规定的，即录音的音频大小不能超过200M。但是，在现有技术中对犯罪嫌疑人进行录制的过程中，可能出现不符合要求的声音也会被录制，例如声音太小或者口吃停顿等，影响对声纹特征提取，导致声纹特征提取的质量低的问题。

发明内容

本发明的主要目的在于提供一种声纹特征提取方法、装置、终端以及可读存储介质，旨在解决现有技术中的声纹特征提取的质量低的技术问题。

为实现上述目的，本发明提供一种声纹特征提取方法，所述方法包括：

获取目标人物按预设文本内容进行朗读的目标语音数据；

若所述目标语音数据中的语音片段的音频能量值大于或等于预设能量值，且持续时长大于或等于预设时长，则剪切出所述语音片段；

根据所述语音片段提取所述目标人物的声纹特征。

进一步地，所述根据所述语音片段提取所述目标人物的声纹特征的步骤之后，包括：

以预设存储空间截取所述声纹特征作为标识声纹数据；

将所述标识声纹数据与所述目标人物进行关联记录，并上传至数据库。

进一步地，所述获取目标人物按预设文本内容进行朗读的目标语音数据的步骤，包括：

若检测到人语音时，则开始录制并保存语音数据；

将所述语音数据进行语音识别，以获得语音识别结果；

若所述语音识别结果与所述预设文本内容相匹配时，则将所述语音数据作为所述目标语音数据。

进一步地，所述若检测到人语音时，则开始录制并保存语音数据的步骤，包括：

将获取到的环境语音数据输入至预设人语音识别模型，以判断所述环境语音数据是否包含有所述人语音；

若所述环境语音数据包含有所述人语音时，则将所述语音数据作为所述环境语音数据，并开始录制所述语音数据。

进一步地，所述将获取到的环境语音数据输入至预设人语音识别模型，以判断所述环境语音数据是否包含有所述人语音的步骤，包括：

获取多个包含有人语音的样本环境语音数据，并将多个所述样本环境语音数据作为训练集；

将所述训练集输入至深度神经网络训练构建所述人语音识别模型，以判断所述环境语音数据是否包含有所述人语音。

进一步地，所述若所述目标语音数据中的语音片段的音频能量值大于或等于预设能量值，且持续时长大于或等于预设时长，则剪切出所述语音片段的步骤，包括：

若检测到所述目标语音数据中的音频帧的能量值大于或等于所述预设能量值时，则将所述音频帧记录为标记音频帧；

若在所述标记音频帧之后的音频帧的能量值大于或等于所述预设能量值，且持续时长大于或等于所述预设时长，则以所述标记音频帧为起点，从所述目标语音数据中剪切出所述语音片段。

进一步地，所述获取目标人物按预设文本内容进行朗读的目标语音数据的步骤之后，包括：

将所述目标语音数据进行去噪处理。

本发明还提供一种声纹特征提取装置，所述装置包括：

获取模块，用于获取目标人物按预设文本内容进行朗读的目标语音数据；

剪切模块，用于若所述目标语音数据中的语音片段的音频能量值大于或等于预设能量值，且持续时长大于或等于预设时长，则剪切出所述语音片段；

提取模块，用于根据所述语音片段提取所述目标人物的声纹特征。

本发明还提供一种终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述声纹特征提取程序被所述处理器执行时实现如上述的声纹特征提取方法的步骤。

本发明还提供一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的声纹特征提取方法的步骤。

本发明实施例提出的声纹特征提取方法，获取目标人物按预设文本内容进行朗读的目标语音数据；若目标语音数据中的语音片段的音频能量值大于或等于预设能量值，且持续时长大于或等于预设时长，则剪切出语音片段；根据语音片段提取目标人物的声纹特征。这样，若目标语音数据中的语音片段的音频能量值满足预设能量值，且持续时长满足预设时长，则可以从符合条件的语音片段中提取出声纹特征，从而可以提取出高质量的声纹特征。

附图说明

图1是本发明实施例方案涉及的硬件运行的终端的结构示意图；

图2是本发明一种声纹特征提取方法第一实施例的流程示意图；

图3是本发明一种声纹特征提取装置一实施例的框架结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作装置、网络通信模块、用户接口模块以及声纹特征提取程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的声纹特征提取程序，并执行以下操作：

获取目标人物按预设文本内容进行朗读的目标语音数据；

根据所述语音片段提取所述目标人物的声纹特征。

进一步地，处理器1001可以调用存储器1005中存储的声纹特征提取程序，还执行以下操作：

以预设存储空间截取所述声纹特征作为标识声纹数据；

进一步地，若检测到人语音时，则开始录制并保存语音数据；

将所述语音数据进行语音识别，以获得语音识别结果；

进一步地，将获取到的环境语音数据输入至预设人语音识别模型，以判断所述环境语音数据是否包含有所述人语音；

进一步地，获取多个包含有人语音的样本环境语音数据，并将多个所述样本环境语音数据作为训练集；

进一步地，若检测到所述目标语音数据中的音频帧的能量值大于或等于所述预设能量值时，则将所述音频帧记录为标记音频帧；

将所述目标语音数据进行去噪处理。

参照图2，本发明基于上述终端硬件结构，提出本发明方法各个实施例。

本发明提供一种声纹特征提取方法，声纹特征提取方法应用于终端，在声纹特征提取方法第一实施例中，参照图2，该方法包括：

步骤S10，获取目标人物按预设文本内容进行朗读的目标语音数据；

终端获取目标人物按预设文本内容进行朗读的目标语音数据。其中，终端可以是设置有麦克风等的设备，例如，终端可以是PC，也可以是智能手机、平板电脑等。其中，预设文本内容是预先在终端设置的文本内容。在本实施例中，若终端获取到目标人物的语音数据时，则通过麦克风开始进行录制和识别，以获得文本内容，并与预设文本内容进行匹配，若匹配，则将目标人物按预设文本内容进行朗读的语音数据作为目标语音数据。例如，公安对犯罪嫌疑人的声纹特征进行采集，会将犯罪嫌疑人作为目标人物，并对该犯罪嫌疑人的语音数据进行录制，将按预设文本内容进行朗读的语音数据作为目标语音数据。

步骤S20，若目标语音数据中的语音片段的音频能量值大于或等于预设能量值，且持续时长大于或等于预设时长，则剪切出语音片段；

终端通过判断目标语音数据中的语音片段的音频能量值是否大于或等于预设能量值，若目标语音数据中的语音片段的音频能量值大于或等于预设能量值，且持续时长大于或等于预设时长，则剪切出语音片段，若目标语音数据中的语音片段的音频能量值小于预设能量值，则不将该语音片段进行剪切。在本实施例中，预设时长应该较长。如10s以上，较长的时间可以提取出质量高的语音片段，因为如果语音片段的音频能量值的持续时长很短，也会影响语音片段的质量。

这样，通过对目标语音数据中的语音片段的音频能量值做出限制，可以筛选出不符合条件的语音片段，即筛选出质量差的语音片段，从而可以提取出高质量的语音片段。

步骤S30，根据语音片段提取目标人物的声纹特征。

终端从剪切出的语音片段中提取出目标人物的声纹特征。

终端获取目标人物按预设文本内容进行朗读的目标语音数据；若目标语音数据中的语音片段的音频能量值大于或等于预设能量值，且持续时长大于或等于预设时长，则剪切出语音片段；根据语音片段提取目标人物的声纹特征。

在本实施例中，终端通过获取目标人物按预设文本内容进行朗读的目标语音数据；若目标语音数据中的语音片段的音频能量值大于或等于预设能量值，且持续时长大于或等于预设时长，则剪切出语音片段；根据语音片段提取目标人物的声纹特征。这样，若目标语音数据中的语音片段的音频能量值满足预设能量值，且持续时长满足预设时长，则可以从符合条件的语音片段中提取出声纹特征，从而可以提取出高质量的声纹特征。若目标语音数据中的语音片段的音频能量值满足预设能量值，且持续时长满足预设时长，则可以从符合条件的语音片段中提取出声纹特征，从而可以提取出高质量的声纹特征。

进一步地，上述第一实施例步骤S30中，根据所述语音片段提取所述目标人物的声纹特征的步骤，包括：

步骤S31，以预设存储空间截取声纹特征作为标识声纹数据：

步骤S32，将标识声纹数据与目标人物进行关联记录，并上传至数据库。

终端以预设存储空间截取声纹特征作为标识声纹数据，将标识声纹数据与目标人物进行关联记录，并上传至数据库。在本实施例中，预设存储空间是预先设置存储空间的大小，例如，预设存储空间的大小为200M，根据预设存储空间截取声纹特征上传至数据库。其中，数据库可以是公安声纹库，标识声纹数据是与目标人物的身份信息进行关联记录，并上传至公安声纹库。

进一步地，上述第一实施例步骤S10，所述获取目标人物按预设文本内容进行朗读的目标语音数据的步骤，包括：

步骤S11，若检测到人语音时，则开始录制并保存语音数据；

步骤S12，将语音数据进行语音识别，以获得语音识别结果；

步骤S13，若语音识别结果与预设文本内容相匹配时，则将语音数据作为目标语音数据。

当终端检测到人语音时，则开始录制目标人物的语音数据并保存，将语音数据进行语音识别，以获得语音识别结果，判断语音识别结果是否语音预设文本内容相匹配，若语音识别结果与预设文本内容相匹配时，则将语音数据作为目标语音数据，若语音识别结果与预设文本内容不匹配时，则不将语音数据作为目标语音数据。在本实施例中，采集的语音数据要求与预设文本内容匹配，即要求目标人物按规定的文本内容发音，每个人的声纹模型才能被精确建立，因此，从按预设文本内容朗读的目标语音数据中提取出声纹特征，可以提取高质量的声纹特征。

进一步地，在本发明与声纹特征提取的另一实施例中，所述若检测到人语音时，则开始录制并保存语音数据的步骤，包括：

步骤S111，将获取到的环境语音数据输入至预设人语音识别模型，以判断所述环境语音数据是否包含有所述人语音；

步骤S112，若所述环境语音数据包含有所述人语音时，则将所述语音数据作为所述环境语音数据，并开始录制所述语音数据。

步骤S113，终端将获取到的环境语音数据输入至预设人语音识别模型，以判断环境语音数据是否包含有人语音，若环境语音数据包含有人语音时，则将语音数据作为环境语音数据，并开始录制语音数据，若环境语音数据不包含有人语音时，则不开启录制。例如，终端在前10S还没有采集到人语音时，则不开启录制。这样，可以在开启录制的那段时间避免了将噪音或者没有声音录入进去，提升了录制的质量，从而保证了后续从目标语音数据中提取的语音片段的质量。

可选地，步骤S111可具体包括如下：

步骤A，获取多个包含有人语音的样本环境语音数据，并将多个样本环境语音数据作为训练集；

步骤B，将训练集输入至深度神经网络训练构建人语音识别模型，以判断环境语音数据是否包含有人语音。

终端获取多个包含有人语音的样本环境语音数据，并将多个样本环境语音数据作为训练集，将训练集输入至深度神经网络进行训练，以构建人语音识别模型，以判断环境语音数据是否包含有人语音。其中，样本环境语音数据是带有人声的环境语音数据。应当理解的是，需要使用带有人声的环境语音数据作为样本环境语音数据，进行模型训练，以构建人语音识别模型。这样，通过大量的样本环境语音数据进行训练，可以得到更精确、稳定的人语音识别模型，利用该模型可以识别出人语音，从而提高识别人语音的准确率。

进一步地，上述第一实施例步骤S20，所述若所述目标语音数据中的语音片段的音频能量值大于或等于预设能量值，且持续时长大于或等于预设时长，则剪切出所述语音片段的步骤，包括：

步骤S21，若检测到目标语音数据中的音频帧的能量值大于或等于预设能量值时，则将音频帧记录为标记音频帧；

步骤S22，若在标记音频帧之后的音频帧的能量值大于或等于预设能量值，且持续时长或等于预设时长，则以标记音频帧为起点，从目标语音数据中剪切出语音片段。

终端判断目标语音数据中的音频帧的能量值是否大于或等于预设能量值，若检测到目标语音数据中的音频帧的能量值大于或等于预设能量值时，则将音频帧记录为标记音频帧；若在标记音频帧之后的音频帧的能量值大于或等于预设能量值，且持续时长大于或等于预设时长，则以标记音频帧为起点，从目标语音数据中剪切出语音片段。其中，语音片段包括多个音频帧。在本实施例中，目标语音数据中的音频帧的能量值满足预设能量值。只有满足该预设能量值，且持续时长大于或等于预设时长，才可截取出语音片段。这里对音频帧的能量值以及持续时长进行限定，可以提取高质量的语音片段，进而后续可以根据该语音片段提取出高质量的声纹特征。

进一步地，在本发明与声纹特征提取的又一实施例中，所述获取目标人物按预设文本内容进行朗读的目标语音数据的步骤之后，包括：

步骤S101，将目标语音数据进行去噪处理。

终端将目标语音数据进行去噪处理，得到去噪后的目标语音数据。其中，对目标语音数据进行去噪处理是属于本领域技术人员可操作的技术，这里不再做阐述。在本实施例中，为了提高目标语音数据的质量，需要对目标语音数据进行去噪处理，以提高目标语音数据的清晰度。

此外，请参照图3，本发明实施例还提出一种声纹特征提取装置，所述装置包括：

获取模块，用于获取目标人物按预设文本内容进行朗读的目标语音数据。

剪切模块，用于若所述目标语音数据中的语音片段的音频能量值大于或等于预设能量值，且持续时长大于或等于预设时长，则剪切出所述语音片段。

进一步地，所述声纹特征提取装置模块，还包括：

截取模块，用于以预设存储空间截取所述声纹特征作为标识声纹数据。

关联记录模块，用于将所述标识声纹数据与所述目标人物进行关联记录，并上传至数据库。

进一步地，获取模块，包括：

录制单元，若检测到人语音时，则开始录制并保存语音数据。

语音识别单元，将所述语音数据进行语音识别，以获得语音识别结果。

匹配单元，若所述语音识别结果与所述预设文本内容相匹配时，则将所述语音数据作为所述目标语音数据。

进一步地，获取模块，包括：

获取单元，用于将获取到的环境语音数据输入至预设人语音识别模型，以判断所述环境语音数据是否包含有所述人语音。

录制单元，用于若所述环境语音数据包含有所述人语音时，则将所述语音数据作为所述环境语音数据，并开始录制所述语音数据。

进一步地，获取模块，包括：

获取单元更用于获取多个包含有人语音的样本环境语音数据，并将多个所述样本环境语音数据作为训练集；

输入单元，将所述训练集输入至深度神经网络训练构建所述人语音识别模型，以判断所述环境语音数据是否包含有所述人语。

进一步地，剪切模块，包括：

标记单元，用于若检测到所述目标语音数据中的音频帧的能量值大于或等于所述预设能量值时，则将所述音频帧记录为标记音频帧；

剪切单元，用于若在所述标记音频帧之后的音频帧的能量值大于或等于所述预设能量值，且持续时长大于或等于所述预设时长，则以所述标记音频帧为起点，从所述目标语音数据中剪切出所述语音片段。

进一步地，所述声纹特征提取装置，包括：

去噪模块，用于将所述目标语音数据进行去噪处理。

此外，本发明实施例还提出一种可读存储介质(即计算机可读存储器)，所述可读存储介质上存储有声纹特征提取程序，所述声纹特征提取程序被处理器执行时实现如下操作：

获取目标人物按预设文本内容进行朗读的目标语音数据；

根据所述语音片段提取所述目标人物的声纹特征。

进一步地，所述声纹特征提取程序被处理器执行时还实现如下操作：

以预设存储空间截取所述声纹特征作为标识声纹数据；

将所述语音数据进行语音识别，以获得语音识别结果；

将所述目标语音数据进行去噪处理。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种声纹特征提取方法，其特征在于，所述方法包括：

获取目标人物按预设文本内容进行朗读的目标语音数据；

根据所述语音片段提取所述目标人物的声纹特征。

2.如权利要求1所述的声纹特征提取方法，其特征在于，所述根据所述语音片段提取所述目标人物的声纹特征的步骤之后，包括：

以预设存储空间截取所述声纹特征作为标识声纹数据；

3.如权利要求1所述的声纹特征提取方法，其特征在于，所述获取目标人物按预设文本内容进行朗读的目标语音数据的步骤，包括：

若检测到人语音时，则开始录制并保存语音数据；

将所述语音数据进行语音识别，以获得语音识别结果；

4.如权利要求3所述的声纹特征提取方法，其特征在于，所述若检测到人语音时，则开始录制并保存语音数据的步骤，包括：

5.如权利要求4所述的声纹特征提取方法，其特征在于，所述将获取到的环境语音数据输入至预设人语音识别模型，以判断所述环境语音数据是否包含有所述人语音的步骤，包括：

6.如权利要求1所述的声纹特征提取方法，其特征在于，所述若所述目标语音数据中的语音片段的音频能量值大于或等于预设能量值，且持续时长大于或等于预设时长，则剪切出所述语音片段的步骤，包括：

7.如权利要求1所述的声纹特征提取方法，其特征在于，所述获取目标人物按预设文本内容进行朗读的目标语音数据的步骤之后，包括：

将所述目标语音数据进行去噪处理。

8.一种声纹特征提取装置，其特征在于，所述装置包括：

9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述声纹特征提取程序被所述处理器执行时实现如权利要求1至7中任一项所述的声纹特征提取方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的声纹特征提取方法的步骤。