CN110827853A

CN110827853A - 语音特征信息提取方法、终端及可读存储介质

Info

Publication number: CN110827853A
Application number: CN201911099179.XA
Authority: CN
Inventors: 陈昊亮; 许敏强; 杨世清
Original assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Current assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-02-21

Abstract

本申请公开了一种语音特征信息提取方法、终端和计算机可读存储介质，通过获取发言人目标语音数据，得到目标语音片段；获取发言人基准语音数据；比对各所述目标语音片段和所述基准语音数据，获得比对结果；基于所述比对结果，生成并提取各所述目标语音片段中的发言人语音特征信息，实现语音特征信息的提取，由此可以在多个发言人情境下，将所有发言人的语音特征信息区分并提取出来。

Description

语音特征信息提取方法、终端及可读存储介质

技术领域

本申请涉及语音信号处理技术领域，尤其涉及一种语音特征信息提取方法、终端及可读存储介质。

背景技术

目前，在多个说话人场景中，通常会出现不同说话人语音混叠的情况，目前针对混合语音中目标说话人的语音提取研究越来越受到重视。语音提取方法主要为层次聚类和谱聚类等，如层次聚类有：提取语音段的梅尔倒谱系数(MFCC)特征，之后训练部分使用贝叶斯信息准则(BIC)对初始类进行处理，获得较纯的初始类别，之后采用聚类算法对于MFCC特征进行聚类，并对每一类训练获得GMM模型特征，在识别阶段，使用基于GMM模型的说话人识别进行说话人判断；然而层次聚类在进行无监督的说话人聚类识别时，以最小类间距是否大于一定的阈值作为判定聚类结束的标准，阈值的确定限制了层次聚类算法的效果。由此可见，目前语音特征信息提取方法自适应能力低。

发明内容

本申请的主要目的在于提供一种语音特征信息提取方法、终端及计算机存储介质，旨在解决现有技术中多个发言人信息提取精度低的技术问题。

为实现上述目的，本申请实施例提供一种语音特征信息提取方法，所述语音特征信息提取方法包括以下步骤：

获取发言人目标语音数据，得到目标语音片段；

获取发言人基准语音数据；

比对各所述目标语音片段和所述基准语音数据，获得比对结果；

基于所述比对结果，生成并提取各所述目标语音片段中的发言人语音特征信息。

可选地，所述获取发言人目标语音数据的步骤包括：

接收待提取的各所述发言人的原始语音数据；

对所述原始语音数据进行信号预处理，得到各所述发言人的目标语音数据。

可选地，所述得到目标语音片段的步骤包括：

基于预设关键字和预设语气词，对所述目标语音数据进行语义识别，获得识别结果；

基于所述识别结果，获得所述目标语音片段。

可选地，所述对所述语音数据进行信号预处理，得到各所述发言人的目标语音数据的步骤包括：

检测所述语音数据，根据声音频率区分出所述语音数据中的噪声；

对所述语音数据进行去除噪声处理，得到各所述发言人的目标语音数据。

可选地，所述获取发言人基准语音数据的步骤包括：

通过声纹识别，获取所述发言人个数；

基于所述发言人个数，输出语音录制通知，其中，所述通知为要求各所述发言人按照预设语音录制模型进行语音录制；

接收各所述发言人按照所述通知录入的语音录制结果，作为各所述发言人的基准语音数据。

可选地，所述比对各所述目标语音片段和所述基准语音数据，获得比对结果的步骤包括：

比对各所述目标语音片段和所述基准语音数据，得到各所述目标语音片段和所述基准语音数据的欧式距离；

基于所述欧式距离，获得所述比对结果。

可选地，所述基于所述比对结果，生成并提取各所述目标语音片段中的发言人语音特征信息的步骤包括：

获取所述比对结果中的语音参数，所述语音参数包括音高参数、音强参数、音长参数和音质参数；

基于所述语音参数，生成各所述发言人语音特征信息。

可选地，所述基于所述语音参数，生成所述发言人语音特征信息的步骤之后，包括：

基于所述各发言人语音录制顺序和各所述发言人语音特征信息，输出各所述目标语音片段中的发言人语音特征信息。

本申请还提供一种终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音特征信息提取程序，所述语音特征信息提取程序被所述处理器执行时实现如上所述的语音特征信息提取方法的步骤。

本申请还提供一种计算机存储介质，所述计算机存储介质上存储有语音特征信息提取程序，所述语音特征信息提取程序被处理器执行时实现如上所述的语音特征信息提取方法的步骤。

本申请在语音特征信息提取的过程中，首先获取发言人目标语音数据，得到目标语音片段；获取发言人基准语音数据；比对各所述目标语音片段和所述基准语音数据，获得比对结果；基于所述比对结果，生成并提取各所述目标语音片段中的发言人语音特征信息，实现语音特征信息的提取，由此可以在多个发言人情境下，将所有发言人的语音特征信息区分并提取出来。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一个可选的终端的硬件结构示意图；

图2为本申请语音特征信息提取方法一实施例的流程示意图；

图3为图2中步骤S10的一细化流程示意图；

图4为图2中步骤S10的另一细化流程示意图；

图5为图3中步骤S12的一细化流程示意图；

图6为图2中步骤S20的一细化流程示意图；

图7为图2中步骤S30的一细化流程示意图；

图8为图2中步骤S40的一细化流程示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

如图1所示，图1是本申请实施例方案涉及的硬件运行环境的终端结构示意图。

本申请实施例终端可以是固定终端，如物联网智能设备，包括智能空调、智能电灯、智能电源、智能路由器等智能家居；也可以是移动终端，包括智能手机、可穿戴的联网AR/VR装置、智能音箱、自动驾驶汽车等诸多联网设备。

如图1所示，该语音特征信息提取系统的架构设计包括节点和服务器，其设备结构可以包括：处理器1001，例如CPU，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，该语音特征信息提取系统还可以包括用户接口、网络接口、摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。用户接口可以包括显示屏(Display)、触摸屏、摄像头(包括AR/VR设备)等，可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口、蓝牙接口、探针接口、3G/4G/5G联网通信接口等)。

本领域技术人员可以理解，图1中示出的语音特征信息提取系统结构并不构成对语音特征信息提取系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及语音特征信息提取程序。操作系统是管理和控制语音特征信息提取系统硬件和软件资源的程序，支持语音特征信息提取程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与语音特征信息提取系统中其它硬件和软件之间通信。

在图1所示的语音特征信息提取系统中，处理器1001用于执行存储器1005中存储的语音特征信息提取程序，实现以下步骤：

获取发言人目标语音数据，得到目标语音片段；

获取发言人基准语音数据；

进一步地，处理器1001可以调用存储器1005中存储的语音特征信息提取程序，还执行以下操作：

接收待提取的各所述发言人的原始语音数据；

基于所述识别结果，获得所述目标语音片段。

通过声纹识别，获取所述发言人个数；

基于所述欧式距离，获得所述比对结果。

基于所述语音参数，生成各所述发言人语音特征信息。

基于上述硬件结构，提出本申请语音特征信息提取方法的各个实施例。

参照图2，本申请语音特征信息提取方法第一实施例提供一种语音特征信息提取方法，所述方法包括:

步骤S10，获取发言人目标语音数据，得到目标语音片段；

发言人目标语音数据指的是即将提取语音特征信息的语音数据，将发言人目标语音数据通过语义识别，从发言人的发言陈述中获得按照验证语义句子为划分依据的语音片段，因为句子的陈述习惯与单独词语的陈述习惯不同，按照语音片段的形式即句子形式，有利于提高语音特征信息的提取准确率并减少语音特征信息提取系统的分析负担，提升语音特征信息提取系统的分析效率。

步骤S20，获取发言人基准语音数据；

发言人基准语音信息指的是按照该信息为参照物，评估发言人语音数据以找出差异供提取的信息。

步骤S30，比对各目标语音片段和基准语音数据，获得比对结果；

步骤S40，基于比对结果，生成并提取各目标语音片段中的发言人语音特征信息。

在本实施例中，首先获取发言人目标语音数据，得到目标语音片段；获取发言人基准语音数据；比对各所述目标语音片段和所述基准语音数据，获得比对结果；基于所述比对结果，生成并提取各所述目标语音片段中的发言人语音特征信息，实现语音特征信息的提取，由此可以在多个发言人情境下，将所有发言人的语音特征信息区分并提取出来。

进一步地，在本申请语音特征信息提取方法另一实施例中，参照图3，步骤S10包括：

步骤S11，接收待提取的各发言人的原始语音数据；

步骤S12，对原始语音数据进行信号预处理，得到各发言人的目标语音数据。

在本实施例中，为了提高发言人的语音数据质量，需要对发言人的原始语音数据进行预处理，即去噪处理，以提高发言人的语音数据的清晰度和辨识度，即提高了后续语音数据分析处理所需数据的准确率，也间接提高了语音数据特征信息提取的准确率。

进一步地，在本申请语音特征信息提取方法又一实施例中，参照图4，步骤S10还包括：

步骤S13，基于预设关键字和预设语气词，对目标语音数据进行语义识别，获得识别结果；

步骤S14，基于识别结果，获得目标语音片段。

在本实施例中，首先需要利用获取的基准语音数据对初始识别模型(初始识别模型是一种基于训练样本训练的模型，如神经网络模型、卷积神经网络模型、深度神经网络模型、支持向量机网络模型、决策森林网络模型、贝叶斯网络模型等)进行训练，得到语音识别模型，该语音识别模型基于预设关键字和预设语气词，对目标语音数据进行语义识别；然后获取待识别目标语音数据，将待识别语音数据输入到语音识别模型，去除待识别语音数据中不影响语义的非关键词和重复内容，生成目标语音片段。通过基准语音数据训练得到语音识别模型后，将待识别语音数据输入语音识别模型，语音识别模型按训练的规则对待识别语音数据中不影响语义的非关键词和重复内容进行过滤去除，即去除待识别语音数据中的冗余信息，生成正确的目标母音片段，以利于语义理解，解决用户语句中冗余信息太多而导致语义理解错误的问题，从而提高语义识别的准确率，以便更准确的了解发言人的真实意图。

进一步地，在本申请语音特征信息提取方法又一实施例中，参照图5，步骤S12包括：

步骤S121，检测语音数据，根据声音频率区分出语音数据中的噪声；

步骤S122，对语音数据进行去除噪声处理，得到各发言人的目标语音数据。

在本实施例中，接收到非平稳时变语音信号后，首先，对时域带噪语音信号进行采样，将模拟信号转化为数字信号，然后根据声音频率区分出语音数据中的噪声。通常，时域带噪语音信号的采样频率为44100Hz，即一秒钟得到44100个采样数据。对采样后的时域带噪语音信号进行加窗分帧，使每一帧时域带噪语音信号都是平稳的。语音处理中常用的窗函数有矩形窗、汉宁窗和汉明窗。对加窗分帧的时域带噪语音信号进行傅里叶变换，将其转换为频域带噪语音信号帧。其中，采样、分帧及傅里叶变换为本领域技术人员的常用技术手段，为了简明起见，在此不再赘述。对频域带噪语音信号帧，逐帧进行语音检测，以区分出语音帧和非语音帧。语音检测可理解为根据语音特征参数进行特征提取，其中，语音特征参数能够有效代表语音特征，具有良好的区分性，能够根据其特征有效地区分出语音和非语音。本实施例中可采用VAD技术进行语音检测。通常，可通过提取语音信号的频域特征参数中的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)来区分出语音帧(各发言人的目标语音数据)和非语音帧(噪声)。

进一步地，在本申请语音特征信息提取方法又一实施例中，参照图6，步骤S20包括：

步骤S21，通过声纹识别，获取发言人个数；

步骤S22，基于发言人个数，输出语音录制通知，其中，通知为要求各发言人按照预设语音录制模型进行语音录制；

步骤S23，接收各发言人按照通知录入的语音录制结果，作为各发言人的基准语音数据。

在本实施例中，由于不同发言人声纹特征不同，因此可以通过声纹识别，获取发言人个数；获取发言人个数主要是为了将每个发言人的语音特征信息都提取出来，需要通知每个发言人按照预设语音录制模型进行语音录制，通知各发言人按照预设语音录制模型进行语音录制，即将录制的语音由训练样本集进行训练，得到基准语音数据。

进一步地，在本申请语音特征信息提取方法又一实施例中，参照图7，步骤S30包括：

步骤S31，比对各目标语音片段和基准语音数据，得到各目标语音片段和基准语音数据的欧式距离；

步骤S32，基于所述欧式距离，获得所述比对结果。

距离度量(Distance)用于衡量个体在空间上存在的距离，距离越远说明个体间的差异越大。欧氏距离是一种常用的距离定义，指在m维空间中两个点之间的真实距离，对多维向量A＝(A1，A2，……,An)，B＝(B1，B2，……,Bn)，欧氏距离的计算公式如下：

其中，A代表目标语音片段；B代表基准语音数据；

dis(A,B)代表目标语音片段和基准语音数据之间的距离，当距离越小代表目标语音片段和基准语音数据的相似度越高，即目标语音片段和基准语音数据属于同一个发言人的可能性越高；

为目标语音片段和基准语音数据对距离总和；n为目标语音片段和基准语音数据对的个数。

例如，目标语音片段1和基准语音数据A的距离为1、和基准语音数据B的距离为13，则可以得出目标语音片段1和基准语音数据A的距离小，因此可以得到目标语音片段1和基准语音数据A属于同一个发言人的比对结果。

进一步地，在本申请语音特征信息提取方法又一实施例中，参照图8，步骤S40包括：

步骤S41，获取比对结果中的语音参数，语音参数包括音高参数、音强参数、音长参数和音质参数；

步骤S42，基于语音参数，生成各发言人语音特征信息。

语音特征信息指的是包含了所以语音参数的信息总合。

在本实施例中，由于语音存在特殊性，发音器官分为声门上系统、喉系统、声门下系统，每个人都有自己的一套发音器官，它们的形态、构造各有差别，每次发音需要众多发音器官相互配合、共同运动。这决定了语音的物理属性(也称语音四要素)：音质、音长、音强、音高。这些物理量人各不同，因而语音在声纹图谱上呈现不同的声纹特征，根据这些声纹特征参数，我们不但可以区分语声，而且可以认定同一人的语声。

音高指声音的高低，它取决于发音体振动的快慢。振动的快则音高就高，反之则音高就低。物体振动快慢由发音体的形状决定，其表现如下：

大的、粗的、厚的、长的、松的物体振动慢，音高低。

小的、细的、薄的、短的、紧的物体振动快，音高高。

一般说来，儿童和女性的声带比较小，比较薄，所以发音比较高；而成年男性的声带比较大，比较厚，所以发音比较低。

音强是指声音的强弱，它取决于发音体振动的幅度大小。幅度越大则声音越强，反之则越弱。声音的强弱由发音时用力大小所决定，用力大，则振幅大，音强就强，用力小，则振幅小，音强就弱。

音长是指声音的长短，它由发音时物体振动持续时间的长短所决定，发音体振动时间长，则音长越长，否则就越短。汉语中一般不用音长作为主要的区别意义的手段，但音长作为发音中的一个自然属性，经常以伴随性的特征出现。

音质也叫音色，是指声音的本质特征，是一个音与其它音进行区别的最根本的特征。它取决于发音时的音波形式，音波不同，音质就不同。

获取比对结果中的音高参数、音强参数、音长参数和音质参数之后，基于这四个语音参数，经过预设算法生成各发言人语音特征信息。

进一步地，在本申请语音特征信息提取方法又一实施例中，步骤S42之后，包括：

基于各发言人语音录制顺序和各发言人语音特征信息，输出各目标语音片段中的发言人语音特征信息。

在本实施例中，得到各个发言人的语音特征信息之后，根据发言人录制语音的顺序，输出目标语音片段中的发言人语音特征信息。依次可以增加用户体验，则向录制语音的先输出语音特征信息，有利于信息的管理。

本申请还提供一种终端，所述终端包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的语音特征信息提取程序，所述语音特征信息提取程序被所述处理器执行时实现上述语音特征信息提取方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音特征信息提取程序，所述语音特征信息提取程序被处理器执行时实现上述的语音特征信息提取方法的步骤。

在本申请语音特征信息提取方法、终端及可读存储介质的实施例中，包含了上述语音特征信息提取方法各实施例的全部技术特征，说明书拓展和解释内容与上述语音特征信息提取方法各实施例基本相同，在此不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种发言人语音特征信息提取方法，其特征在于，所述发言人语音特征信息提取方法包括：

获取发言人目标语音数据，得到目标语音片段；

获取发言人基准语音数据；

2.如权利要求1所述的语音特征信息提取方法，其特征在于，所述获取发言人目标语音数据的步骤包括：

接收待提取的各所述发言人的原始语音数据；

3.如权利要求2所述的语音特征信息提取方法，其特征在于，所述得到目标语音片段的步骤包括：

基于所述识别结果，获得所述目标语音片段。

4.如权利要求2所述的语音特征信息提取方法，其特征在于，所述对所述原始语音数据进行信号预处理，得到各所述发言人的目标语音数据的步骤包括：

5.如权利要求1所述的语音特征信息提取方法，其特征在于，所述获取发言人基准语音数据的步骤包括：

通过声纹识别，获取所述发言人个数；

6.如权利要求1所述的语音特征信息提取方法，其特征在于，所述比对各所述目标语音片段和所述基准语音数据，获得比对结果的步骤包括：

基于所述欧式距离，获得所述比对结果。

7.如权利要求6所述的语音特征信息提取方法，其特征在于，所述基于所述比对结果，生成并提取各所述目标语音片段中的发言人语音特征信息的步骤包括：

基于所述语音参数，生成各所述发言人语音特征信息。

8.如权利要求5至7任一项所述的语音特征信息提取方法，其特征在于，所述基于所述语音参数，生成所述发言人语音特征信息的步骤之后，包括：

9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音特征信息提取程序，所述语音特征信息提取程序被所述处理器执行时实现如权利要求1至8中任一项所述的语音特征信息提取方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有语音特征信息提取程序，所述语音特征信息提取程序被处理器执行时实现如权利要求1至8中任一项所述的语音特征信息提取方法的步骤。