CN115223565A

CN115223565A - 声纹注册方法、装置、介质和电子设备

Info

Publication number: CN115223565A
Application number: CN202110726636.4A
Authority: CN
Inventors: 蒲东
Original assignee: Cloudminds Shanghai Robotics Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-10-21

Abstract

本公开涉及一种声纹注册方法、装置、介质和电子设备，属于语音识别领域，能够方便快速地进行声纹注册。一种声纹注册方法，包括：获取语音信号；从所述语音信号中检测话音信号；从所述话音信号中提取声纹信息；在声纹信息数据库中匹配提取到的声纹信息；若匹配结果指示在所述声纹信息数据库中不存在提取到的声纹信息、或者提取到的声纹信息在所述声纹信息数据库中的注册状态为注册中，则注册提取到的声纹信息。

Description

声纹注册方法、装置、介质和电子设备

技术领域

本公开涉及语音识别领域，具体地，涉及一种声纹注册方法、装置、介质和电子设备。

背景技术

目前的声纹注册方法是，说话人先主动输入相关注册信息，然后说话人开始进行说话，然后进行语音识别并提取声学特征，得到声纹信息，从而完成声纹注册。然而，这种声纹注册方法比较繁琐。

发明内容

本公开的目的是提供一种声纹注册方法、装置、介质和电子设备，能够方便快速地进行声纹注册。

为了实现上述目的，本公开提供一种声纹注册方法，包括：获取语音信号；从所述语音信号中检测话音信号；从所述话音信号中提取声纹信息；在声纹信息数据库中匹配提取到的声纹信息；若匹配结果指示在所述声纹信息数据库中不存在提取到的声纹信息、或者提取到的声纹信息在所述声纹信息数据库中的注册状态为注册中，则注册提取到的声纹信息。

可选地，所述注册提取到的声纹信息包括：将提取到的声纹信息的注册状态修改为已注册。

可选地，在所述在声纹信息数据库中匹配提取到的声纹信息之后、在所述注册提取到的声纹信息之前，所述方法还包括：获取提取到的声纹信息的成功识别次数；基于所述成功识别次数，确定是否注册提取到的声纹信息。

可选地，所述获取提取到的声纹信息的成功识别次数，包括：基于所述声纹信息数据库中提取到的声纹信息的ID，获取提取到的声纹信息的成功识别次数。

可选地，所述基于所述成功识别次数，确定是否注册提取到的声纹信息，包括：若所述成功识别次数小于预设次数，则顺序生成提取到的声纹信息的新ID，并使提取到的声纹信息的注册状态为所述注册中。

本公开还提供一种声纹注册装置，包括：第一获取模块，用于获取语音信号；检测模块，用于从所述语音信号中检测话音信号；提取模块，用于从所述话音信号中提取声纹信息；匹配模块，用于在声纹信息数据库中匹配提取到的声纹信息；注册模块，用于若匹配结果指示在所述声纹信息数据库中不存在提取到的声纹信息、或者提取到的声纹信息在所述声纹信息数据库中的注册状态为注册中，则注册提取到的声纹信息。

可选地，所述注册模块还用于将提取到的声纹信息的注册状态修改为已注册。

可选地，所述装置还包括第二获取模块，用于在在声纹信息数据库中匹配提取到的声纹信息之后、在注册提取到的声纹信息之前，获取提取到的声纹信息的成功识别次数；所述注册模块，还用于基于成功识别次数，确定是否注册提取到的声纹信息。

可选地，所述第二获取模块用于基于所述声纹信息数据库中提取到的声纹信息的ID，获取提取到的声纹信息的成功识别次数。

可选地，所述注册模块还用于：若成功识别次数小于预设次数，则顺序生成提取到的声纹信息的新ID，并使提取到的声纹信息的注册状态为注册中。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开所述方法的步骤。

本公开还提供一种电子设备，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现根据本公开所述方法的步骤。

通过采用上述技术方案，由于是先从语音信号中检测话音信号，然后从话音信号中提取声纹信息，然后在声纹信息数据库中匹配提取到的声纹信息，然后在匹配结果指示在声纹信息数据库中不存在提取到的声纹信息、或者提取到的声纹信息在声纹信息数据库中的注册状态为注册中的情况下注册提取到的声纹信息，这样就不需要说话人手动输入声纹相关的注册信息，而是能够在不修改硬件的情况下在与说话人的交互过程中快速地实现声纹的静默注册，大大降低了声纹注册的繁琐性，使得声纹注册流程更加简洁和快速，提高了声纹注册的效率，进一步提升了基于声纹说话人识别使用上的便利性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一种实施例的声纹注册方法的流程图。

图2是根据本公开一种实施例的声纹注册方法的又一流程图。

图3示出了根据本公开实施例的声纹信息数据库中声纹信息的注册状态示意图。

图4是根据本公开一种实施例的声纹注册装置的示意框图。

图5是根据本公开一种实施例的声纹注册装置的又一示意框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1是根据本公开一种实施例的声纹注册方法的流程图。该声纹注册方法可以应用于各种智能语音产品中，例如智能音箱、机器人等。如图1所示，该声纹注册方法包括以下步骤S11至S15。

在步骤S11中，获取语音信号。

语音信号指的是包含话音信号和背景噪声的声音信号。

话音信号指的是由说话人发出的声音产生的信号。

在步骤S12中，从语音信号中检测话音信号。

在一些实施例中，可以通过语音活性检测(Voice Activity Detection，VAD)技术来从语音信号中检测话音信号。VAD技术能够将话音信号与各种背景噪声信号区分出来，分别对这两种信号采用不同的处理方法。

在步骤S13中，从话音信号中提取声纹信息。

在一些实施例中，可以先从话音信号中提取声学特征，例如基频特征、共振峰特征、基于导数的非个性语音情感特征等等；然后，从所提取的声学特征中提取例如ivector、xvector等声纹特征，从而得到声纹信息。声纹指的是用电声学仪器显示的携带言语信息的声波频谱。

在步骤S14中，在声纹信息数据库中匹配提取到的声纹信息。

在步骤S15中，若匹配结果指示在声纹信息数据库中不存在提取到的声纹信息、或者提取到的声纹信息在声纹信息数据库中的注册状态为注册中，则注册提取到的声纹信息。

声纹信息的注册格式可以是例如：声纹信息XXX014->说话人XXX014。其表示“声纹信息XXX014”是说话人XXX014的声纹信息。

在一些实施例中，注册提取到的声纹信息可以包括：将提取到的声纹信息的注册状态修改为已注册。“已注册”说明已经完成了完整的注册流程，可以进行正常的个性化操作。“注册中”说明开始启动了注册，但是注册流程并未完成，不建议进行个性化业务支持。

图2是根据本公开一种实施例的声纹注册方法的又一流程图。

如图2所示，首先，在步骤S20中，获取语音信号，例如获取说话人XXX014的语音信号。

然后，在步骤S21中，从语音信号中检测话音信号。

然后，在步骤S22中，从话音信号中提取声纹信息。

然后，在步骤S23中，判断是否识别到说话人，也即判断是否提取到声纹信息，如果提取到声纹信息，说明识别到了说话人，则转至步骤S24，如果没有提取到声纹信息，则说明没有识别到说话人，则转至步骤S20以重新获取语音信号。

在步骤S24中，在识别到了说话人的情况下，在声纹信息数据库中匹配提取到的声纹信息，也即检索声纹信息数据库中是否存在提取到的声纹信息。然后，转至步骤S25。

在步骤S25中，判断提取到的声纹信息的注册状态是已注册还是未注册。如果提取到的声纹信息的注册状态是已注册，则转至步骤S29，如果是未注册，则转至步骤S26。借助注册状态的判断，可以解决声纹信息无法一时收齐的不连续性问题。

其中，如果在声纹信息数据库中没有检索到提取到的声纹信息，或者提取到的声纹信息在声纹信息数据库中的注册状态为注册中，均说明提取到的声纹信息是未注册，也即提取到的声纹信息所对应的说话人的声纹是未注册的。

在步骤S26中，在提取到的声纹信息的注册状态是未注册的情况下，判断提取到的声纹信息的成功识别次数是否达到预设次数(例如3次)。如果达到预设次数，则转至步骤S28，如果未达到预设次数，则转至步骤S27。借助该成功识别次数，可以判断声纹是否需要注册。

其中，可以基于声纹信息数据库中提取到的声纹信息的ID，获取提取到的声纹信息的成功识别次数。该ID指示了提取到的声纹信息已经被成功提取的次数。例如，在说话人XXX014的声纹信息被第一次成功提取之后，提取到的声纹信息的ID可以是声纹信息xxx014_0，然后，在说话人XXX014的声纹信息被第二次成功提取之后，提取到的声纹信息的新ID可以是声纹信息xxx014_1，因此，根据该ID就能够知道提取到的声纹信息已经被成功提取的次数，将已经被成功提取的次数与当前被成功提取的一次次数相加，就能够得到声纹信息被成功提取的总次数。

在步骤S27中，在提取到的声纹信息的成功识别次数小于预设次数的情况下，顺序生成提取到的声纹信息的新ID，并使提取到的声纹信息的注册状态为注册中。

在步骤S28中，在提取到的声纹信息的成功识别次数达到预设次数的情况下，将声纹信息数据库中提取到的声纹信息的注册状态修改为已注册，说明该声纹信息已经完成了完整的注册流程。图3示出了根据本公开实施例的声纹信息数据库中声纹信息的注册状态示意图。

在步骤S29中，在提取到的声纹信息的注册状态是已注册的情况下，执行个性化业务。

图4是根据本公开一种实施例的声纹注册装置的示意框图。如图4所示，该装置包括：第一获取模块41，用于获取语音信号；检测模块42，用于从语音信号中检测话音信号；提取模块43，用于从话音信号中提取声纹信息；匹配模块44，用于在声纹信息数据库中匹配提取到的声纹信息；注册模块45，用于若匹配结果指示在声纹信息数据库中不存在提取到的声纹信息、或者提取到的声纹信息在声纹信息数据库中的注册状态为注册中，则注册提取到的声纹信息。

可选地，所述注册模块45用于将提取到的声纹信息的注册状态修改为已注册。

图5是根据本公开一种实施例的声纹注册装置的又一示意框图。如图5所示，所述装置还包括第二获取模块46，用于在在声纹信息数据库中匹配提取到的声纹信息之后、在注册提取到的声纹信息之前，获取提取到的声纹信息的成功识别次数；所述注册模块45，还用于基于成功识别次数，确定是否注册提取到的声纹信息。

可选地，所述第二获取模块46用于基于所述声纹信息数据库中提取到的声纹信息的ID，获取提取到的声纹信息的成功识别次数。

可选地，所述注册模块45还用于：若成功识别次数小于预设次数，则顺序生成提取到的声纹信息的新ID，并使提取到的声纹信息的注册状态为注册中。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种电子设备700的框图。如图6所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的声纹注册方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的声纹注册方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的声纹注册方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的声纹注册方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种声纹注册方法，其特征在于，包括：

获取语音信号；

从所述语音信号中检测话音信号；

从所述话音信号中提取声纹信息；

在声纹信息数据库中匹配提取到的声纹信息；

若匹配结果指示在所述声纹信息数据库中不存在提取到的声纹信息、或者提取到的声纹信息在所述声纹信息数据库中的注册状态为注册中，则注册提取到的声纹信息。

2.根据权利要求1所述的方法，其特征在于，所述注册提取到的声纹信息包括：将提取到的声纹信息的注册状态修改为已注册。

3.根据权利要求1所述的方法，其特征在于，在所述在声纹信息数据库中匹配提取到的声纹信息之后、在所述注册提取到的声纹信息之前，所述方法还包括：

获取提取到的声纹信息的成功识别次数；

基于所述成功识别次数，确定是否注册提取到的声纹信息。

4.根据权利要求3所述的方法，其特征在于，所述获取提取到的声纹信息的成功识别次数，包括：

基于所述声纹信息数据库中提取到的声纹信息的ID，获取提取到的声纹信息的成功识别次数。

5.根据权利要求3所述的方法，其特征在于，所述基于所述成功识别次数，确定是否注册提取到的声纹信息，包括：

若所述成功识别次数小于预设次数，则顺序生成提取到的声纹信息的新ID，并使提取到的声纹信息的注册状态为所述注册中。

6.一种声纹注册装置，其特征在于，包括：

第一获取模块，用于获取语音信号；

检测模块，用于从所述语音信号中检测话音信号；

提取模块，用于从所述话音信号中提取声纹信息；

匹配模块，用于在声纹信息数据库中匹配提取到的声纹信息；

注册模块，用于若匹配结果指示在所述声纹信息数据库中不存在提取到的声纹信息、或者提取到的声纹信息在所述声纹信息数据库中的注册状态为注册中，则注册提取到的声纹信息。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括第二获取模块，用于在所述在声纹信息数据库中匹配提取到的声纹信息之后、在所述注册提取到的声纹信息之前，获取提取到的声纹信息的成功识别次数；

所述注册模块，还用于基于所述成功识别次数，确定是否注册提取到的声纹信息。

8.根据权利要求7所述的装置，其特征在于，所述注册模块还用于：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-5中任一项所述方法的步骤。