CN107331400A

CN107331400A - 一种声纹识别性能提升方法、装置、终端及存储介质

Info

Publication number: CN107331400A
Application number: CN201710741564.4A
Authority: CN
Inventors: 高聪
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2017-11-07

Abstract

本发明公开了一种声纹识别性能提升方法、装置、终端及存储介质，其中，该方法包括：获取用户输入的语音开启指令；确定所述语音开启指令与预设的引导文本是否匹配；若匹配，则提取所述语音开启指令对应的声纹特征；将提取的所述声纹特征与预先确定的样本声纹特征进行匹配，若匹配成功，则执行开启操作，其中所述样本声纹特征是从语义为所述引导文本的语音信息中预先提取的。本发明通过获取用户的个性化语音，依据用户的个性化语音信息提取得到用户的样本声纹特征，根据用户的语音开启指令与样本声纹特征的匹配结果执行后续的开启操作。从而不再受语音样本量的限制，提升了容错机制，提高了声纹识别的准确率和用户体验。

Description

一种声纹识别性能提升方法、装置、终端及存储介质

技术领域

本发明实施例涉及声纹识别技术领域，尤其涉及一种声纹识别性能提升方法、装置、终端及存储介质。

背景技术

声纹识别技术属于生物识别技术的一种，是一项根据语音中反应说话人生理和行为特征的语音参数来识别语音话者身份的技术。由于每个人的发声器官在尺寸和形态方面不尽相同，因此声纹也就成为一种鉴别说话人身份的识别手段。

随着语音识别技术的快速发展，越来越多的智能电器设备采用声纹识别技术来增强用户的用户体验，用户可以根据声纹识别技术锁定个人账户，并对个人账户进行私人属性定义，因此用户可以使用语音快速进入设备系统并获取个人账户信息及功能。因此，声纹识别的准确度十分关键。

发明内容

本发明实施例提供了一种声纹识别性能提升方法、装置、终端及存储介质，能够增加语音样本量，提高声纹识别的准确性，增强用户体验。

第一方面，本发明实施例提供了一种声纹识别性能提升方法，包括：

获取用户输入的语音开启指令；

确定所述语音开启指令与预设的引导文本是否匹配；

若匹配，则提取所述语音开启指令对应的声纹特征；

将提取的所述声纹特征与预先确定的样本声纹特征进行匹配，若匹配成功，则执行开启操作，其中所述样本声纹特征是从语义为所述引导文本的语音信息中预先提取的。

第二方面，本发明实施例提供了一种声纹识别性能提升装置，包括：

语音指令获取模块，用于获取用户输入的语音开启指令；

语音识别模块，用于确定所述语音开启指令与预设的引导文本是否匹配；

声纹特征提取模块，用于当所述语音开启指令与预设的引导文本匹配时，提取所述语音开启指令对应的声纹特征；

声纹特征匹配模块，用于将提取的所述声纹特征与预先确定的样本声纹特征进行匹配，若匹配成功，则执行开启操作，其中所述样本声纹特征是从语义为所述引导文本的语音信息中预先提取的。

第三方面，本发明实施例提供了一种终端，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的声纹识别性能提升方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的声纹识别性能提升方法。

本发明实施例提供的一种声纹识别性能提升方法、装置、终端及存储介质，通过获取用户输入的个性化引导语音，依据用户的个性化引导语音提取得到用户的样本声纹特征，并依据样本声纹特征对语音开启指令对应的声纹特征进行匹配。由于引导文本的内容可以由用户自行设定，个性化引导语音提升了容错机制，提高了声纹识别的准确度，从而提高了样本声纹特征的准确度，相应地，提高了后续声纹特征匹配的准确度，提升了用户体验。

附图说明

图1为本发明实施例一提供的一种声纹识别性能提升方法的流程图；

图2为本发明实施例二提供的一种声纹识别性能提升方法的流程图；

图3为本发明实施例三提供的一种声纹识别性能提升装置的结构示意图；

图4为本发明实施例四提供的一种终端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种声纹识别性能提升方法的流程图，本实施例可适用于通过语音指令控制智能设备的情况，该方法可以由声纹识别性能提升装置来执行，该声纹识别性能提升装置可以采用软件和/或硬件的方式实现。参考图1，该方法具体可以包括如下：

S110、获取用户输入的语音开启指令。

智能终端可以对周围环境进行实时检测，处于休眠状态的智能终端检测到所处环境有语音指令时，获取用户输入的语音开启指令。智能终端是支持语音交互的具有多媒体功能的智能设备，如具有支持音频、视频、数据等方面的功能，可以是智能机器人，智能音箱等。

S120、确定语音开启指令与预设的引导文本是否匹配；若匹配，则继续执行S130；否则，跳转执行S160。

其中，引导文本是指合法用户预先设置的语音唤醒指令对应的文本，语音唤醒指令用于控制处于休眠状态的智能终端切换到运行状态。例如，在合法用户使用智能终端的过程中例如智能终端首次被使用时，提示用户输入个性化的语音唤醒指令，对语音唤醒指令进行语义分析得到个性化的引导文本。

具体的，若语音开启指令与引导文本匹配成功，则当前用户可能是智能终端的合法用户，继续执行后续操作；若语音开启指令与引导文本匹配失败，则当前用户不会是合法用户，可以直接屏蔽该语音开启指令。

S130、提取语音开启指令对应的声纹特征。

S140、将提取的声纹特征与预先确定的样本声纹特征进行匹配，其中样本声纹特征是从语义为引导文本的语音信息中预先提取的；若匹配成功，则继续执行S150；否则，跳转执行S160。

其中，所述样本声纹特征的确定可以包括：在声纹注册过程中，向用户提供录音上传通道；展示个性化语音输入提醒信息；对用户输入的个性化语音内容进行分析，得到所述用户的样本声纹特征。

需要说明的是，在声纹注册过程中，对用户输入的个性化语音内容不作具体限定，即对引导文本内容不作具体限定，允许用户使用个性化的引导文本。并且，对个性化语音的数量和音量也不作限定，用户可以不限次数地使用多个惯用音量进行多次引导语音录入。在一定数量范围内，用户在声纹注册过程中输入的个性化语音数量越多，对个性化语音进行分析确定的样本声纹特征的准确度越高。本实施例中样本声纹特征不受语音样本量的限制，提升了容错机制，从而提高了样本声纹特征的准确度。

S150、执行开启操作。

S160、不进行任何操作。

另外需要说明的是，智能终端可以有多个合法用户，不同合法用户对应有样本声纹特征和引导文本，则智能终端中还存储有引导文本与样本声纹特征之间的关联关系，或者存储有合法用户与引导文本，以及合法用户与样本声纹特征之间的映射关系。

以智能音箱的开启过程为例，用户A对应的引导文本为“请启动我的智能音箱”，并提取得到用户A的样本声纹特征。用户B所对应的引导文本为“智能音箱快快启动”，并提取得到用户B的样本声纹特征。用户C未对该智能音箱存储任何开启指令、引导文本和样本声纹特征。在智能音箱使用过程中，若用户A对智能音箱说出内容为“请启动我的智能音箱”的语音开启指令，此时语音开启指令与引导文本匹配成功，且“请启动我的智能音箱”对应的当前声纹特征与用户A的样本声纹特征匹配成功，智能音箱启动。

然而，当用户A对智能音箱说出内容为“智能音箱快快启动”的语音开启指令时，虽然语音开启指令与用户B的引导文本匹配成功，但是当前声纹特征与用户B的样本声纹特征匹配失败，智能音箱启动失败。

本实施例的技术方案，通过获取用户输入的个性化引导语音，依据用户的个性化引导语音提取得到用户的样本声纹特征，并依据样本声纹特征对语音开启指令对应的声纹特征进行匹配。由于引导文本的内容可以由用户自行设定，个性化引导语音提升了容错机制，提高了声纹识别的准确度，从而提高了样本声纹特征的准确度，相应地，提高了后续声纹特征匹配的准确度，提升了用户体验。

实施例二

本实施例在上述实施例一的基础上，提供了一种样本声纹特征的更新方法。图2为本发明实施例二提供的一种声纹识别性能提升方法的流程图，如图2所示，该方法具体可以包括以下：

S210、在检测到声纹更新事件时，获取用户输入的当前语音信息.

其中，在检测到预设的声纹更新按钮被触发，或者检测到样本声纹特征的存在时间长度大于预设的时间长度阈值时，生成声纹更新事件。

S220、对当前语音信息进行识别，提取得到当前声纹特征。

S230、依据当前声纹特征和预先确定的样本声纹特征，得到新的样本声纹特征。

示例性的，S230可以包括：确定所述当前声纹特征和所述预先确定的样本声纹特征所属用户是否相同，若相同，则采用预先确定的系数对所述当前声纹特征和预先确定的样本声纹特征进行融合，得到所述新的样本声纹特征。其中，系数可以是预先设定的经验值。

示例性的，确定当前声纹特征和预先确定的样本声纹特征所属用户是否相同，可以包括：确定当前声纹特征和预先确定的样本声纹特征之间的相似度，若相似度大于预设的相似度阈值，则确定当前声纹特征和预先确定的样本声纹特征所属用户相同。

S240、获取用户输入的语音开启指令。

S250、确定语音开启指令与预设的引导文本是否匹配。

S260、若匹配，则提取语音开启指令对应的声纹特征。

S270、将提取的所述声纹特征与新的样本声纹特征进行匹配，若匹配成功，则执行开启操作。

示例性的，在检测到预设的声纹更新按钮被触发，或者检测到样本声纹特征的存在时间长度大于预设的时间长度阈值时，生成所述声纹更新事件。

由于每个人的发声器官在尺寸和形态方面不尽相同，且是时刻变化着的，因此当样本声纹特征的存在时间长度大于预设的时间长度阈值时，需要对样本声纹特征进行更新，生成声纹更新事件，以确保声纹识别的准确率。

本实施例的技术方案，在检测到声纹更新事件时，通过语音信息识别和声纹特征匹配，来判断当前用户的用户信息与此时的设备使用者是否一致，当用户一致时，采用预先确定的系数对当前声纹特征和预先确定的样本声纹特征进行融合，得到新的样本声纹特征，完成样本声纹特征的更新。以此确保智能设备中的样本声纹特征的定期更新，提高了声纹识别的准确率。

实施例三

图3为本发明实施例三提供的一种声纹识别性能提升装置的结构示意图，本实施例可适用于通过语音指令控制智能设备的情况，可执行本发明任意实施例所提供的声纹识别性能提升的方法。参考图3，该装置的具体结构如下：

语音指令获取模块310，用于获取用户输入的语音开启指令；

语音识别模块320，用于确定语音开启指令与预设的引导文本是否匹配；

声纹特征提取模块330，用于当语音开启指令与预设的引导文本匹配时，提取语音开启指令对应的声纹特征；

声纹特征匹配模块340，用于将提取的声纹特征与预先确定的样本声纹特征进行匹配，若匹配成功，则执行开启操作，其中样本声纹特征是从语义为引导文本的语音信息中预先提取的。

进一步地，该装置包括样本声纹特征确定模块350，具体用于：

在声纹注册过程中，向用户提供录音上传通道；

展示个性化语音输入提醒信息；

对用户输入的个性化语音内容进行分析，得到用户的样本声纹特征。

进一步地，该装置还包括样本声纹更新模块360，具体用于：

在检测到声纹更新事件时，获取用户输入的当前语音信息；

对当前语音信息进行识别，提取得到当前声纹特征；

依据当前声纹特征和预先确定的样本声纹特征，得到新的样本声纹特征。

在上述方案的基础上，样本声纹更新模块360，具体用于：

确定当前声纹特征和预先确定的样本声纹特征所属用户是否相同，若相同，则采用预先确定的系数对当前声纹特征和预先确定的样本声纹特征进行融合，得到新的样本声纹特征。

优选的是，确定当前声纹特征和预先确定的样本声纹特征之间的相似度，若相似度大于预设的相似度阈值，则确定当前声纹特征和所述预先确定的样本声纹特征所属用户相同。

进一步地，该装置还包括声纹更新事件生成模块370，具体用于：

在检测到预设的声纹更新按钮被触发，或者检测到样本声纹特征的存在时间长度大于预设的时间长度阈值时，生成声纹更新事件。

本实施例的技术方案，通过各个模块间的相互配合，实现了语音识别、声纹匹配、用户识别、样本声纹确定以及样本声纹更新等功能，达到了提升容错机制、提高声纹识别的准确率和用户体验的效果。

实施例四

图4为本发明实施例四提供的一种终端的结构示意图，图4示出了适于用来实现本发明实施方式的示例性终端的框图。图4显示的终端/仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

图4显示的终端12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，终端12以通用计算设备的形式表现。终端12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

终端12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。终端12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

终端12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该终端12交互的设备通信，和/或与使得该终端12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，终端12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与终端12的其它模块通信。应当明白，尽管图中未示出，可以结合终端12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的声纹识别性能提升方法。

实施例五

本发明实施例五还提供一种计算机可读存储介质，其上存储有计算机程序(或称为计算机可执行指令)，该程序被处理器执行时用于执行一种声纹识别性能提升方法，该方法包括：

获取用户输入的语音开启指令；

确定语音开启指令与预设的引导文本是否匹配；

若匹配，则提取语音开启指令对应的声纹特征；

将提取的声纹特征与预先确定的样本声纹特征进行匹配，若匹配成功，则执行开启操作，其中样本声纹特征是从语义为引导文本的语音信息中预先提取的。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种声纹识别性能提升方法，其特征在于，包括：

获取用户输入的语音开启指令；

确定所述语音开启指令与预设的引导文本是否匹配；

若匹配，则提取所述语音开启指令对应的声纹特征；

2.根据权利要求1所述的方法，其特征在于，所述样本声纹特征的确定包括：

在声纹注册过程中，向用户提供录音上传通道；

展示个性化语音输入提醒信息；

对用户输入的个性化语音内容进行分析，得到所述用户的样本声纹特征。

3.根据权利要求1所述的方法，其特征在于，还包括：

在检测到声纹更新事件时，获取用户输入的当前语音信息；

对所述当前语音信息进行识别，提取得到当前声纹特征；

依据所述当前声纹特征和所述预先确定的样本声纹特征，得到新的样本声纹特征。

4.根据权利要求3所述的方法，其特征在于，依据所述当前声纹特征和所述预先确定的样本声纹特征，得到所述新的样本声纹特征，包括：

确定所述当前声纹特征和所述预先确定的样本声纹特征所属用户是否相同，若相同，则采用预先确定的系数对所述当前声纹特征和预先确定的样本声纹特征进行融合，得到所述新的样本声纹特征。

5.根据权利要求4所述的方法，其特征在于，确定所述当前声纹特征和所述预先确定的样本声纹特征所属用户是否相同，包括：

确定所述当前声纹特征和所述预先确定的样本声纹特征之间的相似度，若相似度大于预设的相似度阈值，则确定所述当前声纹特征和所述预先确定的样本声纹特征所属用户相同。

6.根据权利要求3所述的方法，其特征在于，

在检测到预设的声纹更新按钮被触发，或者检测到样本声纹特征的存在时间长度大于预设的时间长度阈值时，生成所述声纹更新事件。

7.一种声纹识别性能提升装置，其特征在于，包括：

语音指令获取模块，用于获取用户输入的语音开启指令；

8.根据权利要求7所述的装置，其特征在于，包括样本声纹特征确定模块，所述样本声纹特征确定模块具体用于：

在声纹注册过程中，向用户提供录音上传通道；

展示个性化语音输入提醒信息；

9.根据权利要求7所述的装置，其特征在于，还包括：样本声纹更新模块，所述样本声纹更新模块具体用于：

在检测到声纹更新事件时，获取用户输入的当前语音信息；

对所述当前语音信息进行识别，提取得到当前声纹特征；

10.根据权利要求9所述的装置，其特征在于，所述样本声纹更新模块具体用于：

11.根据权利要求10所述的装置，其特征在于，所述样本声纹更新模块具体用于：

12.根据权利要求9所述的装置，其特征在于，还包括声纹更新事件生成模块，所述声纹更新事件生成模块具体用于：

13.一种终端，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的声纹识别性能提升方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述的声纹识别性能提升方法。