CN107483445A

CN107483445A - 一种静默声纹识别注册方法、装置、服务器和存储介质

Info

Publication number: CN107483445A
Application number: CN201710729316.8A
Authority: CN
Inventors: 高聪
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-08-23
Filing date: 2017-08-23
Publication date: 2017-12-15
Also published as: US20190066695A1; US10529340B2

Abstract

本发明实施例公开了一种静默声纹识别注册方法、装置、服务器和存储介质，所述方法包括：获取智能设备采集的当前语音信息，提取得到所述当前语音信息的当前声纹特征；确定所述当前声纹特征是否属于所述智能设备关联的声纹特征；若否，则将所述当前声纹特征确定为所述智能设备关联的用户标识，以将所述当前声纹特征作为所述智能设备关联的声纹特征。本发明实施例实现了在不需用户刻意操作的情况下，将声纹特征确定为智能设备关联的用户标识，提高了声纹特征使用的便捷性。

Description

一种静默声纹识别注册方法、装置、服务器和存储介质

技术领域

本发明实施例涉及声音识别技术，尤其涉及一种静默声纹识别注册方法、装置、服务器和存储介质。

背景技术

随着人工智能技术的发展，语音识别技术也得到了快速的发展和广泛的应用。声纹识别随着其识别度和准确率的逐步提高，与指纹识别、人脸识别共同被广泛应用到安防、信息采集等各个领域。

目前，声纹的注册为固定流程注册，例如近场设备声纹注册时，在手机端应用程序上设置，根据手机上的提示要求，按照步骤进行操作以完成注册，其中需要重复读取移动终端上显示的文本。远场的智能设备声纹注册时，首先由用户发起命令，智能设备收到命令后，开启注册模式，也需要用户根据提示重复读取规定的文本以完成注册。综上，现有的声纹注册都是需要按照既定注册流程进行，注册流程较繁杂，用户不配合，导致使用率不高。

发明内容

本发明实施例提供了一种静默声纹识别注册方法、装置、服务器和存储介质，可以在不需用户刻意操作的情况下使用用户声纹，提高声纹特征使用的便捷性。

第一方面，本发明实施例提供了一种静默声纹识别注册方法，包括：

获取智能设备采集的当前语音信息，提取得到所述当前语音信息的当前声纹特征；

确定所述当前声纹特征是否属于所述智能设备关联的声纹特征；

若否，则将所述当前声纹特征确定为所述智能设备关联的用户标识，以将所述当前声纹特征作为所述智能设备关联的声纹特征。

第二方面，本发明实施例还提供了一种静默声纹识别注册装置，包括：

声纹特征提取模块，用于获取智能设备采集的当前语音信息，提取得到所述当前语音信息的当前声纹特征；

声纹特征识别模块，用于确定所述当前声纹特征是否属于所述智能设备关联的声纹特征；

声纹特征关联模块，用于若所述当前声纹特征不属于所述智能设备关联的声纹特征，则将所述当前声纹特征确定为所述智能设备关联的用户标识，以将所述当前声纹特征作为所述智能设备关联的声纹特征。

第三方面，本发明实施例还提供了一种服务器，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的静默声纹识别注册方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的静默声纹识别注册方法。

本发明实施例通过获取智能设备采集的当前语音信息，提取得到当前语音信息的当前声纹特征,确定当前声纹特征是否属于智能设备关联的声纹特征,若否，则将当前声纹特征确定为智能设备关联的用户标识，以将当前声纹特征作为智能设备关联的声纹特征，实现了在不需用户刻意操作的情况下，将声纹特征确定为智能设备关联的用户标识，提高了声纹特征使用的便捷性。

附图说明

图1为本发明实施例一中的静默声纹识别注册方法的流程图；

图2为本发明实施例二中的静默声纹识别注册方法的流程图；

图3为本发明实施例三中的静默声纹识别注册方法的流程图；

图4为本发明实施例四中的静默声纹识别注册方法的流程图；

图5为本发明实施例五中的静默声纹识别注册方法的结构示意图；

图6为本发明实施例六中的服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一中的静默声纹识别注册方法的流程图，本实施例可适用于使用用户声纹特征的情况，该方法可以由静默声纹识别注册装置执行，该静默声纹识别注册装置可以采用软件和/或硬件的方式实现，例如，该静默声纹识别注册装置可配置于服务器中。如图1所示，该方法具体包括：

S110、获取智能设备采集的当前语音信息，提取得到所述当前语音信息的当前声纹特征。

具体的，在用户通过语音方式与智能设备交互过程中，用户依据自身需求确定语音内容，智能设备采集用户输入的当前语音信息，对当前语音信息进行处理，提取出当前语音信息中的声纹特征。在本实施例中，可通过对采集到的模拟语音信号进行量化和采样，获得数字化的语音信号，再将数字语音信号进行去噪、滤波处理，得到处理后的语音信号，使用预设算法对处理后的语音信号进行特征的提取，得到当前语音信息的声纹特征。

S120、确定所述当前声纹特征是否属于所述智能设备关联的声纹特征。

获得当前声纹特征后，将当前声纹特征与智能设备关联的声纹特征匹配，以确定当前声纹特征是否已成为该智能设备关联的声纹特征。若智能设备是未经使用的设备，则智能设备关联的声纹特征为空；若智能设备是已经使用的设备，则智能设备关联的声纹特征属于使用智能设备的历史用户。

具体的，通过将当前声纹特征与智能设备关联的声纹特征进行匹配，若当前声纹特征与智能设备关联的任一声纹特征匹配成功，则确定当前声纹特征属于智能设备关联的声纹特征，即当前语音信息来自于历史用户；若当前声纹特征与智能设备关联的所有声纹特征均未匹配识别，则确定当前声纹特征不属于智能设备关联的声纹特征，即当前语音信息来自于新用户。其中，对声纹特征的识别方式有多种，例如，可通过将当前声纹特征与建立好的声纹特征模型进行比对来识别当前声纹特征；还可以利用神经网络算法实现对当前声纹特征的识别，如动态时间归整(Dynamic Time Warping，DTW)算法、隐马尔可夫模型(Hidden Markov Model，HMM)、高斯混合模型(Gaussian mixture model，GMM)等。

S130、若否，则将所述当前声纹特征确定为所述智能设备关联的用户标识，以将所述当前声纹特征作为所述智能设备关联的声纹特征。

具体的，若当前声纹特征不属于智能设备关联的声纹特征，即当前声纹特征未与该智能设备关联，则将当前声纹特征确定为该智能设备关联的用户标识，以将当前声纹特征作为该智能设备关联的声纹特征，例如将当前声纹特征所属用户确定为智能设备的用户N，其中N为整数。将当前声纹特征确定为智能设备关联的用户标识之后，当前声纹特征所属用户后续使用智能设备的过程中产生的用户行为数据，与该用户标识关联。另外，还可建立与当前声纹特征对应的声纹特征模型，用于后续对采集的声纹特征的识别。

本实施例的技术方案，通过获取智能设备采集的当前语音信息，提取得到当前语音信息的当前声纹特征,确定当前声纹特征是否属于智能设备关联的声纹特征，若否，则将当前声纹特征确定为智能设备关联的用户标识，以将当前声纹特征作为智能设备关联的声纹特征，实现了在不需用户刻意操作的情况下，将声纹特征确定为智能设备关联的用户标识，提高了声纹特征使用的便捷性。

实施例二

图2为本发明实施例二中的静默声纹识别注册方法的流程图，本实施例在实施例一的基础上进行进一步地优化。如图2所示，所述方法包括：

S210、获取智能设备采集的当前语音信息，提取得到所述当前语音信息的当前声纹特征。

S220、确定所述当前声纹特征是否属于所述智能设备关联的声纹特征。若属于，则响应当前语音信息。

S230、若否，确定所述智能设备关联的用户标识的数量是否小于预设阈值。若是，则执行S240；若否，执行S250。

若当前声纹特征不属于该智能设备关联的声纹特征，则将其确定为用户标识与该智能设备关联。为了保证智能设备中声纹特征使用的准确性，需限制同一台智能设备可以通过声纹特征关联的用户标识数量，即需预先设定智能设备关联的用户标识的数量阈值。当需要将当前声纹特征确定为用户标识与该智能设备关联时，首先判断该智能设备已关联的用户标识的数量是否小于预设阈值，以确定能否将当前声纹特征作为新的用户标识直接添加到该智能设备中与该智能设备相关联。优选的，预设阈值可以为10。

S240、将所述当前声纹特征确定为所述智能设备关联的新的用户标识。

若该智能设备通过声纹特征关联的用户标识数量小于预设阈值，表示该智能设备能够直接添加新的声纹特征作为新的用户标识与该智能设备相连，此时，将当前声纹特征添加到智能设备中，并将其确定为该智能设备关联的新的用户标识。

S250、采用所述当前声纹特征替换所述智能设备关联的用户行为数据最少的旧用户标识，并清除该旧用户标识关联的用户行为数据。

若该智能设备通过声纹特征关联的用户标识数量不小于预设阈值，表示该智能设备通过声纹特征作为用户标识与该智能设备关联的数量已达到限制条件，则无法直接添加新的声纹特征作为新的用户标识与该智能设备相关联，此时，将当前声纹特征作为新的用户标识替换掉该智能设备中关联的用户行为数据最少的旧用户标识，并清除替换掉的旧用户标识关联的用户行为数据。

本实施例的技术方案，具体化了将所述当前声纹特征确定为所述智能设备关联的用户标识，以将所述当前声纹特征作为所述智能设备关联的声纹特征，利用该方法，使得在保证智能设备中声纹特征使用的准确性的同时，实现了在不需用户刻意操作的情况下，将声纹特征确定为智能设备关联的用户标识，提高了声纹特征使用的便捷性。

实施例三

图3为本发明实施例三中的静默声纹识别注册方法的流程图，本实施例以上述实施例为基础进行进一步的优化。如图3所示，所述方法包括：

S310、获取智能设备采集的当前语音信息，提取得到所述当前语音信息的当前声纹特征。

S320、确定所述当前声纹特征是否属于所述智能设备关联的声纹特征。

S330、若否，则将所述当前声纹特征确定为所述智能设备关联的用户标识，以将所述当前声纹特征作为所述智能设备关联的声纹特征。

S340、依据用户标识中的声纹特征提取得到用户属性信息。

在本实施例中，通过对声纹特征的识别，可以判断该声纹特征所对应用户的性别和/或年龄段等信息。具体地，可识别出该声纹特征所对应的用户是男或女，幼儿或成年等，并将识别结果添加至该声纹特征对应的用户属性信息中。

S350、依据所述用户属性信息为用户进行信息推送。

具体地，可根据用户属性信息为用户进行信息推送。优选的，可预先建立用户属性信息及待推送信息的待推送信息确认数据库，确定用户属性信息后，可通过在待推送信息确认数据库中查找与当前用户属性信息对应的待推送信息，并将其推送至智能设备显示或播放。

例如，当识别到当前用户属性信息为女、幼儿时，通过在待推送信息确认数据库中查找到与女、幼儿对应的待推送信息为儿童故事、儿歌等，将类别为儿童故事、儿歌的音频和/或视频推送至智能设备显示或播放。

本实施例的技术方案，在上述各实施例的基础上增添了依据用户标识中的声纹特征提取得到用户属性信息，并依据所述用户属性信息为用户进行信息推送，利用该方法，不仅实现了在不需用户刻意操作的情况下，将声纹特征确定为智能设备关联的用户标识，提高了声纹特征使用的便捷性，还实现了根据用户属性信息为用户进行个性化的信息推送，提高了用户体验。

实施例四

图4为本发明实施例四中的静默声纹识别注册方法的流程图，本实施例以上述实施例为基础进行进一步的优化。如图4所示，所述方法包括：

S410、获取智能设备采集的当前语音信息，提取得到所述当前语音信息的当前声纹特征。

S420、确定所述当前声纹特征是否属于所述智能设备关联的声纹特征。

S430、若否，则将所述当前声纹特征确定为所述智能设备关联的用户标识，以将所述当前声纹特征作为所述智能设备关联的声纹特征。

S440、针对每一用户标识，依据所述用户标识关联的用户行为数据确定所述用户标识所属用户的行为习惯特征。

在本实施例中，针对每一个用户标识，可以根据该用户标识关联的用户行为数据确定该用户标识所述用户的行为习惯特征。例如，可在用户使用智能设备时，实时记录用户的操作，根据用户操作确定用户行为数据，并根据用户行为数据确定用户的行为习惯特征。优选的，可预先建立用户偏好模型，根据用户行为数据和用户偏好模型确定用户的行为习惯特征。其中，用户行为数据可以为用户点播的歌曲名、歌手名、歌曲所属类型等，还可以为用户观看的视频类型、视频时长等。

例如，可根据用户经常点播的歌曲所对应的歌曲类型确定用户偏好的歌曲类型，当用户经常点播的歌曲名称为“甜蜜蜜”、“爱”、“追梦人”时，确定该用户偏爱的歌曲类型为“怀旧”，并将其添加到该用户行为习惯特征中。

S450、依据所述行为习惯特征为用户进行信息推送。

具体地，可根据用户行为习惯特征为用户进行信息推送。以上文提到的用户行为习惯特征中包含“怀旧”为例，当识别到当前用户行为习惯特征中包含“怀旧”时，将“怀旧”对应的歌曲推送至智能设备播放。

本实施例的技术方案，在上述各实施例的基础上增添了针对每一用户标识，依据用户标识关联的用户行为数据确定用户标识所属用户的行为习惯特征，依据行为习惯特征为用户进行信息推送，利用该方法，不仅实现了在不需用户刻意操作的情况下，将声纹特征确定为智能设备关联的用户标识，提高了声纹特征使用的便捷性，还实现了根据用户行为习惯特征为用户进行个性化的信息推送，提高了用户体验。

实施例五

图5为本发明实施例五中的静默声纹识别注册装置的结构示意图。如图5所示，所述装置包括：

声纹特征提取模块510，用于获取智能设备采集的当前语音信息，提取得到所述当前语音信息的当前声纹特征；

声纹特征识别模块520，用于确定所述当前声纹特征是否属于所述智能设备关联的声纹特征；

声纹特征关联模块530，用于若所述当前声纹特征不属于所述智能设备关联的声纹特征，则将所述当前声纹特征确定为所述智能设备关联的用户标识，以将所述当前声纹特征作为所述智能设备关联的声纹特征。

进一步地，所述声纹特征关联模块530具体用于：

若所述当前声纹特征不属于所述智能设备关联的声纹特征，则确定所述智能设备关联的用户标识的数量是否小于预设阈值；

若是，则将所述当前声纹特征确定为所述智能设备关联的新的用户标识；

若否，采用所述当前声纹特征替换所述智能设备关联的用户行为数据最少的旧用户标识，并清除该旧用户标识关联的用户行为数据。

进一步地，所述装置还包括：

用户属性获取模块，用于依据用户标识中的声纹特征提取得到用户属性信息；

第一信息推送模块，用于依据所述用户属性信息为用户进行信息推送。

进一步地，所述装置还包括：

行为习惯特征获取模块，用于针对每一用户标识，依据所述用户标识关联的用户行为数据确定所述用户标识所属用户的行为习惯特征；

第二信息推送模块，用于依据所述行为习惯特征为用户进行信息推送。

本实施例的技术方案，通过声纹特征提取模块获取智能设备采集的当前语音信息，提取得到当前语音信息的当前声纹特征,声纹特征识别模块确定当前声纹特征是否属于智能设备关联的声纹特征,若所述当前声纹特征不属于所述智能设备关联的声纹特征，使用声纹特征关联模块将所述当前声纹特征确定为所述智能设备关联的用户标识，以将所述当前声纹特征作为所述智能设备关联的声纹特征，实现了在不需用户刻意操作的情况下，将声纹特征确定为智能设备关联的用户标识，提高了声纹特征使用的便捷性。

本发明实施例所提供的静默声纹识别注册装置可执行本发明任意实施例所提供的静默声纹识别注册方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6为本发明实施例六中的服务器的结构示意图。图6示出了适于用来实现本发明实施方式的示例性服务器612的框图。图6显示的服务器612仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，服务器612以通用计算设备的形式表现。服务器612的组件可以包括但不限于：一个或者多个处理器616，系统存储器628，连接不同系统组件(包括系统存储器628和处理器616)的总线618。

总线618表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器616或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

服务器612典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器612访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器628可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)630和/或高速缓存存储器632。服务器612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统634可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线618相连。存储器628可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块642的程序/实用工具640，可以存储在例如存储器628中，这样的程序模块642包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块642通常执行本发明所描述的实施例中的功能和/或方法。

服务器612也可以与一个或多个外部设备614(例如键盘、指向设备、显示器624等)通信，还可与一个或者多个使得用户能与该服务器612交互的设备通信，和/或与使得该服务器612能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口622进行。并且，服务器612还可以通过网络适配器620与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器620通过总线618与服务器612的其它模块通信。应当明白，尽管图中未示出，可以结合服务器612使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器616通过运行存储在系统存储器628中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的静默声纹识别注册方法，该方法包括：

实施例七

本发明实施例七还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的静默声纹识别注册方法，该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种静默声纹识别注册方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述当前声纹特征确定为所述智能设备关联的用户标识，包括：

确定所述智能设备关联的用户标识的数量是否小于预设阈值；

3.根据权利要求1所述的方法，其特征在于，在将所述当前声纹特征确定为所述智能设备关联的用户标识，以将所述当前声纹特征作为所述智能设备关联的声纹特征之后，还包括：

依据用户标识中的声纹特征提取得到用户属性信息；

依据所述用户属性信息为用户进行信息推送。

4.根据权利要求1所述的方法，其特征在于，在将所述当前声纹特征确定为所述智能设备关联的用户标识，以将所述当前声纹特征作为所述智能设备关联的声纹特征之后，还包括：

针对每一用户标识，依据所述用户标识关联的用户行为数据确定所述用户标识所属用户的行为习惯特征；

依据所述行为习惯特征为用户进行信息推送。

5.一种静默声纹识别注册装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述声纹特征关联模块具体用于：

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

9.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的静默声纹识别注册方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的静默声纹识别注册方法。