CN109462482B

CN109462482B - 声纹识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN109462482B
Application number: CN201811334472.5A
Authority: CN
Inventors: 张育华
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2023-08-08
Anticipated expiration: 2038-11-09
Also published as: CN109462482A

Abstract

本发明涉及语音处理领域，具体涉及一种声纹识别方法、装置、电子设备及计算机可读存储介质。所述方法在认证服务器端设置有设置声纹数据，在用户终端接收用户的语音并根据接收的语音生成验证声纹数据，且将该验证声纹数据发送至该认证服务器。本发明还将所验证声纹数据进行哈希运算得到对应所述验证声纹数据的第一哈希值，及将设置声纹数据进行哈希运算得到对应所述设置声纹数据的第二哈希值；并根据所述第一哈希值与所述第二哈希值的比较结果判断所述应用登录是否异常，如此实现了通过声纹识别用户身份的安全性。

Description

声纹识别方法、装置、电子设备及计算机可读存储介质

技术领域

本发明涉及语音处理领域，具体涉及一种声纹识别方法、装置、电子设备及计算机可读存储介质。

背景技术

目前，越来越多的应用开始使用声纹登录系统。相对于传统的登录方式，声纹登录方式安全程度更高。但是，在应用登录时，有可能会通过高保真录音设备录下目标人物的声音来冒充说话人身份来登录系统，进而对系统的安全性提出了更高的要求。

发明内容

鉴于以上内容，有必要提出一种声纹识别方法、装置、电子设备及计算机可读存储介质，提高了通过声纹识别用户身份的安全性。

本申请的第一方面提供一种声纹识别方法，应用在用户终端及与该用户终端相通信连接的认证服务器中，所述方法包括：

应用登录时，所述用户终端接收用户的选择操作选择进入验证场景或是设置场景；

当进入所述设置场景时，获取用户的设置声纹数据，并将所述设置声纹数据发送到所述认证服务器中进行存储；

当进入所述验证场景时，所述用户终端接收用户的语音，并根据接收的语音生成用户的验证声纹数据；

所述用户终端对所述验证声纹数据进行预处理以得到预处理语音数据，并将所述预处理语音数据发送给所述认证服务器，其中，所述用户终端对所述验证声纹数据进行预处理包括对所述验证声纹数据进行哈希运算得到对应所述验证声纹数据的第一哈希值；

所述认证服务器将所述预处理语音数据与所述设置声纹数据进行验证，其中，所述认证服务器将所述预处理语音数据与所述设置声纹数据进行验证包括所述服务器对所述设置声纹数据进行哈希运算得到对应所述设置声纹数据的第二哈希值；及

所述认证服务器根据验证结果判断所述应用登录是否异常，并在所述应用登录异常时输出反馈信息至所述用户终端，其中所述认证服务器根据验证结果判断所述应用登录是否异常包括根据所述第一哈希值与所述第二哈希值的比较结果判断所述应用登录是否异常。

优选地，所述设置场景可包括安全模式及风险模式，其中所述安全模式用于正常登录时录入正常声纹数据，并将所述正常声纹数据作为所述安全模式的设置声纹数据，风险模式用于在异常登录时录入异常声纹数据，并将所述异常声纹数据作为所述风险模式的设置声纹数据。

优选地，所述当进入所述设置场景时，获取用户的设置声纹数据，并将所述设置声纹数据发送到服务器中进行存储包括：

所述用户终端接收用户输入的语音；

将所述语音进行特征提取与模式识别，以得到所述设置声纹数据；及

由所述用户终端将所述设置声纹数据传输给所述认证服务器。

优选地，对所述验证声纹数据进行预处理还包括：

将所述用户终端本地的时间戳加入所述预处理语音数据中。

优选地，所述根据验证结果判断所述应用登录是否异常并在所述应用登录异常时输出反馈信息至所述用户终端包括；及

所述认证服务器获取所述预处理语音数据中包含的时间戳；

判断所述预处理语音数据中的时间戳与所述认证服务器的当前时间之间的时间差值是否大于预设时间；及

当所述时间差值超过所述预设时间时发出要求用户重新输入身份验证的反馈信息至所述用户终端。

优选地，所述根据验证结果判断所述应用登录是否异常并在所述应用登录异常时输出反馈信息至所述用户终端包括：

所述认证服务器通过模式识别匹配方法与所述异常声纹数据进行匹配操作；

当所述预处理语音数据与异常声纹数据匹配时，所述认证服务器认为用户可能处于风险状态并拒绝用户的登录，并且获取所述用户终端的地理位置，并自动报警。

优选地，所述应用登录时选择进入验证场景或是设置场景包括：

所述应用记录在所述用户终端启动的次数；

当所述应用是首次启动时，所述应用提醒用户进入所述验证场景或所述设置场景；及

当应用的启动次数大于1时，直接进入所述验证场景。

本申请的第二方面提供一种声纹识别装置，应用在用户终端及与该用户终端相通信连接的认证服务器中，所述方法包括：

场景选择模块，用于在应用登录时接收用户的选择操作进入验证场景或是设置场景；

设置模块，用于当进入所述设置场景时，获取用户的设置声纹数据，并将所述设置声纹数据发送到服务器中进行存储；

生成模块，用于当进入所述验证场景时接收用户的语音，并根据接收的语音生成用户的验证声纹数据；

预处理模块，用于对所述验证声纹数据进行预处理以得到预处理语音数据，并将所述预处理语音数据发送给所述认证服务器，其中，对所述验证声纹数据进行预处理包括对所述验证声纹数据进行哈希运算得到对应所述验证声纹数据的第一哈希值；

验证模块，用于将所述预处理语音数据与所述设置声纹数据进行验证，其中，将所述预处理语音数据与所述设置声纹数据进行验证包括所述服务器对所述设置声纹数据进行哈希运算得到对应所述设置声纹数据的第二哈希值；及

执行模块，用于根据验证结果判断所述应用登录是否异常，并在所述应用登录异常时输出反馈信息至所述用户终端，其中判断所述应用登录是否异常包括根据所述第一哈希值与所述第二哈希值的比较结果判断所述应用登录是否异常。

本申请的第三方面提供一种电子设备，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述声纹识别方法。

本申请的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述声纹识别方法。

本发明将验证声纹数据进行哈希运算得到对应所述验证声纹数据的第一哈希值，及将设置声纹数据进行哈希运算得到对应所述设置声纹数据的第二哈希值；及根据所述第一哈希值与所述第二哈希值的比较结果判断所述应用登录是否异常，如此实现了通过声纹识别用户的安全性。

附图说明

图1是本发明基于直销银行的智能推荐方法的应用环境示意图。

图2是本发明声纹识别方法较佳实施例的流程图。

图3是本发明一实施方式中声纹识别荐装置的结构图。

图4为本发明电子设备较佳实施例的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

优选地，本发明声纹识别方法应用在一个或者多个电子设备中。所述电子设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(DigitalSignal Processor，DSP)、嵌入式设备等。

所述电子设备可以是桌上型计算机、笔记本电脑、平板电脑及云端服务器等计算设备。所述设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例1

图1是本发明一实施方式中声纹识别方法的应用环境示意图。

参阅图1所示，所述声纹识别方法应用在用户终端1中，所述用户终端1通过网络2与一认证服务器3连接。其中，所述网络2可以是有线网络，也可以是无线网络，例如无线电、无线保真(Wireless Fidelity,WIFI)、蜂窝、卫星、广播等。所述认证服务器3可以是单一的服务器，一服务器群或云服务器。所述用户终端1可以是笔记本电脑、台式电脑、平板电脑、移动手机等装置。

图2是本发明声纹识别方法较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

参阅图2所示，所述声纹识别方法具体包括以下步骤：

步骤S201，应用登录时，接收用户的选择操作进入验证场景或是设置场景。

本实施方式中，用户终端1可运行若干用于实现特定功能的应用，包括但不限于社交、理财等功能的应用。在这些应用启动时，一般需要对用户的身份进行验证，如用户点选用户终端1中应用的图标时，即可登录所述应用，之后应用可显示登录界面，以要求用户进行身份验证。

本实施方式中，对于用户的身份验证而言，应用需将验证数据(如声纹数据)发送至认证服务器3，以由认证服务器3来完成对用户的身份验证。认证服务器3中可存储有若干声纹数据或是通过用户终端1来获取用户的声纹数据。当进入设置场景时，用户终端1可将用户的声纹数据发送到认证服务器3进行存储。当进入验证场景时，认证服务器3则可对用户的身份进行验证。可以理解地，当用户终端1显示登录界面时，应用可设置对应的验证场景及设置场景的两个界面，用户可通过滑动、点选等操作在验证场景及设置场景之间进行切换。

在本实施方式中，当应用启动并登录时，应用可通过用户终端1的语音设备(如麦克风)来获得用户的声纹数据。其中，声纹数据可以具有基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹等特征。本实施方式中，用户终端1通过抽取声纹数据所对应的基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹等参数表征，然后再与模式识别等匹配方法结合进行声纹识别，如模板匹配法、最近邻方法、神经元网络方法，VQ聚类法等。

步骤S202，当进入设置场景时，获取用户的设置声纹数据，并将所述设置声纹数据发送到服务器3中进行存储。

本实施方式中，设置场景可包括安全模式及风险模式，其中安全模式用于正常登录时录入正常声纹数据，并将所述正常声纹数据作为所述安全模式的设置声纹数据。风险模式用于在异常登录时录入异常声纹数据，并将所述异常常声纹数据作为所述风险模式的设置声纹数据。

在一实施方式中，应用记录其在所述用户终端1启动的次数。当应用是首次启动(即第一次启动)时，应用会提醒用户进入验证场景或是设置场景，以便用户通过用户终端1录入声纹数据；而当应用的启动次数大于1时，可直接进入验证场景。

在一实施方式中，用户可根据认证服务器3发送的文本内容录入对应的声纹数据。例如，当进入安全模式时，认证服务器3可发送针对安全模式及风险模式下的文本内容。可以理解地，认证服务器3内包含若干组文本内容，每一组文本内容可对应一特定的动作，如对于登录动作而言，这一组文本内容可包括第一文本内容“壹账通登录”及第二文本内容“壹账通登入”；对于打开动作而言，这一组文本内容可包括第三文本内容“打开A功能”及第四文本内容“开启A功能”。在一实施方式中，用户可通过用户终端1录入正常声纹数据。本实施方式中，用户可读出第一文本内容“壹账通登录”对应的语音。用户终端1接收用户输入的语音，将所述语音进行特征提取与模式识别，以得到正常声纹数据。所述用户终端1将对应的正常声纹数据传输给认证服务器3以将所述正常声纹数据设置为设置声纹数据。当进入风险模式时，用户可通过用户终端1录入异常声纹数据，例如用户可读出第二文本内容“壹账通登入”对应的语音。用户终端1接收用户输入的语音，将所述语音进行特征提取与模式识别，以得到异常声纹数据。所述用户终端1将对应的异常声纹数据传输给认证服务器3以将所述异常声纹数据设置为设置声纹数据。由用户终端1对该语音文件进行特征提取与模式识别，以得到异常声纹数据，并由用户终端1对应的异常声纹数据传输给认证服务器3。对于打开动作而言，也可根据上述方法来录入对应的正常声纹数据及异常声纹数据。

在另一实施方式中，用户可自定义录入的声纹数据。认证服务器3内存储了同义词数据库，其中，同义词数据库可包含若干同义词组，每一组同义词组可包括至少2个意思相近的词语，如第一同义词组可包括“登录”与“登入”，第二同义词组可包括“打开”与“开启”。

当用户在安全模式下录入正常声纹数据所对应的语音时，所述认证服务器1可将语音转换为对应的文本，其转换过程可包括：

a.提取待识别的语音的音频特征，转换为预设长度的声学特征向量；

b.根据解码算法将所述特征向量解码成词序；

c.通过HMM音素模型得到对应词序的子词，所述子词为声母和韵母；

d.根据预设的发音字典将所述子词拼接成文字；

e.使用语言模型语法规则解码得到最优序列，得到语音文本。

由于用户自定义录入时具有多样性，在一些情况下(如用户本人在被绑架的情况)，为了更加隐蔽的进行报警及财产保全，本实施方式中在风险模式下，录入与安全模式下语义相同或相似的语音。因而，当将安全模式下录入的语音转换为文本后，可对该文本内容进行分词处理，以识别关键词，并根据关键词与同义词数据库进行匹配操作，以查找对应该关键词的同义词。认证服务器3还可将查找得到的同义词发送给用户终端1，以使得用户可根据建议的词语录入风险模式下的语音。

本实施方式中，当用户在安全模式下录入语音所对应的文本是“壹账通登录”，对该本文进行分词后可提取关键词“登录”，认证服务器3进行匹配操作后可从同义词数据库中查找出对应的同义词“登入”。之后，认证服务器3可将建议的文本“壹账通登入”发送给用户，用户可根据建议的文本录入风险模式下的声纹数据。

步骤S203，当进入验证场景时，接收用户的语音，并根据接收的语音生成用户的验证声纹数据。

在进入验证场景后，用户可通过虚拟按键或实体按键触发验证声纹数据的录入。在其他实施方式中，应用启动时可向认证服务器3发送请求，以确认认证服务器3内是否已存储了设置声纹数据。当认证服务器3内已存储了设置声纹数据时，认证服务器3可返回对应的请求结果至用户终端1。在这种情况下，用户可不进入设置场景录入设置声纹数据，因而，即使应用是首次启动，用户可直接进入验证场景。

可以理解地，在正常情况下，用户在验证场景时，可读出对应安全模式下的文本内容，如“壹账通登录”。用户终端1可生成对应用户说出的文本内容的语音。

然而，在异常情况下，如被人挟持时，用户可说出在风险模式下的文本内容，如“壹账通登入”。用户在先前登录时，可能会被录音或盗用，其他用户可通过播放该录音来假装用户登录，此时，用户终端1生成的语音为对应录音的语音。

本实施方式中，用户终端1还根据用户的语音生成用户的验证声纹数据。本实施方式中，所述用户终端1将用户的语音进行基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹等参数表征的提取以得到验证声纹数据。

步骤S204，对所述验证声纹数据进行预处理以得到预处理语音数据，并将所述预处理语音数据发送给所述认证服务器3。

对所述验证声纹数据进行预处理包括对所述验证声纹数据进行哈希运算得到对应所述验证声纹数据的第一哈希值，之后还将所述用户终端1本地的时间戳加入发送到认证服务器3的预处理语音数据中。此时，用户终端1发送给认证服务器3的预处理语音数据包含验证声纹数据、第一哈希值及时间戳。

步骤S205，将所述预处理语音数据与所述设置声纹数据进行验证。

步骤S206，根据验证结果判断用户登录是否异常，并在用户登录异常时输出反馈信息至用户终端1。

本实施方式中，判断用户登录是否异常包括：1)判断对应预处理语音数据的声纹数据有时效性；2)判断用户的声纹数据是否被盗用；3)判断用户是否处于风险状态下。

对于情况1)认证服务器3获取预处理语音数据中包含的时间戳，进而达到判断所述预处理语音数据的声纹数据有时效性的目的。一般的，为保证用户使用应用的时效性，在用户发出身份验证请求的预设时间内完成身份的验证。本实施方式中，认证服务器3在获取到预处理语音数据中包含的时间戳后，还判断所述预处理语音数据中的时间戳与所述认证服务器3的当前时间之间的时间差值是否不大于预设时间，当时间差值超过预设时间时，认证服务器3发出要求用户重新输入身份验证的反馈信息至用户终端1。

对于情况2)，认证服务器3会将用户每次登录时的验证声纹数据存储于历史数据库内，因此，判断用户的声纹数据是否被盗用可根据历史数据库内存储的验证声纹数据与预处理语音数据进行匹配操作。在一具体实施方式中，认证服务器3可对历史数据库中的验证声纹数据进行哈希运算，以得到对应各验证声纹数据的第二哈希值。判断历史数据库中是否存在第二哈希值与预处理语音数据所对应的第一哈希值相同，当第一哈希值与第二哈希值相同时，则表示用户的声纹信息可能被盗用，此时，可拒绝该用户的登录。或者，当用户的声纹信息被盗用时，认证服务器3还可获取用户终端1的地理位置，进行自动报警。

对于情况3)，认证服务器3通过模式识别匹配方法与异常声纹数据进行匹配操作，当预处理语音数据与异常声纹数据匹配时，认证服务器3可认为用户可能处于风险状态，此时，可拒绝该用户的登录，还可获取用户终端1的地理位置，进行自动报警。例如，当用户登录时，预处理语音数据对应的为“壹账通登入”，由于认证服务器3中也存在对应“壹账通登入”的异常声纹数据，此时，认证服务器3则可进行报警。在其他实施方式中，用户可能已经通过身份验证，正在进行转账，而此时如果发生突发情况(如被挟持)，用户可通过用户终端1录入异常声纹数据；当认证服务器3判断用户处于风险状态时，还可采取必要的账户保护措施，如限制消费金额，延迟转账到账时间，甚至冻结资金账户等反馈信息至用户终端1。

本实施方式中，该方法还包括：在应用登录没有异常时完成用户身份验证并进入该应用。

实施例2

图3为本发明一实施方式中声纹识别荐装置40的结构图。

在一些实施例中，所述声纹识别荐装置运行于电子设备中。所述声纹识别荐装置可以包括多个由程序代码段所组成的功能模块。所述声纹识别荐装置中的各个程序段的程序代码可以存储于存储器中，并由至少一个处理器所执行，以执行声纹识别的功能。

本实施例中，所述声纹识别装置40根据其所执行的功能，可以被划分为多个功能模块。参阅图3所示，所述声纹识别装置40可以包括场景选择模块401、设置模块402、生成模块403、预处理模块404、验证模块405及执行模块406。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段。本实施方式中，所述场景选择模块401、设置模块402、生成模块403、预处理模块404运行在用户终端1中。所述验证模块405及执行模块406运行在认证服务器3中。在一些实施例中，关于各模块的功能将在后续的实施例中详述。

所述场景选择模块401用于在应用登录时，接收用户的选择操作进入验证场景或是设置场景。

在一实施方式中，所述场景选择模块401记录其在所述用户终端1启动的次数。当应用是首次启动(即第一次启动)时，所述场景选择模块401会提醒用户进入验证场景或是设置场景，以便用户通过用户终端1录入声纹数据；而当应用的启动次数大于1时，所述场景选择模块401可直接进入验证场景。

本实施方式中，对于用户的身份验证而言，应用需将验证数据(如声纹数据)发送至认证服务器3，以由认证服务器3来完成对用户的身份验证。认证服务器3中可存储有若干声纹数据或是通过用户终端1来获取用户的声纹数据。当进入设置场景时，用户终端1可将用户的声纹数据发送到认证服务器3进行存储。当进入验证场景时，认证服务器3则可对用户的身份进行验证。可以理解地，当用户终端1显示登录界面时，所述场景选择模块401可设置对应的验证场景及设置场景的两个界面，用户可通过滑动、点选等操作在验证场景及设置场景之间进行切换。

所述设置模块402用于当进入设置场景时，获取用户的设置声纹数据，并将所述设置声纹数据发送到服务器3中进行存储。

b.根据解码算法将所述特征向量解码成词序；

d.根据预设的发音字典将所述子词拼接成文字；

所述生成模块403用于当进入验证场景时，接收用户的语音，并根据接收的语音生成用户的验证声纹数据。

本实施方式中，所述生成模块403根据用户的语音生成用户的验证声纹数据。本实施方式中，所述生成模块403将用户的语音进行基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹等参数表征的提取以得到验证声纹数据。

所述预处理模块404用于对所述验证声纹数据进行预处理以得到预处理语音数据，并将所述预处理语音数据发送给所述认证服务器3。

所述预处理模块404还用于对所述验证声纹数据进行预处理包括对所述验证声纹数据进行哈希运算得到对应所述验证声纹数据的第一哈希值。本实施方式中，所述预处理模块404还将所述用户终端1本地的时间戳加入发送到认证服务器3的预处理语音数据中。此时，用户终端1发送给认证服务器3的预处理语音数据包含验证声纹数据、第一哈希值及时间戳。

所述验证模块405用于将所述预处理语音数据与所述设置声纹数据进行验证。

所述执行模块406用于根据验证结果判断用户登录是否异常，并在用户登录异常时输出反馈信息至用户终端1。

本实施方式中，所述执行模块406判断用户登录是否异常包括：1)判断对应预处理语音数据的声纹数据有时效性；2)判断用户的声纹数据是否被盗用；3)判断用户是否处于风险状态下。

对于情况1)所述执行模块406获取预处理语音数据中包含的时间戳，进而达到判断所述预处理语音数据的声纹数据有时效性的目的。一般的，为保证用户使用应用的时效性，在用户发出身份验证请求的预设时间内完成身份的验证。本实施方式中，所述执行模块406在获取到预处理语音数据中包含的时间戳后，还判断所述预处理语音数据中的时间戳与所述认证服务器3的当前时间之间的时间差值是否不大于预设时间，当时间差值超过预设时间时，所述执行模块406发出要求用户重新输入身份验证的反馈信息至用户终端1。

对于情况2)，所述执行模块406会将用户每次登录时的验证声纹数据存储于历史数据库内，因此，判断用户的声纹数据是否被盗用可根据历史数据库内存储的验证声纹数据与预处理语音数据进行匹配操作。在一具体实施方式中，所述执行模块406可对历史数据库中的验证声纹数据进行哈希运算，以得到对应各验证声纹数据的第二哈希值。判断历史数据库中是否存在第二哈希值与预处理语音数据所对应的第一哈希值相同，当第一哈希值与第二哈希值相同时，则表示用户的声纹信息可能被盗用，此时，可拒绝该用户的登录。或者，当用户的声纹信息被盗用时，所述执行模块406还可获取用户终端1的地理位置，进行自动报警。

对于情况3)，所述执行模块406通过模式识别匹配方法与异常声纹数据进行匹配操作，当预处理语音数据与异常声纹数据匹配时，所述执行模块406可认为用户可能处于风险状态，此时，可拒绝该用户的登录，还可获取用户终端1的地理位置，进行自动报警。例如，当用户登录时，预处理语音数据对应的为“壹账通登入”，由于认证服务器3中也存在对应“壹账通登入”的异常声纹数据，此时，所述执行模块406则可进行报警。在其他实施方式中，用户可能已经通过身份验证，正在进行转账，而此时如果发生突发情况(如被挟持)，用户可通过用户终端1录入异常声纹数据；当所述执行模块406判断用户处于风险状态时，还可采取必要的账户保护措施，如限制消费金额，延迟转账到账时间，甚至冻结资金账户等反馈信息至用户终端1。

所述执行模块406还用于在应用登录没有异常时完成用户身份验证并进入该应用。

实施例三

图4为本发明电子设备6较佳实施例的示意图。

所述电子设备6包括存储器61、处理器62以及存储在所述存储器61中并可在所述处理器62上运行的计算机程序63。所述处理器62执行所述计算机程序63时实现上述声纹识别方法实施例中的步骤，例如图2所示的步骤S201～S206。或者，所述处理器62执行所述计算机程序63时实现上述声纹识别装置实施例中各模块/模块的功能，例如图3中的模块401～406。

示例性的，所述计算机程序63可以被分割成一个或多个模块/模块，所述一个或者多个模块/模块被存储在所述存储器61中，并由所述处理器62执行，以完成本发明。所述一个或多个模块/模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序63在所述电子设备6中的执行过程。例如，所述计算机程序63可以被分割成图3中的场景选择模块401、设置模块402、生成模块403、预处理模块404、验证模块405、及执行模块406，各模块具体功能参见实施例二。

所述电子设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图仅仅是电子设备6的示例，并不构成对电子设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备6还可以包括输入输出设备、网络接入设备、总线等。

所称处理器62可以是中央处理模块(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器62也可以是任何常规的处理器等，所述处理器62是所述电子设备6的控制中心，利用各种接口和线路连接整个电子设备6的各个部分。

所述存储器61可用于存储所述计算机程序63和/或模块/模块，所述处理器62通过运行或执行存储在所述存储器61内的计算机程序和/或模块/模块，以及调用存储在存储器61内的数据，实现所述计电子设备6的各种功能。所述存储器61可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备6的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器61可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述电子设备6集成的模块/模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个实施例中，应该理解到，所揭露的电子设备和方法，可以通过其它的方式实现。例如，以上所描述的电子设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本发明各个实施例中的各功能模块可以集成在相同处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在相同模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他模块或步骤，单数不排除复数。电子设备权利要求中陈述的多个模块或电子设备也可以由同一个模块或电子设备通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种声纹识别方法，应用在用户终端及与该用户终端相通信连接的认证服务器中，其特征在于，所述方法包括：

应用登录时，所述用户终端接收用户的选择操作进入验证场景或是设置场景；

当进入所述设置场景时，获取用户的设置声纹数据，并将所述设置声纹数据发送到所述认证服务器中进行存储，其中，所述设置场景包括安全模式及风险模式；当用户在所述安全模式下录入正常声纹数据所对应的语音时，所述认证服务器将语音转换为对应的文本；当将安全模式下录入的语音转换为文本后，所述认证服务器对该文本进行分词处理以识别关键词，并根据关键词与所述认证服务器存储的同义词数据库进行匹配操作，以查找对应该关键词的同义词；所述认证服务器将查找得到的同义词发送给用户终端，以使得用户可根据建议的同义词录入风险模式下的语音，得到异常声纹数据；

2.如权利要求1所述的声纹识别方法，其特征在于，所述安全模式用于正常登录时录入正常声纹数据，并将所述正常声纹数据作为所述安全模式的设置声纹数据，风险模式用于在异常登录时录入异常声纹数据，并将所述异常声纹数据作为所述风险模式的设置声纹数据。

3.如权利要求2所述的声纹识别方法，其特征在于，所述当进入所述设置场景时，获取用户的设置声纹数据，并将所述设置声纹数据发送到服务器中进行存储包括：

所述用户终端接收用户输入的语音；

4.如权利要求2所述的声纹识别方法，其特征在于，对所述验证声纹数据进行预处理还包括：

将所述用户终端本地的时间戳加入所述预处理语音数据中。

5.如权利要求4所述的声纹识别方法，其特征在于，所述根据验证结果判断所述应用登录是否异常并在所述应用登录异常时输出反馈信息至所述用户终端包括：

所述认证服务器获取所述预处理语音数据中包含的时间戳；

6.如权利要求2所述的声纹识别方法，其特征在于，所述根据验证结果判断所述应用登录是否异常并在所述应用登录异常时输出反馈信息至所述用户终端包括：

所述认证服务器通过模式识别匹配方法与所述异常声纹数据进行匹配操作；及

7.如权利要求1所述的声纹识别方法，其特征在于，所述应用登录时选择进入验证场景或是设置场景包括：

所述应用记录在所述用户终端启动的次数；

当应用的启动次数大于1时，直接进入所述验证场景。

8.一种声纹识别装置，应用在用户终端及与该用户终端相通信连接的认证服务器中，其特征在于，所述装置包括：

设置模块，用于当进入所述设置场景时，获取用户的设置声纹数据，并将所述设置声纹数据发送到服务器中进行存储，其中，所述设置场景包括安全模式及风险模式；当用户在所述安全模式下录入正常声纹数据所对应的语音时，所述认证服务器将语音转换为对应的文本；当将安全模式下录入的语音转换为文本后，所述认证服务器对该文本进行分词处理以识别关键词，并根据关键词与所述认证服务器存储的同义词数据库进行匹配操作，以查找对应该关键词的同义词；所述认证服务器将查找得到的同义词发送给用户终端，以使得用户可根据建议的同义词录入风险模式下的语音，得到异常声纹数据；

9.一种电子设备，其特征在于：所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一项所述声纹识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述声纹识别方法。