CN110619880A

CN110619880A - 一种声纹处理系统及用户识别方法

Info

Publication number: CN110619880A
Application number: CN201910973150.3A
Authority: CN
Inventors: 周继敏
Original assignee: Baikelu (beijing) Technology Co Ltd
Current assignee: Baikelu (beijing) Technology Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2019-12-27

Abstract

本发明公开了一种声纹处理系统及用户识别方法。所述声纹处理系统(100)包括：获取单元、存储单元、识别单元和处理单元。所述获取单元用于获取用户的语音音频。所述存储单元用于存储所述用户的语音音频。所述识别单元用于提取所述语音音频的声学特征，将所述声学特征转化为声纹数据。所述处理单元用于将所述声纹数据与所述用户的身份信息进行关联。所述获取单元的一端与所述存储单元的一端连接，所述存储单元的另一端与所述识别单元的一端连接，所述识别单元的另一端与所述处理单元的一端连接。本发明达到了将声纹处理与人工智能系统的结合，快速、准确地识别用户的技术效果。

Description

一种声纹处理系统及用户识别方法

技术领域

本发明属于人工智能技术领域，具体涉及一种声纹处理系统及用户识别方法。

背景技术

身份验证在许多涉及潜在敏感信息的不同情况下都是非常重要的一步，例如财务信息、个人健康记录等，或者只是为了验证被呼方确实是业务的目标客户。由于客户服务通常在电话上进行，从人的声音中获取语音信息的声纹是一个强大的工具，可以用来识别被呼方。

如何将声纹处理与人工智能系统结合起来，自动的方式更快速、准确地识别用户身份是亟待解决的技术问题。

发明内容

针对现有技术中的缺陷，本发明实施例提供一种声纹处理的方法，达到了将声纹处理与人工智能系统的结合，快速、准确地识别用户的技术效果。

针对以上技术问题，本发明实施例第一方面提供了一种声纹处理系统，所述声纹处理系统包括：所述获取单元，用于获取用户的语音音频。

所述存储单元，用于存储所述用户的语音音频。

所述识别单元，用于提取所述语音音频的声学特征，将所述声学特征转化为声纹数据。

所述处理单元，用于将所述声纹数据与所述用户的身份信息进行关联。

其中，所述获取单元的一端与所述存储单元的一端连接，所述存储单元的另一端与所述识别单元的一端连接，所述识别单元的另一端与所述处理单元的一端连接。

根据本发明的一个实施例，所述声纹数据包括所述声学特征对应的特征向量数据。

根据本发明的一个实施例，所述获取单元包括：第一获取单元，用于获取所述用户的第一语音音频数据。

第二获取单元，用于获取所述用户的响应移动终端的第二语音音频数据。

根据本发明的一个实施例，所述存储单元包括：第一存储单元，用于存储所述用户的第一语音音频数据。

第二存储单元，用于存储所述用户的响应移动终端的第二语音音频数据。

根据本发明的一个实施例，所述识别单元，包括：第一识别单元，用于提取所述第一语音音频数据的第一声学特征，将所述第一声学特征转化为第一声纹数据。

第二识别单元，用于提取所述第二语音音频数据的第二声学特征，将所述第二声学特征转化为第二声纹数据。

根据本发明的一个实施例，所述声纹处理系统还包括：比较单元，用于比较所述第一声纹数据与所述第二声纹数据，并得到比较结果。

根据本发明的一个实施例，所述处理单元根据所述比较单元的比较结果将声纹数据与所述用户的身份信息进行关联，识别与所述身份信息对应的用户。

本发明实施例第二方面提供了一种基于声纹处理的用户识别方法，所述方法包括：S1：获取用户的第一语音音频数据，将所述第一语音音频数据换成第一声纹数据。

S2：获取用户的第二语音音频数据，将所述第二语音音频数据转换成第二声纹数据，其中，所述第二语音音频数据为所述用户的响应移动终端的语音音频数据。

S3：比较所述第一声纹数据与所述第二声纹数据，根据所述比较结果识别与所述第二声纹数据对应的用户。

根据本发明的一个实施例，所述S1中的将所述第一语音音频数据换成第一声纹数据包括：提取所述第一语音音频数据的第一声学特征，将所述第一声学特征转化为第一声纹数据。

本发明实施例第三方面提供了一种电子设备，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现以上所述的基于声纹处理的用户识别方法。

本发明实施例第四方面提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现以上所述的基于声纹处理的用户识别方法。

本发明达到的技术效果为：收集用户的语音音频数据库，每个数据库都被转换为本发明中使用的声纹。当企业使用人工智能系统打电话给客户时，客户的回应声音将被记录下来，并用于生成另一个声纹。在对话过程中会自动比较这两种声音，后续的过程会根据是否找到匹配而有所不同。如果在数据库中成功匹配了客户，则机器可以决定按照预期继续进行分支，但是如果没有找到匹配，则机器可以请求附加的身份验证信息。通过将声纹技术构建到人工智能对话中，这项发明允许企业在电信环境中无缝地改善客户服务和安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的声纹处理系统的结构方框图；

图2是本发明实施例的基于声纹处理的用户识别方法的流程图；

图3是本发明实施例的基于声纹处理的用户识别方法的又一流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

本发明实施例提供一种声纹处理的方法，达到了将声纹处理与人工智能系统的结合，快速、准确地识别用户的技术效果。

针对以上技术问题，本发明实施例第一方面提供了一种声纹处理系统，如图1所示，所述声纹处理系统100包括：获取单元、存储单元、识别单元和处理单元。

所述获取单元，用于获取用户的语音音频。

所述存储单元，用于存储所述用户的语音音频。

所述识别单元，用于提取所述语音音频的声学特征；将所述声学特征转化为声纹数据。

所述获取单元的一端与所述存储单元的一端连接，所述存储单元的另一端与所述识别单元的一端连接，所述识别单元的另一端与所述处理单元的一端连接。

第二识别单元，用于提取所述第二语音音频数据的第二声学特征；将所述第二声学特征转化为第二声纹数据。

本发明实施例第二方面提供了一种基于声纹处理的用户识别方法，如图2所示，所述识别方法包括：

S1：获取用户的第一语音音频数据，将所述第一语音音频数据换成第一声纹数据。

如图3所示，本发明实施例公开的又一方法流程图，包括：

1.0：输入给定的短语(语音或书面文本)。

2.0：引擎确定输入短语(语音或书面文本)的来源，并分配给适当的模型。

3.0：模型根据机器学习训练对文本进行分析，确定文本的意义。

4.0：如果分析不准确，将使用另一个模型分析输入。

4.1：每个新样品都用于改进模型。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的电子设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各技术方案的范围。

Claims

1.一种声纹处理系统，其特征在于，所述声纹处理系统包括：

获取单元，用于获取用户的语音音频；

存储单元，用于存储所述用户的语音音频；

识别单元，用于提取所述语音音频的声学特征，将所述声学特征转化为声纹数据；

处理单元，用于将所述声纹数据与所述用户的身份信息进行关联；

2.根据权利要求1所述的声纹处理系统，其特征在于，所述声纹数据包括所述声学特征对应的特征向量数据。

3.根据权利要求1所述的声纹处理系统，其特征在于，所述获取单元包括：

第一获取单元，用于获取所述用户的第一语音音频数据；

4.根据权利要求1所述的声纹处理系统，其特征在于，所述存储单元包括：

第一存储单元，用于存储所述用户的第一语音音频数据；

5.根据权利要求4所述的声纹处理系统，其特征在于，所述识别单元，包括：

第一识别单元，用于提取所述第一语音音频数据的第一声学特征，将所述第一声学特征转化为第一声纹数据；

6.根据权利要求5所述的声纹处理系统，其特征在于，所述声纹处理系统还包括：

比较单元，用于比较所述第一声纹数据与所述第二声纹数据，并得到比较结果。

7.根据权利要求6所述的声纹处理系统，其特征在于，所述处理单元根据所述比较单元的比较结果将声纹数据与所述用户的身份信息进行关联，识别与所述身份信息对应的用户。

8.一种基于声纹处理的用户识别方法，其特征在于，所述方法包括：

S1：获取用户的第一语音音频数据，将所述第一语音音频数据换成第一声纹数据；

S2：获取用户的第二语音音频数据，将所述第二语音音频数据转换成第二声纹数据，其中，所述第二语音音频数据为所述用户的响应移动终端的语音音频数据；

9.根据权利要求8所述的方法，其特征在于，所述S1中的将所述第一语音音频数据换成第一声纹数据包括：提取所述第一语音音频数据的第一声学特征，将所述第一声学特征转化为第一声纹数据。

10.一种电子设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求8-9中任一所述的基于声纹处理的用户识别方法。