CN116129901A

CN116129901A - 语音识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN116129901A
Application number: CN202211054444.4A
Authority: CN
Inventors: 梅瀚文; 吴海英; 孙磊; 郭江; 曾琳铖曦; 蒋宁
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2023-05-16

Abstract

本申请公开了一种语音识别方法、装置、电子设备及可读存储介质，其中，该方法包括：对待识别语音数据进行声纹信息提取，得到待识别声纹信息；将所述待识别声纹信息与预先生成的多个基准音信息进行匹配，得到与所述待识别声纹信息匹配的目标基准音信息，其中，所述多个基准音信息中的每个基准音信息对应一个客服，所述每个基准音信息基于所对应的客服的多个初始声纹信息进行聚类分析后生成；根据所述目标基准音信息确定所述待识别语音数据所指向的目标客服。通过本申请，有利于提高客服识别的准确率和处理效率。

Description

语音识别方法、装置、电子设备及可读存储介质

技术领域

本申请属于语音识别技术领域，具体涉及一种语音识别方法、装置、电子设备及可读存储介质。

背景技术

随着针对客户的电话销售及电话咨询需求日益增大，部分呼叫中心的坐席在与客户的语音沟通中可能会由于培训不到位或者沟通不当而导致言语不合规，随后客户可能会在事后提供录音进行投诉。

目前只有当客户投诉时提供了完整的坐席员工工号，才能知道当时与之沟通的坐席，或者通过提供与坐席的录音片段来确认坐席，但是当客户提供的录音片段不完整时，几乎无法确认当时与之通话的坐席。此时，只能通过人为分析客户提供的录音来判断通话坐席、或者将客户的录音发布给所有坐席进行自我判断。这两种识别通话坐席的方式效率均较低，容易阻塞投诉流程的进行，降低了投诉流程的效率。

发明内容

本申请实施例的目的是提供一种语音识别方法、装置、电子设备及可读存储介质，有利于提高客服识别的准确率和处理效率。

第一方面，本申请实施例提供了一种语音识别方法，所述方法包括：对待识别语音数据进行声纹信息提取，得到待识别声纹信息；将所述待识别声纹信息与预先生成的多个基准音信息进行匹配，得到与所述待识别声纹信息匹配的目标基准音信息，其中，所述多个基准音信息中的每个基准音信息对应一个客服，所述每个基准音信息基于所对应的客服的多个初始声纹信息进行聚类分析后生成；根据所述目标基准音信息确定所述待识别语音数据所指向的目标客服。

第二方面，本申请实施例提供了一种语音识别装置，所述装置包括：生成单元，用于对待识别语音数据进行声纹信息提取，得到待识别声纹信息；匹配单元，用于将所述待识别声纹信息与预先生成的多个基准音信息进行匹配，得到与所述待识别声纹信息匹配的目标基准音信息，其中，所述多个基准音信息中的每个基准音信息对应一个客服，所述每个基准音信息基于所对应的客服的多个初始声纹信息进行聚类分析后生成；确定单元，用于根据所述目标基准音信息确定所述待识别语音数据所指向的目标客服。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

在本申请实施例中，通过对获取的待识别语音数据进行声纹信息提取操作，生成待识别声纹信息，随后将待识别声纹信息与预先生成的多个基准音信息进行匹配操作，得到与其匹配的目标基准音信息，之后根据匹配到的目标基准音信息确定待识别语音数据所指向的目标客服。由于多个基准音信息中的每个基准音信息对应一个客服，且每个基准音信息基于所对应的客服的多个初始声纹信息进行聚类分析后生成，因此通过匹配得到目标基准音信息之后，便可确定待识别语音客服来源自目标客服。此外，目标客服可以是一个客服，如此，可以较快地确认待识别语音数据所属的客服，有利于提高识别客服的效率，目标客服也可以是多个客服，如此，可以根据待识别语音数据快速定位出几位可疑客服，只需要通过对可疑客服进行一一验证即可确定待识别语音数据所属的客服，从而可以高效地推进客户的识别流程。

附图说明

图1是本申请实施例提供的语音识别方法的一种流程示意图；

图2是本申请实施例提供的语音识别方法在呼叫中心应用中的一种流程示意图；

图3是本申请实施例提供的在呼叫中心应用中生成和更新坐席基准音的一种流程示意图；

图4是本申请实施例提供的在呼叫中心应用中基于用户提供语音片段识别坐席的一种流程示意图；

图5是本申请实施例提供的语音识别装置的一种结构框图；

图6是本申请实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

鉴于在相关技术中，呼叫中心采用人为分析客户(也可以称为用户)提供的录音片段来判断通话坐席(也可以称为客服)时，存在主观误差影响，或者将客户的录音片段发给坐席进行自我判断，可能导致有的坐席刻意隐瞒的问题，这导致了识别通话坐席的效率较低，从而阻塞了投诉流程的进行。基于此，本申请实施例提供了一种语音识别方案，该方案通过设置客服基准音，可以辅助确认与客户沟通的可能客服(即，坐席)，可以提高识别客服的效率，从而可以高效地推进客户的投诉流程。

在本申请实施例中，基准音是指人声声纹的一种平均近似基准值，可以用向量表示。

需要说明的是，本申请实施例提供的语音识别方案可以应用于上述呼叫中心，也可以应用于其他语音识别场景，例如，基于用户语音对用户身份认证的场景。另外，本申请实施例中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

以下结合附图，通过以在呼叫中心中基于语音片段识别客服为应用场景对本申请实施例提供的语音识别方法进行详细地说明。

图1是本申请实施例提供的语音识别方法的一种流程示意图，该方法100可以由终端设备执行。换言之，所述方法可以由安装在终端设备的软件或硬件来执行。如图1所示，该方法可以包括以下步骤S110-S130。

S110：对待识别语音数据进行声纹信息提取操作，得到待识别声纹信息。

其中，待识别语音数据可以是用户提供的和客服通话时的录音片段所对应的全部语音数据，或部分语音数据，在某些场景下，例如当用户想要对某个客服进行投诉、好评、再次对话等场景下，用户可能不知道该客服的工号、员工编号等个人信息，或者客服刻意隐瞒个人信息不让用户知道，本申请的目的是可以根据用户提供的与客服之间的录音片段来准确识别出与用户通话的目标客服，从而在用户不知道客服的工号、员工编号等个人信息的情况话，也能帮助用户找到目标客服。

在一种可能的实现方式中，可以先对待识别语音数据进行预处理，例如，对待识别语音数据进行去噪声、提取其中所需要识别的客服语音，随后对该客服语音进行声纹信息提取操作，以生成该客服语音的声纹特征向量，即，待识别声纹信息。该声纹特征向量可以以音质、音长、音强、音高这四个维度表示。

S120：将上述待识别声纹信息与预先生成的多个基准音信息进行匹配操作，得到与待识别声纹信息匹配的目标基准音信息，其中，多个基准音信息中的每个基准音信息对应一个客服，每个基准音信息基于所对应的客服的多个初始声纹信息进行聚类分析操作而生成。

这里的目标基准音信息可以是一个，也可以是多个，例如，5个。

在本申请实施例中，需要预先生成各客服的基准音信息，并将这些基准音信息预先保存，基准音信息以声纹特征向量表示。这样，将步骤S110中的待识别声纹信息与保存的基准音信息进行匹配操作，如此可以根据匹配结果快速识别客服。

以下以客服A为例，来详细说明生成客服A的基准音信息的过程。

在一种可能的实现方式中，可以通过如下步骤(1)-(3)生成客服A的基准音信息。

步骤(1)，获取客服A在预定周期(例如，7天、10天等)内的语音数据。

在一种可能的实现方式中，可以先获取客服A在预定周期内的多个初始全量语音数据(即，客服A与用户当时的通话记录)，各初始全量语音数据包括：客服A的语音数据与用户的语音数据；随后，将客服A的语音数据与用户的语音数据进行声道分离操作，得到客服A的多个初始语音数据片段；之后，对客服A的多个初始语音数据片段进行合并处理，生成客服A在预定周期内的语音数据。

在进行声道分离操作中，可以通过不同声道对客服A与用户的语音数据进行采集。例如，通过第一声道采集并获取各初始全量语音数据中的客服A的语音数据，通过第二声道采集并获取各初始全量语音数据中的用户语音数据。这样，就可以实现客服A与用户的语音分离，通过第一声道获取到客服A的多个初始语音数据片段。

步骤(2)，对客服A的语音数据进行声纹特征提取操作，以生成客服A的多个初始声纹信息。

在一种可能的实现方式中，可以对客服A的语音数据进行分帧处理，以生成多帧语音信号；随后，对每帧语音信号进行梅尔倒谱系数(Mel-scaleFrequency CepstralCoefficients，MFCC)提取操作，以生成每帧语音信号的梅尔倒谱系数；之后，将各帧语音信号的梅尔倒谱系数输入至训练完成的声纹模型，以输出客服A的多个初始声纹信息。通过使用结合梅尔倒谱系数的声纹模型，可以高效、准确地生成客服A的多个初始声纹信息。

这里的声纹模型可以是高斯混合模型(Gaussian Mixed Model，GMM)，将客服A的MFCC参数输入至GMM模型，可以得到客服A的声纹特征向量(x,y,m,n)(即，初始声纹信息)，其中，x表示音质、y表示音长、m表示音强、n表示音高。

具体地将MFCC参数输入至GMM模型生成声纹特征向量的过程，可以参见相关技术，本申请对此不作限制。

步骤(3)，对客服A的多个初始声纹信息进行聚类分析操作，以生成客服A的基准音信息。

在一种可能的实现方式中，对客服A的多个初始声纹信息进行聚类分析操作，以生成以各初始声纹信息作为聚点中心的多个聚类分析结果。也就是说，分别以各初始声纹信息作为聚点中心进行聚类分析操作，可以得到多个聚类分析结果。

在得到多个聚类分析结果之后，确定这多个聚类分析结果中每个聚类分析结果中包括的初始声纹信息数量，并计算每个聚类分析结果中包括的初始声纹信息数量(即，聚点数量)和上述多个初始声纹信息的数量的比值。例如，客服A有50个初始声纹信息，在进行聚类分类操作后，得到50个聚类分析结果，每个聚类分析结果所包括的初始声纹信息数量可能不同，以初始声纹信息1为聚类中心，聚点数量为10，则得到聚类分析结果1对应的比值0.2，同理，可计算得到每个聚类分析结果所对应的比值，比值越高，表明该初始声纹信息的可靠性越高。

在得到上述比值后，从这多个聚类分析结果中选择出对应的比值大于第一预定阈值的目标聚类分析结果，并根据目标聚类分析结果生成与客服对应的基准音信息。

第一预定阈值可以是0.7、0.8、0.9等数值，具体可以依据实际情况而定，本申请对此不作限制。

在一个实施例中，上述计算每个聚类分析结果中包括的初始声纹信息数量和上述多个初始声纹信息的数量的比值具体包括：确定上述多个聚类分析结果中每个聚类分析结果中包括的初始声纹信息数量的数量小于第二预定阈值(例如，2或者3等)的第一聚类分析结果；随后，从多个聚类分析结果中过滤掉第一聚类分析结果，得到第二聚类分析结果；并计算所述第二聚类分析结果中每个聚类分析结果中包括的初始声纹信息数量和上述多个初始声纹信息的数量的比值。

当某个聚类分析结果中包括的初始声纹数量较少时，例如少于第二预定阈值，则表明该聚类分析结果中的聚类中心(对应的初始声纹信息)不可靠，此时，从多个聚类分析结果中过滤掉第一聚类分析结果，保留第二聚类分析结果，第二聚类分析结果中每个包括的初始声纹信息数量都比较多，此时再计算第二聚类分析结果中每个聚类分析结果中包括的初始声纹信息数量和多个初始声纹信息的数量的比值，有利于提高数据处理效率。

在一个可能的实现方式中，在得到多个聚类分析结果之后，获取各聚类分析结果中的初始声纹信息数量(即，聚点数量)；当各聚类分析结果中的初始声纹信息数量均小于第二预定阈值(例如，2或者3等)，则放弃这多个聚类分析结果，重新执行上述步骤(1)，即，重新获取客服在预定周期内的新的语音数据。

需要说明的是，聚点数量小于等于第二预定阈值，可以认为获取的客户的语音数据无效(或者语音数据非正常)，此时需要重新获取新的语音数据，重新执行上述步骤(1)-(3)。

具体而言，确定所述目标聚类分析结果中包括的至少一个初始声纹信息，所述至少一个初始声纹信息为所述多个初始声纹信息中的部分或者全部初始声纹信息；将所述至少一个初始声纹信息进行数组平均值操作，以生成与客服A对应的基准音信息。

在具体实施中，如果目标聚类分析结果是一个，则直接选取该聚类对应的所有初始声纹信息。如果目标聚类分析结果包括多个聚类，则可以选取每个聚类的交集，得到至少一个初始声纹信息，或者，取多个目标聚类分析结果的并集，得到至少一个初始声纹信息。

例如，基于第一预定阈值，选择聚类中心C的聚类分析结果用于计算基准音信息，其中，聚类中心C中包含多个初始声纹信息A1、A2、……、AN，其中N为正整数，AN为声纹特征向量(x_n，y_n，m_n，n_n)，则数组平均值操作为分别计算多个初始声纹信息中的x，y，m，n的平均值，即，基准音信息中的x为(x₁+x₂+…+x_n)/N，y为(y₁+y₂+…+y_n)/N，m为(m₁+m₂+…+m_n)/N，n为(n₁+n₂+…+n_n)/N。

通过上述的基准音信息生成过程，就可以为各客服生成各自的基准音，方便后续通过识别客户提供的语音来确认客服，提高了识别客服的效率，从而可以高效地推进客户的投诉流程。

S130：根据目标基准音信息确定上述待识别语音数据所指向的目标客服。

在一个可能的实现方式中，当目标基准音信息为一个时，则可以直接定位到目标客服，当目标基准音信息为多个时，例如，5个，则对应的目标客服为5个。

图2是本申请实施例提供的语音识别方法在呼叫中心应用中的一种流程示意图，如图2所示，该方法200可以包括以下步骤S210-S270。

S210：收集呼叫中心坐席的每日录音文件。

上述呼叫中心坐席即是指客服，每日录音文件对应于上述的初始全量语音数据。

S220：根据坐席的每日录音过滤掉客户声音和其他干扰噪音，以分离出坐席声音。

S230：对坐席声音进行声纹向量提取。

S240：根据提取的声纹向量更新基准音库中对应坐席的基准音。

在具体实施时，当基准音库中还未存在该坐席的基准音时，在基准音库中新建该坐席的信息，并将步骤S230提取的声纹向量作为其基准音。

上述步骤S210-S240是生成和更新坐席基准音的流程，该流程的具体实现可以参见如下图3的描述。

S250：从提供的录音中分离出坐席声音。

S260：从坐席声音中提取出坐席声纹向量。

S270：将S260提取的声纹向量与基准音库中的坐席基准音进行匹配，匹配到近似的坐席基准音。

上述步骤S250-S270是对用户提供的录音识别坐席的流程，该流程的具体实现可以参见如下图4的描述。

在一种可能的实现方式中，步骤S210-S270可以通过设置的软件来实现。例如，将每日采集的录音文件和基准音库都存储在数据库中，在软件中设置声纹采集逻辑和声纹查询逻辑，通过基于声纹采集逻辑、并调用数据库的录音文件和调用声纹处理接口的声纹处理程序来生成基准音，通过调用数据库中的基准音库和声纹查询逻辑来识别用户提供的语音文件。

为了更好地理解本申请，以下结合附图来分别详细描述上述生成、更新基准音、以及匹配基准音的流程。

图3是本申请实施例提供的在呼叫中心应用中生成和更新坐席基准音的一种流程示意图，如图3所示，该流程300可以包括以下步骤S310-S317。

S310：每日预定时间(例如，凌晨00：00)收集前一日多个坐席拨打或者接听的全量录音数据，全量录音数据对应于上述的初始全量语音数据。

S311：对各坐席进行分组处理，每个坐席执行如下步骤S312-S317。

S312：将坐席语音和客户语音进行声道分离，提取出坐席声道。

在实际录音采集过程中，可以将坐席语音统一采集为左声道，客户语音采集为右声道，直接将左右(L&R)声道分离，就可以单独提取出坐席声道部分。

S313：按照坐席维度将坐席音频进行合并，生成一个20分钟以上的音频。

在一种可能的实现方式中，可以将各单独录音段使用FFmpeg(一种可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序)技术进行录音拼接。

S314：调用声音分割模型接口，对步骤S313的合并音频进行分割处理，提取出连续人声大于预定时间(例如，3秒)的部分，将其他噪音或者空白音过滤掉，之后将过滤后的有效音频片段进行拼接处理，并判断拼接音频的总时间是否大于10分钟(也可以是其他时长)。

在一种可能的实现方式中，可以使用人工智能技术匹配出人声部分，并过滤掉不能识别的噪音。

在实际操作中，考虑到多数录音为正常坐席外呼场景，因而预定时间设置为大于等于3秒。当拼接音频时长大于10分钟时，也可以满足单段音频时长大于等于3秒的设定。

S315：调用声纹特征提取接口，对拼接音频进行声纹特征提取操作，得到基于音质、音长、音强、音高这四个要素的声纹特征向量。

在一种可能的实现方式中，可以对拼接音频的语音数据序列进行预处理得到语音信号，并对语音信号分帧。随后，提取每一帧语音信号的MFCC参数并保存。

具体而言，对语音信号进行如下处理：

(1)预增强(Pre-Emphasis)，得到差分语音信号。

(2)对差分语音信号进行音框化(Framing)，以对语音信号进行分帧处理。

(3)对每帧信号进行汉明窗(Hamming Windowing)处理，即对每帧信号加窗，以减小吉布斯效应的影响。

(4)快速傅立叶变换(FFT)，对上述(3)得到的时域信号变换为频域信号，得到信号功率谱。

(5)将信号功率谱经过三角带通滤波器(Triangle Filters)滤波处理，三角带通滤波器覆盖的范围近似于人耳的一个临界带宽，因此可以通过三角带通滤波器来模拟人耳的掩蔽效应。

(6)离散余弦转换(DCT)：去除各维信号之间的相关性，将信号映射到低维空间。

将上述提取的MFCC参数训练相应的客服(例如，客服A)的GMM(高斯混合模型)，得到该客服A的GMM声纹模型四维向量(x，y，m，n)，以此得到该客服的声纹特征向量。

S316：将预定周期(例如，10天)内的多个声纹特征向量作为参数，调用声纹聚类接口，对多个声纹特征向量进行聚类分析，并返回聚类分析结果。

在一种可能的实现方式中，可以提取客服A的最近10天的多个声纹特征向量(x，y，m，n)进行聚类分析，通过聚类分析可以排除掉一些异常声音的影响，例如，中间某1-2两天感冒时的声音。

在一种可能的实现方式中，可以采用K-Means算法进行聚类分析。具体而言，随机选取一个样本(即，一个声纹特征向量)作为聚类中心，之后计算每个样本与该聚类中心的距离，再以其他样本作为聚类中心，计算每个样本与该聚类中心的距离，如此，循环计算完所有的样本，得到多个聚类分析结果。

在得到多个聚类分析结果之后，可以先获取各聚类分析结果中的初始声纹信息数量，当各聚类分析结果中的初始声纹信息数量均小于等于预定值，则放弃这多个聚类分析结果，返回步骤S310，重新获取全量录音数据。

例如，设定预定值为2，用于聚类分析的全部声纹特征向量数量为4个，以这四个声纹特征向量分别作为聚类中心进行聚类分析，得到四个聚类分析结果，当聚点中心1对应的集合中包含1个声纹特征向量，聚点中心2对应的集合中包含1个声纹特征向量，聚点中心3对应的集合中包含2个声纹特征向量，聚点中心4对应的集合中包含2个声纹特征向量时，则放弃这4个声纹特征向量。

S317：基于聚点数量占比阈值对各聚类分析结果准确性进行判断，并将聚点数量占比大于60％对应的聚点向量求平均，最终获得客服A的基准音。

也就是说，找到能满足聚点数量占比60％以上点的最大集合，并将该最大集合内的全部声纹特征向量用于计算客服A的基准音。

在一种可能的实现方式中，例如，用于聚类分析的全部声纹特征向量数量为6个，以其中四个声纹特征向量分别作为聚类中心进行聚类分析，得到四个聚类分析结果，当聚点中心1对应的集合中包含1个声纹特征向量，聚点中心2对应的集合中包含2个声纹特征向量，聚点中心3对应的集合中包含3个声纹特征向量，聚点中心4对应的集合中包含5个声纹特征向量时，分别计算各聚点中心集合中的声纹特征向量与全部声纹特征向量的占比。聚点中心1为1/6，聚点中心2为2/6，聚点中心3为3/6，聚点中心4为5/6，前三个值都小于预定阈值60％，只有聚点中心4对应的值大于预定阈值60％，则前三个聚类分析结果均不能用于计算基准音，只有聚点中心4集合内的5个声纹特征向量可用于计算基准音。

例如，聚点中心4集合中的声纹特征向量1为vector 1(共256维)为：

{-0.0003005726，0.62897563，0.6996489，……}

声纹特征向量2为vector 2(共256维)为：

{0.0003005726，-0.62897563，0.699648，……}

声纹特征向量3为……

则基于每个维度分别计算平均值(共256维的均值)，客服A的基准音vector为：

第一位：((-0.0003005726)+0.0003005726+……)/5

第二位：(0.62897563+(-0.62897563)+……)/5

………

如此，可以得到客服A基准音。

之后，将客服A的基准音更新到数据库中进行存储。在具体实施时，更新周期可以是每天。

图4是本申请实施例提供的在呼叫中心应用中基于用户提供语音片段识别坐席的一种流程示意图，如图4所示，该流程400包括如下步骤S410-S413：

S410：获取用户提供的语音片段作为目标录音，对目标录音进行声纹特征向量提取操作，得到目标录音的声纹特征向量。

S411：将目标录音的声纹特征向量与数据库中的坐席基准音库进行匹配操作，具体是基于音质、音长、音强、音高四维向量分别匹配。

S412：得到匹配值最接近的5个值，也可以是最接近的其他数量，例如，3个。

S413：返回对应的5个备选坐席账号，由此确定与目标录音相应的坐席。

通过上述生成和更新坐席基准音、以及基于用户提供语音片段识别坐席的流程，可以克服在相关技术中的投诉流程效率较低的问题，本申请实施例通过设置客服基准音，可以辅助确认与用户沟通的可能客服，从而可以提高识别客服的效率，从而可以高效地推进客户的投诉流程。

基于相似的发明构思，本申请实施例还提供一种语音识别装置，该装置可用于实现上述语音识别方法的流程。

图5是本申请实施例提供的语音识别装置的一种结构框图。如图5所示，该语音识别装置500包括：生成单元510、匹配单元520和确定单元530，其中：

生成单元510，用于对待识别语音数据进行声纹信息提取，得到待识别声纹信息；

匹配单元520，用于将上述待识别声纹信息与预先生成的多个基准音信息进行匹配，得到与上述待识别声纹信息匹配的目标基准音信息，其中，上述多个基准音信息中的每个基准音信息对应一个客服，每个基准音信息基于所对应的客服的多个初始声纹信息进行聚类分析后生成；

确定单元530，用于根据上述目标基准音信息确定上述待识别语音数据所指向的目标客服。

在一种实现方式中，上述装置还包括：基准音信息生成单元，用于生成基准音信息。该基准音信息生成单元具体包括：语音数据获取模块、初始声纹信息生成模块和聚类分析模块，其中：

语音数据获取模块，用于获取客服在预定周期内的语音数据；

初始声纹信息生成模块，用于对所述客服的语音数据进行声纹特征提取操作，以生成所述客服的多个初始声纹信息；

聚类分析模块，用于对所述客服的多个初始声纹信息进行聚类分析操作，以生成与所述客服对应的基准音信息。

在一种实现方式中，上述语音数据获取模块包括：全量语音数据获取子模块、声道分离子模块和合并处理子模块，其中：

全量语音数据获取子模块，用于获取所述客服在预定周期内的多个初始全量语音数据，各初始全量语音数据包括：客服语音数据与用户语音数据；

声道分离子模块，用于将所述客服语音数据与用户语音数据进行声道分离操作，以得到所述客服的多个初始语音数据片段；

合并处理子模块，用于对所述客服的多个初始语音数据片段进行合并处理，以生成所述客服在预定周期内的语音数据。

在一种实现方式中，上述初始声纹信息生成模块包括：分帧处理子模块、梅尔倒谱系数提取子模块和初始声纹信息生成子模块，其中：

分帧处理子模块，用于对所述客服的语音数据进行分帧处理，以生成多帧语音信号；

梅尔倒谱系数提取子模块，用于对每帧语音信号进行梅尔倒谱系数提取操作，以生成每帧语音信号的梅尔倒谱系数；

初始声纹信息生成子模块，用于将各帧语音信号的梅尔倒谱系数输入至训练完成的声纹模型，以输出所述客服的多个初始声纹信息。

在一种实现方式中，上述聚类分析模块包括：聚类分析子模块、比值计算子模块、结果选择子模块和基准音信息生成子模块，其中：

聚类分析子模块，用于对所述客服的多个初始声纹信息进行聚类分析操作，以生成以各初始声纹信息作为聚点中心的多个聚类分析结果；

比值计算子模块，用于确定所述多个聚类分析结果中每个聚类分析结果中包括的初始声纹信息数量，并计算每个聚类分析结果中包括的初始声纹信息数量和所述多个初始声纹信息的数量的比值；

结果选择子模块，用于从所述多个聚类分析结果中选择出对应的比值大于第一预定阈值的目标聚类分析结果；

基准音信息生成子模块，用于根据所述目标聚类分析结果生成与所述客服对应的基准音信息。

在一个实施例中，上述比值计算子模块具体用于：确定所述多个聚类分析结果中每个聚类分析结果中包括的初始声纹信息数量的数量小于第二预定阈值的第一聚类分析结果；从所述多个聚类分析结果中过滤掉所述第一聚类分析结果，得到所述第二聚类分析结果；计算所述第二聚类分析结果中每个聚类分析结果中包括的初始声纹信息数量和所述多个初始声纹信息的数量的比值。

上述基准音信息生成子模块具体用于：确定所述目标聚类分析结果中包括的至少一个初始声纹信息，所述至少一个初始声纹信息为所述多个初始声纹信息中的部分或者全部初始声纹信息；将所述至少一个初始声纹信息进行数组平均值操作，以生成与所述客服对应的基准音信息。

本申请实施例中的语音识别装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动终端，也可以为非移动终端，本申请实施例不作具体限定。

本申请实施例中的语音识别装置500可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的语音识别装置能够实现图1-图4的方法实施例中的各个过程，并达到相同的技术效果，为避免重复，这里不再赘述。

可选的，如图6所示，本申请实施例还提供一种电子设备600，包括处理器610和存储器620，在存储器620上存储有可在所述处理器610上运行的程序或指令，例如，该电子设备600为终端时，该程序或指令被处理器610执行时实现上述语音识别方法实施例的各个过程，且能达到相同的技术效果。为避免重复，这里不再赘述。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述语音识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述语音识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

进一步地，本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现上述语音识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限，按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

对待识别语音数据进行声纹信息提取，得到待识别声纹信息；

将所述待识别声纹信息与预先生成的多个基准音信息进行匹配，得到与所述待识别声纹信息匹配的目标基准音信息，其中，所述多个基准音信息中的每个基准音信息对应一个客服，所述每个基准音信息基于所对应的客服的多个初始声纹信息进行聚类分析后生成；

根据所述目标基准音信息确定所述待识别语音数据所指向的目标客服。

2.根据权利要求1所述的语音识别方法，其特征在于，通过如下方式生成所述每个基准音信息：

获取客服在预定周期内的语音数据；

对所述客服的语音数据进行声纹特征提取操作，以生成所述客服的多个初始声纹信息；

对所述客服的多个初始声纹信息进行聚类分析操作，以生成与所述客服对应的基准音信息。

3.根据权利要求2所述的语音识别方法，其特征在于，所述对所述客服的语音数据进行声纹特征提取操作，以生成所述客服的多个初始声纹信息包括：

对所述客服的语音数据进行分帧处理，以生成多帧语音信号；

对每帧语音信号进行梅尔倒谱系数提取操作，以生成每帧语音信号的梅尔倒谱系数；

将各帧语音信号的梅尔倒谱系数输入至声纹模型，以输出所述客服的多个初始声纹信息。

4.根据权利要求2所述的语音识别方法，其特征在于，所述对所述客服的多个初始声纹信息进行聚类分析操作，以生成与客服对应的基准音信息包括：

对所述客服的多个初始声纹信息进行聚类分析操作，以生成以各初始声纹信息作为聚点中心的多个聚类分析结果；

确定所述多个聚类分析结果中每个聚类分析结果中包括的初始声纹信息数量，并计算每个聚类分析结果中包括的初始声纹信息数量和所述多个初始声纹信息的数量的比值；

从所述多个聚类分析结果中选择出对应的比值大于第一预定阈值的目标聚类分析结果；

根据所述目标聚类分析结果生成与所述客服对应的基准音信息。

5.根据权利要求4所述的语音识别方法，其特征在于，所述计算每个聚类分析结果中包括的初始声纹信息数量和所述多个初始声纹信息的数量的比值包括：

确定所述多个聚类分析结果中每个聚类分析结果中包括的初始声纹信息数量的数量小于第二预定阈值的第一聚类分析结果；

从所述多个聚类分析结果中过滤掉所述第一聚类分析结果，得到所述第二聚类分析结果；

计算所述第二聚类分析结果中每个聚类分析结果中包括的初始声纹信息数量和所述多个初始声纹信息的数量的比值。

6.根据权利要求4所述的语音识别方法，其特征在于，所述根据所述目标聚类分析结果生成与所述客服对应的基准音信息包括：

确定所述目标聚类分析结果中包括的至少一个初始声纹信息，所述至少一个初始声纹信息为所述多个初始声纹信息中的部分或者全部初始声纹信息；

将所述至少一个初始声纹信息进行数组平均值操作，以生成与所述客服对应的基准音信息。

7.根据权利要求2所述的语音识别方法，其特征在于，所述获取客服在预定周期内的语音数据包括：

获取所述客服在预定周期内的多个初始全量语音数据，各初始全量语音数据包括：客服语音数据与用户语音数据；

将所述客服语音数据与用户语音数据进行声道分离操作，得到仅包括所述客服语音数据的多个初始片段语音数据；

对所述多个初始片段语音数据进行合并处理，以生成所述客服在预定周期内的语音数据。

8.一种语音识别装置，其特征在于，所述装置包括：

生成单元，用于对待识别语音数据进行声纹信息提取，得到待识别声纹信息；

匹配单元，用于将所述待识别声纹信息与预先生成的多个基准音信息进行匹配，得到与所述待识别声纹信息匹配的目标基准音信息，其中，所述多个基准音信息中的每个基准音信息对应一个客服，所述每个基准音信息基于所对应的客服的多个初始声纹信息进行聚类分析后生成；

确定单元，用于根据所述目标基准音信息确定所述待识别语音数据所指向的目标客服。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的语音识别方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的语音识别方法的步骤。