CN111145782B

CN111145782B - 重叠语音识别方法、装置、计算机设备和存储介质

Info

Publication number: CN111145782B
Application number: CN201911324160.0A
Authority: CN
Inventors: 周维聪
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2021-07-13
Anticipated expiration: 2039-12-20
Also published as: CN111145782A

Abstract

本申请涉及一种重叠语音识别方法、装置、计算机设备和存储介质。该方法包括：获取客服人员与用户之间语音通话的音频流；通过语音检测模型检测音频流中的语音段；通过话者转换模型识别语音段中的话者转换点以及语音重叠点；利用话者转换点以及语音重叠点将语音段切分为多个语音子段；语音子段包括单语音子段和重叠语音子段；对多个单语音子段进行聚类，得到每个单语音子段对应的类别标签；对单语音子段进行关键字检索，确定类别标签对应的身份；根据单语音子段和重叠语音子段的顺序，以及类别标签对应的身份，识别与客服人员对应的重叠语音子段。采用本方法能够在客服人员与用户通话的音频流中准确识别客服人员抢话的情形。

Description

重叠语音识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种重叠语音识别方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，语音识别应用到多种行业。例如，在售前售后等环节，客服人员可以与用户之间进行语音通话，为用户提供相应的行业服务。通过对客服人员与用户的音频流进行语音识别，可以对应客服人员的工作进行质量检验。客服人员是否存在抢话属于质量检验的一项重要内容。如果在音频流中识别是否存在客服人员抢话，则成为目前需要解决的一个技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在客服人员与用户通话的音频流中准确识别客服人员抢话的重叠语音识别方法、装置、计算机设备和存储介质。

一种重叠语音识别方法，所述方法包括：

获取客服人员与用户之间语音通话的音频流；

通过语音检测模型检测所述音频流中的语音段；

通过话者转换模型识别所述语音段中的话者转换点以及语音重叠点；

利用所述话者转换点以及所述语音重叠点将所述语音段切分为多个语音子段；所述语音子段包括单语音子段和重叠语音子段；所述重叠语音子段中包括所述语音重叠点；

对所述多个单语音子段进行聚类，得到每个单语音子段对应的类别标签；

对所述单语音子段进行关键字检索，确定所述类别标签对应的身份；

根据所述单语音子段和所述重叠语音子段的顺序，以及所述类别标签对应的身份，识别与所述客服人员对应的重叠语音子段。

一种重叠语音识别装置，所述装置包括：

获取模块，用于获取客服人员与用户之间语音通话的音频流；

语音检测模块，用于通过语音检测模型检测所述音频流中的语音段；

话者转换模块，用于通过话者转换模型识别所述语音段中的话者转换点以及语音重叠点；

切分模块，用于利用所述话者转换点以及所述语音重叠点将所述语音段切分为多个语音子段；所述语音子段包括单语音子段和重叠语音子段；所述重叠语音子段中包括所述语音重叠点；

聚类模块，用于对所述多个单语音子段进行聚类，得到每个单语音子段对应的类别标签；

身份识别模块，用于对所述单语音子段进行关键字检索，确定所述类别标签对应的身份；根据所述单语音子段和所述重叠语音子段的顺序，以及所述类别标签对应的身份，识别与所述客服人员对应的重叠语音子段。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取客服人员与用户之间语音通话的音频流；

通过语音检测模型检测所述音频流中的语音段；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取客服人员与用户之间语音通话的音频流；

通过语音检测模型检测所述音频流中的语音段；

上述重叠语音识别方法、装置、计算机设备和存储介质，通过语音检测模型在客服人员与用户之间语音通话的音频流中检测语音段，通过话者转换模型识别语音段中的话者转换点以及语音重叠点，由此可以利用话者转换点以及语音重叠点将语音段切分为单语音子段和包含语音重叠点的重叠语音子段。通过对多个单语音子段进行聚类，属于同一话者的单语音子段对应相同的类别标签。对单语音子段进行关键字检索，可以确定类别标签对应的身份，由此可以确定每个单语音子段对应的身份。由于语音段具有时序，因此根据单语音子段和重叠语音子段的顺序，以及类别标签对应的身份，能够准确识别出与客服人员对应的重叠语音子段。从而实现了在客服人员与用户通话的音频流中准确识别客服人员抢话的情形。

附图说明

图1为一个实施例中重叠语音识别方法的应用场景图；

图2为一个实施例中重叠语音识别方法的流程示意图；

图3为一个实施例中通过语音检测模型检测音频流中的语音段步骤的流程示意图；

图4为一个实施例中通过话者转换模型识别语音段中的话者转换点以及语音重叠点步骤的流程示意图；

图5为一个实施例中利用话者转换点和语音重叠点将语音段切分为多个语音子段的步骤流程示意图；

图6为一个实施例中对多个单语音子段进行聚类，得到每个单语音子段对应的类别标签的步骤流程示意图；

图7为一个实施例中对单语音子段进行关键字检索，确定类别标签对应的身份的步骤流程示意图；

图8为一个实施例中重叠语音识别装置的结构框图；

图9为另一个实施例中重叠语音识别装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的重叠语音识别方法，可以应用于如图1所示的应用环境中。其中，用户终端102通过网络与服务器104进行通信。客服终端106通过网络与服务器104进行通信。用户终端102通过预先安装的应用程序向服务器104发送通话请求，服务器104根据通话请求建立用户终端102与客服终端106之间的语音通话。服务器104可以实时采集用户终端102与客服终端106之间语音通话的音频流，也可以在通话结束后，接收客服终端106上传的音频流。服务器104通过语音检测模型检测音频流中的语音段，通过话者转换模型识别语音段中的话者转换点以及语音重叠点，利用话者转换点以及语音重叠点将语音段切分为多个语音子段，语音子段包括单语音子段和重叠语音子段，重叠语音子段中包括语音重叠点。服务器104对多个单语音子段进行聚类，得到每个单语音子段对应的类别标签，对单语音子段进行关键字检索，确定类别标签对应的身份。服务器104根据单语音子段和重叠语音子段的顺序，以及类别标签对应的身份，识别与客服人员对应的重叠语音子段。从而在客服人员与用户通话的音频流中准确识别客服人员抢话的情形。

其中，用户终端102以及客服终端106可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种重叠语音识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取客服人员与用户之间语音通话的音频流。

客服人员与用户之间可以如上述实施例中提供的方式建立语音通话。服务器可以实时采集用户终端与客服终端之间语音通话的音频流，也可以在通话结束后，接收客服终端上传的音频流。

步骤204，通过语音检测模型检测音频流中的语音段。

服务器利用语音检测模型根据声学特征和频谱特征对音频流进行端点检测和语音特征提取。服务器通过语音检测模型根据声学特征和频谱特征识别出音频流中的语音信号与非语言信号。服务器通过语音检测模型对声学特征向量和频谱特征向量进行分类识别，根据分类识别结果对声学特征向量和频谱特征向量添加语音标签和非语音标签。由于语音信号具有时序，服务器由此能够根据语音信号的语音标签和时序确定语音信号对应的端点，端点包括起始点和终止点。服务器可以根据语音信号的起始点和终止点准确识别出语音信号的语音端点信息。从而可以根据语音端点信息将语音信号生成对应的语音段。

步骤206，通过话者转换模型识别语音段中的话者转换点以及语音重叠点。

在客服人员与用户的通话中，客服人员和用户均为说话者。说话者可以简称为话者。话者转换即语音信号中说话者从一个人变为另一个人，即说话者进行了转换。本实施例中，通过利用神经网络进行有监督的训练，可以得到话者转换模型，从而可以通过话者转换模型直接在语音段中识别相应的话者转换点以及语音重叠点。每个语音段具有相应的时长。服务器可以利用时长的窗口在语音段中提取与每个窗口对应的语音特征。通过至话者转换模型对语音特征进行预测运算，可以输出音频段中的话者转换点以及话音重叠点。其中，话者转换点表示其对应的语音信号中说话者从一个人变为另一个人，即说话者进行了转换。语音重叠点表示其对应的语音信号中存在两个或两个以上的说话者发出的声音，即存在两个或两个以上的人声的重叠。

可以理解，在一个语音段中可能只有一个话者讲话，不存在话者转换点和语音重叠点。在一个语音段中也可能有两个或两个以上的话者讲话，存在一个或超过两个(含两个)的话者转换点，但不包括语音重叠点。在一个语音段中还可能存在两个或两个以上的话者转换点，以及语音重叠点。

步骤208，利用话者转换点将语音段切分为多个语音子段；语音子段包括单语音子段和重叠语音子段；重叠语音子段中包括语音重叠点。

当检测到语音重叠点时，即表示在语音段中存在语音重叠，也就是在客服人员与用户进行语音通话的过程中存在抢话的情形。为了准确判断是否属于客服人员抢话，还需要进一步识别抢话者的身份。服务器通过话者转换模型识别到语音段中的话者转换点以及语音重叠点后，将相应的语音段标记为待识别语音段。

服务器根据语音段的时长以及窗口时长，可以生成与待识别语音段相对应的时长序列。服务器通过话者转换模型识别到语音段中的话者转换点以及语音重叠点将相应的话者转换点插入到待识别语音段的时长序列中，将该时长序列切分为多个子序列，由此也将待识别语音段切分为对应的多个语音子段。语音子段包括单语音子段和重叠语音子段，重叠语音子段中包括语音重叠点。可以理解，若语音段中不存在话者转换点以及语音重叠点时，服务器可以放弃对该语音段的切分处理。

步骤210，对多个单语音子段进行聚类，得到每个单语音子段对应的类别标签。

步骤212，对单语音子段进行关键字检索，确定类别标签对应的身份。

步骤214，根据单语音子段和重叠语音子段的顺序，以及类别标签对应的身份，识别与客服人员对应的重叠语音子段。

服务器对多个单语音子段进行聚类，由此可以将同一个话者的单语音子段添加同一类别标签。对于不同话者的单语音子段添加不同类别标签。也就是，对用户的单语音子段添加用户标签，对客服人员的单语音子段添加客服标签。

服务器对单语音子段进行语音转换，生成对应的文本信息。服务器获取预设的配置文件，配置文件中记录了多个关键词和话者的身份。服务器利用关键词在文本信息中进行检索，当检索到相应的关键词时，可以根据关键词与话者之间的对应关系，得到单语音子段对应的身份。比如，某个单语音子段对应的文本信息是“您好，很高兴为您服务”，该单语音子段对应的身份为客服人员。另一个单语音子段对应的文本信息是“不用，我不需要”，单语音子段对应的身份为用户。

服务器在对待识别语音段进行切分时，根据时序记录每个单语音子段和重叠子段的顺序。在识别到每个单语音子段的身份后，针对每个重叠语音子段，可以获取其前一个单语音子段对应的类别标签和身份，以及其后一个单语音子段对应的类别标签和身份。当重叠语音子段的前一个单语音子段对应的身份为用户，后一个单语音子段对应的身份为客服时，则表示重叠语音子段为客服人员抢话的重叠语音。

本实施例中，通过语音检测模型在客服人员与用户之间语音通话的音频流中检测语音段，通过话者转换模型识别语音段中的话者转换点以及语音重叠点，由此可以利用话者转换点以及语音重叠点将语音段切分为单语音子段和包含语音重叠点的重叠语音子段。通过对多个单语音子段进行聚类，属于同一话者的单语音子段对应相同的类别标签。对单语音子段进行关键字检索，可以确定类别标签对应的身份，由此可以确定每个单语音子段对应的身份。由于语音段具有时序，因此根据单语音子段和重叠语音子段的顺序，以及类别标签对应的身份，能够准确识别出与客服人员对应的重叠语音子段。从而实现了在客服人员与用户通话的音频流中准确识别客服人员抢话的情形。

在一个实施例中，如图3所示，通过语音检测模型检测音频流中的语音段的步骤，具体包括：

步骤302，通过语音检测模型检测音频流中的语音信号。

步骤304，根据语音信号进行语音端点检测和语音识别，得到语音信号对应的语音端点信息。

步骤306，根据语音端点信息将语音信号生成对应的语音段。

音频流中包括语音信号和噪声。其中，语音信号可以是人声信号，噪声是非人声信号。语音信号包括声学特征和频谱特征。其中，声学特征可以包括清音、浊音，元音、辅音等特征信息。频谱特征可以包括振动频率、震动幅度以及响度、音色等特征信息。

服务器对音频流进行预处理，例如可以对音频流进行加窗分帧、以及快速傅里叶转换等预处理。服务器对预处理后的音频流提取对应的声学特征和频谱特征。例如，可以通过梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)进行频谱特征提取，得到相应的特征信息。

服务器利用语音检测模型根据声学特征和频谱特征对音频流进行端点检测和语音特征提取。语音检测模型可以是深度学习模型，可以是全连接模型、卷积神经网络模型、序列化模型等。服务器通过语音检测模型根据声学特征和频谱特征识别出音频流中的语音信号与非语言信号。非语言信号包括静音和噪音，其中噪音包括电子噪音、环境噪音、背景人声噪音等。具体的，服务器可以将声学特征转换为对应的声学特征向量，将频谱特征转换为对应的频谱特征向量。服务器进而通过语音检测模型对声学特征向量和频谱特征向量进行分类识别，识别语音类的声学特征向量和频谱特征向量和非语音类的声学特征向量和频谱特征向量。服务器根据分类识别结果对声学特征向量和频谱特征向量添加语音标签和非语音标签，从而提取出与语音标签对应的语音信号。服务器可以将非语音标签对应的信号确定为非语音信号，将添加语音标签的信号确定为语音信号。

服务器将添加了语音标签的声学特征向量和添加了语音标签的频谱特征向量解析为对应的添加了语音标签的语音信号。由于语音信号具有时序，服务器由此能够根据语音信号的语音标签和时序确定语音信号对应的端点，端点包括起始点和终止点。服务器可以根据语音信号的起始点和终止点准确识别出语音信号的语音端点信息。从而可以根据语音端点信息将语音信号生成对应的语音段。语音段中可以只包括一句话，也可以包括多句话，其中多句话可以是来自同一个人，如用户或客服人员，也可以来自两个人，如用户与客服人员的对话。

在一个实施例中，如图4所示，通过话者转换模型识别语音段中的话者转换点以及语音重叠点的步骤具体包括：

步骤402，利用预设时长的窗口，在语音段中提取每个窗口的语音特征。

步骤404，将语音段中的语音特征输入话者转换模型，通过话者转换模型进行运算，输出语音段中的话者转换点以及语音重叠点。

每个语音段具有相应的时长。服务器可以利用时长的窗口在语音段中提取与每个窗口对应的语音特征。例如，预设时长为200毫秒，服务器利用该预设时长划一个窗口，作为一帧语音信号，针对每一帧语音信号提取对应的语音特征。服务器利用在每个音频段中提取到的语音特征建立相应的语音矩阵，将语音矩阵输入至话者转换模型，通过话者转换模型的运算，可以输出音频段中的话者转换点以及话音重叠点。服务器可以按照音频段的先后顺序，以此建立将多个声学矩阵输入至话者转换模型，由此可以得到每个音频段中的话者转换点以及话音重叠点。其中，话者转换点表示其对应的语音信号中说话者从一个人变为另一个人，即说话者进行了转换。语音重叠点表示其对应的语音信号中存在两个或两个以上的说话者发出的声音，即存在两个或两个以上的人声的重叠。

话者转换模型是通过利用神经网络进行有监督的训练得到的。在其中一个实施例中，话者转换模型包括有监督训练得到的神经网络，话者转换模型通过如下步骤进行训练：获取多个样本音频流；利用预设时长的窗口，在样本音频流中提取与每个窗口对应的语音特征；对语音特征添加对应的语音标签；语音标签包括话者转换标签以及语音重叠标签；利用话者转换标签、语音重叠标签以及对应的语音特征对述神经网络进行有监督的训练，得到话者转换模型。

样本音频流是客服人员与用户之间通话的历史音频流。在训练之前，可以利用预设时长的窗口，服划一个窗口，作为一帧语音信号，针对每一帧语音信号提取对应的语音特征，由此在样本音频流中提取与每个窗口对应的语音特征。利用在每个音频段中提取到的语音特征建立相应的语音矩阵。为每一帧语音信号添加对应的语音标签，语音标签包括话者转换标签以及语音重叠标签。话者转换标签是说话者从一个人变为另一个人的标签，语音重叠标签是两个话者说话重叠的标签。通过利用话者转换标签、语音重叠标签以及对应的语音特征对述神经网络进行有监督的训练，由此得到话者转换模型。

在传统的话者转换算法中，采用混合高斯模型GMM对训练数据进行拟合，生成高斯混合模型通用背景模型。当进行话者识别时，需要提取特定话者的ivector向量，但由于ivector向量将话者特征空间与信道空间整合到一个空间表达，为了得到准确的识别结果，需要采用LDA算法(linear DiscriminantAnalysis，一种声纹识别的算法)进行降维，以去除信道扰动的干扰。由此导致话者识别的计算流程过于复杂。

本实施例中，通过采用深度学习的神经网络进行有监督的训练，生成话者转换模型，可以通过话者转换模型不仅能够直接输出音频流中的话者转换点，还可以直接输出语音重叠点。有效简化了话者识别的计算流程，提高了识别效率。

在一个实施例中，如图5所示，利用话者转换点和语音重叠点将语音段切分为多个语音子段的步骤，具体包括：

步骤502，获取语音段对应的时长序列。

步骤504，获取话者转换点对应的转换时刻以及语音重叠点对应的重叠时刻。

步骤506，将转换时刻与重叠时刻插入至时长序列，生成多个子序列。

步骤508，根据子序列将语音段切分为对应的语音子段。

每个语音段具有相应的时长。每个预设时长的窗口可以视为一个离散时刻。服务器可以根据预设时长的窗口，对语音段的时长建立相应的时长序列。由此可以将连续的时长转换为离散的时长序列。话者转换模型输出语音段中的话者转换点以及语音重叠点后，获取话者转换点对应的离散时刻，以及语音重叠点对应的离散时刻。其中，话者转换点对应的离散时刻又可以称为转换时刻，语音重叠点对应的离散时刻又可以称为重叠时刻。

服务器将将转换时刻以及重叠时刻插入至时长序列，生成多个子序列，根据子序列将语音段切分为对应的语音子段。语音子段包括单语音子段和重叠语音子段；重叠语音子段中包括语音重叠点。

具体的，服务器可以按照转换时刻与重叠时刻的先后顺序，以此将语音段切分为对应的语音子段。其中，重叠时刻与重叠时刻之间的语音子段为重叠语音子段，其他语音子段为单语音子段。单语音子段包括时长序列开始时刻与转换时刻之间的语音子段、转换时刻与转换时刻之间的语音子段、转换时刻与重叠时刻之间的语音子段、转换时刻与时长序列结束时刻之间的语音子段。

此外，服务器还可以根据重叠时刻，先将重叠时刻与重叠时刻之间的重叠语音子段提取出来，然后根据多个转换时刻，将其余语音段切分为多个单语音子段。

在其中一个实施例中，为了准确识别重叠语音子段，在参照上述实施例中提供的方式对话者转换模型进行训练时，还可以对重叠语音的开始时刻以及结束时刻分别添加相应的标签。其中，可以分别添加语音重叠开始标签以及语音重叠结束标签。在训练之后，话者转换模型能够输出语音段中的话者转换点以及语音重叠开始点、语音重叠结束点。从而可以根据语音重叠开始点对应的开始时刻、语音重叠结束点对应的结束时刻进一步提高重叠语音子段识别的准确。

在一个实施例中，如图6所示，对多个单语音子段进行聚类，得到每个单语音子段对应的类别标签的步骤，具体包括：

步骤602，对多个单语音子段进行聚类，得到单语音子段对应的身份类别。

步骤604，向每一个身份类别的多个单语音子段添加对应的类别标签。

服务器调用聚类算法对每个语音段中切分到的多个单语音子段进行聚类处理。聚类算法可以包括多种，如k-means聚类、谱聚类等。在聚类处理之后，可以得到单语音子段对应的身份类别。服务器可以分别向每一个身份类别的多个单语音子段添加对应的类别标签。也就是属于同一话者的单语音子段所添加的身份标签相同。其中，对于用户讲话的单语音子段可以添加用户标签，对于客服人员讲话的单语音子段可以添加客服标签。由此可以在通话的音频流中准确识别来自用户与客服人员的单语音子段。

在一个实施例中，如图7所示，对单语音子段进行关键字检索，确定类别标签对应的身份的步骤，具体包括：

步骤702，将单语音子段的音频信息转换为文本信息。

步骤704，利用预设的关键字在文本信息中进行检索。

步骤706，根据关键字与身份的对应关系，确定类别标签对应的身份。

服务器可以调用语音转换模型，通过语音转换将单语音子段的音频信息转换为文本信息。服务器获取预设的配置文件，配置文件中记录了多个关键词和话者的身份。服务器利用关键词在文本信息中进行检索，当检索到相应的关键词时，可以根据关键词与话者之间的对应关系，得到单语音子段对应的身份。

在其中一个实施例中，为了进一步提高身份识别效率，服务器可以根据类别标签，对部分单语音子段进行语音转换，在检索到与该类别标签对应的身份后，即可得知同一类别标签的所有单语音子段对应的身份。在确定一个类别标签对应的身份后，服务器即可根据对话要求，得知另一个类别标签对应的身份，即可以得知其余单语音子段对应的身份。通过对一个类别标签的部分单语音子段进行语音转换，有效提高了对每个单语音子段身份识别的效率。

应该理解的是，虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种重叠语音识别装置，包括：获取模块802、语音检测模块804、话者转换模块806、切分模块808、聚类模块810、身份识别模块812，其中：

获取模块802，用于获取客服人员与用户之间语音通话的音频流。

语音检测模块804，用于通过语音检测模型检测音频流中的语音段。

话者转换模块806，用于通过话者转换模型识别语音段中的话者转换点以及语音重叠点。

切分模块808，用于利用话者转换点以及语音重叠点将语音段切分为多个语音子段；语音子段包括单语音子段和重叠语音子段；重叠语音子段中包括语音重叠点。

聚类模块810，用于对多个单语音子段进行聚类，得到每个单语音子段对应的类别标签。

身份识别模块812，用于对单语音子段进行关键字检索，确定类别标签对应的身份；根据单语音子段和重叠语音子段的顺序，以及类别标签对应的身份，识别与客服人员对应的重叠语音子段。

在一个实施例中，语音检测模块804还用于通过语音检测模型检测音频流中的语音信号；根据语音信号进行语音端点检测和语音识别，得到语音信号对应的语音端点信息；根据语音端点信息将语音信号生成对应的语音段。

在一个实施例中，话者转换模块806还用于利用预设时长的窗口，在语音段中提取每个窗口的语音特征；将语音段中的语音特征输入话者转换模型，通过话者转换模型进行运算，输出语音段中的话者转换点以及语音重叠点。

在一个实施例中，切分模块808还用于获取语音段对应的时长序列；获取话者转换点对应的转换时刻以及语音重叠点对应的重叠时刻；将转换时刻与重叠时刻插入至时长序列，生成多个子序列；根据子序列将语音段切分为对应的语音子段。

在一个实施例中，话者转换模型包括有监督训练得到的神经网络，如图9所示，该装置还包括训练模块814，用于获取多个样本音频流；利用预设时长的窗口，在样本音频流中提取与每个窗口对应的语音特征；对语音特征添加对应的语音标签；语音标签包括话者转换标签以及语音重叠标签；利用话者转换标签、语音重叠标签以及对应的语音特征对述神经网络进行有监督的训练，得到话者转换模型。

在一个实施例中，聚类模块810还用于对多个单语音子段进行聚类，得到单语音子段对应的身份类别；向每一个身份类别的多个单语音子段添加对应的类别标签。

在一个实施例中，身份识别模块812还用于将单语音子段的音频信息转换为文本信息；利用预设的关键字在文本信息中进行检索；根据关键字与身份的对应关系，确定类别标签对应的身份。

在一个实施例中，身份识别模块812还用于当重叠标签之前的标签为用户，重叠标签之后的标签为客服时，将重叠语音子段标记为与客服人员对应的重叠语音子段。

关于重叠语音识别装置的具体限定可以参见上文中对于重叠语音识别方法的限定，在此不再赘述。上述重叠语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频流等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种重叠语音识别方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述各个方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种重叠语音识别方法，所述方法包括：

获取客服人员与用户之间语音通话的音频流；

通过语音检测模型检测所述音频流中的语音段；

对多个所述单语音子段进行聚类，得到每个单语音子段对应的类别标签；

2.根据权利要求1所述的方法，其特征在于，所述通过语音检测模型检测所述音频流中的语音段包括：

通过语音检测模型检测所述音频流中的语音信号；

根据所述语音信号进行语音端点检测和语音识别，得到所述语音信号对应的语音端点信息；

根据所述语音端点信息将所述语音信号生成对应的语音段。

3.根据权利要求1所述的方法，其特征在于，所述通过话者转换模型识别所述语音段中的话者转换点以及语音重叠点，包括：

利用预设时长的窗口，在所述语音段中提取每个窗口的语音特征；

将所述语音段中的所述语音特征输入所述话者转换模型，通过所述话者转换模型进行运算，输出所述语音段中的话者转换点以及语音重叠点。

4.根据权利要求1所述的方法，其特征在于，所述利用所述话者转换点以及所述语音重叠点将所述语音段切分为多个语音子段，包括：

获取所述语音段对应的时长序列；

获取所述话者转换点对应的转换时刻以及所述语音重叠点对应的重叠时刻；

将所述转换时刻与所述重叠时刻插入至所述时长序列，生成多个子序列；

根据所述子序列将所述语音段切分为对应的语音子段。

5.根据权利要求1所述的方法，其特征在于，所述话者转换模型包括有监督训练得到的神经网络，所述话者转换模型通过如下步骤进行训练：

获取多个样本音频流；

利用预设时长的窗口，在所述样本音频流中提取与每个窗口对应的语音特征；

对所述语音特征添加对应的语音标签；所述语音标签包括话者转换标签以及语音重叠标签；

利用所述话者转换标签、所述语音重叠标签以及对应的语音特征对所述神经网络进行有监督的训练，得到所述话者转换模型。

6.根据权利要求1所述的方法，其特征在于，所述对多个所述单语音子段进行聚类，得到每个单语音子段对应的类别标签包括：

对多个所述单语音子段进行聚类，得到单语音子段对应的身份类别；

向每一个身份类别的多个单语音子段添加对应的类别标签。

7.根据权利要求1所述的方法，其特征在于，所述对所述单语音子段进行关键字检索，确定所述类别标签对应的身份包括：

将所述单语音子段的音频信息转换为文本信息；

利用预设的关键字在所述文本信息中进行检索；

根据所述关键字与身份的对应关系，确定所述类别标签对应的身份。

8.根据权利要求1所述的方法，其特征在于，所述根据所述单语音子段和所述重叠语音子段的顺序，以及所述类别标签对应的身份，识别与所述客服人员对应的重叠语音子段包括：

当重叠语音子段的前一个单语音子段对应的身份为用户，后一个单语音子段对应的身份为客服时，确定所述重叠语音子段为客服人员抢话的重叠语音子段。

9.一种重叠语音识别装置，其特征在于，所述装置包括：

聚类模块，用于对多个所述单语音子段进行聚类，得到每个单语音子段对应的类别标签；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

获取客服人员与用户之间语音通话的音频流；

通过语音检测模型检测所述音频流中的语音段；

11.根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时还实现以下步骤：

通过语音检测模型检测所述音频流中的语音信号；

根据所述语音端点信息将所述语音信号生成对应的语音段。

12.根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时还实现以下步骤：

13.根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时还实现以下步骤：

获取所述语音段对应的时长序列；

根据所述子序列将所述语音段切分为对应的语音子段。

14.根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时还实现以下步骤：

将所述单语音子段的音频信息转换为文本信息；

利用预设的关键字在所述文本信息中进行检索；

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。