CN111475634B

CN111475634B - 基于座席语音切分的代表性话术片段抽取装置及方法

Info

Publication number: CN111475634B
Application number: CN202010280840.3A
Authority: CN
Inventors: 卢向华; 陈刚
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2023-04-28
Anticipated expiration: 2040-04-10
Also published as: CN111475634A

Abstract

本发明提供一种基于座席语音切分的代表性话术片段抽取装置及方法，用于从座席语音中抽取最具有代表性的语音片段作为话术片段，其特征在于，包括：座席语音获取部，获取待处理的多个座席语音；话术标签预测部，基于预设的话术预测模型依次对每个座席语音进行预测并输出该座席语音的话术标签以及置信度；语音样本分类部，根据话术标签以及置信度将座席语音分类为代表性样本集；语音特征提取部，提取每个代表性样本的MFCC特征；切割点获取部，获取每个代表性样本的切割点；语音片段切割部，根据切割点对每个代表性样本进行切割形成语音片段；片段特征提取部，对语音片段提取时域特征和频域特征；以及话术片段获取部，采用启发式算法提取话术片段。

Description

基于座席语音切分的代表性话术片段抽取装置及方法

技术领域

本发明属于语音识别领域，具体涉及一种基于座席语音切分的代表性话术片段抽取装置及方法。

背景技术

基于(智能)座席的语音营销模式日益盛行，这类营销模式一大优点在于掌握(潜在)客户资料后，可以主动出击，从而极大地发掘、利用了客户资源。因此，在一些呼叫中心、电话客服等座席工作岗位中，往往会通过很多座席人员向客户提供呼叫、应答等话术服务，从而向客户提供产品介绍、咨询以及售后回访等服务。

在给定潜在客户名单后，座席人员能否成功地吸引客户下单/进店体验，很大程度上取决于座席人员的话术质量，例如，产品描述是否清晰准确，问答逻辑是否合理，是否充分了解并回应了客户需求，逼单、邀约力度是否过轻(重)，沟通技巧的运用是否熟练，流程规范性，业务知识掌握度等。因此，座席人员需要不断的对自身的话术能力进行改善，从而提供更高的话术质量。

座席人员一般只能通过话术支持人员的指导、听取各类的座席录音等方式，从而分析并了解不同质量的话术，进一步相应地提高自身的话术能力。但是，各类录音的话术质量通常都好坏不分，座席人员需要花费大量时间在听取以及区分各类录音上，因此话术的改善效率会非常低下。

即使事先对这些座席录音进行标记(即预先进行质量评分)，从而使得座席人员能够有目的地筛选出不同质量的录音，但是，对于每个录音，座席人员依旧需要完整地听完录音(或是听完大部分)。同时，座席每天也会产生大量的录音，因此对这些录音的学习非常耗时耗力，难以作为座席人员提升自我话术质量的参考依据。

发明内容

为解决上述问题，提供一种能够自动对座席语音进行分片切割，从而提取出具有代表性的语音片段并为座席提供更加高效可行的话术支持的代表性话术片段抽取装置，本发明采用了如下技术方案：

本发明提供了一种基于座席语音切分的代表性话术片段抽取装置，用于从座席语音中抽取最具有代表性的语音片段作为话术片段，其特征在于，包括：座席语音获取部，用于获取待处理的多个座席语音；话术标签预测部，基于预设的话术预测模型依次对每个座席语音所对应的话术等级进行预测并输出该座席语音所对应的表示话术等级的话术标签以及该座席语音的置信度；语音样本分类部，根据话术标签将座席语音进行分类，并针对每个话术标签相应地获取置信度最高的前n个座席语音作为代表性样本，进一步形成多个分别与各个话术标签相对应的代表性样本集；语音特征提取部，依次提取每个代表性样本的MFCC特征；切割点获取部，基于MFCC特征以及预设的切割点获取方法获取每个代表性样本的切割点；语音片段切割部，根据切割点对每个代表性样本进行切割形成相对应的语音片段；片段特征提取部，基于代表性样本的MFCC特征对相应的语音片段提取时域特征和频域特征；以及话术片段获取部，基于各个语音片段的时域特征与频域特征并采用启发式算法构建对应各个话术等级的最优代表性子集，并将该最优代表性子集中语音片段作为话术片段。

根据本发明提供的基于座席语音切分的代表性话术片段抽取装置，还可以具有这样的技术特征，其中，切割点获取方法为：将代表性样本的由MFCC特征表征的语音序列建模为独立多变量高斯过程，并基于高斯过程的连续性和模型检验准则BIC来递归计算每个特征点x是否为切割点，若特征点xi为切割点、语音序列的长度为N，则有：模型0:x1...xN～N(μ,Σ)；模型1:x1...xi～N(μ1,Σ1)；xi+1...xN～N(μ2,Σ2)，式中，Σ是所有数据的协方差矩阵，Σ1是{x1...xi}的协方差矩阵，Σ2是{xi+1...xN}{xi+1...xN}的协方差矩阵，μ为切割前语音序列的均值，μ1、μ2分别为基于特征点xi对语音序列切割后的两条序列的均值，其次，模型0与模型1对应的对数最大似然比R(i)为：R(i)＝Nln|Σ|-N1ln|Σ1|-N2ln|Σ2|，式中，符号|Σ|代表矩阵Σ的行列式，N1、N2分别为基于切割点xi对语音序列切割后的两条序列的长度，然后，特征点xi的BIC分数BIC(i)为：BIC(i)＝R(i)-λP式中，λ为惩罚系数，P为：P＝1/2(d+1/2d(d+1))lnN，式中，d为特征点xi的维数；最后，寻找切割点的目标为：i(切割)＝arg max BIC(i)，若{maxiBIC(i)}>0，则特征点xi为切割点；若{maxiBIC(i)}<0，则特征点xi不是切割点。

根据本发明提供的基于座席语音切分的代表性话术片段抽取装置，还可以具有这样的技术特征，其中，启发式算法为模拟退火算法，话术片段获取部通过模拟退火算法为每个话术标签筛选最优代表性子集，最优代表性子集的优化目标为：

式中，T为所有话术标签下所有语音片段的个数，m为每类话术标签下需要抽取的话术片段的个数，cos<.>为余弦相似度，r_i为第i个由时域特征以及频域特征表征的语音片段，r_j为第j个由时域特征以及频域特征表征的语音片段。

根据本发明提供的基于座席语音切分的代表性话术片段抽取装置，还可以具有这样的技术特征，其中，话术预测模型包括：输入模块，用于输入座席语音；多视图提取模块，用于对座席语音进行多视图特征提取并得到对应该座席语音的多视图特征；特征权重提取模块，基于L1范数对多视图特征进行回归以及归一化并得到对应每一个训练语音的特征权重；预测模块，包含预定数量个基分类器，分别用于对多视图特征进行预测并得到各自的中间预测结果；以及输出融合模块，基于特征权重对所有的中间预测结果进行融合从而得到对应座席语音的话术标签以及置信度。

根据本发明提供的基于座席语音切分的代表性话术片段抽取装置，还可以具有这样的技术特征，其中，预定数量个基分类器通过如下步骤构建得到：步骤S1，获取用于进行训练的训练语音；步骤S2，对训练语音进行多视图特征提取并得到对应该训练语音的训练用多视图特征；步骤S3，基于L1范数对训练用多视图特征进行回归以及归一化并得到对应每一个训练语音的特征权重；步骤S4，基于特征权重对训练用多视图特征进行概率抽样得到预定数量个训练用特征子集；步骤S5，基于每个训练用特征子集分别训练构建一个基分类器从而得到预订数量个基分类器。

根据本发明提供的基于座席语音切分的代表性话术片段抽取装置，还可以具有这样的技术特征，其中，多视图特征包括文本特征、时域特征以及频域特征，多视图提取模块具有：文本处理提取单元，用于将语音数据处理为预处理词并进行提取得到对应该文本信息的文本特征；以及语音处理提取单元，用于对语音数据进行处理从而提取得到对应该语音的时域特征以及频域特征。

根据本发明提供的基于座席语音切分的代表性话术片段抽取装置，还可以具有这样的技术特征，其中，文本处理提取单元包括：文本转换部分，用于将语音数据转换为文本信息；预处理部分，用于对文本信息进行至少包括分词、去噪的预处理得到多个预处理词；向量化部分，用于通过预设的word2vec模型对多个预处理词进行向量化得到相应的多个词向量；以及文本特征提取部分，将多个词向量输入预先基于标记样本训练得到的LSTM模型并将该LSTM模型中最后一个神经单元中最后一个隐含层的输出作为文本特征。

根据本发明提供的基于座席语音切分的代表性话术片段抽取装置，还可以具有这样的技术特征，其中，语音处理提取单元包括：语音转换部分，用于将语音数据转换为梅尔频率倒谱系数；以及片段特征提取部分，基于梅尔频率倒谱系数进行特征提取从而得到时域特征以及频域特征，时域特征包括波形因子、脉冲因子、峭度、偏度、裕度因子和峰值，频域特征包括重心频率、均方频率、均方根频率、频率方差和频率标准差。

本发明还提供了一种基于座席语音切分的代表性话术片段抽取方法，用于从座席语音中抽取最具有代表性的语音片段作为话术片段，其特征在于，包括如下步骤：座席语音获取步骤，获取待处理的多个座席语音；话术标签预测步骤，基于预设的话术预测模型依次对每个座席语音所对应的话术等级进行预测并输出该座席语音所对应的表示话术等级的话术标签以及该座席语音的置信度；语音样本分类步骤，根据话术标签将座席语音进行分类，并针对每个话术标签相应地获取置信度最高的前n个座席语音作为代表性样本，进一步形成多个分别与各个话术标签相对应的代表性样本集；语音特征提取步骤，依次提取每个代表性样本的MFCC特征；切割点获取步骤，基于MFCC特征以及预设的切割点获取方法获取每个代表性样本的切割点；语音片段切割步骤，根据切割点对每个代表性样本进行切割形成相对应的语音片段；片段特征提取步骤，基于代表性样本的MFCC特征对相应的语音片段提取时域特征和频域特征；话术片段获取步骤，基于各个语音片段的时域特征与频域特征并采用启发式算法构建对应各个话术等级的最优代表性子集，并将该最优代表性子集中语音片段作为话术片段。

发明作用与效果

根据本发明的基于座席语音切分的代表性话术片段抽取装置及方法，由于通过话术预测模型对座席语音进行预测得到其对应各个话术等级的话术标签以及置信度，并根据话术标签对座席语音进行分类从而获取各个分类下的代表性样本，因此在实现了基于座席语音抽取更具有代表性的座席语音的同时，还考虑了座席语音的准确性(高置信度)。进一步，由于对各个代表性样本进行MFCC特征提取从而基于该MFCC特征获取各个代表性样本的分割点，并将各个代表性样本根据分割点分割为语音片段，因此实现了从完整的座席语音中提取出具有代表性的语音片段的功能，去除了座席语音中用处较小的部分，最直接、真实地反应了座席语音所包含的座席话术。最后，还由于对各个语音片段进行时域特征和频域特征的提取并采用启发式算法对语音片段进行筛选得到最终的话术片段，因此还保证了座席人员能够获取到的话术片段具有多样性，避免话术片段中存在大量同质化的语音片段，提高了话术片段的参考价值。通过本发明的代表性话术片段抽取装置及方法，可以直接提取和整合出座席语音中最具有代表性的语音片段并提供给座席人员，不仅节省了座席人员基于评分录音进行自我提升和学习的时间，还使得座席人员依据多样性的话术片段进行更有效率的学习。

附图说明

图1是本发明实施例中基于座席语音切分的代表性话术片段抽取装置的结构框图；

图2是本发明实施例中话术预测模型的结构示意图；

图3是本发明实施例中基分类器的构建过程的流程图；以及

图4是本发明实施例中话术片段抽取过程的流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的基于座席语音切分的代表性话术片段抽取装置及方法作具体阐述。

<实施例>

图1是本发明实施例中基于座席语音切分的代表性话术片段抽取装置的结构框图。

如图1所示，基于座席语音切分的代表性话术片段抽取装置100具有座席语音获取部101、话术标签预测部102、语音样本分类部103、语音特征提取部104、切割点获取部105、语音片段切割部106、片段特征提取部107、话术片段获取部108、通信部109以及控制上述各部的控制部110。

其中，通信部109用于进行代表性话术片段抽取装置100的各个组成部分之间以及代表性话术片段抽取装置100与其他装置或是系统之间的数据交换，控制部110存储有用于对代表性话术片段抽取装置100的各个组成部分的工作进行控制的计算机程序。

座席语音获取部101用于获取待处理的多个座席语音。

本实施例中，座席语音获取部101从一个事先准备好的座席语音数据集中获取待处理的座席语音，该座席语音数据集可以事先通过对各个座席人员的座席服务进行录音并采集形成。

例如，本实施例的代表性话术片段抽取装置100可以设置在一个与多个座席终端相通信连接的服务器中，其中，座席终端为各个座席人员持有的计算机，具有用于对座席人员在提供座席服务时进行录音的麦克风以及能够将这些录音形成的座席语音发送给服务器的终端侧通信部。通过这样的方式，各个座席终端每天录音得到的座席语音都可以被服务器采集并形成座席语音数据集，进一步由代表性话术片段抽取装置100进行代表性语音片段的整理和抽取。

话术标签预测部102利用预设的话术预测模型依次对每个座席语音所对应的话术等级进行预测并输出该座席语音所对应的表示话术等级的话术标签以及该座席语音的置信度。

其中，话术等级为对座席语音的话术好坏进行评价的等级，每一个话术等级对应有一个相应的话术标签。在本实施例中，话术等级分为低级、中级以及高级，话术标签则有相应的三个标签。

本实施例中，话术预测模型为预先构建并存储在话术标签预测部102中，该话术预测模型的输入为座席语音，输出为该座席语音所对应的话术标签以及置信度。

图2是本发明实施例中话术预测模型的结构示意图。

如图2所示，话术预测模型40能够根据输入的座席语音输出该座席语音相对应的话术标签以及置信度，该话术预测模型40包括输入模块41、多视图提取模块42、特征权重提取模块43、预测模块44以及输出融合模块45。

输入模块41用于输入座席语音。

多视图提取模块42用于对座席语音进行多视图特征提取并得到对应该座席语音的多视图特征。

本实施例中，多视图特征为语音的文本特征、时域特征以及频域特征，多视图提取模块42具体包括文本处理提取单元42-1以及语音处理提取单元42-2。

文本处理提取单元42-1用于将语音数据处理为预处理词并进行提取得到对应该文本信息的文本特征。

本实施例中，文本处理提取部分42-1具有文本转换部分42-1a、预处理部分42-1b、向量化部分42-1c以及文本特征提取部分42-1d。

文本转换部分42-1a用于将座席语音转换为文本信息。

本实施例中，文本转换部分42-1a采用常规的语音识别技术(例如通过API调用百度语音等语音转写工具)将语音信息转换为文本信息。

预处理部分42-1b用于对文本信息进行至少包括分词、去噪的预处理得到预处理词。

本实施例中，预处理词通过预处理部分42-1b进行分词形成多个词汇以及去噪从而去除多个词汇中无用的词汇，最终得到由多个词汇组成的预处理词。

向量化部分42-1c用于通过预设的word2vec模型对多个预处理词进行向量化得到相应的多个文本向量。

文本特征提取部分42-1d用于将文本向量输入预设的LSTM模型并将该LSTM模型中最后一个神经部分中最后一个隐含层的输出作为文本特征。

本实施例中，LSTM模型预先基于标记样本，由类别标签监督，训练得到。

本实施例中，word2vec模型以及LSTM模型为常规的语言分析模型，LSTM模型采用了单层LSTM模型，其具有(1)embedding层(batch＝32，input_length＝500,dimention＝字典维度)；(2)LSTM层(隐含层神经元个数为128)；(3)softmax层(激活函数为sigmoid)，输出维度等于话术等级个数。

语音处理提取单元42-2用于对座席语音进行处理从而提取得到对应该座席语音的时域特征以及频域特征。

本实施例中，语音处理提取部42-2具有语音转换部分42-2a以及语音特征提取部分42-2b。

语音转换部分42-2a用于将座席语音转换为梅尔频率倒谱系数。

语音特征提取部分42-2b基于梅尔频率倒谱系数进行特征及指标提取从而得到时域特征以及频域特征。

具体地，语音转换部分42-2a首先对连续语音数据做预加重(滤波)处理，然后分帧，加窗(增加帧左端和右端的连续性)，之后进行快速傅里叶变换，输入Mel(梅尔)频率滤波器组对频谱进行平滑化，并消除谐波，接着，语音特征提取部分42-2b计算每个滤波器组输出的对数能量，最后，经过离散余弦变换(DCT)得到MFCC系数。

本实施例中，时域特征包括波形因子、脉冲因子、峭度、偏度、裕度因子、峰值；频域特征包括重心频率、均方频率、均方根频率、频率方差、频率标准差。

通过上述处理，即得到了每一个座席语音的文本特征、时域特征以及频域特征。

特征权重提取模块43基于L1范数(Lasso)对多视图特征进行回归以及归一化并得到对应每一个座席语音的特征权重。

预测模块44包含预定数量个基分类器，分别用于对多视图特征进行预测并得到各自的中间预测结果。

本实施例中，基分类器选取为XGBoost模型，每个基分类器都能够对多视图特征进行预测并分别输出各自预测出的中间预测结果，即每一个座席语音会被预测出预定数量个中间预测结果。

图3是本发明实施例中基分类器的构建过程的流程图。

如图3所示，基分类器的构建过程包括如下步骤：

步骤S1-1，获取训练语音。本实施例中，训练语音为事先准备且用于训练的座席语音。

步骤S1-2，对每一个训练语音进行多视图特征提取并得到对应该训练语音的训练用多视图特征。

步骤S1-3，基于L1范数(Lasso)对多视图特征进行回归以及归一化并得到对应每一个训练语音的特征权重。

本实施例中，上述步骤S1-2以及步骤S1-3的处理方法分别与多视图提取模块42以及特征权重提取模块43相同，在此不在赘述。

步骤S1-4，基于特征权重对训练用多视图特征进行概率抽样得到预定数量个训练用特征子集。

本实施例中，步骤S1-4中抽取了十个特征子集，特征抽取比例选择0.5，最终在步骤S1-5中对应训练得到十个基分类器，使得最终通过输出融合模块融合的预测结果更稳定且准确。在本发明的其他方案中，特征子集的提取数量以及基分类器的构建数量也可以根据实际需求进行调整，特征抽取比例也可在(0,1)范围内进行调整。

步骤S1-5，基于每个训练用特征子集分别训练构建一个基分类器从而得到预定数量个基分类器。

输出融合模块45基于特征权重对各个基分类器输出的中间预测结果进行融合。

本实施例中，中间预测结果为基分类器输出的对应各个话术等级的概率。在输出融合模块45对各个中间预测结果进行融合时：输出融合模块45会将座席语音被每个基分类器预测出的概率按话术等级进行分类并取平均值，从而得到该语音样本对应各个话术等级的平均概率，进一步取最大的概率作为该语音样本的置信度。例如三分类，一个语音样本通过两个基分类器在1-3类上的预测概率值(中间预测结果)分别是：基分类器一0.3,0.3,0.4；基分类器二0.2,0.2,0.6，那么，该语音样本的平均概率为0.25,0.25,0.5，其置信度为0.5。同时，若两个样本在1-3类上的平均概率值分别是：样本一0.3,0.3,0.4；样本二0.1,0.1,0.8，两个样本都被预测为第三类的话术等级，然而样本2的置信度更高。

基于上述话术预测模型，话术标签预测部102即可预测出每个座席语音所对应的话术标签(即该座席语音所对应的话术等级)以及每个座席语音的置信度。

语音样本分类部103用于根据话术标签以及置信度将座席语音整理分类为多个代表性样本集。

本实施例中，语音样本分类部103根据话术标签将座席语音进行分类，并针对每个话术标签相应地获取置信度最高的前n个座席语音作为代表性样本，进一步形成多个分别与各个话术标签相对应的代表性样本集。每个代表性样本集中都含有对应相应话术标签的所有代表性样本。

语音特征提取部104依次地提取每个代表性样本的MFCC特征，即梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)。

切割点获取部105基于预设的切割点获取方法，依次根据每个代表性样本的MFCC特征获取每个代表性样本的切割点。

本实施例中，切割点获取方法为：

将代表性样本(语音信号)的由MFCC表征的语音序列建模为独立多变量高斯过程：xi～N(μi,Σi)，特征点xi的维数为d，特征的个数(即语音序列的长度)为N；进一步基于高斯过程的连续性和模型检验准则BIC来递归计算每个特征点x是否为切割点，若特征点xi为跳跃点(切割点)，则有：

模型0:x1...xN～N(μ,Σ)(连续)

模型1:x1...xi～N(μ1,Σ1)；xi+1...xN～N(μ2,Σ2)(间断，两段高斯模型)

式中，Σ是所有数据的协方差矩阵，Σ1是{x1...xi}的协方差矩阵，Σ2是{xi+1...xN}{xi+1...xN}的协方差矩阵，μ为切割前语音序列的均值，μ1、μ2分别为基于特征点xi对语音序列切割后的两条序列的均值。

通过符号|Σ|代表矩阵Σ的行列式，那么模型0以及模型1对应的对数最大似然比为：

R(i)＝Nln|Σ|-N1ln|Σ1|-N2ln|Σ2|

式中，N1、N2分别为基于切割点xi对语音序列切割后的两条序列的长度。

然后，特征点xi的BIC分数BIC(i)为：

BIC(i)＝R(i)-λP

式中，λ为惩罚系数，该λ越大，对切割后两条语音差异判别的惩罚越大，P为：

P＝1/2(d+1/2d(d+1))lnN

最后，寻找切割点的目标为：

i(切割)＝arg max BIC(i)

切割点获取部105可以通过通过上述过程计算得到max BIC(i)并基于该值判定代表性样本的切割点，具体地：若{maxiBIC(i)}>0，则特征点xi为切割点；若{maxiBIC(i)}<0，则特征点xi不是切割点。

上述公式中描述的高斯模型进行切割点的判断，切割点判定依据是使得BIC达到最优。通俗理解就是，BIC越大，基于切割点切分成的两端语音分布的差别就越大。理想的切分是每次切分之后的两段语音差别较大，差异判定条件为R(i)。

切分过程如下，首先固定一个滑动窗口的尺寸，将一条待切割语音看作是一条序列，从起始点开始到滑动窗口的末端点为第一段迭代，用BIC准则判定是否存在切割点

(1)如果该窗口检测到一个切割点，即将滑动窗口的起点移动到切割点，继续前向迭代判定。不改变滑动窗口尺寸。

(2)如果本窗口内未检测到切割点，在窗口的起点不变，末端点向前延伸，直到检测出切割点。

(3)往复执行(1)(2)，直到最后一个窗口(末端点达到语音序列的终点)检测完毕时停止。

语音片段切割部106用于根据切割点对每个代表性样本进行切割形成与各个代表性样本相对应的语音片段。

本实施例中，在切割点获取部105获取到一个代表性样本的n个切割点后，语音片段切割部106就将代表性样本(语音)相应地切分成n+1个片段。之后，每一话术标签对应的所有语音的所有切割片段放到一起后将会共同参与到后续该类代表性子集抽取的过程中。

片段特征提取部107基于各个代表性样本的MFCC特征对相应的语音片段进行时域特征和频域特征的提取。

本实施例中，片段特征提取部107所进行的时域特征和频域特征的提取方法与语音特征提取部分42-2b的提取方法相同，在此不再赘述。

话术片段获取部108基于各个语音片段的时域特征与频域特征并采用启发式算法构建对应各个话术等级的最优代表性子集，并将该最优代表性子集中语音片段作为话术片段。

本实施例中，针对每一类话术标签，话术片段获取部108都会利用启发式算法对所有的语音片段进行寻优并形成对应该类话术标签的最优代表性子集，此时，该最优代表性子集中的各个语音片段即为对应该类话术标签的话术片段。

本实施例中，话术片段获取部108具体采用模拟退火算法构建最优代表性子集，该模拟退火算法主要为：设定一个目标和集合，在迭代过程中不断更换集合中的对象(即语音片段)，并计算集合对象中的相似度之和。如果相似度之和越高则多样性越差，优化和迭代的目标就是让相似度指标尽量变小，直到达到收敛条件后停止迭代。因此，本实施例中，各个最优代表性子集的训练目标为：

式中，T为所有话术标签下所有语音片段的个数，m为每类话术标签下需要抽取的话术片段的个数，cos<.>为余弦相似度，r_i为第i个由时域特征表征的语音片段，r_j为第j个由时域特征表征的语音片段。

本实施例中，上述构建最优代表性子集的实质为找到每个类别中最独特另类的语音片段，该语音片段：

(1)需要与其他类别的语音片段最大限度的区分开，例如，每个类别中都出现的相同或相似语音片段不能作为代表性样本，没有区分度。

(2)还需要与本类别中的语音片段区分开。例如，抽取得到的m个语音片段是这类语音片段中最特殊的。

因此，优化目标是类内部样本相似度和类间样本相似度之和最小化。本实施例中，基于时域特征以及频域特征的语音片段构成了一个矩阵，一行是一个语音片段对应的特征值数据，一列是一个时频域特征。cos<r_ir_j>就是在优化过程中，计算这两个语音片段对应的特征向量之间的余弦相似度。具体的算法流程为：

针对每一类的语音片段，选定m个初始样本，m是设定的需要抽取的样本个数。每次迭代中，更换部分m中的样本，计算总相似度。通过多轮迭代，使得总相似度逐渐下降。最终停止迭代时得到的m个样本即构成了最优代表性子集，就是该类别(话术标签)的代表片段。

本实施例中，收敛条件为前后两次迭代的min指标值之差不超过一个设定的阈值(一般为0.001)或者迭代次数达到设定的上限(迭代超过1000次后停止)。

通过上述过程，代表性话术片段抽取装置100即可获取到各个话术标签所对应的代表片段，这些代表片段可以在服务器中与各个话术标签进行对应存储并提供给座席人员。例如，可以通过座席人员持有的计算机让座席人员选择所需的话术标签，并由服务器根据话术标签对被存储的代表片段进行检索从而获取对应的代表片段，进一步发送给座席终端让座席人员查看。

图4是本发明实施例中话术片段抽取过程的流程图。

如图4所示，在将需要处理的座席语音数据集输入代表性话术片段抽取装置100后，代表性话术片段抽取装置100就开始话术片段抽取过程，该话术片段抽取过程具体包括如下步骤：

步骤S1，座席语音获取部101从座席语音数据集中获取待处理的座席语音，然后进入步骤S2；

步骤S2，话术标签预测部102依次将每个座席语音输入话术预测模型并输出该座席语音所对应的话术标签以及置信度，然后进入步骤S3；

步骤S3，语音样本分类部103根据步骤S2输出的话术标签将座席语音进行分类，并针对每个话术标签相应地获取置信度最高的前n个座席语音作为代表性样本，进一步形成多个分别与各个话术标签相对应的代表性样本集，然后进入步骤S4；

步骤S4，语音特征提取部104依次提取各个代表性样本的MFCC特征，然后进入步骤S5；

步骤S5，切割点获取部105通过切割点获取方法基于步骤S4提取出的MFCC特征获取每个代表性样本的切割点，然后进入步骤S6；

步骤S6，语音片段切割部106根据步骤S5获取到的切割点对每个代表性样本进行切割并形成相对应的语音片段，然后进入步骤S7；

步骤S7，片段特征提取部107基于代表性样本的MFCC特征对相应的语音片段提取时域特征和频域特征，然后进入步骤S8；

步骤S8，话术片段获取部108基于各个语音片段的时域特征与频域特征并采用启发式算法构建对应各个话术等级的最优代表性子集，并将该最优代表性子集中语音片段作为话术片段，然后进入结束状态。

实施例作用与效果

根据本实施例提供的基于座席语音切分的代表性话术片段抽取装置及方法，由于通过话术预测模型对座席语音进行预测得到其对应各个话术等级的话术标签以及置信度，并根据话术标签对座席语音进行分类从而获取各个分类下的代表性样本，因此在实现了基于座席语音抽取更具有代表性的座席语音的同时，还考虑了座席语音的准确性(高置信度)。进一步，由于对各个代表性样本进行MFCC特征提取从而基于该MFCC特征获取各个代表性样本的分割点，并将各个代表性样本根据分割点分割为语音片段，因此实现了从完整的座席语音中提取出具有代表性的语音片段的功能，去除了座席语音中用处较小的部分，最直接、真实地反应了座席语音所包含的座席话术。最后，还由于对各个语音片段进行时域特征和频域特征的提取并采用启发式算法对语音片段进行筛选得到最终的话术片段，因此还保证了座席人员能够获取到的话术片段具有多样性，避免话术片段中存在大量同质化的语音片段，提高了话术片段的参考价值。通过本发明的代表性话术片段抽取装置及方法，可以直接提取和整合出座席语音中最具有代表性的语音片段并提供给座席人员，不仅节省了座席人员基于评分录音进行自我提升和学习的时间，还使得座席人员依据多样性的话术片段进行更有效率的学习。

实施例中，由于通过BIC准则和多元高斯过程对语音切割点进行了判定，同时，采用时域特征以及频域特征对语音片段进行了表征，因此可以充分反映座席语音中的波动、语调等特征，从而更准确地从座席语音中提取出代表性的语音片段。

实施例中，采用模拟退火算法优化快速地得到了满足准确性(高置信度)和独特性(每个话术等级对应的代表性语音片段相互差异)的语音片段。而如果不采用优化算法，语音片段两两比对的算法复杂度太高，不仅会占用大量的计算资源，而且还会导致筛选的效果不佳。

实施例中，在进行文本分析时，由于使用LSTM模型提取文本特征，有效捕捉了语境中的序列依赖关系，使得对文本信息的表征更加准确。

实施例中，由于话术预测模型通过多视图提取模块提取座席语音的多视图特征，并通过特征权重提取模块基于多视图特征进行特征权重的提取，因此在将多视图特征输入预先构建的多个基分类器并输出中间预测结果时，可以通过输出融合模块基于特征权重对各个中间预测结果进行融合。通过这样的预测过程，可以准确且稳定地预测出座席语音所对应的话术等级。

进一步，实施例中，由于多视图特征包含文本特征、时域特征与频域特征，因此，话术评分模块能够从用词、语调等多个方面对座席语音的话术等级进行预测，从而全面、准确地评估各个座席语音中座席人员是“如何说”以及“说了什么”，最终得到更符合客观判断的话术等级以及置信度。

实施例中，由于在MFCC特征基础上进一步提取了时频域特征，即、计算压缩成行之后的MFCC特征(取每个特征向量的标准差作为该特征点的代表，将MFCC矩阵压缩为一行)每一片段的均值、方差、波形特征等，这样最后得到的特征维度变低了，相当于降维，抽象出了长序列的波动规律。因此，使得原本维度很高的MFCC特征(几万，或者十几万)可以在保留语音特征的同时用于模型的学习。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于座席语音切分的代表性话术片段抽取装置，用于从座席语音中抽取最具有代表性的语音片段作为话术片段，其特征在于，包括：

座席语音获取部，用于获取待处理的多个座席语音；

话术标签预测部，基于预设的话术预测模型依次对每个所述座席语音所对应的话术等级进行预测并输出该座席语音所对应的表示所述话术等级的话术标签以及该座席语音的置信度；

语音样本分类部，根据所述话术标签将所述座席语音进行分类，并针对每个所述话术标签相应地获取所述置信度最高的前n个座席语音作为代表性样本，进一步形成多个分别与各个所述话术标签相对应的代表性样本集；

语音特征提取部，依次提取每个所述代表性样本的MFCC特征；

切割点获取部，基于所述MFCC特征以及预设的切割点获取方法获取每个所述代表性样本的切割点；

语音片段切割部，根据所述切割点对每个所述代表性样本进行切割形成相对应的语音片段；

片段特征提取部，基于所述代表性样本的所述MFCC特征对相应的所述语音片段提取时域特征和频域特征；以及

话术片段获取部，基于各个所述语音片段的所述时域特征与所述频域特征并采用启发式算法构建对应各个话术等级的最优代表性子集，并将该最优代表性子集中语音片段作为所述话术片段；

其中，所述切割点获取方法为：

将所述代表性样本的由所述MFCC特征表征的语音序列建模为独立多变量高斯过程，并基于高斯过程的连续性和模型检验准则BIC来递归计算每个特征点x是否为切割点，若特征点xi为所述切割点、所述语音序列的长度为N，则有：

模型0:x1...xN～N(μ,Σ)；

模型1:x1...xi～N(μ1,Σ1)；xi+1...xN～N(μ2,Σ2)，

式中，Σ是所有数据的协方差矩阵，Σ1是{x1...xi}的协方差矩阵，Σ2是{xi+1...xN}{xi+1...xN}的协方差矩阵，μ为切割前所述语音序列的均值，μ1、μ2分别为基于所述特征点xi对所述语音序列切割后的两条序列的均值，

其次，所述模型0与所述模型1对应的对数最大似然比R(i)为：

R(i)＝Nln|Σ|-N1ln|Σ1|-N2ln|Σ2|

式中，符号|Σ|代表矩阵Σ的行列式，N1、N2分别为基于所述切割点xi对所述语音序列切割后的两条序列的长度，

然后，所述特征点xi的BIC分数BIC(i)为：

BIC(i)＝R(i)-λP

式中，λ为惩罚系数，P为：

P＝1/2(d+1/2d(d+1))lnN

式中，d为所述特征点xi的维数；

最后，寻找所述切割点的目标为：

i(切割)＝argmaxBIC(i)

若{maxiBIC(i)}>0，则所述特征点xi为切割点；若{maxiBIC(i)}<0，则所述特征点xi不是切割点；

其中，所述话术预测模型包括：

输入模块，用于输入所述座席语音；

多视图提取模块，用于对所述座席语音进行多视图特征提取并得到对应该座席语音的多视图特征；

特征权重提取模块，基于L1范数对所述多视图特征进行回归以及归一化并得到对应每一个所述座席语音的特征权重；

预测模块，包含预定数量个基分类器，分别用于对所述多视图特征进行预测并得到各自的中间预测结果；以及

输出融合模块，基于所述特征权重对所有的所述中间预测结果进行融合从而得到对应所述座席语音的所述话术标签以及所述置信度；

其中，所述预定数量个基分类器通过如下步骤构建得到：

步骤S1，获取用于进行训练的训练语音；

步骤S2，对所述训练语音进行多视图特征提取并得到对应该训练语音的训练用多视图特征；

步骤S3，基于L1范数对所述训练用多视图特征进行回归以及归一化并得到对应每一个所述训练语音的特征权重；

步骤S4，基于所述特征权重对所述训练用多视图特征进行概率抽样得到预定数量个训练用特征子集；

步骤S5，基于每个所述训练用特征子集分别训练构建一个所述基分类器从而得到所述预订数量个基分类器；

其中，所述多视图特征包括文本特征、时域特征以及频域特征，

所述多视图提取模块具有：

文本处理提取单元，用于将语音数据处理为预处理词并进行提取得到对应文本信息的文本特征；以及

语音处理提取单元，用于对所述语音数据进行处理从而提取得到对应该语音的时域特征以及频域特征；

其中，所述文本处理提取单元包括：

文本转换部分，用于将所述语音数据转换为文本信息；

预处理部分，用于对所述文本信息进行至少包括分词、去噪的预处理得到多个预处理词；

向量化部分，用于通过预设的word2vec模型对所述多个预处理词进行向量化得到相应的多个词向量；以及

文本特征提取部分，将所述多个词向量输入预先基于标记样本训练得到的LSTM模型并将该LSTM模型中最后一个神经单元中最后一个隐含层的输出作为所述文本特征；

其中，所述语音处理提取单元包括：

语音转换部分，用于将所述语音数据转换为梅尔频率倒谱系数；以及

片段特征提取部分，基于所述梅尔频率倒谱系数进行特征提取从而得到所述时域特征以及所述频域特征，

所述时域特征包括波形因子、脉冲因子、峭度、偏度、裕度因子和峰值，

所述频域特征包括重心频率、均方频率、均方根频率、频率方差和频率标准差。

2.根据权利要求1所述的基于座席语音切分的代表性话术片段抽取装置，其特征在于：

其中，所述启发式算法为模拟退火算法，

所述话术片段获取部通过模拟退火算法为每个所述话术标签筛选最优代表性子集，所述最优代表性子集的优化目标为：

式中，T为所有所述话术标签下所有所述语音片段的个数，m为每类所述话术标签下需要抽取的话术片段的个数，cos<.>为余弦相似度，r_i为第i个由所述时域特征以及所述频域特征表征的所述语音片段，r_j为第j个由所述时域特征以及所述频域特征表征的所述语音片段。

3.一种基于座席语音切分的代表性话术片段抽取方法，用于从座席语音中抽取最具有代表性的语音片段作为话术片段，其特征在于，包括如下步骤：

座席语音获取步骤，获取待处理的多个座席语音；

话术标签预测步骤，基于预设的话术预测模型依次对每个所述座席语音所对应的话术等级进行预测并输出该座席语音所对应的表示所述话术等级的话术标签以及该座席语音的置信度；

语音样本分类步骤，根据所述话术标签将所述座席语音进行分类，并针对每个所述话术标签相应地获取所述置信度最高的前n个座席语音作为代表性样本，进一步形成多个分别与各个所述话术标签相对应的代表性样本集；

语音特征提取步骤，依次提取每个所述代表性样本的MFCC特征；

切割点获取步骤，基于所述MFCC特征以及预设的切割点获取方法获取每个所述代表性样本的切割点；

其中，所述切割点获取方法为：

模型0:x1...xN～N(μ,Σ)；

模型1:x1...xi～N(μ1,Σ1)；xi+1...xN～N(μ2,Σ2)，

其次，所述模型0与所述模型1对应的对数最大似然比R(i)为：

R(i)＝Nln|Σ|-N1ln|Σ1|-N2ln|Σ2|

然后，所述特征点xi的BIC分数BIC(i)为：

BIC(i)＝R(i)-λP

式中，λ为惩罚系数，P为：

P＝1/2(d+1/2d(d+1))lnN

式中，d为所述特征点xi的维数；

最后，寻找所述切割点的目标为：

i(切割)＝argmaxBIC(i)

语音片段切割步骤，根据所述切割点对每个所述代表性样本进行切割形成相对应的语音片段；

片段特征提取步骤，基于所述代表性样本的所述MFCC特征对相应的所述语音片段提取时域特征和频域特征；

话术片段获取步骤，基于各个所述语音片段的所述时域特征与所述频域特征并采用启发式算法构建对应各个话术等级的最优代表性子集，并将该最优代表性子集中语音片段作为所述话术片段；

其中，所述话术预测模型包括：

输入模块，用于输入所述座席语音；

其中，所述预定数量个基分类器通过如下步骤构建得到：

步骤S1，获取用于进行训练的训练语音；

所述多视图提取模块具有：

其中，所述文本处理提取单元包括：

文本转换部分，用于将所述语音数据转换为文本信息；

其中，所述语音处理提取单元包括：