CN110517667A - 一种语音处理方法、装置、电子设备和存储介质 - Google Patents

一种语音处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN110517667A
CN110517667A CN201910829426.0A CN201910829426A CN110517667A CN 110517667 A CN110517667 A CN 110517667A CN 201910829426 A CN201910829426 A CN 201910829426A CN 110517667 A CN110517667 A CN 110517667A
Authority
CN
China
Prior art keywords
sound bite
sound
voice
classification
bite
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910829426.0A
Other languages
English (en)
Inventor
聂镭
沙露露
聂颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Original Assignee
Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd filed Critical Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority to CN201910829426.0A priority Critical patent/CN110517667A/zh
Publication of CN110517667A publication Critical patent/CN110517667A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Abstract

本发明公开了语音处理方法,通过本发明,通过端点检测对语音中非语音部分进行切除,获得若干第一语音片段;对所述若干第一语音片段进行贝叶斯信息准则BIC检测,获得说话人转变点;将所述说话人转变点作为分割点,对所述若干语音片段进行分割,获得若干第二语音片段;提取所述第二语音信号片段的语音特征形成特征向量,根据所述特征向量对所述第二语音片段进行分类;根据预设的关键词,对所述第二语音片段的类别进行校正,因此,可以改善现有的说话人分割聚类算法对于复杂业务场景的电话语音录音,算法处理效果不理想的问题,提高了对语音的说话人准确快速识别的效果。

Description

一种语音处理方法、装置、电子设备和存储介质
技术领域
本发明涉及语音处理技术领域,特别是一种语音处理方法、装置、电子设备和存储介质。
背景技术
为提升服务质量和业绩,银行、保险、电信等行业的呼叫中心或者客服中心会对坐席或者客户经理的客服工作、营销工作等业务场景的对话语音录音进行质量检索,以检索坐席或者客户经理的讲话内容和方式是否符合单位规定和要求。当前比较热门的语音质检方法是基于人工智能技术的语音质检系统,其先将语音转换为文本,然后利用预设的关键词等搜索条件,让计算机对这些文本分析评测。
在上述基于人工智能技术的语音质检系统中,通常在将语音转换为文本前,需要将不同说话人对应的语音加以区分,即确定“何人在何时说话”,以便后续进行处理分析。确定“何人在何时说话”需要用到说话人分割聚类的技术,首先把连续的语音流分割成单一说话人的语音片段,然后对相同说话人的语音片段进行聚类,附上相对区别性的标记。
上述业务场景的电话语音录音,由于其是单通道音频,单通道音频一般只包含一个麦克风,只存在一路,没有方位信息,这很大程度上限制了算法的识别能力,另外,其它多种因素也会限制算法性能,例如通话质量不高,电销人员说话语速过快,电话语音质量受传输信道以及通话质量的影响等。现有的说话人分割聚类算法,在一般干净音频上效果较好,准确率较高,但是对于上述复杂业务场景的电话语音录音,算法处理效果不理想。
发明内容
本发明实施例提出了一种语音处理方法、装置、电子设备和存储介质,以至少改善现有的说话人分割聚类算法对于复杂业务场景的电话语音录音,算法处理效果不理想的问题。
根据本发明的一个实施例,提供了一种语音处理方法,包括:
S1,通过端点检测对语音中非语音部分进行切除,获得若干第一语音片段;
S2,对所述若干第一语音片段进行贝叶斯信息准则BIC检测,获得说话人转变点;
S3,将所述说话人转变点作为分割点,对所述若干语音片段进行分割,获得若干第二语音片段;
S4,提取所述第二语音信号片段的语音特征形成特征向量,根据所述特征向量对所述第二语音片段进行分类;
S5,根据预设的关键词,对所述第二语音片段的类别进行校正,其中,所述关键词是根据话术脚本的内容提取得到。
进一步地,步骤S4提取所述第二语音信号片段的语音特征形成特征向量,根据所述特征向量对所述第二语音片段进行分类包括:
S41,分别提取所述第二语音片段的平均能量、过零率和语音片段时长;
S42,将所述平均能量、所述过零率和所述语音片段时长共同组成所述第二语音片段的特征向量;
S43,根据所述特征向量,采用k-means二分类对所述第二语音片段进行分类。
可选地,在步骤S4对所述第二语音片段进行分类之后,还包括:
S4-1判断相邻的所述第二语音片段的类别是否相同,若相同,则将两段相邻的所述第二语音片段进行合并,得到第三语音片段;
此时,所述步骤S5为:
S5’根据预设的关键词,对所述第三语音片段的类别进行校正,其中,所述关键词是根据话术脚本的内容提取得到。
可选地,所述方法还包括:
S6,对所述第二语音片段进行性别识别,获得各个所述第二语音片段的性别识别结果;
S7,当所述性别识别结果符合预设条件时,将性别信息作为所述第二语音片段的语音特征之一,与所述平均能量、所述过零率和所述说话时长共同组成所述第二语音片段的特征向量。
进一步地,所述性别识别方法为根据基频来对性别进行识别。
根据本发明的又一个实施例,还提供了一种语音处理装置,包括:
非语音处理模块,用于通过端点检测对语音中非语音部分进行切除,获得若干第一语音片段;
检测模块,用于对所述若干第一语音片段进行贝叶斯信息准则BIC检测,获得说话人转变点;
分割模块,用于将所述说话人转变点作为分割点,对所述若干语音片段进行分割,获得若干第二语音片段;
分类模块,用于提取所述第二语音信号片段的语音特征形成特征向量,根据所述特征向量对所述第二语音片段进行分类;
校正模块,根据预设的关键词,对所述第二语音片段的类别进行校正,其中,所述关键词是根据话术脚本的内容提取得到。
进一步地,所述分类模块包括:
特征提取单元,用于分别提取所述第二语音片段的平均能量、过零率和语音片段时长;
特征向量生成单元,将所述平均能量、所述过零率和所述语音片段时长共同组成所述第二语音片段的特征向量;
分类单元,根据所述特征向量,采用k-means二分类对所述第二语音片段进行分类。
可选地,所述装置还包括:
判断单元,判断相邻的所述第二语音片段的类别是否相同,若相同,则将两段相邻的所述第二语音片段进行合并,得到第三语音片段;此时,所述校正模块用于根据预设的关键词,对所述第三语音片段的类别进行校正,其中,所述关键词是根据话术脚本的内容提取得到。
根据本发明的又一个实施例,还提供了一种电子设备,包括存储器和处理器,其中,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项中所述的方法。
根据本发明的又一个实施例,还提供了一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述上述任一项中所述的方法。
通过本发明,通过端点检测对语音中非语音部分进行切除,获得若干第一语音片段;对所述若干第一语音片段进行贝叶斯信息准则BIC检测,获得说话人转变点;将所述说话人转变点作为分割点,对所述若干语音片段进行分割,获得若干第二语音片段;提取所述第二语音信号片段的语音特征形成特征向量,根据所述特征向量对所述第二语音片段进行分类;根据预设的关键词,对所述第二语音片段的类别进行校正,因此,可以改善现有的说话人分割聚类算法对于复杂业务场景的电话语音录音,算法处理效果不理想的问题,提高了对语音的说话人准确快速识别的效果。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点更为清楚,在附图中:
图1是本发明一个实施例的语音处理方法的终端的硬件结构框图;
图2是本发明一个实施例提供的一种语音处理方法的流程图;
图3是本发明一个实施例提供的语音处理方法的效果示意图;
图4是本发明一个实施例提供的语音处理方法的效果示意图;
图5是本发明一个实施例提供的语音处理方法的一个实例对比图;
图6是本发明一个实施例提供的语音处理方法的一个实例对比图;
图7是本发明一个实施例提供的语音处理方法的一个实例对比图;
图8是本发明一个实施例提供的语音处理方法的一个实例对比图;
图9是本发明一个实施例提供的语音处理方法的流程图;
图10是本发明一个实施例提供的语音处理方法的效果示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下方对本发明的细节描述中,详尽描述了一些特定的细节部分,为了避免混淆本发明的实质,公知的方法、过程、流程、元件并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书的“包括”、“包含”等类似词语应当解释为包含的含义而还是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明中的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种语音的处理方法的终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的语音的处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
图2是本发明实施例提供的一种语音处理方法的流程图。如图2所示,本实施例中提供的一种语音处理方法,包括以下步骤:
S1,通过端点检测对语音中非语音部分进行切除,获得若干第一语音片段;
S2,对所述若干第一语音片段进行贝叶斯信息准则BIC检测,获得说话人转变点;
S3,将所述说话人转变点作为分割点,对所述若干语音片段进行分割,获得若干第二语音片段;
S4,提取所述第二语音信号片段的语音特征形成特征向量,根据所述特征向量对所述第二语音片段进行分类;
S5,根据预设的关键词,对所述第二语音片段的类别进行校正,其中,所述关键词是根据话术脚本的内容提取得到。
本发明通过端点检测对语音中非语音部分进行切除,获得若干第一语音片段;对所述若干第一语音片段进行贝叶斯信息准则BIC检测,获得说话人转变点;将所述说话人转变点作为分割点,对所述若干语音片段进行分割,获得若干第二语音片段;提取所述第二语音信号片段的语音特征形成特征向量,根据所述特征向量对所述第二语音片段进行分类;根据预设的关键词,对所述第二语音片段的类别进行校正。可见,由于先对语音先进行端点检测,对其中的非语音部分进行了切除,将原来的长语音变成了许多的语音片段,再通过贝叶斯信息准则BIC对语音片段进行检测,获得说话人转变点并进行分割,然后对语音片段进行分类,并通过预设的关键词,对所述第二语音片段的类别进行校正,由此改善了现有的说话人分割聚类算法对于复杂业务场景的电话语音录音,算法处理效果不理想的问题。
下面将结合具体的实施方式对各个步骤进行详细的说明。
S1,通过端点检测对语音中非语音部分进行切除,获得若干第一语音片段;
一般情况下,交谈过程中,随着说话人的转变,谈话中会存在停顿(语音段中的非语音部分)。端点检测算法仅能将语音中的非语音部分识别出来,并能够根据停顿的位置将语音进行切割。由此,可以初步将部分的说话人转变点进行粗分割,同时将原来的长语音切割成许多的语音片段。
S2,对所述若干第一语音片段进行贝叶斯信息准则BIC检测,获得说话人转变点;
在步骤S1中进行端点检测之后切成各段语音片段中,在同一小段的音频会存在包含两个说话人的情况。因而需要采用BIC检测算法进行检测,通过设置阈值,若一段内计算出的最大BIC值超过阈值,则记为说话人转变点,否则不进行处理。
本实施例中BIC检测算法采用的特征是12维的MFCC(MelFrenquencyCepstrumCoefficeent)特征,采用BIC准则对一段语音进行检测,原理是在每一个分析窗内,用两个不断变化的数据窗来计算每一帧的BIC值,最大的BIC值即为潜在的说话人转变点,如BIC的差值大于等于零时,则该转变点为真正的说话人转变点,否则就增加分析窗的长度。具体步骤如下:
(1)初始化检测窗[a,b]:a=1;b=2;也即初始检测窗仅包含两个样本点a,b;
(2)在检测窗[a,b]内进行BIC检测并判断是否存在转变点;
(3)若不存在转变点,则b=b+1,也即检测窗窗长增加1;反之,假设t为检测到的转变点,则a=t+1;b=a+1;
(4)判断整个音频是否检测结束,若没有结束,跳转到(2)。
S3,将所述说话人转变点作为分割点,对所述若干语音片段进行分割,获得若干第二语音片段;
经过步骤S1~S3的处理,可以将语音片段按说话人转换点进行分割成更加细的语音片段,即将步骤S1中经过端点检测后进行切除得到的语音片段,按BIC准则进一步完成说话人转换点的识别和检测,得到分割更加准确的不同说话人的语音片段。图3是本发明实施例提供的语音处理方法步骤S1和步骤S2的效果示意图。如图3所示,经过步骤S1的端点检测处理,将语音中的非语音部分识别并进行切割,将原来的长语音切割成许多的语音片段;经过步骤S2和S3的BIC检测处理得到进一步细分割的语音片段。由于在步骤S1中已将语音切割成了语音片段,因此,当在分析窗内没有发现说话人转变点则增加分析窗的长度时,其最多将分析窗增加至语音片段本身的长度,而语音片段是经过步骤S1的端点检测处理而切分后的小片段,因此其语音长度是较短的,因而相对于传统的未经过端点检测处理而直接进行BIC检测处理的方法,本发明的方法的计算效率不会明显地下降,提高了效率。现有的基于BIC的分割算法,算法原理是在每一个分析窗内,用两个不断变化的分析窗来计算每一帧的BIC值,最大的BIC值即为潜在的说话人分割点,如BIC的差值大于等于零时,则该分割点为真正的说话人分割点,否则就增加分析窗的长度。若在分析窗内没有发现说话人分割点则增加分析窗的长度,直到找到说话人分割点为止。当分析窗的长度增加时,计算效率会明显下降造成计算资源的浪费。
S4,提取所述第二语音信号片段的语音特征形成特征向量,根据所述特征向量对所述第二语音片段进行分类;
在本发明的一些实施例中,所述步骤S4具体包括:
S41,分别提取所述第二语音片段的平均能量、过零率和语音片段时长;
S42,将所述平均能量、所述过零率和所述语音片段时长共同组成所述第二语音片段的特征向量;
S43,根据所述特征向量,采用k-means二分类对所述第二语音片段进行分类。
在本发明实施中,可以提取第二语音片段的语音特征,并由语音特征组成特征向量,根据该特征向量,采用k-means二分类对所述第二语音片段进行分类。具体而言,在本发明实施例中,分别提取所述第二语音片段的平均能量、过零率和说话时长,并将所述平均能量、所述过零率和所述说话时长共同组成所述第二语音片段的特征向量。特别地,传统的聚类方法中,一般采用MFCC特征作为聚类的特征。针对电销电话场景,本发明提出了采用平均能量、过零率和说话时长作为综合特征向量进行聚类,例如平均能量值为a1,过零率为a2,说话时长a3,则综合特征向量X= [a1,a2,a3]。在本发明中的场景下,因为说话人个数是固定的,只包含坐席和客户,因而,在本发明实施中,采用kmeans二分类的方法进行聚类,其分类效果要比现有技术中采用GMM模型进行分类的效果更加理想。如下表1中的实验数据所示,基于真实电销音频的实验验证,采用MFCC系数进行分类时,准确率只能维持在50%-60%,当采用综合特征向量X进行分类时,准确率可达到70%-75%。如图4所示,在一段时长为10s的两人(A和B)在对话语音中,对话的过程为:[A:0-3s;B:3-5s;A:5-9s;B:9-10s]。经过步骤S1-S3处理,其中步骤S2采用MFCC系数进行处理将音频分割为[0-1s,1-2s,2-2.5s,2.5-4s,4s-6s 6-6,5s,6.5-8s,8-9s,9-10s]。然后,通过在S4中分别采用MFCC系数和综合特征向量进行聚类,其结果为:采用MFCC系数进行聚类的结果为:【[A: 2-2.5s,6-6.5s,6.5-8s,8-9s]; B:[0-1s,1-2s,2.5-4s,4s-6s,9-10s]】;采用综合特征向量进行聚类的结果为:【[A:0-1s,1-2s, 2-2.5s,6-6,5s, 6.5-8s,8-9s]; B:[2.5-4s,4s-6s,9-10s]】。对比结果说明,在分割和聚类阶段采用不同的算法,能够对聚类的效果进行提升。
音频 MFCC准确率 综合特征准确率
1.wav 55% 68%
2.wav 45% 72%
3.wav 52% 70%
4.wav 50% 76%
5.wav 58% 73%
6.wav 51% 69%
7.wav 48% 74%
8.wav 47% 75%
9.wav 50% 70%
10.wav 52% 71%
表1.实验数据准确率对比
S5,根据预设的关键词,对所述第二语音片段的类别进行校正,其中,所述关键词是根据话术脚本的内容提取得到。
从上述表1中可以看出,即使对特征向量进行改进,准确率只能提高到70%-75%,在电销场景下,坐席的话术脚本相对固定,可以针对坐席的话术脚本进行关键词提取,并与语音识别后的文本进行智能匹配,通过匹配结果对分割结果进行二次校正,进而提高说话人转变检测准确率。例如:(1)坐席话术介绍产介时,会向客户介绍一些关于保险的相关信息,例如“保险计划”,预先将“保险计划”作为坐席话术的关键词,进行二次校正后,将包含“保险计划”的文本对应的音频片段标注为“坐席”;(2)坐席话术介绍产介时,会在介绍结束时询问客户是否清楚明白,预先将“您明白吗”作为坐席话术的关键词,进行二次校正后,将包含“您明白吗”的文本对应的音频片段标注为“坐席”;(3)坐席话术为:“是否加入保险”,预先将“加入”作为此话术的关键词,对一次分割的文本进行二次校上下正,即将分割后包含“加入”关键词的文本对应的音频片段标注为“坐席”。图5和图6为本发明实施例的一个实例的对比图,其中,图5中的文本内容是二次校正之前的文本,图6中的文本内容则是经过步骤S5的二次校正之后的文本。从图中可以看出,通过从话术脚本的内容提取预设的关键词,然后根据关键词对所述第二语音片段的类别进行校正,其提高了语音分割的准确率。
此外,语音内容的开始和结束话术尤其固定,一般开始话术为:“喂,您好,请问是XX吗”或者“喂,您好”,结束话术为“再见”。通话前的铃声和挂断后的嘟嘟声处理方式相同,可以针对语音识别后的结果进行匹配,定位到话术文本开始的位置,并将开始位置之前的文本丢弃。图7和图8为本发明实施例语音开始和结束处理效果的一个实例的对比图,处理之前的文本内容如图7所示,处理之后的文本内容如图8所示。
在本发明的一些实施例中,在步骤S4对所述第二语音片段进行分类之后,还包括:
S4-1判断相邻的所述第二语音片段的类别是否相同,若相同,则将两段相邻的所述第二语音片段进行合并,得到第三语音片段;
此时,所述步骤S5为:
S5’根据预设的关键词,对所述第三语音片段的类别进行校正,其中,所述关键词是根据话术脚本的内容提取得到。
经过前述步骤S1~S4的处理后,所获得的语音片段中,可能存在相邻两个小段的语音属于同一个说话人的情况,即出现错误分割的情况。通过判断相邻的所述第二语音片段的类别是否相同,若相同,则将两段相邻的所述第二语音片段进行合并。具体判断方法,可以通过求相邻的语音片段之间的特征向量的距离来进行判断,例如可以求余弦距离等。经过步骤S4-1,可以纠正上述步骤中出现的错误分割的问题,将出现错误分割的相邻的语音片段重新合并成一段的语音。
在本发明的一些实施例中,所述语音处理方法还包括:
S6,对所述第二语音片段进行性别识别,获得各个所述第二语音片段的性别识别结果;
S7,当所述性别识别结果符合预设条件时,将性别信息作为所述第二语音片段的语音特征之一,与所述平均能量、所述过零率和所述说话时长共同组成所述第二语音片段的特征向量。
在针对电销的场景中,在一次的电话录音中,只包含坐席和客户两种角色。当坐席和客户为不同性别时,可以将性别信息作为语音特征之一。经过实验验证,通过在语音特征中增加性别信息,包含其的特征向量用于语音片段的分类效果更加准确,分类错误率低。对每小段语音的性别进行识别,得到所有的语音片段的性别识别结果,然后根据性别计算男女性别比例。根据识别结果的男女比例情况,来决定是否将性别信息作为语音特征之一。在本发明,以男女性别比例是否过于倾斜作为判定依据,即性别对应于音频占全部音频比例低于1/10则为比例过于倾斜。因为当性别识别结果过于倾斜时,可能是由于性别识别算法识别错误,将相同性别的两种角色对应的部分音频识别错误,因此对于过于倾斜的不作处理,即不将性别信息作为语音特征之一。例如,一段音频经过上述步骤被分成30小段音频,若经过性别识别后检测出28段性别为男,2段性别为女,则性别比例过于倾斜。若经过性别识别检测出20段性别为男,10段性别为女,则将性别信息作为所述第二语音片段的语音特征之一,与所述平均能量、所述过零率和所述说话时长共同组成所述第二语音片段的特征向量。
一般情况下,男声的基频分布范围在0-180Hz,女声的基频分布在180-400Hz范围内,因此本文是根据基频来对性别进行识别,具体识别方法为现有技术,在此不再赘述。
如图9所示,首先将前述步骤得到的第二语音片段作为性别识别的输入,判断所有的语音片段的性别识别结果,然后统计出性别比例,并判断识别结果中性别占比是否过于倾斜。若判断性别过于倾斜,则只将平均能量、过零率和说话时长组成第二语音片段的特征向量,然后通过k-means二分类对所述第二语音片段进行分类,并根据分类的结果进行合并处理。若判断性别不存在倾斜的情况,则将性别信息作为所述第二语音片段的语音特征之一,与所述平均能量、所述过零率和所述说话时长共同组成所述第二语音片段的特征向量,然后通过k-means二分类对所述第二语音片段进行分类,并根据分类的结果进行合并处理。通过考虑了性别信息作为k-means二分类的特征向量的特征之一,可以将同时包括两种性别的情况的语音,可以使得分类结果更加准确,以使得更好地语音合并处理,进而确保说话人转换点分割的准确性。
通过本发明实施的语音处理方法,其先通过端点检测将事段的语音进行第一次的初步分割得到语音片段,然后在语音片段的基础上进行BIC处理得到进一步的细分语音片段,接着对细分后的语音片段进行分类,最后根据预设的关键词,对所述第二语音片段的类别进行校正,由此,可以改善现有的说话人分割聚类算法对于复杂业务场景的电话语音录音,算法处理效果不理想的问题。
如图10所示,其为采用本发明实施例中的语音处理方法与现有技术中的方法的效果对比。如图所示,对于一段时长为100s的音频,真实的切割结果为6段,对应时长分别为:0-19s,19-30s,30-38s,38-61s,61-90s,90-100s。采用现有方法进行处理,处理结果为:0-8s,8-26s,26-47s,46-62s,62-75s,75-83s,83-92s,92-100s。使用本文提出的方法进行处理,处理结果为:0-18s,18-31s,31-43s,43-65s,65-89s,89-100s。从图中显而易见地看出,从处理结果来看,采用本发明实施提出的语音处理方法,其说话人转换点检测分割的结果更加接近实际的情况,更加准确。
本发明的实施例还提供了一种语音处理装置,包括:
非语音处理模块,用于通过端点检测对语音中非语音部分进行切除,获得若干第一语音片段;
检测模块,用于对所述若干第一语音片段进行贝叶斯信息准则BIC检测,获得说话人转变点;
分割模块,用于将所述说话人转变点作为分割点,对所述若干语音片段进行分割,获得若干第二语音片段;
分类模块,用于提取所述第二语音信号片段的语音特征形成特征向量,根据所述特征向量对所述第二语音片段进行分类;
校正模块,根据预设的关键词,对所述第二语音片段的类别进行校正,其中,所述关键词是根据话术脚本的内容提取得到。
进一步地,所述分类模块包括:
特征提取单元,用于分别提取所述第二语音片段的平均能量、过零率和语音片段时长;
特征向量生成单元,将所述平均能量、所述过零率和所述语音片段时长共同组成所述第二语音片段的特征向量;
分类单元,根据所述特征向量,采用k-means二分类对所述第二语音片段进行分类。
可选地,所述装置还包括:
判断单元,判断相邻的所述第二语音片段的类别是否相同,若相同,则将两段相邻的所述第二语音片段进行合并,得到第三语音片段;此时,所述校正模块用于根据预设的关键词,对所述第三语音片段的类别进行校正,其中,所述关键词是根据话术脚本的内容提取得到。
可选地,所述装置还包括:
性别识别模块,用于对所述第二语音片段进行性别识别,获得各个所述第二语音片段的性别识别结果;
判断模块,用于当所述性别识别结果符合预设条件时,将性别信息作为所述第二语音片段的语音特征之一,与所述平均能量、所述过零率和所述说话时长共同组成所述第二语音片段的特征向量。
本发明的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,通过端点检测对语音中非语音部分进行切除,获得若干第一语音片段;
S2,对所述若干第一语音片段进行贝叶斯信息准则BIC检测,获得说话人转变点;
S3,将所述说话人转变点作为分割点,对所述若干语音片段进行分割,获得若干第二语音片段;
S4,提取所述第二语音信号片段的语音特征形成特征向量,根据所述特征向量对所述第二语音片段进行分类;
S5,根据预设的关键词,对所述第二语音片段的类别进行校正,其中,所述关键词是根据话术脚本的内容提取得到。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,通过端点检测对语音中非语音部分进行切除,获得若干第一语音片段;
S2,对所述若干第一语音片段进行贝叶斯信息准则BIC检测,获得说话人转变点;
S3,将所述说话人转变点作为分割点,对所述若干语音片段进行分割,获得若干第二语音片段;
S4,提取所述第二语音信号片段的语音特征形成特征向量,根据所述特征向量对所述第二语音片段进行分类;
S5,根据预设的关键词,对所述第二语音片段的类别进行校正,其中,所述关键词是根据话术脚本的内容提取得到。
可选地,存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的程序代码,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音处理方法,其特征在于,所述方法包括:
S1,通过端点检测对语音中非语音部分进行切除,获得若干第一语音片段;
S2,对所述若干第一语音片段进行贝叶斯信息准则BIC检测,获得说话人转变点;
S3,将所述说话人转变点作为分割点,对所述若干语音片段进行分割,获得若干第二语音片段;
S4,提取所述第二语音信号片段的语音特征形成特征向量,根据所述特征向量对所述第二语音片段进行分类;
S5,根据预设的关键词,对所述第二语音片段的类别进行校正,其中,所述关键词是根据话术脚本的内容提取得到。
2.根据权利要求1所述的方法,其特征在于,步骤S4提取所述第二语音信号片段的语音特征形成特征向量,根据所述特征向量对所述第二语音片段进行分类包括:
S41,分别提取所述第二语音片段的平均能量、过零率和语音片段时长;
S42,将所述平均能量、所述过零率和所述语音片段时长共同组成所述第二语音片段的特征向量;
S43,根据所述特征向量,采用k-means二分类对所述第二语音片段进行分类。
3.根据权利要求1或2所述的方法,其特征在于,在步骤S4对所述第二语音片段进行分类之后,还包括:
S4-1判断相邻的所述第二语音片段的类别是否相同,若相同,则将两段相邻的所述第二语音片段进行合并,得到第三语音片段;
此时,所述步骤S5为:
S5’根据预设的关键词,对所述第三语音片段的类别进行校正,其中,所述关键词是根据话术脚本的内容提取得到。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
S6,对所述第二语音片段进行性别识别,获得各个所述第二语音片段的性别识别结果;
S7,当所述性别识别结果符合预设条件时,将性别信息作为所述第二语音片段的语音特征之一,与所述平均能量、所述过零率和所述说话时长共同组成所述第二语音片段的特征向量。
5.根据权利要求1-4任一所述的方法,其特征在于,所述性别识别方法为根据基频来对性别进行识别。
6.一种语音处理装置,其特征在于,包括:
非语音处理模块,用于通过端点检测对语音中非语音部分进行切除,获得若干第一语音片段;
检测模块,用于对所述若干第一语音片段进行贝叶斯信息准则BIC检测,获得说话人转变点;
分割模块,用于将所述说话人转变点作为分割点,对所述若干语音片段进行分割,获得若干第二语音片段;
分类模块,用于提取所述第二语音信号片段的语音特征形成特征向量,根据所述特征向量对所述第二语音片段进行分类;
校正模块,根据预设的关键词,对所述第二语音片段的类别进行校正,其中,所述关键词是根据话术脚本的内容提取得到。
7.如权利要求6所述的装置,其特征在于,所述分类模块包括:
特征提取单元,用于分别提取所述第二语音片段的平均能量、过零率和语音片段时长;
特征向量生成单元,将所述平均能量、所述过零率和所述语音片段时长共同组成所述第二语音片段的特征向量;
分类单元,根据所述特征向量,采用k-means二分类对所述第二语音片段进行分类。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
判断单元,判断相邻的所述第二语音片段的类别是否相同,若相同,则将两段相邻的所述第二语音片段进行合并,得到第三语音片段;此时,所述校正模块用于根据预设的关键词,对所述第三语音片段的类别进行校正,其中,所述关键词是根据话术脚本的内容提取得到。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。
CN201910829426.0A 2019-09-03 2019-09-03 一种语音处理方法、装置、电子设备和存储介质 Pending CN110517667A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910829426.0A CN110517667A (zh) 2019-09-03 2019-09-03 一种语音处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910829426.0A CN110517667A (zh) 2019-09-03 2019-09-03 一种语音处理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN110517667A true CN110517667A (zh) 2019-11-29

Family

ID=68630601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910829426.0A Pending CN110517667A (zh) 2019-09-03 2019-09-03 一种语音处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN110517667A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930984A (zh) * 2019-12-04 2020-03-27 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN111091849A (zh) * 2020-03-03 2020-05-01 龙马智芯(珠海横琴)科技有限公司 鼾声识别的方法及装置、存储介质止鼾设备和处理器
CN111128223A (zh) * 2019-12-30 2020-05-08 科大讯飞股份有限公司 一种基于文本信息的辅助说话人分离方法及相关装置
CN111145782A (zh) * 2019-12-20 2020-05-12 深圳追一科技有限公司 重叠语音识别方法、装置、计算机设备和存储介质
CN111475634A (zh) * 2020-04-10 2020-07-31 复旦大学 基于座席语音切分的代表性话术片段抽取装置及方法
CN111477251A (zh) * 2020-05-21 2020-07-31 北京百度网讯科技有限公司 模型评测方法、装置及电子设备
CN111613249A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 一种语音分析方法和设备
CN111933153A (zh) * 2020-07-07 2020-11-13 北京捷通华声科技股份有限公司 一种语音分割点的确定方法和装置
CN112669855A (zh) * 2020-12-17 2021-04-16 北京沃东天骏信息技术有限公司 语音处理方法和装置
CN112951275A (zh) * 2021-02-26 2021-06-11 北京百度网讯科技有限公司 语音质检方法、装置、电子设备及介质
CN113051426A (zh) * 2021-03-18 2021-06-29 深圳市声扬科技有限公司 音频信息分类方法、装置、电子设备及存储介质
CN113470698A (zh) * 2021-06-30 2021-10-01 北京有竹居网络技术有限公司 一种说话人转换点检测方法、装置、设备及存储介质
CN113707130A (zh) * 2021-08-16 2021-11-26 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
CN113808612A (zh) * 2021-11-18 2021-12-17 阿里巴巴达摩院(杭州)科技有限公司 语音处理方法、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN103871424A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于贝叶斯信息准则的线上说话人聚类分析方法
CN106504773A (zh) * 2016-11-08 2017-03-15 上海贝生医疗设备有限公司 一种可穿戴装置及语音与活动监测系统
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法
CN107358947A (zh) * 2017-06-23 2017-11-17 武汉大学 说话人重识别方法及系统
CN108074576A (zh) * 2017-12-14 2018-05-25 讯飞智元信息科技有限公司 审讯场景下的说话人角色分离方法及系统
CN108735200A (zh) * 2018-06-27 2018-11-02 北京灵伴即时智能科技有限公司 一种说话人自动标注方法
CN109036454A (zh) * 2018-06-06 2018-12-18 安徽继远软件有限公司 基于dnn的说话人无关单通道录音分离的方法和系统
CN109360572A (zh) * 2018-11-13 2019-02-19 平安科技(深圳)有限公司 通话分离方法、装置、计算机设备及存储介质
CN109388701A (zh) * 2018-08-17 2019-02-26 深圳壹账通智能科技有限公司 会议记录生成方法、装置、设备和计算机存储介质
CN110136727A (zh) * 2019-04-16 2019-08-16 平安科技(深圳)有限公司 基于说话内容的说话者身份识别方法、装置及存储介质
CN110390946A (zh) * 2019-07-26 2019-10-29 龙马智芯(珠海横琴)科技有限公司 一种语音信号处理方法、装置、电子设备和存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
CN103871424A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于贝叶斯信息准则的线上说话人聚类分析方法
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN106504773A (zh) * 2016-11-08 2017-03-15 上海贝生医疗设备有限公司 一种可穿戴装置及语音与活动监测系统
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法
CN107358947A (zh) * 2017-06-23 2017-11-17 武汉大学 说话人重识别方法及系统
CN108074576A (zh) * 2017-12-14 2018-05-25 讯飞智元信息科技有限公司 审讯场景下的说话人角色分离方法及系统
CN109036454A (zh) * 2018-06-06 2018-12-18 安徽继远软件有限公司 基于dnn的说话人无关单通道录音分离的方法和系统
CN108735200A (zh) * 2018-06-27 2018-11-02 北京灵伴即时智能科技有限公司 一种说话人自动标注方法
CN109388701A (zh) * 2018-08-17 2019-02-26 深圳壹账通智能科技有限公司 会议记录生成方法、装置、设备和计算机存储介质
CN109360572A (zh) * 2018-11-13 2019-02-19 平安科技(深圳)有限公司 通话分离方法、装置、计算机设备及存储介质
CN110136727A (zh) * 2019-04-16 2019-08-16 平安科技(深圳)有限公司 基于说话内容的说话者身份识别方法、装置及存储介质
CN110390946A (zh) * 2019-07-26 2019-10-29 龙马智芯(珠海横琴)科技有限公司 一种语音信号处理方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾祺: "文本无关的多说话人确认研究", 《中国优秀硕士学位论文全文数据库信息技术辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930984A (zh) * 2019-12-04 2020-03-27 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN111145782B (zh) * 2019-12-20 2021-07-13 深圳追一科技有限公司 重叠语音识别方法、装置、计算机设备和存储介质
CN111145782A (zh) * 2019-12-20 2020-05-12 深圳追一科技有限公司 重叠语音识别方法、装置、计算机设备和存储介质
CN111128223A (zh) * 2019-12-30 2020-05-08 科大讯飞股份有限公司 一种基于文本信息的辅助说话人分离方法及相关装置
CN111128223B (zh) * 2019-12-30 2022-08-05 科大讯飞股份有限公司 一种基于文本信息的辅助说话人分离方法及相关装置
CN111091849A (zh) * 2020-03-03 2020-05-01 龙马智芯(珠海横琴)科技有限公司 鼾声识别的方法及装置、存储介质止鼾设备和处理器
CN111475634A (zh) * 2020-04-10 2020-07-31 复旦大学 基于座席语音切分的代表性话术片段抽取装置及方法
CN111475634B (zh) * 2020-04-10 2023-04-28 复旦大学 基于座席语音切分的代表性话术片段抽取装置及方法
CN111477251A (zh) * 2020-05-21 2020-07-31 北京百度网讯科技有限公司 模型评测方法、装置及电子设备
CN111477251B (zh) * 2020-05-21 2023-09-05 北京百度网讯科技有限公司 模型评测方法、装置及电子设备
CN111613249A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 一种语音分析方法和设备
CN111933153B (zh) * 2020-07-07 2024-03-08 北京捷通华声科技股份有限公司 一种语音分割点的确定方法和装置
CN111933153A (zh) * 2020-07-07 2020-11-13 北京捷通华声科技股份有限公司 一种语音分割点的确定方法和装置
CN112669855A (zh) * 2020-12-17 2021-04-16 北京沃东天骏信息技术有限公司 语音处理方法和装置
CN112951275A (zh) * 2021-02-26 2021-06-11 北京百度网讯科技有限公司 语音质检方法、装置、电子设备及介质
CN112951275B (zh) * 2021-02-26 2022-12-23 北京百度网讯科技有限公司 语音质检方法、装置、电子设备及介质
CN113051426A (zh) * 2021-03-18 2021-06-29 深圳市声扬科技有限公司 音频信息分类方法、装置、电子设备及存储介质
CN113470698A (zh) * 2021-06-30 2021-10-01 北京有竹居网络技术有限公司 一种说话人转换点检测方法、装置、设备及存储介质
CN113470698B (zh) * 2021-06-30 2023-08-08 北京有竹居网络技术有限公司 一种说话人转换点检测方法、装置、设备及存储介质
CN113707130A (zh) * 2021-08-16 2021-11-26 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
WO2023088448A1 (zh) * 2021-11-18 2023-05-25 阿里巴巴达摩院(杭州)科技有限公司 语音处理方法、设备及存储介质
CN113808612A (zh) * 2021-11-18 2021-12-17 阿里巴巴达摩院(杭州)科技有限公司 语音处理方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110517667A (zh) 一种语音处理方法、装置、电子设备和存储介质
US10593332B2 (en) Diarization using textual and audio speaker labeling
US11636860B2 (en) Word-level blind diarization of recorded calls with arbitrary number of speakers
US9881617B2 (en) Blind diarization of recorded calls with arbitrary number of speakers
CN110390946A (zh) 一种语音信号处理方法、装置、电子设备和存储介质
CN111524527B (zh) 话者分离方法、装置、电子设备和存储介质
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
US8543402B1 (en) Speaker segmentation in noisy conversational speech
CN112289323B (zh) 语音数据处理方法、装置、计算机设备和存储介质
CN111199741A (zh) 声纹识别方法、声纹验证方法、装置、计算设备及介质
CN110299150A (zh) 一种实时语音说话人分离方法及系统
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
Martínez-González et al. Spatial features selection for unsupervised speaker segmentation and clustering
CN113744742B (zh) 对话场景下的角色识别方法、装置和系统
US11398239B1 (en) ASR-enhanced speech compression
EP1256934B1 (en) Method for adapting speaker-identification data using application speech
CN114038487A (zh) 一种音频提取方法、装置、设备和可读存储介质
Parada et al. Robust statistical processing of TDOA estimates for distant speaker diarization
Castan et al. Segmentation-by-classification system based on factor analysis
CN111933153B (zh) 一种语音分割点的确定方法和装置
US20230215439A1 (en) Training and using a transcript generation model on a multi-speaker audio stream
Bacchiani Using maximum likelihood linear regression for segment clustering and speaker identification
Górriz et al. New Advances in Voice Activity Detection using HOS and Optimization Strategies
EP4211681A1 (en) Asr-enhanced speech compression
Naresh et al. Unsupervised Speaker Segmentation and Clustering Using TESBCC and Pitch Based Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191129