CN117174111B - 重叠语音检测方法、装置、电子设备及存储介质 - Google Patents
重叠语音检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117174111B CN117174111B CN202311445131.6A CN202311445131A CN117174111B CN 117174111 B CN117174111 B CN 117174111B CN 202311445131 A CN202311445131 A CN 202311445131A CN 117174111 B CN117174111 B CN 117174111B
- Authority
- CN
- China
- Prior art keywords
- network
- voice
- model
- layers
- network layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 124
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000013526 transfer learning Methods 0.000 claims abstract description 12
- 238000003062 neural network model Methods 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000010257 thawing Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 2
- 238000007710 freezing Methods 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 claims 1
- 230000007787 long-term memory Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本公开提供了一种重叠语音检测方法、装置、电子设备及存储介质,应用于人工智能技术领域,方法包括:获取重叠语音检测模型;运用重叠语音检测模型检测待识别语音,确定检测结果;检测结果包括待识别语音中的至少一帧语音的分类结果;重叠语音检测模型包括:多个第一网络层和第一输出层;多个第一网络层依次串联后与第一输出层串联;多个第一网络层中的至少一个第一网络层通过迁移学习训练后的语音识别模型中的至少一个第二网络层得到;语音识别模型包括:多个第二网络层和第二输出层;多个第二网络层依次串联后与第二输出层串联。如此实现将语音识别模型学习到的语音内容信息提取能力迁移到重叠语音检测模型,提高重叠语音检测模型的检测性能。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及一种重叠语音检测方法、装置、电子设备及存储介质。
背景技术
重叠语音是指在同一时间存在两个或以上说话人同时发声,广泛存在于多人对话场景中,比如电话交谈、会议、辩论和广播新闻。主流的语音识别、说话人识别和说话人日志等技术假设同一时间只有一个说话人讲话,重叠语音段的存在会使得这些语音处理系统的效果出现下降。相关研究表明,对重叠语音片段进行单独处理有潜力解决该问题,例如先对重叠语音片段进行语音分离,然后对分离后语音分别进行转写,可以提高语音识别系统性能。因此,精确地检测重叠语音至关重要。
发明内容
本公开提供了一种重叠语音检测方法、装置、电子设备及计算机可读存储介质,以至少解决现有技术中存在的以上技术问题。
第一方面,本公开实施例提供了一种重叠语音检测方法,所述方法包括:
获取重叠语音检测模型;
运用所述重叠语音检测模型检测待识别语音,确定检测结果;所述检测结果包括所述待识别语音中的至少一帧语音的分类结果,所述分类结果包括重叠音、静音和单个说话人语音;
其中,所述重叠语音检测模型包括:多个第一网络层和第一输出层;所述多个第一网络层依次串联后与所述第一输出层串联;
所述多个第一网络层中的至少一个第一网络层通过迁移学习训练后的语音识别模型中的至少一个第二网络层得到;所述语音识别模型包括:多个第二网络层和第二输出层;所述多个第二网络层依次串联后与所述第二输出层串联。
第二方面,本公开实施例提供了一种重叠语音检测装置,所述装置包括:
获取模块,用于获取重叠语音检测模型;
处理模块,用于运用所述重叠语音检测模型检测待识别语音,确定检测结果;所述检测结果包括所述待识别语音中的至少一帧语音的分类结果,所述分类结果包括重叠音、静音和单个说话人语音;
其中,所述重叠语音检测模型包括:多个第一网络层和第一输出层;所述多个第一网络层依次串联后与所述第一输出层串联;
所述多个第一网络层中的至少一个第一网络层通过迁移学习训练后的语音识别模型中的至少一个第二网络层得到;所述语音识别模型包括:多个第二网络层和第二输出层;所述多个第二网络层依次串联后与所述第二输出层串联。
第三方面,本公开实施例提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以上任一项所述的重叠语音检测方法。
第四方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行根据以上任一项所述的重叠语音检测方法。
本公开实施例提供的重叠语音检测方法、装置、电子设备及存储介质,所述方法包括:获取重叠语音检测模型;运用所述重叠语音检测模型检测待识别语音,确定检测结果;所述检测结果包括所述待识别语音中的至少一帧语音的分类结果,所述分类结果包括重叠音、静音和单个说话人语音;其中,所述重叠语音检测模型包括:多个第一网络层和第一输出层;所述多个第一网络层依次串联后与所述第一输出层串联;所述多个第一网络层中的至少一个第一网络层通过迁移学习训练后的语音识别模型中的至少一个第二网络层得到;所述语音识别模型包括:多个第二网络层和第二输出层;所述多个第二网络层依次串联后与所述第二输出层串联。如此,重叠语音检测模型迁移学习语音识别模型的网络层,即采用训练后的语音识别声学模型的浅层网络参数初始化重叠语音检测模型的浅层网络(即所述至少一个第一网络层),将语音识别模型学习到的语音内容信息提取能力迁移到重叠语音检测模型,实现对重叠语音中语言现象检测和识别,既提高了重叠语音检测模型对说话人、背景噪音和信道等干扰的鲁棒性,又提高了重叠语音检测模型的检测性能。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
图1示出了本公开实施例提供的重叠语音检测方法的流程示意图;
图2示出了本公开实施例提供的模型间迁移学习的示意图;
图3示出了本公开实施例提供的基于迁移学习的重叠语音检测模型训练方法的流程示意图;
图4示出了本公开实施例提供的重叠语音检测装置的结构示意图;
图5示出了本公开实施例提供的电子设备的结构示意图。
具体实施方式
为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本公开所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本公开中所使用的术语只是为了描述本公开实施例的目的,不是旨在限制本公开。
应理解,在本公开的各种实施例中,各实施过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
对本公开实施例进行进一步详细说明之前,对本公开实施例中涉及的名词和术语进行说明,本公开实施例中涉及的名词和术语适用于如下的解释。
重叠语音检测,可以看作是一个序列标注任务,输入特征向量序列,输出对应的标签序列。输入特征一般为各种时频谱特征、空间谱特征、韵律特征、语言特征或者原始语音采样点。一些深度表征对重叠语音检测也非常有效,例如x-vector和WavLM。输出标签根据任务的不同主要有二分类或者三分类标签。
例如,将重叠语音检测作为一个二分类任务,输出标签可以为重叠音和非重叠音。语音活动检测是重叠语音检测相关联的一个任务,有时候会把两个任务合并为一个任务联合建模,输出标签可以为重叠音、静音和单个说话人语音。
重叠语音检测本质上是一个分类问题,现在常用的方法有混合高斯模型(GMM,Gaussian Mixture Model)-隐马尔可夫模型(HMM,Hidden Markov Model)和深度学习等建模算法。GMM-HMM分别对重叠音、静音和单个说话人语音建立三状态HMM,每个状态再用GMM建模。解码时使用维特比算法,静音和重叠音之间的状态转移和各个状态自转移被禁止。随着深度学习技术的快速发展,长短时记忆网络(LSTM,Long Short-Term Memory)、卷积神经网络(CNN,ConvNet)、前馈神经网络(FNN,Feedforward Neural Network)或者它们的组合和变体被应用到该任务,并展现出比GMM-HMM更优的性能。基于深度学习的方法包含训练和推理两个阶段。
训练阶段,预先选定一种主干网络,对语音提取声学特征(如,Fbank(FilterBank))或者Mel频率倒谱系数(MFCC,Mel Frequency Cepstrum Coefficient)特征,随机截取一段连续的特征序列送入神经网络,输出帧级别后验概率,然后计算二分类或者三分类交叉熵损失,最后梯度下降法更新网络参数直至收敛。
推理阶段,采用与训练阶段相同的方式提取特征,输入训练得到的神经网络模型,输出分类层对应重叠语音节点的后验概率,划定阈值,得到检测结果。
语音内容信息是语音信号的一个重要组成成分,对于说话人、信道和背景噪音的变化具有一定鲁棒性。相关技术中指出,语音内容信息与重叠语音有很强的相关性,比如“短回复”导致的重叠语音,出现某些特定的词汇有更高的概率发生语音重叠。以这些词汇作为跟踪的线索,可以有效的帮助对语音重叠的检测。但是,现有的重叠语音检测技术建模时往往忽略了语音内容信息,且对说话人、信道和背景噪音的干扰敏感,导致有些场景下检测性能不够理想。
基于此,本公开实施例提供了一种重叠语音检测方法。图1示出了本公开实施例提供的重叠语音检测方法的流程示意图;如图1所示,所述重叠语音检测方法包括:
步骤101、获取重叠语音检测模型;
步骤102、运用所述重叠语音检测模型检测待识别语音,确定检测结果;所述检测结果包括所述待识别语音中的至少一帧语音的分类结果,所述分类结果包括重叠音、静音和单个说话人语音;
其中,所述重叠语音检测模型包括:多个第一网络层和第一输出层;所述多个第一网络层依次串联后与所述第一输出层串联;所述多个指两个或两个以上。
所述多个第一网络层中的至少一个第一网络层通过迁移学习训练后的语音识别模型中的至少一个第二网络层得到;
所述语音识别模型包括:多个第二网络层和第二输出层;所述多个第二网络层依次串联后与所述第二输出层串联。
这里,所述检测结果包括所述待识别语音中的至少一帧语音的分类结果,所述分类结果包括重叠音、静音和单个说话人语音;
即,通过重叠语音检测模型检测待识别语音中每一帧语音是否为重叠语音,每一帧语音的分类结果可以是帧级分类概率,包括:重叠音的概率、静音的概率、单个说话人语音的概率。根据每一帧语音的分类结果,确定相应帧的语音或某一段语音为重叠音、单个说话人语音或者静音。
在一些实施例中,为了迁移学习语音识别模型的浅层网络参数,提供了一种训练得到语音识别模型,并迁移学习浅层网络参数的方法。所述方法还包括:
运用第一训练语料集训练第一神经网络模型,得到语音识别模型;
根据所述语音识别模型,确定训练后的多个第二网络层;
从所述训练后的多个第二网络层中确定M个第二网络层;M大于等于1;
运用所述M个第二网络层构建所述第二神经网络模型,运用第二训练语料集训练所述第二神经网络模型,得到重叠语音检测模型。
在一些实施例中,所述运用所述M个第二网络层构建所述第二神经网络模型,包括:
根据所述M个第二网络层的网络参数初始化所述第二神经网络模型中的M个第一网络层的网络参数;所述M个第一网络层依次串联;所述M个第二网络层依次串联;
根据所述M个第一网络层和所述第一输出层,以及,一个或多个第三网络层,构建所述第二神经网络模型。
这里,第二神经网络模型,可以包括:多个第一网络层和第一输出层;
其中,多个第一网络层,包括:M个第一网络层,以及,一个或多个第三网络层。
M个第一网络层为浅层网络,也即,第二神经网络模型,可以包括:依次串联的M个第一网络层、一个或多个第三网络层、第一输出层。
所述运用第二训练语料集训练所述第二神经网络模型,得到重叠语音检测模型,包括:
冻结所述M个第一网络层的网络参数,运用所述第二训练语料集训练所述第二神经网络模型直至收敛;
解冻所述M个第一网络层的网络参数,采用目标学习率,运用所述第二训练语料集再次训练所述第二神经网络模型直至收敛,得到训练后的第二神经网络模型,作为所述重叠语音检测模型。
具体地,重叠语音检测模型的训练分两个阶段。第一训练阶段,为了把预训练的语音识别模型的知识迁移到重叠语音检测模型,先用语音识别模型的浅层网络参数(即M个第二网络层的网络参数)初始化重叠语音检测模型的浅层网络(即M个第一网络层),然后冻结此部分网络参数,只训练其余网络(包括:所述一个或多个第三网络层、所述第一输出层)参数直至收敛。第二训练阶段,解冻第一阶段冻结的网络参数,采用较小的学习率(比如1e-4),继续训练,微调全部网络(包括:M个第一网络层、一个或多个第三网络层、所述第一输出层)参数直至收敛。
重叠语音检测模型在应用推理时,先对待识别语音提取声学特征序列,再取输出层(Softmax)对应重叠语音分类节点的后验概率,划定阈值,最后得到检测结果。这里的阈值可以根据实际情况设定,对于取值不做限定。
在一些实施例中,所述第二训练语料集包括:多个样本语音、每个样本语音对应的标签;所述标签包括:重叠音、静音和单个说话人语音;
所述运用第二训练语料集训练第二神经网络模型,包括:
对所述样本语音提取对N维的声学特征序列;所述N大于等于1;
根据所述样本语音的N维的声学特征序列和标签,训练所述第二神经网络模型。
这里,所述声学特征序列包括每帧语音对应的声学特征,所述标签为帧级标签,即每帧语音对应的标签。
例如,重叠语音检测模型采用三分类模型,每帧语音对应的标签为重叠音、静音或单个说话人语音;
重叠语音检测模型的输出结果为帧级分类概率,即每帧语音为重叠音的概率、静音的概率、单个说话人语音的概率。
在一些实施例中,所述从所述训练后的多个第二网络层中确定M个网络层,包括:
从所述训练后的多个第二网络层中,确定第i个到第i+M个依次串联的第二网络层。
其中,i和M可以根据实际模型设计情况选择,不做限定。例如,i可以为0、1等,一般可以0;M可以为1、2、3、4等。
这里,所述多个第二网络层以输入端的第二网络层为起始,以连接输出层的第二网络层为结尾,从小到大依次编号;
相应的,所述多个第一网络层以输入端的第一网络层为起始,以连接输出层的第一网络层为结尾,从小到大依次编号;
所述M个第一网络层为:第i至i+M个的第一网络层;所述M个第二网络层为:第i至i+M个第二网络层;i大于等于0。
在一示例中,i为0,M为2,所述M个第一网络层为:第1至2个第一网络层;相应的,所述M个第二网络层为:第1至2个第二网络层。
在另一示例中,i为1,M为2,所述M个第一网络层为:第1至3个第一网络层;相应的,所述M个第二网络层为:第1至3个第二网络层。
在还一示例中,i为0,M为4,所述M个第一网络层为:第1至4个第一网络层;相应的,所述M个第二网络层为:第1至4个第二网络层。
对于具体采用的i、M可以基于实际模型设计情况选择,不做限定。
在一些实施例中,所述第一网络层和所述第二网络层可以采用双向长短期记忆网络(BLSTM)层。也可以采用CNN层、Transformer层等。对于具体采用的类型不做限定。
在一些实施例中,所述M个第一网络层和所述M个第二网络层采用相同的网络层;
所述M个第一网络层和所述M个第二网络层,可以包括以下至少之一:BLSTM层、CNN层、Transformer层。
需要说明的是,所述M个第一网络层和所述M个第二网络层之间为了实现网络参数的迁移学习,需要保证所述M个第一网络层和所述M个第二网络层相同。
即,所述M个第一网络层和所述M个第二网络层采用相同的网络层,表示:所述M个第一网络层中每个第一网络层与所述M个第二网络层中编号对应的第二网络层相同;
例如,所述M个第一网络层中的第一个第一网络层与所述M个第二网络层中的第一个第二网络层相同;
所述M个第一网络层中的第二个第一网络层与所述M个第二网络层中的第二个第二网络层相同;
以此类推,所述M个第一网络层中的第M个第一网络层与所述M个第二网络层中的第M个第二网络层相同。
而不同层的网络层可以相同也可以不同;例如,第一个第一网络层与第二个第一网络层可以相同也可以不同。
具体地,重叠语音检测模型迁移学习语音识别模型的浅层网络参数,浅层网络指M个网络层;例如,从输入特征为第零层往后数的前2~4层,例如,图2中给出了一种迁移学习的示例图,其中,浅层网络(即所述M个第一网络层、M个第二网络层)为前两层网络,具体采用BLSTM;实际应用时,重叠语音检测模型中浅层网络之外的剩余网络结构可以任意选定,这里采用BLSTM仅一种示例。
在一些实施例中,所述第一训练语料集包括:多个样本语音、每个样本语音对应的标签;所述标签包括语音内容;
所述运用第一训练语料集训练第一神经网络模型,得到语音识别模型,包括:
对所述样本语音提取对N维的声学特征序列;所述N大于等于1;
根据所述样本语音的N维的声学特征序列和标签,训练所述第一神经网络模型,得到训练后的第一神经网络模型,得到语音识别模型。
这里,所述声学特征序列包括每帧语音对应的声学特征,所述标签为帧级标签,即每帧语音对应的标签可以为每帧对应的语音内容。
在一些实施例中,所述N维的声学特征为:80维梅尔滤波器组声学(Fbank)特征。这里,所述N也可以是其它数值,这里不做限定。
这里,可以采用GMM-HMM语音识别系统通过强制对齐获取训练语料的帧级状态绑定的三音素标签,再对语音提取80维Fbank特征。
如此,语音识别模型的输入为Fbank特征序列,输出为帧级分类概率;模型训练过程中通过计算交叉熵损失训练直至收敛,得到训练后的语音识别模型。
对应的,重叠语音检测模型的输入也为Fbank特征序列,重叠语音检测模型可采用三分类模型,分别对应重叠音、静音和单个说话人语音,输出也为帧级分类概率;模型训练过程中通过计算交叉熵损失更新网络参数,得到训练后的重叠语音检测模型。
需要说明的是,本公开实施例的方案中,重叠语音检测模型的浅层网络结构和预训练的语音识别模型的浅层网络结构相同,且两者的输入声学特征也必须保持一样,如,输入都是80维的Fbank声学特征序列。
图3示出了本公开实施例提供的基于迁移学习的重叠语音检测模型训练方法的实现流程示意图;如图3所示,所述方法包括:
步骤301、预训练语音识别模型;
这里,语音识别模型既可以是传统的声学模型也可以是端到端模型,网络结构可以任意选择,这里以经典的BLSTM声学模型为例说明具体预训练过程。
首先,用GMM-HMM语音识别系统通过强制对齐获取训练语料的帧级状态绑定的三音素标签,再对语音提取80维Fbank特征;BLSTM声学模型输入为Fbank特征序列,输出为帧级分类概率,计算交叉熵损失训练直至收敛。
步骤302、加载预训练后的语音识别模型的浅层网络参数,重新训练重叠语音检测模型。
这里,重叠语音检测模型采用三分类模型,分别对应重叠音、静音和单个说话人语音,输出为帧级分类概率,计算交叉熵损失更新网络参数。
需要注意的是,重叠语音检测模型的浅层网络结构和预训练的语音识别模型的浅层网络结构相同,且两者的输入声学特征也必须保持一样,也就是说重叠语音检测模型的输入也为80维的Fbank特征序列。
其中,浅层网络可以是指从输入特征为第零层往后数的前2~4层,如图2中浅层网络为前两层网络,剩余网络结构可以任意选定,图2中为了模型的简洁性,全部选用BLSTM,实际也可以选择其它网络结构。
重叠语音检测模型的训练分两个阶段。第一训练阶段,将预训练后的语音识别模型的知识迁移到重叠语音检测模型,先用BLSTM声学模型的浅层网络参数初始化重叠语音检测模型的浅层网络;然后冻结此部分网络参数,只训练其余网络参数直至收敛。第二训练阶段,解冻第一阶段冻结的网络参数,采用较小的学习率,比如1e-4,微调全部网络参数直至收敛。
重叠语音检测模型推理时,先对测试语音提取80维Fbank特征序列,再取输出层Softmax对应重叠语音分类节点的后验概率,划定阈值,最后得到检测结果。
本公开的方案在考虑到以下三点的基础上提出了上述基于迁移学习的重叠语音检测模型训练方法:
第一点,语音内容信息是语音信号的一个重要组成成分,对于说话人、信道和背景噪音的变化具有一定鲁棒性。而语音内容信息与重叠语音有很强的相关性,比如“短回复”导致的重叠语音,出现某些特定的词汇有更高的概率发生语音重叠。但是,现有的重叠语音检测技术建模时往往忽略了语音内容信息,且对说话人、信道和背景噪音的干扰敏感,导致有些场景下检测性能不够理想。
第二点,语音识别是把语音转录成对应的文字,声学模型和语言模型是语音识别系统的关键组成部分。声学模型学到了一些语音内容相关的信息,比如音素、音标等。
第三点,语音识别任务和重叠语音检测任务有较大不同,前者一般是识别字或者词,后者是识别静音、重叠音和单说话人语音。神经网络的浅层提取到的是偏基础性特征,深层提取到的是与任务强相关的特征。
基于上述考虑,提出了采用重叠语音检测模型学习语音识别模型浅层网络的特征提取能力,深层网络根据自身任务重新训练。如此,实现了将语音识别模型学习到的语音内容信息提取能力迁移到重叠语音检测模型,通过对重叠语音中常见语言现象的识别和检测,既提高了模型对说话人、背景噪音和信道等干扰的鲁棒性,又提高了模型的检测性能。
图4示出了本公开实施例提供的重叠语音检测装置的结构示意图;如图4所示,所述重叠语音检测装置,包括:
获取模块,用于获取重叠语音检测模型;
处理模块,用于运用所述重叠语音检测模型检测待识别语音,确定检测结果;所述检测结果包括所述待识别语音中的至少一帧语音的分类结果,所述分类结果包括重叠音、静音和单个说话人语音;
其中,所述重叠语音检测模型包括:多个第一网络层和第一输出层;所述多个第一网络层依次串联后与所述第一输出层串联;
所述多个第一网络层中的至少一个第一网络层通过迁移学习训练后的语音识别模型中的至少一个第二网络层得到;所述语音识别模型包括:多个第二网络层和第二输出层;所述多个第二网络层依次串联后与所述第二输出层串联。
可以理解的是,上述实施例提供的重叠语音检测装置在实现相应重叠语音检测方法时,可以根据需要而将上述处理分配由不同的程序模块完成,以完成以上描述的全部或者部分处理。另外,上述实施例提供的装置与相应方法的实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本公开实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将触发处理器执行本公开实施例提供的重叠语音检测方法。
在一些实施例中,计算机可读存储介质可以是铁电随机存取存储器(Ferroelectric RAM,FRAM)、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程的只读存储器(ErasableProgrammable ROM,EPROM)、电可擦可编程序只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM)、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、模型、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
本公开实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本公开所述的重叠语音检测方法。
图5示出了本公开实施例提供的电子设备的结构示意图,如图5所示,所述电子设备50,包括:处理器501和用于存储能够在所述处理器上运行的计算机程序的存储器502;所述处理器501用于运行所述计算机程序时,执行本公开实施例提供的重叠语音检测方法。
实际应用时,所述电子设备50还可以包括:至少一个网络接口503。所述电子设备50中的各个组件通过总线系统504耦合在一起。可理解,总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统504。其中,所述处理器501的个数可以为至少一个。网络接口503用于电子设备50与其他设备之间有线或无线方式的通信。
本公开实施例中的存储器502用于存储各种类型的数据以支持电子设备50的操作。
上述本公开实施例揭示的方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(DSP,DiGital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器501可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本公开实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成前述方法的步骤。
在一些实施例中,电子设备50可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种重叠语音检测方法,其特征在于,所述方法包括:
获取重叠语音检测模型;
运用所述重叠语音检测模型检测待识别语音,确定检测结果;所述检测结果包括所述待识别语音中的至少一帧语音的分类结果,所述分类结果包括重叠音、静音和单个说话人语音;
其中,所述重叠语音检测模型包括:多个第一网络层和第一输出层;所述多个第一网络层依次串联后与所述第一输出层串联;
所述多个第一网络层中的至少一个第一网络层通过迁移学习训练后的语音识别模型中的至少一个第二网络层得到;
所述语音识别模型包括:多个第二网络层和第二输出层;所述多个第二网络层依次串联后与所述第二输出层串联。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
运用第一训练语料集训练第一神经网络模型,得到语音识别模型;
根据所述语音识别模型,确定训练后的多个第二网络层;
从所述训练后的多个第二网络层中确定M个第二网络层;M大于等于1;
运用所述M个第二网络层构建第二神经网络模型,运用第二训练语料集训练所述第二神经网络模型,得到重叠语音检测模型。
3.根据权利要求2所述的方法,其特征在于,所述运用所述M个第二网络层构建所述第二神经网络模型,包括:
根据所述M个第二网络层的网络参数初始化所述第二神经网络模型中的M个第一网络层的网络参数;所述M个第一网络层依次串联;所述M个第二网络层依次串联;
所述运用第二训练语料集训练所述第二神经网络模型,得到重叠语音检测模型,包括:
冻结所述M个第一网络层的网络参数,运用所述第二训练语料集训练所述第二神经网络模型直至收敛;
解冻所述M个第一网络层的网络参数,采用目标学习率,运用所述第二训练语料集再次训练所述第二神经网络模型直至收敛,得到训练后的第二神经网络模型,作为所述重叠语音检测模型。
4.根据权利要求2所述的方法,其特征在于,所述第二训练语料集包括:多个样本语音、每个样本语音对应的标签;所述标签包括:重叠音、静音和单个说话人语音;
所述运用第二训练语料集训练所述第二神经网络模型,包括:
对所述样本语音提取对N维的声学特征序列;N大于等于1;
根据所述样本语音的N维的声学特征序列和标签,训练所述第二神经网络模型。
5.根据权利要求2所述的方法,其特征在于,所述从所述训练后的多个第二网络层中确定M个网络层,包括:
从所述训练后的多个第二网络层中,确定第i个到第i+M个依次串联的第二网络层;i大于等于0。
6.根据权利要求2所述的方法,其特征在于,所述第一训练语料集包括:多个样本语音、每个样本语音对应的标签;所述标签包括语音内容;
所述运用第一训练语料集训练第一神经网络模型,得到语音识别模型,包括:
对所述样本语音提取对N维的声学特征序列;N大于等于1;
根据所述样本语音的N维的声学特征和标签,训练所述第一神经网络模型,得到训练后的第一神经网络模型,得到语音识别模型。
7.根据权利要求2所述的方法,其特征在于,所述多个第二网络层以输入端的第二网络层为起始,以连接输出层的第二网络层为结尾,从小到大依次编号;
相应的,所述多个第一网络层以输入端的第一网络层为起始,以连接输出层的第一网络层为结尾,从小到大依次编号;
所述M个第一网络层为:第i至i+M个第一网络层;所述M个第二网络层为:第i至i+M个第二网络层;i大于等于0;
所述M个第一网络层和所述M个第二网络层采用相同的网络层,所述网络层包括以下至少之一:双向长短期记忆网络BLSTM层、卷积神经网络CNN层、Transformer层。
8.一种重叠语音检测装置,其特征在于,所述装置包括:
获取模块,用于获取重叠语音检测模型;
处理模块,用于运用所述重叠语音检测模型检测待识别语音,确定检测结果;所述检测结果包括所述待识别语音中的至少一帧语音的分类结果,所述分类结果包括重叠音、静音和单个说话人语音;
其中,所述重叠语音检测模型包括:多个第一网络层和第一输出层;所述多个第一网络层依次串联后与所述第一输出层串联;
所述多个第一网络层中的至少一个第一网络层通过迁移学习训练后的语音识别模型中的至少一个第二网络层得到;所述语音识别模型包括:多个第二网络层和第二输出层;所述多个第二网络层依次串联后与所述第二输出层串联。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行根据权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311445131.6A CN117174111B (zh) | 2023-11-02 | 2023-11-02 | 重叠语音检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311445131.6A CN117174111B (zh) | 2023-11-02 | 2023-11-02 | 重叠语音检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117174111A CN117174111A (zh) | 2023-12-05 |
CN117174111B true CN117174111B (zh) | 2024-01-30 |
Family
ID=88937892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311445131.6A Active CN117174111B (zh) | 2023-11-02 | 2023-11-02 | 重叠语音检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117174111B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003295887A (ja) * | 2002-03-29 | 2003-10-15 | Japan Science & Technology Corp | 音声認識方法および装置 |
CN109599125A (zh) * | 2019-02-01 | 2019-04-09 | 浙江核新同花顺网络信息股份有限公司 | 一种重叠音检测方法及相关装置 |
KR20190096305A (ko) * | 2019-07-29 | 2019-08-19 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버 |
CN111816160A (zh) * | 2020-07-28 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 普通话和粤语混合语音识别模型训练方法及系统 |
CN112133290A (zh) * | 2019-06-25 | 2020-12-25 | 南京航空航天大学 | 一种针对民航陆空通话领域的基于迁移学习的语音识别方法 |
KR20230125872A (ko) * | 2022-02-22 | 2023-08-29 | 주식회사 카카오엔터프라이즈 | 음성 인식 장치 및 그것의 제어 방법 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103325383A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 音频处理方法和音频处理设备 |
US20230108275A1 (en) * | 2021-10-06 | 2023-04-06 | Google Llc | Language Agnostic Multilingual End-To-End Streaming On-Device ASR System |
-
2023
- 2023-11-02 CN CN202311445131.6A patent/CN117174111B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003295887A (ja) * | 2002-03-29 | 2003-10-15 | Japan Science & Technology Corp | 音声認識方法および装置 |
CN109599125A (zh) * | 2019-02-01 | 2019-04-09 | 浙江核新同花顺网络信息股份有限公司 | 一种重叠音检测方法及相关装置 |
CN112133290A (zh) * | 2019-06-25 | 2020-12-25 | 南京航空航天大学 | 一种针对民航陆空通话领域的基于迁移学习的语音识别方法 |
KR20190096305A (ko) * | 2019-07-29 | 2019-08-19 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버 |
CN111816160A (zh) * | 2020-07-28 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 普通话和粤语混合语音识别模型训练方法及系统 |
KR20230125872A (ko) * | 2022-02-22 | 2023-08-29 | 주식회사 카카오엔터프라이즈 | 음성 인식 장치 및 그것의 제어 방법 |
Non-Patent Citations (2)
Title |
---|
Progressive Joint M odeling i n Unsupervised Single-Channel Overlapped Speech Recognition;ZHEHUAI CHEN ET AL.;《IEEE/ACM TRANSAC TIONS ON AUDIO, SPEECH, AND LANGUAGE P ROCESSING》;全文 * |
基于高层信息特征的重叠语音检测;马勇;鲍长春;;清华大学学报(自然科学版)(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117174111A (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6980119B2 (ja) | 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム | |
KR101056511B1 (ko) | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 | |
CN106683661B (zh) | 基于语音的角色分离方法及装置 | |
KR102305584B1 (ko) | 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치 | |
CN105679317B (zh) | 用于训练语言模型并识别语音的方法和设备 | |
CN110689879B (zh) | 端到端语音转写模型的训练方法、系统、装置 | |
JP6679898B2 (ja) | キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム | |
CN111798840B (zh) | 语音关键词识别方法和装置 | |
JP2002519720A (ja) | 多層ネットワークを用いた信号分類の方法と装置 | |
CN111640456B (zh) | 叠音检测方法、装置和设备 | |
US20230186905A1 (en) | System and method for tone recognition in spoken languages | |
JP4275537B2 (ja) | 音声認識ニューラルネットワークの実行を加速するための方法及び関連の音声認識装置 | |
US11450320B2 (en) | Dialogue system, dialogue processing method and electronic apparatus | |
Liu et al. | Graph-based semi-supervised acoustic modeling in DNN-based speech recognition | |
KR20200023893A (ko) | 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들 | |
KR102305672B1 (ko) | 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치 | |
Falavigna et al. | DNN adaptation by automatic quality estimation of ASR hypotheses | |
Rosdi et al. | Isolated malay speech recognition using Hidden Markov Models | |
CN115691475A (zh) | 用于训练语音识别模型的方法以及语音识别方法 | |
CN117174111B (zh) | 重叠语音检测方法、装置、电子设备及存储介质 | |
KR20220047080A (ko) | 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 | |
Ketabdar et al. | Detection of out-of-vocabulary words in posterior based ASR. | |
Franzini et al. | Speaker-independent recognition of connected utterances using recurrent and non-recurrent neural networks | |
Barnard et al. | Real-world speech recognition with neural networks | |
CN111883109B (zh) | 语音信息处理及验证模型训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |