CN114882914A - 混叠音处理方法、装置和存储介质 - Google Patents
混叠音处理方法、装置和存储介质 Download PDFInfo
- Publication number
- CN114882914A CN114882914A CN202210681168.8A CN202210681168A CN114882914A CN 114882914 A CN114882914 A CN 114882914A CN 202210681168 A CN202210681168 A CN 202210681168A CN 114882914 A CN114882914 A CN 114882914A
- Authority
- CN
- China
- Prior art keywords
- voice
- aliasing
- clustering
- centroid
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 8
- 239000012634 fragment Substances 0.000 claims abstract description 131
- 238000000926 separation method Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims description 88
- 239000013598 vector Substances 0.000 claims description 41
- 238000000034 method Methods 0.000 claims description 27
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 4
- 101150041570 TOP1 gene Proteins 0.000 description 4
- 101150104012 TOP2 gene Proteins 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 101150093766 Segment-6 gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开提供一种混叠音处理方法、装置和存储介质。混叠音处理方法包括:将待识别语音进行分割,以得到多个语音片段;对多个语音片段进行聚类,以得到多个聚类集合,从中选择出第一聚类集合和第二聚类集合;将第一聚类集合中不存在混叠音的语音片段加入第一语音集合,将第一聚类集合中存在混叠音的语音片段加入混叠音集合;将第二聚类集合中不存在混叠音的语音片段加入第二语音集合,将第二聚类集合中的存在混叠音的语音片段加入混叠音集合;利用第一语音集合中的第一语音片段生成第一掩膜,利用第二语音集合中的第二语音片段生成第二掩膜;利用第一掩膜和第二掩膜将混叠音集合中的每个语音片段进行混叠音分离。
Description
技术领域
本公开涉及语音处理领域,特别涉及一种混叠音处理方法、装置和存储介质。
背景技术
随着人工智能技术和互联网技术的迅速发展,越来越多的语音交互场景出现在人们的日常生活中。作为语音信号处理领域中的一项极具挑战性的研究任务,语音分离技术对于语音交互系统在实际复杂声学场景中的应用有着重要作用。目前,基于深度学习的语音分离方法能够有效提升语音分离的性能。
发明内容
发明人注意到,基于深度学习的语音分离方法存在以下问题:(1)针对目标说话人的语音分离,需要采集目标说话人大量的语音样本来生成估计掩膜,以便用估计掩膜进行频域分离;(2)针对说话人无关的语音分离,需要多通道采集音频,且需要预训练生成估计掩膜的神经网络模型,并利用该网络得到不同说话人的估计掩膜,然后结合空间协方差矩阵计算得到分离开的说话人语音信号。客服语音通话通常是单声道音频,且具有混叠音出现时间短、频率高,通话双方身份不固定无法获取足够的语音样本等特点,导致使用现有的语音分离技术很难解决单声道客服语音中的混叠音检测与分离问题。
据此,本公开提供一种混叠音处理方案,能够有效解决单声道语音通话中的混叠音定位与分离问题。
根据本公开实施例的第一方面,提供一种混叠音处理方法,包括:将待识别语音进行分割,以得到多个语音片段;根据每个语音片段的声纹特征对所述多个语音片段进行聚类,以得到多个聚类集合;统计每个聚类集合中的时长大于第一时长门限的语音片段的个数,按照所述个数从大到小的顺序选择前两个聚类集合作为第一聚类集合和第二聚类集合;将所述第一聚类集合中不存在混叠音的语音片段加入第一语音集合,将所述第一聚类集合中存在混叠音的语音片段加入混叠音集合;将所述第二聚类集合中不存在混叠音的语音片段加入第二语音集合,将所述第二聚类集合中的存在混叠音的语音片段加入所述混叠音集合;利用所述第一语音集合中的第一语音片段生成第一掩膜,利用所述第二语音集合中的第二语音片段生成第二掩膜;利用所述第一掩膜和所述第二掩膜将所述混叠音集合中的每个语音片段进行混叠音分离。
在一些实施例中,所述对所述多个语音片段进行聚类包括:利用经过训练的机器学习模型获取所述多个语音片段中的每个语音片段的声纹特征;根据所述声纹特征将所述多个语音片段进行聚类,以得到所述多个聚类集合。
在一些实施例中,所述获取所述多个语音片段中的每个语音片段的声纹特征包括:利用移动窗提取所述多个语音片段中的第i个语音片段中的多个子声纹特征,其中所述移动窗的移动步长小于所述移动窗的长度,1≤i≤I,I为语音片段总数;根据所述多个子声纹特征确定所述第i个语音片段的声纹特征。
在一些实施例中,所述根据所述多个子声纹特征确定所述第i个语音片段的声纹特征包括:计算所述多个子声纹特征的加权平均值,以作为所述第i个语音片段的声纹特征。
在一些实施例中,所述移动窗的移动步长为所述移动窗的长度的1/2。
在一些实施例中,所述第一语音片段的时长和第二语音片段的时长均大于第二时长门限。
在一些实施例中,将所述第一聚类集合中不存在混叠音的语音片段加入第一语音集合,将所述第一聚类集合中存在混叠音的语音片段加入混叠音集合包括:计算所述第一聚类集合中的第j个语音片段的声纹特征与所述第二聚类集合的聚类质心向量的第一质心相似度,1≤j≤J,J为所述第一聚类集合中的语音片段总数;计算所述第j个语音片段的每个子声纹特征与所述第二聚类集合的聚类质心向量的第二质心相似度,以得到第一相似度序列;在所述第一相似度序列中,统计连续满足第一预设条件的第二质心相似度的个数,其中所述第一预设条件为第二质心相似度与第一质心相似度的比值不小于预设门限;若连续满足预设条件的第二质心相似度的个数大于个数门限,则将对应的移动窗标记为混叠音窗,记录混叠音窗的起止位置,并将所述第j个语音片段加入混叠音集合,否则将所述第j个语音片段加入第一语音集合。
在一些实施例中,所述将所述第二聚类集合中不存在混叠音的语音片段加入第二语音集合,将所述第二聚类集合中的存在混叠音的语音片段加入所述混叠音集合包括:计算所述第二聚类集合中的第k个语音片段的声纹特征与所述第一聚类集合的聚类质心向量的第三质心相似度,1≤k≤K,K为所述第二聚类集合中的语音片段总数;计算所述第k个语音片段的每个子声纹特征与所述第一聚类集合的聚类质心向量的第四质心相似度,以得到第二相似度序列;在所述第二相似度序列中,统计连续满足第二预设条件的第四质心相似度的个数,其中所述第二预设条件为第四质心相似度与第三质心相似度的比值不小于预设门限;若连续满足预设条件的第四质心相似度的个数大于个数门限,则将对应的移动窗标记为混叠音窗,记录混叠音窗的起止位置,并将所述第k个语音片段加入混叠音集合,否则将所述第k个语音片段加入第二语音集合。
在一些实施例中,所述第一聚类集合的聚类质心向量为所述第一聚类集合中的各语音片段的声纹特征的加权平均值;所述第二聚类集合的聚类质心向量为所述第二聚类集合中的各语音片段的声纹特征的加权平均值。
在一些实施例中,所述利用所述第一掩膜和所述第二掩膜将所述混叠音集合中的每个语音片段进行混叠音分离包括:在所述混叠音集合中的每个语音片段中,根据每个混叠音窗的起止位置截取对应的混叠音音频;将所述混叠音音频转换到频域,以得到频域信号;根据所述频域信号和所述第一掩膜得到第一音频信息;根据所述频域信号和所述第二掩膜得到第二音频信息;分别将所述第一音频信息和第二音频信息转换到时域,以实现混叠音分离。
在一些实施例中,所述第一音频信息为所述频域信号和所述第一掩膜的点乘运算结果;所述第二音频信息为所述频域信号和所述第二掩膜的点乘运算结果。
在一些实施例中,所述将待识别语音进行分割包括:对所述待识别语音进行噪声过滤处理,得到已过滤语音;将所述已过滤语音进行分割,以得到多个语音片段。
根据本公开实施例的第二方面,提供一种混叠音处理装置,包括:第一处理模块,被配置为将待识别语音进行分割,以得到多个语音片段;第二处理模块,被配置为根据每个语音片段的声纹特征对所述多个语音片段进行聚类,以得到多个聚类集合;第三处理模块,被配置为统计每个聚类集合中的时长大于第一时长门限的语音片段的个数,按照所述个数从大到小的顺序选择前两个聚类集合作为第一聚类集合和第二聚类集合;第四处理模块,被配置为将所述第一聚类集合中不存在混叠音的语音片段加入第一语音集合,将所述第一聚类集合中存在混叠音的语音片段加入混叠音集合,将所述第二聚类集合中不存在混叠音的语音片段加入第二语音集合,将所述第二聚类集合中的存在混叠音的语音片段加入所述混叠音集合;第五处理模块,被配置为利用所述第一语音集合中的第一语音片段生成第一掩膜,利用所述第二语音集合中的第二语音片段生成第二掩膜;第六处理模块,被配置为利用所述第一掩膜和所述第二掩膜将所述混叠音集合中的每个语音片段进行混叠音分离。
在一些实施例中,第二处理模块被配置为利用经过训练的机器学习模型获取所述多个语音片段中的每个语音片段的声纹特征,根据所述声纹特征将所述多个语音片段进行聚类,以得到所述多个聚类集合。
在一些实施例中,第二处理模块被配置为利用移动窗提取所述多个语音片段中的第i个语音片段中的多个子声纹特征,其中所述移动窗的移动步长小于所述移动窗的长度,1≤i≤I,I为语音片段总数,根据所述多个子声纹特征确定所述第i个语音片段的声纹特征。
在一些实施例中,第二处理模块被配置为计算所述多个子声纹特征的加权平均值,以作为所述第i个语音片段的声纹特征。
在一些实施例中,所述移动窗的移动步长为所述移动窗的长度的1/2。
在一些实施例中,所述第一语音片段的时长和第二语音片段的时长均大于第二时长门限。
在一些实施例中,第四处理模块被配置为计算所述第一聚类集合中的第j个语音片段的声纹特征与所述第二聚类集合的聚类质心向量的第一质心相似度,1≤j≤J,J为所述第一聚类集合中的语音片段总数,计算所述第j个语音片段的每个子声纹特征与所述第二聚类集合的聚类质心向量的第二质心相似度,以得到第一相似度序列,在所述第一相似度序列中,统计连续满足第一预设条件的第二质心相似度的个数,其中所述第一预设条件为第二质心相似度与第一质心相似度的比值不小于预设门限,若连续满足预设条件的第二质心相似度的个数大于个数门限,则将对应的移动窗标记为混叠音窗,记录混叠音窗的起止位置,并将所述第j个语音片段加入混叠音集合,否则将所述第j个语音片段加入第一语音集合。
在一些实施例中,第四处理模块被配置为计算所述第二聚类集合中的第k个语音片段的声纹特征与所述第一聚类集合的聚类质心向量的第三质心相似度,1≤k≤K,K为所述第二聚类集合中的语音片段总数,计算所述第k个语音片段的每个子声纹特征与所述第一聚类集合的聚类质心向量的第四质心相似度,以得到第二相似度序列,在所述第二相似度序列中,统计连续满足第二预设条件的第四质心相似度的个数,其中所述第二预设条件为第四质心相似度与第三质心相似度的比值不小于预设门限,若连续满足预设条件的第四质心相似度的个数大于个数门限,则将对应的移动窗标记为混叠音窗,记录混叠音窗的起止位置,并将所述第k个语音片段加入混叠音集合,否则将所述第k个语音片段加入第二语音集合。
在一些实施例中,所述第一聚类集合的聚类质心向量为所述第一聚类集合中的各语音片段的声纹特征的加权平均值;所述第二聚类集合的聚类质心向量为所述第二聚类集合中的各语音片段的声纹特征的加权平均值。
在一些实施例中,第六处理模块被配置为在所述混叠音集合中的每个语音片段中,根据每个混叠音窗的起止位置截取对应的混叠音音频,将所述混叠音音频转换到频域,以得到频域信号,根据所述频域信号和所述第一掩膜得到第一音频信息,根据所述频域信号和所述第二掩膜得到第二音频信息,分别将所述第一音频信息和第二音频信息转换到时域,以实现混叠音分离。
在一些实施例中,所述第一音频信息为所述频域信号和所述第一掩膜的点乘运算结果;所述第二音频信息为所述频域信号和所述第二掩膜的点乘运算结果。
在一些实施例中,第一处理模块被配置为对所述待识别语音进行噪声过滤处理,得到已过滤语音,将所述已过滤语音进行分割,以得到多个语音片段。
根据本公开实施例的第三方面,提供一种混叠音处理装置,包括:存储器,被配置为存储指令;处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如上述任一实施例所述的方法。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开一个实施例的混叠音处理方法的流程示意图;
图2为本公开一个实施例的混叠音处理装置的结构示意图;
图3为本公开另一个实施例的混叠音处理装置的结构示意图;
图4为本公开一个实施例的混叠音处理示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本公开一个实施例的混叠音处理方法的流程示意图。在一些实施例中,下列的混叠音处理方法由混叠音处理装置执行。
在步骤101,将待识别语音进行分割,以得到多个语音片段。
在一些实施例中,对待识别语音进行噪声过滤处理,得到已过滤语音。接下来将已过滤语音进行分割,以得到多个语音片段。
例如,通过利用VAD(Voice Activity Detection,语音端点检测)技术,去除语音中的静音部分和噪声。
需要说明的是,在经过分割得到的多个语音片段中,大部分语音片段只包括一个说话者的语音,部分语音片段存在混叠音。
在步骤102,根据每个语音片段的声纹特征对多个语音片段进行聚类,以得到多个聚类集合。
在一些实施例中,利用经过训练的机器学习模型获取多个语音片段中的每个语音片段的声纹特征。接下来,根据声纹特征将多个语音片段进行聚类,以得到多个聚类集合。
例如,将多个语音片段聚为N类,即表明有N个说话者。
在一些实施例中,在对上述机器学习模型进行训练的过程中,以24维Filterbank特征为输入,经过“5个帧级别层+1个池化层+2个段级别层+1个softmax层”的网络结构,提取xvector特征并进行plda打分对应到说话人标签。该模型选取segment6层作为xvector特征提取器,用于提取说话人的声纹特征并进行特征聚类。
在一些实施例中,利用移动窗提取多个语音片段中的第i个语音片段中的多个子声纹特征,其中移动窗的移动步长小于移动窗的长度,1≤i≤I,I为语音片段总数。例如,移动窗的移动步长为移动窗的长度的1/2。
接下来,根据多个子声纹特征确定第i个语音片段的声纹特征。
例如,通过计算多个子声纹特征的加权平均值,以作为第i个语音片段的声纹特征。
例如,移动窗的长度为150ms,移动窗的移动步长为75ms。利用该移动窗提取第i个语音片段segi的多个子声纹特征为{win_feati,t1,win_feati,t2,…,win_feati,tm},其中win_feati,t1为第i个语音片段segi中的第1个子声纹特征,依次类推。通过计算上述m个子声纹特征的加权平均值,以作为第i个语音片段的声纹特征seg_mfeati。
在步骤103,统计每个聚类集合中的时长大于第一时长门限的语音片段的个数,按照个数从大到小的顺序选择前两个聚类集合作为第一聚类集合和第二聚类集合。
在步骤104,将第一聚类集合中不存在混叠音的语音片段加入第一语音集合,将第一聚类集合中存在混叠音的语音片段加入混叠音集合。
在一些实施例中,对第一聚类集合的处理如下:
1)计算第一聚类集合中的第j个语音片段的声纹特征与第二聚类集合的聚类质心向量的第一质心相似度similarj,top2,1≤j≤J,J为第一聚类集合中的语音片段总数。
例如,第二聚类集合的聚类质心向量为第二聚类集合中的各语音片段的声纹特征的加权平均值。
2)计算第j个语音片段的每个子声纹特征与第二聚类集合的聚类质心向量的第二质心相似度,以得到第一相似度序列。
例如,第j个语音片段的子声纹特征集合为{win_featj,t1,win_featj,t2,…,win_featj,tm}。计算每个子声纹特征与第二聚类集合的聚类质心向量的第二质心相似度,所得到的第一相似度序列为{similarj,t1,similarj,t2,…,similarj,tm}。
3)在第一相似度序列中,统计连续满足第一预设条件的第二质心相似度的个数。
第一预设条件为第二质心相似度与第一质心相似度的比值不小于预设门限。例如,similarj,t1≥KTh×similarj,top2,KTh为大于1的参数。
4)若连续满足预设条件的第二质心相似度的个数大于个数门限,则将对应的移动窗标记为混叠音窗,记录混叠音窗的起止位置,并将第j个语音片段加入混叠音集合,否则将第j个语音片段加入第一语音集合。
例如,上述个数门限为3。第j个语音片段segj中的混叠音窗的起止位置集合segj_mix为{(sartj,1,endj,1),(sartj,2,endj,2),...,(sartj,mix,endj,mix)}。
在步骤105,将第二聚类集合中不存在混叠音的语音片段加入第二语音集合,将第二聚类集合中的存在混叠音的语音片段加入混叠音集合。
在一些实施例中,对第二聚类集合的处理如下:
1)计算第二聚类集合中的第k个语音片段的声纹特征与第一聚类集合的聚类质心向量的第三质心相似度similark,top1,1≤k≤K,K为第二聚类集合中的语音片段总数。
例如,第一聚类集合的聚类质心向量为第一聚类集合中的各语音片段的声纹特征的加权平均值。
2)计算第k个语音片段的每个子声纹特征与第一聚类集合的聚类质心向量的第四质心相似度,以得到第二相似度序列。
例如,第k个语音片段的子声纹特征集合为{win_featk,t1,win_featk,t2,…,win_featk,tm}。计算每个子声纹特征与第一聚类集合的聚类质心向量的第四质心相似度,所得到的第二相似度序列为{similark,t1,similark,t2,…,similark,tm}。
3)在第二相似度序列中,统计连续满足第二预设条件的第四质心相似度的个数。
第二预设条件为第四质心相似度与第三质心相似度的比值不小于预设门限。例如,similark,t1≥KTh×similark,top1,KTh为大于1的参数。
4)若连续满足预设条件的第四质心相似度的个数大于个数门限,则将对应的移动窗标记为混叠音窗,记录混叠音窗的起止位置,并将第k个语音片段加入混叠音集合,否则将第k个语音片段加入第二语音集合。
例如,上述个数门限为3。第k个语音片段segk中的混叠音窗的起止位置集合segk_mix为{(sartk,1,endk,1),(sartk,2,endk,2),...,(sartk,mix,endk,mix)}。
在步骤106,利用第一语音集合中的第一语音片段生成第一掩膜,利用第二语音集合中的第二语音片段生成第二掩膜。
在一些实施例中,第一语音片段的时长和第二语音片段的时长均大于第二时长门限。即在第一语音集合中选择时长较长的第一语音片段生成第一掩膜,在第二语音集合中选择时长较长的第二语音片段生成第二掩膜。
在步骤107,利用第一掩膜和第二掩膜将混叠音集合中的每个语音片段进行混叠音分离。
在一些实施例中,在混叠音集合中的每个语音片段中,根据每个混叠音窗的起止位置截取对应的混叠音音频。接下来利用STFT(Short-Time Fourier Transform,短时傅里叶变换),将混叠音音频转换到频域,以得到频域信号。
接下来,根据频域信号和第一掩膜得到第一音频信息,根据频域信号和第二掩膜得到第二音频信息。
例如,第一音频信息为频域信号和第一掩膜的点乘运算结果,第二音频信息为频域信号和第二掩膜的点乘运算结果。
接下来,利用I-STFT(Inverse Short-Time Fourier Transform,逆短时傅里叶变换),分别将第一音频信息和第二音频信息转换到时域,以实现混叠音分离。
图2为本公开一个实施例的混叠音处理装置的结构示意图。如图2所示,混叠音处理装置包括第一处理模块21、第二处理模块22、第三处理模块23、第四处理模块24、第五处理模块25和第六处理模块26。
第一处理模块21被配置为将待识别语音进行分割,以得到多个语音片段。
在一些实施例中,第一处理模块21被配置为对待识别语音进行噪声过滤处理,得到已过滤语音,将已过滤语音进行分割,以得到多个语音片段。
例如,通过利用VAD技术,去除语音中的静音部分和噪声。
需要说明的是,在经过分割得到的多个语音片段中,大部分语音片段只包括一个说话者的语音,部分语音片段存在混叠音。
第二处理模块22被配置为根据每个语音片段的声纹特征对多个语音片段进行聚类,以得到多个聚类集合。
在一些实施例中,第二处理模块22被配置为利用经过训练的机器学习模型获取多个语音片段中的每个语音片段的声纹特征,根据声纹特征将多个语音片段进行聚类,以得到多个聚类集合。
例如,将多个语音片段聚为N类,即表明有N个说话者。
在一些实施例中,第二处理模块22被配置为利用移动窗提取多个语音片段中的第i个语音片段中的多个子声纹特征,其中移动窗的移动步长小于移动窗的长度,1≤i≤I,I为语音片段总数,根据多个子声纹特征确定第i个语音片段的声纹特征。例如,移动窗的移动步长为移动窗的长度的1/2。
例如,第二处理模块22被配置为计算多个子声纹特征的加权平均值,以作为第i个语音片段的声纹特征。
例如,移动窗的长度为150ms,移动窗的移动步长为75ms。利用该移动窗提取第i个语音片段segi的多个子声纹特征为{win_feati,t1,win_feati,t2,…,win_feati,tm},其中win_feati,t1为第i个语音片段segi中的第1个子声纹特征,依次类推。通过计算上述m个子声纹特征的加权平均值,以作为第i个语音片段的声纹特征seg_mfeati。
第三处理模块23被配置为统计每个聚类集合中的时长大于第一时长门限的语音片段的个数,按照个数从大到小的顺序选择前两个聚类集合作为第一聚类集合和第二聚类集合。
第四处理模块24被配置为将第一聚类集合中不存在混叠音的语音片段加入第一语音集合,将第一聚类集合中存在混叠音的语音片段加入混叠音集合,将第二聚类集合中不存在混叠音的语音片段加入第二语音集合,将第二聚类集合中的存在混叠音的语音片段加入混叠音集合。
在一些实施例中,第四处理模块24被配置为计算第一聚类集合中的第j个语音片段的声纹特征与第二聚类集合的聚类质心向量的第一质心相似度similarj,top2,1≤j≤J,J为第一聚类集合中的语音片段总数。
例如,第二聚类集合的聚类质心向量为第二聚类集合中的各语音片段的声纹特征的加权平均值。
接下来,第四处理模块24计算第j个语音片段的每个子声纹特征与第二聚类集合的聚类质心向量的第二质心相似度,以得到第一相似度序列。
例如,第j个语音片段的子声纹特征集合为{win_featj,t1,win_featj,t2,…,win_featj,tm}。第四处理模块24计算每个子声纹特征与第二聚类集合的聚类质心向量的第二质心相似度,所得到的第一相似度序列为{similarj,t1,similarj,t2,…,similarj,tm}。
接下来,第四处理模块24在第一相似度序列中,统计连续满足第一预设条件的第二质心相似度的个数。第一预设条件为第二质心相似度与第一质心相似度的比值不小于预设门限。例如,similarj,t1≥KTh×similarj,top2,KTh为大于1的参数。
若连续满足预设条件的第二质心相似度的个数大于个数门限,则第四处理模块24将对应的移动窗标记为混叠音窗,记录混叠音窗的起止位置,并将第j个语音片段加入混叠音集合,否则将第j个语音片段加入第一语音集合。
例如,上述个数门限为3。第j个语音片段segj中的混叠音窗的起止位置集合segj_mix为{(sartj,1,endj,1),(sartj,2,endj,2),...,(sartj,mix,endj,mix)}。
在一些实施例中,第四处理模块24被配置为计算第二聚类集合中的第k个语音片段的声纹特征与第一聚类集合的聚类质心向量的第三质心相似度similark,top1,1≤k≤K,K为第二聚类集合中的语音片段总数。
例如,第一聚类集合的聚类质心向量为第一聚类集合中的各语音片段的声纹特征的加权平均值。
接下来,第四处理模块24计算第k个语音片段的每个子声纹特征与第一聚类集合的聚类质心向量的第四质心相似度,以得到第二相似度序列。
例如,第k个语音片段的子声纹特征集合为{win_featk,t1,win_featk,t2,…,win_featk,tm}。计算每个子声纹特征与第一聚类集合的聚类质心向量的第四质心相似度,所得到的第二相似度序列为{similark,t1,similark,t2,…,similark,tm}。
接下来,第四处理模块24在第二相似度序列中,统计连续满足第二预设条件的第四质心相似度的个数。第二预设条件为第四质心相似度与第三质心相似度的比值不小于预设门限,例如,similark,t1≥KTh×similark,top1,KTh为大于1的参数。
若连续满足预设条件的第四质心相似度的个数大于个数门限,则第四处理模块24将对应的移动窗标记为混叠音窗,记录混叠音窗的起止位置,并将第k个语音片段加入混叠音集合,否则将第k个语音片段加入第二语音集合。
例如,上述个数门限为3。第k个语音片段segk中的混叠音窗的起止位置集合segk_mix为{(sartk,1,endk,1),(sartk,2,endk,2),...,(sartk,mix,endk,mix)}。
第五处理模块25被配置为利用第一语音集合中的第一语音片段生成第一掩膜,利用第二语音集合中的第二语音片段生成第二掩膜。
在一些实施例中,第一语音片段的时长和第二语音片段的时长均大于第二时长门限。即在第一语音集合中选择时长较长的第一语音片段生成第一掩膜,在第二语音集合中选择时长较长的第二语音片段生成第二掩膜。
第六处理模块26被配置为利用第一掩膜和第二掩膜将混叠音集合中的每个语音片段进行混叠音分离。
在一些实施例中,第六处理模块26被配置为在混叠音集合中的每个语音片段中,根据每个混叠音窗的起止位置截取对应的混叠音音频,将混叠音音频转换到频域,以得到频域信号,根据频域信号和第一掩膜得到第一音频信息,根据频域信号和第二掩膜得到第二音频信息,分别将第一音频信息和第二音频信息转换到时域,以实现混叠音分离。
例如,第一音频信息为频域信号和第一掩膜的点乘运算结果,第二音频信息为频域信号和第二掩膜的点乘运算结果。
例如,第六处理模块26利用STFT将混叠音音频转换到频域,利用I-STFT分别将第一音频信息和第二音频信息转换到时域。
图3为本公开另一个实施例的混叠音处理装置的结构示意图。如图3所示,混叠音处理装置包括存储器31和处理器32。
存储器31用于存储指令,处理器32耦合到存储器31,处理器32被配置为基于存储器存储的指令执行实现如图1中任一实施例涉及的方法。
如图3所示,该混叠音处理装置还包括通信接口33,用于与其它设备进行信息交互。同时,该混叠音处理装置还包括总线34,处理器32、通信接口33、以及存储器31通过总线34完成相互间的通信。
存储器31可以包含高速RAM存储器,也可还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。存储器31也可以是存储器阵列。存储器31还可能被分块,并且块可按一定的规则组合成虚拟卷。
此外,处理器32可以是一个中央处理器CPU,或者可以是专用集成电路ASIC,或是被配置成实施本公开实施例的一个或多个集成电路。
本公开同时还涉及一种计算机可读存储介质,其中计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如图1中任一实施例涉及的方法。
图4为本公开一个实施例的混叠音处理示意图。
在混叠音处理过程中,首先对待识别语音进行噪声过滤处理,得到已过滤语音。接下来将已过滤语音进行分割,以得到多个语音片段。接下来,根据每个语音片段的声纹特征对多个语音片段进行聚类,以得到多个聚类集合。接下来统计每个聚类集合中的时长大于第一时长门限的语音片段的个数,按照个数从大到小的顺序选择前两个聚类集合作为第一聚类集合和第二聚类集合。然后将第一聚类集合中不存在混叠音的语音片段加入第一语音集合,将第一聚类集合中存在混叠音的语音片段加入混叠音集合。将第二聚类集合中不存在混叠音的语音片段加入第二语音集合,将第二聚类集合中的存在混叠音的语音片段加入混叠音集合。并利用第一语音集合中的第一语音片段生成掩膜A,利用第二语音集合中的第二语音片段生成掩膜B。
如图4所示,混叠音集合中的第i个语音片段segi如图(a)所示,该语音片段中的一个混叠音起止位置为(sarti,t,endi,t),即该语音片段中的一个混叠音音频位于图(a)中的两条虚线之间,该混叠音音频如图(b)所示。
接下来,利用STFT将该混叠音音频转换到频域,以得到频域信号。将该频域信号和掩膜A进行点乘运算以得到第一运算结果,将该频域信号和掩膜B进行点乘运算以得到第二运算结果。
接下来,利用I-STFT分别将第一运算结果和第二运算结果转换到时域,以得到第一说话者的第一语言信号S1和第二说话者的第二语音信号S2。基于上述处理可得到第一说话者的音频(如图(c)所示)和第二说话者的音频(如图(d)所示),由此可有效实现混叠音分离。
通过实施本公开,能够得到以下有益效果:
1.本公开不需要目标说话人的大量样本生成估计掩膜,不需要身份注册;
2.本公开不需要训练生成估计掩膜的神经网络模型,充分利用声纹特征向量;
3.本公开能够精准定位混叠音位置,不仅能够分离混叠音,还能计算出混叠音出现的具体位置,对于语音质检场景的抢插话(混叠音)检测有显著作用。
在一些实施例中,在上面所描述的功能单元可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(Programmable Logic Controller,简称:PLC)、数字信号处理器(Digital Signal Processor,简称:DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,简称:ASIC)、现场可编程门阵列(Field-ProgrammableGate Array,简称:FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。
Claims (26)
1.一种混叠音处理方法,包括:
将待识别语音进行分割,以得到多个语音片段;
根据每个语音片段的声纹特征对所述多个语音片段进行聚类,以得到多个聚类集合;
统计每个聚类集合中的时长大于第一时长门限的语音片段的个数,按照所述个数从大到小的顺序选择前两个聚类集合作为第一聚类集合和第二聚类集合;
将所述第一聚类集合中不存在混叠音的语音片段加入第一语音集合,将所述第一聚类集合中存在混叠音的语音片段加入混叠音集合;
将所述第二聚类集合中不存在混叠音的语音片段加入第二语音集合,将所述第二聚类集合中的存在混叠音的语音片段加入所述混叠音集合;
利用所述第一语音集合中的第一语音片段生成第一掩膜,利用所述第二语音集合中的第二语音片段生成第二掩膜;
利用所述第一掩膜和所述第二掩膜将所述混叠音集合中的每个语音片段进行混叠音分离。
2.根据权利要求1所述的方法,其中,所述对所述多个语音片段进行聚类包括:
利用经过训练的机器学习模型获取所述多个语音片段中的每个语音片段的声纹特征;
根据所述声纹特征将所述多个语音片段进行聚类,以得到所述多个聚类集合。
3.根据权利要求2所述的方法,其中,所述获取所述多个语音片段中的每个语音片段的声纹特征包括:
利用移动窗提取所述多个语音片段中的第i个语音片段中的多个子声纹特征,其中所述移动窗的移动步长小于所述移动窗的长度,1≤i≤I,I为语音片段总数;
根据所述多个子声纹特征确定所述第i个语音片段的声纹特征。
4.根据权利要求3所述的方法,其中,所述根据所述多个子声纹特征确定所述第i个语音片段的声纹特征包括:
计算所述多个子声纹特征的加权平均值,以作为所述第i个语音片段的声纹特征。
5.根据权利要求3所述的方法,其中,
所述移动窗的移动步长为所述移动窗的长度的1/2。
6.根据权利要求1所述的方法,其中,
所述第一语音片段的时长和第二语音片段的时长均大于第二时长门限。
7.根据权利要求3所述的方法,其中,将所述第一聚类集合中不存在混叠音的语音片段加入第一语音集合,将所述第一聚类集合中存在混叠音的语音片段加入混叠音集合包括:
计算所述第一聚类集合中的第j个语音片段的声纹特征与所述第二聚类集合的聚类质心向量的第一质心相似度,1≤j≤J,J为所述第一聚类集合中的语音片段总数;
计算所述第j个语音片段的每个子声纹特征与所述第二聚类集合的聚类质心向量的第二质心相似度,以得到第一相似度序列;
在所述第一相似度序列中,统计连续满足第一预设条件的第二质心相似度的个数,其中所述第一预设条件为第二质心相似度与第一质心相似度的比值不小于预设门限;
若连续满足预设条件的第二质心相似度的个数大于个数门限,则将对应的移动窗标记为混叠音窗,记录混叠音窗的起止位置,并将所述第j个语音片段加入混叠音集合,否则将所述第j个语音片段加入第一语音集合。
8.根据权利要求3所述的方法,其中,所述将所述第二聚类集合中不存在混叠音的语音片段加入第二语音集合,将所述第二聚类集合中的存在混叠音的语音片段加入所述混叠音集合包括:
计算所述第二聚类集合中的第k个语音片段的声纹特征与所述第一聚类集合的聚类质心向量的第三质心相似度,1≤k≤K,K为所述第二聚类集合中的语音片段总数;
计算所述第k个语音片段的每个子声纹特征与所述第一聚类集合的聚类质心向量的第四质心相似度,以得到第二相似度序列;
在所述第二相似度序列中,统计连续满足第二预设条件的第四质心相似度的个数,其中所述第二预设条件为第四质心相似度与第三质心相似度的比值不小于预设门限;
若连续满足预设条件的第四质心相似度的个数大于个数门限,则将对应的移动窗标记为混叠音窗,记录混叠音窗的起止位置,并将所述第k个语音片段加入混叠音集合,否则将所述第k个语音片段加入第二语音集合。
9.根据权利要求7或8所述的方法,其中,
所述第一聚类集合的聚类质心向量为所述第一聚类集合中的各语音片段的声纹特征的加权平均值;
所述第二聚类集合的聚类质心向量为所述第二聚类集合中的各语音片段的声纹特征的加权平均值。
10.根据权利要求7或8所述的方法,其中,所述利用所述第一掩膜和所述第二掩膜将所述混叠音集合中的每个语音片段进行混叠音分离包括:
在所述混叠音集合中的每个语音片段中,根据每个混叠音窗的起止位置截取对应的混叠音音频;
将所述混叠音音频转换到频域,以得到频域信号;
根据所述频域信号和所述第一掩膜得到第一音频信息;
根据所述频域信号和所述第二掩膜得到第二音频信息;
分别将所述第一音频信息和第二音频信息转换到时域,以实现混叠音分离。
11.根据权利要求10所述的方法,其中,
所述第一音频信息为所述频域信号和所述第一掩膜的点乘运算结果;
所述第二音频信息为所述频域信号和所述第二掩膜的点乘运算结果。
12.根据权利要求1-8中任一项所述的方法,其中,所述将待识别语音进行分割包括:
对所述待识别语音进行噪声过滤处理,得到已过滤语音;
将所述已过滤语音进行分割,以得到多个语音片段。
13.一种混叠音处理装置,包括:
第一处理模块,被配置为将待识别语音进行分割,以得到多个语音片段;
第二处理模块,被配置为根据每个语音片段的声纹特征对所述多个语音片段进行聚类,以得到多个聚类集合;
第三处理模块,被配置为统计每个聚类集合中的时长大于第一时长门限的语音片段的个数,按照所述个数从大到小的顺序选择前两个聚类集合作为第一聚类集合和第二聚类集合;
第四处理模块,被配置为将所述第一聚类集合中不存在混叠音的语音片段加入第一语音集合,将所述第一聚类集合中存在混叠音的语音片段加入混叠音集合,将所述第二聚类集合中不存在混叠音的语音片段加入第二语音集合,将所述第二聚类集合中的存在混叠音的语音片段加入所述混叠音集合;
第五处理模块,被配置为利用所述第一语音集合中的第一语音片段生成第一掩膜,利用所述第二语音集合中的第二语音片段生成第二掩膜;
第六处理模块,被配置为利用所述第一掩膜和所述第二掩膜将所述混叠音集合中的每个语音片段进行混叠音分离。
14.根据权利要求13所述的装置,其中,
第二处理模块被配置为利用经过训练的机器学习模型获取所述多个语音片段中的每个语音片段的声纹特征,根据所述声纹特征将所述多个语音片段进行聚类,以得到所述多个聚类集合。
15.根据权利要求14所述的装置,其中,
第二处理模块被配置为利用移动窗提取所述多个语音片段中的第i个语音片段中的多个子声纹特征,其中所述移动窗的移动步长小于所述移动窗的长度,1≤i≤I,I为语音片段总数,根据所述多个子声纹特征确定所述第i个语音片段的声纹特征。
16.根据权利要求15所述的装置,其中,
第二处理模块被配置为计算所述多个子声纹特征的加权平均值,以作为所述第i个语音片段的声纹特征。
17.根据权利要求15所述的装置,其中,
所述移动窗的移动步长为所述移动窗的长度的1/2。
18.根据权利要求13所述的装置,其中,
所述第一语音片段的时长和第二语音片段的时长均大于第二时长门限。
19.根据权利要求15所述的装置,其中,
第四处理模块被配置为计算所述第一聚类集合中的第j个语音片段的声纹特征与所述第二聚类集合的聚类质心向量的第一质心相似度,1≤j≤J,J为所述第一聚类集合中的语音片段总数,计算所述第j个语音片段的每个子声纹特征与所述第二聚类集合的聚类质心向量的第二质心相似度,以得到第一相似度序列,在所述第一相似度序列中,统计连续满足第一预设条件的第二质心相似度的个数,其中所述第一预设条件为第二质心相似度与第一质心相似度的比值不小于预设门限,若连续满足预设条件的第二质心相似度的个数大于个数门限,则将对应的移动窗标记为混叠音窗,记录混叠音窗的起止位置,并将所述第j个语音片段加入混叠音集合,否则将所述第j个语音片段加入第一语音集合。
20.根据权利要求15所述的装置,其中,
第四处理模块被配置为计算所述第二聚类集合中的第k个语音片段的声纹特征与所述第一聚类集合的聚类质心向量的第三质心相似度,1≤k≤K,K为所述第二聚类集合中的语音片段总数,计算所述第k个语音片段的每个子声纹特征与所述第一聚类集合的聚类质心向量的第四质心相似度,以得到第二相似度序列,在所述第二相似度序列中,统计连续满足第二预设条件的第四质心相似度的个数,其中所述第二预设条件为第四质心相似度与第三质心相似度的比值不小于预设门限,若连续满足预设条件的第四质心相似度的个数大于个数门限,则将对应的移动窗标记为混叠音窗,记录混叠音窗的起止位置,并将所述第k个语音片段加入混叠音集合,否则将所述第k个语音片段加入第二语音集合。
21.根据权利要求19或20所述的装置,其中,
所述第一聚类集合的聚类质心向量为所述第一聚类集合中的各语音片段的声纹特征的加权平均值;
所述第二聚类集合的聚类质心向量为所述第二聚类集合中的各语音片段的声纹特征的加权平均值。
22.根据权利要求19或20所述的装置,其中,
第六处理模块被配置为在所述混叠音集合中的每个语音片段中,根据每个混叠音窗的起止位置截取对应的混叠音音频,将所述混叠音音频转换到频域,以得到频域信号,根据所述频域信号和所述第一掩膜得到第一音频信息,根据所述频域信号和所述第二掩膜得到第二音频信息,分别将所述第一音频信息和第二音频信息转换到时域,以实现混叠音分离。
23.根据权利要求22所述的装置,其中,
所述第一音频信息为所述频域信号和所述第一掩膜的点乘运算结果;
所述第二音频信息为所述频域信号和所述第二掩膜的点乘运算结果。
24.根据权利要求13-20中任一项所述的装置,其中,
第一处理模块被配置为对所述待识别语音进行噪声过滤处理,得到已过滤语音,将所述已过滤语音进行分割,以得到多个语音片段。
25.一种混叠音处理装置,包括:
存储器,被配置为存储指令;
处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如权利要求1-12中任一项所述的方法。
26.一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如权利要求1-12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210681168.8A CN114882914B (zh) | 2022-06-16 | 2022-06-16 | 混叠音处理方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210681168.8A CN114882914B (zh) | 2022-06-16 | 2022-06-16 | 混叠音处理方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114882914A true CN114882914A (zh) | 2022-08-09 |
CN114882914B CN114882914B (zh) | 2024-06-18 |
Family
ID=82682316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210681168.8A Active CN114882914B (zh) | 2022-06-16 | 2022-06-16 | 混叠音处理方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882914B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115579022A (zh) * | 2022-12-09 | 2023-01-06 | 南方电网数字电网研究院有限公司 | 叠音检测方法、装置、计算机设备和存储介质 |
CN116992422A (zh) * | 2023-09-05 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 生物数据处理方法、装置、设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109448749A (zh) * | 2018-12-19 | 2019-03-08 | 中国科学院自动化研究所 | 基于有监督学习听觉注意的语音提取方法、系统、装置 |
US20190318757A1 (en) * | 2018-04-11 | 2019-10-17 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
CN111445905A (zh) * | 2018-05-24 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 |
CN113053365A (zh) * | 2021-03-12 | 2021-06-29 | 云知声智能科技股份有限公司 | 语音分离方法、装置、设备和存储介质 |
-
2022
- 2022-06-16 CN CN202210681168.8A patent/CN114882914B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190318757A1 (en) * | 2018-04-11 | 2019-10-17 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
CN111445905A (zh) * | 2018-05-24 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 |
CN109448749A (zh) * | 2018-12-19 | 2019-03-08 | 中国科学院自动化研究所 | 基于有监督学习听觉注意的语音提取方法、系统、装置 |
CN113053365A (zh) * | 2021-03-12 | 2021-06-29 | 云知声智能科技股份有限公司 | 语音分离方法、装置、设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
付中华;赵亚丽;: "基于时频稀疏性的混叠语音分离及失真对策(续完)", 电声技术, no. 06, 17 June 2012 (2012-06-17) * |
周晓东;陈人楷;孙华星;莫钞然;: "基于注意力机制的单通道双人语音分离研究", 通信技术, no. 04, 10 April 2020 (2020-04-10) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115579022A (zh) * | 2022-12-09 | 2023-01-06 | 南方电网数字电网研究院有限公司 | 叠音检测方法、装置、计算机设备和存储介质 |
CN116992422A (zh) * | 2023-09-05 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 生物数据处理方法、装置、设备及计算机可读存储介质 |
CN116992422B (zh) * | 2023-09-05 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 生物数据处理方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114882914B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106504768B (zh) | 基于人工智能的电话拨测音频分类方法及装置 | |
CN114882914B (zh) | 混叠音处理方法、装置和存储介质 | |
Stöter et al. | Classification vs. regression in supervised learning for single channel speaker count estimation | |
CN110827804A (zh) | 一种音频帧序列到事件标签序列的声音事件标注方法 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN108899047A (zh) | 音频信号的掩蔽阈值估计方法、装置及存储介质 | |
CN109272988A (zh) | 基于多路卷积神经网络的语音识别方法 | |
CN110148408A (zh) | 一种基于深度残差的中文语音识别方法 | |
CN109410956A (zh) | 一种音频数据的对象识别方法、装置、设备及存储介质 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN108648769A (zh) | 语音活性检测方法、装置及设备 | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
Jaafar et al. | Automatic syllables segmentation for frog identification system | |
Linh et al. | MFCC-DTW algorithm for speech recognition in an intelligent wheelchair | |
Iqbal et al. | Stacked convolutional neural networks for general-purpose audio tagging | |
Venkatesan et al. | Automatic language identification using machine learning techniques | |
CN113327631B (zh) | 一种情感识别模型的训练方法、情感识别方法及装置 | |
Alashban et al. | Speaker gender classification in mono-language and cross-language using BLSTM network | |
CN118212929A (zh) | 一种个性化Ambisonics语音增强方法 | |
Köpüklü et al. | ResectNet: An Efficient Architecture for Voice Activity Detection on Mobile Devices. | |
Iqbal et al. | Incorporating auxiliary data for urban sound tagging | |
CN116072146A (zh) | 基于声纹识别的抽水蓄能站检测方法及系统 | |
Watcharasupat et al. | Improving Polyphonic Sound Event Detection on Multichannel Recordings with the S {\o} rensen-Dice Coefficient Loss and Transfer Learning | |
Zhang et al. | End-to-end overlapped speech detection and speaker counting with raw waveform | |
JP2017021267A (ja) | ウィナーフィルタ設計装置、音強調装置、音響特徴量選択装置、これらの方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |