CN112562706B - 一种基于时间潜在域特定说话人信息的目标语音提取方法 - Google Patents
一种基于时间潜在域特定说话人信息的目标语音提取方法 Download PDFInfo
- Publication number
- CN112562706B CN112562706B CN202011376556.2A CN202011376556A CN112562706B CN 112562706 B CN112562706 B CN 112562706B CN 202011376556 A CN202011376556 A CN 202011376556A CN 112562706 B CN112562706 B CN 112562706B
- Authority
- CN
- China
- Prior art keywords
- information
- target
- speaker
- voice
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 50
- 238000006243 chemical reaction Methods 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000007812 deficiency Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 210000003477 cochlea Anatomy 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于时间潜在域特定说话人信息的目标语音提取方法,包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块;待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵,此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块;在目标说话人特征信息指导器中,特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性,或者不包含目标说话人特征。本发明能实现从复杂声学环境语音信号到特定目标语音信号的端到端处理,能高效提取出针对特定任务的目标说话人信息,而不受其他干扰信号的影响,保障了模型传递给后续任务的特定目标语音信号具备极高的语音质量与可感知性。
Description
技术领域
本发明涉及一种目标语音提取方法,尤其涉及一种基于时间潜在域特定说话人信息的目标语音提取方法。
背景技术
信息时代的社会生活中,人类语言语音信息的高效率利用越来越吸引目光,在现代生活纷繁复杂的声学环境下,如何将其中满足特定任务需求的特定目标说话人语音单独提取,关系到了人们对目标信息的第一重感知是否清晰直观。
该问题实际上可视作对“鸡尾酒会问题”的新求解思路,在机器进行语音语言处理任务的过程中为其学习声音信号源之间的区别提供了新思路,从而获得新的学习信息与更好的目标说话人提取性能。当前进行类似任务的多是仅考虑到语音/非语音场景下的噪声信息消除、混响消除与语音质量增强工作,但这些工作都没有对实际需求的目标说话人音源信息进行学习。因此,上述方法在语音/语音混合场景,即多说话人复杂场景下的表现差强人意,基于说话人信息的目标语音信息提取正是为进一步解决这些不足而进行的新研究领域。
同时,传统的复数域时频语音信息在处理过程中会面临固有的相位信息缺失问题,尽管很多研究人员尝试改善,但效果仍不理想。而为了解决这一问题本发明提出在时间潜在空间域进行特征提取,进而完全避免了这一相位缺失问题的发生,获取了更好的目标语音提取性能。
满足需求的目标说话人语音信息可以用于人机交互、远程通信、语音风格迁移、人工耳蜗等等多种具体应用场景,具备更强的抗干扰能力与泛化性能。特定目标说话人的语音提取能够满足针对特定工作人员的操作需求与后续任务,有力地对接通信、医疗、影音娱乐、军工开发等国计民生的重要领域,具备巨大的研究价值与实际意义。
发明内容
为满足实际场景中具体任务对特定目标说话人信息的需求,提升具体任务中信息获取的效率,本发明提供一种基于时间潜在域特定说话人信息的目标语音提取方法。
本发明的目的是这样实现的:
一种基于时间潜在域特定说话人信息的目标语音提取方法,包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块:
待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵,此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块;在目标说话人特征信息指导器中,特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性,或者不包含目标说话人特征,判定得到的编码特征会回传到增强提取模块,当编码特征表明特征矩阵与某一目标说话人相关时,增强提取模块的计算过程将全程考虑到这一编码信息,从而接收目标说话人特征信息指导器的指导功能,而当编码特征表明特征矩阵不包含目标说话人信息时,增强提取模块将停止对目标信息的提取,并输出“无目标信息的提示”,与此同时将原始语音进行“无目标信息指导”的语音增强处理。
本发明还包括这样一些特征:
所述时间潜在域特征转换模型的损失计算借助语音信号信噪比计算实现,信噪比计算公式如下所示:
所述目标说话人特征信息指导器使用了注意力机制强化了对目标特有特征的关注程度,其编码特征直接作用于后续增强过程时不考虑损失计算,直接与总体提取增强模块共同训练,而其目标预测功能通过已经成熟的交叉熵损失实现梯度更新过程:
其中i表示一批训练数据中的某一组,而M表示总共支持的目标数。
与现有技术相比,本发明的有益效果是:
网络能实现从复杂声学环境语音信号到特定目标语音信号的端到端处理,网络的针对目标说话人的语音提取性能优秀,能高效提取出针对特定任务的目标说话人信息,而不受其他干扰信号的影响,保障了模型传递给后续任务的特定目标语音信号具备极高的语音质量与可感知性。
附图说明
图1是本发明的总体技术路线。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述。
一种在时间潜在域的语音信息特征转换模型,从时间潜在域空间获取目标说话人信息判定的模型以及最终进行目标语音信号提取的模型。显而易见的是,特定的任务需求都会指向具体的特定目标,为了将目标说话人与其他干扰源加以进一步的分割,本发明引入特定目标说话人的特征信息,进而指导方法对目标说话人语音的提取。与此同时,由于训练考虑到了说话人特征信息的指导,面对说话人独立场景的测试时模型也能借助已有特征信息表现出高效清晰的目标说话人语音信息提取性能。具体如下:
(1)语音信号的预处理与时间潜在域特征转换。
语音信号是时序的波形信号,为了获取更多的特征信息,将原始语音信号映射到信息更为丰富的时间潜在域数据空间,并将其统一规范数据格式。时间潜在域空间的语音信息特征将不再是傅里叶变换得到的复数特征矩阵,而是实数域的潜在映射特征矩阵,由此避免了时频域信息固有的相位缺失问题。同时,时间潜在域特征还原回语音信号的过程并非是上述转换过程的简单逆变换,而是考虑到了目标信号数据空间与时间潜在域特征的联系,在将时间潜在域特征还原到语音信号的同时,隐含了对目标语音信号的映射,能够有效地支持特定目标说话人特征信息的指导。
(2)特定目标说话人特征信息的引入。
构建专门的特定目标说话人特征提取模块,获取到时间潜在域特征矩阵信息之后将其输入特定目标说话人特征提取模块,借由该模块的注意力机制与目标说话人加以相关约束,使得模型能够有效学习到目标说话人间的细微区别,从而能够指导整个目标语音提取模型对目标说话人信息的提取。
复杂声学环境的语音信号通过该网络得到被有效提取的目标说话人语音信息。
其具体实施方案如下:
(1)语音信号的预处理与时间潜在域特征转换
语音信号是时序的波形信号,为了获取更多的特征信息,将语音信号映射到信息更为丰富的时间潜在域数据空间,并将其统一规范数据格式。时间潜在域空间的语音信息特征将不再是傅里叶变换得到的复数特征矩阵,而是实数域的潜在映射特征矩阵,由此避免了时频域信息固有的相位缺失问题。该特征矩阵转换模型可通过深度学习方法根据数据训练迭代求得,并固定用于后续训练。同时,存在一个与之相对应的模型,能够将时间潜在域的特征信息还原到语音信号,两个模型并非简单的互为逆变换的关系,而是实现了“原始语音信号——潜在域时间特征——目标语音信号”的映射联系,以支持对特定目标说话人语音信息的提取任务,为后续模块的工作提供支点。
(2)特定目标说话人特征信息指导器
通过时间潜在域特征矩阵转换模型,可以获得目标说话人信息的时间潜在域特征。该指导器模块将该特征进行编码,进一步精炼出对应说话人特有信息的编码特征,并利用注意力机制提升该模块对特定目标的关注程度,从而实现说话人信息的提取,预测该信息是否与目标说话人相符合,并通过预测结果优化模块的编码特征提取能力与预测能力。同时,说话人特有的编码特征将作用于整体的目标语音提取模型计算过程,作为目标说话人特征信息指导器的输出对目标语音提取模型的任务指向性进行导向。总体的目标语音提取模块在接收到特定目标的编码特征后会受该特征的指导作用所影响,完成对特定信息的提取。
应用过程中可单独将该模块进行训练,以适应时间任务中复杂多变的特定目标信息,同时,由于模块内的注意力机制提供了良好的泛化性能,添加新目标说话人信息的训练过程仅需较少的语料数据,更能满足实际场景任务的需求。
(3)总体的目标语音提取模型
总体的目标语音提取模型由时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块共同构成。待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵,此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块。
在目标说话人特征信息指导器中,特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性,或者不包含目标说话人特征。判定得到的编码特征会回传到增强提取模块。当编码特征表明特征矩阵与某一目标说话人相关时,增强提取模块的计算过程将全程考虑到这一编码信息,从而接收目标说话人特征信息指导器的指导功能——能高效提取出针对特定任务的目标说话人信息,而不受其他干扰信号的影响。而当编码特征表明特征矩阵不包含目标说话人信息时,增强提取模块将停止对目标信息的提取,并输出“无目标信息的提示”。与此同时将原始语音进行“无目标信息指导”的语音增强处理,为总体模型的输出提供了符合实际场景需求的性能下限,使得本发明在面对全新的目标说话人且其对应训练过程未完成时仍具有优秀的原始信号优化功能,具备较强的鲁棒性。语音增强功能可采用注意力机制训练得到的语音增强模组,在接受指导器输出引导的情况下完成对特定目标语音信息的提取任务。
(4)损失计算
上述三组模型组件可各自进行损失计算,以强化单独模组性能。也可考虑将目标说话人特征指导器与增强提取模组联合训练,以期望获取更好的目标说话人指导相关性质。时间潜在域特征转换模型在增强模组训练中可以是固定模组不参与其更新过程,只需将特征转换模型提前用训练数据集训练完毕即可参与后续应用。
时间域特征转换模块组输入为原始语音信号,输出为初始的向目标优化的语音信号,其损失计算可借助语音信号信噪比计算实现,以信噪比作为损失函数,信噪比(SNR)计算公式如下所示:
实际上,该损失计算方式并不唯一,当需求转向对原始信号的精准表达时还可使用如均方误差、L1范数损失等损失计算方式。
特定目标说话人特征信息指导器模块的网络架构创新性的使用了注意力机制强化了对目标特有特征(如音色、音调等)的关注程度,其编码特征直接作用于后续增强过程时不考虑损失计算,直接与总体提取增强模块共同训练,而其目标预测功能可通过已经成熟的交叉熵损失实现梯度更新过程。
其中i表示一批训练数据中的某一组,而M表示总共支持的目标数,p表示概率值,pic表示第i组第c类对应的概率值。除去交叉熵外还可通过相关度计算实现对指导器的损失计算。
本发明设计并实现了一种基于时间潜在域说话人特征信息,在复杂声学场景下能够对目标说话人语音进行提取的方法。信息时代的社会生活中,人类语言语音信息的高效率利用越来越吸引目光,在现代生活纷繁复杂的声学环境下,如何将其中满足特定任务需求的特定目标说话人语音单独提取,关系到了人们对目标信息的第一重感知是否清晰直观。
该问题实际上可视作对“鸡尾酒会问题”的新求解思路,在机器进行语音语言处理任务的过程中为其学习音源间的区别提供了新思路,从而获得新的学习信息与更好的目标说话人提取性能。当前进行类似任务的多是仅考虑到语音/非语音场景下的噪声信息消除、混响消除与语音质量增强工作,但这些工作都没有对实际需求的目标说话人音源信息进行学习。因此,上述方法在语音/语音混合场景,即多说话人复杂场景下的表现差强人意,基于说话人信息的目标语音信息提取正是为进一步解决这些不足而进行的新研究领域。
同时,传统的复数域时频语音信息在处理过程中会面临固有的相位信息缺失问题,尽管很多研究人员尝试改善,但效果仍不理想。而为了解决这一问题本发明提出在时间潜在空间域进行特征提取,进而完全避免了这一相位缺失问题的发生,获取了更好的目标语音提取性能。
满足需求的目标说话人语音信息可以用于人机交互、远程通信、语音风格迁移、人工耳蜗等等多种具体应用场景,具备更强的抗干扰能力与泛化性能,能够有力地对接通信、医疗、影音娱乐、军工开发等国计民生的重要领域,具备巨大的研究价值与实际意义。
Claims (3)
1.一种基于时间潜在域特定说话人信息的目标语音提取方法,其特征是,包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块:
其中,时间潜在特征为音频时序波形信号所对应的实数域特征,借助时间潜在域特征转换模型实现从时序波形到时间潜在特征的转换;潜在空间则是不同于传统傅里叶变换复数域空间的高维实数域空间,包含了傅里叶时频域信息缺失的相位信息,由时间潜在域特征转换模型根据训练数据分布与损失函数学习而来;
待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵,此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块;在目标说话人特征信息指导器中,特征矩阵将被判定为与某一特定的目标说话人时间潜在特征具有相关性,或者不包含目标说话人特征,判定得到的编码特征会回传到增强提取模块;
当编码特征表明特征矩阵与某一目标说话人相关时,增强提取模块的计算过程将全程考虑到这一编码信息,从而接收目标说话人特征信息指导器的指导功能——能高效提取出针对特定任务的目标说话人信息,而不受其他干扰信号的影响;而当编码特征表明特征矩阵不包含目标说话人信息时,增强提取模块将停止对目标信息的提取,并输出“无目标信息的提示”,与此同时将原始语音进行“无目标信息指导”的语音增强处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011376556.2A CN112562706B (zh) | 2020-11-30 | 2020-11-30 | 一种基于时间潜在域特定说话人信息的目标语音提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011376556.2A CN112562706B (zh) | 2020-11-30 | 2020-11-30 | 一种基于时间潜在域特定说话人信息的目标语音提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112562706A CN112562706A (zh) | 2021-03-26 |
CN112562706B true CN112562706B (zh) | 2023-05-05 |
Family
ID=75045626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011376556.2A Active CN112562706B (zh) | 2020-11-30 | 2020-11-30 | 一种基于时间潜在域特定说话人信息的目标语音提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562706B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103871417A (zh) * | 2014-03-25 | 2014-06-18 | 北京工业大学 | 一种移动手机特定连续语音过滤方法及过滤装置 |
CN108109619A (zh) * | 2017-11-15 | 2018-06-01 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
CN110675891A (zh) * | 2019-09-25 | 2020-01-10 | 电子科技大学 | 一种基于多层注意力机制的语音分离方法、模块 |
CN111128209A (zh) * | 2019-12-28 | 2020-05-08 | 天津大学 | 一种基于混合掩蔽学习目标的语音增强方法 |
CN111429936A (zh) * | 2020-03-19 | 2020-07-17 | 哈尔滨工程大学 | 一种语音信号分离方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014097748A1 (ja) * | 2012-12-18 | 2014-06-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム |
KR101658001B1 (ko) * | 2015-03-18 | 2016-09-21 | 서강대학교산학협력단 | 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법 |
-
2020
- 2020-11-30 CN CN202011376556.2A patent/CN112562706B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103871417A (zh) * | 2014-03-25 | 2014-06-18 | 北京工业大学 | 一种移动手机特定连续语音过滤方法及过滤装置 |
CN108109619A (zh) * | 2017-11-15 | 2018-06-01 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
CN110675891A (zh) * | 2019-09-25 | 2020-01-10 | 电子科技大学 | 一种基于多层注意力机制的语音分离方法、模块 |
CN111128209A (zh) * | 2019-12-28 | 2020-05-08 | 天津大学 | 一种基于混合掩蔽学习目标的语音增强方法 |
CN111429936A (zh) * | 2020-03-19 | 2020-07-17 | 哈尔滨工程大学 | 一种语音信号分离方法 |
Non-Patent Citations (2)
Title |
---|
Speaker-aware Deep Denoising Autoencoder with Embedded Speaker Identity for Speech Enhancement;Fu-Kai Chuang,等;《INTERSPEECH 2019》;20190919;第3173-3177页 * |
基于计算听觉场景分析的双说话人混合;吴 春;《万方数据库》;20141028;第1-52页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112562706A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110459240A (zh) | 基于卷积神经网络和深度聚类的多说话人语音分离方法 | |
CN108922518B (zh) | 语音数据扩增方法和系统 | |
CN111128197B (zh) | 基于声纹特征与生成对抗学习的多说话人语音分离方法 | |
CN110600018A (zh) | 语音识别方法及装置、神经网络训练方法及装置 | |
CN109741754A (zh) | 一种会议语音识别方法及系统、存储介质及终端 | |
EP4099709A1 (en) | Data processing method and apparatus, device, and readable storage medium | |
CN109599109A (zh) | 针对白盒场景的对抗音频生成方法及系统 | |
CN109949821B (zh) | 一种利用cnn的u-net结构进行远场语音去混响的方法 | |
CN109887496A (zh) | 一种黑盒场景下的定向对抗音频生成方法及系统 | |
CN109410911A (zh) | 基于语音识别的人工智能学习方法 | |
CN109754790A (zh) | 一种基于混合声学模型的语音识别系统及方法 | |
CN113539232B (zh) | 一种基于慕课语音数据集的语音合成方法 | |
CN110459232A (zh) | 一种基于循环生成对抗网络的语音转换方法 | |
CN112634918A (zh) | 一种基于声学后验概率的任意说话人语音转换系统及方法 | |
Yalta et al. | CNN-based multichannel end-to-end speech recognition for everyday home environments | |
CN113823273A (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
Wu et al. | Audio-Visual Multi-Talker Speech Recognition in a Cocktail Party. | |
CN112562706B (zh) | 一种基于时间潜在域特定说话人信息的目标语音提取方法 | |
CN110867178A (zh) | 一种多通道远场语音识别方法 | |
Landini et al. | Multi-speaker and wide-band simulated conversations as training data for end-to-end neural diarization | |
Jin et al. | Speech separation and emotion recognition for multi-speaker scenarios | |
CN110428841A (zh) | 一种基于不定长均值的声纹动态特征提取方法 | |
CN112420063A (zh) | 一种语音增强方法和装置 | |
Shen | Application of transfer learning algorithm and real time speech detection in music education platform | |
CN114168713A (zh) | 一种智能语音ai安抚方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |