CN117012220A - 语音处理方法、装置、电子设备及存储介质 - Google Patents
语音处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117012220A CN117012220A CN202310960912.2A CN202310960912A CN117012220A CN 117012220 A CN117012220 A CN 117012220A CN 202310960912 A CN202310960912 A CN 202310960912A CN 117012220 A CN117012220 A CN 117012220A
- Authority
- CN
- China
- Prior art keywords
- feature
- voice
- target
- characteristic
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000003672 processing method Methods 0.000 title abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims description 129
- 239000013598 vector Substances 0.000 claims description 122
- 230000000875 corresponding effect Effects 0.000 claims description 111
- 238000000034 method Methods 0.000 claims description 81
- 238000012549 training Methods 0.000 claims description 33
- 230000006798 recombination Effects 0.000 claims description 29
- 238000005215 recombination Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 20
- 239000012634 fragment Substances 0.000 claims description 20
- 230000009467 reduction Effects 0.000 claims description 9
- 230000002441 reversible effect Effects 0.000 claims description 8
- 230000002596 correlated effect Effects 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 20
- 210000004027 cell Anatomy 0.000 description 28
- 238000005516 engineering process Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 23
- 238000004364 calculation method Methods 0.000 description 18
- 238000011176 pooling Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 9
- 230000008447 perception Effects 0.000 description 9
- 241000282414 Homo sapiens Species 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000002238 attenuated effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例提供了一种语音处理方法、装置、电子设备以及存储介质,涉及人工智能技术领域。语音处理方法包括:获取目标对象的语音的第一语音特征,并获取混合语音的第二语音特征;混合语音中包括目标对象的语音;基于第一语音特征对第二语音特征进行至少一次特征衰减操作,基于最后一次特征衰减操作得到的多个输出特征单元获取目标特征序列;基于目标特征序列获取目标语音;目标语音为将目标对象的语音从混合语音中去除后的语音。本申请的语音处理方法可以不依赖于大量的目标对象的语音数据,有效降低语音处理成本,提高语音处理效率。
Description
技术领域
本申请涉及人工智能领域,具体而言,本申请涉及一种语音处理方法、装置、电子设备及存储介质。
背景技术
在一些场景中,例如在影视剧后期制作、提取音乐伴奏、影视剧短视频二创、会议软件等多种场景中,需要将混合语音中的指定说话人的语音进行无损抹除,并且保留其他说话人的语音,同时保证剔除完之后剩下的其他说话人语音不受损。
目前是通过使用大量的指定说话人数据并结合神经网络训练出来一个针对于该说话人的语音抹除模型,训练之后的模型能够直接对输入的混叠语音中存在的指定说话人语音进行抹除。这种方式需要大量的指定说话人数据,并且需要消除不同的指定说话人时,还需要训练不同的神经网络,成本较高,且效率较低。
发明内容
本申请实施例的目的旨在提供一种语音处理方法、装置及电子设备,本申请实施例提供的技术方案如下:
一方面,本申请实施例提供了一种语音处理的方法,该方法包括:
获取目标对象的语音的第一语音特征,并获取混合语音的第二语音特征;混合语音中包括目标对象的语音;
基于第一语音特征对第二语音特征进行至少一次特征衰减操作,基于最后一次特征衰减操作得到的多个输出特征单元获取目标特征序列;
基于目标特征序列获取目标语音;目标语音为将目标对象的语音从混合语音中去除后的语音;
其中,特征衰减操作包括:
基于第一语音特征与当前次特征衰减操作对应的多个目标特征单元中每一目标特征单元之间的相关性,确定每一目标特征单元对应的衰减系数;衰减系数用于表征每一目标特征单元中各个特征值的调整系数;第一次特征衰减操作对应的多个目标特征单元是基于第二语音特征中的多个第一特征单元所确定的;除第一次以外的每一次特征衰减操作对应的多个目标特征单元是基于上一次特征衰减操作得到的多个输出特征单元所确定的;
基于每一目标特征单元的衰减系数分别对每一目标特征单元进行衰减,得到当前次特征衰减操作对应的多个输出特征单元。
在一些可能的实施方式中,第一特征单元为三维特征;每一次特征衰减操作对应的目标特征单元是基于如下方式确定的:
针对第一次特征衰减操作,通过第一三维卷积网络对多个第一特征单元进行特征提取,得到第一次特征衰减操作对应的多个目标特征单元;
针对除第一次以外的每一次特征衰减操作,通过第一三维卷积网络对上一次特征衰减操作得到的多个输出特征单元进行特征提取,得到当前次特征衰减操作对应的多个目标特征单元。
在一些可能的实施方式中,基于第一语音特征对第二语音特征进行至少一次特征衰减操作,基于最后一次特征衰减操作得到的多个输出特征单元获取目标特征序列,包括:
将第二语音特征按照时间维度进行分割,得到多个第一特征单元;
基于第一语音特征对多个第一特征单元进行至少一次特征衰减操作;
基于第二三维卷积网络对最后一次特征衰减操作得到的多个输出特征单元进行特征还原,得到多个第二特征单元;
将多个第二特征单元按照时间维度进行拼接,得到目标特征序列。
在一些可能的实施方式中,获取目标对象的第一语音特征,包括:
针对目标对象的语音的每一语音片段,提取语音片段的初始语音特征;
基于第一网络模块对初始语音特征进行特征提取,得到第三语音特征;第一网络模块包括多个依次级联的特征提取层;
基于第二网络模块对初始语音特征进行特征提取,得到第四语音特征;第二网络模块是第一网络模块中的各个特征提取层基于预设顺序依次级联形成的;预设顺序为第一网络模块中各个特征提取层的级联顺序的相反顺序;
基于至少一个第一中间特征和对应的至少一个第二中间特征,获取拼接特征;第一中间特征为第一网络模块对初始语音特征进行特征提取的中间特征,第二中间特征为第二网络模块对初始语音特征进行特征提取的中间特征;
通过融合第三语音特征、第四语音特征和拼接特征,获取语音片段的特征值向量;
基于每一语音片段的特征值向量,获取第一语音特征。
在一些可能的实施方式中,第一网络模块包括多个依次级联的网络单元;每一网络单元包括级联的两个特征提取层;每一网络单元的输入特征和输出特征的尺寸保持不变。
在一些可能的实施方式中,基于至少一个第一中间特征和对应的至少一个第二中间特征,获取拼接特征,包括:
基于第一中间特征和对应的第二中间特征获取初始拼接特征;其中,第一中间特征为第一网络模块的多个网络单元中第一目标网络单元的输出特征;第二中间特征为第二网络模块的多个网络单元中第二目标网络单元的输出特征;第一目标网络单元在第一网络模块中的网络层级与第二目标网络单元在第二网络模块中的网络层级相同;
通过融合至少两个初始拼接特征,得到拼接特征。
在一些可能的实施方式中,基于每一语音片段的特征值向量,获取第一语音特征,包括:
基于每一语音片段的特征值向量,生成目标对象的语音的特征值序列;
针对每一特征值向量,从特征值向量中提取多个第一子向量;每相邻的两个第一子向量之间存在部分重叠的元素;
通过第三三维卷积网络对特征值序列的多个第一子向量进行至少一次特征提取,得到多个第二子向量;
对多个第二子向量进行特征重组,生成第一语音特征。
在一些可能的实施方式中,对多个第二子向量进行特征重组,生成第一语音特征,包括:
对每一特征值向量对应的多个第二子向量进行特征重组,得到每一特征值向量对应的重组特征;
确定各个重组特征的平均值,得到第一语音特征。
在一些可能的实施方式中,针对每一目标特征单元,第一语音特征与目标特征单元之间的相关性与目标特征单元对应的衰减系数正相关。
在一些可能的实施方式中,获取目标对象的语音的第一语音特征,包括:
通过训练好的语音特征提取网络获取提取目标对象的语音的第一语音特征;
其中,语音特征提取网络是通过多个样本对象的样本语音对初始特提取网络进行至少一次训练操作,直至符合训练结束条件的初始特提取网络得到的,训练操作包括:
将样本对象的样本语音输入初始特征提取网络,得到样本语音特征;
对样本语音特征进行分类,确定样本语音属于样本对象的分类概率;
基于分类概率调整初始特征提取网络的参数,并将调整参数后的初始特征提取网络作为下一次训练操作对应的初始特征提取网络。
另一方面,本申请实施例提供了一种语音处理装置,该装置包括:
第一获取模块,用于获取目标对象的语音的第一语音特征,并获取混合语音的第二语音特征;混合语音中包括目标对象的语音;
特征衰减模块,用于基于第一语音特征对第二语音特征进行至少一次特征衰减操作,基于最后一次特征衰减操作得到的多个输出特征单元获取目标特征序列;
第二获取模块,用于基于目标特征序列获取目标语音;目标语音为将目标对象的语音从混合语音中去除后的语音;
其中,特征衰减模块在执行特征衰减操作时,具体用于:
基于第一语音特征与当前次特征衰减操作对应的多个目标特征单元中每一目标特征单元之间的相关性,确定每一目标特征单元对应的衰减系数;衰减系数用于表征每一目标特征单元中各个特征值的调整系数;第一次特征衰减操作对应的多个目标特征单元是基于第二语音特征中的多个第一特征单元所确定的;除第一次以外的每一次特征衰减操作对应的多个目标特征单元是基于上一次特征衰减操作得到的多个输出特征单元所确定的;
基于每一目标特征单元的衰减系数分别对每一目标特征单元进行衰减,得到当前次特征衰减操作对应的多个输出特征单元。
在一些可能的实施方式中,第一特征单元为三维特征;每一次特征衰减操作对应的目标特征单元是基于如下方式确定的:
针对第一次特征衰减操作,通过第一三维卷积网络对多个第一特征单元进行特征提取,得到第一次特征衰减操作对应的多个目标特征单元;
针对除第一次以外的每一次特征衰减操作,通过第一三维卷积网络对上一次特征衰减操作得到的多个输出特征单元进行特征提取,得到当前次特征衰减操作对应的多个目标特征单元。
在一些可能的实施方式中,特征衰减模块在基于第一语音特征对第二语音特征进行至少一次特征衰减操作,基于最后一次特征衰减操作得到的多个输出特征单元获取目标特征序列时,具体用于:
将第二语音特征按照时间维度进行分割,得到多个第一特征单元;
基于第一语音特征对多个第一特征单元进行至少一次特征衰减操作;
基于第二三维卷积网络对最后一次特征衰减操作得到的多个输出特征单元进行特征还原,得到多个第二特征单元;
将多个第二特征单元按照时间维度进行拼接,得到目标特征序列。
在一些可能的实施方式中,第一获取模块在获取目标对象的第一语音特征时,具体用于:
针对目标对象的语音的每一语音片段,提取语音片段的初始语音特征;
基于第一网络模块对初始语音特征进行特征提取,得到第三语音特征;第一网络模块包括多个依次级联的特征提取层;
基于第二网络模块对初始语音特征进行特征提取,得到第四语音特征;第二网络模块是第一网络模块中的各个特征提取层基于预设顺序依次级联形成的;预设顺序为第一网络模块中各个特征提取层的级联顺序的相反顺序;
基于至少一个第一中间特征和对应的至少一个第二中间特征,获取拼接特征;第一中间特征为第一网络模块对初始语音特征进行特征提取的中间特征,第二中间特征为第二网络模块对初始语音特征进行特征提取的中间特征;
通过融合第三语音特征、第四语音特征和拼接特征,获取语音片段的特征值向量;
基于每一语音片段的特征值向量,获取第一语音特征。
在一些可能的实施方式中,第一网络模块包括多个依次级联的网络单元;每一网络单元包括级联的两个特征提取层;每一网络单元的输入特征和输出特征的尺寸保持不变。
在一些可能的实施方式中,第一获取模块在基于至少一个第一中间特征和对应的至少一个第二中间特征,获取拼接特征时,具体用于:
基于第一中间特征和对应的第二中间特征获取初始拼接特征;其中,第一中间特征为第一网络模块的多个网络单元中第一目标网络单元的输出特征;第二中间特征为第二网络模块的多个网络单元中第二目标网络单元的输出特征;第一目标网络单元在第一网络模块中的网络层级与第二目标网络单元在第二网络模块中的网络层级相同;
通过融合至少两个初始拼接特征,得到拼接特征。
在一些可能的实施方式中,第一获取模块在基于每一语音片段的特征值向量,获取第一语音特征时,具体用于:
基于每一语音片段的特征值向量,生成目标对象的语音的特征值序列;
针对每一特征值向量,从特征值向量中提取多个第一子向量;每相邻的两个第一子向量之间存在部分重叠的元素;
通过第三三维卷积网络对特征值序列的多个第一子向量进行至少一次特征提取,得到多个第二子向量;
对多个第二子向量进行特征重组,生成第一语音特征。
在一些可能的实施方式中,第一获取模块在对多个第二子向量进行特征重组,生成第一语音特征时,具体用于:
对每一特征值向量对应的多个第二子向量进行特征重组,得到每一特征值向量对应的重组特征;
确定各个重组特征的平均值,得到第一语音特征。
在一些可能的实施方式中,针对每一目标特征单元,第一语音特征与目标特征单元之间的相关性与目标特征单元对应的衰减系数正相关。
在一些可能的实施方式中,第一获取模块在获取目标对象的语音的第一语音特征时,具体用于:
通过训练好的语音特征提取网络获取提取目标对象的语音的第一语音特征;
装置还包括训练模块,用于:
通过多个样本对象的样本语音对初始特提取网络进行至少一次训练操作,直至符合训练结束条件的初始特提取网络获取语音特征提取网络;
训练模块在执行训练操作时,具体用于:
将样本对象的样本语音输入初始特征提取网络,得到样本语音特征;
对样本语音特征进行分类,确定样本语音属于样本对象的分类概率;
基于分类概率调整初始特征提取网络的参数,并将调整参数后的初始特征提取网络作为下一次训练操作对应的初始特征提取网络。
另一方面,本申请实施例还提供了一种电子设备,该电子设备包括存储器和处理器,存储器中存储有计算机程序,处理器执行该计算机程序以实现本申请任一可选实施例中提供的方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。
另一方面,本申请实施例还提供了一种计算机程序产品,该计算机产品包括计算机程序,该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。
本申请实施例提供的技术方案带来的有益效果如下:
采用目标对象的语音的第一语音特征,对混合语音的第二语音特征进行至少一次特征衰减操作,每一次特征衰减操作中,基于第一语音特征与当前次特征衰减操作对应的多个目标特征单元中每一目标特征单元之间的相关性,确定每一目标特征单元对应的衰减系数,基于每一目标特征单元的衰减系数分别对每一目标特征单元进行衰减,基于最后一次特征衰减操作得到的多个输出特征单元获取目标语音,结合目标对象的语音的第一语音特征和混合语音的第二语音特征即可从混合语音中消除目标对象的语音,不依赖于大量的目标对象的语音数据,可以有效降低语音处理成本,提高语音处理效率。
此外,通过attention机制来对目标对象的第一语音特征和混合语音进行相关度计算,然后由相关度转换为衰减系数并生成对应的掩码,能够利用衰减系数对混合语音中目标对象的语音信号和特性进行衰减,从而达到无损的对目标对象的语音抹除。使用掩码来进行剔除的方法,能够让整个混合语音中所有区域和频带,都基于目标对象的特性针对掩码特性进行衰减,从而保留其他说话人的语音特性,达到无损的目的,避免为了抹除目标对象的语音而影响了其他说话人的语音数据。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为一个示例中提供的语音处理方法的应用环境示意图;
图2为本申请实施例提供的一种语音处理方法的流程示意图;
图3为本申请一个示例提供的针对第二语音特征进行特征衰减的方案的示意图;
图4为本申请一个示例提供的语音处理方法的示意图;
图5为本申请一个示例提供的第一网络模块和第二网络模块的排布顺序的示意图;
图6为本申请一个示例提供的获取语音片段的特征值向量的示意图;
图7为本申请一个示例提供的获取第一语音特征的方案的示意图;
图8为本申请一个示例提供的初始特征提取网络的训练方案的示意图;
图9为本申请实施例提供的语音处理方案的示意图;
图10为本申请实施例提供的一种语音处理装置的结构示意图;
图11为本申请实施例所适用的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。在描述多个(两个或两个以上)项目时,如果没有明确限定多个项目之间的关系,这多个项目之间可以是指多个项目中的一个、多个或者全部,例如,对于“参数A包括A1、A2、A3”的描述,可以实现为参数A包括A1或A2或A3,还可以实现为参数A包括参数A1、A2、A3这三项中的至少两项。
为了更好的说明和理解本申请实施例提供的方案,首先对本申请实施例中所涉及的一些相关的技术用语进行介绍:
Mel频率:一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度,是在进行信号处理时,更能够迎合人耳的听觉感受阈变化来人为设定的频率刻度,在音频处理领域,有很多基础音频特征是通过Mel频率来进行计算的。
Conv:卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(pooling layer)。
说话人识别:说话人识别是在语音模式识别中的一个任务名称,其目的就是为了能够在给定一段语音之后,能够经过模型的计算,分辨出当前说话发声的有几个人,并且能够识别出在此段语音中存在的说话人身份,也就是哪些人在发出声音。
3DCNN:3D(三维,Three Dimensions)维度的卷积网络层,与二维的卷积层相比,三维的卷积层除了在输入的特征图上表征了宽和高两个维度外,还会添加时间维度作为表征。在本方案中就是在输入的特征图上提取了宽高以及时间的三个维度,从而能够让音频时许上的表征和特性进行深度的学习。
Attention机制(注意力机制):模仿人类注意力而提出的一种解决问题的办法,简单地说就是从大量信息中快速筛选出高价值信息。主要用于解决模型输入序列较长的时候很难获得最终合理的向量表示问题,做法是保留模型的中间结果,用新的模型对其进行学习,并将其与输出进行关联,从而达到信息筛选的目的。
掩码:在计算机学科及数字逻辑中指的是一串二进制数字,通过与目标数字的按位操作,达到屏蔽指定位而实现需求。在本方案中所设置的掩码机制是属于浮点数矩阵,通过掩码控制来对输入的特征进行降权然后达到对于某些特定的音频或者说话人的特性进行衰减。
本申请中主要是为了能够在输入的一段语音或者影视剧语音中,针对于指定的说话人,将该混叠语音中的该说话人的语音进行无损抹除,并且保留其他说话人的语音,同时保证剔除完之后剩下的其他说话人语音不受损。
本申请的落地场景有:
1.首先是本申请能够在影视剧后期制作上进行台词语音上的落地。在影视剧制作的后期阶段,可能会由于种种原因,有些演员会临时退出该影视剧的制作和拍摄,画面片段可以进行删除,存在一些演员未出现画面但存在语音的片段,所以需要后期处理的时候进行抹除,本申请能够自动化快速的将混叠语音中该演员语音进行抹除。
2.本申请还可以在提取音乐伴奏上进行落地。很多歌手在录制自己的作品时,都是直接使用乐器进行演奏,同时由歌手演唱歌词,所以最终的成品中是伴奏和歌唱同时存在的。如果想要提取伴奏的话,可能需要按照乐谱使用乐器重新演奏一遍,但这会导致与之前录制的有差异。所以本申请能够直接在原来录制的歌曲中,将演唱歌声进行无损抹除,从而保留伴奏。这种落地能够拓展到歌曲后期制作以及短视频二创制作等方面。
3.本申请能够落地于影视剧短视频二创方面,很多up主在制作影视剧剪辑短视频时,会选择制作针对于某个演员的片段的集锦,但是该演员的镜头可能会包含与其他演员混叠的台词语音。所以本申请能够针对于多余的说话人进行语音抹除,从而只保留指定演员的语音,然后制作出该演员的集锦短视频。
4.本申请同样适用于会议软件,会议软件会自动的录制会议上的内容,并转录翻译成为文本。但是在会议的时候会存在大量的多个人同时发言讨论的情况,这种情况对于语音识别来说是一种很复杂的情况,导致识别出来的文本错误率升高。本申请能够无损指定人的语音,一个一个的进行识别,从而完成准确的语音文本转录。
相关的方案主要有如下几种:
1.通过人工听觉感受进行对音频的编辑分割,从而达到对指定说话人语音抹除的目的。可以通过正版授权的音频编辑软件,通过人工听不同说话人的语音音色,将混叠语音的文件加载到软件中,然后通过人工对音频波形的调整和抽离分割,在音频编辑软件上将指定说话人的语音从混叠语音中进行抹除。
首先使用人工的方式使用音频编辑软件来对指定说话人的语音进行抹除的方法,该方法是一种纯人工的方法,会极大地拉低整个应用流程的效率,人工进行处理一条语音时,需要耗费大量的时间和成本。同时因为人听觉主观的差异,所以针对于同一个说话人的语音特性,不同人的理解不同,就会导致进行抹除的时候,存在差异,尤其是混叠语音中存在特别多说话人时,很容易导致抹除的语音为非指定的说话人。
2.可以通过基于每个人说话的频率差异,按照指定说话人的音色频率表现,以此来设计特地给的指定说话人语音信号过滤器,将混叠的语音信号输入到过滤器中,能够将指定说话人的信号过滤出来,保留过滤器之外的语音信号,从而能够将混叠语音中的该指定说话人语音进行抹除。
使用基于说话人频率分布来按照音色频率表现设置语音信号过滤器来对不同说话人的语音信号进行过滤抹除,虽然能够再一定程度上可以完成对不同说话人的语音进行抹除,但是会面临着抹除不干净或者剩下其他说话人语音受损的情况。因为不同的说话人其语音特性的频率分布会存在一定程度上的交叉,如果滤波器的频带设置的宽松,就会导致抹除的语音不干净,如果设置的太过紧张,就会导致其他说话人的语音受损。
3.通过使用大量的指定说话人数据并结合神经网络训练出来一个针对于该说话人的语音抹除模型,训练之后的模型能够直接对输入的混叠语音中存在的指定说话人语音进行抹除。
通过使用大量的指定说话人数据结合神经网络训练一个针对于指定说话人的语音抹除器,虽然这种方法能够精准的无损语音抹除功能,但是这种方法需要使用大量的指定说话人的数据来训练模型,而且刚方法还需要不同人的数据用来制作混叠语音,所以这种方法对数据的规模有严重的依赖,成本较高。
4.可以借助使用语音分离模型,来对语音中存在的所有说话人的语音进行分离,然后剔除掉指定说话人的语音后,对其他说话人的语音再次进行混叠,从而能够实现抹除指定说话人语音的目的。
使用语音分离的方法来进行对所有说话人的语音做出分离,然后将指定说话人的语音进行剔除后,把其他说话人的语音混叠起来,从而完成对指定说话人语音的抹除。该方法严重依赖与对说话人语音的分离效果,分离效果会直接影响最终的抹除效果。同时进行再度混叠时因为不清楚原来语音的强度比例,会导致再混叠的语音与原来的语音不一致。
首先本申请构建的是一种全自动的根据输入的语音数据,对指定说话人的语音进行抹除。当前的方案是一种完全自动化的并且标准化的处理方法,彻底摆脱了对于人工的依赖,不需要进行人工的操作,能够在落地应用上节省了大量的时间和成本。
本申请创新性的使用了基于海量开源数据集训练了说话人识别网络,然后让该说话人识别网络能够充分的学习到不同人的语音特性表征,从而能够让系统直接使用为语音特性向量提取器,只需要一条指定说话人的数据就可以得到指定说话人的语音特性。所以能够彻底摆脱对指定说话人数据的依赖,降低了系统使用复杂性。
本申请创新性的使用了可嵌入向量的传递方式,来对指定说话人的语音特性进行提取后,直接嵌入到抹除网络,从而达到针对于指定说话人语音特性声纹信息传递的目的。该方法能够确保将说话人信息充分表达,并且提升整个模型的可移植性,不受说话人数据规模的限制,整个系统增加了灵活性。
本申请创新性的发明了一种基于嵌入相关掩码计算的3D卷积网络的指定说话人语音抹除方法,该系统中是通过注意力机制来对指定说话人的语音特性和混叠语音进行相关度计算,然后由相关度转换为相关掩码,从而能够利用掩码嵌入对混叠语音中指定说话人语音信号和特性进行衰减,从而能够达到无损的对指定说话人语音抹除。使用掩码来进行剔除的方法,能够让整个混叠语音中所有区域和频带,都针对于该指定说话人的特性针对掩码特性进行衰减,从而保留其他说话人的语音特性,达到无损的目的,能够直接避免为了抹除指定说话人语音而影响了其他说话人的混叠语音数据。
本申请创新性的将3DCNN网络引入到语音抹除的模型中,使用3DCNN在时间维度拓展的特性,能够在进行整个语音抹除的阶段,考虑到前后时序的关联性,因为同一个说话人的语音特性前后相关性很强,所以使用3DCNN能够让计算相关度时,更能够准确综合的进行计算,从而能够生成更准确的掩码矩阵,达到更准确的对指定说话人语音的抹除。
本申请的语音处理方法可以基于人工智能(Artificial Intelligence,AI)中的机器学习(Machine Learning,ML)来实现。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大语音处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。大模型技术为语音技术发展带来变革,WavLM,UniSpeech等沿用Transformer架构的预训练模型具有强大的泛化性、通用性,可以优秀完成各方向的语音处理任务。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的语音处理等技术,具体通过如下实施例进行说明。
下面通过对几个可选的实施例的描述,对本申请提供的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
本申请实施例提供的语音处理方法,可以由任意的计算机设备执行,可选的,可以由服务器或终端单独执行,也可以由服务器和终端协同执行。
图1为本申请实施例提供的语音处理方法的应用环境示意图。其中,应用环境可以包括服务器101和终端102。终端102将目标对象的语音和混合语音发送至服务器101,服务器101获取目标对象的语音的第一语音特征,并获取混合语音的第二语音特征;所述混合语音中包括所述目标对象的语音;服务器101基于所述第一语音特征对所述第二语音特征进行至少一次特征衰减操作,基于最后一次特征衰减操作得到的多个输出特征单元获取目标特征序列;服务器101基于所述目标特征序列获取目标语音;所述目标语音为将所述目标对象的语音从所述混合语音中去除后的语音。服务器101将目标语音发送至终端102。
上述应用场景中,是服务器获取终端发送的混合语音和目标对象的语音,生成目标语音,在其他应用场景中,可以由终端直接生成目标语音。
本技术领域技术人员可以理解,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、笔记本电脑、数字广播接收器、MID(Mobile Internet Devices,移动互联网设备)、PDA(个人数字助理)、台式计算机、智能家电、车载终端(例如车载导航终端、车载电脑等)、智能音箱、智能手表等,终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,但并不局限于此。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。具体也可基于实际应用场景需求确定,在此不作限定。
本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
在一些可能的实施方式中,提供了一种语音处理方法,可以由服务器执行。
图2示出了本申请实施例提供的一种语音处理方法的流程示意图,以执行主体为服务器为例,本申请提供的语音处理方法,可以包括如下步骤:
步骤S201,获取目标对象的语音的第一语音特征,并获取混合语音的第二语音特征。
其中,混合语音中包括目标对象的语音,目标对象是指需要从混合语音中去除语音的对象。
例如,混合语音中包括甲、乙和丙三人谈话的声音,需要从混合语音中去除目标对象甲的语音。
具体的,可以是终端将混合语音和目标对象的语音发送至服务器,服务器获取目标对象的语音的第一语音特征,并获取混合语音的第二语音特征。
在具体实施过程中,可以先提取目标对象的语音的Mel频率特征,然后基于目标对象的语音的Mel频率特征获取第一语音特征,具体获取第一语音特征的过程将在下文进行进一步详细阐述。
在具体实施过程中,可以提取混合语音的Mel频率特征,得到第二语音特征,Mel频率特征相对于传统的频率概念来说,更能够贴近真实的人类声带发声,适用于语音领域的模式识别任务。。
步骤S202,基于第一语音特征对第二语音特征进行至少一次特征衰减操作,基于最后一次特征衰减操作得到的多个输出特征单元获取目标特征序列。
其中,特征衰减操作包括:
(1)基于第一语音特征与当前次特征衰减操作对应的多个目标特征单元中每一目标特征单元之间的相关性,确定每一目标特征单元对应的衰减系数。
其中,衰减系数用于表征每一目标特征单元中各个特征值的调整系数。
具体的,可以采用注意力(attention)机制确定第一语音特征与当前次特征衰减操作对应的多个目标特征单元中每一目标特征单元之间的相关性,即确定每一目标特征单元的注意力权重,然后基于每一目标特征单元的注意力权重确定针对每一目标特征单元对应的衰减系数。
在具体实施过程中,针对每一目标特征单元,第一语音特征与目标特征单元之间的相关性与目标特征单元对应的衰减系数正相关。
也就是说,第一语音特征与目标特征单元之间的相关性越高,目标特征单元的注意力权重越大,则针对目标特征单元中各个特征值的调整系数就越高,即目标特征单元中各个特征值需要衰减的比率越高。
其中,第一次特征衰减操作对应的多个目标特征单元是基于第二语音特征中的多个第一特征单元所确定的;除第一次以外的每一次特征衰减操作对应的多个目标特征单元是基于上一次特征衰减操作得到的多个输出特征单元所确定的。
具体的,第一次特征衰减操作时,先将第二语音特征分割为多个第一特征单元,基于第一特征单元确定多个目标特征单元;自第二次特征衰减操作起的每一次特征衰减操作,都是基于上一次特征衰减操作得到的多个输出特征单元确定目标特征单元。
(2)基于每一目标特征单元的衰减系数分别对每一目标特征单元进行衰减,得到当前次特征衰减操作对应的多个输出特征单元。
具体的,可以以掩码矩阵的形式来表征每一目标特征单元的衰减系数,即表示每一目标特征单元中各个特征值的需要衰减的比例,基于掩码矩阵对每一目标特征单元的特征值进行衰减。
在具体实施过程中,可以进行至少一次特征衰减操作,从而将混合语音中的目标对象的语音衰减的更干净。
具体的,可以通过对最后一次特征衰减操作得到的多个输出特征单元进行拼接,获取目标特征序列,具体获取目标特征序列的过程将在下文进行进一步详细阐述。
步骤S203,基于目标特征序列获取目标语音。
其中,目标语音为将目标对象的语音从混合语音中去除后的语音。
具体的,可以通过对目标特征序列进行还原,即特征提取的逆变换,获取目标语音。
上述实施例中,采用目标对象的语音的第一语音特征,对混合语音的第二语音特征进行至少一次特征衰减操作,每一次特征衰减操作中,基于第一语音特征与当前次特征衰减操作对应的多个目标特征单元中每一目标特征单元之间的相关性,确定每一目标特征单元对应的衰减系数,基于每一目标特征单元的衰减系数分别对每一目标特征单元进行衰减,基于最后一次特征衰减操作得到的多个输出特征单元获取目标语音,结合目标对象的语音的第一语音特征和混合语音的第二语音特征即可从混合语音中消除目标对象的语音,不依赖于大量的目标对象的语音数据,可以有效降低语音处理成本,提高语音处理效率。
此外,通过attention机制来对目标对象的第一语音特征和混合语音进行相关度计算,然后由相关度转换为衰减系数并生成对应的掩码,能够利用衰减系数对混合语音中目标对象的语音信号和特性进行衰减,从而达到无损的对目标对象的语音抹除。使用掩码来进行剔除的方法,能够让整个混合语音中所有区域和频带,都基于目标对象的特性针对掩码特性进行衰减,从而保留其他说话人的语音特性,达到无损的目的,避免为了抹除目标对象的语音而影响了其他说话人的语音数据。
在一些可能的实施方式中,第一特征单元为三维特征。
具体的,将第二语音特征分割为多个三维的第一特征单元,然后通过3DCNN对多个三维的第一特征单元进行特征提取。
具体的,对每一次特征衰减操作对应的目标特征单元是基于如下方式确定的:
针对第一次特征衰减操作,通过第一三维卷积网络对多个第一特征单元进行特征提取,得到第一次特征衰减操作对应的多个目标特征单元;
针对除第一次以外的每一次特征衰减操作,通过第一三维卷积网络对上一次特征衰减操作得到的多个输出特征单元进行特征提取,得到当前次特征衰减操作对应的多个目标特征单元。
也就是说,在包括多次特征衰减操作的情况下,通过第一三维卷积网络对第一次特征衰减操作得到的多个输出特征单元进行特征提取,得到第二次特征衰减操作对应的多个目标特征单元,然后基于第一语音特征与第二次衰减操作对应的多个目标特征单元中每一目标特征单元之间的相关性,确定每一目标特征单元对应的衰减系数,基于每一目标特征单元的衰减系数分别对每一目标特征单元进行衰减,得到第二次衰减操作对应的多个输出特征单元,以此类推,直至执行完多次特征衰减操作,得到最后一次特征衰减操作对应的输出特征单元,再基于最后一次特征衰减操作得到的多个输出特征单元获取目标特征序列。
以下将结合示例阐述每一次特征衰减操作中基于第一语音特征与多个目标特征单元中每一目标特征单元之间的相关性确定衰减系数的过程。
如图3所示,在一个示例中,将多个目标特征单元和第一语音特征分别输入到对应的全连接层,使得两者向量维度相同;然后将经过全连接层后的多个目标特征单元和第一语音特征进行拼接,成为一个二倍维度的向量,最后输入到一个全连接层+softmax中进行相关权重的计算,得到注意力权重,基于注意力权重确定衰减系数,即最终的掩码矩阵;然后根据掩码矩阵和多个目标特征单元形成的特征图进行对位点成,进行特征衰减操作。
在一些可能的实施方式中,步骤S202基于第一语音特征对第二语音特征进行至少一次特征衰减操作,基于最后一次特征衰减操作得到的多个输出特征单元获取目标特征序列,可以包括:
(1)将第二语音特征按照时间维度进行分割,得到多个第一特征单元;
(2)基于第一语音特征对多个第一特征单元进行至少一次特征衰减操作;
(3)基于第二三维卷积网络对最后一次特征衰减操作得到的多个输出特征单元进行特征还原,得到多个第二特征单元;
(4)将多个第二特征单元按照时间维度进行拼接,得到目标特征序列。
具体的,按照时间维度将第二语音特征进行分割时,得到的一个第一特征单元之前是不重叠的。
在具体实施过程中,最后一次特征衰减操作得到的多个输出特征单元为三维特征,通过第二三维卷积网络,即通过3DCNN让输出特征单元还原为语音基础特征;经过3DCNN之后,将所有的第二特征单元按照时间维度进行拼接,进行reshape(形状恢复),从而能够计算出最终可还原的目标特征序列,该目标特征序列经过逆变换后就能够得到最终抹除后的混叠语音信号,即得到目标语音。
上述实施例中,基于第一语音特征对第二语音特征进行至少一次特征衰减操作获取目标特征序列,可以通过语音抹除模型来执行。
上述实施例中,同一个目标对象的语音特性前后相关性很强,将3DCNN引入到语音抹除模型中,使用3DCNN在时间维度拓展的特性,能够在进行整个语音抹除的阶段,考虑到前后时序的关联性,在计算相关度时,更能够准确综合的进行计算,从而能够生成更准确的掩码矩阵,达到更准确的对指定目标对象的语音的抹除。
以下将结合符合和示例对上述获取目标语音的过程进行阐述。
如图4所示,在一个示例中,本申请获取目标语音的过程可以包括:
获取目标对象的语音的第一语音特征,并获取混合语音的第二语音特征;即图中所示的计算Mel特征;
将第二语音特征按照时间维度进行分割,得到多个第一特征单元;即图中所示的特征分块,得到多个三维特征图;
通过第一三维卷积网络对多个第一特征单元进行特征提取,得到第一次特征衰减操作对应的多个目标特征单元,即图中所示的三维特征图经过3DCNN进行特征提取,基于第一语音特征与多个目标特征单元中每一目标特征单元之间的相关性,即图中所示的注意力(attention)计算,确定每一目标特征单元对应的衰减系数,即图中所示的掩码计算;
通过第一三维卷积网络对第一次特征衰减操作得到的多个输出特征单元进行特征提取,得到第二次衰减操作对应的多个目标特征单元;即图中所示的经过第一次特征衰减操作之后,通过3DCNN进行特征提取;
基于第一语音特征与多个目标特征单元中每一目标特征单元之间的相关性,即图中所示第二次的注意力计算,确定每一目标特征单元对应的衰减系数,即图中所示的第二次的掩码计算;
基于第二三维卷积网络对最后一次特征衰减操作得到的多个输出特征单元进行特征还原,得到多个第二特征单元;即图中所示的通过3DCNN对第二次衰减操作得到的多个输出特征单元进行特征还原;
将多个第二特征单元按照时间维度进行拼接,即进行reshape(还原),得到目标特征序列。
在一些可能的实施方式中,步骤S201获取目标对象的第一语音特征,可以包括:
(1)针对目标对象的语音的每一语音片段,提取语音片段的初始语音特征。
具体的,可以先将目标对象的语音分割为多个语音片段,然后分别提取每一个语音片段的初始语音特征。
具体的,初始语音特征可以包括Mel特征。
(2)基于第一网络模块对初始语音特征进行特征提取,得到第三语音特征。
其中,第一网络模块包括多个依次级联的特征提取层。
具体的,每一特征提取层可以包括级联的卷积层和池化层。
在具体实施过程中,特征提取层中的卷积层的卷积核较小,使用小卷积核的话,为了实现同样的卷积规模计算,就需要拓展更深的网络层,所以在小卷积核的使用上,整个系统的网络深度更高。
(3)基于第二网络模块对初始语音特征进行特征提取,得到第四语音特征。
其中,第二网络模块是第一网络模块中的各个特征提取层基于预设顺序依次级联形成的;预设顺序为第一网络模块中各个特征提取层的级联顺序的相反顺序。
也就是说,第二网络模块和第二网络模块中特征提取层的顺序的反向排布的,这种方式为了能够让模型一部分的网络层注重于在频域的感知上学习,另一部分的网络层注重于在时域的感知上学习,这样就能够让网络在时域和频域上分别进行详细的信息获取。
在具体实施过程中,第二网络模块是第一网络模块中各个特征提取层反向排布形成的,因此第二网络模块的特征提取层中的卷积层也为小卷积核。
需要注意的是,在第二网络模块中,各个特征提取层反向排布,但每一特征提取层内的卷积层和池化层的顺序是没有变更的。
如图5所示,在一个示例中,第一网络模块中包括依次级联的特征提取层A、特征提取层B、特征提取层C和特征提取层D;则第二网络模块中包括依次级联的特征提取层D、特征提取层C、特征提取层B和特征提取层A。
(4)基于至少一个第一中间特征和对应的至少一个第二中间特征,获取拼接特征。
具体的,第一中间特征为第一网络模块对初始语音特征进行特征提取的中间特征,第二中间特征为第二网络模块对初始语音特征进行特征提取的中间特征。
在具体实施过程中,可以基于一个第一中间特征和一个对应的第二中间特征,获取一个拼接特征;也可以是基于一个第一中间特征和一个对应的第二中间特征,获取一个初始拼接特征,然后基于多个初始拼接特征获取拼接特征。
在一些可能的实施方式中,第一网络模块包括多个依次级联的网络单元;每一网络单元包括级联的两个特征提取层;每一网络单元的输入特征和输出特征的尺寸保持不变。
具体的,网络单元中包括两个特征层的卷积核可以分别为n×k×3和k×n×3,其中,3为通道数,n和k分别对应时域和频域,这样可以保证网络单元的输入特征和输出特征的尺寸保持不变。
在具体实施过程中,基于至少一个第一中间特征和对应的至少一个第二中间特征,获取拼接特征,可以包括:
a、基于第一中间特征和对应的第二中间特征获取初始拼接特征;
b、通过融合至少两个初始拼接特征,得到拼接特征。
其中,第一中间特征为第一网络模块的多个网络单元中第一目标网络单元的输出特征;第二中间特征为第二网络模块的多个网络单元中第二目标网络单元的输出特征;第一目标网络单元在第一网络模块中的网络层级与第二目标网络单元在第二网络模块中的网络层级相同。
具体的,网络单元的输入特征和输出特征的尺寸保持不变,则可以保证第一中间特征和第二中间特征的尺寸相同,从而可以将第一中间特征和第二中间特征进行拼接。
(5)通过融合第三语音特征、第四语音特征和拼接特征,获取语音片段的特征值向量。
具体的,可以确定第三语音特征、第四语音特征和拼接特征的平均值,然后对平均值进行池化处理,得到语音片段的特征值向量。
(6)基于每一语音片段的特征值向量,获取第一语音特征。
具体的,可以基于每一语音片段的特征值向量,获取目标对象的语音的特征值序列,然后通过3DCNN基于特征值序列进行特征提取,获取第一语音特征。
上述实施例中,第一网络模块和第二网络模块的特征提取层均为小卷积核,使用小卷积核能够在进行特征计算时,会注意到更多的细节,针对不同人的语音特性之间的差异较小的场景下,能够更容易抓取细节,从而提高第一语音特征的准确性。
此外,第一网络模块中各个特征提取层的排布顺序和第二网络模块中各个特征提取层的排布顺序相反,即一个网络模块能够更加注重于时域感知学习,另一个模块能够更加注重于频域的感知学习,就能够在时域和频域上分别进行详细的信息获取,进一步提高第一语音特征的准确性。
进一步的,通过第一中间特征和第二中间特征获取拼接特征,能够使得第一网络模块和第二网络模块互相填充不同领域的确实,通过融合第三语音特征、第四语音特征和拼接特征,获取语音片段的特征值向量,进一步提高第一语音特征的准确性。
上述实施例中,获取目标语音的每一语音片段的特征值向量的过程,可以通过编码模型执行。
以下将结合示例详细阐述编码模型的结构以及获取语音片段的特征值向量的具体过程。
如图6所示,在一个示例中,获取语音片段的特征值向量,可以包括如下步骤:
针对目标对象的语音的每一语音片段,提取语音片段的初始语音特征;即图中所示的计算Mel特征;
基于第一网络模块601对初始语音特征进行特征提取,得到第三语音特征;第一网络模块包括多个依次级联的网络单元;每一网络单元包括级联的两个特征提取层;每一网络模块包括级联的卷积层和池化层;
基于第二网络模块602对初始语音特征进行特征提取,得到第四语音特征;第二网络模块602是第一网络模块中的各个特征提取层基于预设顺序依次级联形成的;预设顺序为第一网络模块中各个特征提取层的级联顺序的相反顺序;
基于第一中间特征和对应的第二中间特征获取初始拼接特征;即图中所示,基于第一网络模块601中第一个网络单元的输出特征,也就是第二个网络层级的输出特征和第二网络模块602中第一个网络单元的输出特征,也就是第二个网络层级的输出特征获取初始拼接特征;并基于第一网络模块601中第二个网络单元的输出特征,也就是第四个网络层级的输出特征和第二网络模块602中第二个网络单元的输出特征,也就是第四个网络层级的输出特征获取初始拼接特征;通过融合两个初始拼接特征,得到拼接特征;可以将获取拼接特征的这一部分作为中间支路603;
通过确定第三语音特征、第四语音特征和拼接特征的平均值,对平均值进行池化处理,得到语音片段的特征值向量;即图中所示平均以及经过的1×1×3的池化层;平均值仍然是一个n×m×3的特征图层,需要在通道上做池化(pooling),池化选择1×1×3,这样过了池化之后就变成了n×m,经过特征还原(reshape)之后会变成一个特征值向量。
以下将结合实施例进一步阐述基于每一语音片段的特征值向量获取第一语音特征的具体过程。
在一些可能的实施方式中,基于每一语音片段的特征值向量,获取第一语音特征,可以包括:
①基于每一语音片段的特征值向量,生成目标对象的语音的特征值序列。
具体的,目标对象的语音为一段音频,整条音频分为很多段,即多个语音片段,每段生成一个特征值向量,那么组合起来就是一个特征值序列。
在具体实施过程中,基于各个语音片端在目标对象的语音中的时间顺序,将每一语音片段的特征值向量进行拼接,生成目标对象的语音的特征值序列。
②针对每一特征值向量,从特征值向量中提取多个第一子向量。
其中,每相邻的两个第一子向量之间存在部分重叠的元素。
也就是说,每相邻的两个第一子向量之间不完全相同,但至少存在一个相同的元素,这样能够使相邻的第一子向量之间具有关联信息。
例如,特征值向量为[1,2,3,4,5]可以提取[1,2,3]、[2,3,4]、[3,4,5]这几个第一子向量。
③通过第三三维卷积网络对特征值序列的多个第一子向量进行至少一次特征提取,得到多个第二子向量。
其中,各个第一子向量也均为三维向量,通过第三三维卷积网络,即3DCNN对在时间维度上进行提取相关信息,在同一个目标对象的前提下,语音的前后带有强相关度,可以使用3DCNN来进行语义的提取计算。
④对多个第二子向量进行特征重组,生成第一语音特征。
其中,这里的特征重组也可以称为“reshape”,是指从特征值向量中提取多个第一子向量过程对应的特征恢复。
具体的,对多个第二子向量进行特征重组,生成第一语音特征,可以包括:
对每一特征值向量对应的多个第二子向量进行特征重组,得到每一特征值向量对应的重组特征;
确定各个重组特征的平均值,得到第一语音特征。
具体的,使用3DCNN网络进行计算之后,对生成的第二子向量进行reshape,最终生成一条一维特征序列,一维特征序列中包括多个重组特征,然后使用该特征序列求取平,计算出最终的第一语音特征。
上述实施例中,基于目标语音的每一语音片段的特征值向量获取第一语音特征的过程,可以通过说话人识别模型执行。
以下将结合示例阐述基于每一语音片段的特征值向量获取第一语音特征的具体过程。
如图7所示,在一个示例中,基于每一语音片段的特征值向量获取第一语音特征,可以包括:
基于每一语音片段的特征值向量,生成目标对象的语音的特征值序列;即图中所示的音频高级语义特征向量序列;
针对每一特征值向量,从特征值向量中提取多个第一子向量;每相邻的两个第一子向量之间存在部分重叠的元素;即图中所示的特征分块;
通过第三三维卷积网络对特征值序列的多个第一子向量进行至少一次特征提取,得到多个第二子向量;本示例中,通过3DCNN进行两次特征提取,得到多个第二子向量;
对每一特征值向量对应的多个第二子向量进行特征重组,得到每一特征值向量对应的重组特征;即图中所示的3D池化+特征重组;
确定各个重组特征的平均值,得到第一语音特征;即图中所示的均值,得到第一语音特征。
在一些可能的实施方式中,获取目标对象的语音的第一语音特征,包括:
通过训练好的语音特征提取网络获取提取目标对象的语音的第一语音特征。
也就是说,将目标对象的语音输入到训练好的语音特征提取网络,即可得到第一语音特征,即语音特征提取网络可以包括编码模型和说话人识别模型。
针对语音特征提取网络提取第一语音特征的具体过程,上述实施例已经进行详细阐述,以下将具体阐述语音特征提取网络的训练过程。
具体的,语音特征提取网络是通过多个样本对象的样本语音对初始特提取网络进行至少一次训练操作,直至符合训练结束条件的初始特提取网络得到的,也就是将符合训练结束条件的初始特提取网络作为语音特征提取网络。
其中,训练操作包括:
将样本对象的样本语音输入初始特征提取网络,得到样本语音特征;
对样本语音特征进行分类,确定样本语音属于样本对象的分类概率;
基于分类概率调整初始特征提取网络的参数,并将调整参数后的初始特征提取网络作为下一次训练操作对应的初始特征提取网络。
具体的,通过初始特征提取网络提取的样本语音特征,可能并不能准确表达样本对象的样本语音,通过对样本语音特征进行分类,可以得到样本语音属于多个候选对象的分类概率,其中包括样本语音属于样本对象的分类概率,基于分类概率调整初始特征提取网络的参数,即使得样本语音属于样本对象的分类概率尽可能的较大。
在具体实施过程中,预设训练结束条件可以是训练次数达到预设次数;也可以是样本语音属于样本对象的分类概率大于预设阈值;或者是样本对象的分类概率收敛等等,本申请对此不进行限定。
如图8所示,针对初始特征提取网络的训练过程中,还包括分类器,即通过分类器对样本语音特征进行分类,确定样本语音属于样本对象的分类概率,然后对初始特征提取网络的参数进行调整,将调整参数后的初始特征提取网络作为新的初始特征提取网络,重复执行提取样本语音特征、对样本语音特征进行分类的步骤,直至符合训练结束条件,得到训练好的语音特征提取网络。
为了更清楚的阐述本申请的语音处理方法,以下将结合示例进行进一步详细说明。
如图9所示,在一个示例中,本申请的语音处理方法,可以包括如下步骤:
获取目标对象的语音,针对目标对象的语音的每一语音片段,提取语音片段的初始语音特征;即图中所示的计算特征;初始语音特征可以为Mel特征;
基于每一语音片段的初始语音特征获取特征值向量,基于每一语音片段的特征值向量,生成目标对象的语音的特征值序列;即图中所示的通过编码模型获取特征值序列;
基于目标对象的语音的特征值序列,获取目标对象的语音的第一语音特征;即图中所示的通过说话人识别模型获取第一语音特征;
获取混合语音的第二语音特征;即图中所示的针对混合语音计算特征;
基于第一语音特征对第二语音特征进行至少一次特征衰减操作,针对每一次特征衰减操作,确定每一目标特征单元对应的衰减系数;即图中所示的采用attention机制,进行掩码计算;
基于每一目标特征单元的衰减系数分别对每一目标特征单元进行衰减,获取目标语音。
上述的语音处理方法,采用目标对象的语音的第一语音特征,对混合语音的第二语音特征进行至少一次特征衰减操作,每一次特征衰减操作中,基于第一语音特征与当前次特征衰减操作对应的多个目标特征单元中每一目标特征单元之间的相关性,确定每一目标特征单元对应的衰减系数,基于每一目标特征单元的衰减系数分别对每一目标特征单元进行衰减,基于最后一次特征衰减操作得到的多个输出特征单元获取目标语音,结合目标对象的语音的第一语音特征和混合语音的第二语音特征即可从混合语音中消除目标对象的语音,不依赖于大量的目标对象的语音数据,可以有效降低语音处理成本,提高语音处理效率。
进一步的,通过attention机制来对目标对象的第一语音特征和混合语音进行相关度计算,然后由相关度转换为衰减系数并生成对应的掩码,能够利用衰减系数对混合语音中目标对象的语音信号和特性进行衰减,从而达到无损的对目标对象的语音抹除。使用掩码来进行剔除的方法,能够让整个混合语音中所有区域和频带,都基于目标对象的特性针对掩码特性进行衰减,从而保留其他说话人的语音特性,达到无损的目的,避免为了抹除目标对象的语音而影响了其他说话人的语音数据。
进一步的,同一个目标对象的语音特性前后相关性很强,将3DCNN引入到语音抹除模型中,使用3DCNN在时间维度拓展的特性,能够在进行整个语音抹除的阶段,考虑到前后时序的关联性,在计算相关度时,更能够准确综合的进行计算,从而能够生成更准确的掩码矩阵,达到更准确的对指定目标对象的语音的抹除。
进一步的,第一网络模块和第二网络模块的特征提取层均为小卷积核,使用小卷积核能够在进行特征计算时,会注意到更多的细节,针对不同人的语音特性之间的差异较小的场景下,能够更容易抓取细节,从而提高第一语音特征的准确性。
进一步的,第一网络模块中各个特征提取层的排布顺序和第二网络模块中各个特征提取层的排布顺序相反,即一个网络模块能够更加注重于时域感知学习,另一个模块能够更加注重于频域的感知学习,就能够在时域和频域上分别进行详细的信息获取,进一步提高第一语音特征的准确性。
进一步的,通过第一中间特征和第二中间特征获取拼接特征,能够使得第一网络模块和第二网络模块互相填充不同领域的确实,通过融合第三语音特征、第四语音特征和拼接特征,获取语音片段的特征值向量,进一步提高第一语音特征的准确性。
如图10所示,在一些可能的实施方式中,提供了一种语音处理装置,包括:
第一获取模块1001,用于获取目标对象的语音的第一语音特征,并获取混合语音的第二语音特征;混合语音中包括目标对象的语音;
特征衰减模块1002,用于基于第一语音特征对第二语音特征进行至少一次特征衰减操作,基于最后一次特征衰减操作得到的多个输出特征单元获取目标特征序列;
第二获取模块1003,用于基于目标特征序列获取目标语音;目标语音为将目标对象的语音从混合语音中去除后的语音;
其中,特征衰减模块1002在执行特征衰减操作时,具体用于:
基于第一语音特征与当前次特征衰减操作对应的多个目标特征单元中每一目标特征单元之间的相关性,确定每一目标特征单元对应的衰减系数;衰减系数用于表征每一目标特征单元中各个特征值的调整系数;第一次特征衰减操作对应的多个目标特征单元是基于第二语音特征中的多个第一特征单元所确定的;除第一次以外的每一次特征衰减操作对应的多个目标特征单元是基于上一次特征衰减操作得到的多个输出特征单元所确定的;
基于每一目标特征单元的衰减系数分别对每一目标特征单元进行衰减,得到当前次特征衰减操作对应的多个输出特征单元。
在一些可能的实施方式中,第一特征单元为三维特征;每一次特征衰减操作对应的目标特征单元是基于如下方式确定的:
针对第一次特征衰减操作,通过第一三维卷积网络对多个第一特征单元进行特征提取,得到第一次特征衰减操作对应的多个目标特征单元;
针对除第一次以外的每一次特征衰减操作,通过第一三维卷积网络对上一次特征衰减操作得到的多个输出特征单元进行特征提取,得到当前次特征衰减操作对应的多个目标特征单元。
在一些可能的实施方式中,特征衰减模块1002在基于第一语音特征对第二语音特征进行至少一次特征衰减操作,基于最后一次特征衰减操作得到的多个输出特征单元获取目标特征序列时,具体用于:
将第二语音特征按照时间维度进行分割,得到多个第一特征单元;
基于第一语音特征对多个第一特征单元进行至少一次特征衰减操作;
基于第二三维卷积网络对最后一次特征衰减操作得到的多个输出特征单元进行特征还原,得到多个第二特征单元;
将多个第二特征单元按照时间维度进行拼接,得到目标特征序列。
在一些可能的实施方式中,第一获取模块1001在获取目标对象的第一语音特征时,具体用于:
针对目标对象的语音的每一语音片段,提取语音片段的初始语音特征;
基于第一网络模块对初始语音特征进行特征提取,得到第三语音特征;第一网络模块包括多个依次级联的特征提取层;
基于第二网络模块对初始语音特征进行特征提取,得到第四语音特征;第二网络模块是第一网络模块中的各个特征提取层基于预设顺序依次级联形成的;预设顺序为第一网络模块中各个特征提取层的级联顺序的相反顺序;
基于至少一个第一中间特征和对应的至少一个第二中间特征,获取拼接特征;第一中间特征为第一网络模块对初始语音特征进行特征提取的中间特征,第二中间特征为第二网络模块对初始语音特征进行特征提取的中间特征;
通过融合第三语音特征、第四语音特征和拼接特征,获取语音片段的特征值向量;
基于每一语音片段的特征值向量,获取第一语音特征。
在一些可能的实施方式中,第一网络模块包括多个依次级联的网络单元;每一网络单元包括级联的两个特征提取层;每一网络单元的输入特征和输出特征的尺寸保持不变。
在一些可能的实施方式中,第一获取模块1001在基于至少一个第一中间特征和对应的至少一个第二中间特征,获取拼接特征时,具体用于:
基于第一中间特征和对应的第二中间特征获取初始拼接特征;其中,第一中间特征为第一网络模块的多个网络单元中第一目标网络单元的输出特征;第二中间特征为第二网络模块的多个网络单元中第二目标网络单元的输出特征;第一目标网络单元在第一网络模块中的网络层级与第二目标网络单元在第二网络模块中的网络层级相同;
通过融合至少两个初始拼接特征,得到拼接特征。
在一些可能的实施方式中,第一获取模块1001在基于每一语音片段的特征值向量,获取第一语音特征时,具体用于:
基于每一语音片段的特征值向量,生成目标对象的语音的特征值序列;
针对每一特征值向量,从特征值向量中提取多个第一子向量;每相邻的两个第一子向量之间存在部分重叠的元素;
通过第三三维卷积网络对特征值序列的多个第一子向量进行至少一次特征提取,得到多个第二子向量;
对多个第二子向量进行特征重组,生成第一语音特征。
在一些可能的实施方式中,第一获取模块1001在对多个第二子向量进行特征重组,生成第一语音特征时,具体用于:
对每一特征值向量对应的多个第二子向量进行特征重组,得到每一特征值向量对应的重组特征;
确定各个重组特征的平均值,得到第一语音特征。
在一些可能的实施方式中,针对每一目标特征单元,第一语音特征与目标特征单元之间的相关性与目标特征单元对应的衰减系数正相关。
在一些可能的实施方式中,第一获取模块1001在获取目标对象的语音的第一语音特征时,具体用于:
通过训练好的语音特征提取网络获取提取目标对象的语音的第一语音特征;
装置还包括训练模块,用于:
通过多个样本对象的样本语音对初始特提取网络进行至少一次训练操作,直至符合训练结束条件的初始特提取网络获取语音特征提取网络;
训练模块在执行训练操作时,具体用于:
将样本对象的样本语音输入初始特征提取网络,得到样本语音特征;
对样本语音特征进行分类,确定样本语音属于样本对象的分类概率;
基于分类概率调整初始特征提取网络的参数,并将调整参数后的初始特征提取网络作为下一次训练操作对应的初始特征提取网络。
上述的语音处理装置,采用目标对象的语音的第一语音特征,对混合语音的第二语音特征进行至少一次特征衰减操作,每一次特征衰减操作中,基于第一语音特征与当前次特征衰减操作对应的多个目标特征单元中每一目标特征单元之间的相关性,确定每一目标特征单元对应的衰减系数,基于每一目标特征单元的衰减系数分别对每一目标特征单元进行衰减,基于最后一次特征衰减操作得到的多个输出特征单元获取目标语音,结合目标对象的语音的第一语音特征和混合语音的第二语音特征即可从混合语音中消除目标对象的语音,不依赖于大量的目标对象的语音数据,可以有效降低语音处理成本,提高语音处理效率。
进一步的,通过attention机制来对目标对象的第一语音特征和混合语音进行相关度计算,然后由相关度转换为衰减系数并生成对应的掩码,能够利用衰减系数对混合语音中目标对象的语音信号和特性进行衰减,从而达到无损的对目标对象的语音抹除。使用掩码来进行剔除的方法,能够让整个混合语音中所有区域和频带,都基于目标对象的特性针对掩码特性进行衰减,从而保留其他说话人的语音特性,达到无损的目的,避免为了抹除目标对象的语音而影响了其他说话人的语音数据。
进一步的,同一个目标对象的语音特性前后相关性很强,将3DCNN引入到语音抹除模型中,使用3DCNN在时间维度拓展的特性,能够在进行整个语音抹除的阶段,考虑到前后时序的关联性,在计算相关度时,更能够准确综合的进行计算,从而能够生成更准确的掩码矩阵,达到更准确的对指定目标对象的语音的抹除。
进一步的,第一网络模块和第二网络模块的特征提取层均为小卷积核,使用小卷积核能够在进行特征计算时,会注意到更多的细节,针对不同人的语音特性之间的差异较小的场景下,能够更容易抓取细节,从而提高第一语音特征的准确性。
进一步的,第一网络模块中各个特征提取层的排布顺序和第二网络模块中各个特征提取层的排布顺序相反,即一个网络模块能够更加注重于时域感知学习,另一个模块能够更加注重于频域的感知学习,就能够在时域和频域上分别进行详细的信息获取,进一步提高第一语音特征的准确性。
进一步的,通过第一中间特征和第二中间特征获取拼接特征,能够使得第一网络模块和第二网络模块互相填充不同领域的确实,通过融合第三语音特征、第四语音特征和拼接特征,获取语音片段的特征值向量,进一步提高第一语音特征的准确性。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行存储器中存储的计算机程序时可实现本申请任一可选实施例中的方法。
图11示出了本发明实施例所适用的一种电子设备的结构示意图,如图11所示,该电子设备可以为服务器或者终端,该电子设备可以用于实施本发明任一实施例中提供的方法。
如图11中所示,该电子设备1100主要可以包括至少一个处理器1101(图11中示出了一个)、存储器1102、通信模块1103和输入/输出接口1104等组件,可选的,各组件之间可以通过总线1105实现连接通信。需要说明的是,图11中示出的该电子设备1100的结构只是示意性的,并不构成对本申请实施例提供的方法所适用的电子设备的限定。
其中,存储器1102可以用于存储操作系统和应用程序等,应用程序可以包括在被处理器1101调用时实现本发明实施例所示方法的计算机程序,还可以包括用于实现其他功能或服务的程序。存储器1102可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和计算机程序的其他类型的动态存储设备,也可以是EEPROM(ElectricallyErasable Programmable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(CompactDisc Read Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
处理器1101通过总线1105与存储器1102连接,通过调用存储器1102中所存储的应用程序实现相应的功能。其中,处理器1101可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application Specific Integrated Circuit,专用集成电路),FPGA(FieldProgrammable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合,其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器1101也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
电子设备1100可以通过通信模块1103(可以包括但不限于网络接口等组件)连接到网络,以通过网络与其它设备(如用户终端或服务器等)的通信,实现数据的交互,如向其他设备发送数据或从其他设备接收数据。其中,通信模块1103可以包括有线网络接口和/或无线网络接口等,即通信模块可以包括有线通信模块或无线通信模块中的至少一项。
电子设备1100可以通过输入/输出接口1104可以连接所需要的输入/输出设备,如键盘、显示设备等,电子设备110自身可以具有显示设备,还可以通过接口1104外接其他显示设备。可选的,通过该接口1104还可以连接存储装置,如硬盘等,以可以将电子设备1100中的数据存储到存储装置中,或者读取存储装置中的数据,还可以将存储装置中的数据存储到存储器1102中。可以理解的,输入/输出接口1104可以是有线接口,也可以是无线接口。根据实际应用场景的不同,与输入/输出接口1104连接的设备,可以是电子设备1100的组成部分,也可以是在需要时与电子设备1100连接的外接设备。
用于连接各组件的总线1105可以包括一通路,在上述组件之间传送信息。总线1105可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。根据功能的不同,总线1105可以分为地址总线、数据总线、控制总线等。
可选的,对于本发明实施例所提供的方案而言,存储器1102可以用于存储执行本发明方案的计算机程序,并由处理器1101来运行,处理器1101运行该计算机程序时实现本发明实施例提供的方法或装置的动作。
基于与本申请实施例提供的方法相同的原理,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的相应内容。
本申请实施例还提供了一种计算机程序产品,该产品包括计算机程序,该计算机程序被处理器执行时可实现前述方法实施例的相应内容。
需要说明的是,在本申请的可选实施例中,所涉及到的目标对象的语音、混合语音等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得对象许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。也就是说,本申请实施例中如果涉及到与目标对象的语音、混合语音等相关的数据,这些数据需要经由对象授权同意、且符合国家和地区的相关法律法规和标准的情况下获取的。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (14)
1.一种语音处理方法,其特征在于,所述方法包括:
获取目标对象的语音的第一语音特征,并获取混合语音的第二语音特征;所述混合语音中包括所述目标对象的语音;
基于所述第一语音特征对所述第二语音特征进行至少一次特征衰减操作,基于最后一次特征衰减操作得到的多个输出特征单元获取目标特征序列;
基于所述目标特征序列获取目标语音;所述目标语音为将所述目标对象的语音从所述混合语音中去除后的语音;
其中,所述特征衰减操作包括:
基于所述第一语音特征与当前次特征衰减操作对应的多个目标特征单元中每一目标特征单元之间的相关性,确定每一目标特征单元对应的衰减系数;所述衰减系数用于表征每一目标特征单元中各个特征值的调整系数;第一次特征衰减操作对应的多个目标特征单元是基于所述第二语音特征中的多个第一特征单元所确定的;除第一次以外的每一次特征衰减操作对应的多个目标特征单元是基于上一次特征衰减操作得到的多个输出特征单元所确定的;
基于每一目标特征单元的衰减系数分别对每一目标特征单元进行衰减,得到当前次特征衰减操作对应的多个输出特征单元。
2.根据权利要求1所述的方法,其特征在于,所述第一特征单元为三维特征;每一次特征衰减操作对应的目标特征单元是基于如下方式确定的:
针对第一次特征衰减操作,通过第一三维卷积网络对多个所述第一特征单元进行特征提取,得到第一次特征衰减操作对应的多个目标特征单元;
针对除第一次以外的每一次特征衰减操作,通过所述第一三维卷积网络对上一次特征衰减操作得到的多个输出特征单元进行特征提取,得到当前次特征衰减操作对应的多个目标特征单元。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一语音特征对所述第二语音特征进行至少一次特征衰减操作,基于最后一次特征衰减操作得到的多个输出特征单元获取目标特征序列,包括:
将所述第二语音特征按照时间维度进行分割,得到多个第一特征单元;
基于所述第一语音特征对多个第一特征单元进行至少一次特征衰减操作;
基于第二三维卷积网络对最后一次特征衰减操作得到的多个输出特征单元进行特征还原,得到多个第二特征单元;
将所述多个第二特征单元按照时间维度进行拼接,得到所述目标特征序列。
4.根据权利要求1所述的方法,其特征在于,所述获取目标对象的第一语音特征,包括:
针对所述目标对象的语音的每一语音片段,提取所述语音片段的初始语音特征;
基于第一网络模块对所述初始语音特征进行特征提取,得到第三语音特征;所述第一网络模块包括多个依次级联的特征提取层;
基于第二网络模块对所述初始语音特征进行特征提取,得到第四语音特征;所述第二网络模块是所述第一网络模块中的各个特征提取层基于预设顺序依次级联形成的;所述预设顺序为所述第一网络模块中各个特征提取层的级联顺序的相反顺序;
基于至少一个第一中间特征和对应的至少一个第二中间特征,获取拼接特征;所述第一中间特征为所述第一网络模块对所述初始语音特征进行特征提取的中间特征,所述第二中间特征为所述第二网络模块对所述初始语音特征进行特征提取的中间特征;
通过融合所述第三语音特征、所述第四语音特征和所述拼接特征,获取所述语音片段的特征值向量;
基于每一语音片段的特征值向量,获取所述第一语音特征。
5.根据权利要求4所述的方法,其特征在于,所述第一网络模块包括多个依次级联的网络单元;每一网络单元包括级联的两个特征提取层;每一所述网络单元的输入特征和输出特征的尺寸保持不变。
6.根据权利要求5所述的方法,其特征在于,所述基于至少一个第一中间特征和对应的至少一个第二中间特征,获取拼接特征,包括:
基于所述第一中间特征和对应的第二中间特征获取初始拼接特征;其中,第一中间特征为第一网络模块的多个网络单元中第一目标网络单元的输出特征;所述第二中间特征为第二网络模块的多个网络单元中第二目标网络单元的输出特征;第一目标网络单元在所述第一网络模块中的网络层级与所述第二目标网络单元在所述第二网络模块中的网络层级相同;
通过融合至少两个所述初始拼接特征,得到所述拼接特征。
7.根据权利要求4所述的方法,其特征在于,所述基于每一语音片段的特征值向量,获取所述第一语音特征,包括:
基于每一语音片段的特征值向量,生成所述目标对象的语音的特征值序列;
针对每一特征值向量,从所述特征值向量中提取多个第一子向量;每相邻的两个第一子向量之间存在部分重叠的元素;
通过第三三维卷积网络对所述特征值序列的多个第一子向量进行至少一次特征提取,得到多个第二子向量;
对多个所述第二子向量进行特征重组,生成所述第一语音特征。
8.根据权利要求7所述的方法,其特征在于,所述对多个所述第二子向量进行特征重组,生成所述第一语音特征,包括:
对每一特征值向量对应的多个第二子向量进行特征重组,得到每一特征值向量对应的重组特征;
确定各个重组特征的平均值,得到所述第一语音特征。
9.根据权利要求1所述的方法,其特征在于,针对每一目标特征单元,所述第一语音特征与所述目标特征单元之间的相关性与所述目标特征单元对应的衰减系数正相关。
10.根据权利要求1所述的方法,其特征在于,所述获取目标对象的语音的第一语音特征,包括:
通过训练好的语音特征提取网络获取提取所述目标对象的语音的第一语音特征;
其中,所述语音特征提取网络是通过多个样本对象的样本语音对初始特提取网络进行至少一次训练操作,直至符合训练结束条件的初始特提取网络得到的,所述训练操作包括:
将所述样本对象的样本语音输入所述初始特征提取网络,得到样本语音特征;
对所述样本语音特征进行分类,确定所述样本语音属于所述样本对象的分类概率;
基于所述分类概率调整所述初始特征提取网络的参数,并将调整参数后的初始特征提取网络作为下一次训练操作对应的初始特征提取网络。
11.一种语音处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标对象的语音的第一语音特征,并获取混合语音的第二语音特征;所述混合语音中包括所述目标对象的语音;
特征衰减模块,用于基于所述第一语音特征对所述第二语音特征进行至少一次特征衰减操作,基于最后一次特征衰减操作得到的多个输出特征单元获取目标特征序列;
第二获取模块,用于基于所述目标特征序列获取目标语音;所述目标语音为将所述目标对象的语音从所述混合语音中去除后的语音;
其中,所述特征衰减操作包括:
基于所述第一语音特征与当前次特征衰减操作对应的多个目标特征单元中每一目标特征单元之间的相关性,确定每一目标特征单元对应的衰减系数;所述衰减系数用于表征每一目标特征单元中各个特征值的调整系数;第一次特征衰减操作对应的多个目标特征单元是基于所述第二语音特征中的多个第一特征单元所确定的;除第一次以外的每一次特征衰减操作对应的多个目标特征单元是基于上一次特征衰减操作得到的多个输出特征单元所确定的;
基于每一目标特征单元的衰减系数分别对每一目标特征单元进行衰减,得到当前次特征衰减操作对应的多个输出特征单元。
12.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现权利要求1至10中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法。
14.一种计算机程序产品,其特征在于,所述计算机产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310960912.2A CN117012220A (zh) | 2023-07-31 | 2023-07-31 | 语音处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310960912.2A CN117012220A (zh) | 2023-07-31 | 2023-07-31 | 语音处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117012220A true CN117012220A (zh) | 2023-11-07 |
Family
ID=88561367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310960912.2A Pending CN117012220A (zh) | 2023-07-31 | 2023-07-31 | 语音处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117012220A (zh) |
-
2023
- 2023-07-31 CN CN202310960912.2A patent/CN117012220A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114822512B (zh) | 音频数据的处理方法、装置、电子设备及存储介质 | |
KR20210041567A (ko) | 신경망을 이용한 하이브리드 오디오 합성 | |
CN112418011A (zh) | 视频内容的完整度识别方法、装置、设备及存储介质 | |
WO2023197979A1 (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN112071330A (zh) | 一种音频数据处理方法、设备以及计算机可读存储介质 | |
Lu et al. | Self-supervised audio spatialization with correspondence classifier | |
CN104980790A (zh) | 语音字幕的生成和装置、播放方法和装置 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
WO2023197749A9 (zh) | 背景音乐的插入时间点确定方法、装置、设备和存储介质 | |
CN114443899A (zh) | 视频分类方法、装置、设备及介质 | |
CN111274412A (zh) | 信息提取方法、信息提取模型训练方法、装置及存储介质 | |
CN113822017A (zh) | 基于人工智能的音频生成方法、装置、设备及存储介质 | |
CN114596879A (zh) | 一种虚假语音的检测方法、装置、电子设备及存储介质 | |
Abdelnour et al. | Clear: A dataset for compositional language and elementary acoustic reasoning | |
Li et al. | Binaural audio generation via multi-task learning | |
CN113409803B (zh) | 语音信号处理方法、装置、存储介质及设备 | |
Cui et al. | Research on audio recognition based on the deep neural network in music teaching | |
Liu et al. | Anti-forensics of fake stereo audio using generative adversarial network | |
CN117012220A (zh) | 语音处理方法、装置、电子设备及存储介质 | |
CN114582360A (zh) | 音频敏感内容的识别方法、设备和计算机程序产品 | |
CN115116469A (zh) | 特征表示的提取方法、装置、设备、介质及程序产品 | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
CN113571063A (zh) | 语音信号的识别方法、装置、电子设备及存储介质 | |
CN113407779A (zh) | 一种视频检测方法、设备及计算机可读存储介质 | |
CN114783417B (zh) | 一种语音检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |