CN113870891A - 语音提取方法、系统、装置及存储介质 - Google Patents
语音提取方法、系统、装置及存储介质 Download PDFInfo
- Publication number
- CN113870891A CN113870891A CN202111130337.0A CN202111130337A CN113870891A CN 113870891 A CN113870891 A CN 113870891A CN 202111130337 A CN202111130337 A CN 202111130337A CN 113870891 A CN113870891 A CN 113870891A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- channel
- vector
- feature
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 97
- 239000013598 vector Substances 0.000 claims abstract description 366
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000000926 separation method Methods 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims description 59
- 238000005457 optimization Methods 0.000 claims description 55
- 238000013528 artificial neural network Methods 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 37
- 239000012634 fragment Substances 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 4
- 230000004083 survival effect Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 230000000694 effects Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 230000001364 causal effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种语音提取方法、系统、装置及存储介质,包括:获取目标说话人的特征向量及多通道混合语音的多通道特征向量;将特征向量及多通道特征向量输入到预设模型提取目标特征向量;根据目标特征向量及多通道特征向量确定目标语音信号;预设模型的训练方法包括:获取样本训练数据;将特征向量样本及多通道特征向量样本输入到特征提取模块得到第一特征向量;将第一特征向量及多通道特征向量样本输入到分离模块得到第二特征向量;根据特征向量样本与第二特征向量的目标函数计算的目标值更新特征提取模块和分离模块。本发明的技术方案,能够在无需寻找中间接入层的情况下,提高了语音提取分离的效果,可广泛应用于人工智能领域。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种语音提取方法、系统、装置及存储介质。
背景技术
多通道语音提取的目的是同时从含噪含混响的混合语音中提取出每个说话人单独的语音。大多数语音提取方法是使用每个说话人的特征作为输入量,或者将说话人特征和混合语音的特征拼接到一起后再作为输入量,并将输入量输入到语音提取模块的某个中间层,但是很难找到最优的一个中间层作为输入量的接入层;当选择的输入量的接入层不准确时,导致从多通道语音中提取的单通道语音的效果不佳。
发明内容
本发明实施例提供了一种语音提取方法、系统、装置及存储介质,能够在无需寻找中间接入层的情况下,提高了语音提取分离的效果。
为实现上述目的,本发明实施例提供了一种语音提取方法,包括:
获取预先注册的目标说话人的特征向量及多通道混合语音的多通道特征向量;
将所述预先注册的目标说话人的特征向量及所述多通道特征向量输入到预设模型提取目标说话人的目标特征向量;
根据所述目标说话人的目标特征向量及所述多通道特征向量确定目标说话人的目标语音信号;
其中,所述预设模型包括特征提取模块和分离模块,所述预设模型的训练方法包括:
获取样本训练数据,所述样本训练数据包括单通道语音的特征向量样本、预先注册的特征向量样本和多通道混合语音的多通道特征向量样本;
将所述预先注册的特征向量样本及所述多通道特征向量样本输入到所述特征提取模块得到第一特征向量;
将所述第一特征向量及所述多通道特征向量样本输入到所述分离模块得到第二特征向量;
根据所述单通道语音的特征向量样本与所述第二特征向量之间的优化目标函数计算优化目标值,根据所述优化目标值更新所述特征提取模块和所述分离模块。
为实现上述目的,本发明实施例提供了一种语音提取系统,包括:
获取模块,用于获取预先注册的目标说话人的特征向量及多通道混合语音的多通道特征向量;
提取模块,用于将所述预先注册的目标说话人的特征向量及所述多通道特征向量输入到预设模型提取目标说话人的目标特征向量;
转换模块,用于根据所述目标说话人的目标特征向量及所述多通道特征向量确定目标说话人的目标语音信号;
其中,所述预设模型包括特征提取模块和分离模块,所述预设模型的训练方法包括:
获取样本训练数据,所述样本训练数据包括单通道语音的特征向量样本、预先注册的特征向量样本和多通道混合语音的多通道特征向量样本;
将所述预先注册的特征向量样本及所述多通道特征向量样本输入到所述特征提取模块得到第一特征向量;
将所述第一特征向量及所述多通道特征向量样本输入到所述分离模块得到第二特征向量;
根据所述单通道语音的特征向量样本与所述第二特征向量之间的优化目标函数计算优化目标值,根据所述优化目标值更新所述特征提取模块和所述分离模块。
为实现上述目的,本发明实施例提供了一种语音提取装置,所述设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如第一方面实施例所述的语音提取方法的步骤。
为实现上述目的,本发明实施例提供了一种存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面实施例所述的语音提取方法的步骤。
本发明实施例提供的语音提取方法、系统、装置及存储介质,通过先将预先注册的目标说话人的特征向量及多通道混合语音的多通道特征向量输入到预设模型提取目标说话人的目标特征向量,然后根据目标说话人的目标特征向量及多通道特征向量确定目标说话人的目标语音信号;其中,预设模型包括特征提取模块和分离模块,预设模型的训练方法包括:将预先注册的特征向量样本及多通道特征向量输入到说话人特征提取模块得到第一特征向量,然后将一特征向量及多通道混合语音的多通道特征向量样本输入到分离模块得到第二特征向量,根据单通道语音的特征向量样本与第二特征向量之间的优化目标函数计算优化目标值,根据优化目标值更新特征提取模块和分离模块;即特征提取模块的输入为预先注册的特征向量样本及多通道特征向量样本,特征提取模块的输出及多通道特征向量样本为分离模块的输入,从而将特征提取模块和分离模块连接起来共同训练,解决不同模块的参数共享问题,在无需寻找中间接入层的情况下,提高了语音提取分离的效果。
附图说明
图1是本发明一个实施例提供的语音提取方法的步骤流程图;
图2是本发明一个实施例提供的语音提取方法的数据流向图;
图3是本发明一个实施例提供的获取多通道混合语音的多通道特征向量的步骤流程图;
图4是本发明一个实施例提供的获取多通道混合语音的多通道特征向量的数据流向图;
图5是本发明一个实施例提供的预设模型的训练方法的步骤流程图;
图6是本发明一个实施例提供的预设模型的训练方法的数据流向图;
图7是本发明一个实施例提供的获取第一特征向量的步骤流程图;
图8是本发明一个实施例提供的获取第一特征向量的数据流向图;
图9是本发明一个实施例提供的获取N维第四特征向量的步骤流程图;
图10是本发明一个实施例提供的获取N维第四特征向量的数据流向图;
图11是本发明一个实施例提供的获取第二特征向量步骤流程图;
图12是本发明一个实施例提供的获取第二特征向量的数据流向图;
图13是本发明一个实施例提供的语音提取系统的示意图;
图14是本发明一个实施例提供的语音提取设备的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
自然语言处理(natural language processing,NLP):NLP用计算机来处理、理解以及运用人类语言(如中文、英文等),NLP属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明实施例提供的语音提取方法,首先对预设模型进行训练,使预设模型的各模块参数达到较佳状态;再将多通道混合语音及预先注册的目标说话人的语音输入到训练好的预设模型中,从多通道混合语音中提取目标说话人的纯净的单通道语音。
本发明实施例提供的语音提取系统包括终端和服务器,服务器部署有AI模型,终端用于获取多通道混合语音、单通道混合语音以及目标说话人注册的语音等,终端将获取的语音发送给服务器;服务器首先根据接收的语音对AI模型进行训练,训练好的AI模型再用于对混合语音进行提取得到目标语音,最后服务器将目标语音发送给终端展示。其中,终端可以是拾音孔或拾音器,也可以是具有拾音孔或拾音器的设备,如手机、电子手表或电子手环等,本发明实施例不做具体的限制。
参阅图1,本发明实施例提供了一种语音提取方法,包括步骤S100、步骤S200及步骤S300。参阅图2,图2是该语音提取方法的数据流向图,在图2中,首先将预先注册的目标说话人的特征向量及多通道混合语音的多通道特征向量输入到预设模型得到目标说话人的目标特征向量;然后将目标说话人的目标特征向量及多通道混合语音的多通道特征向量输入到解码模块得到目标说话人的目标语音信号。下面,对该语音提取方法的具体步骤分别进行说明。
S100、获取预先注册的目标说话人的特征向量及多通道混合语音的多通道特征向量。
具体地,首先获取目标说话人注册的语音段,然后对目标说话人注册的语音段进行i-vector提取以获取预先注册的目标说话人的特征向量。
具体地,i-vector空间用一个低维的总变量空间来表示说话人子空间和信道子空间,将说话人语音通过降维投影到该空间,可得到一个固定长度的矢量表征,即i-vector向量。i-vector提取一般包括:对说话人的训练语音段进行预处理,如预加重、分帧、分窗口及端点检测等;对预处理后的训练语音段提取对应的训练语音特征,基于预设UBM模型训练出与预设UBM模型对应的总体变化子空间;将训练语音特征投影到总体变化子空间上,获取i-vector向量。
可选地,参阅图3,多通道混合语音的多通道特征向量通过以下方法获取,包括步骤S110、步骤S120、步骤S130、步骤S140及步骤S150。参阅图4,图4是获取该多通道特征向量的数据流向图,在图4中,首先将单通道混合语音分割成多个单通道语音片段,并将多个单通道语音片段依次输入到频谱编码器;接着将多通道混合语音分割成多个多通道混合语音片段,并将多个多通道混合语音片段依次输入到空间编码器;然后将频谱编码器的输出及空间编码器的输出进行拼接以形成多通道特征向量。
具体地,获取多通道混合语音的多通道特征向量的具体步骤包括:
S110、获取多通道混合语音并将多通道混合语音分割成若干个预设长度的混合语音片段;
S120、依次将混合语音片段输入到空间编码器得到若干个混合特征向量;
S130、获取单通道混合语音并将单通道混合语音分割成若干个预设长度的单通道语音片段;
S140、依次将单通道语音片段输入到频谱编码器得到若干个单通道特征向量;
S150、将若干个混合特征向量及若干个单通道特征向量拼接生成多通道特征向量。
需要说明的是,混合语音片段及单通道语音片段的预设长度相同;但是,若频谱编码器的输入信号维度为L,空间编码器的输入信号维度为2L,其中,L为正数。
具体地,空间编码器由2维卷积层组成,混合语音片段输入到空间编码器后得到S维的混合特征向量;频谱编码器由1维卷积层组成,单通道语音片段输入到频谱编码器后得到N1维的单通道特征向量;将S维的混合特征向量及N1维的单通道特征向量拼接后形成的多通道特征向量的维度为N1+S维;其中,N1和S均为正整数。通过将混合特征向量和单通道特征向量进行拼接,从而将多通道混合语音的空间特征和频谱特征进行了结合。
多通道混合语音及单通道混合语音均以数字形式存储,语音长度可以理解为语音的时长。例如,将时长为60S的多通道混合语音分割成20个时长为3S的混合语音片段,依次将20个时长为3S的混合语音片段输入到2维空间编码器得到S维混合特征向量;将时长为30S的单通道混合语音分割成10个时长为3S的单通道语音片段,依次将10个时长为3S的单通道语音片段输入到1维的频谱编码器得到N1维单通道特征向量;将S维混合特征向量和N1维单通道特征向量拼接后形成N1+S维多通道特征向量。
S200、将预先注册的目标说话人的特征向量及多通道特征向量输入到预设模型提取目标说话人的目标特征向量。
本领域技术人员可以理解的是,预设模型是经过样本训练数据训练好的,预设模型中的各参数已达到较佳状态。
其中,参阅图5,预设模型包括特征提取模块和分离模块,预设模型的训练方法包括步骤S210、步骤S220及步骤S230。参阅图6,图6是预设模型的训练方法的数据流向图,在图6中,首先将预先注册的特征向量样本及多通道特征向量样本输入到特征提取模块得到第一特征向量;接着将第一特征向量及多通道特征向量样本输入到分离模块得到第二特征向量;然后根据第二特征向量与单通道语音的特征向量样本之间优化目标函数确定优化目标值,并根据优化目标值更新特征提取模块和分离模块。
具体地,预设模型的训练方法的具体步骤包括:
S210、获取样本训练数据,样本训练数据包括单通道语音的特征向量样本、预先注册的特征向量样本和多通道混合语音的多通道特征向量样本。
具体地,单通道语音的特征向量样本通过对单通道语音样本进行i-vector提取获得,预先注册的特征向量样本通过对预先注册的语音样本进行i-vector提取获得,多通道混合语音的多通道特征向量样本通过对多通道混合语音样本采用步骤S110至S150的方法获得。
S220、将预先注册的特征向量样本及多通道特征向量样本输入到特征提取模块得到第一特征向量。
本领域技术人员可以理解的是,特征提取模块的作用是使预先注册的特征向量样本学习原始多通道特征向量样本相似的部分。
可选地,参阅图7,特征提取模块包括第一神经网络、第二神经网络及第三神经网络,将预先注册的特征向量样本及多通道特征向量样本输入到特征提取模块得到第一特征向量,包括步骤S221、步骤S222及步骤S223。参阅图8,图8是获取第一特征向量的数据流向图,在图8中,首先将预先注册的特征向量样本输入到第一神经网络,接着将多通道特征向量样本输入到第二神经网络;然后将第一神经网络的输出及第二神经网络的输出进行卷积后输入到第三神经网络以得到第一特征向量。
具体地,获取第一特征向量的具体步骤包括:
S221、通过第一神经网络对预先注册的特征向量样本进行处理,获得N维第三特征向量,其中,N为大于等于2的正整数。
具体地,第一神经网络可以选择1维卷积层,1维卷积层的输出通道数为N,N为大于等于2的正整数;经过实验证明,当N为2时即可满足要求,N也可以选择大于2的正整数。
S222、通过第二神经网络对多通道特征向量样本进行处理,获得N维第四特征向量。
需要说明的是,第二神经网络的作用是提取多通道特征向量样本中更深层次的N个特征序列。
可选地,参阅图9,第二神经网络包括第一实例正则层、第一卷积层、TCN(TemporalConvolutional Network,时序卷积网络)层及第二卷积层,通过第二神经网络对多通道特征向量样本进行处理,获得N维第四特征向量,包括步骤S2221、步骤S2222、步骤S2223及步骤S2224。参阅图10,图10是获取N维第四特征向量的数据流向图,在图10中,首先将多通道特征向量样本输入第一实例正则层,并将第一实例正则层的输出向量输入到第一卷积层,接着将第一卷积层的输出向量输入到TCN层,接着将TCN层的输出向量输入第二卷积层以得到N维第四特征向量。
具体地,获取N维第四特征向量的具体步骤包括:
S2221、将多通道特征向量样本输入至第一实例正则层得到第一处理向量;
S2222、将第一处理向量输入至第一卷积层得到第二处理向量;
S2223、将第二处理向量输入至TCN层得到第三处理向量;
S2224、将第三处理向量输入至第二卷积层得到N维第四特征向量。
具体地,在神经网络的训练过程中,可能会导致过拟合的情况;对于过拟合的情况,可以采用L2正则化或采用Dropout正则化等。如在神经网络中采用L2正则化,在代价函数中加入弗罗贝尼乌斯范数项,通过对弗罗贝尼乌斯范数项参数的调节,使复杂的神经网络变得较为简单,从而减少过拟合。如在神经网络中采用Dropout正则化,Dropout正则化可以理解为在每一次的训练过程中,随机删除神经网络中每一层的节点;而且对应神经网络的不同层,保留某个隐藏单元的概率可以不一样。如某神经网络的包括7层,第3层和第4层的神经元节点较多,参数较多,因此第3层和第4层对过拟合的影响较为显著,那么可以将第3层和第4层的保留某个隐藏单元的概率设置得高一些;而第5层和第6层的神经元节点较少,因此第5层和第6层对过拟合的影响不那么明显,那么可以将第5层和第6层的保留某个隐藏单元的概率设置得低一些。
TCN包括因果卷积、膨胀卷积及残差链接。在因果卷积中,对于上一层t时刻的值,只依赖于下一层t时刻及其之前的值;与传统的卷积神经网络的不同之处在于,因果卷积不能看到未来的数据,它是单向的结构,不是双向的,也就是说只有有了前面的因才有后面的果,是一种严格的时间约束模型,因此被成为因果卷积。膨胀卷积允许卷积时的输入存在间隔采样,采样率受d控制,如最下面一层的d=1,表示输入时每个点都采样;中间层d=2,表示输入时每2个点采样一个作为输入;一般来讲,越高的层级使用的d的大小越大;所以,膨胀卷积使得有效窗口的大小随着层数呈指数型增长;这样卷积网络用比较少的层,就可以获得很大的感受野。残差链接被证明是训练深层网络的有效方法,它使得网络可以以跨层的方式传递信息,如构建一个残差块来代替一层的卷积。
本领域技术人员可以理解的是,第一实例正则层的作用是使卷积神经网络更易收敛、降低对网络超参数的敏感度;第一卷积层、TCN层及第二卷积层的作用是提取更深层次的特征。其中,第一卷积层、TCN层和第二卷积层为1维卷积层。
第二神经网络包括TCN层,TCN层也可以用RNN(Recurrent Neural Networ,循环神经网络)层替代。但是,TCN层需要的参数量小且训练速度快。RNN包括输入层、隐藏层和输出层,输入层到隐藏层设有第一权重矩阵,隐藏层到输出层设有第二权重矩阵,隐藏层包含多层,输入向量与第一权重矩阵作用后输入到隐藏层的第一层,隐藏层的第一层的输出与输入向量共同输入到隐藏层的第二层,以此类推,隐藏层的最后一层输出与第二权重矩阵作用后得到输出向量;其中,隐藏层的层数根据实际需求设置。
S223、将N维第三特征向量及N维第四特征向量输入到第三神经网络进行处理,获得第一特征向量。
需要说明的是,将N维第三特征向量及N维第四特征向量对应位置的向量进行相乘后输入到第三神经网络。
具体地,第三神经网络可以选择1维卷积层,采用ReLU(Rectified Linear Unit,线性整流函数)作为非线性激活函数,最终生成E维的第一特征向量;此处非线性激活函数的作用是解决训练深层网络模型时sigmoid的梯度消失的缺点,还有减少过拟合的优点。
需要说明的是,第三神经网络的作用是对第三特征向量及第四特征向量进行权重调制和更新,例如,N为2,2维第三特征向量中的第一维向量为[1,2,3],2维第四特征向量的第一维向量为[4,5,6],第一维向量的权重为[0.1,0.3,0.2],那么这两个向量进行权重调制后的结果就是[1*0.1+4*0.9,2*0.3+5*0.7,3*0.2+6*0.8]。
S230、将第一特征向量及多通道特征向量样本输入到分离模块得到第二特征向量。
可选地,参阅图11,分离模块包括第四神经网络,第四神经网络包括第二实例正则层、第三卷积层、TCN单元及第四卷积层,TCN单元包括若干个TCN层,将第一特征向量及多通道特征向量样本输入到分离模块得到第二特征向量,包括步骤S231、步骤S232、步骤S233及步骤S234。参阅图12,图12是获取第二特征向量的数据流向图,在图12中,首先将第一特征向量及多通道特征向量样本输入到第二实例正则层,接着将第二实例正则层的输出向量输入到第三卷积层,接着将第三卷积层的输出向量输入到TCN单元,接着将TCN单元的输出向量输入到第四卷积层以得到第二特征向量。
具体地,获取第二特征向量的具体步骤包括:
S231、将第一特征向量及多通道特征向量样本输入到第二实例正则层得到第四处理向量;
S232、将第四处理向量输入到第三卷积层得到第五处理向量;
S233、将第五处理向量输入到TCN单元得到第六处理向量;
S234、将第六处理向量输入到第四卷积层得到第二特征向量。
分离模块的作用是多通道特征向量样本特征的线性权重,从而为每一个说话人产生各自的特征。
本领域技术人员可以理解的是,第二实例正则层的作用是使卷积神经网络更易收敛、降低对网络超参数的敏感度;第三卷积层、TCN层单元及第四卷积层的作用是提取更深层次的特征。其中,第三卷积层、TCN单元和第四卷积层为1维卷积层。
TCN单元中TCN层的个数根据实际需求设置,本实施例不做具体限制。
第四神经网络包括TCN层,TCN层需要的参数量小且训练速度快。
具体地,第四卷积层之前采用PReLU(Parametric Rectified Linear Unit,带参数线性整流函数)激活函数,第四卷积层之后采用ReLU(Rectified Linear Unit,线性整流函数)激活函数;PReLU和ReLU均可以解决训练深层网络模型时sigmoid的梯度消失的缺点,还有减少过拟合的优点。
PReLU及ReLU均为非饱和激活函数。ReLU函数代表的是“修正线性单元”,ReLU函数将矩阵x内所有负值都设为零,其余的值不变;ReLU函数的计算在卷积层之后。PReLU函数将矩阵x内负值部分的斜率不是固定的,需要在后向传播中学习斜率,其余的值不变。
S240、根据单通道语音的特征向量样本与第二特征向量之间的优化目标函数计算优化目标值,根据优化目标值更新特征提取模块和分离模块。
具体地,预设模型的训练次数可以根据预设的优化目标值的大小或预设的训练次数确定,也可以两种方式结合;如当训练次数达到1万次,预设模型的训练结束,把这1万次训练中最好结果对应的特征提取模块和分类模块作为预设模型,并认为预设模型中的各参数达到较佳状态;又如当预设模型的优化目标值达到预设的目标值,则将该优化目标值对应的特征提取模块和分类模块作为预设模型;又如当预设模型的优化目标值达到预设的目标值或训练次数达到1万次,将最好结果对应的特征提取模块和分类模块作为预设模型。
可选地,优化目标函数如下:
需要说明的是,上述优化目标函数值越大表示预设模型的训练结果越好。
可选地,根据优化目标值更新特征提取模块和分离模块,具体包括:
根据优化目标值的最大值更新特征提取模块和分离模块。
例如,预设的训练次数是1万次;在第5千次的训练中,根据优化目标函数得到优化目标值为40;在第5千次之前的训练中,根据优化目标函数得到最大优化目标值为20,由于40大于20,将优化目标值为40对应的参数对提取模块和分离模块进行更新;如果在剩余的5千次训练中,根据优化目标函数得到优化目标值均小于40,最后将将优化目标值为40对应的提取模块和分离模块确定为预设模型。
又例如,预设的优化目标值为30;在某次训练中,根据优化目标函数得到的优化目标值为35,由于35大于30,将优化目标值为35对应的参数对提取模块和分离模块进行更新,并将优化目标值为35对应的提取模块和分离模块确定为预设模型。
又例如,预设的训练次数是1万次或预设的优化目标值为30;在第7千次的训练中,根据优化目标函数得到的优化目标值为33,由于33大于30,将优化目标值为33对应的参数对提取模块和分离模块进行更新,并将优化目标值为33对应的提取模块和分离模块确定为预设模型;或在1万次的训练过程中,根据优化目标函数得到的最大优化目标值为28,将优化目标值为28对应的参数对提取模块和分离模块进行更新,并将优化目标值为28对应的对提取模块和分离模块确定为预设模型。
S300、根据目标说话人的目标特征向量及多通道特征向量确定目标说话人的目标语音信号。
具体地,将目标说话人的目标特征向量及多通道特征向量输入到解码模块得到目标说话人的目标语音信号,解码模块的作用是将目标说话人的目标特征向量及多通道特征向量转换成时域信号,从而完成对语音信号的提取。
在一个可选的实施例中,可以进一步将目标语音信号转换成文本。例如,从多人会议音频中提取每个参会人的语音信号,并将每个参会人的语音信号转换成文本作为会议记录。
本发明实施例提供的语音提取方法、系统、装置及存储介质,通过先将预先注册的目标说话人的特征向量及多通道混合语音的多通道特征向量输入到预设模型提取目标说话人的目标特征向量,然后根据目标说话人的目标特征向量及多通道特征向量确定目标说话人的目标语音信号;其中,预设模型包括特征提取模块和分离模块,预设模型的训练方法包括:将预先注册的特征向量样本及多通道特征向量输入到说话人特征提取模块得到第一特征向量,然后将一特征向量及多通道混合语音的多通道特征向量样本输入到分离模块得到第二特征向量,根据单通道语音的特征向量样本与第二特征向量之间的优化目标函数计算优化目标值,根据优化目标值更新特征提取模块和分离模块;即特征提取模块的输入为预先注册的特征向量样本及多通道特征向量样本,特征提取模块的输出及多通道特征向量样本为分离模块的输入,从而将特征提取模块和分离模块连接起来共同训练,解决不同模块的参数共享问题,在无需寻找中间接入层的情况下,提高了语音提取分离的效果。
如图13所示,本发明实施例提供了一种语音提取系统,包括:
获取模块,用于获取预先注册的目标说话人的特征向量及多通道混合语音的多通道特征向量;
提取模块,用于将预先注册的目标说话人的特征向量及多通道特征向量输入到预设模型提取目标说话人的目标特征向量;
转换模块,用于根据目标说话人的目标特征向量及多通道特征向量确定目标说话人的目标语音信号;
其中,预设模型包括特征提取模块和分离模块,预设模型的训练方法包括:
获取样本训练数据,样本训练数据包括单通道语音的特征向量样本、预先注册的特征向量样本和多通道混合语音的多通道特征向量样本;
将预先注册的特征向量样本及多通道特征向量样本输入到特征提取模块得到第一特征向量;
将第一特征向量及多通道特征向量样本输入到分离模块得到第二特征向量;
根据单通道语音的特征向量样本与第二特征向量之间的优化目标函数计算优化目标值,根据优化目标值更新特征提取模块和分离模块。
其中,获取模块、提取模块及转换模块的具体功能实现方式可以参见上述图1对应实施例中的步骤S100至步骤S300,这里不再进行赘述。
在一种可选的实施例中,获取模块具体包括:
第一获取单元,用于获取多通道混合语音并将所述多通道混合语音分割成若干个预设长度的混合语音片段;
第一向量生成单元,用于依次将所述混合语音片段输入到空间编码器得到若干个混合特征向量;
第二获取单元,用于获取单通道混合语音并将所述单通道混合语音分割成若干个预设长度的单通道语音片段;
第二向量生成单元,用于依次将所述单通道语音片段输入到频谱编码器得到若干个单通道特征向量;
第三向量生成单元,用于将所述若干个混合特征向量及所述若干个单通道特征向量拼接生成所述多通道特征向量。
在一种可选的实施例中,特征提取模块具体包括:
第三特征向量生成单元,用于通过所述第一神经网络对所述预先注册的特征向量样本进行处理,获得N维第三特征向量;
第四特征向量生成单元,用于通过所述第二神经网络对所述多通道特征向量样本进行处理,获得N维第四特征向量;
第一特征向量生成单元,用于将所述N维第三特征向量及所述N维第四特征向量输入到所述第三神经网络进行处理,获得第一特征向量;其中,N为大于等于2的正整数。
在一种可选的实施例中,第四特征向量生成单元具体包括:
第一处理向量生成子单元,用于将所述多通道特征向量样本输入至所述第一实例正则层得到第一处理向量;
第二处理向量生成子单元,用于将所述第一处理向量输入至所述第一卷积层得到第二处理向量;
第三处理向量生成子单元,用于将所述第二处理向量输入至所述TCN层得到所述第三处理向量;
第四特征向量生成子单元,用于将所述第三处理向量输入至所述第二卷积层得到所述N维第四特征向量。
在一种可选的实施例中,分离模块具体包括:
第四处理向量生成单元,用于将所述第一特征向量及所述多通道特征向量样本输入到所述第二实例正则层得到第四处理向量;
第五处理向量生成单元,用于将所述第四处理向量输入到所述第三卷积层得到第五处理向量;
第六处理向量生成单元,用于将所述第五处理向量输入到所述TCN单元得到第六处理向量;
第二特征向量生成单元,用于将所述第六处理向量输入到所述第四卷积层得到第二特征向量。
参阅图14,图14是发明实施例提供的另一种语音提取设备的示意图,本发明的一个实施例还提供了一种数据处理设备1400,该数据处理设备1400包括:存储器1410、处理器1420及存储在存储器1410上并可在处理器1420上运行的计算机程序。
处理器1420和存储器1410可以通过总线或者其他方式连接。
实现上述实施例的数据处理方法所需的非暂态软件程序以及指令存储在存储器1410中,当被处理器1420执行时,执行上述实施例中的数据处理设备的数据处理方法,例如,执行以上描述的图1中的方法步骤S100至方法步骤S300、图3中的方法步骤S110至方法步骤S150、图5中的方法步骤S210至方法步骤S240、图7中的方法步骤S221至方法步骤S231、图9中的方法步骤S2221至方法步骤S2224、图11中的方法步骤S231至方法步骤S234。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器1420或控制器执行,例如,被上述数据处理设备1400实施例中的一个处理器1420执行,可使得上述处理器1420执行上述实施例中的应用于数据处理设备1400的数据处理方法,例如,执行以上描述的图1中的方法步骤S100至方法步骤S300、图3中的方法步骤S110至方法步骤S150、图5中的方法步骤S210至方法步骤S240、图7中的方法步骤S221至方法步骤S231、图9中的方法步骤S2221至方法步骤S2224、图11中的方法步骤S231至方法步骤S234。本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
Claims (10)
1.一种语音提取方法,其特征在于,包括:
获取预先注册的目标说话人的特征向量及多通道混合语音的多通道特征向量;
将所述预先注册的目标说话人的特征向量及所述多通道特征向量输入到预设模型提取目标说话人的目标特征向量;
根据所述目标说话人的目标特征向量及所述多通道特征向量确定目标说话人的目标语音信号;
其中,所述预设模型包括特征提取模块和分离模块,所述预设模型的训练方法包括:
获取样本训练数据,所述样本训练数据包括单通道语音的特征向量样本、预先注册的特征向量样本和多通道混合语音的多通道特征向量样本;
将所述预先注册的特征向量样本及所述多通道特征向量样本输入到所述特征提取模块得到第一特征向量;
将所述第一特征向量及所述多通道特征向量样本输入到所述分离模块得到第二特征向量;
根据所述单通道语音的特征向量样本与所述第二特征向量之间的优化目标函数计算优化目标值,根据所述优化目标值更新所述特征提取模块和所述分离模块。
2.根据权利要求1所述的语音提取方法,其特征在于,所述多通道混合语音的多通道特征向量通过以下方法获取:
获取多通道混合语音并将所述多通道混合语音分割成若干个预设长度的混合语音片段;
依次将所述混合语音片段输入到空间编码器得到若干个混合特征向量;
获取单通道混合语音并将所述单通道混合语音分割成若干个预设长度的单通道语音片段;
依次将所述单通道语音片段输入到频谱编码器得到若干个单通道特征向量;
将所述若干个混合特征向量及所述若干个单通道特征向量拼接生成所述多通道特征向量。
3.根据权利要求1所述的语音提取方法,其特征在于,所述特征提取模块包括第一神经网络、第二神经网络及第三神经网络,将所述预先注册的特征向量样本及所述多通道特征向量样本输入到所述特征提取模块得到第一特征向量,包括:
通过所述第一神经网络对所述预先注册的特征向量样本进行处理,获得N维第三特征向量;
通过所述第二神经网络对所述多通道特征向量样本进行处理,获得N维第四特征向量;
将所述N维第三特征向量及所述N维第四特征向量输入到所述第三神经网络进行处理,获得第一特征向量;
其中,N为大于等于2的正整数。
4.根据权利要求3所述的语音提取方法,其特征在于,所述第二神经网络包括第一实例正则层、第一卷积层、TCN层及第二卷积层,所述通过所述第二神经网络对所述多通道特征向量样本进行处理,获得N维第四特征向量,包括:
将所述多通道特征向量样本输入至所述第一实例正则层得到第一处理向量;
将所述第一处理向量输入至所述第一卷积层得到第二处理向量;
将所述第二处理向量输入至所述TCN层得到所述第三处理向量;
将所述第三处理向量输入至所述第二卷积层得到所述N维第四特征向量。
5.根据权利要求1所述的语音提取方法,其特征在于,所述分离模块包括第四神经网络,所述第四神经网络包括第二实例正则层、第三卷积层、TCN单元及第四卷积层,所述TCN单元包括若干个TCN层,所述将所述第一特征向量及所述多通道特征向量样本输入到所述分离模块得到第二特征向量,包括:
将所述第一特征向量及所述多通道特征向量样本输入到所述第二实例正则层得到第四处理向量;
将所述第四处理向量输入到所述第三卷积层得到第五处理向量;
将所述第五处理向量输入到所述TCN单元得到第六处理向量;
将所述第六处理向量输入到所述第四卷积层得到第二特征向量。
7.根据权利要求6所述的语音提取方法,其特征在于,所述根据所述优化目标值更新所述特征提取模块和所述分离模块,具体包括:
根据所述优化目标值的最大值更新所述特征提取模块和所述分离模块。
8.一种语音提取系统,其特征在于,包括:
获取模块,用于获取预先注册的目标说话人的特征向量及多通道混合语音的多通道特征向量;
提取模块,用于将所述预先注册的目标说话人的特征向量及所述多通道特征向量输入到预设模型提取目标说话人的目标特征向量;
转换模块,用于根据所述目标说话人的目标特征向量及所述多通道特征向量确定目标说话人的目标语音信号;
其中,所述预设模型包括特征提取模块和分离模块,所述预设模型的训练方法包括:
获取样本训练数据,所述样本训练数据包括单通道语音的特征向量样本、预先注册的特征向量样本和多通道混合语音的多通道特征向量样本;
将所述预先注册的特征向量样本及所述多通道特征向量样本输入到所述特征提取模块得到第一特征向量;
将所述第一特征向量及所述多通道特征向量样本输入到所述分离模块得到第二特征向量;
根据所述单通道语音的特征向量样本与所述第二特征向量之间的优化目标函数计算优化目标值,根据所述优化目标值更新所述特征提取模块和所述分离模块。
9.一种语音提取装置,其特征在于,所述设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如权利要求1至7任一项所述的语音提取方法的步骤。
10.一种存储介质,用于计算机可读存储,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至7中任一项所述的语音提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111130337.0A CN113870891A (zh) | 2021-09-26 | 2021-09-26 | 语音提取方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111130337.0A CN113870891A (zh) | 2021-09-26 | 2021-09-26 | 语音提取方法、系统、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113870891A true CN113870891A (zh) | 2021-12-31 |
Family
ID=78994759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111130337.0A Pending CN113870891A (zh) | 2021-09-26 | 2021-09-26 | 语音提取方法、系统、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113870891A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
CN110400575A (zh) * | 2019-07-24 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 通道间特征提取方法、音频分离方法和装置、计算设备 |
CN111179911A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 目标语音提取方法、装置、设备、介质和联合训练方法 |
CN111899758A (zh) * | 2020-09-07 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、设备和存储介质 |
CN112331218A (zh) * | 2020-09-29 | 2021-02-05 | 北京清微智能科技有限公司 | 一种针对多说话人的单通道语音分离方法和装置 |
CN112331181A (zh) * | 2019-07-30 | 2021-02-05 | 中国科学院声学研究所 | 一种基于多说话人条件下目标说话人语音提取方法 |
-
2021
- 2021-09-26 CN CN202111130337.0A patent/CN113870891A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
CN110400575A (zh) * | 2019-07-24 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 通道间特征提取方法、音频分离方法和装置、计算设备 |
CN112331181A (zh) * | 2019-07-30 | 2021-02-05 | 中国科学院声学研究所 | 一种基于多说话人条件下目标说话人语音提取方法 |
CN111179911A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 目标语音提取方法、装置、设备、介质和联合训练方法 |
CN111899758A (zh) * | 2020-09-07 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、设备和存储介质 |
CN112331218A (zh) * | 2020-09-29 | 2021-02-05 | 北京清微智能科技有限公司 | 一种针对多说话人的单通道语音分离方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10971170B2 (en) | Synthesizing speech from text using neural networks | |
CN106845411B (zh) | 一种基于深度学习和概率图模型的视频描述生成方法 | |
CN111930992A (zh) | 神经网络训练方法、装置及电子设备 | |
CN111243576A (zh) | 语音识别以及模型训练方法、装置、设备和存储介质 | |
CN111444340A (zh) | 文本分类和推荐方法、装置、设备及存储介质 | |
CN114596844B (zh) | 声学模型的训练方法、语音识别方法及相关设备 | |
CN111709493B (zh) | 对象分类方法、训练方法、装置、设备及存储介质 | |
CN110502610A (zh) | 基于文本语义相似度的智能语音签名方法、装置及介质 | |
CN115662435B (zh) | 一种虚拟教师拟真化语音的生成方法及终端 | |
CN113988079A (zh) | 一种面向低数据的动态增强多跳文本阅读识别处理方法 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN116741159A (zh) | 音频分类及模型的训练方法、装置、电子设备和存储介质 | |
CN113870863B (zh) | 声纹识别方法及装置、存储介质及电子设备 | |
CN113762503A (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
CN113870891A (zh) | 语音提取方法、系统、装置及存储介质 | |
CN115129877B (zh) | 标点符号预测模型的生成方法、装置和电子设备 | |
CN116257616A (zh) | 面向音乐领域的实体关系抽取方法及系统 | |
CN113823271B (zh) | 语音分类模型的训练方法、装置、计算机设备及存储介质 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN115034331A (zh) | 音视频匹配方法、计算机设备及计算机可读存储介质 | |
CN115376214A (zh) | 情绪识别方法、装置、电子设备和存储介质 | |
CN114781485A (zh) | 文本分类方法、装置、计算机设备和计算机可读存储介质 | |
CN113743128B (zh) | 获取对话语义表示的方法和语义表示模型训练方法及装置 | |
CN117152467B (zh) | 图像识别方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |