CN111696572B - 语音分离装置、方法及介质 - Google Patents

语音分离装置、方法及介质 Download PDF

Info

Publication number
CN111696572B
CN111696572B CN201910188493.9A CN201910188493A CN111696572B CN 111696572 B CN111696572 B CN 111696572B CN 201910188493 A CN201910188493 A CN 201910188493A CN 111696572 B CN111696572 B CN 111696572B
Authority
CN
China
Prior art keywords
branch
mixed
separation
network
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910188493.9A
Other languages
English (en)
Other versions
CN111696572A (zh
Inventor
林慧镔
石自强
刘柳
刘汝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201910188493.9A priority Critical patent/CN111696572B/zh
Priority to JP2020011820A priority patent/JP2020149044A/ja
Publication of CN111696572A publication Critical patent/CN111696572A/zh
Application granted granted Critical
Publication of CN111696572B publication Critical patent/CN111696572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

公开了一种语音分离装置、方法及介质,所述语音分离装置包括:预处理单元,其对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达;多分支网络,其具有多个分支,每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息;分支权重网络,其基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征;掩模生成单元,其基于所述估计特征针对所述预定数目的语音中的每一个生成掩模;以及分离单元,其基于所述掩模和所述混合表达生成分离的语音信号。

Description

语音分离装置、方法及介质
技术领域
本公开涉及语音处理的技术领域,具体地涉及语音分离装置和语音分离的方法。
背景技术
这个部分提供了与本公开有关的背景信息,这不一定是现有技术。
人类在有多个人声的复杂环境中,能够通过听觉选择注意力机制,从多个声源中选择感兴趣的内容去聆听和理解,并且能够非常轻易地在不同生源中转移注意力。这被称为“鸡尾酒会效应”。
基于深度学习的语音分离技术,能够类似人类一样实现从多人交谈的单声道语音中分离每位参与交谈的说话人的清晰语音。然而,这项技术在实际使用时,不能等待这个交谈结束后再处理,而是需要对交谈的语音使用滑动窗的技术分块,以实现对语音信号实时分离。这里,分块的长度由几百毫秒到若干秒。但以分块的形式处理会带来前后两块的分离结果说话排列并不一致,称为“说话人排列问题”。
以分离两位说话人混合的语音作为例子说明,第一块分离结果是说话人A的语音在信道1,说话人B的语音在信道2。而第二块分离结果是说话人A的语音在信道2,说话人B的语音在信道1。可见,这种排列严重影响这项技术的实际使用。产生这个问题的原因是,每个分块中可能存在某一说话人或者全体说话人的静音部分,且静音部分长度几乎是随机。但传统方法对从该分块中每一时刻获得的信息都是等权重处理。因此,静音部分的信息将严重干扰分离结果,导致结果中说话人的信道位置发生变动。
发明内容
这个部分提供了本公开的一般概要,而不是其全部范围或其全部特征的全面披露。
本公开的目的在于提供一种针对上述问题的解决方案,具体地,提供一种以多分支分离网络、分支权重网络和门控卷积单元三者为核心的端到端分离神经网络,在提取多时间尺度的信息基础上添加自适应的权重,实现在前后分块的分离结果中说话人的顺序是固定的结果。
根据本公开的一方面,提供了一种语音分离装置,包括:预处理单元,其对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达;多分支网络,其具有多个分支,每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息;分支权重网络,其基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征;掩模生成单元,其基于所述估计特征针对所述预定数目的语音中的每一个生成掩模;以及分离单元,其基于所述掩模和所述混合表达生成分离的语音信号。
根据本公开的另一方面,提供了一种语音分离的方法,包括:对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达;多分支网络的每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息;基于所述混合语音信号,分支权重网络为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征;基于所述估计特征针对所述预定数目的语音中的每一个生成掩模;以及基于所述掩模和所述混合表达生成分离的语音信号。
根据本公开的另一方面,提供了一种程序产品,该程序产品包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据本公开的语音分离的方法。
根据本公开的另一方面,提供了一种机器可读存储介质,其上携带有根据本公开的程序产品。
本公开提供了一种以多分支分离网络、分支权重网络和门控卷积单元三者为核心的端到端分离神经网络,其在提取多时间尺度的信息的基础上添加了自适应的权重,实现了在前后分块的分离结果中说话人的顺序是固定的结果。
从在此提供的描述中,进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的,而不旨在限制本公开的范围。
附图说明
在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施,并且不旨在限制本公开的范围。在附图中:
图1示出根据本公开的一个实施例的语音分离装置的框图;
图2示出根据本公开的一个实施例的分离神经网络的整体框架;
图3示出根据本公开的一个实施例的多分支分离网络和分支权重网络的工作流程;
图4示出根据本公开的一个实施例的卷积分离层的工作流程;
图5示出根据本公开的一个实施例的语音分离的方法的流程图;以及
图6为其中可以实现根据本公开的实施例的语音分离装置和语音分离的方法的通用个人计算机的示例性结构的框图。
虽然本公开容易经受各种修改和替换形式,但是其特定实施例已作为例子在附图中示出,并且在此详细描述。然而应当理解的是,在此对特定实施例的描述并不打算将本公开限制到公开的具体形式,而是相反地,本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是,贯穿几个附图,相应的标号指示相应的部件。
具体实施方式
现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的,而不旨在限制本公开、应用或用途。
提供了示例实施例,以便本公开将会变得详尽,并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子,以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是,不需要使用特定的细节,示例实施例可以用许多不同的形式来实施,它们都不应当被解释为限制本公开的范围。在某些示例实施例中,没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。
根据本公开的一个实施例,提供了一种语音分离装置,包括:预处理单元,其对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达;多分支网络,其具有多个分支,每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息;分支权重网络,其基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征;掩模生成单元,其基于所述估计特征针对所述预定数目的语音中的每一个生成掩模;以及分离单元,其基于所述掩模和所述混合表达生成分离的语音信号。
如图1所示,根据本公开的语音分离装置100可以包括预处理单元101、多分支网络102、分支权重网络103、掩模生成单元104以及分离单元105。
根据本公开的一个实施例,预处理单元101可以对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达。例如,预处理单元101可以对包含两人语音混合而成的混合语音进行预处理。所述预处理可以包括对混合语音信号进行变换以得到非负的高维变换结果,这样的非负高维变换结果也可以称为“混合表达”。其中,所述混合语音信号可以是单一声道的混合语音的时域信号。这里,本领域技术人员应该清楚,两人混合语音仅为示例性的,本公开并不限于此。本公开当然可以应用于多人混合语音或其他种类的混合声音。然而,为了便于理解,本公开下文将以两人混合语音为例进行具体实施例的描述。
接下来,多分支网络102可以具有多个分支,每个分支可以使用不同的感受野处理所述混合表达以获取不同时间尺度的信息。在卷积神经网络CNN中,决定某一层输出结果中一个元素所对应的输入层的区域大小(映射)被称作感受野(receptive field)。例如,所述多分支网络中的每个分支可以使用不同的感受野从所述混合表达中学习到用于语音分离的各自的时间尺度特征。
然后,分支权重网络103可以基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征。
接下来,掩模生成单元104可以基于所述估计特征针对所述预定数目的语音中的每一个生成掩模。这里,根据本公开的实施例即可以生成两个掩模,所述掩模分别与两人的单独语音对应。所述掩模的内容例如是“1”和“0”,“1”表示在特征矩阵中的那一块区域对应的“混合表达”属于一人,而“0”表示在特征矩阵中的那一块区域对应的“混合表达”不属于该一人。这里,本领域技术人员应该清楚,所述掩模的数目和内容仅是示例性的,本公开并不限于此。
接下来,分离单元105可以基于所述掩模和所述混合表达生成分离的语音信号。根据本公开的实施例,分别与两人的单独语音对应的掩模与所述混合表达进行乘法运算,即可获得理论上全部属于一人的“混合表达”,最后经过变换可以得到分离后的一维语音信号。
使用根据本公开的实施例的语音分离装置,其提出了一种以多分支分离网络和分支权重网络为核心的端到端分离神经网络,其在提取多时间尺度信息的基础上,添加了自适应权重,实现了在前后分块的分离结果中预定数目的语音排列顺序是固定的效果。
根据本公开的一个实施例,所述预处理单元101可以配置成对混合语音信号进行变换以得到非负的高维变换结果。这种变换将时域信号变换为一个新的变换域,基于该变换域可以更有效地提取用于分离任务的特征。所述变换可以包括但不限于一维卷积和常规整流线性运算(ReLU)。亦即,所述预处理单元101可以配置成对所述混合语音信号执行一维卷积运算和常规整流线性运算。这里,本领域技术人员应该清楚,所述一维卷积和常规整流线性运算的变换仅是示例性的,本公开并不限于此。
根据本公开的一个实施例,所述预处理单元101还可以配置成对所述混合语音信号执行归一化运算和1×1卷积运算以得到所述混合表达。归一化运算即对混合表达进行归一化处理,以提高训练速度。1×1卷积运算可以用于修改所述混合表达的最后一维的尺寸。亦即,经由1×1卷积运算处理后的混合表达可以保持一致的尺寸。同样地,本领域技术人员应该清楚,归一化运算和1×1卷积运算的变换也仅是示例性的,本公开并不限于此。
例如,如图2所示,一方面,输入的混合语音信号可以经过一维卷积运算和常规整流线性运算以生成所述混合语音信号的第一混合表达。另一方面,输入的混合语音信号可以经过一维卷积运算、常规整流线性运算、归一化运算和1×1卷积运算后生成所述混合语音信号的第二混合表达,然后,将所述第二混合表达送入多分支分离网络,同时,所述输入的混合语音信号在经过分支权重网络处理后将为每个分支的结果分配的权重送入所述多分支分离网络。接下来,所述多分支分离网络基于为每个分支的结果分配的权重从所述第二混合表达提取特征。接下来,所提取的特征在经过1×1卷积运算和softmax运算后,将生成针对所述输入的混合语音中的每一个的掩模。然后,将第一混合表达与所生成的掩模一对一进行乘法运算后得到一维语音信号。最后,将所述一维语音信号通过全连接网络(FC)进行处理后获得分离后的语音信号。
根据本公开的一个实施例,多分支网络和分支权重网络的细节如图3所示,其中,右侧表示多分支网络,而左侧表示分支权重网络。右侧的多分支网络目的是通过从不同时间长度的信息学习用于分离的特征。左侧的分支权重网络目的是从“输入的混合语音信号”学习到对应“多分支网络”中每一个分支的权重。
根据本公开的一个实施例,所述多分支网络中的每个分支可以包含不同数目的卷积分离层。其中,每一卷积分离层的结构一致亦即每一卷积分离层具有相同的感受野。
如图3所示,根据本公开的一个实施例,所述多分支网络具有4个分支,分支1、分支2、分支3和分支4。所述4个分支分别包含黑色方框所示的6个、5个、4个和3个卷积分离层。这里,本领域技术人员应该清楚,根据本公开的4的分支以及每个分支所具有的卷积分离层的数目都仅是示例性的,本公开并不限于此。本领域技术人员可以根据实际数据的需要及经验设定不同数目的分支及卷积分离层。
根据本公开的一个实施例,所述多分支网络中的每个分支共用预定数目的卷积分离层。例如,如图3所示,多分支网络中的每个分支共用两个卷积分离层。这里,本领域技术人员应该清楚,共用的两个卷积分离层仅是示例性的,本公开并不仅限于图3所示的两个卷积分离层。本领域技术人员可以根据经验及实际需要设定更多或更少的共用卷积分离层。
根据本公开的一个实施例,随着卷积分离层层数的增大,分支的感受野随之增大。假设一层的感受野是T,在具有n层的情况下,感受野就是nT。例如,如图3所示,根据本公开的实施例,分支1到分支4的感受野分别是6T、5T、4T和3T,由此,根据本公开的多分支网络可以通过不同时间长度的信息学习用于分离的特征即多时间尺度特征。
根据本公开的一个实施例,所述分支权重网络可以对输入的混合语音信号执行一维卷积运算、常规整流线性运算、归一化运算、1×1卷积运算、多层的卷积结构和softmax运算以得到每个分支的结果的权重。
根据本公开的一个实施例,多层的卷积结构可以包括卷积神经网络CNN和最大池化层。这里,本领域技术人员应该清楚,分支权重网络的结构仅是示例性的,本公开不限于图3所示的结构,本领域技术人员可以根据实际的需要设置分支权重网络的结构。
最后,多分支网络每一分支将输出各自分支学到的特征。然后,每一分支的特征与分支权重网络输出的对应权重相乘后累加得到多分支网络输出即提取的特征。
根据本公开的一个实施例,所述卷积分离层可以对所述混合表达执行扩张卷积运算。
具体地,如图4所述,所述卷积分离层由多层卷积分离单元组成。所述多层卷积分离单元的结构与扩张卷积类似,扩张卷积中每一个圆圈从左到右表示时刻点即一个时间序列,而每一层的卷积分离单元具有一个扩张率。扩张率成指数上升,以确保卷积分离层能够获得足够时间长度的信息。例如,在具有M个卷积分离单元的情况下,扩张率可以依次为1、2、4、…、2M-1。例如,如图4所示,根据本公开的卷积分离层示例性地示出了四层,其中,第一层的扩张率d=1,第二层的扩张率d=2,第三层的扩张率d=4,第四层的扩张率d=8。所述扩张率表示混合表达时间尺度上的信息量。这里,本领域技术人员应该清楚,本公开图4所示的卷积分离层及卷积分离单元仅是示例性的,本公开并不限于此。
为了提高每一卷积分离单元对时间序列信息的学习能力,根据本公开的一个实施例,所述卷积分离单元可以配置成对所述混合表达执行门控卷积分离运算。
具体地,如图4所示,在卷积分离单元中的每一卷积运算例如第一卷积运算和第二卷积运算都附加上一个门结构,来控制从该卷积运算输出的信息,亦即类似于添加一个自适应的过滤器。其中,所述第一卷积运算可以是1×1卷积运算。因此,从时间维度上观察,门结构赋予了这个卷积运算时间记忆的特性。门结构由一个卷积运算和“sigmoid”组成,卷积运算与被门结构附加的卷积运算一样,但参数不一样。“sigmoid”是使用sigmoid函数将变量映射到0,1之间,得到门结构输出的权重。门结构的权重和被附加门的卷积运算结果相乘(非矩阵乘法)实现门的控制作用。
本公开提供了一种以多分支分离网络、分支权重网络和门控卷积单元三者为核心的端到端分离神经网络,其在提取多时间尺度的信息的基础上添加了自适应的权重,实现了在前后分块的分离结果中说话人的顺序是固定的结果。
下面将结合图5来描述根据本公开的实施例的语音分离的方法。如图5所示,根据本公开的实施例的语音分离的方法开始于步骤S510。
在步骤S510中,对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达。
接下来,在步骤S520中,多分支网络的每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息。
然后,在步骤S530中,基于所述混合语音信号,分支权重网络为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征。
接下来,在步骤S540中,基于所述估计特征针对所述预定数目的语音中的每一个生成掩模。
最后,在步骤S550中,基于所述掩模和所述混合表达生成分离的语音信号。
根据本公开的一个实施例的语音分离的方法还包括对所述混合语音信号执行1维卷积运算和常规整流线性运算以得到所述混合表达的步骤。
根据本公开的一个实施例的语音分离的方法还包括对所述混合语音信号执行1维卷积运算、常规整流线性运算、归一化运算和1×1卷积运算以得到所述混合表达的步骤。
根据本公开的一个实施例的语音分离的方法还包括所述分支权重网络对所述混合语音信号执行1维卷积运算、常规整流线性运算、归一化运算、1×1卷积运算、多层卷积运算和softmax运算以得到每个分支的结果的权重的步骤。
根据本公开的一个实施例的语音分离的方法,其中,所述多分支网络中的每个分支包含不同数目的卷积分离层。
根据本公开的一个实施例的语音分离的方法,其中,所述多分支网络中的每个分支共用预定数目的卷积分离层。
根据本公开的一个实施例的语音分离的方法,其中,所述多分支网络中的每个分支共用两个卷积分离层。
根据本公开的一个实施例的语音分离的方法,其中,所述多分支网络具有4个分支,所述4个分支分别包含6个、5个、4个和3个卷积分离层。
根据本公开的一个实施例的语音分离的方法,其中,所述卷积分离层具有相同的感受野。
根据本公开的一个实施例的语音分离的方法,其中,所述卷积分离层对所述混合表达执行扩张卷积运算。
根据本公开的一个实施例的语音分离的方法,其中,所述卷积分离层对所述混合表达执行门控卷积分离运算。
本公开提供了一种以多分支分离网络、分支权重网络和门控卷积单元三者为核心的端到端分离神经网络,其在提取多时间尺度的信息的基础上添加了自适应的权重,实现了在前后分块的分离结果中说话人的顺序是固定的结果。
根据本公开的实施例的语音分离的方法的上述步骤的各种具体实施方式前面已经作过详细描述,在此不再重复说明。
显然,根据本公开的语音分离的方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其他适于存储信息的介质等。
另外,计算机通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本公开的技术方案。
图6为其中可以实现根据本公开的实施例的语音分离装置和语音分离的方法的通用个人计算机1300的示例性结构的框图。
如图6所示,CPU 1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中,也根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。
下述部件连接到输入/输出接口1305:输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,以及扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要,驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上,使得从中读出的计算机程序根据需要被安装到存储部分1308中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
在本公开的系统和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上虽然结合附图详细描述了本公开的实施例,但是应当明白,上面所描述的实施方式只是用于说明本公开,而并不构成对本公开的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此,本公开的范围仅由所附的权利要求及其等效含义来限定。
关于包括以上实施例的实施方式,还公开下述的附记:
附记1.一种语音分离装置,包括:
预处理单元,其对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达;
多分支网络,其具有多个分支,每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息;
分支权重网络,其基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征;
掩模生成单元,其基于所述估计特征针对所述预定数目的语音中的每一个生成掩模;以及
分离单元,其基于所述掩模和所述混合表达生成分离的语音信号。
附记2.根据附记1所述的语音分离装置,其中,所述预处理单元对所述混合语音信号执行1维卷积运算和常规整流线性运算以得到所述混合表达。
附记3.根据附记1所述的语音分离装置,其中,所述预处理单元对所述混合语音信号执行1维卷积运算、常规整流线性运算、归一化运算和1×1卷积运算以得到所述混合表达。
附记4.根据附记1所述的语音分离装置,其中,所述分支权重网络对所述混合语音信号执行1维卷积运算、常规整流线性运算、归一化运算、1×1卷积运算、多层卷积运算和softmax运算以得到每个分支的结果的权重。
附记5.根据附记1所述的语音分离装置,其中,所述多分支网络中的每个分支包含不同数目的卷积分离层。
附记6.根据附记5所述的语音分离装置,其中,所述多分支网络中的每个分支共用预定数目的卷积分离层。
附记7.根据附记6所述的语音分离装置,其中,所述多分支网络中的每个分支共用两个卷积分离层。
附记8.根据附记5所述的语音分离装置,其中,所述多分支网络具有4个分支,所述4个分支分别包含6个、5个、4个和3个卷积分离层。
附记9.根据附记5所述的语音分离装置,其中,所述卷积分离层具有相同的感受野。
附记10.根据附记5所述的语音分离装置,其中,所述卷积分离层对所述混合表达执行扩张卷积运算。
附记11.根据附记10所述的语音分离装置,其中,所述卷积分离层对所述混合表达执行门控卷积分离运算。
附记12.一种语音分离的方法,包括:
对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达;
多分支网络的每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息;
基于所述混合语音信号,分支权重网络为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征;
基于所述估计特征针对所述预定数目的语音中的每一个生成掩模;以及
基于所述掩模和所述混合表达生成分离的语音信号。
附记13.根据附记12所述的方法,还包括对所述混合语音信号执行1维卷积运算和常规整流线性运算以得到所述混合表达。
附记14.根据附记12所述的方法,还包括对所述混合语音信号执行1维卷积运算、常规整流线性运算、归一化运算和1×1卷积运算以得到所述混合表达。
附记15.根据附记12所述的方法,其中,所述分支权重网络对所述混合语音信号执行1维卷积运算、常规整流线性运算、归一化运算、1×1卷积运算、多层卷积运算和softmax运算以得到每个分支的结果的权重。
附记16.根据附记12所述的方法,其中,所述多分支网络中的每个分支包含不同数目的卷积分离层。
附记17.根据附记16所述的方法,其中,所述多分支网络中的每个分支共用预定数目的卷积分离层。
附记18.根据附记17所述的方法,其中,所述多分支网络具有4个分支,所述4个分支分别包含6个、5个、4个和3个卷积分离层。
附记19.根据附记17所述的方法,其中,所述卷积分离层对所述混合表达执行扩张卷积运算,并且其中,所述卷积分离层对所述混合表达执行门控卷积分离运算。
附记20.一种程序产品,包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据附记12-19中任何一项所述的方法。

Claims (9)

1.一种语音分离装置,包括:
预处理单元,其对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达;
多分支网络,其具有多个分支,每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息;
分支权重网络,其基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征;
掩模生成单元,其基于所述估计特征针对所述预定数目的语音中的每一个生成掩模;以及
分离单元,其基于所述掩模和所述混合表达生成分离的语音信号,
其中,所述多分支网络中的每个分支包含不同数目的卷积分离层,并且某一层输出结果中一个元素所对应的输入层的区域大小为感受野,并且
其中,随着卷积分离层层数的增大,分支的感受野随之增大。
2.根据权利要求1所述的语音分离装置,其中,所述预处理单元对所述混合语音信号执行一维卷积运算和常规整流线性运算以得到所述混合表达。
3.根据权利要求1所述的语音分离装置,其中,所述预处理单元对所述混合语音信号执行一维卷积运算、常规整流线性运算、归一化运算和1×1卷积运算以得到所述混合表达。
4.根据权利要求1所述的语音分离装置,其中,所述多分支网络中的每个分支共用预定数目的卷积分离层。
5.根据权利要求4所述的语音分离装置,其中,所述多分支网络具有4个分支,所述4个分支分别包含6个、5个、4个和3个卷积分离层。
6.根据权利要求5所述的语音分离装置,其中,所述卷积分离层对所述混合表达执行扩张卷积运算。
7.根据权利要求6所述的语音分离装置,其中,所述卷积分离单元对所述混合表达执行门控卷积分离运算。
8.一种语音分离的方法,包括:
对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达;
多分支网络的每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息;
基于所述混合语音信号,分支权重网络为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征;
基于所述估计特征针对所述预定数目的语音中的每一个生成掩模;以及
基于所述掩模和所述混合表达生成分离的语音信号,
其中,所述多分支网络中的每个分支包含不同数目的卷积分离层,并且某一层输出结果中一个元素所对应的输入层的区域大小为感受野,并且
其中,随着卷积分离层层数的增大,分支的感受野随之增大。
9.一种机器可读存储介质,其上携带有程序产品,所述程序产品包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据权利要求8所述的方法。
CN201910188493.9A 2019-03-13 2019-03-13 语音分离装置、方法及介质 Active CN111696572B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910188493.9A CN111696572B (zh) 2019-03-13 2019-03-13 语音分离装置、方法及介质
JP2020011820A JP2020149044A (ja) 2019-03-13 2020-01-28 音声分離装置、方法及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910188493.9A CN111696572B (zh) 2019-03-13 2019-03-13 语音分离装置、方法及介质

Publications (2)

Publication Number Publication Date
CN111696572A CN111696572A (zh) 2020-09-22
CN111696572B true CN111696572B (zh) 2023-07-18

Family

ID=72432015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910188493.9A Active CN111696572B (zh) 2019-03-13 2019-03-13 语音分离装置、方法及介质

Country Status (2)

Country Link
JP (1) JP2020149044A (zh)
CN (1) CN111696572B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509593B (zh) * 2020-11-17 2024-03-08 北京清微智能科技有限公司 一种语音增强网络模型、单通道的语音增强方法及系统
CN113707172B (zh) * 2021-06-02 2024-02-09 西安电子科技大学 稀疏正交网络的单通道语音分离方法、系统、计算机设备
CN113436633B (zh) * 2021-06-30 2024-03-12 平安科技(深圳)有限公司 说话人识别方法、装置、计算机设备及存储介质
CN113327604A (zh) * 2021-07-02 2021-08-31 因诺微科技(天津)有限公司 一种超短语音语种识别方法
CN113555031B (zh) * 2021-07-30 2024-02-23 北京达佳互联信息技术有限公司 语音增强模型的训练方法及装置、语音增强方法及装置
CN117012223A (zh) * 2022-04-29 2023-11-07 哲库科技(上海)有限公司 音频分离方法、训练方法、装置、设备、存储介质及产品
CN116229194A (zh) * 2023-05-09 2023-06-06 江西云眼视界科技股份有限公司 一种显著性目标检测方法、系统、计算机及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675659A (en) * 1995-12-12 1997-10-07 Motorola Methods and apparatus for blind separation of delayed and filtered sources
JP2013195575A (ja) * 2012-03-16 2013-09-30 Nippon Telegr & Teleph Corp <Ntt> 音響信号分析装置、方法、及びプログラム
KR20150142777A (ko) * 2014-06-11 2015-12-23 전자부품연구원 오디오 소스 분리 방법 및 이를 적용한 오디오 시스템
CN107993670A (zh) * 2017-11-23 2018-05-04 华南理工大学 基于统计模型的麦克风阵列语音增强方法
CN109147759A (zh) * 2018-10-09 2019-01-04 电子科技大学 一种基于打分算法的短波话音信号分集合并接收方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6764028B2 (ja) * 2017-07-19 2020-09-30 日本電信電話株式会社 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法
CN109830245B (zh) * 2019-01-02 2021-03-12 北京大学 一种基于波束成形的多说话者语音分离方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675659A (en) * 1995-12-12 1997-10-07 Motorola Methods and apparatus for blind separation of delayed and filtered sources
JP2013195575A (ja) * 2012-03-16 2013-09-30 Nippon Telegr & Teleph Corp <Ntt> 音響信号分析装置、方法、及びプログラム
KR20150142777A (ko) * 2014-06-11 2015-12-23 전자부품연구원 오디오 소스 분리 방법 및 이를 적용한 오디오 시스템
CN107993670A (zh) * 2017-11-23 2018-05-04 华南理工大学 基于统计模型的麦克风阵列语音增强方法
CN109147759A (zh) * 2018-10-09 2019-01-04 电子科技大学 一种基于打分算法的短波话音信号分集合并接收方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Y. X. Zou etc.An Effective Target Speech Enhancement with Single Acoustic Vector Sensor Based on the Speech Time-Frequency Sparsity.《Proceedings of the 19th International Conference on Digital Signal Processing》.2014,第547-551段. *
徐耀.鲁棒的双耳语音分离算法的研究.《中国优秀硕士论文全文数据库 信息科技辑》.2018,(第undefined期),第1-66页. *

Also Published As

Publication number Publication date
JP2020149044A (ja) 2020-09-17
CN111696572A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN111696572B (zh) 语音分离装置、方法及介质
CN111243576B (zh) 语音识别以及模型训练方法、装置、设备和存储介质
US11869530B2 (en) Generating audio using neural networks
Oord et al. Parallel wavenet: Fast high-fidelity speech synthesis
US10810993B2 (en) Sample-efficient adaptive text-to-speech
CN112634935B (zh) 语音分离方法、装置、电子设备和可读存储介质
CN106682387A (zh) 用于输出信息的方法和装置
Pascual et al. Time-domain speech enhancement using generative adversarial networks
EP4131083A2 (en) Method and apparatus for generating federated learning model
CN112967725A (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN113555032A (zh) 多说话人场景识别及网络训练方法、装置
CN113571082B (zh) 语音通话的控制方法、装置、计算机可读介质及电子设备
WO2024114303A1 (zh) 音素识别方法、装置、电子设备及存储介质
KR102518471B1 (ko) 생성 속도를 조절할 수 있는 음성 합성 시스템
CN111599342A (zh) 音色选择方法和选择系统
US11475909B2 (en) Separating speech by source in audio recordings by predicting isolated audio signals conditioned on speaker representations
CN115798453A (zh) 语音重建方法、装置、计算机设备和存储介质
Spiertz et al. Beta divergence for clustering in monaural blind source separation
Oliveira et al. A two-level item response theory model to evaluate speech synthesis and recognition
CN113780324A (zh) 数据处理方法、装置、电子设备及存储介质
CN105989832A (zh) 一种用于在计算机设备中生成个性化语音的方法和装置
CN116266266B (zh) 多音字消歧方法、装置、设备及存储介质
Yechuri et al. A Subconvolutional U-net with Gated Recurrent Unit and Efficient Channel Attention Mechanism for Real-Time Speech Enhancement
CN113282738B (zh) 文本选择方法及装置
CN112489633B (zh) 语音特征编码网络的训练方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant