CN111128222A - 语音分离方法、语音分离模型训练方法和计算机可读介质 - Google Patents

语音分离方法、语音分离模型训练方法和计算机可读介质 Download PDF

Info

Publication number
CN111128222A
CN111128222A CN201811276692.7A CN201811276692A CN111128222A CN 111128222 A CN111128222 A CN 111128222A CN 201811276692 A CN201811276692 A CN 201811276692A CN 111128222 A CN111128222 A CN 111128222A
Authority
CN
China
Prior art keywords
data
speech
convolution
speaker
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811276692.7A
Other languages
English (en)
Other versions
CN111128222B (zh
Inventor
石自强
林慧镔
刘柳
刘汝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201811276692.7A priority Critical patent/CN111128222B/zh
Priority to JP2019195466A priority patent/JP2020071482A/ja
Publication of CN111128222A publication Critical patent/CN111128222A/zh
Application granted granted Critical
Publication of CN111128222B publication Critical patent/CN111128222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

本发明涉及一种语音分离方法,包括:使用基于核的至少一个卷积滤波器对语音数据进行第一卷积运算;对经第一卷积运算的数据执行降采样;使用激活函数处理经降采样后的数据;对经激活函数处理后的数据进行第二卷积运算;通过应用至少一个深度神经网络模型识别经第二卷积运算后的数据与讲话人间的对应关系;根据对应关系提取与讲话人对应的数据;使用全连接层处理所提取的数据;对经全连接层处理的数据分别进行第二卷积运算的逆运算和第一卷积运算的逆运算以生成对应于讲话人的语音数据。

Description

语音分离方法、语音分离模型训练方法和计算机可读介质
技术领域
本公开涉及语音分离方法、语音分离模型训练方法和计算机可读介 质。
背景技术
语音分离的目标是把目标语音从背景干扰中分离出来。在信号处理 中,语音分离属于基本的任务类型,应用范围广泛,包括助听器设计、移 动通信、音频信息检索、自动语音以及说话人识别等等。人类的听觉系统 能轻易地将一个人的声音与另一个人的声音的分离开。即使在非常嘈杂的 声音环境中,一个人也能毫不费力地在其他人的说话声和环境噪声的包围 中分辨另一个特定人的说话内容。因此语音分离问题通常也被叫做鸡尾酒 会问题(cocktail party problem)。基于机器的语音分离,是指使用计算机 和其他设备将目标语音与背景噪声引起的干扰分开的问题。通过用单个麦 克风或其他源进行的输入实现的单声道语音分离是许多现实世界应用的 核心。然而,尽管经过数十年的努力,单声道语音分离仍然是信号和语音 处理中最重要的挑战之一。
传统的语音分离算法分为两类:语音增强和波束形成。语音增强主要 是基于信号处理的方法,其基于语音和噪声的广泛统计来估计目标语音, 而波束成形利用传感器或麦克风阵列。
最近,随着神经网络的流行,也出现了利用神经网络进行语音分离的 尝试,实验证明神经网络比其他替代方案具有更好的效果。
然而,现有的采用神经网路的语音分离方案对于非常复杂的嘈杂环境 往往也不能做到对于目标语音的准确分离,并且通常复杂度较高而无法满 足例如端到端(end toend)应用的实时性要求。
因此,本发明旨在提供一种新的、具有良好的语音分离效果的语音分 离方法、语音分离模型训练方法和计算机可读介质。相比于现有技术,本 发明提出了一种新的语音分离方案,其能够满足端到端应用的实时性要 求,且具有较高的分离准确度。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案 进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅 仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方 案为本领域技术人员所公知。
发明内容
在下文中将给出关于本公开的简要概述,以便提供关于本公开的某些 方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。 它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范 围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详 细描述的前序。
本公开的目的在于提供一种新的、具有良好的语音分离效果的语音分 离方法、语音分离模型训练方法和计算机可读介质。相比于现有技术, 本发明能够满足端到端应用的实时性要求,且具有较高的分离准确度。
为了实现本公开的目的,根据本公开的一个方面提供了一种语音分离 方法,包括:使用基于核的至少一个卷积滤波器对语音数据进行第一卷积 运算;对经第一卷积运算的数据执行降采样;使用激活函数处理经降采样 后的数据;对经激活函数处理后的数据进行第二卷积运算;通过应用至少 一个深度神经网络模型识别经第二卷积运算后的数据与讲话人间的对应 关系;根据对应关系提取与讲话人对应的数据;使用全连接层处理所提取的数据;对经全连接层处理的数据分别进行第二卷积运算的逆运算和第一 卷积运算的逆运算以生成对应于讲话人的语音数据。
根据本公开的另一方面,还提供了一种训练语音分离模型的方法,该 语音分离模型包括深度神经网络模型和至少一个基于核的卷积滤波器,方 法包括:获取对应于讲话人的第一语音数据;合成至少包括讲话人作为音 源的第二语音数据;利用作为语音分离模型的输入的第一语音数据和作为 语音分离模型的输出的第二语音数据对所述深度神经网络模型和至少一 个基于核的卷积滤波器进行训练,其中至少一个基于核的卷积滤波器用于对第二语音数据进行滤波处理,深度神经网络模型用于识别与讲话人对应 的中间数据。
根据本公开的另一方面,还提供了一种存储有计算机可读的程序指令 的计算机可读介质,当所述程序指令由计算机执行时,用于实现语音分离 的方法或训练语音分离模型的方法。
附图说明
参照下面结合附图对本公开实施方式的说明,会更加容易地理解本公 开的以上和其它目的、特点和优点,在附图中:
图1是示出根据本公开的实施方式的端到端的语音分离系统的示意 图;
图2是示出根据本公开的实施方式的语音分离模型训练系统的示意 图;
图3是示出根据本公开的实施方式的语音分离方法的流程图;
图4是示出根据本公开的实施方式的语音分离模型的训练方法的流 程图;
图5是示出如图1所示的语音分离系统中以及如图2所示的语音分离 模型训练系统中的LSTM的示意性框图;
图6是示出示出可用来实现根据本公开的实施方式的信息处理装置 和信息处理方法的通用机器的结构简图。
具体实施方式
在下文中将结合附图对本公开的示例性实施方式进行描述。为了清楚 和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该 了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方 式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施 方式的不同而有所改变。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公 开,在附图中仅仅示出了与根据本公开的方案密切相关的部件,而省略了 与本公开关系不大的其他细节。
本领域的技术人员可以理解,示例性实施例的各方面可以被实施为系 统、方法或计算机程序产品。因此,示例性实施例的各个方面可以具体实 现为以下形式,即,可以是完全硬件实施例、完全软件实施例(包括固件、 驻留软件、微代码等)、或组合软件部分与硬件部分的实施例,本文可以 一般称为"电路"、"模块"或"系统"。此外,示例性实施例的各个方面可以 采取体现为一个或多个计算机可读介质的计算机程序产品的形式,该计算 机可读介质上面体现有计算机可读程序代码。可以例如通过计算机网络来 分发计算机程序,或者计算机程序可以位于一个或更多个远程服务器上, 或被嵌入设备的存储器中。
可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可 以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例 如可以是,但不限于电的、磁的、光的、电磁的、红外线的、或半导体的 系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质 的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、 便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、 可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读 存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的 组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令 执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程 序的有形介质。
计算机可读信号介质可以包括例如在基带中或作为载波的一部分传 播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取 任何适当的形式,包括但不限于电磁的、光的或其任何适当的组合。
计算机可读信号介质可以是不同于计算机可读存储介质的、能够传 达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、 设备或装置相联系的程序的任何一种计算机可读介质。
体现在计算机可读介质中的程序代码可以采用任何适当的介质传输, 包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组 合。
用于执行这里公开的示例性实施例的各方面的操作的计算机程序代 码可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言 包括面向对象的程序设计语言,诸如Java、Smalltalk、C++之类,还包括 常规的过程式程序设计语言,诸如"C"程序设计语言或类似的程序设计语 言。
以下参照按照示例性实施例的方法、设备(系统)和计算机程序产品 的流程图和/或框图来描述这里公开的示例性实施例的各个方面。应当理 解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都 可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算 机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器, 使得通过计算机或其它可编程数据处理设备执行的这些指令产生用于实 现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能够指引计算机或其它可编程 数据处理设备以特定方式工作的计算机可读介质中,使得存储在计算机可 读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功 能/操作的指令的制造品。
也可以把计算机程序指令加载到计算机或其它可编程数据处理设备 上,导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产 生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供 实现流程图和/或框图中的方框中规定的功能/操作的过程。
图1是示出根据本公开的实施方式的端到端的语音分离系统的示意 图。
首先对端到端的含义进行说明。以类似语音分离的语音识别系统为 例,在训练层面上,传统的语音识别系统是由例如声学模型、发音词典、 语言模型等多个模型组成。其中声学模型和语言模型是经训练得到的。这 些模块的训练通常是独立进行的,每个模块具有各自不同的目标函数,例 如声学模型的训练目标是最大化训练语音识别的概率,而语言模型的训练 目标是最小化语音间的混淆度。由于用于实现不同训练目标的各个模块在 训练时不能进行信息共用,并且所训练的目标函数与系统整体的性能指标 有所偏差,因此这样训练出的网络往往达不到最优性能。此外,由于各个 模块独立运行,在训练时以及在识别时往往存在延迟。而解决上述问题的 方式包括端到端训练,对于语音识别来说,端到端训练指的是在训练好语 言模型后,例如将声学模型和语言模型组合在一起,再以目标函数去训练 声学模型。由于训练声学模型时要计算系统整体的输出,所以称为端到端 训练。可以看出这种方法并没有彻底解决问题,因为语言模型还是独立训 练的。因而出现了端到端模型,对于端到端模型,系统中不再有独立的声 学模型、发音词典、语言模型等模块,而是从输入端(语音波形或特征序 列)到输出端(序列)直接用一个神经网络相连,由神经网络来承担原有 的所有模块的所有功能。
如图1所示,根据本公开实施方式的语音分离方案即为端到端的方 案,输入的语音数据经由经训练的整体模型后得到分离的语音数据,需要 注意的是,该整体模型包括同时进行训练的各个模型,因此从模型训练的 角度来说,根据本公开实施方式的语音分离模型为端到端模型。
而从应用角度来看,以会议场景为例,存在在会议中由各自持有麦克 风的多人同时讲话的情况,所采集的包括多人语音的语音数据可以通过如 图1所示的系统的输入端输入,经过整体模型的处理,在输出端得到分离 的属于多人中的每个人的语音数据,因此,从应用层面来说,图1所示的 语音分离系统可以实现端到端的实时的语音分离,是端到端的语音分离系 统。
下面对应用于图1所示的语音分离系统的语音分离模型的组成进行 说明。其中,100为输入的包含至少一个讲话人的语音的语音数据。101为 基于核的P个卷积滤波器,用于对输入的语音数据进行第一卷积运算,其 中P为大于1的整数。102为经第一卷积运算后得到的中间数据。103为 降采样和激活层,这里示出的降采样处理为池化Pooling处理,激活函数 为线性整流函数Relu,当然,图示所示的处理仅出于示出的目的,本领域 技术人员也可以领会采用能够实现相同或类似功能的其他方式。104为第 二卷积运算处理。105和106示出了两个长短期记忆网络LSTM,需要注 意的是,根据本公开实施方式的语音分离方法和语音分离系统并不限于仅 采用两个长短期记忆网络LSTM,而是可以是一个或多于两个,图示所示 的处理仅出于示出的目的,此外,也不限于采用长短期记忆网络LSTM, 也可以是能够实现类似或相同功能的其他类型的深度神经网络。107为全 连接层(fullyconnected layers,FC),其在整个网络中起到分类器的作用, 将用于将经训练学习到的分布式特征表示映射到样本标记空间。108和 109为两个反卷积层,其中108中的反卷积运算是与104的第二卷积运算 对应的逆运算,109中的反卷积运算是与101的第一卷积运算对应的逆运 算。经过包括101-109的各部件的语音分离模型后,输出经分离后的语音 110和111,需要注意的是,根据本公开实施方式的语音分离方法和语音 分离系统并不限于输出如图1所示的两个人的语音,而是可以是一个或多 于两个,图示所示的处理仅出于示出的目的。112示出了P个序列组成的 帧表达,需要注意的是,该帧表达仅出于示出的目的用于示出P个序列中 的各个序列间的不同之处,而不用于后续处理。
图2是示出根据本公开的实施方式的语音分离模型训练系统的示意 图。经如图2所示的语音分离模型训练系统训练出的模型可以用于如图1 所示的语音分离系统以实现端到端的语音分离。
下面对应用于图2所示的语音分离模型训练系统的语音分离模型训 练的组成进行说明。其中,语音数据212和213是预先采集的来自不同讲 话人的语音数据。截取语音数据212和213的一部分作为样本,请注意, 经该截取操作的语音数据用于后续的损失值的计算。语音数据214为将语 音数据212和213进行合成而得到的语音数据。语音数据200为利用与对 语音数据212和213进行截取所使用的时间窗的相同的截取时间窗来对合 成的语音数据214进行截取而得到的数据。滤波器组201包括基于核的P 个卷积滤波器,用于对待输入的语音数据200进行第一卷积运算。中间数 据202为经第一卷积运算后得到的中间数据。203为降采样和激活层,这 里示出的降采样处理为池化Pooling处理,激活函数为线性整流函数Relu, 当然,图示所示的处理仅出于示出的目的,本领域技术人员也可以领会采 用能够实现相同或类似功能的其他方式。204为进行第二卷积运算处理的 卷积层。205和206示出了两个长短期记忆网络LSTM,需要注意的是, 根据本公开实施方式的语音分离方法和语音分离系统并不限于仅采用两 个长短期记忆网络LSTM,而是可以是一个或多于两个,图示所示的处理 仅出于示出的目的,此外,也不限于采用长短期记忆网络LSTM,也可以 是能够实现类似或相同功能的其他类型的网络。207为全连接层(fully connected layers,FC),其在整个网络中起到分类器的作用,将用于将经 训练学习到的分布式特征表示映射到样本标记空间。208和209为两个反 卷积层,其中208中的反卷积运算是与204的第二卷积运算对应的逆运算, 209中的反卷积运算是与滤波器组201中应用的第一卷积运算对应的逆运算。经过包括201-209的各部件的语音分离模型后,输出经初步分离后的 语音210和211,需要注意的是,根据本公开实施方式的语音分离训练方 法和系统并不限于训练如图2所示的两个人的语音,而是可以是一个或多 于两个,图示所示的处理仅出于示出的目的。基于经初步分离后的语音 210和211与预先采集的来自不同讲话人的语音数据212和213计算由损失函数215输出的损失值,通过迭代地减少该损失值来训练该语音分离模 型,从而用于如图1所示的语音分离系统以实现端到端的语音分离。
图3是示出根据本公开的实施方式的语音分离方法的流程图。
在步骤301中,接收待分离讲话人声音的语音数据包括但不限于实时 接收的数据、经采集并存储的数据、经由通信而实时获得的数据或者经通 信传输并存储的数据等。在采集时,该语音数据可以是例如经由诸如麦克 风的语音采集设备采集并经过音频处理(例如模数转换、压缩)后得到的 采样数据,其中采样后的数据可以是时间上离散的。在该步骤中,可以接 收一段长时间的语音,然后基于其中语音内容的特性对该段语音进行适应性地截取,例如是否包含足够的能够区别不用讲话人的语音特征。也可以 采用仅采集一段语音,而不进行截取。
在步骤302中,使用基于核的至少一个卷积滤波器对经步骤301中的 处理得到的语音数据进行第一卷积运算。通常情况下,语音分离都是基于 时频分析后的语音谱完成的,而其中语音谱是具有结构特点的。要提高语 音分离准确率,就需要克服语音信号所面临各种各样的多样性,包括说话 人的多样性(说话人自身、以及说话人之间)、环境的多样性等。基于核的 卷积滤波器提供在时间和空间上的平移不变性卷积,因此使用卷积滤波器可以利用卷积的不变性来克服语音信号本身的多样性。从这个角度来看, 则可以认为是将整个语音信号分析得到的语音谱当作一张图像来处理,采 用图像中广泛应用的基于核的卷积滤波器对其进行识别是有效的。需要注 意的是,卷积滤波器的核和卷积滤波器的数量是通过迭代学习经不断完善 来确定的。发明人发现,通过对包括卷积滤波器的整体模型进行训练,其 中在训练LSTM的同时对卷积滤波器的核和数量进行训练可以提高语音 分离的准确率,这也是本发明的优势之一。在步骤302中,假设输入的语 音数据具有M个采样点,卷积滤波器的卷积核为N×N,经过P个卷积滤 波器的处理后将得到如图1所示的P个序列,每个序列包括M-N+1个元 素,图1中的112示出了这P个时域序列组成的帧表达,需要注意的是, 该帧表达仅出于示出的目的用于示出P个序列中的各个序列间的不同之 处,而不用于后续处理。
在步骤303中,对经卷积滤波处理的数据执行降采样并使用激活函数 处理经降采样后的数据。根据本公开的一个实施方式,降采样可以是池化 Pooling处理,激活函数可以是线性整流函数Relu。下面对Pooling处理和 Relu进行简单的说明。在通过卷积获得了特征之后,下一步希望利用这些 特征去做分类。理论上讲,可以用提取到的所有特征去训练分类器,但这 样做面临计算量的挑战。学习一个拥有大量特征输入的分类器十分不便, 并且容易出现过拟合(over-fitting)。为了解决这个问题,同时为了描述数 据量较大的语音,考虑对不同位置的特征进行聚合统计,例如,可以计算 一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅 具有低得多的维度(相比使用所有提取得到的特征),同时还会改善结果(不容易过拟合)。这种聚合的操作就是池化,有时也称为平均池化或者最 大池化(取决于计算池化的方法)。线性整流函数(Rectified Linear Unit,Relu),又称修正线性单元,是一种人工神经网络中常用的激活函数,通 常指代以斜坡函数及其变种为代表的非线性函数。比于传统的神经网络激 活函数,诸如逻辑函数和tanh等双曲函数,线性整流函数具有以下优势: 符合仿生物学原理;更加有效率的梯度下降以及反向传播,避免了梯度爆 炸和梯度消失;简化计算过程,没有其他复杂激活函数中诸如指数函数的 影响,同时活跃度的分散性使得神经网络整体计算成本下降。经过了步骤 303上的上述处理后,在步骤304中,对经激活函数处理后的数据进行第 二卷积运算以便于作为LSTM的输入。
在步骤305中,通过应用至少一个深度神经网络模型例如LSTM识别 经第二卷积运算后的数据与讲话人间的对应关系并根据对应关系提取与 讲话人对应的数据。
然后,在步骤306中,使用全连接层处理所提取的数据。
在步骤307中,对经全连接层处理的数据分别进行第二卷积运算的逆 运算和第一卷积运算的逆运算以生成估计出的对应于讲话人的语音数据。
图4是示出根据本公开的实施方式的语音分离模型的训练方法的流 程图。
在步骤401中,获取来自多个讲话人的语音数据,为了保证训练的准 确度,所获取的语音数据可以选取尽量少的背景噪音的语音数据,以使得 所训练的模型可以适用于不同场景下的讲话人的语音分离。
在步骤402中,对步骤401中获取到的来自多个讲话人的语音数据进 行混合,这里的混合可以是在同一时间段上对多个语音数据的叠加处理, 而最好不是对多个语音数据的拼接(因为这样的处理对于模型训练没有显 著帮助)。
在步骤403中,利用预设时间窗对步骤402中获得的合成的语音数据 进行截取,并将截取后的语音数据输入到待训练的语音分离模型中。
在步骤404中,使用基于核的至少一个卷积滤波器对输入的合成语音 数据进行第一卷积运算。通常情况下,要提高语音分离准确率,需要克服 语音信号所面临各种各样的多样性,包括说话人的多样性(说话人自身、 以及说话人之间)、环境的多样性等。基于核的卷积滤波器提供在时间和 空间上的平移不变性卷积,因此使用卷积滤波器可以利用卷积的不变性来 克服语音信号本身的多样性。从这个角度来看,则可以认为是将整个语音 信号分析得到的语音谱当作一张图像来处理,采用图像中广泛应用的基于 核的卷积滤波器对其进行识别是有效的。需要注意的是,卷积滤波器的核 和卷积滤波器的数量是通过迭代学习经不断完善来确定的,并且是与 LSTM模型同时训练的。发明人发现,通过对包括卷积滤波器的整体模型 进行训练,其中在训练LSTM的同时对卷积滤波器的核和数量进行训练可 以提高语音分离的准确率,这也是本发明的优势之一。在步骤405中,假 设输入的语音数据具有M个采样点,卷积滤波器的卷积核为N×N,经过 P个卷积滤波器的处理后将得到如图2所示的P个序列,每个序列包括 M-N+1个元素,图2中的216示出了这P个时域序列组成的帧表达,需 要注意的是,该帧表达仅出于示出的目的用于示出P个序列中的各个序列 间的不同之处,而不用于后续处理。
在步骤405中,对经卷积滤波处理的数据执行降采样并使用激活函数 处理经降采样后的数据。根据本公开的一个实施方式,降采样可以是池化 Pooling处理,激活函数可以是线性整流函数Relu。在通过卷积获得了特 征之后,下一步希望利用这些特征去做分类。理论上讲,可以用提取到的 所有特征去训练分类器,但这样做面临计算量的挑战。学习一个拥有大量 特征输入的分类器十分不便,并且容易出现过拟合。为了解决这个问题, 同时为了描述数据量较大的语音,考虑对不同位置的特征进行聚合统计, 例如,可以计算一个区域上的某个特定特征的平均值(或最大值)。这些概 要统计特征不仅具有低得多的维度(相比使用所有提取得到的特征),同时 还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化,有时也称为 平均池化或者最大池化(取决于计算池化的方法)。线性整流函数,又称修 正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函 数及其变种为代表的非线性函数。比于传统的神经网络激活函数,诸如逻 辑函数和tanh等双曲函数,线性整流函数具有以下优势:符合仿生物学原 理;更加有效率的梯度下降以及反向传播,避免了梯度爆炸和梯度消失; 简化计算过程,没有其他复杂激活函数中诸如指数函数的影响,同时活跃 度的分散性使得神经网络整体计算成本下降。经过了步骤405上的上述处 理后,在步骤406中,对经激活函数处理后的数据进行第二卷积运算以便 于作为LSTM的输入。
在步骤407中,通过应用至少一个深度神经网络模型例如LSTM识别 经第二卷积运算后的数据与讲话人间的对应关系并根据对应关系提取与 讲话人对应的数据。
然后,在步骤408中,使用全连接层处理所提取的数据。
在步骤409中,对经全连接层处理的数据分别进行第二卷积运算的逆 运算和第一卷积运算的逆运算以生成估计出的对应于讲话人的语音数据。
在步骤410中,利用作为语音分离模型的输入的步骤401中的来自多 个讲话人的语音数据和作为语音分离模型的输出的步骤409中生成的语 音数据对包括LSTM和P个基于核的卷积滤波器的语音分离模型进行训 练,其中训练过程包括基于讲话人的语音特性确定卷积滤波器的数量P和 核。
在步骤410中,对包括LSTM和P个基于核的卷积滤波器的语音分 离模型进行训练具体为,基于经步骤410中得到的初步分离后的语音与预 先采集的来自不同讲话人的目标语音数剧计算由损失函数输出的损失值, 基于该损失值来更新语音分离模型,对神经网络进行训练时采用的损失函 数可采用本领域知晓的常规损失函数,在此不再赘述。
通过对上述步骤403至410进行迭代,以通过不断减少损失函数的损 失值来训练该语音分离模型,当损失值达到预设的期望阈值以下时,完成 对于语音分离模型的训练。
通过如图4所示的语音分离模型的训练方法训练得到的语音分离模 型,可以用于如图1所示的语音分离系统以实现端到端的语音分离。
下面对根据本公开实施方式的深度神经网络LSTM进行说明。
图5是示出如图1所示的语音分离系统中以及如图2所示的语音分离 模型训练系统中的LSTM的示意性框图。长短期记忆网络LSTM递归神 经网络Recurrent NeuronNetwork的一种,递归神经网络RNN是一种对序 列数据建模的神经网络。在传统的神经网络模型中,是从输入层到隐含层 再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。但是 这种普通的神经网络对于很多问题却无能无力。例如,预测句子的下一个 单词一般需要使用前面的单词,因为一个句子中前后单词并不是独立的。 RNN之所以称为递归神经网络,即一个序列当前的输出与前面的输出也 有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出 的计算中,即隐藏层之间的节点不再是无连接的而是相互连接的,隐藏层 的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。
所有RNN都具有一种重复神经网络模块的链式的形式。在标准的 RNN中,这个重复的模块只有一个简单的结构,例如一个tanh层。LSTM 同样是这样的结构,但是重复的模块拥有一个不同的结构。不同于单一神 经网络层,而是以一种特定的方式进行交互。
LSTM神经网络是一种时间递归神经网络(RNN),其适用于处理和 预测时间序列中间隔和延迟非常长的重要事件。鉴于LSTM神经网络对于 本领域技术人员是公知,本文仅对其在本公开的实施方式中的应用进行描 述,而不对其原理进行更详细的描述。
本公开的各种实施方式采用LSTM的初衷在于,LSTM是RNN的一 个优秀的变种模型,继承了大部分RNN模型的特性,同时解决了梯度反 传过程由于逐步缩减而产生的梯度消失问题,因此LSTM非常适合用于处 理与时间序列高度相关的问题,而经实践,LSTM在根据本公开的各种实 施方式中作为整体模型的一部分提高了分离的准确度。需要注意的是,本 公开的实施方式使用了两个LSTM实现了在保证实时性的同时提高了分 离准确度,也不限于采用两个LSTM,可以是一个或多于两个LSTM。
图6是示出可用来实现根据本公开的实施方式的信息处理装置和信 息处理方法的通用机器700的结构简图。通用机器700可以是例如计算机 系统。应注意,通用机器700只是一个示例,并非暗示对本公开的方法和 装置的使用范围或者功能的局限。也不应将通用机器700解释为对上述信 息处理方法和信息处理装置中示出的任一组件或其组合具有依赖或需求。
在图6中,中央处理单元(CPU)701根据只读存储器(ROM)702 中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程 序执行各种处理。在RAM 703中,还根据需要存储当CPU 701执行各种 处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704 彼此连接。输入/输出接口705也连接到总线704。
下述部件也连接到输入/输出接口705:输入部分706(包括键盘、鼠 标等等)、输出部分707(包括显示器,例如阴极射线管(CRT)、液晶显 示器(LCD)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分 709(包括网络接口卡例如LAN卡、调制解调器等)。通信部分709经由 网络例如因特网执行通信处理。根据需要,驱动器710也可连接到输入/ 输出接口705。可拆卸介质711例如磁盘、光盘、磁光盘、半导体存储器 等等可以根据需要被安装在驱动器710上,使得从中读出的计算机程序可 根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从 存储介质例如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中 存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。 可拆卸介质711的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储 器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注 册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分 708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分 发给用户。
此外,本公开还提出了一种存储有计算机可读的程序指令的计算机程 序产品。所述指令代码由计算机读取并执行时,可执行上述根据本公开的 信息处理方法。相应地,用于承载这种程序指令的上面列举的各种存储介 质也包括在本公开的范围内。
上面已通过框图、流程图和/或实施方式进行了详细描述,阐明了根 据本公开的实施方式的装置和/或方法的具体实施方式。当这些框图、流 程图和/或实施方式包含一个或多个功能和/或操作时,本领域的技术人员 明白,这些框图、流程图和/或实施方式中的各功能和/或操作可以通过各 种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。 在一种实施方式中,本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其 他集成形式实现。然而,本领域的技术人员会认识到,本说明书中描述的 实施方式的一些方面能够全部或部分地在集成电路中以在一个或多个计 算机上运行的一个或多个计算机程序的形式(例如,以在一个或多个计算 机系统上运行的一个或多个计算机程序的形式)、以在一个或多个处理器 上运行的一个或多个程序的形式(例如,以在一个或多个微处理器上运行 的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合 的形式等效地实施,并且,根据本说明书中公开的内容,设计用于本公开 的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术 人员的能力范围之内。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件 的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或 附加。涉及序数的术语“第一”,“第二”等并不表示这些术语所限定的特 征、要素、步骤或组件的实施顺序或者重要性程度,而仅仅是为了描述清 楚起见而用于在这些特征、要素、步骤或组件之间进行标识。
综上,在根据本公开的实施方式中,本公开提供了如下方案,但不限 于此:
方案1.一种语音分离方法,包括:
使用基于核的至少一个卷积滤波器对语音数据进行第一卷积运算;
对经所述第一卷积运算的数据执行降采样;
使用激活函数处理经所述降采样后的数据;
对经所述激活函数处理后的数据进行第二卷积运算;
通过应用至少一个深度神经网络模型识别经所述第二卷积运算后的 数据与讲话人间的对应关系;
根据所述对应关系提取与所述讲话人对应的数据;
使用全连接层处理所提取的数据;
对经所述全连接层处理的数据分别进行所述第二卷积运算的逆运算 和所述第一卷积运算的逆运算以生成对应于所述讲话人的语音数据。
方案2.根据方案1所述的方法,其中,所述降采样处理为池化 Pooling。
方案3.根据方案1所述的方法,其中,所述激活函数为线性整流函 数Relu。
方案4.根据方案1所述的方法,其中,依次应用两个深度神经网络 模型识别经所述第二卷积运算后的数据与讲话人间的对应关系。
方案5.根据方案1至4中任一项所述的方法,其中所述深度神经网 络模型为长短期记忆网络LSTM。
方案6.根据方案1至4中任一项所述的方法,其中,所述对应关系 包括经所述第二卷积运算后的数据与多个讲话人的多个对应关系。
方案7.根据方案1至4中任一项所述的方法,其中,基于讲话人的 语音特性确定所使用的卷积滤波器的数量和核。
方案8.根据方案1至4中任一项所述的方法,其中,所述语音数据 是时间上离散的数据。
方案9.根据方案5所述的方法,其中,所述LSTM的数量大于或等 于2。
方案10.一种训练语音分离模型的方法,所述语音分离模型包括深度 神经网络模型和至少一个基于核的卷积滤波器,所述方法包括:
获取对应于讲话人的第一语音数据;
合成至少包括所述讲话人作为音源的第二语音数据;
利用作为所述语音分离模型的输入的所述第一语音数据和作为所述 语音分离模型的输出的第二语音数据对所述深度神经网络模型和所述至 少一个基于核的卷积滤波器进行训练,
其中所述至少一个基于核的卷积滤波器用于对所述第二语音数据进 行滤波处理,所述深度神经网络模型用于识别与所述讲话人对应的中间数 据。
方案11.根据方案10所述的方法,其中,基于所述讲话人的语音特 性确定所述卷积滤波器的数量和核。
方案12.根据方案10所述的方法,其中,通过不断减少损失函数的 损失值来训练所述语音分离模型。
方案13.根据方案12所述的方法,当所述损失值达到预设的期望阈 值以下时,完成对于所述语音分离模型的训练。
方案14.一种存储有计算机可读的程序指令的计算机可读介质,当所 述程序指令由计算机执行时,用于实现根据方案1-13中任一项所述的方 法。
尽管上面已经通过对本公开的具体实施方式的描述对本公开进行了 披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范 围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等 同物也应当被认为包括在本公开的保护范围内。

Claims (10)

1.一种语音分离方法,包括:
使用基于核的至少一个卷积滤波器对语音数据进行第一卷积运算;
对经所述第一卷积运算的数据执行降采样;
使用激活函数处理经所述降采样后的数据;
对经所述激活函数处理后的数据进行第二卷积运算;
通过应用至少一个深度神经网络模型识别经所述第二卷积运算后的数据与讲话人间的对应关系;
根据所述对应关系提取与所述讲话人对应的数据;
使用全连接层处理所提取的数据;
对经所述全连接层处理的数据分别进行所述第二卷积运算的逆运算和所述第一卷积运算的逆运算以生成对应于所述讲话人的语音数据。
2.根据权利要求1所述的方法,其中,所述降采样处理为池化Pooling。
3.根据权利要求1所述的方法,其中,所述激活函数为线性整流函数Relu。
4.根据权利要求1所述的方法,其中,依次应用两个深度神经网络模型识别经所述第二卷积运算后的数据与讲话人间的对应关系。
5.根据权利要求1至4中任一项所述的方法,其中所述深度神经网络模型为长短期记忆网络LSTM。
6.根据权利要求1至4中任一项所述的方法,其中,所述对应关系包括经所述第二卷积运算后的数据与多个讲话人的多个对应关系。
7.根据权利要求1至4中任一项所述的方法,其中,基于讲话人的语音特性确定所使用的卷积滤波器的数量和核。
8.一种训练语音分离模型的方法,所述语音分离模型包括深度神经网络模型和至少一个基于核的卷积滤波器,所述方法包括:
获取对应于讲话人的第一语音数据;
合成至少包括所述讲话人作为音源的第二语音数据;
利用作为所述语音分离模型的输入的所述第一语音数据和作为所述语音分离模型的输出的第二语音数据对所述深度神经网络模型和所述至少一个基于核的卷积滤波器进行训练,
其中所述至少一个基于核的卷积滤波器用于对所述第二语音数据进行滤波处理,所述深度神经网络模型用于识别与所述讲话人对应的中间数据。
9.根据权利要求8所述的方法,其中,基于所述讲话人的语音特性确定所述卷积滤波器的数量和核。
10.一种存储有计算机可读的程序指令的计算机可读介质,当所述程序指令由计算机执行时,用于实现根据权利要求1-9中任一项所述的方法。
CN201811276692.7A 2018-10-30 2018-10-30 语音分离方法、语音分离模型训练方法和计算机可读介质 Active CN111128222B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811276692.7A CN111128222B (zh) 2018-10-30 2018-10-30 语音分离方法、语音分离模型训练方法和计算机可读介质
JP2019195466A JP2020071482A (ja) 2018-10-30 2019-10-28 語音分離方法、語音分離モデル訓練方法及びコンピュータ可読媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811276692.7A CN111128222B (zh) 2018-10-30 2018-10-30 语音分离方法、语音分离模型训练方法和计算机可读介质

Publications (2)

Publication Number Publication Date
CN111128222A true CN111128222A (zh) 2020-05-08
CN111128222B CN111128222B (zh) 2023-09-08

Family

ID=70484296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811276692.7A Active CN111128222B (zh) 2018-10-30 2018-10-30 语音分离方法、语音分离模型训练方法和计算机可读介质

Country Status (2)

Country Link
JP (1) JP2020071482A (zh)
CN (1) CN111128222B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112557980A (zh) * 2020-11-02 2021-03-26 上海东软医疗科技有限公司 磁共振图像矫正方法、装置、介质和电子设备
CN112735382A (zh) * 2020-12-22 2021-04-30 北京声智科技有限公司 音频数据处理方法、装置、电子设备及可读存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785291B (zh) * 2020-07-02 2024-07-02 北京捷通华声科技股份有限公司 语音分离方法和语音分离装置
JPWO2023276235A1 (zh) * 2021-06-29 2023-01-05

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160284346A1 (en) * 2015-03-27 2016-09-29 Qualcomm Incorporated Deep neural net based filter prediction for audio event classification and extraction
US20160322055A1 (en) * 2015-03-27 2016-11-03 Google Inc. Processing multi-channel audio waveforms
CN107146624A (zh) * 2017-04-01 2017-09-08 清华大学 一种说话人确认方法及装置
WO2018048945A1 (en) * 2016-09-06 2018-03-15 Deepmind Technologies Limited Processing sequences using convolutional neural networks
US20180122403A1 (en) * 2016-02-16 2018-05-03 Red Pill VR, Inc. Real-time audio source separation using deep neural networks
CN108417228A (zh) * 2018-02-02 2018-08-17 福州大学 乐器音色迁移下的人声音色相似性度量方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9368110B1 (en) * 2015-07-07 2016-06-14 Mitsubishi Electric Research Laboratories, Inc. Method for distinguishing components of an acoustic signal
JP6352512B1 (ja) * 2017-08-22 2018-07-04 株式会社 ディー・エヌ・エー 信号処理装置、信号処理方法、信号処理プログラム、及びデータ構造

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160284346A1 (en) * 2015-03-27 2016-09-29 Qualcomm Incorporated Deep neural net based filter prediction for audio event classification and extraction
US20160322055A1 (en) * 2015-03-27 2016-11-03 Google Inc. Processing multi-channel audio waveforms
US20180122403A1 (en) * 2016-02-16 2018-05-03 Red Pill VR, Inc. Real-time audio source separation using deep neural networks
WO2018048945A1 (en) * 2016-09-06 2018-03-15 Deepmind Technologies Limited Processing sequences using convolutional neural networks
CN107146624A (zh) * 2017-04-01 2017-09-08 清华大学 一种说话人确认方法及装置
CN108417228A (zh) * 2018-02-02 2018-08-17 福州大学 乐器音色迁移下的人声音色相似性度量方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENXING LI ET AL.: "《CBLDNN-Based Speaker-Independent Speech Separation Via Generative Adversarial Training》" *
张婷、刘允刚: "《基于改进卷积神经网络的语音分离方法》" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112557980A (zh) * 2020-11-02 2021-03-26 上海东软医疗科技有限公司 磁共振图像矫正方法、装置、介质和电子设备
CN112557980B (zh) * 2020-11-02 2022-05-03 上海东软医疗科技有限公司 磁共振图像矫正方法、装置、介质和电子设备
CN112735382A (zh) * 2020-12-22 2021-04-30 北京声智科技有限公司 音频数据处理方法、装置、电子设备及可读存储介质
CN112735382B (zh) * 2020-12-22 2024-02-02 北京声智科技有限公司 音频数据处理方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
JP2020071482A (ja) 2020-05-07
CN111128222B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN111128222B (zh) 语音分离方法、语音分离模型训练方法和计算机可读介质
CN112071322B (zh) 一种端到端的声纹识别方法、装置、存储介质及设备
KR100745976B1 (ko) 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
CN112949708B (zh) 情绪识别方法、装置、计算机设备和存储介质
US20170061978A1 (en) Real-time method for implementing deep neural network based speech separation
WO2019008580A1 (en) METHOD AND SYSTEM FOR IMPROVING A VOICE SIGNAL OF A HUMAN SPEAKER IN A VIDEO USING VISUAL INFORMATION
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
WO2023001128A1 (zh) 音频数据的处理方法、装置及设备
WO2019232833A1 (zh) 语音区分方法、装置、计算机设备及存储介质
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
US20230395087A1 (en) Machine Learning for Microphone Style Transfer
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
CN113870893A (zh) 一种多通道双说话人分离方法及系统
CN114420108A (zh) 一种语音识别模型训练方法、装置、计算机设备及介质
Fan et al. Utterance-level permutation invariant training with discriminative learning for single channel speech separation
CN118212929A (zh) 一种个性化Ambisonics语音增强方法
CN114664288A (zh) 一种语音识别方法、装置、设备及可存储介质
Матиченко et al. The structural tuning of the convolutional neural network for speaker identification in mel frequency cepstrum coefficients space
CN113808604B (zh) 基于伽马通频谱分离的声场景分类方法
CN114155868A (zh) 语音增强方法、装置、设备及存储介质
Agrawal et al. Deep variational filter learning models for speech recognition
Khonglah et al. Indoor/Outdoor Audio Classification Using Foreground Speech Segmentation.
Gul et al. Single channel speech enhancement by colored spectrograms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant