CN112088385A - 用于回归深度神经网络的判别训练的系统和方法 - Google Patents

用于回归深度神经网络的判别训练的系统和方法 Download PDF

Info

Publication number
CN112088385A
CN112088385A CN201980028119.0A CN201980028119A CN112088385A CN 112088385 A CN112088385 A CN 112088385A CN 201980028119 A CN201980028119 A CN 201980028119A CN 112088385 A CN112088385 A CN 112088385A
Authority
CN
China
Prior art keywords
speech signal
cost function
signal representation
computer
power ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980028119.0A
Other languages
English (en)
Inventor
F·福贝尔
J·索泰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sereni Run Co
Nuance Communications Inc
Original Assignee
Sereni Run Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sereni Run Co filed Critical Sereni Run Co
Publication of CN112088385A publication Critical patent/CN112088385A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

一种方法、计算机程序产品和计算机系统,用于通过计算装置将语音信号变换为语音信号表示。可以利用成本函数来训练回归深度神经网络以使语音信号表示的实际值和语音信号表示的估计值之间的均方误差最小化,其中,成本函数可以包括一个或多个判别项。可以通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络扩展语音信号的语音信号表示,来扩展语音信号的带宽。

Description

用于回归深度神经网络的判别训练的系统和方法
交叉引用
本申请要求2018年4月23日提交的美国非临时申请序列号15/959,606的权益,其全部内容通过引用而并入于此。
背景技术
一般地,由于诸如通用移动电信系统(UMTS)和长期演进(LTE)网络等的电话网络扩展到城市地区,因此用户越来越习惯于高质量宽带(例如,16kHz)电话。对于诸如偏远公路或乡村地区等的位置,覆盖率往往很低。通常,一旦UMTS/LTE连接丢失,话音质量可能突然降低至窄带(例如,8kHz),这可能是相当明显的。带宽扩展可用于通过人工地将窄带(例如,8kHz)电话信号扩展到宽带(例如,16kHz)、超宽带(例如,24kHz)或甚至全带(例如,32/48kHz)信号来弥补正出现的话音质量差距。
发明内容
在一个示例实现中,一个或多个计算装置所进行的方法可以包括但不限于通过计算装置将语音信号变换为语音信号表示。可以利用成本函数来训练回归深度神经网络以使语音信号表示的实际值和语音信号表示的估计值之间的均方误差最小化,其中,成本函数可以包括一个或多个判别项。通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络来扩展语音信号的语音信号表示,可以扩展语音信号的带宽。
可以包括以下示例特征中的一个或多个。可以通过将语音信号分解成谱包络线和激励信号来获得语音信号表示,以及其中,可以使用利用成本函数训练的回归深度神经网络来扩展谱包络线。一个或多个判别项可以包括摩擦音与元音功率比以及摩擦音与元音功率比的函数中至少之一。一个或多个判别项可以保存语音信号表示的实际值中的不同音素类和语音信号表示的估计值中的不同音素类之间的统计关系。成本函数可以保存语音信号表示的实际值中的不同音素类和语音信号表示的估计值中的不同音素类之间的功率比。成本函数可以使用不同音素类之间的K个功率比误差的加权和来保存不同音素类之间的功率比。可以在回归深度神经网络的输出处再现平均功率比。
在另一示例实现中,计算系统可以包括一个或多个处理器和一个或多个存储器,该一个或多个处理器和一个或多个存储器被配置为进行操作,这些操作可以包括但不限于将语音信号变换为语音信号表示。可以利用成本函数来训练回归深度神经网络以使语音信号表示的实际值和语音信号表示的估计值之间的均方误差最小化,其中,成本函数可以包括一个或多个判别项。通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络来扩展语音信号的语音信号表示,可以扩展语音信号的带宽。
可以包括以下示例特征中的一个或多个。表示可以通过将语音信号分解成谱包络线和激励信号来获得语音信号,以及其中,可以使用利用成本函数训练的回归深度神经网络来扩展谱包络线。一个或多个判别项可以包括摩擦音与元音功率比以及摩擦音与元音功率比的函数中至少之一。一个或多个判别项可以保存语音信号表示的实际值中的不同音素类和语音信号表示的估计值中的不同音素类之间的统计关系。成本函数可以保存语音信号表示的实际值中的不同音素类和语音信号表示的估计值中的不同音素类之间的功率比。成本函数可以使用不同音素类之间的K个功率比误差的加权和来保存不同音素类之间的功率比。可以在回归深度神经网络的输出处再现平均功率比。
在另一示例实现中,计算机程序产品可以驻留在存储有多个指令的计算机可读存储介质上,这些指令在一个或多个处理器上执行时可以使该一个或多个处理器的至少一部分进行操作,这些操作可以包括但不限于将语音信号变换为语音信号表示。可以利用成本函数来训练回归深度神经网络以使语音信号表示的实际值和语音信号表示的估计值之间的均方误差最小化,其中,成本函数可以包括一个或多个判别项。通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络来扩展语音信号的语音信号表示,可以扩展语音信号的带宽。
可以包括以下示例特征中的一个或多个。表示可以通过将语音信号分解成谱包络线和激励信号来获得语音信号,以及其中,可以使用利用成本函数训练的回归深度神经网络来扩展谱包络线。一个或多个判别项可以包括摩擦音与元音功率比以及摩擦音与元音功率比的函数中至少之一。一个或多个判别项可以保存语音信号表示的实际值中的不同音素类和语音信号表示的估计值中的不同音素类之间的统计关系。成本函数可以保存语音信号表示的实际值中的不同音素类和语音信号表示的估计值中的不同音素类之间的功率比。成本函数可以使用不同音素类之间的K个功率比误差的加权和来保存不同音素类之间的功率比。可以在回归深度神经网络的输出处再现平均功率比。
在以下附图和说明书中阐述了一个或多个示例实现的详情。根据说明书、附图和权利要求书,其它可能的示例特征和/或可能的示例优点将变得明显。一些实现可能不具有这些可能的示例特征和/或可能的示例优点,并且这些可能的示例特征和/或可能的示例优点可能不必是一些实现所需的。
附图说明
图1是根据本发明的一个或多个示例实现的耦接至示例分布式计算网络的训练处理的示例示意图;
图2是根据本发明的一个或多个示例实现的图1的计算机和客户端电子装置的示例示意图;
图3是根据本发明的一个或多个示例实现的源/滤波器模型的示例示意图;
图4是根据本发明的一个或多个示例实现的带宽扩展架构的示例示意图;
图5是根据本发明的一个或多个示例实现的谱包络线、示例激励和合成谱的示例示意图;
图6是根据本发明的一个或多个示例实现的基于深度神经网络的带宽扩展系统的示例示意图;
图7是根据本发明的一个或多个示例实现的前馈神经网络的示例示意图;
图8是根据本发明的一个或多个示例实现的非线性激活函数的示例示意图;
图9是根据本发明的一个或多个示例实现的前馈神经网络中的激活能(activation energy)的计算的示例示意图;
图10是根据本发明的一个或多个示例实现的利用MSE成本函数的带宽扩展语音谱图以及真实宽带语音谱图的示例示意图;
图11是根据本发明的一个或多个示例实现的标绘图的示例示意图;
图12是根据本发明的一个或多个示例实现的训练处理的示例流程图;以及
图13是根据本发明的一个或多个示例实现的标绘图的示例示意图。
各附图中的相同附图标记表示相同元件。
具体实施方式
在一些实现中,本发明可被体现为一种方法、系统或计算机程序产品。因此,在一些实现中,本发明可以采取全硬件实现、全软件实现(包括固件、常驻软件、微代码等)或结合软件和硬件方面的实现的形式,这些软件和硬件方面在本文中一般可被称为“电路”、“模块”或“系统”。此外,在一些实现中,本发明可以采取计算机可用存储介质上的计算机程序产品的形式,该计算机可用存储介质具有体现在该介质中的计算机可用程序代码。
在一些实现中,可以利用任何合适的计算机可用或计算机可读介质。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可用或计算机可读存储介质(包括与计算装置或客户端电子装置相关的存储装置)可以是例如但不限于电子、磁、光、电磁、红外或半导体系统、设备、装置或前述的任何合适组合。计算机可读介质的更具体示例(非穷举列表)可以包括以下内容:具有一个或多个电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式致密盘只读存储器(CD-ROM)、光存储装置、数字多功能盘(DVD)、静态随机存取存储器(SRAM)、记忆棒、软盘、记录有指令的机械编码装置(诸如穿孔卡片或凹槽中的凸起结构等)、介质(诸如支持因特网或内联网的介质等)、或磁存储装置。注意,计算机可用或计算机可读介质甚至可以是程序在必要时以合适的方式存储、扫描、编译、解释或以其它方式处理、然后存储在计算机存储器中的合适介质。在本发明的上下文中,计算机可用或计算机可读存储介质可以是可包含或存储程序以供指令执行系统、设备或装置使用或结合指令执行系统、设备或装置使用的任何有形介质。
在一些实现中,计算机可读信号介质可以包括传播数据信号,其中(例如,在基带中或者作为载波的一部分)体现了计算机可读程序代码。在一些实现中,这种传播信号可以采取任何各种形式,包括但不限于电磁、光或其任何合适组合。在一些实现中,计算机可读程序代码可以使用任何适当的介质(包括但不限于因特网、有线、光纤电缆、RF等)传输。在一些实现中,计算机可读信号介质可以是并非计算机可读存储介质、并且可以通信、传播或传输程序以供指令执行系统、设备或装置使用或结合指令执行系统、设备或装置使用的任何计算机可读介质。
在一些实现中,用于执行本发明的操作的计算机程序代码可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种编程语言(包括诸如
Figure BDA0002740354020000061
Smalltalk或C++等的面向对象的编程语言)的任意组合编写的源代码或对象代码。
Figure BDA0002740354020000062
和所有基于Java的商标和徽标是Oracle和/或其附属公司的商标或注册商标。然而,用于执行本发明的操作的计算机程序代码也可以用传统的过程编程语言(诸如“C”编程语言、PASCAL或类似的编程语言等)、以及脚本语言(诸如Javascript、PERL或Python等)编写。程序代码可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过局域网(LAN)或广域网(WAN)而连接至用户的计算机,或者可以(例如,通过因特网服务提供商)连接至外部计算机。在一些实现中,电子电路(例如包括可编程逻辑电路、现场可编程门阵列(FPGA)或其它硬件加速器、微控制器单元(MCU)或可编程逻辑阵列(PL))可以通过利用计算机可读程序指令的状态信息对电子电路进行个性化来执行计算机可读程序指令/代码,以进行本发明的各方面。
在一些实现中,图中的流程图和框图示出根据本发明的各种实现的设备(系统)、方法和计算机程序产品的可能实现的架构、功能和操作。流程图和/或框图中的各框以及流程图和/或框图中的框的组合可以表示用于实现指定的(一个或多个)逻辑功能/动作的一个或多个可执行计算机程序指令的代码的模块、段或部分。这些计算机程序指令可被提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以产生机器,使得可经由计算机或其它可编程数据处理设备的处理器执行的计算机程序指令产生用以实现流程图和/或框图的一个或多个块或其组合中所指定的功能/动作中的一个或多个的能力。应当注意,在一些实现中,(一个或多个)框中所示的功能可能不按照图中所示的顺序(或组合或省略)而发生。例如,顺序示出的两个框实际上可以基本上同时执行,或者框有时可以根据所涉及的功能以相反的顺序执行。
在一些实现中,这些计算机程序指令也可以存储在计算机可读存储器中,该计算机可读存储器可以指示计算机或其它可编程数据处理设备以特定方式运行,使得计算机可读存储器中所存储的指令产生包括用于实现流程图和/或框图中的一个或多个框或其组合中所指定的功能/动作的指令部的制品。
在一些实现中,计算机程序指令也可以加载到计算机或其它可编程数据处理设备上,以使在计算机或其它可编程设备上进行一系列操作步骤(不一定按特定顺序)从而产生计算机实现的处理,使得在计算机或其它可编程设备上执行的指令提供用于实现流程图和/或框图中的一个或多个框或其组合中所指定的功能/动作(不一定按特定顺序)的步骤。
现在参考图1的示例实现,示出可以驻留在计算机(例如,计算机12)上并且可由计算机(例如,计算机12)执行的训练处理10,其中该计算机可以连接至网络(例如,网络14)(例如,因特网或局域网)。计算机12(和/或以下所示的客户端电子装置中的一个或多个)的示例可以包括但不限于存储系统(例如,网络附接存储(NAS)系统、存储区域网络(SAN))、(一个或多个)个人计算机、(一个或多个)膝上型计算机、(一个或多个)移动计算装置、服务器计算机、一系列服务器计算机、(一个或多个)大型计算机、或(一个或多个)计算云。如本领域已知的,SAN可以包括客户端电子装置(包括RAID装置和NAS系统)中的一个或多个。在一些实现中,上述各装置一般可被描述为计算装置。在某些实现中,计算装置可以是物理装置或虚拟装置。在许多实现中,计算装置可以是能够进行操作的任何装置,诸如专用处理器、处理器的一部分、虚拟处理器、虚拟处理器的一部分、虚拟装置的一部分、或虚拟装置等。在一些实现中,处理器可以是物理处理器或虚拟处理器。在一些实现中,虚拟处理器可以与一个或多个物理处理器的一个或多个部分相对应。在一些实现中,指令/逻辑可以在(虚拟的或物理的)一个或多个处理器上分布和执行,以执行指令/逻辑。计算机12可以执行操作系统,例如但不限于
Figure BDA0002740354020000081
Figure BDA0002740354020000082
OS
Figure BDA0002740354020000083
Red
Figure BDA0002740354020000084
Mobile、Chrome OS、Blackberry OS、Fire OS或定制操作系统。(Microsoft和Windows是Microsoft Corporation在美国、其它国家或这两者的注册商标;Mac和OS X是Apple Inc.在美国、其它国家或这两者的注册商标;Red Hat是Red HatCorporation在美国、其它国家或这两者的注册商标;Linux是Linus Torvalds在美国、其它国家或这两者的注册商标)。
在一些实现中,如以下将更详细地讨论的,训练处理(诸如图1的训练处理10等)可以通过计算装置将语音信号转换为语音信号表示。可以利用成本函数来训练回归深度神经网络,以使语音信号表示的实际值和语音信号表示的估计值之间的均方误差最小化,其中,成本函数可以包括一个或多个判别项。通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络来扩展语音信号的语音信号表示,可以扩展语音信号的带宽。
在一些实现中,训练处理10的指令集和子例程(其可以存储在耦接至计算机12的诸如存储装置16等的存储装置上)可以由计算机12内所包括的一个或多个处理器和一个或多个存储器架构来执行。在一些实现中,存储装置16可以包括但不限于:硬盘驱动器;所有形式的闪速存储器存储装置;磁带驱动器;光驱;RAID阵列(或其它阵列);随机存取存储器(RAM);只读存储器(ROM);或其组合。在一些实现中,存储装置16可被组织为盘区、盘区池、RAID盘区(例如,示例4D+1P R5,其中RAID盘区可以例如包括可从例如五个不同存储装置分配的五个存储装置盘区)、映射RAID(例如,RAID盘区的集合)或其组合。
在一些实现中,网络14可以连接至一个或多个二级网络(例如,网络18),其示例可以例如包括但不限于:局域网;广域网;或内联网。
在一些实现中,计算机12可以包括诸如数据库(例如,关系数据库、面向对象的数据库、三元组存储数据库等)等的数据存储部,并且可以位于耦接至计算机12的诸如存储装置16等的任何合适的存储器位置内。在一些实现中,贯穿本发明中所描述的数据、元数据、信息等可以存储在数据存储部中。在一些实现中,计算机12可以利用任何已知的数据库管理系统(诸如但不限于DB2),以提供对一个或多个数据库(诸如上述的关系数据库等)的多用户访问。在一些实现中,数据存储部也可以是诸如平面文件数据库或XML数据库等的定制数据库。在一些实现中,还可以使用数据存储结构和/或组织的(一个或多个)任何其它形式。在一些实现中,训练处理10可以是数据存储部、与上述数据存储部接合的独立应用、和/或经由客户端应用22、24、26、28访问的小程序/应用的组件。在一些实现中,上述的数据存储部可以部分或全部地分布在云计算拓扑结构中。以这种方式,计算机12和存储装置16可以是指也在整个网络上分布的多个装置。
在一些实现中,计算机12可以执行语音识别应用(例如,语音识别应用20),其示例可以包括但不限于例如自动语音识别应用、视频会议应用、IP话音应用、IP视频应用、即时消息(IM)/“聊天”应用、短消息服务(SMS)/多媒体消息服务(MMS)应用、电话网络应用、语音信号增强(SSE)应用、或允许计算装置进行虚拟会议和/或远程协作和/或将口头语言识别/转译为文本(并且反之亦然)的其它应用。在一些实现中,训练处理10和/或语音识别应用20可以经由客户端应用22、24、26、28中的一个或多个来访问。在一些实现中,训练处理10可以是独立应用,或者可以是可与语音识别应用20进行交互和/或在语音识别应用20内执行的小程序/应用/脚本/扩展、语音识别应用20的组件、和/或客户端应用22、24、26、28中的一个或多个。在一些实现中,语音识别应用20可以是独立应用,或者可以是可与训练处理10进行交互和/或在训练处理10内执行的小程序/应用/脚本/扩展、训练处理10的组件、和/或客户端应用22、24、26、28中的一个或多个。在一些实现中,客户端应用22、24、26、28中的一个或多个可以是独立应用,或者可以是可与训练处理10和/或语音识别应用20进行交互和/或在训练处理10和/或语音识别应用20内执行和/或作为训练处理10和/或语音识别应用20的组件的小程序/应用/脚本/扩展。客户端应用22、24、26、28的示例可以包括但不限于例如自动语音识别应用、视频会议应用、IP话音应用、IP视频应用、即时消息(IM)/“聊天”应用、短消息服务(SMS)/多媒体消息服务(MMS)应用,电话网络应用、语音信号增强(SSE)应用、或允许计算装置进行虚拟会议和/或远程协作和/或将口头语言识别/转译为文本(并且反之亦然)的其它应用、标准和/或移动web浏览器、电子邮件应用(例如,电子邮件客户端应用)、文本和/或图形用户界面、定制web浏览器、插件、应用编程接口(API)、或定制应用。客户端应用22、24、26、28的指令集和子例程(其可以存储在耦接至客户端电子装置38、40、42、44的存储装置30、32、34、36上)可以由并入客户端电子装置38、40、42、44中的一个或多个处理器和一个或多个存储器架构执行。
在一些实现中,一个或多个存储装置30、32、34、36可以包括但不限于:硬盘驱动器;闪速驱动器、磁带驱动器;光驱;RAID阵列;随机存取存储器(RAM);和只读存储器(ROM)。客户端电子装置38、40、42、44(和/或计算机12)的示例可以包括但不限于个人计算机(例如,客户端电子装置38)、膝上型计算机(例如,客户端电子装置40)、智能/数据启用的手机(例如,客户端电子装置42)、笔记本计算机(例如,客户端电子装置44)、平板电脑、服务器、电视、智能电视、媒体(例如,视频、照片等)拍摄装置和专用网络装置。客户端电子装置38、40、42、44可以各自执行操作系统,其示例可以包括但不限于AndroidTM
Figure BDA0002740354020000101
OS
Figure BDA0002740354020000102
Red
Figure BDA0002740354020000103
Mobile、Chrome OS、Blackberry OS、Fire OS或定制操作系统。
在一些实现中,客户端应用22、24、26、28中的一个或多个可被配置为实现训练处理10的部分或全部功能(并且反之亦然)。因此,在一些实现中,训练处理10可以是由客户端应用22、24、26、28中的一个或多个和/或训练处理10协作执行的纯服务器端应用、纯客户端应用、或混合服务器端/客户端应用。
在一些实现中,客户端应用22、24、26、28中的一个或多个可被配置为实现语音识别应用20的部分或全部功能(并且反之亦然)。因此,在一些实现中,语音识别应用20可以是由客户端应用22、24、26、28中的一个或多个和/或语音识别应用20协作执行的纯服务器端应用、纯客户端应用、或混合服务器端/客户端应用。由于单独或以任何组合方式采用的客户端应用22、24、26、28中的一个或多个、训练处理10和语音识别应用20可以实现同一功能的部分或全部,因此对经由客户端应用22、24、26、28中的一个或多个、训练处理10、语音识别应用20或其组合实现这种功能的任何描述、以及客户端应用22、24、26、28中的一个或多个、训练处理10、语音识别应用20或其组合之间的用以实现这种功能的任何描述的(一个或多个)交互应当仅被视为示例,而不限制本发明的范围。
在一些实现中,用户46、48、50、52中的一个或多个可以直接通过网络14或通过二级网络18(例如,使用客户端电子装置38、40、42、44中的一个或多个)来访问计算机12和训练处理10。此外,如虚线链路线54所示,计算机12可以通过二级网络18而连接至网络14。训练处理10可以包括诸如浏览器和文本或图形用户界面等的一个或多个用户界面,用户46、48、50、52可以通过该一个或多个用户界面来访问训练处理10。
在一些实现中,各种客户端电子装置可以直接或间接耦接至网络14(或网络18)。例如,客户端电子装置38被示出为经由硬连线网络连接而直接耦接至网络14。此外,客户端电子装置44被示出为经由硬连线网络连接而直接耦接至网络18。客户端电子装置40被示出为经由在客户端电子装置40和无线接入点(即,WAP)58之间建立的无线通信信道56而无线耦接至网络14,其中无线接入点58被示出为直接耦接至网络14。WAP 58可以例如是能够在客户端电子装置40和WAP 58之间建立无线通信信道56的IEEE 802.lla、802.llb、802.llg、802.1ln、802.1lac、
Figure BDA0002740354020000121
RFID和/或蓝牙TM(包括低功耗蓝牙TM)装置。客户端电子装置42被示出为经由在客户端电子装置42和蜂窝网络/桥62之间建立的无线通信信道60而无线耦接至网络14,其中蜂窝网络/桥62通过示例的方式被示出为直接耦接至网络14。
在一些实现中,IEEE 802.1lx规范中的部分或全部可以使用以太网协议和带冲突避免的载波侦听多路访问(即,CSMA/CA)来进行路径共享。例如,各种802.1lx规范可以使用相移键控(即,PSK)调制或互补码键控(即,CCK)调制。蓝牙TM(包括低功耗蓝牙TM)是一种电信行业规范,其允许例如移动电话、计算机、智能电话和其它电子装置使用短距离无线连接来进行互连。还可以使用其它形式的互连(例如,近场通信(NFC))。
还参考图2的示例实现,示出计算机12和客户端电子装置42的示意图。虽然在该图中示出客户端电子装置42和计算机12,但这仅是为了示例目的,并不旨在限制本发明,因为其它结构也是可能的。另外,能够全部或部分地执行训练处理10的任何计算装置可以(全部或部分地)替代图2中的客户端电子装置42和计算机12,其示例可以包括但不限于客户端电子装置38、40和44中的一个或多个。客户端电子装置42和/或计算机12还可以包括其它装置,诸如嵌入或附接了一个或多个处理器的电视以及本文所述的麦克风、麦克风阵列和/或扬声器中的任一个。这里所示的组件、其连接和关系以及其功能仅意在是示例,而不意在限制所描述的本发明的实现。
在一些实现中,计算机12可以包括处理器202、存储器204、存储装置206、连接至存储器204和高速扩展端口210的高速接口208、以及连接至低速总线214和存储装置206的低速接口212。组件202、204、206、208、210和212中的各组件可以使用各种总线互连,并且可以安装在通用主板上或适当地以其它方式安装。处理器202可以处理用于在计算机12内执行的指令,包括存储在存储器204中或存储装置206上以在外部输入/输出装置(诸如耦接至高速接口208的显示器216等)上显示GUI的图形信息的指令。在其它实现中,可以适当地使用多个处理器和/或多个总线以及多个存储器和存储器类型。另外,可以连接多个计算装置,其中各装置提供必要操作的一部分(例如,作为服务器库、一组刀片服务器或多处理器系统)。
存储器204可以将信息存储在计算机12内。在一个实现中,存储器204可以是一个或多个易失性存储器单元。在另一实现中,存储器204可以是一个或多个非易失性存储器单元。存储器204也可以是其它形式的计算机可读介质,诸如磁盘或光盘等。
存储装置206可以能够为计算机12提供大容量存储。在一个实现中,存储装置206可以是或包含计算机可读介质,诸如软盘装置、硬盘装置、光盘装置或磁带装置、闪速存储器或其它类似的固态存储器设备、或装置的阵列(包括存储区域网络中的装置或其它结构)。计算机程序产品可以有形地在信息载体中体现。计算机程序产品还可以包含指令,该指令在执行时进行诸如上述的一个或多个方法。信息载体是计算机或机器可读介质,诸如存储器204、存储装置206、处理器202上的存储器或传播信号等。
高速控制器208可以管理计算机12的带宽密集型操作,而低速控制器212可以管理较低带宽密集型操作。这种功能的分配仅仅是示例性的。在一个实现中,高速控制器208可以耦接至存储器204、显示器216(例如,通过图形处理器或加速器)以及高速扩展端口210,该高速扩展端口210可以接受各种扩展卡(未示出)。在实现中,低速控制器212耦接至存储装置206和低速扩展端口214。可包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器而耦接至一个或多个输入/输出装置(诸如键盘、指示装置、扫描器)或网络装置(诸如交换机或路由器等)。
如图所示,计算机12可以以多种不同形式实现。例如,计算机12可被实现为标准服务器220,或者在一组这样的服务器中多次实现。其还可被实现为机架服务器系统224的一部分。可选地,计算机12中的组件可以与移动装置(未示出)中的其它组件(诸如客户端电子装置42)组合。这些装置中的各装置可以包含计算机12、客户端电子装置42中的一个或多个,并且整个系统可以由彼此通信的多个计算装置组成。
客户端电子装置42可以包括处理器226、存储器204、诸如显示器216等的输入/输出装置、通信接口262和收发器264等。客户端电子装置42还可以设置有诸如微驱动器或其它装置等的存储装置,以提供附加存储。组件226、204、216、262和264中的各组件可以使用各种总线互连,并且这些组件中的多个可以安装在通用主板上或适当地以其它方式安装。
处理器226可以执行客户端电子装置42内的指令,包括存储器204中所存储的指令。处理器可被实现为包括独立的多个模拟和数字处理器的芯片的芯片组。例如,处理器可以提供对客户端电子装置42的其它组件的协调,诸如对用户界面、客户端电子装置42所运行的应用以及客户端电子装置42的无线通信的控制。
在一些实施例中,处理器226可以通过耦接至显示器216的控制接口258和显示接口260来与用户进行通信。显示器216可以例如是TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器或其它适当的显示技术。显示接口260可以包括用于驱动显示器216以向用户呈现图形和其它信息的适当电路。控制接口258可以接收来自用户的命令,并对其进行转换以提交给处理器226。另外,可以提供外部接口262以与处理器226进行通信,从而使得客户端电子装置42能够与其它装置进行近区通信。例如,外部接口262可以在一些实现中提供有线通信,或者在其它实现中提供无线通信,并且还可以使用多个接口。
在一些实施例中,存储器204可以将信息存储在客户端电子装置42内。存储器204可被实现为一个或多个计算机可读介质、一个或多个易失性存储器单元或一个或多个非易失性存储器单元中的一个或多个。扩展存储器264还可以通过扩展接口266而被设置和连接至客户端电子装置42,该扩展接口266可以例如包括SIMM(单列直插式存储器模块)卡接口。这种扩展存储器264可以为客户端电子装置42提供额外的存储空间,或者还可以为客户端电子装置42存储应用或其它信息。具体地,扩展存储器264可以包括用以执行或补充上述处理的指令,并且还可以包括安全信息。因此,例如,扩展存储器264可以作为客户端电子装置42的安全模块提供,并且可以利用允许客户端电子装置42的安全使用的指令来编程。另外,可以经由SIMM卡来提供安全应用以及附加信息,诸如将与SIMM卡有关的识别信息以不可侵入的方式放置在SIMM卡上。
如以下所讨论的,存储器可以例如包括闪速存储器和/或NVRAM存储器。在一个实现中,计算机程序产品有形地体现在信息载体中。计算机程序产品可以包含指令,该指令在执行时进行诸如上述的一个或多个方法。信息载体可以是计算机或机器可读介质,诸如存储器204、扩展存储器264、处理器226上的存储器、或者可例如通过收发器264或外部接口262接收到的传播信号等。
客户端电子装置42可以通过通信接口262无线地通信,该通信接口262在必要时可以包括数字信号处理电路。通信接口262可以提供各种模式或协议下的通信,诸如GSM语音呼叫、SMS、EMS或MMS语音识别、CDMA、IDMA、PDC、WCDMA、CDMA 2000或GPRS等。这种通信可以例如通过射频收发器264发生。另外,短距离通信可能例如使用蓝牙、WiFi或其它此类收发器(未示出)发生。另外,GPS(全球定位系统)接收器模块268可以向客户端电子装置42提供附加的导航和位置相关无线数据,该导航和位置相关无线数据可以由运行在客户端电子装置42上的应用适当地使用。
客户端电子装置42还可以使用音频编解码器270来进行音频通信,其中该音频编解码器270可以从用户接收语音信息并将其转换为可用的数字信息。音频编解码器270可以同样诸如通过扬声器(例如,在客户端电子装置42的听筒中)为用户生成可听声音。这种声音可以包括来自语音电话呼叫的声音,可以包括所记录的声音(例如,语音消息、音乐文件等),并且还可以包括由在客户端电子装置42上操作的应用生成的声音。
如图所示,客户端电子装置42可以以多种不同形式实现。例如,其可被实现为蜂窝电话280。其也可被实现为智能电话282、个人数字助理、遥控器或其它类似移动装置的一部分。
一般地,由于诸如通用移动电信系统(UMTS)和长期演进(LTE)网络等的电话网络扩展到城市地区,因此用户越来越习惯于高质量宽带(例如,16kHz)电话。对于诸如偏远公路或乡村地区等的位置,覆盖率往往很低。通常,一旦UMTS/LTE连接丢失,语音质量可能突然降低至窄带(例如,8kHz),这可能是相当明显的。带宽扩展可用于通过人工地将窄带(例如,8kHz)电话信号扩展到宽带(例如,16kHz)、超宽带(例如,24kHz)或甚至全带(例如,32/48kHz)信号来弥补正出现的语音质量差距。
一般地,人工带宽扩展可以根据给定的8kHz窄带信号来重建16kHz宽带信号。这通常用于电话网络的上下文中,并且可以通过将语音信号分解成其激励及其谱包络线来实现,其中激励和谱包络线这两者然后可以单独地扩展。现有技术的方法通常使用深度(回归)神经网络(DNN)来完成这项任务。作为训练期间的成本函数,其可以使用真实宽带谱和估计宽带谱之间的均方误差(MSE)作为DNN训练的成本函数加上标准正则化项(诸如DNN参数的L-2范数)。这可能导致“过度平滑”,其中网络针对完全不同的音素类(诸如大部分能量高于4kHz的摩擦音以及大部分能量低于4kHz的元音等)产生非常相似的扩展。作为结果,由于元音可能扩展得太强、而摩擦音可能扩展得不够强,因此带宽扩展的语音可能劣化。此外,对于不同扬声器,高频共振峰似乎是截然不同的,因此很难(如果不是不可能的话)根据原始窄带包络线正确地预测(估计)高频共振峰。
如以下将更详细地讨论的,本发明可以避免过渡平滑(以及其它技术问题),同时通过例如为成本函数(例如,MSE成本函数)增加或添加附加的判别项来将来自全球移动通信系统(GSM)/码分多址(CDMA)连接(或其它连接)的窄带语音扩展到高质量宽带语音,其中这些附加的判别项显式地迫使DNN维持不同音素类(例如,摩擦音和元音)的良好可分离性。这些项可以增加不同音素类之间平均功率比(APR)的成本或“惩罚”偏差,从而可以迫使DNN在DNN的输出处再现训练数据的APR。正因如此,本发明可能导致具有更自然的带宽扩展语音的贷款扩展信号的更高语音质量(例如,由于摩擦音和元音的更好分离)。
如以下将讨论的,训练处理10可以至少有助于例如克服必然植根于并且具体出现在计算机和/或电话网络领域中的示例性和非限制性问题,以改善与例如人工带宽扩展和过度平滑等相关联的现有技术处理。
人工带宽扩展:
如以上所述,人工带宽扩展(BWE)的一般目标是通过将来自例如GSM/CDMA连接的窄带(例如,8kHz带宽受限)语音扩展到高质量宽带(例如,16kHz带宽)语音(或其它数据)来改善通信(例如,电话呼叫)的话音质量。
为此,BWE系统通常使用语音产生的源/滤波器模型,诸如示例图3所示的模型300等。训练处理10可以使用该模型来将语音分离为声门激励信号和声道谐振频率。
声门激励信号通常在浊音语音(诸如元音:a、e、i、o、u)的情况下由类似于“脉冲串”的信号组成,或者在清音声音(摩擦音,诸如f、s、z、sh、ch)的情况下由白噪声组成。声道的谐振频率可以定义谱包络线,包括用于指定语音能量所集中的谱的部分的共振峰频率。它们可被建模为施加到声门激励信号的有限脉冲响应(FIR)。
在该模型的驱使下,BWE系统的典型架构可能看起来如示例图4中所示的架构400。在训练处理10使用例如线性预测编码(LPC)等提取出窄带(NB)语音的谱包络线之后,可以通过使训练处理10去除谱包络线来获得NB激励信号。如图4所示,在频域中,这可以通过使NB语音谱除以估计包络线来实现。包络线和激励可以通过训练处理10单独地扩展。虽然通常可以利用诸如谱折叠(例如,将NB激励向上镜像到4kHz以上的频率)或调制(例如,将NB激励向上偏移到4kHz以上的频率)等的方法来扩展激励,但是为了使谱包络线正确地扩展,付出了大量努力。这是通过包络线扩展中的误差与激励中的误差相比通常导致带宽扩展语音信号的强得多的伪影这一事实而驱使的。如图4所示,在频域中,可以通过训练处理10使扩展包络线与扩展激励相乘来获得所估计的例如带宽扩展宽带语音谱。在示例图5中再次示出这一点,图5描绘了谱包络线502、示例激励504和合成谱506的示例谱500。由此可以清楚地看出,包络线描述了谱粗糙结构,而激励描述了谱精细结构。
值得注意的是,如果通过训练处理10在频域中进行了带宽扩展,则到来的窄带信号可被切割成例如16至32ms持续时间的重叠窗。可以通过快速傅立叶变换(FFT),例如可以进行短时间傅立叶变换(STFT),来单独分析这些窗。通过结合重叠相加方法使用逆STFT(ISTFT),可以重新合成带宽扩展信号。
基于深度神经网络的BWE:
现有技术的BWE系统通常使用深度神经网络(DNN)来进行包络线扩展。这一般是通过(例如,经由训练处理10)训练回归DNN以根据给定的窄带包络线估计宽带包络线来实现的。除了包络线的压缩版本(例如,Mel谱或Mel频率倒谱系数(MFCC)),DNN还经常被馈送有附加的输入特征,诸如MFCC关于时间的一阶和二阶导数(称为delta特征和delta-delta特征)、谱矩心、过零率、峰度、梯度指数、噪声相关帧能量以及相关系数等。基于DNN的BWE系统600的概述在示例图6中示出。
如图6所示,FD表示频域,TD表示时域,以及HP表示截止频率例如为4kHz的高通滤波器,使得保持NB信号的原始4kHz,并且仅扩展4kHz以上的信号。训练处理10的可选实现可以使用LPC系数作为谱包络线并且LPC残差作为激励信号来在时域中进行信号分解。
在DNN中,如示例图7中所示,可以在输入层的节点(例如,节点700)中向网络表示输入特征。该输入层之后可能跟着几个隐蔽层。网络的输出可以包含在输出层的节点中,并且可以由估计的宽带谱(可能是以压缩的形式,诸如Mel谱或MFCC)组成。
在网络内,可以根据前一层的激活ai来确定第(i+1)层的节点的激活ai+1=[ai+1,1…ai+1,n]T。这可以根据例如下式来完成:
ai+1=act(Wiai+bi)
其中,Wi是权重矩阵,bi是偏置的向量,以及act是非线性激活函数,诸如示例图8中所示的S型802、双曲正切(tanh)804或整流线性单元(Relu)806等。
图9示出再次描述了如何根据前一层的激活向量ai来确定特定激活ai+1,j的示例架构900。对于带宽扩展,可以通过训练处理10针对窄带语音和宽带语音的联合语料库而进行DNN训练。训练处理10可以使用窄带信号来提取DNN的输入特征。训练处理10可以使用相应的宽带信号来生成DNN的输出层的目标,例如,DNN针对给定输入应生成的宽带谱包络线。
训练期间的成本函数:
训练DNN可以使用成本函数,例如,要在训练处理10的训练期间最小化的、期望目标输出与网络所生成的输出之间的度量。对于带宽扩展中所使用的回归DNN,度量通常是真实宽带谱包络线和估计宽带谱包络线(或其压缩版本)之间的均方误差(MSE)加上标准正则化项(诸如DNN权重的L-2范数),例如:
Figure BDA0002740354020000201
其中,yt表示时间t处的真实宽带谱包络线或其压缩版本,
Figure BDA0002740354020000202
表示DNN在输出层生成的相应的估计宽带谱,以及N表示训练中所使用的批或小批的大小。正则化项,例如,
Figure BDA0002740354020000203
是整个权重矩阵W={W1,W2,...}的L-2范数。其可被添加至成本函数,以例如防止训练处理中的权重过大。这通常被认为提高了可泛化性(例如,经训练的网络对未见状况的鲁棒性),并且是标准训练方法的一部分。
DNN的实际训练处理实质上可以是梯度下降算法。其可以包含首先在整个批或小批上计算成本函数相对于权重Wi,(j,k)和偏置bi,j的梯度,然后向相反方向步进以减少成本,例如:
Figure BDA0002740354020000204
Figure BDA0002740354020000205
典型的批大小可以包含例如几秒的语音数据。项μ表示步长。它对经训练的网络的收敛速度和性能有很大的影响,并且可以在现代DNN训练工具箱中例如使用自适应矩估计(ADAM)来自动确定。梯度计算可以利用反向传播方法来完成,并且其特别地可以涉及
Figure BDA0002740354020000211
相对于网络输出
Figure BDA0002740354020000212
的梯度计算,例如针对给定输入特征xt的网络的输出层处的激活:
Figure BDA0002740354020000213
可以重复梯度下降,直到满足指定停止标准为止,该指定停止标准诸如对与训练数据集不同的验证数据集的最后M次迭代中的成本
Figure BDA0002740354020000214
没有显著降低。
过度平滑:
使用MSE作为成本函数可能导致过度平滑(例如,元音和摩擦音以类似的方式扩展)。特别地,如示例图10中的利用MSE成本函数的带宽扩展语音1002和真实宽带语音1004所示,摩擦音一般没有被足够强地扩展,而元音被过强地扩展。这尤其可能发生在与训练条件不同的数据上,但其至少在一定程度上也可以在训练数据上观察到。还可以通过使用上述功率的标准偏差(例如,与上述功率均值(例如,4kHz)偏差4kHz)来定量地测量这种现象,例如:
Figure BDA0002740354020000215
其中,
Figure BDA0002740354020000216
表示谱yt在4kHz和奈奎斯特频率之间展现的功率,例如:
Figure BDA0002740354020000217
其中,A表示对应于例如4kHz的频率槽,以及B表示对应于奈奎斯特频率(例如,对于宽带信号为8kHz)的频率槽。
从示例图11的标绘图1100可见,在训练处理的全部迭代中,示出宽带扩展的标准偏差
Figure BDA0002740354020000221
与真实宽带的标准偏差σ(y)之间的相对偏差
Figure BDA0002740354020000222
在使用MSE作为成本函数(dMSE)的情况下,(在该具体示例中)训练收敛后明显存在-0.26的偏置。这可以对应于σ(y)被相对低估了例如26%。另外,这是展现出高于例如4kHz的大量能量的强摩擦音(诸如“z”和“s”等)与没有太多高于例如4kHz的能量的元音(诸如“o”和“u”等)未被显著分离的另一明确指标,这是过度平滑的另一明确指标。
训练处理:
如以上所讨论的并且还至少参考图12~13的示例实现,训练处理10可以通过计算装置将语音信号转换为语音信号表示。训练处理10可以利用成本函数来训练1202回归深度神经网络以使语音信号表示的实际值和语音信号表示的估计值之间的均方误差最小化,其中,成本函数可以包括一个或多个判别项。通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络来扩展语音信号的语音信号表示,训练处理10可以扩展语音信号的带宽。
如上所述,训练处理10可以接收语音信号,并将该语音信号变换1200为语音信号表示。在一些实现中,可以通过训练处理10将语音信号分解1208为谱包络线和激励信号而获得语音信号表示,其中,可以使用利用成本函数训练的回归深度神经网络来扩展谱包络线。应当理解,例如通过利用大得多的DNN或卷积神经网络(CNN)直接估计整个复杂宽带谱,可能无需对语音信号进行分解1208。
在一些实现中,训练处理10可以利用成本函数来训练1202回归深度神经网络以使语音信号表示的实际值和语音信号表示的估计值之间的均方误差最小化,并扩展1204语音信号的带宽。然而,训练处理10可以通过例如改善不同音素类的分离来克服上述的过度平滑问题。这可以通过训练处理10向成本函数添加一个或多个判别项以保存不同音素类之间的差异来实现,这可以最一般地用公式表示如下:
Figure BDA0002740354020000231
其中,L={l1,...,lN}表示对应于批中的谱y={y1,...,yN}的音素类标签。更特别地,标签可以识别出谱所属的音素或音素类。训练处理10可以使用权重γ来使判别量度CDISC相对于MSE以及回归项折衷。
在一些实现中,一个或多个判别项可以保存语音信号表示的实际值中的不同音素类和语音信号表示的估计值中的不同音素类之间的统计关系。例如,判别项
Figure BDA0002740354020000232
旨在通过明确惩罚不同音素类之间的统计偏差(例如,增加成本)来保存音素类之间的差异。如上所述,不同因素类可以包括:摩擦音音素类和/或元音音素类。应当理解,其它音素类也可用于本发明。(一个或多个)判别项可以包括摩擦音与元音功率比以及摩擦音与元音功率比的函数中至少之一,并且在一些实现中,训练处理10所要保存的相对统计可以是摩擦音与元音之间的平均高频带功率比(FVPR),例如:
Figure BDA0002740354020000233
其中,如果lt是摩擦音,则
Figure BDA0002740354020000235
为1,否则为0,以及如果lt是元音,则
Figure BDA0002740354020000236
为1,否则为0。项
Figure BDA0002740354020000234
表示yt在谱的(例如,高于4kHz的)上部(例如,窄带输入信号被扩展1204至的部分)展现出的功率。在一些实现中,不同音素类可以通过其功率来分离。例如,训练处理10可以使用谱的不同频带中的功率比(例如,在4个频带4~5kHz、5~6kHz、6~7kHz、7~8kHz上计算出的摩擦音与元音功率比),而不是使用从4~8kHz计算出的宽带功率比(如在全文所讨论的)。在一些实现中,向成本函数添加迫使DNN与(以上讨论的)真实语音信号表示和估计语音信号表示的方差或标准差匹配的项也可以有助于训练更具判别性的网络。然而,利用该项训练的网络可能会产生比显式分离的音素类更多的伪影。在一些实现中,如果使用MFCC或对数Mel谱作为DNN的输出特征,则在计算判别量度之前,可能需要通过训练处理10将输出特征带入功率谱域。在MFCC的情况下,这可以例如通过训练处理10将yt与离散余弦变换(DCT)的伪逆相乘、然后取10·log10的逆来实现。对于对数Mel谱,训练处理10可以取10·log10的逆。
为了“惩罚”DNN的FVPR(例如,DNN所预测的宽带谱的FVPR)与真实宽带语音的FVPR之间的偏差,
Figure BDA0002740354020000241
和FVPR(y,L)之间的MSE可以用作判别量度,例如:
Figure BDA0002740354020000242
就像惩罚偏差的任何其它距离度量一样。
在一些实现中,训练处理10可以在回归深度神经网络的输出处再现1206平均功率比。例如,在一些实现中,训练处理10将该量度添加到成本函数可能导致MSE和判别项的联合优化。如果适当地选择权重γ,则网络可能被迫在除了使均方误差最小化之外、还(在回归DNN的输出处)近似再现真实FVPR。这可以在示例图13的示例标绘图1302和1304中看到,该示例标绘图1302和1304示出整个
Figure BDA0002740354020000243
以及对数Mel谱(例如,以dB为单位的Mel级量度表示的功率谱)的MSE这两者的训练中处理的收敛。虚曲线示出具有正则化的普通MSE训练的成本量度。实曲线示出具有附加的判别项的成本量度。
从标绘图中可以看出,虚曲线清楚地示出,使MSE最小化不一定自然地使DNN的FVPR与真实宽带语音的FVPR之间的距离最小。特别地,可能示出偏置,并且功率比可能会系统地被低估。使用附加的判别项的训练处理10保存FVPR(接近于零的距离),但MSE可以收敛到与普通MSE训练几乎相同的值。因此,摩擦音和元音的估计宽带包络线可以更好地分离,以及训练数据集的真实宽带包络线也可以更好地分离。
这种分离可以通过训练处理10利用高估因子α高估真实宽带语音的FVPR来进一步强调,例如:
Figure BDA0002740354020000251
在一些实现中,成本函数可以保存语音信号表示的实际值中的不同音素类和语音信号表示的估计值中的不同音素类之间的功率比,并且在一些实现中,成本函数可以使用不同音素类之间的K个功率比误差的加权和来保存不同音素类之间的功率比。例如,训练处理10可以例如通过将距离量度扩展到不同类之间的K个功率比误差的加权和来将此一般化到多个音素类,例如:
Figure BDA0002740354020000252
其中,ck是权重,第k个功率比PRk(y,L)被定义为如下:
Figure BDA0002740354020000253
并且class1(k)和class2(k)表示在第k个比率中比较的音素类。αk是真实宽带信号的功率比的高估因子。
一般来说,
Figure BDA0002740354020000254
可以是使不同音素类相关的统计之间的任何距离度量。
在一些实现中,训练处理10可以使用本发明来学习预测值或值向量(与统计回归类似)。这与通常只学习输入特征向量(例如,在语音识别的上下文中的音素类)的类隶属关系的分类DNN不同。
本文使用的术语仅用于描述特定实现,而不是旨在限制本发明。如本文所使用的,单数形式“a”、“an”和“the”也旨在包括复数形式,除非上下文另有明确指示。如本文所使用的,语言“A、B和C中至少之一”(等)应被解释为仅涵盖A、仅涵盖B、仅涵盖C或涵盖这三者的任意组合,除非上下文另有明确指示。还应当理解,术语“comprises”和/或“comprising”在本说明书中使用时,指定所述的特征、整数、步骤(不一定按特定顺序)、操作、元素和/或组件的存在,但不排除一个或多个其它特征、整数、步骤(不一定按特定顺序)、操作、元素、组件和/或其组的存在或添加。
可能在以下权利要求书中的(例如,所有部件或步骤加功能元件的)相应结构、材料、动作和等同项旨在包括用于结合具体要求保护的其它要求保护的元素来执行功能的任何结构、材料或动作。本发明的说明是为了例示和说明的目的而提出的,但不旨在是详尽的或者局限于采用所公开的形式的本发明。在不脱离本发明的范围和精神的情况下,许多修改、变化、替换和其任何组合对本领域普通技术人员来说将是明显的。选择和描述(一个或多个)实现,以解释本发明和实际应用的原理并使本领域普通技术人员能够理解用于适合于所构想的特定用途的具有不同修改的各种(一个或多个)实现和/或任何(一个或多个)实现组合的本发明。
在如此详细描述了本申请的公开内容并参考其(一个或多个)实现之后,显然可以在不脱离所附权利要求书所定义的本发明的范围的情况下进行修改、变化和任何(一个或多个)实现组合(包括任何修改、变化、替换及其组合)。

Claims (20)

1.一种计算机实现方法,包括:
通过计算装置将语音信号变换为语音信号表示;
利用成本函数来训练回归深度神经网络以使所述语音信号表示的实际值和所述语音信号表示的估计值之间的均方误差最小化,其中,所述成本函数包括一个或多个判别项;以及
通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络扩展所述语音信号的语音信号表示,来扩展所述语音信号的带宽。
2.根据权利要求1所述的计算机实现方法,其中,所述语音信号表示是通过将所述语音信号分解成谱包络线和激励信号而获得的,以及所述谱包络线是使用利用所述成本函数训练的回归深度神经网络来扩展的。
3.根据权利要求1所述的计算机实现方法,其中,所述一个或多个判别项包括摩擦音与元音功率比以及所述摩擦音与元音功率比的函数中至少之一。
4.根据权利要求1所述的计算机实现方法,其中,所述一个或多个判别项保存所述语音信号表示的实际值中的不同音素类和所述语音信号表示的估计值中的不同音素类之间的统计关系。
5.根据权利要求4所述的计算机实现方法,其中,所述成本函数保存所述语音信号表示的实际值中的不同音素类和所述语音信号表示的估计值中的不同音素类之间的功率比。
6.根据权利要求4所述的计算机实现方法,其中,所述成本函数使用所述不同音素类之间的K个功率比误差的加权和来保存所述不同音素类之间的功率比。
7.根据权利要求1所述的计算机实现方法,还包括:在所述回归深度神经网络的输出处再现平均功率比。
8.一种计算机程序产品,其驻留在存储有多个指令的计算机可读存储介质上,所述指令在一个或多个处理器上执行时使所述一个或多个处理器的至少一部分进行操作,所述操作包括:
将语音信号变换为语音信号表示;
利用成本函数来训练回归深度神经网络以使所述语音信号表示的实际值和所述语音信号表示的估计值之间的均方误差最小化,其中,所述成本函数包括一个或多个判别项;以及
通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络扩展所述语音信号的语音信号表示,来扩展所述语音信号的带宽。
9.根据权利要求8所述的计算机程序产品,其中,所述语音信号表示是通过将所述语音信号分解成谱包络线和激励信号而获得的,以及所述谱包络线是使用利用所述成本函数训练的回归深度神经网络来扩展的。
10.根据权利要求8所述的计算机程序产品,其中,所述一个或多个判别项包括摩擦音与元音功率比以及所述摩擦音与元音功率比的函数中至少之一。
11.根据权利要求8所述的计算机程序产品,其中,所述一个或多个判别项保存所述语音信号表示的实际值中的不同音素类和所述语音信号表示的估计值中的不同音素类之间的统计关系。
12.根据权利要求11所述的计算机程序产品,其中,所述成本函数保存所述语音信号表示的实际值中的不同音素类和所述语音信号表示的估计值中的不同音素类之间的功率比。
13.根据权利要求11所述的计算机程序产品,其中,所述成本函数使用所述不同音素类之间的K个功率比误差的加权和来保存所述不同音素类之间的功率比。
14.根据权利要求8所述的计算机程序产品,还包括:在所述回归深度神经网络的输出处再现平均功率比。
15.一种计算系统,其包括一个或多个处理器和一个或多个存储器,所述一个或多个处理器和所述一个或多个存储器被配置为进行操作,所述操作包括:
将语音信号变换为语音信号表示;
利用成本函数来训练回归深度神经网络以使所述语音信号表示的实际值和所述语音信号表示的估计值之间的均方误差最小化,其中,所述成本函数包括一个或多个判别项;以及
通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络扩展所述语音信号的语音信号表示,来扩展所述语音信号的带宽。
16.根据权利要求15所述的计算系统,其中,所述语音信号表示是通过将所述语音信号分解成谱包络线和激励信号而获得的,以及所述谱包络线是使用利用所述成本函数训练的回归深度神经网络来扩展的。
17.根据权利要求15所述的计算系统,其中,所述一个或多个判别项包括摩擦音与元音功率比以及摩擦音与元音功率比的函数中至少之一。
18.根据权利要求15所述的计算系统,其中,所述一个或多个判别项保存所述语音信号表示的实际值中的不同音素类和所述语音信号表示的估计值中的不同音素类之间的统计关系。
19.根据权利要求18所述的计算系统,其中,所述成本函数保存所述语音信号表示的实际值中的不同音素类和所述语音信号表示的估计值中的不同音素类之间的功率比,以及所述成本函数使用所述不同音素类之间的K个功率比误差的加权和来保存所述不同音素类之间的功率比。
20.根据权利要求15所述的计算系统,还包括:在所述回归深度神经网络的输出处再现平均功率比。
CN201980028119.0A 2018-04-23 2019-04-23 用于回归深度神经网络的判别训练的系统和方法 Pending CN112088385A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/959,606 2018-04-23
US15/959,606 US10650806B2 (en) 2018-04-23 2018-04-23 System and method for discriminative training of regression deep neural networks
PCT/US2019/028742 WO2019209841A1 (en) 2018-04-23 2019-04-23 System and method for discriminative training of regression deep neural networks

Publications (1)

Publication Number Publication Date
CN112088385A true CN112088385A (zh) 2020-12-15

Family

ID=68238175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980028119.0A Pending CN112088385A (zh) 2018-04-23 2019-04-23 用于回归深度神经网络的判别训练的系统和方法

Country Status (4)

Country Link
US (1) US10650806B2 (zh)
EP (1) EP3785189B1 (zh)
CN (1) CN112088385A (zh)
WO (1) WO2019209841A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205443B2 (en) * 2018-07-27 2021-12-21 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved audio feature discovery using a neural network
US11005689B2 (en) * 2019-07-11 2021-05-11 Wangsu Science & Technology Co., Ltd. Method and apparatus for bandwidth filtering based on deep learning, server and storage medium
US11562212B2 (en) * 2019-09-09 2023-01-24 Qualcomm Incorporated Performing XNOR equivalent operations by adjusting column thresholds of a compute-in-memory array
CN111811617B (zh) * 2020-07-10 2022-06-14 杭州电子科技大学 一种基于短时傅里叶变换和卷积神经网络的液位预测方法
MX2023002255A (es) * 2020-09-03 2023-05-16 Sony Group Corp Dispositivo y método de procesamiento de señales, dispositivo y método de aprendizaje y programa.

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441868A (zh) * 2008-11-11 2009-05-27 苏州大学 基于特征转换规则的汉语耳语音向自然语音实时转换方法
CN103026407A (zh) * 2010-05-25 2013-04-03 诺基亚公司 带宽扩展器
US20140342324A1 (en) * 2013-05-20 2014-11-20 Georgia Tech Research Corporation Wireless Real-Time Tongue Tracking for Speech Impairment Diagnosis, Speech Therapy with Audiovisual Biofeedback, and Silent Speech Interfaces
US20150332702A1 (en) * 2013-01-29 2015-11-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension
US20170162194A1 (en) * 2015-12-04 2017-06-08 Conexant Systems, Inc. Semi-supervised system for multichannel source enhancement through configurable adaptive transformations and deep neural network
CN107112025A (zh) * 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法
CN107705801A (zh) * 2016-08-05 2018-02-16 中国科学院自动化研究所 语音带宽扩展模型的训练方法及语音带宽扩展方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07200512A (ja) * 1993-09-13 1995-08-04 Ezel Inc 最適化問題解決装置
US8686922B2 (en) * 1999-12-15 2014-04-01 American Vehicular Sciences Llc Eye-location dependent vehicular heads-up display system
US8818647B2 (en) * 1999-12-15 2014-08-26 American Vehicular Sciences Llc Vehicular heads-up display system
US20010044789A1 (en) * 2000-02-17 2001-11-22 The Board Of Trustees Of The Leland Stanford Junior University Neurointerface for human control of complex machinery
WO2007071070A1 (en) 2005-12-23 2007-06-28 Universite De Sherbrooke Spatio-temporal pattern recognition using a spiking neural network and processing thereof on a portable and/or distributed computer

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441868A (zh) * 2008-11-11 2009-05-27 苏州大学 基于特征转换规则的汉语耳语音向自然语音实时转换方法
CN103026407A (zh) * 2010-05-25 2013-04-03 诺基亚公司 带宽扩展器
US20150332702A1 (en) * 2013-01-29 2015-11-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension
US20140342324A1 (en) * 2013-05-20 2014-11-20 Georgia Tech Research Corporation Wireless Real-Time Tongue Tracking for Speech Impairment Diagnosis, Speech Therapy with Audiovisual Biofeedback, and Silent Speech Interfaces
CN107112025A (zh) * 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法
US20170162194A1 (en) * 2015-12-04 2017-06-08 Conexant Systems, Inc. Semi-supervised system for multichannel source enhancement through configurable adaptive transformations and deep neural network
CN107705801A (zh) * 2016-08-05 2018-02-16 中国科学院自动化研究所 语音带宽扩展模型的训练方法及语音带宽扩展方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PRASAD NIZAMPATNAM,T. KISHORE KUMAR: "Bandwidth Extension of Speech Signals: A Comprehensive Review", INTERNATIONAL JOURNAL OF INTELLIGENT SYSTEMS TECHNOLOGIES AND APPLICATIONS, vol. 2, no. 2, pages 45 - 52 *
李波: "语音转换的关键技术研究", 中国优秀博硕士学位论文全文数据库 (博士) 信息科技辑, no. 03 *

Also Published As

Publication number Publication date
US10650806B2 (en) 2020-05-12
EP3785189A4 (en) 2022-01-19
WO2019209841A1 (en) 2019-10-31
US20190325860A1 (en) 2019-10-24
EP3785189B1 (en) 2023-12-13
EP3785189A1 (en) 2021-03-03

Similar Documents

Publication Publication Date Title
CN112088385A (zh) 用于回归深度神经网络的判别训练的系统和方法
CN111081231B (zh) 用于多声道语音识别的自适应音频增强
O’Shaughnessy Automatic speech recognition: History, methods and challenges
US20210035560A1 (en) System and method for performing automatic speech recognition system parameter adjustment via machine learning
Xu et al. A regression approach to speech enhancement based on deep neural networks
Grozdić et al. Whispered speech recognition using deep denoising autoencoder
Gu et al. Speech bandwidth extension using bottleneck features and deep recurrent neural networks.
Wali et al. Generative adversarial networks for speech processing: A review
EP2089877B1 (en) Voice activity detection system and method
US20170178666A1 (en) Multi-speaker speech separation
Thomas et al. Improvements to the IBM speech activity detection system for the DARPA RATS program
US20150317990A1 (en) Deep scattering spectrum in acoustic modeling for speech recognition
EP2363852B1 (en) Computer-based method and system of assessing intelligibility of speech represented by a speech signal
Wang et al. A multiobjective learning and ensembling approach to high-performance speech enhancement with compact neural network architectures
US6931374B2 (en) Method of speech recognition using variational inference with switching state space models
Ganapathy et al. Temporal envelope compensation for robust phoneme recognition using modulation spectrum
Samui et al. Time–frequency masking based supervised speech enhancement framework using fuzzy deep belief network
GB2560174A (en) A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train
Li et al. A conditional generative model for speech enhancement
Mathur et al. Significance of parametric spectral ratio methods in detection and recognition of whispered speech
Guo et al. Robust speaker identification via fusion of subglottal resonances and cepstral features
Narayanan et al. Robust speech recognition from binary masks
Fan et al. A regression approach to binaural speech segregation via deep neural network
Di Persia et al. Objective quality evaluation in blind source separation for speech recognition in a real room
Wei et al. Improvements on self-adaptive voice activity detector for telephone data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination