CN111145772A - 一种语音增强方法、系统及设备 - Google Patents
一种语音增强方法、系统及设备 Download PDFInfo
- Publication number
- CN111145772A CN111145772A CN201911383843.3A CN201911383843A CN111145772A CN 111145772 A CN111145772 A CN 111145772A CN 201911383843 A CN201911383843 A CN 201911383843A CN 111145772 A CN111145772 A CN 111145772A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- noisy
- clean
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 49
- 238000013507 mapping Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 50
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 238000012076 audiometry Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种语音增强方法、系统及设备,包括:获取带噪语音样本;提取带噪语音样本的特征;将特征输入到训练好的深度神经网络中,根据带噪语音及干净语音的映射关系提取出带噪语音样本对应的第一干净语音。本申请通过神经网络具有的非线性映射能力,使得面向语音增强的深度神经网络能够直接学习含噪语音和纯净语音之间的非线性关系,从而根据非线性关系将含噪语音提取出纯净语音。
Description
技术领域
本申请涉及语音增强技术领域,尤其涉及一种语音增强方法、系统及设备。
背景技术
语音增强是指当语音信号被各种各样的噪音干扰、甚至遮挡后,从噪音背景中提取出有用的纯净语音,抑制、降低噪声对语音的干扰的技术。语音增强在语音信号处理流程中处于前端位置,在语音处理领域中发挥着十分重要的作用。语音增强的目的是尽可能去除含噪语音中的噪声,得到纯净的语音,提高语音质量,增强语音可懂度。深度神经网络具有非线性映射能力,使得面向语音增强的深度神经网络能够直接学习含噪语音和纯净语音之间的非线性关系,无需对信号模型进行额外的假设,因此可以被应用到更复杂的语音增强场景中。
发明内容
本申请实施例提供了一种语音增强方法、系统及设备,使得能够从含噪语音中提取出纯净语音。
有鉴于此,本申请第一方面提供了一种语音增强方法,所述方法包括:
获取带噪语音样本;
提取所述带噪语音样本的特征;
将所述特征输入到训练好的深度神经网络中,根据带噪语音及干净语音的映射关系提取出所述带噪语音样本对应的第一干净语音。
可选的,在将所述特征输入到训练好的深度神经网络中,根据带噪语音及干净语音的映射关系输出所述带噪语音对应的第一干净语音之后还包括:
提取所述带噪语音样本的相位特征;
将所述相位特征与所述第一干净语音进行相位合成,得到第二干净语音,所述第一干净语音中缺少相位特征。
可选的,提取训练样本的特征,并将训练样本的所述特征输入到深度神经网络中;得到所述带噪语音与干净语音之间的映射关系;所述训练样本包括带噪语音训练样本以及干净语音训练样本。
可选的,还包括:使用所述带噪语音训练样本指导所述干净语音训练样本,得到包含有所述带噪语音训练样本带噪特征的带噪语音。
可选的,所述特征包括语音对数频谱特征、对数功率谱特征以及倒谱特征。
本申请第二方面提供一种语音增强系统,所述系统包括:
样本获取模块,所述样本获取模块用于获取带噪语音样本;
特征提取模块,所述特征提取模块用于提取所述带噪语音样本的特征;
语音增强模块,所述语音增强模块用于将所述特征输入到训练好的深度神经网络中,根据带噪语音及干净语音的映射关系提取出所述带噪语音样本对应的第一干净语音。
可选的,还包括:
相位合成模块,所述相位合成模块用于提取所述带噪语音样本的相位特征;并将所述相位特征与所述第一干净语音进行相位合成,得到第二干净语音,所述第一干净语音中缺少相位特征。
可选的,还包括:
模型训练模块,所述模型训练模块用于提取训练样本的特征,并将训练样本的所述特征输入到深度神经网络中;得到所述带噪语音与干净语音之间的映射关系;所述训练样本包括带噪语音训练样本以及干净语音训练样本。
可选的,还包括:
带噪风格语音获取模块,所述带噪风格语音获取模块用于使用所述带噪语音训练样本指导所述干净语音训练样本,得到包含有所述带噪语音训练样本带噪特征的带噪语音。
本申请第三方面提供一种语音增强设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令,执行如上述第一方面所述的语音增强方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种语音增强方法,包括:获取带噪语音样本;提取带噪语音样本的特征;将特征输入到训练好的深度神经网络中,根据带噪语音及干净语音的映射关系提取出带噪语音样本对应的第一干净语音。
本申请通过神经网络具有的非线性映射能力,使得面向语音增强的深度神经网络能够直接学习含噪语音和纯净语音之间的非线性关系,从而根据非线性关系将含噪语音提取出纯净语音。
附图说明
图1为本申请一种语音增强方法的一个实施例的方法流程图;
图2为本申请一种语音增强方法的另一个实施例的方法流程图;
图3为本申请一种语音增强系统的一个实施例的系统示意图。
具体实施方式
本申请通过神经网络具有的非线性映射能力,使得面向语音增强的深度神经网络能够直接学习含噪语音和纯净语音之间的非线性关系,从而根据非线性关系将含噪语音提取出纯净语音。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请实施例中信息处理系统架构图,如图1所示,图1中包括:
101、获取带噪语音样本。
需要说明的是,带噪语音样本为需要进行去噪的待测含噪声样本。
102、提取带噪语音样本的特征。
需要说明的是,提取带噪声样本的特征,其特征可以包括语音对数频谱特征、对数功率谱特征以及倒谱等特征。
103、将特征输入到训练好的深度神经网络中,根据带噪语音及干净语音的映射关系提取出带噪语音样本对应的第一干净语音。
需要说明的是,深度神经网络为面向语音增强的深度神经网络,训练好的深度神经网络能够学习到含噪语音和纯净语音之间的非线性映射关系,当需要对带噪语音进行语音增强处理时,提取带噪语音的特征,将特征输入到深度神经网络中,带噪语音根据深度神经网络学习到的含噪语音和纯净语音之间的非线性映射关系得到对应的干净语音。
本申请通过神经网络具有的非线性映射能力,使得面向语音增强的深度神经网络能够直接学习含噪语音和纯净语音之间的非线性关系,从而根据非线性关系将含噪语音提取出纯净语音。
为了便于理解,请参阅图2,图2为本申请一种语音增强方法的另一个实施例的方法流程图,如图2所示,具体为:
201、提取训练样本的特征,并将训练样本的特征输入到深度神经网络中;得到带噪语音与干净语音之间的映射关系;训练样本包括带噪语音训练样本以及干净语音训练样本。
需要说明的是,训练样本包括带噪语音数据以及干净语音数据,其中由于当带噪语音数据相对较少,为了使得深度神经网络建立的模型更加有效的对多种带噪语音进行语音增强,可以采用学习图片风格迁移的思想将多种带噪语音数据以及干净语音数据进行合成,从而能够生成大量不同的带噪语音数据。将大量的带噪语音数据以及干净语音数据的特征进行提取,并将特征输入到深度神经网络中,从而可以得到带噪语音和干净语音之间的非线性映射关系。
在一种具体的实施方式中,从带噪语音中提取特征(包括语音对数频谱特征,对数功率谱特征以及倒谱特征等),采用深度神经网络学习带噪语音跟干净语音之间的非线性映射关系。其深度神经网络可选用16层的CNN结构,网络通道为对应的各个频率分量,对前后的语音帧进行卷积变换,损失函数可定义为:
Losstotal=αLoss(fcnn,tar)+βLoss(o(n-1),o(n))
式中,fcnn表示带噪语音通过神经网络生成的干净语音,tar表示神经网络模型预输出的目标干净语音,因此Loss(fcnn,tar)表示神经网络实际输出的干净语音与目标干净语音之间的误差。o(n)表示生成的干净语音的当前帧,o(n-1)表示生成干净语音当前帧的前一帧,计算前后帧的相对变化误差是为了对生成的干净语音内部进行特征平滑,损失函数可根据模型和场景自定义。此处的α和β分别是指损失函数所占的比重,α+β=1。
另外还需要指出的是,采用学习图片风格迁移的思想将带噪语音数据以及干净语音数据进行合成,可以采用深度神经网络进行合成构造。其深度神经网络可以选用TDNN结构,包括有4层隐含层,第一、二层左右扩帧1,第三层不扩帧,第三层左右扩帧3,目标是生成带噪语音与干净语音的内容损失以及带噪语音与干净语音之间的噪声风格损失。
因此目标的损失函数可定义为:
Losstotal=αLosscontent+βLossstyle
式中,α和β分别是内容损失和风格损失所占的权重,α+β=1。通过最小化损失函数可以获得带噪语音,损失函数可自定义。
202、获取带噪语音样本。
需要说明的是,带噪语音样本为需要进行去噪的待测含噪声样本。
203、提取带噪语音样本的特征。
需要说明的是,提取带噪声样本的特征,其特征可以包括语音对数频谱特征、对数功率谱特征以及倒谱等特征。
204、将特征输入到训练好的深度神经网络中,根据带噪语音及干净语音的映射关系提取出带噪语音样本对应的第一干净语音。
需要说明的是,深度神经网络为步骤201中训练好的深度神经网络,训练好的深度神经网络能够学习到含噪语音和纯净语音之间的非线性映射关系,当需要对带噪语音进行语音增强处理时,提取带噪语音的特征,将特征输入到深度神经网络中,带噪语音根据深度神经网络学习到的含噪语音和纯净语音之间的非线性映射关系得到对应的干净语音。
205、提取带噪语音样本的相位特征。
需要说明的是,由于带噪语音中还包含语音的相位信息,而相位信息会影响到人主观测听时的质量,因此,为了尽可能的获取无质量损失的干净语音,将带噪语音中的相位信息进行提取用于后续的合成。
206、将相位特征与所述第一干净语音进行相位合成,得到第二干净语音,第一干净语音中缺少相位特征。
需要说明的是,为了获得主观测听的语音波形文件,可以提取待测的带噪语音样本中的相位信息与第一干净语音进行合成,从而得到完整的干净语音。
本申请通过采用学习图片风格迁移的思想将多种带噪语音数据以及干净语音数据进行合成,从而能够生成大量不同的带噪语音数据,利用大量不同的带噪语音数据以及干净语音样本对深度神经网络进行训练,从而使得得到的深度神经网络更加有效的得到带噪语音以及干净语音之间的非线性映射关系。另外,通过提取待测的带噪语音样本中的相位信息,将相位信息与深度神经网络映射得到的干净语音进行合成,从而生成可主观测听的语音波形文件。
以上是本申请的方法实施例,本申请还包括一种语音增强系统的实施例,如图3所示,具体包括:
样本获取模块301,用于获取带噪语音样本。
特征提取模块302,用于提取带噪语音样本的特征。
语音增强模块303,用于将所述特征输入到训练好的深度神经网络中,根据带噪语音及干净语音的映射关系提取出带噪语音样本对应的第一干净语音。
在一种具体的实施方式中,还包括相位合成模块,用于提取带噪语音样本的相位特征;并将相位特征与第一干净语音进行相位合成,得到第二干净语音,第一干净语音中缺少相位特征。
在一种具体的实施方式中,还包括模型训练模块,用于提取训练样本的特征,并将训练样本的特征输入到深度神经网络中;得到带噪语音与干净语音之间的映射关系;训练样本包括带噪语音训练样本以及干净语音训练样本。
在一种具体的实施方式中,还包括带噪风格语音获取模块,用于使用所述带噪语音训练样本指导干净语音训练样本,得到包含有带噪语音训练样本特征的干净语义。
本申请还包括一种语音增强设备的实施例,设备包括处理器以及存储器:其中存储器用于存储程序代码,并将程序代码传输给处理器;处理器用于根据程序代码中的指令执行本申请中的方法实施例。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种语音增强方法,其特征在于,包括:
获取带噪语音样本;
提取所述带噪语音样本的特征;
将所述特征输入到训练好的深度神经网络中,根据带噪语音及干净语音的映射关系提取出所述带噪语音样本对应的第一干净语音。
2.根据权利要求1所述语音增强方法,其特征在于,在将所述特征输入到训练好的深度神经网络中,根据带噪语音及干净语音的映射关系输出所述带噪语音对应的第一干净语音之后还包括:
提取所述带噪语音样本的相位特征;
将所述相位特征与所述第一干净语音进行相位合成,得到第二干净语音,所述第一干净语音中缺少相位特征。
3.根据权利要求1所述语音增强方法,其特征在于,还包括:
提取训练样本的特征,并将训练样本的所述特征输入到深度神经网络中;得到所述带噪语音与干净语音之间的映射关系;所述训练样本包括带噪语音训练样本以及干净语音训练样本。
4.根据权利要求3所述语音增强方法,其特征在于,还包括:使用所述带噪语音训练样本指导所述干净语音训练样本,得到包含有所述带噪语音训练样本带噪特征的带噪语音。
5.根据权利要求1所述语音增强方法,其特征在于,所述特征包括语音对数频谱特征、对数功率谱特征以及倒谱特征。
6.一种语音增强系统,其特征在于,包括:
样本获取模块,所述样本获取模块用于获取带噪语音样本;
特征提取模块,所述特征提取模块用于提取所述带噪语音样本的特征;
语音增强模块,所述语音增强模块用于将所述特征输入到训练好的深度神经网络中,根据带噪语音及干净语音的映射关系提取出所述带噪语音样本对应的第一干净语音。
7.根据权利要求6所述的语音增强系统,其特征在于,还包括:
相位合成模块,所述相位合成模块用于提取所述带噪语音样本的相位特征;并将所述相位特征与所述第一干净语音进行相位合成,得到第二干净语音,所述第一干净语音中缺少相位特征。
8.根据权利要求6所述的语音增强系统,其特征在于,还包括:
模型训练模块,所述模型训练模块用于提取训练样本的特征,并将训练样本的所述特征输入到深度神经网络中;得到所述带噪语音与干净语音之间的映射关系;所述训练样本包括带噪语音训练样本以及干净语音训练样本。
9.根据权利要求8所述的语音增强系统,其特征在于,还包括:
带噪风格语音获取模块,所述带噪风格语音获取模块用于使用所述带噪语音训练样本指导所述干净语音训练样本,得到包含有所述带噪语音训练样本带噪特征的带噪语音。
10.一种语音增强设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的语音增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911383843.3A CN111145772A (zh) | 2019-12-28 | 2019-12-28 | 一种语音增强方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911383843.3A CN111145772A (zh) | 2019-12-28 | 2019-12-28 | 一种语音增强方法、系统及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111145772A true CN111145772A (zh) | 2020-05-12 |
Family
ID=70521222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911383843.3A Pending CN111145772A (zh) | 2019-12-28 | 2019-12-28 | 一种语音增强方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111145772A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113823312A (zh) * | 2021-02-19 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 语音增强模型生成方法和装置、语音增强方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410956A (zh) * | 2018-12-24 | 2019-03-01 | 科大讯飞股份有限公司 | 一种音频数据的对象识别方法、装置、设备及存储介质 |
CN109658949A (zh) * | 2018-12-29 | 2019-04-19 | 重庆邮电大学 | 一种基于深度神经网络的语音增强方法 |
CN109919829A (zh) * | 2019-01-17 | 2019-06-21 | 北京达佳互联信息技术有限公司 | 图像风格迁移方法、装置和计算机可读存储介质 |
CN110111803A (zh) * | 2019-05-09 | 2019-08-09 | 南京工程学院 | 基于自注意多核最大均值差异的迁移学习语音增强方法 |
CN110390950A (zh) * | 2019-08-17 | 2019-10-29 | 杭州派尼澳电子科技有限公司 | 一种基于生成对抗网络的端到端语音增强方法 |
CN110491404A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音处理方法、装置、终端设备及存储介质 |
-
2019
- 2019-12-28 CN CN201911383843.3A patent/CN111145772A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410956A (zh) * | 2018-12-24 | 2019-03-01 | 科大讯飞股份有限公司 | 一种音频数据的对象识别方法、装置、设备及存储介质 |
CN109658949A (zh) * | 2018-12-29 | 2019-04-19 | 重庆邮电大学 | 一种基于深度神经网络的语音增强方法 |
CN109919829A (zh) * | 2019-01-17 | 2019-06-21 | 北京达佳互联信息技术有限公司 | 图像风格迁移方法、装置和计算机可读存储介质 |
CN110111803A (zh) * | 2019-05-09 | 2019-08-09 | 南京工程学院 | 基于自注意多核最大均值差异的迁移学习语音增强方法 |
CN110491404A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音处理方法、装置、终端设备及存储介质 |
CN110390950A (zh) * | 2019-08-17 | 2019-10-29 | 杭州派尼澳电子科技有限公司 | 一种基于生成对抗网络的端到端语音增强方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113823312A (zh) * | 2021-02-19 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 语音增强模型生成方法和装置、语音增强方法和装置 |
CN113823312B (zh) * | 2021-02-19 | 2023-11-07 | 北京沃东天骏信息技术有限公司 | 语音增强模型生成方法和装置、语音增强方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106486130B (zh) | 噪声消除、语音识别方法及装置 | |
CN111885275B (zh) | 语音信号的回声消除方法、装置、存储介质以及电子装置 | |
CN111341303B (zh) | 一种声学模型的训练方法及装置、语音识别方法及装置 | |
CN107845389A (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN107305774A (zh) | 语音检测方法和装置 | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN110956957A (zh) | 语音增强模型的训练方法及系统 | |
CN104134444B (zh) | 一种基于mmse的歌曲去伴奏方法和装置 | |
CN110503967B (zh) | 一种语音增强方法、装置、介质和设备 | |
JP2014089420A (ja) | 信号処理装置、方法およびプログラム | |
EP3956888A1 (en) | Method and apparatus for determining a deep filter | |
CN111640451B (zh) | 一种成熟度评估方法及装置、存储介质 | |
CN111863014A (zh) | 一种音频处理方法、装置、电子设备和可读存储介质 | |
Takeuchi et al. | Invertible DNN-based nonlinear time-frequency transform for speech enhancement | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN111108554A (zh) | 一种基于语音降噪的声纹识别方法和相关装置 | |
CN111354367B (zh) | 一种语音处理方法、装置及计算机存储介质 | |
CN111145772A (zh) | 一种语音增强方法、系统及设备 | |
CN204117590U (zh) | 语音采集降噪装置以及语音质量评价系统 | |
CN114038476A (zh) | 音频信号处理方法及装置 | |
CN106716529A (zh) | 对数字音频信号中的前回声进行辨别和衰减 | |
CN106023984A (zh) | 基于车联网的语音识别方法 | |
CN113299300B (zh) | 一种语音增强方法、装置及存储介质 | |
CN114420099A (zh) | 一种多声源融合场景的人声检测方法及装置 | |
Wagner et al. | Combining hierarchical classification with frequency weighting for the recognition of eating conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200512 |
|
RJ01 | Rejection of invention patent application after publication |