CN110648680A - 语音数据的处理方法、装置、电子设备及可读存储介质 - Google Patents
语音数据的处理方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN110648680A CN110648680A CN201910900060.1A CN201910900060A CN110648680A CN 110648680 A CN110648680 A CN 110648680A CN 201910900060 A CN201910900060 A CN 201910900060A CN 110648680 A CN110648680 A CN 110648680A
- Authority
- CN
- China
- Prior art keywords
- voice
- enhancement
- data
- voice enhancement
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 152
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000001228 spectrum Methods 0.000 claims description 23
- 230000009466 transformation Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 16
- 238000009432 framing Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000007306 functionalization reaction Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Abstract
本申请提供了一种语音数据的处理方法、装置、电子设备及计算机可读存储介质,涉及互联网领域。该方法包括:接收发送方发送的第一语音数据,获取相应的语音增强参数;基于获取到的语音增强参数对第一语音数据进行语音增强处理,得到第一语音增强数据,并基于第一语音数据确定第一语音增强参数;采用第一语音增强参数对获取到的语音增强参数进行更新,得到更新后的语音增强参数,以用于当接收到发送方发送的第二语音数据,基于更新后的语音增强参数对第二语音数据进行语音增强处理,并将第一语音增强数据发送至接收方。本申请实现了在不需要多个模型的情况下,不仅语音增强依然具有针对性,而且不需要存储多个模型,存储量需求较低。
Description
技术领域
本申请涉及互联网技术领域,具体而言,本申请涉及一种语音数据的处理方法、装置、电子设备及计算机可读存储介质。
背景技术
语音增强(Speech Enhancement)的本质是语音降噪,麦克风采集的语音通常是带有不同噪声的语音,语音增强的主要目的就是从带噪声的语音中恢复不带噪声的语音。通过语音增强可以有效抑制各种干扰信号,增强目标语音信号,不仅提高语音可懂度和话音质量,还有助于提高语音识别。
现有方案中,首先训练生成一个通用的降噪模型,然后针对不同发言人,利用各个发言人对应的语音数据对整个降噪模型或者模型中的某些层进行自适应训练,得到不同发言人分别对应的降噪模型并存储。在实际应用时,针对不同的发言人,获取对应的降噪模型,并采用降噪模型对该发言人的语音数据进行降噪处理。
但是这种方案需要将每个发言人对应的降噪模型都需要进行存储,存储量需求较高。
发明内容
本申请提供了一种语音数据的处理方法、装置、电子设备及计算机可读存储介质,可以解决训练降噪模型时自适应训练的时间较久、效度较低,以及多个降噪模型的存储量需求较高的问题。所述技术方案如下:
一方面,提供了一种语音数据的处理方法,该方法包括:
当接收到发送方发送的第一语音数据,获取相应的语音增强参数;
基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数;
采用所述第一语音增强参数对获取到的语音增强参数进行更新,得到更新后的语音增强参数,以用于当接收到发送方发送的第二语音数据,基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理,并将所述第一语音增强数据发送至接收方。
优选地,所述获取相应的语音增强参数,包括:
获取与所述发送方对应的语音增强参数;
若未获取到与所述发送方对应的语音增强参数,则获取预设置的语音增强参数;
所述采用所述第一语音增强参数对获取的语音增强参数进行更新,得到更新后的语音增强参数,包括:
将所述第一语音增强参数作为与所述发送方对应的语音增强参数。
优选地,若获取到与所述发送方对应的语音增强参数,所述基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,包括:
基于与所述发送方对应的语音增强参数对所述第一语音数据进行语音增强处理;
所述采用所述第一语音增强参数对获取的语音增强参数进行更新,得到更新后的语音增强参数,包括:
采用所述第一语音增强参数对与所述发送方对应的语音增强参数进行更新,得到更新后的语音增强参数。
优选地,若未获取到与所述发送方对应的语音增强参数,所述基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数的步骤,包括:
通过训练后的语音增强模型,对所述第一语音数据进行特征序列处理,得到第一语音特征序列,所述语音增强模型设置有所述预设置的语音增强参数;
采用所述预设置的语音增强参数对所述第一语音特征序列进行批处理计算,得到处理后的第一语音特征序列和所述第一语音增强参数;
对所述处理后的第一语音特征序列进行特征逆变换处理,得到所述第一语音增强数据。
优选地,若获取到与所述发送方对应的语音增强参数,所述基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数的步骤,包括:
通过训练后的语音增强模型,对所述第一语音数据进行特征序列处理,得到第二语音特征序列;
采用所述语音增强参数对所述第二语音特征序列进行批处理计算,得到处理后的第二语音特征序列和第二语音增强参数;
对所述处理后的第二语音特征序列进行特征逆变换处理,得到处理后第二语音增强数据,并将所述处理后的第二语音增强数据作为所述第一语音增强数据。
优选地,所述训练后的语音增强模型通过如下方式生成:
获取包含噪声的第一语音样本数据,并对所述第一语音样本数据进行语音特征提取,得到第一语音特征;
获取不包含噪声的第二语音样本数据,并对所述第二语音样本数据进行语音特征提取,得到第二语音特征;
采用所述第一语音特征对预设的语音增强模型进行训练,得到训练后的第一语音特征;
计算所述训练后的第一语音特征与所述第二语音特征的相似度,直至所述训练后的第一语音特征与所述第二语音特征的相似度超过预设相似度阈值,得到训练后的语音增强模型。
优选地,语音特征提取的方式,包括:
对语音样本数据进行语音分帧和加窗处理,得到所述语音样本数据的至少两个语音帧;
对各个语音帧分别进行快速傅里叶变换,得到各个语音帧分别对应的各个离散功率谱;
对各个离散功率谱分别进行对数计算,得到各个语音帧分别对应的各个对数功率谱,并将各个对数功率谱作为所述语音样本数据的语音特征。
另一方面,提供了一种语音数据的处理的装置,该装置包括:
接收模块,用于接收发送方发送的第一语音数据;
获取模块,用于获取相应的语音增强参数;
处理模块,用于基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数;
更新模块,用于采用所述第一语音增强参数对获取到的语音增强参数进行更新,得到更新后的语音增强参数,以用于当接收到发送方发送的第二语音数据,基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理;
发送模块,用于将所述第一语音增强数据发送至接收方。
优选地,所述获取模块具体用于:
获取与所述发送方对应的语音增强参数;若未获取到与所述发送方对应的语音增强参数,则获取预设置的语音增强参数;
所述更新模块具体用于:
将所述第一语音增强参数作为与所述发送方对应的语音增强参数。
优选地,所述处理模块具体用于:
若获取到与所述发送方对应的语音增强参数,基于与所述发送方对应的语音增强参数对所述第一语音数据进行语音增强处理;
所述更新模块具体用于:
采用所述第一语音增强参数对与所述发送方对应的语音增强参数进行更新,得到更新后的语音增强参数。
优选地,所述处理模块包括:
特征序列处理子模块,用于若未获取到与所述发送方对应的语音增强参数,通过训练后的语音增强模型,对所述第一语音数据进行特征序列处理,得到第一语音特征序列,所述语音增强模型设置有所述预设置的语音增强参数;
批处理计算子模块,用于采用所述预设置的语音增强参数对所述第一语音特征序列进行批处理计算,得到处理后的第一语音特征序列和所述第一语音增强参数;
特征逆变换处理子模块,用于对所述处理后的第一语音特征序列进行特征逆变换处理,得到所述第一语音增强数据。
优选地,所述处理模块包括:
所述特征序列处理子模块,还用于若获取到与所述发送方对应的语音增强参数,通过训练后的语音增强模型,对所述第一语音数据进行特征序列处理,得到第二语音特征序列;
所述批处理计算子模块,还用于采用所述语音增强参数对所述第二语音特征序列进行批处理计算,得到处理后的第二语音特征序列和第二语音增强参数;
所述特征逆变换处理子模块,还用于对所述处理后的第二语音特征序列进行特征逆变换处理,得到处理后第二语音增强数据,并将所述处理后的第二语音增强数据作为所述第一语音增强数据。
优选地,所述训练后的语音增强模型通过如下方式生成:
获取包含噪声的第一语音样本数据,并对所述第一语音样本数据进行语音特征提取,得到第一语音特征;
获取不包含噪声的第二语音样本数据,并对所述第二语音样本数据进行语音特征提取,得到第二语音特征;
采用所述第一语音特征对预设的语音增强模型进行训练,得到训练后的第一语音特征;
计算所述训练后的第一语音特征与所述第二语音特征的相似度,直至所述训练后的第一语音特征与所述第二语音特征的相似度超过预设相似度阈值,得到训练后的语音增强模型。
优选地,语音特征提取的方式,包括:
对语音样本数据进行语音分帧和加窗处理,得到所述语音样本数据的至少两个语音帧;
对各个语音帧分别进行快速傅里叶变换,得到各个语音帧分别对应的各个离散功率谱;
对各个离散功率谱分别进行对数计算,得到各个语音帧分别对应的各个对数功率谱,并将各个对数功率谱作为所述语音样本数据的语音特征。
另一方面,提供了一种电子设备,该电子设备包括:
处理器、存储器和总线;
所述总线,用于连接所述处理器和所述存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,可执行指令使处理器执行如本申请上述所示的语音数据的处理方法对应的操作。
另一方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请上述所示的语音数据的处理方法。
本申请提供的技术方案带来的有益效果是:
在本发明实施例中,当接收到发送方发送的第一语音数据,获取相应的语音增强参数,然后基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数,再采用所述第一语音增强参数对获取到的语音增强参数进行更新,得到更新后的语音增强参数,以用于当接收到发送方发送的第二语音数据,基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理,并将所述第一语音增强数据发送至接收方。这样,服务器可以基于发送方对应的语音增强参数对发送方的语音数据进行语音增强处理,因为不同的发送方对应的语音增强参数是不同的,所以,针对不同发送方进行语音增强处理得到的语音增强效果也是不同的,实现了在不需要多个模型的情况下,语音增强不仅依然具有针对性,而且存储语音增强参数即可,不需要存储多个模型,存储量需求较低。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请一个实施例提供的一种语音数据的处理方法的流程示意图;
图2为本申请中LSTM模型的结构示意图;
图3为本申请中语音特征提取的逻辑步骤示意图;
图4为本申请又一实施例提供的一种语音数据的处理装置的结构示意图;
图5为本申请又一实施例提供的一种语音数据的处理的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请提供的语音数据的处理方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
在一个实施例中提供了一种语音数据的处理方法,如图1所示,该方法包括:
步骤S101,当接收到发送方发送的第一语音数据,获取相应的语音增强参数;
在实际应用中,本发明实话例可以应用于基于网络的语音通讯的应用场景中,比如电话会议、视频会议等。其中,发送方可以是发送语音数据的一方,比如,用户A通过终端设备A'进行发言,那么A'就可以是发送方,用户A的发言内容就可以是第一语音数据,第一语音数据通过网络传输到服务器,服务器在接收到第一语音数据后,就可以获取相应的语音增强参数,进而对第一语音数据进行语音增强处理。其中,服务器中可以运行LSTM(Long-Short Term Memory,长短期记忆)模型,该模型可以用于对语音数据进行语音增强处理。
步骤S102,基于获取到的语音增强参数对所述语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数;
在实际应用中,如果未获取到发送方对应的语音增强参数,那么就基于预设置的语音增强参数对第一语音数据进行语音增强处理;如果获取到与所述发送方对应的语音增强参数,那么就基于与所述发送方对应的语音增强参数对所述第一语音数据进行语音增强处理。
步骤S103,采用所述第一语音增强参数对获取到的语音增强参数进行更新,得到更新后的语音增强参数,以用于当接收到发送方发送的第二语音数据,基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理,并将所述第一语音增强数据发送至接收方。
具体而言,在基于第一语音数据确定了第一语音增强参数之后,如果存储容器中没有发送方对应的语音增强参数,那么就可以将第一语音增强参数作为发送方对应的语音增强参数并保存在存储容器中;如果存储容器中已经保存了发送方对应的语音增强参数,那么就可以将第一语音增强参数替换已保存的语音增强参数。同时,服务器将经过语音增强处理得到的第一语音增强数据发送至接收方,接收方接收到第一语音增强数据后进行播放即可。
在本发明实施例中,当接收到发送方发送的第一语音数据,获取相应的语音增强参数,然后基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数,再采用所述第一语音增强参数对获取到的语音增强参数进行更新,得到更新后的语音增强参数,以用于当接收到发送方发送的第二语音数据,基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理,并将所述第一语音增强数据发送至接收方。这样,服务器可以基于发送方对应的语音增强参数对发送方的语音数据进行语音增强处理,因为不同的发送方对应的语音增强参数是不同的,所以,针对不同发送方进行语音增强处理得到的语音增强效果也是不同的,实现了在不需要多个模型的情况下,语音增强不仅依然具有针对性,而且存储语音增强参数即可,不需要存储多个模型,存储量需求较低。
在另一个实施例中继续对如图1所示的一种语音数据的处理方法进行详细说明。
步骤S101,当接收到发送方发送的第一语音数据,获取相应的语音增强参数;
在实际应用中,本发明实话例可以应用于基于网络的语音通讯的应用场景中,比如电话会议、视频会议等。其中,发送方可以是发送语音数据的一方,比如,用户A通过终端设备A'进行发言,那么A'就可以是发送方,用户A的发言内容就可以是第一语音数据,第一语音数据通过网络传输到服务器,服务器在接收到第一语音数据后,就可以获取相应的语音增强参数,进而对第一语音数据进行语音增强处理。
其中,服务器中可以运行LSTM(Long-Short Term Memory,长短期记忆)模型,该模型可以用于对语音数据进行语音增强处理。
语音增强(Speech Enhancement)的本质是语音降噪,麦克风采集的语音通常是带有不同噪声的语音,语音增强的主要目的就是从带噪声的语音中恢复不带噪声的语音。通过语音增强可以有效抑制各种干扰信号,增强目标语音信号,不仅可以提高语音可懂度和语音质量,还有助于提高语音识别。
LSTM模型的基本结构可以如图2所示,包括前端LSTM层、批处理层,以及后端LSTM层;其中,X为语音数据中的每一帧语音,t为时间窗口。
所谓一帧语音,指的是语音信号中的一个短段。具体的,语音信号在宏观上是不平稳的,在微观上是平稳的,具有短时平稳性(10~30ms内可以认为语音信号近似不变),这个就可以把语音信号分为一些短段来进行处理,每一个短段称为一帧。比如,某段1S的语音中,一帧语音的长度为10ms,那么该段语音就包括100帧。
LSTM模型在处理语音数据时,前端LSTM层、批处理层,以及后端LSTM层会同时对不同时间窗口的语音帧进行计算,其中批处理层用于计算语音数据对应的语音增强参数,比如均值和方差。
进一步,在本发明实施例中,终端设备可以具有如下特点:
(1)在硬件体系上,设备具备中央处理器、存储器、输入部件和输出部件,也就是说,设备往往是具备通信功能的微型计算机设备。另外,还可以具有多种输入方式,诸如键盘、鼠标、触摸屏、送话器和摄像头等,并可以根据需要进行调整输入。同时,设备往往具有多种输出方式,如受话器、显示屏等,也可以根据需要进行调整;
(2)在软件体系上,设备必须具备操作系统,如Windows Mobile、Symbian、Palm、Android、iOS等。同时,这些操作系统越来越开放,基于这些开放的操作系统平台开发的个性化应用程序层出不穷,如通信簿、日程表、记事本、计算器以及各类游戏等,极大程度地满足了个性化用户的需求;
(3)在通信能力上,设备具有灵活的接入方式和高带宽通信性能,并且能根据所选择的业务和所处的环境,自动调整所选的通信方式,从而方便用户使用。设备可以支持GSM(Global System for Mobile Communication,全球移动通信系统)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、CDMA2000(Code Division MultipleAccess,码分多址)、TDSCDMA(Time Division-Synchronous Code Division MultipleAccess,时分同步码分多址)、Wi-Fi(Wireless-Fidelity,无线保真)以及WiMAX(WorldwideInteroperability for Microwave Access,全球微波互联接入)等,从而适应多种制式网络,不仅支持语音业务,更支持多种无线数据业务;
(4)在功能使用上,设备更加注重人性化、个性化和多功能化。随着计算机技术的发展,设备从“以设备为中心”的模式进入“以人为中心”的模式,集成了嵌入式计算、控制技术、人工智能技术以及生物认证技术等,充分体现了以人为本的宗旨。由于软件技术的发展,设备可以根据个人需求调整设置,更加个性化。同时,设备本身集成了众多软件和硬件,功能也越来越强大。
在本发明一种优选实施例中,所述获取相应的语音增强参数,包括:
获取与所述发送方对应的语音增强参数;
若未获取到与所述发送方对应的语音增强参数,则获取预设置的语音增强参数;
具体而言,服务器接收到第一语音数据之后,可以采用训练后的LSTM模型对第一语音数据进行语音增强处理。训练后的LSTM模型是一个通用模型,具有预设置的语音增强参数,也就是训练后的LSTM模型中的语音增强参数,训练后的LSTM模型可以对任何用户的语音数据进行语音增强处理。
在本发明实施例中,为了对不同的用户提供针对性的语音增强,可以采用用户的语音数据对训练后的LSTM模型进行训练,得到该用户的语音增强参数,这样,在对该用户的语音数据进行语音增强处理时,就可以采用该用户的语音增强参数对该用户的语音数据进行语音增强处理。
比如,采用用户A的语音数据对训练后的LSTM模型进行训练,得到用户A的语音增强参数。在对用户A后续的语音数据进行语音增强处理时,训练后的LSTM模型就可以使用用户A的语音增强参数进行语音增强处理。
因此,服务器在接收到用户的第一语音数据时,可以先获取该用户的语音增强参数。在本发明实施例中,各个用户对应的语音增强参数可以存储在服务器的存储容器中,也可以存储在其它设备的存储容器中,本发明实施例对此不作限制。
如果服务器没有获取到该用户的语音增强参数,那么就表示服务器是第一次接收到该用户的语音数据,此时获取预设置的语音增强参数即可。
步骤S102,基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数;
在实际应用中,如果未获取到发送方对应的语音增强参数,那么就基于预设置的语音增强参数对第一语音数据进行语音增强处理;如果获取到与所述发送方对应的语音增强参数,那么就基于与所述发送方对应的语音增强参数对所述第一语音数据进行语音增强处理。
在本发明一种优选实施例中,若未获取到与所述发送方对应的语音增强参数,所述基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数的步骤,包括:
通过训练后的语音增强模型,对所述第一语音数据进行特征序列处理,得到第一语音特征序列,所述语音增强模型设置有所述预设置的语音增强参数;
采用所述预设置的语音增强参数对所述第一语音特征序列进行批处理计算,得到处理后的第一语音特征序列;
对所述处理后的第一语音特征序列进行特征逆变换处理,得到所述第一语音增强数据,并基于第一语音数据确定第一语音增强参数。
具体而言,如果没有获取到发送方对应的语音增强参数,那么就可以将第一语音数据输入训练后的LSTM模型,训练后的LSTM模型对第一语音数据进行特征序列处理,得到第一语音数据对应的第一语音特征序列,其中,第一语音特征序列包括至少两个语音特征,然后采用预设置的语音增强参数对第一语音特征序列进行批处理计算,得到处理后的第一语音特征序列,再对处理后的第一语音特征序列进行特征逆变换处理,就可以得到第一语音增强数据了,也就是采用训练后的LSTM模型(通用模型)对第一语音数据进行语音增强处理。其中,批处理计算可以采用如下公式(1)和公式(2):
以及,采用第一语音数据对训练后的LSTM模型进行训练,得到第一语音增强参数,也就是与发送方对应的语音增强参数,然后进行存储。其中,对训练后的LSTM模型进行训练可以采用如下公式(3)和公式(4):
需要说明的是,基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,与基于所述第一语音数据确定第一语音增强参数的执行顺序可以是先后执行,也可以是并列执行等,在实际应用中可以根据实际需求进行调整,本发明实施例对执行顺序不作限制。
在本发明一种优选实施例中,若获取到与所述发送方对应的语音增强参数,所述基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数的步骤,包括:
通过训练后的语音增强模型,对所述第一语音数据进行特征序列处理,得到第二语音特征序列;
采用所述语音增强参数对所述第二语音特征序列进行批处理计算,得到处理后的第二语音特征序列;
对所述处理后的第二语音特征序列进行特征逆变换处理,得到处理后第二语音增强数据,并将所述处理后的第二语音增强数据作为所述第一语音增强数据,并基于所述第一语音数据确定第二语音增强参数。
具体而言,如果获取到了发送方对应的语音增强参数,那么就可以将第一语音数据输入训练后的LSTM模型,训练后的LSTM模型对第一语音数据进行特征序列处理,得到第一语音数据对应的第二语音特征序列,其中,第二语音特征序列包括至少两个语音特征,然后采用与发送方对应的语音增强参数对第二语音特征序列进行批处理计算,得到处理后的第二语音特征序列,再对处理后的第二语音特征序列进行特征逆变换处理,就可以得到第二语音增强数据了,也就是将发送方对应的语音增强参数替换训练后的LSTM模型中的语音增强参数,然后采用更新后的LSTM模型对第二语音数据进行语音增强处理。其中,批处理计算也可以采用公式(1)和公式(2),在此就不赘述了。
以及,采用第一语音数据对更新后的LSTM模型进行训练,得到第二语音增强参数,也就是与发送方对应的最新的语音增强参数,然后进行存储。其中,对更新后的LSTM模型进行训练也可以采用公式(3)和公式(4),在此就不赘述了。
在本发明一种优选实施例中,所述训练后的语音增强模型通过如下方式生成:
获取包含噪声的第一语音样本数据,并对所述第一语音样本数据进行语音特征提取,得到第一语音特征;
获取不包含噪声的第二语音样本数据,并对所述第二语音样本数据进行语音特征提取,得到第二语音特征;
采用所述第一语音特征对预设的语音增强模型进行训练,得到训练后的第一语音特征;
计算所述训练后的第一语音特征与所述第二语音特征的相似度,直至所述训练后的第一语音特征与所述第二语音特征的相似度超过预设相似度阈值,得到训练后的语音增强模型。
具体而言,获取包含噪声的第一语音样本数据,并对第一语音样本数据进行语音特征提取,得到第一语音特征a,以及,获取不包含噪声的第二语音样本数据,并对第二语音样本数据进行语音特征提取,得到第二语音特征b,然后将语音特征a输入原始LSTM模型,将语音特征b作为训练目标,对原始LSTM模型进行单向训练,也就是单向调整LSTM模型中的所有参数,得到训练后的第一语音特征a',其中,所有参数包括语音增强参数,再计算所述训练后的第一语音特征a'与所述第二语音特征b的相似度,直至训练后的第一语音特征a'与第二语音特征b的相似度超过预设相似度阈值,从而得到训练后的LSTM模型。
其中,相似度计算可以采用夹角余弦、皮尔森相关系数等相似度度量的方式,也可以采用欧氏距离、曼哈顿距离等距离度量的方式,当然,还可以采用其它的计算方式,具体的计算方式可以根据实际需求进行设置,本发明实施例对此不作限制。
在本发明一种优选实施例中,语音特征提取的方式,包括:
对语音样本数据进行语音分帧和加窗处理,得到所述语音样本数据的至少两个语音帧;
对各个语音帧分别进行快速傅里叶变换,得到各个语音帧分别对应的各个离散功率谱;
对各个离散功率谱分别进行对数计算,得到各个语音帧分别对应的各个对数功率谱,并将各个对数功率谱作为所述语音样本数据的语音特征。
具体而言,语音样本数据也就是语音信号,语音信号是时域信号,处理器无法直接对时域信号进行处理,所以需要对语音样本数据进行语音分帧和加窗处理,得到语音样本数据的至少两个语音帧,从而将时域信号转换为处理器可处理的频域信号,如图3所示,然后对每个语音帧分别进行FFT(Fast Fourier Transformation,快速傅里叶变换),得到各个语音帧对应的离散功率谱,再对各个离散功率谱进行对数计算,得到各个语音帧分别对应的各个对数功率谱,从而得到了各个语音帧分别对应的语音特征,所有语音特征的集合就是该语音样本数据对应的语音特征序列。对语音特征序列进行特征逆变换处理,即可将频域的语音特征序列转换为时域的语音信号。
需要说明的是,对第一语音样本数据进行特征提取与对第二语音样本数据进行特征提取的方式是一样的,所以为了方便描述,本发明实施例将第一语音样本数据和第二语音样本数据统称为语音样本数据。
步骤S103,采用所述第一语音增强参数对获取到的语音增强参数进行更新,得到更新后的语音增强参数,以用于当接收到发送方发送的第二语音数据,基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理,并将所述第一语音增强数据发送至接收方。
现有方案中,通过训练得到发言人对应的降噪模型时,需要进行自适应训练,而自适应训练需要的数据量较大,所以自适应训练的时间较久、效率较低。
而在本发明实施例中,采用第一语音增强参数对获取到的语音增强参数进行更新,得到更新后的语音增强参数即可,这样,就不需要进行自适应训练了。
具体而言,在基于第一语音数据确定了第一语音增强参数之后,如果存储容器中没有发送方对应的语音增强参数,那么就可以将第一语音增强参数作为发送方对应的语音增强参数并保存在存储容器中;如果存储容器中已经保存了发送方对应的语音增强参数,那么就可以将第一语音增强参数替换已保存的语音增强参数。
当接收到发送方发送的第二语音数据,就可以基于第一语音增强参数,也就是更新后的语音增强参数对第二语音数据进行语音增强处理了。这样,服务器就可以基于发送方发送的最新的语音数据持续对训练后的LSTM模型进行单向训练,从而持续更新发送方对应的语音增强参数,使得语音增强参数与发送方的匹配度越来越高,针对发送方的语音增强效果也越来越好。
同时,服务器将经过语音增强处理得到的第一语音增强数据发送至接收方,接收方接收到第一语音增强数据后进行播放即可。
需要说明的是,服务器进行语音增强参数的更新与发送语音增强数据的执行顺序可以是先后顺序,也可以是并列顺序,在实际应用中可以根据实际需求进行设置,本发明实施例对此不作限制。
为方便理解,本发明实施例通过以下事例进行详细说明。
假设,用户A、用户B和用户C进行电话会议,服务器中正在运行训练后的LSTM模型,训练后的LSTM模型具有通用语音增强参数,且服务器中的存储容器或其它存储容器中均没有用户A的语音增强参数。
在这种情况下,当用户A完成第一句发言后,终端将第一句发言发送至服务器,服务器接收到用户A的第一句发言后,查找与用户A对应的语音增强参数,因为服务器中的存储容器或其它存储容器中都没有用户A的语音增强参数,所以无法获取到用户A的语音增强参数,因此获取训练后的LSTM模型的通用语音增强参数,并采用通用语音增强参数对第一句发言进行语音增强处理,得到增强后的第一句发言,并将增强后的第一句发言发送至用户B和用户C,同时,采用第一句发言对训练后的LSTM模型进行单向训练,得到用户A的第一语音增强参数并进行存储。
当用户A完成第二句发言后,终端将第二句发言发送至服务器,服务器接收到用户A的第二句发言后,查找与用户A对应的语音增强参数,此次查找成功,获取用户A的第一语音增强参数,并将第一语音增强参数替换训练后的LSTM模型中的通用语音增强参数,得到更新后的LSTM模型,然后采用更新后的LSTM模型对第二句发言进行语音增强处理,得到增强后的第二句发言,并将增强后的第二句发言发送至用户B和用户C,同时,采用第二句发言对更新后的LSTM模型进行单向训练,得到用户A的第二语音增强参数,并将第二语音增强参数替换掉第一语音增强参数。针对后续发言的语音增强处理过程依此类推,在此就不赘述了。
在本发明实施例中,当接收到发送方发送的第一语音数据,获取相应的语音增强参数,然后基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数,再采用所述第一语音增强参数对获取到的语音增强参数进行更新,得到更新后的语音增强参数,以用于当接收到发送方发送的第二语音数据,基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理,并将所述第一语音增强数据发送至接收方。这样,服务器可以基于发送方对应的语音增强参数对发送方的语音数据进行语音增强处理,因为不同的发送方对应的语音增强参数是不同的,所以,针对不同发送方进行语音增强处理得到的语音增强效果也是不同的,实现了在不需要多个模型的情况下,语音增强不仅依然具有针对性,而且存储语音增强参数即可,不需要存储多个模型,存储量需求较低。
进一步,服务器还可以基于发送方发送的最新的语音数据持续对训练后的LSTM模型进行单向训练,从而持续更新发送方对应的语音增强参数,使得语音增强参数与发送方的匹配度越来越高,针对发送方的语音增强效果也越来越好。同时,在持续单向训练的过程中,训练语音增强参数即可,不需要对整个训练后的LSTM模型或模型中的一整层进行训练,提高了训练的成本和速度。
图4为本申请又一实施例提供的一种语音数据的处理装置的结构示意图,如图4所示,本实施例的装置可以包括:
接收模块401,用于接收发送方发送的第一语音数据;
获取模块402,用于获取相应的语音增强参数;
处理模块403,用于基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数;
更新模块404,用于采用所述第一语音增强参数对获取到的语音增强参数进行更新,得到更新后的语音增强参数,以用于当接收到发送方发送的第二语音数据,基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理;
发送模块405,用于将所述第一语音增强数据发送至接收方。
在本发明一种优选实施例中,所述获取模块具体用于:
获取与所述发送方对应的语音增强参数;若未获取到与所述发送方对应的语音增强参数,则获取预设置的语音增强参数;
所述更新模块具体用于:
将所述第一语音增强参数作为与所述发送方对应的语音增强参数。
在本发明一种优选实施例中,所述处理模块具体用于:
若获取到与所述发送方对应的语音增强参数,基于与所述发送方对应的语音增强参数对所述第一语音数据进行语音增强处理;
所述更新模块具体用于:
采用所述第一语音增强参数对与所述发送方对应的语音增强参数进行更新,得到更新后的语音增强参数。
在本发明一种优选实施例中,所述处理模块包括:
特征序列处理子模块,用于若未获取到与所述发送方对应的语音增强参数,通过训练后的语音增强模型,对所述第一语音数据进行特征序列处理,得到第一语音特征序列,所述语音增强模型设置有所述预设置的语音增强参数;
批处理计算子模块,用于采用所述预设置的语音增强参数对所述第一语音特征序列进行批处理计算,得到处理后的第一语音特征序列和所述第一语音增强参数;
特征逆变换处理子模块,用于对所述处理后的第一语音特征序列进行特征逆变换处理,得到所述第一语音增强数据。
在本发明一种优选实施例中,所述处理模块包括:
所述特征序列处理子模块,还用于若获取到与所述发送方对应的语音增强参数,通过训练后的语音增强模型,对所述第一语音数据进行特征序列处理,得到第二语音特征序列;
所述批处理计算子模块,还用于采用所述语音增强参数对所述第二语音特征序列进行批处理计算,得到处理后的第二语音特征序列和第二语音增强参数;
所述特征逆变换处理子模块,还用于对所述处理后的第二语音特征序列进行特征逆变换处理,得到处理后第二语音增强数据,并将所述处理后的第二语音增强数据作为所述第一语音增强数据。
在本发明一种优选实施例中,所述训练后的语音增强模型通过如下方式生成:
获取包含噪声的第一语音样本数据,并对所述第一语音样本数据进行语音特征提取,得到第一语音特征;
获取不包含噪声的第二语音样本数据,并对所述第二语音样本数据进行语音特征提取,得到第二语音特征;
采用所述第一语音特征对预设的语音增强模型进行训练,得到训练后的第一语音特征;
计算所述训练后的第一语音特征与所述第二语音特征的相似度,直至所述训练后的第一语音特征与所述第二语音特征的相似度超过预设相似度阈值,得到训练后的语音增强模型。
在本发明一种优选实施例中,语音特征提取的方式,包括:
对语音样本数据进行语音分帧和加窗处理,得到所述语音样本数据的至少两个语音帧;
对各个语音帧分别进行快速傅里叶变换,得到各个语音帧分别对应的各个离散功率谱;
对各个离散功率谱分别进行对数计算,得到各个语音帧分别对应的各个对数功率谱,并将各个对数功率谱作为所述语音样本数据的语音特征。
本实施例的语音数据的处理装置可执行本申请第一个实施例所示的语音数据的处理方法,其实现原理相类似,此处不再赘述。
在本发明实施例中,当接收到发送方发送的第一语音数据,获取相应的语音增强参数,然后基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数,再采用所述第一语音增强参数对获取到的语音增强参数进行更新,得到更新后的语音增强参数,以用于当接收到发送方发送的第二语音数据,基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理,并将所述第一语音增强数据发送至接收方。这样,服务器可以基于发送方对应的语音增强参数对发送方的语音数据进行语音增强处理,因为不同的发送方对应的语音增强参数是不同的,所以,针对不同发送方进行语音增强处理得到的语音增强效果也是不同的,实现了在不需要多个模型的情况下,语音增强不仅依然具有针对性,而且存储语音增强参数即可,不需要存储多个模型,存储量需求较低。
进一步,服务器还可以基于发送方发送的最新的语音数据持续对训练后的LSTM模型进行单向训练,从而持续更新发送方对应的语音增强参数,使得语音增强参数与发送方的匹配度越来越高,针对发送方的语音增强效果也越来越好。同时,在持续单向训练的过程中,训练语音增强参数即可,不需要对整个训练后的LSTM模型或模型中的一整层进行训练,提高了训练的成本和速度。
本申请的又一实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技术相比可实现:在本发明实施例中,当接收到发送方发送的第一语音数据,获取相应的语音增强参数,然后基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数,再采用所述第一语音增强参数对获取到的语音增强参数进行更新,得到更新后的语音增强参数,以用于当接收到发送方发送的第二语音数据,基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理,并将所述第一语音增强数据发送至接收方。这样,服务器可以基于发送方对应的语音增强参数对发送方的语音数据进行语音增强处理,因为不同的发送方对应的语音增强参数是不同的,所以,针对不同发送方进行语音增强处理得到的语音增强效果也是不同的,实现了在不需要多个模型的情况下,语音增强不仅依然具有针对性,而且存储语音增强参数即可,不需要存储多个模型,存储量需求较低。
进一步,服务器还可以基于发送方发送的最新的语音数据持续对训练后的LSTM模型进行单向训练,从而持续更新发送方对应的语音增强参数,使得语音增强参数与发送方的匹配度越来越高,针对发送方的语音增强效果也越来越好。同时,在持续单向训练的过程中,训练语音增强参数即可,不需要对整个训练后的LSTM模型或模型中的一整层进行训练,提高了训练的成本和速度。
在一个可选实施例中提供了一种电子设备,如图5所示,图5所示的电子设备5000包括:处理器5001和存储器5003。其中,处理器5001和存储器5003相连,如通过总线5002相连。可选地,电子设备5000还可以包括收发器5004。需要说明的是,实际应用中收发器5004不限于一个,该电子设备5000的结构并不构成对本申请实施例的限定。
处理器5001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器5001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线5002可包括一通路,在上述组件之间传送信息。总线5002可以是PCI总线或EISA总线等。总线5002可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器5003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器5003用于存储执行本申请方案的应用程序代码,并由处理器5001来控制执行。处理器5001用于执行存储器5003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
本申请的又一实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,在本发明实施例中,当接收到发送方发送的第一语音数据,获取相应的语音增强参数,然后基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数,再采用所述第一语音增强参数对获取到的语音增强参数进行更新,得到更新后的语音增强参数,以用于当接收到发送方发送的第二语音数据,基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理,并将所述第一语音增强数据发送至接收方。这样,服务器可以基于发送方对应的语音增强参数对发送方的语音数据进行语音增强处理,因为不同的发送方对应的语音增强参数是不同的,所以,针对不同发送方进行语音增强处理得到的语音增强效果也是不同的,实现了在不需要多个模型的情况下,语音增强不仅依然具有针对性,而且存储语音增强参数即可,不需要存储多个模型,存储量需求较低。
进一步,服务器还可以基于发送方发送的最新的语音数据持续对训练后的LSTM模型进行单向训练,从而持续更新发送方对应的语音增强参数,使得语音增强参数与发送方的匹配度越来越高,针对发送方的语音增强效果也越来越好。同时,在持续单向训练的过程中,训练语音增强参数即可,不需要对整个训练后的LSTM模型或模型中的一整层进行训练,提高了训练的成本和速度。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种语音数据的处理方法,其特征在于,包括:
接收发送方发送的第一语音数据,获取相应的语音增强参数;
基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数;
采用所述第一语音增强参数对获取到的语音增强参数进行更新,得到更新后的语音增强参数,以用于当接收到发送方发送的第二语音数据,基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理,并将所述第一语音增强数据发送至接收方。
2.根据权利要求1所述的语音数据的处理方法,其特征在于,所述获取相应的语音增强参数,包括:
获取与所述发送方对应的语音增强参数;
若未获取到与所述发送方对应的语音增强参数,则获取预设置的语音增强参数;
所述采用所述第一语音增强参数对获取的语音增强参数进行更新,得到更新后的语音增强参数,包括:
将所述第一语音增强参数作为与所述发送方对应的语音增强参数。
3.根据权利要求2所述的语音数据的处理方法,其特征在于,若获取到与所述发送方对应的语音增强参数,所述基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,包括:
基于与所述发送方对应的语音增强参数对所述第一语音数据进行语音增强处理;
所述采用所述第一语音增强参数对获取的语音增强参数进行更新,得到更新后的语音增强参数,包括:
采用所述第一语音增强参数对与所述发送方对应的语音增强参数进行更新,得到更新后的语音增强参数。
4.根据权利要求1或2所述的语音数据的处理方法,其特征在于,若未获取到与所述发送方对应的语音增强参数,所述基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数的步骤,包括:
通过训练后的语音增强模型,对所述第一语音数据进行特征序列处理,得到第一语音特征序列,所述语音增强模型设置有所述预设置的语音增强参数;
采用所述预设置的语音增强参数对所述第一语音特征序列进行批处理计算,得到处理后的第一语音特征序列和所述第一语音增强参数;
对所述处理后的第一语音特征序列进行特征逆变换处理,得到所述第一语音增强数据。
5.根据权利要求1或3所述的语音数据的处理方法,其特征在于,若获取到与所述发送方对应的语音增强参数,所述基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数的步骤,包括:
通过训练后的语音增强模型,对所述第一语音数据进行特征序列处理,得到第二语音特征序列;
采用所述语音增强参数对所述第二语音特征序列进行批处理计算,得到处理后的第二语音特征序列和第二语音增强参数;
对所述处理后的第二语音特征序列进行特征逆变换处理,得到处理后第二语音增强数据,并将所述处理后的第二语音增强数据作为所述第一语音增强数据。
6.根据权利要求3或4所述的语音数据的处理方法,其特征在于,所述训练后的语音增强模型通过如下方式生成:
获取包含噪声的第一语音样本数据,并对所述第一语音样本数据进行语音特征提取,得到第一语音特征;
获取不包含噪声的第二语音样本数据,并对所述第二语音样本数据进行语音特征提取,得到第二语音特征;
采用所述第一语音特征对预设的语音增强模型进行训练,得到训练后的第一语音特征;
计算所述训练后的第一语音特征与所述第二语音特征的相似度,直至所述训练后的第一语音特征与所述第二语音特征的相似度超过预设相似度阈值,得到训练后的语音增强模型。
7.根据权利要求6所述的语音数据的处理方法,其特征在于,语音特征提取的方式,包括:
对语音样本数据进行语音分帧和加窗处理,得到所述语音样本数据的至少两个语音帧;
对各个语音帧分别进行快速傅里叶变换,得到各个语音帧分别对应的各个离散功率谱;
对各个离散功率谱分别进行对数计算,得到各个语音帧分别对应的各个对数功率谱,并将各个对数功率谱作为所述语音样本数据的语音特征。
8.一种语音数据的处理装置,其特征在于,包括:
接收模块,用于接收发送方发送的第一语音数据;
获取模块,用于获取相应的语音增强参数;
处理模块,用于基于获取到的语音增强参数对所述第一语音数据进行语音增强处理,得到第一语音增强数据,并基于所述第一语音数据确定第一语音增强参数;
更新模块,用于采用所述第一语音增强参数对获取到的语音增强参数进行更新,得到更新后的语音增强参数,以用于当接收到发送方发送的第二语音数据,基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理;
发送模块,用于将所述第一语音增强数据发送至接收方。
9.一种电子设备,其特征在于,其包括:
处理器、存储器和总线;
所述总线,用于连接所述处理器和所述存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行上述权利要求1-7中任一项所述的语音数据的处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1-7中任一项所述的语音数据的处理方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910900060.1A CN110648680B (zh) | 2019-09-23 | 语音数据的处理方法、装置、电子设备及可读存储介质 | |
PCT/CN2020/105034 WO2021057239A1 (zh) | 2019-09-23 | 2020-07-28 | 语音数据的处理方法、装置、电子设备及可读存储介质 |
JP2021558880A JP7301154B2 (ja) | 2019-09-23 | 2020-07-28 | 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム |
EP20868291.4A EP3920183A4 (en) | 2019-09-23 | 2020-07-28 | SPEECH DATA PROCESSING METHOD AND DEVICE, ELECTRONIC DEVICE AND READABLE STORAGE MEDIUM |
US17/447,536 US20220013133A1 (en) | 2019-09-23 | 2021-09-13 | Speech data processing method and apparatus, electronic device, and readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910900060.1A CN110648680B (zh) | 2019-09-23 | 语音数据的处理方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110648680A true CN110648680A (zh) | 2020-01-03 |
CN110648680B CN110648680B (zh) | 2024-05-14 |
Family
ID=
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112562704A (zh) * | 2020-11-17 | 2021-03-26 | 中国人民解放军陆军工程大学 | 基于blstm的分频拓谱抗噪语音转换方法 |
WO2021057239A1 (zh) * | 2019-09-23 | 2021-04-01 | 腾讯科技(深圳)有限公司 | 语音数据的处理方法、装置、电子设备及可读存储介质 |
CN112820307A (zh) * | 2020-02-19 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 语音消息处理方法、装置、设备及介质 |
WO2021189979A1 (zh) * | 2020-10-26 | 2021-09-30 | 平安科技(深圳)有限公司 | 语音增强方法、装置、计算机设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010020258A (ja) * | 2008-07-14 | 2010-01-28 | Nippon Telegr & Teleph Corp <Ntt> | 基本周波数軌跡モデルパラメータ抽出装置、基本周波数軌跡モデルパラメータ抽出方法、プログラム及び記録媒体 |
US20120035920A1 (en) * | 2010-08-04 | 2012-02-09 | Fujitsu Limited | Noise estimation apparatus, noise estimation method, and noise estimation program |
CN103069480A (zh) * | 2010-06-14 | 2013-04-24 | 谷歌公司 | 用于语音识别的语音模型和噪声模型 |
CN103650040A (zh) * | 2011-05-16 | 2014-03-19 | 谷歌公司 | 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置 |
CN104318927A (zh) * | 2014-11-04 | 2015-01-28 | 东莞市北斗时空通信科技有限公司 | 一种抗噪声的低速率语音编码方法及解码方法 |
EP2866228A1 (en) * | 2011-02-14 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder comprising a background noise estimator |
CN104823236A (zh) * | 2013-11-07 | 2015-08-05 | 株式会社东芝 | 语音处理系统 |
CN105355199A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于gmm噪声估计的模型组合语音识别方法 |
CN106340304A (zh) * | 2016-09-23 | 2017-01-18 | 桂林航天工业学院 | 一种适用于非平稳噪声环境下的在线语音增强方法 |
CN106971741A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
CN109427340A (zh) * | 2017-08-22 | 2019-03-05 | 杭州海康威视数字技术股份有限公司 | 一种语音增强方法、装置及电子设备 |
KR20190096305A (ko) * | 2019-07-29 | 2019-08-19 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버 |
CN110176245A (zh) * | 2019-05-29 | 2019-08-27 | 贾一焜 | 一种语音降噪系统 |
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010020258A (ja) * | 2008-07-14 | 2010-01-28 | Nippon Telegr & Teleph Corp <Ntt> | 基本周波数軌跡モデルパラメータ抽出装置、基本周波数軌跡モデルパラメータ抽出方法、プログラム及び記録媒体 |
CN103069480A (zh) * | 2010-06-14 | 2013-04-24 | 谷歌公司 | 用于语音识别的语音模型和噪声模型 |
US20120035920A1 (en) * | 2010-08-04 | 2012-02-09 | Fujitsu Limited | Noise estimation apparatus, noise estimation method, and noise estimation program |
EP2866228A1 (en) * | 2011-02-14 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder comprising a background noise estimator |
CN103650040A (zh) * | 2011-05-16 | 2014-03-19 | 谷歌公司 | 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置 |
CN104823236A (zh) * | 2013-11-07 | 2015-08-05 | 株式会社东芝 | 语音处理系统 |
CN104318927A (zh) * | 2014-11-04 | 2015-01-28 | 东莞市北斗时空通信科技有限公司 | 一种抗噪声的低速率语音编码方法及解码方法 |
CN105355199A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于gmm噪声估计的模型组合语音识别方法 |
CN106971741A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
CN106340304A (zh) * | 2016-09-23 | 2017-01-18 | 桂林航天工业学院 | 一种适用于非平稳噪声环境下的在线语音增强方法 |
CN109427340A (zh) * | 2017-08-22 | 2019-03-05 | 杭州海康威视数字技术股份有限公司 | 一种语音增强方法、装置及电子设备 |
CN110176245A (zh) * | 2019-05-29 | 2019-08-27 | 贾一焜 | 一种语音降噪系统 |
KR20190096305A (ko) * | 2019-07-29 | 2019-08-19 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021057239A1 (zh) * | 2019-09-23 | 2021-04-01 | 腾讯科技(深圳)有限公司 | 语音数据的处理方法、装置、电子设备及可读存储介质 |
CN112820307A (zh) * | 2020-02-19 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 语音消息处理方法、装置、设备及介质 |
CN112820307B (zh) * | 2020-02-19 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 语音消息处理方法、装置、设备及介质 |
WO2021189979A1 (zh) * | 2020-10-26 | 2021-09-30 | 平安科技(深圳)有限公司 | 语音增强方法、装置、计算机设备及存储介质 |
CN112562704A (zh) * | 2020-11-17 | 2021-03-26 | 中国人民解放军陆军工程大学 | 基于blstm的分频拓谱抗噪语音转换方法 |
CN112562704B (zh) * | 2020-11-17 | 2023-08-18 | 中国人民解放军陆军工程大学 | 基于blstm的分频拓谱抗噪语音转换方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2022527527A (ja) | 2022-06-02 |
US20220013133A1 (en) | 2022-01-13 |
EP3920183A1 (en) | 2021-12-08 |
WO2021057239A1 (zh) | 2021-04-01 |
EP3920183A4 (en) | 2022-06-08 |
JP7301154B2 (ja) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110164467B (zh) | 语音降噪的方法和装置、计算设备和计算机可读存储介质 | |
CN108198569B (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN106165015B (zh) | 用于促进基于加水印的回声管理的装置和方法 | |
CN109727607B (zh) | 时延估计方法、装置及电子设备 | |
CN106558314B (zh) | 一种混音处理方法和装置及设备 | |
CN109509475B (zh) | 语音识别的方法、装置、电子设备及计算机可读存储介质 | |
CN110556125B (zh) | 基于语音信号的特征提取方法、设备及计算机存储介质 | |
CN113763977A (zh) | 消除回声信号的方法、装置、计算设备和存储介质 | |
CN110827808A (zh) | 语音识别方法、装置、电子设备和计算机可读存储介质 | |
CN112602150A (zh) | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 | |
CN114898762A (zh) | 基于目标人的实时语音降噪方法、装置和电子设备 | |
CN107437412B (zh) | 一种声学模型处理方法、语音合成方法、装置及相关设备 | |
CN111160029A (zh) | 信息的处理方法、装置、电子设备及计算机可读存储介质 | |
WO2021057239A1 (zh) | 语音数据的处理方法、装置、电子设备及可读存储介质 | |
CN110648680B (zh) | 语音数据的处理方法、装置、电子设备及可读存储介质 | |
CN110797008A (zh) | 一种远场语音识别方法、语音识别模型训练方法和服务器 | |
CN114783455A (zh) | 用于语音降噪的方法、装置、电子设备和计算机可读介质 | |
CN111667842B (zh) | 音频信号处理方法及装置 | |
CN110580910B (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN112434714A (zh) | 多媒体识别的方法、装置、存储介质及电子设备 | |
CN110431625B (zh) | 语音检测方法、语音检测装置、语音处理芯片以及电子设备 | |
CN114093379B (zh) | 噪声消除方法及装置 | |
US20240048906A1 (en) | Acoustic echo cancellation system and associated method | |
CN113808606B (zh) | 语音信号处理方法和装置 | |
CN113707134B (zh) | 一种模型训练方法、装置和用于模型训练的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40013080 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |