CN112201229A - 一种语音处理方法、装置及系统 - Google Patents

一种语音处理方法、装置及系统 Download PDF

Info

Publication number
CN112201229A
CN112201229A CN202011073335.8A CN202011073335A CN112201229A CN 112201229 A CN112201229 A CN 112201229A CN 202011073335 A CN202011073335 A CN 202011073335A CN 112201229 A CN112201229 A CN 112201229A
Authority
CN
China
Prior art keywords
voice signal
target
information
client
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011073335.8A
Other languages
English (en)
Other versions
CN112201229B (zh
Inventor
胡正伦
陈江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bigo Technology Pte Ltd
Original Assignee
Bigo Technology Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bigo Technology Pte Ltd filed Critical Bigo Technology Pte Ltd
Priority to CN202011073335.8A priority Critical patent/CN112201229B/zh
Publication of CN112201229A publication Critical patent/CN112201229A/zh
Application granted granted Critical
Publication of CN112201229B publication Critical patent/CN112201229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种语音处理方法、装置及系统,其中,当所述方法应用于客户端中,包括:对采集的语音信号进行降噪处理,生成目标语音信号;获取所述目标语音信号对应的还原信息;将所述还原信息以及所述目标语音信号发送至所述服务器,以由所述服务器根据所述还原信息将所述目标语音信号还原成原始的语音信号,并对所述原始的语音信号进行语音识别。本实施例在语音场景中使用该目标语音信号可以提升客户端的主观音质,同时还可以由服务器还原得到的未失真的语音信号确保服务器的语音识别效果。

Description

一种语音处理方法、装置及系统
技术领域
本申请实施例涉及自然语言处理技术,尤其涉及一种语音处理方法、装置及系统。
背景技术
语音识别(Automatic Speech Recognition,简称ASR)是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转换为相应的文本或命令的技术。随着信息技术的发展,语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音识别技术的应用场景也变得越来越广泛,例如语音识别技术可以应用在字幕添加、识别谈话中的敏感内容、人机交互等场景。
在一些语音场景中,例如语音通信场景或者语音直播场景等,为了提高用户音质,可以使用语音增强技术来提取有用的语音信号,降低噪声信号的干扰。在相关技术中,可以在客户端中集成单通道语音增强(SE)算法来提升音质,但单通道SE算法往往会引起语音失真,导致ASR识别率降低。
发明内容
本申请提供一种语音处理方法、装置及系统,以解决现有技术中在客户端中集成单通道语音增强(SE)算法来提升音质引起的语音失真,导致ASR识别率降低的问题。
第一方面,本申请实施例提供了一种语音处理方法,应用于客户端中,所述方法包括:
对采集的语音信号进行降噪处理,生成目标语音信号;
获取所述目标语音信号对应的还原信息;
将所述还原信息以及所述目标语音信号发送至所述服务器,以由所述服务器根据所述还原信息将所述目标语音信号还原成原始的语音信号,并对所述原始的语音信号进行语音识别。
第二方面,本申请实施例还提供了一种语音处理方法,应用于服务器中,所述方法包括:
接收客户端发送的目标语音信号以及与所述目标语音信号相关的还原信息,其中,所述目标语音信号为所述客户端对采集的语音信号进行降噪处理后生成的信号;
根据所述还原信息将所述目标语音信号还原成原始的语音信号;
对所述原始的语音信号进行语音识别。
第三方面,本申请实施例还提供了一种语音处理系统,所述语音处理系统包括第一客户端和服务器,
所述第一客户端用于对采集的语音信号进行降噪处理,生成目标语音信号,并获取所述目标语音信号对应的还原信息,将所述还原信息以及所述目标语音信号发送至所述服务器;
所述服务器用于根据所述还原信息将所述目标语音信号还原成原始的语音信号,并对所述原始的语音信号进行语音识别。
第四方面,本申请实施例还提供了一种语音处理装置,应用于客户端中,所述装置包括:
降噪模块,用于对采集的语音信号进行降噪处理,生成目标语音信号;
还原信息获取模块,用于获取所述目标语音信号对应的还原信息;
信息发送模块,用于将所述还原信息以及所述目标语音信号发送至所述服务器,以由所述服务器根据所述还原信息将所述目标语音信号还原成原始的语音信号,并对所述原始的语音信号进行语音识别。
第五方面,本申请实施例还提供了一种语音处理装置,应用于服务器中,所述方法包括:
信息接收模块,用于接收客户端发送的目标语音信号以及与所述目标语音信号相关的还原信息,其中,所述目标语音信号为所述客户端对采集的语音信号进行降噪处理后生成的信号;
语音还原模块,用于根据所述还原信息将所述目标语音信号还原成原始的语音信号;
语音识别模块,用于对所述原始的语音信号进行语音识别。
第六方面,本申请实施例还提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的语音处理方法。
第七方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的语音处理方法。
本申请具有如下有益效果:
在本实施例中,客户端可以对采集的语音信号进行降噪处理生成目标语音信号,在语音场景中使用该目标语音信号可以提升主观音质。另外,客户端还可以获取目标语音信号对应的还原信息,并将该还原信息以及目标语音信号发送至服务器,以由服务器根据该还原信息将目标语音信号还原成原始的语音信号,并对原始的语音信号进行语音识别,还原得到的未失真的语音信号可以确保服务器的语音识别效果。
附图说明
图1是本申请实施例一提供的一种语音处理方法实施例的流程图;
图2是本申请实施例二提供的一种语音处理方法实施例的流程图;
图3是本申请实施例二提供的通信框架示意图;
图4是本申请实施例三提供的一种语音处理方法实施例的流程图;
图5是本申请实施例四提供的一种语音处理系统实施例的结构框图;
图6是本申请实施例五提供的一种语音处理装置实施例的结构框图;
图7是本申请实施例六提供的一种语音处理装置实施例的结构框图;
图8是本申请实施例六提供的一种计算设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
实施例一
图1为本申请实施例一提供的一种语音处理方法实施例的流程图,本实施例可以应用于客户端中,本申请可以应用于语音识别的场景,例如,应用于语音审核的场景,本实施例的客户端可以与语音识别服务器进行通信,将语音信号发送给服务器进行语音识别。
本实施例具体可以包括如下步骤:
步骤110,对采集的语音信号进行降噪处理,生成目标语音信号。
在本实施例中,在客户端本地对采集的语音信号进行降噪处理,达到语音增强的目的,而无需将采集的语音信号传输给用于降噪的服务器进行降噪处理,可以降低传输成本以及降低服务器的负载。
在一种实施方式中,步骤110可以包括如下步骤:
步骤110-1,获取采集的语音信号的语音特征信息,并将所述语音特征信息输入至已训练的降噪网络中,其中,所述降噪网络的输出层的激活函数为基于理想比值掩蔽的滤波函数。
在该步骤中,当客户端采集到语音信号以后,可以提取语音信号的声学特征(即语音特征信息),如MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征,然后将语音特征信息输入至降噪网络中进行降噪处理。
在一种实施例中,该降噪网络可以为预先训练的深度神经网络,该降噪网络的输出层的激活函数可以为基于理想比值掩蔽(Ideal Ratio Mask,简称IRM)的滤波函数,以将噪声信号掩蔽,保留语音信号。
在一种实施例中,基于理想比值掩蔽的滤波函数在频域上可以表示为如下公式:
Figure BDA0002715869470000051
其中,t为时间,k为频率,
Figure BDA0002715869470000061
为噪声信号,
Figure BDA0002715869470000062
为没有噪声的语音信号。输入带有噪声的语音数据理想上可分解为Y(t,k)=X(t,k)+N(t,k),期望降噪后的输出为X(t,k),但由于存在估测误差所以表示为
Figure BDA0002715869470000063
Figure BDA0002715869470000064
步骤110-2,获取所述降噪网络对所述语音特征信息进行降噪处理后输出的频域数据。
在该步骤中,降噪网络对每个时频单元进行降噪后输出介于0到1之间的频域数据H(t,k),则所有时频单元的频域数据可以组成降噪语音
Figure BDA0002715869470000065
步骤110-3,将所述频域数据转换成时域信号,作为目标语音信号。
在一种实现中,可以将频域数据
Figure BDA00027158694700000613
经过傅里叶逆变换还原回时域信号
Figure BDA0002715869470000066
作为目标语音信号。
步骤120,获取所述目标语音信号对应的还原信息。
经过降噪的目标语音信号会存在一定程度的失真,造成根据该目标语音信号进行语音识别时的识别率降低。为了解决该问题,在本实施例中,可以获取目标语音信号对应的还原信息,该还原信息用于对失真的目标语音信号进行还原,降低语音信号的失真程度。
在一种实施例中,还原信息在频域上可以为逆滤波函数
Figure BDA0002715869470000067
在时域上等价于无限脉冲响应IIR实现的逆滤波器。在一种实现中,客户端可以通过快速傅里叶逆变换(inversefast fourier transform)将基于理想比值掩蔽的滤波函数变换成时域的逆滤波函数
Figure BDA0002715869470000068
在一种例子中,逆滤波函数
Figure BDA0002715869470000069
可以表示为如下公式:
Figure BDA00027158694700000610
其中,
Figure BDA00027158694700000611
为一个时域单元的频域数据,
Figure BDA00027158694700000612
为同一时域单元的携带噪声信息的语音信号。
在另一种实施例中,客户端还可以直接将基于理想比值掩蔽的滤波函数作为还原信息传递至服务器中,由服务器进行逆滤波处理。
步骤130,将所述还原信息以及所述目标语音信号发送至所述服务器,以由所述服务器根据所述还原信息将所述目标语音信号还原成原始的语音信号,并对所述原始的语音信号进行语音识别。
在该步骤中,客户端获得目标语音信号的还原信息以后,则可以将该还原信息以及目标语音信号一起发送至所述服务器。
对于服务器而言,可以根据该还原信息将目标语音信号还原成原始的语音信号,并对该原始的语音信号进行语音识别,由于原始的语音信号没有失真,因此可以提高语音识别的识别率。
在本实施例中,客户端可以对采集的语音信号进行降噪处理生成目标语音信号,在语音场景中使用该目标语音信号可以提升主观音质。另外,客户端还可以获取目标语音信号对应的还原信息,并将该还原信息以及目标语音信号发送至服务器,以由服务器根据该还原信息将目标语音信号还原成原始的语音信号,并对原始的语音信号进行语音识别,还原得到的未失真的语音信号可以确保服务器的语音识别效果。
实施例二
图2为本申请实施例二提供的一种语音处理方法实施例的流程图,本实施例可以应用于客户端中,本申请可以应用于语音通信的场景,本实施例的客户端可以与用于语音识别的服务器进行通信,还可以与另一个客户端进行通信。
本实施例可以包括如下步骤:
步骤210,对采集的语音信号进行降噪处理,生成目标语音信号。
步骤220,将所述目标语音信号编码后发送至与所述客户端通信的对端客户端。
步骤230,获取所述目标语音信号对应的还原信息。
步骤240,将所述还原信息以及所述目标语音信号发送至所述服务器,以由所述服务器根据所述还原信息将所述目标语音信号还原成原始的语音信号,并对所述原始的语音信号进行语音识别。
例如,如图3的通信框架示意图所示,假设本实施例的客户端为图3中的客户端A,客户端A可以与客户端B进行语音通信,也可以与服务器端进行通信,将语音信号发送至服务器端进行语音识别。客户端A对采集的语音信号进行降噪处理获得目标语音信号以后,一方面,可以对目标语音信号编码后发送至客户端B中,则客户端B接收到目标语音信号以后可以解码播放。另一方面,客户端A还可以获得用于对目标语音信号还原的还原信息
Figure BDA0002715869470000081
并将该还原信息以及目标语音信号传输至服务器端,由服务器根据该还原信息将目标语音信号还原成原始的语音信号,并对原始的语音信号进行语音识别。
在本实施例中,客户端可以对采集的语音信号进行降噪处理生成目标语音信号,在语音通信场景中将该目标语音信号发送至通信对端的客户端,可以提升对端客户端播放该目标语音信号的主观音质。另外,客户端还可以获取目标语音信号对应的还原信息,并将该还原信息以及目标语音信号发送至服务器,以由服务器根据该还原信息将目标语音信号还原成原始的语音信号,并对原始的语音信号进行语音识别,还原得到的未失真的语音信号可以确保服务器的语音识别效果。
实施例三
图4为本申请实施例三提供的一种语音处理方法实施例的流程图,本实施例可以应用于服务器中,本申请可以应用于语音识别的场景,具体可以包括如下步骤:
步骤410,接收客户端发送的目标语音信号以及与所述目标语音信号相关的还原信息,其中,所述目标语音信号为所述客户端对采集的语音信号进行降噪处理后生成的信号。
步骤420,根据所述还原信息将所述目标语音信号还原成原始的语音信号。
在该步骤中,服务器接收到目标语音信号以及与目标语音信号相关的还原信息以后,可以根据该还原信息将目标语音信号还原成原始的语音信号。
在一种实施方式中,还原信息可以为基于理想比值掩蔽的滤波函数对应的逆滤波函数,步骤420进一步可以包括如下步骤:
根据所述逆滤波函数以及所述目标语音信号,计算还原后的原始的语音信号。
在该实施例中,服务器接收到逆滤波函数以后,可以采用该逆滤波函数对目标语音信号进行还原,获得原始的携带噪声信号的语音信号。
在一种实现中,可以采用如下公式将目标语音信号还原成原始的语音信号:
Figure BDA0002715869470000091
其中,
Figure BDA0002715869470000092
为目标语音信号,
Figure BDA0002715869470000093
为原始的语音信号,
Figure BDA0002715869470000094
为逆滤波函数。
在另一种实施方式中,还原信息可以为基于理想比值掩蔽的滤波函数,步骤420进一步可以包括如下步骤:
确定所述滤波函数对应的逆滤波函数;
根据所述逆滤波函数以及所述目标语音信号,计算还原后的原始的语音信号。
在该实施例中,服务器接收到滤波函数H(t,k)以后,可以对通过快速傅里叶逆变换将基于理想比值掩蔽的滤波函数变换成时域的逆滤波函数
Figure BDA0002715869470000101
然后采用该逆滤波函数对目标语音信号进行还原,生成原始的语音信号。
在一种实现中,可以采用如下公式将目标语音信号还原成原始的语音信号:
Figure BDA0002715869470000102
步骤430,对所述原始的语音信号进行语音识别。
在本实施例中,服务器对语音信号进行语音识别前,先将语音信号还原成原始的未失真的语音信号,然后对原始的语音信号进行语音识别可以提高识别率。
实施例四
图5为本申请实施例四提供的一种语音处理系统实施例的结构框图,如图5所示,所述语音处理系统包括第一客户端10和服务器20,
所述第一客户端10用于对采集的语音信号进行降噪处理,生成目标语音信号,并获取所述目标语音信号对应的还原信息,将所述还原信息以及所述目标语音信号发送至所述服务器;
所述服务器20用于根据所述还原信息将所述目标语音信号还原成原始的语音信号,并对所述原始的语音信号进行语音识别。
在一种实施方式中,如图5所示,所述系统还可以包括与所述第一客户端10通信的第二客户端30,
所述第一客户端10还用于将所述目标语音信号编码后发送至所述第二客户端中;
所述第二客户端30用户对所述目标语音信号进行解码并播放。
在一种实施方式中,所述第一客户端10具体用于:
获取采集的语音信号的语音特征信息,并将所述语音特征信息输入至已训练的降噪网络中,其中,所述降噪网络的输出层的激活函数为基于理想比值掩蔽的滤波函数;
获取所述降噪网络对所述语音特征信息进行降噪处理后输出的频域数据;
将所述频域数据转换成时域信号,作为目标语音信号。
在一种实施方式中,所述还原信息为所述滤波函数,或者,所述还原信息为所述滤波函数的逆滤波函数。
在一种实施方式中,当所述还原信息为基于理想比值掩蔽的滤波函数时,所述服务器20具体用于:
确定所述滤波函数对应的逆滤波函数;
根据所述逆滤波函数以及所述目标语音信号,计算还原后的原始的语音信号。
在一种实施方式中,当所述还原信息为基于理想比值掩蔽的滤波函数对应的逆滤波函数,所述服务器20具体用于:
根据所述逆滤波函数以及所述目标语音信号,计算还原后的原始的语音信号。
需要说明的是,本申请实施例所提供的上述语音处理系统可执行本申请任意实施例所提供的语音处理方法,具备执行方法相应的功能模块和有益效果。
实施例五
图6为本申请实施例五提供的一种语音处理装置实施例的结构框图,该语音处理装置可以应用于客户端中,可以包括如下模块:
降噪模块610,用于对采集的语音信号进行降噪处理,生成目标语音信号;
还原信息获取模块620,用于获取所述目标语音信号对应的还原信息;
信息发送模块630,用于将所述还原信息以及所述目标语音信号发送至所述服务器,以由所述服务器根据所述还原信息将所述目标语音信号还原成原始的语音信号,并对所述原始的语音信号进行语音识别。
在一种实施方式中,所述装置还包括:
通信模块,用于将所述目标语音信号编码后发送至与所述客户端通信的对端客户端。
在一种实施方式中,所述降噪模块610具体用于:
获取采集的语音信号的语音特征信息,并将所述语音特征信息输入至已训练的降噪网络中,其中,所述降噪网络的输出层的激活函数为基于理想比值掩蔽的滤波函数;
获取所述降噪网络对所述语音特征信息进行降噪处理后输出的频域数据;
将所述频域数据转换成时域信号,作为目标语音信号。
在一种实施方式中,所述还原信息为所述滤波函数,或者,所述还原信息为所述滤波函数的逆滤波函数。
需要说明的是,本申请实施例所提供的上述语音处理装置可执行本申请任意实施例所提供的语音处理方法,具备执行方法相应的功能模块和有益效果。
实施例六
图7为本申请实施例六提供的一种语音处理装置实施例的结构框图,该语音处理装置可以应用于服务器中,可以包括如下模块:
信息接收模块710,用于接收客户端发送的目标语音信号以及与所述目标语音信号相关的还原信息,其中,所述目标语音信号为所述客户端对采集的语音信号进行降噪处理后生成的信号;
语音还原模块720,用于根据所述还原信息将所述目标语音信号还原成原始的语音信号;
语音识别模块730,用于对所述原始的语音信号进行语音识别。
在一种实施方式中,所述还原信息为基于理想比值掩蔽的滤波函数,所述语音还原模块720具体用于:
确定所述滤波函数对应的逆滤波函数;
根据所述逆滤波函数以及所述目标语音信号,计算还原后的原始的语音信号。
在一种实施方式中,所述还原信息为基于理想比值掩蔽的滤波函数对应的逆滤波函数,所述语音还原模块720具体用于:
根据所述逆滤波函数以及所述目标语音信号,计算还原后的原始的语音信号。
需要说明的是,本申请实施例所提供的上述语音处理装置可执行本申请任意实施例所提供的语音处理方法,具备执行方法相应的功能模块和有益效果。
实施例七
图8为本申请实施例四提供的一种计算设备的结构示意图,该计算设备可以包括服务器设备,或者包括客户端设备,如图8所示,该计算设备包括处理器810、存储器820、输入装置830和输出装置840;计算设备中处理器810的数量可以是一个或多个,图8中以一个处理器810为例;计算设备中的处理器810、存储器820、输入装置830和输出装置840可以通过总线或其他方式连接,图8中以通过总线连接为例。
存储器820作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的语音处理方法对应的程序指令/模块。处理器810通过运行存储在存储器820中的软件程序、指令以及模块,从而执行计算设备的各种功能应用以及数据处理,即实现上述的方法。
存储器820可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器820可进一步包括相对于处理器810远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置830可用于接收输入的数字或字符信息,以及产生与计算设备的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。
实施例八
本申请实施例八还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算设备的处理器执行时用于执行实施例一至实施例三中任一实施例中的方法。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本申请可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (13)

1.一种语音处理方法,其特征在于,应用于客户端中,所述方法包括:
对采集的语音信号进行降噪处理,生成目标语音信号;
获取所述目标语音信号对应的还原信息;
将所述还原信息以及所述目标语音信号发送至所述服务器,以由所述服务器根据所述还原信息将所述目标语音信号还原成原始的语音信号,并对所述原始的语音信号进行语音识别。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述目标语音信号编码后发送至与所述客户端通信的对端客户端。
3.根据权利要求1或2所述的方法,其特征在于,所述对采集的语音信号进行降噪处理,生成目标语音信号,包括:
获取采集的语音信号的语音特征信息,并将所述语音特征信息输入至已训练的降噪网络中,其中,所述降噪网络的输出层的激活函数为基于理想比值掩蔽的滤波函数;
获取所述降噪网络对所述语音特征信息进行降噪处理后输出的频域数据;
将所述频域数据转换成时域信号,作为目标语音信号。
4.根据权利要求3所述的方法,其特征在于,所述还原信息为所述滤波函数,或者,所述还原信息为所述滤波函数的逆滤波函数。
5.一种语音处理方法,其特征在于,应用于服务器中,所述方法包括:
接收客户端发送的目标语音信号以及与所述目标语音信号相关的还原信息,其中,所述目标语音信号为所述客户端对采集的语音信号进行降噪处理后生成的信号;
根据所述还原信息将所述目标语音信号还原成原始的语音信号;
对所述原始的语音信号进行语音识别。
6.根据权利要求5所述的方法,其特征在于,所述还原信息为基于理想比值掩蔽的滤波函数,所述根据所述还原信息将所述目标语音信号还原成原始的语音信号包括:
确定所述滤波函数对应的逆滤波函数;
根据所述逆滤波函数以及所述目标语音信号,计算还原后的原始的语音信号。
7.根据权利要求5所述的方法,其特征在于,所述还原信息为基于理想比值掩蔽的滤波函数对应的逆滤波函数,所述根据所述还原信息将所述目标语音信号还原成原始的语音信号包括:
根据所述逆滤波函数以及所述目标语音信号,计算还原后的原始的语音信号。
8.一种语音处理系统,其特征在于,所述语音处理系统包括第一客户端和服务器,
所述第一客户端用于对采集的语音信号进行降噪处理,生成目标语音信号,并获取所述目标语音信号对应的还原信息,将所述还原信息以及所述目标语音信号发送至所述服务器;
所述服务器用于根据所述还原信息将所述目标语音信号还原成原始的语音信号,并对所述原始的语音信号进行语音识别。
9.根据权利要求8所述的系统,其特征在于,所述系统还包括与所述第一客户端通信的第二客户端,
所述第一客户端还用于将所述目标语音信号编码后发送至所述第二客户端中;
所述第二客户端用户对所述目标语音信号进行解码并播放。
10.一种语音处理装置,其特征在于,应用于客户端中,所述装置包括:
降噪模块,用于对采集的语音信号进行降噪处理,生成目标语音信号;
还原信息获取模块,用于获取所述目标语音信号对应的还原信息;
信息发送模块,用于将所述还原信息以及所述目标语音信号发送至所述服务器,以由所述服务器根据所述还原信息将所述目标语音信号还原成原始的语音信号,并对所述原始的语音信号进行语音识别。
11.一种语音处理装置,其特征在于,应用于服务器中,所述方法包括:
信息接收模块,用于接收客户端发送的目标语音信号以及与所述目标语音信号相关的还原信息,其中,所述目标语音信号为所述客户端对采集的语音信号进行降噪处理后生成的信号;
语音还原模块,用于根据所述还原信息将所述目标语音信号还原成原始的语音信号;
语音识别模块,用于对所述原始的语音信号进行语音识别。
12.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4和/或5-7中任一所述的方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4和/或5-7中任一所述的方法。
CN202011073335.8A 2020-10-09 2020-10-09 一种语音处理方法、装置及系统 Active CN112201229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011073335.8A CN112201229B (zh) 2020-10-09 2020-10-09 一种语音处理方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011073335.8A CN112201229B (zh) 2020-10-09 2020-10-09 一种语音处理方法、装置及系统

Publications (2)

Publication Number Publication Date
CN112201229A true CN112201229A (zh) 2021-01-08
CN112201229B CN112201229B (zh) 2024-05-28

Family

ID=74012668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011073335.8A Active CN112201229B (zh) 2020-10-09 2020-10-09 一种语音处理方法、装置及系统

Country Status (1)

Country Link
CN (1) CN112201229B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980047178A (ko) * 1996-12-14 1998-09-15 윤덕용 음성 인식기에서 스펙트럼 크기의 정규화와 켑스트럼 변환을 통한 잡음 처리방법
JP2007147732A (ja) * 2005-11-24 2007-06-14 Japan Advanced Institute Of Science & Technology Hokuriku 雑音低減システム及び雑音低減方法
CN107452389A (zh) * 2017-07-20 2017-12-08 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
CN109523999A (zh) * 2018-12-26 2019-03-26 中国科学院声学研究所 一种提升远场语音识别的前端处理方法和系统
US20190355354A1 (en) * 2018-05-21 2019-11-21 Baidu Online Network Technology (Beijing) Co., Ltd . Method, apparatus and system for speech interaction
CN111292762A (zh) * 2018-12-08 2020-06-16 南京工业大学 一种基于深度学习的单通道语音分离方法
CN111696532A (zh) * 2020-06-17 2020-09-22 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备以及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980047178A (ko) * 1996-12-14 1998-09-15 윤덕용 음성 인식기에서 스펙트럼 크기의 정규화와 켑스트럼 변환을 통한 잡음 처리방법
JP2007147732A (ja) * 2005-11-24 2007-06-14 Japan Advanced Institute Of Science & Technology Hokuriku 雑音低減システム及び雑音低減方法
CN107452389A (zh) * 2017-07-20 2017-12-08 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
US20190355354A1 (en) * 2018-05-21 2019-11-21 Baidu Online Network Technology (Beijing) Co., Ltd . Method, apparatus and system for speech interaction
CN111292762A (zh) * 2018-12-08 2020-06-16 南京工业大学 一种基于深度学习的单通道语音分离方法
CN109523999A (zh) * 2018-12-26 2019-03-26 中国科学院声学研究所 一种提升远场语音识别的前端处理方法和系统
CN111696532A (zh) * 2020-06-17 2020-09-22 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YONG XU, ET AL.: "A Regression Approach to Speech Enhancement Based on Deep Neural Networks", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》, vol. 23, no. 1, XP055567335, DOI: 10.1109/TASLP.2014.2364452 *
时文华等: "联合深度编解码网络和时频掩蔽估计的单通道语音增强", 《声学学报》, vol. 45, no. 3 *

Also Published As

Publication number Publication date
CN112201229B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
Li et al. On the importance of power compression and phase estimation in monaural speech dereverberation
Lin et al. Speech enhancement using multi-stage self-attentive temporal convolutional networks
CN113436643B (zh) 语音增强模型的训练及应用方法、装置、设备及存储介质
US8615394B1 (en) Restoration of noise-reduced speech
CN113345460B (zh) 音频信号处理方法、装置、设备及存储介质
CN112002307B (zh) 一种语音识别方法和装置
CN111883154A (zh) 回声消除方法及装置、计算机可读的存储介质、电子装置
CN117219107B (zh) 一种回声消除模型的训练方法、装置、设备及存储介质
JP2024502287A (ja) 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム
CN114333892A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN114333893A (zh) 一种语音处理方法、装置、电子设备和可读介质
WO2024017110A1 (zh) 语音降噪方法、模型训练方法、装置、设备、介质及产品
CN113299306A (zh) 回声消除方法、装置、电子设备及计算机可读存储介质
Skariah et al. Review of speech enhancement methods using generative adversarial networks
CN111028857A (zh) 基于深度学习的多通道音视频会议降噪的方法及系统
CN112201229B (zh) 一种语音处理方法、装置及系统
CN114333891B (zh) 一种语音处理方法、装置、电子设备和可读介质
CN117746874A (zh) 一种音频数据处理方法、装置以及可读存储介质
KR102505653B1 (ko) 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치
CN117153178B (zh) 音频信号处理方法、装置、电子设备和存储介质
CN113571080B (zh) 语音增强方法、装置、设备及存储介质
WO2022215199A1 (ja) 情報処理装置、出力方法、及び出力プログラム
CN117935825A (zh) 基于超声波感知的交互不受限语音增强方法、系统及终端
Ali et al. Augmentation through Laundering Attacks for Audio Spoof Detection
Yu et al. Neuralecho: Hybrid of Full-Band and Sub-Band Recurrent Neural Network For Acoustic Echo Cancellation and Speech Enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant