CN111063367A - 语音增强方法、相关设备及可读存储介质 - Google Patents

语音增强方法、相关设备及可读存储介质 Download PDF

Info

Publication number
CN111063367A
CN111063367A CN201911283959.XA CN201911283959A CN111063367A CN 111063367 A CN111063367 A CN 111063367A CN 201911283959 A CN201911283959 A CN 201911283959A CN 111063367 A CN111063367 A CN 111063367A
Authority
CN
China
Prior art keywords
voice
noise
played
target area
playing end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911283959.XA
Other languages
English (en)
Other versions
CN111063367B (zh
Inventor
马桂林
许震洪
陶然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Suzhou Technology Co Ltd
Original Assignee
Iflytek Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek Suzhou Technology Co Ltd filed Critical Iflytek Suzhou Technology Co Ltd
Priority to CN201911283959.XA priority Critical patent/CN111063367B/zh
Publication of CN111063367A publication Critical patent/CN111063367A/zh
Application granted granted Critical
Publication of CN111063367B publication Critical patent/CN111063367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mechanical Engineering (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种语音增强方法、相关设备及可读存储介质,获取语音播放端所处环境的噪音空间分布特征;根据噪音空间分布特征确定语音播放端所处环境噪音最小的目标区域,获取待播放语音后,将待播放语音的声像调整到目标区域。由于人耳天然具有空间反掩蔽能力,也就是说,即使周围噪音很大,只要噪音声像与语音声像能区分开,人就能够分别接收不同声像的声音,因此,本申请中,目标区域噪音最小,将待播放语音的声像调整到目标区域,对语音的影响最小,因此可以使语音播放端播放的语音被接听者听清。

Description

语音增强方法、相关设备及可读存储介质
技术领域
本申请涉及语音处理技术领域,更具体的说,是涉及一种语音增强方法、相关设备及可读存储介质。
背景技术
语音不仅是人与人之间进行信息交流最直接、最方便和最有效的工具,而且也是人与机器之间进行通信的重要工具。在不同场景中,语音总是会受到外界环境噪音的干扰,这些噪音包括从周围环境、传输媒介中引入的噪音、通信设备内部电噪音乃至其他说话人的声音等。这些噪音的干扰会使语音播放端的语音成为受噪音污染的语音,当噪音的干扰严重时,语音播放端的语音将完全淹没到噪音中,无法被语音接听者听清。
以汽车场景为例,随着汽车行业的发展,汽车已经成为每个家庭必不可少的交通工具,伴随着消费升级、车联网的快速推进以及5G的普及,汽车也随之变得更加智能化和人性化,车载信息娱乐系统逐渐成为各种车型的基本配置。用户可以通过车载信息娱乐系统实现语音通话。然而,车内环境中存在的噪音(如,胎噪、引擎噪音、其他乘客的声音等),往往导致汽车端接收的语音无法被语音接听者听清。
因此,如何使在语音播放端播放的语音被语音接听者听清,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于上述问题,本申请提供一种语音增强方法、相关设备及可读存储介质。具体方案如下:
一种语音增强方法,包括:
获取语音播放端所处环境的噪音空间分布特征;
根据所述噪音空间分布特征确定目标区域,所述目标区域为所述语音播放端所处环境噪音最小的区域;
获取待播放语音;
将所述待播放语音的声像调整到所述目标区域。
可选地,所述根据所述噪音空间分布特征确定目标区域,所述目标区域为所述语音播放端所处环境噪音最小的区域,包括:
确定所述语音播放端所处环境的待播放语音区域,所述待播放语音区域包括多个子区域;
根据所述噪音空间分布特征,确定每个所述子区域的噪音大小;
确定噪音最小的子区域为所述目标区域。
可选地,所述获取待播放语音,包括:
获取所述语音播放端接收的由语音发送端传输的第一语音;
确定所述第一语音为所述待播放语音。
可选地,所述获取待播放语音,包括:
获取所述语音播放端接收的由语音发送端传输的第一语音;
获取所述目标区域的噪音频率谱;
根据所述目标区域的噪音频率谱对所述第一语音进行补偿处理,得到第二语音;
确定所述第二语音为所述待播放语音。
可选地,所述根据所述目标区域的噪音频率谱对所述第一语音进行补偿处理,得到第二语音,包括:
基于对所述第一语音进行补偿处理后的语音部分响度与所述第一语音的部分响度差异最小的准则,以及,对所述第一语音进行补偿处理后的语音可懂度高于所述第一语音的语音可懂度的准则,根据所述目标区域的噪音频率谱对所述第一语音进行补偿处理,得到第二语音。
可选地,所述将待播放语音的声像调整到所述目标区域,包括:
获取与所述目标区域对应的各个扬声器的预置参数;
根据所述各个扬声器的预置参数对所述语音播放端所处环境内设置的各个扬声器进行参数配置,参数配置完成的扬声器输出的所述待播放语音的声像为所述目标区域。
可选地,所述将待播放语音的声像调整到所述目标区域,包括:
获取与所述目标区域对应的标定频响曲线;
基于所述标定频响曲线,对所述语音播放端所处环境内设置的各个扬声器进行参数调整,使通过参数调整后的各个扬声器输出的所述待播放语音的声像为所述目标区域。
可选地,所述将待播放语音的声像调整到所述目标区域,包括:
对所述待播放语音的左右声道的时延以及幅度进行调整,使通过所述语音播放端所处环境内设置的各个扬声器输出的调整后的语音的声像为所述目标区域。
可选地,在所述将待播放语音的声像调整到所述目标区域之后,所述方法还包括:
获取所述语音播放端待传输至所述语音发送端的第三语音;
获取所述第一语音中包含的噪音的特征;
根据所述第一语音中包含的噪音的特征确定所述语音发送端对应的标定噪声频率谱;
根据所述标定噪声频率谱对所述第三语音进行补偿处理,得到第四语音;
将所述第四语音传输至所述语音发送端。
可选地,所述根据所述标定噪声频率谱对所述第三语音进行补偿处理,得到第四语音,包括:
基于对所述第三语音进行补偿处理后的语音部分响度与所述第三语音的部分响度差异最小的准则,以及,对所述第三语音进行补偿处理后的语音可懂度高于所述第三语音的语音可懂度的准则,根据所述标定噪声频率谱对所述第三语音进行补偿处理,得到第四语音。
一种语音增强装置,包括:
噪音空间分布特征获取单元,用于获取语音播放端所处环境的噪音空间分布特征;
目标区域确定单元,用于根据所述噪音空间分布特征确定目标区域,所述目标区域为所述语音播放端所处环境噪音最小的区域;
待播放语音获取单元,用于获取待播放语音;
调整单元,用于将所述待播放语音的声像调整到所述目标区域。
可选地,所述目标区域确定单元,包括:
待播放语音区域确定单元,用于确定所述语音播放端所处环境的待播放语音区域,所述待播放语音区域包括多个子区域;
噪音大小确定单元,用于根据所述噪音空间分布特征,确定每个所述子区域的噪音大小;
目标区域确定子单元,用于确定噪音最小的子区域为所述目标区域。
可选地,所述待播放语音获取单元,包括:
第一语音获取单元,用于获取所述语音播放端接收的由语音发送端传输的第一语音;
第一待播放语音确定单元,用于确定所述第一语音为所述待播放语音。
可选地,所述待播放语音获取单元,包括:
第一语音获取单元,用于获取所述语音播放端接收的由语音发送端传输的第一语音;
噪音频率谱获取单元,用于获取所述目标区域的噪音频率谱;
第二语音生成单元,用于根据所述目标区域的噪音频率谱对所述第一语音进行补偿处理,得到第二语音;
第二待播放语音确定单元,用于确定所述第二语音为所述待播放语音。
可选地,所述第二语音生成单元,具体用于:
基于对所述第一语音进行补偿处理后的语音部分响度与所述第一语音的部分响度差异最小的准则,以及,对所述第一语音进行补偿处理后的语音可懂度高于所述第一语音的语音可懂度的准则,根据所述目标区域的噪音频率谱对所述第一语音进行补偿处理,得到第二语音。
可选地,所述调整单元,包括:
预置参数获取单元,用于获取与所述目标区域对应的各个扬声器的预置参数;
参数配置单元,用于根据所述各个扬声器的预置参数对所述语音播放端所处环境内设置的各个扬声器进行参数配置,参数配置完成的扬声器输出的所述待播放语音的声像为所述目标区域。
可选地,所述调整单元,包括:
标定频响曲线获取单元,用于获取与所述目标区域对应的标定频响曲线;
参数调整单元,用于基于所述标定频响曲线,对所述语音播放端所处环境内设置的各个扬声器进行参数调整,使通过参数调整后的各个扬声器输出的所述待播放语音的声像为所述目标区域。
可选地,所述调整单元,包括:
待播放语音调整单元,用于对所述待播放语音的左右声道的时延以及幅度进行调整,使通过所述语音播放端所处环境内设置的各个扬声器输出的调整后的语音的声像为所述目标区域。
可选地,所述方法还包括:
第三语音获取单元,用于在所述将待播放语音的声像调整到所述目标区域之后,获取所述语音播放端待传输至所述语音发送端的第三语音;
噪音特征获取单元,用于获取所述第一语音中包含的噪音的特征;
标定噪声频率谱确定单元,用于根据所述第一语音中包含的噪音的特征确定所述语音发送端对应的标定噪声频率谱;
第四语音生成单元,用于根据所述标定噪声频率谱对所述第三语音进行补偿处理,得到第四语音;
传输单元,用于将所述第四语音传输至所述语音发送端。
可选地,所述第四语音生成单元,具体用于:
基于对所述第三语音进行补偿处理后的语音部分响度与所述第三语音的部分响度差异最小的准则,以及,对所述第三语音进行补偿处理后的语音可懂度高于所述第三语音的语音可懂度的准则,根据所述标定噪声频率谱对所述第三语音进行补偿处理,得到第四语音。
一种语音增强系统,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的语音增强方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的语音增强方法的各个步骤。
借由上述技术方案,本申请公开了一种语音增强方法、相关设备及可读存储介质,获取语音播放端所处环境的噪音空间分布特征;根据噪音空间分布特征确定语音播放端所处环境噪音最小的目标区域,获取待播放语音后,将待播放语音的声像调整到目标区域。由于人耳天然具有空间反掩蔽能力,也就是说,即使周围噪音很大,只要噪音声像与语音声像能区分开,人就能够分别接收不同声像的声音,因此,本申请中,目标区域噪音最小,将待播放语音的声像调整到目标区域,对语音的影响最小,因此可以使语音播放端播放的语音被接听者听清。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的一种语音增强方法的流程示意图;
图2为本申请实施例公开的一种扬声器阵列在车内的布局示意图;
图3为本申请实施例公开的一种麦克风阵列在车内的布局示意图;
图4为本申请实施例公开的一种车辆前排区域划分示意图;
图5为本申请实施例公开的一种语音增强装置结构示意图;
图6为本申请实施例公开的一种语音增强系统的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
语音增强是指当语音被各种各样的噪音干扰、甚至淹没后,从噪音背景中提取有用的语音,抑制、降低噪音干扰的技术。现有最常用的语音增强方法是通过语音降噪提高语音的信噪比,例如单通道语音降噪、麦克风阵列语音降噪等。
上述语音增强方法可以语音中的噪音尽可能去除,这样使得传输到语音播放端的语音比较干净。但是,即便采用了上述语音增强方法对语音通话两端的语音都进行了处理,都只能对两端传输出去的语音的噪音干扰进行处理,语音播放端在播放接收的语音时,依然会受到所处环境的噪音干扰,导致语音播放端的语音无法被语音接听者听清。
所有的声音都由一定的频谱组成,如果可以找到一种声音,其频谱与所要消除的噪音完全一样,只是相位刚好相反(相差180°),就可以将该噪音完全抵消掉。基于此,本领域技术人员提出一种主动降噪技术。目前,主动降噪技术已在实际生产生活中得到应用。
基于以上,为了使语音播放端的语音被语音接听者听清,本案发明人进行研究,起初的思路为:
采用主动降噪技术对语音播放端进行降噪处理。发明人尝试采用主动降噪技术用来消除车内环境中的引擎噪音和胎噪,但是主动降噪不能完全去除噪音,同时车内环境中还存在其他复杂的噪音,导致汽车端接收的语音依然无法被语音接听者听清,而且,主动降噪技术成本较高,因此,采用主动降噪技术对语音播放端进行降噪处理并不能保证语音播放端的语音被语音接听者听清。
鉴于上述思路存在的问题,本案发明人进行了深入研究,最终提出了一种语音增强方法,该方法能够对语音播放端的语音的声像进行调整,使语音播放端的语音被语音接听者听清。接下来,通过以下实施例对本申请提供的语音增强方法进行介绍。
需要说明的是,本申请中提出的语音增强方法适用于各种语音通信场景(比如,汽车内的语音通信、餐厅内的语音通信、车站内的语音通信等),该方法可以应用于带有语音通信功能的智能设备或系统(比如,智能手机、耳机、车载音频系统等),本申请实施例对此不作具体限定。
请参阅图1,图1为本申请实施例公开的一种语音增强方法的流程示意图,该方法可以包括:
S101:获取语音播放端所处环境的噪音空间分布特征。
所述语音播放端可以为带有语音通信功能的智能设备或系统(比如,智能手机、耳机、车载音频系统等),所述语音播放端所处环境可以为车内、餐厅或者其他空间。语音播放端所处环境的噪音空间分布特征可以用语音播放端所处环境各个区域的噪音能量大小进行表征。在本申请中,语音播放端所处环境的噪音空间分布特征可以通过各种方式获取,作为一种可实施方式,可以通过在语音播放端所处环境不同位置设置的麦克风,获取语音播放端所处环境的噪音空间分布特征。
具体的,语音播放端所处环境中的各个麦克风采集环境音频信号,并将环境音频信号发送给处理器,由处理器对麦克风采集的环境音频信号进行处理得到环境音频信号在噪音段的能量大小,形成语音播放端所处环境的噪音空间分布特征。
以语音播放端所处环境为车内为例,车内通常在不同位置设置有多个扬声器,多个扬声器可以形成扬声器阵列,如图2所示,图2为本申请实施例公开的一种扬声器阵列在车内的布局示意图。在图2中,扬声器阵列所包含的各个扬声器设置于车门,其中,低频扬声器设置于车门内侧偏下方,高频扬声器设置于车辆A、B柱处。同时,车内通常在不同位置安装多个麦克风,多个麦克风可以形成麦克风阵列,如图3所示,图3为本申请实施例公开的一种麦克风阵列在车内的布局示意图。在图3中,麦克风阵列包含4个麦克风,4个麦克风设置在主驾驶位车座头枕位置处,可以通过在主驾驶位车座头枕处设置的麦克风阵列,获取语音播放端所处环境的噪音空间分布特征。
S102:根据所述噪音空间分布特征确定目标区域,所述目标区域为所述语音播放端所处环境噪音最小的区域。
由于人耳天然具有空间反掩蔽能力,也就是说,即使周围噪音很大,只要噪音声像与语音声像能区分开,人就能够分别接收不同声像的声音,因此,在本申请中,将待播放语音的声像调整到所述噪音最小的区域进行播放,相对于将播放语音在语音播放端的其他区域进行播放,对语音的影响最小,语音接听者能够听得更清楚。因此,在本申请中,需要根据所述噪音空间分布特征确定出噪音最小的区域。
S103:获取待播放语音。
在本申请中,可以从语音播放端的处理器中获取待播放语音。
S104:将待播放语音的声像调整到所述目标区域。
在本申请中,可以通过多种方式,使待播放语音的声像在目标区域,具体方式将通过后续实施例进行说明,本实施例不再详述。
本实施例公开了一种语音增强方法,该方法通过获取语音播放端所处环境的噪音空间分布特征;根据噪音空间分布特征确定语音播放端所处环境噪音最小的目标区域,获取待播放语音后,将待播放语音的声像调整到目标区域。由于人耳天然具有空间反掩蔽能力,也就是说,即使周围噪音很大,只要噪音声像与语音声像能区分开,人就能够分别接收不同声像的声音,因此,本申请中,目标区域噪音最小,将待播放语音的声像调整到目标区域,对语音的影响最小,因此可以使语音播放端播放的语音被接听者听清。
需要说明的是,一般情况下,语音播放端所处区域都会有一个适合播放语音的区域,对于这个区域之外的区域,要求语音清晰播放的需求较小,因此,在本申请中,公开了一种根据噪音空间分布特征确定目标区域的实现方式,该方式可以包括如下步骤:
S201:确定所述语音播放端所处环境的待播放语音区域,所述待播放语音区域包括多个子区域。
在本申请中,所述语音播放端所处环境的待播放语音区域,为语音播放端所处环境中适合播放语音的区域,待播放语音区域可以为语音播放端所处环境中整个空间的部分区域,作为一种可实施方式,待播放语音区域可以为语音接听者所在位置对应的区域,以语音播放端所处环境为车内为例,可以确定待播放语音区域为车辆前排,以语音播放端所处环境为餐厅为例,可以确定待播放语音区域为餐桌区域等,对此,本申请不进行任何限定。
在本申请中,可以将待播放语音区域进一步划分为子区域,为了便于理解,以语音播放端所处环境为车内、待播放语音区域为车辆前排为例,可以将车辆前排进一步划分为上下左右四个子区域。如图4所示,图4为本申请实施例公开的一种车辆前排区域划分示意图,由图4可以看出,车辆前排A可以进一步划分为A1、A2、A3、A4四个子区域,其中A1可以为上区域,A2为下区域,A3为左区域,A4为右区域。
S202:根据所述噪音空间分布特征,确定每个所述子区域的噪音大小。
在本申请中,可以根据噪音空间分布特征可以确定出每个子区域的噪音空间分布特征,根据每个子区域的噪音空间分布特征可以计算出每个子区域的噪音大小。由于每个子区域的噪音空间分布特征包括该子区域内不同位置对应的噪音能量大小,因此,本申请中,可以将每个子区域内不同位置对应的噪音能量进行诸如求和的方式计算出每个子区域的噪音大小,对此,本申请不进行任何限定。
S203:确定噪音最小的子区域为所述目标区域。
噪音最小的子区域即为语音播放端所处环境中噪音干扰最小的区域,该子区域可以作为最终确定的语音声像。
在本申请中,待播放语音可以为由语音发送端传输至语音播放端的原始语音,也可以为对原始语音进行处理之后生成的新的语音,因此,本申请还公开了获取待播放语音的方式,具体如下:
作为一种可实施方式,本申请中可以获取所述语音播放端接收的由语音发送端传输的第一语音,确定所述第一语音为所述待播放语音。
需要说明的是,由于语音播放端所处环境存在噪声不均匀的情况,将第一语音的声像调整到所述目标区域,已经能够达到使在语音播放端播放的语音被语音接听者听清的目的,但是语音播放端所处环境完全没有噪音的位置是不存在的,为了进一步提升语音接听者的听音体验,使语音听起来可懂、轻松,本申请中还可以对由语音发送端传输的原始语音做处理,生成新的语音,将该新的语音作为待播放的语音。
因此,本申请中还公开了获取待播放语音的另一种实现方式,该方式包括如下步骤:
S301:获取由语音发送端传输至所述语音播放端的第一语音。
在本申请中,可以从语音播放端的处理器中获取由语音发送端传输至所述语音播放端的第一语音。
S302:获取所述目标区域的噪音频率谱。
在本申请中,由于已经获取语音播放端所处环境的噪音空间分布特征,因此,可以根据语音播放端所处环境的噪音空间分布特征获取目标区域的噪音频率谱,噪音频率谱能够指示噪音频率与噪音大小之间的关系。
S303:根据所述目标区域的噪音频率谱对所述第一语音进行补偿处理,得到第二语音。
在本申请中,可以基于对所述第一语音进行补偿处理后的语音部分响度与所述第一语音的部分响度差异最小的准则,以及,对所述第一语音进行补偿处理后的语音可懂度高于所述第一语音的语音可懂度的准则,根据所述目标区域的噪音频率谱对所述第一语音进行补偿处理,得到第二语音。
语音可懂度可以用SII(Speech Intelligibility Index,语音可懂度指数)来描述,计算公式如下:
Figure BDA0002317505640000111
其中,wi是第i个频段的权重,SNRi是第i个频段的信噪比(dB为单位),Si是语音s在第i个频段的能量,Ni是噪音n在第i个频段的能量。因此,语音可懂度可以理解为各个频段信噪比的加权和。
在本申请中,可以根据目标区域的噪音频率谱确定目标区域的噪音在各个频段的能量。在噪音确定的情况下可以通过增大信噪比或者说增大语音来提高语音可懂度。
但是语音播放的增大是应该要在一定的响度约束下的。假设在安静环境下语音播放的响度是L(s),其中L是响度函数,在噪音环境下,同样的语音的响度由于掩蔽效应变成PL(s,n),其中PL是部分响度(partial loudness)函数。由于掩蔽效应PL(s,n)<L(s),背景噪音n越大PL(s,n)越小。因此,可以适当放大s,比如,对不同频段的语音进行不同的补偿处理,恢复语音响度。假设放大后的语音为s′,满足对所述第一语音进行补偿处理后的语音部分响度与所述第一语音的部分响度差异最小的准则的公式可以如下:
PL(s′,n)=αL(s);
其中,α可以取0.9~1.1。
在本申请中,可以在PL(s′,n)=αL(s)的约束下通过对不同频段的语音进行不同的补偿处理去提高语音可懂度,最终得到第二语音s′。
需要说明的是,根据所述目标区域的噪音频率谱对所述第一语音进行补偿处理时,还可以考虑与音色相关的约束条件。
S304:确定所述第二语音为所述待播放语音。
下面对本申请公开的将待播放语音的声像调整到目标区域的实现方式进行详细说明。
作为一种可实施方式,在本申请中,可以预置语音播放端中各个区域作为语音的声像时对应的语音播放端所处环境内设置的各个扬声器的参数,在确定语音播放端所述环境噪音最小的目标区域之后,获取与目标区域对应的各个扬声器的预置参数,并根据各个扬声器的预置参数对语音播放端所处环境内设置的各个扬声器进行参数配置,参数配置完成的扬声器输出的待播放语音的声像即为目标区域。
需要说明的是,由于人耳对声音的定位在低频主要通过双耳时延差,在高频主要通过双耳能量差,因此,在预置语音播放端中某个区域作为语音的声像时对应的语音播放端所处环境内设置的各个扬声器的参数时,可以通过调节语音播放端所处环境内设置的各个高频扬声器的参数,使各个高频扬声器输出的语音到达该区域时幅度相同,并且,通过调节语音播放端所处环境内设置的各个低频扬声器的参数,使各个低频扬声器输出的语音能够同时到达该区域。
为了便于理解,以语音播放端所处环境为车内、目标区域为车辆前排、噪音最小的区域为驾驶员的正前方为例,车内扬声器包括两个高频扬声器H1、H2,以及两个低频扬声器L1、L2。那么本申请中,需要调整H1、H2的参数,使得H1、H2输出语音到达驾驶员头部位置的大小一致,还需要调整L1、L2,使得L1、L2输出语音能够同时到驾驶员头部位置。
作为又一种可实施方式,在本申请中,可以预置语音播放端中各个区域作为语音的声像时对应的标定频响曲线,在确定语音播放端所述环境噪音最小的目标区域之后,获取与目标区域对应的标定频响曲线,基于该标定频响曲线,对语音播放端所处环境内设置的各个扬声器进行参数调整,使通过参数调整后的各个扬声器输出的待播放语音的声像为目标区域。
需要说明的是,在本申请中,可以基于标定频响曲线与参数调整后的各个扬声器输出的语音的实测频响曲线差异最小的准则,对语音播放端所处环境内设置的各个扬声器进行参数调整,最终调整后的各个扬声器输出的待播放语音的声像即为目标区域。
作为又一种可实施方式,在本申请中,可以对待播放语音的左右声道的时延以及幅度进行调整,使通过语音播放端所处环境内设置的各个扬声器输出的调整后的语音的声像为目标区域。
需要说明的是,在本申请中,当目标区域为语音播放端所处环境的左方区域或右方区域时,通过对待播放语音的左右声道的时延以及幅度进行调整,可以使通过语音播放端所处环境内设置的各个扬声器输出的调整后的语音的声像为目标区域。当目标区域为语音播放端所处环境的上方区域或下方区域时,通过对待播放语音的左右声道的时延以及幅度进行调整,不能够使通过语音播放端所处环境内设置的各个扬声器输出的调整后的语音的声像为目标区域,但是可以采用前述两种可实施方式。
上述内容主要说明了由语音发送端传输的语音在语音接收端播放时,如何使语音接听者听清楚。但是,如果语音通信两端只有一端所处环境支持上述语音增强方案,为了提升未采用上述语音增强方案的一端的语音播放效果,本申请还公开了如下方案:
在所述将待播放语音的声像调整到所述目标区域之后,执行如下步骤:
S401:获取所述语音播放端待传输至所述语音发送端的第三语音。
S402:获取所述第一语音中包含的噪音的特征。
本申请中,所述第一语音中包含的噪音的特征可以为噪音的时域包络、频域功率谱等。
S403:根据所述第一语音中包含的噪音的特征确定所述语音发送端对应的标定噪声频率谱。
本申请中,可以根据第一语音中包含的噪音的特征确定所述语音发送端所在的场景,在确定语音发送端所在的场景之后,可以确定该类场景的典型噪声功率谱为所述语音发送端对应的标定噪声频率谱。
S404:根据所述标定噪声频率谱对所述第三语音进行补偿处理,得到第四语音。
需要说明的是,所述根据所述标定噪声频率谱对所述第三语音进行补偿处理,得到第四语音的具体处理方式可以为:基于对所述第三语音进行补偿处理后的语音部分响度与所述第三语音的部分响度差异最小的准则,以及,对所述第三语音进行补偿处理后的语音可懂度高于所述第三语音的语音可懂度的准则,根据所述标定噪声频率谱对所述第三语音进行补偿处理,得到第四语音。
具体处理方式可以参照根据所述目标区域的噪音频率谱对所述第一语音进行补偿处理,得到第二语音的处理方式,本实施例不再赘述。但是,由于语音发送端的噪音的绝对大小是无法准确获得的,因此,可以根据第一语音中的信噪比进行大致估计噪音的大小。在对语音可懂度有重要影响的频段,例如中高频,提高信噪比。
S405:将所述第四语音传输至所述语音发送端。
综上,基于本申请的语音增强方法,能够使语音通信两端的通话都更为清晰流畅。
下面对本申请实施例公开的语音增强装置进行描述,下文描述的语音增强装置与上文描述的语音增强方法可相互对应参照。
参照图5,图5为本申请实施例公开的一种语音增强装置结构示意图。如图5所示,该语音增强装置可以包括:
噪音空间分布特征获取单元51,用于获取语音播放端所处环境的噪音空间分布特征;
目标区域确定单元52,用于根据所述噪音空间分布特征确定目标区域,所述目标区域为所述语音播放端所处环境噪音最小的区域;
待播放语音获取单元53,用于获取待播放语音;
调整单元54,用于将所述待播放语音的声像调整到所述目标区域。
可选地,所述目标区域确定单元,包括:
待播放语音区域确定单元,用于确定所述语音播放端所处环境的待播放语音区域,所述待播放语音区域包括多个子区域;
噪音大小确定单元,用于根据所述噪音空间分布特征,确定每个所述子区域的噪音大小;
目标区域确定子单元,用于确定噪音最小的子区域为所述目标区域。
可选地,所述待播放语音获取单元,包括:
第一语音获取单元,用于获取所述语音播放端接收的由语音发送端传输的第一语音;
第一待播放语音确定单元,用于确定所述第一语音为所述待播放语音。
可选地,所述待播放语音获取单元,包括:
第一语音获取单元,用于获取所述语音播放端接收的由语音发送端传输的第一语音;
噪音频率谱获取单元,用于获取所述目标区域的噪音频率谱;
第二语音生成单元,用于根据所述目标区域的噪音频率谱对所述第一语音进行补偿处理,得到第二语音;
第二待播放语音确定单元,用于确定所述第二语音为所述待播放语音。
可选地,所述第二语音生成单元,具体用于:
基于对所述第一语音进行补偿处理后的语音部分响度与所述第一语音的部分响度差异最小的准则,以及,对所述第一语音进行补偿处理后的语音可懂度高于所述第一语音的语音可懂度的准则,根据所述目标区域的噪音频率谱对所述第一语音进行补偿处理,得到第二语音。
可选地,所述调整单元,包括:
预置参数获取单元,用于获取与所述目标区域对应的各个扬声器的预置参数;
参数配置单元,用于根据所述各个扬声器的预置参数对所述语音播放端所处环境内设置的各个扬声器进行参数配置,参数配置完成的扬声器输出的所述待播放语音的声像为所述目标区域。
可选地,所述调整单元,包括:
标定频响曲线获取单元,用于获取与所述目标区域对应的标定频响曲线;
参数调整单元,用于基于所述标定频响曲线,对所述语音播放端所处环境内设置的各个扬声器进行参数调整,使通过参数调整后的各个扬声器输出的所述待播放语音的声像为所述目标区域。
可选地,所述调整单元,包括:
待播放语音调整单元,用于对所述待播放语音的左右声道的时延以及幅度进行调整,使通过所述语音播放端所处环境内设置的各个扬声器输出的调整后的语音的声像为所述目标区域。
可选地,所述方法还包括:
第三语音获取单元,用于在所述将待播放语音的声像调整到所述目标区域之后,获取所述语音播放端待传输至所述语音发送端的第三语音;
噪音特征获取单元,用于获取所述第一语音中包含的噪音的特征;
标定噪声频率谱确定单元,用于根据所述第一语音中包含的噪音的特征确定所述语音发送端对应的标定噪声频率谱;
第四语音生成单元,用于根据所述标定噪声频率谱对所述第三语音进行补偿处理,得到第四语音;
传输单元,用于将所述第四语音传输至所述语音发送端。
可选地,所述第四语音生成单元,具体用于:
基于对所述第三语音进行补偿处理后的语音部分响度与所述第三语音的部分响度差异最小的准则,以及,对所述第三语音进行补偿处理后的语音可懂度高于所述第三语音的语音可懂度的准则,根据所述标定噪声频率谱对所述第三语音进行补偿处理,得到第四语音。
图6为本申请实施例公开的一种语音增强系统的硬件结构框图,参照图6,语音增强系统的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取语音播放端所处环境的噪音空间分布特征;
根据所述噪音空间分布特征确定目标区域,所述目标区域为所述语音播放端所处环境噪音最小的区域;
获取待播放语音;
将所述待播放语音的声像调整到所述目标区域。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取语音播放端所处环境的噪音空间分布特征;
根据所述噪音空间分布特征确定目标区域,所述目标区域为所述语音播放端所处环境噪音最小的区域;
获取待播放语音;
将所述待播放语音的声像调整到所述目标区域。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种语音增强方法,其特征在于,包括:
获取语音播放端所处环境的噪音空间分布特征;
根据所述噪音空间分布特征确定目标区域,所述目标区域为所述语音播放端所处环境噪音最小的区域;
获取待播放语音;
将所述待播放语音的声像调整到所述目标区域。
2.根据权利要求1所述的方法,其特征在于,所述根据所述噪音空间分布特征确定目标区域,所述目标区域为所述语音播放端所处环境噪音最小的区域,包括:
确定所述语音播放端所处环境的待播放语音区域,所述待播放语音区域包括多个子区域;
根据所述噪音空间分布特征,确定每个所述子区域的噪音大小;
确定噪音最小的子区域为所述目标区域。
3.根据权利要求1所述的方法,其特征在于,所述获取待播放语音,包括:
获取所述语音播放端接收的由语音发送端传输的第一语音;
确定所述第一语音为所述待播放语音。
4.根据权利要求1所述的方法,其特征在于,所述获取待播放语音,包括:
获取所述语音播放端接收的由语音发送端传输的第一语音;
获取所述目标区域的噪音频率谱;
根据所述目标区域的噪音频率谱对所述第一语音进行补偿处理,得到第二语音;
确定所述第二语音为所述待播放语音。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标区域的噪音频率谱对所述第一语音进行补偿处理,得到第二语音,包括:
基于对所述第一语音进行补偿处理后的语音部分响度与所述第一语音的部分响度差异最小的准则,以及,对所述第一语音进行补偿处理后的语音可懂度高于所述第一语音的语音可懂度的准则,根据所述目标区域的噪音频率谱对所述第一语音进行补偿处理,得到第二语音。
6.根据权利要求1所述的方法,其特征在于,所述将待播放语音的声像调整到所述目标区域,包括:
获取与所述目标区域对应的各个扬声器的预置参数;
根据所述各个扬声器的预置参数对所述语音播放端所处环境内设置的各个扬声器进行参数配置,参数配置完成的扬声器输出的所述待播放语音的声像为所述目标区域。
7.根据权利要求1所述的方法,其特征在于,所述将待播放语音的声像调整到所述目标区域,包括:
获取与所述目标区域对应的标定频响曲线;
基于所述标定频响曲线,对所述语音播放端所处环境内设置的各个扬声器进行参数调整,使通过参数调整后的各个扬声器输出的所述待播放语音的声像为所述目标区域。
8.根据权利要求1所述的方法,其特征在于,所述将待播放语音的声像调整到所述目标区域,包括:
对所述待播放语音的左右声道的时延以及幅度进行调整,使通过所述语音播放端所处环境内设置的各个扬声器输出的调整后的语音的声像为所述目标区域。
9.根据权利要求3或4所述的方法,其特征在于,在所述将待播放语音的声像调整到所述目标区域之后,所述方法还包括:
获取所述语音播放端待传输至所述语音发送端的第三语音;
获取所述第一语音中包含的噪音的特征;
根据所述第一语音中包含的噪音的特征确定所述语音发送端对应的标定噪声频率谱;
根据所述标定噪声频率谱对所述第三语音进行补偿处理,得到第四语音;
将所述第四语音传输至所述语音发送端。
10.根据权利要求9所述的方法,其特征在于,所述根据所述标定噪声频率谱对所述第三语音进行补偿处理,得到第四语音,包括:
基于对所述第三语音进行补偿处理后的语音部分响度与所述第三语音的部分响度差异最小的准则,以及,对所述第三语音进行补偿处理后的语音可懂度高于所述第三语音的语音可懂度的准则,根据所述标定噪声频率谱对所述第三语音进行补偿处理,得到第四语音。
11.一种语音增强装置,其特征在于,包括:
噪音空间分布特征获取单元,用于获取语音播放端所处环境的噪音空间分布特征;
目标区域确定单元,用于根据所述噪音空间分布特征确定目标区域,所述目标区域为所述语音播放端所处环境噪音最小的区域;
待播放语音获取单元,用于获取待播放语音;
调整单元,用于将所述待播放语音的声像调整到所述目标区域。
12.一种语音增强系统,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至10中任一项所述的语音增强方法的各个步骤。
13.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至10中任一项所述的语音增强方法的各个步骤。
CN201911283959.XA 2019-12-13 2019-12-13 语音增强方法、相关设备及可读存储介质 Active CN111063367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911283959.XA CN111063367B (zh) 2019-12-13 2019-12-13 语音增强方法、相关设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911283959.XA CN111063367B (zh) 2019-12-13 2019-12-13 语音增强方法、相关设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111063367A true CN111063367A (zh) 2020-04-24
CN111063367B CN111063367B (zh) 2020-12-11

Family

ID=70301623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911283959.XA Active CN111063367B (zh) 2019-12-13 2019-12-13 语音增强方法、相关设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111063367B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111554317A (zh) * 2020-05-11 2020-08-18 江苏美的清洁电器股份有限公司 一种语音播报方法、设备、计算机存储介质及系统
CN117119358A (zh) * 2023-10-17 2023-11-24 武汉市聚芯微电子有限责任公司 一种声像偏侧的补偿方法、装置、电子设备及存储设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120020480A1 (en) * 2010-07-26 2012-01-26 Qualcomm Incorporated Systems, methods, and apparatus for enhanced acoustic imaging
US20160247518A1 (en) * 2013-11-15 2016-08-25 Huawei Technologies Co., Ltd. Apparatus and method for improving a perception of a sound signal
US20170004818A1 (en) * 2015-07-01 2017-01-05 zPillow, Inc. Noise cancelation system and techniques
CN110164466A (zh) * 2019-04-28 2019-08-23 清华大学苏州汽车研究院(相城) 一种应用于汽车发动机主动噪声控制的车内声场可视化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120020480A1 (en) * 2010-07-26 2012-01-26 Qualcomm Incorporated Systems, methods, and apparatus for enhanced acoustic imaging
US20160247518A1 (en) * 2013-11-15 2016-08-25 Huawei Technologies Co., Ltd. Apparatus and method for improving a perception of a sound signal
US20170004818A1 (en) * 2015-07-01 2017-01-05 zPillow, Inc. Noise cancelation system and techniques
CN110164466A (zh) * 2019-04-28 2019-08-23 清华大学苏州汽车研究院(相城) 一种应用于汽车发动机主动噪声控制的车内声场可视化方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111554317A (zh) * 2020-05-11 2020-08-18 江苏美的清洁电器股份有限公司 一种语音播报方法、设备、计算机存储介质及系统
CN111554317B (zh) * 2020-05-11 2024-04-09 美智纵横科技有限责任公司 一种语音播报方法、设备、计算机存储介质及系统
CN117119358A (zh) * 2023-10-17 2023-11-24 武汉市聚芯微电子有限责任公司 一种声像偏侧的补偿方法、装置、电子设备及存储设备
CN117119358B (zh) * 2023-10-17 2024-01-19 武汉市聚芯微电子有限责任公司 一种声像偏侧的补偿方法、装置、电子设备及存储设备

Also Published As

Publication number Publication date
CN111063367B (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
US9711131B2 (en) Sound zone arrangement with zonewise speech suppression
US10483930B2 (en) Personalized adjustment of an audio device
US10269369B2 (en) System and method of noise reduction for a mobile device
JP2021132385A (ja) 個々のサウンド領域を提供するための装置および方法
CN110856072B (zh) 一种耳机通话降噪方法及耳机
EP2211564A1 (en) Passenger compartment communication system
US20110091047A1 (en) Active Noise Control in Mobile Devices
US20110144779A1 (en) Data processing for a wearable apparatus
Schmidt et al. Signal processing for in-car communication systems
CN107004425B (zh) 共享声学空间中的增强型对话通信
CN110913325A (zh) 自动调音方法、相关设备及可读存储介质
US20080025538A1 (en) Sound enhancement for audio devices based on user-specific audio processing parameters
JP2006139307A (ja) 声音効果処理と騒音制御を有する装置及びその方法
CN110782912A (zh) 音源的控制方法以及扬声设备
CN111063367B (zh) 语音增强方法、相关设备及可读存储介质
US10997983B2 (en) Speech enhancement device, speech enhancement method, and non-transitory computer-readable medium
US20170289683A1 (en) Audio signal processing via crosstalk cancellation for hearing impairment compensation
CN110996242B (zh) 调音方法、相关设备及可读存储介质
WO2020127939A1 (en) Methods, devices and system for a compensated hearing test
CN116491131A (zh) 使用骨传导传感器的主动自语音归化
CN109076302B (zh) 信号处理装置
JP4627973B2 (ja) スピーカ装置
JP2008228198A (ja) 再生音調整装置及び再生音調整方法
KR101405847B1 (ko) 차량 오디오 시스템의 음질 향상을 위한 신호처리 구조
US11516584B2 (en) Sound collection loudspeaker apparatus, method and program for the same

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant