CN115497494A - 通话增强方法、装置、通话系统、电子设备及存储介质 - Google Patents
通话增强方法、装置、通话系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115497494A CN115497494A CN202211117330.XA CN202211117330A CN115497494A CN 115497494 A CN115497494 A CN 115497494A CN 202211117330 A CN202211117330 A CN 202211117330A CN 115497494 A CN115497494 A CN 115497494A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- downlink
- enhanced
- signal
- call
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 76
- 230000009467 reduction Effects 0.000 claims abstract description 22
- 230000015654 memory Effects 0.000 claims description 34
- 238000001228 spectrum Methods 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 14
- 230000001629 suppression Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 9
- 230000006854 communication Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6033—Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
- H04M1/6041—Portable telephones adapted for handsfree use
- H04M1/6058—Portable telephones adapted for handsfree use involving the use of a headset accessory device connected to the portable telephone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
- H04M1/72454—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephone Function (AREA)
Abstract
本发明实施例涉及一种通话增强方法、装置、通话系统、电子设备及存储介质,所述方法包括:接收下行语音信号;对所述下行语音信号进行降噪处理,得到第一语音信号,对所述下行语音信号进行人声拟合处理,得到第二语音信号;根据所述第二语音信号对所述第一语音信号进行音频补偿,得到所述下行语音信号的增强语音信号。由此,能够实现在对下行语音信号进行降噪的同时,对下行语音信号中人声部分进行增强,从而增强了通话质量,提升用户体验。
Description
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种通话增强方法、装置、通话系统、电子设备及存储介质。
背景技术
随着蓝牙耳机产品的普及,用户对于蓝牙耳机的通话效果也提出了更高的要求。目前的蓝牙耳机都会通过多麦克风和通话算法提升耳机拾音效果,增强上行语音信号质量,使对方获得良好的通话体验,而对于来自对方的下行语音信号却不做处理。因此,目前蓝牙耳机的使用者经常会在通话时遇到下行语音不清晰、环境噪声、回音比较大等问题,影响用户体验。
发明内容
鉴于此,为解决上述蓝牙耳机的使用者经常会在通话时遇到下行语音不清晰、环境噪声、回音比较大等技术问题,本发明实施例提供一种通话增强方法、装置、通话系统、电子设备及存储介质。
第一方面,本发明实施例提供一种通话增强方法,所述方法包括:
接收下行语音信号;
对所述下行语音信号进行降噪处理,得到第一语音信号;
对所述下行语音信号进行人声拟合处理,得到第二语音信号;
根据所述第二语音信号对所述第一语音信号进行音频补偿,得到所述下行语音信号的增强语音信号。
在一个可能的实施方式中,所述对所述下行语音信号进行人声拟合处理,得到第二语音信号,包括:
从所述下行语音信号中提取出人声信号;
对所述人声信号进行声纹识别,得到所述人声信号的声纹频谱;
根据所述声纹频谱对所述人声信号进行拟合,得到所述第二语音信号。
在一个可能的实施方式中,所述对所述下行语音信号进行降噪处理,得到第一语音信号,包括:
对所述下行语音信号进行回声消除处理,得到第三语音信号;
对所述第三语音信号进行噪声抑制,得到第四语音信号;
对所述第四语音信号进行增益控制,得到所述第一语音信号。
在一个可能的实施方式中,所述根据所述第二语音信号对所述第一语音信号进行音频补偿,得到所述下行语音信号的增强语音信号,包括:
将所述第一语音信号和所述第二语音信号进行合成,得到合成语音信号;
对所述合成语音信号进行增益控制,得到所述下行语音信号的增强语音信号。
在一个可能的实施方式中,在所述得到所述下行语音信号的增强语音信号之后,所述方法还包括:
调用预设的目标声纹模型,所述目标声纹模型用于按照目标声纹对输入的语音信号进行变声处理;
将所述增强语音信号输入至所述目标声纹模型,得到变声处理后的增强语音信号。
第二方面,本发明实施例提供一种通话增强装置,所述装置包括:
接收模块,用于接收下行语音信号;
第一处理模块,用于对所述下行语音信号进行降噪处理,得到第一语音信号;
第二处理模块,用于对所述下行语音信号进行人声拟合处理,得到第二语音信号;
补偿模块,用于根据所述第二语音信号对所述第一语音信号进行音频补偿,得到所述下行语音信号的增强语音信号。
在一个可能的实施方式中,所述第二处理模块,具体用于:
从所述下行语音信号中提取出人声信号;
对所述人声信号进行声纹识别,得到所述人声信号的声纹频谱;
根据所述声纹频谱对所述人声信号进行拟合,得到所述第二语音信号。
在一个可能的实施方式中,所述第一处理模块,具体用于:
对所述下行语音信号进行回声消除处理,得到第三语音信号;
对所述第三语音信号进行噪声抑制,得到第四语音信号;
对所述第四语音信号进行增益控制,得到所述第一语音信号。
在一个可能的实施方式中,所述补偿模块,具体用于:
将所述第一语音信号和所述第二语音信号进行合成,得到合成语音信号;
对所述合成语音信号进行增益控制,得到所述下行语音信号的增强语音信号。
在一个可能的实施方式中,所述装置还包括:
调用模块,用于在得到所述下行语音信号的增强语音信号之后,调用预设的目标声纹模型,所述目标声纹模型用于按照目标声纹对输入的语音信号进行变声处理;
输入模块,用于将所述增强语音信号输入至所述目标声纹模型,得到变声处理后的增强语音信号。
第三方面,本发明实施例提供一种通话系统,所述通话系统包括耳机和适配器;
所述适配器,执行第一方面中任一项所述的通话增强方法,以得到来自通话对端的下行语音信号的增强语音信号,并将所述增强语音信号发送至所述耳机;
所述耳机,播放所述增强语音信号。
在一个可能的实施方式中,所述耳机,在检测到用户对所述耳机上设定按键的触发操作的情况下,生成录音控制指令,并将所述录音控制指令发送至所述适配器;
所述适配器,响应于所述录音控制指令,将所述增强语音信号存储至指定存储介质;
所述适配器,响应于通话语音读取指令,从所述指定存储介质中读取所述增强语音信号,并将读取到的所述增强语音信号发送至所述耳机,以使所述耳机回放所述增强语音信号。
第四方面,本发明实施例提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的通话增强程序,以实现第一方面中任一项所述的通话增强方法。
第五方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一项所述的通话增强方法。
本发明实施例提供的技术方案,通过接收下行语音信号,对下行语音信号进行降噪处理,得到第一语音信号,以及对下行语音信号进行人声拟合处理,得到第二语音信号,根据上述第二语音信号对第一语音信号进行音频补偿,得到下行语音信号的增强语音信号。这一技术方案,通过对下行语音信号进行降噪的同时,对下行语音信号中的人声部分进行拟合处理,使得在对下行语音信号进行降噪处理导致下行语音信号中人声部分被损坏或者缺失时,可对该遭到损坏或缺失的人声部分进行拟合,实现了在对下行语音信号进行降噪的同时,对下行语音信号中人声部分进行增强,从而增强了通话质量,提升用户体验。
附图说明
图1为本发明实施例提供的一种通话系统的架构示意图;
图2A为本发明实施例提供的一种蓝牙Dongle的结构示意图;
图2B为本发明实施例提供的另一种蓝牙Dongle的结构示意图;
图3为本发明实施例提供的一种通话增强方法的实施例流程图;
图4为本发明实施例提供的另一种通话增强方法的实施例流程图;
图5为本发明实施例提供的又一种通话增强方法的实施例流程图;
图6为本发明实施例提供的再一种通话增强方法的实施例流程图;
图7为本发明实施例提供的一种通话增强装置的实施例框图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,为本发明实施例提供的一种通话系统的架构示意图。
图1所示的通话系统中包括:耳机101、适配器102,还包括第一终端103,以及第二终端104。
耳机101,可以是无线耳机,也可以是有线耳机。当耳机101为无线耳机时,其可以是蓝牙耳机,也可以是红外线耳机,还可以是2.4G耳机,本发明实施例对此不做限制,本发明实施例以耳机101为蓝牙耳机为例进行说明。
适配器102,作为一个接口转换器,可以转换信号,耳机101可以通过适配器102同第一终端103连接。基于此,在耳机101为蓝牙耳机的情况下,适配器102可以为支持蓝牙的适配器,具体可以为蓝牙Dongle(软件狗)。在耳机101为红外线耳机的情况下,适配器102可以为支持红外线的适配器。
在一实施例中,当适配器102为蓝牙Dongle时,该蓝牙Dongle可包括并不限于蓝牙芯片、USB-A或Type-C接口,或者DSP(Digital Signal Processing,数字信号处理)芯片等,本发明实施例对此不做限制。
参见图2A和图2B,为本发明实施例提供的两种蓝牙Dongle的结构示意图。如图2A所示,蓝牙Dongle中可包括USB-A/Type-C接口和BT(Bit Torrent,比特流)芯片,该BT芯片内部安装有DSP芯片和存储器。如图2B所示,蓝牙Dongle中可包括USB-A/Type-C接口、BT芯片、外置DSP芯片,以及外置存储器。
第一终端103和第二终端104,可以是支持网络连接从而提供各种网络服务的硬件设备或软件。当第一终端103或第二终端104为硬件时,其可以是支持具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机等,图1中仅以智能手机为例。当第一终端103或第二终端104为软件时,可以安装在上述所列举的电子设备中。在本发明实施例中,第一终端103和第二终端104可以通过安装相应的应用程序来进行语音通话。
基于图1所示例的系统架构,两个用户之间可通过第一终端103与第二终端104进行远程语音通话,并且,耳机101通过适配器102与第一终端103进行连接,以使第一终端103的使用者可以通过耳机101与第二终端104的使用者进行远程语音通话。当然,第二终端104也可以通过适配器连接另一耳机,在此不做限制。
现有技术中,蓝牙耳机都会通过多麦克风和通话算法提升耳机拾音效果,增强上行语音信号质量,使对方获得良好的通话体验,而对于来自对方的下行语音信号却不做处理。因此,目前蓝牙耳机的使用者经常会在通话时遇到下行语音不清晰、环境噪声、回音比较大等问题,影响用户体验。
进一步的,由于传统的通话语音增强算法模型较大,占用芯片资源和功耗较大,因此无法将传统的通话语音增强算法植入到蓝牙耳机。并且即使强行将上述传统的通话语音增强算法植入蓝牙耳机,上述传统的通话语音增强算法也只能滤除下行语音信号中的特定噪声,且在处理过程中会对下行语音信号造成很大的音频质量损失,使得原本偏差的通话质量变得更差,导致用户无法听清通话对端的说话内容,极大影响用户体验。
为解决上述问题,本发明实施例提供一种通话增强方法。基于图1所示例的通话系统架构,本发明实施例提供的通话增强方法可应用于适配器102。
具体的,第一终端103接收到第二终端104发送的下行语音信号时,可将该下行语音信号发送至适配器102,适配器102通过本发明实施例提供的通话增强方法得到下行语音信号对应的增强语音信号,并将该增强语音信号发送至耳机101,以使耳机101播放该增强语音信号。
此外,可选的,当耳机101采集到上行语音信号后,可将该上行语音信号发送至适配器102,适配器102通过本发明实施例提供的通话增强算法得到上行语音信号对应的增强语音信号,并将该增强语音信号发送至第一终端103,以使第一终端103将该增强语音信号发送至第二终端104,如此能够增强上行语音信号质量。
由此可见,通过将本发明实施例提供的通话增强方法植入适配器102,可以提高下行语音信号质量,并且能够解决上述传统的通话语音增强算法模型较大,占用芯片资源和功耗较大,无法将该通话语音增强算法植入到蓝牙耳机的技术问题。
此外,由上述描述可见,对于第一终端103侧,其上行语音信号和下行语音信号都经过适配器102进行传输。因此,适配器102还可以配置有录音功能,以对当前语音通话进行录音,满足用户回放、编辑,或者读取需求。
基于此,在一实施例中,耳机101在检测到用户对耳机101上设定按键的触发操作的情况下,可生成录音控制指令,并将该录音控制指令发送至适配器102。之后,适配器102响应于上述录音控制指令,将增强语音信号存储至指定存储介质。由此能够实现通过耳机一键控制适配器对当前语音通话进行录音。
进一步的,在一实施例中,在用户想要对上述指定存储介质中的录音进行回访、编辑的情况下,第一终端103的使用用户可以通过第一终端103向适配器102发送通话语音读取指令。
之后,适配器102响应于该通话语音读取指令,从上述指定存储介质中读取增强语音信号,并将读取到的增强语音信号发送至耳机101,以使耳机101回放上述增强语音信号,或者将读取到的上述增强语音信号发送至第一终端103,以由第一终端103对增强语音信号进行编辑。
下面结合附图以具体实施例对本发明提供的通话增强方法做进一步的解释说明,实施例并不构成对本发明实施例的限定。
参见图3,为本发明实施例提供的一种通话增强方法的实施例流程图。在一实施例中,图3所示流程可应用于适配器,如图1所示系统架构中的适配器102。如图3所示,该流程可包括以下步骤:
步骤301、接收下行语音信号。
在一实施例中,以图1所示系统架构为例,当第一终端103接收到第二终端104发送的下行语音信号时,可先将该下行语音信号发送至适配器102,适配器102可接收到该下行语音信号。
此外,当耳机101采集到上行语音信号后,也可将该上行语音信号发送至适配器102,适配器102可接收到该上行语音信号。
步骤302、对下行语音信号进行降噪处理,得到第一语音信号。
步骤303、对下行语音信号进行人声拟合处理,得到第二语音信号。
以下对步骤302和步骤303进行统一说明:
上述降噪处理指对下行语音信号中的噪声进行处理,上述噪声可包括但不限于:汽车鸣笛声、风扇/空调低频嗡嗡声、割草机噪声、风声等。
上述人声拟合处理指对下行语音信号中存在缺失或者损坏的人声部分进行拟合,以提高语音通话过程中的下行语音信号中的人声信号质量。
至于适配器102具体是如何对下行语音信号进行降噪处理,得到第一语音信号的,以及适配器102具体是如何对下行语音信号进行人声拟合处理,得到第二语音信号的,分别通过下文图4和图5所示流程进行说明,这里先不详述。
步骤304、根据第二语音信号对第一语音信号进行音频补偿,得到下行语音信号的增强语音信号。
由步骤302和步骤303中的描述可知,上述第一语音信号为下行语音信号经过降噪处理之后的语音信号,上述第二语音信号为下行语音信号经过人声拟合处理之后的语音信号。
本发明实施例中,可根据上述第二语音信号对上述第一语音信号进行音频补偿,得到下行语音信号的增强语音信号。
具体的,可将第一语音信号和第二语音信号进行合成,也即,将经过降噪处理后的下行语音信号和经过人声拟合处理后的下行语音信号进行合成,得到合成语音信号。
之后,对该合成语音信号进行增益控制,可得到上述下行语音信号的增强语音信号。上述增益控制可以包括对上述合成语音信号进行调整,控制合成语音信号的音量值达到预设的第二音量值,并将人声信号放大,以使该下行语音信号被播放时的人声更加清晰。上述第二音量值可为45分贝、50分贝,或者60分贝等,本发明实施例对此不做限制。
本发明实施例提供的技术方案,通过接收下行语音信号,对下行语音信号进行降噪处理,得到第一语音信号,以及对下行语音信号进行人声拟合处理,得到第二语音信号,根据上述第二语音信号对第一语音信号进行音频补偿,得到下行语音信号的增强语音信号。这一技术方案,通过对下行语音信号进行降噪的同时,对下行语音信号中的人声部分进行拟合处理,使得在对下行语音信号进行降噪处理导致下行语音信号中人声部分被损坏或者缺失时,可对该遭到损坏或缺失的人声部分进行拟合,实现了在对下行语音信号进行降噪的同时,对下行语音信号中人声部分进行增强,从而增强了通话质量,提升用户体验。
参见图4,为本发明实施例提供的另一种通话增强方法的实施例流程图。该流程在图3所示流程的基础上,描述如何对下行语音信号进行降噪处理。如图4所示,该流程可包括以下步骤:
步骤401、对下行语音信号进行回声消除处理,得到第三语音信号。
步骤402、对第三语音信号进行噪声抑制,得到第四语音信号。
以下对步骤401和步骤402进行统一说明:
在一实施例中,本发明实施例的执行主体可对下行语音信号中的回声进行消除,得到回声消除后的语音信号(为便于描述,可称为第三语音信号)。之后,可继续对上述第三语音信号进行噪声抑制,得到抑制噪声之后的下行语音信号(为便于描述,可称为第四语音信号)。上述噪声抑制可对下行语音信号中存在的背景噪声信号进行最大程度地抑制。
需要说明的是,本发明实施例对下行语音信号的回声消除步骤和噪声抑制步骤的时序关系不进行限制,也即,本发明实施例的执行主体也可先对下行语音信号进行噪声抑制,再进行回声消除。
步骤403、对第四语音信号进行增益控制,得到第一语音信号。
本发明实施例中,在将下行语音信号进行回声消除和噪声抑制,得到第四语音信号后,可对该第四语音信号进行增益控制,从而得到第一语音信号。上述对第四语音信号进行增益控制可以包括调整上述第四语音信号的幅值,并控制第一语音信号的音量达到预设的第一音量值。该第一音量值可为40分贝、50分贝,或者60分贝等,本发明实施例对此不做限制。
本发明实施例提供的技术方案,通过对下行语音信号进行回声消除处理,得到第三语音信号,对第三语音信号进行噪声抑制,得到第四语音信号,对第四语音信号进行增益控制,得到第一语音信号。这一技术方案,通过对下行语音信号进行回声消除和噪声抑制,并进一步进行增益控制,实现了对下行语音信号中的噪声进行抑制,进而增强了通话质量,提升用户体验。
参见图5,为本发明实施例提供的又一种通话增强方法的实施例流程图。该流程在图3所示流程的基础上,描述如何对下行语音信号进行人声拟合处理。如图5所示,该流程可包括以下步骤:
步骤501、从下行语音信号中提取出人声信号。
上述下行语音信号可包含人声信号,还可包含除人声信号之外的其他噪声信号。对此,本发明实施例中,可从下行语音信号中提取出人声信号。
作为一个可能的实施方式,可将该下行语音信号输入至预设的人声信号模型,该人声信号模型可输出上述下行语音信号中包含的人声信号。
步骤502、对上述人声信号进行声纹识别,得到人声信号的声纹频谱。
步骤503、根据上述声纹频谱对人声信号进行拟合,得到第二语音信号。
以下对步骤502和步骤503进行统一说明:
在实际生活中,每一用户可存在唯一的声纹频谱,不同的用户则对应不同的声纹频谱。基于此,对上述人声信号进行声纹识别,可得到人声信号对应的声纹频谱,该声纹频谱具有唯一性。
可选的,可根据该声纹频谱对人声信号进行拟合,由于该声纹频谱可作为人声信号的唯一特征,而该人声信号中可包含通话过程中的语音内容,通过根据该声纹频谱对人声信号进行拟合,得到的第二语音信号则可为下行语音信号中得到增强的人声信号。
由步骤302中的描述可知,第一语音信号为经过降噪处理后的下行语音信号,基于此,根据第二语音信号对第一语音信号进行音频补偿,可得到下行语音信号的增强语音信号,该增强语音信号则为通过降噪处理,并对人声信号进行增强的下行语音信号。
至于具体是如何根据第二语音信号对第一语音信号进行音频补偿,得到下行语音信号的增强语音信号的,可参见步骤303中的描述,此处不再赘述。
本发明实施例提供的技术方案,通过接收下行语音信号,对下行语音信号进行降噪处理,得到第一语音信号,以及从下行语音信号中提取出人声信号,对人声信号进行声纹识别,得到人声信号的声纹频谱,根据上述声纹频谱对人声信号进行拟合,得到第二语音信号,根据第二语音信号对第一语音信号进行音频补偿,得到下行语音信号的增强语音信号。这一技术方案,进一步通过提取人声信号,并根据人声信号的声纹频谱对人声信号拟合,以补偿下行语音信号在降噪过程中受到损坏或者缺失的人声部分,增强了下行语音信号的人声部分,从而增强了通话质量,提升用户体验。
参见图6,为本发明实施例提供的再一种通话增强方法的实施例流程图。如图6所示,该流程可包括以下步骤:
步骤601、接收下行语音信号。
步骤602、对下行语音信号进行降噪处理,得到第一语音信号。
步骤603、对下行语音信号进行人声拟合处理,得到第二语音信号。
步骤604、根据第二语音信号对第一语音信号进行音频补偿,得到下行语音信号的增强语音信号。
步骤601至步骤604的详细描述可参见步骤301至步骤304的描述,此处不再赘述。
步骤605、调用预设的目标声纹模型,上述目标声纹模型用于按照目标声纹对输入的语音信号进行变声处理。
步骤606、将增强语音信号输入至目标声纹模型,得到变声处理后的增强语音信号。
以下对步骤605和步骤606进行统一说明:
上述目标声纹模型为预设的声纹模型库中的任一声纹模型,上述声纹模型用于按照声纹对输入的语音信号进行变声处理。
在一实施例中,以图1所示的系统架构为例,适配器102中预先存储有声纹模型库,该声纹模型库中可存储多个声纹模型,用户通过第一终端103与第二终端104的使用者进行语音通话,在通话时,用户可从第一终端103提供的显示界面中选择目标声纹进行变声。第一终端103在检测到用户选择目标声纹后,可生成变声控制指令,并将该变声控制指令发送至适配器102。之后,适配器102在接收到该变声控制指令时,可根据该变声控制指令从声纹模型库中确定目标声纹模型。
基于此,本发明实施例的执行主体在得到下行语音信号的增强语音信号后,可将该下行语音信号输入至目标声纹模型,以得到变声处理后的增强语音信号。
本发明实施例提供的技术方案,通过在得到下行语音信号的增强语音信号之后,调用预设的目标声纹模型,并将该下行语音信号输入至上述目标声纹模型,得到变声处理后的增强语音信号。这一技术方案,通过对下行语音信号的增强信号进行变声处理,得到变声处理后的增强语音信号,在增强通话质量的同时实现了变声功能,提升用户体验。
参见图7,为本发明实施例提供的一种通话装置的实施例框图。如图7所示,该装置包括:
接收模块71,用于接收下行语音信号;
第一处理模块72,用于对所述下行语音信号进行降噪处理,得到第一语音信号;
第二处理模块73,用于对所述下行语音信号进行人声拟合处理,得到第二语音信号;
补偿模块74,用于根据所述第二语音信号对所述第一语音信号进行音频补偿,得到所述下行语音信号的增强语音信号。
在一个可能的实施方式中,所述第二处理模块73,具体用于:
从所述下行语音信号中提取出人声信号;
对所述人声信号进行声纹识别,得到所述人声信号的声纹频谱;
根据所述声纹频谱对所述人声信号进行拟合,得到所述第二语音信号。
在一个可能的实施方式中,所述第一处理模块72,具体用于:
对所述下行语音信号进行回声消除处理,得到第三语音信号;
对所述第三语音信号进行噪声抑制,得到第四语音信号;
对所述第四语音信号进行增益控制,得到所述第一语音信号。
在一个可能的实施方式中,所述补偿模块74,具体用于:
将所述第一语音信号和所述第二语音信号进行合成,得到合成语音信号;
对所述合成语音信号进行增益控制,得到所述下行语音信号的增强语音信号。
在一个可能的实施方式中,所述装置还包括(图中未示出):
调用模块,用于在得到所述下行语音信号的增强语音信号之后,调用预设的目标声纹模型,所述目标声纹模型用于按照目标声纹对输入的语音信号进行变声处理;
输入模块,用于将所述增强语音信号输入至所述目标声纹模型,得到变声处理后的增强语音信号。
图8为本发明实施例提供的一种电子设备的结构示意图,图8所示的电子设备800包括:至少一个处理器801、存储器802、至少一个网络接口804和用户接口803。电子设备800中的各个组件通过总线系统805耦合在一起。可理解,总线系统805用于实现这些组件之间的连接通信。总线系统805除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图8中将各种总线都标为总线系统805。
其中,用户接口803可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等)。
可以理解,本发明实施例中的存储器802可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的存储器802旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器802存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统8021和应用程序8022。
其中,操作系统8021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序8022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序8022中。
在本发明实施例中,通过调用存储器802存储的程序或指令,具体的,可以是应用程序8022中存储的程序或指令,处理器801用于执行各方法实施例所提供的方法步骤,例如包括:
接收下行语音信号;
对所述下行语音信号进行降噪处理,得到第一语音信号;
对所述下行语音信号进行人声拟合处理,得到第二语音信号;
根据所述第二语音信号对所述第一语音信号进行音频补偿,得到所述下行语音信号的增强语音信号。
上述本发明实施例揭示的方法可以应用于处理器801中,或者由处理器801实现。处理器801可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802,处理器801读取存储器802中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本实施例提供的电子设备可以是如图8中所示的电子设备,可执行如图3~图6中通话增强方法的所有步骤,进而实现图3~图6中通话增强方法的技术效果,具体请参照图3~图6相关描述,为简洁描述,在此不作赘述。
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在电子设备侧执行的通话增强方法。
所述处理器用于执行存储器中存储的通话增强程序,以实现以下在电子设备侧执行的通话增强方法的步骤:
接收下行语音信号;
对所述下行语音信号进行降噪处理,得到第一语音信号;
对所述下行语音信号进行人声拟合处理,得到第二语音信号;
根据所述第二语音信号对所述第一语音信号进行音频补偿,得到所述下行语音信号的增强语音信号。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种通话增强方法,其特征在于,所述方法包括:
接收下行语音信号;
对所述下行语音信号进行降噪处理,得到第一语音信号;
对所述下行语音信号进行人声拟合处理,得到第二语音信号;
根据所述第二语音信号对所述第一语音信号进行音频补偿,得到所述下行语音信号的增强语音信号。
2.根据权利要求1所述的方法,其特征在于,所述对所述下行语音信号进行人声拟合处理,得到第二语音信号,包括:
从所述下行语音信号中提取出人声信号;
对所述人声信号进行声纹识别,得到所述人声信号的声纹频谱;
根据所述声纹频谱对所述人声信号进行拟合,得到所述第二语音信号。
3.根据权利要求1所述的方法,其特征在于,所述对所述下行语音信号进行降噪处理,得到第一语音信号,包括:
对所述下行语音信号进行回声消除处理,得到第三语音信号;
对所述第三语音信号进行噪声抑制,得到第四语音信号;
对所述第四语音信号进行增益控制,得到所述第一语音信号。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第二语音信号对所述第一语音信号进行音频补偿,得到所述下行语音信号的增强语音信号,包括:
将所述第一语音信号和所述第二语音信号进行合成,得到合成语音信号;
对所述合成语音信号进行增益控制,得到所述下行语音信号的增强语音信号。
5.根据权利要求1所述的方法,其特征在于,在所述得到所述下行语音信号的增强语音信号之后,所述方法还包括:
调用预设的目标声纹模型,所述目标声纹模型用于按照目标声纹对输入的语音信号进行变声处理;
将所述增强语音信号输入至所述目标声纹模型,得到变声处理后的增强语音信号。
6.一种通话增强装置,其特征在于,所述装置包括:
接收模块,用于接收下行语音信号;
第一处理模块,用于对所述下行语音信号进行降噪处理,得到第一语音信号;
第二处理模块,用于对所述下行语音信号进行人声拟合处理,得到第二语音信号;
补偿模块,用于根据所述第二语音信号对所述第一语音信号进行音频补偿,得到所述下行语音信号的增强语音信号。
7.根据权利要求6所述的装置,其特征在于,所述第二处理模块,具体用于:
从所述下行语音信号中提取出人声信号;
对所述人声信号进行声纹识别,得到所述人声信号的声纹频谱;
根据所述声纹频谱对所述人声信号进行拟合,得到所述第二语音信号。
8.根据权利要求6所述的装置,其特征在于,所述补偿模块,具体用于:
将所述第一语音信号和所述第二语音信号进行合成,得到合成语音信号;
对所述合成语音信号进行增益控制,得到所述下行语音信号的增强语音信号。
9.一种通话系统,其特征在于,所述通话系统包括耳机和适配器;
所述适配器,执行权利要求1~5任一项所述的通话增强方法,以得到来自通话对端的下行语音信号的增强语音信号,并将所述增强语音信号发送至所述耳机;
所述耳机,播放所述增强语音信号。
10.根据权利要求9所述的通话系统,其特征在于,
所述耳机,在检测到用户对所述耳机上设定按键的触发操作的情况下,生成录音控制指令,并将所述录音控制指令发送至所述适配器;
所述适配器,响应于所述录音控制指令,将所述增强语音信号存储至指定存储介质;
所述适配器,响应于通话语音读取指令,从所述指定存储介质中读取所述增强语音信号,并将读取到的所述增强语音信号发送至所述耳机,以使所述耳机回放所述增强语音信号。
11.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的通话增强程序,以实现权利要求1~5中任一项所述的通话增强方法。
12.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~5中任一项所述的通话增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211117330.XA CN115497494A (zh) | 2022-09-14 | 2022-09-14 | 通话增强方法、装置、通话系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211117330.XA CN115497494A (zh) | 2022-09-14 | 2022-09-14 | 通话增强方法、装置、通话系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115497494A true CN115497494A (zh) | 2022-12-20 |
Family
ID=84469125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211117330.XA Pending CN115497494A (zh) | 2022-09-14 | 2022-09-14 | 通话增强方法、装置、通话系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497494A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103379231A (zh) * | 2012-04-17 | 2013-10-30 | 中兴通讯股份有限公司 | 一种无线会议电话及其进行语音信号传递的方法 |
US20140223504A1 (en) * | 2013-02-07 | 2014-08-07 | MaxLinear, In. | Cable distribution networks |
US20140350922A1 (en) * | 2013-05-24 | 2014-11-27 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method and computer program product |
CN110428842A (zh) * | 2019-08-13 | 2019-11-08 | 广州国音智能科技有限公司 | 语音模型训练方法、装置、设备及计算机可读存储介质 |
CN214226506U (zh) * | 2020-12-31 | 2021-09-17 | 珠海市杰理科技股份有限公司 | 声音处理电路、电声器件和声音处理系统 |
CN114189781A (zh) * | 2021-11-27 | 2022-03-15 | 苏州蛙声科技有限公司 | 双麦神经网络降噪耳机的降噪方法及系统 |
CN114974324A (zh) * | 2022-05-19 | 2022-08-30 | 安徽讯飞未来智能科技有限公司 | 一种耳机录制通话音频的方法及耳机和存储介质 |
-
2022
- 2022-09-14 CN CN202211117330.XA patent/CN115497494A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103379231A (zh) * | 2012-04-17 | 2013-10-30 | 中兴通讯股份有限公司 | 一种无线会议电话及其进行语音信号传递的方法 |
US20140223504A1 (en) * | 2013-02-07 | 2014-08-07 | MaxLinear, In. | Cable distribution networks |
US20140350922A1 (en) * | 2013-05-24 | 2014-11-27 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method and computer program product |
CN110428842A (zh) * | 2019-08-13 | 2019-11-08 | 广州国音智能科技有限公司 | 语音模型训练方法、装置、设备及计算机可读存储介质 |
CN214226506U (zh) * | 2020-12-31 | 2021-09-17 | 珠海市杰理科技股份有限公司 | 声音处理电路、电声器件和声音处理系统 |
CN114189781A (zh) * | 2021-11-27 | 2022-03-15 | 苏州蛙声科技有限公司 | 双麦神经网络降噪耳机的降噪方法及系统 |
CN114974324A (zh) * | 2022-05-19 | 2022-08-30 | 安徽讯飞未来智能科技有限公司 | 一种耳机录制通话音频的方法及耳机和存储介质 |
Non-Patent Citations (2)
Title |
---|
李小平等: "多媒体技术", vol. 978, 30 November 2015, 北京:北京理工大学出版社, pages: 30 - 32 * |
梁瑞宇 等: "高等院校通信与信息专业系列教材 现代语音信号处理 Python版", vol. 978, 31 January 2022, 北京:机械工业出版社, pages: 3 - 5 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5704470B2 (ja) | オーディオ明瞭度増大方法および装置とコンピュータ装置 | |
US9208767B2 (en) | Method for adaptive audio signal shaping for improved playback in a noisy environment | |
US8972251B2 (en) | Generating a masking signal on an electronic device | |
US9167333B2 (en) | Headset dictation mode | |
US8744091B2 (en) | Intelligibility control using ambient noise detection | |
KR20180056752A (ko) | 초광대역 음악을 위한 적응적 잡음 억제 | |
WO2017215657A1 (zh) | 音效处理方法及终端设备 | |
WO2018018705A1 (zh) | 一种语音通话的方法、装置及终端 | |
US9769567B2 (en) | Audio system and method | |
US20090018843A1 (en) | Speech processor and communication terminal device | |
US11627421B1 (en) | Method for realizing hearing aid function based on bluetooth headset chip and a bluetooth headset | |
EP2551847A1 (en) | Method for reducing calling power consumption of mobile terminal and mobile terminal | |
CN103379231A (zh) | 一种无线会议电话及其进行语音信号传递的方法 | |
CN113542960B (zh) | 音频信号处理方法、系统、装置、电子设备和存储介质 | |
CN110956976A (zh) | 一种回声消除方法、装置、设备及可读存储介质 | |
CN112383855A (zh) | 蓝牙耳机充电盒、录音方法及计算机可读存储介质 | |
JP2004521574A (ja) | 知覚的な低周波増強を備えた狭帯域音声信号伝送システム | |
US8116464B2 (en) | Method for volume adaptation, mobile electronic device and computer program product using the method thereof | |
CN109511040B (zh) | 一种耳语放大方法、装置及耳机 | |
CN115497494A (zh) | 通话增强方法、装置、通话系统、电子设备及存储介质 | |
JP2010081523A (ja) | 携帯端末、携帯端末の制御方法、及びプログラム | |
US9343079B2 (en) | Receiver intelligibility enhancement system | |
CN106293607B (zh) | 自动切换音频输出模式的方法及系统 | |
KR20120016709A (ko) | 휴대용 단말기에서 통화 품질을 향상시키기 위한 장치 및 방법 | |
CN114727194A (zh) | 麦克风音量控制方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |