CN116721671A - 语音增益控制方法、装置、语音控制设备及存储介质 - Google Patents

语音增益控制方法、装置、语音控制设备及存储介质 Download PDF

Info

Publication number
CN116721671A
CN116721671A CN202310920929.5A CN202310920929A CN116721671A CN 116721671 A CN116721671 A CN 116721671A CN 202310920929 A CN202310920929 A CN 202310920929A CN 116721671 A CN116721671 A CN 116721671A
Authority
CN
China
Prior art keywords
volume
gain level
volume parameter
voice
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310920929.5A
Other languages
English (en)
Inventor
张洪福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maipu Communication Technology Co Ltd
Original Assignee
Maipu Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maipu Communication Technology Co Ltd filed Critical Maipu Communication Technology Co Ltd
Priority to CN202310920929.5A priority Critical patent/CN116721671A/zh
Publication of CN116721671A publication Critical patent/CN116721671A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

本申请提供一种语音增益控制方法、装置、语音控制设备及存储介质,涉及语音信号处理技术领域。该方法包括:根据历史统计周期内多帧语音信号的第一音量参数,确定当前统计周期的目标增益等级;根据当前统计周期内每帧语音信号的第二音量参数和目标增益等级,对每帧语音信号的第二音量参数进行调整。本申请可以提高语音信号的音量增益控制的稳定性。

Description

语音增益控制方法、装置、语音控制设备及存储介质
技术领域
本发明涉及语音信号处理技术领域,具体而言,涉及一种语音增益控制方法、装置、语音控制设备及存储介质。
背景技术
随着实时语音通话和视频通话的应用越来越广泛,音视频技术也来越来得到重视。
语音自动增益控制(Automatic Gain Control,AGC)是音视频技术中语音信号处理的重要环节,用于处理语音信号的音量忽大忽小的问题,使语音信号的音量相对平稳,以提高用户的听感体验。
现有的语音自动增益控制方法,通过单次增益对语音信号进行放大,由于单次增益计算可能不准确,导致语音信号的音量均衡失效,无法提供音量稳定的语音信号。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种语音增益控制方法、装置、语音控制设备及存储介质,以便提高语音信号的音量增益控制的稳定性。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种语音增益控制方法,所述方法包括:
根据历史统计周期内多帧语音信号的第一音量参数,确定当前统计周期的目标增益等级;
根据所述当前统计周期内每帧语音信号的第二音量参数和所述目标增益等级,对所述每帧语音信号的第二音量参数进行调整。
可选的,所述根据历史统计周期内多帧语音信号的第一音量参数,确定当前统计周期的目标增益等级,包括:
判断所述第一音量参数是否满足预设增益等级调整条件;
若所述第一音量参数满足所述预设增益等级调整条件,则根据所述预设增益等级调整条件对应的增益调整方式,调整所述当前统计周期对应的初始增益等级,得到所述目标增益等级。
可选的,所述判断所述第一音量参数是否满足预设增益等级调整条件,包括:
判断所述当前统计周期的前一历史统计周期对应的多帧语音信号的第一音量参数是否小于第一最低音量阈值;
所述若所述第一音量参数满足所述预设增益等级调整条件,则根据所述预设增益等级调整条件对应的增益调整方式,调整所述当前统计周期对应的初始增益等级,得到所述目标增益等级,包括:
若所述前一历史统计周期的第一音量参数小于所述第一最低音量阈值,则根据所述第一最低音量阈值对应的第一增益调整方式,调高所述初始增益等级,得到所述目标增益等级。
可选的,所述判断所述第一音量参数是否满足预设增益等级调整条件,包括:
判断连续多个历史统计周期内对应的多帧语音信号的第一音量参数是否在最佳音量阈值区间内;
所述若所述第一音量参数满足所述预设增益等级调整条件,则根据所述预设增益等级调整条件对应的增益调整方式,调整所述当前统计周期对应的初始增益等级,得到所述目标增益等级,包括:
若所述第一音量参数不在所述最佳音量阈值区间内,则根据所述最佳音量阈值区间对应的增益调整方式,调整所述初始增益等级,得到所述目标增益等级;
其中,若所述第一音量参数小于所述最佳音量阈值区间的最小值,根据所述最佳音量阈值区间的最小值对应的第二增益调整方式,调高所述初始增益等级,得到所述目标增益等级;或者,
若所述第一音量参数大于所述最佳音量阈值区间的最大值,根据所述最佳音量阈值区间的最大值对应的第三增益调整方式,调低所述初始增益等级,得到所述目标增益等级。
可选的,所述根据所述当前统计周期内每帧语音信号的第二音量参数和所述目标增益等级,对所述每帧语音信号的音量参数进行调整,包括:
若所述第二音量参数大于或等于第二最低音量阈值,根据所述第二音量参数和所述目标增益等级,对所述第二音量参数进行调整。
可选的,所述方法还包括:
若所述第二音量参数小于第二最低音量阈值,确定对应的语音信号为噪音。
可选的,每个历史统计周期内包括预设帧数的语音信号,所述预设帧数的语音信号的第一音量参数大于或等于所述第二最低音量阈值。
第二方面,本申请实施例提供了一种语音增益控制装置,所述装置包括:
增益等级确定模块,用于根据历史统计周期内多帧语音信号的第一音量参数,确定当前统计周期的目标增益等级;
音量参数调整模块,用于根据所述当前统计周期内每帧语音信号的第二音量参数和所述目标增益等级,对所述每帧语音信号的第二音量参数进行调整。
可选的,所述增益等级确定模块,包括:
调整条件判断单元,用于判断所述第一音量参数是否满足预设增益等级调整条件;
增益等级确定单元,用于若所述第一音量参数满足所述预设增益等级调整条件,则根据所述预设增益等级调整条件对应的增益调整方式,调整所述当前统计周期对应的初始增益等级,得到所述目标增益等级。
可选的,所述调整条件判断单元,具体用于判断所述当前统计周期的前一历史统计周期对应的多帧语音信号的第一音量参数是否小于第一最低音量阈值;
所述增益等级确定单元,具体用于若所述前一历史统计周期的第一音量参数小于所述第一最低音量阈值,则根据所述第一最低音量阈值对应的第一增益调整方式,调高所述初始增益等级,得到所述目标增益等级。
可选的,所述调整条件判断单元,具体用于判断连续多个历史统计周期内对应的多帧语音信号的第一音量参数是否在最佳音量阈值区间内;
所述增益等级确定单元,具体用于若所述第一音量参数不在所述最佳音量阈值区间内,则根据所述最佳音量阈值区间对应的增益调整方式,调整所述初始增益等级,得到所述目标增益等级;
其中,所述增益等级确定单元,具体用于若所述第一音量参数小于所述最佳音量阈值区间的最小值,根据所述最佳音量阈值区间的最小值对应的第二增益调整方式,调高所述初始增益等级,得到所述目标增益等级;或者,若所述第一音量参数大于所述最佳音量阈值区间的最大值,根据所述最佳音量阈值区间的最大值对应的第三增益调整方式,调低所述初始增益等级,得到所述目标增益等级。
可选的,所述音量参数调整模块,具体用于若所述第二音量参数大于或等于第二最低音量阈值,根据所述第二音量参数和所述目标增益等级,对所述第二音量参数进行调整。
可选的,所述装置还包括:
噪音确定模块,用于若所述第二音量参数小于第二最低音量阈值,确定对应的语音信号为噪音。
可选的,每个历史统计周期内包括预设帧数的语音信号,所述预设帧数的语音信号的第一音量参数大于或等于所述第二最低音量阈值。
第三方面,本申请实施例还提供一种语音控制设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当语音控制设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行如第一方面任一项所述的语音增益控制方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面任一项所述的语音增益控制方法的步骤。
本申请的有益效果是:
本申请提供的语音增益控制方法、装置、语音控制设备及存储介质,基于历史统计周期内多帧语音信号的音量参数确定当前统计周期的目标增益等级,以根据目标增益等级对当前统计周期内的每帧语音信号的音量参数进行调整,实现对语音信号的分贝值进行平滑调整,保证语音信号的音量在多个周期内处于稳定状态,使收听者不会感觉语音信号音量的突兀或不稳定;且在语音通话场景中,无需发言人刻意调整说话音量,即可将发音人的音量调整至最佳通话音量;针对音量较高的发言人的语音信号,将其音量调整至最佳通话音量,也可以保护收听者的听力,提高用户的听感体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的语音控制系统的架构图;
图2为本申请实施例提供的语音增益控制方法的流程示意图一;
图3为本申请实施例提供的语音增益控制方法的流程示意图二;
图4为本申请实施例提供的语音增益控制方法的流程示意图三;
图5为本申请实施例提供的语音增益控制方法的流程示意图四;
图6为本申请实施例提供的语音增益控制方法的流程框图;
图7为本申请实施例提供的语音增益控制装置的结构示意图;
图8为本申请实施例提供的语音控制设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
现有的语音增益控制方法中,一般采用单次增益对语音信号进行放大,即根据当前语音信号的音量计算增益,以根据增益对语音信号的音量进行调整,但是由于单次增益的计算可能不准确,导致音量均衡失败;另外,还有采用计算语音信号的包络值作为增益调整的标准,但是也很难达到均衡音量的目的。由此可以看出,现有技术中的语音增益控制方法缺乏稳定性,难以实现稳定的语音信号的音量增益控制。
在对本申请的实施例提供的语音增益控制方法、装置、语音控制设备及存储介质进行说明之前,先对本申请所涉及的语音控制系统进行解释,以便更好地理解本申请的方案。
请参考图1,为本申请实施例提供的语音控制系统的架构图,如图1所示,语音控制系统包括:语音接收模块、增益控制模块和语音发送模块,其中,增益控制模块包括:音量计算单元、增益计算单元和增益控制单元,语音接收模块例如可以为麦克风设备,语音发送模块例如可以为功放模块。
具体的,语音接收模块用于接收语音信号,其中,在语音通话过程中,语音信号采用实时传输协议(Real-time Transport Protocol),以信号流的方式输入至语音接收模块,语音接收模块将实时语音信号发送给增益控制模块。
增益控制模块中的音量计算单元对实时语音信号的音量进行计算,得到实时语音信号的音量参数,并将实时语音信号的音量参数发送给增益控制单元;增益计算单元用于根据历史音量信号的音量参数确定实时语音信号的目标增益等级,并将计算得到的目标增益等级发送给增益控制单元。
增益控制单元根据实时语音信号的音量参数和目标增益等级,对实时语音信号的音量参数进行调整,并将音量参数调整后的实时语音信号发送给语音发送模块,以使得语音发送模块播放音量参数调整后的实时语音信号。
基于上述语音控制系统,以下结合实施例对本申请提供的语音增益控制方法、装置、语音控制设备及存储介质进行说明。
请参考图2,为本申请实施例提供的语音增益控制方法的流程示意图一,如图2所示,该方法可以包括:
S10:根据历史统计周期内多帧语音信号的第一音量参数,确定当前统计周期的目标增益等级。
本实施例中,语音信号的统计周期可以根据获取语音信号的时间划分,或者根据获取的语音信号的帧数划分,示例的,可以以预设时长限定一个统计周期,或者以预设数量的语音帧限定一个统计周期。
在每个统计周期内包括多帧语音信号,通过音量计算单元对历史统计周期内的多帧语音信号的音量进行计算,得到历史统计周期内多帧语音信号的第一音量参数,其中,第一音量参数可以根据历史统计周期内多帧语音信号经过增减益调整后的音量参数进行计算,音量参数可以为语音信号的声音强度。
在一些实施例中,由于语音信号在一段时间内是连续的,为了保证语音信号的音量一直位于平滑稳定的状态,因此,可以根据历史统计周期内语音信号的音量参数调整当前统计周期内语音信号的音量参数。
具体的,历史统计周期为当前统计周期之前的统计周期,增益计算单元根据历史统计周期内多帧语音信号的第一音量参数,确定当前统计周期的目标增益等级的方式可以为:根据历史统计周期内多帧语音信号的第一音量参数对应的平均音量参数,确定当前统计周期的目标增益等级。
在一些示例中,根据平均音量参数确定目标增益等级的方式可以为:根据平均音量参数与最佳音量阈值区间之间的差值,确定目标增益等级。其中,最佳音量阈值区间对应的音频分贝值是人耳收听时的最佳分贝值,例如,可以设置最佳音量阈值区间为60分贝到80分贝。
其中,目标增益等级对应音量调整系数,若平均音量参数小于最佳音量阈值区间的最小值,则差值越大,目标增益等级越高,以指示音量调整系数越大;若平均音量参数大于最佳音量阈值区间的最大值,则差值越大,目标增益等级越低,以指示音量调整系数越小,音量调整系数以1为中间值,表示不调整,大于1表示增大音量,小于1表示减小音量。
示例的,请参考表1,为目标增益等级对应的音量调整系数的关系表,如表1所示,若目标增益等级为零增益等级,则音量调整系数为1;若目标增益等级为大于零增益等级的增益等级,则音量调整系数大于1,且目标增益等级越大,音量调整系数越大;若目标增益等级为小于零增益等级的增益等级,则音量调整系数小于1,且目标增益等级越小,音量调整系数越小。
表1目标增益等级对应的音量调整系数的关系表
目标增益等级 -4 -3 -2 -1 0 1 2 3 4
音量调整系数 0.2 0.4 0.6 0.8 1 1.3 1.5 2.0 3.0
在另一些示例中,根据平均音量参数确定目标增益等级的方式可以为:根据平均音量参数与最佳音量阈值区间之间的大小关系,确定目标增益等级。
其中,划分多个增益等级,以零增益等级为默认增益等级,多个增减益等级包括:零增益等级、低于零增益等级的多个负增益等级,高于零增益等级的多个正增益等级,正增益等级用于提高语音信号的音量参数,负增益等级用于减小语音信号的音量参数。以零增益等级或者前一历史统计周期的增益等级为标准,在平均音量参数大于最佳音量阈值区间的最大值时,在多个统计周期内逐渐降低增益等级;在平均音量参数小于最佳音量阈值区间的最小值时,在多个统计周期内逐渐提高增益等级。
需要说明的是,逐级调整增益等级的方式,可能需要经过连续多个统计周期的调整,才可以将语音信号的音量调整至最佳音量。
S20:根据当前统计周期内每帧语音信号的第二音量参数和目标增益等级,对每帧语音信号的第二音量参数进行调整。
本实施例中,在当前统计周期内,每接收到一帧语音信号,通过音量计算单元对当前统计周期内的每帧语音信号的音量进行计算,得到当前统计周期内每帧语音信号的第二音量参数,增益控制单元根据第二音量参数和目标增益等级,对当前统计周期内每帧语音信号的第二音量参数进行调整,其中,若目标增益等级为用于指示降低音量,则增益控制单元对第二音量参数进行减益操作,以降低该帧语音信号的音量;若目标增益等级为用于指示提高音量,则增益控制单元对第二音量参数进行增益操作,以提高该帧语音信号的音量。
增益控制单元对当前统计周期内的每帧语音信号的第二音量参数进行调整后,通过语音发送模块播放调整后的语音信号。
在一些实施例中,当前统计周期内每帧语音信号调整后的第二音量参数也参与到下一统计周期的目标增益等级的计算。
需要说明的是,目标增益等级的计算,在历史统计周期结束后即可计算完成,在当前统计周期的语音信号到达之后,直接可以使用计算的目标增益等级对当前统计周期的语音信号的音量参数进行调整,无需等到接收到当前统计周期的语音信号再计算目标增益等级,以将目标增益等级的计算逻辑和音量参数的调整逻辑拆分开,提高语音信号的音量参数调整及播放的实时性。
上述实施例提供的语音增益控制方法,基于历史统计周期内多帧语音信号的音量参数确定当前统计周期的目标增益等级,以根据目标增益等级对当前统计周期内的每帧语音信号的音量参数进行调整,实现对语音信号的分贝值进行平滑调整,保证语音信号的音量在多个周期内处于稳定状态,使收听者不会感觉语音信号音量的突兀或不稳定;且在语音通话场景中,无需发言人刻意调整说话音量,即可将发音人的音量调整至最佳通话音量;针对音量较高的发言人的语音信号,将其音量调整至最佳通话音量,也可以保护收听者的听力,提高用户的听感体验。
采用上述实施例提供的语音增益控制方法,在多人语音通话、语音会议的场景中,由于当前统计周期的语音信号的音量参数需要根据历史统计周期的语音信号的音量参数对应的目标增益等级进行调整,因此,可以保证多人语音通话、语音会议的场景中所有发言人的音量在经过调整后基本保持一致,保证语音通话或语音会议过程中的通话质量。
以下结合实施例对上述确定目标增益等级的一种可能的实现方式进行说明。
请参考图3,为本申请实施例提供的语音增益控制方法的流程示意图二,如图3所示,上述S10根据历史统计周期内多帧语音信号的第一音量参数,确定当前统计周期的目标增益等级的过程,可以包括:
S101:判断第一音量参数是否满足预设增益等级调整条件。
S102:若第一音量参数满足预设增益等级调整条件,则根据预设增益等级调整条件对应的增益调整方式,调整初始增益等级,得到目标增益等级。
本实施例中,预设增益等级调整条件用于指示将初始增益等级调整至目标增益等级所需要满足的音量条件,预设增益等级调整条件具有对应的增益调整方式,用于在第一音量参数满足预设增益等级调整条件时,根据对应的增益调整方式调整当前统计周期对应的初始增益等级,得到目标增益等级。
其中,初始增益等级可以为当前统计周期的默认增益等级或前一历史统计周期的目标增益等级,其中默认增益等级例如可以为零增益等级,即不对语音信号的音量参数进行提高或减小;调整初始增益等级得到目标增益等级例如可以为提高初始增益等级或者降低初始增益等级。
在一些实施例中,预设增益等级调整条件可以包括多个调整条件,每个调整条件具有对应的增益调整方式,可以根据第一音量参数所满足的目标调整条件,采用目标调整条件对应的增益调整方式,调整初始增益等级,得到目标增益等级。若第一音量参数均不满足多个调整条件,则不调整初始增益等级。
上述实施例提供的语音增益控制方法,基于第一音量参数所满足的预设增益等级调整条件对应的增益调整方式,调整当前统计周期对应的初始增益等级,得到目标增益等级,以使得当前统计周期内的语音信号基于目标增益等级的调整,保证历史统计周期和当前统计周期内的语音信号的音量平滑稳定,使收听者不会感觉语音信号音量的突兀或不稳定,提高用户的听感体验。
在一种可能的实现方式中,请参考图4,为本申请实施例提供的语音增益控制方法的流程示意图三,如图4所示,上述S101判断第一音量参数是否满足预设增益等级调整条件的过程,可以包括:
S111:判断当前统计周期的前一历史统计周期对应的多帧语音信号的第一音量参数是否小于第一最低音量阈值。
上述S102若第一音量参数满足预设增益等级调整条件,则根据预设增益等级调整条件对应的增益调整方式,调整当前统计周期对应的初始增益等级,得到目标增益等级,可以包括:
S121:若前一历史统计周期的第一音量参数小于第一最低音量阈值,则根据第一最低音量阈值对应的第一增益调整方式,调高初始增益等级,得到目标增益等级。
本实施例中,历史统计周期包括多个连续的历史统计周期,从连续多个历史统计周期内确定当前统计周期对应的前一历史统计周期,第一最低音量阈值为预先设置的保证可以听清语音信号的最低音量阈值,也可以被称为最低容忍音量,低于该最低容忍音量的语音信号难以被听清。示例的,第一最低音量阈值对应的音频分贝值可以为40分贝。
判断前一历史统计周期内多帧语音信号的平均音量参数是否小于第一最低音量阈值,第一最低音量阈值对应的第一增益调整方式为调高增益等级,若前一历史统计周期内多帧语音信号的平均音量参数小于第一最低音量阈值,则调高初始增益等级,得到目标增益等级。
本实施例中,若前一历史统计周期的多帧语音信号的平均音量参数小于第一最低音量阈值,则表示前一历史统计周期的多帧语音信号难以被收听人听清,在此情况下,需要调高增益等级,以在下一统计周期即当前统计周期内根据目标增益等级提高当前统计周期内的语音信号的音量参数,使当前统计周期内的语音信号的音量参数大于第一最低音量阈值,保证所播放的当前统计周期的语音信号可以被收听人听清。
需要说明的是,在持续一段时间的语音信号中,由于第一个统计周期的语音信号没有增益等级用于调整音量参数,因此,只有第一个统计周期的语音信号可能存在无法听清的情况,在之后的每个统计周期内,均可以基于前一历史统计周期的语音信号的音量参数确定目标增益等级,对之后的每个统计周期的语音信号的音量参数进行调整,使之后的每个统计周期的语音信号的音量参数大于第一最低音量阈值,保证之后的每个统计周期的语音信号的音量参数均可以被听清。由于每个统计周期的持续时间非常短,例如半分钟、一分钟,未被听清的第一个统计周期的语音信号的影响非常小,所以可以保证持续一段时间的语音信号被收听人听清。
上述实施例提供的语音增益控制方法,在前一历史统计周期的多帧语音信号的音量参数小于第一最低音量阈值时,调高初始增益等级,得到目标增益等级,以便基于目标增益等级的调整,保证当前统计周期的语音信号的音量满足第一最低音量阈值的要求,保证收听人可以听清当前统计周期的语音信号,提高用户的听感体验。
在另一种可能的实现方式中,请参考图5,为本申请实施例提供的语音增益控制方法的流程示意图四,如图5所示,上述S101判断第一音量参数是否满足预设增益等级调整条件的过程,可以包括:
S112:判断连续多个历史统计周期内对应的多帧语音信号的第一音量参数是否在最佳音量阈值区间内。
上述S102若第一音量参数满足预设增益等级调整条件,则根据预设增益等级调整条件对应的增益调整方式,调整当前统计周期对应的初始增益等级,得到目标增益等级,可以包括:
S122:若第一音量参数不在最佳音量阈值区间内,则根据最佳音量阈值区间对应的增益调整方式,调整初始增益等级,得到目标增益等级。
本实施例中,最佳音量阈值区间可以为预先设定的收听效果最理想的音量阈值区间,也可以被称为容忍区间,其中,最佳音量阈值区间的最小值大于第一最低音量阈值。
为了保证语音信号的音量可以在最佳音量阈值区间内,可以对连续多个历史统计周期的多帧语音信号的平均音量参数进行判断,若连续多个历史统计周期的多帧语音信号的平均音量参数均不在最佳音量阈值区间内,则确定需要对初始增益等级进行调整,具体的,根据最佳音量阈值区间对应的增益调整方式对初始增益等级进行调整,得到目标增益等级。
在一些实施例中,上述S122若第一音量参数不在最佳音量阈值区间内,则根据最佳音量阈值区间对应的增益调整方式,调整初始增益等级,得到目标增益等级的过程,可以包括:
若第一音量参数小于最佳音量阈值区间的最小值,根据最佳音量阈值区间的最小值对应的第二增益调整方式,调高初始增益等级,得到目标增益等级。
在另一些实施例中,上述S122若第一音量参数不在最佳音量阈值区间内,则根据最佳音量阈值区间对应的增益调整方式,调整初始增益等级,得到目标增益等级的过程,可以包括:
若第一音量参数大于最佳音量阈值区间的最大值,根据最佳音量阈值区间的最大值对应的第三增益调整方式,调低初始增益等级,得到目标增益等级。
本实施例中,最佳音量阈值区间由最小值和最大值限定区间,连续多个历史统计周期内对应的多帧语音信号的平均音量参数不在最佳音量阈值区间内包括:连续多个历史统计周期内对应的多帧语音信号的平均音量参数均小于最佳音量阈值区间的最小值,或者,连续多个历史统计周期内对应的多帧语音信号的平均音量参数均大于最佳音量阈值区间的最大值。
其中,音量参数小于最佳音量阈值区间的最小值,或者,音量参数大于最佳音量阈值区间的最大值时,语音信号的音量均不是理想收听音量,在此情况下,需要根据最佳音量阈值区间的最小值对应的第二增益调整方式,或者,最佳音量阈值区间的最大值对应的第三增益调整方式,调整初始增益等级,得到目标增益等级。
示例的,若连续多个历史统计周期内对应的多帧语音信号的平均音量参数均小于最佳音量阈值区间的最小值,则根据最佳音量阈值区间的最小值对应的第二增益调整方式,调高初始增益等级,得到目标增益等级;若连续多个历史统计周期内对应的多帧语音信号的平均音量参数均大于最佳音量阈值区间的最大值,则根据最佳音量阈值区间的最大值对应的第三增益调整方式,降低初始增益等级,得到目标增益等级;使基于目标增益等级的调整后,当前统计周期内的语音信号的音量参数在最佳音量阈值区间内。
上述实施例提供的语音增益控制方法,在连续多个历史统计周期内对应的多帧语音信号的第一音量参数不在最佳音量阈值区间内时,调整初始增益等级,得到目标增益等级,使基于目标增益等级的调整后,当前统计周期内的语音信号的音量参数在最佳音量阈值区间内,提高语音通话质量。在语音通话场景中,无需发言人刻意调整说话音量,即可将发音人的音量调整至最佳通话音量;针对音量较高的发言人的语音信号,将其音量调整至最佳通话音量,也可以保护收听者的听力,提高用户的听感体验。
需要说明的是,上述第一最低音量阈值、最佳音量阈值区间的最小值、最佳音量阈值区间的最大值的判断条件可以相互独立,也可以相互关联,若相互关联,则在前一历史统计周期的第一音量参数大于或等于第一最低音量阈值时,判断连续多个历史统计周期内对应的多帧语音信号的第一音量参数是否均小于最佳音量阈值区间的最小值;若不满足,则判断连续多个历史统计周期内对应的多帧语音信号的第一音量参数是否均大于最佳音量阈值区间的最大值,若三个条件均不满足,则不调整初始增益等级。
更进一步地,基于连续多个历史统计周期的语音信号的音量参数计算目标增益等级,也可以避免在持续一段时间的语音信号中存在例如咳嗽、喷嚏、开关门声等突发语音信号对目标增益等级计算的影响,保证目标增益等级计算的准确性。
在一种可能的实现方式中,上述S20根据当前统计周期内每帧语音信号的第二音量参数和目标增益等级,对每帧语音信号的第二音量参数进行调整的过程,可以包括:
若第二音量参数大于或等于第二最低音量阈值,根据第二音量参数和目标增益等级,对第二音量参数进行调整。
本实施例中,第二最低音量阈值小于第一最低音量阈值,在语音通话的过程中,可能存在一些微小的环境噪音,为了避免环境噪音进行增益后播放影响用户听感,以及避免对计算下一统计周期的目标增益等级的影响,需要将噪音滤除,仅对第二音量参数大于或等于第二最低音量阈值,基于目标增益等级对第二音量参数进行调整,其中,第二音量参数大于或等于第二最低音量阈值的语音信号为有效语音信号。示例的,第二最低音量阈值对应的音频分贝值可以为30分贝。
在一些实施例中,该方法还可以包括:
若第二音量参数小于第二最低音量阈值,确定对应的语音信号为噪音。
本实施例中,对第二音量参数小于第二最低音量阈值的语音信号,确定该语音信号为噪音,可以选择过滤该噪音不播放,或者以预设的不影响收听者收听其他有效语音信号的舒适噪音替换该噪音,选择播放舒适噪音。
在一种可能的实现方式中,每个历史统计周期内包括预设帧数的语音信号,预设帧数的语音信号的第一音量参数大于或等于第二最低音量阈值。
本实施例中,基于对上述噪音的过滤可知,在每个历史统计周期中的语音信号均为第一音量参数大于或等于第二最低音量阈值的有效语音信号,每个历史统计周期中的有效语音信号的帧数为预设帧数,即确定累积接收到预设帧数的有效语音信号为一个统计周期。
上述实施例提供的语音增益控制方法,基于第二最低音量阈值对语音信号进行过滤,确定有效语音信号,一方面可以避免环境噪音对语音通话质量的影响,另一方面也不会影响下一统计周期目标增益等级的计算,保证目标增益等级计算的准确性。
以下结合附图对上述实施例提供的语音增益控制方法的流程进行说明。
请参考图6,为本申请实施例提供的语音增益控制方法的流程框图,如图6所示,该语音增益控制过程包括:
S31:语音接收模块获取发言人说话产生的语音信号。
S32:增益控制模块接收语音接收模块发送的当前统计周期的每帧语音信号。
S33:计算当前统计周期的每帧语音信号的音量参数。
S34:判断当前统计周期的每帧语音信号的音量参数是否小于第二最低音量阈值,若为是,则跳转至S35,否则,跳转至S36。
S35:确定该帧语音信号为噪音,发送舒适噪音至语音发送模块。
S36:确定该帧语音信号为有效语音信号,根据初始增益等级对有效语音信号的音量参数进行增减益。
S37:发送增减益后的有效语音信号至语音发送模块。
S38:语音发送模块播放增减益后的有效语音信号和/或舒适噪音。
S39:计算增减益后的有效语音信号的音量参数。
S40:判断当前统计周期的有效语音信号的数量是否达到预设帧数,若为否,则结束流程,确定当前统计周期未结束;若为是,确定当前统计周期结束,则跳转至S41计算下一统计周期的目标增益等级。
S41:根据增减益后的音量参数,计算当前统计周期内有效语音信号的平均音量参数。
S42:判断当前统计周期内有效语音信号的平均音量参数是否小于第一最低音量阈值,若为是,则跳转至S43;否则,跳转至S44。
S43:调高初始增益等级,得到下一统计周期的目标增益等级。
S44:判断连续多个统计周期的有效语音信号的平均音量参数是否均小于最佳音量阈值区间的最小值,若为是,则跳转至S45;否则,跳转至S46;其中,连续多个统计周期包括:至少一个历史统计周期和当前统计周期。
S45:调高初始增益等级,得到下一统计周期的目标增益等级。
S46:判断连续多个统计周期的有效语音信号的平均音量参数是否均大于最佳音量阈值区间的最大值,若为是,则跳转至S47;否则,结束流程,确定不调整下一统计周期的增益等级。
S47:降低初始增益等级,得到下一统计周期的目标增益等级。
从上述语音增益控制方法的流程可以看出,当前统计周期内的初始增益等级是基于历史统计周期的语音信号的音量参数计算的,对下一统计周期的目标增益等级的计算与当前统计周期的语音信号的音量参数的增减益调整是相互独立的,即当前统计周期的音量参数的增减益控制与下一统计周期的目标增益等级的计算逻辑是相互独立的,无需先计算增益等级,再调整语音信号的音量参数,提高当前统计周期内语音信号的增减益调整的实时性。
在上述方法实施例的基础上,本申请实施例提供了一种语音增益控制装置。请参考图7,为本申请实施例提供的语音增益控制装置的结构示意图,如图7所示,该装置可以包括:
增益等级确定模块10,用于根据历史统计周期内多帧语音信号的第一音量参数,确定当前统计周期的目标增益等级,其中,历史统计周期为当前统计周期之前的周期;
音量参数调整模块20,用于根据当前统计周期内每帧语音信号的第二音量参数和目标增益等级,对每帧语音信号的第二音量参数进行调整。
可选的,增益等级确定模块10,包括:
调整条件判断单元,用于判断第一音量参数是否满足预设增益等级调整条件;
增益等级确定单元,用于若第一音量参数满足预设增益等级调整条件,则根据预设增益等级调整条件对应的增益调整方式,调整当前统计周期对应的初始增益等级,得到目标增益等级。
可选的,调整条件判断单元,具体用于判断当前统计周期的前一历史统计周期对应的多帧语音信号的第一音量参数是否小于第一最低音量阈值;
增益等级确定单元,具体用于若前一历史统计周期的第一音量参数小于第一最低音量阈值,则根据第一最低音量阈值对应的第一增益调整方式,调高初始增益等级,得到目标增益等级。
可选的,调整条件判断单元,具体用于判断历连续多个历史统计周期内对应的多帧语音信号的第一音量参数是否在最佳音量阈值区间内;
增益等级确定单元,具体用于若第一音量参数不在最佳音量阈值区间内,则根据最佳音量阈值区间对应的增益调整方式,调整初始增益等级,得到目标增益等级。
可选的,增益等级确定单元,具体用于若第一音量参数小于最佳音量阈值区间的最小值,根据最佳音量阈值区间的最小值对应的第二增益调整方式,调高初始增益等级,得到目标增益等级。
可选的,增益等级确定单元,具体用于若第一音量参数大于最佳音量阈值区间的最大值,根据最佳音量阈值区间的最大值对应的第三增益调整方式,调低初始增益等级,得到目标增益等级。
可选的,音量参数调整模块20,具体用于若第二音量参数大于或等于第二最低音量阈值,根据第二音量参数和目标增益等级,对第二音量参数进行调整。
可选的,该装置还可以包括:
噪音确定模块,用于若第二音量参数小于第二最低音量阈值,确定对应的语音信号为噪音。
可选的,每个历史统计周期内包括预设帧数的语音信号,所述预设帧数的语音信号的第一音量参数大于或等于所述第二最低音量阈值。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器,或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
本申请实施例还提供一种语音控制设备,请参考图8,为本申请实施例提供的语音控制设备的示意图,如图8所示,语音控制设备100包括:处理器101、存储介质102和总线,存储介质102存储有处理器101可执行的程序指令,当语音控制设备100运行时,处理器101与存储介质102之间通过总线通信,处理器101执行程序指令,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本发明还提供一种计算机可读存储介质,存储介质上存储有计算机程序,该计算机程序被处理器运行时执行执行上述方法实施例。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种语音增益控制方法,其特征在于,所述方法包括:
根据历史统计周期内多帧语音信号的第一音量参数,确定当前统计周期的目标增益等级;
根据所述当前统计周期内每帧语音信号的第二音量参数和所述目标增益等级,对所述每帧语音信号的第二音量参数进行调整。
2.如权利要求1所述的方法,其特征在于,所述根据历史统计周期内多帧语音信号的第一音量参数,确定当前统计周期的目标增益等级,包括:
判断所述第一音量参数是否满足预设增益等级调整条件;
若所述第一音量参数满足所述预设增益等级调整条件,则根据所述预设增益等级调整条件对应的增益调整方式,调整初始增益等级,得到所述目标增益等级。
3.如权利要求2所述的方法,其特征在于,所述判断所述第一音量参数是否满足预设增益等级调整条件,包括:
判断所述当前统计周期的前一历史统计周期对应的多帧语音信号的第一音量参数是否小于第一最低音量阈值;
所述若所述第一音量参数满足所述预设增益等级调整条件,则根据所述预设增益等级调整条件对应的增益调整方式,调整初始增益等级,得到所述目标增益等级,包括:
若所述前一历史统计周期的第一音量参数小于所述第一最低音量阈值,则根据所述第一最低音量阈值对应的第一增益调整方式,调高所述初始增益等级,得到所述目标增益等级。
4.如权利要求2所述的方法,其特征在于,所述判断所述第一音量参数是否满足预设增益等级调整条件,包括:
判断连续多个历史统计周期内对应的多帧语音信号的第一音量参数是否在最佳音量阈值区间内;
所述若所述第一音量参数满足所述预设增益等级调整条件,则根据所述预设增益等级调整条件对应的增益调整方式,调整初始增益等级,得到所述目标增益等级,包括:
若所述第一音量参数不在所述最佳音量阈值区间内,则根据所述最佳音量阈值区间对应的增益调整方式,调整所述初始增益等级,得到所述目标增益等级;
其中,若所述第一音量参数小于所述最佳音量阈值区间的最小值,根据所述最佳音量阈值区间的最小值对应的第二增益调整方式,调高所述初始增益等级,得到所述目标增益等级;或者,
若所述第一音量参数大于所述最佳音量阈值区间的最大值,根据所述最佳音量阈值区间的最大值对应的第三增益调整方式,调低所述初始增益等级,得到所述目标增益等级。
5.如权利要求1所述的方法,其特征在于,所述根据所述当前统计周期内每帧语音信号的第二音量参数和所述目标增益等级,对所述每帧语音信号的音量参数进行调整,包括:
若所述第二音量参数大于或等于第二最低音量阈值,根据所述第二音量参数和所述目标增益等级,对所述第二音量参数进行调整。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
若所述第二音量参数小于第二最低音量阈值,确定对应的语音信号为噪音。
7.如权利要求5所述的方法,其特征在于,每个历史统计周期内包括预设帧数的语音信号,所述预设帧数的语音信号的第一音量参数大于或等于所述第二最低音量阈值。
8.一种语音增益控制装置,其特征在于,所述装置包括:
增益等级确定模块,用于根据历史统计周期内多帧语音信号的第一音量参数,确定当前统计周期的目标增益等级;
音量参数调整模块,用于根据所述当前统计周期内每帧语音信号的第二音量参数和所述目标增益等级,对所述每帧语音信号的第二音量参数进行调整。
9.一种语音控制设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当语音控制设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行如权利要求1至7任一项所述的语音增益控制方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的语音增益控制方法的步骤。
CN202310920929.5A 2023-07-25 2023-07-25 语音增益控制方法、装置、语音控制设备及存储介质 Pending CN116721671A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310920929.5A CN116721671A (zh) 2023-07-25 2023-07-25 语音增益控制方法、装置、语音控制设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310920929.5A CN116721671A (zh) 2023-07-25 2023-07-25 语音增益控制方法、装置、语音控制设备及存储介质

Publications (1)

Publication Number Publication Date
CN116721671A true CN116721671A (zh) 2023-09-08

Family

ID=87873643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310920929.5A Pending CN116721671A (zh) 2023-07-25 2023-07-25 语音增益控制方法、装置、语音控制设备及存储介质

Country Status (1)

Country Link
CN (1) CN116721671A (zh)

Similar Documents

Publication Publication Date Title
EP2453438B1 (en) Speech intelligibility control using ambient noise detection
US8897457B2 (en) Method and device for acoustic management control of multiple microphones
CN112383870B (zh) 自适应听力参数验配方法、装置
RU2568281C2 (ru) Способ компенсации потери слуха в телефонной системе и в мобильном телефонном аппарате
US20150319543A1 (en) Binaurally coordinated compression system
CN110265056B (zh) 音源的控制方法以及扬声设备、装置
EP3038255B1 (en) An intelligent volume control interface
US20020173864A1 (en) Automatic volume control for voice over internet
US11978469B1 (en) Ambient noise aware dynamic range control and variable latency for hearing personalization
WO2021238458A1 (zh) 扬声设备音质的优化方法
US10602275B2 (en) Audio enhancement via beamforming and multichannel filtering of an input audio signal
CA2776896A1 (en) Method for control of adaptation of feedback suppression in a hearing aid, and a hearing aid
US20080147387A1 (en) Audio signal processing device and noise suppression processing method in automatic gain control device
CN116721671A (zh) 语音增益控制方法、装置、语音控制设备及存储介质
CN115375518A (zh) 异常寻呼的方法以及相关装置
US11490216B2 (en) Compensating hidden hearing losses by attenuating high sound pressure levels
WO2010000042A1 (en) Linear gain amplification for mid-to-high intensity sounds in a compressive sound processor
EP3783921B1 (en) Adjusting a frequency dependent gain of a hearing device
CN113613147A (zh) 一种耳机的听力效果校调方法、装置、设备及介质
EP3783918A1 (en) Controlling a volume dynamic of a hearing device
US11902747B1 (en) Hearing loss amplification that amplifies speech and noise subsignals differently
US20090125132A1 (en) Sound Reproducer
JP4141682B2 (ja) 音響再生装置、音響再生プログラムおよび音響再生方法
US20230209281A1 (en) Communication device, hearing aid system and computer readable medium
US20230209282A1 (en) Communication device, terminal hearing device and method to operate a hearing aid system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination