CN116486833A - 音频增益调整方法、装置、存储介质及电子设备 - Google Patents
音频增益调整方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116486833A CN116486833A CN202310736063.2A CN202310736063A CN116486833A CN 116486833 A CN116486833 A CN 116486833A CN 202310736063 A CN202310736063 A CN 202310736063A CN 116486833 A CN116486833 A CN 116486833A
- Authority
- CN
- China
- Prior art keywords
- audio data
- audio
- data set
- signal value
- gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013139 quantization Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 6
- 230000003313 weakening effect Effects 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种音频增益调整方法、装置、存储介质及电子设备,其中,该音频增益调整方法采用获取当前时间段内符合预设条件且信号值最大的第一音频数据;将第一音频数据的信号值作为第一更新因子对历史音频数据集进行更新,得到当前音频数据集;获取当前音频数据集中信号值最大的第二音频数据;将第二音频数据的信号值作为第二更新因子对历史音频增益进行更新,得到当前音频增益。本方案可以对音频增益进行自适应调整。
Description
技术领域
本申请涉及通信技术领域,具体涉及一种音频增益调整方法、装置、存储介质及电子设备。
背景技术
随着移动互联网和人工智能时代的来临,语音交互近些年获得了前所未有的增长,其中,语音唤醒技术作为一种特别的语音识别技术,成为用户和机器进行交互重要组成部分。语音唤醒系统的目标,是在无手动操作的情况下,对设备进行唤醒。
在实际应用中,同一语音芯片在不同的时间和空间对音频增益的需求是不相同的。而目前通常是根据经验针对语音芯片在不同的应用中设置对应的音频增益,无法根据时间和空间的不同对音频增益进行自适应调整,导致音频信号失真,影响语音唤醒的效果。
发明内容
本申请提供了一种音频增益调整方法,可以对音频增益进行自适应调整。
第一方面,本申请提供了一种音频增益调整方法,包括:
获取当前时间段内符合预设条件且信号值最大的第一音频数据;
将所述第一音频数据的信号值作为第一更新因子对历史音频数据集进行更新,得到当前音频数据集;
获取所述当前音频数据集中信号值最大的第二音频数据;
将所述第二音频数据的信号值作为第二更新因子对历史音频增益进行更新,得到当前音频增益。
在本申请提供的音频增益调整方法中,所述将所述第二音频数据的信号值作为第二更新因子对历史音频增益进行更新,得到当前音频增益,包括:
获取音频量化最大值;
计算所述音频量化最大值与所述第二音频数据的信号值的商,得到初始音频增益;
按照预设策略对所述初始音频增益进行削弱,得到当前音频增益。
在本申请提供的音频增益调整方法中所述按照预设策略对所述初始音频增益进行削弱,得到当前音频增益,包括:
将所述初始音频增益的二分之一作为当前音频增益。
在本申请提供的音频增益调整方法中所述获取当前时间段内符合预设条件且信号值最大的第一音频数据,包括:
采集当前时间段内的第三音频数据;
将所有所述第三音频数据区分为第一音频数据集和第二音频数据集;
从所述第一音频数据集或所述第二音频数据集中选取信号值最大的第三音频数据作为所述第一音频数据。
在本申请提供的音频增益调整方法中所述将所有所述第三音频数据区分为第一音频数据集和第二音频数据集,包括:
将所有所述第三音频数据区分为人声音频数据集和环境声音频数据集;
所述从所述第一音频数据集或所述第二音频数据集中选取信号值最大的第三音频数据作为所述第一音频数据,包括:
从所述人声音频数据集选取信号值最大的第三音频数据作为所述第一音频数据。
在本申请提供的音频增益调整方法中,所述将所有所述第三音频数据区分为第一音频数据集和第二音频数据集,包括:
将所有所述第三音频数据区分为前景声音频数据集和背景声音频数据集;
所述从所述第一音频数据集或所述第二音频数据集中选取信号值最大的第三音频数据作为所述第一音频数据,包括:
从所述前景声音频数据集选取信号值最大的第三音频数据作为所述第一音频数据。
在本申请提供的音频增益调整方法中,在所述采集当前时间段内的第三音频数据之后,所述将所有所述第三音频数据区分为第一音频数据集和第二音频数据集之前,还包括:
确定所有所述第三音频数据中是否存在前景声或人声;
若是,则执行将所有所述第三音频数据区分为第一音频数据集和第二音频数据集的步骤。
第二方面,本申请提供了一种音频增益调整装置,包括:
第一获取单元,用于获取当前时间段内符合预设条件且信号值最大的第一音频数据;
音频更新单元,用于将所述第一音频数据的信号值作为第一更新因子对历史音频数据集进行更新,得到当前音频数据集;
第二获取单元,用于获取所述当前音频数据集中信号值最大的第二音频数据;
增益更新单元,用于将所述第二音频数据的信号值作为第二更新因子对历史音频增益进行更新,得到当前音频增益。
第三方面,本申请提供了一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述任一项所述的音频增益调整方法。
第四方面,本申请提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述任一项所述的音频增益调整方法。
综上,本申请提供的音频增益调整方法采用获取当前时间段内符合预设条件且信号值最大的第一音频数据;将所述第一音频数据的信号值作为第一更新因子对历史音频数据集进行更新,得到当前音频数据集;获取所述当前音频数据集中信号值最大的第二音频数据;将所述第二音频数据的信号值作为第二更新因子对历史音频增益进行更新,得到当前音频增益。本方案通过获取当前时间段内符合预设条件且信号值最大的第一音频数据对历史音频数据集进行更新,然后再获取前音频数据集中信号值最大的第二音频数据对历史音频增益进行更新,从而实现对音频增益的自适应调整,避免音频信号失真,提高语音唤醒的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的音频增益调整系统的结构示意图;
图2是本申请实施例提供的音频增益调整方法的流程示意图;
图3是本申请实施例提供的音频增益调整装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素,此外,本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或者“单元”可以混合地使用。
在本申请的描述中,需要说明的是,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,“第一”、“第二”等术语仅用于描述目的,而不能理解为指示或暗示相对重要性。
在实际应用中,同一语音芯片在不同的时间和空间对音频增益的需求是不相同的。而目前通常是根据经验针对语音芯片在不同的应用中设置对应的音频增益,无法根据时间和空间的不同对音频增益进行自适应调整,导致音频信号失真,影响语音唤醒的效果。
基于此,本申请实施例提供了一种音频增益调整方法、装置、存储介质及电子设备,具体地,本申请实施例的音频增益调整方法可以由电子设备执行,其中,该电子设备可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC,PersonalComputer)、个人数字助理(Personal DigitalAssistant,PDA)等电子设备,电子设备还可以包括客户端,该客户端可以是音频增益调整客户端或其他客户端。电子设备可以通过有线或无线的方式与服务器连接,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参阅图1,图1为本申请实施例提供的音频增益调整系统的结构示意图。该系统可以包括至少一个电子设备1000,至少一个服务器2000。电子设备1000可以是具有计算硬件的电子设备,该计算硬件能够支持和执行与多媒体对应的软件产品。另外,电子设备1000可以通过网络与服务器2000相互连接。网络可以是无线网络或者有线网络,比如无线网络为无线局域网(WLAN)、局域网(LAN)、蜂窝网络、2G网络、3G网络、4G网络、5G网络等。另外,不同的电子设备1000之间也可以使用自身的蓝牙网络或者热点网络连接到其他嵌入式平台或者连接到服务器以及个人电脑等。
可以理解的是,在具体实施过程中,该音频增益调整方法可以由电子设备1000或服务器2000单独执行;或者,该音频增益调整方法可以由电子设备1000和服务器2000协同执行。
比如,该服务器2000可以用于存储历史数据;电子设备中集成有语音处理芯片,可以用于采集所处环境的音频数据,并从服务器2000中获取历史数据,然后根据历史数据对音频数据进行相应处理,从而实现对音频增益、历史数据的更新;之后,可以执行新的音频增益,并将更新后的历史数据发送至服务器2000进行存储。
再比如,电子设备1000可以用于采集所处环境的音频数据,并将该音频数据发送至服务器2000;该服务器2000中集成有语音处理芯片,可以用于对该音频数据进行相应处理,从而实现对音频增益的更新。
以下将通过具体实施例分别对本申请所示的技术方案进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优先顺序的限定。
请参阅图2,图2是本申请实施例提供的音频增益调整方法的流程示意图。该音频增益调整方法的具体流程可以如下:
101、获取当前时间段内符合预设条件且信号值最大的第一音频数据。
其中,音频数据是表示机械波的信号,是机械波的波长、强度变化的信息载体。根据机械波的特征,可分为规则信号和不规则信号。在一些实施例中,音频数据可以由内置于电子设备的音频采集设备(如麦克风)进行采集,然后通过语音芯片对该音频数据进行相关处理。
在一些实施例中,为了避免无效音频数据对电子设备进行唤醒,导致资源浪费,可以对采集的音频数据进行区分,从而得到有效音频数据和无效音频数据,之后,再对有效音频数据进行相关处理。比如,步骤“获取当前时间段内符合预设条件且信号值最大的第一音频数据”可以包括:
采集当前时间段内的第三音频数据;
将所有第三音频数据区分为第一音频数据集和第二音频数据集;
从第一音频数据集或第二音频数据集中选取信号值最大的第三音频数据作为第一音频数据。
其中,第三音频数据为当前时间段内采集的所有音频数据,第一音频数据即为采样数据,第一音频数据集和第二音频音频集分别为符合预设条件的有效音频数据和不符合预设条件的无效音频数据。
在一些实施例中,具有人声音频数据或具有前景声音频数据即为符合预设条件。也即,在具体实施过程中,可以在确定所有第三音频数据中存在前景声或人声时,将该第三音频数据区分为人声音频数据集和环境声音频数据集,或区分为前景声音频数据集和背景声音频数据集。
具体的,当具有人声音频数据为符合预设条件时,可以先判断采集的所有第三音频数据中是否存在人声音频数据,当具有人声音频数据时,可以将所有第三音频数据区分为人声音频数据集和环境声音频数据集,之后,再从该人声音频数据集中选取信号值最大的第三音频数据作为第一音频数据。
当具有前景声音频数据为符合预设条件时,可以先判断采集的所有第三音频数据中是否存在前景声音频数据,当具有前景声音频数据时,可以将所有第三音频数据区分为前景声音频数据集和背景声音频数据集,之后,再从该前景声音频数据集中选取信号值最大的第三音频数据作为第一音频数据。
需要说明的是,背景声为当前时间段内信号值上下浮动不大的声音,而前景声则为当前时间段内信号值突变的声音。比如,下雨的夜晚,雨声为背景声,雷声则为前景声。
102、将第一音频数据的信号值作为第一更新因子对历史音频数据集进行更新,得到当前音频数据集。
可以理解的是,采集到的音频数据的强弱与语音芯片当前所处的空间有关,导致语音芯片实际所需的音频增益也不同。比如,当语音芯片应用于声控台灯时,采集到的音频数据信号较强,可以设置一较小的音频增益;当语音芯片应用于吸顶灯时,采集到的音频数据信号较弱,可以设置一较大的音频增益。另外,即使空间位置相同,不同的时间段的噪声环境也不相同,使得语音芯片实际所需的音频增益不同。比如,白天的噪声环境嘈杂,采集到的音频数据信号较弱,可以设置一较大的音频增益;晚上的噪声环境安静,采集到的音频数据信号较强,可以设置一较小的音频增益。
基于此,本申请实施例将统计时间等分为N个时间段,并且仅采集每个时间段内的符合预设条件且信号值最大的音频数据作为采样数据,并将其中相邻且具有采样数据的n个时间段作为一个滑动时间窗口,其中的采样数据为一个音频数据集。通过滑动时间窗口和实际音频数据保证采样数据的时间和空间有效性。
在具体实施过程中,该音频数据集中仅保存最近的n个时间段的采样数据。在实际应用的每个时间段内,若存在符合条件的音频数据,则对滑动时间窗口进行更新,进而对历史音频数据集进行更新;若不存在符合条件的音频数据,则不对滑动时间窗口进行更新,进而不对历史音频数据集进行更新。
比如,音频数据集中仅保存最近的6个时间段的采样数据。滑动时间窗口为{t0,t1, t2, t3, t4, t5},音频数据集为{Vt0, Vt1, Vt2, Vt3,Vt4, Vt5},当前时间段为t6。若当前时间段内具有符合条件的音频数据,则将滑动时间窗口更新为{t1, t2, t3, t4,t5,t6},并将当前时间段内的采样数据Vt6作为第一更新因子与该历史音频数据集中Vt0进行替换,从而进行更新,得到当前音频数据集{Vt1, Vt2, Vt3, Vt4,Vt5,Vt6}。若当前时间段内没有符合条件的音频数据,则不对该滑动时间窗口和历史音频数据集进行更新,将该历史音频数据集作为当前音频数据集。
需要说明的是,在一些实施例中,在语音芯片正式工作之前,可以根据经验设置历史音频数据集和滑动时间窗口,之后,再按照上述方式对历史音频数据集和滑动时间窗口进行更新。
103、获取当前音频数据集中信号值最大的第二音频数据。
具体的,可以将当前音频数据集中的音频数据进行比较,从而得到信号值最大的第二音频数据。
比如,当前音频数据集为{Vt0, Vt1, Vt2, Vt3, Vt4, Vt5},其中,Vt5的信号值最大,那么,Vt5即为第二音频数据。
104、将第二音频数据的信号值作为第二更新因子对历史音频增益进行更新,得到当前音频增益。
具体的,可以获取音频量化最大值;计算音频量化最大值与第二音频数据的信号值的商,得到初始音频增益;按照预设策略对初始音频增益进行削弱,得到当前音频增益。之后,可以将该当前音频增益作为下一时间段的音频增益。
需要说明的是,该音频量化最大值为语音芯片对音频数据进行放大增益后的最大量化值。该音频量化最大值可以根据实际情况在语音芯片内设定。可以将音频量化最大值设置为16 bit、20bit、25bit、30bit等等。
可以理解的是,音频量化最大值是固定的,而当前时间段采用的音频增益由上一时间段得到的历史音频增益。因此,在当前时间段内,通过历史音频增益进行放大增益之后的音频数据的实际值有可能会大于该音频量化最大值,从而导致音频信号饱和,频谱失真。因此,为了避免放大增益后的音频信号饱和,频谱失真,可以对该初始音频增益进行削弱,得到当前音频增益。
在一些实施例中,步骤“按照预设策略对初始音频增益进行削弱,得到当前音频增益”具体可以为:将初始音频增益的二分之一作为当前音频增益;或,将初始音频增益的三分之一作为当前音频增益。
综上,本申请实施例提供的音频增益调整方法采用获取当前时间段内符合预设条件且信号值最大的第一音频数据;将第一音频数据的信号值作为第一更新因子对历史音频数据集进行更新,得到当前音频数据集;获取当前音频数据集中信号值最大的第二音频数据;将第二音频数据的信号值作为第二更新因子对历史音频增益进行更新,得到当前音频增益。本方案通过获取当前时间段内符合预设条件且信号值最大的第一音频数据对历史音频数据集进行更新,然后再获取前音频数据集中信号值最大的第二音频数据对历史音频增益进行更新,从而实现对音频增益的自适应调整,避免音频信号失真,提高语音唤醒的效果。
为便于更好的实施本申请实施例提供的音频增益调整方法,本申请实施例还提供了一种音频增益调整装置。其中名词的含义与上述音频增益调整方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图3,图3是本申请实施例提供的音频增益调整装置的结构示意图。该音频增益调整装置可以包括:第一获取单元201、音频更新单元202、第二获取单元203和增益更新单元204。其中,
第一获取单元201,用于获取当前时间段内符合预设条件且信号值最大的第一音频数据;
音频更新单元202,用于将第一音频数据的信号值作为第一更新因子对历史音频数据集进行更新,得到当前音频数据集;
第二获取单元203,用于获取当前音频数据集中信号值最大的第二音频数据;
增益更新单元204,用于将第二音频数据的信号值作为第二更新因子对历史音频增益进行更新,得到当前音频增益。
以上各个单元的具体实施方式可参见上述的音频增益调整方法的实施例,在此不再一一赘述。
综上,本申请实施例提供的音频增益调整装置通过第一获取单元201获取当前时间段内符合预设条件且信号值最大的第一音频数据;由音频更新单元202将第一音频数据的信号值作为第一更新因子对历史音频数据集进行更新,得到当前音频数据集;由第二获取单元203获取当前音频数据集中信号值最大的第二音频数据;由增益更新单元204将第二音频数据的信号值作为第二更新因子对历史音频增益进行更新,得到当前音频增益。本方案通过获取当前时间段内符合预设条件且信号值最大的第一音频数据对历史音频数据集进行更新,然后再获取前音频数据集中信号值最大的第二音频数据对历史音频增益进行更新,从而实现对音频增益的自适应调整,避免音频信号失真,提高语音唤醒的效果。
本申请实施例还提供一种电子设备,其中可以集成本申请实施例的音频增益调整装置,如图4所示,其示出了本申请实施例所涉及的电子设备500的结构示意图,具体来讲:
该电子设备500可以集成上述音频处理装置,还可以进一步包括射频(RF,RadioFrequency)电路501、包括有一个或一个以上计算机可读存储介质的存储器502、输入单元503、显示单元504、传感器505、音频电路506、无线保真(WiFi,WirelessFidelity)模块507、包括有一个或者一个以上处理核心的处理器508、以及电源509等部件。本领域技术人员可以理解,图4中示出的电子设备500结构并不构成对电子设备500的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路501可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器508处理;另外,将涉及上行的数据发送给基站。通常,RF电路501包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,SubscriberIdentity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low NoiseAmplifier)、双工器等。此外,RF电路501还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global Systemof Mobile communication)、通用分组无线服务(GPRS ,GeneralPacketRadio Service)、码分多址(CDMA,Code DivisionMultiple Access)、宽带码分多址(WCDMA,Wideband CodeDivision Multiple Access)、长期演进(LTE,LongTermEvolution)、电子邮件、短消息服务(SMS,ShortMessaging Service)等。
存储器502可用于存储软件程序以及模块,处理器508通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及信息处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、目标数据播放功能等)等;存储数据区可存储根据电子设备500的使用所创建的数据(比如音频信号、电话本等)等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器508和输入单元503对存储器502的访问。
输入单元503可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元503可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器508,并能接收处理器508发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元503还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元504可用于显示由用户输入的信息或提供给用户的信息以及电子设备500的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元504可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid CrystalDisplay)、有机发光二极管(OLED,Organic Light-EmittingDiode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器508以确定触摸事件的类型,随后处理器508根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
电子设备500还可包括至少一种传感器505,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在电子设备500移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电子设备500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路506、扬声器,传声器可提供用户与电子设备500之间的音频接口。音频电路506可将接收到的音频信号转换后的电信号,传输到扬声器,由扬声器转换为样本信号输出;另一方面,传声器将收集的样本信号转换为电信号,由音频电路506接收后转换为音频信号,再将音频信号输出处理器508处理后,经RF电路501以发送给比如另一电子设备500,或者将音频信号输出至存储器502以便进一步处理。音频电路506还可能包括耳塞插孔,以提供外设耳机与电子设备500的通信。
WiFi属于短距离无线传输技术,电子设备500通过WiFi模块507可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块507,但是可以理解的是,其并不属于电子设备500的必须构成,完全可以根据需要在不改变本申请的本质的范围内而省略。
处理器508是电子设备500的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行电子设备500的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器508可包括一个或多个处理核心;优选的,处理器508可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器508中。
电子设备500还包括给各个部件供电的电源509(比如电池),优选的,电源可以通过电源管理系统与处理器508逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源509还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源数据指示器等任意组件。
尽管未示出,电子设备500还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备500中的处理器508会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器508来运行存储在存储器502中的应用程序,从而实现各种功能,比如:
获取当前时间段内符合预设条件且信号值最大的第一音频数据;
将第一音频数据的信号值作为第一更新因子对历史音频数据集进行更新,得到当前音频数据集;
获取当前音频数据集中信号值最大的第二音频数据;
将第二音频数据的信号值作为第二更新因子对历史音频增益进行更新,得到当前音频增益。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文音频处理方法的详细描述,此处不再赘述。
在本申请实施例提供的电子设备500可以通过获取当前时间段内符合预设条件且信号值最大的第一音频数据;将第一音频数据的信号值作为第一更新因子对历史音频数据集进行更新,得到当前音频数据集;获取当前音频数据集中信号值最大的第二音频数据;将第二音频数据的信号值作为第二更新因子对历史音频增益进行更新,得到当前音频增益。本方案通过获取当前时间段内符合预设条件且信号值最大的第一音频数据对历史音频数据集进行更新,然后再获取前音频数据集中信号值最大的第二音频数据对历史音频增益进行更新,从而实现对音频增益的自适应调整,避免音频信号失真,提高语音唤醒的效果。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对音频增益调整方法的详细描述,此处不再赘述。
需要说明的是,对本申请实施例中的音频增益调整方法而言,本领域技术人员可以理解实现本申请实施例中的音频增益调整方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,如存储在终端的存储器中,并被该终端内的至少一个处理器执行,在执行过程中可包括如音频增益调整方法的实施例的流程。
对本申请实施例的音频增益调整装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,还可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种音频增益调整方法中的步骤。其中,该存储介质可以为磁碟、光盘、只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)等。
以上分别对本申请所提供的音频增益调整方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种音频增益调整方法,其特征在于,包括:
获取当前时间段内符合预设条件且信号值最大的第一音频数据;
将所述第一音频数据的信号值作为第一更新因子对历史音频数据集进行更新,得到当前音频数据集;
获取所述当前音频数据集中信号值最大的第二音频数据;
将所述第二音频数据的信号值作为第二更新因子对历史音频增益进行更新,得到当前音频增益。
2.如权利要求1所述的音频增益调整方法,其特征在于,所述将所述第二音频数据的信号值作为第二更新因子对历史音频增益进行更新,得到当前音频增益,包括:
获取音频量化最大值;
计算所述音频量化最大值与所述第二音频数据的信号值的商,得到初始音频增益;
按照预设策略对所述初始音频增益进行削弱,得到当前音频增益。
3.如权利要求2所述的音频增益调整方法,其特征在于,所述按照预设策略对所述初始音频增益进行削弱,得到当前音频增益,包括:
将所述初始音频增益的二分之一作为当前音频增益。
4.如权利要求1所述的音频增益调整方法,其特征在于,所述获取当前时间段内符合预设条件且信号值最大的第一音频数据,包括:
采集当前时间段内的第三音频数据;
将所有所述第三音频数据区分为第一音频数据集和第二音频数据集;
从所述第一音频数据集或所述第二音频数据集中选取信号值最大的第三音频数据作为所述第一音频数据。
5.如权利要求4所述的音频增益调整方法,其特征在于,所述将所有所述第三音频数据区分为第一音频数据集和第二音频数据集,包括:
将所有所述第三音频数据区分为人声音频数据集和环境声音频数据集;
所述从所述第一音频数据集或所述第二音频数据集中选取信号值最大的第三音频数据作为所述第一音频数据,包括:
从所述人声音频数据集选取信号值最大的第三音频数据作为所述第一音频数据。
6.如权利要求4所述的音频增益调整方法,其特征在于,所述将所有所述第三音频数据区分为第一音频数据集和第二音频数据集,包括:
将所有所述第三音频数据区分为前景声音频数据集和背景声音频数据集;
所述从所述第一音频数据集或所述第二音频数据集中选取信号值最大的第三音频数据作为所述第一音频数据,包括:
从所述前景声音频数据集选取信号值最大的第三音频数据作为所述第一音频数据。
7.如权利要求4所述的音频增益调整方法,其特征在于,在所述采集当前时间段内的第三音频数据之后,所述将所有所述第三音频数据区分为第一音频数据集和第二音频数据集之前,还包括:
确定所有所述第三音频数据中是否存在前景声或人声;
若是,则执行将所有所述第三音频数据区分为第一音频数据集和第二音频数据集的步骤。
8.一种音频增益调整装置,其特征在于,包括:
第一获取单元,用于获取当前时间段内符合预设条件且信号值最大的第一音频数据;
音频更新单元,用于将所述第一音频数据的信号值作为第一更新因子对历史音频数据集进行更新,得到当前音频数据集;
第二获取单元,用于获取所述当前音频数据集中信号值最大的第二音频数据;
增益更新单元,用于将所述第二音频数据的信号值作为第二更新因子对历史音频增益进行更新,得到当前音频增益。
9.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1-7任一项所述的音频增益调整方法。
10.一种电子设备,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的音频增益调整方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310736063.2A CN116486833B (zh) | 2023-06-21 | 2023-06-21 | 音频增益调整方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310736063.2A CN116486833B (zh) | 2023-06-21 | 2023-06-21 | 音频增益调整方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116486833A true CN116486833A (zh) | 2023-07-25 |
CN116486833B CN116486833B (zh) | 2023-09-22 |
Family
ID=87212185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310736063.2A Active CN116486833B (zh) | 2023-06-21 | 2023-06-21 | 音频增益调整方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486833B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153192A (zh) * | 2023-10-30 | 2023-12-01 | 科大讯飞(苏州)科技有限公司 | 音频增强方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100232624A1 (en) * | 2009-03-13 | 2010-09-16 | Vimicro Electronics Corporation | Method and System for Virtual Bass Enhancement |
CN110349595A (zh) * | 2019-07-22 | 2019-10-18 | 浙江大华技术股份有限公司 | 一种音频信号自动增益控制方法、控制设备及存储介质 |
CN111833900A (zh) * | 2020-06-16 | 2020-10-27 | 普联技术有限公司 | 音频增益控制方法、系统、设备和存储介质 |
CN114333894A (zh) * | 2021-11-19 | 2022-04-12 | 科大讯飞股份有限公司 | 增益补偿方法及相关装置、设备、系统和存储介质 |
-
2023
- 2023-06-21 CN CN202310736063.2A patent/CN116486833B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100232624A1 (en) * | 2009-03-13 | 2010-09-16 | Vimicro Electronics Corporation | Method and System for Virtual Bass Enhancement |
CN110349595A (zh) * | 2019-07-22 | 2019-10-18 | 浙江大华技术股份有限公司 | 一种音频信号自动增益控制方法、控制设备及存储介质 |
CN111833900A (zh) * | 2020-06-16 | 2020-10-27 | 普联技术有限公司 | 音频增益控制方法、系统、设备和存储介质 |
CN114333894A (zh) * | 2021-11-19 | 2022-04-12 | 科大讯飞股份有限公司 | 增益补偿方法及相关装置、设备、系统和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153192A (zh) * | 2023-10-30 | 2023-12-01 | 科大讯飞(苏州)科技有限公司 | 音频增强方法、装置、电子设备和存储介质 |
CN117153192B (zh) * | 2023-10-30 | 2024-02-20 | 科大讯飞(苏州)科技有限公司 | 音频增强方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116486833B (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102354275B1 (ko) | 음성 인식 방법 및 장치, 그리고 저장 매체 | |
CN107679559B (zh) | 图像处理方法、装置、计算机可读存储介质和移动终端 | |
CN109509473B (zh) | 语音控制方法及终端设备 | |
EP4175349A1 (en) | Method for processing relax measurement parameter update and terminal device | |
CN116486833B (zh) | 音频增益调整方法、装置、存储介质及电子设备 | |
CN106682189B (zh) | 文件名显示方法及装置 | |
CN115985323B (zh) | 语音唤醒方法、装置、电子设备及可读存储介质 | |
CN106649595B (zh) | 一种基于对象池的网页启动加速方法、装置及终端 | |
CN104954231B (zh) | 一种发送、显示推荐信息的方法及装置 | |
CN111027406B (zh) | 图片识别方法、装置、存储介质及电子设备 | |
CN109688548B (zh) | Volte频段共享方法、服务器、移动终端和存储介质 | |
CN104809121B (zh) | 一种控制浏览器网页窗口显示的方法及装置 | |
CN106714149B (zh) | 无线网络接入方法、装置与终端设备 | |
CN115995231B (zh) | 语音唤醒方法、装置、电子设备及可读存储介质 | |
CN111405649B (zh) | 一种信息传输方法、装置及移动终端 | |
CN114189436B (zh) | 一种多集群配置部署方法、装置、电子设备和存储介质 | |
CN111666485A (zh) | 一种信息推荐方法、装置及终端 | |
CN110891304B (zh) | 一种移动终端gps耗电控制方法 | |
CN116030821A (zh) | 音频处理方法、装置、电子设备及可读存储介质 | |
CN111614839B (zh) | 一种天线自适应控制方法及装置 | |
CN109561481B (zh) | 一种数据发送方法、终端和存储介质 | |
CN112199049B (zh) | 一种指纹储存方法、装置及终端 | |
CN116631423A (zh) | 音频信号处理方法、装置、存储介质及电子设备 | |
CN108959380B (zh) | 一种信息推送方法、装置及客户端 | |
CN116665699A (zh) | 数字音频处理方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Audio gain adjustment method, device, storage medium, and electronic equipment Granted publication date: 20230922 Pledgee: Jiang Wei Pledgor: BEIJING INTENGINE TECHNOLOGY Co.,Ltd. Registration number: Y2024980019734 |