CN116723438A - 修正参数生成方法和装置 - Google Patents
修正参数生成方法和装置 Download PDFInfo
- Publication number
- CN116723438A CN116723438A CN202310615131.XA CN202310615131A CN116723438A CN 116723438 A CN116723438 A CN 116723438A CN 202310615131 A CN202310615131 A CN 202310615131A CN 116723438 A CN116723438 A CN 116723438A
- Authority
- CN
- China
- Prior art keywords
- channel
- audio data
- target
- model
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 122
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000004044 response Effects 0.000 claims abstract description 36
- 238000012986 modification Methods 0.000 claims abstract description 31
- 230000004048 modification Effects 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000015654 memory Effects 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/22—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only
- H04R1/26—Spatial arrangements of separate transducers responsive to two or more frequency ranges
Landscapes
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
本申请公开了修正参数生成方法和装置,涉及音频处理技术领域。方法的一具体实施方式包括:响应于确定原始音频数据的原始声道布局与播放设备的目标声道布局不匹配,基于原始声道布局的各声道与所述目标声道布局的各对应声道的数量关系,确定目标修正模型;获取原始音频数据的场景类别;将第一指定数据输入目标修正模型,得到修正参数。该实施方式有效提升了生成的用于修正音频数据的修正参数的准确性和可靠性。
Description
技术领域
本申请涉及计算机技术领域,具体涉音频处理技术领域,尤其涉及一种修正参数生成方法和装置。
背景技术
随着音频行业的不断发展,不同层次、不同领域的各种需求和用户量激增。同时网络音频的使用设备逐渐变得多元化,由于设备的多元化,设备生产或播放音频的标准并不统一,使得不同设备之间的兼容性较差,同一音频在不同设备上的表现大相径庭,用户体验不佳。
对于大多数音频播放系统来说:如果音频的声道布局的声道数量超过了音频播放设备可支持的声道布局的最大声道数量,设备会直接丢弃多余的声道,只保留设备支持的声道数据进行播放,该方式会破坏音频的真实性;如果音频的声道布局的声道数量低于音频播放设备可支持的声道布局的最大声道数量,音频播放设备通常选择直接播放音频或在剩余声道填充空数据,该方式会导致设备性能过剩或闲置,用户体验不佳。
发明内容
本申请实施例提供了一种修正参数生成方法、装置、设备以及存储介质。
根据第一方面,本申请实施例提供了一种修正参数生成方法,该方法包括:响应于确定原始音频数据的原始声道布局与播放设备的目标声道布局不匹配,基于原始声道布局的各声道与所述目标声道布局的各对应声道的数量关系,确定目标修正模型;获取原始音频数据的场景类别;将第一指定数据输入目标修正模型,得到修正参数。
根据第二方面,本申请实施例提供了一种修正参数生成装置,包括:确定模块,被配置成响应于确定原始音频数据的原始声道布局与播放设备的目标声道布局不匹配,基于原始声道布局的各声道与所述目标声道布局的各对应声道的数量关系,确定目标修正模型;获取模块,被配置成获取原始音频数据的场景类别;生成模块,被配置成将第一指定数据输入目标修正模型,得到修正参数。
根据第三方面,本申请实施例提供了一种电子设备,该电子设备包括一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被该一个或多个处理器执行,使得一个或多个处理器实现如第一方面的任一实施例的修正参数生成方法。
根据第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面的任一实施例的修正参数生成方法。
本申请通过响应于确定原始音频数据的原始声道布局与播放设备的目标声道布局不匹配,基于原始声道布局的各声道与所述目标声道布局的各对应声道的数量关系,确定目标修正模型;获取原始音频数据的场景类别;将第一指定数据输入目标修正模型,得到修正参数,充分考虑了音频数据的场景分类对音频处理的影响,提升了生成的用于修正音频数据的修正参数的准确性和可靠性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其他特征将通过以下的说明书而变得容易理解。
附图说明
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的修正参数生成方法的一个实施例的流程图;
图3是根据本申请的修正参数生成方法的一个应用场景的示意图;
图4a是根据本申请的修正参数生成方法的又一个实施例的流程图;
图4b是根据本申请的修正参数生成方法的又一个实施例的示意图;
图5是根据本申请的修正参数生成装置的一个实施例的示意图;
图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的修正参数生成方法的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有客户端应用软件,例如,播放类应用软件、通信类应用软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、台式计算机、投影仪等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如,响应于确定原始音频数据的原始声道布局与播放设备的目标声道布局不匹配,基于原始声道布局的各声道与所述目标声道布局的各对应声道的数量关系,确定目标修正模型;获取原始音频数据的场景类别;将第一指定数据输入目标修正模型,得到修正参数。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供修正参数生成服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要指出的是,本公开的实施例所提供的修正参数生成方法可以由服务器105执行,也可以由终端设备101、102、103执行,还可以由服务器105和终端设备101、102、103彼此配合执行。相应地,修正参数生成装置包括的各个部分(例如各个单元、子单元、模块、子模块)可以全部设置于服务器105中,也可以全部设置于终端设备101、102、103中,还可以分别设置于服务器105和终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示出了可以应用于本申请的修正参数生成方法的实施例的流程200。修正参数生成方法包括以下步骤:
步骤201,响应于确定原始音频数据的原始声道布局与播放设备的目标声道布局不匹配,基于原始声道布局的各声道与目标声道布局的各对应声道的数量关系,确定目标修正模型。
在本实施例中,执行主体(例如,图1中终端设备101、102、103或服务器105)可通过有线连接方式或无线连接方式获取原始音频数据,例如,游戏音频数据、电影音频数据、对话音频数据等待在播放设备上进行播放的音频数据,并判断原始音频数据的原始声道布局与播放设备的目标声道布局是否匹配,若不匹配,则进一步判断原始声道布局的各声道与目标声道布局的各对应声道的数量关系,并基于原始声道布局的各声道与目标声道布局的各对应声道的数量关系,确定目标修正模型。
这里,无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
其中,目标修正模型可以为上混模型或下混模型。
这里,声道布局的各声道通常包括环绕声道、低音声道和高度声道。
具体地,若原始声道布局的环绕声道、低音声道和高度声道中的各项声道的数量均大于等于目标声道布局对应声道的数量,则可确定目标修正模型为下混模型;若原始声道布局的环绕声道、低音声道和高度声道中的各项声道的数量均小于等于目标声道布局对应声道的数量,则可确定目标修正模型为上混模型。
需要指出的是,若原始音频数据的原始声道布局与播放设备的目标声道布局不匹配,并且原始声道布局的环绕声道、低音声道和高度声道中既存在至少一项声道的数量小于目标声道布局对应声道的数量,又存在至少一项声道的数量大于目标声道布局对应声道的数量,则目标修正模型既可以是上混模型,也可以是下混模型。
例如,原始声道布局为5.1.4,目标声道布局为7.1,其中,原始声道布局的高度声道的数量4大于目标声道布局的高度声道的数量0,原始声道布局的环绕声道的数量5小于目标声道布局的环绕声道的数量7,目标修正模型既可以是上混模型,又可以是下混模型。
其中,上混模型可以基于标注有上混参数的指定数据样本训练得到,标注有上混参数的指定数据样本包括一对存在差异的声道布局(前布局声道布局和后布局声道布局,前布局声道布局存在至少一项声道的数量小于后布局声道布局对应声道的数量)、对应前布局声道布局的音频数据的响度和场景类别;下混模型可以基于标注有下混参数的指定数据样本训练得到,标注有下混参数的指定数据样本包括一对存在差异的声道布局(前布局声道布局和后布局声道布局,前布局声道布局存在至少一项声道的数量大于后布局声道布局对应声道的数量)、对应前布局声道布局的音频数据的响度和场景类别。
此外,需要指出的是,修正参数,即上混参数或下混参数,的数量通常由修正前声道布局和修正后声道布局之间的差异决定,例如,从7.1.4声道布局下混到5.1声道布局需要6个参数,其中,3个参数应用于环绕声道,其余3个参数应用于高度声道。修正参数的值通常由场景类别和响度决定,例如,在下混过程中,对于对话场景,高度声道的参数值较小,环绕声道的参数值较大,有助于对话内容更清晰;对于游戏场景,高度声道的参数值较大,环绕声道的参数值较小,有助于加强音频的定向感和空间感;在上混过程中,对于游戏场景,通过参数值对环境信号进行增强;对于对话场景,通过参数值对环境信号进行减弱。
在一些可选的方式中,基于原始声道布局的各声道与目标声道布局的各对应声道的数量关系,确定目标修正模型,包括:响应于确定原始声道布局的环绕声道、低音声道和高度声道中的各项声道的数量均大于等于目标声道布局对应声道的数量,确定目标修正模型为下混模型。
在本实现方式中,若原始音频数据的原始声道布局与播放设备的目标声道布局不匹配,并且原始声道布局的环绕声道、低音声道和高度声道中的各项声道的数量均大于等于目标声道布局对应声道的数量,则可确定目标修正模型为下混模型。
具体地,原始声道布局为7.1.4,目标声道布局为5.1,其中,原始声道布局的环绕声道的数量7大于目标声道布局的环绕声道的数量5,原始声道布局的高度声道的数量4大于目标声道布局的高度声道的数量0,可确定目标修正模型为下混模型。
该实现方式通过响应于原始声道布局的环绕声道、低音声道和高度声道中的各项声道的数量均大于等于目标声道布局对应声道的数量,确定目标修正模型为下混模型,提升了确定出目标修正模型的准确性。
在一些可选的方式中,基于原始声道布局的各声道与目标声道布局的各对应声道的数量关系,确定目标修正模型,包括:响应于确定原始声道布局的环绕声道、低音声道和高度声道中的各项声道的数量均小于等于目标声道布局对应声道的数量,确定目标修正模型为上混模型。
在本实现方式中,若原始音频数据的原始声道布局与播放设备的目标声道布局不匹配,并且原始声道布局的环绕声道、低音声道和高度声道中各项声道的数量均小于等于目标声道布局对应声道的数量,则可确定目标修正模型为上混模型。
具体地,原始声道布局为5.1,目标声道布局为5.1.4,其中,原始声道布局的高度声道的数量0小于目标声道布局的高度声道的数量4,因此,可确定目标修正模型为上混模型。
该实现方式通过响应于确定原始声道布局的环绕声道、低音声道和高度声道中的各项声道的数量均小于等于目标声道布局对应声道的数量,确定目标修正模型为上混模型,提升了确定出目标修正模型的准确性。
步骤202,获取原始音频数据的场景类别。
在本实施例中,执行主体可以根据原始音频数据及预设的音频数据与场景类别对照表确定原始音频数据的场景类别,也可以将原始音频数据输入预设的分类模型,得到原始音频数据的场景类别,本申请对此不作限定。
其中,预设的分类模型可以基于标注有场景类别的音频数据样本训练得到。
在一些可选的方式中,获取原始音频数据的场景类别,包括:将原始音频数据输入预设的分类模型,得到原始音频数据的场景类别。
在本实现方式中,执行主体可将原始音频数据输入预设的分类模型,得到原始音频数据的场景类别。
其中,场景类别可以为电影场景、游戏场景、对话场景等,本申请对此不作限定。
这里,预设的分类模型包括特征提取器、时间相关向量提取器和预估器。
其中,特征提取器用于获取原始音频数据的音频特征,时间相关向量提取器用于提取特征提取器输出的音频特征和之前获取特征的时间相关向量,预估器用于根据音频特征及时间相关向量,确定场景类别。
这里,特征提取器通常由卷积层和全连接层构成,预估器,即分类器,可以由多个全连接层构成,具体地,特征提取器可以由三段卷积和一个全连接层构成,预估器可以由两个全连接层构成。
该实现方式通过将原始音频数据输入预设的分类模型,得到原始音频数据的场景类别,提高了确定出的场景类别的准确性。
步骤203,将第一指定数据输入目标修正模型,得到修正参数。
在本实施例中,执行主体可将第一指定数据输入上述确定出的目标修正模型,得到修正参数,其中,修正参数可以为与所述上混模型对应的第一上混参数或与所述下混模型对应的第一下混参数。
这里,第一指定数据包括:原始音频数据的响度、场景类别、原始声道布局和目标声道布局。
具体地:响应于确定目标修正模型为下混模型,将指定数据输入下混模型,得到第一下混参数。响应于确定目标模型为上混模型,将指定数据输入上混模型,得到第一上混参数。
继续参见图3,图3是根据本实施例的修正参数生成方法的应用场景的一个示意图。
执行主体301获取到原始音频数据,如游戏音频,原始音频数据的声道布局为7.1.4,播放设备,如VR/AR设备,的目标声道布局为5.1,响应于确定原始音频数据的原始声道布局与播放设备的目标声道布局不匹配,基于原始声道布局的各声道与目标声道布局的各对应声道的数量关系,确定目标修正模型,如下混模型;获取所述原始音频数据的场景类别,如游戏场景;将第一指定数据302输入目标修正模型303,得到修正参数304,如下混参数。
本公开的实施例提供的修正参数生成方法,通过响应于确定原始音频数据的原始声道布局与播放设备的目标声道布局不匹配,基于原始声道布局的各声道与所述目标声道布局的各对应声道的数量关系,确定目标修正模型;获取原始音频数据的场景类别;将第一指定数据输入目标修正模型,得到修正参数,充分考虑了音频数据的场景分类对音频处理的影响,提升了生成的用于修正音频数据的修正参数的准确性和可靠性。
进一步参考图4a,其示出了修正参数生成方法的又一个实施例的流程400。在本实施例中,修正参数生成方法的流程400,可包括以下步骤:
步骤401,响应于确定原始音频数据的原始声道布局与播放设备的目标声道布局不匹配,基于原始声道布局的各声道与目标声道布局的各对应声道的数量关系,确定目标修正模型。
在本实施例中,步骤401的实现细节和技术效果,可以参考对步骤201的描述,在此不再赘述。
步骤402,获取原始音频数据的场景类别。
在本实施例中,步骤402的实现细节和技术效果,可以参考对步骤202的描述,在此不再赘述。
步骤403,将指定数据输入目标修正模型,得到修正参数。
在本实施例中,步骤403的实现细节和技术效果,可以参考对步骤203的描述,在此不再赘述。
步骤404,基于修正参数对原始音频数据进行修正,得到第一音频数据。
在本实施例中,执行主体在得到修正参数(第一上混参数或第一下混参数)后,可根据修正参数对原始音频数据进行修正,得到修正后的音频数据,即第一音频数据,并在对应目标声道布局的播放设备上播放第一音频数据。
具体地,响应于确定目标修正模型为下混模型,可基于第一下混参数对原始音频数据中声道数据的全部或部分进行加权处理,并将加权处理后的数据合并入目标声道布局相应声道,得到第一音频数据;响应于确定目标修正模型为上混模型,可基于第一上混参数对原始音频数据进行加权处理,得到第一音频数据。
此外,第一音频数据的声道布局与目标声道布局可以相匹配,也可以不相匹配,本申请对此不作限定。
若第一音频数据的声道布局与目标声道布局相匹配,可将第一音频数据确定为目标音频数据。
在一些可选的方式中,基于修正参数对原始音频数据进行修正,得到第一音频数据,包括:响应于确定目标修正模型为下混模型,基于第一下混参数对原始音频数据各声道数据进行加权处理,并将加权处理后的数据合并入目标声道布局相应声道,得到第一音频数据。
在本实现方式中,若目标修正模型为下混模型,执行主体可基于第一下混参数将原始音频数据进行加权处理,并将加权处理后的数据合并入目标声道布局相应声道,得到第一音频数据。
具体地,如图4b所示,原始音频数据(如游戏音频)的原始声道布局为7.1.4,其环绕声道数量、低音声道数量和高度声道数量均大于等于播放设备(如电视)的目标声道布局5.1的对应声道的数量,因此,目标修正模型为下混模型。将第一指定数据,即原始声道布局、目标声道布局、场景类别、原始音频数据的响度,输入下混模型,得到下混参数,下混参数具体为a=0.18366132、b=0.46504679、c=0.90630779、d=0.96155926、e=0.45315389、f=0.27459750,其中,a,c,d应用于环绕声道,b,e,f应用于高度声道,高度声道由于b,e较大,可以很大程度上保留到环绕声道,避免了直接丢弃通道造成的不良影响。
进一步地,将游戏音频的L,R,C,Lfe,Ls,Rs直接复制到电视相应的声道上,此外,将游戏音频中的Ls,Rs声道数据乘以a,Hfl,Hfr声道数据乘以b,然后合并入电视的L,R声道;Ls,Rs声道数据乘以c,Lb,Rb声道数据乘以d,Hfl,Hfr声道数据乘以e,Hbl,Hbr声道数据乘以f,然后合并入电视的Ls,Rs声道。最后,在电视上播放修正后的5.1声道的游戏音频,即第一音频数据。
该实现方式通过响应于确定目标修正模型为下混模型,基于第一下混参数对原始音频数据各声道数据进行加权处理,并将加权处理后的数据合并入目标声道布局相应声道,得到第一音频数据,避免了将多余声道数据全部或部分丢弃,使得生成的音频数据更加贴合原音频内容,有效增强了音质。
在一些可选的方式中,基于修正参数对原始音频数据进行修正,得到第一音频数据,包括:响应于确定目标修正模型为上混模型,提取原始音频数据的左右声道数据并从左右声道数据中分离出声音环境信号;基于所述第一上混参数,对左右声道数据、声音环境信号进行加权处理,并将加权处理后的数据填补至原始音频数据相对目标音频数据缺失的声道,得到第一音频数据。
在本实现方式中,若目标修正模型为上混模型,执行主体可首先提取原始音频数据的左右声道数据,并从左右声道数据中分离出声音环境信号,基于第一上混参数,对左右声道数据、声音环境信号进行加权处理,并将加权处理后的数据填补至原始音频数据相对目标音频数据缺失的声道。
这里,在左右声道数据中分离出的声音环境信号,可通过以下方式实现:
1、建立信号模型,声道信号的左右声道可描述为多个源信号与左声道和右声道中可加性不相关环境信号的加权和。单个源的权重被称为平移系数。平移系数在0到1之间,他们的平方和应该等于1。
为了反演信号模型和近似恢复源信号及其平移参数,需要进行两个简化。
i)在某一时刻瞬间和频段中,只有一个主导源,其他源的贡献接近于零。
ii)左右的环境信号听起来很相似,但它们是不相关的,左右环境信号源自一个单一的环境信号。
结合这两个假设,得到一个简化的信号模型。
2、源方向预估
混合环境信号的振幅可以假定远小于直接信号的幅值。这也意味着左右的力量主要取决于加权直接信号的功率可以从左右立体声声道的功率来估计。子带信号功率的简单估计可以通过系数的递归平均来确定。由此基于左右立体声声道的功率可以得到位置指数和角度的估计值。使用上述推演得出的平移系数和估计源方向对信号模型进行数学变换,得出直接信号和环境信号分量。环境信号即作为补充缺失声道的来源。
该实现方式通过响应于确定目标修正模型为上混模型,提取原始音频数据的左右声道数据并从左右声道数据中分离出声音环境信号;基于所述第一上混参数,对左右声道数据、声音环境信号进行加权处理,并将加权处理后的数据填补至原始音频数据相对目标音频数据缺失的声道,得到第一音频数据,扩充了原始音频声道,避免了音频品质过低和用户设备性能过剩,有效提升了用户体验。
在一些可选的方式中,该方法还包括:响应于确定目标修正模型为下混模型,并且第一音频数据的声道布局与目标声道布局不匹配,将第二指定数据输入上混模型,得到第二上混参数;基于第二上混参数对第一音频数据进行修正,得到目标音频数据。
在本实现方式中,执行主体响应于确定目标修正模型为下混模型,并且第一音频数据的声道布局与目标声道布局不匹配,可进一步将第二指定数据输入上混模型,得到第二上混参数;基于第二上混参数对第一音频数据进行修正,得到目标音频数据。
这里,第二指定数据包括:第一音频数据的响度、第一音频数据的声道布局、场景类别和目标声道布局。
其中,目标音频数据的声道布局与目标声道布局相匹配。第二上混参数用于指示将第一音频数据所分离的声音环境信号,填补至,第一音频数据的声道布局相对目标声道布局缺失的声道的参数。
具体地,原始音频数据(如电影音频)的原始声道布局为7.1,其环绕声道数量大于且高度声道数量小于播放设备(如用户家庭影院)5.1.2的声道布局对应声道数量,需要下混和上混。
其中,下混参数具体为a=0.3426864、b=0.92672619、c=0.91518348,a作为系数将环绕声道合并为左右声道,使用b和c将前后环绕声道合并为左右环绕声道。由于是电影场景,为了保证用户的体验,下混参数的值较大。
进一步地,将电影音频的L,R,C,Lfe,Ls,Rs直接复制到家庭影院相应的声道上,此外,将电影音频中的Ls,Rs声道数据乘以a,然后合并入电视的L,R声道;Ls,Rs声道数据乘以b,Lb,Rb声道数据乘以c,合并入家庭影院的Ls,Rs声道。
经过下混后的音频数据,即第一音频数据,的声道为L,R,C,Lfe,Ls,Rs,相对目标声道布局的声道缺失两个高度声道。将第二指定数据,即第一音频数据的响度、第一音频数据的声道布局、目标声道布局、场景类别,输入上混模型,得到第二上混参数,如,a=0.73242931,b=0.43523491,使用第一音频数据的L、R声道建立信号模型,分离出左右环境信号,将第一音频数据的:
L声道数据乘a,左环境信号乘以b,然后合并入家庭影院的Hl声道;
R声道数据乘a,右环境信号乘以b,然后合并入家庭影院的Hr声道;
经过上混后新扩展的声道为Hl,Hr,将Hl,Hr声道与先前第一音频数据的5.1声道音频进行混合,生成5.1.2声道音频,即目标音频数据。
最后,在家庭影院扬声器上播放5.1.2声道的电影音频。
该实现方式通过响应于确定目标修正模型为下混模型,并且第一音频数据的声道布局与目标声道布局不匹配,将第二指定数据输入上混模型,得到第二上混参数;基于第二上混参数对第一音频数据进行修正,得到目标音频数据,进一步提升了将原始音频数据还原到目标声道的有效性,提升了用户体验。
在一些可选的方式中,该方法还包括:响应于确定目标修正模型为上混模型,并且第一音频数据的声道布局与目标声道布局不匹配,将第二指定数据输入下混模型,得到第二下混参数;基于第二下混参数对第一音频数据进行修正,得到目标音频数据。
在本实现方式中,执行主体响应于确定目标修正模型为上混模型,并且第一音频数据的声道布局与目标声道布局不匹配,可进一步将第二指定数据输入下混模型,得到第二下混参数;基于第二下混参数对第一音频数据进行修正,得到目标音频数据。
其中,第二指定数据包括第一音频数据的声道布局,第一音频数据的响度、目标声道布局和场景类别。
这里,目标音频数据的声道布局与目标声道布局相匹配,第二下混参数用于指示将第一音频数据合并入目标声道布局相应声道的参数。
该实现方式通过响应于确定目标修正模型为上混模型,并且第一音频数据的声道布局与目标声道布局不匹配,将第二指定数据输入下混模型,得到第二下混参数;基于第二下混参数对第一音频数据进行修正,得到目标音频数据,进一步提升了将原始音频数据还原到目标声道的有效性,提升了用户体验。
本申请的上述实施例,与图2对应的实施例相比,本实施例中的修正参数生成方法的流程400体现了基于修正参数对原始音频数据进行修正,得到第一音频数据,实现了基于修正参数对原始音频数据的修正,提升了生成的用于播放的音频数据的真实性,提升了用户体验。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种修正参数生成装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的修正参数生成装置500包括:确定模块501、获取模块502和生成模块503。
其中,确定模块501,可被配置成响应于确定原始音频数据的原始声道布局与播放设备的目标声道布局不匹配,基于原始声道布局的各声道与所述目标声道布局的各对应声道的数量关系,确定目标修正模型。
获取模块502,可被配置成获取原始音频数据的场景类别。
生成模块503,可被配置成将第一指定数据输入目标修正模型,得到修正参数。
在本实施例的一些可选的方式中,该装置还包括:修正模块,被配置成基于修正参数对原始音频数据进行修正,得到第一音频数据。
在本实施例的一些可选的方式中,修正模块进一步被配置成响应于确定目标修正模型为下混模型,基于第一下混参数对原始音频数据各声道数据进行加权处理,并将加权处理后的数据合并入目标声道布局相应声道,得到第一音频数据。
在本实施例的一些可选的方式中,修正模块进一步被配置成响应于确定目标修正模型为上混模型,提取原始音频数据的左右声道数据并从左右声道数据中分离出声音环境信号;基于第一上混参数,对左右声道数据、声音环境信号进行加权处理,并将加权处理后的数据填补至原始音频数据相对目标音频数据缺失的声道,得到第一音频数据。
在本实施例的一些可选的方式中,该装置还包括:上混模块,被配置成响应于确定目标修正模型为下混模型,并且第一音频数据的声道布局与目标声道布局不匹配,将第二指定数据输入上混模型,得到第二上混参数;基于第二上混参数对第一音频数据进行修正,得到目标音频数据。
在本实施例的一些可选的方式中,该装置还包括:下混模块,被配置成响应于确定目标修正模型为上混模型,并且第一音频数据的声道布局与目标声道布局不匹配,将第二指定数据输入下混模型,得到第二下混参数;基于第二下混参数对第一音频数据进行修正,得到目标音频数据。
在本实施例的一些可选的方式中,获取模块进一步被配置成:将原始音频数据输入预设的分类模型,得到原始音频数据的场景类别。
在本实施例的一些可选的方式中,确定模块进一步被配置成:响应于确定原始声道布局的环绕声道、低音声道和高度声道中的各项声道的数量均大于等于目标声道布局对应声道的数量,确定目标修正模型为下混模型。
在本实施例的一些可选的方式中,确定模块进一步被配置成:响应于确定原始声道布局的环绕声道、低音声道和高度声道中的各项声道的数量均小于等于目标声道布局对应声道的数量,确定目标修正模型为上混模型。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的修正参数生成方法的电子设备的框图。
600是根据本申请实施例的修正参数生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的修正参数生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的修正参数生成方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的修正参数生成方法对应的程序指令/模块(例如,附图5所示的确定模块501、获取模块502和生成模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的修正参数生成方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储修正参数生成的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至修正参数生成的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
修正参数生成方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与直播视频流的质量监控的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,充分考虑了音频数据的场景分类对音频处理的影响,提升了生成的用于修正音频数据的修正参数的准确性和可靠性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (12)
1.一种修正参数生成方法,所述方法包括:
响应于确定原始音频数据的原始声道布局与播放设备的目标声道布局不匹配,基于所述原始声道布局的各声道与所述目标声道布局的各对应声道的数量关系,确定目标修正模型,所述目标修正模型为上混模型或下混模型;
获取所述原始音频数据的场景类别;
将第一指定数据输入所述目标修正模型,得到修正参数,所述修正参数为与所述上混模型对应的第一上混参数或与所述下混模型对应的第一下混参数,所述第一指定数据包括原始音频数据的响度、所述场景类别、所述原始声道布局和所述目标声道布局。
2.根据权利要求1所述的方法,所述方法还包括:
基于所述修正参数对所述原始音频数据进行修正,得到第一音频数据。
3.根据权利要求2所述的方法,其中,所述基于所述修正参数对所述原始音频数据进行修正,得到第一音频数据,包括:
响应于确定所述目标修正模型为下混模型,基于所述第一下混参数对原始音频数据各声道数据进行加权处理,并将加权处理后的数据合并入目标声道布局相应声道,得到第一音频数据。
4.根据权利要求2所述的方法,其中,所述基于所述修正参数对所述原始音频数据进行修正,得到第一音频数据,包括:
响应于确定所述目标修正模型为上混模型,提取原始音频数据的左右声道数据并从所述左右声道数据中分离出声音环境信号;
基于所述第一上混参数,对所述左右声道数据、声音环境信号进行加权处理,并将加权处理后的数据填补至原始音频数据相对目标音频数据缺失的声道,得到第一音频数据。
5.根据权利要求2所述的方法,所述方法还包括:
响应于确定所述目标修正模型为下混模型,并且所述第一音频数据的声道布局与目标声道布局不匹配,将第二指定数据输入上混模型,得到第二上混参数,其中,所述第二指定数据包括:第一音频数据的响度、场景类别、第一音频数据的声道布局和目标声道布局;
基于所述第二上混参数对所述第一音频数据进行修正,得到目标音频数据,所述目标音频数据的声道布局与目标声道布局相匹配。
6.根据权利要求2所述的方法,所述方法还包括:
响应于确定所述目标修正模型为上混模型,并且所述第一音频数据的声道布局与目标声道布局不匹配,将第二指定数据输入下混模型,得到第二下混参数,其中,所述第二指定数据包括:第一音频数据的响度、场景类别、第一音频数据的声道布局和目标声道布局;
基于所述第二下混参数对所述第一音频数据进行修正,得到目标音频数据,所述目标音频数据的声道布局与目标声道布局相匹配。
7.根据权利要求1所述方法,其中,所述获取所述原始音频数据的场景类别,包括:
将所述原始音频数据输入预设的分类模型,得到原始音频数据的场景类别,其中,所述预设的分类模型包括特征提取器、时间相关向量提取器和预估器,所述特征提取器用于提取所述原始音频数据的音频特征,所述时间相关向量提取器用于提取所述音频特征和之前获取特征的时间相关向量,所述预估器用于根据所述音频特征和时间相关向量,确定场景类别。
8.根据权利要求1所述方法,其中,所述基于所述原始声道布局的各声道与所述目标声道布局的各对应声道的数量关系,确定目标修正模型,包括:
响应于确定所述原始声道布局的环绕声道、低音声道和高度声道中的各项声道的数量均大于等于目标声道布局对应声道的数量,确定目标修正模型为下混模型。
9.根据权利要求1所述方法,其中,所述基于所述原始声道布局的各声道与所述目标声道布局的各对应声道的数量关系,确定目标修正模型,包括:
响应于确定所述原始声道布局的环绕声道、低音声道和高度声道中的各项声道的数量均小于等于目标声道布局对应声道的数量,确定目标修正模型为上混模型。
10.一种修正参数生成装置,所述装置包括:
确定模块,被配置成响应于确定原始音频数据的原始声道布局与播放设备的目标声道布局不匹配,基于所述原始声道布局的各声道与所述目标声道布局的各对应声道的数量关系,确定目标修正模型,所述目标修正模型为上混模型或下混模型;
获取模块,被配置成获取所述原始音频数据的场景类别;
生成模块,被配置成将第一指定数据输入所述目标修正模型,得到修正参数,所述修正参数为与所述上混模型对应的第一上混参数或与所述下混模型对应的第一下混参数,所述第一指定数据包括原始音频数据的响度、所述场景类别、所述原始声道布局和所述目标声道布局。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310615131.XA CN116723438A (zh) | 2023-05-26 | 2023-05-26 | 修正参数生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310615131.XA CN116723438A (zh) | 2023-05-26 | 2023-05-26 | 修正参数生成方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116723438A true CN116723438A (zh) | 2023-09-08 |
Family
ID=87870718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310615131.XA Pending CN116723438A (zh) | 2023-05-26 | 2023-05-26 | 修正参数生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116723438A (zh) |
-
2023
- 2023-05-26 CN CN202310615131.XA patent/CN116723438A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10511908B1 (en) | Audio denoising and normalization using image transforming neural network | |
KR20190024762A (ko) | 음악추천방법, 장치, 디바이스 및 저장매체 | |
US10149089B1 (en) | Remote personalization of audio | |
CN107168518B (zh) | 一种用于头戴显示器的同步方法、装置及头戴显示器 | |
CN111883166B (zh) | 一种语音信号处理方法、装置、设备以及存储介质 | |
CN111402868B (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
KR20170136004A (ko) | 사운드 스테이지 강화를 위한 장치 및 방법 | |
JP7293277B2 (ja) | 画像のレンダリング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム | |
US10277997B2 (en) | Processing object-based audio signals | |
US10504523B2 (en) | Voice processing device, voice processing method, and computer program product | |
WO2019129127A1 (zh) | 一种多终端协同播放音频文件的方法及终端 | |
CN112466318A (zh) | 语音处理方法、装置及语音处理模型的生成方法、装置 | |
CN110856005B (zh) | 直播流显示方法、装置、电子设备及可读存储介质 | |
CN111541905A (zh) | 一种直播方法、装置、计算机设备和存储介质 | |
CN112071326A (zh) | 音效处理方法和装置 | |
CN108874363A (zh) | 用于ar场景的对象控制方法、装置、设备及存储介质 | |
US9948691B2 (en) | Reducing input processing latency for remotely executed applications | |
US20200134739A1 (en) | Apparatus and method for soliciting dynamic group support for an individual video streaming an event | |
CN112489668A (zh) | 去混响方法、装置、电子设备和存储介质 | |
CN112529018A (zh) | 图像局部特征的训练方法、装置及存储介质 | |
CN112466327A (zh) | 语音处理方法、装置和电子设备 | |
CN116723438A (zh) | 修正参数生成方法和装置 | |
CN112581933A (zh) | 语音合成模型获取方法、装置、电子设备及存储介质 | |
US20240214757A1 (en) | Method and device for controlling vibration motor, non-transitory computer-readable storage medium, and electronic device | |
CN106385660B (zh) | 处理基于对象的音频信号 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |