CN117750120A - 自适应音效增强的方法、装置以及智慧屏 - Google Patents
自适应音效增强的方法、装置以及智慧屏 Download PDFInfo
- Publication number
- CN117750120A CN117750120A CN202211119941.8A CN202211119941A CN117750120A CN 117750120 A CN117750120 A CN 117750120A CN 202211119941 A CN202211119941 A CN 202211119941A CN 117750120 A CN117750120 A CN 117750120A
- Authority
- CN
- China
- Prior art keywords
- audio
- data
- video
- information
- played
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000002708 enhancing effect Effects 0.000 title abstract description 7
- 230000009471 action Effects 0.000 claims abstract description 17
- 238000003062 neural network model Methods 0.000 claims description 39
- 230000003044 adaptive effect Effects 0.000 claims description 30
- 230000007613 environmental effect Effects 0.000 claims description 20
- 230000006399 behavior Effects 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 description 22
- 238000004891 communication Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 238000002156 mixing Methods 0.000 description 8
- 238000011176 pooling Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 102100035366 Centromere protein M Human genes 0.000 description 1
- 101000737696 Homo sapiens Centromere protein M Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本公开实施例提供了一种自适应音效增强的方法、装置以及智慧屏,包括:获取待播放视频,待播放视频包括音频数据和视频数据,提取音频数据的音频特征信息,提取视频数据的视频特征信息,音频特征信息用于表征人物语言特征的信息,视频特征信息用于表征环境特征和人物动作特征的信息,根据音频特征信息和视频特征信息预测待播放视频的音频增益,其中,待播放视频的音频增益用于调整待播放视频的音效,在本实施例中,待播放视频的音频增益既考虑了人物语言特征的信息,也考虑了环境特征的信息,还考虑了人物动作特征的信息,且不同维度的内容紧紧围绕待播放视频展开,因此,待播放视频的音频增益具有较高的准确性和可靠性。
Description
技术领域
本公开涉及视频处理和智能终端技术领域,尤其涉及一种自适应音效增强的方法、装置以及智慧屏。
背景技术
用于播放视频的电子设备配置有一个多个音频播放器,以通过一个或多个音频播放器输出视频的音频数据,为了提高用户的观影体验,可以对音频数据的音效进行自适应调节。
例如,可以根据音频应用确定输入音频数据的来源,并根据输入音频数据的来源从预设的音效模式与音频数据来源的对应关系表中匹配出对应的音效模式,以利用匹配出的音效模式播放输入音频数据。
然而,上述示例性强依赖于音频应用,存在适用灵活性偏低的问题。
发明内容
为解决上述技术问题,本公开实施例提供了一种自适应音效增强的方法、装置以及智慧屏。
根据本公开实施例的一个方面,本公开实施例提供了自适应音效增强的方法,所述方法包括:
获取待播放视频,其中,所述待播放视频包括音频数据和视频数据;
提取所述音频数据的音频特征信息,提取所述视频数据的视频特征信息,其中,所述音频特征信息用于表征人物语言特征的信息,所述视频特征信息用于表征环境特征和人物动作特征的信息;
根据所述音频特征信息和所述视频特征信息预测所述待播放视频的音频增益,其中,所述待播放视频的音频增益用于调整所述待播放视频的音效。
在一些实施例中,所述方法还包括:
根据所述音频数据中各数据各自对应的类型属性,从所述音频数据中提取人声数据和天空音数据,其中,所述类型属性用于区分不同的声音种类;
以及,所述提取所述音频数据的音频特征信息,包括:提取所述人声数据和所述天空音数据各自对应的音频特征信息;
以及,所述根据所述音频特征信息和所述视频特征信息预测所述待播放视频的音频增益,包括:根据至少部分所述视频特征信息预测所述天空音数据的音频增益,根据所述视频特征信息和所述音频特征信息预测所述人声数据的音频增益,其中,所述待播放视频的音频增益包括所述天空音数据的音频增益和所述人声数据的音频增益。
在一些实施例中,所述根据待播放视频的音频数据中各数据各自对应的类型属性,从所述音频数据中提取人声数据和天空音数据,包括:
将所述音频数据输入至预先训练的神经网络模型,输出所述音频数据中各数据各自对应的标签,其中,所述神经网络模型是基于样本音频数据训练得到的,所述样本音频数据中的各数据被标注各自对应的标签,标签用于表征所述类型属性;
根据输出的标签,从所述音频数据中提取所述人声数据和所述天空音数据。
在一些实施例中,所述视频特征信息包括环境信息、时间信息、主色调信息、人物行为信息、人物表情信息;所述音频特征信息包括人物语言内容和人物语调变化信息;
所述根据至少部分所述视频特征信息预测所述天空音数据的音频增益,包括:根据所述环境信息、所述时间信息、所述主色调信息,预测所述天空音数据的音频增益;
以及,所述根据所述视频特征信息和所述音频特征信息预测所述人声数据的音频增益,包括:根据所述环境信息、所述时间信息、所述主色调信息、所述人物行为信息、所述人物表情信息、所述人物语言内容、以及所述人物语调变化信息,预测所述人声数据的音频增益。
在一些实施例中,所述方法还包括:
获取所述待播放视频的发声源在播放设备中的位置,其中,所述播放设备用于播放所述待播放视频;
根据所述发声源在播放设备中的位置、以及所述播放设备中各音频播放器各自对应的位置,确定各音频播放器各自对应的天空音数据的音频增益和人声数据的音频增益。
在一些实施例中,所述根据所述发声源在播放设备中的位置、以及所述播放设备中各音频播放器各自对应的位置,确定各音频播放器各自对应的天空音数据的音频增益和人声数据的音频增益;
计算所述发声源在播放设备中的位置、以及每一音频播放器的位置之间距离;
根据计算得到的各距离,确定各音频播放器各自对应的天空音数据的音频增益和人声数据的音频增益,其中,任意音频播放器的天空音数据的音频增益和人声数据的音频增益,与计算得到的所述任意音频播放器对应的距离成反比。
根据本公开实施例的另一个方面,本公开实施例还提供了一种自适应音效增强的装置,所述装置包括:
第一获取单元,用于获取待播放视频,其中,所述待播放视频包括音频数据和视频数据;
第一提取单元,用于提取所述音频数据的音频特征信息,提取所述视频数据的视频特征信息,其中,所述音频特征信息用于表征人物语言特征的信息,所述视频特征信息用于表征环境特征和人物动作特征的信息;
预测单元,用于根据所述音频特征信息和所述视频特征信息预测所述待播放视频的音频增益,其中,所述待播放视频的音频增益用于调整所述待播放视频的音效。
在一些实施例中,所述装置还包括:
第二提取单元,用于根据所述音频数据中各数据各自对应的类型属性,从所述音频数据中提取人声数据和天空音数据,其中,所述类型属性用于区分不同的声音种类;
以及,所述第一提取单元用于,提取所述人声数据和所述天空音数据各自对应的音频特征信息;
以及,所述预测单元用于,根据至少部分所述视频特征信息预测所述天空音数据的音频增益,根据所述视频特征信息和所述音频特征信息预测所述人声数据的音频增益,其中,所述待播放视频的音频增益包括所述天空音数据的音频增益和所述人声数据的音频增益。
在一些实施例中,所述第二提取单元,包括:
输入子单元,用于将所述音频数据输入至预先训练的神经网络模型,输出所述音频数据中各数据各自对应的标签,其中,所述神经网络模型是基于样本音频数据训练得到的,所述样本音频数据中的各数据被标注各自对应的标签,标签用于表征所述类型属性;
提取子单元,用于根据输出的标签,从所述音频数据中提取所述人声数据和所述天空音数据。
在一些实施例中,所述视频特征信息包括环境信息、时间信息、主色调信息、人物行为信息、人物表情信息;所述音频特征信息包括人物语言内容和人物语调变化信息;
所述预测单元用于,根据所述环境信息、所述时间信息、所述主色调信息,预测所述天空音数据的音频增益,并根据所述环境信息、所述时间信息、所述主色调信息、所述人物行为信息、所述人物表情信息、所述人物语言内容、以及所述人物语调变化信息,预测所述人声数据的音频增益。
在一些实施例中,所述装置还包括:
第二获取单元,用于获取所述待播放视频的发声源在播放设备中的位置,其中,所述播放设备用于播放所述待播放视频;
确定单元,用于根据所述发声源在播放设备中的位置、以及所述播放设备中各音频播放器各自对应的位置,确定各音频播放器各自对应的天空音数据的音频增益和人声数据的音频增益。
在一些实施例中,所述确定单元,包括:
计算子单元,用于计算所述发声源在播放设备中的位置、以及每一音频播放器的位置之间距离;
确定子单元,用于根据计算得到的各距离,确定各音频播放器各自对应的天空音数据的音频增益和人声数据的音频增益,其中,任意音频播放器的天空音数据的音频增益和人声数据的音频增益,与计算得到的所述任意音频播放器对应的距离成反比。
根据本公开实施例的另一个方面,本公开实施例还提供了一种智慧屏,所述智慧屏包括:
如上任一实施例所述的自适应音效增强的装置;
音频播放器,用于输出待播放视频的调整后的音效,其中,所述调整后的音效是基于所述自适应音效增强的装置确定出的待播放视频的音频增益,对所述待播放视频的原音效进行调整得到的。
根据本公开实施例的另一个方面,本公开实施例还提供了一种计算机存储介质,所述计算机存储介质上存储有计算机指令,当所述计算机指令在被处理器运行时,使得上述任一实施例所述的方法被执行。
根据本公开实施例的另一个方面,本公开实施例还提供了一种计算机程序产品,当所述计算机程序产品在处理器上运行时,使得上述任一实施例所述的方法被执行。
根据本公开实施例的另一个方面,本公开实施例还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机指令,所述计算机指令被所述至少一个处理器执行,使得上述任一实施例所述的方法被执行。
本公开实施例提供了一种自适应音效增强的方法、装置以及智慧屏,包括:获取待播放视频,其中,待播放视频包括音频数据和视频数据,提取音频数据的音频特征信息,提取视频数据的视频特征信息,其中,音频特征信息用于表征人物语言特征的信息,视频特征信息用于表征环境特征和人物动作特征的信息,根据音频特征信息和视频特征信息预测待播放视频的音频增益,其中,待播放视频的音频增益用于调整待播放视频的音效,在本实施例中,待播放视频的音频增益既考虑了人物语言特征的信息,也考虑了环境特征的信息,还考虑了人物动作特征的信息,所以,待播放视频的音频增益是基于不同维度的内容确定的,即用于预测待播放视频的音频增益的内容丰富,且不同维度的内容紧紧围绕待播放视频展开,即用于预测待播放视频的音频增益的内容准确,因此,待播放视频的音频增益具有较高的准确性和可靠性。
附图说明
附图用于更好地理解本公开实施例,不构成对本公开的限定。其中,
图1为本公开实施例的音频系统的示意图;
图2为本公开一个实施例的自适应音效增强的方法的流程示意图;
图3为本公开另一实施例的自适应音效增强的方法的流程示意图;
图4为本公开实施例的预测人声数据的音频增益和天空音数据的音频增益的原理示意图1;
图5为本公开实施例的多种声音种类的音频数据的示意图;
图6为本公开实施例的单一声音种类的音频数据的示意图;
图7为本公开实施例的基础神经网络模型的结构示意图;
图8为本公开实施例的提取人声数据和天空音数据的原理示意图;
图9为本公开实施例的预测人声数据的音频增益和天空音数据的音频增益的原理示意图2;
图10为本公开实施例的发生源、以及扬声器的在智慧屏中的位置的示意图;
图11为本公开实施例的扬声器的分布示意图;
图12为本公开一个实施例的自适应音效增强的装置的示意图;
图13为本公开另一实施例的自适应音效增强的装置的示意图;
图14为本公开实施例的电子设备的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例提供的自适应音效增强的方法,可以适用于如图1所示的音频系统。
如图1所示,音频系统包括:音频管理器Audio Flinger、音频硬体抽象层AudioHAL、数字音频处理器DSP、快速混合器Fast Mixer、扬声器Speaker、电视播放器TV Player、Hi Player全能播放器、全功能影音播放器AV Player、视频解码VDEC、视频流媒体服务器WIN、显示合成系统Surface Flinger、视频识别技术的视频流媒体服务器VirWIN、视频处理子系统VPSS、人工智能(Artificial Intelligence,AI)多媒体服务、双倍速率输入DDR-IN、双倍速率输出DDR-OUT、其他播放器、多媒体播放器Media Player、音频/视频批量转码工具Media Coder。
其中,音频管理器,用于策略的执行以及音频流设备的管理和数据的传输等。如图1所示,音频管理器可以对接收到的游戏/按键音的音频流、视频的音频流、多媒体服务器的音频流进行传输。
示例性的,如图1所示,音频管理器可以包括:快速混音线程FastMixer thread、直接线程Direct thread、混音线程Mixer thread。其中,快速混音线程和混音线程用于,将多个音轨的音频数据混音后再输出。直接线程用于,直接输出音频数据。
音频硬体抽象层Audio HAL,由音频管理器调用,用于实现音频数据与硬件设备的交互。
示例性的,如图1所示,音频硬体抽象层可以包括:低延迟输出流设备LowlatencyDev、直接输出流设备Direct Dev、主输出流设备Primary Dev。
其中,低延迟输出流设备中包括限制器Limiter,用于按键音、游戏背景音等对时延要求高的声音输出。直接输出流设备和主输出流设备用于输出音频数据。
数字音频处理器,用于将模拟信号转化为数字信号,然后对数字信号进行一系列可调谐的算法处理,满足改善音质、矩阵混音、消噪、消回音、消反馈等应用需求,再通过数模转换输出模拟信号。
示例性的,如图1所示,数字音频处理器可以包括混合器Mixer和音效处理器。
其中,混合器用于将多个音轨的音频数据混音后再输出。音效处理器用于对音频数据进行降噪、延迟、音量包罗等处理。
例如,经数字音频处理器的音频流可以通过双倍速率输入,输入至人工智能多媒体服务。相应的,经人工智能多媒体服务的音频流可以经双倍速率输出至数字音频处理器。
快速混合器,用于将多个音轨的音频数据混音后再输出。
扬声器,用于播放音频数据。
显示合成系统,可以接受多个来源的图像,以将不同来源的图像进行合成,并将合成后的数据发送到显示设备,以便显示设备对合成后的数据进行显示。
视频处理子系统,用于管理视频处理任务的每一窗口中的每一窗格,如图1中所示的窗口V0中的窗格Pane1。
人工智能多媒体服务,用于提供多媒体数据处理服务,如提供图片处理、音视频转码、水印、截图、智能审核、智能识别、智能标签等服务。
其中,可以基于人工智能多媒体服务实现音效的自适应调节,以使得上层应用不感知,如音频管理器和音频硬体抽象层等不感知。
例如,音效的自适应调节可以通过下述方法实现:
根据音频应用确定输入音频数据的来源,并根据输入音频数据的来源从预设的音效模式与音频数据来源的对应关系表中匹配出对应的音效模式,以利用匹配出的音效模式播放输入音频数据。
然而,一方面,该实施例提供的方法强依赖于音频应用,适用灵活性偏低;另一方面,需要预存音效模式与音频数据来源的对应关系表,即需要依赖于除音频数据以外的内容,且对应关系表局限了音效模式,即自适应调节的方式单一。
又如,音效的自适应调节可以通过下述方法实现:
将包括有低频信号的音频数据传输至处理器,由该处理器依据该低频信号产生音效增强信号,并该处理器输出包括该低频信号及该音效增强信号至扬声器。
然而,该实施例提供的方法对所有的音频数据都需要经过产生音效增强信号的特殊处理过程,难度和复杂度偏大,且适用灵活性偏低。
为了避免上述问题中的至少一种,本公开的发明人经过创造性的劳动,得到了本公开的自适应音效增强的方法的发明构思:从音频数据中提取用于表征人物语言特征的信息的音频特征信息,从视频数据中提取用于表征环境特征和人物动作特征的信息的视频特征信息,以结合音频特征信息和视频特征信息计算音频增益,从而结合音频增益调整待播放视频的音效。
下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本公开的实施例进行描述。
请参阅图2,图2为本公开一个实施例的自适应音效增强的方法的流程示意图。
如图2所示,该方法包括:
S201:获取待播放视频。其中,待播放视频包括音频数据和视频数据。
示例性的,本实施例的自适应音效增强的方法的执行主体可以为自适应音效增强的装置,该装置可以为终端设备,如屏幕终端,且具体可以为屏幕终端中的智慧屏。其中,智慧屏是一种智能硬件设备,一般指融合了音视频、健身、教育等更多交互模式的屏幕终端。当然,该装置也可以为其他设备,如服务器(如云端服务器,或者本地服务器),也可以为其他类型的终端设备,也可以为处理器,也可以为芯片等,本实施例不做限定。
应该理解的是,上述示例只是以屏幕终端为例,说明自适应音效增强的装置可以为终端设备中的屏幕终端,且具体可以为智慧屏,而不能理解为对屏幕终端的限定,也不能理解为对终端设备的限定。
例如,终端设备可以是移动终端,如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语言和/或数据;终端设备还可以是个人通信业务(PersonalCommunication Service,PCS)电话、无绳电话、会话发起协议(Session InitiationProtocol,SIP)话机、无线本地环路(Wireless Local Loop,WLL)站、个人数字助理(Personal Digital Assistant,PDA),平板型电脑、无线调制解调器(modem)、手持设备(handset)、膝上型电脑(laptop computer)、机器类型通信(Machine TypeCommunication,MTC)终端等设备;终端设备也可以称为系统、订户单元(SubscriberUnit)、订户站(Subscriber Station),移动站(Mobile Station)、移动台(Mobile)、远程站(Remote Station)、远程终端(Remote Terminal)、接入终端(Access Terminal)、用户终端(User Terminal)、用户代理(User Agent)、用户设备(User Device or User Equipment),等等,在此不作限定。
关于获取待播放视频可以采用下述示例实现:
一个示例中,自适应音效增强的装置可以提供载入视频的工具,以通过该载入视频的工具将待播放视频传输至自适应音效增强的装置。相应的,自适应音效增强的装置获取到待播放视频。
其中,载入视频的工具可以为用于与外接设备连接的接口,如用于与其他存储设备连接的接口,以通过该接口获取外接设备传输的待播放视频。
另一个示例中,自适应音效增强的装置可以与云端服务器建立通信链路,以基于该通信链路从云端服务器中获取待播放视频。
也就是说,待播放视频可以为本地存储的视频,也可以为非本地视频,如存储于云端的视频,或者存储于其他设备的视频。
应该理解的是,上述示例只是用于示范性的说明,可能获取待播放视频的方式,而不能理解为对获取待播放视频的方式的限定。
S202:提取音频数据的音频特征信息,提取视频数据的视频特征信息。其中,音频特征信息用于表征人物语言特征的信息,视频特征信息用于表征环境特征和人物动作特征的信息。
示例性的,人物语言特征的信息可以为音频数据中,人物在语言的内容维度的音频特征信息,也可以为音频数据中,人物在语调(如语气)维度的音频特征信息,等等。
视频特征信息可以表征两个维度的内容,一个维度的内容为环境维度的环境特征信息,另一个维度的内容为人物维度的人物动作特征的信息。
其中,环境维度可以包括待播放视频中的环境维度,如待播放视频的画面的色调等,也可以包括播放待播放视频的播放场景的环境维度,如播放待播放视频的时间等。
人物维度的内容可以包括人物的行为和表情等。
S203:根据音频特征信息和视频特征信息预测待播放视频的音频增益。其中,待播放视频的音频增益用于调整待播放视频的音效。
结合上述分析,音频特征信息为用于表征人物语言特征的信息,视频特征信息为用于表征环境特征和人物动作特征的信息,因此,该步骤可以理解为:根据表征人物语言特征的信息、表征环境特征的信息、以及人物动作特征的信息,对待播放视频的音频增益进行预测,以基于预测得到的待播放视频的音频增益对待播放视频的音效进行调整。
也就是说,待播放视频的音频增益既考虑了人物语言特征的信息,也考虑了环境特征的信息,还考虑了人物动作特征的信息,所以,待播放视频的音频增益是基于不同维度的内容确定的,即用于预测待播放视频的音频增益的内容丰富,且不同维度的内容紧紧围绕待播放视频展开,即用于预测待播放视频的音频增益的内容准确,因此,待播放视频的音频增益具有较高的准确性和可靠性。
且相较于上述基于对应关系实现音效的自适应调节的实施例,本实施例无需依赖于音频应用,所以可以避免上述实施例提供的方法强依赖于音频应用,适用灵活性偏低的弊端,具有较强的适用灵活性。且本实施例无需依赖于对应关系表,而与待播放视频强相关,所以可以避免上述实施例提供的方法造成的自适应调节的效果单一的弊端,具有较灵活的调节性能。
相较于上述对低频信号处理实现音效的自适应调节的实施例,本实施例无需对所有的音频数据产生音效增强信号的特殊处理,降低了调节音效的难度,具有较为普遍的适用性。
为了便于读者更为深刻的理解本公开实施例,现结合图3对本公开实施例进行更为详细的阐述。其中,图3为本公开另一实施例的自适应音效增强的方法的流程示意图,如图3所示,该方法包括:
S301:获取待播放视频。其中,待播放视频包括音频数据和视频数据。
应该理解的是,为了避免繁琐的陈述,关于本实施例与上述实施例相同的特征,本实施例不再赘述。
值得说明的是,视频包括多帧数据,在视频播放过程中,可以对待播放的数据进行缓存,以提高视频播放的流畅性。例如,可以以N帧数据为一个单元数据,播放第M个单元数据时,缓存第M+1个单元数据,当完成播放第M个单元数据时,播放缓存的第M+1个单元数据,并缓存第M+2个单元数据,以此类推。
其中,N和M均为大于等于1的正整数。N可以基于需求、历史记录、以及试验等方式确定。例如,N为10。
相应的,在本实施例中,待播放视频可以包括以当前帧为基准,在播放时间上与当前帧相邻的N帧待播放数据。
示例性的,视频包括如图4所示的视频帧和音频帧,视频帧和音频帧的当前帧均为帧m。相应的,如图4所示,视频帧中的帧m+10直至帧m+19为视频帧对应的缓存帧,音频帧中的帧m+10直至帧m+19为音频帧对应的缓存帧。则待播放视频包括视频帧对应的缓存帧和音频帧对应的缓存帧,即待播放视频包括音频数据和视频数据,音频数据包括音频帧中的帧m+10直至帧m+19,视频数据包括视频帧中的帧m+10直至帧m+19。
S302:根据音频数据中各数据各自对应的类型属性,从音频数据中提取人声数据和天空音数据。其中,类型属性用于区分不同的声音种类。
示例性的,人声数据可以理解为人物对象的声音数据,天空音数据可以理解为视频场景中的其他对象的声音数据,如视频场景中的飞机产生的声音数据,或者视频场景中雨滴产生的声音数据等。
值得说明的是,音频数据中通常包括多种类型的声波叠加,即音频数据中通常包括不同种类的声音,不同种类声音的声波的振幅和频率等特征各不相同,而最终的声音效果为不同声波振幅的混合效果。
例如,如图5所示,音频数据中的声音种类包括人声数据、天空音数据、噪音数据1、以及噪音数据2,人声数据、天空音数据、噪音数据1、以及噪音数据2具有不同的振幅。
在视频播放,用户观影时,对于观影体验影响较大的是人声数据和天空音数据,因此,为了提高用户的观影体验,在本实施例中,从音频数据中提取人声数据和天空音数据,以使得最终的声音效果为音频数据被分离成如图6所示的单独的人声数据、天空音数据,而剩余的数据可以混音成噪音数据。
在一些实施例中,提取人声数据和天空音数据可以基于神经网络模型的方式实现,如预先采集训练样本,基于训练样本对基础神经网络模型进行训练,以得到用于从包括多种声音种类的音频数据中区分人声数据和天空音数据的神经网路模型。
示例性的,训练样本为样本音频数据,样本音频数据中的各数据被标注各自对应的标签,标签用于表征类型属性,将样本音频数据输入至基础神经网络模型,预测得到样本音频数据中各数据各自对应的预测标签,将预测标签与标注的标签进行比对,得到损失函数,以基于损失函数对基础网络模型的参数进行调整,直至迭代次数达到迭代次数(可以基于需求、历史记录、以及试验等方式确定),或者,损失函数小于等于预设阈值(可以基于需求、历史记录、以及试验等方式确定),从而得到训练完成的神经网络模型。
例如,样本音频数据中的样本人声数据的标签为标签1,样本音频数据中的样本天空音数据的标签为标签2,样本音频数据中的其他样本数据(即非样本人声数据和非样本天空音数据)的标签为标签0。
其中,样本音频数据的数据量可以基于需求、历史记录、以及试验等方式确定,本实施例不做限定。例如,为了使得训练得到的神经网络模型具有较高的准确性和可靠性,样本音频数据的数据量可以相对较多。
本实施例对基础神经网络模型的类型、结构、以及参数等不做限定,例如,基础神经网络模型的结构可以为如图7所示的结构。如图7所示,基础神经网络模型包括卷积层Conv2D、残差网络模块层ResBlock、第一池化层PSP Pooling、上采样层UpSample、合并层Combine、第二池化层PSP Pooling、输出层Softmax。
其中,卷积层用于对输入的样本音频数据进行卷积处理;残差网络模块层用于缓解梯度消失问题;第一池化层和第二池化层用于对输入的数据进行池化处理,如下采样、降维、以及压缩等;上采样层用于对输入的数据进行上采样处理,合并层用于对输入的下采样后的数据、以及前一次经残差网络模块层的数据进行合并处理,例如,卷积核个数为1024的残差网络模块层的输出依次经过第一池化层和下采样层进入至合并层,合并层将该数据以及卷积核个数为512的残差网络模块层的输出结果进行合并处理;输出层用于对输入的数据进行预测,得到预测结果(即标签,如标签0,或者标签1,或者标签2)并输出。
相应的,若采样上述方法训练得到神经网络模型,则S302可以包括如下步骤:
第一步骤:将音频数据输入至预先训练的神经网络模型,输出音频数据中各数据各自对应的标签。
结合上述分析,神经网络模型可以为基于样本音频数据训练得到的,且样本音频数据中的各数据被标注各自对应的标签,标签用于表征类型属性。
第二步骤:根据输出的标签,从音频数据中提取人声数据和天空音数据。
示例性的,如图8所示,将音频数据输入至神经网络模型,输出音频数据中各数据各自对应的标签,如输出人声数据对应的标签1、天空音数据对应的标签2、其他数据对应的标签0。相应的,从音频数据中提取所有为标签1的数据,从而得到音频数据中的人声数据;从音频数据中提取所有为标签2的数据,从而得到音频数据中的天空音数据。如图8所示,若有需求,也可以从音频数据中提取所有为标签0的数据,以得到音频数据中的其他数据。
值得说明的是,在本实施例中,一方面,通过从音频数据中提取人声数据和天空音数据,以从人声数据和天空音数据两个维度确定音频数据的音频增益,避免了对音频数据的失真,音频数据依然完整;另一方面,通过从主要影响观影效果的人声数据和天空音数据两个维度调节音效,可以降低自适应音效增强的装置的负载,如当本实施例的方法应用于智慧屏时,可以降低智慧屏中的神经处理单元(NPU)的负载。
S303:提取音频数据的音频特征信息,提取视频数据的视频特征信息。其中,音频特征信息用于表征人物语言特征的信息,视频特征信息用于表征环境特征和人物动作特征的信息。
结合上述分析,音频数据中包括不同的声音种类,如人声数据、天空音数据、以及其他数据,相应的,音频特征信息可以为从不同的声音种类中提取到的,如从人声数据中提取到、又如从天空音数据中提取到的,再如从其他数据中提取到的。
示例性的,针对人声数据,可以提取人声数据中用于表征人物语言特征的信息,以得到人声数据对应的音频特征信息;针对天空音数据,可以提取天空音数据中用于表征人物语言特征的信息,以得到天空音数据中用于表征人物语言特征的信息;针对其他数据,可以提取其他数据中用于表征人物语言特征的信息,以得到其他数据中用于表征人物语言特征的信息。
例如,人声数据对应的音频特征信息可以理解为是基于人物的语言的内容或者语调等维度确定的,天空音数据对应的音频特征信息可以理解为基于环境,如天气或者视频场景中衬托人物的语言的内容的物体等确定的。
相对而言,人声数据通常是人物对话或者人物旁白形成的,相对能更丰富的表征人物语言特征的信息,因此,音频特征信息主要可以为从人声数据中提取到的。
结合上述分析和图4,待播放视频可以包括如图4中所述的视频帧中的帧i+10直至帧i+19、以及音频帧中的帧i+10直至帧i+19。相应的,提取音频数据的音频特征信息可以理解为:从音频帧中的帧i+10直至帧i+19中的每一音频帧中分别提取音频特征信息,以得到音频数据的音频特征信息;提取视频数据的视频特征信息可以理解为:从视频帧中的帧i+10直至帧i+19中的每一视频帧中分别提取视频特征信息,以得到视频数据的视频特征信息。
在一些实施例中,视频特征信息包括环境信息、时间信息、主色调信息、人物行为信息、人物表情信息。音频特征信息包括人物语言内容和人物语调变化信息。
示例性的,音频特征信息是从音频数据中获取到的,因此,相对而言,音频特征信息是从声音的维度获取到的,如视频场景中,人物在语言维度的内容,如音频特征信息包括如图9所示的人物语言内容和人物语调变化信息。
视频特征信息是从视频数据中获取到的,因此,相对而言,视频特征信息是从图像的维度获取到的,如在视频场景中,人物在动作维度的内容,或者,与环境相关的内容。示例性的,视频特征信息包括如图9所示的环境信息、时间信息、主色调信息、人物行为信息、以及人物表情信息。其中,环境信息可以为观影时的环境,如室内较为昏暗的环境等。
S304:根据至少部分视频特征信息预测天空音数据的音频增益,根据视频特征信息和音频特征信息预测人声数据的音频增益。
其中,待播放视频的音频增益包括天空音数据的音频增益和人声数据的音频增益,待播放视频的音频增益用于调整待播放视频的音效。
示例性的,结合上述分析和图9,S304可以包括如下步骤:
第一步骤:根据环境信息、时间信息、主色调信息,预测天空音数据的音频增益。
相应的,天空音数据的音频增益用于调整天空音数据的音效。
示例性的,当结合环境信息预测天空音数据的音频增益时,相当于可以通过观影时的空间环境(如室内)和亮度环境(如昏暗)等,预测天空音数据的音频增益。
例如,在较为昏暗的环境中,预测得到的天空音数据的音频增益相对较小,以满足用户在观影时,亮度环境与音效相对比较契合。
当结合时间信息预测天空音数据的音频增益时,相当于可以通过观影时的时间预测天空音数据的音频增益。
例如,若时间信息表征为深夜观影,则预测得到的天空音数据的音频增益可以相对较小。
通过结合环境信息、时间信息、以及主色调信息多个维度的内容,对天空音数据的音频增益进行预测,可以使得预测得到的天空音数据的音频增益与观影场景和视频场景紧密贴合,提高了用户的观影体验。
第二步骤:根据环境信息、时间信息、主色调信息、人物行为信息、人物表情信息、人物语言内容、以及人物语调变化信息,预测人声数据的音频增益。
相应的,人声数据的音频增益用于调整人声数据的音效。
同理,在该步骤中,通过结合环境信息、时间信息、主色调信息、人物行为信息、人物表情信息、人物语言内容、以及人物语调变化信息多个维度的内容,对人声数据的音频增益进行预测,可以使得预测得到的人声数据的音频增益与观影场景和视频场景更为契合,且使得预测得到的人声数据的音频增益与视频场景中的人物的肢体语言和口语语言高度贴合,提高了用户的观影体验。
应该理解的是,上述两个步骤之间没有必然的先后顺序,如可以先执行第一步骤,而后执行第二步骤,也可以先执行第二步骤,而后执行第一步骤,也可以同时执行第一步骤和第二步骤。
基于上述分析可知,可以基于神经网络模型的方式,从音频数据中获取人声数据和天空音数据。同理,在一些实施例中,可以通过神经网络模型的方式,预测天空音数据的音频增益和人声数据的音频增益。
示例性的,如图4所示,将提取到的视频特征信息和音频特征信息,输入至神经网络模型,输出天空音数据的音频增益和人声数据的音频增益。
其中,可以分别训练用于预测天空音数据的音频增益的神经网络模型、用于预测人声数据的音频增益的神经网络模型,也可以训练用于预测天空音数据的音频增益和人声数据的音频增益的神经网络模型。
也就是说,用于预测天空音数据的音频增益和人声数据的音频增益可以为一个神经网络模型,也可以为两个神经网络模型,在另一些实施例中,也可以针对用于预测天空音数据的音频增益和人声数据的音频增益中的每一维度内容,训练用于预测该维度内容对相应的音频增益的子自增益的神经网络模型,如基于环境信息训练基于环境信息预测天空音频数据的音频增益的子增益的神经网络模型。
以每一维度内容对应一个神经网络模型为例,可以采集该维度内容的样本数据,如样本环境信息,将样本环境信息输入至基础神经网络模型,输出0-1之间的预测值,计算预测值与预先标定的标定值(即标定的音频增益的子增益)之间的损失函数,并基于损失函数调整基础神经网络模型的参数,直至得到损失函数小于预设阈值或者迭代次数达到次数阈值的神经网络模型。同理,关于基础神经网络模型的类型、结构、以及初始参数等,本实施例不做限定。
相应的,关于训练既可以用于预测天空音数据的音频增益,又可以用于预测人声数据的音频增益的神经网络模型的实现原理,以及关于训练用于预测天空音数据的音频增益和训练用于预测人声数据的音频增益的神经网络模型的实现原理,可以参见上述示例,本实施例不再赘述。
在一些实施例中,可以为用于预测人声数据的音频增益和天空音数据的音频增益中的每一维度内容分配预测基数(或者称为权重系数),以在得到各维度内容各自对应的子增益之后,结合各子增益和各预测基数,计算得到人声数据的音频增益和天空音数据的音频增益。
应该理解的是,同一维度内容在预测不同的音频增益时,预测基数可以相同,也可以不同。如用于预测人声数据的音频增益的环境信息的预测基数、以及用于预测天空音数据的音频增益的环境信息的预测基数可能相同,也可能不同。
示例性的,如下表所示,用于预测人声数据的音频增益的环境信息、时间信息、主色调信息的预测基数分别为0.5,用于预测人声数据的音频增益的人物行为信息、人物表情信息、人物语言内容、以及人物语调变化信息的预测基数分别为1;用于预测天空音数据的音频增益的环境信息、时间信息、主色调信息的预测基数分别为1。
例如,若预测人声数据的音频增益时,基于环境信息预测得到的子增益为K1,基于时间信息预测得到的子增益为K2,基于主色调信息预测得到的子增益为K3,基于人物行为信息预测得到的子增益为K4,基于人物表情信息预测得到的子增益为K5,基于人物语言内容预测得到的子增益为K6,基于人物语调变化信息预测得到的子增益为K7,则可以基于式1计算得到人声数据的音频增益F1(单位为分贝db),式1:
F1=1/2(K1+K2+K3)+K4+K5+K6
又如,若预测天空音数据的音频增益时,基于环境信息预测得到的子增益为K1,基于时间信息预测得到的子增益为K2,基于主色调信息预测得到的子增益为K3,则可以基于式2计算得到天空音数据的音频增益F2(单位为分贝db),式2:
F2=K1+K2+K3
在一些实施例中,在调整待播放视频的音效时,可以基于调整待播放视频的振幅实现。例如,调整后的人声数据的振幅=(当前振幅*(当前音频+音频增益)/当前音频),调整后的天空音数据的振幅=(当前振幅*(当前音频+音频增益)/当前音频)。
S305:获取待播放视频的发声源在播放设备中的位置。其中,播放设备用于播放待播放视频。
示例性的,播放设备为智慧屏,则获取发声源在智慧屏中的位置。
在一些实施例中,可以先确定发声源,如待播放视频中可能有多个对象,且多个对象可以为人,也可以为物,而后确定该发声源在播放设备中的位置。
本实施例对确定发声源的方式不做限定,例如,可以提取待播放视频的图像,对图像进行分类识别,得到图像中的不同对象,如人物、交通工具、以及动物等,并确定各对象各自对应的声源置信度识别,以将声源置信度最高的对象确定为发生源。
值得说明的是,图像中可能包括多个人物,如图10所示,图像中包括两个人物,则可以通过人脸识别的方式确定发声源,如通过检测人物嘴型的变化的方式确定发声源,从而确定以观测图10的视角为基准的左侧人物为发生源。
相应的,在确定出发声源之后,可以基于发声源在图像中的位置,确定发声源在播放设备中的位置。例如,在待播放视频全屏播放的场景中,图像的大小与播放设备的屏幕大小相同,则可以基于图像中的像素对应于播放设备的屏幕的位置的对应关系,确定发声源在播放设备的位置。
S306:根据发声源在播放设备中的位置、以及播放设备中各音频播放器各自对应的位置,确定各音频播放器各自对应的天空音数据的音频增益和人声数据的音频增益。
示例性的,播放设备中包括多个音频播放器,音频播放器可以为扬声器,不同的扬声器部署于播放设备的不同位置。
相应的,针对任意音频播放器,根据发声源在播放设备中的位置、以及该音频播放器在播放设备中的位置,确定该音频播放器的天空音数据的音频增益、以及该音频播放器的人声数据的音频增益。
也就是说,在本实施例中,各音频播放器各自对应的天空音数据的音频增益和人声数据的音频增益不是对称输出,而是可能各不相同,具体可以基于发声源在播放设备中的位置、以及播放设备中各音频播放器各自对应的位置确定,以避免对称输出时,发声源在播放设备的中间位置,空间感较差的弊端,提高音频增益分配的灵活性,且提高了观影时音效的空间感和立体感。
在一些实施例中,S306可以包括如下步骤:
第一步骤:计算发声源在播放设备中的位置、以及每一音频播放器的位置之间距离。
示例性的,发声源在播放设备中的位置、各音频播放器在播放设备中的位置,可以通过坐标表示。如以播放设备的中心为空间坐标系原点,建立空间坐标系。
相应的,针对任意音频播放器i,可以基于式3计算该音频播放器i与距离声源在播放设备中的位置的距离di,式3:
其中,xs为发声源在播放设备的横坐标,ys为发声源在播放设备的纵坐标,zs为发声源在播放设备的竖坐标,xi为音频播放器i在播放设备的横坐标,yi为音频播放器i在播放设备的纵坐标,zi为音频播放器i在播放设备的竖坐标。
例如,若播放设备为智慧屏,智慧屏的中心为如图11所示的点O,智慧屏包括4个音频播放器,分别为如图11所示的扬声器1、扬声器2、扬声器3、以及扬声器4。
如图1所示,以点O为原点构建空间坐标系,则原点O的坐标为(xO,yO,zO),扬声器1的坐标为(x1,y1,z1),扬声器2的坐标为(x2,y2,z2),扬声器3的坐标为(x3,y3,z3),扬声器4的坐标为(x4,y4,z4),发声源在播放设备的坐标为(xs,ys,zs)。
相应的,可以基于上述式3计算得到发声源在播放设备的位置与扬声器1在播放设备中位置之间的距离(为便于与其他距离进行区分,将该称为第一距离)d1、发声源在播放设备的位置与扬声器2在播放设备中位置之间的距离(为便于与其他距离进行区分,将该称为第二距离)d2、发声源在播放设备的位置与扬声器3在播放设备中位置之间的距离(为便于与其他距离进行区分,将该称为第三距离)d3、发声源在播放设备的位置与扬声器4在播放设备中位置之间的距离(为便于与其他距离进行区分,将该称为第四距离)d4。
第二步骤:根据计算得到的各距离,确定各音频播放器各自对应的天空音数据的音频增益和人声数据的音频增益。其中,任意音频播放器的天空音数据的音频增益和人声数据的音频增益,与计算得到的该任意音频播放器对应的距离成反比。
结合上述分析,若第一距离d1大于第二距离d2,则扬声器1对应的人声数据的音频增益小于扬声器2对应的人声数据的音频增益,扬声器1对应的天空音数据的音频增益小于扬声器2对应的天空音数据的音频增益。
例如,结合图10,智慧屏中包括扬声器a和扬声器b,扬声器a相对更靠近发声源,扬声器b相对离发声源更远,扬声器b对应的人声数据的音频增益相对小于扬声器a对应的人声数据的音频增益,以增强空间感。
在一些实施例中,可以基于式4计算各音频播放器各自对应的音频增益(可以为天空音数据的音频增益,也可以为人声数据的音频增益),式4:
其中,音频播放器的数量为n个,n为大于等于2的正整数,ki为音频播放器i的音频增益,K为待播放视频的音频增益。
值得说明的是,在本实施例中,通过结合发声源在播放设备中的位置、以及播放设备中各音频播放器各自对应的位置,对待播放视频的音频增益进行分配,以使得观影场景中,视频的音效随着发声源的位置变化而变化,视频的音效的空间感、立体感也会随之改变,以提高用户的观影体验。
根据本公开实施例的另一个方面,本公开还提供了一种自适应音效增强的装置。请参阅图12,图12为本公开一个实施例的自适应音效增强的装置的示意图,如图12所示,自适应音效增强的装置1200,包括:
第一获取单元1201,用于获取待播放视频,其中,所述待播放视频包括音频数据和视频数据。
第一提取单元1202,用于提取所述音频数据的音频特征信息,提取所述视频数据的视频特征信息,其中,所述音频特征信息用于表征人物语言特征的信息,所述视频特征信息用于表征环境特征和人物动作特征的信息。
预测单元1203,用于根据所述音频特征信息和所述视频特征信息预测所述待播放视频的音频增益,其中,所述待播放视频的音频增益用于调整所述待播放视频的音效。
请参阅图13,图13为本公开另一实施例的自适应音效增强的装置的示意图,如图13所示,自适应音效增强的装置1300,包括:
第一获取单元1301,用于获取待播放视频,其中,所述待播放视频包括音频数据和视频数据。
第二提取单元1302,用于根据所述音频数据中各数据各自对应的类型属性,从所述音频数据中提取人声数据和天空音数据,其中,所述类型属性用于区分不同的声音种类。
结合图13可知,在一些实施例中,第二提取单元1302,包括:
输入子单元13021,用于将所述音频数据输入至预先训练的神经网络模型,输出所述音频数据中各数据各自对应的标签,其中,所述神经网络模型是基于样本音频数据训练得到的,所述样本音频数据中的各数据被标注各自对应的标签,标签用于表征所述类型属性。
提取子单元13022,用于根据输出的标签,从所述音频数据中提取所述人声数据和所述天空音数据。
第一提取单元1303,用于提取所述音频数据的音频特征信息,提取所述视频数据的视频特征信息,其中,所述音频特征信息用于表征人物语言特征的信息,所述视频特征信息用于表征环境特征和人物动作特征的信息。
示例性的,第一提取单元1303用于提取所述人声数据和所述天空音数据各自对应的音频特征信息。
预测单元1304,用于根据所述音频特征信息和所述视频特征信息预测所述待播放视频的音频增益,其中,所述待播放视频的音频增益用于调整所述待播放视频的音效。
示例性的,预测单元1304用于,根据至少部分所述视频特征信息预测所述天空音数据的音频增益,根据所述视频特征信息和所述音频特征信息预测所述人声数据的音频增益,其中,所述待播放视频的音频增益包括所述天空音数据的音频增益和所述人声数据的音频增益。
在一些实施例中,所述视频特征信息包括环境信息、时间信息、主色调信息、人物行为信息、人物表情信息;所述音频特征信息包括人物语言内容和人物语调变化信息。
所述预测单元1304用于,根据所述环境信息、所述时间信息、所述主色调信息,预测所述天空音数据的音频增益,并根据所述环境信息、所述时间信息、所述主色调信息、所述人物行为信息、所述人物表情信息、所述人物语言内容、以及所述人物语调变化信息,预测所述人声数据的音频增益。
第二获取单元1305,用于获取所述待播放视频的发声源在播放设备中的位置,其中,所述播放设备用于播放所述待播放视频。
确定单元1306,用于根据所述发声源在播放设备中的位置、以及所述播放设备中各音频播放器各自对应的位置,确定各音频播放器各自对应的天空音数据的音频增益和人声数据的音频增益。
结合图13可知,在一些实施例中,所述确定单元1306,包括:
计算子单元13061,用于计算所述发声源在播放设备中的位置、以及每一音频播放器的位置之间距离。
确定子单元13062,用于根据计算得到的各距离,确定各音频播放器各自对应的天空音数据的音频增益和人声数据的音频增益,其中,任意音频播放器的天空音数据的音频增益和人声数据的音频增益,与计算得到的所述任意音频播放器对应的距离成反比。
根据本公开的另一个方面,本公开还提供了一种智慧屏,所述智慧屏包括:
如上任一实施例所述的自适应音效增强的装置;
音频播放器,用于输出待播放视频的调整后的音效,其中,所述调整后的音效是基于所述自适应音效增强的装置确定出的待播放视频的音频增益,对所述待播放视频的原音效进行调整得到的。
根据本公开实施例的另一个方面,本公开实施例还提供了一种计算机存储介质,所述计算机存储介质上存储有计算机指令,当所述计算机指令在被处理器运行时,使得上述任一实施例所述的方法被执行。
根据本公开实施例的另一个方面,本公开实施例还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
根据本公开实施例的另一个方面,本公开实施例还提供了一种电子设备,电子设备可以为如上实施例所述的智慧屏,也可以为移动电话,计算机,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
请参阅图14,图14为本公开实施例的电子设备的示意图,如图14所示,电子设备1400可以包括以下一个或多个组件:处理组件1401,存储器1402,电源组件1403,多媒体组件1404,音频组件1405,输入/输出(I/O)接口1406,传感器组件1407,以及通信组件1408。
处理组件1401通常控制电子设备1400的整体操作,诸如与视频播放、显示、电话呼叫、数据通信、相机操作、以及记录操作相关联的操作。处理组件1401可以包括一个或多个处理器14011来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1401可以包括一个或多个模块,便于处理组件1401和其他组件之间的交互。例如,处理组件1401可以包括多媒体模块,以方便多媒体组件1404和处理组件1404之间的交互。
存储器1402被配置为存储各种类型的数据以支持在电子设备1400的操作。这些数据的示例包括用于在电子设备1400上操作的任何应用程序或方法的指令,如视频、联系人数据、电话簿数据、消息、以及图片等。存储器1402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1403为电子设备1400的各种组件提供电力。电源组件1403可以包括电源管理系统,一个或多个电源,及其他与为电子设备1400生成、管理和分配电力相关联的组件。
多媒体组件1404包括在所述电子设备1400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1404包括一个前置摄像头和/或后置摄像头。当电子设备1400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1405被配置为输出和/或输入音频数据。例如,音频组件1405包括一个麦克风(MIC),当电子设备1400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频数据。所接收的音频数据可以被进一步存储在存储器1402或经由通信组件1408发送。在一些实施例中,音频组件1405还包括一个扬声器,用于输出音频数据,如输出经上述实施例所述的方法确定出的音频增益和原音频数据。
I/O接口1406为处理组件1401和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1407包括一个或多个传感器,用于为电子设备1400提供各个方面的状态评估。例如,传感器组件1407可以检测到电子设备1400的打开/关闭状态,组件的相对定位,例如所述组件为电子设备1400的显示器和小键盘,传感器组件1407还可以检测电子设备1400或电子设备1400一个组件的位置改变,用户与电子设备1400接触的存在或不存在,电子设备1400方位或加速/减速和电子设备1400的温度变化。传感器组件1407可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1407还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1407还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1408被配置为便于电子设备1400和其他设备之间有线或无线方式的通信。电子设备1400可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1408经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1408还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备1400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1402,上述指令可由电子设备1400的处理器14011执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (10)
1.一种自适应音效增强的方法,其特征在于,所述方法包括:
获取待播放视频,其中,所述待播放视频包括音频数据和视频数据;
提取所述音频数据的音频特征信息,提取所述视频数据的视频特征信息,其中,所述音频特征信息用于表征人物语言特征的信息,所述视频特征信息用于表征环境特征和人物动作特征的信息;
根据所述音频特征信息和所述视频特征信息预测所述待播放视频的音频增益,其中,所述待播放视频的音频增益用于调整所述待播放视频的音效。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述音频数据中各数据各自对应的类型属性,从所述音频数据中提取人声数据和天空音数据,其中,所述类型属性用于区分不同的声音种类;
以及,所述提取所述音频数据的音频特征信息,包括:提取所述人声数据和所述天空音数据各自对应的音频特征信息;
以及,所述根据所述音频特征信息和所述视频特征信息预测所述待播放视频的音频增益,包括:根据至少部分所述视频特征信息预测所述天空音数据的音频增益,根据所述视频特征信息和所述音频特征信息预测所述人声数据的音频增益,其中,所述待播放视频的音频增益包括所述天空音数据的音频增益和所述人声数据的音频增益。
3.根据权利要求2所述的方法,其特征在于,所述根据待播放视频的音频数据中各数据各自对应的类型属性,从所述音频数据中提取人声数据和天空音数据,包括:
将所述音频数据输入至预先训练的神经网络模型,输出所述音频数据中各数据各自对应的标签,其中,所述神经网络模型是基于样本音频数据训练得到的,所述样本音频数据中的各数据被标注各自对应的标签,标签用于表征所述类型属性;
根据输出的标签,从所述音频数据中提取所述人声数据和所述天空音数据。
4.根据权利要求2或3所述的方法,其特征在于,所述视频特征信息包括环境信息、时间信息、主色调信息、人物行为信息、人物表情信息;所述音频特征信息包括人物语言内容和人物语调变化信息;
所述根据至少部分所述视频特征信息预测所述天空音数据的音频增益,包括:根据所述环境信息、所述时间信息、所述主色调信息,预测所述天空音数据的音频增益;
以及,所述根据所述视频特征信息和所述音频特征信息预测所述人声数据的音频增益,包括:根据所述环境信息、所述时间信息、所述主色调信息、所述人物行为信息、所述人物表情信息、所述人物语言内容、以及所述人物语调变化信息,预测所述人声数据的音频增益。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
获取所述待播放视频的发声源在播放设备中的位置,其中,所述播放设备用于播放所述待播放视频;
根据所述发声源在播放设备中的位置、以及所述播放设备中各音频播放器各自对应的位置,确定各音频播放器各自对应的天空音数据的音频增益和人声数据的音频增益。
6.根据权利要求5所述的方法,其特征在于,所述根据所述发声源在播放设备中的位置、以及所述播放设备中各音频播放器各自对应的位置,确定各音频播放器各自对应的天空音数据的音频增益和人声数据的音频增益;
计算所述发声源在播放设备中的位置、以及每一音频播放器的位置之间距离;
根据计算得到的各距离,确定各音频播放器各自对应的天空音数据的音频增益和人声数据的音频增益,其中,任意音频播放器的天空音数据的音频增益和人声数据的音频增益,与计算得到的所述任意音频播放器对应的距离成反比。
7.一种自适应音效增强的装置,其特征在于,所述装置包括:
第一获取单元,用于获取待播放视频,其中,所述待播放视频包括音频数据和视频数据;
提取单元,用于提取所述音频数据的音频特征信息,提取所述视频数据的视频特征信息,其中,所述音频特征信息用于表征人物语言特征的信息,所述视频特征信息用于表征环境特征和人物动作特征的信息;
预测单元,用于根据所述音频特征信息和所述视频特征信息预测所述待播放视频的音频增益,其中,所述待播放视频的音频增益用于调整所述待播放视频的音效。
8.一种智慧屏,其特征在于,所述智慧屏包括:
如权利要求7所述的自适应音效增强的装置;
音频播放器,用于输出待播放视频的调整后的音效,其中,所述调整后的音效是基于所述自适应音效增强的装置确定出的待播放视频的音频增益,对所述待播放视频的原音效进行调整得到的。
9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机指令,当所述计算机指令在被处理器运行时,使得权利要求1至6中任一项所述的方法被执行。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机指令,所述计算机指令被所述至少一个处理器执行,使得权利要求1至6中任一项所述的方法被执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211119941.8A CN117750120A (zh) | 2022-09-15 | 2022-09-15 | 自适应音效增强的方法、装置以及智慧屏 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211119941.8A CN117750120A (zh) | 2022-09-15 | 2022-09-15 | 自适应音效增强的方法、装置以及智慧屏 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117750120A true CN117750120A (zh) | 2024-03-22 |
Family
ID=90279942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211119941.8A Pending CN117750120A (zh) | 2022-09-15 | 2022-09-15 | 自适应音效增强的方法、装置以及智慧屏 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117750120A (zh) |
-
2022
- 2022-09-15 CN CN202211119941.8A patent/CN117750120A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428378B (zh) | 图像的处理方法、装置及存储介质 | |
US20090096927A1 (en) | System and method for video coding using variable compression and object motion tracking | |
CN107944447B (zh) | 图像分类方法及装置 | |
US11102450B2 (en) | Device and method of displaying images | |
US20070136671A1 (en) | Method and system for directing attention during a conversation | |
CN105957037B (zh) | 图像增强方法及装置 | |
CN111242303B (zh) | 网络训练方法及装置、图像处理方法及装置 | |
CN115831155A (zh) | 音频信号的处理方法、装置、电子设备及存储介质 | |
CN109686359B (zh) | 语音输出方法、终端及计算机可读存储介质 | |
CN113113044B (zh) | 音频处理方法及装置、终端及存储介质 | |
CN112820300B (zh) | 音频处理方法及装置、终端、存储介质 | |
KR20130096983A (ko) | 얼굴을 포함하는 영상 처리 방법 및 장치 | |
CN110767229B (zh) | 基于声纹的音频输出方法、装置、设备及可读存储介质 | |
CN105245898B (zh) | 图像数据存储方法和装置 | |
CN115205164B (zh) | 图像处理模型的训练方法、视频处理方法、装置及设备 | |
WO2023216119A1 (zh) | 音频信号编码方法、装置、电子设备和存储介质 | |
CN117750120A (zh) | 自适应音效增强的方法、装置以及智慧屏 | |
CN110728180A (zh) | 图像处理方法、装置及存储介质 | |
CN111696566B (zh) | 语音处理方法、装置和介质 | |
CN114356068B (zh) | 一种数据处理方法、装置和电子设备 | |
CN110213531B (zh) | 监控录像处理方法及装置 | |
CN113707162A (zh) | 语音信号处理方法、装置、设备及存储介质 | |
CN111753753A (zh) | 图像识别方法及装置、电子设备和存储介质 | |
CN109284510B (zh) | 一种文本处理方法、系统和一种用于文本处理的装置 | |
CN112804440B (zh) | 一种处理图像的方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |