CN110602553B - 媒体文件播放中的音频处理方法、装置、设备及存储介质 - Google Patents

媒体文件播放中的音频处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110602553B
CN110602553B CN201910901750.9A CN201910901750A CN110602553B CN 110602553 B CN110602553 B CN 110602553B CN 201910901750 A CN201910901750 A CN 201910901750A CN 110602553 B CN110602553 B CN 110602553B
Authority
CN
China
Prior art keywords
audio
filtering
media file
audio data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910901750.9A
Other languages
English (en)
Other versions
CN110602553A (zh
Inventor
孔凡阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910901750.9A priority Critical patent/CN110602553B/zh
Publication of CN110602553A publication Critical patent/CN110602553A/zh
Application granted granted Critical
Publication of CN110602553B publication Critical patent/CN110602553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/454Content or additional data filtering, e.g. blocking advertisements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供了一种媒体文件播放中的音频处理方法、装置、设备及存储介质;其中,方法包括:获取媒体文件的音频过滤参数,音频过滤参数用于指示媒体文件的音频数据对应的至少两种音频过滤类型;在媒体文件的播放界面,呈现对应音频过滤参数的过滤功能项;接收针对过滤功能项的音频过滤指令,音频过滤指令,用于指示对至少两种音频过滤类型中目标类型的音频数据进行过滤;基于音频过滤指令,发送音频数据获取请求,以请求媒体文件的音频数据中非目标类型的音频数据;接收并播放基于音频数据获取请求返回的音频数据。如此,能够提高媒体文件播放过程中所输出音频数据的多样性。

Description

媒体文件播放中的音频处理方法、装置、设备及存储介质
技术领域
本发明涉及媒体播放技术领域,尤其涉及一种媒体文件播放中的音频处理方法、装置、设备及存储介质。
背景技术
相关技术中,媒体文件的音频数据中混杂有多种音频类型的数据,如环境噪音、背景音乐、人物声音等,使得在媒体文件的播放过程中,用户无法针对自身的需要有效的获取相应的信息;例如,用户对背景音乐十分喜爱,但因为媒体文件播放过程中人物声音的干扰,使得用户无法通过软件准确的“听歌识曲”;再如,用户不喜欢媒体文件中的背景音乐,只想通过纯净人声感受其所输出的情感;相关技术中媒体文件的播放,将音频数据中所包括的不同音频类型的数据同时输出,输出形式单一,无法满足用户在不同场景下的需求。
发明内容
本发明实施例提供一种媒体文件播放中的音频处理方法、装置、设备及存储介质,能够提高媒体文件播放过程中所输出音频数据的多样性。
本发明实施例提供一种媒体文件播放中的音频处理方法,包括:
获取媒体文件的音频过滤参数,所述音频过滤参数用于指示所述媒体文件的音频数据对应的至少两种音频过滤类型;
在所述媒体文件的播放界面,呈现对应所述音频过滤参数的过滤功能项;
接收针对所述过滤功能项的音频过滤指令,所述音频过滤指令,用于指示对所述至少两种音频过滤类型中目标类型的音频数据进行过滤;
基于所述音频过滤指令,发送音频数据获取请求,以请求获取所述媒体文件的音频数据中非目标类型的音频数据;
接收并播放基于所述音频数据获取请求所返回的音频数据。
本发明实施例还提供了一种媒体文件播放中的音频处理装置,包括:
获取模块,用于获取媒体文件的音频过滤参数,所述音频过滤参数用于指示所述媒体文件的音频数据对应的至少两种音频过滤类型;
呈现模块,用于在所述媒体文件的播放界面,呈现对应所述音频过滤参数的过滤功能项;
接收模块,用于接收针对所述过滤功能项的音频过滤指令,所述音频过滤指令,用于指示对所述至少两种音频过滤类型中目标类型的音频数据进行过滤;
发送模块,用于基于所述音频过滤指令,发送音频数据获取请求,以请求获取所述媒体文件的音频数据中非目标类型的音频数据;
播放模块,用于接收并播放基于所述音频数据获取请求所返回的音频数据。
上述方案中,所述获取模块,还用于在所述媒体文件对应的播放程序运行过程中,发送所述媒体文件的音频过滤参数获取请求,以请求获取所述媒体文件的音频过滤参数;
接收返回的所述音频过滤参数。
上述方案中,所述获取模块,还用于获取所述媒体文件的音频数据;
基于所述音频数据的数据结构,对所述音频数据进行解析,得到所述音频过滤参数。
上述方案中,所述装置还包括:
控制模块,用于停止播放所述媒体文件,并在所述媒体文件的播放界面,弹出信息提示框;
其中,所述信息提示框用于提示所述非目标类型的音频数据的加载进度。
上述方案中,所述发送模块,还用于发送携带所述目标类型的音频过滤参数的音频数据获取请求,以基于所述目标类型的音频过滤参数,对所述媒体文件的音频数据进行过滤,得到所述非目标类型的音频数据。
上述方案中,所述装置还包括:
分离模块,用于获取所述媒体文件的音频数据对应的波形图;
对所述波形图进行傅里叶变换,得到指示不同频率所对应的波形的频谱图;
基于所述频谱图及不同类型音频所对应的频率范围,从所述音频数据中分离得到所述至少两种音频过滤类型的音频数据。
上述方案中,所述获取模块,还用于从区块链网络中获取所述媒体文件的音频过滤参数,所述音频过滤参数为服务器对所述媒体文件中不同音频数据类型的数据进行分离后得到,并上传至所述区块链网络。
上述方案中,所述至少两种音频过滤类型包括如下至少两种:背景音乐过滤、人物声音过滤及环境噪声过滤。
本发明实施例还提供了一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的媒体文件播放中的音频处理方法。
本发明实施例还提供了一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的媒体文件播放中的音频处理方法。
应用本发明实施例具有以下有益效果:
1),获取媒体文件的音频过滤参数,音频过滤参数用于指示媒体文件的音频数据对应的至少两种音频过滤类型,在媒体文件的播放界面,呈现对应音频过滤参数的过滤功能项;如此,通过呈现对应音频过滤参数的过滤功能项,为用户提供对应至少两种音频过滤类型的过滤选择,使得用户能够依据实际需要进行过滤功能的选择;
2),基于音频过滤指令,发送音频数据获取请求,以请求媒体文件的音频数据中非目标类型的音频数据,接收并播放基于音频数据获取请求返回的音频数据;如此,针对用户触发的对应不同目标类型的音频过滤指令,实现相应的音频类型的音频数据的过滤,丰富了音频数据输出的多样性。
附图说明
图1为本发明实施例提供的媒体文件播放中的音频处理系统的架构示意图;
图2为本发明实施例提供的电子设备的结构示意图;
图3为本发明实施例提供的媒体文件播放中的音频处理方法的流程示意图;
图4为本发明实施例提供的音频数据的波形图;
图5为本发明实施例提供的音频频谱图;
图6为本发明实施例提供的音频数据的数据结构示意图;
图7为本发明实施例提供的终端呈现对应音频过滤参数的过滤功能项的界面视图;
图8为本发明实施例提供的终端呈现对应音频过滤参数的过滤功能项的界面视图;
图9为本发明实施例提供的终端呈现对应音频过滤参数的过滤功能项的界面视图;
图10为本发明实施例提供的终端呈现信息提示框的示意图;
图11为本发明实施例提供的区块链网络的应用架构示意图;
图12为本发明实施例提供的区块链网络800中区块链的结构示意图;
图13为本发明实施例提供的区块链网络800的功能架构示意图;
图14为本发明实施例提供的媒体文件播放中的音频处理方法的流程示意图;
图15为本发明实施例提供的媒体文件播放中的音频处理方法的前端实现流程示意图;
图16为本发明实施例提供的视频播放的界面视图;
图17为本发明实施例提供的复选框的界面视图;
图18为本发明实施例提供的数据请求流程示意图;
图19为本发明实施例提供的视频资源数据预处理的流程示意图;
图20为本发明实施例提供的服务器响应前端屏蔽数据请求的流程示意图;
图21为本发明实施例提供的媒体文件播放中的音频处理装置的组成结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)媒体文件,互联网中可获取的各种形式(如视频、音频、图文等媒体形式)的媒体,如客户端中展现的视频文件、音频文件、包括图文形式的文章等。
2)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
3)交易(Transaction),等同于计算机术语“事务”,交易包括了需要提交到区块链网络执行的操作,并非单指商业语境中的交易,鉴于在区块链技术中约定俗成地使用了“交易”这一术语,本发明实施例遵循了这一习惯。
例如,部署(Deploy)交易用于向区块链网络中的节点安装指定的智能合约并准备好被调用;调用(Invoke)交易用于通过调用智能合约在区块链中追加交易的记录,并对区块链的状态数据库进行操作,包括更新操作(包括增加、删除和修改状态数据库中的键值对)和查询操作(即查询状态数据库中的键值对)。
4)区块链(Blockchain),是由区块(Block)形成的加密的、链式的交易的存储结构。
5)区块链网络(Blockchain Network),通过共识的方式将新区块纳入区块链的一系列的节点的集合。
6)账本(Ledger),是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。其中,区块链是以文件系统中的文件的形式来记录交易;状态数据库是以不同类型的键(Key)值(Value)对的形式来记录区块链中的交易,用于支持对区块链中交易的快速查询。
7)智能合约(Smart Contracts),也称为链码(Chaincode)或应用代码,部署在区块链网络的节点中的程序,节点执行接收的交易中所调用的智能合约,来对状态数据库的键值对数据进行更新或查询的操作。
8)共识(Consensus),是区块链网络中的一个过程,用于在涉及的多个节点之间对区块中的交易达成一致,达成一致的区块将被追加到区块链的尾部,实现共识的机制包括工作量证明(PoW,Proof of Work)、权益证明(PoS,Proof of Stake)、股份授权证明(DPoS,Delegated Proof-of-Stake)、消逝时间量证明(PoET,Proof of Elapsed Time)等。
图1是本发明实施例提供的媒体文件播放中的音频处理系统100的一个可选的架构示意图,参见图1,为实现支撑一个示例性应用,终端(包括终端400-1和终端400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线或有线链路实现数据传输。
终端(如终端400-1),用于获取媒体文件的音频过滤参数,音频过滤参数用于指示媒体文件的音频数据对应的至少两种音频过滤类型;在媒体文件的播放界面,呈现对应音频过滤参数的过滤功能项;接收针对过滤功能项的音频过滤指令,音频过滤指令,用于指示对至少两种音频过滤类型中目标类型的音频数据进行过滤;
终端(如终端400-1),还用于基于音频过滤指令,发送音频数据获取请求给服务器200;
服务器200,用于基于音频数据获取请求,获取媒体文件的音频数据中非目标类型的音频数据,并返回给终端;
终端(如终端400-1),还用于接收并播放返回的音频数据。
在实际应用中,服务器200既可以为单独配置的支持各种业务的一个服务器,亦可以配置为一个服务器集群;终端可以为智能手机、平板电脑、笔记本电脑等各种类型的用户终端,还可以为可穿戴计算设备、个人数字助理(PDA)、台式计算机、蜂窝电话、媒体播放器、导航设备、游戏机、电视机、或者这些数据处理设备或其他数据处理设备中任意一个或多个的组合。
在一些实施例中,终端上设置有媒体播放客户端,用户通过媒体播放客户端可进行媒体文件播放,如终端上设置有视频播放客户端,用户通过视频播放客户端可进行视频播放;媒体播放客户端获取媒体文件的音频过滤参数,音频过滤参数用于指示媒体文件的音频数据对应的至少两种音频过滤类型,媒体播放客户端在媒体文件的播放界面,呈现对应音频过滤参数的过滤功能项,用户基于呈现的过滤功能项,欲对目标类型的音频数据进行过滤,触发对应目标类型的过滤功能项的音频过滤指令,媒体播放客户端基于音频过滤指令,发送音频数据获取请求给服务器,服务器获取媒体文件的音频数据中非目标类型的音频数据,并返回给媒体播放客户端;媒体播放客户端接收并播放服务器返回的音频数据。
接下来下面对实施本发明实施例的媒体文件播放中的音频处理方法的电子设备进行说明。在一些实施例中,电子设备可以为终端,还可以为服务器。参见图2,图2是本发明实施例提供的电子设备的结构示意图,图2所示的电子设备包括:处理器210、存储器250、网络接口220和用户接口230。电子设备中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口620到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的媒体文件播放中的音频处理装置可以采用软件方式实现,图2示出了存储在存储器250中的媒体文件播放中的音频处理装置255,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块2551、呈现模块2552、接收模块2553、发送模块2554及播放模块2555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的媒体文件播放中的音频处理装置可以采用硬件方式实现,作为示例,本发明实施例提供的媒体文件播放中的音频处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的媒体文件播放中的音频处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
基于上述对本发明实施例的媒体文件播放中的音频处理系统及电子设备的说明,接下来对本发明实施例提供的媒体文件播放中的音频处理方法进行说明,图3为本发明实施例提供的媒体文件播放中的音频处理方法的流程示意图,在一些实施例中,该媒体文件播放中的音频处理方法可由服务器或终端实施,或由服务器及终端协同实施,以终端实施为例,如通过图1中的终端400-1实施,结合图1及图3,本发明实施例提供的媒体文件播放中的音频处理方法包括:
步骤301:终端获取媒体文件的音频过滤参数,音频过滤参数用于指示媒体文件的音频数据对应的至少两种音频过滤类型。
在实际应用中,媒体播放客户端用于实现媒体文件(如视频文件、音频文件)的播放,具体可以为视频播放客户端、音频播放客户端等。用户基于媒体播放客户端进行媒体文件的播放,并可在媒体文件的播放过程中,触发对音频数据的过滤。
在实际应用中,不同的媒体文件中的音频数据所对应的音频过滤类型的数量及种类可能不同,例如,对于某视频文件,所包括的音频数据中含有背景音乐、人物声音、环境噪声,相应的音频过滤类型包括:背景音乐过滤、人物声音过滤及环境噪声过滤;在实际实施时,音频过滤类型用于指示媒体文件中能够执行过滤的音频数据类型,例如,背景音乐过滤指示媒体文件中能够对音频数据类型为背景音乐的数据进行过滤。
基于上述对音频数据中音频数据类型及音频过滤类型的说明,接下来对音频数据中不同类型的音频数据的分离进行说明。在一些实施例中,终端获取媒体文件的音频过滤参数之前,需要对该媒体文件中不同音频数据类型的数据进行分离,具体地,可通过如下方式分离媒体文件中不同音频数据类型的数据:
终端获取媒体文件的音频数据对应的波形图;对波形图进行傅里叶变换,得到指示不同频率所对应的波形的频谱图;基于频谱图及不同类型音频所对应的频率范围,从音频数据中分离得到至少两种音频过滤类型的音频数据。
在实际实施时,终端将媒体文件中音频数据信号的振幅图像化,得到相应的波形图,图4为本发明实施例提供的音频数据的波形图,参见图4,波形图的X轴单位是时间,Y轴表示的是振幅,音频波形图表示了所有频率叠加的正弦波幅值的总大小随时间的变化规律。
由于不同音频数据类型的数据所对应的频率范围不同,比如人声的频率范围男性在基准音区64~523Hz范围内,而女性的基准音区范围在160~1200Hz范围内;因此,可通过分离不同频率范围的音频数据,实现对不同音频过滤类型的音频数据的分离,具体地,终端对波形图进行傅里叶变换,得到指示不同频率所对应的波形的频谱图;图5为本发明实施例提供的音频频谱图,参见图5,该频谱图显示了不同频率的分布情况,基于得到的频谱图,可分离不同频率范围的音频数据,进而得到不同音频数据类型的数据,所得到的不同音频数据类型的数据即为对应该媒体文件的不同音频过滤类型的音频数据。
需要说明的是,在实际实施时,对于音频数据中不同类型的音频数据的分离可在服务器侧执行,如此,降低终端侧的数据处理压力,提高终端侧的处理效率。当不同类型的音频数据的分离在服务器侧执行时,终端需要从服务器处获取服务器实现数据分离后得到的媒体文件的音频过滤参数,接下来对终端获取音频过滤参数的过程进行说明。
在一些实施例中,终端可通过如下方式获取媒体文件的音频过滤参数:
终端在媒体文件的播放过程中,发送媒体文件的音频过滤参数获取请求给服务器,使得服务器对获取请求进行解析后得到媒体文件标识,基于媒体文件标识获取并返回相应的音频过滤参数;终端接收返回的音频过滤参数。
以媒体文件为视频文件为例,当服务器基于视频文件的标识,确定该视频文件支持音频数据过滤时,相应的音频过滤参数包括:指示媒体文件支持音频数据过滤的支持标识、指示背景音乐过滤的第一参数、指示人物声音过滤的第二参数及指示环境噪声过滤的第三参数。
在一些实施例中,终端还可通过如下方式获取媒体文件的音频过滤参数:
终端获取媒体文件的音频数据;基于音频数据的数据结构,对音频数据进行解析,得到音频过滤参数。
在实际实施时,当用户通过终端上的媒体播放客户端触发媒体文件播放时,终端基于媒体播放客户端发送媒体文件的数据请求给服务器,以使服务器解析数据请求得到媒体文件标识后,基于媒体文件标识返回相应的媒体数据,当媒体文件为视频文件时,该媒体数据包括帧图像数据及音频数据;终端基于服务器返回的媒体数据中音频数据的数据结构进行数据解析,得到音频过滤参数。
这里,以媒体文件为视频文件为例,参见图6,图6为本发明实施例提供的音频数据的数据结构示意图,通过对视频文件的数据结构VideoInfo的解析得到音频过滤参数VoiceInfo,通过音频过滤参数VoiceInfo中的支持标识确定该视频文件支持音频数据过滤,通过音频过滤参数VoiceInfo中的音频过滤类型,确定该视频文件所支持过滤的音频数据类型。
步骤302:终端在媒体文件的播放界面,呈现对应音频过滤参数的过滤功能项。
在实际实施时,终端获取到媒体文件的音频过滤参数后,通过呈现过滤功能项的方式向用户展示该媒体文件可过滤的音频数据类型,供用户针对自身的情况进行所要过滤的音频数据的选择,提高客户端输出音频数据的多样性的同时,提高了用户体验。
在一些实施例中,终端在媒体文件的播放界面,可通过如下方式呈现对应音频过滤参数的过滤功能项:
在媒体文件的播放界面,呈现音频过滤按键;终端响应于针对音频过滤按键的点击指令,采用复选框的形式呈现对应音频过滤参数的过滤功能项。
示例性地,参见图7,图7为本发明实施例提供的终端呈现对应音频过滤参数的过滤功能项的界面视图;以媒体文件为视频文件为例,在视频文件的播放界面,呈现音频过滤按键(即图7中“音频屏蔽”按键),当用户点击音频过滤按键时,触发针对音频过滤按键的点击指令,终端基于该点击指令,采用复选框的形式呈现该视频文件所支持过滤的音频数据类型,如图7,采用复选框的形式呈现:对应人物声音过滤的过滤功能项(即图7中“屏蔽人声”)、对应背景音乐过滤的过滤功能项(即图7中“屏蔽背景音乐”)、对应环境噪声的过滤功能项(即图7中“屏蔽环境噪音”),用户基于所呈现的过滤功能项可进行一个或多个的选择,如当用户选择“屏蔽人声”时,实现对该视频的音频数据中人声数据的过滤,当用户同时选择“屏蔽人声”及“屏蔽环境噪音”时,实现对该视频的音频数据中人声数据及环境噪音的同时过滤,即仅保留背景音乐。
在一些实施例中,终端在媒体文件的播放界面,可通过如下方式呈现对应音频过滤参数的过滤功能项:
在媒体文件的播放界面,呈现音频过滤按键;终端响应于针对音频过滤按键的点击指令,采用列表项的形式呈现对应音频过滤参数的过滤功能项。
示例性地,参见图8,图8为本发明实施例提供的终端呈现对应音频过滤参数的过滤功能项的界面视图;以媒体文件为视频文件为例,在视频文件的播放界面,呈现音频过滤按键(即图8中“音频屏蔽”按键),当用户点击音频过滤按键时,触发针对音频过滤按键的点击指令,终端基于该点击指令,采用列表的形式呈现该视频文件所支持过滤的音频数据类型,如图8,用户基于通过列表形式所呈现的过滤功能项,可基于自身情况进行选取,以实现所选取的音频过滤类型的音频数据的过滤。
在一些实施例中,终端在媒体文件的播放界面,可通过如下方式呈现对应音频过滤参数的过滤功能项:
终端在媒体文件的播放界面,呈现至少两个过滤功能按键,过滤功能按键用于指示相应的音频过滤类型的过滤功能项。
示例性地,参见图9,图9为本发明实施例提供的终端呈现对应音频过滤参数的过滤功能项的界面视图;以媒体文件为视频文件为例,在视频文件的播放界面,采用不同的按键呈现不同音频过滤类型的过滤功能项,如图9中,通过屏蔽人声按键呈现对应人物声音过滤的过滤功能项,通过屏蔽环境噪音按键呈现对应环境噪声的过滤功能项,通过屏蔽背景音乐按键呈现对应背景音乐的过滤功能项。
需要说明的是,在实际应用中,由于不同的媒体文件中音频数据所包括的音频数据的类型及数量可能不同,相应的,不同的媒体文件所对应的音频过滤类型的数量及内容也可能不同,即不同的媒体文件的音频过滤参数可能不同,而播放界面所呈现的过滤功能项与音频过滤参数相对应,因此,在不同的媒体文件的播放界面,呈现的音频过滤参数的过滤功能项可能不同。
步骤303:终端接收针对过滤功能项的音频过滤指令,音频过滤指令,用于指示对至少两种音频过滤类型中目标类型的音频数据进行过滤。
在实际实施时,用户基于终端所呈现的过滤功能项,进行相应音频过滤类型的选择,如针对复选框形式呈现的过滤功能项,用户进行一个或多个过滤功能项的勾选,针对按键形式呈现的过滤功能项,用户进行按键的点击,进而触发针对过滤功能项的音频过滤指令。
在实际应用中,当用户触发了音频过滤指令后,终端需要进行相应媒体数据的切换,为了让用户即使了解媒体数据的加载进度,在一些实施例中,终端接收针对过滤功能项的音频过滤指令之后,停止播放媒体文件,并在媒体文件的播放界面,弹出信息提示框;其中,信息提示框用于提示非目标类型的音频数据的加载进度;图10为本发明实施例提供的终端呈现信息提示框的示意图,参见图10,当用户点击屏蔽人声按键后,呈现相应的信息提示框。
这里,非目标类型的音频数据即为媒体文件的媒体数据中,除目标类型的音频数据之外的音频数据。
步骤304:终端基于音频过滤指令,发送音频数据获取请求,以请求获取媒体文件的音频数据中非目标类型的音频数据。
在一些实施例中,终端发送音频数据获取请求,包括:
发送携带目标类型的音频过滤参数的音频数据获取请求给服务器,以使服务器对该获取请求进行解析后,基于目标类型的音频过滤参数,对媒体文件的音频数据进行过滤,得到并返回非目标类型的音频数据。
在实际实施时,针对媒体文件不同音频过滤类型的音频数据,服务器侧采用独立文件的形式存储有各个音频过滤类型的音频数据,当接收终端发送的携带音频过滤参数的音频数据获取请求后,获取该媒体文件的除目标类型的音频数据以为的音频数据并返回给终端。
步骤305:终端接收并播放基于音频数据获取请求所返回的音频数据。
在实际应用中,终端接收服务器返回的音频数据后,进行播放数据的切换,以继续进行媒体文件的播放,所播放的媒体文件的音频数据中已过滤掉目标类型的音频数据。
应用本发明上述实施例,终端通过获取用于指示音频数据对应的至少两种音频过滤类型的音频过滤参数,在媒体文件的播放界面,呈现对应音频过滤参数的过滤功能项;如此,通过呈现对应音频过滤参数的过滤功能项,为用户提供对应至少两种音频过滤类型的过滤选择,使得用户能够依据实际需要进行过滤功能的选择;针对用户触发的对应不同目标类型的音频过滤指令,实现相应的音频类型的音频数据的过滤,丰富了音频数据输出的多样性。
在一些实施例中,服务器在对音频数据中不同类型的音频数据的分离,得到媒体文件的音频过滤参数之后,还可以结合人工智能(AI,Artificial Intellig ence)对媒体文件的音频数据进行处理。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统和机电一体化等技术。其中,语音技术(SpeechTechnology)是人工智能技术的主要方向之一。
语音技术使得计算机能听、能看、能说和能感觉,更好的服务于人机交互。在实际应用中,在对音频数据中不同类型的音频数据的分离,得到媒体文件的音频过滤参数之后,可采用语音技术中语音合成技术(TTS,Text To Speech),针对不同的音频过滤参数进行媒体文件的音频合成,得到过滤了不同音频类型的音频数据的音频文件。
在一些实施例中,服务器在对音频数据中不同类型的音频数据的分离,得到媒体文件的音频过滤参数之后,还可以结合区块链技术,将媒体文件的音频过滤参数存储至区块链网络,以使终端在进行媒体文件播放之前,先从区块链网络获取到媒体文件的音频过滤参数,以判断该媒体文件是否支持音频数据过滤以及所支持过滤的音频数据类型,接下来具体进行说明。
在一些实施例中,服务器获得媒体文件的音频过滤参数之后,生成用于存储媒体文件的音频过滤参数的交易,并发送生成的交易至区块链网络的节点,以使节点对交易共识后将媒体文件的音频过滤参数存储至区块链网络;当用户基于媒体播放客户端触发了媒体文件的播放,终端在播放该媒体文件之前,从区块链网络中同步得到媒体文件的音频过滤参数,以判断该媒体文件是否支持音频数据的过滤;具体地,终端生成用于获取音频过滤参数的交易,提交生成的交易至区块链网络的节点,以使节点对交易共识后返回该媒体文件的音频过滤参数。
接下来对本发明实施例中的区块链网络进行说明。图11为本发明实施例提供的区块链网络的应用架构示意图,包括业务主体500、认证中心700,区块链网络800(示例性示出了共识节点810-1至共识节点810-3),下面分别说明。
区块链网络800的类型是灵活多样的,例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例,任何业务主体的电子设备例如用户终端和服务器,都可以在不需要授权的情况下接入区块链网络800;以联盟链为例,业务主体在获得授权后其下辖的电子设备(例如终端/服务器)可以接入区块链网络800,此时,成为区块链网络800中的客户端节点。
在一些实施例中,客户端节点可以只作为区块链网络800的观察者,即提供支持业务主体发起交易(例如,用于上链存储数据或查询链上数据)功能,对于区块链网络800的共识节点810的功能,例如排序功能、共识服务和账本功能等,客户端节点可以缺省或者有选择性(例如,取决于业务主体的具体业务需求)地实施。从而,可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络800中,通过区块链网络800实现数据和业务处理过程的可信和可追溯。
区块链网络800中的共识节点接收来自不同业务主体(如业务主体500)的客户端节点(如归属于业务主体500的客户端节点510)提交的交易,执行交易以查找并返回媒体文件的音频过滤参数,执行交易的各种中间结果或最终结果可以返回至业务主体的客户端节点中显示。
例如,客户端节点510可以订阅区块链网络800中感兴趣的事件,例如区块链网络800中特定的组织/通道中发生的交易,由共识节点810推送相应的交易通知到客户端节点510,从而触发客户端节点510中相应的业务逻辑。
以业务主体接入区块链网络以实现音频过滤参数的查询为例说明区块链的示例性应用。
参见图11,业务主体500为在线视频服务商,从认证中心700进行登记注册获得数字证书,数字证书中包括业务主体的公钥、以及认证中心700对业务主体的公钥和身份信息签署的数字签名,用来与业务主体针对交易的数字签名一起附加到交易中,并被发送到区块链网络,以供区块链网络从交易中取出数字证书和签名,验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息,区块链网络会根据身份进行验证,例如是否具有发起交易的权限。业务主体下辖的电子设备(例如终端或者服务器)运行的客户端都可以向区块链网络800请求接入而成为客户端节点。
业务主体500的客户端节点510用于在接收用户触发的针对媒体文件的播放指令时,生成用于获取该媒体文件的音频过滤参数的交易,在交易中指定了实现音频过滤参数的获取操作需要调用的智能合约、以及向智能合约传递的参数,交易还携带了客户端510的数字证书、签署的数字签名(例如,使用客户端510的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络800中的共识节点。
区块链网络800中的共识节点接收交易时,对交易携带的数字证书和数字签名进行验证,验证成功后,根据交易中携带的业务主体500的身份,确认业务主体500是否是具有交易权限,数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署节点自己的数字签名(例如,使用节点810-1的私钥对交易的摘要进行加密得到),并继续在区块链网络800中广播。
区块链网络800中的共识节点接收验证成功的交易后,将交易填充到新的区块中,并进行广播。区块链网络800中的共识节点广播的新区块时,会对新区块进行共识过程,如果共识成功,则将新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交的获取音频过滤参数的交易,从状态数据库中查询音频过滤参数对应的键值对,并返回交易结果。
作为区块链的示例,参见图12,图12是本发明实施例提供的区块链网络800中区块链的结构示意图,每个区块的头部既可以包括区块中所有交易的哈希值,同时也包含前一个区块中所有交易的哈希值,新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后,会被追加到区块链的尾部从而形成链式的增长,区块之间基于哈希值的链式结构保证了区块中交易的防篡改和防伪造。
下面说明本发明实施例提供的区块链网络的示例性的功能架构,参见图13,图13为本发明实施例提供的区块链网络800的功能架构示意图,包括应用层801、共识层802、网络层803、数据层804和资源层805,下面分别进行说明。
资源层805封装了实现区块链网路800中的各个节点810的计算资源、存储资源和通信资源。
数据层804封装了实现账本的各种数据结构,包括以文件系统中的文件实现的区块链,键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。
网络层803封装了点对点(P2P,Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。
其中,P2P网络协议实现区块链网络800中节点810之间的通信,数据传播机制保证了交易在区块链网络800中的传播,数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现节点810之间传输数据的可靠性;接入认证机制用于根据实际的业务场景对加入区块链网络800的业务主体的身份进行认证,并在认证通过时赋予业务主体接入区块链网络800的权限;业务主体身份管理用于存储允许接入区块链网络800的业务主体的身份、以及权限(例如能够发起的交易的类型)。
共识层802封装了区块链网络800中的节点810对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法,支持共识算法的可插拔。
交易管理用于验证节点810接收的交易中携带的数字签名,验证业务主体的身份信息,并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息);对于获得接入区块链网络800的授权的业务主体而言,均拥有认证中心颁发的数字证书,业务主体利用自己的数字证书中的私钥对提交的交易进行签名,从而声明自己的合法身份。
账本管理用于维护区块链和状态数据库。对于取得共识的区块,追加到区块链的尾部;执行取得共识的区块中的交易,当交易包括更新操作时更新状态数据库中的键值对,当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作,包括:根据区块序列号(例如交易的哈希值)查询区块;根据区块哈希值查询区块;根据交易序列号查询区块;根据交易序列号查询交易;根据业务主体的账号(序列号)查询业务主体的账号数据;根据通道名称查询通道中的区块链。
应用层801封装了区块链网络能够实现的各种业务,包括交易的溯源、存证和验证等。
应用本发明上述实施例,通过在区块链网络中存储媒体文件的音频过滤参数,使得终端在进行媒体文件播放之前,可先从区块链网络获取到媒体文件的音频过滤参数,以判断该媒体文件是否支持音频数据过滤以及所支持过滤的音频数据类型,避免在媒体文件播放过程中,进行音频过滤参数的获取所导致的数据处理效率及用户体验低下。
继续对本发明实施例提供的媒体文件播放中的音频处理方法进行说明。图14为本发明实施例提供的媒体文件播放中的音频处理方法的流程示意图,在一些实施例中,该媒体文件播放中的音频处理方法可由服务器或终端实施,或由服务器及终端协同实施,以服务器与终端协同实施、媒体文件为视频文件、终端上设置有视频播放客户端为例,对本发明实施例提供的媒体文件播放中的音频处理方法进行说明。
步骤401:视频播放客户端接收目标视频的播放指令。
步骤402:视频播放客户端基于播放指令,发送目标视频的视频数据的获取请求给服务器。
步骤403:服务器基于获取请求,返回携带音频过滤参数的视频数据。
步骤404:视频播放客户端基于音频过滤参数,呈现音频过滤按键。
在实际实施时,视频播放客户端接收服务器返回的视频数据后,基于视频数据的数据结构,进行数据解析,得到音频过滤参数,并呈现对应该音频过滤参数的音频过滤按键。
步骤405:视频播放客户端响应于针对音频过滤按键的点击指令,采用复选框的形式呈现对应音频过滤参数的过滤功能项。
在实际实施时,针对音频过滤按键的点击响应,可通过为音频过滤按键添加点击事件实现,当用户点击音频过滤按键时,触发点击事件,呈现对应音频过滤参数的过滤功能项。
在实际实施时,视频播放客户端所呈现的过滤功能项可以为:复选框的形式的对应不同的音频过滤类型的过滤功能项,如对应背景音乐过滤的过滤功能项、对应人物声音过滤的过滤功能项、及对应环境噪声过滤的过滤功能项。
步骤406:视频播放客户端响应于针对过滤功能项的音频过滤指令,发送音频数据获取请求给服务器。
这里,音频过滤指令,用于指示对呈现的至少两种音频过滤类型中目标类型的音频数据进行过滤,也即,音频数据获取请求用于请求视频文件的音频数据中非目标类型的音频数据。
步骤407:服务器基于音频数据获取请求,获取非目标类型的音频数据。
这里,非目标类型的音频数据即为媒体文件的媒体数据中,除目标类型的音频数据之外的音频数据。
在实际实施时,服务器解析音频数据获取请求,得到视频文件标识及所指示进行过滤的目标类型的音频数据,查找视频文件的非目标类型的音频数据。
步骤408:服务器发送非目标类型的音频数据给视频播放客户端。
步骤409:视频播放客户端播放服务器返回的音频数据。
应用本发明上述实施例,在视频的播放界面,呈现对应音频过滤参数的过滤功能项,通过呈现对应音频过滤参数的过滤功能项,为用户提供对应至少两种音频过滤类型的过滤选择,使得用户能够依据实际需要进行过滤功能的选择;针对用户触发的对应不同目标类型的音频过滤指令,实现相应的音频类型的音频数据的过滤,丰富了视频播放过程中,音频数据输出的多样性。
接下来以媒体文件为视频文件为例,对本发明实施例提供的媒体文件播放中的音频处理方法进行说明。该媒体文件播放中的音频处理方法可以由服务器及终端协同实施,终端上设置有视频播放客户端,图15为本发明实施例提供的媒体文件播放中的音频处理方法的前端实现流程示意图,结合图15对本发明实施例中媒体文件播放中的音频处理方法进行说明。
在实际应用中,用户通过终端上设置的视频播放客户端触发目标视频的播放请求,终端发送目标视频的播放请求给服务器,并基于服务器返回的目标视频的视频数据进行数据加载和播放。在实际实施时,前端通过后台返回的控制字段确定当前播放的视频有多少可使用的声音特征,并根据声音特征的不同数量在前端生成数量不等的选择按钮,在UI上体现为支持多选的复选框,用户可从复选框中选择自己想屏蔽的声音特征;例如选择背景音乐(选中的代表要屏蔽掉的声音特征),此时前端向后台发送要屏蔽掉背景音乐的请求,并且等待服务器的响应;服务器在接收请求后,会根据传递的屏蔽参数的要求,选择未被屏蔽的声音特征数据返回,从而实现屏蔽某种声音特征的功能。具体地,包括如下操作:
1、终端播放视频。
2、终端解析视频包含的音频数据类型。
在实际实施时,终端在视频正常起播后向服务器请求支持屏蔽(即过滤)的声音特征数据(即音频过滤参数),终端对服务器返回的数据进行解析,以得到视频包含的音频数据类型。
3、终端判断是否含有支持屏蔽的音频数据类型。
在实际应用中,服务器返回的数据的数据结构可以为图6所示数据结构,终端基于解析得到的音频过滤参数判断视频的音频数据是否包含多种支持屏蔽的音频数据类型。
4、终端确定含有支持屏蔽的音频数据类型时,显示屏蔽按钮。
当通过解析得到对应多种支持屏蔽的音频数据类型的参数时,创建对应该参数的实体类对象,并在视频的播放界面显示屏蔽按钮,具体地:
终端将该对象的VoiceInfo数据添加到预设的复选框按钮中,支持标识(supportTag)字段表示该视频是否支持声音类型屏蔽,而音频过滤类型(voiceType)字段则记录该视频支持屏蔽的音频数据类型,根据支持屏蔽的音频数据类型的列表,生成一一对应的复选框按钮并设置为对列表不可见,只有在点击屏蔽按钮时才会将复选框显示出来。
屏蔽按钮的点击响应是通过给按钮添加点击事件OnClickListener来完成的,当按钮被点击时通过点击事件的回调将复选框设置为可见,此时用户可以根据复选框展示的选项点击想要屏蔽的声音类型。图16为本发明实施例提供的视频播放的界面视图,参见图16,终端在视频播放的过程中,在播放界面呈现屏蔽按钮,当用户点击屏蔽按钮时,呈现包括多种音频过滤类型的复选框,图17为本发明实施例提供的复选框的界面视图,参见图17,用户通过呈现的复选框可进行一个或多个音频过滤类型的选择。
视频播放界面的整体UI由四部分构成,分别是播放器主界面,播放列表,播放控制按钮以及屏蔽按钮;其中,播放器主界面为小窗播放时播放器的位置,通过该播放器播放用户选择的视频;右侧的播放列表为该视频相关的内容,或者是该视频的其他剧集,视视频的具体情况而定,用户可从右侧的播放列表中切换要播放的视频;下面的播放控制按钮用来控制播放器的起播、暂停、下一个视频切换等功能,是播放器控制的基础组件;屏蔽按钮用于对视频中的音频数据进行屏蔽,通过点击“屏蔽按钮”可以弹出复选框,复选框中显示的选项为从服务器端返回的该视频支持屏蔽的声音特征。
5、用户点击屏蔽按钮。
当用户点击了某一个具体的复选框按钮(如点击屏蔽人声)时,按钮的点击事件会回调并执行后续的逻辑,具体如下:
首先将播放器置于Loading状态,等待服务器返回新的数据流后进行播放,也即,当用户触发了屏蔽按钮后,终端执行步骤6、暂停视频播放,拉取后台屏蔽后的音频数据,具体的执行异步操作:
一方面,执行步骤61:终端弹出提示框告知正在加载数据;
具体地,在播放界面弹出提示框告知用户正在加载数据。
另一方面,执行步骤62:终端向服务器发起异步请求,以使服务器(后台)拉取对应的屏蔽后的音频数据;
该请求携带用户选择的屏蔽内容参数(即用户选择的音频过滤类型),服务器在接收请求后,拉取对应的屏蔽后的音频数据,并执行步骤63:服务器返回新音频数据;
这里,后台根据参数返回屏蔽掉用户所选声音特征的新音频数据,客户端接收数据之后执行步骤64:进行数据加载及播放。
这里对屏蔽按钮被触发后的数据获取过程进行说明,图18本发明实施例提供的数据请求流程示意图,参见图18,包括如下:
当用户触发屏蔽按钮,即步骤181,用户点击屏蔽选项后,执行步骤182,终端向服务器请求新的视频流,请求中携带屏蔽参数,服务器解析客户端发送的请求后得到屏蔽参数,获取相应的屏蔽特定类型的音频数据后的视频流,并返回给客户端,执行步骤183,客户端接收服务器返回的数据后,执行步骤184,组装播放数据结构,最后执行步骤185,客户端播放屏蔽后的视频。
接下来对服务器侧的数据处理进行说明。服务器侧的处理逻辑主要包括两部分,一部分是对后台视频资源数据的批量预处理,另一部分是对前端数据请求的响应;以下分别进行说明。
对于后台视频资源数据的批量预处理,后台会先通过声音提取算法,将视频的声音根据不同的声音频率进行智能计算,分离出其中不同的特征的声音,包括背景音乐,人物说话声,环境的噪声等等;分离完成后将每种特征的声音与视频资源分别单独存储,每个视频可提取的特征数量不同,所以每个视频可支持的屏蔽功能不同;将服务器端已有的视频资源进行批量处理,在前端功能上线前完成线上视频的分析和处理。
图19为本发明实施例提供的视频资源数据预处理的流程示意图,参见图19,对于每个待处理的视频文件,服务器执行如下操作:
步骤191:服务器解析视频包含的音频数据类型;具体地,服务器对视频数据中的音频数据进行解析,得到视频包含的音频数据类型,如音乐、人声、噪声等;之后执行步骤192:服务器为每种音频数据类型建立独立的存储通道,并执行步骤193:生成新的视频文件,存储至服务器上;其中,服务器对于不同音频数据类型的分类可以依据音频的频率或音色等。接下来对后台视频资源数据的批量预处理进行详细说明。
在实际实施时,服务器可周期性的扫描媒体资源库中待处理的视频文件,以对待处理的视频文件进行处理,在服务器获取到待处理的视频文件后,可按照日期时间排序的方式依次处理媒资库中视频文件。
对于每个待处理的视频文件,首先提取出视频中的音频信息,该音频信息即是在观看视频时听到的完整的背景声,通过代码获取该音频信息的波形图,图4为本发明实施例提供的音频波形图,参见图4,该波形图是将声音的振幅图像化,它的X轴单位是时间,Y轴表示的是振幅,音频波形图表示的是所有频率叠加的正弦波幅值的总大小随时间的变化规律。
为了区分出不同的频率范围的波形叠加之前的效果,服务器对音频波形图进行傅里叶变换,把波形图中的每个频率拆开来,还原成每个频率上单一的正弦波,相当于把二位的波形图纸变成三维的立体模型,频谱是三维的,越亮表示在这个频率上越响,越暗表示越弱,图5为本发明实施例提供的音频频谱图,参见图5,该频谱图显示了不同频率的分布情况,由于不同的乐器,人声等对应不同的频率分布范围,因此,可基于此将频率空间简单分段,将不同频率范围内的声音归类到不同的乐器或者人声特征中;比如人声的频率范围男性在基准音区64~523Hz范围内,而女性的基准音区范围在160~1200Hz范围内;通过算法分析从频谱图和波形图中分析出的声音与人声近似时,即生成人声特征,并将该频率范围的信息收集分离,从源文件中分离出人声的信息,对于其它特征信息(如背景音乐)以相同的方式获取到。
对于获取到的声音特征信息,将每种声音特征信息与相应的视频文件的ID作为一条记录存储,以便于在查找时能根据视频文件的ID迅速查找到。
接下来对服务器执行的对前端数据请求的响应部分进行说明。图20为本发明实施例提供的服务器响应前端屏蔽数据请求的流程示意图,参见图20,后台响应前端屏蔽声音特征的接口请求,通过该接口返回带有所需声音特征并剔除想要屏蔽的声音特征的数据,具体地,包括如下:
在实际实施时,当用户选择了要屏蔽的声音后,执行步骤21,客户端发起请求,携带用户选择屏蔽的声音参数,然后执行步骤22,服务器检查客户端所请求的视频资源,并执行步骤23,判断该视频文件是否支持屏蔽部分声音特征,若服务器确定该视频文件并不支持屏蔽部分声音特征,则执行步骤24,进行错误处理,响应前端;若服务器确定该视频文件支持屏蔽部分声音特征,服务器执行步骤25,根据屏蔽参数返回不同的声音通道,最后执行步骤26,播放器下载到视频资源进行播放。
应用本发明上述实施例,对于用户想通过第三方软件提供的“听歌识曲”类似功能对视频中的歌曲进行识别的场景,可以一键屏蔽人声,只输出音乐的声音让用户进行识别;对于某些视频中背景音乐声音过大导致用户无法清晰的听清视频中人物说话的声音的场景,可以一键屏蔽背景音乐,让人声变得更加清晰;通过简单的复选框选择的方式进行选择,就可以选择性的屏蔽和保留想利用的声音特征进行用户想进行的行为,保证操作简单性的同时满足用户的需求。
继续对本发明实施例提供的媒体文件播放中的音频处理装置进行说明,图21为本发明实施例提供的媒体文件播放中的音频处理装置的组成结构示意图,参见图21,在一些实施例中,本发明实施例提供的媒体文件播放中的音频处理装置包括:
获取模块211,用于获取媒体文件的音频过滤参数,所述音频过滤参数用于指示所述媒体文件的音频数据对应的至少两种音频过滤类型;
呈现模块212,用于在所述媒体文件的播放界面,呈现对应所述音频过滤参数的过滤功能项;
接收模块213,用于接收针对所述过滤功能项的音频过滤指令,所述音频过滤指令,用于指示对所述至少两种音频过滤类型中目标类型的音频数据进行过滤;
发送模块214,用于基于所述音频过滤指令,发送音频数据获取请求,以请求所述媒体文件的音频数据中非目标类型的音频数据;
播放模块215,用于接收并播放基于所述音频数据获取请求所返回的音频数据。
在一些实施例中,所述获取模块,还用于在所述媒体文件的播放过程中,发送所述媒体文件的音频过滤参数获取请求;
接收返回的所述音频过滤参数。
在一些实施例中,所述获取模块,还用于获取所述媒体文件的音频数据;
基于所述音频数据的数据结构,对所述音频数据进行解析,得到所述音频过滤参数。
在一些实施例中,所述呈现模块,还用于在所述媒体文件的播放界面,呈现音频过滤按键;
响应于针对所述音频过滤按键的点击指令,采用复选框的形式呈现对应所述音频过滤参数的过滤功能项。
在一些实施例中,所述呈现模块,还用于在所述媒体文件的播放界面,呈现至少两个过滤功能按键,每个所述过滤功能按键对应一种音频过滤类型,所述过滤功能按键用于指示相应的音频过滤类型的过滤功能项。
在一些实施例中,所述装置还包括:
控制模块,用于停止播放所述媒体文件,并在所述媒体文件的播放界面,弹出信息提示框;
其中,所述信息提示框用于提示所述非目标类型的音频数据的加载进度。
在一些实施例中,所述发送模块,还用于发送携带所述目标类型的音频过滤参数的音频数据获取请求,以基于所述目标类型的音频过滤参数,对所述媒体文件的音频数据进行过滤,得到所述非目标类型的音频数据。
在一些实施例中,所述装置还包括:
分离模块,用于获取所述媒体文件的音频数据对应的波形图;
对所述波形图进行傅里叶变换,得到指示不同频率所对应的波形的频谱图;
基于所述频谱图及不同类型音频所对应的频率范围,从所述音频数据中分离得到所述至少两种音频过滤类型的音频数据。
在一些实施例中,所述装置还包括:
获取模块,还用于从区块链网络中获取所述媒体文件的音频过滤参数,所述音频过滤参数为服务器对所述媒体文件中不同音频数据类型的数据进行分离后得到,并上传至所述区块链网络。
在一些实施例中,所述至少两种音频过滤类型包括:背景音乐过滤、人物声音过滤及环境噪声过滤。
这里需要指出的是:以上涉及装置的描述,与上述方法描述是类似的,同方法的有益效果描述,不做赘述,对于本发明实施例所述装置中未披露的技术细节,请参照本发明方法实施例的描述。
本发明实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行程序;
处理器,用于执行所述存储器中存储的可执行程序时,实现本发明实施例提供的上述媒体文件播放中的音频处理方法。
本发明实施例还提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的媒体文件播放中的音频处理方法。
实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、随机存取存储器(RAM,Random Access Memory)、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (15)

1.一种媒体文件播放中的音频处理方法,其特征在于,所述方法包括:
获取媒体文件的音频数据所对应的至少两种音频过滤类型,所述至少两种音频过滤类型包括背景音乐过滤、人物声音过滤及环境噪声过滤中至少两种;
在所述媒体文件的播放界面,采用复选框形式或按键形式呈现对应所述至少两种音频过滤类型的至少两个过滤功能项,每个过滤功能项对应一个音频过滤类型;
接收针对所述过滤功能项的音频过滤指令,所述音频过滤指令用于指示对所述至少两种音频过滤类型中目标类型的音频数据进行过滤;
其中,所述音频过滤指令通过以下至少一个操作所触发:
当所述至少两个过滤功能项通过复选框形式呈现时,接收到针对一个或多个过滤功能项的勾选操作,所述勾选操作用于触发所述音频过滤指令;
当所述至少两个过滤功能项通过按键形式呈现时,接收到针对按键的点击操作,所述点击操作用于触发所述音频过滤指令;
基于所述音频过滤指令,发送音频数据获取请求,以请求获取对应所述至少两种音频过滤类型的音频数据中非目标类型的音频过滤数据;
其中,各所述音频过滤类型的音频数据为,通过对所述媒体文件的音频数据进行分离得到,且以独立文件的形式存储;
接收基于所述音频数据获取请求所返回的音频数据;
基于接收的音频数据,进行播放数据的切换,并播放接收到的音频数据。
2.如权利要求1所述的方法,其特征在于,所述获取媒体文件的音频数据所对应的至少两种音频过滤类型,包括:
在所述媒体文件对应的播放程序运行过程中,发送所述媒体文件的音频过滤类型获取请求,以请求获取所述媒体文件的音频数据所对应的至少两种音频过滤类型;
接收返回的所述音频数据所对应的至少两种音频过滤类型。
3.如权利要求1所述的方法,其特征在于,所述获取媒体文件的音频数据所对应的至少两种音频过滤类型,包括:
获取所述媒体文件的音频数据;
基于所述音频数据的数据结构,对所述音频数据进行解析,得到所述音频数据所对应的至少两种音频过滤类型。
4.如权利要求1所述的方法,其特征在于,所述在所述媒体文件的播放界面,采用复选框形式或按键形式呈现对应所述至少两种音频过滤类型的至少两个过滤功能项,包括:
在所述媒体文件的播放界面,呈现音频过滤按键;
响应于针对所述音频过滤按键的点击指令,采用复选框的形式呈现对应所述至少两种音频过滤类型的至少两个过滤功能项。
5.如权利要求1所述的方法,其特征在于,所述在所述媒体文件的播放界面,采用复选框形式或按键形式呈现对应所述至少两种音频过滤类型的至少两个过滤功能项,包括:
在所述媒体文件的播放界面,呈现至少两个过滤功能按键,所述过滤功能按键用于指示相应的音频过滤类型的过滤功能项。
6.如权利要求1所述的方法,其特征在于,所述接收针对所述过滤功能项的音频过滤指令之后,所述方法还包括:
停止播放所述媒体文件,并在所述媒体文件的播放界面,弹出信息提示框;
其中,所述信息提示框用于提示所述非目标类型的音频数据的加载进度。
7.如权利要求1所述的方法,其特征在于,所述发送音频数据获取请求,包括:
发送对应所述目标类型的音频数据获取请求,以基于所述目标类型,对所述媒体文件的音频数据进行过滤,得到所述非目标类型的音频数据。
8.如权利要求1所述的方法,其特征在于,所述获取媒体文件的音频数据所对应的至少两种音频过滤类型之前,所述方法还包括:
获取所述媒体文件的音频数据对应的波形图;
对所述波形图进行傅里叶变换,得到指示不同频率所对应的波形的频谱图;
基于所述频谱图及不同类型音频所对应的频率范围,从所述音频数据中分离得到所述至少两种音频过滤类型的音频数据。
9.如权利要求1所述的方法,其特征在于,所述获取媒体文件的音频数据所对应的至少两种音频过滤类型,包括:
从区块链网络中获取所述媒体文件的音频数据所对应的至少两种音频过滤类型,所述对应的至少两种音频过滤类型的音频数据为服务器对所述媒体文件中不同音频数据类型的数据进行分离后得到,并上传至所述区块链网络。
10.如权利要求1至9任一项所述的方法,其特征在于,
所述至少两种音频过滤类型包括如下至少两种:背景音乐过滤、人物声音过滤及环境噪声过滤。
11.一种媒体文件播放中的音频处理装置,其特征在于,所述装置包括:
获取模块,用于获取媒体文件的音频数据所对应的至少两种音频过滤类型,所述至少两种音频过滤类型包括背景音乐过滤、人物声音过滤及环境噪声过滤中至少两种;
呈现模块,用于在所述媒体文件的播放界面,采用复选框形式或按键形式呈现对应所述至少两种音频过滤类型的至少两个过滤功能项,每个过滤功能项对应一个音频过滤类型;
接收模块,用于接收针对所述过滤功能项的音频过滤指令,所述音频过滤指令,用于指示对所述至少两种音频过滤类型中目标类型的音频数据进行过滤;
其中,所述音频过滤指令通过以下至少一个操作所触发:
当所述至少两个过滤功能项通过复选框形式呈现时,接收到针对一个或多个过滤功能项的勾选操作,所述勾选操作用于触发所述音频过滤指令;
当所述至少两个过滤功能项通过按键形式呈现时,接收到针对按键的点击操作,所述点击操作用于触发所述音频过滤指令;
发送模块,用于基于所述音频过滤指令,发送音频数据获取请求,以请求获取对应所述至少两种音频过滤类型的音频数据中非目标类型的音频过滤数据;其中,各所述音频过滤类型的音频数据为,通过对所述媒体文件的音频数据进行分离得到,且以独立文件的形式存储;
播放模块,用于接收基于所述音频数据获取请求所返回的音频数据;基于接收的音频数据,进行播放数据的切换,并播放接收到的音频数据。
12.如权利要求11所述的装置,其特征在于,
所述呈现模块,还用于在所述媒体文件的播放界面,呈现音频过滤按键;
响应于针对所述音频过滤按键的点击指令,采用复选框的形式呈现对应所述至少两种音频过滤类型的至少两个过滤功能项。
13.如权利要求11所述的装置,其特征在于,
所述呈现模块,还用于在所述媒体文件的播放界面,呈现至少两个过滤功能按键,每个所述过滤功能按键对应一种音频过滤类型,所述过滤功能按键用于指示相应的音频过滤类型的过滤功能项。
14.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至10中任一项所述的媒体文件播放中的音频处理方法。
15.一种存储介质,其特征在于,所述存储介质存储有可执行指令,用于引起处理器执行时,实现权利要求1至10中任一项所述的媒体文件播放中的音频处理方法。
CN201910901750.9A 2019-09-23 2019-09-23 媒体文件播放中的音频处理方法、装置、设备及存储介质 Active CN110602553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910901750.9A CN110602553B (zh) 2019-09-23 2019-09-23 媒体文件播放中的音频处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910901750.9A CN110602553B (zh) 2019-09-23 2019-09-23 媒体文件播放中的音频处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110602553A CN110602553A (zh) 2019-12-20
CN110602553B true CN110602553B (zh) 2021-06-11

Family

ID=68862548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910901750.9A Active CN110602553B (zh) 2019-09-23 2019-09-23 媒体文件播放中的音频处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110602553B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851798B (zh) * 2020-01-15 2020-04-21 支付宝(杭州)信息技术有限公司 一种基于区块链的音频作品授权方法、装置及设备
CN112040067B (zh) * 2020-11-06 2021-02-26 南京研利科技有限公司 用于音频播放消息的方法、电子设备和介质
CN115278352A (zh) * 2022-06-22 2022-11-01 北京字跳网络技术有限公司 一种视频播放方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10283114B2 (en) * 2014-09-30 2019-05-07 Hewlett-Packard Development Company, L.P. Sound conditioning
CN105657535B (zh) * 2015-12-29 2018-10-30 北京搜狗科技发展有限公司 一种音频识别方法和装置
CN110223696B (zh) * 2019-05-22 2024-04-05 平安科技(深圳)有限公司 一种语音信号的采集方法、装置及终端设备

Also Published As

Publication number Publication date
CN110602553A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
JP7351907B2 (ja) オンライン文書共有方法、装置、電子機器及び記憶媒体
CN110602553B (zh) 媒体文件播放中的音频处理方法、装置、设备及存储介质
CN112104892B (zh) 一种多媒体信息处理方法、装置、电子设备及存储介质
WO2021093737A1 (zh) 生成视频的方法、装置、电子设备和计算机可读介质
CN109348274B (zh) 一种直播互动方法、装置及存储介质
JP2021047835A (ja) ビデオ再生方法、ビデオ再生装置、電子デバイス及び読み取り可能な記憶媒体
CN104866275B (zh) 一种用于获取图像信息的方法和装置
CN114097030A (zh) 区分语音命令
KR20160090330A (ko) 컨퍼런스에서의 음성 합성 제어
WO2020228528A1 (zh) 背景音频信号滤除方法、装置及存储介质
CN109509472A (zh) 基于语音平台识别背景音乐的方法、装置及系统
CN113539299A (zh) 一种多媒体信息处理方法、装置、电子设备及存储介质
CN113436622A (zh) 一种智能语音助手的处理方法及装置
CN112423081A (zh) 一种视频数据处理方法、装置、设备及可读存储介质
US10468018B2 (en) Methods and systems for recognizing audio played and recording related video for viewing
CN112989186A (zh) 资讯信息推荐模型训练方法、装置、电子设备及存储介质
CN111063348B (zh) 一种信息处理方法、装置、设备及计算机存储介质
US10681402B2 (en) Providing relevant and authentic channel content to users based on user persona and interest
CN111475801A (zh) 权限管理方法及系统
WO2023040820A1 (zh) 音频播放方法、装置、计算机可读存储介质及电子设备
US20170263068A1 (en) Method for generating counting events and electronic device
CN113707179A (zh) 一种音频识别方法、装置、设备及介质
CN115484503B (zh) 弹幕生成方法及装置、电子设备和存储介质
US10536729B2 (en) Methods, systems, and media for transforming fingerprints to detect unauthorized media content items
CN116932810A (zh) 一种音乐信息展示方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant