CN110457002B - 一种多媒体文件处理方法、装置及计算机存储介质 - Google Patents

一种多媒体文件处理方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN110457002B
CN110457002B CN201910597775.4A CN201910597775A CN110457002B CN 110457002 B CN110457002 B CN 110457002B CN 201910597775 A CN201910597775 A CN 201910597775A CN 110457002 B CN110457002 B CN 110457002B
Authority
CN
China
Prior art keywords
audio
audio data
data
amplitude
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910597775.4A
Other languages
English (en)
Other versions
CN110457002A (zh
Inventor
王涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910597775.4A priority Critical patent/CN110457002B/zh
Priority to PCT/CN2019/101953 priority patent/WO2021000389A1/zh
Publication of CN110457002A publication Critical patent/CN110457002A/zh
Application granted granted Critical
Publication of CN110457002B publication Critical patent/CN110457002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请实施例公开了一种多媒体文件处理方法、装置及计算机存储介质,其中该方法包括:电子设备接收用户输入的音频调节指令,所述音频调节指令用于指示所述电子设备对第一多媒体文件的音频幅值进行调节;所述电子设备根据所述音频调节指令从所述第一多媒体文件中提取N段有话音频数据,所述N为大于等于1的整数;所述电子设备从所述N段有话音频数据中选取音频幅值满足预设条件的目标有话音频数据;所述电子设备按照预设规则将所述目标有话音频数据的音频幅值进行调节,得到处理后的音频数据。采用本申请实施例,可以提高对音视频的音量的调整效率。

Description

一种多媒体文件处理方法、装置及计算机存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种多媒体文件处理方法、装置及计算机存储介质。
背景技术
随着娱乐信息技术的蓬勃发展,用户越来越追求高质、高速且清晰的信息获取。实时影像监控已经广泛应用在各个场景,例如银行业务员办理手续时或金融行业办理手续,需要实时监控业务人员和顾客之间的业务场景和说话内容。因此,企业的数据库中存放有大量的监控视频。
但是,在实时影像监控过程中,由于受到环境因素的影响,业务人员和顾客之间的对话声音可能会比较小,从而无法听清具体说话内容。现有解决办法通常是找到目标监控视频,通过拖动视频进度条找到对话内容,然后将视频音量放大。但是,当需要调节音量的视频非常多的时候,整个过程会浪费很多的人工时间,对视频的音量调整效率低。
发明内容
本申请实施例提供一种多媒体文件处理方法、装置及计算机存储介质,可以提高对音视频的音量的调整效率。
第一方面,本申请实施例提供了一种多媒体文件处理方法,该方法包括:
电子设备接收用户输入的音频调节指令,所述音频调节指令用于指示所述电子设备对第一多媒体文件的音频幅值进行调节;
所述电子设备根据所述音频调节指令从所述第一多媒体文件中提取N段有话音频数据,所述N为大于等于1的整数;
所述电子设备从所述N段有话音频数据中选取音频幅值满足预设条件的目标有话音频数据;
所述电子设备按照预设规则将所述目标有话音频数据的音频幅值进行调节,得到处理后的音频数据。
其中,目标有话音频数据可以是一段或多段。多媒体文件可以是视频文件,也可以是音频文件。
实施本申请实施例,电子设备根据用户触发的音频调节指令自动从第一多媒体文件中提取多段有话音频数据,并从该多段有话音频数据中选取音频幅值满足预设条件的一段或多段目标有话音频数据,最终对这一段或多段目标有话音频数据的音频幅值进行调节。因此,本申请实施例可以由用户一键触发电子设备对某一音视频文件的一段或多段有话音频数据的音量进行集中调节,而非现有技术中由用户通过拖动视频进度条逐一找到目标监控视频中的对话内容,然后将其音量放大,本申请实施例相较于现有技术节省了人工时间,降低了操作复杂度,提高了对音视频的音量调节效率。
在一种实现方式中,所述第一多媒体文件为视频文件,所述电子设备根据所述音频调节指令从所述第一多媒体文件中提取N段有话音频数据,包括:
所述电子设备采用音频提取工具从所述视频文件中提取音频数据;
所述电子设备采用语音活动检测VAD技术从所述音频数据中提取所述N段有话音频数据。
其中,所述音频提取工具包括但不限于:多媒体视频处理工具FFmpeg。FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。利用FFmpeg工具可以从视频文件中提取出音频数据。
语音活动检测(Voice Activity Detection,VAD)又称语音端点检测、语音边界检测等。语音活动检测是指在噪声环境中检测语音的存在与否。利用VAD技术可以从音频数据中提取出有话音频数据。
实施本申请实施例,电子设备采用音频提取工具能够从视频文件中提取出连续的一段音频数据,其中包括噪声以及语音数据(或称有话语音数据),采用VAD技术能够从该一段连续的音频数据中提取多段有话音频数据,进行后续的音频幅值调节过程。采用本申请实施例,能够只针对有话语音数据进行音量调整,而不对噪声进行音量调整,提高对音视频的音量调整效率,提高用户的视听体验。
在一种实现方式中,所述第一多媒体文件为音频文件,所述电子设备根据所述音频调节指令从所述第一多媒体文件中提取N段有话音频数据,包括:
所述电子设备采用语音活动检测VAD技术从所述音频文件中提取所述N段有话音频数据。
在一种实现方式中,所述电子设备从所述N段有话音频数据中选取音频幅值满足预设条件的目标有话音频数据,包括:
所述电子设备统计所述N段有话音频数据中每一段有话音频数据的音频幅值,其中,每一段有话音频数据的音频幅值是根据所述每一段有话音频数据的所有音频幅值的绝对值的平均值确定的;
所述电子设备将音频幅值小于或等于第一预设阈值的有话音频数据确定为所述目标有话音频数据;
所述电子设备按照预设规则将所述目标有话音频数据的音频幅值进行调节,包括:
所述电子设备按照预设规则对所述目标有话音频数据的音频幅值进行提升。
其中,音频数据的参数包括时间以及幅值,幅值表征音频数据播放时的音量值,时间表征音频数据的播放顺序。音频幅值的单位可以是PA或毫安等。
实施本申请实施例,能够集中对音量较小的一段或多段音频数据进行音量提升,达到第一多媒体文件的音量整体均衡,提升了用户的视听体验,提高了音视频的音量的提升效率。
在一种实现方式中,所述目标有话音频数据的音频幅值包括多个,所述电子设备按照预设规则对所述目标有话音频数据的音频幅值进行提升,包括:
所述电子设备将所述目标有话音频数据的每个音频幅值根据公式进行提升,其中所述b为所述目标有话音频数据的各个音频幅值,所述c为所述目标有话音频数据的所有音频幅值的绝对值的最大值,所述a为所述目标有话音频数据的各个音频幅值调节后对应的音频幅值,其中,所述c为小于等于1的正数。
其中,电子设备采用音频提取工具从多媒体文件中提取出的音频数据的音频幅值可以进行归一化,使得音频幅值处于-1~1之间,因此,目标有话音频数据的每个音频幅值也处于-1~1之间。因此,b为-1~1之间的数,c为小于等于1的正数,根据上述公式计算得到的a相较于b值变大了。
在一种实现方式中,所述目标有话音频数据的音频幅值包括多个,所述电子设备按照预设规则对所述目标有话音频数据的音频幅值进行提升,包括:
所述电子设备将所述目标有话音频数据的每个音频幅值乘以系数d,以提升所述目标有话音频数据的音频幅值,所述d大于1。
在一种实现方式中,所述目标有话音频数据的音频幅值包括多个,所述电子设备按照预设规则对所述目标有话音频数据的音频幅值进行提升,包括:
所述电子设备对所述目标有话音频数据进行预加重,以提升所述目标有话音频数据的音频幅值。
其中,预加重是一种对信号的高频分量进行补偿的信号处理方式。预加重技术的思想就是增强信号的高频成分,表现在时域上,即提升数据的音频幅值。
在一种实现方式中,所述电子设备根据所述音频调节指令从所述第一多媒体文件中提取N段有话音频数据之后,还包括:
所述电子设备对所述N段有话音频数据进行时间标记,所述时间标记包括所述N段有话音频数据中的每段有话音频数据在所述第一多媒体文件中的起始时刻和结束时刻。
实施本申请实施例,通过对音频数据进行时间标记,可以便于后续在播放音频数据时以时间标记将文字信息与对应的音频数据进行校准。
第二方面,本申请实施例提供了多媒体文件处理装置,包括:
接收单元,用于接收用户输入的音频调节指令,所述音频调节指令用于指示所述电子设备对第一多媒体文件的音频幅值进行调节;
提取单元,用于根据所述音频调节指令从所述第一多媒体文件中提取N段有话音频数据,所述N为大于等于1的整数;
选取单元,用于从所述N段有话音频数据中选取音频幅值满足预设条件的目标有话音频数据;
调节单元,用于按照预设规则将所述目标有话音频数据的音频幅值进行调节,得到处理后的音频数据。
在一种实现方式中,所述提取单元,包括:
第一提取单元,用于采用音频提取工具从所述第一多媒体文件中提取音频数据;
第二提取单元,用于采用语音活动检测VAD技术从所述音频数据中提取所述N段有话音频数据。
在一种实现方式中,所述选取单元,包括:
统计单元,用于统计所述N段有话音频数据中每一段有话音频数据的音频幅值,其中,每一段有话音频数据的音频幅值是根据所述每一段有话音频数据的所有音频幅值的绝对值的平均值确定的;
确定单元,用于将音频幅值小于或等于第一预设阈值的有话音频数据确定为所述目标有话音频数据;
所述调节单元具体用于:按照预设规则对所述目标有话音频数据的音频幅值进行提升。
在一种实现方式中,所述目标有话音频数据的音频幅值包括多个,所述调节单元具体用于:
将所述目标有话音频数据的每个音频幅值根据公式进行提升,其中所述b为所述目标有话音频数据的各个音频幅值,所述c为所述目标有话音频数据的所有音频幅值的绝对值的最大值,所述a为所述目标有话音频数据的各个音频幅值调节后对应的音频幅值,其中,所述c为小于等于1的正数。
在一种实现方式中,所述目标有话音频数据的音频幅值包括多个,所述调节单元具体用于:
将所述目标有话音频数据的每个音频幅值乘以系数d,以提升所述目标有话音频数据的音频幅值,所述d大于1。
在一种实现方式中,所述目标有话音频数据的音频幅值包括多个,所述调节单元具体用于:
对所述目标有话音频数据进行预加重,以提升所述目标有话音频数据的音频幅值。
在一种实现方式中,所述装置还包括:
标记单元,用于在所述提取单元根据所述音频调节指令从所述第一多媒体文件中提取N段有话音频数据之后,对所述N段有话音频数据进行时间标记,所述时间标记包括所述N段有话音频数据中的每段有话音频数据在所述第一多媒体文件中的起始时刻和结束时刻。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口和存储器,处理器、通信接口和存储器相互连接。其中,通信接口用于与其它电子设备(例如电子设备)进行通信,存储器用于存储第一方面所提供的多媒体文件处理方法的实现代码,处理器用于执行存储器中存储的程序代码,即执行第一方面所提供的多媒体文件处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,可读存储介质上存储有指令,当其在处理器上运行时,使得处理器执行上述第一方面描述的多媒体文件处理方法。
第五方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在处理器上运行时,使得处理器执行上述第一方面描述的多媒体文件处理方法。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种电子设备的硬件结构示意图;
图2为本发明实施例提供的一种多媒体文件处理方法的流程示意图;
图3为本发明实施例提供的一种音频数据的参数示意图;
图4为本发明实施例提供的一种多媒体文件处理装置的结构示意图。
具体实施方式
首先针对本发明实施例涉及的电子设备进行介绍。请参见图1,示出了本发明实施例提供的电子设备,该电子设备100可包括:存储器101、通信接口102和一个或多个处理器103。这些部件可通过总线104或者其他方式连接,图1以通过总线连接为例。其中:
存储器101可以和处理器103通过总线104或者输入输出端口耦合,存储器101也可以与处理器103集成在一起。存储器101用于存储各种软件程序和/或多组指令。具体的,存储器101可包括高速随机存取的存储器,并且也可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。存储器101还可以存储网络通信程序,该网络通信程序可用于与一个或多个附加设备,一个或多个电子设备,一个或多个电子设备进行通信。
处理器103可以是通用处理器,例如中央处理器(central processing unit,CPU),还可以是数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。处理器103可处理通过通信接口102接收到的数据。
通信接口102用于电子设备100与其他电子设备进行通信,例如电子设备进行通信。通信接口102可以是收发器、收发电路等,其中,通信接口是统称,可以包括一个或多个接口,例如电子设备与服务器之间的接口。通信接口102可以包括有线接口和无线接口,例如标准接口、以太网、多机同步接口。
处理器103可用于读取和执行计算机可读指令。具体的,处理器103可用于调用存储于存储器101中的数据。可选地,当处理器103发送任何消息或数据时,其具体通过驱动或控制通信接口102做所述发送。可选地,当处理器103接收任何消息或数据时,其具体通过驱动或控制通信接口102做所述接收。因此,处理器103可以被视为是执行发送或接收的控制中心,通信接口102是发送和接收操作的具体执行者。
在本申请实施例中,通信接口102具体用于执行下述方法实施例中涉及的数据收发的步骤,处理器103具体用于实施除数据收发之外的数据处理的步骤。
本发明实施例中,电子设备100可以是具备计算或处理能力的终端、服务器、电脑、视频采集设备、音频采集设备等。本申请实施例可以对音视频文件中的音频数据进行音量调节。
基于图1所示的电子设备的结构,图2提供了本发明实施例涉及的一种多媒体文件处理方法,该多媒体文件处理方法包括但不限于如下步骤S201-S203。
S201:电子设备接收用户输入的音频调节指令,该音频调节指令用于指示电子设备对第一多媒体文件的音频幅值进行调节。
本发明实施例中,多媒体文件可以是视频文件,例如监控设备采集到的视频文件,视频文件包含视频画面和视频声音(音频)。监控设备采集到的视频文件的音量一般不均衡,可能会有部分视频内容的音量较低,不利于用户收听视频中的说话内容,因此,可以由用户触发电子设备对该视频文件的音量进行整体调整。该多媒体文件也可以是音频文件,例如监听设备采集到的音频文件。第一多媒体文件可以是一个或多个,电子设备可以针对每个多媒体文件的音频数据进行音量调节。
S202:电子设备根据音频调节指令从第一多媒体文件中提取N段有话音频数据,N为大于等于1的整数。
可选的,第一多媒体文件为视频文件,电子设备根据音频调节指令从第一多媒体文件中提取N段有话音频数据,包括:
电子设备采用音频提取工具从视频文件中提取音频数据;
电子设备采用语音活动检测VAD技术从音频数据中提取N段有话音频数据。
其中,音频提取工具包括但不限于:多媒体视频处理工具FFmpeg。FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。利用FFmpeg工具可以从视频文件中提取出音频数据。
其中,提取出的音频数据的参数包括时间以及幅值,幅值表征音频数据播放时的音量值,时间表征音频数据的播放顺序。音频幅值的单位可以是PA或毫安等。参见图3,是一种音频数据的参数示意图,图3中,横轴代表时间,纵轴代表音频幅值(即音量),音频幅值既可以是正值,也可以是负值,音频幅值的绝对值越大,表示音量越高,音频幅值的绝对值越小,则表示音量越低。通过FFmpeg工具能够从视频文件中提取出连续的一段音频数据,其中包括噪声以及语音数据(或称有话语音数据)。
语音活动检测(Voice Activity Detection,VAD)又称语音端点检测、语音边界检测等。语音活动检测是指在噪声环境中检测语音的存在与否。利用VAD技术可以从音频数据中提取出有话音频数据。
采用VAD技术能够从该一段连续的音频数据中提取多段有话音频数据,进行后续的音频幅值调节过程。采用本申请实施例,能够只针对有话语音数据进行音量调整,而不对噪声进行音量调整,提高对音视频的音量调整效率,提高用户的视听体验。
可选的,第一多媒体文件为音频文件,电子设备根据音频调节指令从第一多媒体文件中提取N段有话音频数据,包括:
电子设备采用VAD技术从音频文件中提取N段有话音频数据。针对音频文件,可以直接利用VAD技术从中提取有话音频数据。
S203:电子设备从N段有话音频数据中选取音频幅值满足预设条件的目标有话音频数据。
可选的,电子设备从N段有话音频数据中选取音频幅值满足预设条件的目标有话音频数据,包括:
电子设备统计N段有话音频数据中每一段有话音频数据的音频幅值,其中,每一段有话音频数据的音频幅值是根据每一段有话音频数据的所有音频幅值的绝对值的平均值确定的。电子设备将音频幅值小于或等于第一预设阈值的有话音频数据确定为目标有话音频数据。也即是说,电子设备将第一多媒体文件中音量低于阈值的有话音频数据全部提取出,以对其进行音量整体调整。对音量高于阈值的有话音频数据或者噪声数据则可以不进行处理。其中,目标有话音频数据可以是一段也可以是多段。
例如,N段有话音频数据中有一段有话音频数据共包括6个音频幅值,分别是0.4、-0.4、0.6、-0.6、0.8和-0.8,该目标有话音频数据的音频幅值绝对值的平均值为0.6。若第一预设阈值为0.8,那么这段有话音频数据即为目标有话音频数据。
S204:电子设备按照预设规则将目标有话音频数据的音频幅值进行调节,得到处理后的音频数据。
可选的,电子设备按照预设规则将目标有话音频数据的音频幅值进行调节,包括:
电子设备按照预设规则对目标有话音频数据的音频幅值进行提升。
实施本申请实施例,能够集中对音量较小的一段或多段音频数据进行音量提升,达到第一多媒体文件的音量整体均衡,提升了用户的视听体验,提高了音视频的音量的提升效率。
本发明实施例中,对目标有话音频数据的音频幅值进行提升可以有如下三种实现方式。
在一种实现方式中,目标有话音频数据的音频幅值包括多个,电子设备按照预设规则对目标有话音频数据的音频幅值进行提升,包括:
电子设备将目标有话音频数据的每个音频幅值根据公式进行提升,其中b为目标有话音频数据的各个音频幅值,c为目标有话音频数据的所有音频幅值的绝对值的最大值,a为目标有话音频数据的各个音频幅值调节后对应的音频幅值,其中,c为小于等于1的正数。
其中,电子设备采用音频提取工具从多媒体文件中提取出的音频数据的音频幅值可以进行归一化,使得音频幅值处于-1~1之间,因此,目标有话音频数据的每个音频幅值也处于-1~1之间。因此,b为-1~1之间的数,c为小于等于1的正数,根据上述公式计算得到的a相较于b值变大了。例如,某一目标有话音频数据包括6个音频幅值,分别是0.4、-0.4、0.6、-0.6、0.8和-0.8,该目标有话音频数据的音频幅值绝对值的最大值为0.8。那么这段有话音频数据调整后的各个音频幅值变为0.5、-0.5、0.75、-0.75、1、-1。
在一种实现方式中,目标有话音频数据的音频幅值包括多个,电子设备按照预设规则对目标有话音频数据的音频幅值进行提升,包括:
电子设备将目标有话音频数据的每个音频幅值乘以系数d,以提升目标有话音频数据的音频幅值,d大于1。其中,d的值可以由系统设定。例如,某一目标有话音频数据包括6个音频幅值,分别是0.4、-0.4、0.6、-0.6、0.8和-0.8,d为1.2。那么这段有话音频数据调整后的各个音频幅值变为0.48、-0.48、0.72、-0.72、0.96、-0.96。
在一种实现方式中,目标有话音频数据的音频幅值包括多个,电子设备按照预设规则对目标有话音频数据的音频幅值进行提升,包括:
电子设备对目标有话音频数据进行预加重,以提升目标有话音频数据的音频幅值。
其中,预加重是将时域信号转化为频域信号,并对频域信号的高频分量进行补偿的信号处理方式。预加重技术的思想就是增强信号的高频成分,表现在时域上,即提升音频数据的音频幅值。
可选的,电子设备除了可以对音量较低的有话音频数据的音量进行提升以外,还可以对噪声数据进行音量降低。
这里,电子设备可以采用VAD技术从音频数据中提取有话音频数据,那么剩余的即为噪声数据或者无话音频数据。电子设备可以集中对这一部分噪声数据或者无话音频数据进行音量降低处理。
本发明实施例中,对噪声数据或者无话音频数据的音频幅值进行降低可以有如下实现方式。
在一种实现方式中,电子设备对噪声数据或者无话音频数据的音频幅值进行降低,包括:
电子设备将目标有话音频数据的每个音频幅值乘以系数d,以降低噪声数据或者无话音频数据的音频幅值,d为小于1的整数。其中,d的值可以由系统设定。例如,某一噪声数据包括6个音频幅值,分别是0.4、-0.4、0.6、-0.6、0.8和-0.8,d为0.1。那么这段噪声数据调整后的各个音频幅值变为0.04、-0.04、0.06、-0.06、0.08、-0.08。
通过对有话音频数据的音量进行增大,并对噪声或无话音频数据的音量进行降低,可以提高视频文件中整体的视听效果。
可选的,电子设备根据音频调节指令从第一多媒体文件中提取N段有话音频数据之后,还包括:
电子设备对N段有话音频数据进行时间标记,时间标记包括N段有话音频数据中的每段有话音频数据在第一多媒体文件中的起始时刻和结束时刻。也即是说,电子设备会记录每一段音频数据的时间信息。通过对音频数据进行时间标记,可以便于后续在播放音频数据时以时间标记将文字信息与对应的音频数据进行校准,使得音频内容与播放的文字内容互相匹配。
经过上述步骤S201-S204,得到处理后的音频数据后,可以将音频调整后的音频数据还原为视频文件,并进行播放,调整后的视频文件相较于调整前的视频文件,视频的音量更加均衡清晰,避免了某些视频片段的声音过下用户无法分辨说话内容。
综上,实施本申请实施例,电子设备根据用户触发的音频调节指令自动从第一多媒体文件中提取多段有话音频数据,并从该多段有话音频数据中选取音频幅值满足预设条件的一段或多段目标有话音频数据,最终对这一段或多段目标有话音频数据的音频幅值进行调节。因此,本申请实施例可以由用户一键触发电子设备对某一音视频文件的一段或多段有话音频数据的音量进行集中调节,而非现有技术中由用户通过拖动视频进度条逐一找到目标监控视频中的对话内容,然后将其音量放大,本申请实施例相较于现有技术节省了人工时间,降低了操作复杂度,提高了对音视频的音量调节效率。
参见图4,图4示给出了一种多媒体文件处理装置的结构示意图,如图4所示,该多媒体文件处理装置400包括:接收单元401、提取单元402、选取单元403和调节单元404。
其中,接收单元401,用于接收用户输入的音频调节指令,所述音频调节指令用于指示所述电子设备对第一多媒体文件的音频幅值进行调节;
提取单元402,用于根据所述音频调节指令从所述第一多媒体文件中提取N段有话音频数据,所述N为大于等于1的整数;
选取单元403,用于从所述N段有话音频数据中选取音频幅值满足预设条件的目标有话音频数据;
调节单元404,用于按照预设规则将所述目标有话音频数据的音频幅值进行调节,得到处理后的音频数据。
在一种实现方式中,所述提取单元402,包括:
第一提取单元,用于采用音频提取工具从所述第一多媒体文件中提取音频数据;
第二提取单元,用于采用语音活动检测VAD技术从所述音频数据中提取所述N段有话音频数据。
在一种实现方式中,所述选取单元403,包括:
统计单元,用于统计所述N段有话音频数据中每一段有话音频数据的音频幅值,其中,每一段有话音频数据的音频幅值是根据所述每一段有话音频数据的所有音频幅值的绝对值的平均值确定的;
确定单元,用于将音频幅值小于或等于第一预设阈值的有话音频数据确定为所述目标有话音频数据;
所述调节单元404具体用于:按照预设规则对所述目标有话音频数据的音频幅值进行提升。
在一种实现方式中,所述目标有话音频数据的音频幅值包括多个,所述调节单元404具体用于:
将所述目标有话音频数据的每个音频幅值根据公式进行提升,其中所述b为所述目标有话音频数据的各个音频幅值,所述c为所述目标有话音频数据的所有音频幅值的绝对值的最大值,所述a为所述目标有话音频数据的各个音频幅值调节后对应的音频幅值,其中,所述c为小于等于1的正数。
在一种实现方式中,所述目标有话音频数据的音频幅值包括多个,所述调节单元404具体用于:
将所述目标有话音频数据的每个音频幅值乘以系数d,以提升所述目标有话音频数据的音频幅值,所述d大于1。
在一种实现方式中,所述目标有话音频数据的音频幅值包括多个,所述调节单元404具体用于:
对所述目标有话音频数据进行预加重,以提升所述目标有话音频数据的音频幅值。
在一种实现方式中,所述多媒体文件处理装置400还包括:
标记单元,用于在所述提取单元402根据所述音频调节指令从所述第一多媒体文件中提取N段有话音频数据之后,对所述N段有话音频数据进行时间标记,所述时间标记包括所述N段有话音频数据中的每段有话音频数据在所述第一多媒体文件中的起始时刻和结束时刻。
需要说明的是,多媒体文件处理装置400中各个单元的功能和实现可以参考前述图2所示方法实施例中的相关描述,此次不再赘述。
在本申请的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如数字多功能光盘(digital versatile disc,DVD)、半导体介质(例如固态硬盘solid state disk,SSD)等。
以上所述的具体实施方式,对本发明实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明实施例的具体实施方式而已,并不用于限定本发明实施例的保护范围,凡在本发明实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明实施例的保护范围之内。

Claims (7)

1.一种多媒体文件处理方法,其特征在于,包括:
电子设备接收用户输入的音频调节指令,所述音频调节指令用于指示所述电子设备对第一多媒体文件的音频幅值进行调节;
所述电子设备根据所述音频调节指令从所述第一多媒体文件中提取N段有话音频数据,所述N为大于等于1的整数;所述有话音频数据是基于多媒体视频处理工具FFmpeg从所述第一多媒体文件提取的音频数据中确定的,提取的音频数据的参数包括时间以及幅值,时间表征音频数据的播放顺序;
所述电子设备统计所述N段有话音频数据中每一段有话音频数据的音频幅值,其中,每一段有话音频数据的音频幅值是根据所述每一段有话音频数据的所有音频幅值的绝对值的平均值确定的;
所述电子设备将音频幅值小于或等于第一预设阈值的有话音频数据确定为目标有话音频数据;
所述电子设备按照预设规则将所述目标有话音频数据的音频幅值进行提升,得到处理后的音频数据;其中,所述预设规则包括将目标有话音频数据的每个音频幅值根据公式进行提升以及对目标有话音频数据进行预加重中的至少一种;其中,b为目标有话音频数据的各个音频幅值,c为目标有话音频数据的所有音频幅值的绝对值的最大值,a为目标有话音频数据的各个音频幅值调节后对应的音频幅值,c为小于等于1的正数;
所述电子设备对N段有话音频数据进行时间标记,所述时间标记包括N段有话音频数据中的每段有话音频数据在第一多媒体文件中的起始时刻和结束时刻,所述时间标记用于在播放音频数据时以时间标记将文字信息与对应的音频数据进行校准;
将处理后的音频数据还原为多媒体文件,并进行播放。
2.根据权利要求1所述的方法,其特征在于,所述电子设备根据所述音频调节指令从所述第一多媒体文件中提取N段有话音频数据,包括:
所述电子设备采用音频提取工具从所述第一多媒体文件中提取音频数据;
所述电子设备采用语音活动检测VAD技术从所述音频数据中提取所述N段有话音频数据。
3.根据权利要求1所述的方法,其特征在于,所述目标有话音频数据的音频幅值包括多个,所述电子设备按照预设规则对所述目标有话音频数据的音频幅值进行提升,包括:
所述电子设备将所述目标有话音频数据的每个音频幅值乘以系数d,以提升所述目标有话音频数据的音频幅值,所述d大于1。
4.根据权利要求1所述的方法,其特征在于,所述目标有话音频数据的音频幅值包括多个,所述电子设备按照预设规则对所述目标有话音频数据的音频幅值进行提升,包括:
所述电子设备对所述目标有话音频数据进行预加重,以提升所述目标有话音频数据的音频幅值。
5.一种多媒体文件处理装置,其特征在于,包括:
接收单元,用于接收用户输入的音频调节指令,所述音频调节指令用于指示电子设备对第一多媒体文件的音频幅值进行调节;
提取单元,用于根据所述音频调节指令从所述第一多媒体文件中提取N段有话音频数据,所述N为大于等于1的整数;所述有话音频数据是基于多媒体视频处理工具FFmpeg从所述第一多媒体文件提取的音频数据中确定的,提取的音频数据的参数包括时间以及幅值,时间表征音频数据的播放顺序;
选取单元,用于统计所述N段有话音频数据中每一段有话音频数据的音频幅值,其中,每一段有话音频数据的音频幅值是根据所述每一段有话音频数据的所有音频幅值的绝对值的平均值确定的;将音频幅值小于或等于第一预设阈值的有话音频数据确定为目标有话音频数据;
调节单元,用于按照预设规则将所述目标有话音频数据的音频幅值进行提升,得到处理后的音频数据;其中,所述预设规则包括将目标有话音频数据的每个音频幅值根据公式进行提升以及对目标有话音频数据进行预加重中的至少一种;其中,b为目标有话音频数据的各个音频幅值,c为目标有话音频数据的所有音频幅值的绝对值的最大值,a为目标有话音频数据的各个音频幅值调节后对应的音频幅值,c为小于等于1的正数;
标记单元,用于对N段有话音频数据进行时间标记,所述时间标记包括N段有话音频数据中的每段有话音频数据在第一多媒体文件中的起始时刻和结束时刻,所述时间标记用于在播放音频数据时以时间标记将文字信息与对应的音频数据进行校准;将处理后的音频数据还原为多媒体文件,并进行播放。
6.一种电子设备,其特征在于,包括处理器、通信接口和存储器,所述处理器分别与所述通信接口和所述存储器连接,其中,所述存储器用于存储计算机程序或数据,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-4任一项所述的方法。
CN201910597775.4A 2019-07-03 2019-07-03 一种多媒体文件处理方法、装置及计算机存储介质 Active CN110457002B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910597775.4A CN110457002B (zh) 2019-07-03 2019-07-03 一种多媒体文件处理方法、装置及计算机存储介质
PCT/CN2019/101953 WO2021000389A1 (zh) 2019-07-03 2019-08-22 一种多媒体文件处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910597775.4A CN110457002B (zh) 2019-07-03 2019-07-03 一种多媒体文件处理方法、装置及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110457002A CN110457002A (zh) 2019-11-15
CN110457002B true CN110457002B (zh) 2023-07-25

Family

ID=68482079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910597775.4A Active CN110457002B (zh) 2019-07-03 2019-07-03 一种多媒体文件处理方法、装置及计算机存储介质

Country Status (2)

Country Link
CN (1) CN110457002B (zh)
WO (1) WO2021000389A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524529B (zh) * 2020-04-15 2023-11-24 广州极飞科技股份有限公司 音频数据处理方法、装置和系统、电子设备及存储介质
CN113055786A (zh) * 2021-03-30 2021-06-29 联想(北京)有限公司 一种音量控制方法、装置和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104410379A (zh) * 2014-10-29 2015-03-11 深圳市金立通信设备有限公司 一种音量调节方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103684303B (zh) * 2012-09-12 2018-09-04 腾讯科技(深圳)有限公司 一种音量控制方法、装置及终端
CN104200810B (zh) * 2014-08-29 2017-07-18 无锡中感微电子股份有限公司 自动增益控制装置及方法
CN106548793A (zh) * 2015-09-16 2017-03-29 中兴通讯股份有限公司 存储和播放音频文件的方法和装置
CN106060264B (zh) * 2016-06-27 2017-11-17 广东欧珀移动通信有限公司 一种音量的调节方法、装置及移动终端
CN107123429A (zh) * 2017-03-22 2017-09-01 歌尔科技有限公司 音频信号的自动增益控制方法和装置
CN108882115B (zh) * 2017-05-12 2020-08-25 华为技术有限公司 响度调节方法、装置及终端
CN107436751A (zh) * 2017-08-18 2017-12-05 广东欧珀移动通信有限公司 音量调节方法、装置、终端设备及存储介质
CN107633850A (zh) * 2017-10-10 2018-01-26 维沃移动通信有限公司 一种音量调节方法及电子设备
CN108847217A (zh) * 2018-05-31 2018-11-20 平安科技(深圳)有限公司 一种语音切分方法、装置、计算机设备及存储介质
CN109087632B (zh) * 2018-08-17 2023-06-06 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104410379A (zh) * 2014-10-29 2015-03-11 深圳市金立通信设备有限公司 一种音量调节方法

Also Published As

Publication number Publication date
CN110457002A (zh) 2019-11-15
WO2021000389A1 (zh) 2021-01-07

Similar Documents

Publication Publication Date Title
CN104937844B (zh) 在不同回放设备之间优化响度和动态范围
CN107995360B (zh) 通话处理方法及相关产品
CN108140399A (zh) 用于超宽带音乐的自适应噪声抑制
CN108564966B (zh) 语音测试的方法及其设备、具有存储功能的装置
US20150310863A1 (en) Method and apparatus for speaker diarization
EP2592546A1 (en) Automatic Gain Control in a multi-talker audio system
US9671999B2 (en) Methods and apparatus for improving understandability of audio corresponding to dictation
CN112004177B (zh) 一种啸叫检测方法、麦克风音量调节方法及存储介质
CN111177453B (zh) 控制音频播放的方法、装置、设备及计算机可读存储介质
CN110457002B (zh) 一种多媒体文件处理方法、装置及计算机存储介质
CN106098078B (zh) 一种可过滤扬声器噪音的语音识别方法及其系统
US20130144626A1 (en) Rap music generation
CN113347489B (zh) 视频片段检测方法、装置、设备及存储介质
US20130246061A1 (en) Automatic realtime speech impairment correction
US20160336023A1 (en) Methods and apparatus for improving understandability of audio corresponding to dictation
US20220254365A1 (en) Method and device for audio repair and readable storage medium
CN101867742A (zh) 一种基于声控控制下的电视系统
US11488612B2 (en) Audio fingerprinting for meeting services
US20230367543A1 (en) Source-based sound quality adjustment tool
CN112423019A (zh) 调整音频播放速度的方法、装置、电子设备及存储介质
WO2023193573A1 (zh) 一种音频处理方法、装置、存储介质及电子设备
JP6273227B2 (ja) 音声認識システム、音声認識方法、プログラム
JP2016180915A (ja) 音声認識システム、クライアント装置、音声認識方法、プログラム
US11562761B2 (en) Methods and apparatus for enhancing musical sound during a networked conference
CN114648989A (zh) 在电子设备中实施的语音信息处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant