CN107247574A - 一种音频输出控制方法及装置 - Google Patents

一种音频输出控制方法及装置 Download PDF

Info

Publication number
CN107247574A
CN107247574A CN201710582359.8A CN201710582359A CN107247574A CN 107247574 A CN107247574 A CN 107247574A CN 201710582359 A CN201710582359 A CN 201710582359A CN 107247574 A CN107247574 A CN 107247574A
Authority
CN
China
Prior art keywords
maximum
amplitude value
target
audio
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710582359.8A
Other languages
English (en)
Inventor
刘旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ThunderSoft Co Ltd
Original Assignee
ThunderSoft Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ThunderSoft Co Ltd filed Critical ThunderSoft Co Ltd
Priority to CN201710582359.8A priority Critical patent/CN107247574A/zh
Publication of CN107247574A publication Critical patent/CN107247574A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种音频输出控制方法及装置,方法包括:获得目标音频的声音幅度值,所述声音幅度值为所述目标音频在时刻采样点处声音信号的幅度值;获得所述声音幅度值中的最大值;基于所述最大值及预设算法,获得所述目标音频的增益,基于所述增益,控制所述目标音频输出。本申请通过采集待输出的音频在采样点上的声音幅度值来确定音频输出的增益,即基于预设算法来获得声音幅度值的最大值对应的增益,进而使得任意一种音频在同一个音频播放器上输出时,对声音幅度较大的音频会采用较小的增益,对声音幅度较小的音频会采用较大的增益,由此不论声音幅度大小都会在输出时带给用户相同的收听音量,改善用户收听体验。

Description

一种音频输出控制方法及装置
技术领域
本申请涉及音频控制技术领域,特别涉及一种音频输出控制方法及装置。
背景技术
在多媒体音频播放中,不同的声音文件在同样的播放器中播放时,如果采用同样的播放器音量播放,会出现音量比较小的声音文件无法听清,而音量比较大的声音文件会很吵的情况,影响用户收听体验。
发明内容
有鉴于此,本申请的目的在于提供一种音频输出控制方法及装置,用以解决现有技术中多媒体音频播放中不同声音文件在同样的播放器中输出会出现音量不同,导致用户收听体验不好的技术问题。
本申请提供了一种音频输出控制方法,包括:
获得目标音频的声音幅度值,所述声音幅度值为所述目标音频在时刻采样点处声音信号的幅度值;
获得所述声音幅度值中的最大值;
基于所述最大值及预设算法,获得所述目标音频的增益;
基于所述增益,控制所述目标音频输出。
上述方法,优选的,在获得目标音频的声音幅度值之前,所述方法还包括:
对所述目标音频进行低通滤波处理。
上述方法,优选的,所述获得所述声音幅度值中的最大值,包括:
确定所述目标音频在相邻N个时刻采样点上的目标幅度值,N为大于或等于2的正整数;
选取所述目标幅度值中的目标最大值;
所述基于所述最大值及预设算法,获得所述目标音频的增益,包括:
基于所述目标最大值及预设算法,获得所述目标音频在所述N个时刻采样点上的增益。
上述方法,优选的,在获得所述声音幅度值中的最大值之后,所述方法还包括:
判断所述最大值是否需要被剔除,如果所述最大值需要被剔除,则删除所述声音幅度值中的所述最大值,在剩余的声音幅度值中重新获得最大值,并判断重新获得的最大值是否需要被剔除,直到在所述声音幅度值中获得的最大值不需要被剔除。
上述方法,优选的,判断所述最大值是否需要被剔除,包括:
确定与所述最大值对应的时刻采样点相邻的多个目标采样点;
获得所述目标采样点的平均幅度值;
基于所述平均幅度值,判断所述最大值是否需要被剔除。
本申请还提供了一种音频输出控制装置,包括:
幅度获得单元,用于获得目标音频的声音幅度值,所述声音幅度值为所述目标音频在时刻采样点处声音信号的幅度值;
最大值获得单元,用于获得所述声音幅度值中的最大值;
增益计算单元,用于基于所述最大值及预设算法,获得所述目标音频的增益;
输出控制单元,用于基于所述增益,控制所述目标音频输出。
上述装置,优选的,还包括:
音频滤波单元,用于在所述幅度获得单元获得目标音频的声音幅度值之前,对所述目标音频进行低通滤波处理。
上述装置,优选的,所述最大值获得单元具体用于:
确定所述目标音频在相邻N个时刻采样点上的目标幅度值,选取所述目标幅度值中的目标最大值;
所述增益计算单元,具体用于基于所述目标最大值及预设算法,获得所述目标音频在所述N个时刻采样点上的增益。
上述装置,优选的,还包括:
干扰剔除单元,用于在所述最大值获得单元获得所述声音幅度值中的最大值之后,判断所述最大值是否需要被剔除,如果所述最大值需要被剔除,则删除所述声音幅度值中的所述最大值,在剩余的声音幅度值中重新获得最大值,并判断重新获得的最大值是否需要被剔除,直到所述声音幅度值中获得的最大值不需要被剔除。
上述装置,优选的,所述干扰剔除单元具体用于:
确定与所述最大值对应的时刻采样点相邻的多个目标采样点,获得所述目标采样点的平均幅度值,并基于所述平均幅度值判断所述最大值是否需要被剔除,如果所述最大值需要被剔除,则删除所述声音幅度值中的所述最大值,在剩余的声音幅度值中重新获得最大值,并判断重新获得的最大值是否需要被剔除,直到所述声音幅度值中获得的最大值不需要被剔除。
由上述方案中可知,本申请提供的一种音频输出控制方法及装置,通过采集待输出的音频在采样点上的声音幅度值来确定音频输出的增益,即基于预设算法获得声音幅度值的最大值对应的增益,进而使得任意一种音频在同一个音频播放器上输出时,对声音幅度较大的音频会采用较小的增益,对声音幅度较小的音频会采用较大的增益,由此不论声音幅度大小都会在输出时带给用户相同的收听音量,改善用户收听体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为现有音频文件的输出示意图;
图2及图3分别为不同声音文件的音量幅度示意图;
图4为本申请实施例一提供的一种音频输出控制方法的流程图;
图5为本申请实施例的应用示例图;
图6为本申请实施例二提供的一种音频输出控制方法的流程图;
图7为本申请实施例三提供的一种音频输出控制方法的流程图;
图8为本申请实施例四提供的一种音频控制方法的流程图;
图9及图10分别为本申请实施例的其他应用示例图;
图11为本申请实施例五提供的一种音频输出控制装置的结构示意图;
图12为本申请实施例六提供的一种音频输出控制装置的结构示意图;
图13为本申请实施例七提供的一种音频输出控制装置的结构示意图;
图14为本申请实施例在对目标音频输出控制时的流程示意图;
图15为本申请实施例的控制逻辑示意图。
具体实施方式
图1所示为音频文件如歌曲或铃声等在播放器中输出的流程示意图。音频数据从存储设备被声音(或经过编码的声音)输入模块读取之后,经过解码或声音处理模块进行解码和/或其他处理之后,经过音量控制模块(用户可调整的增益,如用户调节播放器的输出音量)后,经过数模转换模块转换为模拟信号,从扬声器输出。
而很多情况下,不同的声音文件(音频文件)的音量幅度会差别很大,如图2及图3中所示,图3中声音文件的音量幅度要比图2中的声音文件的音量幅度要大很多,这样用户在收听时,如果采用同样的播放器音量播放,会出现音量比较小的声音文件的声音无法听清,而音量比较大的声音文件的声音过吵的情况。
为了避免上述问题,现有方案中虽然可以通过计算声音的功率来计算增益,但是由于计算功能需要进行乘法运算,而在中央处理器(Central Processing Unit,CPU)上乘法运算的计算量非常大,所以计算功率的实现方案只能适用于高性能的CPU。为此,本申请中在用户设置的音量增益后面再增加一个增益控制,这里的增益控制是通过计算声音的幅度的最大值来自动调整输出增益,对于较大的声音采用较小的增益,对于较小的声音采用较大的增益,由此,使得播放器输出的声音音量一致,这样可以实现用户的体验最佳。
参考图4,为本申请实施例一提供的一种音频输出控制方法的实现流程图,该方法可以适用于音频播放器中,用于对音频进行控制输出。
本实施例中,该方法可以包括以下步骤:
步骤401:获得目标音频的声音幅度值。
其中,声音幅度值为目标音频在时刻采样点处声音信号的幅度值,这里的幅度值为取绝对值之后的值,为正值。
例如,目标音频为时长50秒的声音文件,可以按照采样点频率为8000/秒~44000/秒进行采样,相应的采样点的数量为50秒乘以采样频率的值,那么对应相应数量的声音幅度值,如图5中所示。
步骤402:获得声音幅度值中的最大值。
例如,目标音频的声音幅度值有50个,本实施例中选取这50个声音幅度值中的最大值。
步骤403:基于最大值及预设算法,获得目标音频的增益。
其中,通过预设算法中相应的逻辑判断,进而得到增益,而所得到的增益的值与最大值具有相应的关系,如,最大值越大,目标音频的增益越大,最大值越小目标音频的增益越大。例如,预设算法可以为取倒数的算法。
例如,目标音频的声音幅度值中的最大值为D,那么1/D即为目标音频的增益。
由此,对于不同声音文件,较大音量的声音文件对应较小的增益,较小音量的声音文件对应较大的增益。
步骤404:基于增益,控制目标音频输出。
例如,本实施例中将目标音频的音量均乘以该增益,得到调整后的音量,由此,对于不同声音文件,较大音量的声音文件的音量会乘以一个较小的增益值,而较小音量的声音文件的音量会乘以一个较大的增益值,由此,使得不同声音文件的音量相一致或趋于一致,带给用户相同的收听音量。
由上述方案中可知,本申请实施例一提供的一种音频输出控制方法,通过采集待输出的音频在采样点上的声音幅度值来确定音频输出的增益,即基于预设算法获得声音幅度值的最大值对应的增益,例如最大值的倒数,进而使得任意一种音频在同一个音频播放器上输出时,对声音幅度较大的音频会采用较小的增益,对声音幅度较小的音频会采用较大的增益,由此不论声音幅度大小都会在输出时带给用户相同的收听音量,改善用户收听体验。
在一种实现中,目标音频中可能存在声音幅度值非常大或非常小的数值,会被作为最大值获取,进而干扰增益的控制的情况,可以理解为增益处理过程中的噪声,区别于目标音频中的原有噪声。如果基于非常大或者非常小的数值计算增益,那么会出现目标音频输出时声音非常小或非常大的情况。因此本实施例中需要进行剔除这些干扰,以提高输出控制的准确性。参考图6,为本申请实施例二提供的一种音频输出控制方法的实现流程图,在步骤402之后,该方法还可以包括以下步骤:
步骤405:确定与所述最大值对应的时刻采样点相邻的多个目标采样点。
例如,在50秒的目标音频中,最大值对应的时刻采样点为目标音频的第26秒,本实施例中确定目标音频中第23秒、第24秒、第25秒、第27秒、第28秒及第29秒作为目标采样点。
步骤406:获得所述目标采样点的平均幅度值。
例如,获得目标音频中第23秒、第24秒、第25秒、第27秒、第28秒及第29秒的声音幅度值的平均值。
步骤407:基于平均幅度值判断最大值是否需要被剔除,如果是,执行步骤408,如果否,执行步骤403。
其中,步骤405~步骤407的目的是在于判断最大值是否需要被剔除。如果平均幅度值与最大值之间的差值的绝对值大于预设的阈值,那么说明最大值为跑偏的值,即为最大值需要被剔除,而如果平均幅度值与最大值之间的差值的绝对值小于阈值甚至为0,则说明最大值为正常的值,最大值与其相邻的其他采样点的幅度值形成平缓的曲线或图形,并不是突然增高或者降低的情况,即为最大值不需要被剔除。
需要说明的是,阈值可以根据需求进行设置。
步骤408:删除声音幅度值中的最大值,执行步骤409。
步骤409:在剩余的声音幅度值中重新获得最大值,返回执行步骤405以重新判断最大值是否需被剔除,直到在声音幅度值中获得的最大值不需要被剔除,执行步骤403。
例如,目标音频中第23秒、第24秒、第25秒、第27秒、第28秒及第29秒的声音幅度值的平均值为20,而最大值为80,两者之间的差值远大于阈值15,那么说明这个最大值是非常大的幅度值,需要被剔除,此时,将目标音频的声音幅度值中第26秒对应的幅度值删除,再重新在剩余的声音幅度值中选取最大值,并对重新选取的最大值同样进行是否为干扰值判断,直到选取出不需要被剔除的幅度值,所得到的最大值是准确的值,由此不仅实现去除干扰,提高音频输出控制的准确性。
参考图7,为本申请实施例三提供的一种音频输出控制方法的实现流程图,在步骤401之前,该方法还可以包括以下步骤:
步骤410:对目标音频进行低通滤波处理。
其中,本实施例可以利用低通滤波器对目标音频进行低通滤波处理,实现去噪,之后再经过增益控制,实现音频输出控制,改善用户的收听体验。
在一种实现中,本实施例可以对目标音频进行加窗操作,计算每个窗口的幅度最大值,依次来确定相应窗口的增益,从而防止同一个目标音频或声音文件中音量大小变化剧烈的情况。具体的,参考图8,为本申请实施例四提供的一种音频控制方法的实现流程图,其中,步骤402可以通过以下步骤实现:
步骤801:确定目标音频在相邻N个时刻采样点上的目标幅度值。
其中,这N个时刻采样点即为在目标音频上所加的窗口,窗口大小为N,N为大于或等于2的正整数。
步骤802:选取所述目标幅度值中的目标最大值。
相应的,步骤403在基于预设算法获得目标音频的增益时,具体为:
步骤803:基于目标最大值及预设算法,获得目标音频在N个时刻采样点上的增益。
例如,预设算法为取倒数算法,将目标最大值的倒数作为目标音频在N个时刻采样点上的增益。
由此,本实施例中可以将目标音频中每N个时刻采样点作为一个窗口,如图9中所示,选取每个窗口中的目标幅度值的目标最大值,进而取这个目标最大值的倒数作为目标音频中这个目标最大值所在窗口的增益,进而本实施例在输出目标音频时基于每个窗口的增益,对目标音频进行输出控制,进而防止同一段音频中音量大小变化剧烈的情况。
需要说明的是,本实施例中在选取每个窗口的目标幅度值中的目标最大值之后,还可以判断该目标最大值是否会干扰增益而需要被剔除,例如,首先确定该目标最大值所在窗口中与目标最大值对应的时刻采样点相邻的多个目标采样点,再确定窗口中目标采样点的平均幅度值,并判断这个平均幅度值与目标最大值之间的差值的绝对值是否大于阈值,由此来判断目标最大值是否需要被剔除。
而如果这个目标最大值需要被剔除,则删除这个窗口中声音幅度值中的这个目标最大值,在这个窗口中的剩余的声音幅度值中重新获得目标最大值,并重新判断重新选取的目标最大值是否仍然需要被剔除,直到在每个窗口中的声音幅度值中获得的目标最大值不需要被剔除,提高音频控制的准确性。
例如,如图10中所示,在50秒的目标音频中,第1秒到第7秒之间的时刻采样点对应的声音幅度值组成一个窗口X,在这个窗口X中确定目标最大值:第2秒对应的声音幅度值,如21,之后,选取第1秒、第3秒、第4秒及第5秒作为目标采样点,确定这些目标采样点的平均幅度值,如20,由此,在窗口X中,由于平均幅度值与目标最大值之间的差值的绝对值是小于阈值15的,那么说明这个目标最大值不会干扰增益的计算,此时,不需要剔除这个目标最大值,而如果窗口X中第1秒、第3秒、第4秒及第5秒的目标采样点的平均幅度值为50,那么平均幅度值与目标最大值之间的差值的绝对值是大于阈值15的,那么说明这个目标最大值需要被剔除,即删除这个目标最大值,再重新从窗口X中剩余的声音幅度值中选取目标最大值,如第3秒对应的声音幅度值为目标最大值,再重新判断这个重新选取的目标最大值是否仍然需要被剔除,以此类推,由此提高最大值选取的准确性与合理性,以此来提高音频输出控制的准确性。
本实施例中,窗口的大小即对应时刻采样点的个数决定音频的音量变化的频度,而窗口的多少决定音量变化的平缓程度。本实施例中可以针对不同的应用场景设置对窗口的大小和多少设置不同的值。例如,对于音乐等可以设置为变化频度低且变化平缓的窗口大小;而对于以语音为主的应用场景可以设置为变化频度比较高且变化迅速的窗口大小。
参考图11,为本申请实施例五提供的一种音频输出控制装置的结构示意图,该装置可以适用于音频播放器中,用于对音频进行控制输出。
本实施例中,该装置可以包括以下结构:
幅度获得单元1101,用于获得目标音频的声音幅度值。
其中,声音幅度值为目标音频在时刻采样点处声音信号的幅度值,可以为多个,这里的幅度值为取绝对值之后的值,为正值。
例如,目标音频为时长50秒的声音文件,可以按照采样点频率为8000/秒~44000/秒进行采样,相应的采样点的数量为50秒乘以采样频率的值,那么对应相应数量的声音幅度值,本实施例中可以将这些采样点的声音幅度值均进行获得,或者,只获得其中的一部分声音幅度值,如图5中所示。
最大值获得单元1102,用于获得所述声音幅度值中的最大值。
例如,目标音频的声音幅度值有50个,本实施例中选取这50个声音幅度值中的最大值。
增益计算单元1103,用于基于最大值及预设算法,获得目标音频的增益。
其中,通过预设算法中相应的逻辑判断,进而得到增益,而所得到的增益的值与最大值具有相应的关系,如,最大值越大,目标音频的增益越大,最大值越小目标音频的增益越大。例如,预设算法可以为取倒数的算法。
例如,目标音频的声音幅度值中的最大值为D,那么1/D即为目标音频的增益。
由此,对于不同声音文件,较大音量的声音文件对应较小的增益,较小音量的声音文件对应较大的增益。
输出控制单元1104,用于基于所述增益,控制所述目标音频输出。
例如,本实施例中将目标音频的音量均乘以该增益,得到调整后的音量,由此,对于不同声音文件,较大音量的声音文件的音量会乘以一个较小的增益值,而较小音量的声音文件的音量会乘以一个较大的增益值,由此,使得不同声音文件的音量相一致或趋于一致,带给用户相同的收听音量。
由上述方案中可知,本申请实施例五提供的一种音频输出控制装置,通过采集待输出的音频在采样点上的声音幅度值来确定音频输出的增益,即基于预设算法获得声音幅度值的最大值对应的增益,例如最大值的倒数,进而使得任意一种音频在同一个音频播放器上输出时,对声音幅度较大的音频会采用较小的增益,对声音幅度较小的音频会采用较大的增益,由此不论声音幅度大小都会在输出时带给用户相同的收听音量,改善用户收听体验。
在一种实现中,目标音频中可能存在声音幅度值非常大或非常小的数值,会被作为最大值获取,进而干扰增益的控制的情况,可以理解为增益处理过程中的噪声,区别于目标音频中的原有噪声。如果基于非常大或者非常小的数值计算增益,那么会出现目标音频输出时声音非常小或非常大的情况。因此本实施例中需要进行剔除这些干扰,以提高输出控制的准确性。参考图12,为本申请实施例六提供的一种音频输出控制装置的结构示意图,该装置还可以包括:
干扰剔除单元1105,用于在所述最大值获得单元1102获得所述声音幅度值中的最大值之后,判断所述最大值是否需要被剔除,如果所述最大值需要被剔除,则删除所述声音幅度值中的所述最大值,在剩余的声音幅度值中重新获得最大值,并重新判断所述最大值是否需要被剔除,直到所述声音幅度值中获得的最大值不需要被剔除,触发增益计算单元1103。
而干扰剔除单元1105在判断所述最大值是否需要被剔除,具体可以通过以下方式实现:
确定与所述最大值对应的时刻采样点相邻的多个目标采样点,获得所述目标采样点的平均幅度值,并基于所述平均幅度值判断所述最大值是否需要被剔除。
例如,在50秒的目标音频中,最大值对应的时刻采样点为目标音频的第26秒,本实施例中确定目标音频中第23秒、第24秒、第25秒、第27秒、第28秒及第29秒作为目标采样点,之后,获得目标音频中第23秒、第24秒、第25秒、第27秒、第28秒及第29秒的声音幅度值的平均值,目标音频中第23秒、第24秒、第25秒、第27秒、第28秒及第29秒的声音幅度值的平均值为20,而最大值为80,两者之间的差值远大于阈值15,那么说明这个最大值是非常大的幅度值,需要被剔除,此时,将目标音频的声音幅度值中第26秒对应的幅度值删除,再重新在剩余的声音幅度值中选取最大值,并对重新选取的最大值同样进行是否为干扰值判断,直到选取出不需要被剔除的幅度值,所得到的最大值是准确的值,由此不仅实现去除干扰,提高音频输出控制的准确性。
在一种实现中,目标音频中可能存在噪声,因此本实施例中需要进行去噪处理,以改善用户的收听体验。参考图13,为本申请实施例七提供的一种音频输出控制装置的结构示意图,该装置还可以包括:
音频滤波单元1106,用于在所述幅度获得单元1101获得目标音频的声音幅度值之前,对所述目标音频进行低通滤波处理。
其中,本实施例中,音频滤波单元1106可以利用低通滤波器对目标音频进行低通滤波处理,实现去噪,之后再经过增益控制,实现音频输出控制,改善用户的收听体验。
而在另一种实现中,最大值获得单元1102可以通过以下方式实现:
确定目标音频在相邻N个时刻采样点上的目标幅度值,选取所述目标幅度值中的目标最大值。
其中,这N个时刻采样点即为在目标音频上所加的窗口,窗口大小为N。
相应的,增益计算单元1103可以通过以下方式实现:
基于所述目标最大值及预设算法,获得所述目标音频在所述N个时刻采样点上的增益。
例如,预设算法为取倒数算法,将目标最大值的倒数作为目标音频在N个时刻采样点上的增益。
由此,本实施例中可以将目标音频中每N个时刻采样点作为一个窗口,如图9中所示,选取每个窗口中的目标幅度值的目标最大值,进而取这个目标最大值的倒数作为目标音频中这个目标最大值所在窗口的增益,进而本实施例在输出目标音频时基于每个窗口的增益,对目标音频进行输出控制,进而防止同一段音频中音量大小变化剧烈的情况。
需要说明的是,本实施例中在选取每个窗口的目标幅度值中的目标最大值之后,还可以判断该目标最大值是否会干扰增益而需要被剔除,例如,首先确定该目标最大值所在窗口中与目标最大值对应的时刻采样点相邻的多个目标采样点,再确定窗口中目标采样点的平均幅度值,并判断这个平均幅度值与目标最大值之间的差值的绝对值是否大于阈值,由此来判断目标最大值是否需要被剔除。
而如果这个目标最大值需要被剔除,则删除这个窗口中声音幅度值中的这个目标最大值,在这个窗口中的剩余的声音幅度值中重新获得目标最大值,并重新判断重新选取的目标最大值是否仍然需要被剔除,直到在每个窗口中的声音幅度值中获得的目标最大值不需要被剔除,提高音频控制的准确性。
例如,如图10中所示,在50秒的目标音频中,第1秒到第10秒之间的时刻采样点对应的声音幅度值组成一个窗口X,在这个窗口X中确定目标最大值:第2秒对应的声音幅度值,如21,之后,选取第1秒、第3秒、第4秒及第5秒作为目标采样点,确定这些目标采样点的平均幅度值,如20,由此,在窗口X中,由于平均幅度值与目标最大值之间的差值的绝对值是小于阈值15的,那么说明这个目标最大值不会干扰增益的计算,此时,不需要剔除这个目标最大值,而如果窗口X中第1秒、第3秒、第4秒及第5秒的目标采样点的平均幅度值为50,那么平均幅度值与目标最大值之间的差值的绝对值是大于阈值15的,那么说明这个目标最大值需要被剔除,即删除这个目标最大值,再重新从窗口X中剩余的声音幅度值中选取目标最大值,如第3秒对应的声音幅度值为目标最大值,再重新判断这个重新选取的目标最大值是否仍然需要被剔除,以此类推,由此提高最大值选取的准确性及合理性,以此来提高音频输出控制的准确性。
本实施例中,窗口的大小即对应时刻采样点的个数决定音频的音量变化的频度,而窗口的多少决定音量变化的平缓程度。本实施例中可以针对不同的应用场景设置对窗口的大小和多少设置不同的值。例如,对于音乐等可以设置为变化频度低且变化平缓的窗口大小;而对于以语音为主的应用场景可以设置为变化频度比较高且变化迅速的窗口大小。
图14所示为本申请实施例在对目标音频输出控制时的流程示意图。本实施例中在用户进行操作的音量控制模块处,增加声音幅度统计模块及系统自动音量控制模块,由此,音频数据从存储设备被声音输入模块读取之后,经过解码或声音处理模块进行解码或其他处理之后,除了经过用户可调整的音量控制模块之外,还利用声音幅度统计模块来获取音频数据的声音幅度值及其最大值,并由此来确定增益,进而将这个增益附加到用户调整的增益上,经过数模转换模块转换为模拟信号之后,从扬声器输出。
其中,图12中所示的单元模块在图14中以声音幅度统计模块及系统自动音量控制模块实现。
以下为本实施例在具体实现中的应用举例方案:
第一方案:
假设声音数据(目标音频)为Di,用户设置的增益为Gu,本实施例中通过以下方式获得自动添加的增益Ga:
声音数据的幅度定义为V=max(|Di|),这时Ga=1/V。
其中,在实际产品中计算V时,并不是简单通过对声音数据取最大值就结束,而是在获取最大值后,通过计算最大值附近多个采样点的平均幅度来判定是否需要去除,这样可以防止不必要的干扰,提高准确性。
第二方案:
声音数据通过低通滤波器后,再计算最大值,此时不需要去噪。通过最大值来控制增益。
假设通过低通滤波器后声音数据为Dj,那么增益Ga=1/max(|Dj|)。
第三方案:
把声音数据加窗后,计算每一个窗口的数据最大值(其中可以根据需要第一方案中提到的去除噪声方法),当前的增益Ga通过当前播放的窗口与前后n个窗口共同计算。在增益变化时,通过使用一个足够长时间的渐变来防止用户注意到音量变化。结合第二方案中的低通滤波器,如图15中所示,对本实施例输入声音数据之后,经过低通滤波器之后,进行加窗等逻辑运算,实现增益控制,如声音幅度的放大或缩小等,进而实现声音的控制输出,改善用户的收听体验。
这种方案可以支持针对较长的声音片段(比如音乐会或者课程录音)动态调整增益以防同一段声音中声音大小变化剧烈的情况。
其中,窗口大小决定音量变化的频度,窗口的多少决定音量变化的平缓程度。针对不同的应用场景可以设置不同的值。比如对于音乐等可以设置为变化频度低且变化平缓的参数值。针对以语音为主的应用场景可以设置为变化频度比较高且变化迅速的参数值。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上对本申请所提供的一种音频输出控制方法及装置进行了详细介绍,对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种音频输出控制方法,其特征在于,包括:
获得目标音频的声音幅度值,所述声音幅度值为所述目标音频在时刻采样点处声音信号的幅度值;
获得所述声音幅度值中的最大值;
基于所述最大值及预设算法,获得所述目标音频的增益;
基于所述增益,控制所述目标音频输出。
2.根据权利要求1所述的方法,其特征在于,在获得目标音频的声音幅度值之前,所述方法还包括:
对所述目标音频进行低通滤波处理。
3.根据权利要求1所述的方法,其特征在于,所述获得所述声音幅度值中的最大值,包括:
确定所述目标音频在相邻N个时刻采样点上的目标幅度值,N为大于或等于2的正整数;
选取所述目标幅度值中的目标最大值;
所述基于所述最大值及预设算法,获得所述目标音频的增益,包括:
基于所述目标最大值及预设算法,获得所述目标音频在所述N个时刻采样点上的增益。
4.根据权利要求1或3所述的方法,其特征在于,在获得所述声音幅度值中的最大值之后,所述方法还包括:
判断所述最大值是否需要被剔除,如果所述最大值需要被剔除,则删除所述声音幅度值中的所述最大值,在剩余的声音幅度值中重新获得最大值,并判断重新获得的最大值是否需要被剔除,直到在所述声音幅度值中获得的最大值不需要被剔除。
5.根据权利要求4所述的方法,其特征在于,判断所述最大值是否需要被剔除,包括:
确定与所述最大值对应的时刻采样点相邻的多个目标采样点;
获得所述目标采样点的平均幅度值;
基于所述平均幅度值,判断所述最大值是否需要被剔除。
6.一种音频输出控制装置,其特征在于,包括:
幅度获得单元,用于获得目标音频的声音幅度值,所述声音幅度值为所述目标音频在时刻采样点处声音信号的幅度值;
最大值获得单元,用于获得所述声音幅度值中的最大值;
增益计算单元,用于基于所述最大值及预设算法,获得所述目标音频的增益;
输出控制单元,用于基于所述增益,控制所述目标音频输出。
7.根据权利要求6所述的装置,其特征在于,还包括:
音频滤波单元,用于在所述幅度获得单元获得目标音频的声音幅度值之前,对所述目标音频进行低通滤波处理。
8.根据权利要求6所述的装置,其特征在于,所述最大值获得单元具体用于:
确定所述目标音频在相邻N个时刻采样点上的目标幅度值,选取所述目标幅度值中的目标最大值;
所述增益计算单元,具体用于基于所述目标最大值及预设算法,获得所述目标音频在所述N个时刻采样点上的增益。
9.根据权利要求6或8所述的装置,其特征在于,还包括:
干扰剔除单元,用于在所述最大值获得单元获得所述声音幅度值中的最大值之后,判断所述最大值是否需要被剔除,如果所述最大值需要被剔除,则删除所述声音幅度值中的所述最大值,在剩余的声音幅度值中重新获得最大值,并判断重新获得的最大值是否需要被剔除,直到所述声音幅度值中获得的最大值不需要被剔除。
10.根据权利要求9所述的装置,其特征在于,所述干扰剔除单元具体用于:
确定与所述最大值对应的时刻采样点相邻的多个目标采样点,获得所述目标采样点的平均幅度值,并基于所述平均幅度值判断所述最大值是否需要被剔除,如果所述最大值需要被剔除,则删除所述声音幅度值中的所述最大值,在剩余的声音幅度值中重新获得最大值,并判断重新获得的最大值是否需要被剔除,直到所述声音幅度值中获得的最大值不需要被剔除。
CN201710582359.8A 2017-07-17 2017-07-17 一种音频输出控制方法及装置 Pending CN107247574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710582359.8A CN107247574A (zh) 2017-07-17 2017-07-17 一种音频输出控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710582359.8A CN107247574A (zh) 2017-07-17 2017-07-17 一种音频输出控制方法及装置

Publications (1)

Publication Number Publication Date
CN107247574A true CN107247574A (zh) 2017-10-13

Family

ID=60014092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710582359.8A Pending CN107247574A (zh) 2017-07-17 2017-07-17 一种音频输出控制方法及装置

Country Status (1)

Country Link
CN (1) CN107247574A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109889890A (zh) * 2019-03-15 2019-06-14 青岛海信电器股份有限公司 音频数据的处理方法和装置
CN109963235A (zh) * 2019-03-15 2019-07-02 维沃移动通信有限公司 一种声音信号处理方法及移动终端
CN111767022A (zh) * 2020-06-30 2020-10-13 成都极米科技股份有限公司 音频调节方法、装置、电子设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399523A (zh) * 2008-09-05 2009-04-01 宇龙计算机通信科技(深圳)有限公司 一种音频信号播放时的增益控制方法及系统
CN102946520A (zh) * 2012-10-30 2013-02-27 深圳创维数字技术股份有限公司 一种自动控制频道音量的方法及数字电视终端
CN104168431A (zh) * 2014-08-06 2014-11-26 青岛海信宽带多媒体技术有限公司 一种音量调节方法、装置和一种机顶盒
CN105336327A (zh) * 2015-11-17 2016-02-17 百度在线网络技术(北京)有限公司 音频数据的增益控制方法及装置
CN105578272A (zh) * 2015-12-17 2016-05-11 青岛海信电器股份有限公司 一种音频增益自动调节方法及装置
CN106445451A (zh) * 2016-09-09 2017-02-22 腾讯科技(深圳)有限公司 一种音频音量增益方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399523A (zh) * 2008-09-05 2009-04-01 宇龙计算机通信科技(深圳)有限公司 一种音频信号播放时的增益控制方法及系统
CN102946520A (zh) * 2012-10-30 2013-02-27 深圳创维数字技术股份有限公司 一种自动控制频道音量的方法及数字电视终端
CN104168431A (zh) * 2014-08-06 2014-11-26 青岛海信宽带多媒体技术有限公司 一种音量调节方法、装置和一种机顶盒
CN105336327A (zh) * 2015-11-17 2016-02-17 百度在线网络技术(北京)有限公司 音频数据的增益控制方法及装置
CN105578272A (zh) * 2015-12-17 2016-05-11 青岛海信电器股份有限公司 一种音频增益自动调节方法及装置
CN106445451A (zh) * 2016-09-09 2017-02-22 腾讯科技(深圳)有限公司 一种音频音量增益方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109889890A (zh) * 2019-03-15 2019-06-14 青岛海信电器股份有限公司 音频数据的处理方法和装置
CN109963235A (zh) * 2019-03-15 2019-07-02 维沃移动通信有限公司 一种声音信号处理方法及移动终端
CN111767022A (zh) * 2020-06-30 2020-10-13 成都极米科技股份有限公司 音频调节方法、装置、电子设备及计算机可读存储介质
WO2022001569A1 (zh) * 2020-06-30 2022-01-06 成都极米科技股份有限公司 音频调节方法、装置、电子设备及计算机可读存储介质
CN111767022B (zh) * 2020-06-30 2023-08-08 成都极米科技股份有限公司 音频调节方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN101868823B (zh) 高频插值装置和高频插值方法
US9203366B2 (en) Audio processing
JP4262597B2 (ja) サウンドシステム
CN110265064B (zh) 音频爆音检测方法、装置和存储介质
CN107247574A (zh) 一种音频输出控制方法及装置
TWI489774B (zh) 緩級與速級音訊峰值限制技術
CN100550131C (zh) 用于扩展音频信号的频带的方法及其装置
CN108337601A (zh) 音箱的控制方法及装置
US8027487B2 (en) Method of setting equalizer for audio file and method of reproducing audio file
US20110175915A1 (en) Visually-assisted mixing of audio using a spectral analyzer
JP2008191659A (ja) 音声強調方法及び音声再生システム
CN101714861B (zh) 谐波产生装置及其产生方法
CN102473415B (zh) 声音控制装置及声音控制方法
JP2005227782A (ja) 有声音および無声音の検出装置、並びにその方法
CN112712816B (zh) 语音处理模型的训练方法和装置以及语音处理方法和装置
JP4983694B2 (ja) 音声再生装置
CN103685110B (zh) 一种预失真处理的方法、系统及预失真系数运算器
CN107919134A (zh) 啸叫检测方法及装置和啸叫抑制方法及装置
CN107395149A (zh) 音频信号处理方法、装置和集成电路
CN107331393B (zh) 一种自适应语音活动检测方法
CN110267163B (zh) 一种定向声音虚拟低频增强方法、系统、介质和设备
CN110211598A (zh) 智能语音降噪通信方法及装置
US10331400B1 (en) Methods and apparatus for soft clipping
CN105227763A (zh) 一种在智能移动设备上实现的乐器音频实时分割方法
CN109754825A (zh) 一种音频处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171013