CN108281152B - 音频处理方法、装置及存储介质 - Google Patents

音频处理方法、装置及存储介质 Download PDF

Info

Publication number
CN108281152B
CN108281152B CN201810050792.1A CN201810050792A CN108281152B CN 108281152 B CN108281152 B CN 108281152B CN 201810050792 A CN201810050792 A CN 201810050792A CN 108281152 B CN108281152 B CN 108281152B
Authority
CN
China
Prior art keywords
sub
processing
spectrogram
target
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810050792.1A
Other languages
English (en)
Other versions
CN108281152A (zh
Inventor
赵伟峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN201810050792.1A priority Critical patent/CN108281152B/zh
Publication of CN108281152A publication Critical patent/CN108281152A/zh
Application granted granted Critical
Publication of CN108281152B publication Critical patent/CN108281152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/14Transforming into visible information by displaying frequency domain information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明是关于一种音频处理方法、装置及存储介质,属于多媒体技术领域。音频处理方法包括:当检测到针对终端上显示的初始音频信号对应的频谱图的涂抹操作后,终端基于该涂抹操作能够处理该频谱图,且可以基于处理后的频谱图,确定目标音频信号,并播放该目标音频信号。本发明实现了直接针对频谱图来处理音频的功能,本发明用于音频的处理。

Description

音频处理方法、装置及存储介质
技术领域
本发明涉及多媒体技术领域,特别涉及一种音频处理方法、装置及存储介质。
背景技术
随着多媒体技术的快速发展,用户对移动终端的播放软件中音频的要求也越来越高,希望可以将原始的音频处理成自己喜欢的音频。
相关技术中,在移动终端上会给出一些可以调节的音频参数,通过采用移动终端中的降噪器、压缩器、混响器等即可以对音频参数进行调整或处理,或者,移动终端上显示有操作按键,该操作按键中对应指定处理功能,(该指定处理功能可以为“变声”和/或“变调”功能),用户可以通过触控该操作按键来进行音频的处理。
但是,相关技术中的音频处理方法较为单一。
发明内容
本发明实施例提供了一种音频处理方法、装置及存储介质,可以解决相关技术中音频处理方法较为单一的问题,所述技术方案如下:
根据本发明实施例的第一方面,提供了一种音频处理方法,所述方法包括:
显示初始音频信号对应的频谱图;
当检测到针对所述频谱图的涂抹操作后,基于所述涂抹操作,处理所述频谱图;
基于处理后的所述频谱图,确定目标音频信号;
显示处理后的所述频谱图;
播放所述目标音频信号。
可选的,在所述显示初始音频信号对应的频谱图之前,所述方法还包括:
对所述初始音频信号进行第一处理得到FN帧频域信号,所述FN为正整数,所述第一处理包括傅里叶变换;
基于所述FN帧频域信号,生成所述频谱图。
可选的,所述基于处理后的所述频谱图,确定目标音频信号,包括:
基于处理后的所述频谱图,对所述FN帧频域信号中的至少一帧频域信号进行处理,得到处理后的所述FN帧频域信号;
对处理后的所述FN帧频域信号进行第二处理得到所述目标音频信号,所述第二处理包括:傅里叶逆变换。
可选的,所述对所述初始音频信号进行第一处理得到FN帧频域信号,包括:
对所述初始音频信号进行采样得到初始离散音频信号,所述初始离散音频信号的长度为L;
对所述初始离散音频信号进行分帧加窗处理得到FN帧子离散音频信号,FN=(L-N)/FShift+1,所述N为每帧所述子离散音频信号的长度,所述FShift为帧移;
分别对每一帧子离散音频信号进行所述傅里叶变换,以得到所述FN帧频域信号。
可选的,所述基于所述FN帧频域信号,生成所述频谱图,包括:
对于每一帧频域信号,将所述频域信号转化为一个分贝数组;
对于每个分贝数组,将截取的前
Figure BDA0001552302100000021
个分贝数值归一化至[B,0]后,将归一化后的分贝数值转化为灰度值,得到一组灰度值数组,所述B为预设值;
基于每组灰度值数组,确定包含
Figure BDA0001552302100000022
个灰度值的一帧子频谱图;
按照对应的离散音频信号的时序,将所有帧子频谱图进行拼接得到包含
Figure BDA0001552302100000023
个灰度值的所述频谱图。
可选的,所述基于处理后的所述频谱图,对所述FN帧频域信号中的至少一帧频域信号进行处理,得到处理后的所述FN帧频域信号,包括:
对于每个目标帧频域信号,确定1×N的一维矩阵,所述1×N的一维矩阵包括N个目标处理因子,所述目标帧频域信号为目标子频谱图对应的所述频域信号,所述目标子频谱图为所述频谱图中,所述涂抹操作所作用的子频谱图,所述目标处理因子反映对所述目标帧频域信号的处理强度;
将所述目标帧频域信号与所述1×N的一维矩阵中对应的目标处理因子的乘积确定为处理后的目标帧频域信号,所述处理后的所述FN帧频域信号包括所述处理后的目标帧频域信号。
可选的,所述对处理后的所述FN帧频域信号进行第二处理得到所述目标音频信号,包括:
分别对每个处理后的目标帧频域信号进行所述傅里叶逆变换,得到对应的目标子离散音频信号;
按照对应的子频谱图的时序,将所有目标子离散音频信号,以及其他子频谱图对应的子离散音频信号进行拼接得到目标离散音频信号,所述其他子频谱图为所述多帧子频谱图中除所述目标子频谱图之外的子频谱图;
将所述目标离散音频信号恢复得到所述目标音频信号。
可选的,所述基于每组灰度值数组,确定包含
Figure BDA0001552302100000031
个灰度值的一帧子频谱图,包括:
对于每组灰度值数组,将所述灰度值数组进行转置和逆序后,复制所述FShift次,得到包含
Figure BDA0001552302100000032
个灰度值的一帧子频谱图;
所述对于每个目标帧频域信号,确定1×N的一维矩阵,包括:
对于每个所述目标子频谱图,生成
Figure BDA0001552302100000033
的矩阵,所述
Figure BDA0001552302100000034
的矩阵中的数值为与所述目标子频谱图的
Figure BDA0001552302100000035
个灰度值一一对应的最终处理因子,所述最终处理因子为反映对所述目标子频谱图的显示值的处理强度,所述显示值为灰度值或像素值;
求取所述
Figure BDA0001552302100000036
的矩阵中每行最终处理因子的平均值,得到
Figure BDA0001552302100000037
的一维矩阵;
分别基于每个所述
Figure BDA0001552302100000038
的一维矩阵,确定1×N的一维矩阵。
可选的,所述分别基于每个所述
Figure BDA0001552302100000039
的一维矩阵,确定1×N的一维矩阵,包括:
对于每个所述
Figure BDA00015523021000000310
的一维矩阵factor(n),确定1×N的一维矩阵fn(n),所述fn(n)满足:
Figure BDA00015523021000000311
时,fn(n)=factor(n);
Figure BDA00015523021000000312
时,fn(n)=factor(N-n+1),0≤n≤N-1。
可选的,所述频谱图由多帧子频谱图组成,所述基于所述涂抹操作,处理所述频谱图,包括:
确定所述涂抹操作所作用的目标子频谱图;
在所述目标子频谱图上确定所述涂抹操作在所述目标子频谱图上的实际作用区域;
对所述目标子频谱图的所述实际作用区域进行处理。
可选的,所述实际作用区域包括至少一个子区域,
所述对所述目标子频谱图的所述实际作用区域进行处理,包括:
确定与所述至少一个子区域一一对应的至少一个初始处理因子j,0j≤1;
基于所述至少一个初始处理因子,确定至少一个最终处理因子,所述最终处理因子为反映对所述目标子频谱图的显示值的处理强度,所述显示值为灰度值或像素值;
基于每个最终处理因子对所述实际作用区域对应子区域的显示值进行处理。
可选的,所述实际作用区域按照像素划分为所述至少一个子区域;
所述基于所述至少一个初始处理因子,确定至少一个最终处理因子,包括:
当所述最终处理因子为增强因子,对于所述实际作用区域的每个像素对应的初始处理因子,将1与所述初始处理因子之和作为增强因子;
当所述最终处理因子为弱化因子,对于所述实际作用区域的每个像素对应的初始处理因子,将1与所述初始处理因子的差值作为弱化因子。
可选的,所述基于每个最终处理因子对所述实际作用区域对应子区域的显示值进行处理,包括:
将所述实际作用区域的每个像素的显示值与对应的最终处理因子的乘积作为处理后的所述每个像素的显示值。
根据本发明实施例的第二方面,提供了一种音频处理装置,所述装置包括:
第一显示模块,用于显示初始音频信号对应的频谱图;
第一处理模块,用于当检测到针对所述频谱图的涂抹操作后,基于所述涂抹操作,处理所述频谱图;
确定模块,用于基于处理后的所述频谱图,确定目标音频信号;
显示模块,用于显示处理后的所述频谱图;
播放模块,用于播放所述目标音频信号。
可选的,所述装置还包括:
第二处理模块,用于在所述显示初始音频信号对应的频谱图之前,对所述初始音频信号进行第一处理得到FN帧频域信号,所述FN为正整数,所述第一处理包括傅里叶变换;
生成模块,用于基于所述FN帧频域信号,生成所述频谱图。
可选的,所述确定模块,包括:
第一处理子模块,用于基于处理后的所述频谱图,对所述FN帧频域信号中的至少一帧频域信号进行处理,得到处理后的所述FN帧频域信号;
第二处理子模块,用于对处理后的所述FN帧频域信号进行第二处理得到所述目标音频信号,所述第二处理包括:傅里叶逆变换。
可选的,所述第二处理模块,用于:
对所述初始音频信号进行采样得到初始离散音频信号,所述初始离散音频信号的长度为L;
对所述初始离散音频信号进行分帧加窗处理得到FN帧子离散音频信号,FN=(L-N)/FShift+1,所述N为每帧所述子离散音频信号的长度,所述FShift为帧移;
分别对每一帧子离散音频信号进行所述傅里叶变换,以得到所述FN帧频域信号。
可选的,所述生成模块,包括:
第一转化子模块,用于对于每一帧频域信号,将所述频域信号转化为一个分贝数组;
第二转化子模块,用于对于每个分贝数组,将截取的前
Figure BDA0001552302100000051
个分贝数值归一化至[B,0]后,将归一化后的分贝数值转化为灰度值,得到一组灰度值数组,所述B为预设值;
第一确定子模块,用于基于每组灰度值数组,确定包含
Figure BDA0001552302100000053
个灰度值的一帧子频谱图;
拼接子模块,用于按照对应的离散音频信号的时序,将所有帧子频谱图进行拼接得到包含
Figure BDA0001552302100000052
个灰度值的所述频谱图。
可选的,所述第一处理子模块,包括:
第二确定子模块,用于对于每个目标帧频域信号,确定1×N的一维矩阵,所述1×N的一维矩阵包括N个目标处理因子,所述目标帧频域信号为目标子频谱图对应的所述频域信号,所述目标子频谱图为所述频谱图中,所述涂抹操作所作用的子频谱图,所述目标处理因子反映对所述目标帧频域信号的处理强度;
第三确定子模块,用于将所述目标帧频域信号与所述1×N的一维矩阵中对应的目标处理因子的乘积确定为处理后的目标帧频域信号,所述处理后的所述FN帧频域信号包括所述处理后的目标帧频域信号。
可选的,所述第二处理子模块,用于:
分别对每个处理后的目标帧频域信号进行所述傅里叶逆变换,得到对应的目标子离散音频信号;
按照对应的子频谱图的时序,将所有目标子离散音频信号,以及其他子频谱图对应的子离散音频信号进行拼接得到目标离散音频信号,所述其他子频谱图为所述多帧子频谱图中除所述目标子频谱图之外的子频谱图;
将所述目标离散音频信号恢复得到所述目标音频信号。
可选的,所述第一确定子模块,用于:
对于每组灰度值数组,将所述灰度值数组进行转置和逆序后,复制所述FShift次,得到包含
Figure BDA0001552302100000061
个灰度值的一帧子频谱图;
所述第二确定子模块,包括:
生成子模块,用于对于每个所述目标子频谱图,生成
Figure BDA0001552302100000062
的矩阵,所述
Figure BDA0001552302100000063
的矩阵中的数值为与所述目标子频谱图的
Figure BDA0001552302100000064
个灰度值一一对应的最终处理因子,所述最终处理因子为反映对所述目标子频谱图的显示值的处理强度,所述显示值为灰度值或像素值;
求取子模块,用于求取所述
Figure BDA0001552302100000065
的矩阵中每行最终处理因子的平均值,得到
Figure BDA0001552302100000066
的一维矩阵;
第四确定子模块,用于分别基于每个所述
Figure BDA0001552302100000067
的一维矩阵,确定1×N的一维矩阵。
可选的,所述第四确定子模块,用于:
对于每个所述
Figure BDA0001552302100000068
的一维矩阵factor(n),确定1×N的一维矩阵fn(n),所述fn(n)满足:
Figure BDA0001552302100000069
时,fn(n)=factor(n);
Figure BDA00015523021000000610
时,fn(n)=factor(N-n+1),0≤n≤N-1。
可选的,所述频谱图由多帧子频谱图组成,所述第一处理模块,包括:
第五确定子模块,用于确定所述涂抹操作所作用的目标子频谱图;
第六确定子模块,用于在所述目标子频谱图上确定所述涂抹操作在所述目标子频谱图上的实际作用区域;
第三处理子模块,用于对所述目标子频谱图的所述实际作用区域进行处理。
可选的,所述实际作用区域包括至少一个子区域,
所述第三处理子模块,包括:
第七确定子模块,用于确定与所述至少一个子区域一一对应的至少一个初始处理因子j,0j≤1;
第八确定子模块,用于基于所述至少一个初始处理因子,确定至少一个最终处理因子,所述最终处理因子为反映对所述目标子频谱图的显示值的处理强度,所述显示值为灰度值或像素值;
第四处理子模块,用于基于每个最终处理因子对所述实际作用区域对应子区域的显示值进行处理。
可选的,所述实际作用区域按照像素划分为所述至少一个子区域;
所述第八确定子模块,用于:
当所述最终处理因子为增强因子,对于所述实际作用区域的每个像素对应的初始处理因子,将1与所述初始处理因子之和作为增强因子;
当所述最终处理因子为弱化因子,对于所述实际作用区域的每个像素对应的初始处理因子,将1与所述初始处理因子的差值作为弱化因子。
可选的,所述第四处理子模块,用于:
将所述实际作用区域的每个像素的显示值与对应的最终处理因子的乘积作为处理后的所述每个像素的显示值。
根据本发明实施例的第三方面,提供了一种音频处理装置,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
显示初始音频信号对应的频谱图;
当检测到针对所述频谱图的涂抹操作后,基于所述涂抹操作,处理所述频谱图;
基于处理后的所述频谱图,确定目标音频信号;
显示处理后的所述频谱图;
播放所述目标音频信号。
根据本发明实施例的第四方面,提供了一种存储介质,所述存储介质中存储有指令,当所述存储介质在处理组件上运行时,使得处理组件执行如第一方面所述的音频处理方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
综上所述,本发明实施例提供的音频处理方法、装置及存储介质,该音频处理方法可以在检测到针对移动终端上显示的频谱图的涂抹操作后,基于该涂抹操作,处理该移动终端上显示的频谱图,并播放处理后确定的目标音频信号,因此,丰富了音频处理的功能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
为了更清楚的说明本发明的实施例,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据相关技术示出的一种音频处理方法所涉及的实施环境的示意图;
图2是本发明实施例提供的一种音频处理方法的流程图;
图3A是本发明实施例提供的另一种音频处理方法的流程图;
图3B是本发明实施例提供的一种处理初始音频信号以得到该初始音频信号对应的频谱图的方法流程图;
图3C是本发明实施例提供的一种初始离散音频信号分帧处理后的示意图;
图3D是本发明实施例提供的一种频谱图的示意图;
图3E是本发明实施例提供的一种基于涂抹操作,处理频谱图的方法流程图;
图3F是本发明实施例提供的一种用户对频谱图进行涂抹操作后的示意图;
图4A是本发明实施例提供的一种音频处理装置的框图
图4B是本发明实施例提供的另一种音频处理装置的框图;
图4C是本发明实施例提供的一种确定模块的框图;
图4D是本发明实施例提供的一种生成模块的框图;
图4E是本发明实施例提供的一种第一处理模块的框图;
图5是本发明实施例提供的一种音频处理装置的终端的结构示意图。
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参见图1,其示出了本发明部分实施例中提供的音频处理方法所涉及的实施环境的示意图。该实施环境可以包括:终端110。终端110可以为智能手机、电脑、多媒体播放器等,图1以终端110为智能手机为例进行说明。
图2是本发明实施例提供的一种音频处理方法的流程图,可以应用于图1所示的终端110中。如图2所示,该音频处理方法可以包括:
步骤201、显示初始音频信号对应的频谱图。
在本发明实施例中,终端可以将获取到的初始音频信号进行变换后生成该初始音频信号对应的频谱图,并显示在终端的显示界面上。
步骤202、当检测到针对频谱图的涂抹操作后,基于涂抹操作,处理该频谱图。
其中,当用户在频谱图上进行涂抹按压等涂抹操作时,终端可以基于涂抹操作,处理该频谱图。
步骤203、基于处理后的频谱图,确定目标音频信号。
终端在将频谱图进行处理后,可以将该处理后的频谱图基于生成该频谱图时的方法做逆变换,转换为可以播放的目标音频信号。
步骤204、显示处理后的频谱图。
步骤205、播放目标音频信号。
在本发明实施例中,终端在将处理后的频谱图转换为可以播放的音频信号后,可以直接在终端上进行播放;或者终端还可以在接收到用户触发的播放指令时,再进行播放,本发明实施例对此不做限定。
综上所述,本发明实施例提供了一种音频处理方法,该音频处理方法可以针对用户对终端上显示的初始音频信号的频谱图的涂抹操作,处理该频谱图,再将处理后的频谱图转换为目标音频信号后进行播放,用户可以直观地通过对频谱图的涂抹操作来实现修音,丰富了终端处理音频的方法。
图3A是本发明实施例提供的另一种音频处理方法的流程图,可以应用于图1所示的终端110中,如图3A所示,该音频处理方法可以包括:
步骤301、获取初始音频信号。
该初始音频信号是指终端采集或存储的带有语音、音乐和/或音效的有规律的声波的频率和幅度变化信息载体,该初始音频信号是待处理的音频的信号,该初始音频信号可以是终端上自带的音乐播放客户端中的某段音频信号,也可以是用户在终端上录制的某段声音对应的信号,本发明实施例对此不做限定。
在本发明实施例中,终端可以安装有修音客户端,终端在该客户端接收到用户触发的修音指令时,获取对应的初始音频信号,用户触发修音指令的方法可以为对触发按钮的单击操作或双击操作,对对指定界面的语音操作等,本发明实施例对此不做限定。例如,客户端的显示界面上可以显示有修音的触控按键,用户可以单击该触控按键,来触发相应的修音指令。
示例的,假设初始音频信号为终端上自带的音乐播放客户端中的某段歌曲yy的初始音频信号,则终端在接收到用户通过单击操作触发的修音指令时,可以获取该歌曲yy的初始音频信号。
步骤302、处理初始音频信号得到该初始音频信号对应的频谱图。
频谱图是反映信号频率与能量的关系的图像,初始音频信号是一段连续的声音波形信号。在本发明实施例中,该频谱图可以通过处理初始音频信号得到,对该初始音频信号的处理过程一般包括快速傅里叶变换(英文:Fast Fourier Transform;简称:FFT),简称傅里叶变换。本发明实施例以以下两种可实现方式为例进行说明。
第一种可实现方式,终端可以将初始音频信号划分为时长相等的多个信号帧,对每个信号帧进行连续采样得到多个采样点,然后再对该多个采样点做FFT,将每个信号帧对应的FFT后的数值经过第一预设算法转化为灰度值或者像素值,即可得到每个信号帧的子频谱图,最终将多个信号帧的子频谱图拼接即可得到初始音频信号对应的频谱图,例如该多个采样点为4096个采样点,每个信号帧的时长为1/10秒(s),初始音频信号对应的频谱图中的每个点对应的数值为相应频率的振幅。因此,该初始音频信号对应的频谱图反映的即是音频在时间上的频率分布情况。
第二种可实现方式,为了得到更准确直观的频谱图,如图3B所示,终端处理初始音频信号得到该初始音频信号对应的频谱图的方法可以包括:
步骤3021、对初始音频信号进行第一处理得到FN帧频域信号。
其中,该FN为正整数,该第一处理可以包括FFT。
可选的,步骤3021可以包括:
步骤A1、对初始音频信号进行采样得到初始离散音频信号,且该初始离散音频信号的长度为L。
示例的,假设终端获取的是yy歌曲的初始音频信号,终端对该初始音频信号采样后,得到该yy歌曲的初始离散音频信号为f(n),该初始离散音频信号f(n)的长度即为L。
步骤A2、对初始离散音频信号进行分帧加窗处理得到FN帧子离散音频信号。
其中,FN=(L-N)/FShift+1,N为每帧子离散音频信号的长度,FShift为帧移。
在本发明实施例中,为了避免频谱图中的能量泄露,且提高终端在处理音频信号时的效率,终端可以先对获取到的初始音频信号进行分帧处理和加窗处理,该过程统称为分帧加窗处理。示例的,该过程可以包括:
步骤A21、对初始离散音频信号进行分帧处理,得到FN帧分帧离散音频信号。
其中,由于终端在进行信号处理时,处理有限长度的信号的速度通常较快,因此,终端可以先将初始离散音频信号通过截取分帧的方式划分为多帧分帧离散音频信号,使得每帧分帧离散音频信号都趋于平稳,即波动幅度较小,这样即可以降低后续处理难度。
为了避免某帧分帧离散音频信号丢失,可以在对该初始离散音频信号分帧处理时,采用帧与帧之间相互重叠的方式进行截取分帧,相邻两帧分帧离散音频信号的起始位置的时间差即为帧移Fshift,该帧移Fshift的长度小于每帧分帧离散音频信号的长度N,一般情况下,帧移Fshift为N的1/2。
进一步的,分帧处理后的总帧数FN满足:FN=(L-N)/FShift+1,L是指获取到的初始音频信号的总长度,也即是初始离散音频信号的总长度,N一般为2的k次幂,k为正整数。
示例的,图3C示出了将该yy歌曲的初始离散音频信号分帧处理后的示意图。假设yy歌曲的初始离散音频信号的总长度L为3,帧移Fshift为1,分帧处理得到的每个分帧离散音频信号的长度N为2,帧移Fshift为长度N的1/2,即1,则可以得到总帧数FN即为:FN=(L-N)/Fshift+1=(3-2)/1+1=2,也即是,终端将该初始离散音频信号进行分帧处理后,得到了2帧分帧离散音频信号。
需要说明的是,在对初始离散音频信号进行分帧处理后,不够一个帧移的离散音频信号帧可以丢弃。实际应用中,一段初始离散音频信号(如一首歌曲的初始离散音频信号)可以分帧得到成千上万帧分帧离散音频信号,本发明实施例提供的上述例子只是为了便于读者理解,进行的示意性举例,并不用来限制本发明。
步骤A22、对FN帧分帧离散音频信号进行加窗处理,得到FN帧子离散音频信号。
为了进一步避免音频信号的能量泄露,终端可以将每帧分帧离散音频信号与窗函数相乘,以对每帧分帧离散音频信号进行加窗处理,从而得到FN帧子离散音频信号。每帧子离散音频信号的长度等于每帧分帧离散音频信号的长度N。
以第i帧分帧离散音频信号xi(n)为例,对该第i帧分帧离散音频信号帧xi(n)进行加窗处理得到的第i帧子离散音频信号xi(n)w(n)可以满足:
xi(n)w(n)=xi(n)×w(n);其中,0<i≤FN,FN为总帧数,w(n)为窗函数。
可选的,上述窗函数可以为汉明窗,也可以为其他窗函数,本发明实施例对此不做限定。其中,汉明窗的窗函数为
Figure BDA0001552302100000121
其中,Nh为汉明窗的长度。
步骤A3、分别对每一帧子离散音频信号进行FFT,以得到FN帧频域信号。
终端可以分别对每一帧子离散音频信号进行FFT得到一帧频域信号,由于子离散音频信号共FN帧,因此最终得到FN帧频域信号。
以第i帧子离散音频信号xi(n)w(n)为例,对该帧子离散音频信号进行FFT后得到的第i帧频域信号Xi(N)W(N)满足:
Xi(N)W(N)=FFT(xi(n)w(n))/XM。
其中,XM是指量化位数的最大值,该量化位数是对模拟音频信号的幅度轴进行数字化后的动态范围,假设量化位数为8位,则XM的最大值即可以为255。
步骤3022、基于FN帧频域信号,生成频谱图。
基于FN帧频域信号,生成频谱图的方式可以有多种,示例的,可以直接将FN帧频域信号转化为FN个灰度值数组,将FN个灰度值数组拼接形成一灰度值矩阵,直接将该灰度值矩阵对应的图像确定为频谱图。
当然,为了使得得到的频谱图更清楚直观,可以对FN帧频域信号经过一系列转化,本发明实施例以以下步骤为例对步骤3022进行说明,如下所示,该步骤3022包括:
步骤B1、对于每一帧频域信号,将频域信号转化为一个分贝数组。
对于每一帧频域信号,终端可以将频域信号转化为一个分贝数组,最终生成FN个分贝数组。
以第i帧频域信号Xi(N)W(N)为例,将该帧频域信号转化得到的第i个分贝数组GDBi(n)满足:
GDBi(n)=20×lg10(abs(Xi(N)W(N)+D)。
其中,abs表示求绝对值,D为预设值,0<D≤1,加上D是为了避免在Xi(N)W(N)为0时,出现lg10()对0进行计算,而导致的计算错误,示例的D=e-20
步骤B2、对于每个分贝数组,将截取的前
Figure BDA0001552302100000131
个分贝数值归一化至[B,0]后,将归一化后的分贝数值转化为灰度值,得到一组灰度值数组,B为预设值。
实际实现时,考虑到傅里叶变换的对称特性,为了后续计算过程的简洁,终端可以截取每个分贝数组的前
Figure BDA0001552302100000132
个分贝数值得到处理后的分贝数组以进行后续处理。当然,直接对N个分贝数值进行处理也可以,本发明实施例对此不再赘述。
以第i个分贝数组GDBi(n)为例,终端可以执行以下过程:
首先,终端可以截取第i个分贝数组GDBi(n)的第0~N/2-1个分贝数值,得第i个分贝数组FDBi(n),该第i个分贝数组FDBi(n)包括第i个分贝数组GDBi(n)的前
Figure BDA0001552302100000133
个分贝数值,第i个分贝数组GDBi(n)剩下的后半部分数据丢弃,其中,N为该第i个分贝数组GDBi(n)的总长度,其等于第i帧频域信号的长度。
然后,终端对于该第i个分贝数组FDBi(n)进行归一化处理,并进行数值的线性映射,以将第i个分贝数组FDBi(n)中的数值转化为灰度值,得到一组灰度值数组。
示例的,以第i个分贝数组FDBi(n)为例,其对应的归一化处理过程包括:终端可以根据预设规则确定一个参考分贝值B(例如该B可以为根据经验预先设置的),当数组FDBi(n)中的任一数值FDBi(x)小于该参考分贝值B时,终端可以确定该FDBi(x)=B;当数组FDBi(n)中的任一数值FDBi(x)大于该分贝值B时,终端可以确定FDBi(x)=FDBi(x),数组FDBi(n)中的数值小于或等于0,终端可以将数组FDBi(n)归一化到范围:[B,0],然后可以再将[B,0]中的数值一一线性映射到[0,255],最终得到的一组灰度值数组Gi(n)。
在本发明实施例中,数组FDBi(n)的长度为N/2,即其包含N/2个数值,该线性映射后的值表示的是频谱图中的灰度值,其中0可以表示黑,255可以表示白,0到255之间的值可以表示灰。
假设该线性映射后的取值范围为[min,max],数组FDBi(n)归一化后的取值范围为[B,0],若已知该FDBi(n)中的任一数值FDBi(x),则该FDBi(x)线性映射后得到的数值Gi(x)可以满足线性映射公式:
Figure BDA0001552302100000141
示例的,假设终端根据经验选择的参考分贝值B为-160,则可知当数组FDBi(n)中的任一数值FDBi(x)小于或等于-160时,该FDBi(x)=-160;当数组FDBi(n)中的任一数值FDBi(x)大于-160时,该FDBi(x)=FDBi(x),由于该数组FDBi(n)中的数值小于或等于0,因此终端可以将该数组FDBi(n)归一化到:[-160,0],归一化后的数组为Gi(n)。
进一步的,假设数组FDBi(n)的长度为3,即该数组FDBi(n)中共包含3个数值,且该三个数值分别为:数组FDBi(1)=-160,数组FDBi(2)=-80,数组FDBi(3)=0,终端需要将该数组FDBi(n)中的数值线性映射到[0,255],也即是max=255,min=0,则根据上述线性映射公式可知,该FDBi(1)经过线性映射后可以得到
Figure BDA0001552302100000142
同理,Gi(2)=127.5,Gi(3)=255,则Gi(n)包括:0、127.5和255。
实际应用中,一个数组FDBi(n)的数值可以有多个,本发明实施例提供的上述例子只是为了便于读者理解,进行的示意性举例,并不用来限制本发明。
步骤B3、基于每组灰度值数组,确定包含
Figure BDA00015523021000001510
个灰度值的一帧子频谱图。
终端可以基于每组灰度值数组,确定包含
Figure BDA00015523021000001511
个灰度值(即
Figure BDA00015523021000001512
行FShift列的灰度值)的一帧子频谱图,最终得到FN帧子频谱图。
为了便于用户观看,对于每组灰度值数组,可以对该灰度值数组进行一定的处理,本发明实施例以以下两种情况为例进行说明:
第一种情况,可以将该灰度值数组进行转置和逆序后,复制FShift次,得到包含
Figure BDA0001552302100000151
个灰度值的一帧子频谱图。
仍然以上述第i组灰度值数组Gi(n)为例,假设Fshift=2,Gi(n)包括:0、127.5和255,则可以先将Gi(n)=[0127.5255]转置得到
Figure BDA0001552302100000152
然后逆序得到矩阵
Figure BDA0001552302100000153
再复制2次得到
Figure BDA0001552302100000154
该矩阵中的数值即为第i帧子频谱图的灰度值。
第二种情况,可以将该灰度值数组先复制FShift次,再进行转置和逆序后,得到包含
Figure BDA0001552302100000155
个灰度值的一帧子频谱图。
仍然以上述第i组灰度值数组Gi(n)为例,假设Fshift=2,Gi(n)包括:0、127.5和255,则可以先将该Gi(n)=[0 127.5 255]复制2份,生成一个2×3的矩阵:
Figure BDA0001552302100000156
然后将矩阵先转置得到:
Figure BDA0001552302100000157
然后逆序得到矩阵:
Figure BDA0001552302100000158
该矩阵中的数值即为第i帧子频谱图的灰度值。
经过转置和逆序处理得到的第i帧子频谱图,较小的值在下方,较大的值在上方,更加便于用户观看。其中,逆序处理也称倒序处理,也即是将矩阵中数值的排列顺序取反。
步骤B4、按照对应的离散音频信号的时序,将所有帧子频谱图进行拼接得到包含
Figure BDA0001552302100000159
个灰度值的频谱图。
在本发明实施例中,终端可以将所有帧子频谱图按照时间顺序拼接起来,得到包含
Figure BDA0001552302100000161
个灰度值的频谱图。该频谱图的长度为FN×FShift,宽度为
Figure BDA0001552302100000162
示例的,假设初始音频信号的总长度L=3,FN=2,则经过上述步骤3021至3026得到了2帧子频谱图,假设该2帧子频谱图对应的矩阵分别为
Figure BDA0001552302100000163
Figure BDA0001552302100000164
则将该两个子频谱图拼接得到该初始音频信号对应的频谱图所对应的矩阵即为:
Figure BDA0001552302100000165
步骤303、显示初始音频信号对应的频谱图。
请参考上述步骤B4,在步骤B4中,终端获取到的是频谱图对应的矩阵,该矩阵中的数值即表示的是该频谱图的灰度值,在步骤303中,终端显示的频谱图可以为灰度图像也可以为彩色图像,当需要显示的频谱图为灰度图像时,可以对拼接得到的频谱图不作处理,直接进行显示,则最终显示的频谱图包含
Figure BDA0001552302100000166
个灰度值,请参考图3D,图3D是本发明一示意性实施例提供的频谱图的示意图,该频谱图为灰度图像;当需要显示的频谱图为彩色图像时,可以将该拼接得到的频谱图的灰度值转化为相应的像素值,然后按照转化得到的像素值显示频谱图,则最终显示的频谱图包含
Figure BDA0001552302100000167
个像素值。例如,该像素值包括红色子像素的像素值、绿色子像素的像素值和蓝色子像素的像素值。后续过程中,用户可以直接在该终端上显示的频谱图上进行相应的涂抹操作。
在实际实现时,终端可以在接收到用户在显示界面上触发的显示指令后,再显示该频谱图。示例的,假设终端接收到用户在终端上触发的显示指令时,可以将yy歌曲的频谱图显示在显示界面上。
进一步的,用户可以通过位置调整操作对该频谱图的位置进行调整,或者用户还可以通过缩放操作控制该频谱图进行缩放,以便其观看。
步骤304、当检测到针对频谱图的涂抹操作后,基于涂抹操作,处理频谱图。
在本发明实施例中,涂抹操作可以为触控时长超过预设时长和/或触控力度大于预设力度的触控操作,该涂抹操作可以包括点击操作、长按操作和/或滑动操作等一系列触控操作。
由上述步骤302可知,初始音频信号对应的频谱图可以由多帧子频谱图组成,可选的,每帧子频谱图包括
Figure BDA0001552302100000171
个显示值,该显示值为灰度值或者像素值,则如图3E所示,基于涂抹操作,处理频谱图,包括:
步骤3041、确定涂抹操作所作用的目标子频谱图。
实际实现时,用户的一次涂抹操作可能作用于初始音频信号对应的频谱图中的一个或多个子频谱图,终端可以将该涂抹操作所作用的子频谱图确定为目标子频谱图。
步骤3042、在目标子频谱图上确定涂抹操作在该目标子频谱图上的实际作用区域。
该实际作用区域即频谱图中用户的涂抹操作所触摸的区域,该实际作用区域包括至少一个子区域,这些子区域可以为按照预设方式预先划分得到的。该多个子区域可以为尺寸相等的块状区域。
步骤3043、对目标子频谱图的实际作用区域进行处理。
可选的,对目标子频谱图的实际作用区域进行处理的过程可以包括:
步骤C1、确定与至少一个子区域一一对应的至少一个初始处理因子j,0j≤1。
每个初始处理因子的确定方法可以有多种,示例的,初始处理因子可以为预设值,如0.3,也可以基于涂抹强度、涂抹面积和/或涂抹区域位置确定。例如,当初始处理因子基于涂抹强度确定时,该初始处理因子与涂抹强度正相关,也即是,涂抹强度越大,初始处理因子越大;当该初始处理因子基于涂抹面积确定时,该初始处理因子与涂抹面积正相关,也即是,涂抹面积越大,初始处理因子越大;当初始涂抹因子基于涂抹区域位置决定时,涂抹因子与涂抹区域位置可以具有预设关系,例如,涂抹区域位置位于频谱图的边缘时,相应位置的初始处理因子的数值属于[0,0.3],涂抹区域位置位于频谱图的中央时,相应位置的初始处理因子的数值(0.3,0.5],频谱图的边缘与中央的位置划分可以按照预设规则划分,本发明实施例对此不再限定。进一步的,当初始处理因子基于涂抹强度、涂抹面积和涂抹区域位置中的至少两个因素确定时,该初始处理因子可以综合该至少两个因素确定,例如为每个因素配置权重系数,通过加权的方式得到初始处理因子。
步骤C2、基于至少一个初始处理因子,确定至少一个最终处理因子,最终处理因子为反映对目标子频谱图的显示值的处理强度,显示值为灰度值或像素值。
在本发明实施例中,对频谱图的处理可以包括增强处理和弱化处理两种情况。相应的,在需要进行增强处理时,最终处理因子为增强因子,在需要进行弱化处理时,最终处理因子为弱化因子。本发明实施例以以下两种情况为例进行说明。
第一种情况,在对频谱图进行增强处理的场景下,最终处理因子为增强因子,对于实际作用区域的每个子区域对应的初始处理因子,将1与初始处理因子之和作为增强因子。
可选的,该实际作用区域可以按照像素划分为至少一个子区域,也即是每个子区域为一个像素所在区域,则对于实际作用区域的每个像素对应的初始处理因子,将1与初始处理因子之和作为增强因子。
例如,该实际作用区域包括3个像素,分别对应初始处理因子0.1、0.2和0.3,则将1分别与该3个初始处理因子求和,得到3个增强因子,分别为1.1、1.2和1.3。
假设,该频谱图为灰度图像,终端可以将实际作用区域的每个像素的灰度值与对应的增强因子的乘积作为增强后实际作用区域的灰度值。例如,实际作用区域的3个像素的灰度值分别为250、220和230,对应的3个增强因子分别为1.1、1.2和1.3,则增强后实际作用区域的灰度值为:250×1.1=275、220×1.2=264和230×1.3=299。
第二种情况,在对频谱图进行弱化处理的场景下,最终处理因子为弱化因子,对于实际作用区域的每个子区域对应的初始处理因子,将1与初始处理因子之和作为弱化因子。
可选的,该实际作用区域可以按照像素划分为至少一个子区域,也即是每个子区域为一个像素所在区域,对于实际作用区域的每个像素对应的初始处理因子,将1与初始处理因子的差值作为弱化因子。
例如,该实际作用区域包括3个像素,分别对应初始处理因子0.1、0.2和0.3,则将1分别与该3个初始处理因子做差,得到3个弱化因子,分别为0.9、0.8和0.7。
假设,该频谱图为灰度图像,终端可以将实际作用区域的每个像素的灰度值与对应的弱化因子的乘积作为弱化后实际作用区域的灰度值。例如,实际作用区域的3个像素的灰度值分别为250、220和230,对应的3个弱化因子分别为0.9、0.8和0.7,则弱化后实际作用区域的灰度值为:250×0.9=225、220×0.8=176和230×0.7=161。
步骤C3、基于每个最终处理因子对实际作用区域对应子区域的显示值进行处理。
步骤C3可以包括:将实际作用区域的每个子区域的显示值与对应的最终处理因子的乘积作为处理后的每个子区域的显示值。示例的,当每个子区域为一个像素所在区域时,可以将实际作用区域的每个像素的显示值与对应的最终处理因子的乘积作为处理后的每个像素的显示值。
在执行完上述步骤C1至C3后,若上述处理为对频谱图的弱化处理,则处理后的实际作用区域中的显示值小于或等于处理前的实际作用区域的显示值;若上述处理为对频谱图的增强处理,则处理后的实际作用区域中的显示值大于或等于处理前的实际作用区域的显示值。
步骤305、基于处理后的频谱图,确定目标音频信号。
上述步骤305可以有多种实现场景,本发明实施例以以下两种实现场景为例进行说明。
第一种实现场景,基于生成频谱图的处理过程对处理后的频谱图进行逆处理,得到目标音频信号。
参考上述步骤302,该逆处理过程即上述步骤302的逆过程。
对于步骤302所提供的第一种可实现方式,步骤305可以包括:
将处理后的频谱图划分为多个信号帧的子频谱图,将每个子频谱图经过第一预设算法的逆算法转化为一组数组,对每个子频谱图对应的数组经过傅里叶逆变换(英文:Inverse Fast Fourier Transform;简称:IFFT)得到一组数值,然后将转化得到的多组数值按照时间顺序拼接后,恢复得到连续的目标音频信号。
对于步骤302所提供的第二种可实现方式,步骤305可以包括:
将处理后的频谱图划分为FN帧处理后的子频谱图,基于FN帧处理后的子频谱图生成一一对应的FN帧处理后的频域信号,该过程可以为上述步骤3022的逆过程;将FN帧处理后的频域信号进行第一处理的逆处理得到目标音频信号,该第一处理的逆处理包括IFFT,该过程可以为上述步骤3021的逆过程。
第二种实现场景,通过对FN帧频域信号中的至少一帧频域信号进行处理,基于处理结果得到目标音频信号。
示例的,步骤305可以包括:
步骤3051、基于处理后的频谱图,对FN帧频域信号中的至少一帧频域信号进行处理,得到处理后的FN帧频域信号。
步骤3051中的处理对象:FN帧频域信号指的是步骤3021中对初始音频信号进行第一处理得到的FN帧频域信号。
可选的,基于处理后的频谱图,对FN帧频域信号中的至少一帧频域信号进行处理,得到处理后的FN帧频域信号的过程,包括:
步骤D1、对于每个目标帧频域信号,确定1×N的一维矩阵,该1×N的一维矩阵包括N个目标处理因子,该目标帧频域信号为目标子频谱图对应的频域信号,该目标子频谱图为频谱图中,涂抹操作所作用的子频谱图,目标处理因子反映对目标帧频域信号的处理强度。
请参考上述步骤302,频谱图是基于FN帧频域信号转换得到的,由此可知,频谱图的显示与FN帧频域信号存在关系。请参考上述步骤3021可知,经过第一处理得到FN帧频域信号,每帧频域信号的长度为N,在本发明实施例中,对初始音频信号的处理可以通过对该FN帧频域信号的处理实现,而对该FN帧频域信号的处理可以是基于用户的涂抹操作生成相应的处理因子,采用该处理因子对FN帧频域信号进行处理。
实际实现时,由于FN帧频域信号对应的子频谱图中存在被用户触摸的目标子频谱图和未被用户触摸到的其他子频谱图。通常对该目标子频谱图对应的目标帧频域信号处理,对该其他子频谱图对应的其他帧频域信号可以不进行处理。而由于所有帧频域信号的长度为N,也即是每帧频域信号包括N个信号,则需要确定与该N个信号一一对应的N个目标处理因子,通过每个目标处理因子对相应的信号进行处理。因此,对于每帧目标帧频域信号可以确定一个包含N个目标处理因子的1×N的一维矩阵。
又由于目标处理因子与频谱图存在关联关系,在本发明实施例中,该1×N的一维矩阵是基于相应的目标子频谱图中最终处理因子确定的。请继续参考上述步骤302中的步骤B3,由于基于每组灰度值数组,确定包含
Figure BDA0001552302100000201
个灰度值的一帧子频谱图的方式为:对于每组灰度值数组,将灰度值数组进行转置和逆序后,复制FShift次,得到包含
Figure BDA0001552302100000211
个灰度值的一帧子频谱图。
则相应的,对于每个目标帧频域信号,确定1×N的一维矩阵的过程可以包括:
步骤D11、对于每个目标子频谱图,生成
Figure BDA0001552302100000212
的矩阵,
Figure BDA0001552302100000213
的矩阵中的数值为与目标子频谱图的
Figure BDA0001552302100000214
个灰度值一一对应的最终处理因子,该最终处理因子为增强因子或弱化因子。
该最终处理因子的确定方式可以与上述步骤3043中每个子区域为一个像素所在区域时,所确定的最终处理因子的方式,例如上述步骤C2。则目标子频谱图的
Figure BDA0001552302100000215
个灰度值(当频谱图为灰度图像时,该灰度值即为图像中的灰度值,当频谱图为彩色图像时,该灰度值即为图像中的像素值转化得到的)一一对应有
Figure BDA0001552302100000216
个最终处理因子,这
Figure BDA0001552302100000217
个最终处理因子即为
Figure BDA0001552302100000218
的矩阵中的数值。
例如,某一子频谱图的灰度值为
Figure BDA0001552302100000219
其对应的
Figure BDA00015523021000002110
的矩阵为
Figure BDA00015523021000002111
该矩阵中每个数值即为对应的灰度值的最终处理因子。
步骤D12、求取
Figure BDA00015523021000002112
的矩阵中每行最终处理因子的平均值,得到
Figure BDA00015523021000002113
的一维矩阵。
仍然以步骤D11中的例子为例,求取
Figure BDA00015523021000002114
的矩阵
Figure BDA00015523021000002115
中每行最终处理因子的平均值,得到
Figure BDA00015523021000002116
的一维矩阵为
Figure BDA00015523021000002117
步骤D13、分别基于每个
Figure BDA00015523021000002118
的一维矩阵,确定1×N的一维矩阵。
可选的,步骤D13包括:
对于每个
Figure BDA00015523021000002119
的一维矩阵factor(n),确定1×N的一维矩阵fn(n)。
第一种可实现情况,fn(n)满足:
Figure BDA00015523021000002120
时,fn(n)=factor(n);
Figure BDA00015523021000002121
时,fn(n)=factor(N-n+1),1≤n≤N。
例如,假设N=4,N/2=2,一维矩阵factor(n)长度为2,包括factor(1)=0.5,factor(2)=0.2,则:
当n=1,1<时,fn(1)=factor(1)=0.5;
当n=2,
Figure BDA0001552302100000221
时,fn(2)=factor(2)=0.2;
当n=3,
Figure BDA0001552302100000222
时,fn(3)=factor(4-3+1)=0.2;
当n=4,
Figure BDA0001552302100000223
时,fn(4)=factor(4-4+1)=0.5;
第二种可实现情况,fn(n)满足:
Figure BDA0001552302100000224
时,fn(n)=factor(n);
Figure BDA0001552302100000225
时,fn(n)=factor(N-n-1),0≤n≤N-1。
例如,假设N=4,N/2=2,一维矩阵factor(n)长度为2,包括factor(0)=0.5,factor(1)=0.2,则:
当n=0,
Figure BDA0001552302100000226
时,fn(0)=factor(0)=0.5;
当n=1,
Figure BDA0001552302100000227
时,fn(1)=factor(1)=0.2;
当n=2,
Figure BDA0001552302100000228
时,fn(2)=factor(4-2-1)=0.2;
当n=3,
Figure BDA0001552302100000229
时,fn(3)=factor(4-3-1)=0.5。
步骤D2、将目标帧频域信号与1×N的一维矩阵中对应的目标处理因子的乘积确定为处理后的目标帧频域信号,该处理后的FN帧频域信号包括处理后的目标帧频域信号。
将目标帧频域信号与1×N的一维矩阵中对应的目标处理因子的乘积确定为处理后的目标帧频域信号指的是,将目标帧频域信号中的N个信号中的每个信号,与1×N的一维矩阵对应的目标处理因子相乘得到处理后的信号,以得到N个处理后的信号,该N个处理后的信号组成一帧处理后的目标帧频域信号。
参考前述步骤D1的描述,对其他子频谱图对应的其他帧频域信号可以不进行处理。实际应用中,为了计算上的一致性,也可以对其他子频谱图进行处理,只不过,其他帧频域信号对应的1×N的一维矩阵中所有数值均为1,则处理后的其他帧频域信号仍然等于处理前的其他帧频域信号。此时,上述处理后的FN帧频域信号也可以包括处理后的其他帧频域信号。
步骤3052、对处理后的FN帧频域信号进行第二处理得到目标音频信号。
第二处理包括:IFFT。如步骤D2,处理后的FN帧频域信号可以包括处理后的目标帧频域信号和处理后的其他帧频域信号。
则对处理后的FN帧频域信号进行第二处理得到目标音频信号的过程可以包括:对处理后的目标帧频域信号进行第二处理的过程和对处理后的其他帧频域信号进行第二处理的过程,两者的处理过程实质相同。本发明实施例以对处理后的目标帧频域信号进行第二处理的过程为例进行说明,该过程包括:
步骤E1、分别对每个处理后的目标帧频域信号进行IFFT,得到对应的目标子离散音频信号。
假设任一目标子离散音频信号为x(n)w2(n),相应的处理后的目标帧频域信号为X(N)W2(N),则该任一目标子离散音频信号为x(n)w2(n),满足:
x(n)w2(n)=IFFT(X(N)W2(N))。
步骤E2、按照对应的子频谱图的时序,将所有目标子离散音频信号,以及其他子频谱图对应的子离散音频信号进行拼接得到目标离散音频信号,该其他子频谱图为多帧子频谱图中除目标子频谱图之外的子频谱图。
进一步的,终端可以将转换后的每帧子离散音频信号按照时间顺序进行重新排列,即可以恢复得到目标离散音频信号,由于在对初始音频信号进行分帧处理时是相互重叠进行分帧处理的,则在拼接过程中,各个子离散音频信号存在重叠部分,该重叠部分的信号可以直接进行相加。
步骤E3、将目标离散音频信号恢复得到目标音频信号。
将目标离散音频信号进行信号恢复处理,可以得到连续的目标音频信号。
步骤306、显示处理后的频谱图。
请参考图3F,图3F为用户对图3D所示的频谱图进行涂抹操作后,基于该涂抹操作所得到的处理后的频谱图的示意图,假设该频谱图包括6帧子频谱图,用户的涂抹操作所作用的目标子频谱图为第2帧子频谱图,实际作用区域为区域L,且上述涂抹操作是在频谱图弱化场景的涂抹操作,则如图3F所示,基于该涂抹操作得到的频谱图中,假设该区域L中的灰度值所对应的最终处理因子为0,则处理后的区域L中的灰度值由原来的灰度值变为0。
步骤307、播放目标音频信号。
实际应用中,终端可以在生成目标音频信号后,直接进行播放;或者,终端还可以在接收到用户触发的播放指令后,再在终端上进行播放,本发明实施例对此不做限定。
示例的,假设在对频谱图进行处理后,用户触发了播放指令,此时,终端相应的播放该处理后的音频信号。仍然以步骤306中的例子为例,假设该区域L中的灰度值所对应的最终处理因子为0,相应的,基于上述步骤D1的过程可知,与该区域L对应的目标帧频域信号中的信号的目标处理因子也为0,则处理后的频谱中的区域L的灰度值为0,与该区域L对应的目标帧频域信号中的信号在处理后也为0,最终处理得到的目标音频信号中与该区域L对应的一部分信号抹除,播放出的目标音频信号中相应位置处的音频被抹除。
采用本发明实施例提供的音频处理方法,在用户涂抹频谱图后,相应的音频信号被处理,可以实现频谱图与音频的关联呈现和关联处理,例如对频谱的增强处理对应了对音频信号的增强处理,对频谱图的弱化处理对应了对音频信号的弱化处理,用户通过观察频谱图上实际触控区域的图像变化,确定修音的强度,直观地进行修音,从而丰富了音频处理的形式。
需要说明的是,上述步骤301至步骤307中,均以初始音频信号为单声道信号为例进行说明,实际实现时,若需要处理的初始音频信号为多声道信号,可以分别对初始音频信号中的每个声道信号采用上述步骤301至307进行处理;也可以对初始音频信号先进行向下混音处理(如采用下降混合算法进行向下混音处理)得到处理后的初始音频信号,然后再对该处理后的初始音频信号执行上述步骤301至307。本发明实施例对此不做限制。
还需要说明的是,上述步骤302中获取的频谱图包含
Figure BDA0001552302100000241
个显示值,实际实现时,为了保证最终显示的频谱图与初始音频信号的长度一致,可以在包含
Figure BDA0001552302100000242
个显示值的频谱图的前端或后端添加
Figure BDA0001552302100000243
个无效显示值,使得最终得到包含
Figure BDA0001552302100000244
个显示值的频谱图。则在步骤304中,若涂抹操作作用在该无效显示值所在区域时,不对频谱图中的无效显示值进行处理。且,在步骤305中,可以直接将该
Figure BDA0001552302100000245
个无效显示值去除,基于剩余的频谱图,确定目标音频信号。
值得说明的是,本发明实施例提供的音频处理方法的步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减,例如步骤306和步骤307可以同步执行,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本发明的保护范围之内,因此不再赘述。
综上所述,本发明实施例提供了一种音频处理方法,该音频处理方法可以针对用户对终端上显示的初始音频信号的频谱图的涂抹操作,处理该频谱图,再将处理后的频谱图转换为目标音频信号后进行播放,用户可以直观地通过对频谱图的涂抹操作来实现修音,丰富了终端处理音频的方法。
图4A是本发明实施例提供的一种音频处理装置40的框图,如图4A所示,该装置40可以包括:
第一显示模块401,用于显示初始音频信号对应的频谱图。
第一处理模块402,用于当检测到针对频谱图的涂抹操作后,基于涂抹操作,处理该频谱图。
确定模块403,用于基于处理后的频谱图,确定目标音频信号。
第二显示模块404,用于显示处理后的频谱图。
播放模块405,用于播放目标音频信号。
综上所述,本发明实施例提供了一种音频处理装置,该音频处理装置包括第一显示模块、第一处理模块、确定模块、第二显示模块以及播放模块,其中,该第一处理模块可以基于针对频谱图的涂抹操作,处理第一显示模块在终端上显示的频谱图,在确定模块基于该处理后的频谱图,确定了目标音频信号后。该播放模块即可以在终端上播放该目标音频信号,因此,丰富了终端处理音频的功能。
图4B是本发明实施例提供的另一种音频处理装置40的框图,如图4B所示,该装置40还可以包括:
第二处理模块406,用于在显示初始音频信号对应的频谱图之前,对该初始音频信号进行第一处理得到FN帧频域信号,FN为正整数,该第一处理包括傅里叶变换。
生成模块407,用于基于该FN帧频域信号,生成频谱图。
图4C是本发明实施例提供的一种确定模块403的框图,如图4C所示,该确定模块403可以包括:
第一处理子模块4031,用于用户基于处理后的频谱图,对FN帧频域信号中的至少一帧频域信号进行处理,得到处理后的FN帧频域信号。
第二处理子模块4032,用于对处理后的FN帧频域信号进行第二处理得到目标音频信号,该第二处理包括:傅里叶逆变换。
可选的,该第二处理模块406可以用于:
对初始音频信号进行采样得到初始离散音频信号,该初始离散音频信号的长度为L,对该初始离散音频信号进行分帧加窗处理得到FN帧子离散音频信号,FN=(L-N)/FShift+1,N为每帧子离散音频信号的长度,FShift为帧移,再分别对每一帧子离散音频信号进行傅里叶变换,以得到FN帧频域信号。
图4D是本发明实施例提供的一种生成模块407的框图,如图4D所示,该生成模块407可以包括:
第一转化子模块4071,用于对于每一帧频域信号,将频域信号转化为一个分贝数组。
第二转化子模块4072,用于对于每个分贝数组,将截取的前
Figure BDA0001552302100000261
个分贝数值归一化至[B,0]后,将归一化后的分贝数值转化为灰度值,得到一组灰度值数组,B为预设值。
第一确定子模块4073,用于基于每组灰度值数组,确定包含
Figure BDA0001552302100000262
个灰度值的一帧子频谱图。
拼接子模块4074,用于按照对应的离散音频信号的时序,将所有帧子频谱图进行拼接得到包含
Figure BDA0001552302100000263
个灰度值的频谱图。
可选的,该第一处理子模块4031可以包括:
第二确定子模块,用于对于每个目标帧频域信号,确定1×N的一维矩阵,该1×N的一维矩阵包括N个目标处理因子,该目标帧频域信号为目标子频谱图对应的频域信号,该目标子频谱图为频谱图中,涂抹操作所作用的子频谱图,该目标处理因子反映对目标帧频域信号的处理强度。
第三确定子模块,用于将目标帧频域信号与1×N的一维矩阵中对应的目标处理因子的乘积确定为处理后的目标帧频域信号,该处理后的FN帧频域信号包括处理后的目标帧频域信号。
可选的,该第二处理子模块4032可以用于:
分别对每个处理后的目标帧频域信号进行傅里叶逆变换,得到对应的目标子离散音频信号,按照对应的子频谱图的时序,将所有目标子离散音频信号,以及其他子频谱图对应的子离散音频信号进行拼接得到目标离散音频信号,该其他子频谱图为多帧子频谱图中除目标子频谱图之外的子频谱图,最后,将该目标离散音频信号恢复得到目标音频信号。
可选的,该第一确定子模块4073可以用于:
对于每组灰度值数组,将灰度值数组进行转置和逆序后,复制FShift次,得到包含
Figure BDA0001552302100000271
个灰度值的一帧子频谱图。
相应的,该第二确定子模块,包括:
生成子模块,用于对于每个目标子频谱图,生成
Figure BDA0001552302100000272
的矩阵,该
Figure BDA0001552302100000273
的矩阵中的数值为与该目标子频谱图的
Figure BDA0001552302100000274
个灰度值一一对应的最终处理因子,该最终处理因子可以为增强因子或弱化因子。
求取子模块,用于求取
Figure BDA0001552302100000275
的矩阵中每行最终处理因子的平均值,得到
Figure BDA0001552302100000276
的一维矩阵。
第四确定子模块,用于分别基于每个
Figure BDA0001552302100000277
的一维矩阵,确定1×N的一维矩阵。
进一步的,该第四确定子模块可以用于:
对于每个
Figure BDA0001552302100000278
的一维矩阵factor(n),确定1×N的一维矩阵fn(n),fn(n)满足:
当n≤时,fn(n)=factor(n);
当n>时,fn(n)=factor(N-n+1),0≤n≤N-1。
在本发明实施例中,该频谱图由多帧子频谱图组成,图4E是本发明实施例提供的一种第一处理模块402的框图,如图4E所示,该第一处理模块402,包括:
第五确定子模块4021,用于确定涂抹操作所作用的目标子频谱图。
第六确定子模块4022,用于在目标子频谱图上确定涂抹操作在该目标子频谱图上的实际作用区域。
第三处理子模块4023,用于对目标子频谱图的实际作用区域进行处理。
该实际作用区域包括至少一个子区域,相应的,该第三处理子模块4023可以包括:
第七确定子模块,用于确定与该至少一个子区域一一对应的至少一个初始处理因子j,0≤j≤1。
第八确定子模块,用于基于该至少一个初始处理因子,确定至少一个最终处理因子,该最终处理因子为反映对目标子频谱图的显示值的处理强度,该显示值可以为灰度值或像素值。
第四处理子模块,用于基于每个最终处理因子对实际作用区域对应子区域的显示值进行处理。
可选的,该实际作用区域可以按照像素划分为至少一个子区域,该第八确定子模块可以用于:
当最终处理因子为增强因子,对于实际作用区域的每个像素对应的初始处理因子,将1与初始处理因子之和作为增强因子;或者当最终处理因子为弱化因子,对于实际作用区域的每个像素对应的初始处理因子,将1与初始处理因子的差值作为弱化因子。
进一步的,该第四处理子模块可以用于将实际作用区域的每个像素的显示值与对应的最终处理因子的乘积作为处理后的每个像素的显示值。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
综上所述,本发明实施例提供了一种音频处理装置,该音频处理装置包括第一显示模块、第一处理模块、确定模块、第二显示模块以及播放模块,其中,该第一处理模块可以基于针对频谱图的涂抹操作,处理第一显示模块在终端上显示的频谱图,在确定模块基于该处理后的频谱图,确定了目标音频信号后。该播放模块即可以在终端上播放该目标音频信号,因此,丰富了终端处理音频的功能。
图5示出了本发明一个示例性实施例提供的终端500的结构框图。该终端500可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端500包括有:处理器501和存储器502。
处理器501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器501可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器501还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的音频处理方法。
在一些实施例中,终端500还可选包括有:外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地,外围设备包括:射频电路504、触摸显示屏505、摄像头506、音频电路507、定位组件508和电源509中的至少一种。
外围设备接口503可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中,处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上;在一些其他实施例中,处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路504用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路504包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路504还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏505用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时,显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时,显示屏505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏505可以为一个,设置终端500的前面板;在另一些实施例中,显示屏505可以为至少两个,分别设置在终端500的不同表面或呈折叠设计;在再一些实施例中,显示屏505可以是柔性显示屏,设置在终端500的弯曲表面上或折叠面上。甚至,显示屏505还可以设置成非矩形的不规则图形,也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件506用于采集图像或视频。可选地,摄像头组件506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器501进行处理,或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路507还可以包括耳机插孔。
定位组件508用于定位终端500的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于:加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。
加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号,控制触摸显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器512可以检测终端500的机体方向及转动角度,陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器513可以设置在终端500的侧边框和/或触摸显示屏505的下层。当压力传感器513设置在终端500的侧边框时,可以检测用户对终端500的握持信号,由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在触摸显示屏505的下层时,由处理器501根据用户对触摸显示屏505的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器514用于采集用户的指纹,由处理器501根据指纹传感器514采集到的指纹识别用户的身份,或者,由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器501授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时,指纹传感器514可以与物理按键或厂商Logo集成在一起。
光学传感器515用于采集环境光强度。在一个实施例中,处理器501可以根据光学传感器515采集的环境光强度,控制触摸显示屏505的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏505的显示亮度;当环境光强度较低时,调低触摸显示屏505的显示亮度。在另一个实施例中,处理器501还可以根据光学传感器515采集的环境光强度,动态调整摄像头组件506的拍摄参数。
接近传感器516,也称距离传感器,通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中,当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时,由处理器501控制触摸显示屏505从亮屏状态切换为息屏状态;当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时,由处理器501控制触摸显示屏505从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图5中示出的结构并不构成对终端500的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (24)

1.一种音频处理方法,其特征在于,所述方法包括:
显示初始音频信号对应的频谱图;
当检测到针对所述频谱图的涂抹操作后,基于所述涂抹操作,处理所述频谱图;
基于处理后的所述频谱图,确定目标音频信号;
显示处理后的所述频谱图;
播放所述目标音频信号;
其中,所述频谱图由多帧子频谱图组成,所述涂抹操作为针对目标子频谱图上至少一个子区域进行的操作,
所述基于所述涂抹操作,处理所述频谱图,包括:
确定与所述至少一个子区域一一对应的至少一个初始处理因子j,0≤j≤1;
基于所述至少一个初始处理因子,确定至少一个最终处理因子,所述最终处理因子为反映对所述目标子频谱图的显示值的处理强度,且若所述最终处理因子为增强因子,则所述最终处理因子为1与所述初始处理因子之和;若所述最终处理因子为弱化因子,则所述最终处理因子为1与所述初始处理因子之差;所述显示值为灰度值或像素值;
基于每个最终处理因子对实际作用区域对应的子区域的显示值进行处理。
2.根据权利要求1所述的方法,其特征在于,
在所述显示初始音频信号对应的频谱图之前,所述方法还包括:
对所述初始音频信号进行第一处理得到FN帧频域信号,所述FN为正整数,所述第一处理包括傅里叶变换;
基于所述FN帧频域信号,生成所述频谱图。
3.根据权利要求2所述的方法,其特征在于,
所述基于处理后的所述频谱图,确定目标音频信号,包括:
基于处理后的所述频谱图,对所述FN帧频域信号中的至少一帧频域信号进行处理,得到处理后的所述FN帧频域信号;
对处理后的所述FN帧频域信号进行第二处理得到所述目标音频信号,所述第二处理包括:傅里叶逆变换。
4.根据权利要求2所述的方法,其特征在于,
所述对所述初始音频信号进行第一处理得到FN帧频域信号,包括:
对所述初始音频信号进行采样得到初始离散音频信号,所述初始离散音频信号的长度为L;
对所述初始离散音频信号进行分帧加窗处理得到FN帧子离散音频信号,FN=(L-N)/FShift+1,所述N为每帧所述子离散音频信号的长度,所述FShift为帧移;
分别对每一帧子离散音频信号进行所述傅里叶变换,以得到所述FN帧频域信号。
5.根据权利要求3所述的方法,其特征在于,
所述基于所述FN帧频域信号,生成所述频谱图,包括:
对于每一帧频域信号,将所述频域信号转化为一个分贝数组;
对于每个分贝数组,将截取的前
Figure FDA0002779460390000021
个分贝数值归一化至[B,0]后,将归一化后的分贝数值转化为灰度值,得到一组灰度值数组,所述B为预设值;
基于每组灰度值数组,确定包含
Figure FDA0002779460390000022
个灰度值的一帧子频谱图;
按照对应的离散音频信号的时序,将所有帧子频谱图进行拼接得到包含
Figure FDA0002779460390000023
个灰度值的所述频谱图,所述N为每个所述分贝数组包括的分贝数值的个数,所述FShift为帧移。
6.根据权利要求5所述的方法,其特征在于,
所述基于处理后的所述频谱图,对所述FN帧频域信号中的至少一帧频域信号进行处理,得到处理后的所述FN帧频域信号,包括:
对于每个目标帧频域信号,确定1×N的一维矩阵,所述1×N的一维矩阵包括N个目标处理因子,所述目标帧频域信号为目标子频谱图对应的所述频域信号,所述目标子频谱图为所述频谱图中,所述涂抹操作所作用的子频谱图,所述目标处理因子反映对所述目标帧频域信号的处理强度;
将所述目标帧频域信号与所述1×N的一维矩阵中对应的目标处理因子的乘积确定为处理后的目标帧频域信号,所述处理后的所述FN帧频域信号包括所述处理后的目标帧频域信号。
7.根据权利要求6所述的方法,其特征在于,
所述对处理后的所述FN帧频域信号进行第二处理得到所述目标音频信号,包括:
分别对每个处理后的目标帧频域信号进行所述傅里叶逆变换,得到对应的目标子离散音频信号;
按照对应的子频谱图的时序,将所有目标子离散音频信号,以及其他子频谱图对应的子离散音频信号进行拼接得到目标离散音频信号,所述其他子频谱图为所述多帧子频谱图中除所述目标子频谱图之外的子频谱图;
将所述目标离散音频信号恢复得到所述目标音频信号。
8.根据权利要求6所述的方法,其特征在于,
所述基于每组灰度值数组,确定包含
Figure FDA0002779460390000031
个灰度值的一帧子频谱图,包括:
对于每组灰度值数组,将所述灰度值数组进行转置和逆序后,复制所述FShift次,得到包含
Figure FDA0002779460390000032
个灰度值的一帧子频谱图;
所述对于每个目标帧频域信号,确定1×N的一维矩阵,包括:
对于每个所述目标子频谱图,生成
Figure FDA0002779460390000033
的矩阵,所述
Figure FDA0002779460390000034
的矩阵中的数值为与所述目标子频谱图的
Figure FDA0002779460390000035
个灰度值一一对应的最终处理因子,所述最终处理因子为反映对所述目标子频谱图的显示值的处理强度,所述显示值为灰度值或像素值;
求取所述
Figure FDA0002779460390000036
的矩阵中每行最终处理因子的平均值,得到
Figure FDA0002779460390000037
的一维矩阵;
分别基于每个所述
Figure FDA0002779460390000038
的一维矩阵,确定1×N的一维矩阵。
9.根据权利要求8所述的方法,其特征在于,
所述分别基于每个所述
Figure FDA0002779460390000039
的一维矩阵,确定1×N的一维矩阵,包括:
对于每个所述
Figure FDA00027794603900000310
的一维矩阵factor(n),确定1×N的一维矩阵fn(n),所述fn(n)满足:
Figure FDA00027794603900000311
时,fn(n)=factor(n);
Figure FDA0002779460390000041
时,fn(n)=factor(N-n+1),0≤n≤N-1。
10.根据权利要求1至9任一所述的方法,其特征在于,所述确定与所述至少一个子区域一一对应的至少一个初始处理因子j之前,所述方法还包括:
确定所述涂抹操作所作用的目标子频谱图;
在所述目标子频谱图上确定所述涂抹操作在所述目标子频谱图上的实际作用区域,所述实际作用区域包括所述至少一个子区域。
11.根据权利要求10所述的方法,其特征在于,所述基于每个最终处理因子对实际作用区域对应的子区域的显示值进行处理,包括:
将所述实际作用区域的每个像素的显示值与对应的最终处理因子的乘积作为处理后的所述每个像素的显示值。
12.一种音频处理装置,其特征在于,所述装置包括:
第一显示模块,用于显示初始音频信号对应的频谱图;
第一处理模块,用于当检测到针对所述频谱图的涂抹操作后,基于所述涂抹操作,处理所述频谱图;
确定模块,用于基于处理后的所述频谱图,确定目标音频信号;
显示模块,用于显示处理后的所述频谱图;
播放模块,用于播放所述目标音频信号;
其中,所述频谱图由多帧子频谱图组成,所述所述涂抹操作为针对目标子频谱图上至少一个子区域进行的操作;所述第一处理模块,包括:
第七确定子模块,用于确定与所述至少一个子区域一一对应的至少一个初始处理因子j,0≤j≤1;
第八确定子模块,用于基于所述至少一个初始处理因子,确定至少一个最终处理因子,所述最终处理因子为反映对所述目标子频谱图的显示值的处理强度,且若所述最终处理因子为增强因子,则所述最终处理因子为1与所述初始处理因子之和;若所述最终处理因子为弱化因子,则所述最终处理因子为1与所述初始处理因子之差;所述显示值为灰度值或像素值;
第四处理子模块,用于基于每个最终处理因子对实际作用区域对应的子区域的显示值进行处理。
13.根据权利要求12所述的装置,其特征在于,
所述装置还包括:
第二处理模块,用于在所述显示初始音频信号对应的频谱图之前,对所述初始音频信号进行第一处理得到FN帧频域信号,所述FN为正整数,所述第一处理包括傅里叶变换;
生成模块,用于基于所述FN帧频域信号,生成所述频谱图。
14.根据权利要求13所述的装置,其特征在于,
所述确定模块,包括:
第一处理子模块,用于基于处理后的所述频谱图,对所述FN帧频域信号中的至少一帧频域信号进行处理,得到处理后的所述FN帧频域信号;
第二处理子模块,用于对处理后的所述FN帧频域信号进行第二处理得到所述目标音频信号,所述第二处理包括:傅里叶逆变换。
15.根据权利要求13所述的装置,其特征在于,
所述第二处理模块,用于:
对所述初始音频信号进行采样得到初始离散音频信号,所述初始离散音频信号的长度为L;
对所述初始离散音频信号进行分帧加窗处理得到FN帧子离散音频信号,FN=(L-N)/FShift+1,所述N为每帧所述子离散音频信号的长度,所述FShift为帧移;
分别对每一帧子离散音频信号进行所述傅里叶变换,以得到所述FN帧频域信号。
16.根据权利要求14所述的装置,其特征在于,
所述生成模块,包括:
第一转化子模块,用于对于每一帧频域信号,将所述频域信号转化为一个分贝数组;
第二转化子模块,用于对于每个分贝数组,将截取的前
Figure FDA0002779460390000061
个分贝数值归一化至[B,0]后,将归一化后的分贝数值转化为灰度值,得到一组灰度值数组,所述B为预设值;
第一确定子模块,用于基于每组灰度值数组,确定包含
Figure FDA0002779460390000062
个灰度值的一帧子频谱图;
拼接子模块,用于按照对应的离散音频信号的时序,将所有帧子频谱图进行拼接得到包含
Figure FDA0002779460390000063
个灰度值的所述频谱图,所述N为每个所述分贝数组包括的分贝数值的个数,所述FShift为帧移。
17.根据权利要求16所述的装置,其特征在于,
所述第一处理子模块,包括:
第二确定子模块,用于对于每个目标帧频域信号,确定1×N的一维矩阵,所述1×N的一维矩阵包括N个目标处理因子,所述目标帧频域信号为目标子频谱图对应的所述频域信号,所述目标子频谱图为所述频谱图中,所述涂抹操作所作用的子频谱图,所述目标处理因子反映对所述目标帧频域信号的处理强度;
第三确定子模块,用于将所述目标帧频域信号与所述1×N的一维矩阵中对应的目标处理因子的乘积确定为处理后的目标帧频域信号,所述处理后的所述FN帧频域信号包括所述处理后的目标帧频域信号。
18.根据权利要求17所述的装置,其特征在于,
所述第二处理子模块,用于:
分别对每个处理后的目标帧频域信号进行所述傅里叶逆变换,得到对应的目标子离散音频信号;
按照对应的子频谱图的时序,将所有目标子离散音频信号,以及其他子频谱图对应的子离散音频信号进行拼接得到目标离散音频信号,所述其他子频谱图为所述多帧子频谱图中除所述目标子频谱图之外的子频谱图;
将所述目标离散音频信号恢复得到所述目标音频信号。
19.根据权利要求17所述的装置,其特征在于,
所述第一确定子模块,用于:
对于每组灰度值数组,将所述灰度值数组进行转置和逆序后,复制所述FShift次,得到包含
Figure FDA0002779460390000071
个灰度值的一帧子频谱图;
所述第二确定子模块,包括:
生成子模块,用于对于每个所述目标子频谱图,生成
Figure FDA0002779460390000072
的矩阵,所述
Figure FDA0002779460390000073
的矩阵中的数值为与所述目标子频谱图的
Figure FDA0002779460390000074
个灰度值一一对应的最终处理因子,所述最终处理因子为反映对所述目标子频谱图的显示值的处理强度,所述显示值为灰度值或像素值;
求取子模块,用于求取所述
Figure FDA0002779460390000075
的矩阵中每行最终处理因子的平均值,得到
Figure FDA0002779460390000076
的一维矩阵;
第四确定子模块,用于分别基于每个所述
Figure FDA0002779460390000077
的一维矩阵,确定1×N的一维矩阵。
20.根据权利要求19所述的装置,其特征在于,
所述第四确定子模块,用于:
对于每个所述
Figure FDA0002779460390000078
的一维矩阵factor(n),确定1×N的一维矩阵fn(n),所述fn(n)满足:
Figure FDA0002779460390000079
时,fn(n)=factor(n);
Figure FDA00027794603900000710
时,fn(n)=factor(N-n+1),0≤n≤N-1。
21.根据权利要求12至20任一所述的装置,其特征在于,所述第一处理模块,还包括:
第五确定子模块,用于在确定与所述至少一个子区域一一对应的至少一个初始处理因子j之前,确定所述涂抹操作所作用的目标子频谱图;
第六确定子模块,用于在所述目标子频谱图上确定所述涂抹操作在所述目标子频谱图上的实际作用区域,所述实际作用区域包括所述至少一个子区域。
22.根据权利要求21所述的装置,其特征在于,
所述第四处理子模块,用于:
将所述实际作用区域的每个像素的显示值与对应的最终处理因子的乘积作为处理后的所述每个像素的显示值。
23.一种音频处理装置,其特征在于,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
显示初始音频信号对应的频谱图;
当检测到针对所述频谱图的涂抹操作后,基于所述涂抹操作,处理所述频谱图;
基于处理后的所述频谱图,确定目标音频信号;
显示处理后的所述频谱图;
播放所述目标音频信号;
其中,所述频谱图由多帧子频谱图组成,所述涂抹操作为针对目标子频谱图上至少一个子区域进行的操作,所述基于所述涂抹操作,处理所述频谱图,包括:
确定与所述至少一个子区域一一对应的至少一个初始处理因子j,0≤j≤1;
基于所述至少一个初始处理因子,确定至少一个最终处理因子,所述最终处理因子为反映对所述目标子频谱图的显示值的处理强度,且若所述最终处理因子为增强因子,则所述最终处理因子为1与所述初始处理因子之和;若所述最终处理因子为弱化因子,则所述最终处理因子为1与所述初始处理因子之差;所述显示值为灰度值或像素值;
基于每个最终处理因子对实际作用区域对应的子区域的显示值进行处理。
24.一种存储介质,其特征在于,所述存储介质中存储有指令,当所述存储介质在处理组件上运行时,使得处理组件执行如权利要求1至11任一所述的音频处理方法。
CN201810050792.1A 2018-01-18 2018-01-18 音频处理方法、装置及存储介质 Active CN108281152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810050792.1A CN108281152B (zh) 2018-01-18 2018-01-18 音频处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810050792.1A CN108281152B (zh) 2018-01-18 2018-01-18 音频处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN108281152A CN108281152A (zh) 2018-07-13
CN108281152B true CN108281152B (zh) 2021-01-12

Family

ID=62804083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810050792.1A Active CN108281152B (zh) 2018-01-18 2018-01-18 音频处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN108281152B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087634A (zh) * 2018-10-30 2018-12-25 四川长虹电器股份有限公司 一种基于音频分类的音质设置方法
CN110377212B (zh) * 2019-06-28 2021-03-16 上海元笛软件有限公司 通过音频触发显示的方法、装置、计算机设备和存储介质
CN112336370B (zh) * 2019-08-09 2022-07-05 深圳市理邦精密仪器股份有限公司 胎心音处理方法、装置、医疗设备及计算机存储介质
CN111710347B (zh) * 2020-04-24 2023-12-05 中科新悦(苏州)科技有限公司 音频数据分析方法、电子设备及存储介质
CN113891151A (zh) * 2021-09-28 2022-01-04 北京字跳网络技术有限公司 一种音频处理方法、装置、电子设备和存储介质
CN114338622A (zh) * 2021-12-28 2022-04-12 歌尔光学科技有限公司 一种音频传输方法、音频播放方法、存储介质及相关设备
CN114449339B (zh) * 2022-02-16 2024-04-12 深圳万兴软件有限公司 背景音效的转换方法、装置、计算机设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266003B1 (en) * 1998-08-28 2001-07-24 Sigma Audio Research Limited Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals
CN101345054B (zh) * 2008-08-25 2011-11-23 苏州大学 用于声频文件的数字水印制作及识别方法
CN101968963B (zh) * 2010-10-26 2012-04-25 安徽大学 音频信号压缩采样系统
CN104036775A (zh) * 2014-04-09 2014-09-10 天津思博科科技发展有限公司 一种视听融合的语音识别系统
CN104053120B (zh) * 2014-06-13 2016-03-02 福建星网视易信息系统有限公司 一种立体声音频的处理方法和装置
CN104464750B (zh) * 2014-10-24 2017-07-07 东南大学 一种基于双耳声源定位的语音分离方法
CN105590629B (zh) * 2014-11-18 2018-09-21 华为终端(东莞)有限公司 一种语音处理的方法及装置
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
CN106409301A (zh) * 2015-07-27 2017-02-15 北京音图数码科技有限公司 数字音频信号处理的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
采用2D-Haar声学特征超向量的快速特定音频识别方法;吕英 等;《声学学报》;20150930;第40卷(第5期);第739-750页 *

Also Published As

Publication number Publication date
CN108281152A (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
CN108281152B (zh) 音频处理方法、装置及存储介质
CN107978321B (zh) 音频处理方法及装置
CN108449641B (zh) 播放媒体流的方法、装置、计算机设备和存储介质
CN109994127B (zh) 音频检测方法、装置、电子设备及存储介质
US11315582B2 (en) Method for recovering audio signals, terminal and storage medium
CN109887494B (zh) 重构语音信号的方法和装置
CN110797042B (zh) 音频处理方法、装置及存储介质
CN109003621B (zh) 一种音频处理方法、装置及存储介质
CN109451248B (zh) 视频数据的处理方法、装置、终端及存储介质
CN112133332B (zh) 播放音频的方法、装置及设备
CN109243485B (zh) 恢复高频信号的方法和装置
CN109102811B (zh) 音频指纹的生成方法、装置及存储介质
CN109065068B (zh) 音频处理方法、装置及存储介质
CN109243479B (zh) 音频信号处理方法、装置、电子设备及存储介质
CN111586444B (zh) 视频处理方法、装置、电子设备及存储介质
CN111092991B (zh) 歌词显示方法及装置、计算机存储介质
CN110600034B (zh) 歌声生成方法、装置、设备及存储介质
CN113963707A (zh) 音频处理方法、装置、设备和存储介质
CN112508959A (zh) 视频目标分割方法、装置、电子设备及存储介质
CN109360577B (zh) 对音频进行处理的方法、装置存储介质
CN112133319A (zh) 音频生成的方法、装置、设备及存储介质
CN109360582B (zh) 音频处理方法、装置及存储介质
CN111860064A (zh) 基于视频的目标检测方法、装置、设备及存储介质
CN111916105B (zh) 语音信号处理方法、装置、电子设备及存储介质
CN111508513B (zh) 音频处理方法及装置、计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant