CN110580914A - 一种音频处理方法、设备及具有存储功能的装置 - Google Patents
一种音频处理方法、设备及具有存储功能的装置 Download PDFInfo
- Publication number
- CN110580914A CN110580914A CN201910673556.XA CN201910673556A CN110580914A CN 110580914 A CN110580914 A CN 110580914A CN 201910673556 A CN201910673556 A CN 201910673556A CN 110580914 A CN110580914 A CN 110580914A
- Authority
- CN
- China
- Prior art keywords
- audio
- preset
- audio signal
- sound
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 230000005236 sound signal Effects 0.000 claims abstract description 136
- 238000012545 processing Methods 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims abstract description 26
- 230000003595 spectral effect Effects 0.000 claims abstract description 22
- 238000010183 spectrum analysis Methods 0.000 claims abstract description 12
- 230000003313 weakening effect Effects 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 6
- 230000006386 memory function Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000003014 reinforcing effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
Abstract
本申请公开了音频处理方法、设备及具有存储功能的装置,该方法包括:获取音频文件;对音频文件进行频谱分析得到至少一个频谱特征,以在音频文件中识别出至少一个频谱特征对应的预设音频信号;对预设音频信号进行与其频谱特征相匹配的处理,以实现预设音频信号的增强或削弱。通过上述方式,本申请能够保持音质同时提高声音真实度。
Description
技术领域
本申请涉及音频技术领域,特别是涉及一种音频处理方法、设备及具有存储功能的装置。
背景技术
传统的游戏耳机、虚拟现实耳机、游戏音箱均是单纯在低频段加强灵敏度,同时削弱中高频的响度,提升低频量感和场景氛围。虽然由于很多场景的音频段主要集中在低频,听觉效果在一定程度上增强。但在对于存在多种类型的声音、音源繁杂的场景而言,未对不同的声音加详细区分,造成在该些场景对音频进行误处理,该增强的频段未见增强,不该增强的频段反而大幅增强,使得实际效果和氛围大打折扣。比如对于游戏场景而言,其在处理枪声,脚步声,打斗声,刀剑声,尖叫声等丰富的音频信号时,如果未对该些声音进行区分处理,使得游戏的音效混乱,会带来整体的音质变化,声音的真实性降低。
发明内容
本申请提供一种音频处理方法、设备及具有存储功能的装置,能够保持音质同时提高声音真实度。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种音频处理方法,包括:获取音频文件;对音频文件进行频谱分析得到至少一个频谱特征,以在音频文件中识别出至少一个频谱特征对应的预设音频信号;对预设音频信号进行与其频谱特征相匹配的处理,以实现预设音频信号的增强或削弱。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种音频处理设备,包括:相互连接的音频获取装置和处理器;所述音频获取装置用于获取音频文件;所述处理器用于执行指令以实现如上所述的方法。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种具有存储功能的装置,内部存储有程序指令,所述程序指令被执行以实现如上所述的方法。
本申请的有益效果是:区别于现有技术的情况,本申请获取音频文件后,通过对音频文件进行频谱分析得到至少一个频谱特征,如此可以能够对音频文件进行精细化地分析和提取,以在音频文件中识别出至少一个音频特征对应的预设音频信号,从而能够准确识别出预设音频信号,然后对预设音频信号进行与其频谱特征相匹配处理,以实现预设音频信号的增强或削弱,从而实现对音频文件中预设音频信号进行针对性的且与其频谱特征相匹配的增强或削弱,而不是单纯增加低频衰减中高频,如此保持音频信号的完整性,可以保持原有音频音质不变的同时,提高声音的真实性和增强声音氛围,实现高自由度、个性化的音频处理。
附图说明
图1是本申请音频处理方法实施例的第一流程示意图;
图2是本申请音频处理方法实施例中使用均衡器或数字信号处理器进行音频处理的流程示意图;
图3是本申请音频处理方法实施例中使用数字信号处理器和/或现场可编程门阵列进行音频处理的流程示意图;
图4是本申请音频处理方法实施例的第二流程示意图;
图5是本申请音频处理方法实施例的第三流程示意图;
图6是本申请音频处理方法实施例的第四流程示意图;
图7是本申请音频处理方法实施例的第五流程示意图;
图8是本申请音频处理设备一实施例的结构示意图;
图9是本申请具有存储功能的装置一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,本申请音频处理方法实施例包括:
S11:获取音频文件。
其中,该音频文件可以是社交、影音、游戏等软件产生的音频文件,其可以包括某些特定音频内容,例如对于游戏场景中所产生的包括枪声、脚步声、刀剑、动作或特殊背景的声音文件。当然,音频文件还可以是用户自行录制的音频文件,或者是用户互联网等获取音频文件,在本实施例中不做具体限定。具体可以通过数据传输接口利用有线或无线等方式从数据源(例如游戏源)获取该音频文件。
S12:对音频文件进行频谱分析得到至少一个频谱特征,以在所述音频文件中识别出至少一个频谱特征对应的预设音频信号。
由于同一时间可能产生多种不同声音,因此从时域上对音频信号进行分析比较复杂,而不同类型的声音其频率往往不同,因此从频域上对音频信号进行分析往往比较简单快捷。
在一个实施方式中,预设音频信号可以具有相应的声音类型,比如对于游戏场景而言,枪声、脚步声、背景音乐等都可以认为是不同的声音类型,可以通过预设音频信号对应的频谱特征识别出与频谱特征相匹配的声音类型。例如可以包括如下步骤:
S121:获取音频文件的频谱信息。其中,该频谱信息是音频文件中的音频信号对应的频谱信号。
S122:从频谱信息中分析得到音频信号的频谱特征,并根据频谱特征得到对应的预设音频信号及其所属声音类型。
其中,频谱特征包括音频信号的集中频段、峰值等。
具体地,获取音频文件后,可以将时域音频信号转换为频域音频信号,例如采用傅里叶变换进行信号转换,然后在频域上进行信号分析,可以发现信号集中频段区域、峰值等特征,从而可以从该音频信号中得到需要进行处理的预设的声音类型,也即得到该声音类型的预设音频信号,例如采用滤波器对音频信号进行滤波得到所需的信号。
同时,通过对音频信号进行频域分析后可以发现,枪声主要集中在60-150Hz的频率段,其峰值大都在70Hz、100Hz和150Hz,针对不同种类的枪声信号进行进一步的归类分析,可以得到狙击枪,突击步枪,手枪等不同种类的枪声;而脚步声频率主要集中在90-200Hz之间,其中峰值频率在100Hz、130Hz和170Hz等,进一步分析细化,可以区分跑步,跳步,走步的不同频谱,依次类推,可以分析出动作,刀剑,尖叫和特殊背景的不同频谱。
在又一实施方式中,也可以通过训练一个或多个声音识别模型,直接识别出音频文件中的预设音频信号所属的声音类型以及类型标签。具体如图3所示,步骤S12可以包括:
S123:将音频文件输入声音识别模型中,以识别出预设音频信号所属的声音类型对应的类型标签。其中,在该声音识别模型中,相同的声音类型对应至少一个类型标签,不同的声音类型对应不同的类型标签。例如声音类型为枪声,但是枪声可以具有多个类型标签,比如室内枪声和室外枪声。枪声和脚步声属于不同的声音类型,其对应的类型标签不同。
S124:输出具有类型标签的预设音频信号。
其中,该声音识别模型是基于机器学习或深度学习的神经网络模型,其可以基于频谱分析对音频信号进行识别。该声音识别模型可以是训练好的用于识别某个声音类型的音频信号的模型,例如用于识别不同类型标签的枪声的模型(即可以是识别不同种类的枪声的模型)。当然,该声音识别模型也可以是训练好的用于区分多种声音类型的音频信号的模型,例如用于区分枪声、脚步声、刀剑、尖叫和特殊背景等多种声音类型的模型。
该类型标签是用于标识该预设音频信号所属的声音类型的具体类型,同一声音类型至少对应一个类型标签,不同声音类型具有不同的类型标签。比如AKM的枪声与AWM的枪声属于同一声音类型,但可以预设两者为不同的类型标签。
具体地,在一个应用例中,该声音识别模型是用于识别不同种类的枪声的模型,例如识别玩家自己打出去的枪声,队友或敌人打出去的枪声,远距离及近距离的枪声,室内,户外及空旷地点,拥挤建筑地点等的枪声。音频文件输入该声音识别模型后,该声音识别模型可以自动识别出该音频文件中的音频信号中是否包含枪声或者直接判断该音频信号是枪声还是脚步声等声音类型,并进一步识别出是对应哪种类型标签的枪声或脚步声,并获取对应内容的音频信号插入对应的类型标签后输出,以便后续进行音频处理。
S13:对预设音频信号进行与其频谱特征相匹配的处理,以实现预设音频信号的增强或削弱。
为了达到较好的音效,提高声音的真实感,保持较好的音质,需要对音频信号进行增强或削弱处理。
在一个应用例中,若该音频文件在同一时间存在枪声和脚步声两种声音,通过频域分析得到两个预设音频信号分别为枪声信号和脚步声信号,此时可以对枪声信号进行增强,对脚步声信号进行削弱,或者同时对两种信号进行增强,但增强幅度不同,从而使得声音区别较大,提高声音真实性,而不是单纯增加低频衰减中高频,同时可以保持音频信号的完整性,增强声音氛围。在本实施例中,可以提前预设不同的频谱特征对应不同的处理方式,识别出预设音频信号后,可以进行与其频谱特征相匹配的处理,便于对音频信号进行个性化处理,使其更贴近使用场景。
可选地,为了提升音频调整的速度,实现自动调整,可以利用预先设定不同声音类型对应的音频调整参数对音频信号进行调整。具体如图2所示,步骤S13可以包括:
S131:获取与预设音频信号所属的声音类型相匹配的音频调整参数。
其中,该音频调整参数包括EQ(Equalizer或Equalisation,均衡器)值或DSP(Digital Signal Processing,数字信号处理)调试参数等。
具体地,每个声音类型预先设置有对应的一组音频调整参数,例如调节的频段、频点、增益和品质因数Q值等。该声音类型与对应的音频调整参数可以预先保存在音频处理设备的内部,例如内存中。获取预设音频信号的声音类型后,即可以从内存中查找对应的音频调整参数。
S132:按该音频调整参数对预设音频信号进行相对应的音频处理。
例如,可以利用均衡器或数字信号处理器对预设音频信号进行音频处理。均衡器EQ和数字信号处理器DSP均是音频处理设备,可以对音频信号进行信号处理。获取该预设音频信号对应的音频调整参数后,EQ或DSP即可以根据该音频调整参数对预设音频信号进行自动调整,从而实现对该预设音频信号的增强或削弱。
可选地,在预先设定调整参数时,可以预先通过采集大量不同声音类型的音频文件进行分析,寻找规律后设置对应的调整参数。具体如图2所示,步骤S11之前,包括:
S101:录制多个音频样本文件。
其中,该多个音频样本文件可以包括多个包括多种声音类型的音频文件。每种声音类型的音频信号收集数量根据时域或频域信号的特征性决定,可以在1800-2500之间,例如2000。
对于游戏领域而言,可以选择多个特定游戏,录制每个游戏里不同场景的音频文件,从而可以得到不同种类的枪声、不同人的说话声、不同类型的脚步声、不同动作、不同类型的刀剑、不同人的尖叫和特殊背景等多种类型声音的音频文件。
S102:对多个音频样本文件进行频谱分析,以得到每种声音类型对应的频谱特征,并根据频谱特征设置对应的音频调整参数,将该音频调整参数存入均衡器或数字信号处理器中。
其中,该频谱特征包括每种类型声音的频段范围、频率峰值、幅值变化等。
具体地,将音频样本文件中的时域音频信号通过傅里叶变化可以转换为对应的频域信号,然后对相同声音类型的音频信号进行频谱分析,可以发现每种声音类型所处的频段范围、峰值等频谱特征,然后根据每种声音类型对应的频谱特征,设置对应的EQ值或DSP调试参数,将其存入EQ或DSP中,即可在后续遇到对应声音类型的音频信号时直接调取对应的音频调整参数进行调整,有利于提高音频处理速度,实现自动化处理。
可选地,当采用声音识别模型获取某声音类型的音频信号及其对应类型标签后,可以根据该类型标签获取对应的调整参数进行音频调整。具体如图3所示,步骤S13可以包括:
S133:获取与类型标签匹配的音频调整参数。
其中,音频处理设备内部预先存储有不同类型标签对应的音频调整参数。该音频调整参数是音频处理设备DSP和/或FPGA(Field Programmable Gate Array,现场可编程门阵列)的调试参数,可以包括调节的频段、频点、带宽、增益和品质因数Q值等。该类型标签是由声音识别模型识别后产生的,每种类型标签表示一种声音的具体类型,例如类型标签A***表示枪声,其中类型标签A001表示狙击枪、A002表示手枪等。
S134:利用数字信号处理器和/或现场可编程门阵列按音频处理参数对预设音频信号进行音频处理。
具体地,当通过声音识别模型获取对应的类型标签后,DSP和/或FPGA可以查找内存,获取该类型标签对应的音频调整参数,然后根据该音频调整参数自动对预设音频信号进行音频处理,例如将音频带宽缩短一半等,从而实现对音频信号的增强或削弱,增强音效,保证音质。
当然,在本实施例中,音频调整参数或调整参数也可以保存在外部存储设备中,需要使用时进行读取即可。
可选地,在使用声音识别模型自动识别音频信号前,首先需要训练声音识别模型。具体如图3所示,步骤S11之前,包括:
S101:录制多个音频样本文件。
其中,该多个音频样本文件可以包括多个包括多种声音类型的音频文件。每种类型的音频信号收集数量根据时域或频域信号的特征性决定,可以在1800-2500之间,例如2000。
具体地,可以选择多个特定游戏,录制每个游戏里不同场景的音频文件,从而可以得到不同类型标签的枪声、不同人的说话声、不同类型标签的脚步声、不同动作、不同类型标签的刀剑声、不同人的尖叫和特殊背景等多种声音类型的音频文件。以枪声为例,可以收集玩家自己打出去的枪声,队友或敌人打出去的枪声,远距离及近距离的枪声,室内,户外及空旷地点,拥挤建筑地点等的枪声作为样本。
S103:利用多个音频样本文件训练声音识别模型,以使得声音识别模型可区分不同声音类型和/或不同类型标签的音频信号,并将训练好的声音识别模型写入微处理器或现场可编程门阵列中。
具体地,首先可以设定一个初始模型,然后利用音频样本文件对该初始模型的参数进行迭代调整,当迭代次数或模型的损失函数达到要求时,训练结束。训练完成后检测模型的准确率,即可以实时获取多个音频文件输入该训练好的模型进行识别,若该模型达到预期的训练目标,即识别准确率达到预期目标后,将该声音识别模型形成算法写进MCU(Microcontroller Unit,微处理器)或FPGA中。由此,通过MCU与DSP一起联动工作,MCU负责不同音频内容的判断,比如判断到底是枪声还是脚步声,也即获取声音类型,可以进一步判断是什么种类的枪声,也即获取相应的类型标签,根据不同的类型标签的调整方式,指挥DSP进行不同频率段的音频增强或者削弱。也可以通过FPGA或FPGA+DSP进行同样的音频内容判断和增强,削弱处理。
进一步地,训练的声音识别模型还可以用于区分细微差异的同一声音类型的音频信号,比如细微枪声或脚步声等,针对不同的枪声或脚步声量感设置不同的增益数值,对不同的枪声或脚步声进行增益调整,从而可以实现听音辩位目的,进一步提高声音的真实度,增强音效。
本实施例中,可以通过上述方式训练多个类型的识别模型,用于识别不同类型的声音,例如识别枪声、脚步声、动作及刀剑、背景声等多种需要加强或削弱的部分音频信号的识别模型。
在其他实施例中,针对具有左右声道的音频信号,可以增强左右声道的区别,以达到增强音效的目的。
本申请音频处理方法本申请音频处理方法实施例还可以进一步进行左右声道的音频处理,具体如图4所示,例如进一步限定在步骤S12之后包括:
S21:识别预设音频信号的左右声道信号。
具体地,对音频文件中的音频信号进行频谱分析,根据频谱特征和相位信息等,可以区分得到左右声道信号。
例如利用数字信号处理器和/或现场可编程门阵列对左右声道信号中的至少一者进行增强或者削弱处理。当然,也可以通过如下方式进行处理。
S22:将左右声道信号进行比较,得到左右声道信号之间的区别大于预设信号范围的音频区域。
其中,该预设信号范围可以是信号幅值差异为预设幅值差异所对应的信号范围。当左右声道信号的幅值差异小于或等于预设幅值差异的音频区域,不需要进行调整。左右声道信号之间的幅值差异大于预设幅值差异的音频区域,需要进行调整,例如增强或削弱。
通常左右声道信号,也即左右声道的音频信号具有一定差异性,通过将两个声道的音频信号的幅度进行比较,可以得到两个声道音频信号幅值差异较大的区域。
S23:利用均衡器或数字信号处理器对该音频区域进行增强,以突出左右的方位感。
具体地,可以使用音频处理设备,例如EQ或DSP,对处于该音频区域的左右声道信号进行调整,例如对左声道信号进行增强,同时对右声道进行削弱,或者对右声道进行增强,同时对左声道进行削弱,又或者两个声道均进行增强/削弱,只是幅度不同,从而达到将左右声道信号差异进一步增强,以突出左右方位感。
在其他实施例中,也可以直接采用训练好的声音识别模型识别左右声道信号。
本申请音频处理方法本申请音频处理方法对于区分左右声道信号而言,可以训练形成一个声道识别模型,然后进行相应的识别操作,具体如图5所示,例如进一步限定步骤S12之后包括:
S31:将音频文件输入声道识别模型中,以区分预设音频信号的左右声道信号。
其中,该声道识别模型是预先训练好的用于识别音频文件中的左右声道信号的模型。具体可以通过收集多种左右声道信号,通过机器学习或深度学习的方法训练模型,从而得到识别准确率符合要求的模型。然后,将音频文件输入该声道识别模型中,该模型即可以自动识别并区分该音频文件中的左右声道音频信号。其中,该声道识别模型训练完成后即可以形成算法嵌入MCU或FPGA中,以便后续结合DSP或直接对音频信号进行处理。
S32:利用数字信号处理器和/或现场可编程门阵列对左右声道中至少一个声道的音频信号进行增强或削弱处理,以突出左右的方位感。
具体地,可以采用MCU+DSP,FPGA或FPGA+DSP的方式,使用数字信号处理器DSP或者现场可编程门阵列FPGA,增强或削弱相应声道信号的音频内容,例如对左声道信号进行增强,同时对右声道信号进行削弱,或者对右声道信号进行增强,同时对左声道信号进行削弱,又或者两个声道信号均进行增强/削弱,只是幅度不同,从而使左右的方位感更突出。
在其他实施例中,为了进一步增强音效和方位感,可以对音频文件进行处理实现环绕声,然后在对特定方位信号进行增强或削弱。具体如图6所示,本申请音频处理方法本申请音频处理方法例如进一步限定步骤S12之后包括:
S41:对音频文件进行环绕声处理,以识别出预设音频信号的各方位音频信号。
环绕声指人类听觉对空间声源位置的全空间立体感知。环绕声具有音响空间感。实现环绕声可以利用对该音频文件中的左右声道音频信号的各频率成分的音量与相位分别进行调节,在正面不同的位置上出现心理上的“声像”,同时再增加两个置于背后的音频信号,在背后不同的位置上也出现心理上的“声像”,最终形成全方位的空间立体感。当然,在本实施例中,可以识别出整个音频文件的各方位音频信号。
S42:对各方位音频信号中的至少一个方位音频信号的增强和/或削弱处理。
具体地,可以将音频文件输入至音频处理模型中,该音频处理模型是预先利用机器学习或深度学习的方法训练好的模型,其可以对音频信号进行方位识别,并对特定方位的音频信号进行增强和/或削弱处理。
例如,对于某个方位的音频信号,其距离较远,此时可以使用该音频处理模型直接对该方位的信号进行削弱,或者某个方位的信号为特殊类型的信号(例如枪声),此时可以使用该音频处理模型直接对该方位的信号进行增强。
由此可以在实现环绕声的基础上,利用机器学习或深度学习的方法训练的模型,增强或削弱不同方位的音频内容,使得用户可以有效辨别队友或敌人方位,实现更真实的听音辩位。
在其他实施例中,还可以根据不同人群所喜好的音频风格调整音频信号,以匹配不同人群。如图7所示,本申请音频处理方法本申请音频处理方法例如进一步限定步骤S13包括:
S51:获取与当前用户相匹配的音频调整模型。
其中,该音频调整模型是按当前用户预设的音频处理方式预先训练好的深度学习或机器学习或深度优化模型,也即该音频调整模型可将预设音频信号调整为当前用户预设的、习惯的或者喜好的音频风格。
具体地,玩家或用户通过试听不同的游戏氛围声,挑出喜欢的音频样式,然后以该挑选出的音频样式作为目标样式,对输入的不同音频样本文件进行学习训练,可以得到该音频调整模型。该音频调整模型可以将输入音频信号进行调整,即自动调整增益或削弱的参数,使得输入的预设音频信号符合目标音频样式。其中,可以训练与用户一一匹配的多个模型,需要是获取与当前用户相匹配的音频调整模型即可。
当然,也可以训练一个模型可以实现匹配不同用户和对应的调整参数,从而实现不同人群匹配不同游戏音频风格的目的。
S52:在音频调整模型中识别出与预设音频信号的频谱特征相匹配的处理方式,按该处理方式对预设音频信号进行增强或削弱处理。
该音频调整模型可以预先内置在音频处理设备,例如MCU、DSP、或FPGA内,当将预设音频信号输入该音频调整模型后,该音频调整模型即会根据当前用户预设的音频风格与预设音频信号的差异,确定音频调整参数,并自动对预设音频信号进行增强或削弱处理,从而使得输出的音频信号符合当前用户预设的或者喜好的音频风格,实现定制用户喜好的游戏音频内容的目的。
如图8所示,本申请一种音频处理设备一实施例中,音频处理设备100包括:相互连接的音频获取装置110和处理器120。
该音频获取装置110用于获取音频文件。其中,该音频获取装置110可以是输入/输出接口,也可以是天线电路,还可以是存储器。
处理器120还可以称为CPU(Central Processing Unit,中央处理单元)。处理器120可能是一种集成电路芯片,具有信号的处理能力。处理器120还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该处理器120用于执行指令以实现如本申请音频处理方法实施例或其不冲突的组合所提供的方法。
该音频处理设备100可以是耳机、音箱、手机、电脑等设备,也可以是集成与上述设备的部分,例如声卡等。
本实施例中,音频处理设备获取音频文件后,通过对音频文件进行频谱分析,得到音频文件中的预设音频信号,然后对预设音频信号进行处理,以实现预设音频信号的增强或削弱,从而实现对音频文件中预设音频信号进行针对性的增强或削弱,而不是单纯增加低频衰减中高频,保持音频信号的完整性,可以保持原有音频音质不变的同时,提高声音的真实性和增强声音氛围。
如图9所示,本申请一种具有存储功能的装置一实施例中,该具有存储功能的装置200存储有处理器可运行的程序指令210,该程序指令210用于执行以实现如本申请音频处理方法第一至第五任一实施例或其不冲突的组合所提供的方法。
该具有存储功能的装置200具体可以为U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储程序指令的介质,或者也可以为存储有该程序指令的服务器,该服务器可将存储的程序指令发送给其他设备运行,或者也可以自运行该存储的程序指令。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种音频处理方法,其特征在于,包括:
获取音频文件;
对所述音频文件进行频谱分析得到至少一个频谱特征,以在所述音频文件中识别出所述至少一个频谱特征对应的预设音频信号;
对所述预设音频信号进行与其频谱特征相匹配的处理,以实现所述预设音频信号的增强或削弱。
2.根据权利要求1所述的方法,其特征在于,所述对所述音频文件进行频谱分析得到至少一个频谱特征,以在所述音频文件中识别出所述至少一个频谱特征对应的预设音频信号包括:
通过所述预设音频信号对应的频谱特征识别出与所述频谱特征相匹配的声音类型;
所述对所述预设音频信号进行与其频谱特征相匹配的处理包括:
获取与所述预设音频信号所属的声音类型相匹配的音频调整参数;
按所述音频调整参数对所述预设音频信号进行相对应的音频处理。
3.根据权利要求2所述的方法,其特征在于,所述通过所述预设音频信号对应的频谱特征识别出与所述频谱特征相匹配的声音类型包括:
将所述音频文件输入声音识别模型中,以识别出与所述预设音频信号所属的声音类型对应的类型标签;其中,在所述声音识别模型中,相同的所述声音类型对应至少一个所述类型标签,不同的所述声音类型对应不同的所述类型标签。
4.根据权利要求3所述的方法,其特征在于,所述获取与所述预设音频信号所属的声音类型相匹配的音频调整参数包括:
获取与所述类型标签匹配的所述音频调整参数;
所述按所述音频调整参数对所述预设音频信号进行相对应的音频处理包括:
利用数字信号处理器和/或现场可编程门阵列按所述音频调整参数对所述预设音频信号进行音频处理。
5.根据权利要求3或4所述的方法,其特征在于,所述获取音频文件之前,包括:
录制多个音频样本文件,所述音频样本文件包括多个所述音频文件所述音频文件中包括多种声音类型;
对所述多个音频样本文件进行频谱分析,以得到每种所述声音类型对应的频谱特征,并根据所述频谱特征设置对应的所述音频调整参数,将所述音频调整参数存入均衡器或数字信号处理器中;或者,
利用所述多个音频样本文件训练声音识别模型,以使得所述声音识别模型用于区分不同声音类型的音频信号,并将训练好的所述声音识别模型写入微处理器或现场可编程门阵列中。
6.根据权利要求1所述的方法,其特征在于,
所述在所述音频文件中识别出所述至少一个频谱特征对应的预设音频信号之后进一步包括:
识别所述预设音频信号的左右声道信号;
利用数字信号处理器和/或现场可编程门阵列对所述左右声道信号中的至少一者进行增强或者削弱处理;或者,
将所述左右声道信号进行比较,得到所述左右声道信号之间的区别大于预设信号范围的音频区域,并对所述音频区域进行增强处理。
7.根据权利要求1所述的方法,其特征在于,
所述在所述音频文件中识别出所述至少一个频谱特征对应的预设音频信号之后包括:
对所述预设音频信号进行环绕声识别处理,以识别出所述预设音频信号的各方位音频信号;
对所述各方位音频信号中的至少一个方位音频信号进行增强或削弱处理。
8.根据权利要求1所述的方法,其特征在于,
对所述预设音频信号进行与其频谱特征相匹配的处理,以实现所述预设音频信号的增强或削弱包括:
获取与当前用户相匹配的音频调整模型,其中所述音频调整模型是按所述当前用户预设的音频处理方式预先训练好的深度学习或机器学习模型;
在所述音频调整模型中识别出与所述预设音频信号的频谱特征相匹配的处理方式,按所述处理方式对所述预设音频信号进行增强或削弱处理。
9.一种音频处理设备,其特征在于,包括:相互连接的音频获取装置和处理器;
所述音频获取装置用于获取音频文件;
所述处理器用于执行指令以实现如权利要求1-8任一项所述的方法。
10.一种具有存储功能的装置,内部存储有程序指令,其特征在于,所述程序指令被执行以实现如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910673556.XA CN110580914A (zh) | 2019-07-24 | 2019-07-24 | 一种音频处理方法、设备及具有存储功能的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910673556.XA CN110580914A (zh) | 2019-07-24 | 2019-07-24 | 一种音频处理方法、设备及具有存储功能的装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110580914A true CN110580914A (zh) | 2019-12-17 |
Family
ID=68810459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910673556.XA Pending CN110580914A (zh) | 2019-07-24 | 2019-07-24 | 一种音频处理方法、设备及具有存储功能的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110580914A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111081275A (zh) * | 2019-12-20 | 2020-04-28 | 惠州Tcl移动通信有限公司 | 基于声音分析的终端处理方法、装置、存储介质及终端 |
CN111613237A (zh) * | 2020-04-26 | 2020-09-01 | 深圳市艾特智能科技有限公司 | 一种音频处理方法 |
CN112259122A (zh) * | 2020-10-20 | 2021-01-22 | 北京小米松果电子有限公司 | 音频类型识别方法、装置及存储介质 |
CN112803828A (zh) * | 2020-12-31 | 2021-05-14 | 上海艾为电子技术股份有限公司 | 一种马达控制方法、控制系统和控制芯片 |
CN114449339A (zh) * | 2022-02-16 | 2022-05-06 | 深圳万兴软件有限公司 | 背景音效的转换方法、装置、计算机设备及存储介质 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101695151A (zh) * | 2009-10-12 | 2010-04-14 | 清华大学 | 多声道音频信号变换为双声道音频信号的方法和设备 |
CN101771814A (zh) * | 2009-12-29 | 2010-07-07 | 天津市亚安科技电子有限公司 | 具有声音识别定位功能的云台摄像机 |
CN103546617A (zh) * | 2013-10-21 | 2014-01-29 | 深圳市金立通信设备有限公司 | 一种声音调节的方法及终端 |
CN104969289A (zh) * | 2013-02-07 | 2015-10-07 | 苹果公司 | 数字助理的语音触发器 |
CN105452822A (zh) * | 2013-06-05 | 2016-03-30 | 三星电子株式会社 | 声事件检测装置和操作其的方法 |
CN105632508A (zh) * | 2016-01-27 | 2016-06-01 | 广东欧珀移动通信有限公司 | 音频处理方法及音频处理装置 |
CN105788172A (zh) * | 2016-05-25 | 2016-07-20 | 浙江大学 | 基于物联网的室内老年人监护系统及方法 |
CN106034274A (zh) * | 2015-03-13 | 2016-10-19 | 深圳市艾思脉电子股份有限公司 | 基于声场波合成的3d音响装置及其合成方法 |
CN106062746A (zh) * | 2014-01-06 | 2016-10-26 | 哈曼国际工业有限公司 | 用于用户可控制的听觉环境定制的系统和方法 |
CN106126163A (zh) * | 2016-06-16 | 2016-11-16 | 广东欧珀移动通信有限公司 | 一种调整音效的方法及终端 |
CN106291469A (zh) * | 2016-10-18 | 2017-01-04 | 武汉轻工大学 | 一种三维空间音源定位方法及系统 |
CN107331403A (zh) * | 2017-06-27 | 2017-11-07 | 深圳创维-Rgb电子有限公司 | 一种基于算法的音频优化方法、智能终端及存储装置 |
CN109107158A (zh) * | 2018-09-04 | 2019-01-01 | Oppo广东移动通信有限公司 | 音效处理方法、装置以及电子设备 |
CN109147804A (zh) * | 2018-06-05 | 2019-01-04 | 安克创新科技股份有限公司 | 一种基于深度学习的音质特性处理方法及系统 |
CN109165005A (zh) * | 2018-09-04 | 2019-01-08 | Oppo广东移动通信有限公司 | 音效增强方法、装置、电子设备及存储介质 |
CN109271126A (zh) * | 2018-08-02 | 2019-01-25 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
CN109271128A (zh) * | 2018-09-04 | 2019-01-25 | Oppo广东移动通信有限公司 | 音效设置方法、装置、电子设备及存储介质 |
CN110019931A (zh) * | 2017-12-05 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 音频分类方法、装置、智能设备和存储介质 |
-
2019
- 2019-07-24 CN CN201910673556.XA patent/CN110580914A/zh active Pending
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101695151A (zh) * | 2009-10-12 | 2010-04-14 | 清华大学 | 多声道音频信号变换为双声道音频信号的方法和设备 |
CN101771814A (zh) * | 2009-12-29 | 2010-07-07 | 天津市亚安科技电子有限公司 | 具有声音识别定位功能的云台摄像机 |
CN104969289A (zh) * | 2013-02-07 | 2015-10-07 | 苹果公司 | 数字助理的语音触发器 |
CN105452822A (zh) * | 2013-06-05 | 2016-03-30 | 三星电子株式会社 | 声事件检测装置和操作其的方法 |
CN103546617A (zh) * | 2013-10-21 | 2014-01-29 | 深圳市金立通信设备有限公司 | 一种声音调节的方法及终端 |
CN106062746A (zh) * | 2014-01-06 | 2016-10-26 | 哈曼国际工业有限公司 | 用于用户可控制的听觉环境定制的系统和方法 |
CN106034274A (zh) * | 2015-03-13 | 2016-10-19 | 深圳市艾思脉电子股份有限公司 | 基于声场波合成的3d音响装置及其合成方法 |
CN105632508A (zh) * | 2016-01-27 | 2016-06-01 | 广东欧珀移动通信有限公司 | 音频处理方法及音频处理装置 |
CN105788172A (zh) * | 2016-05-25 | 2016-07-20 | 浙江大学 | 基于物联网的室内老年人监护系统及方法 |
CN106126163A (zh) * | 2016-06-16 | 2016-11-16 | 广东欧珀移动通信有限公司 | 一种调整音效的方法及终端 |
CN106291469A (zh) * | 2016-10-18 | 2017-01-04 | 武汉轻工大学 | 一种三维空间音源定位方法及系统 |
CN107331403A (zh) * | 2017-06-27 | 2017-11-07 | 深圳创维-Rgb电子有限公司 | 一种基于算法的音频优化方法、智能终端及存储装置 |
CN110019931A (zh) * | 2017-12-05 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 音频分类方法、装置、智能设备和存储介质 |
CN109147804A (zh) * | 2018-06-05 | 2019-01-04 | 安克创新科技股份有限公司 | 一种基于深度学习的音质特性处理方法及系统 |
CN109271126A (zh) * | 2018-08-02 | 2019-01-25 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
CN109107158A (zh) * | 2018-09-04 | 2019-01-01 | Oppo广东移动通信有限公司 | 音效处理方法、装置以及电子设备 |
CN109165005A (zh) * | 2018-09-04 | 2019-01-08 | Oppo广东移动通信有限公司 | 音效增强方法、装置、电子设备及存储介质 |
CN109271128A (zh) * | 2018-09-04 | 2019-01-25 | Oppo广东移动通信有限公司 | 音效设置方法、装置、电子设备及存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111081275A (zh) * | 2019-12-20 | 2020-04-28 | 惠州Tcl移动通信有限公司 | 基于声音分析的终端处理方法、装置、存储介质及终端 |
CN111613237A (zh) * | 2020-04-26 | 2020-09-01 | 深圳市艾特智能科技有限公司 | 一种音频处理方法 |
CN112259122A (zh) * | 2020-10-20 | 2021-01-22 | 北京小米松果电子有限公司 | 音频类型识别方法、装置及存储介质 |
CN112803828A (zh) * | 2020-12-31 | 2021-05-14 | 上海艾为电子技术股份有限公司 | 一种马达控制方法、控制系统和控制芯片 |
CN112803828B (zh) * | 2020-12-31 | 2023-09-01 | 上海艾为电子技术股份有限公司 | 一种马达控制方法、控制系统和控制芯片 |
CN114449339A (zh) * | 2022-02-16 | 2022-05-06 | 深圳万兴软件有限公司 | 背景音效的转换方法、装置、计算机设备及存储介质 |
CN114449339B (zh) * | 2022-02-16 | 2024-04-12 | 深圳万兴软件有限公司 | 背景音效的转换方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110580914A (zh) | 一种音频处理方法、设备及具有存储功能的装置 | |
CN105512348B (zh) | 用于处理视频和相关音频的方法和装置及检索方法和装置 | |
US20200186912A1 (en) | Audio headset device | |
EP4011099A1 (de) | System und verfahren zur unterstützung von selektivem hören | |
CN108159702B (zh) | 基于多人语音游戏处理方法和装置 | |
JP2020515905A (ja) | 話者の確認方法及び話者の確認装置 | |
US20230064627A1 (en) | Extraction and classification of audio events in gaming systems | |
CN114067827A (zh) | 一种音频处理方法、装置及存储介质 | |
CN113439447A (zh) | 使用深度学习图像分析的房间声学仿真 | |
CN111640411A (zh) | 音频合成方法、装置及计算机可读存储介质 | |
US20230290382A1 (en) | Method and apparatus for matching music with video, computer device, and storage medium | |
CN109903748A (zh) | 一种基于自定义语音库的语音合成方法及装置 | |
JP7453712B2 (ja) | オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器 | |
Slizovskaia et al. | Musical instrument recognition in user-generated videos using a multimodal convolutional neural network architecture | |
KR102062454B1 (ko) | 음악 장르 분류 장치 및 방법 | |
CN110853606A (zh) | 一种音效配置方法、装置及计算机可读存储介质 | |
CN112165591B (zh) | 一种音频数据的处理方法、装置及电子设备 | |
EP4189974A2 (de) | System und verfahren zur kopfhörerentzerrung und raumanpassung zur binauralen wiedergabe bei augmented reality | |
CN110536225B (zh) | 数据处理装置及数据处理方法 | |
CN112420063A (zh) | 一种语音增强方法和装置 | |
CN110049409B (zh) | 用于全息影像的动态立体声调节方法及装置 | |
CN113689873A (zh) | 噪声抑制方法、装置及电子设备和存储介质 | |
DE112020005717T5 (de) | Erkennung von live-sprache | |
CN105827829A (zh) | 收音方法及电子设备 | |
CN106200930B (zh) | 一种增强现实的控制方法、装置及移动终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191217 |