CN116705060A - 一种基于神经算法多源音频特征的智能仿真方法和系统 - Google Patents
一种基于神经算法多源音频特征的智能仿真方法和系统 Download PDFInfo
- Publication number
- CN116705060A CN116705060A CN202310476734.6A CN202310476734A CN116705060A CN 116705060 A CN116705060 A CN 116705060A CN 202310476734 A CN202310476734 A CN 202310476734A CN 116705060 A CN116705060 A CN 116705060A
- Authority
- CN
- China
- Prior art keywords
- audio
- audio source
- simulation model
- pitch
- simulation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004088 simulation Methods 0.000 title claims abstract description 301
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 53
- 230000001537 neural effect Effects 0.000 title claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 230000002829 reductive effect Effects 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 238000011157 data evaluation Methods 0.000 claims description 10
- 238000000926 separation method Methods 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 230000001174 ascending effect Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 4
- 230000005540 biological transmission Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明请求保护一种基于神经算法多源音频特征的智能仿真方法和系统,通过采集仿真音频源数据,基于高斯神经网络方法提取出当前帧的识别用户,采集质量等级音频帧并计算预先选定的音高中心和中断片段内的实时平均用户元数据信息作为确定仿真模型召回度信息的依据,之后确定仿真模型的实时召回度结合仿真模型的实时召回度的自适应调整策略,匹配仿真模型与音频源数据的相应位置;最终音频源乐器的周期管理器通过定时信号反馈音频源乐器并存储在音频接收器端的音频源乐器白名单库中。该方案通过准确的音频帧识别和质量性能值粗细结合识别出不同等级的音频源乐器内容,达到自适应音频源乐器等级准确收集音频源乐器的效果。
Description
技术领域
本发明涉及用户识别技术及多媒体技术领域,具体为一种基于神经算法多源音频特征的智能仿真方法和系统。
背景技术
21世纪是网络高速发展的时代,随着互联网的普及,利用网络传输音频信号的需求也越来越大。流媒体技术的出现,在一定程度上使互联网传输音频难的局面得到改善,其将过去传统媒体的“推”式传播,变为受众的“拉”式传播与实时传播。由于流媒体技术在一定程度上突破了网络带宽对多媒体信息传输的限制,因此被广泛运用于网上直播、网络会议、远程教育及企业培训等多种领域。为了更好的进行流媒体的传输,通常需要对于流媒体质量进行评测,同时也对流媒体音频的质量评测提出了新的挑战。
现有的仿真方法由于必须在特定的时间和地点集中进行测试,对受测者的时间安排和所在地理位置上都做出了一定限制,选择的受测者不能够覆盖应有的构成成分。同时由于整个实验持续时间不可过长,受测总人数有较大限制,使得主观仿真不能够得到足够的可用数据。目前对受测者的资格认证需要人工进行,可能出现偏差导致无资格受测者参加测试产生不可用数据。实验过程需要大量工作人员进行全程监督和操作,耗费大量人力物力。原始测试数据需要人工录入电脑,存在录入错误的可能性。
而且现有的如NIST Net、NS2等网络仿真软件仅专注于网络本身特性的研究,此类软件中无语音传输和编码的设置,因此仅仅依靠这些仿真软件还无法满足对音频进行研究的需求。而依托真实网络进行音频帧参数对音频影响的实验中,音频帧参数难以进行精确的设制,不具备可重复性,且需要很多路由器、交换机等价格昂贵的设备以及相关软硬件支持。传统的实验环境均没有考虑对终端设备的波形、音量、录音方式进行精确控制,也未考虑时延对交互音频体验质量的影响,使实验平台缺乏稳定性以及实用性。
发明内容
本发明提供了一种基于神经算法多源音频特征的智能仿真方法和系统,解决了现有音频源乐器检测识别方法错误检测非用户仿真行音频源乐器的问题,进而有效解决音频源乐器仿真机器人错误执行仿真非用户行音频源乐器,导致无法完成仿真故障问题,以及末端周期管理器与用户仿真行音频源乐器发生失真问题。
根据本发明第一方面,本发明请求保护一种基于神经算法多源音频特征的智能仿真方法,其特征在于,包括步骤:
音频源乐器数据采集,在音频源乐器运行过程中,采用MPEG音频采集设备仿真到音频采集设备当前位置下的音频源数据的用户元数据信息和MPEG信源编码音频帧,基于高斯神经网络方法提取出当前帧的识别用户,采集音频源数据的质量等级音频帧;
用户识别,分别计算质量等级音频帧的预先选定的音高中心和中断片段内的实时平均用户元数据信息,将实时平均用户元数据信息作为后续步骤中确定仿真模型召回度信息的依据;
模拟操作,将计算出的实时平均用户元数据信息与音频源乐器的固有参数相结合,确定仿真模型的实时召回度,依据模拟逻辑,结合仿真模型的实时召回度的自适应调整策略,匹配仿真模型与音频源数据的相应位置;
音频源乐器仿真,根据仿真模型的召回度确定结果,音频源乐器的周期管理器通过定时信号反馈音频源乐器,并将仿真完成的音频源乐器通过可信数据库存储在音频接收器端的音频源乐器白名单库中。
具体的,音频源乐器数据采集,在音频源乐器运行过程中,采用MPEG音频采集设备仿真到音频采集设备当前位置下的音频源数据的用户元数据信息和MPEG信源编码音频帧,基于高斯神经网络方法提取出当前帧的识别用户,采集音频源数据的质量等级音频帧,具体包括:
基于倒谱系数和塔型算法的样本声音检测法从音频源数据音频帧中采集样本声音的音频帧坐标;
其中,通过安装仿真模型上的音高音频采集设备能实时采集音频源数据中不同等级的音频源乐器和背景的质量等级音频帧;
当音高音频采集设备垂直收音音频源乐器预设范围内时,音频源乐器多角度布置,过滤音频源乐器间的空白区域返回的异常音高值和音量峰谷差异值大的样本声音返回的过小音高值,得到音频源数据上样本声音的平均用户元数据信息;
使用倒谱系数和塔型算法的样本声音检测算法实现待仿真声音和背景中的样本声音去噪分离,优化获得的样本声音的平均用户元数据信息。
具体的,用户识别,分别计算质量等级音频帧的预先选定的音高中心和中断片段内的实时平均用户元数据信息,将实时平均用户元数据信息作为后续步骤中确定仿真模型召回度信息的依据,具体包括:
基于用户元数据信息的高斯神经网络方法根据各区域聚类的音高权重提取出样本声音区域;
其中,基于频谱聚类算法将输入的质量等级音频帧划分为K个区域聚类;
计算音高音频帧中区域聚类k的初始显著性值;
将单声道先验调整为新的用户元数据信息权重,修正初始显著值和双声道映射,得到修正后得到的修正显著值;
在得到修正显著值后,将输出的显著用户区域的平均音高与在MPEG空间内去噪分离并采集的样本声音以及对应的位置坐标结合,得到样本声音的位置-音高集成信息;
在后续的反馈召回度计算步骤中,位置-音高集成信息将作为初始输入信息,执行仿真模型对音频源数据的特征自适应模拟。
具体的,模拟操作,将计算出的实时平均用户元数据信息与音频源乐器的固有参数相结合,确定仿真模型的实时召回度,依据模拟逻辑,结合仿真模型的实时召回度的自适应调整策略,匹配仿真模型与音频源数据的相应位置,具体包括:
固定音高音频采集设备位置:固定音高音频采集设备与用户音频输出之间的相对位置,并且采集音高音频采集设备与仿真模型之间的相对位置数据,
采集音频源乐器采取性能值:利用音高音频采集设备采集仿真模型处音频源数据的视频帧,视频帧的数据为包括有用户元数据信息的三维空间数据,并通过视频帧的数据计算得出仿真模型的仿真结果分数至音频源数据评价分数之间的差值,仿真模型的仿真结果分数至音频源数据评价分数之间的差值为音频源乐器采取性能值;
调整仿真模型的召回度状态:将音频源乐器采取性能值与预期音频源乐器性能值相比较,对仿真模型的位置召回度状态进行调整,使音频源乐器采取性能值满足音频源乐器预期性能值的要求,仿真模型的位置召回度状态调整包括对仿真模型进行上升和下降的调整。
具体的,音频源乐器仿真,根据仿真模型的召回度确定结果,音频源乐器的周期管理器通过定时信号反馈音频源乐器,并将仿真完成的音频源乐器通过可信数据库存储在音频接收器端的音频源乐器白名单库中,具体包括:
音频源乐器白名单库至少包括第一白名单库、第二白名单库、第三白名单库;
等级至少包括低质量等级、合格质量等级、高质量等级;
第一白名单库用于收集低质量等级的音频源乐器,第二白名单库用于收集低质量等级的音频源乐器,第三白名单库用于收集低质量等级的音频源乐器;
音频源乐器在仿真模型未进行反馈作业时均呈关闭状态;
根据仿真模型的召回度确定结果,当仿真模型仿真低质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高下降时,关闭第一白名单库并开启第二白名单库;
当仿真模型仿真合格质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高下降时,关闭第二白名单库并开启第三白名单库;
当仿真模型仿真低质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高上升时,关闭第一白名单库;
当仿真模型仿真合格质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高上升时,关闭第二白名单库并打开第一白名单库;
当仿真模型仿真高质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高下降时,关闭第三白名单库;
当仿真模型仿真高质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高上升时,关闭第三白名单库并开启第二白名单库。
根据本发明第二方面,本发明请求保护一种基于神经算法多源音频特征的智能仿真系统,包括:
音频源乐器数据采集模块,在音频源乐器运行过程中,采用MPEG音频采集设备仿真到音频采集设备当前位置下的音频源数据的用户元数据信息和MPEG信源编码音频帧,基于高斯神经网络方法提取出当前帧的识别用户,采集音频源数据的质量等级音频帧;
用户识别模块,分别计算质量等级音频帧的预先选定的音高中心和中断片段内的实时平均用户元数据信息,将实时平均用户元数据信息作为后续步骤中确定仿真模型召回度信息的依据;
模拟操作模块,将计算出的实时平均用户元数据信息与音频源乐器的固有参数相结合,确定仿真模型的实时召回度,依据模拟逻辑,结合仿真模型的实时召回度的自适应调整策略,匹配仿真模型与音频源数据的相应位置;
音频源乐器仿真模块,根据仿真模型的召回度确定结果,音频源乐器的周期管理器通过定时信号反馈音频源乐器,并将仿真完成的音频源乐器通过可信数据库存储在音频接收器端的音频源乐器白名单库中。
具体的,音频源乐器数据采集模块具体包括:
基于倒谱系数和塔型算法的样本声音检测法从音频源数据音频帧中采集样本声音的音频帧坐标;
其中,通过安装仿真模型上的音高音频采集设备能实时采集音频源数据中不同等级的音频源乐器和背景的质量等级音频帧;
当音高音频采集设备垂直收音音频源乐器预设范围内时,音频源乐器多角度布置,过滤音频源乐器间的空白区域返回的异常音高值和音量峰谷差异值大的样本声音返回的过小音高值,得到音频源数据上样本声音的平均用户元数据信息;
使用倒谱系数和塔型算法的样本声音检测算法实现待仿真声音和背景中的样本声音去噪分离,优化获得的样本声音的平均用户元数据信息。
具体的,用户识别模块具体包括:
基于用户元数据信息的高斯神经网络方法根据各区域聚类的音高权重提取出样本声音区域;
其中,基于频谱聚类算法将输入的质量等级音频帧划分为K个区域聚类;
计算音高音频帧中区域聚类k的初始显著性值;
将单声道先验调整为新的用户元数据信息权重,修正初始显著值和双声道映射,得到修正后得到的修正显著值;
在得到修正显著值后,将输出的显著用户区域的平均音高与在MPEG空间内去噪分离并采集的样本声音以及对应的位置坐标结合,得到样本声音的位置-音高集成信息;
在后续的反馈召回度计算步骤中,位置-音高集成信息将作为初始输入信息,执行仿真模型对音频源数据的特征自适应模拟。
具体的,模拟操作模块具体包括:
固定音高音频采集设备位置:固定音高音频采集设备与用户音频输出之间的相对位置,并且采集音高音频采集设备与仿真模型之间的相对位置数据,
采集音频源乐器采取性能值:利用音高音频采集设备采集仿真模型处音频源数据的视频帧,视频帧的数据为包括有用户元数据信息的三维空间数据,并通过视频帧的数据计算得出仿真模型的仿真结果分数至音频源数据评价分数之间的差值,仿真模型的仿真结果分数至音频源数据评价分数之间的差值为音频源乐器采取性能值;
调整仿真模型的召回度状态:将音频源乐器采取性能值与预期音频源乐器性能值相比较,对仿真模型的位置召回度状态进行调整,使音频源乐器采取性能值满足音频源乐器预期性能值的要求,仿真模型的位置召回度状态调整包括对仿真模型进行上升和下降的调整。
具体的,音频源乐器仿真模块具体包括:
音频源乐器白名单库至少包括第一白名单库、第二白名单库、第三白名单库;
等级至少包括低质量等级、合格质量等级、高质量等级;
第一白名单库用于收集低质量等级的音频源乐器,第二白名单库用于收集低质量等级的音频源乐器,第三白名单库用于收集低质量等级的音频源乐器;
音频源乐器在仿真模型未进行反馈作业时均呈关闭状态;
根据仿真模型的召回度确定结果,当仿真模型仿真低质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高下降时,关闭第一白名单库并开启第二白名单库;
当仿真模型仿真合格质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高下降时,关闭第二白名单库并开启第三白名单库;
当仿真模型仿真低质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高上升时,关闭第一白名单库;
当仿真模型仿真合格质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高上升时,关闭第二白名单库并打开第一白名单库;
当仿真模型仿真高质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高下降时,关闭第三白名单库;
当仿真模型仿真高质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高上升时,关闭第三白名单库并开启第二白名单库。
本发明请求保护一种基于神经算法多源音频特征的智能仿真方法和系统,通过在音频源乐器运行过程中,仿真音频源数据的用户元数据信息和MPEG信源编码音频帧,基于高斯神经网络方法提取出当前帧的识别用户,采集质量等级音频帧并计算预先选定的音高中心和中断片段内的实时平均用户元数据信息作为确定仿真模型召回度信息的依据,之后确定仿真模型的实时召回度结合仿真模型的实时召回度的自适应调整策略,匹配仿真模型与音频源数据的相应位置;最终音频源乐器的周期管理器通过定时信号反馈音频源乐器并将仿真完成的音频源乐器通过可信数据库存储在音频接收器端的音频源乐器白名单库中。该方案通过准确的音频帧识别和质量性能值粗细结合识别出不同等级的音频源乐器内容,达到自适应音频源乐器等级准确收集音频源乐器的效果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1是本发明所涉及的一种基于神经算法多源音频特征的智能仿真方法的工作流程图;
图2是本发明所涉及的一种基于神经算法多源音频特征的智能仿真方法的第二工作流程图;
图3是本发明所涉及的一种基于神经算法多源音频特征的智能仿真方法的第三工作流程图;
图4是本发明所涉及的一种基于神经算法多源音频特征的智能仿真方法的第四工作流程图;
图5a-5e为本发明所涉及的一种基于神经算法多源音频特征的智能仿真方法的工作示意图;
图6是本发明所涉及的一种基于神经算法多源音频特征的智能仿真系统的结构模块图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
根据本发明第一实施例,参照附图1,本发明请求保护一种基于神经算法多源音频特征的智能仿真方法,其特征在于,包括步骤:
音频源乐器数据采集,在音频源乐器运行过程中,采用MPEG音频采集设备仿真到音频采集设备当前位置下的音频源数据的用户元数据信息和MPEG信源编码音频帧,基于高斯神经网络方法提取出当前帧的识别用户,采集音频源数据的质量等级音频帧;
用户识别,分别计算质量等级音频帧的预先选定的音高中心和中断片段内的实时平均用户元数据信息,将实时平均用户元数据信息作为后续步骤中确定仿真模型召回度信息的依据;
模拟操作,将计算出的实时平均用户元数据信息与音频源乐器的固有参数相结合,确定仿真模型的实时召回度,依据模拟逻辑,结合仿真模型的实时召回度的自适应调整策略,匹配仿真模型与音频源数据的相应位置;
音频源乐器仿真,根据仿真模型的召回度确定结果,音频源乐器的周期管理器通过定时信号反馈音频源乐器,并将仿真完成的音频源乐器通过可信数据库存储在音频接收器端的音频源乐器白名单库中。
在该实施例中,对于众多的乐器,可以根据检测平均音高仿真的技术、业务、与动画配合的播放效果等因素,选定部分或全部乐器,作为用户乐器,预先使用仿真识别模型对音频数据检测这些用户乐器运行时的平均音高仿真,得到这些用户乐器在时间、类型、强度、频率、能量等方面的属性信息,将这些属性信息记录在仿真文件中,并将该仿真文件关联音频数据,即,平均音高仿真具有基于仿真识别模型对音频数据的音频特征信息识别得到的属性信息。
对于音频数据首次播放的场景,可以向音频接收器请求该音频数据关联的仿真文件,从而从仿真文件中读取用户乐器运行时的平均音高仿真。
如果音频数据为音频接收器提供的在线的音频数据,则音频播放器可以将该音频数据的ID发送至音频接收器,音频接收器通过该ID查询到音频数据关联的仿真文件,并发送至音频播放器。
如果音频数据为计算机设备提供的本地的音频数据,则音频播放器可以将该音频数据的名称、音频指纹(如哈希值)等标识发送至音频接收器,音频接收器通过该标识查询是否存在该音频数据的仿真文件,如果有,则将仿真文件发送至音频播放器,如果没有,则可以请求音频播放器上传音频数据,并对该音频数据检测用户乐器运行时的平均音高仿真,使用其属性信息制作相应的仿真文件,并将仿真文件发送至音频播放器。
实验表明,遵循人体听觉感受,将第二音频数据高度仿真歌曲(即第二音频数据)所训练的仿真识别模型的性能(如召回率、精确度等)与通过随机穿插生成的歌曲(即第二音频数据)所训练的仿真识别模型的性能(如召回率、精确度等)基本一致,为了节省资源的耗费,可以通过随机穿插生成歌曲(即第二音频数据)。
具体的,参照附图2,音频源乐器数据采集,在音频源乐器运行过程中,采用MPEG音频采集设备仿真到音频采集设备当前位置下的音频源数据的用户元数据信息和MPEG信源编码音频帧,基于高斯神经网络方法提取出当前帧的识别用户,采集音频源数据的质量等级音频帧,具体包括:
基于倒谱系数和塔型算法的样本声音检测法从音频源数据音频帧中采集样本声音的音频帧坐标;
其中,通过安装仿真模型上的音高音频采集设备能实时采集音频源数据中不同等级的音频源乐器和背景的质量等级音频帧;
当音高音频采集设备垂直收音音频源乐器预设范围内时,音频源乐器多角度布置,过滤音频源乐器间的空白区域返回的异常音高值和音量峰谷差异值大的样本声音返回的过小音高值,得到音频源数据上样本声音的平均用户元数据信息;
使用倒谱系数和塔型算法的样本声音检测算法实现待仿真声音和背景中的样本声音去噪分离,优化获得的样本声音的平均用户元数据信息。
其中,在该实施例中,获取待检测音频信号的倒谱系数序列,所述倒谱系数序列为N维向量,其中,N为对所述待检测音频信号进行加窗处理的窗函数的窗长,所述倒谱系数序列内各元素用于表征各采样点的倒谱系数;
根据所述倒谱系数序列,确定所述待检测音频信号中的低能频谱段;
根据所述低能频谱段,判别所述待检测音频信号是否存在频带丢失,若确定所述待检测音频信号存在频带丢失,则确定所述待检测音频信号质量失真。
可以采用阈值去噪分离方法对样本声音和待仿真声音进行去噪分离,去噪分离的结果主要取决于阈值的大小。考虑到实时性和简化性,选择塔型算法自动确定每张音频源数据灰度音频帧的去噪分离阈值。阈值确定后,对灰度音频帧进行二值化处理,样本声音去噪分离工作基本完成。在去噪分离结果中,仍有受光照影响被错误保留的异常值,该游离区域可以通过形态学腐蚀操作去除并采集保留区域的音频帧坐标。
至此,已成功将大部分样本声音从音频源数据MPEG音频帧中去噪分离出来。为保证识别的准确性,还需根据音频源数据的音高音频帧进行二次处理,并与去噪分离结果相结合,以采集更精确的样本声音反馈音高值。
具体的,参照附图3,用户识别,分别计算质量等级音频帧的预先选定的音高中心和中断片段内的实时平均用户元数据信息,将实时平均用户元数据信息作为后续步骤中确定仿真模型召回度信息的依据,具体包括:
基于用户元数据信息的高斯神经网络方法根据各区域聚类的音高权重提取出样本声音区域;
其中,基于频谱聚类算法将输入的质量等级音频帧划分为K个区域聚类;
计算音高音频帧中区域聚类k的初始显著性值;
将单声道先验调整为新的用户元数据信息权重,修正初始显著值和双声道映射,得到修正后得到的修正显著值;
在得到修正显著值后,将输出的显著用户区域的平均音高与在MPEG空间内去噪分离并采集的样本声音以及对应的位置坐标结合,得到样本声音的位置-音高集成信息;
在后续的反馈召回度计算步骤中,位置-音高集成信息将作为初始输入信息,执行仿真模型对音频源数据的特征自适应模拟。
在该实施例中,为了实现音频源乐器仿真的高效性和鲁棒性,同时引入了基于用户元数据信息的高斯神经网络方法。由于音频源乐器的用户元数据信息是直接影响机具在运行过程中的特征自适应调节,通过添加新的特征抑制端优化使样本声音检测结果更加精确。
基于频谱聚类算法将输入的MPEG音频帧Io划分为K个区域聚类。结合每个区域聚类内部音频帧在对应的音高音频帧中的平均音高,该音频帧的区域音高显著值将被计算为:
其中,Sd(rk)为音频帧Io中区域k的音高显著值,Dd(rk,ri)是在音高空间内区域k和区域i之间的平均欧氏差值,pi表示区域k的平均音高值与整个音频帧的音高值的比值。为了进一步突出不同区域聚类之间的音高差异,本项目为音高音频帧内对应的各区域分配了音高权重:
DW(dk)=G((max{d}-dk)μ) (2)
其中,DW(dk)是为区域k分配的音高权重,G(·)表示高斯归一化,max{d}代表整个音高音频帧内所有音频帧对应的音高值中的最大值,dk是区域k中的音频帧的平均音高值,μ是音高固定值,设置为
其中,min{d}代表整个音高音频帧内所有音频帧对应的音高值中的最小值。综合上述参数,计算音高音频帧中区域聚类k的初始显著性值:
S1(rk)=G(DW(dk)·Sd(rk)) (4)
本算法对中心-双声道先验理论进行了优化,具体表现为将单声道先验调整为新的用户元数据信息权重。本方案将改动应用于高斯神经网络方法,并将改进后的双声道映射表示为Sdcp。在式(2)和式(3)的基础上,进一步将初始显著值和双声道映射修正为:
其中S(rk)表示修正后得到的修正显著值。
在得到检测结果后,方案通过将输出的显著用户区域的平均音高与,在MPEG空间内去噪分离并采集的样本声音以及对应的位置坐标结合,最终得到样本声音的位置-音高集成信息。在后续的反馈召回度计算步骤中,该集成信息将作为初始输入信息,并在此基础上实现用户音高对音频源数据的特征自适应模拟。
具体的,参照附图4,模拟操作,将计算出的实时平均用户元数据信息与音频源乐器的固有参数相结合,确定仿真模型的实时召回度,依据模拟逻辑,结合仿真模型的实时召回度的自适应调整策略,匹配仿真模型与音频源数据的相应位置,具体包括:
固定音高音频采集设备位置:固定音高音频采集设备与用户音频输出之间的相对位置,并且采集音高音频采集设备与仿真模型之间的相对位置数据,
采集音频源乐器采取性能值:利用音高音频采集设备采集仿真模型处音频源数据的视频帧,视频帧的数据为包括有用户元数据信息的三维空间数据,并通过视频帧的数据计算得出仿真模型的仿真结果分数至音频源数据评价分数之间的差值,仿真模型的仿真结果分数至音频源数据评价分数之间的差值为音频源乐器采取性能值。
通过音高音频采集设备实时收音音频源数据MPEG音频帧,经音频帧处理后减少待仿真声音和背景的影响,得到音频帧中两固定区域的样本声音音高均值lnear和lfar用于反馈召回度的计算,保证反馈的准确。
在该实施例中,参照附图5a-5e,音频源乐器可以包括小提琴、竖笛、吉他、钢琴、架子鼓,音频源乐器演奏的音频数据被发送至音频采集设备处。音频采集设备在运行过程中,音高音频采集设备以10帧/秒的帧率采集音频源数据音频帧,每帧音频帧都将判断并计算特征的运动,随着反馈召回度的实时调整,实现特征自适应调节高度和角度。
其中,在该实施例中,当仿真模型所在合格音频帧百分比区间在音频源数据的合格音频帧百分比区间的第一比例以下并且音频源乐器性能值大于第一性能值,认定音频源乐器为高质量等级;
当仿真模型所在合格音频帧百分比区间在音频源数据的合格音频帧百分比区间的第二比例以下且大于第一比例并且音频源乐器性能值大于第二性能值小于第一性能值,认定音频源乐器为合格质量等级;
具体的,第一比例、第二比例、第一性能值、第二性能值根据不同音频源乐器类型、不同音频源数据类型进行设置;
具体的,音频源乐器仿真,根据仿真模型的召回度确定结果,音频源乐器的周期管理器通过定时信号反馈音频源乐器,并将仿真完成的音频源乐器通过可信数据库存储在音频接收器端的音频源乐器白名单库中,具体包括:
音频源乐器白名单库至少包括第一白名单库、第二白名单库、第三白名单库;
等级至少包括低质量等级、合格质量等级、高质量等级;
第一白名单库用于收集低质量等级的音频源乐器,第二白名单库用于收集低质量等级的音频源乐器,第三白名单库用于收集低质量等级的音频源乐器;
音频源乐器在仿真模型未进行反馈作业时均呈关闭状态;
根据仿真模型的召回度确定结果,当仿真模型仿真低质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高下降时,关闭第一白名单库并开启第二白名单库;
当仿真模型仿真合格质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高下降时,关闭第二白名单库并开启第三白名单库;
当仿真模型仿真低质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高上升时,关闭第一白名单库;
当仿真模型仿真合格质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高上升时,关闭第二白名单库并打开第一白名单库;
当仿真模型仿真高质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高下降时,关闭第三白名单库;
当仿真模型仿真高质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高上升时,关闭第三白名单库并开启第二白名单库。
具体的,基于音频源数据的高度,音频源数据的仿真模型所在高度、音频源乐器性能值确定音频源乐器的合格质量等级和高质量等级以及音频帧识别确定的低质量等级,在确定完仿真模型的召回度确定结果后,对于音频源数据中,一般从上至下为低质量等级、合格质量等级、高质量等级;该方案通过确定完仿真模型的召回度确定结果向上还是向下,进行粗等级划分,之后通过音频源数据的仿真模型所在高度、音频源乐器性能值确定音频源乐器的合格质量等级和高质量等级进行细等级划分,将在理应属于合格质量等级或高质量等级但不属于该类型等级的音频源乐器剔除出去,达到更准确的收集音频源乐器的效果。
根据本发明第二实施例,参照附图6,本发明请求保护一种基于神经算法多源音频特征的智能仿真系统,其特征在于,包括:
音频源乐器数据采集模块,在音频源乐器运行过程中,采用MPEG音频采集设备仿真到音频采集设备当前位置下的音频源数据的用户元数据信息和MPEG信源编码音频帧,基于高斯神经网络方法提取出当前帧的识别用户,采集音频源数据的质量等级音频帧;
用户识别模块,分别计算质量等级音频帧的预先选定的音高中心和中断片段内的实时平均用户元数据信息,将实时平均用户元数据信息作为后续步骤中确定仿真模型召回度信息的依据;
模拟操作模块,将计算出的实时平均用户元数据信息与音频源乐器的固有参数相结合,确定仿真模型的实时召回度,依据模拟逻辑,结合仿真模型的实时召回度的自适应调整策略,匹配仿真模型与音频源数据的相应位置;
音频源乐器仿真模块,根据仿真模型的召回度确定结果,音频源乐器的周期管理器通过定时信号反馈音频源乐器,并将仿真完成的音频源乐器通过可信数据库存储在音频接收器端的音频源乐器白名单库中。
具体的,音频源乐器数据采集模块具体包括:
基于倒谱系数和塔型算法的样本声音检测法从音频源数据音频帧中采集样本声音的音频帧坐标;
其中,通过安装仿真模型上的音高音频采集设备能实时采集音频源数据中不同等级的音频源乐器和背景的质量等级音频帧;
当音高音频采集设备垂直收音音频源乐器预设范围内时,音频源乐器多角度布置,过滤音频源乐器间的空白区域返回的异常音高值和音量峰谷差异值大的样本声音返回的过小音高值,得到音频源数据上样本声音的平均用户元数据信息;
使用倒谱系数和塔型算法的样本声音检测算法实现待仿真声音和背景中的样本声音去噪分离,优化获得的样本声音的平均用户元数据信息。
具体的,用户识别模块具体包括:
基于用户元数据信息的高斯神经网络方法根据各区域聚类的音高权重提取出样本声音区域;
其中,基于频谱聚类算法将输入的质量等级音频帧划分为K个区域聚类;
计算音高音频帧中区域聚类k的初始显著性值;
将单声道先验调整为新的用户元数据信息权重,修正初始显著值和双声道映射,得到修正后得到的修正显著值;
在得到修正显著值后,将输出的显著用户区域的平均音高与在MPEG空间内去噪分离并采集的样本声音以及对应的位置坐标结合,得到样本声音的位置-音高集成信息;
在后续的反馈召回度计算步骤中,位置-音高集成信息将作为初始输入信息,执行仿真模型对音频源数据的特征自适应模拟。
具体的,模拟操作模块具体包括:
固定音高音频采集设备位置:固定音高音频采集设备与用户音频输出之间的相对位置,并且采集音高音频采集设备与仿真模型之间的相对位置数据,
采集音频源乐器采取性能值:利用音高音频采集设备采集仿真模型处音频源数据的视频帧,视频帧的数据为包括有用户元数据信息的三维空间数据,并通过视频帧的数据计算得出仿真模型的仿真结果分数至音频源数据评价分数之间的差值,仿真模型的仿真结果分数至音频源数据评价分数之间的差值为音频源乐器采取性能值;
调整仿真模型的召回度状态:将音频源乐器采取性能值与预期音频源乐器性能值相比较,对仿真模型的位置召回度状态进行调整,使音频源乐器采取性能值满足音频源乐器预期性能值的要求,仿真模型的位置召回度状态调整包括对仿真模型进行上升和下降的调整。
具体的,音频源乐器仿真模块具体包括:
音频源乐器白名单库至少包括第一白名单库、第二白名单库、第三白名单库;
等级至少包括低质量等级、合格质量等级、高质量等级;
第一白名单库用于收集低质量等级的音频源乐器,第二白名单库用于收集低质量等级的音频源乐器,第三白名单库用于收集低质量等级的音频源乐器;
音频源乐器在仿真模型未进行反馈作业时均呈关闭状态;
根据仿真模型的召回度确定结果,当仿真模型仿真低质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高下降时,关闭第一白名单库并开启第二白名单库;
当仿真模型仿真合格质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高下降时,关闭第二白名单库并开启第三白名单库;
当仿真模型仿真低质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高上升时,关闭第一白名单库;
当仿真模型仿真合格质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高上升时,关闭第二白名单库并打开第一白名单库;
当仿真模型仿真高质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高下降时,关闭第三白名单库;
当仿真模型仿真高质量等级的音频源乐器且仿真模型的召回度确定结果调整为用户音高上升时,关闭第三白名单库并开启第二白名单库。
本领域技术人员能够理解,本公开所披露的内容可以出现多种变型和改进。例如,以上所描述的各种设备或组件可以通过硬件实现,也可以通过软件、固件、或者三者中的一些或全部的组合实现。
本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是,前面或后面的步骤不一定按照顺序来精确的进行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中。
本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过计算机程序来指令相关硬件完成,程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。
除非另有定义,这里使用的所有术语具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上是对本公开的说明,而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解,上面是对本公开的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、调整和变型,本发明的范围由权利要求及其等同物限定。
Claims (10)
1.一种基于神经算法多源音频特征的智能仿真方法,其特征在于,包括步骤:
音频源乐器数据采集,在音频源乐器运行过程中,采用MPEG音频采集设备仿真到音频采集设备当前位置下的音频源数据的用户元数据信息和MPEG信源编码音频帧,基于高斯神经网络方法提取出当前帧的识别用户,采集所述音频源数据的质量等级音频帧;
用户识别,分别计算所述质量等级音频帧的预先选定的音高中心和中断片段内的实时平均用户元数据信息,将所述实时平均用户元数据信息作为后续步骤中确定仿真模型召回度信息的依据;
模拟操作,将计算出的所述实时平均用户元数据信息与所述音频源乐器的固有参数相结合,确定所述仿真模型的实时召回度,依据模拟逻辑,结合所述仿真模型的实时召回度的自适应调整策略,匹配所述仿真模型与所述音频源数据的相应位置;
音频源乐器仿真,根据所述仿真模型的召回度确定结果,所述音频源乐器的周期管理器通过定时信号反馈音频源乐器,并将仿真完成的音频源乐器通过可信数据库存储在音频接收器端的音频源乐器白名单库中。
2.如权利要求1所述的一种基于神经算法多源音频特征的智能仿真方法,其特征在于,所述音频源乐器数据采集,在音频源乐器运行过程中,采用MPEG音频采集设备仿真到音频采集设备当前位置下的音频源数据的用户元数据信息和MPEG信源编码音频帧,基于高斯神经网络方法提取出当前帧的识别用户,采集所述音频源数据的质量等级音频帧,具体包括:
基于倒谱系数和塔型算法的样本声音检测法从音频源数据音频帧中采集样本声音的音频帧坐标;
其中,通过安装所述仿真模型上的音高音频采集设备能实时采集音频源数据中不同等级的音频源乐器和背景的质量等级音频帧;
当音高音频采集设备垂直收音音频源乐器预设范围内时,音频源乐器多角度布置,过滤音频源乐器间的空白区域返回的异常音高值和音量峰谷差异值大的样本声音返回的过小音高值,得到音频源数据上样本声音的平均用户元数据信息;
使用倒谱系数和塔型算法的样本声音检测算法实现待仿真声音和背景中的样本声音去噪分离,优化获得的所述样本声音的平均用户元数据信息。
3.如权利要求2所述的一种基于神经算法多源音频特征的智能仿真方法,其特征在于,所述用户识别,分别计算所述质量等级音频帧的预先选定的音高中心和中断片段内的实时平均用户元数据信息,将所述实时平均用户元数据信息作为后续步骤中确定仿真模型召回度信息的依据,具体包括:
基于用户元数据信息的高斯神经网络方法根据各区域聚类的音高权重提取出样本声音区域;
其中,基于频谱聚类算法将输入的质量等级音频帧划分为K个区域聚类;
计算音高音频帧中区域聚类k的初始显著性值;
将单声道先验调整为新的用户元数据信息权重,修正初始显著值和双声道映射,得到修正后得到的修正显著值;
在得到所述修正显著值后,将输出的显著用户区域的平均音高与在MPEG空间内去噪分离并采集的样本声音以及对应的位置坐标结合,得到样本声音的位置-音高集成信息;
在后续的反馈召回度计算步骤中,所述位置-音高集成信息将作为初始输入信息,执行所述仿真模型对音频源数据的特征自适应模拟。
4.如权利要求3所述的一种基于神经算法多源音频特征的智能仿真方法,其特征在于,所述模拟操作,将计算出的所述实时平均用户元数据信息与所述音频源乐器的固有参数相结合,确定所述仿真模型的实时召回度,依据模拟逻辑,结合所述仿真模型的实时召回度的自适应调整策略,匹配所述仿真模型与所述音频源数据的相应位置,具体包括:
固定音高音频采集设备位置:固定音高音频采集设备与用户音频输出之间的相对位置,并且采集音高音频采集设备与所述仿真模型之间的相对位置数据,
采集音频源乐器采取性能值:利用音高音频采集设备采集所述仿真模型处音频源数据的视频帧,所述视频帧的数据为包括有用户元数据信息的三维空间数据,并通过所述视频帧的数据计算得出所述仿真模型的仿真结果分数至音频源数据评价分数之间的差值,所述仿真模型的仿真结果分数至音频源数据评价分数之间的差值为音频源乐器采取性能值,
调整所述仿真模型的召回度状态:将所述音频源乐器采取性能值与预期音频源乐器性能值相比较,对所述仿真模型的位置召回度状态进行调整,使所述音频源乐器采取性能值满足音频源乐器预期性能值的要求,所述仿真模型的位置召回度状态调整包括对所述仿真模型进行上升和下降的调整。
5.如权利要求4所述的一种基于神经算法多源音频特征的智能仿真方法,其特征在于,所述音频源乐器仿真,根据所述仿真模型的召回度确定结果,所述音频源乐器的周期管理器通过定时信号反馈音频源乐器,并将仿真完成的音频源乐器通过可信数据库存储在音频接收器端的音频源乐器白名单库中,具体包括:
所述音频源乐器白名单库至少包括第一白名单库、第二白名单库、第三白名单库;
所述等级至少包括低质量等级、合格质量等级、高质量等级;
所述第一白名单库用于收集低质量等级的音频源乐器,所述第二白名单库用于收集低质量等级的音频源乐器,所述第三白名单库用于收集低质量等级的音频源乐器;
所述音频源乐器在所述仿真模型未进行反馈作业时均呈关闭状态;
根据所述仿真模型的召回度确定结果,当所述仿真模型仿真低质量等级的音频源乐器且所述仿真模型的召回度确定结果调整为用户音高下降时,关闭所述第一白名单库并开启所述第二白名单库;
当所述仿真模型仿真合格质量等级的音频源乐器且所述仿真模型的召回度确定结果调整为用户音高下降时,关闭所述第二白名单库并开启所述第三白名单库;
当所述仿真模型仿真低质量等级的音频源乐器且所述仿真模型的召回度确定结果调整为用户音高上升时,关闭所述第一白名单库;
当所述仿真模型仿真合格质量等级的音频源乐器且所述仿真模型的召回度确定结果调整为用户音高上升时,关闭所述第二白名单库并打开所述第一白名单库;
当所述仿真模型仿真高质量等级的音频源乐器且所述仿真模型的召回度确定结果调整为用户音高下降时,关闭所述第三白名单库;
当所述仿真模型仿真高质量等级的音频源乐器且所述仿真模型的召回度确定结果调整为用户音高上升时,关闭所述第三白名单库并开启所述第二白名单库。
6.一种基于神经算法多源音频特征的智能仿真系统,其特征在于,包括:
音频源乐器数据采集模块,在音频源乐器运行过程中,采用MPEG音频采集设备仿真到音频采集设备当前位置下的音频源数据的用户元数据信息和MPEG信源编码音频帧,基于高斯神经网络方法提取出当前帧的识别用户,采集所述音频源数据的质量等级音频帧;
用户识别模块,分别计算所述质量等级音频帧的预先选定的音高中心和中断片段内的实时平均用户元数据信息,将所述实时平均用户元数据信息作为后续步骤中确定仿真模型召回度信息的依据;
模拟操作模块,将计算出的所述实时平均用户元数据信息与所述音频源乐器的固有参数相结合,确定所述仿真模型的实时召回度,依据模拟逻辑,结合所述仿真模型的实时召回度的自适应调整策略,匹配所述仿真模型与所述音频源数据的相应位置;
音频源乐器仿真模块,根据所述仿真模型的召回度确定结果,所述音频源乐器的周期管理器通过定时信号反馈音频源乐器,并将仿真完成的音频源乐器通过可信数据库存储在音频接收器端的音频源乐器白名单库中。
7.如权利要求6所述的一种基于神经算法多源音频特征的智能仿真系统,其特征在于,所述音频源乐器数据采集模块具体包括:
基于倒谱系数和塔型算法的样本声音检测法从音频源数据音频帧中采集样本声音的音频帧坐标;
其中,通过安装所述仿真模型上的音高音频采集设备能实时采集音频源数据中不同等级的音频源乐器和背景的质量等级音频帧;
当音高音频采集设备垂直收音音频源乐器预设范围内时,音频源乐器多角度布置,过滤音频源乐器间的空白区域返回的异常音高值和音量峰谷差异值大的样本声音返回的过小音高值,得到音频源数据上样本声音的平均用户元数据信息;
使用倒谱系数和塔型算法的样本声音检测算法实现待仿真声音和背景中的样本声音去噪分离,优化获得的所述样本声音的平均用户元数据信息。
8.如权利要求7所述的一种基于神经算法多源音频特征的智能仿真系统,其特征在于,所述用户识别模块具体包括:
基于用户元数据信息的高斯神经网络方法根据各区域聚类的音高权重提取出样本声音区域;
其中,基于频谱聚类算法将输入的质量等级音频帧划分为K个区域聚类;
计算音高音频帧中区域聚类k的初始显著性值;
将单声道先验调整为新的用户元数据信息权重,修正初始显著值和双声道映射,得到修正后得到的修正显著值;
在得到所述修正显著值后,将输出的显著用户区域的平均音高与在MPEG空间内去噪分离并采集的样本声音以及对应的位置坐标结合,得到样本声音的位置-音高集成信息;
在后续的反馈召回度计算步骤中,所述位置-音高集成信息将作为初始输入信息,执行所述仿真模型对音频源数据的特征自适应模拟。
9.如权利要求8所述的一种基于神经算法多源音频特征的智能仿真系统,其特征在于,所述模拟操作模块具体包括:
固定音高音频采集设备位置:固定音高音频采集设备与用户音频输出之间的相对位置,并且采集音高音频采集设备与所述仿真模型之间的相对位置数据,
采集音频源乐器采取性能值:利用音高音频采集设备采集所述仿真模型处音频源数据的视频帧,所述视频帧的数据为包括有用户元数据信息的三维空间数据,并通过所述视频帧的数据计算得出所述仿真模型的仿真结果分数至音频源数据评价分数之间的差值,所述仿真模型的仿真结果分数至音频源数据评价分数之间的差值为音频源乐器采取性能值,调整所述仿真模型的召回度状态:将所述音频源乐器采取性能值与预期音频源乐器性能值相比较,对所述仿真模型的位置召回度状态进行调整,使所述音频源乐器采取性能值满足音频源乐器预期性能值的要求,所述仿真模型的位置召回度状态调整包括对所述仿真模型进行上升和下降的调整。
10.如权利要求9所述的一种基于神经算法多源音频特征的智能仿真系统,其特征在于,所述音频源乐器仿真模块具体包括:
所述音频源乐器白名单库至少包括第一白名单库、第二白名单库、第三白名单库;
所述等级至少包括低质量等级、合格质量等级、高质量等级;
所述第一白名单库用于收集低质量等级的音频源乐器,所述第二白名单库用于收集低质量等级的音频源乐器,所述第三白名单库用于收集低质量等级的音频源乐器;
所述音频源乐器在所述仿真模型未进行反馈作业时均呈关闭状态;
根据所述仿真模型的召回度确定结果,当所述仿真模型仿真低质量等级的音频源乐器且所述仿真模型的召回度确定结果调整为用户音高下降时,关闭所述第一白名单库并开启所述第二白名单库;
当所述仿真模型仿真合格质量等级的音频源乐器且所述仿真模型的召回度确定结果调整为用户音高下降时,关闭所述第二白名单库并开启所述第三白名单库;
当所述仿真模型仿真低质量等级的音频源乐器且所述仿真模型的召回度确定结果调整为用户音高上升时,关闭所述第一白名单库;
当所述仿真模型仿真合格质量等级的音频源乐器且所述仿真模型的召回度确定结果调整为用户音高上升时,关闭所述第二白名单库并打开所述第一白名单库;
当所述仿真模型仿真高质量等级的音频源乐器且所述仿真模型的召回度确定结果调整为用户音高下降时,关闭所述第三白名单库;
当所述仿真模型仿真高质量等级的音频源乐器且所述仿真模型的召回度确定结果调整为用户音高上升时,关闭所述第三白名单库并开启所述第二白名单库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310476734.6A CN116705060A (zh) | 2023-04-28 | 2023-04-28 | 一种基于神经算法多源音频特征的智能仿真方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310476734.6A CN116705060A (zh) | 2023-04-28 | 2023-04-28 | 一种基于神经算法多源音频特征的智能仿真方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116705060A true CN116705060A (zh) | 2023-09-05 |
Family
ID=87834738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310476734.6A Pending CN116705060A (zh) | 2023-04-28 | 2023-04-28 | 一种基于神经算法多源音频特征的智能仿真方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116705060A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117283133A (zh) * | 2023-11-22 | 2023-12-26 | 海菲曼(天津)科技有限公司 | 一种耳机生产线电极激光焊接方法和激光焊接设备 |
-
2023
- 2023-04-28 CN CN202310476734.6A patent/CN116705060A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117283133A (zh) * | 2023-11-22 | 2023-12-26 | 海菲曼(天津)科技有限公司 | 一种耳机生产线电极激光焊接方法和激光焊接设备 |
CN117283133B (zh) * | 2023-11-22 | 2024-02-20 | 海菲曼(天津)科技有限公司 | 一种耳机生产线电极激光焊接方法和激光焊接设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11869261B2 (en) | Robust audio identification with interference cancellation | |
US20210183395A1 (en) | Method and system for automatically diarising a sound recording | |
CN105405439B (zh) | 语音播放方法及装置 | |
KR101269296B1 (ko) | 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기 | |
US8036884B2 (en) | Identification of the presence of speech in digital audio data | |
US8140329B2 (en) | Method and apparatus for automatically recognizing audio data | |
US20130289756A1 (en) | Ranking Representative Segments in Media Data | |
CN102723079B (zh) | 基于稀疏表示的音乐和弦自动识别方法 | |
CN111863033B (zh) | 音频质量识别模型的训练方法、装置、服务器和存储介质 | |
US10665248B2 (en) | Device and method for classifying an acoustic environment | |
CN116705060A (zh) | 一种基于神经算法多源音频特征的智能仿真方法和系统 | |
CN102473409B (zh) | 声音空间的基准模型适应装置、集成电路以及av设备 | |
CN113488063A (zh) | 一种基于混合特征及编码解码的音频分离方法 | |
CN102419976A (zh) | 一种基于量子学习优化决策的音频索引方法 | |
US20050114388A1 (en) | Apparatus and method for segmentation of audio data into meta patterns | |
Kruspe et al. | Automatic speech/music discrimination for broadcast signals | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
Huijbregts et al. | Filtering the unknown: Speech activity detection in heterogeneous video collections | |
CN109410968A (zh) | 一种高效的歌曲中人声起始位置检测方法 | |
Zheng et al. | The speakin system description for cnsrc2022 | |
Barbedo et al. | A robust and computationally efficient speech/music discriminator | |
JP2011013383A (ja) | オーディオ信号補正装置及びオーディオ信号補正方法 | |
KR101092228B1 (ko) | 음원 분류를 위한 악기 인식 시스템 및 방법 | |
CN113782051B (zh) | 广播效果分类方法及系统、电子设备和存储介质 | |
US11943591B2 (en) | System and method for automatic detection of music listening reactions, and mobile device performing the method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |