CN116612781B - 一种音频数据可视化处理方法、装置、设备及存储介质 - Google Patents
一种音频数据可视化处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116612781B CN116612781B CN202310891371.2A CN202310891371A CN116612781B CN 116612781 B CN116612781 B CN 116612781B CN 202310891371 A CN202310891371 A CN 202310891371A CN 116612781 B CN116612781 B CN 116612781B
- Authority
- CN
- China
- Prior art keywords
- audio
- audio data
- user interface
- feature
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 230000000007 visual effect Effects 0.000 title abstract description 5
- 238000012986 modification Methods 0.000 claims abstract description 30
- 230000004048 modification Effects 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000013079 data visualisation Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 22
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 230000006798 recombination Effects 0.000 claims description 9
- 238000005215 recombination Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims description 2
- 238000012800 visualization Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 16
- 238000003062 neural network model Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了一种音频数据可视化处理方法、装置、设备及存储介质,涉及信号处理技术领域。所述音频数据可视化处理方法,包括:获取原始音频数据,对原始音频数据进行特征分类,得到至少一个音频类别;对音频类别进行特征提取,得到特征信息;将特征信息转换为对应的用户界面元素;在获取针对用户界面元素的修改指令时,调整原始音频数据,得到修正音频数据。本发明能够将原始音频数据通过用户界面元素为用户提供音频视觉化的体验,以使得广大用户能够更加直观地感受和理解音频数据的内容,并通过对用户界面元素的修改,对音频数据进行调整。
Description
技术领域
本发明涉及信号处理技术领域,具体为一种音频数据可视化处理方法、装置、设备及存储介质。
背景技术
音频数据可视化处理是指将音频数据的特征信息通过图像数据表征出来,从而达到音频模态和图像模态互相表达目的的技术手段。随着线上直播行业的兴起,以视频、音频为媒介的信息传递手段得到快速发展,随之诞生了大量视频数据处理、图像数据处理方法,但是现有的音频处理手段较为单调,一般只是将带有音乐的音频数据插入视频中,或将音频中的人声的音色进行替换为其他预设的音色,专业人士会通过音频处理器对音频数据的具体参数进行精细化处理,然而一般用户难以直观地对音频数据进行调整。
上述对问题的发现过程的描述,仅用于辅助理解本发明的技术方案,并不代表上述内容是现有技术。
发明内容
本发明的目的在于提供一种音频数据可视化处理方法、装置、设备及存储介质,以解决现有技术中用户难以直观地感受、理解和调整音频数据的技术问题。
为实现上述目的,第一方面,本发明实施例提供了一种音频数据可视化处理方法,包括:获取原始音频数据,对原始音频数据进行特征分类,得到至少一个音频类别;对音频类别进行特征提取,得到特征信息;将特征信息转换为对应的用户界面元素;在获取针对用户界面元素的修改指令时,调整原始音频数据,得到修正音频数据。
可选地,对音频类别进行特征提取,得到特征信息,包括:对音频类别进行频谱特征提取,得到与时间轴相关的频谱特征;和/或,对音频类别进行波形特征提取,得到与时间轴相关的波形特征。
可选地,获取原始音频数据,对原始音频数据进行特征分类,得到至少一个音频类别,包括:对原始音频数据进行特征采样得到特征序列;将特征序列输入特征编码器,得到特征序列的特征向量;将特征向量输入特征解码器,得到至少一个音频类别。
可选地,音频类别包括人声音频和/或乐器音频。
可选地,对音频类别进行特征提取,得到特征信息,包括:对人声音频进行文本特征提取,得到与时间轴相关的字幕特征。
可选地,对人声音频进行文本特征提取,得到与时间轴相关的字幕特征,包括:对人声音频进行音色分析,对人声音频进行分类提取,得到至少一种对应的分类人声音频;对分类人声音频进行文本特征提取,得到分类人声音频与时间轴相关的字幕特征。
可选地,在获取针对用户界面元素的修改指令时,调整原始音频数据,得到修正音频数据,包括:在获取针对用户界面元素中对应字幕的修改指令时,根据字幕的音色为修改后的字幕对应的音频段进行音频重组,得到修正音频数据。
可选地,对音频类别进行特征提取,得到特征信息,包括:对乐器音频进行乐器特征提取,得到与时间轴相关的乐器特征。
可选地,在获取针对用户界面元素的修改指令时,调整原始音频数据,得到修正音频数据,包括:在获取针对用户界面元素中对应乐器的修改指令时,根据乐器的预设音频特征为修改后的乐器对应的音频段进行音频重组,得到修正音频数据。
第二方面,本发明实施例提供了一种音频数据可视化处理装置,包括:音频分类模块,用于获取原始音频数据,对原始音频数据进行特征分类,得到至少一个音频类别;特征提取模块,用于对音频类别进行特征提取,得到特征信息;模态转化模块,用于将特征信息转换为对应的用户界面元素;逆向修改模块,用于在获取针对用户界面元素的修改指令时,调整原始音频数据,得到修正音频数据。
第三方面,本发明实施例提供了一种电子设备,包括显示屏、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现第一方面任一项所述的音频数据可视化处理方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现第一方面任一项所述的音频数据可视化处理方法的步骤。
与现有技术相比,本发明的有益效果是:
本发明提供的音频数据可视化处理方法,包括获取原始音频数据,对原始音频数据进行特征分类,得到至少一个音频类别;根据音频类别的不同对音频类别进行特征提取,得到不同音频类别的特征信息;将特征信息转换为对应的用户界面元素;以使得用户能够在用户界面对用户界面元素进行调整,并在获取针对用户界面元素的修改指令时,调整原始音频数据,得到修正音频数据。本发明能够将原始音频数据通过用户界面元素为用户提供音频视觉化的体验,以使得广大用户能够更加直观地感受和理解音频数据的内容,并通过对用户界面元素的修改,对音频数据进行调整。
附图说明
下面结合附图和实施例对本发明作进一步解释:
图1为本发明实施例提供的一种用于实现音频数据可视化处理方法的电子设备的结构示意图;
图2为本发明实施例提供的一种音频数据可视化处理方法的流程示意图;
图3为本发明实施例提供的在显示屏上显示的用户界面元素的内容示意图;
图4为本发明实施例提供的用户界面中的人声音频内容示意图;
图5为本发明实施例提供的用户界面中的乐器音频内容示意图;
图6为本发明实施例提供的用户界面中的另一人声音频内容示意图;
图7为本发明实施例提供的用户界面中的另一乐器音频内容示意图;
图8为本发明实施例提供的用户界面中的另一乐器音频内容示意图;
图9为本发明实施例提供的用户界面中的另一乐器音频内容示意图;
图10为本发明实施例提供的一种音频数据可视化处理装置的结构示意图。
实施方式
下面将结合本发明实施例中的附图,对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
音频数据可视化处理是指将音频数据的特征信息通过图像数据表征出来,从而达到音频模态和图像模态互相表达目的的技术手段。随着线上直播行业的兴起,以视频、音频为媒介的信息传递手段得到快速发展,随之诞生了大量视频数据处理、图像数据处理方法,但是现有的音频处理手段较为单调,一般只是将带有音乐的音频数据插入视频中,或将音频中的人声的音色进行替换为其他预设的音色,专业人士会通过音频处理器对音频数据的具体参数进行精细化处理,然而一般用户难以直观地对音频数据进行调整。
为了便于理解本发明实施例如何实现将音频数据直观的呈现给用户,请参阅图1,图1为本发明实施例提供的一种用于实现音频数据可视化处理方法的电子设备的结构示意图。该电子设备包括处理器101、存储器102、显示屏103和总线。其中,处理器101、存储器102和显示屏103之间的数据传输通过总线传输,存储器102上存储有能够在处理器101上运行的计算机程序,显示屏103用于提供用户界面,能够将数字信号以图形样式展示给用户。虽然在图1中示出了某些组件,但是在其他实施例中,环境可以具有不同的组件。此外,组件之间的功能可以在其他实施例中以不同的方式分布到不同的或多个模块。
在本实施例中,显示屏103可以是触控屏,能够用于接收外部的控制指令输入。显示屏也可以通过外接鼠标、键盘等输入设备,以实现人机交互。触控输入、鼠标输入和键盘输入都是人与计算机交互的手段,在其他实施例中,还可能存在通过隔空手势、AR/VR等技术实现人与计算机交互的手段,在此不作限制。
在本实施例中,电子设备还包括网络接口(图1中未示出),网络接口通过网络与云端服务器连接。在一个实施例中,网络是互联网,但也可以是任何网络,包括但不限于LAN、MAN、WAN、移动、有线或无线网络、云计算网络、专用网络或虚拟专用网络,以及它们的任何组合。另外,可以使用诸如安全套接字层(SSL)、安全HTTP和/或虚拟专用网络(VPN)之类的传统加密技术来加密网络的全部或一些链路。在另一个实施例中,实体可以使用定制和/或专用数据通信技术来代替或补充上述的技术。
请参阅图2,图2为本发明实施例提供的一种音频数据可视化处理方法的流程示意图。在本实施例中,音频数据可视化处理方法包括以下步骤:
S210,获取原始音频数据,对原始音频数据进行特征分类,得到至少一个音频类别;
S220,对音频类别进行特征提取,得到特征信息;
S230,将特征信息转换为对应的用户界面元素;
S240,在获取针对用户界面元素的修改指令时,调整原始音频数据,得到修正音频数据。
在本发明实施例中,步骤S210,获取原始音频数据,对原始音频数据进行特征分类,得到至少一个音频类别。其中,音频数据中一般会包含多种类别信息,如人声音频、乐器音频以及其他背景音频等。对原始音频数据进行特征分类,可以通过构建神经网络模型,实现分类。
在本实施例中,音频数据可视化处理方法的执行主体(例如图1所示的电子设备)可以通过各种方式获取待处理的原始音频数据。例如,上述执行主体可以通过录音设备录制用户演唱的声音,得到原始音频数据。其中,录音设备可以集成于上述执行主体上,也可以与执行主体通信连接,本发明对此不做限制。又如,上述执行主体也可以从本地或通信连接的其他存储设备中获取预先存储的原始音频数据。
作为一个可选地实施方式,获取原始音频数据,对原始音频数据进行特征分类,得到至少一个音频类别前,将建立一个待训练的音频分类神经网络模型,具体包括如下步骤:获取大量包含有人声音频、乐器音频等不同类别标签的音频数据,并将带有类别标签的音频数据输入待训练的音频分类神经网络模型进行训练,当模型的损失函数收敛至预设范围,则得到目标音频分类神经网络模型。可以理解地,基于需要处理的音频类别的不同,可以添加不同音频类别的数据对待训练的音频分类神经网络模型进行训练,在本实施例中,仅以人声音频和乐器音频作为示例性说明,背景音频可以是没被分为人声音频且没被分为乐器音频的音频数据。
在某一具体实施例中,获取原始音频数据,对原始音频数据进行特征分类,得到至少一个音频类别,包括:使用训练完成的目标音频分类神经网络模型,对音频进行分类,具体步骤可以包括:对原始音频数据进行特征采样得到特征序列;将特征序列输入特征编码器,得到特征序列的特征向量;将特征向量输入特征解码器,得到至少一个音频类别。
为了提高神经网络模型的处理效率,还包括:对所述原始音频数据进行语音识别,对其中有人声部分的音频进行标记,并提取有人声部分的音频作为混合人声的原始音频片段。仅输入混合人声的原始音频片段,由目标音频分类神经网络模型将混合人声的原始音频片段中的人声和音乐进行分类。
在本实施例中,目标音频分类神经网络模型包括编码器和解码器。其中,编码器包括若干卷积层、编码残差单元和编码转换函数,解码器包括若干反卷积层、解码残差单元和编码转换函数。编码器和解码器之间包括若干中间连接层,在通道维度实现拼接。本实施例作为音频分类的一个示例,其他对音频进行分类的手段也可以应用在本发明中,再此不作限制。
请参阅图3,图3为本发明实施例提供的在显示屏上显示的用户界面元素的内容示意图。可以将图3所示的用户界面元素理解为在显示器的用户界面上呈现给用户的示意图。其中包括乐器音频对应的用户界面元素、人声音频对应的用户界面元素和背景音频对应的用户界面元素,同时展示了时间轴,时间轴以便于用户了解当前所展示的用户界面元素所处于原始音频数据的具体时间节点。
请参阅图4-5,分别是本发明实施例提供的用户界面中的人声音频内容示意图和本发明实施例提供的用户界面中的乐器音频内容示意图。在本实施例中,在前述实施例中采用目标音频分类神经网络模型将音频数据区分为人声音频和乐器音频后,还可以继续通过类似的分类神经网络进一步对音频做区分。图4中的第一人声音频对应的用户界面元素和第二人声音频对应的用户界面元素分别指代两个不同的人的数据。图5中第一乐器音频对应的用户界面元素和第二乐器音频对应的用户界面元素分别指代两种不同乐器的数据。
在本发明实施例中,步骤S220,对音频类别进行特征提取,得到特征信息,可以利用一些现有的音频处理软件或开源的音频处理工具包提取待处理音频的各种特性。音频特性数据包括但不限于:频谱、频谱中心点、频谱差分幅度、信噪比、频谱截止频谱等等。作为示例,也可以利用现有的各种算法(如傅里叶变换)对待处理音频进行各种特性的提取。
在某一实施例中,步骤S220,对音频类别进行特征提取,得到特征信息,包括:对音频类别进行频谱特征提取,得到与时间轴相关的频谱特征。频谱特征用于表现的是一段音频在某一时刻各个频率的音量的高低,一般用示意图的横轴表现频率方向,纵轴表现振幅,可以通过将音频数据的复合波形进行傅里叶变换,拆解还原成每个频率上单一的正弦波构成,相当于把二维的波形图往纸面方向拉伸,变成三维的立体模型,频谱在这个立体模型的频率轴方向上进行切片,在每个时刻都可以在与时间轴垂直的方向上进行切片,形成以横坐标为频率,纵坐标为幅值的频谱图,用以表示一个静态的时间点上各频率正弦波的幅值大小的分布状况。
在某一实施例中,步骤S220,对音频类别进行特征提取,得到特征信息,包括:对音频类别进行波形特征提取,得到与时间轴相关的波形特征。波形特征用于表现的是一段音频在一段时间内音量的变化,其横轴是时间方向,纵轴是振幅方向。在一些实施例中,也可以先将音频数据作傅里叶变换,然后以横轴为时间,纵轴为频率,在一幅图中表示信号的频率、幅度随时间的变化。
在某一实施例中,用户能够通过添加指令信息,将用户界面中的元素调节频谱特征和波形特征,还能通过时间轴选择某个时间段内的人声音频或乐器音频,将该时间段内的人声音频或乐器音频进行删除、复制、粘贴、移动等操作。
请参阅图6,图6为本发明实施例提供的用户界面中的另一人声音频内容示意图。在本实施例中,步骤S220,对音频类别进行特征提取,得到特征信息,包括:对人声音频进行文本特征提取,得到与时间轴相关的字幕特征。在本实施例中,字幕中突出的字符与时间轴的时间节点标识相关,用于指示当前时间节点标识对应字幕中的具体字符。在本发明实施例中,对人声音频进行音色分析,对人声音频进行分类提取,得到至少一种对应的分类人声音频;对分类人声音频进行文本特征提取,得到分类人声音频与时间轴相关的字幕特征。由于一段音频中可能存在多个不同音色的人声音频,因此需要做出相应区分,以防止不同音色的音频出现串扰。
在某一实施例中,在获取针对用户界面元素的修改指令时,调整原始音频数据,得到修正音频数据,包括:在获取针对用户界面元素中对应字幕的修改指令时,根据字幕的音色为修改后的字幕对应的音频段进行音频重组,得到修正音频数据。即,一段音频中可能出现发音错误,需要将“不知天上宫阙”对应的音频,修改为“应是天上宫阙”对应的音频。因此本申请将提前识别该段人生音频的声音特色,并将需要修改的字符进行对照修订。其中,音色即声音特色,包括音量、语速、语调等特征信息。
在本发明实施例中,对第一人声音频进行文本特征提取和音频音色提取,得到该人声音频所包含的字幕文本及识别音频音色,获取字幕文本对应的标准音频音色,将标准音频音色与识别音频音色进行特征比对,得到音色差异信息,根据音色差异信息模拟修改后的字幕对应的音频段,并进行音频重组,得到修正音频数据。人声音频可以包括可以理解为语言的任何类型的音频,包括口语对话、唱歌等,也可以包括多种语言的音频,包括但不限于汉语、英语、日语等。
在某一具体实施中,对所述人声音频进行文本特征提取,得到与时间轴相关的字幕特征为:明月几时有把酒问青天不知天上宫阙今夕是何年我欲乘风归去。为了将字幕中对应的“不知天上宫阙”修改为“应是天上宫阙”,执行方法,包括:对人声音频进行文本特征提取和音频音色提取,得到该人声音频所包含的字幕文本及识别音频音色,获取字幕文本对应的标准音频音色,将标准音频音色与识别音频音色进行特征比对,得到音色差异信息,根据音色差异信息模拟“应是天上宫阙”对应的音频段,并删除原本“不知天上宫阙”的音频段,添加模拟得到的“应是天上宫阙”对应的音频段至对应的时间轴中,得到修正音频数据。
在本发明实施例中,标准音频音色可以从开源的文字发音库中爬取得到,考虑到电子设备的存储器存储空间可能受到限制,或处理器的运行能力有限,可以将部分音频处理过程转至云端完成。
在某一具体实施例中,考虑到将标准音频音色与识别音频音色进行特征比对需要耗费较多的存储空间及处理器的运行空间,在需要通过字幕特征修正音频数据时,电子设备通过通信手段将人声音频上传至云端,在云端对第一人声音频进行文本特征提取和音频音色提取,得到该人声音频所包含的字幕文本及识别音频音色,获取字幕文本对应的标准音频音色,将标准音频音色与识别音频音色进行特征比对,得到音色差异信息,根据音色差异信息模拟修改后的字幕对应的音频段,并将修改后的字幕对应的音频段下发至电子设备中,由电子设备的处理器将修改后的字幕对应的音频段添加至对应的时间轴中,得到修正音频数据。
在一些实施例中,对音频数据进行特征分类和特征提取后,还包括:就要人声音频的音色,判断对应的人声音频是女生、男生、小孩或老人,并在用户界面上展示女生、男生、小孩或老人对应的人脸动画。进一步的,用户还能通过上传/调取图像/视频数据,为人声音频定制用于呈现的人脸动画。例如,当前人声音频为张三的声音,用户能够通过上传或搜索选择张三的图像/视频数据,将张三的图形/视频数据作为用户界面元素,添加至显示屏的用户界面中。最终在时间轴的整体呈现效果将是:某个时间节点下,出现了张三的声音时,用户界面上将显示出张三对应的用户界面元素。在某个实际应用中,张三对应的用户界面元素的大小、透明度、位置信息,分别代表张三对应的人声音频的音量、张三对应的人声音频在整体的音频数据中的音量占比比重,张三对应的人声音频的发生时间与当前时间节点标识之间的间隔偏差。能够在用户界面生动形象地体现出音频的可视化特征,便于用户对音频数据对应的用户界面元素调整,以改变音频数据。
请参阅图7,图7为本发明实施例提供的用户界面中的另一乐器音频内容示意图。在本实施例中,第一乐器为钢琴,图7所示的乐器音频内容示意图将某个钢琴音频以乐谱作为用户界面元素。
在本发明实施例中,在获取针对用户界面元素中对应乐器的修改指令时,根据乐器的预设音频特征为修改后的乐器对应的音频段进行音频重组,得到修正音频数据。如,需要将图7所示的用户界面元素中的“065”修改为“334”,可以直接根据钢琴的预设音频特征生成“334”的音频段,并将新生成的“334”音频段与“065”对应的音频段替换后进行音频重组,得到修正音频数据。
请参阅图8,图8为本发明实施例提供的用户界面中的另一乐器音频内容示意图。在本实施例中,第一乐器为钢琴,图8所示的乐器音频内容示意图将某个钢琴音频以虚拟钢琴键作为用户界面元素。在本发明实施例中,用户可以通过虚拟钢琴键实现新增音频或删除音频。例如,在图8中当前时间节点下,虚拟钢琴键中箭头所指的圆形区域琴键被触发,用户可以选择删除、覆盖或增加音频,基于虚拟钢琴键对音频数据进行调整。
在某一具体实施例中,获取修改指令,通过在时间节点a-时间节点b之间在虚拟钢琴键上随着时间变化触发琴键,并存储在时间节点a-时间节点b之间在虚拟钢琴键上触发琴键得到的音频段,将触发琴键得到的音频段添加进第一乐器音频的时间节点a-时间节点b之间,得到修正音频数据。
请参阅图9,图9为本发明实施例提供的用户界面中的另一乐器音频内容示意图。在本实施例中,第二乐器为吉他,图9所示的乐器音频内容示意图将某个吉他音频以虚拟吉他弦作为用户界面元素。在本发明实施例中,用户可以通过虚拟吉他弦实现新增音频或删除音频。例如,在图9中当前时间节点下,虚拟吉他弦中箭头所指的圆形区域琴弦被触发,用户可以选择删除、覆盖或增加音频,基于虚拟吉他弦对音频数据进行调整。上述对应实施例类似的介绍,在此不再赘述。
在本发明实施例中,示出了虚拟钢琴键和虚拟吉他弦作为用户界面元素的情况,本领域技术人员可以想到,在对音频特征进行分类时,是可以通过对神经网络模型进行相应的训练,以实现识别出多种类乐器音频的功能。因此,用户界面元素也可以是二胡、小提琴、古筝、木鱼等乐器的虚拟形象,在此不再赘述。
基于与上述方法相同的发明构思,在本公开另一实施例中,还公开了一种音频数据可视化处理装置。请参阅图10,图10为本发明实施例提供的一种音频数据可视化处理装置的结构示意图。本发明实施例提供的音频数据可视化处理装置,包括音频分类模块310,用于获取原始音频数据,对原始音频数据进行特征分类,得到至少一个音频类别;特征提取模块320,用于对音频类别进行特征提取,得到特征信息;模态转化模块330,用于将特征信息转换为对应的用户界面元素;逆向修改模块340,用于在获取针对用户界面元素的修改指令时,调整原始音频数据,得到修正音频数据。
需要说明的是,在本发明实施例中,各个模块的具体实现还可以对应参照图2-图9所示的方法实施例的相应描述。
本发明实施例提供的电子设备,用于图2-图9所示的方法实施例。电子设备可以包括:至少一个处理器,例如中央处理器,至少一个总线,至少一个网络接口,存储器,显示屏和人机交互输入设备。其中,总线用于实现处理器、网络接口、存储器、显示屏和人机交互输入设备之间的连接通信。网络接口可选的可以包括标准的有线接口、无线接口(如WIFI接口、蓝牙接口),通过网络接口可以与云端建立通信连接。存储器可以是高速RAM存储器,也可以是非不稳定的存储器,例如至少一个磁盘存储器。作为一种计算机存储介质的存储器中可以包括操作系统、网络通信模块以及计算机程序。人机交互输入设备可以是鼠标、键盘、触控模组或手势识别模组等。
需要说明的是,网络接口可以连接获取器、发射器或其他通信模块,其他通信模块可以包括但不限于WiFi模块、蓝牙模块等,可以理解,本发明实施例中音频数据可视化处理装置也可以包括获取器、发射器和其他通信模块等。处理器可以用于调用存储器中存储的程序指令,可以执行如图2-9所示实施例提供的方法。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述任一个方法中的一个或多个步骤。上述信号处理装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在所述计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solidstatedisk,SSD))等。
综上所述,通过实施本发明实施例,获取原始音频数据,对原始音频数据进行特征分类,得到至少一个音频类别;对音频类别进行特征提取,得到特征信息;将特征信息转换为对应的用户界面元素;在获取针对用户界面元素的修改指令时,调整原始音频数据,得到修正音频数据。本发明能够将原始音频数据通过用户界面元素为用户提供音频视觉化的体验,以使得广大用户能够更加直观地感受和理解音频数据的内容,并通过对用户界面元素的修改,对音频数据进行调整。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备、装置等的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种音频数据可视化处理方法,其特征在于,包括:
获取原始音频数据,对所述原始音频数据进行特征分类,得到至少一个音频类别;其中,所述音频类别包括人声音频和/或乐器音频;
对所述音频类别进行特征提取,得到特征信息;所述对所述音频类别进行特征提取,得到特征信息,包括:对所述乐器音频进行乐器特征提取,得到与时间轴相关的乐器特征;
将所述特征信息转换为对应的用户界面元素;
在获取针对所述用户界面元素的修改指令时,调整所述原始音频数据,得到修正音频数据;所述在获取针对所述用户界面元素的修改指令时,调整所述原始音频数据,得到修正音频数据,包括:在获取针对所述用户界面元素中对应乐器的修改指令时,根据所述乐器的预设音频特征为修改后的乐器对应的音频段进行音频重组,得到修正音频数据。
2.根据权利要求1所述的音频数据可视化处理方法,其特征在于,所述获取原始音频数据,对所述原始音频数据进行特征分类,得到至少一个音频类别,包括:
对原始音频数据进行特征采样得到特征序列;
将所述特征序列输入特征编码器,得到所述特征序列的特征向量;
将所述特征向量输入特征解码器,得到至少一个音频类别。
3.根据权利要求1所述的音频数据可视化处理方法,其特征在于,所述对所述音频类别进行特征提取,得到特征信息,包括:
对所述人声音频进行文本特征提取,得到与时间轴相关的字幕特征。
4.根据权利要求3所述的音频数据可视化处理方法,其特征在于,所述对所述人声音频进行文本特征提取,得到与时间轴相关的字幕特征,包括:
对所述人声音频进行音色分析,对所述人声音频进行分类提取,得到至少一种对应的分类人声音频;
对所述分类人声音频进行文本特征提取,得到所述分类人声音频与时间轴相关的字幕特征。
5.根据权利要求4所述的音频数据可视化处理方法,其特征在于,所述在获取针对所述用户界面元素的修改指令时,调整所述原始音频数据,得到修正音频数据,包括:
在获取针对所述用户界面元素中对应字幕的修改指令时,根据所述字幕的音色为修改后的字幕对应的音频段进行音频重组,得到修正音频数据。
6.根据权利要求1所述的音频数据可视化处理方法,其特征在于,所述对所述音频类别进行特征提取,得到特征信息,包括:
对所述音频类别进行频谱特征提取,得到与时间轴相关的频谱特征;和/或,
对所述音频类别进行波形特征提取,得到与时间轴相关的波形特征。
7.一种音频数据可视化处理装置,其特征在于,包括:
音频分类模块,用于获取原始音频数据,对所述原始音频数据进行特征分类,得到至少一个音频类别;其中,所述音频类别包括人声音频和/或乐器音频;
特征提取模块,用于对所述音频类别进行特征提取,得到特征信息;所述对所述音频类别进行特征提取,得到特征信息,包括:对所述乐器音频进行乐器特征提取,得到与时间轴相关的乐器特征;
模态转化模块,用于将所述特征信息转换为对应的用户界面元素;
逆向修改模块,用于在获取针对所述用户界面元素的修改指令时,调整所述原始音频数据,得到修正音频数据;所述在获取针对所述用户界面元素的修改指令时,调整所述原始音频数据,得到修正音频数据,包括:在获取针对所述用户界面元素中对应乐器的修改指令时,根据所述乐器的预设音频特征为修改后的乐器对应的音频段进行音频重组,得到修正音频数据。
8.一种电子设备,其特征在于,包括显示屏、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述音频数据可视化处理方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述音频数据可视化处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310891371.2A CN116612781B (zh) | 2023-07-20 | 2023-07-20 | 一种音频数据可视化处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310891371.2A CN116612781B (zh) | 2023-07-20 | 2023-07-20 | 一种音频数据可视化处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116612781A CN116612781A (zh) | 2023-08-18 |
CN116612781B true CN116612781B (zh) | 2023-09-29 |
Family
ID=87684015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310891371.2A Active CN116612781B (zh) | 2023-07-20 | 2023-07-20 | 一种音频数据可视化处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612781B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10423660B1 (en) * | 2017-12-07 | 2019-09-24 | Amazon Technologies, Inc. | System for detecting non-synchronization between audio and subtitle |
CN110418208A (zh) * | 2018-11-14 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的字幕确定方法和装置 |
CN113470664A (zh) * | 2021-06-30 | 2021-10-01 | 平安科技(深圳)有限公司 | 语音转换方法、装置、设备及存储介质 |
WO2022000829A1 (zh) * | 2020-06-30 | 2022-01-06 | 深圳传音控股股份有限公司 | 音频数据处理方法、终端设备及计算机可读存储介质 |
CN115101060A (zh) * | 2022-06-27 | 2022-09-23 | 慕思健康睡眠股份有限公司 | 一种音频分类方法、装置、处理设备及介质 |
US11462207B1 (en) * | 2021-11-03 | 2022-10-04 | Institute Of Automation, Chinese Academy Of Sciences | Method and apparatus for editing audio, electronic device and storage medium |
CN115798459A (zh) * | 2023-02-03 | 2023-03-14 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及电子设备 |
-
2023
- 2023-07-20 CN CN202310891371.2A patent/CN116612781B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10423660B1 (en) * | 2017-12-07 | 2019-09-24 | Amazon Technologies, Inc. | System for detecting non-synchronization between audio and subtitle |
CN110418208A (zh) * | 2018-11-14 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的字幕确定方法和装置 |
WO2022000829A1 (zh) * | 2020-06-30 | 2022-01-06 | 深圳传音控股股份有限公司 | 音频数据处理方法、终端设备及计算机可读存储介质 |
CN113470664A (zh) * | 2021-06-30 | 2021-10-01 | 平安科技(深圳)有限公司 | 语音转换方法、装置、设备及存储介质 |
US11462207B1 (en) * | 2021-11-03 | 2022-10-04 | Institute Of Automation, Chinese Academy Of Sciences | Method and apparatus for editing audio, electronic device and storage medium |
CN115101060A (zh) * | 2022-06-27 | 2022-09-23 | 慕思健康睡眠股份有限公司 | 一种音频分类方法、装置、处理设备及介质 |
CN115798459A (zh) * | 2023-02-03 | 2023-03-14 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116612781A (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10210769B2 (en) | Method and system for reading fluency training | |
CN108806656B (zh) | 歌曲的自动生成 | |
US11049525B2 (en) | Transcript-based insertion of secondary video content into primary video content | |
JP2013068952A (ja) | 音声認識結果の統合 | |
WO2022184055A1 (zh) | 文章的语音播放方法、装置、设备、存储介质及程序产品 | |
JP7240505B2 (ja) | 音声パケット推薦方法、装置、電子機器およびプログラム | |
CN101639943A (zh) | 制作动画的方法和设备 | |
JP6866336B2 (ja) | 人工知能アプリケーションを構築する方法及び装置 | |
Bryan et al. | ISSE: An interactive source separation editor | |
CN110740275A (zh) | 一种非线性编辑系统 | |
CN112231015B (zh) | 一种基于浏览器的操作指导方法、sdk插件及后台管理系统 | |
JP2014109988A (ja) | モーション映像生成装置及びモーション映像生成プログラム | |
KR102353797B1 (ko) | 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템 | |
KR101634068B1 (ko) | 교육용 컨텐츠맵 생성방법 및 장치 | |
Knotts et al. | AI-Lectronica: Music AI in clubs and studio production | |
CN116612781B (zh) | 一种音频数据可视化处理方法、装置、设备及存储介质 | |
CN111914115A (zh) | 一种声音信息的处理方法、装置及电子设备 | |
JP2020052262A (ja) | 修正候補提示方法、修正候補提示プログラムおよび情報処理装置 | |
CN113920971A (zh) | 一种基于音乐语义的音乐色彩可视化方法 | |
CN112465679A (zh) | 一种钢琴学习与创作系统及方法 | |
JP7385289B2 (ja) | プログラム及び情報処理装置 | |
CN112785993B (zh) | 一种乐曲生成方法、装置、介质和计算设备 | |
KR102585031B1 (ko) | 실시간 외국어 발음 평가시스템 및 방법 | |
Fazekas | Semantic Audio Analysis Utilities and Applications. | |
Shestakevych et al. | Designing an Application for Monitoring the Ukrainian Spoken Language. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |