CN116129934A - 音频分析方法、装置、设备及存储介质 - Google Patents
音频分析方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116129934A CN116129934A CN202310120151.XA CN202310120151A CN116129934A CN 116129934 A CN116129934 A CN 116129934A CN 202310120151 A CN202310120151 A CN 202310120151A CN 116129934 A CN116129934 A CN 116129934A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- audio
- target
- time sequence
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 132
- 238000012545 processing Methods 0.000 claims abstract description 83
- 230000005236 sound signal Effects 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 36
- 230000011218 segmentation Effects 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 17
- 230000033764 rhythmic process Effects 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 13
- 230000001960 triggered effect Effects 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 20
- 238000000034 method Methods 0.000 description 69
- 230000008569 process Effects 0.000 description 39
- 230000006870 function Effects 0.000 description 17
- 230000009286 beneficial effect Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000739 chaotic effect Effects 0.000 description 2
- 230000001976 improved effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000008093 supporting effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 241000989913 Gunnera petaloidea Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本公开关于一种音频分析方法、装置、设备及存储介质,涉及计算机技术领域,用于解决通用技术在对终端的音频数据进行处理时准确率较低且成本较高的问题。该音频分析方法,包括:获取目标音频的干声音频数据;将干声音频数据输入至目标音素识别模型中进行音素识别处理,得到目标音素时间序列;目标音素识别模型为基于多个语种进行同音合并后的音素集合训练得到的;将干声音频数据输入至目标文本识别模型中进行文本识别处理,得到目标文字时间序列;目标文本识别模型为基于目标音频的歌词信息训练得到的;确定干声音频数据的音频信号特征信息;根据目标音素时间序列、目标文字时间序列和音频信号特征信息,确定干声音频数据的音频分析结果。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种音频分析方法、装置、设备及存储介质。
背景技术
随着终端(例如手机)录制歌曲功能的广泛应用,对录制歌曲内的歌声进行智能评价、修饰和合成等的衍生功能也得到了普及。这些衍生功能在实现时,一般需要对歌声的特征进行准确地分析处理,以保证处理后的结果符合用户的主观感知。
由于对歌声的特征进行分析处理涉及的技术实现复杂度较高,通常需要占用较多的存储资源和计算资源等,通用技术中一般是采用将相关实现算法等资源文件部署在云端服务器中,通过云端服务器进行分析处理的方式。
这种依赖服务器进行处理的方式,需要将终端的数据传输至云端服务器,容易出现由数据传输错误导致的处理结果中时间和歌声错位的现象,造成分析结果的准确率较低,容易影响用户体验。并且,在海量用户并发使用的情况下,这种依赖服务器进行处理的方式对服务器的计算容量要求较高,容易导致较高的服务器的部署成本。
发明内容
本公开提供一种音频分析方法、装置、设备及存储介质,用于解决通用技术在对终端的音频数据进行处理时准确率较低且成本较高的问题。
本公开实施例的技术方案如下:
根据本公开实施例的第一方面,提供一种音频分析方法,包括:获取目标音频的干声音频数据;将干声音频数据输入至目标音素识别模型中进行音素识别处理,得到目标音素时间序列;目标音素识别模型为基于多个语种进行同音合并后的音素集合训练得到的;目标音素时间序列包括干声音频数据中各音素发音时段对应的至少一个候选识别音素;将干声音频数据输入至目标文本识别模型中进行文本识别处理,得到目标文字时间序列;目标文本识别模型为基于目标音频的歌词信息训练得到的;目标文字时间序列包括干声音频数据中各文字发音时段对应的目标识别文字;确定干声音频数据的音频信号特征信息;根据目标音素时间序列、目标文字时间序列和音频信号特征信息,确定干声音频数据的音频分析结果;音频分析结果用于表征目标音频的发音节奏、发音力度和发音精度。
可选地,确定干声音频数据的音频信号特征信息的方法,具体包括:将干声音频数据划分为多个预设长度的音频数据帧;确定各音频数据帧的基音频率值和响度值,得到音频信号特征信息。
可选地,根据目标音素时间序列、目标文字时间序列和音频信号特征信息,确定干声音频数据的音频分析结果的方法,具体包括:对目标文字时间序列进行音素切分处理,得到切分后音素时间序列;切分后音素时间序列包括各目标识别文字对应的至少一个切分后音素,以及各切分后音素的开始时刻和终止时刻;基于切分后音素时间序列和各音频数据帧的基音频率值,确定用于表征目标音频的发音节奏的节拍点时间序列;根据节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定节拍点时间序列中各音素的响度值,得到用于表征目标音频的发音力度的响度值时间序列;基于切分后音素时间序列和目标音素时间序列,确定用于表征目标音频的发音精度的精度值时间序列。
可选地,基于切分后音素时间序列和各音频数据帧的基音频率值,确定用于表征目标音频的发音节奏的节拍点时间序列的方法,具体包括:将各切分后音素中预设类型音素的开始时刻确定为候选节拍点,得到与多个预设类型音素一一对应的多个候选节拍点;预设类型音素包括元音音素;基于各音频数据帧的基音频率值对多个候选节拍点进行更新处理,得到与多个预设类型音素一一对应的多个更新后节拍点;更新后节拍点对应的音频数据帧的基音频率值大于预设阈值;将多个预设类型音素的开始时刻对应调整为多个更新后节拍点,得到节拍点时间序列。
可选地,根据节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定节拍点时间序列中各音素的响度值,得到用于表征目标音频的发音力度的响度值时间序列的方法,具体包括:按照响度值从大到小的顺序,对节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧进行排序,得到节拍点时间序列中各音素对应的响度值排序结果;将各响度值排序结果中的前预设数量个响度值的平均值,确定为节拍点时间序列中各音素对应的响度值,得到响度值时间序列。
可选地,基于切分后音素时间序列和目标音素时间序列,确定用于表征目标音频的发音精度的精度值时间序列的方法,具体包括:确定各音素发音时段对应的至少一个候选识别音素中,符合预设条件的候选识别音素的第一数量;将各音素发音时段对应的第一数量和第二数量之间的比值,确定为切分后音素时间序列中各切分后音素的精度值,得到精度值时间序列;第二数量为发音时段对应的至少一个候选识别音素的数量。
可选地,获取目标音频的干声音频数据的方法,具体包括:响应于对目标音频触发的录制操作指令,获取目标音频对应的配乐音频数据;播放配乐音频数据,并录制目标音频的干声音频数据。
可选地,响应于对目标音频触发的录制操作指令,获取目标音频的配乐音频数据的方法,具体包括:响应于录制操作指令,向服务器发送配乐资源请求消息;配乐资源请求消息用于请求目标音频对应的配乐音频数据;接收服务器发送的目标音频对应的配乐音频数据。
可选地,该音频分析方法,还包括:响应于录制操作指令,向服务器发送模型资源请求消息;模型资源请求消息用于请求目标音素识别模型的资源文件和目标文本识别模型的资源文件;接收服务器发送的目标音素识别模型的资源文件和目标文本识别模型的资源文件。
根据本公开实施例的第二方面,提供一种音频分析装置,包括:获取单元、处理单元和确定单元;
获取单元,被配置为执行获取目标音频的干声音频数据;
处理单元,被配置为执行将干声音频数据输入至目标音素识别模型中进行音素识别处理,得到目标音素时间序列;目标音素识别模型为基于多个语种进行同音合并后的音素集合训练得到的;目标音素时间序列包括干声音频数据中各音素发音时段对应的至少一个候选识别音素;
处理单元,还被配置为执行将干声音频数据输入至目标文本识别模型中进行文本识别处理,得到目标文字时间序列;目标文本识别模型为基于目标音频的歌词信息训练得到的;目标文字时间序列包括干声音频数据中各文字发音时段对应的目标识别文字;
确定单元,被配置为执行确定干声音频数据的音频信号特征信息;
确定单元,还被配置为执行根据目标音素时间序列、目标文字时间序列和音频信号特征信息,确定干声音频数据的音频分析结果;音频分析结果用于表征目标音频的发音节奏、发音力度和发音精度。
可选地,确定单元,具体被配置为执行:将干声音频数据划分为多个预设长度的音频数据帧;确定各音频数据帧的基音频率值和响度值,得到音频信号特征信息。
可选地,确定单元,具体被配置为执行:对目标文字时间序列进行音素切分处理,得到切分后音素时间序列;切分后音素时间序列包括各目标识别文字对应的至少一个切分后音素,以及各切分后音素的开始时刻和终止时刻;基于切分后音素时间序列和各音频数据帧的基音频率值,确定用于表征目标音频的发音节奏的节拍点时间序列;根据节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定节拍点时间序列中各音素的响度值,得到用于表征目标音频的发音力度的响度值时间序列;基于切分后音素时间序列和目标音素时间序列,确定用于表征目标音频的发音精度的精度值时间序列。
可选地,确定单元,具体被配置为执行:将各切分后音素中预设类型音素的开始时刻确定为候选节拍点,得到与多个预设类型音素一一对应的多个候选节拍点;预设类型音素包括元音音素;基于各音频数据帧的基音频率值对多个候选节拍点进行更新处理,得到与多个预设类型音素一一对应的多个更新后节拍点;更新后节拍点对应的音频数据帧的基音频率值大于预设阈值;将多个预设类型音素的开始时刻对应调整为多个更新后节拍点,得到节拍点时间序列。
可选地,确定单元,具体被配置为执行:按照响度值从大到小的顺序,对节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧进行排序,得到节拍点时间序列中各音素对应的响度值排序结果;将各响度值排序结果中的前预设数量个响度值的平均值,确定为节拍点时间序列中各音素对应的响度值,得到响度值时间序列。
可选地,确定单元,具体被配置为执行:确定各音素发音时段对应的至少一个候选识别音素中,符合预设条件的候选识别音素的第一数量;将各音素发音时段对应的第一数量和第二数量之间的比值,确定为切分后音素时间序列中各切分后音素的精度值,得到精度值时间序列;第二数量为发音时段对应的至少一个候选识别音素的数量。
可选地,获取单元,具体被配置为执行:响应于对目标音频触发的录制操作指令,获取目标音频对应的配乐音频数据;播放配乐音频数据,并录制目标音频的干声音频数据。
可选地,获取单元,具体被配置为执行:响应于录制操作指令,向服务器发送配乐资源请求消息;配乐资源请求消息用于请求目标音频对应的配乐音频数据;接收服务器发送的目标音频对应的配乐音频数据。
可选地,获取单元,还被配置为执行响应于录制操作指令,向服务器发送模型资源请求消息;模型资源请求消息用于请求目标音素识别模型的资源文件和目标文本识别模型的资源文件;接收服务器发送的目标音素识别模型的资源文件和目标文本识别模型的资源文件。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现如第一方面中任一项的音频分析方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面中任一项的音频分析方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在终端的处理器上运行时,使得电子设备执行如第一方面中任一种可选地实现方式所述的音频分析方法。或者,当计算机指令在服务器的处理器上运行时,使得电子设备执行如第二方面中任一种可选地实现方式所述的音频分析方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本公开的实施例提供的技术方案至少带来以下有益效果:
基于上述任一方面,本公开中,终端在获取目标音频的干声音频数据后,可以将干声音频数据输入至目标音素识别模型中进行音素识别处理,得到目标音素时间序列,并可以将干声音频数据输入至目标文本识别模型中进行文本识别处理,得到目标文字时间序列,以及确定干声音频数据的音频信号特征信息,以进一步根据目标音素时间序列、目标文字时间序列和音频信号特征信息,确定干声音频数据的音频分析结果。其中,目标音素时间序列包括干声音频数据中各音素发音时段对应的至少一个候选识别音素。目标文字时间序列包括干声音频数据中各文字发音时段对应的目标识别文字。音频分析结果用于表征目标音频的发音节奏、发音力度和发音精度。
由于,目标音素识别模型为基于多个语种进行同音合并后的音素集合训练得到的,且目标文本识别模型为基于目标音频的歌词信息训练得到的。也就是说,目标音素识别模型训练时仅基于较少的音素数量,且可以同时识别多种语种的音素。目标文本识别模型训练时仅基于目标音频的歌词信息,被约束为只能识别出目标音频的歌词中所包括的文字。因此,本公开可以在降低识别解码的复杂度,保证模型体积满足终端运行要求的同时,保证识别结果的准确性。
这样一来,相比于通用技术中依赖服务器对音频的干声音频数据进行处理的方式,本公开通过降低音频分析过程的复杂度,可以支持将数据处理过程转移到终端进行,且同时可以保证音频分析过程的准确性,从而可以避免将音频的干声音频数据传输至服务器的过程中,由传输错误导致的音频分析结果中时间和歌声错位的现象,可以保证用户体验。并且,本公开不需要依赖较多的云端服务器进行数据处理,可以避免通用技术中存在的部署成本较高的问题。因此,本公开可以用于解决通用技术在对终端的音频数据进行处理时准确率较低且成本较高的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1示出了本公开实施例提供的一种音频分析系统的结构示意图;
图2示出了本公开实施例提供的一种音频分析方法的流程示意图一;
图3示出了本公开实施例提供的一种音频分析方法的流程示意图二;
图4示出了本公开实施例提供的一种音频分析方法的流程示意图三;
图5示出了本公开实施例提供的一种音频分析方法的流程示意图四;
图6示出了本公开实施例提供的一种音频分析方法的流程示意图五;
图7示出了本公开实施例提供的一种音频分析方法的流程示意图六;
图8示出了本公开实施例提供的一种音频分析方法的流程示意图七;
图9示出了本公开实施例提供的一种音频分析方法的流程示意图八;
图10示出了本公开实施例提供的一种音频分析方法的流程示意图九;
图11示出了本公开实施例提供的一种音频分析方法的流程示意图十;
图12示出了本公开实施例提供的一种音频分析方法的流程示意图十一;
图13示出了本公开实施例提供的一种模型的结构示意图;
图14示出了本公开实施例提供的一种音频分析方法的流程示意图十二;
图15示出了本公开实施例提供的一种音频分析流程的示意图;
图16示出了本公开实施例提供的一种音频分析装置的结构示意图;
图17示出了本公开实施例提供的一种终端的结构示意图;
图18示出了本公开实施例提供的一种服务器的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、用户行为信息等)和数据,均为经用户授权或者经过各方充分授权的信息和数据。
随着终端(例如手机)录制歌曲功能的广泛应用,对录制歌曲内的歌声进行智能评价、修饰和合成等的衍生功能也得到了普及。这些衍生功能在实现时,一般需要对歌声的特征进行准确地分析处理,以保证处理后的结果符合用户的主观感知。
由于对歌声的特征进行分析处理涉及的技术实现复杂度较高,通常需要占用较多的存储资源和计算资源等,通用技术中一般是采用将相关实现算法等资源文件部署在云端服务器中,通过云端服务器进行分析处理的方式。这种依赖服务器进行处理的方式,对网络条件要求较高,在数据传输错误时容易导致分析结果中时间和歌声错位的现象,造成分析结果的准确率较低,容易影响用户体验。并且,在海量用户并发使用的情况下,这种依赖服务器进行处理的方式对服务器的计算容量要求较高,容易导致较高的服务器的部署成本。
基于此,本公开实施例提供一种音频分析方法,终端在获取目标音频的干声音频数据后,可以将干声音频数据输入至目标音素识别模型中进行音素识别处理,得到目标音素时间序列,并可以将干声音频数据输入至目标文本识别模型中进行文本识别处理,得到目标文字时间序列,以及确定干声音频数据的音频信号特征信息,以进一步根据目标音素时间序列、目标文字时间序列和音频信号特征信息,确定干声音频数据的音频分析结果。其中,目标音素时间序列包括干声音频数据中各音素发音时段对应的至少一个候选识别音素。目标文字时间序列包括干声音频数据中各文字发音时段对应的目标识别文字。音频分析结果用于表征目标音频的发音节奏、发音力度和发音精度。
由于,目标音素识别模型为基于多个语种进行同音合并后的音素集合训练得到的,且目标文本识别模型为基于目标音频的歌词信息训练得到的。也就是说,目标音素识别模型训练时仅基于较少的音素数量,且可以同时识别多种语种的音素。目标文本识别模型训练时仅基于目标音频的歌词信息,被约束为只能识别出目标音频的歌词中所包括的文字。因此,本公开可以在降低识别解码的复杂度,保证模型体积满足终端运行要求的同时,保证识别结果的准确性。
这样一来,相比于通用技术中依赖服务器对音频的干声音频数据进行处理的方式,本公开通过降低音频分析过程的复杂度,可以支持将数据处理过程转移到终端进行,且同时可以保证音频分析过程的准确性,从而可以避免将音频的干声音频数据传输至服务器的过程中,由传输错误导致的音频分析结果中时间和歌声错位的现象,可以保证用户体验。并且,本公开不需要依赖较多的云端服务器进行数据处理,可以避免通用技术中存在的部署成本较高的问题。因此,本公开可以用于解决通用技术在对终端的音频数据进行处理时准确率较低且成本较高的问题。
图1为本公开实施例提供的一种音频分析系统示意图,如图1所示,该音频分析系统100可以包括:终端101和服务器102。终端101和服务器102之间可以基于有线网络或无线网络进行通信连接。
图1中的终端101可以配置有音频录制服务(例如歌曲录制服务)的客户端。或者,图1中的终端101也可以配置有具备音频录制功能的社交内容服务的客户端。基于此,终端可以支持用户进行音频的录制。进一步地,音频录制服务还可以用于支持用户对所录制音频的修改和合成等。
一种可能的方式中,终端101还可以配置有语音采集模块、输入模块、显示模块和通信模块。其中,语音采集模块可以是音频信号采集器。基于此,在用户进行音频的演唱时,终端可以通过配置的语音采集模块对用户的歌声进行采集,并基于音频录制服务的相关功能完成音频录制。输入模块可以是鼠标和键盘等计算机外接输入设备。显示模块可以是液晶显示屏等设备,用于显示音频录制服务的相关界面等。通信模块可以是收发器一类的装置,可以用于终端101和服务器102之间进行通信连接。
可选地,图1中的终端101可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,PDA)、增强现实(augmentedreality,AR)\虚拟现实(virtual reality,VR)设备等可以安装并使用内容社区应用的设备,本公开对该终端的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。
图1中的服务器102可以是音频录制服务的服务端。或者,图1中的服务器102也可以是具备音频录制功能的社交内容服务的服务端。服务器102还可以配置有存储模块。存储模块可以用于存储各种数据和服务的资源文件。例如,音频的配乐音频数据和音频识别资源等资源文件。进一步地,服务器102可以调用存储模块中存储的各种数据和服务的资源文件,以向终端101提供各种数据和服务。
一些实施例中,服务器102还可以包含有数据库或与数据库连接。数据库可以用于存储音频的配乐音频数据和音频识别资源等资源文件。在需要向终端发送音频的配乐音频数据和音频识别资源等资源文件时,服务器102可以调用数据库中存储的资源文件。
可选地,图1中的服务器102可以是单独的一个服务器,或者,也可以是由多个服务器构成的服务器集群。部分实施方式中,服务器集群还可以是分布式集群。本公开对服务器的具体实现方式也不作限制。
可选地,上述图1所示的音频分析系统中,服务器102可以与至少一个终端101进行通信连接。本公开对终端101的数量及类型均不作限制。
下面结合附图对本公开实施例提供的音频分析方法进行详细介绍。
如图2所示,当音频分析方法应用于图1中的终端101时,该音频分析方法可以包括:S201-S202。
S201、终端响应于对目标音频触发的录制操作指令,获取目标音频对应的配乐音频数据。
一种可能的方式中,目标音频可以是包括歌词信息和配乐音频数据等。例如,目标音频可以是一位歌手演唱后发布于互联网网络中的歌曲。
可选地,目标音频的配乐音频数据可以是用于播放目标音频的完整配乐的音频数据,也可以是用于播放目标音频的部分配乐的音频数据。
一种可能的方式中,用户在需要录制关于完整目标音频的演唱过程,或者关于部分目标音频的演唱过程时,可以通过终端配置的输入模块选择演唱类型(例如选择完整演唱或者特定部分演唱等),并执行录制操作(例如点击录制按钮),以触发关于目标音频的录制操作指令。响应于该录制操作指令,终端可以获取目标音频的配乐音频数据,以便于为用户提供配乐服务。
一种可能的方式中,终端可以是提供音频录制服务的运营商设置在固定地点的电子设备。例如,终端可以由运营商设置在大型商超或者商业街等人流量较大的地点,用于向用户提供音频录制服务。并且,终端可以配置有具备一定存储能力的缓存模块。缓存模块可以缓存有热点音频的配乐音频数据。热点音频可以是播放量较高或者录制次数较多的歌曲。在需要获取目标音频的配乐音频数据时,若目标音频为热点歌曲,则终端可以直接从缓存模块中读取目标音频的配乐音频数据。
具体而言,缓存模块可以存储有音频的唯一标识和音频的资源信息(例如配乐音频数据)的一一对应关系。基于此,终端可以根据目标音频的唯一标识,从缓存模块中读取目标音频的配乐音频数据。
可选的,音频的唯一标识可以是基于哈希算法生成的,也可以是基于音频关联的名称、创作日期和原创歌手等信息组合生成的。本公开实施例对此不作限制。
应理解,本公开实施例以下描述中涉及的数据读取等相关操作,均可以是基于数据的标识完成的,以下不再赘述。
S202、终端播放配乐音频数据,并录制目标音频的干声音频数据。
其中,目标音频的干声音频数据可以是用户演唱目标音频的音频数据。目标音频的干声音频数据可以包括用户以目标音频的节奏演唱目标音频的歌词时所发出的声音,即用户的歌声。目标音频也可以是由目标音频的配乐和用户的歌声组合得到的。
一种可能的方式中,在获取到目标音频的配乐音频数据后,终端可以开始播放配乐音频数据,并启动配置的语音采集模块对用户演唱目标音频的干声音频数据进行采集,从而得到目标音频的干声音频数据。
一种可能的方式中,在获取到目标音频的配乐音频数据后,终端也可以通过配置的显示模块显示完成录制准备工作的提示信息。这样,用户可以通过终端配置的显示模块了解到该提示信息,并执行启动操作(例如点击启动录制按钮)。响应于用户执行的启动操作,终端可以开始播放配乐音频数据,并启动配置的语音采集模块对用户演唱目标音频的干声音频数据进行采集,从而得到目标音频的干声音频数据。
上述实施例提供的技术方案至少带来以下有益效果:由S201-S202可知,给出了一种终端获取目标音频的干声音频数据的具体实现方式。终端可以响应于对目标音频触发的录制操作指令,获取目标音频对应的配乐音频数据,并播放配乐音频数据,以录制得到目标音频的干声音频数据,从而为用户提供音频录制服务。
一种实施例中,结合图2,在上述S201中,即终端响应于对目标音频触发的录制操作指令,获取目标音频的配乐音频数据时,如图3所示,本公开实施例提供一种可选地实现方式,包括:S301-S302。
S301、终端响应于录制操作指令,向服务器发送配乐资源请求消息。
其中,配乐资源请求消息用于请求目标音频对应的配乐音频数据。
一种可能的方式中,服务器可以预先配置有存储模块,以用于存储与多个音频一一对应的多个配乐音频数据。基于此,在关于目标音频的录制操作指令被触发时,终端可以向服务器发送用于获取目标音频的配乐音频数据的配乐资源请求消息。
S302、终端接收服务器发送的目标音频对应的配乐音频数据。
一种可能的方式中,响应于终端发送的配乐资源请求消息,服务器可以从配置的存储模块中读取目标音频的配乐音频数据,并向终端发送目标音频的配乐音频数据。相应的,终端可以接收到服务器发送的目标音频的配乐音频数据。
上述实施例提供的技术方案至少带来以下有益效果:由S301-S302可知,给出了一种终端响应于对目标音频触发的录制操作指令,获取目标音频的配乐音频数据的具体实现方式。终端可以响应于录制操作指令,向服务器发送配乐资源请求消息,以接收服务器发送的目标音频对应的配乐音频数据。
一种实施例中,如图4所示,本公开实施例提供的音频分析方法,还包括:S401-S402。
S401、终端响应于录制操作指令,向服务器发送模型资源请求消息。
其中,模型资源请求消息用于请求目标音素识别模型的资源文件和目标文本识别模型的资源文件。目标音素识别模型为基于多个语种进行同音合并后的音素集合训练得到的。目标文本识别模型为基于目标音频的歌词信息训练得到的。应理解,对于目标音素识别模型的训练过程可以参考下述S1201-S1202的具体描述,且对于目标文本识别模型的训练过程可以参考下述S1301-S1302的具体描述。在此不再赘述。
一种可能的方式中,服务器配置的存储模块中还可以存储有与多个音频一一对应的多个资源信息。一个资源信息可以包括与一个音频对应的目标音素识别模型的资源文件,以及目标文本识别模型的资源文件。基于此,为了向用户提供歌声处理服务,在关于目标音频的录制操作指令被触发时,终端可以响应于该录制操作指令,向服务器发送模型资源请求消息,以请求用于为用户提供歌声处理服务的目标音素识别模型的资源文件,以及目标文本识别模型的资源文件。
S402、终端接收服务器发送的目标音素识别模型的资源文件和目标文本识别模型的资源文件。
一种可能的方式中,响应于终端发送的模型资源请求消息,服务器可以从配置的存储模块中读取与目标音频对应的目标音素识别模型的资源文件,以及目标文本识别模型的资源文件,并向终端发送目标音素识别模型的资源文件和目标文本识别模型的资源文件。相应的,终端可以接收到服务器发送的目标音素识别模型的资源文件和目标文本识别模型的资源文件。
可选地,配乐资源请求消息和模型资源请求消息服可以是同一个请求消息,也可以是不同的两个请求消息。本公开实施例对此不作限定。
上述实施例提供的技术方案至少带来以下有益效果:由S401-S402可知,终端可以响应于录制操作指令,向服务器发送模型资源请求消息,以接收服务器发送的目标音素识别模型的资源文件和目标文本识别模型的资源文件,从而支持将音频分析过程转移到终端执行,避免干声音频数据传输至服务器时容易出现的错位问题。
一种实施例中,如图5所示,本公开实施例提供的音频分析方法,还包括:S501-S505。
S501、终端获取目标音频的干声音频数据。
一种可能的方式中,终端可以在播放目标音频的配乐音频数据时,通过配置的语音采集模块对用户演唱目标音频的干声音频数据进行采集,从而得到目标音频的干声音频数据。该过程的具体实现方式可以参考上述S201-S202的描述,在此不再赘述。
S502、终端将干声音频数据输入至目标音素识别模型中进行音素识别处理,得到目标音素时间序列。
其中,目标音素时间序列包括用户演唱目标音频的干声音频数据中,各音素发音时段对应的至少一个候选识别音素。一个音素发音时段可以是一个音素的发音时间段。目标音素时间序列可以是将各音素发音时段对应的至少一个候选识别音素,对应标注在各音素发音时段后得到的时间序列。目标音素时间序列的时长可以与目标音频的时长相同。目标音素识别模型可以是基于多个语种进行同音合并后的音素集合训练得到的。
需要说明的是,由于用户对于不同音素的发音时长、侧重点或者清晰度等不同,对于不同的音素来说,在音素的发音时间段(例如0.5s或者1s等)内,目标音素识别模型可能识别出与音素对应的一个候选识别音素(也可以称为音素结果),也可能识别出与音素对应的多个候选识别音素。
一种可能的方式中,一个音素对应的候选识别音素,可以是该一个音素的正确识别结果,也可以是与该一个音素发音类似的错误识别结果,还可以是与该一个音素关联的组合音素。
进一步地,与该一个音素关联的组合音素,可以是该一个音素与另外一个音素组合后的音素,也可以是该一个音素与另外多个音素组合后的音素,可以用于表示该一个音素在特定上下文环境下的发音。该部分内容,可以结合下述S1202中的描述进行理解,在此不再赘述。
一种可能的方式中,终端在采集到用户演唱的干声音频数据后,可以将用户演唱的干声音频数据输入至目标音素识别模型中,得到目标音素时间序列,以便于进一步确定目标音频的音频分析结果。
S503、终端将干声音频数据输入至目标文本识别模型中进行文本识别处理,得到目标文字时间序列。
其中,目标文字时间序列包括干声音频数据中各文字发音时段对应的目标识别文字。目标文字时间序列可以是将各个目标识别文字对应标注在各文字发音时段后得到的时间序列。目标文字时间序列的时长可以与目标音频的时长相同。目标文本识别模型可以是基于目标音频的歌词信息训练得到的。
一种可能的方式中,一个文字发音时段可以是用户对歌词中一个字的发音时间段,也可以是对歌词中一个词的发音时间段。进一步地,对于一个文字发音时段来说,目标文本识别模型可以只识别出与该一个文字发音时段对应的一个识别结果,即目标识别文字。目标识别文字可以是一个字,也可以是一个词。
需要说明的是,由于目标文本识别模型可以是基于目标音频的歌词信息训练得到的,因此,目标文本识别模型可以被约束为只能识别出目标音频的歌词中所包括的文字。基于此,对于一个文字发音时段来说,目标文本识别模型可以只识别出与该一个文字发音时段对应的一个识别结果,且该识别结果可以具备较高的正确率。
一种可能的方式中,终端在采集到用户演唱的干声音频数据后,可以将用户演唱的干声音频数据输入至目标文本识别模型中,得到目标文字时间序列,以便于进一步确定目标音频的音频分析结果。
一种可能的方式中,终端可以配置有音频录制服务的客户端。音频录制服务的配置文件中可以包括识别解码工具。识别解码工具的输入可以是目标音素识别模型、目标文本识别模型和干声音频数据,输出可以是目标音素时间序列和目标文字时间序列。基于此,对于S502-S503来说,终端可以直接基于该识别解码工具进行实现。例如,该识别解码工具可以是Kaldi(一个用于语音识别的工具箱)工具集中的online2_wav_nnet3_decoder工具。
S504、终端确定干声音频数据的音频信号特征信息。
可选地,音频信号特征信息可以包括干声音频数据中各个音素的基音频率信息和响度信息等信息。
一种可能的方式中,音频信号特征信息还可以包括干声音频数据对应的发声频率信息,以便于确定用户发音的音调高低。
一种可能的方式中,在确定用户演唱的干声音频数据的音频信号特征信息时,终端可以先将用户演唱的干声音频数据划分为多个相同长度的音频数据帧,再分别确定各音频数据帧的音频信号特征(例如基于频率值和响度值等)。
S505、终端根据目标音素时间序列、目标文字时间序列和音频信号特征信息,确定干声音频数据的音频分析结果。
其中,音频分析结果可以用于表征目标音频的发音节奏、发音力度和发音精度。
一种可能的方式中,在确定目标音频的音频分析结果时,终端可以先对目标文字时间序列进行音素切分处理,再将目标音素时间序列和音素切分处理后的目标文字时间序列的进行对比,确定目标音频的发音精度。同时,终端还可以基于干声音频数据中各音频数据帧的基音频率值,在音素切分处理后的目标文字时间序列中对发音位置进行标注,确定目标音频的发音节奏。接着,终端还可以基于干声音频数据中各音频数据帧的响度值,对标注有发音位置的音素切分处理后的目标文字时间序列进行发音响度标注,确定目标音频的发音力度。具体的,该过程可以参考下述S701-S704中的描述,在此不再赘述。
一种可能的方式中,终端在得到目标音频的音频分析结果后,可以通过配置的显示模块显示目标音频的音频分析结果,即在与目标音频的时长对应的时间序列中,显示用户演唱的干声音频数据中各个发音位置的时刻、各个发音位置的响度得到和各个发音位置的清晰度等信息,以便于用户进行修改。例如,为某个时刻添加特定声音(例如哈哈等)。或者,为某个时刻添加特定配乐等。
一种可能的方式中,终端还可以对目标音频的音频分析结果进行评分,并在显示目标音频的音频分析结果的同时,显示评分结果(例如棒极了和一般等)。
上述实施例提供的技术方案至少带来以下有益效果:由S501-S505可知,终端在获取目标音频的干声音频数据后,可以将干声音频数据输入至目标音素识别模型中进行音素识别处理,得到目标音素时间序列,并可以将干声音频数据输入至目标文本识别模型中进行文本识别处理,得到目标文字时间序列,以及确定干声音频数据的音频信号特征信息,以进一步根据目标音素时间序列、目标文字时间序列和音频信号特征信息,确定干声音频数据的音频分析结果。其中,目标音素时间序列包括干声音频数据中各音素发音时段对应的至少一个候选识别音素。目标文字时间序列包括干声音频数据中各文字发音时段对应的目标识别文字。音频分析结果用于表征目标音频的发音节奏、发音力度和发音精度。
由于,目标音素识别模型为基于多个语种进行同音合并后的音素集合训练得到的,且目标文本识别模型为基于目标音频的歌词信息训练得到的。也就是说,目标音素识别模型训练时仅基于较少的音素数量,且可以同时识别多种语种的音素。目标文本识别模型训练时仅基于目标音频的歌词信息,被约束为只能识别出目标音频的歌词中所包括的文字。因此,本公开可以在降低识别解码的复杂度,保证模型体积满足终端运行要求的同时,保证识别结果的准确性。
这样一来,相比于通用技术中依赖服务器对音频的干声音频数据进行处理的方式,本公开通过降低音频分析过程的复杂度,可以支持将数据处理过程转移到终端进行,且同时可以保证音频分析过程的准确性,从而可以避免将音频的干声音频数据传输至服务器的过程中,由传输错误导致的音频分析结果中时间和歌声错位的现象,可以保证用户体验。并且,本公开不需要依赖较多的云端服务器进行数据处理,可以避免通用技术中存在的部署成本较高的问题。因此,本公开可以用于解决通用技术在对终端的音频数据进行处理时准确率较低且成本较高的问题。
一种实施例中,结合图5,在上述S504中,即终端确定干声音频数据的音频信号特征信息时,如图6所示,本公开提供一种可选地实现方式,包括S601-S602。
S601、终端将干声音频数据划分为多个预设长度的音频数据帧。
一种可能的方式中,工作人员可以预先在音频录制服务的配置文件中设置预设长度的资源文件。例如,预设长度可以是20毫秒(millisecond,MS)。基于此,终端配置音频录制服务的客户端后,可以调用预设长度的资源文件。
一种可以实现的方式中,终端在采集到用户演唱的干声音频数据后,可以将干声音频数据划分为多个较短(例如预设长度)的音频数据帧。后续,终端可以分别确定各个音频数据帧的基音频率值和响度值等音频信号特征,从而更加准确地对用户演唱时的发音位置和发音力度进行分析。
S602、终端确定各音频数据帧的基音频率值和响度值,得到音频信号特征信息。
一种可能的方式中,工作人员可以预先在音频录制服务的配置文件中设置基音频率分析工具的资源文件。基音频率分析工具可以用于确定音频数据帧的基音频率值。终端配置音频录制服务的客户端后,可以调用基音频率分析工具。基于此,在需要确定用户演唱的干声音频数据中各个音频数据帧的基音频率值时,终端可以调用基音频率分析工具分别对各个音频数据帧进行处理,得到各个音频数据
进一步地,在一个音频数据帧不存在基音频率,可以表明该一个音频数据帧中不包括用户的发音信息。这种情况下,终端可以将该一个音频数据帧的基音频率值设置为0。
可选地,基音频率分析工具可以是通过YIN算法实现的,或者,也可以是通过其他算法(例如平行处理法和倒谱法等)。本公开实施例对此不作限制。
一种可能的方式中,在确定各音频数据帧的响度值时,终端可以对各音频数据帧进行时频变换,将各音频数据帧由一维实数时序信号变换为一维复数信号。对应一个音频数据帧来说,一维复数信号中的一个幅度值,可以对应于该一个音频数据帧中的一个频率点。进一步地,该一个幅度值的平方值,可以用于表示该一个音频数据帧在该一个频率点上的能量值。基于此,终端可以确定音频数据帧在各频率点的能量值。接着,终端可以将音频数据帧在各频率点的能量值在预设表格中进行匹配,确定音频数据帧在各频率点的能量值所对应的响度值。接着,终端可以将音频数据帧在各频率点的响度值之和,确定为音频数据帧的响度值。基于此,终端可以确定各音频数据帧的响度值。
一种可能的方式中,预设表格可以包括能量值和响度值的对应关系,可以由工作人员基于《GBT4963-2007-声学标准等响度级曲线》预先创建,并设置在音频录制服务的配置文件中。
进一步地,在预设表格中不存在一个频率点的能量值对应的响度值时,终端还可以将预设表格中,与该一个频率点相近的两个频率点所对应的响度值进行线性插值,从而得到该一个频率点对应的响度值。
上述实施例提供的技术方案至少带来以下有益效果:由S601-S602可知,给出了一种终端确定干声音频数据的音频信号特征信息的具体实现方式。终端可以将干声音频数据划分为多个预设长度的音频数据帧,并进一步确定各音频数据帧的基音频率值和响度值,以完成对于干声音频数据的音频信号特征分析,从而可以支持后续对于发音位置和发音力度的分析。
一种实施例中,结合图5,在上述S505中,即终端根据目标音素时间序列、目标文字时间序列和音频信号特征信息,确定干声音频数据的音频分析结果时,如图7所示,本公开提供一种可选地实现方式,包括S701-S704。
S701、终端对目标文字时间序列进行音素切分处理,得到切分后音素时间序列。
其中,切分后音素时间序列包括各目标识别文字对应的至少一个切分后音素,以及各切分后音素的开始时刻和终止时刻。
一种可能的方式中,一个目标识别文字发音的拼音可以由一个音素组成,也可以由多个音素组成。在一首歌曲中,不同的音素可能具备不同的发音音调或者发音力度等。为了更准确地分析用户演唱目标音频时发音的真实情况,终端可以对目标文字时间序列进行音素切分处理,将目标文字时间序列中各目标识别文字的发音时段细分为至少一个音素的发音范围,得到各目标识别文字对应的至少一个切分后音素,以及各切分后音素的开始时刻和终止时刻。
一种可能的方式中,工作人员可以预先在音频录制服务的配置文件中设置音素切分处理工具的资源文件。音素切分处理工具可以用于对目标文字时间序列进行音素切分处理。终端配置音频录制服务的客户端后,可以调用音素切分处理工具。基于此,在需要对目标文字时间序列进行音素切分处理时,终端可以调用音素切分处理工具,确定各目标识别文字对应的至少一个切分后音素,以及各切分后音素的开始时刻和终止时刻。
可选地,音素切分处理工具可以先将目标文字时间序列转换为音素序列,然后识别转换后的音素序列中每个音素的开始时刻和终止时刻。例如,音素切分处理工具可以是基于Kaldi工具集中的online2_wav_nnet3_decoder工具实现的。
S702、终端基于切分后音素时间序列和各音频数据帧的基音频率值,确定用于表征目标音频的发音节奏的节拍点时间序列。
一种可能的方式中,节拍点时间序列可以是标注有用户演唱目标音频时各个发音位置的时间序列。该时间序列的时长可以与目标音频的时长相同。
需要说明的是,对于汉语或者英语等语种来说,一个字或者一个英文单词的发音点通常是一些特定音素(例如元音音素等)。基于此,终端可以将切分后音素时间序列中特定音素的开始时刻确定为一个节拍点,得到多个节拍点。
并且,终端可以基于各节拍点附近的音频数据帧的基音频率值,进一步验证各特定音素的发音开始时刻是否为切分后音素时间序列中的开始时刻。若否,则终端可以对切分后音素时间序列中特定音素的开始时刻进行调整,得到更加准确地节拍点。具体地,该过程可以参考下述S801-S803中的描述,在此不再赘述。
S703、终端根据节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定节拍点时间序列中各音素的响度值,得到用于表征目标音频的发音力度的响度值时间序列。
一种可能的方式中,在节拍点时间序列可以是准确地体现用户演唱目标音频时各个发音位置的基础上,终端可以根据节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定节拍点时间序列中各音素的响度值,从而进一步通过各音素的响度值来准确地描述用户演唱时对于各音素的发音力度。
可选地,终端可以将节拍点时间序列中,一个音素的开始时刻和终止时刻之间的音频数据帧的响度值的平均值,确定为该一个音素的响度值。或者,终端也可以将节拍点时间序列中,一个音素的开始时刻和终止时刻之间的音频数据帧中,响度值最大的前几个(例如前10个)音频数据帧的响度值的平均值,确定为该一个音素的响度值。
S704、终端基于切分后音素时间序列和目标音素时间序列,确定用于表征目标音频的发音精度的精度值时间序列。
需要说明的是,由于目标文字时间序列是仅基于目标音频的歌词信息训练得到的目标文本识别模型识别得到的,因此,目标文字时间序列中的各目标识别文字均是目标音频的歌词中所包括的文字。进一步地,音素切分处理后的目标文字时间序列,即切分后音素时间序列中的各切分后音素,可以用于表示目标音频中的各个字或词所对应的正确发音音素。并且,目标音素时间序列为用户演唱目标音频的干声音频数据识别得到的,可以用于表示用户的真实发音音素。
基于此,终端可以将切分后音素时间序列和目标音素时间序列中,在时间上相对应的音素进行对比,确定目标音素时间序列中各音素发音时段对应的至少一个候选识别音素中正确发音音素的比例,从而准确地确定用户在各音素的发音表现是否符合正确发音音素。
进一步地,终端可以将目标音素时间序列中各音素发音时段对应的至少一个候选识别音素中正确发音音素的比例,转换为百分率表示的精度,并标注在与目标音频相同时长的时间序列中,从而得到用于描述目标音频的发音精度的精度值时间序列。
上述实施例提供的技术方案至少带来以下有益效果:由S701-S704可知,给出了一种终端根据目标音素时间序列、目标文字时间序列和音频信号特征信息,确定目标音频的音频分析结果的具体实现方式。终端可以对目标文字时间序列进行音素切分处理,得到切分后音素时间序列,并可以基于切分后音素时间序列和各音频数据帧的基音频率值,确定节拍点时间序列,并可以进一步根据节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定节拍点时间序列中各音素的响度值,得到响度值时间序列。同时,终端还可以基于切分后音素时间序列和目标音素时间序列,确定精度值时间序列。基于此,终端可以准确地完成对于目标音频的发音节奏、发音力度和发音精度的分析。
一种实施例中,结合图7,在上述S702中,即终端基于切分后音素时间序列和各音频数据帧的基音频率值,确定用于表征目标音频的发音节奏的节拍点时间序列时,如图8所示,本公开提供一种可选地实现方式,包括S801-S803。
S801、终端将各切分后音素中预设类型音素的开始时刻确定为候选节拍点,得到与多个预设类型音素一一对应的多个候选节拍点。
其中,预设类型音素可以是汉语、粤语和英语等语种中,用于作为发音点的音素。预设类型音素可以包括元音音素等音素。
一种可能的方式中,终端可以将切分后音素时间序列中的各切分后音素,在包括多个预设类型音素的集合中进行匹配,并将匹配成功的切分后音素确定为预设类型音素。接着,终端可以将确定为预设类型音素的切分后音素的开始时刻确定为一个候选节拍点,从而得到多个候选节拍点。应理解,多个候选节拍点与切分后音素时间序列中的多个预设类型音素一一对应。
一种可能的方式中,在训练得到目标音素识别模型时,工作人员也可以预先在用于训练的音素集合中,对预设类型音素进行标记。例如,工作人员可以为预设类型音素添加同一的字符*或者V等进行标记。基于此,终端也可以将目标文字时间序列输入目标音素识别模型中,得到目标文字时间序列对应的音素序列后,再对得到的目标文字时间序列对应的音素序列进行音素切分得到切分后音素时间序列。这样,在切分后音素时间序列中,终端可以直接将带有字符标记的切分后音素的开始时刻,确定为一个候选节拍点,从而加快处理的速度和减少资源占用。
S802、终端基于各音频数据帧的基音频率值对多个候选节拍点进行更新处理,得到与多个预设类型音素一一对应的多个更新后节拍点。
其中,更新后节拍点对应的音频数据帧的基音频率值大于预设阈值。预设阈值可以由工作人员预先设置在音频录制服务的配置文件中。可选地,考虑到不存在声音的音频数据帧的基音频率值被设置为0,工作人员可以将预设阈值设置为0。基于此,终端可以过滤不存在声音的音频数据帧。
一种可能的方式中,终端基于各音频数据帧的基音频率值对多个候选节拍点进行更新处理时,可以是在候选节拍点的前一个切分后音素为元音音素、且前一个切分后音素的终止时刻与候选节拍点之间的音频数据帧的基音频率值均大于预设阈值时,将候选节拍点确定为更新后节拍点。
或者,终端可以在候选节拍点的前一个切分后音素为元音音素、且前一个切分后音素的终止时刻与候选节拍点之间存在基音频率值小于或等于预设阈值的音频数据帧、且候选节拍点对应的音频数据帧的基音频率值大于预设阈值时,将候选节拍点之前的首个基音频率值大于预设阈值的音频数据帧的开始时刻确定为更新后节拍点。
或者,终端可以在候选节拍点的前一个切分后音素为元音音素、且前一个切分后音素的终止时刻与候选节拍点之间存在基音频率值小于或等于预设阈值的音频数据帧、且候选节拍点对应的音频数据帧的基音频率值小于或等于预设阈值时,将候选节拍点之后的首个基音频率值大于预设阈值的音频数据帧的开始时刻确定为更新后节拍点。
或者,终端可以在候选节拍点的前一个切分后音素不为元音音素、且候选节拍点对应的音频数据帧的基音频率值大于预设阈值时,将候选节拍点之前的首个基音频率值大于预设阈值的音频数据帧的开始时刻确定为更新后节拍点。
或者,终端可以在候选节拍点的前一个切分后音素不为元音音素、且候选节拍点对应的音频数据帧的基音频率值小于或等于预设阈值时,将候选节拍点之后的首个基音频率值大于预设阈值的音频数据帧的开始时刻确定为更新后节拍点。
S803、终端将多个预设类型音素的开始时刻对应调整为多个更新后节拍点,得到节拍点时间序列。
一种可能的方式中,考虑到更新后节拍点可以更加准确地表示用户在一个预设类型音素的发音开始时刻,终端可以将预设类型音素的开始时刻调整为与预设类型音素对应的更新后节拍点的时刻。并且,终端可以将与预设类型音素相邻的前一个切分后音素的终止时刻,调整为与预设类型音素对应的更新后节拍点相邻的前一时刻。基于此,终端多个预设类型音素的开始时刻、各预设类型音素相邻的前一个切分后音素的终止时刻进行调整处理后,可以得到节拍点时间序列。
一种可能的示例中,假设预设类型音素A的开始时刻是第1分钟的第5秒。此时,与预设类型音素A相邻的前一个切分后音素的终止时刻是第1分钟的第4秒。在预设类型音素A对应的更新后节拍点的时刻是第1分钟的第4秒时,终端可以将预设类型音素A的开始时刻调整为第1分钟的第4秒,并将与预设类型音素A相邻的前一个切分后音素的终止时刻调整为第1分钟的第3秒。
上述实施例提供的技术方案至少带来以下有益效果:由S801-S803可知,给出了一种终端基于切分后音素时间序列和各音频数据帧的基音频率值,确定用于描述目标音频的发音节奏的节拍点时间序列的具体实现方式。终端可以将各切分后音素中预设类型音素的开始时刻确定为候选节拍点,得到多个候选节拍点,并可以基于各音频数据帧的基音频率值对多个候选节拍点进行更新处理,得到多个更新后节拍点,以进一步按照多个更新后节拍点对多个预设类型音素的开始时刻、各预设类型音素相邻的前一个切分后音素的终止时刻进行调整处理,得到节拍点时间序列。由于各音频数据帧的基音频率值可以更准确地表示用户的发音位置,因此,终端基于各音频数据帧的基音频率值对切分后音素时间序列进行处理后得到的节拍点时间序列,可以更加准确地描述用户的发音位置。
一种实施例中,结合图7,在上述S703中,即终端根据节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定节拍点时间序列中各音素的响度值,得到用于表征目标音频的发音力度的响度值时间序列时,如图9所示,本公开提供一种可选地实现方式,包括S901-S902。
S901、终端按照响度值从大到小的顺序,对节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧进行排序,得到节拍点时间序列中各音素对应的响度值排序结果。
一种可以实现的方式中,为了确定节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值大小情况,终端可以将节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧,按照响度值从大到小的顺序进行排序,得到节拍点时间序列中各音素对应的响度值排序结果。
S902、终端将各响度值排序结果中的前预设数量个响度值的平均值,确定为节拍点时间序列中各音素对应的响度值,得到响度值时间序列。
其中,预设数量可以由工作人员预先设置在音频录制服务的配置文件中。例如,预设数量可以是第5个或者第6个等。
一种可以实现的方式中,终端可以将节拍点时间序列中各音素对应的响度值排序结果中,处于预设数量前的响度值的平均值,确定为节拍点时间序列中各音素对应的响度值。接着,终端可以将节拍点时间序列中各音素对应的响度值,标注在节拍点时间序列中,得到响度值时间序列。
上述实施例提供的技术方案至少带来以下有益效果:由S901-S902可知,给出了一种终端根据节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定节拍点时间序列中各音素的响度值,得到用于描述目标音频的发音力度的响度值时间序列的具体实现方式。终端可以基于节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧中,响度值较大的部分音频数据帧的响度值的平均值,确定节拍点时间序列中各音素对应的响度值,以得到响度值时间序列,从而可以更加准确地确定用户的发音力度。
一种实施例中,结合图7,在上述S704中,即终端基于切分后音素时间序列和目标音素时间序列,确定用于表征目标音频的发音精度的精度值时间序列时,如图10所示,本公开提供一种可选地实现方式,包括S1001-S1002。
S1001、终端确定各音素发音时段对应的至少一个候选识别音素中,符合预设条件的候选识别音素的第一数量。
其中,预设条件可以由工作人员预先设置在音频录制服务的配置文件中。预设条件可以包括与音素发音时段对应的切分后音素相同,或者,为与音素发音时段对应的切分后音素关联的组合音素。
一种可以实现的方式中,对于一个音素发音时段来说,终端可以按照预设条件,对该一个音素发音时段对应的至少一个候选识别音素进行筛选,得到该一个音素发音时段对应的至少一个候选识别音素中符合预设条件的候选识别音素,并进一步将这些符合预设条件的候选识别音素的数量确定为第一数量。基于此,终端可以确定到各音素发音时段对应的至少一个候选识别音素中,符合预设条件的候选识别音素的第一数量。
S1002、终端将各音素发音时段对应的第一数量和第二数量之间的比值,确定为切分后音素时间序列中各切分后音素的精度值,得到精度值时间序列。
其中,第二数量为发音时段对应的至少一个候选识别音素的数量。
需要说明的是,若一个音素发音时段对应的至少一个候选识别音素中,符合预设条件的候选识别音素较多,即符合预设条件的候选识别音素的占比较高,则可以表明用户演唱时对于该一个音素的发音正确且清晰。若一个音素发音时段对应的至少一个候选识别音素中,符合预设条件的候选识别音素较少,即符合预设条件的候选识别音素的占比较低,则可以表明用户演唱时对于该一个音素的发音不正确或者不清晰。
基于此,终端可以将各音素发音时段对应的第一数量,与各发音时段对应的至少一个候选识别音素的数量之间的比值,即第一数量和第二数量之间的比值,确定为切分后音素时间序列中各切分后音素的精度值。接着,终端可以将切分后音素时间序列中各切分后音素的精度值,标注在切分后音素时间序列中,得到精度值时间序列。
一种可能的方式中,终端也可以将切分后音素时间序列中各切分后音素的精度值,标注在节拍点时间序列中,得到精度值时间序列。
上述实施例提供的技术方案至少带来以下有益效果:由S1001-S1002可知,给出了一种终端基于切分后音素时间序列和目标音素时间序列,确定用于描述目标音频的发音精度的精度值时间序列的具体实现方式。由于预设条件包括与音素发音时段对应的切分后音素相同,或者,为与音素发音时段对应的切分后音素关联的组合音素,因此,终端可以基于预设条件,确定各音素发音时段对应的至少一个候选识别音素中,符合预设条件的候选识别音素的占比情况,从而更加准确地确定用户的发音精度。
如图11所示,当音频分析方法应用于图1中的服务器102时,该音频分析方法可以包括:S1101-S1103。
S1101、服务器接收终端发送的资源请求消息。
需要说明的是,结合上述S301-S302和S401-S402中的描述,该资源请求消息可以是配乐资源请求消息,用于请求目标音频对应的配乐音频数据。或者,该资源请求消息也可以是模型资源请求消息,用于请求目标音素识别模型的资源文件和目标文本识别模型的资源文件。或者,该资源请求消息也可以同时用于请求目标音频对应的配乐音频数据,以及目标音素识别模型的资源文件和目标文本识别模型的资源文件。
S1102、服务器在预先建立的资源集合中,确定与目标音频对应的目标资源信息。
其中,资源集合包括多个歌曲和与多个歌曲一一对应的多个资源信息。资源信息可以包括与资源信息对应的音频曲的配乐音频数据,以及音素识别模型的资源文件和文本识别模型的资源文件。
S1103、服务器向终端发送目标资源信息,以使得终端在播放目标音频的配乐音频数据时录制目标音频的干声音频数据,并使得终端基于目标音素识别模型、目标文本识别模型和目标音频的干声音频数据确定音频分析结果。
上述实施例提供的技术方案至少带来以下有益效果:由S1101-S1103可知,服务器可以接收终端发送的资源请求消息,并可以在预先建立的资源集合中,确定目标音频的目标资源信息,以进一步地向终端发送目标音频的配乐音频数据和音频识别资源,从而使得终端在播放目标音频的配乐音频数据时录制用户演唱目标音频的干声音频数据得到目标音频,并使得终端基于目标音频的音频识别资源和干声音频数据确定目标音频的音频分析结果。
这样一来,相比于通用技术中依赖服务器对终端的音频数据进行处理的方式,本公开可以支持将音频分析过程转移到终端进行处理,从而可以避免将终端的音频数据传输至服务器的过程中,由传输错误导致的音频分析结果中时间和歌声错位的现象,可以保证用户体验。并且,本公开不需要依赖较多的云端服务器进行数据处理,可以避免通用技术中存在的部署成本较高的问题。因此,本公开可以用于解决通用技术在对终端的音频数据进行处理时准确率较低且成本较高的问题。
一种实施例中,各歌曲的音频识别资源中均可以包括目标音素识别模型。也就是说,对于不同的歌曲来说,目标音素识别模型可以是通用的。为了清楚地描述目标音素识别模型的训练流程,如图12所示,本公开提供的音频分析方法,还包括S1201-S1202。
S1201、服务器获取音素集合、多个标注音频数据和初始音素识别模型。
其中,音素集合可以包括多个语种进行同音合并后的音素。标注音频数据用于表示基于音素集合中的音素标记过的样本歌曲的原唱音频数据。
需要说明的是,在通用技术中,通常是为不同的语种单独定义一个包括多个音素的音素集合。一个音素可以用于描述一个语种中存在的最短音节。本公开中考虑到中文歌曲中可能包括汉语普通话、粤语和英语等语种的歌声数据,为了使用统一的音素识别模型对不同语种的发音进行识别,以使得音素识别模型的资源文件大小满足终端的运行要求,考虑定义一套跨语种的音素集合,且该音素集合中音素数量不应太多。
基于此,本公开中,工作人员可以预先对多个语种的音素发音进行比对,将多个语种中的音素进行同音合并,得到多个语种进行同音合并后的音素集合。进一步地,工作人员可以将得到多个语种进行同音合并后的音素集合预先设置在服务器的存储模块中。
一种可能的方式中,结合S801中的描述,为了便于终端识别切分后音素时间序列中各切分后音素是否为预设类型音素,工作人员还可以在得到的多个语种进行同音合并后的音素集合中,对预设类型音素添加统一的字符标记。
一种可能的方式中,为了设置用于训练初始音素识别模型的样本数据,在得到多个语种进行同音合并后的音素集合后,工作人员还可以基于该音素集合中的音素对多个样本歌曲的原唱音频数据进行标记,得到多个标注音频数据,并将多个标注音频数据设置在服务器的存储模块中。
可选地,多个标注音频数据的时长可以是相同的。例如60MS。
一种可能的方式中,初始音素识别模型可以是基于深度神经网络构造的。例如,初始音素识别模型的网络结构可以如图13所示。在图13中,初始音素识别模型的网络结构从下到上依次包含了多个分解式时延神经网络(factorized time delay neural network,TDNNF)层、一个全链接层、一个注意力(Attention)层和输出层。
一种可以实现的方式中,工作人员可以在需要对初始音素识别模型进行训练时,通过具备指令编辑和指令发送等功能的电子设备,向服务器发送训练开始指令。相应的,服务器可以接收到该训练开始指令,从存储模块中读取音素集合、多个标注音频数据和初始音素识别模型等资源文件。
S1202、服务器根据音素集合和多个标注音频数据,对初始音素识别模型进行训练,得到目标音素识别模型。
一种可能的方式中,在获取到音素集合、多个标注音频数据和初始音素识别模型等资源文件后,服务器可以将音素集合设置在初始音素识别模型中。接着,服务器可以将多个标注音频数据分批次地输入至初始音素识别模型,以使得初始音素识别模型对多个标注音频数据进行识别处理等,从而得到目标音素识别模型。
需要说明的是,初始音素识别模型的输出可以是一个概率分布。该概率分布可以用于描述标注音频数据中,在当前音素的音频波形和前一音素的音频波形的条件下,当前音素对应的至少一个音素识别结果的后验概率。
基于此,初始音素识别模型对多个标注音频数据进行识别处理的过程中,可以学习到音素集合中各音素在多种上下文环境下的发音信息,即一个音素在不同样本歌曲中与其他音素组合进行发音的信息。
进一步地,在训练完成后,目标音素识别模型可以具备训练后音素集合。训练后音素集合与初始设置在初始音素识别模型中的音素集合相比,在包括多个语种进行同音合并后的音素外,还可以包括各音素关联的组合音素。
上述实施例提供的技术方案至少带来以下有益效果:由S1201-S1202可知,服务器可以基于音素集合和多个标注音频数据,对初始音素识别模型进行训练,得到目标音素识别模型。由于音素集合包括多个语种进行同音合并后的音素,因此,目标音素识别模型不仅可以对不同语种的发音进行识别,且资源文件的大小可以更好地满足终端的运行要求。
一种实施例中,一首歌曲的音频识别资源还包括该一首歌曲的文字识别模型。也就是说,对于不同的歌曲来说,文字识别模型是不同的。为了清楚地描述针对于单一歌曲的文字识别模型的训练流程,如图14所示,本公开提供的音频分析方法,还包括S1301-S1302。
S1301、服务器获取歌曲的歌词信息、样本音素信息和初始文字识别模型。
其中,歌曲的歌词信息可以包括歌曲的歌词经划分后的多个词组,以及歌曲的歌词经混乱排序后的多种组合。样本音素信息可以包括多个语种进行同音合并后的音素集合,以及与音素集合中音素关联的至少一个组合音素。
一种可能的方式中,工作人员可以预先将歌曲的歌词划分为较短的单元。例如,歌词中的汉语语句可以被划分为多个词。如“后来我总算学会了”可以被划分为“后来”、“我”、“总算”和“学会了”。歌词中的英文单词可以被划分为音节,并确保每个音节中只存在一个元音音素。如“interval”可以被划分为“in”、“ter”和“val”。
并且,为了保证训练得到的文字识别模型,可以准确地处理用户将歌曲的歌词顺序打乱后演唱的干声音频数据,工作人员还可以将将歌曲的歌词中的句子进行多次随机排序,使得出现在每个句子的前后两个句子存在一定随机性,得到歌曲的歌词经混乱排序后的多种组合。进一步地,工作人员可以将包括歌曲的歌词经划分后的多个词组,以及歌曲的歌词经混乱排序后的多种组合的歌词信息存储在服务器的存储模块中。
一种可能的方式中,工作人员还可以在服务器预先设置用于对歌曲的歌词进行划分词典工具,以及随机排序工具。基于此,服务器也可以自动地对歌曲的歌词进行处理,得到歌词的歌词信息。
一种可能的方式中,考虑到一首歌曲的歌词字数过少时,可能会使得初始文字识别模型训练失败。因此,当一首歌曲的歌词字数过少时,服务器可以将该一首歌曲的歌词复制到预设数量(例如300个字)。
一种可能的方式中,结合S1202中的描述,在训练得到目标音素识别模型后,工作人员可以提取目标音素识别模型具备的训练后音素集合,并作为样本音素信息存储在服务器的存储模块中。
需要说明的是,对于不同的歌曲来说,初始文字识别模型可以是相同的。由于训练时基于的歌曲信息不同,因此,不同的歌曲对应的训练后的文字识别模型也不同。
可选的,初始文字识别模型可以是N-gram模型,或者也可以是其他模型。
一种可以实现的方式中,工作人员可以在需要对一首歌曲或者多首歌曲的初始文字识别模型进行训练时,通过具备指令编辑和指令发送等功能的电子设备,向服务器发送训练开始指令。相应的,服务器可以接收到该训练开始指令,从存储模块中读取指令中一首歌曲或者多首歌曲的歌词信息、样本音素信息和初始文字识别模型。
S1302、服务器根据歌曲的歌词信息和样本音素信息,对初始文字识别模型进行训练,得到歌曲的文字识别模型。
一种可能的方式中,在获取到一首歌曲的歌词信息,样本音素信息和初始文字识别模型后,服务器可以将样本音素信息设置在初始文字识别模型中。接着,服务器可以将该一首歌曲的歌词信息输入至初始文字识别模型中,以使得初始音素识别模型对该一首歌曲的歌词信息进行识别处理等,从而得到该一首歌曲对应的训练后的文字识别模型。
需要说明的是,由于一首歌曲对应的训练后的文字识别模型,是仅基于该一首歌曲的歌词信息训练得到的。因此,该一首歌曲对应的训练后的文字识别模型,可以被约束为只能识别出该一首歌曲的歌词中所包括的文字,降低了识别解码的复杂度,且可以提升识别结果的准确率。
并且,基于一首歌曲的歌词信息,训练得到的文字识别模型的资源文件,一般在100千字节(Kilobyte,kB)量级。而通用技术中使用多首歌曲的歌词信息,训练得到的识别模型的资源文件,一般在1吉字节(Gigabyte,GB)量级。因此,本公开中的文字识别模型可以更好地支持在终端侧运行。
上述实施例提供的技术方案至少带来以下有益效果:由S1301-S1302可知,服务器可以基于歌曲的歌词信息和样本音素信息,对初始文字识别模型进行训练,得到歌曲的文字识别模型。由于文字识别模型为仅基于一首歌曲的歌词信息训练得到的。因此,文字识别模型可以被约束为只能识别出相对应歌曲的歌词中所包括的文字,降低了识别解码的复杂度,且可以提升识别结果的准确率。
一种实施例中,如图15所示,为本申请实施例提供的一种音频分析流程的示意图。服务器可以预先基于由工作人员进行音素定义后的音素集合,对初始音素识别模型进行训练得到目标音素识别模型。并且,服务器还可以预先基于由目标音频的歌词得到的歌词信息,对初始文字识别模型进行训练得到目标音频的文字识别模型。
基于此,终端可以在用户对目标音频执行录制操作后,从服务器中获取到目标音频的配乐音频数据和音频识别资源。接着,终端可以在录制到用户演唱目标音频的干声音频数据后,将干声音频数据、目标音素识别模型和目标音频的文字识别模型输入至识别解码工具中,得到目标文字时间序列和目标音素时间序列。同时,终端可以对用户演唱目标音频的干声音频数据进行特征分析,确定干声音频数据音频信号特征信息。
接着,终端可以基于切分后音素时间序列和目标音素时间序列,确定用于描述目标音频的发音精度的精度值时间序列。同时,终端可以基于切分后音素时间序列和各音频数据帧的基音频率值,确定用于描述目标音频的发音节奏的节拍点时间序列。接着,终端可以根据节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定节拍点时间序列中各音素的响度值,得到用于描述目标音频的发音力度的响度值时间序列。
可以理解的,在实际实施时,本公开实施例所述的终端/服务器可以包含有用于实现前述对应音频分析方法的一个或多个硬件结构和/或软件模块,这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
基于这样的理解,本公开实施例还对应提供一种音频分析装置。图16示出了本公开实施例提供的音频分析装置的结构示意图。如图16所示,该音频分析装置可以包括:获取单元1401、处理单元1402和确定单元1403;
获取单元1401,被配置为执行获取目标音频的干声音频数据;
处理单元1402,被配置为执行将干声音频数据输入至目标音素识别模型中进行音素识别处理,得到目标音素时间序列;目标音素识别模型为基于多个语种进行同音合并后的音素集合训练得到的;目标音素时间序列包括干声音频数据中各音素发音时段对应的至少一个候选识别音素;
处理单元1402,还被配置为执行将干声音频数据输入至目标文本识别模型中进行文本识别处理,得到目标文字时间序列;目标文本识别模型为基于目标音频的歌词信息训练得到的;目标文字时间序列包括干声音频数据中各文字发音时段对应的目标识别文字;
确定单元1403,被配置为执行确定干声音频数据的音频信号特征信息;
确定单元1403,还被配置为执行根据目标音素时间序列、目标文字时间序列和音频信号特征信息,确定干声音频数据的音频分析结果;音频分析结果用于表征目标音频的发音节奏、发音力度和发音精度。
可选地,确定单元1403,具体被配置为执行:将干声音频数据划分为多个预设长度的音频数据帧;确定各音频数据帧的基音频率值和响度值,得到音频信号特征信息。
可选地,确定单元1403,具体被配置为执行:对目标文字时间序列进行音素切分处理,得到切分后音素时间序列;切分后音素时间序列包括各目标识别文字对应的至少一个切分后音素,以及各切分后音素的开始时刻和终止时刻;基于切分后音素时间序列和各音频数据帧的基音频率值,确定用于表征目标音频的发音节奏的节拍点时间序列;根据节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定节拍点时间序列中各音素的响度值,得到用于表征目标音频的发音力度的响度值时间序列;基于切分后音素时间序列和目标音素时间序列,确定用于表征目标音频的发音精度的精度值时间序列。
可选地,确定单元1403,具体被配置为执行:将各切分后音素中预设类型音素的开始时刻确定为候选节拍点,得到与多个预设类型音素一一对应的多个候选节拍点;预设类型音素包括元音音素;基于各音频数据帧的基音频率值对多个候选节拍点进行更新处理,得到与多个预设类型音素一一对应的多个更新后节拍点;更新后节拍点对应的音频数据帧的基音频率值大于预设阈值;将多个预设类型音素的开始时刻对应调整为多个更新后节拍点,得到节拍点时间序列。
可选地,确定单元1403,具体被配置为执行:按照响度值从大到小的顺序,对节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧进行排序,得到节拍点时间序列中各音素对应的响度值排序结果;将各响度值排序结果中的前预设数量个响度值的平均值,确定为节拍点时间序列中各音素对应的响度值,得到响度值时间序列。
可选地,确定单元1403,具体被配置为执行:确定各音素发音时段对应的至少一个候选识别音素中,符合预设条件的候选识别音素的第一数量;将各音素发音时段对应的第一数量和第二数量之间的比值,确定为切分后音素时间序列中各切分后音素的精度值,得到精度值时间序列;第二数量为发音时段对应的至少一个候选识别音素的数量。
可选地,获取单元1401,具体被配置为执行:响应于对目标音频触发的录制操作指令,获取目标音频对应的配乐音频数据;播放配乐音频数据,并录制目标音频的干声音频数据。
可选地,获取单元1401,具体被配置为执行:响应于录制操作指令,向服务器发送配乐资源请求消息;配乐资源请求消息用于请求目标音频对应的配乐音频数据;接收服务器发送的目标音频对应的配乐音频数据。
可选地,获取单元1401,还被配置为执行响应于录制操作指令,向服务器发送模型资源请求消息;模型资源请求消息用于请求目标音素识别模型的资源文件和目标文本识别模型的资源文件;接收服务器发送的目标音素识别模型的资源文件和目标文本识别模型的资源文件。
如上所述,本公开实施例可以根据上述方法示例对音频分析装置进行功能模块的划分。其中,上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。另外,还需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。
关于上述实施例中的音频分析装置,其中各个模块执行操作的具体方式、以及具备的有益效果,均已经在前述方法实施例中进行了详细描述,此处不再赘述。
本公开实施例还提供一种终端,终端可以是手机、电脑等用户终端。图17示出了本公开实施例提供的终端的结构示意图。该终端可以是音频分析装置可以包括至少一个处理器61,通信总线62,存储器63以及至少一个通信接口64。
处理器61可以是一个CPU,微处理单元,ASIC,或一个或多个用于控制本公开方案程序执行的集成电路。
通信总线62可包括一通路,在上述组件之间传送信息。
通信接口64,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如服务器、以太网,无线接入网(radio access network,RAN),无线局域网(wireless localarea networks,WLAN)等。
存储器63可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。
其中,存储器63用于存储执行本公开方案的应用程序代码,并由处理器61来控制执行。处理器61用于执行存储器63中存储的应用程序代码,从而实现本公开方法中的功能。
在具体实现中,作为一种实施例,处理器61可以包括一个或多个CPU,例如图17中的CPU0和CPU1。
在具体实现中,作为一种实施例,终端可以包括多个处理器,例如图17中的处理器61和处理器65。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,终端还可以包括输入设备66和输出设备67。输入设备66和输出设备67通信,可以以多种方式接受用户的输入。例如,输入设备66可以是鼠标、键盘、触摸屏设备或传感设备等。输出设备67和处理器61通信,可以以多种方式来显示信息。例如,输出设备61可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备等。
本领域技术人员可以理解,图17中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本公开实施例还提供一种服务器。图18示出了本公开实施例提供的服务器的结构示意图。该服务器可以是音频分析装置。该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器71和一个或一个以上的存储器72。其中,存储器72中存储有至少一条指令,至少一条指令由处理器71加载并执行以实现上述各个方法实施例提供的音频分析方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本公开还提供了一种包括指令的计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述计算机可读存储介质中的指令由计算机设备的处理器执行时,使得计算机能够执行上述所示实施例提供的音频分析方法。例如,计算机可读存储介质可以为包括指令的存储器63,上述指令可由终端的处理器61执行以完成上述方法。又例如,计算机可读存储介质可以为包括指令的存储器72,上述指令可由服务器的处理器71执行以完成上述方法。可选地,计算机可读存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
本公开还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行上述图2至图12,以及图14任一附图所示的音频分析方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种音频分析方法,其特征在于,包括:
获取目标音频的干声音频数据;
将所述干声音频数据输入至目标音素识别模型中进行音素识别处理,得到目标音素时间序列;所述目标音素识别模型为基于多个语种进行同音合并后的音素集合训练得到的;所述目标音素时间序列包括所述干声音频数据中各音素发音时段对应的至少一个候选识别音素;
将所述干声音频数据输入至目标文本识别模型中进行文本识别处理,得到目标文字时间序列;所述目标文本识别模型为基于所述目标音频的歌词信息训练得到的;所述目标文字时间序列包括所述干声音频数据中各文字发音时段对应的目标识别文字;
确定所述干声音频数据的音频信号特征信息;
根据所述目标音素时间序列、所述目标文字时间序列和所述音频信号特征信息,确定所述干声音频数据的音频分析结果;所述音频分析结果用于表征所述目标音频的发音节奏、发音力度和发音精度。
2.根据权利要求1所述的音频分析方法,其特征在于,所述确定所述干声音频数据的音频信号特征信息,包括:
将所述干声音频数据划分为多个预设长度的音频数据帧;
确定各所述音频数据帧的基音频率值和响度值,得到所述音频信号特征信息。
3.根据权利要求2所述的音频分析方法,其特征在于,所述根据所述目标音素时间序列、所述目标文字时间序列和所述音频信号特征信息,确定所述干声音频数据的音频分析结果,包括:
对所述目标文字时间序列进行音素切分处理,得到切分后音素时间序列;所述切分后音素时间序列包括各所述目标识别文字对应的至少一个切分后音素,以及各所述切分后音素的开始时刻和终止时刻;
基于所述切分后音素时间序列和各所述音频数据帧的基音频率值,确定用于表征所述目标音频的发音节奏的节拍点时间序列;
根据所述节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定所述节拍点时间序列中各音素的响度值,得到用于表征所述目标音频的发音力度的响度值时间序列;
基于所述切分后音素时间序列和所述目标音素时间序列,确定用于表征所述目标音频的发音精度的精度值时间序列。
4.根据权利要求3所述的音频分析方法,其特征在于,所述基于所述切分后音素时间序列和各所述音频数据帧的基音频率值,确定用于表征所述目标音频的发音节奏的节拍点时间序列,包括:
将各所述切分后音素中预设类型音素的开始时刻确定为候选节拍点,得到与多个所述预设类型音素一一对应的多个所述候选节拍点;所述预设类型音素包括元音音素;
基于各所述音频数据帧的基音频率值对多个所述候选节拍点进行更新处理,得到与多个所述预设类型音素一一对应的多个更新后节拍点;所述更新后节拍点对应的音频数据帧的基音频率值大于预设阈值;
将多个所述预设类型音素的开始时刻对应调整为多个所述更新后节拍点,得到所述节拍点时间序列。
5.根据权利要求3所述的音频分析方法,其特征在于,所述根据所述节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定所述节拍点时间序列中各音素的响度值,得到用于表征所述目标音频的发音力度的响度值时间序列,包括:
按照响度值从大到小的顺序,对所述节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧进行排序,得到所述节拍点时间序列中各音素对应的响度值排序结果;
将各响度值排序结果中的前预设数量个响度值的平均值,确定为所述节拍点时间序列中各音素对应的响度值,得到所述响度值时间序列。
6.根据权利要求3所述的音频分析方法,其特征在于,所述基于所述切分后音素时间序列和所述目标音素时间序列,确定用于表征所述目标音频的发音精度的精度值时间序列,包括:
确定各所述音素发音时段对应的至少一个候选识别音素中,符合预设条件的候选识别音素的第一数量;
将各所述音素发音时段对应的第一数量和第二数量之间的比值,确定为所述切分后音素时间序列中各所述切分后音素的精度值,得到所述精度值时间序列;所述第二数量为所述发音时段对应的至少一个候选识别音素的数量。
7.根据权利要求1所述的音频分析方法,其特征在于,所述获取目标音频的干声音频数据,包括:
响应于对所述目标音频触发的录制操作指令,获取所述目标音频对应的配乐音频数据;
播放所述配乐音频数据,并录制所述目标音频的干声音频数据。
8.根据权利要求7所述的音频分析方法,其特征在于,所述响应于对所述目标音频触发的录制操作指令,获取所述目标音频的配乐音频数据,包括:
响应于所述录制操作指令,向服务器发送配乐资源请求消息;所述配乐资源请求消息用于请求所述目标音频对应的配乐音频数据;
接收所述服务器发送的所述目标音频对应的配乐音频数据。
9.根据权利要求7所述的音频分析方法,其特征在于,还包括:
响应于所述录制操作指令,向服务器发送模型资源请求消息;所述模型资源请求消息用于请求所述目标音素识别模型的资源文件和所述目标文本识别模型的资源文件;
接收所述服务器发送的所述目标音素识别模型的资源文件和所述目标文本识别模型的资源文件。
10.一种音频分析装置,其特征在于,包括:获取单元、处理单元和确定单元;
所述获取单元,被配置为执行获取目标音频的干声音频数据;
所述处理单元,被配置为执行将所述干声音频数据输入至目标音素识别模型中进行音素识别处理,得到目标音素时间序列;所述目标音素识别模型为基于多个语种进行同音合并后的音素集合训练得到的;所述目标音素时间序列包括所述干声音频数据中各音素发音时段对应的至少一个候选识别音素;
所述处理单元,还被配置为执行将所述干声音频数据输入至目标文本识别模型中进行文本识别处理,得到目标文字时间序列;所述目标文本识别模型为基于所述目标音频的歌词信息训练得到的;所述目标文字时间序列包括所述干声音频数据中各文字发音时段对应的目标识别文字;
所述确定单元,被配置为执行确定所述干声音频数据的音频信号特征信息;
所述确定单元,还被配置为执行根据所述目标音素时间序列、所述目标文字时间序列和所述音频信号特征信息,确定所述干声音频数据的音频分析结果;所述音频分析结果用于表征所述目标音频的发音节奏、发音力度和发音精度。
11.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-9中任一项所述的音频分析方法。
12.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1-9中任一项所述的音频分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310120151.XA CN116129934A (zh) | 2023-02-02 | 2023-02-02 | 音频分析方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310120151.XA CN116129934A (zh) | 2023-02-02 | 2023-02-02 | 音频分析方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116129934A true CN116129934A (zh) | 2023-05-16 |
Family
ID=86300824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310120151.XA Pending CN116129934A (zh) | 2023-02-02 | 2023-02-02 | 音频分析方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129934A (zh) |
-
2023
- 2023-02-02 CN CN202310120151.XA patent/CN116129934A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11514886B2 (en) | Emotion classification information-based text-to-speech (TTS) method and apparatus | |
US20200234695A1 (en) | Determining phonetic relationships | |
WO2017067206A1 (zh) | 个性化多声学模型的训练方法、语音合成方法及装置 | |
CN102360543B (zh) | 基于hmm的双语(普通话-英语)tts技术 | |
US20200082808A1 (en) | Speech recognition error correction method and apparatus | |
CN111433847B (zh) | 语音转换的方法及训练方法、智能装置和存储介质 | |
WO2018200267A1 (en) | Automatic song generation | |
WO2018200268A1 (en) | Automatic song generation | |
CN107707745A (zh) | 用于提取信息的方法和装置 | |
CN111402843A (zh) | 说唱音乐生成方法、装置、可读介质及电子设备 | |
CN110852075B (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
CN109448704A (zh) | 语音解码图的构建方法、装置、服务器和存储介质 | |
US20140236597A1 (en) | System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis | |
CN109166569B (zh) | 音素误标注的检测方法和装置 | |
JP2014199323A (ja) | 音声対話装置及び対話制御方法 | |
Płaza et al. | Call transcription methodology for contact center systems | |
CN113393830B (zh) | 混合声学模型训练及歌词时间戳生成方法、设备、介质 | |
CN111477210A (zh) | 语音合成方法和装置 | |
WO2014176489A2 (en) | A system and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis | |
CN112786020B (zh) | 一种歌词时间戳生成方法及存储介质 | |
CN116129934A (zh) | 音频分析方法、装置、设备及存储介质 | |
CN115050351A (zh) | 生成时间戳的方法、装置及计算机设备 | |
CN113470612A (zh) | 一种音乐数据的生成方法、装置、设备以及存储介质 | |
CN112071287A (zh) | 用于生成歌谱的方法、装置、电子设备和计算机可读介质 | |
CN111445925A (zh) | 用于生成差异信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |