CN111429891B - 一种音频数据处理方法、装置、设备及可读存储介质 - Google Patents

一种音频数据处理方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111429891B
CN111429891B CN202010236417.3A CN202010236417A CN111429891B CN 111429891 B CN111429891 B CN 111429891B CN 202010236417 A CN202010236417 A CN 202010236417A CN 111429891 B CN111429891 B CN 111429891B
Authority
CN
China
Prior art keywords
frequency
sequence
loudness
audio
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010236417.3A
Other languages
English (en)
Other versions
CN111429891A (zh
Inventor
缪畅宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010236417.3A priority Critical patent/CN111429891B/zh
Publication of CN111429891A publication Critical patent/CN111429891A/zh
Application granted granted Critical
Publication of CN111429891B publication Critical patent/CN111429891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Stereophonic System (AREA)

Abstract

本申请实施例公开了一种音频数据处理方法、装置、设备及可读存储介质,本申请属于计算机技术领域,方法包括:将音频数据划分为至少两个频率序列;每个频率序列分别属于不同的音频时间段,每个频率序列包含至少两个频率采样点分别对应的响度信息;根据时间相邻的两个音频时间段对应的两个频率序列的响度信息确定差异响度序列;根据差异响度序列确定待分割频率序列组,对待分割频率序列组中的两个频率序列进行分割;根据分割结果对频率序列进行组合,得到至少两个频率序列段落;根据响度信息分别确定每个频率序列段落的音频段落特征,融合音频段落特征得到音频数据的音频特征。采用本申请,可以保证所提取到的音频特征能够正确表征音频的实际特性。

Description

一种音频数据处理方法、装置、设备及可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种音频数据处理方法、装置、设备及可读存储介质。
背景技术
随着计算机网络的不断发展和日益普及,人们可以快速的获取到海量音乐资源,听音乐已经成为人们生活中重要的解压或娱乐方式,因此根据人们的音乐播放历史记录或输入信息来进行音乐推荐显得十分有必要,音乐推荐有益于人们获取到大量喜爱的音乐。
在音乐推荐场景中,常常需要对音乐的音频进行处理,使得音乐推荐系统能融入音乐自身的信息,实现对音乐的“理解”,从而可以更好地将合适的音乐针对性的推荐给用户。在现有技术中,通常通过频谱图采样得到多个频率序列来表征音频,由于每个频率序列分别对应的音频时间段的时长都是一致的,所以可能会导致一些问题出现,如音频时间段的时长过短,则这些频率序列对音频在一定时间上的特征变化(如旋律变化)无法表征出来;而且通常音乐都是具有节奏变化的,这些具有相同时长的频率序列是无法体现出节奏的变化,所以可能导致所提取到的音频特征难以正确表征音频的实际音乐特性。
申请内容
本申请提供一种音频数据处理方法、装置、设备及可读存储介质,可以保证所提取到的音频特征能够正确表征音频的实际特性。
本申请实施例一方面提供一种音频数据处理方法,包括:
获取音频数据,将上述音频数据划分为至少两个频率序列;每个频率序列分别属于不同的音频时间段,上述每个频率序列包含至少两个频率采样点分别对应的响度信息;
将时间相邻的两个音频时间段对应的频率序列确定为频率序列组,根据上述每个频率序列所包含的响度信息,确定上述频率序列组对应的差异响度序列;
根据上述差异响度序列,在上述频率序列组中确定待分割频率序列组,对上述待分割频率序列组中的两个频率序列进行分割,得到分割结果;
根据上述分割结果对上述至少两个频率序列进行段落组合,得到至少两个频率序列段落;
根据每个频率序列段落中的频率序列所包含的响度信息以及上述至少两个频率采样点,分别确定上述每个频率序列段落对应的音频段落特征,将每个音频段落特征进行融合,得到上述音频数据对应的音频特征。
本申请实施例一方面提供一种音频数据处理装置,包括:
频率序列划分模块,用于获取音频数据,将上述音频数据划分为至少两个频率序列;每个频率序列分别属于不同的音频时间段,上述每个频率序列包含至少两个频率采样点分别对应的响度信息;
频率序列组确定模块,用于将时间相邻的两个音频时间段对应的频率序列确定为频率序列组;
差异响度序列确定模块,用于根据上述每个频率序列所包含的响度信息,确定上述频率序列组对应的差异响度序列;
待分割序列确定模块,用于根据上述差异响度序列,在上述频率序列组中确定待分割频率序列组;
序列分割模块,用于对上述待分割频率序列组中的两个频率序列进行分割,得到分割结果;
段落组合模块,用于根据上述分割结果对上述至少两个频率序列进行段落组合,得到至少两个频率序列段落;
音频特征确定模块,用于根据每个频率序列段落中的频率序列所包含的响度信息以及上述至少两个频率采样点,分别确定上述每个频率序列段落对应的音频段落特征;
段落特征融合模块,用于将每个音频段落特征进行融合,得到上述音频数据对应的音频特征。
其中,上述频率序列划分模块,包括:
响度信息采样单元,用于获取音频数据和至少两个时间采样点,在上述音频数据中采样上述至少两个时间采样点分别对应的响度信息;
采样序列生成单元,用于根据上述至少两个时间采样点分别对应的响度信息,生成上述音频数据对应的音频采样序列;
采样序列划分单元,用于对上述音频采样序列进行划分,得到至少两个时间序列;每个时间序列的时间长度均相同,上述每个时间序列分别属于不同的音频时间段;
频域转换单元,用于对上述至少两个时间序列进行频域转换,得到至少两个初始频率序列;
频率序列生成单元,用于获取至少两个频率采样点,在每个初始频率序列采样上述至少两个频率采样点分别对应的响度信息,根据上述至少两个频率采样点分别对应的响度信息,生成每个时间序列分别对应的频率序列。
其中,上述差异响度序列确定模块,包括:
频率序列区分单元,用于将上述频率序列组中的两个频率序列,分别确定为第一频率序列和第二频率序列;
差异响度序列生成单元,用于对上述第一频率序列和上述第二频率序列中,属于相同频率采样点的响度信息进行减运算,得到上述至少两个频率采样点分别对应的差异响度值,将上述至少两个频率采样点分别对应的差异响度值确定为差异响度序列。
其中,上述待分割序列确定模块,包括:
归一化单元,用于在上述差异响度序列中确定最小差异响度值以及最大差异响度值,根据上述最小差异响度值以及上述最大差异响度值,对上述差异响度序列中的差异响度值进行归一化处理,得到标准差异响度值;
标准差异序列确定单元,用于根据上述标准差异响度值,生成上述差异响度序列对应的标准差异响度序列;
待分割序列组确定单元,用于根据上述标准差异响度序列,在上述频率序列组中确定待分割频率序列组。
其中,上述待分割序列组确定单元,包括:
向量长度确定子单元,用于根据M个标准差异响度序列中每个标准差异响度序列的标准差异响度值,确定上述每个标准差异响度序列的向量长度;M为上述标准差异响度序列的总数量;
排序子单元,用于根据上述向量长度,对上述M个标准差异响度序列进行降序排序,得到排序后的M个标准差异响度序列;
待分割序列组确定子单元,用于在上述排序后的M个标准差异响度序列中按序获取N个标准差异响度序列,将上述N个标准差异响度序列分别对应的频率序列组确定为待分割序列组;N为小于M的正整数。
其中,上述分割结果包括上述待分割频率序列组中的两个频率序列之间的分割点;
上述段落组合模块,包括:
序列添加单元,用于根据上述至少两个频率序列所属音频时间段之间的时间顺序,将上述至少两个频率序列按序添加至具有时间顺序的时间频率总序列;
分割位置确定单元,用于根据上述分割点所属的上述待分割频率序列组,确定上述分割点在上述时间频率总序列中的分割位置,根据上述分割位置对上述时间频率总序列进行分割,得到至少两个时间频率分割序列;
段落组合单元,用于分别对每个时间频率分割序列中的频率序列进行段落组合,得到每个时间频率分割序列分别对应的频率序列段落。
其中,上述音频特征确定模块,包括:
响度信息获取单元,用于获取频率序列段落ki中的每个频率序列分别包含的响度信息sj;i为小于或等于频率序列段落的数量的正整数;j为小于或等于上述至少两个频率采样点的数量的正整数;
最大响度信息确定单元,用于分别确定上述频率序列段落ki中的每个频率序列中的最大响度信息;
初始段落特征生成单元,用于根据上述最大响度信息以及上述最大响度信息对应的频率采样点,生成初始音频段落特征;上述初始音频段落特征包括上述至少两个频率采样点;
段落特征确定单元,用于若上述最大响度信息映射到上述初始音频段落特征中的每个频率采样点,则将上述初始音频段落特征确定为上述频率序列段落ki对应的音频段落特征;
待融合采样点确定单元,用于若上述最大响度信息未映射到上述初始音频段落特征中的每个频率采样点,则将上述初始音频段落特征中未映射上述最大响度信息的频率采样点,确定为待融合频率采样点;
段落特征生成单元,用于根据上述频率序列段落ki中的每个频率序列中属于上述待融合频率采样点的响度信息,以及上述初始音频段落特征,生成上述频率序列段落ki对应的音频段落特征。
其中,上述初始段落特征生成单元,包括:
最大值确定子单元,用于在T个最大响度信息中,确定出最大值,作为目标响度信息;T为上述频率序列段落ki中的频率序列的数量;
待选择信息确定子单元,用于将上述T个最大响度信息中除上述目标响度信息之外的响度信息确定为待选择响度信息;
初始段落特征确定子单元,用于若上述待选择响度信息所属的频率采样点与上述目标响度信息所属的频率采样点相同,则将上述待选择响度信息删除,将上述目标响度信息以及上述目标响度信息所属的频率采样点确定为上述初始音频段落特征;
上述初始段落特征确定子单元,还用于若上述待选择响度信息所属的频率采样点与上述目标响度信息所属的频率采样点不同,则将上述待选择响度信息、上述待选择响度信息所属的频率采样点、上述目标响度信息以及上述目标响度信息所属的频率采样点,确定为上述初始音频段落特征。
其中,上述段落特征生成单元,包括:
叠加处理子单元,用于对上述频率序列段落ki中的每个频率序列中,属于相同上述待融合频率采样点的响度信息进行叠加平均处理,得到上述待融合频率采样点对应的融合响度信息;
信息添加子单元,用于将上述待融合频率采样点对应的融合响度信息添加至上述初始段落特征,得到上述频率序列段落ki对应的音频段落特征。
其中,上述每个音频段落特征均包括上述至少两个频率采样点分别对应的特征响度信息;
上述段落特征融合模块,包括:
响度信息叠加单元,用于将上述每个音频段落特征中,属于相同频率采样点的特征响度信息进行叠加,得到上述至少两个频率采样点分别对应的叠加特征响度信息,将上述至少两个频率采样点分别对应的叠加特征响度信息,确定为上述音频数据对应的音频特征。
其中,上述每个音频段落特征均包括上述至少两个频率采样点分别对应的特征响度信息;
上述段落特征融合模块,包括:
特征拼接单元,用于根据上述每个音频段落特征对应的频率序列段落之间的时间顺序,将上述每个音频段落特征按序进行拼接,将拼接后得到的特征向量确定为上述音频数据对应的音频特征。
其中,上述每个音频段落特征均包括上述至少两个频率采样点分别对应的特征响度信息;
上述段落特征融合模块,包括:
最大值确定单元,用于在上述每个音频段落特征中,确定出每个频率采样点分别对应的最大特征响度信息;上述最大特征响度信息为每个频率采样点对应的特征响度信息中的最大值;
特征确定单元,用于将上述至少两个频率采样点分别对应的上述最大特征响度信息,确定为上述音频数据对应的音频特征。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
上述存储器存储有计算机程序,上述计算机程序被上述处理器执行时,使得所诉处理器执行如本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令当被处理器执行时,执行如本申请实施例中的方法。
本申请实施例通过确定待分割频率序列组,可以得到针对音频数据的频率序列的分割点,通过分割点可以将音频数据的频率序列进行分割,以组合成一个个频率序列段落,而且每个频率序列段落中包括的频率序列可以具有不同的数量,从而频率序列段落可以具备不同的音频时长。而且通过将多个频率序列组合到一个频率序列段落中的方式,可以使得频率序列段落具备较长的时长,更能体现出这些频率序列在一段较长时间内共同组成的响度变化。由此可见,通过这些频率序列段落所生成的音频特征,可以有效的体现出音频的节奏变化,从而可以保证所提取到的音频特征能够正确表征音频的实际特性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种网络架构图;
图1b是本申请实施例提供的一种频率序列处理示意图;
图2是本申请实施例提供的一种音频数据处理方法的流程示意图;
图3a至图3b是本申请实施例提供的一种频率序列处理示意图;
图3c是本申请实施例提供的一种音频段落组合示意图;
图4是本申请实施例提供的一种生成音频段落特征的流程示意图;
图5a是本申请实施例提供一种生成初始音频段落特征的示意图;
图5b是本申请实施例提供的一种生成初始音频段落特征的示意图;
图5c是本申请实施例提供的一种确定音频段落特征的示例图;
图6是本申请实施例提供的一种确定待分割频率序列组的场景示意图;
图7是本申请实施例提供的一种确定音频特征的场景示意图;
图8是本申请实施例提供的一种音频数据处理装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案属于人工智能领域下属的语音技术(SpeechTechnology)。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
请参见图1a,是本申请实施例提供的一种网络架构图。如图1a所示,该网络架构可以包括业务服务器1000以及后台服务器集群,其中,上述后台服务器集群可以包括多个后台服务器,如图1a所示,具体可以包括后台服务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n。如图1a所示,后台服务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n可以分别与上述业务服务器1000进行网络连接,以便于每个后台服务器可以通过该网络连接与业务服务器1000进行数据交互,以便于上述业务服务器1000可以接收到来自于每个后台服务器的业务数据。
如图1a所示的每个后台服务器均与用户终端相对应,可以用于存储对应的用户终端的业务数据。每个用户终端均可以集成安装有目标应用,当该目标应用运行于各用户终端中时,则每个用户终端对应的后台服务器可以对应用中的业务数据进行存储,并与上述图1a所示的业务服务器1000之间进行数据交互。其中,该目标应用可以包括具有显示文字、图像、音频以及视频等数据信息功能的应用。如,应用可以为音乐类应用,可以用于用户播放音频、视频、查看并发表评论等。本申请中的业务服务器1000可以从这些应用的后台(如上述后台服务器集群)收集到业务数据,如,该业务数据可以为用户标记为喜欢的音乐、用户重复播放过的音乐以及用户下载的音乐等。根据收集到的业务数据,业务服务器1000可以根据这些业务数据,为用户推荐相关业务数据,如根据用户标记为喜欢的音乐,业务服务器1000可以为用户推荐与这些音乐的旋律或节奏相似的相关音乐。
本申请实施例可以在多个用户终端中选择一个用户终端作为目标用户终端,该目标用户终端可以包括:智能手机、平板电脑、桌上型电脑等携带显示和播放数据信息功能的智能终端。例如,本申请实施例可以将图1a所示的后台服务器100a对应的用户终端作为该目标用户终端,该目标用户终端中可以集成有上述目标应用,此时,该目标用户终端对应的后台服务器100a可以与业务服务器1000之间进行数据交互。如,用户在使用用户终端中的目标应用(如音乐类应用)时,业务服务器1000通过该用户终端对应的后台服务器,可以检测并收集到该用户重复播放多次的音乐或用户作喜欢标记的音乐,业务服务器1000可以确定出该音乐的音频特征,并根据该音频特征获取到与该音频特征相似的相关音频特征,并将这些相关音频特征对应的相关音乐返回至后台服务器,则用户可以在用户终端的显示页面上查看到这些推荐的相关音乐,并进行播放。以用户重复播放了10次歌曲“A”为例,业务服务器1000可以确定用户十分喜爱歌曲“A”,则可以业务服务器1000可以确定出歌曲“A”的音频特征,根据音频特征查询歌曲“A”的相关音乐推荐给用户。对于业务服务器1000确定歌曲“A”的音频特征的具体实现方式,本方案可以采取以下方法,业务服务器1000可以获取到歌曲“A”的音频数据,并将音频数据划分为至少两个频率序列,每个频率序列分别属于不同的音频时间段,且每个频率序列包含至少两个频率采样点分别对应的响度信息;后续,业务服务器1000可以对这至少两个频率序列进行分割并组合,得到至少两个频率序列段落。为便于理解,请一并参见图1b,是本申请实施例提供的一种频率序列处理示意图。如图1b所示,业务服务器1000将音频数据A划分为频率序列G1、频率序列G2、频率序列G3以及频率序列G4,每个频率序列中均包括4个频率采样点,频率序列G1、频率序列G2、频率序列G3以及频率序列G4在这4个频率采样点上分别对应的响度信息可以如图1b所示。频率序列G1的音频时间段的时间位于频率序列G2之前,频率序列G2的音频时间段的时间位于频率序列G3之前,频率序列G3的音频时间段的时间位于频率序列G4之前。业务服务器1000可以确定出频率序列G1与频率序列G2之间的差异响度序列ΔG1为{0,0,-1,0}(用频率序列G2减去频率序列G1);频率序列G2与频率序列G3之间的差异响度序列ΔG2为{0,2,-1,0};频率序列G3与频率序列G4之间的差异响度序列ΔG3为{0,-1,-3,-1}。将差异响度序列ΔG1进行标准化处理可以得到标准差异响度序列{1,1,0,1},求得标准差异响度序列{1,1,0,1}的向量长度为1.73;将差异响度序列ΔG2进行标准化处理可以得到标准差异响度序列{0.33,1,0,0.33},可以求得标准差异响度序列{0.33,1,0,0.33}的向量长度为1.28;将差异响度序列ΔG3进行标准化处理可以得到标准差异响度序列{1,0.67,0,0.67},可以求得标准差异响度序列{1,0.67,0,0.67}的向量长度为1.53。因为1.73>1.53>1.28,则根据向量长度可以对ΔG1、ΔG2以及ΔG3进行降序排序,排序后的结果为ΔG1位于第一位,ΔG3位于第二位,ΔG2位于第三位。取前两个差异响度序列(如ΔG1与ΔG3)出来,可将差异响度序列ΔG1对应的频率序列G1与频率序列G2之间作为一个分割点,将差异响度序列ΔG3对应的频率序列G3与频率序列G4之间作为一个分割点。则根据这两个分割点,可以在频率序列G1、频率序列G2、频率序列G3以及频率序列G4之间进行分割,如图1b所示,分割后,可以得到频率段落序列段落1、频率序列段落2以及频率序列段落3,其中,频率序列段落1中包括频率序列G1,频率序列段落2中包括频率序列G2与频率序列G3,频率序列段落3中包括频率序列G4。后续,业务服务器1000可以根据每个频率序列段落中的频率序列所包含的响度信息以及频率采样点,确定每个频率序列段落对应的音频段落特征,将每个音频段落特征进行融合,业务服务器1000可以得到音频数据A对应的音频特征,即可以得到歌曲“A”的音频特征。
可选的,可以理解的是,后台服务器可以检测收集到各自对应的用户终端上的业务数据(如音乐),并确定出业务数据的数据特征(如音频特征),再根据该数据特征为用户推荐相关数据(如相关音乐)。这里的后台服务器确定出业务数据的数据特征的具体实现方式可以参见上述业务服务器确定出音频特征的描述,这里将不再进行赘述。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,计算机设备包括但不限于终端或服务器。
请参见图2,是本申请实施例提供的一种音频数据处理方法的流程示意图。如图2所示,该方法可以包括:
步骤S101,获取音频数据,将上述音频数据划分为至少两个频率序列;每个频率序列分别属于不同的音频时间段,上述每个频率序列包含至少两个频率采样点分别对应的响度信息。
本申请中,可以获取到音频数据和至少两个时间采样点,根据该时间采样点可以在该音频数据中采样出该时间采样点分别对应的响度信息;根据该至少两个时间采样点分别对应的响度信息,可以生成该音频数据对应的音频采样序列;对该音频采样序列进行划分,可以得到至少两个时间序列;其中,每个时间序列的时间长度均相同,且每个时间序列分别属于不同的音频时间段;对该至少两个时间序列进行频域转换,可以得到至少两个初始频率序列;获取至少两个频率采样点,在每个初始频率序列采样至少两个频率采样点分别对应的响度信息,根据该至少两个频率采样点分别对应的响度信息,可以生成每个时间序列分别对应的频率序列。
其中,这里的时间采样点与频率采样点均可以是人为规定的等差数列,如音频数据为30s,每隔0.1s对音频数据进行采样,则以0.1为公差的等差数列{0、0.1、0.2、0.3…30}可以为该时间采样点。这里的音频时间段可以是时间序列中,起始响度信息的时间采样点至结束响度信息的时间采样点。如一个时间序列为{1,3,4,6},其中,时间序列{1,3,4,6}中的响度信息1对应的时间采样点为0s,响度信息3对应的时间采样点为0.1s,响度信息4对应的时间采样点为0.2s,响度信息6对应的时间采样点为0.3s;因为时间序列{1,3,4,6}中的起始响度信息为响度信息1,结束响度信息为6,则时间序列所属的音频时间段可以为响度信息1的时间采样点至响度信息6的时间采样点,即0s-0.3s。
为便于理解,请一并参见图3a至图3b,本申请实施例提供的一种频率序列处理示意图。如图3a所示,x可以用于表征时间,y可以用于表征音频的响度信息(响度值大小),则图3a可以用于表征音频数据在每个时间点上的响度信息。如图3a所示,音频数据的总时长为0.9s,时间采样点为0s、0.1s、02s、…、0.9s,从图3a可以看出,在0s这个时间采样点上,音频数据的响度信息为1,在0.1s这个时间采样点上,音频数据的响度信息为2,同理,可以得到音频数据在0.3s、0.4s、…、0.9s这些时间采样点上的响度信息。根据时间采样点{0、0.1s、…、0.9s}上的响度信息,可以得到音频数据的音频采样序列为{1,2,4,3,8,8,6,4,2,2}。随后,可以按固定时间长度对该音频采样序列进行划分,得到至少两个时间序列,该固定时间长度即为每个时间序列的时间长度,该固定时间长度可以为人为规定数值。如图3b所示,按固定时间长度0.3s对音频采样序列进行划分,因为固定时间长度为0.3s,而音频采样序列中的响度信息的采样间隔是0.1s(即时间采样点的公差为0.1s),则每个时间序列中应包含的响度信息的数量应为0.3s/0.1s=3个,则将音频采样序列{1,2,4,3,8,8,6,4,2,2}进行划分后得到的时间序列分别为时间序列{1,2,4}、时间序列{8,8,6}以及时间序列{4,2,2}。可以看出,时间序列{1,2,4}所属的音频时间段为0s-0.3s,时间长度为0.3s;时间序列{8,8,6}所属的音频时间段位0.3s-0.6s,时间长度为0.3s;时间序列{4,2,2}所属的音频时间段为0.6s-0.9s,时间长度为0.3s。随后,可以将时间序列{1,2,4}、时间序列{8,8,6}以及时间序列{4,2,2}分别进行频域变换,得到时间序列{1,2,4}、时间序列{8,8,6}以及时间序列{4,2,2}分别对应的频率分布,再在这些分布的频率上进行频率采样,得到频率序列。如图3b所示,架构频率采样点设置为10、20以及30,则对频域变换后的时间序列{1,2,4}进行频率采样后,可以得到频率序列{b1,b2,b3},其中,响度信息b1对应的频率采样点为10hz,响度信息b2对应的频率采样点为20hz,响度信息b3对应的频率采样点为30hz;对频域变换后的时间序列{8,8,6}中进行频率采样后,可以得到频率序列{b4,b5,b6},其中,响度信息b4对应的频率采样点为10hz,响度信息b5对应的频率采样点为20hz,,响度信息b6对应的频率采样点为30hz;对频域变换后的时间序列{4,2,2}进行频率采样后,可以得到频率序列{b7,b8,b9},其中,响度信息b7对应的频率采样点为10hz,响度信息b8与响度信息b9对应的频率采样点分别为20hz与30hz。可以看出,频率序列{b1,b2,b3}所属的音频时间段为0s-0.3s,频率序列{b4,b5,b6}所属的音频时间段为0.3s-0.6s,频率序列{b7,b8,b9}所属的音频时间段为0.6s-0.9s。
需要说明的是,对于图3a以及图3b中的数据(如音频数据、音频数据时长、时间采样点以及响度信息等),均是为便于理解所进行的举例说明,不具有实际代表性。对于本方案中的频域变换,可以采用离散傅里叶变换(Discrete Fourier Transform,DFT),或采用快速傅里叶变换((Fast Fourier Transform,FFT),或采用梅尔倒谱系数(Mel-FrequencyCepstral Coefficients,MFCC)等,对于频域变换的具体实现方式,本申请不作限制。
步骤S102,将时间相邻的两个音频时间段对应的频率序列确定为频率序列组,根据上述每个频率序列所包含的响度信息,确定上述频率序列组对应的差异响度序列。
本申请中,在得到音频数据的至少两个音频时间段后,可以将时间相邻的两个音频时间段对应的频率序列确定为频率序列组。其中,这里的时间相邻可以是指时间连续的两个时间段,如,以上述图3b所对应实施例中的频率序列{b1,b2,b3}、频率序列{b4,b5,b6}以及频率序列{b7,b8,b9}为例,频率序列{b1,b2,b3}所属的音频时间段为0s-0.3s,频率序列{b4,b5,b6}所属的音频时间段为0.3s-0.6s,可以看出,0s-0.3s与0.3s-0.6s是两个时间连续的两个时间段,则可以说明音频时间段0s-0.3s与音频时间段0.3s-0.6s是时间相邻的两个音频时间段,则可以将频率序列{b1,b2,b3}与频率序列{b4,b5,b6}确定为一对频率序列组;同理,因为频率序列{b7,b8,b9}所属的音频时间段为0.6s-0.9s,与频率序列{b4,b5,b6}所属的音频时间段0.3s-0.6s为连续时间段,则可以将频率序列{b4,b5,b6}以及频率序列{b7,b8,b9}确定为一组频率序列组。
根据每组频率序列组中所包含的每个频率序列的响度信息,可以确定出每组频率序列组所对应的差异响度序列。确定差异响度序列的具体实现方式可以为,将每组频率序列组中所包含的两个频率序列,分别确定为第一频率序列以及第二频率序列;对该第一频率序列与第二频率序列中,属于相同频率采样点的响度信息进行减运算,得到该至少两个频率采样点分别对应的差异响度值,将该至少两个频率采样点分别对应的差异响度值确定为差异响度序列。可以理解为,因为每组频率序列组中包括两个时间连续的两个频率序列,可以将频率序列组中音频时间段在前的频率序列确定为第一频率序列,音频时间在后的频率序列确定为第二频率序列,则对两个频率序列进行减运算的方式可以为将第二频率序列减去第一频率序列,从而得到第一频率序列与第二频率序列之间的差异响度序列,可以看出,该差异响度序列中的差异响度值可以体现出第一频率序列到第二频率序列在每个频率采样点上的响度变化程度。如,以频率序列为频率序列{1,2}以及频率序列{8,8}为例,频率序列{1,2}所属的音频时间段为0s-0.3s,频率序列{8,8}所属的音频时间段为0.3s-0.6s;频率序列{1,2}中的响度信息1所属的频率采样点为10,响度信息2所属的频率采样点为20;频率{8,8}中的前一个响度信息8所属的频率采样点为10,后一个响度信息8所属的频率采样点为20。在时间维度上,0s-0.3s位于0.3s-0.6s之前,则可以将频率序列{1,2}确定为第一频率序列,将频率序列{8,8}确定为第二频率序列,则频率序列{1,2}与频率序列{8,8}之间的差异响度序列可以用频率序列{8,8}减去频率序列{1,2}。因为频率序列{1,2}中响度信息1所属的频率采样点为10,响度信息2所属的频率采样点为20;频率序列{8,8}中前一个响度信息8所属的频率采样点为10,后一个响度信息8所属的频率采样点为20。则对于频率采样点10,可以用响度信息8减去响度信息1,得到频率采样点10对应的差异响度值为7;对于频率采样点20,可以用响度信息8减去响度信息2,得到差异响度值为6。则频率序列{1,2}与频率序列{8,8}之间的差异响度序列即为{7,6}。
可选的,可以理解的是,可以将频率序列组中音频时间段在前的频率序列确定为第一频率序列,音频时间在后的频率序列确定为第二频率序列,对于确定频率序列组对应的差异响度序列,可以采用第一频率序列(音频时间段在前的频率序列)减第二频率序列(音频时间段在后)的方式。需要说明的是,每组频率序列组确定差异响度序列的方式是同一种方式,即,第一组频率序列组采用音频时间段在前的频率序列减去音频时间段在后的频率序列的方式,则后续的频率序列组也需采用音频时间段在前的频率序列减去音频时间段在后的频率序列这种方式。
步骤S103,根据上述差异响度序列,在上述频率序列组中确定待分割频率序列组,对上述待分割频率序列组中的两个频率序列进行分割,得到分割结果。
本申请中,根据上述每组频率序列组对应的差异响度序列,可以在所有频率序列组中确定出待分割频率序列组。对于确定待分割频率序列组的具体方式可以为,先将每个差异响度序列中的差异响度值进行归一化处理,得到标准差异响度序列,再根据标准差异响度序列,在频率序列组中确定出待分割频率序列组。其中,对每个差异响度序列中的差异响度值进行归一化处理的原因是,因为差异响度序列中的差异响度值代表了两个频率序列中响度信息的变化程度,当一个频率采样点对应的两个频率序列的响度信息变化程度很大时,则这个频率采样点的差异响度值则很大;当一个频率采样点对应的两个频率序列的响度信息变化程度很小时,则这个频率采样点的差异响度值则会很小,这样的话,会使得差异响度序列中所包含的差异响度值存在大的差异响度值相当大、而小的差异响度值又相当小,不利于比较。如,频率序列{1,5}与频率序列{2,90}之间的差异响度序列为{1,85},可以看出,差异响度序列{1,85}中差异响度值1与差异响度值85相差十分大,不利于比较。由此,可以对差异响度序列中的差异响度值进行归一化处理,使得归一化后的每个差异响度值都变为0-1中的值,通过归一化,可以使得每个差异响度序列中的差异响度值的变化范围很小,从而可以方便计算,利于比较。
其中,对于确定每个差异响度序列对应的标准差异响度序列的方式可以为,在差异响度序列中确定出最小差异响度值以及最大差异响度值,根据该最小差异响度值以及该最大差异响度值,对该差异响度序列中的差异响度值进行归一化处理,得到标准差异响度值;根据该标准差异响度值,生成该差异响度序列对应的标准差异响度序列。
对差异响度值进行归一化处理,得到标准差异响度序列的具体方式可以如公式(1)所示:
Figure BDA0002431136850000151
其中,ΔG_可以用于表征标准差异响度序列,x可以用于表征差异响度序列中的每个差异响度值,minx可以用于表征差异响度序列中的最小差异响度值,maxx可以用于表征差异响度序列中的最大差异响度值。
可以理解为,如,差异响度序列为{2,6,8,9},则差异响度序列{2,6,8,9}中的最小差异响度值为2,最大差异响度值为9,则根据上述公式(1),对差异响度值2进行归一化处理后得到的标准差异响度值为(2-2)/(9-2)=0,对差异响度值6进行归一化处理后得到的标准差异响度值为(6-2)/(9-2)=0.57,对差异响度值8进行归一化处理后得到的标准差异响度值为(8-2)/(9-2)=0.86,对差异响度值9进行归一化处理后得到的标准差异响度值为(9-2)/(9-2)=1。则差异响度序列{2,6,8,9}对应的标准差异响度序列为{0,0.57,0.86,1}。
进一步地,若具有M个差异响度序列,在得到每个差异响度序列分别对应的标准差异响度序列后,可以先计算每个标准差异响度序列的向量长度;根据该向量长度,可以对该M个标准差异响度序列进行降序排序,得到排序后的M个标准差异响度序列;在该排序后的M个标准差异响度序列中按序获取N个标准差异响度序列,并将这N个标准差异响度序列分别对应的频率序列组确定为待分割频率序列组。也就是说,在排序后的M个标准差异响度序列中,从排名最前的那个标准差异响度序列(向量长度最大的标准差异响度序列)开始,依次往后获取N个标准差异响度序列。其中,这里的N是为小于M的正整数,N用于表征待分割频率序列组的数量,可以为人为规定数值。若需要对频率序列段落作较为精细的划分,得到数量较多的频率序列段落,则可将N的数值确定为较大的一个数值,这样可以取得较多数量的待分割序列组,从而得到数量较多的分割点;
其中,对于确定每个标准差异响度序列的向量长度的具体方式,可以如公式(2)所示:
Figure BDA0002431136850000161
其中,公式(2)中的|ΔG_|可以用于表征每个标准差异响度序列的向量长度,y可以用于表征标准差异响度序列中的每个差异响度值。
可以理解的是,如,标准差异响度序列为{0.5,1,0,0.5},则该标准差异响度序列的向量长度为
Figure BDA0002431136850000162
可以理解的是,如,标准差异响度序列共有4个,分别为标准差异响度序列ΔG1_、标准差异响度序列ΔG2_、标准差异响度序列ΔG3_以及标准差异响度序列ΔG4_。其中,标准差异响度序列ΔG1_对应的频率序列组中包括的两个频率序列为频率序列G1与频率序列G2,标准差异响度序列ΔG2_对应的频率序列组中包括的两个频率序列为频率序列G2与频率序列G3,标准差异响度序列ΔG3_对应的频率序列组中包括的两个频率序列为频率序列G3与频率序列G4,标准差异响度序列ΔG4_对应的频率序列组中包括的两个频率序列为频率序列G4与频率序列G5。其中,标准差异响度序列ΔG1_为{0,0.6,0.6,1}、标准差异响度序列ΔG2_为{0.3,0.5,0,1}、标准差异响度序列ΔG3_为{0.5,1,0,0.5}以及标准差异响度序列ΔG4_为{0,0.5,0.7,1},则根据上述公式(2),可以确定出标准差异响度序列ΔG1_的向量长度为
Figure BDA0002431136850000171
Figure BDA0002431136850000172
标准差异响度序列ΔG2_的向量长度为
Figure BDA0002431136850000173
Figure BDA0002431136850000174
标准差异响度序列ΔG3_的向量长度为1.2247,标准差异响度序列ΔG4_的向量长度为
Figure BDA0002431136850000175
因为1.3190>1.3114>1.2247>1.1576,则根据这4个向量长度的大小,可以将这些标准差异响度序列按降序排序为{标准差异响度序列ΔG4_,标准差异响度序列ΔG1_,标准差异响度序列ΔG3_,标准差异响度序列ΔG2_},可以从根据向量长度进行降序排序后的{标准差异响度序列ΔG4_,标准差异响度序列ΔG1_,标准差异响度序列ΔG3_,标准差异响度序列ΔG2_}中,获取到排序靠前的前3个标准差异响度序列,即标准差异响度序列ΔG4_、标准差异响度序列ΔG1_以及标准差异响度序列ΔG3_,那么可以将标准差异响度序列ΔG4_、标准差异响度序列ΔG1_以及标准差异响度序列ΔG3-分别对应的频率序列组确定为待分割频率序列组。
可选的,可以理解的是,在得到每个标准差异响度序列的向量长度后,可以对该M个标准差异响度序列进行升序排序,得到排序后的M个标准差异响度序列;在该排序后的M个标准差异响度序列中,从排名为最后的那个标准差异响度序列(向量长度最大的标准差异响度序列)开始,依次往前获取到N个标准差异响度序列。
步骤S104,根据上述分割结果对上述至少两个频率序列进行段落组合,得到至少两个频率序列段落。
本申请中,上述分割结果中可以包括待分割频率序列组中的两个频率序列之间的分割点。对于根据分割结果对上述至少两个频率序列进行段落组合的具体方法,可以为,根据音频数据的至少两个频率序列所属音频时间段之间的时间顺序,将该至少两个频率序列按序添加至具有时间顺序的时间频率总序列中;再根据该分割结果中的分割点所属的待分割频率序列组,确定出分割点在该时间频率总序列中的分割位置,根据该分割位置可以对该时间频率总序列进行分割,得到至少两个时间频率分割序列;分别对每个时间频率分割序列中的频率序列进行段落组合,可以得到每个时间频率分割序列分别对应的频率序列段落。
为便于理解,请一并参见图3c,是本申请实施例提供的一种音频段落组合的示意图。如图3c所示,标准差异响度序列可以包括ΔG1,ΔG2,ΔG3,ΔG4。其中,ΔG1所对应的频率序列组由频率序列G1与频率序列G2组成,ΔG2所对应的频率序列组由频率序列G2与频率序列G3组成,ΔG3所对应的频率序列组由频率序列G3与频率序列G4组成,ΔG4所对应的频率序列由频率序列G4与频率序列G5组成。ΔG1的向量长度为1.8,ΔG2的向量长度为1.6,ΔG3的向量长度为1.7,ΔG4的向量长度为1.5,则根据向量长度对标准差异响度序列进行排序后的结果为{ΔG1,ΔG3,ΔG2,ΔG1}。从ΔG1开始获取2个标准差异响度序列为ΔG1与ΔG3,则ΔG1与ΔG3分别对应的频率序列组即为待分割频率序列组,因为ΔG1对应的频率序列组中包括频率序列G1与频率序列G2,ΔG3对应的频率序列组中包括频率序列G3与频率序列G4,则可以在频率序列G1与频率序列G2之间确定出一个分割点,在频率序列G3与频率序列G4之间确定出一个分割点。因为频率序列G1所属的音频时间段为0s-0.2s,频率序列G2所属的音频时间段为0.2s-0.4s,频率序列G3所属的音频时间段为0.4s-0.6s,频率序列G4所属的音频时间段为0.6s-0.8s,频率序列G5所属的音频时间段为0.8s-1s。则根据这些频率所属的音频时间段的时间顺序,可以得到时间频率总序列为{G1,G2,G3,G4,G5}。根据上述频率序列G1与G2之间的分割点以及频率序列G3与G4之间的分割点,可以在时间频率总序列{G1,G2,G3,G4,G5}中确定出分割位置,根据该分割位置可以对时间频率总序列进行段落组合,如图3c所示,在时间频率总序列{G1,G2,G3,G4,G5}中,在G1与G2之间的位置处进行分割,在G3与G4之间的位置处进行分割,在分割后对频率序列进行组合,将组合后的结果确定为频率序列段落。如图3c所示,进行分割后,可以得到频率序列段落1、频率序列段落2以及频率序列段落3,该频率序列段落1中包括频率序列G1,该频率序列段落2中包括频率序列G2与频率序列G3,该频率序列段落3中包括频率序列G4与频率序列G5。
步骤S105,根据每个频率序列段落中的频率序列所包含的响度信息以及上述至少两个频率采样点,分别确定上述每个频率序列段落对应的音频段落特征,将每个音频段落特征进行融合,得到上述音频数据对应的音频特征。
本申请中,在得到频率序列段落后,可以获取到频率序列段落ki中的每个频率序列分别包含的响度信息sj;其中,这里的i是小于或等于频率序列段落段落的数量的正整数,j是小于或等于至少两个频率采样点的数量的正整数。也就是说,频率序列段落ki可以是指至少两个频率序列段落中的任一个频率序列段落,响度信息sj可以是指每个频率序列中包含的任一个响度信息。根据获取到的每个频率序列的响度信息sj,可以确定出频率序列段落ki中的每个频率序列中的最大响度信息;根据该最大响度信息以及该最大响度信息对应的频率采样点,可以生成包括该至少两个频率采样点的初始音频段落特征;若该最大响度信息映射到该初始音频段落特征中的每个频率采样点,可以将该初始音频段落特征确定为该频率序列段落ki对应的音频段落特征;若该最大响度信息未映射到该初始音频段落特征中的每个频率采样点,则可以将该初始音频段落特征中未映射该最大响度信息的频率采样点,确定为待融合频率采样点,并根据该频率序列段落ki中的每个频率序列中属于该待融合频率采样点的响度信息,以及该初始音频段落特征,生成该频率序列段落ki对应的音频段落特征。因为该音频段落特征是由频率序列段落中每个频率序列所包含的响度信息所融合生成的,则可以将每个频率序列中的响度信息融合生成的结果确定为特征响度信息,一个频率采样点上的至少两个响度信息生成该频率采样点上的特征响度信息,则每个音频段落特征中包括至少两个频率采样点以及频率采样点对应的特征响度信息。
进一步地,可以对每个音频段落特征进行融合,从而得到音频数据对应的音频特征。融合音频段落特征得到音频特征的具体方法可以为,将每个音频段落特征中,属于相同频率采样点的特征响度信息进行叠加,得到该至少两个频率采样点分别对应的叠加特征响度信息,再将至少两个频率采样点分别对应的叠加特征响度信息,确定为该音频数据对应的音频特征。
可以理解为,如,音频段落特征包括音频段落特征1{1,4,6,7}、音频段落特征2{2,5,6,8}以及音频段落特征3{4,7,3,9}。其中,属于频率采样点1的特征响度信息包括1、2以及4,则可以将特征响度信息1、特征响度信息2以及特征响度信息4进行叠加,得到频率采样点1对应的叠加特征响度信息为1+2+4=7;属于频率采样点2的特征响度信息包括4、5以及7,则可以将特征响度信息4、特征响度信息5以及特征响度信息7进行叠加,得到频率采样点2对应的叠加特征响度信息为4+5+7=16;属于频率采样点3的特征响度信息包括6、6以及3,则可以将特征响度信息6、特征响度信息6以及特征响度信息3进行叠加,得到频率采样点3对应的叠加特征响度信息为6+6+3=15;属于频率采样点4的特征响度信息包括7、8以及9,则可以将特征响度信息7、特征响度信息8以及特征响度信息9进行叠加,得到频率采样点4对应的叠加特征响度信息为7+8+9=24。则由叠加特征响度信息组成的音频特征即为{7,16,15,24}。
可选的,可以理解的是,融合音频段落特征得到音频特征的具体方法,还可以为,根据每个音频段落特征对应的频率序列段落之间的时间顺序,将每个音频段落特征按序进行拼接,将拼接后得到的特征向量确定为该音频数据对应的音频特征。如,音频段落特征包括音频段落特征1{1,4,6,7}、音频段落特征2{2,5,6,8}以及音频段落特征3{4,7,3,9},其中,音频段落特征1对应的频率序列段落的时间,早于音频段落特征2对应的频率序列段落的时间,音频段落特征2对应的频率序列段落的时间,早于音频段落特征3对应的频率序列段落的时间。则按时间顺序进行拼接后可得到特征向量{1,4,6,7,2,5,6,8,4,7,3,9},可将特征向量{1,4,6,7,2,5,6,8,4,7,3,9}确定为音频数据的音频特征。
可选的,可以理解的是,融合音频段落特征得到音频特征的具体方法,还可以为,在每个音频段落特征中,确定出每个频率采样点对应的特征响度信息中的最大值,作为每个频率采样点对应的最大特征响度信息;将该至少两个频率采样点分别对应的最大特征响度信息,确定为该音频数据对应的音频特征。如,音频段落特征包括音频段落特征1{1,4,6,7}、音频段落特征2{2,5,6,8}以及音频段落特征3{4,7,3,9},则频率采样点1对应的特征响度信息包括1、2以及4,因为4>2>1,则频率采样点1对应的最大特征响度信息为4;频率采样点2对应的特征响度信息包括4、5以及7,因为7>5>4,则频率采样点2对应的最大特征响度信息为7;频率采样点3对应的特征响度信息包括6、6以及3,因为6>3,则频率采样点3对应的最大特征响度信息为6;频率采样点4对应的特征响度信息包括7、8以及9,因为9>8>7,则频率采样点4对应的最大特征响度信息为9。则由最大特征响度信息确定的音频特征为{4,7,6,9}。
上述可知,通过确定待分割频率序列组,可以得到针对音频数据的频率序列的分割点,通过分割点可以将音频数据中差异较大的两个频率序列进行分割,以组合成一个个频率序列段落,而且每个频率序列段落中包括的频率序列可以具有不同的数量,从而频率序列段落可以具备不同的音频时长,且每个频率序列段落中包含的频率序列的差异较小。那么通过将多个频率序列组合到一个频率序列段落中的方式,可以使得频率序列段落具备较长的时长,更能体现出这些频率序列在一段较长时间内共同组成的响度变化,且因为频率序列段落中的频率序列差异较小,这些频率序列在响度变化上具有相似性,则包含这些差异较小的频率序列的一个频率序列段落,可以体现出一种属性的响度特性(如响度高、响度低、响度变化程度小等特性)。那么由不同属性的响度特性对应的频率序列段落所生成的音频特征,就更能体现出音频在整体上的节奏变化,从而可以保证所提取到的音频特征能够正确表征音频的实际特性。
进一步地,为便于理解,请参见图4,是本申请实施例提供的一种生成音频段落特征的流程示意图。如图4所示,该流程可以包括:
步骤S201,在T个最大响度信息中,确定出最大值,作为目标响度信息;T为上述频率序列段落ki中的频率序列的数量。
本申请中,对于初始音频段落特征是根据频率序列段落中每个频率序列的响度信息中的最大响度信息所确定的,因为需要获取到每个频率序列所包含的响度信息的最大响度信息,则每个频率序列段落中包含的频率序列的数量,即为最大响度信息的数量。这里的T即为最大响度信息的总数量。
步骤S202,将上述T个最大响度信息中除上述目标响度信息之外的响度信息确定为待选择响度信息。
本申请中,在这T个最大响度信息中,若不是最大的一个值,则就作为待选择响度信息。如,最大响度信息包括{2,4,6,8},其中,8是最大值,则可以将最大响度信息8确定为目标响度信息,将最大响度信息1、最大响度信息4以及最大响度信息6均确定为待选择响度信息。
步骤S203,若上述待选择响度信息所属的频率采样点与上述目标响度信息所属的频率采样点相同,则将上述待选择响度信息删除,将上述目标响度信息以及上述目标响度信息所属的频率采样点确定为上述初始音频段落特征。
本申请中,可以将待选择响度信息所属的频率采样点与目标响度信息的频率采样点进行对比,若该待选择响度信息所属的频率采样点与该目标响度信息所属的频率采样点相同,则可以说明,在该频率采样点上,目标响度信息是比待选择响度信息大的,则可以不再将该待选择响度信息作为生成初始音频段落特征的依据,之间将该待选择响度信息进行删除,直接根据该目标响度信息以及该目标响度信息对应的频率采样点来生成初始音频段落特征。
为便于理解,请一并参见图5a,是本申请实施例提供一种生成初始音频段落特征的示意图。如图5a所示,在一个频率序列段落中包括的频率序列为{(1,3,4,6),(2,5,7,9),(1,6,7,10)},每个频率序列中均包括4个响度信息以及每个响度信息所属的频率采样点。其中,对于频率采样点1hz在每个频率序列中对应的响度信息分别为1、2、1,对于频率采样点2hz在每个频率序列中对应的响度信息分别为3、5、6,对于频率采样点3hz在每个频率序列中对应的响度信息分别为4、7、7,对于频率采样点4hz在每个频率序列中对应的响度信息分别为6、9、10。如图5a所示,在频率序列(1,3,4,6)中的最大响度信息为6,所属的频率采样点为频率采样点4hz;在频率序列(2,5,7,9)中的最大响度信息为9,所属的频率采样点为频率采样点4hz;在频率序列(1,6,7,10)中的最大响度信息为10,所属的频率采样点为频率采样点4hz。则在这3个最大响度信息中,最大值为10,则可将最大响度信息10确定为目标响度信息,将最大响度信息6以及最大响度信息9均确定为待选择响度信息。因为最大响度信息6、最大响度信息9以及最大响度信息10所属的频率采样点均为频率采样点4hz,即所属频率采样点相同,则可以将待选择响度信息6以及待选择响度信息9进行删除,将目标响度信息10以及所属的频率采样点4hz确定为该频率序列段落对应的初始音频段落特征,如图5a所示,初始音频段落特征为{-,-,-,10}。
步骤S204,若上述待选择响度信息所属的频率采样点与上述目标响度信息所属的频率采样点不同,则将上述待选择响度信息、上述待选择响度信息所属的频率采样点、上述目标响度信息以及上述目标响度信息所属的频率采样点,确定为上述初始音频段落特征。
本申请中,可以将待选择响度信息所属的频率采样点与目标响度信息的频率采样点进行对比,若该待选择响度信息所属的频率采样点与该目标响度信息所属的频率采样点不同,则可将待选择响度信息也作为生成初始音频段落特征的依据。为便于理解,请一并参见图5b,是本申请实施例提供的一种生成初始音频段落特征的示意图。如图5b所示,在一个频率序列段落中包括的频率序列为{(1,3,4,6),(2,5,9,4),(1,6,8,3)},每个频率序列中均包括4个响度信息以及每个响度信息所属的频率采样点。其中,对于频率采样点1hz在每个频率序列中对应的响度信息分别为1、2、1,对于频率采样点2hz在每个频率序列中对应的响度信息分别为3、5、6,对于频率采样点3hz在每个频率序列中对应的响度信息分别为4、9、8,对于频率采样点4hz在每个频率序列中对应的响度信息分别为6、4、3。如图5b所示,在频率序列(1,3,4,6)中的最大响度信息为6,所属的频率采样点为频率采样点4hz;在频率序列(2,5,9,4)中的最大响度信息为9,所属的频率采样点为频率采样点3hz;在频率序列(1,6,8,3)中的最大响度信息为8,所属的频率采样点为频率采样点3hz。则在这3个最大响度信息中,最大值为9,则可将最大响度信息9确定为目标响度信息,将最大响度信息6以及最大响度信息8均确定为待选择响度信息。因为待选择响度信息8与目标响度信息9所属的频率采样点相同,属于频率采样点3hz,则可以将待选择响度信息8进行删除;因为待选择响度信息6所属的频率采样点为频率采样点4hz,与目标响度信息9所属的频率采用点4不同,则可以将待选择响度信息6留下,将待选择响度信息6、待选择响度信息所属的频率采样点3hz、目标响度信息9以及目标响度信息所属的频率采样点3hz,确定为该频率序列段落对应的初始音频段落特征,如图5b所示,初始音频段落特征为{-,-,9,6}。
步骤S205,对上述频率序列段落ki中的每个频率序列中,属于相同上述待融合频率采样点的响度信息进行叠加平均处理,得到上述待融合频率采样点对应的融合响度信息。
本申请中,可以将最大响度信息映射到初始音频段落特征中的频率采样点确定为已融合频率采样点,如上述图5b所对应实施例中的初始音频段落特征{-,-,9,6}所示,最大响度信息9、最大响度信息6以及最大响度信息8所映射到的频率采样点分别为频率采样3以及频率采样点4hz,则可以将频率采样点3hz以及频率采样点4hz确定为已融合频率采样点。这里的待融合频率采样点可以是指每个频率序列段落的每个频率序列所对应的频率采样点中,除已融合频率采样点之外的频率采样点,如上述图5b所对应实施例中的初始音频段落特征{-,-,9,6}所示,频率采样点共包括频率采样点1hz、频率采样点2hz、频率采样点3hz以及频率采样点4hz,可将频率采样点1hz与频率采样点2hz均确定为待融合频率采样点。对每个待融合频率采样点上的响度信息,可以进行叠加平均处理,可以得到每个频率采样点上的融合响度信息。如上述图5b所对应实施例所示,频率采样点1hz在频率序列(1,3,4,6)、频率序列(2,5,9,4)以及频率序列(1,6,8,3)中对应的响度信息为1、2、1,将响度信息1、响度信息2以及响度信息1进行叠加平均处理后,可得到频率采样点1hz对应的融合响度信息为(1+2+1)/3=1.33;频率采样点2hz在频率序列(1,3,4,6)、频率序列(2,5,9,4)以及频率序列(1,6,8,3)中对应的响度信息为3、5、6,将响度信息3、响度信息5以及响度信息6进行叠加平均处理后,可得到频率采样点2hz对应的融合响度信息为(3+5+6)/3=4.67。
步骤S206,将上述待融合频率采样点对应的融合响度信息添加至上述初始段落特征,得到上述频率序列段落ki对应的音频段落特征。
本申请中,在得到每个待融合频率采样点分别对应的融合响度信息后,可以将这些融合响度信息一一添加至初始音频段落特征中,从而得到包括每个频率采样点以及每个频率采样点对应的响度信息的音频段落特征。
为便于理解,请一并参见图5c,是本申请实施例提供的一种确定音频段落特征的示例图。在上述图5b所对应实施例中,已得到初始音频段落特征,在上述在步骤S205中,得到频率采样点1hz对应的融合响度信息为1.33,频率采样点2hz对应的融合响度信息为4.67。则可以将融合响度信息1.33与融合响度信息分别添加至初始音频段落特征中,由此可以由初始音频特征{-,-,9,6},得到音频段落特征为{1.33,4.67,9,6}。
上述可知,通过获取频率序列段落中每个频率序列的最大响度信息,获取最大响度信息分别所属的频率采样点,再将每个最大响度信息所属的频率采样点上的最大响度信息分别进行融合,可以得到每个频率采样点上的一个融合值,每个融合值均可以有效表征该频率序列段落中,每个频率采样点对应的多个最大响度信息,那么根据该融合值以及融合值所属的频率采样点生成的初始音频段落特征,也可以有效表征频率序列段落中的这些最大响度信息,再通过将初始音频段落特征中未映射到频率序列段落中的其他响度信息,添加至初始音频段落特征中,从而使得频率序列段落中的每个响度信息都作为了生成音频段落特征的因素,可以使音频段落特征可以有效表征频率序列段落。。
进一步地,请参见图6,是本申请实施例提供的一种确定待分割频率序列组的场景示意图。如图6所示,用户A使用终端A的音乐应用听歌,将歌曲“M”标记为喜欢的音乐,则终端A的后台服务器700a可以检测到歌曲“M”被用户A标记为喜欢的这个事件,并将歌曲“M”进行存储。因为后台服务器700a与业务服务器7000存在网络连接,则业务服务器7000可以检测收集到这个歌曲“M”,并获取到歌曲“M”的音频数据M,再对该音频数据M进行划分,得到该音频数据M的4个频率序列。如图6所示,该频率序列分别为频率序列A1{1,4,6,8}、频率序列A2{2,4,3,1}、频率序列A3{3,7,9,1}以及频率序列A4{6,4,2,5},频率序列A1、频率序列A2、频率序列A3以及A4的频率采样点均为4个,且频率序列A1的所属的音频时间段为0-0.4s,频率序列A2的所属的音频时间段为0.4s-0.8s,频率序列A3的所属的音频时间段为0.8s-1.2s,频率序列A4的所属的音频时间段为1.2s-1.6s。其中,对于根据划分音频数据得到频率序列的具体实现方式,可以参见上述图2所对应实施例中步骤S101的描述,这里将不再进行赘述。后续,根据每个频率序列所属音频时间段的时间顺序,可以将时间相邻的两个频率序列确定为频率序列组,由此可以得到频率序列组(A1,A2)、频率序列组(A2,A3)以及频率序列组(A3,A4)。将每个频率序列组中的两个频率序列所包含的响度信息进行减运算,可以得到每个频率序列组所对应的差异响度序列。如图6所示,将频率序列A2减去频率序列A1,可以得到频率序列组(A1,A2)对应的差异响度序列为ΔA1{1,0,-3,-7},将频率序列A3减去频率序列A2,可以得到频率序列组(A2,A3)对应的差异响度序列为ΔA2{1,3,6,0},将频率序列A4减去频率序列A3,可以得到频率序列组(A3,A4)对应的差异响度序列为ΔA3{3,-3,-7,3}。将每个差异响度序列分别进行归一化处理,可以得到每个差异响度序列分别对应的标准差异响度序列,如图6所示,ΔA1对应的标准差异响度序列为{1,0.86,0.5,0},ΔA2对应的标准差异响度序列为{0.17,0.5,1,0},ΔA3对应的标准差异响度序列为{0.91,0.36,0,1}。其中,对于确定频率序列组的差异响度系列,再对每个差异响度序列进行归一化处理,得到每个差异响度序列对应的标准差异响度序列的具体实现方式,可以参见上述图2所对应实施例中步骤S103中对于确定标准差异响度序列的描述,这里将不再进行赘述。后续,可以确定出每个标准差异响度序列的向量长度,再根据向量长度对这些标准差异响度序列进行按降序进行排序。如图6所示,ΔA1对应的标准差异响度序列的向量长度为1.41,ΔA2对应的标准差异响度序列的向量长度为1.13,ΔA3对应的标准差异响度序列的向量长度为1.40。则进行降序排序后,ΔA1位于第一位,ΔA3位于第二位,ΔA1位于第三位。其中,对于确定每个标准差异响度序列的向量长度的具体实现方式,可以参见上述图2所对应实施例中步骤S103中对于确定向量长度的描述,这里将不再进行赘述。后续,可以在排序后的标准差异响度序列中,获取出前2个,即ΔA1与ΔA3,则可将ΔA1所对应的频率序列组(A1,A2)以及ΔA3所对应的频率序列组(A3,A4)均确定为待分割频率序列组。
进一步地,请一并参见图7,是本申请实施例提供的一种确定音频特征的场景示意图。如图7所示,上述业务服务器7000根据音频数据“M”得到待分割频率序列组(A1,A2)以及(A3,A4),可以在频率序列A1与频率序列A2之间进行分割,得到分割点1,可以在频率序列A3与频率序列A4之间进行分割,得到分割点2;业务服务器7000可以将频率序列A1、频率序列A2、频率序列A3以及频率序列A4按时间进行排序,如图7所示,可以得到时间频率总序列{A1,A2,A3,A4}。再根据上述频率序列1与频率序列2之间的分割点1、频率序列3与频率序列4之间的分割点2,对时间频率总序列{A1,A2,A3,A4}进行分割,进行分割后,可以将频率序列进行组合,得到3个频率序列段落。如图7所示,频率序列段落分别为频率序列段落1、频率序列段落2以及频率序列段落3,频率序列段落1中包括频率序列A1,频率序列段落2中包括频率序列A1与频率序列A1,频率序列段落3中包括频率序列A3。再根据每个频率序列段落中每个频率序列所包含的响度信息,可以确定出每个频率序列对应的音频段落特征,如图7所示,频率序列段落1对应的音频段落特征为{1,4,6,8},频率序列段落2对应的音频段落特征为{2.5,4,9,1},频率序列段落3对应的音频段落特征为{6,4,2,5}。其中,对于确定每个频率序列段落对应的音频段落特征的具体实现方式,可以参见上述图2所对应实施例中步骤S105中对于确定音频段落特征的描述,这里将不再进行赘述。后续,可以对每个音频段落特征进行融合,生成音频数据“M”的音频特征为{6,4,9,8}。这里的融合方式,采用的是取每个频率采样点上的响度信息的最大值。如,对于第一个频率采样点对应的响度信息分别有1、2.5、6,因为6>2.5>1,则可以将6作为第一个频率采样点在音频特征中的响度信息。
请参见图8,是本申请实施例提供的一种音频数据处理装置的结构示意图。上述音频数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该音频数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示,该音频数据处理装置1可以包括:频率序列划分模块11、频率序列组确定模块12、差异响度序列确定模块13、待分割序列确定模块14、序列分割模块15、段落组合模块16、音频特征确定模块17以及段落特征融合模块18。
频率序列划分模块11,用于获取音频数据,将上述音频数据划分为至少两个频率序列;每个频率序列分别属于不同的音频时间段,上述每个频率序列包含至少两个频率采样点分别对应的响度信息;
频率序列组确定模块12,用于将时间相邻的两个音频时间段对应的频率序列确定为频率序列组;
差异响度序列确定模块13,用于根据上述每个频率序列所包含的响度信息,确定上述频率序列组对应的差异响度序列;
待分割序列确定模块14,用于根据上述差异响度序列,在上述频率序列组中确定待分割频率序列组;
序列分割模块15,用于对上述待分割频率序列组中的两个频率序列进行分割,得到分割结果;
段落组合模块16,用于根据上述分割结果对上述至少两个频率序列进行段落组合,得到至少两个频率序列段落;
音频特征确定模块17,用于根据每个频率序列段落中的频率序列所包含的响度信息以及上述至少两个频率采样点,分别确定上述每个频率序列段落对应的音频段落特征;
段落特征融合模块18,用于将每个音频段落特征进行融合,得到上述音频数据对应的音频特征。
其中,频率序列划分模块11、频率序列组确定模块12、差异响度序列确定模块13、待分割序列确定模块14、序列分割模块15、段落组合模块16、音频特征确定模块17以及段落特征融合模块18的具体实现方式,可以参见上述图2所对应实施例中步骤S101-步骤S105的描述,这里将不再进行赘述。
请参见图8,上述频率序列划分模块11,可以包括:响度信息采样单元111、采样序列生成单元112、采样序列划分单元113、频域转换单元114以及频率序列生成单元115。
响度信息采样单元111,用于获取音频数据和至少两个时间采样点,在上述音频数据中采样上述至少两个时间采样点分别对应的响度信息;
采样序列生成单元112,用于根据上述至少两个时间采样点分别对应的响度信息,生成上述音频数据对应的音频采样序列;
采样序列划分单元113,用于对上述音频采样序列进行划分,得到至少两个时间序列;每个时间序列的时间长度均相同,上述每个时间序列分别属于不同的音频时间段;
频域转换单元114,用于对上述至少两个时间序列进行频域转换,得到至少两个初始频率序列;
频率序列生成单元115,用于获取至少两个频率采样点,在每个初始频率序列采样上述至少两个频率采样点分别对应的响度信息,根据上述至少两个频率采样点分别对应的响度信息,生成每个时间序列分别对应的频率序列。
其中,响度信息采样单元111、采样序列生成单元112、采样序列划分单元113、频域转换单元114以及频率序列生成单元115的具体实现方式,可以参见上述图2所对应实施例中步骤S101中的描述,这里将不再进行赘述。
请参见图8,上述差异响度序列确定模块13,可以包括:频率序列区分单元131以及差异响度序列生成单元132。
频率序列区分单元131,用于将上述频率序列组中的两个频率序列,分别确定为第一频率序列和第二频率序列;
差异响度序列生成单元132,用于对上述第一频率序列和上述第二频率序列中,属于相同频率采样点的响度信息进行减运算,得到上述至少两个频率采样点分别对应的差异响度值,将上述至少两个频率采样点分别对应的差异响度值确定为差异响度序列。
其中,频率序列区分单元131以及差异响度序列生成单元132的具体实现方式,可以参见上述图2所对应实施例中步骤S102中的描述,这里将不再进行赘述。
请参见图8,上述待分割序列确定模块14,可以包括:归一化单元141、标准差异序列确定单元142以及待分割序列组确定单元143。
归一化单元141,用于在上述差异响度序列中确定最小差异响度值以及最大差异响度值,根据上述最小差异响度值以及上述最大差异响度值,对上述差异响度序列中的差异响度值进行归一化处理,得到标准差异响度值;
标准差异序列确定单元142,用于根据上述标准差异响度值,生成上述差异响度序列对应的标准差异响度序列;
待分割序列组确定单元143,用于根据上述标准差异响度序列,在上述频率序列组中确定待分割频率序列组。
其中,归一化单元141、标准差异序列确定单元142以及待分割序列组确定单元143的具体实现方式,可以参见上述图2所对应实施例中步骤S103的描述,这里将不再进行赘述。
请参见图8,上述待分割序列组确定单元143,可以包括:向量长度确定子单元1431、排序子单元1432以及待分割序列组确定子单元1433。
向量长度确定子单元1431,用于根据M个标准差异响度序列中每个标准差异响度序列的标准差异响度值,确定上述每个标准差异响度序列的向量长度;M为上述标准差异响度序列的总数量;
排序子单元1432,用于根据上述向量长度,对上述M个标准差异响度序列进行降序排序,得到排序后的M个标准差异响度序列;
待分割序列组确定子单元1433,用于在上述排序后的M个标准差异响度序列中按序获取N个标准差异响度序列,将上述N个标准差异响度序列分别对应的频率序列组确定为待分割序列组;N为小于M的正整数。
其中,向量长度确定子单元1431、排序子单元1432以及待分割序列组确定子单元1433的具体实现方式,可以参见上述图2所对应实施例中步骤S103中的描述,这里将不再进行赘述。
请参见图8,上述段落组合模块16,可以包括:序列添加单元161、分割位置确定单元162以及段落组合单元163。
序列添加单元161,用于根据上述至少两个频率序列所属音频时间段之间的时间顺序,将上述至少两个频率序列按序添加至具有时间顺序的时间频率总序列;
分割位置确定单元162,用于根据上述分割点所属的上述待分割频率序列组,确定上述分割点在上述时间频率总序列中的分割位置,根据上述分割位置对上述时间频率总序列进行分割,得到至少两个时间频率分割序列;
段落组合单元163,用于分别对每个时间频率分割序列中的频率序列进行段落组合,得到每个时间频率分割序列分别对应的频率序列段落。
其中,序列添加单元161、分割位置确定单元162以及段落组合单元163的具体实现方式,可以参见上述图2所对应实施例中步骤S104的描述,这里将不再进行赘述。
请参见图8,上述音频特征确定模块17,可以包括:响度信息获取单元171、最大响度信息确定单元172、初始段落特征生成单元173、段落特征确定单元174、待融合采样点确定单元175以及段落特征生成单元176。
响度信息获取单元171,用于获取频率序列段落ki中的每个频率序列分别包含的响度信息sj;i为小于或等于频率序列段落的数量的正整数;j为小于或等于上述至少两个频率采样点的数量的正整数;
最大响度信息确定单元172,用于分别确定上述频率序列段落ki中的每个频率序列中的最大响度信息;
初始段落特征生成单元173,用于根据上述最大响度信息以及上述最大响度信息对应的频率采样点,生成初始音频段落特征;上述初始音频段落特征包括上述至少两个频率采样点;
段落特征确定单元174,用于若上述最大响度信息映射到上述初始音频段落特征中的每个频率采样点,则将上述初始音频段落特征确定为上述频率序列段落ki对应的音频段落特征;
待融合采样点确定单元175,用于若上述最大响度信息未映射到上述初始音频段落特征中的每个频率采样点,则将上述初始音频段落特征中未映射上述最大响度信息的频率采样点,确定为待融合频率采样点;
段落特征生成单元176,用于根据上述频率序列段落ki中的每个频率序列中属于上述待融合频率采样点的响度信息,以及上述初始音频段落特征,生成上述频率序列段落ki对应的音频段落特征。
其中,响度信息获取单元171、最大响度信息确定单元172、初始段落特征生成单元173、段落特征确定单元174、待融合采样点确定单元175以及段落特征生成单元176的具体实现方式,可以参见上述图2所对应实施例中步骤S105中生成音频段落特征的描述,这里将不再进行赘述。
请参见图8,上述初始段落特征生成单元173,可以包括:最大值确定子单元1731、待选择信息确定子单元1732以及初始段落特征确定子单元1733。
最大值确定子单元1731,用于在T个最大响度信息中,确定出最大值,作为目标响度信息;T为上述频率序列段落ki中的频率序列的数量;
待选择信息确定子单元1732,用于将上述T个最大响度信息中除上述目标响度信息之外的响度信息确定为待选择响度信息;
初始段落特征确定子单元1733,用于若上述待选择响度信息所属的频率采样点与上述目标响度信息所属的频率采样点相同,则将上述待选择响度信息删除,将上述目标响度信息以及上述目标响度信息所属的频率采样点确定为上述初始音频段落特征;
上述初始段落特征确定子单元1733,还用于若上述待选择响度信息所属的频率采样点与上述目标响度信息所属的频率采样点不同,则将上述待选择响度信息、上述待选择响度信息所属的频率采样点、上述目标响度信息以及上述目标响度信息所属的频率采样点,确定为上述初始音频段落特征。
其中,最大值确定子单元1731、待选择信息确定子单元1732以及初始段落特征确定子单元1733的具体实现方式,可以参见上述图4所对应实施例中步骤S201-步骤S204的描述,这里将不再进行赘述。
请参见图8,段落特征生成单元176,包括:叠加处理子单元1761以及信息添加子单元1762。
叠加处理子单元1761,用于对上述频率序列段落ki中的每个频率序列中,属于相同上述待融合频率采样点的响度信息进行叠加平均处理,得到上述待融合频率采样点对应的融合响度信息;
信息添加子单元1762,用于将上述待融合频率采样点对应的融合响度信息添加至上述初始段落特征,得到上述频率序列段落ki对应的音频段落特征。
其中,叠加处理子单元1761以及信息添加子单元1762的具体实现方式,可以参见上述图4所对应实施例中步骤S205-步骤S206的描述,这里将不再进行赘述。
请参见图8,上述段落特征融合模块18,可以包括:响度信息叠加单元181。
响度信息叠加单元181,用于将上述每个音频段落特征中,属于相同频率采样点的特征响度信息进行叠加,得到上述至少两个频率采样点分别对应的叠加特征响度信息,将上述至少两个频率采样点分别对应的叠加特征响度信息,确定为上述音频数据对应的音频特征。
其中,响度信息叠加单元181的具体实现方式可以参见上述图2所对应实施例中步骤S105中的描述,这里将不再进行赘述。
请参见图8,上述段落特征融合模块18,可以包括:特征拼接单元182。
特征拼接单元182,用于根据上述每个音频段落特征对应的频率序列段落之间的时间顺序,将上述每个音频段落特征按序进行拼接,将拼接后得到的特征向量确定为上述音频数据对应的音频特征。
其中,特征拼接单元182的具体实现方式,可以参见上述图2所对应实施例中步骤S105中的描述,这里将不再进行赘述。
请参见图8,上述段落特征融合模块18,可以包括:最大值确定单元183以及特征确定单元184。
最大值确定单元183,用于在上述每个音频段落特征中,确定出每个频率采样点分别对应的最大特征响度信息;上述最大特征响度信息为每个频率采样点对应的特征响度信息中的最大值;
特征确定单元184,用于将上述至少两个频率采样点分别对应的上述最大特征响度信息,确定为上述音频数据对应的音频特征。
其中,最大值确定单元183以及特征确定单元184的具体实现方式,可以参见上述图2所对应实施例中步骤S105中的描述,这里将不再进行赘述。
本申请实施例中,通过确定待分割频率序列组,可以得到针对音频数据的频率序列的分割点,通过分割点可以将音频数据中差异较大的两个频率序列进行分割,以组合成一个个频率序列段落,而且每个频率序列段落中包括的频率序列可以具有不同的数量,从而频率序列段落可以具备不同的音频时长,且每个频率序列段落中包含的频率序列的差异较小。那么通过将多个频率序列组合到一个频率序列段落中的方式,可以使得频率序列段落具备较长的时长,更能体现出这些频率序列在一段较长时间内共同组成的响度变化,且因为频率序列段落中的频率序列差异较小,这些频率序列在响度变化上具有相似性,则包含这些差异较小的频率序列的一个频率序列段落,可以体现出一种属性的响度特性(如响度高、响度低、响度变化程度小等特性)。那么由不同属性的响度特性对应的频率序列段落所生成的音频特征,就更能体现出音频在整体上的节奏变化,从而可以保证所提取到的音频特征能够正确表征音频的实际特性。
进一步地,请参见图9,是本申请实施例提供的一种计算机设备的结构示意图。如图9所示,上述图8所对应实施例中的装置1可以应用于上述计算机设备1000,上述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图9所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取音频数据,将上述音频数据划分为至少两个频率序列;每个频率序列分别属于不同的音频时间段,上述每个频率序列包含至少两个频率采样点分别对应的响度信息;
将时间相邻的两个音频时间段对应的频率序列确定为频率序列组,根据上述每个频率序列所包含的响度信息,确定上述频率序列组对应的差异响度序列;
根据上述差异响度序列,在上述频率序列组中确定待分割频率序列组,对上述待分割频率序列组中的两个频率序列进行分割,得到分割结果;
根据上述分割结果对上述至少两个频率序列进行段落组合,得到至少两个频率序列段落;
根据每个频率序列段落中的频率序列所包含的响度信息以及上述至少两个频率采样点,分别确定上述每个频率序列段落对应的音频段落特征,将每个音频段落特征进行融合,得到上述音频数据对应的音频特征。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2到图7所对应实施例中对该视音频数据处理方法的描述,也可执行前文图8所对应实施例中对该音频数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的数据处理的计算机设备1000所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图2到图7所对应实施例中对上述音频数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
上述计算机可读存储介质可以是前述任一实施例提供的数据识别装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种音频数据处理方法,其特征在于,包括:
获取音频数据,将所述音频数据划分为至少两个频率序列;每个频率序列分别属于不同的音频时间段,所述每个频率序列包含至少两个频率采样点分别对应的响度信息;
将时间相邻的两个音频时间段对应的频率序列确定为频率序列组,根据所述每个频率序列所包含的响度信息,确定所述频率序列组对应的差异响度序列;
根据所述差异响度序列,在所述频率序列组中确定待分割频率序列组,对所述待分割频率序列组中的两个频率序列进行分割,得到分割结果;
根据所述分割结果对所述至少两个频率序列进行段落组合,得到至少两个频率序列段落;
根据每个频率序列段落中的频率序列所包含的响度信息以及所述至少两个频率采样点,分别确定所述每个频率序列段落对应的音频段落特征,将每个音频段落特征进行融合,得到所述音频数据对应的音频特征。
2.根据权利要求1所述的方法,其特征在于,所述获取音频数据,将所述音频数据划分为至少两个频率序列,包括:
获取音频数据和至少两个时间采样点,在所述音频数据中采样所述至少两个时间采样点分别对应的响度信息;
根据所述至少两个时间采样点分别对应的响度信息,生成所述音频数据对应的音频采样序列;
对所述音频采样序列进行划分,得到至少两个时间序列;每个时间序列的时间长度均相同,所述每个时间序列分别属于不同的音频时间段;
对所述至少两个时间序列进行频域转换,得到至少两个初始频率序列;
获取至少两个频率采样点,在每个初始频率序列采样所述至少两个频率采样点分别对应的响度信息,根据所述至少两个频率采样点分别对应的响度信息,生成每个时间序列分别对应的频率序列。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每个频率序列所包含的响度信息,确定所述频率序列组对应的差异响度序列,包括:
将所述频率序列组中的两个频率序列,分别确定为第一频率序列和第二频率序列;
对所述第一频率序列和所述第二频率序列中,属于相同频率采样点的响度信息进行减运算,得到所述至少两个频率采样点分别对应的差异响度值,将所述至少两个频率采样点分别对应的差异响度值确定为差异响度序列。
4.根据权利要求3所述的方法,其特征在于,所述根据所述差异响度序列,在所述频率序列组中确定待分割频率序列组,包括:
在所述差异响度序列中确定最小差异响度值以及最大差异响度值,根据所述最小差异响度值以及所述最大差异响度值,对所述差异响度序列中的差异响度值进行归一化处理,得到标准差异响度值;
根据所述标准差异响度值,生成所述差异响度序列对应的标准差异响度序列;
根据所述标准差异响度序列,在所述频率序列组中确定待分割频率序列组。
5.根据权利要求4所述的方法,其特征在于,所述根据所述标准差异响度序列,在所述频率序列组中确定待分割频率序列组,包括:
根据M个标准差异响度序列中每个标准差异响度序列的标准差异响度值,确定所述每个标准差异响度序列的向量长度;M为所述标准差异响度序列的总数量;
根据所述向量长度,对所述M个标准差异响度序列进行降序排序,得到排序后的M个标准差异响度序列;
在所述排序后的M个标准差异响度序列中按序获取N个标准差异响度序列,将所述N个标准差异响度序列分别对应的频率序列组确定为待分割频率序列组;N为小于M的正整数。
6.根据权利要求 1所述的方法,其特征在于,所述分割结果包括所述待分割频率序列组中的两个频率序列之间的分割点;
所述根据所述分割结果对所述至少两个频率序列进行段落组合,得到至少两个频率序列段落,包括:
根据所述至少两个频率序列所属音频时间段之间的时间顺序,将所述至少两个频率序列按序添加至具有时间顺序的时间频率总序列;
根据所述分割点所属的所述待分割频率序列组,确定所述分割点在所述时间频率总序列中的分割位置,根据所述分割位置对所述时间频率总序列进行分割,得到至少两个时间频率分割序列;
分别对每个时间频率分割序列中的频率序列进行段落组合,得到每个时间频率分割序列分别对应的频率序列段落。
7.根据权利要求1所述的方法,其特征在于,所述根据每个频率序列段落中的频率序列所包含的响度信息以及所述至少两个频率采样点,分别确定所述每个频率序列段落对应的音频段落特征,包括:
获取频率序列段落ki中的每个频率序列分别包含的响度信息sj;i为小于或等于频率序列段落的数量的正整数;j为小于或等于所述至少两个频率采样点的数量的正整数;
分别确定所述频率序列段落ki中的每个频率序列中的最大响度信息;
根据所述最大响度信息以及所述最大响度信息对应的频率采样点,生成初始音频段落特征;所述初始音频段落特征包括所述至少两个频率采样点;
若所述最大响度信息映射到所述初始音频段落特征中的每个频率采样点,则将所述初始音频段落特征确定为所述频率序列段落ki对应的音频段落特征;
若所述最大响度信息未映射到所述初始音频段落特征中的每个频率采样点,则将所述初始音频段落特征中未映射所述最大响度信息的频率采样点,确定为待融合频率采样点,根据所述频率序列段落ki中的每个频率序列中属于所述待融合频率采样点的响度信息,以及所述初始音频段落特征,生成所述频率序列段落ki对应的音频段落特征。
8.根据权利要求7所述的方法,其特征在于,所述根据所述最大响度信息以及所述最大响度信息对应的频率采样点,生成初始音频段落特征,包括:
在T个最大响度信息中,确定出最大值,作为目标响度信息;T为所述频率序列段落ki中的频率序列的数量;
将所述T个最大响度信息中除所述目标响度信息之外的响度信息确定为待选择响度信息;
若所述待选择响度信息所属的频率采样点与所述目标响度信息所属的频率采样点相同,则将所述待选择响度信息删除,将所述目标响度信息以及所述目标响度信息所属的频率采样点确定为所述初始音频段落特征;
若所述待选择响度信息所属的频率采样点与所述目标响度信息所属的频率采样点不同,则将所述待选择响度信息、所述待选择响度信息所属的频率采样点、所述目标响度信息以及所述目标响度信息所属的频率采样点,确定为所述初始音频段落特征。
9.根据权利要求7所述的方法,其特征在于,所述根据所述频率序列段落ki中的每个频率序列中属于所述待融合频率采样点的响度信息,以及所述初始音频段落特征,生成所述频率序列段落ki对应的音频段落特征,包括:
对所述频率序列段落ki中的每个频率序列中,属于相同所述待融合频率采样点的响度信息进行叠加平均处理,得到所述待融合频率采样点对应的融合响度信息;
将所述待融合频率采样点对应的融合响度信息添加至所述初始音频段落特征,得到所述频率序列段落ki对应的音频段落特征。
10.根据权利要求1所述的方法,其特征在于,所述每个音频段落特征均包括所述至少两个频率采样点分别对应的特征响度信息;
所述将每个音频段落特征进行融合,得到所述音频数据对应的音频特征,包括:
将所述每个音频段落特征中,属于相同频率采样点的特征响度信息进行叠加,得到所述至少两个频率采样点分别对应的叠加特征响度信息,将所述至少两个频率采样点分别对应的叠加特征响度信息,确定为所述音频数据对应的音频特征。
11.根据权利要求1所述的方法,其特征在于,所述每个音频段落特征均包括所述至少两个频率采样点分别对应的特征响度信息;
所述将每个音频段落特征进行融合,得到所述音频数据对应的音频特征,包括:
根据所述每个音频段落特征对应的频率序列段落之间的时间顺序,将所述每个音频段落特征按序进行拼接,将拼接后得到的特征向量确定为所述音频数据对应的音频特征。
12.根据权利要求1所述的方法,其特征在于,所述每个音频段落特征均包括所述至少两个频率采样点分别对应的特征响度信息;
所述将每个音频段落特征进行融合,得到所述音频数据对应的音频特征,包括:
在所述每个音频段落特征中,确定出每个频率采样点分别对应的最大特征响度信息;所述最大特征响度信息为每个频率采样点对应的特征响度信息中的最大值;
将所述至少两个频率采样点分别对应的所述最大特征响度信息,确定为所述音频数据对应的音频特征。
13.一种音频数据处理装置,其特征在于,包括:
频率序列划分模块,用于获取音频数据,将所述音频数据划分为至少两个频率序列;每个频率序列分别属于不同的音频时间段,所述每个频率序列包含至少两个频率采样点分别对应的响度信息;
频率序列组确定模块,用于将时间相邻的两个音频时间段对应的频率序列确定为频率序列组;
差异响度序列确定模块,用于根据所述每个频率序列所包含的响度信息,确定所述频率序列组对应的差异响度序列;
待分割序列确定模块,用于根据所述差异响度序列,在所述频率序列组中确定待分割频率序列组;
序列分割模块,用于对所述待分割频率序列组中的两个频率序列进行分割,得到分割结果;
段落组合模块,用于根据所述分割结果对所述至少两个频率序列进行段落组合,得到至少两个频率序列段落;
音频特征确定模块,用于根据每个频率序列段落中的频率序列所包含的响度信息以及所述至少两个频率采样点,分别确定所述每个频率序列段落对应的音频段落特征;
段落特征融合模块,用于将每个音频段落特征进行融合,得到所述音频数据对应的音频特征。
14.一种计算机设备,其特征在于,包括:处理器和存储器;
所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1至12中任一项所述的方法。
CN202010236417.3A 2020-03-30 2020-03-30 一种音频数据处理方法、装置、设备及可读存储介质 Active CN111429891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010236417.3A CN111429891B (zh) 2020-03-30 2020-03-30 一种音频数据处理方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010236417.3A CN111429891B (zh) 2020-03-30 2020-03-30 一种音频数据处理方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111429891A CN111429891A (zh) 2020-07-17
CN111429891B true CN111429891B (zh) 2022-03-04

Family

ID=71549160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010236417.3A Active CN111429891B (zh) 2020-03-30 2020-03-30 一种音频数据处理方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111429891B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010276697A (ja) * 2009-05-26 2010-12-09 Waseda Univ 音声処理装置およびプログラム
CN106919662A (zh) * 2017-02-14 2017-07-04 复旦大学 一种音乐识别方法及系统
CN108766461A (zh) * 2018-07-17 2018-11-06 厦门美图之家科技有限公司 音频特征提取方法及装置
CN110312146A (zh) * 2019-06-06 2019-10-08 百度在线网络技术(北京)有限公司 音频处理方法、装置、电子设备和存储介质
CN110689885A (zh) * 2019-09-18 2020-01-14 平安科技(深圳)有限公司 机器合成语音识别方法、装置、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130297297A1 (en) * 2012-05-07 2013-11-07 Erhan Guven System and method for classification of emotion in human speech

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010276697A (ja) * 2009-05-26 2010-12-09 Waseda Univ 音声処理装置およびプログラム
CN106919662A (zh) * 2017-02-14 2017-07-04 复旦大学 一种音乐识别方法及系统
CN108766461A (zh) * 2018-07-17 2018-11-06 厦门美图之家科技有限公司 音频特征提取方法及装置
CN110312146A (zh) * 2019-06-06 2019-10-08 百度在线网络技术(北京)有限公司 音频处理方法、装置、电子设备和存储介质
CN110689885A (zh) * 2019-09-18 2020-01-14 平安科技(深圳)有限公司 机器合成语音识别方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN111429891A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN110853618B (zh) 一种语种识别的方法、模型训练的方法、装置及设备
CN107918653B (zh) 一种基于喜好反馈的智能播放方法和装置
CN110246512A (zh) 声音分离方法、装置及计算机可读存储介质
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN113573161B (zh) 多媒体数据处理方法、装置、设备及存储介质
CN110209869A (zh) 一种音频文件推荐方法、装置和存储介质
CN111444379B (zh) 音频的特征向量生成方法及音频片段表示模型的训练方法
CN113177538B (zh) 一种视频循环识别方法、装置、计算机设备及存储介质
CN114073854A (zh) 基于多媒体文件的游戏方法和系统
CN111816170B (zh) 一种音频分类模型的训练和垃圾音频识别方法和装置
CN112153460A (zh) 一种视频的配乐方法、装置、电子设备和存储介质
US20240004606A1 (en) Audio playback method and apparatus, computer readable storage medium, and electronic device
CN118098274B (zh) 模型训练方法、装置、电子设备及存储介质
CN114528762A (zh) 一种模型训练方法、装置、设备和存储介质
CN111428078A (zh) 音频指纹编码方法、装置、计算机设备及存储介质
CN111508530A (zh) 语音情感识别方法、装置及存储介质
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
CN110070891A (zh) 一种歌曲识别方法、装置以及存储介质
CN111477248B (zh) 一种音频噪声检测方法及装置
CN113571063A (zh) 语音信号的识别方法、装置、电子设备及存储介质
CN111429891B (zh) 一种音频数据处理方法、装置、设备及可读存储介质
CN116959464A (zh) 音频生成网络的训练方法、音频生成方法以及装置
CN114329042A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN115221351A (zh) 音频匹配方法、装置、电子设备和计算机可读存储介质
CN114969427A (zh) 歌单生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40026282

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant