CN114333899A - 数据处理方法、装置、设备、存储介质及计算机程序产品 - Google Patents
数据处理方法、装置、设备、存储介质及计算机程序产品 Download PDFInfo
- Publication number
- CN114333899A CN114333899A CN202111022658.9A CN202111022658A CN114333899A CN 114333899 A CN114333899 A CN 114333899A CN 202111022658 A CN202111022658 A CN 202111022658A CN 114333899 A CN114333899 A CN 114333899A
- Authority
- CN
- China
- Prior art keywords
- audio
- rhythm point
- beat
- rhythm
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
本申请实施例公开了一种数据处理方法、装置、设备、存储介质及计算机程序产品,可以应用于云技术、人工智能等各种领域或场景,该数据处理方法包括:对待处理音频进行分段处理,得到至少两个音频片段;利用至少两个数据处理线程对所述至少两个音频片段进行处理,得到各个音频片段的节奏点序列;将所述各个音频片段的节奏点序列进行融合处理,得到所述待处理音频的目标节奏点序列。通过本申请实施例,可以实现确定音频中节奏点的自动化及智能化,从而有效提高确定音频中节奏点的效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备、存储介质及计算机程序产品。
背景技术
音乐节拍是音乐强拍和弱拍的规律组合,例如四二拍的每小节都有一强拍和一弱拍规律性地反复交替,四四拍的每小节则是一个强拍和三个弱拍的组合规律。节奏点是指音乐节拍发生的时间,具有十分广阔的应用场景,如根据音乐节拍设计游戏、音频可视化方向上制作卡点视频,让视频切换根据音乐节拍变换来实现、音乐风格变换方向上在原有音乐之上添加不同的音效来实现音乐氛围的提升等。
通过人工标注是一种确定音乐节奏点的方式,但是这种方式由于主观因素,标注标准不同会导致音乐节奏点不一致,并且所需的人力资源耗费大,效率不高,因此,如何高效地确定出音乐的节奏点具有十分重要的研究意义。
发明内容
本申请实施例提供一种数据处理方法、装置、设备、存储介质及计算机程序产品,可以实现确定音频中节奏点的自动化及智能化,从而有效提高确定音频中节奏点的效率。
本申请实施例一方面提供了一种数据处理方法,包括:
对待处理音频进行分段处理,得到至少两个音频片段;
利用至少两个数据处理线程对至少两个音频片段进行处理,得到各个音频片段的节奏点序列;
将各个音频片段的节奏点序列进行融合处理,得到待处理音频的目标节奏点序列。
本申请实施例一方面提供了一种数据处理装置,包括:
分段模块,用于对待处理音频进行分段处理,得到至少两个音频片段;
处理模块,用于利用至少两个数据处理线程对至少两个音频片段进行处理,得到各个音频片段的节奏点序列;
融合模块,用于将各个音频片段的节奏点序列进行融合处理,得到待处理音频的目标节奏点序列。
本申请实施例一方面提供了一种计算机设备,包括:处理器、存储器以及网络接口;处理器与存储器、网络接口相连,其中,网络接口用于提供网络通信功能,存储器用于存储程序代码,处理器用于调用程序代码,以执行本申请实施例中的数据处理方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例中的数据处理方法。
相应的,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中一方面提供的数据处理方法。
在本申请实施例中,将待处理音频(或者说原始音频)分段得到音频片段,然后利用多个数据处理线程可以实现对多个音频片段的同时处理,得到各个音频片段的节奏点序列,这样就将原始音频的节奏点序列分解为多个节奏点序列的同时计算,通过融合这些节奏点序列快速得到原始音频的节奏点序列,实现确定音频中节奏点的自动化及智能化,有效提高确定节奏点的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理系统的架构图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的一种确定音乐节奏点的流程示意图;
图4是本申请实施例提供的另一种数据处理方法的流程示意图;
图5是本申请实施例提供的另一种数据处理方法的流程示意图;
图6是本申请实施例提供的一种语谱图处理过程的结果示意图;
图7是本申请实施例提供的一种数据处理装置的结构示意图;
图8是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as aService,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。本申请提供的数据处理方案可以是PaaS服务提供的功能,能够支持第三方应用调用相关接口通过执行数据处理方案确定音乐节奏点,第三方应用可以利用该音乐节奏点制作卡点音乐、卡点视频等。
请参见图1,图1是本申请实施例提供的数据处理系统的架构图,如图1所示,包括终端设备101和服务器100。终端设备101和服务器100可以通过有线或无线的方式进行通信连接。
终端设备101可以通过拾音设备采集音频数据或结合拍摄设备采集视频数据,生成音频或视频文件,该音频或视频中包括的音频可以是音乐,终端设备101通过运行的应用客户端(如在线web应用或第三方APP)上传该音频或视频文件,或者输入指示该文件的本地存储路径,服务器100可以直接获取到音视频数据或者根据该本地存储路径获取音视频数据。
服务器100可以从终端设备101或者其他数据库中获取音频数据(针对视频则提取其中包括的音频数据)并对其进行切分,得到多个音频片段,然后在服务器100中启用多个数据处理线程来并行或并发处理各个音频片段,得到节奏点序列,最后根据相应的规则将各个音频片段得到的节奏点序列进行融合处理,得到最终的音乐节奏点。然后将处理结果返回给终端设备101。
采用这样的方式,可以不用对整段音乐进行串行计算来定位节奏点位置,而是同时计算多个音频片段的节奏点,加速定位节奏点,大幅度地减小了计算时间。
可以理解的是,上述终端设备101可以是智能手机、平板电脑、车载终端、智能语音交互设备、智能家电、智能可穿戴设备、个人电脑等等设备,服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
进一步地,为便于理解,本申请下述提及的实施例均以服务器(如上述图1所对应实施例中的服务器100)为例进行说明。请参见图2,图2是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法至少可以包括以下步骤S101-S103,其中:
S101,对待处理音频进行分段处理,得到至少两个音频片段。
在一实施例中,待处理音频可以是服务器从数据库获取的音频,或终端设备上传至服务器中的音频,或从视频中提取的音频,该音频是数字化的语音数据,可以是音乐、朗读音频、噪声音频、无声音频中的任一种,对于待处理音频的内容以及获取方式在此不做限制。对待处理音频进行分段处理作为数据处理的前处理环节,能够得到两个及两个以上的音频片段,各音频片段可以是均匀的也可以是不均匀的,对应地,分段方式可以是按照任意的时间长度等分切割,也可以是不等分切割,在此不做限定。
可选地,分段处理的具体实现步骤可以包括:获取待处理音频,按照设定的分段数量和待处理音频的时间长度,对待处理音频进行平均分段处理,得到至少两个音频片段。其中,将设定的分段数量记为N,取值范围可以在3~5,待处理音频的时间长度记为T(简称时长),对其进行平均分段处理可以得到时长为T/N音频片段,需要说明的是,待处理音频的时长若不能被N整除,可以对T/N进行向上取整的处理,按照向上取整之后的时长来对待处理音频分段,分段后时间排序在最后的音频片段通常是小于该时长的。举例来说,一段20秒的音乐(时间范围为0s-20s)需要等分为3份(即设定的分段数量为3),则可以按照每个音频片段7秒(20/3向上取整)的时长来分段,将得到的音频片段分别记为V1、V2、V3,其中,V1的时间范围为0s-7s,V1的时间范围为8s-15s,V3的时间范围为16s-20s,最后一个音频片段V3的时长是4s,小于均分的时长7s。
作为一种可选的实现方式,也可以按照指定的音频片段时长来均分待处理音频,将指定的音频片段时长记为t,得到的音频片段的数量即为T/t,针对T/t是结果不是整数的情况,则可以在一定条件下将T/t向上取整或向下取整,进而决定时间排列在最后的音频片段是否保留。例如若T/t得到的余数小于指定的音频片段时长t,则舍弃最后一个音频片段,此时保留下来的各音频片段时长是相同的。举例来说,指定的音频片段时长t为6s,待处理音频的时长为20s,根据T/t可以得到四个音频片段,最后一个音频片段的时长为2s,小于指定的音频片段时长6s,那么将该音频片段删除。
对于待处理音频为音乐时,将分段处理后得到的音频片段称之为切片音乐(或切片),由于每一个音乐节拍所处的具体位置之和该节拍周围的一段音频有关,与远距离的全局音乐信号无关,因此利用后续的处理仍旧能够准确定位分段后的切片音乐的节奏点(或节拍)。
S102,利用至少两个数据处理线程对至少两个音频片段进行处理,得到各个音频片段的节奏点序列。
在一实施例中,服务器可以启动至少两个数据线程(简称线程)来处理上述分段处理得到的音频片段。可选地,一个数据处理线程可以对应处理一个音频片段(一对一),多个数据处理线程也可以对应处理一个音频片段(多对一),在多对一的情况下,可以是多个线程和对音频片段的子片段一一对应处理,也可以是多个数据处理线程同时处理同一个音频片段后选取最佳的处理结果,无论采取何种方式,这样的处理方式都可以提高计算节奏点序列的速度。
利用各数据处理线程对多个音频片段的处理可以是并行处理,也可以是并发处理,其中,并行处理是指两个或两个以上数据处理线程在同一时刻,在不同的CPU(CentralProcessing Unit,中央处理器)资源上,同时执行,也就是说并行状态下的线程分布在不同的CPU上(或多个进程被分配到不同的CPU资源上),这样数据处理线程的执行是没有时间差的,也不存在竞争CPU资源。并发处理是指在同一段时间内多个线程处于已启动运行至运行完毕之间,在微观上多个线程的并发处理可以当作序列被处理,包括排队等候、唤醒、执行等步骤,在宏观上多个几乎同时到达的线程看着就像是在同时被处理,因此多个进程不是同时进行,但又是同时进行的,并发使用一个CPU资源,各线程之间需要竞争CPU资源。无论是并发还是并行处理,相较于依照时间顺序对音频串行处理,利用多线程处理音频片段能够最大限度地利用CPU资源,提高数据处理的速度,进而高效地确定节奏点序列。
需要说明的是,数据处理线程所执行的具体处理算法在本申请实施例中不做限制,即任何能够准确获取节奏点序列的方式均可应用到此步骤中。音频片段的节奏点序列可以是指音频片段中所在节拍时间为强拍或弱拍的序列,即节奏点按照时间顺序先后排列的节拍序列,以时间单位为帧说明,例如可以是第一帧为强拍,第二帧、第三帧、第四帧均为弱拍的一个序列,这里一帧对应的时间是一个节拍的时间。
通常情况下,音乐节奏点计算时间和音乐时长成正比,大约是音乐时长的1/4,例如一个4分钟左右的音乐应用不分段的串行算法处理时,用户需要等待1分钟左右得到节奏点,这样的等待对于用户来说是十分漫长的,因此,可以在前处理环节等分切割原始音频,然后利用多线程并行或并发处理音频片段,同时计算来加速节奏点的确定。通过实验证明,这样能够在保证节奏点准确无误的前提下,实现节奏点确定速度的2~4倍加速效果,也就是将时间压缩到原有的二分之一或四分之一。
S103,将各个音频片段的节奏点序列进行融合处理,得到待处理音频的目标节奏点序列。
在一实施例中,目标节奏点序列是利用各个音频片段的节奏点序列还原的待处理音频的节奏点序列,该节奏点序列可用来表示整个待处理音频的节拍,可以通过将各个切片的节奏点序列进行融合得到最终的节奏点序列,对于具体的融合方式除了可以通过直接结合各个时刻的节奏点之外,本申请实施例还可以设计具体的融合规则来保证最终得到的节奏点序列的合理性和准确性,对于融合规则可以参见下述图4对应实施例的内容,也可以采用其他方式,在此不做限制。
基于上述的数据处理方案,大多数情况下处理对象(即待处理音频)为音乐,其处理流程可以概括为如图3示出的内容,包括输入音乐、前处理、节奏点计算以及后处理这四个步骤:a)输入音乐:输入视频或者音频文件,抽取音频轨道作为算法输入的音乐;b)前处理:等分切割原始音乐,得到均匀的M等份切片音乐,其中,M可以与设定的分段数量N相同,同时送入节奏点计算流程;c)节奏点计算:对b)步骤输入的M段切片音乐进行并行处理,同时得到各切片节奏点位置;d)后处理:融合c)步骤得到的各切片节奏点,得到最终的音乐节奏点。采用本方案可以实现快速计算音乐节奏点,例如原本需要1分钟的计算流程,本方案可在保证效果的前提下,压缩至15秒以内完成,大大降低用户等待时间,提升用户体验。
本申请提供的数据处理方案通过多种形式应用于自动快速计算音乐节奏点中,以web接口为例,具体的操作步骤和产品表现形式可以如下:首先用户上传一段视频或音频URL(uniform resource locator,统一资源定位系统),后台服务器中的相关算法计算音乐的节奏点,然后通过web接口以json形式返回音乐节奏点信息,如将节奏点信息被封装在json文件中返回,确定音乐节奏点的功能可以部署于PAAS(Platform as a Service,平台即服务)服务平台,并且可以为第三方应用提供调用接口,通过接口实现数据之间的传输,使得第三方应用可以通过获取并解析json形式的音乐节奏点信息,得到节拍所在的位置,将其应用于开发的功能。用户在第三方应用中使用基于音乐节奏点开发的功能(如卡点视频制作)时,可以直接在web端的在线应用或应用程序中上传视频或音频文件,而后台自动提取该视频或音频文件的指示地址(如上述URL),使得PAAS服务根据该指示地址获取到视频或音频数据并对其进行处理,将处理结果回传给第三方应用的后台服务器中,以实现相应功能。
综上所述,本申请实施例至少具有以下优点:
通过对待处理音频进行分段处理,得到音频片段,采用多个数据处理线程并行或并发的处理音频片段,提升计算各音频片段的节奏点序列的速度,进而融合快速得到节奏点序列,实现确定音频中节奏点的自动化及智能化。由于节拍所处位置的规律(即与近距离音频信号相关),可以保证节奏点序列的准确性,并行或并发地计算不仅大幅度地降低处理时间,有效地提高确定节奏点的效率,还可以提高资源的利用率。
请参见图4,图4是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法至少可以包括以下步骤S201-S205,其中:
S201,对待处理音频进行分段处理,得到至少两个音频片段。
S202,利用至少两个数据处理线程对至少两个音频片段进行处理,得到各个音频片段的节奏点序列。
步骤S201-S202的可选实现方式可参见上述图2对应实施例中的S101-S102,这里不再进行赘述。
S203,获取第一节奏点序列中的第一节奏点,以及获取第二节奏点序列中的第二节奏点。
在一实施例中,第一节奏点序列和第二节奏点序列为至少两个音频片段中任一相邻音频片段组合中的节奏点序列,且按照时间顺序第一节奏点序列排列在第二节奏点序列之前;第一节奏点为第一节奏点序列中的最后一个节奏点,第二节奏点为第二节奏点序列中的首个节奏点。相邻音频片段组合可以是待处理音频分段处理得到的多个音频片段中任意两个在时间上紧挨着的音频片段,例如音频片段V1(时间范围为11s-30s)和音频片段V2(时间范围为31s-40s)即可作为相邻音频片段组合。将各音频片段的节奏点序列按照时间进行排序,和各音频片段的排序是相同,如上述音频片段V1的节奏点序列即在音频片段V2的节奏点序列之前,因此可以将节奏点序列也视为相邻。按照对第一节奏点序列和第二节奏点序列的定义,上述示例的音频片段V1的节奏点序列可作为第一节奏点序列,音频片段V2的节奏点序列可作为第二节奏点序列。第一节奏点和第二节奏点是两个节奏点序列交界的位置,对于第一节奏点和第二节奏点即分别为上一段末尾的节奏点和下一段开头的节奏点。
S204,根据第一节奏点和第二节奏点,对第一节奏点序列和第二节奏点序列进行融合处理,得到融合节奏点序列。
在一实施例中,考虑到非交界位置的节奏点相距较远,影响较小,所以本方案可以融合相邻两段节奏点序列在交界处的结果来得到融合节奏点序列。相邻两段节奏点序列在交界处的结果可以是根据第一节奏点和第二节奏点筛选节奏点,进而将第一节奏点序列和第二节奏点序列融合,得到融合节奏点序列,需要说明的是,融合节奏点序列包括的节奏点数量可以等于或小于第一节奏点序列和第二节奏点序列包括的节奏点数量之和,对于对相邻两段节奏点序列融合的具体规则可参见下述内容。
可选地,由于相邻节奏点序列可能定位相同的节奏点,并且节奏点是何种节拍也有可能误判,因此可以通过以下规则对节奏点进行筛选后再组合,以保证节奏点序列融合的合理性和准确度。具体步骤可以包括:获取第一节奏点和第二节奏点的时间间隔,以及获取第一节奏点和第二节奏点的节拍类型;若时间间隔大于或等于间隔阈值,且第一节奏点和第二节奏点的节拍类型满足节拍设定规律,则将第二节奏点序列与第一节奏点序列进行融合处理,得到融合节奏点序列。
这里的间隔阈值可以取最短切片节奏点间隔的1/2,该最短切片节奏点间隔是指在各个音频片段的节奏点序列中选择相邻节奏点的时间间隔的最小值,具体实现方式可以是,针对任一音频片段的节奏点序列,将其中任意两个相邻节奏点的时间间隔确定出来,然后选取出最小时间间隔,这样各个音频片段的节奏点序列都对应确定出一个节奏点(时间)间隔的最小值,例如有3个节奏点序列,对应有3个最小时间间隔,然后再比较所有音频片段的节奏点序列的最小时间间隔,如上述从三个最小时间间隔中选择一个,最后得到的最小时间间隔即作为最短切片节奏点间隔。节拍类型包括强拍和弱拍,节拍设定规律可以是指强拍之后会伴随弱拍出现,而强拍和强拍是不会相邻出现,即节拍设定规律不包括“强强弱”这样的规律组合。
节奏点所在的时间位置和所属的节拍类型是构成节奏点序列的关键,节奏点所在的时间位置可以确定相邻节奏点间的时间间隔,而节奏点的节拍类型可以确定相邻节奏点的节拍规律,通过判断相邻节奏点的时间间隔是否大于或等于时间阈值以及节拍规律是否满足节拍设定规律(即节拍类型是否满足节拍设定规律),对节奏点进行取舍。在时间间隔大于或等于时间阈值以及节拍类型满足节拍设定规律的条件下,可以直接将相邻的两个节奏点序列进行拼接,得到融合节奏点序列,该融合节奏点序列包括的数量为相邻两个节奏点序列包括的节奏点数量之和。
如果上述任一条件不能满足,则需要进一步地处理,即:若时间间隔小于间隔阈值,或者第一节奏和第二节奏点的节拍类型不满足节拍设定规律,则将第二节奏点从第二节奏点序列中删除;从删除处理后的第二节奏点序列中确定新的首个节奏点;根据第一节奏点和新的首个节奏点,对第一节奏点序列和删除处理后的第二节奏点序列进行融合处理,得到融合节奏点序列。
也就是说,上一段末尾的节奏点(即第一节奏点序列的第一节奏点)和下一段开头的节奏点(即第二节奏点序列的第二节奏点)间隔特别小,小于间隔阈值(例如最短切片节奏点间隔的一半),或者两个节奏点的节拍类型不满足节拍设定规律,具体的筛选处理可以是删除第二节奏点序列中的第二节奏点,然后从剩下节奏点序列包括的节奏点中确定新的首个节奏点,采用同样的方式,获取新的首个节奏点和第一节奏点的节拍类型和时间间隔,比较时间间隔和间隔阈值大小,以及节拍类型是否符合节拍设定规律,进而决定是否删除第二节奏点。如果上述任一条件无法满足,则继续删除该新的首个节奏点,再从剩余的节奏点中确定新的首个节奏点,依次循环,直到上述两个条件都被满足,再进行融合处理得到融合节奏点序列。简而言之,即依次删除下一段开头的节奏点,直到剩余的节奏点序列中首个节奏点和上一段末尾节奏点间隔大于间隔阈值并且剩余的节奏点序列中首个节奏点属于弱拍(第一节奏点为强拍的情况下),便可以停止删除。
可选地,如果时间间隔或节拍类型不满足条件,也可以将第一节奏点序列中的第一节奏点删除,然后从第一节奏点序列剩余的节奏点中确定新的最后一个节奏点,并根据该新的最后一个节奏点和第二节奏点确定融合节奏点序列。即依次删除上一段末尾的节奏点,直到剩余的节奏点序列中最后一个节奏点和下一段开始的节奏点之间的时间间隔大于间隔阈值并且剩余的节奏点序列中第一个节奏点属于弱拍,便可以停止删除。具体内容和上述类似,在此不做赘述。
需要说明的是,将节奏点序列中不满足条件的节奏点删除并不影响其他节奏点的时间位置。此外,其中利用删除小于间隔阈值的一节奏点是因为间隔过于小的两个相邻切片节奏点实际上是定位了相同的节奏点,删除可以去重,而不满足节拍设定规律则是利用了音乐节拍的先验事实,即强拍和强拍不会相邻地出现。
S205,根据融合节奏点序列确定待处理音频的目标节奏点序列。
在一实施例中,根据步骤S204的实现方式可以对任意相邻两个音频片段组合的节奏点序列进行融合得到的融合节奏点序列,针对多个音频片段,可以有一个多个融合节奏点序列。对于各个融合节奏点序列确定目标节奏点序列的方式,也可以采用确定融合节奏点序列的相同方式将各个融合节奏点序列进行拼接处理,即对相邻节奏点序列中交界处的节奏点的时间间隔和节拍类型检测是否满足条件,若满足,则可以直接拼接,若不满足,则需要处理之后再拼接。在此不再赘述。
将待处理音频分段得到的所有音频片段记为音频片段集合S={s1,s2,…,sL},包括L个音频片段(这里的L可以等于前述实施例中的设定的分段数量N)。可选地,针对待处理音频的所有音频片段,可以按照每相邻两个音频片段先进行组合得到相邻音频片段组合{s1,s2}、{s3,s4}…{sL-1,sL},按照前述规则对每个音频片段组合的节奏点序列融合可以得到对应的融合节奏点序列。在对应理想情况下,两两不重复组合且没有剩余的音频片段可以得到L/2个节奏点序列,例如L=4,对应的融合节奏点序列即为2个,然后再将这两个融合节奏点序列视为第一节奏点序列和第二节奏点序列,按照同样的规则融合,最终得到的节奏点序列记为待处理音频的目标节奏点序列。如果音频片段数量为奇数,例如L=3,对于相邻音频片段组合为{s1,s2}、{s3},得到且剩余单独音频片段{s3}的节奏点序列,此时可以将融合节奏点序列视为第一节奏点序列,单独音频片段的节奏点序列视为第二节奏点序列,按照同样的规则融合。
可选地,确定目标融合节奏点序列的方式也可以是将各个音频片段的节奏点序列中的有效节奏点确定出来,然后对所有节奏点序列的有效节奏点组合到一个节奏点序列,其中,确定有效节奏点的方式可以是采用前述融合两个节奏点序列的规则。示例性地,三个音频片段的节奏点序列,第一个音频片段的节奏点序列包括的所有节奏点可以全部当作有效节奏点,以该节奏点序列的最后一个节奏点为准,对第二个音频片段的节奏点序列中的节奏点进行筛选,具体是对第二个音频片段的首个节奏点进行取舍,即该节奏点与上一节奏点序列中最后一个节奏点之间的时间间隔和节拍类型是否满足条件,若不满足,则需要重新删除该节奏点直到满足,这样第二音频片段的节奏点序列中的有效节奏点可能为全部或部分节奏点,针对第三个音频片段的节奏点序列,以第二个音频片段的节奏点序列的最后一个节奏点为准,按照同样的规则筛选有效节奏点。最终将这些筛选之后的节奏点序列进行组合,得到目标融合节奏点序列。可以发现,这种方式省略了中间获取融合节奏点序列的步骤,能够直接、快速获取目标结果。需要说明的是,上述确定有效节奏点的方式可以并行处理,以迅速确定整段音频的节奏点序列。
综上所述,本申请实施例至少具有以下优点:
通过判断相邻节奏点序列在交界位置的节奏点信息(包括时间间隔和节拍类型)来对各个音频片段的节奏点序列进行融合处理,其中,可以根据相应规则将前后两段节奏点序列的交界处的相同节奏点进行去重处理,以及利用节拍的先验事实来验证节拍组合的规律是否合理,采用这样的融合方式自动化地确定音频中节奏点,并且可以保证最终节奏点序列的准确性和合理性。
请参见图5,图5是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法至少可以包括以下步骤S301-S304,其中:
S301,对待处理音频进行分段处理,得到至少两个音频片段。
此步骤的具体内容可参见图2对应实施例步骤S101的内容,在此不做赘述。
S302,利用至少两个数据处理线程分别对至少两个音频片段进行频谱变换处理,得到各个音频片段的语谱图。
在一实施例中,数据处理线程对音频片段的处理可以是一对一的形式,也可以是多对一的形式,具体可参见前述实施例的内容。在节奏点计算的过程中,数据处理线程对音频数据或中间数据(如语谱图)的处理可以是并行或并发,在此不做限制。数据处理线程的处理对象音频片段可以是对输入的待处理音频分段后抽取的音频PCM(Pulse CodeModulation,脉冲编码调制)数据,即由模拟信号经过采样、量化、编码转换成的标准数字音频数据。对各个音频片段采用同样的频谱变换处理,得到各个音频片段的语谱图,这里的频谱变化处理可以是快速傅里叶变换或短时傅里叶变换(Short Time Fourier Transform,STFT),在此不做限制。
S303,利用至少两个数据处理线程分别调用节拍检测模型对至少两个音频片段的语谱图进行节奏点检测处理,得到各个音频片段的节奏点序列。
在一实施例中,数据处理线程作为上下文执行指令,可以调用节拍检测模型对语谱图进行节奏点检测处理,针对各个音频片段的语谱图的具体处理流程可以是相同的。因此,以任一音频片段的语谱图进行节奏点检测处理得到节奏点序列为例,具体步骤可以包括:针对至少两个音频片段中任一音频片段的语谱图,利用至少两个数据处理线程中的目标数据处理线程调用节拍检测模型对任一音频片段的语谱图进行处理,确定任一音频片段的特征信息,并根据特征信息确定任一音频片段中各个节拍单位时间所对应音频的节拍概率值,以及,根据概率阈值和节拍概率值确定各个节拍单位时间所对应音频的节拍类型,并根据各个节拍单位时间所对应音频的节拍类型确定任一音频片段的节奏点序列;其中,节拍概率值包括强拍概率值和弱拍概率值,节拍类型包括强拍或弱拍。
其中,目标数据处理线程可以是至少两个数据处理线程中的一个或多个,在此不做限制,当目标数据处理线程为多个数据处理线程时,处理对象可以是同一个音频片段的语谱图。数据处理线程调用的节拍检测模型是训练好的节拍检测模型,该节拍检测模型的训练过程属于有监督学习,即利用带有标签的音频数据,包括强拍(downbeat)、弱拍(beat)或没有节拍(non-beat)的音频数据来对模型进行训练。这里的节拍检测模型可以是RNN(Recurrent Neural Network,循环神经网络)时序深度模型,也可以是其他处理时序数据的模型如长短期记忆网络(Long short-term memory,LSTM),或处理图像数据的模型,如残差图卷积神经网络,在此不做限制。语谱图经过该模型能够获取到节奏点序列,模型的中间处理过程包括依次确定特征信息、确定节拍概率值以及确定节拍类型。
在本实施例中可以将语谱图视为图像数据,利用目标数据处理线程调用节拍检测模型(如上述RNN时序深度模型)对语谱图的处理实质上可以理解为对图像进行特征提取,得到特征信息,然后根据特征信息获取各个节拍单位时间的节拍概率值,包括强拍概率值和弱拍概率值。这里的节拍单位时间是指一个节拍所需的时间,可以通过检测音频的BPM(Beat Per Minute,每分钟节拍数)来获取,例如BPM为60则表示每分钟有60拍,此时一拍的时间为1秒,BPM为120则表示每分钟有120拍,每拍为0.5秒。确定节拍单位时间内所对应的音频的节拍为强拍还是弱拍,可以设定一个概率阈值从中二选一,例如节拍概率值中强拍概率值大于该概率阈值则确定该节拍单位时间内所对应的音频的节拍为强拍,反之,则是弱拍,这样可以将各个节拍单位时间的音频的节拍类型确定出来进而得到并输出节奏点序列。需要说明的是,节拍检测模型针对一个音频片段的处理可以是有时间顺序的,即每个时间步(即节拍单位时间)对应输出一个节拍概率值,节奏点序列包括的节拍是按照时间先后顺序排列好的。
请参见图6,图6是本申请实施例提供的一种语谱图处理过程的结果示意图,按照箭头顺序依次为音频片段的语谱图、表示语谱图经过节拍检测模型浅层网络处理得到的浅层特征、表示该浅层特征进一步处理得到相对的深层特征以及最终输出的节奏点序列,在输出的节奏点序列中,下方的峰值对应是强拍概率值,上方的峰值对应是弱拍概率值。
进一步地,上述节拍检测模型可以包括第一时序网络和第二时序网络,任一音频片段的语谱图可以包括第一语谱图和第二语谱图,节拍概率值包括第一节拍概率值和第二节拍概率值,确定任一音频片段的特征信息,并根据特征信息确定节拍概率值的实现方式可以是:将第一语谱图输入第一时序网络中进行处理,得到任一音频片段的节拍特征,将第二语谱图输入第二时序网络中进行处理,得到任一音频片段的谐波特征;根据节拍特征确定任一音频片段中各个节拍单位时间所对应音频的第一节拍概率值,以及根据谐波特征确定任一音频片段中各个节拍单位时间所对应音频的第二节拍概率值。
其中,第一语谱图和第二语谱图可以是由对音频数据采用同一种频谱变换方式得到的,在此可以是短时傅里叶变换,也就是说,第一语谱图和第二语谱图是完全相同的两个频谱图。第一时序网络和第二时序网络可以是两个并行的循环神经网络,第一语谱图和第二语谱图可以分别同时地输入第一时序网络和第二时序网络。节拍特征可以通过计算多波段频谱通量来表示,表达的是节奏内容,频谱通量是指信号相邻帧之间的变化程度,可以用来计算音符起始点的特征。第一语谱图在第一时序网络中的具体处理可以是应用对数滤波器组对短时傅里叶变换得到的幅度谱图(即语谱图)进行处理,实现幅度压缩,降低计算复杂度,然后针对每帧,计算当前帧和前一帧之间(即相邻两帧之间)采样点间的幅度差值(即频谱通量,用来表示节拍特征),但是为了更进一步减小网络处理的数据量,可以通过增大时间粒度来保证后续的网络处理得更快,具体可以根据节拍的位置做窗口平均,即针对长度为Δb/np的窗口计算频率幅度的平均值来对特征序列进行节拍同步,其中,Δb为节拍周期(即一拍的时间),np是节拍分割数。谐波特征也可称之为和声特征,可以通过色度特征来表示整个切片的谐波内容,对于色度特征可以基于第二语谱图来获取,和声在这里可以理解为将和弦添加在节奏点的位置上。
在具体的训练过程中,可以基于西方音乐数据集Ballroom,利用上述第一时序网络和第二时序网络分别对节拍特征和谐波特征进行建模,得到对应的激活函数值(即概率值),后续还要将二者的激活函数值输入到解码网络中(如动态贝叶斯网络)将概率值解码为节奏点的时间序列。因此节拍检测模型除了包括第一时序网络和第二时序网络之外,还可以包括解码网络。将训练好的模型应用到音频片段的处理中,即可以利用并行的第一时序网络和第二时序网络处理语谱图,分别提取节拍特征和谐波特征,进而根据节拍特征确定出各个节拍单位时间所对应音频的第一节拍概率值以及根据谐波特征确定出各个节拍单位时间所对应音频的第二节拍概率值,这里的第一节拍概率值和第二节拍概率值均包括指示的是节拍单位时间所对应音频的节拍为强拍或弱拍的概率值。后续第一节拍概率值和第二节拍概率值平均之后输入解码网络进行处理,得到最终的节奏点序列。其中,解码网络对该平均的节拍概率值的大致原理可以是和前述方式相同,即利用概率阈值来确定该节奏点为强拍或弱拍,更复杂的也可以是将概率阈值和节拍规律结合来确定最终的节奏点序列。这里的节拍规律是指强拍和强拍不会相邻出现。
可选地,上述第一语谱图和第二语谱图所采用的频谱变换方式也可以不同,即对同一音频片段采用不同的频谱变换方式,这样得到的第一语谱图和第二语谱图也是不同的。如采用快速傅里叶变换或短时傅里叶变换得到第一语谱图,采用恒Q变换(Constant-Qtransform)得到第二语谱图,相对于快速傅里叶变换得到的线性分布的频谱图,恒Q变换是一种具有相同指数分布规律的时频变换,通过计算第二语谱图可以直接得到音乐信号在各音符频率处的振幅值。利用不同的频谱变换得到的频谱图来分别输入第一时序网络和第二时序网络,也可以确定节拍特征和谐波特征,进而得到第一节拍概率和第二节拍概率。
S304,将各个音频片段的节奏点序列进行融合处理,得到待处理音频的目标节奏点序列。
此步骤的具体内容可参见图2对应实施例步骤S103或者图4对应实施例步骤S205的内容,在此不做赘述。
综上所述,本申请实施例至少具有以下优点:
利用多个数据处理线程调用节拍检测模型对各个音频片段的语谱图进行并行处理,可以最大限度利用资源,有效提高计算的效率,大大地缩短数据处理所需时间;通过提取语谱图的特征信息,包括节拍特征和谐波特征,由于节拍特征可以对节拍的起始点进行描述,谐波特征也可以对节拍位置进行描述,通过这些特征信息可以丰富地刻画节奏点信息,保证节拍单位时间所对应音频的节拍的准确度,进而保证最终的节奏点序列的准确。
请参见图7,图7是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图7所示,该数据处理装置70可以包括:分段模块701、处理模块702、融合模块703。
分段模块701,用于对待处理音频进行分段处理,得到至少两个音频片段;
处理模块702,用于利用至少两个数据处理线程对至少两个音频片段进行处理,得到各个音频片段的节奏点序列;
融合模块703,用于将各个音频片段的节奏点序列进行融合处理,得到待处理音频的目标节奏点序列。
在一实施例中,融合模块703,具体用于:获取第一节奏点序列中的第一节奏点,以及获取第二节奏点序列中的第二节奏点;根据第一节奏点和第二节奏点,对第一节奏点序列和第二节奏点序列进行融合处理,得到融合节奏点序列;根据融合节奏点序列确定待处理音频的目标节奏点序列;其中,第一节奏点序列和第二节奏点序列为至少两个音频片段中任一相邻音频片段组合中的节奏点序列,且按照时间顺序第一节奏点序列排列在第二节奏点序列之前;第一节奏点为第一节奏点序列中的最后一个节奏点,第二节奏点为第二节奏点序列中的首个节奏点。
在一实施例中,融合模块703,具体还用于:获取第一节奏点和第二节奏点的时间间隔,以及获取第一节奏点和第二节奏点的节拍类型,节拍类型包括强拍或弱拍;若时间间隔大于或等于间隔阈值,且第一节奏点和第二节奏点的节拍类型满足节拍设定规律,则将第二节奏点序列与第一节奏点序列进行融合处理,得到融合节奏点序列。
在一实施例中,数据处理装置70还包括删除模块704和确定模块705,其中:
删除模块704,用于若时间间隔小于间隔阈值,或者第一节奏点和第二节奏点的节拍类型不满足节拍设定规律,则将第二节奏点从第二节奏点序列中删除;
确定模块705,用于从删除处理后的第二节奏点序列中确定新的首个节奏点;
融合模块703,用于根据第一节奏点和新的首个节奏点,对第一节奏点序列和删除处理后的第二节奏点序列进行融合处理,得到融合节奏点序列。
在一实施例中,分段模块701,具体用于:获取待处理音频;按照设定的分段数量和待处理音频的时间长度,对待处理音频进行平均分段处理,得到至少两个音频片段。
在一实施例中,处理模块702,具体用于:利用至少两个数据处理线程分别对至少两个音频片段进行频谱变换处理,得到各个音频片段的语谱图;利用至少两个数据处理线程分别调用节拍检测模型对至少两个音频片段的语谱图进行节奏点检测处理,得到各个音频片段的节奏点序列。
在一实施例中,处理模块702,具体还用于:针对至少两个音频片段中任一音频片段的语谱图,利用至少两个数据处理线程中的目标数据处理线程调用节拍检测模型对任一音频片段的语谱图进行处理,确定任一音频片段的特征信息,并根据特征信息确定任一音频片段中各个节拍单位时间所对应音频的节拍概率值,以及,根据概率阈值和节拍概率值确定各个节拍单位时间所对应音频的节拍类型,并根据各个节拍单位时间所对应音频的节拍类型确定任一音频片段的节奏点序列;其中,节拍概率值包括强拍概率值和弱拍概率值,节拍类型包括强拍或弱拍。
在一实施例中,节拍检测模型包括第一时序网络和第二时序网络,任一音频片段的语谱图包括第一语谱图和第二语谱图,节拍概率值包括第一节拍概率值和第二节拍概率值;处理模块702具体还用于:将第一语谱图输入第一时序网络中进行处理,得到任一音频片段的节拍特征;将第二语谱图输入第二时序网络中进行处理,得到任一音频片段的谐波特征;根据节拍特征确定任一音频片段中各个节拍单位时间所对应音频的第一节拍概率值,以及根据谐波特征确定任一音频片段中各个节拍单位时间所对应音频的第二节拍概率值。
可以理解的是,本申请实施例所描述的数据处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
请参见图8,图8是本申请实施例提供的一种计算机设备80的结构示意图。该计算机设备80可以包含独立设备(例如服务器、节点、终端等等中的一个或者多个),也可以包含独立设备内部的部件(例如芯片、软件模块或者硬件模块等)。该计算机设备80可以包括至少一个处理器801和通信接口802,进一步可选地,计算机设备80还可以包括至少一个存储器803和总线804。其中,处理器801、通信接口802和存储器803通过总线804相连。
其中,处理器801是进行算术运算和/或逻辑运算的模块,具体可以是中央处理器(central processing unit,CPU)、图片处理器(graphics processing unit,GPU)、微处理器(microprocessor unit,MPU)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)、复杂可编程逻辑器件(Complex programmable logic device,CPLD)、协处理器(协助中央处理器完成相应处理和应用)、微控制单元(Microcontroller Unit,MCU)等处理模块中的一种或者多种的组合。
通信接口802可以用于为所述至少一个处理器提供信息输入或者输出。和/或,所述通信接口802可以用于接收外部发送的数据和/或向外部发送数据,可以为包括诸如以太网电缆等的有线链路接口,也可以是无线链路(Wi-Fi、蓝牙、通用无线传输、以及其他短距无线通信技术等)接口。
存储器803用于提供存储空间,存储空间中可以存储操作系统和计算机程序等数据。存储器803可以是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmable read onlymemory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM)等等中的一种或者多种的组合。
该计算机设备80中的至少一个处理器801用于调用至少一个存储器803中存储的计算机程序,用于执行前述的数据处理方法,例如前述图2、图4、图5所示实施例所描述的数据处理方法。
在一种可能的实施方式中,该计算机设备80中的处理器801用于调用至少一个存储器803中存储的计算机程序,用于执行以下操作:
对待处理音频进行分段处理,得到至少两个音频片段;
利用至少两个数据处理线程对至少两个音频片段进行处理,得到各个音频片段的节奏点序列;
将各个音频片段的节奏点序列进行融合处理,得到待处理音频的目标节奏点序列。
在一实施例中,处理器801将所述各个音频片段的节奏点序列进行融合处理,得到所述待处理音频的目标节奏点序列时,具体用于:获取第一节奏点序列中的第一节奏点,以及获取第二节奏点序列中的第二节奏点;根据第一节奏点和第二节奏点,对第一节奏点序列和第二节奏点序列进行融合处理,得到融合节奏点序列;根据融合节奏点序列确定待处理音频的目标节奏点序列;其中,第一节奏点序列和第二节奏点序列为至少两个音频片段中任一相邻音频片段组合中的节奏点序列,且按照时间顺序第一节奏点序列排列在第二节奏点序列之前;第一节奏点为第一节奏点序列中的最后一个节奏点,第二节奏点为第二节奏点序列中的首个节奏点。
在一实施例中,处理器801根据第一节奏点和第二节奏点,对第一节奏点序列和第二节奏点序列进行融合处理,得到融合节奏点序列时,具体用于:获取第一节奏点和第二节奏点的时间间隔,以及获取第一节奏点和第二节奏点的节拍类型,节拍类型包括强拍或弱拍;若时间间隔大于或等于间隔阈值,且第一节奏点和第二节奏点的节拍类型满足节拍设定规律,则将第二节奏点序列与第一节奏点序列进行融合处理,得到融合节奏点序列。
在一实施例中,处理器801还用于:若时间间隔小于间隔阈值,或者第一节奏点和第二节奏点的节拍类型不满足节拍设定规律,则将第二节奏点从第二节奏点序列中删除;从删除处理后的第二节奏点序列中确定新的首个节奏点;根据第一节奏点和新的首个节奏点,对第一节奏点序列和删除处理后的第二节奏点序列进行融合处理,得到融合节奏点序列。
在一实施例中,处理器801对待处理音频进行分段处理,得到至少两个音频片段时,具体用于:获取待处理音频;按照设定的分段数量和待处理音频的时间长度,对待处理音频进行平均分段处理,得到至少两个音频片段。
在一实施例中,处理器801利用至少两个数据处理线程对至少两个音频片段进行处理,得到各个音频片段的节奏点序列时,具体用于:利用至少两个数据处理线程分别对至少两个音频片段进行频谱变换处理,得到各个音频片段的语谱图;利用至少两个数据处理线程分别调用节拍检测模型对至少两个音频片段的语谱图进行节奏点检测处理,得到各个音频片段的节奏点序列。
在一实施例中,处理器801利用至少两个数据处理线程分别调用节拍检测模型对至少两个音频片段的语谱图进行节奏点检测处理,得到各个音频片段的节奏点序列时,具体用于:针对至少两个音频片段中任一音频片段的语谱图,利用至少两个数据处理线程中的目标数据处理线程调用节拍检测模型对任一音频片段的语谱图进行处理,确定任一音频片段的特征信息,并根据特征信息确定任一音频片段中各个节拍单位时间所对应音频的节拍概率值,以及,根据概率阈值和节拍概率值确定各个节拍单位时间所对应音频的节拍类型,并根据各个节拍单位时间所对应音频的节拍类型确定任一音频片段的节奏点序列;其中,节拍概率值包括强拍概率值和弱拍概率值,节拍类型包括强拍或弱拍。
在一实施例中,节拍检测模型包括第一时序网络和第二时序网络,任一音频片段的语谱图包括第一语谱图和第二语谱图,节拍概率值包括第一节拍概率值和第二节拍概率值;处理器801确定任一音频片段的特征信息,并根据特征信息确定任一音频片段中各个节拍单位时间所对应音频的节拍概率值时,具体用于:将第一语谱图输入第一时序网络中进行处理,得到任一音频片段的节拍特征;将第二语谱图输入第二时序网络中进行处理,得到任一音频片段的谐波特征;根据节拍特征确定任一音频片段中各个节拍单位时间所对应音频的第一节拍概率值,以及根据谐波特征确定任一音频片段中各个节拍单位时间所对应音频的第二节拍概率值。
应当理解,本申请实施例中所描述的计算机设备80可执行前文图2、图4以及图5所对应实施例中对该数据处理方法的描述,也可执行前文图7所对应实施例中对该数据处理装置70的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的数据处理方法的计算机设备80所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图2、图4以及图5所对应实施例中对上述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中一方面提供的方法。
本申请的一个方面,提供了另一种计算机程序产品,该计算机程序产品包括计算机程序或计算机指令,该计算机程序或计算机指令被处理器执行时实现本申请实施例提供的数据处理方法的步骤。
最后,还需说明的是,本申请的说明书和权利要求书及上述附图中的术语,诸如第一和第二等之类的关系术语是用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (12)
1.一种数据处理方法,其特征在于,所述方法包括:
对待处理音频进行分段处理,得到至少两个音频片段;
利用至少两个数据处理线程对所述至少两个音频片段进行处理,得到各个音频片段的节奏点序列;
将所述各个音频片段的节奏点序列进行融合处理,得到所述待处理音频的目标节奏点序列。
2.如权利要求1所述的方法,其特征在于,所述将所述各个音频片段的节奏点序列进行融合处理,得到所述待处理音频的目标节奏点序列,包括:
获取第一节奏点序列中的第一节奏点,以及获取第二节奏点序列中的第二节奏点;
根据所述第一节奏点和所述第二节奏点,对所述第一节奏点序列和所述第二节奏点序列进行融合处理,得到融合节奏点序列;
根据所述融合节奏点序列确定所述待处理音频的目标节奏点序列;
其中,所述第一节奏点序列和所述第二节奏点序列为所述至少两个音频片段中任一相邻音频片段组合中的节奏点序列,且按照时间顺序所述第一节奏点序列排列在所述第二节奏点序列之前;所述第一节奏点为所述第一节奏点序列中的最后一个节奏点,所述第二节奏点为所述第二节奏点序列中的首个节奏点。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一节奏点和所述第二节奏点,对所述第一节奏点序列和所述第二节奏点序列进行融合处理,得到融合节奏点序列,包括:
获取所述第一节奏点和所述第二节奏点的时间间隔,以及获取所述第一节奏点和所述第二节奏点的节拍类型,所述节拍类型包括强拍或弱拍;
若所述时间间隔大于或等于间隔阈值,且所述第一节奏点和所述第二节奏点的节拍类型满足节拍设定规律,则将所述第二节奏点序列与所述第一节奏点序列进行融合处理,得到融合节奏点序列。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
若所述时间间隔小于所述间隔阈值,或者所述第一节奏点和所述第二节奏点的节拍类型不满足所述节拍设定规律,则将所述第二节奏点从所述第二节奏点序列中删除;
从删除处理后的第二节奏点序列中确定新的首个节奏点;
根据所述第一节奏点和所述新的首个节奏点,对所述第一节奏点序列和所述删除处理后的第二节奏点序列进行融合处理,得到融合节奏点序列。
5.如权利要求1所述的方法,其特征在于,所述对待处理音频进行分段处理,得到至少两个音频片段,包括:
获取待处理音频;
按照设定的分段数量和所述待处理音频的时间长度,对所述待处理音频进行平均分段处理,得到至少两个音频片段。
6.如权利要求1所述的方法,其特征在于,所述利用至少两个数据处理线程对所述至少两个音频片段进行处理,得到各个音频片段的节奏点序列,包括:
利用至少两个数据处理线程分别对所述至少两个音频片段进行频谱变换处理,得到各个音频片段的语谱图;
利用所述至少两个数据处理线程分别调用节拍检测模型对所述至少两个音频片段的语谱图进行节奏点检测处理,得到所述各个音频片段的节奏点序列。
7.如权利要求6所述的方法,其特征在于,所述利用所述至少两个数据处理线程分别调用节拍检测模型对所述至少两个音频片段的语谱图进行节奏点检测处理,得到所述各个音频片段的节奏点序列,包括:
针对所述至少两个音频片段中任一音频片段的语谱图,利用所述至少两个数据处理线程中的目标数据处理线程调用节拍检测模型对所述任一音频片段的语谱图进行处理,确定所述任一音频片段的特征信息,并根据所述特征信息确定所述任一音频片段中各个节拍单位时间所对应音频的节拍概率值,以及,
根据概率阈值和所述节拍概率值确定所述各个节拍单位时间所对应音频的节拍类型,并根据所述各个节拍单位时间所对应音频的节拍类型确定所述任一音频片段的节奏点序列;
其中,所述节拍概率值包括强拍概率值和弱拍概率值,所述节拍类型包括强拍或弱拍。
8.如权利要求7所述的方法,其特征在于,所述节拍检测模型包括第一时序网络和第二时序网络;所述任一音频片段的语谱图包括第一语谱图和第二语谱图;所述节拍概率值包括第一节拍概率值和第二节拍概率值;所述确定所述任一音频片段的特征信息,并根据所述特征信息确定所述任一音频片段中各个节拍单位时间所对应音频的节拍概率值,包括:
将所述第一语谱图输入所述第一时序网络中进行处理,得到所述任一音频片段的节拍特征;
将所述第二语谱图输入所述第二时序网络中进行处理,得到所述任一音频片段的谐波特征;
根据所述节拍特征确定所述任一音频片段中各个节拍单位时间所对应音频的所述第一节拍概率值,以及根据所述谐波特征确定所述任一音频片段中各个节拍单位时间所对应音频的所述第二节拍概率值。
9.一种数据处理装置,其特征在于,包括:
分段模块,用于对待处理音频进行分段处理,得到至少两个音频片段;
处理模块,用于利用至少两个数据处理线程对所述至少两个音频片段进行处理,得到各个音频片段的节奏点序列;
融合模块,用于将所述各个音频片段的节奏点序列进行融合处理,得到所述待处理音频的目标节奏点序列。
10.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供网络通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1-8任一项所述的数据处理方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行权利要求1-8任一项所述的数据处理方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或计算机指令被处理器执行时实现如权利要求1-8中任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111022658.9A CN114333899A (zh) | 2021-09-01 | 2021-09-01 | 数据处理方法、装置、设备、存储介质及计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111022658.9A CN114333899A (zh) | 2021-09-01 | 2021-09-01 | 数据处理方法、装置、设备、存储介质及计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114333899A true CN114333899A (zh) | 2022-04-12 |
Family
ID=81045617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111022658.9A Pending CN114333899A (zh) | 2021-09-01 | 2021-09-01 | 数据处理方法、装置、设备、存储介质及计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114333899A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114938349A (zh) * | 2022-05-20 | 2022-08-23 | 远景智能国际私人投资有限公司 | 物联网数据处理方法、装置、计算机设备及存储介质 |
-
2021
- 2021-09-01 CN CN202111022658.9A patent/CN114333899A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114938349A (zh) * | 2022-05-20 | 2022-08-23 | 远景智能国际私人投资有限公司 | 物联网数据处理方法、装置、计算机设备及存储介质 |
CN114938349B (zh) * | 2022-05-20 | 2023-07-25 | 远景智能国际私人投资有限公司 | 物联网数据处理方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109545192B (zh) | 用于生成模型的方法和装置 | |
CN110347872B (zh) | 视频封面图像提取方法及装置、存储介质及电子设备 | |
CN109545193B (zh) | 用于生成模型的方法和装置 | |
CN111916061B (zh) | 语音端点检测方法、装置、可读存储介质及电子设备 | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
TWI734375B (zh) | 圖像處理方法、提名評估方法及相關裝置 | |
CN111444382B (zh) | 一种音频处理方法、装置、计算机设备以及存储介质 | |
CN113177538B (zh) | 一种视频循环识别方法、装置、计算机设备及存储介质 | |
US11282514B2 (en) | Method and apparatus for recognizing voice | |
CN109473104A (zh) | 语音识别网络延时优化方法及装置 | |
US11133022B2 (en) | Method and device for audio recognition using sample audio and a voting matrix | |
CN113362811A (zh) | 模型的训练方法、语音识别方法、装置、介质及设备 | |
CN111816216A (zh) | 语音活性检测方法和装置 | |
CN111625649A (zh) | 文本处理方法、装置、电子设备及介质 | |
CN113327599A (zh) | 语音识别方法、装置、介质及电子设备 | |
CN113409803A (zh) | 语音信号处理方法、装置、存储介质及设备 | |
CN114333899A (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 | |
CN115801980A (zh) | 视频生成方法和装置 | |
CN114564606A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN116884402A (zh) | 语音转文本的方法、装置、电子设备及存储介质 | |
CN111128131B (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN117056728A (zh) | 一种时间序列生成方法、装置、设备和存储介质 | |
CN114245171B (zh) | 视频编辑方法、装置、电子设备、介质 | |
CN115064173B (zh) | 语音识别方法、装置、电子设备及计算机可读介质 | |
CN116189678A (zh) | 语音处理方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |