具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,音频文件可以包括但不限于:歌曲、歌曲片段等文件。源音频文件指可用于作为音频测评的参考基准的文件,例如:原唱歌曲,或者从原唱歌曲中截取的歌曲片段等等;目标音频文件指需要进行音频测评的文件,例如:用户针对原唱歌曲重新演唱的歌曲,或者从用户重新演唱的歌曲中截取的歌曲片段等等。
本发明实施例中,一个音频文件可由至少一个音频单句顺序排列而成,该至少一个音频单句的集合描述了音频文件中需要进行演唱的部分。以歌曲A为例,歌曲A的描述可表示如下:
[661,860]aaaaaaaa
[1541,320]bbbbbbbb
[1871,245]cccccccc
……
上述歌曲A的描述中,诸如“aaaaaaaa”、“bbbbbbbb”、“cccccccc”可分别用于表示一个音频单句,各音频单句之前的“[]”用于描述对应的音频单句的时间属性,其单位时间通常为ms,例如:上述[661,860]用于描述音频单句“aaaaaaaa”的时间属性,其中的“661”表示音频单句“aaaaaaaa”的开始时间,“860”表示音频单句“aaaaaaaa”的持续时间,假设歌曲A共5分钟,音频单句“aaaaaaaa”则从第661ms开始演唱,持续860ms结束演唱。按照开始时间的先后顺序,可确定音频文件包含的各音频单句的顺序,例如:根据上述歌曲A的描述,音频单句“aaaaaaaa”为第一个音频单句,其在歌曲A中的顺序为1;音频单句“bbbbbbbb”为第二个音频单句,其在歌曲A中的顺序为2;以此类推。可以理解的是,每个音频单句开始之前或结束之后还可包含无需进行演唱的部分,例如:上述歌曲A的0-661ms时间段则为无需进行演唱的部分,该部分可包含前奏信息。
本发明实施例中,所述源音频文件由至少一个音频单句顺序排列而成,该音频单句可称为演唱单句。所述目标音频文件由至少一个音频单句顺序排列而成,该音频单句可称为演唱单句。
下面将结合图1-图7,对本发明实施例提供的音频测评方法进行详细介绍。
请参见图1,为本发明实施例提供的一种音频测评方法的流程图;该方法可包括以下步骤S101-步骤S103。
S101,获取目标音频文件中的至少一个演唱单句的测评分数。
目标音频文件中的演唱单句的测评分数越高,表明该演唱单句的演唱效果越好,其越接近源音频文件中对应的参考单句的演唱效果。反之,目标音频文件中的演唱单句的测评分数越低,表明该演唱单句的演唱效果越差,其越偏离源音频文件中对应的参考单句的演唱效果。本步骤需要获取目标音频文件中的至少一个演唱单句的测评分数。所述目标音频文件可包括至少一个演唱单句,本步骤需要获取所述目标音频文件包含的所有演唱单句的测评分数。
S102,根据所述至少一个演唱单句的测评分数,构建所述目标音频文件的单句评分序列。
本步骤中,对所述至少一个演唱单句中各演唱单句的测评分数进行顺序排列,可构建为所述目标音频文件的单句评分序列。
S103,对所述单句评分序列进行总分运算,获得所述目标音频文件的测评总分。
其中,所述目标音频文件的测评总分以所述目标音频文件中各演唱单句的测评分数为运算基础,所述目标音频文件的测评总分可用于反映所述目标音频文件的整体演唱水准。所述目标音频文件的测评总分越高,表明所述目标音频文件的演唱水准越高,其越接近源音频文件的演唱效果。反之,所述目标音频文件的测评总分越低,表明所述目标音频文件的演唱水准越低,其越偏离源音频文件的演唱效果。
本发明实施例中,可通过目标音频文件的至少一个演唱单句的测评分数,构建目标音频文件的单句评分序列,基于单句评分序列进行总分运算,实现了对目标音频文件的总分测评,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
下面将结合图2-图7,对图1所示的音频测评方法中的各步骤进行详细介绍。
请参见图2,为图1所示实施例中的步骤S101的一个实施例的流程图;该步骤S101可包括以下步骤s1001-步骤s1003。
s1001,确定当前演唱单句在目标音频文件中的顺序。
本步骤中,可根据当前演唱单句的时间属性,确定该当前演唱单句在目标音频文件中的顺序。其中,当前演唱单句指所述目标音频文件中当前正在播放的时间所对应的演唱单句,设定所述目标音频文件包括Q(Q为正整数)个演唱单句,若当前正在播放的时间对应第k(k为正整数,且1≤k≤Q)个演唱单句,则当前演唱单句为第k个演唱单句,当前演唱单句在所述目标音频文件中的顺序为k。目标音频文件为歌曲A,以上述歌曲A的描述为例:假设歌曲A共5分钟,当前正在播放的时间为1895ms,根据歌曲A的描述,1895ms属于音频单句“cccccccc”的时间属性所描述的时间段内,由此可确定音频单句“cccccccc”为当前演唱单句,由此可确定当前演唱单句在目标音频文件中的顺序为3。
s1002,获取所述当前演唱单句的测评分数。
需要说明的是,本步骤优选在所述当前演唱单句演唱结束后执行,按照步骤s1001中所示例子,针对歌曲A,其当前演唱单句为音频单句“cccccccc”,其时间属性为[1871,245],本步骤可在1871ms+245ms=2116ms时刻获取所述当前演唱单句的测评分数。
具体实现中,请一并参见图3,为图2所示实施例中的步骤s1002的一个实施例的流程图;该步骤s1002可包括以下步骤s2001-步骤s2004。
s2001,获取所述当前演唱单句的待测特征序列。
音符又叫note,指用于记录不同长短的音的进行的符号,可包括全音符、二分音符、四分音符、八分音符等等种类。一个音频单句可以表示为多个音频帧组成的一个帧序列,每个音频帧均携带音符,各个音符按照各个音频帧在该音频单句中的时间先后顺序构成该音频单句的旋律。音高又叫pitch,指音的高度。一个音频单句可以表示为多个音频帧组成的一个帧序列,每个音频帧均携带音高,各个音高按照各个音频帧在该音频单句中的时间先后顺序构成该音频单句的旋律。综上,音频单句的音符序列或音高序列均可反映该音频单句的旋律特征。
本步骤中,可获取当前演唱单句的待测特征序列,所述待测特征序列为所述当前演唱单句的音符序列或音高序列。
s2002,根据所述当演唱单句在所述目标音频文件中的顺序,在源音频文件中定位参考单句,并获取所述参考单句的参考特征序列。
本实施例中,除特别说明外,所述参考单句特指在源音频文件中定位的参考单句。本步骤中,所定位的参考单句在所述源音频文件中的顺序与所述当前演唱单句在所述目标音频文件中的顺序相同。按照本实施例的上述例子,若以歌曲A为目标音频文件,则歌曲A在出版发行时的原唱歌曲B为源音频文件,当前演唱单句的顺序为3,则歌曲B所定位的参考单句的顺序也为3,即从歌曲B中选取第3个参考单句作为当前演唱单句的测评基准。
在本发明实施例的一种可行的实施方式中,所述待测特征序列为所述当前演唱单句的音符序列,所述参考特征序列为所述参考单句的音符序列。在本发明实施例的另一种可行的实施方式中,所述待测特征序列为所述当前演唱单句的音高序列,所参考特征序列为所述参考单句的音高序列。
s2003,对所述参考特征序列和所述待测特征序列进行相关运算,获得相关系数序列。
由于所述参考特征序列可用于表征源音频文件中所定位的参考单句的音频特征,所述待测特征序列可用于表征目标音频文件中当前演唱单句的音频特征,本步骤可对所述参考特征序列和所述待测特征序列之间的相关运算,获得相关系数序列。
s2004,根据所述相关系数序列,确定所述演唱单句的测评分数。
本步骤中,所述当前演唱单句的测评分数越高,表明所述当前演唱单句的演唱效果越好,其越接近所定位的参考单句的演唱效果。反之,所述当前演唱单句的测评分数越低,表明所述当前演唱单句的演唱效果越差,其越偏离所定位的参考单句的演唱效果。
s1003,根据所述当前演唱单句在所述目标音频文件中的顺序,获取在所述目标音频文件中顺序先于所述当前演唱单句的所有演唱单句的测评分数,并将所述目标音频文件中顺序后于所述当前演唱单句的所有演唱单句的测评分数设置为零。
设定所述目标音频文件包括Q个演唱单句,若当前正在播放第k个演唱单句,则当前演唱单句为第k个演唱单句,在所述目标音频文件中顺序先于所述当前演唱单句的所有演唱单句包括第1个演唱单句至第k-1个演唱单句,在所述目标音频文件中顺序后于所述当前演唱单句的所有演唱单句包括第k+1个演唱单句至第Q个演唱单句。本步骤需要分别获取第1个演唱单句至第k-1个演唱单句的测评分数,以及将第k+1个演唱单句至第Q个演唱单句的测评分数设置为零。需要说明的是,获取第1个演唱单句至第k-1个演唱单句的测评分数的过程可参见获取当前演唱单句的测评分数的过程,在此不赘述。可以理解的是,由于所述目标音频文件中顺序后于所述当前演唱单句的所有演唱单句还未进行播放以供用户演唱,因此本步骤可将其测评分数设置为零。
本发明实施例中,可通过目标音频文件的至少一个演唱单句的测评分数,构建目标音频文件的单句评分序列,基于单句评分序列进行总分运算,实现了对目标音频文件的总分测评,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图4,为图3所示实施例中的步骤s2003的一个实施例的流程图;该步骤s2003可包括以下步骤s3001-步骤s3004。
s3001,分别计算所述参考特征序列的均值及所述待测特征序列的均值。
设定所定位的参考单句包括N个音频帧,所述参考特征序列可表示为p(i);其中,i为整数,且0≤i≤N-1。具体地,若所述参考特征序列为所述参考单句的音符序列,则p(0)表示所定位的参考单句中的第一个音频帧的音符,p(1)表示所定位的参考单句中的第二个音频帧的音符,以此类推,p(N-1)表示所定位的参考单句中的第N个音频帧的音符。若所述待测特征序列为所述演唱单句的音高序列,则p(0)表示所定位的参考单句中的第一个音频帧的音高,p(1)表示所定位的参考单句中的第二个音频帧的音符,以此类推,p(N-1)表示所定位的参考单句中的第N个音频帧的音符。
设定当前演唱单句包括N个音频帧,所述待测特征序列可表示为s(i),其中,i为整数,且0≤i≤N-1。具体地,若所述待测特征序列为所述当前演唱单句的音符序列,则s(0)表示所述当前演唱单句中的第一个音频帧的音符,s(1)表示所述当前演唱单句中的第二个音频帧的音符,以此类推,s(N-1)表示所述当前演唱单句中的第N个音频帧的音符。若所述待测特征序列为所述当前演唱单句的音高序列,则s(0)表示所述当前演唱单句中的第一个音频帧的音高,s(1)表示所述当前演唱单句中的第二个音频帧的音高,以此类推,s(N-1)表示所述当前演唱单句中的第N个音频帧的音高。
本步骤中,可采用下述公式(1)分别计算所述参考特征序列p(i)的均值以及所述待测特征序列s(i)的均值,该公式(1)如下:
MP=mean(p(i))
MS=mean(s(i))(1)
上述公式(1)中,MP表示所述参考特征序列p(i)的均值,MS表示所述参考特征序列p(i)的均值,mean()为求均值操作。
s3002,采用所述参考特征序列的均值,对所述参考特征序列进行规整处理,采用所述待测特征序列的均值,对所述待测特征序列进行规整处理。
规整处理的目的在于:将所述参考特征序列和所述待测特征序列调整至同一基准,以消除所述参考特征序列与所述待测特征序列由于均值求取标准不一致所带来的计算偏差影响。
本步骤中,可采用公式(2)对所述参考特征序列进行规整处理,该公式(2)可表示如下:
p2(i)=p(i)-MP(2)
上述公式(2)中,p2(i)表示规整处理后得到的参考特征序列。
本步骤中,可采用公式(3)对所述待测特征序列进行规整处理,该公式(3)可表示如下:
s2(i)=s(i)-MS(3)
上述公式(3)中,s2(i)表示规整处理后得到的待测特征序列。
s3003,采用预设削波阈值,将规整处理后的所述参考特征序列转换为参考数值序列,将规整处理后的所述待测特征序列转换为待测数值序列。
其中,所述预设削波阈值可根据实际需要进行设定,优选地,所述削波阈值可采用公式(4)进行设定,该公式(4)可表示如下:
Th_xue=max(max(abs(p2(i)),max(abs(s2(i)))(4)
上述公式(4)中,Th_xue表示所述预设的削波阈值,max()为最大值求取操作,abs()为绝对值求取操作。
本步骤中,可采用公式(5)将规整处理后的所述参考特征序列转换为参考数值序列,该公式(5)可表示如下:
上述公式(5)中,p3(i)表示参考数值序列。
本步骤中,可采用公式(6)将规整处理后的所述待测特征序列转换为待测数值序列,该公式(6)可表示如下:
上述公式(6)中,s3(i)表示待测数值序列。
s3004,采用互相关函数对所述参考数值序列和所述待测数值序列进行相关运算,获得相关系数序列。
在本步骤的一种可行的实施方式中,可采用公式(7)对所述参考数值序列和所述待测数值序列进行相关运算,该公式(7)可表示如下:
上述公式(7)中,R(n)表示相关系数序列;“·”表示相乘操作;s3(i-n)表示s3(i)循环移动n形成的序列,其中,0≤n≤N-1。
在本步骤的另一种可行的实施方式中,可采用公式(8)对所述参考数值序列和所述待测数值序列进行相关运算,该公式(8)可表示如下:
上述公式(8)中,R(n)表示相关系数序列;“·”表示相乘操作;p3(i-n)表示p3(i)循环移动n形成的序列,其中,0≤n≤N-1。
本发明实施例中,可通过目标音频文件的至少一个演唱单句的测评分数,构建目标音频文件的单句评分序列,基于单句评分序列进行总分运算,实现了对目标音频文件的总分测评,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图5,为图3所示实施例中的步骤s2004的一个实施例的流程图;该步骤s2004可包括以下步骤s4001-步骤s4003。
s4001,计算所述相关系数序列的最大值。
本步骤中,可采用下述公式(9)计算所述相关系数序列的最大值,该公式(9)可表示如下:
RMAX=max(R(n))(9)
上述公式(9)中,R(n)表示相关系数序列;max()为最大值求取操作;RMAX表示所述相关系数序列的最大值。
s4002,将所述相关系数序列的最大值映射至预设分数区间,获得所述相关系数序列的最大值的映射值。
所述预设分数区间可以根据实际需要进行设定,例如:所述预设分数区间可设定为[0,10];或者,所述预设分数区间可设定为[0,100]。本步骤中,可采用[score_min,score_max]表示所述预设分数区间,通过线性或非线性方法将所述相关系数序列的最大值RMAX映射至所述预设分数区间,获得的映射值可表示scorek-1,该scorek-1位于[score_min,score_max]所示的预设分数区间内。
s4003,将所述映射值确定为所述当前演唱单句的测评分数。
本步骤可将所述映射值scorek确定为待测评的所述演唱单句的测评分数,即所述当前演唱单句的测评分数为scorek的值。
本发明实施例中,可通过目标音频文件的至少一个演唱单句的测评分数,构建目标音频文件的单句评分序列,基于单句评分序列进行总分运算,实现了对目标音频文件的总分测评,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图6,为图1所示实施例中的步骤S102的一个实施例的流程图;该步骤S102可包括以下步骤s5001-步骤s5002。
s5001,获取所述至少一个演唱单句中的各演唱单句在所述目标音频文件中的顺序。
本步骤中,可根据所述各演唱单句的时间属性,确定各演唱单句在所述目标音频文件中的顺序。
s5002,按照所述各演唱单句在所述目标音频文件中的顺序,对所述各演唱单句的测评分数进行排列,形成所述目标音频文件的单句评分序列。
设定所述目标音频文件包括Q个演唱单句,所述目标音频文件的单句评分序列可采用d(j)进行表示,其中,j为整数,且0≤j≤Q-1。所述目标音频文件的单句评分序列d(j)由各演唱单句的测评分数及对应的索引构成,所述测评分数对应的索引指获得测评分数的演唱单句的顺序。具体地,d(0)表示所述目标音频文件中的第一个演唱单句的测评分数,其对应的索引为1;d(1)表示所述目标音频文件中的第二个演唱单句的测评分数,其对应的索引为2;以此类推,d(Q-1)表示所述目标音频文件中的第Q个演唱单句的测评分数,其对应的索引为Q。按照本发明实施例中的例子,所述当前演唱单句的测评分数可表示为d(k-1),d(k-1)的取值为scorek-1,其对应的索引为k。本发明实施例中,设定所述单句评分序列d(j)中,d(0)的取值为score0,其对应的索引为1;d(1)的取值为score1,其对应的索引为2;以此类推,d(k-1)的取值为scorek-2,其对应的索引为k-1。d(k+1)至d(Q-1)的取值均为0,d(k+1)对应的索引为k+2,以此类推,d(Q-1)对应的索引为Q。
本发明实施例中,可通过目标音频文件的至少一个演唱单句的测评分数,构建目标音频文件的单句评分序列,基于单句评分序列进行总分运算,实现了对目标音频文件的总分测评,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图7,为图1所示实施例中的步骤S103的一个实施例的流程图;该步骤S103可包括以下步骤s6001-步骤s6003。
s6001,计算所述单句评分序列的均值和最大值。
本步骤中,可采用下述公式(10)计算所述单句评分序列的均值,该公式(10)可表示如下:
E=mean(d(j))(10)
上述公式(10)中,mean()为求均值操作。
本步骤中,可采用下述公式(11)计算所述单句评分序列的最大值,该公式(11)可表示如下:
[dmax,ind]=max(d(j))(11)
上述公式(11)中,max()为最大值求取操作,dmax表示d(j)中的最大值,ind表示d(j)取最大值时对应的索引。
s6002,获取所述单句评分序列的最大值在所述单句评分序列中对应的索引。本步骤所获取到的索引即为上述公式(11)中的ind。
s6003,对所述单句评分序列的均值、所述单句评分序列的最大值及所述单句评分序列的最大值对应的索引进行总分运算,获得所述目标音频文件的测评总分。
本步骤中,总分运算的过程可参见公式(12),该公式(12)可表示如下:
s=max{E+dmax*exp[(ind-(k+1))/(k+1)],E}(12)
上述公式(12)中,max{}为最大值求取操作;exp表示以e为底的指数函数;k表示当前演唱单句在所述目标音频文件中的顺序;s表示所述目标音频文件的测评总分,随着用户对所述目标音频文件的持续演唱,k值不断变化,d(j)不断变化,实时获得的s也会相应变化。
本发明实施例中,可通过目标音频文件的至少一个演唱单句的测评分数,构建目标音频文件的单句评分序列,基于单句评分序列进行总分运算,实现了对目标音频文件的总分测评,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
下面将结合图8-图14,对本发明实施例提供的一种音频测评装置进行详细介绍。需要说明的是,图8-图14所述的音频测评装置可应用于执行上述附图1-附图7所示的方法。实际应用中,所述音频测评装置可以运行于服务器端,或者运行于诸如笔记本电脑、手机、PAD(平板电脑)、智能可穿戴设备等等终端中。
请参见图8,为本发明实施例提供的一种音频测评装置的结构示意图;该装置可包括:分数获取模块101、构建模块102和总分测评模块103。
分数获取模块101,用于获取目标音频文件中的至少一个演唱单句的测评分数。
目标音频文件中的演唱单句的测评分数越高,表明该演唱单句的演唱效果越好,其越接近源音频文件中对应的参考单句的演唱效果。反之,目标音频文件中的演唱单句的测评分数越低,表明该演唱单句的演唱效果越差,其越偏离源音频文件中对应的参考单句的演唱效果。所述分数获取模块101需要获取目标音频文件中的至少一个演唱单句的测评分数。所述目标音频文件可包括至少一个演唱单句,所述分数获取模块101需要获取所述目标音频文件包含的所有演唱单句的测评分数。
构建模块102,用于根据所述至少一个演唱单句的测评分数,构建所述目标音频文件的单句评分序列。
所述构建模块102对所述至少一个演唱单句中各演唱单句的测评分数进行顺序排列,可构建为所述目标音频文件的单句评分序列。
总分测评模块103,用于对所述单句评分序列进行总分运算,获得所述目标音频文件的测评总分。
其中,所述目标音频文件的测评总分以所述目标音频文件中各演唱单句的测评分数为运算基础,所述目标音频文件的测评总分可用于反映所述目标音频文件的整体演唱水准。所述目标音频文件的测评总分越高,表明所述目标音频文件的演唱水准越高,其越接近源音频文件的演唱效果。反之,所述目标音频文件的测评总分越低,表明所述目标音频文件的演唱水准越低,其越偏离源音频文件的演唱效果。
本发明实施例中,可通过目标音频文件的至少一个演唱单句的测评分数,构建目标音频文件的单句评分序列,基于单句评分序列进行总分运算,实现了对目标音频文件的总分测评,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图9,为图8所示的分数获取模块的实施例的结构示意图;该分数获取模块101可包括:顺序确定单元1101、第一分数获取单元1102和第二分数获取单元1103。
顺序确定单元1101,用于确定当前演唱单句在目标音频文件中的顺序。
所述顺序确定单元1101可根据当前演唱单句的时间属性,确定该当前演唱单句在目标音频文件中的顺序。其中,当前演唱单句指所述目标音频文件中当前正在播放的时间所对应的演唱单句,设定所述目标音频文件包括Q(Q为正整数)个演唱单句,若当前正在播放的时间对应第k(k为正整数,且1≤k≤Q)个演唱单句,则当前演唱单句为第k个演唱单句,当前演唱单句在所述目标音频文件中的顺序为k。目标音频文件为歌曲A,以上述歌曲A的描述为例:假设歌曲A共5分钟,当前正在播放的时间为1895ms,根据歌曲A的描述,1895ms属于音频单句“cccccccc”的时间属性所描述的时间段内,由此可确定音频单句“cccccccc”为当前演唱单句,由此可确定当前演唱单句在目标音频文件中的顺序为3。
第一分数获取单元1102,用于获取所述当前演唱单句的测评分数。
需要说明的是,所述第一分数获取单元1102优选在所述当前演唱单句演唱结束后执行获取的过程,按照本实施例所示例子,针对歌曲A,其当前演唱单句为音频单句“cccccccc”,其时间属性为[1871,245],所述第一分数获取单元1102可在1871ms+245ms=2116ms时刻获取所述当前演唱单句的测评分数。
第二分数获取单元1103,用于根据所述当前演唱单句在所述目标音频文件中的顺序,获取在所述目标音频文件中顺序先于所述当前演唱单句的所有演唱单句的测评分数,并将所述目标音频文件中顺序后于所述当前演唱单句的所有演唱单句的测评分数设置为零。
设定所述目标音频文件包括Q个演唱单句,若当前正在播放第k个演唱单句,则当前演唱单句为第k个演唱单句,在所述目标音频文件中顺序先于所述当前演唱单句的所有演唱单句包括第1个演唱单句至第k-1个演唱单句,在所述目标音频文件中顺序后于所述当前演唱单句的所有演唱单句包括第k+1个演唱单句至第Q个演唱单句。所述第二分数获取单元1103需要分别获取第1个演唱单句至第k-1个演唱单句的测评分数,以及将第k+1个演唱单句至第Q个演唱单句的测评分数设置为零。需要说明的是,获取第1个演唱单句至第k-1个演唱单句的测评分数的过程可参见获取当前演唱单句的测评分数的过程。可以理解的是,由于所述目标音频文件中顺序后于所述当前演唱单句的所有演唱单句还未进行播放以供用户演唱,因此所述第二分数获取单元1103可将其测评分数设置为零。
本发明实施例中,可通过目标音频文件的至少一个演唱单句的测评分数,构建目标音频文件的单句评分序列,基于单句评分序列进行总分运算,实现了对目标音频文件的总分测评,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图10,为图9所示的第一分数获取单元的实施例的结构示意图;该第一分数获取单元1101可包括:待测序列获取单元1111、参考序列获取单元1112、相关运算单元1113和分数确定单元1114。
待测序列获取单元1111,用于获取所述当前演唱单句的待测特征序列。
音符又叫note,指用于记录不同长短的音的进行的符号,可包括全音符、二分音符、四分音符、八分音符等等种类。一个音频单句可以表示为多个音频帧组成的一个帧序列,每个音频帧均携带音符,各个音符按照各个音频帧在该音频单句中的时间先后顺序构成该音频单句的旋律。音高又叫pitch,指音的高度。一个音频单句可以表示为多个音频帧组成的一个帧序列,每个音频帧均携带音高,各个音高按照各个音频帧在该音频单句中的时间先后顺序构成该音频单句的旋律。综上,音频单句的音符序列或音高序列均可反映该音频单句的旋律特征。
所述待测序列获取单元1111可获取当前演唱单句的待测特征序列,所述待测特征序列为所述当前演唱单句的音符序列或音高序列。
参考序列获取单元1112,用于根据所述当演唱单句在所述目标音频文件中的顺序,在源音频文件中定位参考单句,并获取所述参考单句的参考特征序列。
本实施例中,除特别说明外,所述参考单句特指在源音频文件中定位的参考单句。其中,所定位的参考单句在所述源音频文件中的顺序与所述当前演唱单句在所述目标音频文件中的顺序相同。若以歌曲A为目标音频文件,则歌曲A在出版发行时的原唱歌曲B为源音频文件,当前演唱单句的顺序为3,则歌曲B所定位的参考单句的顺序也为3,即所述参考序列获取单元1112从歌曲B中选取第3个参考单句作为当前演唱单句的测评基准。
在本发明实施例的一种可行的实施方式中,所述待测特征序列为所述当前演唱单句的音符序列,所述参考特征序列为所述参考单句的音符序列。在本发明实施例的另一种可行的实施方式中,所述待测特征序列为所述当前演唱单句的音高序列,所参考特征序列为所述参考单句的音高序列。
相关运算单元1113,用于对所述参考特征序列和所述待测特征序列进行相关运算,获得相关系数序列。
由于所述参考特征序列可用于表征源音频文件中所定位的参考单句的音频特征,所述待测特征序列可用于表征目标音频文件中当前演唱单句的音频特征,所述相关运算单元1113可对所述参考特征序列和所述待测特征序列之间的相关运算,获得相关系数序列。
分数确定单元1114,用于根据所述相关系数序列,确定所述当前演唱单句的测评分数。
所述当前演唱单句的测评分数越高,表明所述当前演唱单句的演唱效果越好,其越接近所定位的参考单句的演唱效果。反之,所述当前演唱单句的测评分数越低,表明所述当前演唱单句的演唱效果越差,其越偏离所定位的参考单句的演唱效果。
本发明实施例中,可通过目标音频文件的至少一个演唱单句的测评分数,构建目标音频文件的单句评分序列,基于单句评分序列进行总分运算,实现了对目标音频文件的总分测评,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图11,为图10所示的相关运算单元的实施例的结构示意图;该相关运算单元1113可包括:均值计算子单元1311、规整处理子单元1312、序列转换子单元1313和相关运算子单元1314。
均值计算子单元1311,用于分别计算所述参考特征序列的均值及所述待测特征序列的均值。
设定所定位的参考单句包括N个音频帧,所述参考特征序列可表示为p(i);其中,i为整数,且0≤i≤N-1。具体地,若所述参考特征序列为所述参考单句的音符序列,则p(0)表示所定位的参考单句中的第一个音频帧的音符,p(1)表示所定位的参考单句中的第二个音频帧的音符,以此类推,p(N-1)表示所定位的参考单句中的第N个音频帧的音符。若所述待测特征序列为所述演唱单句的音高序列,则p(0)表示所定位的参考单句中的第一个音频帧的音高,p(1)表示所定位的参考单句中的第二个音频帧的音符,以此类推,p(N-1)表示所定位的参考单句中的第N个音频帧的音符。
设定当前演唱单句包括N个音频帧,所述待测特征序列可表示为s(i),其中,i为整数,且0≤i≤N-1。具体地,若所述待测特征序列为所述当前演唱单句的音符序列,则s(0)表示所述当前演唱单句中的第一个音频帧的音符,s(1)表示所述当前演唱单句中的第二个音频帧的音符,以此类推,s(N-1)表示所述当前演唱单句中的第N个音频帧的音符。若所述待测特征序列为所述当前演唱单句的音高序列,则s(0)表示所述当前演唱单句中的第一个音频帧的音高,s(1)表示所述当前演唱单句中的第二个音频帧的音高,以此类推,s(N-1)表示所述当前演唱单句中的第N个音频帧的音高。
所述均值计算子单元1311可采用图4所示实施例中的公式(1)分别计算所述参考特征序列p(i)的均值以及所述待测特征序列s(i)的均值。
规整处理子单元1312,用于采用所述参考特征序列的均值,对所述参考特征序列进行规整处理,采用所述待测特征序列的均值,对所述待测特征序列进行规整处理。
规整处理的目的在于:将所述参考特征序列和所述待测特征序列调整至同一基准,以消除所述参考特征序列与所述待测特征序列由于均值求取标准不一致所带来的计算偏差影响。所述规整处理子单元1312可采用图4所示实施例所示的公式(2)对所述参考特征序列进行规整处理,获得规整处理后的参考特征序列p2(i),并可采用图4所示实施例所示的公式(3)对所述待测特征序列进行规整处理,获得规整处理后得到的待测特征序列s2(i)。
序列转换子单元1313,用于采用预设削波阈值,将规整处理后的所述参考特征序列转换为参考数值序列,将规整处理后的所述待测特征序列转换为待测数值序列。
其中,所述预设削波阈值可根据实际需要进行设定,优选地,所述削波阈值可采用图4所示实施例中的公式(4)进行设定。所述序列转换子单元1313可采用图4所示实施例中的公式(5)将规整处理后的所述参考特征序列转换为参考数值序列p3(i),并可采用图4所示实施例中的公式(6)将规整处理后的所述待测特征序列转换为待测数值序列s3(i)。
相关运算子单元1314,用于采用互相关函数对所述参考数值序列和所述待测数值序列进行相关运算,获得相关系数序列。
在本实施例的一种可行的实施方式中,所述相关运算子单元1314可采用图4所示实施例中的公式(7)对所述参考数值序列p3(i)和所述待测数值序列s3(i)进行相关运算,获得相关系数序列R(n)。在本实施例的另一种可行的实施方式中,所述相关运算子单元1314可采用图4所示实施例中的公式(8)对所述参考数值序列p3(i)和所述待测数值序列s3(i)进行相关运算,获得相关系数序列R(n)。
本发明实施例中,可通过目标音频文件的至少一个演唱单句的测评分数,构建目标音频文件的单句评分序列,基于单句评分序列进行总分运算,实现了对目标音频文件的总分测评,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图12,为图10所示的分数确定单元的实施例的结构示意图;该分数确定单元1114可包括:最大值计算子单元1411、映射子单元1412和分数确定子单元1413。
最大值计算子单元1411,用于计算所述相关系数序列的最大值。
所述最大值计算子单元1411可采用图5所示实施例中的公式(9)计算所述相关系数序列的最大值RMAX。
映射子单元1412,用于将所述相关系数序列的最大值映射至预设分数区间,获得所述相关系数序列的最大值的映射值。
所述预设分数区间可以根据实际需要进行设定,例如:所述预设分数区间可设定为[0,10];或者,所述预设分数区间可设定为[0,100]。所述映射子单元1412可采用[score_min,score_max]表示所述预设分数区间,通过线性或非线性方法将所述相关系数序列的最大值RMAX映射至所述预设分数区间,获得的映射值可表示scorek-1,该scorek-1位于[score_min,score_max]所示的预设分数区间内。
分数确定子单元1413,用于将所述映射值确定为所述当前演唱单句的测评分数。
所述分数确定子单元1413可将所述映射值scorek确定为待测评的所述演唱单句的测评分数,即所述当前演唱单句的测评分数为scorek的值。
本发明实施例中,可通过目标音频文件的至少一个演唱单句的测评分数,构建目标音频文件的单句评分序列,基于单句评分序列进行总分运算,实现了对目标音频文件的总分测评,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图13,为图8所示的构建模块的实施例的结构示意图;该构建模块102可包括:顺序获取单元1201和构建单元1202。
顺序获取单元1201,用于获取所述至少一个演唱单句中的各演唱单句在所述目标音频文件中的顺序。
所述顺序获取单元1201可根据所述各演唱单句的时间属性,确定各演唱单句在所述目标音频文件中的顺序。
构建单元1202,用于按照所述各演唱单句在所述目标音频文件中的顺序,对所述各演唱单句的测评分数进行排列,形成所述目标音频文件的单句评分序列。
设定所述目标音频文件包括Q个演唱单句,所述目标音频文件的单句评分序列可采用d(j)进行表示,其中,j为整数,且0≤j≤Q-1。所述目标音频文件的单句评分序列d(j)由各演唱单句的测评分数及对应的索引构成,所述测评分数对应的索引指获得测评分数的演唱单句的顺序。具体地,d(0)表示所述目标音频文件中的第一个演唱单句的测评分数,其对应的索引为1;d(1)表示所述目标音频文件中的第二个演唱单句的测评分数,其对应的索引为2;以此类推,d(Q-1)表示所述目标音频文件中的第Q个演唱单句的测评分数,其对应的索引为Q。按照本发明实施例中的例子,所述当前演唱单句的测评分数可表示为d(k-1),d(k-1)的取值为scorek-1,其对应的索引为k。本发明实施例中,设定所述单句评分序列d(j)中,d(0)的取值为score0,其对应的索引为1;d(1)的取值为score1,其对应的索引为2;以此类推,d(k-1)的取值为scorek-2,其对应的索引为k-1。d(k+1)至d(Q-1)的取值均为0,d(k+1)对应的索引为k+2,以此类推,d(Q-1)对应的索引为Q。
本发明实施例中,可通过目标音频文件的至少一个演唱单句的测评分数,构建目标音频文件的单句评分序列,基于单句评分序列进行总分运算,实现了对目标音频文件的总分测评,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图14,为图8所示的总分测评模块的实施例的结构示意图;该总分测评模块103可包括:计算单元1301、索引获取单元1302和总分测评单元1303。
计算单元1301,用于计算所述单句评分序列的均值和最大值。
所述计算单元1301可采用图7所示实施例中的公式(10)计算所述单句评分序列的均值E;并可采用图7所示实施例中的公式(11)计算所述单句评分序列的最大值dmax。
索引获取单元1302,用于获取所述单句评分序列的最大值在所述单句评分序列中对应的索引。所述索引获取单元1302所获取到的索引可为图7所示实施例中所示的公式(11)中的ind。
总分测评单元1303,用于对所述单句评分序列的均值、所述单句评分序列的最大值及所述单句评分序列的最大值对应的索引进行总分运算,获得所述目标音频文件的测评总分。
所述总分测评单元1303所执行的总分运算的过程可参见图7所示实施例中的公式(12),获得所述目标音频文件的测评总分s,随着用户对所述目标音频文件的持续演唱,实时获得的s会产生相应变化。
本发明实施例中,可通过目标音频文件的至少一个演唱单句的测评分数,构建目标音频文件的单句评分序列,基于单句评分序列进行总分运算,实现了对目标音频文件的总分测评,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。