一种语音分类模型的构建方法及装置
技术领域
本发明涉及互联网技术领域,具体涉及一种语音分类模型的构建方法及装置。
背景技术
随着web2.0及web3.0版本的兴起与潮流导向,社交媒体平台变成了网民更喜爱的聚集地,因为这里不但可以看到自己感兴趣的东西,更可以分享自己的成果和心情,在这种互联网环境的发展趋势下,逐渐诞生UGC、PGC、OGC等概念。
UGC(User-generated Content)用户生产内容,也称UCC(User-createdContent)。随着移动互联网的发展,网上内容的创作又被细分出PGC (Professionally-generated Content)专业生产内容,也称PPC (Professionally-produced Content)和OGC(Occupationally-generated Content) 职业生产内容。
其中,通过PGC和UGC用户上传视频已经成为当前视频网站内容生产的主要方式,对于短视频平台,这类内容可占比90%以上。一些PGC,UGC内容生产者为扩大品牌影响力,经常在其视频中夹带各种广告,以广告语音,视频广告为主要表现形式。若不采取措施全部放出这类视频,会严重影响用户体验,造成投诉量大增。由于每日新上传视频数量大(高峰时50万+),若全部以人工审核方式排查广告需耗费大量的人力和时间,并大幅增加视频从上传到放出展示的时间,从而明显提升运营成本。
现有技术中通常是通过语音识别出文字,然后通过关键词匹配是否有广告内容出现,进而识别广告内容,该方法存在两方面的缺陷:
一方面,受限于语音识别的准确性;
另一方面,受限于关键词的覆盖面,在作弊者稍微变换花样后便很难准确识别。
因此,如何提供一种有效的识别出视频中广告语音的分类模型,对于大型视频网站提高审核效率降低运营成本具有十分重要的意义。
发明内容
本发明提供一种语音分类模型的构建方法及装置,以解决现有技术中分类模型存在广告语音识别准确性低的问题。
本发明提供一种语音分类模型的构建方法,包括:
根据预先标记的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征;
将所述正常音频信号特征和所述广告音频信号特征作为训练数据输入到分类器中;
对所述分类器中的所述训练数据进行训练,获取所述训练数据中用于分割所述正常音频信号特征和所述广告音频信号特征的超平面。
优选的,包括:记录所述正常音频信号特征和/或所述广告音频信号特征到所述超平面的平均距离。
优选的,所述根据预先标记的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征,包括:
对所述预先标记的正常音频数据集和广告音频数据集进行静音预处理。
优选的,所述对所述预先标记的正常音频数据集和广告音频数据集进行静音预处理,包括:
统计并删除预先标记的所述正常音频数据集和所述广告音频数据集中语音能量低于整段待识别视音频数据平均值10%的音频数据。
优选的,所述根据预先标记的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征,包括:
对所述预先标记的正常音频数据集和广告音频数据集进行切分处理;
分别对切分处理后的每一段所述正常音频数据集和广告音频数据集抽取对应的正常音频信号特征和广告音频信号特征。
优选的,所述根据预先标记的正常音频数据集和广告音频数据集采用人工标注。
优选的,所述正常音频信号特征和广告音频信号特征,包括:
过零率特征、子带能量特征、能量熵特征、光谱质心特征、扩展光谱特征、光谱熵特征、光谱通量特征、光谱滚边特征、梅尔倒谱系数特征、色度向量特征和/或色度偏差特征。
优选的,所述分类器为SVM分类器、KNN分类器,K-均值分类器,CNN 分类器或DNN分类器。
本发明还提供一种语音分类模型的构建装置,包括:
标准数据标记单元,用于根据预先标记的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征;
输入单元,用于将所述正常音频信号特征和所述广告音频信号特征作为训练数据输入分类器中;
训练获取单元,用于对所述分类器中的所述训练数据进行训练,获取所述训练数据中用于分割所述正常音频信号特征和所述广告音频信号特征的超平面。
优选的,包括:平均距离记录单元,用于分别记录所述正常音频信号特征和所述广告音频信号特征到所述超平面的平均距离。
优选的,所述标准数据标记单元包括:
静音处理单元,用于对所述预先标记的正常音频数据集和广告音频数据集进行静音预处理。
优选的,所述静音处理单元包括:
统计删除单元,用于统计并删除预先标记的所述正常音频数据集所述广告音频数据集中语音能量低于整段平均值10%的音频数据。
优选的,所述标准数据标记单元包括:
标准数据切分单元,用于对所述预先标记的正常音频数据集和广告音频数据集进行切分处理;
片段特征抽取单元,用于分别对切分处理后的每一段所述正常音频数据集和广告音频数据集抽取对应的正常音频信号特征和广告音频信号特征。
与现有技术相比,本发明提供的一种语音分类模型的构建方法通过预先标记的正常音频数据集合广告音频数据集获取相应的正常音频信号特征和广告音频信号特征,将所述正常音频信号特征和广告音频信号特征作为样本数据输入到分类器中,采用机器学习的方法对该些数据进行训练,并查找到分割所述正常音频信号特征和所述广告音频信号特征的超平面;由于本发明仅是通过分析语音信号学特征(例如:从语速,频率,节拍(beat),音频色度(chroma features) 等信号学角度)对正常语音与广告语音进行学习训练,并不识别语音的具体文字内容,从而可以准确地识别广告语音。
为提高识别的准确性和召回率,本发明通过对预先标记的正常音频数据集和广告音频数据集进行切分,即:切分为多个相同长度或不同长度的音频片段数据,以达到更好的识别准确率和召回率。
附图说明
图1是本发明提供的一种语音分类模型的构建方法的流程图;
图2是本发明提供的一种语音分类模型的构建方法中分类模型实现识别过程的流程图;
图3是本发明提供的一种语音分类模型的构建装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
请参考图1所示,图1是本发明的提供的一种语音分类模型的构建方法的实施例的流程图。
本发明提供的一种语音分类模型的构建方法,包括:
步骤S101:根据预先标记的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征;
所述正常音频数据集和广告音频数据集可以通过从大量的音视频素材库中,且含有广告的音频数据中获得,或者通过人工标注获得。
对所述获得正常音频数据集和广告音频数据集进行静音预处理,以提高分类模型的准确性。所述静音预处理具体可以通过统计并删除预先标记的所述正常音频数据集和所述广告音频数据集中语音能量低于10%的音频数据。
可以理解的是,在本实施中可以将所述正常音频数据集合广告音频数据进行切分处理,使正常音频数据集和广告音频数据集成为多个音频片段,分别对切分处理后的每一段所述正常音频片段数据和广告音频片段数据集抽取对应的正常音频信号特征和广告音频信号特征,以提高分类模型的训练的准确性。
需要说明的是,对正常音频数据集和广告音频数据集进行切分处理的步骤可以是在静音处理前或静音处理后,若在所述静音处理前,则需要对每个正常音频片段数据和每个广告音频片段数据进行静音处理。
根据实际情况,对于一段音视频数据通常静音出现在开始与结尾处,因此,进行静音处理是可以是针对正常音频切分处理的开始部分和结束部位,广告音频切分处理的开始部分和结束部位。
在本实施中,所述正常音频信号特征和广告音频信号特征选择如下34维的音频信号特征:
过零率特征(Zero Crossing Rate)、子带能量特征(Energy)、能量熵特征(Entropy of Energy)、光谱质心特征(Spectral Centroid)、扩展光谱特征(SpectralSpread)、光谱熵特征(Spectral Entropy)、光谱通量特征(Spectral Flux)、光谱滚边特征(Spectral Rolloff)、梅尔倒谱系数特征(MFCCs)、色度向量特征(Chroma Vector)和/或色度偏差特征(Chroma Deviation)等34个音频信号特征。
上述34维的音频信号特征具体可以参考下表:
上述音频信号特征中包括短期特征(short-term features,通常20-100ms)和中期特征(mid-term features,通常1-30s),分别用于提取语音的中短期信号特征。长期特征主要用于抽取音乐类摘要或者副歌所用,在本实施中主要采用的是中短期特征。
获取所述正常音频信号特征和广告音频信号特征可以通过采用LPCC(线性预测倒谱系数)、MFCC(梅尔频率倒谱系数)、HMM(隐马尔科夫模型)或DTW (动态时间规整)等方式。
步骤S102:将所述正常音频信号特征和所述广告音频信号特征作为样本数据输入到分类器中;
步骤S103:对所述分类器中的所述样本数据进行训练,查找训练的所述样本数据中用于分割所述正常音频信号特征和所述广告音频信号特征的超平面。
在本实施中,所述分类器可以采用SVM分类器,所述SVM分类器是一个由分类超平面定义的判别分类器,也可以称职为支持向量机,在本实施中,是通过采集的正常音频数据的音频信号特征作为正常特征向量和广告音频数据的音频信号作为广告特征向量,并将正常特征向量和广告特征向量作为样本数据映射到SVM分类器中,通过所述SVM分类器训练出正常特征向量和所述广告特征向量之间的超平面,也可以称为分类面。训练过程可以是,将所述正常特征向量作为正样本数据(正例),将所述广告特征向量作为负样本数据(负例),通过下列公式g(x)=wx+b求得在n维空间中的线性函数,根据所述线性函数可以确定正例与负例之间的超平面。
所述超平面将所述正例与所述负例区分,计算所述正例中每一个特征向量到所述超平面的距离以及负例中每一个特征向量到所述超平面的距离,之后计算出正例和负例分别到所述超平面的平均距离。
需要说明的是,构建分类型中对于分类器的选择,在本实施中选用了SVM 分类器,实际上所述分类器还可以选择KNN,K-均值,CNN或DNN等分类器利用机器学习方式实现相应的分类,因此,本发明提到的分类器并与限于上述 SVM分类器,也可以采用其他分类器实现对音频片段数据的音频信号特征的分类。
在判断所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频时,对所述预先构建的分类模型中的正常音频数据集和广告音频数据集进行切分处理,以及对待识别的音频数据进行的切分处理,二者的切分长度的选择能够提高所述分类模型判断的准确性。
需要说明的是,所述切分的长度可以为相同或不同,切分的数量可以为多个。
本实施中,优选采用的是选择训练数据的切分长度为5s,待识别的音频数据切片长度为5s和/或10s的组合,具体对所述预先构建的分类模型性能测试的过程可以参考如下内容:
A、第一阶段
假设:共有400个含有广告的音频,人工标注了广告语音出现的准确位置,提取出广告部分和正常部分,分别以30s为段长度进行切分。
最终的训练数据量为:ad:704(表示:长度为30s的广告片段为704个); normal:2391(表示:长度为30s的正常片段为2391个)。
其中,ad:为广告,Normal:为正常。
模型训练结果:
ad:acc:91.9%(表示:正确率),recall:88.6%(表示:召回率);
normal:acc:96.7%(表示:正确率),recall:97.7%(表示:召回率);
将待识别音频数据切分为5s、10s、20s、30s等片段,使用预先构建的分类模型分别对所述5s、10s、20s、30s的片段进行判断,如果上述切分的片段中有被识别为广告,则所述待识别的音频数据为广告语音。
1、将音频截成5s语音片段
ad:acc:76.9%,recall:100%;
normal:acc:100%,recall:33.3%;
上表第一行表示:人工审核为广告,模型也判定为广告的为60个,人工审核为广告,模型识别为正常的为0个;
上表第二行表示:人工审核为正常,模型判定为广告的为18个,人工审核为正常,模型识别为正常的9个。
2、将音频截成10s语音片段
ad:acc:80%,recall:93.3%;
normal:acc:87.1%,recall:51.9%;
3、将音频截成20s语音片段
ad:acc:87.9%,recall:85%;
normal:acc:69%,recall:74.1%;
4、将音频截成30s语音片段
ad:acc:91.8%,recall:75%;
normal:acc:60.5%,recall:85.2%。
B、第二阶段
假设:共有400个含有广告的音频,人工标注了广告语音出现的准确位置,提取出广告部分和正常部分,分别以20s为段长度进行切分。
最终的训练数据量为:ad:964;normal:3252(normal数据做了一些删减)
模型训练结果:
ad:acc:92.2%,recall:89.7%;
normal:acc:97%,recall:97.8%;
将待识别音频数据切分为5s、10s、20s、30s等的片段,使用预先构建的分类模型分别对所述5s、10s、20s、30s的片段进行判断,如果上述切分的片段中有被识别为广告,则所述待识别的音频数据为广告语音。
1、将音频截成5s语音片段
ad:acc:76.9%,recall:100%;
normal:acc:100%,recall:33.3%;
2、将音频截成10s语音片段
ad:acc:86.2%,recall:93.3%;
normal:acc:81.8%,recall:66.7%;
3、将音频截成20s语音片段
ad:acc:90.6%,recall:80%;
normal:acc:64.7%,recall:81.5%;
4、将音频截成30s语音片段
ad:acc:94.9%,recall:61.7%;
normal:acc:52.1%,recall:92.6%。
C、第三阶段
假设:共有400个含有广告的音频,人工标注了广告语音出现的准确位置,提取出广告部分和正常部分,分别以10s为段长度进行切分。
最终的训练数据量为:ad:1730;normal:4856(normal数据做了一些删减);
模型训练结果:
ad:acc:89.8%,recall:84.6%;
normal:acc:94.6%,recall:95.9%;
将待识别音频数据切分为5s、10s、20s、30s等的片段,使用预先构建的分类模型分别对所述5s、10s、20s、30s的片段进行判断,如果上述切分的片段中有被识别为广告,则所述待识别的音频数据为广告语音。
1、将音频截成5s语音片段
ad:acc:79.7%,recall:98.3%;
normal:acc:92.3%,recall:44.4%;
2、将音频截成10s语音片段
ad:acc:86.2%,recall:93.3%;
normal:acc:81.8%,recall:66.7%;
3、将音频截成20s语音片段
ad:acc:90.7%,recall:81.7%;
normal:acc:66.7%,recall:81.5%;
4、将音频截成30s语音片段
ad:acc:92.5%,recall:61.7%;
normal:acc:51.1%,recall:88.9%。
D、第四阶段
假设:共有400个含有广告的音频,人工标注了广告语音出现的准确位置,提取出广告部分和正常部分,分别以5s为段长度进行切分。
最终的训练数据量为:ad:3259;normal:10544(normal数据做了一些删减)。
模型训练结果:
ad:acc:86%,recall:78.4%;
normal:acc:93.5%,recall:96%;
将待识别音频数据切分为5s、10s、20s、30s等的片段,使用预先构建的分类模型分别对所述5s、10s、20s、30s的片段进行判断,如果上述切分的片段中有被识别为广告,则所述待识别的音频数据为广告语音。
1、将音频截成5s语音片段
ad:acc:81.4%,recall:95%;
normal:acc:82.4%,recall:51.9%;
2、将音频截成10s语音片段
ad:acc:91.8%,recall:93.3%;
normal:acc:91.7%,recall:81.5%;
3、将音频截成20s语音片段
ad:acc:92%,recall:76.7%;
normal:acc:62.2%,recall:85.2%;
4、将音频截成30s语音片段
ad:acc:94.1%,recall:53.3%;
normal:acc:47.2%,recall:92.6%。
E.第五阶段
假设:共有400个含有广告的音频,人工标注了广告语音出现的准确位置,提取出广告部分和正常部分,分别以3s为段长度进行切分。
最终的训练数据量为:ad:5290;normal:8502(normal数据做了一些删减)。
模型训练结果:
ad:acc:88.7%,recall:86.4%;
normal:acc:91.7%,recall:93.2%;
将待识别音频数据切分为3s、5s、10s等片段,使用预先构建的分类模型分别对所述3s、5s、10s的片段进行判断,如果上述切分的片段中有被识别为广告,则所述待识别的音频数据为广告语音。
1、将音频截成3s语音片段
ad:acc:78.9%,recall:98.4%;
normal:acc:91.7%,recall:40.7%;
2、将音频截成5s语音片段
3、将音频截成10s语音片段
ad:acc:91.8%,recall:91.8%;
normal:acc:81.5%,recall:81.5%。
F.汇总
由上表可知,综合考虑准确和召回率,选择训练数据切分长度为5s,待识别的音频数据切分长度为5s和/或10s的组合可得到最佳性能的分类模型。
通过上述分析,可以理解的是,若追求识别速度,可采用一个分类模型,该模型应该取得识别准确率/召回率总体最优,可以用F1分数衡量,分数最大者为最佳组合;所述F1=准确率×召回率。
基于上述,在对所述分类器中的所述样本数据进行训练,查找训练的所述样本数据中用于分割所述正常音频信号特征和所述广告音频信号特征的超平面后,还可以根据识别需要记录所述正常音频信号特征和/或所述广告音频信号特征到所述超平面的平均距离,所述平均距离供在对待识别音频数据进行识别时进行判断。
可以理解的是,通过距离判断所述待识别音频数据中的音频信号特征属于哪一类仅为一种举例,实际上判断方式还可以是其他方式。例如:几何距离,欧氏距离,汉明距离(Hanming distance)等。
如图2所示,图2是本发明提供的一种语音分类模型的构建方法中分类模型实现识别过程的流程图。下面对构建的分类模型如何实现分类进行说明,具体如下:
步骤S201:对待识别视音频数据中音频数据进行切分处理,获得音频片段数据;
所述步骤S201的具体实现过程可以是,将当前的视音频数据中的视频数据和音频数据进行分离,也就是说,将完整的视音频数据分离成两部分,一部分为视频数据,另一部分为音频数据,然后,对音频数据进行切分处理,获得音频片段数据。
需要说明的是,待识别视音频数据中音频数据的获取方式有多种,在本实施中可以通过将待识别视音频数据中的音频数据和视频数据进行分离来获得音频数据,然而获取音频数据的方式并不限于上述内容,而且在识别过程中只要提供需要对音频数据进行识别的数据即可,因此,提供音频数据的方式不受局限。
为达到识别的准确性,本发明对所述音频数据进行切分处理,获得音频片段数据,也就是,将完整的音频数据切分成多个相同和/或不同长度的音频片段数据,例如:可以将完整的音频数据切分为1s,3s,5s,10s,20s,30s等相同和/或不同长度的音频片段数据。
步骤S202:抽取每一所述音频片段数据的所述音频信号特征;
对切分后的所述音频片段数据分别抽取所述音频片段数据对应的音频信号特征,从而获得每一个音频片段数据的音频信号特征。
在本实施中,所述音频信号特征选择如下34维的音频信号特征:
过零率特征(Zero Crossing Rate)、子带能量特征(Energy)、能量熵特征(Entropy of Energy)、光谱质心特征(Spectral Centroid)、扩展光谱特征(SpectralSpread)、光谱熵特征(Spectral Entropy)、光谱通量特征(Spectral Flux)、光谱滚边特征(Spectral Rolloff)、梅尔倒谱系数特征(MFCCs)、色度向量特征(Chroma Vector)和/或色度偏差特征(Chroma Deviation)等34个音频信号特征。
具体所述34维的音频信号特征可以参考如上述步骤S101中所描述的内容,在此不再赘述。
对于待识别的音频数据和视频数据而言,其都有起止端,通常起止端会存在静音,当然在音频数据中间也会存在。
为提高音频数据提取音频信号特征的准确性,在提取音频信号特征或提取音频片段数据的音频信号特征前,还可以对所述音频数据进行静音预处理。
所述静音处理可以统计并删除所述音频数据中语音能量低于整段待识别视音频数据平均值10%的音频数据。
步骤S203:判断每一所述音频片段数据中的所述音频信号特征属于上述构建分类模型方法中所构建的分类模型中的正常音频还是广告音频,若判断结果为广告音频,则记录所述音频片段数据的起始位置信息。
所述步骤S203的具体实现过程可以是:
所述分类模型根据所述音频片段数据对应的所述音频信号特征分别计算每一音频片段数据的所述音频信号特征到所述分类模型预先建立分类超平面的平均距离;
依次将所述每一音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离与所述分类模型中预先分类中正常音频到所述超平面的平均距离值进行比较或与所述分类模型中预先分类中广告音频到所述超平面的平均距离值进行比较;若比较结果属于广告音频,则进入所述记录所述音频数据的起始位置信息的步骤。
可以理解的是,所述完整的音频数据可以切分为1s,3s,5s,10s,20s,30s 等相同和/或不同长度的音频片段数据,对每一个音频片段数据所对应的音频信号特征与所述预先构建的分类模型中的正常音频数据中每一段音频信号特征或者广告音频数据中每一段广告音频信号特征进行比较,比较的内容为平均距离。切分所述音频数据的目的是为达到更好的判断结果,提高识别的准确率。
对于切分处理的音频数据可以依次对所述音频片段数据进行判断,当所述音频判断数据判断完毕后,如果判断结果为广告音频片段数据则进行概率值的计算及排序等,下面会有详细介绍,此处不再赘述。如果判断结果为正常音频片段数据则返回至所述步骤S202重新获取待识别视音频数据中音频数据的音频信号特征,再次进行判断。
需要说明的是,当所述音频数据的长短不需要进行切分时,可以通过计算完整音频数据对应的音频信号特征到所述分类模型中超平面的距离,将计算出的距离与分类模型中预先存储的正常类的完整正常音频信号到超平面距离比较,或者,将计算出的距离与分类模型中预先存储的广告类的完整广告音频信号到超平面距离比较。
可以理解是的,当判断结果为正常音频时,则可以重新获取待识别视音频数据中音频数据的音频信号特征。
需要说明的是,本发明提供的语音分类模型的构建方法在其实施中,所述标记的正常音频数据集合广告音频数据集,实际上,可以是任意需要进行识别的音频数据中的分类,例如:机器配音与正常语音的分类,在需要信号特征时根据识别不同的音频数据选取即可。
与上述语音分类模型的构建方法实施例相对应,本发明还公开了一种构建分类模型的装置实施例,请参看图3,其为本发明提供的一种构建分类模型的装置实施例示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图3所示,本发明提供的一种语音分类模型的构建装置,包括:
标准数据标记单元301,用于根据预先标记的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征;
所述标准数据标记单元301包括:静音处理单元,用于对所述预先标记的正常音频数据集和广告音频数据集进行静音预处理。
所述静音处理单元包括:统计删除单元,用于统计并删除预先标记的所述正常音频数据集所述广告音频数据集中语音能量低于整段平均值10%的音频数据。
所述标准数据标记单元301包括:标准数据切分单元和片段特征抽取单元
所述标准数据切分单元,用于对所述预先标记的正常音频数据集和广告音频数据集进行切分处理;
所述片段特征抽取单元,用于分别对切分处理后的每一段所述正常音频数据集和广告音频数据集抽取对应的正常音频信号特征和广告音频信号特征。
输入单元302,用于将所述正常音频信号特征和所述广告音频信号特征作为样本数据输入SVM分类器中;
训练获取单元303,用于对所述SVM分类器中的所述样本数据进行训练,查找训练的所述样本数据中用于分割所述正常音频信号特征和所述广告音频信号特征的超平面。
还包括:平均距离记录单元,用于分别记录所述正常音频信号特征和所述广告音频信号特征到所述超平面的平均距离。
本发明虽然以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。