CN107452401A

CN107452401A - 一种广告语音识别方法及装置

Info

Publication number: CN107452401A
Application number: CN201710396189.4A
Authority: CN
Inventors: 姜东�; 赵彦宾; 夏绪宏; 李磊; 洪定坤; 侯爽
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2017-12-08

Abstract

本发明公开了一种广告语音识别方法及装置，所述方法包括：对待识别视音频数据中音频数据进行切分处理，获得音频片段数据；抽取每一所述音频片段数据的所述音频信号特征；判断每一所述音频片段数据中的所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频，若判断结果为广告音频，则记录所述音频片段数据的起始位置信息。本发明可以准确识别出广告语音位置，大幅提升视频审核效率，降低审核人力成本。

Description

一种广告语音识别方法及装置

技术领域

本发明涉及互联网技术领域，具体涉及一种广告语音识别方法及装置。

背景技术

随着web2.0及web3.0版本的兴起与潮流导向，社交媒体平台变成了网民更喜爱的聚集地，因为这里不但可以看到自己感兴趣的东西，更可以分享自己的成果和心情，在这种互联网环境的发展趋势下，逐渐诞生UGC、PGC、OGC等概念。

UGC(User-generated Content)用户生产内容，也称UCC(User-createdContent)。随着移动互联网的发展，网上内容的创作又被细分出PGC(Professionally-generated Content)专业生产内容，也称PPC(Professionally-produced Content)和OGC(Occupationally-generated Content)职业生产内容。

其中，通过PGC和UGC用户上传视频已经成为当前视频网站内容生产的主要方式，对于短视频平台，这类内容可占比90％以上。一些PGC，UGC内容生产者为扩大品牌影响力，经常在其视频中夹带各种广告，以广告语音，视频广告为主要表现形式。若不采取措施全部放出这类视频，会严重影响用户体验，造成投诉量大增。由于每日新上传视频数量大(高峰时50万+)，若全部以人工审核方式排查广告需耗费大量的人力和时间，并大幅增加视频从上传到放出展示的时间，从而明显提升运营成本。

现有技术中通常是通过语音识别出文字，然后通过关键词匹配是否有广告内容出现，进而识别广告内容，该方法存在两方面的缺陷：

一方面，受限于语音识别的准确性；

另一方面，受限于关键词的覆盖面，在作弊者稍微变换花样后便很难准确识别。

因此，如何提供一种有效的识别方法来识别出视频中的广告语音，对于大型视频网站提高审核效率降低运营成本具有十分重要的意义。

发明内容

本发明提供一种广告语音识别方法及装置，以解决现有技术中存在广告语音识别准确性低的问题。

本发明提供一种广告语音识别方法，包括：

对待识别视音频数据中音频数据进行切分处理，获得音频片段数据；

抽取每一所述音频片段数据的所述音频信号特征；

判断每一所述音频片段数据中的所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频，若判断结果为广告音频，则记录所述音频片段数据的起始位置信息。

优选的，在所述切分处理前包括：

分离所述待识别视音频数据中的视频数据和所述音频数据。

优选的，所述判断每一所述音频片段数据中的所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频，包括：

所述分类模型根据所述音频片段数据对应的所述音频信号特征分别计算每一音频片段数据的所述音频信号特征到所述分类模型预先建立分类超平面的平均距离；

依次将所述每一音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离与所述分类模型中预先分类中正常音频到所述超平面的平均距离值进行比较或与所述分类模型中预先分类中广告音频到所述超平面的平均距离值进行比较；若比较结果属于广告音频，则记录所述音频数据的起始位置信息。

优选的，所述进入所述记录所述音频数据的起始位置信息具体为：记录被判断为广告音频所对应的所述音频片段数据的起始位置。

优选的，所述记录被判断为广告音频所对应的所述音频片段数据的起始位置包括：

根据被判断为广告音频所对应的所述音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离为所述音频片段数据赋予相应的概率值；

根据所述概率值对所述音频片段数据进行排序；

将所述概率值最大所对应的所述音频片段数据的起始位置输出。

优选的，所述预先构建的分类模型包括：

根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征；

将所述正常音频信号特征和所述广告音频信号特征作为样本数据输入到SVM分类器中；

对所述SVM分类器中的所述样本数据进行训练，查找训练的所述样本数据中用于分割所述正常音频信号特征和所述广告音频信号特征的超平面；

分别记录所述正常音频信号特征和/或所述广告音频信号特征到所述超平面的平均距离。

优选的，所述根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征，包括：

对所述预先定义的正常音频数据集和广告音频数据集进行静音预处理。

优选的，所述对所述预先定义的正常音频数据集和广告音频数据集进行静音预处理，包括：

统计并删除预先定义的所述正常音频数据集和所述广告音频数据集中语音能量低于整段待识别视音频数据平均值10％的音频数据。

对所述预先定义的正常音频数据集和广告音频数据集进行切分处理；

分别对切分处理后的每一段所述正常音频数据集和广告音频数据集抽取对应的正常音频信号特征和广告音频信号特征。

优选的，对待识别视音频数据中音频数据进行切分处理，获得音频片段数据包括：

对所述待识别视音频数据中的所述音频数据进行静音预处理。

优选的，所述对所述待识别视音频数据中的所述音频数据进行静音预处理包括：

统计并删除所述音频数据中语音能量低于整段平均值10％的音频数据。

优选的，所述音频信号特征包括：

过零率特征、子带能量特征、能量熵特征、光谱质心特征、扩展光谱特征、光谱熵特征、光谱通量特征、光谱滚边特征、梅尔倒谱系数特征、色度向量特征和/或色度偏差特征。

本发明还提供一种广告语音识别装置，包括：

获取单元，用于对待识别视音频数据中音频数据进行切分处理，获得音频片段数据；

抽取单元，用于抽取每一所述音频片段数据的所述音频信号特征；

判断单元，用于判断每一所述音频判断数据中所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频，若判断结果为广告音频，则记录所述音频片段数据的起始位置信息。

优选的，所述获取单元包括：

分离单元，用于分离所述待识别视音频数据中的视频数据和所述音频数据。

优选的，所述判断单元包括：

计算单元，用于所述分类模型根据所述音频片段数据对应的所述音频信号特征分别计算每一音频片段数据的所述音频信号特征到所述分类模型预先建立分类超平面的平均距离；

比较单元，用于依次将所述每一音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离与所述分类模型中预先分类中正常音频到所述超平面的平均距离值进行比较或与所述分类模型中预先分类中广告音频到所述超平面的平均距离值进行比较。

优选的，所述判断单元包括：

赋值单元，用于根据被判断为广告音频所对应的所述音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离为所述音频片段数据赋予相应的概率值；

排序单元，用于根据所述概率值对所述音频片段数据进行排序；

起始位置输出单元，用于将所述概率值最大所对应的所述音频片段数据的起始位置输出。

优选的，所述判断单元包括：分类模型构建单元，包括：

标准数据获取单元，用于根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征；

输入单元，用于将所述正常音频信号特征和所述广告音频信号特征作为样本数据输入SVM分类器中；

训练查找单元，用于对所述SVM分类器中的所述样本数据进行训练，获取训练的所述样本数据中用于分割所述正常音频信号特征和所述广告音频信号特征的超平面；

平均距离记录单元，用于分别记录所述正常音频信号特征和所述广告音频信号特征到所述超平面的平均距离。

优选的，所述标准数据获取单元包括：

静音处理单元，用于对所述预先定义的正常音频数据集和广告音频数据集进行静音预处理。

优选的，所述静音处理单元包括：

统计删除单元，用于统计并删除预先定义的所述正常音频数据集所述广告音频数据集中语音能量低于整段平均值10％的音频数据。

优选的，所述标准数据获取单元包括：

标准数据切分单元，用于对所述预先定义的正常音频数据集和广告音频数据集进行切分处理；

片段特征抽取单元，用于分别对切分处理后的每一段所述正常音频数据集和广告音频数据集抽取对应的正常音频信号特征和广告音频信号特征。

优选的，所述获取单元包括：静音处理单元，用于对所述当前视音频数据中的所述音频数据进行静音预处理。

优选的，所述静音处理单元包括：统计删除单元，用于统计并删除所述音频数据中语音能量低于整段待识别视音频数据平均值10％的音频数据。

与现有技术相比，本发明提供的一种广告语音识别方法通过分析语音信号学特征识别正常语音与广告语音，并不识别语音的具体文字内容。本发明是从语速，频率，节拍(beat)，音频色度(chroma features)等信号学角度准确锁定添加广告者的语音特征，从而可以准确地识别广告语音。

为提高识别的准确性和召回率，本发明通过对待识别的音频数据进行切分，即：切分为多个相同或不同长度的音频片段数据，将各个长度的音频片段数据与预先构建的分类模型中的正常音频或者是广告音频的相关数据进行比较，所述相关数据即为音频信号特征到所述超平面的距离，为了达到更好的识别准确率和召回率，在预先构建分类模型时，也对正常音频数据和广告音频数据进行切分处理，切分成相同或不同的长度，进而在比较时能够提高识别准确率，从而也提高了召回率。

附图说明

图1是本发明提供的一种广告语音识别方法的实施例的流程图；

图2是本发明提供的一种广告语音识别方法中构建分类模型的流程图；

图3是本发明提供的一种广告语音识别装置的实施例的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施的限制。

请参考图1所示，图1是本发明的提供的一种广告语音识别方法的实施例的流程图。

本发明提供的一种广告语音识别方法包括：

步骤S101：对待识别视音频数据中音频数据进行切分处理，获得音频片段数据；

所述步骤S101的具体实现过程可以是，将当前的视音频数据中的视频数据和音频数据进行分离，也就是说，将完整的视音频数据分离成两部分，一部分为视频数据，另一部分为音频数据，然后，对音频数据进行切分处理，获得音频片段数据。

需要说明的是，待识别视音频数据中音频数据的获取方式有多种，在本实施中可以通过将待识别视音频数据中的音频数据和视频数据进行分离来获得音频数据，然而获取音频数据的方式并不限于上述内容，而且在识别过程中只要提供需要对音频数据进行识别的数据即可，因此，提供音频数据的方式不受局限。

为达到识别的准确性，本发明对所述音频数据进行切分处理，获得音频片段数据，也就是，将完整的音频数据切分成多个相同和/或不同长度的音频片段数据，例如：可以将完整的音频数据切分为1s，3s，5s，10s，20s，30s等相同和/或不同长度的音频片段数据。

步骤S102：抽取每一所述音频片段数据的所述音频信号特征；

对切分后的所述音频片段数据分别抽取所述音频片段数据对应的音频信号特征，从而获得每一个音频片段数据的音频信号特征。

在本实施中，所述音频信号特征选择如下34维的音频信号特征：

过零率特征(Zero Crossing Rate)、子带能量特征(Energy)、能量熵特征(Entropy of Energy)、光谱质心特征(Spectral Centroid)、扩展光谱特征(SpectralSpread)、光谱熵特征(Spectral Entropy)、光谱通量特征(Spectral Flux)、光谱滚边特征(Spectral Rolloff)、梅尔倒谱系数特征(MFCCs)、色度向量特征(Chroma Vector)和/或色度偏差特征(Chroma Deviation)等34个音频信号特征。

上述34维的音频信号特征具体可以参考下表：

上述音频信号特征中包括短期特征(short-term features，通常20-100ms)和中期特征(mid-term features，通常1-30s)，分别用于提取语音的中短期信号特征。长期特征主要用于抽取音乐类摘要或者副歌所用，在本实施中主要采用的是中短期特征。

抽取所述音频信号特征可以通过采用LPCC(线性预测倒谱系数)、MFCC(梅尔频率倒谱系数)、HMM(隐马尔科夫模型)或DTW(动态时间规整)等方式。

对于音频数据和视频数据而言，其都有起止端，通常起止端会存在静音，当然在音频数据中间也会存在。

为提高音频数据提取音频信号特征的准确性，在提取音频信号特征或提取音频片段数据的音频信号特征前，还可以对所述音频数据进行静音预处理。

所述静音处理可以统计并删除所述音频数据中语音能量低于整段待识别视音频数据平均值10％的音频数据。

步骤S103：判断每一所述音频片段数据中的所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频，若判断结果为广告音频，则记录所述音频片段数据的起始位置信息。

所述步骤S103的具体实现过程可以是：

依次将所述每一音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离与所述分类模型中预先分类中正常音频到所述超平面的平均距离值进行比较或与所述分类模型中预先分类中广告音频到所述超平面的平均距离值进行比较；若比较结果属于广告音频，则进入所述记录所述音频数据的起始位置信息的步骤。

可以理解的是，所述完整的音频数据可以切分为1s，3s，5s，10s，20s，30s等相同和/或不同长度的音频片段数据，对每一个音频片段数据所对应的音频信号特征与所述预先构建的分类模型中的正常音频数据中每一段音频信号特征或者广告音频数据中每一段广告音频信号特征进行比较，比较的内容为平均距离。切分所述音频数据的目的是为达到更好的判断结果，提高识别的准确率。

对于切分处理的音频数据可以依次对所述音频片段数据进行判断，当所述音频判断数据判断完毕后，如果判断结果为广告音频片段数据则进行概率值的计算及排序等，下面会有详细介绍，此处不再赘述。如果判断结果为正常音频片段数据则返回至所述步骤S102重新获取待识别视音频数据中音频数据的音频信号特征，再次进行判断。

需要说明的是，当所述音频数据的长短不需要进行切分时，可以通过计算完整音频数据对应的音频信号特征到所述分类模型中超平面的距离，将计算出的距离与分类模型中预先存储的正常类的完整正常音频信号到超平面距离比较，或者，将计算出的距离与分类模型中预先存储的广告类的完整广告音频信号到超平面距离比较。

可以理解是的，当判断结果为正常音频时，则可以重新获取待识别视音频数据中音频数据的音频信号特征。

结合图1，参考图2所示，图2是本发明提供的一种广告语音识别方法中构建分类模型的流程图。

在所述步骤S103中对于预先构建的分类模型可以是预先构建好正常音频数据和广告音频数据分别到超平面的距离，在本实施例中，具体可以包括以下步骤：

步骤S201：根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征；

所述正常音频数据集和广告音频数据集可以通过从大量的音视频素材库中，且含有广告的音频数据中获得；或者通过人工标注获得。

对所述获得正常音频数据集和广告音频数据集进行静音预处理，以提高分类模型的准确性。所述静音预处理具体可以通过统计并删除预先定义的所述正常音频数据集和所述广告音频数据集中语音能量低于10％的音频数据。

可以理解的是，在本实施中可以将所述正常音频数据集合广告音频数据进行切分处理，使正常音频数据集和广告音频数据集成为多个音频片段，分别对切分处理后的每一段所述正常音频片段数据和广告音频片段数据集抽取对应的正常音频信号特征和广告音频信号特征，以提高分类模型的训练的准确性。

需要说明的是，对正常音频数据集和广告音频数据集进行切分处理的步骤可以是在静音处理前或后，若在所述静音处理前，则需要对每个正常音频片段数据和每个广告音频片段数据进行静音处理。

根据实际情况，对于一段音视频数据通常静音出现在开始与结尾处，因此，进行静音处理是可以是针对正常音频切分处理的开始部分和结束部位，广告音频切分处理的开始部分和结束部位。

同样的，所述预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征，其中，所述正常音频信号特征和广告音频信号特征可以34维特征，如所述步骤S101中的表格所示。

步骤S202：将所述正常音频信号特征和所述广告音频信号特征作为样本数据输入到SVM分类器中；

步骤S203：对所述SVM分类器中的所述样本数据进行训练，查找训练的所述样本数据中用于分割所述正常音频信号特征和所述广告音频信号特征的超平面；

步骤S204：分别记录所述正常音频信号特征和/或所述广告音频信号特征到所述超平面的平均距离值。

所述SVM分类器是一个由分类超平面定义的判别分类器，也可以称职为支持向量机，在本实施中，是通过采集的正常音频数据的音频信号特征作为正常特征向量和广告音频数据的音频信号作为广告特征向量，并将正常特征向量和广告特征向量作为样本数据映射到SVM分类器中，通过所述SVM分类器训练出正常特征向量和所述广告特征向量之间的超平面，也可以称为分类面。训练过程可以是，将所述正常特征向量作为正样本数据(正例)，将所述广告特征向量作为负样本数据(负例)，通过下列公式g(x)＝wx+b求得在n维空间中的线性函数，根据所述线性函数可以确定正例与负例之间的超平面。

所述超平面将所述正例与所述负例区分，计算所述正例中每一个特征向量到所述超平面的距离以及负例中每一个特征向量到所述超平面的距离，之后计算出正例和负例分别到所述超平面的平均距离。

需要说明的是，构建分类型中对于分类器的选择，在本实施中选用了SVM分类器，实际上所述分类器还可以选择KNN，K-均值，CNN,DNN等分类器实现相应的分类，因此，本发明提到的分类器并与限于上述SVM分类器，也可以采用其他分类器实现对音频片段数据的音频信号特征的分类。

在判断所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频时，对所述预先构建的分类模型中的正常音频数据集和广告音频数据集进行切分处理，以及对待识别的音频数据进行的切分处理，二者的切分长度的选择能够提高所述分类模型判断的准确性，本实施中，优选采用的是选择训练数据的切分长度为5s，待识别的音频数据切片长度为5s和/或10s的组合，具体对所述预先构建的分类模型性能测试的过程可以参考如下内容：

A、第一阶段

假设：共有400个含有广告的音频，人工标注了广告语音出现的准确位置，提取出广告部分和正常部分，分别以30s为段长度进行切分。

最终的训练数据量为：ad:704(表示：长度为30s的广告片段为704个)；normal:2391(表示：长度为30s的正常片段为2391个)。

其中，ad：为广告，Normal：为正常。

模型训练结果：

ad：acc:91.9％(表示：正确率)，recall:88.6％(表示：召回率)；

normal：acc:96.7％(表示：正确率)，recall:97.7％(表示：正确率)；

将待识别音频数据切分为5s、10s、20s、30s等片段，使用预先构建的分类模型分别对所述5s、10s、20s、30s的片段进行判断，如果上述切分的片段中有被识别为广告，则所述待识别的音频数据为广告语音。

1、将音频截成5s语音片段

ad：acc:76.9％,recall:100％；

normal：acc:100％,recall:33.3％；

上表第一行表示：人工审核为广告，模型也判定为广告的为60个，人工审核为广告，模型识别为正常的为0个；

上表第二行表示：人工审核为正常，模型判定为广告的为18个，人工审核为正常，模型识别为正常的9个。

2、将音频截成10s语音片段

ad：acc:80％,recall:93.3％；

normal：acc:87.1％,recall:51.9％；

3、将音频截成20s语音片段

ad：acc:87.9％,recall:85％；

normal：acc:69％,recall:74.1％；

4、将音频截成30s语音片段

ad：acc:91.8％,recall:75％；

normal：acc:60.5％,recall:85.2％。

B、第二阶段

假设：共有400个含有广告的音频，人工标注了广告语音出现的准确位置，提取出广告部分和正常部分，分别以20s为段长度进行切分。

最终的训练数据量为：ad:964；normal:3252(normal数据做了一些删减)

模型训练结果：

ad：acc:92.2％,recall:89.7％；

normal：acc:97％,recall:97.8％；

将待识别音频数据切分为5s、10s、20s、30s等的片段，使用预先构建的分类模型分别对所述5s、10s、20s、30s的片段进行判断，如果上述切分的片段中有被识别为广告，则所述待识别的音频数据为广告语音。

1、将音频截成5s语音片段

ad：acc:76.9％,recall:100％；

normal：acc:100％,recall:33.3％；

2、将音频截成10s语音片段

ad：acc:86.2％,recall:93.3％；

normal：acc:81.8％,recall:66.7％；

3、将音频截成20s语音片段

ad：acc:90.6％,recall:80％；

normal：acc:64.7％,recall:81.5％；

4、将音频截成30s语音片段

ad：acc:94.9％,recall:61.7％；

normal：acc:52.1％,recall:92.6％。

C、第三阶段

假设：共有400个含有广告的音频，人工标注了广告语音出现的准确位置，提取出广告部分和正常部分，分别以10s为段长度进行切分。

最终的训练数据量为：ad:1730；normal:4856(normal数据做了一些删减)；

模型训练结果：

ad：acc:89.8％,recall:84.6％；

normal：acc:94.6％,recall:95.9％；

1、将音频截成5s语音片段

ad：acc:79.7％,recall:98.3％；

normal：acc:92.3％,recall:44.4％；

2、将音频截成10s语音片段

ad：acc:86.2％,recall:93.3％；

normal：acc:81.8％,recall:66.7％；

3、将音频截成20s语音片段

ad：acc:90.7％,recall:81.7％；

normal：acc:66.7％,recall:81.5％；

4、将音频截成30s语音片段

ad：acc:92.5％,recall:61.7％；

normal：acc:51.1％,recall:88.9％。

D、第四阶段

假设：共有400个含有广告的音频，人工标注了广告语音出现的准确位置，提取出广告部分和正常部分，分别以5s为段长度进行切分。

最终的训练数据量为：ad:3259；normal:10544(normal数据做了一些删减)。

模型训练结果：

ad：acc:86％,recall:78.4％；

normal：acc:93.5％,recall:96％；

1、将音频截成5s语音片段

ad：acc:81.4％,recall:95％；

normal：acc:82.4％,recall:51.9％；

2、将音频截成10s语音片段

ad：acc:91.8％,recall:93.3％；

normal：acc:91.7％,recall:81.5％；

3、将音频截成20s语音片段

ad：acc:92％,recall:76.7％；

normal：acc:62.2％,recall:85.2％；

4、将音频截成30s语音片段

ad：acc:94.1％,recall:53.3％；

normal：acc:47.2％,recall:92.6％。

E.第五阶段

假设：共有400个含有广告的音频，人工标注了广告语音出现的准确位置，提取出广告部分和正常部分，分别以3s为段长度进行切分。

最终的训练数据量为：ad:5290；normal:8502(normal数据做了一些删减)。

模型训练结果：

ad：acc:88.7％,recall:86.4％；

normal：acc:91.7％,recall:93.2％；

将待识别音频数据切分为3s、5s、10s等片段，使用预先构建的分类模型分别对所述3s、5s、10s的片段进行判断，如果上述切分的片段中有被识别为广告，则所述待识别的音频数据为广告语音。

1、将音频截成3s语音片段

ad：acc:78.9％,recall:98.4％；

normal：acc:91.7％,recall:40.7％；

2、将音频截成5s语音片段

3、将音频截成10s语音片段

ad：acc:91.8％,recall:91.8％；

normal：acc:81.5％,recall:81.5％。

F.汇总

由上表可知，综合考虑准确和召回率，选择训练数据切分长度为5s，待识别的音频数据切分长度为5s和/或10s的组合可得到最佳性能的分类模型。

通过上述分析，可以理解的是，若追求识别速度，可采用一个分类模型，该模型应该取得识别准确率/召回率总体最优，可以用F1分数衡量，分数最大者为最佳组合；所述F1＝准确率×召回率。

步骤S103：记录所述音频数据的起始位置信息。

在本实施中，当对待识别的音频数据进行切分处理后，所述记录所述音频数据的起始位置信息，可以是记录所述每一个音频片段数据的起始位置，以供审核人员参考。

为提高审核工作效率所述步骤S103的具体实现过程可以包括以下步骤：

根据所述概率值对所述音频片段数据进行排序；

需要说明的是，将待识别的音频数据进行切分后，对其的每一个音频片段数据进行是否为广告音频的判断，当判断结果为是广告音频时，需要对每一个被判断为广告音频的音频片段数据赋予概率值，进而便于从多个音频片段数据中选择出广告音频概率最大所对应的音频片段数据，并记录概率最大音频片段数据的起始位置，供后续审核人员能够尽快审核。

以上是对本发明提供的一种广告语音识别方法的具体说明，可以了解的是，本发明提供的一种广告语音识别方法通过分析语音信号学特征识别正常语音与广告语音，并不用识别语音的具体内容，例如：文字等，本发明是从语速，频率，节拍(beat)，音频色度(chroma features)等信号学角度准确锁定添加广告者的语音特征，从而可以准确地识别广告语音。

与上述广告语音识别方法实施例相对应，本发明还公开了一种广告语音识别装置实施例，请参看图3，其为本发明提供的一种广告语音识别装置实施例示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图3所示，本发明提供的一种广告语音识别装置，包括：

获取单元301，用于对待识别视音频数据中音频数据进行切分处理，获得音频片段数据；

抽取单元302，用于抽取每一所述音频片段数据的所述音频信号特征；；

所述判断单元303，用于判断每一所述音频判断数据中所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频，若判断结果为广告音频，则记录所述音频片段数据的起始位置信息。

所述获取单元301还包括：

分离单元，用于分离所述当前视音频数据中的视频数据和所述音频数据。

所述判断单元303包括：

所述判断单元303包括：分类模型构建单元，包括：

训练查找单元，用于对所述SVM分类器中的所述样本数据进行训练，查找训练的所述样本数据中用于分割所述正常音频信号特征和所述广告音频信号特征的超平面；

所述标准数据获取单元包括：

所述静音处理单元包括：

所述标准数据获取单元包括：

所述获取单元301包括：

静音处理单元，用于对所述当前视音频数据中的所述音频数据进行静音预处理。所述静音处理单元包括：统计删除单元，用于统计并删除所述音频数据中语音能量低于10％的音频数据。

本发明虽然以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以做出可能的变动和修改，因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims

1.一种广告语音识别方法，其特征在于，包括：

抽取每一所述音频片段数据的所述音频信号特征；

2.根据权利要求1所述的广告语音识别方法，其特征在于，在所述切分处理前包括：

分离所述待识别视音频数据中的视频数据和所述音频数据。

3.根据权利要求1所述的广告语音识别方法，其特征在于，所述判断每一所述音频片段数据中的所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频，包括：

4.根据权利要求3所述的广告语音识别方法，其特征在于，所述进入所述记录所述音频数据的起始位置信息具体为：记录被判断为广告音频所对应的所述音频片段数据的起始位置。

5.根据权利要求4所述的广告语音识别方法，其特征在于，所述记录被判断为广告音频所对应的所述音频片段数据的起始位置包括：

根据所述概率值对所述音频片段数据进行排序；

6.根据权利要求1所述的广告语音识别方法，其特征在于，所述预先构建的分类模型包括：

7.根据权利要求6所述的广告语音识别方法，其特征在于，所述根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征，包括：

8.根据权利要求7所述的广告语音识别方法，其特征在于，所述对所述预先定义的正常音频数据集和广告音频数据集进行静音预处理，包括：

9.根据权利要求6所述的广告语音识别方法，其特征在于，所述根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征，包括：

10.根据权利要求1所述的广告语音识别方法，其特征在于，对待识别视音频数据中音频数据进行切分处理，获得音频片段数据包括：

11.根据权利要求10所述的广告语音识别方法，其特征在于，所述对所述待识别视音频数据中的所述音频数据进行静音预处理包括：

12.根据权利要求1所述的广告语音识别方法，其特征在于，所述音频信号特征包括：

13.一种广告语音识别装置，其特征在于，包括：

14.根据权利要求13所述的广告语音识别装置，其特征在于，所述获取单元包括：

15.根据权利要求14所述的广告语音识别装置，其特征在于，所述判断单元包括：

16.根据权利要求14所述的广告语音识别装置，其特征在于，所述判断单元包括：

17.根据权利要求14所述的广告语音识别装置，其特征在于，所述判断单元包括：分类模型构建单元，包括：

18.根据权利要求17所述的广告语音识别装置，其特征在于，所述标准数据获取单元包括：

19.根据权利要求18所述的广告语音识别装置，其特征在于，所述静音处理单元包括：

20.根据权利要求17所述的广告语音识别装置，其特征在于，所述标准数据获取单元包括：

21.根据权利要求14所述的广告语音识别装置，其特征在于，所述获取单元包括：静音处理单元，用于对所述当前视音频数据中的所述音频数据进行静音预处理。

22.根据权利要求21所述的广告语音识别装置，其特征在于，所述静音处理单元包括：统计删除单元，用于统计并删除所述音频数据中语音能量低于整段待识别视音频数据平均值10％的音频数据。