CN107452401A - 一种广告语音识别方法及装置 - Google Patents
一种广告语音识别方法及装置 Download PDFInfo
- Publication number
- CN107452401A CN107452401A CN201710396189.4A CN201710396189A CN107452401A CN 107452401 A CN107452401 A CN 107452401A CN 201710396189 A CN201710396189 A CN 201710396189A CN 107452401 A CN107452401 A CN 107452401A
- Authority
- CN
- China
- Prior art keywords
- audio
- data
- advertisement
- normal
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000005236 sound signal Effects 0.000 claims abstract description 135
- 238000005520 cutting process Methods 0.000 claims abstract description 63
- 238000012545 processing Methods 0.000 claims abstract description 41
- 239000000284 extract Substances 0.000 claims abstract description 11
- 239000012634 fragment Substances 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 7
- 230000004907 flux Effects 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims 1
- 230000000052 comparative effect Effects 0.000 claims 1
- 230000000630 rising effect Effects 0.000 claims 1
- 238000012795 verification Methods 0.000 abstract description 7
- 238000012552 review Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000748095 Hymenopappus filifolius Species 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/812—Monomedia components thereof involving advertisement data
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种广告语音识别方法及装置,所述方法包括:对待识别视音频数据中音频数据进行切分处理,获得音频片段数据;抽取每一所述音频片段数据的所述音频信号特征;判断每一所述音频片段数据中的所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频,若判断结果为广告音频,则记录所述音频片段数据的起始位置信息。本发明可以准确识别出广告语音位置,大幅提升视频审核效率,降低审核人力成本。
Description
技术领域
本发明涉及互联网技术领域,具体涉及一种广告语音识别方法及装置。
背景技术
随着web2.0及web3.0版本的兴起与潮流导向,社交媒体平台变成了网民更喜爱的聚集地,因为这里不但可以看到自己感兴趣的东西,更可以分享自己的成果和心情,在这种互联网环境的发展趋势下,逐渐诞生UGC、PGC、OGC等概念。
UGC(User-generated Content)用户生产内容,也称UCC(User-createdContent)。随着移动互联网的发展,网上内容的创作又被细分出PGC(Professionally-generated Content)专业生产内容,也称PPC(Professionally-produced Content)和OGC(Occupationally-generated Content)职业生产内容。
其中,通过PGC和UGC用户上传视频已经成为当前视频网站内容生产的主要方式,对于短视频平台,这类内容可占比90%以上。一些PGC,UGC内容生产者为扩大品牌影响力,经常在其视频中夹带各种广告,以广告语音,视频广告为主要表现形式。若不采取措施全部放出这类视频,会严重影响用户体验,造成投诉量大增。由于每日新上传视频数量大(高峰时50万+),若全部以人工审核方式排查广告需耗费大量的人力和时间,并大幅增加视频从上传到放出展示的时间,从而明显提升运营成本。
现有技术中通常是通过语音识别出文字,然后通过关键词匹配是否有广告内容出现,进而识别广告内容,该方法存在两方面的缺陷:
一方面,受限于语音识别的准确性;
另一方面,受限于关键词的覆盖面,在作弊者稍微变换花样后便很难准确识别。
因此,如何提供一种有效的识别方法来识别出视频中的广告语音,对于大型视频网站提高审核效率降低运营成本具有十分重要的意义。
发明内容
本发明提供一种广告语音识别方法及装置,以解决现有技术中存在广告语音识别准确性低的问题。
本发明提供一种广告语音识别方法,包括:
对待识别视音频数据中音频数据进行切分处理,获得音频片段数据;
抽取每一所述音频片段数据的所述音频信号特征;
判断每一所述音频片段数据中的所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频,若判断结果为广告音频,则记录所述音频片段数据的起始位置信息。
优选的,在所述切分处理前包括:
分离所述待识别视音频数据中的视频数据和所述音频数据。
优选的,所述判断每一所述音频片段数据中的所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频,包括:
所述分类模型根据所述音频片段数据对应的所述音频信号特征分别计算每一音频片段数据的所述音频信号特征到所述分类模型预先建立分类超平面的平均距离;
依次将所述每一音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离与所述分类模型中预先分类中正常音频到所述超平面的平均距离值进行比较或与所述分类模型中预先分类中广告音频到所述超平面的平均距离值进行比较;若比较结果属于广告音频,则记录所述音频数据的起始位置信息。
优选的,所述进入所述记录所述音频数据的起始位置信息具体为:记录被判断为广告音频所对应的所述音频片段数据的起始位置。
优选的,所述记录被判断为广告音频所对应的所述音频片段数据的起始位置包括:
根据被判断为广告音频所对应的所述音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离为所述音频片段数据赋予相应的概率值;
根据所述概率值对所述音频片段数据进行排序;
将所述概率值最大所对应的所述音频片段数据的起始位置输出。
优选的,所述预先构建的分类模型包括:
根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征;
将所述正常音频信号特征和所述广告音频信号特征作为样本数据输入到SVM分类器中;
对所述SVM分类器中的所述样本数据进行训练,查找训练的所述样本数据中用于分割所述正常音频信号特征和所述广告音频信号特征的超平面;
分别记录所述正常音频信号特征和/或所述广告音频信号特征到所述超平面的平均距离。
优选的,所述根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征,包括:
对所述预先定义的正常音频数据集和广告音频数据集进行静音预处理。
优选的,所述对所述预先定义的正常音频数据集和广告音频数据集进行静音预处理,包括:
统计并删除预先定义的所述正常音频数据集和所述广告音频数据集中语音能量低于整段待识别视音频数据平均值10%的音频数据。
优选的,所述根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征,包括:
对所述预先定义的正常音频数据集和广告音频数据集进行切分处理;
分别对切分处理后的每一段所述正常音频数据集和广告音频数据集抽取对应的正常音频信号特征和广告音频信号特征。
优选的,对待识别视音频数据中音频数据进行切分处理,获得音频片段数据包括:
对所述待识别视音频数据中的所述音频数据进行静音预处理。
优选的,所述对所述待识别视音频数据中的所述音频数据进行静音预处理包括:
统计并删除所述音频数据中语音能量低于整段平均值10%的音频数据。
优选的,所述音频信号特征包括:
过零率特征、子带能量特征、能量熵特征、光谱质心特征、扩展光谱特征、光谱熵特征、光谱通量特征、光谱滚边特征、梅尔倒谱系数特征、色度向量特征和/或色度偏差特征。
本发明还提供一种广告语音识别装置,包括:
获取单元,用于对待识别视音频数据中音频数据进行切分处理,获得音频片段数据;
抽取单元,用于抽取每一所述音频片段数据的所述音频信号特征;
判断单元,用于判断每一所述音频判断数据中所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频,若判断结果为广告音频,则记录所述音频片段数据的起始位置信息。
优选的,所述获取单元包括:
分离单元,用于分离所述待识别视音频数据中的视频数据和所述音频数据。
优选的,所述判断单元包括:
计算单元,用于所述分类模型根据所述音频片段数据对应的所述音频信号特征分别计算每一音频片段数据的所述音频信号特征到所述分类模型预先建立分类超平面的平均距离;
比较单元,用于依次将所述每一音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离与所述分类模型中预先分类中正常音频到所述超平面的平均距离值进行比较或与所述分类模型中预先分类中广告音频到所述超平面的平均距离值进行比较。
优选的,所述判断单元包括:
赋值单元,用于根据被判断为广告音频所对应的所述音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离为所述音频片段数据赋予相应的概率值;
排序单元,用于根据所述概率值对所述音频片段数据进行排序;
起始位置输出单元,用于将所述概率值最大所对应的所述音频片段数据的起始位置输出。
优选的,所述判断单元包括:分类模型构建单元,包括:
标准数据获取单元,用于根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征;
输入单元,用于将所述正常音频信号特征和所述广告音频信号特征作为样本数据输入SVM分类器中;
训练查找单元,用于对所述SVM分类器中的所述样本数据进行训练,获取训练的所述样本数据中用于分割所述正常音频信号特征和所述广告音频信号特征的超平面;
平均距离记录单元,用于分别记录所述正常音频信号特征和所述广告音频信号特征到所述超平面的平均距离。
优选的,所述标准数据获取单元包括:
静音处理单元,用于对所述预先定义的正常音频数据集和广告音频数据集进行静音预处理。
优选的,所述静音处理单元包括:
统计删除单元,用于统计并删除预先定义的所述正常音频数据集所述广告音频数据集中语音能量低于整段平均值10%的音频数据。
优选的,所述标准数据获取单元包括:
标准数据切分单元,用于对所述预先定义的正常音频数据集和广告音频数据集进行切分处理;
片段特征抽取单元,用于分别对切分处理后的每一段所述正常音频数据集和广告音频数据集抽取对应的正常音频信号特征和广告音频信号特征。
优选的,所述获取单元包括:静音处理单元,用于对所述当前视音频数据中的所述音频数据进行静音预处理。
优选的,所述静音处理单元包括:统计删除单元,用于统计并删除所述音频数据中语音能量低于整段待识别视音频数据平均值10%的音频数据。
与现有技术相比,本发明提供的一种广告语音识别方法通过分析语音信号学特征识别正常语音与广告语音,并不识别语音的具体文字内容。本发明是从语速,频率,节拍(beat),音频色度(chroma features)等信号学角度准确锁定添加广告者的语音特征,从而可以准确地识别广告语音。
为提高识别的准确性和召回率,本发明通过对待识别的音频数据进行切分,即:切分为多个相同或不同长度的音频片段数据,将各个长度的音频片段数据与预先构建的分类模型中的正常音频或者是广告音频的相关数据进行比较,所述相关数据即为音频信号特征到所述超平面的距离,为了达到更好的识别准确率和召回率,在预先构建分类模型时,也对正常音频数据和广告音频数据进行切分处理,切分成相同或不同的长度,进而在比较时能够提高识别准确率,从而也提高了召回率。
附图说明
图1是本发明提供的一种广告语音识别方法的实施例的流程图;
图2是本发明提供的一种广告语音识别方法中构建分类模型的流程图;
图3是本发明提供的一种广告语音识别装置的实施例的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
请参考图1所示,图1是本发明的提供的一种广告语音识别方法的实施例的流程图。
本发明提供的一种广告语音识别方法包括:
步骤S101:对待识别视音频数据中音频数据进行切分处理,获得音频片段数据;
所述步骤S101的具体实现过程可以是,将当前的视音频数据中的视频数据和音频数据进行分离,也就是说,将完整的视音频数据分离成两部分,一部分为视频数据,另一部分为音频数据,然后,对音频数据进行切分处理,获得音频片段数据。
需要说明的是,待识别视音频数据中音频数据的获取方式有多种,在本实施中可以通过将待识别视音频数据中的音频数据和视频数据进行分离来获得音频数据,然而获取音频数据的方式并不限于上述内容,而且在识别过程中只要提供需要对音频数据进行识别的数据即可,因此,提供音频数据的方式不受局限。
为达到识别的准确性,本发明对所述音频数据进行切分处理,获得音频片段数据,也就是,将完整的音频数据切分成多个相同和/或不同长度的音频片段数据,例如:可以将完整的音频数据切分为1s,3s,5s,10s,20s,30s等相同和/或不同长度的音频片段数据。
步骤S102:抽取每一所述音频片段数据的所述音频信号特征;
对切分后的所述音频片段数据分别抽取所述音频片段数据对应的音频信号特征,从而获得每一个音频片段数据的音频信号特征。
在本实施中,所述音频信号特征选择如下34维的音频信号特征:
过零率特征(Zero Crossing Rate)、子带能量特征(Energy)、能量熵特征(Entropy of Energy)、光谱质心特征(Spectral Centroid)、扩展光谱特征(SpectralSpread)、光谱熵特征(Spectral Entropy)、光谱通量特征(Spectral Flux)、光谱滚边特征(Spectral Rolloff)、梅尔倒谱系数特征(MFCCs)、色度向量特征(Chroma Vector)和/或色度偏差特征(Chroma Deviation)等34个音频信号特征。
上述34维的音频信号特征具体可以参考下表:
上述音频信号特征中包括短期特征(short-term features,通常20-100ms)和中期特征(mid-term features,通常1-30s),分别用于提取语音的中短期信号特征。长期特征主要用于抽取音乐类摘要或者副歌所用,在本实施中主要采用的是中短期特征。
抽取所述音频信号特征可以通过采用LPCC(线性预测倒谱系数)、MFCC(梅尔频率倒谱系数)、HMM(隐马尔科夫模型)或DTW(动态时间规整)等方式。
对于音频数据和视频数据而言,其都有起止端,通常起止端会存在静音,当然在音频数据中间也会存在。
为提高音频数据提取音频信号特征的准确性,在提取音频信号特征或提取音频片段数据的音频信号特征前,还可以对所述音频数据进行静音预处理。
所述静音处理可以统计并删除所述音频数据中语音能量低于整段待识别视音频数据平均值10%的音频数据。
步骤S103:判断每一所述音频片段数据中的所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频,若判断结果为广告音频,则记录所述音频片段数据的起始位置信息。
所述步骤S103的具体实现过程可以是:
所述分类模型根据所述音频片段数据对应的所述音频信号特征分别计算每一音频片段数据的所述音频信号特征到所述分类模型预先建立分类超平面的平均距离;
依次将所述每一音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离与所述分类模型中预先分类中正常音频到所述超平面的平均距离值进行比较或与所述分类模型中预先分类中广告音频到所述超平面的平均距离值进行比较;若比较结果属于广告音频,则进入所述记录所述音频数据的起始位置信息的步骤。
可以理解的是,所述完整的音频数据可以切分为1s,3s,5s,10s,20s,30s等相同和/或不同长度的音频片段数据,对每一个音频片段数据所对应的音频信号特征与所述预先构建的分类模型中的正常音频数据中每一段音频信号特征或者广告音频数据中每一段广告音频信号特征进行比较,比较的内容为平均距离。切分所述音频数据的目的是为达到更好的判断结果,提高识别的准确率。
对于切分处理的音频数据可以依次对所述音频片段数据进行判断,当所述音频判断数据判断完毕后,如果判断结果为广告音频片段数据则进行概率值的计算及排序等,下面会有详细介绍,此处不再赘述。如果判断结果为正常音频片段数据则返回至所述步骤S102重新获取待识别视音频数据中音频数据的音频信号特征,再次进行判断。
需要说明的是,当所述音频数据的长短不需要进行切分时,可以通过计算完整音频数据对应的音频信号特征到所述分类模型中超平面的距离,将计算出的距离与分类模型中预先存储的正常类的完整正常音频信号到超平面距离比较,或者,将计算出的距离与分类模型中预先存储的广告类的完整广告音频信号到超平面距离比较。
可以理解是的,当判断结果为正常音频时,则可以重新获取待识别视音频数据中音频数据的音频信号特征。
结合图1,参考图2所示,图2是本发明提供的一种广告语音识别方法中构建分类模型的流程图。
在所述步骤S103中对于预先构建的分类模型可以是预先构建好正常音频数据和广告音频数据分别到超平面的距离,在本实施例中,具体可以包括以下步骤:
步骤S201:根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征;
所述正常音频数据集和广告音频数据集可以通过从大量的音视频素材库中,且含有广告的音频数据中获得;或者通过人工标注获得。
对所述获得正常音频数据集和广告音频数据集进行静音预处理,以提高分类模型的准确性。所述静音预处理具体可以通过统计并删除预先定义的所述正常音频数据集和所述广告音频数据集中语音能量低于10%的音频数据。
可以理解的是,在本实施中可以将所述正常音频数据集合广告音频数据进行切分处理,使正常音频数据集和广告音频数据集成为多个音频片段,分别对切分处理后的每一段所述正常音频片段数据和广告音频片段数据集抽取对应的正常音频信号特征和广告音频信号特征,以提高分类模型的训练的准确性。
需要说明的是,对正常音频数据集和广告音频数据集进行切分处理的步骤可以是在静音处理前或后,若在所述静音处理前,则需要对每个正常音频片段数据和每个广告音频片段数据进行静音处理。
根据实际情况,对于一段音视频数据通常静音出现在开始与结尾处,因此,进行静音处理是可以是针对正常音频切分处理的开始部分和结束部位,广告音频切分处理的开始部分和结束部位。
同样的,所述预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征,其中,所述正常音频信号特征和广告音频信号特征可以34维特征,如所述步骤S101中的表格所示。
步骤S202:将所述正常音频信号特征和所述广告音频信号特征作为样本数据输入到SVM分类器中;
步骤S203:对所述SVM分类器中的所述样本数据进行训练,查找训练的所述样本数据中用于分割所述正常音频信号特征和所述广告音频信号特征的超平面;
步骤S204:分别记录所述正常音频信号特征和/或所述广告音频信号特征到所述超平面的平均距离值。
所述SVM分类器是一个由分类超平面定义的判别分类器,也可以称职为支持向量机,在本实施中,是通过采集的正常音频数据的音频信号特征作为正常特征向量和广告音频数据的音频信号作为广告特征向量,并将正常特征向量和广告特征向量作为样本数据映射到SVM分类器中,通过所述SVM分类器训练出正常特征向量和所述广告特征向量之间的超平面,也可以称为分类面。训练过程可以是,将所述正常特征向量作为正样本数据(正例),将所述广告特征向量作为负样本数据(负例),通过下列公式g(x)=wx+b求得在n维空间中的线性函数,根据所述线性函数可以确定正例与负例之间的超平面。
所述超平面将所述正例与所述负例区分,计算所述正例中每一个特征向量到所述超平面的距离以及负例中每一个特征向量到所述超平面的距离,之后计算出正例和负例分别到所述超平面的平均距离。
需要说明的是,构建分类型中对于分类器的选择,在本实施中选用了SVM分类器,实际上所述分类器还可以选择KNN,K-均值,CNN,DNN等分类器实现相应的分类,因此,本发明提到的分类器并与限于上述SVM分类器,也可以采用其他分类器实现对音频片段数据的音频信号特征的分类。
在判断所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频时,对所述预先构建的分类模型中的正常音频数据集和广告音频数据集进行切分处理,以及对待识别的音频数据进行的切分处理,二者的切分长度的选择能够提高所述分类模型判断的准确性,本实施中,优选采用的是选择训练数据的切分长度为5s,待识别的音频数据切片长度为5s和/或10s的组合,具体对所述预先构建的分类模型性能测试的过程可以参考如下内容:
A、第一阶段
假设:共有400个含有广告的音频,人工标注了广告语音出现的准确位置,提取出广告部分和正常部分,分别以30s为段长度进行切分。
最终的训练数据量为:ad:704(表示:长度为30s的广告片段为704个);normal:2391(表示:长度为30s的正常片段为2391个)。
其中,ad:为广告,Normal:为正常。
模型训练结果:
ad:acc:91.9%(表示:正确率),recall:88.6%(表示:召回率);
normal:acc:96.7%(表示:正确率),recall:97.7%(表示:正确率);
将待识别音频数据切分为5s、10s、20s、30s等片段,使用预先构建的分类模型分别对所述5s、10s、20s、30s的片段进行判断,如果上述切分的片段中有被识别为广告,则所述待识别的音频数据为广告语音。
1、将音频截成5s语音片段
ad:acc:76.9%,recall:100%;
normal:acc:100%,recall:33.3%;
上表第一行表示:人工审核为广告,模型也判定为广告的为60个,人工审核为广告,模型识别为正常的为0个;
上表第二行表示:人工审核为正常,模型判定为广告的为18个,人工审核为正常,模型识别为正常的9个。
2、将音频截成10s语音片段
ad:acc:80%,recall:93.3%;
normal:acc:87.1%,recall:51.9%;
3、将音频截成20s语音片段
ad:acc:87.9%,recall:85%;
normal:acc:69%,recall:74.1%;
4、将音频截成30s语音片段
ad:acc:91.8%,recall:75%;
normal:acc:60.5%,recall:85.2%。
B、第二阶段
假设:共有400个含有广告的音频,人工标注了广告语音出现的准确位置,提取出广告部分和正常部分,分别以20s为段长度进行切分。
最终的训练数据量为:ad:964;normal:3252(normal数据做了一些删减)
模型训练结果:
ad:acc:92.2%,recall:89.7%;
normal:acc:97%,recall:97.8%;
将待识别音频数据切分为5s、10s、20s、30s等的片段,使用预先构建的分类模型分别对所述5s、10s、20s、30s的片段进行判断,如果上述切分的片段中有被识别为广告,则所述待识别的音频数据为广告语音。
1、将音频截成5s语音片段
ad:acc:76.9%,recall:100%;
normal:acc:100%,recall:33.3%;
2、将音频截成10s语音片段
ad:acc:86.2%,recall:93.3%;
normal:acc:81.8%,recall:66.7%;
3、将音频截成20s语音片段
ad:acc:90.6%,recall:80%;
normal:acc:64.7%,recall:81.5%;
4、将音频截成30s语音片段
ad:acc:94.9%,recall:61.7%;
normal:acc:52.1%,recall:92.6%。
C、第三阶段
假设:共有400个含有广告的音频,人工标注了广告语音出现的准确位置,提取出广告部分和正常部分,分别以10s为段长度进行切分。
最终的训练数据量为:ad:1730;normal:4856(normal数据做了一些删减);
模型训练结果:
ad:acc:89.8%,recall:84.6%;
normal:acc:94.6%,recall:95.9%;
将待识别音频数据切分为5s、10s、20s、30s等的片段,使用预先构建的分类模型分别对所述5s、10s、20s、30s的片段进行判断,如果上述切分的片段中有被识别为广告,则所述待识别的音频数据为广告语音。
1、将音频截成5s语音片段
ad:acc:79.7%,recall:98.3%;
normal:acc:92.3%,recall:44.4%;
2、将音频截成10s语音片段
ad:acc:86.2%,recall:93.3%;
normal:acc:81.8%,recall:66.7%;
3、将音频截成20s语音片段
ad:acc:90.7%,recall:81.7%;
normal:acc:66.7%,recall:81.5%;
4、将音频截成30s语音片段
ad:acc:92.5%,recall:61.7%;
normal:acc:51.1%,recall:88.9%。
D、第四阶段
假设:共有400个含有广告的音频,人工标注了广告语音出现的准确位置,提取出广告部分和正常部分,分别以5s为段长度进行切分。
最终的训练数据量为:ad:3259;normal:10544(normal数据做了一些删减)。
模型训练结果:
ad:acc:86%,recall:78.4%;
normal:acc:93.5%,recall:96%;
将待识别音频数据切分为5s、10s、20s、30s等的片段,使用预先构建的分类模型分别对所述5s、10s、20s、30s的片段进行判断,如果上述切分的片段中有被识别为广告,则所述待识别的音频数据为广告语音。
1、将音频截成5s语音片段
ad:acc:81.4%,recall:95%;
normal:acc:82.4%,recall:51.9%;
2、将音频截成10s语音片段
ad:acc:91.8%,recall:93.3%;
normal:acc:91.7%,recall:81.5%;
3、将音频截成20s语音片段
ad:acc:92%,recall:76.7%;
normal:acc:62.2%,recall:85.2%;
4、将音频截成30s语音片段
ad:acc:94.1%,recall:53.3%;
normal:acc:47.2%,recall:92.6%。
E.第五阶段
假设:共有400个含有广告的音频,人工标注了广告语音出现的准确位置,提取出广告部分和正常部分,分别以3s为段长度进行切分。
最终的训练数据量为:ad:5290;normal:8502(normal数据做了一些删减)。
模型训练结果:
ad:acc:88.7%,recall:86.4%;
normal:acc:91.7%,recall:93.2%;
将待识别音频数据切分为3s、5s、10s等片段,使用预先构建的分类模型分别对所述3s、5s、10s的片段进行判断,如果上述切分的片段中有被识别为广告,则所述待识别的音频数据为广告语音。
1、将音频截成3s语音片段
ad:acc:78.9%,recall:98.4%;
normal:acc:91.7%,recall:40.7%;
2、将音频截成5s语音片段
3、将音频截成10s语音片段
ad:acc:91.8%,recall:91.8%;
normal:acc:81.5%,recall:81.5%。
F.汇总
由上表可知,综合考虑准确和召回率,选择训练数据切分长度为5s,待识别的音频数据切分长度为5s和/或10s的组合可得到最佳性能的分类模型。
通过上述分析,可以理解的是,若追求识别速度,可采用一个分类模型,该模型应该取得识别准确率/召回率总体最优,可以用F1分数衡量,分数最大者为最佳组合;所述F1=准确率×召回率。
步骤S103:记录所述音频数据的起始位置信息。
在本实施中,当对待识别的音频数据进行切分处理后,所述记录所述音频数据的起始位置信息,可以是记录所述每一个音频片段数据的起始位置,以供审核人员参考。
为提高审核工作效率所述步骤S103的具体实现过程可以包括以下步骤:
根据被判断为广告音频所对应的所述音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离为所述音频片段数据赋予相应的概率值;
根据所述概率值对所述音频片段数据进行排序;
将所述概率值最大所对应的所述音频片段数据的起始位置输出。
需要说明的是,将待识别的音频数据进行切分后,对其的每一个音频片段数据进行是否为广告音频的判断,当判断结果为是广告音频时,需要对每一个被判断为广告音频的音频片段数据赋予概率值,进而便于从多个音频片段数据中选择出广告音频概率最大所对应的音频片段数据,并记录概率最大音频片段数据的起始位置,供后续审核人员能够尽快审核。
以上是对本发明提供的一种广告语音识别方法的具体说明,可以了解的是,本发明提供的一种广告语音识别方法通过分析语音信号学特征识别正常语音与广告语音,并不用识别语音的具体内容,例如:文字等,本发明是从语速,频率,节拍(beat),音频色度(chroma features)等信号学角度准确锁定添加广告者的语音特征,从而可以准确地识别广告语音。
为提高识别的准确性和召回率,本发明通过对待识别的音频数据进行切分,即:切分为多个相同或不同长度的音频片段数据,将各个长度的音频片段数据与预先构建的分类模型中的正常音频或者是广告音频的相关数据进行比较,所述相关数据即为音频信号特征到所述超平面的距离,为了达到更好的识别准确率和召回率,在预先构建分类模型时,也对正常音频数据和广告音频数据进行切分处理,切分成相同或不同的长度,进而在比较时能够提高识别准确率,从而也提高了召回率。
与上述广告语音识别方法实施例相对应,本发明还公开了一种广告语音识别装置实施例,请参看图3,其为本发明提供的一种广告语音识别装置实施例示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图3所示,本发明提供的一种广告语音识别装置,包括:
获取单元301,用于对待识别视音频数据中音频数据进行切分处理,获得音频片段数据;
抽取单元302,用于抽取每一所述音频片段数据的所述音频信号特征;;
所述判断单元303,用于判断每一所述音频判断数据中所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频,若判断结果为广告音频,则记录所述音频片段数据的起始位置信息。
所述获取单元301还包括:
分离单元,用于分离所述当前视音频数据中的视频数据和所述音频数据。
所述判断单元303包括:
计算单元,用于所述分类模型根据所述音频片段数据对应的所述音频信号特征分别计算每一音频片段数据的所述音频信号特征到所述分类模型预先建立分类超平面的平均距离;
比较单元,用于依次将所述每一音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离与所述分类模型中预先分类中正常音频到所述超平面的平均距离值进行比较或与所述分类模型中预先分类中广告音频到所述超平面的平均距离值进行比较。
所述判断单元303包括:
赋值单元,用于根据被判断为广告音频所对应的所述音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离为所述音频片段数据赋予相应的概率值;
排序单元,用于根据所述概率值对所述音频片段数据进行排序;
起始位置输出单元,用于将所述概率值最大所对应的所述音频片段数据的起始位置输出。
所述判断单元303包括:分类模型构建单元,包括:
标准数据获取单元,用于根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征;
输入单元,用于将所述正常音频信号特征和所述广告音频信号特征作为样本数据输入SVM分类器中;
训练查找单元,用于对所述SVM分类器中的所述样本数据进行训练,查找训练的所述样本数据中用于分割所述正常音频信号特征和所述广告音频信号特征的超平面;
平均距离记录单元,用于分别记录所述正常音频信号特征和所述广告音频信号特征到所述超平面的平均距离。
所述标准数据获取单元包括:
静音处理单元,用于对所述预先定义的正常音频数据集和广告音频数据集进行静音预处理。
所述静音处理单元包括:
统计删除单元,用于统计并删除预先定义的所述正常音频数据集所述广告音频数据集中语音能量低于整段平均值10%的音频数据。
所述标准数据获取单元包括:
标准数据切分单元,用于对所述预先定义的正常音频数据集和广告音频数据集进行切分处理;
片段特征抽取单元,用于分别对切分处理后的每一段所述正常音频数据集和广告音频数据集抽取对应的正常音频信号特征和广告音频信号特征。
所述获取单元301包括:
静音处理单元,用于对所述当前视音频数据中的所述音频数据进行静音预处理。所述静音处理单元包括:统计删除单元,用于统计并删除所述音频数据中语音能量低于10%的音频数据。
本发明虽然以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。
Claims (22)
1.一种广告语音识别方法,其特征在于,包括:
对待识别视音频数据中音频数据进行切分处理,获得音频片段数据;
抽取每一所述音频片段数据的所述音频信号特征;
判断每一所述音频片段数据中的所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频,若判断结果为广告音频,则记录所述音频片段数据的起始位置信息。
2.根据权利要求1所述的广告语音识别方法,其特征在于,在所述切分处理前包括:
分离所述待识别视音频数据中的视频数据和所述音频数据。
3.根据权利要求1所述的广告语音识别方法,其特征在于,所述判断每一所述音频片段数据中的所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频,包括:
所述分类模型根据所述音频片段数据对应的所述音频信号特征分别计算每一音频片段数据的所述音频信号特征到所述分类模型预先建立分类超平面的平均距离;
依次将所述每一音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离与所述分类模型中预先分类中正常音频到所述超平面的平均距离值进行比较或与所述分类模型中预先分类中广告音频到所述超平面的平均距离值进行比较;若比较结果属于广告音频,则记录所述音频数据的起始位置信息。
4.根据权利要求3所述的广告语音识别方法,其特征在于,所述进入所述记录所述音频数据的起始位置信息具体为:记录被判断为广告音频所对应的所述音频片段数据的起始位置。
5.根据权利要求4所述的广告语音识别方法,其特征在于,所述记录被判断为广告音频所对应的所述音频片段数据的起始位置包括:
根据被判断为广告音频所对应的所述音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离为所述音频片段数据赋予相应的概率值;
根据所述概率值对所述音频片段数据进行排序;
将所述概率值最大所对应的所述音频片段数据的起始位置输出。
6.根据权利要求1所述的广告语音识别方法,其特征在于,所述预先构建的分类模型包括:
根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征;
将所述正常音频信号特征和所述广告音频信号特征作为样本数据输入到SVM分类器中;
对所述SVM分类器中的所述样本数据进行训练,查找训练的所述样本数据中用于分割所述正常音频信号特征和所述广告音频信号特征的超平面;
分别记录所述正常音频信号特征和/或所述广告音频信号特征到所述超平面的平均距离。
7.根据权利要求6所述的广告语音识别方法,其特征在于,所述根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征,包括:
对所述预先定义的正常音频数据集和广告音频数据集进行静音预处理。
8.根据权利要求7所述的广告语音识别方法,其特征在于,所述对所述预先定义的正常音频数据集和广告音频数据集进行静音预处理,包括:
统计并删除预先定义的所述正常音频数据集和所述广告音频数据集中语音能量低于整段待识别视音频数据平均值10%的音频数据。
9.根据权利要求6所述的广告语音识别方法,其特征在于,所述根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征,包括:
对所述预先定义的正常音频数据集和广告音频数据集进行切分处理;
分别对切分处理后的每一段所述正常音频数据集和广告音频数据集抽取对应的正常音频信号特征和广告音频信号特征。
10.根据权利要求1所述的广告语音识别方法,其特征在于,对待识别视音频数据中音频数据进行切分处理,获得音频片段数据包括:
对所述待识别视音频数据中的所述音频数据进行静音预处理。
11.根据权利要求10所述的广告语音识别方法,其特征在于,所述对所述待识别视音频数据中的所述音频数据进行静音预处理包括:
统计并删除所述音频数据中语音能量低于整段平均值10%的音频数据。
12.根据权利要求1所述的广告语音识别方法,其特征在于,所述音频信号特征包括:
过零率特征、子带能量特征、能量熵特征、光谱质心特征、扩展光谱特征、光谱熵特征、光谱通量特征、光谱滚边特征、梅尔倒谱系数特征、色度向量特征和/或色度偏差特征。
13.一种广告语音识别装置,其特征在于,包括:
获取单元,用于对待识别视音频数据中音频数据进行切分处理,获得音频片段数据;
抽取单元,用于抽取每一所述音频片段数据的所述音频信号特征;
判断单元,用于判断每一所述音频判断数据中所述音频信号特征属于预先构建的分类模型中的正常音频还是广告音频,若判断结果为广告音频,则记录所述音频片段数据的起始位置信息。
14.根据权利要求13所述的广告语音识别装置,其特征在于,所述获取单元包括:
分离单元,用于分离所述待识别视音频数据中的视频数据和所述音频数据。
15.根据权利要求14所述的广告语音识别装置,其特征在于,所述判断单元包括:
计算单元,用于所述分类模型根据所述音频片段数据对应的所述音频信号特征分别计算每一音频片段数据的所述音频信号特征到所述分类模型预先建立分类超平面的平均距离;
比较单元,用于依次将所述每一音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离与所述分类模型中预先分类中正常音频到所述超平面的平均距离值进行比较或与所述分类模型中预先分类中广告音频到所述超平面的平均距离值进行比较。
16.根据权利要求14所述的广告语音识别装置,其特征在于,所述判断单元包括:
赋值单元,用于根据被判断为广告音频所对应的所述音频片段数据的所述音频信号特征到所述分类模型分类超平面的平均距离为所述音频片段数据赋予相应的概率值;
排序单元,用于根据所述概率值对所述音频片段数据进行排序;
起始位置输出单元,用于将所述概率值最大所对应的所述音频片段数据的起始位置输出。
17.根据权利要求14所述的广告语音识别装置,其特征在于,所述判断单元包括:分类模型构建单元,包括:
标准数据获取单元,用于根据预先定义的正常音频数据集和广告音频数据集获取相应的正常音频信号特征和广告音频信号特征;
输入单元,用于将所述正常音频信号特征和所述广告音频信号特征作为样本数据输入SVM分类器中;
训练查找单元,用于对所述SVM分类器中的所述样本数据进行训练,获取训练的所述样本数据中用于分割所述正常音频信号特征和所述广告音频信号特征的超平面;
平均距离记录单元,用于分别记录所述正常音频信号特征和所述广告音频信号特征到所述超平面的平均距离。
18.根据权利要求17所述的广告语音识别装置,其特征在于,所述标准数据获取单元包括:
静音处理单元,用于对所述预先定义的正常音频数据集和广告音频数据集进行静音预处理。
19.根据权利要求18所述的广告语音识别装置,其特征在于,所述静音处理单元包括:
统计删除单元,用于统计并删除预先定义的所述正常音频数据集所述广告音频数据集中语音能量低于整段平均值10%的音频数据。
20.根据权利要求17所述的广告语音识别装置,其特征在于,所述标准数据获取单元包括:
标准数据切分单元,用于对所述预先定义的正常音频数据集和广告音频数据集进行切分处理;
片段特征抽取单元,用于分别对切分处理后的每一段所述正常音频数据集和广告音频数据集抽取对应的正常音频信号特征和广告音频信号特征。
21.根据权利要求14所述的广告语音识别装置,其特征在于,所述获取单元包括:静音处理单元,用于对所述当前视音频数据中的所述音频数据进行静音预处理。
22.根据权利要求21所述的广告语音识别装置,其特征在于,所述静音处理单元包括:统计删除单元,用于统计并删除所述音频数据中语音能量低于整段待识别视音频数据平均值10%的音频数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710396189.4A CN107452401A (zh) | 2017-05-27 | 2017-05-27 | 一种广告语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710396189.4A CN107452401A (zh) | 2017-05-27 | 2017-05-27 | 一种广告语音识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107452401A true CN107452401A (zh) | 2017-12-08 |
Family
ID=60487029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710396189.4A Pending CN107452401A (zh) | 2017-05-27 | 2017-05-27 | 一种广告语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107452401A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108039175A (zh) * | 2018-01-29 | 2018-05-15 | 北京百度网讯科技有限公司 | 语音识别方法、装置及服务器 |
CN108156518A (zh) * | 2017-12-26 | 2018-06-12 | 上海亿动信息技术有限公司 | 一种通过用户关注广告进行广告定向投放的方法及装置 |
CN108171151A (zh) * | 2017-12-26 | 2018-06-15 | 上海亿动信息技术有限公司 | 一种对视频广告进行识别统计的控制方法及装置 |
CN109671425A (zh) * | 2018-12-29 | 2019-04-23 | 广州酷狗计算机科技有限公司 | 音频分类方法、装置及存储介质 |
WO2019119687A1 (zh) * | 2017-12-19 | 2019-06-27 | 浙江大学 | 基于机器学习的防御无声指令控制语音助手的方法 |
CN109949798A (zh) * | 2019-01-03 | 2019-06-28 | 刘伯涵 | 基于音频的广告检测方法以及装置 |
CN110324659A (zh) * | 2018-03-29 | 2019-10-11 | 北京字节跳动网络技术有限公司 | 一种视频特征提取方法及装置 |
CN111369299A (zh) * | 2020-03-11 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 识别的方法、装置、设备及计算机可读存储介质 |
CN111477219A (zh) * | 2020-05-08 | 2020-07-31 | 合肥讯飞数码科技有限公司 | 关键词区分方法、装置、电子设备和可读存储介质 |
CN111508498A (zh) * | 2020-04-09 | 2020-08-07 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
WO2022105861A1 (zh) * | 2020-11-20 | 2022-05-27 | 北京有竹居网络技术有限公司 | 用于识别语音的方法、装置、电子设备和介质 |
CN116758938A (zh) * | 2023-08-21 | 2023-09-15 | 硕橙(厦门)科技有限公司 | 一种模切机音频感兴趣区域定位方法、装置、设备及介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101080028A (zh) * | 2006-05-25 | 2007-11-28 | 北大方正集团有限公司 | 一种广告视频检测的方法 |
CN101404160A (zh) * | 2008-11-21 | 2009-04-08 | 北京科技大学 | 一种基于音频识别的语音降噪方法 |
US20090306797A1 (en) * | 2005-09-08 | 2009-12-10 | Stephen Cox | Music analysis |
CN102799899A (zh) * | 2012-06-29 | 2012-11-28 | 北京理工大学 | 基于svm和gmm的特定音频事件分层泛化识别方法 |
CN102799633A (zh) * | 2012-06-26 | 2012-11-28 | 天脉聚源(北京)传媒科技有限公司 | 一种广告视频检测方法 |
US20130058488A1 (en) * | 2011-09-02 | 2013-03-07 | Dolby Laboratories Licensing Corporation | Audio Classification Method and System |
CN103237260A (zh) * | 2013-04-09 | 2013-08-07 | 上海合合信息科技发展有限公司 | 实时地从电视、电台频道中获取广告的系统及方法 |
CN103914530A (zh) * | 2014-03-31 | 2014-07-09 | 北京中科模识科技有限公司 | 广播电视节目中违规广告的监测方法和系统 |
CN104317959A (zh) * | 2014-11-10 | 2015-01-28 | 北京字节跳动网络技术有限公司 | 基于社交平台的数据挖掘方法及装置 |
WO2015168274A1 (en) * | 2014-04-29 | 2015-11-05 | LENA, Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
CN105810212A (zh) * | 2016-03-07 | 2016-07-27 | 合肥工业大学 | 一种复杂噪声环境下的列车鸣笛识别方法 |
US20160302003A1 (en) * | 2015-04-08 | 2016-10-13 | Cornell University | Sensing non-speech body sounds |
-
2017
- 2017-05-27 CN CN201710396189.4A patent/CN107452401A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090306797A1 (en) * | 2005-09-08 | 2009-12-10 | Stephen Cox | Music analysis |
CN101080028A (zh) * | 2006-05-25 | 2007-11-28 | 北大方正集团有限公司 | 一种广告视频检测的方法 |
CN101404160A (zh) * | 2008-11-21 | 2009-04-08 | 北京科技大学 | 一种基于音频识别的语音降噪方法 |
CN102982804A (zh) * | 2011-09-02 | 2013-03-20 | 杜比实验室特许公司 | 音频分类方法和系统 |
US20130058488A1 (en) * | 2011-09-02 | 2013-03-07 | Dolby Laboratories Licensing Corporation | Audio Classification Method and System |
CN102799633A (zh) * | 2012-06-26 | 2012-11-28 | 天脉聚源(北京)传媒科技有限公司 | 一种广告视频检测方法 |
CN102799899A (zh) * | 2012-06-29 | 2012-11-28 | 北京理工大学 | 基于svm和gmm的特定音频事件分层泛化识别方法 |
CN103237260A (zh) * | 2013-04-09 | 2013-08-07 | 上海合合信息科技发展有限公司 | 实时地从电视、电台频道中获取广告的系统及方法 |
CN103914530A (zh) * | 2014-03-31 | 2014-07-09 | 北京中科模识科技有限公司 | 广播电视节目中违规广告的监测方法和系统 |
WO2015168274A1 (en) * | 2014-04-29 | 2015-11-05 | LENA, Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
CN104317959A (zh) * | 2014-11-10 | 2015-01-28 | 北京字节跳动网络技术有限公司 | 基于社交平台的数据挖掘方法及装置 |
US20160302003A1 (en) * | 2015-04-08 | 2016-10-13 | Cornell University | Sensing non-speech body sounds |
CN105810212A (zh) * | 2016-03-07 | 2016-07-27 | 合肥工业大学 | 一种复杂噪声环境下的列车鸣笛识别方法 |
Non-Patent Citations (6)
Title |
---|
FRANCESC ALIAS ET AL: ""A review of physical and perceptual feature extraction techniques for speech music and environmental sounds"", 《MDPI》 * |
KESAVAN NAMBOOTHIRI T ET AL: ""Efficient audio retrieval using SVMware and DTW techniques"", 《SPECIAL ISSUE》 * |
PRATEEK MURGAI: ""Development of an automatic Classification System for the Cetaceans Using their Vocalizations"", 《MBARI 2015 INTERN PAPERS》 * |
曹雪昭: ""音频广告检测算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
赵花婷: ""一种基于音频匹配的广告监测算法"", 《计算机与现代化》 * |
齐峰岩 等: ""一种基于支持向量机的含噪语音的清/浊/静音分类的新方法"", 《电子学报》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11450324B2 (en) | 2017-12-19 | 2022-09-20 | Zhejiang University | Method of defending against inaudible attacks on voice assistant based on machine learning |
WO2019119687A1 (zh) * | 2017-12-19 | 2019-06-27 | 浙江大学 | 基于机器学习的防御无声指令控制语音助手的方法 |
CN108156518A (zh) * | 2017-12-26 | 2018-06-12 | 上海亿动信息技术有限公司 | 一种通过用户关注广告进行广告定向投放的方法及装置 |
CN108171151A (zh) * | 2017-12-26 | 2018-06-15 | 上海亿动信息技术有限公司 | 一种对视频广告进行识别统计的控制方法及装置 |
CN108039175A (zh) * | 2018-01-29 | 2018-05-15 | 北京百度网讯科技有限公司 | 语音识别方法、装置及服务器 |
US11398228B2 (en) | 2018-01-29 | 2022-07-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Voice recognition method, device and server |
CN110324659B (zh) * | 2018-03-29 | 2020-08-28 | 北京字节跳动网络技术有限公司 | 一种视频特征提取方法及装置 |
US11055536B2 (en) | 2018-03-29 | 2021-07-06 | Beijing Bytedance Network Technology Co., Ltd. | Video feature extraction method and device |
CN110324659A (zh) * | 2018-03-29 | 2019-10-11 | 北京字节跳动网络技术有限公司 | 一种视频特征提取方法及装置 |
CN109671425A (zh) * | 2018-12-29 | 2019-04-23 | 广州酷狗计算机科技有限公司 | 音频分类方法、装置及存储介质 |
CN109671425B (zh) * | 2018-12-29 | 2021-04-06 | 广州酷狗计算机科技有限公司 | 音频分类方法、装置及存储介质 |
CN109949798A (zh) * | 2019-01-03 | 2019-06-28 | 刘伯涵 | 基于音频的广告检测方法以及装置 |
CN111369299B (zh) * | 2020-03-11 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 识别的方法、装置、设备及计算机可读存储介质 |
CN111369299A (zh) * | 2020-03-11 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 识别的方法、装置、设备及计算机可读存储介质 |
CN111508498A (zh) * | 2020-04-09 | 2020-08-07 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
CN111508498B (zh) * | 2020-04-09 | 2024-01-30 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
CN111477219A (zh) * | 2020-05-08 | 2020-07-31 | 合肥讯飞数码科技有限公司 | 关键词区分方法、装置、电子设备和可读存储介质 |
WO2022105861A1 (zh) * | 2020-11-20 | 2022-05-27 | 北京有竹居网络技术有限公司 | 用于识别语音的方法、装置、电子设备和介质 |
CN116758938A (zh) * | 2023-08-21 | 2023-09-15 | 硕橙(厦门)科技有限公司 | 一种模切机音频感兴趣区域定位方法、装置、设备及介质 |
CN116758938B (zh) * | 2023-08-21 | 2023-11-14 | 硕橙(厦门)科技有限公司 | 一种模切机音频感兴趣区域定位方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107452401A (zh) | 一种广告语音识别方法及装置 | |
CN107452371B (zh) | 一种语音分类模型的构建方法及装置 | |
WO2020211354A1 (zh) | 基于说话内容的说话者身份识别方法、装置及存储介质 | |
US6424946B1 (en) | Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering | |
CN103035247B (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
US7725318B2 (en) | System and method for improving the accuracy of audio searching | |
CN101261832B (zh) | 汉语语音情感信息的提取及建模方法 | |
CN107958014B (zh) | 搜索引擎 | |
CN1662956A (zh) | 大量说话人识别(id)系统及其相应方法 | |
CN107293308B (zh) | 一种音频处理方法及装置 | |
JP2006508390A (ja) | デジタルオーディオデータの要約方法及び装置、並びにコンピュータプログラム製品 | |
CN109977258A (zh) | 图像和语音的跨模态检索分类器模型、检索系统和检索方法 | |
WO2020077825A1 (zh) | 论坛社区应用管理方法、装置、设备及可读存储介质 | |
CN110910175B (zh) | 一种旅游门票产品画像生成方法 | |
US9652997B2 (en) | Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme | |
CN113254643A (zh) | 文本分类方法、装置、电子设备和 | |
Bockhorst et al. | Predicting self-reported customer satisfaction of interactions with a corporate call center | |
CN111462774B (zh) | 一种基于深度学习的音乐情感可信分类方法 | |
Nagavi et al. | Content based audio retrieval with MFCC feature extraction, clustering and sort-merge techniques | |
CN116166771A (zh) | 一种基于行为文本处理的语音服务内容识别方法 | |
Pramod Reddy | Recognition of human emotion with spectral features using multi layer-perceptron | |
Takeuchi et al. | Text mining of business-oriented conversations at a call center | |
CN105868271A (zh) | 一种姓名统计方法及装置 | |
Sardar | Compensation of variability using median and i-vector+ PLDA for speaker identification of whispering sound | |
Khollam et al. | A Survey on Content Based Lecture Video Retrieval Using Speech and Video Text information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171208 |