CN107844578A

CN107844578A - 一种识别音频流中重复片段方法及装置

Info

Publication number: CN107844578A
Application number: CN201711101568.2A
Authority: CN
Inventors: 胡蓓蓓; 虞逸斐; 范晓安; 谢家明
Original assignee: Archimedes (shanghai) Media Co Ltd
Current assignee: Archimedes (shanghai) Media Co Ltd
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2018-03-27
Anticipated expiration: 2037-11-10
Also published as: CN107844578B

Abstract

本发明公开了一种识别音频流中重复片段方法。该方法包括：步骤一、生成待识别音频流的音频指纹，所述音频指纹的结构为(code，ts)，code为音频特征码，ts是音频特征码对应的时间戳；步骤二、生成重复音频特征码时间字典，所述重复音频特征码时间字典记录了重复音频特征码及其对应于音频流中出现的不同时刻；步骤三、通过声纹特征码的时间差估计重复音频片段时间差；步骤四、根据估计的重复音频片段时间差，将产生该时间差的起始时刻和结束时刻记录时刻表中生成重复音频特征码时刻列表；步骤五、对重复音频特征码时刻列表，进行聚类，将聚集在一定时间范围的重复音频时刻分成了若干类；步骤六、处理每一类，获得重复音频片段时间。通过本发明提供的音频流中重复片段识别方法，克服了广播音频流进行内容分析和提取需要进行人工收听标注，降低了成本以及漏检率、提高了效率。

Description

一种识别音频流中重复片段方法及装置

技术领域

本发明公开了一种识别音频流中重复片段的方法和装置，其所属技术领域为音频信号处理与识别领域，特别是互联网广音频的内容识别领域。

背景技术

音频指纹是从一段音频原始数据中提取的用来描述音频内容特征的一串数据。通过音频指纹的分析和比对可以完成音频内容的分析和检索，识别和检索音频片段。现有技术通过预先建立音频指纹数据库，然后将待识别的音频片段与音频指纹库中的数据进行比对。在达到预设的相似度后，判定为待识别音频与指纹库中的某条音频一致。在互联网广播领域，广播节目通过互联网进行直播或点播播放，广播音频内容具有重复性、碎片化等特点。对互联网广播音频流内容分析上，现有技术主要是通过人工处理整段音频流，对广播音频流中的内容进行标注及截取，最终呈现出广播音频流中有效的节目内容或者节目中的热点片段。

随着互联网广播的迅速发展，越来越多的广播音频流需要进行内容分析和提取。现有的人工收听标注方法存在以下缺点：

1、效率低，一段广播音频流的时长通常在一到三小时之间，人工收听并进行标记，需要花费较长的处理时间，无法适应互联网广播音频内容的爆炸式增长。

2、成本高，广播音频流中存在大量的重复内容，人工进行音频内容标注及编辑时(特别是在建立音频指纹库时)需要处理大量这些重复音频内容，为此将消耗大量的人力，随着人力成本增高，对广播音频流进行人工分析和标注带来了高成本的问题。

3、容易造成漏检，在目标音频识别上，采用人工进行分析容易造成目标音频的漏检。

综上所述，现有音频指纹检索对比技术以及广播音频流内容处理技术，已经无法适应互联网广播音频流的迅速增长，亦无法高效率低成本地完成互联网广播音频流的内容分析。

发明内容

为了解决利用现有技术对音频进行内容分析和提取带来的以上问题，本发明提供一种识别音频流中重复片段的方法，包括如下步骤：

步骤一、生成待识别音频流的音频指纹，所述音频指纹的结构为(code，ts)，code为音频特征码，ts是音频特征码对应的时间戳；

步骤二、依据生成的音频特征码生成重复音频特征码时间字典，所述重复音频特征码时间字典记录了重复音频特征码及其对应于音频流中出现的不同时刻；

步骤三、根据重复音频特征码时间字典、通过一个或多个重复音频特征码各自出现的时间差估计重复音频片段时间差；

步骤四、根据估计的重复音频片段时间差、将产生该时间差的所有重复音频特征码出现的时刻按照从小到大的顺序记录在时刻表中生成重复音频特征码时刻排序表；

步骤五、对重复音频特征码时刻排序表进行聚类，将聚集在一定时间范围的重复音频时刻分成了若干类；

步骤六、处理每一类，获得重复音频片段时间。

与此对应、本发明还提供一种识别音频流中重复片段的装置，该装置包括以下功能模块：

待识别音频指纹提取模块，用于提取待识别音频流的的音频指纹，所述音频指纹的结构为(code，ts)，code为音频特征码，ts是音频特征码对应的时间戳；

重复音频特征码时间字典生成模块，用于依据待识别音频指纹提取模块提取的音频特征码生成重复音频特征码时间字典，所述重复音频特征码时间字典记录了重复音频特征码及其对应于音频流中出现的不同时刻；

重复音频片段时间差估计模块，用于根据重复音频特征码时间字典、通过一个或多个重复音频特征码各自出现的时间差估计重复音频片段时间差；

重复音频特征码时刻排序模块，用于根据估计的重复音频片段时间差、将产生该时间差的所有重复音频特征码出现的时刻按照从小到大的顺序记录在时刻表中生成重复音频特征码时刻排序表；

聚类模块，用于对重复音频特征码时刻排序表，按照聚类算法进行聚类，将聚集在一定时间范围的重复音频时刻分成了若干类；

重复音频片段时间确定模块，用于对聚类模块产生的若干类进行处理，获得重复音频片段时间。

进一步地，本发明提供的识别音频流中重复片段的方法还可以用于多条音频流或音频文件中相同片段的识别。

通过本发明提供的方法和装置，能够使用计算机精准，快速地识别、标注互联网广播带来的音频流中特定的音频片段，提高了音频片段的分析、识别、标注的效率，大大降低了成本。

附图说明

图1为本发明提供的方法流程图；

图2为重复音频特征码时间字典示意图；

图3为估计重复音频片段时间差的示意图；

图4为重复音频特征码时刻列表在在时间轴上分布的示意图；

图5为聚类后获得重复音频时间区间的示意图；

图6为本发明提供的方法用于识别两条音频流的重复音频片段的示意图；

图7为本发明提供的方法用于识别短音频在待识别音频流中的播出位置的示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案以及有益效果更加清楚明白，以下结合附图对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照附图1，本发明提供本发明提供一种识别音频流中重复片段的方法，包括如下步骤：

步骤五、对重复音频特征码时刻排序表，进行聚类，将聚集在一定时间范围的重复音频时刻分成了若干类；

步骤六、处理每一类，获得重复音频片段时间。

其中，步骤1中音频指纹表示音频流的内容特征。一个音频指纹的结构为(code，ts)，code为音频特征码，表示音频能量在时间和频谱上的短时特征。ts是音频特征码对应的时间戳。(code，ts)表示音频流在ts时刻的内容特征为code。一条音频流或一段短音频的音频指纹包括若干个的音频指纹：[(code0，ts0)，(code1，ts1)，……]。在一条音频流的声纹中，特定的一个音频内容特征code可能会在多个时刻出现，表示对应的音频内容多次出现。

步骤二中重复音频特征码指在音频流中不同时刻多次出现的音频特征码。对于音频流声纹中仅出现一次的音频特征码，不计入重复音频特征码字典中。本步骤生成的重复音频特征码字典，描述了在哪些时刻重复出现了哪个音频特征码。重复音频特征码时间字典结构如图2所示：codei对应的时间列表为(tsi0，tsi1，……)表示音频内容特征码codei反复出现在tsi0，tsi1，……时刻。

步骤三中本发明中重复音频片段的时间差，如图3所示。可以通过音频特征码重复出现的时间差估计得到。本步骤的实现方式为：

1、对重复音频特征码时间字典中的每一个特征码，计算其出现的时间差。本发明提供两种计算方式：a)两两组合计算b)时间列表中的各项减去最小出现时间。

a)两两组合计算时间差

重复音频特征码codei对应的时间列表为(tsi0，tsi1，......tsiN)，时间列表从小到大排序。两两组合计算时间差为从N+1个时间点中，任意选择2个时间点(tsij，tsik)做差，求得绝对值。共计算出个时间差。

b)时间列表中的各项减去最小出现时间

特征码codei对应的时间列表为(tsi0，tsi1，.....tsiN)，时间列表从小到大排序。计算出的时间差列表为(abs(tsi1-tsi0)，......abs(tsiN-tsi0))。

2、对所有重复音频特征码计算出的时间差，统计不同时间差出现概率，选取较高概率出现的时间差。选择出的时间差即为重复音频片段之间的时间差。

步骤四中生成重复音频特征码时刻列表，具体为分别处理片段时间差估计值，将产生该时间差的所有重复特征码出现的时刻按照从小到大的顺序记录到重复音频时刻列表中。重复音频时刻列表为(t1,t2,t3,……)，如图4所示。

步骤五中对重复音频特征码时刻列表进行聚类，本发明中选择了基于密度的空间聚类算法DBSCAN，但对重复音频时刻列表的处理，不限于这一种聚类算法。结合业务场景也可选择其它聚类算法处理重复音频时刻列表。通过聚类算法，将聚集在一定时间范围的重复音频时刻分成了若干类，如图4所示。每一类对应了重复音频片段的一次播出。

步骤六中处理每一类、获得重复音频片段时间，具体处理过程为：分别处理每一类，取该类样本中的最小值和最大值，作为对应音频片段起点和终点的估计值。如图5所示，获取相应的重复音频片段的时间区间。

除此之外，本方法也可以用于多条音频流或音频文件重复片段识别。当用于识别多条音频流或音频文件中的重复片段时，首先确定其中一条音频流为待识别音频流、另一条为对比音频流，分别提取生成待识别音频流和对比音频流的音频指纹，所述音频指纹的结构与前述的音频指纹结构相同；选择同时出现在两条音频流中的声纹特征码作为重复音频特征码，分别生成待识别音频流和对比音频片段的重复音频特征码时间字典，所述重复音频特征码时间字典记录了重复音频特征码及其对应于音频流中出现的时刻；分别对出现在待识别音频流和对比音频片段中重复音频特征码出现的时刻按照从小到大的顺序记录在时刻表中生成待识别音频流重复音频特征码时刻排序表和对比音频片段重复音频特征码排序表；然而分别对两份重复音频特征码时刻排序表，进行聚类，将聚集在一定时间范围的重复音频时刻分成了若干类；最后处理每一类，获得相应的重复音频片段在对应音频流中出现的时间。

下面给出如下场景的具体实现：1、识别同时出现在两条音频流(待识别音频流和对比音频流)中的音频片段；2、给定一段短音频，识别短音频在待识别音频流中的播出位置。

场景一、识别同时出现在两条音频流中的音频片段

在该场景下，算法步骤1中分别生成待识别音频流和对比音频流的声纹。步骤2中重复音频特征码选择同时出现在两条音频流中的声纹特征码。之后对这些重复音频特征码在待识别音频流中的发生时刻进行分析和聚类，即可获得重复音频片段在待识别音频流中的播出时间。图6所示为两条音频流的相同内容片段识别。片段0和片段1是同时出现在待识别音频流和对比音频流中的音频片段。识别结果为片段0和片段1在待识别音频流中的播出时段[t1,t2][t3,t4]。

场景二、识别短音频在待识别音频流中的播出位置

在该场景下，步骤1中分别生成待识别音频流和短音频的声纹。步骤2中重复音频特征码选择同时出现在音频流和短音频中的声纹。之后对这些重复音频特征码在待识别音频流中的发生时刻进行分析和聚类，即可获得重复音频片段在待识别音频流中的播出时间。图7所示为短音频在待识别音频流中的识别。识别结果为短音频是否在待识别音频流中出现。如果出现，识别结果为短音频在待识别音频中的播出时段[t1,t2][t3,t4]。

与现有技术相比，本发明具有如下优点：

1、本发明提出的音频指纹对比方法，不需要提前建立音频指纹库，节省了建立和维护音频指纹库的开销，对比过程中也不需要查找音频指纹库，降低了计算中的I/O开销。

2、本发明提出的对比方法，对一条音频流的一次处理流程，就可以完成多个重复音频片段的识别，算法效率高。

3、本发明提出的方法，能够自动识别音频流中的重复内容片段，缩小了人工标注需要关注的内容范围。当内容标注关注范围为重复出现的音频片段(如广告、片头、片花等)时，只需对本发明输出的重复内容进行处理标记即可。当关注内容为不重复音频(如节目内容)，可忽略检测出的重复音频时段。

Claims

1.一种识别音频流中重复片段方法，包括：

步骤一、生成音频流的音频指纹，所述音频指纹的结构为(code，ts)，code为音频特征码，ts是音频特征码对应的时间戳；

步骤六、处理每一类，获得重复音频片段时间。

2.如权利要求1所述的识别音频流中重复片段方法，其中根据重复音频特征码时间字典、通过一个或多个音频特征码的各自出现的时间差估计重复音频片段时间差，具体实现方式为：对重复音频特征码时间字典中的每一个特征码计算其出现的时间差，对所有重复音频特征码计算出的时间差，统计不同时间差出现概率，选取较高概率出现的时间差为重复音频片段之间的时间差。

3.如权利要求2所述的识别音频流中重复片段方法，其中对重复音频特征码时间字典中的每一个特征码计算其出现的时间差具体可以对该特征码出现的多个不同时刻采用：两两组合计算/除最小时刻以外其他各项依次减去最小出现时间来计算。

4.如权利要求1所述的识别音频流中重复片段方法，其中所述重复音频特征码指在音频流中不同时刻多次出现的、但不包括音频流声纹中仅出现一次的音频特征码。

5.如权利要求1所述的识别音频流中重复片段方法，其中步骤五中聚类方法包括基于密度的空间聚类算法DBSCAN，通过聚类算法，将聚集在一定时间范围的重复音频时刻分成了若干类，每一类对应了重复音频片段的一次播出。

6.如权利要求1或5所述的识别音频流中重复片段方法，步骤六中处理每一类，获得重复音频片段时间具体为：分别处理每一类，取该类时刻样本中的最小值和最大值，作为对应音频片段起点和终点的估计值，获得相应的重复音频片段的时间区间。

7.一种识别音频流中重复片段的装置，包括：

音频指纹提取模块，用于提取待识别音频流的的音频指纹，所述音频指纹的结构为(code，ts)，code为音频特征码，ts是音频特征码对应的时间戳；

8.如权利要求7所述的识别音频流中重复片段装置，其中重复音频片段时间差估计模块，根据重复音频特征码时间字典、通过一个或多个重复音频特征码各自出现的时间差估计重复音频片段时间差，具体实现为：对重复音频特征码时间字典中的每一个特征码计算其出现的时间差，对所有重复音频特征码计算出的时间差，统计不同时间差出现概率，选取较高概率出现的时间差为重复音频片段之间的时间差。

9.如权利要求7所述的识别音频流中重复片段装置，其中所述重复音频特征码指在音频流中不同时刻多次出现的音频特征码。

10.如权利要求7所述的识别音频流中重复片段装置，其中聚类模块采用的聚类算法包括基于密度的空间聚类算法DBSCAN，通过聚类算法，将聚集在一定时间范围的重复音频时刻分成了若干类，每一类对应了重复音频片段的一次播出。

11.如权利要求7或10所述的识别音频流中重复片段装置，其中重复音频片段时间确定模块对聚类模块产生的若干类进行处理，获得重复音频片段时间步骤六处理每一类，获得重复音频片段时间具体为：分别处理每一类，取该类时刻样本中的最小值和最大值，作为对应音频片段起点和终点的估计值，获取相应的重复音频片段的时间区间。

12.一种识别两条音频流中重复片段方法，包括：

步骤一、确定其中一条音频流为待识别音频流、另一条为对比音频流，分别提取生成待识别音频流和对比音频流的音频指纹，所述音频指纹的结构为(code，ts)，code为音频特征码，ts是音频特征码对应的时间戳；

步骤二、选择同时出现在两条音频流中的声纹特征码作为重复音频特征码，分别生成待识别音频流和对比音频片段的重复音频特征码时间字典，所述重复音频特征码时间字典记录了重复音频特征码及其对应于音频流中出现的时刻；

步骤三、分别对出现在待识别音频流和对比音频片段中重复音频特征码出现的时刻按照从小到大的顺序记录在时刻表中生成待识别音频流重复音频特征码时刻排序表和对比音频片段重复音频特征码排序表；

步骤五、分别对两份重复音频特征码时刻排序表，进行聚类，将聚集在一定时间范围的重复音频时刻分成了若干类；

步骤六、处理每一类，获得相应的重复音频片段在对应音频流中出现的时间。