CN104008173A

CN104008173A - 一种流式的实时音频指纹识别方法

Info

Publication number: CN104008173A
Application number: CN201410244726.XA
Authority: CN
Inventors: 王磊; 洪顺迪
Original assignee: HANGZHOU SMART SCREEN SOFTWARE CO Ltd
Current assignee: Hangzhou wisdom screen Agel Ecommerce Ltd
Priority date: 2014-05-30
Filing date: 2014-05-30
Publication date: 2014-08-27
Anticipated expiration: 2034-05-30
Also published as: CN104008173B

Abstract

本发明公开了一种流式的实时音频指纹识别方法，采集母片、样片音频并进行对比分析，所述的采集母片音频为流式的采集母片音频并提取指纹特征值，生成实时更新的母片音频指纹库，所述的采集样片音频为流式的采集样片音频并提取指纹特征值，所述的对比分析为流式的音频指纹匹配方式。本发明可即时进行音频对比分析，能有效降低出现误差的可能性。

Description

一种流式的实时音频指纹识别方法

技术领域

本发明涉及网络通信技术领域，尤其涉及一种流式的实时音频指纹识别方法。

背景技术

由于音频指纹识别涉及两段音频，我们定义其中一段音频是母片，另一段音频是样片，当这两段音频指纹的内容是需要实时更新的(典型的一个应用场景是：判断一个网络流是不是一个盗版的电视流)，通常的实时音频匹配方法的流程如下：a).实时采集一段时间长度为T1母片音频，并提取音频指纹特征值；b).实时采集一段时间长度为T2样片音频，并提取音频指纹特征值；c).通过寻找母片音频指纹和样片音频指纹中相同的特征值，给两段音频的相似度打分，相同的特征值越多，则分数越高，如果分数比我们设定的阀值要高，就认为两段音频内容一样，否则不一样。

对于实时的音频指纹匹配这种特定的场景，上面的通常方法存在四个问题：(1)采集音频耗时长，由于现有的音频指纹匹配算法中，尽管指纹特征值提取算法更有不同，但要想获取准确的匹配结果，采集音频的时间(T1和T2)需要到达足够的长度，不同的声音的场景(谈话，音乐，电影，体育节目等等)，环境的噪音大小等都会对T1和T2的时间长度有不同的要求，噪音越大，要求的时间长度越长，如果想对任意环境下都有一个较好的音频识别效果，就需要分别花一段足够长时间的采集母片音频和样片的音频；(2)指纹匹配耗时长，因为采集了比较长的音频，相应的就会提出更多的指纹特征值，所以在执行音频指纹匹配算法时消耗了更多的时间；(3)可能会有FN，即应该匹配的没匹配，由于网络流会有延时的问题，比如一般网络电视会比电视机的内容延时3到5秒，甚至更长，这种情况下同样采集了5秒的网络电视音频和电视机的音频，实际上网络电视音频内容是电视机5秒以前的内容，这样这两段音频比较时得到的结果就是不匹配，尽管他们是同样的内容；(4)可能会出现FP，即不应该匹配的匹配了，部分音频指纹匹配算法由于只是统计了相同的特征值的多少，没有考虑匹配的时间跨度，比如两段10秒的音乐片段，中间恰巧有1秒声音很像，那么最终在比较这两段音频提取出来的指纹特征值的时候，大家就会有比较多的相同的特征值，然后两段音频内容被错误的认为是一样。

发明内容

本发明是为了解决现有实时的音频指纹匹配耗时长，准确度不高的问题，提供一种即时进行的，降低误差的流式的实时音频指纹识别方法。

为了实现上述目的，本发明采用以下技术方案：一种流式的实时音频指纹识别方法，采集母片、样片音频并进行对比分析，所述的采集母片音频为流式的采集母片音频并提取指纹特征值，生成实时更新的母片音频指纹库，所述的采集样片音频为流式的采集样片音频并提取指纹特征值，所述的对比分析为流式的音频指纹匹配方式。由于音频的采集方式是流式的，无需等到采集了固定时间长度的音频之后才提取音频指纹特征值，对于一些噪音比较小，音频指纹特征值比较丰富的场景，能够更快的得到匹配结果，对与那些样片延迟导致的FN，只需要通过设置母片的指纹特征值的超时时间就可以解决，对比分析时采用匹配的时间区间与相同的特征值共同计算得分值，减少了出现FP的可能。

作为优选，所述的采集母片音频包括以下步骤：1)采集预定时间长度的母片音频；2)提取这一小段的音频里的指纹特征值，每个特征值都有一个附带的时间戳t；3)把这小段音频指纹的所有特征值加入到母片音频指纹库；4)记母片指纹特征值的超时时间为T，把超时的特征值删除；5)跳到第1步，所述的采集样片音频包括以下步骤：1)采集预定时间长度的样片音频；2)提取这一小段样片音频的音频指纹特征值，每个特征值都有一个附带的时间戳t；3)把这小段的音频指纹特征值提交到对比分析过程；4)跳到第1步，所述的对比分析包括以下步骤：1)获取预定时间长度的样片音频指纹；2)比较这一小段样片音频指纹里的特征值和母片音频指纹库里的特征值，得到匹配参数；3)把当前的匹配参数和之前的若干预定时间长度的匹配参数合并结果再次合并；4)根据合并后匹配参数计算最后的匹配分数，判断样片音频与母片音频是否一致。获得母片音频和样片音频特征值后，进行比较获得匹配参数，如果相同的特征值个数大于一个阀值就把这些匹配的参数记录下来，否则认为这一小段没有匹配结果，有匹配结果的则将当前段匹配结果与之前的若干段匹配结果合并，共同进行对比分析，减小误差，段数取得越多，结果更准确。

作为优选，所述的预定时间长度设置为128ms。时间片段的长度越小，需要耗费的采集时间越小，音频指纹的匹配时间也越短。

作为优选，所述的对比分析步骤2)中的匹配参数包括匹配时间区间、相同的特征值个数、样片音频匹配开始位置的偏移、母片音频匹配开始位置的偏移。有了这四个参数，已经可以准确判断母片音频与样片音频的差异，减少FN和FP。

因此，本发明具有如下有益效果：(1)可即时进行音频对比分析；(2)有效降低出现误差的可能性。

具体实施方式

一种流式的实时音频指纹识别方法，采集母片、样片音频并进行对比分析，采集母片音频为流式的采集母片音频并提取指纹特征值，生成实时更新的母片音频指纹库，具体步骤包括：1)采集128ms的母片音频；2)提取这一小段的音频里的指纹特征值，每个特征值都有一个附带的时间戳t；3)把这小段音频指纹的所有特征值加入到母片音频指纹库；4)记母片指纹特征值的超时时间为T，把超时的特征值删除；5)跳到第1步，采集样片音频为流式的采集样片音频并提取指纹特征值，具体步骤包括：1)采集128ms的样片音频；2)提取这一小段样片音频的音频指纹特征值，每个特征值都有一个附带的时间戳t；3)把这小段的音频指纹特征值提交到对比分析过程；4)跳到第1步，对比分析为流式的音频指纹匹配方式，具体步骤包括：1)获取128ms的样片音频指纹；2)比较这一小段样片音频指纹里的特征值和母片音频指纹库里的特征值，得到匹配参数，分别记录为匹配时间区间(hit_duration)，相同的特征值个数(hit_count)，样片匹配开始位置的偏移(sample_offset)，母片匹配开始位置的偏移(master_offset)；3)把当前的匹配参数和之前的四段时间长度的匹配参数合并结果再次合并；4)根据合并后匹配参数计算最后的匹配分数，判断样片音频与母片音频是否一致。

具体使用过程是，按步骤获取母片音频和样片音频，比如现在是第5段小音频，则把第5段小音频匹配参数和前面4段音频的合并结果再合并，两小段匹配结果是不是可以合并的规则如下：

记hit_count_a，hit_duration_a，sample_offset_a，master_offset_a为第a段的匹配参数

记hit_count_b，hit_duration_b sample_offset_b，master_offset_b为第b段的匹配参数

当|b-a|＜k，并且|(sample_offset_b-sample_offset_b)-(master_offset_a-master_offset_b)|＜Δt时，a和b可以合并。假设a在前，b在后。那么合并后匹配参数如下：sample_offset_ab＝sample_offset_a.master_offset_ab＝master_offset_a，hit_duration_ab＝hit_duration_a+hit_duration_b，hit_count_ab＝hit_count_a+hit_count_b。

根据合并后匹配参数计算最后的匹配分数：score＝总的匹配的时间区间(hit_duration)*总的相同的特征值个数(hit_count)，如果score大于一定的阀值，则认为两段音频内容一样，否则不一样。

Claims

1.一种流式的实时音频指纹识别方法，采集母片、样片音频并进行对比分析，其特征在于，所述的采集母片音频为流式的采集母片音频并提取指纹特征值，生成实时更新的母片音频指纹库，所述的采集样片音频为流式的采集样片音频并提取指纹特征值，所述的对比分析为流式的音频指纹匹配方式。

2.根据权利要求1所述的一种流式的实时音频指纹识别方法，其特征是，所述的采集母片音频包括以下步骤：1)采集预定时间长度的母片音频；2)提取这一小段的音频里的指纹特征值，每个特征值都有一个附带的时间戳t；3)把这小段音频指纹的所有特征值加入到母片音频指纹库；4)记母片指纹特征值的超时时间为T，把超时的特征值删除；5)跳到第1步，所述的采集样片音频包括以下步骤：1)采集预定时间长度的样片音频；2)提取这一小段样片音频的音频指纹特征值，每个特征值都有一个附带的时间戳t；3)把这小段的音频指纹特征值提交到对比分析过程；4)跳到第1步，所述的对比分析包括以下步骤：1)获取预定时间长度的样片音频指纹；2)比较这一小段样片音频指纹里的特征值和母片音频指纹库里的特征值，得到匹配参数；3)把当前的匹配参数和之前的若干预定时间长度的匹配参数合并结果再次合并；4)根据合并后匹配参数计算最后的匹配分数，判断样片音频与母片音频是否一致。

3.根据权利要求2所述的一种流式的实时音频指纹识别方法，其特征是，所述的预定时间长度设置为128ms。

4.根据权利要求2所述的一种流式的实时音频指纹识别方法，其特征是，所述的对比分析步骤2)中的匹配参数包括匹配时间区间、相同的特征值个数、样片音频匹配开始位置的偏移、母片音频匹配开始位置的偏移。