CN104008173A - 一种流式的实时音频指纹识别方法 - Google Patents

一种流式的实时音频指纹识别方法 Download PDF

Info

Publication number
CN104008173A
CN104008173A CN201410244726.XA CN201410244726A CN104008173A CN 104008173 A CN104008173 A CN 104008173A CN 201410244726 A CN201410244726 A CN 201410244726A CN 104008173 A CN104008173 A CN 104008173A
Authority
CN
China
Prior art keywords
audio
frequency
fingerprint
eigenwert
master slice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410244726.XA
Other languages
English (en)
Other versions
CN104008173B (zh
Inventor
王磊
洪顺迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou wisdom screen Agel Ecommerce Ltd
Original Assignee
HANGZHOU SMART SCREEN SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU SMART SCREEN SOFTWARE CO Ltd filed Critical HANGZHOU SMART SCREEN SOFTWARE CO Ltd
Priority to CN201410244726.XA priority Critical patent/CN104008173B/zh
Publication of CN104008173A publication Critical patent/CN104008173A/zh
Application granted granted Critical
Publication of CN104008173B publication Critical patent/CN104008173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种流式的实时音频指纹识别方法,采集母片、样片音频并进行对比分析,所述的采集母片音频为流式的采集母片音频并提取指纹特征值,生成实时更新的母片音频指纹库,所述的采集样片音频为流式的采集样片音频并提取指纹特征值,所述的对比分析为流式的音频指纹匹配方式。本发明可即时进行音频对比分析,能有效降低出现误差的可能性。

Description

一种流式的实时音频指纹识别方法
技术领域
本发明涉及网络通信技术领域,尤其涉及一种流式的实时音频指纹识别方法。
背景技术
由于音频指纹识别涉及两段音频,我们定义其中一段音频是母片,另一段音频是样片,当这两段音频指纹的内容是需要实时更新的(典型的一个应用场景是:判断一个网络流是不是一个盗版的电视流),通常的实时音频匹配方法的流程如下:a).实时采集一段时间长度为T1母片音频,并提取音频指纹特征值;b).实时采集一段时间长度为T2样片音频,并提取音频指纹特征值;c).通过寻找母片音频指纹和样片音频指纹中相同的特征值,给两段音频的相似度打分,相同的特征值越多,则分数越高,如果分数比我们设定的阀值要高,就认为两段音频内容一样,否则不一样。
对于实时的音频指纹匹配这种特定的场景,上面的通常方法存在四个问题:(1)采集音频耗时长,由于现有的音频指纹匹配算法中,尽管指纹特征值提取算法更有不同,但要想获取准确的匹配结果,采集音频的时间(T1和T2)需要到达足够的长度,不同的声音的场景(谈话,音乐,电影,体育节目等等),环境的噪音大小等都会对T1和T2的时间长度有不同的要求,噪音越大,要求的时间长度越长,如果想对任意环境下都有一个较好的音频识别效果,就需要分别花一段足够长时间的采集母片音频和样片的音频;(2)指纹匹配耗时长,因为采集了比较长的音频,相应的就会提出更多的指纹特征值,所以在执行音频指纹匹配算法时消耗了更多的时间;(3)可能会有FN,即应该匹配的没匹配,由于网络流会有延时的问题,比如一般网络电视会比电视机的内容延时3到5秒,甚至更长,这种情况下同样采集了5秒的网络电视音频和电视机的音频,实际上网络电视音频内容是电视机5秒以前的内容,这样这两段音频比较时得到的结果就是不匹配,尽管他们是同样的内容;(4)可能会出现FP,即不应该匹配的匹配了,部分音频指纹匹配算法由于只是统计了相同的特征值的多少,没有考虑匹配的时间跨度,比如两段10秒的音乐片段,中间恰巧有1秒声音很像,那么最终在比较这两段音频提取出来的指纹特征值的时候,大家就会有比较多的相同的特征值,然后两段音频内容被错误的认为是一样。
发明内容
本发明是为了解决现有实时的音频指纹匹配耗时长,准确度不高的问题,提供一种即时进行的,降低误差的流式的实时音频指纹识别方法。
为了实现上述目的,本发明采用以下技术方案:一种流式的实时音频指纹识别方法,采集母片、样片音频并进行对比分析,所述的采集母片音频为流式的采集母片音频并提取指纹特征值,生成实时更新的母片音频指纹库,所述的采集样片音频为流式的采集样片音频并提取指纹特征值,所述的对比分析为流式的音频指纹匹配方式。由于音频的采集方式是流式的,无需等到采集了固定时间长度的音频之后才提取音频指纹特征值,对于一些噪音比较小,音频指纹特征值比较丰富的场景,能够更快的得到匹配结果,对与那些样片延迟导致的FN,只需要通过设置母片的指纹特征值的超时时间就可以解决,对比分析时采用匹配的时间区间与相同的特征值共同计算得分值,减少了出现FP的可能。
作为优选,所述的采集母片音频包括以下步骤:1)采集预定时间长度的母片音频;2)提取这一小段的音频里的指纹特征值,每个特征值都有一个附带的时间戳t;3)把这小段音频指纹的所有特征值加入到母片音频指纹库;4)记母片指纹特征值的超时时间为T,把超时的特征值删除;5)跳到第1步,所述的采集样片音频包括以下步骤:1)采集预定时间长度的样片音频;2)提取这一小段样片音频的音频指纹特征值,每个特征值都有一个附带的时间戳t;3)把这小段的音频指纹特征值提交到对比分析过程;4)跳到第1步,所述的对比分析包括以下步骤:1)获取预定时间长度的样片音频指纹;2)比较这一小段样片音频指纹里的特征值和母片音频指纹库里的特征值,得到匹配参数;3)把当前的匹配参数和之前的若干预定时间长度的匹配参数合并结果再次合并;4)根据合并后匹配参数计算最后的匹配分数,判断样片音频与母片音频是否一致。获得母片音频和样片音频特征值后,进行比较获得匹配参数,如果相同的特征值个数大于一个阀值就把这些匹配的参数记录下来,否则认为这一小段没有匹配结果,有匹配结果的则将当前段匹配结果与之前的若干段匹配结果合并,共同进行对比分析,减小误差,段数取得越多,结果更准确。
作为优选,所述的预定时间长度设置为128ms。时间片段的长度越小,需要耗费的采集时间越小,音频指纹的匹配时间也越短。
作为优选,所述的对比分析步骤2)中的匹配参数包括匹配时间区间、相同的特征值个数、样片音频匹配开始位置的偏移、母片音频匹配开始位置的偏移。有了这四个参数,已经可以准确判断母片音频与样片音频的差异,减少FN和FP。
因此,本发明具有如下有益效果:(1)可即时进行音频对比分析;(2)有效降低出现误差的可能性。
具体实施方式
一种流式的实时音频指纹识别方法,采集母片、样片音频并进行对比分析,采集母片音频为流式的采集母片音频并提取指纹特征值,生成实时更新的母片音频指纹库,具体步骤包括:1)采集128ms的母片音频;2)提取这一小段的音频里的指纹特征值,每个特征值都有一个附带的时间戳t;3)把这小段音频指纹的所有特征值加入到母片音频指纹库;4)记母片指纹特征值的超时时间为T,把超时的特征值删除;5)跳到第1步,采集样片音频为流式的采集样片音频并提取指纹特征值,具体步骤包括:1)采集128ms的样片音频;2)提取这一小段样片音频的音频指纹特征值,每个特征值都有一个附带的时间戳t;3)把这小段的音频指纹特征值提交到对比分析过程;4)跳到第1步,对比分析为流式的音频指纹匹配方式,具体步骤包括:1)获取128ms的样片音频指纹;2)比较这一小段样片音频指纹里的特征值和母片音频指纹库里的特征值,得到匹配参数,分别记录为匹配时间区间(hit_duration),相同的特征值个数(hit_count),样片匹配开始位置的偏移(sample_offset),母片匹配开始位置的偏移(master_offset);3)把当前的匹配参数和之前的四段时间长度的匹配参数合并结果再次合并;4)根据合并后匹配参数计算最后的匹配分数,判断样片音频与母片音频是否一致。
具体使用过程是,按步骤获取母片音频和样片音频,比如现在是第5段小音频,则把第5段小音频匹配参数和前面4段音频的合并结果再合并,两小段匹配结果是不是可以合并的规则如下:
记hit_count_a,hit_duration_a,sample_offset_a,master_offset_a为第a段的匹配参数
记hit_count_b,hit_duration_b sample_offset_b,master_offset_b为第b段的匹配参数
当|b-a|<k,并且|(sample_offset_b-sample_offset_b)-(master_offset_a-master_offset_b)|<Δt时,a和b可以合并。假设a在前,b在后。那么合并后匹配参数如下:sample_offset_ab=sample_offset_a.master_offset_ab=master_offset_a,hit_duration_ab=hit_duration_a+hit_duration_b,hit_count_ab=hit_count_a+hit_count_b。
根据合并后匹配参数计算最后的匹配分数:score=总的匹配的时间区间(hit_duration)*总的相同的特征值个数(hit_count),如果score大于一定的阀值,则认为两段音频内容一样,否则不一样。

Claims (4)

1.一种流式的实时音频指纹识别方法,采集母片、样片音频并进行对比分析,其特征在于,所述的采集母片音频为流式的采集母片音频并提取指纹特征值,生成实时更新的母片音频指纹库,所述的采集样片音频为流式的采集样片音频并提取指纹特征值,所述的对比分析为流式的音频指纹匹配方式。
2.根据权利要求1所述的一种流式的实时音频指纹识别方法,其特征是,所述的采集母片音频包括以下步骤:1)采集预定时间长度的母片音频;2)提取这一小段的音频里的指纹特征值,每个特征值都有一个附带的时间戳t;3)把这小段音频指纹的所有特征值加入到母片音频指纹库;4)记母片指纹特征值的超时时间为T,把超时的特征值删除;5)跳到第1步,所述的采集样片音频包括以下步骤:1)采集预定时间长度的样片音频;2)提取这一小段样片音频的音频指纹特征值,每个特征值都有一个附带的时间戳t;3)把这小段的音频指纹特征值提交到对比分析过程;4)跳到第1步,所述的对比分析包括以下步骤:1)获取预定时间长度的样片音频指纹;2)比较这一小段样片音频指纹里的特征值和母片音频指纹库里的特征值,得到匹配参数;3)把当前的匹配参数和之前的若干预定时间长度的匹配参数合并结果再次合并;4)根据合并后匹配参数计算最后的匹配分数,判断样片音频与母片音频是否一致。
3.根据权利要求2所述的一种流式的实时音频指纹识别方法,其特征是,所述的预定时间长度设置为128ms。
4.根据权利要求2所述的一种流式的实时音频指纹识别方法,其特征是,所述的对比分析步骤2)中的匹配参数包括匹配时间区间、相同的特征值个数、样片音频匹配开始位置的偏移、母片音频匹配开始位置的偏移。
CN201410244726.XA 2014-05-30 2014-05-30 一种流式的实时音频指纹识别方法 Active CN104008173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410244726.XA CN104008173B (zh) 2014-05-30 2014-05-30 一种流式的实时音频指纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410244726.XA CN104008173B (zh) 2014-05-30 2014-05-30 一种流式的实时音频指纹识别方法

Publications (2)

Publication Number Publication Date
CN104008173A true CN104008173A (zh) 2014-08-27
CN104008173B CN104008173B (zh) 2017-08-11

Family

ID=51368830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410244726.XA Active CN104008173B (zh) 2014-05-30 2014-05-30 一种流式的实时音频指纹识别方法

Country Status (1)

Country Link
CN (1) CN104008173B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550257A (zh) * 2015-12-10 2016-05-04 杭州当虹科技有限公司 一种音视频指纹识别方法及一种基于音视频指纹流媒体的防篡改系统
CN107967922A (zh) * 2017-12-19 2018-04-27 成都嗨翻屋文化传播有限公司 一种基于特征的音乐版权识别方法
CN108510999A (zh) * 2018-02-09 2018-09-07 杭州默安科技有限公司 基于音频指纹的零权限终端设备识别方法
CN111400542A (zh) * 2020-03-20 2020-07-10 腾讯科技(深圳)有限公司 音频指纹的生成方法、装置、设备及存储介质
CN112468872A (zh) * 2020-10-14 2021-03-09 上海艾策通讯科技股份有限公司 Ip视频一致性检测方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133499A1 (en) * 2001-03-13 2002-09-19 Sean Ward System and method for acoustic fingerprinting
CN1754218A (zh) * 2003-02-26 2006-03-29 皇家飞利浦电子股份有限公司 音频指纹识别中数字静音的处理
CN102314875A (zh) * 2011-08-01 2012-01-11 北京百度网讯科技有限公司 一种音频文件的识别方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133499A1 (en) * 2001-03-13 2002-09-19 Sean Ward System and method for acoustic fingerprinting
CN1754218A (zh) * 2003-02-26 2006-03-29 皇家飞利浦电子股份有限公司 音频指纹识别中数字静音的处理
CN102314875A (zh) * 2011-08-01 2012-01-11 北京百度网讯科技有限公司 一种音频文件的识别方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550257A (zh) * 2015-12-10 2016-05-04 杭州当虹科技有限公司 一种音视频指纹识别方法及一种基于音视频指纹流媒体的防篡改系统
CN107967922A (zh) * 2017-12-19 2018-04-27 成都嗨翻屋文化传播有限公司 一种基于特征的音乐版权识别方法
CN108510999A (zh) * 2018-02-09 2018-09-07 杭州默安科技有限公司 基于音频指纹的零权限终端设备识别方法
CN111400542A (zh) * 2020-03-20 2020-07-10 腾讯科技(深圳)有限公司 音频指纹的生成方法、装置、设备及存储介质
CN111400542B (zh) * 2020-03-20 2023-09-08 腾讯科技(深圳)有限公司 音频指纹的生成方法、装置、设备及存储介质
CN112468872A (zh) * 2020-10-14 2021-03-09 上海艾策通讯科技股份有限公司 Ip视频一致性检测方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN104008173B (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN104008173A (zh) 一种流式的实时音频指纹识别方法
US12088875B2 (en) Signature retrieval and matching for media monitoring
US11910046B2 (en) Methods and apparatus to verify and/or correct media lineup information
US9906835B2 (en) Systems and methods to verify and/or correct media lineup information
EP3424224B1 (en) Media channel identification with video multi-match detection and disambiguation based on audio fingerprint
CA2875289C (en) Methods and apparatus for identifying media
US20160066005A1 (en) Methods and apparatus to identify remote presentation of streaming media
CN107566889B (zh) 音频流流速误差处理方法、装置、计算机装置及计算机可读存储介质
TW200833116A (en) Extracting features of video and audio signal content to provide a reliable identification of the signals
US10785532B2 (en) Methods and apparatus to identify and credit media using ratios of media characteristics
US11736750B2 (en) Methods and apparatus to generate reference signatures from streaming media
CN107172487A (zh) 一种通过镜头回放特征提取精彩镜头的方法
US9508012B2 (en) Extraction method and device
US20190124384A1 (en) System and method for automatic adjustment of scheduled recording time
US10503980B2 (en) System and method for automatic categorization of audio/video content
Jai-Andaloussi et al. Soccer video summarization using video content analysis and social media streams
US10284889B1 (en) Determining an actual start of program content relative to a scheduled start of the program content
CN104093038B (zh) 用于实时流媒体识别服务的测试和监控方法及装置
US20180191850A1 (en) Methods and apparatus to facilitate meter to meter matching for media identification
US9548915B2 (en) Methods and apparatus to determine an end time of streaming media
US20240223293A1 (en) Methods and apparatus for optimizing station reference fingerprint loading using reference watermarks
CN103873891B (zh) 一种ts流媒体文件快速定位方法及系统
US20070292112A1 (en) Searching method of searching highlight in film of tennis game
CN104410873A (zh) 电视频道用户数的检测方法和装置
CN105554590B (zh) 一种基于音频指纹的直播流媒体识别系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20170704

Address after: 310000 A1105, room 1, North (368 North), six and one road, Binjiang District, Zhejiang, Hangzhou, China

Applicant after: Hangzhou wisdom screen Agel Ecommerce Ltd

Address before: 310000, room 619, science Plaza, East Software Park, No. 90, Xihu District, Zhejiang, Hangzhou, Wensanlu Road

Applicant before: Hangzhou Smart Screen Software Co., Ltd.

GR01 Patent grant
GR01 Patent grant