CN104008173A - 一种流式的实时音频指纹识别方法 - Google Patents
一种流式的实时音频指纹识别方法 Download PDFInfo
- Publication number
- CN104008173A CN104008173A CN201410244726.XA CN201410244726A CN104008173A CN 104008173 A CN104008173 A CN 104008173A CN 201410244726 A CN201410244726 A CN 201410244726A CN 104008173 A CN104008173 A CN 104008173A
- Authority
- CN
- China
- Prior art keywords
- audio
- frequency
- fingerprint
- eigenwert
- master slice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000008878 coupling Effects 0.000 claims description 13
- 238000010168 coupling process Methods 0.000 claims description 13
- 238000005859 coupling reaction Methods 0.000 claims description 13
- 238000010835 comparative analysis Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 10
- 238000005267 amalgamation Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种流式的实时音频指纹识别方法,采集母片、样片音频并进行对比分析,所述的采集母片音频为流式的采集母片音频并提取指纹特征值,生成实时更新的母片音频指纹库,所述的采集样片音频为流式的采集样片音频并提取指纹特征值,所述的对比分析为流式的音频指纹匹配方式。本发明可即时进行音频对比分析,能有效降低出现误差的可能性。
Description
技术领域
本发明涉及网络通信技术领域,尤其涉及一种流式的实时音频指纹识别方法。
背景技术
由于音频指纹识别涉及两段音频,我们定义其中一段音频是母片,另一段音频是样片,当这两段音频指纹的内容是需要实时更新的(典型的一个应用场景是:判断一个网络流是不是一个盗版的电视流),通常的实时音频匹配方法的流程如下:a).实时采集一段时间长度为T1母片音频,并提取音频指纹特征值;b).实时采集一段时间长度为T2样片音频,并提取音频指纹特征值;c).通过寻找母片音频指纹和样片音频指纹中相同的特征值,给两段音频的相似度打分,相同的特征值越多,则分数越高,如果分数比我们设定的阀值要高,就认为两段音频内容一样,否则不一样。
对于实时的音频指纹匹配这种特定的场景,上面的通常方法存在四个问题:(1)采集音频耗时长,由于现有的音频指纹匹配算法中,尽管指纹特征值提取算法更有不同,但要想获取准确的匹配结果,采集音频的时间(T1和T2)需要到达足够的长度,不同的声音的场景(谈话,音乐,电影,体育节目等等),环境的噪音大小等都会对T1和T2的时间长度有不同的要求,噪音越大,要求的时间长度越长,如果想对任意环境下都有一个较好的音频识别效果,就需要分别花一段足够长时间的采集母片音频和样片的音频;(2)指纹匹配耗时长,因为采集了比较长的音频,相应的就会提出更多的指纹特征值,所以在执行音频指纹匹配算法时消耗了更多的时间;(3)可能会有FN,即应该匹配的没匹配,由于网络流会有延时的问题,比如一般网络电视会比电视机的内容延时3到5秒,甚至更长,这种情况下同样采集了5秒的网络电视音频和电视机的音频,实际上网络电视音频内容是电视机5秒以前的内容,这样这两段音频比较时得到的结果就是不匹配,尽管他们是同样的内容;(4)可能会出现FP,即不应该匹配的匹配了,部分音频指纹匹配算法由于只是统计了相同的特征值的多少,没有考虑匹配的时间跨度,比如两段10秒的音乐片段,中间恰巧有1秒声音很像,那么最终在比较这两段音频提取出来的指纹特征值的时候,大家就会有比较多的相同的特征值,然后两段音频内容被错误的认为是一样。
发明内容
本发明是为了解决现有实时的音频指纹匹配耗时长,准确度不高的问题,提供一种即时进行的,降低误差的流式的实时音频指纹识别方法。
为了实现上述目的,本发明采用以下技术方案:一种流式的实时音频指纹识别方法,采集母片、样片音频并进行对比分析,所述的采集母片音频为流式的采集母片音频并提取指纹特征值,生成实时更新的母片音频指纹库,所述的采集样片音频为流式的采集样片音频并提取指纹特征值,所述的对比分析为流式的音频指纹匹配方式。由于音频的采集方式是流式的,无需等到采集了固定时间长度的音频之后才提取音频指纹特征值,对于一些噪音比较小,音频指纹特征值比较丰富的场景,能够更快的得到匹配结果,对与那些样片延迟导致的FN,只需要通过设置母片的指纹特征值的超时时间就可以解决,对比分析时采用匹配的时间区间与相同的特征值共同计算得分值,减少了出现FP的可能。
作为优选,所述的采集母片音频包括以下步骤:1)采集预定时间长度的母片音频;2)提取这一小段的音频里的指纹特征值,每个特征值都有一个附带的时间戳t;3)把这小段音频指纹的所有特征值加入到母片音频指纹库;4)记母片指纹特征值的超时时间为T,把超时的特征值删除;5)跳到第1步,所述的采集样片音频包括以下步骤:1)采集预定时间长度的样片音频;2)提取这一小段样片音频的音频指纹特征值,每个特征值都有一个附带的时间戳t;3)把这小段的音频指纹特征值提交到对比分析过程;4)跳到第1步,所述的对比分析包括以下步骤:1)获取预定时间长度的样片音频指纹;2)比较这一小段样片音频指纹里的特征值和母片音频指纹库里的特征值,得到匹配参数;3)把当前的匹配参数和之前的若干预定时间长度的匹配参数合并结果再次合并;4)根据合并后匹配参数计算最后的匹配分数,判断样片音频与母片音频是否一致。获得母片音频和样片音频特征值后,进行比较获得匹配参数,如果相同的特征值个数大于一个阀值就把这些匹配的参数记录下来,否则认为这一小段没有匹配结果,有匹配结果的则将当前段匹配结果与之前的若干段匹配结果合并,共同进行对比分析,减小误差,段数取得越多,结果更准确。
作为优选,所述的预定时间长度设置为128ms。时间片段的长度越小,需要耗费的采集时间越小,音频指纹的匹配时间也越短。
作为优选,所述的对比分析步骤2)中的匹配参数包括匹配时间区间、相同的特征值个数、样片音频匹配开始位置的偏移、母片音频匹配开始位置的偏移。有了这四个参数,已经可以准确判断母片音频与样片音频的差异,减少FN和FP。
因此,本发明具有如下有益效果:(1)可即时进行音频对比分析;(2)有效降低出现误差的可能性。
具体实施方式
一种流式的实时音频指纹识别方法,采集母片、样片音频并进行对比分析,采集母片音频为流式的采集母片音频并提取指纹特征值,生成实时更新的母片音频指纹库,具体步骤包括:1)采集128ms的母片音频;2)提取这一小段的音频里的指纹特征值,每个特征值都有一个附带的时间戳t;3)把这小段音频指纹的所有特征值加入到母片音频指纹库;4)记母片指纹特征值的超时时间为T,把超时的特征值删除;5)跳到第1步,采集样片音频为流式的采集样片音频并提取指纹特征值,具体步骤包括:1)采集128ms的样片音频;2)提取这一小段样片音频的音频指纹特征值,每个特征值都有一个附带的时间戳t;3)把这小段的音频指纹特征值提交到对比分析过程;4)跳到第1步,对比分析为流式的音频指纹匹配方式,具体步骤包括:1)获取128ms的样片音频指纹;2)比较这一小段样片音频指纹里的特征值和母片音频指纹库里的特征值,得到匹配参数,分别记录为匹配时间区间(hit_duration),相同的特征值个数(hit_count),样片匹配开始位置的偏移(sample_offset),母片匹配开始位置的偏移(master_offset);3)把当前的匹配参数和之前的四段时间长度的匹配参数合并结果再次合并;4)根据合并后匹配参数计算最后的匹配分数,判断样片音频与母片音频是否一致。
具体使用过程是,按步骤获取母片音频和样片音频,比如现在是第5段小音频,则把第5段小音频匹配参数和前面4段音频的合并结果再合并,两小段匹配结果是不是可以合并的规则如下:
记hit_count_a,hit_duration_a,sample_offset_a,master_offset_a为第a段的匹配参数
记hit_count_b,hit_duration_b sample_offset_b,master_offset_b为第b段的匹配参数
当|b-a|<k,并且|(sample_offset_b-sample_offset_b)-(master_offset_a-master_offset_b)|<Δt时,a和b可以合并。假设a在前,b在后。那么合并后匹配参数如下:sample_offset_ab=sample_offset_a.master_offset_ab=master_offset_a,hit_duration_ab=hit_duration_a+hit_duration_b,hit_count_ab=hit_count_a+hit_count_b。
根据合并后匹配参数计算最后的匹配分数:score=总的匹配的时间区间(hit_duration)*总的相同的特征值个数(hit_count),如果score大于一定的阀值,则认为两段音频内容一样,否则不一样。
Claims (4)
1.一种流式的实时音频指纹识别方法,采集母片、样片音频并进行对比分析,其特征在于,所述的采集母片音频为流式的采集母片音频并提取指纹特征值,生成实时更新的母片音频指纹库,所述的采集样片音频为流式的采集样片音频并提取指纹特征值,所述的对比分析为流式的音频指纹匹配方式。
2.根据权利要求1所述的一种流式的实时音频指纹识别方法,其特征是,所述的采集母片音频包括以下步骤:1)采集预定时间长度的母片音频;2)提取这一小段的音频里的指纹特征值,每个特征值都有一个附带的时间戳t;3)把这小段音频指纹的所有特征值加入到母片音频指纹库;4)记母片指纹特征值的超时时间为T,把超时的特征值删除;5)跳到第1步,所述的采集样片音频包括以下步骤:1)采集预定时间长度的样片音频;2)提取这一小段样片音频的音频指纹特征值,每个特征值都有一个附带的时间戳t;3)把这小段的音频指纹特征值提交到对比分析过程;4)跳到第1步,所述的对比分析包括以下步骤:1)获取预定时间长度的样片音频指纹;2)比较这一小段样片音频指纹里的特征值和母片音频指纹库里的特征值,得到匹配参数;3)把当前的匹配参数和之前的若干预定时间长度的匹配参数合并结果再次合并;4)根据合并后匹配参数计算最后的匹配分数,判断样片音频与母片音频是否一致。
3.根据权利要求2所述的一种流式的实时音频指纹识别方法,其特征是,所述的预定时间长度设置为128ms。
4.根据权利要求2所述的一种流式的实时音频指纹识别方法,其特征是,所述的对比分析步骤2)中的匹配参数包括匹配时间区间、相同的特征值个数、样片音频匹配开始位置的偏移、母片音频匹配开始位置的偏移。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410244726.XA CN104008173B (zh) | 2014-05-30 | 2014-05-30 | 一种流式的实时音频指纹识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410244726.XA CN104008173B (zh) | 2014-05-30 | 2014-05-30 | 一种流式的实时音频指纹识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104008173A true CN104008173A (zh) | 2014-08-27 |
CN104008173B CN104008173B (zh) | 2017-08-11 |
Family
ID=51368830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410244726.XA Active CN104008173B (zh) | 2014-05-30 | 2014-05-30 | 一种流式的实时音频指纹识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104008173B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550257A (zh) * | 2015-12-10 | 2016-05-04 | 杭州当虹科技有限公司 | 一种音视频指纹识别方法及一种基于音视频指纹流媒体的防篡改系统 |
CN107967922A (zh) * | 2017-12-19 | 2018-04-27 | 成都嗨翻屋文化传播有限公司 | 一种基于特征的音乐版权识别方法 |
CN108510999A (zh) * | 2018-02-09 | 2018-09-07 | 杭州默安科技有限公司 | 基于音频指纹的零权限终端设备识别方法 |
CN111400542A (zh) * | 2020-03-20 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 音频指纹的生成方法、装置、设备及存储介质 |
CN112468872A (zh) * | 2020-10-14 | 2021-03-09 | 上海艾策通讯科技股份有限公司 | Ip视频一致性检测方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020133499A1 (en) * | 2001-03-13 | 2002-09-19 | Sean Ward | System and method for acoustic fingerprinting |
CN1754218A (zh) * | 2003-02-26 | 2006-03-29 | 皇家飞利浦电子股份有限公司 | 音频指纹识别中数字静音的处理 |
CN102314875A (zh) * | 2011-08-01 | 2012-01-11 | 北京百度网讯科技有限公司 | 一种音频文件的识别方法和装置 |
-
2014
- 2014-05-30 CN CN201410244726.XA patent/CN104008173B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020133499A1 (en) * | 2001-03-13 | 2002-09-19 | Sean Ward | System and method for acoustic fingerprinting |
CN1754218A (zh) * | 2003-02-26 | 2006-03-29 | 皇家飞利浦电子股份有限公司 | 音频指纹识别中数字静音的处理 |
CN102314875A (zh) * | 2011-08-01 | 2012-01-11 | 北京百度网讯科技有限公司 | 一种音频文件的识别方法和装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550257A (zh) * | 2015-12-10 | 2016-05-04 | 杭州当虹科技有限公司 | 一种音视频指纹识别方法及一种基于音视频指纹流媒体的防篡改系统 |
CN107967922A (zh) * | 2017-12-19 | 2018-04-27 | 成都嗨翻屋文化传播有限公司 | 一种基于特征的音乐版权识别方法 |
CN108510999A (zh) * | 2018-02-09 | 2018-09-07 | 杭州默安科技有限公司 | 基于音频指纹的零权限终端设备识别方法 |
CN111400542A (zh) * | 2020-03-20 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 音频指纹的生成方法、装置、设备及存储介质 |
CN111400542B (zh) * | 2020-03-20 | 2023-09-08 | 腾讯科技(深圳)有限公司 | 音频指纹的生成方法、装置、设备及存储介质 |
CN112468872A (zh) * | 2020-10-14 | 2021-03-09 | 上海艾策通讯科技股份有限公司 | Ip视频一致性检测方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104008173B (zh) | 2017-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104008173A (zh) | 一种流式的实时音频指纹识别方法 | |
US12088875B2 (en) | Signature retrieval and matching for media monitoring | |
US11910046B2 (en) | Methods and apparatus to verify and/or correct media lineup information | |
US9906835B2 (en) | Systems and methods to verify and/or correct media lineup information | |
EP3424224B1 (en) | Media channel identification with video multi-match detection and disambiguation based on audio fingerprint | |
CA2875289C (en) | Methods and apparatus for identifying media | |
US20160066005A1 (en) | Methods and apparatus to identify remote presentation of streaming media | |
CN107566889B (zh) | 音频流流速误差处理方法、装置、计算机装置及计算机可读存储介质 | |
TW200833116A (en) | Extracting features of video and audio signal content to provide a reliable identification of the signals | |
US10785532B2 (en) | Methods and apparatus to identify and credit media using ratios of media characteristics | |
US11736750B2 (en) | Methods and apparatus to generate reference signatures from streaming media | |
CN107172487A (zh) | 一种通过镜头回放特征提取精彩镜头的方法 | |
US9508012B2 (en) | Extraction method and device | |
US20190124384A1 (en) | System and method for automatic adjustment of scheduled recording time | |
US10503980B2 (en) | System and method for automatic categorization of audio/video content | |
Jai-Andaloussi et al. | Soccer video summarization using video content analysis and social media streams | |
US10284889B1 (en) | Determining an actual start of program content relative to a scheduled start of the program content | |
CN104093038B (zh) | 用于实时流媒体识别服务的测试和监控方法及装置 | |
US20180191850A1 (en) | Methods and apparatus to facilitate meter to meter matching for media identification | |
US9548915B2 (en) | Methods and apparatus to determine an end time of streaming media | |
US20240223293A1 (en) | Methods and apparatus for optimizing station reference fingerprint loading using reference watermarks | |
CN103873891B (zh) | 一种ts流媒体文件快速定位方法及系统 | |
US20070292112A1 (en) | Searching method of searching highlight in film of tennis game | |
CN104410873A (zh) | 电视频道用户数的检测方法和装置 | |
CN105554590B (zh) | 一种基于音频指纹的直播流媒体识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20170704 Address after: 310000 A1105, room 1, North (368 North), six and one road, Binjiang District, Zhejiang, Hangzhou, China Applicant after: Hangzhou wisdom screen Agel Ecommerce Ltd Address before: 310000, room 619, science Plaza, East Software Park, No. 90, Xihu District, Zhejiang, Hangzhou, Wensanlu Road Applicant before: Hangzhou Smart Screen Software Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |