KR100659672B1 - 핑거프린트를 생성하는 방법과 장치 및 오디오 신호를 식별하는 방법과 장치 - Google Patents

핑거프린트를 생성하는 방법과 장치 및 오디오 신호를 식별하는 방법과 장치 Download PDF

Info

Publication number
KR100659672B1
KR100659672B1 KR1020037017271A KR20037017271A KR100659672B1 KR 100659672 B1 KR100659672 B1 KR 100659672B1 KR 1020037017271 A KR1020037017271 A KR 1020037017271A KR 20037017271 A KR20037017271 A KR 20037017271A KR 100659672 B1 KR100659672 B1 KR 100659672B1
Authority
KR
South Korea
Prior art keywords
fingerprint
modes
audio signal
predetermined
information
Prior art date
Application number
KR1020037017271A
Other languages
English (en)
Other versions
KR20040040409A (ko
Inventor
위르겐 헤에르에
에리크 알라만히
올리베르 헬무트
토르스텐 카스트네르
마르쿠스 크레메르
Original Assignee
엠2애니 게엠베하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엠2애니 게엠베하 filed Critical 엠2애니 게엠베하
Publication of KR20040040409A publication Critical patent/KR20040040409A/ko
Application granted granted Critical
Publication of KR100659672B1 publication Critical patent/KR100659672B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction

Abstract

복수의 미리 정해진 핑거프린트 모더스를 정의하는 정보를 사용하여 오디오 신호의 핑거프린트를 생성하는데 있어, 상기 모든 핑거프린트 모더스는 동일유형의 핑거프린트에 관한 것이고, 그러나, 한편으로는 상이한 핑거프린트들의 데이터 볼륨, 다른 한편으로는 상기 오디오 신호를 특성판정하는 핑거프린트들의 특성판정 강도를 달리하는 서로 상이한 핑거프린트를 제공하고, 제1 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트가, 상기 오디오 신호를 이용하지 않고, 제2 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트로 변환될 수 있다. 복수의 미리 정해진 핑거프린트 모더스들의 미리 정해진 핑거프린트 모더스가 세팅된 다음 오디오 신호를 사용하는 핑거프린트를 컴퓨터계산하기 위해 사용된다. 상이한 핑거프린트 모더스들에 의해 생성된 핑거프린트들의 변환가능성은 핑거프린트 모더스를 각각 변화시켜서 핑거프린트 데이터 베이스를 재생해야 함이 없이 일정 적용예의 데이터 볼륨과 특성판정 강도사이의 유연성있는 타협을 세팅하는 것을 가능하게 한다. 시간 또는 주파수로 스케일되는 핑거프린트 표시는 쉽게 상이한 핑거프린트 모더스로 변환될 수 있다.

Description

핑거프린트를 생성하는 방법과 장치 및 오디오 신호를 식별하는 방법과 장치{Method and apparatus for producing a fingerprint, and method and apparatus for identifying an audio signal}
본 발명은 오디오 신호를 그 컨텐츠와 관련하여 특성판정 또는 식별(characterizing or identifying)하는데 관한 것으로서, 보다 상세하게는 오디오 신호에 대한 상이한 핑거프린트를 생성하고 사용하는데 관한 것이다.
예를 들어 오디오 데이터와 같은 멀티미디어 데이터 자료(material)의 입수 가능성(availability)이 높아져 왔다. 이러한 발전은 수많은 기술적 요인에 기인한다. 이들 기술적 요소는, 정보원의 부호화와 같은 오디오 데이터의 고성능 데이터 압축방법이 널리 사용되고 있는 것 외에도 인터넷의 광범위한 접근 가능성을 포함한다. 이러한 예로서는 MP3라고도 불리우는 MPEG 1/2 레이어 3을 들어야 할 것이다.
예를 들어 인터넷상으로 범세계적인 규모로 접근가능한 방대한 양의 시청각 데이터는, 이들 데이터를 컨텐츠관련 표준에 의해 평가되고, 분류되거나 관리되도록(evaluated, categorized or managed) 해주는 개념(concept)을 요구한다. 구체적으로는 유용한 표준을 제시(state)함으로써 멀티미디어 데이터를 찾아낼 필요가 있다.
이로 인해, 관심있는 오디오 신호의 중요한 특성적 컨텐츠를 나타내는 소위 "특징(features)"을 시청각 데이터로부터 추출하는(extract) 소위 "컨텐츠 베이스(contents-based)" 기술의 사용이 필요하게 된다. 그러한 특징 또는 특징들의 결합에 기초하여, 오디오 신호들 사이의 유사성 관계 또는 공통 특성을 도출할 수 있다. 이 과정은, 본 명세서에서 "물 또는 작품(pieces)"이라고 부르게 될 상이한 신호들로부터 추출된 특징값(feature values)을 비교하거나, 상관시킴(relate)으로써 수행되는 것이 일반적이다.
미국 특허 제5,918,223호는 오디오 정보의 컨텐츠 베이스 분석, 저장, 검색(retrieval) 및 세그멘테이션(segmentation)에 대한 방법을 기술하고 있다. 오디오 데이터를 분석함으로써, 특징 벡터(feature vector)라고도 불리우고, 멀티미디어 데이터 베이스나 인터넷에 전형적으로 저장되는 개별 오디오 작품들사이의 유사성을 분류하고 등급매기는데 사용되는, 한 세트의 숫자값을 생성시킨다.
또한, 그러한 분석은, 모두 사용자 정의 등급(user-defined class)의 멤버인 한 세트의 오디오 작품의 분석에 기초하여 오디오 작품의 사용자 정의 등급의 설명을 가능하게 한다. 그러한 시스템은, 비교적 긴 음향물(sound piece)내의 개별 음향섹션을 찾아낼 수 있고, 그에 따라, 오디오 녹음이 일련의 더 짧은 오디오 세그멘트(segments)로 자동적으로 분절되게 한다.
오디오 작품을 그 컨텐츠에 관하여 특징판정하거나 분류하는데 사용되는 특징은 주기적 간격을 둔 소리의 세기, 피치, 선명도(brightness), 대역폭 및 소위 멜주파수 셉스트라 계수(Mel-frequency Cepstra coefficients; MFCCs)를 포함한다. 블록당 또는 프레임당 값(per-block or per-frame values)이 저장되고 1차 도출의 대상이 된다(subject to a first derivation). 이러한 결과로, 이들 특징들의 각각의 특정 통계적인 양, 예를 들어 평균값 또는 표준편향이 그 1차 미분(derivatives)과 함께 시간 경과에 따른 변화(variation)를 설명하기 위해 계산된다. 이러한 통계적인 양의 세트가 특성 벡터를 형성한다. 오디오 작품의 특성 벡터는 오리지널 파일과 연관된 데이터 베이스에 저장되어 사용자가 적절한 오디오 작품을 불러내기 위해 그 데이터 베이스에 접근(access)할 수 있다.
그러한 데이터 베이스 시스템은 2개의 n-차원(n-dimensional) 벡터 사이의 n-차원 공간내의 거리를 계량(quantify)할 수 있다. 나아가, 한 등급에 속하는 한 세트의 오디오 작품을 특정(specify)함으로써 오디오 작품들의 등급을 매길(to produce classes of audio pieces) 수 있다. 등급의 예를 들면 새소리, 록음악 등이다. 사용자가 특정 방법을 사용하여 오디오 작품 데이터 베이스를 탐색할 수 있다. 탐색 결과, 세분화된 n-차원 벡터로부터의 거리에 따라 순서가 정해져서 나열된 사운드 파일 리스트를 얻는다. 사용자는 유사성 특징, 음향 및/또는 싸이코 어코스틱 특징(psycho-acoustic features), 주관적 특징 또는 벌의 윙윙거리는 소리와 같은 특정 소음과 관련지어 데이터 베이스를 탐색할 수 있다.
IEEE 신호처리잡지(Multimedia Signal Processing Magazine)의 2000년 11월호 12∼36 페이지에 전문가용으로 게재된 "멀티미디어 컨텐츠 분석"은 멀티미디어 물(pieces)을 특징지우는 유사한 개념을 기술하고 있다. 이 기고문에서 멀티미디어 물을 분류화하기 위한 특성으로서 시간 도메인(time doamin) 또는 주파수 도메인 특성을 포함할 것이 제안되어 있다. 이들은 소리의 세기, 오디오 신호 형태의 기본 주파수로서의 피치, 전체 에너지 컨텐츠와 관련한 테이프의 에너지 컨텐츠와 같은 스펙트럼 특성, 스펙트럼 곡선내의 컷오프 주파수 등을 포함한다. 오디오 신호 샘플에 대하여 블록별로 언급된 음량(quantities)에 관한 단기(short-term) 특징에 더하여, 오디오 물(pieces)의 더욱 긴 시간에 관한 장기 음량도 또한 포함하도록 제안되어 있다.
동물의 소리, 벨 울리는 소리, 군중의 소리, 웃음, 기계소음, 악기, 남자 음성, 여자 음성, 전화음, 물 흐르는 소리와 같이, 오디오 물을 특징지우는 여러 가지 카테고리가 제안되었다.
하나의 특징을 추출하기 위해 필요한 컴퓨터 계산 비용(computing expenditure)이 빠른 특성판정(characterization)을 성취하기 위해 적당해야 되기 때문에, 그리고, 또한, 2개의 서로 다른 오디오 물이 상이한 특징을 가지도록 그 특징이 오디오 물에 따라 특유해야 한다는 점에서 특징의 선택이 문제가 된다.
오디오 신호를 특성판정하기 위해, 오디오 신호의 특성판정 또는 핑거프린트라고도 불리우는 소위 특징이 추출되는데, 이는 이미 설명한 바 있다. 특징의 유형(type)에는 2개의 서로 다른 요건(requirements)이 있다. 핑거프린트의 하나의 요건은 그것이 가능한 한 독특하게(uniquely) 오디오 신호를 알려야(signal) 한다는 것이다. 핑거프린트의 다른 요건은 핑거프린트가 가능한 한 매우 적은 정보를 포함해야 한다는 것, 즉, 핑거프린트가 가능한 한 적은 메모리 스페이스를 가져야 한다는 것이다. 이들 두 요건은 서로 상충된다. 이것을 인지하는 가장 간단한 방법은, 오디오 신호의 최상의 "핑거프린트"는 오디오 신호 그 자체라는 사실, 즉 오디오 신호가 나타낸 샘플의 시퀀스라는 것이다. 그러나, 그러한 오디오 신호의 핑거프린트는 지나치게 많은 메모리를 차지할 것이며 그에 따라 음악 인지(music recognition) 데이터 베이스에 다대한 수의 오디오 신호를 위한 다대한 수의 핑거프린트를 저장하는 것을 불가능하게 할 것이므로, 그러한 핑거프린트는 위의 두 번째 요건을 크게 벗어나게 할 것이며 이것이 하나의 문제이다. 다른 단점은, 하나의 탐색 핑거프린트를 다수의 데이터베이스 저장 핑거프린트와 비교해야 하는 정합 알고리즘(matching algorithms)을 필요로 하는 컴퓨터계산시간의 양이 탐색 핑거프린트 및/또는 데이터 베이스 핑거프린트의 크기(size)에 비례한다는 것이다.
다른 극단적인 것(The other extreme)은, 예를 들어, 하나의 오디오물의 모든 샘플의 평균값을 취하기만 하는 것이다. 이 평균값은 매우 적은 메모리 스페이스만을 필요로 하고, 그에 따라 대형 음악 데이터베이스와 정합 알고리즘 모두에 가장 적합하다. 그러나, 그러한 핑거프린트의 특성판정 강도(characterizing strength)는 사람과 관계가 없는 변화에 대해서는 그리 견고하지(robust) 못할 것이다.
한편으로는 특성판정 강도사이의 이상적인 타협 그리고 다른 한편으로는 핑거프린트의 데이터 볼륨을 일반적으로 그처럼 존재하지 않으나, 사용가능한 메모리 스페이스나 송신 용량(transmission capacity)이라는 관점에서 보면 각각의 적용예(application)에 있어서의 환경에 좌우되거나 경험적으로 설정되는 것이 일 반적이다. 이 방법(procedure)은, 상이한 유형의 핑거프린트들이 오직 하나의 특정 적용예(application)에만 이상적으로 적합하고, 다른 적용예들에는 다소 부적합하다는 결점을 가지고 있다. 이와 관련하여, 데이터베이스의 하나 또는 몇 개의 오디오 신호와 비교된 하나의 오디오 신호의 유사성이 측정(measure)되어 나오도록, 하나의 오디오 신호를 직접 식별(identify)하거나 특성판정하기 위해 그 핑거프린트들이 하나의 탐색 핑거프린트들에 비교될 수 있는 대규모 특징 데이터 베이스들이 있는 경우에만 오디오 신호 식별 및/또는 특성판정이 특별한 관심의 대상이 된다는 것이 지적되어야 하겠다. 만일 특정 유형의 핑거프린트가 하나의 적용예에는 매우 바람직하나 다른 적용예에는 더 이상 유용하지 않은 것으로 밝혀지면, 한편으로는 특성판정 강도 다른 한편으로는 메모리 스페이스 사이의 이상적인 타협을 이루기 위해 현재의 적용예에 대한 이상적인 타협이 될 새로운 특징 데이터베이스를 이루기 위해, 그 핑거프린트들이 그 데이터베이스내에 저장되는 다량의 오디오 신호를 위해 새로운 특징 추출 처리(renewed feature extraction processing)를 수행해야 한다. 그 결과, 한편으로는, 원래의 오디오물들은 새로운 특징 추출에 전혀 사용할 수 없고(예를 들어, 500,000개의 오디오물이 하나의 오디오 데이터베이스에 사용된다), 다른 한편으로는 설령 가능하다고 하더라고, "새로운" 데이터베이스를 채우고 및/또는 싣기("train") 위한 특징 추출 처리에 많은 비용이 들게 된다.
원리적으로는 거의 무제한의 저장 능력이 있는 인터넷이 있기는 하지만, 유용한 오디오 신호 식별 및/또는 특성판정을 수행할 수 있도록 해주는 충분한 핑거프린트 데이터 베이스 자료가 항상 있어서 수많은 서로 다른 "핑거프린트 창작자(producers)"들로 하여금 언제라도 어느 핑거프린트가 어느 적용예에 가장 적합한 것인지 알려주는 것은 불가능하기 때문에 특히 위와 같은 문제가 더욱 악화된다.
또 하나의 문제는 핑거프린트들이 또한 매우 다양한 송신 채널들을 통해 전송되어야 한다는 것이다. 매우 낮은 송신용량을 가지는 송신 채널의 하나는 예를 들어 이동전화의 옥외송신채널이다. 데이터베이스에 대한 특성판정 강도와 저장용량에 더하여, 송신채널의 대역폭도 또한 결정적 요인이다. 높은 특성판정 강도를 가지기는 하나 좁은 대역폭도 또한 결정적 요인이다. 높은 특성판정 강도를 가지기는 하나 좁은 대역(narrow-band)의 송신 채널을 통해 송신되기 어렵거나 전혀 송신될 수 없는 핑거프린트를 만들어내는 것은 아무런 의미가 없다. 그러므로, 그러한 적용예에 이상적인 핑거프린트는, 예를 들어 탐색 데이터베이스의 핑거프린트가 송신되어야 할 송신 채널에 의하여 추가적으로 특정된다(specified).
상이한 요건에 적합한(adaptable) 유연성 있는 핑거프린트 개념을 제공하는 것이 본 발명의 목적이다.
본 발명의 일 측면에 의하면, 본 발명은, 복수의 미리 정해진 핑거프린트 모더스를 정의하는 정보를 사용하여 오디오 신호의 핑거프린트를 생성하는 방법으로서, 상기 모든 핑거프린트 모더스가 동일유형의 핑거프린트에 관한 것이고, 그러나, 한편으로는 상이한 핑거프린트들의 데이터 볼륨, 다른 한편으로는 상기 오디오 신호를 특성판정하는 핑거프린트들의 특성판정 강도를 달리하는 서로 상이한 핑거프린트를 제공하고, 제1 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트가, 상기 오디오 신호를 이용하지 않고, 제2 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트로 변환될 수 있도록 미리 정해지는 것에 있어서; 복수의 미리 정해진 핑거프린트 모더스들의 하나의 미리 정해진 핑거프린트 모더스를 세팅하는 단계와; 상기 세팅된 미리 정해진 핑거프린트 모더스에 의해 핑거프린트를 컴퓨터계산하는 단계를 포함하여 구성되는, 오디오 신호의 핑거프린트 생성방법을 제공한다.
두 번째 측면에 의하면, 본 발명은, 복수의 미리 정해진 핑거프린트 모더스를 정의하는 정보를 사용하여 오디오 신호의 핑거프린트를 생성함에 있어, 상기 모든 핑거프린트 모더스가 동일유형의 핑거프린트에 관한 것이고, 그러나, 한편으로는 상이한 핑거프린트들의 데이터 볼륨, 다른 한편으로는 상기 오디오 신호를 특성판정하는 핑거프린트들의 특성판정 강도를 달리하는 서로 상이한 핑거프린트를 제공하고, 제1 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트가, 상기 오디오 신호를 이용하지 않고, 제2 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트로 변환될 수 있도록 미리 정해지는 것에 있어서, 복수의 미리 정해진 핑거프린트 모더스들의 하나의 미리 정해진 핑거프린트 모더스를 세팅하는 단계와, 상기 세팅된 미리 정해진 핑거프린트 모더스에 의해 핑거프린트를 컴퓨터계산하는 단계를 포함하여 구성되며; 상기 탐색 핑거프린트와 데이터 베이스 핑거프린트가 상이한 핑거프린트 모더스들에 의해 생성되었는지의 여부를 검사하는 단계와; 비교될 핑거프린트들이 동일한 핑거프린트 모더스에 의해 존재하도록 상기 탐색 핑거프린트 및/또는 데이터 베이스 핑거프린트를 변환시키는 단계와; 그리고 동일한 핑거프린트 모더스에 존재하는 핑거프린트를 사용하여 비교를 수행하는 단계를 포함하여 구성되는, 알려진 오디오 신호를 특성판정하기 위해, 컴퓨터계산된 핑거프린트를 상기 오디오 신호를 나타내고 복수의 핑거프린트 모더스들중의 하나에 의해 생성된 복수의 저장된 핑거프린트들과 비교하는 단계를 포함하여 구성되는, 오디오 신호의 특성판정 방법을 제공한다.
세 번째 측면에 의하면, 본 발명은, 복수의 미리 정해진 핑거프린트 모더스들 중의 하나에 의해 배열되는 핑거프린트를 갖는 하나의 오디오 신호의 핑거프린트 표시로서, 상기 모든 핑거프린트 모더스가 동일유형의 핑거프린트에 관한 것이고, 그러나, 한편으로는 상이한 핑거프린트들의 데이터 볼륨, 다른 한편으로는 상기 오디오 신호를 특성판정하는 핑거프린트들의 특성판정 강도를 달리하는 서로 상이한 핑거프린트를 제공하고; 제1 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트가, 상기 오디오 신호를 이용하지 않고, 제2 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트로 변환될 수 있도록 미리 정해지는, 핑거프린트 표시를 제공한다.
네 번째 측면에 의하면, 본 발명은, 복수의 미리 정해진 핑거프린트 모더스를 정의하는 정보를 사용하여 오디오 신호의 핑거프린트를 생성하는 장치에 있어, 상기 모든 핑거프린트 모더스가 동일유형의 핑거프린트에 관한 것이고, 그러나, 한편으로는 상이한 핑거프린트들의 데이터 볼륨, 다른 한편으로는 상기 오디오 신호를 특성판정하는 핑거프린트들의 특성판정 강도를 달리하는 서로 상이한 핑거프린트를 제공하고, 제1 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트가, 상기 오디오 신호를 이용하지 않고, 제2 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트로 변환될 수 있도록 미리 정해지는 것에 있어서; 복수의 미리 정해진 핑거프린트 모더스들의 하나의 미리 정해진 핑거프린트 모더스를 세팅하는 수단과, 상기 세팅된 미리 정해진 핑거프린트 모더스에 의해 핑거프린트를 컴퓨터계산하는 수단을 포함하여 구성되는, 오디오 신호의 핑거프린트 생성 장치를 제공한다.
다섯 번째 측면에 의하면, 본 발명은, 복수의 미리 정해진 핑거프린트 모더스를 정의하는 정보를 사용하여 오디오 신호의 핑거프린트를 생성하는 수단에 있어, 상기 모든 핑거프린트 모더스가 동일유형의 핑거프린트에 관한 것이고, 그러나, 한편으로는 상이한 핑거프린트들의 데이터 볼륨, 다른 한편으로는 상기 오디오 신호를 특성판정하는 핑거프린트들의 특성판정 강도를 달리하는 서로 상이한 핑거프린트를 제공하고, 제1 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트가, 상기 오디오 신호를 이용하지 않고, 제2 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트로 변환될 수 있도록 미리 정해지는 것에 있어서; 복수의 미리 정해진 핑거프린트 모더스들의 하나의 미리 정해진 핑거프린트 모더스를 세팅하는 수단과, 상기 세팅된 미리 정해진 핑거프린트 모더스에 의해 핑거프린트를 컴퓨터계산하는 수단을 포함하여 구성되며; 상기 탐색 핑거프린트와 데이터 베이스 핑거프린트가 상이한 핑거프린트 모더스들에 의해 생성되었는지의 여부를 검사하는 수단과; 비교될 핑거프린트들이 동일한 핑거프린트 모더스에 의해 존재하도록 상기 탐색 핑거프린트 및/또는 데이터 베이스 핑거프린트를 변환시키는 수단과; 그리고 동일한 핑거프린트 모더스에 존재하는 핑거프린트를 사용하여 비교를 수행하는 수단을 포함하여 구성되는, 알려진 오디오 신호를 특성판정하기 위해, 컴퓨터계산된 핑거프린트를 상기 오디오 신호를 나타내고 복수의 핑거프린트 모더스들중의 하나에 의해 생성된 복수의 저장된 핑거프린트들과 비교하는 수단을 포함하여 구성되는, 오디오 신호의 특성판정 장치를 제공한다.
본 발명은 핑거프린트가 미리 정해진 복수의 핑거프린트 모더스들(modi) 중 하나에 따라 만들어(create)졌다는 사실에 의해 가능한 한 보편적인(universal) 핑 거프린트 개념이 얻어질 수 있다는 발견에 기초한 것으로서, 동일유형의 핑거프린트에 관한 모든 핑거프린트 모더스는, 그러나, 한편으로는 핑거프린트들의 데이터 볼륨, 다른 한편으로는 하나의 오디오 신호를 특징지우는 핑거프린트들의 특성판정 강도를 달리하는 상이한 핑거프린트를 제공한다. 본 발명에 의해, 제1 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트가 오디오 신호 자체를 이용하지 않고 제2 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트로 변환될 수 있도록, 핑거프린트 모더스들은 미리 정해진다(predetermined). 이러한 "스케일가능(scalable)" 핑거프린트는 예를 들어, 높은 특성판정 강도를 가지며 다량의 데이터를 포함하는 핑거프린트들을 가지는, 그러한 데이터베이스를 제공할 수 있게 한다. 미리 정해진 핑거프린트 모더스들 중 하나에 의해 만들어진 값비싼(expensive) 데이터베이스 핑거프린트는, 오디오 신호 자체로부터 특징 추출(a feature extraction)을 하도록 하지 아니한 상황에서, 더 낮은 특성판정 강도를 가지는 "값싼(lower)" 핑거프린트로 쉽게 변환될 수 있다.
바람직하게는, 실제로 비교가능한 2개의 핑거프린트가 서로 비교되도록 변환되는 더욱 높은 특성판정 강도를 가지는, 탐색 핑거프린트, 그리고 데이터 핑거프린트인 그러한 핑거프린트가 항상 바람직하다. 만약, 많은 상이한 핑거프린트 모더스에 의한 스케일링(scaling)이 본 발명에 의해 제공된다면, 그 데이터 베이스는, 많은 상이한 핑거프린트, 즉 상이한 핑거프린트 모더스에 따라 생성된 많은 상이한 핑거프린트의 처리에 적합하다.
동일한 핑거프린트 데이터 베이스를 사용하여, 매우 낮은 특성판정 강도를 가지는 핑거프린트 그리고 또한 매우 높은 특성판정 강도를 가지는 핑거프린트도 생성될 수 있음에 따라, 승인된 미리 정해진 핑거프린트 모더스에 좌우되어 하나의 적절한 핑거프린트 모더스가 각 적용예 별로(for each application) 찾아질 수 있고, 그 반면에 하나의 동일한 핑거프린트 데이터 베이스가 사용될 수 있다는 것이 장점이다.
오디오 데이터 베이스용 핑거프린트 제작자들이 바뀌는 적용예에 대해(for changing applications) 다른 핑거프린트를 끊임없이 만들어야 하는 일을 안해도 되게 하고, 그 반대로 하나의 스케일가능(scalable) 핑거프린트가 한번 만들어지면 그것이 가지는 스케일 가능성 특징(scalability feature)으로 인해 복수의 적용예에 사용될 수 있다는 것이 본 발명의 개념의 다른 장점이다. 한편, 그러한 탐색 데이터 베이스의 사용자들에게는, 만일 필요하다면, 매우 낮은 특성판정 강도를 가지기는 하나 매우 빨리 송신될 수 있는 핑거프린트와 핑거프린트의 특성판정 강도가 그 데이터 볼륨보다 더 중요한 다른 적용예에 대해 매우 높은 특성판정 강도를 가지는 하나의 핑거프린트를 만들어낼 수 있다는 점에서, 충분한 유연성이 주어진다. 따라서 사용자는 상기와 같은 두가지 용도를 위해 하나의 동일한 데이터 베이스를 사용할 수 있으며, 그에 따라 상황기초(context-based) 오디오 신호 설명(description)이 상당히 간단하게 되고 더욱 친사용자적으로 된다. 시장에서 광범위한 상업적 성공을 거두기 위해 결정적인 것은 무엇보다도 사용자 친화성과 취급용이성이다.
주파수에 대한 스케일가능성 및/또는 시간에 대한 스케일 가능성이 사용되는 것이 바람직하다. 본 발명의 바람직한 실시예에 의해, 핑거프린트의 모더스들이 각각 오디오 신호의 하나하나의 서브밴드에 대하여 별개의 핑거프린트 정보를 가지며, 그리고 핑거프린트 모더스들이 상이한 수의 서브 밴드에 대하여 별개의 핑거프린트 정보를 포함함으로써 핑거프린트 모더스들이 서로 다르다는 점에서 주파수에 관한 스케일 가능성이 성취된다. 이러한 서브밴드의 특정(specifying)은 모든 핑거프린트 모더스에 대하여 동일하다. 매우 높은 특성판정 강도를 가지는 핑거프린트들을 가지는 데이터 베이스가 만일 만들어지면, 즉 만일 그 안에 데이터 베이스용 핑거프린트들이 만들어진 핑거프린트 모더스가, 예를 들어 20 서브밴드의 오디오 신호용의 별개의 핑거프린트 정보를 포함하면, 보다 낮은 특성판정 강도를 갖는 다른 핑거프린트 모더스는 핑거프린트들이 예를 들어 오직 15, 10, 5 또는 단지 하나의 서브밴드용 별개의 핑거프린트 정보를 가지도록 한다. 상이한 핑거프린트 모더스에 따라 만들어진 모든 핑거프린트들은 용이한 하향호환성(readily downward compatible) 인데, 그것은 데이터 베이스와의 정합 연산에서(in a matching operation with the database) 오직 그 핑거프린트 정보만이 탐색 핑거프린트에 역시 포함된 서브밴드용 데이터 베이스 핑거프린트로부터 꺼내지기 때문이다. 극단적인 경우, 만일 탐색 핑거프린트가 또한 하나의 단일 서브밴드에 대한 핑거프린트 정보만을 포함하는 경우, 하나의 핑거프린트의 20 항목의 서로 다른 핑거프린트 정보의 정합 연산에 사용되는 것은 단일 서브밴드의 핑거프린트 정보뿐일 것이다.
다른 바람직한 대안은 경시 스케일 가능성(scalability over time)이다. 비 교적 낮은 특성판정 강도를 가지는 핑거프린트는 예를 들어 오디오 신호의 10 블록의 샘플의 핑거프린트 정보를 포함하며, 그 반면 높은 특성판정 강도를 가지는 핑거프린트는 오디오 신호의 샘플의 블록별로 핑거프린트 정보를 포함한다. 두 핑거프린트에 대해 동일한 블록 길이를 가짐으로써, 시간적으로 연속되고(successive in time) 높은 특성판정 강도를 가지는, 상응하게 많은 수의 핑거프린트 정보 항목(a correspondingly large number of items of fingerprint information)이, 이들로부터 낮은 특성판정 강도를 갖는 동일한 수의 샘플들을 특징지우는 하나의 변환된 핑거프린트를 만들어내는 하향 변환(downward conversion)을 위해 결합된다. 여기서, 매우 높은 특성판정 강도를 가지는 하나의 핑거프린트 모더스가 예를 들어 블록당 하나의 핑거프린트를 만들어내는 반면, 매우 낮은 특성판정 강도를 갖는 핑거프린트 모더스가 많은 블록의 샘플들을 단일 핑거프린트로 처리하는 점에서, 핑거프린트 모더스들은 서로 다르다. 블록 크기가 미리 정해져 있어서, 예를 들어 데이터 베이스 비교를 하기 위해, 오디오 신호 자체를 새로운 특징 추출에 붙여야 할 필요없이, 낮은 특성판정 강도를 가지는 핑거프린트가 높은 특성판정 강도를 가지는 상응한 수의 핑거프린트 모더스로부터 만들어질 수 있다.
본 발명의 바람직한 실시예를 첨부도면을 참조하여 아래에서 상세히 설명하기로 한다.
첨부도면중,
도 1은 핑거프린트를 만드는 블록도를 나타내고;
도 2는 오디오 신호를 특성판정하기 위한 본 발명의 장치의 블록도를 나타내며;
도 3a는 오디오 신호가 여러 서브밴드로 나뉜 분할구분(subdivision)의 표시(representation)를 나타내고;
도 3b는 상이한 핑거프린트 모더스에 의해 도 3a의 서브 밴드 분할구분으로부터 만들어질 수 있는 상이한 핑거프린트의 개략도이며;
도 4a는 경시 오디오 신호의 블록 분할구분(block subdivision)을 경시적으로(over time) 나타낸 것이고;
도 4b는 상이한 핑거프린트 모더스에 의해 도 4a의 서브밴드 분할구분으로부터 만들어질 수 있는 다양한 핑거프린트의 개략도이며;
도 5는 패턴 인식시스템의 기본 블록도이다.
본 발명이 유용하게 이용될 수 있는 패턴 인식 시스템의 개략도를 나타내는 도 5에 관하여 아래에 설명하기로 한다. 원칙적으로, 도 5의 패턴 인식 시스템에서 두 연산 모더스사이에(between two operating modi), 보다 정밀하게는 트레이닝 모더스(training modus)(50)와 분류 모더스(classification modus)(52) 사이에 차등화(differentiation)가 이루어진다.
트레이닝 모더스에, 데이터가 트레인되어 들어오는데("trained in"), 이는 즉 데이터가 시스템에 가해지고 이어서 데이터 베이스(54)에 포함되는 것이다.
분류 모더스에서, 특성판정될 신호를 데이터 베이스(54)내에 존재하는 것(the entries existing in the database 54)과 비교하여 분류하는(classify) 시도가 이루어진다.
패턴 인식 시스템은 예를 들어, 분류 모더스(52)의 결과로서, 앞서의 트레이닝 모더스에서 트레인된 신호(xy)와 동일하다고 특성판정될 신호의 내용에 대하여 명령하기 위해(to make a statement), 신호전처리 수단(56), 특징추출을 위한 다운스트림 수단(58), 특징처리 수단(60), 클러스터 발생 수단(62) 그리고 분류수행 수단(64)을 포함한다.
도 5의 개별블록들의 기능성(functionality)에 대하여는 아래에서 다루기로 한다.
블록(58)과 함께 블록(56)은 특징 추출기를 형성하고, 블록(60)은 특징처리기를 나타낸다. 블록(56)은 채널의 수, 샘플링율(sampling rate), 분해도(resolution)(샘플당 비트 수) 등과 같은 통일 목표 포맷으로(to a uniform target format) 입력 신호를 변환시킨다. 이것은, 입력 신호가 발생된 소스에 대해 아무런 조건을 설정하지 않아도 되므로 유용하고 필요하다.
특징 추출 수단(58)은 신호전처리 수단(56)의 출력부에서의 통상적으로 많은 양의 정보를 적은 양의 정보로 제한하는 역할을 한다. 검사될(examined) 신호들은 대부분 높은 자료 전송율(data rate), 즉 타임 슬롯별로(per time slot) 다량의 샘플을 가진다. 소량의 정보로 제한하는 것은, 원시 신호의 본질요소(essence), 즉 그 특정 성질이 상실되지 않는 방법으로 이루어져야 한다. 특징 추출 수단(58) 내에서, 일반적으로 소리의 세기, 기본 주파수 등 및/또는 본 발명에 있어서 음조 특 징(tonality features) 및/또는 SFM과 같은 규정 특성(stipulated characteristic properties)이 신호로부터 추출된다. 그렇게 얻은 음조 특징은 검사된 신호의 본질 요소를 그대로 포함하고 있어야 한다.
블록(60)에서, 앞에서 컴퓨터 계산된(computed) 특징 벡터가 처리될 수 있다. 간단한 처리는 특징 벡터를 정상화하는 것(normalizing)을 포함한다. 가능한 특징 처리(potential feature processing)는 공지된 칼훈넨-뢰베 변형(Karhunen Loㅸve transformation; KLT) 또는 선형 판별 분석(linear discriminant analysis; LDA)를 포함한다. 그 이상의 변형, 특히 비선형 변형도 특성 처리를 위해 사용될 수 있다.
등급발생기(class generator)는 등급들로 처리된 특성 벡터를 결합시키도록 해준다. 이들 등급은 연관 신호(associated signal)의 콤팩트한 표시(compact representation)에 대응된다. 분류기(64)는 마지막으로, 생성된 특징 벡터를 미리 정의된 등급 및/또는 미리 정의된 신호와 연관시키도록 해준다.
도 1은, 예를 들어 도 5의 블록(58)내에 있을 수도 있는 오디오 신호의 핑거프린트를 생성하는 장치를 나타낸다. 오디오 신호의 핑거프린트를 생성하기 위해서는, 복수의 미리 정해진 핑거프린트 모더스를 정의하는 정보가 사용되는데, 이러한 모더스 정보는 수단(10)에 의해 저장된 상호 호환가능 핑거프린트 모더스와 관계가 있다. 수단(10)내에 저장된 모더스 정보에 의해 정의된 핑거프린트 모더스는 모두 동일 유형의 핑거프린트에 관한 것이며, 그러나 핑거프린트 모더스는 한편으로는 그들의 데이터 볼륨에 있어서 다른 한편으로는 오디오 신호 자체를 식별하기 위한 특성판정 강도에 있어서 서로 다른 핑거프린트를 제공한다. 본 발명에 의해, 제1 특성판정 강도를 가지는 핑거프린트 모더스는 오디오 신호를 사용함이 없이 제2 특성판정 강도를 가지는 핑거프린트 모더스에 의한 핑거프린트로 변환될 수 있도록 핑거프린트 모더스가 미리 정해진다. 보다 높은 특성판정 강도를 갖는 핑거프린트로부터 보다 낮은 특성판정 강도를 갖는 핑거프린트로의 변환가능성(convertibility)이 선호된다. 그러한, 특정 적용 유형에 따라, 예를 들어 보간법(interpolation) 등에 의해 상향 호환 가능성(upward compatibility)을 갖도록 할 수도 있다.
본 발명의 장치는 복수의 미리 정해진 핑거프린트 모더스 중 하나를 세팅하기 위한 수단(12)을 더 포함한다. 수단(12)에 의해 공급된 핑거프린트 모더스에 따른 핑거프린트를 컴퓨터 계산하기 위한 수단(14)내에서, 입력부(16)를 통해 세트된 오디오 신호의 핑거프린트가 컴퓨터 계산되어 출력부(18)에 출력된다. 수단(12)에 의해 세트된 핑거프린트 모더스에 의한 핑거프린트를 컴퓨터 계산하기 위한 수단(14)이 각각의 연산 명세(computing specifications)를 핑거프린트 모더스에 따라 적용하도록 저장 수단(10)에 연결된다.
세트된 핑거프린트 모더스에 따라 핑거프린트를 컴퓨터 계산하기 위한 수단(14)에 대하여 아래에서 더욱 상세히 다루기로 한다. 오디오 신호의 음조가 한편으로는 견고하고(robust), 다른 한편으로는 쉽게 스케일할 수 있는 특징으로서 잘 맞는다는 것이 발견되었다.
오디오 물(piece)의 음조 측정치(tonality measure)를 컴퓨터 계산하기 위하 여 여러 가지 방법을 채용할 수 있다. 특성판정될 시간 신호는, 한 블록의 시간관련 샘플로부터 한 블록의 스펙트럼 계수를 만들어내기 위해, 스펙트럼 도메인 사용 수단으로 변환시킬 수 있다. 아래에 설명하는 바와 같이, 예를 들어 예/아니오 결정 수단에 의해 하나의 스펙트럼 성분이 음조성인지 아닌지 분류하기 위해, 특정 음조값이 각 스펙트럼 계수 및/또는 각 스펙트럼 성분에 대하여 결정될 수 있다. 스펙트럼 성분의 음조값 그리고 그 에너지 및/또는 파워를 사용하여, 상이한 많은 방법으로 신호의 음조 측정치를 컴퓨터 계산할 수 있다.
계량적(quantitative) 음조 측정치가 얻어지는 사실로 인해 2개의 음조 색인 오디오물(tonality-indexed pieces) 사이의 거리 및/또는 유사성을 또한 표시할 수 있는데, 그 음조 측정치가 미리 정해진 임계값보다 더 작은 차이만큼만 다르면 오디오물을 유사한 것으로 분류할 수 있는 반면에, 그 음조 색인값이 비유사 임계값보다 더 큰 차이만큼 다르면 다른 오디오물은 비유사한 것으로 분류할 수 있다. 2개의 음조 측정치 사이의 차이에 더하여, 두 값 사이의 차이, 차이의 제곱, 1을 뺀 2 음조 측정치 사이의 몫, 2 음조 측정치 사이의 상관관계, n-차원 벡터인 2 음조 측정치 사이의 거리등의 양(amount)과 같은 수량들(quantities)이 두 오디오물 사이의 음조 거리(tonality distance)를 결정하기 위하여 사용될 수 있다.
특성판정될 신호는 필수적으로 시간 신호이어야 하는 것은 아니고, 양자화된(quantized) 스펙트럼 값으로부터 만들어진 일련의 후프만 코드 워드(Huffman code words)로 이루어진, 예를 들어 MP3-코드화 신호일 수도 있다는 것을 지적해야 하겠다.
양자화된 스펙트럼 값은 원래의 스펙트럼 값으로부터 양자화에 의해 만들어진 것으로서, 이러한 양자화는 양자화에 의해 도입된 양자화 소음(quantizing noise)이 싸이코 어코스틱(psycho-acoustic) 마스킹 임계값 아래가 되도록 선택되었다. 그러한 경우에, 예를 들어 MP3 디코더에 의해 스팩트럼값을 컴퓨터 계산하는데 코드화된 MP3 데이터 스트림이 직접 사용될 수 있다. 음조를 결정하기 위해 타임도메인으로의 변환, 그리고 그 다음에 스펙트럼 도메인으로의 변환을 수행할 필요는 없으나, MP3 디코더내에서 계산된 스펙트럼값은 스펙트럼 성분당 음조 또는 스펙트럼 평면도 측정치(spectral flatness measure; SFM)를 컴퓨터 계산하는데 즉시 사용될 수 있다. 그러므로, 만일 스펙트럼 성분이 음조를 결정하는데 사용되는 경우 그리고 만일 특성판정될 신호가 MP3 데이터 스트림일 경우, 수단(40)은 디코더처럼 디자인되지만 역필터 뱅크(inverse filter-bank)는 사용하지 않는다.
스펙트럼 평면도 측정치(SFM)는 아래의 식에 의하여 컴퓨터 계산된다.
Figure 112003050851578-pct00001
위의 식에서 X(n)은 인덱스값(n)을 가지는 스펙트럼 성분의 절대값의 제곱을 나타내며, N은 하나의 스펙트럼의 스펙트럼 계수의 전체 숫자를 나타낸다. 위 식으로부터 SFM이 스펙트럼 성분의 기하학적 평균과 산술 평균의 몫과 같다는 것을 알 수 있을 것이다. 알려진 바와 같이, 기하학적 평균은 항상 산술 평균보다 작거나, 많이 잡아도 그와 동일하므로, SFM은 0과 1 사이의 값의 범위를 갖는다. 이와 관련 하여, 0에 가까운 값은 음조 신호를 나타내고, 1에 가까운 값은 평면 스펙트럼 곡선을 가지는 상당히 소음성인 신호를 나타낸다. 산술 평균과 기하학적 평균은 모든 X(n)이 일치할 경우에만 동일하며, 그것은 완전히 무조한(atonal), 즉 소음성이거나 펄스성의 신호에 대응된다는 것을 지적해야 하겠다. 그러나, 극단의 경우, 만일 오직 하나의 스펙트럼 성분이 매우 높은 값을 가지는데 대해, 다른 스펙트럼 성분[X(n)]이 매우 작은 값을 가지는 경우, SFM은 0에 가까운 값을 가지며, 이는 매우 음조성(tonal) 신호를 표시한다.
SFM은 1984년 미국 뉴저지, 이글우드 클리프스의 프렌티스홀 출판사에 의해 간행된 N. Jayant와 P.Noll의 "파형의 디지털 코딩"에 기술되어 있고, 덧붙임억압(a redundancy reduction)으로부터 최대로 성취되는 엔코딩 이득에 대한 측정치(a measure)로서 최초로 정의되었다. 음조 측정치는 그 다음에 SFM으로부터 미리 결정될 수 있다.
스펙트럼값의 음조를 결정하기 위한 다른 가능성은, MPEG-1 오디오 ISO/IEC 11172-3 부속문서 D1 "Psycho-acoustic Model 1"에 기술되어 있듯이 오디오 신호의 파워밀도 스펙트럼내의 최고치(peaks)를 결정하는 것이다. 여기서, 스펙트럼 성분의 레벨이 결정된다. 뒤이어서, 하나의 스펙트럼 성분을 둘러싼 2개의 스펙트럼 성분의 레벨이 결정된다. 스펙트럼 성분의 레벨을 초과하면 음조적인(tonal) 것으로 분류된다. 기술적으로, 미리 정해진 임계값은 7dB인 것으로 되어 있으나, 본 발명에서는 여하한 다른 미리 정해진 임계값도 사용할 수 있다. 그리하여, 각 스펙트럼 성분이 음조적인지 아닌지 표시될 수 있다.
스펙트럼 성분의 음조를 결정할 또 다른 가능성은 스펙트럼 성분의 시간관련 예상가능성(time-related predictability)을 평가하는 것이다. 여기서, MPEG-1 오디오 ISO/IEC 11172-3 부속문서 D2 "Psycho-acoustic Model 1"를 다시 인용한다. 일반적으로, 특성판정될 현재 블록의 샘플들의 신호가 현재 블록의 스펙트럼 성분을 얻기 위해 스펙트럼 표시(presentation)로 변환된다. 뒤이어서, 스펙트럼 성분의 현재 블록의 스펙트럼 성분이, 현재 블록을 선행하고 특성판정될 신호의 샘플들로부터의 정보를 사용하여, 즉 과거의 정보를 사용하여 예측된다. 그 다음에 예측 오차(prediction error)가 결정되고, 그로부터 음조 측정치를 얻을 수 있다.
음조를 결정할 또 다른 가능성이 미국 특허 제5,918,203호에 기술되어 있다. 특성판정될 신호의 스펙트럼의 양의 실수치 표시(positive real-valued presentation)가 또한 사용된다. 이러한 표시는 스펙트럼 성분의 값들, 절대값의 제곱 등을 포함할 수 있다. 하나의 실시예에 있어서, 스펙트럼 성분의 값들 또는 절대값의 제곱들은 먼저 대수적으로 압축되고 그 다음에 미분식으로 필터링된 한 블록의 스펙트럼 성분을 얻기 위해 미분 특성을 가지는 필터에 의해 필터링된다.
다른 실시예에 있어서, 스펙트럼 성분의 값들은 먼저 분자(numerator)를 얻기 위해 미분 특성을 가지는 필터를 사용하여 필터링되고, 그 다음에 분모(denominator)를 얻기 위해 적분 특성을 가지는 필터를 사용하여 필터링된다. 미분식으로 필터링된 스펙트럼 성분의 값과 적분식으로 필터링된 동일한 스펙트럼 성분의 값의 몫은 이들 스펙트럼 성분들에 대한 음조 값을 낸다(yield).
이들 두가지 방법에 의해, 스펙트럼 성분의 인접값(adjacent values) 사이의 느린 변화가 억제되는 반면, 스펙트럼내의 스펙트럼 성분의 인접값 사이의 빠른 변화가 강조된다. 스펙트럼 성분의 인접값 사이의 느린 변화는 무조성(atonal) 신호 성분을 나타내는 반면, 빠른 변화는 음조성(tonal) 신호 성분을 표시한다. 산술적으로 압축되고 미분적으로 필터링된 스펙트럼 성분 및/또는 그 몫은 예상된(contemplated) 스펙트럼의 음조 측정치(tonality measure)를 컴퓨터 계산하기 위하여 다시 사용될 수 있다.
하나의 음조 값(tonality values)이 스펙트럼 성분별로 컴퓨터 계산된다고 위에서 말해왔지만, 낮은 컴퓨터 계산 비용을 고려할 때, 예를 들어 각 경우에 인접 스펙트럼 성분의 절대값의 제곱들을 더하고 그 다음에 언급된 방법 중 하나에 의해 가산한 각 결과에 대한 음조값을 계산하는 것이 바람직하다. 절대값 및/또는 스펙트럼 성분의 값의 제곱의 가법집단화(additive grouping)의 각 유형은 하나이상의 스펙트럼 성분의 음조값을 컴퓨터 계산하는데 사용될 수도 있다.
스펙트럼 성분의 음조를 결정하는 다른 가능성은 스펙트럼 성분의 레벨을 주파수 대(frequency band)의 스펙트럼 성분들의 레벨의 평균값과 비교하는 것이다. 예를 들어 스펙트럼 성분의 값 또는 스펙트럼 성분의 절대값의 제곱의 평균값에 그 레벨이 비교된 하나의 스펙트럼 성분을 포함하는 주파수 대의 폭을 필요에 따라 선택할 수 있으며, 한가지 가능성은 주파수 대를 좁게 선택하는 것이다. 대안으로서, 주파수 대를 넓게 선택하거나 싸이코 어코스틱 기준에 의해 선택될 수도 있을 것이다. 이것은 스펙트럼의 단기 파워 세트백(power setback)의 영향이 어떻게 감소될 수 있느냐를 나타낸다.
오디오 신호의 예측 이득(prediction gain)을 측정하기 위하여 신호의 LPC 분석을 수행할 수 있었다. 예측 이득은 SFM에 반비례하고 그러므로 오디오 신호의 음조 측정치에도 반비례한다.
본 발명의 바람직한 실시예에 있어서, 표시된 것은 단기 스펙트럼 당 하나의 값일 뿐 아니라, 음조 측정치는 음조값의 다차원 벡터이다. 예를 들면, 단기 스펙트럼은 4개의 상호인접하고 중첩되지 않는 것이 바람직한 구역 및/또는 주파수 대로 구획되며, 하나의 음조값은 각 주파수 대별로 결정된다. 이것은, 4차원 음조 벡터가 특성판정될 신호의 단기 스펙트럼에 대하여 얻어진다는 것을 의미한다. 보다 나은 특성판정을 허용하기 위해, 예를 들어 위에서 설명한 바와 같은 4개의 연속하는 단기 스펙트럼을 처리하는 것이 더욱 바람직하며, 그에 따라 전체 합하여 16차원 벡터 또는 일반적으로 n × m 차원 벡터인 음조 측정치가 얻어지며(yield), 위에서 n은 샘플의 프레임 또는 블록당 음조 성분의 수를 나타내고, m은 예상된 단기 스펙트럼 및/또는 블록의 수를 나타낸다. 그 다음에는 이미 설명한 바와 같이, 음조 측정치는 그 다음에 16 차원 벡터일 수 있다. 특성판정될 신호의 파형을 더 좋게 수용하기 위하여(to better accommodate), 몇 개의 그러한(예를 들어 16 차원의) 벡터를 컴퓨터계산하고 그 다음에 그들을 통계적으로 처리하는 것이 더욱 바람직한 바, 그것은 오디오물을 나타내기(index) 위하여, 미리 정해진 길이를 가지는 오디오물의 모든 n × m-차원 음조 벡터로부터 보다 높은 차수(order)의 중심 모멘트들(central moments), 평균값 또는 변이(variance) 등을 컴퓨터계산하기 위한 것이다.
일반적으로 말하면, 음조는 전체 스펙트럼의 부분들로부터 컴퓨터계산될 수 있다. 그러므로, 몇 개의 서브 스펙트럼 또는 하나의 스펙트럼의 음조/소음유사성(noise-likeness)을 결정할 수 있고, 그에 따라 스펙트럼의 보다 정교한 특성판정 나아가 오디오 신호의 보다 정교한 특성판정이 가능하다.
추가적으로, 예를 들어 보다 높은 차수(order)의 중심 모멘트, 변이, 평균값과 같은 음조값으로부터 단기 통계치(short-term statistics)가 음조 측정치로서 컴퓨터계산될 수 있다. 이들은 음조값 및/또는 음조 벡터들의 시간 순서(time sequence)를 사용하는 통계기술에 의해 판정될 수 있고, 따라서 오디오물의 보다 긴 부분에 걸친 정수(essence)를 제공할 수 있다.
그에 더하여, 시간적으로 연이은 음조벡터들 또는 선형필터링된 음조값들사이의 차이를 사용할 수도 있으며, 예를 들어 선형 필터로서 IIR 필터 또는 FIR 필터 SFM을 사용할 수 있다.
SFM을 컴퓨터계산함에 있어서, 컴퓨터 계산 시간의 절약을 위해, 예를 들어 주파수적으로(in terms of frequency) 서로 인접한 절대값의 2개의 제곱을 가산하거나 평균하는 것 그리고 이러한 조잡한 플러스의 실제값 스펙트럼 표시(coarsened positive and real-value spectral presentation)를 기초로 SFM 컴퓨터 계산을 수행하는 것이 바람직하다. 추가적으로, 이렇게 함으로써 협대역 주파수 드롭과 보다 낮은 컴퓨터 계산 비용에 대한 견고성(robustness)이 증가하게 된다.
다시, 도 1에 있어서, 미리 정해진 핑거프린트 모더스들중 하나를 세팅하기 위한 수단에 대하여 아래에서 상세히 다루기로 한다. 수단(12)에게는, 사전 정의 핑거프린트 모더스로부터, 특정 적용예에 가장 적합한 그러한 핑거프린트 모더스를 선택하고, 세팅하는 일이 부여된다, 그 선택은 특정 검사-정합(check-matching) 연산에 의하여 경험적으로 또는 자동적으로 이루어질 수 있다. 그러한 검사-정합 연산에 있어서, 특성판정 강도를 나타내는 상이한 핑거프린트를 생성하기 위하여 상이한 핑거프린트 모더스에 따라 예를 들어 많은 공지의 오디오 신호가 처리된다. 그리고나서, 동일 유형의 핑거프린트, 말하자면 예를 들어 오디오 신호의 음조 및/또는 음조 측정치를 그 모두가 나타내는 이들 핑거프린트를 사용하여, 샘플-정합 연산이 데이터 베이스내에서 수행된다. 개별 핑거프린트에 대한 에러 출력의 특정임계값에 의해, 미리 정해진 핑거프린트 모더스중의 하나, 예를 들어 임계값 기준을 만족시키는 것이 선택된다.
그와 달리, 수단(12)은 하나의 핑거프린트를 제공하는 핑거프린트 모더스를 선택할 수 있으나, 그 핑거프린트는 예를 들어, 데이터 볼륨으로 인해 대역제한 송신 채널을 통해서 송신될 수 있을 뿐이고, 수단(12)은 임계치와 관계없이 그렇게 할 수 있으나, 예를 들어 송신 채널에 좌우된다. 채널점유시간(channel occupancy) 및/또는 사용가능한 채널용량에 따라, 높은 특성판정 강도를 가지는 핑거프린트 모더스 또는 그 채널이 광범위하게 점유되거나 대역제한될(band-limited) 경우 상대적으로 낮은 특성판정 강도를 가지는 핑거프린트 중의 하나가 세트될 수 있다.
핑거프린트가 송신되지 않고 저장되는 경우도 동일하다. 사용가능한 메모리 자원에 좌우되어 메모리 집약적이고(memory-intensive) 따라서 높은 특성판정 강도를 가지는 핑거프린트 모더스, 또는 메모리 절약적이나(memory-saving) 상대적으로 낮은 특성판정 강도를 갖는 핑거프린트가 수단(12)에 의해 세트될 수 있다.
도 2는 오디오 신호를 특성판정하기 위한 본 발명의 장치의 블록도이다. 그러한 장치는 미리 정해진 핑거프린트 모더스중 하나의 탐색 핑거프린트를 생성하기 위한 수단을 포함한다. 이들 수단은 도 2에 도면부호 20으로 표시되어 있고, 도 1과 관련하여 설명한 것처럼 구현되는 것이 바람직하다. 오디오 신호를 특성판정하기 위한 장치는 데이터 베이스(22)를 더 포함하는데, 그 데이터 베이스에는 미리 정해진 핑거프린트 모더스들의 하나에서 컴퓨터 계산된 데이터 베이스 핑거프린트들이 저장된다.
도 2의 장치는 수단(20)에 의해 생성된 탐색 핑거프린트를 데이터 베이스 핑거프린트들과 비교하기 위한 수단(24)을 더 포함한다. 먼저, 탐색 핑거프린트와 데이터 베이스 핑거프린트를 비교할 때 동일한 특성판정 강도를 가지고 있는가, 즉 동일한 핑거프린트 모더스에 의해 생성되었는가, 또는 탐색 핑거프린트가 데이터 베이스 핑거프린트의 모더스와 다른 핑거프린트 모더스에 따라 생성된 것인지가 수단(24a)에서 확인된다. 만일 핑거프린트들 중의 하나가 다른 것보다 높은 특성판정 강도를 가지는 것으로 확인되면, 수단(24b)에서 변환이 수행되고 그에 따라 변환후에는 탐색 핑거프린트와 데이터 베이스 핑거프린트가 모두 동일한 특성판정 강도를 가지는, 즉 동일한 핑거프린트 모더스에 따라 비교가능하거나 존재하게 된다, 수단(24c)이 두 핑거프린트의 비교를 수행하는 것은 이러한 조건이 충족된 후이다. 그러한 비교는, 탐색 핑거프린트에 의해 나타내어지는(represented) 오디오 신호가 현재의 데이터 베이스 핑거프린트에 의해 표시되는 오디오 신호에 상응한다는 것을 출력(26)으로서 아마도 나타낼 것이다. 그와 달리, 출력(26)은 또한 일정한 가능성(a certain probability)을 가지는 유사성, 즉 유사성 측정치(a similarity measure)를 확인하는 것이기도 할 것이다.
어느 핑거프린트가 보다 높은 특성판정 강도를 가지고 있는가를 찾아내기 위해 수단(24a)이 구비되는 것이 바람직하다. 그리고 나서, 이 핑거프린트는 두 핑거프린트중 더 낮은 특성판정 강도를 가지는 핑거프린트의 특성판정 강도, 즉 핑거프린트 모더스로 스케일 다운된다. 그와 달리, 예를 들어 만일 급속 탐색 때문에 필요한 경우, 두 핑거프린트는 모두 탐색 핑거프린트와 데이터 베이스 핑거프린트의 특성판정 강도보다 더 낮은 특성판정 강도를 가지는 핑거프린트를 제공하는 핑거프린트 모더스로 스케일 다운된다. 적용예에 따라서는, 보간법(interpolation)에 의해, 낮은 특성판정 강도를 가지는 핑거프린트를 스케일업하는 것이 필요하기도 하지만, 이러한 대안은 핑거프린트의 유형이 보간을 허용하는 경우에만 유용한 결과를 제공한다.
이미 설명된 바와 같이, 핑거프린트 모더스를 특정(specify) 하는데는 양립되지 않는 요건이 있다. 즉 한편으로는, 가능한 한 포괄적인 데이터 정리(data reduction)를 성취하는데는 다량의 관계(interest)가 포함되는데(involved), 예를 들면 컴퓨터의 메모리에 가능한 한 많은 탐색 핑거프린트를 보유할 수 있는 그리고 추가 처리를 보다 효율적이게 할 수 있는 작은 핑거프린트 사이즈를 성취하는 것이다.
다른 한편으로는, 핑거프린트 사이즈가 더 작아짐에 따라, 데이터 베이스에 등록된 오디오물 사이에 정확한 구분이 더 이상 이루어질 수 없다는 위험성이 증가한다. 이것은, 예를 들어 500,000 곡 이상을 포함하는 대형 오디오물 데이터 베이스, 그리고 예를 들어 신호의 음향송신(acoustic transmission) 또는 손실 허용 압축(lossy compression)에 의해 식별처리(identification process)전에 뚜렷한 왜곡(pronounced distortion)에 오디오물이 노출되는 적용예에 특히 관계가 있다. 물론, 이러한 이유로, 동일하게 견고하지(robust) 않은, 보다 컴팩트한 핑거프린트 포맷 그리고 동일하게 컴팩트하지 않지만 상응하게 보다 좋게 차별적인 특성을 제공하는 포맷을 정의하는 것이 가능할 것이다. 그러나, 앞에서 설명한 바와 같이, 이것은, 값비싼 핑거프린트 데이터 베이스가 여러 번, 즉 포맷마다 한번씩, 만들어져서 저장될 것을 필요로 하는데, 그 이유는 특히 제1 유형 핑거프린트내의 설명(description)이 다른 유형의 핑거프린트와 일반적으로 비교될 수 없기 때문이다.
이러한 문제를 제거하기 위해, 본 발명은, 적용예에 따라, 핑거프린트의 비교가능성을 상실함이 없이, 핑거프린트의 컴팩트성과 적용예에 따라 특성판정 강도 사이의 다양한 타협을 유연성 있는 방법으로 제공하는, 범용성이고 스케일 가능한 설명 포맷을 제공한다. 이것은, 하나는 주파수 대(bands)의 수의 스케일가능성, 다른 하나는 시간에 있어서의 스케일가능성인, 두 차원에 있어서의 스케일가능성에 의해 성취되는 것이 바람직하다. 일반적으로, 주파수 대의 수의 스케일가능성은 오디오 신호의 스펙트럼 분석(spectral dissection)에 기초한다. 오디오 신호의 주파수 도메인, 또는 그 서브세트, 예를 들어 250 Hz 내지 4 kHz는, 예상된 특징(features), 즉 음조 측정치에 기초하여 핑거프린트가 컴퓨터 계산되는 주파수 대로 분할된다. 주파수 분리로 인해 각 주파수 대마다 신호의 특성(characteristic)에 대한 독립된 항목이 있다. 모든 핑거프린트는 동일한 대역분할(band partitioning)을 사용하고, 동일한 보다 낮은 컷오프 주파수로부터 시작하는 것이 바람직하다. 그러나, 보다 낮은 특성판정 강도를 가지는 컴팩트한 핑거프린트를 제공하는 핑거프린트 모더스는 보다 일반적인(generous) 핑거프린트 모더스보다 보다 적은 주파수 대를 포함하며 그에 따라 보다 작은 범위의 주파수를 포함하며, 그 형태는 그러나 덜 컴팩트하다. 그럼에도 불구하고, 특정열거의 두 유형은 모두 오디오 신호의 새삼스러운 처리없이 그들의 공동 주파수 대내에서 유용한 방법으로 비교될 수 있다.
바람직한 실시예는, 너무 낮지 않은, 예를 들어 500 Hz보다 높은 주파수를 사람이 귀로 들음으로써 사용되는 주파수 스케일 및/또는 주파수 판별에 크게 의지하며, 적어도 부분적으로 대수적이다(logarithmic). 예를 들어 500 Hz 아래의 상술한 대수적 분할을 사용하지 않는 것 그리고 500 Hz 아래의 주파수 대를 예를 들어 그 주파수 대를 각각 100 Hz로 된 다섯 개의 주파수 대로 분할하여 동일한 폭을 갖도록 분할하지 않는 것이 바람직하다. 이러한 분할은 대략 바크(Bark) 스케일에 대응한다.
주파수 대의 수의 스케일가능성의 예를 도 3a, 도 3b를 참고하여 아래에서 설명하기로 한다. 표시상의 문제로 인해, 도 3a에 도시된 것처럼 오디오 신호를 4개의 서브밴드(30a 내지 30d)로 분할하였다. 도 3b는 상이한 핑거프린트 모더스에 의해 만들어낼 수 있는 상이한 핑거프린트 표시를 나타낸다. 도 3b의 상이한 핑거프린트 표시는, 핑거프린트 정보가 들어있는 서브밴드의 수를 표시하는, 즉 문제의 핑거프린트가 그에 따라 만들어진 핑거프린트 모더스를 표시하는 식별자(identifier) 부분(31)을 포함한다. 핑거프린트 모더스 4번은 가장 메모리집약적인 핑거프린트 표시를 제공하는데, 그러나 그것은 가장 높은 핑거프린트 특성판정 강도를 가진 것이며, 그 이유는 그 핑거프린트 도형이 서브밴드 1 그리고 나머지 3개의 서브밴드 2 내지 4에 대해 모두 핑거프린트 정보(FPI)를 포함하기 때문이다. 이에 대해, 핑거프린트 모더스 3번은 약간 더 컴팩트한 핑거프린트 도형을 보여주지만 핑거프린트 정보의 각각의 항목이 오직 첫 번째 3개의 서브밴드에 대해서만 포함되어 있기 때문에 보다 낮은 특성판정 강도를 갖는다. 핑거프린트 모더스 2번은 상대적으로 컴팩트한 표시를 제공하지만, 핑거프린트 정보가 오직 2개의 가장 낮은 서브밴드에 대하여 포함되어 있기 때문에 더욱 낮은 특성판정 강도를 가진다. 핑거프린트 모더스 1번은 대조적으로 매우 컴팩트한 핑거프린트 도형을 나타내지만, 가장 낮은 서브밴드(30a)의 핑거프린트 정보만이 포함되어 있으므로, 가장 적은 특성판정 강도를 가진다.
도 2의 블록(24b)의 기능, 즉 하나의 핑거프린트 모더스로부터의 다른 핑거프린트 모더스로의 핑거프린트 변환에 대하여 도 3b를 참고로 아래에서 설명하기로 한다. 거의 예를 드는 방법으로, 데이터 베이스 핑거프린트가 핑거프린트 모더스 4번에 따라 생성되었다고 가정하기로 한다. 그리하여, 데이터 베이스는, 매우 높은 특성판정 강도를 가지는 핑거프린트를 포함한다. 탐색 핑거프린트가 예를 들어 핑 거프린트 모더스 2번에 따라 생성되었다. 도 2의 수단(24)이, 예를 들어 도 3b의 핑거프린트 식별자(31)에 의해, 탐색자 핑거프린트와 데이터 베이스 핑거프린트가 서로 다른 핑거프린트 모더스에 의해 생성되었음을 확인하면, 보다 높은 특정 판정 강도를 가지는 핑거프린트, 즉 데이터 베이스 핑거프린트가 변환에 붙여진다. 도 3b에 도시된 실시예에 있어서, 그 변환은, 3번째 서브밴드와 4번째 서브밴드의 핑거프린트 정보는 더 이상 고려되지 않는 것, 다시 말해서 그들은 정합 연산에서 더 이상 어떤 역할도 하지 않는데 있다. 그리하여 첫번째 및 두 번째 서브밴드의 핑거프린트 정보만이 서로 비교된다. 그와 달리, 핑거프린트 모더스 4번에 따라 생성된 데이터 베이스 핑거프린트 그리고 핑거프린트 모더스 2번에 의해 생성된 탐색 핑거프린트는 모두 핑거프린트 모더스 1번으로 변환될 수 있고, 이것은 빠른 정합 연산이 필요한 경우에 특히 유용하다.
데이터 베이스 핑거프린트가 탐색 핑거프린트보다 더 높은 특성판정 강도를 갖는 것은 중요하지 않다는 것을 지적해둔다. 예를 들어, 보다 낮은 특성판정 강도를 또는 보다 오래된 데이터 베이스가 있는데 반해, 탐색 핑거프린트가 보다 높은 특성판정 강도를 갖는 핑거프린트인 경우, 그 처리는 반대로 되어, 탐색 핑거프린트가 보다 낮은 특성판정 강도를 가지지만 더욱 컴팩트한 형태로 변환되고 정합연산이 그에 이어 수행된다.
도 3a에 있어서, 서브밴드 1내지 4(30a 내지 30d)가 중첩되지 않는 방식으로 도시되었지만, 서브밴드들의 작은 중첩까지도 피치에 있어서의 변화의 견고성을 증가시킨다는 것을 지적해둔다. 신호 피치의 변화, 예를 들어 약간 더 빠르게 또는 더 느리게 재생되는(played back) 신호의 피치의 변화 또는 샘플 비율 변환을 수반하는 신호 변화에 대한 표시(representation)의 견고성을 증가시키기 위하여, 특정 밴드 중첩이 선호된다(preferred). 피치 변화의 경우, 변화되지 않는 신호에 대한 특정 주파수 대(n)내에 있는 신호 부분들이, 특정 환경하에서, 주파수 변화, 예를 들어 스펙트럼의 신장 또는 압축으로 인해, 주파수 대(n-1 또는 n+1)내에 있게 됨으로써, 명백히 상이한 특징값(feature values)이 발생하고 인식율이 그에 따라 떨어진다고 하는 문제가 있다. 본 발명의 바람직한 실시예에 있어서, 이러한 효과는, 예를 들어 두 주파수 대내의 DFT 라인을 사용하여, 인접하는 주파수 대사이에 일정한 주파수 범위가 있다는 사실에 의해 완화된다. 하나의 표시로서, 예를 들어 10%의 주파수 범위의 중첩이 바람직한데, 스팩트럼의 보다 현저한 신장 또는 압축이 예상된다면, 상기한 중첩이 더 크도록 선택할 수 있다.
스케일가능성의 다른 치수(dimension)가 시간에 의해 제공된다. 개별 특성값의 번호(n)를 결합하기 위해 평균값과 변이(mean value variance)를 사용함으로써, 시간 관련 세분성(time-related granularity)이 세트될 수 있다. 컴팩트한 설명(description)이 n에 대한 더 높은 값 그리고 그로 인해 더욱 일반적이고(generous) 보다 적게 컴팩트한 설명보다도 더 높은 스케일의 시간관련 결합을 선택한다. 이를 설명하기 위해, 도 4a, 도 4b에 대하여 아래에서 상세히 설명한다. 도 4a는 오디오 신호[u(t)]를 시간(t)에 대해 블록 방향으로 처리하는 것을 나타내며, 명백히 하기 위해 시간적으로 연속하는 4개의 블록(40a 내지 40d)을 도시하였다. 모든 블록(40a 내지 40d)은 동일한 길이, 즉 동일한 수의 샘플을 가진 다. 블록 1 내지 블록 4에 대하여 각각 특정 핑거프린트 정보가 컴퓨터 계산되어 저장되기 때문에 핑거프린트 모더스 3번이 매우 높은 특성판정 강도를 가지는 표시(representation)를 제공할 것이다. 대조적으로, 핑거프린트 모더스 2번은 보다 낮은 특성판정 강도를 가지지만, 메모리로 말하자면 더욱 컴팩트한 핑거프린트 표시를 나타내는데, 그 이유는 핑거프린트 정보가 항상 4개의 연속하는 블록들, 즉 한편으로는 블록 1과 2로부터 그리고 다른 한편으로는 블록 3과 4로부터 형성되기 때문이다. 메모리로 말해서 가장 바람직하지만 가장 낮은 특성판정 강도를 가지는 핑거프린트 표시가 모두 블록들 1 내지 4의 핑거프린트 정보를 포함하는 핑거프린트 모더스 1번에 의해 마지막으로 제공된다.
만일 핑거프린트 모더스 3번에 의해 생성된 핑거프린트 정보가 저장되고, 탐색 핑거프린트가 핑거프린트 모더스 2번에 의해 생성되면, 첫 번째 두 블록이 결합되고 그 다음에 탐색 핑거프린트의 첫 번째 핑거프린트 정보와 비교되도록, 데이터 베이스 핑거프린트가 변환되는데, 이 과정은 뒤이은 블록 3과 4에 대하여 반복된다. 이 시점에서, 다시 데이터 베이스 핑거프린트와 탐색 핑거프린트를 모두 핑거프린트 모더스 1번에 따른 핑거프린트 표시로 변환시키는 것도 또한 가능할 것이다.
실제의 적용예에 있어서 핑거프린트 표시가 개별 블록들의 핑거프린트 정보의 평균값 및/또는 변이를 포함하도록 n 블록들로부터의 핑거프린트 정보를 결합하는 것이 바람직하다. 평균값과 변이는 아래와 같이 정의된다;
평균값:
Figure 112003050851578-pct00002
변이:
Figure 112003050851578-pct00003
위의 두 식에 있어서, n은 일정한 수의 항목의 핑거프린트 정보(Fi)로부터 평균값(Mn)을 만들기 위하여 그 정보를 결합하는 블록 또는 대역 등의 수를 나타내는 지수(index)이다. 위의변이(variance)의 정의에서, 유용하지 않은 블록 및/또는 대역의 변이는 0과 같다는 것을 지적해둔다.
도 4b에 있어서, 핑거프린트 모더스 3번에 의해 생성된 핑거프린트 표시의 블록 1의 핑거프린트 정보는 오디오 특징의 평균값 및/또는 변이의 평균값을 포함하게 된다. 이는 핑거프린트 모더스 3번에 의해 만들어진 핑거프린트 표시의 블록 2에 대한 핑거프린트 정보에도 동일하게 적용된다. 선(42)에 의해 표시되어 있듯이, 핑거프린트 모더스 3번에 따른 핑거프린트 표시의 블록 1과 2에 대한 핑거프린트 정보의 두가지 항목을 모두 핑거프린트 모더스 2번에 따라 만들어진 핑거프린트 표시의 핑거프린트 정보로 변환시키기 위하여, 핑거프린트 모더스 3번에 따른 핑거프린트 표시의 핑거프린트 정보는 아래와 같이 변환되어야 한다.
평균값:
Figure 112003050851578-pct00004
변이:
Figure 112003050851578-pct00005
만일 핑거프린트 표시의 시간관련 세분성이 다른 핑거프린트 표시의 세분성의 정수배수(integer multiple)인 경우, 평균값과 변이는 서로 비교될 수 있다. 상 기 식들은 그의 대표적인 인수(exemplary factor)에도 적용된다. 위의 식에서, 변수인 Nn과 Vn은 핑거프린트 모더스 3번에 따른 블록 1의 핑거프린트 정보에 대한 평균값 및/또는 변이의 상응하는 값을 나타내는 반면, 변수 M'n과 V'n은, 도 4b의 핑거프린트 모더스 3번에 따른 핑거프린트 표시의 블록 2에 대한 평균값 및/또는 변이의 값들을 나타낸다. 변이가 핑거프린트 정보로서 사용된 경우, 평균값은 스케일가능성을 보장하기 위해 예를 들어 추가적인(further) 핑거프린트 정보로서 또한 존재해야 한다.
여기서 유추해보면, 핑거프린트 모더스 2번에 따른 핑거프린트 표시의 핑거프린트 정보는 핑거프린트 모더스 1번에 따른 핑거프린트 정보와 비교될 수 있도록 하기 위해 결합될 수 있다는 것을 지적해둔다.
그리하여, 여러 가지 시간관련 세분성, 즉 서로 다른 핑거프린트 모더스에 따른 핑거프린트 표시는, 예를 들어 보다 정교한 표시를 보다 거친(coarser) 것으로 변환시킴으로써 비교될 수 있다.
본 발명의 핑거프린트 표시는, 2000. 10. 27.자 발행의 Audio지 Part 4의 Information Technology - multimedia content description interface의 document ISO/IEC JTC 1/SC 29/WG11 (MPEG)의 패러그래프 4.2에 의해 기술되어 있는 것처럼, 예를 들어, 소위 스케일가능 시리즈로 정의될 수 있다.
발명을 몇 건의 바람직한 실시예에 대하여 설명하였지만, 본 발명의 범위에 속하는 개조, 치환, 균등물이 있다. 본 발명의 방법과 구성을 구현하는 많은 대체 방안이 있음도 알아두어야 한다. 따라서, 첨부된 특허청구의 범위는 본 발명의 진정한 정신과 범위내에 속하는 모든 개조, 치환 및 균등물을 포함하는 것으로 해석되는 것으로 작성된 것이다.

Claims (18)

  1. 복수의 미리 정해진 핑거프린트 모더스를 정의하는 정보를 사용하여 오디오 신호의 핑거프린트를 생성하는 방법으로서, 상기 모든 핑거프린트 모더스가
    동일유형의 핑거프린트에 관한 것이고, 그러나, 한편으로는 상이한 핑거프린트들의 데이터 볼륨, 다른 한편으로는 상기 오디오 신호를 특성판정하는 핑거프린트들의 특성판정 강도를 달리하는 서로 상이한 핑거프린트를 제공하고,
    제1 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트가, 상기 오디오 신호를 이용하지 않고, 제2 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트로 변환될 수 있도록 미리 정해지며;
    복수의 미리 정해진 핑거프린트 모더스들의 하나의 미리 정해진 핑거프린트 모더스를 세팅하는 단계와;
    상기 세팅된 미리 정해진 핑거프린트 모더스에 의해 핑거프린트를 컴퓨터계산하는 단계를 포함하여 구성되는, 오디오 신호의 핑거프린트 생성방법.
  2. 제1항에 있어서, 더 높은 특성판정 강도를 가지는 핑거프린트 모더스에 의한 핑거프린트가 더 낮은 특성판정 강도를 가지는 핑거프린트 모더스에 의한 핑거프린트로 변환가능한, 오디오 신호의 핑거프린트 생성방법.
  3. 제1항에 있어서, 상기 생성된 핑거프린트를 제한된 송신 용량을 가지는 송신 채널을 통해 또는 제한된 저장 용량을 가지는 저장 수단(storage medium)에 각각 송신 또는 저장하는 단계를 더 포함하여 구성되고,
    상기 핑거프린트 모더스를 세팅하는 단계에서, 미리 정해진 핑거프린트 모더스가 송신 채널 또는 저장 용량에 따라 각각 세팅되는, 오디오 신호의 핑거프린트 생성방법.
  4. 제1항에 있어서, 핑거프린트의 유형이 오디오 신호의 음조 특성에 관련된 것인, 오디오 신호의 핑거프린트 생성방법.
  5. 제1항에 있어서, 상기 오디오 신호가 미리 정해진 수의 미리 정의된 주파수 대들로 분할구분되고;
    각 핑거프린트 모더스가 미리 정의된 주파수 대마다의 핑거프린트 정보의 생성을 포함하며,
    제1 핑거프린트 모더스가 각 주파수 대에 대해 개별적으로, 하나의 핑거프린트로서, 첫 번째 수의 주파수 대의 핑거프린트 정보의 첫 번째 수의 아이템을 포함하고, 제2 핑거프린트 모더스가 각 주파수 대에 대해 개별적으로, 하나의 핑거프린트로서, 두번째 수의 주파수 대의 핑거프린트 정보의 두 번째 아이템을 포함하며, 상기 첫 번째 수가 상기 두 번째 수와 다르고, 상기 미리 정의된 주파수 대가 모든 핑거프린트 모더스들에 대하여 동일하도록, 상기핑거프린트 모더스들이 핑거프린트 정보의 아이템의 수를 달리하는, 오디오 신호의 핑거프린트 생성방법.
  6. 제5항에 있어서, 상기 오디오 신호의 미리 정의된 주파수 대로의 분할구분이 적어도 부분적으로 대수적인 대역 분할(logarithmic band partitioning)인, 오디오 신호의 핑거프린트 생성방법.
  7. 제5항에 있어서, 주파수 측면에서 서로 인접한 두 개의 주파수 대가 중첩 구역을 갖고, 상기 중첩 구역의 스펙트럼 성분들이 두 개의 인접한 주파수 대에 속하는, 오디오 신호의 핑거프린트 생성방법.
  8. 제5항에 있어서, 가장 낮은 주파수를 포함하는 주파수 대가, 그 다음의 주파수 대의 더 높은 주파수의 수를 달리하는 모든 핑거프린트 모더스들에 포함되는, 오디오 신호의 핑거프린트 생성방법.
  9. 제1항에 있어서,
    상기 오디오 신호가 시간적으로 연속하고 미리 정해진 길이를 가지는 블록들로 분할구분될 수 있고,
    핑거프린트의 생성에서, 블록 마다 핑거프린트 정보가 결정되고, 상기 핑거프린트 모더스들이 핑거프린트 정보에 의해 나타내어지는 블록들의 수를 달리하며, 상기 블록들의 길이가 모든 핑거프린트 모더스들에 대해 동일한, 오디오 신호의 핑거프린트 생성방법.
  10. 제9항에 있어서, 제1 핑거프린트 모더스가 핑거프린트 정보로서 포함된 제1의 미리 정의된 수의 블록들의 중간값 및/또는 변이를 포함하고, 그리고
    제2 핑거프린트 모더스가 제2의 미리 정의된 수의 블록들의 평균값 및/또는 변이를 포함하며, 상기 제1의 미리 정의된 수의 제2의 미리 정의된 수에 대한 비율이 정수 1인, 오디오 신호의 핑거프린트 생성방법.
  11. 복수의 미리 정해진 핑거프린트 모더스를 정의하는 정보를 사용하여 오디오 신호의 핑거프린트를 생성함에 있어, 상기 모든 핑거프린트 모더스가
    동일유형의 핑거프린트에 관한 것이고, 그러나, 한편으로는 상이한 핑거프린트들의 데이터 볼륨, 다른 한편으로는 상기 오디오 신호를 특성판정하는 핑거프린트들의 특성판정 강도를 달리하는 서로 상이한 핑거프린트를 제공하고,
    제1 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트가, 상기 오디오 신호를 이용하지 않고, 제2 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트로 변환될 수 있도록 미리 정해지며,
    복수의 미리 정해진 핑거프린트 모더스들의 하나의 미리 정해진 핑거프린트 모더스를 세팅하는 단계와,
    상기 세팅된 미리 정해진 핑거프린트 모더스에 의해 핑거프린트를 컴퓨터계산하는 단계를 포함하여 구성되며;
    상기 탐색 핑거프린트와 데이터 베이스 핑거프린트가 상이한 핑거프린트 모더스들에 의해 생성되었는지의 여부를 검사하는 단계와; 비교될 핑거프린트들이 동일한 핑거프린트 모더스에 의해 존재하도록 상기 탐색 핑거프린트 및/또는 데이터 베이스 핑거프린트를 변환시키는 단계와; 그리고 동일한 핑거프린트 모더스에 존재하는 핑거프린트를 사용하여 비교를 수행하는 단계를 포함하여 구성되는, 알려진 오디오 신호를 특성판정하기 위해, 컴퓨터계산된 핑거프린트를 상기 오디오 신호를 나타내고 복수의 핑거프린트 모더스들중의 하나에 의해 생성된 복수의 저장된 핑거프린트들과 비교하는 단계를 포함하여 구성되는, 오디오 신호의 특성판정 방법.
  12. 제11항에 있어서, 각 핑거프린트 모더스가 미리 정의된 주파수 대마다의 핑거프린트 정보의 생성을 포함하고,
    제1 핑거프린트 모더스가 각 주파수 대에 대해 개별적으로, 하나의 핑거프린트로서, 첫번째 수의 주파수 대에 대한 핑거프린트 정보의 첫 번째 수의 아이템을 포함하고, 제2 핑거프린트 모더스가 각 주파수 대에 대해 개별적으로, 하나의 핑거프린트로서, 두번째 수의 주파수 대에 대한 핑거프린트 정보의 두 번째 수의 아이템을 포함하며, 미리 정의된 주파수 대가 모든 핑거프린트 모더스들과 동일하며, 첫 번째 수와 두 번째 수가 상이하도록, 핑거프린트 모더스들이 핑거프린트 정보의 아이템의 수를 달리하고,
    상기 변환 단계가 서브밴드에 대한 핑거프린트 정보를 억지하는(suppressing) 단계를 포함하여 구성되는, 오디오 신호의 특성판정 방법.
  13. 제11항에 있어서,
    상기 오디오 신호가 시간적으로 연속하고 미리 정해진 길이를 가지는 블록들로 분할구분될 수 있고,
    하나의 핑거프린트의 생성에서, 블록 마다 핑거프린트 정보가 결정되고, 핑거프린트 모더스들이 핑거프린트 정보에 의해 나타내어지는 블록들의 수를 달리하며, 블록들의 길이가 모든 핑거프린트 모더스들에 대해 동일하고, 그리고
    상기 변환 단계가 시간적으로 연속적인 블록들의 핑거프린트 정보를 결합하는 단계를 포함하여 구성되는, 오디오 신호의 특성판정 방법.
  14. 제13항에 있어서,
    상기 핑거프린트 정보가 하나의 평균값 및/또는 하나의 변이를 포함하고, 그리고
    하나의 정수 비율(integer ratio)이 탐색 핑거프린트내에 결합된 블록들과 데이터 베이스 핑거프린트내에 결합된 블록들 사이에 존재하는, 오디오 신호의 특성판정 방법.
  15. 삭제
  16. 삭제
  17. 복수의 미리 정해진 핑거프린트 모더스를 정의하는 정보를 사용하여 오디오 신호의 핑거프린트를 생성하는 장치에 있어, 상기 모든 핑거프린트 모더스가
    동일유형의 핑거프린트에 관한 것이고, 그러나, 한편으로는 상이한 핑거프린트들의 데이터 볼륨, 다른 한편으로는 상기 오디오 신호를 특성판정하는 핑거프린트들의 특성판정 강도를 달리하는 서로 상이한 핑거프린트를 제공하고,
    제1 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트가, 상기 오디오 신호를 이용하지 않고, 제2 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트로 변환될 수 있도록 미리 정해지며;
    복수의 미리 정해진 핑거프린트 모더스들의 하나의 미리 정해진 핑거프린트 모더스를 세팅하는 수단과,
    상기 세팅된 미리 정해진 핑거프린트 모더스에 의해 핑거프린트를 컴퓨터계산하는 수단을 포함하여 구성되는, 오디오 신호의 핑거프린트 생성 장치.
  18. 복수의 미리 정해진 핑거프린트 모더스를 정의하는 정보를 사용하여 오디오 신호의 핑거프린트를 생성하는 수단에 있어, 상기 모든 핑거프린트 모더스가
    동일유형의 핑거프린트에 관한 것이고, 그러나, 한편으로는 상이한 핑거프린트들의 데이터 볼륨, 다른 한편으로는 상기 오디오 신호를 특성판정하는 핑거프린트들의 특성판정 강도를 달리하는 서로 상이한 핑거프린트를 제공하고,
    제1 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트가, 상기 오디오 신호를 이용하지 않고, 제2 특성판정 강도를 가지는 핑거프린트 모더스에 의한 하나의 핑거프린트로 변환될 수 있도록 미리 정해지며;
    복수의 미리 정해진 핑거프린트 모더스들의 하나의 미리 정해진 핑거프린트 모더스를 세팅하는 수단과,
    상기 세팅된 미리 정해진 핑거프린트 모더스에 의해 핑거프린트를 컴퓨터계산하는 수단을 포함하여 구성되며;
    상기 탐색 핑거프린트와 데이터 베이스 핑거프린트가 상이한 핑거프린트 모더스들에 의해 생성되었는지의 여부를 검사하는 수단과; 비교될 핑거프린트들이 동일한 핑거프린트 모더스에 의해 존재하도록 상기 탐색 핑거프린트 및/또는 데이터 베이스 핑거프린트를 변환시키는 수단과; 그리고 동일한 핑거프린트 모더스에 존재하는 핑거프린트를 사용하여 비교를 수행하는 수단을 포함하여 구성되는, 알려진 오디오 신호를 특성판정하기 위해, 컴퓨터계산된 핑거프린트를 상기 오디오 신호를 나타내고 복수의 핑거프린트 모더스들중의 하나에 의해 생성된 복수의 저장된 핑거프린트들과 비교하는 수단을 포함하여 구성되는, 오디오 신호의 특성판정 장치.
KR1020037017271A 2001-07-10 2002-06-20 핑거프린트를 생성하는 방법과 장치 및 오디오 신호를 식별하는 방법과 장치 KR100659672B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10133333A DE10133333C1 (de) 2001-07-10 2001-07-10 Verfahren und Vorrichtung zum Erzeugen eines Fingerabdrucks und Verfahren und Vorrichtung zum Identifizieren eines Audiosignals
DE10133333.1 2001-07-10
PCT/EP2002/006849 WO2003007185A1 (de) 2001-07-10 2002-06-20 Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals

Publications (2)

Publication Number Publication Date
KR20040040409A KR20040040409A (ko) 2004-05-12
KR100659672B1 true KR100659672B1 (ko) 2006-12-21

Family

ID=7691181

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037017271A KR100659672B1 (ko) 2001-07-10 2002-06-20 핑거프린트를 생성하는 방법과 장치 및 오디오 신호를 식별하는 방법과 장치

Country Status (10)

Country Link
US (1) US7460994B2 (ko)
EP (1) EP1405222B9 (ko)
JP (1) JP4184955B2 (ko)
KR (1) KR100659672B1 (ko)
AT (1) ATE545930T1 (ko)
DE (1) DE10133333C1 (ko)
ES (1) ES2382974T3 (ko)
HK (1) HK1060632A1 (ko)
PT (1) PT1405222E (ko)
WO (1) WO2003007185A1 (ko)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7362775B1 (en) * 1996-07-02 2008-04-22 Wistaria Trading, Inc. Exchange mechanisms for digital information packages with bandwidth securitization, multichannel digital watermarks, and key management
US5613004A (en) 1995-06-07 1997-03-18 The Dice Company Steganographic method and device
US6205249B1 (en) 1998-04-02 2001-03-20 Scott A. Moskowitz Multiple transform utilization and applications for secure digital watermarking
US7664263B2 (en) 1998-03-24 2010-02-16 Moskowitz Scott A Method for combining transfer functions with predetermined key creation
US7177429B2 (en) 2000-12-07 2007-02-13 Blue Spike, Inc. System and methods for permitting open access to data objects and for securing data within the data objects
US7095874B2 (en) 1996-07-02 2006-08-22 Wistaria Trading, Inc. Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data
US7159116B2 (en) 1999-12-07 2007-01-02 Blue Spike, Inc. Systems, methods and devices for trusted transactions
US5889868A (en) 1996-07-02 1999-03-30 The Dice Company Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data
US7457962B2 (en) 1996-07-02 2008-11-25 Wistaria Trading, Inc Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data
US7346472B1 (en) 2000-09-07 2008-03-18 Blue Spike, Inc. Method and device for monitoring and analyzing signals
US7730317B2 (en) 1996-12-20 2010-06-01 Wistaria Trading, Inc. Linear predictive coding implementation of digital watermarks
US7664264B2 (en) 1999-03-24 2010-02-16 Blue Spike, Inc. Utilizing data reduction in steganographic and cryptographic systems
US7475246B1 (en) 1999-08-04 2009-01-06 Blue Spike, Inc. Secure personal content server
WO2002017135A1 (en) 2000-08-23 2002-02-28 Koninklijke Philips Electronics N.V. Method of enhancing rendering of a content item, client system and server system
US7127615B2 (en) 2000-09-20 2006-10-24 Blue Spike, Inc. Security based on subliminal and supraliminal channels for data objects
US7890374B1 (en) 2000-10-24 2011-02-15 Rovi Technologies Corporation System and method for presenting music to consumers
US7277766B1 (en) 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
CN1235408C (zh) 2001-02-12 2006-01-04 皇家菲利浦电子有限公司 生成和匹配多媒体内容的散列
US7020304B2 (en) 2002-01-22 2006-03-28 Digimarc Corporation Digital watermarking and fingerprinting including synchronization, layering, version control, and compressed embedding
JP2005517211A (ja) 2002-02-05 2005-06-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 指紋の効率的格納
ATE312381T1 (de) * 2002-02-06 2005-12-15 Koninkl Philips Electronics Nv Schnelles hash-basiertes metadatenretrieval für multimediaobjekte
US7287275B2 (en) 2002-04-17 2007-10-23 Moskowitz Scott A Methods, systems and devices for packet watermarking and efficient provisioning of bandwidth
US7824029B2 (en) 2002-05-10 2010-11-02 L-1 Secure Credentialing, Inc. Identification card printer-assembler for over the counter card issuing
US8176508B2 (en) * 2002-08-02 2012-05-08 Time Warner Cable Method and apparatus to provide verification of data using a fingerprint
US7222071B2 (en) * 2002-09-27 2007-05-22 Arbitron Inc. Audio data receipt/exposure measurement with code monitoring and signature extraction
US20060041753A1 (en) * 2002-09-30 2006-02-23 Koninklijke Philips Electronics N.V. Fingerprint extraction
AU2003264774A1 (en) * 2002-11-01 2004-05-25 Koninklijke Philips Electronics N.V. Improved audio data fingerprint searching
US20060075237A1 (en) * 2002-11-12 2006-04-06 Koninklijke Philips Electronics N.V. Fingerprinting multimedia contents
DE10254612A1 (de) * 2002-11-22 2004-06-17 Humboldt-Universität Zu Berlin Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung
DE10304098B4 (de) * 2003-01-31 2006-08-31 Miclip S.A. Verfahren und Vorrichtung zur Steuerung eines Tonfolge gekoppelten Bildfolgeablaufs sowie zugehöriges Programm
US7606790B2 (en) * 2003-03-03 2009-10-20 Digimarc Corporation Integrating and enhancing searching of media content and biometric databases
DE102004023436B4 (de) * 2004-05-10 2006-06-14 M2Any Gmbh Vorrichtung und Verfahren zum Analysieren eines Informationssignals
DE102004028693B4 (de) * 2004-06-14 2009-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
DE102004046746B4 (de) * 2004-09-27 2007-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten
US7567899B2 (en) * 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
US7562228B2 (en) * 2005-03-15 2009-07-14 Microsoft Corporation Forensic for fingerprint detection in multimedia
US20070106405A1 (en) * 2005-08-19 2007-05-10 Gracenote, Inc. Method and system to provide reference data for identification of digital content
US8156132B1 (en) 2007-07-02 2012-04-10 Pinehill Technology, Llc Systems for comparing image fingerprints
US7991206B1 (en) 2007-07-02 2011-08-02 Datascout, Inc. Surrogate heuristic identification
US7840540B2 (en) 2006-04-20 2010-11-23 Datascout, Inc. Surrogate hashing
US7814070B1 (en) 2006-04-20 2010-10-12 Datascout, Inc. Surrogate hashing
US7774385B1 (en) * 2007-07-02 2010-08-10 Datascout, Inc. Techniques for providing a surrogate heuristic identification interface
US8463000B1 (en) 2007-07-02 2013-06-11 Pinehill Technology, Llc Content identification based on a search of a fingerprint database
US9020964B1 (en) 2006-04-20 2015-04-28 Pinehill Technology, Llc Generation of fingerprints for multimedia content based on vectors and histograms
US8549022B1 (en) 2007-07-02 2013-10-01 Datascout, Inc. Fingerprint generation of multimedia content based on a trigger point with the multimedia content
US7801868B1 (en) 2006-04-20 2010-09-21 Datascout, Inc. Surrogate hashing
KR100862616B1 (ko) * 2007-04-17 2008-10-09 한국전자통신연구원 인덱스 정보를 이용한 오디오 핑거프린트 검색 시스템 및방법
US20080274687A1 (en) * 2007-05-02 2008-11-06 Roberts Dale T Dynamic mixed media package
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
US8168876B2 (en) * 2009-04-10 2012-05-01 Cyberlink Corp. Method of displaying music information in multimedia playback and related electronic device
US8687839B2 (en) 2009-05-21 2014-04-01 Digimarc Corporation Robust signatures derived from local nonlinear filters
US8620967B2 (en) * 2009-06-11 2013-12-31 Rovi Technologies Corporation Managing metadata for occurrences of a recording
US8161071B2 (en) 2009-09-30 2012-04-17 United Video Properties, Inc. Systems and methods for audio asset storage and management
US8677400B2 (en) 2009-09-30 2014-03-18 United Video Properties, Inc. Systems and methods for identifying audio content using an interactive media guidance application
US8892570B2 (en) 2009-12-22 2014-11-18 Dolby Laboratories Licensing Corporation Method to dynamically design and configure multimedia fingerprint databases
JP4754651B2 (ja) * 2009-12-22 2011-08-24 アレクセイ・ビノグラドフ 信号検出方法、信号検出装置、及び、信号検出プログラム
US8886531B2 (en) 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US20110173185A1 (en) * 2010-01-13 2011-07-14 Rovi Technologies Corporation Multi-stage lookup for rolling audio recognition
ES2459391T3 (es) * 2011-06-06 2014-05-09 Bridge Mediatech, S.L. Método y sistema para conseguir hashing de audio invariante al canal
US9244967B2 (en) 2011-08-01 2016-01-26 Actifio, Inc. Incremental copy performance between data stores
US9866915B2 (en) * 2011-11-28 2018-01-09 Excalibur Ip, Llc Context relevant interactive television
CN103729368B (zh) * 2012-10-13 2016-12-21 复旦大学 一种基于局部频谱图像描述子的鲁棒音频识别方法
US9300991B2 (en) 2013-11-13 2016-03-29 International Business Machines Corporation Use of simultaneously received videos by a system to generate a quality of experience value
US9323770B1 (en) * 2013-12-06 2016-04-26 Google Inc. Fingerprint merging after claim generation
US9792187B2 (en) 2014-05-06 2017-10-17 Actifio, Inc. Facilitating test failover using a thin provisioned virtual machine created from a snapshot
US9743138B2 (en) 2015-07-31 2017-08-22 Mutr Llc Method for sound recognition task trigger
US10462512B2 (en) * 2017-03-31 2019-10-29 Gracenote, Inc. Music service with motion video

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
US6275800B1 (en) * 1999-02-23 2001-08-14 Motorola, Inc. Voice recognition system and method
DE19948974A1 (de) * 1999-10-11 2001-04-12 Nokia Mobile Phones Ltd Verfahren zum Erkennen und Auswählen einer Tonfolge, insbesondere eines Musikstücks
US6453252B1 (en) * 2000-05-15 2002-09-17 Creative Technology Ltd. Process for identifying audio content
US6963975B1 (en) * 2000-08-11 2005-11-08 Microsoft Corporation System and method for audio fingerprinting
US7277766B1 (en) * 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
AU2002232817A1 (en) * 2000-12-21 2002-07-01 Digimarc Corporation Methods, apparatus and programs for generating and utilizing content signatures
US20020133499A1 (en) * 2001-03-13 2002-09-19 Sean Ward System and method for acoustic fingerprinting
JP4678464B2 (ja) 2001-06-22 2011-04-27 ソニー株式会社 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US7287275B2 (en) * 2002-04-17 2007-10-23 Moskowitz Scott A Methods, systems and devices for packet watermarking and efficient provisioning of bandwidth

Also Published As

Publication number Publication date
EP1405222B9 (de) 2012-09-26
EP1405222A1 (de) 2004-04-07
WO2003007185A1 (de) 2003-01-23
ATE545930T1 (de) 2012-03-15
KR20040040409A (ko) 2004-05-12
US7460994B2 (en) 2008-12-02
EP1405222B1 (de) 2012-02-15
US20040172411A1 (en) 2004-09-02
PT1405222E (pt) 2012-05-25
JP2004534285A (ja) 2004-11-11
DE10133333C1 (de) 2002-12-05
JP4184955B2 (ja) 2008-11-19
ES2382974T3 (es) 2012-06-15
HK1060632A1 (en) 2004-08-13

Similar Documents

Publication Publication Date Title
KR100659672B1 (ko) 핑거프린트를 생성하는 방법과 장치 및 오디오 신호를 식별하는 방법과 장치
US7081581B2 (en) Method and device for characterizing a signal and method and device for producing an indexed signal
US7478045B2 (en) Method and device for characterizing a signal and method and device for producing an indexed signal
KR100717387B1 (ko) 유사곡 검색 방법 및 그 장치
JP2004530153A6 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
Burred et al. Hierarchical automatic audio signal classification
EP2659482B1 (en) Ranking representative segments in media data
US7342167B2 (en) Apparatus and method for generating an encoded rhythmic pattern
Pye Content-based methods for the management of digital music
KR100749045B1 (ko) 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치
US8073684B2 (en) Apparatus and method for automatic classification/identification of similar compressed audio files
Rizzi et al. Genre classification of compressed audio data
JP2010164762A (ja) 特徴量抽出装置、特徴量抽出方法、およびプログラム
You et al. Music identification system using MPEG-7 audio signature descriptors
Agarwaal et al. Robust and lightweight audio fingerprint for Automatic Content Recognition
Six et al. A robust audio fingerprinter based on pitch class histograms applications for ethnic music archives
Ciamarone et al. Automatic Dastgah recognition using Markov models
EP1797507B1 (en) Apparatus and method for generating an encoded rhythmic pattern
Tsai et al. Content-based singer classification on compressed domain audio data
Haro et al. Power-law distribution in encoded MFCC frames of speech, music, and environmental sound signals
Gruhne Robust audio identification for commercial applications
Lukasiak et al. An Examination of practical information manipulation using the MPEG-7 low level Audio Descriptors
Helen Similarity measures for content-based audio retrieval
KR20040000798A (ko) 음악 데이터의 점진적 분할 방법과 음악 데이터 검색방법
Lukasiak et al. Performance of mpeg-7 low level audio descriptors with compressed data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
N231 Notification of change of applicant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121130

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20141201

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20151130

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20161130

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20171205

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20181128

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20191129

Year of fee payment: 14