KR100896737B1

KR100896737B1 - 오디오 신호의 견고한 분류를 위한 장치 및 방법, 오디오신호 데이터베이스를 설정 및 운영하는 방법, 및 컴퓨터프로그램

Info

Publication number: KR100896737B1
Application number: KR1020077001703A
Authority: KR
Inventors: 에릭 알라망쉬; 쥐르겐 헤르; 올리버 헬무트; 토스텐 카스트너; 마르쿠스 크래머
Original assignee: 엠2애니 게엠베하
Priority date: 2004-07-26
Filing date: 2005-07-21
Publication date: 2009-05-11
Also published as: ES2299067T3; JP2008511844A; AU2005266546B2; PL1787284T3; HK1106863A1; JP4478183B2; WO2006010561A1; EP1787284A1; CA2573364C; DK1787284T3; EP1787284B1; CY1107233T1; SI1787284T1; AU2005266546A1; ATE381754T1; US20060020958A1; DE502005002319D1; US7580832B2; PT1787284E; CN101002254B

Abstract

오디오 신호로부터 핑거프린트 신호를 생성하는 장치는, 상기 오디오 신호로부터 에너지 값의 벡터들의 시퀀스를 얻도록 시간적으로 연속인 오디오 신호의 분절들의 주파수 대역들에 대하여 에너지 값들을 계산하는 수단(14), 스케일링된 벡터들의 시퀀스를 얻도록 상기 에너지 값들을 스케일링하는 수단(18), 및 핑거프린트를 나타내거나, 이로부터 핑거프린트가 얻어질 수 있도록 상기 스케일링된 벡터들의 시퀀스를 시간 필터링하는 수단(22)을 포함한다. 따라서, 코딩 또는 전송 채널들과 관련된 문제들로 인한 외란에 대하여 견고하며, 특히 모바일 무선 어플리케이션에 적합한 핑거프린트가 생성된다.

MPEG-7, 음성 신호 처리, 핑거프린트, DFT, FFT, 정규화, 양자화

Description

오디오 신호의 견고한 분류를 위한 장치 및 방법, 오디오 신호 데이터베이스를 설정 및 운영하는 방법, 및 컴퓨터 프로그램{DEVICE AND METHOD FOR ROBUSTRY CLASSIFYING AUDIO SIGNALS, METHOD FOR ESTABLISHING AND OPERATING AUDIO SIGNAL DATABASE AND A COMPUTER PROGRAM}

본 발명은 일반적으로 오디오 신호의 견고한 분류를 위한 방법 및 장치, 및 오디오 신호 데이터베이스를 설정하고 운영하는 방법에 관한 것으로서, 특히, 오디오 신호를 분류하는 장치 및 방법에 관한 것이다.

최근, 멀티미디어 데이터 재료의 활용가능성이 점점 증대되고 있다. 고성능 컴퓨터, 광대역 데이터망의 활용가능성의 증대, 고성능 압축 방법, 및 고용량 저장매체는 이러한 개발에 주로 공헌하였다. 특히, 활용가능한 오디오 컨텐츠의 수에 있어서 크게 증가하였다. MPEG1/2-Layer 3 표준(즉, 간단히 MP3)에 따라 코딩된 오디오 파일이 특히 널리 사용된다.

매우 흔하게 몇 편의 음악을 나타내는 대용량의 오디오 데이터는 오디오 데이터가 분류되도록 하고, 특정 오디오 데이터가 발견될 수 있도록 하는 장치 및 방법을 개발할 필요가 있도록 한다. 오디오 데이터는 예컨대 손실성 압축 또는 왜곡이 있는 전송 채널을 통한 전송으로 인하여 모든 경우에서 오디오 컨텐츠의 정확한 복원을 가능하게 하지 않는 다양한 포맷으로 주어지기 때문에, 값의 표현에 기초하기 보다는 컨텐츠 기반의 특성화에 기초하여 오디오 신호들을 산정하고 비교하는 방법에 대한 요구가 있다.

오디오 신호의 컨텐츠 기반의 특성화를 위한 수단의 적용 예 중 한 분야는, 예컨대, 오디오 신호에 메타데이터를 제공하는 것이다. 이는 특히 음악과 관련하여 특히 적합하다. 여기서, 주어진 음악의 일부에 대하여 제목과 연주자가 판정될 수 있다. 따라서, 저작권 정보뿐만 아니라 부가 정보, 예컨대, 음악 타이틀을 포함하는 앨범에 대한 정보 또한 판정될 수 있다.

컨텐츠 기반 특성화와 함께, 오디오 신호의 현재 표현으로부터 오디오 신호의 특징들이 추출되어야 한다. 특히, 오디오 신호의 오디오 컨텐츠에 기초하여 얻어지며, 오디오 신호를 분류, 검색, 또는 비교하기 위해 사용될 수 있는 데이터의 집합과 오디오 신호를 관련시키는 것이 유리하다는 점이 증명되었다. 이러한 데이터의 집합을 핑거프린트(fingerprint)라고 한다.

최근, 오디오 신호의 컨텐츠 기반 인덱싱을 위한 다수의 방법들이 출간되었다. 이러한 장치를 수단으로, 음악 신호, 또는 일반적으로 음성 신호들이 미리 설정된 성질로 인하여 특정의 클래스 또는 패턴과 관련될 수 있다. 따라서, 음향 신호들은 특정의 유사도에 의해 분류될 수 있다.

이하, 오디오 신호의 핑거프린트에 부여되는 주요 요구사항을 좀 더 상세하게 설명한다. 다수의 오디오 신호들이 활용가능하기 때문에, 합당한 컴퓨팅 비용으로 핑거프린트가 생산될 수 있도록 할 필요가 있다. 이는 핑거프린트를 생성하 는데 요구되는 시간을 줄이며, 이렇게 하지 않고는, 대규모의 핑거프린트 적용은 불가능하다. 또한, 핑거프린트는 너무 많은 메모리를 점유하지 않아야 한다. 많은 경우에 있어서, 하나의 데이터베이스에 다수의 핑거프린트를 저장할 것이 요구된다. 특히, 컴퓨터의 주 메모리의 다수의 핑거프린트들을 유지할 필요가 있을 수 있다. 이는 핑거프린트의 데이터 용량이 실제 오디오 신호의 데이터 용량보다 작아야 함을 명백히 보여준다. 한편, 핑거프린트는 하나의 음편(audio piece)에 대하여 특유화(characteristic)할 것이 요구된다. 이는 상이한 컨텐츠를 갖는 2 개의 오디오 신호는 또한 상이한 핑거프린트를 가져야 함을 의미한다. 또한, 핑거프린트에 있어서 중요한 요구 사항 중 하나는, 예컨대, 왜곡에 의해 동일한 오디오 컨텐츠를 나타내지만 서로 상이한 2 개의 오디오 신호의 핑거프린트는 비교시 동일하게 식별되도록 충분하게 유사할 것이 요구된다는 점이다. 이러한 성질은 통상 핑거프린트의 견고성(robustness)이라고 한다. 이는 특히 상이한 방법으로 압축 및/또는 코딩된 2 개의 오디오 신호가 비교되어야 하는 경우에 중요하다. 또한, 왜곡이 있는 채널을 통해 전송된 오디오 신호들은 원본의 핑거프린트와 매우 유사한 핑거프린트들을 가져야 한다.

오디오 신호로부터 특징(feature)들 및/또는 핑거프린트들을 추출하는 많은 방법들이 이미 공지되어 있다. 미국 특허 제5,913,223호에서는 오디오 정보를 컨텐츠 기반으로 분석하고, 저장하고, 검색하고, 분절화(segmentation)하는 방법을 개시하고 있다. 오디오 데이터의 분석은 특징 벡터라고 하는 한 셋트의 수치값을 생성하며, 이는 개별 음편들 간의 유사도를 분류하여 순위를 매기기 위하여 사용될 수 있다. 그 컨텐츠와 관련하여 음편들을 특성화 및/또는 분류하기 위해 사용되는 특징들은 음편의 소리크기, 피치, 소리의 선명도, 대역폭, 및 음편의 소위 MFCC (Mel-frequency cepstral coefficients)이다. 블록 또는 프레임 별로 값들이 저장되고 제1 시간 미분을 거치게 된다. 이로부터, 제1 미분을 포함하여 이들 각 특징별로 평균값 또는 표준 편차와 같은 통계량이 계산되어, 시간에 대한 편차를 기술한다. 이러한 통계량의 집합은 특징 벡터(feature vector)를 형성한다. 따라서, 특징 벡터는 음편의 핑거프린트이며, 데이터베이스에 저장될 수 있다.

전문가 간행물 「"Multimedia Content Analysis", Yao Wang et al., IEEE Signal Processing Magazine, November 2000, pages 12 to 36」에서는 멀티미디어 저작물을 목록화하고 특성화하기 위한 유사한 개념을 개시하고 있다. 특정 클래스와 오디오 신호를 효과적으로 관련시키기 위하여, 다수의 특징(feature)들 및 분류자(classifier)들이 개발되었다. 멀티미디어 저작물의 컨텐츠를 분류하기 위하여 제안된 특징들로는, 시간영역 특징 또는 주파수 영역 특징들이 있다. 이러한 것들로는, 오디오 신호 형태의 볼륨(volume), 피치, 및 기저 주파수, 전체 에너지 컨텐츠에 대한 대역의 에너지 컨텐츠, 스펙트럼 곡선의 차단 주파수, 등과 같은 스펙트럼 특징들을 포함한다. 소위 오디오 신호 샘플들의 블록별 수량에 관한 단기적 특징들에 더하여, 비교적 장기간의 음편에 관한 장기간 수량들 또한 제안된다. 또한, 해당 특징들의 시간차를 형성함으로써 일반적인 특징들이 형성된다. 블록별로 얻어진 특징들은 그 데이터율(data rate)이 그래도 너무 높기 때문에, 분류를 위해 바로 통과되지는 않는다. 또 다른 처리의 공통된 형태로는 단기적 통계치를 계산 하는 것을 포함한다. 이는, 예컨대, 평균값, 분산, 및 시간에 관한 상관계수들의 형성을 포함한다. 이는 데이터율을 감소시키지만, 한편으로는 오디오 신호의 인식이 강화되도록 한다.

PCT 국제 출원 WO 02/065782호에서는 핑거프린트를 멀티미디어 신호로 형성하기 위한 방법을 설명하고 있다. 이 방법은 오디오 신호로부터 하나 또는 수개의 특징들을 추출하는 것에 기초한다. 이를 위하여, 오디오 신호는 분절들로 나누어지고, 각 분절은 블록 및 주파수 대역별로 처리된다. 전력밀도 스펙트럼의 표준편차, 음조(tonality), 및 에너지를 대역별로 계산하는 것을 예를 들어 설명한다.

또한, 독일 특허 DE 101 34 471호 및 DE 101 09 648호에서는 오디오 신호를 분류하는 장치 및 방법으로서, 오디오 신호의 음조에 대한 측정치에 기초하여 핑거프린트가 구해지는 장치 및 방법을 개시하고 있다. 여기서, 핑거프린트는 오디오 신호들이 견고한 컨텐츠 기반의 방법으로 분류되도록 한다. 상기 문건들에서는 오디오 신호의 음조 측정치를 생성하는 일부 가능성을 제공한다. 각각의 경우에 있어서, 음조의 계산은 오디오 신호의 분절을 스펙트럼 영역으로 변환하는 것에 기초한다. 그 후, 주파수 대역 또는 주파수 대역 모두에 대하여 평행하게 음조가 계산될 수 있다. 이러한 방법의 단점은 오디오 신호의 왜곡이 증가하는 것만큼 핑거프린트가 더 이상 충분하게 정보를 반영하지 않으므로, 더 이상 만족스러운 신뢰도로 오디오 신호를 인식할 수 없다는 점에 있다. 반면, 매우 많은 경우에 왜곡이 발생하며, 특히, 낮은 송신품질을 갖는 시스템을 통해 오디오 신호가 전송되는 때에 왜곡이 많이 발생한다. 현재, 모바일 시스템에서 실제 그러하며, 특히 높은 데이터 압축율의 경우에 더욱 그러하다. 휴대 전화와 같은 이러한 시스템들은 주로 음성 신호들을 양방향으로 전송하도록 구성되며, 자주 음악 신호들을 매우 낮은 품질로 전송한다. 이는 전송되는 신호의 품질에 부정적인 영향을 끼칠 수 있는 기타의 인자들에 의해, 예컨대, 낮은 품질의 마이크, 채널 간섭 및 트랜스코딩 효과에 의해 부가된다. 신호 품질의 변형의 결과, 신호를 식별하고 분류하는 장치에 있어서 인식 성능이 크게 저하된다. 연구 결과에 의하면, 특히 독일 특허 DE 101 34 471호 및 DE 101 09 648호에 따른 장치 및/또는 방법을 사용하는 경우, 음조의 인식 기준(스펙트럼 평탄도)은 유지하면서 시스템을 변경함으로써, 인식 성능이 더 이상 크게 개선될 수 없음을 나타내었다.

오디오 신호를 분류하고, 및/또는 오디오 신호의 핑거프린트를 형성하는 공지의 방법들의 대부분은 이들에 주어진 요구에 부합할 수 없다고 할 수 있을 것이다. 오디오 신호의 왜곡에 대한 견고성에 있어서도 문제점이 있으며, 또한, 오디오 신호에 중첩되는 간섭에 대해서도 문제점이 있다.

오디오 신호를 저장 및 전송하는 현행의 시스템들 중 다수에 있어서, 신호 왜곡과 교란이 크게 발생한다. 이는 특히 손실성 데이터 압축방법 또는 분산된 전송 채널이 사용되는 경우에 그러하다. 손실성 압축은 오디오 신호를 저장 또는 전송하는 데 필요한 데이터율이 감소되어야 하는 때마다 사용된다. 그 예로서는, MP3 표준에 따른 데이터 압축 및 디지털 모바일 송수신기들에 사용되는 방법들을 들 수 있다. 두 경우 모두에 있어서, 신호들은 전송에 있어서 가능한 거칠게(coarsely) 양자화되는 점에서 낮은 데이터율이 얻어진다. 부분적으로 오디오 대역폭은 크게 제한된다. 또한, 예컨대 다른 신호부분들에 의해 마스킹되기 때문에 인간의 귀에 의해 전혀 인지되지 않는 신호 부분들 또는 매우 작은 범위에만 인지되는 신호 부분들은 삭제된다.

전송 채널 상의 교란 또는 간섭은 오늘날 통용되는 모바일 음성 전송 적용예에 있어서 매우 잦다. 특히, 인식 품질은 매우 낮은 것이 일반적이며, 이는 전송되는 오디오 신호 상의 잡음이 증가한 것으로 인하여 현저하게 된다. 또한, 매우 짧은 시간동안 전송이 완전히 방해되어, 전송대상의 오디오 신호의 짧은 부분이 완전히 소실되게 된다. 이러한 방해(interruption) 중에, 휴대 전화는 오디오 신호를 완전히 블랭킹(blanking)하는 것 보다는 인간에게는 덜 방해스럽게 인지되는 잡음 신호를 생성한다. 마지막으로, 한 모바일 무선 셀에서 다른 셀로 핸드오버하는 중에도 외란 또는 간섭이 발생한다. 분산된 오디오 신호의 식별이 여전히 높은 신뢰도에서 가능하도록, 이러한 모든 간섭의 효과가 핑거프린트의 손상에 크게 기여하여서는 않된다.

마지막으로, 오디오 신호의 전송이 또한 오디오 부분의 주파수 응답 특성에 영향을 받는다. 특히, 모바일 장치들에서 사용되는 것과 같은 작고 보잘 것 없는 구성품들은 한정된 주파수 응답을 가지므로, 식별 대상의 오디오 신호들을 왜곡시킨다.

전술한 간섭과 왜곡이 발생하는 동안에도 청취자가 높은 신뢰도로 오디오 신호를 식별할 수 있을 수 있지만, 종래의 오디오 신호 핑거프린트를 활용하는 오디오 신호 인식 수단으로는, 외란(disturbance)이 일어나는 경우 오디오 신호의 식별 성능은 크게 감소된다.

본 발명의 목적은 오디오 신호에 기반하여 좀 더 견고한 핑거프린트를 계산하는 개념을 제공하는 것이다.

이러한 목적은 청구항 제1항 또는 제25항에 따른 오디오 신호로부터 핑거프린트 신호를 생성하는 장치 및 방법, 청구항 제26항 또는 제27항의 오디오 신호를 특성화하는 장치 및 방법, 및 청구항 제28항의 오디오 데이터베이스를 설정하는 방법, 청구항 제29항의 오디오 신호 데이터베이스에 기초하여 정보를 취득하는 방법, 및 청구항 제31항의 컴퓨터 프로그램에 의해 성취된다.

본 발명은, 다양한 신호 왜곡에 의해 크게 영향을 받지 않으며, 사람의 청각과 유사한, 즉 대역 에너지들, 특히 스케일링된 대역 에너지들을 포함하는 형태로 액세스 가능한 신호의 특징을 사용하는 경우, 오디오 신호에 관련된 핑거프린트 신호가 간섭에 대하여 견고하며, 스케일링된 대역 에너지들의 시간 추이를 필터링함으로써 예컨대 무선 채널의 간섭에 대하여 추가의 견고성이 얻어진다는 발견에 기초한다.

사람의 듣기는, 오디오 신호들을 개별 주파수 대역들로 더욱 세분화하는 방식으로 오디오 신호들을 인지한다. 이에 따라, 대역별로 오디오 신호의 에너지를 판정하는 것이 유리하다. 따라서, 본 발명의 장치는 수 개의 주파수 대역들에 대하여 에너지 값들을 계산하는 수단을 포함한다. 이 수단에 의해, 오디오 신호의 스펙트럼 포락선이 기술적으로 또한 음향심리학적으로 유용한 근사치로 표현된다.

또한, 본 발명은, 수 개의 주파수 대역들 모두의 에너지 값들의 스케일링이 사람의 청각적 인식과 협조 관계에 있다는 발견에 기초하며, 에너지 값들의 기술적 처리를 간단화하여, 전송 채널의 차선의(suboptimal) 주파수 응답에 의해 초래되는 스펙트럼 신호 왜곡을 보상할 수 있다. 사람의 청각적 인식은, 개별 주파수 대역들이 그 성능의 측면에서 상승되거나 감쇠되는 경우일지라도, 오디오 신호를 식별할 수 있다. 또한, 청취자는 볼륨에 무관하게 신호를 식별할 수 있다. 이러한 청취자의 능력은 스케일링 수단에 의해 모사된다. 대역별 에너지 값들을 다시 스케일링하는 것은 기술적인 적용에 있어서 또한 유용하다.

필터 동작을 대역별 에너지 값들에 적용함으로써, 사람의 청각적 인식에서와 같은 방식으로 간섭이 종국적으로 제거된다. 여기서, 대역별 에너지 값들의 시간 필터링이 종래의 청각 신호 자체를 필터링하는 것보다 더욱 효과적이며, 종래의 장치들에서 보통 그러한 것과는 달리 신호 간섭에 대하여 더욱 견고한 핑거프린트의 형성을 가능하게 한다.

수 개의 주파수 대역들 내의 에너지 값들의 대역별 판정과 이를 스케일링 및 필터링하는 것을 조합한 본 발명의 장치에 의해, 높은 확실성을 갖는 오디오 신호의 견고한 핑거프린트 신호가 생성될 수 있다.

여기서, 본 발명의 장치의 장점은, 오디오 신호의 핑거프린트가 사람의 듣기에 맞추어진다는 점이다. 핑거프린트에 영향을 미치는 특징들은 순수하게 과학적이고 실질적으로 음향심리학에 기초로 한다. 본 발명의 장치가 적용되는 경우, 청취자가 이들을 유사한 것으로 판단하면, 오디오 신호들은 유사한 핑거프린트들을 갖는다. 핑거프린트의 유사도는 청취자에 의해 판정되는 것처럼 오디오 신호들의 유사도의 주관적 인식과 상관된다.

전술한 사항들의 결과는, 신호 간섭 및 왜곡을 갖는 오디오 신호일자라도 이를 식별하고 분류할 수 있도록 하는, 오디오 신호에 기반하여 핑거프린트 신호를 생성하는 장치이다. 핑거프린트들은 잡음, 채널에서 발생하는 간섭, 양자화 효과, 및 손실성 데이터 압축에 의한 아티팩트(artifact)에 대하여 특히 견고하다. 주파수 응답에 있어서 발생하는 왜곡일지라도, 본 발명의 장치에 의해 생성된 핑거프린트에는 아무런 심각한 영향을 끼치지 않는다. 따라서, 오디오 신호와 관련된 핑거프린트 신호를 생성하는 본 발명의 장치는 모바일 통신 수단, 예컨대, GSM, UMTS, 또는 DECT 표준에 따른 휴대 전화와 연계한 사용에 아주 적합하다.

바람직한 실시예에 있어서, 분당 약 1 kByte 의 데이터율의 오디오 물에서 조밀한 핑거프린트들이 생성될 수 있다. 이러한 조밀성(compactness)은 전자 데이터 처리 기기에서 핑거프린트들을 더욱 효율적으로 처리할 수 있도록 한다.

오디오 신호의 핑거프린트를 구하는 본 발명의 방법을 더욱 세밀하게 개선함으로써 추가의 장점들이 성취될 수 있다.

바람직한 실시예에 있어서, 고속 퓨리어 변환에 의해 오디오 신호의 분절에 대하여 이산 퓨리어 변환이 수행된다. 이어서, 퓨리어 계수의 양(amount)이 대역별로 제곱되고 합산되어, 주파수 대역별로 에너지 값들을 구한다. 이러한 방법의 장점은, 주파수 내역 내의 에너지가 저비용으로 계산될 수 있다는 점이다. 또한, 해당 동작은 이미 MPEG-7 표준에 포함되어 있으므로, 별도로 구현될 필요가 없다. 이는 개발 비용을 감소시킨다.

더욱 바람직한 실시예에 있어서, 주파수 대역들은 가변 대역폭을 가지며, 그 대역폭은 고주파수에서 더욱 크다. 이러한 절차는 사람의 듣기와 음향심리학적 발견과 같은 선상에 있다.

더욱 바람직한 실시예에 있어서, 스케일링 수단은 로그를 취하는 수단 및 상기 로그를 취하는 수단의 하향에 배치되어 정상 성분(DC 성분 같은 것)을 억제하는 수단을 포함한다. 이러한 구성은 대수적(logarithmic) 정규화 및 주파수 대역들 내의 신호 레벨의 영향의 제거가 낮은 비용으로 이루어지기 때문에 매우 유리하다. 시간적으로 일정한 신호 레벨의 변화는, 알고리즘을 취하는데 있어서 정상 성분을 수반한다. 이러한 정상 성분은 적절한 구성에 의해 비교적 간단한 방법으로 억제될 수 있다. 한편, 대수적 정규화는 사람의 소리 크기 인지(loudness perception)에 매우 잘 맞는다.

이하의 첨부 도면들을 참조하여 보다 상세하게 본 발명의 바람직한 실시예들을 설명한다.

도 1은 오디오 신호로부터 핑거프린트 신호를 생성하는 본 발명의 장치를 나타낸 블록도.

도 2는 오디오 신호로부터 핑거프린트 신호를 생성하는 장치를 나타낸 본 발명의 또 다른 실시예에 따른 세부 블록도.

도 3은 오디오 데이터베이스를 설정하는 방법을 나타낸 일 실시예의 플로우차트.

도 4는 오디오 신호 데이터베이스에 기초하여 정보를 획득하는 방법을 나타낸 일 실시예의 플로우차트.

도 1은 오디오 신호로부터 핑거프린트 신호를 생성하는 본 발명의 장치를 나타낸 블록도로서, 본 장치는 그 전체로 참조부호 10 으로 지정되어 있다. 본 장치에는 입력 신호로서 오디오 신호(12)가 공급된다. 제1단(14)에서는, 주파수 대역별로 에너지 값들이 계산되며, 그 후, 에너지 값들의 벡터(16)의 형태로 활용가능하게 된다. 제2단(18)에서는, 에너지 값들이 스케일링(scale)된다. 그 후, 수개의 주파수 대역에 대하여 스케일링된 에너지 값들의 벡터(20)가 활용가능하게 된다. 제3단(22)에 있어서, 이 벡터가 시간 필터링된다. 본 장치의 출력 신호로서는, 수 개의 주파수 대역에 대하여 스케일링되고 필터링된 에너지 값들의 벡터(24)가 존재하게 된다.

도 2는 오디오 신호로부터 핑거프린트 신호를 생성하는 장치를 나타낸 본 발명의 일 실시예에 따른 세부 블록도이며, 본 장치는 그 전체로 참조부호 30으로 지정되어 있다. 본 장치의 입력에는 펄스 코드 변조 오디오 신호(32)가 존재한다. 이 신호는 MPEG-7 프론트 엔드(front end)(34)에 공급된다. MPEG-7 프론트 엔드의 출력에는 벡터들(36)의 시퀀스가 존재하는데, 그 성분들은 각각의 대역의 에너지를 나타낸다. 이러한 벡터들의 시퀀스는 오디오 스펙트럼 포락선을 처리하기 위하여 제2단(38)으로 공급된다. 그 출력에서는, 그 전체로서 오디오 신호의 핑거프린트를 나타내는 벡터들(40)의 시퀀스가 존재한다. MPEG-7 프론트 엔드는 MPEG-7 오디 오 표준의 일부분이며, PCM 부호화된 오디오 신호(32)를 윈도윙(windowing)하기 위한 수단(50)을 포함한다. 윈도윙 수단(50)의 출력에는 30 ms의 길이를 갖는 오디오 신호 분절들(52)의 시퀀스가 존재한다. 이들은 이산 퓨리어 변환에 의해 분절들의 스펙트럼을 계산하는 수단(54)에 공급되며, 그 출력에는 퓨리어 계수들(56)이 존재한다. 최종 수단(58)은 오디오 스펙트럼 포락선(ASE: Audio Spectrum Envelope)을 구한다. 여기서, 퓨리어 계수들(56)의 양(amount)은 대역별로 제곱되어 합산된다. 이는 대역 에너지를 계산하는 것에 해당한다. 대역들의 폭은 주파수가 증가함에 따라 증가하며 (대수적인 대역 분류), 또 다른 파라미터에 의해 판정될 수 있다. 따라서, 각 분절에 대하여 벡터(36)가 얻어지며, 그 엔트리들은 길이 30ms의 분절의 주파수 대역 내의 에너지를 나타낸다. 대역별로 오디오 분절의 스펙트럼 포락선을 계산하는 MPEG-7 프론트 엔드는 MPEG-7 오디오 표준 (ISO/IEC JTC1/SC29/WG 11 (MPEG): "Multimedia Content Description Interface - part 4: Audio", International Standard 15938-4 ISO/IEC, 2001)의 일부분이다.

MPEG-7 프론트 엔드에서 얻어진 벡터들의 시퀀스는 오디오 신호들의 견고한 분류와 관련하여 적합하지 않다. 따라서, 특징으로 기능하는 벡터들의 시퀀스를 변경하여 이러한 특징이 보다 높은 견고성과 보다 낮은 데이터율을 얻도록 하기 위하여 오디오 스펙트럼 포락선을 처리하는 또 다른 단이 필요하다.

오디오 스펙트럼 포락선을 처리하는 수단(38)은 제1단으로서 대역별 에너지 값(36)들의 로그를 취하는 수단(70)을 구비한다. 로그를 취한 에너지 값(72)들은 그 후 저역통과 필터(74)에 공급된다. 저역통과 필터(74) 다음에는 에너지 값들의 수를 데시메이션(decimation)하는 수단(76)이 존재한다. 데시메이션된 에너지 값들(78)의 시퀀스는 고역통과 필터(80)에 공급된다. 고역통과 필터링된 스펙트럼 에너지 값들(82)의 시퀀스는 결국 신호-적응적 양자화기(signal-adapted quantizer)(84)에 전달된다. 그 출력에는, 처리된 스펙트럼 값들의 시퀀스(40)가 존재하며, 이는 그 전체로서 핑거프린트를 나타낸다.

이하, 오디오 신호로부터 핑거프린트 신호를 생성하는 장치의 구조의 설명에 기초하여, 동작 모드를 설명한다. 본 발명의 오디오 신호로부터 핑거프린트 신호를 생성하는 장치의 기본은, 오디오 신호 분절의 수 개의 주파수 대역들 내의 대역 에너지들을 계산하는 것이다. 이는 오디오 스펙트럼 포락선을 결정하는 것에 해당한다. 도시된 실시예에 있어서, 이는 MPEG-7 프론트 엔드(34)에 의해 성취된다. 본 실시예에 있어서, 대역들의 폭은 주파수가 증가함에 따라 증가하는 것이 바람직하며, 주파수 대역들의 에너지 값들은 MPEG-7 프론트 엔드(34)의 출력에서 대역 에너지 값들의 벡터(36)로서 활용가능한 것이 바람직하다. 이러한 신호 처리는 사람의 듣기에 대응하며, 여기서 인지된 신호는 수 개의 주파수 대역들로 분할되고, 그 폭들은 주파수가 증가함에 따라 증가한다. 따라서, 이러한 점에서 사람의 소리 감지가 MPEG-7 프론트 엔드(34)에 의해 모사(copy)된다.

그 다음 처리 단계에서는, 대역별로 에너지 값들이 정규화된다. 정규화 장치는, 에너지 값들의 로그를 취하는 수단(70)과 고역통과 필터(80)의 2 개의 단을 포함한다. 여기서, 로그를 취하는 것은 2 개의 과제를 수행한다. 한편, 로그를 취하는 것은 사람이 소리크기를 인지하는 것을 모사하는 것이다. 특히, 높은 볼륨에 있어서, 또는 높은 레벨의 소리크기에 있어서, 오디오 성능이 2배 되는 경우,사람이 느끼는 소리크기는 2배가 아닌 로그 2 배로 증가된 것처럼 느낀다. 그래서 로그를 취하는 수단(70)은 사람의 소리인지와 동일하도록 하기 위한 것이다. 또한, 로그를 취하는 수단(70)은 대역 내의 에너지 값들의 범위가 감소되는 장점을 가지며, 이는 숫자의 표기를 가능하게 하여, 기술적 관점에서 명백하게 유리한 것이다. 특히, 부동소수점 표기를 사용할 필요가 없는 반면, 고정소수점 표기가 사용될 수 있다.

또한, 여기서, "로그를 취하는 것"은 엄격하게 수학적 의미에서 이해되어야 하는 것은 아님을 알아야 한다. 특히, 주파수 대역 내의 에너지들이 더 작으면, 로그를 취하는 것은 매우 큰 양의 값들을 가져오게 된다. 이는 기술적 관점에서 유용하지 않을 뿐더러, 사람의 소리 지각에 대응하지도 않는다. 반면, 작은 에너지 값들에 있어서 대략 선형적인 특성을 이용하거나, 적어도 값들의 범위의 하한을 설정하는 것이 유용하다. 이는 사람의 인식에 대응하는 것이며, 여기서 작은 볼륨에 있어서는 듣기 임계치가 존재하나, 높은 볼륨에서는 대략 대수적인 음향 전력의 인식이 발생한다. 따라서, 경험상 나타나듯이, 매우 큰 범위의 값들을 나타내는 에너지 값들의 다이나믹스(dynamics)는 로그를 취함으로써 더욱 작은 값으로 압축된다. 따라서, 상기 설명에 따라서 로그를 취하는 동작은 대략 특정의 소리크기 형성에 대응하는 것이다. 대수 베이스를 선택은 관련 없는데, 이는 다른 신호처리, 특히 최종 양자화에 의해 보상될 수도 있는 곱셈 상수(multiplicative constant)에 단지 대응하는 것이기 때문이다.

동적 범위를 압축하는 것과 사람의 듣기와 적응화를 수행하는 것에 더하여, 스케일링은 또한 오디오 신호의 레벨에 무관하게 오디오 신호로부터 핑거프린트를 형성하는 과제를 수행한다. 이해를 용이하게 하기 위하여, 전송 채널을 통해 전송된 신호와 원래 활용가능하였던 변형되지 않은 신호 양측으로부터 핑거프린트가 형성될 수 있음이 고려되어야 한다. 여기서, 소리크기 또는 레벨의 변화가 발행할 수 있다. 또한, 일정하지 않은 주파수 응답을 갖는 전송 경로를 통한 전송에 있어서, 개별 주파수 성분들이 감쇠되거나 증폭된다. 따라서, 동일한 컨텐츠를 갖는 2 개의 신호는 변화하는 스펙트럼 에너지 분산을 나타낼 수 있다. 이하에 있어서, 2 개의 신호간의 주파수 응답 왜곡은 시간에 의존하지 않는다고 가정한다. 또한, 주파수 대역 내의 왜곡은 대략 일정하다고 가정한다. 이러한 경우, 소정의 주파수 대역 내의 에너지들은 동일한 오디오 컨텐츠를 갖는 2 개의 신호에 있어서 시간에 대하여 일정한 곱셈 상수만큼 다를 뿐이라고 가정할 수 있다. 로그를 취하는 동작은 시간에 대하여 일정한 곱셈 상수를 시간에 있어서 일정한 덧셈항에 맵핑시킨다. 따라서, 에너지의 로그를 취한 후에는, 두 신호에 있어서 상이한 증폭 및/또는 감쇠 상수가 특징 값의 일정한 덧셈항으로 나타난다. 이러한 항은 고역통과 필터(80), 특히 정상 성분(steady component)을 억제하는 고역통과 필터를 적용함으로써 신호로부터 필터링된다. 정상 성분을 제거하는 기타의 필터들이 또한 사용될 수 있다. 특히, 본 구성에 있어서, 이러한 적응화(adaptation)가 각 주파수 대역별로 개별적으로 일어난다는 점에 주목한다. 따라서, 각 주파수 대역에 대한 레벨들의 정규화는 독립적이며, 신호의 스펙트럼 왜곡이 보상될 수 있다. 한편, 이는 스펙트럼적으로 왜곡된 오디오 신호들을 식별하는 사람의 듣기 능력에 대응한다.

또한, 오디오 신호로부터 핑거프린트 신호를 생성하는 장치는 본 실시예에 있어서 저역통과 필터(74)를 포함한다. 시간 영역에 있어서 후자가 주파수 대역들의 에너지 값들의 시퀀스를 필터링한다. 주파수 대역들에 대하여 개별적으로 필터링이 다시 일어난다. 저역통과 필터링은 그 로그가 취해진 시간적인 값들의 시퀀스가 식별 대상의 신호 성분과 간섭성분 양쪽 모두를 포함하므로, 유용하다. 저역통과 필터링은 에너지 값들의 시간적 추이를 평활화시킨다. 따라서, 간섭에 의해 대부분 비롯되는, 빠르게 변화할 수 있는 성분들은 주파수 대역들의 에너지 값들의 시퀀스로부터 제거된다. 이는 의사(spurious) 신호의 억제를 개선하는 결과를 가져온다.

동시에, 저역통과 필터(74)에 의한 저역통과 필터링에 의해 주로 고주파 성분들에 제거가 집중되어 처리 대상의 정보량이 감소된다. 신호의 저역통과 특성으로 인하여, 정보의 손실없이 저역통과 필터(74)의 하향에 접속된 데시메이션 수단(76)에 의해 특정 인자(D)만큼 신호가 데시메이션될 수 있다 ("샘플링 이론"). 이는 주파수 대역의 에너지에 대하여 보다 작은 수의 샘플들이 사용된다는 것을 의미한다. 여기서, 데이터율은 D의 인자 만큼 감소된다.

따라서, 데시메이션 수단(76)과 저역통과 필터(74)의 조합은 저역통과 필터링에 의한 간섭을 삭제하도록 할 뿐만 아니라, 특히 중복적 정보가 삭제되도록 하므로, 핑거프린트 신호의 데이터량 또한 감소되도록 한다. 그러므로, 사람의 청각에 직접적인 영향을 미치지 않는 모든 정보가 삭제된다. 필터의 저역통과 주파수를 사용하여 데시메이션 인자가 결정된다.

결국, 신호-적응적(signal-adapted) 방법으로 양자화 수단(84)에서 처리되도록 에너지 값들을 양자화하는 것이 좋다. 본 처리에 있어서, 유한 정수값들이 실제 측정된 에너지 값들과 관련된다. 양자화 간격은 보통 그러하듯이 불균일할 수 있으며, 신호 통계에 의해 결정될 수 있다. 다른 방법으로, 작은 값들에 대해서는 작은 양자화 간격들을 사용하고, 높은 값들에 대해서는 큰 양자화 간격들을 사용하는 것이 유리할 수 있다. 특히, 고역통과 필터(80)와 양자화 수단(84)을 상호 연결하는 것은 장점을 제공한다. 고역통과 필터(80)는 신호의 값의 범위를 감소시킨다. 이는 낮은 해상도에서 양자화가 이루어지도록 한다. 마찬가지로, 다수의 값들이 작은 수의 양자화 스텝들에 맵핑되며, 이는 양자화된 신호가 엔트로피 코드로 코딩되도록 하여, 데이터량을 감소시킨다.

또한, 전처리 수단에서 신호의 진폭 통계를 형성함으로써 신호-적응적 양자화가 이루어질 수 있다. 따라서, 어느 진폭 값들이 신호 내의 최고 주파수에 필적하는지 알려진다. 해당 값들의 상대 주파수에 기초하여 양자화기의 특성이 결정된다. 자주 발생하는 진폭값들에 대하여 정교한 양자화 레벨이 선택되는 반면, 신호들에 있어서 드물게 발생하는 관련 진폭 간격들은 보다 큰 양자화 레벨들에서 양자화된다. 이는 소정의 진폭 통계를 갖는 주어진 신호에 있어서 최소의 오류 확률(통상 에러 행동(behaviour) 또는 에러 에너지로 측정됨)로 양자화가 성취될 수 있는 장점을 부여한다. 양자화 레벨들의 크기가 실질적으로 관련 신호 값에 비례하는 전술한 비선형 양자화와 비교하여, 양자화기는, 수 개의 신호들이 매우 유사한 진폭 통계를 갖는 것으로 가정하지 않는 한, 신호-적응적 양자화에서 각 신호에 대 하여 재조정되어야 한다.

특징 벡터들의 신호-적응적 양자화는 조정된 벡터 양자화기로 벡터 성분들을 양자화함으로써 또한 이루어질 수 있다. 따라서, 기존의 성분들간의 상관치 또한 암묵적으로 참작된다.

직접적인 벡터 양자화를 수행하는 대신, 양자화 이전에 벡터들이 선형 변환을 거치도록 할 수도 있다. 이러한 변환은 변환된 벡터 성분들의 최대 비상관도(maximum de-correlation)가 보장되도록 구성되는 것이 바람직하다. 이러한 변환은 주축 변환으로 계산될 수도 있다. 이러한 동작에 있어서, 통상 신호 에너지는 제1 변환 성분들에 집중되어, 최종 값들이 무시될 수도 있다. 이는 치수의 감소에 대응한다. 이어서, 변환된 벡터들이 스칼라 양자화를 거친다. 이는 모든 성분들에 대하여 신호-적응적인 방법으로 수행되는 것이 바람직하다.

따라서, 오디오 신호로부터 핑거프린트 신호를 생성하도록 하는 본 장치의 일 실시예를 설명하였다. 한편, 주어진 본 장치의 주요한 장점은 높은 견고성으로 이루어지며, 이는 한편 작은 사이즈의 기호(signature)로 GSM 코딩된 오디오 신호들을 식별하는 능력을 부여한다. 분당 약 1 kByte 속도의 오디오 자료의 기호가 생성될 수 있다. 평균적인 노래 길이는 약 4분이며, 이는 노래 당 4 kByte 의 기호 크기를 가져온다. 이러한 조밀성은 무엇보다도 개별 컴퓨터의 주 메모리의 참조 기호의 수가 증가되도록 한다. 따라서, 보다 새로운 컴퓨터 상의 주 메모리 내에는 100만개의 참조 기호가 쉽게 수용될 수 있다.

도 2를 참조하여 설명한 실시예는 본 발명의 바람직한 실시예를 나타낸다. 그러나, 본 발명의 실질적인 아이디어로부터 일탈하지 않고서 매우 다양한 변형을 가할 수 있다.

주파수 대역들 내의 에너지들을 결정하기 위하여 다수의 상이한 수단들이 사용될 수 있다. MPEG-7 프론트 엔드(34)는 오디오 신호의 분절들 내의 수 개의 주파수 대역들의 출력에서 에너지 값들이 확실하게 활용가능하게 되는 한 다른 장치로 대체될 수 있다. 여기서, 특히, 주파수 대역들의 분류(classification)가 변경될 수 있다. 대수적인 대역 분류를 대신하여, 기타의 대역 분류가 사용될 수 있는 데, 사람의 듣기에 걸맞는 대역 분류를 사용하는 것이 바람직하다. 오디오 신호가 분할되는 분절의 길이 또한 변할 수 있다. 데이터율을 작게 유지하기 위하여, 적어도 10 ms의 분절 길이가 바람직하다.

주파수 대역들의 에너지 값들을 스케일링하기 위하여 다양한 방법들이 활용가능하다. 상기 실시예에서 설명한 바와 같이 고역통과 필터링에 이어서 스펙트럼 대역 에너지의 로그를 취하는 것을 대신하여, 예컨대, 근사 대수(approximate logarithm)가 취해질 수도 있다. 또한, 로그를 취하는 수단의 초기 값의 범위는 제한될 수 있다. 이는 특히 에너지 값들이 매우 작은 경우, 로그를 취하는 결과가 제한된 값의 범위내에 있도록 하는 장점을 부여한다. 특히, 로그를 취하는 수단(70)은 또한 사람의 소리크기 인지에 더욱 잘 적응화된 수단으로 교체될 수도 있다. 이러한 개선된 수단은 특히 주관적 소리크기 인지 뿐만 아니라 더 낮은 사람의 듣기 문턱치를 고려할 수 있다.

또한, 스펙트럼 대역 에너지들이 전체 에너지에 의해 정규화될 수 있다. 이 러한 실시예에서는, 개별 주파수 대역의 에너지 값들이 정규화 인자 만큼 분할되며, 이는 스펙트럼의 총 에너지의 측정치이거나 또는 고려되는 대역들의 총 에너지이다. 이러한 형태의 정규화에 있어서, 더 이상 고역통과 필터링이 수행될 필요는 없으며, 로그를 취할 필요도 없다. 반면, 각 분절 내의 총 에너지는 일정하다. 이러한 접근법은, 특히 개별 주파수 대역들 내에 매우 작은 평균 에너지만이 존재한다면 장점이 있다. 이러한 정규화 방법으로는 상이한 대역들 내의 에너지들의 비를 얻는다. 몇몇 오디오 신호들에 있어서, 이는 중요한 특징을 나타낼 수 있으며, 특징을 얻는 데 유리하다. 오류없는 오디오 신호의 결과, 즉, 주파수 응답에 있어서 왜곡되지 않는 오디오 신호의 결과로서, 어떤 형태의 정규화가 적당한지에 대한 결정이 이루어질 수 있다. 예컨대, 「Y. Wang, Z. Liu and J.C. Huang: "Multimedia Content Analysis", IEEE Signal Processing Magazine, 2000」에는, 총 에너지로 스펙트럼 대역 에너지들을 정규화시키는 것이 제안되었다.

또한, 로컬 스펙트럼 정규화를 수행할 수 있다. 이러한 종류의 정규화는 「J. Soo Seo, J. Haitsma and T. Kalker: "Linear Speed-change Resilient Audio Fingerprinting", Proceedings 1^st IEEE Benelux Workshop on Model Based Processing and Coding of Audio", Leuven, Belgium, 2002」에 기재되어 있다.

연속적인 분절들 내의 에너지 값들의 시간적 평활화를 위하여 다양한 방법들이 채용될 수 있다. 전술한 실시예에 있어서, 디지털 저역통과 필터가 사용된다. 또한, 에너지 값들에 대하여 변조 스펙트럼을 계산할 수 있다. 여기서, 저주파 변 조 계수들은 스펙트럼 에너지 값들의 평활화된 추이(course)를 설명한다. 오디오 인식에 변조 스펙트럼을 사용하는 것은, 예컨대, 「S. Sukittanon and L. Atlas: "Modulation Frequency Features for Audio Fingerprinting", IEEE ICASSP 2002, pp. 1773-1776, Orlando, Florida, USA, 2002」에 기재되어 있다. 이와 비교하여, 연속적인 분절들 내의 에너지 값들의 시간적 추이의 평활화는 변화하는 평균값을 계산함으로써 이루어질 수 있다. 따라서, 특정 수의 연속적인 특징들로부터 평균값이 계산된다. MPEG-7 표준에서는, 예컨대, "확장가능한 급수(scalable series)"에 의해 이러한 것이 가능하다. 그러나, 이러한 형태의 평활화는 신호 이론의 맥락에서 에일리어싱을 가져온다는 단점을 갖는다. 그러나, 그 효과는 대부분 적합한 치수를 갖는 저역통과 필터에 의해 삭제될 수 있다.

또한, 데시메이션 단을 생략할 수 있다. 특히, 처리된 오디오 신호의 분절들이 매우 길다면 이는 유익하다. 이러한 경우, 자연히 데이터율은 이미 충분히 낮으며, 더 이상 데시메이션이 필요치 않다. 이러한 구성의 장점으로는, 전체 장치에 있어서, 스펙트럼 에너지 값들로부터 핑거프린트를 유도하기 위하여 동일한 데이터율이 작용된다는 점이다. 이는 특히 컴퓨터 프로그램의 형태에서 기술적인 구현을 용이하게 한다.

고역통과 필터(80)는 광범위하게 변화할 수 있다. 매우 간단한 실시예로서, 2개의 연속적인 값들 각각의 차이를 사용하는 것을 포함한다. 이러한 실시예는 기술적 관점에서 실현하기에 매우 간단하다는 장점을 갖는다.

양자화 수단(84)은 광범위하게 개조될 수 있다. 이는 본 실시예에서 절대적 으로 필요한 것이 아니며, 생략될 수 있다. 이는 본 발명의 장치의 구현에 발생하는 비용을 감소시킨다. 한편, 또 다른 실시예로서, 신호에 적응화되는 양자화 수단이 사용될 수 있으며, 여기서 양자화 간격은 신호의 진폭 통계에 적응화된다. 따라서, 신호의 양자화 에러는 최소로 된다. 또한, 신호에 대하여 벡터 양자화가 적응화될 수 있으며, 또한, 벡터 양자화가 선형 변환과 조합될 수 있다.

또한, 양자화 수단을 고역통과 필터링 장치 및/또는 차이를 구하는 장치와 조합할 수 있다. 많은 경우에 있어서, 차이를 구하는 것은 양자화 대상 신호들의 값의 범위를 감소시킨다. 에너지 값의 변화는 강조되며, 시간에 대하여 일정한 신호들은 0으로 된다. 신호가 시간에 대하여 연속적인 충분히 큰 수의 분절들 내에서 거의 변화하지 않는 값들을 나타낸다면, 차이는 거의 0이 된다. 따라서, 양자화기의 출력신호 또한 0이 된다. 양자화된 신호들을 코딩하는 것이 엔트로피 코드를 사용하여 이루어지는 경우, 여기서 짧은 심볼은 자주 발생하는 신호 값과 관련되며, 저장공간의 측면에서 최소 비용으로 파형이 저장된다.

또 다른 실시예에 있어서, 각 주파수 대역별로 처리된 에너지 값들을 개별적으로 양자화하는 스칼라 양자화기는 벡터 양자화기와 교체될 수 있다. 이러한 벡터 양자화기는 정수 인덱스값을 사용되는 주파수 대역들(예컨대, 4 개의 주파수 대역) 내에 처리된 에너지 값을 포함하는 벡터와 관련시킨다. 에너지 값들의 각 벡턱에 대한 결과는 이제 스칼라 값일 뿐이다. 따라서, 주어진 데이터량은, 벡터 내의 상관이 고려되기 때문에 주파수 대역들 내의 에너지 값들의 개별적인 양자화 보다 작다.

또한, 작은 에너지 값들보다 큰 에너지 값들에 대하여 양자화 레벨의 폭이 더 큰 양자화의 형태가 사용될 수 있다. 그 결과는 작은 신호들이라도 만족스러운 해상도로 양자화될 수 있다는 것이다. 특히, 작고 큰 에너지 값들에 대하여 대략 동일한 크기의 최대 상대 양자화 에러를 갖는 양자화 수단을 설계할 수 있다.

또한, 또 다른 실시예에 있어서, 처리 수단의 순서가 바뀔 수 있다. 특히, 에너지 값들을 선형적으로 처리하는 수단은 교환될 수 있다. 그러나, 데시메이션 수단이 존재한다면 저역통과 필터의 바로 다음의 하향에 배치되는 것이 적합하다. 이러한 저역통과 필터와 데시메이션과의 조합은, 언더샘플링으로 인한 방해 영향이 가장 효과적으로 방지될 수 있으므로, 유용하다. 또한, 로그를 취하는 때에 생길 수 있는 정상 성분을 삭제할 수 있기 위해, 고역통과 필터는 로그를 취하는 수단의 하향에 배치되어야 한다.

본 발명의 오디오 신호로부터 핑거프린트 신호를 생성하는 장치는, 오디오 데이터베이스를 설정하고 동작시키는데 유리하게 채용될 수 있다.

도 3은 데이터베이스를 설정하는 방법의 일 실시예를 나타낸 플로우차트이다. 여기 기재된 것은 오디오 신호에 기초하여 새로운 데이터 집합을 생성하는 접근법이다. 일단 처리가 시작되면, 제1 자유 데이터 집합이 처음으로 검색된다. 이어서, 처리를 위해 오디오 신호가 존재하는지에 대하여 검색이 이루어진다. 존재한다면, 오디오 신호에 관련된 핑거프린트 신호가 생성되고, 데이터베이스에 저장된다. 또한, 오디오 신호에 대한 정보(소위, 메타데이터)가 아직 존재한다면, 또한 데이터베이스에 저장되며, 핑거프린트에 대한 상호참조가 이루어진다. 여기 서, 데이터 집합의 저장이 완료된다. 데이터베이스 어플리케이션에서는, 그 후, 가장 근접한 자유 데이터 집합에 대하여 포인터가 설정된다. 오디오 신호들이 더 처리되어야 한다면, 전술한 처리가 수 회 순환된다. 처리되어야 할 오디오 신호가 더 이상 없다면, 처리는 종료된다.

도 4는 오디오 신호 데이터베이스에 기초하여 정보를 획득하는 처리를 나타낸 일 실시예의 플로우차트이다. 본 처리의 목적은 데이터베이스로부터 소정의 검색 오디오 신호에 대한 정보를 획득하는 것이다. 제1 단계에서는, 검색 오디오 신호로부터 검색 핑거프린트가 생성된다. 이를 위하여, 본 발명에 따른 장치 및/또는 방법이 채용된다. 이어서, 데이터베이스의 데이터 집합 포인터가 열람(browse)되어야 하는 제1 데이터 집합으로 지향된다. 그 후, 데이터베이스에 신호가 저장되는, 데이터베이스 엔트리를 위한 핑거프린트 신호가 데이터베이스로부터 판독된다. 검색 핑거프린트 신호 및 판독된 현재 데이터베이스 엔트리의 핑거프린트 신호에 기초하여, 이제 오디오 신호들의 유사도에 대하여 일람표(설명서:statement)가 작성된다. 데이터 집합들이 더 처리되어야 한다면, 핑거프린트 신호를 판독하여 이를 검색 핑거프린트 신호와 비교하는 처리가 또 다른 데이터 집합들에 대하여 반복된다. 열람되어야 하는 모든 데이터 집합들이 처리되었다면, 검색 결과에 대한 일람표가 작성되며, 여기서 열람되어야 하는 데이터 집합 각각에 대하여 작성된 일람표들이 참작된다.

바람직한 실시예에 있어서, 오디오 신호 데이터베이스를 열람하는 본 발명의 방법은, 오디오 신호에 속하는 메타정보를 출력하는 것을 포함하도록 확장된다. 이는 예컨대 수 편의 음악과 관련하여 유용하다. 음악 타이틀의 주어진 부분에 의해, 전술한 방법을 사용하여 데이터베이스가 열람될 수 있다. 일단 데이터베이스에서 캡쳐된 음악타이틀과 알려지지 않은 음악 타이틀의 충분한 유사도가 인식되면, 데이터베이스에 저장된 메타데이터는 출력될 수 있다. 이러한 데이터는 예컨대 음악의 제목과 연주자, 타이틀을 포함하는 앨범의 정보, 및 공급원 및 저작권에 대한 정보를 포함할 수 있다. 따라서, 그 부분에 기초하여 한 편의 음악에 대하여 요구되는 모든 정보를 획득할 수 있다.

전술한 방법의 확장 예에 있어서, 데이터베이스는 실제 음악 데이터를 포함할 수도 있다. 따라서, 음악의 일부분의 지식에서 시작해서 음악 전체가 전달될 수 있다.

물론, 전술한 오디오 데이터베이스를 운용하는 방법은 음악에 한정되지는 않는다. 반면, 모든 종류의 자연적인 소리 또는 기술적인 소리들이 이에 따라 분류될 수 있다. 따라서, 본 발명의 방법에 기초한 오디오 데이터베이스는 해당 메타데이터를 전달할 수 있으며, 매우 다양한 음향 신호들의 인식을 가능하게 할 수 있다.

도 3 및 도 4를 참조하여 설명한 오디오 신호 데이터베이스를 설정하고 운용하는 방법들은 핑거프린트 신호가 생성되는 방식에 있어서 종래의 데이터베이스와는 실질적으로 상이하다. 핑거프린트 신호를 생성하는 본 발명의 방법은 오디오 신호의 컨텐츠에 기초하여 외란 영향에 대하여 매우 견고한 핑거프린트 신호의 생성을 가능하게 한다. 따라서, 비교를 위해 사용되는 오디오 신호가 이에 중첩된 외란을 갖거나 그 주파수 응답에서 왜곡될지라도, 데이터베이스에 미리 저장된 오디오 신호의 인식이 높은 신뢰도로 이루어질 수 있다. 또한, 본 발명의 핑거프린트 신호의 크기는 겨우 노래당 약 4 kByte 이다. 이러한 조밀성은 다른 방법들과 비교했을 때 단일 컴퓨터의 주 메모리 내의 참조 기호의 수가 증가되는 이익을 부여한다. 현대의 컴퓨터의 주 메모리에는 100만개의 핑거프린트 신호들이 수용될 수 있다. 따라서, 오디오 신호의 검색이 매우 신뢰적일 뿐만 아니라 매우 빠르고 자원효율적인 방식으로 수행될 수 있다.

도 3 및 도 4를 참조하여 설명한 처리들은 광범위하게 변경될 수 있다. 특히, 본 발명의 핑거프린트 신호가 사용되는 한, 데이터베이스를 설정하고 운용하는 데 적합한 임의의 방법이 채용될 수 있다. 예컨대, 개별 솔루션에 있어서, 실제로 필요한 후에야 데이터베이스로부터 핑거프린트 신호를 생성하는 것이 용이하다. 이는, 오디오 데이터베이스가 한 번에 수 개의 과제를 수행한다면, 또한, 2 개의 오디오 신호들의 비교가 예외적으로만 필요하다면, 유리하다. 또한, 추가의 검색 기준이 용이하게 포함될 수 있다. 또한, 핑거프린트 신호에 기반하여 데이터베이스의 엔트리들을 유사한 오디오 신호들의 클래스와 관련시키고, 클래스와의 관계에 대한 정보를 데이터베이스에 저장할 수 있다.

따라서, 본 발명은 오디오 신호가 특성화되도록 하고, 및/또는 데이터베이스가 이러한 핑거프린트에 기반하여 설정 및 운용되도록 하는 장치 및 방법 뿐만 아니라 오디오 신호로부터 핑거프린트 신호를 생성하는 장치 및 방법을 제공한다. 여기서, 핑거프린트 신호의 생성은, 음향심리학적 현상뿐만 아니라 외란에 대한 견 고성 및 핑거프린트 신호의 작은 크기, 기술적 실현 및 저비용의 구현에 적합한 측면들 모두를 참작한다. 그 결과, 데이터 용량에 있어서 매우 작고, 오디오 신호의 컨텐츠를 특성화하여 오디오 신호가 높은 신뢰도로 인식될 수 있도록 하는 핑거프린트 신호가 얻어진다. 핑거프린트 신호의 사용은 오디오 신호의 분류와 데이터베이스 어플리케이션에 모두에 대하여 적합하다.

환경에 따라서, 오디오 신호로부터 핑거프린트 신호를 생성하는 본 발명의 방법은 하드웨어 또는 소프트웨어로 구현될 수 있다. 디지털 저장 매체, 특히 대응하는 처리가 실행되도록 프로그램가능한 컴퓨터 시스템과 통합될 수 있는 전자적으로 판독가능한 제어 신호들을 갖는 CD 또는 디스크 상에서 구현될 수 있다. 일반적으로, 본 발명은 따라서 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행되는 경우, 본 발명의 방법을 수행하기 위하여 기계 판독가능한 반송자 형태로 저장된 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로 구성된다. 또한, 본 발명은 컴퓨터 상에서 실행되는 경우 본 방법을 수행하는 프로그램 코드를 갖는 컴퓨터 프로그램으로서 실현될 수 있다.

또한, 본 발명은 또한 더욱 세밀한 개선을 통해 더욱 개발될 수도 있다.

일 실시예에 있어서, 오디오 신호의 분절은 시간적으로 적어도 10 ms 의 길이를 갖는다. 이러한 구성은 더 짧은 분절 길이를 사용하는 방법과 비교하여 개별 주파수 대역들내에 형성되어야 하는 에너지 값들의 수를 감소시킨다. 조작되는 데이터의 양이 더 작으며, 데이터의 후속 처리를 위한 비용은 더 낮다. 그러나, 약 20 ms의 분절 길이는 사람의 인지의 측면에서 충분히 작다는 것을 발견하였다. 주 파수 대역의 더 짧은 오디오 성분은 통상의 오디오 신호들에서 발생하지 않으며, 오디오 신호 컨텐츠의 사람의 인지에 거의 기여하지 않는다.

일 실시예에 있어서, 스케일링 수단은 에너지 값들의 범위를 압축하여 압축된 에너지 값들의 범위가 압축되지 않은 에너지 값들의 범위보다 작도록 설계된다. 이러한 실시예는 에너지 값들의 동적 범위가 감소되는 장점을 제공한다. 이는 소위 수치 표현을 가능하게 한다. 이에 의해, 특히 부동소수점 표현을 사용할 필요가 없어진다. 또한, 이러한 접근법은 사람의 귀에서 발생하는 동적인(dynamic) 압축을 참작한다.

또 다른 실시예에 있어서, 스케일링은 에너지 값들의 정규화와 함께 이루어질 수 있다. 정규화가 수행된다면, 오디오 신호의 컨트롤-레코딩 레벨에 대한 에너지 값들의 의존도가 제거된다. 이는 실질적으로, 큰 소리의 신호와 약한 신호에 동일하게 적응하며, 현재의 재생 볼륨에 무관하게 컨텐츠의 관점에서 2 개의 오디오 신호들 사이의 대응관계를 확정하는, 사람의 듣기 능력에 해당한다.

일 실시예에 따르면, 상한과 하한 사이의 간격으로 값들의 범위를 제한할 수 있으며, 또는 에너지 값들의 로그를 취할 수 있다. 두 접근법은 오디오 신호의 견고한 핑거프린트를 가져온다. 여기서, 로그를 취하는 것은 사람의 청각과 더욱 밀접하게 관련된다.

일 실시예에 있어서, 스케일링 수단은 사람의 소리크기 인지에 따라서 에너지 값들을 스케일링하도록 구성된다. 이러한 접근법은 약한 소리 및 큰 소리 모두사람의 청력에 따라서 매우 정확하게 산정되는 이익을 부여한다.

바람직한 실시예에 따르면, 에너지 값들을 스케일링하는 수단은 대역별로 에너지 값들을 스케일링하도록 구성된다. 여기서, 대역별로 스케일링하는 것은 주파수 응답에 있어서 왜곡이 있어도 오디오 신호를 인지하는 사람의 능력에 해당한다.

일 실시예에 있어서, 정상 성분은 로그를 취하는 수단의 하향에 연결된 고역통과 필터에 의해 삭제된다. 이는 소정의 임계 범위 내의 모든 주파수 대역들에서 동일한 컨트롤-레코딩 레벨을 달성하도록 한다. 여기서, 스펙트럼 에너지 값을 평가하기에 용인될 수 있는 임계 범위는 약 ±3 dB 이다.

또 다른 실시예에 있어서, 스케일링 수단은 총 에너지로 에너지 값을 정규화하도록 구성된다. 이러한 구성에 의해, 대역별로 정규화하는 것과 마찬가지로 신호 레벨에 대한 의존성이 제거될 수 있다.

또 다른 실시예에 있어서, 스케일링된 벡터의 시퀀스를 시간 필터링하기 위한 수단은 스케일 벡터들의 시퀀스를 시간적으로 평활화하도록 구성되는 수단을 포함한다. 이는 오디오 신호 상의 외란은 대부분 개별 주파수 대역 내에서 빠르게 변화하는 에너지 값들을 가져오므로 장점이 있다. 이와 비교하여, 정보를 갖는 성분들은 대부분 낮은 속도로 변화한다. 이는 특히 음악을 나타내는 오디오 신호의 특성에 기인한다.

일 실시예에 있어서, 스케일링된 벡터들의 시퀀스를 시간적으로 평활화하는 수단은 10 Hz 이하의 차단 주파수를 갖는 저역통과 필터이다. 이러한 치수화(dimensioning)는 비교적 낮은 속도에서, 즉 100 ms 이상의 시간 스케일 상에서 음성 또는 음악 신호의 정보 유지 특징이 변화한다는 발견에 기인한다.

또 다른 실시예에 있어서, 스케일 벡터들의 시퀀스를 시간적으로 필터링하는 수단은 시간적으로 연속적인 2 개의 에너지 값들간의 차를 형성하는 수단을 포함한다. 이는 고역통과 필터의 효율적인 구현이다.

또 다른 실시예에 있어서, 오디오 신호로부터 핑거프린트 신호를 생성하는 장치는 저역통과 필터와 저역통과 필터의 출력에 연결된 데시메이션 수단을 구비한다. 데시메이션 수단은 나이키스트(Nyquist) 기준에 맞도록 오디오 신호로부터 유도된 벡터들의 수를 감소시키도록 구성된다. 이러한 실시예는 이번에는 개별 주파수 대역들 내의 에너지 값들의 시간적으로 느린 변화만이 분류 대상의 오디오 신호에 관한 높은 정보 컨텐츠를 갖는다는 발견에 기초한다. 이에 따라, 에너지 값들의 빠른 변화가 저역통과 필터에 의해 삭제될 수 있다. 따라서, 에너지 값들의 시퀀스는 주파수 대역에 대하여 저주파 성분을 가질 뿐이다. 이에 따라, 샘플링 이론에 따라서 샘플링 속도의 감소가 가능하다. 데시메이션 후에는, 스케일링되고 필터링된 벡터들의 시퀀스는 당초에 분절당 하나의 벡터 대신 D 개의 분절당 하나의 벡터를 가질 뿐이다. 여기서, D 는 데시메이션 인자이다. 이러한 접근법의 결과는 핑거프린트 신호의 데이터율의 감소이다. 따라서, 동시에 중복 정보의 제거가 데이터량의 감소와 조합될 수 있다. 이러한 접근법은 주어진 오디오 신호에 대한 그 결과의 핑거프린트의 크기를 감소시키므로, 본 발명의 장치의 효율적인 활용에 기여한다.

또 다른 실시예에 있어서, 본 발명의 장치는 양자화 수단을 포함한다. 따라서, 스케일링에 더하여 에너지 값들의 범위의 제2 변환을 달성할 수 있다.

또 다른 실시예에 있어서, 고역통과 필터는 양자화 수단의 하향에 연결되며, 고역통과 필터는 양자화 대상의 값들의 양을 감소시키도록 구성된다. 이는 비 신호-적응적(non-signal-adapted) 양자화기 내에서 이러한 값들을 나타내기 위해 필요한 비트 수를 감소시키도록 한다. 따라서, 데이터율이 감소된다. 신호-적응적 양자화기에서, 비트 수는 양자화 대상의 값들의 양(amount)에 의존하지 않는다.

또한, 엔트로피 코딩이 바람직하다. 이는 짧은 코드 워드들은 자주 발생하는 값들과 관련시키는 한편 긴 코드 워드들은 드물게 발생하는 값들과 관련시키는 것을 포함한다. 그 결과, 데이터량이 더욱 감소되도록 한다.

또 다른 실시예에 있어서, 양자화 수단은 양자화 레벨의 폭이 작은 에너지 값들 보다는 큰 에너지 값들에 대하여는 크게 되도록 구성될 수 있다. 이는 에너지 값들을 나타내기 위해 필요한 비트 수의 감소를 수반하며, 매우 작은 신호들은 충분한 정확도로 계속적으로 표현된다.

일 실시예에 있어서, 특히, 양자화 수단은 임계 범위 내의 큰 에너지 값과 작은 에너지 값에 대하여 최대 상대 양자화 에러가 동일하도록 구성될 수 있다. 예컨대, 에너지 값에 대한 절대 양자화 에러와 양자화 되지 않은 에너지 값의 비로서 상대 양자화 에러가 정의된다. 양자화 간격에서 최대값이 구해진다. 소정의 값을 중심으로 +/- 3dB 의 간격이 임계 범위로 사용될 수 있다. 최대 상대 양자화 에러는 또한 양자화기의 비트폭에 의존한다.

전술한 실시예는 신호-적응적 양자화의 일례를 나타낸다. 그러나, 신호 처리의 분야에 있어서, 다양한 신호-적응적 양자화의 추가 형태들이 공지되어 있다. 본 발명의 장치에서는, 필터링된 에너지 값들의 통계적 성질에 적응적이기만 하면 어떠한 실시예들이라도 채용될 수 있다.

일 실시예에 있어서, 양자화 수단은 자주 발생하는 에너지 값들보다는 드물게 발생하는 에너지 값들에서 양자화 레벨의 폭이 더 넓도록 구성될 수 있다. 이는 또한 에너지 값을 나타내기 위해 필요한 비트 수의 감소 및/또는 더 작은 양자화 에러를 가져온다.

또 다른 실시예에 있어서, 양자화 수단은 처리되는 에너지 값들의 벡터와 심볼을 관련시키도록 구성된다. 이러한 심볼은 벡터 양자화기를 나타낸다. 이러한 벡터 양자화기로 인하여, 데이터량을 더욱 감소시킬 수 있다.

결국, 본 발명의 장치 및/또는 본 발명의 방법은 매우 광범위한 적용예를 포함함을 알아야 한다. 특히, 전술한 핑거프린트를 생성하는 개념은 신호를 식별하거나 특성화하도록 패턴 인식 시스템에 적용될 수 있다. 또한, 본 개념은 데이터 집합간의 유사도 및/또는 이격도를 결정하는 방법과 연계하여 사용될 수도 있다. 이는, 예컨대, 데이터베이스 어플리케이션이 될 수 있다.

Claims

오디오 신호(12)로부터 핑거프린트 신호(24)를 생성하는 장치로서,

오디오 신호로부터 에너지 값의 벡터(16)들의 시퀀스를 얻기 위하여, 시간에 대하여 연속적인 오디오 신호의 분절들의 주파수 대역들에 대한 에너지 값들을 계산하는 수단(14)이며, 여기서 주파수 대역의 에너지 값은 주파수 대역 내의 오디오 신호의 에너지에 의존하며, 벡터 성분은 주파수 대역 내의 에너지 값인, 에너지 값 계산 수단(14)과;

스케일링된 벡터들의 시퀀스(20)를 얻도록 에너지 값들을 스케일링하는 수단(18); 그리고

핑거프린트 신호를 나타내거나, 핑거프린트 신호가 유도될 수 있는, 필터링된 시퀀스(24)를 얻도록 스케일링된 벡터들의 시퀀스(20)를 시간 필터링하는 수단(22)을 포함하는 핑거프린트 신호 생성 장치.
제1항에 있어서,

상기 오디오 신호의 한 분절은 시간에 있어서 적어도 10 ms의 길이를 갖는 것인, 핑거프린트 신호 생성 장치.
제1항에 있어서,

상기 주파수 대역별 에너지 값들을 계산하는 수단(14)은, 분절의 오디오 신 호(52)상에 고속 퓨리어 변환(FFT)에 의해 이산 퓨리어 변환(DFT)을 수행하여 퓨리어 계수들(56)을 구하고, 퓨리어 계수들의 크기들을 제곱하여 퓨리어 계수들의 크기의 제곱을 구하고, 퓨리어 계수들의 크기의 제곱을 대역별로 합산하여 주파수 대역에 대한 에너지 값들(16)을 구하도록 구성되는 것인, 핑거프린트 신호 생성 장치.
제1항에 있어서,

상기 주파수 대역들은 가변 대역폭을 가지며, 보다 높은 주파수를 갖는 주파수 대역들의 대역폭은 보다 낮은 주파수를 갖는 주파수 대역들의 대역폭 보다 큰 것인, 핑거프린트 신호 생성 장치.
제1항에 있어서,

상기 스케일링하는 수단(18)은, 압축된 에너지 값들의 범위가 압축되지 않은 에너지 값들의 범위 보다 작도록 에너지 값들(36)의 범위를 압축하도록 구성되는 것인, 핑거프린트 신호 생성 장치.
제1항에 있어서,

상기 스케일링하는 수단(18)은 에너지 값들(36)을 정규화하도록 구성되는 것인, 핑거프린트 신호 생성 장치.
제1항에 있어서,

상기 스케일링하는 수단(18)은, 상한과 하한 사이의 값들의 범위에 상기 에너지 값들(36)을 스케일링하거나, 상기 에너지 값들의 로그를 취하도록 구성되는 것인, 핑거프린트 신호 생성 장치.
제1항에 있어서,

상기 스케일링 수단(18)은, 사람의 소리 크기 인지(huamn loudness perception)에 대응하기 위하여 로그함수로 상기 에너지 값들(36)을 스케일링하도록 구성되는 것인, 핑거프린트 신호 생성 장치.
제1항에 있어서,

상기 스케일링하는 수단은, 로그를 취하는 수단(70) 및 상기 로그를 취하는 수단(70)의 하향에 연결되는 DC 성분을 삭제하는 수단을 포함하는 것인, 핑거프린트 신호 생성 장치.
제9항에 있어서,

상기 DC 성분을 삭제하는 수단은 고역통과 필터(80)를 포함하는 것인, 핑거프린트 신호 생성 장치.
제1항에 있어서,

상기 스케일링하는 수단(18)은, 수 개의 에너지 값들의 합을 구함으로써 생 성되는 총 에너지를 사용하여 에너지 값들의 정규화를 수행하도록 구성되며,

상기 정규화는 대역별로 상기 총 에너지와 동일한 정규화 인자에 의해 에너지 값들을 나눔으로써 수행되는 것인, 핑거프린트 신호 생성 장치.
제1항에 있어서,

상기 스케일링된 벡터들의 시퀀스(20)를 시간 필터링하는 수단(22)은, 상기 스케일링된 벡터들의 시퀀스를, 시간적으로 급격히 변화하는 신호를 억제하여 시간적 평활화 동작을 하도록 구성되는 것인, 핑거프린트 신호 생성 장치.
제12항에 있어서,

상기 시간 필터링하는 수단(22)은 50 Hz 이하의 차단 주파수를 갖는 저역통과 필터(74)를 포함하는 것인, 핑거프린트 신호 생성 장치.
제1항에 있어서,

상기 스케일링된 벡터들의 시퀀스(20)를 시간 필터링하는 수단(22)은 10 Hz 이하의 차단 주파수를 갖는 고역통과 필터(80)를 포함하는 것인, 핑거프린트 신호 생성 장치.
제1항에 있어서,

상기 스케일링된 벡터들의 시퀀스(20)를 시간 필터링하는 수단(22)은 시간적 으로 연속적인 동일한 주파수 대역 내의 2 개의 에너지 값들간의 차를 구하는 수단을 포함하는 것인, 핑거프린트 신호 생성 장치.
제1항에 있어서,

상기 시간 필터링하는 수단은, 저역통과 필터(74) 및 상기 저역통과 필터(74)의 출력에 연결된 데시메이션 수단(76)을 포함하며, 오디오 신호로부터 얻어진 벡터들의 수를 감소시키도록 구성되는 것인, 핑거프린트 신호 생성 장치.
제1항에 있어서,

상기 시간 필터링 수단의 하향에 연결되며, 필터링된 시퀀스로부터 핑거프린트 신호를 얻도록 필터링된 시퀀스를 양자화하도록 구성되는 양자화 수단(84)을 더 포함하는 핑거프린트 신호 생성 장치.
제17항에 있어서,

상기 시간 필터링하는 수단(22)은, 양자화 대상의 값들(82)의 범위를 감소시키도록 구성되는 고역통과 필터(80)를 포함하는 것인, 핑거프린트 신호 생성 장치.
제17항에 있어서,

상기 양자화 수단(84)은 높은 에너지 값에 대한 양자화 레벨의 폭이 작은 에너지 값에 대한 양자화 레벨의 폭 보다 크도록 구성되는 것인, 핑거프린트 신호 생 성 장치.
제17항에 있어서,

상기 양자화 수단(84)은 임계 범위 내의 큰 에너지 값과 작은 에너지 값에 대하여 최대 상대 양자화 에러가 동일한 양자화 레벨의 분류를 포함하는 것인, 핑거프린트 신호 생성 장치.
제20항에 있어서,

상기 임계 범위는 ± 3dB 인 것이 특징인, 핑거프린트 신호 생성 장치.
제17항에 있어서,

상기 양자화 수단(84)은 진폭 통계에 기반하여 양자화 레벨들을 사용하도록 구성되며,

상기 양자화 레벨들은 양자화 대상 신호의 진폭 통계에 따라 적응화되며,

상기 통계는 양자화 대상 신호의 값들의 상대 주파수에 대한 일람(statement)을 포함하며,

상대적으로 많은 양자화 대상 신호의 값들의 범위에 대하여는 양자화 스텝의 제1 분류가 이루어지고, 상대적으로 적은 양자화 대상 신호 값들의 범위에 대하여는 양자화 레벨의 제2 분류가 적용되며, 상기 제 2 분류는 상기 제 1 분류 보다 정교하지 않은 분류인 것인, 핑거프린트 신호 생성 장치.
제17항에 있어서,

상기 양자화 수단(84)은, 상기 필터링된 시퀀스의 벡터와 심볼을 관련시키도록 구성되어, 상기 필터링된 시퀀스의 양자화된 표현이 심볼의 시퀀스인 것인, 핑거프린트 신호 생성 장치.
제17항에 있어서,

상기 양자화 수단(84)은, 상기 필터링된 시퀀스의 벡터에 대하여 선형 변환을 적용하도록 구성되는 것인, 핑거프린트 신호 생성 장치.
오디오 신호로부터 핑거프린트 신호를 생성하는 방법으로서,

오디오 신호로부터 에너지 값의 벡터(16)들의 시퀀스를 얻도록, 시간에 대하여 연속적인 오디오 신호의 분절들의 주파수 대역별 에너지 값들을 계산하는 단계이며, 여기서 주파수 대역의 에너지 값은 주파수 대역 내의 오디오 신호의 에너지에 의존하고, 벡터 성분이 주파수 대역 내의 에너지 값인, 에너지 값 계산 단계와;

스케일링된 벡터들의 시퀀스를 얻도록 상기 에너지 값들을 스케일링하는 단계; 및

핑거프린트 신호를 나타내거나, 핑거프린트 신호가 유도될 수 있는, 필터링된 시퀀스(24)를 얻도록 스케일링된 벡터들의 시퀀스를 시간 필터링하는 단계를 포함하는 신호 생성 방법.
오디오 신호를 특성화하는 장치로서,

청구항 1의 핑거프린트 신호 생성 장치와;

상기 핑거프린트 신호에 기반하여 상기 오디오 신호의 오디오 컨텐츠에 대한 일람(statement)을 작성하는 수단을 포함하는 오디오 신호 특성화 장치.
오디오 신호를 특성화하는 방법으로서,

청구항 25의 방법을 사용하여 핑거프린트 신호를 생성하는 단계; 및

상기 핑거프린트 신호에 기반하여 상기 오디오 신호의 오디오 컨텐츠에 대한 일람을 작성하는 단계를 포함하는 오디오 신호 특성화 방법.
오디오 데이터베이스 설정 방법으로서,

청구항 25의 방법을 사용하여 상기 오디오 데이터베이스 내에서 캡쳐되는 각 오디오 신호의 핑거프린트를 생성하는 단계; 및

캡쳐되는 각 오디오 신호에 대하여, 핑거프린트와 해당 정보의 관계가 주어지도록, 상기 오디오 신호가 속하는 오디오 데이터베이스 내에 상기 핑거프린트와 부가 정보를 저장하는 단계를 포함하는 오디오 데이터베이스 설정 방법.
오디오 데이터베이스에 기반하여 정보를 취득하기 위한 방법으로서, 여기서 청구항 25의 방법에 의해 구해진 관련된 핑거프린트 신호들이 수 개의 오디오 신호들에 대하여 저장되고, 그리고 소정의 검색 오디오 신호들을 구하기 위하여 상기 방법은:

청구항 25의 방법을 사용하여 상기 검색 오디오 신호에 속하는 검색 핑거프린트 신호를 구하는 단계; 및

상기 검색 핑거프린트 신호를 상기 데이터베이스에 저장된 적어도 하나의 핑거프린트 신호와 비교하여, 그 유사도에 관한 일람을 작성하는 단계를 포함하는 정보 취득 방법.
제29항에 있어서,

상기 데이터베이스에 저장된 핑거프린트 신호들과 상기 검색 핑거프린트 신호의 유사도에 관한 일람에 따라서, 상기 데이터베이스에 저장된 핑거프린트 신호들이 기초로 하는 상기 오디오 신호들에 대하여 메타데이터를 출력하는 단계를 더 포함하는 정보 취득 방법.
컴퓨터 상에서 실행되는 경우, 청구항 제25항, 제27항, 제28항, 제29항, 또는 제30항 중 어느 한 항의 방법을 수행하는 프로그램 코드를 갖는 컴퓨터 프로그램이 저장된 컴퓨터 판독가능한 저장매체.