KR20180027209A - 오디오 핑거프린트 추출 장치 및 방법 - Google Patents

오디오 핑거프린트 추출 장치 및 방법 Download PDF

Info

Publication number
KR20180027209A
KR20180027209A KR1020160114523A KR20160114523A KR20180027209A KR 20180027209 A KR20180027209 A KR 20180027209A KR 1020160114523 A KR1020160114523 A KR 1020160114523A KR 20160114523 A KR20160114523 A KR 20160114523A KR 20180027209 A KR20180027209 A KR 20180027209A
Authority
KR
South Korea
Prior art keywords
patch
spectrogram
extracting
feature vector
binary code
Prior art date
Application number
KR1020160114523A
Other languages
English (en)
Other versions
KR101841985B1 (ko
Inventor
김후종
유정수
Original Assignee
주식회사 티앤블루랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 티앤블루랩 filed Critical 주식회사 티앤블루랩
Priority to KR1020160114523A priority Critical patent/KR101841985B1/ko
Publication of KR20180027209A publication Critical patent/KR20180027209A/ko
Application granted granted Critical
Publication of KR101841985B1 publication Critical patent/KR101841985B1/ko

Links

Images

Classifications

    • G06F17/30743
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

오디오 핑거프린트 추출 장치 및 방법을 개시한다.
본 실시예의 일 측면에 의하면, 질의(Query) 오디오 데이터에서 스펙트로그램(spectrogram)을 추출하는 전처리부와 상기 스펙트로그램에서 기 설정된 주파수 간격 또는 기 설정된 시간 간격마다 기 설정된 넓이를 갖는 패치(Patch)와 상기 패치의 스펙트로그램 상의 좌표를 추출하는 패치 추출부와 상기 패치 내에 포함된 픽셀들의 각 픽셀 값을 기 설정된 기준에 따라 기 설정된 개수의 그룹으로 나누어 배열한 특징 벡터(Feature Vector)를 추출하는 특징 벡터 추출부 및 상기 스펙트로그램에 포함된 각 패치의 스펙트로그램 상의 좌표와 특징벡터를 결합한 핑거프린트(fingerprint)를 추출하는 핑거프린트 추출부를 포함하는 것을 특징으로 하는 오디오 핑거프린트 추출장치를 제공하는 데 일 목적이 있다.

Description

오디오 핑거프린트 추출 장치 및 방법{Method and Apparatus for Extracting Audio Fingerprint}
본 실시예는 오디오 핑거프린트를 추출하는 장치 및 방법에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
방송 콘텐츠에서는 주제곡, 배경음악, 효과음악 등 다양한 오디오 데이터가 사용되고 있다. 이렇게 사용되는 오디오 데이터에 대해서 해당 오디오 데이터의 저작권자에 정당한 저작권료가 지불되기 위해 정확한 오디오 데이터의 식별과 오디오 데이터간 매칭이 필요하다. 오디오 데이터를 식별하기 위해 이용되는 방법이 오디오 핑거프린팅 방법이다.
오디오 데이터 검색을 위한 핑거프린팅 방법은 주파수 밴드의 에너지 차이를 이진화한 필립스 방법 및 스펙트럼(Spectrum)의 랜드마크(Landmark)를 기반으로 하는 Shazam 방법 등이 있다.
필립스 방법의 경우, FGM(Foreground Music) 또는 BGM(Background Music) 각각에 대해서는 오디오 데이터의 식별률이 높다. 그러나 방송 콘텐츠에서 사용되는 일반적인 오디오 데이터의 경우 FGM과 BGM이 섞여있으며, FGM과 BGM이 섞여있는 오디오 데이터에서 BGM을 식별하고자 하는 경우, 필립스 방법은 신호의 왜곡으로 인하여 높은 BER(Bit Error Rate, 비트오류율)을 갖는다. 한편, FGM과 BGM이 섞여있는 오디오 데이터에서 스펙트럼의 랜드마크로 BGM 부분 뿐만 아니라 FGM 부분에서도 추출될 확률이 높아, Shazam 방법은 FGM과 BGM이 섞여있는 오디오 데이터에서 BGM만의 식별은 어려운 단점이 있다. 이에 따라, FGM과 BGM이 섞여있는 오디오 데이터에서 정확한 오디오 핑거프린트를 추출하는 방법의 필요성이 존재한다.
또한, 방송 콘텐츠에서 사용된 오디오 데이터의 핑거프린트와 데이터베이스에 저장된 오디오 데이터의 핑거프린트를 비교함으로써, 어떤 오디오 데이터가 사용되었는지를 판단하게 된다. 데이터베이스에 저장된 오디오 데이터는 수십만개 내지 수백만개가 되기 때문에, 어느 하나의 질의 오디오 핑거프린트를 데이터베이스 내에서 찾는 것은 일정한 시간이 소요된다. 문제는 방송 콘텐츠를 제공하는 방송 채널의 증가로 인해, 방송 콘텐츠에서 사용되는 오디오 데이터의 숫자가 급격히 증가하는 점에 있다. 모든 방송 채널에서 사용된 오디오 데이터를 데이터베이스에 저장된 오디오 데이터와 비교함에 있어, 종래의 오디오 파일의 핑거프린트 식별방법은 상당한 시간이 소요되는 불편이 존재한다. 따라서 신속히 오디오 핑거프린트를 매칭하기 위한 방법의 필요성이 존재한다.
본 실시예는, FGM과 BGM이 섞여있는 오디오 데이터에 대해 정확히 오디오 데이터의 핑거프린트를 추출하는 방법 및 장치를 제공하는데 일 목적이 있다.
또한, 본 실시예는, 추출한 오디오 데이터가 어떠한 오디오 데이터인지 신속히 판단할 수 있도록 추출한 오디오 파일의 핑거프린트와 데이터베이스 내에 저장된 오디오 데이터의 핑거프린트들을 비교하는 방법 및 장치를 제공하는데 일 목적이 있다.
본 실시예의 일 측면에 의하면, 질의(Query) 오디오 데이터에서 스펙트로그램(spectrogram)을 추출하는 전처리부와 상기 스펙트로그램에서 기 설정된 주파수 간격 또는 기 설정된 시간 간격마다 기 설정된 넓이를 갖는 패치(Patch)와 상기 패치의 스펙트로그램 상의 좌표를 추출하는 패치 추출부와 상기 패치 내에 포함된 픽셀들의 각 픽셀 값을 기 설정된 기준에 따라 기 설정된 개수의 그룹으로 나누어 배열한 특징 벡터(Feature Vector)를 추출하는 특징 벡터 추출부 및 상기 스펙트로그램에 포함된 각 패치의 스펙트로그램 상의 좌표와 특징벡터를 결합한 핑거프린트(fingerprint)를 추출하는 핑거프린트 추출부를 포함하는 것을 특징으로 하는 오디오 핑거프린트 추출장치를 제공한다.
또한, 본 실시예의 다른 측면에 의하면, 질의(Query) 오디오 데이터에서 스펙트로그램(spectrogram)을 추출하는 스펙트로그램 추출과정과 상기 스펙트로그램에서 기 설정된 주파수 간격 또는 기 설정된 시간 간격마다 기 설정된 넓이를 갖는 패치(Patch)와 상기 패치의 스펙트로그램 상의 좌표를 추출하는 패치 추출과정과 상기 패치 내에 포함된 픽셀들의 각 픽셀 값을 기 설정된 기준에 따라 기 설정된 개수의 그룹으로 나누어 배열한 특징 벡터(Feature Vector)를 추출하는 특징 벡터 추출과정 및 상기 스펙트로그램에 포함된 각 패치의 스펙트로그램 상의 좌표와 특징벡터를 결합한 핑거프린트(fingerprint)를 추출하는 핑거프린트 추출과정을 포함하는 것을 특징으로 하는 오디오 핑거프린트 추출방법을 제공한다.
이상에서 설명한 바와 같이 본 실시예의 일 측면에 따르면, FGM과 BGM이 섞여있는 오디오 데이터라 하더라도 정확히 오디오 데이터의 핑거프린트를 추출할 수 있는 장점이 있다.
또한, 본 실시예의 일 측면에 따르면, 추출한 오디오 데이터의 핑거프린트와 데이터베이스 내에 저장된 오디오 데이터의 핑거프린트들을 비교하는 과정을 현저히 줄임으로써, 추출한 오디오 데이터가 어떠한 오디오 데이터인지 신속히 판단할 수 있는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 오디오 식별 시스템을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 오디오 핑거프린트 추출부의 구성을 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 패치 추출부가 패치를 추출하는 방법을 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 특징 벡터 추출부가 특징 벡터를 추출하는 방법을 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 인덱싱부가 패치의 이진 코드를 인덱싱하는 방법을 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 오디오 식별부의 구성을 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 시간적 상관도 판단부가 시간적 상관도를 판단하는 방법을 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 제1 매칭부 및 2 매칭부가 질의 오디오 데이터와 후보 오디오 데이터를 매칭하는 방법을 도시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 검증부가 검증하는 방법을 도시한 도면이다.
도 10은 본 발명의 일 실시예에 따른 오디오 핑거프린트 추출부가 오디오 핑거프린트를 추출하는 방법을 도시한 순서도이다.
도 11은 본 발명의 일 실시예에 따른 오디오 식별부가 질의 오디오 핑거프린트를 식별하는 방법을 도시한 순서도이다.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일 실시예에 따른 오디오 식별 시스템을 도시한 도면이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 오디오 식별 시스템(110)은 오디오 사용장치(110, 114, 118), 오디오 식별장치(120) 및 저작권 관리장치(160)를 포함하여 구성된다.
오디오 사용장치(110, 114, 118)는 사용시 저작권료를 납부해야 하는 오디오 데이터를 사용하는 모든 장치를 의미하는 것으로, 주로 방송사가 될 수 있으나 반드시 이에 한정하는 것은 아니다. 오디오 사용장치(110, 114, 118)로는 방송사 외에도 인터넷 콘텐츠 제공분야, 이동통신 분야 등 다양한 분야에서 사용되는 장치도 포함될 수 있다.
오디오 식별장치(120)는 오디오 사용장치(110, 114, 118)가 사용한 오디오 데이터가 어떠한 오디오 데이터인지 식별한다. 오디오 식별장치(120)는 오디오 사용장치(110, 114, 118)로부터 사용된 오디오 데이터를 수신하거나, 오디오 사용장치(110, 114, 118)가 사용한 오디오 데이터를 녹음하는 등 다양한 방법으로 오디오 사용장치(110, 114, 118)가 사용한 오디오 데이터를 획득한다. 오디오 식별장치(120)는 획득하여 식별하고자 하는 질의(Query) 오디오 데이터에 대해 핑거프린트(Fingerprint)를 추출한다. 핑거프린트란 오디오 데이터를 가장 효과적으로 요약한 파라미터 내지 벡터를 말한다. 질의 오디오 데이터의 핑거프린트를 추출한 후, 오디오 식별장치(120)는 오디오 핑거프린트 데이터베이스(140)에 저장된 오디오 데이터의 핑거프린트와 비교/매칭하여 어떠한 오디오 데이터가 사용되었는지 식별한다. 특히, 획득되는 오디오 데이터에는 BGM 만의 데이터일 수 있으나 FGM과 BGM이 함께 존재하는 데이터일 수 있다. 이 경우, 오디오 식별장치(120)는 FGM과 BGM이 함께 존재하는 오디오 데이터에서 핑거프린트를 추출하여 오디오 핑거프린트 데이터베이스(140)에 저장된 오디오 데이터의 핑거프린트와 비교/매칭하여 신속히 식별할 수 있다. 오디오 식별장치(120)는 식별한 오디오 데이터들의 목록, 예컨대, 큐시트(Cue Sheet)을 저작권 관리장치(160)로 전달한다. 이에 대한 구체적인 설명은 도 2 내지 도 9를 참조하여 설명하기로 한다. 이하에서는 질의 오디오 데이터가 FGM과 BGM이 함께 존재하는 오디오 데이터인 경우에 대해 설명하기로 한다.
저작권 관리장치(160)는 오디오 식별장치(120)가 식별한 오디오 데이터들의 목록을 수신하여, 목록에 따라 저작권자에 저작권료를 제공한다. 저작권 관리장치(160)는 오디오 식별장치(120)로부터 수신한 오디오 데이터들의 목록을 확인하며, 사용된 오디오 데이터의 종류, 횟수 등을 판단하여 판단 결과에 따라 해당 저작권자에게 저작권료를 지급한다.
도 2는 본 발명의 일 실시예에 따른 오디오 핑거프린트 추출부의 구성을 도시한 도면이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 오디오 핑거프린트 추출부(130)는 전처리부(210), 패치 추출부(220), 특징벡터 추출부(230), 제1 이진코드 생성부(240), 제2 이진코드 생성부(245), 핑거프린트 추출부(250) 및 인덱싱부(260)를 포함하여 구성된다.
전처리부(210)는 오디오 사용장치(110, 114, 118)로부터 획득한 질의 오디오 데이터에서 스펙트로그램(Spectrogram)을 추출한다. 스펙트로그램이란 신호, 특히, 주파수의 스펙트럼 밀도가 시간에 따라 어떻게 변화는 지를 나타내는 것으로 주파수대 시간의 함수로 표현될 수 있다. 전처리부(210)는 오디오 데이터로부터 복수의 윈도우를 이용하여 복수의 프레임으로 분할하고, 분할된 각각의 프레임을 FFT(Fast Fourier Transform) 등을 이용하여 주파수 영역으로 변환하여 주파수 스펙트럼을 생성한다. 생성된 주파수 스펙트럼에 로그 스케일(Logarithmic Scaling)로 나타냄으로써 스펙트로그램을 추출한다. 이러한 과정은 일반적으로 스펙트로그램을 추출하는 과정이므로 구체적인 설명은 생략하기로 한다.
패치 추출부(220)는 질의 오디오 데이터의 스펙트로그램에서 패치(Patch)를 추출한다. 패치란 기 설정된 면적을 갖는, 스펙트로그램 상의 일정 부분이다. 질의 오디오 데이터의 BGM은 FGM에 의해 엄폐(Occultation)가 발생하기 때문에, 질의 오디오 데이터의 스펙트로그램 전체로부터 BGM을 식별하는 것은 곤란한 문제가 존재한다. 따라서 패치 추출부(220)는 스펙트로그램에서 패치를 추출한다. 이처럼 패치를 추출하여 각 패치들의 유사도를 판단함으로써, BGM 상에서 일정부분 FGM에 의해 엄폐가 발생하더라도 엄폐가 발생하지 않은 다른 부분에서의 패치들을 이용해 BGM을 식별할 수 있다. 패치 추출부(220)가 스펙트로그램에서 패치를 추출하는 방법은 크게 두 가지로 분류된다. 하나는 스펙트로그램에서 일정한 간격마다 패치를 추출하는 방법이고, 다른 하나는 스펙트로그램에서 큰 픽셀값을 갖는 포인트 등 관심 포인트(Interest Point)만을 패치로 추출하는 방법이다. 패치 추출부(220)는 두 가지 방법 중 전자의 방법을 이용하여 패치를 추출한다. 후자의 방법은 전체적인 연산량이 크게 줄어들 수는 있으나, 질의 오디오 데이터와 같이 BGM 뿐만 아니라 FGM도 포함되어 있는 경우, FGM 부분에서도 많은 관심 포인트가 존재할 수 있어 패치가 많이 추출될 우려가 있다. 이에 BGM 부분에 많은 왜곡이 생길 염려가 존재한다. 따라서 패치 추출부(220)는 스펙트로그램 상에서 일정한 간격마다 패치를 추출한다. 이에 대해서는 도 3에 도시하고 있다.
도 3은 본 발명의 일 실시예에 따른 패치 추출부가 패치를 추출하는 방법을 도시한 도면이다.
패치 추출부(220)는 스펙트로그램(310)이 추출된 경우, 스펙트로그램(310)에서 기 설정된 시간 간격(330)마다 또는 기 설정된 주파수 간격(340)마다 기 설정된 넓이를 갖는 패치(320)를 추출한다. 스펙트로그램(310) 상에서 패치와 패치 간에는 주파수 축 상 또는 시간 축 상 일정한 거리가 떨어지도록 패치(320)의 넓이가 설정된다. 이처럼 패치 추출부(220)는 관심 포인트와 무관하게 스펙트로그램(310) 상에서 일정한 주파수 또는 시간 간격마다 패치를 추출한다.
또한, 패치 추출부(220)는 패치와 함께 스펙트로그램 상의 패치의 좌표를 추출한다. 추출된 패치의 좌표는 이후, 오디오 식별부(150)에서 질의 오디오 데이터를 데이터베이스에 저장된 오디오 데이터와 비교하여 식별함에 있어 이용된다.
특징벡터 추출부(230)는 각각의 패치에서 특징벡터(Feature Vector)를 추출한다. 특징벡터는 스펙트로그램 또는 스펙트로그램 내의 패치에서 추출한 특징을 표현하는 것으로, 추출된 특징의 개수가 d라 가정하면 d차원 상의 하나의 점에 해당한다. 종래에는 이러한 특징벡터를 추출함에 있어, 스펙트로그램 또는 패치 등에서 픽셀의 실제 픽셀값(절대값)을 이용하였다. 그러나 픽셀의 실제 픽셀값(절대값)을 이용한 특징벡터는 다음과 같은 환경에서 취약한 문제가 있었다. 특정 BGM에 FGM이 섞인 오디오 데이터에 있어, BGM과 FGM이 섞이면서 BGM의 대비(Contrast) 또는 밝기(Brightness)에 변화가 빈번히 발생한다. 이처럼 BGM의 대비 또는 밝기에 변화가 생기면, 동일한 BGM의 특징벡터라 하더라도 BGM의 특징벡터와 BGM과 FGM이 섞인 오디오 데이터의 특징벡터는 상이해지는 문제가 있다. 특징벡터 추출부(230)는 각각의 패치에서 특징벡터를 추출함에 있어 상대값을 이용하여 추출한다. 특징벡터 추출부(230)는 각 패치 내에 포함된 픽셀들의 각 픽셀 값을 기 설정된 기준에 따라 기 설정된 개수의 그룹으로 나누어 배열한다. 예를 들어, 패치가 16*16개의 픽셀을 포함하고 있으며, 크기의 순위를 기준으로 32차원 상의 한 점인 특징벡터를 추출하는 경우를 가정한다. 특징벡터 추출부(230)는 패치 내에 포함된 각 픽셀의 픽셀값을 파악하여 각 픽셀값의 순위를 선정한다. 패치 내에 16*16개의 픽셀이 포함되어 있어 순위는 256개가 존재할 수 있다. 이때, 특징벡터 추출부(230)는 32개의 특징을 추출하기 위해 각 픽셀값의 순위를 32개의 그룹으로 나눈다. 예를 들어, 1등(가장 픽셀값이 큰 픽셀)부터 8등까지를 하나의 그룹으로, 9등부터 16등까지를 다른 하나의 그룹으로 나누는 등 32개의 그룹으로 나눌 수 있다. 크기의 순위를 기준으로 특징을 추출하기 때문에, 대비 또는 밝기에 변화가 생겨 모든 픽셀의 픽셀값(절대값)에 변화가 생긴다 하더라도, 특징벡터는 대비 또는 밝기에 변화가 생기기 전과 후가 달라지지 않는다. 이와 같이 특징벡터 추출부(230)는 각 픽셀의 픽셀값에 대해 상대값을 판단할 수 있는 기준을 설정하여 특징벡터를 추출한다. 상대값을 판단할 수 있는 기준으로 크기의 순위를 예로 들었으나 반드시 이에 한정하는 것은 아니고, 패치 내 각 픽셀 값의 빈도 등 다양한 기준으로 설정될 수 있다.
또한, 특징벡터 추출부(230)는 패치 내에서 특징벡터를 추출함에 있어, 패치를 기 설정된 개수의 영역으로 분할한 후 특징벡터를 추출할 수 있다. 이에 대해서는 도 4에 도시하고 있다.
도 4는 본 발명의 일 실시예에 따른 특징 벡터 추출부가 특징 벡터를 추출하는 방법을 도시한 도면이다.
특징벡터 추출부(230)는 어느 하나의 패치(320)를 기 설정된 개수의 영역으로 분할한 후, 각 영역(410)에 대한 특징벡터(420)를 추출한다. 특징벡터 추출부(230)가 각 영역 내에서 특징벡터를 추출하는 방법은 패치 전체에서 특징벡터를 추출하는 전술한 방법과 동일하다. 특징벡터 추출부(230)는 이처럼 각 영역(410)에서 추출한 특징벡터(420)를 결합함으로써, 패치 전체의 특징벡터(430)를 추출할 수 있다. 예를 들어, 패치에 대해 24차원 상의 특징벡터를 추출하고자 하는 경우, 특징벡터 추출부(230)는 패치를 도 4에 도시한 것과 같이 4개의 영역으로 분할할 수 있으며, 각 영역에 대해 6차원 상의 특징벡터를 추출할 수 있다. 특징벡터 추출부(230)는 6차원 상의 특징벡터를 결합하여 24차원 상의 특징벡터를 추출할 수 있다. 도 4에는 특징벡터가 히스토그램(Histogram)으로 도시되어 있으나, 반드시 이에 한정하는 것은 아니고 히스토그램 상의 값을 좌표로 나타내는 등 다양한 방법으로 표현될 수 있다.
제1 이진코드 생성부(240)와 제2 이진코드 생성부(245)는 추출된 특징벡터를 기초로 이진코드를 생성한다. 오디오 식별부(150)에서 핑거프린트를 이용하여 질의 오디오 데이터를 데이터베이스에 저장된 오디오 데이터와 비교하여 식별함에 있어, 앞서 추출된 특징벡터를 이용하여 식별할 수 있다. 그러나 복수의 차원을 갖는 특징벡터들을 직접 비교함으로써 식별하는데 있어서는 상당한 시간이 소요되는 문제가 있다. d 차원의 특징벡터는 d 개의 실수를 갖는 반면, 제1 및 제2 이진코드 생성부(240, 245)에 의해 d bit의 이진코드로 생성되기 때문에 보다 빠른 시간 내에 각 오디오 데이터의 이진코드들 간에 비교를 마칠 수 있다. 따라서 오디오 핑거프린트 추출부(130)는 특징벡터를 기초로 이진코드를 생성하며, 생성된 이진코드를 토대로 1차적으로 질의 오디오 데이터를 데이터베이스에 저장된 오디오 데이터와 비교함으로써, 저장된 오디오 데이터 중 수많은 노이즈들을 걸러낼 수 있다.
제1 이진코드 생성부(240)는 특징벡터의 각 그룹에 포함된 픽셀의 개수가 기준치 이상인지 여부에 따라 이진코드를 생성한다. 예를 들어, 앞서 든 예와 같이 특징벡터가 크기의 순위에 따라 32개의 그룹으로 나뉘어 배열된 경우, 제1 이진코드 생성부(240)는 각 그룹에 포함된 픽셀의 개수가 기준치 이상이면 1, 기준치 미만이면 0으로 설정하여 제1 이진코드를 생성한다.
제2 이진코드 생성부(245)는 특징벡터의 각 그룹에 포함된 픽셀의 개수가 다른 기 설정된 그룹 내에 포함된 픽셀의 개수보다 큰지 여부에 따라 이진코드를 생성한다. 예를 들어, 앞서 든 예와 같이 특징벡터가 크기의 순위에 32개의 그룹으로 나뉘어 배열된 경우, 제1 이진코드 생성부(240)는 1등 내지 8등이 속한 1그룹의 픽셀의 개수가 9등 내지 16등이 속한 2그룹의 픽셀의 개수 이상이면 1, 미만이면 0으로 설정하여 제2 이진코드를 생성한다.
전술한 제1 및 제2 이진코드 생성부(240, 245)와 같이 특징벡터를 이진코드로 변환하는 경우, 연산량을 현저히 줄일 수 있는 장점이 존재한다. 그러나 d 차원의 실수를 d bit의 이진수로 변환하는 것이기 때문에, 질의 오디오 데이터의 이진코드와 데이터베이스에 저장된 오디오 데이터들의 이진코드를 비교하는 경우, 비교 결과에 대한 신뢰성을 보장하기 어렵다. 즉, 비교 결과에 실제 일치하는 오디오 데이터들 외에도 수많은 노이즈가 포함될 수 있기 때문에, 정확도가 떨어지는 단점이 있다. 반면, 이진코드로 변환하여 정확도가 떨어지는 단점을 보완하고자, 코드를 생성함에 있어 복수의 기준치를 이용해 코드를 생성할 수 있다. 예를 들어, 제1 내지 제3 기준치를 설정하여 각 그룹에 포함된 픽셀의 개수가 제1 기준치 미만이면 0, 제1 기준치 이상 제2 기준치 미만이면 1, 제2 기준치 이상 제3 기준치 미만이면 2, 제3 기준치 이상이면 3으로 설정하여 코드를 설정할 수 있다. 이처럼 복수의 기준치를 이용하여 코드를 생성하는 경우, 정확도는 상승하는 장점이 있지만, 질의 오디오 데이터와 실제 일치하는 데이터베이스에 저장된 오디오 데이터가 검출되지 않을 우려가 있다. 이와 같이, 코드를 생성함에 있어 설정하는 기준치의 개수에 따라, 결과의 정확도와 검출량에 대한 트레이드 오프(Trade Off)가 발생한다. 본 발명의 일 실시예에 따른 오디오 핑거프린트 추출부(130)는 정확도와 검출량 양자를 적절히 만족시키고자 서로 다른 기준으로 이진 코드를 생성하는 복수의 이진코드 생성부를 구비한다. 복수의 이진코드 생성부를 구비함으로써, 일정한 검출량도 담보하며 결과의 정확도도 확보할 수 있는 장점이 있다.
제1 및 제2 이진코드 생성부(240, 245)는 전술한 조건을 이용하여 특징벡터로부터 이진코드를 생성하고 있으나, 반드시 전술한 조건에 제한되는 것은 아니며 경우의 수가 2가지로 나누어 지는 조건은 어떠한 조건으로도 대체될 수 있다. 예를 들어, 각 그룹에 포함된 픽셀의 개수가 홀수인지 여부 등 다양한 조건을 이용하여 이진코드를 생성할 수 있다.
핑거프린트 추출부(250)는 추출된 패치에 대해 패치의 좌표 및 패치의 특징벡터와 함께 제1 및 제2 이진코드 생성부(240, 245)가 생성한 이진코드들을 포함한 핑거프린트를 추출한다. 핑거프린트는 패치에 대해 추출되며, 상대값을 이용해 추출된 특징 벡터를 포함하기 때문에, 엄폐 및 대비와 밝기의 변화에 강인한 특징을 갖기 때문에, 질의 오디오 데이터에 포함된 BGM을 용이하게 식별할 수 있다.
인덱싱부(260)는 추출한 핑거프린트를 인덱싱한다. 이에 대해서는 도 5에서 도시하고 있다.
도 5는 본 발명의 일 실시예에 따른 인덱싱부가 패치의 이진 코드를 인덱싱하는 방법을 도시한 도면이다.
인덱싱부(260)는 제1 이진코드 변환 테이블(510) 및 제2 이진코드 변환 테이블(520)을 가지며, 각각의 변환 테이블에 핑거프린트 내 각각의 이진코드를 배치한다. 각각의 이진코드 변환 테이블(510, 520)은 이진코드의 비트 숫자에 대응하는 개수의 테이블 값을 갖는다. 예를 들어, 32 bit의 이진코드를 갖는 경우, 각각의 이진코드 변환 테이블(510, 520)은 232개에 해당하는 테이블 값을 가지며 이진코드 변환 조건에 따라 231개에 해당하는 테이블 값을 가질 수 있다. 인덱싱부(260)는 이진코드를 각각의 변환 테이블에 배치하며, 핑거프린트에 포함된 패치의 좌표와 특징벡터를 함께 저장한다. 이와 같이 인덱싱부(260)가 각각의 패치에 대한 핑거프린트를 인덱싱해둠으로써, 이진코드 값에 따라 어떠한 핑거프린트를 갖는지 바로 확인할 수 있다.
도 6은 본 발명의 일 실시예에 따른 오디오 식별부의 구성을 도시한 도면이다.
도 6을 참조하면, 본 발명의 일 실시예에 따른 오디오 식별부(150)는 제1 매칭부(610), 시간적 상관도 판단부(620), 제2 매칭부(630) 및 검증부(640)를 포함하여 구성된다.
제1 매칭부(610)는 오디오 핑거프린트 추출부(130)에서 추출한 질의 오디오 데이터의 스펙트로그램(이하, '질의 스펙트로그램'으로 약칭함) 내 각 패치의 이진코드와 오디오 핑거프린트 데이터베이스(140)에 저장된 모든 오디오 데이터의 스펙트로그램(이하, '저장 스펙트로그램'으로 약칭함) 내 각 패치의 이진코드를 매칭한다. 오디오 핑거프린트 데이터베이스(140)도 오디오 핑거프린트 추출부(130)와 마찬가지로 저장하고 있는 각각의 오디오 데이터에 대해 핑거프린트를 추출하여 인덱싱해둔 상태로 저장한다. 제1 매칭부(610)는 질의 스펙트로그램 내 각 패치의 이진코드 변환 테이블 값과 저장 스펙트로그램 내 각 패치의 이진코드 변환 테이블 값을 매칭한다. 제1 매칭부(610)는 오디오 핑거프린트 데이터베이스(140) 내에 존재하는 모든 오디오 데이터 중 각 패치의 이진코드 변환 테이블 값이 질의 스펙트로그램 내 각 패치의 이진코드 변환 테이블 값과 일치하는 예비 오디오 데이터를 선택한다. 이후, 제1 매칭부(610)는 질의 스펙트로그램 내 각 패치의 이진코드와 선택된 예비 오디오 데이터의 스펙트로그램(이하, '예비 스펙트로그램'으로 악칭함) 내 각 패치의 이진코드와 매칭한다. 제1 매칭부(610)는 예비 스펙트로그램 내 각 패치의 모든 이진코드(제1 이진코드 및 제2 이진코드)가 질의 스펙트로그램 내 각 패치의 이진코드와 일치하는 예비 오디오 데이터를 선택한다. 이와 같이, 제1 매칭부(610)는 오디오 핑거프린트 데이터베이스(140)에 저장된 수십 내지 수백만 오디오 데이터에 대해 일일이 특징벡터를 매칭하는 것이 아니라, 먼저 이진코드 변환 테이블 값과 이진코드를 매칭함으로써 간단히 노이즈와 예비 오디오 데이터를 분류할 수 있다.
시간적 상관도 판단부(620)는 질의 스펙트로그램과 제1 매칭부(610)에서 매칭된 모든 예비 스펙트로그램들의 시간적 상관도(Temporal Consistency)를 판단한다. 시간적 상관도 판단부(620)는 질의 스펙트로그램 내 각 패치의 좌표와 이와 매칭되는 각 예비 스펙트로그램 내 각 패치의 좌표 간의 시간적 상관도를 판단한다. 예를 들어, 시간적 상관도는 각 패치 간의 기울기일 수 있다. 시간적 상관도 판단부(620)는 각 패치 간의 기울기를 판단하며, 각 기울기 값 간의 차가 기준치 이상인지를 판단한다. 이에 대해서는 도 7에서 도시하고 있다.
도 7은 본 발명의 일 실시예에 따른 시간적 상관도 판단부가 시간적 상관도를 판단하는 방법을 도시한 도면이다.
도 7(a)에 도시된 질의 스펙트로그램(710)과 예비 스펙트로그램 중 어느 하나(720)를 보면, 각 패치의 좌표간 기울기의 차이가 거의 없이 일정한 것을 볼 수 있다.
반면, 도 7(b)에 도시된 질의 스펙트로그램(730)과 예비 스펙트로그램 중 어느 하나(740)를 보면, 질의 스펙트로그램의 다양한 패치들이 예비 스펙트로그램의 하나의 패치와 매칭되는 것을 볼 수 있다. 각 패치의 좌표간 기울기가 제 각각이며, 각 패치 간의 기울기 차이가 상당한 것을 볼 수 있다.
시간적 상관도 판단부(620)는 각 패치간 기울기 값의 차가 기준치 이상인 경우, 시간적 상관도가 떨어지는 것으로 판단한다. 이에 따라 시간적 상관도 판단부(620)는 제1 매칭부(610)에서 매칭된 모든 예비 스펙트로그램 중 질의 스펙트로그램과 시간적 상관도가 떨어지는 예비 스펙트로그램에 대해서는 예비 스펙트로그램 군에서 제외한다. 패치의 좌표는 스펙트로그램 상의 좌표이므로 특징벡터 같이 d 차원상의 좌표가 아닌 2차원상의 좌표에 해당한다. 이에 따라, 시간적 상관도 판단부(620)는 제1 매칭부(610)에서 매칭한 예비 스펙트로그램에 대해서 다시 한번 간단한 연산으로 노이즈를 제거하여 후보 오디오 데이터의 스펙트로그램(이하, '후보 스펙트로그램'으로 약칭함)을 선별한다.
제2 매칭부(630)는 시간적 상관도 판단부(620)를 거친 후보 스펙트로그램의 특징벡터와 질의 스펙트로그램의 특징벡터들을 매칭함으로써, 오디오 핑거프린트 데이터베이스(140) 내에서 질의 스펙트로그램과 일치하는 스펙트로그램을 검색한다. 제2 매칭부(630)는 질의 스펙트로그램 내 각 패치의 특징벡터에 대해 후보 스펙트로그램 내 각 패치의 특징벡터 중 가장 가까운 거리상에 있는 특징벡터들을 매칭한다. 제2 매칭부(630)는 질의 스펙트로그램내 각 패치의 특징벡터와 매칭된 후보 스펙트로그램 내 각 패치의 특징벡터에 대해, 특징벡터 간의 거리가 기 설정된 기준치 이하인지를 판단한다. 특징벡터 간의 거리를 계산함에 있어, 유클리드 거리 계산법으로 계산할 수 있으나, 반드시 이에 한정하는 것은 아니고, 민코프스키(Minkowski) 거리 측정, 마할라노비스(Mahalanobis) 거리 측정법 등 다양한 방법으로 거리를 계산할 수 있다. 또한, 제2 매칭부(630)는 특징벡터 간의 거리가 기 설정된 기준치 이하인 질의 스펙트로그램 내 각 패치의 특징벡터의 개수를 파악한다. 이와 함께, 제2 매칭부(630)는 특징벡터 간의 거리가 기 설정된 기준치 이하인 각 패치의 특징벡터 간의 시간적 상관도를 판단한다. 질의 스펙트로그램과 후보 스펙트로그램 내 각 패치의 매칭되는 특징벡터 간 시간적 상관도가 높은 것의 개수가 낮은 것의 개수보다 많은지를 판단한다. 예를 들어, 시간적 상관도를 기울기로 가정하는 경우, 질의 스펙트로그램과 후보 스펙트로그램 내 각 패치의 매칭되는 특징벡터 간의 기울기가 기준치 이하인 것의 개수가 기준치 이상인 것의 개수보다 많은 지를 판단한다. 제2 매칭부(630)는 특징벡터 간의 거리가 기 설정된 기준치 이하인 질의 스펙트로그램 내 각 패치의 특징벡터의 개수가 기준치 이상이며, 질의 스펙트로그램과 후보 스펙트로그램 내 각 패치의 매칭되는 특징벡터 간 시간적 상관도가 높은 것의 개수가 낮은 것의 개수보다 많은 경우, 해당 후보 스펙트로그램을 질의 스펙트로그램과 매칭되는 것으로 판단한다.
도 8은 본 발명의 일 실시예에 따른 제1 매칭부 및 2 매칭부가 질의 오디오 데이터와 후보 오디오 데이터를 매칭하는 방법을 도시한 도면이다.
도 8(a)는 제1 매칭부(610)가 질의 스펙트로그램 내 각 패치의 이진코드와 후보 스펙트로그램 내 각 패치의 이진코드를 매칭하는 방법을 도시한다. 질의 스펙트로그램 내 각 패치가 후보 스펙트로그램 내 각 패치가 매칭되고 있다.
도 8(b)는 제2 매칭부(630)가 질의 스펙트로그램 내 각 패치의 특징벡터와 후보 스펙트로그램 내 각 패치의 특징벡터를 매칭하는 방법을 도시한다. 제1 매칭부(610)가 매칭하고 있는 숫자보다는 매칭되고 있는 특징벡터의 개수가 줄어든 것을 볼 수 있다. 특징벡터간의 거리를 통한 매칭은 이진코드간의 매칭보다 정확하기 때문에, 잘못된 매칭들이 걸러지게 되어 매칭되는 패치의 숫자가 줄어든다. 제2 매칭부(630)는 매칭되는 패치의 특징벡터의 숫자와 함께, 매칭되는 특징벡터의 시간적 상관도도 판단한다. 도 8(b)를 보면, 매칭되는 패치들 중 기울기를 가지며 매칭된 것들과 기울기 없이 세로로 곧게 매칭된 것들을 볼 수 있다. 이처럼 시간적 상관도가 높은 것(도 8(b)에서 기울기 없이 세로로 곧게 매칭된 것)들의 개수가 시간적 상관도가 낮은 것(도 8(b)에서 기울기를 가지며 매칭된 것)들의 개수보다 많으며, 매칭되는 패치의 특징벡터의 숫자가 기준치 이상인 경우, 제2 매칭부(630)는 해당 후보 오디오 데이터를 질의 오디오 데이터와 매칭되는 것으로 판단한다.
검증부(640)는 제2 매칭부(630)가 최종적으로 질의 오디오 데이터와 매칭되는 것으로 판단한 후보 오디오 데이터가 실제 매칭되는지 여부를 검증한다. 검증부(640)는 검증을 위해 시퀀스 매칭을 이용할 수 있다. 질의 오디오 데이터와 후보 오디오 데이터를 일정한 크기를 갖는 윈도우로 분할하며, 질의 오디오 데이터와 후보 오디오 데이터의 모든 위치에서 분할한 윈도우들을 서로 비교하여 일치하는 부분이 존재하는지를 판단한다. 일치여부를 판단함에 있어서는, 질의 오디오 데이터의 윈도우를 가로축에, 후보 오디오 데이터의 윈도우를 세로축에 배치하거나 그 반대로 배치한 후, 직선이 발생하는지를 판단한다. 질의 오디오 데이터와 후보 오디오 데이터가 동일한 경우, 각 오디오 데이터 내의 각 패치는 서로 유사하기 때문에, 가까운 거리 차이를 갖게 되므로 어두운 값을 나타내며 대각선 방향의 직선이 발생하게 된다. 그러나 질의 오디오 데이터와 후보 오디오 데이터가 동일하지 않은 경우, 각 오디오 데이터 내의 대응되는 패치 간에 거리가 크므로, 값이 밝거나 검은 부분이 드문드문 발생하게 되어 직선은 발생하지 않게 된다. 즉, 검증부(640)는 질의 오디오 데이터의 모든 위치에서 분할한 윈도우들과 후보 오디오 데이터의 모든 위치에서 분할한 윈도우들을 서로 비교하여 직선이 발생하는지를 판단한다. 이에 대해서는 도 9에 도시하고 있다.
도 9는 본 발명의 일 실시예에 따른 검증부가 검증하는 방법을 도시한 도면이다.
검증부(640)는 질의 오디오 데이터의 특정 윈도우를 가로축 또는 세로축에 배치하고 후보 오디오 데이터의 특정 윈도우를 나머지 한 축에 배치한 후 매칭되는 패치 간의 거리를 판단한다. 직선(910)이 존재하는 경우, 검증부(640)는 제2 매칭부(630)가 매칭되는 것으로 판단한 후보 오디오 데이터가 질의 오디오 데이터와 일치하는 것임을 확인한다.
도 10은 본 발명의 일 실시예에 따른 오디오 핑거프린트 추출부가 오디오 핑거프린트를 추출하는 방법을 도시한 순서도이다. 이미 도 2 내지 도 9를 참조하여 상세히 설명하였으므로, 각 과정의 구체적인 설명은 생략하기로 한다.
전처리부(210)는 질의 오디오 데이터의 스펙트로그램을 생성한다(S1010).
패치 추출부(220)는 생성한 질의 오디오 데이터의 스펙트로그램에서 패치를 추출한다(S1020). 패치 추출부(220)는 패치와 함께 각 패치의 스펙트로그램 상의 좌표도 추출한다.
특징벡터 추출부(230)는 추출한 각 패치에 대해 특징 벡터를 추출한다(S1030).
제1 이진코드 생성부(240)는 각 패치에서 추출한 특징 벡터들에 대해 제1 방식으로 제1 이진코드를 생성한다(S1040).
제1 이진코드 생성부(245)는 각 패치에서 추출한 특징 벡터들에 대해 제2 방식으로 제2 이진코드를 생성한다(S1045).
핑거프린트 추출부(250)는 추출한 패치의 좌표, 특징벡터, 제1 및 제2 이진코드를 이용하여 패치의 핑거프린트를 생성한다(S1050).
인덱싱부(260)는 생성한 핑거프린트를 인덱싱한다(S1070).
도 11은 본 발명의 일 실시예에 따른 오디오 식별부가 질의 오디오 핑거프린트를 식별하는 방법을 도시한 순서도이다.
제1 매칭부(610)는 생성한 질의 오디오 데이터의 이진코드와 데이터베이스에 저장된 오디오 데이터의 이진코드를 매칭하여 예비 오디오 데이터를 선택한다(S1110).
시간적 상관도 판단부(620)는 질의 오디오 데이터의 패치 좌표와 각 예비 오디오 데이터의 패치 좌표와의 시간적 상관도를 판단하여 후보 오디오 데이터를 추출한다(S1120).
제2 매칭부(630)는 질의 오디오 데이터의 특징벡터와 각각의 후보 오디오 데이터의 특징벡터를 매칭하여 매칭되는 오디오 데이터를 도출한다(S1130).
검증부(640)는 도출한 오디오 데이터와 질의 오디오 데이터가 일치하는지 검증한다(S1140).
도 10 및 도 11에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 발명의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 발명의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 각각의 도면에 기재된 과정의 순서를 변경하여 실행하거나 과정 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 도 10 및 도 11은 시계열적인 순서로 한정되는 것은 아니다.
한편, 도 10 및 도 11에 도시된 과정들은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 즉, 컴퓨터가 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 오디오 식별 시스템 110, 114, 118: 오디오 사용장치
120: 오디오 식별장치 130: 오디오 핑거프린트 추출부
140: 오디오 핑거프린트 데이터베이스
150: 오디오 식별부 160: 저작권 관리장치
210: 전처리부 220: 패치 추출부
230: 특징벡터 추출부 240: 제1 이진코드 생성부
245: 제2 이진코드 생성부 250: 핑거프린트 추출부
260: 인덱싱부 310: 스펙트로그램
320: 패치 420, 430: 특징벡터
510, 520: 이진코드 변환 테이블 610: 제1 매칭부
620: 시간적 상관도 판단부 630: 제2 매칭부
640: 검증부

Claims (15)

  1. 질의(Query) 오디오 데이터에서 스펙트로그램(spectrogram)을 추출하는 전처리부;
    상기 스펙트로그램에서 기 설정된 주파수 간격 또는 기 설정된 시간 간격마다 기 설정된 넓이를 갖는 패치(Patch)와 상기 패치의 스펙트로그램 상의 좌표를 추출하는 패치 추출부;
    상기 패치 내에 포함된 픽셀들의 각 픽셀 값을 기 설정된 기준에 따라 기 설정된 개수의 그룹으로 나누어 배열한 특징 벡터(Feature Vector)를 추출하는 특징 벡터 추출부; 및
    상기 스펙트로그램에 포함된 각 패치의 스펙트로그램 상의 좌표와 특징벡터를 결합한 핑거프린트(fingerprint)를 추출하는 핑거프린트 추출부
    를 포함하는 것을 특징으로 하는 오디오 핑거프린트 추출장치.
  2. 제1항에 있어서,
    상기 특징 벡터는,
    상기 각 픽셀 값의 크기에 따른 순위를 상기 기 설정된 개수의 그룹으로 나누어 배열한 것을 특징으로 하는 오디오 핑거프린트 추출장치.
  3. 제1항에 있어서,
    상기 특징 벡터 추출부는,
    상기 패치를 기 설정된 개수의 영역으로 분할하여, 각각의 영역에 대해 단위 특징 벡터를 추출하는 것을 특징으로 하는 오디오 핑거프린트 추출장치.
  4. 제3항에 있어서,
    상기 특징 벡터 추출부는,
    상기 각각의 영역의 단위 특징 벡터들을 결합하여 상기 패치의 특징 벡터를 추출하는 것을 특징으로 하는 오디오 핑거프린트 추출장치.
  5. 제1항에 있어서,
    상기 특징 벡터에 대하여 서로 상이한 방법으로 이진코드를 생성하는 제1 이진코드 생성부 및 제2 이진코드 생성부를 더 포함하는 것을 특징으로 하는 오디오 핑거프린트 추출장치.
  6. 제5항에 있어서,
    상기 제1 이진코드 생성부는,
    상기 특징 벡터의 각 그룹 내에 포함된 픽셀의 개수가 기준치 이상인지 여부에 따라 제1 이진코드를 생성하는 것을 특징으로 하는 오디오 핑거프린트 추출장치.
  7. 제5항에 있어서,
    상기 제2 이진코드 생성부는,
    상기 특징 벡터의 기 설정된 그룹 내에 포함된 픽셀의 개수가 다른 기 설정된 그룹 내에 포함된 픽셀의 개수보다 큰지 여부에 따라 제2 이진코드를 생성하는 것을 특징으로 하는 오디오 핑거프린트 추출장치.
  8. 제5항에 있어서,
    상기 핑거프린트 추출부는,
    상기 스펙트로그램에 포함된 각 패치의 스펙트로그램 상의 좌표와 특징벡터와 함께 상기 제1 이진코드 및 제2 이진코드를 결합한 핑거프린트를 추출하는 것을 특징으로 하는 오디오 핑거프린트 추출장치.
  9. 질의(Query) 오디오 데이터에서 스펙트로그램(spectrogram)을 추출하는 스펙트로그램 추출과정;
    상기 스펙트로그램에서 기 설정된 주파수 간격 또는 기 설정된 시간 간격마다 기 설정된 넓이를 갖는 패치(Patch)와 상기 패치의 스펙트로그램 상의 좌표를 추출하는 패치 추출과정;
    상기 패치 내에 포함된 픽셀들의 각 픽셀 값을 기 설정된 기준에 따라 기 설정된 개수의 그룹으로 나누어 배열한 특징 벡터(Feature Vector)를 추출하는 특징 벡터 추출과정; 및
    상기 스펙트로그램에 포함된 각 패치의 스펙트로그램 상의 좌표와 특징벡터를 결합한 핑거프린트(fingerprint)를 추출하는 핑거프린트 추출과정
    을 포함하는 것을 특징으로 하는 오디오 핑거프린트 추출방법.
  10. 제9항에 있어서,
    상기 특징 벡터는,
    상기 각 픽셀 값의 크기에 따른 순위를 상기 기 설정된 개수의 그룹으로 나누어 배열한 것을 특징으로 하는 오디오 핑거프린트 추출방법.
  11. 제9항에 있어서,
    상기 특징 벡터 추출과정은,
    상기 패치를 기 설정된 개수의 영역으로 분할하여 각각의 영역에 대해 단위 특징 벡터를 추출하며, 상기 각각의 영역의 단위 특징 벡터들을 결합하여 상기 패치의 특징 벡터를 추출하는 것을 특징으로 하는 오디오 핑거프린트 추출방법.
  12. 제1항에 있어서,
    상기 특징 벡터에 대하여 서로 상이한 방법으로 이진코드를 생성하는 제1 이진코드 생성과정 및 제2 이진코드 생성과정을 더 포함하는 것을 특징으로 하는 오디오 핑거프린트 추출방법.
  13. 제12항에 있어서,
    상기 제1 이진코드 생성과정은,
    상기 특징 벡터의 각 그룹 내에 포함된 픽셀의 개수가 기준치 이상인지 여부에 따라 제1 이진코드를 생성하는 것을 특징으로 하는 오디오 핑거프린트 추출방법.
  14. 제12항에 있어서,
    상기 제2 이진코드 생성과정은,
    상기 특징 벡터의 기 설정된 그룹 내에 포함된 픽셀의 개수가 다른 기 설정된 그룹 내에 포함된 픽셀의 개수보다 큰지 여부에 따라 제2 이진코드를 생성하는 것을 특징으로 하는 오디오 핑거프린트 추출방법.
  15. 제12항에 있어서,
    상기 핑거프린트 추출과정은,
    상기 스펙트로그램에 포함된 각 패치의 스펙트로그램 상의 좌표와 특징벡터와 함께 상기 제1 이진코드 및 제2 이진코드를 결합한 핑거프린트를 추출하는 것을 특징으로 하는 오디오 핑거프린트 추출방법.
KR1020160114523A 2016-09-06 2016-09-06 오디오 핑거프린트 추출 장치 및 방법 KR101841985B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160114523A KR101841985B1 (ko) 2016-09-06 2016-09-06 오디오 핑거프린트 추출 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160114523A KR101841985B1 (ko) 2016-09-06 2016-09-06 오디오 핑거프린트 추출 장치 및 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020170027202A Division KR101841983B1 (ko) 2017-03-02 2017-03-02 오디오 핑거프린트 식별 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20180027209A true KR20180027209A (ko) 2018-03-14
KR101841985B1 KR101841985B1 (ko) 2018-03-26

Family

ID=61660656

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160114523A KR101841985B1 (ko) 2016-09-06 2016-09-06 오디오 핑거프린트 추출 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101841985B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284717A (zh) * 2018-09-25 2019-01-29 华中师范大学 一种面向数字音频复制粘贴篡改操作的检测方法及系统
CN111522991A (zh) * 2020-04-15 2020-08-11 厦门快商通科技股份有限公司 一种音频指纹的提取方法和装置以及设备
CN111581430A (zh) * 2020-04-30 2020-08-25 厦门快商通科技股份有限公司 一种音频指纹的生成方法和装置以及设备
KR102168227B1 (ko) * 2019-08-02 2020-10-20 주식회사 텔레칩스 디지털 클러스터 출력음 모니터링 시스템 및 방법
KR20210062467A (ko) * 2019-11-21 2021-05-31 주식회사 샵캐스트 병렬 오디오 식별 시스템
KR20220067169A (ko) * 2020-11-17 2022-05-24 주식회사 샵캐스트 오디오 핑거 프린트 매칭 시스템 및 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284717A (zh) * 2018-09-25 2019-01-29 华中师范大学 一种面向数字音频复制粘贴篡改操作的检测方法及系统
KR102168227B1 (ko) * 2019-08-02 2020-10-20 주식회사 텔레칩스 디지털 클러스터 출력음 모니터링 시스템 및 방법
KR20210062467A (ko) * 2019-11-21 2021-05-31 주식회사 샵캐스트 병렬 오디오 식별 시스템
CN111522991A (zh) * 2020-04-15 2020-08-11 厦门快商通科技股份有限公司 一种音频指纹的提取方法和装置以及设备
CN111522991B (zh) * 2020-04-15 2022-05-17 厦门快商通科技股份有限公司 一种音频指纹的提取方法和装置以及设备
CN111581430A (zh) * 2020-04-30 2020-08-25 厦门快商通科技股份有限公司 一种音频指纹的生成方法和装置以及设备
KR20220067169A (ko) * 2020-11-17 2022-05-24 주식회사 샵캐스트 오디오 핑거 프린트 매칭 시스템 및 방법

Also Published As

Publication number Publication date
KR101841985B1 (ko) 2018-03-26

Similar Documents

Publication Publication Date Title
KR101841985B1 (ko) 오디오 핑거프린트 추출 장치 및 방법
US11361017B1 (en) Method to differentiate and classify fingerprints using fingerprint neighborhood analysis
US8385644B2 (en) Digital video fingerprinting based on resultant weighted gradient orientation computation
Miller et al. Audio fingerprinting: nearest neighbor search in high dimensional binary spaces
US8335786B2 (en) Multi-media content identification using multi-level content signature correlation and fast similarity search
US10127309B2 (en) Audio information retrieval method and device
KR100671772B1 (ko) 비디오 복제 검출 방법 및 장치
TWI447601B (zh) 使用多個搜尋組合改良音訊/視訊指紋搜尋正確性之技術
CN107293307B (zh) 音频检测方法及装置
Anguera et al. Mask: Robust local features for audio fingerprinting
US8433108B2 (en) Video fingerprinting
EP2657884B1 (en) Identifying multimedia objects based on multimedia fingerprint
US20130018614A1 (en) Comparison of data signals using characteristic electronic thumbprints extracted therefrom
US20140280304A1 (en) Matching versions of a known song to an unknown song
US20160247512A1 (en) Method and apparatus for generating fingerprint of an audio signal
Saracoglu et al. Content based copy detection with coarse audio-visual fingerprints
WO2014082812A1 (en) Clustering and synchronizing multimedia contents
CN109117622B (zh) 一种基于音频指纹的身份认证方法
US20100189409A1 (en) Video identification
Mou et al. Content-based copy detection through multimodal feature representation and temporal pyramid matching
JP6462111B2 (ja) 情報信号の指紋を生成するための方法及び装置
CN111245821B (zh) 辐射源识别方法、装置及辐射源识别模型创建方法、装置
KR20080046490A (ko) 몽타주 얼굴 영상을 이용한 얼굴 인식 방법 및 그 장치
KR101841983B1 (ko) 오디오 핑거프린트 식별 장치 및 방법
KR100734857B1 (ko) 누적 합 기반의 변화점 분석을 이용한 홍채 인식 방법 및그 장치

Legal Events

Date Code Title Description
A201 Request for examination
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant