KR20170140188A

KR20170140188A - 오디오 컨텐츠 인식 방법 및 장치

Info

Publication number: KR20170140188A
Application number: KR1020177028963A
Authority: KR
Inventors: 이상문; 황인우; 고병섭; 김기범; 김영태; 아난트 바이잘
Original assignee: 삼성전자주식회사
Priority date: 2015-04-27
Filing date: 2016-04-27
Publication date: 2017-12-20
Also published as: EP3255633A1; CN107533850B; CN107533850A; WO2016175564A1; US20180060428A1; US10997236B2; EP3255633A4; EP3255633B1; KR102614021B1

Abstract

상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 오디오 컨텐츠 인식 방법은, 오디오 신호를 수신하는 단계; 수신된 오디오 신호의 오디오 지문(AFP, Audio Finger-Print)을 획득하는 단계; 획득된 오디오 지문에 대한 해쉬코드(hash code)를 생성하는 단계; 생성된 해쉬코드와 데이터베이스에 저장된 해쉬코드의 매칭 요청(query)을 전송하는 단계; 및 전송에 대한 응답으로 오디오 신호의 컨텐츠 인식 결과를 수신하는 단계;를 포함하고 해쉬코드를 생성하는 단계는, 획득된 오디오 지문 중에서 해쉬코드를 생성할 오디오 지문의 프레임 간격 delta_F를 결정하는 단계;를 더 포함한다.

Description

오디오 컨텐츠 인식 방법 및 장치

본 발명은 수신된 오디오 데이터의 컨텐츠를 인식하는 방법 및 장치에 대한 것으로, 보다 상세하게는 수신된 오디오 데이터로부터 오디오 지문을 추출하고 추출된 지문 정보와 데이터베이스에 저장되어 있는 컨텐츠의 지문정보를 비교함으로써, 수신된 오디오 데이터가 어떠한 컨텐츠인지 인식하는 방법 및 장치에 관한 것이다.

단말에서는 다양한 형태의 멀티미디어 컨텐츠가 재생될 수 있으며, 멀티미디어 컨텐츠에 대한 정보를 알고 있을 경우, 재생중인 컨텐츠와 관련된 정보를 사용자에게 제공하거나 재생중인 컨텐츠와 관련된 부가 서비스를 사용자에게 제공할 수 있다.

그러나, 컨텐츠에 대한 정보가 전무한 상황에서는 이러한 확장서비스이 제공이 불가능하다.

단말에서 재생중인 멀티미디어 컨텐츠는 각각의 고유한 특징을 가질 수 있으며, 이와 같은 특징을 이용하여 현재 재생중인 컨텐츠가 어떠한 컨텐츠인지 인식하는 기술이 개발되고 있으나, 높은 잡음환경 또는 신호의 지연에 비동기 환경등의 영향에 강인한 컨텐츠 인식 기술이 필요하다.

상술한 바와 같이 멀티미디어 컨텐츠 각각의 고유한 특징에 기초하여 컨텐츠의 ID(Identification, 식별자) 및 프레임 번호 등을 알아내는 기술이 개발되고 있으나, 종래의 기술은 높은 잡음환경 또는 비동기 환경에서는 컨텐츠 인식율이 현저히 낮아지는 경향을 가진다.

본 발명은 전술한 종래 기술의 문제점을 해결하며, 비동기 및 잡음 환경에서도 높은 인식율 및 안정적인 성능을 갖는 컨텐츠 인식 방법 및 장치를 제공하는 것을 그 목적으로 한다.

상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.

상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 오디오 컨텐츠 인식 방법은, 오디오 신호를 수신하는 단계; 수신된 오디오 신호의 오디오 지문(AFP, Audio Finger-Print)을 획득하는 단계; 획득된 오디오 지문에 대한 해쉬코드(hash code)를 생성하는 단계; 생성된 해쉬코드와 데이터베이스에 저장된 해쉬코드의 매칭 요청(query)을 전송하는 단계; 및 전송에 대한 응답으로 오디오 신호의 컨텐츠 인식 결과를 수신하는 단계;를 포함하고 해쉬코드를 생성하는 단계는, 획득된 오디오 지문 중에서 해쉬코드를 생성할 오디오 지문의 프레임 간격 delta_F 를 결정하는 단계;를 더 포함한다.

본 발명의 또 다른 실시예에 따르면, 오디오 지문은 수신된 오디오 신호의 주파수 영역 스펙트럼 형태(spectral shape)에 기초하여 결정된다.

본 발명의 또 다른 실시예에 따르면, delta_F는 획득된 오디오 지문의 인접 프레임 사이의 스펙트럼 크기 차이에 기초하여 생성된다.

본 발명의 또 다른 실시예에 따르면, 해쉬코드를 생성하는 단계는, 상기 획득된 오디오 지문의 주파수 영역 에너지에 기초하여 결정된 가중치를 적용하는 단계;를 포함한다.

본 발명의 또 다른 실시예에 따르면, 매칭 요청을 전송 하는 단계는, 서로 인접한 프레임에 해당하는 해쉬코드 사이의 비트 변화 개수에 기초하여, 생성된 해쉬코드 중 매칭 요청을 전송할 해쉬코드 및 매칭 요청을 전송할 해쉬코드들의 전송 우선순위를 결정하는 단계;를 더 포함한다.

본 발명의 또 다른 실시예에 따르면, 컨텐츠 인식 결과는, 매칭 요청을 전송한 해쉬코드들의 컨텐츠 ID(identification)-프레임 도메인의 프레임 집중도(FCM, Frame Concentration Measure)에 기초하여 결정된다.

본 발명의 또 다른 실시예에 따르면, 오디오 신호는, 채널 오디오 및 객체 오디오 중 적어도 하나를 포함한다.

본 발명의 또 다른 실시예에 따르면, 수신된 오디오 신호의 오디오 씬 특성을 분석하는 단계; 및 오디오 씬 특성에 기초하여, 오디오 지문을 획득할 구간을 설정하는 단계;를 더 포함하고, 오디오 지문을 획득하는 단계는, 관심 구간에 대한 오디오 지문을 획득한다.

본 발명의 또 다른 실시예에 따르면, 오디오 컨텐츠 인식 명령(command) 및 매칭 요청 전송 명령을 수신하는 단계;를 더 포함하고, 오디오 지문을 획득하는 단계는, 오디오 컨텐츠 인식 명령이 수신된 시점으로부터 매칭 요청 전송 명령이 수신된 시점까지의 구간에 대한 오디오 지문을 획득한다.

본 발명의 또 다른 실시예에 따르면, 해쉬코드를 생성하는 단계는, 획득된 오디오 지문 중에서 동일한 값을 가지는 오디오 지문이 있는 경우, 하나를 제외한 나머지 동일한 값을 가지는 오디오 지문을 삭제하는 단계;를 더 포함한다.

상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 오디오 컨텐츠 인식 방법은, 오디오 신호를 수신하는 단계; 수신된 오디오 신호의 오디오 지문(AFP, Audio Finger-Print)을 획득하는 단계; 획득된 오디오 지문에 대한 해쉬코드(hash code)를 생성하는 단계; 생성된 해쉬코드와 데이터베이스에 저장된 해쉬코드를 매칭하는 단계; 및 매칭 결과에 기초하여, 오디오 신호의 컨텐츠를 인식하는 단계;를 포함하고, 해쉬코드를 생성하는 단계는, 획득된 오디오 지문 중에서 해쉬코드를 생성할 오디오 지문의 프레임 간격 delta_F를 결정하는 단계;를 더 포함한다.

상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 오디오 컨텐츠 인식 장치는, 오디오 신호를 수신하는 멀티미디어 수신부; 수신된 오디오 신호의 오디오 지문(AFP, Audio Finger-Print)을 획득하는 오디오 지문 획득부; 획득된 오디오 지문에 대한 해쉬코드(hash code)를 생성하고, 생성된 해쉬코드와 데이터베이스에 저장된 해쉬코드의 매칭 요청(query)을 전송하고 전송에 대한 응답으로 오디오 신호의 컨텐츠 인식 결과를 수신하는 해쉬코드 생성부;를 포함하고, 해쉬코드 생성부는, 획득된 오디오 지문 중에서 해쉬코드를 생성할 오디오 지문의 프레임 간격 delta_F를 결정한다.

상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 오디오 컨텐츠 인식 장치는, 오디오 신호를 수신하는 멀티미디어 수신부; 수신된 오디오 신호의 오디오 지문(AFP, Audio Finger-Print)을 획득하는 오디오 지문 획득부; 획득된 오디오 지문에 대한 해쉬코드(hash code)를 생성하는 해쉬코드 생성부; 및 생성된 해쉬코드와 데이터베이스에 저장된 해쉬코드를 매칭하고, 매칭 결과에 기초하여, 오디오 신호의 컨텐츠를 인식하는 매칭부;를 포함하고, 해쉬코드 생성부는, 획득된 오디오 지문 중에서 해쉬코드를 생성할 오디오 지문의 프레임 간격 delta_F를 결정한다.

한편, 본 발명의 일 실시예에 따르면, 전술한 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다.

본 발명에 의하면, 잡음환경 및 비동기 환경에서도 좋은 성능을 갖는 오디오 컨텐츠 인식 방법 및 장치를 제공할 수 있으며, 비주기 신호, 비연속 신호 또는 짧은 길이의 신호에도 적용이 가능하여 다양한 서비스 시나리오로의 확장이 가능하다.

도 1 은 본 발명의 일 실시예에 따른 컨텐츠 인식 시스템의 구성도이다.
도 2 는 본 발명의 일 실시예에 따른 비디오-오디오 하이브리드형 컨텐츠 인식 시스템에서 비디오 지문과 오디오 지문을 이용하는 방법을 설명하기 위한 도면이다.
도 3 은 본 발명의 일 실시예에 따른 오디오 컨텐츠 인식 장치의 블록도이다.
도 4 는 본 발명의 일 실시예에 따른 오디오 컨텐츠 인식 방법의 순서도이다.
도 5 는 본 발명의 일 실시예에 따른 오디오 컨텐츠 인식 시스템의 세부 동작 흐름도이다.
도 6 은 비동기 환경에서 LSF 기반 오디오 지문과 에너지 기반 오디오 지문의 에러율을 나타낸다.
도 7 은 본 발명의 일 실시예에 따른 해쉬코드 생성부의 블록도이다.
도 8 은 본 발명의 일 실시예에 따른 프레임 간격 delta_F 변화에 따른 delta_LSF를 나타낸 도면이다.
도 9 는 본 발명의 또 다른 일 실시예에 따른 컨텐츠 인식 시스템의 블록도이다.
도 10 은 인접한 해쉬코드 사이에서 비트 변화 개수에 대한 주파수 빈의 개수를 나타낸 도면이다.
도 11 은 본 발명의 일 실시예에 따른 매칭부의 블록도이다.
도 12 는 매칭 쿼리가 전송된 지문 정보 분포를 데이터베이스 도메인 상에 표시한 일 실시예를 나타낸 도면이다.
도 13A는 프레임 길이 2048, 샘플링레이트 16kHz 환경에서, 각 중복 비율에 대한 평균검출율을 나타낸 것이다.
도 13B는 프레임 길이 2048, 샘플링레이트 16kHz 환경에서, 각 중복 비율에 대한 검출율 표준편차를 나타낸 것이다.
도 14 는 본 발명의 일 실시예에 따른 컨텐츠 인식 방법의 동작 시나리오에 따른 동작 흐름을 나타내는 도면이다.
도 15 는 본 발명의 또 다른 실시예에 따른 컨텐츠 인식 방법의 동작 시나리오에 따른 동작 흐름을 나타내는 도면이다.
도 16 은 본 발명의 또 다른 실시예에 따른 컨텐츠 인식 방법을 설명하기 위한 오디오 지문열의 일 실시예를 나타낸다.
도 17 은 종래 기술에 의해 추출된 오디오 지문과 데이터베이스 오디오 지문을 매칭하는 방법을 설명하기 위한 도면이다.
도 18 은 비연속적인 데이터가 수신되는 경우, 종래기술에 의해 추출된 오디오 지문과 데이터베이스 오디오 지문을 나타낸 도면이다.
도 19 는 신호의 길이가 짧은 데이터가 수신되는 경우, 본 발명의 일 실시예에 따라 스펙트럼 형태에 기초하여 추출된 오디오 지문과 데이터베이스의 오디오 지문을 나타낸 도면이다.
도 20 은 비연속적인 데이터가 수신되는 경우, 본 발명의 또 다른 일 실시예에 따라 스펙트럼 형태에 기초하여 추출된 오디오 지문과 데이터베이스의 오디오 지문을 나타낸 도면이다.
도 21 은 본 발명의 또 다른 실시예에 따른 오디오 컨텐츠 인식 장치의 블록도이다.
도 22 는 본 발명의 또 다른 실시예에 따른 오디오 컨텐츠 인식 장치의 동작 흐름도이다.

발명의 실시를 위한 최선의 형태

발명의 실시를 위한 형태

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다.

예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다.

도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

멀티미디어 컨텐츠는 TV, 라디오 수신기, DMB(Digital Multimedia Broadcasting) 또는 스마트폰 등을 포함하는 사용자 단말을 통해 사용자에게 제공될 수 있다. 이 때, 사용자는 제공되는 멀티미디어 컨텐츠에 대한 부가적인 정보, 예를 들어 프로그램 이름, 출연자 또는 프로그램과 관련된 사회적 이슈 등에 대한 궁금증을 가질 수 있다. 또한 컨텐츠 제공자는 사용자들의 컨텐츠 사용 유형이나 선호도를 파악하거나 이에 기초한 추가 서비스를 제공하기 위해 사용자에게 제공되는 컨텐츠의 사용 현황을 모니터링할 필요가 있다.

멀티미디어 컨텐츠에 해당 컨텐츠에 대한 정보가 포함되어 있는 경우라면 그 정보를 이용하여 부가정보 또는 부가서비스를 제공할 수 있다. 그러나, 컨텐츠에 그와 같은 정보가 포함되지 않은 경우라면, 사용자 단말에 수신 또는 재생되는 멀티미디어 신호의 특징에 기초하여 컨텐츠를 인식하는 기술을 활용할 수 있다.

도 1 은 본 발명의 일 실시예에 따른 컨텐츠 인식 시스템의 구성도이다. 보다 구체적으로, 도 1 은 비디오-오디오 하이브리드형 컨텐츠 인식 시스템(VAHCR, Video-Audio Hybrid Recognition System)의 일 실시예를 나타낸다.

하이브리드형 컨텐츠 인식 시스템은, 사용자 단말에 수신되는 비디오 신호 및 오디오 신호로부터 특징점을 추출하고, 추출된 특징을 데이터베이스에 저장된 각 컨텐츠의 특징점 정보와 비교하여 컨텐츠를 식별하고 인식한다.

이 때 추출되는 특징점은 각각의 컨텐츠가 가지고 있는 고유한 정보를 모사할 수 있어야 하며 또한 수신되는 멀티미디어 신호의 품질 열화가 일어나더라도 안정적인 컨텐츠 인식이 가능해야 한다. 수신되는 멀티미디어 신호의 품질 열화를 발생시키는 요인으로는, 비동기 시스템, 높은 잡음율, 포맷 변환 에러, 양자화 에러등이 있다.

멀티미디어 인식을 위해 활용되는 각 신호의 특징점을 멀티미디어 지문이라고 하며, 비디오 신호의 특징점을 비디오 지문(VPF, Video FingerPrint), 오디오 신호의 특징점을 오디오 지문(APF, Audio FingerPrint)라고 부른다. 멀티미디어 지문은 일반적으로 이진코드로 구성된 해쉬코드(hash code)로 변환되어 사용된다. 해쉬코드는 해쉬키 또는 해쉬값이라고 불리기도 한다.

다만, 실시예에 따라 비디오 지문 또는 오디오 지문을 그대로 이용할수도 있으므로 해쉬코드로 변환하는 구성은 필수적 구성은 아니다. 또한, 도 1 에서 개시된 실시예에서는 비디오 지문 및 오디오 지문이 해쉬코드로 변환되는 구성은 생략되어 있으며, 지문과 해쉬코드가 유사한 의미로 사용되었음에 유의해야 한다.

도 1 에 개시된 비디오-오디오 하이브리드형 컨텐츠 인식 시스템은 크게 사용자 단말(100), 매칭 서버(200) 및 오디오 지문 데이터베이스(300) 및 비디오 지문 데이터베이스(400)를 포함한다.

사용자 단말(100)은 멀티미디어 컨텐츠를 재생할 수 있는 멀티미디어 컨텐츠 적용부(110), 오디오 컨텐츠(120)로부터 오디오 지문을 추출하는 오디오 지문 추출부(130), 비디오 컨텐츠(140)로부터 비디오 지문을 추출하는 비디오 지문 추출부(150), 추출된 오디오 지문 및 비디오 지문등을 매칭서버(200)로 전송하고 매칭서버(200)로부터 전송되는 매칭 결과를 수신하기 위한 네트워크 인터페이스(160) 및 사용자와 상호작용을 위한 사용자 인터페이스(170)를 포함한다.

매칭서버(200)는 오디오 지문 데이터베이스(400)에 저장된 모든 오디오 컨텐츠의 오디오 지문과 사용자 단말에서 전송된 오디오 지문을 비교하는 오디오 매칭부(210), 비디오 지문 데이터베이스(300)에 저장된 모든 비디오 컨텐츠의 오디오 지문과 사용자 단말에서 전송된 비디오 지문을 비교하는 비디오 지문 매칭부(220), 오디오 지문 매칭부(210)의 매칭 결과 및 비디오 매칭부(220)의 매칭 결과에 기초하여 인터랙티브 매칭을 수행하는 인터랙티브 매칭부(230) 및 사용자 단말(100)로부터 전송되는 오디오 지문 및 비디오 지문 등을 수신하고, 멀티미디어 컨텐츠 지문 매칭 결과 또는 컨텐츠 인식 결과를 사용자 단말로 전송하기 위한 네트워크 인터페이스(240)를 포함한다.

오디오 지문 데이터베이스(300) 및 비디오 지문 데이터베이스(400)에는 사용자 단말에 제공될 수 있는 모든 멀티미디어 컨텐츠 각각에 대한 오디오 지문 및 비디오 지문이 저장되어 있다. 모든 멀티미디어 컨텐츠 각각에 대한 오디오 지문 및 비디오 지문은 컨텐츠 제공자(CP, Contents Provider)에 의해 제공되는 경우가 일반적이나 별도의 주체에 의해 작성 및 사용될 수 있다.

도 1 에서 오디오 지문 데이터베이스(300) 및 비디오 지문 데이터베이스(400)는 매칭서버(200)의 외부에 도시되어 있으나, 실시예에 따라 매칭서버(200) 내부에 포함되는 형태로 구현될 수 있다. 또한, 도 1 에서 사용자 단말(100)과 매칭서버(200)는 별도의 장치로 구성되어 있으나 실시예에 따라 사용자 단말과 매칭 서버는 하나의 장치로 구성될 수 있다.

매칭서버(200)로부터 멀티미디어 지문 매칭 결과 또는 컨텐츠 인식 결과가 수신되면, 사용자 단말(100)은 사용자 인터페이스(170)를 통해 멀티미디어 지문 매칭 결과 또는 컨텐츠 인식 결과를 사용자에게 제공할 수 있다. 또는, 사용자 단말은 컨텐츠 제공자 또는 부가서비스 제공자가 결정한 규칙에 따라 사용자에게 현재 재생중인 멀티미디어 컨텐츠와 관련된 부가서비스 등을 제공할 수 있다.

가장 보편화된 서비스인 현재 사용자 단말에서 재생되고 있는 컨텐츠에 대한 검색/인식 또는 컨텐츠 인식을 통한 방송 모니터링 외에도, 스마트폰이나 태블릿 등의 세컨-스크린(second screen) 단말을 통해 현재 사용자 단말(TV)에서 재생되고 있는 컨텐츠와 관련된 정보를 제공할 수 있다. 또는 해당 컨텐츠와 관련된 광고 등의 맞춤 광고를 제공할 수 있다.

이외에도 오프라인 컨텐츠를 인식하거나 타 기기에서 재생되는 스트리밍 컨텐츠를 인식하고 관련 앱 서비스를 제공할 수 있으며, 데이터 중복 관리 및 저작권 관련 사업으로의 확장이 가능하다.

도 2 는 본 발명의 일 실시예에 따른 비디오-오디오 하이브리드형 컨텐츠 인식 시스템에서 비디오 지문과 오디오 지문을 이용하는 방법을 설명하기 위한 도면이다.

시스템 성능 및 데이터 저장 용량에 제한이 없다면, 컨텐츠 인식율을 높이기 위해 비디오 지문 및 오디오 지문을 모두 이용할 수 있다. 그러나 이러한 경우는 현실적으로 불가능하므로, 실제로는 오디오 지문이나 비디오 지문 중 하나를 주 전략으로 채택하고 나머지 지문은 보조적 수단으로 이용할 수 있다.

도 2 에서는 비디오 지문을 사용하는 비디오 컨텐츠 인식(VCR, Video Contents Recognition) 방법을 기본으로 사용하면서, 비디오 컨텐츠 인식의 컨텐츠 인식율이 떨어지는 구간에서 보조적으로 오디오 컨텐츠 인식(ACR, Audio Contents Recognition) 방법을 사용하는 경우를 가정한다.

도 2의 비디오 지문 추출 과정을 살펴보면 모두 7개의 시간영역 샘플이 존재한다. 첫번째 샘플을 수신하고 세번째 샘플을 수신하기까지의 시간에 해당하는 A 구간은 비디오 지문이 시간에 따라 충분한 변화량을 가지므로 비디오 컨텐츠 인식의 유효성이 높은 구간에 해당한다. 그러나, 이후 세 샘플들은 동일하거나 극히 유사한 샘플들로 구성되어 있어 비디오 컨텐츠 인식을 위한 정보가 부족하므로 이에 해당하는 B 구간은 비디오 컨텐츠 인식의 유효성이 낮은 구간에 해당한다.

이와 같이 비디오 지문의 분해능이 떨어지는 경우라도 오디오 지문은 컨텐츠 인식을 위한 충분한 정보를 가질 수 있으므로, 보조적으로 오디오 컨텐츠 인식을 수행하면 멀티미디어 컨텐츠 인식율을 유지할 수 있다.

반대로 오디오 컨텐츠 인식 방법을 기본으로 사용하면서, 동일한 배경음이 반복되거나 오디오 볼륨이 작은 경우 등 오디오 컨텐츠 인식의 유효성이 떨어지는 구간에서는 비디오 컨텐츠 인식을 수행할 수 있다.

또는 비디오 컨텐츠 인식 방법을 기본으로 사용하는 경우라도 도 2의 B 구간과 같이 비디오 지문의 분해능이 떨어지는 구간이 발생하는 경우 보다 빠른 오디오 컨텐츠 인식 방법으로의 전환을 위하여, 주기적으로 오디오 컨텐츠 인식 방법을 적용할 수 있다. 이와 같은 경우는 오디오 지문 매칭 방법을 이분화하여 보다 효율적인 적용이 가능하다. A 구간과 같이 비디오 컨텐츠 인식 방법이 충분한 분해능을 가지는 구간에서는 저연산량 및 빠른 반응 속도를 가지는 매칭 방법을 적용하고, B 구간과 같이 비디오 컨텐츠 인식 방법 적용이 불가능한 구간에서는 이전의 오디오 지문 매칭 결과를 바탕으로 보다 정밀한 매칭 방법을 적용하여 신뢰도 높은 컨텐츠 인식 결과를 획득할 수 있다.

앞서 언급한 바와 같이 비디오 지문 또는 오디오 지문은 각 컨텐츠의 일부분으로부터 이를 대표할 수 있는 고유 정보를 포함하고 있어야 하며 수신 신호의 열화가 발생하더라도 안정적인 컨텐츠 인식율을 제공할 수 있어야 한다.

오디오 컨텐츠 인식 방법의 경우, 채널 간섭에 의한 잡음 및 신호 비동기 등의 적용 환경에 따라 오디오 신호의 품질 열화가 발생할 수 있으며, 오디오 컨텐츠 인식 성능이 저하될 수 있다.

품질 열화에 의한 영향을 최소화하기 위해 오디오 지문 데이터베이스를 생성하기 위한 신호 간격을 조밀하게 설정할 수 있다. 그러나 최근 방송 채널 수가 증가하고, 대용량 컨텐츠 서비스가 제공되는 상황에서 오디오 지문 데이터베이스를 생성하기 위한 신호 간격을 조밀하게 설정할 경우 오디오 지문 데이터베이스의 용량이 과도하게 커지게 되며 매칭을 위한 연산량이 기하급수적으로 증가하는 문제가 있다.

대표적인 오디오 컨텐츠 인식 방법인 PRH(Philips Robust Has) 방식에 따르면, 시간 및 주파수 축에 대한 에너지 밴드 차의 부호를 이용하여 오디오 지문을 생성한다. 이와 같은 경우 사용자 단말로부터 매칭이 요청되는 지문 정보와 데이터베이스에 저장되어 있는 원본 지문 정보 사이의 비동기(time mismatch)에 의한 오류를 보완하기 위하여 프레임간 중복 비율(overlap ratio)을 높게 유지해야 하지만, 높은 중복 비율은 오디오 지문의 데이터베이스 사이즈를 증가시키고 연산량을 증가시키게 된다.

또 다른 오디오 컨텐츠 인식 방법으로는 시간 및 주파수 영역에서의 로컬 피크(local peak)에 대한 성상도(constellation map)를 이용하는 방법이 있다. 로컬 피크는 환경 잡음에 강인한 오디오 특징이지만, 빠른 응답 속도를 요구하는 온라인 멀티미디어 컨텐츠 인식에는 적용이 어려운 단점을 갖는다.

실시간 컨텐츠 인식 기술에서, 사용자 단말로부터 매칭이 요청되는 지문 정보와 데이터베이스에 저장되어 있는 원본 지문 정보 사이의 비동기 문제는 컨텐츠 인식율에 영향을 미치는 가장 중요한 요인이 된다. 따라서, 오디오 컨텐츠 인식 기술에서는 비동기에 강인한 오디오 지문을 생성하는 것이 중요한 기술적 과제가 된다.

도 3 은 본 발명의 일 실시예에 따른 오디오 컨텐츠 인식 장치의 블록도이다.

본 발명의 일 실시예에 Q른 오디오 컨텐츠 인식 장치는 송수신부(310), 지문 추출부(320), 해쉬코드 생성부(330), 저장부(340) 및 제어부(350)를 포함한다.

송수신부(310)는, 외부와 통신할 수 있는 인터페이스를 포함하며, 외부에서 전달되는 멀티미디어 컨텐츠등을 수신하고, 멀티미디어 지문 매칭 쿼리를 전송하고, 멀티미디어 지문 매칭 결과 또는 컨텐츠 인식 결과를 수신할 수 있다.

지문 추출부(320), 송수신부(310)를 통해 수신된 멀티미디어 컨텐츠, 특히 오디오 컨텐츠로부터 스펙트럼 모양 특징에 기초한 오디오 지문을 추출한다.

해쉬코드 생성부(330), 해쉬코드 생성부는 지문 추출부(320)에서 추출한 오디오 지문에 기초하여 해쉬코드를 생성한다. 해쉬코드는 저장된 자료를 검색하기 위한 탐색 키로, 배열의 형태로 저장되어 있는 데이터베이스의 인덱스를 찾기 위해 사용된다.

실시예에 따라 오디오 지문을 그대로 매칭에 이용하는 경우, 해쉬코드 생성부는 생략될 수 있다.

저장부(340)는, 오디오 컨텐츠 인식 장치가 오디오 컨텐츠를 인식하기 위하여 필요한 가가종의 정보 및 시스템 데이터를 처리하기 위하여 필요한 각종의 정보를 저장한다.

제어부(350)는, 오디오 컨텐츠 인식 장치 전체의 동작을 제어하며 오디오 컨텐츠 인식 장치가 오디오 지문 또는 오디오 지문 해쉬코드를 매칭 서버로 전달할 수 있도록, 송수신부(310), 지문 추출부(320), 해쉬코드 생성부(330) 및 저장부(340)를 제어한다.

도 4 는 본 발명의 일 실시예에 따른 오디오 컨텐츠 인식 방법의 순서도이다.

오디오 컨텐츠 인식 장치는 송수신부(310)를 통해 멀티미디어 컨텐츠를 수신(410)한다. 멀티미디어 컨텐츠는 비디오 컨텐츠와 오디오 컨텐츠를 포함하며, 오디오 컨텐츠는 채널 오디오 및 객체 오디오 중 적어도 하나를 포함할 수 있다. 본 명세서에서는 편의상 오디오 컨텐츠를 중심으로 발명을 기술하였으나, 본 발명은 오디오 컨텐츠에 한정되는 것은 아니며 비디오 컨텐츠에도 동일하게 적용가능하다.

오디오 컨텐츠 인식 장치의 지문 추출부(320)는 수신된 멀티미디어 컨텐츠에 기초하여 오디오 지문을 획득한다. 오디오 지문 생성을 위한 오디오 신호 특징점으로는 여러가지가 사용되지만, 본 발명의 일 실시예에서는 주파수 영역의 스펙트럼 모양(spectral shape)을 특징점으로 이용한다.

스펙트럼 모양에 대한 파라미터로는 LPC(linear Prediction Coefficient), MFCC (Mel-Frequency Ceptrum Coefficient), LSF (Line Spectrum Frequency)등이 있으며, 본 발명에서는 보컬 신호의 시변(time-varying) 모델링을 위해 LSF 알고리즘을 이용하였으나 발명 전체가 이에 국한되는 것은 아니다.

오디오 신호를 주파수 영역에서 고려하면, 주파수 밴드 내의 파워(에너지)가 변화하더라도 전체적인 모양(shape)은 큰 영향을 받지 않는 특징을 가진다. 따라서, 스펙트럼 모양에 대한 파라미터들은 잡음이나 비동기 등과 같은 환경의 변화에 안정적인 특징점이 될 수 있다.

오디오 컨텐츠 인식 장치의 해쉬코드 생성부 (330)는 획득된 오디오 지문을 이용하여 해쉬코드를 생성(430)한다. 해쉬코드는 오디오 지문 정보를 비트스트링(bit-string) 형태로 변환한 것으로, 본 발명의 일 실시예에 따른 해쉬코드 생성 방법에 대한 보다 자세한 내용은 후술한다.

해쉬코드가 생성되면, 오디오 컨텐츠 인식 장치는 생성된 해쉬코드 및 이에 대한 매칭 요청(쿼리)을 매칭 서버로 전송하고, 매칭 결과 또는 컨텐츠 인식 결과를 매칭 서버로부터 수신한다.

도 5 는 본 발명의 일 실시예에 따른 오디오 컨텐츠 인식 시스템의 세부 동작 흐름도이다.

도 5 에 개시된 본 발명의 일 실시예에 따른 오디오 컨텐츠 인식 시스템은 지문 추출부(510), 매칭부(520) 및 데이터베이스(530)를 포함한다.

지문 추출부(510)에 오디오 데이터가 수신되면, 지문추출부(510)는 수신된 오디오 데이터를 전처리(511)한다. 일반적인 오디오 신호의 전처리 과정은, 모노 PCM(Pulse Coded Modulation)신호로 변환하고 가청주파수 대역을 고려하여 대역통과 필터링을 수행하는 과정이 이에 해당한다.

전처리 과정이 적용된 오디오 신호는, 시간영역에서 프레임으로 분할(framing)되고, 각 프레임은 프레임 시작점과 종점의 불연속을 감소시키기 위해 윈도우 함수를 통과(windowing)시킨다. 각 프레임에서 생성되는 오디오 지문 값의 급격한 변화를 방지하기 위해 각 프레임 경계가 인접 프레임과 중복(overlapping)되도록 하는데, 인접 프레임과의 중복 비율은 오디오 지문 데이터 베이스의 크기 및 검색 연산량 등에 영향을 미치는 요인이 된다.

중복이 완료된 오디오 신호로부터 오디오 지문 생성을 위해 오디오 신호 특징을 추출(513)한다. 오디오 지문 생성을 위한 오디오 신호 특징점으로는 여러가지가 사용되지만, 본 발명의 일 실시예에서는 주파수 영역의 스펙트럼 모양(spectral shape)을 특징점으로 이용한다.

스펙트럼 모양에 기초하여 오디오 지문을 추출하고, 추출된 오디오 지문을 이용하여 해쉬코드를 생성(514)한다. 해쉬코드는 오디오 지문 정보를 비트스트링(bit-string) 형태로 변환한 것으로, 본 발명의 일 실시예에 따른 해쉬코드 생성 방법에 대한 보다 자세한 내용은 후술한다.

생성된 해쉬코드 및 이에 대한 매칭 요청이 매칭부(520)로 전달되면, 매칭부(520)는 데이터베이스(530)로부터 해쉬테이블을 수신(532)한다. 해쉬테이블은 원본 데이터에 대한 해쉬코드들로 구성된 테이블을 의미하며, 컨텐츠 ID 및 각 컨텐츠 ID에 대한 프레임 정보를 포함하는 룩업테이블(LUT, Look-Up Table)을 이용하여 룩업테이블과 요청이 수신된 컨텐츠의 맵핑을 수행한다.

이후, 룩업테이블과 컨텐츠의 맵핑 결과에 기초하여 수신된 컨텐츠와 데이터베이스에 저장된 원본 컨텐츠의 유사도를 판단(522)하고, 검증(523)한다. 본 발명의 일 실시예에 따른 컨텐츠 매칭 및 판단 방법에 대한 보다 자세한 내용은 후술한다.

해쉬코드 매칭이 완료되면, 매칭 결과에 기초하여 인식된 오디오 컨텐츠의 ID 및 프레임 번호와 함께 해당 오디오 컨텐츠에 대한 메타데이터가 데이터베이스로(530)부터 매칭부(520)로 전송(531)될 수 있다. 또한, 인식된 오디오 컨텐츠의 ID 및 프레임 번호와 함께 해당 오디오 컨텐츠에 대한 메타데이터는 사용자 인터페이스 등으로 출력(미도시)되거나 저장부에 저장(미도시)될 수 있다.

도 6 은 비동기 환경에서 LSF 기반 오디오 지문과 에너지 기반 오디오 지문의 에러율을 나타낸다.

도 6 에서 가로축은 시간영역 도약 사이즈(홉 사이즈) 대비 비동기 샘플의 비율로, 오른쪽으로 갈수록 비동기 샘플의 비율이 증가하는 환경을 나타내며, 세로축은 비트에러율(BER, Bit Error Rate)을 나타낸다.

610은 LSF 를 오디오 지문 특징점으로 이용한 경우의 해시코드 비트에러율이고 620은 주파수 서브밴드 에너지를 오디오 지문 특징점으로 이용한 경우의 해시코드 비트에러율이다.

도 6 를 살펴보면 주파수 서브밴드 에너지를 오디오 지문 특징점으로 이용하는 경우, 비동기 샘플의 비율이 증가할수록 해시코드 비트에러율은 급격히 증가한다. 반면, 본 발명의 일 실시예에 따른, LSF를 오디오 지문 특징점으로 이용하는 경우, 비동기 샘플의 비율이 증가하더라도 에러율이 유지되며 안정적인 성능을 나타내는 것을 확인할 수 있다.

도 7 은 본 발명의 일 실시예에 따른 해쉬코드 생성부의 블록도이다.

도 7 에 도시된 해쉬코드 생성부는 가중치 적용부(710), 프레임 간격 결정부(720) 및 해쉬 비트 생성부(730)로 구성된다.

도 7 에 도시된 실시예에서 해쉬코드 생성부의 입력은 스펙트럼 모양 특징에 대한 계수로, 본원 발명에서는 편의상 LSF(Linear Spectrum Frequency)를 기준으로 설명하나, 꼭 이 방법에 한정되는 것은 아니다. 출력은 오디오 지문에 대한 해쉬코드 B_FP로, N_c 비트의 크기를 갖는 비트스트링이 된다.

앞서 언급한 바와 같이 스펙트럼 모양에 대한 특징점들은 신호 잡음이나 비동기 샘플 발생에 강인한 반면 시간 프레임에 따른 변화가 크지 않다. 따라서, 인접한 프레임에 대한 특징의 차이를 이용하여 해쉬코드를 생성할 경우 에러 발생 확률이 높아지게 된다. 이와 같은 경우 해쉬코드를 생성하는 기준이 되는 특징의 차이를 증폭시키는 과정이 추가되면, 이와 같은 에러 발생 가능성을 낮출 수 있다.

본 발명의 일 실시예에 따른 환경 열화에 강인한 해쉬코드 생성 방법에 따르면, 스펙트럼 모양 특징 계수에 가중치를 적용하여 특징 계수의 차이를 증폭시킬 수 있다. 이를 위해, 가중치 적용부(710)에서는 입력 신호 c_ssf에 가중치를 적용하여 인접 프레임의 특징의 차이를 증폭시킨다.

환경 열화의 영향을 받지 않고 안정적으로 오디오 지문을 해쉬코드로 변환하기 위해서는 이진 코드 생성을 위한 기준이 되는 참조값과 입력 신호의 편차가 커야 하며, 이 때 참조값은 이전 프레임에 의해 결정된다.

예를 들어, LSF를 이용하는 경우 인접한 프레임 내의 DCT(Discrete Cosine Transform) 계수 또는 LSF 인덱스는 매우 유사한 값을 가지며 결국, 참조값과 입력 신호는 작은 편차를 갖는다. 따라서, 잡음 비율이 높거나 비동기 샘플 비율이 높은 환경에서 인접 프레임 사이의 DCT 계수 또는 LSF 인덱스 값의 차를 그대로 이용하여 해쉬코드를 생성하는 경우 에러율이 높아지게 된다.

이와 같은 문제를 해결하기 위해 본 발명의 일 실시예에서는 인접 프레임의 특징점 차이를 증폭시켜주기 위해, DCT 계수나 LSF 인덱스를 그대로 사용하는 0차 모멘트가 아닌, 보다 높은 차수의 모멘트를 사용하여 해쉬코드를 생성한다.

예를 들어, LSF 인덱스 값과 그 LSF 인덱스 값에 해당하는 주파수 파워 밀도(PSD, Power Spectral Density)를 가중치로 적용함으로써 편차가 강화된 특징점의 계수를 새로 정의할 수 있다.

i번째 프레임, j번째 주파수 빈의 c_ssf (i,j)에 해당 계수의 주파수 파워 밀도에 해당하는 W_ij를 가중치 적용한 c_ssf (i)×W_ij 를 새로운 오디오 지문 FP_new(i)로 사용하는 것이다.

또는, LSF 인덱스 값에 각각의 멜-스케일(mel-scale) 필터를 곱해준 값 중 가장 큰 값들의 그룹을 새로운 오디오 지문으로 사용할 수 있다.

본 발명의 또 다른 실시예에 따른 환경 열화에 강인한 해쉬코드 생성 방법에 따르면, 인접한 프레임이 아닌 소정의 프레임 간격을 가지는 프레임에 기초하여 해쉬코드를 생성함으로써 특징 차이를 증폭시킬 수 있다. 이를 위해, 프레임 간격 결정부(720)에서는 DCT 계수 차이 변화에 기초하여 해쉬코드를 생성하기 위한 프레임 간격 delta_F를 결정한다.

앞서 언급한 바와 같이 인접한 프레임 사이의 스펙트럼 모양 기반 특징의 DCT 계수는 유사한 패턴을 가지므로 해쉬코드를 생성하기 위한 프레임 간격 delta_F를 크게 하는 경우 참조 프레임들의 DCT 계수 차이가 커지게 되어 잡음에 강인한 해쉬코드의 생성이 가능하다. 그러나, 프레임 간격 delta_F가 커지게 되면 생성가능한 해쉬코드의 수가 줄어들게 되므로 컨텐츠 인식을 위해 사용 가능한 정보량이 줄어드는 문제가 발생한다.

또한, 이와 같이 delta_F 크기의 증가 또는 해쉬코드 개수의 감소는 매칭 연산량, 컨텐츠 인식율, 데이터베이스 사이즈 또는 해쉬 테이블 내 해쉬코드의 분포 등에 영향을 미치므로 이와 같은 트레이드-오프 관계를 고려하여 시스템 환경에 맞는 적절한 delta_F를 결정하는 것이 필요하다.

프레임 간격 delta_F가 결정되면, 해쉬 비트 생성부(730)는 결정된 delta_F에 기초하여 해쉬코드 B_FP를 생성한다.

도 8 은 본 발명의 일 실시예에 따른 프레임 간격 delta_F 변화에 따른 delta_LSF를 나타낸 도면이다.

예를 들어, 1.024초의 구간 길이를 갖는 오디오 스트림에 대해, 중복 비율 96.9%(31/32), 샘플링 주파수 16kHz로 2048 샘플 길이의 프레임 225개를 얻을 수 있다. 즉, 해당 스트림에 대해 225 세트의 LSF를 획득할 수 있으며, 디코릴레이션(de-correlation)을 위해 획득된 LSF에 DCT를 수행한다.

해쉬코드의 크기가 Nc비트이고, Nc=17인 경우 프레임당 LSF의 개수는 17이고, n_ID 컨텐츠의 n_Fr 번째 프레임에 대한 LSF를

라 할 때, delta_LSF는 [수학식 1]과 같이 정의할 수 있다.

도 8 은 위와 같은 환경에서, 프레임 간격 delta_F 에 따른 두 기준 프레임 사이의 LSF 편차에 해당하는 delta_LSF_i의 평균인 delta_LSF을 나타낸 것이다.

도 8 에서 확인할 수 있는 바와 같이, delta_F가 증가할수록 delta_LSF 역시 증가하는 경향을 보인다. delta_F가 증가할수록 delta_LSF 역시 증가되어 해쉬코드 매칭시 비트 에러율은 낮아지게 되지만, delta_F가 증가할수록 매칭 가능한 해쉬코드의 개수가 줄어들기 때문에 delta_LSF 증가가 둔화되는 지점을 최적의 delta_F로 결정할 수 있다. 도 8 에서는 delta_F를 20으로 설정할 수 있다.

본 발명의 또 다른 실시예에 따르면 delta_F를 결정하기 위해 서로 같은 차수를 갖는 DCT 계수뿐만 아니라, 차수가 서로 다른 DCT 계수들의 차이도 부가 정보로 이용할 수 있다.

도 9 는 본 발명의 또 다른 일 실시예에 따른 컨텐츠 인식 시스템의 블록도이다.

앞서 언급한 바와 같이 컨텐츠 데이터 베이스의 크기가 증가할수록 컨텐츠 인식을 위한 연산량 및 데이터베이스 내 해쉬 데이터 베이스의 크기가 증가하게 된다. 앞서 설명한 본 발명의 실시예에 추가하여, 생성된 해쉬코드 중에서 선택된 해쉬코드들을 이용하여 매칭을 수행함으로써 연산량을 감소시킬 수 있다.

지문 특징점을 획득하는 지문 추출부(910)는 초 단위의 샘플들을 처리하여 생성된 수백개의 해쉬코드에 대한 매칭 요청(query)를 매칭부로 전달한다. 이 때 매칭부(920)에서는 지문 출부에서 전달받은 해쉬코드들과 데이터베이스로부터 전달받은 해쉬테이블을 기반으로 컨텐츠를 식별한다.

해쉬테이블은 컨텐츠 데이터베이스를 해쉬코드로 변환하였을 때 각 해쉬코드 값에 대한 오디오 데이터 정보의 집합으로 일반적으로 룩업테이블의 형태를 갖는다.

이 때 전달받은 모든 해쉬코드를 이용하여 매칭을 수행하는 것은 연산량 대비 매칭율(에러율) 측면에서 비효율적일 수 있다. 예를 들어, 동일한 해쉬코드가 존재하는 경우, 동일한 해쉬코드는 중복데이터에 해당하므로 이를 이용하여 매칭을 수행하는 것은 시스템 자원을 무의미하게 사용하는 것이다.

따라서, 이러한 측면에서 매칭 요청을 위한 해쉬코드를 선택하는 해쉬코드 선택부(930)를 추가함으로써 시스템 자원을 보다 효율적으로 사용할 수 있다.

도 10 은 인접한 해쉬코드 사이에서 비트 변화 개수에 대한 주파수 빈의 개수를 나타낸 도면이다.

본 발명의 일 실시예에 해당하는, 스펙트럼 모양에 기초한 오디오 지문 특징점을 사용하는 경우, 이에 기초하여 생성된 해쉬코드는 시간의 변화에 민감하지 않은 특징을 가진다.

도 10 은 각 프레임을 17개의 비트로 구성된 해쉬코드로 변환하는 경우, 소정 해쉬코드를 인접 프레임의 해쉬코드와 비교했을 때 비트가 변화하는 개수를 히스토그램으로 나타낸 것이다. 도 10 에 나타난 바와 같이, 평균적으로 17 개의 비트 중 2개의 비트만이 변화하는 경우가 가장 많으며, 전체 데이터 중 50% 가량이 1 비트 내지 4비트가 변화하는 것을 확인할 수 있다. 이 때 총 데이터 중 단 하나의 비트도 변하지 않는 경우가 약 7%에 해당하며 8개를 초과하는 비트가 변하는 경우는 단 0.7%에 해당한다.

비트가 전혀 변하지 않는 경우, 각 프레임은 동일한 해쉬코드를 가지게 되므로 동일한 해쉬코드들 중 하나의 해쉬코드를 제외한 나머지 해쉬코드를 삭제하여 중복연산을 방지할 수 있다.

또한 8개를 초과하는 비트가 변하는 경우는 단 0.7%에 해당하므로 신뢰도가 낮은 구간으로 삭제하더라도 인식율에 큰 영향을 미치지 않는다. 따라서, 이와 같은 과정을 통해 연산량을 추가로 저감시킬 수 있다.

본 발명의 또 다른 실시예에 따르면 매칭을 위한 해쉬코드 전달 순서를 변경함으로써 연산량을 감소시킬 수 있다. 매칭부에서는 매칭쿼리가 수신된 순서대로 매칭을 수행하므로 매칭 확률이 높은 해쉬코드를 우선 전달함으로써 매칭 실패에 의한 재전송율을 낮춤으로써 보다 효율적인 컨텐츠 인식이 가능하다.

예를 들어, 매칭 쿼리 전송 순서를 해쉬 코드의 비트 변화가 자주 발생하는 구간을 우선적으로 전달할 수 있으며 도 10 에 도시된 실시예에서는 2비트 변화 샘플-3비트 변화 샘플-1비트 변화 샘플-4비트 변화 샘플의 순서로 매칭 쿼리를 전송할 수 있다.

지문추출부에서 생성된 해쉬코드를 기반으로 쿼리 전달 순서를 결정하거나 데이터베이스 내의 해쉬코드를 기반으로 쿼리 전달 순서를 결정할 수 있다. 데이터베이스 내의 해쉬코드를 기반으로 쿼리 전달 순서를 결정하는 경우, 매칭부는 결정된 쿼리 순서를 해쉬 생성부 또는 해쉬 선택부로 전달해야하며 해쉬 생성부 또는 해쉬 선택부는 전달된 쿼리 전달 순서에 따라 생성된 해쉬 코드를 매칭부로 전달한다.

도 11 은 본 발명의 일 실시예에 따른 매칭부의 블록도이다.

매칭부(1220)에서는 지문추출부(1210)로부터 전달된 매칭 쿼리에 포함된 해쉬 데이터(B_FP)와 데이터베이스(1230)로부터 전달된 해쉬테이블(1221)을 이용하여 해쉬 데이터에 대한 컨텐츠 ID 및 프레임 인덱스를 획득할 수 있으며 획득된 컨텐츠 ID와 프레임 인덱스를 ID-프레임 평면상에 분포하여 도시할 수 있다. (후술함)

데이터베이스(1230)로부터 전달된 해쉬테이블(1221)에는 참조값에 해당하는 해쉬코드 외에 어떤 컨텐트의 어떤 시간 프레임으로부터 추출된 지문인지에 대한 정보가 포함되어 있다. 따라서, 해쉬테이블을 이용해 쿼리가 전송된 해쉬 데이터와 데이터베이스를 매핑함으로써 쿼리가 전송된 해쉬 데이터에 해당하는 컨텐트 ID 및 프레임 번호를 획득할 수 있다.

컨텐츠 매칭을 위한 가장 간단한 방법은 쿼리가 전송된 해쉬코드와 데이터베이스의 해쉬 참조값을 (비트)스트링단위로 직접 비교하는 것이나 이와 같은 방법은 매우 비효율적이다.

스펙트럼 형태 특징에 기초한 오디오 지문 및 해쉬코드는 시간 변화에 대해 강인한 특징을 가지므로 이와 같은 특징을 이용하여 효율적인 매칭을 수행할 수 있다. 데이터베이스 도메인(ID-프레임 도메인)에 매칭 쿼리가 전송된 해쉬코드들의 분포를 도시하면, 이와 같은 특징 때문에 데이터베이스 도메인상의 소정 위치에 분포가 집중되는 양상을 보이게 된다.(후술함)

매칭 쿼리가 전송된 지문 정보에 해당하는 데이터베이스 도메인 분포를 도시하기 위한 룩업테이블 매핑함수 L 및 쿼리 분포도 H는 [수학식 2]와 같이 정의된다.

이 때, 룩업테이블 매핑함수 L은 매칭 쿼리가 전송된 지문

를 룩업테이블을 이용하여 소정 값

로 맵핑하는 함수이며, 맵핑 후 해당 쿼리에 대한 쿼리 분포도 H는 1로 설정된다.

해쉬 데이터에 대한 후보 컨텐츠 ID 및 프레임 인덱스가 결정(1122)되면, 각 후보 컨텐츠 ID의 프레임 집중도를 계산(1123)한다

이 때 n_ID에 대한 프레임 집중도

는 [수학식 3]과 같이 정의된다.

이 때, N_Fr은 모든 프레임의 총 개수를 의미하며, Q는 시그마함수(

)를 의미한다.

즉, 프레임 집중도는 N_Fr개의 매칭 쿼리에 해당하는 분포도 값의 합으로 정의된다. 각 후보 ID에 대해 집중되어 있는 프레임 집중도가 높을수록 해당 컨텐츠와 일치할 가능성이 높으므로, 이에 기초하여 유사도를 판단할 수 있다.

또한, 매칭 쿼리가 전송된 지문 정보의 분포를 데이터베이스 도메인에 표시하면, 유사도가 가장 높은 ID 및 프레임 번호에 그 분포가 집중되는 것을 확인할 수 있다.(후술함)

후보 ID들의 프레임 집중도가 계산되면, 계산된 프레임 집중도를 소정의 임계값 α와 비교(1124)한다. 모든 후보 ID들의 프레임 집중도가 임계값 α를 넘지 못할 경우 매칭부(1120)는 지문추출부(1110)로 매칭 실패 결과 및 쿼리 재전송 요청을 전송한다.

후보 ID들 중 프레임 집중도가 임계값 α를 넘는 ID 가 존재하는 경우, 매칭이 집중된 영역의 해쉬값과 데이터베이스 내 해쉬값을 비교하여 최적의 ID를 선택(1125)하고, 매칭 결과로 해당 컨텐트 ID 및 관련 메타데이터를 출력한다. 예를 들면, 매칭 쿼리가 전송된 해쉬코드와 데이터베이스의 해쉬코드의 해밍거리(Hamming distance)를 계산하여 그 결과 값이 가장 작은 컨텐트 ID를 최적의 ID로 결정할 수 있다.

도 12 는 매칭 쿼리가 전송된 지문 정보 분포를 데이터베이스 도메인 상에 표시한 일 실시예를 나타낸 도면이다.

상술한 바와 같이, 매칭 쿼리가 전송된 지문 정보의 분포를 데이터베이스 도메인에 표시하면, 유사도가 가장 높은 ID 및 프레임 번호에 그 분포가 집중된다. 도 12 에 개시된 실시에에서는 매칭 쿼리가 전송된 지문 정보 분포를 데이터베이스 도메인에 표시한 결과 (n_ID,n_FR)=(1,1) 주변에서 매칭이 집중된 영역(1220)이 존재한다.

즉, 이와 같은 경우 매칭 결과는 (n_ID,n_FR )=(1,1)가 되며 매칭부는 매칭 쿼리가 전송된 오디오 지문은 첫번째 컨텐츠의 첫번째 프레임에 해당한다는 결과를 획득하게 된다.

도 13 은 본 발명의 일 실시예에 따른 컨텐츠 인식 방법의 성능을 나타내는 도면이다.

컨텐츠 인식 방법의 성능을 판단하는 방법은 여러가지가 있지만, 도 13 에 개시된 실시에에서는 컨텐츠 인식, 즉 매칭 실패에 의한 재전송율을 기준으로 성능을 판단하였다.

도 13A는 프레임 길이 2048, 샘플링레이트 16kHz 환경에서, 각 중복 비율에 대한 평균검출율을 나타낸 것이다. 또한 도 13B는 프레임 길이 2048, 샘플링레이트 16kHz 환경에서, 각 중복 비율에 대한 검출율 표준편차를 나타낸 것이다.

검출율은 컨텐츠 인식에 성공한 비율을 나타내므로, 검출율이 높을수록 컨텐츠 인식 성능이 높은 것으로 또한 검출율의 표준편차가 작을수록 안정적인 컨텐츠 인식 성능을 가지는 것으로 판단할 수 있다.

도 13A 를 살펴보면 본원 발명에 의한 컨텐츠 인식 결과가 종래 기술에 의한 컨텐츠 인식 결과와 비교해 높은 검출율을 나타내며, 도 13B 를 살펴보면, 본원 발명에 의한 컨텐츠 인식 결과가 종래 기술에 의한 컨텐츠 인식 결과와 비교해 낮은 표준편차를 나타낸다. 따라서, 본원 발명에 의한 컨텐츠 인식 방법은 종래 기술에 비해 더 좋은 성능을 나타내며 더 안정적으로 동작하는 것을 확인할 수 있다.

도 14 는 본 발명의 일 실시예에 따른 컨텐츠 인식 방법의 동작 시나리오에 따른 동작 흐름을 나타내는 도면이다.

본 발명의 일 실시예에 따르면, 여러 종류의 음원이 존재하는 오디오 컨텐츠에 대하여 음악 또는 음성 구간에 대한 오디오 씬 분석(ASA, Audio Scene Analysis)를 수행하여, 기설정된 또는 사용자가 원하는 유형의 음원에 대하여만 컨텐츠 인식을 수행하도록 할 수 있다.

도 14 에 개시된 실시예에서는 음악 구간에 대해서만 컨텐츠 인식을 수행한다. 음악 구간(mu)과 음성 구간(sp)이 존재하는 음원에 대하여 SMD(Speech/Music Detection)등을 이용한 음원분석(1430)을 수행하여 음악 구간과 음성 구간을 판단한다.

예를 들어 스트리밍으로 소정 음원을 재생하는 중 음악 구간(1432, 1434, 1436)이 검출되면 오디오 지문 엔진(1420)으로 지문추출 또는 오디오 컨텐츠 인식 요청을 전송한다. 지문추출 또는 오디오 컨텐츠 인식 요청이 수신되면, 오디오 지문 엔진은 해당 음악 구간이 종료되기를 기다리며 수신되는 오디오 데이터로부터 오디오 지문을 추출하고, 해쉬코드를 생성한다.

해당 음악 구간이 종료되면, 오디오 지문 엔진(1420)은 지문추출 또는 컨텐츠 인식 요청에 대한 응답으로, 매칭 서버(1410)로 매칭 쿼리를 전송한다. 매칭 서버(1410)는 데이터베이스(미도시)로부터 전달된 해쉬테이블 등의 지문 정보에 기초하여 매칭 및 컨텐츠 인식을 수행한다.

도 15 는 본 발명의 또 다른 실시예에 따른 컨텐츠 인식 방법의 동작 시나리오에 따른 동작 흐름을 나타내는 도면이다.

본 발명의 일 실시예에 따르면, 서버의 요청이 있는 경우 컨텐츠 인식을 수행하도록 동작할 수 있다. 예를 들어 서버(1510)가 클라이언트에서 재생되고 있는 컨텐츠에 대한 정보가 필요한 경우, 서버(1510)는 클라이언트의 오디오 지문 엔진(1520)으로 지문 추출 또는 오디오 컨텐츠 인식 요청 커맨드를 전송한다.

오디오 지문 엔진(1520)은 서버로부터 지문 추출 요청 커맨드가 수신되면, 소정의 시간동안 또는 지문 추출 또는 오디오 컨텐츠 인식 종료 커맨드가 수신될 때까지 오디오 데이터로부터 오디오 지문을 추출하고, 해쉬코드를 생성한다.

소정의 시간이 경과하거나 또는 종료 커맨드가 수신되면, 오디오 지문 엔진(15200은 서버(1510)로 매칭 쿼리를 전송한다. 매칭 서버(1510)는 데이터베이스(미도시)로부터 전달된 해쉬테이블 등의 지문 정보에 기초하여 매칭 및 컨텐츠 인식을 수행한다.

이와 같은 실시예에 따르면 비디오-오디오 하이브리드 방식의 멀티미디어 컨텐츠 인식 장치에서, 비디오 컨텐츠 인식과 오디오 컨텐츠 인식이 직렬적으로 동작하는 경우 효율적으로 각 동작을 제어할 수 있는 장점을 갖는다.

도 16 은 본 발명의 또 다른 실시예에 따른 컨텐츠 인식 방법을 설명하기 위한 오디오 지문열의 일 실시예를 나타낸다.

도 16 에 도시된 오디오 지문열 1610은 복수의 위치에서 동일한 지문 값(1611, 1612, 1613)을 갖는다. 이와 같이 동일한 값을 갖는 지문은 유효한 정보를 갖지 못하면서 시스템 자원을 낭비하는 요인이 된다. 따라서, 동일한 값을 갖는 지문 중 하나의 지문을 제외한 나머지 지문을 삭제(1622, 1623)하여 지문열을 새로 생성(1620)할 수 있다.

이와 같이 재생성된 지문열에 기초한 매칭 쿼리를 서버로 전달하는 경우, 쿼리양을 줄이면서 매칭 성능은 동일하게 유지할 수 있는 장점을 갖는다.

도 17 내지 도 20 은 신호의 길이가 짧은 데이터 또는 비연속 데이터에 대한 컨텐츠 인식 방법을 설명하기 위한 도면이다.

신호의 길이가 짧은 데이터 또는 비연속적인 데이터의 경우 신호 동기를 찾기 어려우므로 정확한 시간 지연을 측정하기 어려운 비동기 환경이 된다.

도 17 은 종래 기술에 의해 추출된 오디오 지문과 데이터베이스 오디오 지문을 매칭하는 방법을 설명하기 위한 도면이다.

종래기술의 경우, 비동기 환경에서는 컨텐츠 인식 성능이 현저히 낮아지므로, 충분한 정보를 획득하기 위해 4초 정도의 긴 시간동안의 오디오 데이터를 이용하여 오디오 지문을 추출한다. 이와 같이 충분히 긴 시간동안의 데이터를 이용하는 경우, 구간 내에 복수개의 큰 피크가 존재하게되며 이와 같은 피크는 좋은 오디오 지문 특징점이 되며, 동시에 신호의 동기를 획득하는 정보를 포함하고 있다.

도 18 은 비연속적인 데이터가 수신되는 경우, 종래기술에 의해 추출된 오디오 지문과 데이터베이스 오디오 지문을 나타낸 도면이다.

종래 기술에 의한 방법은, 비연속 신호에서 추출되는 오디오 지문은 동기를 맞추기 위한 충분한 정보를 포함하고 있지 않아 데이터베이스의 오디오 지문과 매칭시킬 수 없는 문제가 있다.

도 19 는 신호의 길이가 짧은 데이터가 수신되는 경우, 본 발명의 일 실시예에 따라 스펙트럼 형태에 기초하여 추출된 오디오 지문과 데이터베이스의 오디오 지문을 나타낸 도면이다.

도 20 은 비연속적인 데이터가 수신되는 경우, 본 발명의 또 다른 일 실시예에 따라 스펙트럼 형태에 기초하여 추출된 오디오 지문과 데이터베이스의 오디오 지문을 나타낸 도면이다.

도 19 또는 도 20 과 같은 비동기 환경에서는 종래 기술에 의하면 열화현상이 발생하여 컨텐츠 인식이 안되거나 컨텐츠 인식유리 현저히 낮아지게 된다. 그러나, 본 발명에 따른 지문 추출 방법 및 해쉬코드 생성 방법에 따르면, 짧은 신호로도 연속적인 지문 생성이 가능하며 비동기에 강인한 특징을 가지므로 비주기 신호 또는 시간이 짧은 입력 신호에 대한 컨텐츠 인식을 수행할 수 있다.

또한, 또한 두가지 방식을 결합하여 짧은 시간에 대한 비연속적인 복수의 쿼리를 전송함으로써 컨텐츠 인식 성능을 더욱 개선할 수 있으며 다양한 시나리오로의 확장이 가능하다.

도 21 은 본 발명의 또 다른 실시예에 따른 오디오 컨텐츠 인식 장치의 블록도이다.

도 21 에 도시된 오디오 컨텐츠 인식 장치는 도 3 에 도시된 오디오 컨텐츠 인식 장치와 비교하여 매칭부(2160) 및 데이터베이스(2170)를 더 포함한다. 따라서, 이에 대해서만 설명한다.

데이터베이스(2170)에는, 모든 오디오 컨텐츠에 대한 지문정보, 해쉬테이블 및 부가정보 등이 저장되어 있다. 매칭부(2160)로부터 지문정보 또는 해쉬테이블의 전달 요청이 수신되면, 데이터베이스(2170)는 해당 정보를 매칭부(2160)로 전송한다.

매칭부(2160)는, 해쉬코드 생성부(2130)에서 전달된 해쉬코드 및 데이터베이스로부터 전달된 해쉬테이블등에 기초하여 매칭을 수행하고, 매칭 결과로 컨텐츠 ID, 프레임 번호 및 부가정보 등을 획득한다.

도 22 는 본 발명의 또 다른 실시예에 따른 오디오 컨텐츠 인식 장치의 동작 흐름도이다.

도 22 에 개시된 실시예에서는 매칭 동작을 오디오 컨텐츠 인식 장치에서 직접 수행하므로, 도 4 와 비교하여 매칭 요청을 전송하는 단계 및 컨텐츠 인식 결과를 수신하는 단계는 제외되며, 해쉬코드를 매칭하는 단계(2240) 및 컨텐츠 인식 결과를 획득(2250)하는 단계가 추가된다.

이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims

오디오 신호를 수신하는 단계;
상기 수신된 오디오 신호의 스펙트럼 형태(spectral shape)에 기초하여 오디오 지문(AFP, Audio Finger-Print)을 획득하는 단계;
상기 획득된 오디오 지문에 대한 해쉬코드(hash code)를 생성하는 단계;
상기 생성된 해쉬코드와 데이터베이스에 저장된 해쉬코드의 매칭 요청(query)을 전송하는 단계; 및
상기 전송에 대한 응답으로 상기 오디오 신호의 컨텐츠 인식 결과를 수신하는 단계;를 포함하고
상기 해쉬코드를 생성하는 단계는,
상기 획득된 오디오 지문 중에서 해쉬코드를 생성할 오디오 지문의 프레임 간격 delta_F를 결정하는 단계;를 더 포함하는,
오디오 컨텐츠 인식 방법.
제 1 항에 있어서,
상기 오디오 지문은 상기 수신된 오디오 신호의 주파수 영역 스펙트럼 형태(spectral shape)에 기초하여 결정되는,
오디오 컨텐츠 인식 방법.
제 2 항에 있어서,
상기 delta_F는 상기 획득된 오디오 지문의 인접 프레임 사이의 스펙트럼 크기 차이에 기초하여 생성되는,
오디오 컨텐츠 인식 방법.
제 1 항에 있어서,
상기 해쉬코드를 생성하는 단계는,
상기 획득된 오디오 지문의 주파수 영역 에너지에 기초하여 결정된 가중치를 적용하는 단계;를 포함하는,
오디오 컨텐츠 인식 방법.
제 1 항에 있어서,
상기 매칭 요청을 전송 하는 단계는,
서로 인접한 프레임에 해당하는 해쉬코드 사이의 비트 변화 개수에 기초하여, 상기 생성된 해쉬코드 중 매칭 요청을 전송할 해쉬코드 및 상기 매칭 요청을 전송할 해쉬코드들의 전송 우선순위를 결정하는 단계;를 더 포함하는,
오디오 컨텐츠 인식 방법.
제 1 항에 있어서,
상기 컨텐츠 인식 결과는, 상기 매칭 요청을 전송한 해쉬코드들의 상기 컨텐츠 ID(identification)-프레임 도메인의 프레임 집중도(FCM, Frame Concentration Measure)에 기초하여 결정되는,
오디오 컨텐츠 인식 방법.
제 1 항에 있어서,
상기 오디오 신호는, 채널 오디오 및 객체 오디오 중 적어도 하나를 포함하는,
오디오 컨텐츠 인식 방법.
제 1 항에 있어서,
상기 수신된 오디오 신호의 오디오 씬 특성을 분석하는 단계; 및
상기 오디오 씬 특성에 기초하여, 오디오 지문을 획득할 구간을 설정하는 단계;를 더 포함하고,
상기 오디오 지문을 획득하는 단계는,
상기 관심 구간에 대한 오디오 지문을 획득하는,
오디오 컨텐츠 인식 방법.
제 1 항에 있어서,
오디오 컨텐츠 인식 명령(command) 및 매칭 요청 전송 명령을 수신하는 단계;를 더 포함하고,
상기 오디오 지문을 획득하는 단계는,
상기 오디오 컨텐츠 인식 명령이 수신된 시점으로부터 상기 매칭 요청 전송 명령이 수신된 시점까지의 구간에 대한 오디오 지문을 획득하는,
오디오 컨텐츠 인식 방법.
제 1 항에 있어서,
상기 해쉬코드를 생성하는 단계는,
상기 획득된 오디오 지문 중에서 동일한 값을 가지는 오디오 지문이 있는 경우, 하나를 제외한 나머지 동일한 값을 가지는 오디오 지문을 삭제하는 단계;를 더 포함하는,
오디오 컨텐츠 인식 방법.
오디오 신호를 수신하는 단계;
상기 수신된 오디오 신호의 오디오 지문(AFP, Audio Finger-Print)을 획득하는 단계;
상기 획득된 오디오 지문에 대한 해쉬코드(hash code)를 생성하는 단계;
상기 생성된 해쉬코드와 데이터베이스에 저장된 해쉬코드를 매칭하는 단계; 및
상기 매칭 결과에 기초하여, 상기 오디오 신호의 컨텐츠를 인식하는 단계;를 포함하고,
상기 해쉬코드를 생성하는 단계는,
상기 획득된 오디오 지문 중에서 해쉬코드를 생성할 오디오 지문의 프레임 간격
를 결정하는 단계;를 더 포함하는,
오디오 컨텐츠 인식 방법.
오디오 신호를 수신하는 멀티미디어 수신부;
상기 수신된 오디오 신호의 오디오 지문(AFP, Audio Finger-Print)을 획득하는 오디오 지문 획득부;
상기 획득된 오디오 지문에 대한 해쉬코드(hash code)를 생성하고, 상기 생성된 해쉬코드와 데이터베이스에 저장된 해쉬코드의 매칭 요청(query)을 전송하고 상기 전송에 대한 응답으로 상기 오디오 신호의 컨텐츠 인식 결과를 수신하는 해쉬코드 생성부;를 포함하고,
상기 해쉬코드 생성부는,
상기 획득된 오디오 지문 중에서 해쉬코드를 생성할 오디오 지문의 프레임 간격 delta_F를 결정하는,
오디오 컨텐츠 인식 장치.
오디오 신호를 수신하는 멀티미디어 수신부;
상기 수신된 오디오 신호의 오디오 지문(AFP, Audio Finger-Print)을 획득하는 오디오 지문 획득부;
상기 획득된 오디오 지문에 대한 해쉬코드(hash code)를 생성하는 해쉬코드 생성부; 및
상기 생성된 해쉬코드와 데이터베이스에 저장된 해쉬코드를 매칭하고, 상기 매칭 결과에 기초하여, 상기 오디오 신호의 컨텐츠를 인식하는 매칭부;를 포함하고,
상기 해쉬코드 생성부는,
상기 획득된 오디오 지문 중에서 해쉬코드를 생성할 오디오 지문의 프레임 간격 delta_F를 결정하는,
오디오 컨텐츠 인식 장치.
제 1 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체.