KR100883657B1

KR100883657B1 - 음성 인식 기반의 음악 검색 방법 및 장치

Info

Publication number: KR100883657B1
Application number: KR1020070008583A
Authority: KR
Inventors: 김규홍; 김정수; 한익상
Original assignee: 삼성전자주식회사
Priority date: 2007-01-26
Filing date: 2007-01-26
Publication date: 2009-02-18
Also published as: US20080249770A1; KR20080070445A

Abstract

본 발명은 음성 인식 기반의 음악 검색 방법 및 장치에 관한 것으로, 본 발명에 따른 음성 인식 기반의 음악 검색은 음향 모델을 이용하여 음성 입력에 대한 검색 스코어를 계산하고, 사용자 선호 모델을 이용하여 음악에 대한 선호도를 계산하고, 계산된 선호도를 검색 스코어에 반영하여 계산하여 선호도가 반영된 검색 스코어에 따라 음악 리스트를 추출함으로써, 음성 인식을 이용한 검색 결과의 개인화된 표현을 할 수 있고, 음성 인식의 결과의 오류 내지는 불완전성을 보완해 줄 수 있는 효과가 있다.

음성 인식, 음악, 검색, 사용자 선호 모델

Description

음성 인식 기반의 음악 검색 방법 및 장치{Method and apparatus for searching a music using speech recognition}

도 1은 종래기술에 따른 음성 인식 기반의 음악 검색 장치의 개략적인 블록도이다.

도 2는 본 발명의 일 실시 예에 따른 음성 인식 기반의 음악 검색 장치의 개략적인 블록도이다.

도 3은 도 2의 실시 예에 따른 검색부(210)의 구성을 개략적으로 도시한 블록도이다.

도 4는 본 발명의 다른 실시 예에 따른 음성 인식 기반의 음악 검색 장치의 개략적인 블록도이다.

도 5는 도 4의 실시 예에 따른 검색부(410)의 구성을 개략적으로 도시한 블록도이다.

도 6은 본 발명의 또 다른 실시 예에 따른 음성인식 기반의 음악 검색 방법을 설명하기 위한 흐름도이다.

<도면의 주요 부분에 대한 부호의 설명>

200: 특징 추출부 210,410: 검색부

220,420: 음향 모델 230,430: 발음 모델

240,440: 언어 모델 250,450: 사용자 선호 모델

460: 월드 모델 300,500: 검색 스코어 계산부

310,520: 선호도 계산부 510: 반영도 계산부

320,540: 추출부

본 발명은 음성 인식 방법 및 장치에 관한 것으로, 더 상세하게는 음성 인식 기반의 음악 검색 방법 및 장치에 관한 것이다.

최근, MP3 플레이어, 휴대폰, PDA 등의 음악 재생 기기는 점점 소형화되는 반면에, 음악을 저장할 수 있는 메모리는 점점 대용량화 되어가고 있으며, 디자인을 위해서 버튼의 개수나 사용자 인터페이스가 간단해지고 있다. 메모리 가격의 절감과 부품의 소형화로 인하여, 저장할 수 있는 음악이 많아지고 있으며, 음악 검색을 수월하게 할 필요성이 증가하고 있다.

이때 기본적으로 생각할 수 있는 방법은 크게 두 가지가 있다. 즉, 음악 검색시 버튼을 조작하여 검색하거나 아니면 음성 인식을 이용하여 검색하는 것이다.

전자는 버튼의 수가 늘어날수록 음악 검색은 편리해지나 디자인에 영향을 줄 수 있으며, 많은 곡이 저장되어 있을 경우 버튼을 누르는 횟수도 증가하며 검색하기가 불편하다는 단점이 있다.

후자는 많은 곡이 저장되어 있더라도 검색이 용이하다는 장점이 있으며 외부 디자인에 영향을 주지 않는다는 장점이 있지만, 음성 인식 성능이 완전하지 못하다는 한계가 있다.

하지만, 음성 인식 기술의 향상과 함께 앞으로 음성 인식이 소형 모바일 기기에서 검색의 도구로써 채택될 가능성은 점점 높아지고 있으며, 많은 음성 인식 관련 제품이 출시되고 있다. 이와 더불어 최근 사용자 맞춤형 기기와 관련된 연구가 많이 이루어지고 있는데 그 중에 하나가 사용자가 좋아하는 노래를 찾는 것과 관련한 연구이다.

도 1을 참조하면, 음성 인식 기반의 음악 검색 장치는 특징 추출부(100), 검색부(110), 음향 모델(acoustic model, 120), 발음 모델(lexicon, 130), 언어 모델(language model, 140), 음악 DB(150)를 포함한다.

음성 인식을 이용한 검색에 있어서, 사용자가 입력한 키워드, 예를 들면 "사랑"이 곡명에 존재하는 모든 음악들에 대해서는 같은 스코어가 발생할 뿐만 아니라, 사용자가 선호하지 않은 음악이 검색결과 리스트에 고르게 분포하게 된다. 또한, 인식오류로 인하여 찾고자 하는 곡이 낮은 순위에 위치할 가능성도 존재한다.

예를 들면, 발라드를 주로 좋아하고, 트로트는 별로 좋아하지 않는 사용자가 "별, 바람, 햇살 그리고 사랑"이라는 노래를 찾을 목적으로 "사랑"이라는 발성을 하여 검색을 했을 때, <표 1>과 같은 결과를 얻게 된다.

곡명	로그 우도(log likelihood)
사랑은 얄미운 나비인가봐	-9732
사랑의 불시착	-9732
사랑2	-9732
사랑의 미로	-9732
별, 바람, 햇살, 그리고 사랑	-9732
사라	-9747
....	....

검색 스코어는 높지만, 5위에 머물러 있었다. 오히려 별로 좋아하지 않는 트로트 노래가 상위에 랭크되는 문제점이 있다.

본 발명은 전술한 종래기술의 문제점을 해결하고자 안출된 것으로, 음성 인식과 사용자 음악 선호도를 함께 반영하여 검색할 수 있는 방법 및 장치를 제공하는 데 목적이 있다.

본 발명의 기술적 과제를 달성하기 위한 음성 인식으로 음악을 검색하는 방법은 음향 모델을 이용하여 음성 입력에 대한 검색 스코어를 계산하는 단계; 사용자 선호 모델을 이용하여 음악에 대한 선호도를 계산하고, 상기 계산된 선호도를 상기 검색 스코어에 반영하여 계산하는 단계; 및 상기 선호도가 반영된 검색 스코어에 따라 음악 리스트를 추출하는 단계를 포함한다.

본 발명의 다른 기술적 과제를 달성하기 위한 음성 인식으로 음악을 검색하 는 장치는 사용자가 선호하는 음악을 모델링하여 저장하는 사용자 선호 모델; 및 음향 모델을 이용하여 음성 입력에 대한 검색 스코어를 계산하고, 상기 사용자 선호 모델을 이용하여 음악에 대한 선호도를 계산하고, 상기 계산된 선호도를 상기 검색 스코어에 반영하여 음악 리스트를 추출하는 검색부를 포함한다.

본 발명의 또 다른 기술적 과제를 달성하기 위한 특징 추출부, 검색부, 음향 모델, 발음 모델, 언어 모델 및 음악 데이터베이스를 포함하는 음성 인식으로 음악을 검색하는 장치는 사용자가 선호하는 음악을 모델링한 사용자 선호 모델을 포함하고, 상기 검색부는 상기 음향 모델을 이용하여 상기 특징 추출부로부터 입력된 음성 특징 벡터에 대한 검색 스코어를 계산하고, 상기 사용자 선호 모델을 이용하여 상기 음악 데이터베이스에 저장된 음악에 대한 사용자 선호도를 계산하고, 상기 계산된 선호도를 상기 검색 스코어에 반영하여 입력된 음성에 매칭되는 음악 리스트를 추출하는 것을 특징으로 한다.

본 발명의 또 다른 기술적 과제를 달성하기 위한 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 포함한다.

본 발명의 세부 및 개선 사항은 종속항에 개시된다.

이하, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시 예들을 상세히 설명한다.

도 2를 참조하면, 특징 추출부(200), 검색부(210), 음향 모델(220), 발음 모 델(230), 언어 모델(240), 사용자 선호 모델(250), 음악 데이터베이스(260)를 포함한다.

특징 추출부(200)는 아날로그 음성 신호를 디지털 음성 신호로 변환하는 컨버터(미도시)로부터 디지털 변환된 음성 신호의 특징(feature)을 추출한다.

일반적으로 음성인식기는 음성신호를 입력으로 하여 인식 결과를 출력하고, 이때 음성인식기 내부에서 각 인식 요소를 구분하게 해주는 특징을 특징벡터라고 하며, 음성 신호 전체가 특징벡터로 쓰이기도 한다. 하지만, 대부분 음성신호 자체는 인식에 사용되기에는 불필요한 정보를 많이 포함하고 있으므로 이 중에서 인식에 꼭 필요하다고 판단되는 성분만을 골라서 특징 벡터로 추출한다.

특징 추출부(200)는 음성 신호를 입력받아 음성 신호 중에서 특징 벡터를 추출하는데, 여기서 특징 벡터는 추출된 특징벡터는 음성 신호 중에서 인식에 필요한 성분만을 압축하여 가지고 있는 형태로 보통 시간에 따른 주파수 정보를 갖게 된다.

특징 추출부(200)는 음성 신호에서 특징 벡터를 추출하기 위해 여러 가지 전처리 과정을 포함할 수 있으며, 예를 들면 프레임 단위 구성, 해밍 윈도우, 푸리에 변환, 필터 뱅크, 켑스트럼 변환 등의 처리를 수행할 수 있으며, 구체적인 설명은 본 발명의 논지를 흐릴 수 있으므로 생략한다.

음향 모델(220)은 음성 신호가 어떤 형태로 표현할 수 있는지를 나타낸다. 일반적으로 사용되는 음향 모델은 HMM(hidden Markov model)에 기반한 것이다. 음향 모델의 기본 단위는 음소 또는 유사 음소 단위이며, 각 모델은 하나의 음향 모 델 단위를 나타내며, 일반적으로 3개의 상태로 구성된다.

또한, 음향 모델(220)의 단위로는 모노폰(monophone), 다이폰(diphone), 트라이폰(triphone), 퀸폰(quinphone), 음절(syllable), 단어(word) 등이 있다. 모노폰은 하나의 음소가 동일하면 같은 단위로 취급하고, 다이폰은 바로 앞의 음소 또는 바로 뒤에 음소가 달라지면 서로 다른 단위로 간주하고, 트리폰은 좌우의 음소가 동시에 같아야 같은 단위로 취급하는 것이다.

발음 모델(230)은 인식 단위인 단어의 발음을 모델링한다. 발음 모델(230)은 간단하게는 표준 발음 사전으로 구한 대표 발음을 사용하여 한 단어당 하나의 발음을 갖는 모델, 허용발음/사투리/액센트를 고려하기 위하여 인식 어휘 사전에 여러 개의 표제어를 사용하는 다중 발음 모델 및 각 발음의 확률을 고려하는 통계적 발음 모델 등을 포함한다.

언어 모델(240)은 음성 인식기에서 사용하는 문법을 저장하고 있으며, 형식 언어를 위한 문법 또는 n-gram을 포함하는 통계적 문법을 포함한다.

사용자 선호 모델(250)은 사용자가 좋아하는 또는 선호하는 음악의 종류 등을 모델링하여 저장하고 있다. 이러한 사용자 모델(250)은 하드웨어적으로는 메모리 등으로 구현될 수 있으며, 다양한 모델링 알고리즘에 의해 모델링될 수 있다.

음악 데이터베이스(260)는 다수의 음악 파일을 저장하고 있으며, 음악 재생기기에 위치한다. 또한, 음악 데이터베이스(260)에 저장된 음악 데이터는 본 발명의 바람직한 실시 예에 따라 정규화된 특징 벡터를 음악 파일의 헤더에 포함하고 있을 수 있다.

검색부(210)는 입력 음성에 대한 검색 스코어를 계산하여 음악 데이터베이스(260)에 저장된 음악들과 매칭되는 음악을 검색한다. 여기서, 음악 데이터베이스(260)에 저장된 음악들의 파일 이름 또는 메타 데이터로부터 인식 대상 어휘들을 추출하고, 추출한 어휘에 대한 음향 모델(220), 발음 모델(230) 및 언어 모델(240)을 이용하여 사용자가 입력한 음성에 상응하는 음성 인식 검색 스코어를 계산한다.

또한, 검색부(210)는 사용자 선호 모델(250)을 이용하여 음악 데이터베이스(260)에 저장된 음악에 대한 사용자의 선호도를 계산하고, 입력 음성에 대한 음성 인식 검색 스코어와 사용자 선호도를 결합하여 사용자 선호도가 반영된 음성 인식 검색 스코어가 높은 순서대로 추출한다.

도 2에 도시된 바와 같이, 음성 인식에 사용자 음악 선호도를 함께 사용하여 음성 인식으로 음악을 검색할 때, 사용자가 좋아할 만한 음악이 상위에 랭크될 수 있게 된다.

전술한 도 1에 도시된 음성 인식 기반의 음악 검색 장치와 비교하여 음성인식기반 검색 시에 사용자 선호 모델을 추가되어, 음성 인식 기반의 검색 스코어에 사용자 선호도에 따른 스코어를 반영함으로써, 더 바람직한 검색 결과를 얻을 수 있다.

다음 표 2는 표 1에서 예로써 제시한 것과 비교하기 위한 것으로, 본 발명의 바람직한 실시 예에 따른 음성 인식 기반의 음악 검색 장치를 이용한 검색 결과는 사용자가 좋아하는 노래 위주로 순서가 바뀌었다. 즉, 같은 단어가 포함된 곡목이라도 표 2처럼 다른 검색스코어가 나온다.

곡명	선호도 기반 스코어
별, 바람, 햇살 그리고 사랑	-12522
사랑2	-12524
사라	-12525
사랑의 미로	-12527
사랑의 불시착	-12533
...	...

표 2의 검색 결과는 사용자가 원래 찾고자 했던 "별, 바람, 햇살 그리고 사랑"이라는 음악이 가장 높은 스코어를 기록하고 있음을 보여준다.

검색부(210)의 구체적인 구성과 각각의 모델들을 이용한 검색 스코어를 계산하는 구성은 도 3을 참조하여 후술한다.

도 3을 참조하면, 검색부(210)는 검색 스코어 계산부(300), 선호도 계산부(310), 통합 계산부(320) 및 추출부(330)를 포함한다.

검색 스코어 계산부(300)는 입력 음성에 대한 검색 스코어를 계산한다. 즉, 모든 인식 대상 어휘, 예를 들면 모바일 기기에 저장되어 있는 모든 음악들에 대해서는 사용자의 입력 음성과의 매칭 정도를 계산한다.

일반적으로, 음성입력 x에 대하여 가장 가까운 단어 모델을 찾는 것이 음성인식기에서 하는 일이다. 이때 각 단어 W마다 음성 인식 스코어를 계산하는 것은 다음 수학식 1과 같은 사후 확률(posterior probability)로 표현된다.

상기 수학식 1을 베이즈 정리(Bayes rule)에 따라 전개하면, 다음 수학식 2와 같다.

이때 상기 수학식 2를 이용하여 검색을 하거나 음성인식을 하는 문제에 있어서, P(x)는 모든 단어에 대하여 똑같은 값을 갖기 때문에 일반적으로 생략하고 계산하며, 일반적인 고립단어 단어 인식시스템에서는 P(W)인 단어확률은 모두 같다고 가정하기 때문에, 다음 수학식 3과 같이 음향 우도(acoustic likelihood)만으로 구성된다.

이 내용을 부분 어휘 검색에 적용하여 음성 인식으로 노래를 검색하는 것은 다음과 같은 과정으로 이루어진다.

노래 파일 이름 또는 검색대상 노래의 메타 데이터에 해당하는 텍스트 정보를 W라 한다. 예를 들면, "사랑의 불시착-박남정.mp3"의 노래 파일에 대하여 W는 "사랑의 불시착-박남정.mp3" 이라는 문자열이 되고, 부분 명칭 w에 해당되는 단어는 "사랑", "사랑의 불시착", "불시착", "박남정", "사랑의 불시착 박남정" 등이다.

이때, x를 음성 입력에 대한 특징 벡터 열(feature vector sequence)이라고 하면 음악 W에 대한 음성 검색 스코어는 다음 수학식 4와 같다.

여기서 λ_w는 부분 명칭 단어 w에 대한 음향 모델이다. 음악검색은 등록된 모든 노래에 대하여 상기 수학식 4의 검색 스코어를 계산한다.

선호도 계산부(310)는 노래 곡명(W)에 대한 사용자의 선호도를 계산한다.

사용자 음악 선호도를 P(WlU)라 정의하면, 사용자 음악 선호도 P(W|U)는 다음 수학식 5와 같은 선호/비선호 모델의 우도에 의하여 계산할 수 있다.

여기서 U⁺는 포지티브 사용자 선호 모델(positive user preference model)이고 U^-는 네거티브 사용자 선호 모델(negative user preference model)이다.

사용자 선호 모델(user preference model)을 위해서는 장르별 특징 세트를 결정해야 하는데, 노래 곡명 W에 대한 음악 데이터로부터 특징 세트 {f1, f2,...,fM}을 추출해야 사용자 선호도를 모델링하고, 선호 정도를 계산할 수 있다.

상기 수학식 5에서 로그를 취한 값을 다음 수학식 6과 같이 사용자 선호도, 즉 pref(W)라고 정의한다.

그러면, 특징 벡터는 상관되지 않은 가우시안 랜덤 변수(uncorrelated Gaussian random variable)이라는 가정하에, 노래 곡명(W)에 대한 사용자의 선호도는 다음 수학식 7과 같이 특징 벡터에 대한 선호도의 가중 합(weighted sum)으로 계산되고, 여기서 특징 가중 계수(feature weighting coefficient)는 다음 수학식 8과 같은 조건을 갖는다.

따라서, 각각의 특징에 대한 선호도는 다음 수학식 9와 같이 계산될 수 있다.

정리하면, 노래에 대한 사용자 선호도는 수학식 6으로 정의되며, 수학식 7과 수학식 9를 대입하여 계산한다.

한편, 사용자 선호도를 계산하기 위하여 필요한 모델 파라미터 세트는 다음 수학식 10과 같다.

여기서, 모델 파라미터 세트는 크게 포지티브 사용자 선호 모델과 네거티브 사용자 선호 모델로 나뉘며, 업데이트를 위한 누적 업데이트 횟수(n_u)가 포함된다. 사용자 선호 모델의 초기값은 대용량 음악 데이터 베이스를 이용하여 미리 계산해 놓을 수도 있다.

음악 데이터베이스에서 노래 곡목에 대한 특징 벡터를 추출하여 계산하며, 각 특징별로 평균과 분산을 다음 수학식 11 및 12와 같이 계산한다.

여기서 N은 음악 데이터베이스에 등록된 곡의 수이며, k는 특징 차수이다.

사용자 선호 모델을 이용하여 음악에 대한 사용자 선호도 스코어를 계산하는 더 자세한 사항은 본 출원인에 의한 특허출원 제2006-121792호에 개시되어 있다.

통합 계산부(320)는 검색 스코어 계산부(300)에서 계산된 음성 인식 검색 스 코어와 선호도 계산부(310)에서 계산된 선호도를 결합하여 사용자 선호도가 반영된 검색 스코어를 계산한다.

즉, 사용자의 음악 선호 모델 U가 추가되어 음성입력이 주어졌을 때 주어진 노래 파일에 대한 검색 스코어를 계산한다.

이때 선호도가 반영된 음성인식 검색 스코어는 다음 수학식 13과 같다.

여기서 N_frame은 입력 음성 특징벡터의 길이이고, α_user는 음악 선호도의 반영 정도를 의미하는 상수이다.

상기 수학식 13에서 왼쪽 수식에서 프레임의 개수로 정규화한 이유는 음성입력의 길이에 따라 값이 변화하는 것을 방지하기 위함이다.

상기 수학식 13에 따라 음성 인식의 스코어와 사용자의 선호도를 선형 결합하여 검색 스코어를 계산한다.

추출부(320)는 계산된 선호도가 반영된 검색 스코어가 일정치 이상인 노래를 찾아 인식 결과 리스트를 출력한다.

등록된 모든 곡에 대하여 상기 수학식 13을 계산하고, 이값이 일정치 이상이 되는 노래를 찾으면 사용자의 선호도가 반영된 음성인식 노래검색 결과를 얻을 수 있다.

도 4를 참조하면, 특징 추출부(400), 검색부(410), 음향 모델(420), 발음 모델(430), 언어 모델(440), 사용자 선호 모델(450), 월드 모델(460) 및 음악 데이터베이스(470)를 포함한다.

도 2의 구성과 비교하면, 월드 모델(460)이 추가된 것이 도 2와 차이가 있다. 여기서 월드 모델(460)은 입력 음성에 대한 음향 우도의 동적 범위가 입력 음성의 환경 변화 정도에 따라 달라지기 때문에 이를 반영하기 위한 모델이다.

특히, 입력 음성에 다양한 잡음이 섞일 수 있는 가능성이 있는 모바일 기기에서는 일정한 비율로 사용자의 선호도를 반영할 수 없다는 문제가 생기므로, 발성환경이 변화해도 음향 검색 스코어가 항상 일정한 동적 범위를 갖도록 하기 위한 것이다.

일반적으로 음성 인식의 원리에서 단어 모델이 주어졌을 때 입력음성 x에 대한 사후 확률(posterior probability)을 최대로 만족시키는 단어 모델을 찾는 것이 음성 인식이며, 다음 수학식 14와 같이 나타낼 수 있다.

상기 수학식 14에 베이즈 정리(Bayes rule)를 적용하고, 언어 모델 P(w)가 고립어 인식에서는 일반적으로 균일한 분포(uniform distribution)를 갖는 상수이기 때문에 음성 인식의 기준은 다음 수학식 15와 같다.

여기서 음성인식에서는 p(x)가 w에 대하여 독립적이므로 일반적으로 생략된다. p(x)값은 음성 품질(speech quality), 즉 입력된 음성이 얼마나 양호한지를 의미하는 값이다.

본 발명의 바람직한 실시 예에서, 음성 인식 검색 스코어를 사용자 선호도 스코어와 결합시켜야 하므로, 입력 음성에 잡음이 첨가되어 음향 우도가 변화되는 동적 범위를 정규화하기 위하여, 음성 인식시 생략되어 있던 p(x)를 근사화하는 것이다.

p(x)는 다음 수학식 16과 같은 규칙에 의하여 모든 음향 모델(acoustic model)에 대한 가중 합(weighted sum)으로 표현된다.

위의 식을 이용하여 p(x)를 정확하게 계산하는 것은 불가능하기 때문에, GMM(Gaussian Mixture Model)을 이용하여 근사화한다. GMM은 음향 모델을 생성할 때 사용하였던 데이터를 이용하여 EM 알고리즘으로 모델을 구성한다. 이때의 GMM을 월드 모델(world model)이라 정의한다.

따라서 상기 수학식 16은 다음 수학식 17과 같이 근사화된다.

여기서 m_k는 GMM에서의 k번째의 혼합 가중치(mixture weight)이다.

본 발명의 바람직한 실시 예에 따라 도 4에 도시된 바와 같이 월드 모델을 추가로 이용하여 검색 스코어를 계산한다.

이때 선호도가 반영된 음성인식 검색 스코어는 다음 수학식 18과 같다.

여기서 λ_world는 발성환경 변화에 대한 영향을 없애주기 위한 월드 모델이다. 전술한 것처럼, 월드 모델은 음향 모델에 대한 우도가 전체 스코어에 반영될 때, 환경 변화에 따른 영향을 일정하게 해주기 위하여 포함되어 있다.

또한, 수학식 18에서 프레임의 길이로 정규화시킨 의미는 발성 길이에 음향모델 스코어를 정규화하여 발성 길이와 상관없이 검색 스코어에 일정하게 반영하기 위함이다.

도 5를 참조하면, 검색부(410)는 검색 스코어 계산부(500), 반영도 계산부(510), 선호도 계산부(520), 통합 계산부(530) 및 추출부(540)를 포함한다.

도 3의 검색부(210)의 구성과 비교하면, 반영도 계산부(510)의 구성이 추가되었다. 반영도 계산부(510)는 입력 음성에 잡음이 첨가되어 음향 우도가 변화되는 동적 범위를 정규화하기 위하여, 음성 인식시 생략되어 있던 p(x)를 근사화하여 반영하는 정도를 계산한다.

반영도 계산부(510)는 상기 수학식 17에 따라 월드 모델(460)을 이용하여 p(x)의 반영도를 계산하고, 통합 계산부(530)는 상기 수학식 18에 따라 선호도가 반영된 검색 스코어를 계산한다.

또한, 선택적으로 반영도 계산부(510)는 음성 인식에서 사용되는 음향 모델(420)을 이용하여 음향 검색 스코어가 발성 환경 변화에 영향을 받지 않도록 하기 위해 다음 수학식 19에 의해 p(x)를 계산할 수도 있다.

여기서, Np는 모노폰(monophone)의 개수이다. 상기 수학식 19를 이용하여 p(x)를 계산할 때는 등록되어 있는 상태 공유 트라이폰(tied state triphone) 단위 모델에 대하여 모두 계산하면 추가로 계산을 많이 해줘야 하기 때문에, 음성 인식기에서 모노폰에 대해서만 계산해준다. 이때 모노폰을 구성하는 모든 상태 우도 중 최대치를 선택한다.

만약, 음향 모델(420)에 상태 공유 트라이폰(tied state triphone)만 존재할 경우에는 음성 인식 스코어를 계산하는 도중에 센터폰(centerphone)이 같은 트라이폰들의 우도 값 중에 최대값을 모노폰의 우도로 정의하여 계산한다. 또한, 비터비(Viterbi) 탐색시 계산이 누락된 부분이 존재한다면, 이값은 미리 정의한 일정한 값으로 대체시키거나, 탐색된 모노폰의 우도 중 최소값으로 한다.

또한, 통합 계산부(530)는 사용자 선호도가 반영된 검색 스코어를 계산하기 위해서 다음 수학식 20을 이용한다.

이는 음성 인식기의 내부에서 계산되는 값, 즉 음향 모델(420)을 이용하기 때문에 추가적인 메모리나 연산이 필요하지 않다는 장점이 있다.

도 6을 참조하면, 음성 인식 기반의 음악 검색 장치는, 단계 600에서, 음악에 대한 음성 인식 검색 스코어를 계산한다. 여기서, 검색 스코어의 계산은 상기 수학식 1 내지 4를 이용하여 계산할 수 있다.

또한, 선택적으로, 검색 스코어의 계산은 사용자의 발성 환경을 고려하여 계산할 수 있다.

단계 602에서, 음악에 대한 사용자의 선호도를 계산한다. 여기서, 사용자의 선호도의 계산은 상기 수학식 5 내지 12를 이용하여 계산할 수 있다. 또한, 본 발명의 바람직한 실시 예에서는 음성 인식 검색 스코어를 먼저 계산하고 사용자 선호도를 계산하는 것으로 설명하고 있지만, 음성 인식 검색 스코어와 사용자 선호도의 계산은 동시에 또는 사용자 선호도를 먼저 계산할 수도 있음은 물론이다.

단계 604에서, 단계 602에서 계산된 사용자 선호도를 단계 600에서 계산된 음성 인식 검색 스코어에 반영하여 사용자 선호도가 반영된 음성 인식 검색 스코어를 계산한다. 여기서, 사용자 선호도가 반영된 검색 스코어는 상기 수학식 13, 상기 수학식 18 또는 상기 수학식 20에 의하여 계산할 수 있다.

단계 606에서, 단계 604에서 계산된 검색 스코어가 일정치 이상인 음악들을 추출한다.

도 7 내지 10은 본 발명의 바람직한 실시 예에 따른 음성 인식 기반의 음악 검색 방법 및 장치에 따른 효과를 설명하기 위한 도면이다.

도 7은 종래의 음성 기반의 음악 검색 장치를 이용하여 입력 음성으로 "사랑"을 발성한 경우, 부분 개체명 인식 결과와 이에 대한 검색 스코어이다.

도 8은 본 발명의 바람직한 실시 예에 따른 음성 인식 기반의 음악 검색 방법 및 장치를 이용한 사용자 선호도가 반영되어 나타난 결과이다. 사용자가 좋아하는 곡이 순위가 높게 나타나는 등, 검색 스코어에 차이가 있음을 보여준다.

도 9는 종래의 음성 기반의 음악 검색 장치를 이용하여, 잡음 환경에서 "샤인"을 입력한 경우 음성 검색 결과이다. 검색 리스트에서 11번째와 14번째에 그 결과가 있다. 이것은 잡음 환경에서 음성 인식 기술의 문제점을 보여주는 결과이다.

도 10은 본 발명의 바람직한 실시 예에 따른 음성 인식 기반의 음악 검색 장치를 이용한 결과이다. 검색된 결과에서 사용자가 좋아하는 음악을 높은 순위로 올려줄 수 있으며, 검색 리스트에서 2번째와 4번째로 높아졌음을 알 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.

이상 본 발명의 바람직한 실시 예들을 기초로 설명되었지만, 당업자들은 본 발명이 속하는 기술분야의 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 한정되며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

본 발명에 따른 음성 인식 기반의 음악 검색은 음향 모델을 이용하여 음성 입력에 대한 검색 스코어를 계산하고, 사용자 선호 모델을 이용하여 음악에 대한 선호도를 계산하고, 계산된 선호도를 검색 스코어에 반영하여 계산하여 선호도가 반영된 검색 스코어에 따라 음악 리스트를 추출함으로써, 음성 인식을 이용한 검색 결과의 개인화된 표현을 할 수 있고, 음성 인식의 결과의 오류 내지는 불완전성을 보완해 줄 수 있는 효과가 있다.

또한, 음성 인식으로 음악을 검색할 때, 사용자의 선호도를 반영하여 사용자 맞춤 검색결과를 보여줌으로써 사용자가 좋아하는 음악 위주로 결과를 보여 줄 수 있는 효과가 있다.

Claims

삭제
음성 인식으로 음악을 검색하는 방법에 있어서,

(a) 음향 모델을 이용하여 음성 입력에 대한 검색 스코어를 계산하는 단계;

(b) 사용자 선호 모델을 이용하여 음악에 대한 선호도를 계산하고, 상기 계산된 선호도를 상기 검색 스코어에 반영하여 계산하는 단계; 및

(c) 상기 선호도가 반영된 검색 스코어에 따라 음악 리스트를 추출하는 단계를 포함하며,

상기 (b) 단계는,

상기 검색 스코어와 상기 선호도를 선형 결합하여 상기 선호도가 반영된 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.
제 2 항에 있어서,

상기 (a) 단계는,

상기 입력 음성의 품질을 모델링하여 저장한 월드 모델을 이용하여 상기 검색 스코어에 반영하는 정도를 계산하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.
제 3 항에 있어서,

상기 월드 모델은 상기 입력 음성의 품질에 대한 가우시안 혼합 모델(GMM)인 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.
제 2 항에 있어서,

상기 (a) 단계는,

상기 음향 모델의 모노폰(monophone)에 대해서 우도(likelihood)를 계산하여 상기 검색 스코어에 반영하는 정도를 계산하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.
제 2 항에 있어서,

상기 (a) 단계는,

입력 음성의 프레임 개수로 정규화하여 상기 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.
제 2 항에 있어서,

상기 (b) 단계는,

상기 선호도를 상기 검색 스코어에 반영하는 정도를 조절하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.
제 2 항에 있어서,

상기 (b) 단계는,

다음 수학식 13에 의해 상기 선호도가 반영된 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.

[수학식13]

(여기서, W는 특정 음악이고, w는 W의 부분 명칭 단어이고, x는 음성 입력이고, λ_w 는 부분 명칭 단어 w에 대한 음향 모델이고, U는 사용자 선호 모델이고, N_frame은 입력 음성 특징벡터의 길이이고, α_user는 음악 선호도의 반영 정도를 의미하는 상수이다.)
제 2 항에 있어서,

상기 (b) 단계는,

다음 수학식 18에 의해 상기 선호도가 반영된 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.

[수학식 18]

(여기서, W는 특정 음악이고, w는 W의 부분 명칭 단어이고, x는 음성 입력이고, λ_w 는 부분 명칭 단어 w에 대한 음향 모델이고, U는 사용자 선호 모델이고, N_frame은 입력 음성 특징벡터의 길이이고, α_user는 음악 선호도의 반영 정도를 의미하는 상수이고, λ_world는 발성환경 변화에 대한 영향을 없애주기 위한 월드 모델이다.)
제 2 항에 있어서,

상기 (b) 단계는,

다음 수학식 20에 의해 상기 선호도가 반영된 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.

[수학식 20]

(여기서, W는 특정 음악이고, w는 W의 부분 명칭 단어이고, x는 음성 입력이고, λ_w 는 부분 명칭 단어 w에 대한 음향 모델이고, U는 사용자 선호 모델이고, N_frame은 입력 음성 특징벡터의 길이이고, α_user는 음악 선호도의 반영 정도를 의미하는 상수이고, λ_phone는 발성환경 변화에 대한 영향을 없애주기 위한 모노폰으로 구성된 음향 모델이다.)
제 2 항 내지 제 10 항 중 어느 한 항에 따른 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
삭제
음성 인식으로 음악을 검색하는 장치에 있어서,

사용자가 선호하는 음악을 모델링하여 저장하는 사용자 선호 모델; 및

음향 모델을 이용하여 음성 입력에 대한 검색 스코어를 계산하고, 상기 사용자 선호 모델을 이용하여 음악에 대한 선호도를 계산하고, 상기 계산된 선호도를 상기 검색 스코어에 반영하여 음악 리스트를 추출하는 검색부를 포함하며,

상기 검색부는,

상기 음향 모델을 이용하여 음성 입력에 대한 검색 스코어를 계산하는 검색 스코어 계산부; 상기 사용자 선호 모델을 이용하여 음악에 대한 선호도를 계산하는 선호도 계산부; 상기 계산된 선호도를 상기 검색 스코어에 반영하여 계산하는 통합 계산부; 및 상기 선호도가 반영된 검색 스코어에 따라 음악 리스트를 추출하는 추출부를 포함하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 장치.
제 13 항에 있어서,

상기 입력 음성의 품질을 모델링한 월드 모델을 더 포함하고,

상기 검색부는,

상기 월드 모델을 이용하여 상기 검색 스코어의 반영 정도를 계산하는 반영도 계산부를 더 포함하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 장치.
제 14 항에 있어서,

상기 반영도 계산부는,

상기 음향 모델의 모노폰(monophone)에 대해서 우도(likelihood)를 계산하여 상기 검색 스코어에 반영하는 정도를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 장치.
제 13 항에 있어서,

상기 검색부는,

다음 수학식 13에 의해 상기 선호도가 반영된 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 장치.

[수학식13]

(여기서, W는 특정 음악이고, w는 W의 부분 명칭 단어이고, x는 음성 입력이고, λ_w 는 부분 명칭 단어 w에 대한 음향 모델이고, U는 사용자 선호 모델이고, N_frame은 입력 음성 특징벡터의 길이이고, α_user는 음악 선호도의 반영 정도를 의미하는 상수이다.)
제 13 항에 있어서,

상기 검색부는,

다음 수학식 18에 의해 상기 선호도가 반영된 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 장치.

[수학식 18]

(여기서, W는 특정 음악이고, w는 W의 부분 명칭 단어이고, x는 음성 입력이고, λ_w 는 부분 명칭 단어 w에 대한 음향 모델이고, U는 사용자 선호 모델이고, N_frame은 입력 음성 특징벡터의 길이이고, α_user는 음악 선호도의 반영 정도를 의미하는 상수이고, λ_world는 발성환경 변화에 대한 영향을 없애주기 위한 월드 모델이다.)
제 13 항에 있어서,

상기 검색부는,

다음 수학식 20에 의해 상기 선호도가 반영된 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 장치.

[수학식 20]

(여기서, W는 특정 음악이고, w는 W의 부분 명칭 단어이고, x는 음성 입력이고, λ_w 는 부분 명칭 단어 w에 대한 음향 모델이고, U는 사용자 선호 모델이고, N_frame은 입력 음성 특징벡터의 길이이고, α_user는 음악 선호도의 반영 정도를 의미하는 상수이고, λ_phone는 발성환경 변화에 대한 영향을 없애주기 위한 모노폰으로 구성된 음향 모델이다.)
삭제
특징 추출부, 검색부, 음향 모델, 발음 모델, 언어 모델 및 음악 데이터베이스를 포함하는 음성 인식으로 음악을 검색하는 장치에 있어서,

사용자가 선호하는 음악을 모델링한 사용자 선호 모델; 및 입력 음성의 품질을 모델링하여 저장한 월드 모델을 포함하고,

상기 검색부는,

상기 음향 모델을 이용하여 상기 특징 추출부로부터 입력된 음성 특징 벡터에 대한 검색 스코어를 계산하고, 상기 사용자 선호 모델을 이용하여 상기 음악 데이터베이스에 저장된 음악에 대한 사용자 선호도를 계산하고, 상기 월드 모델을 이용하여 상기 검색 스코어에 반영하는 정도를 계산하고, 상기 계산된 선호도를 상기 검색 스코어에 반영하여 입력된 음성에 매칭되는 음악 리스트를 추출하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 장치.