KR100883657B1 - 음성 인식 기반의 음악 검색 방법 및 장치 - Google Patents

음성 인식 기반의 음악 검색 방법 및 장치 Download PDF

Info

Publication number
KR100883657B1
KR100883657B1 KR1020070008583A KR20070008583A KR100883657B1 KR 100883657 B1 KR100883657 B1 KR 100883657B1 KR 1020070008583 A KR1020070008583 A KR 1020070008583A KR 20070008583 A KR20070008583 A KR 20070008583A KR 100883657 B1 KR100883657 B1 KR 100883657B1
Authority
KR
South Korea
Prior art keywords
music
preference
model
search
user
Prior art date
Application number
KR1020070008583A
Other languages
English (en)
Other versions
KR20080070445A (ko
Inventor
김규홍
김정수
한익상
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020070008583A priority Critical patent/KR100883657B1/ko
Priority to US11/892,137 priority patent/US20080249770A1/en
Publication of KR20080070445A publication Critical patent/KR20080070445A/ko
Application granted granted Critical
Publication of KR100883657B1 publication Critical patent/KR100883657B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 음성 인식 기반의 음악 검색 방법 및 장치에 관한 것으로, 본 발명에 따른 음성 인식 기반의 음악 검색은 음향 모델을 이용하여 음성 입력에 대한 검색 스코어를 계산하고, 사용자 선호 모델을 이용하여 음악에 대한 선호도를 계산하고, 계산된 선호도를 검색 스코어에 반영하여 계산하여 선호도가 반영된 검색 스코어에 따라 음악 리스트를 추출함으로써, 음성 인식을 이용한 검색 결과의 개인화된 표현을 할 수 있고, 음성 인식의 결과의 오류 내지는 불완전성을 보완해 줄 수 있는 효과가 있다.
음성 인식, 음악, 검색, 사용자 선호 모델

Description

음성 인식 기반의 음악 검색 방법 및 장치{Method and apparatus for searching a music using speech recognition}
도 1은 종래기술에 따른 음성 인식 기반의 음악 검색 장치의 개략적인 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 음성 인식 기반의 음악 검색 장치의 개략적인 블록도이다.
도 3은 도 2의 실시 예에 따른 검색부(210)의 구성을 개략적으로 도시한 블록도이다.
도 4는 본 발명의 다른 실시 예에 따른 음성 인식 기반의 음악 검색 장치의 개략적인 블록도이다.
도 5는 도 4의 실시 예에 따른 검색부(410)의 구성을 개략적으로 도시한 블록도이다.
도 6은 본 발명의 또 다른 실시 예에 따른 음성인식 기반의 음악 검색 방법을 설명하기 위한 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
200: 특징 추출부 210,410: 검색부
220,420: 음향 모델 230,430: 발음 모델
240,440: 언어 모델 250,450: 사용자 선호 모델
460: 월드 모델 300,500: 검색 스코어 계산부
310,520: 선호도 계산부 510: 반영도 계산부
320,540: 추출부
본 발명은 음성 인식 방법 및 장치에 관한 것으로, 더 상세하게는 음성 인식 기반의 음악 검색 방법 및 장치에 관한 것이다.
최근, MP3 플레이어, 휴대폰, PDA 등의 음악 재생 기기는 점점 소형화되는 반면에, 음악을 저장할 수 있는 메모리는 점점 대용량화 되어가고 있으며, 디자인을 위해서 버튼의 개수나 사용자 인터페이스가 간단해지고 있다. 메모리 가격의 절감과 부품의 소형화로 인하여, 저장할 수 있는 음악이 많아지고 있으며, 음악 검색을 수월하게 할 필요성이 증가하고 있다.
이때 기본적으로 생각할 수 있는 방법은 크게 두 가지가 있다. 즉, 음악 검색시 버튼을 조작하여 검색하거나 아니면 음성 인식을 이용하여 검색하는 것이다.
전자는 버튼의 수가 늘어날수록 음악 검색은 편리해지나 디자인에 영향을 줄 수 있으며, 많은 곡이 저장되어 있을 경우 버튼을 누르는 횟수도 증가하며 검색하기가 불편하다는 단점이 있다.
후자는 많은 곡이 저장되어 있더라도 검색이 용이하다는 장점이 있으며 외부 디자인에 영향을 주지 않는다는 장점이 있지만, 음성 인식 성능이 완전하지 못하다는 한계가 있다.
하지만, 음성 인식 기술의 향상과 함께 앞으로 음성 인식이 소형 모바일 기기에서 검색의 도구로써 채택될 가능성은 점점 높아지고 있으며, 많은 음성 인식 관련 제품이 출시되고 있다. 이와 더불어 최근 사용자 맞춤형 기기와 관련된 연구가 많이 이루어지고 있는데 그 중에 하나가 사용자가 좋아하는 노래를 찾는 것과 관련한 연구이다.
도 1은 종래기술에 따른 음성 인식 기반의 음악 검색 장치의 개략적인 블록도이다.
도 1을 참조하면, 음성 인식 기반의 음악 검색 장치는 특징 추출부(100), 검색부(110), 음향 모델(acoustic model, 120), 발음 모델(lexicon, 130), 언어 모델(language model, 140), 음악 DB(150)를 포함한다.
음성 인식을 이용한 검색에 있어서, 사용자가 입력한 키워드, 예를 들면 "사랑"이 곡명에 존재하는 모든 음악들에 대해서는 같은 스코어가 발생할 뿐만 아니라, 사용자가 선호하지 않은 음악이 검색결과 리스트에 고르게 분포하게 된다. 또한, 인식오류로 인하여 찾고자 하는 곡이 낮은 순위에 위치할 가능성도 존재한다.
예를 들면, 발라드를 주로 좋아하고, 트로트는 별로 좋아하지 않는 사용자가 "별, 바람, 햇살 그리고 사랑"이라는 노래를 찾을 목적으로 "사랑"이라는 발성을 하여 검색을 했을 때, <표 1>과 같은 결과를 얻게 된다.
곡명 로그 우도(log likelihood)
사랑은 얄미운 나비인가봐 -9732
사랑의 불시착 -9732
사랑2 -9732
사랑의 미로 -9732
별, 바람, 햇살, 그리고 사랑 -9732
사라 -9747
.... ....
검색 스코어는 높지만, 5위에 머물러 있었다. 오히려 별로 좋아하지 않는 트로트 노래가 상위에 랭크되는 문제점이 있다.
본 발명은 전술한 종래기술의 문제점을 해결하고자 안출된 것으로, 음성 인식과 사용자 음악 선호도를 함께 반영하여 검색할 수 있는 방법 및 장치를 제공하는 데 목적이 있다.
본 발명의 기술적 과제를 달성하기 위한 음성 인식으로 음악을 검색하는 방법은 음향 모델을 이용하여 음성 입력에 대한 검색 스코어를 계산하는 단계; 사용자 선호 모델을 이용하여 음악에 대한 선호도를 계산하고, 상기 계산된 선호도를 상기 검색 스코어에 반영하여 계산하는 단계; 및 상기 선호도가 반영된 검색 스코어에 따라 음악 리스트를 추출하는 단계를 포함한다.
본 발명의 다른 기술적 과제를 달성하기 위한 음성 인식으로 음악을 검색하 는 장치는 사용자가 선호하는 음악을 모델링하여 저장하는 사용자 선호 모델; 및 음향 모델을 이용하여 음성 입력에 대한 검색 스코어를 계산하고, 상기 사용자 선호 모델을 이용하여 음악에 대한 선호도를 계산하고, 상기 계산된 선호도를 상기 검색 스코어에 반영하여 음악 리스트를 추출하는 검색부를 포함한다.
본 발명의 또 다른 기술적 과제를 달성하기 위한 특징 추출부, 검색부, 음향 모델, 발음 모델, 언어 모델 및 음악 데이터베이스를 포함하는 음성 인식으로 음악을 검색하는 장치는 사용자가 선호하는 음악을 모델링한 사용자 선호 모델을 포함하고, 상기 검색부는 상기 음향 모델을 이용하여 상기 특징 추출부로부터 입력된 음성 특징 벡터에 대한 검색 스코어를 계산하고, 상기 사용자 선호 모델을 이용하여 상기 음악 데이터베이스에 저장된 음악에 대한 사용자 선호도를 계산하고, 상기 계산된 선호도를 상기 검색 스코어에 반영하여 입력된 음성에 매칭되는 음악 리스트를 추출하는 것을 특징으로 한다.
본 발명의 또 다른 기술적 과제를 달성하기 위한 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 포함한다.
본 발명의 세부 및 개선 사항은 종속항에 개시된다.
이하, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시 예들을 상세히 설명한다.
도 2는 본 발명의 일 실시 예에 따른 음성 인식 기반의 음악 검색 장치의 개략적인 블록도이다.
도 2를 참조하면, 특징 추출부(200), 검색부(210), 음향 모델(220), 발음 모 델(230), 언어 모델(240), 사용자 선호 모델(250), 음악 데이터베이스(260)를 포함한다.
특징 추출부(200)는 아날로그 음성 신호를 디지털 음성 신호로 변환하는 컨버터(미도시)로부터 디지털 변환된 음성 신호의 특징(feature)을 추출한다.
일반적으로 음성인식기는 음성신호를 입력으로 하여 인식 결과를 출력하고, 이때 음성인식기 내부에서 각 인식 요소를 구분하게 해주는 특징을 특징벡터라고 하며, 음성 신호 전체가 특징벡터로 쓰이기도 한다. 하지만, 대부분 음성신호 자체는 인식에 사용되기에는 불필요한 정보를 많이 포함하고 있으므로 이 중에서 인식에 꼭 필요하다고 판단되는 성분만을 골라서 특징 벡터로 추출한다.
특징 추출부(200)는 음성 신호를 입력받아 음성 신호 중에서 특징 벡터를 추출하는데, 여기서 특징 벡터는 추출된 특징벡터는 음성 신호 중에서 인식에 필요한 성분만을 압축하여 가지고 있는 형태로 보통 시간에 따른 주파수 정보를 갖게 된다.
특징 추출부(200)는 음성 신호에서 특징 벡터를 추출하기 위해 여러 가지 전처리 과정을 포함할 수 있으며, 예를 들면 프레임 단위 구성, 해밍 윈도우, 푸리에 변환, 필터 뱅크, 켑스트럼 변환 등의 처리를 수행할 수 있으며, 구체적인 설명은 본 발명의 논지를 흐릴 수 있으므로 생략한다.
음향 모델(220)은 음성 신호가 어떤 형태로 표현할 수 있는지를 나타낸다. 일반적으로 사용되는 음향 모델은 HMM(hidden Markov model)에 기반한 것이다. 음향 모델의 기본 단위는 음소 또는 유사 음소 단위이며, 각 모델은 하나의 음향 모 델 단위를 나타내며, 일반적으로 3개의 상태로 구성된다.
또한, 음향 모델(220)의 단위로는 모노폰(monophone), 다이폰(diphone), 트라이폰(triphone), 퀸폰(quinphone), 음절(syllable), 단어(word) 등이 있다. 모노폰은 하나의 음소가 동일하면 같은 단위로 취급하고, 다이폰은 바로 앞의 음소 또는 바로 뒤에 음소가 달라지면 서로 다른 단위로 간주하고, 트리폰은 좌우의 음소가 동시에 같아야 같은 단위로 취급하는 것이다.
발음 모델(230)은 인식 단위인 단어의 발음을 모델링한다. 발음 모델(230)은 간단하게는 표준 발음 사전으로 구한 대표 발음을 사용하여 한 단어당 하나의 발음을 갖는 모델, 허용발음/사투리/액센트를 고려하기 위하여 인식 어휘 사전에 여러 개의 표제어를 사용하는 다중 발음 모델 및 각 발음의 확률을 고려하는 통계적 발음 모델 등을 포함한다.
언어 모델(240)은 음성 인식기에서 사용하는 문법을 저장하고 있으며, 형식 언어를 위한 문법 또는 n-gram을 포함하는 통계적 문법을 포함한다.
사용자 선호 모델(250)은 사용자가 좋아하는 또는 선호하는 음악의 종류 등을 모델링하여 저장하고 있다. 이러한 사용자 모델(250)은 하드웨어적으로는 메모리 등으로 구현될 수 있으며, 다양한 모델링 알고리즘에 의해 모델링될 수 있다.
음악 데이터베이스(260)는 다수의 음악 파일을 저장하고 있으며, 음악 재생기기에 위치한다. 또한, 음악 데이터베이스(260)에 저장된 음악 데이터는 본 발명의 바람직한 실시 예에 따라 정규화된 특징 벡터를 음악 파일의 헤더에 포함하고 있을 수 있다.
검색부(210)는 입력 음성에 대한 검색 스코어를 계산하여 음악 데이터베이스(260)에 저장된 음악들과 매칭되는 음악을 검색한다. 여기서, 음악 데이터베이스(260)에 저장된 음악들의 파일 이름 또는 메타 데이터로부터 인식 대상 어휘들을 추출하고, 추출한 어휘에 대한 음향 모델(220), 발음 모델(230) 및 언어 모델(240)을 이용하여 사용자가 입력한 음성에 상응하는 음성 인식 검색 스코어를 계산한다.
또한, 검색부(210)는 사용자 선호 모델(250)을 이용하여 음악 데이터베이스(260)에 저장된 음악에 대한 사용자의 선호도를 계산하고, 입력 음성에 대한 음성 인식 검색 스코어와 사용자 선호도를 결합하여 사용자 선호도가 반영된 음성 인식 검색 스코어가 높은 순서대로 추출한다.
도 2에 도시된 바와 같이, 음성 인식에 사용자 음악 선호도를 함께 사용하여 음성 인식으로 음악을 검색할 때, 사용자가 좋아할 만한 음악이 상위에 랭크될 수 있게 된다.
전술한 도 1에 도시된 음성 인식 기반의 음악 검색 장치와 비교하여 음성인식기반 검색 시에 사용자 선호 모델을 추가되어, 음성 인식 기반의 검색 스코어에 사용자 선호도에 따른 스코어를 반영함으로써, 더 바람직한 검색 결과를 얻을 수 있다.
다음 표 2는 표 1에서 예로써 제시한 것과 비교하기 위한 것으로, 본 발명의 바람직한 실시 예에 따른 음성 인식 기반의 음악 검색 장치를 이용한 검색 결과는 사용자가 좋아하는 노래 위주로 순서가 바뀌었다. 즉, 같은 단어가 포함된 곡목이라도 표 2처럼 다른 검색스코어가 나온다.
곡명 선호도 기반 스코어
별, 바람, 햇살 그리고 사랑 -12522
사랑2 -12524
사라 -12525
사랑의 미로 -12527
사랑의 불시착 -12533
... ...
표 2의 검색 결과는 사용자가 원래 찾고자 했던 "별, 바람, 햇살 그리고 사랑"이라는 음악이 가장 높은 스코어를 기록하고 있음을 보여준다.
검색부(210)의 구체적인 구성과 각각의 모델들을 이용한 검색 스코어를 계산하는 구성은 도 3을 참조하여 후술한다.
도 3은 도 2의 실시 예에 따른 검색부(210)의 구성을 개략적으로 도시한 블록도이다.
도 3을 참조하면, 검색부(210)는 검색 스코어 계산부(300), 선호도 계산부(310), 통합 계산부(320) 및 추출부(330)를 포함한다.
검색 스코어 계산부(300)는 입력 음성에 대한 검색 스코어를 계산한다. 즉, 모든 인식 대상 어휘, 예를 들면 모바일 기기에 저장되어 있는 모든 음악들에 대해서는 사용자의 입력 음성과의 매칭 정도를 계산한다.
일반적으로, 음성입력 x에 대하여 가장 가까운 단어 모델을 찾는 것이 음성인식기에서 하는 일이다. 이때 각 단어 W마다 음성 인식 스코어를 계산하는 것은 다음 수학식 1과 같은 사후 확률(posterior probability)로 표현된다.
Figure 112007008285936-pat00001
상기 수학식 1을 베이즈 정리(Bayes rule)에 따라 전개하면, 다음 수학식 2와 같다.
Figure 112007008285936-pat00002
이때 상기 수학식 2를 이용하여 검색을 하거나 음성인식을 하는 문제에 있어서, P(x)는 모든 단어에 대하여 똑같은 값을 갖기 때문에 일반적으로 생략하고 계산하며, 일반적인 고립단어 단어 인식시스템에서는 P(W)인 단어확률은 모두 같다고 가정하기 때문에, 다음 수학식 3과 같이 음향 우도(acoustic likelihood)만으로 구성된다.
Figure 112007008285936-pat00003
이 내용을 부분 어휘 검색에 적용하여 음성 인식으로 노래를 검색하는 것은 다음과 같은 과정으로 이루어진다.
노래 파일 이름 또는 검색대상 노래의 메타 데이터에 해당하는 텍스트 정보를 W라 한다. 예를 들면, "사랑의 불시착-박남정.mp3"의 노래 파일에 대하여 W는 "사랑의 불시착-박남정.mp3" 이라는 문자열이 되고, 부분 명칭 w에 해당되는 단어는 "사랑", "사랑의 불시착", "불시착", "박남정", "사랑의 불시착 박남정" 등이다.
이때, x를 음성 입력에 대한 특징 벡터 열(feature vector sequence)이라고 하면 음악 W에 대한 음성 검색 스코어는 다음 수학식 4와 같다.
Figure 112007008285936-pat00004
여기서 λw는 부분 명칭 단어 w에 대한 음향 모델이다. 음악검색은 등록된 모든 노래에 대하여 상기 수학식 4의 검색 스코어를 계산한다.
선호도 계산부(310)는 노래 곡명(W)에 대한 사용자의 선호도를 계산한다.
사용자 음악 선호도를 P(WlU)라 정의하면, 사용자 음악 선호도 P(W|U)는 다음 수학식 5와 같은 선호/비선호 모델의 우도에 의하여 계산할 수 있다.
Figure 112007008285936-pat00005
여기서 U+는 포지티브 사용자 선호 모델(positive user preference model)이고 U-는 네거티브 사용자 선호 모델(negative user preference model)이다.
사용자 선호 모델(user preference model)을 위해서는 장르별 특징 세트를 결정해야 하는데, 노래 곡명 W에 대한 음악 데이터로부터 특징 세트 {f1, f2,...,fM}을 추출해야 사용자 선호도를 모델링하고, 선호 정도를 계산할 수 있다.
상기 수학식 5에서 로그를 취한 값을 다음 수학식 6과 같이 사용자 선호도, 즉 pref(W)라고 정의한다.
Figure 112007008285936-pat00006
그러면, 특징 벡터는 상관되지 않은 가우시안 랜덤 변수(uncorrelated Gaussian random variable)이라는 가정하에, 노래 곡명(W)에 대한 사용자의 선호도는 다음 수학식 7과 같이 특징 벡터에 대한 선호도의 가중 합(weighted sum)으로 계산되고, 여기서 특징 가중 계수(feature weighting coefficient)는 다음 수학식 8과 같은 조건을 갖는다.
Figure 112007008285936-pat00007
Figure 112007008285936-pat00008
따라서, 각각의 특징에 대한 선호도는 다음 수학식 9와 같이 계산될 수 있다.
Figure 112007008285936-pat00009
정리하면, 노래에 대한 사용자 선호도는 수학식 6으로 정의되며, 수학식 7과 수학식 9를 대입하여 계산한다.
한편, 사용자 선호도를 계산하기 위하여 필요한 모델 파라미터 세트는 다음 수학식 10과 같다.
Figure 112007008285936-pat00010
여기서, 모델 파라미터 세트는 크게 포지티브 사용자 선호 모델과 네거티브 사용자 선호 모델로 나뉘며, 업데이트를 위한 누적 업데이트 횟수(nu)가 포함된다. 사용자 선호 모델의 초기값은 대용량 음악 데이터 베이스를 이용하여 미리 계산해 놓을 수도 있다.
음악 데이터베이스에서 노래 곡목에 대한 특징 벡터를 추출하여 계산하며, 각 특징별로 평균과 분산을 다음 수학식 11 및 12와 같이 계산한다.
Figure 112007008285936-pat00011
Figure 112007008285936-pat00012
여기서 N은 음악 데이터베이스에 등록된 곡의 수이며, k는 특징 차수이다.
사용자 선호 모델을 이용하여 음악에 대한 사용자 선호도 스코어를 계산하는 더 자세한 사항은 본 출원인에 의한 특허출원 제2006-121792호에 개시되어 있다.
통합 계산부(320)는 검색 스코어 계산부(300)에서 계산된 음성 인식 검색 스 코어와 선호도 계산부(310)에서 계산된 선호도를 결합하여 사용자 선호도가 반영된 검색 스코어를 계산한다.
즉, 사용자의 음악 선호 모델 U가 추가되어 음성입력이 주어졌을 때 주어진 노래 파일에 대한 검색 스코어를 계산한다.
이때 선호도가 반영된 음성인식 검색 스코어는 다음 수학식 13과 같다.
Figure 112007008285936-pat00013
여기서 Nframe은 입력 음성 특징벡터의 길이이고, αuser는 음악 선호도의 반영 정도를 의미하는 상수이다.
상기 수학식 13에서 왼쪽 수식에서 프레임의 개수로 정규화한 이유는 음성입력의 길이에 따라 값이 변화하는 것을 방지하기 위함이다.
상기 수학식 13에 따라 음성 인식의 스코어와 사용자의 선호도를 선형 결합하여 검색 스코어를 계산한다.
추출부(320)는 계산된 선호도가 반영된 검색 스코어가 일정치 이상인 노래를 찾아 인식 결과 리스트를 출력한다.
등록된 모든 곡에 대하여 상기 수학식 13을 계산하고, 이값이 일정치 이상이 되는 노래를 찾으면 사용자의 선호도가 반영된 음성인식 노래검색 결과를 얻을 수 있다.
도 4는 본 발명의 다른 실시 예에 따른 음성 인식 기반의 음악 검색 장치의 개략적인 블록도이다.
도 4를 참조하면, 특징 추출부(400), 검색부(410), 음향 모델(420), 발음 모델(430), 언어 모델(440), 사용자 선호 모델(450), 월드 모델(460) 및 음악 데이터베이스(470)를 포함한다.
도 2의 구성과 비교하면, 월드 모델(460)이 추가된 것이 도 2와 차이가 있다. 여기서 월드 모델(460)은 입력 음성에 대한 음향 우도의 동적 범위가 입력 음성의 환경 변화 정도에 따라 달라지기 때문에 이를 반영하기 위한 모델이다.
특히, 입력 음성에 다양한 잡음이 섞일 수 있는 가능성이 있는 모바일 기기에서는 일정한 비율로 사용자의 선호도를 반영할 수 없다는 문제가 생기므로, 발성환경이 변화해도 음향 검색 스코어가 항상 일정한 동적 범위를 갖도록 하기 위한 것이다.
일반적으로 음성 인식의 원리에서 단어 모델이 주어졌을 때 입력음성 x에 대한 사후 확률(posterior probability)을 최대로 만족시키는 단어 모델을 찾는 것이 음성 인식이며, 다음 수학식 14와 같이 나타낼 수 있다.
Figure 112007008285936-pat00014
상기 수학식 14에 베이즈 정리(Bayes rule)를 적용하고, 언어 모델 P(w)가 고립어 인식에서는 일반적으로 균일한 분포(uniform distribution)를 갖는 상수이기 때문에 음성 인식의 기준은 다음 수학식 15와 같다.
Figure 112007008285936-pat00015
여기서 음성인식에서는 p(x)가 w에 대하여 독립적이므로 일반적으로 생략된다. p(x)값은 음성 품질(speech quality), 즉 입력된 음성이 얼마나 양호한지를 의미하는 값이다.
본 발명의 바람직한 실시 예에서, 음성 인식 검색 스코어를 사용자 선호도 스코어와 결합시켜야 하므로, 입력 음성에 잡음이 첨가되어 음향 우도가 변화되는 동적 범위를 정규화하기 위하여, 음성 인식시 생략되어 있던 p(x)를 근사화하는 것이다.
p(x)는 다음 수학식 16과 같은 규칙에 의하여 모든 음향 모델(acoustic model)에 대한 가중 합(weighted sum)으로 표현된다.
Figure 112007008285936-pat00016
위의 식을 이용하여 p(x)를 정확하게 계산하는 것은 불가능하기 때문에, GMM(Gaussian Mixture Model)을 이용하여 근사화한다. GMM은 음향 모델을 생성할 때 사용하였던 데이터를 이용하여 EM 알고리즘으로 모델을 구성한다. 이때의 GMM을 월드 모델(world model)이라 정의한다.
따라서 상기 수학식 16은 다음 수학식 17과 같이 근사화된다.
Figure 112007008285936-pat00017
여기서 mk는 GMM에서의 k번째의 혼합 가중치(mixture weight)이다.
본 발명의 바람직한 실시 예에 따라 도 4에 도시된 바와 같이 월드 모델을 추가로 이용하여 검색 스코어를 계산한다.
이때 선호도가 반영된 음성인식 검색 스코어는 다음 수학식 18과 같다.
Figure 112007008285936-pat00018
여기서 λworld는 발성환경 변화에 대한 영향을 없애주기 위한 월드 모델이다. 전술한 것처럼, 월드 모델은 음향 모델에 대한 우도가 전체 스코어에 반영될 때, 환경 변화에 따른 영향을 일정하게 해주기 위하여 포함되어 있다.
또한, 수학식 18에서 프레임의 길이로 정규화시킨 의미는 발성 길이에 음향모델 스코어를 정규화하여 발성 길이와 상관없이 검색 스코어에 일정하게 반영하기 위함이다.
도 5는 도 4의 실시 예에 따른 검색부(410)의 구성을 개략적으로 도시한 블록도이다.
도 5를 참조하면, 검색부(410)는 검색 스코어 계산부(500), 반영도 계산부(510), 선호도 계산부(520), 통합 계산부(530) 및 추출부(540)를 포함한다.
도 3의 검색부(210)의 구성과 비교하면, 반영도 계산부(510)의 구성이 추가되었다. 반영도 계산부(510)는 입력 음성에 잡음이 첨가되어 음향 우도가 변화되는 동적 범위를 정규화하기 위하여, 음성 인식시 생략되어 있던 p(x)를 근사화하여 반영하는 정도를 계산한다.
반영도 계산부(510)는 상기 수학식 17에 따라 월드 모델(460)을 이용하여 p(x)의 반영도를 계산하고, 통합 계산부(530)는 상기 수학식 18에 따라 선호도가 반영된 검색 스코어를 계산한다.
또한, 선택적으로 반영도 계산부(510)는 음성 인식에서 사용되는 음향 모델(420)을 이용하여 음향 검색 스코어가 발성 환경 변화에 영향을 받지 않도록 하기 위해 다음 수학식 19에 의해 p(x)를 계산할 수도 있다.
Figure 112007008285936-pat00019
여기서, Np는 모노폰(monophone)의 개수이다. 상기 수학식 19를 이용하여 p(x)를 계산할 때는 등록되어 있는 상태 공유 트라이폰(tied state triphone) 단위 모델에 대하여 모두 계산하면 추가로 계산을 많이 해줘야 하기 때문에, 음성 인식기에서 모노폰에 대해서만 계산해준다. 이때 모노폰을 구성하는 모든 상태 우도 중 최대치를 선택한다.
만약, 음향 모델(420)에 상태 공유 트라이폰(tied state triphone)만 존재할 경우에는 음성 인식 스코어를 계산하는 도중에 센터폰(centerphone)이 같은 트라이폰들의 우도 값 중에 최대값을 모노폰의 우도로 정의하여 계산한다. 또한, 비터비(Viterbi) 탐색시 계산이 누락된 부분이 존재한다면, 이값은 미리 정의한 일정한 값으로 대체시키거나, 탐색된 모노폰의 우도 중 최소값으로 한다.
또한, 통합 계산부(530)는 사용자 선호도가 반영된 검색 스코어를 계산하기 위해서 다음 수학식 20을 이용한다.
Figure 112007008285936-pat00020
이는 음성 인식기의 내부에서 계산되는 값, 즉 음향 모델(420)을 이용하기 때문에 추가적인 메모리나 연산이 필요하지 않다는 장점이 있다.
도 6은 본 발명의 또 다른 실시 예에 따른 음성인식 기반의 음악 검색 방법을 설명하기 위한 흐름도이다.
도 6을 참조하면, 음성 인식 기반의 음악 검색 장치는, 단계 600에서, 음악에 대한 음성 인식 검색 스코어를 계산한다. 여기서, 검색 스코어의 계산은 상기 수학식 1 내지 4를 이용하여 계산할 수 있다.
또한, 선택적으로, 검색 스코어의 계산은 사용자의 발성 환경을 고려하여 계산할 수 있다.
단계 602에서, 음악에 대한 사용자의 선호도를 계산한다. 여기서, 사용자의 선호도의 계산은 상기 수학식 5 내지 12를 이용하여 계산할 수 있다. 또한, 본 발명의 바람직한 실시 예에서는 음성 인식 검색 스코어를 먼저 계산하고 사용자 선호도를 계산하는 것으로 설명하고 있지만, 음성 인식 검색 스코어와 사용자 선호도의 계산은 동시에 또는 사용자 선호도를 먼저 계산할 수도 있음은 물론이다.
단계 604에서, 단계 602에서 계산된 사용자 선호도를 단계 600에서 계산된 음성 인식 검색 스코어에 반영하여 사용자 선호도가 반영된 음성 인식 검색 스코어를 계산한다. 여기서, 사용자 선호도가 반영된 검색 스코어는 상기 수학식 13, 상기 수학식 18 또는 상기 수학식 20에 의하여 계산할 수 있다.
단계 606에서, 단계 604에서 계산된 검색 스코어가 일정치 이상인 음악들을 추출한다.
도 7 내지 10은 본 발명의 바람직한 실시 예에 따른 음성 인식 기반의 음악 검색 방법 및 장치에 따른 효과를 설명하기 위한 도면이다.
도 7은 종래의 음성 기반의 음악 검색 장치를 이용하여 입력 음성으로 "사랑"을 발성한 경우, 부분 개체명 인식 결과와 이에 대한 검색 스코어이다.
도 8은 본 발명의 바람직한 실시 예에 따른 음성 인식 기반의 음악 검색 방법 및 장치를 이용한 사용자 선호도가 반영되어 나타난 결과이다. 사용자가 좋아하는 곡이 순위가 높게 나타나는 등, 검색 스코어에 차이가 있음을 보여준다.
도 9는 종래의 음성 기반의 음악 검색 장치를 이용하여, 잡음 환경에서 "샤인"을 입력한 경우 음성 검색 결과이다. 검색 리스트에서 11번째와 14번째에 그 결과가 있다. 이것은 잡음 환경에서 음성 인식 기술의 문제점을 보여주는 결과이다.
도 10은 본 발명의 바람직한 실시 예에 따른 음성 인식 기반의 음악 검색 장치를 이용한 결과이다. 검색된 결과에서 사용자가 좋아하는 음악을 높은 순위로 올려줄 수 있으며, 검색 리스트에서 2번째와 4번째로 높아졌음을 알 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.
이상 본 발명의 바람직한 실시 예들을 기초로 설명되었지만, 당업자들은 본 발명이 속하는 기술분야의 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 한정되며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명에 따른 음성 인식 기반의 음악 검색은 음향 모델을 이용하여 음성 입력에 대한 검색 스코어를 계산하고, 사용자 선호 모델을 이용하여 음악에 대한 선호도를 계산하고, 계산된 선호도를 검색 스코어에 반영하여 계산하여 선호도가 반영된 검색 스코어에 따라 음악 리스트를 추출함으로써, 음성 인식을 이용한 검색 결과의 개인화된 표현을 할 수 있고, 음성 인식의 결과의 오류 내지는 불완전성을 보완해 줄 수 있는 효과가 있다.
또한, 음성 인식으로 음악을 검색할 때, 사용자의 선호도를 반영하여 사용자 맞춤 검색결과를 보여줌으로써 사용자가 좋아하는 음악 위주로 결과를 보여 줄 수 있는 효과가 있다.

Claims (20)

  1. 삭제
  2. 음성 인식으로 음악을 검색하는 방법에 있어서,
    (a) 음향 모델을 이용하여 음성 입력에 대한 검색 스코어를 계산하는 단계;
    (b) 사용자 선호 모델을 이용하여 음악에 대한 선호도를 계산하고, 상기 계산된 선호도를 상기 검색 스코어에 반영하여 계산하는 단계; 및
    (c) 상기 선호도가 반영된 검색 스코어에 따라 음악 리스트를 추출하는 단계를 포함하며,
    상기 (b) 단계는,
    상기 검색 스코어와 상기 선호도를 선형 결합하여 상기 선호도가 반영된 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.
  3. 제 2 항에 있어서,
    상기 (a) 단계는,
    상기 입력 음성의 품질을 모델링하여 저장한 월드 모델을 이용하여 상기 검색 스코어에 반영하는 정도를 계산하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.
  4. 제 3 항에 있어서,
    상기 월드 모델은 상기 입력 음성의 품질에 대한 가우시안 혼합 모델(GMM)인 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.
  5. 제 2 항에 있어서,
    상기 (a) 단계는,
    상기 음향 모델의 모노폰(monophone)에 대해서 우도(likelihood)를 계산하여 상기 검색 스코어에 반영하는 정도를 계산하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.
  6. 제 2 항에 있어서,
    상기 (a) 단계는,
    입력 음성의 프레임 개수로 정규화하여 상기 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.
  7. 제 2 항에 있어서,
    상기 (b) 단계는,
    상기 선호도를 상기 검색 스코어에 반영하는 정도를 조절하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.
  8. 제 2 항에 있어서,
    상기 (b) 단계는,
    다음 수학식 13에 의해 상기 선호도가 반영된 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.
    [수학식13]
    Figure 112008036690411-pat00021
    (여기서, W는 특정 음악이고, w는 W의 부분 명칭 단어이고, x는 음성 입력이고, λw 는 부분 명칭 단어 w에 대한 음향 모델이고, U는 사용자 선호 모델이고, Nframe은 입력 음성 특징벡터의 길이이고, αuser는 음악 선호도의 반영 정도를 의미하는 상수이다.)
  9. 제 2 항에 있어서,
    상기 (b) 단계는,
    다음 수학식 18에 의해 상기 선호도가 반영된 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.
    [수학식 18]
    Figure 112008036690411-pat00022
    (여기서, W는 특정 음악이고, w는 W의 부분 명칭 단어이고, x는 음성 입력이고, λw 는 부분 명칭 단어 w에 대한 음향 모델이고, U는 사용자 선호 모델이고, Nframe은 입력 음성 특징벡터의 길이이고, αuser는 음악 선호도의 반영 정도를 의미하는 상수이고, λworld는 발성환경 변화에 대한 영향을 없애주기 위한 월드 모델이다.)
  10. 제 2 항에 있어서,
    상기 (b) 단계는,
    다음 수학식 20에 의해 상기 선호도가 반영된 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 방법.
    [수학식 20]
    Figure 112008036690411-pat00023
    (여기서, W는 특정 음악이고, w는 W의 부분 명칭 단어이고, x는 음성 입력이고, λw 는 부분 명칭 단어 w에 대한 음향 모델이고, U는 사용자 선호 모델이고, Nframe은 입력 음성 특징벡터의 길이이고, αuser는 음악 선호도의 반영 정도를 의미하는 상수이고, λphone는 발성환경 변화에 대한 영향을 없애주기 위한 모노폰으로 구성된 음향 모델이다.)
  11. 제 2 항 내지 제 10 항 중 어느 한 항에 따른 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  12. 삭제
  13. 음성 인식으로 음악을 검색하는 장치에 있어서,
    사용자가 선호하는 음악을 모델링하여 저장하는 사용자 선호 모델; 및
    음향 모델을 이용하여 음성 입력에 대한 검색 스코어를 계산하고, 상기 사용자 선호 모델을 이용하여 음악에 대한 선호도를 계산하고, 상기 계산된 선호도를 상기 검색 스코어에 반영하여 음악 리스트를 추출하는 검색부를 포함하며,
    상기 검색부는,
    상기 음향 모델을 이용하여 음성 입력에 대한 검색 스코어를 계산하는 검색 스코어 계산부; 상기 사용자 선호 모델을 이용하여 음악에 대한 선호도를 계산하는 선호도 계산부; 상기 계산된 선호도를 상기 검색 스코어에 반영하여 계산하는 통합 계산부; 및 상기 선호도가 반영된 검색 스코어에 따라 음악 리스트를 추출하는 추출부를 포함하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 장치.
  14. 제 13 항에 있어서,
    상기 입력 음성의 품질을 모델링한 월드 모델을 더 포함하고,
    상기 검색부는,
    상기 월드 모델을 이용하여 상기 검색 스코어의 반영 정도를 계산하는 반영도 계산부를 더 포함하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 장치.
  15. 제 14 항에 있어서,
    상기 반영도 계산부는,
    상기 음향 모델의 모노폰(monophone)에 대해서 우도(likelihood)를 계산하여 상기 검색 스코어에 반영하는 정도를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 장치.
  16. 제 13 항에 있어서,
    상기 검색부는,
    다음 수학식 13에 의해 상기 선호도가 반영된 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 장치.
    [수학식13]
    Figure 112008036690411-pat00024
    (여기서, W는 특정 음악이고, w는 W의 부분 명칭 단어이고, x는 음성 입력이고, λw 는 부분 명칭 단어 w에 대한 음향 모델이고, U는 사용자 선호 모델이고, Nframe은 입력 음성 특징벡터의 길이이고, αuser는 음악 선호도의 반영 정도를 의미하는 상수이다.)
  17. 제 13 항에 있어서,
    상기 검색부는,
    다음 수학식 18에 의해 상기 선호도가 반영된 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 장치.
    [수학식 18]
    Figure 112008048458393-pat00025
    (여기서, W는 특정 음악이고, w는 W의 부분 명칭 단어이고, x는 음성 입력이고, λw 는 부분 명칭 단어 w에 대한 음향 모델이고, U는 사용자 선호 모델이고, Nframe은 입력 음성 특징벡터의 길이이고, αuser는 음악 선호도의 반영 정도를 의미하는 상수이고, λworld는 발성환경 변화에 대한 영향을 없애주기 위한 월드 모델이다.)
  18. 제 13 항에 있어서,
    상기 검색부는,
    다음 수학식 20에 의해 상기 선호도가 반영된 검색 스코어를 계산하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 장치.
    [수학식 20]
    Figure 112008048458393-pat00026
    (여기서, W는 특정 음악이고, w는 W의 부분 명칭 단어이고, x는 음성 입력이고, λw 는 부분 명칭 단어 w에 대한 음향 모델이고, U는 사용자 선호 모델이고, Nframe은 입력 음성 특징벡터의 길이이고, αuser는 음악 선호도의 반영 정도를 의미하는 상수이고, λphone는 발성환경 변화에 대한 영향을 없애주기 위한 모노폰으로 구성된 음향 모델이다.)
  19. 삭제
  20. 특징 추출부, 검색부, 음향 모델, 발음 모델, 언어 모델 및 음악 데이터베이스를 포함하는 음성 인식으로 음악을 검색하는 장치에 있어서,
    사용자가 선호하는 음악을 모델링한 사용자 선호 모델; 및 입력 음성의 품질을 모델링하여 저장한 월드 모델을 포함하고,
    상기 검색부는,
    상기 음향 모델을 이용하여 상기 특징 추출부로부터 입력된 음성 특징 벡터에 대한 검색 스코어를 계산하고, 상기 사용자 선호 모델을 이용하여 상기 음악 데이터베이스에 저장된 음악에 대한 사용자 선호도를 계산하고, 상기 월드 모델을 이용하여 상기 검색 스코어에 반영하는 정도를 계산하고, 상기 계산된 선호도를 상기 검색 스코어에 반영하여 입력된 음성에 매칭되는 음악 리스트를 추출하는 것을 특징으로 하는 음성 인식 기반의 음악 검색 장치.
KR1020070008583A 2007-01-26 2007-01-26 음성 인식 기반의 음악 검색 방법 및 장치 KR100883657B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070008583A KR100883657B1 (ko) 2007-01-26 2007-01-26 음성 인식 기반의 음악 검색 방법 및 장치
US11/892,137 US20080249770A1 (en) 2007-01-26 2007-08-20 Method and apparatus for searching for music based on speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070008583A KR100883657B1 (ko) 2007-01-26 2007-01-26 음성 인식 기반의 음악 검색 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20080070445A KR20080070445A (ko) 2008-07-30
KR100883657B1 true KR100883657B1 (ko) 2009-02-18

Family

ID=39823195

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070008583A KR100883657B1 (ko) 2007-01-26 2007-01-26 음성 인식 기반의 음악 검색 방법 및 장치

Country Status (2)

Country Link
US (1) US20080249770A1 (ko)
KR (1) KR100883657B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10403267B2 (en) 2015-01-16 2019-09-03 Samsung Electronics Co., Ltd Method and device for performing voice recognition using grammar model

Families Citing this family (200)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8082148B2 (en) * 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR101483307B1 (ko) * 2008-10-21 2015-01-15 주식회사 케이티 대용량 음성인식을 위한 음성인식 처리 장치 및 그 방법
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
KR101057191B1 (ko) * 2008-12-30 2011-08-16 주식회사 하이닉스반도체 반도체 소자의 미세 패턴 형성방법
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
TW201104465A (en) * 2009-07-17 2011-02-01 Aibelive Co Ltd Voice songs searching method
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US20110131040A1 (en) * 2009-12-01 2011-06-02 Honda Motor Co., Ltd Multi-mode speech recognition
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8682667B2 (en) * 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110231189A1 (en) * 2010-03-19 2011-09-22 Nuance Communications, Inc. Methods and apparatus for extracting alternate media titles to facilitate speech recognition
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US9715581B1 (en) * 2011-11-04 2017-07-25 Christopher Estes Digital media reproduction and licensing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US11182431B2 (en) * 2014-10-03 2021-11-23 Disney Enterprises, Inc. Voice searching metadata through media content
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
DE102016204183A1 (de) * 2016-03-15 2017-09-21 Bayerische Motoren Werke Aktiengesellschaft Verfahren zur Musikauswahl mittels Gesten- und Sprachsteuerung
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
CN112836080B (zh) * 2021-02-05 2023-09-12 小叶子(北京)科技有限公司 一种通过音频查找曲谱的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11242496A (ja) 1998-02-26 1999-09-07 Kobe Steel Ltd 情報再生装置
KR20010099450A (ko) * 2001-09-28 2001-11-09 오진근 음악파일 재생장치
KR20030059503A (ko) * 2001-12-29 2003-07-10 한국전자통신연구원 사용자별 선호도에 따른 맞춤형 음악 서비스 시스템 및 방법
KR20070080299A (ko) * 2006-02-07 2007-08-10 삼성전자주식회사 사용자 의도 자동 해석 기반의 음악 추천 방법 및 그 장치

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233555B1 (en) * 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
US7246060B2 (en) * 2001-11-06 2007-07-17 Microsoft Corporation Natural input recognition system and method using a contextual mapping engine and adaptive user bias
AUPS270902A0 (en) * 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
US7617511B2 (en) * 2002-05-31 2009-11-10 Microsoft Corporation Entering programming preferences while browsing an electronic programming guide
JP2004163590A (ja) * 2002-11-12 2004-06-10 Denso Corp 再生装置及びプログラム
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US7302468B2 (en) * 2004-11-01 2007-11-27 Motorola Inc. Local area preference determination system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11242496A (ja) 1998-02-26 1999-09-07 Kobe Steel Ltd 情報再生装置
KR20010099450A (ko) * 2001-09-28 2001-11-09 오진근 음악파일 재생장치
KR20030059503A (ko) * 2001-12-29 2003-07-10 한국전자통신연구원 사용자별 선호도에 따른 맞춤형 음악 서비스 시스템 및 방법
KR20070080299A (ko) * 2006-02-07 2007-08-10 삼성전자주식회사 사용자 의도 자동 해석 기반의 음악 추천 방법 및 그 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10403267B2 (en) 2015-01-16 2019-09-03 Samsung Electronics Co., Ltd Method and device for performing voice recognition using grammar model
US10706838B2 (en) 2015-01-16 2020-07-07 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
US10964310B2 (en) 2015-01-16 2021-03-30 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
USRE49762E1 (en) 2015-01-16 2023-12-19 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model

Also Published As

Publication number Publication date
US20080249770A1 (en) 2008-10-09
KR20080070445A (ko) 2008-07-30

Similar Documents

Publication Publication Date Title
KR100883657B1 (ko) 음성 인식 기반의 음악 검색 방법 및 장치
US9934777B1 (en) Customized speech processing language models
Karpagavalli et al. A review on automatic speech recognition architecture and approaches
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US10121467B1 (en) Automatic speech recognition incorporating word usage information
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
US9477753B2 (en) Classifier-based system combination for spoken term detection
US6163768A (en) Non-interactive enrollment in speech recognition
US9640175B2 (en) Pronunciation learning from user correction
EP0867859B1 (en) Speech recognition language models
US8244522B2 (en) Language understanding device
US20080189106A1 (en) Multi-Stage Speech Recognition System
EP0874353A2 (en) Pronunciation generation in speech recognition
JP2003036093A (ja) 音声入力検索システム
WO2002035519A1 (en) Speech recognition using word-in-phrase command
Liao et al. Uncertainty decoding for noise robust speech recognition
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
Deligne et al. A robust high accuracy speech recognition system for mobile applications
JP2007240589A (ja) 音声認識信頼度推定装置、その方法、およびプログラム
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
Shen et al. Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition
Yapanel et al. Robust digit recognition in noise: an evaluation using the AURORA corpus.
Chen et al. Improved spoken term detection by feature space pseudo-relevance feedback
Li et al. Partially speaker-dependent automatic speech recognition using deep neural networks
JP2001109491A (ja) 連続音声認識装置および方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130130

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140128

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150129

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160128

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170125

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20180130

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee