KR20080043358A - 재생 디바이스의 동작을 제어하는 방법 및 시스템 - Google Patents

재생 디바이스의 동작을 제어하는 방법 및 시스템 Download PDF

Info

Publication number
KR20080043358A
KR20080043358A KR1020087006463A KR20087006463A KR20080043358A KR 20080043358 A KR20080043358 A KR 20080043358A KR 1020087006463 A KR1020087006463 A KR 1020087006463A KR 20087006463 A KR20087006463 A KR 20087006463A KR 20080043358 A KR20080043358 A KR 20080043358A
Authority
KR
South Korea
Prior art keywords
string
transcription
metadata
media
speech
Prior art date
Application number
KR1020087006463A
Other languages
English (en)
Inventor
바딤 브레너
피터 씨. 디마리아
데일 티. 로버츠
마이클 더블유. 맨틀
마이클 더블유. 오르미
Original Assignee
그레이스노트 아이엔씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 그레이스노트 아이엔씨 filed Critical 그레이스노트 아이엔씨
Publication of KR20080043358A publication Critical patent/KR20080043358A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • G06F16/639Presentation of query results using playlists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics

Abstract

미디어 메타데이터는 복수의 미디어 항목에 대해 액세스 가능하다. 상기 미디어 메타데이터는 미디어 항목에 대한 정보를 식별하기 위해 다수의 스트링을 포함한다. 음성 메타데이터는 상기 미디어 메타데이터의 상기 다수의 스트링과 연관된다. 상기 음성 메타데이터의 각 부분은 상기 스트링의 출처 언어로 저장된다.
재생 디바이스, 미디어 메타데이터, 스트링, 출처 언어

Description

재생 디바이스의 동작을 제어하는 방법 및 시스템{METHOD AND SYSTEM TO CONTROL OPERATION OF A PLAYBACK DEVICE}
본 출원은 2005년 8월 19일자로 "재생 디바이스의 동작을 제어하는 방법 및 시스템"이라는 발명의 명칭으로 출원번호 제 60/709,560호로 출원된 미국 가특허 출원의 우선권의 이익을 주장하며, 상기 가특허 출원의 전체 내용은 본 명세서에 참조되어 본 발명의 일부를 이룬다.
본 발명은 재생 디바이스의 동작을 제어하는 방법 및 시스템에 관한 것이다. 일 실시예에 있어서, 본 발명의 방법 및 장치는 음성 인터페이스(speech interface)를 사용하여 디지털 콘텐츠의 재생, 내비게이션, 및/또는 동적 플레이목록화(dynamic playlisting)를 제어할 수 있다.
모바일폰(mobile telephones), 휴대용 미디어 플레이어(예를 들어, MP3 플레이어), 차량 오디오 및 내비게이션 시스템 등과 같은 디지털 재생 디바이스는 통상적으로 이러한 디바이스의 동작을 제어하기 위해 사용자에 의해 사용되는 물리적인 제어(physical controls)를 구비한다. 예를 들어, 디지털 오디오 플레이어 상에 제공되는 "플레이", "일시 정지(pause)", "중지(stop)" 등과 같은 기능들은 선택된 기능을 실행(enable)시키기 위해 사용자가 작동시키는 스위치 또는 버튼 형태로 되 어 있다. 사용자는 통상적으로 임의의 주어진 기능을 선택하기 위해 손가락으로 버튼(하드웨어적 버튼 또는 소프트웨어적 버튼)을 누른다. 또한, 디바이스가 사용자로부터 수신할 수 있는 명령(commands)은 하드웨어적인 및 소프트웨어적인 물리적 스위치로 구성된 사용자 인터페이스의 물리적인 사이즈(physical size)에 의해 제한된다. 예를 들어, 음성 입력 및 음성 피드백을 일체화시킨 도로 내비게이션 제품(road navigation products)은 음성 입력 및/또는 스피커 출력이 없이는 용이한 동작을 실행할 수 없는 제한된 물리적 제어, 제한된 디스플레이 스크린 영역, 및 제한된 그래픽 사용자 인터페이스의 정교함(graphical user interface sophistication)을 가질 수 있다.
재생 디바이스의 동작을 제어하는 예시적인 방법 및 장치가 기술된다. 예를 들어, 예시적인 방법 및 장치는 음성(또는 청취자(listener)에 의한 구두 통신(oral communication))을 사용하여 디지털 콘텐츠의 재생, 내비게이션, 및/또는 동적 플레이목록화를 제어할 수 있다. 이하의 상세한 설명에서는, 설명 목적상, 본 발명의 실시예의 완전한 이해를 제공하기 위해 다수의 구체적인 상세 내용이 설명된다. 그러나, 본 발명이 이러한 구체적인 상세 내용이 없어도 실시될 수 있다는 것이 본 발명 기술 분야의 당업자에게 명백하다. 단지 예시를 들자면, 디지털 콘텐츠는 오디오(예를 들어, 음악), 정지 화상/사진, 비디오(예를 들어, 디브이디(DVDs)), 또는 임의의 다른 디지털 미디어일 수 있다.
비록 본 발명이 디지털 오디오를 참조하여 예시적인 방식으로 기술되지만, 본 발명은 임의의 디지털 데이터 또는 콘텐츠의 해석(rendering) 또는 재생을 제어하도록 사용될 수 있다는 것이 본 발명 기술 분야의 당업자에게 이해될 것이다.
본 명세서에서 기술되는 예시적인 방법들은 많은 상이한 형태의 시스템 상에서 구현될 수 있다. 예를 들어, 하나 이상의 방법들이 음반(recordings)을 플레이하는 휴대용 장치(portable unit)에 일체화될 수 있거나, 또는 매분(each minute)마다 수백가지의 디바이스로부터 네트워크(예를 들어, 인터넷)를 통해 수신되는 요구(requests)를 처리하는 하나 이상의 서버(servers), 또는 단일 데스크탑 컴퓨터 또는 근거리통신망(local area network)과 같은 중간에 존재하는 임의의 장치에 의해 액세스될 수 있다. 예시적인 실시예에 있어서, 본 발명의 방법 및 장치는 디지털 미디어의 재생을 위한 휴대용 또는 모바일 미디어 디바이스(예를 들어, 차량 오디오 시스템, 차량 내비게이션 시스템, 차량 DVD 플레이어, 휴대용 하드 드라이브 기반의 음악 플레이어(예를 들어, MP3 플레이어), 모바일폰 등)에 배치(deploy)될 수 있다. 본 명세서에서 기술되는 본 발명의 방법 및 장치는 독립형 디바이스(stand alone device)로 배치되거나 또는 재생 디바이스(휴대용 디바이스, 및 예를 들어 홈 스테레오 시스템과 같은 고정 위치에 적합한 디바이스를 모두 포함함)에 완전히 일체화될 수 있다.
예시적인 실시예는 디바이스로 또는 애플리케이션으로 전달될 수 있는 데이터 및 연관된 음성 명령 및 제어의 형태에 있어서 융통성(flexibility)이 가능하도록 해준다. 예시적인 실시예는 오디오를 해석하는 애플리케이션이 요구하는 명령만을 전달할 수 있다. 따라서, 기존 제품 내에 본 발명의 방법 및 장치를 배치하는 구현자(implementers)는 자신들이 필요로 하며 또한 특정 제품이 필수적인 기능(requisite functionality)(예를 들어, 차량 오디오 시스템 또는 이러한 차량 오디오 시스템 작동하는 애플리케이션, 및 MP3 플레이어 및 MP3 플레이어 상에서 작동하는 애플리케이션 소프트웨어 등)을 수행할 것을 요구하는 생성된 데이터를 단지 사용하기만 하면 된다. 예시적인 실시예에서, 본 발명의 장치 및 방법은 음악 메타데이터(metadata)의 정확한 음성 인식 및 합성을 달성하는 기존의 자동화 음성 인식(legacy automated speech recognition: ASR)/문자 음성 변환(text-to-speech: TTS) 솔루션 및 기존의 애플리케이션 특징들과 결합하여 동작될 수 있다.
개량된 ASR 및/또는 TTS 기술과 함께 사용될 경우, 본 발명의 장치는 디바이스 제조자들이 모든 종류의 디지털 엔터테인먼트 디바이스(예를 들어, 차량 오디오 시스템, 내비게이션 시스템, 모바일폰 등) 내의 음악 컬렉션(music collections)에 신속하게 핸즈프리 액세스(hands-free acess)를 실행하도록 할 수 있다.
미디어 관리를 위해 사용되는 발음은 ASR 및 TTS 시스템에 대한 특별한 도전 과제(challenges)를 제기할 수 있다. 예시적인 실시예에서, 음악 도메인 특정 데이터를 수용하는 것은 데이터베이스 사이즈를 적절히 증가시켜 달성될 수 있다. 이러한 증가는 주로 아티스트, 앨범, 및 노래명 뿐만 아니라, 장르, 스타일 등과 같은 기타 다른 미디어 도메인 특정 조건(media domain specific terms)에 대한 음성 전사(phonetic transcriptions)로부터 생겨난다.
예시적인 실시예는 다양한 ASR 및 TTS 특징을 편리하게 달성하기 위해 음성 데이터의 기능 및 전달을 디바이스 또는 애플리케이션에 제공한다. 이들 기능은 상기 예시적인 방식으로 언급된 바와 같은 다양한 디바이스, 및 미디어 데이터베이스와 결합하여 사용될 수 있다. 예시적인 실시예에서, 미디어 데이터베이스는 비지속적으로 연결된 디바이스(non-persistently connected devices)에 대해 온라인 액세스에 의해 또는 로컬 데이터베이스(local database)(예를 들어, 임베드형(embedded) 로컬 데이터베이스)를 통해 시스템에 원격방식으로(remotely) 액세스될 수 있다. 따라서, 예를 들어, 로컬 데이터베이스는 휴대용 재생 디바이스의 하드 디스크 드라이브(HDD) 내에 제공될 수 있다.
예시적인 실시예에서, 추가적인 보안 콘텐츠 및 데이터는 디지털 저작권 관리(Digital Rights Management: DRM) 액션과 함께 적절한 음성 명령을 통해 액세스될 수 있는 로컬 하드 디스크 드라이브 내에 또는 온라인 저장소(online repository) 내에 임베드될 수 있다. 예를 들어, 사용자는 트랙을 구입하도록 구두로 요구할 수 있으며, 그 후 이러한 트랙에 대해 액세스가 해제될 수 있다. 그 후, 라이센스 키(license key) 및/또는 실제 트랙이 국부적으로 해제되고, 사용자에게 스트리밍되어, 사용자의 디바이스 등에 다운로드될 수 있다.
예시적인 실시예에서, 본 발명의 방법 및 장치는 장르 계층구조(genre hierarchies), 연대/연도 계층구조(era/year hierarchies), 및 출처 계층구조(origin hierarchies)와 같은 데이터 구조는 물론 관련 아티스트, 앨범, 및 장르와 같은 관련 데이터를 지원하는 것과 함께 작동될 수 있다. 지역적 계층구조 또는 디바이스-특정 계층구조는 지원된 음성 명령이 목표로 하는 시장(target market)의 사용자 기대와 일치하도록 탑재(load)될 수 있다. 또한, 본 발명의 방법 및 장치는 하나 이상의 특정 언어용으로 구성될 수 있다.
일부 실시예가 예시적인 방식으로 도시되지만 첨부 도면의 각각의 도에 제한되는 것은 아니다. 첨부도면은 다음과 같다:
도 1은 예시적인 실시예에 따른, 음성 인터페이스를 사용하는 디지털 콘텐츠의 재생 제어, 내비게이션, 및 동적 플레이목록화에 대한 시스템 구조(system architecture)를 도시한 도면이다.
도 2는 예시적인 실시예에 따른 미디어 인식 및 관리 시스템의 블록 다이어그램이다.
도 3은 예시적인 실시예에 따른 음성 인식 및 합성 모듈(speech recognition and synthesis module)의 블록 다이어그램이다.
도 4는 예시적인 실시예에 따른 미디어 데이터 구조의 블록 다이어그램이다.
도 5는 예시적인 실시예에 따른 트랙 데이터 구조의 블록 다이어그램이다.
도 6은 예시적인 실시예에 따른 내비게이션 데이터 구조의 블록 다이어그램이다.
도 7은 예시적인 실시예에 따른 텍스트 어레이 데이터 구조의 블록 다이어그램이다.
도 8은 예시적인 실시예에 따른 음성 전사 데이터 구조(phonetic transcription data structure)의 블록 다이어그램이다.
도 9는 예시적인 실시예에 따른 대안 문구 맵퍼 데이터 구조(alternate phrase mapper data structure)의 블록 다이어그램이다.
도 10은 예시적인 실시예에 따른, 데이터베이스 상의 음성 메타데이터(phonetic metadata)를 관리하는 방법을 예시하는 플로우차트이다.
도 11은 예시적인 실시예에 따른, 데이터베이스 상의 음성 메타데이터를 변경(altering)하는 방법을 예시하는 플로우차트이다.
도 12는 예시적인 실시예에 따른, 애플리케이션을 구비한 메타데이터를 사용하는 방법을 예시하는 플로우차트이다.
도 13은 예시적인 실시예에 따른, 애플리케이션을 구비한 메타데이터를 액세스 및 구성하는 방법을 예시하는 플로우차트이다.
도 14는 예시적인 실시예에 따른, 애플리케이션을 구비한 미디어 메타데이터를 액세스 및 구성하는 방법을 예시하는 플로우차트이다.
도 15는 예시적인 실시예에 따른, 음성 인식에 의해 수신된 문구(phrase)를 처리(processing)하는 방법을 예시하는 플로우차트이다.
도 16은 예시적인 실시예에 따른, 변환된 텍스트 스트링(converted text string)을 식별하는 방법을 예시하는 플로우차트이다.
도 17은 예시적인 실시예에 따른, 음성 합성에 의해 출력 스트링을 제공하는 방법을 예시하는 플로우차트이다.
도 18은 예시적인 실시예에 따른, 스트링에 대한 음성 전사를 액세스하는 방법을 예시하는 플로우차트이다.
도 19는 예시적인 실시예에 따른, 음성 전사를 프로그램방식으로 생성하는 방법을 예시하는 플로우차트이다.
도 20은 예시적인 실시예에 따른, 음소 변환(phoneme conversion)을 수행하는 방법을 예시하는 플로우차트이다.
도 21은 예시적인 실시예에 따른, 음성 전사를 목적 언어(target language)로 변환하는 방법을 예시하는 플로우차트이다.
도 22는 컴퓨터 시스템 형태로 예시적인 머신을 다이어그램 방식으로 표시한 도면으로, 이러한 컴퓨터 시스템 내에서는 상기 예시적인 머신이 본 명세서에서 논의되는 방법들 중 어느 하나 이상을 수행하도록 하는 한 세트의 명령어(a set of instructions)가 실행될 수 있다.
도 1은 재생 제어, 내비게이션, 미디어 콘텐츠 서치(search), 미디어 콘텐츠 추천, 향상된 메타데이터(예를 들어, 가사 및 표지 도안)의 판독 및/또는 전달, 및/또는 미디어 콘텐츠의 동적 플레이목록화를 실행하기 위해 미디어 콘텐츠를 인식하는 상위 레벨 시스템 구조(high level system architecture)(100)를 예시한 도면이다. 이러한 상위 레벨 시스템 구조(100)는 미디어 관리 시스템(106) 및 애플리케이션층/사용자 인터페이스(UI)(108)와 통신하는(in communication with) 음성 인식 및 합성 장치(104)를 포함할 수 있다.
음성 인식 및 합성 장치(104)는 구두 입력(spoken input)(116)을 수신하며, 각각 음성 인식 및 음성 합성을 통해 스피커 출력(114)을 제공할 수 있다. 예를 들어, 음성 합성을 위한 문자 음성 변환(TTS) 엔진(110) 및 음성 인식 명령을 위한 자동화 음성 인식(ASR) 엔진(112)을 사용하여 재생 제어, 내비게이션, 미디어 콘텐츠 서치, 미디어 콘텐츠 추천, 향상된 메타데이터(예를 들어, 가사 및 표지 도안)의 판독 및/또는 전달, 및/또는 미디어 콘텐츠의 동적 플레이목록화는, 예를 들어 전달된 음성 메타데이터(128)에 기초하여 내비게이션 기능을 허용할 수 있다(예를 들어, 재생 디바이스 상의 콘텐츠를 둘러보기(browse)할 수 있다).
사용자는 입력 디바이스(예를 들어, 마이크)를 통해 구두 입력(116)을 제공할 수 있으며, 그 후 구두 입력(116)은 ASR 엔진(112) 내로 공급된다. ASR 엔진(112)의 출력은 플레이목록 애플리케이션층(122), 음성 동작 명령(voice operation commands: VOCs)층(124), 링크 애플리케이션층(132), 및 미디어 식별(ID) 애플리케이션층(134)을 포함하는 미디어 관리 시스템(106)과 통신할 수 있는 애플리케이션층/사용자 인터페이스(UI)(108) 내로 공급된다.
예시적인 실시예에서, 미디어-ID 애플리케이션층(134)은 미디어 메타데이터(130)를 관련된 미디어 콘텐츠(136)와 지속적으로 연관시키기 위해 적절한 식별 방법(예를 들어, 텍스트 매칭(text matching), 오디오 및/또는 비디오 지문, 컴팩트 디스크의 컨텐츠 테이블(Table of Contents: TOC), 또는 DVD의 프로그래밍 테이블(Table of Programming))을 사용하여 로컬 라이브러리 데이터베이스(118) 내에 저장된 미디어 콘텐츠(136)의 인식 프로세스를 수행하는데 사용될 수 있다.
애플리케이션층/사용자 인터페이스(108)는 사용자 및/또는 (예를 들어, 재생 디바이스 내의) 임베드형 애플리케이션으로부터 수신된 통신을 처리할 수 있으며, 반면에 미디어 플레이어(102)는 사용자 및 임베드형 애플리케이션 간의 텍스트 통 신 및/또는 그래픽 통신을 수신 및/또는 제공할 수 있다.
예시적인 실시예에서, 미디어 플레이어(102)는 소프트웨어 및/또는 하드웨어의 조합으로 이루어질 수 있으며, 다음과 같은 제어, 포트(예를 들어, 범용 직렬 포트(universal serial port), 디스플레이, 스토리지(storage), CD 플레이어, DVD 플레이어, 오디오 파일, (예를 들어, 착탈가능형, 및/또는 고정형) 스토리지, 스트리밍된 콘텐츠(예를 들어, FM 라디오 및 위성 라디오), 레코딩 용량(recording capability), 및 기타 다른 미디어 중 하나 이상을 포함할 수 있다. 예시적인 실시예에서, 임베드형 애플리케이션은 미디어 플레이어(102)와 인터페이스하여 임베드형 애플리케이션이 미디어 플레이어(102)의 기능에 대한 액세스 및/또는 기능의 제어를 가질 수 있다.
예시적인 실시예에서, 음성 메타데이터(128)에 대한 지원은 음성 메타데이터(128)를 미디어 데이터 구조 내에 포함시킴으로써 미디어-ID 애플리케이션층(134) 내에 제공될 수 있다. 예를 들어, CD 룩업(CD lookup)이 성공적이며, 미디어 메타데이터(130)(예를 들어, 앨범 데이터)가 리턴(return)될 때, 모든 음성 메타데이터(128)가 미디어 데이터 구조 내에 자동적으로 포함될 수 있다.
플레이목록 애플리케이션층(122)은 플레이목록화 데이터베이스(110) 내의 플레이목록의 생성 및/또는 관리를 실행할 수 있다. 예를 들어, 플레이목록은 미디어 데이터베이스(126) 내에 포함될 수 있는 미디어 콘텐츠를 포함할 수 있다.
예시된 바와 같이, 미디어 데이터베이스(126)는 음성 메타데이터(128)를 포함하도록 향상될 수 있는 미디어 메타데이터(130)를 포함할 수 있다. 예시적인 실 시예에 있어서, 편집 프로세스(editorial process)가 기존 음성 인식 및/또는 음성 합성 시스템에서의 임의의 불충분한 내용을 설명하기 위해 광범위한(broad-coverage) 음성 메타데이터(128)를 제공하는데 사용될 수 있다. 예를 들어, 특정하게 생성된 음성 데이터(128)를 직접적으로 미디어 메타데이터(130)와 명시적으로 연관시킴으로써, 이러한 연관이 용이하게 발음되지 않거나, 틀리게 발음되거나, 별명을 갖거나, 또는 스펠링되는대로 발음되지 않는 아티스트, 앨범, 및 트랙명과 같은 미디어 메타데이터(130)를 효율적으로 처리할 수 없는 기존의 음성 인식 및/또는 음성 합성 시스템에 도움을 줄 수 있다.
예시적인 실시예에서, 미디어 메타데이터(130)는 재생 제어, 내비게이션, 미디어 콘텐츠 서치, 미디어 콘텐츠 추천, 향상된 메타데이터(예를 들어, 가사 및 표지 도안)의 판독 및/또는 전달, 및/또는 미디어 콘텐츠의 동적 플레이목록화에 대한 메타데이터를 포함할 수 있다.
음성 메타데이터(128)는 기능들이 솔루션의 나머지 다른 구성요소와 관련하여 작동하도록 실행하는 음성 인식 및 합성 장치(104)에 의해 사용될 수 있으며, 또한 지속적인 인터넷 연결이 없는 디바이스들, 인터넷 연결을 구비한 디바이스들, PC 애플리케이션 등에서 사용될 수 있다.
예시적인 실시예에서, 미디어 데이터베이스(126)의 음성 메타데이터(128)로부터 하나 이상의 음성 사전(phonetic dictionaries)이 유도되며, 또한 보통문 텍스트 형태(clear-text form) 또는 기타 다른 포맷으로 일부 또는 전체가 생성될 수 있다. 음성 사전은, 일단 완성되면, 음성 인식 및 합성 장치(104)와 함께 사용하기 위한 임베드형 애플리케이션에 의해 제공되거나 또는 음성 인식 및 합성 장치(104)에 의해 이미 사용된 기존의 사전에 부가(append)될 수 있다.
예시적인 실시예에서, 다수의 사전(multiple dictionaries)이 미디어 관리 시스템(106)에 의해 생성될 수 있다. 예를 들어, 공헌자(아티스트) 음성 사전 및 장르 음성 사전은 음성 인식 및 합성 장치(104)에 의해 사용되도록 생성될 수 있다.
도 2를 참조하면, 예시적인 미디어 인식 및 관리 시스템(200)이 도시되어 있다. 예시적인 실시예에서, 미디어 인식 및 관리시스템(106)(도 1 참조)은 미디어 인식 및 관리 시스템(200)을 포함할 수 있다.
미디어 인식 및 관리 시스템(200)은 운영체제(operating system: OS)(204)에 연결되는 플랫폼(202)을 포함할 수 있다. 플랫폼(202)은 소프트웨어가 실행될 수 있도록 해주는, 하드웨어 및/또는 소프트웨어 형태의 프레임워크(framework)일 수 있다. 운영체제(204)는 데이터 통신(206)과 통신할 수 있으며, 운영체제(OS) 추상화층(OS abstraction layer)(208)과 추가로 통신할 수 있다.
운영체제 추상화층(208)은 미디어 데이터베이스(210), 업데이트 데이터베이스(212), 캐쉬(cache: 214), 및 메타데이터 로컬 데이터베이스(216)와 통신할 수 있다. 미디어 데이터베이스(210)는 하나 이상의 미디어 항목(218)(예를 들어, CD, 디지털 오디오 트랙, DVD, 영화, 사진 등)을 포함할 수 있으며, 미디어 항목(218)은 미디어 메타데이터(220) 및 음성 메타데이터(222)와 연관될 수 있다. 예시적인 실시예에서, 오리지날 레코팅(기준 레코팅)의 지문에 기초하여 오리지날 레코팅의 변경된 복사본(copies)을 식별하기 위해 충분히 강력한 기준 지문 세트(robust reference fingerprint set)가 생성될 수 있다.
예시적인 실시예에서, 캐쉬(214)는 데이터를 저장하는데 사용되는 컴퓨팅 시스템 또는 디바이스 상의 로컬 스토리지일 수 있으며, 장래 쿼리(future queries)의 속도를 향상시킬 수 있는 최근 쿼리 결과(recently queried results)를 저장하는데 도움을 주도록 파일 기반의 캐슁 메커니즘(file-based caching mechanisms)을 제공하기 위해 미디어 인식 및 관리 시스템(200) 내에서 사용될 수 있다.
사용자 컬렉션 내의 미디어 항목(218)에 대한 플레이목록 관련 데이터는 메타데이터 로컬 데이터베이스(216) 내에 저장될 수 있다. 예시적인 실시예에 있어서, 메타데이터 로컬 데이터베이스(216)는 플레이목록화 데이터베이스(110/120?)(도 1 참조)를 포함할 수 있다. 메타데이터 로컬 데이터베이스(216)는 플레이목록 결과 세트를 생성하라는 플레이목록 관리자(230)의 지시에 따라 플레이목록 생성(232)을 실행하는 도중에 필요한 모든 정보를 포함할 수 있다. 플레이목록 생성(232)은 플레이목록 애플리케이션 프로그래밍 인터페이스(API)(236)를 통해 인터페이스될 수 있다.
미디어 인식 및 관리 시스팀(200) 내의 룩업은 운영체제 추상화층(208) 및 룩업 서버(lookup server)(222) 간의 통신을 통해 실행될 수 있다. 룩업 서버(222)는 록업을 실행하기 위해 업데이트 관리자(228), 암호화/복호화(encryption/decryption) 모듈(224), 및 압축 모듈(226)과 통신할 수 있다.
미디어 인식 모듈(246)은 업데이트 관리자(228) 및 룩업 서버(222)와 통신할 수 있으며, 또한 미디어 데이터베이스로부터 미디어 항목(218)과 연관된 미디어 메타데이터(220)를 액세스함으로써, 미디어를 인식하는데 사용될 수 있다. 일 실시예에 있어서, 컴팩트 디스크(오디오 CD) 및/또는 기타 다른 미디어 항목(218)은 콘텐츠 테이블(TOC) 정보 또는 오디오 지문을 사용하여 인식(또는 식별)될 수 있다. 일단 콘텐츠 테이블(TOC) 또는 오디오 지문이 사용가능해지면, 애플리케이션 또는 디바이스는 미디어 데이터베이스(210)로부터 미디어 메타데이터(220)를 검색하기 위해 CD 또는 기타 다른 미디어 콘텐츠에 대한 미디어 항목(218)을 룩업할 수 있다. 인식된 미디어 항목(218)에 대해 음성 데이터(222)(메타데이터?)가 존재하는 경우, 이러한 음성 데이터(222)(메타데이터?)는 X-SAMPA와 같은 음성 전사 언어에서 사용가능해질 수 있다. 미디어 데이터베이스(210)는 국부적으로 상주(reside)하거나 또는 네트워크 연결을 통해 액세스가 가능하다. 예시적인 실시예에서, 음성 전사 언어는 정확한 음성 전사용으로 설계된 문자 세트(character set)(텍스트 심볼을 구비한 음성 사운드의 표시)일 수 있다. 예시적인 실시예에서, 확장된 음성 평가 방법 음성 알파벳(Extended Speech Assessment Methods Phonetic Alphabet: X-SAMPA)은 국제 음성 알파벳(International Phonetic Alphabet)을 아스키 문자((ASCII character)로 정확하게 모델화하도록 설계된 음성 전사 언어일 수 있다.
콘텐츠 ID 전달 모듈(224)은 콘텐츠 식별을 링크 API(238)에 직접 전달할 수 있으며, VOCs API(242)는 인식 미디어 모듈(미디어 인식 모듈?)(226) 및 미디어-ID API(240)와 통신할 수 있다.
도 3을 참조하면, 재생 디바이스의 동작을 제어하기 위한 예시적인 음성 인 식 및 합성 장치(300)가 도시되어 있다. 예시적인 실시예에 있어서, 음성 인식 및 합성 장치(104)(도 1 참조)는 음성 인식 및 합성 장치(300)를 포함할 수 있다. 음성 인식 및 합성 장치(300)는 ASR/TTS 시스템을 포함할 수 있다.
ASR 엔진(112)은 미디어 메타데이터(130) 뿐만 아니라 미디어 관리 시스템(106)에 의해 지원되는 모든 명령을 식별(know)할 수 있는 음성 인식 모듈(314,316,318,320)을 포함할 수 있으며, 명령을 인식하면 음성 인식 엔진(112)은 적절한 명령을 관련 핸들러(relevant handler)에 전송한다(도 1 참조). 예를 들어, 플레이목록화 애플리케이션이 상기 실시예와 연관된 경우, ASR 엔진(112)은 적절한 명령을 플레이목록화 애플리케이션, 및 애플리케이션층/사용자 인터페이스(108)(도 1 참조)로 차례로 전송하며, 그 후 요구를 실행할 수 있다.
일단 음성 인식 및 합성 장치(300)가 적절한 데이터(예를 들어, 음악 도메인용으로 커스텀화된 음성 메타데이터(128,222))로 구성되면, 음성 인식 및 합성 장치(300)는 음성 인식 및 합성 장치(300)가 구성된 특정 도메인과 연관되는 음성 명령에 응답할 준비가 되어 있다. 음성 메타데이터(128)는 또한 자신이 상주하는(resident) 특정 디바이스와 연관될 수 있다. 예를 들어, 디바이스가 재생 디바이스인 경우, 음성 데이터는 "플레이", "다시 플레이(play again)", "중지", "일시 정지" 등과 같은 명령을 수용하도록 커스텀화될 수 있다.
TTS 엔진(110)(도 1 참조)은 음성 합성 모듈(306, 308, 310, 312)을 포함할 수 있다. 음성 합성 요구를 수신하면, 클라이언트 애플리케이션은 구두로 이루어진 명령을 TTS 엔진(110)으로 전송할 수 있다. 음성 합성 모듈(306, 308, 310, 312)은 먼저 관련 사전 또는 사전들 내에서 구두로 이루어진 텍스트 스트링을 룩업한다. 그 후, 음성 합성 모듈(306, 308, 310, 312)이 사전에서 찾아낸 텍스트 스트링의 음성 표시는 TTS 엔진(306)에 의해 취해져서, 텍스트 스트링의 음성 표시가 구두로 출력(예를 들어, 텍스트 스트링의 스피커 출력(302)이 생성)될 수 있다.
예시적인 실시예에서, ASR 문법(318)은 모든 음성 메타데이터(128,222) 및 명령을 포함하는 사전을 포함할 수 있다. 본 명세서에서는, "플레이 아티스트," "좀 더 이것과 같은(More like this)," "이것은 무엇인가(What is this)"와 같은 명령이 정의될 수 있다.
예시적인 실시예에서, TTS 사전(310)은 미리 정의된(pre-defined) 모든 발음을 포함하는 2진(binary) TTS 사전 또는 텍스트 TTS 사전일 수 있다. 예를 들어, TTS 사전(310)은 애플리케이션 데이터베이스 내의 인식된 콘텐츠에 대한 미디어 데이터베이스로부터의 모든 음성 메타데이터(128,222)를 포함할 수 있다. 이러한 사전 내에 없는 단어(words)가 G2P를 통해 취급될 수 있기 때문에, TTS 사전(310)은 TTS 시스템이 발음할 수 있는 모든 가능한 단어(words) 또는 문구(phrases)를 반드시 보유할 필요는 없다.
음성 인식 및 합성 장치(300)의 기능에 대한 콘텐츠 인식 및 업데이트가 수행된 후에, 사용자는 음성 인식 및/또는 음성 합성에 대한 명령을 실행할 수 있다. 그러나, 상기 기능은 기타 다른 적절한 방식으로 수행될 수 있으며 또한 상기 상세한 설명에 제한되는 것이 아니라는 점이 이해되어야 한다. 예를 들어, 재생 디바이스는 음악 도메인에 적합하며, 또한, 예를 들어, 인터넷 또는 임의의 기타 다른 통 신 채널을 통해 업데이트될 수 있는 적절한 음성 메타데이터(128,222)로 미리 적재(preloaded)될 수 있다.
음성 인식 및 합성 장치(300)가 X-SAMPA를 지원하는 예시적인 실시예에서, 음성 메타데이터(128,222)는 원래 존재하는 상태로 제공될 수 있다. 그러나, 음성 인식 및 합성 장치(300)가 다른 음성 언어에서 데이터를 찾는 실시예에서는, 음성 인식 및 합성 장치(300)가 X-SAMPA에서 선택된 음성 언어로 변환하는 문자맵(character map)을 포함할 수 있다.
음성 인식 및 합성 장치(300)는, 예를 들어, 다음에 따라 재생 디바이스를 제어할 수 있다: 구두 입력(304)은, 사용자가 명령을 말할 때 연관된 음성이 가 ASR 엔진(314) 내로 입력될 수 있도록, 오디오 입력(예를 들어, 마이크)으로 구두로 이루어진 명령(예를 들어, 사용자에 의한 구두 통신(oral communication))일 수 있다. 본 명세서에서, 음의 고저(pitch) 및 음색(tone)과 같은 음성적 특징이 사용자 발성(utterance)의 디지털 판독(readout)을 생성하도록 추출될 수 있다. 이러한 단계 후에, ASR 엔진(314)은 자신의 컴파일된 문법(compiled grammar)(예를 들어, 기준 명령의 데이터베이스) 내의 실제 명령에 대해 구두로 이루어진 명령으로부터 추출한 특징들을 매칭(match)시킬 수 있다. 문법은 특정 실시예에 특정된 음성 데이터(128,222)를 포함할 수 있다. ASR 엔진(314)은 주어진 또는 선택된 언어에 대한 음성의 평균적 특성에 대한 가이드(guide)로서 음향 모델(acoustic model)을 사용할 수 있으며, 이것은 음성 메타데이터(128,222)를 음성과 매칭시키는 것을 가능하게 한다. 본 명세서에서, ASR 엔진(314)은 매칭 명령(matching command) 또는 " 실패(fail)" 메시지 중 어느 하나를 리턴할 수 있다.
예시적인 실시예에서, 사용자 프로파일은 더 높은 정확도(예를 들어, 도메인 특정 명령을 인식하는데 있어서의 더 높은 정확도)를 제공하기 위해, 음성 인식 및 합성 장치(300)가 주어진 개인의 구두로 이루어진 명령을 더 잘 이해하도록 훈련시키는데 사용될 수 있다. 이것은 특정 세트의 텍스트 스트링을 음성 인식 및 합성 장치(300) 내로 말하는 사용자에 의해 달성될 수 있으며, 특정 세트의 텍스트 스트링은 ASR 시스템 개발자에 의해 미리 정의되어 제공된다. 예를 들어, 텍스트 스트링은 음악 도메인으로 특정될 수 있다.
일단 매칭 명령이 발견되면, ASR 엔진(314)은 결과를 생성하여 임베드형 애플리케이션에 명령을 전송할 수 있다. 그 후, 임베드형 애플리케이션은 그 명령을 실행할 수 있다.
TTS 엔진(306)은 텍스트 (또는 음성) 스트링을 취하여, 텍스트 (또는 음성) 스트링을 음성으로 처리할 수 있다. TTS 엔진(306)은 텍스트 명령을 수신할 수 있으며, 또한, 예를 들어 G2P 소프트웨어를 사용하거나 또는 (제공된 음성 메타데이터(128,222)가 갖추어진) 사전컴파일된 2진 사전(precompiled binary dictionary)을 서치함으로써, TTS 엔진(306)은 스트링을 처리할 수 있다. TTS 기능이 또한 특정 도메인(예를 들어, 음악 도메인)에 커스텀화될 수 있다는 점이 이해되어야 한다. TTS의 결과 스트링을 "말하는(speak)" 것이 가능하다(텍스트에 대응되는 스피커 출력(302)을 생성하는 것이 가능하다).
예시적인 실시예에서, 메타데이터와 함께, 통상적인 음성 명령 및 제어 기능 의 목록이 또한 제공된다. 이들 음성 명령 및 제어 기능은, 개발 초기 또는 개발 도중의, 실행시간(runtime) 중에 재컴파일(recompilation)에 대한 디폴트 문법(default grammar)에 추가될 수 있다. 예시적인 명령 및 제어 기능(지원 기능(Supported Functions))의 목록이 후술하는 바와 같이 제공된다.
일 실시예에서, 문법이 음성 인식을 위해 사용되고 업데이트되는 동안, 2진 사전 또는 텍스트 사전은 음성 합성을 위해 필요하다. 임의의 텍스트 스트링은 TTS 엔진(306)으로 전달될 수 있으며, TTS 엔진(306)은 G2P 및 TTS 사전(310)에 의해 TTS 엔진(306)용으로 제공된 발음을 사용하여 스트링을 말할 수 있다.
예시적인 실시예에서, 음성 인식 및 합성 장치(300)는 자소-음소 변환(Grapheme to Phoneme (G2P) conversion)을 지원할 수 있으며, G2P 변환은 G2P 모듈(들)을 통해 디스플레이 텍스트를 연관된 음성 전사로 동적으로 그리고 자동으로 변환한다. G2P 기술은 애플리케이션에 의해 제공되는 평문 스트링(plain text string)을 입력으로 취하여 자동 음성 전사를 생성한다.
사용자는, 예를 들어, 인식, 관리, 내비게이션, 플레이목록화, 서치, 추천 및/또는 제 3자 기술에 대한 연결(linking)을 포함하는 임베드형 디바이스 내의 ASR 기술 또는 상기 임베드형 디바이스에 대한 번들형 제품(bundled products)을 구비한 ASR 기술을 사용하여 음성을 통해 음악 콘텐츠의 기본적인 재생을 제어한다. 사용자는 음성 명령을 사용하여 특정 아티스트, 앨범, 및 노래를 내비게이션하여(navigate) 선택할 수 있다.
예를 들어, 음성 인식 및 합성 장치(300)를 사용하는 경우, 사용자는 장르, 연대, 연도, 지역, 아티스트 타입, 템포, 분당 비트수(박자수), 무드 등과 같은 다수의 기준(multiple criteria)을 사용하여 자동 플레이목록을 동적으로 생성할 수 있거나, 또는 유사한 음악의 플레이목록을 생성하기 위해 단순히 구두로 이루어진 명령으로 시드 기반의(seed-based) 자동 플레이목록을 생성할 수 있다. 예시적인 실시예에서, 모든 기본적인 재생 명령(예를 들어, "플레이", "다음(Next)", "뒤로(Back)" 등)은 음성 명령을 통해 수행될 수 있다. 추가적으로, 문자 음성 변환은 또한 "좀 더 이것과 같은(More like this)" 또는 "이것은 무엇인가?(What is this?)"와 같은 명령 또는 임의의 기타 다른 도메인 특정 명령을 제공할 수 있다. 따라서, 음성 인식 및 합성 장치(300)는 음성 명령을 사용하여 오디오 재생 디바이스와 같은 재생 디바이스에 제공될 수 있는 명령의 형태 또는 범위를 편리하게 하거나 향상시킬 수 있다는 점이 이해될 것이다.
본 발명의 장치에 의해 지원될 수 있는 예시적인 음성 명령의 예를 포함한 테이블은 아래와 같이 나타나 있다.
기능( Function ) 예( Example ) 명령( Command )
음악 인식
기본적인 제어
플레이(Play) "플레이(Play)" 플레이(Play)
중지(Stop) "스탑(Stop)" 중지(Stop)
트랙 건너뜀(Skip Track) "넥스트(Next)" 다음(Next)
이전 트랙(Prior Track) "백(back)" 뒤로(Back)
일시 정지(Pause) "포즈(Pause)" 일시 정지(Pause)
트랙 반복(Repeat Track) "리피트/플레이 잇 어게인(Repeat/Play it Again)" 반복(Repeat)
콘테츠 항목 재생
틀랙 플레이(Track Play) "플레이 송/트랙(Play Song/Track)" <섬머 인더 시티(Summer in the City)> 노래 플레이(Play Song)
앨범 플레이(Album Play) "플레이 앨범(Play Album)" <(익사일 온 메인 스트리트(Exile on Main Street)> 앨범 플레이(Play Album)
명확화( Disambiguation )
기타 다른 아티스트/앨범/노래/등 플레이 "플레이 아더 <너바나>(Play Other <(Nirvana)>)" 기타 다른 것 플레이(Play Other)
콘텐츠 식별(텍스트 콘텐츠의 TTS 와 함께)
노래 및 아티스트 식별 "홧 이즈 디스?(What is This?)" 이것은 무엇인가?
아티스트 식별 "아티스트 네임?(Artist Name?)" 아티스트 이름은?
앨범 식별 "앨범 네임?(Album Name?)" 앨범명은?
노래 식별 "송 네임?(Song Name?)" 노래명은?
장르 식별 "장르 네임?(Genre Name?)" 장르명은?
년도 식별 "홧 이어 이즈 디스?(What Year is This?)" 몇년도인가?
가사말 전사( Transcribe Lyric Line ) " 홧드 세이 ?( What'd He Say ?)" 그가 무슨 말을 했는가?
커스텀 메타데이터 레이블링( Custom Metadata Labeling )
아티스트 별명 추가 " 디스 아티스트 닉네임 <벡>( This Artist Nickname < Beck >)" 아티스트 별명
앨범 별명 추가 " 디스 앨범 닉게임 < 멜로우 골드> (This Album Nickname < Mellow Gold>)" 이 앨범 별명
노래 별명 추가 " 디스 닉게임 < 페이 노 마인드> (This Song Nickname < Pay No Mind >)" 이 노래 별명
대안적인 명령 추가 커맨드 < 디스 썩스 !> 미인즈 < 레이팅 제로>( Command < This Sucks !> Means < Rating 0>)" 명령 - 의미
노래 별명 추가 " 디스 닉게임 < 페이 노 마인드> ( This Song ckname < Pay No Mind >)" 이 노래 별명
설정 시스템 선호( Set System Preferences )
모든 아티스의 발표 방법에 대한 설정 선호 " 유즈 <닉네임> 훠 올 < 아티스트츠 > ( Use <Nicknames> for all < artists >)" 모두에 대해 - 사용
모든 앨범의 발표 방법에 대한 설정 선호 " 유즈 <닉네임> 훠 올 < 앨범즈 > ( Use <Nicknames> for all < albums >)" 모두에 대해 - 사용
모든 트랙의 발표 방법에 대한 설정 선호 " 유즈 <닉네임> 훠 올 < 트랙스 > ( Use < Nicknames > for all < tracks >)" 모두에 대해 - 사용
특정 아티스트의 발표 방법에 대한 설정 선호 " 유즈 <닉네임> 훠 디스 < 아티스트 > ( Use <Nicknames> for this < artist >)" 이것에 대해 - 사용
특정 앨범의 발표 방법에 대한 설정 선호 " 유즈 <닉네임> 훠 디스 <앨범> ( Use <Nicknames> for this < album >)" 이것에 대해 - 사용
특정 트랙의 발표 방법에 대한 설정 선호 " 유즈 <닉네임> 훠 디스 <트랙> ( Use <Nicknames> for this < track >)" 이것에 대해 - 사용
플레이목록화( PLAYLISTING )
정적 플레이목록( Static Playlists )
새로운 플레이 목록(New Playlist) "뉴 플레이리스트" <아우어 파리지엔 어드벤쳐(Our Parisian Adventure)> 새로운 플레이 목록
플레이 목록에 추가 "애드 투(Add to)"<아우어 파리지엔 어드벤쳐(Our Parisian Adventure)> 추가
플레이 목록으로부터 삭제 "딜리트 후럼(Delete From" <아우어 파리지엔 어드벤쳐(Our Parisian Adventure)> 삭제
단일-사실적 기준 자동-플레이목록( Single - Factual Criterion Auto - Playlist )
아티스트 플레이(Artist Play) "플레이 아티스트(Play Artist)" <벡(Beck)> 플레이 아티스트
작곡자 플레이(Composer Play) "플레이 컴포저(Play Composer)"<스트라빈스키(Stravinsky)> 플레이 작곡자
연도 플레이(Year Play) "플레이 이어(Play Year)"<1996> 플레이 연도
단일-기술적 기준 자동-플레이목록( Single - Descriptive Criterion Auto - Playlists )
장르 플레이(Genre Play) "플레이 장르/스타일 <빅 밴드 (Play Genre/Style <Big Band>) 플레이 장르
연대 플레이(Era Play) "플레이 이어러/데케이드 <80's>(Play Era/Decade <80's>) 플레이 연대
아티스트 타입 플레이(Artist Type Play) "플레이 아티스트 타입 <휘메일 솔로>(Play Artist Type <Female Solo>) 플레이 아티스트 타입
지역 플레이(Region Play) "플레이 리전 <자메이카>(Play Region <Jamaica>) 플레이 지역
배포일 순서로 플레이(Play in Release Date Order) "플레이 <밥 딜런> 인 <릴리이즈 데이트> 오더(Play <Bob Dylan> in <Release Date> Order) 순서대로 플레이(Play in Order)
최초 배포일 콘텐츠 플레이( Play Earliest Release Date Content ) "플레이 어얼리 < 비틀즈 >( Play Early < Beatles >) 플레이 초기( Play Early )
인텔리 믹스 인텔리믹스 포커스 불일치( IntelliMix and IntelliMix Focus Variations )
트랙 인텔리믹스(Track IntelliMix) "모어 라이크 디스(More Like This)" 이것과 더욱 같은
앨범 인텔리믹스(Album IntelliMix) "모어 라이크 디스 앨범(More Like This Album) 이 앨범과 더욱 같은
아티스트 인텔리믹스(Artist IntelliMix) "모어 라이크 디스 아티스트(More Like This Artist)" 이 아티스트와 더욱 같은
장르 인텔리믹스(Genre IntelliMix) "모어 라이크 디스 장르(More Like This Genre)" 이 장르와 더욱 같은
지역 인텔리믹스(Region IntelliMix) "모어 라이크 디스 리전(More Like This Region)" 이 지역과 더욱 같은
"나머지 플레이( Play The Rest )
앨범으로부터 더(More from Album) "플레이 디스 앨범(Play This Album)" 이 앨범 플레이
아티스트로부터 더(More from Artist) "플레이 디스 아티스트(Play This Artist)" 이 아티스트 플레이
장르로부터 더(More from Genre) "플레이 디스 장르(Play This Genre)" 이 장르 플레이
현재 자동 플레이목록 편집/조정( Edit / Adjust Current Auto - Playlist )
더 오래된 노래들 플레이( Play Older Songs ) " 올더 ( Older )" 더 오래된 것
좀 더 대중적인 것 플레이( Play More Popular ) "모어 파퓰러 ( More Popular )" 좀 더 대중적인 것
새로운 자동 플레이목록 정의/생성 & 플레이( Define / Generate & Play New Auto - Playlist )
10년/장르 자동 PL(Decade/Genre Auto PL) "뉴 믹스(New Mix)" <70's 펑크(70's Funk)> 새로운 믹스
출처/장르 자동 PL(Origin/Genre Auto PL) "뉴 믹스(New Mix)" <후렌치 엘렉트로니카(French Electronica)> 새로운 믹스
타입/장르 자동 PL(Type/Genre Auto PL) "뉴 믹스(New Mix)" <휘메일 싱어-송라이터즈(Female Singer-Song writers)> 새로운 믹스
자동 플레이목록 정의 저장( Save Auto - Playlist Definition )
사용자 정의된 자동 PL 저장(Save User-Defined Auto PL) "세이브 믹스 애즈(Save Mix As) <다시즈 파티 믹스(Darcy's Party Mix)> 믹스 저장
고정된 PL로 자동 PL 결과를 저장(Save Auto-PL Results as Fixed PL) "세이브 플레이리스트 애즈(Save Playlist As)" <다시즈 파티 믹스(Darcy's Party Mix)> 플레이목록 저장
저장된 자동 플레이목록 정의 리믹스 /플레이( Re - Mix / Play Saved Auto - Playlist Definition )
사용자 정의된 자동 PL 플레이(Play User-Defined Auto PL) "플레이 믹스(Play Mix)"<다시즈 파티 믹스(Darcy's Party Mix)> 믹스 플레이
사전 설정된 자동 PL 플레이(Play Preset Auto PL) "플레이 믹스(Play Mix)"<락온 두드(Rock On, Dude)> 믹스 플레이
명시적인 등급( Explicit Rating )
트랙 등급 "레이팅 9(Rating 9)" 등급
앨범 등급(Rate Album) "레이트 앨범 7(Rate Album 7)" 앨범 등급
아티스트 등급(Rate Artist) "레이트 아티스트 0(Rate Artist 0)" 아티스트 등급
년도 등급(Rate Year) "레이트 이어 10(Rate Year 10)" 년도 등급
지역 등급(Rate Region) "레이트 리전 4(Rate Region 4)" 지역 등급
사용자 프로필 변경( Change User Profile )
사용자 변경( Change User ) " 사인 인 <사만다>( Sign In < Samantha >)" 사인 인
( 콤보 프로필용) 사용자 추가( Add User (for combo profiles )) " 올쏘우 사인 인 < 이반 > ( Also Sign In < Evan >)" 또한 사인 인
기술자 할당( Descriptor Assignment )
아티스트 기술자 편집( it Artist Descriptor ) " 디스 아티스트 오리진 <브라질>( This Artist Origin <Brazil>)" 아티스트 출처
앨범 기술자 편집( Edit Album Descriptor ) " 디스 앨범 이어러 <50's>( This Album Era <50's>)" 이 앨범 연대
노래 기술자 편집( Edit Song Descriptor ) " 디스 송 장르 <랙타임> ( This Song Genre <Ragtime>)" 이 노래 장르
아티스트 유사성 할당( sign Artist Similarity ) " 디스 아티스트 시밀러 <닉 드레이크> ( This Artist Similar < Nick Drake >)" 아티스트 유사
앨범 유사성 할당( Assign Album Similarity ) " 디스 앨범 시밀러 < 브라이터 레이터 > ( This Album Similar < Bryter Layter >)" 이 앨범 유사
노래 유사성 할당( Assign Song Similarity ) " 디스 시밀러 <첼로 송> ( This Song Similar <Cello Song >)" 이 노래 유사
사용자 정의된 플레이목록 기준 생성( Create User Defined Playlist Criteria ) " 크리에이트 태그 < 래디컬 !> ( Create Tag <Radical!>)" 태그 생성
사용자 정의된 PL 기기준 할당( Assign User-Defined PL Criteria ) "태그 < 래디컬 !> ( Tag < Radical !>)" 태그
제거( Banishing )
모든 재생에서 트랙 제거(Banish Track from all Playback) "네버 어게인(Never Again)" 다시 하지 않음
모든 자동 PL에서 앨범 제거 "배니쉬 앨범(Banish Album) 제거
특정 자동 PL에서 아티스트 제거 "배니쉬 아티스트 후럼 믹스(Banish Artist from Mix) 믹스로부터 제거
제 3자 콘텐츠 연결(3 rd PARTY CONTENT LINKING )
관련 콘텐츠 요구( Related Content Request )
리뷰 듣기(Hear Review) "리뷰(Review)" 리뷰
약력 듣기(Hear Bio) "바이오(Bio)" 약력
콘서트 정보 듣기(Hear Concert Info) "투어(Tour)" 투어
상거래( Commerce )
트랙 다운로드(Download Track) "다운로드 트랙(Download Track)" 다운로드 트랙
앨범 다운로드(Download Album) "다운로드 앨범(Download Album)" 다운로드 앨범
티켓 구매(Buy Ticket) "바이 티겟(Buy Ticket)" 티겟 구매
내비게이션( NAVIGATION )
다중 소스 (예를 들어, 로컬 파일, 디지털 AM / FM , 위성 라디오, 인터넷 라디오) 서치( Multi -Source (e.g. Local files , Digital AM / FM , Satellite Radio , Internet Radio ) Search )
소스간 아티스트 내비게이션(Inter-Source Artist Nav) "화인드 아티스트<후랭크 시나트라> (Find Artist <Frank Sinatra>)" 아티스트 찾기
소스간 장르 내비게이션(Inter-Source Genre Nav) "화인드 장르<레게> (Find Genre <Reggae>)" 장르 찾기
유사 콘텐츠 둘러보기( Similar Content Browsing )
유사 아티스트 둘러보기(lar Artist Browse) "화인드 시밀러 아티스츠(Find Similar Artists) 유사 아티스트 찾기
유사 장르 둘러보기(Similar Genre Browse) "화인드 시밀러 장르즈(Find Similar Genres) 유사 장르 찾기
유사 플레이목록 둘러보기(Similar Playlist Browse) "화인드 시밀러 플레이리스츠(Find Similar Playlists) 유사 플레이목록 찾기
TTS 카테고리 이름 목록을 통해 둘러보기( Browsing via TTS Category Name Listing )
장르 계층 내비게이션(Genre Hierarchy Nav) "브라우즈 <째즈> <앨범즈> (Browse <Jazz> <Albums>)" 둘러보기
연대 계층 내비게이션(Era Hierarchy Nav) "브라우즈 <60's><트랙스> (Browse <60's> <Tracks>)" 둘러보기
출처 계층 내비게이션(Origin Hierarchy Nav) "브라우즈 <아프리카><아티스츠> (Browse <Africa> <Artists>)" 둘러보기
년대/장르 계츨 내비게이션(Era / Genre Hierarchy Nav) "브라우wm<40's><째즈><아티스츠> (Browse <40's> <Jazz> <Artists>)" 둘러보기
상위 카테고리 둘러보기(Browse Parent Category) "업 레벨(Up Level)" 업 레벨
하위 카테고리 둘러보기(Browse Child Category) "다운 레벨(Down Level)" 다운 레벨
사전 설정된 플레이목록 내비게이션(Pre-Set Playlist Nav) "브라우즈 프리셋즈(Browse Pre-Sets)" 둘러보기
자동 플레이목록 내비게이션(Auto-Playlist Nav) "브라우즈 플레이리스츠(Browse Playlists)" 둘러보기
자동 플레이목록 카테고리 내비게이션(Auto-Playlist Category Nav) "브라우즈 드라이빙 플레이리스츠(Browse Driving Playlists)" 둘러보기
유사 출처 내비게이션(Similar Origin Nav) "브라우즈 시밀러 리전스(Browse Similar Regions)" 둘러보기
유사 아티스트 내비게이션(lar Artists Nav) "브라우즈 시밀러 아티스츠(Browse Similar Artists)" 둘러보기
4-2차 오디오 프리뷰 목록을 통해 둘러보기( Browsing via 4- Second Audio Preview Listing )
장르 트랙 클립 스캔(e Track Clip Scan) "스캔 모타운(Scan Motown)" 스캔
아티스트 트랙 클립 스캔(st Track Clip Scan) "스캔 핑크 플로이드(Scan Pink Floyd)" 스캔
출처 트랙 클립 스캔(Origin Track Clip Scan) "스캔 이탤리(Scan Italy)" 스캔
사전 설정된 자동 PL 클립 스캔(Pre-Set Auto PL Clip Scan) "스캔 프리셋 <선데이 모닝>(Scan Pre-Set <Sunday Morning>)" 스캔
유사 트랙 스캔(Similar Tracks Scan) "스캔 시밀러 트랙스(Scan Similar Tracks)" 스캔
추천( RECOMENDATIONS )
트랙 추천(Track Recommendations) 서제스트 모어 트랙스(Suggest More Tracks) 더 많은 트랙 제안
앨범 추천(Album Recommendations) 서제스트 모어 앨범즈(Suggest More Albums) 더 많은 앨범 제안
아티스트 추천(Artist Recommendations) 서제스트 모어 아티스츠(Suggest More Artists) 더 많은 아티스트 제안
테이블 1: 예시적인 음성 명령
도 4를 참조하면, 예시적인 미디어 데이터 구조(400)가 도시되어 있다. 예시적인 실시예에 있어서, 미디어 데이터 구조(400)는 미디어 항목(218)(도 1 및 도 2 참조)과 같은 미디어 콘텐츠에 대한 미디어 메타데이터(130,220)를 표시하기 위해 사용될 수 있다. 미디어 데이터 구조(400)는 미디어 타이틀 어레이(402)를 구비한 제 1 필드, 주요 아티스트 어레이(404)를 구비한 제 2 필드, 및 트랙 어레이(406)를 구비한 제 3 필드를 포함할 수 있다.
미디어 타이틀 어레이(402)는 미디어 타이틀(예를 들어, 앨범의 타이틀, 영화의 타이틀, 및 텔레비전쇼의 타이틀)의 공식적인 표시 및 하나 이상의 대안적인 표시를 포함할 수 있다. 주요 아티스트 어레이(404)는 주요 아티스트 이름(예를 들어, 밴드 이름, 프로덕션 회사의 이름, 및 주요 배우의 이름)의 공식적인 표시 및 하나 이상의 대안적인 표시를 포함할 수 있다. 트랙 어레이(406)는 미디어 타이틀에 대한 하나 이상의 트랙(예를 들어, 앨범의 디지털 오디오 트랙, 텔레비전쇼의 에피소드, 및 영화 속의 장면)을 포함할 수 있다.
예시적인 방법으로, 미디어 타이틀 어레이(402)는 "레드 제플린 IV", "조소(Zoso)", 및 "언타이틀(Untitled)"을 포함할 수 있으며, 주요 아티스트 어레이(404)는 "레드 제플린" 및 "더 뉴 야드버즈(The New Yardbirds)"를 포함할 수 있으며, 또한 트랙 어레이(406)는 "블랙 도그(Black Dog)", "록앤롤", "더 배틀 오브 에버모어(The Battle of Evermore)", "스테어웨이 투 헤븐", "미스티 마운틴 홉("Misty Mountain Hop)", "훠 스틱스(Four Sticks)", "고잉 투 캘리포니아", 및 "휀 더 레비 브레이크스(When the Levee Breaks)"를 포함할 수 있다.
예시적인 실시예에서, 미디어 데이터 구조(400)는 온라인 또는 로컬 네트워크 상에서 성공적인 룩업 이벤트를 통해 검색될 수 있다. 예를 들어, 미디어 기반의 룩업(예를 들어, CD 기반의 룩업 및 DVD 기반의 룩업)은 미디어 항목 상의 모든 트랙에 대한 정보를 제공하는 미디어 데이터 구조(400)를 리턴할 수 있으며, 반면에 파일 기반의 룩업은 인식된 트랙에 대한 정보만을 제공하는 미디어 데이터 구조(400)를 리턴할 수 있다.
도 5를 참조하면, 예시적인 트랙 데이터 구조(500)가 도시되어 있다. 예시적인 실시예에서, 트랙 어레이(406)(도 4 참조)의 각각의 요소(element)는 트랙 데이 터 구조(500)를 포함할 수 있다.
트랙 데이터 구조(500)는 트랙 타이틀 어레이(502)를 구비한 제 1 필드 및 트랙 주요 아티스트 이름 어레이(504)를 구비한 제 2 필드를 포함할 수 있다. 트랙 타이틀 어레이(502)는 트랙 타이틀의 공식적인 표시 및 하나 이상의 대안적인 표시를 포함할 수 있다. 트랙 주요 아티스트 이름 어레이(504)는 트랙의 주요 아티스트 이름의 공식적인 표시 및 하나 이상의 대안적인 표시를 포함할 수 있다.
도 6을 참조하면, 예시적인 명령 데이터 구조(600)가 도시되어 있다. 명령 데이터 구조(600)는 명령 어레이(602)를 구비한 제 1 필드 및 제공자 이름 어레이(604)를 구비한 제 2 필드를 포함할 수 있다. 예시적인 실시예에서, 명령 데이터 구조(600)는 음성 인식 및 합성 장치(300)(도 3 참조)와 함께 사용되는 음성 명령용으로 사용될 수 있다.
명령 어레이(602)는 명령(예를 들어, 내비게이션 제어 및 플레이목록에 대한 제어)의 공식적인 표시 및 하나 이상의 대안적인 표시를 포함할 수 있다. 제공자 이름 어레이(604)는 명령의 제공자의 공식적인 표시 및 하나 이상의 대안적인 표시를 포함할 수 있다. 예를 들어, 명령은 내비게이션, 플레이목록화(예를 들어, 음악의 하나 이상의 플레이목록의 생성 및/또는 사용), 플레이 제어(예를 들어, 플레이 또는 중지) 등을 실행할 수 있다.
도 7을 참조하면, 예시적인 텍스트 어레이 데이터 구조(700)가 도시되어 있다. 예시적인 실시예에 있어서, 미디어 타이틀 어레이 (402) 및/또는 주요 아티스트 어레이(404)(도 4 참조)는 텍스트 어레이 데이터 구조(700)를 포함할 수 있다. 예시적인 실시예에서, 트랙 타이틀 어레이(502) 및/또는 트랙 주요 아티스트 이름 어레이(504)(도 5 참조)는 텍스트 어레이 데이터 구조(700)를 포함할 수 있다. 예시적인 실시예에서, 명령 어레이(602) 및/또는 제공자 이름 어레이(604)(도 6 참조)는 텍스트 어레이 데이터 구조(700)를 포함할 수 있다.
예시적인 텍스트 어레이 데이터 구조(700)는 공식적인 표시 플래그(flag)(702)를 구비한 제 1 필드, 디스플레이 텍스트(704)를 구비한 제 2 필드, 문자 언어 식별(written language identification(ID))(706)을 구비한 제 3 필드, 및 음성 전사 어레이(708)을 구비한 제 4 필드를 포함할 수 있다.
공식적인 표시 플래그(702)는 텍스트 어레이 데이터 구조(700)가 음성 전사의 공식적인 표시(예를 들어, 공식적인 음성 전사)를 표시하는지 또는 음성 전사의 대안적인 표시(예를 들어, 대안적인 음성 전사)를 표시하는지를 나타내기 위한 텍스트 어레이 데이터 구조(700)용 플래그를 제공할 수 있다. 예를 들어, 플래그는 타이틀 또는 이름이 공식적인 이름임을 나타낸다.
예시적인 실시예에서, 공식적인 음성 전사는 텍스트 스트링의 정확한 발음의 음성 전사일 수 있다. 예시적인 실시예에서, 대안적인 음성 전사는 텍스트 스트링의 공통적인 틀린 발음(mispronunciation) 또는 대안적인 발음일 수 있다. 대안적인 음성 전사는, 사용자 오류로 인하여 발생할 수 있는 것과 같은, 텍스트 스트링의 공통적인 비표준 발음의 음성 전사(예를 들어, 부정확한 발음의 음성 전사)를 포함할 수 있다. 대안적인 음성 전사는 또한, 정확한 발음에 대한 지역적 언어, 현지 방언, 현지 관습의 불일치(variance) 및/또는 일반적인 명확성의 결여로 인하여 발생하는 텍스트 스트링의 공통적인 비표준 발음의 음성 전사(예를 들어, 대안적인 발음의 음성 전사)를 포함할 수 있다.
예시적인 실시예에서, 공식적인 표시는 일반적으로 공식적으로 배포된 미디어 상에 나타나거나 및/또는 편집에 의해 결정되는 텍스트와 연관될 수 있다. 예를 들어, 공식적인 아티스트 이름, 앨범 타이틀, 및 트랙 타이틀은 통상적으로 배포된 미디어의 최초 패키징(original packaging) 상에서 찾을 수 있다. 예시적인 실시예에서, 공식적인 표시는, 아티스트가 경력을 쌓는 도중에 공식적인 이름을 변경한 경우(예를 들어, 프라이스와 존 멜렌캠프(Price and John Mellencamp)), 하나의 표준화된 이름(single normalized name)일 수 있다.
예시적인 실시예에서, 대안적인 표시는, 아티스트 이름, 앨범 타이틀, 트랙 타이틀, 장르명, 아티스트 출처(origin), 및 아티스트 연대 기술(era description)과 연관될 수 있는 바와 같은, 별명, 숏 네임(줄여 부르는 이름: short name), 공통적인 약칭(common abbreviation) 등을 포함할 수 있다. 이하에서 더욱 상세히 기술되는 바와 같이, 각각의 대안적인 표시는 디스플레이 텍스트를 포함할 수 있으며, 또한 선택 사양으로 하나 이상의 음성 전사를 포함할 수 있다. 예시적인 실시예에서, 음성 전사는 구두로 이루어진 인간의 언어에서 발생하는 사운드의 형상화를 텍스트로 디스플레이하는 것이 될 수 있다.
디스플레이 텍스트(704)는 인간 판독자(human reader)에게 디스플레이하기에 적합한 텍스트 스트링을 나타낼 수 있다. 디스플레이 텍스트(704)의 예는 아티스트 이름, 앨범 타이틀, 트랙 타이틀, 장르명 등과 연관된 디스플레이 스트링을 포함한 다.
문자 언어 ID(706)는 선택 사양으로 디스플레이 텍스트(704)의 출처 문자 언어를 나타낼 수 있다. 예시적인 방법으로, 문자 언어 ID(706)는 "로스 로운리 보이즈(Los Lonely Boys)"의 디스플레이 텍스트가 스페인어로 된 것임을 나타낼 수 있다.
음성 전사 어레이(708)는 다양한 구두 언어(예를 들어, 미국식 영어, 영국식 영어, 캐나다식 프랑스어, 스페인어, 및 일본어)로 된 음성 전사를 포함할 수 있다. 음성 전사 어레이(708)에 표시된 각각의 언어는 공식적인 발음의 언어 전사 및 하나 이상의 대안적인 발음의 음성 전사를 포함할 수 있다.
예시적인 실시예에서, 음성 전사 어레이(708) 또는 그 일부는 미디어 데이터베이스(126,210) 내의 음성 메타데이터(128,222)로서 저장될 수 있다.
예시적인 실시예에서, 음성 전사 어레이(708)의 음성 전사는 X-SAMPA 알파벳을 사용하여 저장될 수 있다. 예시적인 실시예에서, 음성 전사는 예를 들어 L&H+와 같은 또 다른 음성 알파벳으로 변환될 수 있다. 특정 음성 알파벳에 대한 지원은 소프트웨어 라이브러리 구축 구조(software library build configuration)의 일부로서 제공될 수 있다.
디스플레이 텍스트(704)는, 인식 이벤트에 앞서서 음성 인식 및 합성 장치(300)(도 3 참조)에 의해 제공되며 사용될 수 있는 사전을 생성함으로써 음성 전사 어레이(708)의 공식적인 음성 전사 및 대안적인 음성 전사와 연관될 수 있다. 예시적인 실시예에서, 디스플레이 텍스트(704) 및 연관된 음성 전사는 인식 이벤트 의 발생시에 제공될 수 있다.
음성 메타데이터(128,222)에 대해 공통적으로 틀리게 발음된 스트링의 대안적인 발음 또는 음성 이형체(variants)의 음성 전사가 제공될 수 있다. 대안적인 발음 또는 음성 이형체는 자소-음소 변환 기술을 사용하는 많은 평문 스트링을 처리하기 위해 자동화 음성 인식 엔진(112)을 수용하는데 사용될 수 있다. 그러나, 인식은 (아티스트 이름인 샤데이(Sade), 비욘세(Beyonce), 에이씨디씨(AC/DC), 311, 비-52에스(B-52s), 알.이.엠.(R.E.M.) 등과 같은) 몇 가지 주목할만한 예외에 대해서는 문제가 될 수 있다. 추가적으로 또는 그 대신에, 일 실시예가 사용자에 의해 공통적으로 틀리게 발음된 이름에 대한 음성 이형체를 포함할 수 있다. 예를 들면, (예를 들어, 세이드(
Figure 112008019151278-PCT00001
)로 틀리게 발음된) 샤데이, (예를 들어, 비얀스(
Figure 112008019151278-PCT00002
)로 틀리게 발음된) 비욘세, (예를 들어, 에노(
Figure 112008019151278-PCT00003
)로 틀리게 발음된) 브라이언 이노(Brian Eno)와 같은 아티스트가 있다.
예시적인 실시예에서, 아티스트의 이름으로 불리울 수 있어서, ASR 시스템에서 통상적으로 발견될 수 있는 경직성(rigidity)을 감소시키는 대안적인 이름의 음성 표시가 제공된다. 예를 들어, 콘텐츠는 "플레이 아티스트: 후랭크 시나트라," "플레이 아티스트: 올 블루 아이즈(Ol' Blue Eyes)," "플레이 아티스트: 더 체어맨 오브 더 보드(The Chairman of the Board)"라는 명령어가 모두 동등한 것으로 편집될 수 있다.
일련의 예시적인 방법에 의하면, 첫 번째 사용의 경우는 "비치 보이즈"라고 말하는 영어로 된 하나의 음성 전사를 가질 수 있는 비치 보이즈에 대한 것일 수 있다. (예를 들어, 별명에 대한) 두 번째 사용의 경우는 이름과 연관되어 별명, 즉 "제왕(The King)" 또는 "록큰롤의 제왕(King of Rock and Roll)"이라는 별명을 가진 엘비스 프레슬리에 대한 것일 수 있다. 별명에 대한 스트링은 각각 개별적인 텍스트 어레이 데이터 구조(700)를 가지며, 이와 연관된 음성 전사 어레이(708) 내에 공식적인 음성 전사를 갖는다. (예를 들어, 다수의 발음에 대한) 세 번째 사용의 경우는 아이슬리 브라더즈(Eisley Brothers)에 대한 것일 수 있다. 아이슬리 브라더즈는 아이슬리 브라더즈에 대한 제 1의 공식적인 음성 전사 및 음성 전사 어레이(708) 내에 이슬리 브라더즈(Isley Brothers)에 대한 제 2의 틀린 발음 전사를 갖는 단일 텍스트 어레이 데이터 구조(700)를 가질 수 있다.
상술한 예시에 추가하여, (예를 들어, 다수의 언어에 대한) 네 번째 사용의 경우는 스페인어로 된 음성 전사를 갖는 아티스트 로스 로보스(Los Lobos)가 될 수 있다. 미디어 데이터베이스(126) 내의 음성 메타데이터(128)는 스페인어로 저장될 수 있고, 따라서 음성 전사는 스페인어로 저장되어 태그될 수 있다. (예를 들어, 별명의 외국어 및 지역적 예외에 대한) 다섯 번째 사용의 경우는 중국에서 "마오 웅(Mao Wong)"이라는 엘비스 프레슬리의 별명과 같은 외국어 별명을 포함할 수 있다. 이러한 별명에 대한 음성 전사는 마오 웅으로 저장될 수 있으며, 음성 전사는 중국어와 연관될 수 있다. (예를 들어, 틀린 발음의 지역적 예외에 대한) 여섯 번째 사용의 경우는 에이씨디씨가 될 수 있다. 에이씨/디씨는 AC/DC인 영어로 된 연관된 공식적인 전사, 및 구두 언어가 프랑스어인 경우에 제공될 ACDC에 대한 프랑 스어 전사를 가질 수 있다.
도 8을 참조하면, 예시적인 음성 전사 데이터 구조(800)가 도시되어 있다. 예시적인 실시예에서, 음성 전사 어레이(708)(도 7 참조)의 각각의 요소는 음성 전사 데이터 구조(800)를 포함할 수 있다. 예를 들어, 음성 전사는 음성 전사 데이터 구조(800)를 포함할 수 있다.
음성 전사 데이터 구조(800)는 음성 전사 스트링(802)을 구비한 제 1 필드, 구두 언어 ID(spoken language ID)(804)를 구비한 제 2 필드, 출처 언어 전사 플래그(806)를 구비한 제 3 필드, 및 정확한 발음 플래그(8080)를 구비한 제 4 필드를 포함할 수 있다.
음성 전사 스트링(802)은 발음용으로 사용되는 음성 문자(phonetic characters)의 텍스트 스트링을 포함할 수 있다. 예를 들어, 음성 전사 스트링(802)은 ASR/TTS 시스템에 의해 사용하기에 적합할 수 있다.
예시적인 실시예에서, 음성 전사 스트링(802)은 원어민의 구두 언어(예를 들어, 음성 전사 스트링(802)의 출처 언어)로 미디어 데이터(126) 내에 저장될 수 있다.
예시적인 실시예에서, 음성 문자의 스트링에 사용되는 알파벳은 ASR 및/또는 TTS 시스템의 특정 문자 코드로 번역될 수 있는 일반 음성 언어(예를 들어, X-SAMPA)로 저장될 수 있다. 예시적인 실시예에서, 음성 문자의 스트링에 사용되는 알파벳은 L&H+일 수 있다.
구두 언어 ID(804)는 선택 사양으로 음성 전사 스트링(802)의 출처 구두 언 어를 나타낼 수 있다. 예를 들어, 구두 언어 ID(804)는 음성 전사 스트링(802)이 구두 언어 ID(804)에 의해 식별되는 언어의 스피커(speaker)가 연관된 디스플레이 텍스트(704)(도 7 참조)를 어떻게 발성하는지를 캡처하는 것을 나타낼 수 있다.
출처 언어 전사 플래그(806)는 전사가 디스플레이 텍스트(704)(도 7 참조)의 문자 언어 ID(706)에 대응하는지의 여부를 나타낼 수 있다. 예시적인 실시예에서, 음성 전사가 디스플레이 텍스트(704)와 동일한 언어로 이루어진 경우, 음성 전사는 출처 언어(예를 들어, 스트링이 구두로 이루어지는 언어)로 이루어질 수 있다.
정확한 발음 플래그(808)는 음성 전사 스트링(802)이 구두 언어 ID(804)에 의해 식별되는 구두 언어로 정확한 발음을 표시할 수 있는지의 여부를 나타낼 수 있다.
예시적인 실시예에서, 정확한 발음은 발음이 주어진 언어의 스피커들에 의해 일반적으로 정확한 것으로 받아들여지는 경우일 수 있다. 다수의 정확한 발음이 단일 디스플레이 텍스트(704)에 대해 존재할 수 있으며, 이 경우 이러한 각각의 발음은 주어진 구두 언어로 된 "정확한" 발음을 표시한다. 예를 들어, 영어로 "AC/DC"에 대한 정확한 발음은 프랑스어로 "AC/DC"의 정확한 발음(아세이데세이: ah say deh say)과는 상이한 음성 전사(에이씨디씨: ay see dee see)를 가질 수 있다.
예시적인 실시예에서, 틀린 발음은 발음이 주어진 언어의 스피커들에 의해 일반적으로 틀리게 발음된 것으로 받아들여지는 경우일 수 있다. 다수의 틀린 발음이 단일 디스플레이 텍스트(704)에 대해 존재할 수 있으며, 이 경우 이러한 각각의 발음은 주어진 구두 언어로 된 틀린 발음을 표시할 수 있다. 예를 들어, 부정확한 발음의 음성 전사는 틀린 발음이 사용자에 의한 틀린 발음의 발성이 비교적 유사하다고 보기에 충분할 정도로 공통적인 경우에 임베드형 애플리케이션에 제공될 수 있다.
예시적인 실시예에서, 표시(예를 들어, 아티스트 이름, 미디어 타이틀 등)를 위해 목적 구두 언어(target spoken language)로 (예를 들어, 정확한 발음과 틀린 발음에 대한) 음성 전사를 검색하기 위해서는, 표시의 음성 전사 어레이(708)(도 7 참조)가 자세히 확인되고(traverse), 목적 음성 전사 스트링(802)이 검색되며, 각각의 음성 전사에 대한 정확한 발음 플래그(808)가 쿼리될 수 있다.
예시적인 실시예에서, 디스플레이 텍스트(704), 음성 전사 어레이(708)의 음성 전사, 및 선택 사양으로 구두 언어 ID(804)를 포함하는 미디어 데이터 구조(400)로부터의 데이터가 음성 인식 및 합성 장치(300)(도 3 참조)용으로 문법(318) 및 사전(310) (및 선택 사양으로 기타 다른 사전들)을 채워주기(populate) 위해 사용될 수 있다.
도 9를 참조하면, 예시적인 대안 문구 맵퍼 데이터 구조(900)가 도시되어 있다. 대안 문구 맵퍼 데이터 구조(900)는 대안 문구(902)를 구비한 제 1 필드, 공식적인 문구 어레이(904)를 구비한 제 2 필드, 및 문구 타입(906)을 구비한 제 3 필드를 포함할 수 있다. 대안 문구 맵퍼 데이터 구조(900)는 대안 문구 맵퍼를 지원하기 위해 사용될 수 있으며, 대안 문구 맵퍼의 용도는 이하에서 상세히 기술된다.
대안 문구(902)는 공식적인 문구에 대한 대안 문구를 포함할 수 있으며, 여기서 문구는 아티스트 이름, 미디어 또는 트랙 타이틀, 장르명, (아티스트 타입, 아티스트 출처, 또는 아티스트 연대의) 기술(description) 등을 지칭할 수 있다. 공식적인 문구 어레이(904)는 대안 문구(902)와 연관된 하나 이상의 공식적인 문구를 포함할 수 있다.
예를 들어, 대안 문구는 공식적인 이름을 갖는 사람, 앨범, 노래, 장르, 또는 연대를 표시하는 것으로 공통적으로 알려진 별명, 숏 네임(short names), 약칭(abbreviation) 등을 포함할 수 있다. 기여자(contributor)의 대안적인 이름은 별명, 숏 네임, 롱 네임(long names), 탄생시 이름(birth names), 두문자어(acronyms), 및 이니셜을 포함할 수 있다. 장르 대안명은 공식적인 이름이 "알앤비(R&B)"인 "리듬 앤 블루스"를 포함할 수 있다. 각각의 아티스트 이름, 앨범 타이틀, 트랙 타이틀, 장르명, 및 연대의 기술은 예를 들어 잠재적으로 그 공식적인 표시(예를 들어, 대안 문구에 대한 공식적인 음성 전사) 뿐만 아니라 하나 이상의 대안적인 표시(예를 들어, 대안 문구에 대한 대안 음성 전사)를 포함할 수 있다.
예시적인 실시예에 있어서, 대안 문구에 대한 음성 전사는 또 다른 이름(예를 들어, 별명, 약칭, 또는 탄생시 이름)을 지칭하는 대안적인 이름을 표시하는 텍스트 스트링의 음성 전사일 수 있다.
예시적인 실시예에 있어서, 대안 문구 맵퍼는 별도의 데이터베이스를 사용할 수 있으며, 각각의 성공적인 룩업이 이루어지면 대안 문구 맵퍼 데이터베이스는 대안 문구(만일 리턴된 미디어 데이터 내에 존재하는 경우)를 공식적인 문구로 맵핑하는 대안 문구 맵퍼 데이터 구조(900)로 자동적으로 채워질 수 있다.
예시적인 실시예에 있어서, 대안 문구에 대한 음성 전사는 사용자가 공식적 인 문구 대신에 입력으로서 대안 문구를 말하도록 실행하는 음성 인식 및 합성 장치(300)(도 3 참조)의 사전 엔트리(dictionary entry)(320) 내의 사전들(예를 들어, 기여자 음성 사전 및/또는 장르 음성 사전)으로서 저장될 수 있다. 사전을 사용하면, ASR 엔진(314)이 구두 입력(116)을 사전들 중 하나로부터 정확한 디스플레이 텍스트(704)(도 7 참조)에 매칭되도록 실행할 수 있다. 그 후 ASR 엔진(314)으로부터의 텍스트 명령(316)은 VOCs 애플리케이션층(124) 및/또는 플레이목록 애플리케이션층(122)과 같은 애플리케이션층으로 추가적인 프로세스를 위해 제공될 수 있다(도 1 및 도 3 참조)
문구 타입(906)은 미디어 데이터 구조(400)(도 4 참조)에 대응될 수 있는 바와 같은, 문구의 타입을 포함할 수 있다. 예를 들어, 문구 타입(906)의 값은 아티스트 이름, 앨범 타이틀, 트랙 타이틀, 및 명령을 포함할 수 있다.
도 10을 참조하면, 예시적인 실시예에 따른 데이터베이스 상의 음성 메타데이터(122,222)를 관리하는 방법(1000)이 도시되어 있다. 예시적인 실시예에 있어서, 데이터베이스는 미디어 데이터베이스(126,210)(도 1 및 도 2 참조)를 포함할 수 있다.
데이터베이스는 블록(1002)에서 액세스될 수 있다. 결정 블록(1004)에서, 음성 메타데이터(128,222)가 변경될지의 여부에 대한 결정이 이루어질 수 있다. 음성 메타데이터(128,222)가 변경될 경우, 음성 메타데이터(222)는 블록(1006)에서 변경된다. 음성 메타데이터(222)를 변경하는 예시적인 실시예는 이하에서 상세히 기술된다. 음성 메타데이터(128,222)가 결정 블록(1004)에서 또는 블록(1006) 이후에 변경되지 않을 경우, 본 발명의 음성 메타데이터(122,222) 관리 방법(1000)은 결정 블록(1008)으로 진행한다.
메타데이터(예를 들어, 음성 메타데이터(128,222) 및/또는 미디어 메타데이터(130,220))가 데이터베이스로부터 제공되어야 하는지의 여부에 대한 결정이 결정 블록(1008)에서 이루어질 수 있다.
메타데이터가 제공되어야 하는 경우, 메타데이터는 블록(1010)에서 데이터베이스로부터 제공된다. 예시적인 실시예에서, 메타데이터를 제공하는 단계는 데이터에 대한 요구된 메타데이터를 로컬 라이브러리 데이터베이스(118)(도 1 참조)로 제공하는 단계를 포함할 수 있다.
예시적인 실시예에서, 지역적 음성 전사에 대한 음성 메타데이터(128)는 데이터베이로부터 및/또는 데이터베이스로 제공될 수 있으며, 목적 지역의 원어민의 구두 언어(native spoken language)로 저장될 수 있다.
예시적인 실시예에서, 블록(1010)에서 메타데이터를 제공하는 단계는 액세스가능한 디지털 오디오 트랙을 결정하고, 음성 인식 및 합성 장치(300)(도 3 참조)로 기여자/아티스트 음성 사전 및 일반적인 음성 사전을 생성하기 위해 임베드형 애플리케이션의 음악 라이브러리를 분석하는 단계를 포함할 수 있다. 예를 들어, 블록(1010)에서, 주어진 애플리케이션에 대해 지원될 수 있는 모든 연관된 구두 언어에 대한 음성 메타데이터(128,222)가 임베드형 애플리케이션에 의해 사용되도록수신되어, 저장될 수 있다.
메타데이터가 결정 블록(1008)에서 또는 블록(1010) 이후에 제공되지 않는 경우, 본 발명의 음성 메타데이터(122,222) 관리 방법(1000)은 종료할지의 여부를 결정하도록 결정 블록(1012)으로 진행한다. 본 발명의 음성 메타데이터(122,222) 관리 방법(1000)이 동작을 계속하여야 하는 경우, 본 발명의 음성 메타데이터(122,222) 관리 방법(1000)은 결정 블록(1004)으로 리턴되고, 그렇지 않은 경우, 본 발명의 음성 메타데이터(122,222) 관리 방법(1000)은 종료된다.
예시적인 실시예에서, 메타데이터는, 임베드형 애플리케이션을 실행하는 디바이스 내의 CD를 관련시킴으로써 임베드형 애플리케이션에 의한 액세스용 파일을 업로드하고, 음악 내비게이션에 대한 명령 데이터가 획득되는 등과 같은 인식 이벤트가 발생할 때마다, 블록(1010)에서 실시간으로(in real-time) 제공될 수 있다. 예시적인 실시예에서, 음성 메타데이터(128,222)를 동적으로 제공하는 단계는 임베드형 애플리케이션 내의 데이터를 매칭시키기 위한 서치 시간(search time)을 감소시킬 수 있다.
예시적인 실시예에서, 대안 문구 맵퍼에 의해 사용되는 대안 문구 데이터는 블록(1010)에서 음성 메타데이터(128,222)와 동일한 방식으로 제공될 수 있다. 예를 들어, 대안 문구 데이터는 자동적으로 성공적인 룩업에 의해 리턴되는 미디어 메타데이터(130,220)의 일부일 수 있다.
도 11을 참조하면, 예시적인 실시예에 따른 데이터베이스의 음성 메타데이터를 변경하는 방법(1100)이 도시되어 있다. 본 발명의 데이터베이스의 음성 메타데이터 변경 방법(1100)은 블록(1002)(도 10 참조)에서 수행될 수 있다. 예시적인 실시예에서, 데이터베이스는 미디어 데이터베이스(126,210)(도 1 및 도 2 참조)를 포 함할 수 있다. 스트링은 블록(1102)에서 이를테면 미디어 메타데이터(220)의 필드들 내에 포함된 복수의 스트링들 중에서부터 액세스될 수 있다. 예시적인 실시예에서, 스트링은 미디어 항목(218)(도 2 참조)의 특징(aspect)을 기술할 수 있다. 예를 들어, 스트링은 미디어 타이틀 어레이(402)의 미디어 타이틀의 표시, 주요 아티스트 이름 어레이(404)의 주요 아티스트 이름의 표시, 트랙 타이틀 어레이(502)의 트랙 타이틀의 표시, 트랙 주요 아티스트 이름 어레이(504)의 주요 아티스트 이름의 표시, 명령 어레이(602)의 명령의 표시, 및/또는 제공자 이름 어레이(604)의 제공자의 표시일 수 있다.
결정 블록(1104)에서, 문자 언어 ID(706)(도 7 참조)가 스트링에 할당되어야하는지의 여부에 대한 결정이 이루어질 수 있다. 본 발명의 데이터베이스의 음성 메타데이터 변경 방법(1100)이 스트링의 문자 언어 ID(706)가 할당되어야 한다고 결정하는 경우, 스트링의 문자 언어 ID(706)는 블록(1106)에서 할당된다. 예시적인 방법으로, 셀린 디온(Celine Dion)은 캐나다식 프랑스어의 구두 언어가 할당될 수 있으며, 로스 로보스(Los Lobos)는 스페인어의 구두 언어가 할당될 수 있다.
예시적인 실시예에서, 스트링을 문자 언어 ID(706)와 연관시키는 결정은 콘텐츠 편집자에 의해 이루어질 수 있다. 예를 들어, 스트링을 문자 언어와 연관시키는 결정은 이를테면 미디어-관련 웹사이트(예를 들어, AllMusic.com 및 Wikipedia.com)로부터 스트링에 관한 이용가능한 정보(available information)를 액세스함으로써 이루어질 수 있다.
본 발명의 데이터베이스의 음성 메타데이터 변경 방법(1100)이 결정 블 록(1104)에서 또는 블록(1106) 이후에 (예를 들어, 스트링이 이미 할당된 정확한 문자 언어를 구비하기 때문에) 스트링의 문자 언어가 할당되지 않아야 하거나 및/또는 재할당되지 않아야 하는 것으로 결정하는 경우, 본 발명의 데이터베이스의 음성 메타데이터 변경 방법(1100)은 결정 블록(1108)으로 진행한다.
블록(1106)에서의 동작이 완료되면, 본 발명의 데이터베이스의 음성 메타데이터 변경 방법(1100)은, 이를테면 스트링의 구두 언어로 음성 전사를 생성하는 프로세스를 사용하는 자동화 소스(automated source)를 통해서, 공식적인 음성 전사를 스트링에 할당할 수 있다.
본 발명의 데이터베이스의 음성 메타데이터 변경 방법(1100)은 결정 블록(1108)에서 스트링에 대한 공식적인 음성 전사에 대해 액션(action)이 취해져야 하는지의 여부를 결정할 수 있다. 예를 들어, 공식적인 음성 전사는 음성 전사 어레이(708)(도 7 참조)와 함께 보유될 수 있다. 만일 액션이 스트링에 대한 공식적인 음성 전사 내에서 취해져야 하는 경우, 스트링에 대한 공식적인 음성 전사가 블록(1110)에서 생성되고, 수정되며, 및/또는 삭제될 수 있다. 결정 블록(1108)에서 또는 블록(1110) 이후에, 만일 액션이 스트링에 대한 공식적인 음성 전사에 대해 취해지지 않아야 하는 경우, 본 발명의 데이터베이스의 음성 메타데이터 변경 방법(1100)은 결정 블록(1112)으로 진행한다.
결정 블록(1112)에서, 본 발명의 데이터베이스의 음성 메타데이터 변경 방법(1100)은 액션이 하나 이상의 대안 음성 전사에 대해 취해져야 하는지의 여부를 결정할 수 있다. 예를 들어, 하나 이상의 대안 음성 전사는 음성 전사 어레이(708) 와 함께 보유될 수 있다. 만일 액션이 스트링에 대한 대안 음성 전사에 대해 취해져야 하는 경우, 스트링에 대한 대안 음성 전사는 블록(1114)에서 생성, 수정 및/또는 삭제될 수 있다. 결정 블록(1112)에서 또는 블록(1114) 이후에, 만일 스트링에 대한 대안 음성 전사에 대해 액션이 취해지지 않아야 하는 경우, 본 발명의 데이터베이스의 음성 메타데이터 변경 방법(1100)은 결정 블록(1116)으로 진행한다.
예시적인 실시예에서, 대안 음성 전사는 스트링의 비출처 언어(non-origin languages)에 대해 생성될 수 있다.
예시적인 실시예에서, 대안 음성 전사는 스트링이 구두로 말해질 수 있는 각각의 구두 언어에 대해 생성되지 않는다. 오히려, 대안 음성 전사는 대안 음성 전사가 구두 언어의 스피커에게 부정확하게 들리는 구두 언어에 대해서만 생성될 수 있다.
본 발명의 데이터베이스의 음성 메타데이터 변경 방법(1100)은 결정 블록(1116)에서 추가 액세스가 요구되는지의 여부를 결정할 수 있다. 예를 들어, 추가 액세스는 현재 스트링 및/또는 또 다른 스트링에 제공될 수 있다. 만일 추가 액세스가 요구되는 경우, 본 발명의 데이터베이스의 음성 메타데이터 변경 방법(1100)은 블록(1102)으로 리턴한다. 만일 결정 블록(1116)에서 추가 액세스가 요구되지 않는 경우, 본 발명의 데이터베이스의 음성 메타데이터 변경 방법(1100)은 종료된다.
예시적인 실시예에서, 음성 전사는 지원된 언어로 편집 리뷰(editorial review)를 받을 수 있다. 예를 들어, 영어 스피커는 영어로 된 음성 전사를 들을 수 있다. 전사가 영어로 저장되지 않은 경우, 영어 스피커는 비영어로 저장되며 영어로 번역된 음성 전사를 들을 수 있다. 영어 스피커는 이를테면 음성 전사에 대한 지역화된 예외로 대체될 필요가 있는 음성 전사를 식별할 수 있다.
도 12를 참조하면, 예시적인 실시예에 따른 애플리케이션과 함께 메타데이터를 사용하는 방법(1200)이 도시되어 있다. 예시적인 실시예에서, 애플리케이션은 임베드형 애플리케이션일 수 있다. 따라서, 본 발명의 메타데이터 사용 방법(1200)은 모바일 MP3 플레이어, 카 오디오 시스템 등과 같은 임의의 오디오 설비 내에 배치되어 일체화될 수 있다.
메타데이터(예를 들어, 음성 메타데이터(128,222) 및/또는 미디어 메타데이터(130,220))는 블록(1202)에서 애플리케이션에 대해 구성 및 액세스될 수 있다(도 1 내지 도 3 참조). 애플리케이션에 대해 메타데이터를 구성 및 액세스하는 예시적인 실시예가 이하에서 상세히 기술된다.
예시적인 실시예에서, 메타데이터의 구성 및 액세스 후에, 미디어 항목에 대한 음성 메타데이터(128,222)를 제공하는 단계가 음성 합성으로 재생성(reproduce)될 수 있다. 예시적인 실시예에서, 메타데이터의 구성 및 액세스 후에, 음성 메타데이터(128,222) 및/또는 미디어 메타데이터(130,220)를 제공하는 단계가 미디어 항목의 액세스가 이루어지는 동안 제 3자의 디바이스에 제공될 수 있다.
본 발명의 메타데이터 사용 방법(1200)은 추가 미디어의 액세스 가능성(accessibility)에 기초하여 블록(1202)에서 메타데이터를 재액세스 및 재구성할 수 있다.
결정 블록(1204)에서, 본 발명의 메타데이터 사용 방법(1200)은 음성 인식을 실시할지의 여부를 결정한다. 만일 음성 인식이 실시되어야 하는 경우, 블록(1206)에서 음성 인식 및 합성 장치(300)(도 3 참조)에 의해 명령이 처리될 수 있다. 음성 인식으로 명령을 처리하는 방법의 예시적인 실시예가 이하에서 상세히 기술된다. 만일 결정 블록(1204)에서 또는 블록(1206) 이후에 음성 인식이 실시되지 않아야 하는 경우, 본 발명의 메타데이터 사용 방법(1200)은 결정 블록(1208)으로 진행한다.
본 발명의 메타데이터 사용 방법(1200)은 결정 블록(1208)에서 음성 합성을 실시할지의 여부를 결정한다. 만일 음성 합성이 실시되어야 하는 경우, 본 발명의 메타데이터 사용 방법(1200)은 블록(1210)에서 음성 인식 및 합성 장치(300)를 통해 출력 스트링을 제공할 수 있다. 음성 인식 및 합성 장치(300)에 의해 출력 스트링을 제공하는 방법의 예시적인 실시예가 이하에서 상세히 기술된다. 만일 결정 블록(1208)에서 또는 블록(1210) 이후에 음성 합성이 실시되지 않아야 하는 경우, 본 발명의 메타데이터 사용 방법(1200)은 결정 블록(1214)으로 진행한다.
결정 블록(1214)에서, 본 발명의 메타데이터 사용 방법(1200)은 종료할지의 여부를 결정한다. 만일 본 발명의 메타데이터 사용 방법(1200)이 추가로 동작하여야 하는 경우, 본 발명의 메타데이터 사용 방법(1200)은 결정 블록(1204)으로 리턴하고; 그렇지 않은 경우, 본 발명의 메타데이터 사용 방법(1200)은 종료된다.
도 13을 참조하면, 예시적인 실시예에 따른 애플리케이션에 대한 메타데이터를 액세스 및 구성하는 방법(1300)이 도시되어 있다. 예시적인 실시예에서, 애플리 케이션은 임베드형 애플리케이션일 수 있다. 본 발명의 메타데이터를 액세스 및 구성하는 방법(1300)은 예를 들어, 블록(1202)(도 12 참조)에서 수행될 수 있다.
결정 블록(1302)에서, 본 발명의 메타데이터를 액세스 및 구성하는 방법(1300)은 음악 메타데이터 및 연관된 음성 메타데이터(128,222)(도 1 및 도 2 참조)를 액세스 및 구성할지의 여부를 결정한다. 만일 음악 메타데이터 및 연관된 음성 메타데이터(128,222)가 액세스 및 구성되어야 하는 경우, 본 발명의 메타데이터를 액세스 및 구성하는 방법(1300)은 블록(1304)에서 음악 메타데이터 및 연관된 음성 메타데이터(128,222)를 액세스 및 구성할 수 있다. 미디어 메타데이터(130,220)(예를 들어, 음악 메타데이터)를 구성하는 예시적인 실시예가 이하에서 상세히 기술된다. 만일 결정 블록(1302)에서 또는 블록(1304) 이후에 음악 메타데이터 및 연관된 음성 메타데이터(128,222)가 액세스 및 구성되지 않아야 하는 경우, 본 발명의 메타데이터를 액세스 및 구성하는 방법(1300)은 결정 블록(1306)으로 진행한다.
결정 블록(1306)에서 본 발명의 메타데이터를 액세스 및 구성하는 방법(1300)은 내비게이션 메타데이터 및 연관된 음성 메타데이터(128,222)를 액세스 및 구성할지의 여부를 결정할 수 있다. 만일 내비게이션 메타데이터 및 연관된 음성 메타데이터(128,222)가 액세스 및 구성되어야 하는 경우, 본 발명의 메타데이터를 액세스 및 구성하는 방법(1300)은 블록(1308)에서 내비게이션 메타데이터 및 연관된 음성 메타데이터(128,222)를 액세스 및 구성할 수 있다. 미디어 메타데이터(130,220)(예를 들어, 내비게이션 메타데이터)를 구성하는 예시적인 실시예가 이 하에서 상세히 기술된다. 만일 결정 블록(1306)에서 또는 블록(1308) 이후에 내비게이션 메타데이터 및 연관된 음성 메타데이터(128,222)가 액세스 및 구성되지 않아야 하는 경우, 본 발명의 메타데이터를 액세스 및 구성하는 방법(1300)은 결정 블록(1310)으로 진행한다.
결정 블록(1310)에서 본 발명의 메타데이터를 액세스 및 구성하는 방법(1300)은 기타 다른 미디어 메타데이터 및 연관된 음성 메타데이터(128,222)를 액세스 및 구성할지의 여부를 결정할 수 있다. 만일 기타 다른 미디어 메타데이터 및 연관된 음성 메타데이터(128,222)가 액세스 및 구성되어야 하는 경우, 본 발명의 메타데이터를 액세스 및 구성하는 방법(1300)은 블록(1312)에서 기타 다른 미디어 메타데이터 및 연관된 음성 메타데이터(128,222)를 액세스 및 구성할 수 있다. 미디어 메타데이터(130,220)를 구성하는 예시적인 실시예가 이하에서 상세히 기술된다. 만일 결정 블록(1310)에서 또는 블록(1312) 이후에 기타 다른 미디어 메타데이터 및 연관된 음성 메타데이터(128,222)가 액세스 및 구성되지 않아야 하는 경우, 본 발명의 메타데이터를 액세스 및 구성하는 방법(1300)은 결정 블록(1314)으로 진행한다.
예시적인 실시에에서, 기타 다른 메타데이터는 플레이목록화 메타데이터를 포함할 수 있다. 예를 들어, 사용자들은 블록(1312)에서 코어 메타데이터의 일부에 대해 또는 음성 명령에 대해 자신의 발음 메타데이터를 입력할 수 있을 뿐만 아니라, 개인적 선호(personal preferences)에 기초하여 장르 유사성, 등급(ratings), 및 기타 다른 기술적인 정보(descriptive information)를 할당할 수 있다. 따라서, 사용자는 자신만의 장르를 생성하거나, 더 후(The Who) 항목을 "내가 좋아하는 밴드(마이 훼이버릿 밴드: My Favorite Band)"로 새이름을 붙이거나(rename), 또는 심지어 음성 명령에 대한 새로운 구문(syntax)을 설정할 수도 있다. 사용자들은 차량 내의 키보드 또는 스크롤 패드 인터페이스(scroll pad interface)를 사용하거나 또는 음성에 의해 관습 불일치를 말함으로써 여 관습 불일치를 수동방식으로 입력할 수 있다. 대안 솔루션은 사용자들이 관습 음성 불일치를 큰 소리로 한자씩 읽음으로써 관습 음성 불일치를 추가하는 것을 가능하게 해준다.
본 발명의 메타데이터를 액세스 및 구성하는 방법(1300)은 미디어 메타데이터(130,220) 및 연관된 음성 메타데이터(128,222)의 추가적인 액세스 및 구성이 결정 블록(1314)에서 요구되는지의 여부를 결정한다. 만일 추가적인 액세스 및 구성이 요구되는 경우, 본 발명의 메타데이터를 액세스 및 구성하는 방법(1300)은 결정 블록(1302)으로 리턴한다. 만일 결정 블록(1314)에서 추가적인 액세스 및 구성이 요구되지 않는 경우, 본 발명의 메타데이터를 액세스 및 구성하는 방법(1300)은 종료된다.
도 14를 참조하면, 예시적인 실시예에 따른 애플리케이션에 대한 미디어 메타데이터를 액세스 및 구성하는 방법(1400)이 도시되어 있다. 예시적인 실시예에서, 본 발명의 미디어 메타데이터를 액세스 및 구성하는 방법(1400)은 블록(1304), 블록(1308), 및/또는 블록(1312)(도 13 참조)에서 수행될 수 있다.
하나 이상의 미디어 항목들(예를 들어, 디지털 오디오 트랙, 디지털 비디오 세그먼트, 및 내비게이션 항목들)이 블록(1402)에서 미디어 라이브러리로부터 액세 스될 수 있다. 예시적인 실시예에서, 미디어 라이브러리는 미디어 데이터베이스(126,210)(도 1 및 도 2 참조) 내에서 구현될 수 있다. 예시적인 실시예에서, 미디어 라이브러리는 로컬 라이브러리 데이터베이스(118)(도 1 참조) 내에서 구현될 수 있다.
본 발명의 미디어 메타데이터를 액세스 및 구성하는 방법(1400)은 블록(1404)에서 미디어 항목들의 인식을 시도할 수 있다. 결정 블록(1406)에서, 본 발명의 미디어 메타데이터를 액세스 및 구성하는 방법(1400)은 인식이 성공적인지의 여부를 결정할 수 있다. 만일 인식이 성공적인 경우, 본 발명의 미디어 메타데이터를 액세스 및 구성하는 방법(1400)은 블록(1408)에서 미디어 메타데이터(130,220) 및 연관된 음성 메타데이터(128,222)를 액세스하고, 블록(1410)에서 미디어 메타데이터(130,220) 및 연관된 음성 메타데이터(128,222)를 구성한다. 만일 결정 블록(1406)에서 또는 블록(1410) 이후에 인식이 성공적이지 않은 경우, 본 발명의 미디어 메타데이터를 액세스 및 구성하는 방법(1400)은 종료된다.
예시적인 실시예에서, 본 발명의 미디어 메타데이터를 액세스 및 구성하는 방법(1400)을 동작시키는 애플리케이션을 구현하는 디바이스는 미리 주문형 스트리밍(on-demand streaming), 무선 스트리밍 스테이션(radio streaming stations), 위성 라디오(satellite radio) 등과 같은 링크된 식별자(linked identifiers)를 포함할 수 있는 음악 서비스 콘텐츠를 제어, 내비게이션 수행, 플레이목록화, 및/또는 링크시키는데 사용될 수 있다. 결정 블록(1406)에서 일단 콘텐츠가 성공적으로 인식되면, 연관된 메타데이터 및 음성 메타데이터(128,222)가 블록(1408)에서 얻어지 며, 블록(1410)에서 본 발명의 장치에 대한 구성이 이루어진다.
예시적인 음악 도메인에서, 일부 아티스트 또는 그룹은 동일한 이름을 공유할 수 있다. 예를 들어, 90년대 록 밴드 너바나(Nirvana)는 70년대 크리스천 포크 그룹과 그 이름을 공유하며, 90년대 및 2000년대 캘리포니아 포스트-하드코어 그룹인 카메라 옵스큐라(Camera Obscura)는 글라스고우 시민의 인디 팝 그룹(Glaswegian Indie pop group)과 그 이름을 공유한다. 나아가, 일부 아티스트는 기타 다른 아티스트의 실제 이름과 별명을 공유한다. 예를 들어, 후랭크 시나트라는 "더 체어맨 오브 더 보드"로 알려져 있으며, 이것은 또한 70년대부터 "더 체어맨 오브 더 보드"로 불리워졌던 소울 그룹의 이름과 음성적으로 매우 유사하다. 또한, 예를 들어 사용자가 휴대용 음악 플레이어에(예를 들어, 플레이어의 하드 드라이브에) 2개의 카메라 옵스큐라 밴드를 가지고 있으며, 그 후 사용자가 본 발명의 장치에 "카메라 옵스큐라 플레이"를 지시하는 것과 같은 드문 경우에 모호성이 발생할 수 있다.
이중 이름을 수용하기 위한 예시적인 방법이 다음과 같이 사용될 수 있다. 일 실시예에서, 플레이할 아티스트 또는 앨범의 선택은 사용자의 이전의 플레이 행동(behavior) 또는 명시적인 입력에 기초될 수 있다. 예를 들어, 사용자의 재생 디바이스(예를 들어, 휴대용 MP3 플레이어, 개인용 컴퓨터 등) 상에서 커트 코베인의 밴드 및 70년대 포크 밴드 양자를 구비한 "플레이 너바나"라고 사용자가 말했다고 가정하자. 애플리케이션은 각각의 아티스트에 대한 플레이 주파수 속도 및 관련 장르에 대한 플레이 주파수 속도 양자를 체크하기 위해 플레이목록화 기술을 사용할 수 있다. 따라서, 만일 사용자가 90년대 초기의 그런지(grunge)(음악적 세련미는 없으나 공격적이고 열광적인 록 음악)를 자주 플레이하는 경우, 그런지 너바나가 플레이될 수 있으며; 만일 사용자가 포크(folk)를 자주 플레이하는 경우, 포크 너바나가 플레이될 수 있다. 본 발명의 장치는 선호하는 아티스트 및 비선호 아티스트 간의 토글링 또는 스위칭을 허용할 수 있다. 예를 들어, 만일 사용자가 포크 너바나를 듣기를 원하면서 그런지 너바나를 얻는 경우, 사용자는 포크 너바나로 스위치하기 위해 "플레이 아더 너바나(Play Other Nirvana)"라고 말할 수 있다.
상술한 것에 추가하여 또는 상술한 것을 대신해서, 하나보다 많은 매칭(예를 들어, 앨범 식별마다 하나보다 많은 매칭)의 인식이 이루어지면, 사용자는 프롬프트(prompt)될 수 있다. 예를 들어, 사용자가 "플레이 아티스트 카메라 옵스큐라"라고 말할 때, 본 발명의 장치는 (예를 들어 TTS 기능을 사용하여) 2개의 엔트리를 찾아서 사용자에게 "캘리포니아로부터의 카메라 옵스큐라, 또는 스코틀랜드로부터의 카메라 옵스큐라를 찾습니까?"를 프롬프트하거나 또는 미디어 데이터베이스 내의 기타 다른 항목들을 사용하는 일부 다른 명확한 질문(disambiguating question)을 프롬프트한다. 그 후, 사용자는 스스로 상기 요구(request)를 명확하게 할 수 있다. 본 발명의 장치가 내비게이션 환경에 배치되는 경우, 도시(town)/시(city) 이름, 거리 이름 등이 또한 유사한 방식으로 처리될 수 있다는 것이 이해되어야 한다.
예시적인 실시예에서, 각각의 앨범이 볼륨 번호(예를 들어, "볼륨 엑스(Vol.X)")를 제외하고 동일한 이름을 가지는 앨범 시리즈가 존재하는 경우, 임의 의 동일한 음성 전사는 동일(균등)한 것으로 취급될 수 있다. 따라서, 본 발명의 장치는 프롬프트될 때, 모든 목적물(targets)에 대한 매칭을 리턴할 수 있다. 이러한 실시예는, 예를 들어, "나우 댓스 홧 아이 콜 뮤직!(Now That's What I Call Music!)" 시리즈와 같은 앨범에 적용될 수 있다. 이러한 실시예에서, 애플리케이션은 만일 사용자가 "'플레이 앨범' 나우 댓스 홧 아이 콜 뮤직"이라고 말하는 경우, 찾아낸 모든 매칭 파일들이 플레이되고, 반면에 만일 사용자가 "'플레이 앨범' 나우 댓스 홧 아이 콜 뮤직 볼륨 화이브"이라고 말하는 경우, 오직 볼륨 화이브만이 플레이되는 방식으로 전사를 처리할 수 있다. 이러한 기능은 또한 2장짜리 다스크 앨범(2-Disc ablums)에 적용될 수 있다. 예를 들어, "플레이 앨범 "올 씽즈 마스트 패스(All Things Must Pass)""는 자동적으로 2개의 디스크 앨범의 디스크 1 및 디스크 2 모두를 형성하는 트랙들을 플레이할 수 있다. 대안적으로, 만일 사용자가 "플레이 앨범 "올 씽즈 마스트 패스" 디스크 2"라고 말하는 경우, 디스크 2의 트랙들만이 플레이될 수 있다.
예시적인 실시예에서, 디바이스는 "내가 좋아하는 밴드(마이 훼이버릿 밴드: My Favorite Band)," "내가 좋아하는 연도((마이 훼이버릿 이어: My Favorite Year)," 또는 "마이크스 서프-록 콜렉션(Mike's Surf-Rock Collection)"과 같이 용어에 의미를 주기 위해 사용자 측에서 관습 불일치 엔트리를 수용할 수 있다. 예를 들어, 본 발명의 장치는 "구두로 이루어지는 편집"(예를 들어, 본 발명의 장치에 "콜 더 후 화이터즈(Call the Foo Fighters)"마이 훼이버릿 밴드"라고 명령하는 경우)을 허용할 수 있다. 상술한 것에 추가하여 또는 상술한 것을 대신해서, 텍스트- 기반의 엔트리는 이러한 기능을 수행하는데 사용될 수 있다. 음성 메타데이터(128,222)가 코어 메타데이터의 구성요소일 수 있기 때문에, 사용자는 컴퓨터 상에서 엔트리들을 편집할 수 있으며, 그 후 편집된 엔트리들을 파일과 함께 일종의 태그로서 업로드할 수 있다. 따라서, 일 실시예에서, 사용자는 종래 물리적인 터치 인터페이스(physical touch interfaces)로는 사용가능하지 않은 사용자에 의해 정의된 명령(user defined commands)을 효과적으로 추가할 수 있다.
도 15를 참조하면, 예시적인 실시예에 따른, 음성 인식에 의해 수신된 문구를 처리하는 방법(1500)이 도시되어 있다. 본 발명의 문구 처리 방법(1500)은 블록(1206)(도 12 참조)에서 수행될 수 있다.
문구는 블록(1502)에서 획득될 수 있다. 예를 들어, 문구는 자동화 음성 인식 엔진(112)(도 1 참조)을 통해 구두 입력(116)에 의해 수신될 수 있다. 그 후, 문구는 블록(1504)에서 이를테면 자동화 음성 인식 엔진(112)을 사용하여 텍스트 스트링으로 변환될 수 있다.
그 후 변환된 텍스트 스트링은 블록(1506)에서 미디어 스트링으로 식별된다. 변환된 텍스트 스트링을 식별하는 예시적인 실시예가 이하에서 상세히 기술된다.
예시적인 실시예에서, 변환된 텍스트 스트링의 일부가 식별을 위해 제공될 수 있으며, 나머지 부분은 식별을 위해 제공되지 않고 보유될 수 있다. 예를 들어, 식별을 위해 제공되는 제 1 부분은 미디어 항목의 잠재적인 이름일 수 있으며, 식별을 위해 제공되지 않는 제 2 부분은 애플리케이션에 대한 명령일 수 있다(예를 들어, "플레이 빌리 아이돌(play Billy Idol)"은 "빌리 아이돌"이라는 제 1 부분과 "플레이"라는 제 2 부분을 가질 수 있다).
결정 블록(1508)에서, 본 발명의 문구 처리 방법(1500)은 미디어 스트링이 식별되었는지의 여부를 결정한다. 만일, 미디어 스트링이 식별된 경우, 식별된 텍스트 스트링이 블록(1510)에서 사용하기 위해 제공될 수 있다. 예를 들어, 문구는 자신의 사용을 위해 애플리케이션으로 리턴되어, 스트링이 음성 합성으로 재생성될 수 있다.
만일 스트링이 식별되지 않은 경우, 미식별 프로세스가 블록(1512)에서 수행될 수 있다. 예를 들어, 미식별 프로세스는 아무런 액션을 취하지 않거나, 에러 코드에 응답하거나, 및/또는 미식별 프로세스로서 스트링의 가장 양호한 추측(guess)으로 의도된 액션을 취하는 것일 수 있다. 블록(1510) 또는 블록(1512)에서의 동작이 완료된 후, 본 발명의 문구 처리 방법(1500)은 종료된다.
도 16은 예시적인 실시예에 따른 변환된 텍스트 스트링을 식별하는 방법(1600)을 도시한다. 예시적인 실시예에서, 본 발명의 변환된 텍스트 스트링 식별 방법(1600)은 블록(1506)(도 15 참조)에서 수행될 수 있다.
변환된 텍스트 스트링은 블록(1602)에서 미디어 항목의 디스플레이 텍스트(704)와 매칭될 수 있다. 결정 블록(1604)에서, 본 발명의 변환된 텍스트 스트링 식별 방법(1600)은 매칭이 식별되었는지의 여부를 결정할 수 있다. 만일 매칭없음이 식별된 경우, 블록(1606)에서 매칭없음이 확인되었다는 표시가 리턴될 수 있다. 결정 블록(1604)에서 스트링의 매칭이 식별된 경우, 변환된 텍스트 스트링 식별 방법(1600)은 블록(1608)으로 진행한다.
변환된 텍스트 스트링은 블록(1608)에서 대안 문구 맵퍼를 통해 처리될 수 있다. 예를 들어, 대안 문구 맵퍼는 변환된 텍스트 스트링에 대한 대안 문구가 존재하는지(예를 들어, 식별될 수 있는지)의 여부를 결정할 수 있다.
예시적인 실시예에서, 대안 문구 맵퍼는 대안 문구를 그들의 연관된 공식적인 문구로 맵핑하는 것을 편리하게 하는데 사용될 수 있다. 대안 문구 맵퍼는 발성된 대안 문구가 디스플레이 텍스트(704)의 공식적인 표시로 나타나게 되는 음성 인식 및 합성 장치(도 3 참조) 내에서 사용될 수 있다. 예를 들어, 만일 "더 스톤즈"가 구두 입력(114)으로 제공되면, 자동화 음성 인식 엔진(112)은 발성된 이름의 음성을 분석하여 "더 스톤즈"의 정해진 디스플레이 텍스트(704)를 생성할 수 있다(도 1 및 도 7 참조). "더 스톤즈"는 대안 문구 맵퍼로 제공될 수 있으며, 대안 문구 맵퍼는 공식적인 이름인 "더 롤링 스톤즈"를 리턴한다.
예시적인 실시예에서, 동일한 대안 문구에 대해 하나보다 많은 공식적인 문구가 존재할 수 있기 때문에, 대안 문구 맵퍼는 단일 입력 대안 문구에 응답하여 다수의 공식적인 문구를 리턴할 수 있다.
결정 블록(1610)에서, 본 발명의 변환된 텍스트 스트링 식별 방법(1600)은 대안 문구가 식별되었는지의 여부를 결정한다. 만일 대안 문구가 식별되지 않은 경우, 획득된 음성 전사에 대한 스트링이 리턴될 수 있다. 만일 결정 블록(1610)에서 대안 문구가 식별된 경우, 공식적인 전사와 연관된 스트링이 리턴될 수 있다. 블록(1612) 또는 블록(1614)에서의 동작이 완료된 후, 본 발명의 변환된 텍스트 스트링 식별 방법(1600)이 종료된다.
도 17을 참조하면, 예시적인 실시예에 따른, 음성 합성에 의해 출력 스트링을 제공하는 방법(1700)이 도시되어 있다. 예시적인 실시예에서, 본 발명의 출력 스트링 제공 방법(1700)은 블록(1706)에서 수행될 수 있다(도 13 참조).
스트링은 블록(1702)에서 액세스될 수 있다. 예를 들어, 액세스된 스트링은 음성 합성이 요구되는 스트링일 수 있다. 블록(1704)에서 스트링에 대해 음성 전사가 액세스될 수 있다. 예를 들어, 스트링에 대응되는 구두 언어에 대한 정확한 음성 전사가 액세스될 수 있다. 스트링에 대한 음성 전사를 액세스하는 예시적인 실시예가 이하에서 상세히 기술된다.
하나의 예시에 있어서, 이를테면 미디어 데이터베이스(126) 및/또는 로컬 라이브러리 데이터베이스(118) 내에서 스트링에 대한 음성 전사가 사용불가능할 수도 있다. 음성 전사를 생성하는 예시적인 실시예가 이하에서 상세히 기술된다.
음성 전사는 블록(1706)에서 애플리케이션의 언어로 음성 합성을 통해 출력될 수 있다. 예를 들어, 음성 전사는 구두 출력(114)으로서 TTS 엔진(110)으로부터 출력될 수 있다(도 1 참조). 블록(1706)에서의 동작 완료 후에, 본 발명의 출력 스트링 제공 방법(1700)이 종료된다.
도 18을 참조하면, 예시적인 실시예에 따른, 스트링에 대한 음성 전사를 액세스하는 방법(1800)이 도시되어 있다. 예시적인 실시예에서, 본 발명의 음성 전사를 액세스하는 방법(1800)은 블록(1704)에서 수행될 수 있다(도 18 참조).
스트링의 문자 언어 검출(예를 들어, 문자 언어를 검출함) 및 (예를 들어, 목적 디바이스 상에 구현되는 것과 같은) 목적 애플리케이션의 구두 언어 검출이 블록(1802)에서 수행될 수 있다. 예시적인 실시예에서, 스트링은 미디어 타이틀 어레이(402)의 미디어 타이틀의 표시, 주요 아티스트 이름 어레이(404)의 주요 아티스트 이름의 표시, 트랙 타이틀 어레이(502)의 트랙 타이틀의 표시, 트랙 주요 아티스트 이름 어레이(504)의 주요 아티스트 이름의 표시, 명령 어레이(602)의 명령의 표시, 및/또는 제공자 이름 어레이(604)의 제공자의 표시일 수 있다. 예시적인 실시예에서, 목적 애플리케이션은 임베드형 애플리케이션일 수 있다.
결정 블록(1804)에서, 본 발명의 음성 전사를 액세스하는 방법(1800)은 스트링에 대한 지역적 예외가 사용가능한지의 여부를 결정한다. 만일 지역적 예외가 사용가능한 경우, 스트링과 연관된 지역적 음성 전사가 블록(1806)에서 액세스될 수 있다. 예시적인 실시예에서, 지역적 음성 전사는 이를테면 지역적 언어, 현지 방언 및/또는 현지 관습 불일치에 기인할 수 있는 대안 음성 전사일 수 있다.
블록(1806)이 완료되면, 본 발명의 음성 전사를 액세스하는 방법(1800)은 결정 블록(1814)으로 진행한다. 만일 결정 블록(1804)에서 스트링에 대한 지역화된 예외가 사용가능하지 않은 경우, 본 발명의 음성 전사를 액세스하는 방법(1800)은 결정 블록(1808)으로 진행한다.
본 발명의 음성 전사를 액세스하는 방법(1800)은 결정 블록(1808)에서 스트링에 대한 전사가 사용가능한지의 여부를 결정한다. 만일 전사가 사용가능한 경우, 스트링과 연관된 전사가 블록(1810)에서 액세스될 수 있다.
예시적인 실시예에서, 본 발명의 음성 전사를 액세스하는 방법(1800)은 블록(1810)에서 스트링 언어와 매칭되는 주요 전사의 액세스가 사용가능하면, 주요 전사를 먼저 액세스할 수 있으며, 사용가능하지 않으면 또 다른 사용가능한 전사(예를 들어, 영어 전사)를 액세스할 수 있다.
만일 결정 블록(1808)에서 스트링에 대한 전사가 사용가능하지 않으면, 본 발명의 음성 전사를 액세스하는 방법(1800)은 블록(1812)에서 프로그램 방식으로 음성 전사를 생성할 수 있다. 예를 들어, 스피커의 원어(native language)에서 지역적인 틀린 발음에 대한 대안 음성 전사를 프로그램 방식으로 생성하는 것은 애플리케이션을 동작시키는 디바이스 내로 이미 적재된 디폴트 G2P를 사용하여, 콘텐츠가 인식되면 수신된 텍스트 스트링들이 디폴트 G2P를 통해 실행될 수 있다. 프로그램 방식으로 음성 전사를 생성하는 예시적인 실시예가 이하에서 상세히 기술된다. 블록(1810) 및 블록(1812)에서의 동작이 완료되면, 본 발명의 음성 전사를 액세스하는 방법(1800)은 결정 블록(1814)으로 진행한다.
결정 블록(1814)에서, 본 발명의 음성 전사를 액세스하는 방법(1800)은 스트링의 문자 언어가 목적 애플리케이션의 구두 언어와 매칭되는지의 여부를 결정한다. 만일 스트링의 문자 언어가 목적 애플리케이션의 구두 언어와 매칭되지 않는 경우, 획득된 음성 전사는 블록(1816)에서 목적 애플리케이션의 구두 언어(예를 들어, 목적 언어)로 변환될 수 있다. 획득된 음성 전사를 변환하는 방법에 대한 예시적인 실시예가 이하에서 상세히 기술된다.
예시적인 실시예에서, 음성 전사는 블록(1816)에서 음소 변환 맵(phoneme conversion maps)을 사용하여 스트링의 원어민 구두 언어로부터 디바이스 상에서 동작하는 애플리케이션의 목적 언어로 변환될 수 있다.
만일 결정 블록(1814)에서 또는 블록(1816) 이후에 스트링의 문자 언어가 목적 애플리케이션의 구두 언어와 매칭되는 경우, 블록(1818)에서 스트링에 대한 음성 전사가 애플리케이션에 제공될 수 있다. 블록(1818)에서의 동작이 완료된 후에, 본 발명의 음성 전사를 액세스하는 방법(1800)은 종료된다.
예시적인 실시예에서, 블록(1818)에서의 동작을 수행하기 전에 본 발명의 음성 전사를 액세스하는 방법(1800)은 음성 전사를 디바이스에 의해 사용가능한 전사로 변환하기 위한 음성 알파벳 변환을 수행할 수 있다. 예시적인 실시예에서, 음성 알파벳 변환은 스트링에 대한 음성 전사가 제공된 후에 수행될 수 있다.
도 19를 참조하면, 음성 전사를 프로그램방식으로 생성하는 방법(1900)이 도시되어 있다. 예시적인 실시예에서, 본 발명의 음성 전사를 프로그램방식으로 생성하는 방법(1900)은 블록(1812)(도 18 참조)에서 수행될 수 있다.
결정 블록(1902)에서, 본 발명의 음성 전사를 프로그램방식으로 생성하는 방법(1900)은 텍스트 스트링이 문자 언어 ID(706)(도 7 참조)를 포함하는지의 여부를 결정한다. 만일 스트링이 문자 언어 ID(706)를 포함하는 경우, 본 발명의 음성 전사를 프로그램방식으로 생성하는 방법(1900)은 블록(1904)에서 G2P를 사용하여 애플리케이션의 구두 언어로 지역적 틀린 발음에 대한 음성 전사를 프로그램 방식으로 생성할 수 있다.
만일 결정 블록(1902)에서 텍스트 스트링이 문자 언어 ID(706)를 포함하지 않는 경우, 블록(1906)에서 텍스트 스트링의 문자 언어로 음성 전사가 생성될 수 있다. 예를 들어, 텍스트 스트링의 문자 언어로 음성 전사를 생성하기 위해 언어- 특정 G2P가 음성 인식 및 합성 장치(300)(도 3 참조)에 의해 사용될 수 있다.
텍스트 스트링의 문자 언어로 이루어진 음성 전사를 애플리케이션의 하나 이상의 목적 구두 언어에 대한 하나 이상의 음성 전사로 각각 변환하기 위해 음소 변환 맵이 블록(1908)에서 사용될 수 있다.
예시적인 실시예에서, 음성 전사의 변환은 단일 음성 전사로부터 다중 음성 전사까지를 포함할 수 있다.
블록(1904) 또는 블록(1910)에서의 동작이 완료된 후, 본 발명의 음성 전사를 프로그램방식으로 생성하는 방법(1900)은 애플리케이션에 음성 전사를 제공할 수 있다. 블록(1920)에서의 동작이 완료된 후, 본 발명의 음성 전사를 프로그램방식으로 생성하는 방법(1900)은 종료된다.
도 20을 참조하면, 음소 변환을 수행하는 방법(2000)이 도시되어 있다. 예시적인 실시예에서, 본 발명의 음소 변환을 수행하는 방법(2000)은 블록(1816)(도 18 참조)에서 수행될 수 있다.
애플리케이션(예를 들어, 임베드형 애플리케이션)의 구두 언어 ID(804)(도 8 참조)가 블록(2002)에서 액세스될 수 있다. 예시적인 실시예에서, 애플리케이션의 구두 언어 ID(804)는 미리 설정(pre-set)될 수 있다. 예시적인 실시예에서, 애플리케이션의 구두 언어 ID(804)는 수정 가능하여 임베드형 애플리케이션의 언어가 선택될 수 있다.
음성 전사는 블록(2004)에서 액세스될 수 있으며, 그 후 음성 전사에 대한 문자 언어 ID(706)(도 7 참조)가 블록(2006)에서 액세스될 수 있다.
결정 블록(2008)에서, 본 발명의 음소 변환을 수행하는 방법(2000)은 임베드형 애플리케이션의 구두 언어 ID(804)가 음성 전사의 문자 언어 ID(706)와 매칭되는지의 여부를 결정한다. 만일 매칭이 존재하지 않는 경우, 본 발명의 음소 변환을 수행하는 방법(2000)은 블록(2010)에서 문자 언어에서 구두 언어로 음성 전사를 변환할 수 있다. 만일 결정 블록에서 또는 블록(2010) 이후에 구두 언어 ID(804)가 문자 언어 ID(706)와 매칭되지 않는 경우, 본 발명의 음소 변환을 수행하는 방법(2000)은 종료된다.
도 21을 참조하면, 예시적인 실시예에 따른, 음성 전사를 목적 언어로 변환하는 방법(2100)이 도시되어 있다. 예시적인 실시예에서, 본 발명의 음성 전사를 목적 언어로 변환하는 방법(2100)은 블록(2010)(도 20 참조)에서 수행될 수 있다.
목적 음성 전사를 사용할 임베드형 애플리케이션(예를 들어, 목적 애플리케이션)의 언어가 블록(2102)에서 결정될 수 있다. 블록(2104)에서 소스 음성 전사를 위해 음성 언어 변환 맵이 액세스될 수 있다. 예시적인 실시예에서, 음성 언어 변환 맵은 음소 변환 맵일 수 있다.
블록(2106)에서 음성 변환 맵을 사용하여 소스 음성 전사가 목적 음성 전사로 변환될 수 있다. 블록(2106)에서의 동작이 완료된 후, 본 발명의 음성 전사를 목적 언어로 변환하는 방법(2100)은 종료된다.
예시적인 실시예에서, 일반 음성 언어와 음성 인식 및 합성 장치(300)(도 3 참조)에 의해 사용되는 음서 언어 간의 문자 맵핑(character mapping)이 생성되어, 미디어 관리 시스템(106)과 함께 사용될 수 있다. 블록(2106)에서의 동작이 완료되 면, 본 발명의 음성 전사를 목적 언어로 변환하는 방법(2100)은 종료된다.
도 22는 컴퓨터 시스템(2200)의 예시적인 형태로 된 머신을 다이어그램 방식으로 표시한 도면으로, 이러한 컴퓨터 시스템(2200) 내에서는 상기 머신이 본 명세서에서 논의되는 방법들 중 어느 하나 이상을 수행하도록 해주는 한 세트의 명령어(a set of instructions)가 실행될 수 있다. 대안적인 실시예에서, 머신은 독립형 디바이스(standalone device)로 동작하거나 또는 다른 머신과 연결될 수 있다(예를 들어, 네트워크될 수 있다). 네트워크된 배치에서, 머신은 서버-클라이언트 환경에서는 서버 머신 또는 클라이언트 머신의 자격으로 동작하거나, 또는 P2P(peer-to-peer)(또는 분산형) 네트워크 환경에서는 피어 머신(peer machine)으로서 동작할 수 있다. 머신은 개인용 컴퓨터(PC), 태블릿 PC(tablet PC), 셋탑 박스(STB), 개인 휴대용 단말기(Personal Digital Assistant: PDA), 휴대폰, 휴대용 음악 플레이어(예를 들어, MP3 플레이어와 같은 휴대용 하드 드라이브 오디오 디바이스), 차량 오디오 디바이스, 웹 장치(web appliance), 네트워크 라우터(network router), 스우치 또는 브리지, 또는 머신에 의해 취해져야 할 액션을 특정하는 한 세트의 명령어(순차적 또는 기타)를 실행할 수 있는 임의의 머신일 수 있다. 또한, 단지 하나의 머신이 예시되어 있지만, 용어 "머신"은 또한 본 명세서에서 논의된 임의의 하나 이상의 방법을 수행하기 위해 한 세트(또는 다중 세트)의 명령어를 개별적으로 또는 결합하여 실행하는 머신들의 임의의 집합을 포함하는 것으로 간주되어야 한다.
예시적인 컴퓨터 시스템(2200)은 프로세서(2202)(예를 들어, 중앙 처리 장 치(CPU), 그래픽 처리 장치(GPU) 또는 이들 양자), 주 메모리(2204) 및 정적 메모리(2206)를 포함하며, 주 메모리(2204) 및 정적 메모리(2206)는 함버스(2208)를 통해 서로 통신한다. 컴퓨터 시스템(2200)은 비디오 디스플레이 유닛(2210)(예를 들어, 액정 디스플레이(LCD) 또는 음극선관(CRT))을 추가로 포함할 수 있다. 컴퓨터 시스템(2200)은 또한 문자-숫자 입력 디바이스(2212)(예를 들어, 키보드), 커서 제어 디바이스(2214)(예를 들어, 마우스), 디스크 드라이브 유닛(2216), 신호 생성 디바이스(2218)(예를 들어, 스피커) 및 네트워크 인터페이스 디바이스(2230)를 포함할 수 있다.
디스크 드라이브 유닛(2216)은 본 명세서에서 논의된 임의의 하나 이상의 방법 또는 기능을 구현하는 하나 이상의 세트의 명령어(예를 들어, 소프트웨어(2224))가 저장되는 머신-판독가능 매체(machine-readable medium)(2222)를 포함한다. 소프트웨어(2224)는 또한 컴퓨터 시스템(2200), 주 메모리(2204), 및 프로세서(2202)에 의해 실행되는 동안, 주 메모리(2204) 내에 및/또는 프로세서(2202) 내에 완전히 또는 적어도 부분적으로 상주할 수 있으며, 머신-판독가능 매체를 구성한다.
소프트웨어(2224)는 네트워크 인터페이스 디바이스(2230)를 통해 네트워크(2226) 상에서 추가로 전송되거나 수신될 수 있다.
머신-판독가능 매체(2222)가 예시적인 실시예에서 단일 매체인 것으로 도시되어 있지만, 용어 "머신-판독가능 매체"는 상술한 하나 이상의 세트의 명령어를 저장하는 단일 매체 또는 다중 매체(예를 들어, 중앙집중형 또는 분산형 데이터베 이스, 및/또는 연관된 캐쉬 및 서버)를 포함하는 것으로 간주되어야 한다. 용어 "머신-판독가능 매체"는 또한 머신에 의한 실행을 위한 한 세트의 명령어를 저장하거나, 인코딩하거나 또는 운반할 수 있으며 또한 머신이 본 발명의 임의의 하나 이상의 방법을 수행하도록 해주는 임의의 매체를 포함하는 것으로 간주되어야 한다. 따라서 용어 "머신-판독가능 매체"는 고체 상태의 메모리, 광학 및 마그네틱 매체, 및 반송파 신호(carrier wave signals)를 포함하는 것으로 간주되어야 하지만, 이에 제한되는 것은 아니다.
상술한 본 명세서에 기술된 실시예들은 컴퓨터 상에 설치된 소프트웨어를 포함하는 운영 환경에서, 하드웨어에서, 또는 소프트웨어 및 하드웨어의 조합에서 구현될 수 있다.
비록 본 발명이 특정한 예시적인 실시예들을 참조하여 기술되었지만, 본 발명의 광범위한 정신 및 범위에서 벗어남이 없이 상술한 실시예들에 대한 다양한 변형 또는 변경이 이루어질 수 있다는 것은 명백하다. 따라서, 본 명세서 및 도면은 제한적인 의미가 아니라 예시적인 것으로 간주되어야 한다.
본 발명의 개시 내용의 요약서는 독자들이 기술적 개시 내용의 특징을 신속하게 확인하도록 허용하는 요약서를 요구하는 37 연방 규정 코드(C.F.R.) 섹션 1.72(b)와 일치하도록 제공된다. 요약서는 청구범위의 범위 및 의미를 해석하거나 제한하는데 사용되지 않는 것으로 이해되도록 제출된다. 또한, 상술한 상세한 설명에서, 다양한 특징이 개시 내용을 간소화하기 위한 목적으로 단일의 실시예 내에 함께 그룹화된다는 것을 알 수 있다. 이러한 개시 방법은 청구범위에 청구된 실시예가 각 청구범위에 명시적으로 언급된 것보다 더 많은 특징을 요구하기 위한 의도를 반영하는 것으로 해석되어서는 아니된다. 오히려, 후술하는 청구범위가 반영하는 바와 같이, 본 발명의 대상은 단일의 개시된 실시예의 모든 특징들보다 더 적은 상태를 나타낸다. 따라서, 후술하는 청구범위는 상세한 설명에 일체로 포함되어, 각각의 청구범위가 개별적인 실시예로서 독립적인 지위를 갖는다.

Claims (41)

  1. 장치에 있어서,
    복수의 스트링을 포함하는, 복수의 미디어 항목에 대한 미디어 메타데이터; 및
    상기 복수의 스트링과 연관된 음성 메타데이터(phonetic metadata)
    를 포함하고,
    상기 복수의 스트링의 각각의 스트링은 상기 미디어 항목의 특징(aspect)을 기술하며,
    상기 음성 메타데이터의 각 부분은 상기 스트링의 출처 언어(origin language) 내에 저장되는
    장치.
  2. 제 1항에 있어서,
    상기 미디어 항목은 콤팩트 디스크(CD), 디지털 오디오 트랙, 디지털 다기능 디스크(DVD), 영화, 또는 사진 중의 적어도 하나로부터 선택되는 장치.
  3. 제 1항에 있어서,
    상기 미디어 항목의 상기 특징은 미디어 타이틀, 주요 아티스트 이름, 트랙 타이틀, 명령(command), 또는 제공자(provider) 중 적어도 하나로부터 선택되는 장 치.
  4. 제 1항에 있어서,
    상기 스트링의 상기 출처 언어는 상기 스트링이 구두로 이루어지는 언어를 포함하는 장치.
  5. 데이터 구조를 저장하기 위한 메모리를 구비한 장치에 있어서,
    디스플레이용으로 적합한 텍스트를 포함하는 디스플레이 텍스트를 포함하는 제 1 필드; 및
    상기 디스플레이 텍스트의 소스 언어(source language)로 저장되는 상기 디스플레이 텍스트의 공식적인 음성 전사(official phonetic transcription)를 포함하는 제 2 필드
    를 포함하는 장치.
  6. 제 5항에 있어서,
    상기 제 2 필드가 상기 디스플레이 텍스트의 하나 이상의 대안적인 음성 전사를 추가로 포함하는 장치.
  7. 제 6항에 있어서,
    상기 디스플레이 텍스트의 상기 하나 이상의 대안적인 음성 전사가 하나 이 상의 정확한 발음 음성 전사 또는 하나 이상의 부정확한 발음 음성 전사 중 적어도 하나를 포함하는 장치.
  8. 제 5항에 있어서,
    상기 장치는 상기 디스플레이 텍스트의 출처 문자 언어(origin written language)를 나타내는 문자 언어 식별(ID)을 추가로 포함하는 장치.
  9. 제 5항에 있어서,
    상기 장치는 상기 디스플레이 텍스트가 공식적인 표시 또는 대안적인 표시인지의 여부를 나타내는 공식적인 표시 플래그(flag)를 추가로 포함하는 장치.
  10. 제 9항에 있어서,
    상기 공식적인 표시는 공식적으로 배포된 미디어 상에 나타나거나 또는 편집방식으로 결정된 텍스트의 적어도 하나이며,
    상기 대안적인 표시는 별명, 숏 네임(short names), 또는 공통적인 약칭(common abbreviation) 중 적어도 하나인
    장치.
  11. 제 9항에 있어서,
    상기 장치는 상기 제 2 필드의 각각의 음성 전사와 연관된 출처 언어 전사 플래그를 추가로 포함하고,
    상기 출처 언어 전사 플래그는 상기 음성 전사가 상기 문자 언어 식별(ID)에 대응되는지의 여부를 나타내는
    장치.
  12. 제 5항에 있어서,
    상기 장치는 상기 제 2 필드의 각각의 음성 전사와 연관된 정확한 발음 플래그를 추가로 포함하고,
    상기 정확한 발음 플래그는 상기 음성 전사가 상기 디스플레이 텍스트의 정확한 발음 또는 틀린 발음(mispronunciation)인지의 여부를 나타내는
    장치.
  13. 제 5항에 있어서,
    상기 디스플레이 텍스트는 미디어 타이틀, 주요 아티스트, 트랙 타이틀, 트랙 주요 아티스트 이름, 명령 어레이, 또는 제공자 중 적어도 하나로부터 선택되는 장치.
  14. 방법에 있어서,
    미디어 메타데이터의 복수의 스트링을 액세스하는 단계; 및
    각각의 스트링의 출처 언어로 상기 복수의 스트링의 각각에 대해 적어도 하 나의 공식적인 음성 전사를 생성하는 단계
    를 포함하는 방법.
  15. 제 14항에 있어서,
    상기 방법은 상기 복수의 스트링 각각에 구두 언어 식별(ID)을 할당하는 단계를 추가로 포함하고,
    상기 구두 언어 식별(ID)은 상기 복수의 스트링 각각의 출처 언어를 나타내는
    방법.
  16. 제 14항에 있어서,
    상기 복수의 스트링은 각각 디스플레이 텍스트의 표시이며,
    상기 방법은 상기 디스플레이 텍스트로서 미디어 타이틀, 주요 아티스트, 트랙 타이틀, 트랙 주요 아티스트 이름, 명령 어레이, 또는 제공자 중 적어도 하나를 선택하는 단계를 추가로 포함하는
    방법.
  17. 제 15항에 있어서,
    상기 방법은 각각의 스트링의 비출처 언어(non-origin language)로 상기 복수의 스트링의 적어도 일부분에 대해 적어도 하나의 대안적인 음성 전사를 생성하 는 단계를 추가로 포함하는 방법.
  18. 방법에 있어서,
    미디어 항목에 대한 메타데이터를 획득하기 위해 디지털 지문(digital fingerprint)으로 상기 미디어 항목을 인식하는 단계; 및
    상기 미디어 항목에 대해 미디어 메타데이터 및 연관된 음성 메타데이터를 액세스하는 단계
    를 포함하고,
    상기 음성 메타데이터는 상기 미디어 항목의 출처 언어로 이루어진 적어도 하나의 음성 전사를 포함하는
    방법.
  19. 제 18항에 있어서,
    상기 방법은 애플리케이션에 대해 상기 미디어 메타데이터 및 상기 연관된 음성 메타데이터를 구성하는 단계를 추가로 포함하는 방법.
  20. 제 18항에 있어서,
    상기 방법은 상기 미디어 메타데이터로서 음악 메타데이터, 플레이목록화 메타데이터 또는 내비게이션 메타데이터 중 적어도 하나를 선택하는 단계를 추가로 포함하는 방법.
  21. 제 18항에 있어서,
    상기 방법은 상기 미디어 항목의 액세스가 이루어지는 동안 디바이스에 상기 연관된 음성 메타데이터를 제공하는 단계를 추가로 포함하는 방법.
  22. 제 18항에 있어서,
    상기 방법은 상기 미디어 항목의 액세스가 이루어지는 동안 음성 합성으로 상기 연관된 음성 메타데이터를 재생성하는 단계(reproducing)를 추가로 포함하는 방법.
  23. 방법에 있어서,
    변환된 텍스트 스트링을 미디어 항목과 매칭시키는 단계; 및
    상기 미디어 항목의 상기 변환된 텍스트 스트링에 대한 공식적인 음성 전사와 연관된 스트링을 식별하기 위해 상기 변환된 텍스트를 대안 문구 맵퍼(alternate phase mapper)를 통해 처리하는 단계
    를 포함하는 방법.
  24. 제 23항에 있어서,
    상기 방법은 애플리케이션에 의해 사용하기 위해 상기 미디어 항목에 대한 공식적인 음성 전사와 연관된 상기 스트링을 제공하는 단계를 추가로 포함하는 방 법.
  25. 제 24항에 있어서,
    상기 방법은 상기 애플리케이션을 실행하는 디바이스 상에서 공식적인 음성 전사와 연관된 상기 스트링을 사용하는 명령을 처리하는 단계를 추가로 포함하는 방법.
  26. 제 23항에 있어서,
    상기 방법은
    문구(phrase)를 획득하는 단계; 및
    음성 인식으로 상기 문구를 변환된 텍스트 스트링으로 변환시키는 단계
    를 추가로 포함하는 방법.
  27. 방법에 있어서,
    스트링 및 목적 애플리케이션(target application)의 구두 언어를 검출하는 단계;
    상기 스트링과 연관된 음성 전사를 액세스하는 단계; 및
    상기 목적 애플리케이션의 상기 구두 언어로 상기 스트링과 연관된 상기 음성 전사를 제공하는 단계
    를 포함하는 방법.
  28. 제 27항에 있어서,
    상기 방법은 음성 합성을 통해 상기 스트링의 상기 음성 전사를 재생성하는 단계(reproducing)를 추가로 포함하는 방법.
  29. 제 27항에 있어서,
    상기 방법은 미디어 타이틀, 주요 아티스트, 트랙 타이틀, 트랙 주요 아티스트 이름, 명령 어레이, 또는 제공자 중 적어도 하나로 이루어진 디스플레이 텍스트를 포함하는 스트링을 액세스하는 단계를 추가로 포함하는 방법.
  30. 제 27항에 있어서,
    상기 스트링과 연관된 상기 음성 전사를 액세스하는 단계는 상기 목적 애플리케이션의 상기 구두 언어에 대해 지역화된 예외(regionalized exception)가 사용가능할 때, 상기 스트링과 연관된 지역화된 음성 전사를 액세스하는 단계를 포함하는 방법.
  31. 제 27항에 있어서,
    상기 방법은 G2P를 사용하여 상기 목적 애플리케이션의 상기 구두 언어로 상기 스트링에 대한 음성 전사를 생성하는 단계를 추가로 포함하는 방법.
  32. 제 27항에 있어서,
    상기 방법은
    상기 스트링의 상기 구두 언어로 상기 스트링에 대한 음성 전사를 생성하는 단계; 및
    음소 변환 맵(phoneme conversion map)을 사용하여 상기 음성 전사를 상기 목적 애플리케이션의 상기 구두 언어로 변환하는 단계
    를 추가로 포함하는 방법.
  33. 제 27항에 있어서,
    상기 방법은 상기 음성 전사를 상기 목적 애플리케이션의 상기 구두 언어로 변환하는 단계를 추가로 포함하는 방법.
  34. 제 27항에 있어서,
    상기 방법은
    상기 음성 전사에 대한 음성 언어 변환 맵(phonetic language conversion map)를 액세스하는 단계; 및
    상기 음성 언어 변환 맵을 사용하여 상기 음성 전사를 상기 목적 애플리케이션의 언어로 변환하는 단계
    를 추가로 포함하는 방법.
  35. 제 27항에 있어서,
    상기 방법은 재생 디바이스(playback dvice)의 임베드형 애플리케이션(embedded application)으로 상기 음성 전사를 재생성하는 단계(reproducing)를 추가로 포함하는 방법.
  36. 명령어(instructions)를 포함하는 머신-판독가능 매체(machine-readable medium)에 있어서,
    상기 명령어가 머신에 의해 실행될 때, 상기 명령어는 상기 머신이
    미디어 메타데이터의 복수의 스트링을 액세스하고;
    각각의 스트링의 출처 언어로 상기 복수의 스트링의 각각에 대해 적어도 하나의 공식적인 음성 전사를 생성하도록
    해주는
    머신-판독가능 매체.
  37. 제 36항에 있어서,
    상기 머신-판독가능 매체는 명령어를 추가로 포함하고,
    상기 추가 명령어가 머신에 의해 실행될 때, 상기 추가 명령어는 상기 머신이 각각의 스트링의 비출처 언어로 상기 복수의 스트링의 적어도 일부분에 대해 적어도 하나의 대안적인 음성 전사를 생성하도록 해주는
    머신-판독가능 매체.
  38. 명령어(instructions)를 포함하는 머신-판독가능 매체(machine-readable medium)에 있어서,
    상기 명령어가 머신에 의해 실행될 때, 상기 명령어는 상기 머신이
    변환된 텍스트 스트링과 미디어 항목을 매칭시키고;
    상기 미디어 항목의 상기 변환된 텍스트 스트링에 대해 공식적인 음성 전사와 연관된 스트링을 식별하기 위해 상기 변환된 텍스트를 대안 문구 맵퍼(alternate phase mapper)를 통해 처리하며;
    음성 합성으로 상기 공식적인 음성 전사와 연관된 상기 스트링을 처리하도록
    해주는
    머신-판독가능 매체.
  39. 명령어(instructions)를 포함하는 머신-판독가능 매체(machine-readable medium)에 있어서,
    상기 명령어가 머신에 의해 실행될 때, 상기 명령어는 상기 머신이
    스트링 및 목적 애플리케이션(target application)의 구두 언어 검출을 수행하고;
    상기 스트링과 연관된 음성 전사를 액세스하며;
    음성 합성을 통해 상기 목적 애플리케이션의 상기 구두 언어로 상기 스트링과 연관된 상기 음성 전사를 재생성하도록
    해주는
    머신-판독가능 매체.
  40. 장치에 있어서,
    미디어 메타데이터의 복수의 스트링을 액세스하는 수단; 및
    각각의 스트링의 출처 언어로 상기 복수의 스트링의 각각에 대해 적어도 하나의 공식적인 음성 전사를 생성하는 수단
    을 포함하는 장치.
  41. 제 40항에 있어서,
    상기 장치는 각각의 스트링의 비출처 언어(non-origin language)로 상기 복수의 스트링의 적어도 일부분에 대해 적어도 하나의 대안적인 음성 전사를 생성하는 수단을 추가로 포함하는 장치.
KR1020087006463A 2005-08-19 2006-08-21 재생 디바이스의 동작을 제어하는 방법 및 시스템 KR20080043358A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US70956005P 2005-08-19 2005-08-19
US60/709,560 2005-08-19

Publications (1)

Publication Number Publication Date
KR20080043358A true KR20080043358A (ko) 2008-05-16

Family

ID=37758509

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087006463A KR20080043358A (ko) 2005-08-19 2006-08-21 재생 디바이스의 동작을 제어하는 방법 및 시스템

Country Status (5)

Country Link
US (1) US20090076821A1 (ko)
EP (1) EP1934828A4 (ko)
JP (1) JP2009505321A (ko)
KR (1) KR20080043358A (ko)
WO (1) WO2007022533A2 (ko)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719028B2 (en) 2009-01-08 2014-05-06 Alpine Electronics, Inc. Information processing apparatus and text-to-speech method
US9686596B2 (en) 2008-11-26 2017-06-20 Free Stream Media Corp. Advertisement targeting through embedded scripts in supply-side and demand-side platforms
US9703947B2 (en) 2008-11-26 2017-07-11 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9716736B2 (en) 2008-11-26 2017-07-25 Free Stream Media Corp. System and method of discovery and launch associated with a networked media device
US9961388B2 (en) 2008-11-26 2018-05-01 David Harrison Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements
US9986279B2 (en) 2008-11-26 2018-05-29 Free Stream Media Corp. Discovery, access control, and communication with networked services
US10334324B2 (en) 2008-11-26 2019-06-25 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10419541B2 (en) 2008-11-26 2019-09-17 Free Stream Media Corp. Remotely control devices over a network without authentication or registration
US10567823B2 (en) 2008-11-26 2020-02-18 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10631068B2 (en) 2008-11-26 2020-04-21 Free Stream Media Corp. Content exposure attribution based on renderings of related content across multiple devices
US10880340B2 (en) 2008-11-26 2020-12-29 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US10977693B2 (en) 2008-11-26 2021-04-13 Free Stream Media Corp. Association of content identifier of audio-visual data with additional data through capture infrastructure

Families Citing this family (320)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
WO2002017135A1 (en) 2000-08-23 2002-02-28 Koninklijke Philips Electronics N.V. Method of enhancing rendering of a content item, client system and server system
CN1235408C (zh) 2001-02-12 2006-01-04 皇家菲利浦电子有限公司 生成和匹配多媒体内容的散列
US20190278560A1 (en) 2004-10-27 2019-09-12 Chestnut Hill Sound, Inc. Media appliance with auxiliary source module docking and fail-safe alarm modes
US8090309B2 (en) * 2004-10-27 2012-01-03 Chestnut Hill Sound, Inc. Entertainment system with unified content selection
US7885622B2 (en) * 2004-10-27 2011-02-08 Chestnut Hill Sound Inc. Entertainment system with bandless tuning
EP1926027A1 (en) * 2005-04-22 2008-05-28 Strands Labs S.A. System and method for acquiring and aggregating data relating to the reproduction of multimedia files or elements
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
WO2007103583A2 (en) 2006-03-09 2007-09-13 Gracenote, Inc. Method and system for media navigation
CN101467142A (zh) * 2006-04-04 2009-06-24 约翰逊控制技术公司 在车辆中从数字媒体存储设备提取元数据以用于媒体选择的系统和方法
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
WO2007147077A2 (en) 2006-06-14 2007-12-21 Personics Holdings Inc. Earguard monitoring system
WO2008008730A2 (en) 2006-07-08 2008-01-17 Personics Holdings Inc. Personal audio assistant device and method
KR20080015567A (ko) * 2006-08-16 2008-02-20 삼성전자주식회사 휴대 장치를 위한 음성기반 파일 정보 안내 시스템 및 방법
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7930644B2 (en) * 2006-09-13 2011-04-19 Savant Systems, Llc Programming environment and metadata management for programmable multimedia controller
US9087507B2 (en) * 2006-09-15 2015-07-21 Yahoo! Inc. Aural skimming and scrolling
KR20080047830A (ko) * 2006-11-27 2008-05-30 삼성전자주식회사 언어추정을 통한 파일 정보 제공방법 및 이를 적용한 파일재생장치
US9317179B2 (en) 2007-01-08 2016-04-19 Samsung Electronics Co., Ltd. Method and apparatus for providing recommendations to a user of a cloud computing service
US7937451B2 (en) 2007-01-08 2011-05-03 Mspot, Inc. Method and apparatus for transferring digital content from a computer to a mobile handset
WO2008091874A2 (en) 2007-01-22 2008-07-31 Personics Holdings Inc. Method and device for acute sound detection and reproduction
US20080177623A1 (en) * 2007-01-24 2008-07-24 Juergen Fritsch Monitoring User Interactions With A Document Editing System
US11750965B2 (en) 2007-03-07 2023-09-05 Staton Techiya, Llc Acoustic dampening compensation system
WO2008113391A1 (en) * 2007-03-21 2008-09-25 Tomtom International B.V. Apparatus for text-to-speech delivery and method therefor
US9170120B2 (en) * 2007-03-22 2015-10-27 Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America Vehicle navigation playback method
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8111839B2 (en) 2007-04-09 2012-02-07 Personics Holdings Inc. Always on headwear recording system
US11317202B2 (en) * 2007-04-13 2022-04-26 Staton Techiya, Llc Method and device for voice operated control
US20080274687A1 (en) 2007-05-02 2008-11-06 Roberts Dale T Dynamic mixed media package
US11856375B2 (en) 2007-05-04 2023-12-26 Staton Techiya Llc Method and device for in-ear echo suppression
US10194032B2 (en) 2007-05-04 2019-01-29 Staton Techiya, Llc Method and apparatus for in-ear canal sound suppression
US11683643B2 (en) 2007-05-04 2023-06-20 Staton Techiya Llc Method and device for in ear canal echo suppression
US8583615B2 (en) * 2007-08-31 2013-11-12 Yahoo! Inc. System and method for generating a playlist from a mood gradient
US8103506B1 (en) * 2007-09-20 2012-01-24 United Services Automobile Association Free text matching system and method
US20090094285A1 (en) * 2007-10-03 2009-04-09 Mackle Edward G Recommendation apparatus
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
JP2009239825A (ja) * 2008-03-28 2009-10-15 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
US8676577B2 (en) * 2008-03-31 2014-03-18 Canyon IP Holdings, LLC Use of metadata to post process speech recognition output
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2010011637A1 (en) * 2008-07-21 2010-01-28 Strands, Inc Ambient collage display of digital media content
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100036666A1 (en) * 2008-08-08 2010-02-11 Gm Global Technology Operations, Inc. Method and system for providing meta data for a work
US8600067B2 (en) 2008-09-19 2013-12-03 Personics Holdings Inc. Acoustic sealing analysis system
US9129291B2 (en) 2008-09-22 2015-09-08 Personics Holdings, Llc Personalized sound management and method
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8254993B2 (en) * 2009-03-06 2012-08-28 Apple Inc. Remote messaging for mobile communication device and accessory
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9946583B2 (en) * 2009-03-16 2018-04-17 Apple Inc. Media player framework
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
TW201104465A (en) * 2009-07-17 2011-02-01 Aibelive Co Ltd Voice songs searching method
US20110029928A1 (en) * 2009-07-31 2011-02-03 Apple Inc. System and method for displaying interactive cluster-based media playlists
JP2011043710A (ja) * 2009-08-21 2011-03-03 Sony Corp 音声処理装置、音声処理方法及びプログラム
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
BR112012017881A2 (pt) * 2010-01-19 2016-05-03 Visa Int Service Ass método, mídia legível por computador não transitória, e, sistema
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110231189A1 (en) * 2010-03-19 2011-09-22 Nuance Communications, Inc. Methods and apparatus for extracting alternate media titles to facilitate speech recognition
US8527268B2 (en) * 2010-06-30 2013-09-03 Rovi Technologies Corporation Method and apparatus for improving speech recognition and identifying video program material or content
US8761545B2 (en) 2010-11-19 2014-06-24 Rovi Technologies Corporation Method and apparatus for identifying video program material or content via differential signals
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
EP2659366A1 (en) 2010-12-30 2013-11-06 Ambientz Information processing using a population of data acquisition devices
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9368107B2 (en) * 2011-04-20 2016-06-14 Nuance Communications, Inc. Permitting automated speech command discovery via manual event to command mapping
US10362381B2 (en) 2011-06-01 2019-07-23 Staton Techiya, Llc Methods and devices for radio frequency (RF) mitigation proximate the ear
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8612442B2 (en) 2011-11-16 2013-12-17 Google Inc. Displaying auto-generated facts about a music library
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) * 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
JP2014109889A (ja) * 2012-11-30 2014-06-12 Toshiba Corp コンテンツ検索装置、コンテンツ検索方法及び制御プログラム
US9218805B2 (en) * 2013-01-18 2015-12-22 Ford Global Technologies, Llc Method and apparatus for incoming audio processing
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10157618B2 (en) 2013-05-02 2018-12-18 Xappmedia, Inc. Device, system, method, and computer-readable medium for providing interactive advertising
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
US9620148B2 (en) * 2013-07-01 2017-04-11 Toyota Motor Engineering & Manufacturing North America, Inc. Systems, vehicles, and methods for limiting speech-based access to an audio metadata database
US10176179B2 (en) * 2013-07-25 2019-01-08 Google Llc Generating playlists using calendar, location and event data
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9167082B2 (en) 2013-09-22 2015-10-20 Steven Wayne Goldstein Methods and systems for voice augmented caller ID / ring tone alias
US20150106394A1 (en) * 2013-10-16 2015-04-16 Google Inc. Automatically playing audio announcements in music player
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
KR20160044954A (ko) * 2014-10-16 2016-04-26 삼성전자주식회사 정보 제공 방법 및 이를 구현하는 전자 장치
US10163453B2 (en) 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10418016B2 (en) 2015-05-29 2019-09-17 Staton Techiya, Llc Methods and devices for attenuating sound in a conduit or chamber
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US9978366B2 (en) * 2015-10-09 2018-05-22 Xappmedia, Inc. Event-based speech interactive media player
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10616693B2 (en) 2016-01-22 2020-04-07 Staton Techiya Llc System and method for efficiency among devices
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10743101B2 (en) 2016-02-22 2020-08-11 Sonos, Inc. Content mixing
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10142754B2 (en) 2016-02-22 2018-11-27 Sonos, Inc. Sensor on moving component of transducer
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10318236B1 (en) * 2016-05-05 2019-06-11 Amazon Technologies, Inc. Refining media playback
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10979331B2 (en) * 2017-05-16 2021-04-13 Apple Inc. Reducing startup delays for presenting remote media items
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) * 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10869105B2 (en) * 2018-03-06 2020-12-15 Dish Network L.L.C. Voice-driven metadata media content tagging
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10951994B2 (en) 2018-04-04 2021-03-16 Staton Techiya, Llc Method to acquire preferred dynamic range function for speech enhancement
US11308947B2 (en) * 2018-05-07 2022-04-19 Spotify Ab Voice recognition system for use with a personal media streaming appliance
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10803864B2 (en) 2018-05-07 2020-10-13 Spotify Ab Voice recognition system for use with a personal media streaming appliance
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
EP3598295A1 (en) 2018-07-18 2020-01-22 Spotify AB Human-machine interfaces for utterance-based playlist selection
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US20200143805A1 (en) * 2018-11-02 2020-05-07 Spotify Ab Media content steering
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11501764B2 (en) * 2019-05-10 2022-11-15 Spotify Ab Apparatus for media entity pronunciation using deep learning
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CA3161400A1 (en) * 2019-12-11 2021-06-17 Zachary Silverzweig Unambiguous phonics system
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11556596B2 (en) * 2019-12-31 2023-01-17 Spotify Ab Systems and methods for determining descriptors for media content items
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11281710B2 (en) 2020-03-20 2022-03-22 Spotify Ab Systems and methods for selecting images for a media item
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
EP3910495A1 (en) * 2020-05-12 2021-11-17 Apple Inc. Reducing description length based on confidence
WO2021231197A1 (en) * 2020-05-12 2021-11-18 Apple Inc. Reducing description length based on confidence
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11663267B2 (en) * 2020-07-28 2023-05-30 Rovi Guides, Inc. Systems and methods for leveraging metadata for cross product playlist addition via voice control
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US20220180870A1 (en) * 2020-12-04 2022-06-09 Samsung Electronics Co., Ltd. Method for controlling external device based on voice and electronic device thereof
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Family Cites Families (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3036552C2 (de) * 1980-09-27 1985-04-25 Blaupunkt-Werke Gmbh, 3200 Hildesheim Fernsehempfangsanlage
US5206949A (en) * 1986-09-19 1993-04-27 Nancy P. Cochran Database search and record retrieval system which continuously displays category names during scrolling and selection of individually displayed search terms
JP2849161B2 (ja) * 1989-10-14 1999-01-20 三菱電機株式会社 情報再生装置
JPH0786737B2 (ja) * 1989-12-13 1995-09-20 パイオニア株式会社 車載ナビゲーション装置
US5781889A (en) * 1990-06-15 1998-07-14 Martin; John R. Computer jukebox and jukebox network
DE4021707A1 (de) * 1990-07-07 1992-01-09 Nsm Ag Muenzbetaetigter musikautomat
US5237157A (en) * 1990-09-13 1993-08-17 Intouch Group, Inc. Kiosk apparatus and method for point of preview and for compilation of market data
US5446891A (en) * 1992-02-26 1995-08-29 International Business Machines Corporation System for adjusting hypertext links with weighed user goals and activities
JPH05303874A (ja) * 1992-04-24 1993-11-16 Pioneer Electron Corp 情報再生装置
EP0580361B1 (en) * 1992-07-21 2000-02-02 Pioneer Electronic Corporation Disc player and method of reproducing information of the same
US5691964A (en) * 1992-12-24 1997-11-25 Nsm Aktiengesellschaft Music playing system with decentralized units
US5410543A (en) * 1993-01-04 1995-04-25 Apple Computer, Inc. Method for connecting a mobile computer to a computer network by using an address server
US5464946A (en) * 1993-02-11 1995-11-07 Multimedia Systems Corporation System and apparatus for interactive multimedia entertainment
US5475835A (en) * 1993-03-02 1995-12-12 Research Design & Marketing Inc. Audio-visual inventory and play-back control system
DE69434923T2 (de) * 1993-05-26 2007-12-06 Pioneer Electronic Corp. Aufzeichnungsmedium
US5583560A (en) * 1993-06-22 1996-12-10 Apple Computer, Inc. Method and apparatus for audio-visual interface for the selective display of listing information on a display
US5694162A (en) * 1993-10-15 1997-12-02 Automated Business Companies, Inc. Method for automatically changing broadcast programs based on audience response
US5699329A (en) * 1994-05-25 1997-12-16 Sony Corporation Reproducing apparatus for a recording medium and control apparatus therefor
JP3575063B2 (ja) * 1994-07-04 2004-10-06 ソニー株式会社 再生装置、再生方法
US6560349B1 (en) * 1994-10-21 2003-05-06 Digimarc Corporation Audio monitoring using steganographic information
US5642337A (en) * 1995-03-14 1997-06-24 Sony Corporation Network with optical mass storage devices
WO1996030904A2 (en) * 1995-03-30 1996-10-03 Philips Electronics N.V. System including a presentation apparatus, in which different items are selectable, and a control device for controlling the presentation apparatus, and control device for such a system
US5625608A (en) * 1995-05-22 1997-04-29 Lucent Technologies Inc. Remote control device capable of downloading content information from an audio system
US5615345A (en) * 1995-06-08 1997-03-25 Hewlett-Packard Company System for interfacing an optical disk autochanger to a plurality of disk drives
US5751672A (en) * 1995-07-26 1998-05-12 Sony Corporation Compact disc changer utilizing disc database
US6505160B1 (en) * 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
US6408331B1 (en) * 1995-07-27 2002-06-18 Digimarc Corporation Computer linking methods using encoded graphics
US7562392B1 (en) * 1999-05-19 2009-07-14 Digimarc Corporation Methods of interacting with audio and ambient music
US6829368B2 (en) * 2000-01-26 2004-12-07 Digimarc Corporation Establishing and interacting with on-line media collections using identifiers in media signals
JP3471526B2 (ja) * 1995-07-28 2003-12-02 松下電器産業株式会社 情報提供装置
US5822216A (en) * 1995-08-17 1998-10-13 Satchell, Jr.; James A. Vending machine and computer assembly
JP3898242B2 (ja) * 1995-09-14 2007-03-28 富士通株式会社 ネットワーク端末の出力を変更する情報変更システムおよび方法
US6314570B1 (en) * 1996-02-08 2001-11-06 Matsushita Electric Industrial Co., Ltd. Data processing apparatus for facilitating data selection and data processing in at television environment with reusable menu structures
US5761606A (en) * 1996-02-08 1998-06-02 Wolzien; Thomas R. Media online services access via address embedded in video or audio program
US5781909A (en) * 1996-02-13 1998-07-14 Microtouch Systems, Inc. Supervised satellite kiosk management system with combined local and remote data storage
US6189030B1 (en) * 1996-02-21 2001-02-13 Infoseek Corporation Method and apparatus for redirection of server external hyper-link references
US5751956A (en) * 1996-02-21 1998-05-12 Infoseek Corporation Method and apparatus for redirection of server external hyper-link references
US5838910A (en) * 1996-03-14 1998-11-17 Domenikos; Steven D. Systems and methods for executing application programs from a memory device linked to a server at an internet site
US5815471A (en) * 1996-03-19 1998-09-29 Pics Previews Inc. Method and apparatus for previewing audio selections
US5673322A (en) * 1996-03-22 1997-09-30 Bell Communications Research, Inc. System and method for providing protocol translation and filtering to access the world wide web from wireless or low-bandwidth networks
US6025837A (en) * 1996-03-29 2000-02-15 Micrsoft Corporation Electronic program guide with hyperlinks to target resources
US5894554A (en) * 1996-04-23 1999-04-13 Infospinner, Inc. System for managing dynamic web page generation requests by intercepting request at web server and routing to page server thereby releasing web server to process other requests
US5903816A (en) * 1996-07-01 1999-05-11 Thomson Consumer Electronics, Inc. Interactive television system and method for displaying web-like stills with hyperlinks
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US5721827A (en) * 1996-10-02 1998-02-24 James Logan System for electrically distributing personalized information
US5774666A (en) * 1996-10-18 1998-06-30 Silicon Graphics, Inc. System and method for displaying uniform network resource locators embedded in time-based medium
US5796393A (en) * 1996-11-08 1998-08-18 Compuserve Incorporated System for intergrating an on-line service community with a foreign service
US6138162A (en) * 1997-02-11 2000-10-24 Pointcast, Inc. Method and apparatus for configuring a client to redirect requests to a caching proxy server based on a category ID with the request
US5835914A (en) * 1997-02-18 1998-11-10 Wall Data Incorporated Method for preserving and reusing software objects associated with web pages
US5959945A (en) * 1997-04-04 1999-09-28 Advanced Technology Research Sa Cv System for selectively distributing music to a plurality of jukeboxes
US6175857B1 (en) * 1997-04-30 2001-01-16 Sony Corporation Method and apparatus for processing attached e-mail data and storage medium for processing program for attached data
US6226672B1 (en) * 1997-05-02 2001-05-01 Sony Corporation Method and system for allowing users to access and/or share media libraries, including multimedia collections of audio and video information via a wide area network
US6243725B1 (en) * 1997-05-21 2001-06-05 Premier International, Ltd. List building system
US5987454A (en) * 1997-06-09 1999-11-16 Hobbs; Allen Method and apparatus for selectively augmenting retrieved text, numbers, maps, charts, still pictures and/or graphics, moving pictures and/or graphics and audio information from a network resource
US6131129A (en) * 1997-07-30 2000-10-10 Sony Corporation Of Japan Computer system within an AV/C based media changer subunit providing a standarized command set
US6112240A (en) * 1997-09-03 2000-08-29 International Business Machines Corporation Web site client information tracker
US6104334A (en) * 1997-12-31 2000-08-15 Eremote, Inc. Portable internet-enabled controller and information browser for consumer devices
US6243328B1 (en) * 1998-04-03 2001-06-05 Sony Corporation Modular media storage system and integrated player unit and method for accessing additional external information
US6138175A (en) * 1998-05-20 2000-10-24 Oak Technology, Inc. System for dynamically optimizing DVD navigational commands by combining a first and a second navigational commands retrieved from a medium for playback
US6327233B1 (en) * 1998-08-14 2001-12-04 Intel Corporation Method and apparatus for reporting programming selections from compact disk players
US8332478B2 (en) * 1998-10-01 2012-12-11 Digimarc Corporation Context sensitive connected content
JP2000194726A (ja) * 1998-10-19 2000-07-14 Sony Corp 情報処理装置及び方法、情報処理システム並びに提供媒体
US6941325B1 (en) * 1999-02-01 2005-09-06 The Trustees Of Columbia University Multimedia archive description scheme
US6535869B1 (en) * 1999-03-23 2003-03-18 International Business Machines Corporation Increasing efficiency of indexing random-access files composed of fixed-length data blocks by embedding a file index therein
US7302574B2 (en) * 1999-05-19 2007-11-27 Digimarc Corporation Content identifiers triggering corresponding responses through collaborative processing
US6941275B1 (en) * 1999-10-07 2005-09-06 Remi Swierczek Music identification system
US6496802B1 (en) * 2000-01-07 2002-12-17 Mp3.Com, Inc. System and method for providing access to electronic works
JP2003058180A (ja) * 2001-06-08 2003-02-28 Matsushita Electric Ind Co Ltd 合成音販売システムおよび音素の著作権認定システム
US7203692B2 (en) * 2001-07-16 2007-04-10 Sony Corporation Transcoding between content data and description data
US20030033463A1 (en) * 2001-08-10 2003-02-13 Garnett Paul J. Computer system storage
US6775374B2 (en) * 2001-09-25 2004-08-10 Sanyo Electric Co., Ltd. Network device control system, network interconnection apparatus and network device
US20050154588A1 (en) * 2001-12-12 2005-07-14 Janas John J.Iii Speech recognition and control in a process support system
US7117200B2 (en) * 2002-01-11 2006-10-03 International Business Machines Corporation Synthesizing information-bearing content from multiple channels
US7073193B2 (en) * 2002-04-16 2006-07-04 Microsoft Corporation Media content descriptions
JP3938015B2 (ja) * 2002-11-19 2007-06-27 ヤマハ株式会社 音声再生装置
US20040102973A1 (en) * 2002-11-21 2004-05-27 Lott Christopher B. Process, apparatus, and system for phonetic dictation and instruction
US20060026162A1 (en) * 2004-07-19 2006-02-02 Zoran Corporation Content management system
US7644103B2 (en) * 2005-01-25 2010-01-05 Microsoft Corporation MediaDescription data structures for carrying descriptive content metadata and content acquisition data in multimedia systems

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032191B2 (en) 2008-11-26 2018-07-24 Free Stream Media Corp. Advertisement targeting through embedded scripts in supply-side and demand-side platforms
US9716736B2 (en) 2008-11-26 2017-07-25 Free Stream Media Corp. System and method of discovery and launch associated with a networked media device
US10986141B2 (en) 2008-11-26 2021-04-20 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9703947B2 (en) 2008-11-26 2017-07-11 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US10074108B2 (en) 2008-11-26 2018-09-11 Free Stream Media Corp. Annotation of metadata through capture infrastructure
US9838758B2 (en) 2008-11-26 2017-12-05 David Harrison Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9848250B2 (en) 2008-11-26 2017-12-19 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US10142377B2 (en) 2008-11-26 2018-11-27 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9866925B2 (en) 2008-11-26 2018-01-09 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9961388B2 (en) 2008-11-26 2018-05-01 David Harrison Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements
US9967295B2 (en) 2008-11-26 2018-05-08 David Harrison Automated discovery and launch of an application on a network enabled device
US9986279B2 (en) 2008-11-26 2018-05-29 Free Stream Media Corp. Discovery, access control, and communication with networked services
US9706265B2 (en) 2008-11-26 2017-07-11 Free Stream Media Corp. Automatic communications between networked devices such as televisions and mobile devices
US9686596B2 (en) 2008-11-26 2017-06-20 Free Stream Media Corp. Advertisement targeting through embedded scripts in supply-side and demand-side platforms
US9854330B2 (en) 2008-11-26 2017-12-26 David Harrison Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US10334324B2 (en) 2008-11-26 2019-06-25 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10419541B2 (en) 2008-11-26 2019-09-17 Free Stream Media Corp. Remotely control devices over a network without authentication or registration
US10425675B2 (en) 2008-11-26 2019-09-24 Free Stream Media Corp. Discovery, access control, and communication with networked services
US10567823B2 (en) 2008-11-26 2020-02-18 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10631068B2 (en) 2008-11-26 2020-04-21 Free Stream Media Corp. Content exposure attribution based on renderings of related content across multiple devices
US10771525B2 (en) 2008-11-26 2020-09-08 Free Stream Media Corp. System and method of discovery and launch associated with a networked media device
US10791152B2 (en) 2008-11-26 2020-09-29 Free Stream Media Corp. Automatic communications between networked devices such as televisions and mobile devices
US10880340B2 (en) 2008-11-26 2020-12-29 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US10977693B2 (en) 2008-11-26 2021-04-13 Free Stream Media Corp. Association of content identifier of audio-visual data with additional data through capture infrastructure
US8719028B2 (en) 2009-01-08 2014-05-06 Alpine Electronics, Inc. Information processing apparatus and text-to-speech method

Also Published As

Publication number Publication date
US20090076821A1 (en) 2009-03-19
WO2007022533A2 (en) 2007-02-22
EP1934828A4 (en) 2008-10-08
JP2009505321A (ja) 2009-02-05
WO2007022533A3 (en) 2007-06-28
EP1934828A2 (en) 2008-06-25

Similar Documents

Publication Publication Date Title
US20090076821A1 (en) Method and apparatus to control operation of a playback device
US7684991B2 (en) Digital audio file search method and apparatus using text-to-speech processing
US9824150B2 (en) Systems and methods for providing information discovery and retrieval
US9153233B2 (en) Voice-controlled selection of media files utilizing phonetic data
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US8719028B2 (en) Information processing apparatus and text-to-speech method
US7461122B2 (en) Music delivery system
US20060206339A1 (en) System and method for voice-enabled media content selection on mobile devices
US20100082328A1 (en) Systems and methods for speech preprocessing in text to speech synthesis
JP2014219614A (ja) オーディオ装置、ビデオ装置及びコンピュータプログラム
US20210335349A1 (en) Systems and methods for improving fulfillment of media content related requests via utterance-based human-machine interfaces
US11574627B2 (en) Masking systems and methods
JP5465926B2 (ja) 音声認識辞書作成装置及び音声認識辞書作成方法
KR20020027382A (ko) 콘텐트 정보의 의미론에 따른 음성 명령
EP3648106B1 (en) Media content steering
US20070260590A1 (en) Method to Query Large Compressed Audio Databases
KR101576683B1 (ko) 히스토리 저장모듈을 포함하는 오디오 재생장치 및 재생방법
JP5431817B2 (ja) 楽曲データベース更新装置及び楽曲データベース更新方法
US11886486B2 (en) Apparatus, systems and methods for providing segues to contextualize media content
JP2011150169A (ja) 音声認識装置
KR20050106246A (ko) 엠펙 플레이어에 있어서 데이터 검색 방법

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid