KR102500694B1 - 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 제작하는 컴퓨터 시스템 및 그의 방법 - Google Patents

사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 제작하는 컴퓨터 시스템 및 그의 방법 Download PDF

Info

Publication number
KR102500694B1
KR102500694B1 KR1020210072524A KR20210072524A KR102500694B1 KR 102500694 B1 KR102500694 B1 KR 102500694B1 KR 1020210072524 A KR1020210072524 A KR 1020210072524A KR 20210072524 A KR20210072524 A KR 20210072524A KR 102500694 B1 KR102500694 B1 KR 102500694B1
Authority
KR
South Korea
Prior art keywords
area
audio
objects
computer system
audio files
Prior art date
Application number
KR1020210072524A
Other languages
English (en)
Other versions
KR20220071869A (ko
Inventor
김대황
김정식
김동환
이태규
서정훈
오지원
Original Assignee
네이버 주식회사
가우디오랩 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사, 가우디오랩 주식회사 filed Critical 네이버 주식회사
Priority to US17/534,823 priority Critical patent/US11930349B2/en
Priority to JP2021190472A priority patent/JP2022083445A/ja
Publication of KR20220071869A publication Critical patent/KR20220071869A/ko
Application granted granted Critical
Publication of KR102500694B1 publication Critical patent/KR102500694B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

다양한 실시예들은 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 제작하는 컴퓨터 시스템 및 그의 방법에 관한 것으로, 현장에서 복수의 객체들에 의해 각각 발생되는 오디오 신호들에 기반하여 오디오 파일들을 각각 생성하고, 제작 툴을 이용하여, 객체들에 대해 현장에서의 공간적 특징들을 각각 설정하고, 공간적 특징들을 기반으로, 오디오 파일들에 대한 메타 데이터를 생성하도록 구성될 수 있다. 다양한 실시예들에 따르면, 전자 장치는, 메타 데이터에서의 공간적 특징들을 기반으로, 오디오 파일들을 렌더링함으로써, 현장에 대한 현장감을 실현 실현할 수 있다. 즉, 전자 장치의 사용자는, 객체들이 배치되는 현장에서, 해당 객체들이 발생시키는 오디오 신호들을 직접 듣는 것과 같은, 사용자 맞춤형 현장감을 느낄 수 있을 것이다.

Description

사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 제작하는 컴퓨터 시스템 및 그의 방법{COMPUTER SYSTEM FOR PRODUCING AUDIO CONTENT FOR REALZING CUSTOMIZED BEING-THERE AND METHOD THEREOF}
다양한 실시예들은 제작 툴을 이용하여, 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 제작하는 컴퓨터 시스템 및 그의 방법에 관한 것이다.
일반적으로, 콘텐츠 제공 서버가 사용자를 위해, 완성된 형태의 오디오 콘텐츠를 제공한다. 이 때 완성된 형태의 오디오 콘텐츠는 복수의 오디오 신호들이 믹싱되어 구현되며, 예컨대 스테레오 형태의 오디오 콘텐츠를 나타낸다. 이를 통해, 사용자의 전자 장치가 완성된 형태의 오디오 콘텐츠를 수신하고, 이를 재생할 뿐이다. 즉, 사용자는 완성된 형태의 오디오 콘텐츠에 기반하여, 정해진 구성의 음향을 들을 뿐이다.
다양한 실시예들은, 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 제작하는 컴퓨터 시스템 및 그의 방법을 제공한다.
다양한 실시예들에 따른 컴퓨터 시스템에 의한 방법은, 현장에서 복수의 객체들에 의해 각각 발생되는 오디오 신호들에 기반하여 오디오 파일들을 각각 생성하는 단계, 제작 툴을 이용하여, 상기 객체들에 대해 상기 현장에서의 공간적 특징들을 각각 설정하는 단계, 및 상기 공간적 특징들을 기반으로, 상기 오디오 파일들에 대한 메타 데이터를 생성하는 단계를 포함할 수 있다.
다양한 실시예들에 따른 비-일시적인 컴퓨터 판독 가능한 기록 매체에 저장되는 컴퓨터 프로그램은, 상기 방법을 상기 컴퓨터 시스템에 실행시키기 위한 것일 수 있다.
다양한 실시예들에 따른 비-일시적인 컴퓨터 판독 가능한 기록 매체에는, 상기 방법을 상기 컴퓨터 시스템에 실행시키기 위한 프로그램이 기록되어 있을 수 있다.
다양한 실시예들에 따른 컴퓨터 시스템은, 메모리, 및 상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성된 프로세서를 포함하고, 상기 프로세서는, 현장에서 복수의 객체들에 의해 각각 발생되는 오디오 신호들에 기반하여 오디오 파일들을 각각 생성하고, 제작 툴을 이용하여, 상기 객체들에 대해 상기 현장에서의 공간적 특징들을 각각 설정하고, 상기 공간적 특징들을 기반으로, 상기 오디오 파일들에 대한 메타 데이터를 생성하도록 구성될 수 있다.
다양한 실시예들에 따르면, 사용자 맞춤형 현장감 구현을 위한 재료들로서 오디오 콘텐츠를 제작하기 위한 제작 툴이 제안될 수 있다. 이 때 컴퓨터 시스템은 어떤 현장에서의 복수의 객체들에 대한 오디오 파일들이 각각 생성할 수 있다. 그리고, 컴퓨터 시스템은 제작 툴을 이용하여, 객체들에 대한 현장에서의 공간적 특징들을 포함하는 메타 데이터를 생성하거나 오디오 파일들을 생성, 변경할 수 있다. 이 때, 컴퓨터 시스템은 창작자의 설정 기반으로, 객체들에 대해 공간적 특징들을 각각 생성할 수 있다. 이를 통해, 전자 장치는 완성된 형태의 오디오 콘텐츠를 단순히 재생하는 것이 아니라, 사용자 맞춤형 오디오 콘텐츠를 재생할 수 있다. 즉, 전자 장치는 메타 데이터에서의 공간적 특징들을 기반으로, 오디오 파일들을 렌더링하여 입체 음향을 구현할 수 있다. 따라서, 전자 장치는 오디오와 관련하여 사용자 맞춤형 현장감을 실현하고, 이로써 전자 장치의 사용자는, 특정 현장에서, 특정 객체들이 발생시키는 오디오 신호들을 직접 듣는 것과 같은, 사용자 맞춤형 현장감을 느낄 수 있을 것이다.
도 1은 다양한 실시예들에 따른 콘텐츠 제공 시스템을 도시하는 블록도이다.
도 2는 다양한 실시예들에 따른 콘텐츠 제공 시스템의 기능을 설명하기 위한 예시도이다.
도 3 및 도 4는 다양한 실시예들에 따른 컴퓨터 시스템의 제작 툴을 설명하기 위한 도면들이다.
도 5는 다양한 실시예들에 따른 컴퓨터 시스템의 내부 구성을 도시하는 블록도이다.
도 6은 다양한 실시예들에 따른 컴퓨터 시스템의 동작 절차를 도시하는 순서도이다.
도 7은 도 6의 오디오 파일들을 생성하는 단계의 세부 절차를 도시하는 순서도이다.
도 8은 도 6의 공간적 특징들을 설정하는 단계의 세부 절차를 도시하는 순서도이다.
도 9는 도 6의 메타 데이터를 생성하는 단계의 세부 절차를 도시하는 순서도이다.
도 10은 다양한 실시예들에 따른 전자 장치의 내부 구성을 도시하는 블록도이다.
도 11은 다양한 실시예들에 따른 전자 장치의 동작 절차를 도시하는 순서도이다.
이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 설명된다.
이하에서, 객체(object)라는 용어는 오디오 신호를 발생시키는 기기 또는 사람을 나타낼 수 있다. 예를 들면, 객체는 악기, 악기 연주자, 보컬리스트(vocalist), 대화자(talker), 반주나 음향 효과 등을 발생시키는 스피커, 또는 배경음(ambience)을 발생시키는 배경 중 하나를 포함할 수 있다. 그리고, 오디오 파일(audio file)이라는 용어는 각 객체에서 발생되는 오디오 신호에 대한 오디오 데이터를 나타낼 수 있다.
이하에서, 메타 데이터라는 용어는 적어도 하나의 오디오 파일의 속성을 설명하기 위한 정보를 나타낼 수 있다. 이 때 메타 데이터는 적어도 하나의 객체에 대한 적어도 하나의 공간적 특징을 포함할 수 있다. 예를 들면, 메타 데이터는 적어도 하나의 객체에 대한 위치 정보, 적어도 두 개의 객체들의 위치 조합을 나타내는 그룹 정보, 또는 적어도 하나의 객체가 배치될 수 있는 현장(venue)에 대한 환경 정보 중 적어도 하나를 포함할 수 있다. 그리고, 현장은, 예컨대 스튜디오(studio), 콘서트 홀(concert hall), 길거리(street), 스타디움(stadium) 등을 포함할 수 있다.
도 1은 다양한 실시예들에 따른 콘텐츠 제공 시스템(100)을 도시하는 블록도이다. 도 2는 다양한 실시예들에 따른 콘텐츠 제공 시스템(100)의 기능을 설명하기 위한 예시도이다. 도 3 및 도 4는 다양한 실시예들에 따른 컴퓨터 시스템의 제작 툴을 설명하기 위한 도면들이다.
도 1을 참조하면, 다양한 실시예들에 따른 콘텐츠 제공 시스템(100)은 컴퓨터 시스템(110) 및 전자 장치(150)를 포함할 수 있다. 예를 들면, 컴퓨터 시스템(110)은, 적어도 하나의 서버(server)를 포함할 수 있다. 예를 들면, 전자 장치(150)는 스마트폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(personal digital assistants), PMP(portable multimedia player), 태블릿 PC, 게임 콘솔(game console), 웨어러블 디바이스(wearable device), IoT(internet of things) 디바이스, 가전 기기, 의료 기기, 또는 로봇(robot) 중 적어도 하나를 포함할 수 있다.
컴퓨터 시스템(110)은 사용자를 위해 콘텐츠를 제공할 수 있다. 이 때 콘텐츠는 오디오 콘텐츠, 비디오 콘텐츠, 가상현실(virtual reality; VR) 콘텐츠, 증강현실(augmented reality; AR) 콘텐츠, 확장현실(extended reality; XR) 콘텐츠 등 다양한 형태의 콘텐츠들이 될 수 있다. 그리고, 콘텐츠는 플레인(plain) 콘텐츠 또는 이머시브(immersive) 콘텐츠 중 적어도 하나를 포함할 수 있다. 플레인 콘텐츠는 완성된 형태의 콘텐츠인 데 반해, 이머시브 콘텐츠는 사용자 맞춤 콘텐츠일 수 있다. 이하에서, 오디오 콘텐츠를 예를 들어 설명한다.
플레인 오디오 콘텐츠는, 복수의 객체들에 의해 발생되는 오디오 신호들이 믹싱되어 스테레오 형태로 구현될 수 있다. 예를 들면, 컴퓨터 시스템(110)은 도 2에 도시된 바와 같이, 현장에서 오디오 신호들이 믹싱된 오디오 신호를 획득하고, 이를 기반으로 플레인 오디오 콘텐츠를 생성할 수 있다. 한편, 이머시브 오디오 콘텐츠는 현장에서 복수의 객체들에 의해 발생되는 오디오 신호들에 대한 오디오 파일들 및 그에 대한 메타 데이터로 이루어질 수 있다. 이 때 이머시브 오디오 콘텐츠 내에서, 오디오 파일들과 그에 대한 메타 데이터는 개별적으로 존재할 수 있다. 예를 들면, 컴퓨터 시스템(110)은 도 2에 도시된 바와 같이 복수의 객체들에 대한 오디오 파일들을 각각 획득하고, 이를 기반으로 이머시브 오디오 콘텐츠를 생성할 수 있다.
전자 장치(150)는 컴퓨터 시스템(110)으로부터 제공되는 콘텐츠를 재생할 수 있다. 이 때 콘텐츠는 오디오 콘텐츠, 비디오 콘텐츠, 가상현실(VR) 콘텐츠, 증강현실(AR) 콘텐츠, 확장현실(XR) 콘텐츠 등 다양한 형태의 콘텐츠들이 될 수 있다. 그리고, 콘텐츠는 플레인(plain) 콘텐츠 또는 이머시브(immersive) 콘텐츠 중 적어도 하나를 포함할 수 있다.
컴퓨터 시스템(110)으로부터 이머시브 오디오 콘텐츠가 수신되면, 전자 장치(150)는 이머시브 오디오 콘텐츠로부터 오디오 파일들 및 그에 대한 메타 데이터를 각각 획득할 수 있다. 그리고, 전자 장치(150)는 메타 데이터를 기반으로, 오디오 파일들을 렌더링할 수 있다. 이를 통해, 전자 장치(150)는 이머시브 오디오 콘텐츠를 기반으로, 오디오와 관련하여 사용자 맞춤형 현장감을 실현할 수 있다. 따라서, 사용자는, 적어도 하나의 객체가 배치되는 현장에서, 해당 객체가 발생시키는 오디오 신호를 직접 듣는 것과 같은, 현장감을 느낄 수 있을 것이다.
이를 위해, 컴퓨터 시스템(110)은 제작 툴을 이용하여, 객체들에 대해 현장에서의 공간적 특징들을 각각 설정할 수 있다. 이 때 컴퓨터 시스템(110)은 그래픽 인터페이스(graphic interface)(300, 400)를 이용하여, 적어도 하나의 창작자의 입력을 기반으로 객체들의 공간적 특징들을 각각 설정할 수 있다. 공간적 특징은, 적어도 하나의 객체, 해당 객체의 위치, 해당 객체가 배치되는 현장, 또는 해당 현장에서 타겟, 예컨대 청자의 위치 중 적어도 하나에 대한 것일 수 있다. 어떤 실시예들에서, 컴퓨터 시스템(110)은 도 3 또는 도 4 중 적어도 하나에 도시된 바와 같이, 제작 툴을 이용하여, 그래픽 인터페이스(300, 400)를 출력하고, 그래픽 인터페이스(300, 400)를 통한 적어도 하나의 창작자의 입력을 기반으로, 객체들의 공간적 특징들을 설정할 수 있다. 여기서, 컴퓨터 시스템(110)은 각 객체에 대해 공간적 특징을 설정할 수 있으며, 적어도 두 개의 객체들에 대해 공간적 특징들을 하나의 그룹으로서 설정할 수 있다.
어떤 실시예들에서, 컴퓨터 시스템(110)은 도 3에 도시된 바와 같은 제 1 그래픽 인터페이스(300) 및 도 4에 도시된 바와 같은 제 2 그래픽 인터페이스(400)를 통해, 객체들의 공간적 특징들을 설정할 수 있다. 일 실시예에 따르면, 컴퓨터 시스템(110)은, 제 1 그래픽 인터페이스(300)와 제 2 그래픽 인터페이스(400)를 동시에 출력할 수 있다. 여기서, 제 1 그래픽 인터페이스(300) 및 제 2 그래픽 인터페이스(400)는 나뉘어 제공될 수 있으며, 하나로 통합되어 제공될 수도 있다. 다른 실시예에 따르면, 컴퓨터 시스템(110)은, 제 1 그래픽 인터페이스(300)와 제 2 그래픽 인터페이스(400)를 개별적으로 출력할 수 있다.
제 1 그래픽 인터페이스(300)는 적어도 하나의 현장에 대해 목록을 표시하고 각 현장에서의 적어도 하나의 객체에 대해 목록으로 표시하기 위한 제 1 영역(310), 제 1 영역(310)에서 선택되는 객체의 위치를 설정하기 위한 제 2 영역(320), 또는 제 1 영역(310)에서 선택되는 객체에 대해 위치 또는 오디오 효과 중 적어도 하나를 미세 조정하기 위한 제 3 영역(330) 중 적어도 하나를 포함할 수 있다. 예를 들면, 제 1 영역(310), 제 2 영역(320) 또는 제 3 영역(330) 중 적어도 하나가 동일한 화면 상에 표시될 수 있다. 즉, 컴퓨터 시스템(110)은 제 1 그래픽 인터페이스(300)를 제공하고, 제 1 그래픽 인터페이스(300)를 통한 적어도 하나의 창작자의 입력을 검출할 수 있다. 창작자는 제 1 영역(310)을 통해 어떤 현장을 생성하거나 선택하고, 해당 현장에서의 어떤 객체를 선택할 수 있다. 그리고, 창작자는 제 2 영역(320)을 통해 해당 현장에서의 해당 객체의 위치를 선택할 수 있다. 이를 통해, 컴퓨터 시스템(110)은 해당 객체의 위치를 기반으로, 해당 객체의 공간적 특징을 설정할 수 있다. 한편, 창작자는 제 3 영역(330)을 통해 해당 객체에 대해 오디오 효과를 미세 조정할 수 있다. 여기서, 오디오 효과는 해당 공간 내의 객체와 청자의 위치 관계를 나타낼 수 있다. 예를 들면, 오디오 효과는 청자의 위치에 대한 객체의 위치의 방위각(azimuth), 고도(elevation), 거리(distance), BES, 게인(gain) 등을 포함할 수 있다. 본 문서에서는 방위각, 고도, 거리를 통해 객체의 위치를 표현했지만, 객체의 위치를 나타낼 수 있는 표현 방식은 특정 좌표계로 한정되지 않는다. 이를 통해, 컴퓨터 시스템(110)은 해당 객체의 위치와 오디오 효과를 기반으로, 해당 객체의 공간적 특징을 설정할 수 있다.
제 2 그래픽 인터페이스(400)는 적어도 하나의 현장에 대한 목록을 표시하는 제 4 영역(440), 또는 제 4 영역(440)에서 선택되는 현장과 관련된 오디오 효과를 미세 조정하기 위한 제 5 영역(450) 중 적어도 하나를 포함할 수 있다. 즉, 컴퓨터 시스템(110)은 제 2 그래픽 인터페이스(400)를 제공하고, 제 2 그래픽 인터페이스(400)를 통한 적어도 하나의 창작자의 입력을 검출할 수 있다. 창작자는 제 4 영역(440)을 통해 어떤 현장을 선택할 수 있다. 그리고, 창작자는 제 5 영역(450)을 통해 해당 현장과 관련된 오디오 효과를 미세 조정할 수 있다. 이를 통해, 컴퓨터 시스템(110)은 해당 현장과 관련된 오디오 효과를 기반으로, 해당 현장에서의 객체들의 공간적 특징들을 설정할 수 있다.
다양한 실시예들에 따르면, 컴퓨터 시스템(110)은 전자 기기(제작 스튜디오로도 지칭됨)(도시되지 않음) 또는 서버(도시되지 않음) 중 적어도 하나를 포함할 수 있다. 예를 들면, 전자 기기는 오디오 콘솔, 단테(dante)와 같은 오디오 인터페이스 등의 다양한 하드웨어를 구비하는 기기로서, 스마트폰, 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA, PMP, 태블릿 PC, 게임 콘솔, 웨어러블 디바이스, IoT 디바이스, 가전 기기, 의료 기기, 또는 로봇 중 적어도 하나를 포함할 수 있다.
전자 기기는 복수의 객체들에 대한 오디오 파일들 및 그들에 대한 메타 데이터를 생성할 수 있다. 이를 위해, 전자 기기는 어떤 현장에서의 객체들에서 각각 발생되는 오디오 신호들을 각각 획득할 수 있다. 이 때 전자 기기는 각 객체에 직접적으로 부착되거나 각 객체에 인접하여 설치되는 마이크로폰(microphone)을 통해, 각 오디오 신호를 획득할 수 있다. 추가적으로, 전자 기기는 카메라(camera)를 통해, 각 객체의 직접적인 위치를 인식할 수도 있다. 그리고, 전자 기기는 오디오 신호들을 이용하여, 오디오 파일들을 각각 생성할 수 있다. 아울러, 전자 기기는 오디오 파일들에 대한 메타 데이터를 생성할 수 있다. 이를 위해, 전자 기기 객체들에 대해 현장에서의 공간적 특징들을 각각 설정할 수 있다. 예를 들면, 전자 기기는 그래픽 인터페이스(300, 400)를 통한 창작자의 입력을 기반으로, 객체들의 공간적 특징들을 설정할 수 있다. 여기서, 전자 기기는 각 객체의 직접적인 위치나 각 객체를 위한 마이크로폰의 위치를 이용하여, 각 객체에 대한 위치 정보 또는 적어도 두 개의 객체들의 위치 조합을 나타내는 그룹 정보 중 적어도 하나를 검출할 수 있다. 또한, 전자 기기는, 객체들이 배치된 현장에 대한 환경 정보를 검출할 수 있다.
그리고, 전자 기기는 객체들의 공간적 특징들을 기반으로, 메타 데이터를 생성할 수 있다. 이 때, 전자 기기는 객체들의 공간적 특징들을 조합하여, 전자 장치(150)에서 선택 가능한 프리셋들을 생성할 수 있다. 예를 들면, 전자 기기는 어떤 현장에 대한 환경 정보와 어떤 객체들의 위치 정보들 및 오디오 효과들을 조합하여, 프리셋들을 생성할 수 있다.
서버는 오디오 파일들 및 그에 대한 메타 데이터를 전자 장치(150)에 전송할 수 있다. 구체적으로, 서버는 오디오 파일들 및 그에 대한 메타 데이터로 미리 정해진 포맷(400)의 이머시브 오디오 콘텐츠를 생성할 수 있다. 이 때 이머시브 오디오 콘텐츠 내에서, 오디오 파일들과 그에 대한 메타 데이터는 개별적으로 존재할 수 있다. 그리고, 서버는 이머시브 오디오 콘텐츠를 전자 장치(150)에 전송할 수 있다. 여기서, 서버는 라이브 스트리밍(live streaming) 서버일 수 있다.
이를 통해, 전자 장치(150)는 메타 데이터를 기반으로, 오디오 파일들을 렌더링할 수 있다. 예를 들면, 전자 장치(150)는 사용자 인터페이스(user interface; UI)를 통한 사용자의 입력을 기반으로, 프리셋들 중 하나를 선택할 수 있다. 즉, 전자 장치(150)는 다수의 프리셋들을 표시하고, 사용자의 입력을 기반으로, 프리셋들 중 하나를 선택할 수 있다. 이에 따라, 전자 장치(150)는 선택되는 프리셋을 기반으로, 객체들의 공간적 특징들을 이용하여, 오디오 파일들을 렌더링할 수 있다. 이로써, 전자 장치(150)는 해당 현장에 대한 사용자 맞춤형 현장감을 실현할 수 있다.
어떤 실시예들에서, 컴퓨터 시스템(110)는 오디오 파일들과 메타 데이터를 PCM(pulse code modulation) 오디오 신호로 구성하여, 전송할 수 있다. 이 때, 컴퓨터 시스템(110)은 그래픽 인터페이스(300, 400)를 통한 적어도 하나의 창작자의 입력을 기반으로 생성되는 메타 데이터 또는 다른 전자 기기로부터 수신되는 메타 데이터를 PCM 신호의 메타 데이터 트랙(metadata track)에 임베딩할 수 있다. 여기서, 메타 데이터는 최종 송출 시 인코딩을 위해 사용될 수 있는 오디오 코덱의 프레임 사이즈를 기반으로 오디오 채널과 시간 동기화 (time synchronization)되어 임베딩될 수 있다. 각 프레임별로 시간 동기화된 메타 데이터는 각 프레임에 대해 복수의 세트들로 임베딩될 수 있다. 이 때, 임베딩되는 복수의 세트들의 메타 데이터는 동일한 내용을 포함하고 있을 수 있고, 동일한 내용의 메타 데이터 세트가 포함됨으로써, 추후 오디오 인코딩 과정에서 메타 데이터의 손실 및 손상을 방지하는데 도움이 될 수 있다. 컴퓨터 시스템(110), 특히 전자 기기의 하드웨어의 특성에 따라서 드리프트 보정이 적용될 수 있다. 드리프트 보정이 적용되는 경우, 그래픽 인터페이스(300, 400)를 통한 적어도 하나의 창작자의 입력을 기반으로 생성되는 메타 데이터 또는 다른 전자 기기로부터 수신되는 메타 데이터와 차이가 발생할 수 있기 때문에, 메타 데이터가 생성 시에는 드리프트 보정에 의한 채널간 보정이 적용되지 않도록 생성하고 메타 데이터 트랙에 기입될 수 있다.
도 5는 다양한 실시예들에 따른 컴퓨터 시스템(110)의 내부 구성을 도시하는 블록도이다.
도 5를 참조하면, 다양한 실시예들에 따른 컴퓨터 시스템(110)은 연결 단자(510), 통신 모듈(520), 입력 모듈(530), 표시 모듈(540), 오디오 모듈(550), 메모리(560) 또는 프로세서(570) 중 적어도 하나를 포함할 수 있다. 어떤 실시예들에서, 컴퓨터 시스템(110)의 구성 요소들 중 적어도 어느 하나가 생략될 수 있으며, 적어도 하나의 다른 구성 요소가 추가될 수 있다. 어떤 실시예들에서, 컴퓨터 시스템(110)의 구성 요소들 중 적어도 어느 두 개가 하나의 통합된 회로로 구현될 수 있다.
연결 단자(510)는 컴퓨터 시스템(110)에서 외부 장치와 물리적으로 연결될 수 있다. 예를 들면, 외부 장치는 다른 전자 기기를 포함할 수 있다. 이를 위해, 연결 단자(510)는 적어도 하나의 커넥터를 포함할 수 있다. 예를 들면, 커넥터는 HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터 중 적어도 어느 하나를 포함할 수 있다.
통신 모듈(520)은 컴퓨터 시스템(110)에서 외부 장치와 통신을 수행할 수 있다. 통신 모듈(520)은 컴퓨터 시스템(110)와 외부 장치 간 통신 채널을 수립하고, 통신 채널을 통해 외부 장치와 통신을 수행할 수 있다. 예를 들면, 외부 장치는 외부 서버 또는 전자 장치(150) 중 적어도 하나를 포함할 수 있다. 통신 모듈(520)은 유선 통신 모듈 또는 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 유선 통신 모듈은 연결 단자(510)를 통해 외부 장치와 유선으로 연결되어, 외부 장치와 유선으로 통신할 수 있다. 무선 통신 모듈은 근거리 통신 모듈 또는 원거리 통신 모듈 중 적어도 어느 하나를 포함할 수 있다. 근거리 통신 모듈은 외부 장치와 근거리 통신 방식으로 통신할 수 있다. 예를 들면, 근거리 통신 방식은, 블루투스(Bluetooth), 와이파이 다이렉트(WiFi direct), 또는 적외선 통신(IrDA; infrared data association) 중 적어도 어느 하나를 포함할 수 있다. 원거리 통신 모듈은 외부 장치와 원거리 통신 방식으로 통신할 수 있다. 여기서, 원거리 통신 모듈은 네트워크를 통해 외부 장치와 통신할 수 있다. 예를 들면, 네트워크는 셀룰러 네트워크, 인터넷, 또는 LAN(local area network)이나 WAN(wide area network)과 같은 컴퓨터 네트워크 중 적어도 어느 하나를 포함할 수 있다.
입력 모듈(530)은 컴퓨터 시스템(110)의 적어도 하나의 구성 요소에 사용될 신호를 입력할 수 있다. 입력 모듈(530)은, 사용자가 컴퓨터 시스템(110)에 직접적으로 신호를 입력하도록 구성되는 입력 장치, 주변 환경을 감지하여 신호를 발생하도록 구성되는 센서 장치, 또는 영상을 촬영하여, 영상 데이터를 생성하도록 구성되는 카메라 모듈 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 입력 장치는 마이크로폰(microphone), 마우스(mouse), 또는 키보드(keyboard) 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서, 센서 장치는 터치를 감지하도록 설정된 터치 회로(touch circuitry) 또는 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로 중 적어도 어느 하나를 포함할 수 있다.
표시 모듈(540)은 정보를 시각적으로 표시할 수 있다. 예를 들면, 표시 모듈(540)은 디스플레이, 홀로그램 장치, 또는 프로젝터 중 적어도 어느 하나를 포함할 수 있다. 일 예로, 표시 모듈(540)은 입력 모듈(530)의 터치 회로 또는 센서 회로 중 적어도 어느 하나와 조립되어, 터치 스크린으로 구현될 수 있다.
오디오 모듈(550)은 정보를 청각적으로 재생할 수 있다. 예를 들면, 오디오 모듈(550)은 스피커 또는 리시버 중 적어도 어느 하나를 포함할 수 있다.
메모리(560)는 컴퓨터 시스템(110)의 적어도 하나의 구성 요소에 의해 사용되는 다양한 데이터를 저장할 수 있다. 예를 들면, 메모리(560)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다. 데이터는 적어도 하나의 프로그램 및 이와 관련된 입력 데이터 또는 출력 데이터를 포함할 수 있다. 프로그램은 메모리(560)에 적어도 하나의 명령을 포함하는 소프트웨어로서 저장될 수 있다. 이 때 메모리(560)는 오디오 파일들과 그에 대한 메타 데이터를 생성하기 위한 제작 툴(565)을 저장할 수 있다.
프로세서(570)는 메모리(560)의 프로그램을 실행하여, 컴퓨터 시스템(110)의 적어도 하나의 구성 요소를 제어할 수 있다. 이를 통해, 프로세서(570)는 데이터 처리 또는 연산을 수행할 수 있다. 이 때 프로세서(570)는 메모리(560)에 저장된 명령을 실행할 수 있다. 프로세서(570)는 사용자를 위해 콘텐츠를 제공할 수 있다. 이 때 프로세서(570)는 통신 모듈(520)을 통해, 콘텐츠를 전송할 수 있다. 콘텐츠는 비디오 콘텐츠, 플레인 오디오 콘텐츠 또는 이머시브 오디오 콘텐츠 중 적어도 하나를 포함할 수 있다.
프로세서(570)는 어떤 현장에서의 객체들에 의해 각각 발생되는 오디오 신호들을 기반으로 오디오 파일들을 각각 생성할 수 있다. 그리고, 프로세서(570)는 제작 툴(565)을 이용하여, 객체들에 대해 각각 설정되는 현장에서의 공간적 특징들을 포함하는 메타 데이터를 생성할 수 있다. 일 실시예에 따르면, 프로세서(570)는 오디오 파일들과 메타 데이터를 기반으로, 실시간 재생 가능한 오디오 신호들을 생성할 수 있다. 다른 실시예에 따르면, 프로세서(570)는 객체들의 오디오 파일들 및 메타 데이터를 전송할 수 있다. 이를 위해, 프로세서(570)는 객체들의 오디오 파일들 및 메타 데이터를 저장할 수 있다.
이 때 프로세서(570)는 그래픽 인터페이스(300, 400)를 이용하여, 적어도 하나의 창작자의 입력을 기반으로 객체들의 공간적 특징들을 각각 설정하고, 객체들과 관련하여 공간적 특징들을 각각 저장할 수 있다. 공간적 특징은, 적어도 하나의 객체, 해당 객체의 위치, 해당 객체가 배치되는 현장, 또는 해당 현장에서 타겟, 예컨대 청자의 위치 중 적어도 하나에 대한 것일 수 있다. 이를 통해, 객체들과 관련하여 저장된 공간적 특징들은 객체들에 의해 생성된 오디오 파일들을 렌더링하는 데 이용될 수 있을 뿐 아니라, 객체들과 연관된 다른 오디오 파일들을 렌더링하는 데 활용될 수 있을 것이다. 예를 들어, 상기 공간적 특징들은 현장감을 표현하기 위한 리버브 트랙 등의 렌더링에 활용할 수 있다. 어떤 실시예들에서, 프로세서(570)는 제작 툴(565)을 이용하여, 도 3 또는 도 4 중 적어도 하나에 도시된 바와 같이, 그래픽 인터페이스(300, 400)를 출력하고, 그래픽 인터페이스(300, 400)를 통한 적어도 하나의 창작자의 입력을 기반으로, 객체들의 공간적 특징들을 설정할 수 있다. 여기서, 컴퓨터 시스템(110)은 각 객체에 대해 공간적 특징을 설정할 수 있으며, 적어도 두 개의 객체들에 대해 공간적 특징들을 하나의 그룹으로서 설정할 수 있다.
도 6은 다양한 실시예들에 따른 컴퓨터 시스템(110)의 동작 절차를 도시하는 순서도이다.
도 6을 참조하면, 컴퓨터 시스템(110)은 610 단계에서 현장에서의 복수의 객체들에 대해, 오디오 파일들을 각각 생성할 수 있다. 프로세서(570)는 어떤 현장에서의 객체들에 의해 각각 발생되는 오디오 신호들을 기반으로 오디오 파일들을 각각 생성할 수 있다. 이에 대해, 도 7을 참조하여, 보다 상세하게 후술될 것이다.
도 7은 도 6의 오디오 파일들을 생성하는 단계(610 단계)의 세부 절차를 도시하는 순서도이다.
도 7을 참조하면, 컴퓨터 시스템(110)은 711 단계에서 어떤 현장에서의 복수의 객체들의 오디오 신호들을 획득할 수 있다. 즉, 프로세서(50)는 현장에서 객체들에 의해 각각 발생되는 오디오 신호들을 획득할 수 있다. 이 때 프로세서(570)는 각 객체에 직접적으로 부착되거나 각 객체에 인접하여 설치되는 마이크로폰을 통해, 각 오디오 신호를 획득할 수 있다.
다음으로, 컴퓨터 시스템(110)은 713 단계에서 오디오 신호들로부터 오디오 파일들을 각각 생성할 수 있다. 프로세서(670)는 객체들의 오디오 신호들로부터 오디오 파일들을 각각 생성할 수 있다.
이 후, 컴퓨터 시스템(110)은 도 6으로 리턴하여, 620 단계로 진행할 수 있다.
다시 도 6을 참조하면, 컴퓨터 시스템(110)은 620 단계에서 제작 툴(565)을 이용하여, 객체들에 대해 현장에서의 공간적 특징들을 각각 설정할 수 있다. 이 때 프로세서(570)는 그래픽 인터페이스(300, 400)를 이용하여, 적어도 하나의 창작자의 입력을 기반으로 객체들의 공간적 특징들을 각각 설정할 수 있다. 공간적 특징은, 적어도 하나의 객체, 해당 객체의 위치, 해당 객체가 배치되는 현장, 또는 해당 현장에서 타겟, 예컨대 청자의 위치 중 적어도 하나에 대한 것일 수 있다. 여기서, 프로세서(570)각 객체에 대해 공간적 특징을 설정할 수 있으며, 적어도 두 개의 객체들에 대해 공간적 특징들을 하나의 그룹으로서 설정할 수 있다. 이에 대해, 도 8을 참조하여, 보다 상세하게 후술될 것이다.
도 8은 도 6의 공간적 특징들을 설정하는 단계(620 단계)의 세부 절차를 도시하는 순서도이다.
도 8을 참조하면, 컴퓨터 시스템(110)은 821 단계에서 창작자를 위해 그래픽 인터페이스(300, 400)를 출력할 수 있다. 프로세서(570)는 제작 툴(565)을 이용하여, 도 3 또는 도 4 중 적어도 하나에 도시된 바와 같이, 그래픽 인터페이스(300, 400)를 출력할 수 있다. 일 예로, 프로세서(570)는 통신 모듈(520)을 통해 외부 장치로 그래픽 인터페이스(300, 400)를 출력할 수 있다. 다른 예로, 프로세서(570)는 표시 모듈(540)을 통해 그래픽 인터페이스(300, 400)를 출력할 수 있다.
어떤 실시예들에서, 그래픽 인터페이스(300, 400)는 제 1 그래픽 인터페이스(300) 또는 제 2 그래픽 인터페이스(400) 중 적어도 하나를 포함할 수 있다. 일 실시예에 따르면, 컴퓨터 시스템(110)은, 제 1 그래픽 인터페이스(300)와 제 2 그래픽 인터페이스(400)를 동시에 출력할 수 있다. 여기서, 제 1 그래픽 인터페이스(300) 및 제 2 그래픽 인터페이스(400)는 나뉘어 제공될 수 있으며, 하나로 통합되어 제공될 수도 있다. 다른 실시예에 따르면, 컴퓨터 시스템(110)은, 제 1 그래픽 인터페이스(300)와 제 2 그래픽 인터페이스(400)를 개별적으로 출력할 수 있다.
제 1 그래픽 인터페이스(300)는 적어도 하나의 현장에 대해 목록을 표시하고 각 현장에서의 적어도 하나의 객체에 대해 목록으로 표시하기 위한 제 1 영역(310), 제 1 영역(310)에서 선택되는 객체의 위치를 설정하기 위한 제 2 영역(320), 또는 제 1 영역(310)에서 선택되는 객체에 대해 오디오 효과를 미세 조정하기 위한 제 3 영역(330) 중 적어도 하나를 포함할 수 있다. 여기서, 오디오 효과는 해당 공간 내의 객체와 청자의 위치 관계를 나타낼 수 있다. 예를 들면, 오디오 효과는 청자의 위치에 대한 객체의 위치의 방위각(azimuth), 고도(elevation), 거리(distance), BES, 게인(gain) 등을 포함할 수 있다. 예를 들면, 제 1 영역(310), 제 2 영역(320) 또는 제 3 영역(330) 중 적어도 하나가 동일한 화면 상에 표시될 수 있다. 제 2 사용자 인터페이스(400)는 적어도 하나의 현장에 대한 목록을 표시하는 제 4 영역(440), 또는 제 4 영역(440)에서 선택되는 현장과 관련된 오디오 효과를 미세 조정하기 위한 제 5 영역(450) 중 적어도 하나를 포함할 수 있다.
다음으로, 컴퓨터 시스템(110)은 823 단계에서 그래픽 인터페이스(300, 400)를 통한 적어도 하나의 창작자의 입력을 검출할 수 있다. 프로세서(570)는 제작 툴(565)을 이용하여, 그래픽 인터페이스(300, 400)를 통한 적어도 하나의 창작자의 입력을 검출할 수 있다. 일 예로, 프로세서(570)는 통신 모듈(520)을 통해 외부 장치로부터 창작자의 입력을 수신할 수 있다. 다른 예로, 프로세서(570)는 입력 모듈(530)을 통해 창작자의 입력을 감지할 수 있다.
어떤 실시예들에서, 프로세서(570)는 제 1 그래픽 인터페이스(300) 또는 제 2 그래픽 인터페이스(400) 중 적어도 하나를 통한 적어도 하나의 창작자의 입력을 검출할 수 있다. 프로세서(570)는 제 1 그래픽 인터페이스(300)를 통한 적어도 하나의 창작자의 입력을 검출할 수 있다. 창작자는 제 1 영역(310)을 통해 어떤 현장을 생성하거나 선택하고, 해당 현장에서의 어떤 객체를 선택할 수 있다. 그리고, 창작자는 제 2 영역(320)을 통해 해당 현장에서의 해당 객체의 위치를 선택할 수 있다. 한편, 창작자는 제 3 영역(330)을 통해 해당 객체에 대해 오디오 효과를 미세 조정할 수 있다. 프로세서(570)는 제 2 그래픽 인터페이스(400)를 통한 적어도 하나의 창작자의 입력을 검출할 수 있다. 창작자는 제 4 영역(440)을 통해 어떤 현장을 선택할 수 있다. 그리고, 창작자는 제 5 영역(450)을 통해 해당 현장과 관련된 오디오 효과를 미세 조정할 수 있다.
다음으로, 컴퓨터 시스템(110)은 825 단계에서 객체들에 대해 현장에서의 공간적 특징들을 각각 설정할 수 있다. 프로세서(570)는 그래픽 인터페이스(300, 400)를 통한 적어도 하나의 창작자의 입력을 기반으로, 객체들의 공간적 특징들을 각각 설정할 수 있다. 여기서, 프로세서(570)는 각 객체에 대해 공간적 특징을 설정할 수 있으며, 적어도 두 개의 객체들에 대해 공간적 특징들을 하나의 그룹으로서 설정할 수 있다.
어떤 실시예들에서, 제어부(570)는 제 1 그래픽 인터페이스(300) 또는 제 2 그래픽 인터페이스(400) 중 적어도 하나를 기반으로, 객체들의 공간적 특징들을 각각 설정할 수 있다. 프로세서(570)는 제 1 그래픽 인터페이스(300)의 제 1 영역(310)에서 선택된 어떤 현장에서의 객체에 대해 제 2 영역(320)에서 선택된 위치를 기반으로, 해당 객체의 공간적 특징을 설정할 수 있다. 이를 통해, 컴퓨터 시스템(110)은 해당 객체의 위치와 오디오 효과를 기반으로, 해당 객체의 공간적 특징을 설정할 수 있다. 아울러, 프로세서(570)는 제 1 그래픽 인터페이스(300)의 제 1 영역(310)에서 선택된 어떤 현장에서의 객체에 대해 제 3 영역(330)에서 조정된 오디오 효과를 기반으로, 해당 객체의 공간적 특징을 설정할 수 있다. 프로세서(570)는 제 2 그래픽 인터페이스(400)의 제 4 영역(440)에서 선택된 현장에 대해 제 5 영역(450)에서 조정된 오디오 효과를 기반으로, 해당 현장의 객체들의 공간적 특징들을 설정할 수 있다.
다음으로, 컴퓨터 시스템(110)은 827 단계에서 객체들과 관련하여 공간적 특징들을 각각 저장할 수 있다. 프로세서(570)는 메모리(560)에, 객체들과 관련하여 공간적 특징들을 각각 저장할 수 있다. 이를 통해, 객체들과 관련하여 저장된 공간적 특징들은 610 단계에서 객체들에 의해 생성된 오디오 파일들을 렌더링하는 데 이용될 수 있을 뿐 아니라, 객체들과 연관된 다른 오디오 파일들을 렌더링하는 데 활용될 수 있을 것이다. 예를 들어, 상기 공간적 특징들은 현장감을 표현하기 위한 리버브 트랙 등의 렌더링에 활용할 수 있다
이 후, 컴퓨터 시스템(110)은 도 6으로 리턴하여, 630 단계로 진행할 수 있다.
다시 도 6을 참조하면, 컴퓨터 시스템(110)은 630 단계에서 객체들의 공간적 특징들을 기반으로, 메타 데이터를 생성할 수 있다. 프로세서(570)는 객체들의 공간적 특징들을 포함하도록 메타 데이터를 생성할 수 있다. 그리고, 컴퓨터 시스템(100)는 메타 데이터를 이용할 수 있다. 일 실시예에 따르면, 프로세서(570)는 오디오 파일들과 메타 데이터를 기반으로, 실시간 재생 가능한 오디오 신호들을 생성할 수 있다. 즉, 프로세서(570)는 메타 데이터를 기반으로, 오디오 파일들을 렌더링하고, 이를 통해 실시간 재생 가능한 오디오 신호들이 생성될 수 있다. 예를 들면, 오디오 신호들은 스테레오 형태, 서라운드 형태 또는 바이노럴(binaural) 형태 중 하나로 생성될 수 있다. 이에 따라, 라이브 서비스 환경에서, 객체들에 의해 생성된 오디오 파일들에 대한 실시간 변경 및 모니터링이 가능하다. 다른 실시예에 따르면, 프로세서(570)는 객체들의 오디오 파일들 및 메타 데이터를 전송할 수 있다. 이를 위해, 프로세서(570)는 객체들의 오디오 파일들 및 메타 데이터를 저장할 수 있다. 이에 대해, 도 9를 참조하여, 보다 상세하게 후술될 것이다.
도 9는 도 6의 메타 데이터를 생성하는 단계(630 단계)의 세부 절차를 도시하는 순서도이다.
도 9를 참조하면, 컴퓨터 시스템(110)은 931 단계에서 공간적 특징들을 기반으로, 메타 데이터를 생성할 수 있다. 프로세서(570)는 객체들의 공간적 특징들을 포함하도록 메타 데이터를 생성할 수 있다. 그리고, 컴퓨터 시스템(110)은 933 단계에서 객체들에 대한 오디오 파일들 및 메타 데이터를 저장할 수 있다. 프로세서(570)는 메모리(560)에, 객체들의 오디오 파일들 및 메타 데이터를 함께 저장할 수 있다. 이 후, 컴퓨터 시스템(110)은 935 단계에서 객체들에 대한 오디오 파일들 및 메타 데이터를 전송할 수 있다. 프로세서(570)는 통신 모듈(520)을 통해, 외부 서버 또는 전자 장치(150)에 객체의 오디오 파일들 및 메타 데이터를 함께 전송할 수 있다. 이 때, 프로세서(570)는 오디오 파일들 및 메타 데이터를 압축 및 암호화하여, 전송할 수 있다. 일 실시예에 따르면, 입력 모듈(530)을 통해 창작자의 명령이 감지되면, 프로세서(570)가 외부 서버 또는 전자 장치(150)에 객체의 오디오 파일들 및 메타 데이터를 함께 전송할 수 있다. 통신 모듈(520)을 통해 외부 서버 또는 전자 장치(150)로부터의 요청이 수신되면, 프로세서(570)가 외부 서버 또는 전자 장치(150)에 객체의 오디오 파일들 및 메타 데이터를 함께 전송할 수 있다.
도 10은 다양한 실시예들에 따른 전자 장치(150)의 내부 구성을 도시하는 블록도이다.
도 10을 참조하면, 다양한 실시예들에 따른 전자 장치(150)는 연결 단자(1010), 통신 모듈(1020), 입력 모듈(1030), 표시 모듈(1040), 오디오 모듈(1050), 메모리(1060) 또는 프로세서(1070) 중 적어도 하나를 포함할 수 있다. 어떤 실시예들에서, 전자 장치(150)의 구성 요소들 중 적어도 어느 하나가 생략될 수 있으며, 적어도 하나의 다른 구성 요소가 추가될 수 있다. 어떤 실시예들에서, 전자 장치(150)의 구성 요소들 중 적어도 어느 두 개가 하나의 통합된 회로로 구현될 수 있다.
연결 단자(1010)는 전자 장치(150)에서 외부 장치와 물리적으로 연결될 수 있다. 예를 들면, 외부 장치는 다른 전자 장치를 포함할 수 있다. 이를 위해, 연결 단자(1010)는 적어도 하나의 커넥터를 포함할 수 있다. 예를 들면, 커넥터는 HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터 중 적어도 어느 하나를 포함할 수 있다.
통신 모듈(1020)은 전자 장치(150)에서 외부 장치와 통신을 수행할 수 있다. 통신 모듈(1020)은 전자 장치(150)와 외부 장치 간 통신 채널을 수립하고, 통신 채널을 통해 외부 장치와 통신을 수행할 수 있다. 예를 들면, 외부 장치는 컴퓨터 시스템(110)을 포함할 수 있다. 통신 모듈(1020)은 유선 통신 모듈 또는 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 유선 통신 모듈은 연결 단자(1010)를 통해 외부 장치와 유선으로 연결되어, 유선으로 통신할 수 있다. 무선 통신 모듈은 근거리 통신 모듈 또는 원거리 통신 모듈 중 적어도 어느 하나를 포함할 수 있다. 근거리 통신 모듈은 외부 장치와 근거리 통신 방식으로 통신할 수 있다. 예를 들면, 근거리 통신 방식은, 블루투스, 와이파이 다이렉트, 또는 적외선 통신 중 적어도 어느 하나를 포함할 수 있다. 원거리 통신 모듈은 외부 장치와 원거리 통신 방식으로 통신할 수 있다. 여기서, 원거리 통신 모듈은 네트워크를 통해 외부 장치와 통신할 수 있다. 예를 들면, 네트워크는 셀룰러 네트워크, 인터넷, 또는 LAN이나 WAN과 같은 컴퓨터 네트워크 중 적어도 어느 하나를 포함할 수 있다.
입력 모듈(1030)은 전자 장치(150)의 적어도 하나의 구성 요소에 사용될 신호를 입력할 수 있다. 입력 모듈(1030)은, 사용자가 전자 장치(150)에 직접적으로 신호를 입력하도록 구성되는 입력 장치, 주변 환경을 감지하여 신호를 발생하도록 구성되는 센서 장치, 또는 영상을 촬영하여, 영상 데이터를 생성하도록 구성되는 카메라 모듈 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 입력 장치는 마이크로폰(microphone), 마우스(mouse), 또는 키보드(keyboard) 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서, 센서 장치는 헤드 트래킹(head tracking) 센서, 헤드 마운트 디스플레이(head-mounted display; HMD) 컨트롤러, 터치를 감지하도록 설정된 터치 회로(touch circuitry) 또는 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로 중 적어도 어느 하나를 포함할 수 있다.
표시 모듈(1040)은 정보를 시각적으로 표시할 수 있다. 예를 들면, 표시 모듈(1040)은 디스플레이, 헤드 마운트 디스플레이(HMD), 홀로그램 장치, 또는 프로젝터 중 적어도 어느 하나를 포함할 수 있다. 일 예로, 표시 모듈(1040)은 입력 모듈(1030)의 터치 회로 또는 센서 회로 중 적어도 어느 하나와 조립되어, 터치 스크린으로 구현될 수 있다.
오디오 모듈(1050)은 정보를 청각적으로 재생할 수 있다. 예를 들면, 오디오 모듈(1050)은 스피커, 리시버, 이어폰 또는 헤드폰 중 적어도 어느 하나를 포함할 수 있다.
메모리(1060)는 전자 장치(150)의 적어도 하나의 구성 요소에 의해 사용되는 다양한 데이터를 저장할 수 있다. 예를 들면, 메모리(1060)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다. 데이터는 적어도 하나의 프로그램 및 이와 관련된 입력 데이터 또는 출력 데이터를 포함할 수 있다. 프로그램은 메모리(1060)에 적어도 하나의 명령을 포함하는 소프트웨어로서 저장될 수 있으며, 예컨대 운영 체제, 미들 웨어, 또는 어플리케이션 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 어플리케이션은 컴퓨터 시스템(110)의 제작 툴(565)과 연동하여 동작하기 위한 어플리케이션을 포함할 수 있다.
프로세서(1070)는 메모리(1060)의 프로그램을 실행하여, 전자 장치(150)의 적어도 하나의 구성 요소를 제어할 수 있다. 이를 통해, 프로세서(1070)는 데이터 처리 또는 연산을 수행할 수 있다. 이 때 프로세서(1070)는 메모리(1060)에 저장된 명령을 실행할 수 있다. 프로세서(1070)는 컴퓨터 시스템(110)으로부터 제공되는 콘텐츠를 재생할 수 있다. 프로세서(1070)는 표시 모듈(1040)을 통해, 비디오 콘텐츠를 재생할 수 있고, 오디오 모듈(1050)을 통해, 플레인 오디오 콘텐츠 또는 이머시브 오디오 콘텐츠 중 적어도 하나를 재생할 수 있다.
프로세서(1070)는 통신 모듈(1020)을 통해, 컴퓨터 시스템(110)으로부터 어떤 현장에서의 객체들에 대한 오디오 파일들과 메타 데이터를 수신할 수 있다. 그리고, 프로세서(1070)는 메타 데이터를 기반으로, 오디오 파일들을 렌더링할 수 있다. 이를 통해, 프로세서(1070)는 메타 데이터에서의 공간적 특징들을 기반으로, 오디오 파일들을 렌더링할 수 있다.
도 11은 다양한 실시예들에 따른 전자 장치(150)의 동작 절차를 도시하는 순서도이다.
도 11을 참조하면, 전자 장치(150)는 1110 단계에서 오디오 파일들 및 메타 데이터를 수신할 수 있다. 프로세서(1070)는 통신 모듈(1020)을 통해, 서버(430)로부터 어떤 현장에서의 객체들에 대한 오디오 파일들과 메타 데이터를 수신할 수 있다. 이 때 프로세서(1070)는 제 2 통신 프로토콜, 예컨대 HTTP 라이브 스트리밍(HLS)을 이용하여, 오디오 파일들 및 메타 데이터를 수신할 수 있다.
다음으로, 전자 장치(150)는 1120 단계에서 메타 데이터를 기반으로, 객체들 중 적어도 하나를 선택할 수 있다. 이 때 프로세서(1070)는 사용자 인터페이스(user interface; UI)를 통한 사용자의 입력을 기반으로, 객체들 중 적어도 하나를 선택할 수 있다. 구체적으로, 프로세서(1070)는 사용자를 위해 사용자 인터페이스를 출력할 수 있다. 일 예로, 프로세서(1070)는 통신 모듈(1020)을 통해 외부 장치로 사용자 인터페이스를 출력할 수 있다. 다른 예로, 프로세서(1070)는 표시 모듈(1040)을 통해 사용자 인터페이스를 출력할 수 있다. 그리고, 프로세서(1070)는 사용자 인터페이스를 통한 적어도 하나의 사용자의 입력을 기반으로, 객체들 중 적어도 하나를 선택할 수 있다.
다음으로, 전자 장치(150)는 1120 단계에서 메타 데이터를 기반으로, 오디오 파일들을 렌더링할 수 있다. 프로세서(1070)는 메타 데이터에서의 선택된 객체들의 공간적 특징들을 기반으로, 오디오 파일들을 렌더링할 수 있다. 프로세서(1070)는 객체들의 공간적 특징들을 객체들의 오디오 파일들에 적용하여, 오디오 모듈(1050)을 최종적인 오디오 신호들을 재생할 수 있다. 이로써, 전자 장치(150)는 해당 현장에 대한 사용자 맞춤형 현장감을 실현할 수 있다. 따라서, 사용자는, 객체들이 배치되는 현장에서, 해당 객체들이 발생시키는 오디오 신호들을 직접 듣는 것과 같은, 사용자 맞춤형 현장감을 느낄 수 있을 것이다.
다양한 실시예들에 따르면, 사용자를 위해, 사용자 맞춤형 현장감 구현을 위한 재료들로서 오디오 콘텐츠를 제작하기 위한 제작 툴(565)이 제안될 수 있다. 이 때 컴퓨터 시스템(110)은 어떤 현장에서의 복수의 객체들에 대한 오디오 파일들이 각각 생성할 수 있다. 그리고, 컴퓨터 시스템(110)은 제작 툴(565)을 이용하여, 객체들에 대한 현장에서의 공간적 특징들을 포함하는 메타 데이터를 생성할 수 있다. 이 때, 컴퓨터 시스템(110)은 창작자의 설정 기반으로, 객체들에 대해 공간적 특징들을 각각 생성할 수 있다. 이를 통해, 전자 장치(150)는 완성된 형태의 오디오 콘텐츠를 단순히 재생하는 것이 아니라, 사용자 맞춤형 오디오 콘텐츠를 재생할 수 있다. 즉, 전자 장치(150)는 메타 데이터에서의 공간적 특징들을 기반으로, 오디오 파일들을 렌더링하여 입체 음향을 구현할 수 있다. 따라서, 전자 장치(150)는 오디오와 관련하여 사용자 맞춤형 현장감을 실현하고, 이로써 전자 장치(150)의 사용자는, 특정 현장에서, 특정 객체들이 발생시키는 오디오 신호들을 직접 듣는 것과 같은, 사용자 맞춤형 현장감을 느낄 수 있을 것이다.
다양한 실시예들에 따른 컴퓨터 시스템(110)에 의한 방법은, 현장에서 복수의 객체들에 의해 각각 발생되는 오디오 신호들에 기반하여 오디오 파일들을 각각 생성하는 단계(610 단계), 제작 툴(565)을 이용하여, 객체들에 대해 현장에서의 공간적 특징들을 각각 설정하는 단계(620 단계), 및 공간적 특징들을 기반으로, 오디오 파일들에 대한 메타 데이터를 생성하는 단계(630 단계)를 포함할 수 있다.
다양한 실시예들에 따르면, 공간적 특징들을 각각 설정하는 단계(620 단계)는, 그래픽 인터페이스(300, 400)를 출력하는 단계(821 단계), 그래픽 인터페이스(300, 400)를 통한 적어도 하나의 입력을 기반으로(823 단계), 객체들에 대해 공간적 특징들을 각각 설정하는 단계(825 단계), 및 객체들과 관련하여 공간적 특징들을 각각 저장하는 단계(827 단계)를 포함할 수 있다.
다양한 실시예들에 따르면, 메타 데이터는, 객체들의 각각에 대한 위치 정보, 객체들 중 적어도 두 개의 위치 조합을 나타내는 그룹 정보, 또는 현장에 대한 환경 정보 중 적어도 하나를 포함할 수 있다.
다양한 실시예들에 따르면, 객체들의 각각은, 악기, 악기 연주자, 보컬리스트, 대화자, 스피커 또는 배경 중 하나를 포함할 수 있다.
다양한 실시예들에 따르면, 그래픽 인터페이스(300, 400)는, 현장에서의 객체들을 표시하기 위한 제 1 영역(310), 및 제 1 영역(310)과 동일한 화면 상에 표시되고, 제 1 영역(310)에서 선택되는 객체의 위치를 설정하기 위한 제 2 영역(320)을 포함할 수 있다.
다양한 실시예들에 따르면, 공간적 특징들을 각각 설정하는 단계(825 단계)는, 위치를 기반으로, 공간적 특징들을 각각 설정할 수 있다.
다양한 실시예들에 따르면, 그래픽 인터페이스(300, 400)는, 제 1 영역(310)과 동일한 화면 상에 표시되고, 제 1 영역(310)에서 선택되는 객체에 대해 오디오 효과를 조정하기 위한 제 3 영역(330)을 더 포함할 수 있다.
다양한 실시예들에 따르면, 공간적 특징들을 각각 설정하는 단계(825 단계)는, 위치와 오디오 효과를 기반으로, 공간적 특징들을 각각 설정할 수 있다.
다양한 실시예들에 따르면, 그래픽 인터페이스(300, 400)는, 적어도 하나의 현장을 표시하기 위한 제 4 영역(440), 또는 제 4 영역(440 단계)과 동일한 화면에 표시되고, 제 4 영역(440 단계)에서 선택되는 현장과 관련된 오디오 효과를 조정하기 위한 제 5 영역(450 단계) 중 적어도 하나를 더 포함할 수 있다.
다양한 실시예들에 따르면, 공간적 특징들을 각각 설정하는 단계(825 단계)는, 오디오 효과를 기반으로, 공간적 특징들을 각각 설정할 수 있다.
다양한 실시예들에 따르면, 제 4 영역(440)은, 제 1 영역(310)과 동일한 영역에 표시되거나, 상이한 영역에 표시될 수 있다.
다양한 실시예들에 따르면, 컴퓨터 시스템(110)에 의한 방법은, 메타 데이터를 기반으로 오디오 파일들을 렌더링하는 단계, 오디오 파일들 및 메타 데이터를 함께 저장하는 단계(933 단계), 또는 오디오 파일들 및 메타 데이터를 함께 전송하는 단계(935 단계) 중 적어도 하나를 더 포함할 수 있다.
다양한 실시예들에 따르면, 오디오 파일들 및 메타 데이터를 함께 전송하는 단계(935 단계)는, 오디오 파일들 및 메타 데이터를 PCM(pulse code modulation) 오디오 신호로 구성하여, 전송하는 단계를 포함할 수 있다.
다양한 실시예들에 따르면, 메타 데이터는, PCM 오디오 신호의 메타 데이터 트랙(metadata track)에 임베딩되고, 오디오 파일들 및 메타 데이터의 인코딩에 이용될 오디오 코덱의 프레임 사이즈를 기반으로 오디오 파일들과 동기화되고, 드리프트 보정에 의한 채널간 보정이 적용되지 않도록 생성되어 메타 데이터 트랙에 기입되며, 하나의 프레임 안에 복수의 세트들로 기입될 수 있다.
다양한 실시예들에 따른 컴퓨터 시스템(110)은, 메모리(560), 및 메모리(560)와 연결되고, 메모리(560)에 저장된 적어도 하나의 명령을 실행하도록 구성된 프로세서(570)를 포함할 수 있다.
다양한 실시예들에 따르면, 프로세서(570)는, 현장에서 복수의 객체들에 의해 각각 발생되는 오디오 신호들에 기반하여 오디오 파일들을 각각 생성하고, 제작 툴(565)을 이용하여, 객체들에 대해 현장에서의 공간적 특징들을 각각 설정하고, 공간적 특징들을 기반으로, 오디오 파일들에 대한 메타 데이터를 생성하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(570)는, 그래픽 인터페이스(300, 400)를 출력하고, 그래픽 인터페이스(300, 400)를 통한 적어도 하나의 입력을 기반으로, 객체들에 대해 공간적 특징들을 각각 설정하고, 객체들과 관련하여 공간적 특징들을 각각 저장하도록 구성될 수 있다.
다양한 실시예들에 따르면, 적어도 하나의 오디오 파일에 대한 메타 데이터는, 객체들의 각각에 대한 위치 정보, 객체들 중 적어도 두 개의 위치 조합을 나타내는 그룹 정보, 또는 현장에 대한 환경 정보 중 적어도 하나를 포함할 수 있다.
다양한 실시예들에 따르면, 객체들의 각각은, 악기, 악기 연주자, 보컬리스트, 대화자, 스피커 또는 배경 중 하나를 포함할 수 있다.
다양한 실시예들에 따르면, 그래픽 인터페이스(300, 400)는, 현장에서의 객체들을 표시하기 위한 제 1 영역(310), 및 제 1 영역(310)과 동일한 화면 상에 표시되고, 제 1 영역(310)에서 선택되는 객체의 위치를 설정하기 위한 제 2 영역(320)을 포함할 수 있다.
다양한 실시예들에 따르면, 프로세서(570)는, 위치를 기반으로, 공간적 특징들을 각각 설정할 수 있다.
다양한 실시예들에 따르면, 그래픽 인터페이스(300, 400)는, 제 1 영역(310)과 동일한 화면 상에 표시되고, 제 1 영역(310)에서 선택되는 객체에 대해 오디오 효과를 조정하기 위한 제 3 영역(330)을 더 포함할 수 있다.
다양한 실시예들에 따르면, 프로세서(570)는, 위치와 오디오 효과를 기반으로, 공간적 특징들을 각각 설정할 수 있다.
다양한 실시예들에 따르면, 그래픽 인터페이스(300, 400)는, 적어도 하나의 현장을 표시하기 위한 제 4 영역(440), 또는 제 4 영역(440 단계)과 동일한 화면에 표시되고, 제 4 영역(440 단계)에서 선택되는 현장과 관련된 오디오 효과를 조정하기 위한 제 5 영역(450 단계) 중 적어도 하나를 더 포함할 수 있다.
다양한 실시예들에 따르면, 프로세서(570)는, 오디오 효과를 기반으로, 공간적 특징들을 각각 설정할 수 있다.
다양한 실시예들에 따르면, 제 4 영역(440)은, 제 1 영역(310)과 동일한 영역에 표시되거나, 상이한 영역에 표시될 수 있다.
다양한 실시예들에 따르면, 프로세서(570)는, 메타 데이터를 기반으로, 오디오 파일들을 렌더링하거나, 오디오 파일들 및 메타 데이터를 함께 저장하거나, 오디오 파일들 및 메타 데이터를 함께 전송할 수 있다.
다양한 실시예들에 따르면, 프로세서(570)는, 오디오 파일들 및 메타 데이터를 PCM 오디오 신호로 구성하여, 전송하는 단계를 포함할 수 있다.
다양한 실시예들에 따르면, 메타 데이터는, PCM 오디오 신호의 메타 데이터 트랙에 임베딩되고, 오디오 파일들 및 메타 데이터의 인코딩에 이용될 오디오 코덱의 프레임 사이즈를 기반으로 오디오 파일들과 동기화되고, 드리프트 보정에 의한 채널간 보정이 적용되지 않도록 생성되어 메타 데이터 트랙에 기입되며, 하나의 프레임 안에 복수의 세트들로 기입될 수 있다.
이상에서 설명된 장치는 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성 요소는, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성 요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
다양한 실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이 때 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 그리고, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성 요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성 요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성 요소를 다른 구성 요소와 구분하기 위해 사용될 뿐 해당 구성 요소들을 한정하지 않는다. 어떤(예: 제 1) 구성 요소가 다른(예: 제 2) 구성 요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성 요소가 상기 다른 구성 요소에 직접적으로 연결되거나, 다른 구성 요소(예: 제 3 구성 요소)를 통하여 연결될 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.
다양한 실시예들에 따르면, 기술한 구성 요소들의 각각의 구성 요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성 요소들 중 하나 이상의 구성 요소들 또는 단계들이 생략되거나, 또는 하나 이상의 다른 구성 요소들 또는 단계들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성 요소들(예: 모듈 또는 프로그램)은 하나의 구성 요소로 통합될 수 있다. 이런 경우, 통합된 구성 요소는 복수의 구성 요소들 각각의 구성 요소의 하나 이상의 기능들을 통합 이전에 복수의 구성 요소들 중 해당 구성 요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 단계들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 단계들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 단계들이 추가될 수 있다.

Claims (22)

  1. 컴퓨터 시스템에 의한 방법에 있어서,
    현장에서 복수의 객체들에 의해 각각 발생되는 오디오 신호들에 기반하여 오디오 파일들을 각각 생성하는 단계;
    제작 툴을 이용하여, 그래픽 인터페이스를 기반으로 상기 객체들에 대해 상기 현장에서의 공간적 특징들을 각각 설정하는 단계; 및
    상기 공간적 특징들을 기반으로, 상기 오디오 파일들에 대한 메타 데이터를 생성하는 단계
    를 포함하고,
    상기 그래픽 인터페이스는,
    상기 현장에서의 상기 객체들을 표시하기 위한 제 1 영역,
    상기 제 1 영역과 동일한 화면 상에 표시되고, 상기 제 1 영역에서 선택되는 객체의 위치를 설정하기 위한 제 2 영역, 및
    상기 제 1 영역과 동일한 화면 상에 표시되고, 상기 제 1 영역에서 선택되는 객체에 대해 오디오 효과를 조정하기 위한 제 3 영역
    을 포함하고,
    상기 공간적 특징들을 각각 설정하는 단계는,
    상기 위치와 상기 오디오 효과를 기반으로, 상기 공간적 특징들을 각각 설정하는,
    방법.
  2. 제 1 항에 있어서,
    상기 공간적 특징들을 각각 설정하는 단계는,
    상기 그래픽 인터페이스를 출력하는 단계;
    상기 그래픽 인터페이스를 통한 적어도 하나의 입력을 기반으로, 상기 객체들에 대해 상기 공간적 특징들을 각각 설정하는 단계; 및
    상기 객체들과 관련하여 상기 공간적 특징들을 각각 저장하는 단계
    를 포함하는,
    방법.
  3. 제 1 항에 있어서,
    상기 메타 데이터는,
    상기 객체들의 각각에 대한 위치 정보,
    상기 객체들 중 적어도 두 개의 위치 조합을 나타내는 그룹 정보, 또는
    상기 현장에 대한 환경 정보
    중 적어도 하나를 포함하는,
    방법.
  4. 제 1 항에 있어서,
    상기 객체들의 각각은,
    악기, 악기 연주자, 보컬리스트, 대화자, 스피커 또는 배경 중 하나를 포함하는,
    방법.
  5. 삭제
  6. 삭제
  7. 제 1 항에 있어서,
    상기 그래픽 인터페이스는,
    적어도 하나의 현장을 표시하기 위한 제 4 영역, 또는
    상기 제 4 영역과 동일한 화면에 표시되고, 상기 제 4 영역에서 선택되는 현장과 관련된 오디오 효과를 조정하기 위한 제 5 영역
    중 적어도 하나를 더 포함하고,
    상기 공간적 특징들을 각각 설정하는 단계는,
    상기 현장과 관련된 오디오 효과를 기반으로, 상기 공간적 특징들을 각각 설정하는,
    방법.
  8. 제 7 항에 있어서,
    상기 제 4 영역은,
    상기 제 1 영역과 동일한 영역에 표시되거나, 상이한 영역에 표시되는,
    방법.
  9. 제 1 항에 있어서,
    상기 메타 데이터를 기반으로 상기 오디오 파일들을 렌더링하는 단계;
    상기 오디오 파일들 및 상기 메타 데이터를 함께 저장하는 단계; 또는
    상기 오디오 파일들 및 상기 메타 데이터를 함께 전송하는 단계
    중 적어도 하나를 더 포함하는,
    방법.
  10. 제 9 항에 있어서,
    상기 오디오 파일들 및 상기 메타 데이터를 함께 전송하는 단계는,
    상기 오디오 파일들 및 상기 메타 데이터를 PCM(pulse code modulation) 오디오 신호로 구성하여, 전송하는 단계를 포함하고,
    상기 메타 데이터는,
    상기 PCM 오디오 신호의 메타 데이터 트랙(metadata track)에 임베딩되고,
    상기 오디오 파일들 및 상기 메타 데이터의 인코딩에 이용될 오디오 코덱의 프레임 사이즈를 기반으로 상기 오디오 파일들과 동기화되고,
    드리프트 보정에 의한 채널간 보정이 적용되지 않도록 생성되어 상기 메타 데이터 트랙에 기입되며,
    하나의 프레임 안에 복수의 세트들로 기입되는,
    방법.
  11. 제 1 항 내지 제 4 항, 또는 제 7 항 내지 제 10 항 중 어느 한 항의 방법을 상기 컴퓨터 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독 가능한 기록 매체에 저장되는 컴퓨터 프로그램.
  12. 제 1 항 내지 제 4 항, 또는 제 7 항 내지 제 10 항 중 어느 한 항의 방법을 상기 컴퓨터 시스템에 실행시키기 위한 프로그램이 기록되어 있는 비-일시적인 컴퓨터 판독 가능한 기록 매체.
  13. 컴퓨터 시스템에 있어서,
    메모리; 및
    상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성된 프로세서를 포함하고,
    상기 프로세서는,
    현장에서 복수의 객체들에 의해 각각 발생되는 오디오 신호들에 기반하여 오디오 파일들을 각각 생성하고,
    제작 툴을 이용하여, 그래픽 인터페이스를 기반으로 상기 객체들에 대해 상기 현장에서의 공간적 특징들을 각각 설정하고,
    상기 공간적 특징들을 기반으로, 상기 오디오 파일들에 대한 메타 데이터를 생성하도록 구성되고,
    상기 그래픽 인터페이스는,
    상기 현장에서의 상기 객체들을 표시하기 위한 제 1 영역,
    상기 제 1 영역과 동일한 화면 상에 표시되고, 상기 제 1 영역에서 선택되는 객체의 위치를 설정하기 위한 제 2 영역, 및
    상기 제 1 영역과 동일한 화면 상에 표시되고, 상기 제 1 영역에서 선택되는 객체에 대해 오디오 효과를 조정하기 위한 제 3 영역
    을 포함하고,
    상기 프로세서는,
    상기 위치와 상기 오디오 효과를 기반으로, 상기 공간적 특징들을 각각 설정하도록 구성되는,
    컴퓨터 시스템.
  14. 제 13 항에 있어서,
    상기 프로세서는,
    상기 그래픽 인터페이스를 출력하고,
    상기 그래픽 인터페이스를 통한 적어도 하나의 입력을 기반으로, 상기 객체들에 대해 상기 공간적 특징들을 각각 설정하고,
    상기 객체들과 관련하여 상기 공간적 특징들을 각각 저장하도록 구성되는,
    컴퓨터 시스템.
  15. 제 13 항에 있어서,
    상기 메타 데이터는,
    상기 객체들의 각각에 대한 위치 정보,
    상기 객체들 중 적어도 두 개의 위치 조합을 나타내는 그룹 정보, 또는
    상기 현장에 대한 환경 정보
    중 적어도 하나를 포함하는,
    컴퓨터 시스템.
  16. 제 13 항에 있어서,
    상기 객체들의 각각은,
    악기, 악기 연주자, 보컬리스트, 대화자, 스피커 또는 배경 중 하나를 포함하는,
    컴퓨터 시스템.
  17. 삭제
  18. 삭제
  19. 제 13 항에 있어서,
    상기 그래픽 인터페이스는,
    적어도 하나의 현장을 표시하기 위한 제 4 영역, 또는
    상기 제 4 영역과 동일한 화면에 표시되고, 상기 제 4 영역에서 선택되는 현장과 관련된 오디오 효과를 조정하기 위한 제 5 영역
    중 적어도 하나를 더 포함하고,
    상기 프로세서는,
    상기 현장과 관련된 오디오 효과를 기반으로, 상기 공간적 특징들을 각각 설정하도록 구성되는,
    컴퓨터 시스템.
  20. 제 19 항에 있어서,
    상기 제 4 영역은,
    상기 제 1 영역과 동일한 영역에 표시되거나, 상이한 영역에 표시되는,
    컴퓨터 시스템.
  21. 제 13 항에 있어서,
    상기 프로세서는,
    상기 메타 데이터를 기반으로, 상기 오디오 파일들을 렌더링하거나,
    상기 오디오 파일들 및 상기 메타 데이터를 함께 저장하거나,
    상기 오디오 파일들 및 상기 메타 데이터를 함께 전송하도록 구성되는,
    컴퓨터 시스템.
  22. 제 21 항에 있어서,
    상기 프로세서는,
    상기 오디오 파일들 및 상기 메타 데이터를 PCM(pulse code modulation) 오디오 신호로 구성하여, 전송하고,
    상기 메타 데이터는,
    상기 PCM 오디오 신호의 메타 데이터 트랙(metadata track)에 임베딩되고,
    상기 오디오 파일들 및 상기 메타 데이터의 인코딩에 이용될 오디오 코덱의 프레임 사이즈를 기반으로 상기 오디오 파일들과 동기화되고,
    드리프트 보정에 의한 채널간 보정이 적용되지 않도록 생성되어 상기 메타 데이터 트랙에 기입되며,
    하나의 프레임 안에 복수의 세트들로 기입되는,
    컴퓨터 시스템.
KR1020210072524A 2020-11-24 2021-06-04 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 제작하는 컴퓨터 시스템 및 그의 방법 KR102500694B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/534,823 US11930349B2 (en) 2020-11-24 2021-11-24 Computer system for producing audio content for realizing customized being-there and method thereof
JP2021190472A JP2022083445A (ja) 2020-11-24 2021-11-24 ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200158485 2020-11-24
KR20200158485 2020-11-24

Publications (2)

Publication Number Publication Date
KR20220071869A KR20220071869A (ko) 2022-05-31
KR102500694B1 true KR102500694B1 (ko) 2023-02-16

Family

ID=81780019

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020210072523A KR102505249B1 (ko) 2020-11-24 2021-06-04 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 전송하는 컴퓨터 시스템 및 그의 방법
KR1020210072522A KR102508815B1 (ko) 2020-11-24 2021-06-04 오디오와 관련하여 사용자 맞춤형 현장감 실현을 위한 컴퓨터 시스템 및 그의 방법
KR1020210072524A KR102500694B1 (ko) 2020-11-24 2021-06-04 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 제작하는 컴퓨터 시스템 및 그의 방법

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020210072523A KR102505249B1 (ko) 2020-11-24 2021-06-04 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 전송하는 컴퓨터 시스템 및 그의 방법
KR1020210072522A KR102508815B1 (ko) 2020-11-24 2021-06-04 오디오와 관련하여 사용자 맞춤형 현장감 실현을 위한 컴퓨터 시스템 및 그의 방법

Country Status (3)

Country Link
US (1) US11942096B2 (ko)
JP (1) JP2022083444A (ko)
KR (3) KR102505249B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11930349B2 (en) 2020-11-24 2024-03-12 Naver Corporation Computer system for producing audio content for realizing customized being-there and method thereof
KR102505249B1 (ko) 2020-11-24 2023-03-03 네이버 주식회사 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 전송하는 컴퓨터 시스템 및 그의 방법
US11930348B2 (en) * 2020-11-24 2024-03-12 Naver Corporation Computer system for realizing customized being-there in association with audio and method thereof

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2956125B2 (ja) * 1990-05-09 1999-10-04 ソニー株式会社 音源情報制御装置
JP2005150993A (ja) * 2003-11-13 2005-06-09 Sony Corp オーディオデータ処理装置、およびオーディオデータ処理方法、並びにコンピュータ・プログラム
US8396576B2 (en) * 2009-08-14 2013-03-12 Dts Llc System for adaptively streaming audio objects
TWI816597B (zh) * 2011-07-01 2023-09-21 美商杜比實驗室特許公司 用於增強3d音頻編輯與呈現之設備、方法及非暫態媒體
JP5912179B2 (ja) 2011-07-01 2016-04-27 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応的オーディオ信号生成、コーディング、及びレンダリングのためのシステムと方法
WO2013006342A1 (en) * 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation Synchronization and switchover methods and systems for an adaptive audio system
MX342150B (es) * 2012-07-09 2016-09-15 Koninklijke Philips Nv Codificacion y decodificacion de señales de audio.
RU2602332C1 (ru) * 2013-01-21 2016-11-20 Долби Лабораторис Лайсэнзин Корпорейшн Перекодировка метаданных
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
CN110797037A (zh) * 2013-07-31 2020-02-14 杜比实验室特许公司 用于处理音频数据的方法和装置、介质及设备
CN106463148B (zh) * 2014-05-30 2019-10-01 索尼公司 信息处理装置和信息处理方法
JPWO2016171002A1 (ja) * 2015-04-24 2018-02-15 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
GB2549532A (en) 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
GB2554447A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Gain control in spatial audio systems
US10725729B2 (en) * 2017-02-28 2020-07-28 Magic Leap, Inc. Virtual and real object recording in mixed reality device
EP3622509B1 (en) * 2017-05-09 2021-03-24 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
SG11202000330XA (en) * 2017-07-14 2020-02-27 Fraunhofer Ges Forschung Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
GB2567172A (en) 2017-10-04 2019-04-10 Nokia Technologies Oy Grouping and transport of audio objects
JP7358986B2 (ja) * 2017-10-05 2023-10-11 ソニーグループ株式会社 復号装置および方法、並びにプログラム
EP3489821A1 (en) * 2017-11-27 2019-05-29 Nokia Technologies Oy A user interface for user selection of sound objects for rendering, and/or a method for rendering a user interface for user selection of sound objects for rendering
BR112020016948A2 (pt) * 2018-07-02 2020-12-15 Dolby Laboratories Licensing Corporation Métodos e dispositivos para gerar ou decodificar um fluxo de bits compreendendo sinais de áudio imersivos
US11622219B2 (en) 2019-07-24 2023-04-04 Nokia Technologies Oy Apparatus, a method and a computer program for delivering audio scene entities
US11758345B2 (en) 2020-10-09 2023-09-12 Raj Alur Processing audio for live-sounding production
US11930348B2 (en) 2020-11-24 2024-03-12 Naver Corporation Computer system for realizing customized being-there in association with audio and method thereof
KR102505249B1 (ko) 2020-11-24 2023-03-03 네이버 주식회사 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 전송하는 컴퓨터 시스템 및 그의 방법
US11930349B2 (en) 2020-11-24 2024-03-12 Naver Corporation Computer system for producing audio content for realizing customized being-there and method thereof

Also Published As

Publication number Publication date
JP2022083444A (ja) 2022-06-03
US20220392457A1 (en) 2022-12-08
KR102508815B1 (ko) 2023-03-14
KR20220071869A (ko) 2022-05-31
KR102505249B1 (ko) 2023-03-03
US11942096B2 (en) 2024-03-26
KR20220071868A (ko) 2022-05-31
US20230132374A9 (en) 2023-04-27
KR20220071867A (ko) 2022-05-31

Similar Documents

Publication Publication Date Title
KR102500694B1 (ko) 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 제작하는 컴퓨터 시스템 및 그의 방법
US20230179939A1 (en) Grouping and transport of audio objects
EP3343349B1 (en) An apparatus and associated methods in the field of virtual reality
US11812252B2 (en) User interface feedback for controlling audio rendering for extended reality experiences
US11930349B2 (en) Computer system for producing audio content for realizing customized being-there and method thereof
US9769585B1 (en) Positioning surround sound for virtual acoustic presence
US11930348B2 (en) Computer system for realizing customized being-there in association with audio and method thereof
US11429340B2 (en) Audio capture and rendering for extended reality experiences
US20200401364A1 (en) Audio Scene Processing
US10667074B2 (en) Game streaming with spatial audio
US10448186B2 (en) Distributed audio mixing
KR20230001135A (ko) 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 처리하는 컴퓨터 시스템 및 그의 방법
KR20190081163A (ko) 입체 음향 컨텐츠 저작 툴을 이용한 선택적 광고 제공 방법 및 이를 위한 어플리케이션
KR20230037329A (ko) 이벤트 맞춤형 오디오 콘텐츠를 렌더링하기 위한 컴퓨터 시스템 및 그의 방법
KR20190082056A (ko) 입체 음향 컨텐츠 저작 툴을 이용한 선택적 광고 제공 방법 및 이를 위한 어플리케이션
KR20190081160A (ko) 입체 음향 컨텐츠 저작 툴을 이용한 광고 제공 방법 및 이를 위한 어플리케이션

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant