WO2016190460A1 - Method and device for 3d sound playback - Google Patents

Method and device for 3d sound playback Download PDF

Info

Publication number
WO2016190460A1
WO2016190460A1 PCT/KR2015/005253 KR2015005253W WO2016190460A1 WO 2016190460 A1 WO2016190460 A1 WO 2016190460A1 KR 2015005253 W KR2015005253 W KR 2015005253W WO 2016190460 A1 WO2016190460 A1 WO 2016190460A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
speakers
group
signal
speaker
Prior art date
Application number
PCT/KR2015/005253
Other languages
French (fr)
Korean (ko)
Inventor
조현
김선민
박영진
정지현
Original Assignee
삼성전자 주식회사
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사, 한국과학기술원 filed Critical 삼성전자 주식회사
Priority to PCT/KR2015/005253 priority Critical patent/WO2016190460A1/en
Priority to KR1020177029777A priority patent/KR102357293B1/en
Publication of WO2016190460A1 publication Critical patent/WO2016190460A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present invention relates to a method and an apparatus for reproducing stereo sound, and more particularly, to a method and an apparatus for positioning a virtual sound source at a predetermined position using a plurality of speakers.
  • Stereo sound is a technique that arranges a plurality of speakers at different positions on a horizontal plane and outputs the same or different sound signals from each speaker so that the listener feels a sense of space.
  • the sweet spot may be limited to the center of the home theater configuration, and the reflection sound generating technology using the sound bar may be affected by the characteristics of the room. Accordingly, there is a need for a three-dimensional audio rendering method that is not affected by the characteristics of a room by using a plurality of speakers and is not restricted by the position of a sweet spot.
  • An apparatus and method for reproducing stereo sound for providing a stereoscopic sense and a spatial sense to a listener may be provided.
  • the present invention also provides a computer-readable recording medium having recorded thereon a program for executing the method on a computer.
  • the technical problem to be achieved by the present embodiment is not limited to the technical problem as described above, and other technical problems may be inferred from the following embodiments.
  • FIG. 1 illustrates a stereoscopic sound reproduction environment of a listener according to an embodiment.
  • FIG. 2 illustrates a stereoscopic sound reproducing apparatus according to an embodiment.
  • FIG. 3 illustrates a stereoscopic sound reproducing apparatus using a wave field synthesis rendering method.
  • FIG. 4A shows a stereoscopic sound reproducing apparatus that renders using a minimum error summing method.
  • FIG. 4B is a view showing an arbitrary point in the virtual sound source and the sweet spot in the stereoscopic sound reproduction environment of FIG.
  • FIG. 5 shows a 3D sound reproducing apparatus that performs rendering for high-altitude reproduction.
  • FIG. 6A illustrates a stereoscopic sound reproducing apparatus for tracking a listener's head position according to an embodiment.
  • FIG. 6B illustrates a change in a sweet spot of a stereoscopic sound reproduction environment according to an embodiment.
  • FIG. 7 is a flowchart of a method of reproducing stereoscopic sound, according to an exemplary embodiment.
  • FIG. 8 shows a flowchart of a further embodiment of the method for the stereophonic reproduction apparatus to reproduce stereoscopic sound.
  • a stereoscopic sound reproducing method includes grouping a plurality of speakers into a group, receiving a sound signal, and using one or more grouped speakers to position one or more virtual sound sources of the sound signal. And positioning the virtual sound source through the plurality of speakers.
  • the grouping of the plurality of speakers into a group may include including a speaker constituting one home theater system and a separate loudspeaker not constituting the home theater system in the one group. .
  • the home theater system may be a loudspeaker array in which a plurality of loudspeakers are linearly connected.
  • Grouping the plurality of speakers may include connecting the plurality of physically separated speakers through a wireless or wired network.
  • the positioning of the virtual sound source at a predetermined position may include positioning the virtual sound image at a predetermined position by a sound field synthesis rendering method.
  • the positioning of the virtual sound source at a predetermined position may include: a first sound pressure in a sweet spot generated from the speakers included in the group, and in the sweet spot generated from the virtual sound source at the predetermined position;
  • the method may include determining a sound pressure signal for each speaker included in the group capable of minimizing a difference in second sound pressure, and modulating the received sound signal based on the determined sound pressure signal for each speaker.
  • the calculating of the sound pressure signal for each speaker included in the group includes determining an impulse response to be applied to each speaker included in the group, and modulating the received sound signal includes the group.
  • the method may include convolving the determined impulse response to the sound signal input for each speaker.
  • the positioning of the virtual sound image at a predetermined position may include passing the received sound signal through a filter corresponding to a predetermined altitude, replicating the filtered sound signal to generate a plurality of sound signals, and And performing at least one of amplification, attenuation, and delay for each of the replicated acoustic signals based on at least one of a gain value and a delay value corresponding to each of the speakers to which the duplicated acoustic signals are to be output.
  • And tracking the position of the head of the listener in real time, and positioning the virtual sound source at a predetermined position comprises: at least one of the speakers included in the group based on the tracked position of the head of the listener. And changing the gain and phase delay values of the speaker.
  • an apparatus for reproducing stereo sound includes a grouping unit for grouping a plurality of speakers into a group, a receiving unit for receiving an audio signal, and a plurality of virtual sound sources of the sound signal by using the grouped speakers. And a rendering unit for positioning at a position, and a reproducing unit for reproducing the virtual sound source through the plurality of speakers.
  • the grouping unit may include a speaker constituting one home theater system and a separate loudspeaker not constituting the home theater system in the one group.
  • the home theater system may be a loudspeaker array in which a plurality of loudspeakers are linearly connected.
  • the grouping unit may connect the plurality of physically separated speakers through a wireless or wired network.
  • the rendering unit may orient the virtual sound image to a predetermined position by using the received sound signal by a sound field synthesis rendering method.
  • the rendering unit may minimize the difference between the first sound pressure in the sweet spot generated from the speakers included in the group and the second sound pressure in the sweet spot generated from the virtual sound source existing at the predetermined position.
  • the sound pressure signal for each speaker included in the group may be determined, and the received sound signal may be modulated based on the determined sound pressure signal for each speaker.
  • the rendering unit may determine an impulse response to be applied to each speaker included in the group, and convolve the determined impulse response to an acoustic signal input for each speaker included in the group.
  • the rendering unit may include a filtering unit which passes the input sound signal to a filter corresponding to a predetermined altitude, a copy unit which generates a plurality of sound signals by copying the filtered sound signal, and the copied sound signals may be output. And an amplifier configured to perform at least one of amplification, attenuation, and delay of each of the replicated acoustic signals based on at least one of a gain value and a delay value corresponding to each of the speakers.
  • a listener tracker configured to track the position of the head of the listener in real time, wherein the renderer is configured to obtain gain and phase delay values of at least one of the speakers included in the group based on the tracked position of the listener. It may be characterized by changing.
  • a computer readable recording medium having recorded thereon a program for executing the stereo sound reproduction method on a computer may be provided.
  • part refers to a hardware component or circuit, such as an FPGA or an ASIC.
  • FIG. 1 illustrates a stereoscopic sound reproduction environment of a listener according to an embodiment.
  • the stereoscopic reproduction environment 100 is an example of an environment in which the listener 110 views stereoscopic sounds through the stereoscopic reproduction device 200 which will be described later.
  • the stereoscopic playback environment 100 is an environment for the playback of audio content alone or with other content such as video, and may be any, such as a room that can be embodied in a home, cinema, theater, auditorium, studio, game console, or the like. It can mean an open, partially closed, or completely closed area of a.
  • the listener 110 may enjoy multimedia content through the multimedia player 140 such as television or audio.
  • multimedia content such as television or audio.
  • the listener 110 of the stereoscopic sound reproduction environment 100 listens to the sound of the content played on the television through the plurality of speakers 145, 160, and 165.
  • the television 140 may have a built-in speaker, but the stereoscopic sound reproduction environment 100 may include a separate home theater system.
  • a separate sound bar 145 may be present directly below the television 140.
  • the sound bar 130 may be a speaker array module including a plurality of loudspeakers.
  • the sound bar 145 may include panning, wave field synthesis, beam forming, focus source, and head transmission under a stereo sound reproduction environment 100.
  • a three-dimensional sound field processing technique such as a head related transfer function may be used to virtually reproduce the multi-channel audio signal.
  • FIG. 1 shows the sound bar 145 as a single horizontal linear array positioned at the bottom of the television
  • the sound bar 145 is a dual horizontal linear array installed above and below the television 140 to provide high elevation, It may be composed of a double vertical linear array positioned to the left and right of the television 140 and a window array of a type surrounding the television 140.
  • the sound bar 145 may be installed in a form surrounding the listener 110 or positioned in front of and behind the listener 110.
  • the stereo sound reproduction environment 100 may include a speaker (not shown) of a home theater system other than the sound bar 145, and may not necessarily include a home theater speaker such as the sound bar 145. .
  • the listener 110 may include a speaker that constitutes one home theater system and a separate loudspeaker that does not constitute the home theater system in one group to enjoy stereoscopic sound through a plurality of speakers included in the group.
  • the listener 110 may combine the separate loudspeakers 160 and 165 physically separated from the sound bar 145 to enjoy the content played on the television 140.
  • the listener 110 may combine the loudspeakers (not shown) built in the television 140 with separate loudspeakers 160 and 165 that are physically separated from each other to enjoy the content played on the television 140. .
  • the listener 110 may add separate loudspeakers 160 and 165 to the existing TV-embedded speaker or sound bar 145 to group them into one group and enjoy stereoscopic sound.
  • the stereoscopic reproduction environment 100 may be configured by grouping the television built-in speaker 140, the sound bar 145, the left loudspeaker 160, and the right loudspeaker 165 into one group 180. Sound can be reproduced. Although only the left loudspeaker 160 and the right loudspeaker 165 of the listener 110 are illustrated in FIG. 1, the listener 110 may be configured according to the size of the space for listening to stereoscopic sound or the style of the content for listening. The number and location can be configured adaptively.
  • the stereoscopic reproduction environment 110 may further include a left rear loudspeaker (not shown) and a right rear loudspeaker (not shown).
  • the television 140 or a separate display device may display a list of speakers composed of one group 180 to the listener 110, and the listener 110 may add any speaker constituting the group, or Can be removed.
  • the stereoscopic reproduction environment 100 may include a sweet spot 120 which is a spatial range in which optimal stereoscopic sounds can be enjoyed.
  • the stereoscopic sound reproduction environment 100 may set the position of the virtual ear of the listener 110 so that the optimal stereoscopic sound is output from the position of the ear and the adjacent sweet spot 120.
  • the stereoscopic reproduction environment 100 may perform rendering in which the virtual sound source is positioned at a desired position using the speakers 145, 160, and 165 in the group 180, and the listener 110 may determine the actual speaker position. It feels as if sound is heard from the position of the virtual sound source.
  • FIG. 2 illustrates a stereoscopic sound reproducing apparatus according to an embodiment.
  • the stereoscopic sound reproducing apparatus 200 performs the 3D audio rendering to place the virtual sound source at a predetermined position on the input audio signals in the stereoscopic sound reproducing environment 100 described above with reference to FIG. 1 to the listener 110. You can feel the sense of space and three-dimensional.
  • the stereoscopic sound reproducing apparatus 200 may include a receiver 210, a controller (not shown), and a reproducer 240.
  • the controller may include a renderer 220 and a grouper 230.
  • the controller includes at least one processor such as a central processing unit (CPU), an application processor (AP), an application specific integrated circuit (ASIC), an embedded processor, a microprocessor, hardware control logic, and a hardware finite state machine (FSM). , Digital signal processor (DSP), or a combination thereof.
  • processor such as a central processing unit (CPU), an application processor (AP), an application specific integrated circuit (ASIC), an embedded processor, a microprocessor, hardware control logic, and a hardware finite state machine (FSM). , Digital signal processor (DSP), or a combination thereof.
  • CPU central processing unit
  • AP application processor
  • ASIC application specific integrated circuit
  • FSM hardware finite state machine
  • DSP Digital signal processor
  • the receiver 210 may receive an input audio signal (ie, an acoustic signal) from a device such as a digital versatile disc (DVD), a Blu-ray disc (BD), an MP3 player, or the like.
  • the input audio signal may be a multi-channel audio signal such as a stereo signal (2 channels), 5, 1 channel, 7.1 channel, 10.2 channel and 22.2 channel.
  • the input audio signal may be an object-based audio signal in which a plurality of mono input signals and real-time positions of objects are transmitted in the form of metadata.
  • the object-based audio signal refers to a form in which the position of each audio object arranged in three-dimensional space is compressed into metadata along with sound.
  • the input audio signal may be a hybrid input audio signal in which a channel audio signal and an object-based audio signal are mixed.
  • the grouping unit 230 may group at least two speakers existing in the 3D sound reproducing environment 100 into one group.
  • the grouping unit 230 may group the television built-in speaker and the separate loudspeaker into one group.
  • the grouping unit 230 may group the built-in TV, one or more soundbars and one or more loudspeakers into one group.
  • the grouping unit 230 may group the existing home theater speaker and the one or more loudspeakers purchased separately by the listener 110 into one group. Speakers in a group may be physically separated from each other.
  • the listener 110 may select speakers to be grouped, and may determine speakers to be added based on the size and characteristics of the space where the listener 110 is located or the nature of the content to be enjoyed.
  • the grouping unit 230 may group a plurality of physically separated speakers into a group through various communication paths.
  • the communication path may represent various networks and network topologies.
  • the communication path may include wireless communication, wired communication, optical, ultrasound, or a combination thereof. Satellite communications, mobile communications, Bluetooth, Infrared Data Association standard (lrDA), wirelessfidelity (WiFi), and worldwide interoperability for microwave access (WiMAX) can be included in the communication path. Examples of communication. Ethernet, digital subscriber line (DSL), fiber to the home (FTTH), and plain old telephone service (POTS) are examples of wireline communications that can be included in the communication path.
  • the communication path may include a personal area network (PAN), a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN), or a combination thereof.
  • PAN personal area network
  • LAN local area network
  • MAN metropolitan area network
  • WAN wide area network
  • the grouper 230 may store positions and gains of the speakers existing in the group, and transmit the positions of the speakers to the renderer 220.
  • the renderer 220 may perform 3D audio rendering for positioning the virtual sound source at a predetermined position with the input audio signals.
  • the renderer 220 may generate at least one speaker signal corresponding to the audio signal by processing the input audio signal using a wave field synthesis rendering algorithm.
  • the rendering unit 220 processes an input audio signal by using a head related transfer function rendering, beam-forming rendering, or focused source rendering algorithm to correspond to the audio signal. At least one speaker signal may be generated.
  • the rendering unit 220 may calculate an impulse response for each speaker based on the minimum error summation, or perform rendering to reproduce the sense of altitude. A detailed process of performing the 3D audio rendering by the rendering unit 220 will be described later.
  • the reproduction unit 240 may reproduce the virtual sound source rendered by the rendering unit 220 through the multichannel speaker.
  • the playback unit 240 may include speakers existing in the group 180.
  • FIG. 3 illustrates a stereoscopic sound reproducing apparatus using a wave field synthesis rendering method.
  • FIG. 3 illustrates an embodiment of the rendering unit 220 of the stereoscopic sound reproducing apparatus 200. Although the descriptions are omitted below, the contents described above with respect to the stereoscopic sound reproducing apparatus 200 of FIG. The same applies to the stereoscopic sound reproducing apparatus 200 according to the embodiment of the present invention.
  • the renderer 220 may include an audio signal analyzer 310 and a sound field synthesis renderer 320.
  • the rendering unit 220 may determine a gain and phase delay value for each speaker suitable for the position of the sound image according to the propagation characteristics of the sound image to reproduce the near field focused sound source.
  • the rendering unit 220 uses a feature in which the magnitude of the sound pressure decreases to 1 / r according to the distance r between the listener 110 and the sound source, so that the output of the speakers in the group is located at the near sound image position to be positioned.
  • the gain between the speakers in the group can be changed to achieve the same sound pressure.
  • the rendering unit 220 may be configured to converge the output of all the speakers in the group without delay in the desired near-field position in consideration of the propagation delay of the sound field between the virtual sound source and the actual speaker.
  • the audio signal analyzer 310 may include speaker information in a group, sound source position information (for example, information about a position such as an angle of a virtual sound source with respect to a listening position), and a multichannel audio signal (sound source signal to be positioned). Get input.
  • the speaker information in the group may include information about the sound bar (for example, information about the arrangement such as the position and spacing of the loudspeaker array), position information of the speakers in the group, and the space between the speakers.
  • the audio signal analyzer 310 may determine the number of channels of the audio signal by analyzing a sound source format of the received multichannel audio signal, and extract each channel sound source signal for each identified channel from the received multichannel audio signal. have.
  • the sound field synthesis rendering unit 320 renders the multi-channel audio signal by the sound field synthesis method according to the number of audio channels identified by the audio signal analyzer 310. That is, the sound field synthesis rendering unit 320 orients the virtual sound source to a desired position in accordance with the identified number of audio channels.
  • the number of virtual sound images may vary depending on the number of audio channels checked by the audio signal analyzer 310. For example, when the sound source of the multi-channel audio signal is two channels, the sound field synthesis rendering unit 320 may render a virtual sound source in a front left direction and a front right direction, that is, in both directions, in a sound field synthesis method.
  • the sound field synthesis rendering unit 320 generates a virtual sound source in a total of five directions such as front left direction, front right direction, center direction, rear left direction, and rear right direction based on the position of the speaker in the group. You can render in a composite way.
  • the sound field synthesis rendering unit 320 may change the phase delay value and the gain value of each speaker in the group according to the number and position of the speakers in the group.
  • the stereoscopic sound reproducing apparatus 200 may change the phase delay value and the gain value of the speakers in the group in real time. For example, if the listener 110 moves to the left side, the gain value or pre delay value of the speakers in the group may be changed to a value optimized for the position of the listener 110 moved to the left side.
  • FIG. 4A shows a stereoscopic sound reproducing apparatus that renders using a minimum error summing method.
  • FIG. 4A illustrates an embodiment of the rendering unit 220 of the stereoscopic sound reproducing apparatus 200. Although the descriptions are omitted below, the contents described above with respect to the stereoscopic sound reproducing apparatus 200 of FIG. 2 are illustrated in FIG. 4A. The same applies to the stereoscopic sound reproducing apparatus 200 according to the embodiment of the present invention.
  • the renderer 220 may include an audio signal analyzer 310 and a minimum error adder 420. Since the audio signal analyzer 310 is as described above with reference to FIG. 3, description thereof will be omitted.
  • FIG. 4B is a view showing the virtual sound source 460 and arbitrary points 470 and 480 within the sweet spot 120 added to the stereo sound reproduction environment 100 of FIG.
  • the minimum error summing unit 420 is a method that can be applied to allow the listener 110 to enjoy optimal stereo sound within the set sweet spot 120.
  • the minimum error adder 420 may set a sound pressure pTarget within the sweet spot 120 due to the virtual sound source 460.
  • the virtual sound source 460 refers to assuming that there is an actual sound source at a position where the sound signal is to be positioned.
  • the minimum error summing unit 420 sets the actual sound pressure pReproduce in the sweet spot 120 generated from the speakers 145, 160, and 165 in the group, and then the difference between the two sound pressures pReproduce, pTarget (J).
  • the sound pressure signal of each speaker 145, 160, and 165, which is minimized, may be determined.
  • the minimum error adder 420 may modulate the sound signal received by the receiver 210 based on the determined sound pressure signal.
  • the arrows shown in solid lines in FIG. 4B represent pReprodece for any point in sweet spot 120 and the arrows shown in dashed lines represent pTarget.
  • the minimum error adder 420 may calculate pTarget and pReproduce of arbitrary points 470 and 480 within the sweet spot 120.
  • the minimum error summing unit 420 may calculate J by performing integration on the entire size of the sweet spot 120 to calculate pTarget and pReprodece of all points in the sweet spot 120.
  • v represents the size of the sweet spot 120
  • r is the distance between the position of the actual speaker (145, 160, 165) and a specific point (470, 480) within the sweet spot 120 or the position of the virtual sound source 460
  • t represents the time.
  • w is a weighting function that can be arbitrarily set according to r.
  • Equation 2 i denotes an index for each speaker in a group, and N denotes the total number of speakers in a space.
  • the ki value may mean a filter coefficient (ie, an impulse response) to be applied to each speaker, and thus the ki value may be determined by minimizing J '. That is, the minimum error adder 420 may determine a filter for each speaker in the group (that is, an impulse response).
  • the minimum error summing unit 420 determines a sound pressure signal that each speaker 145, 160, 165 should radiate from Equation 2 in the form of an impulse response for each speaker 145, 160, 165, and determines The impulse response may be convolved with the acoustic signal received for each speaker 145, 160, 165. Alternatively, the minimum error summing unit 420 may modulate an input sound signal for each speaker 145, 160, 165 by estimating gain and phase values from filter values determined for each speaker 145, 160, 165.
  • the minimum error summing unit 420 considers that the speakers located at the side of the listener 110 have little effect of orienting the virtual sound source, so that the impulse of the speaker array 145 located in front of the listener 110 is small. You can also determine only the response.
  • the minimum error summing unit 420 sets the sweet spot 120 to be large enough to add the minimum error of the sound field (or sound pressure) transmitted to the sweet spot 120, and then adds the speaker 145, 160, 165. Star filters can be calculated. Since the sweet spot 120 is large enough, the listener 110 has an advantage of being able to enjoy a stereoscopic sound of a predetermined level or more regardless of movement. If there are two or more listeners, the minimum error adder 420 may set the sweet spot 120 large enough to include two or more listeners.
  • the minimum error summing unit 420 calculates the minimum error of the sound field (or sound pressure) transmitted to the sweet spot 120 by setting the sweet spot 120 to be small, and for each speaker 145, 160, and 165.
  • the filter can be calculated.
  • the sweet spot 120 is very small, even if the listener 110 moves a little, the sweet spot 120 may leave the sweet spot 120, thereby making it difficult to enjoy stereoscopic sound.
  • the optimized speaker stars 145, 160, and 165 can calculate the impulse response, so that the listener can enjoy high quality stereo sound within the determined sweet spot 120. If there are two or more listeners, the minimum error adder 420 may set a plurality of sweet spots 120 for providing optimal stereo sound to each listener.
  • the sweet spot 120 is also moved according to the movement path of the listener 110, so that the size of the sweet spot 120 may be set smaller than that of the listener 110. Optimum stereoscopic reproduction may be possible regardless of movement.
  • FIG. 5 shows a 3D sound reproducing apparatus that performs rendering for high-altitude reproduction.
  • FIG. 5 illustrates an embodiment of the rendering unit 220 of the stereoscopic sound reproducing apparatus 200. Although the descriptions are omitted below, the contents described above with respect to the stereoscopic sound reproducing apparatus 200 of FIG. 2 are illustrated in FIG. 5. The same applies to the stereoscopic sound reproducing apparatus 200 according to the embodiment of the present invention.
  • the renderer 220 may include a filter 520, a replica 530, and an amplifier 540.
  • the filtering unit 520 passes the sound signal through a predetermined filter corresponding to a predetermined altitude.
  • the filtering unit 520 may pass the sound signal to a head related transfer filter (HRTF) filter corresponding to a predetermined altitude.
  • HRTF includes the path information from the spatial position of the sound source to both ears of the listener 110, that is, the frequency transfer characteristic. HRTF is diffracted at the head surface, as well as simple path differences such as inter-aural level differences (ILD) between two ears and inter-aural time differences (ITD) between the two ears.
  • ILD inter-aural level differences
  • ITD inter-aural time differences
  • the stereoscopic sound can be recognized by the phenomenon that the characteristics of the complicated path such as the reflection by the wheel and the wheel change according to the direction of sound arrival. Since HRTF has unique characteristics in each direction of space, it can be used to generate stereo sound.
  • the filtering unit 520 uses an HRTF filter to model sound generated at a higher altitude than actual speakers by using speakers arranged on a horizontal plane. Equation 3 below is an example of an HRTF filter used by the filtering unit 520.
  • HRTF2 is HRTF indicating path information from the position of the virtual sound source to the ear of the listener 110
  • HRTF1 is HRTF indicating path information from the position of the actual speaker to the ear of the listener 110. Since the sound signal is output through the actual speaker, in order to recognize that the sound signal is output from the virtual speaker, the HRTF2 corresponding to the predetermined altitude is divided by the HRTF1 corresponding to the horizontal plane (or the height of the actual speaker).
  • the optimal HRTF filter corresponding to a given altitude is different from person to person such as fingerprint. Therefore, it is desirable to calculate and apply the HRTF for each listener 110, but this is not practical.
  • HRTF is calculated for some listeners 110 within a group of listeners 110 having similar characteristics (e.g., physical characteristics such as age, height, or preferred frequency band, preferred music, etc.).
  • the representative value eg, average may then be determined as the HRTF to apply to all listeners 110 in the population.
  • Equation 4 An example of the result of filtering the acoustic signal using the HRTF defined in Equation 3 is shown in Equation 4 below.
  • Y1 (f) is a value obtained by converting an acoustic signal heard by the listener 110 into the frequency domain by a real speaker
  • Y2 (f) is a value obtained by converting an acoustic signal heard by the listener 110 into the frequency domain by the virtual speaker. to be.
  • the filtering unit 520 may filter only some of the plurality of channel signals included in the sound signal.
  • the sound signal may include sound signals corresponding to a plurality of channels.
  • seven channel signals are defined for convenience of description.
  • the channel signal to be described later is merely an example, and the sound signal may include a channel signal indicating a sound signal generated in a direction other than the seven directions described below.
  • the center channel signal represents an acoustic signal generated at the center of the front face and is output to the center speaker.
  • the right front channel signal represents an acoustic signal generated on the right side of the front and is output to the right front speaker.
  • the left front channel signal represents an acoustic signal generated on the left side of the front and is output to the left front speaker.
  • the right rear channel signal represents an acoustic signal generated on the right side of the rear side and is output to the right rear speaker.
  • the left rear channel signal represents an acoustic signal generated on the left side of the rear side and is output to the left rear speaker.
  • the right top channel signal represents an acoustic signal generated from the upper right side, and is output to the right top speaker.
  • the left top channel signal represents an acoustic signal generated from the upper left and is output to the left top speaker.
  • the filtering unit 520 filters the right top channel signal and the left top channel signal. Thereafter, the filtered right top channel signal and left top channel signal are used to model a virtual sound source generated at a desired altitude.
  • the filtering unit 520 filters the right front channel signal and the left front channel signal. Thereafter, the filtered right front channel signal and left front channel signal are used to model a virtual sound source generated at a desired altitude.
  • the right top channel signal and the left top channel signal are upmixed to generate a right top channel signal and a left top channel signal, and then mixed.
  • the right top channel signal and the left top channel signal may be filtered.
  • the replica unit 530 replicates the filtered channel signal into a plurality.
  • the replica unit 530 replicates the number of speakers in the group to output the filtered channel signal. For example, when the filtered sound signal is output as a right top channel signal, a left top channel signal, a right rear channel signal, and a left rear channel signal, the copy unit 530 replicates the filtered channel signals into four.
  • the number of copies of the filtered channel signal by the copying unit 530 may vary depending on the embodiment. However, the copying unit 530 may duplicate the filtered channel signal in two or more so that the filtered channel signal is output to at least the right rear channel signal and the left rear channel signal. It may be desirable.
  • the speaker on which the right top channel signal and the left top channel signal are to be reproduced are arranged on a horizontal plane. For example, it may be attached directly above the front speaker to reproduce the right front channel signal.
  • the amplifier 540 amplifies (or attenuates) the filtered sound signal according to a predetermined gain value.
  • the gain value is set differently according to the type of filtered sound signal and the type of filtered sound signal.
  • the right top channel signal to be output to the right top speaker is amplified according to the first gain value
  • the right top channel signal to be output to the left top speaker is amplified according to the second gain value.
  • the first gain value may be greater than the second gain value.
  • the left top channel signal to be output to the right top speaker is amplified according to the second gain value
  • the left top channel signal to be output to the left top speaker is amplified according to the first gain value so that corresponding channel signals are output from the left and right speakers.
  • the 3D sound reproducing apparatus 200 may output the same sound signal by different gain values from the speakers in the group.
  • the virtual sound source can be easily positioned at an altitude higher than that of the actual speaker, or the virtual sound source can be positioned at a specific altitude independent of the altitude of the actual speaker.
  • the operation of the replica unit 530 and the amplifier 540 may vary according to the number of channel signals included in the input sound signal and the number of speakers in the group.
  • the stereo sound reproducing apparatus 200 has described the method of positioning the virtual sound source at a predetermined position, respectively with reference to FIGS. 3 to 5, one stereo sound reproducing apparatus 200 has been described with reference to FIGS. It is obvious that all or alternatively may be used.
  • the method of positioning the virtual sound source at a predetermined position by the stereo sound reproducing apparatus 200 is not limited to the above-described example, and the stereo sound reproducing apparatus 200 may use any other method based on the position and the number of speakers in the group. Can be used to orient the virtual sound source at a predetermined position.
  • FIG. 6A illustrates a stereoscopic sound reproducing apparatus for tracking a listener's head position according to an embodiment.
  • the stereoscopic sound reproducing apparatus 200 may further include a communication unit (not shown).
  • the communication unit (not shown) may include one or more hardware components that allow communication between the 3D sound reproducing apparatus 200 and the peripheral device.
  • the communication unit (not shown) may include short range communication or mobile communication.
  • Short-range wireless communication includes Bluetooth communication, BLE (Bluetooth Low Energy) communication, near field communication (Near Field Communication), WLAN (Wi-Fi) communication, Zigbee communication, Infrared (IrDA) ), Communication, Wi-Fi Direct (WFD) communication, ultra wideband (UWB) communication, Ant + communication, and the like, but is not limited thereto.
  • the mobile communication may transmit / receive a radio signal with at least one of a base station, an external terminal, and a server on a mobile communication network.
  • the wireless signal may include various types of signals according to transmission and reception of an audio signal, an image signal signal, or a text / multimedia message.
  • the communicator may include a listener tracker 610.
  • 5A is a block diagram illustrating another example of a 3D sound reproducing apparatus 200 according to an exemplary embodiment. Therefore, even if omitted below, the above description of the stereoscopic sound reproducing apparatus 200 of FIG. 2 is also applied to the stereoscopic sound reproducing apparatus 200 according to the exemplary embodiment of FIG. 5.
  • the listener tracker 610 may track a position at which the listener 110 moves.
  • the sweet spot 120 which is a position where the optimal stereoscopic sound can be enjoyed, is typically determined manually based on the positions of the speakers 145, 160, and 165.
  • the virtual line is folded by 60 degrees at both ends of the line between the left and right speakers.
  • the sweet spot 120 may be determined based on a point where two virtual lines meet.
  • the pre-echo phenomenon means that when the position of the listener 110 is shifted from the center to the left, the influence of the left speaker having a large gain and a relatively high pre delay becomes dominant so that the position of the auditory sound image is out of the focused position. It is the phenomenon of listening by listening to the position of left speaker.
  • the sweet spot 120 may move according to the head position of the listener 110 without being in a fixed position.
  • the stereoscopic sound reproducing apparatus 200 may update the sweet spot 120 in real time or at regular time intervals according to the position of the head of the listener acquired from the listener tracking unit 610.
  • the listener tracker 610 may acquire the head position information of the listener 110 in real time.
  • the listener tracking unit 610 may acquire the head position information of the listener 110 based on the mobile phone, the motion recognition sensor or the position sensor attached to the remote controller possessed by the listener 110.
  • the listener tracking unit 610 may acquire the head position information of the listener 110 using an image processing algorithm such as object tracking or an accessory worn by the listener 110 or a wearable glass such as Google glass. It may be. How the listener tracking unit 610 tracks the head position of the listener 110 is not limited to the above-described example, and any other method may be used.
  • the listener tracker 610 may obtain head position information of the plurality of listeners 110 in real time.
  • the stereoscopic sound reproducing apparatus 200 sets or obtains one sweet spot 120 including the plurality of listeners 110 based on the head position information of the plurality of listeners 110 obtained.
  • a plurality of sweet spots 120 may be set based on the location.
  • 6B illustrates a change in a sweet spot of a stereo sound listening environment according to an embodiment.
  • the 3D sound reproducing apparatus 200 may reset the sweet spot 120 based on the position of the moved listener 110.
  • the renderer 220 may change the gain and delay values of the speakers in the group to suit the moved sweet spot 120.
  • the rendering unit 220 orientates the virtual sound source using the WFS method described above with reference to FIG. 3, the pre-echo phenomenon by changing the gain value for each speaker 145, 160, 165 in the group in real time. Can be reduced.
  • the sweet spot 120 is set near the position of the head of the tracked listener 110 and the optimized speaker ( 145, 160, 165) can be calculated per impulse response.
  • the rendering unit 220 orients the virtual sound source to a predetermined altitude using the altitude reproduction method described above with reference to FIG. 5, a gain value to be applied to each speaker 145, 160, 165 in the group and By changing the phase delay value, the position of the elevation angle can be kept constant.
  • the listener tracking unit 610 may track head positions of the plurality of listeners 110 and set a plurality of sweet spots based on head positions of the listeners.
  • the renderer 220 may change gain and delay values of the speakers in the group based on the positions and sizes of the plurality of sweet spots.
  • 7 to 8 are diagrams for describing a stereoscopic sound reproducing method performed by the stereoscopic sound reproducing apparatus 200 shown in FIGS. 1 to 6. Therefore, even if omitted below, the above description of the stereoscopic sound reproducing apparatus 200 of FIGS. 1 to 6 may be applied to the stereoscopic sound reproducing method according to the exemplary embodiment of FIGS. 7 to 8.
  • FIG. 7 is a flowchart of a method of reproducing stereoscopic sound, according to an exemplary embodiment.
  • the 3D sound reproducing apparatus 200 may group the plurality of speakers.
  • the 3D sound reproducing apparatus 200 may group at least two physically separated speakers into one group.
  • the 3D sound reproducing apparatus 200 may group a television built-in speaker and a separate loudspeaker into one group.
  • the 3D sound reproducing apparatus 200 may group a built-in television speaker, one or more soundbars, and one or more loudspeakers into one group.
  • the 3D sound reproducing apparatus 200 may group existing home theater speakers and one or more loudspeakers separately purchased by the listener into one group. Speakers in a group may be physically separated from each other. The listener can select the speakers to be grouped, and can decide which speakers to add based on the size and characteristics of the space where the listener is located or the nature of the content to be enjoyed.
  • the 3D sound reproducing apparatus 200 may group a plurality of physically separated speakers into a group through various communication paths.
  • the communication path may represent various networks and network topologies.
  • the communication path may include wireless communication, wired communication, optical, ultrasound, or a combination thereof.
  • the 3D sound reproducing apparatus 200 may receive an audio signal.
  • the 3D sound reproducing apparatus 200 may receive an input audio signal from a device such as a DVD, BD, or MP3 player.
  • the input audio signal may be a multi-channel audio signal such as a stereo signal (2 channels), 5, 1 channel, 7.1 channel, 10.2 channel and 22.2 channel.
  • the input audio signal may receive a plurality of mono input signals and object-based audio signals in which real-time positions of objects are transmitted in the form of metadata.
  • the object-based audio signal refers to a form in which the position of each audio object arranged in three-dimensional space is compressed into metadata along with sound.
  • the input audio signal may be a hybrid input audio signal in which a channel audio signal and an object-based audio signal are mixed.
  • the 3D sound reproducing apparatus 200 may perform 3D audio rendering for positioning the virtual sound source at a predetermined position.
  • the 3D sound reproducing apparatus 200 may generate at least one speaker signal corresponding to the audio signal by processing the input audio signal using a wave field synthesis rendering algorithm.
  • the stereo sound reproducing apparatus 200 processes an input audio signal using a head related transfer function rendering, beam-forming rendering, or focused source rendering algorithm to process an audio signal.
  • At least one speaker signal corresponding to may be generated.
  • the 3D sound reproducing apparatus 200 may calculate an impulse response for each speaker based on the minimum error summation, or perform rendering to reproduce the sense of altitude.
  • the 3D sound reproducing apparatus 200 may reproduce the rendered virtual sound source through the multi-channel speaker.
  • FIG. 8 shows a flowchart of a further embodiment of the method for the stereophonic reproduction apparatus to reproduce stereoscopic sound.
  • Steps 710, 720, and 740 are the same as those described with reference to FIG.
  • the 3D sound reproducing apparatus 200 may track the position of the head of the listener. If the stereo sound reproducing apparatus 200 tracks the position where the head of the listener moves in real time, the sweet spot may move according to the position of the listener without being in a fixed position.
  • the stereoscopic sound reproducing apparatus 200 may update the sweet spot in real time or periodically according to the acquired head position of the listener.
  • the 3D sound reproducing apparatus 200 may acquire the head position information of the listener in real time. For example, the 3D sound reproducing apparatus 200 may acquire the head position information of the listener based on a mobile phone, a motion recognition sensor, or a position sensor attached to the remote controller. Alternatively, the 3D sound reproducing apparatus 200 may acquire the head position information of the listener using an image processing algorithm such as object tracking or an accessory worn by the listener or a wearable glass such as Google Glass. It is apparent that the method for the stereo reproducing apparatus 200 to track the position of the head of the listener is not limited to the example described above, and any other method may be used.
  • the 3D sound reproducing apparatus 200 may position the virtual sound source at a predetermined position based on the head position information of the listener.
  • the 3D sound reproducing apparatus 200 may change the gain value and the phase delay value of at least one of the speakers in the group using the WFS method based on the moved listener head position.
  • the 3D sound reproducing apparatus 200 may reset the sweet spot near the head position of the tracked listener and recalculate the impulse response of at least one of the speakers in the group by using the aforementioned minimum error calculation method.
  • the stereo sound reproducing apparatus 200 changes the gain value and the phase delay value to be applied to at least one of the speakers in the group.
  • the position of the angle can be kept constant.
  • the stereoscopic sound reproducing method may be embodied as computer readable codes on a computer readable recording medium.
  • the computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM. CD-ROMs, magnetic tapes, floppy disks, optical data storage devices, and the like, and also include those implemented in the form of carrier waves such as transmission over the Internet.
  • the computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
  • the methods, processes, devices, products and / or systems according to the present invention are simple, cost effective, and not complicated and are very versatile and accurate.
  • efficient and economical manufacturing, application and utilization can be realized while being readily available.
  • Another important aspect of the present invention is that it is in line with current trends that call for cost reduction, system simplification and increased performance. Useful aspects found in such embodiments of the present invention may consequently increase the level of current technology.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

A method for 3D sound playback according to an embodiment may comprise the steps of: grouping a plurality of speakers into one group; receiving an input of an audio signal; using the grouped plurality of speakers to locate one or more virtual sound sources of the audio signal at a predetermined position; and playing back the virtual sound source(s) through the plurality of speakers.

Description

입체 음향 재생 방법 및 장치Stereo playback method and apparatus
입체 음향 재생 방법 및 장치에 관한 것으로, 구체적으로는 복수의 스피커를 활용하여 소정의 위치에 가상 음원을 정위시키는 방법 및 장치에 관한 것이다.The present invention relates to a method and an apparatus for reproducing stereo sound, and more particularly, to a method and an apparatus for positioning a virtual sound source at a predetermined position using a plurality of speakers.
영상 및 음향 처리 기술의 발달에 힘입어 고화질 고음질의 콘텐츠가 다량 생산되고 있다. 고화질 고음질의 콘텐츠를 요구하던 청취자는 현실감 있는 영상 및 음향을 원하고 있으며, 이에 따라 입체 영상 및 입체 음향에 대한 연구가 활발히 진행되고 있다.Thanks to the development of image and sound processing technology, a large amount of high-quality, high-quality content is being produced. The listeners, who have demanded high-quality, high-quality content, want a realistic image and sound. Accordingly, studies on stereoscopic images and stereoscopic sounds have been actively conducted.
입체 음향은 복수 개의 스피커를 수평면상의 다른 위치에 배치하고, 각각의 스피커에서 동일한 또는 상이한 음향 신호를 출력함으로써 청취자가 공간감을 느끼도록 하는 기술이다.Stereo sound is a technique that arranges a plurality of speakers at different positions on a horizontal plane and outputs the same or different sound signals from each speaker so that the listener feels a sense of space.
그러나 홈씨어터 스피커를 활용한 가상 고도각 생성 기술의 경우, 스윗 스팟은 홈씨어터 컨피규레이션의 정 중앙으로 한정될 수 있으며, 사운드바를 활용한 반사음 생성 기술의 경우 방의 특성에 많은 영향을 받는다는 한계가 있다. 따라서, 복수의 스피커를 활용하여 방의 특성에 영향을 받지 않고 상대적으로 스윗 스팟의 위치에 제약을 받지 않는 3차원 오디오 렌더링 방법이 필요하다.However, in the case of the virtual elevation generating technology using the home theater speaker, the sweet spot may be limited to the center of the home theater configuration, and the reflection sound generating technology using the sound bar may be affected by the characteristics of the room. Accordingly, there is a need for a three-dimensional audio rendering method that is not affected by the characteristics of a room by using a plurality of speakers and is not restricted by the position of a sweet spot.
청취자에게 입체감과 공간감을 제공하기 위한 입체 음향 재생 장치 및 방법이 제공될 수 있다. An apparatus and method for reproducing stereo sound for providing a stereoscopic sense and a spatial sense to a listener may be provided.
또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 있다. 본 실시 예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 이하의 실시 예들로부터 또 다른 기술적 과제들이 유추될 수 있다.The present invention also provides a computer-readable recording medium having recorded thereon a program for executing the method on a computer. The technical problem to be achieved by the present embodiment is not limited to the technical problem as described above, and other technical problems may be inferred from the following embodiments.
도1은 일 실시예에 따른 청취자의 입체 음향 재생 환경을 나타낸다.1 illustrates a stereoscopic sound reproduction environment of a listener according to an embodiment.
도2는 일 실시예에 따른 입체 음향 재생 장치를 나타낸다.2 illustrates a stereoscopic sound reproducing apparatus according to an embodiment.
도3은 음장 합성 렌더링 방법(Wave Field Synthesis rendering)을 사용하는 입체 음향 재생 장치를 나타낸다.3 illustrates a stereoscopic sound reproducing apparatus using a wave field synthesis rendering method.
도4a는 최소 오차 합산 방법을 사용하여 렌더링하는 입체 음향 재생 장치를 나타낸다.4A shows a stereoscopic sound reproducing apparatus that renders using a minimum error summing method.
도4b는 도1의 입체 음향 재생 환경에 가상 음원과 스윗 스팟내의 임의의 지점을 추가하여 나타낸 도면이다.FIG. 4B is a view showing an arbitrary point in the virtual sound source and the sweet spot in the stereoscopic sound reproduction environment of FIG.
도5는 고도감 재현을 위한 렌더링을 수행하는 입체 음향 재생 장치를 나타낸다.5 shows a 3D sound reproducing apparatus that performs rendering for high-altitude reproduction.
도 6a는 일 실시예에 따른 청취자의 머리 위치를 추적하는 입체 음향 재생 장치를 나타낸다.6A illustrates a stereoscopic sound reproducing apparatus for tracking a listener's head position according to an embodiment.
도6b는 일 실시예에 따른 입체 음향 재생 환경의 스윗 스팟의 변경을 나타낸다.6B illustrates a change in a sweet spot of a stereoscopic sound reproduction environment according to an embodiment.
도7은 일 실시예에 따른 입체 음향 재생 장치가 입체 음향을 재생하는 방법의 흐름도를 나타낸다.7 is a flowchart of a method of reproducing stereoscopic sound, according to an exemplary embodiment.
도8은 입체 음향 재생 장치가 입체 음향을 재생하는 방법의 추가적 실시예의 흐름도를 나타낸다.8 shows a flowchart of a further embodiment of the method for the stereophonic reproduction apparatus to reproduce stereoscopic sound.
일 실시예에 따른 입체 음향 재생 방법은 복수의 스피커들을 하나의 그룹으로 그룹화하는 단계, 음향 신호를 입력 받는 단계, 상기 그룹화 된 복수의 스피커들을 이용하여 상기 음향 신호의 하나 이상의 가상 음원을 소정의 위치에 정위시키는 단계, 및 상기 가상 음원을 상기 복수의 스피커들을 통해 재생하는 단계를 포함할 수 있다.According to an embodiment, a stereoscopic sound reproducing method includes grouping a plurality of speakers into a group, receiving a sound signal, and using one or more grouped speakers to position one or more virtual sound sources of the sound signal. And positioning the virtual sound source through the plurality of speakers.
상기 복수의 스피커들을 하나의 그룹으로 그룹화하는 단계는, 하나의 홈씨어터 시스템을 구성하는 스피커 및 상기 홈씨어터 시스템을 구성하지 않는 별도의 라우드 스피커를 상기 하나의 그룹에 포함시키는 단계를 포함할 수 있다.The grouping of the plurality of speakers into a group may include including a speaker constituting one home theater system and a separate loudspeaker not constituting the home theater system in the one group. .
상기 홈씨어터 시스템은, 복수의 라우드 스피커를 선형으로 연결한 라우드 스피커 어레이(Loudspeaker Array)인 것을 특징으로 할 수 있다.The home theater system may be a loudspeaker array in which a plurality of loudspeakers are linearly connected.
상기 복수의 스피커들을 그룹화하는 단계는, 물리적으로 떨어져 있는 상기 복수의 스피커들을 무선 또는 유선 네트워크를 통해 연결하는 단계를 포함하는 것을 특징으로 할 수 있다.Grouping the plurality of speakers may include connecting the plurality of physically separated speakers through a wireless or wired network.
상기 가상 음원을 소정의 위치에 정위시키는 단계는, 상기 입력 받은 음향 신호를 음장 합성 렌더링(Wave Field Synthesis)방식으로 가상 음상을 소정의 위치에 정위시키는 단계를 포함할 수 있다.The positioning of the virtual sound source at a predetermined position may include positioning the virtual sound image at a predetermined position by a sound field synthesis rendering method.
상기 가상 음원을 소정의 위치에 정위시키는 단계는, 상기 그룹에 포함된 스피커들로부터 발생하는 스윗 스팟 내에서의 제1음압과 상기 소정의 위치에 존재하는 가상 음원으로부터 발생하는 상기 스윗 스팟 내에서의 제2음압의 차이를 최소화 시킬 수 있는 상기 그룹에 포함된 스피커 별 음압 신호를 결정하는 단계, 및 상기 결정된 스피커 별 음압 신호에 기초하여 상기 입력 받은 음향 신호를 변조하는 단계를 포함할 수 있다.The positioning of the virtual sound source at a predetermined position may include: a first sound pressure in a sweet spot generated from the speakers included in the group, and in the sweet spot generated from the virtual sound source at the predetermined position; The method may include determining a sound pressure signal for each speaker included in the group capable of minimizing a difference in second sound pressure, and modulating the received sound signal based on the determined sound pressure signal for each speaker.
상기 그룹에 포함된 스피커 별 음압 신호를 계산하는 단계는, 상기 그룹에 포함된 스피커 별로 인가해야 하는 임펄스 응답을 결정하는 단계를 포함하고, 상기 입력 받은 음향 신호를 변조하는 단계는, 상기 그룹에 포함된 스피커 별로 입력되는 음향 신호에 상기 결정된 임펄스 응답을 컨볼루션하는 단계를 포함할 수 있다.The calculating of the sound pressure signal for each speaker included in the group includes determining an impulse response to be applied to each speaker included in the group, and modulating the received sound signal includes the group. The method may include convolving the determined impulse response to the sound signal input for each speaker.
상기 가상 음상을 소정의 위치에 정위시키는 단계는, 상기 입력 받은 음향 신호를 소정의 고도에 대응하는 필터에 통과시키는 단계, 상기 필터링된 음향 신호를 복제하여 복수 개의 음향 신호들을 생성하는 단계, 및 상기 복제된 음향 신호들이 출력될 스피커들 각각에 해당하는 이득 값 및 지연 값 중 적어도 하나에 기초하여 상기 복제된 음향 신호들 각각에 대한 증폭, 감쇄 및 지연 중 적어도 하나를 수행하는 단계를 포함하는 것을 특징으로 할 수 있다.The positioning of the virtual sound image at a predetermined position may include passing the received sound signal through a filter corresponding to a predetermined altitude, replicating the filtered sound signal to generate a plurality of sound signals, and And performing at least one of amplification, attenuation, and delay for each of the replicated acoustic signals based on at least one of a gain value and a delay value corresponding to each of the speakers to which the duplicated acoustic signals are to be output. You can do
상기 청취자의 머리 위치를 실시간으로 추적하는 단계를 더 포함하고, 상기 가상 음원을 소정의 위치에 정위시키는 단계는, 상기 추적된 청취자의 머리 위치에 기초하여 상기 그룹에 포함된 스피커들 중 적어도 하나의 스피커의 이득 및 위상 지연 값을 변경하는 단계를 포함하는 것을 특징으로 할 수 있다.And tracking the position of the head of the listener in real time, and positioning the virtual sound source at a predetermined position comprises: at least one of the speakers included in the group based on the tracked position of the head of the listener. And changing the gain and phase delay values of the speaker.
일 실시예에 따른 입체 음향 재생 장치는 복수의 스피커들을 하나의 그룹으로 그룹화하는 그룹화부, 음향 신호를 입력 받는 수신부, 상기 그룹화 된 복수의 스피커들을 이용하여 상기 음향 신호의 하나 이상의 가상 음원을 소정의 위치에 정위시키는 렌더링부, 및 상기 가상 음원을 상기 복수의 스피커들을 통해 재생하는 재생부를 포함하는 입체 음향 재생 장치.According to an embodiment, an apparatus for reproducing stereo sound includes a grouping unit for grouping a plurality of speakers into a group, a receiving unit for receiving an audio signal, and a plurality of virtual sound sources of the sound signal by using the grouped speakers. And a rendering unit for positioning at a position, and a reproducing unit for reproducing the virtual sound source through the plurality of speakers.
상기 그룹화부는, 하나의 홈씨어터 시스템을 구성하는 스피커 및 상기 홈씨어터 시스템을 구성하지 않는 별도의 라우드 스피커를 상기 하나의 그룹에 포함시키는 것을 특징으로 할 수 있다.The grouping unit may include a speaker constituting one home theater system and a separate loudspeaker not constituting the home theater system in the one group.
상기 홈씨어터 시스템은, 복수의 라우드 스피커를 선형으로 연결한 라우드 스피커 어레이(Loudspeaker Array)인 것을 특징으로 할 수 있다.The home theater system may be a loudspeaker array in which a plurality of loudspeakers are linearly connected.
상기 그룹화부는, 물리적으로 떨어져 있는 상기 복수의 스피커들을 무선 또는 유선 네트워크를 통해 연결하는 것을 특징으로 할 수 있다.The grouping unit may connect the plurality of physically separated speakers through a wireless or wired network.
상기 렌더링부는, 상기 입력 받은 음향 신호를 음장 합성 렌더링(Wave Field Synthesis)방식으로 가상 음상을 소정의 위치에 정위시키는 것을 특징으로 할 수 있다.The rendering unit may orient the virtual sound image to a predetermined position by using the received sound signal by a sound field synthesis rendering method.
상기 렌더링부는, 상기 그룹에 포함된 스피커들로부터 발생하는 스윗 스팟 내에서의 제1음압과 상기 소정의 위치에 존재하는 가상 음원으로부터 발생하는 상기 스윗 스팟 내에서의 제2음압의 차이를 최소화 시킬 수 있는 상기 그룹에 포함된 스피커 별 음압 신호를 결정하고, 상기 결정된 스피커 별 음압 신호에 기초하여 상기 입력 받은 음향 신호를 변조하는 것을 특징으로 할 수 있다.The rendering unit may minimize the difference between the first sound pressure in the sweet spot generated from the speakers included in the group and the second sound pressure in the sweet spot generated from the virtual sound source existing at the predetermined position. The sound pressure signal for each speaker included in the group may be determined, and the received sound signal may be modulated based on the determined sound pressure signal for each speaker.
상기 렌더링부는, 상기 그룹에 포함된 스피커 별로 인가해야 하는 임펄스 응답을 결정하고, 상기 그룹에 포함된 스피커 별로 입력되는 음향 신호에 상기 결정된 임펄스 응답을 컨볼루션하는 것을 특징으로 할 수 있다.The rendering unit may determine an impulse response to be applied to each speaker included in the group, and convolve the determined impulse response to an acoustic signal input for each speaker included in the group.
상기 렌더링부는, 상기 입력 받은 음향 신호를 소정의 고도에 대응하는 필터에 통과시키는 필터링부, 상기 필터링된 음향 신호를 복제하여 복수 개의 음향 신호들을 생성하는 복제부, 및 상기 복제된 음향 신호들이 출력될 스피커들 각각에 해당하는 이득 값 및 지연 값 중 적어도 하나에 기초하여 상기 복제된 음향 신호들 각각에 대한 증폭, 감쇄 및 지연 중 적어도 하나를 수행하는 증폭부를 포함하는 것을 특징으로 할 수 있다.The rendering unit may include a filtering unit which passes the input sound signal to a filter corresponding to a predetermined altitude, a copy unit which generates a plurality of sound signals by copying the filtered sound signal, and the copied sound signals may be output. And an amplifier configured to perform at least one of amplification, attenuation, and delay of each of the replicated acoustic signals based on at least one of a gain value and a delay value corresponding to each of the speakers.
상기 청취자의 머리 위치를 실시간으로 추적하는 청취자 추적부를 더 포함하고, 상기 렌더링부는, 상기 추적된 청취자의 머리 위치에 기초하여 상기 그룹에 포함된 스피커들 중 적어도 하나의 스피커의 이득 및 위상 지연 값을 변경하는 것을 특징으로 할 수 있다.And a listener tracker configured to track the position of the head of the listener in real time, wherein the renderer is configured to obtain gain and phase delay values of at least one of the speakers included in the group based on the tracked position of the listener. It may be characterized by changing.
상기 입체 음향 재생 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다.A computer readable recording medium having recorded thereon a program for executing the stereo sound reproduction method on a computer may be provided.
이하에서는 첨부된 도면을 참고하여 본 발명의 바람직한 실시 예를 상세히 설명한다. 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 개시된 실시 예들은 당해 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서에서 사용되는 용어는 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 명세서 전반에 걸친 내용을 토대로 정의되어야 한다. 이하에서는 도면을 참조하여 실시 예들을 상세히 설명한다. 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.Hereinafter, with reference to the accompanying drawings will be described a preferred embodiment of the present invention; Advantages and features, and how to achieve them will become apparent with reference to the embodiments described below in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various forms, and the disclosed embodiments are merely provided to fully inform the scope of the invention to those skilled in the art. The invention is only defined by the scope of the claims. Terms used in the specification have been selected from the most widely used general terms in consideration of the function as possible, but may vary according to the intention or precedent of the person skilled in the art, the emergence of new technologies, and the like. In addition, in certain cases, there is also a term arbitrarily selected by the applicant, in which case the meaning will be described in detail in the description of the invention. Therefore, the terms used in the specification should be defined based on the meanings of the terms and the contents throughout the specification, rather than simply the names of the terms. Hereinafter, exemplary embodiments will be described in detail with reference to the accompanying drawings. Configurations shown in the embodiments and drawings described herein are only one embodiment, and do not represent all of the technical idea of the present invention, various equivalents and modifications that can be substituted for them at the time of the present application is It should be understood that there may be.
또한, 명세서에서 사용되는 "부" 또는 “모듈”이라는 용어는 FPGA 또는 ASIC과 같은 하드웨어 구성요소 또는 회로를 의미한다.Also, as used herein, the term "part" or "module" refers to a hardware component or circuit, such as an FPGA or an ASIC.
도1은 일 실시예에 따른 청취자의 입체 음향 재생 환경을 나타낸다.1 illustrates a stereoscopic sound reproduction environment of a listener according to an embodiment.
입체 음향 재생 환경(100)은 청취자(110)가 후술할 입체 음향 재생 장치(200)를 통해 입체 음향을 감상하는 환경의 일 예이다. 입체 음향 재생 환경(100)은 오디오 콘텐츠 단독 또는 비디오와 같은 다른 콘텐츠와 함께 오디오 콘텐츠의 재생을 위한 환경이며, 가정, 시네마, 극장, 강당, 스튜디오, 게임 콘솔 등에서 구체화될 수 있는 룸과 같은, 임의의 개방된, 부분적으로 밀폐된, 또는 완전히 밀폐된 영역을 의미할 수 있다.The stereoscopic reproduction environment 100 is an example of an environment in which the listener 110 views stereoscopic sounds through the stereoscopic reproduction device 200 which will be described later. The stereoscopic playback environment 100 is an environment for the playback of audio content alone or with other content such as video, and may be any, such as a room that can be embodied in a home, cinema, theater, auditorium, studio, game console, or the like. It can mean an open, partially closed, or completely closed area of a.
청취자(110)는 텔레비전 또는 오디오와 같은 멀티미디어 재생 장치(140)를 통해 멀티미디어 콘텐츠를 감상할 수 있다. 설명의 편의를 위해 입체 음향 재생 환경(100)의 청취자(110)는 텔레비전에서 재생되는 콘텐츠에 대한 음향을 복수의 스피커(145, 160, 165)를 통해 감상한다고 가정한다.The listener 110 may enjoy multimedia content through the multimedia player 140 such as television or audio. For convenience of description, it is assumed that the listener 110 of the stereoscopic sound reproduction environment 100 listens to the sound of the content played on the television through the plurality of speakers 145, 160, and 165.
통상적으로 텔레비전(140)은 스피커를 내장할 수 있으나 입체 음향 재생 환경(100)은 별도의 홈씨어터 시스템을 포함할 수 있다. 예를 들어, 텔레비전(140)의 바로 하단에는 별도의 사운드바(145)가 존재할 수 있다. 사운드 바(130)는 복수 개의 라우드 스피커를 포함하는 스피커 어레이 모듈일 수 있다.Typically, the television 140 may have a built-in speaker, but the stereoscopic sound reproduction environment 100 may include a separate home theater system. For example, a separate sound bar 145 may be present directly below the television 140. The sound bar 130 may be a speaker array module including a plurality of loudspeakers.
일 실시예에 따른 사운드 바(145)는 입체 음향 재생 환경(100)하에서, 패닝(Panning), 파면음장 합성(Wave Field Synthesis), 빔포밍(Beam Forming), 초점음원(Focused Source), 머리전달함수(Head Related Transfer Function) 등과 같은 3차원 음장처리 기술을 이용하여 멀티채널 오디오 신호를 가상적으로 재현할 수 있다. The sound bar 145 according to an exemplary embodiment may include panning, wave field synthesis, beam forming, focus source, and head transmission under a stereo sound reproduction environment 100. A three-dimensional sound field processing technique such as a head related transfer function may be used to virtually reproduce the multi-channel audio signal.
도1에는 사운드바(145)를 텔레비전 하단에 위치하는 단일 수평 선형 어레이로 도시하였으나 사운드바(145)는 고저감(elevation)을 제공하기 위해 텔레비전(140)의 상하단에 설치하는 이중 수평 선형 어레이, 텔레비전(140) 좌우에 위치하는 이중 수직 선형 어레이 및 텔레비전(140)을 둘러싸는 형태의 창형 어레이로 구성될 수도 있다. 또한, 사운드바(145)는 청취자(110)를 둘러싸는 형태나 청취자(110) 전후방에 위치하는 형태로 설치될 수 있다. Although FIG. 1 shows the sound bar 145 as a single horizontal linear array positioned at the bottom of the television, the sound bar 145 is a dual horizontal linear array installed above and below the television 140 to provide high elevation, It may be composed of a double vertical linear array positioned to the left and right of the television 140 and a window array of a type surrounding the television 140. In addition, the sound bar 145 may be installed in a form surrounding the listener 110 or positioned in front of and behind the listener 110.
또한, 입체 음향 재생 환경(100)은 사운드바(145)가 아닌 다른 홈씨어터 시스템의 스피커(미도시)를 포함할 수 있으며, 사운드바(145)와 같은 홈씨어터 스피커를 반드시 포함하지 않아도 무방하다.In addition, the stereo sound reproduction environment 100 may include a speaker (not shown) of a home theater system other than the sound bar 145, and may not necessarily include a home theater speaker such as the sound bar 145. .
청취자(110)는 하나의 홈씨어터 시스템을 구성하는 스피커 및 상기 홈씨어터 시스템을 구성하지 않는 별도의 라우드 스피커를 하나의 그룹에 포함시켜 그룹에 포함된 복수의 스피커들을 통해 입체 음향을 감상할 수 있다. 예를 들어, 청취자(110)는 사운드바(145)로부터 물리적으로 떨어져 있는 별도의 라우드 스피커(160, 165)를 조합하여 텔레비전(140)에서 재생되는 콘텐츠를 감상할 수 있다. 또는, 청취자(110)는 텔레비전(140)에 내장되어 있는 스피커(미도시)와 물리적으로 떨어져 있는 별도의 라우드 스피커(160, 165)를 조합하여 텔레비전(140)에서 재생되는 콘텐츠를 감상할 수 있다. The listener 110 may include a speaker that constitutes one home theater system and a separate loudspeaker that does not constitute the home theater system in one group to enjoy stereoscopic sound through a plurality of speakers included in the group. . For example, the listener 110 may combine the separate loudspeakers 160 and 165 physically separated from the sound bar 145 to enjoy the content played on the television 140. Alternatively, the listener 110 may combine the loudspeakers (not shown) built in the television 140 with separate loudspeakers 160 and 165 that are physically separated from each other to enjoy the content played on the television 140. .
즉, 청취자(110)는 기존의 텔레비전 내장 스피커 또는 사운드 바(145)에 별도의 라우드 스피커(160, 165)를 추가하여 하나의 그룹으로 묶고 입체음향을 감상할 수 있다.That is, the listener 110 may add separate loudspeakers 160 and 165 to the existing TV-embedded speaker or sound bar 145 to group them into one group and enjoy stereoscopic sound.
일 실시예에 따른 입체 음향 재생 환경(100)은 텔레비전 내장 스피커(140), 사운드바(145), 좌측 라우드 스피커(160), 우측 라우드 스피커(165)를 하나의 그룹(180)으로 그룹화하여 입체 음향을 재생할 수 있다. 도1에는 청취자(110)의 좌측 라우드 스피커(160)와 우측 라우드 스피커(165)만을 도시하였으나 청취자(110)는 얼마든지 입체 음향을 감상하는 공간의 사이즈 또는 감상하는 콘텐츠의 스타일에 맞게 라우드 스피커의 개수 및 위치를 적응적으로 구성할 수 있다. 예를 들어, 입체 음향 재생 환경(110)은 좌측 후면 라우드 스피커(미도시) 및 우측 후면 라우드 스피커(미도시)를 더 포함할 수도 있다.The stereoscopic reproduction environment 100 according to an exemplary embodiment may be configured by grouping the television built-in speaker 140, the sound bar 145, the left loudspeaker 160, and the right loudspeaker 165 into one group 180. Sound can be reproduced. Although only the left loudspeaker 160 and the right loudspeaker 165 of the listener 110 are illustrated in FIG. 1, the listener 110 may be configured according to the size of the space for listening to stereoscopic sound or the style of the content for listening. The number and location can be configured adaptively. For example, the stereoscopic reproduction environment 110 may further include a left rear loudspeaker (not shown) and a right rear loudspeaker (not shown).
텔레비전(140) 또는 별도의 표시 장치(미도시)는 하나의 그룹(180)으로 구성된 스피커들의 목록을 청취자(110)에게 표시할 수 있으며 청취자(110)는 그룹을 구성하는 임의의 스피커를 추가하거나 제거할 수 있다.The television 140 or a separate display device (not shown) may display a list of speakers composed of one group 180 to the listener 110, and the listener 110 may add any speaker constituting the group, or Can be removed.
입체 음향 재생 환경(100)은 최적의 입체 음향을 감상할 수 있는 공간적 범위인 스윗 스팟(120)를 포함할 수 있다. 입체 음향 재생 환경(100)은 청취자(110)의 가상적인 귀의 위치를 설정하여 귀의 위치와 인근한 스윗 스팟(120)에서 최적의 입체 음향이 출력되도록 할 수 있다.The stereoscopic reproduction environment 100 may include a sweet spot 120 which is a spatial range in which optimal stereoscopic sounds can be enjoyed. The stereoscopic sound reproduction environment 100 may set the position of the virtual ear of the listener 110 so that the optimal stereoscopic sound is output from the position of the ear and the adjacent sweet spot 120.
입체 음향 재생 환경(100)은 그룹(180) 내 스피커들(145, 160, 165)를 사용하여 원하는 위치에 가상 음원을 정위시키는 렌더링을 수행할 수 있으며, 청취자(110)는 실제 스피커의 위치가 아닌 가상 음원의 위치로부터 음향이 들리는 것처럼 느끼게 된다. The stereoscopic reproduction environment 100 may perform rendering in which the virtual sound source is positioned at a desired position using the speakers 145, 160, and 165 in the group 180, and the listener 110 may determine the actual speaker position. It feels as if sound is heard from the position of the virtual sound source.
도2는 일 실시예에 따른 입체 음향 재생 장치를 나타낸다.2 illustrates a stereoscopic sound reproducing apparatus according to an embodiment.
입체 음향 재생 장치(200)는 도1을 참조하여 상술한 입체 음향 재생 환경(100)에서 입력 오디오 신호들을 소정의 위치에 가상 음원을 위치시키도록 하는 3차원 오디오 렌더링을 수행하여 청취자(110)에게 공간감과 입체감을 느끼게 할 수 있다.The stereoscopic sound reproducing apparatus 200 performs the 3D audio rendering to place the virtual sound source at a predetermined position on the input audio signals in the stereoscopic sound reproducing environment 100 described above with reference to FIG. 1 to the listener 110. You can feel the sense of space and three-dimensional.
일 실시예에 따른 입체 음향 재생 장치(200)는 수신부(210), 제어부(미도시), 및 재생부(240)를 포함할 수 있다. 제어부(미도시)는 렌더링부(220) 및 그룹화부(230)를 포함할 수 있다. 제어부(미도시)는 CPU(central processing unit), AP(application processor) 등과 같은 적어도 하나의 프로세서, ASIC(application specific integrated circuit), 임베디드 프로세서, 마이크로 프로세서, 하드웨어 제어 로직, 하드웨어 유한 상태 기계(FSM), 디지털 신호 프로세서(DSP) 또는 이들의 조합일 수 있다.The stereoscopic sound reproducing apparatus 200 according to an exemplary embodiment may include a receiver 210, a controller (not shown), and a reproducer 240. The controller (not shown) may include a renderer 220 and a grouper 230. The controller (not shown) includes at least one processor such as a central processing unit (CPU), an application processor (AP), an application specific integrated circuit (ASIC), an embedded processor, a microprocessor, hardware control logic, and a hardware finite state machine (FSM). , Digital signal processor (DSP), or a combination thereof.
수신부(210)는 DVD(Digital versatile disc), BD(Bluray disc), MP3 플레이어 등과 같은 장치로부터 입력 오디오 신호(즉, 음향 신호)를 수신 받을 수 있다. 입력 오디오 신호는 스테레오 신호(2채널), 5,1채널, 7.1채널, 10.2채널 및 22.2채널과 같은 다채널 오디오 신호일 수 있다. 또한 입력 오디오 신호는 다수의 모노(Mono)입력 신호와 오브젝트들의 실시간 위치가 메타데이터의 형태로 전달되는 객체 기반 오디오 신호일 수 있다. 객체 기반 오디오 신호는 삼차원 공간에 배치된 각 오디오 오브젝트들의 위치를 소리와 함께 메타데이터로 압축된 형태를 말한다. 또한 입력 오디오 신호는 채널 오디오 신호와 객체 기반 오디오 신호가 혼합된 하이브리드 입력 오디오 신호일 수 있다.The receiver 210 may receive an input audio signal (ie, an acoustic signal) from a device such as a digital versatile disc (DVD), a Blu-ray disc (BD), an MP3 player, or the like. The input audio signal may be a multi-channel audio signal such as a stereo signal (2 channels), 5, 1 channel, 7.1 channel, 10.2 channel and 22.2 channel. In addition, the input audio signal may be an object-based audio signal in which a plurality of mono input signals and real-time positions of objects are transmitted in the form of metadata. The object-based audio signal refers to a form in which the position of each audio object arranged in three-dimensional space is compressed into metadata along with sound. In addition, the input audio signal may be a hybrid input audio signal in which a channel audio signal and an object-based audio signal are mixed.
그룹화부(230)는 입체 음향 재생 환경(100) 내에 존재하는 적어도 두 개의 스피커를 하나의 그룹으로 그룹화할 수 있다. 예를 들어, 그룹화부(230)는 텔레비전 내장 스피커와 별도의 라우드 스피커를 하나의 그룹으로 그룹화할 수 있다. 또한, 그룹화부(230)는 텔레비전 내장 스피커와 하나 이상의 사운드바 및 하나 이상의 라우드 스피커를 하나의 그룹으로 그룹화할 수 있다. 또한, 그룹화부(230)는 기존의 홈씨어터 스피커와 청취자(110)가 별도로 구매한 하나 이상의 라우드 스피커를 하나의 그룹으로 그룹화할 수도 있다. 하나의 그룹 안에 속한 스피커들은 서로 물리적으로 떨어져 있을 수 있다. 청취자(110)는 그룹화할 스피커들을 선택할 수 있으며, 이 때 청취자(110)가 위치한 공간의 크기 및 특성 또는 감상하고자 하는 콘텐츠의 성격에 기초하여 추가할 스피커들을 결정할 수 있다.The grouping unit 230 may group at least two speakers existing in the 3D sound reproducing environment 100 into one group. For example, the grouping unit 230 may group the television built-in speaker and the separate loudspeaker into one group. In addition, the grouping unit 230 may group the built-in TV, one or more soundbars and one or more loudspeakers into one group. In addition, the grouping unit 230 may group the existing home theater speaker and the one or more loudspeakers purchased separately by the listener 110 into one group. Speakers in a group may be physically separated from each other. The listener 110 may select speakers to be grouped, and may determine speakers to be added based on the size and characteristics of the space where the listener 110 is located or the nature of the content to be enjoyed.
그룹화부(230)는 물리적으로 떨어져 있는 복수의 스피커들을 다양한 통신 경로를 통해 하나의 그룹으로 그룹화할 수 있다. 통신 경로는 다양한 네트워크와 네트워크 토폴로지를 나타낼 수 있다. 예를 들어, 통신 경로는 무선 통신, 유선 통신, 광학, 초음파, 또는 이들의 조합을 포함 할 수 있다. 위성 통신, 이동 통신, 블루투스(Bluetooth), 적외선 데이터 협회 표준 (Infrared Data Association standard: lrDA), 와이파이(wirelessfidelity: WiFi), 및 와이맥스 (worldwide interoperability for microwave access: WiMAX)는 통신 경로에 포함될 수 있는 무선 통신의 예들이다. 이더넷(Ethernet), DSL(digital subscriber line), FTTH (fiber to the home), 그리고 POTS (plain old telephone service) 들은 통신 경로에 포함될 수 있는 유선 통신의 예이다. 또한, 통신 경로는 PAN (personal area network), LAN(local area network), MAN(metropolitan area network), WAN(wide area network) 또는 이들의 조합을 포함할 수 있다.The grouping unit 230 may group a plurality of physically separated speakers into a group through various communication paths. The communication path may represent various networks and network topologies. For example, the communication path may include wireless communication, wired communication, optical, ultrasound, or a combination thereof. Satellite communications, mobile communications, Bluetooth, Infrared Data Association standard (lrDA), wirelessfidelity (WiFi), and worldwide interoperability for microwave access (WiMAX) can be included in the communication path. Examples of communication. Ethernet, digital subscriber line (DSL), fiber to the home (FTTH), and plain old telephone service (POTS) are examples of wireline communications that can be included in the communication path. In addition, the communication path may include a personal area network (PAN), a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN), or a combination thereof.
그룹화부(230)는 그룹 내에 존재하는 스피커들의 위치 및 이득(gain)을 저장할 수 있으며, 스피커들의 위치는 렌더링부(220)에 전달할 수 있다.The grouper 230 may store positions and gains of the speakers existing in the group, and transmit the positions of the speakers to the renderer 220.
렌더링부(220)는 입력 오디오 신호들을 소정의 위치에 가상 음원을 정위시키도록 하는 3차원 오디오 렌더링을 수행할 수 있다.The renderer 220 may perform 3D audio rendering for positioning the virtual sound source at a predetermined position with the input audio signals.
예를 들어, 렌더링부(220)는 음장 합성 렌더링(Wave Field Synthesis rendering) 알고리즘으로 입력 오디오 신호를 처리하여 오디오 신호에 대응하는 적어도 하나의 스피커 신호를 생성할 수 있다. For example, the renderer 220 may generate at least one speaker signal corresponding to the audio signal by processing the input audio signal using a wave field synthesis rendering algorithm.
또한, 렌더링부(220)는 머리전달함수 렌더링(Head Related Transfer Function rendering), 빔 포밍 렌더링(Beam-forming rendering) 또는 집중 음원 렌더링(Focused Source rendering) 알고리즘으로 입력 오디오 신호를 처리하여 오디오 신호에 대응하는 적어도 하나의 스피커 신호를 생성할 수도 있다. In addition, the rendering unit 220 processes an input audio signal by using a head related transfer function rendering, beam-forming rendering, or focused source rendering algorithm to correspond to the audio signal. At least one speaker signal may be generated.
또한, 렌더링부(220)는 최소 오차 합산에 기반하여 스피커 별 임펄스 응답을 계산하거나 또는 고도감 재현을 위한 렌더링을 수행할 수도 있다. 렌더링부(220)가 3차원 오디오 렌더링을 수행하는 상세한 과정은 후술한다.In addition, the rendering unit 220 may calculate an impulse response for each speaker based on the minimum error summation, or perform rendering to reproduce the sense of altitude. A detailed process of performing the 3D audio rendering by the rendering unit 220 will be described later.
재생부(240)는 렌더링부(220)에서 렌더링된 가상의 음원을 다채널 스피커를 통해 재생할 수 있다. 재생부(240)는 그룹(180) 내에 존재하는 스피커들을 포함할 수 있다.The reproduction unit 240 may reproduce the virtual sound source rendered by the rendering unit 220 through the multichannel speaker. The playback unit 240 may include speakers existing in the group 180.
도3은 음장 합성 렌더링 방법(Wave Field Synthesis rendering)을 사용하는 입체 음향 재생 장치를 나타낸다.3 illustrates a stereoscopic sound reproducing apparatus using a wave field synthesis rendering method.
도3은 입체 음향 재생 장치(200)의 렌더링부(220)의 일 실시예를 도시한 것으로 이하 생략된 내용이라 하더라도 도2의 입체 음향 재생 장치(200)에 관하여 이상에서 기술된 내용은 도3의 실시 예에 따른 입체 음향 재생 장치(200)에도 적용된다.FIG. 3 illustrates an embodiment of the rendering unit 220 of the stereoscopic sound reproducing apparatus 200. Although the descriptions are omitted below, the contents described above with respect to the stereoscopic sound reproducing apparatus 200 of FIG. The same applies to the stereoscopic sound reproducing apparatus 200 according to the embodiment of the present invention.
렌더링부(220)는 오디오 신호 분석부(310) 및 음장 합성 렌더링부(320)를 포함할 수 있다. 렌더링부(220)는 근거리 음상(Near Field Focused Sound Source) 재현을 위해 음상의 전파 특성에 맞추어 음상의 위치에 맞는 스피커 별 이득(Gain) 및 위상 지연(Phase delay) 값을 결정할 수 있다. The renderer 220 may include an audio signal analyzer 310 and a sound field synthesis renderer 320. The rendering unit 220 may determine a gain and phase delay value for each speaker suitable for the position of the sound image according to the propagation characteristics of the sound image to reproduce the near field focused sound source.
즉, 렌더링부(220)는 청취자(110)와 음원 간의 거리(r)에 따라 음압의 크기가 1/r로 감소하는 특징을 이용하여, 그룹 내 스피커의 출력이 정위시키고자 하는 근거리 음상 위치에서 같은 음압이 되도록 그룹 내 스피커 간 이득을 변경할 수 있다. 또한, 렌더링부(220)는 가상 음원과 실제 스피커 간 음장의 전달 지연(Propagation delay)를 고려하여 그룹 내 모든 스피커의 출력이 원하는 근거리 음상 위치에서 지연 없이 수렴하도록 설정할 수 있다.That is, the rendering unit 220 uses a feature in which the magnitude of the sound pressure decreases to 1 / r according to the distance r between the listener 110 and the sound source, so that the output of the speakers in the group is located at the near sound image position to be positioned. The gain between the speakers in the group can be changed to achieve the same sound pressure. In addition, the rendering unit 220 may be configured to converge the output of all the speakers in the group without delay in the desired near-field position in consideration of the propagation delay of the sound field between the virtual sound source and the actual speaker.
오디오 신호 분석부(310)는 그룹 내 스피커 정보, 음원 위치 정보(예를 들면, 청취 위치에 대한 가상 음원의 각도와 같은 위치에 대한 정보), 및 다채널 오디오 신호(정위시키고자 하는 음원 신호)를 입력 받는다. 그룹 내 스피커 정보는 사운드바에 대한 정보(예를 들면, 라우드 스피커 배열의 위치와 간격 등 배열에 대한 정보), 그룹 내 스피커들의 위치 정보, 스피커들 간의 간격 등을 포함할 수 있다. The audio signal analyzer 310 may include speaker information in a group, sound source position information (for example, information about a position such as an angle of a virtual sound source with respect to a listening position), and a multichannel audio signal (sound source signal to be positioned). Get input. The speaker information in the group may include information about the sound bar (for example, information about the arrangement such as the position and spacing of the loudspeaker array), position information of the speakers in the group, and the space between the speakers.
오디오 신호 분석부(310)는 입력받은 다채널 오디오 신호의 음원 포맷을 분석하여 오디오 신호의 채널 수를 확인하고, 상기 입력 받은 다채널 오디오 신호로부터 상기 확인된 채널별로 각 채널 음원 신호를 추출할 수 있다.The audio signal analyzer 310 may determine the number of channels of the audio signal by analyzing a sound source format of the received multichannel audio signal, and extract each channel sound source signal for each identified channel from the received multichannel audio signal. have.
음장 합성 렌더링부(320)는 오디오 신호 분석부(310)에서 확인된 오디오 채널 수에 맞게, 다채널 오디오 신호를 음장 합성 방식으로 렌더링한다. 즉, 음장 합성 렌더링부(320)는 확인된 오디오 채널 수에 맞게 가상 음원을 원하는 위치에 정위시킨다. 가상의 음상 개수는 오디오 신호 분석부(310)에서 확인된 오디오 채널 수에 따라 달라질 수 있다. 예를 들면, 음장 합성 렌더링부(320)는 다채널 오디오 신호의 음원이 2채널이면 정면 좌측 방향 및 정면 우측 방향 즉, 양쪽 방향의 가상 음원을 음장 합성 방식으로 렌더링할 수 있다. The sound field synthesis rendering unit 320 renders the multi-channel audio signal by the sound field synthesis method according to the number of audio channels identified by the audio signal analyzer 310. That is, the sound field synthesis rendering unit 320 orients the virtual sound source to a desired position in accordance with the identified number of audio channels. The number of virtual sound images may vary depending on the number of audio channels checked by the audio signal analyzer 310. For example, when the sound source of the multi-channel audio signal is two channels, the sound field synthesis rendering unit 320 may render a virtual sound source in a front left direction and a front right direction, that is, in both directions, in a sound field synthesis method.
예를 들어, 음장 합성 렌더링부(320)는 그룹 내의 스피커의 위치에 기초하여, 정면 좌측 방향, 정면 우측 방향, 중앙 방향, 후면 좌측 방향, 및 후면 우측 방향 등 총 5개 방향의 가상 음원을 음장 합성 방식으로 렌더링할 수 있다. 음장 합성 렌더링부(320)는 그룹 내의 스피커의 개수 및 위치에 따라 그룹 내의 각 스피커의 위상 지연 값 및 이득 값을 변경할 수 있다.For example, the sound field synthesis rendering unit 320 generates a virtual sound source in a total of five directions such as front left direction, front right direction, center direction, rear left direction, and rear right direction based on the position of the speaker in the group. You can render in a composite way. The sound field synthesis rendering unit 320 may change the phase delay value and the gain value of each speaker in the group according to the number and position of the speakers in the group.
후술하는 바와 같이 청취자(110)의 위치가 실시간으로 추적된다면, 입체 음향 재생 장치(200)는 그룹 내의 스피커들의 위상 지연 값 및 이득 값을 실시간으로 변화시킬 수 있다. 예를 들어, 청취자(110)가 좌측으로 이동한다면, 그룹 내의 스피커들의 이득 값이나 프리 딜레이(Pre delay)값을 좌측으로 이동한 청취자(110)의 위치에 최적화된 값으로 변경할 수 있다.If the position of the listener 110 is tracked in real time as described below, the stereoscopic sound reproducing apparatus 200 may change the phase delay value and the gain value of the speakers in the group in real time. For example, if the listener 110 moves to the left side, the gain value or pre delay value of the speakers in the group may be changed to a value optimized for the position of the listener 110 moved to the left side.
도4a는 최소 오차 합산 방법을 사용하여 렌더링하는 입체 음향 재생 장치를 나타낸다.4A shows a stereoscopic sound reproducing apparatus that renders using a minimum error summing method.
도4a은 입체 음향 재생 장치(200)의 렌더링부(220)의 일 실시예를 도시한 것으로 이하 생략된 내용이라 하더라도 도2의 입체 음향 재생 장치(200)에 관하여 이상에서 기술된 내용은 도4a의 실시 예에 따른 입체 음향 재생 장치(200)에도 적용된다.FIG. 4A illustrates an embodiment of the rendering unit 220 of the stereoscopic sound reproducing apparatus 200. Although the descriptions are omitted below, the contents described above with respect to the stereoscopic sound reproducing apparatus 200 of FIG. 2 are illustrated in FIG. 4A. The same applies to the stereoscopic sound reproducing apparatus 200 according to the embodiment of the present invention.
렌더링부(220)는 오디오 신호 분석부(310) 및 최소 오차 합산부(420)를 포함할 수 있다. 오디오 신호 분석부(310)는 도3을 참조하여 상술한 바와 같으므로 설명을 생략한다.The renderer 220 may include an audio signal analyzer 310 and a minimum error adder 420. Since the audio signal analyzer 310 is as described above with reference to FIG. 3, description thereof will be omitted.
이하, 최소 오차 합산부(420)의 동작을 도4b를 참조하여 설명한다. 도4b는 도1의 입체 음향 재생 환경(100)에 가상 음원(460)과 스윗 스팟(120)내의 임의의 지점(470, 480)을 추가하여 도시한 도면이다.Hereinafter, the operation of the minimum error adding unit 420 will be described with reference to FIG. 4B. FIG. 4B is a view showing the virtual sound source 460 and arbitrary points 470 and 480 within the sweet spot 120 added to the stereo sound reproduction environment 100 of FIG.
최소 오차 합산부(420)는 설정된 스윗 스팟(120) 내에서 청취자(110)에게 최적의 입체 음향을 감상할 수 있도록 하기 위해 적용할 수 있는 방법이다. The minimum error summing unit 420 is a method that can be applied to allow the listener 110 to enjoy optimal stereo sound within the set sweet spot 120.
최소 오차 합산부(420)는 가상 음원(460)으로 인한 스윗 스팟(120) 내에서의 음압(pTarget)을 설정할 수 있다. 가상 음원(460)은 음향 신호를 정위시키고자 하는 위치에 실제 음원이 있다고 가정한 것을 말한다. The minimum error adder 420 may set a sound pressure pTarget within the sweet spot 120 due to the virtual sound source 460. The virtual sound source 460 refers to assuming that there is an actual sound source at a position where the sound signal is to be positioned.
최소 오차 합산부(420)는 그룹 내의 스피커(145, 160, 165)로부터 발생 하는 스윗 스팟(120) 내에서의 실제 음압(pReproduce)을 설정한 후, 두 음압(pReproduce, pTarget)의 차이(J)가 최소가 되는 각 스피커(145, 160, 165)의 음압 신호를 결정할 수 있다. 최소 오차 합산부(420)는 결정된 음압 신호에 기초하여 수신부(210)가 입력 받은 음향 신호를 변조할 수 있다. The minimum error summing unit 420 sets the actual sound pressure pReproduce in the sweet spot 120 generated from the speakers 145, 160, and 165 in the group, and then the difference between the two sound pressures pReproduce, pTarget (J). The sound pressure signal of each speaker 145, 160, and 165, which is minimized, may be determined. The minimum error adder 420 may modulate the sound signal received by the receiver 210 based on the determined sound pressure signal.
도4b의 실선으로 도시된 화살표는 스윗 스팟(120)내의 임의의 지점에 대한pReprodece 를 나타내고 점선으로 도시된 화살표는 pTarget을 나타낸다.The arrows shown in solid lines in FIG. 4B represent pReprodece for any point in sweet spot 120 and the arrows shown in dashed lines represent pTarget.
예를 들어, 최소 오차 합산부(420)는 스윗 스팟(120) 내의 임의의 지점(470, 480)의 pTarget 과 pReproduce를 계산할 수 있다. 최소 오차 합산부(420)는 스윗 스팟(120) 내의 모든 지점의 pTarget 과 pReprodece를 계산하기 위해 스윗 스팟(120) 전체 크기에 대해 적분을 수행하여 J를 계산할 수 있다. For example, the minimum error adder 420 may calculate pTarget and pReproduce of arbitrary points 470 and 480 within the sweet spot 120. The minimum error summing unit 420 may calculate J by performing integration on the entire size of the sweet spot 120 to calculate pTarget and pReprodece of all points in the sweet spot 120.
J는 [수학식 1]과 같이 계산될 수 있다.J may be calculated as shown in [Equation 1].
수학식 1
Figure PCTKR2015005253-appb-M000001
Equation 1
Figure PCTKR2015005253-appb-M000001
v는 스윗 스팟(120)의 크기를 나타내며, r은 실제 스피커(145, 160, 165)의 위치와 스윗 스팟(120) 내의 특정 지점(470, 480)과의 거리 또는 가상 음원(460)의 위치와 스윗 스팟 내의 특정 지점(470, 480)과의 거리를 나타내며, t는 시간을 나타낸다. w는 r에 따라 임의로 설정할 수 있는 가중치 값(weighting function)이다. v represents the size of the sweet spot 120, r is the distance between the position of the actual speaker (145, 160, 165) and a specific point (470, 480) within the sweet spot 120 or the position of the virtual sound source 460 And the distance from the specific point 470, 480 in the sweet spot, t represents the time. w is a weighting function that can be arbitrarily set according to r.
[수학식1]과 같이 두 음압의 차이를 최소화 하는 문제는, [수학식 2]와 같이 rt위치에 존재하는 가상 음원에 대한 음향학적 전달함수(htarget)와 N개의 rsi위치에 존재하는 개별 스피커들로부터 생성된 음향학적 전달함수(hreproduced)의 차이(J’)를 최소화하는 문제로 치환 가능하다.As shown in [Equation 1], the problem of minimizing the difference between two sound pressures is as shown in [Equation 2]. It is possible to substitute the problem of minimizing the difference (J ') of the acoustic transfer function (hreproduced) generated from them.
수학식 2
Figure PCTKR2015005253-appb-M000002
Equation 2
Figure PCTKR2015005253-appb-M000002
[수학식 2]에서 i는 그룹 내 스피커 별 인덱스를 의미하며 N은 공간에 존재하는 스피커의 전체 개수이다. 또한, ki 값은 각 스피커별로 인가 해야할 필터계수(즉, 임펄스 응답)를 의미하여 J’를 최소화하는 과정을 통해 ki값이 결정될 수 있다. 즉, 최소 오차 합산부(420)는 그룹 내 스피커 별 필터(즉, 임펄스 응답)을 결정할 수 있다.In Equation 2, i denotes an index for each speaker in a group, and N denotes the total number of speakers in a space. In addition, the ki value may mean a filter coefficient (ie, an impulse response) to be applied to each speaker, and thus the ki value may be determined by minimizing J '. That is, the minimum error adder 420 may determine a filter for each speaker in the group (that is, an impulse response).
최소 오차 합산부(420)는 [수학식2]로부터 각 스피커(145, 160, 165)들이 방사해야하는 음압 신호를 스피커(145, 160, 165) 별 임펄스 응답의 형태로 결정하고, 결정된 각 스피커의 임펄스 응답을 스피커(145, 160, 165) 별로 입력 받은 음향 신호에 컨볼루션(convolution)할 수 있다. 또는, 최소 오차 합산부(420)는 스피커(145, 160, 165) 별로 결정된 필터 값으로부터 이득 및 위상 값을 추산하여 스피커(145, 160, 165)별 입력 음향 신호를 변조할 수 있다. 일 실시예에 따른 최소 오차 합산부(420)는 청취자(110)의 측방에 위치한 스피커들은 가상 음원을 정위시키는 효과가 미미함을 고려하여, 청취자(110) 전방에 위치한 스피커 어레이(145)의 임펄스 응답만을 결정할 수도 있다. The minimum error summing unit 420 determines a sound pressure signal that each speaker 145, 160, 165 should radiate from Equation 2 in the form of an impulse response for each speaker 145, 160, 165, and determines The impulse response may be convolved with the acoustic signal received for each speaker 145, 160, 165. Alternatively, the minimum error summing unit 420 may modulate an input sound signal for each speaker 145, 160, 165 by estimating gain and phase values from filter values determined for each speaker 145, 160, 165. The minimum error summing unit 420 according to an embodiment of the present invention considers that the speakers located at the side of the listener 110 have little effect of orienting the virtual sound source, so that the impulse of the speaker array 145 located in front of the listener 110 is small. You can also determine only the response.
일 실시예에 따른 최소 오차 합산부(420)는 스윗 스팟(120)을 충분히 크게 설정하여 스윗 스팟(120)에 전달되는 음장(또는 음압)의 최소 오차를 합산하고 스피커 (145, 160, 165) 별 필터를 계산할 수 있다. 스윗 스팟(120)이 충분히 크므로 청취자(110)는 이동에 크게 구애 받지 않고 일정 수준 이상의 입체 음향을 감상할 수 있다는 장점이 있다. 만약, 청취자가 둘 이상인 경우 최소 오차 합산부(420)는 스윗 스팟(120)를 둘 이상의 청취자를 포함하도록 충분히 크게 설정할 수 있다.The minimum error summing unit 420 sets the sweet spot 120 to be large enough to add the minimum error of the sound field (or sound pressure) transmitted to the sweet spot 120, and then adds the speaker 145, 160, 165. Star filters can be calculated. Since the sweet spot 120 is large enough, the listener 110 has an advantage of being able to enjoy a stereoscopic sound of a predetermined level or more regardless of movement. If there are two or more listeners, the minimum error adder 420 may set the sweet spot 120 large enough to include two or more listeners.
일 실시예에 따른 최소 오차 합산부(420)는 스윗 스팟(120)을 적게 설정하여 스윗 스팟(120)에 전달되는 음장(또는 음압)의 최소 오차를 계산하고 스피커(145, 160, 165) 별 필터를 계산할 수 있다. 이 경우, 스윗 스팟(120)은 매우 작으므로 청취자(110)가 조금만 이동해도 스윗 스팟(120)을 벗어나게 되어 입체 음향을 감상하는데 불편을 느낄 수 있다. 그러나 스윗 스팟(120)이 작으므로 최적화된 스피커 별(145, 160, 165) 임펄스 응답을 계산할 수 있으므로 청취자는 정해진 스윗 스팟(120) 내에서는 고품질의 입체 음향을 감상할 수 있게 된다. 만약, 청취자가 둘 이상인 경우 최소 오차 합산부(420)는 각 청취자에게 최적의 입체 음향을 제공하기 위한 복수 개의 스윗 스팟(120)을 설정할 수 있다.The minimum error summing unit 420 according to an embodiment calculates the minimum error of the sound field (or sound pressure) transmitted to the sweet spot 120 by setting the sweet spot 120 to be small, and for each speaker 145, 160, and 165. The filter can be calculated. In this case, since the sweet spot 120 is very small, even if the listener 110 moves a little, the sweet spot 120 may leave the sweet spot 120, thereby making it difficult to enjoy stereoscopic sound. However, since the sweet spot 120 is small, the optimized speaker stars 145, 160, and 165 can calculate the impulse response, so that the listener can enjoy high quality stereo sound within the determined sweet spot 120. If there are two or more listeners, the minimum error adder 420 may set a plurality of sweet spots 120 for providing optimal stereo sound to each listener.
후술하는 바와 같이, 청취자(110)의 위치를 추적할 수 있다면 스윗 스팟(120) 역시 청취자(110)의 이동 경로에 따라 움직이게 되므로 스윗 스팟(120)의 크기를 작게 설정하여도 청취자(110)의 이동에 구애 받지 않고 최적의 입체 음향 재생이 가능할 수 있다.As will be described later, if the position of the listener 110 can be tracked, the sweet spot 120 is also moved according to the movement path of the listener 110, so that the size of the sweet spot 120 may be set smaller than that of the listener 110. Optimum stereoscopic reproduction may be possible regardless of movement.
도5는 고도감 재현을 위한 렌더링을 수행하는 입체 음향 재생 장치를 나타낸다.5 shows a 3D sound reproducing apparatus that performs rendering for high-altitude reproduction.
도5는 입체 음향 재생 장치(200)의 렌더링부(220)의 일 실시예를 도시한 것으로 이하 생략된 내용이라 하더라도 도2의 입체 음향 재생 장치(200)에 관하여 이상에서 기술된 내용은 도5의 실시 예에 따른 입체 음향 재생 장치(200)에도 적용된다.FIG. 5 illustrates an embodiment of the rendering unit 220 of the stereoscopic sound reproducing apparatus 200. Although the descriptions are omitted below, the contents described above with respect to the stereoscopic sound reproducing apparatus 200 of FIG. 2 are illustrated in FIG. 5. The same applies to the stereoscopic sound reproducing apparatus 200 according to the embodiment of the present invention.
일 실시예에 따른 렌더링부(220)는 필터링부(520), 복제부(530), 및 증폭부(540) 를 포함할 수 있다.The renderer 220 according to an embodiment may include a filter 520, a replica 530, and an amplifier 540.
필터링부(520)는 음향 신호를 소정의 고도에 대응하는 소정 필터에 통과시킨다. 또한, 필터링부(520)는 음향 신호를 소정 고도에 대응하는 HRTF(Head Related Transfer Filter) 필터에 통과시킬 수 있다. HRTF는 음원의 공간적인 위치로부터 청취자(110)의 양 귀까지의 경로 정보, 즉 주파수 전달 특성을 포함한다. HRTF는 두 귀간의 레벨 차이(ILD,Inter-aural Level Difference) 및 두 귀 간에서 음향 시간이 도달하는 시간 차이(ITD, Inter-aural Time Difference)등의 단순한 경로 차이뿐만 아니라, 머리 표면에서의 회절, 귓바퀴에 의한 반사등 복잡한 경로상의 특성이 음의 도래 방향에 따라 변화하는 현상에 의하여 입체 음향을 인식할 수 있도록 한다. 공간상의 각 방향에서 HRTF는 유일한 특성을 갖기 때문에 이를 이용하면 입체 음향을 생성할 수 있다. The filtering unit 520 passes the sound signal through a predetermined filter corresponding to a predetermined altitude. In addition, the filtering unit 520 may pass the sound signal to a head related transfer filter (HRTF) filter corresponding to a predetermined altitude. HRTF includes the path information from the spatial position of the sound source to both ears of the listener 110, that is, the frequency transfer characteristic. HRTF is diffracted at the head surface, as well as simple path differences such as inter-aural level differences (ILD) between two ears and inter-aural time differences (ITD) between the two ears. In this case, the stereoscopic sound can be recognized by the phenomenon that the characteristics of the complicated path such as the reflection by the wheel and the wheel change according to the direction of sound arrival. Since HRTF has unique characteristics in each direction of space, it can be used to generate stereo sound.
필터링부(520)는 수평면상에 배치된 스피커들을 이용하여 실제 스피커들보다 높은 고도에서 발생하는 소리를 모델링하기 위해서 HRTF 필터를 사용한다. 다음의 [수학식 3]은 필터링부(520)에서 사용하는 HRTF 필터에 관한 일 예이다. The filtering unit 520 uses an HRTF filter to model sound generated at a higher altitude than actual speakers by using speakers arranged on a horizontal plane. Equation 3 below is an example of an HRTF filter used by the filtering unit 520.
[수학식 3][Equation 3]
HRTF=HRTF2/HRTF1HRTF = HRTF2 / HRTF1
HRTF2는 가상 음원의 위치로부터 청취자(110)의 귀까지의 경로 정보를 나타내는 HRTF이며, HRTF1은 실제 스피커의 위치로부터 청취자(110)의 귀까지의 경로 정보를 나타내는 HRTF이다. 음향 신호는 실제 스피커를 통해서 출력되므로, 가상의 스피커에서 음향 신호가 출력되는 것으로 인식시키기 위해서는, 소정의 고도에 대응하는 HRTF2를 수평면(또는 실제 스피커의 고도)에 대응하는 HRTF1으로 나눈다. HRTF2 is HRTF indicating path information from the position of the virtual sound source to the ear of the listener 110, and HRTF1 is HRTF indicating path information from the position of the actual speaker to the ear of the listener 110. Since the sound signal is output through the actual speaker, in order to recognize that the sound signal is output from the virtual speaker, the HRTF2 corresponding to the predetermined altitude is divided by the HRTF1 corresponding to the horizontal plane (or the height of the actual speaker).
소정의 고도에 대응하는 최적의 HRTF 필터는 지문과 같이 사람마다 상이하다. 따라서, 청취자(110)마다 HRTF를 계산하여 적용하는 것이 바람직하지만 이는 현실적으로 불가능하다. 따라서, 비슷한 특성(예를 들면, 나이, 키등과 같은 신체적 특성 또는 선호하는 주파수 대역, 선호하는 음악등과 같은 성향적 특성)을 갖는 청취자(110) 집단내의 일부 청취자(110)에 대하여 HRTF를 계산한 후 대표값(예를 들면, 평균치)을 해당 집단내의 모든 청취자(110)에게 적용할 HRTF로 결정할 수 있다. The optimal HRTF filter corresponding to a given altitude is different from person to person such as fingerprint. Therefore, it is desirable to calculate and apply the HRTF for each listener 110, but this is not practical. Thus, HRTF is calculated for some listeners 110 within a group of listeners 110 having similar characteristics (e.g., physical characteristics such as age, height, or preferred frequency band, preferred music, etc.). The representative value (eg, average) may then be determined as the HRTF to apply to all listeners 110 in the population.
[수학식 3]에서 정의한 HRTF를 이용하여 음향 신호를 필터링한 결과에 관한 일 예는 다음의 [수학식 4]와 같다. An example of the result of filtering the acoustic signal using the HRTF defined in Equation 3 is shown in Equation 4 below.
[수학식 4][Equation 4]
Y2(f)=Y1(f)*HRTFY2 (f) = Y1 (f) * HRTF
Y1(f)는 실제 스피커에 의하여 청취자(110)에게 들리는 음향 신호를 주파수 영역으로 변환한 값이며, Y2(f)는 가상 스피커에 의하여 청취자(110)에게 들리는 음향 신호를 주파수 영역으로 변환한 값이다.Y1 (f) is a value obtained by converting an acoustic signal heard by the listener 110 into the frequency domain by a real speaker, and Y2 (f) is a value obtained by converting an acoustic signal heard by the listener 110 into the frequency domain by the virtual speaker. to be.
필터링부(520)는 음향 신호내에 포함된 복수 개의 채널 신호들 중 일부만을 필터링할 수 있다.The filtering unit 520 may filter only some of the plurality of channel signals included in the sound signal.
음향 신호에는 복수 개의 채널에 해당하는 음향 신호가 포함될 수 있다. 이하에서는, 설명의 편의를 위하여 7개의 채널 신호를 정의한다. 그러나 후술하는 채널 신호는 일 예에 불과하며, 음향 신호에는 후술하는 7개의 방향외의 다른 방향에서 발생하는 음향 신호를 나타내는 채널 신호가 포함될 수 있다. The sound signal may include sound signals corresponding to a plurality of channels. Hereinafter, seven channel signals are defined for convenience of description. However, the channel signal to be described later is merely an example, and the sound signal may include a channel signal indicating a sound signal generated in a direction other than the seven directions described below.
센터채널신호는 정면의 중앙에서 발생한 음향 신호를 나타내며, 센터 스피커로 출력된다. The center channel signal represents an acoustic signal generated at the center of the front face and is output to the center speaker.
우측정면채널신호는 정면의 우측에서 발생한 음향 신호를 나타내며, 우측정면스피커로 출력된다. The right front channel signal represents an acoustic signal generated on the right side of the front and is output to the right front speaker.
좌측정면채널신호는 정면의 좌측에서 발생한 음향 신호를 나타내며, 좌측정면스피커로 출력된다. The left front channel signal represents an acoustic signal generated on the left side of the front and is output to the left front speaker.
우측후면채널신호는 후면의 우측에서 발생한 음향 신호를 나타내며, 우측후면스피커로 출력된다. The right rear channel signal represents an acoustic signal generated on the right side of the rear side and is output to the right rear speaker.
좌측후면채널신호는 후면의 좌측에서 발생한 음향 신호를 나타내며, 좌측후면스피커로 출력된다. The left rear channel signal represents an acoustic signal generated on the left side of the rear side and is output to the left rear speaker.
우측탑채널신호는 우측 상방에서 발생한 음향 신호를 나타내며, 우측탑스피커로 출력된다. The right top channel signal represents an acoustic signal generated from the upper right side, and is output to the right top speaker.
좌측탑채널신호는 좌측 상방에서 발생한 음향 신호를 나타내며, 좌측탑스피커로 출력된다. The left top channel signal represents an acoustic signal generated from the upper left and is output to the left top speaker.
음향 신호에 우측탑채널신호와 좌측탑채널신호가 포함된 경우에 필터링부(520)는 우측탑채널신호와 좌측탑채널신호를 필터링한다. 이 후, 필터링된 우측탑채널신호와 좌측탑채널신호는 원하는 고도에서 발생하는 가상 음원을 모델링하는데 사용된다. If the sound signal includes the right top channel signal and the left top channel signal, the filtering unit 520 filters the right top channel signal and the left top channel signal. Thereafter, the filtered right top channel signal and left top channel signal are used to model a virtual sound source generated at a desired altitude.
음향 신호에 우측탑채널신호와 좌측탑채널신호가 포함되지 않은 경우에, 필터링부(520)는 우측정면채널신호와 좌측정면채널신호를 필터링한다. 이 후, 필터링된 우측정면채널신호와 좌측정면채널신호는 원하는 고도에서 발생하는 가상 음원을 모델링하는데 사용된다. When the sound signal does not include the right top channel signal and the left top channel signal, the filtering unit 520 filters the right front channel signal and the left front channel signal. Thereafter, the filtered right front channel signal and left front channel signal are used to model a virtual sound source generated at a desired altitude.
실시 예에 따라서는 우측탑채널신호와 좌측탑채널신호를 포함하지 않는 음향 신호(예를 들면, 2.1채널 또는 5.1채널 신호)를 업믹싱하여 우측탑채널신호와 좌측탑채널신호를 생성한 후 믹싱된 우측탑채널신호와 좌측탑채널신호를 필터링할 수도 있다. According to an exemplary embodiment, the right top channel signal and the left top channel signal are upmixed to generate a right top channel signal and a left top channel signal, and then mixed. The right top channel signal and the left top channel signal may be filtered.
복제부(530)는 필터링된 채널 신호를 복수 개로 복제한다. 복제부(530)는 필터링된 채널 신호를 출력할 그룹 내 스피커의 개수만큼 복제한다. 예를 들어, 필터링된 음향 신호가 우측탑채널신호, 좌측탑채널신호, 우측후면채널신호, 좌측후면채널신호로 출력되면, 복제부(530)는 필터링된 채널 신호를 4개로 복제한다. 복제부(530)가 필터링된 채널 신호를 몇 개로 복제할 것인지는 실시예에 따라서 다양할 수 있으나 필터링된 채널 신호가 적어도 우측후면채널신호 및 좌측후면채널신호에는 출력될 수 있도록 둘 이상으로 복제하는 것이 바람직할 수 있다. The replica unit 530 replicates the filtered channel signal into a plurality. The replica unit 530 replicates the number of speakers in the group to output the filtered channel signal. For example, when the filtered sound signal is output as a right top channel signal, a left top channel signal, a right rear channel signal, and a left rear channel signal, the copy unit 530 replicates the filtered channel signals into four. The number of copies of the filtered channel signal by the copying unit 530 may vary depending on the embodiment. However, the copying unit 530 may duplicate the filtered channel signal in two or more so that the filtered channel signal is output to at least the right rear channel signal and the left rear channel signal. It may be desirable.
우측탑채널신호 및 좌측탑채널신호가 재생될 스피커는 수평면에 배치된다. 일 예로, 우측정면채널신호를 재생할 정면스피커의 바로 위에 부착될 수 있다.The speaker on which the right top channel signal and the left top channel signal are to be reproduced are arranged on a horizontal plane. For example, it may be attached directly above the front speaker to reproduce the right front channel signal.
증폭부(540)는 필터링된 음향 신호를 소정의 이득 값에 따라 증폭(또는 감쇄)한다. 필터링된 음향 신호의 종류와 필터링된 음향 신호의 종류에 따라 이득 값을 달리 설정한다.The amplifier 540 amplifies (or attenuates) the filtered sound signal according to a predetermined gain value. The gain value is set differently according to the type of filtered sound signal and the type of filtered sound signal.
예를 들어, 우측탑스피커로 출력될 우측탑채널신호는 제 1 이득 값에 따라 증폭하고, 좌측탑스피커로 출력될 우측탑채널신호는 제 2 이득 값에 따라 증폭한다. 이 때, 제 1 이득 값이 제 2 이득 값보다 클 수 있다. 또한, 우측탑스피커로 출력될 좌측탑채널신호는 제 2 이득값에 따라 증폭하고, 좌측탑스피커로 출력될 좌측탑채널신호는 제 1 이득값에 따라 증폭함으로써 좌우측 스피커에서 대응하는 채널 신호가 출력되도록 한다.For example, the right top channel signal to be output to the right top speaker is amplified according to the first gain value, and the right top channel signal to be output to the left top speaker is amplified according to the second gain value. In this case, the first gain value may be greater than the second gain value. In addition, the left top channel signal to be output to the right top speaker is amplified according to the second gain value, and the left top channel signal to be output to the left top speaker is amplified according to the first gain value so that corresponding channel signals are output from the left and right speakers. Be sure to
입체 음향 재생 장치(200)는 그룹 내 스피커에서 동일한 음향 신호를 이득 값을 달리하여 출력할 수 있다. 실제 스피커의 고도보다 더 높은 고도에 가상 음원을 용이하게 정위시키거나 실제 스피커의 고도와 상관없는 특정 고도로 가상 음원을 정위시킬 수 있다.The 3D sound reproducing apparatus 200 may output the same sound signal by different gain values from the speakers in the group. The virtual sound source can be easily positioned at an altitude higher than that of the actual speaker, or the virtual sound source can be positioned at a specific altitude independent of the altitude of the actual speaker.
입력 음향 신호에 포함된 채널 신호의 개수와 그룹 내 스피커의 개수에 따라서 복제부(530), 증폭부(540)의 동작이 달라질 수 있음은 자명하다.Obviously, the operation of the replica unit 530 and the amplifier 540 may vary according to the number of channel signals included in the input sound signal and the number of speakers in the group.
입체 음향 재생 장치(200)가 가상의 음원을 소정의 위치에 정위시키는 방법을 각각 도3 내지 5를 참조하여 설명하였으나, 하나의 입체 음향 재생 장치(200)는 도3내지 5를 참조하여 설명한 방법을 모두 또는 선택적으로 사용할 수 있음은 자명하다. 또한, 입체 음향 재생 장치(200)가 소정의 위치에 가상 음원을 정위시키는 방법은 상술한 예에 한정되지 않으며 입체 음향 재생 장치(200)는 그룹 내의 스피커들의 위치 및 개수에 기초하여 다른 어떠한 방법을 사용하여 가상 음원을 소정의 위치에 정위시킬 수 있다.Although the stereo sound reproducing apparatus 200 has described the method of positioning the virtual sound source at a predetermined position, respectively with reference to FIGS. 3 to 5, one stereo sound reproducing apparatus 200 has been described with reference to FIGS. It is obvious that all or alternatively may be used. In addition, the method of positioning the virtual sound source at a predetermined position by the stereo sound reproducing apparatus 200 is not limited to the above-described example, and the stereo sound reproducing apparatus 200 may use any other method based on the position and the number of speakers in the group. Can be used to orient the virtual sound source at a predetermined position.
도 6a는 일 실시예에 따른 청취자의 머리 위치를 추적하는 입체 음향 재생 장치를 나타낸다.6A illustrates a stereoscopic sound reproducing apparatus for tracking a listener's head position according to an embodiment.
일 실시예에 따른 입체 음향 재생 장치(200)는 통신부(미도시)를 더 포함할 수 있다. 통신부(미도시)는 입체 음향 재생 장치(200)와 주변 기기 간의 통신을 하게 하는 하나 이상의 하드웨어 구성요소를 포함할 수 있다. 예를 들어, 통신부(미도시)는 근거리 통신, 이동 통신을 포함할 수 있다. The stereoscopic sound reproducing apparatus 200 according to an embodiment may further include a communication unit (not shown). The communication unit (not shown) may include one or more hardware components that allow communication between the 3D sound reproducing apparatus 200 and the peripheral device. For example, the communication unit (not shown) may include short range communication or mobile communication.
근거리 통신(short-range wireless communication)는, 블루투스 통신, BLE(Bluetooth Low Energy) 통신, 근거리 무선 통신 (Near Field Communication), WLAN(와이파이) 통신, 지그비(Zigbee) 통신, 적외선(IrDA, infrared Data Association) 통신, WFD(Wi-Fi Direct) 통신, UWB(ultra wideband) 통신, Ant+ 통신 등을 포함할 수 있으나, 이에 제한되지 않는다. Short-range wireless communication includes Bluetooth communication, BLE (Bluetooth Low Energy) communication, near field communication (Near Field Communication), WLAN (Wi-Fi) communication, Zigbee communication, Infrared (IrDA) ), Communication, Wi-Fi Direct (WFD) communication, ultra wideband (UWB) communication, Ant + communication, and the like, but is not limited thereto.
이동 통신은, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신할 수 있다. 여기에서, 무선 신호는, 음성 신호, 영상 신호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 신호를 포함할 수 있다.The mobile communication may transmit / receive a radio signal with at least one of a base station, an external terminal, and a server on a mobile communication network. Here, the wireless signal may include various types of signals according to transmission and reception of an audio signal, an image signal signal, or a text / multimedia message.
통신부(미도시)는 청취자 추적부(610)를 포함할 수 있다. The communicator (not shown) may include a listener tracker 610.
도5a는 일 실시예에 따른 입체 음향 재생 장치(200)의 다른 예를 도시한 블록도이다. 따라서, 이하 생략된 내용이라 하더라도 도2의 입체 음향 재생 장치(200)에 관하여 이상에서 기술된 내용은 도5의 실시 예에 따른 입체 음향 재생 장치(200)에도 적용된다.5A is a block diagram illustrating another example of a 3D sound reproducing apparatus 200 according to an exemplary embodiment. Therefore, even if omitted below, the above description of the stereoscopic sound reproducing apparatus 200 of FIG. 2 is also applied to the stereoscopic sound reproducing apparatus 200 according to the exemplary embodiment of FIG. 5.
청취자 추적부(610)는 청취자(110)가 이동하는 위치를 추적할 수 있다. 상술한 바와 같이, 최적의 입체 음향을 감상할 수 있는 위치인 스윗 스팟(120)는 스피커(145, 160, 165)들의 위치에 기초하여 수동적으로 결정되는 것이 보통이다. The listener tracker 610 may track a position at which the listener 110 moves. As described above, the sweet spot 120, which is a position where the optimal stereoscopic sound can be enjoyed, is typically determined manually based on the positions of the speakers 145, 160, and 165.
예를 들어, 청취자(110) 주위에 좌측 스피커와 우측스피커가 존재하고 좌측 스피커와 우측 스피커 사이의 거리가 3미터라 할 때, 좌측 스피커와 우측 스피커 사이의 선의 양 끝에서 60도씩 꺽어 가상의 선을 그어 두 개의 가상의 선이 만나는 지점을 중심으로 스윗 스팟(120)을 결정할 수 있다.For example, when the left speaker and the right speaker exist around the listener 110 and the distance between the left speaker and the right speaker is 3 meters, the virtual line is folded by 60 degrees at both ends of the line between the left and right speakers. The sweet spot 120 may be determined based on a point where two virtual lines meet.
따라서, 청취자(110)가 두 개의 가상의 선이 만나는 지점에서 좌측으로 이동한 경우 프리-에코(Pre-echo) 현상이 발생할 수 있다. 프리 에코 현상이란 예를 들어, 청취자(110)의 위치가 중앙에서 좌측으로 이동하면, 이득이 크고 프리 딜레이가 상대적으로 빠른 좌측 스피커의 영향이 지배적이게 되어 청감상 음상의 위치가 포커스된 위치를 벗어나 좌측 스피커의 위치로 인식하여 청취되는 현상을 말한다.Therefore, when the listener 110 moves to the left at the point where two virtual lines meet, a pre-echo phenomenon may occur. For example, the pre-echo phenomenon means that when the position of the listener 110 is shifted from the center to the left, the influence of the left speaker having a large gain and a relatively high pre delay becomes dominant so that the position of the auditory sound image is out of the focused position. It is the phenomenon of listening by listening to the position of left speaker.
청취자 추적부(610)가 청취자(110)의 머리가 이동하는 위치를 실시간으로 추적한다면 스윗 스팟(120)은 고정된 위치에 존재하지 않고 청취자(110)의 머리 위치에 따라 이동할 수 있다. 일 실시예에 따른 입체 음향 재생 장치(200)는 청취자 추적부(610)로부터 획득한 청취자의 머리 위치에 따라 실시간으로 또는 일정한 시간 간격으로 스윗 스팟(120)을 갱신할 수 있다.If the tracker 610 tracks the position of the head of the listener 110 in real time, the sweet spot 120 may move according to the head position of the listener 110 without being in a fixed position. The stereoscopic sound reproducing apparatus 200 according to an exemplary embodiment may update the sweet spot 120 in real time or at regular time intervals according to the position of the head of the listener acquired from the listener tracking unit 610.
청취자 추적부(610)는 청취자(110)의 머리 위치 정보를 실시간으로 획득할 수 있다. 예를 들어, 청취자 추적부(610)는 청취자(110)가 소지한 휴대 전화기, 리모컨에 부착된 동작인식센서 또는 위치센서에 기초하여 청취자(110)의 머리 위치 정보를 획득할 수 있다. 또는, 청취자 추적부(610)는 오브젝트 트래킹(object tracking)과 같은 영상 처리 알고리즘 또는 청취자(110)가 착용한 악세서리 또는 구글 글래스와 같은 웨어러블 글래스를 이용하여 청취자(110)의 머리 위치 정보를 획득할 수도 있다. 청취자 추적부(610)가 청취자(110)의 머리 위치를 추적하는 방법은 상술한 예에 제한되지 않으며 다른 어떠한 방법도 사용될 수 있음은 자명하다.The listener tracker 610 may acquire the head position information of the listener 110 in real time. For example, the listener tracking unit 610 may acquire the head position information of the listener 110 based on the mobile phone, the motion recognition sensor or the position sensor attached to the remote controller possessed by the listener 110. Alternatively, the listener tracking unit 610 may acquire the head position information of the listener 110 using an image processing algorithm such as object tracking or an accessory worn by the listener 110 or a wearable glass such as Google glass. It may be. How the listener tracking unit 610 tracks the head position of the listener 110 is not limited to the above-described example, and any other method may be used.
청취자 추적부(610)는 복수의 청취자(110)의 머리 위치 정보를 실시간으로 획득할 수도 있다. 입체 음향 재생 장치(200)는 획득된 복수의 청취자(110)의 머리 위치 정보에 기초하여, 복수의 청취자(110)를 포함하는 하나의 스윗 스팟(120)을 설정하거나 획득된 각 청취자(110) 위치에 기초하여 복수의 스윗 스팟(120)을 설정할 수도 있다.The listener tracker 610 may obtain head position information of the plurality of listeners 110 in real time. The stereoscopic sound reproducing apparatus 200 sets or obtains one sweet spot 120 including the plurality of listeners 110 based on the head position information of the plurality of listeners 110 obtained. A plurality of sweet spots 120 may be set based on the location.
도6b는 일 실시예에 따른 입체 음향 청취 환경의 스윗 스팟의 변경을 나타낸다.6B illustrates a change in a sweet spot of a stereo sound listening environment according to an embodiment.
청취자(110)가 기존의 스윗 스팟(120)에서 좌측으로 이동하면 입체 음향 재생 장치(200)는 이동한 청취자(110)의 위치에 기초하여 스윗 스팟(120)을 재설정할 수 있다.When the listener 110 moves to the left from the existing sweet spot 120, the 3D sound reproducing apparatus 200 may reset the sweet spot 120 based on the position of the moved listener 110.
렌더링부(220)는 이동된 스윗 스팟(120)에 적합하게 그룹 내의 스피커들의 이득 및 지연 값을 변경할 수 있다. The renderer 220 may change the gain and delay values of the speakers in the group to suit the moved sweet spot 120.
예를 들어, 렌더링부(220)가 도3을 참조하여 상술한 WFS 방법을 사용하여 가상 음원을 정위시키는 경우에는 그룹 내 스피커(145, 160, 165) 별 이득 값을 실시간으로 변화시킴으로서 프리 에코 현상을 감소시킬 수 있다. For example, when the rendering unit 220 orientates the virtual sound source using the WFS method described above with reference to FIG. 3, the pre-echo phenomenon by changing the gain value for each speaker 145, 160, 165 in the group in real time. Can be reduced.
렌더링부(220)가 도4를 참조하여 상술한 최소 오차 계산 방법을 사용하여 가상 음원을 정위시키는 경우에는 추적된 청취자(110) 머리의 위치 근방에 스윗 스팟(120)을 설정하고 최적화된 스피커(145, 160, 165) 별 임펄스 응답을 계산할 수 있다. When the rendering unit 220 orients the virtual sound source using the minimum error calculation method described above with reference to FIG. 4, the sweet spot 120 is set near the position of the head of the tracked listener 110 and the optimized speaker ( 145, 160, 165) can be calculated per impulse response.
또한, 렌더링부(220)가 도5를 참조하여 상술한 고도감 재현 방법을 사용하여 가상 음원을 소정의 고도에 정위시키는 경우에는 그룹 내 각 스피커(145, 160, 165)에 인가할 이득 값 및 위상 지연 값을 변경하여 고도각의 위치를 일정하게 유지시킬 수 있다.In addition, when the rendering unit 220 orients the virtual sound source to a predetermined altitude using the altitude reproduction method described above with reference to FIG. 5, a gain value to be applied to each speaker 145, 160, 165 in the group and By changing the phase delay value, the position of the elevation angle can be kept constant.
도시되지는 않았으나, 청취자 추적부(610)는 복수의 청취자(110)의 머리 위치를 추적할 수 있으며, 청취자들의 머리 위치에 기초하여 복수의 스윗 스팟을 설정할 수 있다. 렌더링부(220)는 복수의 스윗 스팟의 위치 및 크기에 기초하여 그룹 내 스피커들의 이득 및 지연 값을 변경할 수 있다.Although not shown, the listener tracking unit 610 may track head positions of the plurality of listeners 110 and set a plurality of sweet spots based on head positions of the listeners. The renderer 220 may change gain and delay values of the speakers in the group based on the positions and sizes of the plurality of sweet spots.
이하 일 실시예에 따른 입체 음향 재생 장치(200)가 복수의 스피커들을 사용하여 청취자에게 입체 음향을 제공하는 방법이 도7 및8의 흐름도를 참조하여 후술된다. 도7내지 8는 도1내지6에서 도시된 입체 음향 재생 장치(200)에서 수행되는 입체 음향 재생 방법을 설명하기 위한 도면이다. 따라서, 이하 생략된 내용이라 하더라도 도1내지6에서 입체 음향 재생 장치(200)에 관하여 이상에서 기술된 내용은 도7내지 8의 일 실시 예에 따른 입체 음향 재생 방법에도 적용된다.Hereinafter, a method of providing stereo sound to a listener using a plurality of speakers by the stereo sound reproducing apparatus 200 according to an embodiment will be described with reference to the flowcharts of FIGS. 7 and 8. 7 to 8 are diagrams for describing a stereoscopic sound reproducing method performed by the stereoscopic sound reproducing apparatus 200 shown in FIGS. 1 to 6. Therefore, even if omitted below, the above description of the stereoscopic sound reproducing apparatus 200 of FIGS. 1 to 6 may be applied to the stereoscopic sound reproducing method according to the exemplary embodiment of FIGS. 7 to 8.
도7은 일 실시예에 따른 입체 음향 재생 장치가 입체 음향을 재생하는 방법의 흐름도를 나타낸다.7 is a flowchart of a method of reproducing stereoscopic sound, according to an exemplary embodiment.
단계 710에서, 입체 음향 재생 장치(200)는 복수의 스피커들을 그룹화할 수 있다.In operation 710, the 3D sound reproducing apparatus 200 may group the plurality of speakers.
입체 음향 재생 장치(200)는 물리적으로 떨어진 적어도 두 개의 스피커를 하나의 그룹으로 그룹화할 수 있다. 예를 들어, 입체 음향 재생 장치(200)는 텔레비전 내장 스피커와 별도의 라우드 스피커를 하나의 그룹으로 그룹화할 수 있다. 또한, 입체 음향 재생 장치(200)는 텔레비전 내장 스피커와 하나 이상의 사운드바 및 하나 이상의 라우드 스피커를 하나의 그룹으로 그룹화할 수 있다. 또한, 입체 음향 재생 장치(200)는 기존의 홈씨어터 스피커와 청취자가 별도로 구매한 하나 이상의 라우드 스피커를 하나의 그룹으로 그룹화할 수도 있다. 하나의 그룹 안에 속한 스피커들은 서로 물리적으로 떨어져 있을 수 있다. 청취자는 그룹화할 스피커들을 선택할 수 있으며, 이 때 청취자가 위치한 공간의 크기 및 특성 또는 감상하고자 하는 콘텐츠의 성격에 기초하여 추가할 스피커들을 결정할 수 있다. 입체 음향 재생 장치(200)는 물리적으로 떨어져 있는 복수의 스피커들을 다양한 통신 경로를 통해 하나의 그룹으로 그룹화할 수 있다. 통신 경로는 다양한 네트워크와 네트워크 토폴로지를 나타낼 수 있다. 예를 들어, 통신 경로는 무선 통신, 유선 통신, 광학, 초음파, 또는 이들의 조합을 포함 할 수 있다.The 3D sound reproducing apparatus 200 may group at least two physically separated speakers into one group. For example, the 3D sound reproducing apparatus 200 may group a television built-in speaker and a separate loudspeaker into one group. In addition, the 3D sound reproducing apparatus 200 may group a built-in television speaker, one or more soundbars, and one or more loudspeakers into one group. In addition, the 3D sound reproducing apparatus 200 may group existing home theater speakers and one or more loudspeakers separately purchased by the listener into one group. Speakers in a group may be physically separated from each other. The listener can select the speakers to be grouped, and can decide which speakers to add based on the size and characteristics of the space where the listener is located or the nature of the content to be enjoyed. The 3D sound reproducing apparatus 200 may group a plurality of physically separated speakers into a group through various communication paths. The communication path may represent various networks and network topologies. For example, the communication path may include wireless communication, wired communication, optical, ultrasound, or a combination thereof.
단계 720 에서, 입체 음향 재생 장치(200)는 음향 신호를 입력받을 수 있다. 입체 음향 재생 장치(200)는 DVD, BD, MP3 플레이어 등과 같은 장치로부터 입력 오디오 신호를 수신 받을 수 있다. 입력 오디오 신호는 스테레오 신호(2채널), 5,1채널, 7.1채널, 10.2채널 및 22.2채널과 같은 다채널 오디오 신호일 수 있다. 또한 입력 오디오 신호는 다수의 모노(Mono)입력 신호와 오브젝트들의 실시간 위치가 메타데이터의 형태로 전달되는 객체 기반 오디오 신호를 입력 받을 수 있다. 객체 기반 오디오 신호는 삼차원 공간에 배치된 각 오디오 오브젝트들의 위치를 소리와 함께 메타데이터로 압축된 형태를 말한다. 또한 입력 오디오 신호는 채널 오디오 신호와 객체 기반 오디오 신호가 혼합된 하이브리드 입력 오디오 신호일 수 있다.In operation 720, the 3D sound reproducing apparatus 200 may receive an audio signal. The 3D sound reproducing apparatus 200 may receive an input audio signal from a device such as a DVD, BD, or MP3 player. The input audio signal may be a multi-channel audio signal such as a stereo signal (2 channels), 5, 1 channel, 7.1 channel, 10.2 channel and 22.2 channel. In addition, the input audio signal may receive a plurality of mono input signals and object-based audio signals in which real-time positions of objects are transmitted in the form of metadata. The object-based audio signal refers to a form in which the position of each audio object arranged in three-dimensional space is compressed into metadata along with sound. In addition, the input audio signal may be a hybrid input audio signal in which a channel audio signal and an object-based audio signal are mixed.
단계730에서, 입체 음향 재생 장치(200)는 가상 음원을 소정의 위치에 정위시키는 3차원 오디오 렌더링을 수행할 수 있다. In operation 730, the 3D sound reproducing apparatus 200 may perform 3D audio rendering for positioning the virtual sound source at a predetermined position.
예를 들어, 입체 음향 재생 장치(200)는 음장 합성 렌더링(Wave Field Synthesis rendering) 알고리즘으로 입력 오디오 신호를 처리하여 오디오 신호에 대응하는 적어도 하나의 스피커 신호를 생성할 수 있다. 또한, 입체 음향 재생 장치(200)는 머리전달함수 렌더링(Head Related Transfer Function rendering), 빔 포밍 렌더링(Beam-forming rendering) 또는 집중 음원 렌더링(Focused Source rendering) 알고리즘으로 입력 오디오 신호를 처리하여 오디오 신호에 대응하는 적어도 하나의 스피커 신호를 생성할 수도 있다. 또한, 입체 음향 재생 장치(200)는 최소 오차 합산에 기반하여 스피커 별 임펄스 응답을 계산하거나 또는 고도감 재현을 위한 렌더링을 수행할 수도 있다. For example, the 3D sound reproducing apparatus 200 may generate at least one speaker signal corresponding to the audio signal by processing the input audio signal using a wave field synthesis rendering algorithm. In addition, the stereo sound reproducing apparatus 200 processes an input audio signal using a head related transfer function rendering, beam-forming rendering, or focused source rendering algorithm to process an audio signal. At least one speaker signal corresponding to may be generated. In addition, the 3D sound reproducing apparatus 200 may calculate an impulse response for each speaker based on the minimum error summation, or perform rendering to reproduce the sense of altitude.
단계740에서, 입체 음향 재생 장치(200)는 렌더링된 가상의 음원을 다채널 스피커를 통해 재생할 수 있다.In operation 740, the 3D sound reproducing apparatus 200 may reproduce the rendered virtual sound source through the multi-channel speaker.
도8은 입체 음향 재생 장치가 입체 음향을 재생하는 방법의 추가적 실시예의 흐름도를 나타낸다.8 shows a flowchart of a further embodiment of the method for the stereophonic reproduction apparatus to reproduce stereoscopic sound.
단계 710, 720, 740 은 도7을 참조하여 설명한 바와 동일하므로 설명을 생략한다. Steps 710, 720, and 740 are the same as those described with reference to FIG.
단계 810에서, 입체 음향 재생 장치(200)는 청취자의 머리 위치를 추적할 수 있다. 입체 음향 재생 장치(200)가 청취자의 머리가 이동하는 위치를 실시간으로 추적한다면 스윗 스팟은 고정된 위치에 존재하지 않고 청취자의 위치에 따라 이동할 수 있다. 일 실시예에 따른 입체 음향 재생 장치(200)는 획득한 청취자의 머리 위치에 따라 실시간으로 또는 정기적으로 스윗 스팟을 갱신할 수 있다.In operation 810, the 3D sound reproducing apparatus 200 may track the position of the head of the listener. If the stereo sound reproducing apparatus 200 tracks the position where the head of the listener moves in real time, the sweet spot may move according to the position of the listener without being in a fixed position. The stereoscopic sound reproducing apparatus 200 according to an embodiment may update the sweet spot in real time or periodically according to the acquired head position of the listener.
입체 음향 재생 장치(200)는 청취자의 머리 위치 정보를 실시간으로 획득할 수 있다. 예를 들어, 입체 음향 재생 장치(200)는 청취자가 소지한 휴대 전화기, 리모콘에 부착된 동작인식센서 또는 위치센서에 기초하여 청취자의 머리 위치 정보를 획득할 수 있다. 또는, 입체 음향 재생 장치(200)는 오브젝트 트래킹(object tracking)과 같은 영상 처리 알고리즘 또는 청취자가 착용한 악세서리 또는 구글 글래스와 같은 웨어러블 글래스를 이용하여 청취자의 머리 위치 정보를 획득할 수도 있다. 입체 음향 재생 장치(200) 가 청취자의 머리 위치를 추적하는 방법은 상술한 예에 제한되지 않으며 다른 어떠한 방법도 사용될 수 있음은 자명하다.The 3D sound reproducing apparatus 200 may acquire the head position information of the listener in real time. For example, the 3D sound reproducing apparatus 200 may acquire the head position information of the listener based on a mobile phone, a motion recognition sensor, or a position sensor attached to the remote controller. Alternatively, the 3D sound reproducing apparatus 200 may acquire the head position information of the listener using an image processing algorithm such as object tracking or an accessory worn by the listener or a wearable glass such as Google Glass. It is apparent that the method for the stereo reproducing apparatus 200 to track the position of the head of the listener is not limited to the example described above, and any other method may be used.
단계 820에서, 입체 음향 재생 장치(200)는 청취자의 머리 위치 정보에 기초하여 가상 음원을 소정의 위치에 정위시킬 수 있다.In operation 820, the 3D sound reproducing apparatus 200 may position the virtual sound source at a predetermined position based on the head position information of the listener.
예를 들어, 입체 음향 재생 장치(200)는 이동한 청취자 머리 위치에 기초하여 WFS 방법을 사용하여 그룹 내 스피커들 중 적어도 하나의 스피커의 이득 값 및 위상 지연 값을 변화시킬 수 있다.For example, the 3D sound reproducing apparatus 200 may change the gain value and the phase delay value of at least one of the speakers in the group using the WFS method based on the moved listener head position.
또한, 입체 음향 재생 장치(200)는 추적된 청취자의 머리 위치 근방에 스윗 스팟을 재설정하고 상술한 최소 오차 계산 방법을 사용하여 그룹 내 스피커 들 중 적어도 하나의 임펄스 응답을 재계산할 수 있다.In addition, the 3D sound reproducing apparatus 200 may reset the sweet spot near the head position of the tracked listener and recalculate the impulse response of at least one of the speakers in the group by using the aforementioned minimum error calculation method.
또한, 입체 음향 재생 장치(200)는 고도감 재현 방법을 사용하여 가상 음원을 소정의 고도에 정위시키는 경우에는 그룹 내 스피커들 중 적어도 하나의 스피커에 인가할 이득 값 및 위상 지연 값을 변경하여 고도각의 위치를 일정하게 유지시킬 수 있다. Also, when the virtual sound source is positioned at a predetermined altitude using the altitude reproduction method, the stereo sound reproducing apparatus 200 changes the gain value and the phase delay value to be applied to at least one of the speakers in the group. The position of the angle can be kept constant.
한편, 입체 음향 재생 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM. CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 인터넷을 통한 전송 등과 같은 캐리어 웨이브의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 프로세서가 읽을 수 있는 코드가 저장되고 실행될 수 있다.Meanwhile, the stereoscopic sound reproducing method may be embodied as computer readable codes on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM. CD-ROMs, magnetic tapes, floppy disks, optical data storage devices, and the like, and also include those implemented in the form of carrier waves such as transmission over the Internet. The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
본 발명에 의한 방법, 프로세스, 장치, 제품 및/또는 시스템은 간단하고, 비용적으로 효과적이며, 복잡하지 않으면서 매우 다양하고 정확하다. 또한 본 발명에 의한, 프로세스, 장치, 제품 및 시스템에 알려진 구성 요소를 적용함으로써 즉시 이용할 수 있으면서 효율적이고 경제적인 제조, 응용 및 활용을 구현할 수 있다. 본 발명의 또 다른 중요한 측면은 비용 감소, 시스템 단순화, 성능 증가를 요구하는 현 추세에 부합한다는 것이다. 이러한 본 발명의 실시 예에서 볼 수 있는 유용한 양상은 결과적으로 적어도 현 기술의 수준을 높일 수 있을 것이다.The methods, processes, devices, products and / or systems according to the present invention are simple, cost effective, and not complicated and are very versatile and accurate. In addition, by applying known components to processes, devices, products, and systems according to the present invention, efficient and economical manufacturing, application and utilization can be realized while being readily available. Another important aspect of the present invention is that it is in line with current trends that call for cost reduction, system simplification and increased performance. Useful aspects found in such embodiments of the present invention may consequently increase the level of current technology.
본 발명은 특정한 최상의 실시 예와 관련하여 설명되었지만, 이외에 본 발명에 대체, 변형 및 수정이 적용된 발명들은 전술한 설명에 비추어 당업자에게 명백할 것이다. 즉, 청구범위는 이러한 모든 대체, 변형 및 수정된 발명을 포함하도록 해석한다. 그러므로 이 명세서 및 도면에서 설명한 모든 내용은 예시적이고 비제한적인 의미로 해석해야 한다.While the invention has been described in connection with specific best embodiments thereof, other inventions in which substitutions, modifications, and variations are applied to the invention will be apparent to those skilled in the art in view of the foregoing description. In other words, the claims are intended to cover all such alternatives, modifications and variations of the invention. Therefore, all content described in this specification and drawings should be interpreted in an illustrative and non-limiting sense.

Claims (19)

  1. 복수의 스피커들을 하나의 그룹으로 그룹화하는 단계;Grouping the plurality of speakers into one group;
    음향 신호를 입력 받는 단계;Receiving an audio signal;
    상기 그룹화 된 복수의 스피커들을 이용하여 상기 음향 신호의 하나 이상의 가상 음원을 소정의 위치에 정위시키는 단계; 및Positioning at least one virtual sound source of the sound signal in a predetermined position by using the grouped plurality of speakers; And
    상기 가상 음원을 상기 복수의 스피커들을 통해 재생하는 단계를 포함하는 입체 음향 재생 방법.Playing the virtual sound source through the plurality of speakers.
  2. 제1항에 있어서, 상기 복수의 스피커들을 하나의 그룹으로 그룹화하는 단계는,The method of claim 1, wherein the grouping of the plurality of speakers into a group comprises:
    하나의 홈씨어터 시스템을 구성하는 스피커 및 상기 홈씨어터 시스템을 구성하지 않는 별도의 라우드 스피커를 상기 하나의 그룹에 포함시키는 단계를 포함하는 입체 음향 재생 방법.And including a speaker that constitutes one home theater system and a separate loudspeaker that does not constitute the home theater system in the one group.
  3. 제2항에 있어서, 상기 홈씨어터 시스템은,The method of claim 2, wherein the home theater system,
    복수의 라우드 스피커를 선형으로 연결한 라우드 스피커 어레이(Loudspeaker Array)인 것을 특징으로 하는 입체 음향 재생 방법.A loudspeaker array comprising: a loudspeaker array in which a plurality of loudspeakers are linearly connected.
  4. 제1항에 있어서, 상기 복수의 스피커들을 그룹화하는 단계는,The method of claim 1, wherein the grouping of the plurality of speakers comprises:
    물리적으로 떨어져 있는 상기 복수의 스피커들을 무선 또는 유선 네트워크를 통해 연결하는 단계를 포함하는 것을 특징으로 하는 입체 음향 재생 방법.Connecting the plurality of speakers that are physically separated through a wireless or wired network.
  5. 제1항에 있어서, 상기 가상 음원을 소정의 위치에 정위시키는 단계는,The method of claim 1, wherein the positioning of the virtual sound source at a predetermined position comprises:
    상기 입력 받은 음향 신호를 음장 합성 렌더링(Wave Field Synthesis)방식으로 가상 음상을 소정의 위치에 정위시키는 단계를 포함하는 입체 음향 재생 방법.And positioning the virtual sound image at a predetermined position by a sound field synthesis rendering method.
  6. 제1항에 있어서, 상기 가상 음원을 소정의 위치에 정위시키는 단계는,The method of claim 1, wherein the positioning of the virtual sound source at a predetermined position comprises:
    상기 그룹에 포함된 스피커들로부터 발생하는 스윗 스팟 내에서의 제1음압과 상기 소정의 위치에 존재하는 가상 음원으로부터 발생하는 상기 스윗 스팟 내에서의 제2음압의 차이를 최소화 시킬 수 있는 상기 그룹에 포함된 스피커 별 음압 신호를 결정하는 단계; 및In the group capable of minimizing the difference between the first sound pressure in the sweet spot generated from the speakers included in the group and the second sound pressure in the sweet spot generated from the virtual sound source present in the predetermined position Determining a sound pressure signal for each speaker included; And
    상기 결정된 스피커 별 음압 신호에 기초하여 상기 입력 받은 음향 신호를 변조하는 단계를 포함하는 입체 음향 재생 방법.And modulating the received sound signal based on the determined sound pressure signal for each speaker.
  7. 제6항에 있어서, The method of claim 6,
    상기 그룹에 포함된 스피커 별 음압 신호를 계산하는 단계는, 상기 그룹에 포함된 스피커 별로 인가해야 하는 임펄스 응답을 결정하는 단계를 포함하고,Computing the sound pressure signal for each speaker included in the group includes the step of determining the impulse response to be applied for each speaker included in the group,
    상기 입력 받은 음향 신호를 변조하는 단계는, 상기 그룹에 포함된 스피커 별로 입력되는 음향 신호에 상기 결정된 임펄스 응답을 컨볼루션하는 단계를 포함하는 입체 음향 재생 방법.The modulating the received sound signal comprises convolving the determined impulse response to the sound signal input for each speaker included in the group.
  8. 제1항에 있어서, 상기 가상 음상을 소정의 위치에 정위시키는 단계는,The method of claim 1, wherein the positioning of the virtual sound image at a predetermined position comprises:
    상기 입력 받은 음향 신호를 소정의 고도에 대응하는 필터에 통과시키는 단계;Passing the input sound signal through a filter corresponding to a predetermined altitude;
    상기 필터링된 음향 신호를 복제하여 복수 개의 음향 신호들을 생성하는 단계; 및Replicating the filtered sound signal to generate a plurality of sound signals; And
    상기 복제된 음향 신호들이 출력될 스피커들 각각에 해당하는 이득 값 및 지연 값 중 적어도 하나에 기초하여 상기 복제된 음향 신호들 각각에 대한 증폭, 감쇄 및 지연 중 적어도 하나를 수행하는 단계를 포함하는 것을 특징으로 하는 입체 음향 재생 방법.Performing at least one of amplification, attenuation, and delay for each of the replicated acoustic signals based on at least one of a gain value and a delay value corresponding to each of the speakers to which the replicated acoustic signals are to be output. A stereo reproduction method characterized by the above-mentioned.
  9. 제1항에 있어서, The method of claim 1,
    상기 청취자의 머리 위치를 실시간으로 추적하는 단계를 더 포함하고,Tracking the position of the head of the listener in real time;
    상기 가상 음원을 소정의 위치에 정위시키는 단계는, 상기 추적된 청취자의 머리 위치에 기초하여 상기 그룹에 포함된 스피커들 중 적어도 하나의 스피커의 이득 및 위상 지연 값을 변경하는 단계를 포함하는 것을 특징으로 하는 입체 음향 재생 방법.Positioning the virtual sound source at a predetermined position includes changing a gain and phase delay value of at least one of the speakers included in the group based on the tracked listener's head position. Stereo playback method.
  10. 복수의 스피커들을 하나의 그룹으로 그룹화하는 그룹화부;A grouping unit for grouping the plurality of speakers into one group;
    음향 신호를 입력 받는 수신부;Receiving unit for receiving a sound signal;
    상기 그룹화 된 복수의 스피커들을 이용하여 상기 음향 신호의 하나 이상의 가상 음원을 소정의 위치에 정위시키는 렌더링부; 및A rendering unit for positioning one or more virtual sound sources of the sound signal at a predetermined position by using the grouped speakers; And
    상기 가상 음원을 상기 복수의 스피커들을 통해 재생하는 재생부를 포함하는 입체 음향 재생 장치.And a reproducing unit reproducing the virtual sound source through the plurality of speakers.
  11. 제10항에 있어서, 상기 그룹화부는,The method of claim 10, wherein the grouping unit,
    하나의 홈씨어터 시스템을 구성하는 스피커 및 상기 홈씨어터 시스템을 구성하지 않는 별도의 라우드 스피커를 상기 하나의 그룹에 포함시키는 것을 특징으로 하는 입체 음향 재생 장치.And a loudspeaker constituting one home theater system and a separate loudspeaker not constituting the home theater system in the one group.
  12. 제10항에 있어서, 상기 홈씨어터 시스템은,The method of claim 10, wherein the home theater system,
    복수의 라우드 스피커를 선형으로 연결한 라우드 스피커 어레이(Loudspeaker Array)인 것을 특징으로 하는 입체 음향 재생 장치.And a loudspeaker array in which a plurality of loudspeakers are linearly connected.
  13. 제10항에 있어서, 상기 그룹화부는,The method of claim 10, wherein the grouping unit,
    물리적으로 떨어져 있는 상기 복수의 스피커들을 무선 또는 유선 네트워크를 통해 연결하는 것을 특징으로 하는 입체 음향 재생 장치.And connecting the plurality of physically separated speakers through a wireless or wired network.
  14. 제10항에 있어서, 상기 렌더링부는,The method of claim 10, wherein the rendering unit,
    상기 입력 받은 음향 신호를 음장 합성 렌더링(Wave Field Synthesis)방식으로 가상 음상을 소정의 위치에 정위시키는 것을 특징으로 하는 입체 음향 재생 장치.And reproducing the virtual sound image at a predetermined position by using the received sound signal by a wave field synthesis rendering method.
  15. 제10항에 있어서, 상기 렌더링부는,The method of claim 10, wherein the rendering unit,
    상기 그룹에 포함된 스피커들로부터 발생하는 스윗 스팟 내에서의 제1음압과 상기 소정의 위치에 존재하는 가상 음원으로부터 발생하는 상기 스윗 스팟 내에서의 제2음압의 차이를 최소화 시킬 수 있는 상기 그룹에 포함된 스피커 별 음압 신호를 결정하고, 상기 결정된 스피커 별 음압 신호에 기초하여 상기 입력 받은 음향 신호를 변조하는 것을 특징으로 하는 입체 음향 재생 장치.In the group capable of minimizing the difference between the first sound pressure in the sweet spot generated from the speakers included in the group and the second sound pressure in the sweet spot generated from the virtual sound source present in the predetermined position And determining a sound pressure signal for each speaker included, and modulating the input sound signal based on the determined sound pressure signal for each speaker.
  16. 제15항에 있어서, 상기 렌더링부는,The method of claim 15, wherein the rendering unit,
    상기 그룹에 포함된 스피커 별로 인가해야 하는 임펄스 응답을 결정하고, 상기 그룹에 포함된 스피커 별로 입력되는 음향 신호에 상기 결정된 임펄스 응답을 컨볼루션하는 것을 특징으로 하는 입체 음향 재생 장치.And determining an impulse response to be applied for each speaker included in the group, and convolving the determined impulse response to an acoustic signal input for each speaker included in the group.
  17. 제10항에 있어서, 상기 렌더링부는,The method of claim 10, wherein the rendering unit,
    상기 입력 받은 음향 신호를 소정의 고도에 대응하는 필터에 통과시키는 필터링부;A filtering unit which passes the input sound signal to a filter corresponding to a predetermined altitude;
    상기 필터링된 음향 신호를 복제하여 복수 개의 음향 신호들을 생성하는 복제부; 및A replica unit generating a plurality of sound signals by copying the filtered sound signal; And
    상기 복제된 음향 신호들이 출력될 스피커들 각각에 해당하는 이득 값 및 지연 값 중 적어도 하나에 기초하여 상기 복제된 음향 신호들 각각에 대한 증폭, 감쇄 및 지연 중 적어도 하나를 수행하는 증폭부를 포함하는 것을 특징으로 하는 입체 음향 재생 장치.And an amplifier configured to perform at least one of amplification, attenuation, and delay for each of the replicated acoustic signals based on at least one of a gain value and a delay value corresponding to each of the speakers to which the replicated acoustic signals are output. Stereo playback device characterized in that.
  18. 제10항에 있어서,The method of claim 10,
    상기 청취자의 머리 위치를 실시간으로 추적하는 청취자 추적부를 더 포함하고,Further comprising a listener tracker for tracking the position of the head of the listener in real time,
    상기 렌더링부는, 상기 추적된 청취자의 머리 위치에 기초하여 상기 그룹에 포함된 스피커들 중 적어도 하나의 스피커의 이득 및 위상 지연 값을 변경하는 것을 특징으로 하는 입체 음향 재생 장치.And the rendering unit changes a gain and a phase delay value of at least one of the speakers included in the group based on the tracked head position of the listener.
  19. 제 1항 내지 9항 중 어느 한 항에서 수행되는 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium having recorded thereon a program for executing the method of any one of claims 1 to 9 on a computer.
PCT/KR2015/005253 2015-05-26 2015-05-26 Method and device for 3d sound playback WO2016190460A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/KR2015/005253 WO2016190460A1 (en) 2015-05-26 2015-05-26 Method and device for 3d sound playback
KR1020177029777A KR102357293B1 (en) 2015-05-26 2015-05-26 Stereophonic sound reproduction method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2015/005253 WO2016190460A1 (en) 2015-05-26 2015-05-26 Method and device for 3d sound playback

Publications (1)

Publication Number Publication Date
WO2016190460A1 true WO2016190460A1 (en) 2016-12-01

Family

ID=57393245

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/005253 WO2016190460A1 (en) 2015-05-26 2015-05-26 Method and device for 3d sound playback

Country Status (2)

Country Link
KR (1) KR102357293B1 (en)
WO (1) WO2016190460A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111343556A (en) * 2020-03-11 2020-06-26 费迪曼逊多媒体科技(上海)有限公司 Sound system combining traditional sound reinforcement, holographic sound reinforcement and electronic sound cover and using method thereof
CN117156348A (en) * 2023-06-30 2023-12-01 惠州中哲尚蓝柏科技有限公司 Stereo combined sound box for home theater and control method thereof

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102023400B1 (en) * 2018-07-02 2019-09-23 주식회사 이엠텍 Wearable sound convertor
WO2021049704A1 (en) * 2019-09-10 2021-03-18 주식회사 신안정보통신 Horizontal array type sound reproduction apparatus and system using plane wave synthesis technique
KR20230105188A (en) * 2022-01-03 2023-07-11 삼성전자주식회사 Apparatus and method for extending 7-channel audio using wireless transmission

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090054802A (en) * 2007-11-27 2009-06-01 한국전자통신연구원 Apparatus and method for reproducing surround wave field using wave field synthesis
KR20100062773A (en) * 2008-12-02 2010-06-10 한국전자통신연구원 Apparatus for playing audio contents
KR20140017682A (en) * 2011-07-01 2014-02-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 System and method for adaptive audio signal generation, coding and rendering
KR20140025268A (en) * 2012-08-21 2014-03-04 한국전자통신연구원 System and method for reappearing sound field using sound bar
KR20140093578A (en) * 2013-01-15 2014-07-28 한국전자통신연구원 Audio signal procsessing apparatus and method for sound bar

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090054802A (en) * 2007-11-27 2009-06-01 한국전자통신연구원 Apparatus and method for reproducing surround wave field using wave field synthesis
KR20100062773A (en) * 2008-12-02 2010-06-10 한국전자통신연구원 Apparatus for playing audio contents
KR20140017682A (en) * 2011-07-01 2014-02-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 System and method for adaptive audio signal generation, coding and rendering
KR20140025268A (en) * 2012-08-21 2014-03-04 한국전자통신연구원 System and method for reappearing sound field using sound bar
KR20140093578A (en) * 2013-01-15 2014-07-28 한국전자통신연구원 Audio signal procsessing apparatus and method for sound bar

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111343556A (en) * 2020-03-11 2020-06-26 费迪曼逊多媒体科技(上海)有限公司 Sound system combining traditional sound reinforcement, holographic sound reinforcement and electronic sound cover and using method thereof
CN117156348A (en) * 2023-06-30 2023-12-01 惠州中哲尚蓝柏科技有限公司 Stereo combined sound box for home theater and control method thereof
CN117156348B (en) * 2023-06-30 2024-02-09 惠州中哲尚蓝柏科技有限公司 Stereo combined sound box for home theater and control method thereof

Also Published As

Publication number Publication date
KR20180012744A (en) 2018-02-06
KR102357293B1 (en) 2022-01-28

Similar Documents

Publication Publication Date Title
US5459790A (en) Personal sound system with virtually positioned lateral speakers
US6144747A (en) Head mounted surround sound system
US5661812A (en) Head mounted surround sound system
US5841879A (en) Virtually positioned head mounted surround sound system
US5272757A (en) Multi-dimensional reproduction system
WO2018182274A1 (en) Audio signal processing method and device
US7333622B2 (en) Dynamic binaural sound capture and reproduction
Valimaki et al. Assisted listening using a headset: Enhancing audio perception in real, augmented, and virtual environments
JP4584416B2 (en) Multi-channel audio playback apparatus for speaker playback using virtual sound image capable of position adjustment and method thereof
US20080056517A1 (en) Dynamic binaural sound capture and reproduction in focued or frontal applications
KR100878457B1 (en) Sound image localizer
WO2018056780A1 (en) Binaural audio signal processing method and apparatus
WO2016190460A1 (en) Method and device for 3d sound playback
WO2015147532A2 (en) Sound signal rendering method, apparatus and computer-readable recording medium
US20110038484A1 (en) device for and a method of processing audio data
US20070009120A1 (en) Dynamic binaural sound capture and reproduction in focused or frontal applications
WO2011139090A2 (en) Method and apparatus for reproducing stereophonic sound
WO2015147619A1 (en) Method and apparatus for rendering acoustic signal, and computer-readable recording medium
JP2003032776A (en) Reproduction system
US20220345845A1 (en) Method, Systems and Apparatus for Hybrid Near/Far Virtualization for Enhanced Consumer Surround Sound
JP2018110366A (en) 3d sound video audio apparatus
US20230247384A1 (en) Information processing device, output control method, and program
WO2016182184A1 (en) Three-dimensional sound reproduction method and device
US10440495B2 (en) Virtual localization of sound
EP0549836B1 (en) Multi-dimensional sound reproduction system

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15893412

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20177029777

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15893412

Country of ref document: EP

Kind code of ref document: A1