WO2019147041A1 - Method for generating binaural stereo audio and apparatus therefor - Google Patents

Method for generating binaural stereo audio and apparatus therefor Download PDF

Info

Publication number
WO2019147041A1
WO2019147041A1 PCT/KR2019/001019 KR2019001019W WO2019147041A1 WO 2019147041 A1 WO2019147041 A1 WO 2019147041A1 KR 2019001019 W KR2019001019 W KR 2019001019W WO 2019147041 A1 WO2019147041 A1 WO 2019147041A1
Authority
WO
WIPO (PCT)
Prior art keywords
layer
binaural
output
dimensional
stereo
Prior art date
Application number
PCT/KR2019/001019
Other languages
French (fr)
Korean (ko)
Inventor
구본희
Original Assignee
구본희
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구본희 filed Critical 구본희
Publication of WO2019147041A1 publication Critical patent/WO2019147041A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present invention relates to a technique for generating binaural stereo audio, and more particularly, to a technique for generating a binaural stereo audio that can be reproduced in general by combining binaural output based on a three-dimensional layer and audio output based on a plane layer .
  • contents including multichannel audio signals such as 7.1 channel, 10.2 channel, 11.1 channel and 22.2 channel more than 5.1 channel is increasing.
  • user terminals possessed by users using contents can reproduce audio signals in stereo form, such as stereo speakers, headphones and earphones, high-quality multi-channel audio signals need to be converted into stereo-type audio signals .
  • Korean Patent Laid-Open No. 10-2015-0013073 discloses a technique related to " binaural rendering method and apparatus for multi-channel audio signal ".
  • a binaural stereo audio generating method comprising: generating a 3D layer binaural output by performing 3D layer binaural encoding corresponding to a 3D binaural layer; Performing audio processing corresponding to a planar layer to produce a planar layer audio output; And combining the three-dimensional layer binaural output and the planar layer audio output to produce a binaural stereo output.
  • the plane layer performs a surround layer binaural encoding to generate a surround layer binaural output, a surround layer that provides the generated surround layer binaural output to the plane layer audio output, And a proximity stereo layer for generating the plane layer audio output corresponding to the stereo signal.
  • the three-dimensional layer binaural output corresponds to a three-dimensional vector for a binaural point located on an eight-channel-based three-dimensional cubic (Cubic) composed of four up channels and four down channels Lt; / RTI >
  • generating a binaural stereo output comprises applying a three-dimensional weight to the three-dimensional layer binaural output, applying a plane weight to the planar layer audio output, wherein the three-dimensional weight and the plane weight They can be set independently of each other.
  • the step of generating a binaural stereo output may include adding the sub-woofer output corresponding to the sub-woofer layer together with the three-dimensional layer binaural output and the planar layer audio output to generate the binaural stereo output have.
  • the cubic cubic can be generated by changing the positions of the eight dynamic speakers corresponding to the vertexes of the cubic cubic, corresponding to the size parameters for the 3D binaural layer.
  • the three-dimensional vector is included in the three-dimensional cubic, and can be generated based on a reference listening point corresponding to the center of the two-dimensional plane corresponding to the surround layer.
  • the generating of the 3D layer binaural output may include generating the 3D layer binaural output by applying direction information of the 3D vector to the 3D cubic that is rotated according to the head tracking information,
  • the head tracking information may be obtained corresponding to at least one of a tracking input based on a head tracking module and a user input based on a user interface.
  • the cubic cubic can be rotated corresponding to the rotation parameter of at least one of pan, tilt, and roll.
  • planar layer may be located between the four up channels and the four down channels.
  • the apparatus for generating binaural stereo audio may perform a three-dimensional layer binaural encoding corresponding to a three-dimensional binaural layer to generate a three-dimensional layer binaural output,
  • the plane layer performs a surround layer binaural encoding to generate a surround layer binaural output, a surround layer that provides the generated surround layer binaural output to the plane layer audio output, And a proximity stereo layer for generating the plane layer audio output corresponding to the stereo signal.
  • the three-dimensional layer binaural output corresponds to a three-dimensional vector for a binaural point located on an eight-channel-based three-dimensional cubic (Cubic) composed of four up channels and four down channels Lt; / RTI >
  • the processor applies a three-dimensional weight to the three-dimensional layer binaural output, applies a plane weight to the plane layer audio output, and the three-dimensional weight and the plane weight may be set independently of each other.
  • the processor may generate the binaural stereo output by summing the sub-woofer output corresponding to the sub-woofer layer with the three-dimensional layer binaural output and the planar layer audio output.
  • the cubic cubic can be generated by changing the positions of the eight dynamic speakers corresponding to the vertexes of the cubic cubic, corresponding to the size parameters for the 3D binaural layer.
  • the three-dimensional vector is included in the three-dimensional cubic, and can be generated based on a reference listening point corresponding to the center of the two-dimensional plane corresponding to the surround layer.
  • the processor applies the direction information of the three-dimensional vector to the rotated cubic bikes corresponding to the head tracking information to generate the three-dimensional layer binaural output, wherein the head tracking information is based on the head tracking module A tracking input, and a user input based on a user interface.
  • the cubic cubic can be rotated corresponding to the rotation parameter of at least one of pan, tilt, and roll.
  • planar layer may be located between the four up channels and the four down channels.
  • the present invention can provide a binaural engine which can easily adjust or adjust a sound element for generating an effective binaural effect.
  • the present invention can improve compatibility with various kinds of contents based on natural upmix and downmix.
  • FIG. 1 is a view illustrating a structure of a binaural engine according to an embodiment of the present invention.
  • FIG. 2 is a view showing a structure of a conventional binaural engine.
  • FIG. 3 is a block diagram illustrating a binaural stereo audio generating apparatus according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating a detailed structure for generating a three-dimensional layer binaural output according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating an example of an 8-channel based three-dimensional cubic according to the present invention.
  • FIG. 6 is a diagram illustrating an example of 3D cubic with various sizes generated by changing the positions of dynamic speakers according to the present invention.
  • FIG. 7 is a diagram showing an example of a three-dimensional vector according to the present invention.
  • FIG. 8 is a diagram illustrating an example of applying direction information of a three-dimensional vector to rotated cubic cubes corresponding to head tracking information according to the present invention.
  • FIG. 9 is a diagram showing an example of a rotation parameter according to the present invention.
  • FIG. 10 illustrates a detailed structure for generating a surround layer binaural output according to an exemplary embodiment of the present invention.
  • FIG. 11 is a diagram illustrating an example of a 5-channel based surround layer according to the present invention.
  • FIG. 12 is a diagram illustrating a detailed structure for generating a stereo signal according to an embodiment of the present invention.
  • FIG. 13 to 14 are views showing an example of a proximity stereo layer according to the present invention.
  • 15 is a diagram illustrating an example of a plane layer positioned between an up channel and a down channel of a three-dimensional cubic according to the present invention.
  • 16 to 17 are views showing an example of a proximity stereo layer used as a part of a channel of the surround layer according to the present invention.
  • FIG. 18 is a diagram illustrating a detailed structure for generating a subwoofer output according to an embodiment of the present invention.
  • FIG. 19 is a view showing an example of a structure of a combination of a 3D binaural layer, a plane layer, and a sub-woofer layer according to the present invention.
  • 20 is a diagram showing an example of a sound represented by a conventional binaural engine.
  • 21 is a view showing an example of a sound represented by the binaural engine according to the present invention.
  • 22 is a flowchart illustrating a method of generating binaural stereo audio according to an embodiment of the present invention.
  • FIG. 1 is a view showing a structure of a binaural engine according to an embodiment of the present invention
  • FIG. 2 is a view showing a structure of a conventional binaural engine.
  • a conventional binaural engine decodes a binaural encoded binaural output for a multi-channel audio file through a binaural encoder 210 through a dedicated player 220 to provide.
  • the binaural encoding according to the related art uses a fixed speaker disposed at a certain distance from the listening position, it is difficult to adjust the position of the speaker to increase or decrease the image of the space.
  • the conventional binaural engine is an engine specialized for content including both video and audio like surround movie contents.
  • the binaurally encoded content can be reproduced only by using the dedicated player 220, the efficiency may be reduced in terms of utilization. For example, it is necessary to deliver sufficient loudness to the listener according to the characteristics of the music contents.
  • the binaural encoder 210 shown in FIG. 2 has a limitation in providing a sound effect optimized for music contents.
  • the conventional binaural engine uses only one encoder specialized for the effect mainly used according to the contents, it is impossible to apply various effects to the production. For example, since music contents often do not use subwoofers in nature, it has been rarely attempted to provide a bass reproduction element according to a subwoofer to music contents through a conventional binaural engine.
  • the binaural engine according to an embodiment of the present invention shown in FIG. 1 mixes output including various binaural sound effects and output from audio processing to include more dramatic directing It is possible to generate an internal stereo output.
  • binaural encoding is performed with a binaural encoder 111 corresponding to a multi-channel three-dimensional binaural layer 110 as shown in FIG. 1 to generate a three-dimensional layer binaural output .
  • binaural encoding may be performed with the binaural encoder 121 corresponding to the surround layer 120 to generate a surround layer binaural output.
  • the stereo bus 131 corresponding to the proximity stereo layer 130 may generate an audio output corresponding to the stereo signal. It is also possible to generate the subwoofer output on the LFE bus 141, which corresponds to the subwoofer layer 140.
  • the respective outputs that is, the three-dimensional layer binaural output, the surround layer binaural output, the audio output corresponding to the stereo signal, and the sub-woofer output are summed through the binaural mixer 150, Output can be generated.
  • the binaural stereo output coupled through the binaural mixer 150 can be output to the listener or user in a reproducible form via the general-purpose decoder.
  • the binaural engine according to the present invention mixes outputs from various encoders to generate binaural stereo audio, so that the binaural engine can be used in a general form not specific to specific contents, Compatibility can be provided.
  • a 3D layer binaural output, a stereo output, and a subwoofer output together with a surround layer binaural output that can be generated based on the motion of an object included in the image It is possible to provide a more dramatic sound production.
  • music content that includes audio only, it provides dynamic music by mixing a stereo output or a subwoofer output with a 3D layer binaural output based on a 3D binaural layer You may.
  • FIG. 3 is a block diagram illustrating a binaural stereo audio generating apparatus according to an embodiment of the present invention.
  • the apparatus for generating binaural stereo audio includes a communication unit 310, a processor 320, and a memory 330.
  • the communication unit 310 transmits and receives information necessary for generating binaural stereo audio through a communication network such as a network.
  • the communication unit 310 receives the source or content that can be input for generating binaural stereo audio, head tracking information to be applied for binaural encoding, and information related to user input, It can provide binaural stereo audio equivalent to an in-built stereo output.
  • the processor 320 performs three-dimensional layer binaural encoding corresponding to the three-dimensional binaural layer to generate a three-dimensional layer binaural output.
  • a binaural encoder 420 corresponding to a three-dimensional cubic method may be used to generate a three-dimensional binaural layer, Dimensional layer binaural encoding corresponding to a plurality of channels included in the binaural layer.
  • the 3D binaural layer may include four up channels 411 and four down channels 412 corresponding to 8-channel based cubic cubes.
  • the three-dimensional layer binaural output 430 may correspond to an output generated by binaural encoding the 8-channel based audio, and may be output corresponding to 2 channels as shown in FIG.
  • the two channels corresponding to the three-dimensional layer binaural output 430 may correspond to the left channel and the right channel, respectively.
  • the 3-dimensional binaural layer may not be limited thereto. That is, the binaural engine or the binaural engine according to an embodiment of the present invention may include another usable three-dimensional binaural layer or a three-dimensional binaural layer to be developed in the future.
  • the three-dimensional layer binaural output corresponds to a three-dimensional vector for a binaural point located on an eight-channel-based three-dimensional cubic (Cubic) composed of four up channels and four down channels Lt; / RTI >
  • an 8-channel based three-dimensional cubic may include four dynamic speakers 511 to 514 corresponding to four up channels and four dynamic speakers corresponding to four down channels (515 to 518) may be a hexahedron structure.
  • the positions of the eight dynamic speakers 511 to 518 can be changed, the range of the binaural effect caused by the three-dimensional cubic can also be changed dynamically.
  • an immersive sound may be implemented with eight dynamic speakers by generating three-dimensional cubic using a conventional binaural Vbap (Vector base amplitude panning) scheme. That is, a position value for X, Y, and Z is given to each of the eight dynamic speakers, and a vector-based virtual track point based on the center of cubic cubic can be expressed. At this time, the virtual track point can be represented corresponding to the parameter value included in the head tracking information.
  • Vbap Vector base amplitude panning
  • the 3D cubic can be generated by changing the position of the eight dynamic speakers corresponding to the vertices of the 3D cubic by changing the size parameter for the 3D binaural layer. That is, it is possible to efficiently generate three-dimensional cubic by changing the position of dynamic speakers of the variable system rather than the fixed system freely according to the size parameter.
  • the 3D cubic bins 610, 620, and 630 having various ranges as shown in FIG. 6 can be generated.
  • the three-dimensional vector is included in the three-dimensional cubic and can be generated based on the reference listening point corresponding to the center of the two-dimensional plane corresponding to the surround layer.
  • a reference listening point 700 which virtually expresses the position of a user or a listener listening to binaural stereo audio, is composed of a three-dimensional cubic 710 having eight dynamic speakers as vertices, But may be located at a center portion on the surround layer 720.
  • the binaural point 730 is located on the upper surface of the cubic 710, as shown in FIG. 7, a three-dimensional vector 740 corresponding to the three-dimensional layer binaural output 7 in the direction from the reference listening point 700 shown in FIG. 7 to the binaural point 730.
  • the surround layer 720 corresponds to an element for creating a surround image corresponding to a surround effect. In FIG. 7, But it may not be limited to a planar shape.
  • the binaural point 730 when the binaural point 730 is located on the 3D cubic 710 higher than the surround layer 720 where the reference listening point 700 is located, Can be formed at the top of the. Also, when the binaural point 730 is located on the three-dimensional cubic 710 lower than the surround layer 720 where the reference listening point 700 is located, the output sound may be formed at the bottom of the listener.
  • the direction information of the three-dimensional vector can be applied to the rotated cubic by corresponding to the head tracking information to generate the three-dimensional layer binaural output. That is, since the binaural point is set based on the listener's head corresponding to the reference listening point, the position of the binaural point on the cubic bicycle can also be changed if the listener's head position or angle is changed.
  • the 3D cubic 710 shown in FIG. 7 is rotated as shown in FIG. 8 in accordance with the head tracking information.
  • the direction information of the three-dimensional vector 740 shown in FIG. 7 can be directly applied to the three-dimensional cubic as shown in FIG. 8 to detect the position of the changed binaural point according to the rotation.
  • the head tracking information corresponds to data obtained by tracking the head movement of the user or listener, and may be obtained corresponding to at least one of a tracking input based on a separate head tracking module and a user input based on the user interface.
  • the head tracking module can measure the distance or angle of movement of the user's head and generate and transmit the head tracking information.
  • the head tracking information may be artificially provided by the user or the listener through the user interface. That is, the user or the listener may input the head tracking information based on the user interface regardless of whether the head tracking information is received by the head tracking module in order to artificially rotate the spatial image. At this time, the user or the listener may input and modify the head tracking information while listening to the mixing process of generating the binaural stereo output or the binaural stereo output varying according to the inputted information.
  • the cubic cubic can be rotated corresponding to the rotation parameter of at least one of pan, tilt, and roll.
  • the listener rotates the head corresponding to at least one of pan, tilt, and roll as shown in FIG. 9, the value is obtained as a rotation parameter, .
  • the effect of rotating the three-dimensional cubic according to the head tracking information or moving it in the up, down, left, and right directions can be mixed with the flat layer audio output in the future to generate the binaural stereo output. Therefore, it is possible to produce an immersive effect based on head tracking more efficiently than a conventional method of rotating or moving a surround layer, a proximity stereo layer, a sub-woofer layer, or the like corresponding to a flat layer.
  • the processor 320 performs audio processing corresponding to the plane layer to produce a plane layer audio output.
  • the planar layer corresponds to a layer having a structure different from that of the three-dimensional binaural layer, and may correspond to an element that produces an image corresponding to a surround effect or a stereo effect.
  • the plane layer performs a surround layer binaural encoding to generate a surround layer binaural output, a surround layer to provide the generated surround layer binaural output as a plane layer audio output, and a surround layer to provide a stereo signal Or a proximity stereo layer that produces a corresponding flat layer audio output.
  • a binaural encoder 1020 may be used to perform surround layer binaural encoding corresponding to a 5-channel or 7-channel 1010 surround layer.
  • two channels corresponding to a proximity stereo layer may be included in the surround layer to perform 7-channel based surround layer binaural encoding.
  • the surround layer may correspond to a structure including five speakers 1111 to 1115, for example, as shown in Fig.
  • the surround layer binaural output 1030 may correspond to a binaural point located on the surround layer. If the listener is listening to a sound at a reference listening point located at the center of the surround layer, the surround layer binaural output 1030 is binaurally encoded as if it were sounding at a binaural point on the surround layer, Can be generated.
  • the surround layer binaural output 1030 may be output corresponding to two channels as shown in FIG.
  • the two channels corresponding to the surround layer binaural output 1030 may correspond to the left channel and the right channel, respectively.
  • the channel of the surround layer is not limited to five channels or seven channels (1010).
  • the surround layer is shown in a rectangular plane shape, but it is not limited thereto and can be expressed in various forms such as a line thickness, a planar shape, and a distance from a reference listening point.
  • audio processing may be performed corresponding to the proximity stereo layer of the two channels 1210 based on a Stereo Bus 1220. That is, a stereo signal 1230 corresponding to a plane layer audio output may correspond to an output produced by processing 2-channel 1210 based stereo audio, and may be output corresponding to two channels.
  • the proximity stereo layer corresponds to an element for producing a stereo image corresponding to the stereo effect, and may be included as a part of the surround layer.
  • a surround stereo layer corresponding to two speakers 1311, 1312, 1411 and 1412 on a surround layer based on five speakers is included so that a total of seven Or a layer structure including speakers.
  • the proximity stereo layer may be disposed at a distance from the reference listening point 1300 located on the surround layer.
  • a proximity stereo layer may be used as the left and right side speakers of the reference listening point 1400.
  • the stereo signal output corresponding to the proximity stereo layer can provide a damping feeling that is difficult to produce with spatial parameters used in binaural encoding.
  • the binaural stereo output according to an embodiment of the present invention may provide a damping feeling while providing an immersive effect by binaural encoding.
  • a planar layer audio output corresponding to a surround layer binaural output or a planar layer audio output corresponding to a stereo signal can be used for output corresponding to an output containing only a different sound effect Lt; / RTI > That is, the plane layer audio output may include various values other than the output corresponding to the three-dimensional layer, rather than the three-dimensional layer binaural output.
  • the planar layer may be located between four up channels and four down channels corresponding to cubic cubic.
  • the planar layers 1510 to 1530 include four up-channels included in a cubic cubic corresponding to a three-dimensional binaural layer and four down- May be located between the channels.
  • the four up channels may correspond to four speakers located at the top of the cubic cubic
  • the four down channels may correspond to the four speakers located at the bottom of the cubic cubic.
  • the flat layers 1510 to 1530 may be located within a height range of a hexahedron corresponding to cubic cubic.
  • each of the speakers included in the surround layer or the adjacent stereo layer corresponding to the flat layers 1510 to 1530 may be located between the four up channels included in the 3D cubic and the four down channels .
  • the flat layers 1510 to 1530 are shown in the form of planes for convenience of explanation in FIG. 15, but the shape of the planar layers according to an embodiment of the present invention may not be limited to the planar form.
  • FIGS. 16 and 17 show a structure in which the three-dimensional cubic and the flat layer 1610 corresponding to the three-dimensional binaural layer are viewed from above, respectively.
  • the speaker of the proximity stereo layer included in the flat layer 1610 1622 and 1622 are also located between the up channel and the down channel of the cubic cubic.
  • the processor 320 combines the three-dimensional layer binaural output and the planar layer audio output to produce a binaural stereo output. That is, by mixing an immersive element by a three-dimensional layer binaural output and a near-playback element and an object element by a flat layer audio output, a binaural stereo output capable of generating a binaural effect can be generated have.
  • a binaural stereo output may be generated using only a three-dimensional layer binaural output.
  • the subwoofer output corresponding to the subwoofer layer can be added together with the three-dimensional layer binaural output and the planar layer audio output to generate a binaural stereo output.
  • the subwoofer outputs it is possible to maximize the immersive effect corresponding to the binaural stereo output, and to produce a dynamic bass reproduction element.
  • a single channel or two-channel 1810 signal included in a sub-woofer layer may be processed based on an LFE bus (Low Frequency Effects Bus) 1820. That is, the subwoofer output 1830 may correspond to an output produced by processing a single channel or two channel (1810) based audio, and may correspond to a single channel or two channels as shown in FIG.
  • LFE bus Low Frequency Effects Bus
  • the subwoofer layer may correspond to a single channel, such as 5.1 channel, 7.1 channel and 11.1 channel, or may correspond to two channels, such as 10.2 channel and 22.2 channel.
  • the sub-woofer layer can be located separately from the three-dimensional cubic or planar layer corresponding to the three-dimensional binaural layer.
  • the sub-woofer layer 1940 is located at a distance from the three-dimensional cubic 1910, the surround layer 1920, and the proximity stereo layer 1930 corresponding to the three-dimensional binaural layer Can be located.
  • the structure shown in FIG. 19 corresponds to an embodiment, and is not limited to a structure in which respective layers are combined.
  • the three-dimensional weight can be applied to the three-dimensional layer binaural output
  • the plane weight can be applied to the plane layer audio output
  • the three-dimensional weight and the plane weight can be set independently of each other. That is, it is possible to generate a more dramatic binaural stereo output by adjusting the size of the layer-by-layer output and then performing the mixing, thereby maximizing the binaural effect.
  • the present invention can support natural upmix and downmix functions based on the processor 320 having the above-described functions, it is possible to improve compatibility between contents supporting various kinds of sounds. For example, you can downmix a surround image represented by three-dimensional cubic into a surround layer. Also, the surround layer may be downmixed back to the adjacent stereo layer. As described above, by downmixing based on the area, the sound quality of the sound can be preserved more effectively.
  • the memory 330 stores the 3D layer binaural output and the plane layer audio output.
  • the memory 330 stores various information generated in the process of generating the binaural stereo audio according to an embodiment of the present invention, as described above.
  • the memory 330 may be configured independently of the binaural stereo audio generation device to support the binaural stereo audio generation function. At this time, the memory 330 may operate as a separate mass storage and may include a control function for performing operations.
  • a binaural stereo audio generating apparatus can store information in a memory on which a memory is mounted.
  • the memory is a computer-readable medium.
  • the memory may be a volatile memory unit, and in other embodiments, the memory may be a non-volatile memory unit.
  • the storage device is a computer-readable medium.
  • the storage device may include, for example, a hard disk device, an optical disk device, or any other mass storage device.
  • Such a binaural stereo audio generator can maximize the binaural effect by mixing various sound elements.
  • compatibility with various kinds of contents can be improved based on natural upmix and downmix.
  • FIG. 20 is a view showing an example of a sound represented by a conventional binaural engine
  • FIG. 21 is a view illustrating an example of a sound represented by a binaural engine according to the present invention.
  • a binaural mix method using a conventional binaural engine has a limitation in expressing the proximity of sound.
  • binaural mixing corresponds to providing a spatial image of sound, so there is no way to control the volume of sound to represent the proximity of sound through binaural mixing.
  • Vbap Vector base amplitude panning
  • the binaural engine according to the present invention mixes the flat layer audio output generated using the surround layer 2110 and the proximity stereo layer 2120 in addition to the three-dimensional binaural layer . That is, in the conventional binaural engine, the proximity expression of the sound, which is controlled only by the volume of the sound, can be controlled through the surround layer binaural output and the stereo signal.
  • the engineer can express the actual sound direction 2130 corresponding to the intended sound direction 2010. That is, by transmitting the reference listening point 2100, it is possible to produce a sound that seems to be transmitted through the listener's body.
  • 22 is a flowchart illustrating a method of generating binaural stereo audio according to an embodiment of the present invention.
  • a binaural stereo audio generating method performs three-dimensional layer binaural encoding corresponding to a three-dimensional binaural layer to generate a three-dimensional layer binaural output (S2210).
  • a binaural encoder 420 corresponding to a three-dimensional cubic method may be used to generate a three-dimensional binaural layer, Dimensional layer binaural encoding corresponding to a plurality of channels included in the binaural layer.
  • the 3D binaural layer may include four up channels 411 and four down channels 412 corresponding to 8-channel based cubic cubes.
  • the three-dimensional layer binaural output 430 may correspond to an output generated by binaural encoding the 8-channel based audio, and may be output corresponding to 2 channels as shown in FIG.
  • the two channels corresponding to the three-dimensional layer binaural output 430 may correspond to the left channel and the right channel, respectively.
  • the 3-dimensional binaural layer may not be limited thereto. That is, the binaural engine or the binaural engine according to an embodiment of the present invention may include another usable three-dimensional binaural layer or a three-dimensional binaural layer to be developed in the future.
  • the three-dimensional layer binaural output corresponds to a three-dimensional vector for a binaural point located on an eight-channel-based three-dimensional cubic (Cubic) composed of four up channels and four down channels Lt; / RTI >
  • an 8-channel based three-dimensional cubic may include four dynamic speakers 511 to 514 corresponding to four up channels and four dynamic speakers corresponding to four down channels (515 to 518) may be a hexahedron structure.
  • the positions of the eight dynamic speakers 511 to 518 can be changed, the range of the binaural effect caused by the three-dimensional cubic can also be changed dynamically.
  • an immersive sound may be implemented with eight dynamic speakers by generating three-dimensional cubic using a conventional binaural Vbap (Vector base amplitude panning) scheme. That is, a position value for X, Y, and Z is given to each of the eight dynamic speakers, and a vector-based virtual track point based on the center of cubic cubic can be expressed. At this time, the virtual track point can be represented corresponding to the parameter value included in the head tracking information.
  • Vbap Vector base amplitude panning
  • the 3D cubic can be generated by changing the position of the eight dynamic speakers corresponding to the vertices of the 3D cubic by changing the size parameter for the 3D binaural layer. That is, it is possible to efficiently generate three-dimensional cubic by changing the position of dynamic speakers of the variable system rather than the fixed system freely according to the size parameter.
  • the 3D cubic bins 610, 620, and 630 having various ranges as shown in FIG. 6 can be generated.
  • the three-dimensional vector is included in the three-dimensional cubic and can be generated based on the reference listening point corresponding to the center of the two-dimensional plane corresponding to the surround layer.
  • a reference listening point 700 which virtually expresses the position of a user or a listener listening to binaural stereo audio, is composed of a three-dimensional cubic 710 having eight dynamic speakers as vertices, But may be located at a center portion on the surround layer 720.
  • the binaural point 730 is located on the upper surface of the cubic 710, as shown in FIG. 7, a three-dimensional vector 740 corresponding to the three-dimensional layer binaural output 7 in the direction from the reference listening point 700 shown in FIG. 7 to the binaural point 730.
  • the surround layer 720 corresponds to an element for creating a surround image corresponding to a surround effect. In FIG. 7, But it may not be limited to a planar shape.
  • the binaural point 730 when the binaural point 730 is located on the 3D cubic 710 higher than the surround layer 720 where the reference listening point 700 is located, Can be formed at the top of the. Also, when the binaural point 730 is located on the three-dimensional cubic 710 lower than the surround layer 720 where the reference listening point 700 is located, the output sound may be formed at the bottom of the listener.
  • the direction information of the three-dimensional vector can be applied to the rotated cubic by corresponding to the head tracking information to generate the three-dimensional layer binaural output. That is, since the binaural point is set based on the listener's head corresponding to the reference listening point, the position of the binaural point on the cubic bicycle can also be changed if the listener's head position or angle is changed.
  • the 3D cubic 710 shown in FIG. 7 is rotated as shown in FIG. 8 in accordance with the head tracking information.
  • the direction information of the three-dimensional vector 740 shown in FIG. 7 can be directly applied to the three-dimensional cubic as shown in FIG. 8 to detect the position of the changed binaural point according to the rotation.
  • the head tracking information corresponds to data obtained by tracking the head movement of the user or the listener, and may be input through a separate head tracking module or a user interface.
  • the head tracking module can measure the distance or angle of movement of the user's head and generate and transmit the head tracking information.
  • head tracking information may be artificially assigned by a user or a listener. That is, the user or the listener may input the head tracking information based on the user interface irrespective of whether the head tracking information is received by the head tracking module to artificially rotate the spatial image. At this time, the user or the listener may input and modify the head tracking information while listening to the mixing process of generating the binaural stereo output or the binaural stereo output varying according to the inputted information.
  • the cubic cubic can be rotated corresponding to the rotation parameter of at least one of pan, tilt, and roll.
  • the listener rotates the head corresponding to at least one of pan, tilt, and roll as shown in FIG. 9, the value is obtained as a rotation parameter, .
  • the effect of rotating the three-dimensional cubic according to the head tracking information or moving it in the up, down, left, and right directions can be mixed with the flat layer audio output in the future to generate the binaural stereo output. Therefore, it is possible to produce an immersive effect based on head tracking more efficiently than a conventional method of rotating or moving a surround layer, a proximity stereo layer, a sub-woofer layer, or the like corresponding to a flat layer.
  • audio processing corresponding to a plane layer is performed to generate a plane layer audio output (S2220).
  • the planar layer corresponds to a layer having a structure different from that of the three-dimensional binaural layer, and may correspond to an element that produces an image corresponding to a surround effect or a stereo effect.
  • the plane layer performs a surround layer binaural encoding to generate a surround layer binaural output, a surround layer to provide the generated surround layer binaural output as a plane layer audio output, and a surround layer to provide a stereo signal Or a proximity stereo layer that produces a corresponding flat layer audio output.
  • a binaural encoder 1020 may be used to perform surround layer binaural encoding corresponding to a 5-channel or 7-channel 1010 surround layer.
  • two channels corresponding to a proximity stereo layer may be included in the surround layer to perform 7-channel based surround layer binaural encoding.
  • the surround layer may correspond to a structure including five speakers 1111 to 1115, for example, as shown in Fig.
  • the surround layer binaural output 1030 may correspond to a binaural point located on the surround layer. If the listener is listening to a sound at a reference listening point located at the center of the surround layer, the surround layer binaural output 1030 is binaurally encoded as if it were sounding at a binaural point on the surround layer, Can be generated.
  • the surround layer binaural output 1030 may be output corresponding to two channels as shown in FIG.
  • the two channels corresponding to the surround layer binaural output 1030 may correspond to the left channel and the right channel, respectively.
  • the channel of the surround layer is not limited to five channels or seven channels (1010).
  • the surround layer is shown in a rectangular plane shape, but it is not limited thereto and can be expressed in various forms such as a line thickness, a planar shape, and a distance from a reference listening point.
  • a stereo signal 1230 corresponding to a plane layer audio output may correspond to an output produced by processing 2-channel 1210 based stereo audio, and may be output corresponding to two channels.
  • the proximity stereo layer corresponds to an element for producing a stereo image corresponding to the stereo effect, and may be included as a part of the surround layer.
  • a surround stereo layer corresponding to two speakers 1311, 1312, 1411 and 1412 on a surround layer based on five speakers is included so that a total of seven Or a layer structure including speakers.
  • the proximity stereo layer may be disposed at a distance from the reference listening point 1300 located on the surround layer.
  • a proximity stereo layer may be used as the left and right side speakers of the reference listening point 1400.
  • the stereo signal output corresponding to the proximity stereo layer can provide a damping feeling that is difficult to produce with spatial parameters used in binaural encoding.
  • the binaural stereo output according to an embodiment of the present invention may provide a damping feeling while providing an immersive effect by binaural encoding.
  • a planar layer audio output corresponding to a surround layer binaural output or a planar layer audio output corresponding to a stereo signal can be used for output corresponding to an output containing only a different sound effect Lt; / RTI > That is, the plane layer audio output may include various values other than the output corresponding to the three-dimensional layer, rather than the three-dimensional layer binaural output.
  • the planar layer may be located between four up channels and four down channels corresponding to cubic cubic.
  • the planar layers 1510 to 1530 include four up-channels included in a cubic cubic corresponding to a three-dimensional binaural layer and four down- May be located between the channels.
  • the four up channels may correspond to four speakers located at the top of the cubic cubic
  • the four down channels may correspond to the four speakers located at the bottom of the cubic cubic.
  • the flat layers 1510 to 1530 may be located within a height range of a hexahedron corresponding to cubic cubic.
  • each of the speakers included in the surround layer or the adjacent stereo layer corresponding to the flat layers 1510 to 1530 may be located between the four up channels included in the 3D cubic and the four down channels .
  • the flat layers 1510 to 1530 are shown in the form of planes for convenience of explanation in FIG. 15, but the shape of the planar layers according to an embodiment of the present invention may not be limited to the planar form.
  • FIGS. 16 and 17 show a structure in which the three-dimensional cubic and the flat layer 1610 corresponding to the three-dimensional binaural layer are viewed from above, respectively.
  • the speaker of the proximity stereo layer included in the flat layer 1610 1622 and 1622 are also located between the up channel and the down channel of the cubic cubic.
  • the binaural stereo audio generation method combines the 3D layer binaural output and the plane layer audio output to generate a binaural stereo output (S2230). That is, by mixing an immersive element by a three-dimensional layer binaural output and a near-playback element and an object element by a flat layer audio output, a binaural stereo output capable of generating a binaural effect can be generated have.
  • a binaural stereo output may be generated using only a three-dimensional layer binaural output.
  • the subwoofer output corresponding to the subwoofer layer can be added together with the three-dimensional layer binaural output and the planar layer audio output to generate a binaural stereo output.
  • the subwoofer outputs it is possible to maximize the immersive effect corresponding to the binaural stereo output, and to produce a dynamic bass reproduction element.
  • a single channel or two-channel 1810 signal included in a sub-woofer layer may be processed based on an LFE bus (Low Frequency Effects Bus) 1820. That is, the subwoofer output 1830 may correspond to an output produced by processing a single channel or two channel (1810) based audio, and may correspond to a single channel or two channels as shown in FIG.
  • LFE bus Low Frequency Effects Bus
  • the subwoofer layer may correspond to a single channel, such as 5.1 channel, 7.1 channel and 11.1 channel, or may correspond to two channels, such as 10.2 channel and 22.2 channel.
  • the sub-woofer layer can be located separately from the three-dimensional cubic or planar layer corresponding to the three-dimensional binaural layer.
  • the sub-woofer layer 1940 is located at a distance from the three-dimensional cubic 1910, the surround layer 1920, and the proximity stereo layer 1930 corresponding to the three-dimensional binaural layer Can be located.
  • the structure shown in FIG. 19 corresponds to an embodiment, and is not limited to a structure in which respective layers are combined.
  • the three-dimensional weight can be applied to the three-dimensional layer binaural output
  • the plane weight can be applied to the plane layer audio output
  • the three-dimensional weight and the plane weight can be set independently of each other. That is, it is possible to generate a more dramatic binaural stereo output by adjusting the size of the layer-by-layer output and then performing the mixing, thereby maximizing the binaural effect.
  • the present invention can support natural upmix and downmix functions based on the above-described functions, compatibility between contents supporting various kinds of sounds can be improved. For example, you can downmix a surround image represented by three-dimensional cubic into a surround layer. Also, the surround layer may be downmixed back to the adjacent stereo layer. As described above, by downmixing based on the area, the sound quality of the sound can be preserved more effectively.
  • the method for generating binaural stereo audio can transmit and receive information necessary for generating binaural stereo audio through a communication network such as a network. Particularly, it is possible to receive head tracking information, information related to a user input or contents to be applied with a binaural effect, and provide a binaural stereo output according to an embodiment of the present invention.
  • the method of generating binaural stereo audio according to an embodiment of the present invention may include generating binaural stereo audio according to an embodiment of the present invention, Various information is stored.
  • embodiments of the invention may be embodied in a computer-implemented method or in a non-volatile computer readable medium having recorded thereon instructions executable by the computer.
  • instructions readable by a computer are executed by a processor, the instructions readable by the computer are capable of performing at least one aspect of the invention.
  • the method and apparatus for generating binaural stereo audio according to the present invention are not limited to the above-described embodiments, and various modifications may be made to the embodiments. All or some of the embodiments may be selectively combined.
  • the present invention relates to a binaural stereo audio generating method and apparatus therefor, and it is possible to generate binaural stereo audio capable of maximizing a binaural effect by mixing various sound elements,
  • the present invention provides a binaural engine that can easily adjust or adjust a sound element for generating a sound, and can improve compatibility with various kinds of contents based on natural upmix and downmix, thereby contributing to the development of industry.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

A method for generating a binaural stereo audio and an apparatus therefor are disclosed. A method for generating a binaural stereo audio, according to one embodiment of the present invention, comprises the steps of: generating a three-dimensional layer binaural output by performing three-dimensional layer binaural encoding corresponding to a three-dimensional binaural layer; generating a plane layer audio output by performing audio processing corresponding to a plane layer; and generating a binaural stereo output by mixing the three-dimensional layer binaural output with the plane layer audio output.

Description

바이노럴 스테레오 오디오 생성 방법 및 이를 위한 장치Method and apparatus for generating binaural stereo audio
본 발명은 바이노럴 스테레오 오디오를 생성하는 기술에 관한 것으로, 특히 3차원 레이어에 기반한 바이노럴 출력과 평면 레이어에 기반한 오디오 출력을 합쳐서 범용적으로 재생 가능한 바이노럴 스테레오 오디오를 생성하는 기술에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a technique for generating binaural stereo audio, and more particularly, to a technique for generating a binaural stereo audio that can be reproduced in general by combining binaural output based on a three-dimensional layer and audio output based on a plane layer .
본 발명은 2018년 1월 29일 출원된 한국특허출원 제10-2018-0010874호의 출원일의 이익을 주장하며, 그 내용 전부는 본 명세서에 포함된다.The present invention claims the benefit of Korean Patent Application No. 10-2018-0010874 filed on January 29, 2018, the entire contents of which are incorporated herein by reference.
멀티미디어 기술이 향상되면서, 5.1 채널보다 많은 7.1 채널, 10.2 채널, 11.1 채널, 22.2 채널 등의 다채널 오디오 신호를 포함하는 컨텐츠의 사용이 증가하고 있다. 그러나, 컨텐츠를 이용하는 사용자들이 소지하고 있는 사용자 단말들은 대체로 스테레오 스피커나 헤드폰, 이어폰과 같이 스테레오 형태의 오디오 신호를 재생할 수 있기 때문에 고품질의 다채널 오디오 신호는 스테레오 형태의 오디오 신호로 변환될 필요가 있다.With the improvement of multimedia technology, the use of contents including multichannel audio signals such as 7.1 channel, 10.2 channel, 11.1 channel and 22.2 channel more than 5.1 channel is increasing. However, since user terminals possessed by users using contents can reproduce audio signals in stereo form, such as stereo speakers, headphones and earphones, high-quality multi-channel audio signals need to be converted into stereo-type audio signals .
이와 관련하여, 한국 공개 특허 제10-2015-0013073호는 "다채널 오디오 신호의 바이노럴 렌더링 방법 및 장치"와 관련된 기술을 개시하고 있다.In this regard, Korean Patent Laid-Open No. 10-2015-0013073 discloses a technique related to " binaural rendering method and apparatus for multi-channel audio signal ".
본 발명의 목적은 다양한 사운드 요소를 믹스함으로써 바이노럴 효과를 극대화할 수 있는 바이노럴 스테레오 오디오를 생성하기 위한 방법을 제공하는 것이다.It is an object of the present invention to provide a method for generating binaural stereo audio capable of maximizing the binaural effect by mixing various sound elements.
또한, 본 발명의 목적은 효과적인 바이노럴 효과를 생성하기 위한 사운드 요소를 쉽게 가감하거나 조절할 수 있는 바이노럴 엔진을 제공하는 것이다.It is also an object of the present invention to provide a binaural engine which can easily adjust or adjust a sound element for generating an effective binaural effect.
또한, 본 발명의 목적은 자연스러운 업 믹스 및 다운 믹스를 기반으로 다양한 종류의 컨텐츠들과의 호환성을 향상시키는 것이다.It is also an object of the present invention to improve compatibility with various kinds of contents based on natural upmix and downmix.
상기한 목적을 달성하기 위한 본 발명에 따른 바이노럴 스테레오 오디오 생성 방법은 3차원 바이노럴 레이어에 상응하는 3차원 레이어 바이노럴 인코딩을 수행하여 3차원 레이어 바이노럴 출력을 생성하는 단계; 평면 레이어에 상응하는 오디오 프로세싱을 수행하여 평면 레이어 오디오 출력을 생성하는 단계; 및 상기 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 합하여 바이노럴 스테레오 출력을 생성하는 단계를 포함한다.According to another aspect of the present invention, there is provided a binaural stereo audio generating method comprising: generating a 3D layer binaural output by performing 3D layer binaural encoding corresponding to a 3D binaural layer; Performing audio processing corresponding to a planar layer to produce a planar layer audio output; And combining the three-dimensional layer binaural output and the planar layer audio output to produce a binaural stereo output.
이 때, 평면 레이어는 서라운드 레이어 바이노럴 인코딩을 수행하여 서라운드 레이어 바이노럴 출력을 생성하고, 생성된 상기 서라운드 레이어 바이노럴 출력을 상기 평면 레이어 오디오 출력으로 제공하는 서라운드 레이어 및 스테레오 신호를 입력 받아서 상기 스테레오 신호에 상응하는 상기 평면 레이어 오디오 출력을 생성하는 근접용 스테레오 레이어 중 어느 하나일 수 있다.At this time, the plane layer performs a surround layer binaural encoding to generate a surround layer binaural output, a surround layer that provides the generated surround layer binaural output to the plane layer audio output, And a proximity stereo layer for generating the plane layer audio output corresponding to the stereo signal.
이 때, 3차원 레이어 바이노럴 출력은 4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic) 상에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성될 수 있다.At this time, the three-dimensional layer binaural output corresponds to a three-dimensional vector for a binaural point located on an eight-channel-based three-dimensional cubic (Cubic) composed of four up channels and four down channels Lt; / RTI >
이 때, 바이노럴 스테레오 출력을 생성하는 단계는 3차원 가중치를 상기 3차원 레이어 바이노럴 출력에 적용하고, 평면 가중치를 상기 평면 레이어 오디오 출력에 적용하고, 상기 3차원 가중치 및 상기 평면 가중치는 서로 독립적으로 설정될 수 있다.Wherein generating a binaural stereo output comprises applying a three-dimensional weight to the three-dimensional layer binaural output, applying a plane weight to the planar layer audio output, wherein the three-dimensional weight and the plane weight They can be set independently of each other.
이 때, 바이노럴 스테레오 출력을 생성하는 단계는 서브우퍼 레이어에 상응하는 서브우퍼 출력을 상기 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력과 함께 합산하여 상기 바이노럴 스테레오 출력을 생성할 수 있다.At this time, the step of generating a binaural stereo output may include adding the sub-woofer output corresponding to the sub-woofer layer together with the three-dimensional layer binaural output and the planar layer audio output to generate the binaural stereo output have.
이 때, 3차원 큐빅은 상기 3차원 큐빅의 꼭지점에 해당하는 8개의 동적 스피커들의 위치를 상기 3차원 바이노럴 레이어에 대한 크기 파라미터에 상응하게 변경하여 생성될 수 있다.In this case, the cubic cubic can be generated by changing the positions of the eight dynamic speakers corresponding to the vertexes of the cubic cubic, corresponding to the size parameters for the 3D binaural layer.
이 때, 3차원 벡터는 상기 3차원 큐빅의 내부에 포함되고, 상기 서라운드 레이어에 상응하는 2차원 평면의 중심에 해당하는 기준 청취점을 기준으로 생성될 수 있다.At this time, the three-dimensional vector is included in the three-dimensional cubic, and can be generated based on a reference listening point corresponding to the center of the two-dimensional plane corresponding to the surround layer.
이 때, 3차원 레이어 바이노럴 출력을 생성하는 단계는 상기 3차원 벡터의 방향 정보를 헤드 트래킹 정보에 상응하게 회전된 상기 3차원 큐빅에 적용하여 상기 3차원 레이어 바이노럴 출력을 생성하되, 상기 헤드 트래킹 정보는 헤드 트래킹 모듈에 기반한 트래킹 입력 및 사용자 인터페이스에 기반한 사용자 입력 중 적어도 하나에 상응하게 획득될 수 있다.The generating of the 3D layer binaural output may include generating the 3D layer binaural output by applying direction information of the 3D vector to the 3D cubic that is rotated according to the head tracking information, The head tracking information may be obtained corresponding to at least one of a tracking input based on a head tracking module and a user input based on a user interface.
이 때, 3차원 큐빅은 팬(Pan), 틸트(tilt) 및 롤(roll) 중 적어도 하나의 회전 파라미터에 상응하게 회전될 수 있다.At this time, the cubic cubic can be rotated corresponding to the rotation parameter of at least one of pan, tilt, and roll.
이 때, 평면 레이어는 상기 4개의 업 채널들과 상기 4개의 다운채널들 사이에 위치할 수 있다.At this time, the planar layer may be located between the four up channels and the four down channels.
또한, 본 발명의 일실시예에 따른 바이노럴 스테레오 오디오 생성 장치는, 3차원 바이노럴 레이어에 상응하는 3차원 레이어 바이노럴 인코딩을 수행하여 3차원 레이어 바이노럴 출력을 생성하고, 평면 레이어에 상응하는 오디오 프로세싱을 수행하여 평면 레이어 오디오 출력을 생성하고, 상기 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 합하여 바이노럴 스테레오 출력을 생성하는 프로세서; 및 상기 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 저장하는 메모리를 포함한다.In addition, the apparatus for generating binaural stereo audio according to an embodiment of the present invention may perform a three-dimensional layer binaural encoding corresponding to a three-dimensional binaural layer to generate a three-dimensional layer binaural output, A processor for performing audio processing corresponding to the layer to produce a planar layer audio output, and summing the three-dimensional layer binaural output and the planar layer audio output to produce a binaural stereo output; And a memory for storing the 3D layer binaural output and the plane layer audio output.
이 때, 평면 레이어는 서라운드 레이어 바이노럴 인코딩을 수행하여 서라운드 레이어 바이노럴 출력을 생성하고, 생성된 상기 서라운드 레이어 바이노럴 출력을 상기 평면 레이어 오디오 출력으로 제공하는 서라운드 레이어 및 스테레오 신호를 입력 받아서 상기 스테레오 신호에 상응하는 상기 평면 레이어 오디오 출력을 생성하는 근접용 스테레오 레이어 중 어느 하나일 수 있다.At this time, the plane layer performs a surround layer binaural encoding to generate a surround layer binaural output, a surround layer that provides the generated surround layer binaural output to the plane layer audio output, And a proximity stereo layer for generating the plane layer audio output corresponding to the stereo signal.
이 때, 3차원 레이어 바이노럴 출력은 4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic) 상에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성될 수 있다.At this time, the three-dimensional layer binaural output corresponds to a three-dimensional vector for a binaural point located on an eight-channel-based three-dimensional cubic (Cubic) composed of four up channels and four down channels Lt; / RTI >
이 때, 프로세서는 3차원 가중치를 상기 3차원 레이어 바이노럴 출력에 적용하고, 평면 가중치를 상기 평면 레이어 오디오 출력에 적용하고, 상기 3차원 가중치 및 상기 평면 가중치는 서로 독립적으로 설정될 수 있다.At this time, the processor applies a three-dimensional weight to the three-dimensional layer binaural output, applies a plane weight to the plane layer audio output, and the three-dimensional weight and the plane weight may be set independently of each other.
이 때, 프로세서는 서브우퍼 레이어에 상응하는 서브우퍼 출력을 상기 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력과 함께 합산하여 상기 바이노럴 스테레오 출력을 생성할 수 있다.At this time, the processor may generate the binaural stereo output by summing the sub-woofer output corresponding to the sub-woofer layer with the three-dimensional layer binaural output and the planar layer audio output.
이 때, 3차원 큐빅은 상기 3차원 큐빅의 꼭지점에 해당하는 8개의 동적 스피커들의 위치를 상기 3차원 바이노럴 레이어에 대한 크기 파라미터에 상응하게 변경하여 생성될 수 있다.In this case, the cubic cubic can be generated by changing the positions of the eight dynamic speakers corresponding to the vertexes of the cubic cubic, corresponding to the size parameters for the 3D binaural layer.
이 때, 3차원 벡터는 상기 3차원 큐빅의 내부에 포함되고, 상기 서라운드 레이어에 상응하는 2차원 평면의 중심에 해당하는 기준 청취점을 기준으로 생성될 수 있다.At this time, the three-dimensional vector is included in the three-dimensional cubic, and can be generated based on a reference listening point corresponding to the center of the two-dimensional plane corresponding to the surround layer.
이 때, 프로세서는 상기 3차원 벡터의 방향 정보를 헤드 트래킹 정보에 상응하게 회전된 상기 3차원 큐빅에 적용하여 상기 3차원 레이어 바이노럴 출력을 생성하되, 상기 헤드 트래킹 정보는 헤드 트래킹 모듈에 기반한 트래킹 입력 및 사용자 인터페이스에 기반한 사용자 입력 중 적어도 하나에 상응하게 획득될 수 있다.At this time, the processor applies the direction information of the three-dimensional vector to the rotated cubic bikes corresponding to the head tracking information to generate the three-dimensional layer binaural output, wherein the head tracking information is based on the head tracking module A tracking input, and a user input based on a user interface.
이 때, 3차원 큐빅은 팬(Pan), 틸트(tilt) 및 롤(roll) 중 적어도 하나의 회전 파라미터에 상응하게 회전될 수 있다.At this time, the cubic cubic can be rotated corresponding to the rotation parameter of at least one of pan, tilt, and roll.
이 때, 평면 레이어는 상기 4개의 업 채널들과 상기 4개의 다운채널들 사이에 위치할 수 있다.At this time, the planar layer may be located between the four up channels and the four down channels.
본 발명에 따르면, 다양한 사운드 요소를 믹스함으로써 바이노럴 효과를 극대화할 수 있는 바이노럴 스테레오 오디오를 생성하기 위한 방법을 제공할 수 있다According to the present invention, it is possible to provide a method for generating binaural stereo audio capable of maximizing the binaural effect by mixing various sound elements
또한, 본 발명은 효과적인 바이노럴 효과를 생성하기 위한 사운드 요소를 쉽게 가감하거나 조절할 수 있는 바이노럴 엔진을 제공할 수 있다.In addition, the present invention can provide a binaural engine which can easily adjust or adjust a sound element for generating an effective binaural effect.
또한, 본 발명은 자연스러운 업 믹스 및 다운 믹스를 기반으로 다양한 종류의 컨텐츠들과의 호환성을 향상시킬 수 있다.In addition, the present invention can improve compatibility with various kinds of contents based on natural upmix and downmix.
도 1은 본 발명의 일실시예에 따른 바이노럴 엔진의 구조를 나타낸 도면이다.1 is a view illustrating a structure of a binaural engine according to an embodiment of the present invention.
도 2는 종래의 바이노럴 엔진의 구조를 나타낸 도면이다.2 is a view showing a structure of a conventional binaural engine.
도 3은 본 발명의 일실시예에 따른 바이노럴 스테레오 오디오 생성 장치를 나타낸 블록도이다.3 is a block diagram illustrating a binaural stereo audio generating apparatus according to an embodiment of the present invention.
도 4는 본 발명의 일실시예에 따른 3차원 레이어 바이노럴 출력을 생성하는 상세한 구조를 나타낸 도면이다.4 is a diagram illustrating a detailed structure for generating a three-dimensional layer binaural output according to an embodiment of the present invention.
도 5는 본 발명에 따른 8채널 기반의 3차원 큐빅(Cubic)의 일 예를 나타낸 도면이다.FIG. 5 is a diagram illustrating an example of an 8-channel based three-dimensional cubic according to the present invention.
도 6은 본 발명에 따른 동적 스피커들의 위치를 변경하여 생성되는 다양한 크기의 3차원 큐빅의 일 예를 나타낸 도면이다.6 is a diagram illustrating an example of 3D cubic with various sizes generated by changing the positions of dynamic speakers according to the present invention.
도 7는 본 발명에 따른 3차원 벡터의 일 예를 나타낸 도면이다.7 is a diagram showing an example of a three-dimensional vector according to the present invention.
도 8은 본 발명에 따른 헤드 트래킹 정보에 상응하게 회전된 3차원 큐빅에 3차원 벡터의 방향 정보를 적용한 일 예를 나타낸 도면이다.FIG. 8 is a diagram illustrating an example of applying direction information of a three-dimensional vector to rotated cubic cubes corresponding to head tracking information according to the present invention.
도 9는 본 발명에 따른 회전 파라미터의 일 예를 나타낸 도면이다.9 is a diagram showing an example of a rotation parameter according to the present invention.
도 10은 본 발명의 일실시예에 따른 서라운드 레이어 바이노럴 출력을 생성하는 상세한 구조를 나타낸 도면이다.FIG. 10 illustrates a detailed structure for generating a surround layer binaural output according to an exemplary embodiment of the present invention. Referring to FIG.
도 11은 본 발명에 5채널 기반의 서라운드 레이어의 일 예를 나타낸 도면이다.11 is a diagram illustrating an example of a 5-channel based surround layer according to the present invention.
도 12는 본 발명의 일실시예에 따른 스테레오 신호를 생성하는 상세한 구조를 나타낸 도면이다.12 is a diagram illustrating a detailed structure for generating a stereo signal according to an embodiment of the present invention.
도 13 내지 도 14는 본 발명에 따른 근접용 스테레오 레이어의 일 예를 나타낸 도면이다.13 to 14 are views showing an example of a proximity stereo layer according to the present invention.
도 15는 본 발명에 따른 3차원 큐빅의 업채널과 다운채널 사이에 위치하는 평면 레이어의 일 예를 나타낸 도면이다.15 is a diagram illustrating an example of a plane layer positioned between an up channel and a down channel of a three-dimensional cubic according to the present invention.
도 16 내지 도 17은 본 발명에 따른 서라운드 레이어의 일부 채널로 이용되는 근접용 스테레오 레이어의 일 예를 나타낸 도면이다.16 to 17 are views showing an example of a proximity stereo layer used as a part of a channel of the surround layer according to the present invention.
도 18은 본 발명의 일실시예에 따른 서브우퍼 출력을 생성하는 상세한 구조를 나타낸 도면이다.18 is a diagram illustrating a detailed structure for generating a subwoofer output according to an embodiment of the present invention.
도 19는 본 발명에 따른 3차원 바이노럴 레이어, 평면 레이어 및 서브우퍼 레이어를 합한 구조의 일 예를 나타낸 도면이다.FIG. 19 is a view showing an example of a structure of a combination of a 3D binaural layer, a plane layer, and a sub-woofer layer according to the present invention.
도 20은 종래의 바이노럴 엔진을 통해 표현되는 사운드의 일 예를 나타낸 도면이다.20 is a diagram showing an example of a sound represented by a conventional binaural engine.
도 21은 본 발명에 따른 바이노럴 엔진을 통해 표현되는 사운드의 일 예를 나타낸 도면이다.21 is a view showing an example of a sound represented by the binaural engine according to the present invention.
도 22는 본 발명의 일실시예에 따른 바이노럴 스테레오 오디오 생성 방법을 나타낸 동작흐름도이다.22 is a flowchart illustrating a method of generating binaural stereo audio according to an embodiment of the present invention.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.The present invention will now be described in detail with reference to the accompanying drawings. Hereinafter, a repeated description, a known function that may obscure the gist of the present invention, and a detailed description of the configuration will be omitted. Embodiments of the present invention are provided to more fully describe the present invention to those skilled in the art. Accordingly, the shapes and sizes of the elements in the drawings and the like can be exaggerated for clarity.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일실시예에 따른 바이노럴 엔진의 구조를 나타낸 도면이고, 도 2는 종래의 바이노럴 엔진의 구조를 나타낸 도면이다.FIG. 1 is a view showing a structure of a binaural engine according to an embodiment of the present invention, and FIG. 2 is a view showing a structure of a conventional binaural engine.
먼저, 도 2를 참조하면, 종래의 바이노럴 엔진은 바이노럴 인코더(210)를 통해 다채널의 오디오 파일에 대해 바이노럴 인코딩된 바이노럴 출력을 전용 플레이어(220)를 통해 디코딩하여 제공한다. 이 때, 종래 기술에 따른 바이노럴 인코딩은 리스닝 포지션(listening position)으로부터 일정 거리 떨어진 곳에 배치된 고정 스피커를 이용하기 때문에 스피커의 위치를 조절하여 공간의 이미지를 증감시키는데에 어려움이 따른다. Referring to FIG. 2, a conventional binaural engine decodes a binaural encoded binaural output for a multi-channel audio file through a binaural encoder 210 through a dedicated player 220 to provide. In this case, since the binaural encoding according to the related art uses a fixed speaker disposed at a certain distance from the listening position, it is difficult to adjust the position of the speaker to increase or decrease the image of the space.
또한, 종래의 바이노럴 엔진은 서라운드 영화 컨텐츠와 같이 영상과 오디오가 함께 포함된 컨텐츠에 특화된 엔진으로, 음악 컨텐츠와 같이 공간 이미지가 존재하지 않는 소스의 경우에는 바이노럴 엔진을 적용하기 난해한 문제점이 있다. 또한, 전용 플레이어(220)를 사용해야만 바이노럴 인코딩된 컨텐츠 재생이 가능하기 때문에 활용적인 측면에서 효율성이 떨어질 수 있다. 예를 들어, 음악 컨텐츠의 특성상 청취자에게 충분한 라우드니스(loudness)를 전달해주어야 하지만, 도 2에 도시된 것이 바이노럴 인코더(210)만 이용해서는 음악 컨텐츠에 최적화된 음향 효과를 제공하는데 한계가 있다. In addition, the conventional binaural engine is an engine specialized for content including both video and audio like surround movie contents. In the case of a source in which there is no spatial image such as music contents, it is difficult to apply binaural engine . In addition, since the binaurally encoded content can be reproduced only by using the dedicated player 220, the efficiency may be reduced in terms of utilization. For example, it is necessary to deliver sufficient loudness to the listener according to the characteristics of the music contents. However, the binaural encoder 210 shown in FIG. 2 has a limitation in providing a sound effect optimized for music contents.
또한, 종래의 바이노럴 엔진은, 컨텐츠에 따라 주로 활용되는 효과에 특화된 하나의 인코더만을 이용하기 때문에 다양한 방식의 연출 효과를 적용하는 것이 불가능했다. 예를 들어, 음악 컨텐츠에 대해서는 특성상 서브우퍼를 사용하지 않는 경우가 많기 때문에, 종래의 바이노럴 엔진을 통해 음악 컨텐츠에 서브우퍼에 따른 저음 재생 요소를 제공하는 연출은 거의 시도되지 않았다. In addition, since the conventional binaural engine uses only one encoder specialized for the effect mainly used according to the contents, it is impossible to apply various effects to the production. For example, since music contents often do not use subwoofers in nature, it has been rarely attempted to provide a bass reproduction element according to a subwoofer to music contents through a conventional binaural engine.
이에 반해, 도 1에 도시된 본 발명의 일실시예에 따른 바이노럴 엔진은 다양한 바이노럴 음향 효과를 포함하는 출력과 오디오 프로세싱에 의한 출력을 믹싱(mixing)하여 보다 극적인 연출을 포함하는 바이노럴 스테레오 출력을 생성할 수 있다. In contrast, the binaural engine according to an embodiment of the present invention shown in FIG. 1 mixes output including various binaural sound effects and output from audio processing to include more dramatic directing It is possible to generate an internal stereo output.
예를 들어, 도 1에 도시된 것처럼 다채널의 3차원 바이노럴 레이어(110)에 상응하는 바이노럴 인코더(111)로 바이노럴 인코딩을 수행하여 3차원 레이어 바이노럴 출력을 생성할 수 있다. 또한, 서라운드 레이어(120)에 상응하는 바이노럴 인코더(121)로 바이노럴 인코딩을 수행하여 서라운드 레이어 바이노럴 출력을 생성할 수 있다. 또한, 근접용 스테레오 레이어(130)에 상응하는 스테레오 버스(131)로 스테레오 신호에 상응하는 오디오 출력을 생성할 수 있다. 또한, 서브우퍼 레이어(140)에 상응하는 LFE 버스(141)로 서브우퍼 출력을 생성할 수 있다. 이 후, 바이노럴 믹서(150)를 통해 각각의 출력, 즉 3차원 레이어 바이노럴 출력, 서라운드 레이어 바이노럴 출력, 스테레오 신호에 상응하는 오디오 출력 및 서브우퍼 출력을 합산하여 바이노럴 스테레오 출력을 생성할 수 있다. 이 때, 바이노럴 믹서(150)를 통해 결합된 바이노럴 스테레오 출력은 범용 디코더를 통해 재생 가능한 형태로 청취자 또는 사용자에게 출력될 수 있다. For example, binaural encoding is performed with a binaural encoder 111 corresponding to a multi-channel three-dimensional binaural layer 110 as shown in FIG. 1 to generate a three-dimensional layer binaural output . In addition, binaural encoding may be performed with the binaural encoder 121 corresponding to the surround layer 120 to generate a surround layer binaural output. In addition, the stereo bus 131 corresponding to the proximity stereo layer 130 may generate an audio output corresponding to the stereo signal. It is also possible to generate the subwoofer output on the LFE bus 141, which corresponds to the subwoofer layer 140. Thereafter, the respective outputs, that is, the three-dimensional layer binaural output, the surround layer binaural output, the audio output corresponding to the stereo signal, and the sub-woofer output are summed through the binaural mixer 150, Output can be generated. At this time, the binaural stereo output coupled through the binaural mixer 150 can be output to the listener or user in a reproducible form via the general-purpose decoder.
이와 같이, 본 발명에 따른 바이노럴 엔진은 다양한 인코더에 의한 출력을 믹싱하여 바이노럴 스테레오 오디오를 생성하기 때문에 특정 컨텐츠에 특화되지 않은 범용적 형태로 사용될 수 있으며, 종래의 컨텐츠들에 대해서도 높은 호환성이 제공될 수 있다. As described above, the binaural engine according to the present invention mixes outputs from various encoders to generate binaural stereo audio, so that the binaural engine can be used in a general form not specific to specific contents, Compatibility can be provided.
예를 들어, 영상과 오디오가 함께 포함된 영화 컨텐츠의 경우, 영상에 포함된 객체의 움직임에 기반하여 생성 가능한 서라운드 레이어 바이노럴 출력과 함께 3차원 레이어 바이노럴 출력, 스테레오 출력 및 서브우퍼 출력 중 적어도 하나를 혼합하여 제공함으로써 보다 극적인 사운드 연출이 가능하도록 할 수 있다. For example, in the case of movie contents including video and audio, a 3D layer binaural output, a stereo output, and a subwoofer output together with a surround layer binaural output that can be generated based on the motion of an object included in the image It is possible to provide a more dramatic sound production.
다른 예를 들어, 오디오만 포함하는 음악 컨텐츠의 경우에는 3차원 바이노럴 레이어를 기반으로 생성된 3차원 레이어 바이노럴 출력과 함께 스테레오 출력이나 서브우퍼 출력을 혼합하여 제공함으로써 다이나믹한 음악을 제공할 수도 있다.For another example, for music content that includes audio only, it provides dynamic music by mixing a stereo output or a subwoofer output with a 3D layer binaural output based on a 3D binaural layer You may.
도 3은 본 발명의 일실시예에 따른 바이노럴 스테레오 오디오 생성 장치를 나타낸 블록도이다.3 is a block diagram illustrating a binaural stereo audio generating apparatus according to an embodiment of the present invention.
도 3을 참조하면, 본 발명의 일실시예에 따른 바이노럴 스테레오 오디오 생성 장치는 통신부(310), 프로세서(320) 및 메모리(330)를 포함한다.Referring to FIG. 3, the apparatus for generating binaural stereo audio according to an exemplary embodiment of the present invention includes a communication unit 310, a processor 320, and a memory 330.
통신부(310)는 네트워크와 같은 통신망을 통해 바이노럴 스테레오 오디오 생성을 위해 필요한 정보를 송수신하는 역할을 한다. 특히, 본 발명의 일실시예에 따른 통신부(310)는 바이노럴 스테레오 오디오 생성을 위해 입력 가능한 소스 또는 컨텐츠, 바이노럴 인코딩을 위해 적용될 헤드 트래킹 정보 및 사용자 입력에 관련된 정보를 수신하고, 바이노럴 스테레오 출력에 상응하는 바이노럴 스테레오 오디오를 제공할 수 있다. The communication unit 310 transmits and receives information necessary for generating binaural stereo audio through a communication network such as a network. In particular, the communication unit 310 according to an embodiment of the present invention receives the source or content that can be input for generating binaural stereo audio, head tracking information to be applied for binaural encoding, and information related to user input, It can provide binaural stereo audio equivalent to an in-built stereo output.
프로세서(320)는 3차원 바이노럴 레이어에 상응하는 3차원 레이어 바이노럴 인코딩을 수행하여 3차원 레이어 바이노럴 출력을 생성한다.The processor 320 performs three-dimensional layer binaural encoding corresponding to the three-dimensional binaural layer to generate a three-dimensional layer binaural output.
이 때, 3차원 바이노럴 레이어는 3차원 공간 이미지를 만드는 요소에 상응하는 것으로, 예를 들어 도 4를 참조하면, 3차원 큐빅 방식에 상응하는 바이노럴 인코더(420)를 이용하여 3차원 바이노럴 레이어에 포함된 다수의 채널들에 상응하는 3차원 레이어 바이노럴 인코딩을 수행할 수 있다. Referring to FIG. 4, a binaural encoder 420 corresponding to a three-dimensional cubic method may be used to generate a three-dimensional binaural layer, Dimensional layer binaural encoding corresponding to a plurality of channels included in the binaural layer.
이 때, 3차원 바이노럴 레이어는 8채널 기반의 3차원 큐빅에 상응하는 4개의 업채널(411)과 4개의 다운채널(412)을 포함할 수 있다. In this case, the 3D binaural layer may include four up channels 411 and four down channels 412 corresponding to 8-channel based cubic cubes.
따라서, 3차원 레이어 바이노럴 출력(430)은 8채널 기반의 오디오를 바이노럴 인코딩함으로써 생성된 출력에 상응할 수 있고, 도 4에 도시된 것과 같이 2채널에 상응하게 출력될 수 있다. 또한, 3차원 레이어 바이노럴 출력(430)에 상응하는 2채널은 각각 레프트 채널과 라이트 채널에 상응할 수 있다. Accordingly, the three-dimensional layer binaural output 430 may correspond to an output generated by binaural encoding the 8-channel based audio, and may be output corresponding to 2 channels as shown in FIG. In addition, the two channels corresponding to the three-dimensional layer binaural output 430 may correspond to the left channel and the right channel, respectively.
이 때, 도 4에 도시된 실시예에서는 3차원 바이노럴 레이어로 8채널 기반의 3차원 큐빅 레이어를 사용하였으나, 3차원 바이노럴 레이어는 이에 한정되지 않을 수 있다. 즉, 본 발명의 일실시예에 따른 바이노럴 스테레오 오디오 생성 장치 또는 바이노럴 엔진은 사용 가능한 다른 3차원 바이노럴 레이어 또는 향후 개발될 3차원 바이노럴 레이어를 포함하여 구성될 수도 있다. In this case, in the embodiment shown in FIG. 4, an 8-channel based cubic layer is used as the 3-dimensional binaural layer, but the 3-dimensional binaural layer may not be limited thereto. That is, the binaural engine or the binaural engine according to an embodiment of the present invention may include another usable three-dimensional binaural layer or a three-dimensional binaural layer to be developed in the future.
이 때, 3차원 레이어 바이노럴 출력은 4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic) 상에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성될 수 있다.At this time, the three-dimensional layer binaural output corresponds to a three-dimensional vector for a binaural point located on an eight-channel-based three-dimensional cubic (Cubic) composed of four up channels and four down channels Lt; / RTI >
예를 들어, 도 5를 참조하면, 8채널 기반의 3차원 큐빅은 4개의 업채널들에 상응하는 4개의 동적 스피커들(511~514)과 4개의 다운채널들에 상응하는 4개의 동적 스피커들(515~518)을 각 꼭지점으로 하는 육면체 구조일 수 있다. 이 때, 8개의 동적 스피커들(511~518)의 위치는 변경이 가능하기 때문에 3차원 큐빅에 의해 발생하는 바이노럴 효과의 범위도 동적으로 변경할 수 있다.For example, referring to FIG. 5, an 8-channel based three-dimensional cubic may include four dynamic speakers 511 to 514 corresponding to four up channels and four dynamic speakers corresponding to four down channels (515 to 518) may be a hexahedron structure. At this time, since the positions of the eight dynamic speakers 511 to 518 can be changed, the range of the binaural effect caused by the three-dimensional cubic can also be changed dynamically.
다른 예를 들어, 기존의 바이노럴 Vbap(Vector base amplitude panning) 방식을 사용하여 3차원 큐빅을 생성함으로써 8개의 동적 스피커들로 이머시브(immersive) 사운드를 구현할 수도 있다. 즉, 8개의 동적 스피커들 각각에 대해 X, Y, Z에 대한 위치 값을 부여하되, 3차원 큐빅의 중점을 기준으로 하는 벡터 기반의 가상의 트랙 포인트(Track Point)를 표현할 수 있다. 이 때, 가상의 트랙 포인트는 헤드 트래킹 정보에 포함된 파라미터 값에 상응하게 표현될 수 있다. In another example, an immersive sound may be implemented with eight dynamic speakers by generating three-dimensional cubic using a conventional binaural Vbap (Vector base amplitude panning) scheme. That is, a position value for X, Y, and Z is given to each of the eight dynamic speakers, and a vector-based virtual track point based on the center of cubic cubic can be expressed. At this time, the virtual track point can be represented corresponding to the parameter value included in the head tracking information.
이와 같은 3차원 큐빅을 통해 오디오만 포함하는 음악 컨텐츠에 대한 공간 이미지를 생성할 수 있고, 소리의 움직임을 표현할 수 있어서 보다 입체적인 효과를 제공할 수 있다.With such three-dimensional cubic, it is possible to generate a spatial image of music contents containing only audio, and to express the movement of sound, thereby providing a more stereoscopic effect.
이 때, 3차원 큐빅은 3차원 큐빅의 꼭지점에 해당하는 8개의 동적 스피커들의 위치를 3차원 바이노럴 레이어에 대한 크기 파라미터에 상응하게 변경하여 생성될 수 있다. 즉, 고정 방식이 아닌 가변 방식의 동적 스피커들의 위치를 크기 파라미터에 상응하게 자유롭게 변경함으로써 효율적으로 3차원 큐빅을 생성할 수 있다.In this case, the 3D cubic can be generated by changing the position of the eight dynamic speakers corresponding to the vertices of the 3D cubic by changing the size parameter for the 3D binaural layer. That is, it is possible to efficiently generate three-dimensional cubic by changing the position of dynamic speakers of the variable system rather than the fixed system freely according to the size parameter.
예를 들어, 크기 파라미터를 상수로 정하고, 여기에 바이노럴 함수를 곱하는 방식으로 3차원 큐빅을 프로세싱함으로써 도 6에 도시된 것과 같이 다양한 범위를 갖는 3차원 큐빅들(610, 620, 630)을 생성할 수 있다. For example, by processing the 3D cubic by a size parameter as a constant and multiplying it by a binaural function, the 3D cubic bins 610, 620, and 630 having various ranges as shown in FIG. 6 Can be generated.
이 때, 3차원 벡터는 3차원 큐빅의 내부에 포함되고, 서라운드 레이어에 상응하는 2차원 평면의 중심에 해당하는 기준 청취점을 기준으로 생성될 수 있다.At this time, the three-dimensional vector is included in the three-dimensional cubic and can be generated based on the reference listening point corresponding to the center of the two-dimensional plane corresponding to the surround layer.
예를 들어, 도 7을 참조하면, 바이노럴 스테레오 오디오를 듣는 사용자 또는 청취자의 위치를 가상으로 표현한 기준 청취점(700)은 8개의 동적 스피커들을 각 꼭지점으로 하는 3차원 큐빅(710)의 내부에 위치하되, 서라운드 레이어(720) 상에서 중심 부분에 위치할 수 있다. 이 때, 바이노럴 포인트(730)가 도 7에 도시된 것과 같이 3차원 큐빅(710)의 상면에 위치한다고 가정하면, 3차원 레이어 바이노럴 출력에 상응하는 3차원 벡터(740)는 도 7에 도시된 기준 청취점(700)에서 바이노럴 포인트(730)를 향하는 방향으로 생성될 수 있다. For example, referring to FIG. 7, a reference listening point 700, which virtually expresses the position of a user or a listener listening to binaural stereo audio, is composed of a three-dimensional cubic 710 having eight dynamic speakers as vertices, But may be located at a center portion on the surround layer 720. [ Assuming that the binaural point 730 is located on the upper surface of the cubic 710, as shown in FIG. 7, a three-dimensional vector 740 corresponding to the three-dimensional layer binaural output 7 in the direction from the reference listening point 700 shown in FIG. 7 to the binaural point 730.
이 때, 도 10 내지 도 11을 통해 상세하게 설명하겠지만, 서라운드 레이어(720)는 서라운드 효과에 상응하는 서라운드 이미지를 만드는 요소에 상응하는 것으로, 도 7에서는 설명의 편의를 위해 서라운드 레이어(720)를 평면의 형태로 도시하였으나, 평면 형태에 한정되지 않을 수 있다. In this case, as will be described in detail with reference to FIGS. 10 to 11, the surround layer 720 corresponds to an element for creating a surround image corresponding to a surround effect. In FIG. 7, But it may not be limited to a planar shape.
이 때, 도 7에 도시된 것과 같이 3차원 큐빅(710) 상에서 바이노럴 포인트(730)가 기준 청취점(700)이 위치하는 서라운드 레이어(720)보다 높게 위치할 경우, 출력되는 소리가 청취자의 상단에 맺힐 수 있다. 또한, 3차원 큐빅(710) 상에서 바이노럴 포인트(730)가 기준 청취점(700)이 위치하는 서라운드 레이어(720)보다 낮게 위치할 경우, 출력되는 소리가 청취자의 하단에 맺힐 수도 있다.7, when the binaural point 730 is located on the 3D cubic 710 higher than the surround layer 720 where the reference listening point 700 is located, Can be formed at the top of the. Also, when the binaural point 730 is located on the three-dimensional cubic 710 lower than the surround layer 720 where the reference listening point 700 is located, the output sound may be formed at the bottom of the listener.
이와 같이, 본 발명에서는 3차원 큐빅(710)상에서 기준 청취점(700)을 기준으로 한 바이노럴 포인트(730)의 위치를 변경함으로써 보다 다양한 오디오를 연출하는 것이 가능할 수 있다. As described above, in the present invention, it is possible to produce more various audio by changing the position of the binaural point 730 based on the reference listening point 700 on the three-dimensional cubic 710.
이 때, 3차원 벡터의 방향 정보를 헤드 트래킹 정보에 상응하게 회전된 3차원 큐빅에 적용하여 3차원 레이어 바이노럴 출력을 생성할 수 있다. 즉, 바이노럴 포인트는 기준 청취점에 해당하는 청취자의 머리를 기준으로 설정된 위치이므로 청취자의 머리 위치나 각도가 변경되는 경우, 3차원 큐빅 상에서 바이노럴 포인트의 위치도 변경될 수 있다. At this time, the direction information of the three-dimensional vector can be applied to the rotated cubic by corresponding to the head tracking information to generate the three-dimensional layer binaural output. That is, since the binaural point is set based on the listener's head corresponding to the reference listening point, the position of the binaural point on the cubic bicycle can also be changed if the listener's head position or angle is changed.
예를 들어, 도 7에 도시된 3차원 큐빅(710)을 헤드 트래킹 정보에 상응하게 도 8에 도시된 것처럼 회전시켰다고 가정할 수 있다. 이 때, 도 7에 도시된 3차원 벡터(740)의 방향 정보를 그대로 도 8에 도시된 3차원 큐빅에 적용함으로써 회전에 따라 변경된 바이노럴 포인트의 위치를 검출할 수 있다. For example, it can be assumed that the 3D cubic 710 shown in FIG. 7 is rotated as shown in FIG. 8 in accordance with the head tracking information. At this time, the direction information of the three-dimensional vector 740 shown in FIG. 7 can be directly applied to the three-dimensional cubic as shown in FIG. 8 to detect the position of the changed binaural point according to the rotation.
이 때, 헤드 트래킹 정보는 사용자나 청취자의 머리 움직임을 트래킹한 데이터에 상응하는 것으로, 별도의 헤드 트래킹 모듈에 기반한 트래킹 입력 및 사용자 인터페이스에 기반한 사용자 입력 중 적어도 하나에 상응하게 획득될 수 있다.At this time, the head tracking information corresponds to data obtained by tracking the head movement of the user or listener, and may be obtained corresponding to at least one of a tracking input based on a separate head tracking module and a user input based on the user interface.
예를 들어, 사용자나 청취자가 헤드 트래킹 모듈을 직접 착용한 상태에서 머리를 움직이면, 헤드 트래킹 모듈에서 사용자의 머리가 움직인 거리나 각도 등을 측정하여 헤드 트래킹 정보로 생성하고 전송할 수 있다.For example, if a user or a listener moves his / her head while directly wearing the head tracking module, the head tracking module can measure the distance or angle of movement of the user's head and generate and transmit the head tracking information.
다른 예를 들어, 헤드 트래킹 정보는 사용자나 청취자가 사용자 인터페이스를 통해 인위적으로 부여할 수도 있다. 즉, 사용자나 청취자가 인위적으로 공간 이미지를 회전시키기 위해, 헤드 트래킹 모듈에 의한 헤드 트래킹 정보의 수신 여부와 상관없이 사용자 인터페이스를 기반으로 헤드 트래킹 정보를 입력할 수도 있다. 이 때, 사용자나 청취자는 바이노럴 스테레오 출력을 생성하는 믹싱과정 또는 입력되는 정보에 따라 변화하는 바이노럴 스테레오 출력을 청취하면서 헤드 트래킹 정보를 입력 및 수정할 수도 있다.As another example, the head tracking information may be artificially provided by the user or the listener through the user interface. That is, the user or the listener may input the head tracking information based on the user interface regardless of whether the head tracking information is received by the head tracking module in order to artificially rotate the spatial image. At this time, the user or the listener may input and modify the head tracking information while listening to the mixing process of generating the binaural stereo output or the binaural stereo output varying according to the inputted information.
이 때, 3차원 큐빅은 팬(Pan), 틸트(tilt) 및 롤(roll) 중 적어도 하나의 회전 파라미터에 상응하게 회전될 수 있다.At this time, the cubic cubic can be rotated corresponding to the rotation parameter of at least one of pan, tilt, and roll.
예를 들어, 도 9에 도시된 것과 같이 청취자가 팬(Pan), 틸트(tilt) 및 롤(roll) 중 적어도 하나에 상응하게 머리를 회전하는 경우, 이 값을 회전 파라미터로 획득하여 3차원 큐빅에 적용할 수 있다. For example, when the listener rotates the head corresponding to at least one of pan, tilt, and roll as shown in FIG. 9, the value is obtained as a rotation parameter, .
이와 같이, 헤드 트래킹 정보에 따라 3차원 큐빅을 회전시키거나 상하좌우로 움직여서 연출되는 효과는 향후 평면 레이어 오디오 출력과 믹싱되어 바이노럴 스테레오 출력을 생성할 수 있다. 따라서, 평면 레이어에 상응하는 서라운드 레이어나 근접용 스테레오 레이어 또는 서브우퍼 레이어 등을 회전시키거나 이동시키는 종래의 방식보다 효율적으로 헤드 트래킹에 기반한 이머시브(immersive) 효과를 연출할 수 있다. In this way, the effect of rotating the three-dimensional cubic according to the head tracking information or moving it in the up, down, left, and right directions can be mixed with the flat layer audio output in the future to generate the binaural stereo output. Therefore, it is possible to produce an immersive effect based on head tracking more efficiently than a conventional method of rotating or moving a surround layer, a proximity stereo layer, a sub-woofer layer, or the like corresponding to a flat layer.
또한, 프로세서(320)는 평면 레이어에 상응하는 오디오 프로세싱을 수행하여 평면 레이어 오디오 출력을 생성한다.In addition, the processor 320 performs audio processing corresponding to the plane layer to produce a plane layer audio output.
이 때, 평면 레이어는 3차원 바이노럴 레이어와는 상이한 구조를 갖는 레이어에 상응하는 것으로, 서라운드 효과 또는 스테레오 효과에 상응하는 이미지를 만드는 요소에 상응할 수 있다. At this time, the planar layer corresponds to a layer having a structure different from that of the three-dimensional binaural layer, and may correspond to an element that produces an image corresponding to a surround effect or a stereo effect.
따라서, 평면 레이어는 서라운드 레이어 바이노럴 인코딩을 수행하여 서라운드 레이어 바이노럴 출력을 생성하고, 생성된 서라운드 레이어 바이노럴 출력을 평면 레이어 오디오 출력으로 제공하는 서라운드 레이어 및 스테레오 신호를 입력 받아서 스테레오 신호에 상응하는 평면 레이어 오디오 출력을 생성하는 근접용 스테레오 레이어 중 어느 하나일 수 있다.Accordingly, the plane layer performs a surround layer binaural encoding to generate a surround layer binaural output, a surround layer to provide the generated surround layer binaural output as a plane layer audio output, and a surround layer to provide a stereo signal Or a proximity stereo layer that produces a corresponding flat layer audio output.
예를 들어, 도 10을 참조하면, 바이노럴 인코더(1020)를 이용하여 5채널 또는 7채널(1010)의 서라운드 레이어에 상응하는 서라운드 레이어 바이노럴 인코딩을 수행할 수 있다. 이 때, 도 13 내지 도 14를 통해 설명하겠지만, 근접용 스테레오 레이어에 상응하는 2채널을 서라운드 레이어에 포함시켜 7채널 기반의 서라운드 레이어 바이노럴 인코딩을 수행할 수 있다. For example, referring to FIG. 10, a binaural encoder 1020 may be used to perform surround layer binaural encoding corresponding to a 5-channel or 7-channel 1010 surround layer. In this case, as described with reference to FIGS. 13 to 14, two channels corresponding to a proximity stereo layer may be included in the surround layer to perform 7-channel based surround layer binaural encoding.
이 때, 서라운드 레이어는, 예를 들어, 도 11에 도시된 것과 같이 5개의 스피커들(1111~1115)을 포함하는 구조에 상응할 수 있다. 이 때, 서라운드 레이어 바이노럴 출력(1030)은 서라운드 레이어 상에 위치하는 바이노럴 포인트에 상응할 수 있다. 만약, 청취자가 서라운드 레이어의 중심에 위치하는 기준 청취점에서 소리를 듣고 있다고 가정할 경우, 마치 서라운드 레이어 상의 바이노럴 포인트에서 소리가 나는 것처럼 바이노럴 인코딩하여 서라운드 레이어 바이노럴 출력(1030)을 생성할 수 있다.At this time, the surround layer may correspond to a structure including five speakers 1111 to 1115, for example, as shown in Fig. At this time, the surround layer binaural output 1030 may correspond to a binaural point located on the surround layer. If the listener is listening to a sound at a reference listening point located at the center of the surround layer, the surround layer binaural output 1030 is binaurally encoded as if it were sounding at a binaural point on the surround layer, Can be generated.
이 때, 서라운드 레이어 바이노럴 출력(1030)은 도 10에 도시된 것과 같이 2채널에 상응하게 출력될 수 있다. 또한, 서라운드 레이어 바이노럴 출력(1030)에 상응하는 2채널은 각각 레프트 채널과 라이트 채널에 상응할 수 있다.At this time, the surround layer binaural output 1030 may be output corresponding to two channels as shown in FIG. In addition, the two channels corresponding to the surround layer binaural output 1030 may correspond to the left channel and the right channel, respectively.
이 때, 도 10 내지 도 11에서는 5채널 또는 7채널(1010)에 해당하는 서라운드 레이어를 도시하고 있으나, 서라운드 레이어의 채널은 5채널 또는 7채널(1010)에 한정되지 않는다. 또한, 도 11에서는 서라운드 레이어를 사각형 평면 형태로 도시하고 있으나, 이에 한정되지 않고 선의 두께, 평면 모양의 형태 및 기준 청취점으로부터의 거리 등 다양한 형태로 표현 가능하다. 10 to 11 illustrate a surround layer corresponding to five channels or seven channels 1010. However, the channel of the surround layer is not limited to five channels or seven channels (1010). In FIG. 11, the surround layer is shown in a rectangular plane shape, but it is not limited thereto and can be expressed in various forms such as a line thickness, a planar shape, and a distance from a reference listening point.
다른 예를 들어, 도 12를 참조하면, 스테레오 버스(Stereo Bus)(1220)를 기반으로 2채널(1210)의 근접용 스테레오 레이어에 상응하게 오디오 프로세싱을 수행할 수 있다. 즉, 평면 레이어 오디오 출력에 상응하는 스테레오 신호(1230)는 2채널(1210) 기반의 스테레오 오디오를 프로세싱함으로써 생성된 출력에 상응할 수 있고, 2채널에 상응하게 출력될 수 있다. For example, referring to FIG. 12, audio processing may be performed corresponding to the proximity stereo layer of the two channels 1210 based on a Stereo Bus 1220. That is, a stereo signal 1230 corresponding to a plane layer audio output may correspond to an output produced by processing 2-channel 1210 based stereo audio, and may be output corresponding to two channels.
이 때, 근접용 스테레오 레이어는 스테레오 효과에 상응하는 스테레오 이미지를 만드는 요소에 상응하는 것으로, 서라운드 레이어의 일부로 포함되어 나타낼 수도 있다. At this time, the proximity stereo layer corresponds to an element for producing a stereo image corresponding to the stereo effect, and may be included as a part of the surround layer.
예를 들어, 도 13 내지 도 14에 도시된 것과 같이 5개의 스피커들에 기반한 서라운드 레이어 상에 2개의 스피커들(1311, 1312, 1411, 1412)에 상응하는 근접용 스테레오 레이어를 포함시켜 총 7개의 스피커들을 포함하는 레이어 구조로 나타낼 수도 있다. For example, as shown in FIGS. 13 to 14, a surround stereo layer corresponding to two speakers 1311, 1312, 1411 and 1412 on a surround layer based on five speakers is included so that a total of seven Or a layer structure including speakers.
이 때, 도 13에 도시된 것과 같이, 근접용 스테레오 레이어는 서라운드 레이어 상에 위치하는 기준 청취점(1300)으로부터 근접한 거리에 배치될 수 있다. 또는, 도 14에 도시된 것과 같이, 기준 청취점(1400)의 좌우 사이드 스피커로써 근접용 스테레오 레이어를 사용할 수도 있다.At this time, as shown in Fig. 13, the proximity stereo layer may be disposed at a distance from the reference listening point 1300 located on the surround layer. Alternatively, as shown in FIG. 14, a proximity stereo layer may be used as the left and right side speakers of the reference listening point 1400.
이 때, 근접용 스테레오 레이어에 상응하게 출력되는 스테레오 신호는 바이노럴 인코딩에 사용되는 공간 파라미터로는 연출하기 어려운 댐핑(damping)감을 제공할 수 있다. 따라서, 본 발명의 일실시예에 따른 바이노럴 스테레오 출력은 바이노럴 인코딩에 의한 이머시브(immersive) 효과를 제공함과 동시에 댐핑감을 제공할 수도 있다.At this time, the stereo signal output corresponding to the proximity stereo layer can provide a damping feeling that is difficult to produce with spatial parameters used in binaural encoding. Accordingly, the binaural stereo output according to an embodiment of the present invention may provide a damping feeling while providing an immersive effect by binaural encoding.
이와 같이, 서라운드 레이어 바이노럴 출력에 상응하는 평면 레이어 오디오 출력이나 스테레오 신호에 상응하는 평면 레이어 오디오 출력은 3차원 레이어 바이노럴 출력과 비교하였을 때, 단지 상이한 음향 효과를 포함하는 출력에 해당하는 것일 수 있다. 즉, 평면 레이어 오디오 출력은 3차원 레이어에 상응하는 출력이 아니어도 3차원 레이어 바이노럴 출력보다 다양한 값을 포함할 수도 있다. As such, a planar layer audio output corresponding to a surround layer binaural output or a planar layer audio output corresponding to a stereo signal can be used for output corresponding to an output containing only a different sound effect Lt; / RTI > That is, the plane layer audio output may include various values other than the output corresponding to the three-dimensional layer, rather than the three-dimensional layer binaural output.
이 때, 평면 레이어는 3차원 큐빅에 상응하는 4개의 업채널들과 4개의 다운채널들 사이에 위치할 수 있다.At this time, the planar layer may be located between four up channels and four down channels corresponding to cubic cubic.
예를 들어, 도 15를 참조하면, 본 발명의 일실시예에 따른 평면 레이어(1510~1530)는 3차원 바이노럴 레이어에 상응하는 3차원 큐빅에 포함된 4개의 업채널들과 4개의 다운채널들 사이에 위치할 수 있다.For example, referring to FIG. 15, the planar layers 1510 to 1530 according to an embodiment of the present invention include four up-channels included in a cubic cubic corresponding to a three-dimensional binaural layer and four down- May be located between the channels.
이 때, 4개의 업채널들은 3차원 큐빅의 상단에 위치하는 4개의 스피커들에 해당할 수 있고, 4개의 다운채널들은 3차원 큐빅의 하단에 위치하는 4개의 스피커들에 해당할 수 있다.In this case, the four up channels may correspond to four speakers located at the top of the cubic cubic, and the four down channels may correspond to the four speakers located at the bottom of the cubic cubic.
즉, 도 15에 도시된 것과 같이 평면 레이어(1510~1530)는 3차원 큐빅에 상응하는 육면체의 높이 범위 내에 위치할 수 있다. That is, as shown in FIG. 15, the flat layers 1510 to 1530 may be located within a height range of a hexahedron corresponding to cubic cubic.
따라서, 평면 레이어(1510~1530)에 상응하는 서라운드 레이어나 근접용 스테레오 레이어에 포함되는 각각의 스피커들도 3차원 큐빅에 포함된 4개의 업채널들과 4개의 다운채널들 사이에 위치할 수 있다. 이 때, 도 15에서는 설명의 편의를 위해 평면 레이어(1510~1530)를 평면의 형태로 도시하였으나, 본 발명의 일실시예에 따른 평면 레이어의 형태는 평면의 형태에 한정되지 않을 수 있다.Accordingly, each of the speakers included in the surround layer or the adjacent stereo layer corresponding to the flat layers 1510 to 1530 may be located between the four up channels included in the 3D cubic and the four down channels . In this case, the flat layers 1510 to 1530 are shown in the form of planes for convenience of explanation in FIG. 15, but the shape of the planar layers according to an embodiment of the present invention may not be limited to the planar form.
또한, 도 16과 도 17은 각각 3차원 바이노럴 레이어에 상응하는 3차원 큐빅과 평면 레이어(1610)를 위에서 내려다본 구조를 나타낸 것으로, 평면 레이어(1610)에 포함된 근접용 스테레오 레이어의 스피커들(1621, 1622)도 3차원 큐빅의 업채널과 다운채널 사이에 위치하는 것을 알 수 있다. FIGS. 16 and 17 show a structure in which the three-dimensional cubic and the flat layer 1610 corresponding to the three-dimensional binaural layer are viewed from above, respectively. The speaker of the proximity stereo layer included in the flat layer 1610 1622 and 1622 are also located between the up channel and the down channel of the cubic cubic.
이 때, 도 17에 도시된 것과 같이, 기준 청취점(1700)을 기준으로 근접용 스테레오 레이어의 스피커들(1721, 1722)을 좌우 사이드에 배치함으로써 영상이 포함된 비디오 컨텐츠의 호환 시 적용할 수도 있다.17, by arranging the speakers 1721 and 1722 of the proximity stereo layer on the left and right sides based on the reference listening point 1700, it is possible to adapt the video contents including the video have.
또한, 프로세서(320)는 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 합하여 바이노럴 스테레오 출력을 생성한다. 즉, 3차원 레이어 바이노럴 출력에 의한 이머시브(immersive) 요소와 평면 레이어 오디오 출력에 의한 근접 재생 요소 및 오브젝트 요소 등을 믹스함으로써 바이노럴 효과가 극대화된 바이노럴 스테레오 출력을 생성할 수 있다. In addition, the processor 320 combines the three-dimensional layer binaural output and the planar layer audio output to produce a binaural stereo output. That is, by mixing an immersive element by a three-dimensional layer binaural output and a near-playback element and an object element by a flat layer audio output, a binaural stereo output capable of generating a binaural effect can be generated have.
이 때, 이머시브(immersive) 사운드만 구성하고자 하는 경우에는 3차원 레이어 바이노럴 출력만을 이용하여 바이노럴 스테레오 출력을 생성할 수도 있다.In this case, when only an immersive sound is desired, a binaural stereo output may be generated using only a three-dimensional layer binaural output.
이 때, 서브우퍼 레이어에 상응하는 서브우퍼 출력을 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력과 함께 합산하여 바이노럴 스테레오 출력을 생성할 수 있다. 이 때, 서브우퍼 출력을 합산함으로써 바이노럴 스테레오 출력에 상응하는 이머시브(immersive) 효과를 극대화 시킬 수 있고, 다이나믹한 저음 재생 요소를 연출할 수 있다.At this time, the subwoofer output corresponding to the subwoofer layer can be added together with the three-dimensional layer binaural output and the planar layer audio output to generate a binaural stereo output. At this time, by summing the subwoofer outputs, it is possible to maximize the immersive effect corresponding to the binaural stereo output, and to produce a dynamic bass reproduction element.
예를 들어, 도 18을 참조하면, LFE 버스(Low Frequency Effects Bus)(1820)를 기반으로 서브우퍼 레이어에 포함된 단일 채널 또는 2채널(1810)의 신호를 오디오 프로세싱할 수 있다. 즉, 서브우퍼 출력(1830)은 단일 채널 또는 2채널(1810) 기반의 오디오를 프로세싱함으로써 생성된 출력에 상응할 수 있고, 도 12에 도시된 것과 같이 단일 채널 또는 2채널에 상응할 수 있다. For example, referring to FIG. 18, a single channel or two-channel 1810 signal included in a sub-woofer layer may be processed based on an LFE bus (Low Frequency Effects Bus) 1820. That is, the subwoofer output 1830 may correspond to an output produced by processing a single channel or two channel (1810) based audio, and may correspond to a single channel or two channels as shown in FIG.
예를 들어, 서브우퍼 레이어는 5.1 채널, 7.1 채널 및 11.1 채널과 같이 단일 채널에 상응하거나, 10.2 채널 및 22.2 채널과 같이 2채널에 상응할 수도 있다. For example, the subwoofer layer may correspond to a single channel, such as 5.1 channel, 7.1 channel and 11.1 channel, or may correspond to two channels, such as 10.2 channel and 22.2 channel.
이 때, 서브우퍼 레이어는 3차원 바이노럴 레이어에 상응하는 3차원 큐빅이나 평면 레이어와 분리되어 위치할 수 있다. At this time, the sub-woofer layer can be located separately from the three-dimensional cubic or planar layer corresponding to the three-dimensional binaural layer.
예를 들어, 도 19에 도시된 것과 같이 서브우퍼 레이어(1940)는 3차원 바이노럴 레이어에 상응하는 3차원 큐빅(1910), 서라운드 레이어(1920) 및 근접용 스테레오 레이어(1930)와 떨어진 곳에 위치할 수 있다. 이 때, 도 19에 도시된 구조는 일실시예에 상응하는 것으로, 각각의 레이어들을 조합한 구조에 한정되지 않는다.19, the sub-woofer layer 1940 is located at a distance from the three-dimensional cubic 1910, the surround layer 1920, and the proximity stereo layer 1930 corresponding to the three-dimensional binaural layer Can be located. At this time, the structure shown in FIG. 19 corresponds to an embodiment, and is not limited to a structure in which respective layers are combined.
이 때, 3차원 가중치를 3차원 레이어 바이노럴 출력에 적용하고, 평면 가중치를 평면 레이어 오디오 출력에 적용할 수 있고, 3차원 가중치 및 평면 가중치는 서로 독립적으로 설정될 수 있다. 즉, 레이어별 출력의 크기를 세분화하여 조절한 뒤 믹싱을 수행함으로써 보다 극적인 형태의 바이노럴 스테레오 출력을 생성할 수 있고, 바이노럴 효과를 극대화시킬 수 있다.At this time, the three-dimensional weight can be applied to the three-dimensional layer binaural output, the plane weight can be applied to the plane layer audio output, and the three-dimensional weight and the plane weight can be set independently of each other. That is, it is possible to generate a more dramatic binaural stereo output by adjusting the size of the layer-by-layer output and then performing the mixing, thereby maximizing the binaural effect.
또한, 본 발명은 상기와 같은 기능의 프로세서(320)를 기반으로 자연스러운 업믹스 및 다운믹스 기능을 지원할 수 있으므로 다양한 종류의 사운드를 지원하는 컨텐츠 간의 호환성을 향상시킬 수 있다. 예를 들어, 3차원 큐빅을 통해 표현되는 서라운드 이미지를 서라운드 레이어로 다운믹스할 수 있다. 또한, 서라운드 레이어는 다시 근접용 스테레오 레이어로 다운믹스할 수도 있다. 이와 같이, 영역을 기반으로 다운믹스를 수행함에 따라 사운드의 음질을 보다 효과적으로 보존할 수 있다.In addition, since the present invention can support natural upmix and downmix functions based on the processor 320 having the above-described functions, it is possible to improve compatibility between contents supporting various kinds of sounds. For example, you can downmix a surround image represented by three-dimensional cubic into a surround layer. Also, the surround layer may be downmixed back to the adjacent stereo layer. As described above, by downmixing based on the area, the sound quality of the sound can be preserved more effectively.
메모리(330)는 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 저장한다. The memory 330 stores the 3D layer binaural output and the plane layer audio output.
또한, 메모리(330)는 상술한 바와 같이 본 발명의 일실시예에 따른 바이노럴 스테레오 오디오를 생성하는 과정에서 발생되는 다양한 정보를 저장한다. In addition, the memory 330 stores various information generated in the process of generating the binaural stereo audio according to an embodiment of the present invention, as described above.
실시예에 따라, 메모리(330)는 바이노럴 스테레오 오디오 생성 장치와 독립적으로 구성되어 바이노럴 스테레오 오디오 생성 기능을 지원할 수 있다. 이 때, 메모리(330)는 별도의 대용량 스토리지로 동작할 수 있고, 동작 수행을 위한 제어 기능을 포함할 수 있다.According to an embodiment, the memory 330 may be configured independently of the binaural stereo audio generation device to support the binaural stereo audio generation function. At this time, the memory 330 may operate as a separate mass storage and may include a control function for performing operations.
한편, 바이노럴 스테레오 오디오 생성 장치는 메모리가 탑재되어 그 장치 내에서 정보를 저장할 수 있다. 일 구현예의 경우, 메모리는 컴퓨터로 판독 가능한 매체이다. 일 구현 예에서, 메모리는 휘발성 메모리 유닛일 수 있으며, 다른 구현예의 경우, 메모리는 비휘발성 메모리 유닛일 수도 있다. 일 구현예의 경우, 저장장치는 컴퓨터로 판독 가능한 매체이다. 다양한 서로 다른 구현 예에서, 저장장치는 예컨대 하드디스크 장치, 광학디스크 장치, 혹은 어떤 다른 대용량 저장장치를 포함할 수도 있다.On the other hand, a binaural stereo audio generating apparatus can store information in a memory on which a memory is mounted. In one implementation, the memory is a computer-readable medium. In one implementation, the memory may be a volatile memory unit, and in other embodiments, the memory may be a non-volatile memory unit. In one implementation, the storage device is a computer-readable medium. In various different implementations, the storage device may include, for example, a hard disk device, an optical disk device, or any other mass storage device.
이와 같은, 바이노럴 스테레오 오디오 생성 장치를 통해 다양한 사운드 요소를 믹스함으로써 바이노럴 효과를 극대화할 수 있다. 또한, 자연스러운 업 믹스 및 다운 믹스를 기반으로 다양한 종류의 컨텐츠들과의 호환성을 향상시킬 수 있다.Such a binaural stereo audio generator can maximize the binaural effect by mixing various sound elements. In addition, compatibility with various kinds of contents can be improved based on natural upmix and downmix.
도 20은 종래의 바이노럴 엔진을 통해 표현되는 사운드의 일 예를 나타낸 도면이고, 도 21은 본 발명에 따른 바이노럴 엔진을 통해 표현되는 사운드의 일 예를 나타낸 도면이다.FIG. 20 is a view showing an example of a sound represented by a conventional binaural engine, and FIG. 21 is a view illustrating an example of a sound represented by a binaural engine according to the present invention.
먼저, 도 20을 참조하면, 종래의 바이노럴 엔진을 이용한 바이노럴 믹스 방식은 소리의 근접을 표현하는데 한계가 존재한다. 즉, 바이노럴 믹싱은 소리에 대한 공간 이미지를 제공하는 것에 해당하므로, 바이노럴 믹싱을 통해 소리의 근접을 표현하기 위해서는 소리의 음량을 조절하는 방법밖에 존재하지 않는다. Referring to FIG. 20, a binaural mix method using a conventional binaural engine has a limitation in expressing the proximity of sound. In other words, binaural mixing corresponds to providing a spatial image of sound, so there is no way to control the volume of sound to represent the proximity of sound through binaural mixing.
따라서, 종래의 바이노럴 엔진으로 바이노럴 믹싱을 수행하는 경우, 엔지니어가 의도한 사운드 방향(2010)에 상응하게 바이노럴 믹싱을 수행하여도, 믹싱결과는 실제 사운드 방향(2020)에 상응하게 표현될 수 있다. 즉, 기준 청취점(2000)을 기준으로 소리가 앞에서 뒤로 또는 뒤에서 앞으로 흐르도록 표현하기 위한 바이노럴 믹싱은 실제로 바이노럴 엔진의 표면을 따라가는 형태로 표현되며, 이것은 Vbap(Vector base amplitude panning) 기술의 한계에 해당할 수 있다.Therefore, when performing binaural mixing with a conventional binaural engine, even if the engineer performs binaural mixing corresponding to the intended sound direction 2010, the mixing result corresponds to the actual sound direction 2020 Can be expressed. In other words, binaural mixing to express the sound from the front to the back or from the back to the front based on the reference listening point 2000 is actually expressed in the form of following the surface of the binaural engine, which is called Vector base amplitude panning (Vbap) It may be the limit of technology.
그러나, 도 21을 참조하면, 본 발명에 따른 바이노럴 엔진은 3차원 바이노럴 레이어 이외에도 서라운드 레이어(2110)와 근접용 스테레오 레이어(2120)를 이용하여 생성된 평면 레이어 오디오 출력을 함께 믹싱할 수 있다. 즉, 종래의 바이노럴 엔진에서는 소리의 음량을 통해서만 조절되었던 소리의 근접 표현을 서라운드 레이어 바이노럴 출력과 스테레오 신호를 통해 조절할 수 있다. 21, the binaural engine according to the present invention mixes the flat layer audio output generated using the surround layer 2110 and the proximity stereo layer 2120 in addition to the three-dimensional binaural layer . That is, in the conventional binaural engine, the proximity expression of the sound, which is controlled only by the volume of the sound, can be controlled through the surround layer binaural output and the stereo signal.
따라서, 본 발명에 따른 바이노럴 엔진을 이용하는 경우, 도 20에서 엔지니어가 의도한 사운드 방향(2010)에 일치하는 실제 사운드 방향(2130)을 표현할 수 있다. 즉, 기준 청취점(2100)을 투과함으로써 마치 청취자의 몸을 투과하는 듯한 사운드를 연출해낼 수 있다.Therefore, in the case of using the binaural engine according to the present invention, in FIG. 20, the engineer can express the actual sound direction 2130 corresponding to the intended sound direction 2010. That is, by transmitting the reference listening point 2100, it is possible to produce a sound that seems to be transmitted through the listener's body.
도 22는 본 발명의 일실시예에 따른 바이노럴 스테레오 오디오 생성 방법을 나타낸 동작흐름도이다.22 is a flowchart illustrating a method of generating binaural stereo audio according to an embodiment of the present invention.
도 22를 참조하면, 본 발명의 일실시예에 따른 바이노럴 스테레오 오디오 생성 방법은 3차원 바이노럴 레이어에 상응하는 3차원 레이어 바이노럴 인코딩을 수행하여 3차원 레이어 바이노럴 출력을 생성한다(S2210).Referring to FIG. 22, a binaural stereo audio generating method according to an embodiment of the present invention performs three-dimensional layer binaural encoding corresponding to a three-dimensional binaural layer to generate a three-dimensional layer binaural output (S2210).
이 때, 3차원 바이노럴 레이어는 3차원 공간 이미지를 만드는 요소에 상응하는 것으로, 예를 들어 도 4를 참조하면, 3차원 큐빅 방식에 상응하는 바이노럴 인코더(420)를 이용하여 3차원 바이노럴 레이어에 포함된 다수의 채널들에 상응하는 3차원 레이어 바이노럴 인코딩을 수행할 수 있다. Referring to FIG. 4, a binaural encoder 420 corresponding to a three-dimensional cubic method may be used to generate a three-dimensional binaural layer, Dimensional layer binaural encoding corresponding to a plurality of channels included in the binaural layer.
이 때, 3차원 바이노럴 레이어는 8채널 기반의 3차원 큐빅에 상응하는 4개의 업채널(411)과 4개의 다운채널(412)을 포함할 수 있다. In this case, the 3D binaural layer may include four up channels 411 and four down channels 412 corresponding to 8-channel based cubic cubes.
따라서, 3차원 레이어 바이노럴 출력(430)은 8채널 기반의 오디오를 바이노럴 인코딩함으로써 생성된 출력에 상응할 수 있고, 도 4에 도시된 것과 같이 2채널에 상응하게 출력될 수 있다. 또한, 3차원 레이어 바이노럴 출력(430)에 상응하는 2채널은 각각 레프트 채널과 라이트 채널에 상응할 수 있다. Accordingly, the three-dimensional layer binaural output 430 may correspond to an output generated by binaural encoding the 8-channel based audio, and may be output corresponding to 2 channels as shown in FIG. In addition, the two channels corresponding to the three-dimensional layer binaural output 430 may correspond to the left channel and the right channel, respectively.
이 때, 도 4에 도시된 실시예에서는 3차원 바이노럴 레이어로 8채널 기반의 3차원 큐빅 레이어를 사용하였으나, 3차원 바이노럴 레이어는 이에 한정되지 않을 수 있다. 즉, 본 발명의 일실시예에 따른 바이노럴 스테레오 오디오 생성 장치 또는 바이노럴 엔진은 사용 가능한 다른 3차원 바이노럴 레이어 또는 향후 개발될 3차원 바이노럴 레이어를 포함하여 구성될 수도 있다. In this case, in the embodiment shown in FIG. 4, an 8-channel based cubic layer is used as the 3-dimensional binaural layer, but the 3-dimensional binaural layer may not be limited thereto. That is, the binaural engine or the binaural engine according to an embodiment of the present invention may include another usable three-dimensional binaural layer or a three-dimensional binaural layer to be developed in the future.
이 때, 3차원 레이어 바이노럴 출력은 4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic) 상에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성될 수 있다.At this time, the three-dimensional layer binaural output corresponds to a three-dimensional vector for a binaural point located on an eight-channel-based three-dimensional cubic (Cubic) composed of four up channels and four down channels Lt; / RTI >
예를 들어, 도 5를 참조하면, 8채널 기반의 3차원 큐빅은 4개의 업채널들에 상응하는 4개의 동적 스피커들(511~514)과 4개의 다운채널들에 상응하는 4개의 동적 스피커들(515~518)을 각 꼭지점으로 하는 육면체 구조일 수 있다. 이 때, 8개의 동적 스피커들(511~518)의 위치는 변경이 가능하기 때문에 3차원 큐빅에 의해 발생하는 바이노럴 효과의 범위도 동적으로 변경할 수 있다.For example, referring to FIG. 5, an 8-channel based three-dimensional cubic may include four dynamic speakers 511 to 514 corresponding to four up channels and four dynamic speakers corresponding to four down channels (515 to 518) may be a hexahedron structure. At this time, since the positions of the eight dynamic speakers 511 to 518 can be changed, the range of the binaural effect caused by the three-dimensional cubic can also be changed dynamically.
다른 예를 들어, 기존의 바이노럴 Vbap(Vector base amplitude panning) 방식을 사용하여 3차원 큐빅을 생성함으로써 8개의 동적 스피커들로 이머시브(immersive) 사운드를 구현할 수도 있다. 즉, 8개의 동적 스피커들 각각에 대해 X, Y, Z에 대한 위치 값을 부여하되, 3차원 큐빅의 중점을 기준으로 하는 벡터 기반의 가상의 트랙 포인트(Track Point)를 표현할 수 있다. 이 때, 가상의 트랙 포인트는 헤드 트래킹 정보에 포함된 파라미터 값에 상응하게 표현될 수 있다. In another example, an immersive sound may be implemented with eight dynamic speakers by generating three-dimensional cubic using a conventional binaural Vbap (Vector base amplitude panning) scheme. That is, a position value for X, Y, and Z is given to each of the eight dynamic speakers, and a vector-based virtual track point based on the center of cubic cubic can be expressed. At this time, the virtual track point can be represented corresponding to the parameter value included in the head tracking information.
이와 같은 3차원 큐빅을 통해 오디오만 포함하는 음악 컨텐츠에 대한 공간 이미지를 생성할 수 있고, 소리의 움직임을 표현할 수 있어서 보다 입체적인 효과를 제공할 수 있다.With such three-dimensional cubic, it is possible to generate a spatial image of music contents containing only audio, and to express the movement of sound, thereby providing a more stereoscopic effect.
이 때, 3차원 큐빅은 3차원 큐빅의 꼭지점에 해당하는 8개의 동적 스피커들의 위치를 3차원 바이노럴 레이어에 대한 크기 파라미터에 상응하게 변경하여 생성될 수 있다. 즉, 고정 방식이 아닌 가변 방식의 동적 스피커들의 위치를 크기 파라미터에 상응하게 자유롭게 변경함으로써 효율적으로 3차원 큐빅을 생성할 수 있다.In this case, the 3D cubic can be generated by changing the position of the eight dynamic speakers corresponding to the vertices of the 3D cubic by changing the size parameter for the 3D binaural layer. That is, it is possible to efficiently generate three-dimensional cubic by changing the position of dynamic speakers of the variable system rather than the fixed system freely according to the size parameter.
예를 들어, 크기 파라미터를 상수로 정하고, 여기에 바이노럴 함수를 곱하는 방식으로 3차원 큐빅을 프로세싱함으로써 도 6에 도시된 것과 같이 다양한 범위를 갖는 3차원 큐빅들(610, 620, 630)을 생성할 수 있다. For example, by processing the 3D cubic by a size parameter as a constant and multiplying it by a binaural function, the 3D cubic bins 610, 620, and 630 having various ranges as shown in FIG. 6 Can be generated.
이 때, 3차원 벡터는 3차원 큐빅의 내부에 포함되고, 서라운드 레이어에 상응하는 2차원 평면의 중심에 해당하는 기준 청취점을 기준으로 생성될 수 있다.At this time, the three-dimensional vector is included in the three-dimensional cubic and can be generated based on the reference listening point corresponding to the center of the two-dimensional plane corresponding to the surround layer.
예를 들어, 도 7을 참조하면, 바이노럴 스테레오 오디오를 듣는 사용자 또는 청취자의 위치를 가상으로 표현한 기준 청취점(700)은 8개의 동적 스피커들을 각 꼭지점으로 하는 3차원 큐빅(710)의 내부에 위치하되, 서라운드 레이어(720) 상에서 중심 부분에 위치할 수 있다. 이 때, 바이노럴 포인트(730)가 도 7에 도시된 것과 같이 3차원 큐빅(710)의 상면에 위치한다고 가정하면, 3차원 레이어 바이노럴 출력에 상응하는 3차원 벡터(740)는 도 7에 도시된 기준 청취점(700)에서 바이노럴 포인트(730)를 향하는 방향으로 생성될 수 있다.For example, referring to FIG. 7, a reference listening point 700, which virtually expresses the position of a user or a listener listening to binaural stereo audio, is composed of a three-dimensional cubic 710 having eight dynamic speakers as vertices, But may be located at a center portion on the surround layer 720. [ Assuming that the binaural point 730 is located on the upper surface of the cubic 710, as shown in FIG. 7, a three-dimensional vector 740 corresponding to the three-dimensional layer binaural output 7 in the direction from the reference listening point 700 shown in FIG. 7 to the binaural point 730.
이 때, 도 10 내지 도 11을 통해 상세하게 설명하겠지만, 서라운드 레이어(720)는 서라운드 효과에 상응하는 서라운드 이미지를 만드는 요소에 상응하는 것으로, 도 7에서는 설명의 편의를 위해 서라운드 레이어(720)를 평면의 형태로 도시하였으나, 평면 형태에 한정되지 않을 수 있다.In this case, as will be described in detail with reference to FIGS. 10 to 11, the surround layer 720 corresponds to an element for creating a surround image corresponding to a surround effect. In FIG. 7, But it may not be limited to a planar shape.
이 때, 도 7에 도시된 것과 같이 3차원 큐빅(710) 상에서 바이노럴 포인트(730)가 기준 청취점(700)이 위치하는 서라운드 레이어(720)보다 높게 위치할 경우, 출력되는 소리가 청취자의 상단에 맺힐 수 있다. 또한, 3차원 큐빅(710) 상에서 바이노럴 포인트(730)가 기준 청취점(700)이 위치하는 서라운드 레이어(720)보다 낮게 위치할 경우, 출력되는 소리가 청취자의 하단에 맺힐 수도 있다.7, when the binaural point 730 is located on the 3D cubic 710 higher than the surround layer 720 where the reference listening point 700 is located, Can be formed at the top of the. Also, when the binaural point 730 is located on the three-dimensional cubic 710 lower than the surround layer 720 where the reference listening point 700 is located, the output sound may be formed at the bottom of the listener.
이와 같이, 본 발명에서는 3차원 큐빅(710)상에서 기준 청취점(700)을 기준으로 한 바이노럴 포인트(730)의 위치를 변경함으로써 보다 다양한 오디오를 연출하는 것이 가능할 수 있다. As described above, in the present invention, it is possible to produce more various audio by changing the position of the binaural point 730 based on the reference listening point 700 on the three-dimensional cubic 710.
이 때, 3차원 벡터의 방향 정보를 헤드 트래킹 정보에 상응하게 회전된 3차원 큐빅에 적용하여 3차원 레이어 바이노럴 출력을 생성할 수 있다. 즉, 바이노럴 포인트는 기준 청취점에 해당하는 청취자의 머리를 기준으로 설정된 위치이므로 청취자의 머리 위치나 각도가 변경되는 경우, 3차원 큐빅 상에서 바이노럴 포인트의 위치도 변경될 수 있다. At this time, the direction information of the three-dimensional vector can be applied to the rotated cubic by corresponding to the head tracking information to generate the three-dimensional layer binaural output. That is, since the binaural point is set based on the listener's head corresponding to the reference listening point, the position of the binaural point on the cubic bicycle can also be changed if the listener's head position or angle is changed.
예를 들어, 도 7에 도시된 3차원 큐빅(710)을 헤드 트래킹 정보에 상응하게 도 8에 도시된 것처럼 회전시켰다고 가정할 수 있다. 이 때, 도 7에 도시된 3차원 벡터(740)의 방향 정보를 그대로 도 8에 도시된 3차원 큐빅에 적용함으로써 회전에 따라 변경된 바이노럴 포인트의 위치를 검출할 수 있다. For example, it can be assumed that the 3D cubic 710 shown in FIG. 7 is rotated as shown in FIG. 8 in accordance with the head tracking information. At this time, the direction information of the three-dimensional vector 740 shown in FIG. 7 can be directly applied to the three-dimensional cubic as shown in FIG. 8 to detect the position of the changed binaural point according to the rotation.
이 때, 헤드 트래킹 정보는 사용자나 청취자의 머리 움직임을 트래킹한 데이터에 상응하는 것으로, 별도의 헤드 트래킹 모듈 또는 사용자 인터페이스를 통해 입력될 수 있다. At this time, the head tracking information corresponds to data obtained by tracking the head movement of the user or the listener, and may be input through a separate head tracking module or a user interface.
예를 들어, 사용자나 청취자가 헤드 트래킹 모듈을 직접 착용한 상태에서 머리를 움직이면, 헤드 트래킹 모듈에서 사용자의 머리가 움직인 거리나 각도 등을 측정하여 헤드 트래킹 정보로 생성하고 전송할 수 있다.For example, if a user or a listener moves his / her head while directly wearing the head tracking module, the head tracking module can measure the distance or angle of movement of the user's head and generate and transmit the head tracking information.
다른 예를 들어, 헤드 트래킹 정보는 사용자나 청취자가 인위적으로 부여할 수도 있다. 즉, 사용자나 청취자가 인위적으로 공간 이미지를 회전시키기 위해서 헤드 트래킹 모듈에 의한 헤드 트래킹 정보의 수신 여부와 상관없이 사용자 인터페이스를 기반으로 헤드 트래킹 정보를 입력할 수도 있다. 이 때, 사용자나 청취자는 바이노럴 스테레오 출력을 생성하는 믹싱과정 또는 입력되는 정보에 따라 변화하는 바이노럴 스테레오 출력을 청취하면서 헤드 트래킹 정보를 입력 및 수정할 수도 있다.As another example, head tracking information may be artificially assigned by a user or a listener. That is, the user or the listener may input the head tracking information based on the user interface irrespective of whether the head tracking information is received by the head tracking module to artificially rotate the spatial image. At this time, the user or the listener may input and modify the head tracking information while listening to the mixing process of generating the binaural stereo output or the binaural stereo output varying according to the inputted information.
이 때, 3차원 큐빅은 팬(Pan), 틸트(tilt) 및 롤(roll) 중 적어도 하나의 회전 파라미터에 상응하게 회전될 수 있다.At this time, the cubic cubic can be rotated corresponding to the rotation parameter of at least one of pan, tilt, and roll.
예를 들어, 도 9에 도시된 것과 같이 청취자가 팬(Pan), 틸트(tilt) 및 롤(roll) 중 적어도 하나에 상응하게 머리를 회전하는 경우, 이 값을 회전 파라미터로 획득하여 3차원 큐빅에 적용할 수 있다. For example, when the listener rotates the head corresponding to at least one of pan, tilt, and roll as shown in FIG. 9, the value is obtained as a rotation parameter, .
이와 같이, 헤드 트래킹 정보에 따라 3차원 큐빅을 회전시키거나 상하좌우로 움직여서 연출되는 효과는 향후 평면 레이어 오디오 출력과 믹싱되어 바이노럴 스테레오 출력을 생성할 수 있다. 따라서, 평면 레이어에 상응하는 서라운드 레이어나 근접용 스테레오 레이어 또는 서브우퍼 레이어 등을 회전시키거나 이동시키는 종래의 방식보다 효율적으로 헤드 트래킹에 기반한 이머시브(immersive) 효과를 연출할 수 있다.In this way, the effect of rotating the three-dimensional cubic according to the head tracking information or moving it in the up, down, left, and right directions can be mixed with the flat layer audio output in the future to generate the binaural stereo output. Therefore, it is possible to produce an immersive effect based on head tracking more efficiently than a conventional method of rotating or moving a surround layer, a proximity stereo layer, a sub-woofer layer, or the like corresponding to a flat layer.
또한, 본 발명의 일실시예에 따른 바이노럴 스테레오 오디오 생성 방법은 평면 레이어에 상응하는 오디오 프로세싱을 수행하여 평면 레이어 오디오 출력을 생성한다(S2220).In addition, in the binaural stereo audio generation method according to an embodiment of the present invention, audio processing corresponding to a plane layer is performed to generate a plane layer audio output (S2220).
이 때, 평면 레이어는 3차원 바이노럴 레이어와는 상이한 구조를 갖는 레이어에 상응하는 것으로, 서라운드 효과 또는 스테레오 효과에 상응하는 이미지를 만드는 요소에 상응할 수 있다.At this time, the planar layer corresponds to a layer having a structure different from that of the three-dimensional binaural layer, and may correspond to an element that produces an image corresponding to a surround effect or a stereo effect.
따라서, 평면 레이어는 서라운드 레이어 바이노럴 인코딩을 수행하여 서라운드 레이어 바이노럴 출력을 생성하고, 생성된 서라운드 레이어 바이노럴 출력을 평면 레이어 오디오 출력으로 제공하는 서라운드 레이어 및 스테레오 신호를 입력 받아서 스테레오 신호에 상응하는 평면 레이어 오디오 출력을 생성하는 근접용 스테레오 레이어 중 어느 하나일 수 있다.Accordingly, the plane layer performs a surround layer binaural encoding to generate a surround layer binaural output, a surround layer to provide the generated surround layer binaural output as a plane layer audio output, and a surround layer to provide a stereo signal Or a proximity stereo layer that produces a corresponding flat layer audio output.
예를 들어, 도 10을 참조하면, 바이노럴 인코더(1020)를 이용하여 5채널 또는 7채널(1010)의 서라운드 레이어에 상응하는 서라운드 레이어 바이노럴 인코딩을 수행할 수 있다. 이 때, 도 13 내지 도 14를 통해 설명하겠지만, 근접용 스테레오 레이어에 상응하는 2채널을 서라운드 레이어에 포함시켜 7채널 기반의 서라운드 레이어 바이노럴 인코딩을 수행할 수 있다.For example, referring to FIG. 10, a binaural encoder 1020 may be used to perform surround layer binaural encoding corresponding to a 5-channel or 7-channel 1010 surround layer. In this case, as described with reference to FIGS. 13 to 14, two channels corresponding to a proximity stereo layer may be included in the surround layer to perform 7-channel based surround layer binaural encoding.
이 때, 서라운드 레이어는, 예를 들어, 도 11에 도시된 것과 같이 5개의 스피커들(1111~1115)을 포함하는 구조에 상응할 수 있다. 이 때, 서라운드 레이어 바이노럴 출력(1030)은 서라운드 레이어 상에 위치하는 바이노럴 포인트에 상응할 수 있다. 만약, 청취자가 서라운드 레이어의 중심에 위치하는 기준 청취점에서 소리를 듣고 있다고 가정할 경우, 마치 서라운드 레이어 상의 바이노럴 포인트에서 소리가 나는 것처럼 바이노럴 인코딩하여 서라운드 레이어 바이노럴 출력(1030)을 생성할 수 있다.At this time, the surround layer may correspond to a structure including five speakers 1111 to 1115, for example, as shown in Fig. At this time, the surround layer binaural output 1030 may correspond to a binaural point located on the surround layer. If the listener is listening to a sound at a reference listening point located at the center of the surround layer, the surround layer binaural output 1030 is binaurally encoded as if it were sounding at a binaural point on the surround layer, Can be generated.
이 때, 서라운드 레이어 바이노럴 출력(1030)은 도 10에 도시된 것과 같이 2채널에 상응하게 출력될 수 있다. 또한, 서라운드 레이어 바이노럴 출력(1030)에 상응하는 2채널은 각각 레프트 채널과 라이트 채널에 상응할 수 있다.At this time, the surround layer binaural output 1030 may be output corresponding to two channels as shown in FIG. In addition, the two channels corresponding to the surround layer binaural output 1030 may correspond to the left channel and the right channel, respectively.
이 때, 도 10 내지 도 11에서는 5채널 또는 7채널(1010)에 해당하는 서라운드 레이어를 도시하고 있으나, 서라운드 레이어의 채널은 5채널 또는 7채널(1010)에 한정되지 않는다. 또한, 도 11에서는 서라운드 레이어를 사각형 평면 형태로 도시하고 있으나, 이에 한정되지 않고 선의 두께, 평면 모양의 형태 및 기준 청취점으로부터의 거리 등 다양한 형태로 표현 가능하다.10 to 11 illustrate a surround layer corresponding to five channels or seven channels 1010. However, the channel of the surround layer is not limited to five channels or seven channels (1010). In FIG. 11, the surround layer is shown in a rectangular plane shape, but it is not limited thereto and can be expressed in various forms such as a line thickness, a planar shape, and a distance from a reference listening point.
다른 예를 들어, 도 12를 참조하면, 스테레오 버스(Stereo Bus)(1220)를 기반으로 2채널의(1210)의 근접용 스테레오 레이어에 상응하게 오디오 프로세싱을 수행할 수 있다. 즉, 평면 레이어 오디오 출력에 상응하는 스테레오 신호(1230)는 2채널(1210) 기반의 스테레오 오디오를 프로세싱함으로써 생성된 출력에 상응할 수 있고, 2채널에 상응하게 출력될 수 있다. For example, referring to FIG. 12, it is possible to perform audio processing corresponding to the proximity stereo layer of the two channels 1210 based on a Stereo Bus 1220. That is, a stereo signal 1230 corresponding to a plane layer audio output may correspond to an output produced by processing 2-channel 1210 based stereo audio, and may be output corresponding to two channels.
이 때, 근접용 스테레오 레이어는 스테레오 효과에 상응하는 스테레오 이미지를 만드는 요소에 상응하는 것으로, 서라운드 레이어의 일부로 포함되어 나타낼 수도 있다. At this time, the proximity stereo layer corresponds to an element for producing a stereo image corresponding to the stereo effect, and may be included as a part of the surround layer.
예를 들어, 도 13 내지 도 14에 도시된 것과 같이 5개의 스피커들에 기반한 서라운드 레이어 상에 2개의 스피커들(1311, 1312, 1411, 1412)에 상응하는 근접용 스테레오 레이어를 포함시켜 총 7개의 스피커들을 포함하는 레이어 구조로 나타낼 수도 있다. For example, as shown in FIGS. 13 to 14, a surround stereo layer corresponding to two speakers 1311, 1312, 1411 and 1412 on a surround layer based on five speakers is included so that a total of seven Or a layer structure including speakers.
이 때, 도 13에 도시된 것과 같이, 근접용 스테레오 레이어는 서라운드 레이어 상에 위치하는 기준 청취점(1300)으로부터 근접한 거리에 배치될 수 있다. 또는, 도 14에 도시된 것과 같이, 기준 청취점(1400)의 좌우 사이드 스피커로써 근접용 스테레오 레이어를 사용할 수도 있다.At this time, as shown in Fig. 13, the proximity stereo layer may be disposed at a distance from the reference listening point 1300 located on the surround layer. Alternatively, as shown in FIG. 14, a proximity stereo layer may be used as the left and right side speakers of the reference listening point 1400.
이 때, 근접용 스테레오 레이어에 상응하게 출력되는 스테레오 신호는 바이노럴 인코딩에 사용되는 공간 파라미터로는 연출하기 어려운 댐핑(damping)감을 제공할 수 있다. 따라서, 본 발명의 일실시예에 따른 바이노럴 스테레오 출력은 바이노럴 인코딩에 의한 이머시브(immersive) 효과를 제공함과 동시에 댐핑감을 제공할 수도 있다.At this time, the stereo signal output corresponding to the proximity stereo layer can provide a damping feeling that is difficult to produce with spatial parameters used in binaural encoding. Accordingly, the binaural stereo output according to an embodiment of the present invention may provide a damping feeling while providing an immersive effect by binaural encoding.
이와 같이, 서라운드 레이어 바이노럴 출력에 상응하는 평면 레이어 오디오 출력이나 스테레오 신호에 상응하는 평면 레이어 오디오 출력은 3차원 레이어 바이노럴 출력과 비교하였을 때, 단지 상이한 음향 효과를 포함하는 출력에 해당하는 것일 수 있다. 즉, 평면 레이어 오디오 출력은 3차원 레이어에 상응하는 출력이 아니어도 3차원 레이어 바이노럴 출력보다 다양한 값을 포함할 수도 있다.As such, a planar layer audio output corresponding to a surround layer binaural output or a planar layer audio output corresponding to a stereo signal can be used for output corresponding to an output containing only a different sound effect Lt; / RTI > That is, the plane layer audio output may include various values other than the output corresponding to the three-dimensional layer, rather than the three-dimensional layer binaural output.
이 때, 평면 레이어는 3차원 큐빅에 상응하는 4개의 업채널들과 4개의 다운채널들 사이에 위치할 수 있다.At this time, the planar layer may be located between four up channels and four down channels corresponding to cubic cubic.
예를 들어, 도 15를 참조하면, 본 발명의 일실시예에 따른 평면 레이어(1510~1530)는 3차원 바이노럴 레이어에 상응하는 3차원 큐빅에 포함된 4개의 업채널들과 4개의 다운채널들 사이에 위치할 수 있다.For example, referring to FIG. 15, the planar layers 1510 to 1530 according to an embodiment of the present invention include four up-channels included in a cubic cubic corresponding to a three-dimensional binaural layer and four down- May be located between the channels.
이 때, 4개의 업채널들은 3차원 큐빅의 상단에 위치하는 4개의 스피커들에 해당할 수 있고, 4개의 다운채널들은 3차원 큐빅의 하단에 위치하는 4개의 스피커들에 해당할 수 있다.In this case, the four up channels may correspond to four speakers located at the top of the cubic cubic, and the four down channels may correspond to the four speakers located at the bottom of the cubic cubic.
즉, 도 15에 도시된 것과 같이 평면 레이어(1510~1530)는 3차원 큐빅에 상응하는 육면체의 높이 범위 내에 위치할 수 있다. That is, as shown in FIG. 15, the flat layers 1510 to 1530 may be located within a height range of a hexahedron corresponding to cubic cubic.
따라서, 평면 레이어(1510~1530)에 상응하는 서라운드 레이어나 근접용 스테레오 레이어에 포함되는 각각의 스피커들도 3차원 큐빅에 포함된 4개의 업채널들과 4개의 다운채널들 사이에 위치할 수 있다. 이 때, 도 15에서는 설명의 편의를 위해 평면 레이어(1510~1530)를 평면의 형태로 도시하였으나, 본 발명의 일실시예에 따른 평면 레이어의 형태는 평면의 형태에 한정되지 않을 수 있다.Accordingly, each of the speakers included in the surround layer or the adjacent stereo layer corresponding to the flat layers 1510 to 1530 may be located between the four up channels included in the 3D cubic and the four down channels . In this case, the flat layers 1510 to 1530 are shown in the form of planes for convenience of explanation in FIG. 15, but the shape of the planar layers according to an embodiment of the present invention may not be limited to the planar form.
또한, 도 16과 도 17은 각각 3차원 바이노럴 레이어에 상응하는 3차원 큐빅과 평면 레이어(1610)를 위에서 내려다본 구조를 나타낸 것으로, 평면 레이어(1610)에 포함된 근접용 스테레오 레이어의 스피커들(1621, 1622)도 3차원 큐빅의 업채널과 다운채널 사이에 위치하는 것을 알 수 있다. FIGS. 16 and 17 show a structure in which the three-dimensional cubic and the flat layer 1610 corresponding to the three-dimensional binaural layer are viewed from above, respectively. The speaker of the proximity stereo layer included in the flat layer 1610 1622 and 1622 are also located between the up channel and the down channel of the cubic cubic.
이 때, 도 17에 도시된 것과 같이, 기준 청취점(1700)을 기준으로 근접용 스테레오 레이어의 스피커들(1721, 1722)을 좌우 사이드에 배치함으로써 영상이 포함된 비디오 컨텐츠의 호환 시 적용할 수도 있다.17, by arranging the speakers 1721 and 1722 of the proximity stereo layer on the left and right sides based on the reference listening point 1700, it is possible to adapt the video contents including the video have.
또한, 본 발명의 일실시예에 따른 바이노럴 스테레오 오디오 생성 방법은 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 합하여 바이노럴 스테레오 출력을 생성한다(S2230). 즉, 3차원 레이어 바이노럴 출력에 의한 이머시브(immersive) 요소와 평면 레이어 오디오 출력에 의한 근접 재생 요소 및 오브젝트 요소 등을 믹스함으로써 바이노럴 효과가 극대화된 바이노럴 스테레오 출력을 생성할 수 있다. In addition, the binaural stereo audio generation method according to an embodiment of the present invention combines the 3D layer binaural output and the plane layer audio output to generate a binaural stereo output (S2230). That is, by mixing an immersive element by a three-dimensional layer binaural output and a near-playback element and an object element by a flat layer audio output, a binaural stereo output capable of generating a binaural effect can be generated have.
이 때, 이머시브(immersive) 사운드만 구성하고자 하는 경우에는 3차원 레이어 바이노럴 출력만을 이용하여 바이노럴 스테레오 출력을 생성할 수도 있다.In this case, when only an immersive sound is desired, a binaural stereo output may be generated using only a three-dimensional layer binaural output.
이 때, 서브우퍼 레이어에 상응하는 서브우퍼 출력을 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력과 함께 합산하여 바이노럴 스테레오 출력을 생성할 수 있다. 이 때, 서브우퍼 출력을 합산함으로써 바이노럴 스테레오 출력에 상응하는 이머시브(immersive) 효과를 극대화 시킬 수 있고, 다이나믹한 저음 재생 요소를 연출할 수 있다.At this time, the subwoofer output corresponding to the subwoofer layer can be added together with the three-dimensional layer binaural output and the planar layer audio output to generate a binaural stereo output. At this time, by summing the subwoofer outputs, it is possible to maximize the immersive effect corresponding to the binaural stereo output, and to produce a dynamic bass reproduction element.
예를 들어, 도 18을 참조하면, LFE 버스(Low Frequency Effects Bus)(1820)를 기반으로 서브우퍼 레이어에 포함된 단일 채널 또는 2채널(1810)의 신호를 오디오 프로세싱할 수 있다. 즉, 서브우퍼 출력(1830)은 단일 채널 또는 2채널(1810) 기반의 오디오를 프로세싱함으로써 생성된 출력에 상응할 수 있고, 도 12에 도시된 것과 같이 단일 채널 또는 2채널에 상응할 수 있다. For example, referring to FIG. 18, a single channel or two-channel 1810 signal included in a sub-woofer layer may be processed based on an LFE bus (Low Frequency Effects Bus) 1820. That is, the subwoofer output 1830 may correspond to an output produced by processing a single channel or two channel (1810) based audio, and may correspond to a single channel or two channels as shown in FIG.
예를 들어, 서브우퍼 레이어는 5.1 채널, 7.1 채널 및 11.1 채널과 같이 단일 채널에 상응하거나, 10.2 채널 및 22.2 채널과 같이 2채널에 상응할 수도 있다. For example, the subwoofer layer may correspond to a single channel, such as 5.1 channel, 7.1 channel and 11.1 channel, or may correspond to two channels, such as 10.2 channel and 22.2 channel.
이 때, 서브우퍼 레이어는 3차원 바이노럴 레이어에 상응하는 3차원 큐빅이나 평면 레이어와 분리되어 위치할 수 있다.At this time, the sub-woofer layer can be located separately from the three-dimensional cubic or planar layer corresponding to the three-dimensional binaural layer.
예를 들어, 도 19에 도시된 것과 같이 서브우퍼 레이어(1940)는 3차원 바이노럴 레이어에 상응하는 3차원 큐빅(1910), 서라운드 레이어(1920) 및 근접용 스테레오 레이어(1930)와 떨어진 곳에 위치할 수 있다. 이 때, 도 19에 도시된 구조는 일실시예에 상응하는 것으로, 각각의 레이어들을 조합한 구조에 한정되지 않는다.19, the sub-woofer layer 1940 is located at a distance from the three-dimensional cubic 1910, the surround layer 1920, and the proximity stereo layer 1930 corresponding to the three-dimensional binaural layer Can be located. At this time, the structure shown in FIG. 19 corresponds to an embodiment, and is not limited to a structure in which respective layers are combined.
이 때, 3차원 가중치를 3차원 레이어 바이노럴 출력에 적용하고, 평면 가중치를 평면 레이어 오디오 출력에 적용할 수 있고, 3차원 가중치 및 평면 가중치는 서로 독립적으로 설정될 수 있다. 즉, 레이어별 출력의 크기를 세분화하여 조절한 뒤 믹싱을 수행함으로써 보다 극적인 형태의 바이노럴 스테레오 출력을 생성할 수 있고, 바이노럴 효과를 극대화시킬 수 있다.At this time, the three-dimensional weight can be applied to the three-dimensional layer binaural output, the plane weight can be applied to the plane layer audio output, and the three-dimensional weight and the plane weight can be set independently of each other. That is, it is possible to generate a more dramatic binaural stereo output by adjusting the size of the layer-by-layer output and then performing the mixing, thereby maximizing the binaural effect.
또한, 본 발명은 상기에 개시된 기능들을 기반으로 자연스러운 업믹스 및 다운믹스 기능을 지원할 수 있으므로 다양한 종류의 사운드를 지원하는 컨텐츠 간의 호환성을 향상시킬 수 있다. 예를 들어, 3차원 큐빅을 통해 표현되는 서라운드 이미지를 서라운드 레이어로 다운믹스할 수 있다. 또한, 서라운드 레이어는 다시 근접용 스테레오 레이어로 다운믹스할 수도 있다. 이와 같이, 영역을 기반으로 다운믹스를 수행함에 따라 사운드의 음질을 보다 효과적으로 보존할 수 있다.Further, since the present invention can support natural upmix and downmix functions based on the above-described functions, compatibility between contents supporting various kinds of sounds can be improved. For example, you can downmix a surround image represented by three-dimensional cubic into a surround layer. Also, the surround layer may be downmixed back to the adjacent stereo layer. As described above, by downmixing based on the area, the sound quality of the sound can be preserved more effectively.
또한, 도 22에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 바이노럴 스테레오 오디오 생성 방법은 네트워크와 같은 통신망을 통해 바이노럴 스테레오 오디오 생성을 위해 필요한 정보를 송수신할 수 있다. 특히, 본 발명의 일실시예에 따른 헤드 트래킹 정보나 사용자 입력 또는 바이노럴 효과를 적용할 컨텐츠에 관련된 정보를 수신하고, 바이노럴 스테레오 출력을 제공할 수 있다.Although not shown in FIG. 22, the method for generating binaural stereo audio according to an embodiment of the present invention can transmit and receive information necessary for generating binaural stereo audio through a communication network such as a network. Particularly, it is possible to receive head tracking information, information related to a user input or contents to be applied with a binaural effect, and provide a binaural stereo output according to an embodiment of the present invention.
또한, 도 22에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 바이노럴 스테레오 오디오 생성 방법은 상술한 바와 같이 본 발명의 일실시예에 따른 바이노럴 스테레오 오디오를 생성하는 과정에서 발생되는 다양한 정보를 저장한다.Although not shown in FIG. 22, the method of generating binaural stereo audio according to an embodiment of the present invention may include generating binaural stereo audio according to an embodiment of the present invention, Various information is stored.
따라서, 본 발명의 실시예는 컴퓨터로 구현된 방법이나 컴퓨터에서 실행 가능한 명령어들이 기록된 비일시적인 컴퓨터에서 읽을 수 있는 매체로 구현될 수 있다. 컴퓨터에서 읽을 수 있는 명령어들이 프로세서에 의해서 수행될 때, 컴퓨터에서 읽을 수 있는 명령어들은 본 발명의 적어도 한 가지 측면에 따른 방법을 수행할 수 있다.Thus, embodiments of the invention may be embodied in a computer-implemented method or in a non-volatile computer readable medium having recorded thereon instructions executable by the computer. When instructions readable by a computer are executed by a processor, the instructions readable by the computer are capable of performing at least one aspect of the invention.
이상에서와 같이 본 발명에 따른 바이노럴 스테레오 오디오 생성 방법 및 이를 위한 장치는 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.As described above, the method and apparatus for generating binaural stereo audio according to the present invention are not limited to the above-described embodiments, and various modifications may be made to the embodiments. All or some of the embodiments may be selectively combined.
본 발명은 바이노럴 스테레오 오디오 생성 방법 및 이를 위한 장치에 관한 것으로서, 다양한 사운드 요소를 믹스함으로써 바이노럴 효과를 극대화할 수 있는 바이노럴 스테레오 오디오를 생성할 수 있도록 하고, 효과적인 바이노럴 효과를 생성하기 위한 사운드 요소를 쉽게 가감하거나 조절할 수 있는 바이노럴 엔진을 제공하고, 자연스러운 업 믹스 및 다운 믹스를 기반으로 다양한 종류의 컨텐츠들과의 호환성을 향상시켜 산업의 발전에 이바지할 수 있다.The present invention relates to a binaural stereo audio generating method and apparatus therefor, and it is possible to generate binaural stereo audio capable of maximizing a binaural effect by mixing various sound elements, The present invention provides a binaural engine that can easily adjust or adjust a sound element for generating a sound, and can improve compatibility with various kinds of contents based on natural upmix and downmix, thereby contributing to the development of industry.

Claims (20)

  1. 3차원 바이노럴 레이어에 상응하는 3차원 레이어 바이노럴 인코딩을 수행하여 3차원 레이어 바이노럴 출력을 생성하는 단계;Performing a three-dimensional layer binaural encoding corresponding to a three-dimensional binaural layer to generate a three-dimensional layer binaural output;
    평면 레이어에 상응하는 오디오 프로세싱을 수행하여 평면 레이어 오디오 출력을 생성하는 단계; 및Performing audio processing corresponding to a planar layer to produce a planar layer audio output; And
    상기 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 합하여 바이노럴 스테레오 출력을 생성하는 단계Generating a binaural stereo output by summing the three-dimensional layer binaural output and the planar layer audio output
    를 포함하는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 방법.And generating a binaural stereo audio signal.
  2. 청구항 1에 있어서,The method according to claim 1,
    상기 평면 레이어는The planar layer
    서라운드 레이어 바이노럴 인코딩을 수행하여 서라운드 레이어 바이노럴 출력을 생성하고, 생성된 상기 서라운드 레이어 바이노럴 출력을 상기 평면 레이어 오디오 출력으로 제공하는 서라운드 레이어 및 A surround layer for performing surround layer binaural encoding to generate a surround layer binaural output and providing the generated surround layer binaural output as the plane layer audio output,
    스테레오 신호를 입력 받아서 상기 스테레오 신호에 상응하는 상기 평면 레이어 오디오 출력을 생성하는 근접용 스테레오 레이어 중 어느 하나인 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 방법.And a proximity stereo layer for receiving the stereo signal and generating the plane layer audio output corresponding to the stereo signal.
  3. 청구항 2에 있어서,The method of claim 2,
    상기 3차원 레이어 바이노럴 출력은The three-dimensional layer binaural output
    4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic) 상에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성되는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 방법.Dimensional binaural point on the 8-channel based three-dimensional Cubic consisting of 4 up channels and 4 down channels. The binaural stereo audio Generation method.
  4. 청구항 2에 있어서,The method of claim 2,
    상기 바이노럴 스테레오 출력을 생성하는 단계는The step of generating the binaural stereo output
    3차원 가중치를 상기 3차원 레이어 바이노럴 출력에 적용하고, 평면 가중치를 상기 평면 레이어 오디오 출력에 적용하고, 상기 3차원 가중치 및 상기 평면 가중치는 서로 독립적으로 설정되는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 방법.Applying a three-dimensional weight to the three-dimensional layer binaural output, applying a plane weight to the planar layer audio output, and wherein the three-dimensional weight and the plane weight are set independently of each other. How to create audio.
  5. 청구항 1에 있어서,The method according to claim 1,
    상기 바이노럴 스테레오 출력을 생성하는 단계는The step of generating the binaural stereo output
    서브우퍼 레이어에 상응하는 서브우퍼 출력을 상기 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력과 함께 합산하여 상기 바이노럴 스테레오 출력을 생성하는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 방법.Wherein the binaural stereo output is generated by summing the sub-woofer output corresponding to the sub-woofer layer together with the three-dimensional layer binaural output and the planar layer audio output.
  6. 청구항 3에 있어서,The method of claim 3,
    상기 3차원 큐빅은The three-
    상기 3차원 큐빅의 꼭지점에 해당하는 8개의 동적 스피커들의 위치를 상기 3차원 바이노럴 레이어에 대한 크기 파라미터에 상응하게 변경하여 생성되는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 방법.Wherein the positions of the eight dynamic speakers corresponding to the vertexes of the cubic cubic are changed according to size parameters of the 3D binaural layer.
  7. 청구항 3에 있어서,The method of claim 3,
    상기 3차원 벡터는The three-dimensional vector
    상기 3차원 큐빅의 내부에 포함되고, 상기 서라운드 레이어에 상응하는 2차원 평면의 중심에 해당하는 기준 청취점을 기준으로 생성되는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 방법.Wherein the binaural stereo audio is generated based on a reference listening point included in the 3D cubic and corresponding to a center of a two-dimensional plane corresponding to the surround layer.
  8. 청구항 3에 있어서,The method of claim 3,
    상기 3차원 레이어 바이노럴 출력을 생성하는 단계는Wherein generating the three-dimensional layer binaural output comprises:
    상기 3차원 벡터의 방향 정보를 헤드 트래킹 정보에 상응하게 회전된 상기 3차원 큐빅에 적용하여 상기 3차원 레이어 바이노럴 출력을 생성하되, 상기 헤드 트래킹 정보는 헤드 트래킹 모듈에 기반한 트래킹 입력 및 사용자 인터페이스에 기반한 사용자 입력 중 적어도 하나에 상응하게 획득되는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 방법.Dimensional brain binaural output by applying the direction information of the three-dimensional vector to the rotated cubic bikes corresponding to the head tracking information, wherein the head tracking information includes a tracking input based on a head tracking module and a user interface And a user input based on at least one of the user input and the user input.
  9. 청구항 8에 있어서,The method of claim 8,
    상기 3차원 큐빅은 The three-
    팬(Pan), 틸트(tilt) 및 롤(roll) 중 적어도 하나의 회전 파라미터에 상응하게 회전되는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 방법.Wherein the at least one audio signal is rotated in accordance with a rotation parameter of at least one of a pan, a tilt, and a roll.
  10. 청구항 3에 있어서,The method of claim 3,
    상기 평면 레이어는 상기 4개의 업 채널들과 상기 4개의 다운채널들 사이에 위치하는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 방법.Wherein the flat layer is located between the four up channels and the four down channels.
  11. 3차원 바이노럴 레이어에 상응하는 3차원 레이어 바이노럴 인코딩을 수행하여 3차원 레이어 바이노럴 출력을 생성하고, 평면 레이어에 상응하는 오디오 프로세싱을 수행하여 평면 레이어 오디오 출력을 생성하고, 상기 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 합하여 바이노럴 스테레오 출력을 생성하는 프로세서; 및Dimensional layer binaural encoding by performing a three-dimensional layer binaural encoding corresponding to a three-dimensional binaural layer, performing audio processing corresponding to a plane layer to generate a plane layer audio output, A processor for summing the dimension layer binaural output and the planar layer audio output to produce a binaural stereo output; And
    상기 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 저장하는 메모리A memory for storing the three-dimensional layer binaural output and the plane layer audio output
    를 포함하는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 장치.Wherein the binaural stereo audio generating device comprises:
  12. 청구항 11에 있어서,The method of claim 11,
    상기 평면 레이어는The planar layer
    서라운드 레이어 바이노럴 인코딩을 수행하여 서라운드 레이어 바이노럴 출력을 생성하고, 생성된 상기 서라운드 레이어 바이노럴 출력을 상기 평면 레이어 오디오 출력으로 제공하는 서라운드 레이어 및 A surround layer for performing surround layer binaural encoding to generate a surround layer binaural output and providing the generated surround layer binaural output as the plane layer audio output,
    스테레오 신호를 입력 받아서 상기 스테레오 신호에 상응하는 상기 평면 레이어 오디오 출력을 생성하는 근접용 스테레오 레이어 중 어느 하나인 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 장치.And a proximity stereo layer for receiving the stereo signal and generating the plane layer audio output corresponding to the stereo signal.
  13. 청구항 12에 있어서,The method of claim 12,
    상기 3차원 레이어 바이노럴 출력은The three-dimensional layer binaural output
    4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic) 상에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성되는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 장치.Dimensional binaural point on the 8-channel based three-dimensional Cubic consisting of 4 up channels and 4 down channels. The binaural stereo audio Generating device.
  14. 청구항 12에 있어서,The method of claim 12,
    상기 프로세서는The processor
    3차원 가중치를 상기 3차원 레이어 바이노럴 출력에 적용하고, 평면 가중치를 상기 평면 레이어 오디오 출력에 적용하고, Applying a three-dimensional weight to the three-dimensional layer binaural output, applying a plane weight to the planar layer audio output,
    상기 3차원 가중치 및 상기 평면 가중치는 서로 독립적으로 설정되는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 장치.Wherein the three-dimensional weight and the plane weight are set independently of each other.
  15. 청구항 11에 있어서,The method of claim 11,
    상기 프로세서는The processor
    서브우퍼 레이어에 상응하는 서브우퍼 출력을 상기 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력과 함께 합산하여 상기 바이노럴 스테레오 출력을 생성하는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 장치.Wherein the binaural stereo output is generated by summing the sub-woofer output corresponding to the sub-woofer layer together with the three-dimensional layer binaural output and the planar layer audio output.
  16. 청구항 13에 있어서,14. The method of claim 13,
    상기 3차원 큐빅은The three-
    상기 3차원 큐빅의 꼭지점에 해당하는 8개의 동적 스피커들의 위치를 상기 3차원 바이노럴 레이어에 대한 크기 파라미터에 상응하게 변경하여 생성되는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 장치.Wherein the positions of the eight dynamic speakers corresponding to the vertexes of the cubic cubic are generated by changing the positions of the dynamic speakers corresponding to the size parameters for the 3D binaural layer.
  17. 청구항 13에 있어서,14. The method of claim 13,
    상기 3차원 벡터는The three-dimensional vector
    상기 3차원 큐빅의 내부에 포함되고, 상기 서라운드 레이어에 상응하는 2차원 평면의 중심에 해당하는 기준 청취점을 기준으로 생성되는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 장치.Wherein the binaural stereo audio is generated based on a reference listening point included in the 3D cubic and corresponding to a center of a two-dimensional plane corresponding to the surround layer.
  18. 청구항 13에 있어서,14. The method of claim 13,
    상기 프로세서는The processor
    상기 3차원 벡터의 방향 정보를 헤드 트래킹 정보에 상응하게 회전된 상기 3차원 큐빅에 적용하여 상기 3차원 레이어 바이노럴 출력을 생성하되, 상기 헤드 트래킹 정보는 헤드 트래킹 모듈에 기반한 트래킹 입력 및 사용자 인터페이스에 기반한 사용자 입력 중 적어도 하나에 상응하게 획득되는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 장치.Dimensional brain binaural output by applying the direction information of the three-dimensional vector to the rotated cubic bikes corresponding to the head tracking information, wherein the head tracking information includes a tracking input based on a head tracking module and a user interface Wherein the binaural stereo audio is generated corresponding to at least one of the user input based on the input of the binaural stereo audio.
  19. 청구항 18에 있어서,19. The method of claim 18,
    상기 3차원 큐빅은 The three-
    팬(Pan), 틸트(tilt) 및 롤(roll) 중 적어도 하나의 회전 파라미터에 상응하게 회전되는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 장치.And wherein the binaural stereo audio is rotated in accordance with at least one rotation parameter of a pan, a tilt, and a roll.
  20. 청구항 13에 있어서,14. The method of claim 13,
    상기 평면 레이어는 상기 4개의 업 채널들과 상기 4개의 다운채널들 사이에 위치하는 것을 특징으로 하는 바이노럴 스테레오 오디오 생성 장치.Wherein the flat layer is located between the four up channels and the four down channels.
PCT/KR2019/001019 2018-01-29 2019-01-24 Method for generating binaural stereo audio and apparatus therefor WO2019147041A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0010874 2018-01-29
KR1020180010874A KR102119239B1 (en) 2018-01-29 2018-01-29 Method for creating binaural stereo audio and apparatus using the same

Publications (1)

Publication Number Publication Date
WO2019147041A1 true WO2019147041A1 (en) 2019-08-01

Family

ID=67394773

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/001019 WO2019147041A1 (en) 2018-01-29 2019-01-24 Method for generating binaural stereo audio and apparatus therefor

Country Status (2)

Country Link
KR (1) KR102119239B1 (en)
WO (1) WO2019147041A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140125745A (en) * 2013-04-19 2014-10-29 한국전자통신연구원 Processing appratus mulit-channel and method for audio signals
JP2016523045A (en) * 2013-05-07 2016-08-04 ボーズ・コーポレーションBose Corporation Signal processing for headrest-based audio systems
WO2017051079A1 (en) * 2015-09-25 2017-03-30 Nokia Technologies Oy Differential headtracking apparatus
WO2017072118A1 (en) * 2015-10-26 2017-05-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a filtered audio signal realizing elevation rendering
WO2017097324A1 (en) * 2015-12-07 2017-06-15 Huawei Technologies Co., Ltd. An audio signal processing apparatus and method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102007991B1 (en) 2013-07-25 2019-08-06 한국전자통신연구원 Binaural rendering method and apparatus for decoding multi channel audio

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140125745A (en) * 2013-04-19 2014-10-29 한국전자통신연구원 Processing appratus mulit-channel and method for audio signals
JP2016523045A (en) * 2013-05-07 2016-08-04 ボーズ・コーポレーションBose Corporation Signal processing for headrest-based audio systems
WO2017051079A1 (en) * 2015-09-25 2017-03-30 Nokia Technologies Oy Differential headtracking apparatus
WO2017072118A1 (en) * 2015-10-26 2017-05-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a filtered audio signal realizing elevation rendering
WO2017097324A1 (en) * 2015-12-07 2017-06-15 Huawei Technologies Co., Ltd. An audio signal processing apparatus and method

Also Published As

Publication number Publication date
KR102119239B1 (en) 2020-06-04
KR20190091824A (en) 2019-08-07

Similar Documents

Publication Publication Date Title
WO2018182274A1 (en) Audio signal processing method and device
WO2018056780A1 (en) Binaural audio signal processing method and apparatus
WO2015147530A1 (en) Method and apparatus for rendering acoustic signal, and computer-readable recording medium
WO2017191970A2 (en) Audio signal processing method and apparatus for binaural rendering
WO2018147701A1 (en) Method and apparatus for processing audio signal
WO2014175669A1 (en) Audio signal processing method for sound image localization
WO2019147040A1 (en) Method for upmixing stereo audio as binaural audio and apparatus therefor
WO2015142073A1 (en) Audio signal processing method and apparatus
WO2014088328A1 (en) Audio providing apparatus and audio providing method
WO2015156654A1 (en) Method and apparatus for rendering sound signal, and computer-readable recording medium
WO2014157975A1 (en) Audio apparatus and audio providing method thereof
WO2016089180A1 (en) Audio signal processing apparatus and method for binaural rendering
WO2015147619A1 (en) Method and apparatus for rendering acoustic signal, and computer-readable recording medium
WO2019004524A1 (en) Audio playback method and audio playback apparatus in six degrees of freedom environment
WO2015152665A1 (en) Audio signal processing method and device
WO2019107868A1 (en) Apparatus and method for outputting audio signal, and display apparatus using the same
WO2012005507A2 (en) 3d sound reproducing method and apparatus
WO2014021588A1 (en) Method and device for processing audio signal
WO2019147064A1 (en) Method for transmitting and receiving audio data and apparatus therefor
WO2011139090A2 (en) Method and apparatus for reproducing stereophonic sound
WO2019031652A1 (en) Three-dimensional audio playing method and playing apparatus
WO2019035622A1 (en) Audio signal processing method and apparatus using ambisonics signal
WO2019066348A1 (en) Audio signal processing method and device
WO2016190460A1 (en) Method and device for 3d sound playback
JP2018110366A (en) 3d sound video audio apparatus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19743311

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19743311

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 05/02/2021)

122 Ep: pct application non-entry in european phase

Ref document number: 19743311

Country of ref document: EP

Kind code of ref document: A1