ES2960983T3 - Método y dispositivo para descomponer y recombinar datos de audio y/o visualizar datos de audio - Google Patents

Método y dispositivo para descomponer y recombinar datos de audio y/o visualizar datos de audio Download PDF

Info

Publication number
ES2960983T3
ES2960983T3 ES20712463T ES20712463T ES2960983T3 ES 2960983 T3 ES2960983 T3 ES 2960983T3 ES 20712463 T ES20712463 T ES 20712463T ES 20712463 T ES20712463 T ES 20712463T ES 2960983 T3 ES2960983 T3 ES 2960983T3
Authority
ES
Spain
Prior art keywords
track
decomposed
input data
volume level
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES20712463T
Other languages
English (en)
Inventor
Kariem Morsy
Federico Tessmann
Christoph Teschner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Algoriddim GmbH
Original Assignee
Algoriddim GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Algoriddim GmbH filed Critical Algoriddim GmbH
Application granted granted Critical
Publication of ES2960983T3 publication Critical patent/ES2960983T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/008Visual indication of individual signal levels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04886Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/08Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by combining tones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/46Volume control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/02Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
    • H04H60/04Studio equipment; Interconnection of studios
    • H04H60/05Mobile studios
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/081Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/125Medley, i.e. linking parts of different musical pieces in one single piece, e.g. sound collage, DJ mix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/195Modulation effects, i.e. smooth non-discontinuous variations over a time interval, e.g. within a note, melody or musical transition, of any sound parameter, e.g. amplitude, pitch, spectral response, playback speed
    • G10H2210/241Scratch effects, i.e. emulating playback velocity or pitch manipulation effects normally obtained by a disc-jockey manually rotating a LP record forward and backward
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/375Tempo or beat alterations; Music timing control
    • G10H2210/391Automatic tempo adjustment, correction or control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/106Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters using icons, e.g. selecting, moving or linking icons, on-screen symbols, screen regions or segments representing musical elements or parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/005Device type or category
    • G10H2230/015PDA [personal digital assistant] or palmtop computing devices used for musical purposes, e.g. portable music players, tablet computers, e-readers or smart phones in which mobile telephony functions need not be used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/035Crossfade, i.e. time domain amplitude envelope control of the transition between musical sounds or melodies, obtained for musical purposes, e.g. for ADSR tone generation, articulations, medley, remix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/641Waveform sampler, i.e. music samplers; Sampled music loop processing, wherein a loop is a sample of a performance that has been edited to repeat seamlessly without clicks or artifacts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/06Receivers
    • H04B1/16Circuits
    • H04B1/1646Circuits adapted for the reception of stereophonic signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/02Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
    • H04H60/04Studio equipment; Interconnection of studios
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/003Digital PA systems using, e.g. LAN or internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/005Audio distribution systems for home, i.e. multi-room use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Otolaryngology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Machine Translation (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

La presente invención se refiere a un método para procesar y reproducir datos de audio que comprende las etapas de recibir datos de entrada mezclados y reproducir datos de salida recombinados. Además, la invención se refiere a un dispositivo 10 para procesar y reproducir datos de audio, preferiblemente equipo de DJ, que comprende una unidad de entrada de audio para recibir una señal de entrada mezclada, una unidad de recombinación 32 y una unidad de reproducción 34 para reproducir datos de salida recombinados. La invención se refiere a un método y un dispositivo para representar datos de audio, es decir, en una pantalla. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Método y dispositivo para descomponer y recombinar datos de audio y/o visualizar datos de audio
La presente invención se refiere a un método para procesar y reproducir datos de audio que comprende las etapas de recibir datos de entrada mixtos y reproducir datos de salida recombinados. Además, la invención se refiere a un dispositivo para procesar y reproducir datos de audio, siendo el dispositivo un equipo de DJ, que comprende una unidad de entrada de audio para recibir una señal de entrada mixta, una unidad de recombinación y una unidad de reproducción para reproducir datos de salida.
La publicación de patente EP 2437516 A1 da a conocer un aparato de fundido cruzado para su uso por un DJ, que comprende una unidad de división de frecuencia que permite un fundido cruzado selectivo de frecuencia; propone además mejoras de interfaces de usuario correspondientes.
La publicación de patente US 2018/005614 A1 da a conocer un método para fundido cruzado inteligente, que implica una separación de fuentes de sonido y selección automática de fuentes de sonido que van a usarse durante el fundido cruzado.
La publicación de patente US 2018/122403 A1 da a conocer métodos para separación de fuentes de audio usando, por ejemplo, una red neuronal en el contexto, por ejemplo, de reconocimiento de voz o postproducción de audio o remasterización.
Un equipo de audio de las características anteriormente mencionadas se usa en diversas aplicaciones en las que se reproducen datos de audio, se procesan, se transmiten o se graban. En particular, se usan métodos y dispositivos de tal tipo en el campo del entretenimiento musical y pueden implementarse en sistemas de sonido para entretenimiento en directo y sistemas de anuncios públicos (sistemas de PA). Un ejemplo es un equipo de DJ que está convencionalmente adaptado para recibir al menos dos señales de entrada diferentes y comprende una unidad de recombinación para mezclar las dos señales de entrada a niveles de volumen deseados. Los dispositivos de DJ incluyen habitualmente un elemento de control denominado dispositivo de fundido cruzado para aumentar el nivel de volumen de la primera señal de entrada mientras que al mismo tiempo se reduce el nivel de volumen de la segunda señal de entrada tal como para combinar de manera continua entre las señales de entrada.
En los últimos años, la contribución creativa y artística de los disc-jockeys (pinchadiscos) durante espectáculos en directo ha tenido un impacto significativo no sólo sobre la calidad global del entretenimiento en un lugar particular, sino también sobre el desarrollo de la música moderna como tal. Determinados efectos de audio, variaciones de sincronismo y altura desarrollados por DJ influyentes, se han usado en disposiciones modernas de grabaciones producidas de manera convencional. Por consiguiente, existe un fuerte deseo en el campo de explorar nuevas técnicas para la modificación en directo de señales de audio existentes con el fin de aumentar adicionalmente la libertad creativa para el DJ durante el espectáculo.
Además de los aspectos creativos del trabajo de DJ, existe una tarea principal de un DJ de combinar sin interrupciones entre dos canciones. Con este fin, un equipo de DJ convencional proporciona características para cambiar el tempo y el tono de una canción tal como para coincidir con el tempo y el tono de la otra canción, respectivamente, y proporciona controles para el fundido cruzado de volúmenes o parámetros de efectos de audio, por ejemplo efectos de ecualizador, de las dos canciones. Con el fin de lograr una transición suave, un objetivo del DJ es evitar el encuentro de las partes vocales de las dos canciones. Por tanto, la transición se realiza habitualmente durante un intervalo de tiempo en el que al menos una de las dos canciones tiene una pausa en la pista vocal, por ejemplo durante una parte de solo instrumental, una parte de coda o durante una interrupción entre estribillo y verso o en posiciones similares. Sin embargo, esto supone una limitación considerable para el DJ y requiere un buen conocimiento o análisis del material de canción durante el mezclado. Además, en muchas canciones, especialmente en el género de Pop o Hip Hop, con frecuencia casi no hay ninguna interrupción en la pista vocal que sea lo suficientemente grande para el DJ como para permitir una transición suave a la otra canción. Para tales canciones, algunas veces no puede evitarse un encuentro de dos partes vocales que se reproducen juntas o alguna interrupción en el flujo con las técnicas convencionales.
Con respecto a las fuentes de audio, en particular los datos de entrada disponibles para el DJ, los métodos y dispositivos convencional habitualmente se encuentran confinados a procesar señales de entrada mixtas tales como archivos de audio estéreo mixtos obtenidos a partir de tiendas de música digital en línea o servicios de transmisión en continuo. Los archivos de audio se producen habitualmente en un estudio de música mezclando una pluralidad de pistas de origen, por ejemplo una pluralidad de pistas vocales e instrumentales, aplicando efectos de audio y masterizando el proyecto para obtener un archivo de audio estéreo. Dado que el archivo de audio acabado es una señal de suma de todas las pistas de origen y efectos, etc., habitualmente se pierde información sobre las pistas de origen individuales y ya no está disponible a partir de una inspección directa del archivo de audio por sí solo.
En los últimos años, ha habido varios enfoques basados en inteligencia artificial y redes neuronales profundas con el fin de descomponer señales de audio mixtas para separar una parte vocal de la señal. Algunos sistemas de IA implementan habitualmente una red neuronal convolucional (CNN), que se ha entrenado mediante una pluralidad de conjuntos de datos que incluyen una pista vocal, una pista instrumental y una mezcla de la pista vocal y la pista instrumental. Los ejemplos de tales sistemas de IA convencionales que pueden separar pistas de origen tales como una pista de voz de cantante a partir de una señal de audio mixta incluyen: Prétet, “Singing Voice Separation: A study on training data”, Acoustics, Speech and Signal Processing (ICASSP), 2019, páginas 506-510; “spleeter” (una herramienta de código abierto proporcionada por la empresa de transmisión en continuo de música Deezer basada en las enseñanzas de Prétet anteriores), “PhonicMind” (https://phonicmind.com) (un separador de voz y origen basado en redes neuronales profundas), “Open-Unmix” (un separador de fuentes de música basado en redes neuronales profundas en el dominio de frecuencia), o “Demucs” de Facebook AI Research (un separador de fuentes de música basado en redes neuronales profundas en el dominio de forma de onda). Estas herramientas aceptan archivos de música en formatos convencionales (por ejemplo MP3, WAV, AIFF) y descomponen la canción completa para proporcionar pistas descompuestas/separadas de la canción, por ejemplo una pista vocal, una pista de graves, una pista de tambor, una pista de acompañamiento o cualquier mezcla de las mismas. Entonces pueden almacenarse las pistas por el usuario para la producción de audio, con fines de análisis o reproducción. Por ejemplo, los sistemas de IA convencionales pueden usarse para configurar una máquina de karaoke eliminando pistas vocales de canciones comercialmente disponibles.
Aunque puede pensarse en cargar pistas de origen como archivos de entrada en un sistema de DJ para permitir recombinar estas pistas durante un espectáculo en directo, tales enfoques no llegaron a ser populares entre los DJ por varios motivos.
En primer lugar, las pistas de origen individuales, tales como pistas de voz originales, de música comercialmente disponible habitualmente no están disponibles por separado, ya que las discográficas o los productores habitualmente sólo proporcionan archivos de audio mixtos completos. En segundo lugar, en el caso de transmisión en continuo de música en la que se necesita procesar y reproducir datos de audio sobre la marcha, habitualmente no será posible descargar todo el contenido de audio por adelantado y preprocesarlo antes de la reproducción con un módulo de software tal como una de las herramientas anteriormente mencionadas.
En tercer lugar, la descomposición de archivos de audio que tienen una duración de reproducción típica de un par de minutos o más implica cálculos complejos que requieren relativamente mucho tiempo, especialmente cuando se usa una red neuronal, de tal manera que se requiere mucho tiempo y trabajo para preparar la configuración antes de un espectáculo, es decir para subir, descomponer, descargar, almacenar y organizar todas las pistas que es posible que se desee usar durante el espectáculo show. En general, se sabe que la descomposición usando redes neuronales logra una separación precisa y de buena calidad de pistas pero tarda relativamente mucho tiempo en descomponer un archivo de audio de tamaño habitual (duración de reproducción de unos pocos minutos). Por otro lado, la descomposición sin redes neuronales, por ejemplo basándose en procesamiento de señales digitales simple tal como sustraer el canal izquierdo del derecho en un archivo de audio estéreo, también conocido como cancelación de fase (basado en la suposición de que muchas pistas vocales de origen se graban en mono y se aplican por igual en ambos canales de estéreo), se sabe que es rápida y, con respecto al tiempo de procesamiento, puede ser adecuada para su uso en circunstancias en directo, sin embargo estos enfoques proporcionan una baja calidad y habitualmente no producen los resultados previstos. En cuarto lugar, los sistemas de DJ que permiten la reproducción de pistas separadas requieren unidades de mezclado de múltiples canales que tienen dispositivos de fundido independientes para ajustar el volumen de cada pista. Tales dispositivos de fundido adicionales son difíciles de accionar simultáneamente para el DJ y aumentan la complejidad del sistema.
El documento US 2018/005614 A1 da a conocer un método para procesar y reproducir datos de audio según la parte de preámbulo de la reivindicación 1.
El documento EP 2 437 516 A1 da a conocer una unidad de fundido cruzado que tiene un dispositivo de ajuste mediante banda que ajusta una tasa de mezclado de una señal de audio en cada banda de frecuencia.
El documento US 2018/0122403 A1 da a conocer métodos y sistemas para la separación de fuentes de audio en tiempo real.
En vista de los antecedentes anteriores, un objetivo de la presente invención es proporcionar un método y un dispositivo para procesar y reproducir datos de audio que aumenten la libertad artística y creativa de un usuario para controlar la reproducción de datos de audio, preferiblemente en las circunstancias de un espectáculo en directo.
Según un primer aspecto de la presente invención, el objetivo anterior se logra mediante un método según la reivindicación 1.
En el contexto de la presente divulgación, los datos de entrada mixtos son representativos de una señal de audio obtenida a partir de mezclar una pluralidad de pistas de origen, en particular durante la producción de música. Por tanto, los datos de entrada mixtos se obtienen a partir de un procedimiento de mezclado anterior que se ha completado antes del inicio del procesamiento según el método de la presente invención. Dicho de otro modo, los métodos de la invención usan datos de entrada a partir de un procedimiento de mezclado anterior, independiente del procesamiento de la presente invención. En particular, los datos de entrada mixtos pueden ser archivos de audio, por ejemplo archivos de audio que contienen un fragmento de música que se ha producido en un estudio de grabación mezclando una pluralidad de pistas de origen. Por ejemplo, una primera pista de origen puede ser una pista vocal obtenida a partir de la grabación de un vocalista a través de un micrófono, mientras que una segunda pista de origen puede ser una pista instrumental obtenida a partir de la grabación de un instrumentalista a través de un micrófono o una señal de línea directa a partir del instrumento. Habitualmente, se graba una pluralidad de pistas vocales y/o una pluralidad de pistas instrumentales al mismo tiempo o una después de otra. Después se transfiere la pluralidad de pistas de origen a una estación de mezclado en la que se editan las pistas de origen de manera individual, se aplican diversos efectos de sonido a las pistas de origen, se asignan niveles individuales de volumen y preferiblemente se aplican finalmente uno o más efectos de masterización a la suma de todas las pistas. Al final del procedimiento de producción, se almacena la mezcla de audio final en un medio de grabación adecuado, por ejemplo en un archivo de audio en el disco duro de un ordenador. Tales archivos de audio tienen preferiblemente un formato de archivo de audio convencional tal como MP3, WAV, AIFF u otro, con el fin de poder leerse por dispositivos de reproducción convencionales, tales como ordenadores o teléfonos inteligentes que ejecutan un sistema operativo móvil de Apple (iOS), un sistema operativo de Macintosh de Apple (macOS), un sistema operativo de Microsoft Windows o un sistema operativo Android de Google, etc.
En realizaciones de la presente invención, los datos de entrada mixtos son preferiblemente archivos de audio, especialmente archivos de audio que contienen música. Los métodos o dispositivos de la presente invención están preferiblemente configurados para almacenar tales archivos de audio en medios de almacenamiento locales del dispositivo y/o para recibir, especialmente para transmitir en continuo, tales archivos de audio a partir de un servidor remoto, por ejemplo a través de Internet. Por tanto, los dispositivos de la presente invención pueden comprender medios de conectividad en red, tales como una interfaz de WIFI o una interfaz de LAN, configurados para recibir los archivos de audio. Alternativa o adicionalmente, los dispositivos pueden tener cualquier otra conectividad, tal como una interfaz de Bluetooth o un puerto USB, adaptada para recibir archivos de audio. El dispositivo puede tener un disco duro para almacenar datos de audio.
Según una realización de la presente invención, las etapas de recibir datos de entrada mixtos, descomponer los datos de entrada mixtos, generar y reproducir datos de salida se llevan a cabo en un procedimiento continuo. Esto significa que el procesamiento de los datos de audio desde la entrada (recibir datos de entrada mixtos) hasta la salida (reproducir datos de salida) se lleva a cabo de manera continua, o sobre la marcha, es decir sin retardo de tiempo sustancial. Por ejemplo, la reproducción de datos de audio descompuestos puede iniciarse dentro de un periodo de tiempo menor de 2 segundos, preferiblemente menor de 150 milisegundos, lo más preferiblemente menor de 50 milisegundos, desde la recepción de los datos de entrada mixtos. En particular, no es necesario subir archivos de audio a un servidor remoto de un proveedor de servicios de descomposición, esperar a que se termine la descomposición en el servidor remoto y descargar la pista descompuesta a partir del servidor a un dispositivo local, almacenar la pista descompuesta en una memoria local y después reproducir la pista descompuesta. El procesamiento continuo puede realizarse llevando a cabo las etapas del procedimiento, es decir recibiendo datos de entrada mixtos, descomponiendo los datos de entrada mixtos, generando y reproduciendo datos de salida dentro de un único dispositivo o dentro de una pluralidad de dispositivos locales todos ellos conectados entre sí mediante cables y/o en una red local y/o mediante conexiones inalámbricas de campo cercano (WIFI, Bluetooth, IR etc.). Adicional o alternativamente, el procesamiento continuo que incluye las etapas de recibir datos de entrada mixtos, descomponer los datos de entrada mixtos, generar y reproducir datos de salida puede implementarse dentro de una única aplicación de software (único programa de software o app), adaptada para ejecutarse en una unidad de control electrónica (ECU) tal como un ordenador, un ordenador de tipo tableta, un teléfono inteligente, una consola de hardware de DJ autónoma, etc.
Según el método de la presente invención, los datos de entrada mixtos del tipo anteriormente descrito se reciben y se descomponen tal como para obtener una primera pista descompuesta que se asemeja a una primera pista de origen o una suma de primeras pistas de origen. Además, se obtiene una segunda pista descompuesta durante la descomposición que se asemeja a una segunda pista de origen o una suma de segundas pistas de origen. Por ejemplo, la primera pista descompuesta puede asemejarse a una pista de voz original o la señal de suma de una pluralidad de pistas de voz, por ejemplo la suma de pistas de voz originales de cada vocalista de un coro o la señal de suma de dos o más pistas de voz a partir de una pista vocal duplicada. Asimismo, la segunda pista descompuesta puede asemejarse a una pista instrumental original tal como una única pista instrumental grabada o producida o una señal de suma de múltiples pistas instrumentales tal como la señal de suma de todas las pistas instrumentales. En una realización preferida, la primera pista descompuesta se asemeja a la pista vocal principal o la suma de todas las pistas vocales principales de manera aislada, mientras que la segunda pista descompuesta se asemeja al resto de la mezcla, es decir la suma de todas las pistas excepto por la(s) pista(s) vocal(es) principal(es).
La calidad de los resultados de descomposición, es decir cuándo se asemeja una pista descompuesta a una pista de origen correspondiente, puede evaluarse usando, por ejemplo, el conjunto de datos de MUSDB18 (Zafar Rafii, Antoine Liutkus, Fabian-Robert Stoter, Stylianos loannis Mimilakis, y Rachel Bittner. The musdb18 corpus for music separation, 2017) que sirve como referencia convencional y base de datos de referencia para la evaluación de algoritmos de descomposición. Los experimentos con el conjunto de datos de MUSDB18 miden normalmente la relación señal/distorsión (SDR) entre otras medidas, así como evaluaciones humanas tal como se evalúa mediante puntuación de opinión media (MOS) sobre la calidad percibida de los resultados de descomposición.
Las puntuaciones de SDR del estado de la técnica son mayores de 5,0, algunas incluso mayores de 7,0 (Defossez, A., Usunier, N., Bottou, L. y Bach, F. (2019). Music Source Separation in the Waveform Domain. arXiv, prepublicación arXiv: 1911.13254).
Con respecto a la evaluación humana pueden proporcionarse, por ejemplo, 2 clasificaciones en una escala de 1 a 5: en primer lugar la calidad y ausencia de artefactos (1: muchos artefactos y distorsión, el contenido casi no puede reconocerse, 5: calidad perfecta sin artefactos) y en segundo lugar la contaminación por otras pistas de origen (1: la contaminación es frecuente y fuerte, 5: sin contaminación). Las clasificaciones de evaluación humana del estado de la técnica son mayores de 3,0 o incluso mayores de 4,0. Preferiblemente, en realizaciones de la presente invención, en una etapa de descomponer una pista mixta obtenida a partir de mezclar al menos una primera pista de origen con al menos una segunda fuente, para obtener una pista descompuesta, la pista descompuesta se asemeja a la primera pista de origen con una puntuación de MOS de más de 2,0, preferiblemente más de 4,0, y/o con una puntuación de SDR de más de 3,0 dB, preferiblemente más de 5,0 dB.
Según la invención, se proporciona una segunda pista y el método comprende las siguientes etapas, preferiblemente llevadas a cabo en el procedimiento continuo: leer una entrada de control a partir de un usuario, representando dicha entrada de control unos ajustes deseados de un primer nivel de volumen de la primera pista descompuesta y un segundo nivel de volumen de la segunda pista, recombinar al menos la primera pista descompuesta al primer nivel de volumen con la segunda pista al segundo nivel de volumen para generar datos de salida recombinados, y reproducir los datos de salida recombinados. La segunda pista se obtiene en la etapa de descomponer los datos de entrada mixtos y, por tanto, forma una segunda pista descompuesta que se asemeja a la al menos una segunda pista de origen de los datos de entrada mixtos.
En el contexto de la presente divulgación, la recombinación de una primera pista con una segunda pista puede lograrse de cualquier manera conocida como tal, por ejemplo mediante un procesamiento de recombinación que comprende una primera etapa de ajustar a escala las pistas basándose en sus niveles de volumen respectivos (por ejemplo, multiplicando los valores de señal de la primera y segunda pistas por su primer y segundo niveles de volumen respectivos, o usando cualquier unidad de amplificación adecuada que amplifica la primera y segunda pistas según su primer y segundo niveles de volumen), y una segunda etapa de mezclar las pistas ajustadas a escala/amplificadas en un mezclador de software o hardware (por ejemplo, sumando los valores de señal de las pistas ajustadas a escala/amplificadas en intervalos de tiempo iguales o correspondientes).
En particular, según la presente invención se proporciona un método para procesar y reproducir datos de audio, que comprende las etapas de recibir datos de entrada mixtos, siendo dichos datos de entrada mixtos una señal de suma obtenida a partir de mezclar al menos una primera pista de origen, por ejemplo una pista vocal, y al menos una segunda pista de origen, por ejemplo una pista instrumental, descomponer los datos de entrada mixtos para obtener al menos una primera pista descompuesta que se asemeja a la al menos una primera pista de origen, y una segunda pista descompuesta que se asemeja a la al menos una segunda pista de origen, leer una entrada de control a partir de un usuario, representando dicha entrada de control unos ajustes deseados de un primer nivel de volumen de la primera pista descompuesta y un segundo nivel de volumen de la segunda pista descompuesta, recombinar al menos la primera pista descompuesta al primer nivel de volumen con la segunda pista descompuesta al segundo nivel de volumen para generar datos de salida recombinados, y reproducir los datos de salida recombinados.
Usar una segunda pista según cualquiera de las realizaciones anteriormente descritas es particularmente adecuado para aplicaciones en directo con el fin de crear y reproducir inmediatamente nuevas recombinaciones, por ejemplo remezclas omashups,basándose en la primera pista descompuesta y otra pista. En la presente invención, el método permite que un usuario controle los niveles de volumen de la primera y segunda pistas descompuestas y recombine la primera y segunda pistas descompuestas a los niveles de volumen especificados tal como para reproducir la señal de salida recombinada obtenida a partir de la recombinación de la primera y segunda pistas descompuestas. Específicamente, esto permite que un DJ realice transiciones sin interrupciones entre canciones, en particular que evite el solapamiento de la reproducción vocal durante una transición. Incluso durante un intervalo de tiempo de la reproducción en el que ambas canciones contienen partes vocales, el usuario puede realizar una combinación sin interrupciones entre las canciones, por ejemplo simplemente reduciendo gradualmente el volumen de una de las partes vocales tal como para proporcionar espacio para aumentar gradualmente las partes vocales de la otra canción. En cualquier momento antes, después o durante la transición vocal, el usuario puede realizar una transición de la pista instrumental de la primera canción a la pista instrumental de la segunda canción.
Otra ventaja lograda mediante un método de la invención es que un usuario puede acceder a componentes individuales de una mezcla de audio con el fin de poder recombinar estas componentes de una manera modificada para crear un denominadomashupo remezcla. Esto proporciona varias nuevas opciones para el trabajo creativo o artístico del usuario cuando se reproduce audio tal como durante un espectáculo en directo. Por ejemplo, el usuario puede usar la entrada de control para manipular una razón de volumen entre una pista vocal descompuesta y una pista instrumental descompuesta mientras se reproducen los datos de salida recombinados, por ejemplo desplazarse entre parte vocal y parte instrumental según se desee, intercambiar partes vocales de dos canciones mientras se mantienen las partes instrumentales o viceversa, tal como se comentará con más detalle a continuación.
En una realización preferida de la invención, la descomposición de los datos de entrada mixtos se lleva a cabo por segmentos, en la que la descomposición y, si es aplicable, la recombinación se llevan a cabo basándose en un primer segmento de los datos de entrada mixtos tal como para obtener un primer segmento de datos de salida, y en la que la descomposición de un segundo segmento de los datos de entrada mixtos se lleva a cabo mientras se reproduce el primer segmento de datos de salida.
Una descomposición por segmentos y en paralelo de datos de entrada mixtos según esta realización reduce drásticamente el tiempo requerido para realizar los cálculos de descomposición y, por tanto, permite iniciar la reproducción de los datos de salida significativamente más pronto, preferiblemente de manera inmediata, es decir sin latencia perceptible. En particular, no es necesario descomponer los datos de entrada completos tal como el archivo de audio completo con el fin de obtener datos de pista descompuesta reproducibles. En vez de eso, será suficiente con terminar la descomposición de tan sólo un segmento, o tan sólo algunos, pero no todos, de los segmentos de un archivo de audio con el fin de poder iniciar la reproducción, porque partes de los cálculos de descomposición, en particular la descomposición de otros segmentos del archivo de audio, se llevará a cabo durante la reproducción de segmentos anteriores.
Otro efecto técnico de la descomposición por segmentos es que es más eficiente en cuanto a memoria y no será necesario almacenar todos los datos de entrada mixtos, en particular el archivo de audio de entrada completo, de una vez dentro de una memoria local del equipo (lo cual puede no ser ni siquiera posible ni desearse para fuentes que proporcionan material de audio destinado a su uso en transmisión en continuo, pero no para descargarse y/o almacenarse de manera permanente todo el archivo de audio de entrada en un disco duro, por ejemplo). En vez de eso, las descomposición y recombinación de los datos de audio pueden llevarse a cabo sobre la marcha basándose en un flujo continuo de datos de entrada mixtos, por ejemplo un flujo de audio continuo a partir de un servidor remoto, tal como un servicio de música de transmisión en continuo (Spotify, Apple Music, etc.). Por tanto, los datos de entrada mixtos pueden recibirse mediante transmisión en continuo a partir de un servidor remoto, preferiblemente a través de Internet.
Otra ventaja de la descomposición por segmentos es que la reproducción de los datos de salida puede iniciarse en cualquier posición deseada (en cualquier momento de reproducción deseado). En particular, el primer segmento, que se descompone en primer lugar, no tiene que ser necesariamente el segmento inicial al comienzo del archivo de audio. En particular, no es necesario procesar y descomponer todo el archivo de audio, sino que, en vez de eso, la descomposición puede iniciarse en el mismo segmento que contiene la posición de reproducción deseada. Por tanto, es posible saltar de manera rápida y precisa hacia delante y hacia atrás hasta posiciones arbitrarias dentro de un archivo de audio con poco o incluso sin ningún retardo perceptible, independientemente del tamaño y la duración de reproducción de todo el archivo de audio.
Según una realización adicional de la presente invención, puede proporcionarse un método del tipo anteriormente descrito, en el que, en la etapa (a), se recibe un archivo de audio de entrada que tiene un tamaño de archivo predeterminado y una duración de reproducción predeterminada, que contiene datos de audio para reproducir los datos de entrada mixtos, y se extrae un primer segmento a partir del archivo de audio de entrada, que contiene datos de audio para reproducir los datos de entrada mixtos dentro de un primer intervalo de tiempo menor que la duración de reproducción predeterminada, en el que, en la etapa (b), se descompone el primer segmento del archivo de audio de entrada para obtener un primer segmento de la primera pista descompuesta y opcionalmente un primer segmento de la segunda pista descompuesta, en el que, en la etapa (c), se genera un primer segmento de los datos de salida a partir del primer segmento de la primera pista descompuesta, preferiblemente recombinando al menos el primer segmento de la primera pista descompuesta al primer nivel de volumen con el primer segmento de la segunda pista descompuesta al segundo nivel de volumen, y en el que el método comprende además las etapas de: (a2) extraer un segundo segmento a partir del archivo de audio de entrada, que es diferente del primer segmento y que contiene datos de audio para reproducir los datos de entrada mixtos dentro de un segundo intervalo de tiempo menor que la duración de reproducción predeterminada del archivo de audio de entrada y desplazado en el tiempo con respecto al primer intervalo de tiempo, (b2) descomponer el segundo segmento del archivo de audio de entrada para obtener un segundo segmento de la primera pista descompuesta y opcionalmente un segundo segmento de la segunda pista descompuesta, opcionalmente (c2) recombinar al menos el segundo segmento de la primera pista descompuesta al primer nivel de volumen con el segundo segmento de la segunda pista descompuesta al segundo nivel de volumen para generar un segundo segmento de los datos de salida, en el que al menos una de las etapas (a2), (b2) y (c2) se realiza mientras se reproduce el primer segmento de los datos de salida, y en el que la generación del segundo segmento de los datos de salida se completa antes de completarse la reproducción del primer segmento de los datos de salida.
En la presente divulgación, el tamaño de archivo o tamaño de datos de audio se refieren al número total de tramas de datos decodificados y/o descomprimidos. Dependiendo de la tasa de muestreo específica de los datos de audio, un determinado número de tramas corresponde a una determinada duración de reproducción.
Según esta realización, los datos de entrada mixtos son un archivo de audio de entrada de un tamaño de archivo predeterminado y duración de reproducción predeterminada. Tal archivo de audio de entrada puede recuperarse a partir de un dispositivo de almacenamiento local o puede transmitirse en continuo, por ejemplo a partir de un servidor remoto a través de Internet, etc. Tal como se describió anteriormente, el archivo de audio de entrada (o una imagen/copia del mismo), preferiblemente una versión decodificada del archivo de audio de entrada en caso de usar un formato comprimido como entrada, se divide virtualmente en al menos dos segmentos y el procesamiento adicional, en particular la descomposición, se realiza basándose en los segmentos. En cuanto se descompone un segmento, los segmentos de las pistas descompuestas pueden procesarse adicionalmente de manera inmediata, en particular recombinarse y reproducirse, mientras que puede comenzarse o continuarse la descomposición del segundo segmento. Dado que el tamaño (en tramas) y la duración de reproducción de los segmentos es habitualmente menor (preferiblemente mucho menor, por ejemplo con una duración de reproducción de menos de 20 segundos) que el tamaño y la duración de reproducción del archivo de audio de entrada (habitualmente varios minutos), el tiempo requerido para descomponer un segmento es significativamente menor y la reproducción del segmento correspondiente de la señal de salida puede iniciarse antes. Además, durante la reproducción de un primer segmento de los datos de salida, el procesamiento de un segundo segmento del archivo de audio de entrada, en particular la descomposición del segundo segmento para obtener un segundo segmento de la primera pista descompuesta y opcionalmente la segunda pista descompuesta, puede llevarse a cabo en paralelo. Preferiblemente, todos los segmentos tienen un tamaño igual fijo.
Preferiblemente, el tamaño de los segmentos individuales en los que se divide el archivo de audio de entrada está adaptado al tiempo de procesamiento requerido para descomponer los segmentos individuales de tal manera que la generación del segundo segmento de los datos de salida se completa antes de completarse la reproducción del primer segmento de los datos de salida. Como resultado, la reproducción de toda la pista de salida, es decir una reproducción continua de todos los segmentos consecutivos de la pista de salida completa o de una parte que va a reproducirse, puede realizarse en cuanto se completa el procesamiento/descomposición del primer segmento.
Preferiblemente, la longitud del primer intervalo de tiempo se establece de tal manera que el tiempo requerido para descomponer el primer segmento es menor de 2 segundos, de tal manera que el método puede usarse en una situación en directo, por ejemplo por un DJ que puede decidir de manera espontánea reproducir una o más pistas descompuestas para lograr efectos específicos. Además, si el tiempo requerido para descomponer el primer segmento se establece para ser menor de 150 milisegundos, una reproducción de pistas descompuestas puede iniciarse de manera más precisa en el tiempo con una compás dada tal como para permitir una reproducción prácticamente en tiempo real de cualquier parte del archivo de audio. Lo más preferiblemente, el tiempo requerido para descomponer el primer segmento es menor de 50 milisegundos de tal manera que la reproducción y la sincronización de compás/sincronismo y el desplazamiento de posición dentro del archivo de audio pueden realizarse prácticamente libre de latencia, lo que significa que no se produce ningún retardo de tiempo perceptible. En tales condiciones, las pistas descompuestas del archivo de audio pueden manipularse por el DJ de la misma manera que los archivos de audio mixtos originales o pistas de efectos convencionales, etc. Con el fin de que un experto en la técnica encuentre un tamaño de segmento adecuado, puede medir el tiempo t1 requerido para que una configuración de hardware y software dada descomponga datos de audio de una determinada duración de reproducción T1, después elegir un tiempo de descomposición deseado t2 según los requisitos como el retardo de tiempo/latencia que será aceptable, y después obtener la duración de reproducción T2 del segmento, por ejemplo a partir de la ecuación T2=T1*t2/t1. Entonces puede llevarse a cabo la división de los datos de audio en segmentos consecutivos que tienen, cada uno, una duración de reproducción T2. Si el tamaño de segmento se elige para ser demasiado pequeño, se reducirá la calidad de descomposición. Si el tamaño de segmento se elige para ser demasiado grande, se aumenta el tiempo de procesamiento y, por tanto, la latencia.
Usando métodos tal como se describió anteriormente, en particular métodos que procesan segmentos del archivo de audio de entrada para reducir el tiempo de procesamiento hasta un nivel adecuado para una actuación en directo, en principio será posible iniciar la reproducción de las pistas descompuestas en cualquier posición deseada (posición de tiempo dentro de la pista de salida) mediante procesamiento de un segmento de tamaño especificado que empieza justo en la posición de reproducción deseada. En principio, esto logrará resultados aceptables con respecto a la latencia y calidad de audio y puede usarse para una aplicación en la que el usuario simplemente desea saltar a una determinada posición en la pista para reproducir la pista desde esa posición en adelante, por ejemplo en una aplicación de reproducción de música. Sin embargo, especialmente durante el trabajo creativo de DJ, algunas veces se desea realizar de manera rápida y precisa pequeños cambios de posición, conmutación entre reproducción hacia delante o hacia atrás o cambios en la velocidad de reproducción. Por ejemplo, durante una técnica denominada“scratching",el DJ conmuta rápidamente entre reproducción hacia delante y hacia atrás en una determinada posición de la canción para lograr el efecto de audio descratchingcorrespondiente que se asemeja al efecto logrado mediante rotaciones rápidas hacia delante y hacia atrás de un disco de vinilo en reproducción. Los inventores de la presente invención han encontrado que la aplicación de tales técnicas a la pista de salida obtenida a partir de pistas descompuestas puede dar como resultado artefactos de audio y puede no lograr los resultados previstos a partir de la aplicación de la misma técnica a una pista de origen correspondiente o una pista mixta convencional correspondiente.
Los inventores han encontrado que este problema puede resolverse mediante una realización de la presente invención, que comprende las etapas de recibir un archivo de audio de entrada que tiene un tamaño de archivo predeterminado y una duración de reproducción predeterminada, que contiene datos de audio para reproducir los datos de entrada mixtos, dividir el archivo de audio de entrada en una pluralidad de segmentos en sucesión, que contienen datos de audio para reproducir los datos de entrada mixtos dentro de una pluralidad de intervalos de tiempo que se siguen unos a otros, recibir una orden de posición de reproducción a partir de un usuario que representa una orden del usuario para reproducir el archivo de audio de entrada a partir de una determinada posición de inicio de reproducción, identificar un primer segmento de la pluralidad de segmentos predeterminados de tal manera que la posición de inicio de reproducción está dentro del intervalo de tiempo que corresponde al primer segmento, descomponer el primer segmento del archivo de audio de entrada (segmento que va a procesarse en primer lugar, no necesariamente el segmento inicial del archivo de audio de entrada) para obtener un primer segmento de la primera pista descompuesta y opcionalmente un primer segmento de la segunda pista descompuesta, generar un primer segmento de los datos de salida basándose en el primer segmento de la primera pista descompuesta, preferiblemente recombinando al menos el primer segmento de la primera pista descompuesta al primer nivel de volumen con el primer segmento de la segunda pista descompuesta al segundo nivel de volumen, y reproducir el primer segmento de los datos de salida empezando en la posición de inicio de reproducción, que es una posición de reproducción posterior o igual al inicio del intervalo de tiempo del primer segmento de los datos de salida. Para claridad, el primer segmento no es necesariamente el segmento inicial del archivo de audio, sino un segmento que contiene la posición de inicio de reproducción deseada y, por tanto, que va a descomponerse en primer lugar en el procedimiento.
Se indica que los segmentos en sucesión se refieren a segmentos, en particular segmentos fijos, elegidos de tal manera que una posición de inicio de un determinado segmento es posterior a las posiciones de inicio de todos los segmentos precedentes.
Según esta realización, la descomposición del archivo de audio de entrada se realiza de nuevo en segmentos. Sin embargo, el punto de inicio del primer segmento que va a descomponerse no es necesariamente idéntico a una posición de inicio de reproducción deseada elegida por el usuario como podría haberse pensado que es la manera más eficiente en cuanto al tiempo para definir el segmento ya que contiene los datos que van a reproducirse a continuación, sino que, en vez de eso, se establece una división fija de todo el archivo de audio de entrada en la etapa de división, de tal manera que, en cada ciclo de descomposición para este archivo de audio de entrada, los puntos de inicio y los puntos de terminación de los segmentos se mantendrán fijos. Ha resultado que esta técnica reduce en gran medida o incluso evita cualquier artefacto de sonido en partes adyacentes de segmentos consecutivos en la pista descompuesta y los datos de salida. Si se usa un sistema de IA en la etapa de descomposición, un motivo para la mejora puede ser que la señal de audio descompuesta en una posición de audio específica en la pista depende de los datos analizados por el sistema de IA antes y después de la posición de audio específica en la pista, es decir en los datos de audio entre los puntos de inicio y de terminación del segmento respectivo que contiene la posición específica y se analiza por el sistema de IA. Tener segmentos predefinidos con puntos de inicio y de terminación fijos a lo largo de todo el archivo de audio de entrada garantiza que siempre se obtienen los mismos datos de audio descompuestos a partir de un análisis del mismo fragmento de datos de audio de entrada que se encuentran dentro de los mismos segmentos. Por ejemplo, si un segmento comienza en la posición 15:00 (segundos:centésimas de segundo) y tiene una duración de reproducción de 5 segundos, entonces las posiciones de inicio de reproducción 15:30, 17:50 o 18:00 se basarán todas ellas en el segmento descompuesto idéntico usando únicamente una desviación de posición diferente dentro del mismo segmento descompuesto.
En la presente invención, los datos de entrada mixtos son primeros datos de entrada mixtos que son una señal de suma obtenida a partir de mezclar al menos una primera pista de origen, por ejemplo una primera pista vocal, con una segunda pista de origen, por ejemplo una primera pista instrumental o múltiples pistas instrumentales, y el método comprende además la etapa de recibir segundos datos de entrada mixtos diferentes de dichos primeros datos de entrada mixtos, siendo dichos segundos datos de entrada mixtos una señal de suma obtenida a partir de mezclar al menos una tercera pista de origen, por ejemplo una segunda pista vocal diferente de la primera pista vocal, con al menos una cuarta pista de origen, por ejemplo una segunda pista instrumental diferente de la primera pista instrumental. Además el método comprende: descomponer los segundos datos de entrada mixtos para obtener una tercera pista descompuesta que se asemeja a la al menos una tercera pista de origen, y una cuarta pista descompuesta que se asemeja a la al menos una cuarta pista de origen, en el que, en la etapa de leer la entrada de control a partir de un usuario (por ejemplo, recibida a través de uno o más elementos de control), dicha entrada de control representa unos ajustes deseados del primer nivel de volumen de la primera pista descompuesta, el segundo nivel de volumen de la segunda pista descompuesta, un tercer nivel de volumen de la tercera pista descompuesta y un cuarto nivel de volumen de la cuarta pista descompuesta, y en el que, en la etapa de recombinación, los datos de salida recombinados se generan recombinando la primera pista descompuesta al primer nivel de volumen, la segunda pista descompuesta al segundo nivel de volumen, la tercera pista descompuesta al tercer nivel de volumen y la cuarta pista descompuesta al cuarto nivel de volumen.
Tal método puede usarse en particular en un entorno de DJ y puede implementarse en un equipo de DJ en el que dos datos de entrada mixtos diferentes, tales como dos archivos de audio diferentes (por ejemplo, dos canciones diferentes), se reproducen simultáneamente al menos durante una determinada cantidad de tiempo. Por ejemplo, durante la reproducción de una primera canción, se inicia la reproducción de una segunda canción y se reduce el nivel de volumen de la primera canción en beneficio del nivel de volumen de la segunda canción, tal como para combinar suavemente desde la primera hasta la segunda canción. En el método de la realización descrita anteriormente, pueden descomponerse tanto primeros como segundos datos de entrada mixtos para dar una primera y segunda pistas descompuestas y una tercera y cuarta pistas descompuestas, respectivamente, y el usuario puede tener la oportunidad de recombinar las pistas descompuestas de manera individual a los niveles de volumen deseados. Tal como se describió anteriormente, tales características pueden usarse en particular por un DJ para combinar suavemente entre dos canciones mientras que se evita que las pistas vocales de diferentes canciones puedan oírse al mismo tiempo. Además, dado que según una realización de este tipo será posible combinar una de las pistas descompuestas de los primeros datos de entrada mixtos con una de las pistas descompuestas de los segundos datos de entrada mixtos, puede crearse una señal de suma o mashup/remezcla de componentes de los primeros y segundos datos de entrada mixtos que es completamente nueva y, por tanto, puede lograr efectos sorprendentes. Por ejemplo, la pista vocal descompuesta de los primeros datos de entrada mixtos puede recombinarse con la pista instrumental descompuesta de los segundos datos de entrada mixtos para dejar que el auditorio escuche al cantante de una canción acompañado por las partes instrumentales de la otra canción.
Preferiblemente, al menos uno o más, lo más preferiblemente la totalidad de los datos de entrada mixtos y de la(s) pista(s) descompuesta(s) son datos estéreo, que comprenden, cada uno, una porción de señal de canal izquierdo y una porción de señal de canal derecho, respectivamente. Por tanto, el método está adaptado para usar las capacidades y los efectos acústicos de audio estéreo. En otras realizaciones, pueden usarse datos mono y pistas mono, o pistas que tienen cualquier otro número de canales (por ejemplo pistas envolventes 5.1 o 7.1 o MP4 con múltiples flujos).
La descomposición de los datos de entrada mixtos para obtener la al menos una pista descompuesta puede realizarse mediante cualquier algoritmo, filtrado, aplicación de efecto u otro procesamiento que pueda separar al menos una pista descompuesta (en particular una pista vocal) a partir de los datos de entrada mixtos que es acústicamente similar o igual a una o más pistas de origen del material de audio original que se mezcló anteriormente para obtener los datos de entrada mixtos. Por ejemplo, la descomposición puede incluir el cálculo de un espectro de frecuencia, por ejemplo usando un algoritmo de transformada de Fourier, filtrado del espectro de frecuencia para extraer frecuencias que pertenecen a una determinada componente de los datos de entrada mixtos, en particular una componente vocal, y volver a transformar las frecuencias extraídas, por ejemplo usando una transformada de Fourier inversa, para obtener datos de audio de la primera o segunda pista descompuesta.
En la presente invención, descomponer los datos de entrada mixtos incluye procesar los datos de entrada mixtos mediante un sistema de IA (sistema de inteligencia artificial), basándose preferiblemente dicho sistema de IA en al menos una red neuronal profunda, por ejemplo una red neuronal convolucional (CNN) y/o entrenándose mediante una pluralidad de conjuntos de datos de audio de entrenamiento. Cada conjunto de datos de audio de entrenamiento puede incluir al menos una primera pista de origen, por ejemplo una pista vocal, una pista mixta que es una señal de suma obtenida a partir de mezclar al menos la primera pista de origen con una segunda pista de origen, por ejemplo una pista instrumental.
El uso de un sistema de IA permite una descomposición de alta calidad de los datos de entrada mixtos de tal manera que el resultado de descomposición se asemeja muy estrechamente a pistas de origen originales o señales de suma de menos que todas las pistas de origen originales. Por ejemplo, usando un sistema de IA puede lograrse una semejanza con una puntuación de MOS de más de 4,0 y/o con puntuación de SDR de más de 5,0 dB. Puede proporcionarse un sistema de IA y entrenarse mediante datos de audio obtenidos a partir de una o más discográficas y/o empresas de producción de música o una o más empresas de distribución/transmisión en continuo de música o una colaboración entre las mismas. Con el fin de entrenar el sistema de IA, la empresa de grabación puede no sólo proporcionar el archivo de audio mixto de una determinada grabación sino también una o más pistas de origen de entrenamiento que se incluyen en la pista mixta y que se obtienen a partir del material original del procedimiento de producción, es decir los datos de audio de pistas individuales o sumas de menos que todas las pistas usadas en el procedimiento de mezclado. Después de entrenar el sistema de IA con un gran número de conjuntos de datos de audio de entrenamiento, el sistema de IA podrá generar una pista descompuesta a partir de una nueva pista mixta (un nuevo archivo de audio) que no se ha analizado antes durante la fase de entrenamiento. Por ejemplo, el sistema de IA puede basarse en uno de los sistemas de IA convencionales anteriormente mencionados (por ejemplo spleeter, Open-Unmix, Demucs).
En realizaciones de la presente invención, al menos un sistema de IA, preferiblemente múltiples sistemas de IA, puede almacenarse completamente y funcionar dentro de una memoria de acceso aleatorio (RAM) de un dispositivo, tal como para reducir el tiempo requerido para descomponer los datos de entrada mixtos e incluso permitir un funcionamiento casi libre de latencia en una situación en directo, tal como en un dispositivo de DJ.
Según la presente invención, un sistema de IA tal como se describió anteriormente se usa en la etapa de descomponer los datos de entrada mixtos, en el que la invención proporciona no sólo extraer una primera pista descompuesta sino también extraer una segunda pista descompuesta, de tal manera que un usuario puede manipular los volúmenes de la primera así como la segunda pista descompuesta de manera individual y recombinar ambas pistas descompuestas para lograr un determinado efecto de reproducción. Preferiblemente, la segunda pista descompuesta es un complemento de la primera pista descompuesta, lo que significa que una suma de la primera pista descompuesta y la segunda pista descompuesta se asemeja estrechamente a toda la señal de audio de los datos de entrada mixtos, excepto por los niveles de volumen modificados de la primera y segunda pistas descompuestas, y excepto por algunas desviaciones debidas a imperfecciones en la etapa de descomposición (por ejemplo, pequeñas componentes de señal que se originan a partir de la al menos una primera pista de origen pero que se identifican de manera incorrecta por el sistema de IA como que se originan a partir de la al menos una segunda pista de origen o viceversa; otras imperfecciones minoritarias pueden resultar de los procedimientos de cálculo, por ejemplo transformadas de Fourier, durante la etapa de descomposición).
En una realización preferida de la presente invención, los datos de entrada mixtos se procesan simultáneamente dentro de un primer sistema de IA y un segundo sistema de IA independiente del primer sistema de IA, en el que el primer sistema de IA procesa los datos de entrada mixtos para obtener únicamente la primera pista descompuesta y el segundo sistema de IA procesa los datos de entrada mixtos para obtener únicamente la segunda pista descompuesta. En particular, el método procesa preferiblemente los datos de entrada mixtos como primeros datos de entrada mixtos y procesa además unos segundos datos de entrada mixtos simultáneamente dentro de un tercer sistema de IA independiente del primer y el segundo sistema de IA, y dentro de un cuarto sistema de IA independiente de cada uno del primer al tercer sistemas de IA, en el que el tercer sistema de IA procesa los segundos datos de entrada mixtos para obtener únicamente la tercera pista descompuesta y el cuarto sistema de IA procesa los segundos datos de entrada mixtos para obtener únicamente la cuarta pista descompuesta. El uso de al menos dos sistemas de IA independientes que están dispuestos para funcionar simultáneamente permite el cálculo de al menos la primera y segunda pistas descompuestas en paralelo, es decir al mismo tiempo, de tal manera que puede mejorarse en gran medida la velocidad de procesamiento y será posible obtener las pistas descompuestas con tan sólo un pequeño retardo de tiempo o incluso sin retardo de tiempo perceptible. Si el método procesa los primeros y los segundos datos de entrada mixtos y, por tanto, se usan cuatro sistemas de IA independientes para poder funcionar en paralelo, será posible una rápida descomposición de dos archivos de audio independientes o segmentos de los mismos con tan sólo un pequeño retardo de tiempo o incluso un retardo de tiempo no perceptible. Por tanto, un método de este tipo es adecuado para actuaciones en directo tales como por un DJ durante un espectáculo en directo.
En una realización adicional de la invención, dichos datos de entrada mixtos son primeros datos de entrada mixtos basados en una estructura de compases periódicas (por ejemplo, una firma de tiempo de 4/4) y el método comprende además: recibir segundos datos de entrada mixtos diferentes de los primeros datos de entrada mixtos y basados en una estructura de compases periódicas, y realizar al menos uno de un procesamiento de coincidencia de tempo y compás y un procesamiento de coincidencia de tono. En particular, el procesamiento de coincidencia de tempo puede comprender: recibir primeros datos de entrada obtenidos a partir de los primeros datos de entrada mixtos y segundos datos de entrada obtenidos a partir de los segundos datos de entrada mixtos, someter a estiramiento temporal o remuestrear al menos unos de los primeros datos de entrada y los segundos datos de entrada, y emitir primeros datos de salida y segundos datos de salida que tienen tempos mutuamente coincidentes. El procesamiento de coincidencia de compás puede comprender realizar alineamiento de compás entre los primeros y segundos datos de entrada mixtos, es decir someter a desplazamiento de posición de tiempo al menos unos de los primeros y segundos datos de entrada mixtos, y emitir primeros datos de salida y segundos datos de salida que tienen fases de compás mutuamente coincidentes. Además, el procesamiento de coincidencia de tono puede comprender: recibir primeros datos de entrada obtenidos a partir de los primeros datos de entrada mixtos y segundos datos de entrada obtenidos a partir de los segundos datos de entrada mixtos, someter a cambio de altura al menos unos de los primeros datos de entrada y los segundos datos de entrada de audio, y emitir primeros datos de salida y segundos datos de salida que tienen tonos mutuamente coincidentes.
En la realización anteriormente descrita, los primeros datos de entrada obtenidos a partir de los primeros datos de entrada mixtos pueden ser los propios primeros datos de entrada mixtos o cualquier pista descompuesta (por ejemplo, primera o segunda pista descompuesta) obtenida a partir de los primeros datos de entrada mixtos, o los primeros datos de salida recombinados (es decir, obtenidos a partir de primeros datos de entrada mixtos mediante descomposición y recombinación). Asimismo, los segundos datos de entrada obtenidos a partir de los segundos datos de entrada mixtos pueden ser los propios segundos datos de entrada mixtos o cualquier pista descompuesta (por ejemplo, tercera o cuarta pista descompuesta) obtenida a partir de los segundos datos de entrada mixtos o los segundos datos de salida recombinados (es decir, obtenidos a partir de los segundos datos de entrada mixtos mediante descomposición y recombinación).
Debe observarse que los primeros datos de entrada pueden ser los primeros datos de entrada mixtos, especialmente si el procesamiento de coincidencia de tempo y/o de tono se lleva a cabo en una fase inicial del procesamiento, es decir antes de la etapa de descomposición. Alternativamente, los primeros datos de entrada pueden ser la primera pista descompuesta, si el procesamiento de coincidencia de tempo y/o de tono y/o de coincidencia de compás se lleva a cabo después de la etapa de descomposición. Como otro ejemplo, los primeros datos de entrada pueden ser una modificación de la primera pista descompuesta, por ejemplo una modificación obtenida aplicando un efecto de audio (tal como retardo, reverberación, ecualizador, etc.) a la primera pista descompuesta. Lo mismo se aplica a los segundos datos de entrada, que pueden ser los segundos datos de entrada mixtos o la segunda pista descompuesta o una modificación de la misma.
En la realización anterior, “tempos mutuamente coincidentes” significa que los tempos, medidos en compases por minuto, de los primeros y segundos datos de salida son o bien iguales o bien múltiplos uno de otro de tal manera que las compases de los primeros y segundos datos de salida pueden sincronizarse entre sí. Además, “tonos mutuamente coincidentes” significa que los tonos armónicos de los primeros y segundos datos de salida o bien son iguales o bien tienen una relación de un tono menor y su tono mayor paralelo (el tono de unos de los primeros y segundos datos de salida es un tono menor que tiene una primera tonalidad fundamental y el tono de los otros de los primeros y segundos datos de salida es un tono mayor que tiene una segunda tonalidad fundamental que es tres semitonos superior a la primera tonalidad fundamental).
El procesamiento de coincidencia de tempo y/o de tono tal como se describió en la realización anterior mejorará significativamente la aplicación de los métodos de la invención para actuaciones en directo por un DJ, ya que permite la combinación suave de dos canciones, incluyendo fundidos cruzados entre pistas instrumentales y pistas vocales de dos canciones o el intercambio de pistas instrumentales o pistas vocales de dos canciones, es decir recombinación/remezcla de pistas descompuestas de dos canciones, porque permite que ambas canciones o partes de las mismas (pistas descompuestas de ambas canciones) puedan oírse al mismo tiempo (con tempo, fase de compás y tono iguales o correspondientes) sin perturbar el flujo de la música.
Según un segundo aspecto de la presente invención, el objetivo anterior se logra mediante un dispositivo según la reivindicación 8.
Con un dispositivo de este tipo, la ventaja tal como se describió anteriormente para el método del primer aspecto de la invención puede lograrse mediante un dispositivo adecuado que contiene todos los componentes de hardware y software, medios de entrada y salida de audio así como unidades de procesamiento que son necesarios para recibir y descomponer los datos de entrada mixtos, y para reproducir los datos de salida. En particular, los dispositivos del segundo aspecto de la invención pueden implementarse como un equipo de DJ que comprende una unidad de control electrónica (ECU) tal como un ordenador, preferiblemente un ordenador portátil, e interfaces de hardware adecuadas y altavoces (por ejemplo, altavoces incorporados o conectividad para conectar la ECU a un sistema de PA). La unidad de reproducción puede tener un convertidor digital-analógico para convertir datos de audio digitales en una señal de audio analógica. La unidad de entrada puede tener una unidad de decodificación para decodificar datos de audio codificados en diferentes formatos de audio, tales como MP3 o AAC.
Con el fin de estar configurado para aplicaciones en directo, tales como aplicaciones de DJ tal como se describió anteriormente con respecto a métodos del primer aspecto de la invención, el dispositivo comprende una unidad de recombinación para recombinar al menos la primera pista descompuesta con una segunda pista para generar los datos de salida para la unidad de reproducción. Además, el dispositivo comprende una sección de control de recomposición adaptada para controlarse por un usuario para generar una entrada de control que representa unos ajustes deseados de un primer nivel de volumen de la primera pista descompuesta y un segundo nivel de volumen de la segunda pista, en el que la unidad de recombinación está configurada para recombinar al menos la primera pista descompuesta al primer nivel de volumen con la segunda pista al segundo nivel de volumen para generar los datos de salida. La sección de control de recomposición puede implementarse mediante controles de interfaz de usuario visualizados en una pantalla de ordenador o, alternativamente, un hardware independiente que puede incluir un alojamiento, un elemento de control tal como un botón giratorio o un elemento deslizante móvil, un elemento de visualización, puertos de entrada y salida, etc.
La sección de control de recomposición puede incluir un interruptor como elemento de control que permite introducir únicamente un número limitado de valores discretos, en particular un interruptor que sólo tiene dos posiciones de interruptor (encendido/apagado, 0/1, activado/desactivado), con el fi de establecer el primer y segundo niveles de volumen de la primera y segunda pistas descompuestas a un nivel alto o valor encendido, por ejemplo el 100 %, o a un nivel bajo o valor apagado, por ejemplo el 0 %, respectivamente. Por ejemplo, puede haber un interruptor vocal con el fin de conmutar el nivel de volumen de una pista vocal descompuesta entre encendido y apagado y/o puede haber un interruptor instrumental para conmutar el nivel de volumen de una pista instrumental descompuesta entre encendido y apagado. El interruptor puede implementarse como un botón pulsador, por ejemplo proporcionado en un elemento de visualización de pantalla táctil. Con el fin de evitar artefactos debidos a cambios rápidos de volumen, el dispositivo puede incluir una unidad de fundido automático que cambia automáticamente el nivel de volumen de manera continua y a una tasa limitada hasta el valor deseado según la posición de conmutación del interruptor, iniciándose dicho fundido automático en cuanto el usuario acciona el interruptor.
En el segundo aspecto de la invención, se proporciona un dispositivo, en el que la unidad de entrada de audio es una primera unidad de entrada de audio para recibir primeros datos de entrada mixtos que son una señal de suma obtenida a partir de mezclar al menos una primera pista de origen, por ejemplo una primera pista vocal, con al menos una segunda pista de origen, por ejemplo una primera pista instrumental, en el que la unidad de descomposición es una primera unidad de descomposición para descomponer los primeros datos de entrada mixtos para obtener al menos la primera pista descompuesta que se asemeja a la primera pista de origen, y la segunda pista descompuesta que se asemeja a la segunda pista de origen, y en el que el dispositivo comprende además: una segunda unidad de entrada de audio para recibir segundos datos de entrada mixtos diferentes de los primeros datos de entrada mixtos, siendo dichos segundos datos de entrada mixtos una señal de suma obtenida a partir de mezclar al menos una tercera pista de origen, por ejemplo segunda pista vocal diferente de la primera pista vocal, con una cuarta pista de origen, por ejemplo una segunda pista instrumental diferente de la primera pista instrumental, una segunda unidad de descomposición conectada a la segunda unidad de entrada de audio para descomponer los segundos datos de entrada mixtos para obtener una tercera pista descompuesta que se asemeja a la tercera pista de origen, y una cuarta pista descompuesta que se asemeja a la cuarta pista de origen, en el que la sección de control de recomposición está adaptada para controlarse por un usuario para generar una entrada de control que representa unos ajustes deseados del primer nivel de volumen de la primera pista descompuesta, el segundo nivel de volumen de la segunda pista descompuesta, un tercer nivel de volumen de la tercera pista descompuesta y un cuarto nivel de volumen de la cuarta pista descompuesta, y en el que la unidad de recombinación está adaptada para generar los datos de salida recombinados recombinando la primera pista descompuesta al primer nivel de volumen, la segunda pista descompuesta al segundo nivel de volumen, la tercera pista descompuesta al tercer nivel de volumen y la cuarta pista descompuesta al cuarto nivel de volumen.
Un dispositivo de la invención está preparado para usarse en el trabajo creativo para recombinar, para combinar suavemente o para realizar una transición entre dos canciones diferentes o para crearmashupsde las canciones para lograr una variedad de efectos nuevos. En particular, tal dispositivo puede implementarse como un equipo de DJ para actuación en directo.
En los dispositivos del segundo aspecto de la presente invención, se prefiere que la sección de control de recomposición comprenda al menos un elemento de control de recomposición individual que puede accionarse por un usuario en una operación de control individual para controlar el primer nivel de volumen y el segundo nivel de volumen, en particular para aumentar uno del primer nivel de volumen y el segundo nivel de volumen, mientras que al mismo tiempo se reduce el otro del primer nivel de volumen y el segundo nivel de volumen.
En todos los aspectos y realizaciones de la presente invención, un elemento de control de recomposición individual para controlar un primer nivel de volumen de una primera pista y un segundo nivel de volumen de una segunda pista se refiere preferiblemente a un elemento de control que puede accionarse por un usuario en una operación de control individual, tal como un movimiento de control individual (por ejemplo movimiento de deslizamiento, movimiento rotatorio, etc.) o una operación de interruptor de control individual (por ejemplo, tocar un botón, etc.), con el fin de cambiar una razón entre el primer y segundo niveles de volumen desde una primera razón en la que el primer nivel de volumen es superior al segundo nivel de volumen, hasta una segunda razón, en la que el primer nivel de volumen es inferior o igual al segundo nivel de volumen. Al menos en partes de un intervalo de control del elemento de control de recomposición individual, cambios de volumen controlados por el elemento de control de recomposición individual pueden realizarse simultáneamente, por ejemplo aumentando el segundo nivel de volumen, mientras se reduce el primer nivel de volumen.
En una realización preferida, el elemento de control de recomposición individual puede tener un intervalo de control que se extiende desde un primer punto de extremo al que el primer volumen tiene un valor máximo (por ejemplo, de aproximadamente el 100 por ciento) y el segundo volumen tiene un valor mínimo (por ejemplo, de aproximadamente el 0 por ciento) hasta un segundo punto de extremo en el que el primer volumen tiene un valor mínimo (por ejemplo, de aproximadamente el 0 por ciento) y el segundo volumen tiene un valor máximo (por ejemplo, de aproximadamente el 100 por ciento). Más preferiblemente, en una región central del intervalo de control, el primer y el segundo niveles de volumen tienen ambos un valor máximo (por ejemplo, de aproximadamente el 100 por ciento). Entre la región central y cada punto de extremo, el primer y segundo niveles de volumen pueden permanecer sustancialmente constantes o pueden aumentar o disminuir de una manera lineal o no lineal, respectivamente.
Esto permite que el usuario realice un fundido o conmute entre la primera pista descompuesta y la segunda pista descompuesta en una operación de control individual, por ejemplo un toque de un botón o interruptor, mediante una única rotación continua de un botón de control giratorio o un único movimiento deslizante continuo de un único dispositivo de fundido, con el fin de realizar transiciones lineales suaves desde los primeros datos de entrada mixtos hasta los segundos datos de entrada mixtos (por ejemplo, desde una primera canción hasta una segunda canción) o viceversa. En particular, pueden manipularse dos niveles de volumen de pistas descompuestas diferente por el usuario con tan sólo una mano o incluso con tan sólo un dedo, lo cual mejora las capacidades de actuación en directo del sistema. Esto significa que, por ejemplo, puede usarse una mano para accionar un control de descomposición/recombinación, mientras que puede usarse la otra mano para un dispositivo de fundido cruzado o para el control de descomposición/recombinación de la otra canción.
En una modificación de la realización anteriormente descrita, el dispositivo puede incluir además un elemento de control de intercambio que, cuando se acciona por un usuario, controla la unidad de recombinación tal como para reducir uno del primer y segundo niveles de volumen y al mismo tiempo aumentar uno del tercer y cuarto niveles de volumen y/o que, cuando se acciona por un usuario, controla la unidad de recombinación tal como para aumentar uno del primer y segundo niveles de volumen y al mismo tiempo reducir uno del tercer y cuarto niveles de volumen. Obsérvese que “reducir” puede incluir silenciar el nivel de volumen o establecer el nivel de volumen al 0 por ciento, y “aumentar” puede incluir establecer el nivel de volumen hasta la escala completa o al 100 por ciento.
Por ejemplo, si la primera pista descompuesta obtenida a partir de los primeros datos de entrada mixtos es una pista vocal de una primera canción y la tercera pista descompuesta obtenida a partir de los segundos datos de entrada mixtos es una pista vocal de una segunda canción, el elemento de control de intercambio descrito anteriormente puede activarse por un usuario tal como para controlar la unidad de recombinación para conmutar el volumen de una pista vocal actualmente contenida en los datos de salida recombinados desde encendido hasta apagado y para conmutar el volumen de otra pista vocal actualmente no contenida en los datos de salida recombinados desde apagado hasta encendido, dicho de otro modo conmutar los ajustes de encendido-apagado de ambas pistas vocales de manera inversa. Como otro ejemplo, si la segunda pista descompuesta obtenida a partir de los primeros datos de entrada mixtos es una pista instrumental de una primera canción y la cuarta pista descompuesta obtenida a partir de los segundos datos de entrada mixtos es una pista instrumental de una segunda canción, el elemento de control de intercambio descrito anteriormente puede activarse por un usuario tal como para controlar la unidad de recombinación para conmutar el volumen de una pista instrumental actualmente contenida en los datos de salida recombinados desde encendido hasta apagado y para conmutar el volumen de otra pista instrumental actualmente no contenida en los datos de salida recombinados desde apagado hasta encendido, dicho de otro modo conmutar los ajustes de encendido-apagado de ambas pistas instrumentales de manera inversa. El funcionamiento de tal elemento de control de intercambio se aplica preferiblemente en situaciones en las que la pista descompuesta a partir de los primeros datos de entrada mixtos tiene un ajuste de encendido-apagado diferente del de la pista descompuesta a partir de los segundos datos de entrada mixtos.
En otra realización de la presente invención del segundo aspecto, se proporciona un dispositivo del tipo anteriormente descrito, en el que la sección de control de recomposición comprende un primer elemento de control de recomposición individual que puede accionarse por un usuario en una operación de control individual para controlar el primer nivel de volumen y el segundo nivel de volumen, en particular aumentando uno del primer nivel de volumen y el segundo nivel de volumen, mientras que al mismo tiempo se reduce el otro del primer nivel de volumen y el segundo nivel de volumen, y un elemento de control de recombinación individual, que puede accionarse por un usuario en una operación de control individual para controlar una primera señal de suma y una segunda señal de suma, en particular aumentando una de una primera señal de suma y una segunda señal de suma, mientras que al mismo tiempo se reduce la otra de la primera señal de suma y la segunda señal de suma, siendo la primera señal de suma una suma de la primera pista descompuesta al primer nivel de volumen y la segunda pista descompuesta al segundo nivel de volumen y siendo la segunda señal de suma una suma de la tercera pista descompuesta al tercer nivel de volumen y la cuarta pista descompuesta al cuarto nivel de volumen, y preferiblemente un segundo elemento de control de recomposición individual que puede accionarse por un usuario en una operación de control individual para controlar el tercer nivel de volumen y el cuarto nivel de volumen, en particular aumentando uno del tercer nivel de volumen y el cuarto nivel de volumen, mientras que al mismo tiempo se reduce el otro del tercer nivel de volumen y el cuarto nivel de volumen. Una ventaja de un dispositivo de esta realización es que se reduce en gran medida la complejidad del control para un funcionamiento rápido e intuitivo, en particular por un DJ durante un espectáculo en directo. Aunque el dispositivo reciba dos datos de entrada mixtos diferentes ambos de los cuales se descomponen para dar al menos dos pistas descompuestas, lo cual ya da como resultado cuatro pistas individuales (preferiblemente cuatro pistas estéreo individuales que tienen, cada una, canales derecho e izquierdo, dando como resultado un total de al menos ocho canales), por medio del primer y segundo elementos de control de recomposición individuales y del elemento de control de recombinación individual, la conmutación, el intercambio y el fundido entre las pistas pueden realizarse de manera muy rápida e intuitiva mediante movimientos individuales u operaciones consecutivas individuales de los elementos de control.
En otra realización de la presente invención del segundo aspecto, se proporciona un dispositivo que comprende además una memoria intermedia de archivos de audio de entrada para cargar en la misma segmentos de un archivo de audio de entrada que tiene un tamaño de archivo predeterminado y una duración de reproducción predeterminada, que contiene datos de audio para reproducir los datos de entrada mixtos, una primera memoria intermedia de segmentos conectada a la unidad de descomposición para recibir y almacenar un segmento de la primera pista descompuesta obtenida a partir de un segmento del archivo de audio de entrada, opcionalmente una segunda memoria intermedia de segmentos conectada a la unidad de descomposición para recibir y almacenar un segmento de la segunda pista descompuesta obtenida a partir del mismo segmento del archivo de audio de entrada, en el que la unidad de reproducción comprende una interfaz de audio que tiene un convertidor analógico-digital para generar una señal de audio analógica a partir de los datos de salida, teniendo dicha interfaz de audio una memoria intermedia de audio para almacenar en memoria intermedia porciones de los datos de salida para su reproducción, en el que el tamaño de la primera memoria intermedia de segmentos y/o la segunda memoria intermedia de segmentos es mayor que el tamaño de la memoria intermedia de audio de la interfaz de audio, pero menor que todos los datos de audio del archivo de audio de entrada (decodificado). Según esta realización, se proporcionan memorias intermedias independientes para almacenar los segmentos (no todos los segmentos al mismo tiempo, sino tan sólo uno o unos pocos de los segmentos) de las pistas descompuestas listas para su recombinación y/o reproducción, lo cual aumenta la velocidad de procesamiento y reduce la huella de memoria en comparación con una situación en la que se descompone todo el archivo de audio de entrada antes de su reproducción y se almacena completamente en una memoria intermedia independiente. Dicho de otro modo, el tamaño de cada memoria intermedia de segmentos es menor que el tamaño de todos los datos de archivo de audio de entrada (decodificados). Por otro lado, la primera y segunda memorias intermedias de segmentos tienen, cada una, un tamaño mayor que la memoria intermedia de audio de la interfaz de audio, lo cual garantiza que la memoria intermedia de audio de la interfaz de audio siempre puede rellenarse mediante el contenido de las memorias intermedias de segmentos de una manera oportuna, de tal manera que puede producirse una señal de salida continua y reproducirse sin ninguna pérdida de audio o retardo de tiempo perceptible. Por tanto, esta realización también ayuda a las capacidades en directo del dispositivo.
Preferiblemente, la memoria intermedia de audio de la interfaz de audio tiene un tamaño convencional fijo para almacenar 2n tramas/muestras de datos de audio (siendo n un número natural, preferiblemente entre 6 y 12), por ejemplo 512 tramas de audio, lo cual corresponde a una duración de reproducción de aproximadamente 11 milisegundos a una tasa de muestreo de 44,1 kHz. En cambio, el tamaño de las memorias intermedias de segmentos es preferiblemente más grande tal como para almacenar segmentos con una duración de reproducción de más de 1 segundo.
En un ejemplo no reivindicado adicional relacionado con el segundo aspecto, el dispositivo puede comprender además un dispositivo de visualización para visualizar una primera forma de onda representativa de la primera pista descompuesta y una segunda forma de onda representativa de la segunda pista descompuesta, en el que la primera forma de onda y la segunda forma de onda se visualizan de una manera superpuesta usando una única línea de referencia, y mientras que la primera y segunda formas de onda se visualizan usando diferentes ejes de señal y/o diferentes estilos de dibujo tal como para poder distinguirse visualmente una de otra. Esto permite que un usuario monitorice visualmente el resultado de la descomposición, preferiblemente en tiempo real, y adapte el control para una recombinación de las pistas descompuestas. En particular, permite que un usuario vea algunos datos de audio futuros que van a reproducirse dentro del plazo de los siguientes segundos y adapte el control a tiempo, por ejemplo para reducir gradualmente de manera rápida la pista vocal de una primera canción antes del inicio de tales partes vocales durante una transición desde la primera canción hasta una segunda canción. Usando únicamente una única línea de referencia (línea con valor de señal nulo, es decir una line que discurre a lo largo del eje de tiempo) para ambas formas de onda descompuestas y eligiendo diferentes estilos de dibujo o ejes de señal, el usuario reconocerá rápidamente el contenido de los datos de audio como componentes de los mismos datos de entrada mixtos, de tal manera que el usuario puede recopilar la información necesaria para controlar la unidad de recombinación más rápidamente o puede marcar visualmente partes específicas de la canción de manera más precisa, por ejemplo un inicio vocal al comienzo de un estribillo.
Además, en el presente documento se describe un método para representar datos de audio, comprendiendo dichos datos de audio al menos una primera pista y una segunda pista que son componentes de una mezcla de audio conjunta, comprendiendo dicho método visualizar una primera forma de onda representativa de la primera pista y una segunda forma de onda representativa de la segunda pista, en el que la primera forma de onda y la segunda forma de onda se visualizan de una manera superpuesta usando una única línea de referencia, y mientras que las formas de onda se visualizan usando diferentes ejes de señal y/o diferentes estilos de dibujo tal como para poder distinguirse visualmente una de otra. Tal representación superpuesta de formas de onda contiene mejor información semántica sobre el contenido de audio, en particular música, y, por tanto, es más parecida a cómo los seres humanos perciben el audio/música, en contraposición a una representación de formas de onda convencional en una única forma de onda por canción o por datos de entrada mixtos y únicamente un coloreado dependiente de frecuencia global o combinada o aproximada.
En la presente divulgación, una visualización de una manera superpuesta usando una única línea de referencia se refiere a una visualización de pistas que se dibujan de tal manera que sus líneas de referencia se visualizan en posiciones idénticas en el sistema de coordenadas de la visualización gráfica. Por tanto, una visualización de una manera superpuesta es contraria a una visualización de pistas de una manera apilada, en la que los ejes de tiempo o líneas de referencia se dibujan en paralelo unos encima de otros.
En el contexto de la presente divulgación, las componentes de una mezcla de audio (conjunta) son en particular pistas descompuestas que se obtienen a partir de una señal de entrada mixta mediante un procesamiento de descomposición (por ejemplo, separación de voz/instrumental, etc.), tal como el usado en los métodos del primer aspecto de la invención. Además, las componentes de una mezcla de audio (conjunta) pueden obtenerse por separado, es decir independientemente de la mezcla de audio, por ejemplo como denominadas raíces creadas a partir de pistas de origen individuales o subgrupos de pistas de origen durante la producción de la mezcla de audio, es decir antes de mezclarse las pistas de origen para obtener la mezcla de audio. Tales raíces están disponibles en algunas discográficas, por ejemplo. En cualquier caso, dentro de la presente divulgación, las componentes de una mezcla de audio conjunta pertenecen a la misma mezcla de audio. Por ejemplo, si una canción mixta contiene pistas vocales y pistas instrumentales, una de las pistas vocales y una de las pistas instrumentales son ambas componentes de una mezcla de audio conjunta, es decir una canción conjunta.
Estas ventajas del método descrito anteriormente son particularmente significativas para el trabajo de DJ, si una de la primera y segunda pistas es una pista vocal y la otra de la primera y segunda pistas es una pista instrumental. En particular, durante la combinación o el fundido cruzado entre dos canciones el DJ generalmente necesita prestar especial atención a las partes vocales de las canciones y necesita evitar el encuentro de partes vocales de diferente canciones, mientras que la combinación de partes instrumentales de dos canciones se usa habitualmente como efecto creativo en beneficio de la actuación o al menos es aceptable para el beneficio de la combinación/fundido cruzado, siempre que tengan tempos, compases y tonos coincidentes.
Dentro de la presente divulgación (es decir, en todos los aspectos y realizaciones de la presente invención), el uso de diferentes estilos de dibujo puede implicar el uso de diferentes colores, estilos de línea, sombreados o similares. Preferiblemente, la primera forma de onda se visualiza usando un primer estilo de dibujo que dibuja porciones de señal de la primera forma de onda principal o exclusivamente en una región positiva con respecto a una línea de referencia, y la segunda forma de onda se visualiza usando un segundo estilo de dibujo que dibuja porciones de señal de la segunda forma de onda principal o exclusivamente en una región negativa con respecto a la misma línea de referencia. Por ejemplo, la primera forma de onda puede visualizarse usando un primer estilo de dibujo que dibuja principal o exclusivamente una porción de señal positiva de la primera pista, y la segunda forma de onda se visualiza usando un segundo estilo de dibujo que dibuja principal o exclusivamente una porción de señal negativa de la segunda pista. En una realización alternativa, la primera y segunda formas de onda pueden visualizarse usando un primer y segundo estilos de dibujo ambos de los cuales dibujan principal o exclusivamente la porción de señal positiva o ambos de los cuales dibujan principal o exclusivamente la porción de señal negativa, en el que la primera forma de onda puede visualizarse usando un primer eje de señal y la segunda forma de onda puede visualizarse usando un segundo eje de señal que discurre opuesto al primer eje de señal. Por tanto, en ambas realizaciones alternativas, las dos formas de onda parecen ser imágenes especulares con respecto a la línea de referencia común, extendiéndose una forma de onda principal o exclusivamente en un sentido con respecto a la línea de referencia, y extendiéndose la otra forma de onda principal o exclusivamente en el otro sentido con respecto a la línea de referencia. Esto permite que el usuario distinga claramente las formas de onda al tiempo que todavía tiene ambas formas de onda en la misma línea de referencia para una rápida percepción. Ambas realizaciones aprovechan encontrar que puede obtenerse suficiente información sobre los datos de audio por un usuario a partir de visualizar únicamente una parte de la forma de onda, en particular únicamente una porción de mitad positiva o únicamente una negativa de la forma de onda. Como alternativa adicional, puede dibujarse únicamente una de las dos formas de onda como media forma de onda (únicamente porciones de señal positivas o únicamente porciones de señal negativas, o usando valores absolutos de las porciones de señal dibujadas en la positiva o negativa), mientras que la otra de las dos formas de onda se dibuja con porciones de señal tanto positiva como negativa.
Además de visualizar las formas de onda con diferentes ejes de señal y/o diferentes estilos de dibujo, en todos los aspectos y realizaciones de la presente invención, la primera forma de onda y/o la segunda forma de onda pueden visualizarse adicionalmente representando la forma de onda en un intervalo de tiempo predeterminado con un color que depende de una información de frecuencia de la pista respectiva dentro del intervalo de tiempo predeterminado, siendo dicha información de frecuencia preferiblemente indicativa de una frecuencia dominante de los datos de audio dentro del intervalo de tiempo predeterminado, que se obtiene preferiblemente a partir de un análisis de frecuencia de una señal de audio derivada a partir de los datos de audio de la pista respectiva dentro del intervalo de tiempo predeterminado. De esta manera, el usuario puede ser capaz además de reconocer frecuencias dominantes que se producen en determinadas posiciones de las pistas, que pueden indicar la presencia de determinados instrumentos tales como contrabajos, bombos de pedal, platillos, guitarras, etc., y por tanto puede mejorarse adicionalmente la visualización y velocidad de percepción del contenido de audio, lo cual permite un funcionamiento más rápido y más intuitivo de un dispositivo que implementa tal método. Un ejemplo de coloreado dependiente de frecuencia de formas de onda se da a conocer en el documento US 6.184.898<b>1. Si se aplica coloreado dependiente de frecuencia según la realización anteriormente descrita a pistas descompuestas, en particular a una pista instrumental descompuesta, se excluyen componentes vocales del análisis de frecuencia, lo cual permite obtener una representación visual mucho mejor (coloreada) de la señal de audio según se percibe por los oídos. Por otro lado, si el análisis de frecuencia se lleva a cabo para el espectro de frecuencia vocal de manera independiente analizando una pista vocal descompuesta, también se mejorarán los resultados de análisis de frecuencia y, por tanto, el coloreado correcto para la pista vocal.
En particular, se prefiere usar un método descrito anteriormente en relación con un método del primer aspecto de la invención o dentro de un dispositivo del segundo aspecto de la invención, por ejemplo con el fin de visualizar pistas descompuestas de una manera superpuesta, tal como una pista vocal descompuesta y una pista instrumental descompuesta.
Además, en el presente documento se describe un dispositivo para representar datos de audio, por ejemplo un dispositivo de visualización de un ordenador, comprendiendo dichos datos de audio al menos una primera pista y una segunda pista, que están adaptadas para reproducirse en una mezcla, comprendiendo dicho dispositivo un primer generador de forma de onda que genera una primera forma de onda representativa de la primera pista, un segundo generador de forma de onda que genera una segunda forma de onda representativa de la segunda pista, y un generador de forma de onda de superposición que genera una forma de onda de superposición que muestra la primera forma de onda y la segunda forma de onda de una manera superpuesta usando una única línea de referencia, en el que las formas de onda se superponen mediante el generador de forma de onda de superposición usando diferentes ejes de señal y/o diferentes estilos de dibujo tal como para poder distinguirse visualmente una de otra.
El método puede incluir además las etapas de recibir datos de entrada mixtos, siendo dichos datos de entrada mixtos una señal de suma obtenida a partir de mezclar al menos una primera pista de origen con al menos una segunda pista de origen; descomponer los datos de entrada mixtos para obtener al menos una primera pista descompuesta que se asemeja a la al menos una primera pista de origen, y una segunda pista descompuesta que se asemeja a la al menos una segunda pista de origen; leer una entrada de control a partir de un usuario, representando dicha entrada de control unos ajustes deseados de un primer nivel de volumen de la primera pista descompuesta y un segundo nivel de volumen de la segunda pista descompuesta; visualizar una primera forma de onda representativa de la primera pista descompuesta y visualizar una segunda forma de onda representativa de la segunda pista descompuesta, en el que la primera forma de onda y la segunda forma de onda se visualizan de una manera superpuesta usando una única línea de referencia, y en el que las formas de onda se visualizan usando diferentes ejes de señal y/o diferentes estilos de dibujo tal como para poder distinguirse visualmente una de otra, en el que la primera forma de onda se visualiza ajustándose su eje de señal a escala o modificándose su aspecto (por ejemplo, color u opacidad) dependiendo del primer nivel de volumen, y en el que la segunda forma de onda se visualiza ajustándose eje de señal a escala o modificándose su aspecto (por ejemplo, color u opacidad) dependiendo del segundo nivel de volumen. Tal realización permite visualizar directamente los ajustes de volumen o ajustes de recomposición recibidos a partir del usuario a través de la entrada de control en la representación de forma de onda superpuesta. Por tanto, el usuario puede ver los ajustes de volumen directamente en el elemento de visualización, al tiempo que también ve valores de amplitud de las pistas descompuestas.
Preferiblemente, en la realización anteriormente descrita, la primera y segunda formas de onda se visualizan ajustándose sus ejes de señal a escala o modificándose su aspecto (por ejemplo, color u opacidad) basándose en valores actuales del primer y segundo niveles de volumen dentro de un periodo de tiempo de no más de 2 segundos, preferiblemente no más de 100 milisegundos, más preferiblemente no más de 35 milisegundos. Si el periodo de tiempo es menor de 2 segundos, el método puede usarse para actuaciones en directo, porque permite que un usuario, por ejemplo un DJ, verifique o monitorice visualmente la recombinación de las pistas. Si el periodo de tiempo es menor de 100 milisegundos, el ajuste de control, tal como niveles de volumen, puede visualizarse prácticamente en tiempo real, lo cual da al usuario una sensación de realimentación directa cuando cambia los ajustes. Además, si el periodo de tiempo es menor de 35 milisegundos, lo cual es menor que el periodo de tiempo de a trama de un elemento de visualización habitual (por ejemplo, con una tasa de tramas de 30 tramas por segundo), el usuario ni siquiera percibirá en absoluto que hay ningún retardo de tiempo entre la manipulación del elemento de control y la visualización de los niveles de volumen dentro de las formas de onda superpuestas.
Además, en el presente documento se describe un dispositivo para procesar y reproducir datos de audio, siendo el dispositivo un equipo de DJ, que comprende una unidad de procesamiento para procesar datos de audio de al menos una primera pista y una segunda pista, una sección de control adaptada para controlarse por un usuario para generar una entrada de control que representa unos ajustes deseados de un primer nivel de volumen de la primera pista y un segundo nivel de volumen de la segunda pista, una unidad de recombinación/mezclado configurada para recombinar la primera pista a un primer nivel de volumen con la segunda pista a un segundo nivel de volumen para generar datos de salida, una unidad de visualización configurada para generar datos de forma de onda para visualizar al menos una forma de onda basándose en la primera pista, la segunda pista y la entrada de control, una unidad de reproducción para reproducir los datos de salida, y opcionalmente una unidad de visualización para visualizar los datos de forma de onda. El dispositivo proporciona realimentación visual a un usuario sobre datos de audio actualmente reproducidos, incluyendo datos de audio reproducidos o que van a reproducirse dentro de un determinado intervalo de tiempo antes y después de la posición de reproducción actual, en el que la visualización incluye información directa e instantánea sobre el primer y/o segundo nivel de volumen tal como se establece actualmente por el usuario mediante la sección de control. Por ejemplo, entonces un DJ puede ver directamente sus entradas actuales en la sección de control y tendrá información visual sobre su trabajo además de salida de información audible por la unidad de reproducción.
Preferiblemente, la unidad de visualización está configurada para generar una primera forma de onda basándose en la primera pista, en la que un ajuste a escala de un eje de señal de la primera forma de onda o un estilo de dibujo de la primera forma de onda se establece dependiendo del primer nivel de volumen, y/o para generar una segunda forma de onda basándose en la segunda pista, en la que un ajuste a escala de un eje de señal da la segunda forma de onda o un estilo de dibujo de la segunda forma de onda se establece dependiendo del segundo nivel de volumen. Las formas de onda pueden visualizarse y representarse como formas de onda independientes, por ejemplo en líneas de referencia paralelas, o pueden dibujarse de una manera superpuesta usando una única línea de referencia, preferiblemente con diferentes ejes de señal y/o diferentes estilos de dibujo tal como para poder distinguirse visualmente una de otra, tal como se describirá más adelante.
En otra realización del dispositivo, la unidad de visualización puede estar configurada para calcular una pista de combinación que representa una combinación de al menos la primera pista al primer nivel de volumen y la segunda pista al segundo nivel de volumen, y para generar los datos de forma de onda tal como para visualizar la forma de onda de la pista de combinación. Esto da como resultado la visualización de una forma de onda que representa los datos de salida obtenidos a partir de la unidad de recombinación/mezclado, es decir incluyendo las influencias para la forma de onda tal como se ve afectada a través de la entrada de control por el usuario.
Según las reivindicaciones adjuntas, la primera y segundas pistas son pistas descompuestas obtenidas a partir de la descomposición de una señal de audio mixta dentro del dispositivo. Más particularmente, el dispositivo descrito anteriormente puede estar adaptado para llevar a cabo el método del primer y/o tercer aspecto de la invención, y/o puede ser un dispositivo según el segundo aspecto de la invención, en el que la primera pista es la primera pista descompuesta y/o la segunda pista es la segunda pista descompuesta, y la sección de control es la sección de control de recomposición.
Ahora se describirá adicionalmente la presente invención basándose en ejemplos específicos mostrados en los dibujos. Se pretende que la descripción anterior, así como la siguiente, ilustren ventajas y realizaciones preferidas de la invención, sin embargo, el alcance de la invención está definido simplemente por las reivindicaciones adjuntas.
La figura 1 muestra una vista esquemática de los componentes del dispositivo para procesar y reproducir una señal de audio según una primera realización de la presente invención.
La figura 2 muestra un diagrama funcional de los elementos y flujos de señales en el dispositivo según la primera realización.
La figura 3 muestra un diagrama funcional adicional que ilustra un flujo de señales en el dispositivo de la primera realización.
Las figuras 4 a 10 muestran una segunda a octava realizaciones de la presente invención que son, cada una, modificaciones de la primera realización.
La figura 11 muestra un diagrama que ilustra un procedimiento de intercambio aplicable en un dispositivo de la octava realización de la invención.
Las figuras 12 y 13 muestran representaciones gráficas de formas de onda según realizaciones de la invención.
La figura 14 muestra un reproductor de audio según una novena realización de la invención.
Las figuras 15 y 16 muestran una décima y decimoprimera realizaciones de la presente invención que son, cada una, modificaciones de la primera realización.
Haciendo referencia a la figura 1, la primera realización de la presente invención es un dispositivo 10, siendo el dispositivo un dispositivo de DJ. El dispositivo 10 comprende una sección de entrada 12 que puede cargar un primer archivo de audio de entrada A tal como una primera canción A, y un segundo archivo de audio de entrada B tal como una segunda canción B. Ambos archivos de audio de entrada A, B pueden contener datos de audio en un formato de archivo de audio común tal como MP3, WAV o AIFF, y tienen un tamaño de archivo y duración de reproducción fijos (en particular, duración de canción en segundos) tal como se conoce convencionalmente que es la entrada en un equipo de DJ u otros dispositivos de reproducción. Los archivos de audio A y B pueden proporcionarse, descargarse o transmitirse en continuo a partir de un servidor remoto a través de Internet u otra conexión de red, o pueden proporcionarse por un ordenador local o un dispositivo de almacenamiento integrado en el propio dispositivo 10. La sección de entrada 12 puede incluir medios de interfaz de usuario adecuados que permiten que un usuario seleccione uno de una pluralidad de archivos de audio disponibles como archivo de audio de entrada A y otro de la pluralidad de archivos de audio como archivo de audio de entrada B.
El dispositivo 10 comprende además una sección de procesamiento 14, que incluye preferiblemente un almacenamiento RAM 16, un almacenamiento ROM 18, un almacenamiento persistente 19 (tal como un disco duro o unidad de memoria flash), un microprocesador 20, y al menos un sistema de inteligencia artificial 22, por ejemplo un primer a cuarto sistemas de IA 22-1, ..., 22-4 que están conectados al microprocesador 20. La sección de procesamiento 14 está conectada a la sección de entrada 12 para recibir datos de audio de los archivos de audio A y B.
El dispositivo 10 comprende además una sección de control de recomposición 24 que incluye al menos un elemento de control de recomposición 26, por ejemplo un primer elemento de control 26-1, un segundo elemento de control de recomposición 26-2 y un elemento de control de mezclado 28. La sección de control de recomposición 24 puede comprender además un primer elemento de control de reproducción 30-1 y un segundo elemento de control de reproducción 30-2 para iniciar o detener la reproducción de señales de audio que se originan a partir de los primeros o segundos datos de entrada mixtos, respectivamente.
Además, el dispositivo 10 puede incluir una unidad de recombinación 32 conectada a la sección de control de recomposición 24 para recombinar datos de audio basándose en los ajustes de los elementos de control. La recombinación puede llevarse a cabo multiplicando diferentes canales de datos de audio con valores escalares basándose en los ajustes de los elementos de control y después sumando los canales entre sí muestra a muestra. Además, una interfaz de audio 34 (por ejemplo, una tarjeta de sonido) que tiene un convertidor digital-analógico está preferiblemente conectada a la unidad de recombinación 32 para recibir datos de salida recombinados y convertir los datos de salida digitalmente recombinados en una señal de audio analógica. La señal de audio analógica puede proporcionarse en una salida de audio 36 que puede presentar conectores de audio convencionales para conectar cables de audio tales como conectores de línea o conectores de XLR o salida inalámbrica (por ejemplo, Bluetooth), lo cual permite conectar la salida de audio 36 a un sistema de PA o altavoces o auriculares, etc. (no ilustrado). El sistema de PA puede incluir un amplificador conectado a altavoces para emitir la señal de audio. Como alternativa, pueden usarse altavoces internos del dispositivo, tales como altavoces de ordenador de tipo tableta o altavoces de ordenador o auriculares, para emitir la señal de audio analógica.
Algunos o todos los componentes y características descritos anteriormente con respecto a la primera realización pueden proporcionarse mediante una unidad de control electrónica (ECU), tal como un ordenador, en particular un ordenador de tipo tableta 35 que ejecuta una aplicación de software que está programada para hacer funcionar la ECU para permitir la entrada, descomposición, recombinación y salida de datos de audio tal como se describió anteriormente con respecto a la figura 1, y para recibir una entrada de control a partir de un usuario, por ejemplo mediante una pantalla táctil 37 que visualiza los elementos de control de la sección de control de recomposición 24.
A continuación se explican detalles adicionales de los componentes internos y el flujo de señales dentro del dispositivo 10 con respecto a la figura 2. Dentro de la sección de entrada 12, se obtienen un primer y segundo archivos de audio de entrada A y B tal como se describió anteriormente. Después se transmiten los archivos de audio de entrada A, B a la sección de procesamiento 14, que contiene al menos una primera unidad de descomposición 38 y una segunda unidad de descomposición 40. La primera unidad de descomposición 38 incluye una primera unidad de segmentación 42 y al menos un sistema de IA, preferiblemente un primer sistema de IA 44-1 y un segundo sistema de IA 44-2. La segunda unidad de descomposición 40 puede incluir asimismo una segunda unidad de segmentación 46 y al menos un sistema de IA, preferiblemente un tercer sistema de IA 44-3 y un cuarto sistema de IA 44-4.
La primera unidad de segmentación 42 de la primera unidad de descomposición 38 recibe el primer archivo de audio de entrada A y está adaptada para la división del archivo de audio en varios segmentos consecutivos. Preferiblemente, el archivo de audio de entrada completo A se divide en segmentos que corresponden a intervalos de tiempo en la señal de audio que puede reproducirse a partir del archivo de audio. Preferiblemente, el segmento inicial se define de tal manera que el punto de inicio del segmento inicial corresponde al comienzo del archivo de audio (posición de reproducción 0:00) en la misma escala y el punto de terminación del segmento inicial corresponde al final de un primer intervalo de tiempo al comienzo del archivo de audio. Entonces se define un segundo segmento, y cada segmento posterior, mediante intervalos de tiempo consecutivos de una misma longitud, de tal manera que los puntos de inicio de los intervalos de tiempo aumentan de un intervalo de tiempo al siguiente intervalo de tiempo.
Más en particular, se considera un archivo de audio como representación digital de una señal de audio analógica que se muestrea con una tasa de muestreo predeterminada fs dada por el número de muestras por segundo. El muestreo puede llevarse a cabo durante la grabación a través de un convertidor analógico-digital, tal como una interfaz de audio, por ejemplo. En el caso de datos de audio producidos de manera digital (por ejemplo, a partir de sintetizadores digitales, cajas de ritmos, etc.), las muestras, y en particular los datos de audio representados por cada muestra, son valores generados por ordenador. Cada muestra representa el valor de señal (por ejemplo, un valor promedio medido) dentro de un periodo de muestreo T, en el que fs=1/T. Para archivos de audio, fs puede ser de 44,1 kHz o 48 kHz, por ejemplo. Una muestra también se denomina trama. Ahora, en la presente realización, una trama inicial del primer segmento puede ser la primera trama de los datos de audio en el archivo de audio en una posición de tiempo 0, la trama inicial del segundo segmento puede ser la trama que sigue inmediatamente a la trama final del primer segmento, la trama inicial del tercer segmento puede ser la trama que sigue inmediatamente a la trama final del segundo segmento y así sucesivamente. Los segmentos pueden tener todos ellos el mismo tamaño con respecto a su escala de tiempo de la señal de audio reproducible o pueden tener el mismo número de tramas, excepto por el último segmento, que puede tener un punto de terminación definido por el punto de terminación o la última trama del archivo de audio (decodificado) o el punto de terminación de la señal de audio reproducible en la escala de tiempo.
De hecho, en métodos y dispositivos de la presente invención, el procesamiento, y en particular la descomposición, se lleva a cabo preferiblemente basándose en segmentos exactamente definidos por, y/o correspondientes a, las tramas del archivo de audio de entrada, lo cual garantiza un división precisa de tramas dentro de las pistas, en particular dentro de las pistas descompuestas durante la recombinación o reproducción, y una traducción directa de posiciones de audio en la señal de entrada mixta a posiciones de audio en la pista descompuesta. Por tanto, una pista descompuesta obtenida de esta manera puede tener exactamente la misma escala de tiempo que la pista de entrada mixta y puede procesarse adicionalmente, por ejemplo aplicando efectos, remuestreando, sometiendo a estiramiento temporal y buscando, por ejemplo para coincidencia de tempo y compás, sin desplazamiento o pérdida de precisión en la escala de tiempo. Preferiblemente, un segmento descompuesto contiene exactamente la misma cantidad de tramas que los datos de audio de entrada originales correspondientes al segmento.
Preferiblemente, el tamaño de los segmentos se elige de tal manera que la longitud de los intervalos de tiempo correspondientes es menor de 60 segundos y mayor de un segundo. Esto garantiza una segmentación suficiente del archivo de audio de entrada para lograr una aceleración notable del procesamiento necesario para empezar la reproducción desde cualquier posición dada. Más preferiblemente, los segmentos tienen un tamaño correspondiente a intervalos de tiempo que tienen una longitud que es de entre 5 segundos y 20 segundos. Esto garantiza datos de audio suficientes para los sistemas de IA 44 para lograr resultados de descomposición satisfactorios por un lado, y reducir los datos de audio que van a descomponerse en un segmento hasta un valor lo suficientemente pequeño como para lograr una disponibilidad prácticamente inmediata de los datos de audio descompuestos para permitir la aplicación del dispositivo en una situación de actuación en directo.
En la salida de la primera unidad de segmentación 42 se proporciona un segmento del archivo de audio de entrada A que va a transmitirse al al menos un sistema de IA 44. Preferiblemente, el segmento se duplica o se copia para transmitirse al primer sistema de IA 44-1 y, al mismo tiempo, es decir en paralelo, al segundo sistema de IA 44-2. Por tanto, puede procesarse un mismo segmento del archivo de audio de entrada A al mismo tiempo en el primer sistema de IA 44-1 así como en el segundo sistema de IA 44-2.
Cada uno de los sistemas de IA usados en las realizaciones de la presente invención puede ser redes neuronales artificial entrenadas (ANN entrenada) tal como se describió anteriormente en esta divulgación. En particular, puede usarse una ANN entrenada tal como se describe por Prétetet al.que puede extraer una primera pista descompuesta que representa una pista vocal o una pista de voz de canción a partir de los datos de audio mixtos. En particular, los sistemas de IA 44 pueden calcular una transformada de Fourier de los datos de audio (es decir de los datos de audio contenidos en un segmento del archivo de audio de entrada) tal como para obtener un espectro de las frecuencias contenidas en los datos de audio, en el que entonces se introduce el espectro en la red neuronal convolucional que filtra partes del espectro reconocidas como que pertenecen a una determinada pista de origen o la suma de determinadas pistas de origen, por ejemplo que pertenecen a la parte vocal de la mezcla. Después vuelve a transformarse el espectro filtrado para dar una señal de forma de onda o señal de audio que, cuando se reproduce, contiene únicamente la parte filtrada de la señal de audio original, por ejemplo la parte vocal.
Para poder realizar este análisis de filtrado, puede usarse un sistema de IA tal como una ANN tal como se describe por Prétetet al.,por ejemplo, que se entrenó mediante conjuntos de datos que contienen grandes números de canciones grabadas o producidas profesionalmente de diferentes géneros, por ejemplo Hip Hop, Pop, Rock, Country, música electrónica Dance, etc., en el que dichos conjuntos de datos no sólo incluyen las canciones acabadas sino también las pistas vocales e instrumentales respectivas como grabaciones independientes.
Dentro de la primera unidad de descomposición 38 del dispositivo 10 de la primera realización (preferiblemente dentro de una memoria RAM del mismo, especialmente la RAM interna del ordenador 35) pueden estar almacenadas dos instancias independientes y completamente entrenadas de sistemas de IA (sistemas de IA diferentes o iguales) del tipo anteriormente mencionado, tal como para poder hacerse funcionar simultáneamente y de manera independiente uno de otro para generar una primera pista descompuesta y una segunda pista descompuesta, respectivamente. Preferiblemente, la primera y segunda pistas descompuestas son complementos, lo cual significa que la suma de la primera pista descompuesta y la segunda pista descompuesta, cuando se recombinan con niveles de volumen normales (es decir, cada una al 100 por ciento), se asemeja a los datos de entrada mixtos originales. Por ejemplo, la primera pista descompuesta puede asemejarse a la parte vocal completa de los datos de entrada mixtos, mientras que la segunda pista descompuesta puede asemejarse al resto completo de los datos de entrada mixtos, en particular la suma de todas las pistas instrumentales, de tal manera que recombinar ambas pistas descompuestas a niveles de volumen apropiados da como resultado una señal de audio que, en cuanto a su percepción acústica, se asemeja muy estrechamente a, o incluso no puede distinguirse de, los datos de entrada mixtos originales.
Preferiblemente, la primera y/o segunda pista descompuesta son, cada una, pistas estéreo que contienen una porción de señal de canal izquierdo y una porción de señal de canal derecho, respectivamente. Alternativamente pueden ser cada una o ambas pistas mono o pistas multicanal con más de dos canales (tal como pistas envolventes 5.1, por ejemplo).
La segunda unidad de descomposición 40 puede estar configurada de una manera similar o correspondiente a la de la primera unidad de composición 38, incluyendo por tanto la segunda unidad de segmentación 46 que divide el segundo archivo de audio de entrada B en varios segmentos de puntos de inicio y puntos de terminación fijos, que transmite los segmentos de manera consecutiva tanto a un tercer sistema de IA como a un cuarto sistema de IA para su procesamiento en paralelo y descomposición para obtener una tercera pista descompuesta y una cuarta pista descompuesta (cada una de las cuales puede ser pistas mono, pistas estéreo o pistas multicanal con más de dos canales (tal como pistas envolventes 5.1, por ejemplo)).
Después se transmiten las pistas descompuestas a partir de la primera y segunda unidades de descomposición 38 y 40 a la unidad de recombinación 32 que está configurada para recombinar al menos dos de las pistas descompuestas a niveles de volumen especificados y controlables y para generar datos de salida recombinados. Los niveles de volumen de las pistas descompuestas pueden controlarse por un usuario gracias a al menos un elemento de control. Por ejemplo, puede proporcionarse un primer elemento de control 26-1 que permite que un usuario controle una razón entre un primer nivel de volumen de la primera pista descompuesta y un segundo nivel de volumen de la segunda pista descompuesta, mientras que, alternativa o adicionalmente, puede proporcionarse un segundo elemento de control 26-2 que permite que un usuario controle una razón entre un tercer nivel de volumen de la tercera pista descompuesta y un cuarto nivel de volumen de la cuarta pista descompuesta.
Entonces, en la unidad de recombinación 32 se recombinan la primera y segunda pistas descompuestas entre sí en una primera etapa de recombinación 32-1 basándose en los niveles de volumen establecidos por el primer elemento de control 26-1 para obtener una recombinación A' a partir del primer archivo de audio de entrada A. Además, la tercera y cuarta pistas descompuestas pueden recombinarse en una segunda etapa de recombinación 32-2 de la unidad de recombinación 32 según el tercer y cuarto niveles de volumen establecidos por el segundo elemento de control 26-2 tal como para obtener una segunda recombinación B' a partir del segundo archivo de audio de entrada B. Además, la recombinación A' y la recombinación B' pueden introducirse en una etapa de mezclado 48 que mezcla la primera recombinación A' y la segunda recombinación B' según los ajustes del elemento de control de mezclado 28 controlable por el usuario. El elemento de control de mezclado 28 puede estar adaptado para controlar una razón entre los niveles de volumen de la primera y segunda recombinaciones A' y B'.
Después se transmiten los datos de salida recombinados generados por la unidad de recombinación 32 a una unidad de reproducción que puede incluir la interfaz de audio 34 conectada a la salida de audio 36.
Tal como puede observarse en la figura 2, la primera y segunda pistas descompuestas tal como se emiten por la primera unidad de descomposición 38 pueden introducirse en una primera unidad de visualización 49-1. Además, la tercera y cuarta pistas descompuestas tal como se emiten por la segunda unidad de descomposición 40 pueden introducirse en una segunda unidad de visualización 49-2. Además, la primera y/o segunda unidades de visualización 49-1 y 49-2 pueden estar conectadas a la unidad de recombinación 32 para obtener información sobre los ajustes actuales de los elementos de control 26-1, 26-2, por ejemplo. La primera y/o segunda unidades de visualización 49-1 y 49-2 están preferiblemente configuradas para visualizar una forma de onda de superposición de la recombinación A' y la recombinación B', respectivamente, tal como se explicará en más detalle a continuación.
El procesamiento de los datos de audio dentro del dispositivo 10 de la primera realización de la invención se ilustra adicionalmente con respecto a la figura 3, que muestra el procesamiento únicamente del primer archivo de audio de entrada A como ejemplo, que puede aplicarse al procesamiento del segundo archivo de audio de entrada B, o a cualquier otro archivo de audio de entrada adicional, de la misma manera. Tal como puede observarse en la figura 3, después del procedimiento de descomposición en la sección de procesamiento 14, se almacenan los segmentos de la primera y segunda pistas descompuestas en una memoria intermedia de audio (por ejemplo, una memoria intermedia circular) para su procesamiento adicional inmediato, y en particular para su reproducción, preferiblemente reproducción en tiempo real. La memoria intermedia de audio tiene múltiples matrices de datos con el fin de almacenar datos de audio a partir del segmento actual de la primera pista descompuesta así como datos de audio a partir del segmento actual de la segunda pista descompuesta, cada una con el número dado de canales (mono, estéreo, envolvente, etc.). Por ejemplo, si ambas pistas descompuestas representan señales estéreo, puede usarse una memoria intermedia de cuatro matrices con el fin de almacenar porciones de canal izquierdo y derecho de los segmentos de la primera y la segunda pista descompuesta, respectivamente.
La salida de la memoria intermedia puede estar conectada a la unidad de recombinación 32 que genera una pista recombinada según los ajustes del primer elemento de control 26-1.
Si el dispositivo 10 incluye una o más cadenas de efectos de audio para aplicar efectos de audio a las señales, tales como efectos de retardo, efectos de reverberación, efectos de ecualizador, efectos de cambio de tono o de tempo, por ejemplo obtenidos mediante cambio de altura, efectos de remuestreo y/o estiramiento temporal, etc., tal como se conocen convencionalmente como tales para equipos de DJ, tales cadenas de efectos pueden insertarse en diferentes posiciones en el flujo de señales. Por ejemplo, las pistas descompuestas (segmentos) emitidas por la memoria intermedia pueden enrutarse, cada una, a través de las cadenas de efectos de audio 51-1 y 51-2, respectivamente, tal como para aplicar efectos de manera individual a la pista descompuesta respectiva según se desee. Entonces puede conectarse la salida de las cadenas de efectos de audio 51-1, 51-2 a la unidad de recombinación 32. Además o como alternativa, una cadena de efectos 51-3 puede estar dispuesta en una posición con respecto al flujo de señales en la que la primera y segunda pistas descompuestas se recombinan según el primer y segundo niveles de volumen establecidos por el primer elemento de control 26-1, en particular en una posición después de la unidad de recombinación 32 o después de la primera etapa de recombinación 32-1 de la unidad de recombinación 32. La ventaja de esta disposición es que se reduce el número de canales que van a presentarse a la cadena de efectos de audio 51-3 dentro del procedimiento de recombinación al menos a la mitad del número de canales antes de la primera etapa de recombinación y en particular es igual al número de canales de los primeros datos de entrada mixtos (un canal para una señal mono, dos canales para una señal estéreo, más de dos canales para otros formatos tales como señales envolventes). Por tanto, la funcionalidad adicional de las unidades de descomposición de la presente realización no provocará una complejidad aumentada o sobrecarga de rendimiento de la cadena de efectos de audio 51-3 en comparación con el procesamiento convencional de los datos de entrada mixtos. Pueden incluso usarse las mismas cadenas de efectos de audio en cuanto a equipos de DJ convencionales.
Haciendo referencia a las figuras 4 a 10, a continuación se explican las realizaciones segundo a octava. Cada realización es una modificación de la primera realización descrita anteriormente con respecto a las figuras 1 a 3 y todas las características y funciones descritas anteriormente para la primera realización se incluyen preferiblemente de la misma manera correspondiente en cada una de la segunda a octava realizaciones a menos que se describa de otro modo a continuación. Las mismas características o funciones u otras o correspondientes no se describirán de nuevo.
En la segunda realización ilustrada en la figura 4, se visualizan una primera mesa de DJ 50a y una segunda mesa de DJ 50b en un elemento de visualización, en particular un elemento de visualización táctil que permite que un usuario los accione por medio de gestos o movimientos correspondientes al funcionamiento de mesas de DJ físicas. La segunda realización puede resultar ventajosa, en particular, para permitir que un usuario, en particular un DJ, realice efectos descratchingdurante la actuación en directo o salte a diferentes posiciones de tiempo en una canción.
Como característica adicional de la segunda realización, que puede proporcionarse de manera independiente de (además o alternativamente a) las mesas de DJ 50a, 50b, el primer elemento de control 26-1, y preferiblemente también el segundo elemento de control 26-2, pueden implementarse como elementos deslizantes, o bien como elementos deslizantes de hardware que pueden moverse mecánicamente por un usuario, o bien mediante elementos deslizantes virtuales presentados en una pantalla táctil o en una pantalla de ordenador móvil mediante un gesto táctil o mediante un puntero, un ratón de ordenador o cualquier otra entrada de usuario. El elemento deslizante del primer elemento de control 26-1 permite la variación continua de la razón entre el primer nivel de volumen de la primera pista descompuesta y el segundo nivel de volumen de la segunda pista descompuesta en un intervalo de desde una posición de extremo en la que el primer nivel de volumen se establece al 100 % y el segundo nivel de volumen se establece al 0 % hasta otra posición de extremo en la que el primer nivel de volumen se establece al 0 % y el segundo nivel de volumen se establece al 100 %. Entre las posiciones de extremo, cuando se mueve el elemento deslizante en un sentido, se aumenta uno del primer y segundo niveles de volumen, mientras que se reduce el otro del primer y segundo niveles de volumen en la misma proporción.
Como ajustes por defecto preferidos, en una posición central del elemento de control 26-1, tanto el primer como el segundo niveles de volumen se establecen a un volumen completo/normal = 100 %, es decir la recombinación corresponde a los primeros datos de entrada mixtos originales. Sin embargo, la curva de ajuste de volumen puede ser configurable por el usuario si se necesita. Por defecto, los niveles de volumen pueden calcularse de la siguiente manera:
primer nivel de volumen = MIN(1,0, ValorDeslizante*2,0),
segundo nivel de volumen = MIN(1,0, (1,0 - ValorDeslizante)*2,0),
donde “MIN (valor 1, valor 2)” representa un valor mínimo del valor 1 y el valor 2, “ValorDeslizante” representa un<ajuste del elemento de control>26-1<que discurre desde 0 (valor de extremo izquierdo) hasta 1,0 (valor de extremo>derecho). El aumento y la reducción de los niveles de volumen se invierten cuando se mueve el elemento deslizante en el otro sentido. Por tanto, el usuario podrá realizar un fundido cruzado suave entre la primera pista descompuesta y la segunda pista descompuesta o ajustar una recombinación deseada entre ambas pistas descompuestas mediante un único movimiento continuo con tan sólo una mano o incluso con tan sólo un dedo. Preferiblemente, el segundo elemento de control 26-2 puede hacerse funcionar de la misma manera que el primer elemento de control 26-1 para controlar el tercer y cuarto niveles de volumen de la tercera y cuarta pistas descompuestas, respectivamente.
Preferiblemente, el elemento de control de mezclado 28 también se realiza como un elemento deslizante y puede estar posicionado entre el primer y segundo elementos de control 26-1,26-2 para un funcionamiento intuitivo del dispositivo. Como en la primera realización, el elemento de control de mezclado 28 puede ser un dispositivo de fundido cruzado y/o puede estar adaptado para controlar una razón entre los niveles de volumen de la primera y segunda recombinaciones A' y B', en el que la recombinación A' se obtiene a partir de la recombinación de la primera pista descompuesta y la segunda pista descompuesta, y la recombinación B' se obtiene a partir de la recombinación de la tercera pista descompuesta y la cuarta pista descompuesta.
El dispositivo 10 puede estar configurado además para visualizar una primera sección de forma de onda 52-1 en la que se visualizan formas de onda que representan la primera y segunda pistas descompuestas o una recombinación de las mismas. La primera y segunda pistas descompuestas pueden visualizarse de una manera superpuesta tal como para compartir una línea de referencia/eje de tiempo común, pero usando diferentes ejes de señal y/o diferentes estilos de dibujo para poder distinguirse visualmente una de otra. En el ejemplo mostrado en la figura 4, la primera sección de forma de onda 52-1 visualiza una versión con zoom aumentado 53-1 de la primera y segunda formas de onda, en la que la primera y segunda formas de onda se visualizan de una manera superpuesta usando una línea de referencia común que se ajusta a escala para ver un intervalo de tiempo que contiene la posición de reproducción actual y que tiene preferiblemente un tamaño de entre 1 segundo y 60 segundos, más preferiblemente entre 3 segundos y 10 segundos. La versión con zoom aumentado 53-1 puede desplazarse con la reproducción tal como para mantener visible una posición de reproducción actual, en particular en una posición fija en el elemento de visualización. Además o alternativamente, la primera sección de forma de onda 52-1 puede visualizar una versión con zoom reducido 55-1 de la primera y segunda formas de onda, en la que la primera y segunda formas de onda se visualizan de una manera superpuesta usando una línea de referencia común que se ajusta a escala para ver un intervalo de tiempo que contiene la posición de reproducción actual y que tiene preferiblemente un tamaño correspondiente a la longitud de un archivo de audio de entrada, por ejemplo toda la canción A y/o un tamaño entre 60 segundos y 20 minutos. Preferiblemente, la versión con zoom reducido 55-1 no se mueve con respecto al eje de tiempo, sino que en vez de eso muestra un cursor de reproducción 58 que representa la posición de reproducción actual, que se mueve a lo largo del eje de tiempo.
Asimismo, el dispositivo 10 puede estar configurado para visualizar una segunda sección de forma de onda 52-2 en la que se visualizan formas de onda que representan la tercera y cuarta pistas descompuestas de la misma manera tal como se describió anteriormente para la primera sección de forma de onda 52-1 y la primera y segunda pistas descompuestas, en particular por medio de una versión con zoom aumentado 53-2 y una versión con zoom reducido 55-2.
La primera y/o segunda secciones de forma de onda 52-1, 52-2 pueden estar configuradas para recibir órdenes de entrada de usuario tales como gestos táctiles u órdenes de entrada de ratón/puntero con el fin de cambiar la posición de reproducción actual y para saltar hasta una posición deseada dentro de los datos de audio, por ejemplo simplemente haciendo clic o tocando la posición deseada en la línea de referencia en la versión con zoom reducido 55-1/55-2.
En el ejemplo de la figura 4, la primera y segunda pistas descompuestas de la versión con zoom aumentado 53-1 de la primera sección de forma de onda 52-1 se visualizan usando diferentes ejes de señal y diferentes estilos de dibujo. En particular, el eje de señal de la primera pista descompuesta, por ejemplo la pista vocal descompuesta, se ajusta a escala para ser significativamente menor que el de la segunda pista descompuesta, por ejemplo la pista instrumental descompuesta, de tal manera que la primera pista descompuesta se visualiza como que se encuentra dentro de la segunda pista descompuesta y, por tanto, puede distinguirse visualmente. Además, la forma de onda de la primera pista descompuesta se visualiza con un estilo de dibujo que usa un color oscuro, mientras que la forma de onda de la segunda pista descompuesta se visualiza con un estilo de dibujo que usa un color más claro.
Asimismo, la primera y segunda pistas descompuestas de la versión con zoom reducido 55-1 de la primera sección de forma de onda 52-1 se visualizan usando diferentes estilos de dibujo. En particular, se visualizan únicamente una mitad superior de la forma de onda de la primera pista descompuesta y únicamente una mitad inferior de la forma de onda de la segunda pista descompuesta. Además, la forma de onda de la primera pista descompuesta puede visualizarse con un estilo de dibujo que usa un color oscuro, mientras que la forma de onda de la segunda pista descompuesta puede visualizarse con un estilo de dibujo que usa un color más claro. Evidentemente, todos estos estilos de dibujo pueden intercambiarse o modificarse y/o aplicarse a las formas de onda de la segunda sección de forma de onda 52-2.
Las representaciones superpuestas de las pistas descompuestas en la primera y segunda secciones de forma de onda 52-1, 52-2 pueden proporcionarse mediante un método según una realización de la invención, que se describirá en más detalle a continuación con respecto a las figuras 12 y 13.
Además, los ajustes de los elementos de control 26-1, 26-2, 28 y 30-1, 30-2 pueden reflejarse en la visualización de las pistas descompuestas en la primera y segunda secciones de forma de onda 52-1, 52-2 mediante cambios de amplitud de señal respectivos de las formas de onda individuales visualizadas. En particular, los ejes de señal de las formas de onda de las pistas descompuestas tal como se visualizan en la primera y segunda secciones de forma de onda 52-1, 52-2 se ajustan a escala dependiendo de los ajustes actuales de los niveles de volumen de las pistas descompuestas respectivas tal como se establecen por el usuario mediante los elementos de control 26-1, 26-2, 28 y 30-1, 30-2. Esto permite una retroalimentación visual directa y preferiblemente inmediata de los ajustes de volumen para el usuario.
El dispositivo 10 puede tener un primer elemento de control de marca 31-1 y/o un segundo elemento de control de marca 31-2, asociados con el primer y segundo archivos de entrada mixtos (canciones A y B), respectivamente, que pueden accionarse por un usuario para almacenar una posición de reproducción actual y para recuperar y saltar a la misma en cualquier punto de tiempo posterior según se desee.
En la tercera realización ilustrada en la figura 5, el primer y segundo elementos de control 26-1, 26-2 son similares en cuanto a la función a los elementos de control respectivos en la segunda realización excepto porque son botones giratorios en vez de elementos deslizantes. Sin embargo, los botones giratorios también pueden hacerse rotar entre dos posiciones de extremo en las que uno del primer y segundo niveles de volumen se establece al 100 % mientras que el otro del primer y segundo niveles de volumen se establece al 0 %. De nuevo, el usuario puede realizar un fundido cruzado entre la primera y segunda pistas descompuestas por medio de un único movimiento continuo usando únicamente una mano o únicamente un dedo. Puede implementarse la misma configuración para el segundo elemento de control 26-2.
La figura 6 ilustra una cuarta realización de la presente invención que usa una sección de control diferente para controlar la unidad de recombinación. En particular, en vez o además del primer y segundo elementos de control 26 1, 26-2 tal como se describió para la primera a tercera realizaciones, en la cuarta realización se proporciona un tercer elemento de control 26-3 que controla una razón entre el primer nivel de volumen de la primera pista descompuesta y el tercer nivel de volumen de la tercera pista descompuesta, dicho de otro modo, niveles de volumen de pistas descompuestas de diferentes unidades de descomposición 38, 40. Además, puede comprender un cuarto elemento de control 26-4 que permite que un usuario controle una razón entre el segundo nivel de volumen de la segunda pista descompuesta y el cuarto nivel de volumen de la cuarta pista descompuesta. Por medio de estos elementos de control 26-3, 26-4 será posible, por ejemplo, controlar de manera fácil y directa, por medio de un único movimiento con una mano o un dedo, una razón entre una parte vocal del primer archivo de audio y una parte vocal del segundo archivo de audio manipulando el tercer elemento de control 26-3. Asimismo, manipulando el cuarto elemento de control 26-4 en un único movimiento mediante únicamente una mano o únicamente un dedo, un usuario puede controlar una razón entre el nivel de volumen de la parte instrumental del primer archivo de audio y la parte instrumental del segundo archivo de audio. Esto permite que un DJ, por ejemplo, realice una transición incluso con menos interrupciones realizando en primer lugar un fundido cruzado de la pista vocal desde la canción A hasta la canción B y posteriormente un fundido cruzado de la pista instrumental desde la canción A hasta la canción B, logrando por tanto un flujo más continuo de la música.
El tercer elemento de control 26-3 y/o el cuarto elemento de control 26-4 pueden implementarse como elementos deslizantes (elemento deslizante de hardware o interfaz de usuario de software, por ejemplo elementos deslizantes de pantalla táctil virtuales) o como botones giratorios (asimismo, como botones giratorios de hardware o botones giratorios virtuales en una pantalla táctil, pantalla de ordenador o cualquier otro dispositivo de visualización).
En la primera a cuarta realizaciones descritas anteriormente, el dispositivo 10 estaba preferiblemente realizado como un dispositivo de todo en uno que incluye una sección de entrada 12, una sección de procesamiento 14, una unidad de recombinación 32, una unidad de reproducción (en particular una interfaz de audio 34 (por ejemplo, tarjeta de sonido) y una salida de audio 36), en un único alojamiento o, alternativamente, como un equipo virtual completo realizado como un software que se ejecuta en una unidad de control electrónica (ECU) visualizándose los elementos de control en un elemento de visualización de la ECU y proporcionándose los componentes electrónicos de la sección de procesamiento 14 mediante los componentes electrónicos integrados de la ECU. Tal ECU puede ser un ordenador personal convencional, un dispositivo informático de múltiple propósito, un ordenador portátil, un ordenador de tipo tableta, un teléfono inteligente o un controlador de DJ autónomo integrado.
Como alternativa adicional, según una quinta realización mostrada en la figura 7, el dispositivo 10 puede implementarse como una combinación de un ordenador 54 (ordenador personal, ordenador portátil, ordenador de tipo tableta o teléfono inteligente u otro dispositivo informático de propósito múltiple) y un dispositivo periférico 56 que es un componente de hardware externo que puede conectarse al ordenador mediante cable (tal como conexión de USB, conexión de MIDI, conexión de HID, conexión de tipo Firewire, conexión de LAN, etc.) o mediante cualquier conexión inalámbrica usando los protocolos inalámbricos habituales (WIFI, GSM, Bluetooth etc.). Preferiblemente, el dispositivo periférico 56 incluye la sección de control de recomposición 24 con los elementos de control tales como los elementos de control 26-1, 26-2 y 28. Además, el dispositivo periférico 56 puede incluir ruedas de selección 50a, 50b u otras características conocidas a partir de equipos de DJ convencionales. El hardware convencional del ordenador 54 puede usarse como sección de procesamiento 14, en particular para almacenar y ejecutar los sistemas de IA y las unidades de segmentación en la memoria RAM del ordenador 54. Además, también puede incluirse un procesador/CPU en el dispositivo periférico 56 para realizar algunas o la totalidad de las tareas de la sección de procesamiento 14.
Una sexta realización de la presente invención tal como se muestra en la figura 8 es una ligera modificación de la quinta realización, en la que el dispositivo periférico 56 de la sexta realización es relativamente compacto y simplemente incluye la sección de control de recomposición y los elementos de control con el fin de reducir el hardware adicional requerido para llevar a cabo la presente invención al mínimo y todavía proporcionar elementos de control mecánicos.
En una séptima realización mostrada en la figura 9, el dispositivo 10 comprende un botón instrumental de canción A 26-5 controlable por el usuario para encender o apagar la pista instrumental descompuesta de la canción A, y/o un botón vocal de canción A 26-6 controlable por el usuario para encender o apagar la pista vocal descompuesta de la canción A, y/o un botón instrumental de canción B 26-7 controlable por el usuario para encender o apagar la pista instrumental descompuesta de la canción B, y/o un botón vocal de canción B 26-8 controlable por el usuario para encender o apagar la pista vocal descompuesta de la canción B. Realizando algunos o ola totalidad de estos botones 26-5 a 26-8 como botones independientes, el usuario puede encender o apagar de manera individual y mediante tan sólo una única operación (un toque con el dedo) una seleccionada de las pistas descompuestas. Obsérvese que, en la presente descripción, encender y apagar una pista se refiere a reactivar y silenciar la pista, respectivamente.
Preferiblemente, tras el accionamiento de uno de los botones 26-5 a 26-8 por el usuario, la pista descompuesta respectiva no se enciende o apaga inmediatamente, sino que el dispositivo se controla para aumentar o reducir el de manera continua o gradual el volumen de la pista respectiva dentro de un determinado periodo de tiempo de preferiblemente más de 5 milisegundos o incluso más de 50 milisegundos, tal como para evitar artefactos acústicos que surgen de transiciones de señal instantáneas.
En una octava realización mostrada en la figura 10, el dispositivo 10 puede comprender una primera etapa de recombinación configurada para obtener una primera recombinación A' recombinando la pista vocal descompuesta de la canción A con la pista instrumental descompuesta de la canción A, y una segunda etapa de recombinación configurada para obtener una segunda recombinación B' recombinando la pista vocal descompuesta de la canción B con la pista instrumental descompuesta de la canción B. Además, el dispositivo 10 puede comprender un elemento de control de mezclado 28 configurado tal como para poder accionarse por un usuario en un primer sentido para aumentar un nivel de volumen de la primera recombinación A' o en un segundo sentido para aumentar un nivel de volumen de la segunda recombinación B'. Además, preferiblemente se proporciona una etapa de mezclado que mezcla la primera y segunda recombinaciones A' y B' entre sí según sus niveles de volumen respectivos para obtener la pista de salida recombinada. Tal flujo de señales es similar al explicado anteriormente haciendo referencia a la figura 2.
Ahora, en la octava realización, el dispositivo 10 puede incluir además un botón de intercambio vocal 26-9 controlable por el usuario, en particular mediante una única operación tal como simplemente empujando el botón, para enrutar la pista vocal descompuesta de la canción A a la segunda etapa de recombinación y enrutar la pista vocal descompuesta de la canción B a la primera etapa de recombinación. Dicho de otro modo, el accionamiento del botón de intercambio vocal 26-9 intercambia las dos pistas vocales descompuestas de las canciones A y B antes de que entren en la primera y segunda etapas de recombinación, respectivamente. El accionamiento repetido del botón de intercambio vocal 26-9 puede intercambiar de nuevo las dos pistas vocales descompuestas y así sucesivamente.
Además o alternativamente, el dispositivo 10 puede incluir un botón de intercambio instrumental 26-10 controlable por el usuario, en particular mediante una única operación tal como simplemente empujando el botón, para enrutar la pista instrumental descompuesta de la canción A a la segunda etapa de recombinación y para enrutar la pista instrumental descompuesta de la canción B a la primera etapa de recombinación. Dicho de otro modo, el accionamiento del botón de intercambio instrumental 26-10 intercambia las dos pistas instrumentales descompuestas de las canciones A y B antes de que entren en la primera y segunda etapas de recombinación, respectivamente. El accionamiento repetido del botón de intercambio instrumental 26-10 puede intercambiar de nuevo las dos pistas instrumentales descompuestas y así sucesivamente.
Preferiblemente, tras el accionamiento de uno de los botones 26-9 o 26-10 por el usuario, el intercambio respectivo de las pistas no será inmediato, sino que el dispositivo se controla para aumentar o reducir de manera continua o gradual los volúmenes respectivos de las pistas dentro de un determinado periodo de tiempo de preferiblemente más de 5 milisegundos o incluso más de 50 milisegundos, tal como para evitar artefactos acústicos que surgen de transiciones de señal instantáneas.
Alternativamente, el botón de intercambio vocal 26-9 puede controlarse por el usuario para lograr una remezcla/mashupsimilar obteniendo una primera recombinación A' recombinando la pista vocal descompuesta de la canción A a un volumen normal (en particular volumen máximo) con la pista instrumental descompuesta silenciada de la canción A, y obteniendo una segunda recombinación B' recombinando la pista vocal descompuesta silenciada de la canción B con la pista instrumental descompuesta de la canción B a un volumen normal (en particular volumen máximo), mientras que establece el elemento de control de mezclado 28 en su posición central tal como hacer que ambas de las recombinaciones A' y B' puedan oírse a los mismos niveles de volumen y al mismo tiempo.
La figura 11 muestra una modificación del método de la octava realización, especialmente en cuanto al accionamiento de los botones de intercambio, por ejemplo el botón de intercambio vocal 26-9. El dispositivo 10 recibe una pista A (canción A) como pista maestra y una pista B (canción B) como pista esclava. La pista A se descompone tal como se describió anteriormente para obtener las pistas descompuestas 1 y 2, mientras que la pista B se descompone tal como se describió anteriormente para obtener las pistas descompuestas 3 y 4, respectivamente. Con el fin de preparar la pista descompuesta 3 para el intercambio, se hará coincidir su tono, tempo y fase de compás con los de la pista maestra A. En particular, el dispositivo 10 determina un tempo (por ejemplo, un valor de BPM (compases por minuto)) de la pista A y la pista B y, si no coinciden, se remuestreará la pista descompuesta 3 o se someterá a estiramiento temporal tal como para coincidir con el tempo de la pista maestra A. Además, se llevará a cabo una coincidencia de tono y se cambiará el tono de la pista descompuesta 3, si es necesario, tal como para coincidir con el de la pista maestra A. Además, después de la coincidencia de tempo de la pista descompuesta 3, se desplaza la fase de compás de la pista descompuesta 3 en una etapa de sincronización según sea necesario, tal como para coincidir con la fase de compás de la pista A.
Como resultado, el dispositivo 10 prepara una pista descompuesta modificada 3' que coincide con la pista A en cuanto al tempo, la fase de compás y el tono de tal manera que puede recombinarse sin interrupciones con la pista descompuesta 2 de la pista A. Si se activa el botón de intercambio, tal como puede observarse en la figura 11, en el siguiente procesamiento de la pista A, se usará la pista descompuesta 3' en vez de la pista descompuesta 1 y se enrutará a la etapa de recombinación para la recombinación con la pista descompuesta 2 y la salida de audio.
Opcionalmente, pueden insertarse una o más cadenas de efectos de audio en el flujo de señales de cualquiera de las pistas, por ejemplo entre la etapa de intercambio y la etapa de recombinación tal como para aplicarse a las pistas descompuestas 1, 2 o 3' respectivas, por ejemplo.
Las figuras 12 y 13 muestran representaciones gráficas de datos de audio que pueden visualizarse en un dispositivo de visualización en un método o dispositivo de una realización de la presente invención, en particular en un dispositivo según una de la primera a octava realizaciones descritas anteriormente, durante el funcionamiento del dispositivo. En particular, la representación gráfica puede visualizarse en un elemento de visualización de la ECU, en particular una pantalla de ordenador o un elemento de visualización integrado de un dispositivo periférico independiente conectado a un ordenador o como un dispositivo autónomo, en un ordenador de tipo tableta, teléfono inteligente o un dispositivo similar. La representación gráfica puede generarse mediante software adecuado que se ejecuta en la ECU (es decir, el ordenador, el dispositivo autónomo, el ordenador de tipo tableta, el teléfono inteligente, etc.) y que puede formar parte del software que lleva a cabo un método según la presente invención tal como se describe en las reivindicaciones o en las realizaciones anteriores. El software puede hacer funcionar una interfaz gráfica, tal como una tarjeta gráfica.
Según la realización, se visualizan datos de audio como formas de onda. En este sentido, las formas de onda son representaciones que tienen un eje de tiempo t lineal que representa el tiempo de reproducción (habitualmente un eje horizontal) y un eje de señal (ortogonal al eje de tiempo t, preferiblemente un eje vertical), que representa una intensidad de señal promedio o una amplitud de señal de los datos de audio en cada tiempo de reproducción específico. Puede proporcionarse un cursor de reproducción 58 que indica la posición de reproducción actual. Durante la reproducción de los datos de audio, el cursor de reproducción 58 se mueve con respecto a la forma de onda a lo largo del eje de tiempo t moviendo visualmente o bien la forma de onda o bien el cursor de reproducción o bien ambos.
La figura 12 muestra esquemáticamente las etapas de procesamiento para llegar a la representación gráfica novedosa de la invención. Se reciben datos de entrada mixtos 60, por ejemplo la canción A, y se descomponen para obtener la primera pista descompuesta 61-1, por ejemplo una pista vocal descompuesta, y la segunda pista descompuesta 61 2, por ejemplo una pista instrumental descompuesta. La primera y segunda pistas descompuestas 61-1 y 61-2 pueden ser pistas complementarias de tal manera que su suma corresponde a los datos de entrada mixtos 60.
Entonces se visualiza realmente una forma de onda de superposición 64 que es una representación superpuesta de la primera y segunda pistas descompuestas 61-1,61-2 usando una única línea de referencia para las formas de onda de ambas pistas descompuestas, lo cual significa que los ejes de tiempo t de ambas formas de onda no están desplazándose en paralelo entre sí a una distancia sino que son idénticos para formar una línea común. Con el fin de permitir una diferenciación entre ambas formas de onda, se visualizan usando diferentes estilos de dibujo. Por ejemplo, una de las dos formas de onda de las pistas descompuestas puede visualizarse en un color diferente de la otra forma de onda. En el ejemplo mostrado en la figura 12, para una de las formas de onda de las pistas descompuestas, en este caso la pista vocal descompuesta 61-1, sólo se visualizan porciones de señal positivas, mientras que se omiten las porciones de señal negativas, mientras que para la forma de onda de la otra de las pistas descompuestas, en este caso la pista instrumental descompuesta 61-2, sólo se visualizan las porciones de señal negativas, mientras que se omiten las porciones de señal positivas. Alternativamente, las formas de onda pueden dibujarse usando ejes de señal de escala diferente o usando diferentes estilos de dibujo tal como para permitir distinguir las formas de onda una de otra. Como un ejemplo de diferentes estilos de dibujo, una de las formas de onda puede dibujarse en una línea de rayas o de puntos, o de color diferente, o de opacidad o transparencia diferente o cualquier combinación de los mismos.
En otro ejemplo mostrado en la figura 13, una de las formas de onda de las pistas descompuestas, en este caso la forma de onda de la pista vocal descompuesta 61-1, se visualiza con un eje de señal de escala diferente, en este caso más pequeño, que el de la forma de onda de la otra pista descompuesta, en este caso la pista instrumental descompuesta 61-2. Además, las formas de onda pueden visualizarse con colores diferentes.
Las formas de onda de pistas descompuestas se visualizan preferiblemente tal como para representar los ajustes de los elementos de control de la sección de control de recomposición y/o los ajustes de la unidad de recombinación tal como para proporcionar realimentación al usuario sobre los volúmenes de señal asignados a las pistas descompuestas respectivas. Preferiblemente, al mismo tiempo que un usuario está manipulando uno de los elementos de control para aumentar o reducir el volumen de al menos una pista descompuesta, la forma de onda asociada de esta pista descompuesta se visualiza con un tamaño creciente o decreciente con respecto a su eje de señal, o aparece o desaparece gradualmente de manera visual. Esta realimentación gráfica es preferiblemente inmediata, por tanto con un tiempo de retardo que no perturba o incluso no puede percibirse para el usuario, en particular un tiempo de retardo por debajo de 500 milisegundos, preferiblemente por debajo de 35 milisegundos de tal manera que no puede percibirse a simple vista a una tasa de tramas de 30 tramas por segundo. Tal visualización ayuda en gran medida al funcionamiento del dispositivo durante una actuación en directo.
La figura 14 muestra una novena realización de un dispositivo 10 de la presente invención, que es un reproductor de audio que incluye una sección de control de recomposición 24 que tiene un elemento de control 26-13 para controlar el primer y segundo niveles de volumen de una primera y segunda pistas descompuestas respectivas (en este caso, la pista vocal descompuesta y la pista instrumental descompuesta) obtenidas a partir de un archivo de audio, y opcionalmente una región de visualización 66 que visualiza una representación superpuesta de la primera y segunda pistas descompuestas. El dispositivo 10 de la figura 14 puede estar adaptado para reproducir archivos de audio uno detrás de otro, por ejemplo a partir de una lista de reproducción o basándose en selección de usuario individual, y puede tener una unidad de entrada para recibir archivos de audio mediante transmisión en continuo a partir de un servicio de transmisión en continuo de audio, y, por tanto, puede estar adaptado para reproducir únicamente un archivo de audio la mayor parte del tiempo (aparte de efectos de fundido cruzado opcionales en una transición desde el final de una canción hasta el comienzo de la siguiente canción). El usuario puede empezar o detener la reproducción mediante accionamiento de un elemento de control de reproducción 30 y/o puede cambiar la posición de reproducción moviendo el cursor de reproducción a lo largo del eje de tiempo.
Mediante el elemento de control 26-13, el usuario puede controlar la reproducción de una canción tal como para oír únicamente la pista vocal descompuesta o únicamente la pista instrumental descompuesta o una recombinación de ambas pistas. Tal configuración puede ser útil para una aplicación de karaoke o una aplicación de reproducción conjunta, por ejemplo. Preferiblemente, el dispositivo 10 es un ordenador o un dispositivo móvil, tal como un teléfono inteligente u ordenador de tipo tableta, que ejecuta una aplicación de software adecuada para realizar las funcionalidades anteriormente descritas.
La figura 15 muestra una décima realización de la presente invención que comprende botones de encendido-apagado independientes 26-14 a 26-17 para cada una de la primera a cuarta pistas descompuestas, en particular la primera pista vocal descompuesta, la primera pista instrumental descompuesta, la segunda pista vocal descompuesta y la segunda pista instrumental descompuesta, respectivamente. Accionando uno de los botones, el volumen de la pista descompuesta respectiva se conmuta entre el 0 y el 100 por ciento o viceversa.
La figura 16 muestra una decimoprimera realización de la presente invención que comprende dispositivos de fundido independientes 26-18 a 26-21 para cada una de la primera a cuarta pistas descompuestas, en particular la primera pista vocal descompuesta, la primera pista instrumental descompuesta, la segunda pista vocal descompuesta y la segunda pista instrumental descompuesta, respectivamente. Accionando uno de los dispositivos de fundido, el volumen de la pista descompuesta respectiva se cambia de manera continua entre el 0 y el 100 por ciento o viceversa.

Claims (7)

  1. REIVINDICACIONES
    i.Método para procesar y reproducir datos de audio usando un equipo de DJ, que comprende las etapas de:
    a) recibir primeros datos de entrada mixtos, siendo dichos datos de entrada mixtos una señal de suma obtenida a partir de mezclar al menos una primera pista de origen con al menos una segunda pista de origen, y
    recibir segundos datos de entrada mixtos, siendo dichos segundos datos de entrada mixtos una señal de suma obtenida a partir de mezclar al menos una tercera pista de origen con al menos una cuarta pista de origen,
    b) descomponer los primeros datos de entrada mixtos para obtener al menos una primera pista descompuesta que se asemeja a la al menos una primera pista de origen, y una segunda pista descompuesta que se asemeja a la al menos una segunda pista de origen, y
    descomponer los segundos datos de entrada mixtos para obtener una tercera pista descompuesta que se asemeja a la al menos una tercera pista de origen, y una cuarta pista descompuesta que se asemeja a la al menos una cuarta pista de origen,
    en el que descomponer los datos de entrada mixtos incluye procesar los datos de entrada mixtos mediante un sistema de inteligencia artificial,
    c) generar datos de salida, en el que generar datos de salida comprende recombinar la primera pista descompuesta a un primer nivel de volumen, la segunda pista descompuesta a un segundo nivel de volumen, la tercera pista descompuesta a un tercer nivel de volumen y la cuarta pista descompuesta a un cuarto nivel de volumen, para generar datos de salida recombinados,
    d) reproducir los datos de salida recombinados a través de una salida de audio;
    en el que el método permite que un usuario manipule los niveles de volumen de la primera así como la segunda pista descompuesta de manera individual, y
    en el que el método comprende además una etapa de leer una entrada de control a partir de un usuario, representando dicha entrada de control unos ajustes deseados del primer nivel de volumen de la primera pista descompuesta, el segundo nivel de volumen de la segunda pista descompuesta, el tercer nivel de volumen de la tercera pista descompuesta y el cuarto nivel de volumen de la cuarta pista descompuesta, de tal manera que el usuario tiene la oportunidad de recombinar las pistas descompuestas de manera individual a los niveles de volumen deseados.
  2. 2. Método según al menos una de las reivindicaciones anteriores, en el que la descomposición de los datos de entrada mixtos se lleva a cabo por segmentos, en el que la descomposición se lleva a cabo basándose en un primer segmento de los datos de entrada mixtos tal como para obtener un primer segmento de datos de salida, y en el que la descomposición de un segundo segmento de los datos de entrada mixtos se lleva a cabo mientras se reproduce el primer segmento de datos de salida.
  3. 3. Método según al menos una de las reivindicaciones anteriores, en el que las etapas de método se llevan a cabo en un procedimiento continuo.
  4. 4. Método según al menos una de las reivindicaciones anteriores, en el que los datos de entrada mixtos se reciben mediante transmisión en continuo a partir de un servidor remoto, preferiblemente a través de Internet.
  5. 5. Método según la reivindicación 2, en el que el tamaño del primer segmento se establece de tal manera que el tiempo requerido para descomponer el primer segmento es menor de 2 segundos, preferiblemente menor de 150 milisegundos, lo más preferiblemente menor de 50 milisegundos.
  6. 6. Método según al menos una de las reivindicaciones anteriores, en el que dicho sistema de IA se entrena mediante una pluralidad de conjuntos de datos de audio de entrenamiento, en el que cada conjunto de datos de audio de entrenamiento incluye al menos una primera pista de origen y una pista mixta que es una señal de suma obtenida a partir de mezclar al menos la primera pista de origen o una pista que se asemeja a la primera pista de origen, con una segunda pista de origen.
  7. 7.Método según al menos una de las reivindicaciones anteriores, en el que dichos primeros datos de entrada mixtos y dichos segundos datos de entrada mixtos se basan, cada uno, en una estructura de compases periódicas y en el que el método comprende además:
    - realizar al menos uno de un procesamiento de coincidencia de tempo y un procesamiento de coincidencia de tono,
    - en el que el procesamiento de coincidencia de tempo comprende: recibir primeros datos de entrada obtenidos a partir de los primeros datos de entrada mixtos y segundos datos de entrada obtenidos a partir de los segundos datos de entrada mixtos, someter a estiramiento temporal o remuestrear al menos unos de los primeros datos de entrada y los segundos datos de entrada, y emitir primeros datos de salida y segundos datos de salida que tienen tempos mutuamente coincidentes,
    - en el que el procesamiento de coincidencia de tono comprende: recibir primeros datos de entrada obtenidos a partir de los primeros datos de entrada mixtos y segundos datos de entrada obtenidos a partir de los segundos datos de entrada mixtos, someter a cambio de altura al menos unos de los primeros datos de entrada y los segundos datos de entrada de audio, y emitir primeros datos de salida y segundos datos de salida que tienen tonos mutuamente coincidentes.
    Dispositivo (10) para procesar y reproducir datos de audio, en el que el dispositivo es un equipo de DJ, que comprende
    - una primera unidad de entrada de audio adaptada para recibir primeros datos de entrada mixtos (A), siendo dichos primeros datos de entrada mixtos una señal de suma obtenida a partir de mezclar al menos una primera pista de origen con una segunda pista de origen,
    - una segunda unidad de entrada de audio adaptada para recibir segundos datos de entrada mixtos (B), siendo dichos segundos datos de entrada mixtos una señal de suma obtenida a partir de mezclar al menos una tercera pista de origen con una cuarta pista de origen,
    - una primera unidad de descomposición (38) conectada a la primera unidad de entrada de audio para descomponer los primeros datos de entrada mixtos para obtener al menos una primera pista descompuesta que se asemeja a la primera pista de origen y una segunda pista descompuesta que se asemeja a la segunda pista de origen, y una segunda unidad de descomposición (40) conectada a la segunda unidad de entrada de audio para descomponer los segundos datos de entrada mixtos (B) para obtener una tercera pista descompuesta que se asemeja a la tercera pista de origen y una cuarta pista descompuesta que se asemeja a la cuarta pista de origen,
    en el que descomponer los datos de entrada mixtos incluye procesar los datos de entrada mixtos mediante un sistema de inteligencia artificial,
    - una unidad de recombinación (32) adaptada para generar datos de salida recombinados recombinando la primera pista descompuesta a un primer nivel de volumen, la segunda pista descompuesta a un segundo nivel de volumen, la tercera pista descompuesta a un tercer nivel de volumen y la cuarta pista descompuesta a un cuarto nivel de volumen,
    - una unidad de reproducción (34, 36) para reproducir los datos de salida recombinados,
    en el que el dispositivo (10) está adaptado para permitir que un usuario manipule los niveles de volumen de la primera así como la segunda pista descompuesta de manera individual, y
    en el que el dispositivo (10) comprende:
    - una sección de control de recomposición (24) adaptada para controlarse por un usuario para generar una entrada de control que representa unos ajustes deseados del primer nivel de volumen de la primera pista descompuesta, el segundo nivel de volumen de la segunda pista descompuesta, un tercer nivel de volumen de la tercera pista descompuesta y un cuarto nivel de volumen de la cuarta pista descompuesta, de tal manera que el usuario tiene la oportunidad de recombinar las pistas descompuestas de manera individual a los niveles de volumen deseados.
    Dispositivo (10) según la reivindicación 8, en el que la sección de control de recomposición (24) comprende
    - un primer elemento de control de recomposición individual (26-1) que puede accionarse por un usuario en una operación de control individual para controlar el primer nivel de volumen y el segundo nivel de volumen, preferiblemente aumentando uno del primer nivel de volumen y el segundo nivel de volumen, mientras que al mismo tiempo se reduce el otro del primer nivel de volumen y el segundo nivel de volumen, y
    - un elemento de control de mezclado individual (28), que puede accionarse por un usuario en una operación de control individual para controlar una primera señal de suma y una segunda señal de suma, preferiblemente aumentando una de la primera señal de suma y la segunda señal de suma, mientras que al mismo tiempo se reduce la otra de la primera señal de suma y la segunda señal de suma, siendo la primera señal de suma una suma de la primera pista descompuesta al primer nivel de volumen y la segunda pista descompuesta al segundo nivel de volumen y siendo la segunda señal de suma una suma de la tercera pista descompuesta al tercer nivel de volumen y la cuarta pista descompuesta al cuarto nivel de volumen, y
    - un segundo elemento de control de recomposición individual (26-2) que puede accionarse por un usuario en una operación de control individual para controlar el tercer nivel de volumen y el cuarto nivel de volumen, preferiblemente aumentando uno del tercer nivel de volumen y el cuarto nivel de volumen, mientras que al mismo tiempo se reduce el otro del tercer nivel de volumen y el cuarto nivel de volumen.
    Dispositivo (10) según una de las reivindicaciones 8 o 9, en el que la unidad de entrada de audio es una primera unidad de entrada de audio para recibir primeros datos de entrada mixtos basados en una estructura de compases periódicas, y en el que el dispositivo comprende además:
    - la segunda unidad de entrada de audio que está adaptada además para recibir los segundos datos de entrada mixtos (B) diferentes de los primeros datos de entrada mixtos (A) y basándose en una señal de compases periódicas,
    - al menos una de una unidad de coincidencia de tempo y una unidad de coincidencia de tono,
    - en el que la unidad de coincidencia de tempo está dispuesta para recibir primeros datos de entrada obtenidos a partir de los primeros datos de entrada mixtos y segundos datos de entrada obtenidos a partir de los segundos datos de entrada mixtos, y en el que la unidad de coincidencia de tempo comprende una unidad de estiramiento temporal adaptada para someter a estiramiento temporal o remuestrear al menos unos de los primeros datos de entrada y los segundos datos de entrada, y para emitir primeros datos de salida y segundos datos de salida que tienen tempos mutuamente coincidentes, y/o
    - en el que la unidad de coincidencia de tono está dispuesta para recibir primeros datos de entrada obtenidos a partir de los primeros datos de entrada mixtos y segundos datos de entrada obtenidos a partir de los segundos datos de entrada mixtos, y en el que la unidad de coincidencia de tono comprende una unidad de cambio de altura adaptada para someter a cambio de altura al menos unos de los primeros datos de entrada y los segundos datos de entrada, y para emitir primeros datos de salida y segundos datos de salida que tienen tonos mutuamente coincidentes.
ES20712463T 2020-03-06 2020-03-06 Método y dispositivo para descomponer y recombinar datos de audio y/o visualizar datos de audio Active ES2960983T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2020/056124 WO2021175455A1 (en) 2020-03-06 2020-03-06 Method and device for decomposing and recombining of audio data and/or visualizing audio data

Publications (1)

Publication Number Publication Date
ES2960983T3 true ES2960983T3 (es) 2024-03-07

Family

ID=69846409

Family Applications (1)

Application Number Title Priority Date Filing Date
ES20712463T Active ES2960983T3 (es) 2020-03-06 2020-03-06 Método y dispositivo para descomponer y recombinar datos de audio y/o visualizar datos de audio

Country Status (7)

Country Link
US (3) US20230089356A1 (es)
EP (2) EP4005243B1 (es)
CA (1) CA3170462A1 (es)
DE (1) DE202020005830U1 (es)
ES (1) ES2960983T3 (es)
MX (1) MX2022011059A (es)
WO (5) WO2021175455A1 (es)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10970033B2 (en) * 2017-01-09 2021-04-06 Inmusic Brands, Inc. Systems and methods for generating a visual color display of audio-file data
US11232773B2 (en) * 2019-05-07 2022-01-25 Bellevue Investments Gmbh & Co. Kgaa Method and system for AI controlled loop based song construction
US11475867B2 (en) * 2019-12-27 2022-10-18 Spotify Ab Method, system, and computer-readable medium for creating song mashups
EP4115628A1 (en) * 2020-03-06 2023-01-11 algoriddim GmbH Playback transition from first to second audio track with transition functions of decomposed signals
EP4115629A1 (en) * 2020-03-06 2023-01-11 algoriddim GmbH Method, device and software for applying an audio effect to an audio signal separated from a mixed audio signal
EP4115630A1 (en) * 2020-03-06 2023-01-11 algoriddim GmbH Method, device and software for controlling timing of audio data
US20210303618A1 (en) * 2020-03-31 2021-09-30 Aries Adaptive Media, LLC Processes and systems for mixing audio tracks according to a template
US11604622B1 (en) * 2020-06-01 2023-03-14 Meta Platforms, Inc. Selecting audio clips for inclusion in content items
EP4327558A1 (en) * 2021-04-20 2024-02-28 Block, Inc. Live playback streams
CN114302309B (zh) * 2021-12-16 2024-06-25 合肥联宝信息技术有限公司 一种音频采集器的检测方法及装置
CN114299976A (zh) * 2022-03-06 2022-04-08 荣耀终端有限公司 音频数据处理方法及电子设备
WO2023217352A1 (en) 2022-05-09 2023-11-16 Algoriddim Gmbh Reactive dj system for the playback and manipulation of music based on energy levels and musical features
EP4375984A1 (en) 2022-11-22 2024-05-29 algoriddim GmbH Method and system for accelerated decomposing of audio data using intermediate data
US11740862B1 (en) 2022-11-22 2023-08-29 Algoriddim Gmbh Method and system for accelerated decomposing of audio data using intermediate data

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6184898B1 (en) 1998-03-26 2001-02-06 Comparisonics Corporation Waveform display utilizing frequency-based coloring and navigation
US8311656B2 (en) * 2006-07-13 2012-11-13 Inmusic Brands, Inc. Music and audio playback system
US7525037B2 (en) * 2007-06-25 2009-04-28 Sony Ericsson Mobile Communications Ab System and method for automatically beat mixing a plurality of songs using an electronic equipment
US20120109348A1 (en) * 2009-05-25 2012-05-03 Pioneer Corporation Cross fader unit, mixer and program
US9323438B2 (en) * 2010-07-15 2016-04-26 Apple Inc. Media-editing application with live dragging and live editing capabilities
US20130290818A1 (en) * 2012-04-27 2013-10-31 Nokia Corporation Method and apparatus for switching between presentations of two media items
WO2014028891A1 (en) * 2012-08-17 2014-02-20 Be Labs, Llc Music generator
US9398390B2 (en) * 2013-03-13 2016-07-19 Beatport, LLC DJ stem systems and methods
US9883284B2 (en) * 2013-05-30 2018-01-30 Spotify Ab Systems and methods for automatic mixing of media
US20150268924A1 (en) * 2014-03-19 2015-09-24 Hipolito Torrales, JR. Method and system for selecting tracks on a digital file
US10014002B2 (en) * 2016-02-16 2018-07-03 Red Pill VR, Inc. Real-time audio source separation using deep neural networks
US10002596B2 (en) * 2016-06-30 2018-06-19 Nokia Technologies Oy Intelligent crossfade with separated instrument tracks
JP6705422B2 (ja) * 2017-04-21 2020-06-03 ヤマハ株式会社 演奏支援装置、及びプログラム
JP7036234B2 (ja) * 2018-06-01 2022-03-15 ソニーグループ株式会社 オーディオコンテンツの適応的なリミキシング
US10991385B2 (en) * 2018-08-06 2021-04-27 Spotify Ab Singing voice separation with deep U-Net convolutional networks
EP4057642A4 (en) * 2019-11-08 2023-08-09 AlphaTheta Corporation ACOUSTIC DEVICE, DISPLAY CONTROL METHOD AND DISPLAY CONTROL PROGRAM

Also Published As

Publication number Publication date
US20230089356A1 (en) 2023-03-23
EP4005243A1 (en) 2022-06-01
US11216244B2 (en) 2022-01-04
WO2021175455A1 (en) 2021-09-10
WO2021175456A1 (en) 2021-09-10
DE202020005830U1 (de) 2022-09-26
WO2021175457A1 (en) 2021-09-10
MX2022011059A (es) 2022-09-19
EP4005243B1 (en) 2023-08-23
EP4311268A2 (en) 2024-01-24
EP4311268A3 (en) 2024-04-10
CA3170462A1 (en) 2021-09-10
WO2021175458A1 (en) 2021-09-10
WO2021175464A1 (en) 2021-09-10
US20210326102A1 (en) 2021-10-21
US20210279030A1 (en) 2021-09-09

Similar Documents

Publication Publication Date Title
ES2960983T3 (es) Método y dispositivo para descomponer y recombinar datos de audio y/o visualizar datos de audio
AU2022218554B2 (en) Method and device for decomposing, recombining and playing audio data
JP6926354B1 (ja) オーディオデータの分解、ミキシング、再生のためのaiベースのdjシステムおよび方法
US11347475B2 (en) Transition functions of decomposed signals
JPWO2007066818A1 (ja) 音楽編集装置及び音楽編集方法
US11462197B2 (en) Method, device and software for applying an audio effect
US20150268924A1 (en) Method and system for selecting tracks on a digital file
JP7136979B2 (ja) オーディオエフェクトを適用するための方法、装置、およびソフトウェア
US20220386062A1 (en) Stereophonic audio rearrangement based on decomposed tracks
JP2009063714A (ja) オーディオ再生装置およびオーディオ早送り再生方法
WO2021175461A1 (en) Method, device and software for applying an audio effect to an audio signal separated from a mixed audio signal
NZ791507A (en) Method and device for decomposing, recombining and playing audio data
Moralis Live popular Electronic music ‘performable recordings’
US20230343313A1 (en) Method of performing a piece of music
US20230343314A1 (en) System for selection and playback of song versions from vinyl type control interfaces
Callander Thinking About Syncing: Examining the impact of 21st century DJ technology on the production and performance of Electronic Dance Music.
Exarchos et al. Audio processing
Paul What Goes In
Rostovtsev Scenes, For Two-Channel Fixed Media
JP2021530131A (ja) コントローラによる複数の信号フローの操作