EP4066389A1 - Method and device for processing an audio signal - Google Patents

Method and device for processing an audio signal

Info

Publication number
EP4066389A1
EP4066389A1 EP20807468.2A EP20807468A EP4066389A1 EP 4066389 A1 EP4066389 A1 EP 4066389A1 EP 20807468 A EP20807468 A EP 20807468A EP 4066389 A1 EP4066389 A1 EP 4066389A1
Authority
EP
European Patent Office
Prior art keywords
matrix
size
audio signal
equal
applying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP20807468.2A
Other languages
German (de)
French (fr)
Inventor
Farhan Mirani
Yuehgoh FOUTSE
Hugo LEVARD
Sabrine LAZRAK
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stellantis Auto SAS
Original Assignee
PSA Automobiles SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PSA Automobiles SA filed Critical PSA Automobiles SA
Publication of EP4066389A1 publication Critical patent/EP4066389A1/en
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/06Receivers
    • H04B1/08Constructional details, e.g. cabinet
    • H04B1/082Constructional details, e.g. cabinet to be used in vehicles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Definitions

  • the invention relates to a method and a device for processing an audio signal, in particular an audio signal from a radio receiver of a vehicle.
  • the invention also relates to a method and a device for classifying the noise level of an audio signal.
  • Contemporary vehicles are generally equipped with radio reception systems, for the entertainment or information of the driver and / or his passengers, for the reception of service information (for example information relating to road traffic) and / or for communication of the vehicle with fixed equipment (eg antennas or roadside units) or mobile (eg other vehicles).
  • service information for example information relating to road traffic
  • fixed equipment eg antennas or roadside units
  • mobile eg other vehicles
  • radiofrequency signals emitted by surrounding sources these signals carrying information intended to be received and decoded by the vehicle.
  • These signals correspond, for example, to radio signals of the FM type (standing for “Frequency Modulation” in English or in French for “Frequency Modulation”) which are then converted into audio signals to be transmitted to one or more loudspeakers fitted to the vehicle. , which make an audio signal perceptible by the driver and / or passengers of the vehicle.
  • the performance of these systems depends on many factors, such as the intrinsic quality of the components of these systems, the arrangement of the components in the vehicle, the cog speed of the vehicle, the environment of use (e.g. example urban or peri-urban environment, mountain area), etc.
  • the environment of use e.g. example urban or peri-urban environment, mountain area
  • EP 1093245 discloses a method for testing the quality of the components of a vehicle radio reception system. This process is based on the use of two vehicles, each comprising a system to be tested and its own recording device. Both vehicles travel on the same road and acquire signals as they travel. The signals are compared to determine the performance level of the system under test.
  • Such an approach like the known test approaches to test the performance of a radio reception system in a prototype vehicle, involves multiple operators or testers. These people sit in several vehicles, listen to, analyze and compare the quality of the audio signals received in a vehicle under test with the quality of a signal received in a reference vehicle which is traveling at the same time on the same stretch of road. The performance of the system is then established on the basis of the subjective perceptions of the testers in the test vehicle, these performances being evaluated and compared in real time with the subjective perceptions of the testers in the reference vehicle.
  • tests are only carried out in real time. No recording of the tested signals is made. Therefore, the tests are not reproducible. They are not performed only once. If they are repeated, for example after having modified the implantation of a particular component of the reception chain in the vehicle, there is no guarantee that the same test conditions can be reproduced to assess the improvement of the situation. with relevance and objectivity.
  • An object of the present invention is to improve the evaluation of the quality of an audio signal.
  • the invention relates to a method for processing an audio signal, the method being implemented in a device for processing an audio signal implementing a neural network, the method comprising the following steps:
  • an operation of random deactivation of a part of the neurons of the network is associated with the first operation of “pooling” with a probability of 0.3
  • an operation of random deactivation of a part of the neurons of the network is associated with the second “pooling” operation with a probability of 0.1
  • a random deactivation operation of part of the neurons of said network is associated with the third “pooling” operation with a probability of 0.2.
  • the determined number of values of said input vector is equal to 16000.
  • the audio signal is obtained by converting a radiofrequency signal by a tuner of a vehicle.
  • the size of the input vector is equal to 1x16000
  • the size of the first matrix is equal to 1x15994x100
  • the size of the second matrix is equal to 1x15988x100
  • the size of the third matrix is equal to 1x5329x100
  • the size of the fourth matrix is 1x5323x1208
  • the size of the fifth matrix is 1x1774x1208
  • the size of the sixth matrix is 1x1768x1208
  • the size of the output vector is 1x1x128.
  • the number of output neurons is equal to 6.
  • the method further comprises a step of processing the audio signal as a function of the class representative of a noise level associated with the signal in order to at least partially correct the noise.
  • the method further comprises a step of learning the values included in the convolution filters.
  • the invention relates to a device for processing an audio signal, the device comprising a memory associated with a processor configured for implementing the steps of the method according to the first aspect of the invention.
  • the invention relates to a computer program which comprises instructions adapted for the execution of the steps of the method according to the first aspect of the invention, this in particular when the computer program is executed by at least one. processor.
  • Such a computer program can use any programming language, and be in the form of a source code, an object code, or an intermediate code between a source code and an object code, such as in a partially compiled form, or in any other desirable form.
  • the invention relates to a recording medium readable by a computer on which is recorded a computer program comprising instructions for carrying out the steps of the method according to the first aspect of the invention.
  • the recording medium can be any entity or device capable of storing the program.
  • the medium may comprise a storage means, such as a ROM memory, a CD-ROM or a ROM memory of the microelectronic circuit type, or else a magnetic recording means or a hard disk.
  • this recording medium can also be a transmissible medium such as an electrical or optical signal, such a signal being able to be conveyed via an electrical or optical cable, by conventional or hertzian radio or by self-directed laser beam. or by other means.
  • the computer program according to the invention can in particular be downloaded from an Internet type network.
  • the recording medium can be an integrated circuit in which the computer program is incorporated, the integrated circuit being adapted to execute or to be used in the execution of the method in question.
  • FIG. 1 schematically illustrates a system for evaluating the quality of an audio signal received by a vehicle, according to a particular embodiment of the present invention
  • FIG. 2 schematically illustrates the audio signal of FIG. 1, according to a particular embodiment of the present invention
  • FIG. 3 illustrates a flowchart of the different steps of a method for processing the audio signal of FIG. 2, according to a particular embodiment of the present invention.
  • FIG. 4 schematically illustrates a device for processing the audio signal of FIG. 2, according to a particular embodiment of the present invention.
  • a method for processing an audio signal implemented in a neural network comprises receiving a vector at the input of the processing device, the vector comprising a number determined of values each representing the amplitude of a sample of the processed or evaluated audio signal.
  • the audio signal is for example sampled so as to obtain 16,000 samples with for each of these samples a value representative of the amplitude of the signal.
  • a first matrix is obtained by applying 100 first convolution filters of size 1x7 with a step (from the English “stride”) of 1 to the input vector.
  • the size of the first matrix is for example 1x15994x100.
  • a second matrix is obtained by applying 100 second convolution filters of size 1x7 with a step of 1 to the first matrix.
  • the size of the second matrix is for example 1x15988x100.
  • a third matrix is obtained by applying a first so-called “pooling” operation without overlap with a filter of size 1x3 to the second matrix.
  • the first “pooling” operation advantageously corresponds to a so-called “maximum pooling” operation for which the maximum value of each sub-matrix obtained by applying the filter to the second matrix is retained.
  • the size of the third matrix is for example 1x5329x100.
  • a fourth matrix is obtained by applying 128 third convolutional filters of size 1x7 with a step of 1 to the third matrix.
  • the size of the fourth matrix is for example 1x5323x128.
  • a fifth matrix is obtained by applying a second operation called “maximum pooling” without overlap with a filter of size 1x3 to the fourth matrix.
  • the size of the fifth matrix is equal for example 1x1774x128.
  • a sixth matrix is obtained by applying 128 third convolutional filters of size 1x7 with a step of 1 to the fifth matrix.
  • the size of the sixth matrix is 1xNx128, for example equal to 1x1768x128.
  • an output vector is obtained by applying a third operation called “average pooling” without overlap with a filter of size 1xN to the sixth matrix.
  • the size of the output vector is for example 1x1x128.
  • the input audio signal is classified, that is, a class (also called a label) is associated with the audio signal by applying the output vector to a layer of densely connected neurons, this layer having at output a number of neurons less than 10 (for example equal to 6), each output neuron corresponding to a class representative of a different noise level.
  • a class also called a label
  • Such a method makes it possible to test the quality of an audio signal by determining to which noise level class the audio signal belongs, without human intervention. Furthermore, the use of such a method allows the system to learn as the audio signals to be classified are processed, which allows the classification results to be refined. Furthermore, the evaluation of the quality of the audio signal is all the more relevant as the analysis is carried out on the sampled audio signal as a whole, and not on certain fragmented and / or random characteristics of the signal.
  • the data from the various operations implemented in the invention are represented in the form of a vector, matrix or tensor.
  • the sizes (or dimensions) of each of the vectors or matrices will be provided in the format corresponding to the size or dimension of a tensor, i.e. with three dimensions AxBxC, where A , B and C correspond to the numbers of rows, columns and channels.
  • a vector is a tensor for which 2 of the 3 dimensions are equal to 1 and a matrix is a tensor for which 1 of the 3 dimensions is equal to 1.
  • FIG. 1 schematically illustrates a system for evaluating the quality of an audio signal, according to a particular and non-limiting exemplary embodiment of the present invention.
  • the system 1 comprises a vehicle 103, for example a motor vehicle, receiving a radiofrequency signal 102 via one or more onboard antennas in or on the vehicle 103.
  • the radiofrequency signal corresponds for example to an FM-type radio signal carrying the data of the signal. audio to analyze, evaluate or test.
  • the signal 102 is for example transmitted via one or more transmitting antennas 101.
  • a tuner 104 on board the vehicle 103 receives the radiofrequency signal 102 via the receiving antenna on board the vehicle and converts it into an audio signal. .
  • VS audio signal is then transmitted to one or more speakers of the vehicle 103 for a reproduction or a rendering of this audio signal perceptible by the driver and / or the passengers of the vehicle 103 in the form of sound waves.
  • the audio signal obtained from the tuner 104, or part of this signal (for example 1 second or a few seconds of this signal), is for example transmitted directly to a device or a processing unit 106 configured to implement the processing method of the audio signal of the invention with a view to evaluating this audio signal, that is to say with a view to obtaining one or more pieces of information representative of the quality of the audio signal.
  • the audio signal obtained from the tuner 104 (or part of this signal) is recorded, that is to say stored in a data storage device (for example a memory) 105 before being transmitted to the. processing device 106.
  • the storage of the audio signal makes it possible for example to repeat the evaluation of the signal, for example to compare the latter with a processed or corrected version of this recorded signal.
  • the recording of the signal also allows a subsequent processing of this signal, for example in a test laboratory, which avoids the need to embark the processing unit 106 in the vehicle 103 to carry out the tests and which makes it possible to carry out the test. all the tests in a controlled environment, away from the noise of the road environment in which the vehicle 103 operates, for example.
  • the recording of the signal (or of several signals) also makes it possible to carry out one or more processing operations of this signal before implementing the evaluation of the audio signal.
  • FIG. 2 illustrates a diagram 2 representing the audio signal 20 to be evaluated, according to a particular and non-limiting embodiment of the present invention.
  • Diagram 2 represents an evolution of the amplitude of an audio signal 20 received from the tuner 104 as a function of time.
  • the time is represented on the abscissa and the amplitude of signal 20 is represented on the ordinate.
  • the amplitude of signal 20 is normalized between a minimum value and a maximum value, for example between -5 and 5, -2 and 2, -1 and 1.
  • the audio signal 20 evaluated by example a duration of 1 second.
  • the duration of signal 20 is a few seconds, for example between 2 and 8 seconds, for example equal to 5 seconds.
  • the audio signal 20 is advantageously sampled before being processed or classified according to the method described with reference to FIG. 3.
  • the audio signal 20 is for example sampled at a frequency of 16 kHz, which makes it possible to obtain 16,000 samples of the signal. 20 when the latter has a duration of 1 second, as in the example of FIG. 2.
  • Such a sampling frequency makes it possible to obtain a large number of samples and to have a faithful representation of the audio signal 20, even sampled for evaluation or classification.
  • FIG. 3 illustrates a flowchart of the various steps of a process for processing an audio signal, for example the audio signal 20 of FIG. 2, according to a particular and non-limiting example of the present invention.
  • the method is advantageously implemented in the device 106.
  • a determined number of values each representing a value of an amplitude of a sample of the audio signal 20 are received. These data are for example received from a memory, for example a buffer memory or a flash type memory, in which the signal samples obtained after sampling the audio signal 20 are stored. Example given with reference to figure 2, 16000 values are received in the form of an input vector of size 1x16000x1.
  • a first matrix is determined or obtained by applying 100 first convolution filters of size 1x7, with a step (from the English “stride”) of 1, to the input vector obtained in step 31
  • the input vector passes through a first convolutional layer and convolution operations are applied to this input vector on the basis of 100 first filters of size 1x7, with a step of 1.
  • the size of the first matrix is equal to 1x15994x100.
  • the product of the first convolutional layer is a first matrix (also called the characteristic map (of the output feature map or activation map, the OxOxC dimensions of which are obtained by:
  • the step corresponds to the number of pixels by which the window corresponding to the filter moves in the input tensor (input vector in this case).
  • a second matrix is determined or obtained by applying 100 second convolution filters of size 1 x7, with a step of 1, to the first matrix obtained in step 32.
  • the first matrix passes through a second convolution layer and convolution operations are applied to this first matrix on the basis of 100 second filters of size 1x7, with a step of 1.
  • a third matrix is determined or obtained by applying to the second matrix obtained in step 33 a first so-called “pooling” operation, and more specifically a first “pooling by maximum” operation. (from the English “max pooling”).
  • This first operation is based on the use of a 1x3 filter, without overlap, i.e. the filter (a window of 1 pixel by 3 pixels if we consider that the matrices correspond to arrays of pixels) moves in the second matrix without overlap (ie there is no common pixel between the sub-matrices obtained from the second matrix by application of the filter moving in this second matrix).
  • the first one The “maximum pooling” operation corresponds to a spatial reduction in the size of the second matrix by selecting only one value, the maximum value, in each sub-matrix obtained from the second matrix via the 1x3 filter.
  • the size of the third matrix is equal to 1x5329x100, with 5329 3 ⁇ 4 (15988/3).
  • the first "pooling" operation is matched or associated with a random deactivation operation of some of the neurons of the network, with a probability of 0.3 (30%). This technique is known as “dropout”.
  • a fourth matrix is determined or obtained by applying 128 third convolutional filters of size 1x7, with a step of 1, to the third matrix obtained in step 34.
  • the third matrix passes into a third layer of convolution and operations of convolutions are applied to this third matrix on the basis of 128 second filters of size 1x7, with a step of 1.
  • a fifth matrix is determined or obtained by applying to the fourth matrix obtained in step 35 a second so-called “pooling” operation, and more specifically a second “maximum pooling” operation. (from the English “max pooling"). This second operation is based on the use of a 1x3 filter, without overlap. Following the example provided with the input vector of dimension 1 x16000x1, the size of the fifth matrix is equal to 1 x1774x100, with 1774 " (5323/3).
  • the second "pooling" operation is matched or associated with a random deactivation operation ("dropout") of part of the neurons of the network, with a probability of 0.1 (10%).
  • a sixth matrix is determined or obtained by applying 128 fourth convolution filters of size 1x7, with a step of 1, to the fifth matrix obtained in step 36.
  • the fifth matrix passes into a fourth convolution layer and convolution operations are applied to this fifth matrix on the basis of 128 second filters of size 1x7, with a step of 1.
  • a seventh matrix is determined or obtained by applying to the sixth matrix obtained in step 37 a third operation called “pooling”, and more specifically a third “pooling by average” operation. (from the English "average pooling").
  • This third operation is based on the use of a 1xN filter (N corresponding to the 1xNx128 dimension of the sixth matrix, or 1768 according to the particular example).
  • the third operation of "pooling by average” corresponds to a spatial reduction in the size of the sixth matrix by selecting only one value, the average of the N values, for each of the 128 channels.
  • a single value (the average of the N values) is taken into account.
  • the size of the seventh matrix is equal to 1x1x128.
  • This seventh matrix is also called the output vector since 2 of the 3 dimensions of the 1x1x128 tensor are equal to 1.
  • the third "pooling" operation is matched or associated with a random deactivation operation ("dropout") of part of the neurons of the network, with a probability of 0.2 (20%).
  • the output vector passes through a layer of densely connected neurons, with 128 neurons each connected to each of the neurons of a layer comprising for example 6 neurons, a class representative of a different noise level being associated to each of these 6 neurons.
  • the input audio signal is thus classified, that is to say that a class (also called label) is associated with the audio signal by applying the output vector to a layer of densely connected neurons, this layer having at output for example 6 neurons each corresponding to a class representative of a different noise level.
  • a class also called label
  • the number of output neurons is not limited to 6 and is for example equal to 4, 8 or 10 and advantageously less than 10.
  • the values of the first filters are advantageously determined in a learning phase, according to a method known to those skilled in the art.
  • a learning phase a large number of input audio signals of which the associated class (ie the noise level) is known are used to learn the different values or coefficients of the convolution filters.
  • a method known as the backpropagation of the error gradient is, for example, implemented.
  • the values included in one of the first, second, third or fourth convolution filters are equal to: - 0.07848639; 0.04320003; 0.0651957; 0.054399617; 0.033398744; - 0.006850287; and 0.07814157.
  • the number of input samples may be different from 16000, for example equal to 10,000 or 20,000 or 32,000.
  • the number of samples of the input vector is for example taken into account as a learning parameter, having an impact on the values included in the convolution filters used in the different convolution layers.
  • a particular processing is applied to the audio signal as a function of the class to which the signal has been associated in step 39, the processing being for example implemented to improve the quality of the signal by reducing the noise.
  • So-called spectral subtraction methods for example based on Wiener filtering or Lim filtering, are for example implemented.
  • Such a classification via a neural network has the advantage that the system implementing the method (the neural network) finds or learns the properties of interest to make the classification (for example the values included in the convolution filters) , which makes it possible to be freed from arbitrary and biased choices that a human being would make for example.
  • FIG. 4 schematically illustrates a device 106 configured to process an audio signal such as the audio signal 20, for example to classify the noise level of such a signal, according to a particular and non-limiting embodiment of the present invention.
  • the device 106 is for example configured for the implementation of the operations described with reference to FIGS. 1 and 2 and / or the steps of the method described with regard to FIG. 3. Examples of such a device 106 include, without being there limited, a computer, a server, a smart phone, a tablet, a calculator.
  • the elements of the device 106 individually or in combination, can be integrated in a single integrated circuit, in several integrated circuits, and / or in discrete components.
  • the device 106 can be produced in the form of electronic circuits or software (or computer) modules or else a combination of electronic circuits and software modules.
  • the device 106 comprises one (or more) processor (s) 40 configured to execute instructions for carrying out the steps of the method and / or for executing the instructions of the software (s) embedded in the device 106.
  • the processor 40 can include integrated memory, an input / output interface, and various circuits known to those skilled in the art.
  • the device 106 further comprises at least one memory 41 corresponding, for example, to a volatile and / or non-volatile memory and / or comprises a memory storage device which may comprise memory. volatile and / or non-volatile, such as EEPROM, ROM, PROM, RAM, DRAM, SRAM, flash, magnetic or optical disk.
  • the computer code of the on-board software (s) comprising the instructions to be loaded and executed by the processor is for example stored in the first memory 41.
  • the device 106 comprises a block 42 of interface elements for communicating with external devices, for example a remote server or the “cloud” or else the tuner 104.
  • the elements of interface of block 42 include one or more of the following interfaces:
  • radiofrequency interface for example of the Bluetooth® or Wi-Fi® type, LTE (from English “Long-Term Evolution” or in French “Long-term Evolution”), LTE-Advanced (or in French LTE-advanced );
  • USB interface from English “Universal Serial Bus” or “Bus Universel en Série” in French);
  • the device 106 comprises a communication interface 43 which makes it possible to establish communication with other devices via a communication channel 430.
  • the communication interface 43 corresponds for example to a transmitter configured for transmitting and receiving information and / or data via the communication channel 430.
  • the device 106 can provide and / or receive output signals to one or more external devices, such as a keyboard 440, a mouse 450 and / or a screen 460 respectively via interfaces of input / output 44, 45 and 46.
  • one or the other of the external devices is integrated into the device 106.
  • the display screen 460 corresponds for example to a touch screen.
  • the invention is not limited to the embodiments described above but extends to a method of classifying the noise level of an audio signal, and to the device configured for the implementation of such process.
  • the invention also relates to a method for evaluating an audio signal and more particularly to a method for evaluating the quality of an audio signal, and to the device configured for implementing such a method.
  • the invention also relates to a vehicle comprising the device 106.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

The invention relates to a method and device for processing an audio signal, for example a signal received by a vehicle (103) and converted in a tuner (104). To that end, the audio signal is sampled in order to obtain a vector of values of amplitudes each associated with a sample of the signal. The input vector is passed through a plurality of convolutional layers of a neural network in order to obtain, as output, a classification of the audio signal, a class representative of a noise level being assigned to the audio signal.

Description

DESCRIPTION DESCRIPTION
Titre : Procédé et dispositif de traitement d’un signal audio Title: Method and device for processing an audio signal
Domaine technique Technical area
L’invention concerne un procédé et un dispositif de traitement d’un signal audio, notamment un signal audio d’un récepteur radio d’un véhicule. L’invention concerne également un procédé et un dispositif de classification du niveau de bruit d’un signal audio. The invention relates to a method and a device for processing an audio signal, in particular an audio signal from a radio receiver of a vehicle. The invention also relates to a method and a device for classifying the noise level of an audio signal.
Arrière-plan technologique Technological background
Les véhicules contemporains sont généralement équipés de systèmes de réception radio, pour le divertissement ou l’information du conducteur et/ou de ses passagers, pour la réception d’informations de services (par exemple des informations relatives au trafic routier) et/ou pour la communication du véhicule avec des équipements fixes (par exemple des antennes ou unités bord de route) ou mobiles (par exemple d’autres véhicules). Contemporary vehicles are generally equipped with radio reception systems, for the entertainment or information of the driver and / or his passengers, for the reception of service information (for example information relating to road traffic) and / or for communication of the vehicle with fixed equipment (eg antennas or roadside units) or mobile (eg other vehicles).
Ces systèmes permettent de capter des signaux radiofréquences émis par des sources environnantes, ces signaux portant des informations destinées à être reçues et décodées par le véhicule. Ces signaux correspondent par exemple à des signaux radio de type FM (de l’anglais « Frequency Modulation » ou en français « Modulation de fréquence ») qui sont ensuite convertis en signaux audios pour être transmis à un ou plusieurs haut-parleurs équipant le véhicule, lesquels rendent un signal audio perceptible par le conducteur et/ou les passagers du véhicule. These systems make it possible to pick up radiofrequency signals emitted by surrounding sources, these signals carrying information intended to be received and decoded by the vehicle. These signals correspond, for example, to radio signals of the FM type (standing for “Frequency Modulation” in English or in French for “Frequency Modulation”) which are then converted into audio signals to be transmitted to one or more loudspeakers fitted to the vehicle. , which make an audio signal perceptible by the driver and / or passengers of the vehicle.
Les performances de ces systèmes dépendent de nombreux facteurs, tels que la qualité intrinsèque des composants de ces systèmes, l’agencement des composants dans le véhicule, la vitesse de rouage du véhicule, l’environnement d’utilisation (par exemple milieu urbain ou péri-urbain, zone de montagne), etc. Pour améliorer la qualité de ces systèmes et notamment la qualité du signal audio perçu par le conducteur et/ou les passagers, il est important de tester ces systèmes en conditions réelles de fonctionnement, ce qui implique de très nombreux tests tant les conditions d’utilisation sont variées et les facteurs influant la performance du système nombreux. The performance of these systems depends on many factors, such as the intrinsic quality of the components of these systems, the arrangement of the components in the vehicle, the cog speed of the vehicle, the environment of use (e.g. example urban or peri-urban environment, mountain area), etc. To improve the quality of these systems and in particular the quality of the audio signal perceived by the driver and / or the passengers, it is important to test these systems in real operating conditions, which involves a large number of tests as well as the conditions of use. are varied and the factors influencing system performance are numerous.
Le document EP 1093245 divulgue un procédé de test de la qualité des composants d’un système de réception radio d’un véhicule. Ce procédé repose sur l’utilisation de deux véhicules comprenant chacun un système à tester et un dispositif d’enregistrement propre. Les deux véhicules roulent sur une même route et font l’acquisition de signaux au cours de leur trajet. Les signaux sont comparés pour déterminer le niveau de performance du système testé. EP 1093245 discloses a method for testing the quality of the components of a vehicle radio reception system. This process is based on the use of two vehicles, each comprising a system to be tested and its own recording device. Both vehicles travel on the same road and acquire signals as they travel. The signals are compared to determine the performance level of the system under test.
Une telle approche, comme les approches de test connues visant à tester les performances d’un système de réception radio dans un prototype de véhicule, implique plusieurs opérateurs ou testeurs. Ces personnes prennent place dans plusieurs véhicules, écoutent, analysent et comparent la qualité des signaux audios reçus dans un véhicule sous test avec la qualité d’un signal reçu dans un véhicule de référence qui circule en même temps sur la même portion de route. Les performances du système sont alors établies sur la base des perceptions subjectives des testeurs se trouvant dans le véhicule de test, ces performances étant évaluées et comparées en temps réel avec les perceptions subjectives des testeurs se trouvant dans le véhicule de référence.Such an approach, like the known test approaches to test the performance of a radio reception system in a prototype vehicle, involves multiple operators or testers. These people sit in several vehicles, listen to, analyze and compare the quality of the audio signals received in a vehicle under test with the quality of a signal received in a reference vehicle which is traveling at the same time on the same stretch of road. The performance of the system is then established on the basis of the subjective perceptions of the testers in the test vehicle, these performances being evaluated and compared in real time with the subjective perceptions of the testers in the reference vehicle.
Une telle approche présente des limitations importantes. Elle suppose par exemple une grande homogénéité de la perception respective de la qualité audio par les différents testeurs. La pertinence de la comparaison peut sinon être peu significative. Par ailleurs, il est nécessaire de former du personnel ayant les compétences techniques requises pour analyser de tels signaux. Une telle formation peut s’avérer complexe et coûteuse. De plus, les ressources mobilisées lors des tests sont importantes. Typiquement, pour le test d’une antenne radio FM, deux véhicules sont utilisés et doivent chacun rouler entre 75 et 100 kms pendant environ 1 heure pour obtenir des résultats pertinents.Such an approach has significant limitations. It assumes, for example, a great homogeneity of the respective perception of the audio quality by the different testers. The relevance of the comparison may otherwise be insignificant. In addition, there is a need to train personnel with the technical skills required to analyze such signals. Such training can be complex and expensive. In addition, the resources mobilized during the tests are significant. Typically, for testing an FM radio antenna, two vehicles are used and each must travel between 75 and 100 km for approximately 1 hour to get relevant results.
Enfin, de tels tests ne sont réalisés qu’en temps réel. Aucun enregistrement des signaux testés n’est réalisé. De ce fait, les tests ne sont pas reproductibles. Ils ne sont réalisés qu’une seule fois. S’ils sont répétés par exemple après avoir modifié l’implantation de tel ou tel composant de la chaîne de réception dans le véhicule, il n’existe aucune garantie que les mêmes conditions de test pourront être reproduites pour évaluer l’amélioration de la situation avec pertinence et objectivité. Finally, such tests are only carried out in real time. No recording of the tested signals is made. Therefore, the tests are not reproducible. They are not performed only once. If they are repeated, for example after having modified the implantation of a particular component of the reception chain in the vehicle, there is no guarantee that the same test conditions can be reproduced to assess the improvement of the situation. with relevance and objectivity.
Résumé de l’invention Summary of the invention
Un objet de la présente invention est d’améliorer l’évaluation de la qualité d’un signal audio. An object of the present invention is to improve the evaluation of the quality of an audio signal.
Selon un premier aspect, l’invention concerne un procédé de traitement d’un signal audio, le procédé étant mis en œuvre dans un dispositif de traitement d’un signal audio mettant en œuvre un réseau de neurones, le procédé comprenant les étapes suivantes : According to a first aspect, the invention relates to a method for processing an audio signal, the method being implemented in a device for processing an audio signal implementing a neural network, the method comprising the following steps:
- réception d’un vecteur d’entrée comprenant un nombre déterminé de valeurs chacune représentative d’une amplitude d’un échantillon du signal audio ; - receiving an input vector comprising a determined number of values each representative of an amplitude of a sample of the audio signal;
- détermination d’une première matrice par application au vecteur d’entrée de 100 premiers filtres de convolution de taille 1x7 avec un pas de 1 ; - determination of a first matrix by applying to the input vector 100 first convolution filters of size 1x7 with a step of 1;
- détermination d’une deuxième matrice par application à la première matrice de 100 deuxièmes filtres de convolution de taille 1x7 avec un pas de 1 ; - determination of a second matrix by applying to the first matrix 100 second convolution filters of size 1x7 with a step of 1;
- détermination d’une troisième matrice par application à la deuxième matrice d’une première opération dite de « mise en commun » sans recouvrement avec un filtre de taille 1x3, la valeur maximale de chaque sous-matrice obtenue de la deuxième matrice avec le filtre étant retenue lors de ladite première opération ; - determination of a third matrix by applying to the second matrix a first so-called “pooling” operation without overlap with a filter of size 1x3, the maximum value of each sub-matrix obtained from the second matrix with the filter being retained during said first operation;
- détermination d’une quatrième matrice par application à la troisième matrice de 128 troisièmes filtres de convolution de taille 1x7 avec un pas de 1 ; - determination of a fourth matrix by applying to the third matrix 128 third convolution filters of size 1x7 with a step of 1;
- détermination d’une cinquième matrice par application à la quatrième matrice d’une deuxième opération dite de « mise en commun » sans recouvrement avec un filtre de taille 1x3, la valeur maximale de chaque sous-matrice obtenue de la deuxième matrice avec le filtre étant retenue lors de la deuxième opération ; - determination of a fifth matrix by applying to the fourth matrix a second so-called “pooling” operation without overlap with a filter of size 1x3, the maximum value of each sub-matrix obtained from the second matrix with the filter being retained during the second operation;
- détermination d’une sixième matrice par application à la cinquième matrice de 128 quatrièmes filtres de convolution de taille 1x7 avec un pas de 1 , la taille de la sixième matrice étant égale à 1xNx128, avec N un entier naturel ; - determination of a sixth matrix by application to the fifth matrix of 128 fourth convolution filters of size 1x7 with a step of 1, the size of the sixth matrix being equal to 1xNx128, with N a natural integer;
- détermination d’un vecteur de sortie par application à la sixième matrice d’une troisième opération dite de « mise en commun » sans recouvrement avec un filtre de taille 1xN, la valeur moyenne de chaque sous-matrice obtenue de la sixième matrice avec le filtre étant retenue lors de la troisième opération ; - determination of an output vector by applying to the sixth matrix a third so-called “pooling” operation without overlap with a filter of size 1xN, the mean value of each sub-matrix obtained from the sixth matrix with the filter being retained during the third operation;
- détermination d’une classe représentative d’un niveau de bruit du signal audio à partir d’une couche de neurones densément connectés ayant en entrée le vecteur de sortie et en sortie un nombre de neurones inférieur à 10, chaque neurone de sortie correspondant à une classe représentative d’un niveau de bruit différent. - determination of a class representative of a noise level of the audio signal from a layer of densely connected neurons having as input the output vector and as output a number of neurons less than 10, each output neuron corresponding to a class representative of a different noise level.
Selon une variante, une opération de désactivation aléatoire d’une partie des neurones du réseau est associée à la première opération de « mise en commun » avec une probabilité de 0.3, une opération de désactivation aléatoire d’une partie des neurones du réseau est associée à la deuxième opération de « mise en commun » avec une probabilité de 0.1 et une opération de désactivation aléatoire d’une partie des neurones dudit réseau est associée à la troisième opération de « mise en commun » avec une probabilité de 0.2. According to a variant, an operation of random deactivation of a part of the neurons of the network is associated with the first operation of “pooling” with a probability of 0.3, an operation of random deactivation of a part of the neurons of the network is associated with the second “pooling” operation with a probability of 0.1 and a random deactivation operation of part of the neurons of said network is associated with the third “pooling” operation with a probability of 0.2.
Selon une autre variante, le nombre déterminé de valeurs dudit vecteur d’entrée est égal à 16000. According to another variant, the determined number of values of said input vector is equal to 16000.
Selon une variante additionnelle, le signal audio est obtenu par conversion d’un signal radiofréquence par un tuner d’un véhicule. According to an additional variant, the audio signal is obtained by converting a radiofrequency signal by a tuner of a vehicle.
Selon une variante supplémentaire, la taille du vecteur d’entrée est égale à 1x16000, la taille de la première matrice est égale à 1x15994x100, la taille de la deuxième matrice est égale à 1x15988x100, la taille de la troisième matrice est égale à 1x5329x100, la taille de la quatrième matrice est égale à 1x5323x128, la taille de la cinquième matrice est égale à 1x1774x128, la taille de la sixième matrice est égale à 1x1768x128 et la taille du vecteur de sortie est égale à 1x1x128. According to an additional variant, the size of the input vector is equal to 1x16000, the size of the first matrix is equal to 1x15994x100, the size of the second matrix is equal to 1x15988x100, the size of the third matrix is equal to 1x5329x100, the size of the fourth matrix is 1x5323x128, the size of the fifth matrix is 1x1774x128, the size of the sixth matrix is 1x1768x128, and the size of the output vector is 1x1x128.
Selon encore une variante, le nombre de neurones de sortie est égal à 6. Selon une variante supplémentaire, le procédé comprend en outre une étape de traitement du signal audio en fonction de la classe représentative d’un niveau de bruit associé au signal pour corriger au moins en partie le bruit. According to yet another variant, the number of output neurons is equal to 6. According to a further variant, the method further comprises a step of processing the audio signal as a function of the class representative of a noise level associated with the signal in order to at least partially correct the noise.
Selon encore une variante, le procédé comprend en outre une étape d’apprentissage des valeurs comprises dans les filtres de convolution. According to yet another variant, the method further comprises a step of learning the values included in the convolution filters.
Selon un deuxième aspect, l’invention concerne un dispositif de traitement d’un signal audio, le dispositif comprenant une mémoire associée à un processeur configuré pour la mise en œuvre des étapes du procédé selon le premier aspect de l’invention. According to a second aspect, the invention relates to a device for processing an audio signal, the device comprising a memory associated with a processor configured for implementing the steps of the method according to the first aspect of the invention.
Selon un troisième aspect, l’invention concerne un programme d’ordinateur qui comporte des instructions adaptées pour l’exécution des étapes du procédé selon le premier aspect de l’invention, ceci notamment lorsque le programme d’ordinateur est exécuté par au moins un processeur. According to a third aspect, the invention relates to a computer program which comprises instructions adapted for the execution of the steps of the method according to the first aspect of the invention, this in particular when the computer program is executed by at least one. processor.
Un tel programme d’ordinateur peut utiliser n’importe quel langage de programmation, et être sous la forme d’un code source, d’un code objet, ou d’un code intermédiaire entre un code source et un code objet, tel que dans une forme partiellement compilée, ou dans n’importe quelle autre forme souhaitable. Such a computer program can use any programming language, and be in the form of a source code, an object code, or an intermediate code between a source code and an object code, such as in a partially compiled form, or in any other desirable form.
Selon un quatrième aspect, l’invention concerne un support d’enregistrement lisible par un ordinateur sur lequel est enregistré un programme d’ordinateur comprenant des instructions pour l’exécution des étapes du procédé selon le premier aspect de l’invention. According to a fourth aspect, the invention relates to a recording medium readable by a computer on which is recorded a computer program comprising instructions for carrying out the steps of the method according to the first aspect of the invention.
D’une part, le support d’enregistrement peut être n'importe quel entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une mémoire ROM, un CD-ROM ou une mémoire ROM de type circuit microélectronique, ou encore un moyen d'enregistrement magnétique ou un disque dur. On the one hand, the recording medium can be any entity or device capable of storing the program. For example, the medium may comprise a storage means, such as a ROM memory, a CD-ROM or a ROM memory of the microelectronic circuit type, or else a magnetic recording means or a hard disk.
D'autre part, ce support d’enregistrement peut également être un support transmissible tel qu'un signal électrique ou optique, un tel signal pouvant être acheminé via un câble électrique ou optique, par radio classique ou hertzienne ou par faisceau laser autodirigé ou par d'autres moyens. Le programme d’ordinateur selon l'invention peut être en particulier téléchargé sur un réseau de type Internet. On the other hand, this recording medium can also be a transmissible medium such as an electrical or optical signal, such a signal being able to be conveyed via an electrical or optical cable, by conventional or hertzian radio or by self-directed laser beam. or by other means. The computer program according to the invention can in particular be downloaded from an Internet type network.
Alternativement, le support d'enregistrement peut être un circuit intégré dans lequel le programme d’ordinateur est incorporé, le circuit intégré étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question. Alternatively, the recording medium can be an integrated circuit in which the computer program is incorporated, the integrated circuit being adapted to execute or to be used in the execution of the method in question.
Brève description des figures Brief description of the figures
D’autres caractéristiques et avantages de l’invention ressortiront de la description des modes de réalisation non limitatifs de l’invention ci-après, en référence aux figures 1 à 4 annexées, sur lesquelles : Other characteristics and advantages of the invention will emerge from the description of the non-limiting embodiments of the invention below, with reference to Figures 1 to 4 attached, in which:
[Fig. 1] illustre de façon schématique un système d’évaluation de la qualité d’un signal audio reçu par un véhicule, selon un exemple de réalisation particulier de la présente invention ; [Fig. 1] schematically illustrates a system for evaluating the quality of an audio signal received by a vehicle, according to a particular embodiment of the present invention;
[Fig. 2] illustre schématiquement le signal audio de la figure 1 , selon un exemple de réalisation particulier de la présente invention ; [Fig. 2] schematically illustrates the audio signal of FIG. 1, according to a particular embodiment of the present invention;
[Fig. 3] illustre un organigramme des différentes étapes d’un procédé de traitement du signal audio de la figure 2, selon un exemple de réalisation particulier de la présente invention. [Fig. 3] illustrates a flowchart of the different steps of a method for processing the audio signal of FIG. 2, according to a particular embodiment of the present invention.
[Fig. 4] illustre schématiquement un dispositif de traitement du signal audio de la figure 2, selon un exemple de réalisation particulier de la présente invention. [Fig. 4] schematically illustrates a device for processing the audio signal of FIG. 2, according to a particular embodiment of the present invention.
Description des modes de réalisation Description of the embodiments
Un procédé et un dispositif de traitement d’un signal audio vont maintenant être décrits dans ce qui va suivre en référence conjointement aux figures 1 à 4. Des mêmes éléments sont identifiés avec des mêmes signes de référence tout au long de la description qui va suivre. Selon un exemple particulier et non limitatif de réalisation de l’invention, un procédé de traitement d’un signal audio mis en œuvre dans un réseau de neurones comprend la réception d’un vecteur en entrée du dispositif de traitement, le vecteur comprenant un nombre déterminé de valeurs représentant chacune l’amplitude d’un échantillon du signal audio traité ou évalué. Le signal audio est par exemple échantillonné de manière à obtenir 16000 échantillons avec pour chacun de ces échantillons une valeur représentative de l’amplitude du signal. Une première matrice est obtenue en appliquant 100 premiers filtres de convolution de taille 1x7 avec un pas (de l’anglais « stride ») de 1 au vecteur d’entrée. La taille de la première matrice est par exemple 1x15994x100. Une deuxième matrice est obtenue en appliquant 100 deuxièmes filtres de convolution de taille 1x7 avec un pas de 1 à la première matrice. La taille de la deuxième matrice est par exemple 1x15988x100. Une troisième matrice est obtenue en appliquant une première opération dite de « mise en commun » (de l’anglais « pooling ») sans recouvrement avec un filtre de taille 1x3 à la deuxième matrice. La première opération de « mise en commun » correspond avantageusement à une opération dite de « mise en commun par maximum » (de l’anglais « max pooling ») pour laquelle la valeur maximale de chaque sous-matrice obtenue en appliquant le filtre à la deuxième matrice est retenue. La taille de la troisième matrice est par exemple 1x5329x100. Une quatrième matrice est obtenue en appliquant 128 troisièmes filtres de convolution de taille 1x7 avec un pas de 1 à la troisième matrice. La taille de la quatrième matrice est par exemple 1x5323x128. Une cinquième matrice est obtenue en appliquant une deuxième opération dite de « mise en commun par maximum » sans recouvrement avec un filtre de taille 1x3 à la quatrième matrice. La taille de la cinquième matrice est égale par exemple 1x1774x128. Une sixième matrice est obtenue en appliquant 128 troisièmes filtres de convolution de taille 1x7 avec un pas de 1 à la cinquième matrice. La taille de la sixième matrice est à 1xNx128, par exemple égale à 1x1768x128. Enfin, un vecteur de sortie est obtenu en appliquant une troisième opération dite de « mise en commun par moyenne » (de l’anglais « average pooling ») sans recouvrement avec un filtre de taille 1xN à la sixième matrice. La taille du vecteur de sortie est par exemple 1x1x128. Le signal audio d’entrée est classifiée, c’est-à-dire qu’une classe (aussi appelée étiquette) est associée au signal audio en appliquant le vecteur de sortie à une couche de neurones densément connectés, cette couche ayant en sortie un nombre de neurones inférieur à 10 (par exemple égal à 6), chaque neurone de sortie correspondant à une classe représentative d’un niveau de bruit différent. A method and a device for processing an audio signal will now be described in what follows with reference in conjunction with FIGS. 1 to 4. The same elements are identified with the same reference signs throughout the description which follows. . According to a particular and non-limiting example of an embodiment of the invention, a method for processing an audio signal implemented in a neural network comprises receiving a vector at the input of the processing device, the vector comprising a number determined of values each representing the amplitude of a sample of the processed or evaluated audio signal. The audio signal is for example sampled so as to obtain 16,000 samples with for each of these samples a value representative of the amplitude of the signal. A first matrix is obtained by applying 100 first convolution filters of size 1x7 with a step (from the English “stride”) of 1 to the input vector. The size of the first matrix is for example 1x15994x100. A second matrix is obtained by applying 100 second convolution filters of size 1x7 with a step of 1 to the first matrix. The size of the second matrix is for example 1x15988x100. A third matrix is obtained by applying a first so-called “pooling” operation without overlap with a filter of size 1x3 to the second matrix. The first “pooling” operation advantageously corresponds to a so-called “maximum pooling” operation for which the maximum value of each sub-matrix obtained by applying the filter to the second matrix is retained. The size of the third matrix is for example 1x5329x100. A fourth matrix is obtained by applying 128 third convolutional filters of size 1x7 with a step of 1 to the third matrix. The size of the fourth matrix is for example 1x5323x128. A fifth matrix is obtained by applying a second operation called “maximum pooling” without overlap with a filter of size 1x3 to the fourth matrix. The size of the fifth matrix is equal for example 1x1774x128. A sixth matrix is obtained by applying 128 third convolutional filters of size 1x7 with a step of 1 to the fifth matrix. The size of the sixth matrix is 1xNx128, for example equal to 1x1768x128. Finally, an output vector is obtained by applying a third operation called “average pooling” without overlap with a filter of size 1xN to the sixth matrix. The size of the output vector is for example 1x1x128. The input audio signal is classified, that is, a class (also called a label) is associated with the audio signal by applying the output vector to a layer of densely connected neurons, this layer having at output a number of neurons less than 10 (for example equal to 6), each output neuron corresponding to a class representative of a different noise level.
Un tel procédé permet de tester la qualité d’un signal audio en déterminant à quelle classe de niveau de bruit le signal audio appartient, sans intervention humaine. Par ailleurs, l’utilisation d’un tel procédé permet au système d’apprendre au fur et à mesure du traitement des signaux audios à classifier, ce qui permet d’affiner les résultats de classification. Par ailleurs, l’évaluation de la qualité du signal audio est d’autant plus pertinente que l’analyse se fait sur le signal audio échantillonné dans sa globalité, et non sur certaines caractéristiques parcellaires et/ou aléatoires du signal. Such a method makes it possible to test the quality of an audio signal by determining to which noise level class the audio signal belongs, without human intervention. Furthermore, the use of such a method allows the system to learn as the audio signals to be classified are processed, which allows the classification results to be refined. Furthermore, the evaluation of the quality of the audio signal is all the more relevant as the analysis is carried out on the sampled audio signal as a whole, and not on certain fragmented and / or random characteristics of the signal.
Les données issues des différents opérations mises en œuvre dans l’invention sont représentées sous la forme de vecteur, matrice ou tenseur. A des fins de simplification, les tailles (ou dimensions) de chacun des vecteurs ou matrices seront fournies sous le format correspondant à la taille ou à la dimension d’un tenseur, c’est-à-dire avec trois dimensions AxBxC, où A, B et C correspondent aux nombres de lignes, de colonnes et de canaux. The data from the various operations implemented in the invention are represented in the form of a vector, matrix or tensor. For simplification purposes, the sizes (or dimensions) of each of the vectors or matrices will be provided in the format corresponding to the size or dimension of a tensor, i.e. with three dimensions AxBxC, where A , B and C correspond to the numbers of rows, columns and channels.
Ainsi, un vecteur est un tenseur pour lequel 2 des 3 dimensions sont égales à 1 et une matrice est un tenseur pour lequel 1 des 3 dimensions est égale à 1. Thus, a vector is a tensor for which 2 of the 3 dimensions are equal to 1 and a matrix is a tensor for which 1 of the 3 dimensions is equal to 1.
[Fig. 1] illustre schématiquement un système permettant l’évaluation de la qualité d’un signal audio, selon un exemple de réalisation particulier et non limitatif de la présente invention. [Fig. 1] schematically illustrates a system for evaluating the quality of an audio signal, according to a particular and non-limiting exemplary embodiment of the present invention.
Le système 1 comprend un véhicule 103, par exemple un véhicule automobile, recevant un signal radiofréquence 102 via une ou plusieurs antennes embarquées dans ou sur le véhicule 103. Le signal radiofréquence correspond par exemple à un signal radio de type FM portant les données du signal audio à analyser, évaluer ou tester. Le signal 102 est par exemple émis via une ou plusieurs antennes d’émission 101. Un tuner 104 embarqué dans le véhicule 103 reçoit le signal radiofréquence 102 par l’intermédiaire de l’antenne de réception embarquée du véhicule et le convertit en un signal audio. C signal audio est alors transmis à un ou plusieurs haut-parleurs du véhicule 103 pour une restitution ou un rendu de ce signal audio perceptible par le conducteur et/ou les passagers du véhicule 103 sous la forme d’ondes sonores. The system 1 comprises a vehicle 103, for example a motor vehicle, receiving a radiofrequency signal 102 via one or more onboard antennas in or on the vehicle 103. The radiofrequency signal corresponds for example to an FM-type radio signal carrying the data of the signal. audio to analyze, evaluate or test. The signal 102 is for example transmitted via one or more transmitting antennas 101. A tuner 104 on board the vehicle 103 receives the radiofrequency signal 102 via the receiving antenna on board the vehicle and converts it into an audio signal. . VS audio signal is then transmitted to one or more speakers of the vehicle 103 for a reproduction or a rendering of this audio signal perceptible by the driver and / or the passengers of the vehicle 103 in the form of sound waves.
Le signal audio obtenu du tuner 104, ou une partie de ce signal (par exemple 1 seconde ou quelques secondes de ce signal), est par exemple transmis directement à un dispositif ou une unité de traitement 106 configurée pour mettre en œuvre le procédé de traitement du signal audio de l’invention en vue d’évaluer ce signal audio, c’est-à-dire en vue d’obtenir une ou plusieurs informations représentatives de la qualité du signal audio. The audio signal obtained from the tuner 104, or part of this signal (for example 1 second or a few seconds of this signal), is for example transmitted directly to a device or a processing unit 106 configured to implement the processing method of the audio signal of the invention with a view to evaluating this audio signal, that is to say with a view to obtaining one or more pieces of information representative of the quality of the audio signal.
Selon une variante, le signal audio obtenu du tuner 104 (ou une partie de ce signal) est enregistré, c’est-à-dire stocké dans un dispositif de stockage de données (par exemple une mémoire) 105 avant d’être transmis au dispositif de traitement 106. Le stockage du signal audio permet par exemple de répéter l’évaluation du signal, par exemple pour comparer ce dernier avec une version traitée ou corrigée de ce signal enregistré. L’enregistrement du signal permet également un traitement postérieur de ce signal, par exemple dans un laboratoire de test, ce qui évite d’embarquer l’unité de traitement 106 dans le véhicule 103 pour réaliser les tests et ce qui permet de réaliser l’ensemble des tests dans un environnement contrôlé, à l’écart des bruits de l’environnement routier dans lequel évolue le véhicule 103 par exemple. Selon un autre exemple, l’enregistrement du signal (ou de plusieurs signaux) permet également de réaliser un ou plusieurs traitements de ce signal avant de mettre en œuvre l’évaluation du signal audio. According to a variant, the audio signal obtained from the tuner 104 (or part of this signal) is recorded, that is to say stored in a data storage device (for example a memory) 105 before being transmitted to the. processing device 106. The storage of the audio signal makes it possible for example to repeat the evaluation of the signal, for example to compare the latter with a processed or corrected version of this recorded signal. The recording of the signal also allows a subsequent processing of this signal, for example in a test laboratory, which avoids the need to embark the processing unit 106 in the vehicle 103 to carry out the tests and which makes it possible to carry out the test. all the tests in a controlled environment, away from the noise of the road environment in which the vehicle 103 operates, for example. According to another example, the recording of the signal (or of several signals) also makes it possible to carry out one or more processing operations of this signal before implementing the evaluation of the audio signal.
[Fig. 2] illustre un diagramme 2 représentant le signal audio 20 à évaluer, selon un exemple de réalisation particulier et non limitatif de la présente invention. [Fig. 2] illustrates a diagram 2 representing the audio signal 20 to be evaluated, according to a particular and non-limiting embodiment of the present invention.
Le diagramme 2 représente une évolution de l’amplitude d’un signal audio 20 reçu du tuner 104 en fonction du temps. Le temps est représenté en abscisse et l’amplitude du signal 20 est représentée en ordonnée. Selon l’exemple particulier de la figure 2, l’amplitude du signal 20 est normalisée entre une valeur minimale et une valeur maximale, par exemple entre -5 et 5, -2 et 2, -1 et 1 . Le signal audio 20 évalué à par exemple une durée de 1 seconde. Selon d’autres exemples, la durée du signal 20 est de quelques secondes, par exemple comprise entre 2 et 8 secondes, par exemple égale à 5 secondes. Diagram 2 represents an evolution of the amplitude of an audio signal 20 received from the tuner 104 as a function of time. The time is represented on the abscissa and the amplitude of signal 20 is represented on the ordinate. According to the particular example of FIG. 2, the amplitude of signal 20 is normalized between a minimum value and a maximum value, for example between -5 and 5, -2 and 2, -1 and 1. The audio signal 20 evaluated by example a duration of 1 second. According to other examples, the duration of signal 20 is a few seconds, for example between 2 and 8 seconds, for example equal to 5 seconds.
Le signal audio 20 est avantageusement échantillonné avant d’être traité ou classifié selon le procédé décrit en regard de la figure 3. Le signal audio 20 est par exemple échantillonné à une fréquence de 16 kHz, ce qui permet d’obtenir 16000 échantillons du signal 20 lorsque ce dernier a une durée de 1 seconde, comme dans l’exemple de la figure 2. Une telle fréquence d’échantillonnage permet d’obtenir un grand nombre d’échantillons et d’avoir une représentation fidèle du signal audio 20, même échantillonnée, en vue de son évaluation ou de sa classification. The audio signal 20 is advantageously sampled before being processed or classified according to the method described with reference to FIG. 3. The audio signal 20 is for example sampled at a frequency of 16 kHz, which makes it possible to obtain 16,000 samples of the signal. 20 when the latter has a duration of 1 second, as in the example of FIG. 2. Such a sampling frequency makes it possible to obtain a large number of samples and to have a faithful representation of the audio signal 20, even sampled for evaluation or classification.
[Fig. 3] illustre un organigramme des différentes étapes d’un procédé de traitement d’un signal audio, par exemple le signal audio 20 de la figure 2, selon un exemple de réalisation particulier et non limitatif de la présente invention. Le procédé est avantageusement mis en œuvre dans le dispositif 106. [Fig. 3] illustrates a flowchart of the various steps of a process for processing an audio signal, for example the audio signal 20 of FIG. 2, according to a particular and non-limiting example of the present invention. The method is advantageously implemented in the device 106.
Dans une première étape 31 , un nombre déterminé de valeurs représentant chacune une valeur d’une amplitude d’un échantillon du signal audio 20 sont reçues. Ces données sont par exemple reçues d’une mémoire, par exemple une mémoire tampon (de l’anglais « buffer ») ou une mémoire de type flash, dans laquelle sont stockées les échantillons du signal obtenus après échantillonnage du signal audio 20. Selon l’exemple fourni en regard de la figure 2, 16000 valeurs sont reçues sous la forme d’un vecteur d’entrée de taille 1x16000x1. In a first step 31, a determined number of values each representing a value of an amplitude of a sample of the audio signal 20 are received. These data are for example received from a memory, for example a buffer memory or a flash type memory, in which the signal samples obtained after sampling the audio signal 20 are stored. Example given with reference to figure 2, 16000 values are received in the form of an input vector of size 1x16000x1.
Dans une deuxième étape 32, une première matrice est déterminée ou obtenue en appliquant 100 premiers filtres de convolution de taille 1x7, avec un pas (de l’anglais « stride ») de 1 , au vecteur d’entrée obtenue à l’étape 31. Autrement dit, le vecteur d’entrée passe dans une première couche de convolution et des opérations de convolutions sont appliquées à ce vecteur d’entrée sur la base de 100 premiers filtres de taille 1x7, avec un pas de 1. En suivant l’exemple fourni avec le vecteur d’entrée, la taille de la première matrice est égale à 1x15994x100. Le produit de la première couche de convolution est une première matrice (aussi appelée carte caractéristique (de l’anglais « feature map ») de sortie ou carte d’activation (de l’anglais « activation map ») dont les dimensions OxOxC sont obtenues par : In a second step 32, a first matrix is determined or obtained by applying 100 first convolution filters of size 1x7, with a step (from the English “stride”) of 1, to the input vector obtained in step 31 In other words, the input vector passes through a first convolutional layer and convolution operations are applied to this input vector on the basis of 100 first filters of size 1x7, with a step of 1. Following the example provided with the input vector, the size of the first matrix is equal to 1x15994x100. The product of the first convolutional layer is a first matrix (also called the characteristic map (of the output feature map or activation map, the OxOxC dimensions of which are obtained by:
[Equation 1] [Equation 1]
0 = (I-F+2P)/S + 1 , 0 = (I-F + 2P) / S + 1,
Avec O une dimension de la première matrice, I le côté du volume d’entrée (le vecteur d’entrée dans le cas de la première matrice), F la taille du filtre, P la taille du recouvrement (de l’anglais « padding »), cette taille étant égale à 0 dans les exemples particuliers décrits ci-dessous, S le pas et C le nombre de canaux. With O a dimension of the first matrix, I the side of the input volume (the input vector in the case of the first matrix), F the size of the filter, P the size of the overlap (from the English "padding ”), This size being equal to 0 in the specific examples described below, S the pitch and C the number of channels.
Concernant la première matrice, 15994 = (16000 - 7)/1 + 1 et C = 100, correspondant au nombre de premiers filtres. Regarding the first matrix, 15994 = (16000 - 7) / 1 + 1 and C = 100, corresponding to the number of first filters.
Le pas (ou « stride » en anglais) correspond au nombre de pixels par lesquels la fenêtre correspondant au filtre se déplace dans le tenseur d’entrée (vecteur d’entrée en l’occurrence). The step (or "stride" in English) corresponds to the number of pixels by which the window corresponding to the filter moves in the input tensor (input vector in this case).
Dans une troisième étape 33, une deuxième matrice est déterminée ou obtenue en appliquant 100 deuxièmes filtres de convolution de taille 1 x7, avec un pas de 1 , à la première matrice obtenue à l’étape 32. Autrement dit, la première matrice passe dans une deuxième couche de convolution et des opérations de convolutions sont appliquées à cette première matrice sur la base de 100 deuxièmes filtres de taille 1x7, avec un pas de 1. En suivant l’exemple fourni avec le vecteur d’entrée de dimension 1 x16000x1 , la taille de la deuxième matrice est égale à 1x15988x100, avec 15988 = (15994 — 7)/1 + 1.In a third step 33, a second matrix is determined or obtained by applying 100 second convolution filters of size 1 x7, with a step of 1, to the first matrix obtained in step 32. In other words, the first matrix passes through a second convolution layer and convolution operations are applied to this first matrix on the basis of 100 second filters of size 1x7, with a step of 1. Following the example provided with the input vector of dimension 1 x16000x1, the size of the second matrix is equal to 1x15988x100, with 15988 = (15994 - 7) / 1 + 1.
Dans une quatrième étape 34, une troisième matrice est déterminée ou obtenue en appliquant à la deuxième matrice obtenue à l’étape 33 une première opération dite de « mise en commun », et plus spécifiquement une première opération de « mise en commun par maximum » (de l’anglais « max pooling »). Cette première opération se base sur l’utilisation d’un filtre 1x3, sans recouvrement, c’est-à-dire que le filtre (une fenêtre de 1 pixel par 3 pixels si on considère que les matrices correspondent à des tableaux de pixels) se déplace dans la deuxième matrice sans recouvrement (c’est à dire qu’il n’y a pas de pixel commun entre les sous-matrices obtenues de la deuxième matrice par application du filtre se déplaçant dans cette deuxième matrice). La première opération de « mise en commun par maximum » correspond à une réduction spatiale de la taille de la deuxième matrice en en sélectionnant qu’une valeur, la valeur maximale, dans chaque sous-matrice obtenue de la deuxième matrice via le filtre 1x3. Ainsi, pour chaque sous-matrice de taille 1x3, une seule valeur parmi les 3 est sélectionnée et conservée, c’est-à-dire la valeur maximale parmi les 3 valeurs. En suivant l’exemple fourni avec le vecteur d’entrée de dimension 1 x16000x1 , la taille de la troisième matrice est égale à 1x5329x100, avec 5329 ¾ (15988 / 3). In a fourth step 34, a third matrix is determined or obtained by applying to the second matrix obtained in step 33 a first so-called “pooling” operation, and more specifically a first “pooling by maximum” operation. (from the English "max pooling"). This first operation is based on the use of a 1x3 filter, without overlap, i.e. the filter (a window of 1 pixel by 3 pixels if we consider that the matrices correspond to arrays of pixels) moves in the second matrix without overlap (ie there is no common pixel between the sub-matrices obtained from the second matrix by application of the filter moving in this second matrix). The first one The “maximum pooling” operation corresponds to a spatial reduction in the size of the second matrix by selecting only one value, the maximum value, in each sub-matrix obtained from the second matrix via the 1x3 filter. Thus, for each sub-matrix of size 1x3, only one value among the 3 is selected and kept, that is to say the maximum value among the 3 values. Following the example provided with the input vector of dimension 1 x16000x1, the size of the third matrix is equal to 1x5329x100, with 5329 ¾ (15988/3).
Selon une variante de réalisation, la première opération de « mise en commun » est assortie ou associée à une opération de désactivation aléatoire d’une partie des neurones du réseau, avec une probabilité de 0.3 (30 %). Cette technique est connue sous le nom de « dropout ». According to an alternative embodiment, the first "pooling" operation is matched or associated with a random deactivation operation of some of the neurons of the network, with a probability of 0.3 (30%). This technique is known as “dropout”.
Dans une cinquième étape 35, une quatrième matrice est déterminée ou obtenue en appliquant 128 troisièmes filtres de convolution de taille 1x7, avec un pas de 1 , à la troisième matrice obtenue à l’étape 34. Autrement dit, la troisième matrice passe dans une troisième couche de convolution et des opérations de convolutions sont appliquées à cette troisième matrice sur la base de 128 deuxièmes filtres de taille 1x7, avec un pas de 1. En suivant l’exemple fourni avec le vecteur d’entrée de dimension 1 x16000x1 , la taille de la quatrième matrice est égale à 1x5323x128, avec 5323 = (5329 - 7)/1 + 1.In a fifth step 35, a fourth matrix is determined or obtained by applying 128 third convolutional filters of size 1x7, with a step of 1, to the third matrix obtained in step 34. In other words, the third matrix passes into a third layer of convolution and operations of convolutions are applied to this third matrix on the basis of 128 second filters of size 1x7, with a step of 1. Following the example provided with the input vector of dimension 1 x16000x1, the size of the fourth matrix is equal to 1x5323x128, with 5323 = (5329 - 7) / 1 + 1.
Dans une sixième étape 36, une cinquième matrice est déterminée ou obtenue en appliquant à la quatrième matrice obtenue à l’étape 35 une deuxième opération dite de « mise en commun », et plus spécifiquement une deuxième opération de « mise en commun par maximum » (de l’anglais « max pooling »). Cette deuxième opération se base sur l’utilisation d’un filtre 1x3, sans recouvrement. En suivant l’exemple fourni avec le vecteur d’entrée de dimension 1 x16000x1 , la taille de la cinquième matrice est égale à 1 x1774x100, avec 1774 « (5323 / 3). In a sixth step 36, a fifth matrix is determined or obtained by applying to the fourth matrix obtained in step 35 a second so-called “pooling” operation, and more specifically a second “maximum pooling” operation. (from the English "max pooling"). This second operation is based on the use of a 1x3 filter, without overlap. Following the example provided with the input vector of dimension 1 x16000x1, the size of the fifth matrix is equal to 1 x1774x100, with 1774 " (5323/3).
Selon une variante de réalisation, la deuxième opération de « mise en commun » est assortie ou associée à une opération de désactivation aléatoire (« dropout ») d’une partie des neurones du réseau, avec une probabilité de 0.1 (10 %). According to an alternative embodiment, the second "pooling" operation is matched or associated with a random deactivation operation ("dropout") of part of the neurons of the network, with a probability of 0.1 (10%).
Dans une septième étape 37, une sixième matrice est déterminée ou obtenue en appliquant 128 quatrièmes filtres de convolution de taille 1x7, avec un pas de 1 , à la cinquième matrice obtenue à l’étape 36. Autrement dit, la cinquième matrice passe dans une quatrième couche de convolution et des opérations de convolutions sont appliquées à cette cinquième matrice sur la base de 128 deuxièmes filtres de taille 1x7, avec un pas de 1. En suivant l’exemple fourni avec le vecteur d’entrée de dimension 1x16000x1 , la taille de la sixième matrice est égale à 1x1768x128, avec 1768 = (1774 - 7)/1 + 1. In a seventh step 37, a sixth matrix is determined or obtained by applying 128 fourth convolution filters of size 1x7, with a step of 1, to the fifth matrix obtained in step 36. In other words, the fifth matrix passes into a fourth convolution layer and convolution operations are applied to this fifth matrix on the basis of 128 second filters of size 1x7, with a step of 1. Following the example provided with the input vector of dimension 1x16000x1, the size of the sixth matrix is equal to 1x1768x128, with 1768 = (1774 - 7) / 1 + 1.
Dans une huitième étape 38, une septième matrice est déterminée ou obtenue en appliquant à la sixième matrice obtenue à l’étape 37 une troisième opération dite de « mise en commun », et plus spécifiquement une troisième opération de « mise en commun par moyenne » (de l’anglais « average pooling »). Cette troisième opération se base sur l’utilisation d’un filtre 1xN (N correspondant à la dimension 1xNx128 de la sixième matrice, soit 1768 selon l’exemple particulier). La troisième opération de « mise en commun par moyenne » correspond à une réduction spatiale de la taille de la sixième matrice en ne sélectionnant qu’une valeur, la moyenne des N valeurs, pour chacun des 128 canaux. Ainsi, pour chaque canal ou chaque sous-matrice de taille 1xN, une seule valeur (la moyenne des N valeurs) est prise en compte. En suivant l’exemple fourni avec le vecteur d’entrée de dimension 1x16000x1 , la taille de la septième matrice est égale à 1x1x128. Cette septième matrice est également appelée vecteur de sortie puisque 2 des 3 dimensions du tenseur 1x1x128 sont égales à 1.In an eighth step 38, a seventh matrix is determined or obtained by applying to the sixth matrix obtained in step 37 a third operation called “pooling”, and more specifically a third “pooling by average” operation. (from the English "average pooling"). This third operation is based on the use of a 1xN filter (N corresponding to the 1xNx128 dimension of the sixth matrix, or 1768 according to the particular example). The third operation of "pooling by average" corresponds to a spatial reduction in the size of the sixth matrix by selecting only one value, the average of the N values, for each of the 128 channels. Thus, for each channel or each sub-matrix of size 1xN, a single value (the average of the N values) is taken into account. Following the example provided with the input vector of dimension 1x16000x1, the size of the seventh matrix is equal to 1x1x128. This seventh matrix is also called the output vector since 2 of the 3 dimensions of the 1x1x128 tensor are equal to 1.
Selon une variante de réalisation, la troisième opération de « mise en commun » est assortie ou associée à une opération de désactivation aléatoire (« dropout ») d’une partie des neurones du réseau, avec une probabilité de 0.2 (20 %). According to an alternative embodiment, the third "pooling" operation is matched or associated with a random deactivation operation ("dropout") of part of the neurons of the network, with a probability of 0.2 (20%).
Dans une neuvième étape 39, le vecteur de sortie passe par une couche de neurones densément connectés, avec 128 neurones chacun connecté à chacun des neurones d’une couche comprenant par exemple 6 neurones, une classe représentative d’un niveau de bruit différent étant associé à chacun de ces 6 neurones. Le signal audio d’entrée est ainsi classifié, c’est-à-dire qu’une classe (aussi appelée étiquette) est associée au signal audio en appliquant le vecteur de sortie à une couche de neurones densément connectés, cette couche ayant en sortie par exemple 6 neurones correspondant chacun à une classe représentative d’un niveau de bruit différent. Le tableau ci-dessous présente un exemple de 6 classes de bruit, identifiées de 0 à 5 : [Tableau 1] In a ninth step 39, the output vector passes through a layer of densely connected neurons, with 128 neurons each connected to each of the neurons of a layer comprising for example 6 neurons, a class representative of a different noise level being associated to each of these 6 neurons. The input audio signal is thus classified, that is to say that a class (also called label) is associated with the audio signal by applying the output vector to a layer of densely connected neurons, this layer having at output for example 6 neurons each corresponding to a class representative of a different noise level. The table below shows an example of 6 noise classes, identified from 0 to 5: [Table 1]
Bien entendu, le nombre de neurones en sortie n’est pas limité à 6 et est par exemple égal à 4, 8 ou 10 et avantageusement inférieur à 10. Of course, the number of output neurons is not limited to 6 and is for example equal to 4, 8 or 10 and advantageously less than 10.
Les valeurs des premiers filtres sont avantageusement déterminées dans une phase d’apprentissage, selon une méthode connue de l’homme du métier. Dans une phase d’apprentissage, un nombre important de signaux audio d’entrée dont on connaît la classe (c’est-à-dire le niveau de bruit) associée sont utilisés pour apprendre les différents valeurs ou coefficients des filtres de convolution. Dans une telle phase d’apprentissage, une méthode connue sous le nom de rétropropagation du gradient de l’erreur est par exemple mise en œuvre. The values of the first filters are advantageously determined in a learning phase, according to a method known to those skilled in the art. In a learning phase, a large number of input audio signals of which the associated class (ie the noise level) is known are used to learn the different values or coefficients of the convolution filters. In such a learning phase, a method known as the backpropagation of the error gradient is, for example, implemented.
A titre d’exemple, les valeurs comprises dans un des premiers, deuxièmes, troisièmes ou quatrièmes filtres de convolutions sont égales à : - 0.07848639 ; 0.04320003 ; 0.0651957 ; 0.054399617 ; 0.033398744 ; - 0.006850287 ; et 0.07814157. By way of example, the values included in one of the first, second, third or fourth convolution filters are equal to: - 0.07848639; 0.04320003; 0.0651957; 0.054399617; 0.033398744; - 0.006850287; and 0.07814157.
Le nombre d’échantillons en entrée peut être différent de 16000, par exemple égal à 10000 ou 20000 ou 32000. Le nombre d’échantillons du vecteur d’entrée est par exemple pris en compte comme paramètre d’apprentissage, ayant un impact sur les valeurs comprises dans les filtres de convolution utilisées dans les différentes couches de convolution. Selon une variante de réalisation optionnelle, un traitement particulier est appliqué au signal audio en fonction de la classe auquel le signal a été associé à l’étape 39, le traitement étant par exemple mis en œuvre pour améliorer la qualité du signal en réduisant le bruit. Des méthodes dites de soustraction spectrale, par exemple basée sur un filtrage de Wiener ou un filtrage de Lim, sont par exemple mises en œuvre. The number of input samples may be different from 16000, for example equal to 10,000 or 20,000 or 32,000. The number of samples of the input vector is for example taken into account as a learning parameter, having an impact on the values included in the convolution filters used in the different convolution layers. According to an optional variant embodiment, a particular processing is applied to the audio signal as a function of the class to which the signal has been associated in step 39, the processing being for example implemented to improve the quality of the signal by reducing the noise. . So-called spectral subtraction methods, for example based on Wiener filtering or Lim filtering, are for example implemented.
Une telle classification via un réseau de neurones présente l’avantage que le système mettant en œuvre le procédé (le réseau de neurones) trouve ou apprend les propriétés d’intérêt pour faire la classification (par exemple les valeurs comprises dans les filtres de convolution), ce qui permet de s’affranchir de choix arbitraires et biaisés que ferait un être humain par exemple. Such a classification via a neural network has the advantage that the system implementing the method (the neural network) finds or learns the properties of interest to make the classification (for example the values included in the convolution filters) , which makes it possible to be freed from arbitrary and biased choices that a human being would make for example.
[Fig. 4] illustre schématiquement un dispositif 106 configuré pour traiter un signal audio tel que le signal audio 20, par exemple pour classifier le niveau de bruit d’un tel signal, selon un exemple de réalisation particulier et non limitatif de la présente invention. [Fig. 4] schematically illustrates a device 106 configured to process an audio signal such as the audio signal 20, for example to classify the noise level of such a signal, according to a particular and non-limiting embodiment of the present invention.
Le dispositif 106 est par exemple configuré pour la mise en œuvre des opérations décrites en regard des figure 1 et 2 et/ou des étapes du procédé décrit en regard de la figure 3. Des exemples d’un tel dispositif 106 comprennent, sans y être limités, un ordinateur, un serveur, un téléphone intelligent (de l’anglais « smartphone »), une tablette, un calculateur. Les éléments du dispositif 106, individuellement ou en combinaison, peuvent être intégrés dans un unique circuit intégré, dans plusieurs circuits intégrés, et/ou dans des composants discrets. Le dispositif 106 peut être réalisé sous la forme de circuits électroniques ou de modules logiciels (ou informatiques) ou encore d’une combinaison de circuits électroniques et de modules logiciels. The device 106 is for example configured for the implementation of the operations described with reference to FIGS. 1 and 2 and / or the steps of the method described with regard to FIG. 3. Examples of such a device 106 include, without being there limited, a computer, a server, a smart phone, a tablet, a calculator. The elements of the device 106, individually or in combination, can be integrated in a single integrated circuit, in several integrated circuits, and / or in discrete components. The device 106 can be produced in the form of electronic circuits or software (or computer) modules or else a combination of electronic circuits and software modules.
Le dispositif 106 comprend un (ou plusieurs) processeur(s) 40 configurés pour exécuter des instructions pour la réalisation des étapes du procédé et/ou pour l’exécution des instructions du ou des logiciels embarqués dans le dispositif 106. Le processeur 40 peut inclure de la mémoire intégrée, une interface d’entrée/sortie, et différents circuits connus de l’homme du métier. Le dispositif 106 comprend en outre au moins une mémoire 41 correspondant par exemple une mémoire volatile et/ou non volatile et/ou comprend un dispositif de stockage mémoire qui peut comprendre de la mémoire volatile et/ou non volatile, telle que EEPROM, ROM, PROM, RAM, DRAM, SRAM, flash, disque magnétique ou optique. The device 106 comprises one (or more) processor (s) 40 configured to execute instructions for carrying out the steps of the method and / or for executing the instructions of the software (s) embedded in the device 106. The processor 40 can include integrated memory, an input / output interface, and various circuits known to those skilled in the art. The device 106 further comprises at least one memory 41 corresponding, for example, to a volatile and / or non-volatile memory and / or comprises a memory storage device which may comprise memory. volatile and / or non-volatile, such as EEPROM, ROM, PROM, RAM, DRAM, SRAM, flash, magnetic or optical disk.
Le code informatique du ou des logiciels embarqués comprenant les instructions à charger et exécuter par le processeur est par exemple stocké sur la première mémoire 41. The computer code of the on-board software (s) comprising the instructions to be loaded and executed by the processor is for example stored in the first memory 41.
Selon un mode de réalisation particulier et non limitatif, le dispositif 106 comprend un bloc 42 d’éléments d’interface pour communiquer avec des dispositifs externes, par exemple un serveur distant ou le « cloud » ou encore le tuner 104. Les éléments d’interface du bloc 42 comprennent une ou plusieurs des interfaces suivantes : According to a particular and non-limiting embodiment, the device 106 comprises a block 42 of interface elements for communicating with external devices, for example a remote server or the “cloud” or else the tuner 104. The elements of interface of block 42 include one or more of the following interfaces:
- interface radiofréquence RF, par exemple de type Bluetooth® ou Wi-Fi®, LTE (de l’anglais « Long-Term Evolution » ou en français « Evolution à long terme »), LTE- Advanced (ou en français LTE-avancé) ; - RF radiofrequency interface, for example of the Bluetooth® or Wi-Fi® type, LTE (from English "Long-Term Evolution" or in French "Long-term Evolution"), LTE-Advanced (or in French LTE-advanced );
- interface USB (de l’anglais « Universal Serial Bus » ou « Bus Universel en Série » en français) ; - USB interface (from English "Universal Serial Bus" or "Bus Universel en Série" in French);
- interface FIDMI (de l’anglais « High Définition Multimedia Interface », ou « Interface Multimedia Flaute Définition » en français). - FIDMI interface (from English "High Definition Multimedia Interface", or "Interface Multimedia Flaute Definition" in French).
Selon un autre mode de réalisation particulier, le dispositif 106 comprend une interface de communication 43 qui permet d’établir une communication avec d’autres dispositifs via un canal de communication 430. L’interface de communication 43 correspond par exemple à un transmetteur configuré pour transmettre et recevoir des informations et/ou des données via le canal de communication 430. According to another particular embodiment, the device 106 comprises a communication interface 43 which makes it possible to establish communication with other devices via a communication channel 430. The communication interface 43 corresponds for example to a transmitter configured for transmitting and receiving information and / or data via the communication channel 430.
Selon un mode de réalisation particulier supplémentaire, le dispositif 106 peut fournir et/ou recevoir des signaux de sortie à un ou plusieurs dispositifs externes, tels qu’un clavier 440, une souris 450 et/ou un écran 460 via respectivement des interfaces d’entrée/sortie 44, 45 et 46. Selon une variante, l’un ou l’autre des dispositifs externes est intégré au dispositif 106. L’écran d’affichage 460 correspond par exemple à un écran tactile. Bien entendu, l’invention ne se limite pas aux modes de réalisation décrits ci-avant mais s’étend à un procédé de classification du niveau de bruit d’un signal audio, et au dispositif configuré pour la mise en œuvre d’un tel procédé. L’invention concerne également un procédé d’évaluation d’un signal audio et plus particulièrement un procédé d’évaluation de la qualité d’un signal audio, et au dispositif configuré pour la mise en œuvre d’un tel procédé. According to a further particular embodiment, the device 106 can provide and / or receive output signals to one or more external devices, such as a keyboard 440, a mouse 450 and / or a screen 460 respectively via interfaces of input / output 44, 45 and 46. According to a variant, one or the other of the external devices is integrated into the device 106. The display screen 460 corresponds for example to a touch screen. Of course, the invention is not limited to the embodiments described above but extends to a method of classifying the noise level of an audio signal, and to the device configured for the implementation of such process. The invention also relates to a method for evaluating an audio signal and more particularly to a method for evaluating the quality of an audio signal, and to the device configured for implementing such a method.
L’invention concerne également un véhicule comprenant le dispositif 106. The invention also relates to a vehicle comprising the device 106.

Claims

REVENDICATIONS
1. Procédé de traitement d’un signal audio (20), ledit procédé étant mis en œuvre dans un dispositif (106) de traitement d’un signal audio mettant en œuvre un réseau de neurones, ledit procédé comprenant les étapes suivantes : 1. A method of processing an audio signal (20), said method being implemented in an audio signal processing device (106) implementing a neural network, said method comprising the following steps:
- réception (31) d’un vecteur d’entrée comprenant un nombre déterminé de valeurs chacune représentative d’une amplitude d’un échantillon dudit signal audio (20) ; - reception (31) of an input vector comprising a determined number of values each representative of an amplitude of a sample of said audio signal (20);
- détermination (32) d’une première matrice par application audit vecteur d’entrée de 100 premiers filtres de convolution de taille 1x7 avec un pas de 1 ; - determination (32) of a first matrix by applying to said input vector 100 first convolution filters of size 1x7 with a step of 1;
- détermination (33) d’une deuxième matrice par application à ladite première matrice de 100 deuxièmes filtres de convolution de taille 1x7 avec un pas de 1 ; - determination (33) of a second matrix by applying to said first matrix 100 second convolution filters of size 1x7 with a step of 1;
- détermination (34) d’une troisième matrice par application à ladite deuxième matrice d’une première opération dite de « mise en commun » sans recouvrement avec un filtre de taille 1x3, la valeur maximale de chaque sous-matrice obtenue de ladite deuxième matrice avec ledit filtre étant retenue lors de ladite première opération ; - determination (34) of a third matrix by applying to said second matrix a first so-called “pooling” operation without overlap with a filter of size 1x3, the maximum value of each sub-matrix obtained from said second matrix with said filter being retained in said first operation;
- détermination (35) d’une quatrième matrice par application à ladite troisième matrice de 128 troisièmes filtres de convolution de taille 1x7 avec un pas de 1 ; - determination (35) of a fourth matrix by applying to said third matrix 128 third convolution filters of size 1x7 with a step of 1;
- détermination (36) d’une cinquième matrice par application à ladite quatrième matrice d’une deuxième opération dite de « mise en commun » sans recouvrement avec un filtre de taille 1x3, la valeur maximale de chaque sous-matrice obtenue de ladite deuxième matrice avec ledit filtre étant retenue lors de ladite deuxième opération ;- determination (36) of a fifth matrix by applying to said fourth matrix a second so-called “pooling” operation without overlap with a filter of size 1x3, the maximum value of each sub-matrix obtained from said second matrix with said filter being retained in said second operation;
- détermination (37) d’une sixième matrice par application à ladite cinquième matrice de 128 quatrièmes filtres de convolution de taille 1x7 avec un pas de 1 , la taille de ladite sixième matrice étant égale à 1xNx128, avec N un entier naturel ; - determination (37) of a sixth matrix by applying to said fifth matrix 128 fourth convolution filters of size 1x7 with a step of 1, the size of said sixth matrix being equal to 1xNx128, with N a natural integer;
- détermination (38) d’un vecteur de sortie par application à ladite sixième matrice d’une troisième opération dite de « mise en commun » sans recouvrement avec un filtre de taille 1xN, la valeur moyenne de chaque sous-matrice obtenue de ladite sixième matrice avec ledit filtre étant retenue lors de ladite troisième opération ; - determination (38) of an output vector by applying to said sixth matrix a third so-called “pooling” operation without overlap with a filter of size 1xN, the mean value of each sub-matrix obtained from said sixth matrix with said filter being retained in said third operation;
- détermination (39) d’une classe représentative d’un niveau de bruit dudit signal audio (20) à partir d’une couche de neurones densément connectés ayant en entrée ledit vecteur de sortie et en sortie un nombre de neurones inférieur à 10, chaque neurone de sortie correspondant à une classe représentative d’un niveau de bruit différent. - determination (39) of a class representative of a noise level of said audio signal (20) from a layer of densely connected neurons having said input as said output vector and at output a number of neurons less than 10, each output neuron corresponding to a class representative of a different noise level.
2. Procédé selon la revendication 1 , pour lequel une opération de désactivation aléatoire d’une partie des neurones dudit réseau est associée à ladite première opération de « mise en commun » avec une probabilité de 0.3, une opération de désactivation aléatoire d’une partie des neurones dudit réseau est associée à ladite deuxième opération de « mise en commun » avec une probabilité de 0.1 et une opération de désactivation aléatoire d’une partie des neurones dudit réseau est associée à ladite troisième opération de « mise en commun » avec une probabilité de 0.2. 2. Method according to claim 1, for which a random deactivation operation of a part of the neurons of said network is associated with said first “pooling” operation with a probability of 0.3, a random deactivation operation of a part. neurons of said network is associated with said second "pooling" operation with a probability of 0.1 and a random deactivation operation of some of the neurons of said network is associated with said third "pooling" operation with a probability of 0.2.
3. Procédé selon la revendication 1 ou 2, pour lequel ledit nombre déterminé de valeurs dudit vecteur d’entrée est égal à 16000. 3. The method of claim 1 or 2, wherein said determined number of values of said input vector is equal to 16000.
4. Procédé selon l’une des revendications 1 à 3, pour lequel ledit signal audio (20) est obtenu par conversion d’un signal radiofréquence par un tuner (104) d’un véhicule (103). 4. Method according to one of claims 1 to 3, wherein said audio signal (20) is obtained by converting a radio frequency signal by a tuner (104) of a vehicle (103).
5. Procédé selon l’une des revendications 1 à 4, pour lequel la taille du vecteur d’entrée est égale à 1x16000, la taille de la première matrice est égale à 1x15994x100, la taille de la deuxième matrice est égale à 1x15988x100, la taille de la troisième matrice est égale à 1x5329x100, la taille de la quatrième matrice est égale à 1x5323x128, la taille de la cinquième matrice est égale à 1x1774x128, la taille de la sixième matrice est égale à 1x1768x128 et la taille du vecteur de sortie est égale à 1x1x128. 5. Method according to one of claims 1 to 4, for which the size of the input vector is equal to 1x16000, the size of the first matrix is equal to 1x15994x100, the size of the second matrix is equal to 1x15988x100, the size of the third matrix is equal to 1x5329x100, the size of the fourth matrix is equal to 1x5323x128, the size of the fifth matrix is equal to 1x1774x128, the size of the sixth matrix is equal to 1x1768x128, and the size of the output vector is equal to 1x1x128.
6. Procédé selon l’une des revendications 1 à 5, pour lequel le nombre de neurones de sortie est égal à 6. 6. Method according to one of claims 1 to 5, for which the number of output neurons is equal to 6.
7. Procédé selon l’une quelconque des revendications 1 à 6, comprenant en outre une étape de traitement dudit signal audio en fonction de ladite classe représentative d’un niveau de bruit associé audit signal pour corriger au moins en partie le bruit. 7. Method according to any one of claims 1 to 6, further comprising a step of processing said audio signal as a function of said class representative of a noise level associated with said signal to at least partially correct the noise.
8. Procédé selon l’une quelconque des revendications 1 à 7, comprenant en outre une étape d’apprentissages des valeurs comprises dans lesdits filtres de convolution. 8. Method according to any one of claims 1 to 7, further comprising a step of learning the values included in said convolution filters.
9. Dispositif (106) de traitement d’un signal audio, ledit dispositif comprenant une mémoire (41) associée à au moins un processeur (40) configuré pour la mise en œuvre des étapes du procédé selon l’une quelconque des revendications 1 à 8. 9. Device (106) for processing an audio signal, said device comprising a memory (41) associated with at least one processor (40) configured for implementing the steps of the method according to any one of claims 1 to 8.
10. Produit programme d’ordinateur comportant des instructions adaptées pour l’exécution des étapes du procédé selon l’une des revendications 1 à 8, lorsque le programme d’ordinateur est exécuté par au moins un processeur. 10. Computer program product comprising instructions adapted for the execution of the steps of the method according to one of claims 1 to 8, when the computer program is executed by at least one processor.
EP20807468.2A 2019-11-26 2020-10-21 Method and device for processing an audio signal Pending EP4066389A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1913207A FR3103660B1 (en) 2019-11-26 2019-11-26 Method and device for processing an audio signal
PCT/FR2020/051901 WO2021105574A1 (en) 2019-11-26 2020-10-21 Method and device for processing an audio signal

Publications (1)

Publication Number Publication Date
EP4066389A1 true EP4066389A1 (en) 2022-10-05

Family

ID=70228115

Family Applications (1)

Application Number Title Priority Date Filing Date
EP20807468.2A Pending EP4066389A1 (en) 2019-11-26 2020-10-21 Method and device for processing an audio signal

Country Status (3)

Country Link
EP (1) EP4066389A1 (en)
FR (1) FR3103660B1 (en)
WO (1) WO2021105574A1 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453251B1 (en) 1999-10-07 2002-09-17 Receptec Llc Testing method for components with reception capabilities
US9973849B1 (en) * 2017-09-20 2018-05-15 Amazon Technologies, Inc. Signal quality beam selection
GB2567503A (en) * 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
KR102556098B1 (en) * 2017-11-24 2023-07-18 한국전자통신연구원 Method and apparatus of audio signal encoding using weighted error function based on psychoacoustics, and audio signal decoding using weighted error function based on psychoacoustics

Also Published As

Publication number Publication date
FR3103660B1 (en) 2021-10-15
FR3103660A1 (en) 2021-05-28
WO2021105574A1 (en) 2021-06-03

Similar Documents

Publication Publication Date Title
EP4066389A1 (en) Method and device for processing an audio signal
EP0977365B1 (en) Method for achieving lossfree compression of wide dynamic range signals
FR3087599A1 (en) METHOD FOR CLASSIFYING THE NOISE LEVEL OF AN AUDIO SIGNAL
CN110633598B (en) Method and device for determining a driving area in an environment image
CN113763976B (en) Noise reduction method and device for audio signal, readable medium and electronic equipment
FR3063169A1 (en) DEVICE FOR DETERMINING A TRACK
FR3056058B1 (en) METHOD OF NORMALLY MEASURING THE MODULATION OF AN AMPLITUDE MODULE RADIO SIGNAL AND METHOD OF FILTERING SAID RADIO SIGNAL
FR3050537B1 (en) PRINCIPLE OF POST-PROCESSING RADAR SIGNALS WITH LOW POWER TRANSMISSION
WO2021175979A1 (en) Method and system for determining sound equalising filters of an audio system
FR3003114A1 (en) METHOD AND SYSTEM FOR TESTING AUDIO DEVICE
CN113687326B (en) Vehicle-mounted radar echo noise reduction method, device, equipment and medium
FR3102632A1 (en) Electronic device and method for controlling a broadcast of digital audio and / or video streams, vehicle and associated computer program
EP2489548A1 (en) Method for controlling the switching of an adaptive headlight system of an automobile
EP4202772A1 (en) Method for developing a classification device, method and system thereof
EP4202784A1 (en) Method for adjusting a predicting device and associated method and system
CN116364066A (en) Classification model generation method, audio classification method, device, medium and equipment
EP3934282A1 (en) Method for converting a first set of signals representing a sound field into a second set of signals and associated electronic device
CN116821383A (en) Multimedia data recommendation method and device based on in-vehicle voice interaction mode
CN117059130A (en) Abnormal sound detection method, device, electronic equipment and storage medium
EP3127244B1 (en) Control device of a system for distribution of audio signals of primary and auxillary sources as a function of their duration
EP2339764B1 (en) Method and system for automatic non-cooperative identification of an RF transmission system
CN116504269A (en) Pronunciation evaluation method and device, readable medium and electronic equipment
FR3141265A1 (en) Method and device for classifying vehicle repair support requests
FR2679083A1 (en) Automatic device and method for separating sources
EP4158812A1 (en) Method and device for quantising data representative of a radio signal received by a radio antenna of a mobile network

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20220523

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
RAP3 Party data changed (applicant data changed or rights of an application transferred)

Owner name: STELLANTIS AUTO SAS