EP1468416B1 - Method for qualitative evaluation of a digital audio signal - Google Patents
Method for qualitative evaluation of a digital audio signal Download PDFInfo
- Publication number
- EP1468416B1 EP1468416B1 EP03715043.0A EP03715043A EP1468416B1 EP 1468416 B1 EP1468416 B1 EP 1468416B1 EP 03715043 A EP03715043 A EP 03715043A EP 1468416 B1 EP1468416 B1 EP 1468416B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- signal
- audio signal
- quality
- digital
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 78
- 230000005236 sound signal Effects 0.000 title claims description 43
- 238000011156 evaluation Methods 0.000 title description 5
- 239000013598 vector Substances 0.000 claims description 19
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 230000001955 cumulated effect Effects 0.000 claims 1
- 230000015556 catabolic process Effects 0.000 description 35
- 238000006731 degradation reaction Methods 0.000 description 35
- 238000005259 measurement Methods 0.000 description 29
- 230000005540 biological transmission Effects 0.000 description 24
- 238000004364 calculation method Methods 0.000 description 24
- 238000001228 spectrum Methods 0.000 description 23
- 230000000694 effects Effects 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000001514 detection method Methods 0.000 description 12
- 230000006735 deficit Effects 0.000 description 11
- 230000005284 excitation Effects 0.000 description 11
- 230000008901 benefit Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 230000000873 masking effect Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 5
- 235000021186 dishes Nutrition 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000007430 reference method Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 210000000883 ear external Anatomy 0.000 description 2
- 210000000959 ear middle Anatomy 0.000 description 2
- 235000021183 entrée Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 208000018672 Dilatation Diseases 0.000 description 1
- 241001644893 Entandrophragma utile Species 0.000 description 1
- 241000861223 Issus Species 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002513 implantation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Definitions
- the present invention relates to a method for evaluating a digital audio signal, in particular a digitally transmitted signal and / or a digital signal to which digital coding has been applied, in particular with rate reduction and / or decoding.
- a digitally transmitted signal may be an autonomous audio signal (broadcast) or an audio signal that accompanies a program such as an audiovisual program.
- the first (“complete reference”) directly compares the original signal to the degraded signal (after coding, broadcasting, multiplexing, ...), the second only compares parameters extracted from two signals (called reduced reference).
- reduced reference the defects generated by the diffusion chain are detected using their main known characteristics.
- This last class makes it possible to overcome the constraints related to the use of the reference signal. In all other cases, the reference must be transmitted instead of comparison then perfectly synchronized with the degraded signal. This makes the system complex and more expensive.
- Degradations due to transmission errors significantly reduce the quality of the signal. They appear during the broadcast, a MPEG digital stream for example or during broadcasting, including radio, on the Internet.
- the fully referenced methods for which the signal to be evaluated is compared to the reference signal correspond to conventional techniques used to estimate the quality of audio coders for example. Their general principle is based on the calculation, through a perceptual model of hearing, of an internal representation of the original signal and of the degraded signal, then on a comparison of these two internal representations. Such a method is described in the article of John G. BEERENDS and JAN A. STEMERDINK entitled "A Perceptual Audio Quality Measure Based on a Psychoacoustic Sound Representation", published in "Journal of Audio Engineering Society," Vol. 12, December 1992, pages 963 to 978 .
- Output-Based Objective Speech Quality is the most accomplished non-reference technique. This method of estimating the quality of a speech signal only, without a reference signal, is based on the calculation of perceptual parameters representing the content of the signal, gathered into a vector. These vectors, calculated on non-degraded signals, will constitute a reference base. The quality will be estimated by comparing the same parameters extracted from the degraded signals with the vectors of the reference base.
- the main method using neural networks is OSSQAR (Objective Scaling of Sound Quality and Reproduction). The general principle of this method is to use an auditory model in conjunction with a neural network.
- the network is trained to predict the subjective quality of a signal from its perceptual representation calculated by the hearing model, to simulate the phenomena of psychoacoustics. It should be noted that the results obtained by these methods are much better when the signals are part of the learning base or at least when they have similar characteristics.
- Such methods are therefore not suitable for evaluating the quality of any signals, for example the audio signals of a radio or TV program.
- the reference signal must be available at the different points of comparison. Also, to be able to use a method with complete reference, the only possibility is to transmit the reference, without error, to the points of comparison, then to synchronize it perfectly. For reasons of spectrum congestion and therefore of cost, these techniques with complete reference are not applicable in practice, because they would require the use of a second transparent transmission path.
- Non-reference methods allow to obtain good results but only in the case of signals with characteristics known and modeled during the learning phase. Non-reference methods therefore work poorly on any signal.
- the present invention provides a method in which the indicators are simpler and can be calculated in real time and in continuous time, and require a significantly lower bit rate. Degradations that can only modify a few samples, while degrading the quality significantly, the proposed method allows the entire audio stream to be analyzed.
- the method according to the invention makes it possible to reliably estimate the quality of an audio signal having passed through a digital type transmission or coding. Indeed, the disturbances that the transmission channels undergo can induce the appearance of errors on the transmitted data; these errors result in impairments in the final audio signal.
- the proposed technological approach is to perform a measurement on the audio signal at the input and another at the output channel or any other system to be studied. A comparison between these measures makes it possible to ensure the "transparency" of the transmission channel and to evaluate the importance of the introduced impairments.
- the proposed approach allows a reliable estimation of the introduced degradations. It also makes it possible to compensate for a lack of a reference signal. This method makes it possible to reduce the reference flow required for quality estimation in the case of measurements with reduced reference, and the number of parameters to be used in the case of measurements without reference.
- the invention thus relates to a method for evaluating a digital audio signal according to claim 1,
- the digital audio signal to be evaluated may be a signal which has been digitally transmitted and / or which has been subjected to digital coding, especially to rate reduction, from a digital reference signal.
- the quality indicator vector may be constituted by said minimum value, or else by a binary value resulting from the comparison of said minimum value with a given threshold.
- the method can be characterized in that it implements the calculation of a quality score by determining a cumulative time interval during which said minimum value is lower than a given threshold and / or by determining the number of times per second where said minimum value is below a given threshold or in that said minimum values are generated for both the reference audio signal and the audio signal to be evaluated and that a quality vector is generated comparing the corresponding minimum values of the reference audio signal and the audio signal to be evaluated, for example by calculating the difference or the ratio between said minimum values.
- the audibility of these defects is also related to the type of element assigned in the frame, for example MPEG, and to its audio content.
- the quality can be estimated in a binary way: either the signal has not been degraded and the quality will depend on the initial coding used, or errors have been introduced and significant degradations appear.
- the estimation of the quality can then be done by methods without reference, by accounting for the degradations detected on regular time intervals of the order for example of the second. Subjective tests have indeed made it possible to obtain a reliable estimate of perceived quality, based on the number and length of interruptions linked to impulse-type impairments in a signal.
- the proposed method makes it possible to reduce the flow necessary for the transport of the reference. This allows the use of reserved lanes at relatively low flow. These measurements make it possible to detect degradations other than those due to transmission errors.
- the present invention allows a reduction of the flow rate in the case of measurements with reduced reference and, by the addition of simple measurements without reference, to conserve measurements on the important degradations in the case of a loss of the reference, for example, by locally generating a vector that simply characterizes the degradations, and that could therefore easily be processed and transmitted to a control installation, including centralized.
- Measurements carried out along the chain and at various points in the network inform the system of monitoring and management of the broadcast in digital television, on its overall performance.
- the measurements of the signal degradations inform the broadcast operator of the quality of service delivered.
- the invention makes it possible to overcome a lack of a reference signal.
- the method defines measurements for the characteristic digital defects to be sought.
- the proposed approach allows an estimation of the impairments introduced on any signal, and reliably and this approach can be implemented both at the scale of a transmission network and locally on an equipment.
- the calculation complexity according to the method is low, and the indicator obtained represents a small amount of data compared to the digital audio stream.
- the method can be applied indifferently to purely digital signals or to signals having undergone, after transmission, a digital to analog and then an analogue to digital conversion.
- the principle of objective perceptual measurements is based on the transformation of the physical representation (sound pressure, level, time and frequency) into the psychoacoustic representation (sound strength, masking level, time and critical bands or barks) of two signals (the reference signal and the signal to be evaluated) in order to compare them.
- This transformation takes place through a modeling of the human auditory apparatus (generally, this modeling consists of a spectral analysis in the field of Barks followed by the phenomena of spreading).
- a distance can then be calculated between the psychoacoustic representations of the two signals, a distance that can be related to the quality of the signal to be evaluated (the lower the distance, the closer the signal to be evaluated is to the original signal and the better is its quality ).
- the first method implements a parameter called "Perceptual Account Gap".
- the outer and middle ear attenuation filter is applied to the power spectral density, obtained from the signal spectrum. This filter also takes into account the absolute threshold of hearing.
- the notion of critical bands is modeled by a transformation of the frequency scale into a basilar scale.
- the next step is the calculation of the individual excitations to account for masking phenomena, thanks to the frequency spreading function in the basal scale and a nonlinear addition.
- the last step allows to obtain the loudness compressed, by a function power, to model the nonlinear sensitivity in frequency of the ear, by a histogram comprising the 109 basilar components.
- the counts of the obtained histogram are then grouped into three classes. This vectorization makes it possible to obtain a visual representation of the evolution of the structure of the signals. This also makes it possible to obtain a simple and concise characterization of the signal and thus to have a particularly interesting reference parameter.
- a point (X, Y) constituting a vector is thus obtained for each time window of the signal, which corresponds to the transmission of two values per window of for example 1024 bits, ie a bit rate of 3 kbits / s for a sampled audio signal. at 48 kHz.
- the associated representation is thus a trajectory parameterized by time, as shown in FIG. Figure 3 .
- the (Euclidean) distance between the reference signal and the degraded signal is then calculated.
- the distance between the points makes it possible to estimate the importance of the impairments introduced between the reference signal and the degraded signal. This distance can be considered as a perceptual distance because of the use of psychoacoustic models.
- a quality score for a signal of several seconds it is possible to calculate an overall measurement of the difference between the two signals.
- several metrics can be used. These can be of diffuse type (average of the distances between the vertices, intercepted area, ...), local (maximum, minimum distances between vertices, %) and depend on the position in the triangle.
- the main advantage of the parameter comes from the fact that psycho-acoustic phenomena are taken into account without increasing the flow rate. necessary to transfer the reference. This reduces the reference to 2 values for 1024 signal samples (3 kbit / s).
- the second method implements autoregressive modeling of the signal.
- the general principle of linear prediction is to model the signal as a combination of its past values.
- the idea is to calculate the N coefficients of a prediction filter by an autoregressive modeling (any pole). With this adaptive filter, it is possible to obtain a predicted signal from the actual signal.
- the prediction errors or residuals are calculated by difference between these two signals.
- the presence and amount of noise in a signal can be determined by analyzing these residues.
- the reference to be transmitted corresponds to the maximum of the residues over a time window of given size. It is indeed not interesting to transmit all the residues if the rate of the reference wants to be reduced.
- the comparison consists of a simple calculation of the distance between the maxima of the reference and the degraded signal, for example by difference.
- the third method implements an autoregressive modeling of the basilar excitation.
- this method makes it possible to take into account the phenomena of psychoacoustics, in order to obtain an evaluation of perceived quality. For that, the calculation of the parameter goes through a modeling of various principles of the hearing.
- a linear prediction models the signal as a combination of its past values. Residue analysis (or prediction errors) is used to determine and estimate the presence of noise in a signal.
- the major drawback when using these techniques is the fact that there is no consideration of the principles of psychoacoustics. Thus, it is not possible to estimate the amount of noise actually perceived.
- the process follows the general principle of classical linear prediction. It also incorporates the phenomena of psychoacoustics to adapt to the non-linear sensitivity frequency (loudness) and intensity (pitch) of the human ear.
- the spectrum of the signal is modified by means of an auditory model before calculating the coefficients of the linear prediction by an autoregressive modeling (any pole).
- the coefficients thus obtained make it possible to model the signal in a simple way while taking into account psychoacoustics. It is these prediction coefficients that will be transmitted and will serve as a reference when comparing with the degraded signal.
- the modeling of psychoacoustic phenomena makes it possible to obtain 24 basilar components.
- the order N of the prediction filter is 32. From these, 32 coefficients of the autocorrelation are estimated, which gives 32 prediction coefficients of which only 5 to 10 coefficients are conserved as the indicator vector of quality, for example the first 5 to 10 coefficients.
- the main advantage of the parameter comes from taking into account the phenomena of psychoacoustics. To do this, it was necessary to increase the rate necessary to transfer the reference to 5 or 10 values for 1024 signal samples (21 ms for an audio signal sampled at 48 kHz), ie a flow rate of 7.5 to 15 kbit / s.
- the first of these methods implements a detection of dishes in the activity of the signal.
- the concept of activity which can be approximated by a derivation operation in the audio signal, is used to identify breaks and interruptions in the time signal.
- the first step of calculating the parameter corresponds to the estimation of the temporal activity of the signal.
- the second derivative operator is used. It makes it possible to have a sufficiently precise estimate of the activity and requires only very few calculations.
- the comparison serves only to confirm the presence of the degradations. No more confusion is possible between the zones of silence and the zones of weak activity of the signal. Using the parameter without reference nevertheless makes it possible to identify the degradations.
- the next step is therefore to use correspondence curves from the binary parameter. These curves make it possible to obtain a grade of quality from the accumulated length and the number of impulse degradations detected per second. These curves are based on subjective tests. Different curves can be established depending on the type of audio signals (mainly speech or music). Once the estimate is obtained, it is also possible to use a filter simulating the response of a panelist. This makes it possible to take into account the dynamic effect of the votes and the reaction time to the degradations.
- the parameter can be summarized according to the following schema Figure 7 .
- the main advantage of the parameter is the possibility of making measurements without reference. Another interesting point is the bit rate needed to transfer the reference. This allows to reduce the reference to 1 real number is a rate of 1.5 kbits / s (or even 1 bit in case of thresholding or a bit rate of 47 bits / s) for 1024 samples of signal. It should also be noted that the algorithms are very simple and of reduced complexity, which allows its implementation in parallel with other parameters.
- the second of these methods which does not correspond to the definition of the invention according to claim 1, implements peak detection of the activity.
- This parameter is based on signal activity. It detects stalls, breaks, cuts of a portion of the audio signal and aberrant samples by looking for peaks in the signal activity.
- the ratio between the value measured on the reference and that obtained on the degraded signal allows the detection of degradations. It is possible to detect areas where activity has been greatly reduced by choosing the maximum ratio and its inverse.
- d t max ActTemp d t ActTemp r t ActTemp r t ActTemp d t
- ActTemp r (t) and ActTemp d (t) are respectively the parameter calculated on the reference and on the degraded signal.
- thresholding In the case where the reference is not available, it is possible to use thresholding to detect whether the parameter is greater than a threshold S ', which indicates the presence of impairments. To avoid false detections due to impulse signals (attacks, percussions, ...), the threshold must have a fairly large value, which may lead to non-detections.
- the use of the correspondence curves is possible to estimate a perceptual quality.
- the method consists in integrating the degradations detected by this parameter, to the others found by the preceding parameter for example, and thus obtaining an overall perceptual estimate.
- the advantage of the parameter lies in the possibility of making detections without reference.
- the first step in calculating these parameters corresponds to the estimation of the spectrum of the signal.
- MinSpe min x i for 1 ⁇ i ⁇ NOT with x i the N components of the X spectrum in dB (by distance calculation).
- d t max min i ⁇ NOT x d , i t - max k ⁇ M min k i ⁇ NOT x r , i t , 0
- x r, i is the ith of the N components of the spectrum obtained on the reference
- x d, i is the ith of the N components of the spectrum obtained on the degraded signal
- min k the k th of the M minima of the block considered.
- bit rate needed to transfer the reference This allows to reduce the reference to 1 real number and even 1 integer, ie a rate of at most 1.5 kbits / s for N (for example 1024) signal samples.
- N for example 1024
- This parameter is calculated in the same way on the reference and on the degraded signal. By comparison it is then possible to estimate the level of white noise inserted, and consequently the damage.
- the statistical flattening coefficient called "kurtosis” or “concentration” was used.
- the estimate is made from the central moments of order 2 and 4. They make it possible to estimate the shape of the spectrum with respect to a normal distribution in the statistical sense of the term.
- the calculation corresponds to the ratio between the centered moment of order 4 and the centered moment of order 2 (variance) squared of the coefficients of the spectrum.
- the higher the value obtained the more the signal is concentrated and the less noise there is in the signal. This is calculated on the reference and on the degraded signal. By comparison, the level of white noise inserted is estimated.
- the reference audio signal corresponds to the signal at the input of the broadcast network.
- the reference parameters are calculated on this signal and then transmitted via a specific data channel to the desired measurement point. It is at this point is calculated the same parameters necessary for the comparison for the establishment of measurements with reduced reference. Measurements without reference are also calculated. In the case where the reference parameters are not available (not present, erroneous, ...) these measurements are sufficient to detect the most important errors.
- the dotted subsystems of the Figure 11 are no longer used.
- the data channel used to carry the reference parameters may be the network itself, as well as returning the estimated ratings to the monitoring center.
- the reference signal corresponds to the signal sent by the server, and the degraded signal is that decoded at the chosen measurement point. This can for example be used to select the most appropriate server based on the connection location by accessing the data of a monitoring center.
- the diagram ( Figure 12 ) illustrates this embodiment in the case where the reference parameters are sent by the network and where the notes obtained use a specific transmission channel.
- a method according to the invention is applicable whenever it is necessary to identify defects on an audio signal that has been transmitted by any broadcast network (cable, satellite, terrestrial, Internet, DVB, DAB, .. .).
- the proposed method exploits two classes of methods: techniques with reduced reference and those without reference. It is particularly interesting when the rate available for the transmission of the reference is limited.
- this invention is applicable for operational purposes for metrology equipment and for supervisory systems of audio signal distribution networks.
- One of its advantageous characteristics lies in the combination of measurements made with and without reference.
- this invention corresponds to the requirements imposed in the quality of service management systems.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
La présente invention a pour objet un procédé d'évaluation d'un signal audio numérique, notamment un signal transmis numériquement et/ou un signal numérique auquel a été appliqué un codage numérique, en particulier avec réduction de débit et/ou un décodage. Un signal transmis numériquement peut être un signal audio autonome (radiodiffusion) ou bien d'un signal audio qui accompagne un programme tel qu'un programme audiovisuel.The present invention relates to a method for evaluating a digital audio signal, in particular a digitally transmitted signal and / or a digital signal to which digital coding has been applied, in particular with rate reduction and / or decoding. A digitally transmitted signal may be an autonomous audio signal (broadcast) or an audio signal that accompanies a program such as an audiovisual program.
Le domaine des radiocommunications numériques et de la radiodiffusion est en pleine expansion, notamment avec l'apparition de la télévision numérique et des radiotéléphones. De nouveaux instruments doivent ainsi être développés pour mesurer la qualité de tous les systèmes nécessaires à la mise en oeuvre de cette technologie, et ainsi pouvoir assurer une qualité de service.The field of digital radiocommunications and broadcasting is expanding, particularly with the advent of digital television and radio telephones. New instruments must be developed to measure the quality of all the systems needed to implement this technology, and thus ensure quality of service.
C'est dans ce but que sont utilisés les tests subjectifs. Ces tests permettent de juger la qualité de signaux sonores en les faisant écouter par des auditeurs, experts ou novices. Cette méthode est longue et coûteuse car les conditions à respecter lors de ces tests sont nombreuses et strictes (choix des panélistes, conditions d'écoute, séquences, chronologie des tests, etc...). Elle permet néanmoins de constituer des bases de données de signaux de référence avec les notes qui leur ont été attribuées. Ce sont ces tests qui permettent d'obtenir les notes "MOS" (Mean Opinion Score), notes qui sont reconnues comme étant la référence en matière d'estimation de la qualité.It is for this purpose that subjective tests are used. These tests make it possible to judge the quality of sound signals by making them listen by auditors, experts or novices. This method is long and expensive because the conditions to be met during these tests are numerous and strict (choice of panelists, listening conditions, sequences, chronology of tests, etc ...). Nevertheless, it makes it possible to build databases of reference signals with the notes that have been assigned to them. It is these tests that make it possible to obtain Mean Opinion Score (MOS) ratings, which are recognized as the benchmark for quality estimation.
Pour essayer de réduire au minimum le nombre de ces essais subjectifs, de nombreuses études ont été réalisées sur le système d'audition humain. A partir de là, des modélisations de l'oreille et des phénomènes psychoacoustiques ont été développées, ce qui a permis d'analyser puis estimer la qualité des signaux sonores par des méthodes objectives. La qualité mesurée étant celle perçue par l'oreille humaine, elle est nommée qualité perceptuelle objective.To try to minimize the number of these subjective tests, many studies have been done on the human hearing system. From then on, ear modeling and psychoacoustic phenomena were developed, which allowed the analysis and estimation of sound signal quality by objective methods. The measured quality being that perceived by the human ear, it is named objective perceptual quality.
Il est possible de différencier trois classes de méthodes de qualification objective : La première ("référence complète") compare directement le signal original au signal dégradé (après codage, diffusion, multiplexage,...), la seconde compare uniquement des paramètres extraits des deux signaux (nommés référence réduite). Dans la troisième, les défauts générés par la chaîne de diffusion sont détectés à l'aide de leurs principales caractéristiques connues. Cette dernière classe permet de s'affranchir des contraintes liées à l'utilisation du signal de référence. En effet, dans tous les autres cas, la référence doit être transmise au lieu de comparaison puis parfaitement synchronisée avec le signal dégradé. Cela rend le système complexe et plus coûteux.It is possible to differentiate three classes of objective qualification methods: The first ("complete reference") directly compares the original signal to the degraded signal (after coding, broadcasting, multiplexing, ...), the second only compares parameters extracted from two signals (called reduced reference). In the third, the defects generated by the diffusion chain are detected using their main known characteristics. This last class makes it possible to overcome the constraints related to the use of the reference signal. In all other cases, the reference must be transmitted instead of comparison then perfectly synchronized with the degraded signal. This makes the system complex and more expensive.
Les dégradations dues aux erreurs de transmission diminuent de manière importante la qualité du signal. Elles apparaissent lors de la diffusion, d'un flux numérique MPEG par exemple ou lors de la diffusion, notamment de radio, sur Internet.Degradations due to transmission errors significantly reduce the quality of the signal. They appear during the broadcast, a MPEG digital stream for example or during broadcasting, including radio, on the Internet.
Dans un tel contexte, il est souhaitable de disposer d'un procédé qui permette de mesurer objectivement la qualité d'un signal audio après diffusion, sans utiliser de signal de référence et/ou en utilisant une référence réduite. En effet, seules ces techniques sont adaptées à la surveillance d'un réseau de diffusion par exemple où plusieurs points de mesure distants les uns des autres peuvent être nécessaires. Il est également intéressant de profiter de la simplicité relative d'un tel procédé pour mesurer la qualité d'un signal audio numérique transmis ou non, qui a été soumis à un codage numérique, notamment à réduction de débit, et/ou à un décodage.In such a context, it is desirable to have a method that makes it possible objectively to measure the quality of an audio signal after broadcasting, without using a reference signal and / or by using a reduced reference. Indeed, only these techniques are suitable for monitoring a broadcast network for example where several measuring points distant from each other may be necessary. It is also interesting to take advantage of the relative simplicity of such a method for measuring the quality of a digital audio signal transmitted or not, which has been subjected to digital coding, in particular rate reduction, and / or decoding. .
Le nombre de méthodes de qualitométrie audio développées est très variable selon la classe considérée. En effet, un grand nombre de méthodes avec référence complète ont été développées. Quelques méthodes seulement ont été mises au point sans référence ou avec référence réduite.The number of audio quality methods developed is very variable depending on the class considered. Indeed, a large number of fully referenced methods have been developed. Only a few methods have been developed without reference or with reduced reference.
Les méthodes avec référence complète pour lesquelles le signal à évaluer est comparé au signal de référence correspondent aux techniques classiques utilisées pour estimer la qualité des codeurs audio par exemple. Leur principe général se base sur le calcul, par l'intermédiaire d'un modèle perceptuel d'audition, d'une représentation interne du signal original et du signal dégradé puis, sur une comparaison de ces deux représentations internes. Une telle méthode est décrite dans l'article de
Ces modèles d'audition sont établis à partir d'expériences de masquage, afin d'obtenir une représentation qui soit la plus fidèle possible, et doivent permettre de prévoir si les détériorations seront audibles ou non. Toutes les dégradations sur un signal ne sont pas audibles ni gênantes. Ces modèles perceptuels avec référence se basent sur le schéma de la
L'intérêt majeur de ces techniques est de pouvoir détecter de très faibles dégradations mais, il faut bien avoir à l'esprit qu'elles sont destinées à étudier l'influence d'un codage. Les mesures obtenues sont relatives : seule la différence est prise en compte dans ce type de mesures. Dans le cas d'un codeur de très bonne qualité, un signal comportant des dégradations importantes sera codé puis décodé de façon presque transparente, et donc, la note attribuée sera très haute. De plus, pour un signal qui aurait été modifié (égalisé, coloré, ...) entre le calcul de la référence et la comparaison, la note pourra être faible même si les deux signaux sont de très bonne qualité perceptuelle.The major interest of these techniques is to be able to detect very small degradations but, it must be borne in mind that they are intended to study the influence of a coding. The measurements obtained are relative: only the difference is taken into account in this type of measurements. In the case of an encoder of very good quality, a signal with significant degradation will be coded and then decoded almost transparently, and therefore, the score will be very high. In addition, for a signal that has been modified (equalized, colored, ...) between the calculation of the reference and the comparison, the note may be low even if the two signals are of very good perceptual quality.
En ce qui concerne les méthodes sans référence, celles-ci restent très peu nombreuses. La mesure OBQ (Output-Based Objective Speech Quality) est la plus aboutie des techniques sans référence. Cette méthode d'estimation de la qualité, d'un signal de parole uniquement, sans signal de référence, se base sur le calcul de paramètres perceptuels représentant le contenu du signal, rassemblés en un vecteur. Ces vecteurs, calculés sur des signaux non dégradés, vont constituer une base de référence. La qualité sera estimée en comparant les mêmes paramètres, extraits des signaux dégradés, aux vecteurs de la base de référence. La principale méthode utilisant les réseaux de neurones est la mesure OSSQAR (Objective Scaling of Sound Quality And Reproduction). Le principe général de cette méthode est d'utiliser un modèle d'audition conjointement à un réseau de neurones. Le réseau est entraîné à prédire la qualité subjective d'un signal à partir de sa représentation perceptuelle calculée par le modèle d'audition, pour simuler les phénomènes de la psychoacoustique. Il est à noter que les résultats obtenus par ces méthodes, sont bien meilleurs quand les signaux font partie de la base d'apprentissage ou tout du moins quand ils ont des caractéristiques proches.Regarding methods without reference, these remain very few. Output-Based Objective Speech Quality (OBQ) is the most accomplished non-reference technique. This method of estimating the quality of a speech signal only, without a reference signal, is based on the calculation of perceptual parameters representing the content of the signal, gathered into a vector. These vectors, calculated on non-degraded signals, will constitute a reference base. The quality will be estimated by comparing the same parameters extracted from the degraded signals with the vectors of the reference base. The main method using neural networks is OSSQAR (Objective Scaling of Sound Quality and Reproduction). The general principle of this method is to use an auditory model in conjunction with a neural network. The network is trained to predict the subjective quality of a signal from its perceptual representation calculated by the hearing model, to simulate the phenomena of psychoacoustics. It should be noted that the results obtained by these methods are much better when the signals are part of the learning base or at least when they have similar characteristics.
De telles méthodes ne sont donc pas adaptées à l'évaluation de la qualité de signaux quelconques, par exemple les signaux audio d'une émission de radio ou de TV.Such methods are therefore not suitable for evaluating the quality of any signals, for example the audio signals of a radio or TV program.
Comme indiqué ci-dessus, la plupart des algorithmes de mesures perceptuelles objectives avec référence complète fonctionnent suivant un principe identique : il s'agit de comparer le signal sonore dégradé au signal original (signal avant transmission et/ou codage et/ou décodage, appelé signal de référence). Ces algorithmes nécessitent donc d'avoir un signal de référence, qui soit de plus synchronisé très précisément avec le signal à tester. Ces conditions peuvent seulement être remplies en simulation ou lors de tests de codeurs et autres systèmes "compacts" ou non répartis géopraphiquement ; par contre, cela est très différent lors de la réception d'un signal diffusé à partir d'antennes d'émission A1 et de réception A2 (
Le signal de référence doit être disponible aux différents points de comparaison. Aussi, pour pouvoir utiliser une méthode avec référence complète, la seule possibilité est de transmettre la référence, sans erreur, jusqu'aux points de comparaison, puis de la synchroniser parfaitement. Pour des raisons d'encombrement du spectre et donc de coût, ces techniques avec référence complète ne sont pas applicables en pratique, car elles nécessiteraient l'utilisation d'une deuxième voie de transmission transparente.The reference signal must be available at the different points of comparison. Also, to be able to use a method with complete reference, the only possibility is to transmit the reference, without error, to the points of comparison, then to synchronize it perfectly. For reasons of spectrum congestion and therefore of cost, these techniques with complete reference are not applicable in practice, because they would require the use of a second transparent transmission path.
Les méthodes sans référence proposées permettent d'obtenir de bons résultats mais seulement dans le cas de signaux aux caractéristiques connues et modélisées lors de la phase d'apprentissage. Les méthodes sans référence fonctionnent donc mal sur un signal quelconque.The non-reference methods proposed allow to obtain good results but only in the case of signals with characteristics known and modeled during the learning phase. Non-reference methods therefore work poorly on any signal.
Il a été suggéré d'utiliser une référence dite "réduite" dans laquelle le signal audio de référence est caractérisé par un ou plusieurs nombres. Un tel procédé a été décrit dans la Demande de Brevet français
Dans un article intitulé
La présente invention propose un procédé selon lequel les indicateurs sont plus simples et peuvent être calculés en temps réel et en temps continu, et demandent un débit binaire nettement moins élevé. Les dégradations pouvant ne modifier que quelques échantillons, tout en dégradant la qualité de manière importante, le procédé proposé permet que tout le flux audio soit analysé.The present invention provides a method in which the indicators are simpler and can be calculated in real time and in continuous time, and require a significantly lower bit rate. Degradations that can only modify a few samples, while degrading the quality significantly, the proposed method allows the entire audio stream to be analyzed.
Le procédé selon l'invention permet une estimation fiable de la qualité d'un signal audio ayant transité par une transmission ou un codage de type numérique. En effet, les perturbations que subissent les canaux de transmission peuvent induire l'apparition d'erreurs sur les données transmises ; ces erreurs se traduisent par des dégradations au niveau du signal audio final.The method according to the invention makes it possible to reliably estimate the quality of an audio signal having passed through a digital type transmission or coding. Indeed, the disturbances that the transmission channels undergo can induce the appearance of errors on the transmitted data; these errors result in impairments in the final audio signal.
L'approche technologique proposée consiste à effectuer une mesure sur le signal audio, à l'entrée et une autre à la sortie la chaîne ou tout autre système à étudier. Une comparaison entre ces mesures permet de s'assurer de la "transparence" du canal de transmission et d'évaluer l'importance des dégradations introduites.The proposed technological approach is to perform a measurement on the audio signal at the input and another at the output channel or any other system to be studied. A comparison between these measures makes it possible to ensure the "transparency" of the transmission channel and to evaluate the importance of the introduced impairments.
Utilisée conjointement ou non avec des méthodes sans référence, détectant les dégradations en se basant sur la signature des caractéristiques des défauts les plus importants à rechercher, l'approche proposée permet une estimation fiable des dégradations introduites. Elle permet en outre de palier à un manque de signal de référence. Cette méthode permet de réduire le débit de référence nécessaire pour l'estimation de la qualité dans le cas des mesures avec référence réduite, et le nombre de paramètres à utiliser dans le cas des mesures sans référence.Used together or not with non-reference methods, detecting degradations based on the signature of the characteristics of the most important faults to be searched for, the proposed approach allows a reliable estimation of the introduced degradations. It also makes it possible to compensate for a lack of a reference signal. This method makes it possible to reduce the reference flow required for quality estimation in the case of measurements with reduced reference, and the number of parameters to be used in the case of measurements without reference.
L'invention concerne ainsi un procédé d'évaluation d'un signal audio numérique selon la revendication 1,The invention thus relates to a method for evaluating a digital audio signal according to
Le signal audio numérique à évaluer peut être un signal qui a été transmis numériquement et/ou qui a été soumis à un codage numérique, notamment à réduction de débit, à partir d'un signal numérique de référence.The digital audio signal to be evaluated may be a signal which has been digitally transmitted and / or which has been subjected to digital coding, especially to rate reduction, from a digital reference signal.
Le vecteur indicateur de qualité peut être constitué par ladite valeur minimale, ou bien encore par une valeur binaire résultant de la comparaison de ladite valeur minimale avec un seuil donné. Egalement, le procédé peut être caractérisé en ce qu'il met en oeuvre le calcul d'une note de qualité en déterminant un intervalle de temps cumulé pendant lequel ladite valeur minimale est inférieure à un seuil donné et/ou en déterminant le nombre de fois par seconde où ladite valeur minimale est inférieure à un seuil donné ou bien encore en ce que lesdites valeurs minimales sont générées à la fois pour le signal audio de référence et pour le signal audio à évaluer et en ce qu'un vecteur de qualité est généré par comparaison entre les valeurs minimales correspondantes du signal audio de référence et du signal audio à évaluer, par exemple en calculant la différence ou le rapport entre lesdites valeurs minimales.The quality indicator vector may be constituted by said minimum value, or else by a binary value resulting from the comparison of said minimum value with a given threshold. Also, the method can be characterized in that it implements the calculation of a quality score by determining a cumulative time interval during which said minimum value is lower than a given threshold and / or by determining the number of times per second where said minimum value is below a given threshold or in that said minimum values are generated for both the reference audio signal and the audio signal to be evaluated and that a quality vector is generated comparing the corresponding minimum values of the reference audio signal and the audio signal to be evaluated, for example by calculating the difference or the ratio between said minimum values.
D'autres caractéristiques et avantages de l'invention apparaîtront mieux à la lecture de la description ci-après en liaison avec les dessins dans lesquels :
- la
figure 1 est un organigramme illustrant une évaluation de qualité à référence complète. - la
figure 2 illustre une transmission audio avec perte de qualité, - les
figures 3 à 6 et 8 à 10 illustrent des procédés d'évaluation alternatifs qui ne correspondent pas à la définition de l'invention selon la revendication 1. Le procédé d'évaluation selon l'invention est décrit en relation avec lafigure 7 , - et les
figures 11 et12 illustrent un système de qualitométrie audio mettant en oeuvre la présente invention.
- the
figure 1 is a flowchart illustrating a full reference quality assessment. - the
figure 2 illustrates an audio transmission with loss of quality, - the
Figures 3 to 6 and 8 to 10 illustrate alternative evaluation methods which do not correspond to the definition of the invention according toclaim 1. The evaluation method according to the invention is described in connection with thefigure 7 , - and the
figures 11 and12 illustrate an audio quality system embodying the present invention.
La gestion et la récupération des erreurs au décodage n'est pas normalisée. L'influence de ces erreurs sur la qualité perçue dépend donc du décodeur utilisé.Management and recovery of decoding errors is not standardized. The influence of these errors on the perceived quality therefore depends on the decoder used.
L'audibilité de ces défauts est également liée au type d'élément affecté dans la trame, par exemple MPEG, et à son contenu audio.The audibility of these defects is also related to the type of element assigned in the frame, for example MPEG, and to its audio content.
Dans le cas d'erreurs importantes dues à la transmission, la qualité du signal diminue fortement. Ces dégradations apparaissent lors de la diffusion, d'un flux numérique MPEG par exemple, et sont, la plupart du temps, de type impulsionnel. Elles peuvent également apparaître lors de la diffusion d'un flux audio sur le réseau Internet, ou lors d'un codage ou d'un décodage.In the case of significant errors due to transmission, the signal quality drops sharply. These impairments appear during the broadcast, an MPEG digital stream for example, and are, most of the time, impulse type. They may also appear when streaming an audio stream over the Internet, or when coding or decoding.
Pour ce type de défaut, la qualité peut être estimée de façon binaire : soit le signal n'a pas été dégradé et la qualité dépendra du codage initial utilisé, soit des erreurs ont été introduites et des dégradations importantes apparaissent.For this type of fault, the quality can be estimated in a binary way: either the signal has not been degraded and the quality will depend on the initial coding used, or errors have been introduced and significant degradations appear.
L'estimation de la qualité peut alors se faire par des méthodes sans référence, en comptabilisant les dégradations détectées sur des intervalles de temps réguliers de l'ordre par exemple de la seconde. Des essais subjectifs ont en effet permis d'obtenir une estimation fiable de la qualité perçue, à partir du nombre et de la longueur des interruptions liées à des dégradations de type impulsionnel dans un signal.The estimation of the quality can then be done by methods without reference, by accounting for the degradations detected on regular time intervals of the order for example of the second. Subjective tests have indeed made it possible to obtain a reliable estimate of perceived quality, based on the number and length of interruptions linked to impulse-type impairments in a signal.
Pour les mesures obtenues avec référence réduite, la méthode proposée permet de réduire le débit nécessaire au transport de la référence. Cela autorise l'utilisation de voies réservées au débit relativement limité. Ces mesures permettent de détecter des dégradations autres que les celles dues aux erreurs de transmission.For the measurements obtained with reduced reference, the proposed method makes it possible to reduce the flow necessary for the transport of the reference. This allows the use of reserved lanes at relatively low flow. These measurements make it possible to detect degradations other than those due to transmission errors.
Ainsi, la présente invention permet une réduction du débit dans le cas des mesures avec référence réduite et, de par l'ajout de mesures simples sans référence, de conserver des mesures sur les dégradations importantes dans le cas d'une perte de la référence par exemple, en générant localement un vecteur qui caractérise simplement les dégradations, et qui pourrait donc être facilement traité et transmis vers une installation de contrôle, notamment centralisée.Thus, the present invention allows a reduction of the flow rate in the case of measurements with reduced reference and, by the addition of simple measurements without reference, to conserve measurements on the important degradations in the case of a loss of the reference, for example, by locally generating a vector that simply characterizes the degradations, and that could therefore easily be processed and transmitted to a control installation, including centralized.
Les mesures effectuées le long de la chaîne et en divers points du réseau, informent le système de surveillance et de gestion de la diffusion en télévision numérique, sur ses performances globales. Les mesures des dégradations du signal informent l'opérateur de diffusion sur la qualité de service délivrée.Measurements carried out along the chain and at various points in the network, inform the system of monitoring and management of the broadcast in digital television, on its overall performance. The measurements of the signal degradations inform the broadcast operator of the quality of service delivered.
Le procédé se caractérise par deux modes de fonctionnement, complémentaires :
- Avec référence réduite. L'approche technologique proposée consiste à effectuer une mesure sur le signal audio, à l'entrée, et une autre à la sortie de la chaîne de transmission ou tout autre système à étudier (codeur, décodeur, etc...). Une comparaison entre ces mesures permet de s'assurer de la "transparence" de la chaîne ou du système et d'évaluer l'importance des dégradations introduites. A la différence de la technique antérieure :
- le procédé effectue une évaluation en temps réel et en temps continu.
- les mesures de référence à l'entrée de la chaîne représentent une quantité de données très faible par rapport aux données du signal audio, d'où sa classification en « référence réduite ».
- les données ou mesures de référence utilisées sont aussi bien une représentation réduite du contenu du signal, qu'une mesure de l'importance d'un type de dégradation.
- With reduced reference. The technological approach proposed is to measure the audio signal at the input and another at the output of the transmission chain or any other system to study (encoder, decoder, etc ...). A comparison between these measures makes it possible to ensure the "transparency" of the chain or the system and to evaluate the importance of the introduced impairments. Unlike the prior art:
- the method performs an evaluation in real time and in continuous time.
- the reference measurements at the input of the string represent a very small amount of data compared to the data of the audio signal, hence its classification as "reduced reference".
- the reference data or measurements used are both a reduced representation of the signal content and a measure of the importance of a type of degradation.
L'invention permet de palier à un manque de signal de référence. Pour cela, le procédé définit des mesures pour les défauts numériques caractéristiques à rechercher. A la différence de la technique antérieure, l'approche proposée permet une estimation des dégradations introduites sur un signal quelconque, et de manière fiable et cette approche peut être mise en oeuvre aussi bien à l'échelle d'un réseau de transmission que localement sur un équipement. En outre, la complexité de calcul selon le procédé est faible, et l'indicateur obtenu représente une quantité de données faible par rapport au flux numérique audio.The invention makes it possible to overcome a lack of a reference signal. For this, the method defines measurements for the characteristic digital defects to be sought. Unlike the prior art, the proposed approach allows an estimation of the impairments introduced on any signal, and reliably and this approach can be implemented both at the scale of a transmission network and locally on an equipment. In addition, the calculation complexity according to the method is low, and the indicator obtained represents a small amount of data compared to the digital audio stream.
Enfin, le procédé peut être appliqué indifféremment à des signaux purement numériques ou à des signaux ayant subi après transmission une conversion numérique vers analogique puis analogique vers numérique.Finally, the method can be applied indifferently to purely digital signals or to signals having undergone, after transmission, a digital to analog and then an analogue to digital conversion.
Les trois premiers procédés décrits ci-après sont du type dit "avec référence réduite". Ces procédés ne correspondent cependant pas à la définition de l'invention selon la revendication 1.The first three methods described below are of the type called "with reduced reference". These methods, however, do not correspond to the definition of the invention according to
Pour obtenir une plus grande précision de l'estimation de la qualité, certains des paramètres développés utilisent des modélisations perceptuelles : Le principe des mesures perceptuelles objectives se base sur la transformation de la représentation physique (pression acoustique, niveau, temps et fréquence) en la représentation psychoacoustique (force sonore, niveau de masquage, temps et bandes critiques ou barks) de deux signaux (le signal de référence et le signal à évaluer) afin de les comparer. Cette transformation s'opère grâce à une modélisation de l'appareil auditif humain (généralement, cette modélisation consiste en une analyse spectrale dans le domaine des Barks suivie des phénomènes d'étalement). Une distance peut alors être calculée entre les représentations psychoacoustiques des deux signaux, distance que l'on peut lier à la qualité du signal à évaluer (plus la distance est faible, plus le signal à évaluer est proche du signal original et meilleure est sa qualité).To obtain greater precision in the estimation of quality, some of the parameters developed use perceptual models: The principle of objective perceptual measurements is based on the transformation of the physical representation (sound pressure, level, time and frequency) into the psychoacoustic representation (sound strength, masking level, time and critical bands or barks) of two signals (the reference signal and the signal to be evaluated) in order to compare them. This transformation takes place through a modeling of the human auditory apparatus (generally, this modeling consists of a spectral analysis in the field of Barks followed by the phenomena of spreading). A distance can then be calculated between the psychoacoustic representations of the two signals, a distance that can be related to the quality of the signal to be evaluated (the lower the distance, the closer the signal to be evaluated is to the original signal and the better is its quality ).
Le premier procédé met en oeuvre un paramètre dénommé "Écart de Comptes Perceptuels".The first method implements a parameter called "Perceptual Account Gap".
Le calcul de ce paramètre se décompose en plusieurs étapes, nécessaires pour tenir compte de la psychoacoustique. Celles-ci sont appliquées sur le signal de référence et sur le signal dégradé. Ces étapes sont les suivantes :
- Fenêtrage du signal temporel en blocs puis, pour chacun des blocs, calcul de l'excitation induite par le signal en utilisant un modèle d'audition. Cette représentation des signaux tient compte des phénomènes de la psychoacoustique, et fournit un histogramme dont les comptes sont les valeurs des composantes basilaires. Cela permet de ne prendre en considération que les composantes audibles du signal et donc de se limiter à l'information utile. Pour obtenir cette excitation, les modélisations classiques peuvent être utilisées : atténuation de l'oreille externe et moyenne, intégration selon les bandes critiques et masquages fréquentiels. Les fenêtres temporelles choisies sont d'environ 42 ms (2048 points à 48 kHz) avec un recouvrement de 50%. Cela permet d'obtenir une résolution temporelle de l'ordre de 21 ms.
- Windowing of the temporal signal in blocks then, for each of the blocks, calculation of the excitation induced by the signal by using a model of hearing. This representation of the signals takes into account the phenomena of psychoacoustics, and provides a histogram whose accounts are the values of the basilar components. This allows to consider only the audible components of the signal and therefore to limit itself to the useful information. To achieve this excitement, classical modeling can be used: attenuation of the outer and middle ear, integration according to critical bands and frequency masking. The time windows chosen are approximately 42 ms (2048 points at 48 kHz) with a coverage of 50%. This makes it possible to obtain a temporal resolution of the order of 21 ms.
Plusieurs étapes sont nécessaires pour cette modélisation. Pour la première étape, le filtre d'atténuation de l'oreille externe et moyenne est appliqué à la densité spectrale de puissance, obtenue à partir du spectre du signal. Ce filtre prend également en compte le seuil absolu d'audition. La notion de bandes critiques est modélisée par une transformation de l'échelle fréquentielle en une échelle basilaire. L'étape suivante correspond au calcul des excitations individuelles pour tenir compte des phénomènes de masquage, grâce à la fonction d'étalement fréquentiel dans l'échelle basilaire et à une addition non linéaire. La dernière étape permet d'obtenir la sonie compressée, par une fonction puissance, pour modéliser la sensibilité non linéaire en fréquence de l'oreille, par un histogramme comportant les 109 composantes basilaires.Several steps are necessary for this modeling. For the first step, the outer and middle ear attenuation filter is applied to the power spectral density, obtained from the signal spectrum. This filter also takes into account the absolute threshold of hearing. The notion of critical bands is modeled by a transformation of the frequency scale into a basilar scale. The next step is the calculation of the individual excitations to account for masking phenomena, thanks to the frequency spreading function in the basal scale and a nonlinear addition. The last step allows to obtain the loudness compressed, by a function power, to model the nonlinear sensitivity in frequency of the ear, by a histogram comprising the 109 basilar components.
Les comptes de l'histogramme obtenu sont ensuite rassemblés en trois classes. Cette vectorisation permet d'obtenir une représentation visuelle de l'évolution de la structure des signaux. Cela permet également d'obtenir une caractérisation simple et concise du signal et donc de disposer d'un paramètre de référence particulièrement intéressant.The counts of the obtained histogram are then grouped into three classes. This vectorization makes it possible to obtain a visual representation of the evolution of the structure of the signals. This also makes it possible to obtain a simple and concise characterization of the signal and thus to have a particularly interesting reference parameter.
Plusieurs stratégies existent pour fixer les bornes de ces trois comptes : La plus simple est de séparer l'histogramme en trois zones de tailles égales. Ainsi, les 109 composantes basilaires, (ou les 24 composantes qui constituent l'excitation et en constituent une représentation simplifiée) représentent 24 Barks et peuvent être séparées aux indices suivants :
La deuxième stratégie prend en compte les zones de mise à l'échelle ("scaling") de Beerends. En effet une compensation du gain entre l'excitation du signal de référence et celle du signal à tester est effectuée par l'oreille, les bornes fixées sont alors les suivantes :
La trajectoire est ensuite représentée dans un triangle, nommé triangle des fréquences. Pour chaque bloc on obtient trois comptes C1, C2 et C3, donc deux coordonnées cartésiennes selon les formules suivantes :
- avec C1 : somme des excitations basilaires pour les hautes fréquences (au-dessus de S2)
- C2 : compte associé aux fréquences moyennes (composantes entre S1 et S2)
- et N = C1 + C2 + C3 : Somme totale des valeurs des composantes.
- with C 1 : sum of basilar excitations for high frequencies (above S 2 )
- C 2 : account associated with the average frequencies (components between S 1 and S 2 )
- and N = C 1 + C 2 + C 3 : Total sum of component values.
Un point (X, Y) constituant un vecteur est donc obtenu pour chaque fenêtre temporelle du signal, ce qui correspond à la transmission de deux valeurs par fenêtre de par exemple 1024 bits, soit un débit de 3 kbits/s pour un signal audio échantillonné à 48 kHz. Pour une séquence complète, la représentation associée est ainsi une trajectoire paramétrée par le temps, comme le montre la
On calcule ensuite de la distance (euclidienne) entre le signal de référence et le signal dégradé. Dans le cas d'une estimation de la qualité en continu, la distance entre les points permet d'estimer l'importance des dégradations introduites entre le signal de référence et le signal dégradé. Cette distance peut être considérée comme une distance perceptuelle du fait de l'utilisation des modèles de la psychoacoustique.The (Euclidean) distance between the reference signal and the degraded signal is then calculated. In the case of continuous quality estimation, the distance between the points makes it possible to estimate the importance of the impairments introduced between the reference signal and the degraded signal. This distance can be considered as a perceptual distance because of the use of psychoacoustic models.
Pour estimer une note de qualité pour un signal de plusieurs secondes, il est possible de calculer une mesure globale de la différence entre les deux signaux. Pour cela plusieurs métriques sont utilisables. Celles-ci peuvent être de type diffus (moyenne des distances entre les sommets, aire interceptée, ...), locale (maximum, minimum des distances entre sommets, ...) et dépendre de la position dans le triangle.To estimate a quality score for a signal of several seconds, it is possible to calculate an overall measurement of the difference between the two signals. For this, several metrics can be used. These can be of diffuse type (average of the distances between the vertices, intercepted area, ...), local (maximum, minimum distances between vertices, ...) and depend on the position in the triangle.
Il est également possible de prendre en compte les différences à peine perceptibles ("Just Noticeable Difference"). Ces seuils permettent de déterminer l'audibilité des différences qui sont apparues. Ils peuvent être modélisés par des zones de tolérance fonction de la position dans le triangle pour tenir compte de la variabilité des phénomènes de masquage.It is also possible to take into account the barely perceptible differences ("Just Noticeable Difference"). These thresholds make it possible to determine the audibility of the differences that have appeared. They can be modeled by tolerance zones depending on the position in the triangle to take into account the variability of masking phenomena.
Dans tous les cas, les deux trajectoires doivent être synchronisées au préalable.In all cases, the two trajectories must be synchronized in advance.
Le principe du calcul de ce paramètre comparatif peut être ainsi résumé par le schéma
Le principal avantage du paramètre provient du fait de la prise en compte des phénomènes de la psycho-acoustique sans pour autant augmenter le débit nécessaire au transfert de la référence. Celui-ci permet de réduire la référence à 2 valeurs pour 1024 échantillons de signal (3 kbits/s).The main advantage of the parameter comes from the fact that psycho-acoustic phenomena are taken into account without increasing the flow rate. necessary to transfer the reference. This reduces the reference to 2 values for 1024 signal samples (3 kbit / s).
Le deuxième procédé met en oeuvre une modélisation autorégressive du signal.The second method implements autoregressive modeling of the signal.
Le principe général de la prédiction linéaire est de modéliser le signal comme étant une combinaison de ses valeurs passées. L'idée est de calculer les N coefficients d'un filtre de prédiction par une modélisation autorégressive (tout pôle). Avec ce filtre adaptatif, il est possible d'obtenir un signal prédit à partir du signal réel. Les erreurs de prédiction ou résidus sont calculés par différence entre ces deux signaux. La présence et la quantité de bruit dans un signal peuvent être déterminées par l'analyse de ces résidus.The general principle of linear prediction is to model the signal as a combination of its past values. The idea is to calculate the N coefficients of a prediction filter by an autoregressive modeling (any pole). With this adaptive filter, it is possible to obtain a predicted signal from the actual signal. The prediction errors or residuals are calculated by difference between these two signals. The presence and amount of noise in a signal can be determined by analyzing these residues.
La comparaison des résidus obtenus sur le signal de référence et ceux calculés à partir du signal dégradé, et donc des niveaux de bruit, permet d'estimer l'importance des modifications et défauts insérés.The comparison of the residues obtained on the reference signal and those calculated from the degraded signal, and therefore of the noise levels, makes it possible to estimate the importance of the modifications and defects inserted.
La référence à transmettre correspond au maximum des résidus sur une fenêtre temporelle de taille donnée. Il n'est en effet pas intéressant de transmettre tous les résidus si le débit de la référence veut être réduit.The reference to be transmitted corresponds to the maximum of the residues over a time window of given size. It is indeed not interesting to transmit all the residues if the rate of the reference wants to be reduced.
Pour adapter les coefficients du filtre de prédiction, deux méthodes sont données ci-après à titre d'exemple :
- L'algorithme de LEVINSON-DURBIN qui est décrit par exemple dans l'ouvrage de
M. BELLANGER - Traitement numérique du signal - Théorie et pratique (MASSON éd. 1987) p. 393 à 395 - L'algorithme du gradient qui est décrit par exemple dans l'ouvrage précité de M. BELLANGER p. 371 et suivantes. Le principal inconvénient du paramètre précédent est la nécessité, dans le cas d'une implantation sur DSP, de stocker les N0 échantillons pour estimer l'autocorrélation, avoir les coefficients du filtre puis calculer les résidus. Ce second paramètre permet d'éviter cela en utilisant un autre algorithme permettant de calculer les coefficients du filtre : l'algorithme du gradient. Celui-ci utilise l'erreur commise pour mettre à jour les coefficients. Les coefficients du filtre sont modifiés dans la direction du gradient de l'erreur quadratique instantanée, avec le signal opposé.
- The LEVINSON-DURBIN algorithm, which is described, for example, in
M. BELLANGER - Digital Signal Processing - Theory and Practice (MASSON, 1987) p. 393 to 395 - The gradient algorithm which is described for example in the aforementioned work by M. BELLANGER p. 371 and following. The main disadvantage of the previous parameter is the need, in the case of an implementation on DSP, to store the N 0 samples to estimate the autocorrelation, to have the coefficients of the filter then to calculate the residues. This second parameter makes it possible to avoid this by using another algorithm making it possible to calculate the coefficients of the filter: the algorithm of the gradient. This uses the error made to update the coefficients. The Filter coefficients are changed in the direction of the gradient of the instantaneous squared error, with the opposite signal.
Une fois les résidus obtenus par différence entre le signal prédit et le signal réel, seul le maximum de leurs valeurs absolues, sur une fenêtre temporelle de taille donnée T, est conservé. Le vecteur référence à transmettre peut ainsi être réduite à un seul nombre.Once the residues obtained by difference between the predicted signal and the real signal, only the maximum of their absolute values, over a time window of given size T, is retained. The reference vector to be transmitted can thus be reduced to a single number.
Après transmission puis synchronisation, la comparaison consiste en un simple calcul de distance entre les maxima de la référence et du signal dégradé par exemple par différence.After transmission then synchronization, the comparison consists of a simple calculation of the distance between the maxima of the reference and the degraded signal, for example by difference.
La
- Le principal avantage des deux paramètres est le débit nécessaire au transfert de la référence. Celui-ci permet de réduire la référence à 1 nombre réel pour 1024 échantillons de signal.
- The main advantage of the two parameters is the bit rate needed to transfer the reference. This reduces the reference to 1 real number for 1024 signal samples.
Par contre, aucun modèle de la psychoacoustique n'est pris en compte.On the other hand, no model of psychoacoustics is taken into account.
Le troisième procédé met en oeuvre une modélisation autorégressive de l'excitation basilaire.The third method implements an autoregressive modeling of the basilar excitation.
Par rapport à la prédiction linéaire classique, cette méthode permet de prendre en compte les phénomènes de la psychoacoustique, afin d'obtenir une évaluation de la qualité perçue. Pour cela, le calcul du paramètre passe par une modélisation de divers principes de l'audition. Une prédiction linéaire modélise le signal comme étant une combinaison de ses valeurs passées. L'analyse des résidus (ou erreurs de prédiction) permet de déterminer et d'estimer la présence de bruit dans un signal. L'inconvénient majeur lors de l'utilisation de ces techniques est le fait qu'il n'y ait aucune prise en compte des principes de la psychoacoustique. Ainsi, il n'est pas possible d'estimer la quantité de bruit réellement perçue.Compared to classical linear prediction, this method makes it possible to take into account the phenomena of psychoacoustics, in order to obtain an evaluation of perceived quality. For that, the calculation of the parameter goes through a modeling of various principles of the hearing. A linear prediction models the signal as a combination of its past values. Residue analysis (or prediction errors) is used to determine and estimate the presence of noise in a signal. The major drawback when using these techniques is the fact that there is no consideration of the principles of psychoacoustics. Thus, it is not possible to estimate the amount of noise actually perceived.
Le procédé reprend le principe général de la prédiction linéaire classique. Elle y intègre en plus les phénomènes de la psychoacoustique pour l'adapter à la sensibilité non linéaire en fréquence (sonie) et en intensité (tonie) de l'oreille humaine.The process follows the general principle of classical linear prediction. It also incorporates the phenomena of psychoacoustics to adapt to the non-linear sensitivity frequency (loudness) and intensity (pitch) of the human ear.
On modifie le spectre du signal, par l'intermédiaire d'un modèle d'audition, avant de calculer les coefficients de la prédiction linéaire par une modélisation autorégressive (tout pôle). Les coefficients ainsi obtenus permettent de modéliser le signal de façon simple tout en tenant compte de la psychoacoustique. Ce sont ces coefficients de prédiction qui seront transmis et serviront de référence lors de la comparaison avec le signal dégradé.The spectrum of the signal is modified by means of an auditory model before calculating the coefficients of the linear prediction by an autoregressive modeling (any pole). The coefficients thus obtained make it possible to model the signal in a simple way while taking into account psychoacoustics. It is these prediction coefficients that will be transmitted and will serve as a reference when comparing with the degraded signal.
La première partie du calcul de ce paramètre correspond à la modélisation des principes de la psychoacoustique en utilisant les modèles d'auditions classiques. La deuxième partie est le calcul des coefficients de prédiction linéaire. La dernière partie correspond à la comparaison des coefficients de prédiction calculés pour le signal de référence et ceux obtenus pour le signal dégradé. Les différentes étapes de cette méthode sont donc les suivantes :
- Fenêtrage temporel du signal puis calcul d'une représentation interne du signal par modélisation des phénomènes de la psychoacoustique. Cette étape correspond au calcul de la sonie compressée, qui est en fait l'excitation induite par le signal au niveau de l'oreille interne. Cette représentation des signaux tient compte des phénomènes de la psychoacoustique, et est obtenue à partir du spectre du signal, en utilisant les modélisations classiques : atténuation de l'oreille externe et moyenne, intégration selon les bandes critiques et masquages fréquentiels. Cette étape du calcul est identique au paramètre décrit précédemment ;
- Modélisation autorégressive de cette sonie compressée afin d'obtenir les coefficients d'un filtre RIF de prédiction, tout comme dans une prédiction linéaire classique. La méthode utilisée est celle de l'autocorrélation, par résolution des équations de Yule-Walker. La première étape pour l'obtention des coefficients de prédiction est donc le calcul de l'autocorrélation du signal.
- Time window of the signal then calculation of an internal representation of the signal by modeling phenomena of psychoacoustics. This step corresponds to the calculation of the compressed loudness, which is actually the excitation induced by the signal at the level of the inner ear. This representation of the signals takes into account the phenomena of psychoacoustics, and is obtained from the spectrum of the signal, by using the classical modelizations: attenuation of the external and average ear, integration according to the critical bands and masking frequencies. This calculation step is identical to the parameter described previously;
- Autoregressive modeling of this compressed loudness in order to obtain the coefficients of a prediction RIF filter, just as in a classical linear prediction. The method used is that of autocorrelation, by solving the Yule-Walker equations. The first step in obtaining the prediction coefficients is therefore the calculation of the autocorrelation of the signal.
En considérant la sonie compressée comme une puissance spectrale filtrée, il est possible de calculer l'autocorrélation du signal perçu par transformation de Fourier inverse.By considering the compressed loudness as a filtered spectral power, it is possible to calculate the autocorrelation of the perceived signal by inverse Fourier transformation.
Une des méthodes pour résoudre ce système d'équations de Yule-Walker et ainsi obtenir les coefficients d'un filtre prédicteur est l'utilisation de l'algorithme de Levinson-Durbin.One of the methods to solve this system of Yule-Walker equations and thus obtain the coefficients of a predictor filter is the use of the Levinson-Durbin algorithm.
Ce sont les coefficients de prédiction qui constituent le vecteur de référence à transmettre jusqu'au point de comparaison. Les transformations utilisées lors du calcul final sur le signal dégradé, sont les mêmes que pour la phase initiale sur le signal de référence.
- Estimation des dégradations par le calcul d'une distance entre les vecteurs issus de la référence et du signal dégradé. C'est une comparaison des vecteurs de coefficients obtenus pour la référence et pour le signal audio transmis, qui permet d'estimer les dégradations introduites lors de la transmission. Celle-ci doit se faire sur un nombre adapté de coefficients. Plus le nombre est important, plus les calculs peuvent être précis, mais plus le débit nécessaire à la transmission de la référence est élevé. Plusieurs distances peuvent être utilisées pour comparer les vecteurs de coefficients. L'importance relative des coefficients peut par exemple être prise en compte.
- Estimation of the impairments by calculating a distance between the vectors derived from the reference and the degraded signal. It is a comparison of the coefficient vectors obtained for the reference and for the transmitted audio signal, which makes it possible to estimate the impairments introduced during the transmission. This must be done on an adapted number of coefficients. The larger the number, the more accurate the calculations can be, but the higher the rate needed to transmit the reference. Several distances can be used to compare vectors of coefficients. The relative importance of the coefficients can for example be taken into account.
Le principe de la méthode se résume selon le schéma suivant (
La modélisation des phénomènes de la psychoacoustique permet d'obtenir 24 composantes basilaires. L'ordre N du filtre de prédiction est de 32. A partir de celles-ci, 32 coefficients de l'autocorrélation sont estimés, ce qui donne 32 coefficients de prédiction dont on ne conserve que 5 à 10 coefficients en tant que vecteur indicateur de qualité, par exemple les 5 à 10 premiers coefficients.The modeling of psychoacoustic phenomena makes it possible to obtain 24 basilar components. The order N of the prediction filter is 32. From these, 32 coefficients of the autocorrelation are estimated, which gives 32 prediction coefficients of which only 5 to 10 coefficients are conserved as the indicator vector of quality, for example the first 5 to 10 coefficients.
Le principal avantage du paramètre provient de la prise en compte des phénomènes de la psychoacoustique. Pour faire cela, il a été nécessaire d'augmenter le débit nécessaire au transfert de la référence à 5 ou 10 valeurs pour 1024 échantillons de signal (21 ms pour un signal audio échantillonné à 48 kHz), soit un débit de 7,5 à 15 kbits/s.The main advantage of the parameter comes from taking into account the phenomena of psychoacoustics. To do this, it was necessary to increase the rate necessary to transfer the reference to 5 or 10 values for 1024 signal samples (21 ms for an audio signal sampled at 48 kHz), ie a flow rate of 7.5 to 15 kbit / s.
Les méthodes suivantes, dont seule la première correspond effectivement à la définition de l'invention selon la revendication 1, peuvent être utilisées avec ou sans référence. Cela permet de conserver des mesures de détection des dégradations les plus importantes, même dans le cas ou aucun paramètre de référence n'est disponible au point de contrôle, au moment où la comparaison devrait être effectuée.The following methods, of which only the first one actually corresponds to the definition of the invention according to
La première de ces méthodes, conforme à la définition de l'invention selon la revendication 1, met en oeuvre une détection de plats dans l'activité du signal.The first of these methods, according to the definition of the invention according to
La notion d'activité, qui peut être approximée par une opération de dérivation dans le signal audio, est utilisée pour repérer les ruptures et interruptions dans le signal temporel.The concept of activity, which can be approximated by a derivation operation in the audio signal, is used to identify breaks and interruptions in the time signal.
Ces types de défauts sont caractéristiques d'erreurs de décodage après transmission du flux numérique audio ou lors de la diffusion de séquences sonores sur Internet. Cela se produit quand le débit du réseau devient insuffisant pour assurer l'arrivée de toutes les trames nécessaires à l'instant du décodage par exemple.These types of faults are characteristic of decoding errors after transmission of the digital audio stream or during the broadcasting of sound sequences on the Internet. This occurs when the network rate becomes insufficient to ensure the arrival of all the necessary frames at the time of decoding for example.
Ces dégradations, qui introduisent des zones d'activité très faible, se traduisent au niveau auditif par différentes sensations chez l'auditeur : coupure du son, flou sonore, bruit impulsionnel...These degradations, which introduce zones of very weak activity, are translated on the auditory level by different sensations in the listener: cut of the sound, blurred sound, impulse noise ...
La première étape du calcul du paramètre correspond à l'estimation de l'activité temporelle du signal. Pour ce faire, l'opérateur de dérivée seconde est utilisé. Il permet en effet d'avoir une estimation suffisamment précise de l'activité et ne demande que très peu de calculs.The first step of calculating the parameter corresponds to the estimation of the temporal activity of the signal. To do this, the second derivative operator is used. It makes it possible to have a sufficiently precise estimate of the activity and requires only very few calculations.
Pour simuler de façon simple cette opération de dérivée seconde, la formule suivante est utilisée :
ou
où f(t) correspond à la valeur de l'échantillon à l'instant t.To simulate this second derivative operation in a simple way, the following formula is used:
or
where f (t) corresponds to the value of the sample at time t.
Une moyenne glissante, sur N valeurs (par exemple N = 21, ce qui correspond à 0,5 ms pour une fréquence d'échantillonage de 48 KHz), permet ensuite de lisser les variations de la courbe obtenue et éviter ainsi les fausses détections. Un seul résultat va être conservé par bloc de M résultats (M correspond par exemple à 2048 échantillons audio). C'est le minimum de M moyennes qui est conservé puis transmis. Le paramètre est ainsi obtenu à l'instant t par la formule suivante :
où y(t) correspond à l'activité.A sliding average, on N values (for example N = 21, which corresponds to 0.5 ms for a sampling frequency of 48 KHz), then makes it possible to smooth the variations of the curve obtained and thus avoid false detections. Only one result will be retained per block of M results (M corresponds for example to 2048 audio samples). It is the minimum of average M which is conserved and transmitted. The parameter is thus obtained at time t by the following formula:
where y (t) is the activity.
Si le paramètre est utilisé avec référence, alors, après synchronisation des données, l'étape de comparaison consiste en une simple différence qui permet de repérer les zones où le signal a été remplacé par des plats de décodage. Seuls les instants, où l'activité est fortement diminuée sur le signal dégradé, sont intéressants. Ainsi la formule de comparaison est la suivante :
où Platsr(t) et Platsd(t) sont respectivement le paramètre calculé sur la référence et sur le signal dégradé.If the parameter is used with reference, then, after synchronization of the data, the comparison step consists of a simple difference which makes it possible to locate the areas where the signal has been replaced by decoding dishes. Only the moments, where the activity is strongly diminished on the degraded signal, are interesting. So the formula for comparison is as follows:
where Plats r (t) and Plats d (t) are respectively the parameter calculated on the reference and on the degraded signal.
Pour réduire encore le débit nécessaire au transport de la référence, il est également possible de comparer le paramètre Plats(t), calculé sur le signal, avec un seuil S et ainsi obtenir un paramètre binaire. Lors de l'apparition des dégradations, la chute d'activité est en effet suffisamment importante pour être détectée de la sorte.To further reduce the rate required to transport the reference, it is also possible to compare the parameter Flat (t) , calculated on the signal, with a threshold S and thus obtain a binary parameter. During the onset of degradations, the drop in activity is indeed important enough to be detected in this way.
Dans ce cas, la comparaison sert uniquement à confirmer la présence des dégradations. Plus aucune confusion n'est possible entre les zones de silence et les zones d'activité faible du signal. L'utilisation du paramètre sans référence permet néanmoins de repérer les dégradations.In this case, the comparison serves only to confirm the presence of the degradations. No more confusion is possible between the zones of silence and the zones of weak activity of the signal. Using the parameter without reference nevertheless makes it possible to identify the degradations.
Pour passer d'un paramètre de détection des dégradations, à l'estimation d'une note de qualité perceptuelle, l'importance psychoacoustique des dégradations détectées doit être analysée. Suivant leur longueur et leur nombre la dégradation perçue sera très différente.In order to pass from a deterioration detection parameter to the estimation of a perceptual quality score, the psychoacoustic importance of the degradations detected must be analyzed. Depending on their length and number, the perceived degradation will be very different.
L'étape suivante consiste donc à utiliser des courbes de correspondance à partir du paramètre binaire. Ces courbes permettent d'obtenir une note de qualité à partir de la longueur cumulée et du nombre de dégradations impulsionnelles détectées par seconde. Ces courbes sont établies à partir de tests subjectifs. Différentes courbes peuvent être établies en fonction du type des signaux audio (parole ou musique principalement). Une fois l'estimation obtenue, il est également possible d'utiliser un filtre simulant la réponse d'un panéliste. Cela permet de tenir compte de l'effet dynamique des votes et des temps de réaction face aux dégradations.The next step is therefore to use correspondence curves from the binary parameter. These curves make it possible to obtain a grade of quality from the accumulated length and the number of impulse degradations detected per second. These curves are based on subjective tests. Different curves can be established depending on the type of audio signals (mainly speech or music). Once the estimate is obtained, it is also possible to use a filter simulating the response of a panelist. This makes it possible to take into account the dynamic effect of the votes and the reaction time to the degradations.
Le paramètre peut être résumé selon le schéma suivant
Le principal avantage du paramètre est la possibilité de faire des mesures sans référence. Un autre point intéressant est le débit nécessaire au transfert de la référence. Celui-ci permet de réduire la référence à 1 nombre réel soit un débit de 1,5 kbits/s(voire même 1 bit en cas de seuillage soit un débit de 47 bits/s) pour 1024 échantillons de signal. Il est également à noter que l'algorithmes est très simple et de complexité réduite, ce qui permet son implantation en parallèle avec d'autres paramètres.The main advantage of the parameter is the possibility of making measurements without reference. Another interesting point is the bit rate needed to transfer the reference. This allows to reduce the reference to 1 real number is a rate of 1.5 kbits / s (or even 1 bit in case of thresholding or a bit rate of 47 bits / s) for 1024 samples of signal. It should also be noted that the algorithms are very simple and of reduced complexity, which allows its implementation in parallel with other parameters.
Le deuxième de ces procédés, qui ne correspond pas à la définition de l'invention selon la revendication 1, met en oeuvre une détection de pics de l'activité.The second of these methods, which does not correspond to the definition of the invention according to
Ce paramètre, tout comme le précédent est basé sur l'activité du signal. Celui-ci permet de détecter les décrochages, ruptures, coupures d'une partie du signal audio et les échantillons aberrants en recherchant les pics dans l'activité du signal.This parameter, just like the previous one, is based on signal activity. It detects stalls, breaks, cuts of a portion of the audio signal and aberrant samples by looking for peaks in the signal activity.
Ainsi, cette fois, seuls les maxima pour des blocs de M échantillons sont conservés. Il n'est pas intéressant de transmettre puis comparer la totalité des valeurs de l'activité, principalement si l'objectif est d'obtenir une méthode ne nécessitant qu'une référence réduite.Thus, this time, only the maxima for blocks of M samples are preserved. It is not interesting to transmit then compare the totality of values of the activity, mainly if the objective is to obtain a method requiring only a reduced reference.
Le paramètre est ainsi obtenu à l'instant t par la formule suivante :
où y(t) est l'activité du signal calculée par le filtre.The parameter is thus obtained at time t by the following formula:
where y (t) is the activity of the signal calculated by the filter.
Dans le cas d'une utilisation avec référence, ce même calcul est effectué sur le signal de référence et sur le signal dégradé.In the case of use with reference, this same calculation is performed on the reference signal and on the degraded signal.
Après synchronisation des deux flux, la comparaison de ces maxima de l'activité permet de détecter les zones où le signal a été perturbé.After synchronization of the two streams, the comparison of these maxima of the activity makes it possible to detect the zones where the signal has been disturbed.
Pour effectuer cette comparaison, le rapport entre la valeur mesurée sur la référence et celle obtenue sur le signal dégradé permet la détection des dégradations. Il est possible de détecter les zones où l'activité a été fortement diminuée en choisissant le maximum du rapport et de son inverse.To perform this comparison, the ratio between the value measured on the reference and that obtained on the degraded signal allows the detection of degradations. It is possible to detect areas where activity has been greatly reduced by choosing the maximum ratio and its inverse.
La formule suivante est utilisée :
où ActTempr(t) et ActTempd(t) sont respectivement le paramètre calculé sur la référence et sur le signal dégradé.The following formula is used:
where ActTemp r (t) and ActTemp d (t) are respectively the parameter calculated on the reference and on the degraded signal.
Dans le cas où la référence n'est pas disponible, il est possible d'utiliser un seuillage pour détecter si le paramètre est supérieur à un seuil S', ce qui indique la présence de dégradations. Pour éviter de fausses détections dues à des signaux au caractère impulsionnel (attaques, percutions, ...), le seuil doit avoir une valeur assez importante, ce qui peut entraîner des non détections.In the case where the reference is not available, it is possible to use thresholding to detect whether the parameter is greater than a threshold S ', which indicates the presence of impairments. To avoid false detections due to impulse signals (attacks, percussions, ...), the threshold must have a fairly large value, which may lead to non-detections.
De même que dans le cas précédent, l'utilisation des courbes de correspondance est possible pour estimer une qualité perceptuelle. La méthode consiste à intégrer les dégradations détectées par ce paramètre, aux autres trouvées par le paramètre précédent par exemple, et ainsi obtenir une estimation perceptuelle globale.As in the previous case, the use of the correspondence curves is possible to estimate a perceptual quality. The method consists in integrating the degradations detected by this parameter, to the others found by the preceding parameter for example, and thus obtaining an overall perceptual estimate.
Le principe du paramètre est présenté dans le schéma suivant
Tout comme pour le paramètre précédent, l'avantage du paramètre réside dans la possibilité de faire des détections sans référence.As with the previous parameter, the advantage of the parameter lies in the possibility of making detections without reference.
La complexité réduite et le faible débit nécessaire au transport de la référence, limité à 1 valeur, soit un débit de 1,5 kbits/s (voire même 1 bit en cas de seuillage, soit un débit de 47 bits/s) pour 1024 échantillons de signal échantillonné à 48 kHz, sont également des points intéressants.The reduced complexity and the low bit rate required for the transport of the reference, limited to 1 value, ie a bit rate of 1.5 kbit / s (or even 1 bit in the case of thresholding, ie a bit rate of 47 bits / s) for 1024 sampled signal samples at 48 kHz, are also interesting points.
Le procédé ci-après, qui ne correspond pas à la définition de l'invention selon la revendication 1, met en oeuvre l'étude du minimum du spectre du signal pour localiser les dégradations.The method which follows, which does not correspond to the definition of the invention according to
Il est principalement utile pour la détection de dégradations dites "impulsionnelles". Il est en effet important de noter que la majorité des dégradations introduites, lors de la transmission d'un signal audio, sont de ce type. Celles-ci sont très localisées en temps et très étalées en fréquence. Ainsi, en les assimilant à un bruit blanc large bande de très courte durée dans le signal, il est possible de les détecter en analysant les caractéristiques du spectre.It is mainly useful for the detection of so-called "impulse" degradations. It is indeed important to note that the majority of impairments introduced during the transmission of an audio signal are of this type. These are very localized in time and very spread in frequency. Thus, by assimilating them to a broadband white noise of very short duration in the signal, it is possible to detect them by analyzing the characteristics of the spectrum.
La première étape du calcul de ces paramètres correspond à l'estimation du spectre du signal. Pour cela, le signal est fenêtré en blocs de N échantillons (N = 1024 ou 2048 par exemple), avec un recouvrement de N/2 échantillons. Cela permet d'avoir une résolution temporelle suffisante et d'analyser tout le signal, en tenant compte du fait que l'utilisation des fenêtrages atténue fortement l'influence des bords de ces fenêtres temporelles.The first step in calculating these parameters corresponds to the estimation of the spectrum of the signal. For this, the signal is windowed in blocks of N samples (N = 1024 or 2048 for example), with an overlap of N / 2 samples. This makes it possible to have a sufficient temporal resolution and to analyze all the signal, taking into account that the use of the windows strongly attenuates the influence of the edges of these time windows.
Cela permet également de ne pas trop pénaliser le temps de calcul lors de l'implantation. Une transformation de Fourier rapide permet, ensuite, de passer dans le domaine fréquentiel.This also makes it possible not to penalize too much the calculation time during the implementation. A fast Fourier transformation then makes it possible to go into the frequency domain.
L'apparition d'une dégradation, augmente le minimum du spectre, du fait de l'introduction de bruit blanc large bande dans toutes les composantes fréquentielles du spectre. C'est ce principe qui a permis de développer ce paramètre, calculé simplement selon la formule :
avec xi les N composantes du spectre X en dB (par calcul de distance).The occurrence of degradation increases the spectrum minimum due to the introduction of broadband white noise in all frequency components of the spectrum. It is this principle which made it possible to develop this parameter, calculated simply according to the formula:
with x i the N components of the X spectrum in dB (by distance calculation).
Dans le cas d'une utilisation avec référence, une comparaison simple, après synchronisation des valeurs obtenues sur la référence et le signal dégradé, n'est en général pas suffisante pour la détection des dégradations. En effet, la variabilité des minima obtenus avec un signal non dégradé est importante.In the case of use with reference, a simple comparison, after synchronization of the values obtained on the reference and the degraded signal, is generally not sufficient for the detection of degradations. Indeed, the variability of minima obtained with a non-degraded signal is important.
Il faut ainsi faire des comparaisons par blocs de M valeurs selon le principe suivant : Pour chaque bloc, il n'est conservé que le maximum des M minima obtenus sur la référence. Cela fournit une valeur de référence du niveau de bruit initial pour le bloc. Cette valeur est comparée aux M minima obtenus sur le signal dégradé.It is thus necessary to make comparisons by blocks of M values according to the following principle: For each block, it is conserved only the maximum of the M minima obtained on the reference. This provides a reference value of the initial noise level for the block. This value is compared to the M minima obtained on the degraded signal.
En ne conservant que les instants où les minima sont augmentés, il est possible de détecter les moments où du bruit a été ajouté au signal.By keeping only the moments when the minima are increased, it is possible to detect the moments when noise has been added to the signal.
La distance obtenue est ainsi, pour chaque instant t :
où xr,i est la ième des N composantes du spectre obtenu sur la référence,
xd,i est la ième des N composantes du spectre obtenu sur le signal dégradé,
et mink le kième des M minima du bloc considéré.The distance obtained is thus, for each instant t:
where x r, i is the ith of the N components of the spectrum obtained on the reference,
x d, i is the ith of the N components of the spectrum obtained on the degraded signal,
and min k the k th of the M minima of the block considered.
Si la référence n'est pas disponible, il est possible d'utiliser une moyenne des minima du spectre obtenus précédemment par l'algorithme. Le reste de la comparaison se fait ensuite de la même façon.If the reference is not available, it is possible to use an average of the minima of the spectrum obtained previously by the algorithm. The rest of the comparison is then done in the same way.
De même que dans les cas précédents, l'utilisation des courbes de correspondance est possible en intégrant les dégradations détectées par ce paramètre aux autres et obtenir ainsi une mesure perceptuelle.As in the previous cases, the use of correspondence curves is possible by integrating the degradations detected by this parameter to the others and thus obtain a perceptual measurement.
La méthode peut se résumer ainsi par les deux schémas suivants
Encore une fois, le principal avantage de ces paramètres est la possibilité de faire des mesures sans référence. Un autre point intéressant est le débit nécessaire au transfert de la référence. Celui-ci permet de réduire la référence à 1 nombre réel et même 1 entier, soit un débit d'au plus 1,5 kbits/s pour N (par exemple 1024) échantillons de signal. La complexité réduite de l'algorithme est également un atout.Again, the main advantage of these parameters is the ability to make measurements without reference. Another interesting point is the bit rate needed to transfer the reference. This allows to reduce the reference to 1 real number and even 1 integer, ie a rate of at most 1.5 kbits / s for N (for example 1024) signal samples. The reduced complexity of the algorithm is also an asset.
Dans le procédé suivant, qui ne correspond pas à la définition de l'invention selon la revendication 1, selon lequel on analyse l'Aplatissement Spectral, deux paramètres, SF1 et SF2, permettent d'estimer "l'aplatissement" du spectre, d'où le terme parfois utilisé d'"aplatissement statistique". Ils correspondent à l'étude de la forme du spectre et à son évolution le long de la séquence étudiée. Lors de l'apparition d'un bruit large bande dans le signal, une composante continue de type bruit blanc provoquera un aplatissement du spectre.In the following method, which does not correspond to the definition of the invention according to
Lors de l'apparition d'une dégradation, les composantes qui avaient des valeurs proches de zéro, vont passer à des valeurs non négligeables. Le produit des composantes du spectre va ainsi fortement augmenter, alors que leur somme ne variera que très peu. Pour exploiter ceci, le paramètre d'estimation de l'aplatissement du spectre SF1 est calculé selon la formule suivante :
avec X, le spectre du signal et xi les composantes du spectre.At the onset of a degradation, the components that had values close to zero, will pass to significant values. The product of the spectrum components will thus greatly increase, while their sum will vary only very little. To exploit this, the estimation parameter of the flattening of the spectrum SF 1 is calculated according to the following formula:
with X, the spectrum of the signal and x i the components of the spectrum.
Ce paramètre est calculé de la même manière sur la référence et sur le signal dégradé. Par comparaison il est ensuite possible d'estimer le niveau de bruit blanc inséré, et par suite les dégradations.This parameter is calculated in the same way on the reference and on the degraded signal. By comparison it is then possible to estimate the level of white noise inserted, and consequently the damage.
Pour calculer ce paramètre, le coefficient d'aplatissement statistique, appelé "kurtosis" ou "concentration" a été utilisé. L'estimation est faite à partir des moments centrés d'ordre 2 et 4. Ils permettent d'estimer la forme du spectre par rapport à une distribution normale au sens statistique du terme.To calculate this parameter, the statistical flattening coefficient, called "kurtosis" or "concentration" was used. The estimate is made from the central moments of
Le calcul correspond au rapport entre le moment centré d'ordre 4 et le moment centré d'ordre 2 (variance) au carré des coefficients du spectre. La formule utilisée est ainsi la suivante :
avec moments centrés mk définis par :
où
with centered moments m k defined by:
or
De même que pour le paramètre SF1, plus la valeur obtenue est importante, plus le signal est concentré et moins il y a de bruit dans le signal. Celui-ci est calculé sur la référence et sur le signal dégradé. Par comparaison le niveau de bruit blanc inséré est estimé.As for the parameter SF 1 , the higher the value obtained, the more the signal is concentrated and the less noise there is in the signal. This is calculated on the reference and on the degraded signal. By comparison, the level of white noise inserted is estimated.
Le schéma de la
- Dans le cas d'une comparaison avec la référence, une simple distance du type différence ou autre est suffisante pour détecter les dégradations. Si aucune référence n'est disponible, il est nécessaire d'effectuer une détection des pics dans la variation des paramètres pour rechercher les dégradations. Cela peut être fait en utilisant la technique, classique en traitement de l'image, de la morphologie mathématique à niveau de gris (érosions et dilatations).
- In the case of a comparison with the reference, a simple distance of the difference or other type is sufficient to detect the degradations. If no reference is available, it is necessary to perform peak detection in the variation of parameters to search for degradations. This can be done using the classic technique of image processing, grayscale mathematical morphology (erosions and dilations).
Les avantages et limitations de ces paramètres sont identiques à ceux des paramètres précédents : débit nécessaire limité, sans référence possible et utilisation des courbes de correspondance pour estimer l'importance perceptuelle des dégradations.The advantages and limitations of these parameters are identical to those of the preceding parameters: limited necessary flow, without possible reference and use of the correspondence curves to estimate the perceptual importance of the degradations.
Dans le cadre de la surveillance d'un réseau de diffusion en télévision numérique, le signal audio de référence correspond au signal à l'entrée du réseau de diffusion. Les paramètres de référence sont calculés sur ce signal, puis transmis via une voie de donnée spécifique, jusqu'au point de mesure souhaité. C'est à ce point que sont calculés les même paramètres nécessaires à la comparaison pour l'établissement des mesures avec référence réduite. Les mesures sans référence sont également calculées. Dans le cas où les paramètres de référence ne seraient pas disponibles (non présents, erronés, ...) ces mesures sont suffisantes pour détecter les erreurs les plus importantes. Les sous-systèmes en pointillés de la
Les mesures obtenues sans référence et celles obtenues avec référence réduite (dans le cas où elles ont pu être calculées) sont utilisées par un modèle pour estimer l'importance de la dégradation introduite lors de la diffusion.The measurements obtained without reference and those obtained with reduced reference (in the case where they could be calculated) are used by a model to estimate the importance of the degradation introduced during the diffusion.
Le schéma de la
- Plusieurs points de mesure peuvent ainsi être établis. Une fois ces estimations de dégradations obtenues, il est aisé de les transmettre vers un centre de surveillance du réseau, ce qui permet d'avoir une vue d'ensemble des performances du réseau.
- Several measurement points can thus be established. Once these degradation estimates are obtained, it is easy to transmit them to a monitoring center of the network, which gives an overview of network performance.
Le même schéma que précédemment peut être utilisé pour visualiser (avec ou sans référence) les performances de la diffusion de radios sur Internet. Dans ce cas, la voie de donnée utilisée pour transporter les paramètres de référence peut être le réseau lui-même, tout comme pour renvoyer les notes estimées au centre de surveillance. Le signal de référence correspond au signal envoyé par le serveur, et le signal dégradé est celui décodé au point de mesure choisi. Cela peut par exemple servir à choisir le serveur le plus approprié en fonction du lieu de connexion en accédant aux données d'un centre de surveillance. Le schéma (
Un procédé selon l'invention est applicable à chaque fois qu'il est nécessaire d'identifier des défauts sur un signal audio qui a été transmis par un réseau de diffusion quelconque (câble, satellite, hertzien, Internet, DVB, DAB, ...).A method according to the invention is applicable whenever it is necessary to identify defects on an audio signal that has been transmitted by any broadcast network (cable, satellite, terrestrial, Internet, DVB, DAB, .. .).
Le procédé proposé exploite deux classes de méthodes : les techniques avec référence réduite et celles sans référence. Il est particulièrement intéressant lorsque le débit disponible pour la transmission de la référence est limité.The proposed method exploits two classes of methods: techniques with reduced reference and those without reference. It is particularly interesting when the rate available for the transmission of the reference is limited.
Ainsi, cette invention est applicable à des fins d'exploitation pour les équipements de métrologie et pour les systèmes de supervision des réseaux de distribution des signaux audio. Une de ses caractéristiques avantageuses réside dans l'association des mesures effectuées avec et sans référence. Enfin, cette invention correspond aux besoins imposés dans les systèmes de gestion de la qualité de service.Thus, this invention is applicable for operational purposes for metrology equipment and for supervisory systems of audio signal distribution networks. One of its advantageous characteristics lies in the combination of measurements made with and without reference. Finally, this invention corresponds to the requirements imposed in the quality of service management systems.
Claims (8)
- A method for qualitatively evaluating a digital audio signal, which calculates in real time and in continuous time in successive time windows, a quality indicator obtained from said digital audio signal, characterized in that said quality indicator consists of a vector associated with each time window, said vector having a dimension at least one hundred times less than the number of audio samples in a time window, said dimension ranging from 1 to 10, preferably from 1 to 5, and more particularly from 2 to 5, and in that the generation of said quality indicator vector implements, at least for the audio signal to evaluate, the following steps :a) calculating a temporal activity of the signal in each time window,b) calculating a sliding average over N1 successive values of the temporal activity;c) retaining the minimum value from M1 successive values of the sliding average.
- The method according to claim 1, characterized in that said quality indicator vector consists of said minimum value.
- The method according to claim 1, characterized in that said quality indicator vector consists of a binary value resulting from comparing said minimum value with a given threshold.
- The method according to any one of claims 1 to 3, characterized in that it calculates a quality mark by determining a cumulated time interval, during which said minimum value is less than a given threshold Si and/or by determining the number of times per second when said minimum value is less than a given threshold S'1.
- The method according to one of claims 1 to 4, characterized in that said minimum values are generated at the same time for a reference audio signal and for the audio signal to evaluate and in that a quality vector is generated by comparing the corresponding minimum values of the reference audio signal and audio signal to be evaluated.
- The method according to one of preceding claims, characterized in that said audio signal to be evaluated is an audio signal transmitted digitally.
- The method according to one of preceding claims, characterized in that said audio signal to be evaluated is a digital audio signal to which digital coding has been applied.
- The method according to claim 7, characterized in that said digital coding is a bit rate reduction coding.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0200856A FR2835125B1 (en) | 2002-01-24 | 2002-01-24 | METHOD FOR EVALUATING A DIGITAL AUDIO SIGNAL |
FR0200856 | 2002-01-24 | ||
PCT/FR2003/000222 WO2003063134A1 (en) | 2002-01-24 | 2003-01-23 | Method for qualitative evaluation of a digital audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
EP1468416A1 EP1468416A1 (en) | 2004-10-20 |
EP1468416B1 true EP1468416B1 (en) | 2015-12-23 |
Family
ID=27589574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP03715043.0A Expired - Lifetime EP1468416B1 (en) | 2002-01-24 | 2003-01-23 | Method for qualitative evaluation of a digital audio signal |
Country Status (5)
Country | Link |
---|---|
US (2) | US8036765B2 (en) |
EP (1) | EP1468416B1 (en) |
CA (1) | CA2474067C (en) |
FR (1) | FR2835125B1 (en) |
WO (1) | WO2003063134A1 (en) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2833791B1 (en) * | 2001-12-13 | 2004-02-06 | Telediffusion De France Tdf | METROLOGY DEVICE FOR AUTOMATIC MONITORING OF A DIGITAL SIGNAL BROADCASTING NETWORK AND BROADCASTING NETWORK COMPRISING SUCH A METROLOGY DEVICE |
CN101512935B (en) * | 2006-07-27 | 2013-10-30 | 艾利森电话股份有限公司 | Layered broadcast transmission through multiple transmitters |
US8599704B2 (en) * | 2007-01-23 | 2013-12-03 | Microsoft Corporation | Assessing gateway quality using audio systems |
ES2394515T3 (en) | 2007-03-02 | 2013-02-01 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods and adaptations in a telecommunications network |
CN101608947B (en) * | 2008-06-19 | 2012-05-16 | 鸿富锦精密工业(深圳)有限公司 | Sound testing method |
US20100161779A1 (en) * | 2008-12-24 | 2010-06-24 | Verizon Services Organization Inc | System and method for providing quality-referenced multimedia |
EP2392003B1 (en) * | 2009-01-30 | 2013-01-02 | Telefonaktiebolaget LM Ericsson (publ) | Audio signal quality prediction |
ES2452170T3 (en) * | 2009-05-14 | 2014-03-31 | Koninklijke Philips N.V. | Robust detection of DVD-T / H transmissions |
US8949114B2 (en) | 2009-06-04 | 2015-02-03 | Optis Wireless Technology, Llc | Method and arrangement for estimating the quality degradation of a processed signal |
US8560312B2 (en) * | 2009-12-17 | 2013-10-15 | Alcatel Lucent | Method and apparatus for the detection of impulsive noise in transmitted speech signals for use in speech quality assessment |
JP5750167B2 (en) * | 2010-12-07 | 2015-07-15 | エンパイア テクノロジー ディベロップメント エルエルシー | Audio fingerprint difference for measuring quality of experience between devices |
US9779731B1 (en) * | 2012-08-20 | 2017-10-03 | Amazon Technologies, Inc. | Echo cancellation based on shared reference signals |
US9830905B2 (en) | 2013-06-26 | 2017-11-28 | Qualcomm Incorporated | Systems and methods for feature extraction |
US9619980B2 (en) | 2013-09-06 | 2017-04-11 | Immersion Corporation | Systems and methods for generating haptic effects associated with audio signals |
US9576445B2 (en) | 2013-09-06 | 2017-02-21 | Immersion Corp. | Systems and methods for generating haptic effects associated with an envelope in audio signals |
CN104681038B (en) * | 2013-11-29 | 2018-03-09 | 清华大学 | Audio signal quality detection method and device |
US10147441B1 (en) | 2013-12-19 | 2018-12-04 | Amazon Technologies, Inc. | Voice controlled system |
US10224759B2 (en) | 2014-07-15 | 2019-03-05 | Qorvo Us, Inc. | Radio frequency (RF) power harvesting circuit |
US10566843B2 (en) * | 2014-07-15 | 2020-02-18 | Qorvo Us, Inc. | Wireless charging circuit |
US10559970B2 (en) | 2014-09-16 | 2020-02-11 | Qorvo Us, Inc. | Method for wireless charging power control |
CN105893515B (en) * | 2016-03-30 | 2021-02-05 | 腾讯科技(深圳)有限公司 | Information processing method and server |
RU2700551C2 (en) * | 2018-01-22 | 2019-09-17 | Российская Федерация, от имени которой выступает Министерство обороны Российской Федерации | Method for quality control of data transmission channels in automated real-time control systems |
CN109147804B (en) * | 2018-06-05 | 2024-08-20 | 安克创新科技股份有限公司 | Tone quality characteristic processing method and system based on deep learning |
CN110570874B (en) * | 2018-06-05 | 2021-10-22 | 中国科学院声学研究所 | System and method for monitoring sound intensity and distribution of wild birds |
CN110211610A (en) * | 2019-06-20 | 2019-09-06 | 平安科技(深圳)有限公司 | Assess the method, apparatus and storage medium of audio signal loss |
CN112562714B (en) * | 2020-11-24 | 2022-08-05 | 潍柴动力股份有限公司 | Noise evaluation method and device |
CN112929808A (en) * | 2021-02-05 | 2021-06-08 | 四川湖山电器股份有限公司 | Method, module and system for detecting whether campus broadcasting equipment can work normally |
EP4084366A1 (en) * | 2021-04-26 | 2022-11-02 | Aptiv Technologies Limited | Method for testing in-vehicle radio broadcast receiver device |
CN113409820B (en) * | 2021-06-09 | 2022-03-15 | 合肥群音信息服务有限公司 | Quality evaluation method based on voice data |
CN113488074B (en) * | 2021-08-20 | 2023-06-23 | 四川大学 | Two-dimensional time-frequency characteristic generation method for detecting synthesized voice |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9213459D0 (en) * | 1992-06-24 | 1992-08-05 | British Telecomm | Characterisation of communications systems using a speech-like test stimulus |
FR2737948B1 (en) * | 1995-08-16 | 1997-10-17 | Alcatel Mobile Comm France | SOUND VOLUME CONTROL DEVICE FOR BLOCK CODED SPEECH SIGNAL RECEIVER |
FR2769777B1 (en) * | 1997-10-13 | 1999-12-24 | Telediffusion Fse | METHOD AND SYSTEM FOR EVALUATING, ON RECEPTION, THE QUALITY OF A DIGITAL SIGNAL, SUCH AS A DIGITAL AUDIO / VIDEO SIGNAL |
CA2230188A1 (en) * | 1998-03-27 | 1999-09-27 | William C. Treurniet | Objective audio quality measurement |
SE517547C2 (en) * | 1998-06-08 | 2002-06-18 | Ericsson Telefon Ab L M | Signal synchronization in signal quality measurement |
EP0980064A1 (en) * | 1998-06-26 | 2000-02-16 | Ascom AG | Method for carrying an automatic judgement of the transmission quality of audio signals |
US7006555B1 (en) * | 1998-07-16 | 2006-02-28 | Nielsen Media Research, Inc. | Spectral audio encoding |
AU2881300A (en) * | 1999-10-27 | 2001-05-08 | Nielsen Media Research, Inc. | System and method for encoding an audio signal for use in broadcast program identification systems, by adding inaudible codes to the audio signal |
NL1014075C2 (en) * | 2000-01-13 | 2001-07-16 | Koninkl Kpn Nv | Method and device for determining the quality of a signal. |
-
2002
- 2002-01-24 FR FR0200856A patent/FR2835125B1/en not_active Expired - Fee Related
-
2003
- 2003-01-23 US US10/502,425 patent/US8036765B2/en not_active Expired - Fee Related
- 2003-01-23 CA CA2474067A patent/CA2474067C/en not_active Expired - Fee Related
- 2003-01-23 EP EP03715043.0A patent/EP1468416B1/en not_active Expired - Lifetime
- 2003-01-23 WO PCT/FR2003/000222 patent/WO2003063134A1/en active Application Filing
-
2011
- 2011-08-26 US US13/219,391 patent/US8606385B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CA2474067A1 (en) | 2003-07-31 |
US8036765B2 (en) | 2011-10-11 |
EP1468416A1 (en) | 2004-10-20 |
US8606385B2 (en) | 2013-12-10 |
FR2835125B1 (en) | 2004-06-18 |
FR2835125A1 (en) | 2003-07-25 |
WO2003063134A1 (en) | 2003-07-31 |
US20120099734A1 (en) | 2012-04-26 |
US20050143974A1 (en) | 2005-06-30 |
CA2474067C (en) | 2014-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1468416B1 (en) | Method for qualitative evaluation of a digital audio signal | |
EP2419900B1 (en) | Method and device for the objective evaluation of the voice quality of a speech signal taking into account the classification of the background noise contained in the signal | |
EP0768770B1 (en) | Method and arrangement for the creation of comfort noise in a digital transmission system | |
JP4560269B2 (en) | Silence detection | |
EP2691952B1 (en) | Allocation, by sub-bands, of bits for quantifying spatial information parameters for parametric encoding | |
EP1051703B1 (en) | Method for decoding an audio signal with transmission error correction | |
EP0906613B1 (en) | Method and device for coding an audio signal by "forward" and "backward" lpc analysis | |
EP2795618B1 (en) | Method of detecting a predetermined frequency band in an audio data signal, detection device and computer program corresponding thereto | |
US6549757B1 (en) | Method and system for assessing, at reception level, the quality of a digital signal, such as a digital audio/video signal | |
KR101044160B1 (en) | Apparatus for determining information in order to temporally align two information signals | |
WO2003063514A1 (en) | Method for the synchronization of two digital data flows with identical content | |
EP1216604B1 (en) | Method for continuously controlling the quality of distributed digital sounds | |
CN108877816B (en) | QMDCT coefficient-based AAC audio frequency recompression detection method | |
EP2525353B1 (en) | Parametric audio quality model for IPTV services | |
EP0337868B1 (en) | Method and apparatus for signal discrimination | |
FR2790845A1 (en) | Quality monitor for digital audio signals includes detector sensing four error types and providing signal when at least one exceeds tolerable limits | |
EP1159795A1 (en) | Method for controlling the quality of a digital audio signal broadcast with an audio-visual programme | |
Liu et al. | Objective quality measurement for audio time-scale modification | |
WO2008081134A2 (en) | Process for the estimation of the quality of a communication in packet mode |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
17P | Request for examination filed |
Effective date: 20040728 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PT SE SI SK TR |
|
RIN1 | Information on inventor provided before grant (corrected) |
Inventor name: JOLY, ALEXANDRE |
|
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: TDF |
|
17Q | First examination report despatched |
Effective date: 20080707 |
|
APBK | Appeal reference recorded |
Free format text: ORIGINAL CODE: EPIDOSNREFNE |
|
APBN | Date of receipt of notice of appeal recorded |
Free format text: ORIGINAL CODE: EPIDOSNNOA2E |
|
APBR | Date of receipt of statement of grounds of appeal recorded |
Free format text: ORIGINAL CODE: EPIDOSNNOA3E |
|
APAV | Appeal reference deleted |
Free format text: ORIGINAL CODE: EPIDOSDREFNE |
|
APBT | Appeal procedure closed |
Free format text: ORIGINAL CODE: EPIDOSNNOA9E |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R079 Ref document number: 60348361 Country of ref document: DE Free format text: PREVIOUS MAIN CLASS: G10L0019000000 Ipc: G10L0025690000 |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
RIC1 | Information provided on ipc code assigned before grant |
Ipc: G10L 25/69 20130101AFI20150625BHEP |
|
INTG | Intention to grant announced |
Effective date: 20150416 |
|
GRAC | Information related to communication of intention to grant a patent modified |
Free format text: ORIGINAL CODE: EPIDOSCIGR1 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
INTG | Intention to grant announced |
Effective date: 20150716 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): DE FR GB NL |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 14 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R096 Ref document number: 60348361 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: FP |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R097 Ref document number: 60348361 Country of ref document: DE |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
26N | No opposition filed |
Effective date: 20160926 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 15 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20161228 Year of fee payment: 15 Ref country code: NL Payment date: 20161220 Year of fee payment: 15 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: FR Payment date: 20161221 Year of fee payment: 15 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20161219 Year of fee payment: 15 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R119 Ref document number: 60348361 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: MM Effective date: 20180201 |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 20180123 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180801 Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180131 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: ST Effective date: 20180928 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NL Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180201 Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180123 |