EP1382034B1 - Method for determining intensity parameters of background noise in speech pauses of voice signals - Google Patents

Method for determining intensity parameters of background noise in speech pauses of voice signals Download PDF

Info

Publication number
EP1382034B1
EP1382034B1 EP02727282A EP02727282A EP1382034B1 EP 1382034 B1 EP1382034 B1 EP 1382034B1 EP 02727282 A EP02727282 A EP 02727282A EP 02727282 A EP02727282 A EP 02727282A EP 1382034 B1 EP1382034 B1 EP 1382034B1
Authority
EP
European Patent Office
Prior art keywords
speech
intensity
signal
value
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP02727282A
Other languages
German (de)
French (fr)
Other versions
EP1382034A1 (en
Inventor
Jens Berger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Publication of EP1382034A1 publication Critical patent/EP1382034A1/en
Application granted granted Critical
Publication of EP1382034B1 publication Critical patent/EP1382034B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Definitions

  • the invention relates to a method for the evaluation of background noise in Speech pauses of recorded or transmitted speech signals as defined in claim 1.
  • the perceived speech quality e.g. in telephone connections or radio broadcasts, is mainly of language-simultaneous disorders, so of disorders during speech activity. But also noise in the speech pauses go in the quality judgment, especially in high-quality speech reproduction.
  • the intensity of background noise in the speech pauses can be considered complementary Characteristic value can be used to determine the voice quality (voice quality).
  • Speech quality determinations of speech signals are usually auditory ("subjective") investigations carried out with test subjects.
  • a safe determination of quality provide instrumental procedures that are based on a Comparison of undisturbed reference speech signal (source speech signal) and the disturbed one Speech signal based on the end of the transmission chain. There are many such Processes that are mostly used in so-called sample connection systems. There At the source, the undisturbed source speech signal is fed in and after transmission recorded again.
  • CMOS complementary metal-oxide-semiconductor
  • Fig. 1 CMOS image stabilization threshold
  • This threshold is in the simplest case set constant in the process, but can also be based on the waveform be adapted (e.g., fixed distance to the signal peak).
  • the aim is a safe distinction between language and language break.
  • the sought after intensity characteristics of the background noise can be determined from the be determined as a voice break detected signal sections. This will be in the In general, the signal sections detected as a speech break again into shorter Segments (typically 8 ... 40ms) are divided and for these the intensity calculations (e.g., rms or loudness). From the results can then Intensity characteristics are determined.
  • the methods provide at low noise levels in speech pauses and at the same time high intensity of speech (large speech-to-noise ratio) safe readings, since the distinction between language and language break can be made safely (Fig.1).
  • the intensity of the noise in the speech pauses reaches the intensity of the active Language or even exceeds this, no intensity threshold is to be found, the one Distinction between language and linguistic break allows.
  • Such measuring methods are used in so-called sample connection systems, in to which a known reference speech signal (source speech signal) is fed at the source, over z. B. transmitted a telephone connection and recorded on the sink. To the recording of the speech signal are used to evaluate the speech quality of the possibly disturbed signal whose characteristics with those of undisturbed Source speech signal compared.
  • source speech signal source speech signal
  • Such a method can easily be modified if a constant time difference (eg delay due to signal transmission) occurs between the source speech signal and the disturbed signal.
  • a constant time difference eg delay due to signal transmission
  • the condition is, however, that this time difference can be determined in advance safely and then used to correct the times end or beginning of voice activity.
  • time-invariant systems since they have a constant delay (FIG. 3c).
  • time-invariant systems include, in particular, packet-based transmission systems in which significant fluctuations in the system delay can occur due to different packet delays and appropriate management in the receiver. In order to prevent losses due to late arrival of parcels, some language breaks in the recipient are extended and later shortened again.
  • a transmission of the times of the beginning or end of the voice activity is only possible with knowledge of the current delay at these points.
  • the adaptive determination of the time offset is computationally intensive and often succeeds only inadequately with reduced speech-noise ratios. If the adaptive determination of the time offset is not successful, the beginning and end of speech pauses can not be determined exactly or not at all. As a result, no or only an uncertain determination of the intensity characteristics of pause noise is possible.
  • the known methods assume the time from the beginning and end of a Language break as accurately as possible to determine. The result is then the signal from the Pause sections available for further evaluation. Separated from these Pause sections of the signal, the intensity characteristics are determined.
  • intensity characteristics of background noise in speech pauses of speech signals are determined without the exact times from the beginning and end of a break period. Also is one Separation of the speech pause signal is not required for the evaluation.
  • Basis for the method described here for the determination of intensity characteristics of Background noise in speech pauses of speech signals is the cumulative frequency distribution the intensity values of the signal segments into which the speech signal previously divided. These short-term signal intensities refer to signal segments with a duration of e.g. 8ms or 16ms. The frequency distribution indicates how high the Proportion of short-term intensities below a defined threshold is.
  • the speech signal to be analyzed in subdivided into short consecutive signal segments and from each signal segment of the Intensity value (e.g., Loudness or RMS).
  • the Intensity value e.g., Loudness or RMS
  • Fig. 4 shows a typical waveform for speech signals with stationary background noise (Voice-noise distance approx. 10dB).
  • the steep increase in the function at approx. 30 sone points to a low fluctuation of the Signal intensity in large areas (nearly 70%) of the signal. As signal was here uses a speech signal with additive white noise.
  • the proportion of speech pauses in the entire speech signal is known and becomes this proportion defined as the frequency threshold, it can be determined from the frequency distribution of the short-term intensities determines the intensity threshold corresponding to the frequency threshold become.
  • Fig. 4 is entered as an example, a proportion of voice pauses of 58%.
  • the area below the intensity threshold shows the frequency distribution for Intensity values of signal segments in the speech pauses and can for the determination of intensity characteristics of the background noise used in the speech pauses become.
  • the cumulative distribution function can also be used to derive the arithmetic mean of all segments whose intensities are below a previously established frequency threshold. For this purpose, first a differentiation of the cumulative distribution function P (x) into a distribution density function p (x) is to be carried out. The arithmetic mean of all evaluated intensities X of the total signal is calculated as known from the integral of the distribution density function p (x):
  • the intensity threshold x G can be derived from the distribution function P (x) .
  • the calculated arithmetic Mean should be considered as the mean of the intensity in speech pauses.
  • the value for the distribution function G (x, ⁇ , ⁇ 2 ) for x ⁇ ⁇ is 1.
  • the graph shows speech as background noise and has a speech pause rate of 58%.
  • Fig. 7 is demonstrated by the example of FIG. 4, as from the function of Intensity value can be determined by only 20% of the speech pause segments is exceeded (20% percentile loudness).
  • the value is only slightly less than the maximum value due to the example given little fluctuating noise.
  • the presented here embodiment of the method for determining the intensity of Background noise determines the arithmetic mean of all the loudnesses of the Segments that are below a certain frequency threshold.
  • This frequency threshold corresponds to the proportion of speech pauses in the signal and the calculated one Arithmetic mean is considered as average loudness in speech pauses.
  • the distribution density function is used.
  • Prerequisite is that both signals, i. the undisturbed source speech signal and the Disturbed signal to be evaluated, fully recorded.
  • the proportion of speech pauses P z in this signal is determined by means of a suitable threshold on the basis of the source speech signal.
  • the second step is the calculation of the desired intensity values for successive short signal segments of the speech signal to be evaluated.
  • the loudnesses are calculated according to ISO532 in successive signal portions of 16ms length.
  • the distribution function is approximated by a series of individual values (discrete relative frequency distribution). These individual values are designated by successive indices m.
  • the series of individual values is limited at a maximum value M (eg: P 0 ... P 200 ).
  • M eg: P 0 ... P 200
  • P m a maximum value
  • the value p m then contains the relative frequency of the segments whose loudness is between m and m + 1 .
  • the correction value 1 ⁇ 2 corresponds to half the distance between two consecutive indices.
  • the value p m contains the relative frequency of segments whose loudnesses are between m and m + 1 .
  • the expected value of all loudnesses recorded here is, assuming an equal distribution of the loudnesses of m .... m + 1, therefore m + 0.5.
  • the method provides a discrete frequency distribution with a resolution of 1 sone, since the index m is an integer and the loudness values are assigned directly to the corresponding indexes.
  • the loudness value has to be multiplied with corresponding factors before calculating the relative frequency distribution.
  • a multiplication of all the launess values by a factor of 2 is performed in order to increase the resolution of the representation when using integer indexes. This then corresponds to a loudness grading at integer indexes of 0.5 sone.
  • loudnesses from 0 ... 100 sone can be mapped in steps of 0.5 sone .
  • this factor must be applied as a divisor to all results for correction. In the exemplary embodiment selected here, this means that the calculated arithmetic mean value is to be divided by 2.
  • the voice-to-noise ratio is for information purposes only; The basis for this is the distance between the average level of activity in speech activity and the mean effective level of background noise.
  • the mean loudness value (target value) was determined in a reference measurement, in which the speech pauses were marked manually and evaluated in segments of 16 ms.
  • the calculated standard deviations refer to the thus measured reference loudnesses and give information about the magnitude of the occurring fluctuations.
  • the measured values in column 5 were determined using the method described in this exemplary embodiment.
  • the measurement reliability increases with increasing pause portion in the signal to be evaluated.
  • An increase in the measurement reliability can also be observed with decreasing noise intensity and a lesser temporal fluctuation of the background noise.
  • the measured values achieved with the presented method are satisfactory, even in the case of stronger fluctuations in background noise (eg speech).
  • This particular embodiment shows an application of the described simplified method for the determination of the arithmetic mean using a weighted normal distribution.
  • the simplified method dispenses with the calculation of the strip frequency and derives an estimated value for the arithmetic mean of the loudnesses of all segments whose loudnesses are below the predetermined frequency threshold P z , directly from the relative frequency distribution P m . As described, only the value ⁇ needs to be set for the estimation.
  • 1.1 is defined.
  • the estimated value then corresponds to the loudness value, which is not exceeded by a proportion of 0.5 * 1.1 * P z of all evaluated segments.
  • this estimated value of the arithmetic mean corresponds to the loudnesses, the index m of the frequency value, which has the smallest absolute difference to 0.55 P z .
  • Table 2 lists the measurements obtained by this simplified procedure. Again, to increase the resolution to 0.5 sone, all loudness values were multiplied by a factor of 2 before calculating the frequency distribution, and the results were corrected accordingly.
  • the simplified method not only saves computation time, but in the evaluated examples provides measured values with a significantly higher accuracy compared to the values from Table 1. Since the index m is used directly as an estimate, the accuracy of the estimation is based on the resolution of the relative discrete frequency distribution (here: 0.5 sone ) limited.
  • the integer index m of the frequency value P m which has the least absolute difference to P S10% , provides the searched percentile loudness value.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Transforming Light Signals Into Electric Signals (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

A method for determining intensity characteristics of background noise during speech pauses of speech signals includes determining a proportion of speech pauses in the undisturbed source speech signal so as to define a frequency threshold. The disturbed speech signal is divided into short successive signal elements, an intensity value is determined for each of the signal elements, and a cumulative relative frequency distribution is formed from the determined intensity values of the signal elements. The cumulative relative frequency distribution is used to determine an intensity threshold value which corresponds to the defined frequency threshold. At least one intensity characteristic of the background noise during the speech pauses is determined using a region of the cumulative relative frequency distribution below the intensity threshold value.

Description

Die Erfindung bezieht sich auf ein Verfahren zur Bewertung von Hintergrundgeräuschen in Sprachpausen von aufgezeichneten oder übertragenen Sprachsignalen wie in Anspruch 1 definiert.The invention relates to a method for the evaluation of background noise in Speech pauses of recorded or transmitted speech signals as defined in claim 1.

Die empfundene Sprachqualität, z.B. in Telefonverbindungen oder Rundfunkübertragungen, wird hauptsächlich von sprachsimultanen Störungen, also von Störungen während der Sprachaktivität, bestimmt. Aber auch Geräusche in den Sprachpausen gehen in das Qualitätsurteil ein, insbesondere bei hochqualitativer Sprachwiedergabe.The perceived speech quality, e.g. in telephone connections or radio broadcasts, is mainly of language-simultaneous disorders, so of disorders during speech activity. But also noise in the speech pauses go in the quality judgment, especially in high-quality speech reproduction.

Die Intensität des Hintergrundgeräusches in den Sprachpausen kann als ergänzender Kennwert zur Bestimmung der Sprachqualität (Sprachgüte) verwendet werden.The intensity of background noise in the speech pauses can be considered complementary Characteristic value can be used to determine the voice quality (voice quality).

Sprachqualitätsbestimmungen von Sprachsignalen werden in der Regel mittels auditiver ("subjektiver") Untersuchungen mit Versuchspersonen vorgenommen.Speech quality determinations of speech signals are usually auditory ("subjective") investigations carried out with test subjects.

Das Ziel von instrumentellen ("objektiven") Verfahren zur Sprachqualitätsbestimmung ist es dagegen, aus Eigenschaften des zu bewertenden Sprachsignals mittels geeigneter Rechenverfahren Kennwerte zu ermitteln, die die Sprachqualität des Sprachsignals beschreiben, ohne auf Urteile von Versuchspersonen zurückgreifen zu müssen.The goal of instrumental ("objective") speech quality assessment procedures is it, on the other hand, from properties of the speech signal to be evaluated by means of suitable Calculating characteristic values that determine the speech quality of the speech signal describe without having to resort to judgments from test subjects.

Eine sichere Qualitätsbestimmung liefern instrumentelle Verfahren, die auf einem Vergleich von ungestörtem Referenzsprachsignal (Quellsprachsignal) und dem gestörten Sprachsignal am Ende der Übertragungskette beruhen. Es existieren viele solcher Verfahren, die meist in sogenannten Probeverbindungssystemen eingesetzt werden. Dabei wird an der Quelle das ungestörte Quellsprachsignal eingespeist und nach der Übertragung wieder aufgezeichnet. A safe determination of quality provide instrumental procedures that are based on a Comparison of undisturbed reference speech signal (source speech signal) and the disturbed one Speech signal based on the end of the transmission chain. There are many such Processes that are mostly used in so-called sample connection systems. there At the source, the undisturbed source speech signal is fed in and after transmission recorded again.

Stand der Technik und Nachteile bekannter VerfahrenState of the art and disadvantages of known methods

Bekannte Verfahren zur Bestimmung der Intensität von Hintergrundgeräuschen gehen meist vom gestörten Signal selbst aus und nutzen eine festgelegte Intensitätschwelle zur Unterscheidung von aktiver Sprache und Sprachpausen (Fig. 1). Diese Schwelle ist im einfachsten Fall konstant im Verfahren eingestellt, kann aber auch anhand des Signalverlaufs adaptiert werden (z.B. festgelegter Abstand zum Signal-Spitzenwert). Das Ziel ist eine sichere Unterscheidung zwischen Sprache und Sprachpause. Gelingt die Unterscheidung, können die gesuchten Intensitätskennwerte des Hintergrundgeräuschs aus den als Sprachpause detektierten Signalabschnitten bestimmt werden. Dazu werden im Allgemeinen die als Sprachpause detektierten Signalabschnitte nochmals in kürzere Segmente (typisch sind 8...40ms) unterteilt und für diese die Intensitätsberechnungen (z.B. Effektivwert oder Lautheit) vorgenommen. Aus den Ergebnissen können dann Intensitätskennwerte bestimmt werden.Known methods for determining the intensity of background noise go mostly from the disturbed signal itself and use a fixed intensity threshold for Distinction between active speech and speech pauses (Fig. 1). This threshold is in the simplest case set constant in the process, but can also be based on the waveform be adapted (e.g., fixed distance to the signal peak). The aim is a safe distinction between language and language break. Manages the distinction For example, the sought after intensity characteristics of the background noise can be determined from the be determined as a voice break detected signal sections. This will be in the In general, the signal sections detected as a speech break again into shorter Segments (typically 8 ... 40ms) are divided and for these the intensity calculations (e.g., rms or loudness). From the results can then Intensity characteristics are determined.

Die Verfahren liefern bei geringen Geräuschintensitäten in Sprachpausen und gleichzeitig hoher Intensität der Sprache (großes Sprach-Geräusch-Verhältnis) sichere Meßwerte, da die Unterscheidung zwischen Sprache und Sprachpause sicher erfolgen kann (Fig.1 ).The methods provide at low noise levels in speech pauses and at the same time high intensity of speech (large speech-to-noise ratio) safe readings, since the distinction between language and language break can be made safely (Fig.1).

Bei steigenden Geräuschintensitäten in Sprachpausen (abnehmendes Sprach-Geräusch-Verhältnis) treten zunehmend Unsicherheiten in der Unterscheidung zwischen Sprache und Sprachpausen auf. Hier ist es schwierig den Schwellenwert so festzulegen, dass zum einen keine Geräuschabschnitte mit höheren Intensitäten als Sprache detektiert werden (Schwelle zu niedrig) und zum anderen keine Sprachabschnitte geringerer Intensität als Sprachpause gewertet werden (Schwelle zu hoch) (Fig. 2).With increasing noise intensities in speech pauses (decreasing speech-noise ratio) There are increasing uncertainties in the distinction between language and language Speech pauses. Here it is difficult to set the threshold so that on the one hand no sound sections with higher intensities than speech are detected (threshold too low) and on the other hand no linguistic sections of lesser intensity than language break be rated (threshold too high) (Fig. 2).

Erreicht die Intensität des Geräusches in den Sprachpausen die Intensität der aktiven Sprache oder übersteigt diese sogar, ist keine Intensitätsschwelle zu finden, die eine Unterscheidung zwischen Sprache und Sprachpause ermöglicht. The intensity of the noise in the speech pauses reaches the intensity of the active Language or even exceeds this, no intensity threshold is to be found, the one Distinction between language and linguistic break allows.

Lösungen für die beschriebenen Probleme sind möglich, wenn z.B. unterschiedliche spektrale Charakteristika von Sprache und Hintergrundgeräuschen vorliegen. Hier kann durch geeignete, Vorfilterung des Signals bzw. durch eine spektrale Analyse und Auswertung von ausgewählten Frequenzbändern ein höheres Verhältnis von Sprache zu Hintergrundgeräusch in den betrachteten Frequenzbereichen erreicht werden, so dass wieder eine sichere Unterscheidung zwischen aktiver Sprache und Sprachpause möglich ist.Solutions to the problems described are possible if e.g. different spectral characteristics of speech and background noise are present. Here can by suitable pre-filtering of the signal or by a spectral analysis and Evaluation of selected frequency bands a higher ratio of language to Background noise can be achieved in the considered frequency ranges, so that again a safe distinction between active language and language break possible is.

Andere Lösungen bedienen sich bestimmter Parameter, die bei Sprachcodierung ermittelt werden und nutzen diese zur Unterscheidung zwischen Sprache und Abschnitten mit Hintergrundgeräuschen. Dabei ist es das Ziel, aus den Parametern abzuleiten, ob das betrachtete Signalsegment typische Eigenschaften von Sprache (z.B. stimmhafte Anteile) aufweist. Ein Beispiel hierfür ist "Voice-Activity Detector" (ETSI Recommendation GSM 06.92, Valboune, 1989).Other solutions use certain parameters that are determined by speech coding and use them to distinguish between language and sections Background noise. The goal is to derive from the parameters whether the signal segment considered typical properties of speech (e.g., voiced parts) having. An example of this is "Voice Activity Detector" (ETSI Recommendation GSM 06.92, Valboune, 1989).

Diese Verfahren arbeiten bei geringen Sprach-Geräusch-Verhältnissen robuster und werden vorrangig zur Unterdrückung der Übertragung von Sprachpausen z.B. im Mobilfunk eingesetzt. Die Verfahren zeigen jedoch Unsicherheiten, wenn das Hintergrundgeräusch selbst Sprache beinhaltet oder sprachähnlich ist. Solche Abschnitte werden dann als Sprache klassifiziert, obwohl sie von einem Zuhörer als störendes Hintergrundgeräusch empfunden werden.These methods work and become more robust at low speech-to-noise ratios primarily for suppressing the transmission of speech pauses e.g. in mobile used. However, the procedures show uncertainties when the background noise even language contains or is language-similar. Such sections are then called Language classified, although by a listener as a disturbing background noise be felt.

Instrumentelle Sprachqualitätsmessverfahren basieren meist auf dem Prinzip des Signalvergleichs von ungestörtem Referenzsprachsignal und gestörtem und zu bewertenden Signal. Beispiele hierfür sind die Veröffentlichungen:

  • "A perceptual speech-quality measure based on a psychacoustic sound representation" (Beerends, J. G.; Stemerdink, J. A., J. Audio Eng. Soc. 42(1994)3, S. 115-123)
  • "Auditory distortion measure for speech coding" (Wang, S; Sekey, A.; Gersho, A.: IEEE Proc. lnt. Conf. acoust., speech and signalprocessing (1991), S.493-496).
  • Instrumental speech quality measurement methods are mostly based on the principle of signal comparison of undisturbed reference speech signal and disturbed signal to be evaluated. Examples are the publications:
  • "A perceptual speech-quality measure based on a psychacoustic sound representation" (Beerends, JG; Stemerdink, JA, J. Audio Eng. Soc. 42 (1994) 3, pp. 115-123)
  • "Auditory distortion measure for speech coding" (Wang, S; Sekey, A., Gersho, A .: IEEE Proc. Int. Conf. Acoust., Speech and signal processing (1991), pp. 493-496).
  • Der derzeit gültige ITU-T Standard P.861 beschreibt ebenfalls ein derartiges Verfahren: "Objective quality measurement of telephone-band speech codecs" (ITU-T Rec. P.861, Genf 1996).The currently valid ITU-T standard P.861 also describes such a procedure: "Objective quality measurement of telephone-band speech codecs" (ITU-T Rec. P.861, Geneva 1996).

    Solche Messverfahren werden in sogenannten Probeverbindungssystemen eingesetzt, bei denen ein bekanntes Referenzsprachsignal (Quellsprachsignal) an der Quelle eingespeist, über z. B. eine Telefonverbindung übertragen und an der Senke aufgezeichnet wird. Nach der Aufzeichnung des Sprachsignals werden zur Bewertung der Sprachqualität des möglicherweise gestörten Signals dessen Eigenschaften mit denen des ungestörten Quellsprachsignals verglichen.Such measuring methods are used in so-called sample connection systems, in to which a known reference speech signal (source speech signal) is fed at the source, over z. B. transmitted a telephone connection and recorded on the sink. To the recording of the speech signal are used to evaluate the speech quality of the possibly disturbed signal whose characteristics with those of undisturbed Source speech signal compared.

    Steht für die Bestimmung des Hintergrundgeräuschs in Sprachpausen das ungestörte Quellsprachsignal zur Verfügung, dann kann dieses zur Festlegung der Übergangszeitpunkte von Sprache zur Sprachpause bzw. von Sprachpause zur Sprache benutzt werden. Dazu wird z.B. ein Verfahren mit Schwellwertbestimmung - wie oben beschrieben - auf das Quellsprachsignal angewandt. Das Verfahren liefert sichere Unterscheidungen zwischen Sprache und Sprachpause, da das Sprach-Geräusch-Verhältnis im ungestörten Quellsprachsignal ausreichend hoch ist (Fig. 3a). Die Zeitpunkte der Schwellpassage, d.h. Beginn bzw. Ende der Sprachaktivität, können nun auf das gestörte Sprachsignal übertragen werden (Fig. 3b).Is the undisturbed for determining the background noise in speech pauses Source speech signal available, then this can be used to determine the transition times from speech to speech pause or from speech pause to speech. For this purpose, e.g. a method with threshold determination - as described above - on the source speech signal applied. The method provides reliable distinctions between speech and linguistic break, since the speech-to-noise ratio is undisturbed Source speech signal is sufficiently high (Fig. 3a). The times of the threshold passage, i. Start or end of voice activity, can now access the disturbed voice signal be transmitted (Fig. 3b).

    Unproblematisch kann ein solches Verfahren modifiziert werden, wenn zwischen Quellsprachsignal und gestörtem Signal eine konstante Zeitdifferenz (z.B. Verzögerung durch Signalübertragung) eintritt. Bedingung ist aber, dass diese Zeitdifferenz vorab sicher bestimmt werden kann und dann zur Korrektur der Zeitpunkte Ende bzw. Beginn der Sprachaktivität genutzt wird. Das ist meist bei zeit-invarianten Systemen möglich, da diese eine konstante Verzögerung besitzen (Fig. 3c).
    Prinzipiell funktioniert ein solches Verfahren auch, wenn der Zeitversatz zwischen beiden Signalen nicht für die gesamte Signallänge konstant ist, sondern variabel verläuft. Zu diesen zeit-invarianten Systemen zählen insbesondere paket-basierte Übertragungssysteme, bei denen durch unterschiedliche Paketlaufzeiten und entsprechendes Management im Empfänger deutliche Schwankungen in der Systemverzögerung auftreten können. Um Verlusten durch verspätet eintreffende Pakete vorzubeugen, werden teilweise Sprachpausen im Empfänger verlängert und spätere wieder verkürzt. Eine Übertragung der Zeitpunkte von Beginn bzw. Ende der Sprachaktivität ist nur noch bei Kenntnis der aktuellen Verzögerung an diesen Punkten möglich. Die adaptive Bestimmung des Zeitversatzes ist rechenzeitintensiv und gelingt insbesondere bei verringerten Sprach-Geräusch-Verhältnissen oft nur unzureichend. Wenn die adaptive Bestimmung des Zeitversatzes nicht sicher gelingt, können Anfang und Ende von Sprachpausen nicht exakt oder gar nicht ermittelt werden. Dadurch ist keine oder nur eine unsichere Bestimmung der Intensitätskennwerte von Pausengeräuschen möglich.
    Such a method can easily be modified if a constant time difference (eg delay due to signal transmission) occurs between the source speech signal and the disturbed signal. The condition is, however, that this time difference can be determined in advance safely and then used to correct the times end or beginning of voice activity. This is usually possible with time-invariant systems, since they have a constant delay (FIG. 3c).
    In principle, such a method also works if the time offset between the two signals is not constant for the entire signal length but runs variably. These time-invariant systems include, in particular, packet-based transmission systems in which significant fluctuations in the system delay can occur due to different packet delays and appropriate management in the receiver. In order to prevent losses due to late arrival of parcels, some language breaks in the recipient are extended and later shortened again. A transmission of the times of the beginning or end of the voice activity is only possible with knowledge of the current delay at these points. The adaptive determination of the time offset is computationally intensive and often succeeds only inadequately with reduced speech-noise ratios. If the adaptive determination of the time offset is not successful, the beginning and end of speech pauses can not be determined exactly or not at all. As a result, no or only an uncertain determination of the intensity characteristics of pause noise is possible.

    Beispiele von der Bestimmung von Hintergrundgeräuschen gemäß dem Stand der Technik sind von US6044342A, US5598466A, WO0052683A und US4811404A bekannt.Examples of the determination of background noise according to the The prior art are from US6044342A, US5598466A, WO0052683A and US4811404A.

    Aufgabetask

    Wie beschrieben, ist die Bestimmung von Hintergrundgeräuschen in Sprachpausen auch bei Kenntnis des ungestörten Quellsprachsignals schwierig oder teilweise unmöglich, insbesondere wenn

    • ein geringes Verhältnis von Sprache zu Hintergrundgeräusch vorliegt,
    • das Hintergrundgeräusch Sprache beinhaltet oder selbst sprachähnlich ist,
    • der Zeitversatz zwischen ungestörtem Quellsprachsignal und gestörtem Sprachsignal nicht konstant über die gesamte Signallänge ist.
    As described, the determination of background noise in speech pauses is difficult or partially impossible, even if the undisturbed source speech signal is known, especially if
    • there is a low ratio of speech to background noise,
    • the background noise includes speech or is itself speech-like,
    • the time offset between undisturbed source speech signal and disturbed speech signal is not constant over the entire signal length.

    Es soll ein Verfahren vorgestellt werden, mit dem auch unter den genannten Bedingungen eine sichere und schnelle Bestimmung von Intensitätskennwerten des Hintergrundgeräuschs in Sprachpausen gewährleistet wird. Bedingung ist, dass sowohl Quellsprachsignal als auch gestörtes Sprachsignal vollständig aufgezeichnet zur Verfügung stehen.It should be presented a procedure, with which also under the conditions mentioned a safe and fast determination of background noise intensity characteristics is ensured in speech pauses. Condition is that both source speech signal as well as disturbed speech signal are fully recorded available.

    Lösungsprinzipsolution principle

    Die bekannten Verfahren gehen davon aus, den Zeitpunkt von Beginn und Ende einer Sprachpause möglichst exakt zu ermitteln. Im Ergebnis steht dann das Signal von den Pausenabschnitten zur weiteren Auswertung zur Verfügung. Aus diesen separierten Pausenabschnitten des Signals werden die Intensitätskennwerte ermittelt. The known methods assume the time from the beginning and end of a Language break as accurately as possible to determine. The result is then the signal from the Pause sections available for further evaluation. Separated from these Pause sections of the signal, the intensity characteristics are determined.

    Mit dem vorliegenden Verfahren können Intensitätskennwerte von Hintergrundgeräuschen in Sprachpauscn von Sprachsignalen bestimmt werden, ohne dass die exakten Zeitpunkte von Beginn und Ende eines Pausenabschnitts ermitteln werden müssen. Auch ist eine Separierung des Sprachpausensignals für die Auswertung nicht erforderlich.With the present method, intensity characteristics of background noise in speech pauses of speech signals are determined without the exact times from the beginning and end of a break period. Also is one Separation of the speech pause signal is not required for the evaluation.

    Basis für das hier beschriebene Verfahren zur Bestimmung von Intensitätskennwerten von Hintergrundgeräuschen in Sprachpausen von Sprachsignalen ist die kumulative Häufigkeitsverteilung der Intensitätswerte von den Signalsegmenten, in die das Sprachsignal zuvor unterteilt wird. Diese Kurzzeit-Signalintensitäten beziehen sich auf Signalsegmente mit einer Dauer von z.B. 8ms oder 16ms. Die Häufigkeitsverteilung gibt an, wie hoch der Anteil an Kurzzeit-Intensitäten unterhalb eines definierten Schwellwertes ist.Basis for the method described here for the determination of intensity characteristics of Background noise in speech pauses of speech signals is the cumulative frequency distribution the intensity values of the signal segments into which the speech signal previously divided. These short-term signal intensities refer to signal segments with a duration of e.g. 8ms or 16ms. The frequency distribution indicates how high the Proportion of short-term intensities below a defined threshold is.

    Für die Berechnung der Häufigkeitsverteilung wird das zu analysierende Sprachsignal in kurze aufeinanderfolgende Signalsegmente unterteilt und von jedem Signalsegment der Intensitätswert (z.B. Lautheit oder Effektivwert) bestimmt.For the calculation of the frequency distribution, the speech signal to be analyzed in subdivided into short consecutive signal segments and from each signal segment of the Intensity value (e.g., Loudness or RMS).

    Fig. 4 zeigt einen typischen Kurvenverlauf für Sprachsignale mit stationärem Hintergrundgeräusch (Sprach-Geräusch-Abstand ca. 10dB). Die kumulative Häufigkeitsverteilung ist am Beispiel von Kurzzeit-Lautheiten (Lautheiten berechnet nach ISO532) dargestellt. Ausgewertet wurden 2000 Segmente von 16ms Länge. Es ist zu erkennen, dass keines der Segmente einen geringeren Wert als 30 sone aufweist (P = 0 %) und auch kein Segment eine höhere Lautheit als 80 sone erreicht, da hier schon der Wert P=100 % erreicht wird. Der steile Anstieg der Funktion bei ca. 30 sone lässt auf eine geringe Fluktuation der Signalintensität in großen Bereichen (fast 70%) des Signals schließen. Als Signal wurde hier ein Sprachsignal mit additiven weißen Rauschen benutzt.Fig. 4 shows a typical waveform for speech signals with stationary background noise (Voice-noise distance approx. 10dB). The cumulative frequency distribution is using the example of short-term loudness (loudness calculated according to ISO532). 2000 segments of 16ms length were evaluated. It can be seen that none of the Segments has a value less than 30 sone (P = 0%) and no segment achieved a higher loudness than 80 sone, since the value P = 100% is already reached here. The steep increase in the function at approx. 30 sone points to a low fluctuation of the Signal intensity in large areas (nearly 70%) of the signal. As signal was here uses a speech signal with additive white noise.

    Eine solche Verteilungsfunktion soll nun dazu benutzt werden, lntensitätskennwerte von Hintergrundgeräuschen in den Sprachpausen zu ermitteln. Dazu ist es erforderlich, den Anteil an Sprachpausen im Gesamtsignal zu kennen. Dieser Anteil kann aus dem ungestörten Quellsprachsignal bestimmt werden (Fig. 3a). Gesamtlänge der Sprachpausen = (t 1 - t0) + (t3 - t2) Gesamtlänge des Signalabschnitts = (t4 - t0) Sprachpausenanteil = Gesamtlänge der SprachpausenGesamtlänge des Signalabschnitts Such a distribution function should now be used to determine intensity characteristics of background noise in the speech pauses. For this it is necessary to know the proportion of speech pauses in the overall signal. This proportion can be determined from the undisturbed source speech signal (FIG. 3a). Total length of speech pauses = (t 1 - t0) + (t3 - t2) Total length of the signal section = (t4 - t0) Language break share = Total length of the speech pauses Total length of the signal section

    Wird davon ausgegangen, dass das Verhältnis von aktiver Sprache zu Sprachpausen während der Übertragung weitgehend konstant bleibt, kann dieser Wert auch auf das gestörte Signal übertragen werden.It is assumed that the ratio of active language to language pauses While the transmission remains largely constant, this value can also be applied to the disturbed signal to be transmitted.

    Ist der Anteil an Sprachpausen am gesamten Sprachsignal bekannt und wird dieser Anteil als Häufigkeitsschwelle definiert, so kann aus der Häufigkeitsverteilung der Kurzzeit-Intensitäten der der Häufigkeitsschwelle entsprechende Intensitätsschwellwert ermittelt werden.If the proportion of speech pauses in the entire speech signal is known and becomes this proportion defined as the frequency threshold, it can be determined from the frequency distribution of the short-term intensities determines the intensity threshold corresponding to the frequency threshold become.

    In Fig. 4 ist als Beispiel ein Anteil an Sprachpausen von 58 % eingetragen. Dieser Häufigkeitsschwelle Pz = 0.58 entspricht ein Intensitätsschwellwert von N = 34.5 sone, das bedeutet, dass von 58 % der Signalsegmente der Intensitätswert (Lautheit) von 34,5 sone nicht überschritten wird.In Fig. 4 is entered as an example, a proportion of voice pauses of 58%. This frequency threshold P z = 0.58 corresponds to an intensity threshold of N = 34.5 sone, which means that of 58% of the signal segments the intensity value (loudness) of 34.5 sone is not exceeded.

    Der Bereich unterhalb des Intensitätsschwellwertes zeigt die Häufigkeitsverteilung für Intensitätswerte von Signalsegmenten in den Sprachpausen und kann für die Ermittlung von Intensitätskennwerten von den Hintergrundgeräuschen in den Sprachpausen benutzt werden.The area below the intensity threshold shows the frequency distribution for Intensity values of signal segments in the speech pauses and can for the determination of intensity characteristics of the background noise used in the speech pauses become.

    Es wird davon ausgegangen, dass kein Sprachpausensegment einen höheren Intensitätswert als ein Sprachsegment besitzt, so dass der Intensitätsschwellwert als Maximalwert für das Hintergrundgeräusch in Sprachpausen angesehen werden kann. It is assumed that no speech pause segment has a higher intensity value has as a speech segment, so that the intensity threshold value as the maximum value for the Background noise in speech pauses can be viewed.

    Ermittlung des arithmetischen Mittelwertes von IntensitätenDetermination of the arithmetic mean of intensities

    Aus der kumulativen Verteilungsfunktion lässt sich auch der arithmetische Mittelwert aller Segmente ableiten, deren Intensitäten sich unter einer vorher ermittelten Häufigkeitsschwelle befinden. Dazu ist zunächst eine Differenzierung der kumulativen Verteilungsfunktion P(x) in eine Verteilungsdichtefunktion p(x) vorzunehmen.
    Das arithmetische Mittel aller ausgewerteten Intensitäten Xdes Gesamtsignals berechnet sich wie bekannt aus dem Integral der Verteilungsdichtefunktionp(x):

    Figure 00080001
    The cumulative distribution function can also be used to derive the arithmetic mean of all segments whose intensities are below a previously established frequency threshold. For this purpose, first a differentiation of the cumulative distribution function P (x) into a distribution density function p (x) is to be carried out.
    The arithmetic mean of all evaluated intensities X of the total signal is calculated as known from the integral of the distribution density function p (x):
    Figure 00080001

    Eine Begrenzung der Integration bei einem bestimmten Wert xG ermöglicht die Ermittlung des arithmetischen Mittelwertes über alle Werte X, die unter diesem Grenzwert liegen. Dabei ist jedoch das Ergebnis mit der Häufigkeit P(xG) zu wichten. Diese Häufigkeit entspricht dem Integral über p(x) bis zum Wert xG.

    Figure 00080002
    A limitation of the integration at a certain value x G makes it possible to determine the arithmetic mean over all values X which are below this limit value. However, the result should be weighted with the frequency P (x G ) . This frequency corresponds to the integral over p (x) up to the value x G.
    Figure 00080002

    Der Intensitätsschwellwert xG kann aus der Verteilungsfunktion P(x) abgeleitet werden. Im Beispiel nach Fig. 4 ist der Häufigkeitsschwellwert P(xG) der Anteil von Sprachpausen im Gesamtsignal Pz = 0.58 , dem der Intensitätsschwellwert xG = 34.5 sone zugeordnet ist. Das arithmetische Mittel aller Segmente mit einer Intensität, die geringer als xG ist, berechnet sich nach Gl. 2, wobei xG = 34.5 sone gilt. Die Häufigkeit von 58% entspricht hier dem Wichtungswert P(xG =34.5) = 0.58. Grafisch ist dieses Vorgehen in Fig. 5 dargestellt.The intensity threshold x G can be derived from the distribution function P (x) . In the example according to FIG. 4, the frequency threshold value P (x G ) is the proportion of speech pauses in the overall signal P z = 0.58 to which the intensity threshold value x G = 34.5 sone is assigned. The arithmetic mean of all segments with an intensity less than x G is calculated according to Eq. 2, where x G = 34.5 sone . The frequency of 58% here corresponds to the weighting value P (x G = 34.5) = 0.58 . Graphically, this procedure is shown in FIG. 5.

    Wird nun wieder davon ausgegangen, dass die Intensitäten von Segmenten in Sprachpausen, die Intensitäten von Sprachsegmenten nicht übersteigen oder das Hintergrundgeräusch nur schwache zeitliche Fluktuationen aufweist, kann der berechnete arithmetische Mittelwert als Mittelwert der Intensität in Sprachpausen betrachtet werden. If it is assumed again that the intensities of segments in speech pauses, do not exceed the intensities of speech segments or the background noise has only weak temporal fluctuations, the calculated arithmetic Mean should be considered as the mean of the intensity in speech pauses.

    Vereinfachtes Verfahren zur Bestimmung des arithmetischen MittelwertesSimplified method for determining the arithmetic mean

    Ein vereinfachtes Verfahren zur Bestimmung des Mittelwertes über alle X geht von der Annahme aus, dass die relative Häufigkeitsverteilung der Intensitätswerte der Signalsegmente im Bereich P(x) = 0 bis zum Häufigkeitsschwellwert von Sprachpausen Pz durch eine gewichteten Normalverteilung G(x, µ σ2) angenähert werden kann. Der Wert für die Verteilungsfünktion G(x, µ, σ2) für x→∞ ist 1. Wie bekannt, entspricht der Wert x, bei dem gilt G(x, µ, σ2) = 0.5, dem arithmetischen Mittel über alle Einzelwerte X.A simplified method for determining the mean over all X is based on the assumption that the relative frequency distribution of the intensity values of the signal segments in the range P (x) = 0 to the frequency threshold of speech pauses P z is represented by a weighted normal distribution G (x, μ σ 2 ) can be approximated. The value for the distribution function G (x, μ, σ 2 ) for x → ∞ is 1. As is known, the value x , where G (x, μ, σ 2 ) = 0.5, corresponds to the arithmetic mean over all individual values X.

    Gelingt eine Näherung der relativen Häufigkeitsverteilung P(x) im Bereich von P(x) = 0 bis Pz mit einer gewichteten Normalverteilung κ Pz G(x, µ, σ2), dann entspricht der arithmetische Mittelwert über X für die gewichtete Normalverteilung dem Wert x für den gilt: G(x, µ σ2) = 0.5 κ Pz . Durch die Annahme, dass κPz G(x, µ, σ2) die Verteilung P(x) im Bereich von P(x) = 0 bis Pz gut annähert und κ ≥ 1 ist, entspricht der gesuchte arithmetische Mittelwert dem Wert xA , für den gilt P(xA) = 0.5 κ Pz. If an approximation of the relative frequency distribution P (x) is obtained in the range from P (x) = 0 to P z with a weighted normal distribution κ P z G (x, μ, σ 2 ), then the arithmetic mean over X corresponds to the weighted normal distribution the value x for the following applies: G (x, μ σ 2 ) = 0.5 κ P z . By assuming that κP z G (x, μ, σ 2 ) closely approximates the distribution P (x) in the range from P (x) = 0 to P z and κ ≥ 1, the arithmetic mean sought is equal to x A , for which P (x A ) = 0.5 κ P z .

    Für den hier betrachteten Anwendungsfall von Sprache mit additivem Hintergrundgeräusch zeigen Werte für κ= 1... 1.3 gute Approximationsergebnisse. In Fig. 6 ist ein Beispiel für die Annäherung durch gewichtete Normalverteilungen gezeigt. Dabei wurde ein Wert κ =1. 1 gewählt. Das Diagramm zeigt Sprache als Hintergrundgeräusch und hat einen Sprachpausenanteil von 58 %. Die starke zeitliche Fluktuation des Sprachhintergrundes lässt sich deutlich als flachere Steigung im Bereich N = 0 ... 40 sone erkennen. Der arithmetische Mittelwert, der aus der Normalverteilungsfunktion mit P(xA) = 0,5 κ Pz = 0,32 abgeleitet wird, beträgt 20 sone.For the application case of speech with additive background noise considered here, values for κ = 1 ... 1.3 show good approximation results. FIG. 6 shows an example of the approximation by weighted normal distributions. In this case, a value κ = 1. 1 selected. The graph shows speech as background noise and has a speech pause rate of 58%. The strong temporal fluctuation of the language background can be clearly seen as a flatter slope in the range N = 0 ... 40 sone. The arithmetic mean derived from the normal distribution function with P (x A ) = 0.5 κ P z = 0.32 is 20 sone.

    Der Vorteil dieses vereinfachten Verfahrens ist die geringere Rechenintensität, da auf die Berechnung der Verteilungsdichte und deren Integration verzichtet werden kann. Es ist ebenfalls nicht notwendig, die Normalverteilungsfunktion κPz G(x, µ, σ2) exakt zu bestimmen, es genügt bereits die Festlegung von κ. Da Pz bekannt ist, wird der Mittelwert über alle X < xG als Wert xA bestimmt, bei dem gilt P(xA) = 0.5 κPz . Der arithmetische Mittelwert über alle X bis xG entspricht somit dem Intensitätswert, der einem Häufigkeitswert von 0.5 * κ * Anteil der Sprachpausen am Gesamtsignal entspricht, d.h. der Intensität, die von einem Anteil von Segmenten von 0.5 * κ* Anteil der Sprachpausen nicht überschritten wird.The advantage of this simplified method is the lower computational intensity, since it is possible to dispense with the computation of the distribution density and its integration. It is also not necessary to exactly determine the normal distribution function κP z G (x, μ, σ 2 ), it is sufficient to determine κ. Since P z is known, the mean value over all X <x G is determined as value x A , where P (x A ) = 0.5 κP z . The arithmetic mean over all X to x G thus corresponds to the intensity value which corresponds to a frequency value of 0.5 * κ * proportion of the speech pauses in the total signal, ie the intensity which is not exceeded by a proportion of segments of 0.5 * κ * proportion of the speech pauses ,

    Bestimmung weiterer statistischer KennwerteDetermination of further statistical characteristics

    Auch andere statistische Intensitätskennwerte können mit diesem Verfahren ermittelt werden. In Fig. 7 ist am Beispiel aus Fig. 4 demonstriert, wie aus der Funktion der Intensitätswert ermittelt werden kann, der von nur 20% der Sprachpausensegmente überschritten wird ( 20%-Perzentil-Lautheit).Other statistical intensity parameters can also be determined with this method become. In Fig. 7 is demonstrated by the example of FIG. 4, as from the function of Intensity value can be determined by only 20% of the speech pause segments is exceeded (20% percentile loudness).

    Im angeführten Beispiel wird der Intensitätswert gesucht, der von 80% der Segmente in Sprachpausen unterschritten wird, d.h. gesucht wird der Abszissenwert, der für den Ordinatenwert P = 0.58 * 0.8 = 0.46 gilt. Der Wert ist aufgrund des im Beispiel gewähren wenig schwankenden Störgeräusches nur wenig geringer als der Maximalwert.In the example given, the intensity value is sought, which is undercut by 80% of the segments in speech pauses, ie the abscissa value is searched for, which applies to the ordinate value P = 0.58 * 0.8 = 0.46 . The value is only slightly less than the maximum value due to the example given little fluctuating noise.

    Ausführungsbeespiel für die Bestimmung des arithmetischen Mittelwertes aus der VerteitungsdichtefunkfionExercise example for the determination of the arithmetic mean value from the Verteitungsdichtefunkfion

    Das hier vorgestellte Ausführungsbeispiel des Verfahrens zur Intensitätsbestimmung von Hintergrundgeräuschen ermittelt den arithmetischen Mittelwert aller Lautheiten der Segmente, die unter einer bestimmten Häufigkeitsschwelle liegen. Diese Häufigkeitsschwelle entspricht dem Anteil an Sprachpausen im Signal und der errechnete arithmetische Mittelwert wird als mittlere Lautheit in Sprachpausen betrachtet. Dazu wird in diesem Ausführungsbeispiel die Verteilungsdichtefunktion benutzt.The presented here embodiment of the method for determining the intensity of Background noise determines the arithmetic mean of all the loudnesses of the Segments that are below a certain frequency threshold. This frequency threshold corresponds to the proportion of speech pauses in the signal and the calculated one Arithmetic mean is considered as average loudness in speech pauses. This will be In this embodiment, the distribution density function is used.

    Vorbedingung ist, dass beide Signale, d.h. das ungestörte Quellsprachsignal und das gestörte zu bewertende Signal, vollständig aufgezeichnet vorliegen.Prerequisite is that both signals, i. the undisturbed source speech signal and the Disturbed signal to be evaluated, fully recorded.

    Zunächst wird mittels einer geeigneten Schwelle anhand des Quellsprachsignals der Anteil an Sprachpausen Pz in diesem Signal bestimmt. First, the proportion of speech pauses P z in this signal is determined by means of a suitable threshold on the basis of the source speech signal.

    Der zweite Schritt ist die Berechnung der gewünschten Intensitätswerte für aufeinanderfolgende kurze Signalsegmente des zu bewertenden Sprachsignals. In diesem Ausführungsbeispiel werden die Lautheiten nach ISO532 in aufeinander folgenden Signalabschnitten von 16ms Länge berechnet. Die Verteilungsfunktion wird durch eine Reihe von Einzelwerten (diskrete relative Häufigkeitsverteilung) angenähert. Diese Einzelwerte werden durch aufeinander folgende Indexe m bezeichnet. Die Reihe von Einzelwerten ist bei einem Maximalwert M begrenzt (z.B.: P0 ... P200 ). In der Auswertung wird jeder Einzelwert Pm - dessen Index die ermittelte Intensität X des ausgewerteten Signalsegments übersteigt - um den Zähler 1 erhöht. Nach Auswertung des gesamten Signals werden alle Einzelwerte durch die Anzahl aller ausgewerteten Signal-segmente dividiert. Jeder Einzelwert Pm enthält dann die relative Häufigkeit der Signal-segmente, die eine Lautheit kleiner als der Wert des Indexes aufweisen.The second step is the calculation of the desired intensity values for successive short signal segments of the speech signal to be evaluated. In this embodiment, the loudnesses are calculated according to ISO532 in successive signal portions of 16ms length. The distribution function is approximated by a series of individual values (discrete relative frequency distribution). These individual values are designated by successive indices m. The series of individual values is limited at a maximum value M (eg: P 0 ... P 200 ). In the evaluation of each individual value P m - whose index exceeds the determined intensity X of the evaluated signal segment - increased by the counter 1. After evaluation of the entire signal, all individual values are divided by the number of evaluated signal segments. Each individual value P m then contains the relative frequency of the signal segments which have a loudness smaller than the value of the index.

    Anhand des vorher ermittelten Anteils an Sprachpausen Pz , wird derjenige Häufigkeitswert Ps ermittelt, welcher die geringste absolute Differenz zu Pz besitzt. Der Index S dieses Einzelwertes Ps gibt die entsprechende Lautheit an, d.h. der Lautheit, die von einem Anteil Ps aller Segmente nicht überschritten wird. Zur Bestimmung des arithmetischen Mittels der Lautheiten aller Segmente, deren Lautheiten sich unter der vorgegebenen Häufigkeitsschwelle Ps befinden, ist als nächstes die Umwandlung der diskreten Häufigkeitsverteilung P0... PM , in eine diskrete Häufigkeitsdichte (Streifenhäufigkeit) p0 ... pM-1 vorzunehmen. Dazu werden die Differenzen zweier aufeinanderfolgender Einzelwerte gebildet und als Wertefolge p0 ... pN-1 abgelegt: pm = pm+1 - pm    für alle m = 0 ... M-1 On the basis of the previously determined proportion of speech pauses P z , that frequency value P s is determined which has the lowest absolute difference to P z . The index S of this individual value P s indicates the corresponding loudness, ie the loudness, which is not exceeded by a proportion P s of all segments. In order to determine the arithmetic mean of the loudnesses of all segments whose loudnesses are below the given frequency threshold P s , the conversion of the discrete frequency distribution P 0 ... P M , into a discrete frequency density (stripe frequency) p 0 .. M-1 . For this purpose, the differences of two consecutive individual values are formed and stored as the value sequence p 0 ... P N-1 : p m = p m + 1 - p m for all m = 0 ... M-1

    Der Wert pm enthält dann die relative Häufigkeit der Segmente, deren Lautheit sich zwischen m und m+1 befindet. Der gesuchte arithmetische Mittelwert entspricht der gewichteten Summe über die Streifenhäufigkeit Pm bis m = S, d.h. der Lautheit, die von einem Anteil Ps aller Segmente nicht überschritten wird:

    Figure 00120001
    The value p m then contains the relative frequency of the segments whose loudness is between m and m + 1 . The sought arithmetic mean value corresponds to the weighted sum over the strip frequency P m to m = S , ie the loudness, which is not exceeded by a proportion P s of all segments:
    Figure 00120001

    Der Korrekturwert ½ entspricht dem halben Abstand zweier aufeinander folgender Indexe. Der Wert pm enthält die relative Häufigkeit von Segmenten, deren Lautheiten sich zwischen m und m+1 befinden. Der Erwartungswert aller hier erfassten Lautheiten ist, bei angenommener Gleichverteilung der Lautheiten von m ....m+1, daher m+0.5. The correction value ½ corresponds to half the distance between two consecutive indices. The value p m contains the relative frequency of segments whose loudnesses are between m and m + 1 . The expected value of all loudnesses recorded here is, assuming an equal distribution of the loudnesses of m .... m + 1, therefore m + 0.5.

    Das Verfahren liefert wie im Anwendungsfall beschrieben, eine diskrete Häufigkeitsverteilung mit einer Auflösung l sone, da der Index m ganzahlig ist und die Lautheitswerte direkt den entsprechenden Indexen zugeordnet werden. Um gegebenenfalls andere höhere oder verringerte Auflösungen zu erzielen ist der Lautheitswert vor Berechnung der relativen Häufigkeitsverteilung mit entsprechenden Faktoren zu multiplizieren.As described in the application, the method provides a discrete frequency distribution with a resolution of 1 sone, since the index m is an integer and the loudness values are assigned directly to the corresponding indexes. In order to achieve other higher or lower resolutions, the loudness value has to be multiplied with corresponding factors before calculating the relative frequency distribution.

    Zur Demonstration der Messsicherheit des vorgestellten Verfahrens sind in Tabelle 1 Messwerte für verschiedene Signale und Hintergrundgeräusche aufgeführt. Es wurde Sprachsignale von 32 s Länge und verschiedenem Anteil an Sprachpausen (35%, 58% und 91%) jeweils mit verschiedenen Geräuschen gemischt. Als Geräusche wurde zunächst weißes Rauschen mit verschiedenen Sprach-Geräusch-Abständen benutzt. Des weiteren wurde auch kontinuierlich gesprochene Sprache sowie zwei Geräusche aus realen akustischen Umgebungen (Straße und Büro) eingesetzt.To demonstrate the measurement reliability of the presented method are shown in Table 1 Measured values for various signals and background noise are listed. It was Speech signals of 32 s length and different percentage of speech pauses (35%, 58% and 91%) each mixed with different sounds. As noises became first white noise with different voice-noise intervals used. Furthermore was also continuously spoken language as well as two sounds from real acoustic environments (street and office).

    Vor Berechnung der Häufigkeitsverteilung wird eine Multiplikation aller Lauheitswerte mit dem Faktor 2 durchgeführt, um die Auflösung der Darstellung bei Benutzung ganzzahliger Indexe zu erhöhen. Dies entspricht dann einer Lautheitsstufung bei ganzzahligen Indexen von 0.5 sone. Mit einer Begrenzung der Häufigkeitsverteilungsfunktion bei P200, können so Lautheiten von 0 ... 100 sone in Schritten von 0.5 sone abgebildet werden. Es ist aber zu beachten, dass dieser Faktor als Divisor zur Korrektur auf alle Ergebnisse angewendet wird muss. Im hier gewählten Ausführungsbeispiel bedeutet dies, dass der errechnete arithmetische Mittelwert durch 2 zu teilen ist. Prior to calculating the frequency distribution, a multiplication of all the launess values by a factor of 2 is performed in order to increase the resolution of the representation when using integer indexes. This then corresponds to a loudness grading at integer indexes of 0.5 sone. With a limitation of the frequency distribution function at P 200 , loudnesses from 0 ... 100 sone can be mapped in steps of 0.5 sone . It should be noted, however, that this factor must be applied as a divisor to all results for correction. In the exemplary embodiment selected here, this means that the calculated arithmetic mean value is to be divided by 2.

    Erläuterungen zu Tabelle 1: Der Sprach-Geräusch-Abstand dient lediglich zur Information; Grundlage bildet der Abstand des mittleren Efiektivpegels bei Sprachaktivität zum mittleren Effektivpegel des Hintergrundgeräusches. Der mittlere Lautheitswert (Zielwert) wurde in einer Referenzmessung bestimmt, bei der die Sprachpausen manuell markiert und in Segmenten zu 16 ms ausgewertet wurden. Die berechneten Standardabweichungen beziehen sich auf die derart gemessenen Referenz-Lautheiten und geben Information über die Stärke der auftretenden Fluktuationen. Die Messwerte in Spalte 5 wurden mit dem in diesem Ausführungsbeispiel beschriebenen Verfahren ermittelt. Geräusch SNR mittlere Lautheit (sone) Zielwert Standard-abweichung der Segment-Lautheiten mittlere Lautheit (sone) gemessen mit beschriebenenVerfahren Abweichung (Messfehler) abs. / rel. Pausenanteil des Sprachsignals 91% weißes Rauschen 6 dB 41.4 1.55 42.0 0.6 / 1.4% weißes Rauschen 10 dB 32.3 1.22 32.6 0.3/0.9% weißes Rauschen 16 dB 22.2 0.87 22.3 0.1 / 0.4% Sprache 6 dB 21.3 11.7 20.6 -0.7/-3.3% Sprache 10 dB 16.5 9.16 16.2 -0.3/-1.8% Sprache 16 dB 11.2 6.21 11.3 0.1/0.9% Straßengeräusch 10 dB 26.0 3.22 26.2 0.2/0.8% Bürogeräusch 10 dB 26.3 2.78 26.6 0.3/1.1% Pausenanteil des Sprachsignals 58% weißes Rauschen 6 dB 41.3 1.55 44.8 3.5/8.5% weißes Rauschen 10 dB 32.3 1.22 34.2 1.9/6.0% weißes Rauschen 16 dB 22.1 0.87 22.6 0.5/2.2% Sprache 6 dB 20.7 11.7 19.0 -1.7/-8.2% Sprache 10 dB 16.0 9.16 15.4 -0.6 /-3.8% Sprache 16 dB 10.7 6.21 10.8 0.1 / 0.9% Straßengeräusch 10 dB 26.1 3.22 27.0 0.9/3.4% Bürogeräusch 10 dB 26.3 2.78 27.3 1.0 / 3.8% Pausenanteil des Sprachsignals 35% weißes Rauschen 6 dB 41.3 1.55 46.1 4.8 / 11.6% weißes Rauschen 10 dB 32.3 1.22 35.6 3.3 / 10.2% weißes Rauschen 16 dB 22.1 0.87 23.3 1.2/5.4% Sprache 6 dB 20.0 11.22 17.6 -2.4./ -12% Sprache 10 dB 15.6 8.7 15.0 -0.6 / -3.8% Sprache 16 dB 10.9 5.93 11.8 0.9/8.3% Straßengeräusch 10 dB 26.1 3.22 27.3 1.2/4.6% Bürogeräusch 10 dB 26.3 1.78 27.9 1.6/6.1% Explanatory notes to Table 1: The voice-to-noise ratio is for information purposes only; The basis for this is the distance between the average level of activity in speech activity and the mean effective level of background noise. The mean loudness value (target value) was determined in a reference measurement, in which the speech pauses were marked manually and evaluated in segments of 16 ms. The calculated standard deviations refer to the thus measured reference loudnesses and give information about the magnitude of the occurring fluctuations. The measured values in column 5 were determined using the method described in this exemplary embodiment. noise SNR mean loudness (sone) target value Standard deviation of segment loudness mean loudness (sone) measured with described methods Deviation (measurement error) abs. / rel. Pausenanteil of the speech signal 91% White noise 6 dB 41.4 1:55 42.0 0.6 / 1.4% White noise 10 dB 32.3 1.22 32.6 0.3 / 0.9% White noise 16 dB 22.2 0.87 22.3 0.1 / 0.4% language 6 dB 21.3 11.7 20.6 -0.7 / -3.3% language 10 dB 16.5 9.16 16.2 -0.3 / -1.8% language 16 dB 11.2 6.21 11.3 0.1 / 0.9% road noise 10 dB 26.0 3.22 26.2 0.2 / 0.8% office noise 10 dB 26.3 2.78 26.6 0.3 / 1.1% Pausenanteil of the speech signal 58% White noise 6 dB 41.3 1:55 44.8 3.5 / 8.5% White noise 10 dB 32.3 1.22 34.2 1.9 / 6.0% White noise 16 dB 22.1 0.87 22.6 0.5 / 2.2% language 6 dB 20.7 11.7 19.0 -1.7 / -8.2% language 10 dB 16.0 9.16 15.4 -0.6 / -3.8% language 16 dB 10.7 6.21 10.8 0.1 / 0.9% road noise 10 dB 26.1 3.22 27.0 0.9 / 3.4% office noise 10 dB 26.3 2.78 27.3 1.0 / 3.8% Pausenanteil of the speech signal 35% White noise 6 dB 41.3 1:55 46.1 4.8 / 11.6% White noise 10 dB 32.3 1.22 35.6 3.3 / 10.2% White noise 16 dB 22.1 0.87 23.3 1.2 / 5.4% language 6 dB 20.0 11:22 17.6 -2.4./ -12% language 10 dB 15.6 8.7 15.0 -0.6 / -3.8% language 16 dB 10.9 5.93 11.8 0.9 / 8.3% road noise 10 dB 26.1 3.22 27.3 1.2 / 4.6% office noise 10 dB 26.3 1.78 27.9 1.6 / 6.1%

    Zunächst ist festzustellen, dass die Messsicherheit mit zunehmenden Pausenanteil im zu bewertenden Signal zunimmt. Eine Zunahme der Messsicherheit ist ebenfalls bei sinkender Geräuschintensität sowie geringerer zeitlicher Fluktuation des Hintergrundgeräusches festzustellen. Ausgehend von einem typischen Anteil an Sprachpausen in einer Telefonkommunikation von Pz >50% sind die mit dem vorgestellten Verfahren erreichten Messwerte selbst bei stärkeren Fluktuationen im Hintergrundgeräusch (z.B. Sprache) zufriedenstellend.First, it should be noted that the measurement reliability increases with increasing pause portion in the signal to be evaluated. An increase in the measurement reliability can also be observed with decreasing noise intensity and a lesser temporal fluctuation of the background noise. Based on a typical proportion of speech pauses in a telephone communication of P z > 50% , the measured values achieved with the presented method are satisfactory, even in the case of stronger fluctuations in background noise (eg speech).

    Ausführungsbeispiel für die Bestimmung des arithmetischen Mittelwertes mit vereinfachtem VerfahrenEmbodiment for the determination of the arithmetic mean with simplified procedure

    Dieses spezielle Ausführungsbeispiel zeigt eine Anwendung des beschriebenen vereinfachten Verfahren zur Bestimmung des arithmetischen Mittels unter Nutzung einer gewichteten Normalverteilung.This particular embodiment shows an application of the described simplified method for the determination of the arithmetic mean using a weighted normal distribution.

    Das vereinfachte Verfahren verzichtet auf die Berechnung der Streifenhäufigkeit und leitet einen Schätzwert für das arithmetisches Mittel der Lautheiten aller Segmente, deren Lautheiten sich unter der vorgegebenen Häufigkeitsschwelle Pz befinden, direkt aus der relativen Häufigkeitsverteilung Pm ab. Wie beschrieben muss lediglich der Wert κ für die Schätzung festgelegt werden.The simplified method dispenses with the calculation of the strip frequency and derives an estimated value for the arithmetic mean of the loudnesses of all segments whose loudnesses are below the predetermined frequency threshold P z , directly from the relative frequency distribution P m . As described, only the value κ needs to be set for the estimation.

    in diesem Ausführungsbeispiel wird mit κ= 1.1 definiert. Der Schätzwert entspricht dann dem Lautheitswert, der von einem Anteil von 0.5 *1.1 * Pz aller ausgewerteten Segmente nicht überschritten wird. Im Ausführungsbeispiel entspricht dieser Schätzwert des arithmetischen Mittels der Lautheiten, dem Index m des Häufigkeitswertes, welcher die geringste absolute Differenz zu 0.55 Pz besitzt. In Tabelle 2 sind die Messwerte aufgeführt, die mit diesem vereinfachten Verfahren gewonnen worden. Auch hier wurden zur Erhöhung der Auflösung auf 0.5 sone alle Lautheitswerte vor Berechnung der Häufigkeitsverteilung mit dem Faktor 2 multipliziert und die Ergebnisse entsprechend korrigiert. Geräusch SNR mittlere Lautheit (sone) Zielwert Standard-abweichung der Segment-Lautheiten mittlere Lautheit (sone) gemessen mit vereinfachtem Verfahren Abweichung (Messfehler) abs. / rel. Pausenanteil des Sprachsignals 91% weißes Rauschen 6 dB 41.4 1.55 41.5 0.1/0.2% weißes Rauschen 10 dB 32.3 1.22 32.5 0.2/0.6% weißes Rauschen 16 dB 22.2 0.87 22.5 0.3/ 1.3% Sprache 6 dB 21.3 11.7 20.5 -0.8/-3.8% Sprache 10 dB 16.5 9.76 16.5 0.0/0.0% Sprache 16 dB 11.2 6.21 11.0 -0.2/1.8% Straßengeräusch 10 dB 26.0 3.22 26.0 0.0 / 0.0% Bürogeräusch 10 dB 26.3 2.78 26.5 0.2/0.6% Pausenanteil des Sprachsignals 58% weißes Rauschen 6 dB 41.3 1.55 41.50 0.2/0.5% weißes Rauschen 10 dB 32.3 1.22 32.5 0.2/0.6% weißes Rauschen 16 dB 22.1 0.87 22.5 0.4 / 1.8% Sprache 6 dB 20.7 11.7 20.0 -0.7/-3.4% Sprache 10 dB 16.0 9.16 16.0 0.0/0.0% Sprache 16 dB 10.7 6.21 11.0 0.3/2.8% Straßengeräusch 10 dB 26.1 3.22 26.0 -0.1 /-0.4% Bürogeräusch 10 dB 26.3 2.78 26.5 0.2/0.8% Pausenanteil des Sprachsignals 35% weißes Rauschen 6 dB 41.3 1.55 41.0 -0.3/0.7% weißes Rauschen 10 dB 32.3 1.22 32.5 0.2/0.6% weißes Rauschen 16 dB 22.1 0.87 22.5 0.4/ 1.8% Sprache 6 dB 20.0 11.12 19.0 -1.0/-5% Sprache 10 dB 15.6 8.7 15.5 -0.1 / -0.6% Sprache 16 dB 10.9 5.93 11.5 0.6/5.5% Straßengeräusch 10 dB 26.1 3.22 25.5 -0.6/-1.4% Bürogeräusch 10 dB 26.3 2.78 26.5 0.2 / 0.8% in this embodiment, κ = 1.1 is defined. The estimated value then corresponds to the loudness value, which is not exceeded by a proportion of 0.5 * 1.1 * P z of all evaluated segments. In the exemplary embodiment, this estimated value of the arithmetic mean corresponds to the loudnesses, the index m of the frequency value, which has the smallest absolute difference to 0.55 P z . Table 2 lists the measurements obtained by this simplified procedure. Again, to increase the resolution to 0.5 sone, all loudness values were multiplied by a factor of 2 before calculating the frequency distribution, and the results were corrected accordingly. noise SNR mean loudness (sone) target value Standard deviation of segment loudness Medium loudness (sone) measured with simplified procedure Deviation (measurement error) abs. / rel. Pausenanteil of the speech signal 91% White noise 6 dB 41.4 1:55 41.5 0.1 / 0.2% White noise 10 dB 32.3 1.22 32.5 0.2 / 0.6% White noise 16 dB 22.2 0.87 22.5 0.3 / 1.3% language 6 dB 21.3 11.7 20.5 -0.8 / -3.8% language 10 dB 16.5 9.76 16.5 0.0 / 0.0% language 16 dB 11.2 6.21 11.0 -0.2 / 1.8% road noise 10 dB 26.0 3.22 26.0 0.0 / 0.0% office noise 10 dB 26.3 2.78 26.5 0.2 / 0.6% Pausenanteil of the speech signal 58% White noise 6 dB 41.3 1:55 41.50 0.2 / 0.5% White noise 10 dB 32.3 1.22 32.5 0.2 / 0.6% White noise 16 dB 22.1 0.87 22.5 0.4 / 1.8% language 6 dB 20.7 11.7 20.0 -0.7 / -3.4% language 10 dB 16.0 9.16 16.0 0.0 / 0.0% language 16 dB 10.7 6.21 11.0 0.3 / 2.8% road noise 10 dB 26.1 3.22 26.0 -0.1 / -0.4% office noise 10 dB 26.3 2.78 26.5 0.2 / 0.8% Pausenanteil of the speech signal 35% White noise 6 dB 41.3 1:55 41.0 -0.3 / 0.7% White noise 10 dB 32.3 1.22 32.5 0.2 / 0.6% White noise 16 dB 22.1 0.87 22.5 0.4 / 1.8% language 6 dB 20.0 11:12 19.0 -1.0 / -5% language 10 dB 15.6 8.7 15.5 -0.1 / -0.6% language 16 dB 10.9 5.93 11.5 0.6 / 5.5% road noise 10 dB 26.1 3.22 25.5 -0.6 / -1.4% office noise 10 dB 26.3 2.78 26.5 0.2 / 0.8%

    Das vereinfachte Verfahren spart nicht nur Rechenzeit sondern liefert in den ausgewerteten Beispielen Messwerte mit einer deutlich höheren Genauigkeit im Vergleich zu den Werten aus Tabelle 1. Da als Schätzwert direkt der Index m benutzt wird, ist die Genauigkeit der Schätzung auf die Auflösung der relativen diskreten Häufigkeitsverteilung (hier: 0.5 sone) begrenzt.The simplified method not only saves computation time, but in the evaluated examples provides measured values with a significantly higher accuracy compared to the values from Table 1. Since the index m is used directly as an estimate, the accuracy of the estimation is based on the resolution of the relative discrete frequency distribution (here: 0.5 sone ) limited.

    Mit dem beschriebenen vereinfachten Messverfahren werden auch bei Geräuschen mit stärkerer Fluktuation gute Messwerte erzielt. Bei den gewählten Sprach-Geräusch-Abständen von 6dB kann auch nicht mehr davon ausgegangen werden, dass alle Lautheiten in Sprachpausen eine geringere Lautheit als Sprachsegmente aufweisen. Trotzdem sind die Messwerte kaum verfälscht wurden. Das beschriebene vereinfachte Verfahren eignet sich zudem auch für Signale mit geringerem Pausenanteil.With the described simplified measuring method, good measured values are achieved even with noises with greater fluctuation. At the selected voice-noise intervals of 6dB, it can no longer be assumed that all loudnesses in speech pauses have less loudness than speech segments. Even so, the readings were hardly distorted. The described simplified method is also suitable for signals with a lower percentage of pauses.

    Ausführungsbeispiel für die Bestimmung von Perzentil-Lautheiten aus der relativen HäufigkeitsverteitungEmbodiment for the determination of percentile loudnesses from the relative Häufigkeitsverteitung

    Die Perzentil-Lautheit aller Segmente, die unter einer bestimmten Häufigkeitsschwelle Pz liegen, kann durch Multiplikation dieser relativen Häufigkeit Pz mit einem Wert 1 - Perzentilwert erfolgen (z.B. 10%-Perzentil-Lautheit: PZ10% = 0.9 * Pz ). Der ganzzahlige Index m des Häufigkeitswertes Pm, welcher die geringste absolute Differenz zu PS10% besitzt, liefert den gesuchten Perzentil-Lautheitswert.The percentile loudness of all segments which are below a certain frequency threshold P z can be obtained by multiplying this relative frequency P z by a value 1- percentile value (eg 10% percentile loudness: P Z10% = 0.9 * P z ). The integer index m of the frequency value P m , which has the least absolute difference to P S10% , provides the searched percentile loudness value.

    In Tabelle 3 sind für die bereits in den Tabellen 1 und 2 aufgeführten Beispiele die 10%-Perzentil-Lautheiten auf geführt und werden mit einem manuell bestimmten Referenzwert verglichen. Geräusch SNR 10%-Perzentil-Lautheit (sone) Zielwert Standard-abweichung der Segment-Lautheiten 10%-Perzentil-Lautheit (sone) gemessen über Häufigkeitsverteilung Abweichung (Messfchler) abs. rel. Pausenanteil des Sprachsignals 91% weißes Rauschen 6 dB 42.5 1.55 43.0 0.5/1.2% weißes Rauschen 10 dB 33.0 1.22 34.0 1.0/3.0% weißes Rauschen 16 dB 22.5 0.87 23.5 1.0/4.4% Sprache 6 dB 37.0 11.7 34.5 -2.5/-6.8% Sprache 10 dB 28.5 9.16 27.5 -1.0/-3.5% Sprache 16 dB 19.0 6.21 19.5 0.5/2.6% Straßengeräusch 10 dB 29.5 3.22 30.0 0.5/1.7% Bürogeräusch 10 dB 29.0 2.78 29.5 0.5/1.7% Pausenanteil des Sprachsignals 58% weißes Rauschen 6 dB 42.5 1.55 42.5 0.0/0.0% weißes Rauschen 10 dB 33.0 1.22 33.5 0.5/1.5% weißes Rauschen 16 dB 22.5 0.87 23.0 0.5/2.2% Sprache 6 dB 36.0 11.7 29.0 -7.0/-19% Sprache 10 dB 28.5 9.16 24.5 -4.0/-14% Sprache 16 dB 19.0 6.21 18.0 -1.0/-5.3% Straßengeräusch 10 dB 30.0 3.22 29.0 -1.0/-3.3% Bürogeräusch 10 dB 29.0 2.78 28.5 -0.5/-1.6% Pausenanteil des Sprachsignals 35% weißes Rauschen 6 dB 42.5 1.55 42.5 0.0/0.0% weißes Rauschen 10 dB 33.0 1.22 33.5 0.5/ 1.5% weißes Rauschen 16 dB 22.5 0.87 23.5 1.0/2.2% Sprache 6 dB 35.5 11.21 24.0 -11.5/-33% Sprache 10 dB 27.5 8.7 21.0 -6.5 / -24% Sprache 16 dB 19.0 5.93 17.5 -1.5/-7.9% Straßengeräusch 10 dB 29.5 3.22 28.0 -1.5/-4.8% Bürogeräusch 10 dB 29.0 1.78 28.5 -0.5 / -1.6% In Table 3, for the examples already given in Tables 1 and 2, the 10% percentile loudnesses are listed and compared with a manually determined reference value. noise SNR 10% percentile loudness (sone) target value Standard deviation of segment loudness 10% percentile loudness (sone) measured by frequency distribution Deviation (measuring instrument) abs. rel. Pausenanteil of the speech signal 91% White noise 6 dB 42.5 1:55 43.0 0.5 / 1.2% White noise 10 dB 33.0 1.22 34.0 1.0 / 3.0% White noise 16 dB 22.5 0.87 23.5 1.0 / 4.4% language 6 dB 37.0 11.7 34.5 -2.5 / -6.8% language 10 dB 28.5 9.16 27.5 -1.0 / -3.5% language 16 dB 19.0 6.21 19.5 0.5 / 2.6% road noise 10 dB 29.5 3.22 30.0 0.5 / 1.7% office noise 10 dB 29.0 2.78 29.5 0.5 / 1.7% Pausenanteil of the speech signal 58% White noise 6 dB 42.5 1:55 42.5 0.0 / 0.0% White noise 10 dB 33.0 1.22 33.5 0.5 / 1.5% White noise 16 dB 22.5 0.87 23.0 0.5 / 2.2% language 6 dB 36.0 11.7 29.0 -7.0 / -19% language 10 dB 28.5 9.16 24.5 -4.0 / -14% language 16 dB 19.0 6.21 18.0 -1.0 / -5.3% road noise 10 dB 30.0 3.22 29.0 -1.0 / -3.3% office noise 10 dB 29.0 2.78 28.5 -0.5 / -1.6% Pausenanteil of the speech signal 35% White noise 6 dB 42.5 1:55 42.5 0.0 / 0.0% White noise 10 dB 33.0 1.22 33.5 0.5 / 1.5% White noise 16 dB 22.5 0.87 23.5 1.0 / 2.2% language 6 dB 35.5 11:21 24.0 -11.5 / -33% language 10 dB 27.5 8.7 21.0 - 6.5 / -24% language 16 dB 19.0 5.93 17.5 -1.5 / -7.9% road noise 10 dB 29.5 3.22 28.0 -1.5 / -4.8% office noise 10 dB 29.0 1.78 28.5 -0.5 / -1.6%

    Die Messwerte zeigen eine gute Abschätzung der Perzentil-Lautheit für Hintergrundgeräusche mit schwacher Fluktuation, für Sprache werden - vor allem bei geringem Pausenanteil - nur unzureichende Genauigkeiten erzielt. Lediglich bei höheren Sprach-Geräusch-Abständen sind die Ergebnisse brauchbar bis gut.The measurements show a good estimate of percentile loudness for background noise with low turnover, for language - especially at low Pause percentage - only insufficient accuracy achieved. Only at higher voice-noise intervals The results are usable until good.

    Claims (4)

    1. Method for the determination of intensity characteristic values of background noises in speech pauses of speech signals of which the undisturbed source speech signal and the disturbed speech signal are available in recorded form, wherein, from the undisturbed source speech signal, the proportion of speech pauses in the total signal is determined according to known methods and the disturbed speech signal is broken down into short consecutive signal elements and an intensity value is determined for each signal element, wherein
      the cumulative relative frequency distribution (1) is formed from the intensity values of the individual signal elements of the disturbed speech signal;
      the determined proportion of speech pauses in the source speech signal is defined as a frequency threshold and the frequency threshold is applied to the disturbed speech signal; the intensity threshold value (3) corresponding to the defined frequency threshold (2) is determined from the frequency distribution of the intensity values of the signal segments; all the signal segments with an intensity value lower than that of the intensity threshold value are assessed as belonging to the speech pauses;
      the distribution function for the intensity values of the signal segments in the region below the intensity threshold value represents the frequency distribution for the intensity values in the speech pauses (4), and this region of the distribution function can be used for the determination of intensity characteristic values of the background noises in the speech pauses.
    2. Method according to claim 1, characterized in that the arithmetic mean value of the intensity values of the signal elements in the speech pauses is determined as the intensity characteristic value of the background noises in the speech pauses, and in that the arithmetic mean value is calculated in that the distribution density is derived from the frequency distribution and the arithmetic mean value of the intensity values in the speech pauses is determined by subsequent integration over the distribution density in the region below the intensity threshold value.
    3. Method according to claim 1, characterized in that the arithmetic mean value of the intensity values of the signal elements in the speech pauses is determined as the intensity characteristic value of the background noises in the speech pauses, and in that the arithmetic mean value is determined from the frequency distribution in that the intensity distribution in the region below the intensity threshold value is approximated by a normal distribution weighted with a factor and, for calculation of the arithmetic mean value, the intensity threshold value is multiplied by 0.5 and the weighting factor.
    4. Method according to claim 1, characterized in that percentile characteristic values can be determined as intensity characteristic values of the background noises in the speech pauses, in that the percentile characteristic values can be determined from the frequency distribution, in that the specified percentile value is subtracted from 100 percent, the difference is multiplied by the frequency threshold value and, for the resulting frequency value, the intensity value corresponding to said value is determined as a percentile characteristic value from the distribution function.
    EP02727282A 2001-04-18 2002-04-03 Method for determining intensity parameters of background noise in speech pauses of voice signals Expired - Lifetime EP1382034B1 (en)

    Applications Claiming Priority (3)

    Application Number Priority Date Filing Date Title
    DE10120168A DE10120168A1 (en) 2001-04-18 2001-04-18 Determining characteristic intensity values of background noise in non-speech intervals by defining statistical-frequency threshold and using to remove signal segments below
    DE10120168 2001-04-18
    PCT/DE2002/001200 WO2002084644A1 (en) 2001-04-18 2002-04-03 Method for determining intensity parameters of background noise in speech pauses of voice signals

    Publications (2)

    Publication Number Publication Date
    EP1382034A1 EP1382034A1 (en) 2004-01-21
    EP1382034B1 true EP1382034B1 (en) 2005-02-16

    Family

    ID=7682614

    Family Applications (1)

    Application Number Title Priority Date Filing Date
    EP02727282A Expired - Lifetime EP1382034B1 (en) 2001-04-18 2002-04-03 Method for determining intensity parameters of background noise in speech pauses of voice signals

    Country Status (5)

    Country Link
    US (1) US7277847B2 (en)
    EP (1) EP1382034B1 (en)
    AT (1) ATE289442T1 (en)
    DE (2) DE10120168A1 (en)
    WO (1) WO2002084644A1 (en)

    Families Citing this family (10)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    KR100463657B1 (en) * 2002-11-30 2004-12-29 삼성전자주식회사 Apparatus and method of voice region detection
    EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
    DE60319796T2 (en) * 2003-01-24 2009-05-20 Sony Ericsson Mobile Communications Ab Noise reduction and audiovisual voice activity detection
    US7206773B2 (en) * 2003-04-11 2007-04-17 Ricoh Company, Ltd Techniques for accessing information captured during a presentation using a paper document handout for the presentation
    US7664733B2 (en) * 2003-04-11 2010-02-16 Ricoh Company, Ltd. Techniques for performing operations on a source symbolic document
    US7266568B1 (en) 2003-04-11 2007-09-04 Ricoh Company, Ltd. Techniques for storing multimedia information with source documents
    US8971626B1 (en) * 2013-06-06 2015-03-03 The United States Of America As Represented By The Secretary Of The Navy Systems, methods, and articles of manufacture for generating an equalized image using signature standardization from Weibull space
    CN104683547A (en) * 2013-11-30 2015-06-03 富泰华工业(深圳)有限公司 System and method for volume adjustment of communicator, and communicator
    US8719032B1 (en) 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
    US20160036980A1 (en) * 2014-07-29 2016-02-04 Genesys Telecommunications Laboratories, Inc. System and Method for Addressing Hard-To-Understand for Contact Center Service Quality

    Family Cites Families (9)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
    US4811404A (en) 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
    FI92535C (en) * 1992-02-14 1994-11-25 Nokia Mobile Phones Ltd Noise reduction system for speech signals
    GB2303471B (en) * 1995-07-19 2000-03-22 Olympus Optical Co Voice activated recording apparatus
    US5598466A (en) 1995-08-28 1997-01-28 Intel Corporation Voice activity detector for half-duplex audio communication system
    JP3255584B2 (en) 1997-01-20 2002-02-12 ロジック株式会社 Sound detection device and method
    US6327564B1 (en) 1999-03-05 2001-12-04 Matsushita Electric Corporation Of America Speech detection using stochastic confidence measures on the frequency spectrum
    US6246978B1 (en) * 1999-05-18 2001-06-12 Mci Worldcom, Inc. Method and system for measurement of speech distortion from samples of telephonic voice signals
    EP1297646B1 (en) * 2000-06-12 2006-04-19 BRITISH TELECOMMUNICATIONS public limited company In-service measurement of perceived speech quality by measuring objective error parameters

    Also Published As

    Publication number Publication date
    DE10120168A1 (en) 2002-10-24
    EP1382034A1 (en) 2004-01-21
    US20030191633A1 (en) 2003-10-09
    DE50202281D1 (en) 2005-03-24
    US7277847B2 (en) 2007-10-02
    WO2002084644A1 (en) 2002-10-24
    ATE289442T1 (en) 2005-03-15

    Similar Documents

    Publication Publication Date Title
    DE2233872C2 (en) Method for determining the fundamental wave period of a speech signal
    EP1386307B1 (en) Method and device for determining a quality measure for an audio signal
    DE3306730C2 (en)
    EP1088300B1 (en) Method for executing automatic evaluation of transmission quality of audio signals
    DE3101851C2 (en) Device for recognizing speech
    EP0362315B1 (en) Device for monitoring acoustic signal processing systems
    DE19647399C1 (en) Hearing-appropriate quality assessment of audio test signals
    DE2626793B2 (en) Electrical circuitry for determining the voiced or unvoiced state of a speech signal
    EP0251028B1 (en) Audio signal transmission method
    EP1382034B1 (en) Method for determining intensity parameters of background noise in speech pauses of voice signals
    DE602004010634T2 (en) METHOD AND SYSTEM FOR LANGUAGE QUALITY FORECASTING AN AUDIO TRANSMISSION SYSTEM
    DE60311754T2 (en) Method and device for estimating the overall quality of a speech signal
    EP1634277B1 (en) Extraction of test signal sections for measuring the quality of an audio signal
    EP1048025B1 (en) Method for objective voice quality evaluation
    EP0946015B1 (en) Method and system for estimating transmission quality
    DE60025333T2 (en) LANGUAGE DETECTION WITH STOCHASTIC CONFIDENTIAL ASSESSMENT OF THE FREQUENCY SPECTRUM
    DE60110541T2 (en) Method for speech recognition with noise-dependent normalization of the variance
    EP1279164A1 (en) Method for detecting a voice activity decision (voice activity detector)
    EP0916206B1 (en) Process and device for evaluating the quality of a transmitted voice signal
    DE2431458A1 (en) Identifying speaker from sound of voice - uses labelling system and recording system correlating labels with known speakers
    EP1005016A2 (en) Method and circuit arrangement for measuring speech level in a speech processing system
    EP1288914B1 (en) Method for the correction of measured speech quality values
    DE102013005844B3 (en) Method for measuring quality of speech signal transmitted through e.g. voice over internet protocol, involves weighing partial deviations of each frames of time lengths of reference, and measuring speech signals by weighting factor
    DE19854420C2 (en) Method and device for processing sound signals
    EP0881783A1 (en) Method for selecting an optimal transmission channel

    Legal Events

    Date Code Title Description
    PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

    Free format text: ORIGINAL CODE: 0009012

    17P Request for examination filed

    Effective date: 20031118

    AK Designated contracting states

    Kind code of ref document: A1

    Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

    GRAP Despatch of communication of intention to grant a patent

    Free format text: ORIGINAL CODE: EPIDOSNIGR1

    GRAS Grant fee paid

    Free format text: ORIGINAL CODE: EPIDOSNIGR3

    GRAA (expected) grant

    Free format text: ORIGINAL CODE: 0009210

    AK Designated contracting states

    Kind code of ref document: B1

    Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: IT

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT;WARNING: LAPSES OF ITALIAN PATENTS WITH EFFECTIVE DATE BEFORE 2007 MAY HAVE OCCURRED AT ANY TIME BEFORE 2007. THE CORRECT EFFECTIVE DATE MAY BE DIFFERENT FROM THE ONE RECORDED.

    Effective date: 20050216

    Ref country code: NL

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20050216

    Ref country code: FI

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20050216

    Ref country code: TR

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20050216

    Ref country code: IE

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20050216

    REG Reference to a national code

    Ref country code: GB

    Ref legal event code: FG4D

    Free format text: NOT ENGLISH

    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: EP

    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: FG4D

    Free format text: GERMAN

    REF Corresponds to:

    Ref document number: 50202281

    Country of ref document: DE

    Date of ref document: 20050324

    Kind code of ref document: P

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: AT

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20050403

    Ref country code: LU

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20050403

    Ref country code: CY

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20050403

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: MC

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20050430

    Ref country code: BE

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20050430

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: SE

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20050516

    Ref country code: DK

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20050516

    Ref country code: GR

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20050516

    GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

    Effective date: 20050421

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: ES

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20050527

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: PT

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20050725

    NLV1 Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act
    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: FD4D

    BERE Be: lapsed

    Owner name: DEUTSCHE TELEKOM A.G.

    Effective date: 20050430

    PLBE No opposition filed within time limit

    Free format text: ORIGINAL CODE: 0009261

    STAA Information on the status of an ep patent application or granted ep patent

    Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

    26N No opposition filed

    Effective date: 20051117

    ET Fr: translation filed
    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: CH

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20060430

    Ref country code: LI

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20060430

    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: PL

    BERE Be: lapsed

    Owner name: DEUTSCHE TELEKOM A.G.

    Effective date: 20050430

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: PLFP

    Year of fee payment: 15

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: PLFP

    Year of fee payment: 16

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: PLFP

    Year of fee payment: 17

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: DE

    Payment date: 20210421

    Year of fee payment: 20

    Ref country code: FR

    Payment date: 20210421

    Year of fee payment: 20

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: GB

    Payment date: 20210422

    Year of fee payment: 20

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R071

    Ref document number: 50202281

    Country of ref document: DE

    REG Reference to a national code

    Ref country code: GB

    Ref legal event code: PE20

    Expiry date: 20220402

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: GB

    Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

    Effective date: 20220402