DE10041512A1 - Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen - Google Patents
Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von SprachsignalenInfo
- Publication number
- DE10041512A1 DE10041512A1 DE10041512A DE10041512A DE10041512A1 DE 10041512 A1 DE10041512 A1 DE 10041512A1 DE 10041512 A DE10041512 A DE 10041512A DE 10041512 A DE10041512 A DE 10041512A DE 10041512 A1 DE10041512 A1 DE 10041512A1
- Authority
- DE
- Germany
- Prior art keywords
- signal
- speech signal
- filter coefficients
- filter
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 35
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 35
- 238000001914 filtration Methods 0.000 title claims abstract description 34
- 238000004458 analytical method Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000005070 sampling Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 40
- 230000003595 spectral effect Effects 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 31
- 230000007704 transition Effects 0.000 claims description 17
- 230000000694 effects Effects 0.000 claims description 11
- 238000013179 statistical model Methods 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 32
- 230000005540 biological transmission Effects 0.000 description 27
- 230000005284 excitation Effects 0.000 description 27
- 230000004044 response Effects 0.000 description 13
- 238000013459 approach Methods 0.000 description 12
- 238000011161 development Methods 0.000 description 11
- 230000018109 developmental process Effects 0.000 description 11
- 238000009826 distribution Methods 0.000 description 11
- 238000012546 transfer Methods 0.000 description 10
- 238000012937 correction Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 239000000463 material Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000011835 investigation Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000005336 cracking Methods 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002592 echocardiography Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000002087 whitening effect Effects 0.000 description 2
- QLRRUWXMMVXORS-UHFFFAOYSA-N Augustine Natural products C12=CC=3OCOC=3C=C2CN2C3CC(OC)C4OC4C31CC2 QLRRUWXMMVXORS-UHFFFAOYSA-N 0.000 description 1
- 241000705164 Gelis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000009429 distress Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
Abstract
Description
- - Tiefe Frequenzen unterhalb von etwa 300 Hz entstehen
hauptsächlich während stimmhafter Sprachabschnitte wie
z. B. Vokalen. Dieser Frequenzbereich enthält in diesem
Fall tonale Komponenten, d. h. insbesondere die
Sprachgrundfrequenz (fp) sowie je nach Stimmlage eventuell
einige Harmonische.
Die tiefen Frequenzen sind für die subjektive Empfindung von Volumen und Dynamik eines Sprachsignals von entschei dender Bedeutung. Die Sprachgrundfrequenz lässt sich dem gegenüber von einem menschlichen Hörer aufgrund der psy choakustischen Eigenschaft der virtuellen Tonhöhenempfin dung auch bei Fehlen der tiefen Frequenzen aus der harmonischen Struktur in höheren Frequenzbereichen wahrnehmen. - - Mittlere Frequenzen im Bereich 300 bis 3400 Hz sind bei Sprachaktivität durchgängig im Sprachsignal vorhanden. Ih re zeitvariante spektrale Färbung durch mehrere Formate sowie die zeitliche und spektrale Feinstruktur charakteri sieren den jeweils gesprochenen Laut/Phonem. Auf diese Weise transportieren die mittleren Frequenzen den Haupt teil der für die Verständlichkeit der Sprache relevanten Informationen.
- - Hohe Frequenzanteile oberhalb von etwa 3.4 kHz entstehen
vornehmlich während stimmloser Laute; sie sind besonders
stark bei scharfen Lauten wie z. B. /s/ oder /f/. Auch Plo
sivlaute wie /k/ oder /t/ weisen ein breites Spektrum mit
starken hochfrequenten Anteilen auf. Entsprechend hat das
Signal in diesem oberen Frequenzbereich einen eher
rauschartigen als tonalen Charakter.
Die Struktur der auch in diesem Bereich vorhandenen Formanten ist verhältnismässig zeitinvariant, unterscheidet sich jedoch für verschiedene Sprecher.
Die hohen Frequenzanteile sind wichtig für die Natürlichkeit, Klarheit und Präsenz eines Sprachsignals - ohne diese Komponenten wirkt die Sprache dumpf. Weiterhin ermöglichen diese oberen Frequenzen eine bessere Unterscheidung von Frikativen und Konsonanten und sorgen somit für eine erhöhte Verständlichkeit.
- - Ein Teil der Methoden basiert auf der Annahme, dass zwi
schen den Parametern des Sprachtraktes in schmalbandiger
und breitbandiger Beschreibungsform ein annähernd linea
rer Zusammenhang besteht. Die bei einer LPC-Analyse ge
wonnenen Parameter werden hierbei in verschiedenen Dar
stellungsformen verwendet, z. B. als Cepstralkoeffizien
ten oder Koeffizienten einer DFT-Analyse (z. B. H. Her
mansky, C. Avendano, E. A. Wan, "Noise Reduction and Re
covery of Missing Frequencies in Speech", Proceedings
15th Annual Speech Research Symposium, 1995).
Die Parameter werden parallel in eine Anzahl linearer sogenannter Multiple Input Single Output (MISO) Filter eingespeist. Der Ausgang eines einzelnen MISO Filters stellt die Schätzung eines breitbandigen Parameters dar; diese Schätzung hängt also von sämtlichen schmalbandigen Parametern ab. Die Koeffizienten der MISO Filter werden vor der Bandbreitenerweiterung in einer Trainingsphase optimiert, z. B. nach einem Minimum Mean Squared Error Kriterium. Nachdem alle breitbandigen Parameter für den aktuellen Signalrahmen durch eigene MISO Filter ge schätzt wurden, können sie in entsprechend umgerechneter Form als Koeffizienten des LPC-Synthesefilters verwendet werden. - - Ein zweiter Ansatz macht sich die beschränkte Zahl der in einem Sprachsignal vorkommenden Laute zu nutze. Es wird ein Codebuch mit Repräsentanten der Einhüllenden formen typischer Sprachlaute trainiert und gespeichert. Bei der Erweiterung wird dann verglichen, welche der ge speicherten Einhüllendenformen dem aktuellen Signalaus schnitt am ähnlichsten ist. Die dieser ähnlichsten Einhüllendenform entsprechenden Filterkoeffizienten werden als Koeffizienten des LPC-Synthesefilters verwendet.
Aufstellen des Codebuchs unter Verwendung eines Hidden- Markov-Modells, wobei jedem Codebucheintrag ein Zustand des Hidden-Markov-Modells zugeordnet ist und für jeden Zustand ein separates statistisches Modell trainiert wird, welches vorbestimmte Merkmale des schmalbandigen Sprachsignals in Ab hängigkeit vom Zustand beschreibt;
Extrahieren der vorbestimmten Merkmale aus dem schmalbandigen Sprachsignal zu einem Merkmalsvektor X(m) für einen jeweili gen Zeitabschnitt m;
Vergleichen des Merkmalsvektors mit den statistischen Model len; und
Ermitteln der Filterkoeffizienten aufgrund des Vergleichser gebnisses.
die Beobachtungswahrscheinlichkeit p(X(m)|Si) des Auftretens des Merkmalsvektors unter der Voraussetzung, daß sich die Quelle für das abgetastete Sprachsignal im jeweiligen Zustand Si befindet;
die Übergangswahrscheinlichkeit, daß die Quelle für das abge tastete Sprachsignal von dem Zeitabschnitt zum nächsten den Zustand wechselt; und
die Zustandswahrscheinlichkeit des Auftretens des jeweiligen Zustands.
- - Bei analoger Übertragung treten Störungen in der Form von Rauschen, Leitungsechos, Übersprechen etc. auf. Zusätzlich wird das Sprachsignal in der Regel für Multiplexstrecken auf den standardisierten Frequenzbereich von 300 Hz bis 3400 Hz bandbegrenzt.
- - Erfolgt die Übertragung des Signals hingegen in digitaler Technik, so kann sie im Idealfall als transparent angenom men werden (z. B. im ISDN-Netz). Wird das Signal jedoch zur Übertragung codiert, z. B. für eine Mobilfunkstrecke, so können sowohl nichtlineare Verzerrungen als auch additives Quantisierungsrauschen auftreten. Weiterhin wirken sich in diesem Fall Übertragungsfehler mehr oder weniger stark aus.
- - Das Sprachsignal ist bandbegrenzt. Die übertragene Band breite reicht nach oben im Bestfall bis zu einer Grenzfre quenz von 4 kHz, in der Regel jedoch nur bis etwa 3,4 kHz. Die Beschneidung der Bandbreite zu tiefen Frequenzen hin hängt von der Übertragungsstrecke ab und kann im Extrem fall bei circa 300 Hz erfolgen.
- - Abhängig von der Position des Mikrofons relativ zum Spre cher und von der akustischen Situation auf der Sendeseite sind im Eingangssignal additive Hintergrundstörungen ver schiedener Art zu erwarten.
- - Das Sprachsignal kann mehr oder weniger stark verzerrt sein. Diese Verzerrungen hängen von der Übertragungsstre cke ab und können sowohl linearer als auch nichtlinearer Natur sein.
- - Eine Erweiterung nach unten scheint sich kaum zu lohnen,
da übliche Front-Ends diese tiefen Frequenzen ohnehin
nicht übertragen können. Leistungsreiche tieffrequente
Sprachkomponenten bewirken eher eine Verschlechterung des
akustischen Signals, da sie zu einer verstärkten
Übersteuerung des Systems führen, so dass die Sprache
"scheppernd" klingt.
Bei Handapparaten wird die Übertragungsbandbreite des Front-End zu tiefen Frequenzen zusätzlich durch ein "akustisches Leck" begrenzt, das durch eine sub-optimale Abdichtung der Ohrmuschel durch den Telefonhörer entsteht.
Das Ausmaß dieses Lecks hängt massgeblich von der Andruckkraft des Hörers ab und kann in gewissen Grenzen vom Teilnehmer kontrolliert werden. - - Im Gegensatz hierzu erscheint eine Erweiterung von Sprachsignalen zu hohen Frequenzen hin durchaus möglich zu sein. Auch hier sollten allerdings die Eigenschaften des Lautsprechers berücksichtigt werden, da es keinen Sinn macht, eine Vergrößerung der Bandbreite bis beispielsweise 8 kHz anzustreben, wenn schon bei 7 kHz das Signal um über 20 dB gedämpft wird.
- - Es werden häufig Signale mit den beiden Abtastraten fa = 8 kHz sowie fa' = 16 kHz definiert. Um eine einfache Unterscheidung zu ermöglichen, werden alle Zeit- und Frequenzindizes, die sich auf die höhere Abtastrate fa' beziehen, mit einem Hochkomma versehen. Ein Signal x(k) wäre beispielsweise mit 8 kHz abgetastet, während das Signal y(k') mit 16 kHz abgetastet ist.
- - Bei Signalen, bei denen die Bandbreite eindeutig ist, wird diese durch ein tiefgestelltes nb für schmalbandig oder wb für breitbandig gekennzeichnet. Zu beachten ist, dass schmalbandige Signale (mit nb markiert) auch mit der hohen Abtastrate fa' kombiniert werden können.
- - Das durch die oben beschriebene Weise bandbreitenerwei
terte Signal wird durch ein Bandstopfilter BS mit der
Funktion HBS(z') von allen Frequenzanteilen, die inner
halb des Basisbandes liegen, befreit. Das Bandstopfilter
BS muss also einen Frequenzgang aufweisen, der an die
Charakteristik des Übertragungskanals und damit des Ein
gangssignals angepasst ist, d. h. es sollte möglichst die
Übertragungsfunktion
HBS(z') = 1 - HÜS(z')
besitzen. - - Das schmalbandige Eingangssignal wird zunächst durch das
Einfügen von Nullwerten und evtl. eine Tiefpassfilterung
auf die erhöhte Abtastrate am Ausgang des Systems inter
poliert. Anschließend werden durch ein Bandpassfilter BP
mit der Funktion HBP(z') wiederum alle Signalkomponen
ten, die außerhalb des Basisbandes liegen, entfernt,
d. h.
HBP(z') = HÜS(z').
Das bei der Interpolation verwendete Filter kann in der Regel entfallen, da die Aufgabe der Anti-Aliasing- Filterung durch den Bandpass BP übernommen werden kann.
- - Der Block Restsignalerweiterung muss in solcher Weise arbeiten, dass trotz der Erhöhung der Abtastrate die Leistung des Basisbandes im Ausgangssignal exakt der Leistung des Eingangssignals entspricht.
- - Durch die Invers- und Synthesefilterung mit nicht exakt
zueinander inversen Filtern entsteht in der Regel eine
Leistungsveränderung des Signals, die von den Frequenz
gängen der beiden Filter abhängt. Dieser Umstand soll
anhand Fig. 3 verdeutlicht werden.
In Fig. 3 dargestellt sind für zwei unterschiedliche Laute (stimmhaft und stimmlos) die Frequenzgänge des zu gehörigen Inversfilters HI(z) sowie des Synthesefilters HS(z') jeweils innerhalb eines Koordinatensystems darge stellt. Entsprechend ihrer Aufgabe sind die Filter so entworfen, dass sie lediglich die Einhüllendenform ver ändern. Die Stoßantworten h(k) sind daher so normiert, dass der erste Filterkoeffizient jeweils den Wert h(0) = 1 besitzt. Im Frequenzbereich drückt sich diese Tatsache so aus, dass der Frequenzgang H(ej Ω) jedes Filters verti kal so verschoben ist, dass das Integral über den gesam ten Frequenzbereich einem festen Wert entspricht, wie anhand der Vorschrift für die Fourier-Transformation leicht nachvollzogen werden kann
Wenn nun die Frequenzgänge eines Paares aus zusammenge hörigen Invers- und Synthesefiltern betrachtet werden, so kann beobachtet werden, dass im Basisband eine Diffe renz zwischen breit- und schmalbandigem Filter besteht. Die Größe dieser Differenz hängt von den Frequenzgängen der beiden Filter ab und lässt sich nicht auf einfache Weise vorhersagen. Die Differenz führt dazu, dass sich bei der Verkettung eines solchen Filterpaares eine Leis tungsveränderung im Basisband ergibt: Bei den darge stellten Beispielfrequenzgängen würde sich bei dem stimmhaften Laut die Leistung im Basisband erhöhen, wäh rend sie bei dem stimmlosen Laut abgesenkt würde. Wird nun ohne weitere Maßnahme das Original-Basisbandsignal snb(k) mit den so erstellten Erweiterungen gemischt; ge rät (durch den gleichen Mechanismus) die Abstimmung zwi schen den beiden Komponenten durcheinander.
Als Gegenmaßnahme muss das bandbreitenerweiterte Signal wb(k') mit einem Korrekturfaktor ζ multipliziert werden, der diese Leistungsmodifikation wieder ausgleicht. Ein solcher Korrekturfaktor hängt von der Form der Frequenz gänge eines Filterpaares ab und lässt sich somit nicht fest vorgeben. Insbesondere durch die hier verwendete LPC-Analyse ergibt sich die Schwierigkeit, dass der Fre quenzgang des Inversfilters HI(z) nicht a priori bekannt ist.
Es kann jedoch die Leistung der Basisbandkomponenten des bandbreitenerweiterten Signals wb(k') mit der Leistung des interpolierten Eingangssignals snb(k') verglichen wer den. Dieses Verhältnis muss für eine korrekte Abstimmung der Signalanteile zu Eins werden
so das sich der Korrekturfaktor ζ aus der Wurzel des Kehrwertes dieses Leistungsverhältnisses bestimmen lässt
Die Bestimmung eines Korrekturfaktors durch diese Vor schrift bedingt eine zusätzliche Filterung des bandbrei tenerweiterten Signals wb(k') mit einem Bandpassfilter, dessen Übertragungsfunktion derjenigen der Übertragungs strecke HÜS(z') entspricht.
- - Zunächst fallen die Bandstop- und Bandpassfilter HBS(z') und HBP(z') weg, die bei der ersten Variante notwendig waren, um die Transparenz im Basisband zu gewährleisten. Mit ihnen entfällt auch die notwendige Rechenleistung sowie die durch die Filter erzeugte Signalverzögerung.
- - Weiterhin ist die Anpassung der Signalleistungen erheb lich weniger aufwendig. Fehler der Signalleistung wirken sich hier nur in der Gesamtleistung des Ausgangssignals aus und würden einem Hörer erst im Vergleich mit dem schmal- oder breitbandigen Originalsignal auffallen.
- - Auch bei dieser Variante werden das Invers- und das Syn thesefilter mit unterschiedlichen Abtastraten betrieben. Hieraus resultiert, wie schon bei der ersten Variante, die Notwendigkeit eines Korrekturfaktors ζ, da sonst abhängig von dem momentan gesprochenen Laut die Signal leistung variiert. Die Ermittlung eines solchen Faktors ist in diesem Fall jedoch erheblich einfacher, da die Frequenzgänge der Filterpaare schon im Voraus bekannt sind. Der zu dem i-ten Filterpaar  (i)|nb(z) und  (i)|wb(z') eines Codebuches zu erwartende Korrekturfaktor ζi kann daher auch schon im Voraus berechnet werden und beispielsweise im Codebuch abgelegt werden.
- - Die naheliegendste Lösung besteht darin, aneinandersto ßende Unterrahmen zu verwenden. Ein Sprachrahmen wird dabei in nicht überlappende Unterrahmen zerlegt, die ge trennt voneinander prozessiert und am Schluss wieder an einandergekettet werden. Bei dieser Variante müssen die Filterzustände von Inversfilter HI(z) und Synthesefilter HS(z') jeweils an den nachfolgenden Unterrahmen weiter gegeben werden.
- - Lässt man zu, dass die einzelnen Unterrahmen einander teilweise überlappen, so muss bei der Zusammensetzung der Unterrahmen zum Ausgangssignal eine Overlap Add Technik zum Einsatz kommen. Das für jeden Unterrahmen berechnete Ausgangssignal wird daher zunächst mit einer Fensterfunktion (z. B. Hamming) gewichtet und anschlie ßend in den überlappenden Bereichen mit den entsprechen den Bereichen der Nachbarrahmen addiert. Bei dieser Va riante dürfen die Filterzustände nicht von einem zum nächsten Unterrahmen weitergegeben werden, da sich die Zustände nicht auf das gleiche, fortgesetzte Signal be ziehen.
- - Die obere Grenzfrequenz des Ausgangssignals wb(k') kann durch ein steilflankiges Tiefpassfilter mit fester Grenzfrequenz definiert werden. Ein solches Filter mit einer Grenzfrequenz von 7 kHz beispielsweise hat sich als nützlich erwiesen, um tonale Artefakte zu verrin gern, die bei einer spektralen Spiegelung aus den leis tungsstarken tiefen Sprachfrequenzen entstehen. Insbe sondere hochfrequentes Pfeifen bei der Nyquistfrequenz fa'/2, das (je nach eingesetztem Verfahren zur Restsig nalerweiterung) aus einem Gleichanteil des Eingangssig nals snb(k) resultieren kann, wird wirkungsvoll unter drückt.
- - Artefakte und Störungen, die über einen weiten Bereich
der neu synthetisierten Frequenzkomponenten verteilt
sind, können wirkungsvoll mit Hilfe eines Tiefpassfil
ters kontrolliert werden, welches eine nur langsame Zu
nahme der Dämpfung zu hohen Frequenzen hin bewirkt.
Es kann beispielsweise ein einfaches FIR Filter achter Ordnung eingesetzt werden, das bei 4.8 kHz eine Dämpfung von 6 dB und bei 7 kHz eine Dämpfung von etwa 25 dB er reicht, wie in Fig. 6 illustriert.
Ähnliche tiefpassartige Eigenschaften können auch bei vielen akustischen Front-Ends beobachtet werden, sind also im realisierten System in der Regel ohnehin, d. h. auch ohne explizit eingesetztes digitales Postfilter vorhanden.
- - Das Eingangssignal nb(k) des Teilalgorithmus der Rest
signalerweiterung entsteht durch die Filterung des
schmalbandigen Sprachsignals snb(k) mit dem FIR Filter
HI(z), dessen Koeffizienten durch eine LPC-Analyse oder
durch eine Codebuchsuche vorgegeben werden. Als Resultat
weist das Restsignal eine flache bzw. annähernd weiße
spektrale Einhüllende auf.
Ist der aktuelle Sprachrahmen s (m)|nb(κ) also rauschartiger Natur, so entspricht der Restsignalrahmen (m) nb(κ) nähe rungsweise (bandbegrenztem) weißem Rauschen; bei einem stimmhaften Laut weist das Restsignal eine harmonische Struktur aus sinusartigen Tönen bei der Sprachgrundfre quenz fp und deren ganzzahligen Vielfachen auf, wobei diese Einzeltöne jedoch jeweils näherungsweise die glei che Amplitude aufweisen, die spektrale Einhüllende also wiederum flach ist. - - Das Ausgangssignal wb(k') der Restsignalerweiterung dient als Anregungssignal des nachfolgenden Synthesefil ters HS(z'). Es muss also prinzipiell die gleiche Eigen schaft der spektralen Flachheit aufweisen, wie das Ein gangssignal nb(k) des Teilalgorithmus, allerdings im ge samten breitbandigen Frequenzbereich. Ebenso sollte im Idealfall bei stimmhaften Lauten eine der Sprachgrund frequenz fp entsprechende harmonische Struktur vorhanden sein.
- 1. Zunächst werden aus dem schmalbandigen Signal mehrere Merkmale extrahiert.
- 2. Mittels eines zuvor trainierten statistischen Modells sowie der erhaltenen Merkmale können verschiedene a pri ori und/oder a posteriori Wahrscheinlichkeiten bestimmt werden.
- 3. Diese Wahrscheinlichkeiten können schließlich verwendet werden, um entweder den Sprachrahmen zu klassifizieren oder um eine, nicht an die diskreten Codebucheinträge gebundene, Schätzung der spektralen Einhüllendenform zu berechnen.
- - Kurzzeitleistung En (mit adaptivem Normierungsfaktor En,max(m); α = 0.999),
- - Steigungsindex dn,
- - Acht Cepstralkoeffizienten c1 bis c8 und
- - Ableitungen aller zehn obigen Parameter mit Λ = 3.
- - Bei der Maximum Likelihood (ML) Methode wird derjenige
Zustand bzw. Eintrag des Codebuchs ausgewählt, für den
die Beobachtungswahrscheinlichkeit maximal ist
- - En anderer Ansatz besteht darin, denjenigen Zustand an
zunehmen, der aufgrund der momentanen Beobachtung am
wahrscheinlichsten ist, d. h. es ist die a posteriori
Wahrscheinlichkeit P(Si|X) zu maximieren
Mit der Bayes'schen Regel lässt sich dieser Ausdruck so umformen, dass mit der Beobachtungswahrscheinlichkeit P(X|Si) und der a priori Wahrscheinlichkeit P(Si) nur noch bekannte bzw. messbare Größen vorkommen
Nach der verwendeten a posteriori Wahrscheinlichkeit wird diese Klassifikationsmethode Maximum A Posteriori (MAP) genannt. - - Auf der Minimierung des mittleren quadratischen Fehlers
(Minimum Mean Squared Error) zwischen geschätztem und Originalsignal
basiert das MMSE Verfahren. Durch diese
Methode wird eine Schätzung erstellt, die sich aus der
mit der a posteriori Wahrscheinlichkeit P(Si|X) gewich
teten Summe der Codebucheinträge Ci ergibt
Die Wahrscheinlichkeit des Auftretens des Merkmalsvek tors X kann aus dem statistischen Modell berechnet wer den:
Im Gegensatz zu den vorherigen beiden Klassifikations verfahren ist das Ergebnis nun nicht mehr an einen der Codebucheinträge gebunden. In Fällen, in denen die a posteriori Wahrscheinlichkeit für einen Zustand dominant ist, das Verfahren sich also quasi seiner Entscheidung sicher ist, entspricht das Resultat der Schätzung dem Ergebnis des MAP Schätzers. - - Bei den beiden Methoden MAP-Klassifikation und MMSE-
Schätzung, bei denen die a posteriori Wahrscheinlichkeit
P(Si|X) ausgewertet wird, können zu den a priori bekann
ten Zustandswahrscheinlichkeiten zusätzlich die Über
gangswahrscheinlichkeiten berücksichtigt werden. Zu die
sem Zweck muss in den beiden Ausdrücken ??? der Term
P(Si|X) für die a posteriori Wahrscheinlichkeit durch
den Ausdruck P(S (m)|i, X(0), X(1), . . ., X(m)) ersetzt werden, der von
sämtlichen in der Vergangenheit beobachteten Rahmen ab
hängt. Die Berechnung dieser Verbundwahrscheinlichkeit
kann rekursiv erfolgen
Beim ersten Rahmen kann die Startlösung wie folgt be rechnet werden:
swb
snb
snb
Θ
A(z') Übertragungsfunktion des zum Sprachtraktfilter inversen Filters
HÜS
HBP
Ânb
HI
HS
HBS
Âwb
nb
wb
AE Anregungserzeugung
ST Sprachtrakt
TP Tiefpaß
LPCA LPC-Analyse
BP Bandpaß
ADD Addierer
LPCA LPC-Analyse
EE Einhüllendenerweiterung
RE Restsignalerweiterung
IF Inversfilter
SF Synthesefilter
BS Bandstopp
IP Interpolation
I Anzahl Codebuch
RA Reduzierung Abtastfrequenz
SCH Schalter
Claims (21)
Bereitstellen eines schmalbandigen Sprachsignals mit einer vorbestimmten Abtastrate;
Durchführen einer Analysefilterung an dem abgetasteten Sprachsignal mit aus dem abgetasteten Sprachsignal geschätz ten Filterkoeffizienten, welche eine Erweiterung der Band breite der Einhüllenden bewirken;
Durchführen einer Restsignalerweiterung an dem anlaysegefil terten Sprachsignal; und
Durchführen einer Synthesefilterung an dem restsignalerweite reten Sprachsignal zur Erzeugung eines breitbandigeren Sprachsignals mit den aus dem abgetasteten Sprachsignal ge schätzten Filterkoeffizienten.
Aufstellen des Codebuchs unter Verwendung eines Hidden- Markov-Modells, wobei jedem Codebucheintrag ein Zustand des Hidden-Markov-Modells zugeordnet ist und für jeden Zustand ein separates statistisches Modell trainiert wird, welches vorbestimmte Merkmale des schmalbandigen Sprachsignals in Ab hängigkeit vom Zustand beschreibt;
Extrahieren der vorbestimmten Merkmale aus dem schmalbandigen Sprachsignal zu einem Merkmalsvektor für einen jeweiligen Zeitabschnitt;
Vergleichen des Merkmalsvektors mit den statistischen Model len; und
Ermitteln der Filterkoeffizienten aufgrund des Vergleichser gebnisses.
die Beobachtungswahrscheinlichkeit des Auftretens des Merk malsvektors unter der Voraussetzung, daß sich die Quelle für das abgetastete Sprachsignal im jeweiligen Zustand befindet;
die Übergangswahrscheinlichkeit, daß die Quelle für das abge tastete Sprachsignal von dem Zeitabschnitt zum nächsten den Zustand wechselt; und
die Zustandswahrscheinlichkeit des Auftretens des jeweiligen Zustands.
einer Eingabeeinrichtung zum Bereitstellen eines schmalbandi gen Sprachsignals mit einer vorbestimmten Abtastrate;
einem Analysefilter (AF) zum Durchführen einer Analysefilte rung an dem abgetasteten Sprachsignal mit aus dem abgetaste ten Sprachsignal geschätzten Filterkoeffizienten, welche eine Erweiterung der Bandbreite der Einhüllenden bewirken;
einer Restsignalerweiterungseinrichtung (RE) zum Durchführen einer Restsignalerweiterung an dem anlaysegefilterten Sprach signal; und
einem Synthesefilter (SF) zum Durchführen einer Synthesefil terung an dem restsignalerweitereten Sprachsignal zur Erzeu gung eines breitbandigeren Sprachsignals mit den aus dem ab getasteten Sprachsignal geschätzten Filterkoeffizienten.
Aufstellen des Codebuchs unter Verwendung eines Hidden- Markov-Modells, wobei jedem Codebucheintrag ein Zustand des Hidden-Markov-Modells zugeordnet ist und für jeden Zustand ein separates statistisches Modell trainiert wird, welches vorbestimmte Merkmale des schmalbandigen Sprachsignals in Ab hängigkeit vom Zustand beschreibt;
Extrahieren der vorbestimmten Merkmale aus dem schmalbandigen Sprachsignal zu einem Merkmalsvektor für einen jeweiligen Zeitabschnitt;
Vergleichen des Merkmalsvektors mit den statistischen Model len; und
Ermitteln der Filterkoeffizienten aufgrund des Vergleichser gebnisses.
die Beobachtungswahrscheinlichkeit des Auftretens des Merk malsvektors unter der Voraussetzung, daß sich die Quelle für das abgetastete Sprachsignal im jeweiligen Zustand befindet;
die Übergangswahrscheinlichkeit, daß die Quelle für das abge tastete Sprachsignal von dem Zeitabschnitt zum nächsten den Zustand wechselt; und
die Zustandswahrscheinlichkeit des Auftretens des jeweiligen Zustands.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10041512A DE10041512B4 (de) | 2000-08-24 | 2000-08-24 | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
US10/111,522 US7181402B2 (en) | 2000-08-24 | 2001-08-07 | Method and apparatus for synthetic widening of the bandwidth of voice signals |
PCT/EP2001/009125 WO2002017303A1 (de) | 2000-08-24 | 2001-08-07 | Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10041512A DE10041512B4 (de) | 2000-08-24 | 2000-08-24 | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10041512A1 true DE10041512A1 (de) | 2002-03-14 |
DE10041512B4 DE10041512B4 (de) | 2005-05-04 |
Family
ID=7653597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10041512A Expired - Lifetime DE10041512B4 (de) | 2000-08-24 | 2000-08-24 | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
Country Status (3)
Country | Link |
---|---|
US (1) | US7181402B2 (de) |
DE (1) | DE10041512B4 (de) |
WO (1) | WO2002017303A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004044894A1 (de) * | 2002-11-11 | 2004-05-27 | Siemens Aktiengesellschaft | Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals |
WO2007087824A1 (de) * | 2006-01-31 | 2007-08-09 | Siemens Enterprise Communications Gmbh & Co. Kg | Verfahren und anordnungen zur audiosignalkodierung |
Families Citing this family (80)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7742927B2 (en) * | 2000-04-18 | 2010-06-22 | France Telecom | Spectral enhancing method and device |
DE10116358A1 (de) * | 2001-04-02 | 2002-11-07 | Micronas Gmbh | Vorrichtung und Verfahren zur Erfassung und Unterdrückung von Störungen |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US6934677B2 (en) | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US20030135374A1 (en) * | 2002-01-16 | 2003-07-17 | Hardwick John C. | Speech synthesizer |
US7421304B2 (en) * | 2002-01-21 | 2008-09-02 | Kenwood Corporation | Audio signal processing device, signal recovering device, audio signal processing method and signal recovering method |
ES2280736T3 (es) * | 2002-04-22 | 2007-09-16 | Koninklijke Philips Electronics N.V. | Sintetizacion de señal. |
US7502743B2 (en) * | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
JP4433668B2 (ja) * | 2002-10-31 | 2010-03-17 | 日本電気株式会社 | 帯域拡張装置及び方法 |
DE10252070B4 (de) * | 2002-11-08 | 2010-07-15 | Palm, Inc. (n.d.Ges. d. Staates Delaware), Sunnyvale | Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür |
KR100465318B1 (ko) * | 2002-12-20 | 2005-01-13 | 학교법인연세대학교 | 광대역 음성신호의 송수신 장치 및 그 송수신 방법 |
US7519530B2 (en) * | 2003-01-09 | 2009-04-14 | Nokia Corporation | Audio signal processing |
US20040138876A1 (en) * | 2003-01-10 | 2004-07-15 | Nokia Corporation | Method and apparatus for artificial bandwidth expansion in speech processing |
WO2004084182A1 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Decomposition of voiced speech for celp speech coding |
US7461003B1 (en) * | 2003-10-22 | 2008-12-02 | Tellabs Operations, Inc. | Methods and apparatus for improving the quality of speech signals |
US7460990B2 (en) * | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
US20050216260A1 (en) * | 2004-03-26 | 2005-09-29 | Intel Corporation | Method and apparatus for evaluating speech quality |
US8712768B2 (en) | 2004-05-25 | 2014-04-29 | Nokia Corporation | System and method for enhanced artificial bandwidth expansion |
WO2006011265A1 (ja) * | 2004-07-23 | 2006-02-02 | D & M Holdings, Inc. | オーディオ信号出力装置 |
DE102005000830A1 (de) * | 2005-01-05 | 2006-07-13 | Siemens Ag | Verfahren zur Bandbreitenerweiterung |
US8249861B2 (en) * | 2005-04-20 | 2012-08-21 | Qnx Software Systems Limited | High frequency compression integration |
US7813931B2 (en) * | 2005-04-20 | 2010-10-12 | QNX Software Systems, Co. | System for improving speech quality and intelligibility with bandwidth compression/expansion |
US8086451B2 (en) | 2005-04-20 | 2011-12-27 | Qnx Software Systems Co. | System for improving speech intelligibility through high frequency compression |
US7698143B2 (en) * | 2005-05-17 | 2010-04-13 | Mitsubishi Electric Research Laboratories, Inc. | Constructing broad-band acoustic signals from lower-band acoustic signals |
US7778718B2 (en) * | 2005-05-24 | 2010-08-17 | Rockford Corporation | Frequency normalization of audio signals |
US8311840B2 (en) * | 2005-06-28 | 2012-11-13 | Qnx Software Systems Limited | Frequency extension of harmonic signals |
US20070005351A1 (en) * | 2005-06-30 | 2007-01-04 | Sathyendra Harsha M | Method and system for bandwidth expansion for voice communications |
DE102005032724B4 (de) * | 2005-07-13 | 2009-10-08 | Siemens Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
EP1772855B1 (de) | 2005-10-07 | 2013-09-18 | Nuance Communications, Inc. | Verfahren zur Erweiterung der Bandbreite eines Sprachsignals |
US7546237B2 (en) * | 2005-12-23 | 2009-06-09 | Qnx Software Systems (Wavemakers), Inc. | Bandwidth extension of narrowband speech |
US7953604B2 (en) * | 2006-01-20 | 2011-05-31 | Microsoft Corporation | Shape and scale parameters for extended-band frequency coding |
US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
US8190425B2 (en) * | 2006-01-20 | 2012-05-29 | Microsoft Corporation | Complex cross-correlation parameters for multi-channel audio |
US7885419B2 (en) | 2006-02-06 | 2011-02-08 | Vocollect, Inc. | Headset terminal with speech functionality |
US7773767B2 (en) | 2006-02-06 | 2010-08-10 | Vocollect, Inc. | Headset terminal with rear stability strap |
US8538050B2 (en) * | 2006-02-17 | 2013-09-17 | Zounds Hearing, Inc. | Method for communicating with a hearing aid |
US7480641B2 (en) * | 2006-04-07 | 2009-01-20 | Nokia Corporation | Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation |
US7519619B2 (en) * | 2006-08-21 | 2009-04-14 | Microsoft Corporation | Facilitating document classification using branch associations |
KR101414233B1 (ko) * | 2007-01-05 | 2014-07-02 | 삼성전자 주식회사 | 음성 신호의 명료도를 향상시키는 장치 및 방법 |
US7912729B2 (en) | 2007-02-23 | 2011-03-22 | Qnx Software Systems Co. | High-frequency bandwidth extension in the time domain |
GB0705329D0 (en) * | 2007-03-20 | 2007-04-25 | Skype Ltd | Method of transmitting data in a communication system |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
US8041577B2 (en) * | 2007-08-13 | 2011-10-18 | Mitsubishi Electric Research Laboratories, Inc. | Method for expanding audio signal bandwidth |
US8688441B2 (en) * | 2007-11-29 | 2014-04-01 | Motorola Mobility Llc | Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content |
JPWO2009084221A1 (ja) * | 2007-12-27 | 2011-05-12 | パナソニック株式会社 | 符号化装置、復号装置およびこれらの方法 |
US8433582B2 (en) * | 2008-02-01 | 2013-04-30 | Motorola Mobility Llc | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US20090201983A1 (en) * | 2008-02-07 | 2009-08-13 | Motorola, Inc. | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US8326641B2 (en) * | 2008-03-20 | 2012-12-04 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding using bandwidth extension in portable terminal |
US8463412B2 (en) * | 2008-08-21 | 2013-06-11 | Motorola Mobility Llc | Method and apparatus to facilitate determining signal bounding frequencies |
US9037474B2 (en) | 2008-09-06 | 2015-05-19 | Huawei Technologies Co., Ltd. | Method for classifying audio signal into fast signal or slow signal |
US8831958B2 (en) * | 2008-09-25 | 2014-09-09 | Lg Electronics Inc. | Method and an apparatus for a bandwidth extension using different schemes |
USD605629S1 (en) | 2008-09-29 | 2009-12-08 | Vocollect, Inc. | Headset |
US9947340B2 (en) * | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
GB2466201B (en) * | 2008-12-10 | 2012-07-11 | Skype Ltd | Regeneration of wideband speech |
GB0822537D0 (en) * | 2008-12-10 | 2009-01-14 | Skype Ltd | Regeneration of wideband speech |
JP4945586B2 (ja) * | 2009-02-02 | 2012-06-06 | 株式会社東芝 | 信号帯域拡張装置 |
US8463599B2 (en) * | 2009-02-04 | 2013-06-11 | Motorola Mobility Llc | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
DK2242045T3 (da) * | 2009-04-16 | 2012-09-24 | Univ Mons | Talesyntese og kodningsfremgangsmåder |
US8160287B2 (en) | 2009-05-22 | 2012-04-17 | Vocollect, Inc. | Headset with adjustable headband |
US8438659B2 (en) | 2009-11-05 | 2013-05-07 | Vocollect, Inc. | Portable computing device and headset interface |
WO2011148230A1 (en) * | 2010-05-25 | 2011-12-01 | Nokia Corporation | A bandwidth extender |
US8958510B1 (en) * | 2010-06-10 | 2015-02-17 | Fredric J. Harris | Selectable bandwidth filter |
JP5961950B2 (ja) * | 2010-09-15 | 2016-08-03 | ヤマハ株式会社 | 音声処理装置 |
US20120143604A1 (en) * | 2010-12-07 | 2012-06-07 | Rita Singh | Method for Restoring Spectral Components in Denoised Speech Signals |
CN102610231B (zh) * | 2011-01-24 | 2013-10-09 | 华为技术有限公司 | 一种带宽扩展方法及装置 |
GB2520867B (en) | 2011-10-25 | 2016-05-18 | Skype Ltd | Jitter buffer |
JP5949379B2 (ja) * | 2012-09-21 | 2016-07-06 | 沖電気工業株式会社 | 帯域拡張装置及び方法 |
CN103928031B (zh) | 2013-01-15 | 2016-03-30 | 华为技术有限公司 | 编码方法、解码方法、编码装置和解码装置 |
US10043535B2 (en) | 2013-01-15 | 2018-08-07 | Staton Techiya, Llc | Method and device for spectral expansion for an audio signal |
US9319510B2 (en) * | 2013-02-15 | 2016-04-19 | Qualcomm Incorporated | Personalized bandwidth extension |
CN104050971A (zh) * | 2013-03-15 | 2014-09-17 | 杜比实验室特许公司 | 声学回声减轻装置和方法、音频处理装置和语音通信终端 |
FR3007563A1 (fr) * | 2013-06-25 | 2014-12-26 | France Telecom | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
US10045135B2 (en) | 2013-10-24 | 2018-08-07 | Staton Techiya, Llc | Method and device for recognition and arbitration of an input connection |
US10043534B2 (en) | 2013-12-23 | 2018-08-07 | Staton Techiya, Llc | Method and device for spectral expansion for an audio signal |
FR3017484A1 (fr) * | 2014-02-07 | 2015-08-14 | Orange | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
US9959888B2 (en) * | 2016-08-11 | 2018-05-01 | Qualcomm Incorporated | System and method for detection of the Lombard effect |
US10264116B2 (en) * | 2016-11-02 | 2019-04-16 | Nokia Technologies Oy | Virtual duplex operation |
WO2018201112A1 (en) * | 2017-04-28 | 2018-11-01 | Goodwin Michael M | Audio coder window sizes and time-frequency transformations |
US20190051286A1 (en) * | 2017-08-14 | 2019-02-14 | Microsoft Technology Licensing, Llc | Normalization of high band signals in network telephony communications |
US10672382B2 (en) * | 2018-10-15 | 2020-06-02 | Tencent America LLC | Input-feeding architecture for attention based end-to-end speech recognition |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5455888A (en) * | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0732687B2 (de) * | 1995-03-13 | 2005-10-12 | Matsushita Electric Industrial Co., Ltd. | Vorrichtung zur Erweiterung der Sprachbandbreite |
EP0878790A1 (de) * | 1997-05-15 | 1998-11-18 | Hewlett-Packard Company | Sprachkodiersystem und Verfahren |
EP0945852A1 (de) * | 1998-03-25 | 1999-09-29 | BRITISH TELECOMMUNICATIONS public limited company | Sprachsynthese |
-
2000
- 2000-08-24 DE DE10041512A patent/DE10041512B4/de not_active Expired - Lifetime
-
2001
- 2001-08-07 US US10/111,522 patent/US7181402B2/en not_active Expired - Fee Related
- 2001-08-07 WO PCT/EP2001/009125 patent/WO2002017303A1/de active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5455888A (en) * | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
Non-Patent Citations (5)
Title |
---|
H. Carl, "Untersuchung verschiedener Methoden der Sprachcodierung und eine Anwendung zur Bandbreitenvergrößerung von Schmalband- Sprachsignalen", Dissertation, Ruhr-Universit„t Bochum, 1994 * |
H. Hermansky, C. Avendano, E.A. Wan, "Noise Reduction and Recovery of Missing Frequencies in Speech", Proceedings 15th Annual Speech Research Symposium, 1995 * |
M. Dietrich, "Performance and Implementation of a Robust ADPCM Algorithm for Wideband Speech Coding with 64 kBit/s", Proc. International ZürichSeminar Digital Communications, 1984 * |
P.J. Patrick, "Enhancement of Bandlimit Speech Signals", Dissertation, Loughborough University ofTechnology, 1983 * |
Y.M. Cheng, D. O'Shaugnessy, P. Mermelstein, "Statistical Recovery of Wideband Speech from Narrowband Speech", IEEE Transactions on Speech and Audio Processing, Band 2, Nr. 4, Okt. 1994 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004044894A1 (de) * | 2002-11-11 | 2004-05-27 | Siemens Aktiengesellschaft | Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals |
WO2007087824A1 (de) * | 2006-01-31 | 2007-08-09 | Siemens Enterprise Communications Gmbh & Co. Kg | Verfahren und anordnungen zur audiosignalkodierung |
US8612216B2 (en) | 2006-01-31 | 2013-12-17 | Siemens Enterprise Communications Gmbh & Co. Kg | Method and arrangements for audio signal encoding |
Also Published As
Publication number | Publication date |
---|---|
US20030050786A1 (en) | 2003-03-13 |
US7181402B2 (en) | 2007-02-20 |
DE10041512B4 (de) | 2005-05-04 |
WO2002017303A1 (de) | 2002-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10041512B4 (de) | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen | |
DE60101148T2 (de) | Vorrichtung und verfahren zur sprachsignalmodifizierung | |
EP1825461B1 (de) | Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen | |
DE69634645T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE69831288T2 (de) | An Umgebungsgeräusche angepasste Sprachverarbeitung | |
DE60104091T2 (de) | Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung | |
DE69615302T2 (de) | Maskierung des wahrnehmbaren Rauschens auf der Basis der Frequenzantwort eines Synthesefilters | |
DE69910240T2 (de) | Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals | |
DE60125219T2 (de) | Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder | |
DE69621393T2 (de) | Quantisierung von Sprachsignalen in prädiktiven Kodiersystemen unter Verwendung von Modellen menschlichen Hörens | |
DE60029990T2 (de) | Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer | |
DE60120949T2 (de) | Eine hörprothese mit automatischer hörumgebungsklassifizierung | |
DE60218385T2 (de) | Nachfilterung von kodierter Sprache im Frequenzbereich | |
RU2447415C2 (ru) | Способ и устройство для расширения ширины полосы аудиосигнала | |
DE69432943T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE2626793C3 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
DE69524994T2 (de) | Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen | |
DE602005001048T2 (de) | Erweiterung der Bandbreite eines schmalbandigen Sprachsignals | |
DE69132885T2 (de) | CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal | |
DE69529393T2 (de) | Verfahren zur gewichteten Geräuschfilterung | |
DE69620967T2 (de) | Synthese von Sprachsignalen in Abwesenheit kodierter Parameter | |
DE69730721T2 (de) | Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form | |
DE69616724T2 (de) | Verfahren und System für die Spracherkennung | |
DE69411817T2 (de) | Verfahren und vorrichtung zur kodierung/dekodierung von hintergrundgeräuschen | |
DE60300267T2 (de) | Verfahren und Vorrichtung zur multi-referenz Korrektur der durch ein Kommunikationsnetzwerk verursachten spektralen Sprachverzerrungen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: LANTIQ DEUTSCHLAND GMBH, 85579 NEUBIBERG, DE |
|
R081 | Change of applicant/patentee |
Owner name: LANTIQ DEUTSCHLAND GMBH, DE Free format text: FORMER OWNER: INFINEON TECHNOLOGIES AG, 81669 MUENCHEN, DE Effective date: 20110325 Owner name: LANTIQ BETEILIGUNGS-GMBH & CO. KG, DE Free format text: FORMER OWNER: INFINEON TECHNOLOGIES AG, 81669 MUENCHEN, DE Effective date: 20110325 |
|
R081 | Change of applicant/patentee |
Owner name: INTEL CORP., SANTA CLARA, US Free format text: FORMER OWNER: LANTIQ DEUTSCHLAND GMBH, 85579 NEUBIBERG, DE Owner name: LANTIQ BETEILIGUNGS-GMBH & CO. KG, DE Free format text: FORMER OWNER: LANTIQ DEUTSCHLAND GMBH, 85579 NEUBIBERG, DE |
|
R071 | Expiry of right | ||
R081 | Change of applicant/patentee |
Owner name: INTEL CORP., SANTA CLARA, US Free format text: FORMER OWNER: LANTIQ BETEILIGUNGS-GMBH & CO. KG, 85579 NEUBIBERG, DE |