AT507844B1 - Methode zur trennung von signalpfaden und anwendung auf die verbesserung von sprache mit elektro-larynx - Google Patents
Methode zur trennung von signalpfaden und anwendung auf die verbesserung von sprache mit elektro-larynx Download PDFInfo
- Publication number
- AT507844B1 AT507844B1 AT0019309A AT1932009A AT507844B1 AT 507844 B1 AT507844 B1 AT 507844B1 AT 0019309 A AT0019309 A AT 0019309A AT 1932009 A AT1932009 A AT 1932009A AT 507844 B1 AT507844 B1 AT 507844B1
- Authority
- AT
- Austria
- Prior art keywords
- signal
- frequency
- speech
- filtering
- channel
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000011664 signaling Effects 0.000 title description 2
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 230000001131 transforming effect Effects 0.000 claims abstract 2
- 230000009466 transformation Effects 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 230000006837 decompression Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 230000001629 suppression Effects 0.000 claims 2
- 230000002238 attenuated effect Effects 0.000 claims 1
- 230000002349 favourable effect Effects 0.000 claims 1
- 230000010354 integration Effects 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 description 3
- 210000000214 mouth Anatomy 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 210000004872 soft tissue Anatomy 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Telephone Function (AREA)
- Prostheses (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zur Verbesserung der Sprachqualität eines Elektro-Larynx (EL) Sprechers, dessen Sprachsignal über geeignete Mittel digitalisiert wird, wobei die folgenden Schritte durchgeführt werden:a) Aufteilen eines einkanaligen Sprachsignals in eine Reihe von Frequenzkanälen durch Überführen vom Zeitbereich in einen diskreten Frequenzbereich,b) Herausfiltern der Modulationsfrequenz des EL mittels eines Hochpass- bzw. Notchfilters, in jedem Frequenzkanal undc) Rücktransformieren des gefilterten Sprachsignals vom Frequenzbereich in den Zeitbereich und Zusammenführen zu einem einkanaligen Ausgangssignal.
Description
österreichisches Patentamt AT 507844 B1 2010-11-15
Beschreibung
METHODE ZUR TRENNUNG VON SIGNALPFADEN UND ANWENDUNG AUF DIE VERBESSERUNG VON SPRACHE MIT ELEKTRO-LARYNX
[0001] Bei der Erfindung handelt es sich um ein Verfahren zur Verbesserung der Sprachqualität eines Elektro-Larynx (EL) Sprechers, wobei das Sprachsignal des Sprechers über geeignete Mittel digitalisiert wird. Unter geeigneten Mitteln werden hier beispielsweise ein Mikrofon mit zugehörigem Analog/Digital-Umsetzer, ein Telefon oder andere Methoden unter Verwendung von elektronischem Equipment verstanden.
[0002] Bei einem EL handelt es sich um ein Gerät zur Bildung einer künstlichen Ersatzstimme, beispielsweise für Patienten, denen operativ der Kehlkopf entfernt wurde. Der EL wird dabei an der Unterseite des Kiefers angesetzt; ein Tongenerator mit einer bestimmten Frequenz bringt die Luft in der Mundhöhle über die Weichteile an der Unterseite des Kiefers zum Vibrieren. Diese Schwingungen werden dann durch die Artikulationsorgane moduliert, so dass ein Sprechen möglich wird. Da allerdings der Tongenerator meistens nur mit einer Frequenz arbeitet, klingt die Stimme monoton und unnatürlich, bzw. „roboterhaft".
[0003] Weiters ist von Nachteil, dass die Vibration des EL die Wahrnehmung des Sprechens stört oder sogar übertönt, weil nur ein Teil des Schalls in der Mundhöhle artikuliert wird. Die direkt vom Gerät oder an der Übergangsstelle am Hals austretenden Anteile überlagern die artikulierten Teile und setzen die Verständlichkeit herab. Dies ist besonders bei Sprechern der Fall, die einer Strahlentherapie im Halsbereich unterzogen wurden, wodurch sich die Gewebestruktur versteift. Es wurden daher verschiedene Methoden entwickelt, die das Nutzsignal - also die artikulierten Schwingungen - gegenüber dem Störsignal - also dem Direktschall, bzw. der un-modulierten Vibration des EL - verstärken sollen.
[0004] Diese Methoden kommen dabei überwiegend in Situationen zum Einsatz, bei denen der Zuhörer dem abgestrahlten Schall nicht unmittelbar ausgesetzt ist, sondern elektronische Mittler verwendet werden, beispielsweise beim Telefonieren, bei Schallaufzeichnungen oder allgemein beim Sprechen über Mikrofon und Verstärker.
[0005] In der US 6,359,988 B1 wird ein EL-Stimmsignal einer Cepstrum-Analyse unterworfen und mit der Sprache eines Normalsprechers überlagert, wodurch sich die Tonlagenveränderung des mit EL Sprechenden natürlicher gestalten lässt; gleichzeitig wird dadurch auch der Anteil des abgestrahlten Direktschalls am Signal unterdrückt. Nachteil an dieser Lösung ist vor allem, dass zu jeder Aussage eines EL-Sprechers zeitgleich die gleiche Aussage eines gesunden (also ohne EL sprechenden) Sprechers benötigt wird, was praktisch kaum realisierbar ist.
[0006] Eine weitere Lösung zeigt die US 6,975,984 B2, in der eine Lösung zum Verbessern eines EL-Sprachsignals in der Telephonie beschrieben wird. Dabei wird in einem digitalen Signalprozessor das Sprachsignal derart bearbeitet, dass das brummende Grundgeräusch des EL erkannt und aus dem Sprachsignal entfernt wird. Das Sprachsignal wird dafür in eine stimmhafte und eine stimmlose Komponente aufgeteilt und getrennt verarbeitet. Der stimmhafte Teil wird blockweise fouriertransformiert, frequenzgefiltert (Grundfrequenz und Harmonische werden weiterverwendet), rücktransformiert und in der Folge vom gesamten Originalsignal subtrahiert. Übrig bleibt der stimmlose Anteil des Originalsignals. Alternativ wird auch vorgeschlagen, den stimmhaften Anteil über Tiefpass zu filtern, im Falle der Erkennung einer Sprachpause völlig auszufiltern und den stimmlosen Anteil hinterher zu überlagern.
[0007] Das Dokument „Enhancement of Electrolaryngeal Speech by Adaptive Filtering" von Carol Y. Espy-Wilson et al. (JSLHR, 41:1253-1264,1998) beschreibt eine Methode zur Verbesserung der Sprachqualität eines EL-Sprechers. Das Grundgeräusch des EL wird dabei mittels adaptiver Filterung an das durch das EL-Grundgeräusch gestörte Sprachsignal (bzw. das zu Sprache artikulierte EL-Grundgeräusch) angeglichen; in einem weiteren Schritt werden die Signale voneinander abgezogen. Übrig bleibt ein Fehlersignal, das zur Kontrolle und Anpassung der Filterparameter mit dem Ziel der Minimierung des Fehlersignals verwendet wird. Das Feh- 1/8 österreichisches Patentamt AT 507844 B1 2010-11-15 lersignal in der vorliegenden Methode ist das vom EL-Grundgeräusch befreite Sprachsignal. Die Annahme dabei ist, dass zwar das Störsignal im Sprachsignal mit dem EL-Grundgeräusch korreliert ist, das interessierende Sprachsignal aber unabhängig von den anderen Signalen ist, dass also quasi das störende Grundgeräusch und das Sprachsignal von unterschiedlichen Quellen herrühren.
[0008] Das Dokument „Enhancement of Electrolarynx Speech Based on Auditory Masking" von Hanjun Liu et al. (IEEE Transactions on Biomedical Engineering, 53(5): 865-874, 2006) beschreibt einen Subtraktionsalgorithmus zur Signalverbesserung eines EL-Sprechenden, insbesondere im Bezug auf Umgebungslärm.
[0009] Im Gegensatz zu anderen Methoden, die fixe Subtraktionsparameter vorsehen, werden bei diesem Algorithmus die Subtraktionsparameter im Frequenzbereich adaptiert, basierend auf auditorischer Maskierung. Dabei wird davon ausgegangen, dass Sprache und Hintergrundgeräusche unkorreliert sind und deshalb der Hintergrundlärm abgeschätzt und im Frequenzbereich vom Signal abgezogen werden kann.
[0010] Diesen Lösungen ist gemeinsam, dass Methoden basierend auf einem Modell verwendet werden, wonach Sprache und Störsignal (also Umgebungsgeräusche, aber auch das Grundgeräusch des EL) statistisch unabhängig, bzw. unkorreliert sind.
[0011] Aufgrund dieser Annahme erfolgt die Implementierung der genannten Methoden auf sehr aufwändige Art und Weise. Wenn versucht wird, den Direktschall mit einem (adaptiven) Notchfilter zu unterdrücken, wird dadurch auch die Qualität des Sprachsignals vermindert, das dann wie ein Flüstern klingt; Sprachsignal und Störgeräusch liegen auf den gleichen Harmonischen.
[0012] Es ist daher eine Aufgabe der Erfindung, die oben genannten Nachteile des Stands der Technik zu überwinden und die Sprachqualität von EL-Anwendern bei Verwendung von elektronischen Mittlern wie beispielsweise Mikrofonen zu verbessern.
[0013] Diese Aufgabe wird mit einem Verfahren der eingangs erwähnten Art erfindungsgemäß durch die folgenden Schritte gelöst: [0014] - Aufteilen eines einkanaligen Sprachsignals in eine Reihe von Frequenzkanälen durch Überführen vom Zeitbereich in einen diskreten Frequenzbereich, [0015] - Herausfiltern der Modulationsfrequenz des EL mittels eines Hochpass- bzw. Notchfil-ters in jedem Frequenzkanal, und [0016] - Rücktransformieren des gefilterten Sprachsignals vom Frequenzbereich in den Zeitbereich und Zusammenführen zu einem einkanaligen Ausgangssignal.
[0017] Die Erfindung macht sich ein verbessertes Modell der Anwendung eines EL zunutze, wonach das zu einem Sprachsignal artikulierte EL-Grundgeräusch sowie die unveränderten Anteile des EL, die die Wahrnehmung des Sprachsignals stören, von einer gemeinsamen Quelle, nämlich dem EL, kommen. Da das störende unartikulierte Grundgeräusch des EL im Modulationsbereich als zeitlich invariantes Signal erkennbar ist, lässt es sich durch geeignetes Vorgehen leicht ausfiltern. Es erfolgt also eine Trennung nicht von Signalquellen, sondern von Ausbreitungswegen (eines Ausbreitungsweges durch die Artikulationsorgane eines Sprechers, ein weiterer Ausbreitungsweg von der Anwendungsstelle am Hals des Sprechers direkt zum Ohr des Zuhörers, bzw. zum Mikrofon oder Aufnahmemittel).
[0018] Dem Fachmann ist eine Vielzahl von Möglichkeiten bekannt, ein digitalisiertes, einkana-liges Signal in den Frequenzbereich zu überführen und so in eine Reihe von Frequenzkanälen aufzuteilen. In jedem Frequenzkanal wird die Modulationsfrequenz des EL durch geeignete Filter - z.B. Notch- oder Hochpassfilter, angewandt auf den Betrag - unterdrückt und so die Qualität der artikulierten Signalanteile verbessert.
[0019] Ähnliche Verfahren aus dem Stand der Technik betrachten die artikulierten Anteile sowie die unveränderten Anteile als von verschiedenen Quellen kommend und wählen diesem Modell 2/8 österreichisches Patentamt AT 507844 B1 2010-11-15 entsprechende Herangehensweisen, beispielsweise Filterung mittels Bandpassfiltern, die dann allerdings auch das Sprachsignal dämpfen.
[0020] Das erfindungsgemäße Verfahren zielt also darauf ab, die Verständlichkeit der Sprache von EL-Anwendern zu erhöhen bzw. das Signal angenehmer und „menschlicher" zu machen. Ziel ist es, den Direktschall aus dem EL bei Kommunikation über elektronische Mittel (z.B. Telefon) zu reduzieren bzw. zu eliminieren.
[0021] Die Realisierung des erfindungsgemäßen Verfahrens kann beispielsweise durch ein Software-Plugin, als fest verdrahtete Lösung oder auch als Analogschaltung erfolgen.
[0022] Aus der Vielzahl bekannter Methoden zur Überführung eines Signals in den Frequenzbereich bzw. zurück erfolgt die Überführung in Schritt a) des erfindungsgemäßen Verfahrens günstigerweise mittels Fourier-Transformation und die Rücktransformation in Schritt c) mittels inverser Fourier-Transformation. Die Überführung erfolgt blockweise (z.B. Blöcke von 20 ms) in kurzen Abständen (Auffrischung beispielsweise alle 10 ms). Die Aufteilung des Signals in eine Reihe von Frequenzkanälen erfolgt beim Überführen des Signals in den Frequenzbereich.
[0023] In einer Variante der Erfindung erfolgt die Überführung des Sprachsignals in Schritt a) und die Rücktransformation in Schritt c) mit einer entsprechenden Filterbank.
[0024] Die Ergebnisse des erfindungsgemäßen Verfahrens lassen sich weiter verbessern, wenn vor der Filterung in Schritt b) eine Signal-Kompression erfolgt und nach Schritt b) eine Dekompression erfolgt. Durch die Kompression kann verhindert werden, dass bei hohen Amplituden deren Änderungen derart dominant sind, dass die Änderungen kleiner Amplituden nicht berücksichtigt werden. Durch die Kompression werden also relative Änderungen für das Filter besser sichtbar.
[0025] In einer weiteren Ausführung des erfindungsgemäßen Verfahrens erfolgt vor der Rücktransformation in Schritt c) eine Gleichrichtung der negativen Signalkomponenten.
[0026] Im Folgenden wird die Erfindung anhand eines nicht einschränkenden Ausführungsbeispiels, das in der Zeichnung dargestellt ist, näher erläutert. In dieser zeigt schematisch: [0027] Fig. 1 eine vereinfachte Darstellung der Verwendung eines EL und die auftretenden
Signalpfade, [0028] Fig. 2 eine vereinfachte Darstellung der Situation, in der die erfindungsgemäße Metho de Anwendung findet und [0029] Fig. 3 ein Blockschaltbild der erfindungsgemäßen Methode.
[0030] In Fig. 1 sind die verschiedenen Übertragungswege des Signals eines EL 1 skizziert. Dabei ist am Hals eines Sprechers 2 ein EL 1 angeordnet. Der vom EL 1 erzeugte Schall breitet sich einerseits durch die normalen Sprachkanäle (Mund und Nase) 5 des ersten Sprechers 2 aus und wird dort zu Sprache artikuliert; dieses erste Signal 3 ist deutlich veränderlich, bzw. zeitvariant. Am Ohr eines Zuhörers 4 kommt neben diesem Zeitvarianten Signal 3 auch ein zweites Signal 6 (in Fig. 1 strichpunktiert dargestellt) in Form des Direktschalls des EL 1 an, wobei dieses Signal 4 weitgehend stationär ist und daher als zeitlich invariant angenommen wird. Der zweite Teil 6 des Gesamtsignals, also das Grundgeräusch des EL 1, wird vom Zuhörer 4 als Störsignal wahrgenommen und verringert die Verständlichkeit der Sprache des Sprechers 2. Die ursprüngliche Anregung mittels des EL 1 wird also über zwei verschiedene Pfade übertragen.
[0031] Zwar bezieht sich die Erfindung auf die Verbesserung der Sprachqualität eines EL-Sprechers bei Verwendung von elektronischen Mittlern - anstatt eines Zuhörers würden die Signale also beispielsweise mit einem Mikrofon aufgenommen werden. Zur Illustration der Ausgangslage wurde allerdings aus Gründen der Verständlichkeit dieses allgemeine Modell gewählt.
[0032] Fig. 2 zeigt eine vereinfachte Modelldarstellung der Situation, auf die die erfindungsgemäßen Methode zur Unterdrückung eines störenden zweiten Signals 6 (siehe Fig. 1) angewen- 3/8 österreichisches Patentamt AT 507844 B1 2010-11-15 det wird. Es ist gut erkennbar, dass es bei der erfindungsgemäßen Methode nicht zu einer Trennung von Signalquellen, sondern von Ausbreitungswegen kommt.
[0033] Ein Quellensignal x(w) von einer Signalquelle 7 breitet sich über zwei verschiedene Signalpfade aus. Im ersten Signalpfad wird das Ausgangssignal durch ein zeitvariantes Filter H(w, t) zu einem zeitvarianten Signal x(w)H(w, t) moduliert. Im zweiten Signalpfad wird das Ausgangssignal nur durch ein zeitinvariantes Filter F(w) zu einem Signal x(w)F(w) verändert.
[0034] Die Signale der beiden Pfade werden dann in einem Empfänger 8 - z.B. dem Ohr eines Zuhörers, einem Mikrofon o.ä. - zu einem zur Messung zur Verfügung stehenden Signal S(w, t) summiert. Das Signal besteht dann aus der Summe der Komponenten, S(w, t) = x(w)H(w, t) + x(w)F(w).
[0035] Es können nun die Signalteile vom zeitinvarianten und vom zeitvarianten Signalpfad getrennt werden, indem entweder alle Signalanteile, die sich zeitlich ändern, bzw. zeitlich konstant sind, gedämpft werden. Man erhält also beispielsweise als Ergebnis nur den zeitvarianten Anteil S1(w, t)~x(w)H(w, t).
[0036] Bei der Anwendung für Sprache mit EL überlagert der unartikulierte Signalanteil x(w)F(w) (also das Grundgeräusch des EL) das zeitvariante Sprachsignal x(w)H(w, t) und bewirkt dadurch einen Verständlichkeitsverlust für das Sprachsignal. Die Sprachverständlichkeit wird verbessert, indem der zeitvariante Signalanteil vom zeitinvarianten Signalanteil getrennt wird.
[0037] Fig. 3 zeigt eine mögliche Umsetzung der erfindungsgemäßen Methode. Dabei kann am Eingang ein beliebiges digitales Sprachsignal 9 von einem Sprecher mit EL anliegen. In einem ersten Schritt 10 wird unter Anwendung der Kurzzeit-Fouriertransformation das Sprachsignal 9 blockweise in den Frequenzbereich transformiert und so in eine Reihe von Frequenzkanälen aufgeteilt. Der Fachmann kann hier aus verschiedenen etablierten Methoden zur Transformation eines Signals vom Zeit- in den Frequenzbereich wählen; neben der Fourier-Transformation findet beispielsweise auch die Diskrete Kosinustransformation Anwendung - Voraussetzung für eine erfindungsgemäße Anwendung ist allerdings, dass die Transformation umkehrbar ist. Das Signal wird mit einer bestimmten Auffrischungsrate (z.B. 10ms) in Blöcke von beispielsweise 20 ms Länge aufgeteilt, die jeweils in eine Reihe von Frequenzkanälen 11 aufgefächert werden. Das ursprünglich einkanalige Sprachsignal 9 wird also in eine Vielzahl von Frequenzbereichen aufgespaltet, die sich als Folge der Zeit ändern. Das Frequenzsignal ist komplex, es wird aber in weiterer Folge nur der Absolutbetrag modifiziert, die Phase 15 bleibt unverändert.
[0038] In Schritt 10 kann auch eine Filterbank verwendet werden, wobei die Abtastrate des Signals nach der Filterbank reduziert wird. Das Reduzieren der Abtastrate entspricht dabei der Blockbildung bei Anwendung der Fourier-Transformation.
[0039] In einem weiteren Funktionsblock 12 wird nun jeder Frequenzkanal 11 gefiltert, beispielsweise mit einem Hochpass- bzw. Notchfilter. Diese Filterung erlaubt das Ausfiltern bestimmter Frequenzen - in der Tontechnik werden mit Notchfiltern schmalbandige Störungen beseitigt. Da der EL auf einer bestimmten Frequenz oszilliert - beispielsweise 100 Hz - ergibt das Störsignal, das nicht durch die Artikulationsorgane eines Sprechers verändert ist, im Frequenzbereich Amplituden im 100 Hz-Kanal mit der Modulationsfrequenz 0 Hz - d.h., dass sich die Amplitude des EL-Signals nicht ändert. Das Störsignal ist dadurch gekennzeichnet, dass es perfekt zeitlich invariant ist. Zur Filterung des Grundgeräuschs des EL werden ein Notch- bzw. ein Hochpassfilter verwendet. Als Grenzfrequenz für das Hochpassfilter dient dabei die Modulationsfrequenz des EL; das Notchfilter wird so gewählt, dass es genau bei der Modulationsfrequenz des EL sperrt.
[0040] In der realen Umsetzung wird natürlich eine perfekte zeitliche Invarianz aufgrund von Reflexionen, Brechungen, Umgebungsgeräuschen und baulicher Notwendigkeiten des EL nicht erreichbar sein. Da allerdings auch das Filter nicht auf nur eine Frequenz eingeschränkt ist, sondern einen bestimmten Frequenzbereich - in diesem Fall einen Modulationsfrequenzbereich - abdeckt, ist die Funktion der erfindungsgemäßen Methode sichergestellt. 4/8
Claims (5)
- österreichisches Patentamt AT 507844 B1 2010-11-15 [0041] In einem abschließenden Funktionsblock 13 erfolgt die Rückführung der Signale in den Zeitbereich, beispielsweise mittels inverser Fourier-Transformation und die Zusammenführung der Frequenzkanäle 11 zurück in einen Kanal mittels overlap-add. Das overlap-add Verfahren ist dabei ein dem Fachmann bekanntes Verfahren aus der digitalen Signalverarbeitung. Ergebnis ist ein einkanaliges Ausgangssignal 14, in dem das Störsignal des EL ausgefiltert oder zumindest gedämpft ist. Das Ausgangssignal kann dann weiter verarbeitet werden. [0042] Bei Anwendung einer Filterbank in Schritt 10 wird die Abtastrate des Signals nach der Filterung in Schritt 12 wieder erhöht und dann wie geschildert weiterbehandelt. [0043] Grundsätzlich stellen diese Ausführungen nur die wichtigsten Bestandteile der erfin-dungsgemäßen Methode dar; vor der Filterung im Block 12 kann das Signal komprimiert werden, nach der Filterung kann eine Dekomprimierung vorgesehen sein. Auch eine Gleichrichtung vor der Rücktransformation in den Zeitbereich kann günstig sein, da bei der Bearbeitung unerlaubte negative Werte entstehen können. [0044] Die Erfindung kann beispielsweise als Zusatzgerät zum Telefonieren verwendet werden. Bei einem herkömmlichen analogen Telefon wird das Gerät einfach in den Hörer integriert. Bei einem Telefon mit integriertem Digitalem Signal Prozessor ist die Integration der Erfindung durch ein Software-Plugin möglich. Auch die Realisierung im Rahmen einer fest verdrahteten Lösung, z.B. auch in einer Analogschaltung, ist möglich. [0045] Die erfindungsgemäße Methode ist auch bei Verwendung eines EL einsetzbar, bei dem zwischen zwei oder mehr Frequenzen hin- und hergeschaltet werden kann um der Sprache einen realistischeren Klang zu geben. Das gilt sowohl für diskrete Frequenzsprünge als auch für kontinuierliche Änderungen der Grundfrequenz unter der Annahme, dass die Frequenzen, zwischen denen gewechselt wird, innerhalb eines Frequenzbandes liegen, in das das Grundsignal aufgeteilt wird. [0046] Die Breite des Modulationsfrequenzfilters bestimmt dabei, wie schnell sich die Frequenz ändern darf. Bei sehr langsamen, kontinuierlichen Änderungen kann sich die Frequenz bei funktionierender Unterdrückung über den gesamten Bereich des Frequenzbandes ändern -ausschlaggebend ist nicht die Größe, sondern die Geschwindigkeit der Änderung. Beim Ein-und Ausschalten des EL, das einer schnellen Änderungen entspricht, greift die Unterdrückung erst nach einigen Millisekunden - abhängig davon, wie breit das Notchfilter gewählt ist bzw. wo die Grundfrequenz des Hochpassfilters liegt. [0047] Dabei dürfen allerdings die Änderungen der Grundfrequenz nicht zu groß sein. Um die erfindungsgemäße Funktion sicher zu stellen, müssten beispielsweise die Frequenzkanäle, in die das Signal aufgeteilt wird, erweitert werden, bzw. die Filterung mittels Hochpassfilter müsste an einer etwas höheren Frequenz ansetzen. Patentansprüche 1. Verfahren zur Verbesserung der Sprachqualität eines Elektro-Larynx (EL) Sprechers, dessen Sprachsignal über geeignete Mittel digitalisiert wird, gekennzeichnet durch die folgenden Schritte: - Aufteilen eines einkanaligen Sprachsignals in eine Reihe von Frequenzkanälen durch Überführen vom Zeitbereich in einen diskreten Frequenzbereich, - Herausfiltern der Modulationsfrequenz des EL mittels eines Hochpass- bzw. Notchfilters, in jedem Frequenzkanal und - Rücktransformieren des gefilterten Sprachsignals vom Frequenzbereich in den Zeitbereich und Zusammenführen zu einem einkanaligen Ausgangssignal.
- 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Überführung des Sprachsignals in Schritt a) mittels Fourier-Transformation und die Rücktransformation in Schritt c) mittels inverser Fourier-Transformation erfolgt. 5/8 österreichisches Patentamt AT 507844 B1 2010-11-15
- 3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Überführung des Sprachsignals in Schritt a) und die Synthese der Frequenzkanäle in Schritt c) mit einer Filterbank erfolgt.
- 4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass vor der Filterung in Schritt b) eine Signal-Kompression erfolgt und nach Schritt b) eine Dekompression erfolgt.
- 5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass vor der Rücktransformation in Schritt c) eine Gleichrichtung der negativen Signalkomponenten erfolgt. Hierzu 2 Blatt Zeichnungen 6/8
Priority Applications (10)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AT0019309A AT507844B1 (de) | 2009-02-04 | 2009-02-04 | Methode zur trennung von signalpfaden und anwendung auf die verbesserung von sprache mit elektro-larynx |
PCT/AT2010/000032 WO2010088709A1 (de) | 2009-02-04 | 2010-02-01 | Methode zur trennung von signalpfaden und anwendung auf die verbesserung von sprache mit elektro-larynx |
PT107088825T PT2394271T (pt) | 2009-02-04 | 2010-02-01 | Método para divisão de canais de sinal e utilização para o aperfeiçoamento vocal utilizando a eletrolaringe |
ES10708882.5T ES2628521T3 (es) | 2009-02-04 | 2010-02-01 | Método para la separación de recorridos de señal y uso para la mejora del habla con laringe electrónica |
JP2011548504A JP5249431B2 (ja) | 2009-02-04 | 2010-02-01 | 信号経路を分離する方法及び電気喉頭を使用して音声を改良するための使用方法 |
DK10708882.5T DK2394271T3 (en) | 2009-02-04 | 2010-02-01 | Method of separating signaling pathways and use to improve speech by electrolarynx. |
CN201080010113.XA CN102341853B (zh) | 2009-02-04 | 2010-02-01 | 用于分离信号路径的方法及用于改善电子喉语音的应用 |
EP10708882.5A EP2394271B1 (de) | 2009-02-04 | 2010-02-01 | Methode zur trennung von signalpfaden und anwendung auf die verbesserung von sprache mit elektro-larynx |
US13/147,893 US20120004906A1 (en) | 2009-02-04 | 2010-02-01 | Method for separating signal paths and use for improving speech using electric larynx |
CA2749617A CA2749617C (en) | 2009-02-04 | 2010-02-01 | Method for separating signal paths and use for improving speech using an electric larynx |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AT0019309A AT507844B1 (de) | 2009-02-04 | 2009-02-04 | Methode zur trennung von signalpfaden und anwendung auf die verbesserung von sprache mit elektro-larynx |
Publications (2)
Publication Number | Publication Date |
---|---|
AT507844A1 AT507844A1 (de) | 2010-08-15 |
AT507844B1 true AT507844B1 (de) | 2010-11-15 |
Family
ID=42272699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
AT0019309A AT507844B1 (de) | 2009-02-04 | 2009-02-04 | Methode zur trennung von signalpfaden und anwendung auf die verbesserung von sprache mit elektro-larynx |
Country Status (10)
Country | Link |
---|---|
US (1) | US20120004906A1 (de) |
EP (1) | EP2394271B1 (de) |
JP (1) | JP5249431B2 (de) |
CN (1) | CN102341853B (de) |
AT (1) | AT507844B1 (de) |
CA (1) | CA2749617C (de) |
DK (1) | DK2394271T3 (de) |
ES (1) | ES2628521T3 (de) |
PT (1) | PT2394271T (de) |
WO (1) | WO2010088709A1 (de) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105310806B (zh) * | 2014-08-01 | 2017-08-25 | 北京航空航天大学 | 具有语音转换功能的电子人工喉系统及其语音转换方法 |
JP7291896B2 (ja) * | 2019-09-24 | 2023-06-16 | パナソニックIpマネジメント株式会社 | レシピ出力方法、レシピ出力システム |
WO2024158407A1 (en) * | 2023-01-24 | 2024-08-02 | Rowan University | Mitigation of malicious sonic attacks on voice-based computing devices |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3746789A (en) * | 1971-10-20 | 1973-07-17 | E Alcivar | Tissue conduction microphone utilized to activate a voice operated switch |
US3872250A (en) * | 1973-02-28 | 1975-03-18 | David C Coulter | Method and system for speech compression |
US4139732A (en) * | 1975-01-24 | 1979-02-13 | Larynogograph Limited | Apparatus for speech pattern derivation |
US4343969A (en) * | 1978-10-02 | 1982-08-10 | Trans-Data Associates | Apparatus and method for articulatory speech recognition |
JPH03228097A (ja) * | 1989-12-22 | 1991-10-09 | Bridgestone Corp | 振動制御装置 |
US5171930A (en) * | 1990-09-26 | 1992-12-15 | Synchro Voice Inc. | Electroglottograph-driven controller for a MIDI-compatible electronic music synthesizer device |
JPH08265891A (ja) * | 1993-01-28 | 1996-10-11 | Tatsu Ifukube | 電気人工喉頭 |
JP3451022B2 (ja) * | 1998-09-17 | 2003-09-29 | 松下電器産業株式会社 | 拡声音の明瞭度改善方法及び装置 |
US20050004604A1 (en) | 1999-03-23 | 2005-01-06 | Jerry Liebler | Artificial larynx using coherent processing to remove stimulus artifacts |
US6359988B1 (en) | 1999-09-03 | 2002-03-19 | Trustees Of Boston University | Process for introduce realistic pitch variation in artificial larynx speech |
JP2001086583A (ja) * | 1999-09-09 | 2001-03-30 | Sentan Kagaku Gijutsu Incubation Center:Kk | 代用原音発生器とその制御方法 |
US6975984B2 (en) | 2000-02-08 | 2005-12-13 | Speech Technology And Applied Research Corporation | Electrolaryngeal speech enhancement for telephony |
US7708697B2 (en) | 2000-04-20 | 2010-05-04 | Pulmosonix Pty Ltd | Method and apparatus for determining conditions of biological tissues |
US7191134B2 (en) * | 2002-03-25 | 2007-03-13 | Nunally Patrick O'neal | Audio psychological stress indicator alteration method and apparatus |
CA2399159A1 (en) * | 2002-08-16 | 2004-02-16 | Dspfactory Ltd. | Convergence improvement for oversampled subband adaptive filters |
EP1665228A1 (de) * | 2003-08-11 | 2006-06-07 | Faculté Polytechnique de Mons | Verfahren zur schätzung der resonanzfrequenz |
US20050281412A1 (en) * | 2004-06-16 | 2005-12-22 | Hillman Robert E | Voice prosthesis with neural interface |
JP4568826B2 (ja) * | 2005-09-08 | 2010-10-27 | 株式会社国際電気通信基礎技術研究所 | 声門閉鎖区間検出装置および声門閉鎖区間検出プログラム |
CN100576320C (zh) * | 2007-03-27 | 2009-12-30 | 西安交通大学 | 一种自动电子喉的电子喉语音增强系统与控制方法 |
US8311831B2 (en) * | 2007-10-01 | 2012-11-13 | Panasonic Corporation | Voice emphasizing device and voice emphasizing method |
-
2009
- 2009-02-04 AT AT0019309A patent/AT507844B1/de not_active IP Right Cessation
-
2010
- 2010-02-01 WO PCT/AT2010/000032 patent/WO2010088709A1/de active Application Filing
- 2010-02-01 PT PT107088825T patent/PT2394271T/pt unknown
- 2010-02-01 CN CN201080010113.XA patent/CN102341853B/zh not_active Expired - Fee Related
- 2010-02-01 ES ES10708882.5T patent/ES2628521T3/es active Active
- 2010-02-01 EP EP10708882.5A patent/EP2394271B1/de not_active Not-in-force
- 2010-02-01 DK DK10708882.5T patent/DK2394271T3/en active
- 2010-02-01 CA CA2749617A patent/CA2749617C/en not_active Expired - Fee Related
- 2010-02-01 JP JP2011548504A patent/JP5249431B2/ja not_active Expired - Fee Related
- 2010-02-01 US US13/147,893 patent/US20120004906A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP2394271A1 (de) | 2011-12-14 |
JP2012517031A (ja) | 2012-07-26 |
JP5249431B2 (ja) | 2013-07-31 |
EP2394271B1 (de) | 2017-03-22 |
ES2628521T3 (es) | 2017-08-03 |
PT2394271T (pt) | 2017-04-26 |
WO2010088709A1 (de) | 2010-08-12 |
CA2749617A1 (en) | 2010-08-12 |
DK2394271T3 (en) | 2017-07-10 |
AT507844A1 (de) | 2010-08-15 |
CN102341853A (zh) | 2012-02-01 |
CA2749617C (en) | 2016-11-01 |
US20120004906A1 (en) | 2012-01-05 |
CN102341853B (zh) | 2014-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69509555T2 (de) | Verfahren zur veränderung eines sprachsignales mittels grundfrequenzmanipulation | |
EP1143416B1 (de) | Geräuschunterdrückung im Zeitbereich | |
DE60116255T2 (de) | Rauschunterdückungsvorrichtung und -verfahren | |
DE10041512B4 (de) | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen | |
DE602004004242T2 (de) | System und Verfahren zur Verbesserung eines Audiosignals | |
DE102006051071B4 (de) | Pegelabhängige Geräuschreduktion | |
DE3871711T2 (de) | Verfahren und geraet zur verbesserung der verstaendlichkeit von stimmen in hoher geraeuschumgebung. | |
DE2526034A1 (de) | Hoerhilfeverfahren und vorrichtung zur durchfuehrung des verfahrens | |
DE102007030209A1 (de) | Glättungsverfahren | |
DE102008031150B3 (de) | Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät | |
DE112011106045B4 (de) | Audiosignal-Wiederherstellungsvorrichtung und Audiosignal-Wiederherstellungsverfahren | |
DE60016144T2 (de) | Hörhilfegerät | |
AT507844B1 (de) | Methode zur trennung von signalpfaden und anwendung auf die verbesserung von sprache mit elektro-larynx | |
DE60317368T2 (de) | Nichtlinearer akustischer echokompensator | |
DE102006001730A1 (de) | Beschallungsanlage, Verfahren zur Verbesserung der Sprachqualität und/oder Verständlichkeit von Sprachdurchsagen sowie Computerprogramm | |
WO2001047335A2 (de) | Verfahren zur elimination von störsignalanteilen in einem eingangssignal eines auditorischen systems, anwendung des verfahrens und ein hörgerät | |
DE60033039T2 (de) | Vorrichtung und verfahren zur unterdrückung von zischlauten unter verwendung von adaptiven filteralgorithmen | |
EP2380171A2 (de) | Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen | |
EP2584795A2 (de) | Verfahren zum Ermitteln einer Kompressionskennlinie | |
DE102021205251B4 (de) | Verfahren und Vorrichtung zur frequenzselektiven Verarbeitung eines Audiosignals mit geringer Latenz | |
DE3027953A1 (de) | Elektro-akustisches hoergeraet mit adaptiver filterschaltung | |
DE102004008225B4 (de) | Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien | |
DE102019211943B4 (de) | Verfahren zur direktionalen Signalverarbeitung für ein Hörgerät | |
DE102009032238A1 (de) | Verfahren zur Kontrolle der Anpassung eines Hörgerätes | |
DE102020114429A1 (de) | Verfahren, vorrichtung, kopfhörer und computerprogramm zur aktiven unterdrückung des okklusionseffektes bei der wiedergabe von audiosignalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC | Change of the owner |
Owner name: HEIMOMED HEINZE GMBH & CO. KG, DD Effective date: 20120531 |
|
MM01 | Lapse because of not paying annual fees |
Effective date: 20190204 |