DE2626793C3 - Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals - Google Patents
Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines SprachsignalsInfo
- Publication number
- DE2626793C3 DE2626793C3 DE2626793A DE2626793A DE2626793C3 DE 2626793 C3 DE2626793 C3 DE 2626793C3 DE 2626793 A DE2626793 A DE 2626793A DE 2626793 A DE2626793 A DE 2626793A DE 2626793 C3 DE2626793 C3 DE 2626793C3
- Authority
- DE
- Germany
- Prior art keywords
- arrangement according
- detector
- voiced
- unvoiced
- speech signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000005284 excitation Effects 0.000 claims description 19
- 238000005311 autocorrelation function Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 15
- 238000011144 upstream manufacturing Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 11
- 238000000034 method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Die Erfindung betrifft eine Anordnung laut Oberbegriff des Anspruchs 1 und dient zur Bewertung
stimmhafter und stimmloser Zustände eines Sprachsignals bei einem Sprachanalysiersystem, das z. B. einen
Teilautokorrelations- bzw. PARCOR-Koeffizienten (partial correlation) verwendet. Emc bekannte Anordnung
(JA-PS 7 54 418), die Teilautokorrelaiionskoeffizienten
verwendet,dient zum Analysieren und Extrahieren des für die Übertragung von Sprachinformationen
nötigen Grundmerkmals eines Sprachsignals mittels einer speziellen Korrelation zwischen aneinander
anschließenden Proben einer Sprach wellenform.
Bei einem bekannten Detektor für stimmhafte und stimmlose Zustände werden letztere in Abhängigkeit
davon bestimmt, ob der Spitzenwert Φ = Φ(Τ) der
Autokorrelationskoeffizienten Φ(τ) eines Sprachsignals einen bestimmten Schwellenwert übersteigt oder nicht,
wobei die Verzögerungszeit r= Γ entsprechend dem Spitzenwert als Grundperiode (pitch period) des
Sprachsignals angesehen wird. Ein derartiges Verfahren ist bekannt (M.M. Sondhi in »New Methods of Pitch
Extraction«, I.E.E.E., Band Au-16, Nr. 2, Juni 1968,
S. 262-265).
Wenn jedoch ein solcher, nur die Periodizität des Sprachsignals benutztender Stimmhaft/Stimmlos-Detektor
des Sprachanalyse- und Synlhesesystems angewandt wird, besteht die Gefahr für eine Fehlbewertung
des stimmhaften und stimmlosen Zustands eines .Sprachsignals, mit dem Ergebnis, daß der stimmhafte
Anteil, der anhand fehlbewerteter Parameter aufgrund der Analyse synthetisiert bzw. zusammengesetzt wird,
durch ein Störsignal (noise) angeregt wird, das als stimmlose Anregungsquelle wirkt, oder daß der
stimmlose Anteil durch eine als stimmhafte Anregungsquclle wirkende Impulsreihe angeregt wird, so daß die
Wiedergabe einer synthetischen Sprache hoher GiHe schwierig wird.
Dieser Detektor berücksichtigt jedoch nicht das gleichzeitige Vorhandensein bzw. die Koexistenz der
stimmhaften Anregungsquelle V und der stimmlosen Anregungsquelle UV, wie in einer Stimmhaft/Stimmlos-Schaltfunktion
V\ (x).
Im Gegensatz dazu wird bei dem Sprachanalysiersystem
unter Benutzung des Teilautokorrelationskoeffizienten die Verzugszeit τ=Τ entsprechend dem in
Spitzenwert des Autokorrelationskoeffizienten W(T) des Restsignals als ürundperiode benutzt, und der
normalisierte Wert ρ/η= W(T)I W(o) des Spitzenwerts wird als Parameter zur Bewertung der stimmhaften und
stimmlosen Zustände bzw. Bedingungen eines Sprachsignals herangezogen, wobei die Koexistenz der
stimmhaften Anregung Vund der stimmlosen Anregung i/Vberücksichtigt wird. Hierbei wird das Verhältnis von
stimmhafter Anregung Vzu stimmloser Anregung UV
unter Bedingungen der Koexistenz durch die in F i g. 1 dargestellten Schaitfunktionen Vj (x) und V'3 (x) bestimmt,
weiche den Spitzenwert ρ/π als Veränderliche benutzen. Ein solches Verfahren ist ebenfalb bekannt
(JA-PS 7 54 418).
Dieses Verfahren ist insofern vorteilhaft, als mit ihm
unvollkommene Bewertungen der stimmhaften und der stimmlosen Anregungen ausgeglichen werden können,
die durch die Varianz des Spitzenwerts ρ/π verursacht werden, doch ist dabei die Kompensation iioch nicht
vollkommen, während weiterhin die stimmhaften und jo stimmlosen Informationen zu groß werden. Dieses
Verfahren ist daher nicht für praktische Anwendung geeignet.
Eine Anordnung laut Oberbegriff des Anspruchs I ist bekannt (US-PS 36 62 115). Diese ist Teil eines J5
Sprachwiedergabegeräts, in welchem aus einem digitalisierten Sprachsignal durch Autokorrelation in einer
Analysiereinrichtung mittels mehrerer kaskadenartig in dieser angeordneten Teilkorrelationsstufen Teilautokorrelationskoeffizienten
k\... Kn gewonnen werden. Aus diesen berechnet ein Korrelationskoeffizientenrechner
den nominierten Wert Φ (rs)des Sprachsignals, wobei die Verzögerungszeit rs die Abtast- oder
Grundfrequenz des Sprachsignals darstellt. Die Korrelationskoeffizienten sind Funktionen tatsächlicher und
durch Extrapolation vorhergesagter Sprachsignalwerte. Der Ausgang der letzten Teilkorrelationsstufe ist mit
einem Autokorrelator verbunden, in dem — nach Multiplikationen und Additionen — Autokorrelationsfunktionen
erzeugt werden. In dem dem Autokorrelator zugeordneten Spitzenwertzähler werden Spitzenwerte
angezeigt, die als Kriterium für das Vorliegen stimmhafter Sprachsignale dienen, wohingegen bei
stimmlosen Signalen derartige Spitzenwerte fehlen.
In der Praxis hat sich jedoch herausgestellt, daß diese Anordnung nur mäßige Ergebnisse bei der Bestimmung
zeitigt, ob stimmhafte oder -lose Sprachsignale vorliegen.
Der Erfindung liegt deshalb die Aufgabe zugrunde, eine elektrische Schaltungsanordnung der Gattung Mi
gemäß Oberbegriff des Anspruchs 1 so auszubilden, daß bei einfachem Aufbau eine genaue und zuverlässige
Unterscheidung stimmhaft/stimmlos ermöglicht wird.
Diese Aufgabe wird durch die kennzeichnenden Merkmale des Anspruchs I gelöst. to
Zweckmäßige Ausgestaltungen der Erfindung sind in den Unteransprüchen gekennzeichnet.
Im folgenden sind bevorzugte Ausführungsbeispiele der Erfindung im Vergleich zum Stand der Technik
anhand der Zeichnung näher erläutert. Es zeigt
Fig. I eine graphische Darstellung einer Stimmhaft/
Stimmlos-Schaltfunktion Vx zur Erläuterung eines bisher benutzten Siimmhaft/Stimmlos-Detektors,
Fig.2 eine o/n-J^-Kennlinie zur Veranschaulichung
des Ergebnisses der Entscheidung nach stimmhaft oder stimmlos, die durch Kombination des Teilautokorrelationskoeffizienten
Art und des Höchstwertes ρ/π des
Autokorrelationskoeffizienten des Restsignals durchgeführt wird,
F i g. 3 ein Blockschaltbild des grundsätzlichen Aufbaus einer Sprachanalysier- und Synthesevorrichtung
bei der erfindungsgemäßen Stimmhaft/Stimmlos-Detektorschaltung,
welcher das Ergebnis der Bewertung gemäß F i g. 2 benutzt,
Fig.4 ein detailliertes Blockschaltbild des Teilautokorrelations-
bzw. PARCOR-Analysators bei der Schaltung gemäß F i g. 3,
Fig.5 ein detailliertes Biocksch;itbild eines bei der
Schaltung gemäß F i g. 3 verwendeten Tonperiodendetektors,
Fig.6 ein detailliertes Blockschaltbild des Stimmhaft/Stimmlos-Detektors
bei der Schaltung gemäß F i g. ?, -jnd
F i g. 7 ein Blockschaltbild eines Sprachanalysier- und Synthesesystems unter Verwendung eines abgewandelten
Stimmhaft/-Stimmlos-Detektors gemäß der Erfindung.
Es wurde ein Sprachsignal unter Anwendung eines Zeitfensters von 20 ms und einer Rahmenfolgeperiode
von 10 ms untersucht, wobei Teilautokorrelations- bzw. PARCOR-Koeffizienten erhalten wurden. Fig. 2 zeigt
einen Maximalwert des Autokorrelationskoeffizienten der Restsignale, nämlich die auf diese Weise erhaltene
PARCOR-Koeffizientencharakteristik erster Ordnung. Diese Charakteristik bzw. Kennlinie wurde mittels einer
PARCOR-Analyse der Sprechweise eines weiblichen Sprechers während einer Zeit von 3 s ermittelt. In
Fig.2 geben die Quadrate und Sternchen jeweils die
stimmhaften bzw. die stimmlosen Zustände in jedem Rahmen an, die manuell durch Ablesen oder Auswerten
der Wellenform der ursprünglichen Sprache ermittelt wurden.
Wenn das Sprachsignal nach dem bisher üblichen Verfahren als Sprachzustand bewertet wird, indem
festgestellt wird, daß grti einen vorbestimmten Schwellenwert
übersteigt, ist es aus Fi g. 2 ersichtlich, daß der stimmhafte Bereich im rechten unteren Abschnitt von
F i g. 2 als stimmloser Bereich fehlbewertet wird. Durch Herabsetzung des Schwellenwerts wird die Bewertung
möglich, daß der rechte untere Abschnitt den stimmhaften Qereich darstellt. Unter diesen Bedingungen werden
jedoch zahlreiche stimmlose Bereiche als stimmhafte Bereiche fehlbewsrtet. Mit anderen Worten: Es besieht
eine Grenze bzw. Einschränkung für das bisher übliche Verfahren, bei dem die stimmhaften und stimmlosen
Zustände bewertet werden, indem legiglich der Faktor ρ/π entsprechend dem Grad der Periodizität als
Parameter benutzt wird,
Bezüglich der Beziehung zwischen der Bewe-tung der stimmhafU'n und stimmlosen Zustände und der Güte der
synthetischen Sprache sollten die folgenden beiden Punkte in Erwägung gezogen werden:
I. Eine Fehlbewertung des stimmhaften Zustands als stimmloser Zustand beeinträchtigt die Natürlichkeit
der synthetischen Sprache.
2. Eine Fehlbewerlung des stimmlosen Zustands als stimmhafter Zustand beeinträchtigt die Verständlichkeit
der stimmlosen Töne.
Die erstgenannte Fehlbewcrtting hat einen wesent
lieh größeren Einfluß auf die Gesamtgüte der synthetischen Sprache als die zweite Fehlbcwertiing.
Zur einwandfreien Festlegung des Kriteriums für die Bewertung ist daher hauptsächlich darauf zu achten, daß
der stimmhafte Zustand nicht als stimmloser Zustand fehlbewertct wird, weshalb es wünschenswert ist. die
Fehlbewertung des stimmlosen Zustands als stimmhafter Zustand in einem Bereich, in welchem diese
Bedingung erfüllt ist. zu verhindern.
Aus obigen Überlegungen geht hervor, daß die angesprochenen Probleme durch die Bewertung gelöst
werden können, daß der stimmhafte Zustand vorhanden ist. wenn um +a χ /η >
t, während der stimmlose Zustand anliegt, wenn um +a χ k\
< ι, wobei a und ι Konstanten darstellen. Die Konstante a stellt somit das
Gefälle einer geraden Linie zwischen den stimmhaften und stimmlosen Bereichen dar. und / gibt den
Höchstwert des Autokorrelationskoeffizienten des Restsignals um an. wenn der PARCOR-Kocflizient
k] = 0. Anhand von F i g. 2 läßt sich beispielsweise
ermitteln, daß 3 = 0.5 und / = 0.4.
Genauer gesagt, ist um ein Parameter, welcher den
Grad der Periodizität des Sprachsignals angibt, während der PARCOR-Koeffizient k\ (Αί<1) kombiniert
mit um einen Wert von etwa — 1 bei einem Sprachsignal mit einer Hochfrequenzkomponente nahe
4 kHz besitzt, wobei k\ gleich dem Autokorrelationskoeffizienten
einer Versuchszeit rs einer Abtastpenode ist. wobei die Abtastfrequenz 8 kHz. beträgt. Der Wert
des PARCOR-Koeffizienten kt nähert sich jedoch bei
einem Sprachsignal mit einer Niederfrequenzkomponente der Größe + 1 an. Demzufolge ist der Wert von k\
für einen durch einen Vokal dargestellten stimmhaften Zustand groß und für einen stimmlosen Zustand
entsprechend einem stimmlosen Reibelaut klein. Mit
den die Periodizität wiedergebenden Parameter o/n dar.
Zum Herausziehen der Periodizität. wie dies für die Verarbeitung einer Längeneinheit des Sprachsignals
von etwa 30 ms entsprechend der Kennlinie der Periodizität erforderlich ist. ist die zeitliche Auflösung
von um gering. Dagegen kann die zeitliche Auflösung für das Herausziehen von k\ vergrößert werden,
wodurch es möglich ist. einem Übergang zwischen stimmhaften uno stimmlosen Zuständen zu folgen, der
eine hohe zeitabhängige Änderungsfrequenz besitzt.
Das weiterhin k\ den PARCOR-Koeffizienten darstellt,
braucht dieser Parameter nicht speziell bestimmt zu werden, wenn die Erfindung auf das Sprachanalysesystem
unter Zugrundelegung der Teiiautokorreiation (PARCOR) angewandt wird.
Wie aus der vorstehenden Untersuchung hervorgeht, wird die Bewertung bzweckt, ob sich das Sprachsignal in
einem stimmhaften oder einem stimmlosen Zustand befindet, durch Kombination eines durch Korrelationsverarbeitung des Sprachsignals erhaltenen bzw. extrahierten
Parameters, z. B. ρ/π, welcher den Grad der Periodizität eines Sprachsignals angibt, mit einem
normalisierten Wert Φ(τ$), welcher dem PARCOR-Koeffizienten
k\ gleich ist. wobei die Verzugszeit rs eine Abtastperiode des Sprachsignals darstellt.
F i g. 3 ist ein Blockschaltbild eines Sprachanaiyse-
und -Synthetisiersystems mit einer Ausführungsform des Stimmhafl/Stimmlos-Detcklors. welcher aus dem Bewertungsergebnis
gemäß Fig. 2 Nutzen zieht. Gemäß F i g. 3 wird ein Sprachsignal über eine l'ingangsklemmc
an ein Tiefpaßfilter 12 zur Beseitigung von Frequenzkomponenten von z.B. über 3.4 kHz angelegt. Der
Ausgang des Tiefpaßfilters 12 ist an einen Analog/Digi
tal-Wandler 13 angeschlossen, welcher das Ausgiingssignal
mit einer Abfrage- oder Abtastfrequenz von 8 kll abgreift und es dann einer Amplitudcnquantelung
unterwirft, um dabei ein Digitalsignal mit 12 Bits zu bilden. Das Ausgangssigna dieses Wandlers 13 wird an
einen PARCOR- bzw. Teilkorrelationskoeffizicnt-Analysator
14 angelegt, welcher die Frequenzspektriim-Hüllkurve
des Sprachsignals auswertet oder analysiert, um z.B. acht PARCOR-Koeffizienten k\ bis k,. zu
bestimmen.
Ein in Fig. 4 beispielhaft dargestellter PARCOR-Koeffizienten-Analysator
14 weist η Stulen von Teilautokorrelatoren 14| bis 14„ njf. die in Kaskade
geschaltet sind. Da alle Teilautokorrelatoren den gleichen Aufbau besitzen, wird nachstehend nur die
Einheit 14 im einzelnen beschrieben. Diese Einheit 14 weist ein Verzögerungsnetz 21 zur Verzögerung des
Sprachsignals um eine Abtastperiode rs, einen Korrelationskoeffizienten-Rechner 22. Multiplizierschaltungen
23 und 24. Addierschaltungen 25 und 26 sowie eine Quantüiierschaltung bzw. einen Größenwandler 27 auf.
Die Teilautokorrelatorstufe I4| ist mit einer Eingangsklemme 28 zur Aufnahme eines Sprachsignals und einer
Ausgangsklemme 29 zur Lieferung des Ausgangssignals für den Größenwandler 27 und des quantisierten
PARCOR-Koeffizienten dieser Stufe, d.h. des PARCOR-Koeffizienten k\ der ersten Ordnung, versehen.
Eine Ausgangsklemme 30 der letzten Stufe 14/) ist unbelegt, während die andere Ausgangsklemme 31 zur
Übermittlung eines Restsignals zum Autokorrelator einer noch näher zu erläuternden Anregungssignal-Ausziehstufe
dient. Die Einzelheiten der Arbeitsweise des PARCOR-Koeffizicnten-Analysators 14 sind in der
US-PS 36 62 115 beschrieben.
Ausziehstufe 15 vorgesehen, sie so geschaltet ist. daß sie
von den Ausgangssignalen des Analysators 14 den PARCOR-Koeffizienten Ai erster Ordnung und das
Restsignal aufnimmt. Die Ausziehstufe 15 weist einen Tonperioden-Detektor 16 und einen Stimmhaft/Stimmlos-Detektor
17 auf. Die Ausziehstufe 15 bestimmt die Autokorrelationsfunktion W(t) des über die Ausgangsklemme
31 gelieferten Restsignals aus einem der Ausgangssignale der des PARCOR-Koeffizienten-Analysators.
und sie wählt den Spitzenwert gm der Autokorrelationsfunktion Wurmmittels des Höchstwert-Wählers,
so daß eine Verzugszeit T entsprechend dem gewählten Spitzenwert o/n als Tonperiode des Sprachsignals
bestimmt oder ermittelt wird.
Der in Fig. 5 in Einzelheiten dargestellte Tonperioden-Detektor 16 weist einen Autokorrelator 35 auf.
welcher die Autokorrelationsfunktion des Restsignals W(t) bestimmt. Aus einer Vielzahl von Ausgangssignalen
des Autokorrelators 35 wird ein Ausgangssignal go= W(o) zum Herausziehen einer Komponente mit
einer Amplitude L und zum Normieren von ρ/η auf noch zu erläuternde Weise benutzt. Der Tonperioden-Detektor
16 weist weiterhin einen Höchstwertwähler 36 zum Ausziehen eines Höchstwerts W(T) im Bereich von
j χ rsSrSAr χ rs aus den verschiedenen Werten von
Wfr^auf, wobei rs die Abgreif- bzw. Abtastperiode des
Sprachsignals darstellt und j und k ganze Zahlen sind.
die derart gewählt sind, daß die Tonperiode innerhalb
des angegebenen Bereichs liegt. Wenn die Abtastfre quenz 8kH/ entspricht, wird / mit 16 und k mit 120
gewählt. Die Verzugszeit /"entsprechend der Verzugszeit, welche tlen Höchstwert W(T) innerhalb dieses
Bereichs liefert, wird als die Toriperiode (ausgedrückt durcti ein ganzzahliges Vielfaches von rs,} bestimmt und
an eine Klemme 38 angelegt. Ein Wert bei Null-Verzugszeit QO- W(o) entsprechend dem Quadrat des
Anregiingssignals wird an eine Wurzelschaltung 39
angelegt, durch welche L = \~üm berechnet wird und
deren Ausgangssignal über einen Größenwandler 40 an eine Ausgangsklemme 41 angelegt wird.
Der durch den Höchstwcrtwähler 36 extrahierte oder ausgezogene Spitzenwert wird an einem Teiler 42 zum
Normalisieren durch das Signal go dividiert, und der normalisierte Wert wird über einen Größenwandler 43
als Signal tjm einer Klemme 44 /ugelührt. Die
Verzugszeit T entsprechend derjenigen, wenn der Höchstwertwähler 36 einen Spitzenwert auswählt, wird
über einen anderen Größenwandler 45 an eine Klemmt1 45 angelegt.
F-" i g. 6 zeigt ein Beispiel für den Stimmhaft/Stimmlos-Detektor
17 mit einer Multiplizierschaltung 48, die ein Produkt aus ;i χ k\ eines über eine Eingangsklemme 49
von PARCOR-Koeffizienten-Analysator 14| gelieferten PARCOR-Koeffizienten und einer Konsante a. wie sie
vorher in Verbindung mit Fig. 2 beschrieben ist, berechnet. Der Detektor 17 weist auch eine Addierschaitung
51 auf, die den vom Tonperioden-Detektor 16 gelieferten normalisierten Spitzenwert omder Autokorrelationsfunktion
der Restsignale über eine Klemme 52 zum Ausgangssignal (a χ /ti) der Multiplizierschaltung
addiert und damit eine Summe (gm+a χ ki) liefert. Außerdem ist ein Komparator 53 vorgesehen, welcher
diese Summe mit einem Schwellenwert t vergleicht. Im Fall von t>(gm+a χ k\) erzeugt der Komparator 53
ein »0«- bzw. Niedrigpegel-Ausgangssignal, während er im Fall von tS(om+a χ k\) ein »!«-Ausgangssignal
(hoher Pegel) erzeugt, wobei diese Ausgangssignale über eine .A.uD"ar."k!c~~c 5Λ. zr. die K!c~™.c JSi
(F i g. 3) angelegt werden. Wenn daher das Ausgangssignal des Komparators 53 einer »0« entspricht, wird das
Sprachsignal als in einem stimmlosen Zustand befindlich bewertet, während bei einem Ausgangssignal gleich
ein stimmhafter Zustand des Sprachsignals bewertet wird.
ein stimmhafter Zustand des Sprachsignals bewertet wird.
Gemäß Fig. 3 werden die durch den Analysator 14
ausgezogenen oder analysierten PARCOR-Koeffizienten k\ — k$ und die durch die Auszieheinheit 15
analysierten Anregungssignale T. V, UV und L an eine gemeinsame Ausgangsklemme 18a angelegt. Wenn ein
Digitalübertragungssystem gewünscht wird, werden ein geeigneter Digitalkodewandler und ein Digitalübertrager
(nicht dargestellt) an die Ausgangskiemme 18a angeschlossen. Wenn eine Tonantwortvorrichtung gewünscht
wird, wird eine geeignete Speichervorrichtung mit der Klemme 18a verbunden. Die durch die eben
beschriebene Vorrichtung von der Klemme 18a abgenommenen Signale werden an eine Klemme ISb
angelegt an die eine Sprachsynthesierschaltung 19 angeschlossen ist, welche ein Sprachsignal entsprechend
den ausgezogenen, durch eine Vorrichtung, wie den Digitalübertrager und die Speichervorrichtung, an die
Klemme 18ft angelegten Parametersignalen reproduziert. Die Sprachsynthetisierschaltung kann von beliebiger
bekannter Bauart, z. B. derjenigen gemäß der US-PS 36 62 115. sein. Das Ausgangssignal dieser
Schaltung 19 wird einer Ausgangskiemme 20 aufgeprägt.
Die Schaltung gemäß F i g. 3 arbeilet wie folgt: Aus
dem an die Eing.ingsklemme 11 angelegten Sprachsignal
werden Hochfrequenzkomponenten von 1. B. über 3.4 kHz durch das Tiefpaßfilter 12 beseitigt, und dessen
Ausgangssignal wird einer Amplitudenquantelungs-Verarbeitung von 12 Bits bei einer Auswerte- oder
Abtastfrequenz von z. B. 8 kHz unterworfen und sodann durch den Analog/-Digiial-Wandler 13 in einen
Digitalkode umgewandelt. Das Ausgangssignal des
Wandlers 13 wird der PARCOR-KoeffizientenAnalysier- oder Ausziehvorrichtung 14 eingegeben, um die
Frequenzspektrum-Hüllkurve der Sprache auszuziehen und dabei z. B. acht PARCOR-Koeffizienten k, - λ>
zu bestimmen. Von diesen Ausgangssignalen werden der Koeffizient k\ erster Ordnung und das Restsignal zur
Anregungssignal-Ausziehvorrichtung 15 gesandt. Wie erwähnt, ist der PARCOR-Koeffizient *t erster Ordnung
gleich Φ(τί)ΙΦ(ο). In der Ausziehvorrichtung oder
-stufe 15 berechnet der Stimmhaft/Slimmlos-Detektor 17 die Summe (um+ak\) des durch die Tonperioden-Aus/iehvorrichtung
16 extrahierten Spitzenwerts ow
und des primären PARCOR-Koeffizienten k\. Wenn die Summe (um + ak\) größer ist als der Schwellenwert i.
bestimmt der Stimmhaft/Stimmlos-Detektor. daß ein stimmhafter Zustand vorliegt, während bei einer unter
dem Schwellenwert t liegenden Summe ein stimmloser Zustand festgestellt wird. Die Ausgangssignale entsprechend
den jeweiligen Zuständen werden an die Ausgangsklemme 18a angelegt. Die Ausgangssignale
werden sodann über einen Digitalübertrager oder eine Speichervorrichtung (nicht dargestellt) zur Klemme 186
und von dieser zur Sprachsynthctisierschaltung 19 zur Reproduktion einer synthetischen Sprache, die zur
Ausgangsklemme 20 übermittelt wird, weitergeleitet.
Die Erfindung bietet die folgenden Vorteile:
1. Da die stimmhaften und stimmlosen Zustände entsprechend dem Verhältnis oder der Beziehung
»1«
...„1.,! J
der Periodizität eines Sprachsignals angibt, dem Wert Φ(ο) der Autokorrelationsfunktion bei Null-Verzugszeit
des Sprachsignals und dem Wert Φ(τ$)
der Autokorrelationsfunktion bei einer Verzugszeit rs der Abtastperiode bewertet werden, können die
stimmhaften und stimmlosen Zustände (Vund UV) mit hoher Genauigkeit bewertet bzw. bestimmt
werden.
5(i 2. Hierdurch wird es möglich, eine synthetische
Sprache hoher Güte zu produzieren.
3. Unabhängig davon, daß die stimmhaften und stimmlosen Zustände nach einem äußerst einfachen
Verfahren bewertet werden können, bei dem lediglich ein kleiner Teil der bisher nötigen Bauteile
verwendet wird, lassen sich diese außerdem mit hoher Genauigkeit verarbeiten.
4. Da es möglich ist, die stimmhaften und stimmlosen Zustände (V und UV) mit hoher Genauigkeit zu
bewerten, ist das gleichzeitige Vorhandensein von sowohl stimmhaften als auch stimmlosen Zuständen
als Anregungssignale, wie bei der bisher verwendeten Vorrichtung, nicht erforderlich.
Zur Verdeutlichung der Vorteile der Erfindung wurde ein Doppel-Vergleichsversuch mit synthetischen Sprachen
durchgeführt, die einmal nach dem bekannten Verfahren und zum anderen nach der Erfindung
zusammengestellt wurden, wobei die Vorz.ugsaiiswertungcn
gemäß folgender Tabelle erhallen wurden:
Synth. Satz S\ Synth. Satz S7
30
Stand der Technik 20,8% 57,8%
Erfindung 41,2% 80,2% ,„
Zur Erzielung dieser Ergebnisse wurden ein synthetischer
Satz mit einer Gesamtbitfrequenz von 9,6 KiIobii/s als synthetischer Salz .S'i und ein solcher mit einer
Gesamtbitfrequenz von 27 Kilobit/s als Salz 52 benutzt, ι ϊ
Diese synthetischen Sätze wurden von drei Sprecherinnen jeweils 3,5 s lang gesprochen. Zehn männliche
Zuhörer wurden ausgewählt, und das Abhören jedes Vergleichspaares wurde zehnmal wiederholt. Wie oft
aus obiger Tabelle hervorgeht, ist die Güte des :o synthetischen Satzes, der aus den von der erfindungsgemäßen
Stimmhaft/Stimmlos-Detektorhaltung ermittelten Anregungssignalen Kund UVredproduziert wurde,
wesentlich höher als bei dem durch den herkömmlichen Detektor reproduzierten Satz. ?ί
Wenn bei dieser Ausführungsform die Konstante a auf z. B. 0,5 eingestellt wird, kann die Multiplizierschaltung
48 gemäß F i g. 6 durch ein 1-Bit-Schieberegister ersetzt werden, wodurch der Schaltungsaufbau vereinfacht
wird.
Ebenso ist es möglich, eine Kombination
Φ{το)
■■ — χ din
Φ («)
unter Verwendung eines normalisierten Werts π gm = W(T)/W(o) der Autokorrelationsfunktion des
Restsignals bei einer Verzugszeit Γ entsprechend der Tonperiode des Sprachsignals zu bilden und diese
Kombination für die Bewertung zu benutzen, daß das Sprachsignal stimmlos, wenn der Wert der Kombination
unter einem vorbestimmten Schwellenwert liegt, und in allen anderen Hallen stimmtiatt ist. In diesem Faii
werden Multiplizierschaltungen 48 und 51 anstelle der einen Multiplizierschaltung 48 gemäß F i g. 6 eingesetzt.
Anstelle der Benutzung der Autokorrelationsfunktion W(t) des Restsignals ist es auch möglich, die
Autokorrelationsfunktion der Sprachwellenform als gm = Φ(Τ)/Φ(δ) zu verwenden und die stimmhaften und
stimmlosen Zustände nach dem vorher beschriebenen Verfahren festzustellen.
Fig. 7 ist ein Blockschaltbild einer Sprachanalyse- und -Synthetisiervorrichtung mit einem abgewandelten
Stimmhaft/Stimmlos-Detektor, wobei den Teilen von F i g. 3 entsprechende Bauteile mit den gleichen
Bezugsziffern wie vorher bezeichnet sind. Gemäß F i g. 7 ist ein als das eine Element der Anregungssignal-Ausziehvorrichtung
15 dienender Tonperioden-Detektor 60 zur Aufnahme eines Restsignals, nämlich eines
von mehreren Ausgangssignalen des PARCOR-Koeffizienten-Analysators
14 geschaltet. Der Detektor 60 bestimmt oder ermittelt die Durchschnittsgrößen-Differenzfunktion
(AMOF)D(t) des Restsignals und wählt
den Inklinations- bzw. Dipwert von D(t) mittels eines nicht dargestellten Mindestwertwählers, so deß eine
entsprechende Verzugszeit T als Tonperiode benutzt wird. Der Detektor 60 liefert eine Amplituuenkomponente
L der Erregungsquelle und den Inklinationswert o'm= D(T)VOnD(T).
Das Verfall, ^n der Verwendung von D(t) anstatt der
Autokorrelationsfunktion <P(r)hi bekannt und /. B. von
M. |. Ross ti. ?.. unter dem Titel »Average Magnitude Difference Function Pitch Extractor«, I.E.E.E., Assp 22,
Nr. S.Oktober 1974 Seite 353-362, beschrieben. In der
vorstehenden Beschreibung bedeutet D(t) die Mittelwert-Differenzfunktion der Verzugszeit r, ausgedrückt
durch die Gleichung
ι ι
Dir) = , · Σ(S,--S1- ,)
Dir) = , · Σ(S,--S1- ,)
worin .Si = / Abtastwerte des Sprachsignals und /=l. 2
... /bedeuten. Außerdem isi eine Multiplizicrschaltung
61 vorgesehen, die eine Konstante ;)' mit dem
PARCOR-Koeffizientcn k\ multipliziert, nämlich mit dem Verhältnis des Werts 'P(o) von Autokorrclationsfimktion
bei Null-Verzugszeit des Sprachsignals /λιγ
Autokorrelationsfunktion 'P'rs^bei einer Verzugszeit r.v
der Abtastperiode. Infolgedessen liefert die Multiplizierschaltung6l
ein Ausgangssignal
a'χ k\ = a'χ Φ(τς)ΐΦ(ο).
Der Unterschied zwischen den Ausgangssignalen der Multiplizierschaltung 61 und dem Tonperioden-Detektor
60 wird durch eine Subtrahierschaltung 62 berechnet, deren Ausgangssignal (a',x k\—o'm) an
einen Eingang des Komparators 63 angelegt wird. An den anderen Eingang des Komparators 63 wird ein
Schwellenwert f'angelegt. Die Multiplizierschaltung 61,
die Subtrahierschaltung 62 und der Komparator 63 bilden somit den Stimmhaft/Stimmlos-Detektor 64.
Die Schaltung gemäß Fig. 7 arbeitet wie folgt: Aus einer Anzahl von Ausgangssignalen des Anylsators 14
wird das Restsignal an die Anregungssignal-Ausziehvorrichtung 15 angelegt, deren Tonperioden-Detektor
60 die Durchschnittsgrößen-Differenzfunktion Dfr)des Restsignals ermittelt, und der Inklinationswert (dip)
ρ'm = D(T) der Funktion D(t) wird durch die Mindestwert-Wählschaltung
gewählt.
Beim Detektor 64 liefert die Multiplizierschaltung 61 das Produkt aus dem PARCOR-Koeffizienten
Κ]=ψ(τί/Ψ('υ) vuiii beueficiiücii AiiaiysaUji 14 und
einer Konstante a", und das Ausgangssignal der Multiplizierschaltung 64 wird zur Subtrahierschaltung
62 geliefert, an welcher der Unterschied zwischen diesem Produkt und dem Ausgangssignal om der
Tonperioden-Ausziehvorrichtung 60, d.h. a'xk\ — o'm,
ermittelt wird. Das Ausgangssignal der Subtrahierschaltung 62 wird durch den Komparator 63 mit dem
Schwellenwert t verglichen. Wenn a'x ki—g'm größer
ist als t\ wird ein stimmhafter Zustand bewertet, und wenn dieser Ausdruck kleiner ist als t\ wird ein
stimmloser Zustand festgestellt Anschließend erfolgt die gleiche Verarbeitung wie in F i g. 3.
Obgleich bei den vorstehend beschriebenen Ausführungsformen Φ(τ5χΦ(ο) als einer der Parameter zur
Feststellung von stimmhaften und stimmlosen Zuständen benutzt wurde, braucht die Verzugszeit rs nicht
genau auf die Abtastperiode rs abgestimmt zu sein, vielmehr wird durch eine geringfügige Abweichung von
rs die Arbeitsweise der Schaltung nicht beeinträchtigt. Versuche haben gezeigt, daß es, solange rs einer
Beziehung 0<rs<lms genügt, möglich ist, die stimmhaften und stimmlosen Zustände mit ausreichend
hoher Genauigkeit zu bewerten.
Obgleich die Erfindung zudem in Anwendung auf die Feststellung eines Anregungssigrals für ein Sprachanalysesystem
unter Anwendung des Teilautokorrelations -
koeffizienten beschrieben ist, ist sie auch auf ein Endoder
Anschluß-Analogsprachanalysesystem mit einer Reihe von Resonanzkreisen entsprechend dem Sprachformat,
auf ein Maximal-Wahrscheinlichkeitsverfahrcn zur Bestimmung der Frequenzspektrum-Hüllkurve und
auf einen Kanal-Vocoder anwendbar, wobei normierte Funktionen Φ(τί), Φ(Τ) ο. dgl. Korrelationsfunktioncn
verwendet werden, die als Ergebnis der Extraktion von Merkmalsparametern der Frequenzspektrum-Hüllkurve
oder der Tonperiode abgeleitet werden. Dabei können einfach entsprechende Werte für a und / in
Abhängigkeit von der Variation des Werts der beim betreffenden Sprachanalysesystem verwendeten Korrelationsfiitikren
gewählt werden.
Es werden also die stimmhaften und stimmlosen Zustände eines Sprachsignals durch Kombination eines
Verhältnisses <P(ts)I<I>(o) zwischen dem Wert Φ(ο) der
Autokorrelationsfunktion des Sprachsignals zu einer
'> Null-Vcrzugszeit und dem Wert Φ (rs)de Autokorrelationsfunktion
zu einer Verzugszeit i/s der Abtastperiode mit einem nach einer Korrelationstechnik aus dem
Sprachsignal extrahierten Parameter und Wiedergabe des Grads der Periodizität des Sprachsignals bewertet.
ι» Durch Unterbrechung des Ergebnisses dieser Kombination kann festgestellt werden, ob ein Sprachsignal in
einem stimmhaften oder in einem stimmlosen Zustand vorliegt.
Hierzu 5 Blatt Zeichininueii
Claims (16)
- Patentansprüche:I. Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustands eines Sprachsignals durch Autokorrelation mit einer aus mehreren, kaskadenartig verbundenen Teilkorrelationsstufen bestehenden Analysiereinrichtung, die das digitalisierte Sprachsignal empfängt, mittels eines darin enthaltenen Korrelationskoeffizientenrechners den normierten Wert Φ (vs) des Sprachsignals, der die Teilautokorrelationskoeffizienten (k\...k„)darstellt, berechnet, wobei eine Verzögerungszeit (us) eine Abtastperiode oder Grundfrequenz des Sprachsignals darstellt, diese Teilkorrela- is tionskoeffizienten in digitaler Form dem Ausgang zugeführt werden, und der Ausgang der letzten Teilkorrelationsstufe einem Autokorrelator mit einem Spitzenwertwähler zugeführt wird, dadurch gekennzeichnet, daß der Autokorrelator als Grundfrequenzdetektor (16) ausgebildet. Teil einer Erregungssignal-Detektoreinrichtung (15) ist und von einem Ausgang (31) der Analysiereinrichtung (14) Restsignale empfängt und daraus durch den Spitzenwertzähler (36) den Spitzenwert (gm) der Autokorrelationsfunktioir (W(c)) wählt, wodurch eine Verzögerungszeit (T) entsprechend dem gewählten Spitzenwert (gm) als Grundperiode des Sprachsignals bestimmt wird, daß der Spitzenwert (gm) einem Stimmhaft-ZSiimmlos-Detektor (17) zugeführt wird, der diesen Wert mit den von der Analysiereinrichtung (14) gelieferten Teilautokorrelationskoeffizienlen (k\ ... Kn) kombiniert, um eine Anzeige stimmhaft/stimmlos zi· erzeugen.
- 2. Anordnung nach Anspruch 1, dadurch gekenn- }> zeichnet, daß der Analysiereinrichtung die Serienschaltung eines A/D-Wandlers (13) und eines Tief passes (12) vorgeschaltet ist.
- 3. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß der A/D-Wandler (13) eine Abtastfrequenz von 8 kHz aufweist.
- 4. Anordnung nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß der A/D-Wandler (13) einen 12-bit-Ausgang aufweist.
- 5. Anordnung nach Anspruch 2, dadurch gekenn- -n zeichnet, daß der Tiefpaß (12) eine Grenzfrequenz von 3.4 kHz aufweist.
- 6. Anordnung nach einem der Ansprüche 1-5, dadurch gekennzeichnet, daß dem Spitzenwertwähler (36) und dem Autokorrelator (35) ein Teiler (42) zum Normalisielen des Spitzenwerts nachgeordnet ist.
- 7. Anordnung nach Anspruch 6, dadurch gekennzeichnet, daß dem Teiler (42) ein Größenwandler (43 nachgeordnet ist.
- 8. Anordnung nach einem der Ansprüche 1-7, dadurch gekennzeichnet, daß dem Autokorrelator (35) eine Schaltung (39) zur Bildung der Quadratwurzel nachgeordnet ist.
- 9. Anordnung nach Anspruch 8, dadurch gekenn- so zeichnet, daß der Schaltung (39) ein Größenwandler (40) nachgeordnet ist.
- 10. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Detektor (17) eine Multiplizierschaltung (48) zur Bildung des Produkts aus einem PARCOR-Koeffizienten (kn) und c'ner Konstanten ^aufweist.
- II. Anordnung nach Anspruch 10. dadurchgekennzeichnet, daß der Detektor (17) einen Addierer (51) aufweist, an dessen Eingang der Spitzenwert (Qm) angelegt ist und dessen anderer Eingang mit dem Ausgang der Multiplizier-Schaltung(48) verbunden ist
- 12. Anordnung nach Anspruch 10, dadurch gekennzeichnet, daß der Detektor (17) einen dem Addierer nachgeschalteten Komparator (53) zum Vergleich mit einem Schwellwert (t) aufweist.
- 13. Anordnung nach Anspruch I, dadurch gekennzeichnet, daß die Erregungssignal-Detektoreinrichtung (15) einen die Durchschnittsgrößen-Differenzfunktion (AMDF) (D(τ)) des Restsignals bildenden Grundfrequenz-Detektor (60) aufweist, dem ein Stimmlos/Stimmhaft-Detektor (64) nachgeschaltet ist
- 14. Anordnung nach Anspruch 13, dadurch gekennzeichnet, daß der Detektor eingangsseitig einen Multiplizierer (61) zur Bildung des Produkts aus einem PARCOR-Koeffizienten und einer Konstanten (a') aufweist
- 15. Anordnung nach Anspruch 13 oder 14, dadurch gekennzeichnet, daß dem Detektor (60) und dem Multiplizierer (61) eine Subtrahierschaltung (62) nachgeordnet ist
- 16. Anordnung nach einem der Ansprüche 13 bis 15, dadurch gekennzeichnet, daß der Subtrahierschaltung (62) ein Komparator (63) zum Vergleich mit einer Konstanten (t') nachgeordnet ist.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP50073063A JPS51149705A (en) | 1975-06-18 | 1975-06-18 | Method of analyzing drive sound source signal |
JP50086277A JPS5210002A (en) | 1975-07-15 | 1975-07-15 | Separation method of drivinf sound signal for analysis and composition of voice |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2626793A1 DE2626793A1 (de) | 1976-12-23 |
DE2626793B2 DE2626793B2 (de) | 1979-08-02 |
DE2626793C3 true DE2626793C3 (de) | 1980-04-17 |
Family
ID=26414187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2626793A Expired DE2626793C3 (de) | 1975-06-18 | 1976-06-15 | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals |
Country Status (5)
Country | Link |
---|---|
US (1) | US4074069A (de) |
CA (1) | CA1059631A (de) |
DE (1) | DE2626793C3 (de) |
FR (1) | FR2316682A1 (de) |
GB (1) | GB1538757A (de) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4219695A (en) * | 1975-07-07 | 1980-08-26 | International Communication Sciences | Noise estimation system for use in speech analysis |
JPS54139417A (en) * | 1978-04-21 | 1979-10-29 | Nippon Telegr & Teleph Corp <Ntt> | Interpolation receiving devices at voice short break time |
US4230906A (en) * | 1978-05-25 | 1980-10-28 | Time And Space Processing, Inc. | Speech digitizer |
JPS597120B2 (ja) * | 1978-11-24 | 1984-02-16 | 日本電気株式会社 | 音声分析装置 |
JPS56104399A (en) * | 1980-01-23 | 1981-08-20 | Hitachi Ltd | Voice interval detection system |
US4383135A (en) * | 1980-01-23 | 1983-05-10 | Scott Instruments Corporation | Method and apparatus for speech recognition |
US4335276A (en) * | 1980-04-16 | 1982-06-15 | The University Of Virginia | Apparatus for non-invasive measurement and display nasalization in human speech |
US4972490A (en) * | 1981-04-03 | 1990-11-20 | At&T Bell Laboratories | Distance measurement control of a multiple detector system |
ATE15563T1 (de) * | 1981-09-24 | 1985-09-15 | Gretag Ag | Verfahren und vorrichtung zur redundanzvermindernden digitalen sprachverarbeitung. |
JPS58143394A (ja) * | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
US4588979A (en) * | 1984-10-05 | 1986-05-13 | Dbx, Inc. | Analog-to-digital converter |
GB2169719B (en) * | 1985-01-02 | 1988-11-16 | Medical Res Council | Analysis of non-sinusoidal waveforms |
US5007093A (en) * | 1987-04-03 | 1991-04-09 | At&T Bell Laboratories | Adaptive threshold voiced detector |
KR910700582A (ko) * | 1989-01-05 | 1991-03-15 | 에이취. 프라이드 로널드 | 음성 처리 장치 및 방법 |
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
US5657418A (en) * | 1991-09-05 | 1997-08-12 | Motorola, Inc. | Provision of speech coder gain information using multiple coding modes |
US5267317A (en) * | 1991-10-18 | 1993-11-30 | At&T Bell Laboratories | Method and apparatus for smoothing pitch-cycle waveforms |
FR2684226B1 (fr) * | 1991-11-22 | 1993-12-24 | Thomson Csf | Procede et dispositif de decision de voisement pour vocodeur a tres faible debit. |
US5471527A (en) | 1993-12-02 | 1995-11-28 | Dsc Communications Corporation | Voice enhancement system and method |
US5970441A (en) * | 1997-08-25 | 1999-10-19 | Telefonaktiebolaget Lm Ericsson | Detection of periodicity information from an audio signal |
US6023674A (en) * | 1998-01-23 | 2000-02-08 | Telefonaktiebolaget L M Ericsson | Non-parametric voice activity detection |
GB2357683A (en) * | 1999-12-24 | 2001-06-27 | Nokia Mobile Phones Ltd | Voiced/unvoiced determination for speech coding |
US7171357B2 (en) * | 2001-03-21 | 2007-01-30 | Avaya Technology Corp. | Voice-activity detection using energy ratios and periodicity |
US7333929B1 (en) * | 2001-09-13 | 2008-02-19 | Chmounk Dmitri V | Modular scalable compressed audio data stream |
US7627091B2 (en) * | 2003-06-25 | 2009-12-01 | Avaya Inc. | Universal emergency number ELIN based on network address ranges |
KR101008022B1 (ko) * | 2004-02-10 | 2011-01-14 | 삼성전자주식회사 | 유성음 및 무성음 검출방법 및 장치 |
US7130385B1 (en) | 2004-03-05 | 2006-10-31 | Avaya Technology Corp. | Advanced port-based E911 strategy for IP telephony |
JP3827317B2 (ja) * | 2004-06-03 | 2006-09-27 | 任天堂株式会社 | コマンド処理装置 |
US7246746B2 (en) * | 2004-08-03 | 2007-07-24 | Avaya Technology Corp. | Integrated real-time automated location positioning asset management system |
US7589616B2 (en) | 2005-01-20 | 2009-09-15 | Avaya Inc. | Mobile devices including RFID tag readers |
US7742914B2 (en) * | 2005-03-07 | 2010-06-22 | Daniel A. Kosek | Audio spectral noise reduction method and apparatus |
US8107625B2 (en) * | 2005-03-31 | 2012-01-31 | Avaya Inc. | IP phone intruder security monitoring system |
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
US7821386B1 (en) | 2005-10-11 | 2010-10-26 | Avaya Inc. | Departure-based reminder systems |
JP5229234B2 (ja) * | 2007-12-18 | 2013-07-03 | 富士通株式会社 | 非音声区間検出方法及び非音声区間検出装置 |
US9232055B2 (en) * | 2008-12-23 | 2016-01-05 | Avaya Inc. | SIP presence based notifications |
US9082416B2 (en) * | 2010-09-16 | 2015-07-14 | Qualcomm Incorporated | Estimating a pitch lag |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1318985A (en) * | 1970-02-07 | 1973-05-31 | Nippon Telegraph & Telephone | Audio response apparatus |
US3740476A (en) * | 1971-07-09 | 1973-06-19 | Bell Telephone Labor Inc | Speech signal pitch detector using prediction error data |
-
1976
- 1976-06-01 US US05/691,780 patent/US4074069A/en not_active Expired - Lifetime
- 1976-06-04 CA CA254,064A patent/CA1059631A/en not_active Expired
- 1976-06-04 GB GB23281/76A patent/GB1538757A/en not_active Expired
- 1976-06-15 DE DE2626793A patent/DE2626793C3/de not_active Expired
- 1976-06-17 FR FR7618449A patent/FR2316682A1/fr active Granted
Also Published As
Publication number | Publication date |
---|---|
US4074069A (en) | 1978-02-14 |
DE2626793B2 (de) | 1979-08-02 |
FR2316682A1 (fr) | 1977-01-28 |
CA1059631A (en) | 1979-07-31 |
GB1538757A (en) | 1979-01-24 |
FR2316682B1 (de) | 1979-05-04 |
DE2626793A1 (de) | 1976-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2626793C3 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
DE69619284T2 (de) | Vorrichtung zur Erweiterung der Sprachbandbreite | |
DE69412913T2 (de) | Verfahren und Vorrichtung für digitale Sprachkodierung mit Sprachsignalhöhenabschätzung und Klassifikation in digitalen Sprachkodierern | |
DE3687815T2 (de) | Verfahren und vorrichtung zur sprachanalyse. | |
DE10041512B4 (de) | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen | |
DE69901606T2 (de) | Breitbandsprachsynthese von schmalbandigen sprachsignalen | |
DE69529356T2 (de) | Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile | |
DE69105760T2 (de) | Einrichtung zur Signalverarbeitung. | |
DE69612770T2 (de) | Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen | |
DE69534942T2 (de) | System zur sprecher-identifizierung und-überprüfung | |
DE69420400T2 (de) | Verfahren und gerät zur sprechererkennung | |
DE69614989T2 (de) | Verfahren und Vorrichtung zur Feststellung der Sprachaktivität in einem Sprachsignal und eine Kommunikationsvorrichtung | |
DE69521164T2 (de) | System zum Kodieren und Dekodieren von Signalen | |
DE69530442T2 (de) | Vorrichtung zur Sprachkodierung | |
DE69417445T2 (de) | Verfahren und system zur detektion und erzeugung von übergangsbedingungen in tonsignalen | |
DE2659096C2 (de) | ||
EP1386307B2 (de) | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals | |
DE69720134T2 (de) | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten | |
DE2919085A1 (de) | Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung | |
DE69017842T2 (de) | Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate. | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE2622423A1 (de) | Vocodersystem | |
DE3019823C2 (de) | ||
DE2636032B2 (de) | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal | |
EP0508547A2 (de) | Schaltungsanordnung zur Spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
8328 | Change in the person/name/address of the agent |
Free format text: KERN, R., DIPL.-ING., PAT.-ANW., 8000 MUENCHEN |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: NIPPON TELEGRAPH AND TELEPHONE CORP., TOKIO/TOKYO, |
|
8339 | Ceased/non-payment of the annual fee |