DE2259178A1

DE2259178A1 - Schaltungsanordnung fuer das aufzeichnen und selektive unterdruecken von normalem sprachklang

Info

Publication number: DE2259178A1
Application number: DE2259178A
Authority: DE
Inventors: William C Mortimore; Jun John H Park
Original assignee: PKM Corp
Current assignee: PKM Corp
Priority date: 1972-01-03
Filing date: 1972-12-02
Publication date: 1973-07-12
Also published as: US3723667A; JPS4878907A

Description

Die Erfindung betrifft eine Schaltungsanordnung für die Aufzeichnung und Selektivunterdrückung von Anteilen an normalem Sprachklang.

Die Erfindung bezieht sich insbesondere auf die Kompression bzw. Expansion von Sprachklang, wobei besonders Pausen unterdrückt werden sollen wie auch bestimmte Anteile des normalen Sprachklanges. Es hat sich gezeigt, daß die gesteuerte und s=Lektive Unterdrückung bestimmter Anteile normaler Sprache die aufgezeichnete Information noch sehr verständlich macht, selbst wenn diese auf eine Zeit komprimiert wird, die weniger als die Hälfte der normalen Sprachdauer beträgt.

Untersuchungen haben gezeigt, daß das normale menschliche Ohr und Gehirn sehr selten falls überhaupt überfordert sind, wenn man menschlicher Sprache normaler Geschwindigkeit zuhört.

309828/1002

Darüber hinaus hat sich gezeigt, daß ein normaler Hörer in der Lage ist, Sprache aufzunehmen und zu verstehen selbst dann, wenn sie mit dreifach höherer als normaler Sprechgeschwindigkeit dargeboten wird. Demgemäß kann bei der Aufzeichnung von Vorlesungen, Geschäftsmemoranden oder dergleichen viel Zeit gespart werden, wenn die Sprache zeitlich komprimiert wird, ohne daß jedoch markante Anteile des gesprochenen Wortes unterdrückt wird und ohne daß von der Verständlichkeit abgewichen wird.

Bisher v/urde Sprachkompression dadurch bewirkt, daß systematisch oder periodisch bestimmte Anteile des gesprochenen Textes unterdrückt wurden. Eine solche Anordnung ist beschrieben in den "Transactions of the I.R.E.", PG on Audio, Band AU-2, Nr. 1, Jan.-Feb., 1954, Seiten 7 - 11, in einer Veröffentlichung von Fairbanks und anderen mit dem Titel "Method for Time or Frequency Compression-Expansion of Speech". Gemäß dieser Veröffentlichung erreicht man eine zeitliche Kompression des Spracheingangs durch periodische Ausscheidung eines festen Segments des Eingangs und durch Zusammenfügen der Enden des aufrechterhaltenen Eingangssignals, so daß sich ein kontinuierliches zeitlich gekürztes Signal ergibt. Wenn die Länge des beibehaltenen Segments lang genug ist relativ zur normalen Sprachkadenz der Stimme, behält diese das meiste ihrer natürlichen Qualität. Die Länge des unterdrückten Segments muß jedoch genügend lang sein relativ zum beibehaltenen Segment, damit sich die erwünschte oder erforderte Zeitkorapression ergit, doch nicht so lang, daß wichtige Übergangselemente oder Kon-sonanten der Sprache unklar werden, die normalerweise von kurzer Dauer sind. Insoweit als die Technik oder Praxis die Enden der beibehaltenen Segmente zusammenzubringen zu einer scheinbaren Frequenzerniedrigung der Stimme führt, muß das Eingangsmedium entweder in höherer als normaler Geschwindigkeit abgespielt werden oder alternativ muß der Ausgang so ausgebildet werden, daß nach der Modifikation das Abspielen mit erhöhter Geschwindigkeit erfolgt. Die von Fairbanks und den anderen Autoren beschriebene Anordnung erreicht die erforderliche Frequenzverschiebung durch Verwendung einer umlaufenden Kopfbaugruppe.

309828/10 02 _₃_

Ändere bekannte Anordnungen verwenden ähnliche Techniken und umfassen angezapfte Verzögerungsleitungen, bei denen der Eingang von Bändern abgeleitet wird, die mit einer geeigneten Rate abgetastet werden, um die gewünschte Verschiebung zu erzielen und die Enden der beibehaltenen Segmente zusammenzufügen.

Solche Sprachkompressionsanordnungen, welche systematische oder periodische Unterdrückung des Eingangssignals verwenden, unterliegen einer Anzahl von Nachteilen. Beispielsweise erfordern die mechanischen Geräte, bei denen umlaufende Kopfbaugruppen verwendet werden, sorgfältige Einstellung und wartung und müssen als kompliziert und teuer angesehen werden» Mechanische Verzögerungsleitungen, die in der Vergangenheit ebenfalls benutzt wurden, sind gegenüber mechanischen Stoßen empfindlich. Elektronische Verzögerungsleitungen wurden ebenfalls verwendet* Darüber hinaus ist der Grad der Zeitkompression _} der von systematischer unterdrückung abgeleitet werden kann, auf nicht weniger als 60% der Originalzeit zu drücken, da bei zusätzlicher Kompression die beibehaltenen Anteile so verzerrt werden, daß viele der übergangselemehte des Klanges entweder verzerrt oder unterdrückt vzerden, womit die Verständlichkeit leidet.

Eine Zeitkompression, die durch systematische Unterdrückung erzielt wird, ist häufig unnatürlich im Vergleich mit der normalen menschlichen Sprache bei hoher Sprachgeschwindigkeit, Untersuchungen haben gezeigt, daß der normale Sprecher, wenn er sich bemüht schnell zu sprechen, zunächst die Pausen zwischen den einzelnen Klangphänomenen abkürzt und dabei die gesprochenen Klänge näher zusammenfügt, ohne jedoch die gesprochenen Klänge selbst proportioneil zu kürzen. Ferner hat sich gezeigt, daß die Verkürzung, die eintritt, wenn' ein Sprecher einen Versuch mächt, mit höherer Geschwindigkeit zu reden, in den klangvollen öder

■*" 4 ***■

309828/1002

vokalähnlichen Lauten auftritt. Es wird angenommen, daß die Übergangselemente,insbesondere stimmlose Konsonanten, nicht merkbar in ihrer Dauer gekürzt werden können, da eine Manipulation des Sprachapparats in dieser Hinsicht schwieriger ist als für die langer dauernden vokalischen Klänge. Demgemäß ist typisch für schnelles menschliches Sprechen, Kürzung der Pausen auf ein Minimum zusammen mit gekürzten vokalähnlichen Klängen der Sprache. Um hinreichend verständlich zu sein, werden die Übergangselemente einschließlich stimmloser Konsonanten nur sehr wenig, wenn überhaupt gekürzt.

Daraus folgt, daß es keine vernünftige Beziehung gibt zwischen den normalen oder natürlichen Reaktionen eines Sprechers, der sich bemüht, schnell zu spreclm, und der Technik der systematischen Unterdrückung, wie sie oben erwähnt wurde. Es versteht sich natürlich, daß die systematische Unterdrückung zu einem Ergebnis führt, in welchem die Pausen der Sprache unnatürlich lang zu sein scheinen und die Konsonanten unnatürlich kurz, ein Ergebnis, welches die komprimierte Sprache etwas unverständlich machen wird.

Aufgabe der vorliegenden Erfindung ist es, eine Schaltungsanordnung für Sprachkompression zu schaffen, die diesen Nachteil nicht aufweist und in ihrem Ergebnis das Klangbild annähert, das bei einem schnell sprechenden Menschen vernehmlich ist.

Diese Aufgabe wird gemäß der vorliegenden Erfindung gelöst durcli

(a) eine Eingangsschaltung und ein Aufzeichnungsgerät für Empfang und AufzBeichnung von Spachsignalen von der Eingangsschaltung mit einer Antriebseinrichtung, die mit einer Energieversorgungseinrichtung verbunden ist,

309828/1002

BAD ORIGINAL

(b) einen mit der Energieversorgungseinrichtung gekoppelten Sprachdetektor für die Erfassung des Vorhandenseins eines Sprachsignals am Eingang und für die Erregung der Energieversorgungseinrichtung nur bei Vorhandensein eines Sprachsignals/ und

(c) einen Vokaldetektor, der ebenfalls mit der Energieversorgungseinrichtung gekoppelt ist und ausgebildet ist für die Erfassung des Beginns und fortlaufenden Vorhandenseins von Vokalklängen in Sprachsignalen am Eingang, welcher Vokaldetektor für die regelmäßige periodische Unterbrechung der Energieversorgungseinrichtung über bestimmte vorgegebene Zeitintervalle im Ansprechen auf Beginn und fortgesetztes Vorhandensein von Vokalklängen im Eingangssignal ausgebildet ist, wobei Schaltkreise vorgesehen sind für das periodische Zerhacken der der Antriebseinrichtung zugeführten Leistung in eine Mehrzahl von im wesentlichen gleichförmig im Zeitabstand aufeinanderfolgenden Leistungsimpulsen vorgegebener Zeitdauer und wobei das periodische Zerhacken der der Antriebseinrichtung zugeführten Leistung ein bestimmtes vorgegebenes Zeitintervall nach Beginn der Erfassung des Vokalvorhandenseins eingeleitet wird und während.des Vorhandenseins des Vokalklanges in dem Eingangssignal fortgesetzt wird.

Es wird beispielsweise ein Bandaufzeichnungsgerät verwendet, dem das Spracheingangssignal von einem Mikrophon, Tonabnehmer, Tonbandgerät oder anderem Wandler zugeführt wird, der mit normaler zeitlicher Lage arbeitet, und es wird eine zeitlich komprimierte Reproduktion geschaffen, die auf jedem üblichen Wiedergabegerät äbspielbar ist, Hinsichtlich der mechanischen Teile von Aufzeichnungs- und Wiedergabegerät sind also, was ein besonderer Vorteil ist, keine besondere Konstruktionen erforderlich,. Es hat sich darüber hinaus gezeigt, daß mit der Anordnung gemäß der Erfindung eine ganz erhebliche Sprachkompression erfolgen kann, wobei noch verständliche Ergebnisse erzielbar sind mit einer Abspielzeit von weniger 30% der ursprünglichen Sprechzeit.

BAD ORJGiNAL 309820/1002 _ ,

ο τ

Für die Wiederexpansion des aufgezeichneten Signals kann man ebenfalls Teile der Schaltungsanordnung gemäß der Erfindung verwenden. Früher verwendete man eine langsam laufende Wiedergabevorrichtung mit daraus resultierender Frequenzverschiebung, doch machen die Änderungen der Tonlage die Sprache unverständlich, wenn sehr niedrige Abspelgeschwindigkexten verwendet werden. Zwar kann man systematische Wiederholung von kurzen Segmenten der aufgezeichneten Sprache verwenden, um die Tonhöhe beizubehalten, doch wird der Charakter einer solchen Auf** zeichnung gestört während der merkbaren Unterbrechungen der Sprache, die an willkürlich verteilen Punkten auftauchen können. Die Anordnung gemäß der Erfindung kann arbeiten durch selektives Einfügen zusätzlicher Pausen an Stellen, wo Pausen normalerweise auftreten würden, womit die Wiedergabe in der Aufzeichnungszeit oder sogar größerer Zeit ermöglicht wird und eine stir geringe oder gar keine Beeinträchtigung der Verständlichkeit erfolgt.

Die Anordnungen gemäß der Erfindung sind einfach im Aufbau, stabil und relativ preisgünstig herstellbar.

Weitere bevorzugte Merkmale der Erfindung ergeben sich aus den beigefügten Ansprüchen.

Der näheren Erläuterung des Gegenstandes der Erfindung soll die nachfolgende Beschreibung von Ausführungsbeispielen die** nen.

Fig. 1 ist ein Blockschaltbild mit den Hauptkomponenten für die Anordnung gemäß der Erfindung,

Fig. 2 ist ein typisches Diagramm, in dem die Frequenz über der relativen Amplitude für den Vorfilter aufgezeichnet ist,

BAD ORfGfNAL - 7 -

309828/1002

Fig. 3 ist ein Diagramm der Frequenz über der relativen Amplitude für den Spektrumformteil der Anordnung,

Fig. 4 ist eine Aufzeichnung der Frequenz über der relativen Amplitude für den Spektrumformteil des Vokaldetektors,

Fig. 5 ist eine halbschematische Darstellung eines Sprachdetektors für die Anordnung gemäß der Erfindung und zur Lieferung eines Diichlaßbandes ähnlich Fig. 3,

Fig. 6 zeigt schematisch ein Diagramm des Vokaldetektors für die Erzielung eines Durchlaßbandes nach Fig. A₁

Fig. 7 ist ein typisches Zeitdiagramm zur Erläuterung der Sprachkompression durch eine Kombination von Pausenunterdrückung und Vokalkürzung,

Fig. 8 ist ein Blockdiagramm eines Sprachexpanders für die Anordnung gemäß der Itfindung,

Fig. 9 ist ein Zeitdiagramm zur Erläuterung der Sprachexpansion mittels des Expanders nach Fig. 8,

Fig. 10 ist eine schematische Darstellung eines Vokalzerhackers,der für Zwecke der Erfindung einsetzbar ist,

309828/1002

BAD ORIGINAL

Fig. 11 ist ein schematisches Diagramm zur Erläuterung des Pausenirdikators, der verwendet v/erden kann in Verbindung mit der Anordnung gemäß der Erfindung,

Fig. 12 ist ein Meßgerät für Kompression (oder Expansion) für die Anordnung gemäß der Erfindung, insbesondere für die Einstellung der Kompression (oder Expansion) mit visueller Anzeige des Kompressionsgrades, und

Fig. 13 ist ein schematisches Diagramm eines Ausschnitts des Sprachexpanders nach Fig. 8 und 9.

Unter Bezugnahme auf Fig. 1 soll nachstehend der Sprachkompressor erläutert werden, der in dieser Figur schematisiert dargestellt ist. Die Anordnung umfaßt einen Eingang 20,über den ein Sprachsignal einem Vorverstärker 21 zugeführt wird. Das vorverstärkte Signal gelangt dann zu einem Vorfilter 22 und danach zu einem Vokaldetektor 23 und einem Sprachdetektor 24. Der Sprachdetektor seinerseits ist an einen Bandtransport 25 angeschlossen, um so die Leistungszufuhr zum Bandtransport bei Auftreten einer Pause in der Sprache zu unterbrechen. Der Ausgang des Vokaldetektors 23 gelangt an einen Vokalzerhacker 26 und schließlich zu dem Bandtransport 25, wo die Leistungsversorgung für den Bandtransport steuerbar geregelt wird durch den Vokalzerhacker 26.

Wie in Fig. 1 angedeutet, kann die Minimumpause, welche beibehalten werden soll, einstellbar vorgesehen werden in dem Sprachdetektor. Auch der Grad der Vokalkompression kann im Vokalzerhacker 26 einstellbar gewählt v/erden. Ein Pausenindikator, entweder mit Sicht-oder Geräuschanzeige, wie in Fig. 1 bei 27 und

309828/1002

BAD ORIGINAL

angedeutet, kann ebenfalls auf Wunsch verwendet werden. Ferner ist eine Sichtanzeige im Sprachsignal erfolgenden Kompression, wie bei 29 angedeutet, vorgesehen.

Die Aufzeichnungsstufe 30 umfaßt einen Vorspannngsoszillator, einen Aufzeichnungsverstärker und einen Aufzeichnungstreiber. Die Aufgabe dieser Aufzeichnungsstufe besteht darin, ein entsprechendes elektrisches Signal den Aufzeichnungs- und Wiedergabeköpfen des Bandgeräts zuzuführen, wenn ein solcher verwendet wird. Solche Aufzeichnungsstufen sind bekannt und im Handel erhältlich. Der Bandtransport 25 hat eine Schnellstart- und Schnellstop^binrichtung. Der Bandtransport umfaßt einen Aufzeichnungswiedergabekopf, Löschkopf, wie auch Antriebseinrichtungen für das Antreiben des Bandes längs der Köpfe. Zusätzlich wird eine Lei- ' stungsversorgung in der Antriebseinrichtung vorgesehen, die elektrisch betätibar ist für das Starten und Stoppen des Bandes. Hr einen Aufbau,der voll kompatibel ist mit den verschiedenen Merkmalen und Verfahren gemäß vorliegender Erfindung, sollte die Bandanlaufzeit von gestopptem Band bis zu voller Geschwindigkeit nicht größer als etwa 40 Millisekunden für das Verkürzen der Pausen sein und nicht größer als etwa 20 Millisekunden für das . Kürzen der Vokale. Anlaufzeiten von etwa 30 Millisekunden und 10 Millisekunden werden sogar bevorzugt. Darüber hinaus muß die Abstoppzeit von voller Geschwindigkeit bis zu vollständigem Stillstand im wesentlichen dieselbe sein. Bandtransporte mit solchen Start/Stopp-Eigenschaften sind im Handel erhältlich und werden in weitem Umfang benutzt in Geräten der elektronischen Datenverarbeitung.

Man erkennt, daß ein wichtiges Merkmale der Erfindung in dem Erzeugen eines Steuersignals für die Leistungsversorgung ist, um so die Antriebseinrichtungen für den Aufzeichnungsmechanismus zu steuern. Wie angedeutet, beruht dieses Signal auf der Eliminierung von Pausen und dem Kürzen von Vokalen.

309828/1002 - io -

Wie in Fig. 1 angedeutet, werden die Sprachsignale mittels des Bandtransports aufgezeichnet, sobald das Steuersignal "an" ist. Ein solches Signal liegt vor immer dann, wenn ein entsprechender Spannungs- oder Strompegel vorhanden ist, um den Transport in Betrieb zu setzen. Wenn kein Sprachsignal vorhanden ist, ist auch kein Steuersignal vorhanden und der Transport bewegt das Band nicht. Wenn ein Sprachsignal erfaßt wird und es handelt sich nicht um einen Vokal, so ist der Transport in Betrieb und das Band wird längs der Aufzeichnungsköpfe gezogen. Wenn ein Sprachsignal vorhanden ist und man ermittelt einen Vokalklang, wird zunächst ein erster vorgegebener Abschnitt des Klanges aufgezeichnet und danach erfolgt die Aufzeichnung auf periodischer, zyklischer oder "zerhackter" Basis. Beispielsweise wird ein Vokalklang aufgezeichnet während der ersten t. Sekunden, während er für die nächsten t„ Sekunden nicht aufgezeichnet wird. Wenn danach der Vokalklang noch vorhanden ist, werd^e8ie nächsten t₁ Sekunden aufgezeichnet, gefolgt von einer Periode von t^ Sekunden der Nichtaufzeicnnung. Dieser Zyklus wird fortgesetzt bis der Sprachklang nicht mehr vokalisch ist, in welchem Falle er vollständig aufgezeichnet wird,oder alternativ bis das Sprachsignal nicht mehr vorhanden ist, in welchem Falle die LeistungsVersorgung unterbrochen wird und der Transport abstirbt.

Das Eingangssignal, abgeleitet von einem Mikrophon, Tonband, Plattenspieler, Rundfunkempfänger oder anderem Wandler, liefert ein elektrisches Signal, welches den Sprachklang repräsentiert. Dieses Signal wird zunächst im Vorverstärker 21 verstärkt, um es auf Standardpegel zu heben, beispielsweise eine \ :>rgegebene Spannung am Bandgerätekopf. Um Rauschen und andere unerwünschte Signale zu unterdrücken, deren Frequenzspektrum außerhalb des Stimmspektrums liegt, wird das Signal vorzugsweise gefiltert. Es hat sich gezeigt, daß das verwendete Filter eine Charakteristik haben sollte, wie sie im Diagramm nach Fig. 2 dargestellt ist, wobei Frequenzen unterhalb etwa 250 Hz reduziert

309828/1002

um Brumm- und Rumpelgeräusche zu eliminieren und sicherzustellen, daß der Hüllkurvendetektor nicht der natürlichen Tonstufenperiodenresonanz bestimmter Sprecher folgt. Ferner werden Frequenzen im wesentlichen oberhalb etwa 6000 Hz abgeschnitten oder gedämpft, um die Wirkungen von Kratzgeräuschen, Zischlauten und Hintergrund-Raumrauschen minimal zu machen. Dieses gefilterte Signal gelangt dann in den Vokaldetektor und den Sprachdetektor, wie angedeutet.

In Fig. 5 ist ein typischer Sprachdetektor gezeigt. Der Det&tor umfaßt Komponenten für drei grundsätzliche Funktionen, nämlich Spektrumformung, Hüllkurvenerfassung und Schwellenerfassung. Die Spektrumformung ist erforderlich, damit Sprachklänge niedriger Energie, die erforderlich sind.für gute Verständlichkeit, in derselben vtfeise gewichtet werden wie Vokalklänge hoher Energie. Die in Fig. 3 gezeigte Wichtung hat erwiesen, daß sich ein nahezu flaches Spektrum am Ausgang des Spektrumformers für die meisten Sprecher ergibt. Nach der Spektrumformung wird das resultierende Signal erfaßt, wie angedeutet. Der Kondensator 35 lädt sich schnell auf, wenn Sprachenergie vorhanden ist und wenn die Spannung eine Schwelle erreicht (etwa 2 Volt für den dargestellten Schaltkreis), geht das Ausgangssignal zu einem logischen Pegel, der anzeigt, daß Sprache vorhanden ist. Bei Eintritt einer Pause wird der Transistor 36 abgeschaltet und die Ladung auf dem Kondensator 35 enlädt sich über den einstellbaren Widerstand 37. Wenn die Spannung unter einen Pegel fällt, in diesem Fall etwa 0,7 Volt, fällt das Ausgangssignal sofort auf einen Pegel, der anzeigt, daß keine Sprache vorhanden ist. Man entnimmt dem Schaltkreis, daß die Zeit zum Erreichen dieser Schwelle die Länge der Pausen bestimmt, die beibehalten v/erden, und infolgedessen kann die Justage des Einstellwiederstandes 37 verwendet werden, um diese Zeit zu steuern. In dem Schaltkreis nach Fig. 5 ist es einfach, Zeiten bis herunter zu 10 Millisekunden oder weniger einzustellen oder Zeiten bis zu zehn Sekunden oder selbst langer zu wählen. Wenn ein Signal wieder vorhanden ist, lädt sich der Kondensator 35^aund ein Ausgang wird angedeutet.

BAD ORIGINAL 309828/1002 - 12 -

In Fig. 6 ist schematisch äer Vokaldetektor dargestellt. Es ist bekannt, daß Vokalklänge ihre Hauptenergie (erste Formanten) zwischen etwa 250 und 800 Hz haben. Die meisten Konsonanten haben ihre Hauptenergie in Frequenzen oberhalb etwa 1000 Hz. Demgemäß werden die Stimmsignale gefiltert durch den Vokalspektrumwähler, dessen Schaltkreis in Fig. 6 dargestellt ist. Der Ausgang dieses Filters liefert Konsonantenklänge mit Spannungspegeln, die 30 db oder niedriger in der Intensität sind als die Vokalklänge. Der Hüllkurvendetektor und die Schwellenerfassung arbeiten ähnlich wie beim oben erläuterten Sprachdetektor, wobei jedoch ein wichtiger Unterschied darin besteht, daß bei Ende eines Vokalklanges der Schaltkreis so arbeitet, daß ein Vokalabwesenheitspegel am Ausgang erscheint innerhalb weniger als etwa 20 Millisekunden Verzögerung. Es ist natürlich erforderlich, einen Abschnitt des Vokalklanges zu behalten, und demgemäß geht der Ausgang des Vokaldetektors zu dem Vokalzerhacker nach Fig. 10. Die Aufgabe des Schaltkreises nach Fig. 10 besteht darin, einen Ausgangspegel für die Leistungsversorgung der Antriebseinrichtung während einer Periode von t.. Sekunden zu erzeugen und diese Leistung zu unterbrechen für die nächstfolgenden t„ Sekunden und dies immer abwechselnd, wie in Fig. 7 angedeutet, bis der Vokalklang endet. Wenn der Vokalklang endet, kehrt der Ausgang wieder auf einen Pegel zurück, der das Nichtvorhandensein eines Vokals änderet. Diese Funktion stellt sicher, daß Konsonanten, die unmittelbar nach einem Vokalklang auftreten, nicht verloren gehen. Das in Fig. 10 dargestellte Schaltungssystem umfaßt zwei monostabile Multivibratoren und verschiedene Logik-Gatter. Die Zeitkonstante R, C, im ersten monostabilen Multivibrator bestimmt die Zeitperiode für t~ und die Zeitkonstante R₂^? """ ^zwei^ten monostabilen Multivibrator bestimmt die Zeitperiode t₁. Der Prozentsatz des Vokalklanges, der gelöscht wird, ist natürlich äquivalent zu t₂/(t₁ + t₂) χ 100. Die Zeit t₁ sollte so gewählt werden,

BAD ORIGINAL

309828/1002

daß mindestens einige Perioden des tiefsten Resonanzstimmenklanges beibehalten werden, die für die Anordnung vorgesehen ist, und diese Frequenz liegt typischerweise in der Größenordnung von 100 Hz und würde infolgedessen eine Perioctendauer von 10 Millisekunden haben. Deshalb sollte t, mindestens etwa 30 Millisekunden betragen. Andererseits sollte t, kürzer sein als der kürzeste Vokalklang, damit überhaupt eine gewisse Verkürzung eintritt. Im aligemeinen sind Vokalklänge selten kürzer als etwa 80 Millisekunden für die meisten Sprecher. Demgemäß wird die Zeit t~ in Verbindung mit t, gewählt, um die gewünschte Vokalkürzung zu erzd\Llen. Wenn t, gleich 60 iiillisekunden ist und t^ gleicii 30 Millisekunden, wird eine gute Stimmqualität aufrechterhalten, uine erhöhte Kürzung läßt sich erzielen, wenn t~ vergrößert wird oaer t, verkürzt wird innerhalb der Grenzwerte, die oben diskutiert wurden. Der Eingang des Vokaldetektors ist kombiniert mit der sich ergebenden Zerhackerwelle' in einem Nicht-IMD-Gatter, wie dargestellt, so aaß der Ausgang des Schaltkreises "L" ist, v/enn der Vdalklang nicht vorhanden ist.

wie man Fig. 1 entnimmt, wird eier Ausgang des Vokalzerhackers und des Sprachdetektors in einer UND-Schaltung kombiniert, so daß sich ein Steuersignal für die Antriebsleistungsversorgung ergibt. Dies ist in Fig. 7 näher erläutert. Demgemäß ist das Steuersignal ausgeschaltet, wenn entweder keine Sprache vorhanden ist oder während des Zeitintervalls t₂/ sofern Vokale im Sprachsignal vorliegen. Dieses Steuersignal aktiviert den Bandantrieb derart, daß das Signal, abgeleitet vom Vokaldetektor und seinem Zerhacker, zusammen mit dem Sprachdetektor verwendet v/ira, um das Aufzeichnungsgerät in Betrieb zu setzen und abzustoppen, wenn dies angezeigt ist. Man erkennt, daß irgendein Aufzeichnungsgerät Denutzt werden kann, wie Magnetbandgeräte, i'iagnetdrahtgeräte, PlattenaufZeichnungsgeräte oder dergleichen, wouei die Hauptvoraussetzung darin besteht, daß eixie Schnellstopp- und Schnellstartmögiicnkeit gegeben ist, wie oben bereits erwähnt

BAD ORIGINAL, 309828/1002 - 14 -

wurde. Der Signalpegel zum Aufzeichnungsgerät v/ira beim Vorverstärker 21, wie erwähnt, eingestellt, so uaß die Aufzeichnungsspitzen bei einem entsprechenden Pegel liegen. Der Vorverstärker ist nctürlich eine Stanaardschaltung, die im Handel erhältlich ist·. Der Pegel, der im Steuergerät eingestellt ist, bestimmt üie Signalpegel, welche die Sprach- una Vokaldetektoren aktivieren. Wenn demgemäß das Rauschen niedrig ist (40 db unterhalb des üingangspegels am Banügerät), so kann dieser E'egel gewählt werden, damit Signale von noch JO üb unter dem Eingangspegel des Bandgerätes die Sprach- und Vokalüeteictoren aktivieren. Wenn das Rauscnen zunimmt, so daß sich ein Pegel von etwa 20 db unter dem Eingangspegel des Bancujerätes ergibt, muß dieser Wert gewählt werden, so daß das Rauschen nicht die Sprach- una Vokaldetektoren triggert, derart, ciaß beispielsweise nur Signale mit 15 db unter dem EingangspegeL des Bandgerätes oder höher die Sprach- und Vokaldetektoren triggern.

um das Einstellen der Pegelsteuerung zu erleichtern, wie auch der Pausenlängensteuerung, ist es natürlich wünschenswert, visuelle und hörbare Signale zu haben, um die Zeiten anzuzeigen, in denen der Spracndetektorausgang abgeschaltet ist. Eine Technik, um eine solche Anordnung zu verwirklichen, ist in Fig. 11 gezeigt. Wie man aus der Schemadarstellung erkennt, wird die Lampentreiberstufe aktiviert, um eine Lampe anzusteuern, wenn der SprachindLkator ausgeschaltet ist. Ebenso kann ein hörbarer Ton erzeugt werden unter Verwedung des aargestellten Oszillators. Man erkennt, daß irgendein Oszillator für die Erzeugung eines hörbaren Tones genügt. Bei NichtVorhandensein eines Signals am Ausgang des Sprachdetektors wird der Oszillator aktiviert, um während dieser Zeitperioden den hörbaren Ton zu erzeugen. Dieser resultierende Ton wird der Bedienungsperson über ein Lautsprecher oder Kopfhörer zugeführt. Die Anordnung ist in Fig. 1 angedeutet, in der diese angezeigte Funktion hinzugefügt ist zum einlaufenden Stiminensignal und demgemäß abgespielt wird über den ilonitor-

309828/1 002

BAD

~- 15 -

lautsprecher oder Kopfhörer. Zu diesem Zeitpunkt kann die Bedienungsperson gleichzeitig feststellen, was aufgezeichnet wird wie auch die Anzeige, welche Teile unterdrückt werden infolge aer Funktion des Sprachdetektors und die entsprechende Beeinflussung der Antriebsanordnung für das Bandgerät.

Ein weiteres Merkmal der Erfindung liegt in der Verwendung einer Anordnung für die Sprachexpansion. Fig. 9 zeigt ein Zeitdiagramm, aus dem sich die entsprechenden Verfahren entnehmen lassen. Das Sprachsignal, das von einem Aufzeichnungsmedium abgespielt wird, wird erfaßt mittels des Sprachdetektors und wenn keine Sprache vorhanden ist, wie durch den Detektor angezeigt, wird ein Steuersignal erzeugt, welches das Rückspielen des aufgezeichneten Signals für eine Zeitperiode t_ unterbricht, wonach das Abspielen wieder aufgenommen wird. Das Abspielen wird fortgesetzt, bis der Sprachdetektör von einem Sprache anzeigenden Pegel auf einen Sprachabwesenheitspegel fällt, woraufhin das Verfahren wiederholt wird. Eine Methode, um diese Sprachexpansion zu realisieren, ist im Blockdiagramm der Fig, 8 angedeutet. In dieser Ausführungsform arbeitet der Bandtransport im Abspielmodus und das zu expandierende Signal ist auf einem Magnetband aufgezeichnet. Der Wiedergabekopf erfaßt das aufgezeichnete Sprachsignal, das einerseits über die übliche Abspielelektronik geführt wird und dem Hörer über einen Lautsprecheer oder Kopfhörer dargeboten wird. Andererseits wird es dem Sprachdetektor zugeführt, wie er oben erläutert wurde, worauf der Ausgang des Sprachdetektors "an" ist, wenn Sprache vorhanden ist, und 'aus" ist, wenn keine Sprache vorhanden ist. Wenn dieses Ausgangssignal abfällt, wird ein monostabiler Multivibrator getriggert, der ein Steuersignal erzeugt. Normalerweise deutet der Ausgang dieses monostabilen Multivibrators an, daß der Transport im Betriebsmodus ist. Wenn der Sprachdetektorausgang von Sprache auf Sprachabwesenheit umschaltet, wird der monostabile Multivibrator getriggert und das Steuersignal entfällt, wobei der Bandtransport

BAD ORIGINAL

- 16 309828/1002

für eine Periode von t, Sekunden abstoppt, wonach der Transport wieder im normalen Wiedergabemodus aufgenommen wird, bis das Sprachdetektorausgangssignal wiederum auf einen Sprachabwesenheitspegel fällt unci der Prozeß wiederholt wLrd..

Line Möglichkeit für aie Erzeugung des Intervalls von t₃ Sekunden ist in rig. 13 angedeutet. Zve Methoden sind vorgesehen, um den Expansionsgrad einzustellen. Die erste besteht in der Änderung üer Zeitkonstante R. C in rig, 13, womit die Zeit t-, sich ändert. Ls versteht sich, daß bei diesem Schaltkreis f.-, von einem sehr niedrigen Viert von etwa 20 Millisekunden bis zu einem sehr langen von einigen Sekunden oder mehr veränderbar sein wird. Es versteht sich, daß mit zunehmender Länge von t^ die Sprache umso mehr gedehnt wird. Die zweite Methode für die Veränderung des Expansionsgrades beruht einfach auf der Einstellung der ?iinimumpause, bevor der SprachdeteJtor eine Sprachabwesenheitsbedingung anzeigt. Dies wird bewirkt durch Einstellung von R, C, in Fig. 5. Wenn diese Zeitkonstante genügend lang ist, v/erden kurze Pausen nicht erfaßt und ciemgfnäß nicht gedehnt und demgemäß wird der Expansionsgrad herabgesetzt. Wenn selbst die kürzesten Pausen erfaßt v/erden, ist R₁ C₁ (aus Fig. 5) sehr klein und in diesem Fall ergibt sich ein größerer Expansionsgrad.

Wie bereits erwähnt wurde, sind die Antriebseinrichtungen und die Stromversorgung fiir das Aufzeichnungsgerät üblich und im Handel erhältlich. Offensichtlich können sowohl batteriewie auch netzbetrbbene Geräte verwendet werden. Die Pauseneliminierung und die Vokalkürzung erfolgen durch Steuerung des Stromes, der von der Leitungsquelle zur Antriebseinrichtung fließt

BAD ORIGINAL

- Patentansprüche -

309 8 2 87TUO2

Claims

/\l\ Patentansprüche :

Iy Anordnung für Aufzeichnung und Teilunterdrückung normaler Sprachklänge, gekennzeichnet üurch

(a) eine Eingangsschaltung und ein Aufzeichnungsgerät für Empfang und Aufzeichnung von Sprachsignälen von der Eingangsschaltung mit einer Antriebseinricntung, die mit einer Energieversorgungseinrichtung verbunden ist,

.·... (b) einen mit der Energieversorgungseinrichtung gekoppelten Sprachdetektor für die Erfassung des Vorhandenseins eines Sprachsignals am Eingang und für die Erregung der Energieversorgungseinrichtung nur bei Vorhandensein eines Sprachsignals, und

(c) einen Vokaldetektor, der ebenfalls mit der Energieversorungseinrichtung gekoppelt ist und ausgebildet ist für die Erfassung des Beginns und fortlaufenden Vorhandenseins von Vokalklängen in Sprachsignalen am Eingang, welcher Vokaldetektor für die regelmäßige periodische Unterbrechung der Energieversorgungseinrichtung über bestimmte vorgegebene Zeitintervalle im Ansprechen auf Beginn und fortgesetztes Vorhandenseins von Vokalklän-gen im Eingangssignal ausgebildet ist, wobei Schaltkreise vorgesehen sind für das periodische Zerhacken der tier Antriebseinrichtung zugeführten Leistung in eine Mehrzahl von im wesentlichen gleichförmig im Zeitabstand aufeinanderfolgenden Leistungsimpulsen vorgegebener Zeitdauer und wobei das periodische Zerhacken der der Antriebseinrichtung zugeführten Leistung ein bestimmtes vorgegebenes Zeitintervall nach Beginn der Erfassung des VokalVorhandenseins eingeleitet wird und während des Vorhandenseins des Vokalklanges in dem Eingangssignal fortgesetzt wird.

BAD ORIGINAL

309828/10 02
2. Sciialtungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Eingangsschaltung ein Filter mit einem Durcnlaßband zwischen 250 Hz und 6000 Hz nachgeschaltet ist.
3. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß durch das periodische Zerhacken der der Antriebseinrichtung zugeführten Leistung Leistungsimpulse von etwa oü
l^illisekunden von einer leistungslosen Periode von jeweils etwa 30 Millisekunden gefolgt werden.
4. Schaltungsanordnung nach Anspruch 1, daaurch gekennzeichnet, daß das Aufzeichnungsgerät eine Anlaufzeit von weniger als etwa 10 Millisekunden aufweist.
5. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Sprachdetektor die Energieversorgung der Antriebseinrichtung während einer vorgegebenen Zeitperiode von

mehr als etwa 10 Millisekunden nach Beendigung jedes Sprachsignals fortsetzt.
6. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Sprachdetektor Filtereigenschaft aufweist für den Durchlaß von Signalen mittlerer Amplitude bei Frequenzen unter 1000 Hz und für Signale mit im wesentlichen gleichförmig zunehmender Amplitude bis^ueiner Eingangsfrequenz von 8000 Hz und
danach von gleichbleibender Amplitude.
7. Schaltungsanordnung nach Anspruch 6, dadurch gekennzeichnet, daß die Amplitudenzunahme bei einem Pegel von etwa

24 db./Oktave für Frequenzen zwischen 1000 Hz und 8000 Hz erfoi£.
8. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß der dem Spracheingang zugeordnete Vokaldetektor
für den Durchlaß von Signalen mit einer Frequenz zwischen etwa
250 Hz und 1200 Hz ausgebildet ist.

BAD ORIGINAL 309828/1002 - 3 -
9. Schaltungsanordnung nacn Anspruch 1, dadurch gekennzeichnet, daß Steuerschaltkreise vorgesehen sind für die Einstellung des Kompressionsgraaes.
10. Schaltungsanordnung nach Anspruch 1, gekennzeichnet durch durch Mittel für selektive Fortsetzung der Erregung der Antriebseinrichtung für vorgegebene Zeitperioden bei Erfassung des Endes des Vorhandenseins eines Sprachsignals in dem Sprachdetektor»
11. Schaltungsanordnung nach Anspruch -10, dadurch gekennzeichnet, daß aas Aufzeichnungsgerät erste und zweite in Reihe gekoppelte Aufzeichnungsgeräte umfaßt mit Äntriebseinrichtungen für jedes der beiden Aufzeichnungsgeräte und daß Mittel vorgesehen sind für fortgesez\tte Energieversorgung des zweiten Aufzeichnungsgerätes bei jedem Auftreten einer Beendigung des Vorhandenseins eines Sprachsignals in dem ersten Aufzeichnungsgerät,

BAD ORIGINAL

30 9 8 287 ΊΌΟ-2-

Leerseite