DE4317991A1 - Speech recognition system using neural network and fuzzy logic processing - divides speech signal into frequency bands from which energy levels are obtained for use in fuzzy logic processing. - Google Patents

Speech recognition system using neural network and fuzzy logic processing - divides speech signal into frequency bands from which energy levels are obtained for use in fuzzy logic processing.

Info

Publication number
DE4317991A1
DE4317991A1 DE4317991A DE4317991A DE4317991A1 DE 4317991 A1 DE4317991 A1 DE 4317991A1 DE 4317991 A DE4317991 A DE 4317991A DE 4317991 A DE4317991 A DE 4317991A DE 4317991 A1 DE4317991 A1 DE 4317991A1
Authority
DE
Germany
Prior art keywords
speech
data
signal
fuzzy logic
recognition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE4317991A
Other languages
German (de)
Inventor
Ho-Sun Chung
Jeong-Wun Park
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SK Hynix Inc
Original Assignee
Goldstar Electron Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goldstar Electron Co Ltd filed Critical Goldstar Electron Co Ltd
Publication of DE4317991A1 publication Critical patent/DE4317991A1/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/33Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

The speech recognition system receives an input from a microphone (10) that is amplified (20) and received by an analyser (30). The analyser output is transferred via an interface (40) to a personal computer (60) complete with hard and floppy discs (50), keyboard (70) and display screen (80). The speech analyser divides the speech signal into predetermined frequency bands in which energy levels are defined. The personal computer received the defined energy signal levels and compares the signal levels of adjacent bands. A binary data value is then generated for identification. The processing is based upon a neural network and fuzzy logic theory. USE/ADVANTAGE - Esp. for mono-syllabic Korean speech. Improved speech identification process.

Description

Die Erfindung betrifft ein Spracherkennungssystem, insbe­ sondere ein Spracherkennungssystem für einsilbige Koreani­ sche Sprache.The invention relates to a speech recognition system, in particular especially a speech recognition system for monosyllabic Koreani language.

Bei der Extraktion von Merkmalen für die Spracherkennung ist die Wahrnehmung eines für die Unterscheidung gesproche­ ner Silben wesentlichen Merkmals aufgrund von Sprechge­ schwindigkeit, Akzent und Aussprachegewohnheiten eines be­ stimmten Sprechers, Veränderungen der Umgebung während des Sprechens, emotionalem Zustand des Sprechers etc. sehr schwierig.When extracting features for speech recognition is the perception of one spoken for the distinction syllables essential characteristic due to speech speed, accent and pronunciation habits of a be agreed speaker, changes in the environment during the Speaking, emotional state of the speaker etc. very much difficult.

Darüber hinaus repräsentiert aufgrund der Schwankungen in artikulierter Sprache selbst ein einzelnes Phonem verschie­ dene phonetische Merkmale, die wiederum durch vorhergehende und nachfolgende Phoneme beeinflußt werden. Diese Faktoren bringen Schwierigkeiten für die Entwicklung eines Algorith­ mus zur Extraktion der besonderen Sprachmerkmale mit sich und erschweren die Darstellung und die Integration des durch den Algorithmus gewonnenen Wissens.Also represented due to the fluctuations in articulated language even a single phoneme dene phonetic characteristics, which in turn by previous and subsequent phonemes are affected. These factors bring difficulties for the development of an algorithm must be used to extract the special language features and complicate the presentation and integration of the knowledge obtained by the algorithm.

Die Erforschung eingeführter Systeme wurde auf breiter Ba­ sis durchgeführt, um die oben genannten Probleme zu lösen. Als einzelne Verfahren werden dort z. B. eine Formanten-Ana­ lyse zur Klassifizierung stimmhafter Laute hinsichtlich ei­ ner stimmlichen Frequenzkomponente, ein dynamisches Zeit- Deformationsverfahren (Dynamic Time Warping bzw. DTW-Ver­ fahren), bei dem zeitliche Störungen zwischen den individu­ ellen Artikulationen eines einzelnen Wortes mittels einer dynamischen Programmiertechnik verringert werden, so daß die größtmöglich gleichmäßige Sprache für die Erkennung herangezogen werden kann, und ein Verhülltes-Markov-Modell- Verfahren (Hidden Markov Model bzw. HMM-Verfahren) zur Spracherkennung durch Darstellen eines phonetisch zusammen­ gesetzten Signals verwendet.Research into established systems has been carried out on a broad basis sis performed to solve the above problems. As a single method there z. B. a formant ana lysis for the classification of voiced sounds with regard to egg a vocal frequency component, a dynamic time Deformation process (Dynamic Time Warping or DTW-Ver drive), in which temporal disturbances between the individu ellen articulations of a single word using a dynamic programming technology can be reduced so that the greatest possible uniform language for recognition can be used, and a veiled Markov model Process (Hidden Markov Model or HMM process) for Speech recognition by presenting a phonetically together set signal used.

Da jedoch die meisten der vordem verwirklichten, die vor­ stehenden Verfahren verwendenden Spracherkennungssysteme einen enormen Rechenaufwand zum Erkennen natürlich gespro­ chener menschlicher Sprache und Akzeptieren der verschiede­ nen Artikulationen von Sprache erfordern, ist ihre tatsäch­ liche Verwendbarkeit und Bedeutung zweifelhaft, und Echt­ zeit-Spracherkennung wird schwierig. Ein Fuzzy- oder Un­ schärfe-Theorien verwendendes neuronales Netzwerk-Modell wurde als Verfahren vorgeschlagen, das in der Lage ist, die allgemeinen Probleme der Mustererkennung, z. B. Spracherken­ nung, zu lösen.However, since most of the previously realized the before speech recognition systems using existing methods an enormous amount of computation to recognize, of course  human language and accepting the various It requires factual articulations to be articulated usability and meaning doubtful, and genuine time speech recognition becomes difficult. A fuzzy or un neural network model using sharpness theories has been proposed as a process that is capable of general problems of pattern recognition, e.g. B. Speech recognition to solve.

Im Unterschied zu einem von-Neumann-Computer geht man davon aus, daß das neuronale Netzwerk-Modell nicht nur die geeig­ neten Regeln zur Lösung von sich aufgrund mehrdeutiger, un­ vollständiger und sich widersprechender Daten ergebender Fragen lernt, sondern auch eine Vielzahl von Neuronen par­ allel verarbeitet, sodaß das neuronale Netzwerk-Modell in einer Parallelverarbeitung erfordernden Umgebung wie bei­ spielsweise der Spracherkennung eingesetzt werden kann. Das neuronale Netzwerk-Modell bietet drei grundlegende Vortei­ le.In contrast to a von Neumann computer, this is assumed from that the neural network model is not only the most suitable neten rules for solving themselves due to ambiguous, un complete and contradictory data Learns questions but also a variety of neurons par processed allel, so that the neural network model in an environment requiring parallel processing as in for example, voice recognition can be used. The neural network model offers three basic advantages le.

Erstens ist es in hohem Maße anpassungsfähig. D.h., mensch­ liche Sprache ist entsprechend Umgebungsgeräuschen und Ei­ genschaften eines Sprechers verschieden, was durch das neu­ ronale Netzwerk-Modell wirkungsvoll gelernt werden kann.First, it is highly adaptable. That is, human The corresponding language is ambient noise and egg characteristics of a speaker different from what is new ronal network model can be learned effectively.

Zweitens ist der Lernvorgang zweckmäßig. Während eine algo­ rithmische Verarbeitung durch geeignetes Extrahieren eines unbestimmten Merkmals aus einer Mannigfaltigkeit von Sprachdaten sehr schwierig ist, kann das neuronale Netz­ werk-Modell das Merkmal selbst extrahieren und durch darge­ botene Beispielen lernen.Second, the learning process is useful. While an algo rithmic processing by suitable extraction of a indefinite characteristic from a variety of Voice data is very difficult, the neural network werk-Modell extract the characteristic yourself and by darge learn offered examples.

Drittens kann die obige Parallelverarbeitung durchgeführt werden. Im neuronalen Netzwerk-Modell erhält man das Ergeb­ nis durch die zahlreichen, eine Parallelverarbeitung aus­ führenden Basisneuronen, sodaß der für das Lernen erforder­ liche enorme Zeitaufwand durch die Parallelverarbeitung handhabbar wird. Third, the above parallel processing can be performed will. The result is obtained in the neural network model nis by the numerous, parallel processing leading base neurons, so that is required for learning enormous time expenditure due to parallel processing becomes manageable.  

Bei den eingeführten Verfahren wird ein spezielles Refe­ renzmuster im Voraus ermittelt oder eine Fülle von sich auf Sprachdaten beziehende Regeln einzeln programmiert. Im das neuronale Netzwerk verwendenden System hingegen können, da die nach Außen hin in Erscheinung tretenden Merkmale oder Informationen gelernt werden, Muster klassifiziert werden, ohne daß eine spezielle, über eine Merkmalsänderung infor­ mierende Anweisung erforderlich ist, und eine größere Lei­ stungsfähigkeit bezüglich eines modifizierten Musters kann herausgebildet werden.A special Refe border pattern determined in advance or an abundance of oneself Rules relating to voice data are individually programmed. Im that system using neural network, however, can the outward appearing characteristics or Information is learned, patterns are classified, without any special information about a change in characteristics lubricating instruction is required, and a larger lei Ability to a modified pattern can be formed.

Ein repräsentatives neuronales Netzwerk-Modell, welches be­ reits das neuronale Netzwerk-Modell als Spracherkennungs­ verfahren zur Verbesserung der Spracherkennungsleistung einführt, ist ein zeitverzögerndes neuronales Netzwerk (Time Delay Neural Network, TDNN), welches gute Leistungen bei der Erkennung silbenhafter Phonemsprache aufwies. Fer­ ner ergab ein Versuch, bei dem ein einer phonologischen Gruppe entsprechendes untergeordnetes Netzwerk als Modul dargestellt wird, einen erweiterten Bereich erkannter Ob­ jekte, ohne die hohe Erkennungsrate des untergeordneten Netzwerks herabzusetzen.A representative neural network model, which be is already using the neural network model as speech recognition procedures for improving speech recognition performance introduces is a time-delaying neural network (Time Delay Neural Network, TDNN) which performs well when recognizing syllable phoneme language. Fer ner found an experiment in which a phonological Group corresponding subordinate network as a module is shown, an extended area of recognized ob projects without the high recognition rate of the subordinate Network.

Um die Eigenschaften des oben beschriebenen neuronalen Netzwerks tatsächlich anzuwenden und ausreichend davon Ge­ brauch zu machen, ist eine festverdrahtete Hardware-Schal­ tung erforderlich, was jedoch, im Gegensatz zur Software- Simulation, viele Einschränkungen darstellt. Aus diesem Grunde wird ein neuronales Netz in Form eines eingangsge­ steuerten Mehrschicht-Perceptrons (Input-Driven Multi-Layer Perceptron, IDMLP) vorgeschlagen.To the properties of the neural described above Network actually apply and sufficient Ge need to make is a hard-wired hardware scarf required, which, however, in contrast to software Simulation that presents many limitations. For this Basically, a neural network in the form of an input controlled multi-layer perceptrons (input-driven multi-layer Perceptron, IDMLP).

Des weiteren wird Fuzzy- bzw. Unschärfe-Theorie eingeführt, da sich aufgrund der Verschiedenheit der Sprachdaten die Frequenzcharakteristik entsprechend jedem einzelnen Spre­ cher unterscheidet, selbst wenn jeweils dasselbe Wort aus­ gesprochen wird.Furthermore fuzzy or blurring theory is introduced, because due to the diversity of the voice data the Frequency characteristics corresponding to each individual spectrum cher differentiates, even if the same word in each case is spoken.

Der Erfindung liegt daher die Aufgabe zugrunde, ein Spra­ cherkennungssystem für Koreanische Einzelsilben zu schaf­ fen, bei dem ein neuronales Netzwerk und ein auf Fuzzy- Theorie basierender Mustervergleichs-Algorithmus verwendet werden.The invention is therefore based on the object, a language  detection system for Korean single syllables in which a neural network and one based on fuzzy Theory-based pattern comparison algorithm is used will.

Diese Aufgabe wird erfindungsgemäß gelöst durch ein Spra­ cherkennungssystem mit einer Sprach-Aufnahmeeinrichtung zum Aufnehmen eines Sprachsignals, einer Sprach-Analyseein­ richtung zum Einteilen des Sprachsignals aus der Sprachaufnahmeeinrichtung in vorbestimmte Frequenzbänder, wobei das eingeteilte Sprachsignal in jedem Frequenzband als Energieniveau dargestellt wird, und einem Verarbeitungs­ rechner zum Übernehmen des Signals aus der Sprachanalyse- Einrichtung, Binärwandeln des Sprachsignals durch Verglei­ chen des Energieniveaus jedes Frequenzbands in Bezug auf das Energieniveau eines benachbarten Frequenzbands, und Ausgeben eines den Binärdaten entsprechenden Sprachsignals.According to the invention, this object is achieved by a speech recognition system with a voice recording device for Record a speech signal, a speech analysis direction for dividing the voice signal from the voice recording device in predetermined frequency bands, where the divided speech signal in each frequency band as Energy level is represented and a processing computer to take over the signal from the speech analysis Setup, binary conversion of the speech signal by comparison the energy level of each frequency band in relation to the energy level of a neighboring frequency band, and Output a voice signal corresponding to the binary data.

In den Unteransprüchen sind vorteilhafte Ausgestaltungen der Erfindung gekennzeichnet.Advantageous refinements are in the subclaims characterized the invention.

Die Erfindung wird nunmehr anhand eines Ausführungsbei­ spiels unter Bezugnahme auf die Zeichnungen beschrieben.The invention will now be described with reference to an embodiment game described with reference to the drawings.

Fig. 1 zeigt ein Blockschaltbild eines Schaltungsaufbaus zur Durchführung einer Sprachanalyse gemäß dem Ausführungs­ beispiel. Fig. 1 shows a block diagram of a circuit structure for performing a speech analysis according to the embodiment example.

Fig. 2 zeigt ein Ausführungsbeispiel des Analogverstärkers aus Fig. 1. FIG. 2 shows an embodiment of the analog amplifier from FIG. 1.

Fig. 3 zeigt ein Ausführungsbeispiel des Sprach-Analysators aus Fig. 1. FIG. 3 shows an exemplary embodiment of the speech analyzer from FIG. 1.

Fig. 4 zeigt ein einzelnes Rahmen-Ausgangssignal bezogen auf einen gesprochenen koreanischen Vokal. Figure 4 shows a single frame output related to a spoken Korean vowel.

Fig. 5 zeigt ein Ablaufdiagramm der Sprachanalyse des Sprach-Analysators. Fig. 5 shows a flowchart of the voice analysis of the voice analyzer.

Fig. 6 zeigt ein Ablaufdiagramm eines Sprach-Analysedaten- Extraktionsschrittes. Fig. 6 shows a flowchart of a speech analysis data extraction step.

Fig. 7 zeigt die spektrale Verteilung eines Sprachsignals. Fig. 7 shows the spectral distribution of a speech signal.

Fig. 8 zeigt die binärgewandelte spektrale Verteilung des Sprachsignals aus Fig. 7. FIG. 8 shows the binary-converted spectral distribution of the speech signal from FIG. 7.

Fig. 9 zeigt die Schritte zur Binärwandlungverunschärfter Daten. Figure 9 shows the steps for binary converting blurred data.

Fig. 10 zeigt eine Struktur eines neuronalen IDMLP-Netz­ werks. Fig. 10 shows a structure of a neural IDMLP network.

Fig. 11 zeigt eine Tabelle von in einsilbige Konsonanten- Vokal-Paare zu klassifizierenden Silben. Fig. 11 shows a table of syllables to be classified into one-syllable consonant-vowel pairs.

Fig. 12A bis 12E zeigen auf die einzelnen Module bezogene jeweilige Klassifizierungsraten. FIG. 12A to 12E show the individual modules related respective classification rates.

In Fig. 1 beinhaltet ein Spracherkennungssystem ein Mikro­ phon 10 zur Sprach-Aufnahme, einen Analogverstärker 20 zum Verstärken der Sprache aus dem Mikrofon 10, einen Sprach- Analysator 30 zum Analysieren eines Sprachsignals aus dem Analogverstärker 20, eine Schnittstellenplatine 40 zur An­ passung an einen Personal Computer (PC), Festplatten- und Diskettenlaufwerke (HDD + FDD) 50 zum Austauschen von Daten mit dem Computer, einen mit der Schnittstellenplatine 40 und den Festplatten- und Diskettenlaufwerken (HDD + FDD) 50 verbundenen Verarbeitungsrechner bzw. Hostcomputer 60, ei­ ne Tastatur 70, die eine Eingabeeinrichtung des Hostcompu­ ters 60 bildet, und einen eine Ausgabeeinrichtung des Ho­ stcomputers 60 bildenden Bildschirm 80.In Fig. 1, a speech recognition system includes a microphone 10 for voice recording, an analog amplifier 20 for amplifying the speech from the microphone 10 , a speech analyzer 30 for analyzing a speech signal from the analog amplifier 20 , an interface board 40 for adaptation to one Personal computer (PC), hard disk and floppy disk drives (HDD + FDD) 50 for exchanging data with the computer, a processing computer or host computer 60 connected to the interface board 40 and the hard disk and floppy disk drives (HDD + FDD) 50 , ei ne keyboard 70 forming input means of Hostcompu ters 60, and an output means of the Ho stcomputers 60 forming screen 80th

Der Analog-Schaltkreis für die Spracheingabe gemäß Fig. 2 dient zur Anpassung der Lautstärke der aufgenommenen Spra­ che unter Verwendung eines veränderbaren Widerstands. Ein Differentialverstärker 90 (z. B. ein TL072CP-Baustein) be­ sitzt eine Frequenzbandbreite von 10 KHz, da normale menschliche Stimmfrequenzen bis 7 KHz reichen. Da die digi­ talen und die analogen Signale im Bereich der Sprachanalyse vermischt bzw. vereinigt werden, sollte dem Rauschen große Aufmerksamkeit geschenkt werden. Im vorliegenden Ausfüh­ rungsbeispiel wird ein Rauschen durch einen Kondensator mit einer Kapazität von ca. 0,1 µF beseitigt. Das Ausgangssi­ gnal der analogen Verstärkerstufe dient als Eingangssignal für den Sprach-Analysator 30, der 8 Bit breite Daten aus­ gibt.The analog circuit for the voice input of FIG. 2 is used for adjusting the volume of the captured Spra che using a variable resistor. A differential amplifier 90 (e.g. a TL072CP module) has a frequency bandwidth of 10 kHz, since normal human voice frequencies range up to 7 kHz. Since the digital and the analog signals are mixed or combined in the field of speech analysis, great attention should be paid to noise. In the present exemplary embodiment, noise is eliminated by a capacitor with a capacitance of approximately 0.1 μF. The output signal of the analog amplifier stage serves as an input signal for the speech analyzer 30 , which outputs 8-bit data.

Fig. 3 ist ein Blockschaltbild eines Ausführungsbeispiels des in zwei Bereiche unterteilten Sprach-Analysators 30. Hierbei ist einer der Bereiche ein Schnittstellenbereich mit einem 8-Bit-Komparator 31 (z. B. ein 74LS688-Baustein) und einem Schnittstellen-Baustein 32 (z. B. ein 8255PPI- Schaltkreis), wobei dieser Bereich die Sprach-Analyse durchführt (Bezugszeichen 33 bezeichnet dabei beispielswei­ se einen µPD7763-Baustein). Hierbei ist, da der 74LS688 Baustein ein Open-Collector-Typ ist, ein Pull-Up-Widerstand 35 zwischen den Ausgang (Pin 19) und einer Spannungsquelle (Vcc) geschaltet. Durch die Verwendung des 8255PPI-Bau­ steins zur Anpassung an den Personal Computer 60 wurde die Schnittstellenplatine 40 auf einfache Weise aufgebaut und hergestellt. Der 8255PPI- und der µPD7763-Baustein werden mittels des Hostcomputers 60 gesteuert, was später genauer unter Bezugnahme auf die Software beschrieben werden wird. Die Eingabe von Adreß- und Datensignalen in den Sprach- Analysator-Baustein 33 erfolgt über den Adreß- und Daten­ bus. Ein 4 MHz-Takt wird zur Synchronisation der Betriebs­ abläufe der internen Schaltkreise des Sprach-Analysator- Bausteins 33 benötigt, der durch den 4 MHz-Quarzoszillator bereitgestellt wird. Fig. 3 is a block diagram of an embodiment of the subdivided into two areas voice analyzer 30 and. Here, one of the areas is an interface area with an 8-bit comparator 31 (e.g. a 74LS688 chip) and an interface chip 32 (e.g. an 8255PPI circuit), this area performing the speech analysis (Reference numeral 33 denotes, for example, a µPD7763 module). Here, since the 74LS688 module is an open collector type, a pull-up resistor 35 is connected between the output (pin 19 ) and a voltage source (V cc ). By using the 8255PPI module to adapt to the personal computer 60 , the interface board 40 was built and manufactured in a simple manner. The 8255PPI and µPD7763 devices are controlled by the host computer 60 , which will be described in more detail later with reference to the software. The input of address and data signals into the speech analyzer module 33 takes place via the address and data bus. A 4 MHz clock is required to synchronize the operations of the internal circuits of the speech analyzer module 33 , which is provided by the 4 MHz crystal oscillator.

Ein Eingang "RESET" des Schnittstellen-Bausteins 32 setzt diesen selbsttätig durch Kontaktieren des Rücksetzanschlus­ ses in einem I/O-Steckplatz des Hostcomputers 60 zurück, wenn der Hostcomputer 60 hochgefahren wird.An input "RESET" of the interface module 32 automatically resets it by contacting the reset terminal in an I / O slot of the host computer 60 when the host computer 60 is started up.

Das Rücksetzen des Sprach-Analysator-Bausteins 33 muß vor dem Einstellen einer Eingabebetriebsart erfolgen, jedoch wird der Gesamtschaltkreis dadurch übermäßig vergrößert. The resetting of the speech analyzer module 33 must be done before setting an input mode, but the overall circuit is enlarged excessively.

Deshalb wird dieses Problem im vorliegenden Ausführungsbei­ spiel unter Verwendung des 8255PPI-Bausteins und der zuge­ ordneten Software gelöst. Genauer gesagt wird ein dem Rück­ setzsignal entsprechender Wert über den Datenbus und über einen Ausgang des Schnittstellen-Bausteins 32 an den Rück­ setz-Eingang des sprach-Analysator-Bausteins 33 gelegt.Therefore, this problem is solved in the present exemplary embodiment using the 8255PPI module and the associated software. Specifically, a value corresponding to the reset signal is placed on the data bus and on an output of the interface module 32 at the reset input of the speech analyzer module 33 .

Wenn ein Rahmensignal-Anschluß "FRAME" des Sprach-Analysa­ tor-Bausteins 33 eine die Beendigung der Analyse eines Rah­ mens darstellende logische "1" ausgibt, liest der Hostcom­ puter 60 den Wert einer innerhalb des Sprach-Analysator- Bausteins 33 angeordneten 16-Kanal-Filterbank bzw. eines 16-Kanal-Bandpaß-Filters aus. Unter Verwendung des als Schnittstelle dieses Bereichs dienenden Schnittstellen-Bau­ steins 32 wird der bei der Spracherkennung die meiste Zeit erfordernde vorverarbeitende Bereich durch Hardware gebil­ det, wodurch in der Gesamtheit ein Echtzeit-Spracherken­ nungssystem gebildet wird.When a frame signal port 33 a outputs "FRAME" of the speech Analysa tor block the completion of the analysis of a Rah mens representing logic "1", the HostCom reads computer 60 the value of a disposed within the voice analyzer module 33 16- Channel filter bank or a 16-channel bandpass filter. Using the interface module 32 serving as the interface of this area, the preprocessing area which requires the most time for speech recognition is formed by hardware, as a result of which a real-time speech recognition system is formed as a whole.

Das heißt, daß, obwohl ein enormer Zeitbetrag auf das Ana­ lysieren von Sprachsignalen mittels allgemeiner Software- Simulation verschwendet wird, im vorliegenden Ausführungs­ beispiel das Ausgabesignal des 16-Kanal-Bandpaß-Filters durch Hardware erzielt wird, so daß die benötigte Zeit ver­ ringert und dadurch ein System gebildet wird, welches zur Spracherkennung auf Echtzeitbasis verwendet werden kann.This means that although an enormous amount of time is spent on the Ana lysing speech signals using general software Simulation is wasted in this execution example the output signal of the 16-channel bandpass filter is achieved by hardware so that the time required ver wrestles and thereby a system is formed which for Real-time voice recognition can be used.

Die untenstehende Tabelle 1 zeigt die Frequenzcharakeristik der sechzehn Bandpaß-Filter des Sprach-Analysator-Bausteins 33 aus Fig. 1. Table 1 below shows the frequency characteristic of the sixteen bandpass filters of the speech analyzer module 33 from FIG. 1.

Tabelle 1 Table 1

Fig. 5 zeigt Ausgangssignale eines Rahmens des Sprach-Ana­ lysators 30 (Fig. 1) in Bezug auf einen koreanischen Vokal, der das Überwachen des Formanten des Vokals ermöglicht. Folglich weist das gemäß dem Ausführungsbeipiel konzipierte und hergestellte Sprachanalysesystem keine Nachteile in Form z. B. der Erfordernis einer Vorverarbeitungsschaltung oder -platine auf. FIG. 5 shows output signals of a frame of the speech analyzer 30 ( FIG. 1) with respect to a Korean vowel, which enables the formant of the vowel to be monitored. Consequently, the speech analysis system designed and manufactured according to the exemplary embodiment has no disadvantages in the form of e.g. B. the need for a preprocessing circuit or board.

Der Aufbau der Software ist zweigeteilt. Zum einen erlaubt ein Steuerprogramm einem Benutzer den einfachen Gebrauch des wie vorstehend konzipierten und hergestellten Sprachanalysesystems. Ein solches Steuerprogramm stellt die Betriebsarten des Schnittstellen-Bausteins 32 und des Sprach-Analysator-Bausteins 33 ein und dirigiert die Ein- und Ausgabe von Daten. Zum Zweiten erfaßt ein weiteres Pro­ gramm ein Sprachintervall anhand von Daten, die nach Pas­ sieren durch den Sprach-Analysator-Baustein 33 als inner­ halb eines bestimmten Frequenzbereichs liegend betrachtet werden, normiert unterschiedlich ausgesprochene Längen, und binarisiert bzw. wandelt letztendlich Daten in binäre Form, die zur Eingabe in das neuronale IDMLP-Netzwerk verwendet werden.The structure of the software is divided into two. First, a control program allows a user to easily use the speech analysis system designed and manufactured as above. Such a control program sets the operating modes of the interface module 32 and of the speech analyzer module 33 and directs the input and output of data. Secondly, another program detects a speech interval on the basis of data which, after passing through the speech analyzer module 33 , are considered to be within a certain frequency range, normalizes lengths of different pronunciations, and ultimately binarizes or converts data into binary form that are used for input into the IDMLP neural network.

Die Einstellung der Betriebsart des Schnittstellen-Bau­ steins 32 dient zur Bezeichnung eines Anschlusses, über den in einer Basis-Betriebsart die Ein- und Ausgabe durchge­ führt wird. Im vorliegenden Ausführungsbeispiel werden "PAO" und "PB1" als Ausgänge konfiguriert, wobei der An­ schluß "PB1" ebenfalls als Eingang gekennzeichnet wird. Die obige Betriebsweise wird durch Software-Befehle in der Pro­ grammiersprache C eingestellt:The setting of the operating mode of the interface module 32 serves to designate a connection via which the input and output is carried out in a basic operating mode. In the present exemplary embodiment, "PAO" and "PB1" are configured as outputs, the connection "PB1" also being identified as an input. The above operating mode is set by software commands in the programming language C:

outportb(0x307, 0x82); /* A+B-Anschluß Ausgang, B- Anschluß Eingang */.outportb (0x307, 0x82); / * A + B connection output, B- Connection input * /.

Im Hardware-Aufbau wird der Schnittstellen-Baustein 32 zur Initialisierung des Sprach-Analysator-Bausteins 33 und zur Ermittlung der Beendigung der Sprachanalyse verwendet. Dem­ entsprechend ist das obige erste Programm zur Steuerung des Schnittstellen-Bausteins 32 sehr einfach.In the hardware structure, the interface module 32 is used to initialize the speech analyzer module 33 and to determine the end of the speech analysis. Accordingly, the above first program for controlling the interface module 32 is very simple.

Weiter wird das obige zweite Programm zur Steuerung des Sprach-Analysator-Bausteins 33 benötigt. Derzeit muß die für die Analyse der Daten und das Auslesen der anaylsierten Daten erforderliche Zeit geschickt berechnet werden, um ein stabiles Gesamtsystem zu gewährleisten. The above second program for controlling the speech analyzer module 33 is also required. At present, the time required for the analysis of the data and the reading out of the analyzed data must be skillfully calculated in order to ensure a stable overall system.

Der Sprach-Analysator-Baustein 33 sollte unter Verwendung des Schnittstellen-Bausteins 32 durch die folgenden C-Be­ fehle initialisiert werden:The speech analyzer module 33 should be initialized using the interface module 32 by the following C commands:

outportb(0x00); /* µPD7763 Rückstellsignal */
delay(1); /* Dauer des Rücksetzsignals */
outportb(0xff); /* Entfernen des Rücksetzsignals */.
outportb (0x00); / * µPD7763 reset signal * /
delay (1); / * Duration of the reset signal * /
outportb (0xff); / * Remove the reset signal * /.

Der obige delay(int); Befehl wird notwendig, weil das Rück­ setzsignal das System initialisiert.The above delay (int); Command becomes necessary because the return set signal initializes the system.

Der I/O-Steuerbereich des Sprach-Analysator-Bausteins 33 steuert die externen Ein- und Ausgabedaten-Verarbeitungen unter Verwendung der Datenbus-Anschlüsse DB0∼DB7.The I / O control area of the speech analyzer module 33 controls the external input and output data processing using the data bus connections DB0∼DB7.

Die untenstehende Tabelle 2 dient zur Erläuterung der Be­ triebsabläufe entsprechend fünf Steuersignalen CS, WR, RD, A0 und A1.Table 2 below serves to explain the Be drive sequences corresponding to five control signals CS, WR, RD, A0 and A1.

Tabelle 2 Table 2

Nach der Freigabe des Rücksetzsignals muß eine Betriebsart innerhalb von 378 µs gesetzt werden. Die Betriebsart des Sprach-Analysator-Bausteins 33 wird durch das Schreiben von Daten in ein im Baustein enthaltenes Befehls/Status-Regi­ ster (Command/status Register, CSR) über den Datenbus ge­ setzt, wobei die durch den Hostcomputer 60 steuerbaren Be­ triebsarten (1) die Dauer eines analysierten Rahmens, (2) Vorverstärkung, (3) Ein- und Ausschalten eines Equalizers, und (4) die Grenzfrequenz eines Tiefpaß-Filters sind.After the reset signal has been released, an operating mode must be set within 378 µs. The operating mode of the speech analyzer module 33 is set by writing data into a command / status register (CSR) contained in the module via the data bus, the operating modes controllable by the host computer 60 ( 1) the duration of an analyzed frame, (2) preamplification, (3) switching an equalizer on and off, and (4) the cutoff frequency of a low-pass filter.

Diese vier Betriebsarten werden durch das Schreiben von Da­ ten in das Befehls/Status-Register CSR über den Datenbus des Computers 60 unter erneuter Verwendung der Programmier­ sprache C wie folgt verfügbar:These four modes of operation become available by writing data to the command / status register CSR over the data bus of the computer 60 using the programming language C again as follows:

outportb(0x304, 0x4c); /* 0dB, 16 ms */
outportb(0x304, 0x02) /* 25Hz, EQ Aus */
outportb (0x304, 0x4c); / * 0dB, 16 ms * /
outportb (0x304, 0x02) / * 25Hz, EQ off * /

Fig. 5 zeigt ein Gesamt-Ablaufdiagramm von der Sprachaufnahme bis zum Auslesen der analysierten Ergebnisse. Fig. 5 shows an overall flow diagram of the voice recording until the reading of the analyzed results.

Fig. 6 zeigt einen Schritt des Erfassens des Sprachinter­ valls und des Ermittelns binarisierter Daten für die Ein­ gabe in das neuronale IDMLP-Netzwerk, der ausgeführt wird, nachdem das Ausgangssignal des Sprach-Analysators 30 über den Schnittstellen-Baustein 32 in einen Speicher des Ho­ stcomputers 60 gespeichert wurde. Fig. 6 shows a step of detecting the voice interaction Valls and obtaining binarized data for a handover in the neural IDMLP network, which is executed after the output of the speech analyzer 30 via the interface component 32 in a memory of the Ho stcomputers 60 was saved.

Im vorliegenden Ausführungsbeispiel wird eine Rahmenlänge auf 16 ms eingestellt. Das Sprachintervall sollte in voll­ ständig analysierten Daten ermittelt werden. Im vorliegen­ den Ausführungsbeispiel wird der Rahmen gleich der Länge des Sprachintervalls gesetzt, wenn das Energieniveau eines Rahmens größer als eine voreingestellte Schwellenspannung ist. Wenn eine Person mehrmals wiederholt dasselbe Wort spricht, sind die Längen der gesprochenen Worte selten gleich, so daß eine Zeitachsen-Normierung ausgeführt werden sollte. Wenn ein einsilbiges Wort wiederholt gesprochen wird, dauert es im allgemeinen für 8 bis 26 Rahmen an Folglich werden 15 Rahmen als Bezugswert eingestellt, die Zeitachsen-Normierung ausgeführt und die wie oben erhalte­ nen Daten binarisiert.In the present embodiment, a frame length set to 16 ms. The speech interval should be in full continuously analyzed data can be determined. In the present the embodiment, the frame is equal to the length of the speech interval when the energy level of a Frame larger than a preset threshold voltage is. If a person repeats the same word several times speaks, the lengths of the spoken words are rare same, so that a time axis normalization is carried out should. When a monosyllabic word is spoken repeatedly it generally lasts for 8 to 26 frames As a result, 15 frames are set as the reference value Timeline standardization performed and received as above binarized data.

Gemäß dem vorliegenden Ausführungsbeispiel wird der Schritt vom Eingangssignal des Mikrofons bis zum als Ein­ gangssignal des neuronalen IDMLP-Netzwerks verwendeten Aus­ gangssignal der 16-Kanal-Filterbank durch Hardware reali­ siert, um die dadurch Sammelzeit der Eingangsdaten zu ver­ kürzen.According to the present embodiment, the Step from the input signal of the microphone to as on  output signal of the neural IDMLP network used Aus output signal of the 16-channel filter bank through hardware reali to reduce the collection time of the input data shorten.

Der Eingangsdaten-Extraktionsschritt dient zum Bilden der oben genannten, im Endzustand normierten und binarisierten Daten. Er wird wie untenstehend durchgeführt:The input data extraction step is used to form the above, standardized and binarized in the final state Data. It is carried out as follows:

  • 1. Das Sprachsignal wird über das Mikrofon 10 empfangen.1. The voice signal is received via the microphone 10 .
  • 2. Unter Verwendung der Schaltung aus Fig. 2 wird das emp­ fangene Sprachsignal auf eine geeignete Lautstärke angeho­ ben und als Eingangssignal des Sprach-Analysators 30 ver­ wendet.2. Using the circuit of FIG. 2, the received speech signal is raised to a suitable volume and used as the input signal of the speech analyzer 30 .
  • 3. Das Ergebnis der Analyse wird aus dem Sprach-Analysator 30 ausgelesen.3. The result of the analysis is read out from the speech analyzer 30 .
  • 4. Das Sprachintervall wird unter Verwendung des voreinge­ stellten Schwellenwerts ermittelt.4. The speech interval is set using the pre set threshold determined.
  • 5. Das Sprachintervall wird normiert in Bezug auf die dem Bezugsrahmen entsprechende Zeitachse.5. The language interval is standardized in relation to the Frame of reference corresponding timeline.
  • 6. Das Ausgangssignal jedes Bandpaß-Filters wird mit dem des benachbarten Filters verglichen, wobei deren relative Energieniveaus binarisiert werden.6. The output signal of each bandpass filter is compared with the of the neighboring filter compared, their relative Energy levels are binarized.

Die untenstehende Tabelle 3 zeigt die aus dem obigen Sprachintervall-Ermittlungsschritt resultierenden Daten. Table 3 below shows that from the above Speech interval determination step resulting data.  

Fig. 7 zeigt die spektrale Verteilung des Sprachsignals. Fig. 7 shows the spectral distribution of the speech signal.

Fig. 8 zeigt ein binarisiertes Frequenzspektrum. In diesem Fall wird das aus dem Sprach-Analysator 30 ausgelesene Energieniveau jedes Bandpaß-Filters mit dem Ausgangssignal desjenigen Filters verglichen, dessen Frequenzband unmit­ telbar unterhalb liegt, sodaß eine logische "1" als Aus­ gangssignal des Filters gesetzt wird, wenn dessen Ausgangs­ wert größer ist als derjenige des niederfrequenteren Fil­ ters (wenn EfN-1 < EfN), und eine logische "0" im Falle ei­ nes kleineren Werts (wenn EfN-1EfN). Fig. 8 shows a binarized frequency spectrum. In this case, the energy level read from the speech analyzer 30 of each bandpass filter is compared with the output signal of the filter whose frequency band is immediately below, so that a logic "1" is set as the output signal of the filter when its output value is greater is than that of the lower frequency filter (if EfN-1 <EfN), and a logical "0" in the case of a smaller value (if EfN-1EfN).

Die untenstehende Tabelle 4 zeigt das binarisierte Sprach- Ausgangssignal, bei dem das oben beschriebene Verfahren an­ gewandt wurde (hierbei ist die einem Rahmen entsprechende Anzahl von Eingabe-Bits 15). Table 4 below shows the binarized speech Output signal using the method described above has been turned (here is the one corresponding to a frame Number of input bits 15).  

Bei dem vorliegenden Ausführungsbeispiel werden, in einem der Erkennung einsilbiger koreanischer Sprache vorangehen­ den Schritt, die Unschärfe-Theorie und die vorstehend er­ wähnte Anpassungsfähigkeit des neuronalen IDMLP-Netzwerks bei der Erkennung gesprochener Zahlen von "0" bis "9" (die, auf koreanisch ausgesprochen, einsilbig sind) untersucht. Ferner wird bei der Erkennung unter Verwendung des neurona­ len IDMLP-Netzwerks jede Silbe der Sprachdaten mit dem ge­ lernten Ergebnis verunschärft, so daß die Erkennungsversu­ che in Bezug auf das mittels einer Sprachdaten-silbe ge­ lernte Ergebnis durchgeführt werden, und es wird die Mög­ lichkeit der Kombination von neuronalem Netzwerk und Un­ schärfe-Theorie gemessen.In the present embodiment, in one precede recognition of monosyllabic Korean language the step, the blur theory and the above he imagined adaptability of the neural IDMLP network when recognizing spoken numbers from "0" to "9" (the, pronounced in Korean, are monosyllabic). Furthermore, in the detection using the neurona len IDMLP network each syllable of the voice data with the ge learned result blurred, so that the recognition versu che in terms of using a voice data syllable learned result will be carried out and it will be possible Combination of neural network and Un sharpness theory measured.

Fig. 9 zeigt den Schritt des Binarisierens der verunschärf­ ten Daten. Fig. 9 shows the step of binarizing the blurred data.

Jede Silbe der durch zehnmaliges Sprechen der Zahlen von "0" bis "9" erhaltenen Sprachdaten wird gefaltet und verun­ schärft, worauf die verunschärften Daten in Bezug auf einen geeigneten Schwellenwert binarisiert werden.Each syllable by speaking the numbers of ten times Speech data obtained from "0" to "9" is convoluted and misused sharpens what the blurred data relates to suitable threshold value can be binarized.

Die untenstehende Tabelle 5 zeigt das Ergebnis der obigen Binarisierung verunschärfter Daten. Table 5 below shows the result of the above Binarization of blurred data.  

Da die Anzahl der Eingangsknoten während dem Lernen des Netzwerks regelmäßig ist, sollten die Längen der unter­ schiedlich gesprochenen Laute in Bezug auf die Zeitachse normiert werden. Im vorliegenden, 15 Rahmen als Bezugswert verwendenden Ausführungsbeispiel wird die Zeitachsen-Nor­ mierung eingeführt, um allmählich ein angemessenes Rahmen­ intervall festzulegen, falls der Rahmen eines Eingangsmu­ sters länger als der Bezugsrahmen ist.Since the number of input nodes during the learning of the Network is regular, the lengths of the under should different spoken sounds in relation to the timeline be standardized. In the present, 15 frames as a reference embodiment using the time axis Nor mation introduced gradually to an appropriate framework interval if the frame of an input mu is longer than the reference frame.

Hierbei werden 200 durch einen Sprecher gesprochene Sprach­ daten-Silben als Lerndaten des neuronalen IDMLP-Netzwerks verwendet, und der Erkennungsversuch wird mittels 100 zu erkennenden Sprachdaten-Silben durchgeführt, die jeweils während dreier verschiedener Zeiträume (morgens, mittags, abends) erkannt werden sollen, um die Anpassungsfähigkeit des vorgestellten Spracherkennungssystems hinsichtlich der Verschiedenheit von Sprachdaten zu ermitteln.Here, 200 languages are spoken by a speaker data syllables as learning data of the neural IDMLP network is used, and the recognition attempt is 100 using recognizing speech data syllables performed each during three different periods (morning, noon, in the evening) should be recognized to adaptability of the presented speech recognition system with regard to the Determine diversity of voice data.

Nach dem Lernen zeigen sowohl die binarisierten Daten als auch die verunschärften Daten in Bezug auf die Lerndaten eine Erkennungsrate von 100 %. Weiterhin weisen in Bezug auf die Testdaten Lernvorgänge mittels sowohl der binari­ sierten als auch der verunschärften Daten eine hohe Erken­ nungsrate (über 94%) auf. Diese Versuchsergebnisse werden in den nachfolgenden Tabellen veranschaulicht.After learning both show the binarized data as also the blurred data in relation to the learning data a detection rate of 100%. Furthermore point in relation on the test data learning processes using both the binari As well as the blurred data, a high level of awareness rate (over 94%). These experimental results will be illustrated in the tables below.

Wenn das neuronale IDMLP-Netzwerk mittels der binarisierten Daten lernt, ist die Erkennungsrate des Erkennungsversuchs morgens 94% (Tabelle 6A), mittags 99% (Tabelle 6B), und abends 96% (Tabelle 6C), bei einer durchschnittlichen Er­ kennungsrate von 96,3%. If the neural IDMLP network using the binarized Learning data is the recognition rate of the recognition attempt 94% in the morning (Table 6A), 99% at noon (Table 6B), and in the evening 96% (Table 6C), with an average Er identification rate of 96.3%.  

Tabelle 6A Table 6A

Tabelle 6B Table 6B

Tabelle 6C Table 6C

Andererseits liegt, wenn das neuronale IDMLP-Netzwerk mit­ tels der verunschärften Daten lernt, die Erkennungsrate des Erkennungsversuchs morgens bei 97% (Tabelle 6D), mittags bei 99% (Tabelle 6E), und abends bei 98% (Tabelle 6F), bei einer durchschnittlichen Erkennungsrate von 98%. On the other hand, if the neural IDMLP network with the blurred data learns the recognition rate of the Detection attempt in the morning at 97% (Table 6D), at noon at 99% (Table 6E), and in the evening at 98% (Table 6F), at an average detection rate of 98%.  

Tabelle 6D Table 6D

Tabelle 6E Table 6E

Tabelle 6F Table 6F

Wie den obenstehenden Tabellen entnommen werden kann, ist die mittägliche Erkennungsrate die höchste unter den drei Versuchszeiten, und das Datum mit der schlechtesten Erken­ nungsrate ist die (auf koreanisch) gesprochene Zahl "6".As can be seen from the tables above, is the midday detection rate is the highest among the three Trial times, and the date with the worst orchestration is the number "6" spoken (in Korean).

Das Lernen des neuronalen IDMLP-Netzwerks war nach einem Durchgang in Bezug auf das Lernen mittels entweder der bi­ narisierten oder der verunschärften Daten beendet. Obwohl die strukturellen Eigenschaften des neuronalen IDMLP-Netz­ werks nicht geprüft worden sind, zeigen sich im Erkennungs­ ergebnis keine großen Unterschiede, wenn mittels der verun­ schärften Daten gelernt wird, außer, daß die Erkennungsrate des Erkennens gesprochener Zahlen leicht höher liegt.Learning the IDMLP neural network was after one Passage in terms of learning using either the bi narized or blurred data ended. Even though the structural properties of the neural IDMLP network works that have not been tested are shown in the recognition result not much of a difference when using the verun sharpened data is learned, except that the detection rate recognition of spoken numbers is slightly higher.

Zum Zwecke der Anwendung des neuronalen IDMLP-Netzwerks auf die Erkennung einsilbiger koreanischer Worte wird zuerst ein typ-klassifizierendes neuronales Netzwerk zur Klassifi­ zierung der Worte in fünf Vokal-orientierte Module gebil­ det, und das Gesamt-Netzwerk aus sechs Modulen zusammenge­ setzt, um die abschließende Erkennung durch jedes der un­ tergeordneten Netzwerke anhand der klassifizierten Typen durchzuführen.For the purpose of applying the IDMLP neural network to Korean monosyllabic words are recognized first a type-classifying neural network for classification adornment of the words in five vowel-oriented modules det, and the entire network of six modules sets to the final recognition by each of the un subordinate networks based on the classified types  perform.

Während der Typ-Klassifizierung wird Eingangsschall unter Verwendung von fünf Vokal-Lauten in fünf Gruppen eingeord­ net. Die konkreten zu klassifizierenden Phoneme sind 70 ko­ reanische Einzelsilben mit einer Konsonant-Vokal (K-V)- Struktur, die, wie in Fig. 11 gezeigt, in Verbindung mit 5 koreanischen Vokalen gebildet werden.During the type classification, input sound is classified into five groups using five vowel sounds. The concrete phonemes to be classified are 70 Korean single syllables with a consonant vowel (KV) structure, which, as shown in FIG. 11, are formed in conjunction with 5 Korean vowels.

Die beim Lernen des den Eingangsschall in fünf Gruppen ein­ ordnenden typ-klassifizierenden neuronalen Netzwerks ver­ wendeten Daten werden durch Extrahieren lediglich des Vo­ kalteils aus dem Eingangsschall gewonnen, wodurch der Lern­ vorgang stattfindet.Those learning the input sound in five groups ordering type-classifying neural network ver data is extracted by extracting only the Vo derived from the input sound, whereby the learning process takes place.

In jedem Fall besitzen die verwendeten Daten eine einsilbige K-V-Struktur, weshalb die Vokale einfach extrahiert wer­ den können.In any case, the data used is monosyllabic K-V structure, which is why the vowels are simply extracted that can.

Da sich ein Vokal am Ende eines gesprochenen Wortes befin­ det, genügt die Extraktion einiger am Ende der Bezugsrahmen (z. B. 15 Rahmen) vorhandenen Rahmen zur Typ-Klassifizie­ rung. Der obige Algorithmus ist jedoch ungeeignet, wenn die allmähliche Ausdehnung der konkreten zu erkennenden Worte berücksichtigt wird, d. h., wenn Sprache mit einer einsilbi­ gen Konsonant-Vokal-Konsonant-Struktur (K-V-K-Struktur) be­ rücksichtigt wird.Because there is a vowel at the end of a spoken word the extraction of some at the end of the frame of reference is sufficient (e.g. 15 frames) existing frames for type classification tion. However, the above algorithm is unsuitable if the gradual expansion of the concrete words to be recognized is taken into account, d. i.e. if language with a monosyllabic gene consonant-vowel-consonant structure (K-V-K structure) is taken into account.

Aus diesem Grund wird bei dem vorliegenden Ausführungsbei­ spiel nur der Mittenbereich des gesamten Rahmens extrahiert und als Lerndaten des typ-klassifizierenden neuronalen Netzwerks verwendet. Unter Verwendung eines mittels der wie oben beschrieben extrahierten Daten trainierten neuronalen Netzwerks wurde die Typ-Klassifizierung morgens, mittags- und abends als gesprochenes digitales Erkennungs-Experiment durchgeführt.For this reason, in the present embodiment just extract the center area of the entire frame and as learning data of the type-classifying neural Network used. Using a like the extracted data described above trained neural Type classification in the morning, at noon and in the evening as a spoken digital recognition experiment carried out.

Als Lerndaten werden Daten verwendet, die durch Extraktion der Vokalteile aus 350 Sprachdaten-Silben (70 durch Verbin­ dung mit 5 Vokalen gebildete Silben, welche jeweils fünf mal durch einen Sprecher gesprochen wurden) gewonnen wur­ den. Als Testdaten werden etwa 420 Sprachdaten-Silben für jedes der fünf Module, und insgesamt 2500 Silben, verwen­ det, mit denen der Modul-Analyse-Test durchgeführt wird.As learning data, data are used that are obtained by extraction the vowel parts from 350 speech data syllables (70 by verb syllable formed with 5 vowels, each five  were spoken by a speaker) the. About 420 voice data syllables for use each of the five modules, and a total of 2500 syllables with which the module analysis test is carried out.

Fig. 18A-F zeigen eine Analyserate in Bezug auf Sprach­ daten mit einer einsilbigen K-V-Struktur, die im Mittel ei­ nen Typ-Klassifizierungserfolg von 98,4% erreicht. Die je­ weiligen Typ-Klassifizierungsraten wurde zu 97,6% für das "a"-Modul, zu 98,6% für das "e"-Modul, zu 98,1% für das "i"-Modul, zu 98,3% für das "o"-Modul und zu 98,1% für das "u"-Modul gemessen. Hierbei wurde eine Typ-Klassifizie­ rungsrate größer als 90% erreicht, wenn die Typ-Klassifi­ zierung in Bezug auf K-V-K-Einsilben-Sprachdaten untersucht wurde, obwohl das Lernen durch Extrahieren der Daten aus den K-V-Einsilben-Sprachdaten fortgesetzt wurde. FIG. 18A-F show a rate of analysis with respect to speech data of a monosyllabic KV structure reaches the egg in the middle NEN type classification success of 98.4%. The respective type classification rates became 97.6% for the "a" module, 98.6% for the "e" module, 98.1% for the "i" module, 98.3 % for the "o" module and 98.1% for the "u" module. Here, a type classification rate greater than 90% was achieved when examining the type classification with respect to KVK monosyllabic speech data, although the learning was continued by extracting the data from the KV monosyllabic speech data.

Letztendlich kann das vorstehend beschriebene Spracherken­ nungssystem in einem solchen Erkennungsversuch ein zufrie­ denstellendes Ergebnis sowohl bei der Erkennung koreani­ scher Einzelsilben als auch bei der darüber hinausgehenden Spracherkennung von aus Einzelsilben bestehender, d. h. mehrsilbiger Sprache erzielen. Weiterhin kann ein neues Spracherkennungssystem verwirklicht werden.Ultimately, the speech described above can recognize system in such a recognition attempt the result of both recognition koreani single syllables as well as those beyond Speech recognition from single syllables, d. H. achieve multi-syllable language. Furthermore, a new one Speech recognition system can be realized.

Das vorstehend beschriebene Spracherkennungssystem weist somit eine Sprach-Aufnahmeeinrichtung zur Aufnahme eines Sprachsignals, einen Sprach-Analysator zum Einteilen des Sprachsignals aus der Sprach-Aufnahmeeinrichtung in vorbe­ stimmte Frequenzbänder, wobei das eingeteilte Signal in den einzelnen Frequenzbändern jeweils als Energieniveau darge­ stellt wird, und einen Hostcomputer zum Übernehmen des Si­ gnals aus dem Sprach-Analysator, Binärwandeln des Eingangs­ signals durch Vergleichen des Energieniveaus jedes Fre­ quenzbands in Bezug auf das Signal, und Ausgeben eines den binarisierten Daten entsprechenden Sprachsignals aufweist, wodurch die Realisierung eines neuen Spracherkennungssy­ stems möglich wird.The speech recognition system described above has thus a voice recording device for recording a Speech signal, a speech analyzer for dividing the Speech signal from the speech recording device in vorbe tuned frequency bands, the divided signal in the individual frequency bands as energy levels and a host computer to take over the Si gnals from the speech analyzer, binary conversion of the input signals by comparing the energy level of each Fre quenzbands in relation to the signal, and outputting one has binarized data corresponding voice signal, whereby the realization of a new speech recognition system stems possible.

Claims (3)

1. Spracherkennungssystem, gekennzeichnet durch
  • - eine Sprach-Aufnahmeeinrichtung (10) zum Aufnehmen eines Sprachsignals,
  • - eine Sprach-Analyseeinrichtung (30) zum Einteilen des Sprachsignals aus der Sprach-Aufnahmeeinrichtung (10) in vorbestimmte Frequenzbänder, wobei das eingeteilte Sprachsignal in jedem Frequenzband als Energieniveau darge­ stellt wird, und
  • - einen Verarbeitungsrechner (60) zum Übernehmen des Signals aus der Sprach-Analyseeinrichtung (30), Binärwan­ deln des Sprachsignals durch Vergleichen des Energieniveaus eines jeden Frequenzbands in Bezug auf das Energieniveau eines benachbarten Frequenzbands, und Ausgeben eines den binärgewandelten Daten entsprechenden Sprachsignals.
1. Speech recognition system, characterized by
  • - a voice recording device ( 10 ) for recording a voice signal,
  • - A speech analysis device ( 30 ) for dividing the speech signal from the speech recording device ( 10 ) into predetermined frequency bands, wherein the divided speech signal is represented in each frequency band as energy level, and
  • - A processing computer ( 60 ) for taking the signal from the speech analyzer ( 30 ), binary changes of the speech signal by comparing the energy level of each frequency band with respect to the energy level of an adjacent frequency band, and outputting a speech signal corresponding to the binary converted data.
2. Spracherkennungssystem nach Anspruch 1, gekennzeichnet durch eine Anpassungseinrichtung (40) zur gegenseitigen An­ passung der Sprach-Analyseeinrichtung (30) und des Verar­ beitungsrechners (60). 2. Speech recognition system according to claim 1, characterized by an adaptation device ( 40 ) for mutual adaptation of the speech analysis device ( 30 ) and the processing computer ( 60 ). 3. Spracherkennungsverfahren zur Verwendung in einem Spra­ cherkennungssystem mit einer Sprach-Aufnahmeeinrichtung (10) zum Aufnehmen eines Sprachsignals, einer Sprach-Analy­ seeinrichtung (30) zum Einteilen des Sprachsignals aus der Sprach-Aufnahmeeinrichtung (10) in vorbestimmte Frequenz­ bänder, wobei das geteilte Sprachsignal in jedem Frequenz­ band als Energieniveau dargestellt wird, und einem Verarbei­ tungsrechner (60) zum Eingeben des Signals aus der Sprach- Analyseeinrichtung (30), Binärwandeln des Sprachsignals durch Vergleichen des Energieniveaus eines jeden Frequenz­ bands in Bezug auf das Energieniveau eines benachbarten Frequenzbands, und Ausgeben eines den binärgewandelten Da­ ten entsprechenden Sprachsignals, gekennzeichnet durch
  • - einen ersten Schritt zur Eingabe von Sprach-Analyse­ daten in den Verarbeitungsrechner (60),
  • - einen zweiten Schritt zum Ermitteln eines Sprachin­ tervalls unter Verwendung von Daten aus dem ersten Schritt,
  • - einen dritten Schritt zur Durchführung eines Zeit­ achsen-Normierung unter Verwendung von Daten aus dem zwei­ ten Schritt,
  • - einen vierten Schritt zum Binärwandeln der zeitach­ sen-normierten Daten, und
  • - einen fünften Schritt zum Speichern des Ergebnisses des vierten Schritts in einen Speicher des Verarbeitungs­ rechners (60).
3. Speech recognition method for use in a speech recognition system with a speech recording device ( 10 ) for recording a speech signal, a speech analysis device ( 30 ) for dividing the speech signal from the speech recording device ( 10 ) into predetermined frequency bands, the divided Speech signal in each frequency band is represented as an energy level, and a processing computer ( 60 ) for inputting the signal from the speech analyzer ( 30 ), binary converting the speech signal by comparing the energy level of each frequency band with respect to the energy level of an adjacent frequency band, and outputting a voice signal corresponding to the binary converted data, characterized by
  • a first step for inputting speech analysis data into the processing computer ( 60 ),
  • a second step for determining a voice interval using data from the first step,
  • a third step for performing a time axis normalization using data from the second step,
  • - A fourth step for binary conversion of the temporally standardized data, and
  • - A fifth step for storing the result of the fourth step in a memory of the processing computer ( 60 ).
DE4317991A 1992-05-30 1993-05-28 Speech recognition system using neural network and fuzzy logic processing - divides speech signal into frequency bands from which energy levels are obtained for use in fuzzy logic processing. Ceased DE4317991A1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019920009478A KR950003390B1 (en) 1992-05-30 1992-05-30 Voice recognizing system and extracting method of voice analyzing data

Publications (1)

Publication Number Publication Date
DE4317991A1 true DE4317991A1 (en) 1993-12-02

Family

ID=19334021

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4317991A Ceased DE4317991A1 (en) 1992-05-30 1993-05-28 Speech recognition system using neural network and fuzzy logic processing - divides speech signal into frequency bands from which energy levels are obtained for use in fuzzy logic processing.

Country Status (3)

Country Link
JP (1) JPH06324697A (en)
KR (1) KR950003390B1 (en)
DE (1) DE4317991A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0680035A1 (en) * 1994-04-25 1995-11-02 Hitachi, Ltd. Erroneous input processing method and apparatus in an information processing system using composite input

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0680035A1 (en) * 1994-04-25 1995-11-02 Hitachi, Ltd. Erroneous input processing method and apparatus in an information processing system using composite input

Also Published As

Publication number Publication date
KR930023908A (en) 1993-12-21
JPH06324697A (en) 1994-11-25
KR950003390B1 (en) 1995-04-12

Similar Documents

Publication Publication Date Title
DE4436692C2 (en) Training system for a speech recognition system
DE69127818T2 (en) CONTINUOUS LANGUAGE PROCESSING SYSTEM
DE2918533C2 (en)
DE3687815T2 (en) METHOD AND DEVICE FOR VOICE ANALYSIS.
DE60124842T2 (en) Noise-robbed pattern recognition
DE60124225T2 (en) Method and device for detecting emotions
DE3884880T2 (en) Cheap speech recognition device and method.
EP0821346A2 (en) Method for speaker verification by a computer by means of at least one speech signal spoken in by a speaker
DE2422028C2 (en) Circuit arrangement for identifying a formant frequency in a spoken word
DE2240557A1 (en) VOICE RECOGNITION DEVICE FOR CONTROLLING MACHINERY
DE2613258A1 (en) AUTOMATIC SPEECH RECOGNITION SYSTEM
DE2753707A1 (en) DEVICE FOR DETECTING THE APPEARANCE OF A COMMAND WORD FROM AN INPUT LANGUAGE
DE60302478T2 (en) Apparatus and method for speech information recognition using analysis of myoelectric signals
DE2020753A1 (en) Device for recognizing given speech sounds
EP0508547A2 (en) Circuit for speech recognition
Kethireddy et al. Exploration of temporal dynamics of frequency domain linear prediction cepstral coefficients for dialect classification
WO2005098827A1 (en) Method for noise reduction in a speech input signal
DE4317991A1 (en) Speech recognition system using neural network and fuzzy logic processing - divides speech signal into frequency bands from which energy levels are obtained for use in fuzzy logic processing.
WO2003034402A1 (en) Method for producing reference segments describing voice modules and method for modelling voice units of a spoken test model
Ryeu et al. Chaotic recurrent neural networks and their application to speech recognition
DE3129353A1 (en) Method for speaker-independent recognition of spoken words in telecommunications systems
Abajaddi et al. Efficiency of the energy contained in modulators in the Arabic vowels recognition
DE4012337A1 (en) METHOD FOR RECOGNIZING LANGUAGE
Mahmut et al. Cross-correlation based automatic segmentation of medial phonemes
Kolokolov Signal preprocessing for speech recognition

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8131 Rejection