DE3708001A1

DE3708001A1 - Method for testing speech recognisers and speaker recognisers

Info

Publication number: DE3708001A1
Application number: DE19873708001
Authority: DE
Inventors: Joachim Dipl Ing Zinke
Original assignee: Telenorma Telefonbau und Normalzeit GmbH; Telefonbau und Normalzeit GmbH
Current assignee: Telenorma GmbH
Priority date: 1987-03-12
Filing date: 1987-03-12
Publication date: 1988-09-22
Also published as: DE3708001C2

Abstract

In the method for testing speech recognisers and speaker recognisers, after the speech samples to be learnt have been input the system is switched over to speech recognition, different types of coding devices being successively switched between the output of a memory which outputs the speech samples to be detected and the input of the speech recogniser or speaker recogniser to be tested. In this process, the detected meaning which in each case appears at the output of the said speech recogniser or speaker recogniser is compared with the true meaning of a speech sample to be detected, the speech sample being supplied from the memory which receives the speech sample to be detected. These comparisons are carried out by means of a control device, a recognition rate being calculated from the comparison results.

Description

Die Erfindung betrifft ein Verfahren zum Testen von Spracherkennern und Sprechererkennern nach dem Oberbegriff des Patentanspruches 1.The invention relates to a method for testing Speech recognizers and speaker recognizers after the Preamble of claim 1.

Aus der DE-OS 31 29 353 ist ein Verfahren zur sprecher-unabhängigen Erkennung von gesprochenen Worten in Fernmeldesystemen bekannt. Wie auf der Seite 1 beschrieben wird, müssen in einer sogenannten Lernphase von mehreren Sprechern die einzelnen Worte und Befehle, die das Spracherkennungssystem später erkennen soll, einmal oder mehrmals in das System eingegeben werden. Jedes Wort wird dann in geeignet ausgewählte Parameter zerlegt und daraus ein sprecher-unabhängiges Referenzmuster gebildet. Die einzelnen Referenzmuster werden in einem Referenzmusterspeicher abgespeichert. In der Erkennungsphase wird ein gesprochenes Wort ebenfalls in Parameter zerlegt und mit allen abgespeicherten Referenzmustern verglichen. Bei positivem Vergleichser gebnis gilt das mit dem betreffenden Referenzmuster verbundene Wort als erkannt.From DE-OS 31 29 353 a method for speaker-independent recognition of spoken words known in telecommunications systems. As on page 1 must be described in a so-called learning phase from several speakers the individual words and commands, which the speech recognition system should recognize later, be entered into the system one or more times. Each word is then appropriately selected in parameters disassembled and a speaker-independent Reference pattern formed. The individual reference samples are stored in a reference pattern memory. In the recognition phase, a spoken word is used also broken down into parameters and with all saved Reference patterns compared. With a positive comparator result applies to the reference sample in question connected word as recognized.

Ein Verfahren zur sprecher-abhängigen Erkennung von einzelnen gesprochenen Worten in Fernmeldesystemen ist aus der DE-OS 31 29 282 bekannt. Hierbei kommt es darauf an, daß eine eindeutige Personenidentifizierung erreicht wird, um zu gewährleisten, daß nur befugte Personen einen bestimmten Raum oder Arbeitsbereich betreten können. Zu diesem Zweck ist ein Eingabegerät vorgesehen, welches eine zur Abtastung eines Magnetstreifens geeignete Abtastvorrichtung enthält. Auf diesem Magnetstreifen, der auf einem Magnetstreifenträger aufgebracht ist, sind von der betreffenden Person gesprochene Worte aufgespeichert, die beim Einschieben des Magnetstreifenträgers von der Spracherkennungsein richtung aufgenommen werden. Daraus werden Referenzmuster gebildet, um es der Spracherkennungseinrichtung, usw. Sprechererkennungseinrichtung zu ermöglichen, die von der betreffenden Person in eine Mikrofon einzusprechenden Worte eindeutig zu erkennen. Bei der sprecher-abhängigen Erkennung sind in den Referenzmustern sprecher-individuelle Charakteristika enthalten, so daß eine Zurückweisung erfolgt, wenn es sich um eine fremde Person handelt, obwohl diese dieselben Worte spricht.A method for speaker-dependent detection of individual spoken words in telecommunications systems known from DE-OS 31 29 282. Here it comes insist on a clear personal identification is achieved to ensure that only authorized persons People in a specific room or work area can enter. For this purpose is an input device provided which one for scanning a magnetic strip contains suitable scanning device. On this Magnetic stripe on a magnetic stripe holder is upset by the person concerned spoken words stored when inserting of the magnetic strip carrier from the speech recognition direction to be included. This becomes a reference pattern formed to it the speech recognition device, etc. To enable speaker recognition device by the speak the person concerned into a microphone Words clearly recognizable. With the speaker-dependent Recognition are speaker-specific in the reference patterns Characteristics included, so that a rejection takes place if it is a foreign person, even though she speaks the same words.

Ein wesentliches Merkmal bei Spracherkennern, bzw. Sprechererkennern ist die Erkennungsrate und die Erkennungssicherheit. Die Schwellen für eine eindeutige Erkennung und/oder eine Zurückweisung müssen dabei so eingestellt werden, daß weder Befehle fälschlich erkannt werden, noch daß bei richtiger Befehlseingabe eine Zurückweisung erfolgt.An essential feature for speech recognizers or Speaker recognizer is the recognition rate and the Detection security. The thresholds for a clear Recognition and / or rejection must be so be set so that neither commands are incorrect can be recognized, even if the command is entered correctly a rejection takes place.

Bei der Benutzung von Spracherkennern, bzw. Sprechererkennern kann nicht immer davon ausgegangen werden, daß die Spracheingabe unmittelbar am Gerät selbst erfolgt. In vielen Fällen kommt es vor, daß Spracherkenner oder Sprechererkenner über eine Fernsprechverbindung angesteuert werden, wobei in modernen Vermittlungssystemen die Sprache digital codiert wird. Hierfür gibt es eine große Menge verschiedener Systeme mit verschieden hohen Bitraten, wodurch ein mehr oder minder großer Einfluß auf die Sprachqualität ausge übt wird. Auch unter solchen Bedingungen sollte eine Spracherkenner oder Sprechererkenner einwandfrei funktionieren. When using speech recognizers or Speaker recognizers cannot always be assumed be that the voice input directly on the device done itself. In many cases it happens that Speech recognizer or speaker recognizer via a Telephone connection can be controlled, wherein in modern switching systems use digital language is encoded. There are a lot of different ones for this Systems with different bit rates, which means one more or less influence on the speech quality is practiced. Even under such conditions Speech recognizer or speaker recognizer flawlessly function.

Die Aufgabe der Erfindung besteht darin, ein Verfahren zum Test von Spracherkennern und Sprechererkennern vorzustellen, wobei der Einfluß verschiedener Codierver fahren auf das Erkennungsverhalten von Spracherkennern und Sprechererkennern geprüft werden kann.The object of the invention is a method to test speech recognizers and speaker recognizers to introduce, the influence of different Codverver drive on the recognition behavior of speech recognizers and speaker recognizers can be checked.

Diese Aufgabe wird mit einer Merkmalskombination gelöst, wie sie im Patentanspruch 1 angegeben ist.This task is solved with a combination of features, as specified in claim 1.

Damit wird in vorteilhafter Weise erreicht, daß die Güte von Spracherkennern und/oder Sprechererkennern einwandfrei bestimmt werden kann, und daß der Einfluß von bestimmten Codierverfahren auf das Ansprechverhalten eines zu testenden Spracherkenners oder Sprechererkenners bestimmbar ist. Es läßt sich also im Voraus bestimmen, ob ein Spracherkenner geeignet oder ungeeignet ist, wenn auf dem Übertragungsweg bestimmte Sprachcodierver fahren angewendet werden.It is advantageously achieved that the Quality of speech recognizers and / or speaker recognizers can be properly determined, and that the influence from certain coding methods to the response behavior of a speech recognizer or speaker recognizer to be tested is determinable. So it can be determined in advance whether a speech recognizer is suitable or unsuitable, if certain speech coding servers on the transmission path driving can be applied.

Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen.Further developments of the invention result from the Subclaims.

Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand einer Zeichnung näher erläutert. In der Zeichnung ist das Blockschaltbild eines Spracherkenners, bzw. Sprechererkenners SPE dargestellt, der im wesentlichen aus einer Sprachanalyseeinrichtung SPA, aus einem Referenzmusterspeicher RM-SP und einem Vergleicher V besteht. Über einen von einer Steuereinrichtung SE gesteuerten Umschalter U wird der Eingang E des Spracherkenners oder Sprechererkenners SPE zunächst mit einem die zu lernenden Sprachproben enthaltenden Speicher LSP-SP verbunden. In diesen Speicher LSP-SP werden beispielsweise über ein Mikrofon M 1 Sprachproben eingegeben, die in nicht dargestellter Weise digitalisiert werden. Diese Sprachproben LSP werden zu Beginn eines Testes von Spracherkennern oder Sprechererkennern SPE von diesem aufgenommen und im Referenzmusterspeicher RM-SP abgelegt.An embodiment of the invention is explained below with reference to a drawing. The drawing shows the block diagram of a speech recognizer or speaker recognizer SPE , which essentially consists of a speech analysis device SPA , a reference pattern memory RM-SP and a comparator V. Via a changeover switch U controlled by a control device SE , the input E of the speech recognizer or speaker recognizer SPE is first connected to a memory LSP-SP containing the speech samples to be learned. Speech samples are entered into this memory LSP-SP , for example via a microphone M 1 , which are digitized in a manner not shown. These speech samples LSP are recorded by speech recognizers or speaker recognizers SPE at the start of a test and stored in the reference pattern memory RM-SP .

Unabhängig davon werden die zu erkennenden Sprachproben ESP in einen dafür bestimmten Speicher ESP-SP abgelegt. Zum Zeichen dafür, daß dies an anderer Stelle oder auch zu einem späteren Zeitpunkt erfolgen kann, ist ein weiteres Mikrofon M 2 angedeutet. Bei Sprechererkennern muß natürlich die zu erkennende Sprachprobe ESP vom gleichen Speicher eingegeben werden, wie die zu lernende Sprachprobe LSP.Regardless of this, the speech samples ESP to be recognized are stored in a memory ESP-SP intended for this. A further microphone M 2 is indicated as a sign that this can take place elsewhere or at a later point in time. For speaker recognizers, the speech sample ESP to be recognized must of course be entered from the same memory as the speech sample LSP to be learned.

Wenn diese Voraussetzungen geschaffen sind, kann der Text beginnen. Mit Hilfe von Bedienungsprozeduren, die von der Steuereinrichtung SE in nicht dargestellter Weise zu Steuerbefehlen umgesetzt werden, wird zunächst die Umschalteinrichtung U mit dem die zu erkennenden Sprachproben ESP abgebenden Speicher ESP-SP verbunden. Die Sprachproben werden dabei nacheinander auf diesem Speicher ESP-SP abgerufen, wobei zu jedem einzelnen Wort eine bestimmte Bedeutung EB vom Spracherkenner, bzw. Sprechererkenner SPE erkannt wird. Diese erkannte Bedeutung EB wird der Steuereinrichtung SE angeboten, die auf direktem Wege von die zu erkennenden Sprachproben ESP abgebenden Speicher ESP-SP zugleich die wahre Bedeutung WB angeschaltet bekommt. Durch einen ständigen Vergleich der Übereinstimmung von erkannter Bedeutung EB mit der wahren Bedeutung WB wird eine Erkennungsrate ER ermittelt. Es kann dabei über einen vorbestimmten Zeitraum oder bei einer vorbestimmten Anzahl von Sprachproben festgestellt werden, wie oft eine richtige Erkennung vorgelegen hat. Es ist zweckmäßig, zunächst die zuvor beschriebene Prozedur so durchzuführen, daß der Ausgang des die zu erkennenden Sprachproben ESP aufnehmenden Speichers ESP-SP auf direktem Weg über die Umschalteinrichtung mit dem Eingang des Spracherkenners, bzw. Sprechererkenners verbunden ist. Dabei befinden sich die Auswahlschaltungen AS 1 und AS 2 in der gezeichneten Schaltstellung.When these conditions are met, the text can begin. With the help of operating procedures, which are implemented by the control device SE in a manner not shown to control commands, the switching device U is first connected to the memory ESP-SP emitting the speech samples ESP to be recognized. The speech samples are called up one after the other on this memory ESP-SP , with a specific meaning EB being recognized by the speech recognizer or speaker recognizer SPE for each individual word. This recognized meaning EB is offered to the control device SE , which at the same time receives the true meaning WB directly from the memory ESP-SP which emits the speech samples ESP to be recognized. A recognition rate ER is determined by a constant comparison of the agreement of the recognized meaning EB with the true meaning WB . It can be determined over a predetermined period of time or with a predetermined number of speech samples how many times there has been a correct recognition. It is expedient to first carry out the procedure described above in such a way that the output of the memory ESP-SP, which stores the speech samples ESP to be recognized, is connected directly to the input of the speech recognizer or speaker recognizer via the switchover device. The selection circuits AS 1 and AS 2 are in the switch position shown.

Zwischen die Auswahlschaltungen AS 1 und AS 2 können verschiedenartige Codiereinrichtungen CE 1 bis CEn geschaltet werden, die über einen zusätzlichen Eingang von der Steuereinrichtung SE beeinflußbar sind. Mit einem Befehl zur Einstellung der Codiereinrichtung CEE kann diejenige Codiereinrichtung CE 1 oder CE 2 usw. bis CEn in ihrem Codierverhalten beeinflußt werden, die sich gerade im Übertragungsweg befindet. Zur Einschaltung der verschiedenen Übertragungswege und damit zur Einbeziehung der verschiedenartigen Codiereinrichtung CE 1 bis CEn gibt die Steuereinrichtung SE Ansteuerbefehle ASS für die Auswahlschaltungen AS 1 und AS 2. Die Codiereinrichtung CE 1 bis CEn lassen sich also von der Steuereinrichtung beispielsweise so beeinflussen, daß ihre Bitrate herabgesetzt wird. Dabei kann unmittelbar beobachtet werden, wie sich eine solche Maßnahme, womit im allgemeinen eine Verminderung der Sprachqualität verbunden ist, auf die Erkennungsrate des Spracherkenners bzw. Sprechererkenners auswirkt. Es ist also auf diese Weise leicht feststellbar, welche Art von Spracherkenner, bzw. Sprechererkenner SPE in der Praxis bei vorgegebenen Bedingungen einsetzbar sind und welche anderen bei gleichen Einsatzbedingungen ungeeignet wären.Various types of coding devices CE 1 to CEn can be connected between the selection circuits AS 1 and AS 2 and can be influenced by the control device SE via an additional input. With a command for setting the coding device CEE , that coding device CE 1 or CE 2 etc. to CEn can be influenced in its coding behavior which is currently in the transmission path. To switch on the different transmission paths and therefore to include the various coding CE 1 to CEn the control device SE command signals ASS available for the selection circuits AS 1 and AS 2nd The coding device CE 1 to CEn can thus be influenced by the control device , for example, in such a way that its bit rate is reduced. It can be observed immediately how such a measure, which is generally associated with a reduction in speech quality, affects the recognition rate of the speech recognizer or speaker recognizer. It is thus easy to determine in this way which type of speech recognizer or speaker recognizer SPE can be used in practice under given conditions and which others would be unsuitable under the same conditions of use.

Claims

1. A method for testing speech recognizers and speaker recognizers, predetermined speech samples recorded on a storage medium being offered to a speech recognizer or speaker recognizer to be tested for learning, that is to say for storing reference patterns, and the speech samples stored independently thereof having the same meaning as test speech samples for recognizing the speech, or the speaker is offered to the speech recognizer to be tested, or speaker recognizer, characterized in that, after the input of the speech samples to be learned (LSP) , a switch is made to recognition, with different types of coding devices (SE 1 to CEn) successively between the output of the to recognizing speech samples (ESP) emitting memory (ESP-SP) and the input (E) of the speech recognizer or speaker recognizer (SPE) to be tested that the respectively appear at the output (A) of this speech recognizer or speaker recognizer (SPE) recognized meaning (EB) with true meaning tion (WB) of the speech sample to be recognized (ESP) is compared by a control device (SE) , and that a recognition rate (ER) is calculated from the comparison results.

2. The method according to claim 1, characterized in that with selectable from the control device (SE) selection circuits ( AS 1 , AS 2 ) optionally one of several coding devices (CE 1 to CEn) in the information path that the speech samples to be recognized to the speech recognizer, or speaker recognizer (SPE) , is switched on.

3. The method according to claim 1, characterized in that the coding devices (CE 1 to CEn) work with different coding methods, but have uniform input and output interfaces.

4. The method according to claim 1, characterized in that via a switch position of the selection circuits (AS 1 , AS 2 ) a direct path between the memory for the speech samples to be recognized (ESP-SP) and the speech recognizer or speaker recognizer to be tested (SPE ) can be produced without the interposition of a coding device (CE) .

5. The method according to claim 1, characterized in that from the control device (SE) one of the coding devices (CE 1 to CEn) is adjustable in its coding behavior and / or in the bit rate, the effect of such a change in the change in the detection rate is noticeable.

6. The method according to claim 1, characterized in that already stored reference patterns are used in speaker-independent speech recognizers (SPE) , and words of corresponding meaning are used for the test.

7. The method according to claim 1, characterized in that unskilled words for testing the rejection behavior of the speech recognizer, or speaker recognizer (SPE) in the to be recognized speech samples (ESP) receiving memory (ESP-SP) are entered.