EP2122611A1 - Digital method for authenticating a person and arrangement for performing the same - Google Patents

Digital method for authenticating a person and arrangement for performing the same

Info

Publication number
EP2122611A1
EP2122611A1 EP08708336A EP08708336A EP2122611A1 EP 2122611 A1 EP2122611 A1 EP 2122611A1 EP 08708336 A EP08708336 A EP 08708336A EP 08708336 A EP08708336 A EP 08708336A EP 2122611 A1 EP2122611 A1 EP 2122611A1
Authority
EP
European Patent Office
Prior art keywords
voice
sample
speech
predetermined
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP08708336A
Other languages
German (de)
French (fr)
Inventor
Christian Pilz
Bianca Aschenberner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VOICETRUST ESERVICES CANADA Inc
Original Assignee
Voice Trust AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voice Trust AG filed Critical Voice Trust AG
Publication of EP2122611A1 publication Critical patent/EP2122611A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Definitions

  • the invention relates to a method for authentication of a person according to the preamble of claim 1 and to an arrangement for carrying out this method.
  • the invention includes the essential idea to calculate for the or each Transmissionpro ⁇ be by voice recognition followed by analysis phonemic a photo- nematic weighting coefficients. Furthermore, the invention includes the idea that this is used to determine a confidence value of the voice profile and / or to control whether the respective voice sample spoken is supplied to the voice profile calculation unit. In an analogous manner, weighting factors can already be used which can be assigned to individual phonemes of the speech sample. Thus, the determination of a voice profile from a voice sample is preceded by voice recognition and phonematic analysis, in order to optimize the voice profile determination-somewhat simplified for ⁇ .
  • the weighting factors or the phonemic weighting coefficient of a threshold discriminant subjected to a predetermined weight minimum value and the supply to the voice profile calculation unit are controlled in dependence on the discrimination result. Spezielf for this purpose, the weight minimum value from a predetermined confidence minimum value of the voice profile or a predetermined security level of authentication is recalculated.
  • the use of a voice sample for voice analysis (voice profile calculation) is thus made dependent on whether the phonemic structure of the voice sample - alone or in the context of other partial voice samples - at all suitable for realizing a certain confidence value of the voice professional or ultimately a required security level of authentication is.
  • a blocking control signal which blocks the supply of a speech sample to the voice profile calculation unit also serves as a control signal for prescribing or requesting a replacement speech sample.
  • this is such that the blocking control signal controls the output of a request to speak a non-predetermined substitute speech sample in the context of user guidance and for the replacement speech sample received thereon phonemic weighting coefficient is calculated. If the new language sample also proves to be insufficient, this procedure must be repeated if necessary.
  • the Biockier control signal controls the output of a predetermined substitute speech sample with a predetermined phonemic evaluation coefficient as part of a user guidance.
  • the user to be authenticated is therefore given a speech sample to be recorded, the usability of which has been checked in advance under phonematic evaluation criteria and is secured. This avoids the user being expected to make further in-touch attempts, which may prolong the procedure and provoke his displeasure.
  • the procedure is such that the or each voice sample is predetermined and used as part of a user guide. given and the associated phonemic weighting coefficient is predetermined.
  • the phonemic evaluation has previously taken place and results in a selection of well-usable speech samples, some of which are offered to the user as part of the enrollment or later authentication for speech.
  • the verification process comprises the speech of several speech samples and from whose associated phonemic evaluation coefficients a resulting confidence value or safety level is calculated. This can initially serve to have the determined confidence value or security level simply available as an accompanying statement for an executed enrollment or an authentication and, if appropriate, to be supplied after a later evaluation (for statistical purposes, for example).
  • the termination of the verification process or the request for another voice sample is then controlled.
  • the mentioned threshold value can be adjustable via the system control.
  • a confidence minimum value or safety level minimum value is input and, in response thereto, a subset for output as part of a user guidance from a total of predetermined speech samples each having a predetermined phonemic weighting coefficient is selected.
  • the proposed method is carried out such that each phoneme of the or each speech sample is assigned a weighting factor derived from the respective equal error rate.
  • the phonemic weighting coefficient of the speech sample is calculated from the weighting factors according to a predetermined evaluation algorithm. For this very simple or slightly more complex algorithms come into consideration, with simple examples are explained below.
  • the automatic execution issuing a predetermined user guidance, in quasi-real time.
  • part of the method namely the phonemic evaluation of speech samples and the assignment of a corresponding weighting coefficient, can take place prior to an actual enrollment or authentication process for which the examined speech samples and associated weighting coefficients are then provided.
  • it is also possible to evaluate speech samples which have been recorded in real time but in accordance with the invention, for example in the sense of selecting relevant speech samples from a larger speech sample supply that has been recorded and stored,
  • a first essential device element of the invention is a speech recognition unit for phonemic analysis of speech samples that are typically (but not necessarily) included as part of an enroute or verification procedure.
  • a further essential device element of the invention is a weighting coefficient calculation unit which uses the phonemes of the speech sample and for these known weighting factors a phonematic (total) weighting coefficient of the speech sample. averages.
  • a speech sample feed control is provided for controlling the feeding of the phonematically evaluated speech sample to the voice profile calculation unit and / or a confidence value calculation unit for calculating the confidence value of the voice profile obtained therefrom.
  • the system in a preferred embodiment of the invention additionally comprises a user guidance unit for providing a user guidance, in particular for requesting speech samples and / or for outputting predetermined speech samples for being spoken by the person to be identified.
  • the user guidance unit is connected via a control input at least indirectly to an output of the weighting coefficient calculation unit and / or an output of the confidence value calculation unit, such that outputs in the context of user guidance are dependent on results of the weighting coefficients. or confidence value calculation are controllable.
  • the system comprises a weighting factor storage unit connected to the weighting factor input of the weighting coefficient calculation unit for storing phoneme weighting factors.
  • the weighting factors are stored in the memory unit in the manner of a lookup table, in each case in association with the phonemes occurring as part of a speech analysis.
  • the weighting factors may also be accessed in an external database.
  • connection between the output of the weighting coefficient calculation unit and a control input of the voice sample calculation control unit may be configured such that a threshold discriminator unit for thresholding the calculated weighting coefficients with a predetermined weight minimum value is looped into this connection.
  • a control input can also be connected to the user guidance unit with the output of this threshold discriminator unit the comparison or discrimination result for an adapted user guidance (requirement or specification of further speech samples) to make usable.
  • a second threshold value discrimination unit may be provided at the output of the confidence value calculation unit for comparing a confidence value calculated from the speech samples with a predetermined minimum value or a calculated safety level value with a predetermined minimum value.
  • the second threshold discriminator unit can also be connected to the user guidance unit via a control input in order to adapt an adaptation of the user guidance to the results of the phonemic evaluation of the speech samples.
  • a speech sample memory is provided for the orderly storage of a set of predefined speech samples, each with an associated predetermined phonemic weighting coefficient.
  • the user guidance unit and the confidence value calculation unit for retrieving selected speech samples are associated with the respective phonemic weighting coefficient.
  • FIG. 1 is a schematic representation of a first embodiment of the invention in the form of a functional block diagram
  • Fig. 2 is a schematic representation of a second embodiment of the invention in the form of a functional block diagram
  • Fig. 3 is a schematic representation of a third constructedsbe ⁇ spiels of the invention in the form of a functional block diagram.
  • 1 schematically shows a first arrangement 100 for a voice profi-based authentication of a person, in which a section of a system server 101 essential for the implementation of the invention is shown in communication with a mobile telephone 103 of a user.
  • the system server 101 may include / execute other application-specific components and functions in addition to the components and functions described below.
  • the system server 101 is on the output side via a voice sample input interface 105 and in temporary communication with the mobile telephone 103 via a user guidance output interface 107 to guide the user in an enrollment or verification procedure and input to him at least one voice sample into the system.
  • further input / output interfaces such as for data entry into the system by pressing the mobile phone keyboard, may be provided.
  • such are not required in connection with the explanation of the invention and are therefore not shown and described here.
  • the speech sample input interface 105 is internally connected to a speech recognition unit 109 and in parallel with a speech sample feed control 111, respectively at the input thereof.
  • the speech recognition unit 109 is connected on the output side to a weighting factor storage unit 113 on the one hand and to the input of a weighting coefficient calculation unit 115 on the other hand.
  • the weighting factor storage unit 113 is connected to the weighting factor storage unit 113 for receiving therefrom prestored phoneme weighting factors for those phonemes which have resulted as a result of the speech recognition of the received speech sample as its constituent parts ,
  • the weighting coefficient calculation unit is connected to a calculation coefficient threshold value discriminator (first threshold value discriminator) 117 whose threshold value can be set via a threshold setting unit 118.
  • the first threshold value discriminator 117 is on the output side on the one hand to a control input of the voice sample feed controller 111 and, on the other hand, to a user guidance unit 119 for supplying or blocking the received speech sample either to a vocal sample analysis as a result of threshold discrimination in the phonemic weighting coefficients computed in the calculation unit 115, or outputting a corresponding user guidance (Request another voice sample) effect.
  • the user guidance unit 119 outputs one to the interface 107 in response to the received control signal and via this to the mobile telephone 103. The described procedure is then repeated. If, on the other hand, the received and evaluated speech sample is usable for voice analysis (voice profile calculation) from the viewpoint of its phonemic evaluation, it is supplied to a voice profile calculation unit 121 and from this a voice profile of the user of the mobile telephone 103 is determined. The signal connection shown in the figure illustrates that this is stored in a voice profile storage unit 123, as required by an initial enrollment of the user.
  • the dotted signal lines indicate that the voice profile is also supplied to a voice profile comparator unit 125 in the event of a later verification of the user and compared thereto with an initial voice profile stored in the memory unit 123 and an output signal of the comparator unit 125 indicative of the comparison result to subsequent stages of the voice unit System server 101 can be output.
  • FIG. 2 shows a modified arrangement 200 modified from the arrangement 100 according to FIG. 1 for implementing a modified process control.
  • the arrangement in Fig. 1 functionally corresponding components are denoted by reference numerals therefrom and will not be explained again below.
  • a word (a speech sample) is now examined for its (her) sound units, the corresponding weighting can be used for each unit determined and thus a total weighting (a weighting coefficient) for this word can be determined.
  • the sound unit weighting factors in a particularly simple manner for evaluating a word by setting a weighting factor minimum value and classifying only those sound units whose weighting factor is above the minimum value, and finally their number to the total number of Ratio of the word in proportion.
  • the result of the above-mentioned method is also a weighting coefficient of 0.5 for the latter, while with the last-mentioned method c (0.4), e (0, 8), a (0.9), b (0.6), d (0.5), a (0.9) as
  • Table 3 shows, for further illustration of possible process designs, a table of passwords with respective phonetic transcription and an associated weighting coefficient K, which was determined according to the method explained above on the assumption that the phonemes a, e, i, o, y, 6, m, j and s suitable, the other phonemes, however, all (according to a predetermined Schwel Ihongs), however, are unsuitable.
  • Table 4 shows a compilation of externally determined equalizer rates of the individual passwords together with the associated value of the weighting coefficient.
  • a significant change from the arrangement 100 of FIG. 1 in the arrangement 200 of FIG. 2 is that no voice sample feed control is provided, but each received speech sample in addition to the voice recognition unit 209 also enters the voice profile calculation unit 221 and - regardless of the phonemic evaluation - for calculating a voice profile is being used.
  • the output signal of the first threshold value discriminator unit 217 reaches a second threshold discriminator (safety discriminator unit) 227, which is connected via another input to a confidence level or setting unit 229, via which a predetermined minimum confidence value of the is adjustable to be determined voice profile or a predetermined level of security of a verification process to be performed.
  • a signal is available, which indicates whether the voice analysis of a received voice sample - taken by itself - is suitable for fulfilling predetermined confidence or security requirements or not.
  • this signal can be used in subsequent stages of the system server 201 and, on the other hand, it is fed to the user guidance unit 219 in order, where appropriate, to control the request for a further speech sample.
  • one or more other speech samples supplied by the user are not intended to replace the first (and possibly subsequent) speech sample (s) in the voice analysis, but to be additionally included in the voice analysis.
  • FIG. 2 With regard to the interlinked evaluation of several speech samples, the illustration in FIG. 2 is not sufficiently detailed, but on the basis of the above description the person skilled in the art can guarantee such combination processing of several speech samples, each of which alone does not ensure sufficient conformity or safety. realize without further ado.
  • the second threshold value discriminator 227 has been substituted for the first threshold discriminating unit 117 of the first embodiment, and the associated setting unit 229 accordingly replaces the setting unit 218 of the first embodiment.
  • the weighting coefficient of the respective speech sample calculated in the weighting coefficient calculation unit 215 is supplied to a confidence value calculation unit 216 which determines therefrom the expected confidence value of a voice profile calculated from this speech sample.
  • the way of processing multiple speech samples to derive a voice profile with sufficient confidence can be done according to different algorithms.
  • the easiest way is to supply the voice samples to the voice profile calculation unit without any weighting.
  • the voice profile calculation unit receive as additional control signal the calculated weighting coefficient of the respective speech sample, and the calculation result is weighted for the respective speech sample with the associated weighting coefficient.
  • the speech samples to be provided for such a method are selected according to phonemic evaluation criteria. The method thus includes an upstream phase of the phoneme analysis and phonemic evaluation of a larger speech sample reservoir and the definition of preferred speech samples, namely those with a high phonemic weighting coefficient, for the later actual end-rollment or authentication procedure.
  • a corresponding arrangement 300 is shown sketch-like in FIG. Again, components that are functionally comparable to components of the first and second embodiments are designated with reference to Figures 1 and 2 reference numerals and will not be explained in more detail below.
  • the arrangement 300 is shown in its voice analysis part with the signal connections as given in the verification phase.
  • the arrangement 300 has two voice sample input interfaces 305A, 305B, the former of which is in the preparatory stage with a microphone 302 and the latter in the actual authentication (or enrollment) phase with a microphone
  • Mobile phone 303 is connected to a person to be authenticated (or registered).
  • speech samples which are recorded on the microphone 302 and which are not to be subjected to voice analysis but merely to voice recognition and phonemic evaluation are taken to a first server section 301A in which speech recognition and determination of phonematic evaluation coefficients are carried out as in the first embodiment.
  • a weighting coefficient threshold discriminator 317 outputs a forwarding control signal to a voice sample buffer 320 into which each speech sample received via the microphone 302 first passes and where it is latched.
  • this control signal causes the cached speech sample to enter a speech sample memory 322, from which it is fed to the user guide 319 in a later registration or authentication in order to be credited to the person to be registered or authenticated (ie nachzu Quiltieri) speech sample is given.
  • the authentication can be done with a single taken from the memory 322 in the user guidance speech sample or with multiple voice samples, which will be significantly dependent on the given level of security.
  • the numerical results of the phonemic evaluation may be used to assign a weight corresponding to the phonemic weighting coefficient to each voice sample when using multiple voice samples to derive the voice profile. This is again symbolized by a dotted line in the figure.

Abstract

The invention relates to a digital method for authenticating a person by comparing a current voice profile to a previously stored initial voice profile, wherein the person speaks at least one speech sample in order to determine the respective voice profile, the spoken speech sample is fed to a voice profile computing unit, and based on a predefined voice profile algorithm the voice profile is computed. For the, or every, speech sample, a phoneme structure and a sequence of weighting factors associated with the phonemes, and/or a phonematic evaluation coefficient are determined by means of voice recognition with subsequent phonematic analysis, and the weighting factors and/or the evaluation coefficient are used to determine a confidence value of the voice profile and/or to control to whether the respectively spoken speech sample or parts thereof are fed to the voice profile computing unit.

Description

Beschreibung description
Die Erfindung betrifft ein Verfahren zur Authentifizierung einer Person nach dem Oberbegriff des Anspruchs 1 sowie eine Anordnung zur Durchführung dieses Verfahrens.The invention relates to a method for authentication of a person according to the preamble of claim 1 and to an arrangement for carrying out this method.
Althergebrachte Verfahren zur Authentifizierung einer Person basieren auf der Überprüfung, ob die zu überprüfende Person im Besitz bestimmter Gegenstände (traditionell etwa Siegel oder Pass, neuerdings auch Zugangskarte oder Token) oder von individualisiertem Wissen (etwa PIN oder Passwort) ist. Authentifizierungs- Verfahren auf biometrischer Basis bedienen sich hingegen bestimmter körperlicher Merkmale der Person, etwa ihres Fingerabdrucks oder Retinamusters oder eines Stimmprofils. Zu den letzteren Verfahren gibt es seit einigen Jahren umfangreiche Entwicklungsarbeiten, die auch bereits zu marktgängigen Produkten geführt haben. Im Rahmen dieser Entwicklungen nimmt die Frage der Brauchbarkeit von „Spuren" der Person für die Authentifizierung oder auch eine anfängliche Registrierung (En- rollment) breiten Raum ein, sowohl unter dem Gesichtspunkt der Erkennungs- bzw. Authentifizierungs-Sicherheit als auch unter dem Gesichtspunkt der Nutzerakzeptanz, nämlich des Vermeidens langer und umständlicher Prozeduren.Traditional methods for authenticating a person are based on checking whether the person to be checked possesses certain items (traditionally a seal or passport, more recently also an access card or token) or individualized knowledge (such as PIN or password). On the other hand, authentication methods based on biometrics make use of certain physical characteristics of the person, such as their fingerprint or retinal pattern or a voice profile. For the last few years, extensive development work has been carried out on these latter processes, which have already led to marketable products. In the context of these developments, the question of the usability of "traces" of the person for authentication or also an initial registration (enrollment) occupies a wide space, both from the viewpoint of recognition security and from the point of view of security User acceptance, namely the avoidance of long and cumbersome procedures.
Bei Verfahren der gattungsgemäßen Art geht es hierbei um die Brauchbarkeit gelieferter Sprachproben für die Registrierung (Enrollment) bzw. Authentifizierung des Nutzers und um sich hieraus ergebende Steuerungs-Einflüsse auf die Verfahrensführung. Bei der praktischen Erprobung bereits implementierter Systeme hat sich nämlich gezeigt, dass sich mit bestimmten Sprachproben entweder nur eine unterhalb der (hohen) Anforderungen liegende Sicherheit ergibt, wenn man den Ablauf nutzerfreundlich kurz halten will, oder dass sich zur Erreichung eines bestimmten Sicherheitsniveaus fallweise unbequem lange Enrollment- bzw. Verifizierungs-Prozeduren ergeben. Die konkreten Ergebnisse hängen offensichtlich vom verwendeten Sprachmaterial ab. Es ist daher Aufgabe der Erfindung, ein verbessertes Verfahren und eine entspre¬ chende Anordnung bereitzustellen, mit denen sich eine hohe Nutzerfreundiichkeit und -akzeptanz vorteilhaft mit der Erfüllung hoher Sicherheitsanforderungen verknüpfen lässt.In the case of methods of the generic type, this involves the usability of delivered speech samples for the enrollment or authentication of the user and the resulting control influences on the process control. In the practical testing of already implemented systems, it has been shown that with certain speech samples, there is either only a security that is below the (high) requirements, if the process is to be kept user-friendly short, or, in some cases, inconveniently long to achieve a certain security level Enrollment or verification procedures. The concrete results obviously depend on the language material used. It is therefore an object of the invention to provide an improved method and entspre ¬ sponding arrangement with which a high Nutzerfreundiichkeit and acceptance advantageously be associated with the fulfillment of high safety requirements can.
Diese Aufgabe wird in ihrem Verfahrenssuspekt durch ein Verfahren mit den Merkmalen des Anspruchs 1 und in ihrem Vorrichtungsaspekt durch eine Anordnung mit den Merkmalen des Anspruchs 13 gelöst. Zweckmäßige Fortbildung des Erfindungsgedankens sind Gegenstand der jeweiligen abhängigen Ansprüche.This object is achieved in its procedural aspect by a method having the features of claim 1 and in its device aspect by an arrangement having the features of claim 13. Expedient development of the inventive concept are the subject of the respective dependent claims.
Die Erfindung schließt den wesentlichen Gedanken ein, für die oder jede Sprachpro¬ be durch Spracherkennung mit anschließender phonematischer Analyse einen pho- nematischen Bewertungskoeffizienten zu errechnen. Weiter schließt die Erfindung den Gedanken ein, dass dieser zur Bestimmung eines Konfidenzwertes des Stimmprofils und/oder zur Steuerung dessen genutzt wird, ob die jeweilige eingesprochene Sprachprobe der Stimmprofil-Berechnungseinheit zugeführt wird. In analoger Weise können auch bereits Gewichtungsfaktoren genutzt werden, die einzelnen Phonemen der Sprachprobe zuordenbar sind. Es wird also - etwas vereinfacht for¬ muliert - der Bestimmung eines Stimmprofils aus einer Sprachprobe eine Spracherkennung und phonematische Analyse vorgeschaltet, um die Stimmprofil-Bestimmung zu optimieren.The invention includes the essential idea to calculate for the or each Sprachpro ¬ be by voice recognition followed by analysis phonemic a photo- nematic weighting coefficients. Furthermore, the invention includes the idea that this is used to determine a confidence value of the voice profile and / or to control whether the respective voice sample spoken is supplied to the voice profile calculation unit. In an analogous manner, weighting factors can already be used which can be assigned to individual phonemes of the speech sample. Thus, the determination of a voice profile from a voice sample is preceded by voice recognition and phonematic analysis, in order to optimize the voice profile determination-somewhat simplified for ¬ .
Dies kann, gemäß verschiedenen Varianten der Realisierung der Erfindung, vor dem und zeitlich losgelöst von dem eigentlichen Einsprechen der auszuwertenden Sprachproben oder aber in (Quasi-)Echtzeit während des Einsprechens, also im Verlaufe eines Enrollment oder einer Authentifizierung, geschehen. In beiden Fällen lässt sich eine Verbesserung des Aufwand/Nutzen-Verhältnisses erzielen, und die erstgenannte Variante ist besonders zur Realisierung einer wenig zeitaufwendigen und damit auf hohe Nutzerakzeptanz zielenden Verfahrensführung geeignet.This can, according to different variants of the realization of the invention, before and temporally detached from the actual speech of the speech samples to be evaluated or in (quasi) real-time during the Einsprechens, ie in the course of Enrollment or authentication done. In both cases, an improvement of the cost / benefit ratio can be achieved, and the former variant is particularly suitable for the realization of a little time-consuming and thus aimed at high user acceptance process management.
Bei der zweiten Variante ist insbesondere vorgesehen, dass die Gewichtungsfaktoren bzw. der phonematische Bewertungskoeffizient einer Schwellwert-Diskriminie- rung mit einem vorbestimmten Gewichts-Minimalwert unterzogen und die Zuführung zur Stimmprofil-Berechnungseinheit in Abhängigkeit vom Diskriminierungsergebnis gesteuert werden. Spezielf wird hierfür der Gewichts-Minimalwert aus einem vorbestimmten Konfidenz-Minimalwert des Stimmprofils bzw. einem vorbestimmten Sicherheitspegel der Authentifizierung rückgerechnet. Die Benutzung einer eingesprochenen Sprachprobe zur Stimmanalyse (Stimmprofil-Berechnung) wird also davon abhängig gemacht, ob die phonematische Struktur der Sprachprobe - allein oder im Kontext weiterer Teil-Sprachproben - überhaupt zur Realisierung eines bestimmten Konfidenzwertes des Stimmprofiis oder letztlich eines geforderten Sicherheitspegels der Authentifizierung geeignet ist.In the second variant, it is provided in particular that the weighting factors or the phonemic weighting coefficient of a threshold discriminant subjected to a predetermined weight minimum value and the supply to the voice profile calculation unit are controlled in dependence on the discrimination result. Spezielf for this purpose, the weight minimum value from a predetermined confidence minimum value of the voice profile or a predetermined security level of authentication is recalculated. The use of a voice sample for voice analysis (voice profile calculation) is thus made dependent on whether the phonemic structure of the voice sample - alone or in the context of other partial voice samples - at all suitable for realizing a certain confidence value of the voice professional or ultimately a required security level of authentication is.
Ist dies nicht der Fall, so dient ein Blockier-Steuersignal, welches die Zuführung einer Sprachprobe zur Stimmprofil-Berechnungseinheit blockiert, zugleich als Steuersignal zur Vorgabe oder Anforderung einer Ersatz-Sprachprobe. Im Kontext eines konkreten EnroSIment- oder Authentifizierungs-Ablaufes mit geeigneter Benutzerführung sieht das so aus, dass das Blockier-Steuersignal die Ausgabe einer Aufforderung zum Einsprechen einer nicht vorab festgelegten Ersatz-Sprachprobe im Rahmen einer Benutzerführung steuert und für die hierauf empfangene Ersatz-Sprachprobe der phonematische Bewertungskoeffizient berechnet wird. Erweist sich auch die neue Sprachprobe als nicht hinreichend geeignet, muss dieser Abiauf gegebenenfalls wiederholt werden.If this is not the case, then a blocking control signal which blocks the supply of a speech sample to the voice profile calculation unit also serves as a control signal for prescribing or requesting a replacement speech sample. In the context of a concrete EnroSIment- or authentication process with appropriate user guidance, this is such that the blocking control signal controls the output of a request to speak a non-predetermined substitute speech sample in the context of user guidance and for the replacement speech sample received thereon phonemic weighting coefficient is calculated. If the new language sample also proves to be insufficient, this procedure must be repeated if necessary.
In einer alternativen Ausführung ist vorgesehen, dass das Biockier-Steuersignal die Ausgabe einer vorab festgelegten Ersatz-Sprachprobe mit vorbestimmtem phonema- tischem Bewertungskoeffizienten im Rahmen einer Benutzerführung steuert. Dem zu authentifizierenden Nutzer wird also eine einzusprechende Sprachprobe vorgegeben, deren Brauchbarkeit unter phonematischen Bewertungs-Gesichtspunkten vorab geprüft wurde und gesichert ist. Hiermit wird vermieden, dass dem Nutzer weitere Einsprech-Versuche zugemutet werden, die zu einer Verlängerung der Prozedur führen und seinen Unmut erregen können.In an alternative embodiment, it is provided that the Biockier control signal controls the output of a predetermined substitute speech sample with a predetermined phonemic evaluation coefficient as part of a user guidance. The user to be authenticated is therefore given a speech sample to be recorded, the usability of which has been checked in advance under phonematic evaluation criteria and is secured. This avoids the user being expected to make further in-touch attempts, which may prolong the procedure and provoke his displeasure.
In einer konsequenten Fortführung dieses Approacheε wird so vorgegangen, dass die oder jede Sprachprobe vorgegeben und im Rahmen einer Benutzerführung aus- gegeben und der zugehörige phonematische Bewertungskoeffizient vorbestimmt wird. Die phonematische Bewertung hat also vorher stattgefunden und eine Auswahl an gut brauchbaren Sprachproben ergeben, von denen einige dem Nutzer im Rahmen des Enrollment oder auch der späteren Authentifizierung zum Einsprechen angeboten werden.In a consistent continuation of this approach, the procedure is such that the or each voice sample is predetermined and used as part of a user guide. given and the associated phonemic weighting coefficient is predetermined. Thus, the phonemic evaluation has previously taken place and results in a selection of well-usable speech samples, some of which are offered to the user as part of the enrollment or later authentication for speech.
Eine weitere, mit den vorgehend angesprochenen Ausführungen kombinierbare Ausgestaltung sieht vor, dass der Verϊfizierungsvorgang das Einsprechen mehrerer Sprachproben umfasst und aus deren zugehörigen phonematischen Bewertungskoeffizienten ein resultierender Konfidenzwert oder Sicherheitspegel berechnet wird. Dies kann zunächst dazu dienen, den ermittelten Konfidenzwert oder Sicherheitspegel einfach als begleitende Aussage für ein ausgeführtes Enrollment oder eine Authentifizierung verfügbar zu haben und ggf. nach einer späteren Auswertung (etwa zu statistischen Zwecken) zuzuführen.Another embodiment which can be combined with the above-mentioned embodiments provides that the verification process comprises the speech of several speech samples and from whose associated phonemic evaluation coefficients a resulting confidence value or safety level is calculated. This can initially serve to have the determined confidence value or security level simply available as an accompanying statement for an executed enrollment or an authentication and, if appropriate, to be supplied after a later evaluation (for statistical purposes, for example).
Speziell kann aber auch vorgesehen sein, dass nach jedem Einsprechen einer Sprachprobe oder nach dem Einsprechen einer vorbestimmten Anzahl von Sprachproben der resultierende Konfidenzwert einer Schwellwert-Diskriminierung mit einem vorbestimmten Konfidenz-Minimalwert oder der resultierende Sicherheitspegel- Wert einer Schwellwert-Diskriminierung mit einem vorbestimmten Sicherheitspegel- Minimalwert unterzogen wird. Im Ansprechen auf das Diskriminierungsergebnis wird sodann die Beendigung des Verifizierungsvorganges oder die Anforderung einer weiteren Sprachprobe gesteuert. Der erwähnte Schwellwert kann über die Systemsteuerung einstellbar sein .Specifically, however, it can also be provided that, after each speech sample is spoken or after a predetermined number of speech samples have been received, the resulting confidence value of a threshold discrimination with a predetermined confidence minimum value or the resulting safety level value of a threshold discrimination with a predetermined safety level. Minimum value is subjected. In response to the discrimination result, the termination of the verification process or the request for another voice sample is then controlled. The mentioned threshold value can be adjustable via the system control.
In Verbindung mit der weiter oben erwähnten Verfahrensführung mit dem Nutzer vorgegebenen Sprachproben kann speziell vorgesehen sein, dass ein Konfidenz- Minimalwert oder Sicherheitspegel-Minimalwert eingegeben und im Ansprechen hierauf aus einer Gesamtmenge vorgegebener Sprachproben mit jeweils vorbestimmtem phonematischem Bewertungskoeffizienten eine Teilmenge zur Ausgabe im Rahmen einer Benutzerfϋhrung ausgewählt wird. Hiermit wird eine präzise an gegebene Sicherheits-Anforderungen angepasste Verfahrensführung ohne Vermeidung jeglicher unbrauchbarer Sprachproben-Eingaben, mithin also eine vorteilhafte Verknüpfung von definiertem Sicherheitsstandard mit hoher Nutzerakzeptanz, erreicht.In connection with the speech samples specified above with the user, it may be specifically provided that a confidence minimum value or safety level minimum value is input and, in response thereto, a subset for output as part of a user guidance from a total of predetermined speech samples each having a predetermined phonemic weighting coefficient is selected. This is a precisely adapted to given security requirements process management without avoidance Any unusable voice sample inputs, thus an advantageous linkage of defined security standard with high user acceptance achieved.
Zweckmäßigerweise wird das vorgeschlagene Verfahren so ausgeführt, dass jedem Phonem der oder jeder Sprachprobe ein Gewichtungsfaktor zugeordnet wird, der aus der jeweiligen Gleichfehlerrate abgeleitet ist. Der phonematische Bewertungskoeffizient der Sprachprobe wird nach einem vorbestimmten Bewertungs-Algorithmus aus den Gewichtungsfaktoren errechnet. Hierfür kommen sehr einfache oder etwas komplexere Algorithmen in Betracht, wobei einfache Beispiele weiter unten erläutert werden.Conveniently, the proposed method is carried out such that each phoneme of the or each speech sample is assigned a weighting factor derived from the respective equal error rate. The phonemic weighting coefficient of the speech sample is calculated from the weighting factors according to a predetermined evaluation algorithm. For this very simple or slightly more complex algorithms come into consideration, with simple examples are explained below.
Bevorzugt ist beim vorgeschlagenen Verfahren die automatische Ausführung, unter Ausgabe einer vorgegebenen Benutzerführung, in Quasi-Echtzeit. Wie weiter oben bereits angemerkt, kann aber ein Teil des Verfahrens, nämlich die phonematische Bewertung von Sprachproben und die Zuweisung eines entsprechenden Bewertungskoeffizienten, im Vorfeld eines tatsächlichen Enrollment- oder Authentifizierungs- vorganges erfolgen, für das die untersuchten Sprachproben und zugeordneten Bewertungskoeffizienten dann bereitgestellt werden. Im übrigen ist es auch möglich, eingesprochene Sprachproben nicht in Echtzeit, sondern im Nachhinein erfindungs- gemäß auszuwerten, etwa im Sinne einer Auswahl relevanter Sprachproben aus einem größeren eingesprochenen und abgespeicherten Sprachproben-Vorrat,Preferably, in the proposed method, the automatic execution, issuing a predetermined user guidance, in quasi-real time. As already noted above, however, part of the method, namely the phonemic evaluation of speech samples and the assignment of a corresponding weighting coefficient, can take place prior to an actual enrollment or authentication process for which the examined speech samples and associated weighting coefficients are then provided. Incidentally, it is also possible to evaluate speech samples which have been recorded in real time, but in accordance with the invention, for example in the sense of selecting relevant speech samples from a larger speech sample supply that has been recorded and stored,
Wesentliche Vorrichtungsaspekte der Erfindung ergeben sich für den Fachmann ohne weiteres aus den oben erläuterten Verfahrensaspekten, so dass deren wiederholte Erläuterung hier nicht angezeigt ist. Hingewiesen wird jedoch auf folgendes:Essential device aspects of the invention will be readily apparent to those skilled in the art from the above-discussed aspects of the method, so that their repeated explanation is not indicated herein. However, attention is drawn to the following:
Ein erstes wesentliches Vorrichtungselement der Erfindung ist eine Spracherken- nungseinheit zur phonematischen Analyse von Sprachproben, die typischerweise (aber nicht unbedingt) im Rahmen eines Enroilment oder einer Verifizierungsprozedur eingesprochen werden . Ein weiteres wesentlichen Vorrichtungselement der Erfindung ist eine Bewertungskoeffizienten-Berechnungseinheit, die aus den Phonemen der Sprachprobe und für diese bekannten Bewertungs- bzw. Gewichtungsfaktoren einen phonematischen (Gesamt-) Bewertungskoeffizienten der Sprachprobe er- mittelt. Kostenseitig von dieser ist schließlich eine Sprachproben-Zuführsteuerung zur Steuerung der Zuführung der phonematisch ausgewerteten Sprachprobe zur Stimmprofil-Berechnungseinheit und/oder eine Konfidenzwert-Berechnungseinheit zur Berechnung des Konfidenzwertes des hieraus gewonnenen Stimmprofils vorgesehen.A first essential device element of the invention is a speech recognition unit for phonemic analysis of speech samples that are typically (but not necessarily) included as part of an enroute or verification procedure. A further essential device element of the invention is a weighting coefficient calculation unit which uses the phonemes of the speech sample and for these known weighting factors a phonematic (total) weighting coefficient of the speech sample. averages. On the expense side of this, finally, a speech sample feed control is provided for controlling the feeding of the phonematically evaluated speech sample to the voice profile calculation unit and / or a confidence value calculation unit for calculating the confidence value of the voice profile obtained therefrom.
Nach Obigem umfasst das System (ein System-Server) in bevorzugter Ausführung der Erfindung zudem eine Benutzerführungseinheit zur Bereitstellung einer Benutzerführung, insbesondere zur Anforderung eingesprochener Sprachproben und/oder zur Ausgabe vorbestimmter Sprachproben zum Einsprechen durch die zu identifizierende Person . In weiterer Ausgestaltung dieser Ausführung ist vorgesehen, dass die Benutzerführungseinheit über einen Steuereingang mindestens mittelbar mit einem Ausgang der Bewertungskoeffizienten-Berechnungseinheit und/oder einem Ausgang der Konfidenzwert-Berechnungseinheit verbunden ist, derart, dass Ausgaben im Rahmen der Benutzerführung in Abhängigkeit von Ergebnissen der Bewertungskoeffizienten- oder Konfidenzwert-Berechnung steuerbar sind.According to the above, the system (a system server) in a preferred embodiment of the invention additionally comprises a user guidance unit for providing a user guidance, in particular for requesting speech samples and / or for outputting predetermined speech samples for being spoken by the person to be identified. In a further embodiment of this embodiment, it is provided that the user guidance unit is connected via a control input at least indirectly to an output of the weighting coefficient calculation unit and / or an output of the confidence value calculation unit, such that outputs in the context of user guidance are dependent on results of the weighting coefficients. or confidence value calculation are controllable.
Zur effizienten Ausführung der erforderlichen Berechnungen umfasst das System in einer weiteren Ausführung eine mit dem Gewichtungsfaktor-Eingang der Bewertungskoeffizienten-Berechnungseinheit verbundene Gewichtungsfaktor-Speichereinheit zur Speicherung von Phonem-Gewichtungsfaktoren. Die Gewichtungsfaktoren sind in der Speichereiπheit in Art eines Lookup-Table jeweils in Zuordnung zu den im Rahmen einer Sprachanalyse vorkommenden Phonemen abgelegt. Alternativ zum Vorsehen eigenen Speichereinheit kann auf die Gewichtungsfaktoren gegebenenfalls auch in einer externen Datenbasis zugegriffen werden.To efficiently perform the required calculations, in another embodiment the system comprises a weighting factor storage unit connected to the weighting factor input of the weighting coefficient calculation unit for storing phoneme weighting factors. The weighting factors are stored in the memory unit in the manner of a lookup table, in each case in association with the phonemes occurring as part of a speech analysis. As an alternative to providing your own memory unit, the weighting factors may also be accessed in an external database.
Die weiter oben erwähnte Verbindung zwischen dem Ausgang der Bewertungskoeffizienten-Berechnungseinheit und einem Steuereingang der Stimmproben-Berechnungssteuereinheit kann derart ausgestaltet sein, dass in diese Verbindung eine Schwellwert-Diskriminatoreinheit zur Schwellwert-Diskriminierung der errechneten Bewertungskoeffizienten mit einem vorgegebenen Gewichts-Minimalwert eingeschleift ist. Mit dem Ausgang dieser Schwellwert-Diskriminatoreinheit kann im übrigen auch ein Steuereingang mit der Benutzerführungseinheit verbunden sein, um das Vergleichs- bzw. Diskriminierungsergebnis für eine angepasste Benutzerführung (Anforderung bzw. Vorgabe weiterer Sprachproben) nutzbar zu machen.The above-mentioned connection between the output of the weighting coefficient calculation unit and a control input of the voice sample calculation control unit may be configured such that a threshold discriminator unit for thresholding the calculated weighting coefficients with a predetermined weight minimum value is looped into this connection. Incidentally, a control input can also be connected to the user guidance unit with the output of this threshold discriminator unit the comparison or discrimination result for an adapted user guidance (requirement or specification of further speech samples) to make usable.
Eine zweite Schweilwert-Diskriminatoreinheit kann am Ausgang der Konfidenzwert- Berechnungseinheit vorgesehen sein, um einen aus den Sprachproben errechneten Konfidenzwert mit einem vorgegebenen Minimalwert oder einem errechneten Sicherheitspegel-Wert mit einem vorgegebenen Minimalwert zu vergleichen. Auch die zweite Schwellwert-Diskriminatoreinheit kann über einen Steuereingang mit der Benutzerführungseinheit verbunden sein, um eine Adaption der Benutzerführung an die Ergebnisse der phonematischen Auswertung der Sprachproben anzupassen.A second threshold value discrimination unit may be provided at the output of the confidence value calculation unit for comparing a confidence value calculated from the speech samples with a predetermined minimum value or a calculated safety level value with a predetermined minimum value. The second threshold discriminator unit can also be connected to the user guidance unit via a control input in order to adapt an adaptation of the user guidance to the results of the phonemic evaluation of the speech samples.
In vorrichtungsseitiger Realisierung der oben als besonders effizient gekennzeichneten Verfahrensführung (Enrollment oder Authentifizierung) mit vorgegebenen geeigneten Sprachproben ist ein Sprachprobenspeicher zur geordneten Ablage einer Menge vorgegebener Sprachproben mit jeweils zugehörigem vorbestimmtem phonematischen Bewertungskoeffizienten vorgesehen. Hierbei sind die Benutzerführungseinheit und die Konfidenzwert-Berechnungseinheit zum Abruf ausgewählter Sprachproben mit dem jeweiligen phonematischen Bewertungskoeffizienten verbunden.In device-side realization of the process management (enrollment or authentication) with predetermined suitable speech samples identified above as particularly efficient, a speech sample memory is provided for the orderly storage of a set of predefined speech samples, each with an associated predetermined phonemic weighting coefficient. Here, the user guidance unit and the confidence value calculation unit for retrieving selected speech samples are associated with the respective phonemic weighting coefficient.
Vorteile und Zweckmäßigkeiten der Erfindung ergeben sich im übrigen aus den nachfolgend beschriebenen Ausführungsbeispielen und -aspekten der Erfindung anhand der Figuren. Von diesen zeigen:Moreover, advantages and expediencies of the invention will become apparent from the following described embodiments and aspects of the invention with reference to the figures. From these show:
Fig. 1 eine schematische Darstellung eines ersten Ausführungsbeispiels der Erfindung in Form eines Funktions-Blockschaltbildes,1 is a schematic representation of a first embodiment of the invention in the form of a functional block diagram,
Fig. 2 eine schematische Darstellung eines zweiten Ausführungsbeispiels der Erfindung in Form eines Funktions-Blockschaltbildes undFig. 2 is a schematic representation of a second embodiment of the invention in the form of a functional block diagram and
Fig. 3 eine schematische Darstellung eines dritten Ausführungsbeϊspiels der Erfindung in Form eines Funktions-Blockschaltbildes. Fig. 1 zeigt schematisch eine erste Anordnung 100 für eine stimmprofii-basierte Authentifizierung einer Person, in der ein für die Ausführung der Erfindung wesentlicher Abschnitt eines System -Servers 101 in Kommunikationsverbindung mit einem Mobiltelefon 103 eines Nutzers dargestellt ist. Es wird darauf hingewiesen, dass der System-Server 101 neben den nachfolgend beschriebenen Komponenten und Funktionen weitere, applikations-spezifische Komponenten und Funktionen enthalten/ausführen kann.Fig. 3 is a schematic representation of a third Ausführungsbeϊspiels of the invention in the form of a functional block diagram. 1 schematically shows a first arrangement 100 for a voice profi-based authentication of a person, in which a section of a system server 101 essential for the implementation of the invention is shown in communication with a mobile telephone 103 of a user. It should be noted that the system server 101 may include / execute other application-specific components and functions in addition to the components and functions described below.
Der System-Server 101 steht über eine Sprachproben-Eingabeschnittstelle 105 eϊn- gangsseitig und über eine Benutzerführungs-Ausgabeschnittstelle 107 ausgangssei- tig in zeitweiliger Verbindung mit dem Mobiltelefon 103, um den Benutzer in einer Enrollment- oder Verifizierungs-Prozedur zu führen und ihm die Eingabe mindestens einer Sprachprobe in das System zu ermöglichen. Daneben können weitere Ein-/Ausgabeschnittstellen, etwa für eine Dateneingabe in das System durch Betätigung der Mobiltelefon-Tastatur, vorgesehen sein. Solche sind im Zusammenhang mit der Erläuterung der Erfindung aber nicht erforderlich und werden daher hier nicht gezeigt und beschrieben.The system server 101 is on the output side via a voice sample input interface 105 and in temporary communication with the mobile telephone 103 via a user guidance output interface 107 to guide the user in an enrollment or verification procedure and input to him at least one voice sample into the system. In addition, further input / output interfaces, such as for data entry into the system by pressing the mobile phone keyboard, may be provided. However, such are not required in connection with the explanation of the invention and are therefore not shown and described here.
Die Sprachproben-Eingabeschnittstelle 105 ist intern mit einer Spracherkennungs- einheit 109 sowie parallel mit einer Sprachproben-Zuführsteuerung 111 jeweils an deren Eingang verbunden. Die Spracherkennungseinheit 109 ist ausgangsseitig zum einen mit einer Gewichtungsfaktor-Speichereinheit 113 und zum anderen mit dem Eingang einer Bewertungskoeffizienten-Berechnungseinheit 115 verbunden. Über einen weiteren Eingang ist die Bewertungskoeffizienten-Berechnungseinheit 115 mit der Gewichtungsfaktor-Speichereinheit 113 verbunden, um von dieser vorgespeicherte Phonem-Gewichtungsfaktoren für diejenigen Phoneme zu empfangen, die es sich im Ergebnis der Spracherkennung bzw. phonematischen Analyse der empfangenen Sprachprobe als deren Bestandteile ergeben haben.The speech sample input interface 105 is internally connected to a speech recognition unit 109 and in parallel with a speech sample feed control 111, respectively at the input thereof. The speech recognition unit 109 is connected on the output side to a weighting factor storage unit 113 on the one hand and to the input of a weighting coefficient calculation unit 115 on the other hand. Via another input, the weighting factor storage unit 113 is connected to the weighting factor storage unit 113 for receiving therefrom prestored phoneme weighting factors for those phonemes which have resulted as a result of the speech recognition of the received speech sample as its constituent parts ,
Ausgangsseitäg ist die Bewertungskoeffizienten-Berechnungseinheit mit einem Be- rechnungskoeffϊzienten-Schweilwertdiskriminator (ersten Schweliwert-Diskrimina- tor) 117 verbunden, deren Schwellwert über eine Schwellwert-Einstelleinheϊt 118 einstellbar ist. Der erste Schweliwert-Diskriminator 117 ist ausgangsseitig einerseits mit einem Steuereingang der Sprachproben-Zuführsteuerung 111 und andererseits mit einer Benutzerführungseinheit 119 verbunden, um im Ergebnis der Schwellwert- Diskriminierung in der Berechnungseinheit 115 berechneten phonematischen Bewertungskoeffizienten einerseits die empfangene Sprachprobe entweder einer Stimm- profiianalyse zuzuführen oder zu blockieren und andererseits die Ausgabe einer entsprechenden Benutzerführung (Anforderung einer weiteren Sprachprobe) zu bewirken.On the output side, the weighting coefficient calculation unit is connected to a calculation coefficient threshold value discriminator (first threshold value discriminator) 117 whose threshold value can be set via a threshold setting unit 118. The first threshold value discriminator 117 is on the output side on the one hand to a control input of the voice sample feed controller 111 and, on the other hand, to a user guidance unit 119 for supplying or blocking the received speech sample either to a vocal sample analysis as a result of threshold discrimination in the phonemic weighting coefficients computed in the calculation unit 115, or outputting a corresponding user guidance (Request another voice sample) effect.
Wird eine neue Sprachprobe benötigt, gibt die Benutzerführungseinheit 119 eine solche im Ansprechen auf das empfangene Steuersignal an die Schnittstelle 107 und über diese in das Mobiltelefon 103 aus. Das beschriebene Procedere wiederholt sich dann. Ist hingegen die empfangene und bewertete Sprachprobe unter dem Gesichtspunkt ihrer phonematischen Bewertung für eine Stimmanalyse (Stimmprofilberechnung) brauchbar, wird sie einer Stimmprofil-Berechnungseinheit 121 zugeführt und hieraus ein Stimmprofil des Nutzers des Mobiltelefons 103 ermittelt. Mit der in der Figur dargestellten Signalverbindung ist illustriert, dass dieses - wie bei einem anfänglichen Enrollment des Nutzers erforderlich - in einer Stimmprofil-Speichereinheit 123 abgelegt wird. Die punktierten Signallinien geben an, dass das Stimmprofil im Falle einer späteren Verifizierung des Nutzers auch einer Stimmprofil-Vergleichereinheit 125 zugeführt werden und in dieser mit einem in der Speichereinheit 123 gespeicherten initialen Stimmprofil verglichen und ein das Vergleichsergebnis kennzeichnendes Ausgangssignal der Vergleichereinheit 125 an nachfolgende Stufen des System-Servers 101 ausgegeben werden kann.If a new voice sample is needed, the user guidance unit 119 outputs one to the interface 107 in response to the received control signal and via this to the mobile telephone 103. The described procedure is then repeated. If, on the other hand, the received and evaluated speech sample is usable for voice analysis (voice profile calculation) from the viewpoint of its phonemic evaluation, it is supplied to a voice profile calculation unit 121 and from this a voice profile of the user of the mobile telephone 103 is determined. The signal connection shown in the figure illustrates that this is stored in a voice profile storage unit 123, as required by an initial enrollment of the user. The dotted signal lines indicate that the voice profile is also supplied to a voice profile comparator unit 125 in the event of a later verification of the user and compared thereto with an initial voice profile stored in the memory unit 123 and an output signal of the comparator unit 125 indicative of the comparison result to subsequent stages of the voice unit System server 101 can be output.
Für die eigentliche phonematische Bewertung sind verschiedene Algorithmen nutzbar. Sie bauen auf den Ergebnissen empirischer Untersuchungen zur „Erkennungsleistung" auf, aus denen sich für die im Rahmen einer Spracherkennung zu gewinnenden Lautbestandteile (Phoneme) von Sprachproben spezifische Gewichtungen ableiten lassen. Neben der erkennungs-bezogenen Qualität der einzelnen Phoneme kann in die Gesamtbewertung einer Sprachprobe auch deren Quantität (Anzahl) einfließen, und dies wird bei Einsatz von Sprachproben unterschiedlicher Länge und gegebenen verarbeitungstechnischen Voraussetzungen vorteilhafterweise auch praktiziert. Aus der Erkenntnis, dass die einzelnen Lauteinheiten von Sprachen unterschiedliche Erkennungsqualität haben, ergibt sich die (sowohl beim vorstehend beschriebenen ersten Ausführungsbeispiel als auch bei den nachfolgend beschriebenen weiteren Beispielen nutzbare) Verfahrens-Ausgestaltung, überhaupt nur Lauteinheiten mit hoher Erkennungs-Eignung (oberhalb eines bestimmten Schwellwertes - der weiteren Verarbeitung, also Stimmprofilberechnung, zuzuführen, während Lauteinheiten mit geringer Erkennungs-Eignung nicht weiterverarbeitet werden. Diese auf einzelne Phoneme bezogene Steuerung ist den Figuren nicht zu entnehmen, da diese im Interesse einer guten Übersichtlichkeit auf die Darstellung einer sprachprobenbezoge- nen Verfahrensführung beschränkt wurden.Various algorithms can be used for the actual phonemic evaluation. Based on the results of empirical investigations on the "recognition performance", specific weightings can be derived for the speech constituents (phonemes) of speech samples to be extracted in a speech recognition process also their quantity (number) are included, and this is advantageously also practiced when using voice samples of different length and given processing conditions. From the realization that the individual sound units of languages have different recognition quality, the (both in the above-described first embodiment and in the further examples described below usable) process embodiment, at all only sound units with high recognition suitability (above a certain Threshold value - for further processing, ie voice profile calculation, while sound units with low recognition suitability are not processed further.This individual phoneme-related control can not be inferred from the figures, since these are for the sake of clarity in presenting a speech sample-related process were limited.
In Fig. 2 ist eine gegenüber der Anordnung 100 nach Fig. 1 modifizierte Anordnung 200 zur Realisierung einer modifizierten Verfahrensführung gezeigt. Der Anordnung in Fig. 1 funktional entsprechende Komponenten sind mit hieran angelehnten Bezugsziffern bezeichnet und werden nachfolgend nicht nochmals erläutert.FIG. 2 shows a modified arrangement 200 modified from the arrangement 100 according to FIG. 1 for implementing a modified process control. The arrangement in Fig. 1 functionally corresponding components are denoted by reference numerals therefrom and will not be explained again below.
Nachfolgend wird die Spracherkennung (phonematische Analyse) und phonemati- sche Bewertung an vereinfachten Beispielen erläutert.In the following, speech recognition (phonematic analysis) and phonemic evaluation are explained using simplified examples.
Beispiele für mittels Spracherkennung empirisch ermittelte Gleichfehlerraten ausgewählter Lauteinheiten bzw. Phoneme sind in Tabelle 1 angegeben.Examples of equal error rates of selected sound units or phonemes empirically determined by means of speech recognition are given in Table 1.
Tabelle 1Table 1
SAMPA Symbol: EER (Gleichfehlerrate) a: 8,2 %SAMPA symbol: EER (equal error rate) a: 8,2%
E 10,6 % m 8,5 %E 10.6% m 8.5%
N 9,7 %N 9.7%
F 21,0 %F 21.0%
V 24,7 %V 24.7%
T 25,3 %T 25.3%
K 23,7 % Durch Differenzbildung zum minimalen möglichen Fehler (Null) und Normierung auf ergibt sich als Gewichtungsfaktor etwaK 23.7% By forming the difference to the minimum possible error (zero) and normalization, the weighting factor is about
für a : 100 - 8,2 = 91,8 = > 0,981 für k: 100 - 23r7 = 76,3 = > 0,763for a: 100 - 8.2 = 91.8 => 0.981 for k: 100 - 23 r 7 = 76.3 => 0.763
Wird ein Wort (eine Sprachprobe) nun auf seine (ihre) Lauteinheiten untersucht, kann für jede ermittelte Einheit die entsprechende Gewichtung benutzt werden und somit eine Gesamtgewichtung (ein Bewertungskoeffizient) für dieses Wort ermittelt werden . Es ist aber auch möglich, die Lauteinheiten-Gewichtungsfaktoren in besonders einfacher Weise zur Bewertung eines Wortes zu verwenden, indem man einen Gewichtungsfaktor-Minimalwert festlegt und nur diejenigen Lauteinheiten als brauchbar klassifiziert, deren Gewichtungsfaktor oberhalb des Minimalwertes liegt, und schließlich deren Anzahl zur Gesamtzahl der Lauteinheiten des Wortes ins Verhältnis setzt.If a word (a speech sample) is now examined for its (her) sound units, the corresponding weighting can be used for each unit determined and thus a total weighting (a weighting coefficient) for this word can be determined. However, it is also possible to use the sound unit weighting factors in a particularly simple manner for evaluating a word by setting a weighting factor minimum value and classifying only those sound units whose weighting factor is above the minimum value, and finally their number to the total number of Ratio of the word in proportion.
Geht man etwa aus von (fiktiven) Lauteinheiten und Gewichtungen gemäß Tabelle 2 und setzt man als Minimal- bzw. Schwellwert 0,7, so ergibt sich die in der Tabelle vermerkte phonem-bezogene Eignung .For example, assuming (fictitious) sound units and weightings according to Table 2 and setting the minimum or threshold value to 0.7, the result is the phoneme-related suitability noted in the table.
Tabelle 2Table 2
a : 0,9 -> geeignet b; 0,6 c: 0,4 d : 0,5 e: 0,8 ->geeigneta: 0.9 -> suitable b; 0.6 c: 0.4 d: 0.5 e: 0.8 -> suitable
Für eine Symbolfolge „ceabde", die aus den sechs in der Tabelle genannten Lauteinheiten zusammengesetzt ist, ergibt sich mithin, dass drei der Lauteinheiten geeignet und die drei anderen ungeeignet sind, also der auf die erwähnte Weise ermittelte Bewertungskoeffizient der Symbolfolge (des Wortes) 0,5 wäre. Eine andere mögliche Methode besteht darin, die Gewichte der einzelnen Lauteinheiten aufzusummieren und das Ergebnis durch die Anzahl der Lauteinheiten zu dividieren. Für das oben genannte Beispiel ergäbe sich ein Bewertungskoeffizient K also aus c (0,4), e (0,8), a (0,9), b (0,6), d (0,5), e (0,8) als K = 0,4 + 0,8 + 0,9 + 0,6 + 0,5 + 0,8 = 4 =>4/6 = 0,667For a symbol sequence "ceabde", which is composed of the six sound units mentioned in the table, it thus follows that three of the sound units are suitable and the other three are unsuitable, ie the evaluation coefficient of the symbol sequence (of the word) 0 determined in the aforementioned manner , 5 would be. Another possible method is to sum up the weights of the individual sound units and to divide the result by the number of sound units. For the above example, a weighting coefficient K would result from c (0.4), e (0.8), a (0.9), b (0.6), d (0.5), e (0 , 8) as K = 0.4 + 0.8 + 0.9 + 0.6 + 0.5 + 0.8 = 4 => 4/6 = 0.667
Betracht man als zusätzliche Beispiel-Symbolfolge die Folge „ceabda", ergibt sich nach dem weiter oben genannten Verfahren auch für diese ein Bewertungskoeffizient von 0,5, während er sich mit dem letztgenannten Verfahren aus c (0,4), e (0,8), a (0,9), b (0,6), d (0,5), a (0,9) alsIf we consider the sequence "ceabda" as an additional example symbol sequence, the result of the above-mentioned method is also a weighting coefficient of 0.5 for the latter, while with the last-mentioned method c (0.4), e (0, 8), a (0.9), b (0.6), d (0.5), a (0.9) as
K = 0,4 + 0,8 + 0,9 + 0,6 + 0,5 + 0,9 = 4, 1 = >4,l/6 = 0,683 ergibt. Der Wert der ermittelten Bewertungskoeffizienten kann mithin durchaus (und unter Umständen erheblich) vom gewählten Verfahren abhängen.K = 0.4 + 0.8 + 0.9 + 0.6 + 0.5 + 0.9 = 4, 1 => 4, l / 6 = 0.683. The value of the determined weighting coefficients can therefore (and in some cases significantly) depend on the chosen method.
Tabelle 3 zeigt, zur weiteren Illustration möglicher Verfahrensgestaltungen, eine Tabelle von Passwörtern mit jeweiliger phonetischer Transkription und einem zugeordneten Bewertungskoeffizienten K, welcher nach dem oben zuerst erläuterten Verfahren unter der Annahme bestimmt wurde, dass die Phoneme a, e, i, o, y, 6, m, j und s geeignet, die übrigen Phoneme hingegen sämtlich (nach Maßgabe eines vorbestimmten Schwel I wertes) hingegen ungeeignet sind.Table 3 shows, for further illustration of possible process designs, a table of passwords with respective phonetic transcription and an associated weighting coefficient K, which was determined according to the method explained above on the assumption that the phonemes a, e, i, o, y, 6, m, j and s suitable, the other phonemes, however, all (according to a predetermined Schwel Iwertes), however, are unsuitable.
Tabelle 3Table 3
Tabelle 4 zeigt hierfür dann eine Zusammenstellung externer ermittelter Gleichfeh- lerraten der einzelnen Passwörter, zusammen mit dem zugehörigen Wert des Bewertungskoeffizienten. Table 4 then shows a compilation of externally determined equalizer rates of the individual passwords together with the associated value of the weighting coefficient.
Tabelle 4Table 4
Es zeigt sich, dass die Erkennungsleistung für Passwörter mit hohem phonemati- schem Bewertungskoeffizienten tatsächlich ebenfalls hoch ist, wodurch die Brauchbarkeit des Verfahrens im Kontext der Registrierung bzw. Authentifizierung von Personen aufgrund ihres Stimmprofils zu belegen ist.It turns out that the recognition performance for passwords with a high phonemic weighting coefficient is in fact also high, which proves the usefulness of the method in the context of the registration or authentication of persons on the basis of their voice profile.
Eine wesentliche Änderung gegenüber der Anordnung 100 nach Fig . 1 besteht bei der Anordnung 200 nach Fig. 2 darin, dass keine Sprachproben-Zuführsteuerung vorgesehen ist, sondern jede empfangene Sprachprobe neben der Spracherken- nungseinheit 209 auch in die Stimmprofil-Berechnungseinheit 221 gelangt und - unabhängig von der phonematischen Bewertung - zur Berechnung eines Stimmprofils genutzt wird. Das Ausgangssignal der ersten Schwellwert-Däskriminatoreinheit 217 gelangt hier zu einem zweiten Schwellwert-Diskriminator (Sicherheits-Diskriminator- einheit) 227, die über einen anderen Eingang mit einer Konfidenzwert- oder Sicherheitspegel-Einstelleinheit 229 verbunden ist, über die ein vorgegebener Minimal- Konfidenzwert des zu bestimmenden Stimmprofils oder ein vorgegebener Sicherheitspegelwert eines auszuführenden Verifizierungsvorganges einstellbar ist. Am Ausgang des zweiten Schwellwert-Diskrirninators 227 steht ein Signal bereit, welches kennzeichnet, ob die Stimmanalyse einer empfangenen Sprachprobe - für sich genommen - geeignet ist, vorgegebene Konfidenz- bzw. Sicherheitsanforderungen zu erfüllen oder nicht. Dieses Signal kann einerseits in nachfolgenden Stufen des System-Servers 201 verwendet werden und wird andererseits der Benutzerführungseinheit 219 zugeführt, um dort gegebenenfalls die Anforderung einer weiteren Sprachprobe zu steuern. Anders als bei der Ausführung nach Fig. 1 dienen eine oder mehrere weitere Sprachproben, die vom Nutzer geliefert werden, aber nicht einer Ersetzung der ersten (und gegebenenfalls nachfolgenden) Sprachprobe(n) bei der Stimmanalyse, sondern einer zusätzlichen Einbeziehung in die Stimmanalyse, um letztlich durch die Analyse einer Mehrzahl von Sprachproben zu einem insgesamt den definierten Minimalanforderungen genügenden Konfidenz- bzw. Sicherheitspegei zu gelangen. Bezüglich der miteinander verknüpften Auswertung mehrerer Sprachproben ist die Darstellung in Fig. 2 nicht hinreichend detailliert, der Fachmann kann aber aufgrund der vorstehenden Beschreibung eine solche Kombinations-Verarbeitung mehrerer Sprachproben, von denen jede für sich allein keine hinreichende Kon- fidez bzw. Sicherheit gewährleistet, ohne weiteres realisieren.A significant change from the arrangement 100 of FIG. 1 in the arrangement 200 of FIG. 2 is that no voice sample feed control is provided, but each received speech sample in addition to the voice recognition unit 209 also enters the voice profile calculation unit 221 and - regardless of the phonemic evaluation - for calculating a voice profile is being used. Here, the output signal of the first threshold value discriminator unit 217 reaches a second threshold discriminator (safety discriminator unit) 227, which is connected via another input to a confidence level or setting unit 229, via which a predetermined minimum confidence value of the is adjustable to be determined voice profile or a predetermined level of security of a verification process to be performed. At the output of the second threshold discriminator 227, a signal is available, which indicates whether the voice analysis of a received voice sample - taken by itself - is suitable for fulfilling predetermined confidence or security requirements or not. On the one hand, this signal can be used in subsequent stages of the system server 201 and, on the other hand, it is fed to the user guidance unit 219 in order, where appropriate, to control the request for a further speech sample. Unlike the embodiment of FIG. 1, one or more other speech samples supplied by the user are not intended to replace the first (and possibly subsequent) speech sample (s) in the voice analysis, but to be additionally included in the voice analysis Finally, by analyzing a plurality of speech samples to achieve a total of the defined minimum requirements confidence or security pee. With regard to the interlinked evaluation of several speech samples, the illustration in FIG. 2 is not sufficiently detailed, but on the basis of the above description the person skilled in the art can guarantee such combination processing of several speech samples, each of which alone does not ensure sufficient conformity or safety. realize without further ado.
Wie aus Fig. 2 ersichtlich, ist bei der zweiten Ausführungsform der zweite Schwell- wert-Diskriminator 227 an die Stelle der ersten Schwellwert-Diskriminatoreinheit 117 der ersten Ausführungsform getreten und die zugehörige Einstelleinheit 229 ersetzt dementsprechend die Einstelleinheit 218 der ersten Ausführungsform. Hier wird also der in der Bewertungskoeffizienten-Berechnungseinheit 215 errechnete Bewertungskoeffizient der jeweiligen Sprachprobe einer Konfidenzwert-Berech- nungseinheit 216 zugeführt, welche hieraus in erwarteten Konfidenzwert eines aus dieser Sprachprobe errechneten Stimmprofils ermittelt.2, in the second embodiment, the second threshold value discriminator 227 has been substituted for the first threshold discriminating unit 117 of the first embodiment, and the associated setting unit 229 accordingly replaces the setting unit 218 of the first embodiment. Here, therefore, the weighting coefficient of the respective speech sample calculated in the weighting coefficient calculation unit 215 is supplied to a confidence value calculation unit 216 which determines therefrom the expected confidence value of a voice profile calculated from this speech sample.
Die Art und Weise der Verarbeitung mehrerer Sprachproben zur Ableitung eines Stimmprofils mit hinreichender Konfidenz kann nach verschiedenen Algorithmen erfolgen. Am einfachsten ist die Zuführung der Sprachproben zur Stimmprofil-Berechnungseinheit ohne jede Gewichtung. In einer anderen Variante, die in Fig. 2 mit einer gepunkteten Linie gekennzeichnet ist, kann die Stimmprofil-Berechnungseinheit als zusätzliches Steuersignal den errechneten Wertungskoeffizienten der jeweiligen Sprachprobe empfangen, und das Berechnungsergebnis wird für die jeweilige Sprachprobe mit dem zugehörigen Bewertungskoeffizienten gewichtet.The way of processing multiple speech samples to derive a voice profile with sufficient confidence can be done according to different algorithms. The easiest way is to supply the voice samples to the voice profile calculation unit without any weighting. In another variant, which is indicated by a dotted line in FIG. 2, the voice profile calculation unit receive as additional control signal the calculated weighting coefficient of the respective speech sample, and the calculation result is weighted for the respective speech sample with the associated weighting coefficient.
Während beim vorangehend beschriebenen ersten und zweiten Ausführungsbelspϊei die Stimmanalyse/Stimmprofilberechnung anhand von Sprachproben erfolgt, die der Nutzer, d. h. die zu authentifizierende Person, selbst vorgibt (etwa seinen Namen, einem Codewort o.a.): kann eine auf systemseitig vorgegebenen Sprachproben beruhende Stimmanalyse, sowohl beim Enrollment als auch bei der Authentifizierung, die Erreichung eines höheren Sicherheitsniveaus ermöglichen und/oder den Verfahrensablauf verkürzen und damit die Nutzerakzeptanz erhöhen. Im Kontext der Erfindung ist vorgesehen, dass die für ein solches Verfahren bereitzustellenden Sprachproben nach phonematischen Bewertungskriterien ausgewählt sind. Das Verfahren schließt also eine vorgeschaltete Phase der Phonem-Analyse und phonematischen Bewertung eines größeren Sprachproben-Reservoirs und die Festlegung von bevorzugt zu verwendenden Sprachproben, nämlich solcher mit einem hohen phonematischen Bewertungskoeffizienten, für die spätere eigentliche Endrollment- oder Au- thentifizierungs-Prozedur ein.While in the first and second Ausführungsbelspϊei described above, the voice analysis / voice profile calculation on the basis of voice samples that the user, ie the person to be authenticated himself pretends (such as his name, a codeword or the like) : based on system prescriptive voice samples voice analysis, both in Enrollment as well as authentication, enable the achievement of a higher level of security and / or shorten the process flow and thus increase user acceptance. In the context of the invention, it is provided that the speech samples to be provided for such a method are selected according to phonemic evaluation criteria. The method thus includes an upstream phase of the phoneme analysis and phonemic evaluation of a larger speech sample reservoir and the definition of preferred speech samples, namely those with a high phonemic weighting coefficient, for the later actual end-rollment or authentication procedure.
Eine entsprechende Anordnung 300 ist skizzenartig in Fig. 3 dargestellt. Auch hier sind Komponenten, die funktional mit Komponenten des ersten und zweiten Ausführungsbeispiels vergleichbar sind, mit an die Figuren 1 und 2 angelehnten Bezugsziffern bezeichnet und werden nachfolgend nicht genauer erläutert. Die Anordnung 300 ist in ihrem die Stimmanalyse betreffenden Teil mit den Signalverbindungen dargestellt, wie sie in der Verifizierungsphase gegeben sind.A corresponding arrangement 300 is shown sketch-like in FIG. Again, components that are functionally comparable to components of the first and second embodiments are designated with reference to Figures 1 and 2 reference numerals and will not be explained in more detail below. The arrangement 300 is shown in its voice analysis part with the signal connections as given in the verification phase.
Abweichend von der oben beschriebenen ersten und zweiten Anordnung, hat die Anordnung 300 zwei Sprachproben-Eingabeschnittstellen 305A, 305B, von denen die erstere in der Vorbereitungsstufe mit einem Mikrofon 302 und die letztere in der eigentlichen Authentifizierungs- (oder auch Enrollment-) Phase mit einem Mobiltelefon 303 einer zu authentifizierenden (oder zu registrierenden) Person verbunden ist. In der Vorbereitungsphase gelangen am Mikrofon 302 eingesprochene Sprachproben, die nicht einer Stimmanalyse, sondern lediglich einer Spracherkennung und phonematischen Bewertung unterzogen werden sollen, in einen ersten Serverabschnitt 301A, in dem eine Spracherkennung und Bestimmung phonematischer Bewertungskoeffizienten wie beim ersten Ausführungsbeispiei abläuft. In deren Ergebnis gibt ein Bewertungskoeffizienten-Schweildiskriminator 317 ein Weiterleitungs- Steuersignal an einen Sprachproben-Zwischenspeicher 320 aus, in den zunächst jede über das Mikrofon 302 eingesprochene Sprachprobe gelangt und wo sie zwischengespeichert wird. Bei einem positiven Bewertungsergebnis der Sprachprobe bewirkt dieses Steuersignal, dass die zwischengespeicherte Sprachprobe in einen Sprachprobenspeicher 322 gelangt, von wo aus sie bei einer späteren Registrierung oder Authentifizierung in die Benutzerführung 319 eingespeist wird, um sie der zu registrierenden oder zu authentifizierenden Person als einzusprechende (d.h. nachzusprechende) Sprachprobe vorgegeben wird.Different from the first and second arrangements described above, the arrangement 300 has two voice sample input interfaces 305A, 305B, the former of which is in the preparatory stage with a microphone 302 and the latter in the actual authentication (or enrollment) phase with a microphone Mobile phone 303 is connected to a person to be authenticated (or registered). In the preparation phase, speech samples which are recorded on the microphone 302 and which are not to be subjected to voice analysis but merely to voice recognition and phonemic evaluation are taken to a first server section 301A in which speech recognition and determination of phonematic evaluation coefficients are carried out as in the first embodiment. As a result, a weighting coefficient threshold discriminator 317 outputs a forwarding control signal to a voice sample buffer 320 into which each speech sample received via the microphone 302 first passes and where it is latched. In the case of a positive evaluation result of the speech sample, this control signal causes the cached speech sample to enter a speech sample memory 322, from which it is fed to the user guide 319 in a later registration or authentication in order to be credited to the person to be registered or authenticated (ie nachzusprechende) speech sample is given.
Die Benutzerführung und Stimmanalyse läuft in einem zweiten Serverabschnitt 301B im wesentlichen so ab wie beim zweiten Ausführungsbeispiel nach Fig. 2, Die Authentifizierung (oder auch Registrierung) kann mit einer einzigen aus dem Speicher 322 in die Benutzerführung übernommenen Sprachprobe oder auch mit mehreren Sprachproben erfolgen, was wesentlich von dem vorgegebenen Sicherheitsniveau abhängig sein wird. Optional können hierbei - ebenfalls ähnlich wie beim zweiten Ausführungsbeispiel - in der Stimmprofil-Berechnungseinheit 321 die numerischen Ergebnisse der phonematischen Bewertung verwendet werden, um bei Nutzung mehrerer Sprachproben zur Ableitung des Stimmprofils jeder Sprachprobe ein dem phonematischen Bewertungskoeffizienten entsprechendes Gewicht zuzuweisen. Dies ist wieder durch eine punktierte Linie in der Figur symbolisiert.The user guidance and voice analysis run in a second server section 301B substantially as in the second embodiment of FIG. 2, the authentication (or registration) can be done with a single taken from the memory 322 in the user guidance speech sample or with multiple voice samples, which will be significantly dependent on the given level of security. Optionally, similarly to the second embodiment, in the voice profile calculation unit 321, the numerical results of the phonemic evaluation may be used to assign a weight corresponding to the phonemic weighting coefficient to each voice sample when using multiple voice samples to derive the voice profile. This is again symbolized by a dotted line in the figure.
Die Ausführung der Erfindung ist nicht auf die oben erläuterten Beispiele und hervorgehobenen Aspekte beschränkt, sondern ebenso in einer Vielzahl von Abwandlungen möglich, die im Rahmen fachgemäßen Handelns liegen. The embodiment of the invention is not limited to the examples and highlighted aspects discussed above, but is also possible in a variety of variations that are within the scope of skill in the art.

Claims

Patentansprüche claims
1. Digitales Verfahren zur Authentifizierung einer Person durch Vergleich eines aktuelien Stimm profus mit einem vorgespeicherten initialen Stimmprofil, wobei die Person zur Bestimmung des jeweiligen Stimmprofils mindestens eine Sprachprobe einspricht, die eingesprochene Sprachprobe einer Stimmprofil-Berechnungseinheit zugeführt wird und hieraus aufgrund eines vorbestimmten Stimmprofil-Algorithmus das Stimmprofil errechnet wird, d a d u rc h g e ke n n ze i c h n e t, dass für die oder jede Sprachprobe durch Spracherkennung mit anschließender phonematischer Analyse eine Phonemstruktur und eine Folge von den Phonemen zugeordneten Gewichtungsfaktoren und/oder ein phonematischer Bewertungskoeffizient bestimmt und die Gewichtungsfaktoren bzw. der Bewertungskoeffizient zur Bestimmung eines Konfidenzwertes des Stimmprofils und/oder zur Steuerung dessen genutzt werden, ob die jeweilige eingesprochene Sprachprobe oder Teile derselben der Stirnmprofil-Berechnungseinheit zugeführt werden.A digital method of authenticating a person by comparing a current voice profile with a pre-stored initial voice profile, wherein the person for determining the respective voice profile at least one voice sample speaks, the voice sample is supplied to a voice profile calculation unit and therefrom based on a predetermined voice profile algorithm the voice profile is calculated by means of speech recognition with subsequent phonematic analysis determining a phoneme structure and a sequence of weighting factors assigned to the phonemes and / or a phonemic weighting coefficient for the or each speech sample, and the weighting factors or the weighting coefficient Determining a confidence value of the voice profile and / or used to control whether the respective voice sample spoken or parts thereof are fed to the Stirnmprofil calculation unit.
2. Verfahren nach Anspruch 1, d a d u rc h g e ke n n ze i c h n e t, dass die Gewichtungsfaktoren bzw. der phonematische Bewertungskoeffizient einer Schwellwert-Diskriminierung mit einem vorbestimmten Gewichts-Minimalwert unterzogen und die Zuführung zur Stimmprofil-Berechnungseinheit in Abhängigkeit vom Diskriminierungsergebnis gesteuert wird.2. The method of claim 1, wherein the weighting factors or the phonemic weighting coefficient are subjected to a threshold discrimination with a predetermined weight minimum value and the supply to the voice profile calculation unit is controlled as a function of the discrimination result.
3. Verfahren nach Anspruch 2, d a d u rc h g e ken n z ei c h n e t, dass der Gewichts-Minimalwert aus einem vorbestimmten Konfidenz-Minimalwert des Stimmprofils bzw. einem vorbestimmten Sicherheitspegei der Authentifizierung rückgerechnet wird.3. The method of claim 2, wherein a minimum weight value is recalculated from a predetermined confidence minimum value of the voice profile or a predetermined security level of the authentication.
4. Verfahren nach einem der vorangehenden Ansprüche, d a d u rc h g e ke n n ze i c h n e t, dass ein Blockier-Steuersignal, welches die Zuführung einer Sprachprobe zur Stimmprofil-Berechnungseinheit blockiert, zugleich als Steuersignal zur Vorgabe oder Anforderung einer Ersatz-Sprachprobe dient.4. Method according to one of the preceding claims, characterized in that a blocking control signal which inhibits the supply of a speech sample to the voice profile calculation unit, serves as a control signal for specifying or requesting a replacement speech sample.
5. Verfahren nach Anspruch 4, d a d u rc h g eken n zei ch net, dass das Blockier-Steuersignal die Ausgabe einer Aufforderung zum Einsprechen einer nicht vorab festgelegten Ersatz-Sprachprobe im Rahmen einer Benutzerführung steuert und für die hierauf empfangene Ersatz-Sprachprobe der pho- nematische Bewertungskoeffizient berechnet wird.5. The method as claimed in claim 4, wherein the blocking control signal controls the output of a request to speak in a user guide of a non-predefined substitute speech sample and for the replacement speech sample received thereon. nematic weighting coefficient is calculated.
6. Verfahren nach Anspruch 4, d a d u rc h g e ke n n zei c h net, dass das Blockier-Steuersignal die Ausgabe einer vorab festgelegten Ersatz-Sprachprobe mit vorbestimmtem phonematischem Bewertungskoeffizienten im Rahmen einer Benutzerführung steuert.6. The method of claim 4, wherein the blocking control signal controls the output of a predetermined substitute speech sample having a predetermined phonemic weighting coefficient as part of a user's guide.
7. Verfahren nach einem der Ansprüche 1 bis 3, d a d u rc h g e ken n z ei c h n et, dass die oder jede Sprachprobe vorgegeben und im Rahmen einer Benutzerführung ausgegeben und der zugehörige phonematische Bewertungskoeffizient vorbestimmt wird.7. Method according to one of claims 1 to 3, characterized in that the or each speech sample is predetermined and output within the framework of a user guidance and the associated phonemic evaluation coefficient is predetermined.
8. Verfahren nach einem der vorangehenden Ansprüche, d a d u rc h g e ke n n zei c h n et, dass der Verifizierungsvorgang das Einsprechen mehrerer Sprachproben umfasst und aus deren zugehörigen phonematischen Bewertungskoeffizienten ein resultierender Konfidenzwert oder Sicherheitspegel berechnet wird.8. Method according to one of the preceding claims, characterized in that the verification process comprises the speech of several speech samples and from the associated phonemic weighting coefficients a resulting confidence value or safety level is calculated.
9. Verfahren nach Anspruch 8, d a d u rc h g e ke n n z ei c h n e t, dass nach jedem Einsprechen einer Sprachprobe oder nach dem Einsprechen einer vorbestϊmmten Anzahl von Sprachproben der resultierende Konfidenzwert einer Schwellwert-Diskriminierung mit einem vorbestimmten Konfidenz-Minimalwert oder der resultierende Sicherheitspegel-Wert einer Schwellwert-Diskriminierung mit einem vorbestimmten Sicherheitspegel-Minimalwert unterzogen und im Ansprechen auf das Diskriminierungsergebnis die Beendigung des Verifizierungsvorganges oder die Anforderung einer weiteren Sprachprobe gesteuert wird,9. The method as claimed in claim 8, characterized in that after each speech sample is spoken in or after a predetermined number of speech samples have been spoken, the resulting confidence value of a speech sample Subjecting threshold discrimination to a predetermined confidence minimum value or the resulting safety level value to a threshold discrimination having a predetermined safety level minimum value and controlling, in response to the discrimination result, the completion of the verification process or the request of another voice sample,
10. Verfahren nach Anspruch 8 oder 9, d a d u rc h g e ke n n z e i c h n et, dass ein Konfidenz-Minimalwert oder Sicherheitspegel-Minimalwert eingegeben und im Ansprechen hierauf aus einer Gesamtmenge vorgegebener Sprachproben mit jeweils vorbestimmtem phonematischem Bewertungskoeffizienten eine Teilmenge zur Ausgabe im Rahmen einer Benutzerführung ausgewählt wird.10. The method according to claim 8 or 9, characterized in that a confidence minimum value or safety level minimum value is entered and, in response to this, a subset for output as part of a user guide is selected from a total of predetermined speech samples each having a predetermined phonemic weighting coefficient ,
11. Verfahren nach einem der vorangehenden Ansprüche, d a d u rc h g e ke n n z ei c h net, dass jedem Phonem der oder jeder Sprachprobe ein Gewichtungsfaktor zugeordnet wird, der aus der jeweiligen Gleichfehlerrate abgeleitet ist, und der phonema- tische Bewertungskoeffizient der Sprachprobe nach einem vorbestimmten Be- wertungs-Atgorϊthmus aus den Gewichtungsfaktoren errechnet wird.11. Method according to one of the preceding claims, characterized in that each phoneme of the or each speech sample is assigned a weighting factor derived from the respective same error rate, and the phonemic weighting coefficient of the speech sample after a predetermined time - Evaluation Atgorϊthmus is calculated from the weighting factors.
12. Verfahren nach einem der Ansprüche 2 bis 11, d a d u rc h g e ken n ze i c h n et, da s s zur Errechnung des Stimmprofils nur diejenigen Phoneme einer Sprachprobe der Stimmprofil-Berechnungseinheit zugeführt werden, deren Gewichtungsfaktor oberhalb des Gewichts-Minimalwertes liegt, während die übrigen Phoneme nicht weiterverarbeitet werden.12. Method according to one of claims 2 to 11, characterized in that only those phonemes of a voice sample of the voice profiler calculation unit are supplied to calculate the voice profile whose weighting factor lies above the weight minimum value, while the remaining ones Phonemes will not be further processed.
13. Verfahren nach einem der vorangehenden Ansprüche, g e ke n n z e i c h n et d u rch die automatische Ausführung, unter Ausgabe einer vorgegebenen Benutzerführung, in Quasi-Echtzeit. 13. A method according to any one of the preceding claims, wherein the automatic execution, outputting a predetermined user guidance, is in quasi-real time.
14. Anordnung zur Durchführung des Verfahrens nach einem der vorangehenden Ansprüche, mit14. Arrangement for carrying out the method according to one of the preceding claims, with
- einer Sprachproben-Eingabeschnittstelle,a voice sample input interface,
- einer eingangsseitig mit der Sprachproben-Eingabeschnittstelle verbundenen Stimmprofil-Berechnungseinheit,a voice profile calculation unit connected on the input side to the voice sample input interface,
- einer parallel zur Stimmproben-Berechnungseinheit eingangsseitig mit der Sprachproben-Eingabeschnittstelle verbundenen Spracherkennungsein heit zur phonematischen Analyse einer empfangenen Sprachprobe,a speech recognition unit connected in parallel with the voice sample calculation unit to the speech sample input interface for phonemic analysis of a received speech sample,
- einer Bewertungskoeffizienten-Berechnungseinheit zur Berechnung des phonematischen Bewertungskoeffizienten der in der Spracherkennungsein- heit analysierten empfangenen Sprachprobe und einer mit dem Ausgang der Bewertungskoeffizienten-Berechnungseinheit verbundenen Sprachproben-Zuführsteuerung zur Steuerung der Zuführung der empfangenen Sprachprobe zur Stimmprofil-Berechnungseinheit oder einer Konfidenzwert-Berechnungseinheit zur Berechnung des Konfidenzwer- tes des Stimmprofils.a weighting coefficient calculation unit for calculating the phonemic weighting coefficient of the received voice sample analyzed in the voice recognition unit and a voice sample feed control connected to the output of the weighting coefficient calculation unit for controlling the supply of the received voice sample to the voice profile calculation unit or a confidence value calculation unit for calculation the confidence score of the voice profile.
15. Anordnung nach Anspruch 14, g e k e n n z e i c h n e t d u r c h, eine Benutzerführungseinheit zur Bereitstellung einer Benutzerführung, insbesondere zur Anforderung eingesprochener Sprachproben und/oder zur Ausgabe vorbestimmter Sprachproben zum Einsprechen durch die zu identifizierende Person .15. An arrangement according to claim 14, wherein a user guidance unit for providing a user guidance, in particular for requesting speech samples and / or for outputting predetermined speech samples for being spoken by the person to be identified.
16. Anordnung nach Anspruch 15, d a d u r c h g e k e n n z e i c h n e t, dass die Benutzerführungseinheit über einen Steuereingang mindestens mittelbar mit einem Ausgang der Bewertungskoeffizienten-Berechnungseinheit und/oder einem Ausgang der Konfidenzwert-Berechnungseinheit verbunden ist, derart, dass Ausgaben im Rahmen der Benutzerführung in Abhängigkeit von Ergebnissen der Bewertungskoeffizienten- oder Konfidenzwert-Berechnung steuerbar sind. 16. Arrangement according to claim 15, characterized in that the user guidance unit is connected via a control input at least indirectly to an output of the weighting coefficient calculation unit and / or an output of the confidence value calculation unit, such that outputs in the context of user guidance in dependence on results of the weighting coefficients - or confidence value calculation are controllable.
17. Anordnung nach einem der Ansprüche 14 bis 16, g e ken n zei c h n et d u rc h eine mit dem Gewichtungsfaktor-Eingang der Bewertungskoeffizienten-Berechnungseinheit verbundene Gewichtungsfaktor-Speichereinheit zur Speicherung von Phonem-Gewichtungsfaktoren.17. Arrangement according to claim 14, wherein a weighting factor storage unit connected to the weighting factor input of the weighting coefficient calculation unit stores phoneme weighting factors.
18. Anordnung nach einem der Ansprüche 14 bis 17, g e ken n zei c h n et d u rc h eine mit dem Ausgang der Bewertungskoeffztenten-Berechnuπgseinheit verbundene erste Schwellwert-Diskriminatoreinheit zur Schwellwertdiskriminierung der errechneten Bewertungskoeffizienten mit einem vorgegebenen Ge- wichts-Minimalwert, wobei die Schwellwert-Diskriminatoreinheit über einen Steuereingang mit der Stimmprobenberechnungs-Steuereinheit und wahlweise der Benutzerführungseinheit verbunden ist.18. Arrangement according to one of claims 14 to 17, ge ken n zei chn et du rc h connected to the output of the evaluation coefficient computation unit first threshold discriminator unit for threshold discrimination of the calculated weighting coefficients with a predetermined weight minimum value, wherein the threshold Discriminator unit is connected via a control input to the voice sample calculation control unit and optionally the user guidance unit.
19. Anordnung nach einem der Ansprüche 14 bis 18, g e ke n n ze i c h n e t d u rch eine mit dem Ausgang der Konfidenzwert-Berechnungseinheit verbundene zweite Schwellwert-Diskriminatoreinheit zur Diskriminierung eines errechneten Konfidenzwertes mit einem vorgegebenen Minimal-Konfidenzwert oder eines errechneten Sicherheitspegel-Wertes mit einem vorgegebenen Sicherheitspegel-Minimalwert, wobei die zweite Schwellwert-Diskriminatoreinheit über einen Steuereingang mit der Benutzerführungseinheit verbunden ist.19. Arrangement according to claim 14, wherein the second threshold discriminator unit connected to the output of the confidence value calculation unit discriminates a calculated confidence value with a predetermined minimum confidence value or a calculated safety level value with a predetermined threshold Security level minimum value, wherein the second threshold discriminator unit is connected via a control input to the user guidance unit.
20. Anordnung nach einem der Ansprüche 14 bis 19, g e ken n zei c h n et d u rc h einen Sprachprobenspeicher zur geordneten Ablage einer Menge vorgegebener Sprachproben mit jeweils zugehörigem vorbestimmtem phonematischen Bewertungskoeffizienten, wobei die Benutzerführungseinheit und die Konfidenzwert- Berechnungseinheit zum Abruf ausgewählter Sprachproben mit dem jeweiligen phonematischen Bewertungskoeffizienten mit dem Sprachprobenspeicher verbunden sind. 20. Arrangement according to claim 14, comprising a speech sample memory for orderly storing a set of predefined speech samples, each with a respective predetermined phonemic weighting coefficient, wherein the user guidance unit and the confidence value calculation unit use to retrieve selected speech samples respective phonemic weighting coefficients are associated with the speech sample memory.
EP08708336A 2007-02-05 2008-01-29 Digital method for authenticating a person and arrangement for performing the same Withdrawn EP2122611A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE200710005704 DE102007005704B4 (en) 2007-02-05 2007-02-05 Digital method for authenticating a person and ordering to carry it out
PCT/EP2008/051019 WO2008095827A1 (en) 2007-02-05 2008-01-29 Digital method for authenticating a person and arrangement for performing the same

Publications (1)

Publication Number Publication Date
EP2122611A1 true EP2122611A1 (en) 2009-11-25

Family

ID=39345290

Family Applications (1)

Application Number Title Priority Date Filing Date
EP08708336A Withdrawn EP2122611A1 (en) 2007-02-05 2008-01-29 Digital method for authenticating a person and arrangement for performing the same

Country Status (3)

Country Link
EP (1) EP2122611A1 (en)
DE (1) DE102007005704B4 (en)
WO (1) WO2008095827A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010014934A1 (en) 2010-04-14 2011-10-20 Human Bios Gmbh Method for authenticating or identifying person or device e.g. mobile telephone, involves comparing access to information in storage units in active mode, and triggering test, rejection procedure and/or alerting based on calibration result
CN114360553B (en) * 2021-12-07 2022-09-06 浙江大学 Method for improving voiceprint safety

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0424071A2 (en) * 1989-10-16 1991-04-24 Logica Uk Limited Speaker recognition

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4773093A (en) * 1984-12-31 1988-09-20 Itt Defense Communications Text-independent speaker recognition system and method based on acoustic segment matching
WO1998022936A1 (en) * 1996-11-22 1998-05-28 T-Netix, Inc. Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation
JP2001249684A (en) * 2000-03-02 2001-09-14 Sony Corp Device and method for recognizing speech, and recording medium
US20030163739A1 (en) * 2002-02-28 2003-08-28 Armington John Phillip Robust multi-factor authentication for secure application environments
DE602006010511D1 (en) * 2006-04-03 2009-12-31 Voice Trust Ag Speaker authentication in digital communication networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0424071A2 (en) * 1989-10-16 1991-04-24 Logica Uk Limited Speaker recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of WO2008095827A1 *

Also Published As

Publication number Publication date
WO2008095827A1 (en) 2008-08-14
DE102007005704A1 (en) 2008-08-07
DE102007005704B4 (en) 2008-10-30

Similar Documents

Publication Publication Date Title
EP0821346B1 (en) Method for speaker verification by a computer by means of at least one speech signal spoken in by a speaker
DE69818231T2 (en) METHOD FOR THE DISCRIMINATIVE TRAINING OF VOICE RECOGNITION MODELS
DE60313706T2 (en) Speech recognition and response system, speech recognition and response program and associated recording medium
DE60128270T2 (en) Method and system for generating speaker recognition data, and method and system for speaker recognition
DE102008058883A1 (en) Method and arrangement for controlling user access
DE2347738A1 (en) VOICE RECOGNITION METHOD AND DEVICE FOR IMPLEMENTING THE SAME
WO2008090188A2 (en) Method and arrangement for the creation of a signed text and/or image document
DE2524804A1 (en) METHOD AND DEVICE FOR AUTOMATIC SPEECH RECOGNITION
DE2753707A1 (en) DEVICE FOR DETECTING THE APPEARANCE OF A COMMAND WORD FROM AN INPUT LANGUAGE
DE102006055864A1 (en) Dialogue adaptation and dialogue system for implementation
DE19922974A1 (en) Method and device for processing a document
DE19824354A1 (en) Device for verifying signals
DE3043516C2 (en) Method and device for speech recognition
DE10220521B4 (en) Method and system for processing voice data and classifying calls
WO2001018792A1 (en) Method for training graphemes according to the phoneme rules for voice synthesis
EP0285222B1 (en) Method for detecting associatively pronounced words
EP0595889B1 (en) Method and device for recognizing individual words of spoken speech
EP2137724A1 (en) Digital method and arrangement for authenticating a person
EP2122611A1 (en) Digital method for authenticating a person and arrangement for performing the same
DE4325404C2 (en) Procedure for determining and classifying noise types
DE60104284T2 (en) A method of adapting speaker identification data using operationally obtained speech
DE4012337A1 (en) METHOD FOR RECOGNIZING LANGUAGE
EP1345208A2 (en) Automatic detection of changes of speaker in speaker-adaptive speechrecognition systems
DE102008024257A1 (en) Speaker identification method for use during speech recognition in infotainment system in car, involves assigning user model to associated entry, extracting characteristics from linguistic expression of user and selecting one entry
WO2001009845A1 (en) Biometric recognition method

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20090804

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MT NL NO PL PT RO SE SI SK TR

RIN1 Information on inventor provided before grant (corrected)

Inventor name: PILZ, CHRISTIAN

Inventor name: ASCHENBERNER, BIANCA

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: VOICETRUST GMBH

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: VOICETRUST IP GMBH, IN LIQUIDATION

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: VOICETRUST ESERVICES CANADA INC.

17Q First examination report despatched

Effective date: 20150917

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20160128