WO2022022948A1 - Voice assistance system and method for voice-based support - Google Patents

Voice assistance system and method for voice-based support Download PDF

Info

Publication number
WO2022022948A1
WO2022022948A1 PCT/EP2021/068566 EP2021068566W WO2022022948A1 WO 2022022948 A1 WO2022022948 A1 WO 2022022948A1 EP 2021068566 W EP2021068566 W EP 2021068566W WO 2022022948 A1 WO2022022948 A1 WO 2022022948A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
acoustics
language
assistance system
recognized
Prior art date
Application number
PCT/EP2021/068566
Other languages
German (de)
French (fr)
Inventor
Ingo Siegert
Norman Weißkirchen
Andreas Wendemuth
Original Assignee
Otto-Von-Guericke-Universität Magdeburg
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Otto-Von-Guericke-Universität Magdeburg filed Critical Otto-Von-Guericke-Universität Magdeburg
Publication of WO2022022948A1 publication Critical patent/WO2022022948A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

The invention relates to a voice assistance system for the voice-based support of a user. The voice assistance system is designed, in accordance with the type in question, to recognize voice acoustics and to determine whether or not the recognized voice acoustics were directed to the voice assistance system. If the voice acoustics were directed to the voice assistance system, a support function is performed by the voice assistance system in accordance with the linguistic content of the voice acoustics. The invention also relates to a method and a computer program therefor.

Description

Sprachassistenzsystem und Verfahren zur sprachbasierten Unterstützung Language assistance system and method for language-based support
Die Erfindung betrifft ein Sprachassistenzsystem zur sprachbasierten Unterstützung eines Nutzers, wobei das Sprachassistenzsystem gattungsgemäß eingerichtet ist, eine Sprachakustik zu erkennen und festzustellen, ob die erkannte Sprachakustik an das Sprachassistenzsystem gerichtet war oder nicht, wobei eine Unterstützungsfunk tion durch das Sprachassistenzsystem in Abhängigkeit von dem sprachlichen Inhalt der Sprachakustik ausgeführt wird, wenn die Sprachakustik an das Sprachassistenz system gerichtet war. Die Erfindung betrifft ebenso ein Verfahren sowie ein Compu terprogramm hierzu. The invention relates to a language assistance system for language-based support of a user, the language assistance system being set up generically to recognize speech acoustics and to determine whether the recognized speech acoustics were directed to the language assistance system or not, with a support function being activated by the language assistance system depending on the language content of the speech acoustics is carried out if the speech acoustics were directed to the speech assistance system. The invention also relates to a method and a computer program for this purpose.
Es gibt viele verschiedene Formen einer Mensch-Maschine-Schnittsteile. Eine der in tuitivsten Formen, eine Mensch-Maschine-Schnittsteile zu etablieren, ist die sprach- basierte Kommunikation zwischen Mensch und Maschine mittels eines Sprachassis- tenzsystems. Gattungsgemäß werden hierbei permanent die auditiv wahrnehmbaren Schallsignale durch eine auditive Sensorvorrichtung (Aufnahmeeinrichtung) erfasst und eine entsprechende Sprachakustik identifiziert. Mittels Spracherkennungsalgo rithmen wird dann der sprachliche Inhalt der Sprachakustik extrahiert und basierend auf dem sprachlichen Inhalt dann eine Unterstützungsfunktion ausgewählt und durch das Assistenzsystem oder einer nachgelagerten (künstlichen) Vorrichtung ausge führt. There are many different forms of a man-machine interface. One of the most intuitive forms of establishing a human-machine interface is voice-based communication between human and machine using a voice assistance system. According to the generic type, the auditory perceptible sound signals are permanently recorded by an auditory sensor device (recording device) and a corresponding speech acoustic is identified. The linguistic content of the speech acoustics is then extracted by means of speech recognition algorithms and a support function is then selected based on the linguistic content and executed by the assistance system or a downstream (artificial) device.
Derartige Sprachassistenzsystem bieten somit natürlichen Personen die Möglichkeit, Eingaben an das Assistenzsystem mittels Sprache durchzuführen, wobei das Sprachassistenzsystem den sprachlichen Inhalt der gesprochenen Sprachakustik als Eingabe versteht und entsprechend reagiert. Derartige Reaktionen können beispiels weise wiederum Sprachausgaben sein, wenn die zuvor getätigte Eingabe als Sprachakustik eine Frage an das Assistenzsystem enthielt. Derartige Reaktionen können aber auch das Schalten von Aktoren oder das Durchführen von Berechnun gen sein. Such language assistance systems thus offer natural persons the opportunity to make inputs to the assistance system using speech, with the language assistance system understanding the linguistic content of the spoken speech acoustics as an input and reacting accordingly. Such reactions can, for example, in turn be voice output if the previously made input contained a question to the assistance system in the form of voice acoustics. Such reactions but can also be the switching of actuators or the execution of calculations.
Dabei existieren derzeit zwei große Problemfelder. Zum einen müssen derartige Sprachassistenzsystem die in der Sprachakustik enthaltenen sprachlichen Inhalte prozesssicher erkennen können. Natürliche Sprache jedoch ist fehlerbehaftet und kann einen großen Interpretationsspielraum aufweisen. Meist nur unter Kenntnis ei nes konkreten Kontextes lässt sich dann mit hoher Wahrscheinlichkeit feststellen, was tatsächlich gemeint ist. Diesen sprachlichen Kontext maschinell zu erfassen, ist algorithmisch eine große Herausforderung und nicht selten ebenfalls fehlerbehaftet, da zur Ermittlung des sprachlichen Kontextes auch nonverbale Kanäle, wie beispiels weise prosodische Eigenschaften der Sprache, Mimik oder Gesten eine große Rolle spielen. Durch die immer weiter voranschreitende Leistungsfähigkeit moderner Com putersysteme sowie den Entwicklungen im Bereich der Kl konnte in den letzten Jah ren eine signifikante Steigerung der Erkennungsrate von sprachlichen Inhalten einer natürlichen Sprachakustik erreicht werden, wodurch die sprachbasierte Mensch-Ma- schine-Schnittstelle in vielen Bereichen des alltäglichen Lebens Einzug erhalten hat. There are currently two major problem areas. On the one hand, such speech assistance systems must be able to reliably recognize the linguistic content contained in the speech acoustics. However, natural language is prone to errors and can have a great deal of room for interpretation. Usually only with knowledge of a specific context can it be determined with a high degree of probability what is actually meant. Automatically capturing this linguistic context is a major challenge in terms of algorithms and is often also prone to errors, since non-verbal channels, such as prosodic properties of language, facial expressions or gestures, also play a major role in determining the linguistic context. Due to the ever-increasing performance of modern computer systems and developments in the field of AI, a significant increase in the recognition rate of spoken content of natural speech acoustics has been achieved in recent years, which means that the speech-based human-machine interface has become increasingly important in many areas of the human found its way into everyday life.
Das zweite große Problemfeld besteht darin, dass ein Sprachassistenzsystem von sich aus feststellen muss, ob eine gesprochene Sprachakustik an das Sprachassis tenzsystem gerichtet ist oder nicht. Bei einer natürlichen Sprachkommunikation zwi schen Menschen erfolgt eine solche Feststellung oftmals nur unter Kenntnis anderer Kommunikationskanäle, wie beispielsweise Blickkontakt, Mimik oder prosodischen Eigenschaften, was einem Sprachassistenzsystem derzeit verwehrt bleibt. Sprachas sistenzsystem müssen demnach einzig und allein basierend auf der empfangenen und erkannten Sprachakustik feststellen, ob die Sprachakustik an das Sprachassis tenzsystem gerichtet ist und demzufolge eine Reaktion erwartet wird odernicht. The second major problem area is that a voice assistance system has to determine for itself whether spoken speech acoustics are directed at the voice assistance system or not. In the case of natural language communication between people, such a determination is often only made with knowledge of other communication channels, such as eye contact, facial expressions or prosodic properties, which is currently denied to a voice assistance system. Speech assistance systems must therefore determine solely based on the received and recognized speech acoustics whether the speech acoustics are directed to the speech assistance system and consequently a reaction is expected or not.
Es ist bekannt, das Sprachassistenzsysteme gewisse Schlüsselwörter bzw. Kom mandowörter erkennen und anhand dieser Erkennung darauf schließen, dass die Sprachakustik bzw. die folgende Sprachakustik an sie gerichtet sind. Gerade im Be reich der Hausautomation finden sich eine Reihe von derartigen Sprachassistenzsys- temen, die auf ganz spezielle Kommandowörter reagieren und dann entsprechend die Sprachakustik hinsichtlich der darin enthaltenen natürlichen Sprache analysieren und entsprechende Unterstützungsfunktionen daraufhin ausführen. So kann eine Sprachsteuerung realisiert werden, mit der sich beispielsweise die Beleuchtung oder andere Dinge im Haus steuern lassen. It is known that language assistance systems recognize certain keywords or command words and use this recognition to conclude that the speech acoustics or the following speech acoustics are directed at them. In the area of home automation in particular, there are a number of such voice assistance systems that react to very special command words and then analyze the voice acoustics with regard to the natural language contained therein and then execute appropriate support functions. Voice control can be implemented with which, for example, the lighting or other things in the house can be controlled.
Nachteilig hierbei ist jedoch, dass die Erkennung von Kommandowörtern fehleranfäl lig ist. Denn das Sprachassistenzsystem kann nicht unterscheiden, ob das gespro chene Kommandowort im Kontext der gesamten Sprachakustik dazu dient, das Sprachassistenzsystem zu bedienen oder ob das gesprochene Kommandowort im Kontext Teil einer Konversation zwischen zwei Personen ist. Es kann daherdazu führen, dass das Sprachassistenzsystem fälschlicherweise annimmt, die aufgenom mene und erkannte Sprachakustik sei an das System gerichtet, obwohl die erkannte Sprachkommunikation Teil einer zwischenmenschlichen Sprachkommunikation ist und das Sprachassistenzsystem selber gar nicht gemeint ist. Dies ist deshalb proble matisch, da das Sprachassistenzsystem grundsätzlich jedes auditivwahrnehmbare Schallsignal empfängt und verarbeitet, um zur richtigen Zeit das an das Sprachkom munikationssystem gerichtete Kommando Wort auch erkennen zu können. The disadvantage here, however, is that the recognition of command words is error-prone. This is because the voice assistance system cannot distinguish whether the spoken command word is used in the context of the entire speech acoustics to operate the voice assistance system or whether the spoken command word is part of a conversation between two people in the context. It can therefore lead to the voice assistance system incorrectly assuming that the recorded and recognized voice acoustics are directed to the system, although the recognized voice communication is part of an interpersonal voice communication and the voice assistance system itself is not meant at all. This is problematic because the voice assistance system basically receives and processes every auditory sound signal in order to be able to recognize the command word directed to the voice communication system at the right time.
Andere Umstände hingegen, wie beispielsweise eine qualitativ schlechte Sprachqua- lität bzw. Aufnahmequalität, können hingegen dazu führen, dass das Sprachassis tenzsystem trotz eines gesprochenen Kommandowortes die aufgenommene Sprach akustik nicht als an sich gerichtet erkennt und somit keine Funktion ausführt. On the other hand, other circumstances, such as poor voice quality or recording quality, can mean that the voice assistance system does not recognize the recorded voice acoustics as directed and therefore does not carry out a function, despite a spoken command word.
Es ist daher Aufgabe der vorliegenden Erfindung ein verbessertes Sprachassistenz system sowie Verfahren zur sprachbasierten Unterstützung anzugeben, mit dem sich die Erkennungsrate bezüglich des Ansprecheverhaltensvon Sprachassistenzsyste- men erhöhen lässt. It is therefore the object of the present invention to specify an improved language assistance system and method for language-based support, with which the recognition rate with regard to the response behavior of language assistance systems can be increased.
Die Aufgabe wird mit dem Sprachassistenzsystem gemäß Anspruch 1 sowie dem Verfahren gemäß Anspruch 8 erfindungsgemäß gelöst. Vorteilhafte Ausgestaltungen der Erfindung finden sich in den entsprechenden Unteransprüchen. The object is achieved with the language assistance system according to claim 1 and the method according to claim 8 according to the invention. Advantageous configurations of the invention can be found in the corresponding subclaims.
Gemäß Anspruch 1 wird ein Sprachassistenzsystem zur sprachbasierten Unterstüt zung eines Nutzers vorgeschlagen, dass zunächst eine Aufnahmeeinrichtung hat, um auditiv wahrnehmbare Schallsignale aufnehmen zu können. Eine derartige Auf nahmeeinrichtung kann beispielsweise einen Schallsensor (Mikrofon) aufweisen, der ein auditiv wahrnehmbares Schallsignalen empfängt und in ein digitales Signal um wandelt. According to claim 1, a language assistance system for language-based support of a user is proposed that initially has a recording device, in order to be able to record auditory perceptible sound signals. Such a recording device can, for example, have a sound sensor (microphone) that receives an audible sound signal and converts it into a digital signal.
Das Sprachassistenzsystem weist gattungsgemäß des Weiteren eine Erkennungs einrichtung auf, die beispielsweise mittels einer mikroprozessorgesteuerten Rechen einheit in den aufgenommenen auditiv wahrnehmbaren Schallsignalen eine Sprach- akustik erkennt und daraus sprachbasierte Informationen extrahiert. Die Erkennungs einrichtung ist demzufolge so ausgebildet, dass sie eine Sprachanalyse durchführt und so beispielsweise anhand von Modellen aus der Sprachakustik die darin enthal tenen sprachbasierten Informationen extrahiert. Derartige sprachbasierte Informatio nen können neben den sprachlichen Inhalten (d. h. den gesprochenen Wörtern der in der Sprachakustik enthaltenen Sprachkommunikation) auch weitere sprachbasierte Informationen enthalten, wie beispielsweise prosodische Eigenschaftender Sprach akustik. Unter den prosodischen Eigenschaften werden dabei insbesondere ein jene Eigenschaften der Sprache im Sinne der vorliegenden Erfindung verstanden, die sich nicht auf die sprachlichen Inhalte, d. h. die gesprochenen Wörter, beziehen. Dies um fasst insbesondere Akzente, Tonsprache, Intonation, Quantität, Tempo, Rhythmus, Pausen beim Sprechen und dergleichen. Sprachbasierte Informationen, die aus den auditiv wahrnehmbaren Schallsignalen einer Sprachakustik extrahiert wurden, kön nen somit insbesondere sprachliche Inhalte und/oder prosodische Eigenschaften der Sprachakustik bzw. der gesprochenen Inhalte enthalten. The speech assistance system also has a generic recognition device which, for example by means of a microprocessor-controlled processing unit, recognizes speech acoustics in the recorded auditory sound signals and extracts speech-based information from them. The recognition device is therefore designed in such a way that it carries out a speech analysis and thus, for example, using models from the speech acoustics, extracts the speech-based information contained therein. In addition to the linguistic content (i.e. the spoken words of the speech communication contained in the speech acoustics), such language-based information can also contain further language-based information, such as prosodic properties of the speech acoustics. The prosodic properties are understood in particular as those properties of the language within the meaning of the present invention that do not relate to the linguistic content, i. H. the spoken words. This includes in particular accents, tonal language, intonation, quantity, tempo, rhythm, pauses in speaking and the like. Speech-based information, which was extracted from the auditory perceptible sound signals of speech acoustics, can therefore contain, in particular, speech content and/or prosodic properties of the speech acoustics or of the spoken content.
Das Sprachassistenzsystem weist gattungsgemäß des Weiteren eine Aktivierungs einrichtung auf, die beispielsweise ebenfalls mittels einer mikroprozessorgesteuerten Recheneinheit basierend auf einem Sprachmodell in Abhängigkeit von den extrahier ten sprachbasierten Informationen erkennt, ob die erkannte Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht. Die Aktivierungseinrichtung kann so mit eine Aktivierungsabsicht in Abhängigkeit von den extrahierten sprachbasierten In formationen erkennen. Eine Aktivierungsabsicht meint hierbei, dass der Nutzer das Sprachassistenzsystem bewusst anspricht, um eine Sprachkommunikation aufzu bauen. Basierend auf dieser Erkennung, ob die Sprachakustik bzw. Sprachkommunikation an das Sprachassistenzsystem gerichtet war oder nicht, wird das Sprachassistenz- system zur sprachbasierten Unterstützung aktiviert, nicht aktiviert oder wiederum de aktiviert. Wurde die Sprachakustik als an das Sprachassistenzsystem gerichtet er kannt, so wird demzufolge mittels der Aktivierungseinrichtung das Sprachassistenz system aktiviert bzw. in einem aktivierten Zustand versetzt. Wurde die Sprachakustik hingegen als an das Sprachassistenzsystem nicht gerichtet erkannt, so wird demzu folge mittels der Aktivierungseinrichtung das Sprachassistenzsystem nicht aktiviert oder gegebenenfalls deaktiviert (sofern es zuvor aktiviert war) bzw. in einem nicht ak tivierten Zustand versetzt. Die Erkennungseinrichtung und die Aktivierungseinrich tung können dabei baulich eine Einheit darstellen. The voice assistance system generically also has an activation device which, for example, also uses a microprocessor-controlled computing unit based on a language model depending on the extracted language-based information to identify whether the recognized speech acoustics are directed to the voice assistance system or not. The activation device can thus recognize an intention to activate as a function of the extracted language-based information. In this case, an intention to activate means that the user consciously addresses the language assistance system in order to establish voice communication. Based on this recognition of whether the speech acoustics or speech communication was directed to the speech assistance system or not, the speech assistance system for speech-based support is activated, not activated or deactivated again. If the speech acoustics were known to be directed to the speech assistance system, the speech assistance system is consequently activated or put into an activated state by means of the activation device. If, on the other hand, the speech acoustics were recognized as not being addressed to the speech assistance system, the speech assistance system is consequently not activated or, if necessary, deactivated (if it was previously activated) or put into a non-activated state by means of the activation device. The detection device and the activation device can represent a structural unit.
Schließlich weist das Sprachassistenzsystem gattungsgemäß eine Assistenzeinrich tung auf, die eingerichtet ist, in Abhängigkeit von extrahierten sprachbasierten Infor mationen eine Unterstützungsfunktion auszuwählen und zur sprachbasierten Unter stützung des Nutzers auszuführen, sofern das Sprachassistenzsystem zuvor durch die Aktivierungseinrichtung aktiviert wurde. Finally, the language assistance system generically has an assistance device that is set up to select a support function depending on extracted language-based information and to execute it for language-based support of the user, provided that the language assistance system has previously been activated by the activation device.
Dies bedeutet, dass beispielsweise in einer Sprachakustik durch die Aktivierungsein richtung ein Kommandowort erkannt wurde, was dazu führt, dass die Aktivierungs einrichtung das Sprachassistenzsystem in einem aktivierten Zustand versetzt und die weiterhin in der Sprachakustik enthaltenen sprachbasierten Informationen zur Aus wahl der Unterstützungsfunktion verwendet. Dies ist in der Regel dann der Fall, wenn die Sprachakustik neben dem Kommandowort auch die Anweisung an das Sprach assistenzsystem enthält. Neben dem Kommandowort zur Erkennung einer Aktivie rungsabsicht ist es alternativ oder zusätzlich aber auch möglich, dass basierend auf prosodischen Eigenschaften, die in den extrahierten sprachbasierten Informationen enthalten sind, eine Aktivierungsabsicht erkannt wird. Es wird somit anhand von pro sodischen Eigenschaften festgestellt, ob die erfasste Sprachakustik an das Sprach assistenzsystem gerichtet ist oder nicht. This means that, for example, a command word was recognized in a voice acoustic by the activation device, which means that the activation device puts the voice assistance system into an activated state and uses the language-based information still contained in the voice acoustic to select the support function. This is usually the case when the speech acoustics contain the instruction to the voice assistance system in addition to the command word. In addition to the command word for recognizing an intention to activate, it is also possible, alternatively or additionally, for an intention to activate to be recognized based on prosodic properties that are contained in the extracted language-based information. It is thus determined on the basis of per sodic properties whether the recorded speech acoustics are directed to the speech assistance system or not.
Das Sprachassistenzsystem kann alternativ oder zusätzlich darüber hinaus auch ein gerichtet sein, in einer ersten Sprachakustik das entsprechende Kommandowort zu erkennen, woraufhin das Sprachassistenzsystem durch die Aktivierungseinrichtung in den aktivierten Zustand versetzt wird, wobei in einer danach empfangenen und er kannten zweiten Sprachakustik dann die entsprechenden Anweisungen an das Sprachassistenzsystem enthalten sind, die dann zur Auswahl und Umsetzung der Unterstützungsfunktion verwendet werden. In diesem Fall sind das Kommandowort und die Anweisungen an das Sprachassistenzsystem in jeweils voneinander ver schiedenen Sprachakustiken enthalten. Nach der ersten Sprachakustik, die von dem Sprachassistenzsystem empfangen wurde, kann das Sprachassistenzsystem gege benenfalls eine Bestätigung in sprachlicher Form an den Nutzer ausgeben, um den Nutzer darüber zu informieren, dass das Sprachassistenzsystem nunmehr auf die an das Sprachassistenzsystem gerichtet und Anweisungen wartet. Das Sprachassis tenzsystem befindet sich demnach nach der ersten Sprachakustik für einengewissen Zeitraum in einem aktivierten Zustand und erwartet demnach eine zweite Sprach akustik. Alternatively or additionally, the language assistance system can also be directed to recognizing the corresponding command word in a first speech acoustics, whereupon the language assistance system is triggered by the activation device is put into the activated state, with the corresponding instructions to the language assistance system then being contained in a second speech acoustics received and recognized thereafter, which are then used for the selection and implementation of the support function. In this case, the command word and the instructions to the voice assistance system are contained in different voice acoustics. After the first speech acoustics received by the speech assistance system, the speech assistance system can, if appropriate, issue a confirmation in spoken form to the user to inform the user that the speech assistance system is now waiting for the instructions addressed to the speech assistance system. The voice assistance system is therefore in an activated state for a certain period of time after the first voice acoustic signal and accordingly expects a second voice acoustic signal.
Darüber hinaus kann das Sprachassistenzsystem alternativ oder zusätzlich auch ein gerichtet sein, mittels der Aktivierungseinrichtung anhand von prosodischen Eigen schaften der erkannten Sprachakustik zu erkennen, ob die erkannte Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht. In addition, the voice assistance system can alternatively or additionally also be directed to use the activation device to recognize, based on prosodic properties of the recognized voice acoustics, whether the recognized voice acoustics is directed to the voice assistance system or not.
Ein solches gattungsgemäßes Sprachassistenzsystem wird nun dahingehend erfin dungsgemäß weitergebildet, dass in einem digitalen Datenspeicher eine erste Sprachakustik und/oder die aus der ersten Sprachakustik extrahierten sprachbasier- ten Informationen hinterlegt werden und dass eine Adaptionseinrichtung vorgesehen ist, die eingerichtet ist, das Sprachmodell in Abhängigkeit von der zuvor in dem Da tenspeicher hinterlegten ersten Sprachakustik und/oder den aus der ersten Sprach akustik extrahierten sprachbasierten Informationen anzupassen, wenn bei der ersten Sprachakustik eine Unsicherheit und/oder Fehlerhaftigkeit darüber bestand, ob die erste Sprachakustik an das Sprachassistenzsystem gerichtet war oder nicht, und diese Unsicherheit und/oder Fehlerhaftigkeit durch eine auf die erste Sprachakustik zeitlich nachfolgende erkannte oder durch erkanntes Ausbleiben einer entsprechen den zweite Sprachakustik ausgeräumt wird. Es wird somit die erste Sprachakustik bzw. die aus der ersten Sprachakustik extra hierten sprachbasierten Informationen dazu verwendet, um das Sprachmodell anzu passen, wenn eine entsprechende Unsicherheit und/oder Fehlerhaftigkeit darüber er kannt wurde, ob die erste Sprachakustik an das Sprachassistenzsystem gerichtet war oder nicht. Diese Unsicherheit und/oder Fehlerhaftigkeit wird dabei durch eine auf die erste Sprachakustik folgende zweite Sprachakustik oder dem Ausbleiben ei ner solchen zweiten Sprachakustik erkannt. Such a generic language assistance system is now further developed according to the invention such that a first speech acoustics and/or the speech-based information extracted from the first speech acoustics is stored in a digital data memory and that an adaptation device is provided which is set up to adapt the speech model as a function of adapt the first speech acoustics previously stored in the data memory and/or the speech-based information extracted from the first speech acoustics if there was uncertainty and/or errors in the first speech acoustics as to whether the first speech acoustics was directed to the speech assistance system or not, and this uncertainty and/or error is eliminated by a corresponding second speech acoustic detected after the first speech acoustic or by a detected absence. The first speech acoustics or the language-based information extracted from the first speech acoustics is thus used to adapt the speech model if a corresponding uncertainty and/or error was recognized as to whether the first speech acoustics was directed to the speech assistance system or not . This uncertainty and/or error is recognized by a second voice acoustic following the first voice acoustic or the absence of such a second voice acoustic.
Eine Unsicherheit darüber, ob eine erste Sprachakustik an das Sprachassistenzsys tem gerichtet war oder nicht, tritt in der Regel immer dann auf, wenndie Aktivierungs einrichtung nicht mit hinreichender Sicherheit erkennen kann, ob die Sprachakustik nun anders Sprachassistenzsystem gerichtet war oder nicht. Diese hinreichende Si cherheit wird beispielsweise über einen Schwellwert (beispielsweise einen prozentu alen Schwellwert oder einem Schwellwert zwischen 0 und 1 ) abgebildet. Das System kann dabei die Erkennung der Aktivierungsabsicht in mindestens drei Bereiche unter teilen. Der erste Bereich wird immer dann verwendet, wenn keine Unsicherheit über eine Aktivierungsabsicht besteht. Der zweite Bereich wird immer dann verwendet, wenn das System unsicher darüber ist, ob eine Aktivierungsabsicht vom Nutzer vor lag oder nicht (es liegt eine Unsicherheit vor). Der dritte Bereich wird immer dannver wendet, wenn das System mit Sicherheit erkennen kann, dass eine Aktivierungsab sicht nicht vorliegt. Unsicherheit ist Systemsicht. Uncertainty as to whether an initial speech acoustic was directed at the speech assistance system or not usually occurs when the activation device cannot identify with sufficient certainty whether the speech acoustic was directed at a different speech assistance system or not. This adequate level of security is represented, for example, via a threshold value (for example a percentage threshold value or a threshold value between 0 and 1). The system can divide the recognition of the intention to activate into at least three areas. The first area is always used when there is no uncertainty about an intention to activate. The second area is always used when the system is unsure whether the user intended to activate or not (there is uncertainty). The third area is used whenever the system can determine with certainty that an activation intent is not present. Uncertainty is a system view.
So kann ein erster Schwellwert angeben, dass die Sprachakustik mit hinreichender Sicherheit an das Sprachassistenzsystem gerichtet ist. Ein zweiter Schwellwert kann gegenüber dessen angeben, dass die Sprachakustik mithinreichender Sicherheit nicht an das Sprachassistenzsystem gerichtet ist. Wird weder der erste noch der zweite Schwellwert überschritten, kann das Sprachassistenzsystem nicht mit hinrei chender Sicherheit annehmen, dass die Sprachakustik an das Sprachassistenzsys tem gerichtet ist oder eben gerade nicht an das Sprachassistenzsystem gerichtet ist. In den meisten Fällen erfolgt bei einer Unsicherheit in der Regel keineAktivierung. A first threshold value can thus indicate that the speech acoustics are directed to the speech assistance system with sufficient certainty. In contrast, a second threshold value can indicate that the speech acoustics are not directed to the speech assistance system with sufficient certainty. If neither the first nor the second threshold value is exceeded, the speech assistance system cannot assume with sufficient certainty that the speech acoustics are directed at the speech assistance system or are not directed at the speech assistance system. In most cases, there is usually no activation if there is uncertainty.
Ein solcher Schwellenwert bzw. die mehreren Schwellenwerte können dabei Be standteil des Sprachmodells sein, auf deren Basis entschieden wird, ob die erkannte Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht. So kann die Anpassung des Sprachmodells beispielsweise dadurch erfolgen, dass die Werte der Schwellenwerte des Sprachmodells entsprechend verändert werden, um so eine ver besserte Entscheidungsgrundlage zu generieren. Such a threshold value or the plurality of threshold values can be part of the speech model, on the basis of which a decision is made as to whether the recognized speech acoustics are directed to the speech assistance system or not. That's how she can The language model can be adapted, for example, by changing the values of the threshold values of the language model accordingly, in order to generate an improved decision basis in this way.
Eine Fehlerhaftigkeit besteht dann, wenn die Aktivierungseinrichtung das Sprachas- sistenzsystem aktiviert hat, obwohl die Sprachakustik nicht an das Sprachassistenz- system gerichtet war oder wenn die Aktivierungseinrichtung dasSprachassistenzsys- tem nicht aktiviert hat oder deaktiviert hat, obwohl die Sprachakustik definitiv an das Sprachassistenzsystem gerichtet war. Dies kann beispielsweise durch den Inhalt der zweiten Sprachakustik erkannt werden oder dadurch, dass eine auf die erste Sprach akustik folgende zweite Sprachakustik ausbleibt und somit dieses Ausbleiben einer zweiten Sprachakustik erkannt wird. Fehlerhaftigkeit ist Nutzersicht. A fault exists when the activation device has activated the voice assistance system although the voice acoustics were not directed at the voice assistance system or when the activation device has not activated or deactivated the voice assistance system although the voice acoustics were definitely directed at the voice assistance system. This can be recognized, for example, by the content of the second voice acoustic or by the fact that a second voice acoustic following the first voice acoustic is absent and this absence of a second voice acoustic is thus recognized. Incorrectness is the user's point of view.
Die Tatsache, ob eine Unsicherheit oder Fehlerhaftigkeit vorlag, kann meist durch wenigstens eine zweite Sprachakustik erkannt und gegebenenfalls ausgeräumt wer den. In diesem Fall werden jedoch die zuvor in dem digitalen Datenspeicher hinter legten extrahierten sprachbasierten Informationen der ersten Sprachakustik dazu verwendet, das Sprachmodell zur Erkennung, ob die Sprachakustik an das Sprach assistenzsystem gerichtet ist oder nicht, dahingehend anzupassen, dass es zukünftig derartige Unsicherheiten und/oder Fehlerhaftigkeit und bei der Erkennung der An sprache des Assistenzsystems vermeidet bzw. die Unsicherheitsrate und/oder Feh lerrate verringert. The fact of whether there was uncertainty or an error can usually be recognized by at least one second speech acoustic and, if necessary, eliminated. In this case, however, the extracted speech-based information from the first speech acoustics previously stored in the digital data memory is used to adapt the speech model for detecting whether the speech acoustics is directed to the speech assistance system or not so that such uncertainties and/or Incorrectness and when recognizing the response of the assistance system is avoided or the uncertainty rate and/or error rate is reduced.
Es hat sich gezeigt, dass eine solche nachträgliche Anpassung des Sprachmodells bei einer bestehenden Unsicherheit oder Fehlerhaftigkeit, ob das Sprachassistenz system durch eine Sprachakustik angesprochen wurden ist oder nicht, basierend auf derjenigen Sprachakustik, die fehlerhaft oder und sicher erkannt wurde, zu einem verbesserten Aktivierungsverhalten des Sprachassistenzsystems führt, sodass die Akzeptanz derartiger Sprachassistenzsystem deutlich gesteigert werden kann. It has been shown that such a subsequent adjustment of the speech model in the event of an existing uncertainty or error as to whether the speech assistance system has been addressed by speech acoustics or not, based on the speech acoustics that were incorrectly or reliably recognized, leads to improved activation behavior of the Language assistance system leads so that the acceptance of such language assistance system can be significantly increased.
Gemäß einer Ausführungsform ist vorgesehen, dass das Sprachassistenzsystem ein gerichtet ist, mittels der Adaptionseinrichtung das Sprachmodell in Abhängigkeit von der zuvor hinterlegten ersten Sprachakustik und/oder den aus der ersten Sprach- akustik extrahierten sprachbasierten Informationen anzupassen, wenn innerhalb ei nes gewissen Zeitraumes nach der ersten Sprachakustik die zweite Sprachakustik erkannt oder innerhalb des gewissen Zeitraumes das Ausbleiben der zweiten Sprachakustik erkannt wird. According to one embodiment, it is provided that the language assistance system is set up to use the adaptation device to adapt the language model as a function of the previously stored first speech acoustics and/or the data from the first speech acoustically extracted speech-based information if within a certain period of time after the first speech acoustics the second speech acoustics is recognized or within the certain period of time the absence of the second speech acoustics is recognized.
Demnach sollte die zweite Sprachakustik innerhalb eines gewissen Zeitraumes nach dem Empfang bzw. dem Erkennen der ersten Sprachakustik empfangen bzw. er kannt werden, um aufgrund des zeitlichen Bezuges einen kontextuellen Zusammen hang beider Sprachakustiken herzustellen. Die erste Sprachakustik bzw. die aus der ersten Sprachakustik extrahierten sprachbasierten Informationen, wie beispielsweise prosodische Eigenschaften oder sprachbasierte Informationen, werden dann zur An passung des Sprachmodells verwendet, dann diesem Fall davon ausgegangen wer den kann, dass die erste Sprachakustik und die zweite Sprachakustik in einem kon textuellen Zusammenhang stehen und somit zusammengehören. Accordingly, the second speech acoustics should be received or recognized within a certain period of time after the receipt or recognition of the first speech acoustics in order to establish a contextual connection between the two speech acoustics based on the temporal reference. The first speech acoustics or the language-based information extracted from the first speech acoustics, such as prosodic properties or language-based information, are then used to adapt the language model. In this case, it can be assumed that the first speech acoustics and the second speech acoustics in one contextual connection and thus belong together.
Dabei kann es auch vorgesehen sein, dass innerhalb des gewissen Zeitraumes keine weitere zweite Sprachakustik erkannt wird (das Ausbleiben einer folgenden zweiten Sprachakustik wird erkannt), sodass davon auszugehen ist, dass die Erken nung der ersten Sprachakustik fehlerhaft war. Dies ist meist dann der Fall, wenn die erste Sprachakustik fehlerhafterweise als an das Sprachassistenzsystem gerichtet erkannt wurde, was von dem Sprecher jedoch nicht beabsichtigt war. Der Sprecher bleibt nun für den gewissen Zeitraum stumm und erzeugt keine weitere Sprachakus tik, sodass das Sprachassistenzsystem nunmehr annimmt, dass die ursprüngliche erste Sprachakustik nicht an das Sprachassistenzsystem gerichtet war. In diesem Fall wird ebenfalls die erste Sprachakustik bzw. die aus der ersten Sprachakustik extrahierten sprachbasierten Informationen zur Anpassung des Sprachmodells ver wendet. It can also be provided that no further second speech acoustic is recognized within the certain period of time (the absence of a following second speech acoustic is recognized), so that it can be assumed that the recognition of the first speech acoustic was faulty. This is usually the case when the first speech acoustics were erroneously recognized as being directed to the speech assistance system, which the speaker did not intend to do. The speaker now remains silent for a certain period of time and does not produce any further speech acoustics, so that the speech assistance system now assumes that the original first speech acoustics were not directed at the speech assistance system. In this case, the first speech acoustics or the speech-based information extracted from the first speech acoustics is used to adapt the speech model.
Gemäß einer Ausführungsform hierzu ist vorgesehen, dass das Sprachassistenzsys tem eingerichtet ist, den gewissen Zeitraum in Abhängigkeit von mindestens einem akustischen Qualitätskriterium der ersten Sprachakustik festzulegen oder zu variie ren. Solche akustischen Qualitätskriterien können beispielsweise das Signal-Rausch- Verhältnis bzw. der Signal-Rausch-Abstand, schon erfolgte Fehlaktivierungen, An zahl der Sprecher, etc. sein. Dabei ist es denkbar, dass an diesen gewissen Zeitraum, der beispielsweise wenige Sekunden betragen kann (vorzugsweise weniger als 10 Sekunden, sonders vorzugs weise weniger als 5 Sekunden), auch die Speicherdauer der ersten Sprachakustik bzw. der aus der ersten Sprachakustik extrahierten sprachbasierten Informationen gekoppelt ist, sodass nach einer gewissen Zeit diese Informationen aus dem digita len Datenspeicher wieder gelöscht werden. According to one embodiment, it is provided that the language assistance system is set up to define or vary the certain period of time depending on at least one acoustic quality criterion of the first speech acoustics -Distance, incorrect activations that have already taken place, number of speakers, etc. It is conceivable that the storage duration of the first speech acoustic or the speech-based information extracted from the first speech acoustic is linked to this certain period of time, which can be a few seconds, for example (preferably less than 10 seconds, particularly preferably less than 5 seconds). so that after a certain period of time this information is deleted from the digital data storage.
Gemäß einer Ausführungsform ist vorgesehen, dass die Erkennungseinrichtung ein gerichtet ist, prosodische Eigenschaften der ersten Sprachakustik als Teil der sprachbasierten Informationen aus der ersten Sprachakustik zu extrahieren, die Akti vierungseinrichtung eingerichtet ist, basierend auf dem Sprachmodell in Abhängigkeit von den in den extrahierten sprachbasierten Informationen enthaltenen prosodischen Eigenschaften der ersten Sprachakustik zu erkennen, ob die erkannte Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht, und die Adaptionseinrichtung eingerichtet ist, das Sprachmodell hinsichtlich der prosodischen Erkennung in Ab hängigkeit von der zuvor in dem Datenspeicher hinterlegten ersten Sprachakustik, den aus der ersten Sprachakustik extrahierten sprachbasierten Informationen und/o der den in den extrahierten sprachbasierten Informationen enthaltenen prosodischen Eigenschaften der ersten Sprachakustik anzupassen. According to one embodiment it is provided that the recognition device is set up to extract prosodic properties of the first speech acoustics as part of the speech-based information from the first speech acoustics, the activation device is set up based on the language model depending on the extracted speech-based information prosodic properties of the first speech acoustics to recognize whether the recognized speech acoustics is directed to the voice assistance system or not, and the adaptation device is set up to adapt the language model with regard to the prosodic recognition as a function of the first speech acoustics previously stored in the data memory, the one from the first speech acoustics extracted language-based information and / o to adapt the prosodic properties of the first speech acoustics contained in the extracted language-based information.
In dieser Ausführungsform wird das Sprachmodell hinsichtlich der prosodischen Er kennung, ob die Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht, angepasst, sodass zukünftig die Erkennungsrate verbessert und die Unsicher heitsrate bzw. Fehlerrate verringert werden kann. In this embodiment, the language model is adapted with regard to the prosodic recognition of whether the speech acoustics are directed to the voice assistance system or not, so that the recognition rate can be improved in the future and the uncertainty rate or error rate can be reduced.
Gemäß einer Ausführungsform ist vorgesehen, dass die Erkennungseinrichtung ein gerichtet ist, sprachliche Inhalte der ersten Sprachakustik als Teil der sprachbasier ten Informationen aus der ersten Sprachakustik zu extrahieren, die Aktivierungsein richtung eingerichtet ist, basierend auf dem Sprachmodell in Abhängigkeit von den in den extrahierten sprachbasierten Informationen enthaltenen sprachlichen Inhalten zu erkennen, ob die erkannte Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht, und die Adaptionseinrichtung eingerichtet ist, das Sprachmodell hinsicht lich der Erkennung von sprachlichen Inhalten in Abhängigkeit von der zuvor indem Datenspeicher hinterlegten ersten Sprachakustik, den aus der ersten Sprachakustik extrahierten sprachbasierten Informationen und/oder den in den extrahierten sprach- basierten Informationen enthaltenen sprachlichen Inhalten der ersten Sprachakustik anzupassen. According to one embodiment it is provided that the recognition device is set up to extract linguistic content of the first speech acoustics as part of the language-based information from the first speech acoustics, the activation device is set up based on the language model depending on the extracted language-based information contained linguistic content to recognize whether the recognized speech acoustics is directed to the language assistance system or not, and the adaptation device is set up, the language model with regard Lich the recognition of linguistic content depending on the previously by Data storage stored first speech acoustics to adapt the extracted from the first speech acoustics language-based information and / or contained in the extracted language-based information linguistic content of the first speech acoustics.
In dieser Ausführungsform wird das Sprachmodell hinsichtlich der sprachbasierten Informationen angepasst, sodass beispielsweise Aktivierungsabsichten (bspw. Kom mandowörter, prosodische Eigenschaften der Sprachakustik) zukünftig besser er kannt werden können. In this embodiment, the language model is adapted with regard to the language-based information, so that, for example, activation intentions (e.g. command words, prosodic properties of the speech acoustics) can be recognized better in the future.
Gemäß einer Ausführungsform ist vorgesehen, dass die Aktivierungseinrichtung ein gerichtet ist, bei einer Unsicherheit darüber, ob die erkannte Sprachakustik als an das Sprachassistenzsystem gerichtet oder nicht erkannt werden soll (d.h. ob eine Ak tivierungsabsicht vorliegt oder nicht), eine optische, haptische, olfaktorische und/oder akustische System rückfrage zu generieren und mittels einer Ausgabeeinrichtung des Sprachassistenzsystems auszugeben. Die System rückfrage kann eine akustische System rückfrage, bspw. eine Sprachausgabe in Form einer Sprachakustik sein, wo bei die Sprachausgabe eine Nachfrage in Bezug auf die erkannte Sprachakustik an den Nutzer enthält. According to one embodiment it is provided that the activation device is directed, if there is uncertainty as to whether the recognized speech acoustics should be recognized as directed to the voice assistance system or not (ie whether an activation intention is present or not), an optical, haptic, olfactory and / or generate acoustic system query and output using an output device of the language assistance system. The system query can be an acoustic system query, for example a voice output in the form of voice acoustics, where the voice output contains a query to the user regarding the recognized voice acoustics.
In dieser Ausführungsform wird das Sprachassistenzsystem bei einer erkannten Un sicherheit zunächst eine System rückfrage generieren, die eine optische, haptische, olfaktorische und/oder akustische Nachfrage in Bezug auf die erkannte erste Sprach akustik enthält. Das Assistenzsystem fragt demnach den sprechenden Nutzer an, was gemeint ist bzw. ob die Sprachakustik an das Assistenzsystem tatsächlich ge richtet war oder nicht. In this embodiment, the language assistance system will first generate a system query when it detects uncertainty, which contains a visual, haptic, olfactory and/or acoustic query in relation to the detected first speech acoustics. The assistance system therefore asks the speaking user what is meant or whether the speech acoustics were actually directed at the assistance system or not.
Gemäß einer Ausführungsform ist vorgesehen, dass das Sprachmodell ein auf einem maschinellen Lernsystem basierendes gelerntes Sprachmodell ist. According to one embodiment, it is provided that the language model is a learned language model based on a machine learning system.
Die Aufgabe wird im Übrigen auch mit dem Verfahren zur sprachbasierten Unterstüt zung eines Nutzers gemäß Anspruch 8 gelöst, indem mittels einer Aufnahmeeinrich tung auditiv wahrnehmbare Schallsignale aufgenommen werden, mittels einer Erken nungseinrichtung in den aufgenommenen, auditiv wahrnehmbaren Schallsignalen eine Sprachakustik erkannt und, sofern eine Sprachakustik erkannt wurde, sprachba- sierte Informationen aus der erkannten Sprachakustik extrahiert werden, mittels einer Aktivierungseinrichtung basierend auf einem Sprachmodell in Abhängigkeit von den extrahierten sprachbasierten Informationen erkannt wird, ob die erkannte Sprach akustik an das Sprachassistenzsystem gerichtet ist oder nicht, wobei das Sprachas- sistenzsystem zur sprachbasierten Unterstützung aktivieren wird, wenn die Sprach akustik als an das Sprachassistenzsystem gerichtet erkannt wurde, und/oder nicht aktiviert wird, wenn die Sprachakustik nicht als an das Sprachassistenzsystem ge richtet erkannt wurde, und indem mittels einer Assistenzeinrichtung in Abhängigkeit von extrahierten sprachbasierten Informationen eine Unterstützungsfunktion ausge wählt und zur sprachbasierten Unterstützung des Nutzers ausgeführt wird, wenn das Sprachassistenzsystem zuvor aktiviert wurde, wobei dass in einem digitalen Daten speicher eine erste Sprachakustik und/oder die aus der ersten Sprachakustik extra hierten sprachbasierten Informationen hinterlegt werden, und dass mittelseiner Adaptionseinrichtung das Sprachmodell in Abhängigkeit von der zuvor indem Daten speicher hinterlegten ersten Sprachakustik und/oder den aus der ersten Sprachakus tik extrahierten sprachbasierten Informationen angepasst wird, wenn bei der ersten Sprachakustik eine Unsicherheit und/oder Fehlerhaftigkeit darüber bestand, ob die erste Sprachakustik an das Sprachassistenzsystem gerichtet war oder nicht, und diese Unsicherheit und/oder Fehlerhaftigkeit durch eine auf die erste Sprachakustik zeitlich nachfolgende erkannte zweite Sprachakustik oder durch erkanntes Ausblei ben einer entsprechenden zweite Sprachakustik ausgeräumt wird. The object is also achieved with the method for speech-based support of a user according to claim 8, in that audible sound signals are recorded by means of a recording device, by means of a recognition device in the recorded, audibly perceptible sound signals speech acoustics are recognized and, if speech acoustics were recognized, speech-based information is extracted from the recognized speech acoustics, an activation device based on a speech model, depending on the extracted speech-based information, is used to determine whether the recognized speech acoustics is directed to the voice assistance system or not, whereby the language assistant system is activated for language-based support when the voice acoustics were recognized as directed to the voice assistant system, and/or is not activated if the voice acoustics were not recognized as directed to the voice assistant system, and by using an assistance device Depending on extracted language-based information, a support function is selected and executed for language-based support of the user when the language assistance system has been activated beforehand, wherein a digital data store he ste speech acoustics and/or the speech-based information extracted from the first speech acoustics is stored, and that the speech model is adapted by means of an adaptation device depending on the first speech acoustics previously stored in the data memory and/or the speech-based information extracted from the first speech acoustics, if in the case of the first speech acoustic, there was uncertainty and/or error as to whether the first speech acoustic was directed at the voice assistance system or not, and this uncertainty and/or error resulted from a second speech acoustic detected following the first speech acoustic or through a recognized absence of a corresponding one second speech acoustics is eliminated.
Vorteilhafte Ausgestaltungen des Verfahrens finden sich in den Unteransprüchen. Advantageous refinements of the method can be found in the dependent claims.
Die Erfindung wird anhand der beigefügten Figuren beispielhaft näher erläutert. Es zeigt: The invention is explained in more detail by way of example on the basis of the attached figures. It shows:
Figur 1 schematische Darstellung des erfindungsgemäßen Sprachassistenzsys- tems. FIG. 1 shows a schematic representation of the language assistance system according to the invention.
Figur 1 zeigt in einer schematisch vereinfachten Darstellung ein Sprachassistenzsys- tem 10, dass mittels einer Aufnahmeeinrichtung 11 zum Aufnehmen von auditiv wahrnehmbaren Schallsignalen ausgebildet ist. Eine solche Aufnahmeeinrichtung 11 kann dabei beispielsweise ein Mikrofon 12 aufweisen, mit der die Schallsignale er fasst und anschließend mittels einer Wandlereinheit in ein digitales Signal umgewan delt werden. FIG. 1 shows, in a schematically simplified representation, a voice assistance system 10 that is designed by means of a recording device 11 to record acoustically perceptible sound signals. Such a recording device 11 can have a microphone 12, for example, with which the sound signals are recorded and then converted into a digital signal by means of a converter unit.
Eine Erkennungseinrichtung 13 erhält nun diese in digitaler Form vorliegenden Schallsignale als Eingang und ist eingerichtet, basierend auf den auditiv wahrnehm baren Schallsignalen eine darin enthaltene Sprachakustik A, B zu erkennen. Die Er kennungseinrichtung 13 ist somit ausgebildet, in einem ersten Schritt zu identifizie ren, ob in dem aufgenommenen Schallsignal und Sprachakustik A, B enthalten ist o- der nicht. A recognition device 13 now receives these sound signals, which are present in digital form, as an input and is set up to recognize speech acoustics A, B contained therein based on the auditory perceptible sound signals. The detection device 13 is thus designed, in a first step, to identify whether the recorded sound signal and speech acoustics contain A, B or not.
Flat die Erkennungseinrichtung 13 erkannt, dass in den auditiv wahrnehmbaren Schallsignalen eine Sprachakustik A, B enthalten ist, so ist die Erkennungseinrich tung 13 des Weiteren ausgebildet, sprachbasierte Informationen aus der erkannten Sprachakustik A, B in an sich bekannter Weise zu extrahieren. Derartige sprachba sierte Informationen können dabei prosodische Eigenschaften der Sprachakustik A,If the recognition device 13 recognizes that the acoustically perceptible sound signals contain speech acoustics A, B, then the recognition device 13 is also designed to extract speech-based information from the recognized speech acoustics A, B in a manner known per se. Such speech-based information can include prosodic properties of speech acoustics A,
B enthalten. Die sprachbasierten Informationen enthalten darüber hinaus aber auch sprachliche Inhalte der Sprachakustik A, B, d. h. jene Wörter und Sätze, die von ei nem Nutzer 100 zuvor gesprochen wurden. B included. In addition, the language-based information also contains language content of speech acoustics A, B, d. H. those words and phrases spoken by a user 100 previously.
Im Ausführungsbeispiel der Figur 1 hat ein Nutzer 100 eine erste Sprachakustik A und eine zweite Sprachakustik B erzeugt, indem der Nutzer 100 bestimmte Wörter oder Sätze ausgesprochen hat. Die erste Sprachakustik A wurde dabei zu einem ers ten Zeitpunkt t ausgesprochen, während die zweite Sprachakustik B zu einem da rauffolgenden zweiten Zeitpunkt t+1 ausgesprochen wurde. Zwischen dem ersten Zeitpunkt und dem zweiten Zeitpunkt liegt dabei ein gewisser Zeitraum, der einen kontextuellen Zusammenhang beider Sprachakustiken A und B nahelegt. In the exemplary embodiment in FIG. 1, a user 100 has generated a first speech acoustics A and a second speech acoustics B by the user 100 uttering certain words or sentences. The first speech acoustics A was pronounced at a first time t, while the second speech acoustics B was pronounced at a subsequent second time t+1. Between the first There is a certain period of time between the point in time and the second point in time, which suggests a contextual connection between the two speech acoustics A and B.
Die Erkennungseinrichtung 13 hat dabei Zugriff auf einem Datenspeicher, auf dem ein Sprachmodell 14 hinterlegt ist. Basierend auf diesem Sprachmodell 14 istdie Er kennungseinrichtung 13 in der Lage, zu erkennen, ob in den auditiv wahrnehmbaren Schallsignalen eine Sprachakustik A, B erkannt wurde und darüber hinaus in der Lage, die sprachbasierten Informationen aus der erkannten Sprachakustik A, B zu extrahieren. The recognition device 13 has access to a data memory on which a language model 14 is stored. Based on this language model 14, the recognition device 13 is able to recognize whether speech acoustics A, B were recognized in the audible sound signals and is also able to extract the language-based information from the recognized speech acoustics A, B.
Die sprachbasierten Informationen werden dann an eine Aktivierungseinrichtung 15 übermittelt, die ebenfalls Zugriff auf das Sprachmodell 14 hat und basierend darauf eingerichtet ist zu erkennen, ob die erkannte Sprachakustik A, B an das Sprachassis- tenzsystem 10 gerichtet ist oder nicht. The speech-based information is then transmitted to an activation device 15, which also has access to the speech model 14 and is set up to recognize based on this whether the recognized speech acoustics A, B is directed to the speech assistance system 10 or not.
So kann die erste Sprachakustik A dergestalt sein, dass in der Sprachakustik A ein Kommandoworte und/oder eine prosodische Eigenschaft enthalten ist, wodurch an zeigt wird, dass die erste Sprachakustik A oder die zweite Sprachakustik B an das Sprachassistenzsystem 10 gerichtet ist (erste Sprachakustik A und zweite Sprach akustik B können zeitlich in einem Zusammenhang gesprochen sein oder zeitlich nacheinander versetzt, um eine Reaktion des Systems zwischen der ersten Sprach akustik A und zweiten Sprachakustik B anzuwarten). Durch die Erkennungseinrich tung 13 wurde dabei erkannt, dass in der Sprachakustik A ein Kommandowort und/o der eine prosodische Eigenschaft enthalten sind sowie ggf. welches Wort bzw. wel cher Satz enthalten ist bzw. was durch die prosodische Eigenschaft ausgedrückt werden soll, was in den sprachbasierten Informationen hinterlegt wird. Somit können durch die Erkennungseinrichtung 13 weiterhin auch prosodische Eigenschaften aus der Sprachakustik ermittelt und somit Teil der sprachbasierten Informationen sein, die durch die Erkennungseinrichtung 13 generiert werden. The first speech acoustics A can be such that the speech acoustics A contains a command word and/or a prosodic property, which indicates that the first speech acoustics A or the second speech acoustics B is directed to the speech assistance system 10 (first speech acoustics A and second speech acoustics B can be spoken in a temporal context or staggered in time to wait for a reaction of the system between the first speech acoustics A and second speech acoustics B). The recognition device 13 recognized that the speech acoustics A contain a command word and/or a prosodic property and, if applicable, which word or which sentence is contained or what is to be expressed by the prosodic property, what in is stored with the language-based information. Thus, the recognition device 13 can also continue to determine prosodic properties from the speech acoustics and thus be part of the speech-based information generated by the recognition device 13 .
In der Aktivierungseinrichtung 15 wird nun basierend auf dem Sprachmodell 14 fest gestellt, ob in den sprachbasierten Informationen ein Kommandowort und/oder eine prosodische Eigenschaft enthalten ist, was darauf hindeutet, dass die erste Sprach- akustik A oder die darauf folgende zweite Sprachakustik B an das Sprachassistenz- system 10 gerichtet ist. Die Aktivierungseinrichtung 15 kann basierend auf dem Sprachmodell 14 auch feststellen, ob anhand der prosodischen Eigenschaften der Sprachakustik A, die in den sprachbasierten Informationen hinterlegt sind, eine Sprachkommunikation mit dem Sprachassistenzsystem 10 aufgebautwerden soll. Dabei ist es denkbar, dass nur anhand von prosodischen Eigenschaften der ersten Sprachakustik A eine Aktivierungsabsicht festgestelltwird. In the activation device 15, based on the language model 14, it is now determined whether the language-based information contains a command word and/or a prosodic property, which indicates that the first language acoustic A or the second voice acoustic B that follows it is directed to the voice assistance system 10 . Based on the language model 14, the activation device 15 can also determine whether a voice communication with the voice assistance system 10 is to be established using the prosodic properties of the voice acoustics A, which are stored in the language-based information. It is conceivable that an intention to activate is determined only on the basis of prosodic properties of the first speech acoustics A.
Wird durch die Aktivierungseinrichtung 15 erkannt, dass die Sprachakustik A derge stalt ist, dass eine Sprachkommunikation mit dem Sprachassistenzsystem 10 aufge baut werden soll somit die Sprachakustik A und/oder B an das Sprachassistenzsys tem 10 gerichtet ist, so aktiviert die Aktivierungseinrichtung 15 das Sprachassistenz system 10, wodurch die Weiterverarbeitung durch eine Assistenzeinrichtung 16 er folgt. If the activation device 15 recognizes that the speech acoustics A are such that speech communication with the speech assistance system 10 is to be set up, thus the speech acoustics A and/or B are directed to the speech assistance system 10, then the activation device 15 activates the speech assistance system 10, whereby further processing by an assistance device 16 follows.
Die Assistenzeinrichtung 16 wählt dabei in Abhängigkeit von sprachbasierten Infor mationen eine Unterstützungsfunktion aus und führt diese aus, wenn das Sprachas sistenzsystem 10 zuvor aktiviert wurde. Wurde das Sprachassistenzsystem 10 zuvor durch die Aktivierungseinrichtung 15 nicht aktiviert oder bestand eine Unsicherheit darüber, ob die Sprachkommunikation an das Sprachassistenzsystem 10 gerichtet war, so passiert nichts. Dabei kann bei einer Unsicherheit über die Aktivierungsab sicht des Nutzers von System vorab eine System rückfrage generiert werden, um beim Nutzer nachzufragen, ob eine Aktivierung gewünscht ist oder nicht, d.h. ob zu mindest die erste Sprachakustik eine Aktivierungsabsicht beinhaltete odernicht. The assistance device 16 selects a support function as a function of speech-based information and executes it if the speech assistance system 10 was previously activated. If the voice assistance system 10 was not previously activated by the activation device 15 or if there was uncertainty as to whether the voice communication was directed to the voice assistance system 10, then nothing happens. If there is uncertainty about the user's intention to activate, the system can generate a query in advance to ask the user whether activation is desired or not, i.e. whether at least the first speech acoustics contained an intention to activate or not.
Die zuvor empfangene erste Sprachakustik A wird dabei in einem Zwischenspeicher 17 für mindestens einen Zeitraum zwischen gespeichert, der geeignet ist, eine wei tere Sprachakustik B zu empfangen, die kontextuellen zu der ersten Sprachakustik A gehört. The previously received first speech acoustics A is temporarily stored in a buffer memory 17 for at least a period of time that is suitable for receiving a further speech acoustics B that belongs to the first speech acoustics A contextually.
Wurde nach dem Empfang einer zweiten Sprachakustik B, die ebenfalls durch die Er kennungseinrichtung 13 und die Aktivierungseinrichtung 15 gelaufen ist, festgestellt, dass eine Unsicherheit und/oder Fehlerhaftigkeit darüber bestand, ob die erste Sprachakustik A an das Sprachassistenzsystem gerichtet war oder nicht, so wird mit hilfe einer Adaptionseinrichtung 18 das Sprachmodell 14 basierend auf der zwi schengespeicherten ersten Sprachakustik A angepasst und optimiert, um zukünftig derartige Unsicherheiten und/oder Fehlerhaftigkeiten zu vermeiden. Durch die An passung des Sprachmodells wird dabei nicht nur die Aktivierungseinrichtung 15 ver bessert, sondern auch die Arbeitsweise der Erkennungseinrichtung 13. Die Anpas sung des Sprachmodells kann dabei derart erfolgen, dass Parameter eines gelernten Modells angepasst werden, oder dass Schwellwerte zur Entscheidung, ob die Sprachakustik an das Sprachassistenzsystem 10 gerichtet ist oder nicht, angepasst werden. If, after receiving a second speech acoustics B, which also ran through the recognition device 13 and the activation device 15, it was determined that there was uncertainty and/or error as to whether the first Speech acoustics A was addressed to the speech assistance system or not, the speech model 14 is adapted and optimized with the aid of an adaptation device 18 based on the temporarily stored first speech acoustics A in order to avoid such uncertainties and/or errors in the future. By adapting the language model, not only is the activation device 15 improved, but also the way the recognition device 13 works. The language model can be adapted in such a way that parameters of a learned model are adapted, or that threshold values for deciding whether the Speech acoustics is directed to the voice assistance system 10 or not, to be adjusted.
Bei der Anpassung des Sprachmodells 14 können dabei verschiedene Fälle unter schieden werden. When adapting the language model 14, different cases can be distinguished.
1. Fall: Fehlerhafte Aktivierung 1st case: Incorrect activation
Im ersten Fall, der hier betrachtet wird, ist die erste Sprachakustik A nicht an das Sprachassistenzsystem gerichtet und beispielsweise Teil einer zwischenmenschli chen Sprachkommunikation. Die Aktivierungseinrichtung 15 erkennt jedoch fälschli cherweise, dass die Sprachakustik A an das Sprachassistenzsystem gerichtet ist, wodurch eine Aktivierung des Sprachassistenzsystems 10 erfolgt. In the first case, which is considered here, the first speech acoustics A is not directed at the speech assistance system and is part of an interpersonal speech communication, for example. However, the activation device 15 incorrectly recognizes that the speech acoustics A is directed to the speech assistance system, as a result of which the speech assistance system 10 is activated.
In der zweiten Sprachakustik B, die auf die erste Sprachakustik A innerhalb eines ge wissen Zeitraums folgt, hat der Nutzer sprachlich signalisiert, dass die vorherige erste Sprachakustik A nicht an das Sprachassistenzsystem 10 gerichtet war. Dies kann beispielsweise durch Schlüsselwörter wie „Stopp“ oder „Abbruch“ erfolgen, die in der zweiten Sprachakustik B enthalten sind. In the second speech acoustics B, which follows the first speech acoustics A within a certain period of time, the user has verbally signaled that the previous first speech acoustics A was not addressed to the speech assistance system 10 . This can be done, for example, using keywords such as “stop” or “cancel”, which are contained in the second speech acoustics B.
Die Aktivierungseinrichtung 15 erkennt basierend auf der zweiten Sprachakustik B nun, dass die vorherige Aktivierung des Sprachassistenzsystems 10 basierend auf der ersten Sprachakustik A fehlerhaft war und deaktiviert Sprachassistenzsystem 10 entsprechend. Außerdem wird mithilfe der Adaptionseinrichtung 18 und der zuvor ge speicherten Sprachakustik A bzw. der aus der Sprachakustik A extrahierten sprach- basierten Informationen das Sprachmodell 14, auf deren Basis sowohl die Erken nung der sprachbasierten Informationen als auch die Aktivierung des Sprachassis- tenzsystems 10 erfolgt, angepasst. Based on the second speech acoustics B, the activation device 15 now recognizes that the previous activation of the speech assistance system 10 based on the first speech acoustics A was faulty and deactivates the speech assistance system 10 accordingly. In addition, with the aid of the adaptation device 18 and the previously stored speech acoustics A or the speech acoustics extracted from the speech acoustics A based information, the language model 14, on the basis of which both the recognition of the language-based information and the activation of the language assistance system 10 takes place adjusted.
Das Erkennen, dass die Aktivierung basierend auf der ersten SprachakustikA fehler haft war, kann auch dadurch erfolgen, dass innerhalb des zuvor erwähnten gewissen Zeitraumes gerade keine weitere zweite Sprachakustik B empfangen wurde, wodurch das Sprachassistenzsystem ebenfalls erkennt, dass die erste Sprachakustik an nicht einer Sprachassistenzsystem gerichtet war (warten auf einen „timeout“). The recognition that the activation based on the first speech acoustics A was faulty can also be achieved by the fact that no further second speech acoustics B was received within the aforementioned certain period of time, whereby the speech assistance system also recognizes that the first speech acoustics is not connected to a speech assistance system was directed (waiting for a "timeout").
2. Fall: Fehlerhafte Nicht-Aktivierung 2nd case: Erroneous non-activation
Im zweiten Fall ist in der Sprachakustik A eine sprachliche oder prosodische Informa tion enthalten, die signalisieren soll, dass die Sprachakustik A oder eine nachfol gende Sprachakustik B an das Sprachassistenzsystem 10 gerichtet ist. Dies kann beispielsweise dadurch erfolgen, dass der Sprachakustik A ein Kommandowort wie beispielsweise „Hallo“ oder dergleichen enthalten ist, was durch die Erkennungsein richtung 13 identifiziert und durch die Aktivierungseinrichtung 15 dahingehend inter pretiert werden soll, dass die Sprachakustik A oder die in einem gewissen Zeitraum nachfolgenden Sprachakustiken B an das Sprachassistenzsystem 10 gerichtet ist. In the second case, the speech acoustics A contains linguistic or prosodic information that is intended to signal that the speech acoustics A or a subsequent speech acoustics B is directed to the speech assistance system 10 . This can be done, for example, by the speech acoustics A containing a command word such as "Hello" or the like, which is to be identified by the recognition device 13 and interpreted by the activation device 15 in such a way that the speech acoustics A or in a certain period of time subsequent speech acoustics B is addressed to the speech assistance system 10 .
Im Fall der fehlerhaften Nicht-Aktivierung wird jedoch durch die Aktivierungseinrich tung 15 fälschlicherweise das Sprachassistenzsystem nicht aktiviert, obwohl die Sprachakustik A als an das Sprachassistenzsystem 10 gerichtet vorgesehen ist. Mit anderen Worten, das Sprachassistenzsystem 10 wird nicht aktiviert, obwohl der zur 100 das Sprachassistenzsystem 10 anspricht und eine Sprachkommunikation mit diesem aufbauen wollte bzw. möchte. In the case of erroneous non-activation, however, the activation device 15 erroneously does not activate the speech assistance system, although the speech acoustics A are intended to be directed at the speech assistance system 10 . In other words, the voice assistance system 10 is not activated even though the person 100 addresses the voice assistance system 10 and wanted or wants to set up voice communication with it.
Diese Nicht-Aktivierung basierend auf der ersten Sprachakustik A wird dann durch eine weitere nachfolgende Sprachakustik B erkannt. Dies kann dadurch erfolgen, dass nunmehr in der zweiten Sprachakustik B festgestellt wird, dass das Sprachas sistenzsystem 10 aktiviert werden soll, wobei die zweite Sprachakustik B innerhalb eines gewissen Zeitraumes nach der ersten Sprachakustik A erkannt wurde. Durch den engen zeitlichen Zusammenhang der ersten Sprachakustik A und derzweiten Sprachakustik B wird ein kontextueller Zusammenhang hergestellt und angenom men, dass die erste Sprachakustik A bereits eine Aktivierung des Sprachassistenz- systems 10 beinhaltet hat. This non-activation based on the first speech acoustics A is then recognized by a further subsequent speech acoustics B. This can be done in that it is now determined in the second voice acoustics B that the voice assistance system 10 should be activated, the second voice acoustics B being recognized within a certain period of time after the first voice acoustics A. Due to the close temporal relationship between the first speech acoustics A and the second A contextual connection is established for speech acoustics B and it is assumed that the first speech acoustics A has already included an activation of the speech assistance system 10 .
Nachdem nun durch die nachfolgende zweite Sprachakustik B festgestellt wurde, dass bereits die erste Sprachakustik A zu einer Aktivierung desSprachassistenzsys- tems 10 führen sollte, wird mithilfe der zwischengespeicherten ersten Sprachakustik Art nunmehr das Sprachmodell 14 angepasst. Now that it has been determined by the subsequent second speech acoustics B that the first speech acoustics A should already lead to an activation of the language assistance system 10, the speech model 14 is now adapted using the temporarily stored first speech acoustics type.
3. Fall: Unsichere Aktivierung oder Nicht-Aktivierung 3rd case: Unsafe activation or non-activation
Im dritten Fall kann das Sprachassistenzsystem 10, genauer gesagt die Aktivierungs einrichtung 15, nicht mit hinreichender Sicherheit feststellen, ob basierend auf der ersten Sprachakustik A eine Aktivierung oder Nicht-Aktivierung erfolgen soll. Eine solche Unsicherheit entsteht immer dann, wenn die für eine hinreichende sichere Feststellung einer Aktivierung oder Nicht-Aktivierung vorgesehenen Schwellwerte nicht überschritten wurden und sich beispielsweise innerhalb eines und Sicherheits bereiches befinden. In the third case, the language assistance system 10, more precisely the activation device 15, cannot determine with sufficient certainty whether, based on the first speech acoustics A, activation or non-activation should take place. Such uncertainty always arises when the threshold values provided for a sufficiently reliable determination of activation or non-activation have not been exceeded and are, for example, within a safety range.
Wird diese Unsicherheit durch eine nachfolgende zweite Sprachakustik B ausge räumt bzw. wird die vorherige unsichere Entscheidung über die Aktivierung oder Nicht-Aktivierung durch die zweite Sprachakustik B bestätigt, so wird ebenfalls das Sprachmodell 14 durch die Adaptionseinrichtung 18 entsprechend angepasst. If this uncertainty is eliminated by a subsequent second speech acoustics B or if the previous uncertain decision about activation or non-activation is confirmed by the second speech acoustics B, then the speech model 14 is also adapted accordingly by the adaptation device 18 .
So ist es beispielsweise denkbar, dass in der ersten Sprachakustik A eine Informa tion enthalten ist, die kennzeichnet, dass die Sprachakustik A bzw. die nachfolgende Sprachakustik B an das Sprachassistenzsystem 10 gerichtet ist. Allerdings kann nicht mit hinreichender Sicherheit darauf geschlossen werden. Trotz der verbleiben den Unsicherheit wird basierend auf den Aktivierungsinformationen darauf geschlos sen, dass das Sprachassistenzsystem 10 zu aktivieren ist. Gegebenenfalls kann das Sprachassistenzsystem 10 auch so eingerichtet sein, dass hier durch eine Sprach- ausgabe an den Nutzer 100 nachgefragt wird, ob die Sprachakustik A tatsächlich an das Sprachassistenzsystem 10 gerichtet war. Wird durch eine im zeitlichen Zusammenhang stehende zweite Sprachakustik B nun mehr eindeutig festgestellt, dass die erste Sprachakustik A bereits an das Sprachas- sistenzsystem 10 gerichtet war, was beispielsweise dadurch erkannt werden kann, dass in der Sprachakustik B zweifelsfrei eine Anweisung an das Sprachassistenzsys- tem 10 enthalten ist, so wird das Sprachmodell 14 entsprechend zur Ausräumung von Unsicherheiten basierend auf der ersten Sprachakustik A oder den daraus extra hierten sprachbasierten Informationen angepasst. For example, it is conceivable that the first speech acoustics A contains information that indicates that the speech acoustics A or the subsequent speech acoustics B is directed to the speech assistance system 10 . However, this cannot be concluded with sufficient certainty. Despite the remaining uncertainty, based on the activation information it is concluded that the language assistance system 10 is to be activated. If necessary, the voice assistance system 10 can also be set up in such a way that a voice output is sent to the user 100 to ask whether the voice acoustics A were actually directed to the voice assistance system 10 . If a temporally related second speech acoustics B is now more clearly established that the first speech acoustics A was already directed to the speech assistance system 10, which can be recognized, for example, by the speech acoustics B undoubtedly containing an instruction to the speech assistance system 10 is included, the language model 14 is adapted accordingly to eliminate uncertainties based on the first speech acoustics A or the language-based information extracted therefrom.
Denkbar ist aber auch der umgekehrte Fall, dass eine Unsicherheit darüber besteht, ob in der ersten Sprachakustik A eine Nicht-Aktivierung enthalten ist, dass durch eine nachfolgende zweite Sprachakustik B ausgeräumt werden kann. However, the opposite case is also conceivable, in which there is uncertainty as to whether the first speech acoustic A contains a non-activation that can be cleared up by a subsequent second speech acoustic B.
Bezuaszeichenliste reference list
10 Sprachassistenzsystem10 language assistance system
11 Aufnahmeeinrichtung 12 Mikrofon 11 recording device 12 microphone
13 Erkennungseinrichtung13 detection device
14 Sprachmodell 14 language model
15 Aktivierungseinrichtung15 activation device
16 Assistenzeinrichtung 17 digitaler Datenspeicher16 assistance device 17 digital data memory
18 Adaptionseinrichtung 100 Nutzer 18 adaptation device 100 users
A erste Sprachakustik B zweite Sprachakustik A first speech acoustics B second speech acoustics

Claims

Patentansprüche: Patent Claims:
1. Sprachassistenzsystem (10) zur sprachbasierten Unterstützung eines Nutzers1. Language assistance system (10) for language-based support of a user
(100) mit (100) with
- einer Aufnahmeeinrichtung (11 ) zum Aufnehmen von auditiv wahrnehmba ren Schallsignalen, - a recording device (11) for recording auditory perceptible sound signals,
- einer Erkennungseinrichtung (13), die eingerichtet ist, in den aufgenomme nen, auditiv wahrnehmbaren Schallsignalen eine Sprachakustik zu erken nen und, sofern eine Sprachakustik erkannt wurde, sprachbasierte Infor mationen aus der erkannten Sprachakustik zu extrahieren, - a recognition device (13), which is set up to recognize speech acoustics in the recorded, audibly perceptible sound signals and, if speech acoustics has been recognized, to extract speech-based information from the recognized speech acoustics,
- einer Aktivierungseinrichtung (15), die eingerichtet ist, basierend auf einem Sprachmodell (14) in Abhängigkeit von den extrahierten sprachbasierten Informationen zu erkennen, ob die erkannte Sprachakustik an das Sprach assistenzsystem (10) gerichtet ist oder nicht, und das Sprachassistenzsys tem (10) zur sprachbasierten Unterstützung zu aktivieren, wenn die Sprachakustik als an das Sprachassistenzsystem (10) gerichtet erkannt wurde, und/oder nicht zu aktivieren, wenn die Sprachakustik nicht als an das Sprachassistenzsystem (10) gerichtet erkannt wurde, und - an activation device (15) which is set up, based on a language model (14) and depending on the extracted language-based information, to recognize whether the recognized speech acoustics are directed to the language assistance system (10) or not, and the language assistance system (10 ) to activate the speech-based support if the speech acoustics were recognized as being directed to the speech assistance system (10), and/or not to be activated if the speech acoustics were not recognized as being directed to the speech assistance system (10), and
- einer Assistenzeinrichtung (16), die eingerichtet ist, in Abhängigkeit von extrahierten sprachbasierten Informationen eine Unterstützungsfunktion auszuwählen und zur sprachbasierten Unterstützung des Nutzers (100) auszuführen, wenn das Sprachassistenzsystem (10) zuvor aktiviertwurde, dadurch gekennzeichnet, dass - an assistance device (16) which is set up to select a support function as a function of extracted language-based information and to carry it out for language-based support of the user (100) if the language assistance system (10) has previously been activated, characterized in that
- das Sprachassistenzsystem (10) eingerichtet ist, in einem digitalen Daten speicher (17) eine erste Sprachakustik (A) und/oder die aus der ersten Sprachakustik (A) extrahierten sprachbasierten Informationen zu hinterle gen, und - The voice assistance system (10) is set up to deposit a first voice acoustics (A) and/or the language-based information extracted from the first voice acoustics (A) in a digital data memory (17), and
- das Sprachassistenzsystem (10) eine Adaptionseinrichtung (18) hat, die eingerichtet ist, das Sprachmodell (14) in Abhängigkeit von der zuvor in dem Datenspeicher hinterlegten ersten Sprachakustik (A) und/oder den aus der ersten Sprachakustik (A) extrahierten sprachbasierten Informatio nen anzupassen, wenn bei der ersten Sprachakustik (A) eine Unsicherheit und/oder Fehlerhaftigkeit darüber bestand, ob die erste Sprachakustik (A) an das Sprachassistenzsystem (10) gerichtet war oder nicht, und diese Un sicherheit und/oder Fehlerhaftigkeit durch eine auf die erste Sprachakustik (A) zeitlich nachfolgende erkannte oder durch erkanntes Ausbleiben einer entsprechenden zweiten Sprachakustik (B) ausgeräumt wird. - The language assistance system (10) has an adaptation device (18) which is set up to adapt the language model (14) as a function of the previously in adapt the first speech acoustics (A) stored in the data memory and/or the language-based information extracted from the first speech acoustics (A) if there was uncertainty and/or error in the first speech acoustics (A) as to whether the first speech acoustics (A) was on the voice assistance system (10) was directed or not, and this uncertainty and/or error is eliminated by a corresponding second voice acoustic (B) detected after the first voice acoustic (A) or by a detected absence.
2. Sprachassistenzsystem (10) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Sprachassistenzsystem (10) eingerichtet ist, mittels der Adaptionseinrichtung (18) das Sprachmodell (14) in Abhängig keit von der zuvor hinterlegten ersten Sprachakustik (A) und/oder den aus der ersten Sprachakustik (A) extrahierten sprachbasierten Informationen anzupas sen, wenn innerhalb eines gewissen Zeitraumes nach der ersten Sprachakus tik (A) die zweite Sprachakustik (B) erkannt oder innerhalb des gewissen Zeit raumes das Ausbleiben der zweiten Sprachakustik (B) erkannt wird. 2. Speech assistance system (10) according to one of the preceding claims, characterized in that the speech assistance system (10) is set up to use the adaptation device (18) to change the speech model (14) as a function of the previously stored first speech acoustics (A) and/or to adapt the speech-based information extracted from the first speech acoustics (A) if the second speech acoustics (B) is recognized within a certain period of time after the first speech acoustics (A) or the absence of the second speech acoustics (B) is recognized within a certain period of time .
3. Sprachassistenzsystem (10) nach Anspruch 2, dadurch gekennzeichnet, dass das Sprachassistenzsystem (10) eingerichtet ist, den gewissen Zeitraum in Abhängigkeit von mindestens einem akustischen Qualitätskriterium der ersten Sprachakustik (A) festzulegen oder zu variieren. 3. Speech assistance system (10) according to claim 2, characterized in that the speech assistance system (10) is set up to define or vary the certain period of time depending on at least one acoustic quality criterion of the first speech acoustics (A).
4. Sprachassistenzsystem (10) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass 4. Language assistance system (10) according to any one of the preceding claims, characterized in that
- die Erkennungseinrichtung (13) eingerichtet ist, prosodische Eigenschaften der ersten Sprachakustik (A) als Teil der sprachbasierten Informationen aus der ersten Sprachakustik (A) zu extrahieren, - the recognition device (13) is set up to extract prosodic properties of the first speech acoustics (A) as part of the speech-based information from the first speech acoustics (A),
- die Aktivierungseinrichtung (15) eingerichtet ist, basierend auf dem Sprachmodell (14) in Abhängigkeit von den in den extrahierten sprachba sierten Informationen enthaltenen prosodischen Eigenschaften der ersten Sprachakustik (A) zu erkennen, ob die erkannte Sprachakustik an das Sprachassistenzsystem (10) gerichtet ist oder nicht, und - die Adaptionseinrichtung (18) eingerichtet ist, das Sprachmodell (14) hin sichtlich der prosodischen Erkennung in Abhängigkeit von der zuvor in dem Datenspeicher hinterlegten ersten Sprachakustik (A), den aus der ers ten Sprachakustik (A) extrahierten sprachbasierten Informationen und/oder den in den extrahierten sprachbasierten Informationen enthaltenen proso dischen Eigenschaften der ersten Sprachakustik anzupassen. - The activation device (15) is set up to recognize, based on the language model (14), depending on the prosodic properties of the first speech acoustics (A) contained in the extracted language-based information, whether the recognized speech acoustics is directed to the speech assistance system (10). or not, and - the adaptation device (18) is set up, the language model (14) with regard to the prosodic recognition depending on the first speech acoustics (A) previously stored in the data memory, the speech-based information extracted from the first speech acoustics (A) and/or the adapt prosodic properties of the first speech acoustics contained in the extracted speech-based information.
5. Sprachassistenzsystem (10) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass 5. Language assistance system (10) according to any one of the preceding claims, characterized in that
- die Erkennungseinrichtung (13) eingerichtet ist, sprachliche Inhalte der ers ten Sprachakustik (A) als Teil der sprachbasierten Informationen aus der ersten Sprachakustik (A) zu extrahieren, - the recognition device (13) is set up to extract linguistic content of the first speech acoustics (A) as part of the language-based information from the first speech acoustics (A),
- die Aktivierungseinrichtung (15) eingerichtet ist, basierend auf dem Sprachmodell (14) in Abhängigkeit von den in den extrahierten sprachba sierten Informationen enthaltenen sprachlichen Inhalten zu erkennen, ob die erkannte Sprachakustik an das Sprachassistenzsystem (10) gerichtet ist oder nicht, und - the activation device (15) is set up to recognize, based on the language model (14), depending on the language content contained in the extracted language-based information, whether the recognized speech acoustics are directed to the language assistance system (10) or not, and
- die Adaptionseinrichtung (18) eingerichtet ist, das Sprachmodell (14) hin sichtlich der Erkennung von sprachlichen Inhalten in Abhängigkeit von der zuvor in dem Datenspeicher hinterlegten ersten Sprachakustik (A), den aus der ersten Sprachakustik (A) extrahierten sprachbasierten Informationen und/oder den in den extrahierten sprachbasierten Informationen enthalte nen sprachlichen Inhalten der ersten Sprachakustik (A) anzupassen. - the adaptation device (18) is set up, the speech model (14) with regard to the recognition of speech content depending on the first speech acoustics (A) previously stored in the data memory, the speech-based information extracted from the first speech acoustics (A) and/or adapt the linguistic content of the first speech acoustics (A) contained in the extracted language-based information.
6. Sprachassistenzsystem (10) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Aktivierungseinrichtung (15) eingerichtet ist, bei einer Unsicherheit darüber, ob die erkannte erste Sprachakustik (A) als an das Sprachassistenzsystem (10) gerichtet oder nicht erkannt werden soll, eine optische, haptische, olfaktorische und/oder akustische System rückfrage zu generieren und mittels einer Ausgabeeinrichtung des Sprachassistenzsys- tems (10) auszugeben. 6. Voice assistance system (10) according to one of the preceding claims, characterized in that the activation device (15) is set up when there is uncertainty as to whether the recognized first speech acoustics (A) should be recognized as directed to the voice assistance system (10) or not to generate an optical, haptic, olfactory and/or acoustic system query and to output it by means of an output device of the language assistance system (10).
7. Sprachassistenzsystem (10)nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Sprachmodell (14) ein auf einem maschi nellen Lernsystem basierendes gelerntes Sprachmodell (14) ist. 7. Language assistance system (10) according to one of the preceding claims, characterized in that the language model (14) is a learned language model (14) based on a machine learning system.
8. Verfahren zur sprachbasierten Unterstützung eines Nutzers (100) mittels eines Sprachassistenzsystems (10), indem mittels einer Aufnahmeeinrichtung (11) auditiv wahrnehmbare Schallsignale aufgenommen werden, mittels einer Er kennungseinrichtung (13) in den aufgenommenen, auditiv wahrnehmbaren Schallsignalen eine Sprachakustik erkannt und, sofern eine Sprachakustiker- kannt wurde, sprachbasierte Informationen aus der erkannten Sprachakustik extrahiert werden, mittels einer Aktivierungseinrichtung (15) basierend auf ei nem Sprachmodell (14) in Abhängigkeit von den extrahierten sprachbasierten Informationen erkannt wird, ob die erkannte Sprachakustik an das Sprachas sistenzsystem (10) gerichtet ist oder nicht, wobei das Sprachassistenzsystem (10) zur sprachbasierten Unterstützung aktivieren wird, wenn die Sprachakus tik als an das Sprachassistenzsystem (10) gerichtet erkannt wurde, und/oder nicht aktiviert wird, wenn die Sprachakustik nicht als an das Sprachassistenz system (10) gerichtet erkannt wurde, und indem mittels einerAssistenzeinrich- tung (16) in Abhängigkeit von extrahierten sprachbasierten Informationeneine Unterstützungsfunktion ausgewählt und zur sprachbasierten Unterstützung des Nutzers (100) ausgeführt wird, wenn das Sprachassistenzsystem (10) zu vor aktiviert wurde, dadurch gekennzeichnet, dass in einem digitalen Daten speicher (17) eine erste Sprachakustik (A) und/oder die aus der ersten Sprachakustik (A) extrahierten sprachbasierten Informationen hinterlegtwer den, und dass mittels einer Adaptionseinrichtung (18) das Sprachmodell (14) in Abhängigkeit von der zuvor in dem Datenspeicher hinterlegten ersten Sprachakustik (A) und/oder den aus der ersten Sprachakustik (A) extrahierten sprachbasierten Informationen angepasst wird, wenn bei der ersten Sprach akustik (A) eine Unsicherheit und/oder Fehlerhaftigkeit darüber bestand, ob die erste Sprachakustik (A) an das Sprachassistenzsystem (10) gerichtet war oder nicht, und diese Unsicherheit und/oder Fehlerhaftigkeit durch eine auf die erste Sprachakustik (A) zeitlich nachfolgende erkannte zweite Sprachakustik (B) oder durch erkanntes Ausbleiben einer entsprechenden zweite Sprach- akustik (B) ausgeräumt wird. 8. Method for speech-based support of a user (100) by means of a speech assistance system (10), in that acoustically perceptible sound signals are recorded by means of a recording device (11), speech acoustics are recognized in the recorded, audibly perceptible sound signals by means of a recognition device (13) and, if a speech acoustician was recognized, speech-based information is extracted from the recognized speech acoustics, an activation device (15) based on a speech model (14) is used as a function of the extracted speech-based information to determine whether the recognized speech acoustics are sent to the speech assistance system (10th ) is directed or not, the language assistance system (10) being activated for language-based support if the speech acoustics were recognized as being directed at the language assistance system (10), and/or not being activated if the speech acoustics were not recognized as being directed at the speech assistance system ( 10) court et was recognized, and by means of an assistant device (16) depending on extracted language-based information, a support function is selected and executed for language-based support of the user (100) when the language assistance system (10) has been activated beforehand, characterized in that in one Digital data store (17) stores a first speech acoustics (A) and/or the language-based information extracted from the first speech acoustics (A), and that the language model (14) is adapted by means of an adaptation device (18) as a function of the previously stored in the data memory stored first speech acoustics (A) and/or the language-based information extracted from the first speech acoustics (A) is adapted if there was uncertainty and/or error in the first speech acoustics (A) as to whether the first speech acoustics (A) Language assistance system (10) was directed or not, and this uncertainty and / or error strength by a second speech acoustic detected temporally subsequent to the first speech acoustic (A). (B) or by recognizing the absence of a corresponding second speech acoustic (B).
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass mittels der Adapti onseinrichtung (18) das Sprachmodell (14) in Abhängigkeit von derzuvor hin terlegten ersten Sprachakustik (A) und/oder den aus der ersten Sprachakustik (A) extrahierten sprachbasierten Informationen angepasst wird, wenn die zweite Sprachakustik (B) innerhalb eines gewissen Zeitraumes nach der ers ten Sprachakustik (A) erkannt oder innerhalb des gewissen Zeitraumes das Ausbleiben der zweiten Sprachakustik (B) erkanntwird. 9. The method according to claim 8, characterized in that the language model (14) is adapted by means of the adaptation device (18) depending on the previously stored first speech acoustics (A) and/or the language-based information extracted from the first speech acoustics (A). if the second speech acoustic (B) is recognized within a certain period of time after the first speech acoustic (A) or the absence of the second speech acoustic (B) is recognized within the certain period of time.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass der gewisse Zeit raum in Abhängigkeit von mindestens einem akustischen Qualitätskriterium der ersten Sprachakustik (A) festgelegt oder variiert wird. 10. The method as claimed in claim 9, characterized in that the certain period of time is defined or varied as a function of at least one acoustic quality criterion of the first speech acoustics (A).
11. Verfahren nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet, dass11. The method according to any one of claims 8 to 10, characterized in that
- mittels der Erkennungseinrichtung (13) prosodische Eigenschaften der ers ten Sprachakustik (A) als Teil der sprachbasierten Informationen aus der ersten Sprachakustik (A) extrahiert werden, - prosodic properties of the first speech acoustics (A) are extracted as part of the speech-based information from the first speech acoustics (A) by means of the recognition device (13),
- mittels der Aktivierungseinrichtung (15) basierend auf dem Sprachmodell (14) in Abhängigkeit von den in den extrahierten sprachbasierten Informati onen enthaltenen prosodischen Eigenschaften der ersten Sprachakustik (A) erkannt wird, ob die erkannte erste Sprachakustik (A) an das Sprachas- sistenzsystem (10) gerichtet ist oder nicht, und - Using the activation device (15) based on the language model (14) as a function of the prosodic properties of the first speech acoustics (A) contained in the extracted speech-based information, it is recognized whether the recognized first speech acoustics (A) are sent to the voice assistance system ( 10) directed or not, and
- mittels der Adaptionseinrichtung (18) das Sprachmodell (14) hinsichtlich der prosodischen Erkennung in Abhängigkeit von der zuvor in dem Daten speicher hinterlegten ersten Sprachakustik (A), den aus der ersten Sprach akustik (A) extrahierten sprachbasierten Informationen und/oder den in den extrahierten sprachbasierten Informationen enthaltenen prosodischen Ei genschaften der ersten Sprachakustik (A) angepasst wird. - by means of the adaptation device (18), the speech model (14) with regard to the prosodic recognition depending on the first speech acoustics (A) previously stored in the data memory, the speech-based information extracted from the first speech acoustics (A) and/or the in the extracted language-based information contained prosodic properties of the first speech acoustics (A) is adjusted.
12. Verfahren nach einem der Ansprüche 8 bis 11 , dadurch gekennzeichnet, dass - mittels der Erkennungseinrichtung (13) sprachliche Inhalte der ersten Sprachakustik (A) als Teil der sprachbasierten Informationen aus der ers ten Sprachakustik (A) extrahiert werden, 12. The method according to any one of claims 8 to 11, characterized in that - using the recognition device (13), linguistic contents of the first speech acoustics (A) are extracted as part of the speech-based information from the first speech acoustics (A),
- mittels der Aktivierungseinrichtung (15) basierend auf dem Sprachmodell (14) in Abhängigkeit von den in den extrahierten sprachbasierten Informati onen enthaltenen sprachlichen Inhalten der ersten Sprachakustik (A) er kannt wird, ob die erkannte erste Sprachakustik (A) an das Sprachassis- tenzsystem (10) gerichtet ist oder nicht, und - by means of the activation device (15) based on the language model (14) depending on the linguistic content of the first speech acoustics (A) contained in the extracted speech-based information (A) it is recognized whether the recognized first speech acoustics (A) to the speech assistance system (10) directed or not, and
- mittels der Adaptionseinrichtung (18) das Sprachmodell (14) hinsichtlich der Erkennung von sprachlichen Inhalten in Abhängigkeit von derzuvor in dem Datenspeicher hinterlegten ersten Sprachakustik (A), den aus der ers ten Sprachakustik (A) extrahierten sprachbasierten Informationen und/oder den in den extrahierten sprachbasierten Informationen enthaltenen sprach lichen Inhalten der ersten Sprachakustik (A) angepasst wird. - by means of the adaptation device (18), the speech model (14) with regard to the recognition of speech content depending on the first speech acoustics (A) previously stored in the data memory, the speech-based information extracted from the first speech acoustics (A) and/or the extracted language-based information contained linguistic content of the first speech acoustics (A) is adapted.
13. Sprachassistenzsystem (10) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mittels der Aktivierungseinrichtung (15) bei ei ner Unsicherheit darüber, ob die erkannte Sprachakustik als an das Sprachas sistenzsystem (10) gerichtet oder nicht erkannt werden soll, eine Sprachaus- gäbe in Form einer Sprachakustik generiert und mittels einer Ausgabeeinrich tung des Sprachassistenzsystems (10) ausgegeben wird, wobei die Sprach- ausgabe eine Nachfrage in Bezug auf die erkannte Sprachakustik an den Nut zer (100) enthält. 14. Computerprogramm mit Programmcodemitteln, eingerichtet zur Durchführung des Verfahrens nach einem der Ansprüche 8 bis 13, wenn das Computerpro gramm auf einer Datenverarbeitungsanlage ausgeführt wird. 13. Speech assistance system (10) according to one of the preceding claims, characterized in that by means of the activation device (15) when there is uncertainty as to whether the recognized speech acoustics should be recognized as directed to the speech assistance system (10) or not, a speech output would be generated in the form of speech acoustics and output by means of an output device of the speech assistance system (10), the speech output containing a query relating to the recognized speech acoustics to the user (100). 14. Computer program with program code means, set up to carry out the method according to one of claims 8 to 13, when the computer program is executed on a data processing system.
PCT/EP2021/068566 2020-07-29 2021-07-06 Voice assistance system and method for voice-based support WO2022022948A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020119980.5A DE102020119980B3 (en) 2020-07-29 2020-07-29 Language assistance system, method and computer program for language-based support
DE102020119980.5 2020-07-29

Publications (1)

Publication Number Publication Date
WO2022022948A1 true WO2022022948A1 (en) 2022-02-03

Family

ID=76920775

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2021/068566 WO2022022948A1 (en) 2020-07-29 2021-07-06 Voice assistance system and method for voice-based support

Country Status (2)

Country Link
DE (1) DE102020119980B3 (en)
WO (1) WO2022022948A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697822B1 (en) * 2013-03-15 2017-07-04 Apple Inc. System and method for updating an adaptive speech recognition model
US20190339784A1 (en) * 2018-05-07 2019-11-07 Apple Inc. Raise to speak
US20200098354A1 (en) * 2018-09-24 2020-03-26 Rovi Guides, Inc. Systems and methods for determining whether to trigger a voice capable device based on speaking cadence

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9335966B2 (en) 2014-09-11 2016-05-10 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup
GB2535766B (en) 2015-02-27 2019-06-12 Imagination Tech Ltd Low power detection of an activation phrase

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697822B1 (en) * 2013-03-15 2017-07-04 Apple Inc. System and method for updating an adaptive speech recognition model
US20190339784A1 (en) * 2018-05-07 2019-11-07 Apple Inc. Raise to speak
US20200098354A1 (en) * 2018-09-24 2020-03-26 Rovi Guides, Inc. Systems and methods for determining whether to trigger a voice capable device based on speaking cadence

Also Published As

Publication number Publication date
DE102020119980B3 (en) 2021-11-18

Similar Documents

Publication Publication Date Title
DE69634239T2 (en) Recognition of continuously spoken texts and commands
DE69632517T2 (en) Recognition of continuous speech
DE69829235T2 (en) Registration for speech recognition
DE60033106T2 (en) Correction of operating mode errors, control or dictation, in the speech recognition
DE10040214B4 (en) Method and system for automatic recognition of an update of a language model in a speech recognition system
DE69922971T2 (en) NETWORK-INTERACTIVE USER INTERFACE USING LANGUAGE RECOGNITION AND PROCESSING NATURAL LANGUAGE
US5212821A (en) Machine-based learning system
DE60207742T2 (en) CORRECTION OF A TEXT RECOGNIZED BY A LANGUAGE RECOGNITION BY COMPARING THE PHONES OF THE RECOGNIZED TEXT WITH A PHONETIC TRANSCRIPTION OF A MANUALLY ENTERED CORRECTION WRITING
DE69923379T2 (en) Non-interactive registration for speech recognition
DE60111329T2 (en) Adapting the phonetic context to improve speech recognition
EP1927980B1 (en) Method for classifying spoken language in spoken dialogue systems
DE69737987T2 (en) Method and system for buffering recognized words during speech recognition
DE69725091T2 (en) Method and system for editing sentences during continuous speech recognition
DE10163213A1 (en) Method for operating a speech recognition system
DE69819690T2 (en) LANGUAGE RECOGNITION USING A COMMAND LIKE
DE19847419A1 (en) Procedure for the automatic recognition of a spoken utterance
DE69924596T2 (en) Selection of acoustic models by speaker verification
WO2003017252A1 (en) Method and device for recognising a phonetic sound sequence or character sequence
DE112006000322T5 (en) Audio recognition system for generating response audio using extracted audio data
EP1081683A1 (en) Speech recognition method and device
DE69333762T2 (en) Voice recognition system
WO2022022948A1 (en) Voice assistance system and method for voice-based support
DE112020005337T5 (en) CONTROLLABLE, NATURAL PARALINGUISTICS FOR TEXT-TO-SPEECH SYNTHESIS
Revathi et al. A challenging task in recognizing the speech of the Hearing impaired using normal hearing models in classical Tamil language.
DE69723449T2 (en) METHOD AND SYSTEM FOR LANGUAGE-TO-LANGUAGE IMPLEMENTATION

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21742091

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21742091

Country of ref document: EP

Kind code of ref document: A1