DE102019132054A1 - Method for operating a virtual assistant - Google Patents
Method for operating a virtual assistant Download PDFInfo
- Publication number
- DE102019132054A1 DE102019132054A1 DE102019132054.2A DE102019132054A DE102019132054A1 DE 102019132054 A1 DE102019132054 A1 DE 102019132054A1 DE 102019132054 A DE102019132054 A DE 102019132054A DE 102019132054 A1 DE102019132054 A1 DE 102019132054A1
- Authority
- DE
- Germany
- Prior art keywords
- conversation
- virtual assistant
- people
- determined
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
Abstract
In mindestens einer Ausführungsform des Verfahrens zum Betreiben eines virtuellen Assistenten, wobei
- der virtuelle Assistent mehrere Gesprächsmodi (M1, M2, M3) umfasst,
- jeder Gesprächsmodus einer Gesprächssituation zugeordnet ist,
- der virtuelle Assistent in den unterschiedlichen Gesprächsmodi unterschiedliche Funktionen in einem Gespräch übernimmt,
- werden folgende Schritte ausgeführt:
A) Bereitstellen von Sprachinformationen (I1), die repräsentativ für eine Spracheingabe von einer oder mehreren Personen sind;
C) Ermitteln einer Gesprächssituation in Abhängigkeit von den Sprachinformationen;
D) Einstellen des der Gesprächssituation zugeordneten Gesprächsmodus und Betreiben des virtuellen Assistenten in diesem Gesprächsmodus.
In at least one embodiment of the method for operating a virtual assistant, wherein
- the virtual assistant includes several conversation modes (M1, M2, M3),
- each conversation mode is assigned to a conversation situation,
- the virtual assistant takes on different functions in a conversation in the different conversation modes,
- the following steps are carried out:
A) providing speech information (I1) which is representative of a speech input by one or more people;
C) determining a conversation situation as a function of the language information;
D) Setting the conversation mode assigned to the conversation situation and operating the virtual assistant in this conversation mode.
Description
Es wird ein Verfahren zum Betreiben eines virtuellen Assistenten angegeben. Darüber hinaus werden eine Vorrichtung, ein Computerprogramm, ein computerlesbares Speichermedium und ein Fahrzeug angegeben.A method for operating a virtual assistant is specified. In addition, a device, a computer program, a computer-readable storage medium and a vehicle are specified.
Eine zu lösende Aufgabe besteht darin, ein Verfahren zum Betreiben eines virtuellen Assistenten anzugeben, mit dem ein Gespräch zwischen mehreren Personen effizient gesteuert werden kann. Weitere zu lösende Aufgaben bestehen darin, eine Vorrichtung, ein Computerprogramm und ein computerlesbares Speichermedium zur Ausführung dieses Verfahrens anzugeben. Noch eine weitere zu lösende Aufgabe besteht darin, ein Fahrzeug mit einer solchen Vorrichtung anzugeben.A task to be solved consists in specifying a method for operating a virtual assistant with which a conversation between several people can be efficiently controlled. Further objects to be solved consist in specifying a device, a computer program and a computer-readable storage medium for carrying out this method. Yet another object to be achieved consists in specifying a vehicle with such a device.
Zunächst wird das Verfahren zum Betreiben eines virtuellen Assistenten angegeben. Ein virtueller Assistent, auch intelligenter virtueller Assistent, Englisch Virtual Intelligent Assistant, kurz IVA, oder digitaler Assistent genannt, ist eine Software, die beispielsweise aufgrund von Spracherkennung eine Sprachanalyse vollzieht, diese semantisch interpretiert, logisch verarbeitet und als Ergebnis durch Sprachsynthese eine Antwort formuliert oder eine Aktion ausführt. Die Architektur des virtuellen Assistenten umfasst beispielsweise mehrere Komponenten. Zum Beispiel umfasst die Architektur Komponenten für STT (Speechto-Text, zu Deutsch Sprache zu Text), NLU (Natural Language Understanding, zu Deutsch natürliche Spracherkennung), DM (Dialogmanagement), NLG (Natural Language Generation, zu Deutsch natürliche Spracherzeugung) und TTS (Text-to-Speech, zu Deutsch Text zu Sprache). In aktuellen Architekturen erfolgen Sprachanalyse (STT) und semantische Interpretation (NLU) auch schon in einem Schritt.First, the method for operating a virtual assistant is given. A virtual assistant, also called intelligent virtual assistant, English Virtual Intelligent Assistant, IVA for short, or digital assistant, is software that, for example, performs a speech analysis based on speech recognition, interprets it semantically, processes it logically and as a result formulates an answer through speech synthesis or takes an action. For example, the architecture of the virtual assistant includes several components. For example, the architecture includes components for STT (Speechto-Text), NLU (Natural Language Understanding), DM (Dialog Management), NLG (Natural Language Generation) and TTS (Text-to-Speech, in German text-to-speech). In current architectures, language analysis (STT) and semantic interpretation (NLU) take place in one step.
Alternativ kann die Software ein neuronales Netzt mit einer Ende-zu-Ende neuronalen Architektur umfassen. Das neuronale Netzt ist dann zum Beispiel eine Komponente, die als Eingabe eine Spracheingabe erhält und als Ausgabe eine Sprachausgabe ausgibt.Alternatively, the software can comprise a neural network with an end-to-end neural architecture. The neural network is then, for example, a component that receives a voice input as input and outputs a voice output as output.
Gemäß zumindest einer Ausführungsform umfasst der virtuelle Assistent mehrere Gesprächsmodi. Jeder Gesprächsmodus ist einer Gesprächssituation zugeordnet. Der virtuelle Assistent übernimmt in den unterschiedlichen Gesprächsmodi unterschiedliche Funktionen in einem Gespräch. Mit „Funktion in einem Gespräch“ ist insbesondere die Rolle in dem Gespräch gemeint.According to at least one embodiment, the virtual assistant comprises several conversation modes. Each conversation mode is assigned to a conversation situation. The virtual assistant takes on different functions in a conversation in the different conversation modes. “Function in a conversation” means in particular the role in the conversation.
Beispielsweise ist jedem Gesprächsmodus ein anderer Algorithmus zur logischen Verarbeitung der durch Spracherkennung erhaltenen Sprachinformationen zugeordnet. Je nach Gesprächsmodus kann der virtuelle Assistent eingerichtet sein, bestimmte Antworten durch Sprachsynthese zu formulieren und/oder bestimmte Aktionen auszuführen.For example, a different algorithm for the logical processing of the speech information obtained through speech recognition is assigned to each conversation mode. Depending on the conversation mode, the virtual assistant can be set up to formulate certain answers by means of speech synthesis and / or to carry out certain actions.
Gemäß zumindest einer Ausführungsform umfasst das Verfahren einen Schritt A), in dem Sprachinformationen bereitgestellt werden, die repräsentativ für eine Spracheingabe oder Äußerung von einer oder mehreren Personen sind. Die Sprachinformationen werden durch Spracherkennung, zum Beispiel durch natürliche Spracherkennung, Englisch Natural Language Understanding, kurz NLU, von dem virtuellen Assistenten erzeugt. Bei den Sprachinformationen handelt es sich insbesondere um Computerdaten. Die Sprachinformationen enthalten Informationen über das von der zumindest einen Person Gesagte.According to at least one embodiment, the method comprises a step A) in which speech information is provided which is representative of a speech input or utterance by one or more people. The language information is generated by the virtual assistant through speech recognition, for example through natural language recognition, English Natural Language Understanding, or NLU for short. The language information is in particular computer data. The language information contains information about what was said by the at least one person.
Gemäß zumindest einer Ausführungsform wird in einem Schritt C) eine Gesprächssituationen in Abhängigkeit von den Sprachinformationen ermittelt. Darunter ist insbesondere zu verstehen, dass eine Gesprächsinformation ermittelt wird, die repräsentativ für die Gesprächssituation ist. Unter „Gesprächssituation“ wird die Art eines Gesprächs verstanden. Arten eines Gesprächs können sein: Besprechung, Debatte, Dialog, Monolog, Streitgespräch, Dienstgespräch, Diskussion, Geplauder, Konversation, Telefongespräch, Verhandlung. Beispielsweise wird in Abhängigkeit von den Sprachinformationen ermittelt, ob ein Gespräch zwischen mehreren Personen stattfindet oder ob eine oder mehrere Personen zu dem virtuellen Assistenten reden. Aus den Sprachinformationen wird beispielsweise auch die Anzahl der am Gespräch beteiligten Personen ermittelt.According to at least one embodiment, a conversation situation is determined as a function of the language information in a step C). This is to be understood in particular as the fact that conversation information is ascertained that is representative of the conversation situation. “Conversation situation” is understood to mean the type of conversation. Types of conversation can be: meeting, debate, dialogue, monologue, argument, service conversation, discussion, chat, conversation, telephone conversation, negotiation. For example, depending on the language information, it is determined whether a conversation is taking place between several people or whether one or more people are talking to the virtual assistant. For example, the number of people involved in the conversation is also determined from the voice information.
Die Gesprächssituation kann nach jeder Äußerung erneut ermittelt werden oder die Gesprächssituation wird initial nach einer ersten Äußerung ermittelt oder die Gesprächssituation wird immer wieder, in Abständen nach einer Äußerung ermittelt.The conversation situation can be determined again after each utterance or the conversation situation is initially determined after a first utterance or the conversation situation is determined again and again, at intervals after an utterance.
Gemäß zumindest einer Ausführungsform umfasst das Verfahren einen Schritt D), in dem der der ermittelten Gesprächssituation zugeordnete Gesprächsmodus eingestellt wird und der virtuelle Assistent in diesem Gesprächsmodus betrieben wird. Anders ausgedrückt wird in Abhängigkeit der ermittelten Gesprächsinformation, die repräsentativ für die Gesprächssituation ist, der zugeordnete Gesprächsmodus ermittelt und dann eingestellt. In dem eingestellten Gesprächsmodus kann der virtuelle Assistent beispielsweise in das Gespräch eingreifen oder sich gar nicht an einem Gespräch beteiligten.According to at least one embodiment, the method comprises a step D) in which the conversation mode assigned to the determined conversation situation is set and the virtual assistant is operated in this conversation mode. In other words, the assigned conversation mode is determined and then set as a function of the conversation information ascertained, which is representative of the conversation situation. In the set conversation mode, the virtual assistant can, for example, intervene in the conversation or not take part in a conversation at all.
Zum Beispiel wird zunächst ein zur Gesprächssituation passender Parameter (Parametrierung, Konfigurierung) gesetzt. Dieser Parameter kann dann in einzelnen Komponenten der Architektur des virtuellen Assistenten verwendet werden. Beispielsweise wird dann in Abhängigkeit dieses Parameters eine Parametrierung des Dialogmanagements (DM) vorgenommen und dadurch ein geeigneter Dialogsstatus, Dialogstatusübergänge, auszuführender Aktionen ausgewählt. Ferner wird beispielweise in Abhängigkeit des Parameters einer Parametrierung des NLG vorgenommen und dadurch geeignete Textbausteine, Texttemplate et cetera ausgewählt. Ferner kann beispielsweise noch in Abhängigkeit des Parameters eine Parametrierung der Sprachsynthese (TTS) vorgenommen werden und dadurch geeignete Stimmstile, Sprechgeschwindigkeiten, Tonhöhen, Betonungen et cetera ausgewählt werden.For example, a parameter suitable for the conversation situation (parameterization, configuration) is set first. This parameter can then be used in individual components of the Architecture of the virtual assistant. For example, depending on this parameter, the dialog management (DM) is parameterized and a suitable dialog status, dialog status transitions, actions to be carried out are selected as a result. Furthermore, depending on the parameter, the NLG is parameterized, for example, and suitable text modules, text templates, etc. are selected as a result. Furthermore, the speech synthesis (TTS) can be parameterized as a function of the parameter, for example, and suitable voice styles, speaking speeds, pitches, intonations, etc. can be selected as a result.
Der Parameter kann auch in kombinierten Komponenten einer neueren Architektur eines virtuelle Assistenten verwendet werden. Beispielsweise wird in Abhängigkeit des Parameters eine Parametrierung der Komponente, die in Funktion der Kombination aus NLG und TTS entspricht, vorgenommen. Das heißt, aus Ausgabebefehlen des Dialogmanagers direkt Sprache synthetisiert und dabei geeignete Textbausteine, Texttemplate Stimmstile, Sprechgeschwindigkeiten, Tonhöhen, Betonungen et cetera synthetisiert.The parameter can also be used in combined components of a newer architecture of a virtual assistant. For example, depending on the parameter, the component is parameterized, which corresponds to the function of the combination of NLG and TTS. This means that speech is synthesized directly from the dialog manager's output commands and suitable text modules, text templates, voice styles, speaking speeds, pitches, intonations, etc. are synthesized.
Der Parameter kann auch in einer Ende-zu-Ende neuronalen Architektur eines virtuellen Assistenten verwendet werden. Dabei wird der Parameter zum Beispiel als Vektor zusammen mit den Äußerungen/Spracheingaben an die Ende-zu-Ende neuronale Architektur übergeben.The parameter can also be used in an end-to-end neural architecture of a virtual assistant. The parameter is transferred to the end-to-end neural architecture, for example as a vector, together with the utterances / speech inputs.
Die Schritte A), C) und D) werden bevorzugt in alphabetischer Reihenfolge durchgeführt. Bei dem hier beschriebenen Verfahren handelt es sich insbesondere um ein auf einem Computer ausführbares Verfahren.Steps A), C) and D) are preferably carried out in alphabetical order. The method described here is, in particular, a method that can be carried out on a computer.
In mindestens einer Ausführungsform des Verfahrens zum Betreiben eines virtuellen Assistenten, wobei
- - der virtuelle Assistent mehrere Gesprächsmodi umfasst,
- - jeder Gesprächsmodus einer Gesprächssituation zugeordnet ist,
- - der virtuelle Assistent in den unterschiedlichen Gesprächsmodi unterschiedliche Funktionen in einem Gespräch übernimmt,
- A) Bereitstellen von Sprachinformationen, die repräsentativ für eine Spracheingabe von einer oder mehreren Personen sind;
- C) Ermitteln einer Gesprächssituation in Abhängigkeit von den Sprachinformationen;
- D) Einstellen des der ermittelten Gesprächssituation zugeordneten Gesprächsmodus und Betreiben des virtuellen Assistenten in diesem Gesprächsmodus.
- - the virtual assistant includes several conversation modes,
- - each conversation mode is assigned to a conversation situation,
- - the virtual assistant takes on different functions in a conversation in the different conversation modes,
- A) providing speech information representative of speech input from one or more people;
- C) determining a conversation situation as a function of the language information;
- D) Setting the conversation mode assigned to the determined conversation situation and operating the virtual assistant in this conversation mode.
Virtuelle Assistenten sind häufig nur zur Kommunikation mit einer Person eingerichtet. Sprechen dann mehrere Personen zu dem virtuellen Assistenten, so kann dieser zwischen den Personen nicht unterscheiden. Das Gespräch zwischen den Personen und dem virtuellen Assistenten wäre dann als würde nur eine Person mit dem virtuellen Assistenten reden.Virtual assistants are often set up to communicate with one person only. If several people then speak to the virtual assistant, it cannot distinguish between the people. The conversation between the people and the virtual assistant would then be as if only one person were talking to the virtual assistant.
Häufig ist es aber gewünscht, dass mehrere Personen mit dem virtuellen Assistenten reden können, zum Beispiel wenn mehrere Personen in einem Auto sitzen. Es gibt virtuelle Assistenten, die erkennen, dass mehrere Personen zu ihnen reden und die auch zwischen den Personen unterscheiden können.However, it is often desired that several people can talk to the virtual assistant, for example when several people are sitting in a car. There are virtual assistants who recognize that several people are talking to them and who can also differentiate between people.
Der vorliegenden Erfindung liegt die Erkenntnis zu Grunde, dass es zu unterschiedlichen Gesprächssituation kommen kann, insbesondere wenn mehrere Personen miteinander reden. Eine Idee der vorliegenden Erfindung ist es, einen virtuellen Assistenten bereitzustellen, der sich an die Gesprächssituation, insbesondere an wechselnde Gesprächssituationen anpasst. Dies wird vorliegend dadurch erreicht, dass dem virtuellen Assistenten mehrere Gesprächsmodi zugeordnet sind, in denen der virtuelle Assistent je nach Gesprächssituation betreibbar ist. Die Gesprächssituation wird dabei von dem virtuellen Assistenten selbstständig erkannt.The present invention is based on the knowledge that different conversation situations can arise, in particular when several people are talking to one another. One idea of the present invention is to provide a virtual assistant that adapts to the conversation situation, in particular to changing conversation situations. In the present case, this is achieved by assigning several conversation modes to the virtual assistant, in which the virtual assistant can be operated depending on the conversation situation. The virtual assistant automatically recognizes the conversation situation.
Durch einen solchen virtuellen Assistenten kann ein Gespräch zwischen Personen gelenkt werden und an bestimmte Situationen angepasst werden. Beispielsweise bei einem Gespräch mehrerer Personen in einem Fahrzeug, kann der virtuelle Assistent ein Gespräch beruhigen und so die Sicherheit erhöhen.Such a virtual assistant can direct a conversation between people and adapt it to specific situations. For example, when several people are talking in a vehicle, the virtual assistant can calm down a conversation and thus increase security.
Gemäß zumindest einer Ausführungsform umfasst das Verfahren einen Schritt B), in dem eine Anzahl an Personen ermittelt wird, die miteinander oder jeweils zu dem virtuellen Assistenten sprechen. Alternativ kann die Anzahl an Personen in einem Raum oder einer Fahrzeugkabine ermittelt werden.According to at least one embodiment, the method comprises a step B) in which a number of people is determined who speak to one another or to the virtual assistant. Alternatively, the number of people in a room or a vehicle cabin can be determined.
Die Anzahl der Personen wird beispielsweise in Abhängigkeit von den Sprachinformationen ermittelt. Unterschiedliche Personen können beispielsweise durch Stimmenerkennung erkannt werden. Alternativ oder zusätzlich wird die Anzahl der Personen in Abhängigkeit von Zusatzinformationen ermittelt. Bei den Zusatzinformationen handelt es sich beispielsweise um Informationen, die nicht auf eine Spracheingabe zurückzuführen sind. Beispielsweise werden die Zusatzinformationen durch Sensoren bereitgestellt, die die Anwesenheit von Personen erkennen. Zum Beispiel handelt es sich um Drucksensoren, die Sitzen eines Fahrzeuges zugeordnet sind und mit denen erkannt wird, ob eine Person auf dem Sitz sitzt. Auch ein oder mehrere Kamerasensoren sind zur Ermittlung der Personenanzahl denkbar.The number of people is determined, for example, as a function of the language information. Different people can be recognized by voice recognition, for example. Alternatively or additionally, the number of people is determined as a function of additional information. The additional information is, for example, information that cannot be traced back to a voice input. For example, the additional information is provided by sensors provided that detect the presence of people. For example, these are pressure sensors that are assigned to the seats of a vehicle and with which it is recognized whether a person is sitting on the seat. One or more camera sensors are also conceivable for determining the number of people.
Gemäß zumindest einer Ausführungsform wird im Schritt C) die Gesprächssituation in zusätzlicher Abhängigkeit von der ermittelten Anzahl der Personen ermittelt. Beispielsweise umfasst der virtuelle Assistent für unterschiedliche Gesprächssituationen in Gesprächen zwischen zumindest zwei Personen unterschiedliche Gesprächsmodi.According to at least one embodiment, the conversation situation is determined in step C) as an additional function of the determined number of people. For example, the virtual assistant includes different conversation modes for different conversation situations in conversations between at least two people.
Gemäß zumindest einer Ausführungsform werden im Schritt C) und/oder im Schritt D) ein oder mehrere Gesprächsmerkmale in Abhängigkeit der Sprachinformationen ermittelt. Jedes Gesprächsmerkmal ist ein Element aus der Gruppe: Gesprächsfluss, Kontextvariablen, Emotionen der einzelnen Personen, soziale Beziehungen zwischen den Personen, Redezeiten der einzelnen Personen, Redelautstärke der einzelnen Personen, Redegeschwindigkeit der einzelnen Personen, Redeunterbrechungen durch einzelne Personen, Wiederholung von Begriffen durch einzelne Personen, Identitäten der Personen. Das Ermitteln eines Gesprächsmerkmals meint insbesondere das Ermitteln einer Information, die repräsentativ für das Gesprächsmerkmal ist.According to at least one embodiment, one or more call features are determined in step C) and / or in step D) as a function of the voice information. Each conversation characteristic is an element from the group: conversation flow, context variables, emotions of the individual persons, social relationships between the persons, speaking times of the individual persons, speaking volume of the individual persons, speaking speed of the individual persons, speech interruptions by individual persons, repetition of terms by individual persons , Identities of the people. The determination of a conversation feature means in particular the determination of information that is representative of the conversation feature.
Gemäß zumindest einer Ausführungsform wird im Schritt C) die Gesprächssituation in Abhängigkeit von der oder den Gesprächsmerkmalen ermittelt beziehungsweise in Abhängigkeit von den Informationen, die repräsentativ für die Gesprächsmerkmale sind, ermittelt. Beispielsweise werden die Gesprächsmerkmale mit einem hinterlegten Kommunikationsmuster verglichen, um die Gesprächssituation zu ermitteln. Die Gesprächsmerkmale können auch in ein trainiertes neuronales Netz eingegeben werden und dadurch die Gesprächssituation ermittelt werden. Das Kommunikationsmuster oder das neuronale Netz können durch maschinelles Lernen erzeugt sein.According to at least one embodiment, in step C) the conversation situation is determined as a function of the conversation feature (s) or as a function of the information that is representative of the conversation features. For example, the conversation features are compared with a stored communication pattern in order to determine the conversation situation. The conversation features can also be entered into a trained neural network and the conversation situation can be determined in this way. The communication pattern or the neural network can be generated by machine learning.
Einige Gesprächsmerkmale können zusätzlich oder alternativ in Abhängigkeit von Zusatzinformationen, die unabhängig von den Sprachinformationen sind, ermittelt werden. Als Zusatzinformationen kommen Informationen von Sensoren, beispielsweise Sitzsensoren oder Kamerasensoren, infrage. Insbesondere Gesprächsmerkmale, die repräsentativ für die oben genannten Kontextvariablen, soziale Beziehungen zwischen den Personen und Identitäten der Personen sind, können auch oder nur in Abhängigkeit von den Zusatzinformationen, die unabhängig von den Sprachinformationen sind, ermittelt werden. Unter Kontextvariable wird beispielsweise die Tageszeit, Zeitpläne der einzelnen Personen, Wetterbedingungen, Verkehrssituation und Ähnliches verstanden.Some conversation features can additionally or alternatively be determined as a function of additional information that is independent of the speech information. Information from sensors, for example seat sensors or camera sensors, can be used as additional information. In particular, conversation features that are representative of the context variables mentioned above, social relationships between the people and identities of the people can also or only be determined as a function of the additional information that is independent of the language information. Context variables are understood to mean, for example, the time of day, schedules of the individual persons, weather conditions, traffic situation and the like.
Gemäß zumindest einer Ausführungsform umfassen die mehreren Gesprächsmodi einen ersten Gesprächsmodus, in dem der virtuelle Assistent die Funktion eines Mediators zwischen mehreren Personen einnimmt.According to at least one embodiment, the plurality of conversation modes comprise a first conversation mode in which the virtual assistant assumes the function of a mediator between a plurality of people.
Gemäß zumindest einer Ausführungsform umfassen die mehreren Gesprächsmodi einen zweiten Gesprächsmodus, in dem der virtuelle Assistent ein Gespräch zwischen mehreren Personen zusammenfasst.According to at least one embodiment, the multiple conversation modes include a second conversation mode in which the virtual assistant summarizes a conversation between multiple people.
Gemäß zumindest einer Ausführungsform umfassen die mehreren Gesprächsmodi einen dritten Gesprächsmodus, in dem der virtuelle Assistent ein Gespräch zwischen mehreren Personen moderiertAccording to at least one embodiment, the multiple conversation modes include a third conversation mode in which the virtual assistant moderates a conversation between multiple people
Der erste, zweite und dritte Gesprächsmodus sind also insbesondere Gesprächsmodi, die eingestellt werden, falls mehrere Personen miteinander oder zu dem virtuellen Assistenten sprechen. Insofern werden der erste, zweite oder dritte Gesprächsmodus bevorzugt eingeschaltet, falls die ermittelte Anzahl der Personen zumindest zwei beträgt.The first, second and third conversation modes are therefore in particular conversation modes that are set if several people speak to one another or to the virtual assistant. In this respect, the first, second or third conversation mode is preferably switched on if the number of people determined is at least two.
Gemäß zumindest einer Ausführungsform wird beim Betreiben des virtuellen Assistenten im ersten Gesprächsmodus ein Schritt ausgeführt, in dem Absichten der Personen aus den Sprachinformationen ermittelt werden. In einem weiteren Schritt wird dann ein Ausgabesignal zur Stellung einer Rückfrage zu einer Absicht einer Person generiert. Alternativ wird ein Ausgabesignal zur Ausgabe eines Kompromissvorschlags zu den unterschiedlichen Absichten generiert. Das Ausgabesignal kann in Form eines Audiosignals ausgegeben werden. Alternativ oder zusätzlich kann ein Videosignal oder Beleuchtungssignal ausgegeben werden.According to at least one embodiment, when the virtual assistant is operated in the first conversation mode, a step is carried out in which the intentions of the persons are determined from the language information. In a further step, an output signal for asking a question about a person's intention is then generated. Alternatively, an output signal for outputting a compromise proposal for the different intentions is generated. The output signal can be output in the form of an audio signal. Alternatively or additionally, a video signal or lighting signal can be output.
Zum Beispiel will eine erste Person in einem Fahrzeug das Radio lauter drehen und eine zweite Person im Fahrzeug das Radio leiser drehen. Der virtuelle Assistent würde dann beispielsweise ein Ausgabesignal generieren, das repräsentativ ist für den Kompromissvorschlag „Lassen wir die Lautstärke wie sie ist“.For example, a first person in a vehicle wants to turn the radio up and a second person in the vehicle wants to turn the radio down. The virtual assistant would then, for example, generate an output signal that is representative of the compromise suggestion “Let's leave the volume as it is”.
Gemäß zumindest einer Ausführungsform wird beim Betreiben des virtuellen Assistenten im zweiten Gesprächsmodus ein Schritt ausgeführt, in dem Absichten der Personen aus den Sprachinformationen ermittelt werden. In einem darauffolgenden Schritt wird ein Ausgabesignal generiert, dass repräsentativ für eine Zusammenfassung der Absichten ist.According to at least one embodiment, when the virtual assistant is operated in the second conversation mode, a step is carried out in which the intentions of the persons are determined from the language information. In a subsequent step, an output signal is generated that is representative of a summary of the intentions.
Beispielsweise wollen Personen, die in einem Fahrzeug sitzen, essen gehen, wobei eine erste Person mitteilt, dass sie ab 8 Uhr Zeit hat und eine zweite Person mitteilt, dass sie ab 9 Uhr Zeit hat. Der virtuelle Assistent würde dann beispielsweise ein Ausgabesignal mit folgenden Inhalt generieren: „Person 1 kann ab 8 Uhr, Person 2 ab 9 Uhr. Soll ich einen Tisch auf 9 Uhr reservieren?“.For example, people who are sitting in a vehicle want to go out to eat, a first person communicating that they are available from 8 a.m. and a second person communicating that they are available from 9 a.m. The virtual assistant would then, for example, generate an output signal with the following content: “Person 1 can start at 8 o'clock, person 2 from 9 o'clock. Should I reserve a table for 9 o'clock? ”.
Gemäß zumindest einer Ausführungsform wird beim Betreiben des virtuellen Assistenten in dem dritten Gesprächsmodus ein Schritt ausgeführt, in dem Inhalte des Gesprächs in Abhängigkeit der Sprachinformationen ermittelt werden. In einem weiteren Schritt werden dann Redezeiten der Personen zu dem Inhalt in Abhängigkeit von den Sprachinformationen ermittelt. In einem darauffolgenden Schritt wird die Person mit der kürzesten Redezeit zu dem Inhalt ermittelt. In einem weiteren Schritt wird ein Ausgabesignal zur Motivierung der Personen mit der kürzesten Redezeit, sich zu dem Inhalt zu äußern, generiert.According to at least one embodiment, when the virtual assistant is operated in the third conversation mode, a step is carried out in which the contents of the conversation are determined as a function of the language information. In a further step, the speaking times of the people for the content are then determined as a function of the language information. In a subsequent step, the person with the shortest speaking time for the content is determined. In a further step, an output signal is generated to motivate the people with the shortest speaking time to comment on the content.
Bei der Ermittlung der Redezeiten der einzelnen Personen wird beispielsweise ermittelt, wann eine identifizierte Person zu sprechen beginnt und wann die identifizierte Person zu sprechen aufhört. Der Zeitunterschied dazwischen ist die Redezeit. Fängt dieselbe Person im selben Gespräch erneut an zu sprechen, so wird die neue ermittelte Redezeit der alten Redezeit hinzugefügt. Die Redezeit einer Person ist also die Summe aller Redezeiten dieser Person.When determining the speaking times of the individual persons, it is determined, for example, when an identified person begins to speak and when the identified person stops speaking. The time difference in between is speaking time. If the same person starts speaking again in the same conversation, the new speaking time will be added to the old speaking time. The speaking time of a person is the sum of all speaking times of that person.
Insbesondere beim Betrieb des virtuellen Assistenten im ersten Betriebsmodus oder im dritten Betriebsmodus können Wiederholungen von Begriffen durch einzelne Personen erfasst werden. Beispielsweise wird jedes Mal, wenn eine Person einen bestimmten Begriff verwendet oder jedes Mal, wenn eine Person ihre Aussage inhaltlich wiederholt, ein Zähler hoch gesetzt. Anhand des Zählers ermittelt der virtuelle Assistent, wie oft sich eine bestimmte Person bereits zu einem Inhalt geäußert hat oder wie dominant die Person im Gespräch auftritt. Entsprechend kann der virtuelle Assistent die übrigen Personen auffordern, sich auch nochmal zu dem Inhalt zu äußern. Zum Erkennen von Aussagen, die inhaltlich beziehungsweise semantisch gleich oder ähnlich sind, können vortrainierte Sprachmodell auf Wort-, Satz- oder Paragraphenebene, wie zum Beispiel BERT, UMLfit et cetera, verwendet werden.In particular when operating the virtual assistant in the first operating mode or in the third operating mode, repetitions of terms by individual persons can be recorded. For example, every time a person uses a certain term or every time a person repeats their statement in terms of content, a counter is incremented. Using the counter, the virtual assistant determines how often a certain person has already commented on a topic or how dominant the person appears in the conversation. Accordingly, the virtual assistant can ask the other people to comment on the content again. Pre-trained language models at word, sentence or paragraph level, such as BERT, UMLfit et cetera, can be used to identify statements that are identical or similar in terms of content or semantics.
Weiter können beim Betrieb des virtuellen Assistenten im ersten und/oder dritten Betriebsmodus Redeunterbrechungen durch einzelne Personen erfasst werden. Eine Redeunterbrechung durch eine Person wird beispielsweise erfasst, wenn eine Person zu reden anfängt, bevor eine Person, die zuvor angefangen hat zu reden, das Reden beendet hat. Der virtuelle Assistent zählt zum Beispiel bei jeder Person, wie oft diese eine andere Person unterbrochen hat. Entsprechend kann der virtuelle Assistent der Personen, die am öftesten unterbrochen hat, Redezeit entziehen oder auf die Unterbrechungen hinweisen oder den anderen Personen mehr Redezeit einräumen.Furthermore, when the virtual assistant is operating in the first and / or third operating mode, interruptions in speech by individual persons can be recorded. A speech interruption by a person is detected, for example, when a person starts to talk before a person who previously started talking has finished speaking. For example, the virtual assistant counts for each person how often they interrupted another person. Accordingly, the virtual assistant can withdraw speaking time from the person who has interrupted the most frequently or point out the interruptions or give the other person more speaking time.
Der virtuelle Assistent kann im Betrieb beispielsweise Emotionen der Personen erkennen, beispielsweise anhand der Redegeschwindigkeiten der einzelnen Personen. Insbesondere im ersten Betriebsmodus kann der virtuelle Assistent dann je nach Emotion der Person diese auffordern, mehr zu sprechen oder diese beruhigen oder ähnliches.The virtual assistant can, for example, recognize people's emotions during operation, for example based on the speaking speeds of the individual people. In particular in the first operating mode, the virtual assistant can then, depending on the emotions of the person, ask them to speak more or to calm them down or the like.
Der virtuelle Assistent kann je nach Betriebsmodus eingerichtet sein, einer Person ein Mikrofon zu entziehen. Insbesondere im Fall, dass jeder Person eine persönliche Hörzone zugeordnet ist, beispielsweise in einem Fahrzeug oder in verschiedenen Räumen eines Hauses oder in verschiedenen Räumen von verschiedenen Häusern, ist diese Maßnahme denkbar.Depending on the operating mode, the virtual assistant can be set up to remove a microphone from a person. This measure is conceivable in particular in the event that each person is assigned a personal listening zone, for example in a vehicle or in different rooms of a house or in different rooms of different houses.
Gemäß zumindest einer Ausführungsform umfasst das Verfahren einen Schritt E), in dem Bildinformationen bereitgestellt werden, die repräsentativ für ein Bild oder Video der einen oder mehreren Personen sind.According to at least one embodiment, the method comprises a step E) in which image information is provided that is representative of an image or video of the one or more people.
Gemäß zumindest einer Ausführungsform werden im Schritt C) und/oder D) ein oder mehrere Gesprächsmerkmale in Abhängigkeit von den Bildinformationen ermittelt. Bei den Gesprächsmerkmalen handelt es sich insbesondere um die oben genannten Gesprächsmerkmale. Insbesondere Emotionen der einzelnen Personen können in Abhängigkeit der Bildinformationen ermittelt werden.According to at least one embodiment, one or more conversation features are determined in step C) and / or D) as a function of the image information. The conversation features are in particular the above-mentioned conversation features. In particular, emotions of the individual persons can be determined as a function of the image information.
Damit der virtuelle Assistent die richtige Gesprächssituation ermittelt, den richtigen Gesprächsmodus einstellt und in dem eingestellten Gesprächsmodus richtig agiert, wird der virtuelle Assistent beispielsweise über maschinelles Lernen trainiert. Dazu werden zum Beispiel Informationen auf Basis von Videoaufnahmen, Audioaufnahmen, Emotions-Clusterfizierungen bereitgestellt, denen ein Kommunikationsmuster zugeordnet ist. In Abhängigkeit dieses Kommunikationsmusters kann der virtuelle Assistent dann trainiert werden. Zum Trainieren des Verhaltens des virtuellen Assistenten im ersten Betriebsmodus können beispielsweise Mediator-Schulungsmaterialien, Videoaufzeichnungen und Audioaufzeichnungen verwendet werden.So that the virtual assistant determines the correct conversation situation, sets the correct conversation mode and acts correctly in the set conversation mode, the virtual assistant is trained using machine learning, for example. For this purpose, information is provided on the basis of video recordings, audio recordings, emotion clustering, for example, to which a communication pattern is assigned. The virtual assistant can then be trained as a function of this communication pattern. For example, mediator training materials, video recordings and audio recordings can be used to train the behavior of the virtual assistant in the first operating mode.
Das Training kann sich nur auf das Klassifizieren/Erkennen einzelner Gesprächsmerkmale (feature learning) oder der gesamten Gesprächssituation beziehen. Diese Klassifizierung kann dann in Form des beschriebenen Parameters sowohl in einer traditionellen Architektur (STT-NLU-DM-NLG-TTS) oder in einer Ende-zu-Ende neuronalen Architektur verwendet werden. Alternativ kann die Ermittlung der Gesprächssituation auch Teil der Ende-zu-Ende neuronalen Architektur sein.The training can only relate to the classification / recognition of individual conversation features (feature learning) or the entire conversation situation. This classification can then take the form of the described parameter can be used both in a traditional architecture (STT-NLU-DM-NLG-TTS) or in an end-to-end neural architecture. Alternatively, the determination of the conversation situation can also be part of the end-to-end neural architecture.
Als nächstes wird das Computerprogramm angegeben. Das Computerprogramm umfasst Befehle, die bei der Ausführung des Computerprogramms durch einen Computer diesen veranlassen, das hier beschriebene Verfahren durchzuführen. Insbesondere umfasst das Computerprogramm den virtuellen Assistenten.Next, the computer program is given. The computer program comprises commands which, when the computer program is executed by a computer, cause the computer to carry out the method described here. In particular, the computer program includes the virtual assistant.
Das Computerprogramm ist beispielsweise auf einem computerlesbaren Speichermedium gespeichert.The computer program is stored, for example, on a computer-readable storage medium.
Als nächstes wird die Vorrichtung angegeben. Die Vorrichtung umfasst einen Prozessor, der so eingerichtet ist, dass er ein hier beschriebenes Verfahren ausführt.Next the device is given. The device comprises a processor which is set up to carry out a method described here.
Gemäß zumindest einer Ausführungsform umfasst die Vorrichtung ein Mikrofon zum Empfangen einer Spracheingabe und einen Lautsprecher zur Ausgabe von akustischen Signalen. Das Mikrofon und der Lautsprecher bilden Kommunikationsschnittstellen zwischen dem virtuellen Assistenten und der einen oder den mehreren Personen. Bevorzugt umfasst die Vorrichtung mehrere Mikrofone und/oder Lautsprecher.According to at least one embodiment, the device comprises a microphone for receiving a voice input and a loudspeaker for outputting acoustic signals. The microphone and the loudspeaker form communication interfaces between the virtual assistant and the one or more people. The device preferably comprises a plurality of microphones and / or loudspeakers.
Gemäß zumindest einer Ausführungsform umfasst die Vorrichtung eine Kamera zum Erstellen eines Bildes oder eines Videos. Die Kamera bildet eine weitere Kommunikationsschnittstelle zwischen den Personen und dem virtuellen Assistenten.According to at least one embodiment, the device comprises a camera for creating an image or a video. The camera forms another communication interface between the people and the virtual assistant.
Als nächstes wird das Fahrzeug angegeben. Das Fahrzeug umfasst eine hier beschriebene Vorrichtung. Bei dem Fahrzeug handelt es sich insbesondere um ein Kraftfahrzeug, zum Beispiel um einen Pkw. Für jeden Platz in dem Pkw kann die Vorrichtung ein eigenes Mikrofon zur Kommunikation mit dem virtuellen Assistenten umfassen. Ferner kann das Fahrzeug Sensoren zur Identifikation der einzelnen Personen, wie beispielsweise Sensoren in den Sitzen des Fahrzeuges, umfassen.Next, the vehicle is specified. The vehicle includes a device as described herein. The vehicle is, in particular, a motor vehicle, for example a car. For each seat in the car, the device can include its own microphone for communication with the virtual assistant. Furthermore, the vehicle can include sensors for identifying the individual persons, such as sensors in the seats of the vehicle.
Weitere Vorteile und vorteilhafte Ausgestaltungen und Weiterbildungen des Verfahrens, der Vorrichtung und des Fahrzeugs ergeben sich aus den folgenden im Zusammenhang mit den Figuren dargestellten Ausführungsbeispielen. Gleiche, gleichartige oder gleich wirkende Elemente sind in den Figuren mit den gleichen Bezugszeichen versehen. Die Figuren und die Größenverhältnisse der in den Figuren dargestellten Elemente untereinander sind nicht als maßstäblich zu betrachten. Vielmehr können einzelne Elemente zur besseren Darstellbarkeit und/oder für eine bessere Verständlichkeit übertrieben groß dargestellt sein.Further advantages and advantageous configurations and developments of the method, the device and the vehicle emerge from the following exemplary embodiments illustrated in connection with the figures. Identical, identical or identically acting elements are provided with the same reference symbols in the figures. The figures and the proportions of the elements shown in the figures are not to be regarded as being to scale. Rather, individual elements can be shown exaggeratedly large for better displayability and / or for better understanding.
Es zeigen:
-
1 und2 ein Ausführungsbeispiel des Fahrzeugs in verschiedenen Ansichten, -
3 bis7 Ausführungsbeispiele des Verfahrens anhand von Ablaufdiagrammen.
-
1 and2 an embodiment of the vehicle in different views, -
3rd to7th Embodiments of the method based on flowcharts.
In der
In der
In der
In der
In der
In der
In der
Die Anzahl der Personen könnte auch aus anderen Quellen abgefragt werden, zum Beispiel aus einem Insassenmodell.The number of people could also be queried from other sources, for example from an occupant model.
Die Erfindung ist nicht durch die Beschreibung anhand der Ausführungsbeispiele auf diese beschränkt. Vielmehr umfasst die Erfindung jedes neue Merkmal sowie jede Kombination von Merkmalen, was insbesondere jede Kombination von Merkmalen in den Patentansprüchen beinhaltet, auch wenn diese Merkmale oder diese Kombination selbst nicht explizit in den Patentansprüchen oder Ausführungsbeispielen angegeben ist.The invention is not restricted to the exemplary embodiments by the description thereof. Rather, the invention encompasses every new feature and every combination of features, which in particular includes every combination of features in the patent claims, even if these features or this combination itself is not explicitly specified in the patent claims or exemplary embodiments.
BezugszeichenlisteList of reference symbols
- 1010
- Vorrichtungcontraption
- 1111
- Mikrofonmicrophone
- 1212th
- Lautsprecherspeaker
- 1313th
- Kameracamera
- PP
- Personperson
- S1-S34S1-S34
- VerfahrensschritteProcedural steps
- I1I1
- SprachinformationenLanguage information
- I2I2
- BildinformationenImage information
- M1M1
- erster Betriebsmodusfirst operating mode
- M2M2
- zweiter Betriebsmodussecond operating mode
- M3M3
- dritter Betriebsmodusthird mode of operation
- ASAS
- AusgabesignalOutput signal
Claims (13)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019132054.2A DE102019132054A1 (en) | 2019-11-26 | 2019-11-26 | Method for operating a virtual assistant |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019132054.2A DE102019132054A1 (en) | 2019-11-26 | 2019-11-26 | Method for operating a virtual assistant |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102019132054A1 true DE102019132054A1 (en) | 2021-05-27 |
Family
ID=75784211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102019132054.2A Ceased DE102019132054A1 (en) | 2019-11-26 | 2019-11-26 | Method for operating a virtual assistant |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102019132054A1 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160199977A1 (en) * | 2013-03-15 | 2016-07-14 | JIBO, Inc. | Engaging in human-based social interaction for performing tasks using a persistent companion device |
US20170132518A1 (en) * | 2015-11-10 | 2017-05-11 | Ricoh Company, Ltd. | Electronic Meeting Intelligence |
-
2019
- 2019-11-26 DE DE102019132054.2A patent/DE102019132054A1/en not_active Ceased
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160199977A1 (en) * | 2013-03-15 | 2016-07-14 | JIBO, Inc. | Engaging in human-based social interaction for performing tasks using a persistent companion device |
US20170132518A1 (en) * | 2015-11-10 | 2017-05-11 | Ricoh Company, Ltd. | Electronic Meeting Intelligence |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102019200954A1 (en) | Signal processing device, system and method for processing audio signals | |
DE112017001830B4 (en) | VOICE ENHANCEMENT AND AUDIO EVENT DETECTION FOR A NON-STATIONARY NOISE ENVIRONMENT | |
DE10220524B4 (en) | Method and system for processing voice data and recognizing a language | |
EP1927980B1 (en) | Method for classifying spoken language in spoken dialogue systems | |
DE102018113034A1 (en) | VOICE RECOGNITION SYSTEM AND VOICE RECOGNITION METHOD FOR ANALYZING A COMMAND WHICH HAS MULTIPLE INTENTIONS | |
DE102019200956A1 (en) | Signal processing device, system and method for processing audio signals | |
DE102016125104A1 (en) | DYNAMIC SWITCHING OF ACOUSTIC MODELS TO IMPROVE RECOGNITION OF CHARMED LANGUAGE SIGNALS | |
DE112006000322T5 (en) | Audio recognition system for generating response audio using extracted audio data | |
EP1081683B1 (en) | Speech recognition method and device | |
EP2962296A2 (en) | Wording-based speech analysis and speech analysis device | |
DE3514286A1 (en) | SYSTEM FOR DETECTING INDIVIDUALLY SPOKEN WORDS | |
WO2015185464A1 (en) | Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules | |
DE102017213249A1 (en) | Method and system for generating an auditory message in an interior of a vehicle | |
DE10123823A1 (en) | Parallel presentation of several audio information sources involves reconfiguring at least one source selected by speech input to be acoustically distinguished from other sources | |
DE112018007970T5 (en) | Speech recognition apparatus, speech recognition system, and speech recognition method | |
EP1330817B1 (en) | Robust voice recognition with data bank organisation | |
DE112020002288T5 (en) | Method, system and apparatus for understanding and generating human conversational cues | |
DE102019132054A1 (en) | Method for operating a virtual assistant | |
EP3115886B1 (en) | Method for operating a voice controlled system and voice controlled system | |
EP3576084B1 (en) | Efficient dialog design | |
EP3735688B1 (en) | Method, device and computer-readable storage medium having instructions for processing a speech input, motor vehicle, and user terminal with speech processing | |
DE102008025532B4 (en) | A communication system and method for performing communication between a user and a communication device | |
DE102018200570B4 (en) | Method for processing a telephone emergency call and system for carrying out the method | |
DE102019131886A1 (en) | Method for operating a communication assistant | |
DE102017213260A1 (en) | Method, device, mobile user device, computer program for controlling an audio system of a vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R163 | Identified publications notified | ||
R012 | Request for examination validly filed | ||
R002 | Refusal decision in examination/registration proceedings | ||
R003 | Refusal decision now final |