DE102019132054A1 - Method for operating a virtual assistant - Google Patents

Method for operating a virtual assistant Download PDF

Info

Publication number
DE102019132054A1
DE102019132054A1 DE102019132054.2A DE102019132054A DE102019132054A1 DE 102019132054 A1 DE102019132054 A1 DE 102019132054A1 DE 102019132054 A DE102019132054 A DE 102019132054A DE 102019132054 A1 DE102019132054 A1 DE 102019132054A1
Authority
DE
Germany
Prior art keywords
conversation
virtual assistant
people
determined
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102019132054.2A
Other languages
German (de)
Inventor
Natalie Lugstein
Christian Süss
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bayerische Motoren Werke AG
Original Assignee
Bayerische Motoren Werke AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bayerische Motoren Werke AG filed Critical Bayerische Motoren Werke AG
Priority to DE102019132054.2A priority Critical patent/DE102019132054A1/en
Publication of DE102019132054A1 publication Critical patent/DE102019132054A1/en
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Abstract

In mindestens einer Ausführungsform des Verfahrens zum Betreiben eines virtuellen Assistenten, wobei
- der virtuelle Assistent mehrere Gesprächsmodi (M1, M2, M3) umfasst,
- jeder Gesprächsmodus einer Gesprächssituation zugeordnet ist,
- der virtuelle Assistent in den unterschiedlichen Gesprächsmodi unterschiedliche Funktionen in einem Gespräch übernimmt,
- werden folgende Schritte ausgeführt:
A) Bereitstellen von Sprachinformationen (I1), die repräsentativ für eine Spracheingabe von einer oder mehreren Personen sind;
C) Ermitteln einer Gesprächssituation in Abhängigkeit von den Sprachinformationen;
D) Einstellen des der Gesprächssituation zugeordneten Gesprächsmodus und Betreiben des virtuellen Assistenten in diesem Gesprächsmodus.

Figure DE102019132054A1_0000
In at least one embodiment of the method for operating a virtual assistant, wherein
- the virtual assistant includes several conversation modes (M1, M2, M3),
- each conversation mode is assigned to a conversation situation,
- the virtual assistant takes on different functions in a conversation in the different conversation modes,
- the following steps are carried out:
A) providing speech information (I1) which is representative of a speech input by one or more people;
C) determining a conversation situation as a function of the language information;
D) Setting the conversation mode assigned to the conversation situation and operating the virtual assistant in this conversation mode.
Figure DE102019132054A1_0000

Description

Es wird ein Verfahren zum Betreiben eines virtuellen Assistenten angegeben. Darüber hinaus werden eine Vorrichtung, ein Computerprogramm, ein computerlesbares Speichermedium und ein Fahrzeug angegeben.A method for operating a virtual assistant is specified. In addition, a device, a computer program, a computer-readable storage medium and a vehicle are specified.

Eine zu lösende Aufgabe besteht darin, ein Verfahren zum Betreiben eines virtuellen Assistenten anzugeben, mit dem ein Gespräch zwischen mehreren Personen effizient gesteuert werden kann. Weitere zu lösende Aufgaben bestehen darin, eine Vorrichtung, ein Computerprogramm und ein computerlesbares Speichermedium zur Ausführung dieses Verfahrens anzugeben. Noch eine weitere zu lösende Aufgabe besteht darin, ein Fahrzeug mit einer solchen Vorrichtung anzugeben.A task to be solved consists in specifying a method for operating a virtual assistant with which a conversation between several people can be efficiently controlled. Further objects to be solved consist in specifying a device, a computer program and a computer-readable storage medium for carrying out this method. Yet another object to be achieved consists in specifying a vehicle with such a device.

Zunächst wird das Verfahren zum Betreiben eines virtuellen Assistenten angegeben. Ein virtueller Assistent, auch intelligenter virtueller Assistent, Englisch Virtual Intelligent Assistant, kurz IVA, oder digitaler Assistent genannt, ist eine Software, die beispielsweise aufgrund von Spracherkennung eine Sprachanalyse vollzieht, diese semantisch interpretiert, logisch verarbeitet und als Ergebnis durch Sprachsynthese eine Antwort formuliert oder eine Aktion ausführt. Die Architektur des virtuellen Assistenten umfasst beispielsweise mehrere Komponenten. Zum Beispiel umfasst die Architektur Komponenten für STT (Speechto-Text, zu Deutsch Sprache zu Text), NLU (Natural Language Understanding, zu Deutsch natürliche Spracherkennung), DM (Dialogmanagement), NLG (Natural Language Generation, zu Deutsch natürliche Spracherzeugung) und TTS (Text-to-Speech, zu Deutsch Text zu Sprache). In aktuellen Architekturen erfolgen Sprachanalyse (STT) und semantische Interpretation (NLU) auch schon in einem Schritt.First, the method for operating a virtual assistant is given. A virtual assistant, also called intelligent virtual assistant, English Virtual Intelligent Assistant, IVA for short, or digital assistant, is software that, for example, performs a speech analysis based on speech recognition, interprets it semantically, processes it logically and as a result formulates an answer through speech synthesis or takes an action. For example, the architecture of the virtual assistant includes several components. For example, the architecture includes components for STT (Speechto-Text), NLU (Natural Language Understanding), DM (Dialog Management), NLG (Natural Language Generation) and TTS (Text-to-Speech, in German text-to-speech). In current architectures, language analysis (STT) and semantic interpretation (NLU) take place in one step.

Alternativ kann die Software ein neuronales Netzt mit einer Ende-zu-Ende neuronalen Architektur umfassen. Das neuronale Netzt ist dann zum Beispiel eine Komponente, die als Eingabe eine Spracheingabe erhält und als Ausgabe eine Sprachausgabe ausgibt.Alternatively, the software can comprise a neural network with an end-to-end neural architecture. The neural network is then, for example, a component that receives a voice input as input and outputs a voice output as output.

Gemäß zumindest einer Ausführungsform umfasst der virtuelle Assistent mehrere Gesprächsmodi. Jeder Gesprächsmodus ist einer Gesprächssituation zugeordnet. Der virtuelle Assistent übernimmt in den unterschiedlichen Gesprächsmodi unterschiedliche Funktionen in einem Gespräch. Mit „Funktion in einem Gespräch“ ist insbesondere die Rolle in dem Gespräch gemeint.According to at least one embodiment, the virtual assistant comprises several conversation modes. Each conversation mode is assigned to a conversation situation. The virtual assistant takes on different functions in a conversation in the different conversation modes. “Function in a conversation” means in particular the role in the conversation.

Beispielsweise ist jedem Gesprächsmodus ein anderer Algorithmus zur logischen Verarbeitung der durch Spracherkennung erhaltenen Sprachinformationen zugeordnet. Je nach Gesprächsmodus kann der virtuelle Assistent eingerichtet sein, bestimmte Antworten durch Sprachsynthese zu formulieren und/oder bestimmte Aktionen auszuführen.For example, a different algorithm for the logical processing of the speech information obtained through speech recognition is assigned to each conversation mode. Depending on the conversation mode, the virtual assistant can be set up to formulate certain answers by means of speech synthesis and / or to carry out certain actions.

Gemäß zumindest einer Ausführungsform umfasst das Verfahren einen Schritt A), in dem Sprachinformationen bereitgestellt werden, die repräsentativ für eine Spracheingabe oder Äußerung von einer oder mehreren Personen sind. Die Sprachinformationen werden durch Spracherkennung, zum Beispiel durch natürliche Spracherkennung, Englisch Natural Language Understanding, kurz NLU, von dem virtuellen Assistenten erzeugt. Bei den Sprachinformationen handelt es sich insbesondere um Computerdaten. Die Sprachinformationen enthalten Informationen über das von der zumindest einen Person Gesagte.According to at least one embodiment, the method comprises a step A) in which speech information is provided which is representative of a speech input or utterance by one or more people. The language information is generated by the virtual assistant through speech recognition, for example through natural language recognition, English Natural Language Understanding, or NLU for short. The language information is in particular computer data. The language information contains information about what was said by the at least one person.

Gemäß zumindest einer Ausführungsform wird in einem Schritt C) eine Gesprächssituationen in Abhängigkeit von den Sprachinformationen ermittelt. Darunter ist insbesondere zu verstehen, dass eine Gesprächsinformation ermittelt wird, die repräsentativ für die Gesprächssituation ist. Unter „Gesprächssituation“ wird die Art eines Gesprächs verstanden. Arten eines Gesprächs können sein: Besprechung, Debatte, Dialog, Monolog, Streitgespräch, Dienstgespräch, Diskussion, Geplauder, Konversation, Telefongespräch, Verhandlung. Beispielsweise wird in Abhängigkeit von den Sprachinformationen ermittelt, ob ein Gespräch zwischen mehreren Personen stattfindet oder ob eine oder mehrere Personen zu dem virtuellen Assistenten reden. Aus den Sprachinformationen wird beispielsweise auch die Anzahl der am Gespräch beteiligten Personen ermittelt.According to at least one embodiment, a conversation situation is determined as a function of the language information in a step C). This is to be understood in particular as the fact that conversation information is ascertained that is representative of the conversation situation. “Conversation situation” is understood to mean the type of conversation. Types of conversation can be: meeting, debate, dialogue, monologue, argument, service conversation, discussion, chat, conversation, telephone conversation, negotiation. For example, depending on the language information, it is determined whether a conversation is taking place between several people or whether one or more people are talking to the virtual assistant. For example, the number of people involved in the conversation is also determined from the voice information.

Die Gesprächssituation kann nach jeder Äußerung erneut ermittelt werden oder die Gesprächssituation wird initial nach einer ersten Äußerung ermittelt oder die Gesprächssituation wird immer wieder, in Abständen nach einer Äußerung ermittelt.The conversation situation can be determined again after each utterance or the conversation situation is initially determined after a first utterance or the conversation situation is determined again and again, at intervals after an utterance.

Gemäß zumindest einer Ausführungsform umfasst das Verfahren einen Schritt D), in dem der der ermittelten Gesprächssituation zugeordnete Gesprächsmodus eingestellt wird und der virtuelle Assistent in diesem Gesprächsmodus betrieben wird. Anders ausgedrückt wird in Abhängigkeit der ermittelten Gesprächsinformation, die repräsentativ für die Gesprächssituation ist, der zugeordnete Gesprächsmodus ermittelt und dann eingestellt. In dem eingestellten Gesprächsmodus kann der virtuelle Assistent beispielsweise in das Gespräch eingreifen oder sich gar nicht an einem Gespräch beteiligten.According to at least one embodiment, the method comprises a step D) in which the conversation mode assigned to the determined conversation situation is set and the virtual assistant is operated in this conversation mode. In other words, the assigned conversation mode is determined and then set as a function of the conversation information ascertained, which is representative of the conversation situation. In the set conversation mode, the virtual assistant can, for example, intervene in the conversation or not take part in a conversation at all.

Zum Beispiel wird zunächst ein zur Gesprächssituation passender Parameter (Parametrierung, Konfigurierung) gesetzt. Dieser Parameter kann dann in einzelnen Komponenten der Architektur des virtuellen Assistenten verwendet werden. Beispielsweise wird dann in Abhängigkeit dieses Parameters eine Parametrierung des Dialogmanagements (DM) vorgenommen und dadurch ein geeigneter Dialogsstatus, Dialogstatusübergänge, auszuführender Aktionen ausgewählt. Ferner wird beispielweise in Abhängigkeit des Parameters einer Parametrierung des NLG vorgenommen und dadurch geeignete Textbausteine, Texttemplate et cetera ausgewählt. Ferner kann beispielsweise noch in Abhängigkeit des Parameters eine Parametrierung der Sprachsynthese (TTS) vorgenommen werden und dadurch geeignete Stimmstile, Sprechgeschwindigkeiten, Tonhöhen, Betonungen et cetera ausgewählt werden.For example, a parameter suitable for the conversation situation (parameterization, configuration) is set first. This parameter can then be used in individual components of the Architecture of the virtual assistant. For example, depending on this parameter, the dialog management (DM) is parameterized and a suitable dialog status, dialog status transitions, actions to be carried out are selected as a result. Furthermore, depending on the parameter, the NLG is parameterized, for example, and suitable text modules, text templates, etc. are selected as a result. Furthermore, the speech synthesis (TTS) can be parameterized as a function of the parameter, for example, and suitable voice styles, speaking speeds, pitches, intonations, etc. can be selected as a result.

Der Parameter kann auch in kombinierten Komponenten einer neueren Architektur eines virtuelle Assistenten verwendet werden. Beispielsweise wird in Abhängigkeit des Parameters eine Parametrierung der Komponente, die in Funktion der Kombination aus NLG und TTS entspricht, vorgenommen. Das heißt, aus Ausgabebefehlen des Dialogmanagers direkt Sprache synthetisiert und dabei geeignete Textbausteine, Texttemplate Stimmstile, Sprechgeschwindigkeiten, Tonhöhen, Betonungen et cetera synthetisiert.The parameter can also be used in combined components of a newer architecture of a virtual assistant. For example, depending on the parameter, the component is parameterized, which corresponds to the function of the combination of NLG and TTS. This means that speech is synthesized directly from the dialog manager's output commands and suitable text modules, text templates, voice styles, speaking speeds, pitches, intonations, etc. are synthesized.

Der Parameter kann auch in einer Ende-zu-Ende neuronalen Architektur eines virtuellen Assistenten verwendet werden. Dabei wird der Parameter zum Beispiel als Vektor zusammen mit den Äußerungen/Spracheingaben an die Ende-zu-Ende neuronale Architektur übergeben.The parameter can also be used in an end-to-end neural architecture of a virtual assistant. The parameter is transferred to the end-to-end neural architecture, for example as a vector, together with the utterances / speech inputs.

Die Schritte A), C) und D) werden bevorzugt in alphabetischer Reihenfolge durchgeführt. Bei dem hier beschriebenen Verfahren handelt es sich insbesondere um ein auf einem Computer ausführbares Verfahren.Steps A), C) and D) are preferably carried out in alphabetical order. The method described here is, in particular, a method that can be carried out on a computer.

In mindestens einer Ausführungsform des Verfahrens zum Betreiben eines virtuellen Assistenten, wobei

  • - der virtuelle Assistent mehrere Gesprächsmodi umfasst,
  • - jeder Gesprächsmodus einer Gesprächssituation zugeordnet ist,
  • - der virtuelle Assistent in den unterschiedlichen Gesprächsmodi unterschiedliche Funktionen in einem Gespräch übernimmt,
werden folgende Schritte ausgeführt:
  • A) Bereitstellen von Sprachinformationen, die repräsentativ für eine Spracheingabe von einer oder mehreren Personen sind;
  • C) Ermitteln einer Gesprächssituation in Abhängigkeit von den Sprachinformationen;
  • D) Einstellen des der ermittelten Gesprächssituation zugeordneten Gesprächsmodus und Betreiben des virtuellen Assistenten in diesem Gesprächsmodus.
In at least one embodiment of the method for operating a virtual assistant, wherein
  • - the virtual assistant includes several conversation modes,
  • - each conversation mode is assigned to a conversation situation,
  • - the virtual assistant takes on different functions in a conversation in the different conversation modes,
the following steps are carried out:
  • A) providing speech information representative of speech input from one or more people;
  • C) determining a conversation situation as a function of the language information;
  • D) Setting the conversation mode assigned to the determined conversation situation and operating the virtual assistant in this conversation mode.

Virtuelle Assistenten sind häufig nur zur Kommunikation mit einer Person eingerichtet. Sprechen dann mehrere Personen zu dem virtuellen Assistenten, so kann dieser zwischen den Personen nicht unterscheiden. Das Gespräch zwischen den Personen und dem virtuellen Assistenten wäre dann als würde nur eine Person mit dem virtuellen Assistenten reden.Virtual assistants are often set up to communicate with one person only. If several people then speak to the virtual assistant, it cannot distinguish between the people. The conversation between the people and the virtual assistant would then be as if only one person were talking to the virtual assistant.

Häufig ist es aber gewünscht, dass mehrere Personen mit dem virtuellen Assistenten reden können, zum Beispiel wenn mehrere Personen in einem Auto sitzen. Es gibt virtuelle Assistenten, die erkennen, dass mehrere Personen zu ihnen reden und die auch zwischen den Personen unterscheiden können.However, it is often desired that several people can talk to the virtual assistant, for example when several people are sitting in a car. There are virtual assistants who recognize that several people are talking to them and who can also differentiate between people.

Der vorliegenden Erfindung liegt die Erkenntnis zu Grunde, dass es zu unterschiedlichen Gesprächssituation kommen kann, insbesondere wenn mehrere Personen miteinander reden. Eine Idee der vorliegenden Erfindung ist es, einen virtuellen Assistenten bereitzustellen, der sich an die Gesprächssituation, insbesondere an wechselnde Gesprächssituationen anpasst. Dies wird vorliegend dadurch erreicht, dass dem virtuellen Assistenten mehrere Gesprächsmodi zugeordnet sind, in denen der virtuelle Assistent je nach Gesprächssituation betreibbar ist. Die Gesprächssituation wird dabei von dem virtuellen Assistenten selbstständig erkannt.The present invention is based on the knowledge that different conversation situations can arise, in particular when several people are talking to one another. One idea of the present invention is to provide a virtual assistant that adapts to the conversation situation, in particular to changing conversation situations. In the present case, this is achieved by assigning several conversation modes to the virtual assistant, in which the virtual assistant can be operated depending on the conversation situation. The virtual assistant automatically recognizes the conversation situation.

Durch einen solchen virtuellen Assistenten kann ein Gespräch zwischen Personen gelenkt werden und an bestimmte Situationen angepasst werden. Beispielsweise bei einem Gespräch mehrerer Personen in einem Fahrzeug, kann der virtuelle Assistent ein Gespräch beruhigen und so die Sicherheit erhöhen.Such a virtual assistant can direct a conversation between people and adapt it to specific situations. For example, when several people are talking in a vehicle, the virtual assistant can calm down a conversation and thus increase security.

Gemäß zumindest einer Ausführungsform umfasst das Verfahren einen Schritt B), in dem eine Anzahl an Personen ermittelt wird, die miteinander oder jeweils zu dem virtuellen Assistenten sprechen. Alternativ kann die Anzahl an Personen in einem Raum oder einer Fahrzeugkabine ermittelt werden.According to at least one embodiment, the method comprises a step B) in which a number of people is determined who speak to one another or to the virtual assistant. Alternatively, the number of people in a room or a vehicle cabin can be determined.

Die Anzahl der Personen wird beispielsweise in Abhängigkeit von den Sprachinformationen ermittelt. Unterschiedliche Personen können beispielsweise durch Stimmenerkennung erkannt werden. Alternativ oder zusätzlich wird die Anzahl der Personen in Abhängigkeit von Zusatzinformationen ermittelt. Bei den Zusatzinformationen handelt es sich beispielsweise um Informationen, die nicht auf eine Spracheingabe zurückzuführen sind. Beispielsweise werden die Zusatzinformationen durch Sensoren bereitgestellt, die die Anwesenheit von Personen erkennen. Zum Beispiel handelt es sich um Drucksensoren, die Sitzen eines Fahrzeuges zugeordnet sind und mit denen erkannt wird, ob eine Person auf dem Sitz sitzt. Auch ein oder mehrere Kamerasensoren sind zur Ermittlung der Personenanzahl denkbar.The number of people is determined, for example, as a function of the language information. Different people can be recognized by voice recognition, for example. Alternatively or additionally, the number of people is determined as a function of additional information. The additional information is, for example, information that cannot be traced back to a voice input. For example, the additional information is provided by sensors provided that detect the presence of people. For example, these are pressure sensors that are assigned to the seats of a vehicle and with which it is recognized whether a person is sitting on the seat. One or more camera sensors are also conceivable for determining the number of people.

Gemäß zumindest einer Ausführungsform wird im Schritt C) die Gesprächssituation in zusätzlicher Abhängigkeit von der ermittelten Anzahl der Personen ermittelt. Beispielsweise umfasst der virtuelle Assistent für unterschiedliche Gesprächssituationen in Gesprächen zwischen zumindest zwei Personen unterschiedliche Gesprächsmodi.According to at least one embodiment, the conversation situation is determined in step C) as an additional function of the determined number of people. For example, the virtual assistant includes different conversation modes for different conversation situations in conversations between at least two people.

Gemäß zumindest einer Ausführungsform werden im Schritt C) und/oder im Schritt D) ein oder mehrere Gesprächsmerkmale in Abhängigkeit der Sprachinformationen ermittelt. Jedes Gesprächsmerkmal ist ein Element aus der Gruppe: Gesprächsfluss, Kontextvariablen, Emotionen der einzelnen Personen, soziale Beziehungen zwischen den Personen, Redezeiten der einzelnen Personen, Redelautstärke der einzelnen Personen, Redegeschwindigkeit der einzelnen Personen, Redeunterbrechungen durch einzelne Personen, Wiederholung von Begriffen durch einzelne Personen, Identitäten der Personen. Das Ermitteln eines Gesprächsmerkmals meint insbesondere das Ermitteln einer Information, die repräsentativ für das Gesprächsmerkmal ist.According to at least one embodiment, one or more call features are determined in step C) and / or in step D) as a function of the voice information. Each conversation characteristic is an element from the group: conversation flow, context variables, emotions of the individual persons, social relationships between the persons, speaking times of the individual persons, speaking volume of the individual persons, speaking speed of the individual persons, speech interruptions by individual persons, repetition of terms by individual persons , Identities of the people. The determination of a conversation feature means in particular the determination of information that is representative of the conversation feature.

Gemäß zumindest einer Ausführungsform wird im Schritt C) die Gesprächssituation in Abhängigkeit von der oder den Gesprächsmerkmalen ermittelt beziehungsweise in Abhängigkeit von den Informationen, die repräsentativ für die Gesprächsmerkmale sind, ermittelt. Beispielsweise werden die Gesprächsmerkmale mit einem hinterlegten Kommunikationsmuster verglichen, um die Gesprächssituation zu ermitteln. Die Gesprächsmerkmale können auch in ein trainiertes neuronales Netz eingegeben werden und dadurch die Gesprächssituation ermittelt werden. Das Kommunikationsmuster oder das neuronale Netz können durch maschinelles Lernen erzeugt sein.According to at least one embodiment, in step C) the conversation situation is determined as a function of the conversation feature (s) or as a function of the information that is representative of the conversation features. For example, the conversation features are compared with a stored communication pattern in order to determine the conversation situation. The conversation features can also be entered into a trained neural network and the conversation situation can be determined in this way. The communication pattern or the neural network can be generated by machine learning.

Einige Gesprächsmerkmale können zusätzlich oder alternativ in Abhängigkeit von Zusatzinformationen, die unabhängig von den Sprachinformationen sind, ermittelt werden. Als Zusatzinformationen kommen Informationen von Sensoren, beispielsweise Sitzsensoren oder Kamerasensoren, infrage. Insbesondere Gesprächsmerkmale, die repräsentativ für die oben genannten Kontextvariablen, soziale Beziehungen zwischen den Personen und Identitäten der Personen sind, können auch oder nur in Abhängigkeit von den Zusatzinformationen, die unabhängig von den Sprachinformationen sind, ermittelt werden. Unter Kontextvariable wird beispielsweise die Tageszeit, Zeitpläne der einzelnen Personen, Wetterbedingungen, Verkehrssituation und Ähnliches verstanden.Some conversation features can additionally or alternatively be determined as a function of additional information that is independent of the speech information. Information from sensors, for example seat sensors or camera sensors, can be used as additional information. In particular, conversation features that are representative of the context variables mentioned above, social relationships between the people and identities of the people can also or only be determined as a function of the additional information that is independent of the language information. Context variables are understood to mean, for example, the time of day, schedules of the individual persons, weather conditions, traffic situation and the like.

Gemäß zumindest einer Ausführungsform umfassen die mehreren Gesprächsmodi einen ersten Gesprächsmodus, in dem der virtuelle Assistent die Funktion eines Mediators zwischen mehreren Personen einnimmt.According to at least one embodiment, the plurality of conversation modes comprise a first conversation mode in which the virtual assistant assumes the function of a mediator between a plurality of people.

Gemäß zumindest einer Ausführungsform umfassen die mehreren Gesprächsmodi einen zweiten Gesprächsmodus, in dem der virtuelle Assistent ein Gespräch zwischen mehreren Personen zusammenfasst.According to at least one embodiment, the multiple conversation modes include a second conversation mode in which the virtual assistant summarizes a conversation between multiple people.

Gemäß zumindest einer Ausführungsform umfassen die mehreren Gesprächsmodi einen dritten Gesprächsmodus, in dem der virtuelle Assistent ein Gespräch zwischen mehreren Personen moderiertAccording to at least one embodiment, the multiple conversation modes include a third conversation mode in which the virtual assistant moderates a conversation between multiple people

Der erste, zweite und dritte Gesprächsmodus sind also insbesondere Gesprächsmodi, die eingestellt werden, falls mehrere Personen miteinander oder zu dem virtuellen Assistenten sprechen. Insofern werden der erste, zweite oder dritte Gesprächsmodus bevorzugt eingeschaltet, falls die ermittelte Anzahl der Personen zumindest zwei beträgt.The first, second and third conversation modes are therefore in particular conversation modes that are set if several people speak to one another or to the virtual assistant. In this respect, the first, second or third conversation mode is preferably switched on if the number of people determined is at least two.

Gemäß zumindest einer Ausführungsform wird beim Betreiben des virtuellen Assistenten im ersten Gesprächsmodus ein Schritt ausgeführt, in dem Absichten der Personen aus den Sprachinformationen ermittelt werden. In einem weiteren Schritt wird dann ein Ausgabesignal zur Stellung einer Rückfrage zu einer Absicht einer Person generiert. Alternativ wird ein Ausgabesignal zur Ausgabe eines Kompromissvorschlags zu den unterschiedlichen Absichten generiert. Das Ausgabesignal kann in Form eines Audiosignals ausgegeben werden. Alternativ oder zusätzlich kann ein Videosignal oder Beleuchtungssignal ausgegeben werden.According to at least one embodiment, when the virtual assistant is operated in the first conversation mode, a step is carried out in which the intentions of the persons are determined from the language information. In a further step, an output signal for asking a question about a person's intention is then generated. Alternatively, an output signal for outputting a compromise proposal for the different intentions is generated. The output signal can be output in the form of an audio signal. Alternatively or additionally, a video signal or lighting signal can be output.

Zum Beispiel will eine erste Person in einem Fahrzeug das Radio lauter drehen und eine zweite Person im Fahrzeug das Radio leiser drehen. Der virtuelle Assistent würde dann beispielsweise ein Ausgabesignal generieren, das repräsentativ ist für den Kompromissvorschlag „Lassen wir die Lautstärke wie sie ist“.For example, a first person in a vehicle wants to turn the radio up and a second person in the vehicle wants to turn the radio down. The virtual assistant would then, for example, generate an output signal that is representative of the compromise suggestion “Let's leave the volume as it is”.

Gemäß zumindest einer Ausführungsform wird beim Betreiben des virtuellen Assistenten im zweiten Gesprächsmodus ein Schritt ausgeführt, in dem Absichten der Personen aus den Sprachinformationen ermittelt werden. In einem darauffolgenden Schritt wird ein Ausgabesignal generiert, dass repräsentativ für eine Zusammenfassung der Absichten ist.According to at least one embodiment, when the virtual assistant is operated in the second conversation mode, a step is carried out in which the intentions of the persons are determined from the language information. In a subsequent step, an output signal is generated that is representative of a summary of the intentions.

Beispielsweise wollen Personen, die in einem Fahrzeug sitzen, essen gehen, wobei eine erste Person mitteilt, dass sie ab 8 Uhr Zeit hat und eine zweite Person mitteilt, dass sie ab 9 Uhr Zeit hat. Der virtuelle Assistent würde dann beispielsweise ein Ausgabesignal mit folgenden Inhalt generieren: „Person 1 kann ab 8 Uhr, Person 2 ab 9 Uhr. Soll ich einen Tisch auf 9 Uhr reservieren?“.For example, people who are sitting in a vehicle want to go out to eat, a first person communicating that they are available from 8 a.m. and a second person communicating that they are available from 9 a.m. The virtual assistant would then, for example, generate an output signal with the following content: “Person 1 can start at 8 o'clock, person 2 from 9 o'clock. Should I reserve a table for 9 o'clock? ”.

Gemäß zumindest einer Ausführungsform wird beim Betreiben des virtuellen Assistenten in dem dritten Gesprächsmodus ein Schritt ausgeführt, in dem Inhalte des Gesprächs in Abhängigkeit der Sprachinformationen ermittelt werden. In einem weiteren Schritt werden dann Redezeiten der Personen zu dem Inhalt in Abhängigkeit von den Sprachinformationen ermittelt. In einem darauffolgenden Schritt wird die Person mit der kürzesten Redezeit zu dem Inhalt ermittelt. In einem weiteren Schritt wird ein Ausgabesignal zur Motivierung der Personen mit der kürzesten Redezeit, sich zu dem Inhalt zu äußern, generiert.According to at least one embodiment, when the virtual assistant is operated in the third conversation mode, a step is carried out in which the contents of the conversation are determined as a function of the language information. In a further step, the speaking times of the people for the content are then determined as a function of the language information. In a subsequent step, the person with the shortest speaking time for the content is determined. In a further step, an output signal is generated to motivate the people with the shortest speaking time to comment on the content.

Bei der Ermittlung der Redezeiten der einzelnen Personen wird beispielsweise ermittelt, wann eine identifizierte Person zu sprechen beginnt und wann die identifizierte Person zu sprechen aufhört. Der Zeitunterschied dazwischen ist die Redezeit. Fängt dieselbe Person im selben Gespräch erneut an zu sprechen, so wird die neue ermittelte Redezeit der alten Redezeit hinzugefügt. Die Redezeit einer Person ist also die Summe aller Redezeiten dieser Person.When determining the speaking times of the individual persons, it is determined, for example, when an identified person begins to speak and when the identified person stops speaking. The time difference in between is speaking time. If the same person starts speaking again in the same conversation, the new speaking time will be added to the old speaking time. The speaking time of a person is the sum of all speaking times of that person.

Insbesondere beim Betrieb des virtuellen Assistenten im ersten Betriebsmodus oder im dritten Betriebsmodus können Wiederholungen von Begriffen durch einzelne Personen erfasst werden. Beispielsweise wird jedes Mal, wenn eine Person einen bestimmten Begriff verwendet oder jedes Mal, wenn eine Person ihre Aussage inhaltlich wiederholt, ein Zähler hoch gesetzt. Anhand des Zählers ermittelt der virtuelle Assistent, wie oft sich eine bestimmte Person bereits zu einem Inhalt geäußert hat oder wie dominant die Person im Gespräch auftritt. Entsprechend kann der virtuelle Assistent die übrigen Personen auffordern, sich auch nochmal zu dem Inhalt zu äußern. Zum Erkennen von Aussagen, die inhaltlich beziehungsweise semantisch gleich oder ähnlich sind, können vortrainierte Sprachmodell auf Wort-, Satz- oder Paragraphenebene, wie zum Beispiel BERT, UMLfit et cetera, verwendet werden.In particular when operating the virtual assistant in the first operating mode or in the third operating mode, repetitions of terms by individual persons can be recorded. For example, every time a person uses a certain term or every time a person repeats their statement in terms of content, a counter is incremented. Using the counter, the virtual assistant determines how often a certain person has already commented on a topic or how dominant the person appears in the conversation. Accordingly, the virtual assistant can ask the other people to comment on the content again. Pre-trained language models at word, sentence or paragraph level, such as BERT, UMLfit et cetera, can be used to identify statements that are identical or similar in terms of content or semantics.

Weiter können beim Betrieb des virtuellen Assistenten im ersten und/oder dritten Betriebsmodus Redeunterbrechungen durch einzelne Personen erfasst werden. Eine Redeunterbrechung durch eine Person wird beispielsweise erfasst, wenn eine Person zu reden anfängt, bevor eine Person, die zuvor angefangen hat zu reden, das Reden beendet hat. Der virtuelle Assistent zählt zum Beispiel bei jeder Person, wie oft diese eine andere Person unterbrochen hat. Entsprechend kann der virtuelle Assistent der Personen, die am öftesten unterbrochen hat, Redezeit entziehen oder auf die Unterbrechungen hinweisen oder den anderen Personen mehr Redezeit einräumen.Furthermore, when the virtual assistant is operating in the first and / or third operating mode, interruptions in speech by individual persons can be recorded. A speech interruption by a person is detected, for example, when a person starts to talk before a person who previously started talking has finished speaking. For example, the virtual assistant counts for each person how often they interrupted another person. Accordingly, the virtual assistant can withdraw speaking time from the person who has interrupted the most frequently or point out the interruptions or give the other person more speaking time.

Der virtuelle Assistent kann im Betrieb beispielsweise Emotionen der Personen erkennen, beispielsweise anhand der Redegeschwindigkeiten der einzelnen Personen. Insbesondere im ersten Betriebsmodus kann der virtuelle Assistent dann je nach Emotion der Person diese auffordern, mehr zu sprechen oder diese beruhigen oder ähnliches.The virtual assistant can, for example, recognize people's emotions during operation, for example based on the speaking speeds of the individual people. In particular in the first operating mode, the virtual assistant can then, depending on the emotions of the person, ask them to speak more or to calm them down or the like.

Der virtuelle Assistent kann je nach Betriebsmodus eingerichtet sein, einer Person ein Mikrofon zu entziehen. Insbesondere im Fall, dass jeder Person eine persönliche Hörzone zugeordnet ist, beispielsweise in einem Fahrzeug oder in verschiedenen Räumen eines Hauses oder in verschiedenen Räumen von verschiedenen Häusern, ist diese Maßnahme denkbar.Depending on the operating mode, the virtual assistant can be set up to remove a microphone from a person. This measure is conceivable in particular in the event that each person is assigned a personal listening zone, for example in a vehicle or in different rooms of a house or in different rooms of different houses.

Gemäß zumindest einer Ausführungsform umfasst das Verfahren einen Schritt E), in dem Bildinformationen bereitgestellt werden, die repräsentativ für ein Bild oder Video der einen oder mehreren Personen sind.According to at least one embodiment, the method comprises a step E) in which image information is provided that is representative of an image or video of the one or more people.

Gemäß zumindest einer Ausführungsform werden im Schritt C) und/oder D) ein oder mehrere Gesprächsmerkmale in Abhängigkeit von den Bildinformationen ermittelt. Bei den Gesprächsmerkmalen handelt es sich insbesondere um die oben genannten Gesprächsmerkmale. Insbesondere Emotionen der einzelnen Personen können in Abhängigkeit der Bildinformationen ermittelt werden.According to at least one embodiment, one or more conversation features are determined in step C) and / or D) as a function of the image information. The conversation features are in particular the above-mentioned conversation features. In particular, emotions of the individual persons can be determined as a function of the image information.

Damit der virtuelle Assistent die richtige Gesprächssituation ermittelt, den richtigen Gesprächsmodus einstellt und in dem eingestellten Gesprächsmodus richtig agiert, wird der virtuelle Assistent beispielsweise über maschinelles Lernen trainiert. Dazu werden zum Beispiel Informationen auf Basis von Videoaufnahmen, Audioaufnahmen, Emotions-Clusterfizierungen bereitgestellt, denen ein Kommunikationsmuster zugeordnet ist. In Abhängigkeit dieses Kommunikationsmusters kann der virtuelle Assistent dann trainiert werden. Zum Trainieren des Verhaltens des virtuellen Assistenten im ersten Betriebsmodus können beispielsweise Mediator-Schulungsmaterialien, Videoaufzeichnungen und Audioaufzeichnungen verwendet werden.So that the virtual assistant determines the correct conversation situation, sets the correct conversation mode and acts correctly in the set conversation mode, the virtual assistant is trained using machine learning, for example. For this purpose, information is provided on the basis of video recordings, audio recordings, emotion clustering, for example, to which a communication pattern is assigned. The virtual assistant can then be trained as a function of this communication pattern. For example, mediator training materials, video recordings and audio recordings can be used to train the behavior of the virtual assistant in the first operating mode.

Das Training kann sich nur auf das Klassifizieren/Erkennen einzelner Gesprächsmerkmale (feature learning) oder der gesamten Gesprächssituation beziehen. Diese Klassifizierung kann dann in Form des beschriebenen Parameters sowohl in einer traditionellen Architektur (STT-NLU-DM-NLG-TTS) oder in einer Ende-zu-Ende neuronalen Architektur verwendet werden. Alternativ kann die Ermittlung der Gesprächssituation auch Teil der Ende-zu-Ende neuronalen Architektur sein.The training can only relate to the classification / recognition of individual conversation features (feature learning) or the entire conversation situation. This classification can then take the form of the described parameter can be used both in a traditional architecture (STT-NLU-DM-NLG-TTS) or in an end-to-end neural architecture. Alternatively, the determination of the conversation situation can also be part of the end-to-end neural architecture.

Als nächstes wird das Computerprogramm angegeben. Das Computerprogramm umfasst Befehle, die bei der Ausführung des Computerprogramms durch einen Computer diesen veranlassen, das hier beschriebene Verfahren durchzuführen. Insbesondere umfasst das Computerprogramm den virtuellen Assistenten.Next, the computer program is given. The computer program comprises commands which, when the computer program is executed by a computer, cause the computer to carry out the method described here. In particular, the computer program includes the virtual assistant.

Das Computerprogramm ist beispielsweise auf einem computerlesbaren Speichermedium gespeichert.The computer program is stored, for example, on a computer-readable storage medium.

Als nächstes wird die Vorrichtung angegeben. Die Vorrichtung umfasst einen Prozessor, der so eingerichtet ist, dass er ein hier beschriebenes Verfahren ausführt.Next the device is given. The device comprises a processor which is set up to carry out a method described here.

Gemäß zumindest einer Ausführungsform umfasst die Vorrichtung ein Mikrofon zum Empfangen einer Spracheingabe und einen Lautsprecher zur Ausgabe von akustischen Signalen. Das Mikrofon und der Lautsprecher bilden Kommunikationsschnittstellen zwischen dem virtuellen Assistenten und der einen oder den mehreren Personen. Bevorzugt umfasst die Vorrichtung mehrere Mikrofone und/oder Lautsprecher.According to at least one embodiment, the device comprises a microphone for receiving a voice input and a loudspeaker for outputting acoustic signals. The microphone and the loudspeaker form communication interfaces between the virtual assistant and the one or more people. The device preferably comprises a plurality of microphones and / or loudspeakers.

Gemäß zumindest einer Ausführungsform umfasst die Vorrichtung eine Kamera zum Erstellen eines Bildes oder eines Videos. Die Kamera bildet eine weitere Kommunikationsschnittstelle zwischen den Personen und dem virtuellen Assistenten.According to at least one embodiment, the device comprises a camera for creating an image or a video. The camera forms another communication interface between the people and the virtual assistant.

Als nächstes wird das Fahrzeug angegeben. Das Fahrzeug umfasst eine hier beschriebene Vorrichtung. Bei dem Fahrzeug handelt es sich insbesondere um ein Kraftfahrzeug, zum Beispiel um einen Pkw. Für jeden Platz in dem Pkw kann die Vorrichtung ein eigenes Mikrofon zur Kommunikation mit dem virtuellen Assistenten umfassen. Ferner kann das Fahrzeug Sensoren zur Identifikation der einzelnen Personen, wie beispielsweise Sensoren in den Sitzen des Fahrzeuges, umfassen.Next, the vehicle is specified. The vehicle includes a device as described herein. The vehicle is, in particular, a motor vehicle, for example a car. For each seat in the car, the device can include its own microphone for communication with the virtual assistant. Furthermore, the vehicle can include sensors for identifying the individual persons, such as sensors in the seats of the vehicle.

Weitere Vorteile und vorteilhafte Ausgestaltungen und Weiterbildungen des Verfahrens, der Vorrichtung und des Fahrzeugs ergeben sich aus den folgenden im Zusammenhang mit den Figuren dargestellten Ausführungsbeispielen. Gleiche, gleichartige oder gleich wirkende Elemente sind in den Figuren mit den gleichen Bezugszeichen versehen. Die Figuren und die Größenverhältnisse der in den Figuren dargestellten Elemente untereinander sind nicht als maßstäblich zu betrachten. Vielmehr können einzelne Elemente zur besseren Darstellbarkeit und/oder für eine bessere Verständlichkeit übertrieben groß dargestellt sein.Further advantages and advantageous configurations and developments of the method, the device and the vehicle emerge from the following exemplary embodiments illustrated in connection with the figures. Identical, identical or identically acting elements are provided with the same reference symbols in the figures. The figures and the proportions of the elements shown in the figures are not to be regarded as being to scale. Rather, individual elements can be shown exaggeratedly large for better displayability and / or for better understanding.

Es zeigen:

  • 1 und 2 ein Ausführungsbeispiel des Fahrzeugs in verschiedenen Ansichten,
  • 3 bis 7 Ausführungsbeispiele des Verfahrens anhand von Ablaufdiagrammen.
Show it:
  • 1 and 2 an embodiment of the vehicle in different views,
  • 3rd to 7th Embodiments of the method based on flowcharts.

In der 1 ist ein Ausführungsbeispiel eines Fahrzeuges in Draufsicht gezeigt. Das Fahrzeug umfasst eine Vorrichtung 10, die dazu eingerichtet ist, ein hier beschriebenes Verfahren zum Betreiben eines virtuellen Assistenten auszuführen. Die Vorrichtung 10 umfasst ein Mikrofon 11, einen Lautsprecher 12 und eine Kamera 13.In the 1 an embodiment of a vehicle is shown in plan view. The vehicle includes a device 10 which is set up to carry out a method described here for operating a virtual assistant. The device 10 includes a microphone 11 , a loudspeaker 12th and a camera 13th .

In der 1 ist zu erkennen, dass in dem Fahrzeug eine Mehrzahl von Personen P sitzt, die miteinander sprechen oder die mit dem virtuellen Assistenten sprechen.In the 1 it can be seen that a large number of people are in the vehicle P who are talking to each other or who are talking to the virtual assistant.

In der 2 ist eine Seitenansicht des Fahrzeuges gezeigt.In the 2 a side view of the vehicle is shown.

3 zeigt ein erstes Ausführungsbeispiel des Verfahrens zum Betreiben eines virtuellen Assistenten anhand eines Ablaufdiagramms. Beispielhaft wird im Folgenden auf die Situation der 1 Bezug genommen. In einem Schritt S1 des Verfahrens werden Sprachinformationen I1 bereitgestellt, die repräsentativ für eine Spracheingabe durch die Personen P in dem Fahrzeug sind. In einem Schritt S2 wird ermittelt, wie viele Personen P in dem Fahrzeug sitzen. Dann wird in Abhängigkeit von den Sprachinformationen I1 eine Gesprächssituation ermittelt. Beispielsweise wird dazu zunächst in einem Schritt S3 in Abhängigkeit von den Sprachinformationen I1 ein oder mehrere Gesprächsmerkmale, wie Redegeschwindigkeiten, Redelautstärken und Redezeiten der einzelnen Personen ermittelt. Diese Gesprächsmerkmale können dann in einem Schritt S4 mit einem im virtuellen Assistenten gespeicherten Konversationsmuster verglichen werden, um die Gesprächssituation zu ermitteln. Alternativ können die Gesprächsmerkmale auch in ein neuronales Netz eingegeben werden, um die Gesprächssituation zu ermitteln. Im vorliegenden Fall wird beispielsweise ermittelt, dass die Gesprächssituation eine Diskussion oder ein Streitgespräch ist. In einem Schritt S10 wird dann ein erster Gesprächsmodus M1 eingestellt und der virtuelle Assistent wird in diesem Gesprächsmodus M1 betrieben. In dem ersten Gesprächsmodus M1 nimmt der virtuelle Assistent die Funktion eines Mediators zwischen den Personen ein. 3rd shows a first embodiment of the method for operating a virtual assistant on the basis of a flowchart. The following is an example of the situation of 1 Referenced. In one step S1 the procedure will be language information I1 provided that are representative of speech input by the people P are in the vehicle. In one step S2 it determines how many people P sit in the vehicle. Then depending on the language information I1 determined a conversation situation. For example, this is initially done in one step S3 depending on the language information I1 one or more conversation characteristics, such as speaking speeds, speaking volumes and speaking times of the individual persons. These call characteristics can then be used in one step S4 can be compared with a conversation pattern stored in the virtual assistant in order to determine the conversation situation. Alternatively, the conversation features can also be entered into a neural network in order to determine the conversation situation. In the present case it is determined, for example, that the conversation situation is a discussion or a dispute. In one step S10 then becomes a first conversation mode M1 set and the virtual assistant will be in this conversation mode M1 operated. In the first conversation mode M1 the virtual assistant takes on the function of a mediator between people.

In der 4 ist ein zweites Ausführungsbeispiel des Verfahrens anhand eines Ablaufdiagramms gezeigt. Auch hier wird beispielhaft Bezug auf die Situation der 1 genommen. Die Schritte S1, S2, S3 und S4 sind wie im Zusammenhang mit der 3 beschrieben. Daraufhin wird im Schritt S10 der erste Gesprächsmodus M1 eingestellt, in der der virtuelle Assistent die Rolle eines Mediators einnimmt. In einem darauffolgenden Schritt S11 werden die Absichten der Personen P aus den Sprachinformationen I1 ermittelt. In einem darauffolgenden Schritt S12 wird ein Ausgabesignal generiert, das zur Stellung einer Rückfrage einer Absicht einer Person oder zur Ausgabe eines Kompromissvorschlags zu den unterschiedlichen Absichten dient.In the 4th a second embodiment of the method is shown on the basis of a flowchart. Here, too, reference is made to the situation of the 1 taken. The steps S1 , S2 , S3 and S4 are like related to the 3rd described. Thereupon the step S10 the first conversation mode M1 set, in which the virtual assistant takes on the role of a mediator. In a subsequent step S11 become the intentions of the people P from the language information I1 determined. In a subsequent step S12 an output signal is generated which is used to ask a question about a person's intention or to output a compromise proposal for the different intentions.

In der 5 ist ein drittes Ausführungsbeispiel des Verfahrens anhand eines Ablaufdiagramms gezeigt, wobei wiederum Bezug auf die 1 genommen wird. Die Schritte S1 bis S4 sind wie in der 3 beschrieben. In Abhängigkeit der ermittelten Gesprächssituation wird nun ein zweiter Gesprächsmodus M2 eingestellt (Schritt S20), in der der virtuelle Assistent ein Gespräch zwischen den Personen P zusammenfasst. Bei der Durchführung des zweiten Gesprächsmodus M2 werden in einem Schritt S21 zunächst Absichten der Personen aus den Sprachinformationen I1 ermittelt und in einem Schritt S22 wird ein Ausgabesignal AS generiert, das repräsentativ für eine Zusammenfassung der Absichten ist. Das Ausgabesignal AS wird beispielsweise über das Mikrofon 12 als akustisches Signal ausgegeben.In the 5 a third embodiment of the method is shown on the basis of a flowchart, again with reference to FIG 1 is taken. The steps S1 to S4 are like in the 3rd described. Depending on the determined conversation situation, there is now a second conversation mode M2 set (step S20 ), in which the virtual assistant starts a conversation between people P summarizes. When performing the second conversation mode M2 be in one step S21 first of all, intentions of the people from the language information I1 determined and in one step S22 becomes an output signal AS generated that is representative of a summary of intentions. The output signal AS is for example via the microphone 12th issued as an acoustic signal.

In der 6 ist ein viertes Ausführungsbeispiel des Verfahrens anhand eines Ablaufdiagramms gezeigt. Wieder werden die Schritt S1 bis S4 ausgeführt und dann wird in einem Schritt S30 ein dritter Gesprächsmodus M3 eingestellt. Bei der Durchführung des dritten Gesprächsmodus M3 wird in einem Schritt S31 zunächst ein Inhalt des Gesprächs zwischen den Personen in Abhängigkeit der Sprachinformationen I1 ermittelt. Anschließend werden in einem Schritt S32 Redezeiten der Personen zu dem Inhalt in Abhängigkeit der Sprachinformationen ermittelt. Daraufhin wird in einem Schritt S33 die Person ermittelt, die zu dem Inhalt die kürzeste Redezeit hatte. Schließlich wird in einem Schritt S34 ein Ausgabesignal AS generiert, mit dem die Person mit der kürzesten Redezeit motiviert wird, sich zu dem Inhalt zu äußern.In the 6th a fourth embodiment of the method is shown on the basis of a flowchart. Again be the step S1 to S4 run and then it is done in one step S30 a third conversation mode M3 set. When performing the third conversation mode M3 is in one step S31 First, the content of the conversation between the people depending on the language information I1 determined. Then in one step S32 The speaking times of the people on the content are determined as a function of the language information. This is done in one step S33 identifies the person who had the shortest speaking time on the content. Finally, in a step S34, an output signal AS generated that motivates the person with the shortest speaking time to comment on the content.

In der 7 ist ein fünftes Ausführungsbeispiel des Verfahrens anhand eines Ablaufdiagramms gezeigt. Hier werden Sprachinformationen I1 (Schritt S1) und Bildinformationen I2 (Schritt S2), die beispielsweise durch die Kamera 13 der 1 bereitgestellt werden, verwendet. Aus den Sprachinformationen I1 und/oder den Bildinformationen I2 wird im Schritt S3 zunächst die Anzahl der Personen in dem Fahrzeug ermittelt. In Abhängigkeit von den Sprachinformationen I1 und den Bildinformationen I2 werden Gesprächsmerkmale ermittelt (Schritt S3) und in Abhängigkeit der Gesprächsmerkmale wird die Gesprächssituation ermittelt (Schritt S4). In einem Schritt S10 wird dann der zur Gesprächssituation passende Gesprächsmodus eingestellt, was hier wiederum der erste Gesprächsmodus M1 ist.In the 7th a fifth embodiment of the method is shown on the basis of a flowchart. Here is language information I1 (Step S1 ) and image information I2 (Step S2 ), for example through the camera 13th the 1 are used. From the language information I1 and / or the image information I2 will be in crotch S3 first the number of people in the vehicle is determined. Depending on the language information I1 and the image information I2 conversation characteristics are determined (step S3 ) and depending on the conversation characteristics, the conversation situation is determined (step S4 ). In one step S10 the conversation mode that matches the conversation situation is then set, which in turn is the first conversation mode M1 is.

Die Anzahl der Personen könnte auch aus anderen Quellen abgefragt werden, zum Beispiel aus einem Insassenmodell.The number of people could also be queried from other sources, for example from an occupant model.

Die Erfindung ist nicht durch die Beschreibung anhand der Ausführungsbeispiele auf diese beschränkt. Vielmehr umfasst die Erfindung jedes neue Merkmal sowie jede Kombination von Merkmalen, was insbesondere jede Kombination von Merkmalen in den Patentansprüchen beinhaltet, auch wenn diese Merkmale oder diese Kombination selbst nicht explizit in den Patentansprüchen oder Ausführungsbeispielen angegeben ist.The invention is not restricted to the exemplary embodiments by the description thereof. Rather, the invention encompasses every new feature and every combination of features, which in particular includes every combination of features in the patent claims, even if these features or this combination itself is not explicitly specified in the patent claims or exemplary embodiments.

BezugszeichenlisteList of reference symbols

1010
Vorrichtungcontraption
1111
Mikrofonmicrophone
1212th
Lautsprecherspeaker
1313th
Kameracamera
PP
Personperson
S1-S34S1-S34
VerfahrensschritteProcedural steps
I1I1
SprachinformationenLanguage information
I2I2
BildinformationenImage information
M1M1
erster Betriebsmodusfirst operating mode
M2M2
zweiter Betriebsmodussecond operating mode
M3M3
dritter Betriebsmodusthird mode of operation
ASAS
AusgabesignalOutput signal

Claims (13)

Verfahren zum Betreiben eines virtuellen Assistenten, wobei - der virtuelle Assistent mehrere Gesprächsmodi (M1, M2, M3) umfasst, - jeder Gesprächsmodus (M1, M2, M3) einer Gesprächssituation zugeordnet ist, - der virtuelle Assistent in den unterschiedlichen Gesprächsmodi unterschiedliche Funktionen in einem Gespräch übernimmt, - das Verfahren die Schritte umfasst: A) Bereitstellen von Sprachinformationen (I1), die repräsentativ für eine Spracheingabe von einer oder mehreren Personen (P) ist; C) Ermitteln einer Gesprächssituation in Abhängigkeit von den Sprachinformationen (I1); D) Einstellen des der ermittelten Gesprächssituation zugeordneten Gesprächsmodus (M1, M2, M3) und Betreiben des virtuellen Assistenten in diesem Gesprächsmodus.Method for operating a virtual assistant, wherein - the virtual assistant comprises several conversation modes (M1, M2, M3), - each conversation mode (M1, M2, M3) is assigned to a conversation situation, - the virtual assistant in the different conversation modes has different functions in one Conversation takes over, - the method comprises the steps: A) providing voice information (I1) which is representative of a voice input from one or more people (P); C) determining a conversation situation as a function of the language information (I1); D) Setting the conversation mode assigned to the determined conversation situation (M1, M2, M3) and operating the virtual assistant in this conversation mode. Verfahren nach Anspruch 1, weiter umfassend den Schritt: B) Ermitteln einer Anzahl von Personen (P), die miteinander oder jeweils zu dem virtuellen Assistenten sprechen; - wobei im Schritt C) die Gesprächssituation in zusätzlicher Abhängigkeit von der ermittelten Anzahl der Personen (P) ermittelt wird.Procedure according to Claim 1 , further comprising the step: B) determining a number of people (P) who speak to one another or to the virtual assistant; - wherein in step C) the conversation situation is determined as an additional function of the determined number of people (P). Verfahren nach Anspruch 1 oder 2, wobei - im Schritt C) und/oder im Schritt D) ein oder mehrere Gesprächsmerkmale in Abhängigkeit der Sprachinformationen ermittelt werden, wobei jedes Gesprächsmerkmal ein Element ist aus der Gruppe: Gesprächsfluss, Kontextvariablen, Emotionen der einzelnen Personen, soziale Beziehungen zwischen den Personen, Redezeiten der einzelnen Personen, Redelautstärke der einzelnen Personen, Redegeschwindigkeit der einzelnen Personen, Redeunterbrechungen durch einzelne Personen, Wiederholung von Begriffen durch einzelne Personen, Identitäten der Personen, - im Schritt C) die Gesprächssituation in Abhängigkeit von dem oder den Gesprächsmerkmalen ermittelt wird.Procedure according to Claim 1 or 2 , whereby - in step C) and / or in step D) one or more conversation features are determined as a function of the language information, each conversation feature being an element from the group: conversation flow, context variables, emotions of the individual persons, social relationships between the persons, Speaking times of the individual persons, speaking volume of the individual persons, speaking speed of the individual persons, speech interruptions by individual persons, repetition of terms by individual persons, identities of the persons, - in step C) the conversation situation is determined depending on the conversation characteristic (s). Verfahren nach einem der vorhergehenden Ansprüche, wobei die mehreren Gesprächsmodi (M1, M2, M3) umfassen: - einen ersten Gesprächsmodus (M1), in dem der virtuelle Assistent die Funktion eines Mediators zwischen mehreren Personen (P) einnimmt, - einen zweiten Gesprächsmodus (M2), in dem der virtuelle Assistent ein Gespräch zwischen mehreren Personen (P) zusammenfasst, - einen dritten Gesprächsmodus (M3), in dem der virtuelle Assistent ein Gespräch zwischen mehreren Personen (P) moderiert.Method according to one of the preceding claims, wherein the plurality of conversation modes (M1, M2, M3) comprise: - a first conversation mode (M1), in which the virtual assistant assumes the function of a mediator between several people (P), - a second conversation mode (M2) in which the virtual assistant summarizes a conversation between several people (P), - A third conversation mode (M3) in which the virtual assistant moderates a conversation between several people (P). Verfahren nach Anspruch 4, wobei - beim Betreiben des virtuellen Assistenten im ersten Gesprächsmodus (M1) folgende Schritte ausgeführt werden: - Ermitteln von Absichten der Personen (P) aus den Sprachinformationen (I1), - Generieren eines Ausgabesignals (AS) zur Stellung einer Rückfrage zu einer Absicht einer Person oder Generieren eines Ausgabesignals (AS) zur Ausgabe eines Kompromissvorschlags zu den unterschiedlichen Absichten.Procedure according to Claim 4 , wherein - when operating the virtual assistant in the first conversation mode (M1), the following steps are carried out: - Determining the intentions of the persons (P) from the voice information (I1), - Generating an output signal (AS) for making a query about an intention of a Person or generation of an output signal (AS) to output a compromise proposal for the different intentions. Verfahren nach Anspruch 4, wobei - beim Betreiben des virtuellen Assistenten im zweiten Gesprächsmodus (M2) folgende Schritte ausgeführt werden: - Ermitteln von Absichten der Personen aus den Sprachinformationen (I1); - Generieren eines Ausgabesignals (AS), das repräsentativ für eine Zusammenfassung der Absichten ist.Procedure according to Claim 4 wherein - when operating the virtual assistant in the second conversation mode (M2), the following steps are carried out: - Determining the intentions of the persons from the voice information (I1); - Generating an output signal (AS) which is representative of a summary of the intentions. Verfahren nach Anspruch 4, wobei - beim Betreiben des virtuellen Assistenten im dritten Gesprächsmodus (M3) folgende Schritte ausgeführt werden: - Ermitteln eines Inhalts des Gesprächs in Abhängigkeit der Sprachinformationen (I1), - Ermitteln von Redezeiten der Personen zu dem Inhalt in Abhängigkeit der Sprachinformationen (I1); - Ermitteln der Person mit der kürzesten Redezeit zu dem Inhalt; - Generieren eines Ausgabesignals (AS) zur Motivierung der Person mit der kürzesten Redezeit, sich zu dem Inhalt zu äußern.Procedure according to Claim 4 wherein - when operating the virtual assistant in the third conversation mode (M3), the following steps are carried out: - determining a content of the conversation as a function of the language information (I1), - determining speaking times of the people for the content as a function of the language information (I1); - Identify the person with the shortest speaking time on the content; - Generating an output signal (AS) to motivate the person with the shortest speaking time to comment on the content. Verfahren nach einem der vorhergehenden Ansprüche, weiter umfassend: E) Bereitstellen von Bildinformationen (I2), die repräsentativ für ein Bild oder Video der einen oder mehreren Personen (P) sind, wobei - im Schritt C) und/oder D) ein oder mehrere Gesprächsmerkmale in Abhängigkeit von den Bildinformationen (12) ermittelt werden.A method according to any one of the preceding claims, further comprising: E) providing image information (I2) which is representative of an image or video of the one or more people (P), wherein - In step C) and / or D) one or more call features are determined as a function of the image information (12). Computerprogramm umfassend Befehle, die bei der Ausführung des Computerprogramms durch einen Computer diesen veranlassen, das Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.Computer program comprising instructions which cause the computer program to be executed by a computer, the method according to one of the Claims 1 to 7th to execute. Computerlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 8 gespeichert ist.Computer-readable storage medium on which the computer program is based Claim 8 is stored. Vorrichtung (10) umfassend einen Prozessor, der so eingerichtet ist, dass er ein Verfahren nach einem der Ansprüche 1 bis 7 ausführt.Device (10) comprising a processor which is set up so that it uses a method according to one of the Claims 1 to 7th executes. Vorrichtung (10) nach Anspruch 11, weiter umfassend: - ein Mikrofon (11) zum Empfangen einer Spracheingabe, - einen Lautsprecher (12) zur Ausgabe von akustischen Signalen, - eine Kamera (13) zum Erstellen eines Bildes oder eines Videos.Device (10) according to Claim 11 , further comprising: - a microphone (11) for receiving a voice input, - a loudspeaker (12) for outputting acoustic signals, - a camera (13) for creating an image or a video. Fahrzeug, umfassend eine Vorrichtung (10) nach Anspruch 11 oder 12.Vehicle comprising a device (10) according to Claim 11 or 12th .
DE102019132054.2A 2019-11-26 2019-11-26 Method for operating a virtual assistant Ceased DE102019132054A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102019132054.2A DE102019132054A1 (en) 2019-11-26 2019-11-26 Method for operating a virtual assistant

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019132054.2A DE102019132054A1 (en) 2019-11-26 2019-11-26 Method for operating a virtual assistant

Publications (1)

Publication Number Publication Date
DE102019132054A1 true DE102019132054A1 (en) 2021-05-27

Family

ID=75784211

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019132054.2A Ceased DE102019132054A1 (en) 2019-11-26 2019-11-26 Method for operating a virtual assistant

Country Status (1)

Country Link
DE (1) DE102019132054A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160199977A1 (en) * 2013-03-15 2016-07-14 JIBO, Inc. Engaging in human-based social interaction for performing tasks using a persistent companion device
US20170132518A1 (en) * 2015-11-10 2017-05-11 Ricoh Company, Ltd. Electronic Meeting Intelligence

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160199977A1 (en) * 2013-03-15 2016-07-14 JIBO, Inc. Engaging in human-based social interaction for performing tasks using a persistent companion device
US20170132518A1 (en) * 2015-11-10 2017-05-11 Ricoh Company, Ltd. Electronic Meeting Intelligence

Similar Documents

Publication Publication Date Title
DE102019200954A1 (en) Signal processing device, system and method for processing audio signals
DE112017001830B4 (en) VOICE ENHANCEMENT AND AUDIO EVENT DETECTION FOR A NON-STATIONARY NOISE ENVIRONMENT
DE10220524B4 (en) Method and system for processing voice data and recognizing a language
EP1927980B1 (en) Method for classifying spoken language in spoken dialogue systems
DE102018113034A1 (en) VOICE RECOGNITION SYSTEM AND VOICE RECOGNITION METHOD FOR ANALYZING A COMMAND WHICH HAS MULTIPLE INTENTIONS
DE102019200956A1 (en) Signal processing device, system and method for processing audio signals
DE102016125104A1 (en) DYNAMIC SWITCHING OF ACOUSTIC MODELS TO IMPROVE RECOGNITION OF CHARMED LANGUAGE SIGNALS
DE112006000322T5 (en) Audio recognition system for generating response audio using extracted audio data
EP1081683B1 (en) Speech recognition method and device
EP2962296A2 (en) Wording-based speech analysis and speech analysis device
DE3514286A1 (en) SYSTEM FOR DETECTING INDIVIDUALLY SPOKEN WORDS
WO2015185464A1 (en) Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules
DE102017213249A1 (en) Method and system for generating an auditory message in an interior of a vehicle
DE10123823A1 (en) Parallel presentation of several audio information sources involves reconfiguring at least one source selected by speech input to be acoustically distinguished from other sources
DE112018007970T5 (en) Speech recognition apparatus, speech recognition system, and speech recognition method
EP1330817B1 (en) Robust voice recognition with data bank organisation
DE112020002288T5 (en) Method, system and apparatus for understanding and generating human conversational cues
DE102019132054A1 (en) Method for operating a virtual assistant
EP3115886B1 (en) Method for operating a voice controlled system and voice controlled system
EP3576084B1 (en) Efficient dialog design
EP3735688B1 (en) Method, device and computer-readable storage medium having instructions for processing a speech input, motor vehicle, and user terminal with speech processing
DE102008025532B4 (en) A communication system and method for performing communication between a user and a communication device
DE102018200570B4 (en) Method for processing a telephone emergency call and system for carrying out the method
DE102019131886A1 (en) Method for operating a communication assistant
DE102017213260A1 (en) Method, device, mobile user device, computer program for controlling an audio system of a vehicle

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final