DE102022116004A1 - Techniques for generating conversation topics in a virtual environment - Google Patents

Techniques for generating conversation topics in a virtual environment Download PDF

Info

Publication number
DE102022116004A1
DE102022116004A1 DE102022116004.1A DE102022116004A DE102022116004A1 DE 102022116004 A1 DE102022116004 A1 DE 102022116004A1 DE 102022116004 A DE102022116004 A DE 102022116004A DE 102022116004 A1 DE102022116004 A1 DE 102022116004A1
Authority
DE
Germany
Prior art keywords
poi
user
pois
audio signals
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022116004.1A
Other languages
German (de)
Inventor
Jascha Minow
Carl Jahn
Said El Mallouki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Priority to DE102022116004.1A priority Critical patent/DE102022116004A1/en
Publication of DE102022116004A1 publication Critical patent/DE102022116004A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking

Abstract

Die vorliegende Erfindung betrifft Techniken zum Generieren von Themen eines Point-of-Interests „POI“ in einer virtuellen Umgebung, umfassend die folgenden Schritte
• Darstellung eines virtuellen POIs auf einer Wiedergabeeinheit, insbesondere einer Anzeigeeinheit und/oder Lautsprechereinheit, eines Nutzerendgerätes;
• Erfassen von Audiosignalen des POIs und optional zusätzliches Erfassen von weiteren den POI kennzeichnenden Daten;
• Verwendung der erfassten Audiosignale und optional zusätzlich der weiteren kennzeichnenden Daten als Input eines Klassifizierungsalgorithmus, wobei der Klassifizierungsalgorithmus eingerichtet ist basierend auf den erfassten Audiosignalen und optional zusätzlich der weiteren kennzeichnenden Daten ein Schlagwort für den einen POI zu erkennen;
Wiedergabe des erkannten Schlagwortes des POIs.

Figure DE102022116004A1_0000
The present invention relates to techniques for generating topics of a point of interest “POI” in a virtual environment, comprising the following steps
• Representation of a virtual POI on a playback unit, in particular a display unit and/or loudspeaker unit, of a user terminal;
• Capture audio signals from the POI and optionally additional capture of other data identifying the POI;
• Use of the recorded audio signals and optionally additionally the further identifying data as input of a classification algorithm, the classification algorithm being set up to recognize a keyword for the one POI based on the recorded audio signals and optionally additionally the further identifying data;
Playback of the recognized keyword of the POI.
Figure DE102022116004A1_0000

Description

Die vorliegende Erfindung betrifft eine technische Lösung zum Generieren von Gesprächsthemen in einer virtuellen Umgebung und Anzeigen dieser Gesprächsthemen auf einem Nutzerendgerät. Insbesondere kann für das Verfahren eine sogenannte VR Brille als Nutzerendgerät genutzt werden.The present invention relates to a technical solution for generating topics of conversation in a virtual environment and displaying these topics of conversation on a user terminal. In particular, so-called VR glasses can be used as a user terminal for the method.

Aus dem Stand der Technik sind Nutzerendgeräte wie Computer, Smartphones, Tablets und/oder VR Brillen bekannt, mit denen Nutzer virtuell mit anderen Nutzern in einer virtuellen Umgebung, die bevorzugt auf einem Cloud-Server implementiert ist, miteinander kommunizieren können. Die Nutzerendgeräte weisen Eingabemittel wie etwa Tastatur, Maus und/oder ein Mikrofon auf, mittels derer ein Nutzer in der virtuellen Welt kommunizieren bzw. sich „bewegen“ kann. Die Nutzerendgeräte weisen ebenfalls Anzeigeeinheiten auf, beispielsweise ein Bildschirm, mittels derer der Nutzer erkennt wo es sich in der virtuellen Umgebung befindet, wobei dem Nutzer über die Anzeigeeinheiten zusätzlich Informationen der virtuellen Welt angezeigt werden kann. Zusätzlich zu den Anzeigeeinheiten können die Nutzerendgeräte auch Lautsprecher umfassen, die dem Nutzer ebenfalls Informationen der virtuellen Welt bereitstellen.User terminals such as computers, smartphones, tablets and/or VR glasses are known from the prior art, with which users can communicate virtually with other users in a virtual environment, which is preferably implemented on a cloud server. The user terminals have input devices such as a keyboard, mouse and/or a microphone, with which a user can communicate or “move” in the virtual world. The user terminals also have display units, for example a screen, by means of which the user can see where they are in the virtual environment, and additional information from the virtual world can be displayed to the user via the display units. In addition to the display units, the user terminals can also include loudspeakers, which also provide the user with information about the virtual world.

Die Nutzerendgeräte, insbesondere im Fall von Smartphones, können mittels eines Funkmoduls über eine Funktechnik, beispielsweise Mobilfunk und/oder WLAN, über ein Kommunikationsnetzwerk mit einem Server kommunizieren. Die Nutzerendgeräte, insbesondere im Fall von Computer, können allerdings auch kabelgebunden über das Kommunikationsnetzwerk mit dem Server kommunizieren.The user terminals, particularly in the case of smartphones, can communicate with a server via a communication network using a radio module via radio technology, for example mobile communications and/or WLAN. However, the user terminals, particularly in the case of computers, can also communicate with the server via a wired connection via the communication network.

Bekannt ist zudem aus dem Stand der Technik, dass solche VR Brillen genutzt werden, um einen Nutzer eine virtuelle Realität darzustellen, die der realen Welt möglichst nah kommt. So kann der Nutzer beispielsweise seine VR Brille nutzen, um ein virtuelles Museum zu besuchen. Dreht sich der Nutzer herum, folgt die Darstellung der VR Brille auf der Anzeigeneinheit entsprechend dieser Drehung.It is also known from the prior art that such VR glasses are used to show a user a virtual reality that comes as close as possible to the real world. For example, the user can use their VR glasses to visit a virtual museum. If the user turns around, the display of the VR glasses on the display unit follows this rotation.

Bekannt sind zudem Onlinekonferenzsysteme, die insbesondere während der Corona Pandemie vermehrt verwendet wurden, wobei sich mehrere Gruppen von Personen über diese Onlinekonferenzsysteme unterhalten können. Prinzipiell besteht die Möglichkeit über solche Onlinekonferenzsysteme eine virtuelle Messe oder eine Konferenz durchzuführen.Online conference systems are also known, which were increasingly used, especially during the Corona pandemic, whereby several groups of people can talk to each other via these online conference systems. In principle, it is possible to hold a virtual trade fair or conference using such online conference systems.

Bei virtuellen Konferenzen gibt es häufig Präsentationen, Vorträge aber auch Marktstände (beispielsweise von Ausrüstern) und/oder auch Ansammlungen von Besuchern, die sich über Themen austauschen. Nachfolgend werden alle diese möglichen Zusammenkünfte in der virtuellen Umgebung als virtueller Point-of-Interest POI - auf Deutsch „Ort von Interesse“ - bezeichnet. Allgemein kann man sagen, dass an einem POI Interaktionen von Personen in der virtuellen Umgebung stattfinden, insbesondere von sogenannten Avataren, die reale Personen in der virtuellen Umgebung repräsentieren.At virtual conferences there are often presentations, lectures but also market stalls (e.g. from outfitters) and/or gatherings of visitors exchanging ideas about topics. Below, all of these possible meetings in the virtual environment are referred to as virtual point-of-interest POIs. In general, one can say that interactions between people in the virtual environment take place at a POI, in particular so-called avatars, which represent real people in the virtual environment.

Nimmt ein Nutzer an einer solchen virtuellen Konferenz teil ist, es für ihn in der Regel schwer schnell zu erkennen, über was beispielsweise in einem Vortrag referiert wird bzw. wie der aktuelle Stand dieses Vortrags ist. Der Nutzer weiß also nicht, was er gegebenenfalls bereits verpasst hat, insbesondere im Fall einer angeregten Diskussion in einer Break-Out Session oder an einem virtuellen Marktstand, wo ein Ausrüster Besuchern Gegenstände vorstellt und Fragen zum Produktportfolio beantwortet.If a user takes part in such a virtual conference, it is usually difficult for him to quickly see what is being discussed in a lecture or what the current status of this lecture is. The user therefore does not know what he may have already missed, especially in the case of a lively discussion in a break-out session or at a virtual market stand, where an outfitter presents items to visitors and answers questions about the product portfolio.

Es gibt zwar die Möglichkeit durch kurze Zusammenfassungen über mögliche Inhalte eines Vortrags oder eine Diskussion zu informieren, falls der jeweilige Anbieter des POI diese Information vorab bereitgestellt hat, diese Informationen sind jedoch aufwendig zu erstellen und können nicht berücksichtigen, falls ein Vortrag eine „ganz neue Wendung genommen hat“. Zudem ist es häufig der Fall, dass die interessantesten Themen in individuellen Q&A Sessions behandelt werden.Although it is possible to provide information about the possible content of a lecture or a discussion through short summaries if the respective provider of the POI has provided this information in advance, this information is time-consuming to create and cannot be taken into account if a lecture is a “completely new has taken a turn.” It is also often the case that the most interesting topics are discussed in individual Q&A sessions.

Besucher einer virtuellen Konferenz stehen daher vor dem Problem, sich schon beim Eintritt in die virtuelle Konferenz zu entscheiden, zu welchem Vortrag oder welche Diskussion sie sich virtuell begeben möchten. Visitors to a virtual conference are therefore faced with the problem of deciding which lecture or discussion they would like to attend virtually when they enter the virtual conference.

Natürlich besteht für die Nutzer die Möglichkeit in jeden Raum - die verschiedenen POIs können durch verschiedene Räume voneinander virtuell abgetrennt werden - zu gehen und sich die dort präsentierten Inhalte anzuhören bzw. anzusehen, allerdings geht dadurch viel Zeit verloren bis der POI gefunden wird, der wirklich den Interessen des Nutzers entspricht. Gerade in dieser Zeit können wichtige Informationen des für den Nutzer interessanten POI verpasst werden, sodass es mit Ablauf der Zeit zunehmend schwieriger wird sich an einer Unterhaltung des für den Nutzer interessanten POI zu beteiligen.Of course, users have the opportunity to go into any room - the different POIs can be virtually separated from each other by different rooms - and listen to or watch the content presented there, but this means that a lot of time is lost until the POI is actually found corresponds to the interests of the user. Especially during this time, important information about the POI that is of interest to the user can be missed, so that as time passes it becomes increasingly difficult to participate in a conversation about the POI that is of interest to the user.

Der vorliegenden Erfindung liegt daher die Aufgabe zu Grunde, technische Mittel zum Generieren und/oder Anzeigen von Themen von virtuellen POIs anzugeben.The present invention is therefore based on the object of specifying technical means for generating and/or displaying topics of virtual POIs.

Die vorliegende Erfindung löst diese Aufgabe durch die Merkmale der unabhängigen Ansprüche.The present invention solves this problem through the features of the independent claims.

Die Merkmale der im Folgenden beschriebenen verschiedenen Aspekte der Erfindung bzw. der verschiedenen Ausführungsbeispiele sind miteinander kombinierbar, sofern dies nicht explizit ausgeschlossen ist oder sich technisch zwingend ausschließt. Wenn nachstehend die Begriffe Person oder Nutzer verwendet werden, die das Verfahren nutzen, dann handelt es sich hierbei im Sinne der Erfindung um Synonyme.The features of the various aspects of the invention or the various exemplary embodiments described below can be combined with one another, unless this is explicitly excluded or technically excluded. If the terms person or user who uses the method are used below, these are synonyms within the meaning of the invention.

Erfindungsgemäß ist ein Verfahren zum Generieren von Themen eines Point-of-Interests „POI“ in einer virtuellen Umgebung angegeben, umfassend die folgenden Schritte:

  • • Darstellung zumindest eines virtuellen POIs auf einer Wiedergabeeinheit, insbesondere einer Anzeigeeinheit und/oder Lautsprechereinheit, eines Nutzerendgerätes;
    • ◯ bei der Anzeigeeinheit handelt es sich insbesondere um ein Display eines Nutzerendgeräts, wie beispielsweise eines Computers, eines Smartphones und/oder einer VR Brille, wobei Steuerbefehle von einem Server generiert werden - auf dem die virtuelle Umgebung implementiert ist - sodass die virtuelle Umgebung auf der Anzeigeeinheit bildlich dargestellt werden kann. Im einfachsten Fall kann es sich bei der virtuellen Umgebung um eine zweidimensionale Darstellung handeln in welcher POIs, beispielsweise als abgetrennte Bereiche, angezeigt werden.
    • ◯ Die Darstellung eines POIs kann prinzipiell auch durch eine Lautsprechereinheit erfolgen, indem POIs mit Wörtern klanglich beschrieben werden. Dies ist insbesondere dann vorteilhaft, um blinden Menschen einen Zugang zu der virtuellen Umgebung und einer Interaktion mit den POIs zu ermöglichen.
  • • Erfassen von Audiosignalen des POIs und optional zusätzliches Erfassen von weiteren den POI kennzeichnenden Daten;
    • ◯ Die Audiosignale sind hierbei den entsprechenden POIs zugeordnet. Bei den weiteren den POI kennzeichnenden Daten kann es sich um Positionsdaten innerhalb der virtuellen Umgebung und/oder Zeitdaten handeln. Die weiteren den POI kennzeichnenden Daten werden vor allem dazu verwendet, um POIs voneinander unterscheiden zu können, wobei die Zeitdaten bevorzugt dazu verwendet werden, um festzustellen wann innerhalb eines POIs bestimmte Themen diskutiert wurden. Bei lediglich einem einzigen POI oder wenn die POIs gezielt voneinander getrennt in der virtuellen Umgebung dargestellt sind, ist eine solche Unterscheidung allerdings nicht zwingend notwendig, um festzulegen, welches Audiosignal welchem POI zugeordnet werden soll, insbesondere, wenn sich der Nutzer durch einen sogenannten Avatar zwischen verschiedenen POIs hin und her bewegt.
    • ◯ Bevorzugt können verschiedene POIs mittels eines POI Unterscheidungs-Algorithmus erkannt werden, der bevorzugt auf dem Server implementiert ist, der die virtuelle Umgebung bereitstellt. Eine zweckmäßige Lösung ist es hierbei, wenn die virtuelle Umgebung verschiedene definierte Räume für jeden POI bereitstellt und alle Audiosignale von Nutzern, die sich, beispielsweise mit Ihrem Avatar, in diesem Raum befinden, dem entsprechenden POI zugeordnet werden. Räume können beispielsweise durch kartesische Koordinaten definiert werden, wobei die kartesischen Koordinaten der POIs sowie die Position der Nutzer innerhalb der virtuellen Umgebung dem Unterscheidungs-Algorithmus zur Auswertung übergeben werden können. Insbesondere ist der Unterscheidungs-Algorithmus eingerichtet eine Mehrzahl von POIs zu unterscheiden. Hierzu kann der Unterscheidungs-Algorithmus in einer alternativen Variante durch ein entsprechendes trainiertes neuronales Netzwerk ausgestaltet sein, das einerseits mit einem ersten Datensatz trainiert wird, der Nutzer aufweist, die als einem POI zugehörig markiert sind und andererseits mit einem zweiten Datensatz trainiert wird, der Nutzer aufweist, die als nicht zu dem POI zugehörig markiert sind. Eine andere Möglichkeit ist es, dass der Unterscheidungs-Algorithmus eine Routine aufweist, die beispielsweise die Positionsdaten der Nutzer - respektive deren Avatare - zueinander auswertet. Wie schon vorstehend angedeutet: eine einfache Form dieser Auswertungsroutine ist es festzustellen, dass ein POI vorliegt, wenn dieser durch einen Bereich definiert ist und/oder der Abstand von jeweils einem Avatar zu einem anderen Avatar kleiner als ein bestimmter Pixelabstand ist.
    • ◯ In der virtuellen Umgebung, die auch als ein Onlinekonferenz-System ausgestaltet sein kann, werden die Audiosignale in der Regel mittels Nutzerendgeräten an den die virtuelle Umgebung bereitstellen den Server übermittelt. In diesem Fall liegen die Audiosignale also bereits vor und müssen lediglich entsprechend an weitere Routinen, weitere Algorithmen usw. übergeben werden. Initial erfasst werden diese Audiosignale mit dem Nutzerendgerät, insbesondere dem Computer oder dem Smartphone, mit dem der Nutzer mit der virtuellen Umgebung oder dem Onlinekonferenz System kommuniziert.
  • • Verwendung der erfassten Audiosignale und optional zusätzlich der weiteren kennzeichnenden Daten als Input eines Klassifizierungsalgorithmus, wobei der Klassifizierungsalgorithmus eingerichtet ist basierend auf den erfassten Audiosignalen und optional zusätzlich der weiteren kennzeichnenden Daten zumindest ein Schlagwort für den zumindest einen POI zu erkennen;
    • ◯ Der Klassifizierungsalgorithmus ist bevorzugt auf dem die virtuelle Umgebung bereitstellenden Server implementiert, da hierdurch ein zusätzliches Übertragen der notwendigen Daten an eine andere Rechnereinheit vermieden wird.
    • ◯ vorzugsweise ist der Klassifizierungsalgorithmus auf dem die virtuelle Umgebung bereitstellenden Server implementiert. In diesem Fall befinden sich das Onlinekonferenz System oder die virtuelle Welt ohnehin schon auf einem Server, sodass die entsprechenden Daten, insbesondere die Audiosignale, bereits vorliegen und nicht erneut übertragen werden müssen;
    • ◯ wertet der Klassifizierungsalgorithmus Gespräche von mehr als einem POI aus, werden Information hinterlegt, die es ermöglichen die Audiosignale den entsprechenden POIs zuzuordnen, damit im Nachhinein die erstellten Schlagwörter den richtigen POIs zugeordnet werden können. Informationen, die POIs kennzeichnen werden insbesondere aus den weiteren identifizierenden Daten gebildet. In der virtuellen Welt könnte dies bedeuten, dass ein POI durch die Position x1, y1 definiert ist und dass diesem POI das Audiosignal A1 zugeordnet wird.
    • ◯ In einem ersten Schritt zur Ermittlung der entsprechenden Schlagwörter können die Audiosignale mit schon im Stand der Technik bekannten Softwarelösungen (Speech-to-texttools) in Text umgewandelt werden; insbesondere können in diesem Zusammenhang bekannte Methoden der automatischen Spracherkennung (ASR) und der Natural Language Understanding (NLU) eingesetzt werden;
    • ◯ Zur Ermittlung der entsprechenden Schlagwörter, wobei die Schlagwörter die Gesprächsthemen des jeweiligen POI repräsentieren, kann der Klassifizierungsalgorithmus auf bereits vorhandene Algorithmen virtueller Sprachassistenten zurückgreifen. Virtuelle Sprachassistenten weisen Routinen auf, die bereits in der Lage sind „ThemenVSchlagwörter aus Audiosignalen entsprechend zu generieren, da dies für die nachfolgende Verarbeitung notwendig ist. Alternativ oder zusätzlich kann der Klassifizierungsalgorithmus zur Ermittlung der entsprechenden Schlagwörter ein trainiertes neuronales Netzwerk nutzen, wobei das neuronale Netzwerk mit Datensätzen trainiert wird, die jeweils mit einem Schlagwort markiert sind. Beispielsweise könnte ein solcher Datensatz wie folgt aussehen: das Audiosignal „Hast du gestern Abend den Europapokalsieg von Eintracht Frankfurt gesehen?“ kann mit dem Schlagwort „Fußball“ markiert sein.
  • • Wiedergabe des erkannten Schlagwortes des POIs, insbesondere Erzeugung von Steuerbefehlen eingerichtet zur Wiedergabe des erkannten Schlagwortes des POIs auf einer Anzeigeeinheit des Nutzerendgerätes und Übertragung der Steuerbefehle an das Nutzerendgerät.
    • ◯ Zur Wiedergabe des erkannten Schlagworts werden geeignete Mittel zur Wiedergabe verwendet, wie beispielsweise eine Anzeigeneinheit, insbesondere ein Display, oder eine Lautsprechereinheit. Es kann aber zweckmäßig sein, dass der Nutzer einen POI oder mehrere POIs mit einem Mittel zur Markierung in einem vorgelagerten Prozess markiert, wobei lediglich die Schlagworte des oder der markierten POIs wiedergegeben werden. Mittel zur Markierung können beispielsweise ein Finger auf einem Touch Display, eine Computer Tastatur und/oder eine Maus sein. Bevorzugt wird die Auswertung des Klassifizierungsalgorithmus nur bei den zuvor markierten POIs durchgeführt, wodurch Ressourcen gespart werden können. Es kann insbesondere die vorstehend erwähnte Zuordnung der POIs zu ihren Audiosignalen verwendet werden, um die erkannten Schlagwörter auf der Anzeigeeinheit den richtigen POIs zuzuordnen.
According to the invention, a method for generating topics of a point-of-interest “POI” in a virtual environment is specified, comprising the following steps:
  • • Representation of at least one virtual POI on a playback unit, in particular a display unit and/or loudspeaker unit, of a user terminal;
    • ◯ the display unit is in particular a display of a user terminal, such as a computer, a smartphone and/or VR glasses, with control commands being generated by a server - on which the virtual environment is implemented - so that the virtual environment on the Display unit can be represented graphically. In the simplest case, the virtual environment can be a two-dimensional representation in which POIs are displayed, for example as separate areas.
    • ◯ The representation of a POI can in principle also be done using a loudspeaker unit by describing POIs aurally with words. This is particularly advantageous in order to enable blind people to access the virtual environment and interact with the POIs.
  • • Capture audio signals from the POI and optionally additional capture of other data identifying the POI;
    • ◯ The audio signals are assigned to the corresponding POIs. The further data characterizing the POI can be position data within the virtual environment and/or time data. The other data characterizing the POI is used primarily to distinguish POIs from one another, with the time data preferably being used to determine when certain topics were discussed within a POI. However, if there is only a single POI or if the POIs are specifically displayed separately from one another in the virtual environment, such a distinction is not absolutely necessary in order to determine which audio signal should be assigned to which POI, especially if the user uses a so-called avatar moves back and forth to different POIs.
    • ◯ Preferably, different POIs can be recognized using a POI distinction algorithm, which is preferably implemented on the server that provides the virtual environment. A practical solution here is if the virtual environment provides different defined rooms for each POI and all audio signals from users who are in this room, for example with their avatar, are assigned to the corresponding POI. For example, rooms can be defined by Cartesian coordinates, whereby the Cartesian coordinates of the POIs and the position of the users within the virtual environment can be passed on to the differentiation algorithm for evaluation. In particular, the differentiation algorithm is set up to distinguish a plurality of POIs. For this purpose, in an alternative variant, the differentiation algorithm can be designed by a corresponding trained neural network, which on the one hand is trained with a first data set that has users who are marked as belonging to a POI and on the other hand is trained with a second data set, the user that are marked as not belonging to the POI. Another possibility is that the differentiation algorithm has a routine that, for example, evaluates the position data of the users - or their avatars - in relation to one another. As already indicated above: a simple form of this evaluation routine is to determine that a POI is present if it is defined by an area and/or the distance from one avatar to another avatar is smaller than a certain pixel distance.
    • ◯ In the virtual environment, which can also be designed as an online conference system, the audio signals are usually transmitted via user devices to the server that provides the virtual environment. In this case, the audio signals are already available and simply need to be passed on to further routines, further algorithms, etc. These audio signals are initially recorded with the user device, in particular the computer or smartphone, with which the user communicates with the virtual environment or the online conference system.
  • • Use of the captured audio signals and optionally the additional identifying data as input to a classification algorithm, the classification algorithm being set up based on the captured to recognize at least one keyword for the at least one POI from audio signals and optionally additionally the further identifying data;
    • ◯ The classification algorithm is preferably implemented on the server providing the virtual environment, as this avoids additional transfer of the necessary data to another computer unit.
    • ◯ preferably the classification algorithm is implemented on the server providing the virtual environment. In this case, the online conference system or the virtual world is already on a server, so that the relevant data, in particular the audio signals, are already available and do not need to be retransmitted;
    • ◯ If the classification algorithm evaluates conversations from more than one POI, information is stored that makes it possible to assign the audio signals to the corresponding POIs, so that the keywords created can subsequently be assigned to the correct POIs. Information that identifies POIs is formed in particular from the further identifying data. In the virtual world this could mean that a POI is defined by the position x1, y1 and that the audio signal A1 is assigned to this POI.
    • ◯ In a first step to determine the corresponding keywords, the audio signals can be converted into text using software solutions that are already known in the state of the art (speech-to-text tools); In particular, well-known methods of automatic speech recognition (ASR) and natural language understanding (NLU) can be used in this context;
    • ◯ To determine the corresponding keywords, whereby the keywords represent the topics of conversation of the respective POI, the classification algorithm can rely on existing algorithms of virtual voice assistants. Virtual voice assistants have routines that are already able to generate topic keywords from audio signals, as this is necessary for subsequent processing. Alternatively or additionally, the classification algorithm can use a trained neural network to determine the corresponding keywords, the neural network being trained with data sets that are each marked with a keyword. For example, such a data set could look like this: the audio signal “Did you see Eintracht Frankfurt’s European Cup win last night?” can be tagged with the keyword “football”.
  • • Playback of the recognized keyword of the POI, in particular generation of control commands set up to reproduce the recognized keyword of the POI on a display unit of the user terminal and transmission of the control commands to the user terminal.
    • ◯ To reproduce the recognized keyword, suitable means of reproduction are used, such as a display unit, in particular a display, or a loudspeaker unit. However, it may be expedient for the user to mark a POI or several POIs with a means of marking in an upstream process, whereby only the keywords of the marked POI or POIs are reproduced. Means for marking can be, for example, a finger on a touch display, a computer keyboard and/or a mouse. The evaluation of the classification algorithm is preferably only carried out for the previously marked POIs, which can save resources. In particular, the above-mentioned assignment of the POIs to their audio signals can be used to assign the recognized keywords on the display unit to the correct POIs.

Dies ergibt also den Vorteil, dass der Nutzer angezeigt bekommt, welche Gesprächsthemen in Form von Schlagwörtern in einem bestimmten POI „diskutiert“ werden, sodass sich der Nutzer zielgerichtet die POI seiner Wahl aussuchen kann. Lästiges zeitraubendes „Abtasten“, welcher POI für den Nutzer der Richtige ist, kann auf diese Weise vorteilhaft entfallen. Das Ergebnis aus der Analyse kann insbesondere die Gesprächsinhalte als Schlagwörter in Form einer Tag-Cloud darstellen, die dem POI zugeordnet eingeblendet wird. Dies ermöglicht einen schnellen Überblick über die Themen, sodass die Gesprächsinhalte eines POIs innerhalb von wenigen Sekunden ermittelt werden können. Bevorzugt werden die Ergebnisse dabei kontinuierlich erweitert, indem beständig weitere Audiosignale des POI zur Auswertung dem Klassifizierungsalgorithmus übergeben werden. Dadurch ergibt sich über einen längeren Zeitraum auch eine bessere Information über die Gesprächsthemen und deren Verlauf. Es ist auch möglich, dass der Nutzer spezifizieren kann, wie lange der Zeitraum zurückliegen soll für den die Audiosignale des POIs ausgewertet werden. Ein zu großer Zeitraum verbraucht viele Computerressourcen und bildet gegebenenfalls keine aktuelle Wiedergabe der diskutierten Themen in Form der Schlagwörter. Bevorzugt wird der Zeitraum beispielsweise innerhalb der Zeitspanne von 5-15 Minuten ausgewählt.This has the advantage that the user is shown which topics of conversation are being “discussed” in the form of keywords in a specific POI, so that the user can specifically select the POI of their choice. In this way, the annoying, time-consuming “scanning” of which POI is the right one for the user can be eliminated. The result of the analysis can in particular represent the conversation content as keywords in the form of a tag cloud, which is displayed assigned to the POI. This enables a quick overview of the topics so that the conversation content of a POI can be determined within a few seconds. The results are preferably continuously expanded by constantly passing additional audio signals from the POI to the classification algorithm for evaluation. This also results in better information about the topics of conversation and their course over a longer period of time. It is also possible for the user to specify how long ago the POI's audio signals should be evaluated. A time period that is too long consumes a lot of computer resources and may not provide an up-to-date representation of the topics discussed in the form of the keywords. The period is preferred, for example selected within the period of 5-15 minutes.

Zweckmäßigerweise navigiert der Nutzer mittels Navigationsmitteln zu POIs innerhalb der virtuellen Umgebung. Mittels dieser Navigationsmitteln kann der Nutzer auch POIs markieren. Solche Navigationsmittel sind beispielsweise ein Finger mit dem ein Touchscreen eines Smartphones, eines Computers oder eines Tablets bedient werden kann. Es kann sich aber auch um eine Tastatur und/oder um eine Computermaus handeln. Die Navigationsmittel haben den Vorteil, dass sie dem Nutzer eine Interaktion mit der virtuellen Umgebung ermöglichen. Für insbesondere blinde Nutzer kann das Navigationsmittel auch sprachbasiert funktionieren.The user expediently navigates to POIs within the virtual environment using navigation means. Using these navigation tools, the user can also mark POIs. Such navigation means are, for example, a finger with which a touchscreen of a smartphone, a computer or a tablet can be operated. But it can also be a keyboard and/or a computer mouse. The navigation means have the advantage that they allow the user to interact with the virtual environment. For blind users in particular, the navigation tool can also be voice-based.

In einer bevorzugten Ausführungsform markiert der Nutzer mittels Markierungsmitteln mit den zumindest einen POI, wobei der Klassifizierungsalgorithmus für den markierten POI ausgeführt wird und/oder wobei die Schlagwörter des markierten POI angezeigt werden. Die Audiosignale können von einer Teilmenge der POIs, insbesondere nur von einem POI, parallel erfasst und verarbeitet werden.In a preferred embodiment, the user marks the at least one POI using marking means, the classification algorithm being carried out for the marked POI and/or the keywords of the marked POI being displayed. The audio signals can be recorded and processed in parallel from a subset of the POIs, in particular from just one POI.

Diese Merkmale bieten den Vorteil, dass hierbei ressourcenschonend nicht alle Audiosignale aller POIs parallel ausgewertet werden, sondern nur diejenigen der POIs, die in einem vorgelagerten Schritt markiert wurden. In vorteilhafter Weise kann den POIs schon beim Erstellen der virtuellen Umgebung zumindest ein Thema quasi als Überschrift zugeordnet und dargestellt werden, sodass der Nutzer zumindest eine erste Orientierung hat, welche POIs er markieren soll. In einer anderen Ausführungsform kann die Auswertung der POIs, insbesondere aller POIs, zwar parallel ausgeführt werden, wobei allerdings nur die Schlagwörter derjenigen angezeigt werden, die markiert sind. In vorteilhafter Weise kann dies eine bessere Übersichtlichkeit für den Nutzer bieten.These features offer the advantage that, in a resource-saving manner, not all audio signals from all POIs are evaluated in parallel, but only those of the POIs that were marked in a previous step. Advantageously, at least one topic can be assigned and displayed to the POIs when the virtual environment is created, so to speak, as a heading, so that the user has at least an initial orientation as to which POIs he should mark. In another embodiment, the evaluation of the POIs, in particular all POIs, can be carried out in parallel, although only the keywords of those that are marked are displayed. This can advantageously provide better clarity for the user.

Vorzugsweise werden die Audiosignale je POI für einen vordefinierten Zeitraum oder für einen dynamischen Zeitraum erfasst und/oder ausgewertet. Hierbei ergibt sich der dynamische Zeitraum hierdurch, dass der POI so lange ausgewertet wird bis zu einer vordefinierten Wahrscheinlichkeitsschwelle sicher ist, dass der Klassifizierungsalgorithmus das oder die richtigen Schlagwörter aufgefunden hat.Preferably, the audio signals are recorded and/or evaluated for each POI for a predefined period of time or for a dynamic period of time. The dynamic period results from the fact that the POI is evaluated until a predefined probability threshold is certain that the classification algorithm has found the correct keyword or keywords.

Der vordefinierte feste Zeitraum hat den Vorteil, dass eine Auswertung, insbesondere falls Unsicherheit hinsichtlich des passenden Schlagworts besteht, nicht zu lange dauert, wobei der dynamische Zeitraum den Vorteil aufweist, dass die dem Nutzer angezeigten Schlagworte mit einer vordefinierten Wahrscheinlichkeit richtig erkannt wurden.The predefined fixed period of time has the advantage that an evaluation does not take too long, especially if there is uncertainty regarding the appropriate keyword, whereas the dynamic period has the advantage that the keywords displayed to the user were correctly recognized with a predefined probability.

In einer bevorzugten Ausführungsform werden die erkannten Schlagwörter der POIs mit präferierten Schlagwörtern des Nutzers abgeglichen, wobei POIs kenntlich gemacht werden, die präferierte Schlagwörter aufweisen. Für diesen Abgleich werden insbesondere auch Synonyme der Schlagwörter verwendet, die in einer Datenbank vorgehalten werden können. Dies bietet den Vorteil, dass der Nutzer auf POIs gezielt aufmerksam gemacht wird, die seinen Präferenzen entsprechen. Beispielsweise ist es möglich solche POIs mit übereinstimmenden präferierten Schlagwörtern als Pop-up-Fenster darzustellen, insbesondere auch dann, wenn der Nutzer gerade mit einem anderen POI interagiert.In a preferred embodiment, the recognized keywords of the POIs are compared with the user's preferred keywords, with POIs that have preferred keywords being identified. For this comparison, synonyms of the keywords are used in particular, which can be stored in a database. This offers the advantage that the user is specifically made aware of POIs that correspond to their preferences. For example, it is possible to display such POIs with matching preferred keywords as a pop-up window, especially if the user is currently interacting with another POI.

Diese präferierten Schlagwörter können automatisiert aus einem Online-Profil des Nutzers extrahiert werden und/oder manuell durch den Nutzer eingegeben werden.These preferred keywords can be automatically extracted from a user's online profile and/or entered manually by the user.

Die Extraktion aus dem Online-Profil bietet den Vorteil, dass der Nutzer die präferierten Schlagwörter nicht extra eingeben muss, sondern dass diese quasi durch die normalen Aktivitäten des Nutzers mit seinem Online Profil erweitert werden können und/oder aktuell gehalten sind. Die manuelle Eingabe ermöglicht es dem Nutzer die Ausführungsvariante mit den präferierten Schlagwörter zu nutzen, ohne dass er ein Online-Profil zu besitzen braucht oder den Nutzer wird hierdurch ermöglicht spezielle präferierte Schlagwörter einzugeben.Extraction from the online profile offers the advantage that the user does not have to enter the preferred keywords separately, but rather that these can be expanded through the user's normal activities with his online profile and/or are kept up to date. The manual entry allows the user to use the version with the preferred keywords without having to have an online profile or this enables the user to enter special preferred keywords.

Bevorzugt nutzt der Klassifizierungsalgorithmus ein trainiertes neuronales Netzwerk zur Gesprächsthemenerkennung und/oder greift auf bestehende Routinen virtueller Sprachassistenten zurück.The classification algorithm preferably uses a trained neural network to recognize topics of conversation and/or uses existing routines of virtual voice assistants.

Beide Alternativen sind für diese Aufgabe geeignet und können insbesondere durch Feedback beständig trainiert, respektive verbessert werden.Both alternatives are suitable for this task and can be constantly trained or improved, especially through feedback.

In einer Ausführungsform wird eine Erfassungsdauer der Audiosignale und optional der weiteren kennzeichnenden Daten erhöht, um dem Klassifizierungsalgorithmus einen größeren Datensatz zur Verfügung zu stellen.In one embodiment, a recording duration of the audio signals and optionally the further identifying data is increased in order to provide the classification algorithm with a larger data set.

Je größer der Datensatz ist, der dem Klassifizierungsalgorithmus zur Verfügung steht, desto zuverlässiger kann das wirkliche Gesprächsthema des POI erkannt werden. Eine typische Unterhaltung einer Gruppe eines POIs umfasst nämlich auch solche Sätze, die eigentlich gar nicht dem Gesprächsthema entsprechen. Unterhält sich zum Beispiel die Gruppe des POI über Autos, sagt aber eine Person der Gruppe „ich bin gleich wieder da, ich gehe nur kurz zur Toilette“ und würde das Audiosignal lediglich diesen Satz umfassen, so würde der Klassifizierungsalgorithmus „irrtümlich“ das Gesprächsthema „Toilettengang“ erkennen und entsprechend anzeigen. Wird der Datensatz des Audiosignals aber beispielsweise über einen Zeitraum von mehr als 15 Sekunden, insbesondere mehr als 1 Minute, aufgezeichnet, fallen kurzzeitige Gesprächsthemen fremde Äußerungen weniger stark ins Gewicht und können kompensiert werden.The larger the data set available to the classification algorithm, the more reliably the real talking point of the POI can be identified. A typical conversation between a group at a POI also includes sentences that actually do not correspond to the topic of the conversation. For example, if the POI group is talking about cars, but one person in the group says "I'll be right back, I'm just going to the toilet" and if the audio signal only included this sentence, the classification algorithm would "mistake" the topic of conversation Detect “toilet use” and display accordingly. However, if the data record of the audio signal is recorded, for example, over a period of more than 15 seconds, in particular more than 1 minute, short-term topics of conversation and other people's statements are less important and can be compensated for.

Die erfassten Audiosignale und optional die weiteren kennzeichnenden Daten können sich aus verschiedenen, insbesondere nicht zusammenhängenden, Zeitabschnitten zusammensetzen.The recorded audio signals and optionally the further identifying data can be composed of different, in particular unrelated, time periods.

Dies hat den Vorteil, dass keine Audiosignale von POIs aufgenommen werden müssen, bei denen die Aktivität für einen Zeitraum pausiert. Wird die Aktivität wieder aufgenommen, werden erneut Audiosignale erfasst, zusammengesetzt und ausgewertet.This has the advantage of not having to record audio signals from POIs where activity pauses for a period of time. When activity resumes, audio signals are recorded, assembled and evaluated again.

Bevorzugt weisen die Schlagwörter eine Codierung auf, die wiedergibt mit welcher Wahrscheinlichkeit das Schlagwort korrekt erkannt wurde. Der Klassifizierungsalgorithmus kann bestimmen mit welcher Wahrscheinlichkeit er das richtige Schlagwort ermittelt hat. In der einfachsten Ausführungsform steigt die Wahrscheinlichkeit proportional mit der Dauer der Erfassung der Audiosignale des POI. Beispielsweise kann das Gesprächsthema in grüner Farbe angezeigt werden, wenn sich der Algorithmus mit einer gewissen Wahrscheinlichkeit, beispielsweise zu über 75 %, sicher ist, dass er das Thema richtig erkannt hat, wobei das Gesprächsthema andernfalls in roter Farbe dargestellt werden kann.The keywords preferably have a coding that reflects the probability with which the keyword was correctly recognized. The classification algorithm can determine the probability with which it has identified the correct keyword. In the simplest embodiment, the probability increases proportionally with the duration of the capture of the POI's audio signals. For example, the topic of conversation can be displayed in green if the algorithm has a certain probability, for example over 75%, that it has correctly identified the topic, otherwise the topic of conversation can be displayed in red.

Gemäß einem zweiten Aspekt der Erfindung ist ein Server angegeben, wobei der Server Mittel zur Ausführung der Schritte des vorstehend beschriebenen Verfahrens aufweist. Insbesondere weißt der Server einen Prozessor auf, dem die vorstehend beschriebenen Algorithmen implementierbar sind. Vorzugsweise ist auf diesem Prozessor oder auf einem anderen dem Server zugeordneten Prozessor die virtuelle Umgebung implementiert. Zudem kann der Server Schnittstellen zur Kommunikation über ein Kommunikationsnetzwerk mit dem Nutzerendgerät aufweisen, wobei der Nutzer mit seinem Nutzerendgerät die Audiosignale aufnimmt, über das Kommunikationsnetzwerk an den Server sendet und mit dem Nutzerendgerät mit der virtuellen Umgebung interagieren kann.According to a second aspect of the invention, a server is specified, wherein the server has means for carrying out the steps of the method described above. In particular, the server has a processor that can implement the algorithms described above. The virtual environment is preferably implemented on this processor or on another processor assigned to the server. In addition, the server can have interfaces for communication via a communication network with the user terminal, whereby the user records the audio signals with his user terminal, sends them to the server via the communication network and can interact with the virtual environment with the user terminal.

Gemäß einem dritten Aspekt der Erfindung ist ein System angegeben umfassend den vorstehend beschriebenen Server, ein Nutzerendgerät und ein Kommunikationsnetzwerk, wobei der Server und das Nutzerendgerät eingerichtet sind über das Kommunikationsnetzwerk miteinander zu kommunizieren. Das System ist eingerichtet zur Ausführung des vorstehend beschriebenen Verfahrens. Insbesondere weist das Nutzerendgerät zumindest eine Mikrofoneinheit zur Aufnahme der Audiosignale des Nutzers und eine Wiedergabeeinheit zur Darstellung der POIs auf.According to a third aspect of the invention, a system is specified comprising the server described above, a user terminal and a communication network, wherein the server and the user terminal are set up to communicate with one another via the communication network. The system is set up to carry out the method described above. In particular, the user terminal has at least one microphone unit for recording the user's audio signals and a playback unit for displaying the POIs.

Gemäß einem vierten Aspekt der Erfindung ist ein Computerprogramm angegeben, umfassend Befehle, die bei der Ausführung des Programms durch den zuvor beschriebenen Server diesen veranlassen, die Schritte des vorstehend beschriebenen Verfahrens auszuführen.According to a fourth aspect of the invention, a computer program is specified, comprising commands which, when the program is executed by the previously described server, cause the server to carry out the steps of the method described above.

Weitere vorteilhafte Ausgestaltungsmerkmale der vorliegenden Erfindung sind in den Patentansprüchen definiert.Further advantageous design features of the present invention are defined in the patent claims.

Im Folgenden werden bevorzugte Ausführungsbeispiele der vorliegenden Erfindung unter Bezugnahme auf die begleitenden Figuren erläutert:

  • 1: zeigt schematisch das erfindungsgemäße System zum Generieren und Anzeigen von Schlagwörtern Themen, die Teilnehmer eines POIs diskutieren;
  • 2: zeigt das erfindungsgemäße Verfahren illustrativ in einer virtuellen Umgebung;
  • 3: zeigt die erfindungsgemäßen Verfahrensschritte, die von einem Computerprogramm auf einem Server ausgeführt werden.
Preferred exemplary embodiments of the present invention are explained below with reference to the accompanying figures:
  • 1 : shows schematically the system according to the invention for generating and displaying keywords topics that participants in a POI discuss;
  • 2 : shows the method according to the invention illustratively in a virtual environment;
  • 3 : shows the method steps according to the invention, which are carried out by a computer program on a server.

Nachfolgend werden zahlreiche Merkmale der vorliegenden Erfindung anhand von bevorzugten Ausführungsformen ausführlich erläutert. Die vorliegende Offenbarung ist dabei nicht auf die konkret genannten Merkmalskombinationen beschränkt. Vielmehr lassen sich die hier genannten Merkmale beliebig zu erfindungsgemäßen Ausführungsformen kombinieren, sofern dies nachfolgend nicht ausdrücklich ausgeschlossen ist.Numerous features of the present invention are explained in detail below using preferred embodiments. The present disclosure is not limited to the specifically mentioned combinations of features. Rather, the features mentioned here can be combined in any way to form embodiments according to the invention, unless this is expressly excluded below.

1 zeigt schematisch das erfindungsgemäße System 10, insbesondere ein Kommunikationssystem 10, zum Generieren und Anzeigen von Schlagwörtern Themen, die Teilnehmer eines virtuellen POIs diskutieren. Das System 10 umfasst ein Nutzerendgerät 20, einen Server 40 und ein Kommunikationsnetzwerk 60 auf, wobei das Nutzerendgerät 20 mittels des Kommunikationsnetzwerks 60, kurz auch Netzwerk 60, mit dem Server 40 Daten austauscht. Auf dem Server 40 ist eine virtuelle Umgebung implementiert, die zumindest einen POI aufweist mit dem ein Nutzer mittels seines Nutzerendgerät 20 interagieren kann. Der POI entspricht einem „Ort von Interesse“ an dem sich verschiedene Nutzer der virtuellen Umgebung treffen und verschiedene Themen diskutieren können. Der POI kann aber auch beispielsweise einem virtuellen Messestand entsprechen, wo Hersteller Produkte anbieten und die anderen Nutzer gegebenenfalls Fragen zu dem Produkt stellen können. 1 schematically shows the system 10 according to the invention, in particular a communication system 10, for generating and displaying keywords topics that participants in a virtual POI discuss. The system 10 includes a user terminal 20, a server 40 and a communication network 60, whereby the user terminal 20 exchanges data with the server 40 by means of the communication network 60, or network 60 for short. A virtual environment is implemented on the server 40, which has at least one POI with which a user can interact using his user terminal 20. The POI corresponds to a “place of interest” where different users of the virtual environment can meet and discuss various topics. The POI can also correspond, for example, to a virtual trade fair stand where manufacturers produce products and other users can ask questions about the product if necessary.

Das Nutzerendgerät 20 ist beispielsweise ein Smartphone 20, eine VR Brille 20 oder ein Computer 20, wobei das Nutzerendgerät 20 eine Mikrofoneinheit 22 und eine Anzeigeneinheit 24, insbesondere ein Display 24, umfasst. An das Nutzerendgerät 20 können Mittel zur Interaktion mit dem Nutzerendgerät 20 angeschlossen werden bzw. das Nutzerendgerät 20 kann die Mittel zur Interaktion umfassen. Die Mittel zur Interaktion mit dem Nutzerendgerät 20 sind beispielsweise eine Computermaus oder eine Computertastatur. Das Nutzerendgerät 20 kann auch entsprechend eingerichtet sein, dass der Nutzer mittels seines Fingers oder seiner Stimme mit dem Nutzerendgerät 20 und insbesondere mit der auf dem Nutzerendgerät 20 dargestellten virtuellen Umgebung interagieren kann. Ferner weist das Nutzerendgerät 20 eine Kommunikationsschnittstelle zur Kommunikation über das Kommunikationsnetzwerk 60 mit dem Server 40 auf. Der Server 40 weist ebenfalls eine entsprechende Kommunikationsschnittstelle auf. Das Nutzerendgerät 20 kann als Kommunikationsschnittstelle insbesondere ein Funkmodul aufweisen.The user terminal 20 is, for example, a smartphone 20, a VR glasses 20 or a computer 20, the user terminal 20 comprising a microphone unit 22 and a display unit 24, in particular a display 24. Means for interacting with the user terminal 20 can be connected to the user terminal 20 or the user terminal 20 can include the means for interaction. The means for interacting with the user terminal 20 are, for example, a computer mouse or a computer keyboard. The user terminal 20 can also be set up so that the user can interact with the user terminal 20 and in particular with the virtual environment displayed on the user terminal 20 using his finger or his voice. Furthermore, the user terminal 20 has a communication interface for communication via the communication network 60 with the server 40. The server 40 also has a corresponding communication interface. The user terminal 20 can in particular have a radio module as a communication interface.

2 zeigt das erfindungsgemäße Verfahren anhand eines Ausführungsbeispiels illustrativ in einer virtuellen Umgebung 100, wie sie beispielsweise auf eine Anzeigeneinheit des Nutzerendgeräts 20 dargestellt werden kann. 2 shows the method according to the invention using an exemplary embodiment in a virtual environment 100, as can be displayed, for example, on a display unit of the user terminal 20.

Die virtuelle Umgebung zeigt drei verschiedene POIs (POI 1, POI 2, POI 3), die durch einen abgegrenzten Bereich innerhalb der virtuellen Umgebung 100 definiert sind. Der Nutzer 110 der virtuellen Umgebung, der sich über die Themen einer der POIs informieren möchte, ist durch den Kreis mit einem Kreuz in der Mitte quasi als Avatar 110 dargestellt.The virtual environment shows three different POIs (POI 1, POI 2, POI 3) that are defined by a delimited area within the virtual environment 100. The user 110 of the virtual environment, who would like to find out more about the topics of one of the POIs, is represented as an avatar 110 by the circle with a cross in the middle.

Das Verfahren kann nun wie folgt ablaufen. Der Nutzer 110 besucht eine virtuelle Konferenz, die in der virtuellen Umgebung 100 dargestellt wird und befindet sich quasi in einer virtuellen Lobby, welche die Konferenz in ihrer Gesamtheit abbildet. Alle vorhandenen Marktplätze und/oder Vortragsräume sind als POIs visuell abgebildet und von dieser Lobby aus sichtbar für den Nutzer 110.The procedure can now proceed as follows. The user 110 visits a virtual conference that is represented in the virtual environment 100 and is essentially in a virtual lobby that represents the conference in its entirety. All existing marketplaces and/or lecture rooms are visually depicted as POIs and visible to the user 110 from this lobby.

Die Position des Nutzers ist in der virtuellen Umgebung 100 in einer einfachen Ausführungsform beispielsweise als 2D oder 3D Koordinaten, insbesondere relativ zu den POIs, bekannt. Auf diese Weise kann sich der Nutzer 110 gezielt zu bestimmten POIs begeben oder aber mehrere Nutzer können dynamisch neue POIs bilden. Damit Teilnehmer eines bestimmten POIs nicht die Gespräche eines anderen POIs störend hören, kann ein Algorithmus in der virtuellen Umgebung 100 implementiert sein, der die Lautstärke der Audiosignale desto schwächer überträgt oder sogar gänzlich unterbindet, je weiter zwei Avatare 110 bezüglich ihrer 2D oder 3D Koordinaten voneinander entfernt sind. Navigiert eine Person ihren Avatar 110 dann von einem ersten POI zu einem zweiten POI, werden die Audiosignale des ersten POI stetig leiser, wohingegen die Audiosignale des zweiten POI stetig lauter werden, wodurch die Gegebenheiten einer realen Welt simuliert werden.The position of the user is known in the virtual environment 100 in a simple embodiment, for example as 2D or 3D coordinates, in particular relative to the POIs. In this way, the user 110 can go to specific POIs or several users can dynamically create new POIs. So that participants of a specific POI do not hear the conversations of another POI in a disruptive manner, an algorithm can be implemented in the virtual environment 100, which transmits the volume of the audio signals at a weaker level or even completely prevents it, the further two avatars 110 are from one another in terms of their 2D or 3D coordinates are removed. If a person then navigates their avatar 110 from a first POI to a second POI, the audio signals of the first POI become steadily quieter, whereas the audio signals of the second POI become steadily louder, thereby simulating the conditions of a real world.

Mit dem Finger oder der Maus kann der Nutzer 110 sich nun den verschiedenen POIs nähern und/oder diese anklicken, um Informationen zu bekommen, welche Themen in diesem Moment oder vor ein paar Augenblicken in dem POI vorgestellt bzw. diskutiert wurden.With the finger or the mouse, the user 110 can now approach the various POIs and/or click on them to get information about which topics were presented or discussed in the POI at this moment or a few moments ago.

Mit einem Touch oder Klick auf die entsprechende POI erscheint eine visuelle Schlagwortwolke und/oder die generierten Schlagwörter werden als Wörter über eine Lautsprechereinheit des Nutzerendgeräts 20 an den Nutzer übertragen. In 2 klickt der Nutzer den POI 2 an, worauf hin die Schlagwortwolke „E-Autos; aktuelle Entwicklungen; Akkukapazität; Reichweite“ erscheint. Vorzugsweise kann bei der sprachlichen Wiedergabe die echte Stimme des Referenten verwendet bzw. nachgebildet werden.With a touch or click on the corresponding POI, a visual keyword cloud appears and/or the generated keywords are transmitted to the user as words via a loudspeaker unit of the user terminal 20. In 2 the user clicks on POI 2, whereupon the keyword cloud “E-cars; current developments; battery capacity; Range” appears. Preferably, the real voice of the speaker can be used or reproduced during the linguistic reproduction.

Der Vortrag oder die Diskussionsrunde kann per Mikrofon, insbesondere per Richtmikrofon, als Audiosignale an eine Sprachverarbeitung auf dem Server 40 übertragen werden, wobei die Sprachverarbeitung ASR und NLU Methoden an den empfangenen Audiosignalen anwendet und somit die Schlagwortwolke konstant mit aktuellen Informationen über die gerade besprochenen Themen befüllt, wobei die Schlagwortwolke, wie schon vorstehend angedeutet, durch eine Audioengine dem Nutzer vorgelesen werden kann.The lecture or discussion can be transmitted via microphone, in particular via directional microphone, as audio signals to speech processing on the server 40, with the speech processing applying ASR and NLU methods to the received audio signals and thus constantly providing the keyword cloud with current information about the topics currently being discussed filled, whereby the keyword cloud, as already indicated above, can be read to the user by an audio engine.

Die Schlagwortwolke kann wie im allgemein Teil beschrieben durch trainierte neuronale Netzwerke generiert werden. Allerdings gibt es auch andere Ausführungsformen, die mitunter kombinierbar sind. In einer Ausführungsform wird die Schlagwortwolke aus der Häufigkeit der gesprochenen Wörter gebildet. Bevorzugt wird die Schlagwortwolke allerdings anhand den Klassifizierungen der NLU gebildet, wobei hierbei für die Schlagwortwolke insbesondere Intents und Entities für die Kategorisierung genutzt werden.The keyword cloud can be generated by trained neural networks as described in the general section. However, there are also other embodiments that can sometimes be combined. In one embodiment, the keyword cloud is formed from the frequency of the spoken words. However, the keyword cloud is preferably formed based on the classifications of the NLU, with intents and entities being used in particular for the keyword cloud for categorization.

Die Schlagwortwolke, die zumindest ein Schlagwort umfasst, kann mit Präferenzen oder Interessen des Nutzers abgeglichen werden, um einen „Inhalt-Empfehlungs-Faktor“ für jeden einzelnen Nutzer in Bezug auf den Inhalt der Gespräche des POIs zu empfehlen. Diese Präferenzen oder Interessen können auf verschiedene Weise sowohl manuell als auch automatisch abgeleitet werden.The keyword cloud, which includes at least one keyword, can be matched with the user's preferences or interests to recommend a "content recommendation factor" for each individual user in relation to the content of the POI's conversations. These preferences or interests can be derived in various ways both manually and automatically.

Im manuellen Fall wählt der Nutzer bei der Registrierung oder bei dem Eintritt in die virtuelle Umgebung 100 vorgegebene Schlagworte aus oder gibt diese ein.In the manual case, the user selects or enters 100 predefined keywords when registering or entering the virtual environment.

Im automatisierten Fall: Im heutigen Businessumfeld besitzen viele Nutzer ein Social Media Profil auf diversen Social Media Seiten. Der Nutzer hat die Möglichkeit zumindest eines dieser Profile bei der Registrierung oder beim Eintritt in die Lobby mit der virtuellen Umgebung zu verknüpfen, woraus automatisiert Metadaten aus den Social Media Seiten zur Erstellung der präferierten Schlagworte extrahiert werden können.In the automated case: In today's business environment, many users have a social media profile on various social media sites. The user has the option of linking at least one of these profiles to the virtual environment when registering or entering the lobby, from which metadata can be automatically extracted from the social media pages to create the preferred keywords.

Durch die Präferenzen des Nutzers kann dann eine entsprechende Empfehlung ausgesprochen werden, indem eine Überschneidung der Nutzerpräferenzen und des aktuellen Inhalts der gebildeten Schlagwortwolke berechnet wird. Übersteigt die Überschneidung einen gewissen Grenzwert wird der POI „besonders empfohlen“ - beispielsweise durch eine farbliche Hervorhebung.Based on the user's preferences, a corresponding recommendation can then be made by calculating an overlap between the user preferences and the current content of the keyword cloud formed. If the overlap exceeds a certain limit, the POI is “particularly recommended” - for example by being highlighted in color.

Zudem ist es möglich basierend auf den Präferenzen des Nutzers direkt mit anderen Gesprächsteilnehmern zu interagieren und diesen eine Teilnahme zu empfehlen, weil die Interessen und Präferenzen eine hohe Übereinstimmung zeigen.In addition, based on the user's preferences, it is possible to interact directly with other participants in the conversation and recommend that they participate because the interests and preferences show a high level of similarity.

Wird zur Interaktion mit der virtuellen Umgebung auf dem Nutzerendgerät das Mikrofon in Kombination mit einer Lautsprechereinheit verwendet, können insbesondere blinde oder sehbehinderte Nutzer das Verfahren nutzen, um an virtuellen Umgebungen, insbesondere in Form von Konferenzen, teilzuhaben.If the microphone is used in combination with a loudspeaker unit to interact with the virtual environment on the user terminal, blind or visually impaired users in particular can use the method to participate in virtual environments, especially in the form of conferences.

Ist die Schlagwortwolke generiert und wird diese wie in der 2 angezeigt, kann der Nutzer den POI 2 markieren und diesem beitreten.Is the keyword cloud generated and is it as in the 2 displayed, the user can mark POI 2 and join it.

Eine Abwandlung des vorstehend beschriebenen Verfahrens wäre es, einen Gesamtvortrag oder eine Diskussion in vollständiger Länge mittels eines Audiosignals zu erfassen, in Text umzuwandeln und einem Nutzer bereitzustellen.A modification of the method described above would be to capture an entire lecture or discussion in its entirety using an audio signal, convert it into text and make it available to a user.

3 zeigt die erfindungsgemäßen Verfahrensschritte 300, die von einem Computerprogramm auf einem Server ausgeführt werden.
Schritt 310: Darstellung eines virtuellen POIs auf einer Wiedergabeeinheit, insbesondere einer Anzeigeeinheit und/oder Lautsprechereinheit, eines Nutzerendgerätes;

Schritt 320: Erfassen von Audiosignalen des POIs und optional zusätzliches Erfassen von weiteren den POI kennzeichnenden Daten;
Schritt 330: Verwendung der erfassten Audiosignale und optional zusätzlich der weiteren kennzeichnenden Daten als Input eines Klassifizierungsalgorithmus, wobei der Klassifizierungsalgorithmus eingerichtet ist basierend auf den erfassten Audiosignalen und optional zusätzlich der weiteren kennzeichnenden Daten ein Schlagwort für den einen POI zu erkennen.
3 shows the method steps 300 according to the invention, which are carried out by a computer program on a server.
Step 310: Display of a virtual POI on a playback unit, in particular a display unit and/or loudspeaker unit, of a user terminal;

Step 320: Acquiring audio signals of the POI and optionally additionally capturing further data identifying the POI;
Step 330: Use of the captured audio signals and optionally additionally the further characterizing data as input of a classification algorithm, the classification algorithm being set up to recognize a keyword for the one POI based on the captured audio signals and optionally additionally the further characterizing data.

Schritt 340: Erzeugung von Steuerbefehlen eingerichtet zur Wiedergabe des erkannten Schlagwortes des POIs auf einer Anzeigeeinheit des Nutzerendgerätes und Übertragung der Steuerbefehle an das Nutzerendgerät.Step 340: Generation of control commands set up to reproduce the recognized keyword of the POI on a display unit of the user terminal and transmission of the control commands to the user terminal.

Claims (11)

Verfahren zum Generieren von Themen eines Point-of-Interests „POI“ in einer virtuellen Umgebung, umfassend die folgenden Schritte • Darstellung eines virtuellen POIs innerhalb einer virtuellen Umgebung auf einer Wiedergabeeinheit, insbesondere einer Anzeigeeinheit und/oder einer Lautsprechereinheit, eines Nutzerendgerätes; • Erfassen von Audiosignalen des POIs und optional zusätzliches Erfassen von weiteren den POI kennzeichnenden Daten; • Verwendung der erfassten Audiosignale und optional zusätzlich der weiteren kennzeichnenden Daten als Input eines Klassifizierungsalgorithmus, wobei der Klassifizierungsalgorithmus eingerichtet ist basierend auf den erfassten Audiosignalen und optional zusätzlich der weiteren kennzeichnenden Daten ein Schlagwort für den einen POI zu erkennen; • Wiedergabe des erkannten Schlagwortes des POIs.A method for generating topics of a point of interest “POI” in a virtual environment, comprising the following steps • Representation of a virtual POI within a virtual environment on a playback unit, in particular a display unit and/or a loudspeaker unit, of a user terminal; • Capture audio signals from the POI and optionally additional capture of other data identifying the POI; • Use of the recorded audio signals and optionally additionally the further identifying data as input of a classification algorithm, the classification algorithm being set up to recognize a keyword for the one POI based on the recorded audio signals and optionally additionally the further identifying data; • Playback of the recognized keyword of the POI. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass verschiedene POIs mittels eines POI Unterscheidungs-Algorithmus erkannt werden.Procedure according to Claim 1 , characterized in that different POIs are recognized using a POI distinction algorithm. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Nutzer mittels Navigationsmitteln zu POIs navigiert.Method according to one of the preceding claims, characterized in that the user navigates to POIs using navigation means. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Nutzer mittels Markierungsmitteln den POI markiert, wobei der Klassifizierungsalgorithmus für den markierten POI ausgeführt wird und/oder wobei die Schlagwörter des markierten POI angezeigt werden.Method according to one of the preceding claims, characterized in that the user marks the POI by means of marking means, the classification algorithm being carried out for the marked POI and/or the keywords of the marked POI being displayed. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Audiosignale von einer Teilmenge von POIs, insbesondere von einem POI, parallel erfasst und verarbeitet werden.Method according to one of the preceding claims, characterized in that the audio signals come from a subset of POIs, in particular special from a POI, recorded and processed in parallel. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Audiosignale je POI für einen vordefinierten Zeitraum oder für einen dynamischen Zeitraum erfasst werden.Method according to one of the preceding claims, characterized in that the audio signals are recorded for each POI for a predefined period of time or for a dynamic period of time. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass erkannte Schlagwörter der POIs mit präferierten Schlagwörtern des Nutzers abgeglichen, und dass POIs kenntlich gemacht werden, die präferierte Schlagwörter aufweisen.Method according to one of the preceding claims, characterized in that recognized keywords of the POIs are compared with the user's preferred keywords, and that POIs which have preferred keywords are identified. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass präferierte Schlagwörter automatisiert aus einem online Profil des Nutzers extrahiert werden und/oder dass präferierte Schlagwörter manuell durch den Nutzer eingegeben werden.Procedure according to Claim 7 , characterized in that preferred keywords are automatically extracted from an online profile of the user and/or that preferred keywords are entered manually by the user. Server zur Datenverarbeitung, umfassend Mittel zur Ausführung der Schritte des Verfahrens nach Anspruch 1.Server for data processing, comprising means for carrying out the steps of the method Claim 1 . System umfassend einen Server gemäß Anspruch 9 und ein Nutzerendgerät, wobei das Nutzerendgerät zur Kommunikation mit dem Server über ein Kommunikationsnetzwerk eingerichtet ist, wobei das Nutzerendgerät zumindest eine Mikrofoneinheit zur Aufnahme der Audiosignale eines Nutzers und eine Wiedergabeeinheit zur Darstellung der POIs umfasst.System comprising a server according to Claim 9 and a user terminal, wherein the user terminal is set up to communicate with the server via a communication network, the user terminal comprising at least one microphone unit for recording the audio signals of a user and a playback unit for displaying the POIs. Computerprogramm, umfassend Befehle, die bei der Ausführung des Programms durch einen Server gemäß Anspruch 9 diesen veranlassen, die Schritte des Verfahrens nach Anspruch 1 auszuführen.Computer program comprising commands that are used when the program is executed by a server Claim 9 prompt them to follow the steps of the procedure Claim 1 to carry out.
DE102022116004.1A 2022-06-28 2022-06-28 Techniques for generating conversation topics in a virtual environment Pending DE102022116004A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102022116004.1A DE102022116004A1 (en) 2022-06-28 2022-06-28 Techniques for generating conversation topics in a virtual environment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022116004.1A DE102022116004A1 (en) 2022-06-28 2022-06-28 Techniques for generating conversation topics in a virtual environment

Publications (1)

Publication Number Publication Date
DE102022116004A1 true DE102022116004A1 (en) 2023-12-28

Family

ID=89075524

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022116004.1A Pending DE102022116004A1 (en) 2022-06-28 2022-06-28 Techniques for generating conversation topics in a virtual environment

Country Status (1)

Country Link
DE (1) DE102022116004A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190005024A1 (en) 2017-06-28 2019-01-03 Microsoft Technology Licensing, Llc Virtual assistant providing enhanced communication session services
US20190116210A1 (en) 2017-10-18 2019-04-18 International Business Machines Corporation Identifying or creating social network groups of interest to attendees based on cognitive analysis of voice communications
US20220108413A1 (en) 2020-10-06 2022-04-07 Convertsation Ed Inc. Systems and Methods for Providing Civil Discourse as a Service

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190005024A1 (en) 2017-06-28 2019-01-03 Microsoft Technology Licensing, Llc Virtual assistant providing enhanced communication session services
US20190116210A1 (en) 2017-10-18 2019-04-18 International Business Machines Corporation Identifying or creating social network groups of interest to attendees based on cognitive analysis of voice communications
US20220108413A1 (en) 2020-10-06 2022-04-07 Convertsation Ed Inc. Systems and Methods for Providing Civil Discourse as a Service

Similar Documents

Publication Publication Date Title
US11720859B2 (en) Systems and methods for evaluating actions over a computer network and establishing live network connections
DE10220524B4 (en) Method and system for processing voice data and recognizing a language
DE102011014134B4 (en) Method and system for collaborative live tagging of audio conferencing
DE202017105526U1 (en) Interactive voice operated devices
DE102016125594A1 (en) Automatically augment messaging thread based on message classification
DE102014018205A1 (en) Conference system and method for controlling the conference system
DE202017104849U1 (en) Systems and media for presenting a user interface custom for a predicted user activity
EP1361737A1 (en) Method and system for speech signal processing and classification of dialogues
EP2930926A1 (en) Method, software product and device for managing a conference
DE10220522B4 (en) Method and system for processing voice data using voice recognition and frequency analysis
DE112020002743T5 (en) INFORMATION PROCESSING DEVICE
DE102022116004A1 (en) Techniques for generating conversation topics in a virtual environment
EP1560140A1 (en) Method and system for electronic interaction in a network
CN110782961A (en) Intelligent hearing speech rehabilitation method and device, electronic equipment and medium
DE112017007900T5 (en) SYSTEMS AND METHODS FOR GENERATING DATA IN NATURAL LANGUAGE
DE102009039867A1 (en) Candidate evaluation method for voting contest, involves assigning points to authorized voting persons and/or candidates, where points are determined depending on ranks of candidates and/or voting persons
DE102022116002B3 (en) Techniques for generating and displaying topics of conversation
DE112022001088T5 (en) METHOD FOR ELECTRONIC MESSAGE TRANSMISSION USING DISTURBING CONTENT BASED ON IMAGE
EP1363271A1 (en) Method and system for processing and storing of dialogue speech data
DE112020001627T5 (en) INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
DE102022205123A1 (en) Method for conversation assistance and system for conversation assistance
JPH0965306A (en) Two-way communication system
DE102021123284A1 (en) AUTOMATED GENERATION OF PLANS FOR SELF-GUIDED AUGMENTED REALITY SESSIONS FROM REMOTE-GUIDED AUGMENTED REALITY SESSIONS
Tabassum et al. Turn Taking Strategies and Gender: A Conversational Analysis of Pakistani Politicians in TV Shows
Cremins Project Avatar: Utilizing the Power of Social-Media to Share Stories of Hope

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R083 Amendment of/additions to inventor(s)
R016 Response to examination communication