CZ307132B6

CZ307132B6 - A method of managing a multi-user voice dialogue system using discrete simulation

Info

Publication number: CZ307132B6
Application number: CZ2015-179A
Authority: CZ
Inventors: Luboš Šmídl; Jan Švec; Adam Chýlek
Original assignee: Západočeská Univerzita V Plzni
Priority date: 2015-03-12
Filing date: 2015-03-12
Publication date: 2018-01-31
Also published as: CZ2015179A3

Description

Způsob řízení víceuživatelského hlasového dialogového systému pomocí diskrétní simulaceA method of controlling a multi-user voice dialogue system using discrete simulation

Oblast technikyTechnical field

Navrhovaný vynález spadá do oblasti hlasových dialogových systémů, tedy systémů umožňujících komunikaci člověka s počítačem přirozenou řečí. Vynález je využitelný zejména pro výukové nebo cvičné účely v oblasti letecké dopravy a výuku řídících letového provozu. Je však využitelný ve všech oblastech, kde je potřeba společného hlasového dialogu více uživatelů se simulovanými protějšky.The present invention is in the field of voice dialogue systems, that is, systems enabling human-computer communication in natural language. The invention is particularly useful for educational or training purposes in the field of air transport and the teaching of air traffic controllers. However, it is applicable in all areas where multiple voice dialogue with simulated counterparts is needed.

Dosavadní stav technikyBACKGROUND OF THE INVENTION

V oblasti výcviku řídících letového provozu se objevuje požadavek na trénink řídících v simulovaném prostředí, kde řídící komunikují s lidskými protějšky (pseudopiloty), kteří následně ovládají generátor leteckého provozu (ATG - air traffic generátor). Výstupem ATG pak je radarový obraz generovaného (simulovaného) leteckého provozu na radarové obrazovce řídícího ve výcviku.In the field of air traffic control training, there is a demand for training of controllers in a simulated environment where controllers communicate with human counterparts (pseudopilots), who then control the air traffic generator (ATG). The output of ATG is then a radar image of generated (simulated) air traffic on the radar screen controlling in training.

Hlasové dialogové systémy, které by mohly být použity pro tento trénink, dovolují uživateli komunikovat prostřednictvím hlasu s počítačovými či internetovými aplikacemi. Hlavním účelem hlasových dialogových systémů je vytvořit rozhraní mezi počítačem řízenou aplikací a uživatelem, který komunikuje hlasem. Pro úspěšnou interakci člověka s hlasovým dialogovým systémem je třeba mít k dispozici vedle dobře navrženého modulu, který zajišťuje řízení dialogu, též moduly rozpoznávání řeči (ASR), syntézy řeči (TTS) a modul zajišťující porozumění mluvenému jazyku.Voice dialogue systems that could be used for this training allow the user to communicate via voice with computer or Internet applications. The main purpose of voice dialogue systems is to create an interface between a computer-controlled application and a user who communicates by voice. For a successful human interaction with the voice dialogue system, a well-designed dialogue management module, as well as speech recognition modules (ASR), speech synthesis (TTS) and a spoken language understanding module, should be available.

Zařízení pro víceuživatelskou komunikaci je známé např. ze spisu EP 2 189 199. Jeho funkce je však zaměřena na vzájemnou komunikaci mezi samotnými uživateli, tedy komunikaci člověka s člověkem v prostředí simulujícím reálný svět a nikoliv na komunikaci uživatelů se simulovanými protějšky a prostředím.A device for multi-user communication is known, for example, from EP 2 189 199. However, its function is aimed at the mutual communication between the users themselves, that is to say human-to-human communication in a real world simulation environment and not communication of users with simulated counterparts and environment.

Jiné zařízení je známé ze spisu JP 2000/347558. Jeho funkce je zaměřena na výuku řídících letového provozu založenou na hlasovém dialogovém systému s možnostmi přípravy cvičení školitelem a simulace letového provozu a pilotů. Jedná se ovšem o jednouživatelský hlasový dialog.Another device is known from JP 2000/347558. Its function is focused on the training of air traffic controllers based on a voice dialogue system with the possibility of training trainer training and simulation of air traffic and pilots. However, it is a single-user voice dialogue.

Spis CN 103310670 se také zabývá problematikou výuky řídících letového provozu. Toto zařízení však slouží především k simulaci letového provozu (zobrazení a chování letadel) a komunikačních zařízení v něm používaných, nikoliv však k simulaci samotného víceuživatelského dialogu, který v tomto prostředí probíhá.CN 103310670 also deals with the issue of teaching air traffic controllers. However, this device is primarily used to simulate air traffic (display and behavior of aircraft) and communication devices used in it, but not to simulate the multi-user dialogue itself that takes place in this environment.

Podstata vynálezuSUMMARY OF THE INVENTION

Podstatou vynálezu je způsob řízení víceuživatelského hlasového dialogového systému pomocí diskrétní simulace. Způsob je prováděný na výpočetním zařízení. Výpočetní zařízení obsahuje výpočetní jednotku (běžný PC), vstupní a výstupní zařízení (např. klávesnice, mikrofon, monitor, sluchátka) a uživatelské rozhraní. Diskrétní simulace obsahuje simulační procesy, simulační události a sdílené zdroje. Diskrétní simulace je uzpůsobena k implementaci víceuživatelského hlasového dialogového systému množiny reálných uživatelů.SUMMARY OF THE INVENTION The present invention provides a method for controlling a multi-user voice dialog system by discrete simulation. The method is performed on a computing device. The computing device includes a computing unit (a conventional PC), input and output devices (eg, keyboard, microphone, monitor, headphones), and a user interface. Discrete simulation includes simulation processes, simulation events, and shared resources. The discrete simulation is adapted to implement a multi-user voice dialogue system of a set of real users.

Diskrétní simulace dále obsahuje simulační procesy rozpoznávání a syntézy řečí, které generují simulační události.Discrete simulation also includes simulation processes for speech recognition and synthesis that generate simulation events.

- 1 CZ 307132 B6- 1 GB 307132 B6

Diskrétní simulace vytváří spojení k zajištění přístupů simulačních procesů ke sdíleným zdrojům, zejména k procesům rozpoznávání a syntézy řeči.Discrete simulation creates connections to ensure that simulation processes have access to shared resources, especially speech recognition and synthesis.

Diskrétní simulace spravuje množinu naplánovaných událostí, která je synchronizována s reálným časem.A discrete simulation manages a set of scheduled events that is synchronized with real time.

Proces rozpoznávání řeči generuje simulační události ve formě prioritních událostí. Prioritní události jsou vyřízeny v okamžiku vzniku přednostně před naplánovanými událostmi.The speech recognition process generates simulation events in the form of priority events. Priority events are handled at the time of occurrence, rather than scheduled events.

Při provádění způsobuje výpočetním zařízením zprostředkovávána komunikace mezi množinou reálných uživatelů a množinou simulovaných protějšků. Mezi množinami je alespoň jedna komunikační vazba.In execution, the computing device mediates communication between a plurality of real users and a plurality of simulated counterparts. There is at least one communication link between the sets.

Simulovaný protějšek je ve formě simulačního procesu a komunikační vazba je zprostředkována procesy rozpoznávání a syntézy řeči.The simulated counterpart is in the form of a simulation process and the communication link is mediated by speech recognition and synthesis processes.

Podstatou vynálezu je využití již známé diskrétní simulace rozšířené, za účelem řízení víceuživatelského hlasového dialogového systému, o speciální simulační procesy reprezentující rozpoznávání a syntézu řeči spolu s jejich provázáním na sdílené prostředky a simulační události.The present invention is based on the use of the already known discrete simulation extended to control the multi-user voice dialogue system by special simulation processes representing speech recognition and synthesis together with their interconnection to shared resources and simulation events.

Vynález na rozdíl od předchozích známých přístupů k řízení hlasových dialogových systémů umožňuje víceuživatelskou komunikaci, kdy dialogový systém obsluhuje více než jednoho uživatele. Ve stávajících dialogových systémech jeden uživatel komunikuje prostřednictvím systému pro rozpoznávání řeči se systémem řízení dialogu. Systém rozpoznávání řeči zpracovává řečový signál od uživatele a generuje jeho významový popis. Systém řízení dialogu na základě významového popisu vstupu uživatele aktualizuje svůj vnitřní stav a vygeneruje významový popis odpovědi. Významový popis odpovědi je následně v systému syntézy řeči z textu převeden na řečový signál, který je přehrán uživateli. Vynález je netriviálním zobecněním jednouživatelského hlasového dialogového systému.In contrast to the prior art approaches to controlling voice dialog systems, the invention allows multi-user communication where the dialog system serves more than one user. In existing dialogue systems, one user communicates with the dialogue management system via a speech recognition system. The speech recognition system processes the speech signal from the user and generates its meaning description. The dialogue management system updates its internal state based on the semantic description of the user input and generates a semantic description of the response. The semantic description of the response is then converted in the speech-to-text synthesis system into a speech signal which is played back to the user. The invention is a non-trivial generalization of a single-user voice dialogue system.

Objasnění výkresůClarification of drawings

Příkladné provedení navrhovaného řešení je popsáno s odkazem na obr. 1, na kterém je schéma algoritmu a toku informací:An exemplary embodiment of the proposed solution is described with reference to Fig. 1, in which the algorithm and information flow diagram is shown:

1. Inicializace:1. Initialization:

a. Vytvoření prázdné množiny naplánovaných událostíCreate an empty set of scheduled events

b. Vytvoření množiny zdrojůb. Create a set of resources

c. Vytvoření množiny simulačních procesůc. Creating a set of simulation processes

d. Vytvoření nejméně jednoho (1-n) simulačního procesu syntézy řeči (TTS)d. Creating at least one (1-n) speech synthesis simulation process (TTS)

e. Vytvoření nejméně jednoho (1-n) simulačního procesu rozpoznávání řeči (ASR).e. Creating at least one (1-n) speech recognition simulation process (ASR).

f. Zahájení paralelního běhu procesů ASR, TTS a zpracování událostíf. Starting parallel running of ASR, TTS and event processing

2. Běh procesu ASR2. Running the ASR process

a. pokud proces rozpoznávání řeči detekuje začátek promluvy, vloží do množiny naplánovaných událostí prioritní událost začátku promluvy,a. if the speech recognition process detects the beginning of the utterance, it inserts a priority of the utterance of the utterance into the set of scheduled events,

b. pokud proces rozpoznávání řeči detekuje konec promluvy, vloží do množiny naplánovaných událostí prioritní událost konce promluvy,b. if the speech recognition process detects the end of the utterance, it inserts a priority end of the utterance event into the set of scheduled events,

c. pokud proces rozpoznávání řeči provede rozpoznání a porozumění promluvy, vloží do množiny naplánovaných událostí prioritní událost nesoucí výsledek rozpoznání.c. if the speech recognition process performs speech recognition and understanding, it inserts a priority event carrying the recognition result into the set of scheduled events.

-2CZ 307132 B6-2GB 307132 B6

3. Běh procesu TTS3. Running the TTS process

a. proces syntézy řeči čeká na aktivaci události požadavku k syntéze řeči a dostupnost požadovaných zdrojůa. The speech synthesis process is waiting for the speech synthesis request event to be triggered and the required resources available

b. proveď syntézu řečib. Perform speech synthesis

c. vlož do množiny naplánovaných událostí prioritní událost konce syntézy řečic. insert a speech synthesis end priority event into the set of scheduled events

d. uvolni alokované zdrojed. release allocated resources

4. Zpracování událostí4. Event processing

a. Je-li v množině naplánovaných událostí prioritní událost, pak aktivuj tuto událost U. Pro každý proces P čekající na aktivaci události U proveď:a. If there is a priority event in the set of scheduled events, then activate that event U. For each process P waiting to trigger the event U perform:

i. aktivuj proces P, ii. počkej na vrácení množiny V nových událostí procesem P, iii. pozastav proces P, iv. přidej události V do množiny naplánovaných událostí.i. activate process P; ii. wait for the set V to return the set V, iii. suspending process P, iv. add V events to the set of scheduled events.

Odstraň U z množiny naplánovaných událostí.Remove U from the set of scheduled events.

b. Je-li v množině naplánovaných událostí taková událost, jejíž podmínka je splněna, pak aktivuj tuto událost U. Pro každý proces P čekající na aktivaci události U proveď:b. If there is an event in the set of scheduled events, the condition of which is met, then activate that event U. For each process P waiting to trigger the event U perform:

Příklady uskutečnění vynálezuDETAILED DESCRIPTION OF THE INVENTION

V příkladném provedení je uskutečněn způsob řízení víceuživatelského hlasového dialogového systému pomocí diskrétní simulace, který je využit pro trénink řídících letového provozu. Způsob řízení hlasového dialogu pomocí diskrétní simulace je využit ke zvýšení realističnosti tréninku.In an exemplary embodiment, a method of controlling a multi-user voice dialogue system by discrete simulation is implemented that is used for training air traffic controllers. The method of managing voice dialogue by means of discrete simulation is used to increase the realism of training.

V tomto případě je vynález uskutečněn následujícím způsobem:In this case, the invention is practiced as follows:

Způsob je prováděný na výpočetním zařízení, které obsahuje výpočetní jednotku, vstupní a výstupní zařízení a uživatelské rozhraní.The method is performed on a computing device comprising a computing unit, an input / output device, and a user interface.

Diskrétní simulace je modelem světa, přičemž jeho činnost sestává z vykonávání posloupnosti událostí diskrétních v čase. Tento model světa mění svůj stav jen a pouze v těchto diskrétních okamžicích. V prostředí diskrétní simulace existuje pro každý simulovaný let v ATG simulační proces. Tento simulační proces přijímá příkazy od řídícího a generuje odpovědi, které jsou mu zpětně předány. Příkazy a odpovědi jsou reprezentovány významovým popisem. Diskrétní simulace je uzpůsobena k implementaci víceuživatelského hlasového dialogového systému. Součástí diskrétní simulace jsou:Discrete simulation is a model of the world, and its activity consists of executing a sequence of events discrete over time. This model of the world changes its state only in these discrete moments. In a discrete simulation environment, there is a simulation process for each simulated flight in ATG. This simulation process receives commands from the controller and generates responses that are passed back to it. Commands and responses are represented by a semantic description. The discrete simulation is adapted to implement a multi-user voice dialog system. Discrete simulation includes:

• simulační procesy - simulační proces je modelem objektu reálného světa. Simulační proces je aktivován simulačními událostmi. Po aktivaci proces změní svůj vnitřní stav a vygeneruje nové události, na které opět čeká.• simulation processes - the simulation process is a model of the real world object. The simulation process is activated by simulation events. Once activated, the process changes its internal state and generates new events for which it waits again.

-3 CZ 307132 B6 • simulační události - na simulační událost je navázána podmínka, při které je událost aktivována. Po aktivaci simulační události jsou postupně aktivovány simulační procesy, které na událost čekají. Simulační události se vkládají do množiny naplánovaných událostí.• simulation event - the condition during which the event is activated is connected to the simulation event. After the simulation event is activated, the simulation processes that are waiting for the event are gradually activated. Simulation events are inserted into the set of scheduled events.

• sdílené zdroje - sdílené zdroje jsou modely objektů z reálného světa, které umožňují přístup pouze omezenému množství simulačních procesů. Pokud simulační proces vyžaduje ke své činnosti sdílený zdroj, musí si jej nejprve rezervovat. Při rezervaci sdíleného zdroje je kontrolováno, zdaje splněna podmínka na množství simulačních procesů přistupujících ke sdílenému zdroji. Pokud je tato podmínka splněna, je simulační zdroj rezervován. Pokud podmínka splněna není, je simulační proces pozastaven a je vygenerována nová událost, na jejíž aktivaci simulační proces čeká. Událost je aktivována v okamžiku, kdy se počet simulačních procesů přistupujících ke sdílenému zdroji sníží tak, aby byla splněna omezující podmínka. Aktivací události dojde k aktivaci simulačního procesu. V okamžiku, kdy simulační proces přestává vyžadovat přístup ke sdílenému zdroji, je rezervace sdíleného zdroje uvolněna.• Shared Resources - Shared Resources are real-world object models that allow access to only a limited number of simulation processes. If a simulation process requires a shared resource to operate, it must first reserve it. When reserving a shared resource, it is checked that the condition for the number of simulation processes accessing the shared resource is met. If this condition is met, the simulation resource is reserved. If the condition is not met, the simulation process is paused and a new event is generated and the simulation process is waiting to be activated. The event fires when the number of simulation processes accessing the shared resource is reduced to meet the constraint condition. Activating the event activates the simulation process. When the simulation process ceases to require access to the shared resource, the shared resource reservation is released.

Sdílené zdroje v diskrétní simulaci jsou použity pro modelování sdíleného přenosového pásma pro analogovou radiotelefonii. Toto přenosové pásmo umožňuje vysílání vždy pouze jedné účastnické radiostanici. Ostatní radiostanice jsou naladěny na příjem a přijímají veškerý radioprovoz na dané frekvenci. Role přijímající/vysílající strana se v průběhu komunikace mění. Sdílený zdroj “vysílání na frekvenci” pak může mít rezervován vždy nejvýše jeden proces syntézy řeči z textu, čímž je zajištěno, že nedojde k překrytí vysílání od dvou simulovaných letů.Shared resources in discrete simulation are used to model a shared transmission band for analog radiotelephony. This transmission band allows transmission of only one radio station at a time. Other radio stations are tuned to receive and receive all radio operations at a given frequency. The role of the receiving / sending party changes during communication. The shared "frequency broadcast" source may then have at most one speech-to-text synthesis process reserved, ensuring that there is no overlap between two simulated flights.

• množina naplánovaných událostí - je množina dvojic (podmínka, událost), kde podmínka specifikuje, kdy je odpovídající událost aktivována. Při aktivaci události jsou postupně procházeny všechny simulační procesy, které na událost čekají a tyto procesy jsou po jednom aktivovány. Každý aktivovaný proces změní svůj vnitřní stav a vygeneruje novou událost, na kterou čeká. Vygenerováním nové události je tato přidána do množiny naplánovaných událostí. Množina naplánovaných událostí, je synchronizována s reálným časem.• set of scheduled events - is a set of pairs (condition, event), where the condition specifies when the corresponding event is activated. When an event is triggered, all the simulation processes that are waiting for the event are progressively scanned and these processes are activated one by one. Each activated process changes its internal state and generates a new event it is waiting for. Generating a new event adds it to the set of scheduled events. The set of scheduled events is synchronized with real time.

Diskrétní simulace dále obsahuje simulační procesy rozpoznávání řeči a syntézy řeči, které generují simulační události. Proces syntézy řeči z textu komunikuje s procesem simulovaného letu. Proces syntézy řeči z textu generuje řečový signál, který je přehráván řídícímu ve výcviku. Do vygenerované řeči vkládá deterministický a/nebo náhodný šum představující ruchy a šumy v letadle a v komunikačním kanále, a zásadním způsobem tak zvyšuje věrohodnost výsledné simulace letecké komunikace a přibližuje tím trénink řídících reálnému provozu.Discrete simulation also includes speech recognition and speech synthesis simulation processes that generate simulation events. The speech-to-speech synthesis process communicates with the simulated flight process. The speech-to-text synthesis process generates a speech signal that is played to the supervisor in training. It adds deterministic and / or random noise to the generated speech, representing noise and noise in the aircraft and in the communication channel, and thus significantly increases the credibility of the resulting simulation of air communication and thus brings closer the training controlling real traffic.

Proces rozpoznávání řeči rozpoznává hlasové příkazy od řídícího a generuje jejich významový popis. Tento významový popis je předáván procesu simulovaného letu pomocí simulačních událostí. Zároveň generuje další simulační události jako je událost indikující začátek promluvy řídícího, nebo událost indikují konec promluvy řídícího. Tyto události jsou do množiny naplánovaných událostí vkládány jako prioritní, tj. nejsou navázány na žádnou podmínku a jsou aktivovány při nejbližší možné příležitosti.The speech recognition process recognizes voice commands from the controller and generates their meaning description. This semantic description is transmitted to the simulated flight process using simulation events. At the same time, it generates other simulation events such as the event indicating the beginning of the controller's speech, or the event indicating the end of the controller's speech. These events are inserted into the set of scheduled events as priority, ie they are not linked to any condition and are activated at the earliest possible opportunity.

Diskrétní simulace poskytuje simulačním procesům exklusivní přístupy ke sdíleným zdrojům, zejména k procesům rozpoznávání a syntézy řeči. Exklusivní přístup je takový typ přístupu, kdy ke zdroji může přistupovat nejvýše jeden proces (např. využití komunikační frekvence).Discrete simulation provides simulation processes with exclusive approaches to shared resources, especially speech recognition and synthesis. Exclusive access is a type of access where no more than one process can access the resource (eg, the use of communication frequency).

Proces rozpoznávání řeči generuje prioritní události, které jsou vyřízeny v okamžiku vzniku přednostně před naplánovanými událostmi. To přináší do simulace větší reálnost, kdy je možné vnášet náhle nové pokyny a uživatel je nucen na ně okamžitě reagovat.The speech recognition process generates priority events that are handled at the time of occurrence, rather than scheduled events. This brings more realism into the simulation, when new instructions can be introduced suddenly and the user is forced to respond immediately.

Při provádění způsobu je zprostředkovávána komunikace mezi množinou uživatelů a množinou simulovaných protějšků. Mezi množinami je alespoň jedna komunikační vazba. Komunikační vazba zajištuje předání potřebné informace mezi uživateli a simulačními procesy. KomunikačníIn performing the method, communication is provided between a plurality of users and a plurality of simulated counterparts. There is at least one communication link between the sets. The communication link ensures the transmission of necessary information between users and simulation processes. Communication

-4CZ 307132 B6 vazba je realizována předáním informace mezi procesy v rámci jednoho výpočetního zařízení, tak i mezi procesy na různých výpočetních zařízeních.Binding is realized by passing information between processes within a single computing device, as well as between processes on different computing devices.

Díky popsanému způsobu umožňuje diskrétní simulace provádět trénink více řídících zároveň každý z řídících má přiřazen jeden proces rozpoznávání řeči (odpovídající jedné komunikační frekvenci) a tento proces rozpoznávání řeči předává generované simulační události procesům simulovaných letů, které mají “naladěnu” tuto komunikační frekvenci. Množina simulovaných letů je sdílena napříč celou simulací. Je tak možné realizovat předávání letů mezi jednotlivými frekvencemi (a tudíž mezi jednotlivými oblastmi řízení letového provozu a mezi různými řídícími), přičemž každá frekvence je modelována jako sdílený zdroj. Využití diskrétní simulace pro řízení hlasového dialogového systému v tomto případě jako jediné umožňuje realizovat scénář, kdy letadlo nejprve komunikuje s prvním řídícím, který jej může instruovat k přeladění na novou frekvenci, čímž předá komunikaci ke druhému řídícímu.Thanks to the described method, discrete simulations allow training of multiple controllers at the same time each of the controllers is assigned one speech recognition process (corresponding to one communication frequency) and this speech recognition process passes the generated simulation events to simulated flight processes that have "tuned" this communication frequency. A set of simulated flights is shared across the simulation. It is thus possible to realize the transfer of flights between different frequencies (and therefore between different air traffic control areas and between different controllers), each frequency being modeled as a shared resource. The use of discrete simulation to control the voice dialogue system in this case alone makes it possible to realize a scenario in which the aircraft first communicates with the first controller, which can instruct it to retune to the new frequency, thereby transmitting the communication to the second controller.

Claims

PATENT CLAIMS

A method of controlling a multi-user voice dialog system by discrete simulation performed on a computing device, the computing device comprising a computing unit, an input / output device, and a user interface, wherein discrete simulation performs simulation processes, simulation events and shared resource modeling, the discrete simulation is adapted to implement a multi-user voice dialogue system of a plurality of real users, characterized in that the discrete simulation first creates a set of scheduled events, a set of shared resources, and a set of simulation processes that includes at least one simulation process of speech synthesis and at least one speech recognition simulation process, then the discrete simulation will start all simulation processes where the speech recognition process at the time the speech is detected is detected the user generates and inserts a priority of the utterance into the set of scheduled events, and at the moment of the utterance detection the user generates and inserts a priority of the utterance in the set of scheduled events, and the speech recognition process generates its meaning description a set of scheduled events as a priority event containing the result of the recognition, then the dialogue management system updates the internal state and generates a semantic response description based on the user's speech description, which is then converted from text to speech in the speech synthesis system and is output to the user by the output device;

wherein the discrete simulation processes scheduled events by firing an event in a set of scheduled events, preferably firing a priority event, and processing the event by activating a process waiting for that event, processing the event, and the discrete simulation waiting for a set of new events to be returned, which then adds to the set of scheduled events, and the process pauses and removes the processed event from the set of scheduled events.